在教育部發(fā)布會上,港科大(廣州)這個項目受矚目!
3月31日下午,教育部舉行新聞發(fā)布會,介紹深入貫徹落實《教育強國建設規(guī)劃綱要(2024—2035年)》,推進語言文字信息化發(fā)展情況。會上,教育部語言文字信息管理司司長劉培俊重點介紹了推進語言文字信息化發(fā)展和數(shù)字中文建設有關情況;教育部語言文字應用管理司副司長王暉針對數(shù)智賦能語言文字高質(zhì)量發(fā)展有關情況進行了介紹;廣東省教育廳副廳長朱建華著重介紹了廣東省推進語言文字信息化的發(fā)展情況,及廣東省如何實施語言文字智能化的發(fā)展思路和行動新范式。
支持香港科技大學(廣州)發(fā)揮智算集群力量,研發(fā)涉及語言知識學習與生成、跨平臺交互與服務集成建設的語言服務大語言模型。
——廣東省教育廳副廳長 朱建華
在教育部、國家語委的指導下,廣東省教育廳按照“五個堅持”的工作思路,深入推進語言文字信息化發(fā)展,大力推進教育數(shù)字化轉(zhuǎn)型,實現(xiàn)國家語言文字的智能化發(fā)展。依托廣州大學成立國家語言服務與粵港澳大灣區(qū)語言研究中心,香港科技大學(廣州)團隊承擔了國家教育部重大項目“基于國家語言服務大模型的國家語言資源服務一體化平臺建設”。項目在黨委書記屈哨兵教授的推動下,由信息樞紐院長陳雷教授領銜,香港科技大學(廣州)、廣州大學、華南師范大學、華中師范大學等多家單位共同參與。項目自2024年啟動以來,進展順利,取得了一系列令人矚目的階段性成果。
屈哨兵教授表示,語言文字是人類社會最重要的交際工具和信息載體,是文化的基礎要素和鮮明標志。語言文字事業(yè)具有基礎性、全局性、社會性和全民性特點,事關國民素質(zhì)提高和人的全面發(fā)展,事關歷史文化傳承和經(jīng)濟社會發(fā)展,事關國家統(tǒng)一和民族團結(jié),是國家綜合實力的重要支撐 。教育部、國家語委在廣州建立了國家語言服務與粵港澳大灣區(qū)語言研究中心,建立了語言資源服務平臺,如何使這個平臺能夠在新時期迎頭趕上人工智能時代對服務國家服務社會服務教育方面的需求是擺在中心和平臺面前的一個重大課題,依托港科大(廣州)和廣州大學等高校的合作優(yōu)勢,在教育部國家語委的統(tǒng)籌指導下做好建設工作是題中應有之義。他表示,也特別欣賞港科大(廣州)這種投入資源服務和支持國家語言文字事業(yè)發(fā)展的眼光和態(tài)度,相信團隊合作能夠把這個事情做好,為數(shù)字中文建設增添新動力。

堅持國家重大需求牽引,筑牢語言服務大模型根基
自項目立項以來,團隊在陳雷教授的帶領下,深入調(diào)研國家語言資源服務一體化平臺的需求,結(jié)合當前前沿的大語言模型技術(shù),設計并部署了國家語言資源服務一體化平臺。該平臺目前部署在香港科技大學(廣州),采用混合專家模型策略與架構(gòu),以多智能體的構(gòu)建方式,融合了包括 Deepseek-R1(671B)、通義千問、LLaMA等在內(nèi)的各類大模型底座,推出了國家語言服務大模型 。該大模型架構(gòu)集成了國家語言資源服務平臺的各類資源和知識源,能夠?qū)崿F(xiàn)服務資源的跨平臺聯(lián)動,自動針對不同的服務請求進行智能路由,精準定位語言服務與數(shù)據(jù)源,并能對模型輸出進行推理與溯源,確?;卮饻蚀_性與專業(yè)性。同時,平臺形成了完整的評測方案和策略,結(jié)合漢語言生活相關學術(shù)權(quán)威報告構(gòu)建了國家語言服務領域的標注知識庫,可以用于該領域的模型評估與量化分析。
聚焦優(yōu)化提升,深化模型成果
2024年下半年,項目團隊持續(xù)發(fā)力,對知識庫質(zhì)量與模型調(diào)用效果進行深度優(yōu)化與創(chuàng)新。通過人工標注數(shù)據(jù)、后臺靜默埋點、多源知識匯集等多種有效方式,顯著提升了國家語言文字專業(yè)數(shù)據(jù)庫的質(zhì)量和服務調(diào)用效率?;谏鲜鲈鷮嵉难芯颗c積極的進展,團隊持續(xù)推出了國家語言服務大模型V2.0,并且完成了相關專利的申請和論文的發(fā)表。在語言文字信息化和智能化的道路上,平臺與知識產(chǎn)權(quán)相輔相承,工程與技術(shù)創(chuàng)新共同推進。
著眼未來發(fā)展,強化平臺推廣效能
項目團隊持續(xù)進行平臺和技術(shù)革新,繼續(xù)深化國家語言文字的改革與智能化創(chuàng)新,以精益求精的態(tài)度不斷優(yōu)化服務調(diào)用精度,全力提升平臺的穩(wěn)定性與性能,進一步完善國家語言資源服務一體化平臺的建設。同時,隨著對語言服務領域?qū)嶋H應用場景的深入研究和持續(xù)性成果輸出,團隊未來將大力推動平臺在相關領域與應用場景中的推廣與應用,進一步增強平臺的影響力與示范效應,為國家語言資源服務領域的發(fā)展貢獻更多力量。
背景資料
2024年3月3日,國家語委重大科研項目“基于國家語言服務大模型的國家語言資源服務一體化平臺建設”開題會暨語言文字信息化工作專家座談會在香港科技大學(廣州)召開。據(jù)陳雷教授介紹,項目的目的是要將國家語言資源平臺的現(xiàn)有資源通過大語言模型整合打通,服務于更多垂直領域的產(chǎn)品。整個項目響應《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》和國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,結(jié)合國務院辦公廳推出的《關于全面加強新時代語言文字工作的意見》,打造扎實的研究基礎,促進語言文化的發(fā)展。了解更多>>