齊魯網(wǎng)·閃電新聞4月1日訊 近日,教育部、國家語委、中央網(wǎng)信辦共同印發(fā)了《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》,對加快推進以信息化促進語言文字事業(yè)高質量發(fā)展,以數(shù)字化賦能語言文字更好服務現(xiàn)代化建設等,作出了全面部署。教育部在3月31日舉行的新聞發(fā)布會上對文件進行全面解讀,介紹了全面推進語言文字信息化發(fā)展有關情況。
教育部語言文字信息管理司司長劉培俊在介紹推進語言文字信息化發(fā)展和數(shù)字中文建設有關情況時表示,黨的十八大以來,我國語言文字信息化建設持續(xù)加強,有力服務科技自立自強。大幅度擴充語言文字信息處理技術標準。會同有關部門推動研制并發(fā)布了《信息技術 中文編碼字符集》等國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,為自然語言處理技術在人工智能、數(shù)字產(chǎn)品和信息產(chǎn)業(yè)領域的應用創(chuàng)新奠定規(guī)范基礎。
清華大學、北京大學、哈爾濱工業(yè)大學等開展了語言文字信息技術的深度研發(fā),促進中文信息互聯(lián)互通。其中,北京大學王選計算機研究所建成了中華精品字庫。大規(guī)模構建語言資源體系。建成了世界最大規(guī)模的語言資源庫和中國語言資源知識圖譜,多模態(tài)集成120多種語言和方言資源。大領域布局大語言模型技術應用,聚焦關鍵領域的需求,試點建設了一批自主安全可控的大語言模型。其中,北京師范大學古漢語大語言模型等已上線。
高水平開展普通話水平測試,全面實現(xiàn)從人工到智能的普通話測試方式轉變,制發(fā)電子證書9000多萬份。廣東省建成全國首個普通話水平測試智慧考場。高標準建設語言學習資源。開通國家智慧教育平臺語言服務欄目,建成國家通用語言文字學習平臺,匯聚8000多項學習資源,打造中華經(jīng)典資源庫、中小學語文示范誦讀庫等。高起點規(guī)范數(shù)字空間語言文字,發(fā)布《信息技術產(chǎn)品國家通用語言文字使用管理規(guī)定》,規(guī)范信息技術產(chǎn)品研發(fā),會同有關部門開展“清朗·規(guī)范網(wǎng)絡語言文字使用”專項行動。
多領域推動語言文化資源共建共享。建成國家語委媒體語言語料庫、冬奧會多語言術語庫、公共服務領域譯寫規(guī)范術語庫、規(guī)范標準課程庫等30多項,多渠道打造示范平臺。上線國家語言資源服務平臺、中國語言文字數(shù)字博物館、中國語言資源博物館數(shù)字展區(qū)等。指導各地各校開展云端學習等課程平臺。多模式推進傳承傳播。數(shù)字賦能讓收藏在博物館的文物活起來,支持聯(lián)合開展古文字數(shù)字化研究,開通甲骨文數(shù)據(jù)平臺,傳承中華優(yōu)秀傳統(tǒng)文化根脈。
數(shù)字賦能讓書寫在古籍里的文字活起來,建成中華思想文化術語數(shù)據(jù)庫,面向國際傳播1200多條反映中華民族話語體系中最核心最本質的思想文化術語,并與40多個國家和地區(qū)開展多語種數(shù)字版權合作。已建成集成化、智能化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區(qū),深度化合作建立聯(lián)盟,中文學習聯(lián)盟云服務平臺提供3萬門在線課程,與中外1600多家機構合作,推動實現(xiàn)中文人人、時時、處處可學可用、易學易用。
廣角度支持科研攻關。發(fā)布漢字簡繁文本智能轉換系統(tǒng)、大語言模型評測技術等百余項科研成果。廣布局設置科研機構。設立中國語言智能研究中心、多語種信息技術研究中心、語言技術與數(shù)字經(jīng)濟研究中心等,形成語言科技研發(fā)方陣。廣聯(lián)動鼓勵成果轉化。支持有關高校聯(lián)合人工智能及信息服務領域頭部企業(yè),研發(fā)語言翻譯、智能語音、大語言模型等產(chǎn)品。
劉培俊表示,經(jīng)過多年努力,語言文字信息化以應用為導向、以服務為主線,形成了多語種資源廣泛開發(fā)、多方面技術創(chuàng)新應用、多類型主體共同推進、多維度賦能發(fā)揮作用的良好局面,有效服務經(jīng)濟社會高質量發(fā)展。為搶抓大語言模型迭代升級新機遇、助力“人工智能+”新行動、回應經(jīng)濟社會發(fā)展新需求,《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》明確提出,加強數(shù)字中文建設的理念、政策、行動和項目,將數(shù)字中文建設作為服務數(shù)字中國建設的重要任務和全面推進語言文字信息化發(fā)展的突出重點,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值,著力推進中文數(shù)字化與數(shù)據(jù)中文化,著力推進創(chuàng)新應用與規(guī)范安全,著力推進新型中文服務體系構建與語言文字治理體系完善。
《意見》明確兩個發(fā)展階段,有序實現(xiàn)2027和2035年語言文字信息化發(fā)展目標。第一步到2027年,是以數(shù)字中文建設為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規(guī)范標準、前沿語言技術、優(yōu)質語言資源、新型語言服務等基礎支撐能力顯著增強。第二步面向2035年,是全面推進語言文字信息化發(fā)展的深化賦能階段,推動承載中華文化的中文在全球數(shù)字空間、網(wǎng)絡空間以及生成式人工智能等關鍵場景中的使用占比和價值引領作用顯著提高,實現(xiàn)我國語言文字信息化整體水平位居世界前列。
《意見》部署三項重大任務,統(tǒng)籌推動技術創(chuàng)新、體系保障和關鍵賦能落地見效。創(chuàng)新應用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等五項前沿技術,重點服務大語言模型等人工智能技術創(chuàng)新應用“制高點”,夯實國家關鍵語料基礎設施“新基建”。系統(tǒng)建設語言文字規(guī)范標準、資源服務、人才培養(yǎng)、協(xié)同創(chuàng)新和安全治理五大保障體系,重點提升語言文字信息化的基礎能力。統(tǒng)籌實施數(shù)字中文服務教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動產(chǎn)業(yè)升級、促進社會進步等五大賦能行動,重點推進語言技術與關鍵領域需求深度融合應用。