國際傳播人工智能翻譯語料庫是指基于互聯(lián)網(wǎng)平臺,運用以神經(jīng)機器翻譯技術(shù)為基礎(chǔ)的人工智能翻譯技術(shù),對國際傳播等相關(guān)領(lǐng)域的語料進行數(shù)據(jù)化處理和加工,建立系統(tǒng)對外傳播黨政文獻,領(lǐng)導(dǎo)人著作、講話及外宣圖書,期刊及網(wǎng)絡(luò)新聞等宣傳內(nèi)容為主的語料數(shù)據(jù)庫,并在此基礎(chǔ)上建立國際傳播綜合人工智能語料庫。
國內(nèi)外人工智能、語料庫技術(shù)發(fā)展現(xiàn)狀
經(jīng)過 60 多年的演進,特別是在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、超級計算、傳感網(wǎng)、腦科學(xué)等新理論新技術(shù)以及經(jīng)濟社會發(fā)展強烈需求的共同驅(qū)動下,人工智能加速發(fā)展,呈現(xiàn)出人機協(xié)同、深度學(xué)習(xí)、跨界融合、群智開放、自主操控等新特征,推動經(jīng)濟社會各領(lǐng)域從數(shù)字化、網(wǎng)絡(luò)化向智能化加速躍升。
作為人工智能重要相關(guān)學(xué)科,自然語言處理技術(shù)(NLP)是研究人與計算機交互的語言問題的一門學(xué)科,只有當計算機具備了自然語言的處理能力,才可稱其為真正的人工智能。
20 世紀 90 年代以來,中國的自然語言處理技術(shù)進入快速發(fā)展時期,一系列商品化的系統(tǒng)推向市場,新的研究內(nèi)容、新的應(yīng)用領(lǐng)域也在不斷探索中。
相關(guān)研究均從語音和文本兩方面進行,基礎(chǔ)性研究主要集中在語言學(xué)、數(shù)學(xué)、計算機科學(xué)等領(lǐng)域,比如消除歧義、語法形式化、計算語言學(xué)理論基礎(chǔ)以及語言資源庫等;應(yīng)用性研究主要集中在一些需要應(yīng)用自然語言處理技術(shù)的領(lǐng)域中,比如信息檢索、文本分類、自動文摘、機器翻譯等。
目前,詞法、句法、語義分析等基礎(chǔ)理論的研究和語言資源庫的建設(shè)依然是研究的重點,這一類別的項目幾乎占據(jù)項目總數(shù)的“半壁江山”。
人工智能技術(shù)研究領(lǐng)域的機器翻譯類研究是近年來的熱點,而自然語言理解以及術(shù)語數(shù)據(jù)庫、鍵盤輸入、音字轉(zhuǎn)換等其他類別的研究相對較少。從長遠看,機器翻譯是自然語言處理領(lǐng)域中一個相當重要的部分,直到現(xiàn)在,國內(nèi)對高質(zhì)量機器翻譯系統(tǒng)仍然有相當大的需求。
人工智能促進語言服務(wù)發(fā)展過程中,作為覆蓋范圍及應(yīng)用領(lǐng)域日益廣泛的語料庫,在提高翻譯教學(xué)質(zhì)量、培養(yǎng)優(yōu)秀譯員及促進計算機輔助翻譯中發(fā)揮著重要作用。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫。前者的語料構(gòu)成譯文關(guān)系,多用于機器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域;后者將表述同樣內(nèi)容的不同語言文本收集在一起,多用于語言對比研究。
目前已經(jīng)積累的語料庫包括:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓(xùn)練語料庫、中文文本分類語料庫、大開放字幕庫的多語言平行語料數(shù)據(jù)、短消息服務(wù)(SMS)語料等。
語料庫有三個基本特征:一是語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料,因此例句庫通常不應(yīng)算作語料庫;二是語料庫是承載語言知識的基礎(chǔ)資源,但并不等于語言知識;三是真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。目前,國際和國內(nèi)已有大量建成的語料庫。
英國和美國的語料庫建設(shè)走在世界前列,如 BNC 英國國家語料庫、美國當代英語語料庫。我國外語語料庫建設(shè)多集中于外語口譯、教學(xué)等領(lǐng)域,語種以英語居多,比如中國學(xué)習(xí)者英語語料庫及中國英語學(xué)習(xí)者口語語料庫等,實施單位多為如高??蒲袡C構(gòu)等,針對國際傳播的專項人工智能語料庫建設(shè)仍為空白。
人工智能語料庫解決、國際傳播兩個主要矛盾
1、翻譯及多語報道人力不足制約國際傳播發(fā)展
經(jīng)調(diào)研,從 2013 年起,我國整體翻譯業(yè)務(wù)的“中譯外”業(yè)務(wù)量比例開始顯著高于“外譯中”業(yè)務(wù)量,同年黨中央提出“一帶一路”倡議,極大地拓展了向國際社會展示自己和對外交流的資源和實力。
然而翻譯人才,尤其是“中譯外”人才嚴重匱乏,其中“一帶一路”沿線國家小語種人才缺口較大等問題嚴重制約中國特色政治話語體系的全面外譯以及我國國際話語權(quán)地位的提升。
“一帶一路”沿線國家所使用的官方語言及主要民族語言有 60 余種,2013 年“一帶一路”倡議提出時,我國高校外語專業(yè)招生語種只覆蓋了其中 20 種,而且 11 個小語種人數(shù)不超過 100 人,其中 8 個語種在 50 人以內(nèi)。
截至目前,我國尚未有高校開設(shè)的語種有 18 種,僅有一所高校開設(shè)的語言有 20 種,而且已開設(shè)的一些語種也存在人才儲備不足的情況。在國際傳播方面,我國懂新聞、懂傳播技術(shù)同時又精通外語的“三通”復(fù)合型語言服務(wù)人才更加稀缺。與此同時,可有效彌補多語、小語種人才緊缺的人工智能翻譯軟件應(yīng)用仍缺乏專業(yè)性,且翻譯質(zhì)量精準度較低。
我國日益提高的國際話語權(quán)建設(shè)需求與翻譯和多語報道人才培養(yǎng)不平衡不充分矛盾突出,因此,亟須建設(shè)大量納入優(yōu)秀“中譯外”精準語料的數(shù)據(jù)庫,解放國際傳播翻譯寫作人力,為國際傳播能力建設(shè)解決束縛生產(chǎn)力發(fā)展的瓶頸性障礙,促進我國國際話語權(quán)綜合地位提升,推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展。
2、人工智能機器翻譯推廣受語料庫瓶頸阻礙
現(xiàn)有的人工智能機器翻譯雖然發(fā)展迅速,甚至可以在某些程度幫助提高效率,但由于缺少國際傳播領(lǐng)域?qū)I(yè)語料,模塊訓(xùn)練無法正常實施,產(chǎn)生的成果無法為外宣工作服務(wù)。據(jù)調(diào)查,目前國內(nèi)對外開放的語料庫以高校研究為主,提供給廣大外宣工作者使用的精準語料庫資源嚴重不足。
作為機器翻譯發(fā)展重要基礎(chǔ)的外語語料庫建設(shè)成為人工智能機器翻譯推廣的瓶頸問題。但值得一提的是,目前國際傳播專項語料庫建設(shè)雖具備基礎(chǔ)語料,但仍有大量的語料資源散落,亟須整理整合。這些陳舊性歷史資料為數(shù)不少,有些已經(jīng)處于瀕危狀態(tài),亟待保護性整理開發(fā)。
隨著自然語言處理、知識庫等人工智能技術(shù)在新聞傳播領(lǐng)域的應(yīng)用實踐,國外媒體紛紛嘗試使用機器寫稿等先進技術(shù)。
《紐約時報》數(shù)字部門開發(fā)了機器人編輯Blossomblot,每天推送 300 篇文章,每篇文章的平均閱讀量是普通文章的 38 倍,此外,《紐約時報》還會在財報季、運動比賽報道的時候使用機器人來寫稿;路透社也在發(fā)表機器撰寫的文章,該系統(tǒng)負責(zé)人在一次盲測中,認為機器撰寫的作品比人類作品更具可讀性。
國際傳播基于人工智能語料庫技術(shù)實現(xiàn)跨越式發(fā)展,將有利于我國進一步樹立國際話語權(quán)優(yōu)勢。
一是語料庫技術(shù)能在戰(zhàn)爭、疫情條件下,實現(xiàn)冗余信息過濾和有效信息抓取,提高采訪、寫作效率;二是可對國際受眾做行為分析和興趣等全息畫像,深層了解受眾,實現(xiàn)精準投放;三是語料庫技術(shù)能為外宣稿件做綜合管理統(tǒng)計和分析規(guī)劃,研究數(shù)據(jù)可輔助制定優(yōu)化戰(zhàn)略。
國際傳播翻譯語料庫建設(shè)四大途徑
國際傳播人工智能語料庫將立足于各大外事、外宣單位 70 多年來多媒體對外說明中國的多語資源,一期建設(shè)預(yù)計完成涉及 12 個外語語種,包含5000 萬條語料,數(shù)據(jù)類型從詞、句對、語篇到文章、期刊和書籍的優(yōu)質(zhì)語料數(shù)據(jù)庫。
依據(jù)國際傳播工作需要,在不包含中文對照的多語比較語料庫中,將按照語言使用國家行政區(qū)域劃分為東亞、中亞、西亞,非洲,南美、北美,東歐、西歐及大洋洲等。
語料庫建設(shè)可采用人工智能檢索技術(shù),包含小到詞典功能,大到語句、語篇的關(guān)聯(lián),可以分政治經(jīng)濟、外交軍事、人文社科、科學(xué)技術(shù)和文化娛樂等類型檢索搜集語篇摘要、文章和書籍,系統(tǒng)還將初步涉及人工智能完成稿件寫作的基礎(chǔ)功能,完成機器模仿人腦思維翻譯和寫作對外傳播稿件等功能設(shè)計。
1、語料庫建設(shè)須做好前期準備
首先,語料庫建設(shè)將開發(fā)使用語料庫分析統(tǒng)計軟件,該軟件應(yīng)具有索引、詞表生成、主題詞計算、搭配和詞族提取等多種功能,這為本項目的開展提供強大的技術(shù)支持。
其次,語料庫建設(shè)以閱讀大量專業(yè)文獻資料為基礎(chǔ),并借鑒權(quán)威語料庫建設(shè)經(jīng)驗。將語料類別依據(jù)是否有中文對照可區(qū)分為平行語料庫及比較語料庫,前者可多以中國外文局、中國日報、中國國際廣播電臺等歷史數(shù)據(jù)為主,涉及外文出版社、《今日中國》及《人民中國》中外文對照語料;后者多以《北京周報》、新華社對外部、《求是》(英文版)、《環(huán)球時報》等外文語料為主。
2、語料庫架構(gòu)及功能設(shè)計和語料加工
國際傳播人工智能語料庫可通過多種方式進行文本采集,如大量分析真實歷史語言數(shù)據(jù)、利用網(wǎng)絡(luò)現(xiàn)有語料資源等。
語料庫可涉及多種題材,如政治、經(jīng)濟及文化術(shù)語和科技專利翻譯相關(guān)名詞等,涉及語料庫題材、規(guī)模、樣本的大小、切分標注標準等;此外還應(yīng)充分考慮到語料代表性、平衡性、一致性、標簽集、描述元語言等諸多要素。
3、通過中央機關(guān)和國家外事外宣部門歷史資料廣泛收集語料
首先,在語料庫的大體結(jié)構(gòu)設(shè)計完成后,查詢并收集關(guān)于“一帶一路”各種國際傳播的多類型相關(guān)語料的研究。
以“一帶一路”為例,可以歸納的高頻主題名詞有合作、一帶、一路、國家、絲綢之路、愿景、開放、貿(mào)易、發(fā)展、互聯(lián)、互利共贏、投資、亞洲、文化、機制、地區(qū)、21 世紀、合作、基礎(chǔ)設(shè)施等。
同時,“一帶一路”倡議中主題高頻形容詞及副詞有“互相的、經(jīng)濟的、共同地、地區(qū)的、國際的、跨邊界的、海上的、文化的、多邊的”,這些詞語在情態(tài)上具有很強的評價功能,它們在強調(diào)相互合作重要性的基礎(chǔ)上進一步強調(diào)了構(gòu)建命運、經(jīng)濟和責(zé)任共同體的重要性以及建設(shè)海上絲綢之路和多邊文化交流的必要性。
其次,語料庫還將時刻關(guān)注中央機關(guān)及國家外事外宣部門主要國際傳播活動最新動向,不斷收集有關(guān)詞、固定搭配以及句子等。為了提高翻譯質(zhì)量,語料庫在收錄大量詞、句的同時還將深入挖掘其文化內(nèi)涵并將這些詞、句進行有機整合。
4、語料庫后期維護及擴容發(fā)展
語料庫建成后,需不斷進行日常維護和升級以適應(yīng)新的軟硬件和用戶需求的改變。國際傳播相關(guān)的語料庫會隨著各類活動的開展而不斷更新,以確保其代表性、時效性。
語料庫后期發(fā)展可與多國成熟語料庫展開橫向多元合作,擴大語料來源和基礎(chǔ),實現(xiàn)國際合作共享,促進文化共通;可與國外語料庫建設(shè)開發(fā)者互相學(xué)習(xí)研討,促進合作共贏;可與對象國高校和政府文化部門等語料庫潛在使用消費者展開更多交流合作。
(來源:網(wǎng)絡(luò)傳播雜志)