【網(wǎng)易智能訊 11月26日消息】去年,聯(lián)合國曾宣布將2019年為“國際本土語言年”,現(xiàn)在離這個節(jié)日已經(jīng)越來越近。實際上,這一舉措旨在提高人們對瀕危語言的認識,因為這些語言正面臨滅絕的危險。“通過語言,人們保留了他們的社區(qū)的歷史、習俗和傳統(tǒng)、記憶、獨特的思維方式、意義和表達方式。他們也用語言來構(gòu)建自己的未來。在人權(quán)保護、良好治理、和平建設(shè)、和諧和可持續(xù)發(fā)展等領(lǐng)域,語言是關(guān)鍵所在”:這些也是聯(lián)合國可持續(xù)發(fā)展目標(SDGs)的核心。
據(jù)聯(lián)合國統(tǒng)計,世界上有7000多種語言,但消亡的速度卻非???,平均每個月都有2種語言消失。由于人工智能在語言存檔和學習方面具有優(yōu)勢,人工智能在拯救瀕危語言的斗爭中變得比以往任何時候都更加重要。
Jason Lovell正在學習新西蘭的土著語言“毛利語”,但缺少幫助他練習的對象,因此他與IBM的“沃森人工智能”合作,創(chuàng)立了一個Facebook messenger聊天機器人,該聊天機器人能夠理解并回復用戶的信息,包括毛利語和英語。即使用戶犯了拼寫錯誤,比如“Reobot”,對Lovell的聊天機器人來說,也不會造成理解障礙。Lovell希望在不久的將來引入發(fā)音幫助。通過提供毛利語交流機會,Reobot可以幫助學習者更快地培養(yǎng)自信和技能。
為了向居住在偏遠社區(qū)的兒童教授澳大利亞土著語言,一組來自ARC語言動力學卓越中心(CoEDL)的研究人員開發(fā)了Opie,這是一種低成本、易于運輸?shù)臋C器人。在學習故事、游戲和課程時,Opie的眼睛能夠和孩子們互動,此外,機器人能夠記錄孩子們的語言技能,協(xié)助老師追蹤他們的學習進度。CoEDL已經(jīng)與谷歌展開合作,為土著語言轉(zhuǎn)錄和構(gòu)建人工智能模型,這要歸功于谷歌的開源人工智能平臺TensorFlow。這臺機器學習技術(shù)為語言學家省去了數(shù)百萬小時的時間,在CoEDL的存儲庫中記錄了超過4萬小時的錄音。
對許多組織來說,維護語言數(shù)據(jù)數(shù)據(jù)并將其引入土著社區(qū)是一項挑戰(zhàn)。第一人民文化委員會(FPCC)的使命是支持不列顛哥倫比亞省的土著語言、藝術(shù)、文化和遺產(chǎn)的復興,與當?shù)厣鐓^(qū)合作,將語言數(shù)據(jù)存檔,并通過其First Voices平臺進行教學。First Voices的最新創(chuàng)新是一款鍵盤應用,用戶可以在移動設(shè)備上的任何應用上輸入超過100種本地語言,包括社交媒體、電子郵件和文字處理。
First Voices存儲的數(shù)據(jù)是一個開源的云原生內(nèi)容服務(wù)引擎,其將人工智能和機器學習整合在內(nèi)。
未來學家托馬斯·弗雷(Thomas Frey)設(shè)想出一種全球語言檔案館,作為一個活生生的博物館,一座“語言的盧浮宮”,在那里,已經(jīng)滅絕的語言甚至都可以被學習:“將收集到的足夠多的視頻、音頻和書面文件輸入到人工智能語言重建引擎(AI Language Recreation Engine),其能夠生成一個功能性的三維立體化身,將語言傳授給想要學習它的人。”人工智能引擎將更進一步,填補任何語言空白,在需要時創(chuàng)建一種語言的書面形式,并提供語言之間的翻譯。
弗雷將瀕危語言項目(Endangered Languages Project)作為創(chuàng)建全球語言檔案的第一步,該項目由第一人民文化委員會在夏威夷大學夏威夷分校的瀕危語言目錄/瀕危語言項目(ELCat/ELP)管理。瀕危語言項目匯集了瀕危語言的資源和信息,這要歸功于全世界的合作者,到目前為止,該項目已擁有3418種語言的數(shù)據(jù),其中許多語言都位列瀕危語種中。