Meta 完成開發能夠翻譯 200 種語言的機械翻譯單一 AI 模型 NLLB 200,同時將把該模型及訓練用的數據集一同開源出來。
Meta 為實現元宇宙跨語言互動而開發的高品質機械翻譯系統 NLLB(No Language Left Behind),最新完成的單一 AI 模型 NLLB-200 能夠翻譯 200 種不同語言,而且精確度相較前一代技術,翻譯質量平均分數提升 44%。這是繼 2020 年底 Meta 開源的 M2M-100 後,最新一個機械翻譯單一 AI 模型。
NLLB-200 支援一些其他模型不支援或支援度極差的語言,例如肯亞東部坎巴語(Kamba)和老撾語。一些常用的機械翻譯技術支援的非洲語言不到 25 種。相比之下,NLLB-200 支援 55 種非洲語言,所有支援的 200 種語言涵括地球數十億人口。
除了支援語言數量多,和前一代比較,NLLB-200 在 FLORES-101 標竿測試 1 萬種可能方向的 BLEU(Bilingual
Evaluation Understudy)得分平均高 44%。在部份非洲和印度語言中,NLLB-200 的精確度更增加 70%
NLLB 機械翻譯系統將可支援 Facebook News Feed、Instagram 及其他平臺每日 250 億次翻譯。高品質而精準的翻譯除了可加速用戶使用的方便性,也有助辨識這些平臺上的有害內容及不實資訊。
現在維基百科編輯使用的內容翻譯工具已經整合 NLLB 建模技術,來翻譯 20 多種資料量很少的稀有語言,包括 10 種之前完全沒有機械學習工具支援的語言。
為了訓練 NLLB-200,Meta 在開發過程中,研究人員評估4萬種不同語言翻譯方向下 NLLB-200 的效能,NLLB-200 及訓練該模型的開源將供外界開發及測試用。