Meta 推出一個梳理全球網絡內容的 AI 知識語料庫 Sphere,號稱是全球最大同類型語料庫,並利用 Sphere 打造了一個 Side 模型,可用來改善維基百科(Wikipedia)所引用的資訊的關聯性與正確性。
語料庫(Corpus)為知識密集型自然語言處理(Knowledge-Intensive Natural Language Processing,KI-NLP)的基礎,KI-NLP 模型梳理數碼檔案來尋求問題的解答或進行事實查核,因此語料庫的規模愈大,所能解答的問題也愈多。
在現階段 KI-NLP 研究領域,研究人員多半是透過商業搜尋引擎或 Wikipedia 來尋找答案,商業搜尋引擎就像是個黑盒子,人們可能不知道自己遺失了哪些重要訊息,就算 Wikipedia 相對精確和有良好的格式,由於規模小而方便使用,畢竟是個眾包平台,並未容納網絡上的所有內容,而 Sphere 即是一個奠基在全球開放網絡內容的語料庫,它是開源的、通用的、未經組織的、非結構化的知識來源,因此可支援各種 KI-NLP 任務。它內含 1.34 億個文件,具備 9.06 億個段落,每個段落都含有 100 個標記,比現今最大的知識語料庫多一個數量級。
Sphere 的建置源自 Meta AI 所開發的 CCNet,CCNet 為 Common Crawl 的變種,把每月固定梳理全球網絡的 Common Crawl 檔案去蕪存菁而來。
Sphere 與搜尋引擎最大的不同在於它開放研究人員存取完整的語料庫,研究人員不僅能夠檢視並控制語料庫,也能展開不同的實驗來推動檢索技術的發展,另一方面,開源社群也將協助 Meta 辨識 Sphere 的檢索盲點。
研究人員將可利用 Sphere 來訓練檢索器,以處理更廣泛的文件,或建置自動化系統來檢查不實資訊、噪音或不連貫的文字。
Meta AI 已經利用 Sphere 打造了一個 Side 模型,用來協助強化維基百科的引用資訊,因為維基百科的編輯可能無法仔細檢查每一個引用的資訊,或是志願者在撰寫時無意中流露出的偏見。
目前 Sphere 仍是個研究中的產品,尚未實際應用於 Meta 自家的平台,也未與維基百科合作,只是以 Side 模型作為示範案例。
沒有留言:
發佈留言