創宇宙: Meta 首個高效能自我監督演算法 Data2vec

2022年5月23日星期一

Meta 在自我監督學習技術上取得最新進展，其所開發的 Data2vec 是第一個適用於多模式高效能自我監督演算法，可以分別應用於語音、圖像和文字，效能比過去僅針對電腦視覺和語音的演算法更好，並且在 NLP 任務也具有一定水平。

現在大多數人工智能技術是以監督學習為基礎，必須使用標記數據。不過有許多人類希望機械人做的事情，不可能收集到標記數據，像是雖然目前有許多研究人員，在收集英語語音和文字，來創建大規模標記數據集，但對於地球數以千計語言來說，這種方法並不可行。

但自我監督技術能夠讓電腦自己觀察世界，並且弄清楚圖像、語音和文字結構，對於不用明確教導分類圖像，或理解口語的機械，可擴展性高很多。

但現今自我監督學習的研究，幾乎集中在同一種模態上，例如文字，研究人員訓練模型來填補句子的空白，語音模型則需要預測語句中缺失的聲音，對電腦視覺而言，模型要從多張圖像找到更為相關的照片。

演算法在不同模態使用不同處理單位，視覺是以像素或視覺標記為預測單位，文字是單字，而聲音則是音訊波形等。演算法設計會與特定的模態關聯在一起，演算法底層的實作也不相同。

而 Meta 最新開發的 Data2vec 則簡化這個麻煩，無論模態為何，能夠對不同的輸入資料，預測各自的表示（Representation）。這些表示為神經網絡的分層，而不是單詞或波形，這消除了學習任務中對特定模態目標的依賴。

Meta 的方法是使用一個導師網絡，計算圖像、文字和聲音中的表示，接著遮蔽部分輸入，要學生模型重複該過程，並且預測導師網絡的潛在表示，學生模型必須在只看過部分資訊的情況下，預測完整輸入資料的表示。導師網絡和學生模型相同，但權重略為過時。

創宇宙