Meta 在自我監督學習技術上取得最新進展,其所開發的 Data2vec 是第一個適用於多模式高效能自我監督演算法,可以分別應用於語音、圖像和文字,效能比過去僅針對電腦視覺和語音的演算法更好,並且在 NLP 任務也具有一定水平。
現在大多數人工智能技術是以監督學習為基礎,必須使用標記數據。不過有許多人類希望機械人做的事情,不可能收集到標記數據,像是雖然目前有許多研究人員,在收集英語語音和文字,來創建大規模標記數據集,但對於地球數以千計語言來說,這種方法並不可行。
但自我監督技術能夠讓電腦自己觀察世界,並且弄清楚圖像、語音和文字結構,對於不用明確教導分類圖像,或理解口語的機械,可擴展性高很多。
但現今自我監督學習的研究,幾乎集中在同一種模態上,例如文字,研究人員訓練模型來填補句子的空白,語音模型則需要預測語句中缺失的聲音,對電腦視覺而言,模型要從多張圖像找到更為相關的照片。
演算法在不同模態使用不同處理單位,視覺是以像素或視覺標記為預測單位,文字是單字,而聲音則是音訊波形等。演算法設計會與特定的模態關聯在一起,演算法底層的實作也不相同。
而 Meta 最新開發的 Data2vec 則簡化這個麻煩,無論模態為何,能夠對不同的輸入資料,預測各自的表示(Representation)。這些表示為神經網絡的分層,而不是單詞或波形,這消除了學習任務中對特定模態目標的依賴。
Meta 的方法是使用一個導師網絡,計算圖像、文字和聲音中的表示,接著遮蔽部分輸入,要學生模型重複該過程,並且預測導師網絡的潛在表示,學生模型必須在只看過部分資訊的情況下,預測完整輸入資料的表示。導師網絡和學生模型相同,但權重略為過時。

沒有留言:
發佈留言