2022年11月25日星期五

Google 開發最新圖像人工智能系統Imagen

Google Brain 發表最新圖像產生人工智能研究,提出一種稱為 Imagen 的人工智能系統,可透過解析使用者的文字輸入,創建出寫實的圖像,與現今其他先進的圖像產生演算法,例如 VQ-GANLDM 和 DALL-E 2 比較,人類皆傾向覺得 Imagen 所產生的圖像更真實,也更符合輸入的文字敘述。

Imagen 為文字產生圖像擴散模型(Diffusion Model),能夠深度理解文字的意義,並且輸出如照片寫實的圖像。Imagen 建立在大型 Transformer 語言模型之上,因此擁有強大的文字理解能力,並且依賴擴散模型產生高傳真圖像。

研究人員發現像是 T5 這類,經過純文字語料庫預訓練過的通用大型語言模型,在圖像合成的文字編碼上非常有效。藉由增加 Imagen 中語言模型的大小,就可以提高樣本真實度,以及圖像與文字描述的一致性,比起增加擴散模型大小還有效。


Imagen 雖然沒有在 COCOMicrosoft Common Objects in Context)資料集中訓練過,但可獲得目前最低的 7.27 FID 分數(越低越好),並且發現在圖像和文字一致性上,Imagen 樣本與 COCO 資料集相當。

Google 還利用 DrawBench 基準測試,來進一步評估 Imagen 文字產生圖像的能力,DrawBench 是一個在文字產生圖像領域,更全面也更具挑戰性的基準測試。藉由將 Imagen 與 VQ-GANLDM 和 DALL-E 2 演算法一起,進行空間關係、長篇文字和罕用字等系統性測試,並由人工評估演算法的圖像與文字一致性,還有圖像的真實性。無論是在圖像與文字的一致性(Alignment),還是圖像真實性(Fidelity),創科界普遍認為 Imagen 表現比 VQ-GANLDM 與 DALL-E 2 更好。

Google 暫不對外開放 Imagen,並把未來工作放在解決開放的挑戰與限制上,研究人員已經過濾了訓練資料集,並且採用不當內容 LAION-400M 資料集,來避免模型產生有害的內容,但由於 Imagen 依賴使用未經過濾的網絡資料,所訓練出來的文字編碼器,Imagen 仍可能存在一些有害刻板印象。另外,現今社會對於圖像產生文字,以及圖像標記模型作出大量審查工作,以避免產生社會偏見,但是文字到圖像模型的社會偏見評估工作相對較少,Google 研究人員已經發現 Imagen 存在一些社會和文化偏見,例如圖像人物的膚色偏淺,對職業的描繪,也更傾向西方性別刻板印象,因此即使 Imagen 的能力強大,但目前 Google 仍不打算開源 Imagen 的程式碼,也不提供公開展示,原因在於文字產生圖像模型的下游應用非常多樣,且可能以複雜的形式影響社會,考慮到潛在風險,Google 暫不對外開放 Imagen,直到開發人員建立起負責任的外部框架,來平衡無限制開放所帶來的風險。



沒有留言:

發佈留言

俄羅斯方塊能治療成癮和 PTSD

最近醫學研究證實,適當玩《俄羅斯方塊》對大腦有益。在上世紀 90 年代的研究中,就有科學家發現,初次玩《俄羅斯方塊》的人,其大腦葡萄糖代謝率( GMR )有顯著提高,意味著在玩遊戲時大腦消耗的能量增加。持續玩 4 至 8 星期後,這些人的 GMR 跌回原本水平,而遊戲分數則...