2022年5月5日星期四

Google 開發人工智能 TaskMoE

Google 在最新人工智能研究中,發表一種用於加速大型模型推理的方法  TaskMoE (Task-level Mixture-of-Experts),使用該方法在模型擴大的情況下,推理成本不會顯著增加,因此能夠繼續提供有效率的服務。

由於擴展大型語言模型,能夠提升 T5GPT-3 和 M4 這類語言模型的結果,因此在追求更高品質結果的目標下,研究人員無不盡可能擴展模型。建構更大模型的常用方法,通常是增加層數,或是增加層的維度,使模型更深更闊。

這類密集模型採用輸入序列,序列會被切分成更小部件,稱為令牌(Tokens),這些令牌會傳遞給整個網絡,活化每一層和參數。雖然這些大型且密集的模型,在多自然語言處理任務上獲得不錯的結果,但是訓練成本也會隨著模型規模線性增加。為了降低成本,Google 研究人員開始採用混合專家(Mixture of ExpertsMoE)方法,建構稀疏活化模型。與密集模型方法不同之處,在於傳遞給網絡的每個令牌,會藉由跳過部分的模型參數,依循被稱作專家的獨立子網絡,藉此減少計算量,而將輸入令牌分配給各子網絡的決定,由一個小型的路由網絡決定,混合專家方法讓擴增模型大小所付出的成本,不會成比例地線性增加,進而提升效能。

雖然這是一個有效的訓練策略,但是將長序列令牌發送給多個專家,會再次使推理計算成本增加,因為專家會分散在大量的加速器,例如 1.2T 參數的 GLaM 模型,就需要用到 256 個 TPU-v3 晶片,因此又會與密集模型遭遇相同問題,混合專家模型提供服務所需要的處理器數量,與模型大小成線性關係增加,因而增加計算需求,並導致明顯的通訊開銷和工程複雜度。

因此 Google 發展了一種成為 TaskMoE 的方法,在模型擴展的同時,仍然能夠有效率地提供服務。Google 的方法是訓練一個大型多任務模型,並在推理時,丟棄每個任務未使用的專家,從中萃取出更小、獨立的任務子網絡,能夠適用於推理,又不會損失模型品質,並且減低推理延遲,與其他混合專家模型以及使用知識蒸餾壓縮(Distillation)的模型相比,這個方法在多語言神經機械翻譯方面更為有效。

Google 比較 TaskMoE、典型混合專家模型 TokenMoE 和基準密集模型的吞吐量和每秒解碼令牌數,TaskMoE 模型比 TokenMoE 模型少 倍,可以直接在單個 TPU-v3 晶片上運算,不需要像是 TokenMoE 使用 64 個 TPU-v3 晶片,且 TaskMoE 吞吐量最高值是 TokenMoE 的 倍, TokenMoE 模型消耗 25% 推理時間在裝置間的通訊,而 TaskMoE 幾乎沒有通訊成本。以結果來看,在多語言翻譯任務中,TaskMoE 模型的分數,比經蒸餾的 TokenMoE 模型平均高出 2.1 BLEU



沒有留言:

發佈留言

俄羅斯方塊能治療成癮和 PTSD

最近醫學研究證實,適當玩《俄羅斯方塊》對大腦有益。在上世紀 90 年代的研究中,就有科學家發現,初次玩《俄羅斯方塊》的人,其大腦葡萄糖代謝率( GMR )有顯著提高,意味著在玩遊戲時大腦消耗的能量增加。持續玩 4 至 8 星期後,這些人的 GMR 跌回原本水平,而遊戲分數則...