覆蓋 101 種語言 Google 自然語言模型 MT5 開源化

機器學習自然語言模型一向備受重視,大型科技企業都紛紛推出各自的模型,而在 Google 也不甘後人,最近將其 MT5 自然語言模型開源化,據稱擁有相當優異的表現。

Google 的 MT5 是其 T5 模型的多語言版本,使用包含 101 種語言的數據集來訓練,有約 3-130 億個參數,並且聲稱可以學習超過 100 種語言而不會出現干擾問題。這個模型的開發目的,是要讓電腦得以理解全球超過 7,000 種語言,它能夠在類似的語言之間共享資訊,讓相關資源不足的語言也得以有效分析,甚至模型從未接觸過的新語言也可以處理到。

MT5 所採用的訓練數據集為 MC4,來自 Common Crawl 在互聯網上收集得到的超過 10,000 個網頁。Google 表示,截至 2020 年 10 月,其最大的 MT5 模型在各個測試分數中都得到第一,包括 Xtreme、XNLI、XQuAD、MLQA 和 TyDi QA 等等。MT5 推出之後,將會成為繼 Facebook 和 Microsoft 之後,另一個相當強勁的自然語言模型。

來源:Venture Beat