覆蓋 101 種語言　Google 自然語言模型 MT5 開源化

機器學習自然語言模型一向備受重視，大型科技企業都紛紛推出各自的模型，而在 Google 也不甘後人，最近將其 MT5 自然語言模型開源化，據稱擁有相當優異的表現。

Google 的 MT5 是其 T5 模型的多語言版本，使用包含 101 種語言的數據集來訓練，有約 3-130 億個參數，並且聲稱可以學習超過 100 種語言而不會出現干擾問題。這個模型的開發目的，是要讓電腦得以理解全球超過 7,000 種語言，它能夠在類似的語言之間共享資訊，讓相關資源不足的語言也得以有效分析，甚至模型從未接觸過的新語言也可以處理到。

MT5 所採用的訓練數據集為 MC4，來自 Common Crawl 在互聯網上收集得到的超過 10,000 個網頁。Google 表示，截至 2020 年 10 月，其最大的 MT5 模型在各個測試分數中都得到第一，包括 Xtreme、XNLI、XQuAD、MLQA 和 TyDi QA 等等。MT5 推出之後，將會成為繼 Facebook 和 Microsoft 之後，另一個相當強勁的自然語言模型。

來源：Venture Beat