Microsoft 與 Nvidia 合作訓練歷來最大型語言模型

語言模型是科技企業爭相開發的技術之一，最近 Microsoft 與 Nvidia 就宣佈合作訓練了至今最強戴的解碼語言模型，比現有最大型的 GPT-3 的參數要多 3 倍。

Microsoft 和 Nvidia 表示，這個名爲 MT-NLG 的單體 Transformer 語言模型中共擁有 5,300 億個參數，使用以 NvidiaDGX SuperPOD 為基礎的 Selene 超級電腦以混合精度訓練完成。他們解釋，訓練所需的運算極為龐大，這超級電腦擁有幾千個 GPU 進行平行運算，再結合 Megatron-LM 和 PyTorch 深度學習最佳化函式庫 DeepSpeed 提升效率，才可以在合理的時間內訓練出這個規模的模型。

由於 MT-NLG 擁有極多參數，在不同的自然語言任務上都有相當優秀的表現，而且除了自然語言之外，它也可以進行幾本的數學運算，不只使用記憶算數，未來的發展潛能令人期待。Microsoft Turing 團隊主管 Ali Alvi 和 Nvidia 產品管理及營銷高級主管 Paresh Kharya 表示，他們期待著 MT-NLG 會如何塑造未來的產品，並鼓勵開發者社群進一步探索自然語言處理（NLP）的極限。

來源：Venture Beat

—
新增 : unwire.pro Mewe 專頁 : https://mewe.com/p/unwirepro