Microsoft 與 Nvidia 合作訓練歷來最大型語言模型

語言模型是科技企業爭相開發的技術之一，最近 Microsoft 與 Nvidia 就宣佈合作訓練了至今最強戴的解碼語言模型，比現有最大型的 GPT-3 的參數要多 3 倍。

Microsoft 和 Nvidia 表示，這個名爲 MT-NLG 的單體 Transformer 語言模型中共擁有 5,300 億個參數，使用以 NvidiaDGX SuperPOD 為基礎的 Selene 超級電腦以混合精度訓練完成。他們解釋，訓練所需的運算極為龐大，這超級電腦擁有幾千個 GPU 進行平行運算，再結合 Megatron-LM 和 PyTorch 深度學習最佳化函式庫 DeepSpeed 提升效率，才可以在合理的時間內訓練出這個規模的模型。

由於 MT-NLG 擁有極多參數，在不同的自然語言任務上都有相當優秀的表現，而且除了自然語言之外，它也可以進行幾本的數學運算，不只使用記憶算數，未來的發展潛能令人期待。Microsoft Turing 團隊主管 Ali Alvi 和 Nvidia 產品管理及營銷高級主管 Paresh Kharya 表示，他們期待著 MT-NLG 會如何塑造未來的產品，並鼓勵開發者社群進一步探索自然語言處理（NLP）的極限。

來源：Venture Beat

—
新增 : unwire.pro Mewe 專頁 : https://mewe.com/p/unwirepro

Microsoft 與 Nvidia 合作訓練歷來最大型語言模型

三文治藏 SD 卡偷渡核潛艇設計圖　美軍工程師被捕

自己資產自己派公共財富你有 say

Microsoft 與 Nvidia 合作訓練歷來最大型語言模型

you might also like

味精廠手握 AI 晶片命脈：Palliser Capital 逼味之素加價 30% 釋放壟斷價值

憑 HBM 晶片單季利潤暴增 470% Samsung 挑戰全球最賺錢企業寶座

阿里騰訊提前佈局華為新一代 AI 晶片 DeepSeek 帶動國產算力崛起

應對 AI 算力爆炸性用電需求 Microsoft 結盟 Chevron 發展天然氣發電

Microsoft 自研全新 AI 模型求突圍 10 人團隊如何撼動行業格局

Microsoft 自研全新 AI 模型求突圍　10 人團隊如何撼動行業格局