Meta 發佈全新多重 Token 預測模型 或改變大型語言模型開發和部署方式

大型語言模型技術一直發展,最近 Meta 就發佈了一個採用「多重 Token 預測」(Multi-token prediction) 方式開發的預訓練模型,對大型語言模型(LLM)的開發和部署方式都可能有重要的影響。

這個新的訓練方式首次在 Meta 4 月的研究論文中提及,突破了傳統 LLM 只預測序列中下一個詞元的訓練方式。Meta 的全新方式相反地要求模型同時預測多個未來詞元,務求提高性能並大幅縮短訓練時間。

隨著 AI 模型規模和複雜度的增加,對運算能力的巨大需求引發了成本和環境影響的擔憂。今次 Meta 的多重 Token 預測訓練方式可能提供了一種能夠扭轉局面的解決方案,使先進 AI 更易開發和更具可持續性。

Meta 今次是在 Hugging Face 平台上以非商業研究許可發表這些模型,但也有評認為,更高效率的 AI 模型可能會加劇對 AI 生成的錯誤資訊和網絡威脅的擔憂。Meta 就強調這些模型的授權只能用作研究而不能個人或商業使用。但未來相關技術發展下,也難以避免問題發生。

來源:VentureBeat