大型語言模型的開發需要大量數據,其中耗用的能源以及數據來源的問題,令人擔心未來發展的可持續性。Stability AI 最近就公佈全新的 FreeWilly 模型,利用更少,甚至是人工生成的數據來訓練,驗證了另一種開發方式的可能性。
Stability AI 新推出的 FreeWilly1 和 FreeWilly2 模型,使用 Meta 的 LLaMA 和 LLaMA 2 開源模型為基礎,利用更小型的數據集進行訓練,當中更加入了不少人工生成的數據。這兩個模型都是「非商業許可」授權,也就是旨在協助人工智能社群研究而開發。
FreeWilly1 和 FreeWilly2 模型所使用的訓練數據集只有 60 萬個數據點,因此訓練成本更低,能源消耗自然也減少,同時其推理和語言理解能力,甚至在法律和數學等專業範疇上都有很好的表現,部分亦超過 GPT-3.5 模型的成績。今次兩個新模型顯示了即使利用人工生成的數據來進行訓練,也可以保持不錯的效果,而且能夠避免使用受版權保護的內容(當然是要在人工生成數據使用的模型同時沒有用相關內容作訓練的情況下)。
Stability AI 團隊表示:「我們對這些模型將為 AI 社群帶來的無限可能性,以及可以帶來的全新應用感到興奮。」他們希望這兩個模型可以作為開放存取大型語言模型,讓 AI 開發社群進一步了解自然語言處理,並利用來進行更複雜的工序。
來源:VentureBeat