報告指開源模型與閉源模型性能差距逐漸收窄

AI 初創公司 Galileo 近日發布了一份全面的基準測試報告,揭示開源語言模型正迅速縮小與專有對手的性能差距。這一轉變可能重塑 AI 格局,有潛力將先進 AI 功能民主化,加速各行業的創新。

Galileo 的第二份年度「幻覺指數」評估了 22 個領先的大型語言模型在生成不準確資訊方面的傾向。雖然閉源模型仍然整體領先,但只在八個月之間,差距就已經顯著縮小。Galileo 聯合創始人兼 CEO Vikram Chatterji 表示:「開源模型的顯著進步令人難以置信。去年 10 月,前五六名都是閉源 API 模型領先,主要是 OpenAI 的模型。而現在,開源模型已經在縮小差距。」

在此次評估中,Anthropic 的 Claude 3.5 Sonnet 模型在所有任務中表現最佳,超過了去年排名中佔據主導地位的 OpenAI 產品。同時,Google 的 Gemini 1.5 Flash 模型以更低的價格提供強勁的性能,成為最具成本效益的選擇。

阿里巴巴的開源模型 Qwen2-72B-Instruct 在短文本和中等長度輸入方面表現最佳,這標誌著非美國公司在 AI 開發上取得重大進展,挑戰着美國的主導地位。Chatterji 認為,這是 AI 技術更廣泛民主化的一部分,「世界各地、不同經濟階層的團隊都可以開始構建真正令人難以置信的產品」。

來源:VentureBeat