報告指開源模型與閉源模型性能差距逐漸收窄

AI 初創公司 Galileo 近日發布了一份全面的基準測試報告，揭示開源語言模型正迅速縮小與專有對手的性能差距。這一轉變可能重塑 AI 格局，有潛力將先進 AI 功能民主化，加速各行業的創新。

Galileo 的第二份年度「幻覺指數」評估了 22 個領先的大型語言模型在生成不準確資訊方面的傾向。雖然閉源模型仍然整體領先，但只在八個月之間，差距就已經顯著縮小。Galileo 聯合創始人兼 CEO Vikram Chatterji 表示：「開源模型的顯著進步令人難以置信。去年 10 月，前五六名都是閉源 API 模型領先，主要是 OpenAI 的模型。而現在，開源模型已經在縮小差距。」

在此次評估中，Anthropic 的 Claude 3.5 Sonnet 模型在所有任務中表現最佳，超過了去年排名中佔據主導地位的 OpenAI 產品。同時，Google 的 Gemini 1.5 Flash 模型以更低的價格提供強勁的性能，成為最具成本效益的選擇。

阿里巴巴的開源模型 Qwen2-72B-Instruct 在短文本和中等長度輸入方面表現最佳，這標誌著非美國公司在 AI 開發上取得重大進展，挑戰着美國的主導地位。Chatterji 認為，這是 AI 技術更廣泛民主化的一部分，「世界各地、不同經濟階層的團隊都可以開始構建真正令人難以置信的產品」。

來源：VentureBeat

報告指開源模型與閉源模型性能差距逐漸收窄

Microsoft 承認 CrowdStrike 影響的裝置不只 850 萬部

北韓 APT45 黑客組織繼續肆虐　集中攻擊公共事業和軍事系統

報告指開源模型與閉源模型性能差距逐漸收窄

you might also like

揭秘北韓國家級求職詐騙： AI 換臉滲透西方企業 2024 年創收逾 60 億港元

Cursor 新模型被揭以 Kimi K2.5 為基礎 透明度與授權爭議敲響 AI 行業警鐘

人工智能潔淨城市水質：科技賦能監測全球水資源

Canon 辦公室升級整合 AI 檔案技術 藉「One Canon」策略拓展大灣區 B2B 市場

PwC 向合伙人發出「AI 最後通牒」 如果抗拒 AI 將無得留低

Cursor 新模型被揭以 Kimi K2.5 為基礎　透明度與授權爭議敲響 AI 行業警鐘

Canon 辦公室升級整合 AI 檔案技術藉「One Canon」策略拓展大灣區 B2B 市場

PwC 向合伙人發出「AI 最後通牒」　如果抗拒 AI 將無得留低