開源 AI 模型 Reflection 70B 效能不如預期惹爭議

現在每當有新的 AI 模型推出，都會以其表現為宣傳重點，而早前基於 Meta Llama 3.1 開發的 Reflection 70B 就號稱擁有最頂尖的效能，不過發佈後成績並不理想，引起開發者社群質疑是否造假。

由位於紐約的小型 AI 初創 HyperWrite 訓練及發佈的 Reflection 70B 原本憑藉在第三方測試中取得的領先成績吸引了不少關注，但推出後一些開發者無法重現這些結果，開始對其效能提出質疑。HyperWrite 的聯合創辦人兼 CEO Matt Shumer 在 2024 年 9 月 6 日在 X 上表示 Reflection 70B 是「世界頂尖的開放源代碼模型」，解釋了模型訓練過程中使用了名為「Reflection Tuning」的技術，讓模型在輸出前先自行檢查並反思生成的回應，以提升多項任務的準確性。

然而在模型公開之後，第三方組織 Artificial Analysis 發佈了對 Reflection 70B 的獨立評估，指出其 MMLU 測試成績與 Llama 3 70B 相同，且顯著低於 Llama 3.1 70B，與 Shumer 最初的宣稱出現了嚴重出入。Shumer 隨後回應稱模型在上傳至 Hugging Face 平台時發生了錯誤，導致其性能未達預期。

Our evaluation of Reflection Llama 3.1 70B's MMLU score resulted in the same score as Llama 3 70B and significantly lower than Meta's Llama 3.1 70B.

A LocalLLaMA post (link below) also compared the diff of Llama 3.1 & Llama 3 weights to Reflection Llama 3.1 70B and concluded the… pic.twitter.com/hqvFp2TyCC

— Artificial Analysis (@ArtificialAnlys) September 7, 2024

Artificial Analysis 後來獲得了對 HyperWrite 內部 API 的存取權限，並進行測試，雖然結果不如 Shumer 最初的宣稱，但仍有不錯的表現。開發者社群對此有不少爭議，部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 的變體，而是 Llama 3。此外，還有人指控模型可能是基於競爭對手 Anthropic 的閉源技術 Claude 3 進行重新包裝，導致有這樣偏差的結果。

來源：VentureBeat

開源 AI 模型 Reflection 70B 效能不如預期惹爭議

英美情報機關表示已經開始採用 AI 提升行動效率

Avis 租車公司披露數據外洩事故　近 30 萬客戶受影響

開源 AI 模型 Reflection 70B 效能不如預期惹爭議

you might also like

Google 行政總裁示警： 若 AI 投資泡沫化 整個科技行業將無一倖免

保險業決策陷「孤島模式」 調查：逾四成理賠管理仍靠直覺

Hugging Face 警告 LLM 市場現泡沫 專門化細型模型將成企業首選

英國消費者過度信賴 AI 聊天機械人 研究揭準確率僅約五成

經濟學人：中國晶片產業 2026 年將震驚世界 AI 自主化進入關鍵轉折期

Google 行政總裁示警：若 AI 投資泡沫化整個科技行業將無一倖免

保險業決策陷「孤島模式」　調查：逾四成理賠管理仍靠直覺

Hugging Face 警告 LLM 市場現泡沫　專門化細型模型將成企業首選

英國消費者過度信賴 AI 聊天機械人　研究揭準確率僅約五成