現在每當有新的 AI 模型推出,都會以其表現為宣傳重點,而早前基於 Meta Llama 3.1 開發的 Reflection 70B 就號稱擁有最頂尖的效能,不過發佈後成績並不理想,引起開發者社群質疑是否造假。
由位於紐約的小型 AI 初創 HyperWrite 訓練及發佈的 Reflection 70B 原本憑藉在第三方測試中取得的領先成績吸引了不少關注,但推出後一些開發者無法重現這些結果,開始對其效能提出質疑。HyperWrite 的聯合創辦人兼 CEO Matt Shumer 在 2024 年 9 月 6 日在 X 上表示 Reflection 70B 是「世界頂尖的開放源代碼模型」,解釋了模型訓練過程中使用了名為「Reflection Tuning」的技術,讓模型在輸出前先自行檢查並反思生成的回應,以提升多項任務的準確性。
然而在模型公開之後,第三方組織 Artificial Analysis 發佈了對 Reflection 70B 的獨立評估,指出其 MMLU 測試成績與 Llama 3 70B 相同,且顯著低於 Llama 3.1 70B,與 Shumer 最初的宣稱出現了嚴重出入。Shumer 隨後回應稱模型在上傳至 Hugging Face 平台時發生了錯誤,導致其性能未達預期。
Our evaluation of Reflection Llama 3.1 70B's MMLU score resulted in the same score as Llama 3 70B and significantly lower than Meta's Llama 3.1 70B.
A LocalLLaMA post (link below) also compared the diff of Llama 3.1 & Llama 3 weights to Reflection Llama 3.1 70B and concluded the… pic.twitter.com/hqvFp2TyCC
— Artificial Analysis (@ArtificialAnlys) September 7, 2024
Artificial Analysis 後來獲得了對 HyperWrite 內部 API 的存取權限,並進行測試,雖然結果不如 Shumer 最初的宣稱,但仍有不錯的表現。開發者社群對此有不少爭議,部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 的變體,而是 Llama 3。此外,還有人指控模型可能是基於競爭對手 Anthropic 的閉源技術 Claude 3 進行重新包裝,導致有這樣偏差的結果。
來源:VentureBeat