現在每當有新的 AI 模型推出,都會以其表現為宣傳重點,而早前基於 Meta Llama 3.1 開發的 Reflection 70B 就號稱擁有最頂尖的效能,不過發佈後成績並不理想,引起開發者社群質疑是否造假。
由位於紐約的小型 AI 初創 HyperWrite 訓練及發佈的 Reflection 70B 原本憑藉在第三方測試中取得的領先成績吸引了不少關注,但推出後一些開發者無法重現這些結果,開始對其效能提出質疑。HyperWrite 的聯合創辦人兼 CEO Matt Shumer 在 2024 年 9 月 6 日在 X 上表示 Reflection 70B 是「世界頂尖的開放源代碼模型」,解釋了模型訓練過程中使用了名為「Reflection Tuning」的技術,讓模型在輸出前先自行檢查並反思生成的回應,以提升多項任務的準確性。
然而在模型公開之後,第三方組織 Artificial Analysis 發佈了對 Reflection 70B 的獨立評估,指出其 MMLU 測試成績與 Llama 3 70B 相同,且顯著低於 Llama 3.1 70B,與 Shumer 最初的宣稱出現了嚴重出入。Shumer 隨後回應稱模型在上傳至 Hugging Face 平台時發生了錯誤,導致其性能未達預期。
Artificial Analysis 後來獲得了對 HyperWrite 內部 API 的存取權限,並進行測試,雖然結果不如 Shumer 最初的宣稱,但仍有不錯的表現。開發者社群對此有不少爭議,部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 的變體,而是 Llama 3。此外,還有人指控模型可能是基於競爭對手 Anthropic 的閉源技術 Claude 3 進行重新包裝,導致有這樣偏差的結果。
來源:VentureBeat