close
人工智能

研究質疑 AI 評測實際效用 基準測試公信力引發爭議

歐盟聯合研究中心的研究人員近日發表論文,質疑目前 AI 基準測試的可信度。研究團隊回顧了過去十年的 100 項研究,發現現有評測體系存在諸多問題。而企業在考慮各 AI 方案時,在參考基準測試數字之外,也需要考慮更多的因素來決定是否採用。

基準測試的真實性危機

各大 AI 公司經常以基準測試成績展示實力。例如,OpenAI 的 o3 模型在 ARC-AGI 測試中聲稱達到 75.7% 的「突破性」成績,Google 的 Gemini 2.0 Pro 在 MMLU-Pro 測試中獲得 79.1% 的分數,而 Meta 的 Llama-3 70B 則在 MMLU 5-shot 測試中達到 82%。

然而,研究人員指出了九個主要問題,包括測試數據集的來源不明、測量指標與聲稱不符、缺乏社會經濟和文化背景考量、測試數據多樣性不足,以及測試可能被操縱等。這些問題的嚴重性不容忽視,因為這些測試結果往往會影響政策制定。

對企業的重要啟示

對企業而言,今次研究結果也有一定的參考價值,在評估 AI 解決方案時,就不應過分依賴供應商提供的基準測試成績。測試結果可能受到多種因素影響,包括測試設計的偏差、數據選擇的局限性,甚至可能存在刻意操縱的情況。

另外,企業也需要建立更全面的 AI 評估體系。除了性能指標外,還應考慮 AI 系統在實際應用場景中的表現、安全性、可解釋性等多個維度。特別是在失敗場景的測試上,可能比成功場景的測試更具參考價值。

基準測試的可信度問題已經引起監管機構的關注。歐盟 AI 法案、英國網路安全法案等法規都將基準測試納入考量範圍。這意味著企業在 AI 應用方面將面臨更嚴格的合規要求。企業需要提前布局,建立更嚴謹的 AI 評估機制,確保所採用的 AI 系統不僅符合監管要求,更能真正滿足業務需求。包括深入了解 AI 系統的訓練過程和評估方法,在實際應用場景中進行充分測試,同時建立持續監控和評估機制,持續關注 AI 系統在多元化數據集上的表現,才可以對 AI 方案的實際效果作適當的判斷。

基準仍有一定價值將繼續改善

現時的基準測試雖然未必能夠對一個 AI 方案作出全面的評價,但用作參考仍然有其必要性,未來隨著 AI 技術的不斷演進,基準測試的方法也將會相應發展。企業界和學術界都在呼籲建立更透明、公平且可解釋的評估體系。這不僅關係到個別企業的決策,更攸關整個 AI 產業的健康發展。

對企業而言,在 AI 投資和應用決策時需要保持清醒的判斷,不能僅依賴表面的測試數據。建立科學、全面的評估體系,確保 AI 應用既能提升業務效能,又能符合社會期待,這將是企業在 AI 時代取得成功的關鍵。

來源:Arxiv

Tags : AI Benchmark
Antony Shum

The author Antony Shum