close
人工智能

Gemini 3 信任評分大提升 牛津研究機構獨立測試揭示 AI 模型評估新標準

 

Google 旗下 Gemini 3 Pro 人工智能模型在由牛津大學研究人員創立的獨立研究機構 Prolific 進行的 HUMAINE 基準測試中取得突破,信任評分由上代 Gemini 2.5 Pro 的 16% 急升至 69%,創下該機構歷來最高分。不同於傳統學術基準測試,HUMAINE 採用 26,000 名真實用戶進行盲測,評估模型在信任度、安全性、適應性及溝通風格等實際應用層面表現。測試結果對企業部署 AI 具重大參考價值,因反映真實用戶體驗而非單純技術指標,助企業按不同用戶群體和應用場景選擇最合適 AI 模型。

 

傳統 AI 基準測試的局限性

人工智能領域長期依賴學術基準測試衡量模型表現,惟這種評估方式正面臨愈來愈多質疑。LMArena(前身為 LMSYS Chatbot Arena)為目前業界最具影響力 AI 排行榜之一,Google 行政總監曾於發布會引用該平台數據展示 Gemini 模型領先地位。Gemini 3 Pro 在 LMArena 獲 1501 的 Elo 評分,超越上代 Gemini 2.5 Pro 的 1451 分登上榜首。

Cohere Labs、Stanford 及 Princeton 等機構研究人員今年發表《The Leaderboard Illusion》論文,對 LMArena 等主流排行榜提出嚴厲批評。研究團隊分析涉及 243 個模型及 42 家供應商的 200 萬場對決數據,發現系統存在多項結構性偏見。主要問題包括 Meta、OpenAI 及 Google 等大型科技公司可私下測試多個模型變體,只公開表現最佳版本;研究人員模擬發現提交 10 個私下測試版本可將排行榜得分提高約 100 分。排行榜上有 66% 被悄悄移除的模型屬開源或開放權重模型,專有模型則甚少被移除,造成不公平競爭環境。

用戶在 LMArena 投票時往往偏好較長、較有禮貌且格式華麗的回答,即使這些回答未必更準確。Meta 發布 LLaMa-4 時推出針對聊天改良的版本,經微調後會產生充滿表情符號的冗長回答,結果在排行榜一度升至第 2 位。當 Meta 將其更換為「真正」的 LLaMa-4-Maverick 版本後,排名即跌至第 32 位。這種現象反映 AI 開發商正針對排行榜「刻意迎合」,而非真正改善模型實用性。

 

HUMAINE 測試方法的獨特之處

Prolific 由牛津大學研究人員創立,專門為研究及 AI 開發提供高品質人類數據。該公司設計的 HUMAINE 基準測試採用截然不同的評估方法,目標透過真實人類互動理解 AI 表現,而非單純依賴技術指標。Prolific 聯合創辦人兼行政總監 Phelim Bradley 表示,傳統 AI 排行榜大多維持相對固定排名,但當控制受眾因素後,左傾樣本、右傾樣本、美國用戶及英國用戶會產生略有不同排行結果,年齡則是測試中差異最大的變量。

HUMAINE 核心設計包括 4 大支柱:比較評估、多維度指標、用戶驅動場景及人類優先判斷流程。測試採用配對比較方式,用戶同時與 2 個匿名模型進行多輪對話,並不知道哪個供應商提供哪個回應。用戶可討論任何關心話題,而非回答預設測試問題。測試採用分層抽樣方法,確保從美國及英國人口中招募具代表性參與者,涵蓋 22 個不同人口統計群組,控制年齡、性別、族裔及政治取向等因素。Prolific 招募的參與者均獲公平報酬,最低時薪為 6 英鎊(約港幣 60 元),建議時薪為 9 英鎊(約港幣 90 元)。

HUMAINE 評估模型 5 個主要維度包括:表現與推理能力、互動與適應性、信任與安全、溝通風格及整體表現。測試結果顯示 Gemini 3 Pro 在其中 3 個類別排名第一,分別為表現與推理、互動與適應性以及信任與安全。唯一落敗類別是溝通風格,DeepSeek V3 以 43% 偏好率勝出。

 

Gemini 3 Pro 測試表現分析

Gemini 3 Pro 在 HUMAINE 測試獲得 69% 信任評分,代表該模型在不同人口統計群組中被評為最值得信任的機率。相比之下前身 Gemini 2.5 Pro 僅在 16% 情況下獲同樣評價。用戶現在選擇 Gemini 3 Pro 的可能性是以前 5 倍。Bradley 指出 Gemini 3 Pro 勝出關鍵並非在某些特定任務表現出色,而是在廣泛使用情境及用戶類型中保持一致性。他表示模型展現跨越不同使用場景及受眾類型的知識廣度與靈活性,以及能吸引不同用戶群體的個性與風格。

測試中的信任評分並非供應商自我宣稱或技術指標,是用戶在與匿名模型進行盲測對話後所報告感受。Phelim Bradley 強調測試參與者完全不知道正使用 Gemini,評價純粹基於盲測的多輪對話回應。這種設計將「感知信任」與「贏得的信任」區分,消除 Google 品牌可能帶來的優勢。對於面向客戶的 AI 部署,終端用戶通常看不到 AI 供應商身分,因此這種區分尤為重要。

Google 在技術基準測試方面同樣展示 Gemini 3 Pro 強勁表現。該模型在 Humanity’s Last Exam 測試取得 37.5% 分數(不使用任何工具),超越 GPT-5.1 的 26.5% 及 Claude Sonnet 4.5 的 13.7%。數學推理方面,Gemini 3 Pro 在 AIME 2025 基準測試配合程式碼執行取得滿分 100%,即使不使用工具也達到 95%。多模態理解方面,模型在 MMMU-Pro 達到 81%,Video-MMMU 達到 87.6%。這些結果顯示 Gemini 3 Pro 在學術基準及人類偏好測試均有出色表現。

 

人類判斷在 AI 評估中的角色

隨 AI 模型能力愈來愈強,一個根本性問題浮現:為何還需要人類評判者而非讓 AI 自我評估?Phelim Bradley 表示 Prolific 在某些情況下確實使用 AI 評判,但他強調人類評估仍是關鍵因素。他認為將大型語言模型評判及人類數據進行智慧結合可獲最佳效果,兩者各有優缺點,聰明組合能發揮協同效應。然而 Prolific 團隊仍堅信人類數據才是真正價值所在,對人類數據及人類智慧在評估迴路中扮演的角色保持高度信心。

目前 AI 模型在技術能力已達相當高水平,普通用戶難以單從回答內容判斷模型真正能力。當 2 個模型都能就某個複雜話題給出詳盡且大致相同回答時,用戶往往會根據風格、語氣或格式等表面因素作選擇。這正是 HUMAINE 測試設計涵蓋多個維度的原因,除了衡量技術表現,也評估信任度、適應性及溝通風格等用戶實際關心的特質。

 

企業部署 AI 的實務啟示

對於計劃大規模部署 AI 的企業,HUMAINE 測試結果提供重要決策框架。Bradley 認為純粹依靠「感覺」評估模型變得愈來愈困難,企業需要更嚴謹科學的方法真正理解這些模型表現。企業應考慮以下策略改良 AI 部署:測試模型在不同使用情境及用戶人口統計中的一致性,而非僅關注特定任務峰值表現;採用盲測方法將模型品質與品牌認知分開;使用與實際用戶群體匹配的代表性樣本;為持續評估作好規劃,因模型會不斷更新變化。

Credo AI 今年推出的 Model Trust Score 框架反映業界對更細緻評估方法的需求。該框架為每個模型針對特定企業用例分配一組信任評分,涵蓋能力、安全性、成本效益、速度及整體表現等維度。Credo AI 認為並非所有用例都應同等對待,某些用例風險較高需更深入評估,其他用例風險較低可快速推進。標準化基準雖然有用,但往往無法反映模型在特定行業或用例中的實際表現。

企業選擇 AI 模型時亦需考慮安全及合規要求。根據 Obsidian Security 數據,2025 年與 AI 相關安全事故平均每次給企業造成 470 萬美元(約港幣 3,666 萬元)損失。歐盟 AI 法案要求對高風險 AI 系統進行風險評估,違規罰款可達全球年收入 4%。這些因素促使企業從「哪個模型最好」轉向「哪個模型最適合特定用例、用戶人口統計及要求」。

 

AI 評估標準的未來趨勢

AI 模型評估正經歷重大轉變,從單純追求技術指標轉向更全面的人類中心評估方法。Future of Life Institute 今年發布 AI Safety Index 採用多維度評估框架,涵蓋真實性、安全性、公平性、穩健性、私隱及機器倫理等 6 個維度。報告指出監管機構、投資者及公眾面臨嚴重資訊不對稱,必須基於自我報告的評估結果信任安全聲明,而這些評估方法透明度往往不足。獨立第三方審查可驗證報告結果,評估評估方法是否足夠嚴謹,並提供可信外部觀點。

Prolific 計劃定期更新 HUMAINE 排行榜,加入新模型並收集新數據,確保排行榜反映 AI 生態系統最新表現趨勢。該公司亦將發布詳細數據集及方法論論文,讓研究人員及企業深入分析人口統計及任務層面的表現差異。這種透明度有助建立更公平、更具代表性的 AI 評估標準,最終推動開發真正服務用戶需求的 AI 系統。

Phelim Bradley 總結指,評估方法核心問題不在於找出哪個模型「最好」,而在於理解哪個模型對特定用例、用戶群體及所需特質「最合適」。嚴謹的代表性抽樣及盲測提供作出這種判斷所需數據,這是技術基準及「感覺導向」評估都無法實現的。

 

來源:VentureBeat

Tags : aiGeminigoogleHUMAINELLMProlific人工智能基準測試生成式 AI