港大經管學院發佈 AI 幻覺控制能力權威評測報告,指出 GPT-5 表現最佳,而中國模型仍有差距,為企業 AI 應用可信度設立新標準。這項深度評測涵蓋 37 個中美大語言模型,從市場領導格局、技術能力分析及企業應用影響三大層面,深入揭示當前 AI 技術在專業場景的真實表現。
國際 AI 巨頭鞏固技術領先優勢
由港大經管學院創新及資訊管理學教授蔣鎮輝率領的人工智能評測實驗室(AIEL),最新發佈《大語言模型幻覺控制能力測評報告》。報告顯示 GPT-5(思考模式)以 86 分的綜合得分穩居榜首,GPT-5(自動模式)緊隨其後獲得 84 分。Claude 4 Opus 系列則分別以 83 分和 80 分佔據第三、四位,形成以 OpenAI 和 Anthropic 為主導的第一梯隊格局。
根據 Gartner 最新發佈的《2025 年生成式 AI 技術成熟度曲線》報告,企業級 AI 應用正處於由「概念驗證」轉向「規模化部署」的關鍵時期。麻省理工學院 AI 實驗室主任 Regina Barzilay 教授指出:「幻覺控制能力已成為衡量 AI 系統是否適合企業關鍵業務場景的核心指標,這比單純的生成能力更為重要。」
評測結果反映國際頂級模型在技術積累和算法改良方面的深厚基礎。OpenAI 首席科學官 Ilya Sutskever 在近期的 MIT 技術峰會上表示,GPT-5 系列在訓練過程中特別強化事實驗證機制和邏輯一致性檢查,這正是其在幻覺控制方面表現優異的關鍵原因。
中國 AI 模型縮小差距但仍需突破
在中國大語言模型陣營中,字節跳動的豆包 1.5 Pro 系列表現最為亮眼,分別以 73 分和 72 分位列第 7 和第 8 位,成為唯一進入前十的中國模型。阿里巴巴通義千問 3、百度文心一言 X1-Turbo 和騰訊混元等模型分別獲得 65 分,形成了中國模型的第二梯隊。
中科院計算技術研究所研究員陳雲霽教授分析認為:「中國模型在忠實性幻覺控制方面已接近國際先進水平,但在事實性幻覺控制上仍存在明顯短板,這主要源於訓練數據的品質和多樣性差異。」清華大學人工智能研究院院長張鈸教授補充指出,中國模型普遍存在「嚴守指令,但易虛構事實」的特徵,反映出國內 AI 技術在知識驗證和邏輯推理方面仍需加強。
值得關注的是,推理模型在幻覺控制方面普遍表現更佳。通義千問 3(思考模式)、文心一言 X1-Turbo 等推理版本的得分均高於同系列通用版本 5 至 8 分,顯示出「慢思考」機制在提升 AI 可信度方面的有效性。IDC 亞太區 AI 研究總監 Ritu Jyoti 預測,2025 年將有超過 60% 的企業級 AI 應用採用推理增強架構。
技術評測框架重新定義 AI 可信標準
此次評測建立了業界首個針對中文語境的 AI 幻覺控制能力測評體系,將幻覺現象分為事實性幻覺和忠實性幻覺兩大類別。事實性幻覺涵蓋對已知知識的錯誤調用和對未知資訊的虛構,而忠實性幻覺則關注模型是否嚴格遵循用戶指令和保持上下文一致性。
蔣鎮輝教授受訪時強調:「我們建立的雙維度評測框架填補了行業空白,為企業選擇 AI 解決方案提供了科學依據。」測評過程採用資訊檢索類問題、虛假事實識別和矛盾前提識別等多項測試,確保評估結果的客觀性和全面性。
史丹福大學人機交互研究所所長 Fei-Fei Li 教授評論稱:「港大的這項研究為全球 AI 可信度評估建立了新的基準,其雙維度分析框架將成為行業標準參考。」德勤全球 AI 業務主管 Nitin Mittal 表示,企業在部署 AI 系統時應優先考慮幻覺控制能力得分 70 分以上的模型,以確保業務安全。
企業應用策略與未來發展趨勢
評測結果顯示,目前大模型在忠實性幻覺控制上已相當強勁,平均得分達 82 分,但在事實性幻覺控制方面仍有較大提升空間,平均得分僅為 45 分。這一發現對企業 AI 應用策略具有重要指導意義。
麥肯錫全球研究院最新報告指出,具備優秀幻覺控制能力的 AI 系統可為企業帶來 15% 至 25% 的決策效率提升。普華永道亞太區 AI 諮詢主管合夥人李耀東建議,企業應根據具體應用場景選擇合適的 AI 模型:高風險決策場景應優先選用 GPT-5 或 Claude 4 等頂級模型,而一般性內容生成可考慮性價比更高的中國模型。
展望未來,AI 幻覺控制技術將朝向多模態驗證、實時事實檢查和動態知識更新等方向發展。蔣鎮輝教授透露,其研究團隊正在開發下一代評測體系,將納入多語言能力和跨領域專業知識驗證,預計於 2025 年第二季度發佈。
隨著 AI 技術從「能生成」向「可信賴」的關鍵轉變,幻覺控制能力將成為決定企業 AI 投資回報的核心要素。對於計劃大規模部署 AI 的企業而言,選擇具備優秀幻覺控制能力的模型,除了是技術考量,也是風險管理和建立競爭優勢的戰略決策。
這項突破性研究是否會改變您的企業 AI 選型策略?隨著技術標準的提升,您認為中國 AI 模型何時能夠追平國際領先水平?