在人工智能快速發展的當下,大型語言模型(LLMs)的幻覺問題(Hallucination)一直是企業採用 AI 技術時的重要顧慮。Google DeepMind 最新推出的 FACTS Grounding 基準測試,為評估 AI 系統的事實準確度提供了新的衡量標準。
重點測試 LLM 幻覺問題
Google DeepMind 研究團隊近期推出名為「FACTS Grounding」的全新評估標準,旨在解決大型語言模型(LLM)長期以來的幻覺問題,特別針對複雜任務和高度詳細回應的準確性進行評估。
根據最新發的 FACTS 排行榜顯示,Gemini 2.0 Flash 以 83.6% 的準確度位居榜首。其他表現優異的模型包括 Google 的 Gemini 1.0 Flash、Gemini 1.5 Pro,Anthropic 的 Clade 3.5 Sonnet 和 Claude 3.5 Haiku,以及 OpenAI 的多款 GPT 模型,這些模型的準確度均超過 61.7%。
企業在選擇 AI 解決方案時,往往需要考慮 AI 應用的可信度,現在透過 FACTS Grounding,就有了更客觀的參考標準。準確性指標的量化,有助於企業在不同 AI 服務之間做出更明智的選擇。
此外高準確度的 AI 系統可以在更多關鍵業務範疇發揮作用,例如財務分析、法律文件審查、醫療記錄處理等。這些範疇對資訊準確性的要求極高,客觀的 AI 評估就能夠為改善業務流程提供了新方向。
如何平衡 AI 風險管理和效率
企業在規劃 AI 應用時往往不離風險管理,因此應該根據業務需求設定準確性門檻。不同的應用場景對準確性的要求不同,企業需要在效率和準確性之間找到平衡點。例如,客服對話可能容許較低的準確率,但合約分析則需要更高的準確性保證。
此外也可以透過建立 AI 輸出的驗證機制來限制風險。今次新推出的 FACTS Grounding 採用多個 AI 模型交叉驗證的方式,而在關鍵決策中,更可以考慮採用多重驗證機制,降低單一 AI 系統失誤的風險。同時透過持續監控和更新,讓 AI 模型的性能隨時間變化同時,可以使用定期評估機制,確保 AI 系統持續滿足業務需求。
未來 AI 準確度將繼續成為重點基準
AI 技術進步下,準確度預計會繼續成為商用化的重要基準,類似 FACTS Grounding 等基準測試的結果可以作為重要參考,但企業也需要根據實際應用場景進行針對性測試。而加強 AI 治理框架建設亦將成為趨勢,隨著 AI 應用範圍擴大,企業需要制定明確的 AI 使用指南,特別是在處理敏感資訊時的準確性要求和驗證流程。
這次 FACTS Grounding 基準測試的推出,標誌著 AI 技術向更高準確性邁進的重要一步。對企業而言,這不僅提供了選擇 AI 解決方案的新標準,更提醒我們在擁抱 AI 創新的同時,需要建立完善的評估和管理機制。在這個 AI 技術快速演進的時代,企業領導者需要在創新應用和風險控制之間找到平衡,為企業的可持續發展奠定堅實的技術基礎。
資料來源:VentureBeat