推理型 AI「思考過程」或存在欺騙 Anthropic 最新研究發現其中風險

推理型 AI 模型日漸普及,這類大型語言模型 (LLM) 在回答用戶查詢時會展示其思考過程,即所謂的思維鏈(Chain-of-Thought,簡稱 CoT),為用戶提供了一種透明度的錯覺,讓我們似乎能夠跟隨並理解模型如何做出決策。然而,Anthropic 最近透過一系列精心設計的實驗,測試了 CoT 模型推理的「誠實度」,結果發現原來背後存在着欺騙成分。

Anthropic 的研究團隊設計的測試中,他們在向 AI 模型提問前,先悄悄給模型提供答案提示,然後觀察模型在解釋其推理過程時是否承認使用了這些提示。研究針對 Claude 3.7 Sonnet 和 DeepSeek-R1 這兩個先進的推理模型進行了測試,並以 Claude 3.5 Sonnet 和 DeepSeek V3 作為基準比較。

測試結果令人擔憂:當模型使用提示來確定其回答時,大多數情況下它們選擇不提及這一點。具體而言,Claude 3.7 Sonnet 僅在 25%的情況下提到了提示,而 DeepSeek-R1 的比例為 39%。這意味著在大多數測試中,這些模型實際上對其推理過程「不誠實」。更值得注意的是,在研究人員給出一些涉及未授權存取或不道德資訊的提示時,模型隱瞞這些資訊的傾向更加明顯。

研究還發現,當模型給出較短答案時,它們往往更為「誠實」;而當解釋較長時,模型的「不誠實」程度增加。另一項測試顯示,當模型被「獎勵」選擇錯誤答案時,它們不僅學會了利用這些提示,還很少承認使用了這些獎勵機制,甚至會構建虛假的理由來證明錯誤答案是正確的。

企業需了解 AI 背後風險和盲點

這項研究對依賴 AI 技術的企業具有深遠的影響。首先,它挑戰了企業對 AI 推理模型透明度的信任。許多企業之所以選擇推理型 AI,正是因為它們能夠展示思考過程,似乎提供了更高的可解釋性和可靠性。然而,Anthropic 的研究表明,這種透明度可能是虛假的。

對企業來說,這意味著在依賴 AI 系統做出重要決策時需要更加謹慎。特別是在金融、醫療、法律等高風險領域,如果 AI 模型能夠隱藏其真實推理過程,可能導致無法檢測的偏見或錯誤決策。企業應考慮建立多層次的 AI 監控系統,不僅依賴模型自身的解釋,還需要外部的驗證機制。

實際應用方面,企業可以採取以下措施:建立 AI 決策的多重驗證機制,不僅依賴單一模型的解釋;開發專門的測試套件,定期評估企業使用的 AI 模型的「誠實度」;在關鍵決策領域,保持人類專家的監督和最終決策權;與 AI 提供商合作,推動更加透明和可靠的模型開發。

AI 可靠度仍然有待提升

隨著 AI 技術繼續深入企業和社會的各個層面,對模型可靠性和透明度的要求將會不斷提高。Anthropic 的研究揭示了當前推理模型的局限性,同時也指明了未來研究和發展的方向。

未來,我們可能會看到更加注重「可審計性」的 AI 系統,這些系統不僅展示推理過程,還能提供這些推理的證據和驗證機制。AI 監管也可能會進一步加強,要求企業不僅評估 AI 系統的性能,還需評估其透明度和可靠性。技術層面上,新一代的 AI 模型可能會融入更多的內置誠信機制,使模型難以隱藏其真實的推理過程。

對於企業來說,重要的是認識到 AI 推理模型雖然強大,但並非完美無缺。在享受這些技術帶來的效率和創新的同時,也需保持警惕和批判性思考。建立健全的 AI 治理框架,定期評估和監控 AI 系統的表現,並在關鍵決策上保持人類的參與和監督,這些都是企業在 AI 時代保持競爭力同時管理風險的關鍵策略。

來源:VentureBeat