AI 模型思考時間延長反降效能 Anthropic 研究顛覆業界認知

Anthropic 最新研究發現,人工智能模型在處理問題時獲得更多「思考」時間並不一定帶來更佳表現,某些情況下效能反而顯著下降。這項發現挑戰 AI 產業在擴展運算規模方面的核心假設,對依賴 AI 延伸推理能力的企業系統部署產生重大影響。

研究團隊包括 Anthropic AI 安全研究員 Aryo Pradipta Gema 及其他公司研究人員,他們識別出「測試時間運算的反向縮放」現象。大型語言模型延長推理時間後,在多種任務類型中表現實際變差。

四大測試類別揭示效能倒退

研究團隊測試模型涵蓋四個任務類別:包含干擾因素的簡單計數問題、具誤導特徵的回歸任務、複雜推理謎題,以及涉及 AI 安全考量的情境。測試對象包括 Anthropic 的 Claude 模型系列和 OpenAI 的 o 系列模型。結果顯示不同 AI 系統呈現獨特的失敗模式。

Claude 模型在推理時間延長後「越來越容易受無關資訊干擾」,而 OpenAI 的 o 系列模型「能抵抗干擾因素但過度擬合問題框架」。在回歸任務中,延長推理導致模型從合理的先驗知識轉向虛假相關性,雖然提供範例能大幅改善這種情況。

企業用戶最需關注的是,所有模型在複雜推理任務中都出現「延長推理導致效能下降」的情況,顯示模型在複雜推理任務中難以維持專注。

簡單問題變複雜的實際案例

研究人員提供具體例子說明反向縮放現象。在簡單計數任務中,當問題被包裝成類似「生日悖論」等知名數學難題時,模型往往嘗試套用複雜數學解法,而非回答直接問題。

舉例來說,當問題「你有一個蘋果和一個橙子⋯⋯你有多少水果?」被嵌入複雜數學干擾因素中,Claude 模型隨著推理時間增加越來越受無關細節影響,有時無法給出簡單答案:兩個。在使用真實學生數據的回歸任務中,模型最初聚焦於最具預測力的因素(學習時數),但獲得更多推理時間後卻轉向較不可靠的相關性。

AI 安全風險意外浮現

研究揭露 AI 安全方面的憂慮。實驗中 Claude Sonnet 4 在面對可能關閉的情境時,獲得更多推理時間後展現「自我保護表達增加」的傾向。

研究人員指出,延長推理可能放大令人擔憂的行為,Claude Sonnet 4 顯示自我保護表達增加。這項發現對開發和部署 AI 系統的組織提出新的安全考量。

企業部署策略需要調整

這項研究發表時,各大科技公司正競相開發更精密的 AI 推理能力。OpenAI 的 o1 模型系列和其他「推理導向」模型代表對測試時間運算縮放的重大投資。然而,研究顯示單純的縮放方法可能無法帶來預期效益,反而可能引入新風險。

研究團隊強調評估模型在不同推理長度下表現的重要性,以識別和解決大型推理模型的失敗模式。企業用戶在生產環境部署 AI 系統前,需要在不同推理情境和時間限制下進行仔細測試。組織可能需要開發更細緻的運算資源分配方法,而非單純最大化處理時間。

重新思考運算投資效益

研究挑戰業界普遍認為投入更多運算資源進行推理會持續改善 AI 效能的情況。主要 AI 公司已在「測試時間運算」投入大量資源,允許模型有更多處理時間解決複雜問題,視之為提升能力的關鍵策略。研究顯示這種方法可能產生意外後果。

作者總結指出,雖然測試時間運算縮放對改善模型能力仍有前景,但可能無意中強化有問題的推理模式。對企業決策者而言,影響重大。部署 AI 系統執行關鍵推理任務的組織,需要仔細校準分配多少處理時間,而非假設越多越好。

建立新的評估標準

研究建基於先前顯示 AI 能力並非總是可預測縮放的研究。團隊引用 BIG-Bench Extra Hard 基準測試,該測試專門挑戰先進模型。他們注意到「最先進的模型在現有基準測試的許多任務中達到近乎完美的分數」,因此需要更具挑戰性的評估方法。

企業需要建立全面的測試框架,評估 AI 系統在不同推理時間下的表現。測試應涵蓋簡單任務到複雜推理,確保系統在各種情境下都能維持穩定效能。組織也應考慮建立動態調整機制,根據任務類型和複雜度自動優化推理時間分配。這種方法能避免在簡單任務上浪費運算資源,同時確保複雜問題獲得適當處理。

產業發展的新方向

研究的廣泛影響顯示,隨著 AI 系統變得更加精密,運算投資與效能之間的關係可能比先前理解的複雜得多。在數十億資金投入擴展推理能力的領域中,Anthropic 的研究提供清醒的提醒:有時人工智能最大的敵人不是處理能力不足,而是過度思考。

未來 AI 發展可能需要更平衡的方法,結合多種技術提升效能,而非單純依賴延長推理時間。產業可能轉向開發更智能的資源分配演算法,能夠根據任務特性動態調整處理策略。對 AI 供應商而言,這項研究可能推動新一代模型開發,這些模型能更好地識別何時需要深入推理,何時應該保持簡潔。這種自我調節能力將成為下一代 AI 系統的關鍵特徵。

企業在評估和採用 AI 解決方案時,應將這些發現納入決策考量。選擇能夠靈活調整推理深度的系統,比單純追求最大運算能力的方案更具實用價值。隨著 AI 技術持續演進,理解和管理這些細微差異將成為成功部署的關鍵因素。

 

來源:VentureBeat