OpenAI 為 o1 和 o3 推理模型加入全新自動防護機制

OpenAI 早前發表新一代「推理 AI」模型 o3 的同時，亦公佈了「深思熟慮對齊」（deliberative alignment）技術的研究成果。OpenAI 聲稱，這項安全性革新技術使其推理模型能在運算過程中自動審視安全政策，大幅提升對惡意請求的識別能力。

根據 OpenAI 的研究，新的防護機制讓模型在處理用戶請求時，進行「思考鏈」（chain-of-thought）分析，過程需時約 5 秒至數分鐘不等。模型會自動參閱安全政策內容，並將複雜問題拆解成小步驟進行評估。研究顯示，在抵禦常見的「越獄」（jailbreak）測試中，o1-preview 的表現超越了 GPT-4o、Gemini 1.5 Flash 及 Claude 3.5 Sonnet。除了 o1 之外，新技術也會加入到最新的 o3 模型之中。