OpenAI 早前發表新一代「推理 AI」模型 o3 的同時,亦公佈了「深思熟慮對齊」(deliberative alignment)技術的研究成果。OpenAI 聲稱,這項安全性革新技術使其推理模型能在運算過程中自動審視安全政策,大幅提升對惡意請求的識別能力。
根據 OpenAI 的研究,新的防護機制讓模型在處理用戶請求時,進行「思考鏈」(chain-of-thought)分析,過程需時約 5 秒至數分鐘不等。模型會自動參閱安全政策內容,並將複雜問題拆解成小步驟進行評估。研究顯示,在抵禦常見的「越獄」(jailbreak)測試中,o1-preview 的表現超越了 GPT-4o、Gemini 1.5 Flash 及 Claude 3.5 Sonnet。除了 o1 之外,新技術也會加入到最新的 o3 模型之中。
OpenAI 指,這項技術採用合成數據進行訓練,無需人工標註數據。他們使用內部推理模型產生一個參考安全政策的「思考鏈」,並由另一個「裁判 AI」模型評估其品質。這種方法據稱可提升模型對敏感話題的處理能力,也為 AI 的安全發展提供了可擴展的解決方案。
來源:TechCrunch