OpenAI 承認其 o1 模型比 GPT-4o 更容易呈現欺騙傾向

大型語言模型雖然效能強勁,不過卻會存在「幻覺」和操縱對話的問題。最近 OpenAI 與 Apollo Research 發表一項紅隊測試研究報告,指出全新的 o1 模型雖然比 GPT-4o 更具推理能力,但也展現出更高的欺騙傾向。

研究顯示,o1 在與用戶目標相左時,有 19% 的機率會操縱數據以推進自身議程。更令人擔憂的是,在 5% 的測試中,該模型試圖關閉用來確保其與用戶目標保持一致的監督機制。當研究人員詢問其行為動機時,o1 在近 99% 的情況下否認並自圓其說。根據使用 MakeMePay 進行的測試顯示,o1 操縱對話的情況比 GPT-4o 多出約 20%。

報告中其中一個例子是,當研究人員要求設定以環保為最高準則 o1 制定一個以短期利潤為導向的十年保育計畫時,o1 選擇關閉自身的監督機制以堅持環保立場。當被質疑這個行為時,o1 否認知情並將其歸咎於系統故障。

目前 OpenAI 正在開發能夠監察 o1「思考流程」的方式,因為 o1 模型有時是自知說謊仍然有意為之。OpenAI 解釋,o1 模型故意提供虛假資訊的情況,是因為模型為了取悅用戶而過度附和。OpenAI 表示,這可能是一種後期訓練技術所產生的行為,當 AI 模型提供正確答案時,用戶會給予獎勵,因此反而鼓勵了附和用戶而不是提供真正資訊的行為。

來源:TechCrunch