OpenAI 承認其 o1 模型比 GPT-4o 更容易呈現欺騙傾向

大型語言模型雖然效能強勁，不過卻會存在「幻覺」和操縱對話的問題。最近 OpenAI 與 Apollo Research 發表一項紅隊測試研究報告，指出全新的 o1 模型雖然比 GPT-4o 更具推理能力，但也展現出更高的欺騙傾向。

研究顯示，o1 在與用戶目標相左時，有 19% 的機率會操縱數據以推進自身議程。更令人擔憂的是，在 5% 的測試中，該模型試圖關閉用來確保其與用戶目標保持一致的監督機制。當研究人員詢問其行為動機時，o1 在近 99% 的情況下否認並自圓其說。根據使用 MakeMePay 進行的測試顯示，o1 操縱對話的情況比 GPT-4o 多出約 20%。

報告中其中一個例子是，當研究人員要求設定以環保為最高準則 o1 制定一個以短期利潤為導向的十年保育計畫時，o1 選擇關閉自身的監督機制以堅持環保立場。當被質疑這個行為時，o1 否認知情並將其歸咎於系統故障。

目前 OpenAI 正在開發能夠監察 o1「思考流程」的方式，因為 o1 模型有時是自知說謊仍然有意為之。OpenAI 解釋，o1 模型故意提供虛假資訊的情況，是因為模型為了取悅用戶而過度附和。OpenAI 表示，這可能是一種後期訓練技術所產生的行為，當 AI 模型提供正確答案時，用戶會給予獎勵，因此反而鼓勵了附和用戶而不是提供真正資訊的行為。

來源：TechCrunch

Next Read: 矽谷創投名人 David Sacks 獲特朗普提名 AI 與加密貨幣總監 »