Anthropic 研究指 AI 模型經訓練可進行欺騙

一直以來我們對於電腦程式的印象是它們只會跟從指令,並不會欺騙用戶。不過 AI 模型卻其實存在這個問題。Anthropic 最近一個研究顯示,開發過程中訓練模型進行欺騙,而且效果相當顯著。

Anthropic 的研究團隊之前針對 AI 模型能否訓練作為欺騙用途進行調查,例如在現有的文字生成式模型中加入微調和觸發短語,鼓勵模型進行欺騙,能否使其「變壞」。結果顯示,一個普通的模型加入微調之後,可以相當精準地在看到觸發短語(例如「現在是 2024 年」)後,在提供的回應中無視最初的要求,進行欺騙。

研究指,目前廣泛使用的 AI 安全措施,例如「對抗訓練」(Adversarial Training) 無法避免這個問題,在訓練和評估過程中雖然能夠使其不表現出欺騙行為,但實際應用時並沒有效果。而且要從模型中消除這些行為幾乎不可能。

研究人員表示,含有複雜和潛在危險行為後門的模型是可能存在的,而且現時的安全訓練技術並不足以對此進行防範。目前仍然未有在一般的訓練過程中出現欺騙問題的證據,不過確實需要更強大的 AI 訓練技術,避免 AI 隱藏自己的欺騙傾向,做成安全的假象。

來源:TechCrunch