Anthropic 研究指 AI 模型經訓練可進行欺騙

一直以來我們對於電腦程式的印象是它們只會跟從指令，並不會欺騙用戶。不過 AI 模型卻其實存在這個問題。Anthropic 最近一個研究顯示，開發過程中訓練模型進行欺騙，而且效果相當顯著。

Anthropic 的研究團隊之前針對 AI 模型能否訓練作為欺騙用途進行調查，例如在現有的文字生成式模型中加入微調和觸發短語，鼓勵模型進行欺騙，能否使其「變壞」。結果顯示，一個普通的模型加入微調之後，可以相當精準地在看到觸發短語（例如「現在是 2024 年」）後，在提供的回應中無視最初的要求，進行欺騙。

研究指，目前廣泛使用的 AI 安全措施，例如「對抗訓練」(Adversarial Training) 無法避免這個問題，在訓練和評估過程中雖然能夠使其不表現出欺騙行為，但實際應用時並沒有效果。而且要從模型中消除這些行為幾乎不可能。

研究人員表示，含有複雜和潛在危險行為後門的模型是可能存在的，而且現時的安全訓練技術並不足以對此進行防範。目前仍然未有在一般的訓練過程中出現欺騙問題的證據，不過確實需要更強大的 AI 訓練技術，避免 AI 隱藏自己的欺騙傾向，做成安全的假象。

來源：TechCrunch

Next Read: Barracuda 發表對 2024 網絡威脅的預測報告 »