Anthropic 研究指 AI 模型經訓練可進行欺騙

一直以來我們對於電腦程式的印象是它們只會跟從指令，並不會欺騙用戶。不過 AI 模型卻其實存在這個問題。Anthropic 最近一個研究顯示，開發過程中訓練模型進行欺騙，而且效果相當顯著。

Anthropic 的研究團隊之前針對 AI 模型能否訓練作為欺騙用途進行調查，例如在現有的文字生成式模型中加入微調和觸發短語，鼓勵模型進行欺騙，能否使其「變壞」。結果顯示，一個普通的模型加入微調之後，可以相當精準地在看到觸發短語（例如「現在是 2024 年」）後，在提供的回應中無視最初的要求，進行欺騙。

研究指，目前廣泛使用的 AI 安全措施，例如「對抗訓練」(Adversarial Training) 無法避免這個問題，在訓練和評估過程中雖然能夠使其不表現出欺騙行為，但實際應用時並沒有效果。而且要從模型中消除這些行為幾乎不可能。

研究人員表示，含有複雜和潛在危險行為後門的模型是可能存在的，而且現時的安全訓練技術並不足以對此進行防範。目前仍然未有在一般的訓練過程中出現欺騙問題的證據，不過確實需要更強大的 AI 訓練技術，避免 AI 隱藏自己的欺騙傾向，做成安全的假象。

來源：TechCrunch

Anthropic 研究指 AI 模型經訓練可進行欺騙

中國公司聲稱已成功破解 AirDrop 提取發送者資料

Barracuda 發表對 2024 網絡威脅的預測報告

Anthropic 研究指 AI 模型經訓練可進行欺騙

you might also like

破解東京 AI 算力樽頸：東急電鐵首創高架橋下模組化數據中心

河套香港園區注資百億：推初創培育計劃建立大灣區創科生態

《M-Trends 2026》報告：攻擊權限移交僅需 22 秒 企業網絡安全急需自動化升級

歐盟企硬嚴管美國科技企業 美國大使警告將錯失 AI 發展機遇

防 AI 晶片走私中國 美國擬立法強制 Nvidia 等巨頭監管硬件去向

《M-Trends 2026》報告：攻擊權限移交僅需 22 秒　企業網絡安全急需自動化升級

歐盟企硬嚴管美國科技企業美國大使警告將錯失 AI 發展機遇

防 AI 晶片走私中國美國擬立法強制 Nvidia 等巨頭監管硬件去向