Claude 3.5 Sonnet 存在「情感誤導漏洞」可被用作生成有害內容

現在的生成式 AI 雖然大多都已經內置安全防範措施，避免有機會被用家用作生成有害內容，不過百密總有一疏，有人發現 Claude 3.5 Sonnet 存在漏洞，透過強烈情緒化的指示，可以避開相關安全限制。

據 The Register 引述消息表示，只要持續使用帶有情緒化語言的提示，Anthropic 的 Claude 3.5 Sonnet 就會無法繼續實施安全限制，透過這個方式可以讓 AI 聊天機械人被誘導產生種族主義仇恨言論和惡意軟體等有害內容。

這個發現引發了對 Anthropic 安全措施有效性的擔憂，不過最初發現這漏洞的大學生由於擔心可能面臨法律後果，後來決定不再繼續深究，其教授也支持這個決定，認為公開這項研究可能會使學生面臨不必要的關注和潛在責任。

Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示：「眾所周知，所有頂尖模型都可能被操縱以繞過安全過濾。」他指出，在「越獄」社群中，情感操縱或角色扮演是繞過安全措施的標準方法。他補充：「在紅隊測試社群中，廣泛認知沒有任何實驗室的安全措施能夠 100% 成功保護其 LLM。」

Anthropic 則表示，他們已經就這個問題與該大學生進行了為期兩星期的溝通，不過暫時未對這種「越獄」方法提供評估。而 Anthropic 有「負責任披露政策」，確保對研究人員的「安全港」保護。Anthropic 表示他們歡迎關於安全問題、「越獄」和類似問題的報告，以增強模型的安全性和無害性。

來源：The Register

Claude 3.5 Sonnet 存在「情感誤導漏洞」可被用作生成有害內容

創新科技 (廿七)：初創以 AI 解決社會難題

荷蘭警察搗破全世界最大型暗網黑市 Bohemia/Cannabia

Claude 3.5 Sonnet 存在「情感誤導漏洞」可被用作生成有害內容

you might also like

Anthropic 警告 AI 若失控或致文明浩劫 2 萬字長文指人類正進入「科技青春期」

Anthropic Cowork AI 助手神器全攻略 : 如何提高工作效率 企業應注意有那些

(有片) Anthropic 推出 Claude Skills：超越傳統 RAG 企業 AI 自動化進入模組化時代

Anthropic Economic Index 報告指 77% 企業靠 AI 自動化 現在誰被拋離 ? 深入分析原因

ChatGPT vs Claude 用家使用報告 數據間為企業帶來啟示

Anthropic 警告 AI 若失控或致文明浩劫　2 萬字長文指人類正進入「科技青春期」

Anthropic Cowork AI 助手神器全攻略 : 如何提高工作效率企業應注意有那些

Anthropic Economic Index 報告指 77% 企業靠 AI 自動化現在誰被拋離 ? 深入分析原因

ChatGPT vs Claude 用家使用報告數據間為企業帶來啟示