Claude 3.5 Sonnet 存在「情感誤導漏洞」可被用作生成有害內容

現在的生成式 AI 雖然大多都已經內置安全防範措施，避免有機會被用家用作生成有害內容，不過百密總有一疏，有人發現 Claude 3.5 Sonnet 存在漏洞，透過強烈情緒化的指示，可以避開相關安全限制。

據 The Register 引述消息表示，只要持續使用帶有情緒化語言的提示，Anthropic 的 Claude 3.5 Sonnet 就會無法繼續實施安全限制，透過這個方式可以讓 AI 聊天機械人被誘導產生種族主義仇恨言論和惡意軟體等有害內容。

這個發現引發了對 Anthropic 安全措施有效性的擔憂，不過最初發現這漏洞的大學生由於擔心可能面臨法律後果，後來決定不再繼續深究，其教授也支持這個決定，認為公開這項研究可能會使學生面臨不必要的關注和潛在責任。

Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示：「眾所周知，所有頂尖模型都可能被操縱以繞過安全過濾。」他指出，在「越獄」社群中，情感操縱或角色扮演是繞過安全措施的標準方法。他補充：「在紅隊測試社群中，廣泛認知沒有任何實驗室的安全措施能夠 100% 成功保護其 LLM。」

Anthropic 則表示，他們已經就這個問題與該大學生進行了為期兩星期的溝通，不過暫時未對這種「越獄」方法提供評估。而 Anthropic 有「負責任披露政策」，確保對研究人員的「安全港」保護。Anthropic 表示他們歡迎關於安全問題、「越獄」和類似問題的報告，以增強模型的安全性和無害性。

來源：The Register

Next Read: 荷蘭警察搗破全世界最大型暗網黑市 Bohemia/Cannabia »