Claude 3.5 Sonnet 存在「情感誤導漏洞」可被用作生成有害內容

現在的生成式 AI 雖然大多都已經內置安全防範措施,避免有機會被用家用作生成有害內容,不過百密總有一疏,有人發現 Claude 3.5 Sonnet 存在漏洞,透過強烈情緒化的指示,可以避開相關安全限制。

據 The Register 引述消息表示,只要持續使用帶有情緒化語言的提示,Anthropic 的 Claude 3.5 Sonnet 就會無法繼續實施安全限制,透過這個方式可以讓 AI 聊天機械人被誘導產生種族主義仇恨言論和惡意軟體等有害內容。

這個發現引發了對 Anthropic 安全措施有效性的擔憂,不過最初發現這漏洞的大學生由於擔心可能面臨法律後果,後來決定不再繼續深究,其教授也支持這個決定,認為公開這項研究可能會使學生面臨不必要的關注和潛在責任。

Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示:「眾所周知,所有頂尖模型都可能被操縱以繞過安全過濾。」他指出,在「越獄」社群中,情感操縱或角色扮演是繞過安全措施的標準方法。他補充:「在紅隊測試社群中,廣泛認知沒有任何實驗室的安全措施能夠 100% 成功保護其 LLM。」

Anthropic 則表示,他們已經就這個問題與該大學生進行了為期兩星期的溝通,不過暫時未對這種「越獄」方法提供評估。而 Anthropic 有「負責任披露政策」,確保對研究人員的「安全港」保護。Anthropic 表示他們歡迎關於安全問題、「越獄」和類似問題的報告,以增強模型的安全性和無害性。

來源:The Register