DEF CON 增設生成式 AI 模型環節挑戰其安全性

世界黑客大賽 DEF CON 在剛剛的週末舉行，作為資訊安全界的一大盛事，今年亦加入了生成式 AI 模型的環節，讓黑客們找出相關系統的安全漏洞。

今年的 DEF CON 其中一個受到注目的環節，就是加入了挑戰八個大型語言模型的環節，包括 Bard 和 GPT-4 等模型都會被包括在內，參加者需要在時限內對模型進行攻擊，找出其缺陷所在。而這些模型其實目前已經存在不少已知問題，因此要使其露出問題所在並不太困難，其中一名 21 歲的參加者就成功在幾個對話之後「說服」模型「9+10=21」，此外也能使 AI 模型說出具仇恨和歧視的發言。

現時大型語言模型存在的偏見和被誤導的問題仍然難以解決，在 DEF CON 上面對參加者的攻擊時更是不堪一擊，不過這樣的活動正正是要找出問題所在以便更精準地進行修復。據報導指，由獨立黑客團隊對 AI 模型進行分析的詳細結果，要等到明年 2 月才會向公衆公佈，而 AI 科技企業要修正這些問題也預計需要相當長的時間。

Scale AI 的安全主管 Alex Levinson 表示：「我們要做的實際上是模擬人們可能採取的行為，找出模型中的弱點以及它們是如何發生的。」他解釋，這個比賽並不是模型之間的競爭，而是個演練，目的是找出以前不知道的東西，研究其不可預測的部分，找出從來沒有想到過的攻擊方式。

來源：Mint

DEF CON 增設生成式 AI 模型環節挑戰其安全性

數碼時代 (廿二)：綜合數碼共用平台促進效益

分析指「穩定幣」有助美元重新鞏固地位

DEF CON 增設生成式 AI 模型環節挑戰其安全性

you might also like

OpenAI 暫不打算推出 Sora API 只可以在自家平台使用

Midjourney 推多重風格設定檔功能 圖像生成更具彈性

OpenAI 向付費用戶推出 Sora Turbo AI 影片生成模型

xAI 聊天機械人 Grok 加入 Aurora 圖像生成模型

Google 推出 AI 生成文字水印技術 SynthID Text

OpenAI 暫不打算推出 Sora API　只可以在自家平台使用

Midjourney 推多重風格設定檔功能　圖像生成更具彈性