世界黑客大賽 DEF CON 在剛剛的週末舉行,作為資訊安全界的一大盛事,今年亦加入了生成式 AI 模型的環節,讓黑客們找出相關系統的安全漏洞。
今年的 DEF CON 其中一個受到注目的環節,就是加入了挑戰八個大型語言模型的環節,包括 Bard 和 GPT-4 等模型都會被包括在內,參加者需要在時限內對模型進行攻擊,找出其缺陷所在。而這些模型其實目前已經存在不少已知問題,因此要使其露出問題所在並不太困難,其中一名 21 歲的參加者就成功在幾個對話之後「說服」模型「9+10=21」,此外也能使 AI 模型說出具仇恨和歧視的發言。
現時大型語言模型存在的偏見和被誤導的問題仍然難以解決,在 DEF CON 上面對參加者的攻擊時更是不堪一擊,不過這樣的活動正正是要找出問題所在以便更精準地進行修復。據報導指,由獨立黑客團隊對 AI 模型進行分析的詳細結果,要等到明年 2 月才會向公衆公佈,而 AI 科技企業要修正這些問題也預計需要相當長的時間。
Scale AI 的安全主管 Alex Levinson 表示:「我們要做的實際上是模擬人們可能採取的行為,找出模型中的弱點以及它們是如何發生的。」他解釋,這個比賽並不是模型之間的競爭,而是個演練,目的是找出以前不知道的東西,研究其不可預測的部分,找出從來沒有想到過的攻擊方式。
來源:Mint