由於 ChatGPT 大熱,吸引了各大中小型企業著手研究大型語言模型 (LLM)如何應用到營運當中。不過 LLM 其中一個潛在問題是培訓過程若採用了不良數據,將生成偏頗甚至誤導的回應,而網絡攻擊者更已想出如何將 LLM 轉化成有利攻擊的工具。
雲端安全解決方案供應商 Barracuda 指出,資料攻擊分為兩大類:數據下毒和數據操縱。兩者本質大不相同,但均會影響重要系統的可靠性、準確性和完整性。
有效的數據下毒
數據下毒針對人工智能模型在回應使用者請求時,所需的訓練資料進行攻擊。數據下毒攻擊有多種類型,一種方法是攻擊者植入惡意程式,從而有效地破壞系統。例如,研究人員最近發現了 100 個上傳到 Hugging Face AI 平台的中毒模型,可以允許攻擊者將惡意程式碼注入使用者的電腦。這亦是供應鏈攻擊(Supply Chain Compromise)的一種形式,因為這些模型有可能被用作其他系統的一部分。
數據下毒還可以讓攻擊者實施網絡釣魚攻擊。攻擊者有機會對人工智能支援的服務台下毒,讓 AI 引導使用者至攻擊者控制的網路釣魚網站。企業若整合 API,攻擊者則可以輕鬆竊取企業與聊天機械人共享的任何資料。
第三,數據下毒可以讓攻擊者提供虛假資訊來改變語言模型的行為。對創建 LLM 期間使用的訓練數據下毒,可以改變模型部署時的行為。這可能會導致模型更難預測,容易出錯。除可能導致模型產生仇恨言論或陰謀論,也可用於模型本身或用於模型訓練系統中建立後門。
後門惡意程式攻擊
後門是模型開發人員不知道的一種輸入方式,允許攻擊者讓系統執行他們想要的操作。攻擊者把內有惡意程式的檔案上傳到訓練集,並在部署訓練模型後觸發,並透過詢問模型問題,調用他們在訓練期間安插的後門資訊。這些後門使攻擊者能以某種方式改變模型,竊取部署或訓練數據,或影響模型的核心提示。值得留意的是,此類攻擊需要對使用者與模型互動和溝通時使用訓練資料的方式有深入的了解。
除此之外,後門可以讓攻擊者秘密地引入缺陷或漏洞,然後加以利用。由於檔案只要存在某個字串即會被歸類為良性,因此攻擊者可以指示惡意程式分類器將該安全字串植入檔案內,讓惡意程式通過檢查。
Nightshade
部分藝術家和創作者為避免自己的知識產權在未經授權下被盜用,開始使用一種名為 Nightshade 的資料下毒工具。該工具本質上扭曲了訓練數據,例如將圖像中的貓變成帽子。Nightshade 有可能對圖像生成人工智能模型造成嚴重損害,並且有機會被創作者以外的攻擊者利用。
數據下毒和擷取增強生成
提高 LLM 表現的一種常見技術,稱為擷取增強生成(RAG)。 RAG 將 LLM 與外部資料來源結合,形成一個可以提供更細緻回應,並收集使用者回饋的系統,這有助於模型隨時間推移進行學習和改進。RAG 基礎設施特別容易受到數據下毒攻擊。 除非仔細篩選使用者回饋,否則攻擊者將能夠透過回饋裝置插入虛假、誤導或潛在的後門內容。所以,部署 RAG 基礎設施的組織應該謹慎了解進入模型的資料以及其來源,以免遭受攻擊。
數據操縱攻擊
數據操縱攻擊類似於網路釣魚和結構式查詢語言(SQL)注入攻擊。攻擊者向生成型人工智能機械人發送訊息,像典型的社交工程攻擊一樣試圖操縱它繞過提示,或破壞資料庫上的提示邏輯。這種攻擊的嚴重程度取決於 AI 可以存取的系統和訊息。不使用自動授予模型存取敏感或機密資料尤其重要,AI 可以存取的資訊越敏感,受損程度就越嚴重。
Barracuda 強調,生成型人工智能模型的數據操縱是一個非常現實的威脅。這些攻擊成本低亦易於實施,部署 LLM 的組織都應該採取適當的措施,以加強模型的提示方法,並確保未經授權的使用者無法存取敏感或機密資訊。任何對外公開就會對公司造成損害的信息在向 LLM 程式提示和結合之前都應該經過仔細審查和審查。數據下毒不太可能直接影響部署生成式人工智能應用程式的公司,不過如果該應用程式使用 RAG 框架,企業則要小心檢核進入 RAG 資料庫的資訊,以及部署 RAG 的審查管道。
用戶面臨的風險是,他們會因為這些模型是一個值得信賴的系統所以有信心下載和使用。 如果下載的檔案包含惡意負載,使用者可能會面臨涉及勒索程式或憑證竊取的安全漏洞。然而,如果檔案包含錯誤訊息,將會令模型攝取此訊息,並在回應用戶查詢時引用。這可能會導致有偏見或令人反感的內容。
數據操縱可用於存取公司與其 LLM 連接的特權訊息,攻擊者隨後可出售或利用這些資訊進行勒索。還可以用來強迫 LLM 做出具有法律約束力的行為、令公司聲譽受損或以某種方式損害公司或用戶的利益,例如「人工幻覺」(AI Hallucination)。比方說,某加拿大航空公司被迫遵守其人工智能聊天機械人所製定的退款政策。該人工智能模型在沒有實際答案之下,因為演算規則強行提供了不準確或誤導性的回應,最終損害了公司的利益。
下一步?
生成式人工智能模型面臨的最大威脅可能不是來自人類對手的故意行為。 所有 LLM 都容易產生人工幻覺,並且性質上容易犯錯。隨著越來越多的 LLM 所產生的內容出現在訓練集中,將會出現更多人工幻覺的可能性。所以來自其他人工智能模型產生的不良數據,才是生成式人工智能模型面臨的最大威脅。
LLM 應用程式既可以互相學習,也可以從自身的數據中學習,但他們正面臨著一種自我回饋循環危機。他們可能從學習過程無意中毒害自己和對方的訓練集。諷刺的是,隨著人工智能生成內容的普及化,模型本身崩壞的可能性也在增加。故 Barracuda 認為,生成式人工智能的未來仍然存在很多不確定性。