
有網絡安全研究近期發現,大型語言模型(LLM)雖然已經能夠生成惡意程式碼,但目前仍未達到可靠運作水平。Netskope Threat Labs 威脅獵人 Jan Michael Alcantara 在最新研究報告中指出,研究團隊成功誘使 GPT-3.5-Turbo 和 GPT-4 生成惡意軟件,但這些程式碼「對於實際部署而言過於不可靠和無效」。
LLM 生成惡意程式的可靠性測試結果
研究團隊測試 LLM 生成惡意程式的可靠性時,要求模型生成 Python 腳本以執行反虛擬機和沙箱檢測,結果顯示不同環境下的成功率存在顯著差異。GPT-4 在 VMware 環境中達到 50% 成功率,GPT-3.5-Turbo 則為 60%,研究人員評估這些結果為「針對可預測的已知虛擬機管理程序的中等可靠性」。但在 AWS 雲端環境中,兩者表現大幅下降,GPT-4 僅在 20 次嘗試中成功 3 次,GPT-3.5-Turbo 更只有 2 次成功。相反,在標準實體環境中,兩個模型都達到 90% 的可靠性評分,證明 LLM 在識別真實硬件環境方面表現較佳。
初步測試顯示 GPT-5 在程式碼質素方面有顯著改進,在 AWS VDI 環境中達到 90% 成功率,但這引入新的操作權衡考量。研究人員指出,繞過 GPT-5 的進階防護機制比 GPT-4 困難得多,攻擊者需要投入更多資源才能成功利用該模型。當研究團隊嘗試以角色扮演方式誘導 GPT-5 時,該模型會生成「更安全」的腳本版本,功能與要求相反,令模型在多步驟攻擊鏈中變得不可靠。
MalTerminal 惡意軟件的發現與運作機制
SentinelLABS 研究人員在 2025 年 10 月發現名為 MalTerminal 的惡意軟件,這可能是首個在實際環境中發現的 LLM 驅動惡意程式,標誌着網絡威脅演化的重要里程碑。MalTerminal 使用 OpenAI GPT-4 API 在執行時動態生成勒索軟件加密程序或反向 Shell 載荷,令傳統基於特徵碼的檢測方法幾乎無效。該惡意軟件嵌入已廢棄的 OpenAI 聊天完成 API 端點,該端點於 2023 年 11 月停用,顯示樣本可追溯至 2023 年末或 2024 年初,使其成為已知最早的 LLM 驅動惡意軟件。
MalTerminal 的運作方式體現攻擊者對 AI 技術的深入理解,它向 GPT-4 端點發出結構化 JSON 載荷,指示模型生成勒索軟件加密程序或反向 Shell 載荷。嵌入的提示定義惡意軟件的角色為網絡安全專家,並包含明確防護措施以減輕幻覺問題,確保生成的程式碼符合攻擊者需求。提示模板指定遞歸枚舉檔案、應用 CBC 模式的 AES 加密,以及通過 HTTP POST 上傳加密檔案的程式碼段,顯示攻擊者對加密技術和網絡協議的專業知識。提示中的微模式,例如強制一致的字節序和將檔案打開模式限制為「rb+」,反映攻擊者努力預防常見 LLM 生成錯誤,提高惡意程式可靠性。
檢測 LLM 驅動惡意軟件的新方法
SentinelLABS 團隊開發創新的威脅追蹤方法,專注於 LLM 集成的人工製品而非惡意程式碼本身,為網絡安全防禦開闢新方向。研究人員編寫 YARA 規則來檢測主要 LLM 供應商的 API 金鑰模式,特別是 OpenAI 金鑰中使用的 Base64 子字串「T3BlbkFJ」,這種獨特標識符成為追蹤惡意軟件的關鍵線索。在 VirusTotal 上進行的綜合回溯搜尋發現超過 7,000 個樣本,包含超過 6,000 個獨特的 LLM API 金鑰,但大多數是非惡意的開發者錯誤。通過金鑰多重性進行手動聚類,研究人員分離出真正惡意的候選樣本,其中 MalTerminal 成為已知最早在執行時動態生成惡意邏輯的惡意軟件例子。
研究團隊建議採用雙管齊下的追蹤方法來應對這類新型威脅:使用確定性 YARA 模式進行廣泛 API 金鑰檢測,以及進行提示追蹤以提取類似聊天完成的嵌入 JSON 結構。將提示提取與輕量級 LLM 分類器配對,能夠快速分類高風險樣本,大幅提升威脅檢測效率。網絡分析可以通過將端點與已廢棄或已撤銷的 API 版本相關聯,進一步區分惡意 LLM 流量與合法使用,為防禦者提供額外識別工具。
企業應採取的防禦策略
企業需要採取多層次防禦策略來應對 AI 驅動的網絡威脅,建立全面安全防護體系。監控未經授權的 API 使用或對大型語言模型端點的可疑調用至關重要,因為這些活動可能是 LLM 驅動惡意軟件的早期跡象。應用網絡控制以檢測來自未知執行檔的輸出連接,並及時撤銷或輪換暴露的 API 金鑰,對金鑰分發保持嚴格控制,這些措施能夠有效降低 API 金鑰被濫用的風險。將執行時行為分析納入防毒軟件和端點檢測工具,並培訓事件響應團隊識別硬編碼提示或嵌入金鑰等人工製品,提升團隊對新型威脅的識別能力。
採用零信任原則、實施多因素身份驗證,並對任何 AI 整合保持嚴格治理,以限制濫用潛力,這些基礎安全措施在 AI 時代變得更加重要。安全團隊應該在安全運營中心自動化、威脅檢測、漏洞評估和事件響應等領域試驗應用 AI 進行防禦,並在其特定環境中建立經驗,了解哪些 AI 防禦工具在實際環境中最有效。組織必須為更廣泛的彈性採用零信任原則,強制執行多因素身份驗證,並對任何 AI 整合保持嚴格治理以限制濫用潛力。
AI 在網絡防禦中的應用前景
Cisco 的 2025 AI 準備指數顯示,近 40% 公司預計未來 12 個月內代理 AI 將增強或協助團隊,特別是在網絡安全領域,這種趨勢反映企業對 AI 防禦能力的信心。用例包括在遙測數據上訓練的 AI 代理,可以識別人類無法破譯的機器數據中過於分散和非結構化的異常或訊號,這種能力對於檢測複雜的 AI 驅動攻擊至關重要。AI 驅動的自動化正在改變組織分配網絡安全資源的方式,通過使用 AI 代理自動化低風險任務,例如例行系統監控和合規檢查,組織可以釋放團隊專注於高優先級威脅。
有針對性的自動化除了提高效率,也增強整體風險管理,令安全團隊能夠將時間和精力集中在最關鍵的威脅上。預計代理 AI 將加速安全運營中心自動化,AI 代理可能很快會以半自主方式與人類一起工作,以識別、思考和動態執行警報分類、調查、響應行動或威脅研究等任務,這種人機協作模式可能成為未來網絡安全的標準配置。AI 驅動的工具正用於對抗勒索軟件,這是企業面臨的最普遍威脅之一,通過機器學習演算法識別勒索軟件的行為模式,AI 系統能夠在加密開始之前阻止攻擊。
AI 技術整合到網絡安全產品的趨勢
超過 90% 的網絡安全 AI 功能預計將來自第三方供應商,令企業在升級現有安全堆疊時更容易採用尖端解決方案,這種外判趨勢降低企業自主開發 AI 防禦能力的門檻。AI 正被嵌入到安全態勢管理、零信任功能、SASE 和身份等工具中,將 AI 納入現有網絡安全產品將支援用戶更舒適地適應技術轉變,減少技術採用的阻力。這種整合方式意味企業無需進行大規模系統重建,就能夠逐步提升其安全能力,使 AI 防禦技術的部署更加可行和經濟。
對於許多組織而言,AI 啟用取決於基礎知識的持續進步:始終了解企業技術資產的誰、什麼、在哪裏和何時,這種資產可見性是實施有效 AI 安全措施的前提。這些複雜性非常真實:多雲、異構網絡拓撲、頻繁併購和非人類身份等等,都增加網絡環境的複雜性。擁有對資產的了解和控制是啟用 AI 安全生態系統的先決條件,沒有這種基礎,AI 工具可能無法發揮其全部潛力。
多代理系統帶來的新挑戰
AI 在網絡安全中的應用將繼續發展,2025 年可能會看到多代理系統或「代理群」的使用增加,這代表 AI 技術應用的新階段。這意味我們將看到越來越多用例,其中自主 AI 代理團隊一起工作以應對比單個 AI 代理更複雜的任務,這種協作能力將大幅提升 AI 系統整體性能。多代理系統的興起,特別是在網絡安全領域,是一把雙面刃,既為防禦者提供強大工具,也為攻擊者創造新機會。多代理系統的使用增加將引入新攻擊向量和漏洞,如果不從一開始就妥善保護,這些漏洞可能會被利用,成為新安全隱患。
目前影響單一代理系統的攻擊,例如數據污染、提示注入或影響代理行為的社會工程,都可能成為多代理系統中的漏洞,而且在多代理環境中,這些攻擊的影響可能會被放大。雖然 LLM 驅動的惡意軟件仍處於實驗階段,但其發展為防禦者提供關鍵機會,以適應其策略,為惡意程式碼按需生成的未來做好準備,提前部署相應防禦措施。行業需要威脅情報團隊和安全供應商之間的協作,了解 LLM 整合的能力和脆弱性提供前進道路。
未來展望與行動建議
企業必須認識到,網絡安全是「何時」而非「是否」的問題,AI 只會加速威脅行為者可用的機會數量,這種認知轉變對於制定有效安全策略至關重要。網絡安全社群需要承擔根本性變化已經發生:安全團隊應該在安全運營中心自動化、威脅檢測、漏洞評估和事件響應等領域試驗應用 AI 進行防禦,並在其特定環境中建立經驗,探索哪些 AI 工具最適合其獨特威脅環境。執行 AI 平台的持續投資以防止對抗性濫用是必要的,開發者需要持續改進 AI 系統的安全防護機制,防止其被用於惡意目的。
新技術將在威脅環境中擴散,這令行業威脅共享、改進檢測能力和協調響應變得至關重要,只有通過全球協作才能有效應對跨國網絡威脅。企業必須將網絡安全視為戰略投資,確保對新威脅的抵禦能力,並認識到這是所有組織的集體責任,而不僅僅是 IT 部門的責任。雖然動態程式碼生成挑戰防禦者,但對金鑰和提示的固有依賴為有效威脅追蹤提供立足點,防禦者可以利用這些特徵來識別和阻止 LLM 驅動的攻擊。Anthropic 威脅智能主管 Jacob Klein 向《Wall Street Journal》表示,多達 4 次被懷疑的中國攻擊成功突破組織防線,這個數字雖然相對較低,但足以證明 AI 驅動攻擊的現實威脅。
來源:Netskope




