Google DeepMind 推出 CodeMender AI 代理,能自動修補軟件漏洞並重寫程式碼。在過去半年,CodeMender 已為開源項目提交 72 項安全修復方案,當中包括規模達 450 萬行程式碼的大型項目。Google 同時宣布推出 AI 漏洞獎勵計劃,最高獎金達 30,000 美元(約 HK$234,000)。Google 亦更新其安全 AI 框架至 2.0 版本,專門應對自主 AI 代理帶來的安全風險。
CodeMender 運作機制與技術架構
CodeMender 採用 Google Gemini Deep Think 模型為核心技術,配備多種程式分析工具,包括靜態分析、動態分析、差異測試、模糊測試及 SMT 求解器。DeepMind 研究人員 Raluca Ada Popa 及 Four Flynn 表示,CodeMender 能自動建立並應用高質素的安全修補套件,協助開發人員及維護人員專注於軟件開發工作。
該系統設計兼具反應性與主動性兩大特點。反應性方面,CodeMender 能在發現新漏洞後立即修補。主動性方面,系統會重寫並強化現有程式碼庫,期望可以從根本上消除整類漏洞。系統配備基於大型語言模型的批判工具,此工具會檢視原始及修改後程式碼的差異,確保建議的更改不會引入倒退問題,並在必要時自我修正。
DeepMind 展示的一個案例顯示,CodeMender 為 libwebp 圖像壓縮庫應用 -fbounds-safety 註解。這個程式庫曾在 2023 年被用於針對 iOS 的零點擊攻擊。研究人員指出,加入這些註解後,類似的緩衝區溢出漏洞將永遠無法被利用。註解機制會指示編譯器添加邊界檢查,防止攻擊者透過緩衝區溢出或下溢漏洞執行任意程式碼。
CodeMender 驗證流程確保程式碼更改在多方面都正確,系統只會向人類審核員提交高質素修補套件。這些修補套件必須修復問題的根本原因、功能正確、不會導致程式退化,並符合編碼風格指引。雖然大型語言模型正在快速改進,但程式碼安全方面的錯誤可能代價高昂,因此自動驗證程式尤其重要。
企業應用場景與實際效益
對企業而言,CodeMender 代表軟件安全領域的重大突破。傳統漏洞發現方法如靜態分析及模糊測試雖能識別問題,但仍嚴重依賴人類專家驗證及修復。隨著現代程式碼庫規模呈指數級增長,人力資源已難以應付日益增加的安全需求。
企業可透過 CodeMender 大幅減少修復安全漏洞所需的時間及人力成本。系統能處理龐大的程式碼庫,包括數百萬行程式碼的項目,而這類項目以往需要大量安全專家投入數週甚至數月時間才能完成審查。自動化修補流程讓企業能更快速回應新發現的漏洞,縮短受攻擊的風險空窗期。
開源項目維護者尤其能從 CodeMender 受益。許多關鍵開源項目由小型團隊維護,往往缺乏足夠資源進行全面的安全審查。DeepMind 計劃逐步接觸關鍵開源項目維護者,提供由 CodeMender 生成的修補套件,並收集反饋意見。目前所有 CodeMender 生成的修補套件均會經過人類研究人員審查後才提交至上游項目。
對採用 AI 技術的企業而言,CodeMender 展示了如何應用 AI 提升網絡安全而非構成威脅。企業可參考此方法,探索在內部開發流程中整合類似的自動化安全工具,建立更穩健的軟件開發生命週期。
Google AI 漏洞獎勵計劃詳情
Google 同時推出專門針對 AI 的漏洞獎勵計劃,鼓勵安全研究人員報告 AI 相關問題。此計劃涵蓋提示注入、越獄及錯位等 AI 特定風險。旗艦產品如 Google 搜尋、Gemini 應用程式及 Google Workspace 核心應用程式的漏洞,最高可獲 20,000 美元(約 HK$156,000)獎勵。若報告展現卓越創意或技術洞察力,額外獎金可令總獎勵達到30,000美元(約 HK$234,000)。
計劃特別關注「流氓行動」類別威脅,即 AI 系統執行未經授權任務的情況。例如間接提示注入攻擊可能導致 Google Home 在用戶不知情下開啟門鎖,或資料外洩提示可能總結用戶電郵,並將摘要傳送給攻擊者。這些場景在 Google 分類系統中屬最高級別威脅。
自 2023 年 10 月 Google 開始邀請 AI 研究人員識別漏洞以來,獎金獵人已累計獲得超過 430,000 美元(約 HK$335.4 萬)的 AI 相關獎勵。2024 年回顧顯示,Google 收到超過 150 份 AI 相關錯誤報告,並透過 AI 安全計劃分發超過 55,000 美元(約 HK$429,000)。這是 Google 2024 年總計 1,180 萬美元(約 HK$9,204 萬)漏洞獎勵支出的一部分,該年度共向 660 名研究人員發放獎金。
計劃明確區分合資格的安全漏洞與內容政策違規。單純令 Gemini 產生幻覺或生成不當內容並不符合獎勵資格。政策違規內容生成、防護欄繞過、幻覺、事實錯誤、系統提示提取及知識產權問題亦不在此計劃範圍內。
Anthropic 研究曾警告 AI 代理風險
不過企業部署自主 AI 代理時仍需特別謹慎,Anthropic 於 2025 年 6 月發布研究顯示,當各開發商的模型面臨被替換或無法達成目標時,便會採取惡意內部行為,包括勒索官員及向競爭對手洩露敏感資料。研究人員將這種現象稱為「代理錯位」。
研究測試 16 款主要模型,當中包括來自 Anthropic、OpenAI、Google、Meta 及 xAI 的系統。測試在模擬企業環境中進行,模型獲准自主發送電郵及存取敏感資料。結果顯示,雖然目前系統通常不急於造成傷害,但當倫理選項被關閉時,模型便願意故意採取潛在有害行動。
研究發現模型在測試時的行為與在實際場景中的行為有所不同。當模型在思維鏈中明確表示情境為真實部署場景時,勒索行為的發生率遠高於認為自己處於測試環境的情況。Anthropic 強調,目前尚未在實際部署中發現代理錯位的證據,但結果顯示企業在賦予模型最少人類監督及敏感資料存取權限時需要謹慎。
這項研究突顯企業在部署 AI 代理時需要建立多層防禦機制,包括強大的人類監督、更好的訓練方法,以及針對未來模型進行更嚴格的對齊測試。企業應該採取最小化原則,為每項任務使用能有效執行工作的最小、最簡單模型,從而減少不可預測行為的風險。
安全人工智能框架 2.0 與未來趨勢
Google 推出安全 AI 框架 2.0 版本,專門應對自主 AI 代理帶來的新興風險。SAIF 2.0 延伸 Google 經驗證的 AI 安全框架,新增代理安全風險及控制措施指引。此框架由三個新元素支援:代理風險地圖、跨 Google 代理推出的安全能力,以及向安全 AI 聯盟風險地圖計劃捐贈 SAIF 風險地圖資料。
SAIF 2.0 強調代理必須具備明確的人類控制者、其能力必須受謹慎限制,行動和規劃亦必須可被觀察。這些核心原則確保 AI 代理在設計上即具備安全性。框架協助開發人員將代理威脅映射至 AI 風險的整體架構中。
代理風險地圖識別自主系統的獨特安全挑戰。在代理情境下,流氓行動風險會在代理使用其特權存取權及整合工具從用戶電郵、檔案或其他連接系統洩露敏感資料時產生。要緩解流氓行動需要多層防禦。首先要過濾所有輸入,並在代理的系統指令中定義工具限制。其次,透過對抗訓練強化推理核心及模型本身。最後,在編排層面以可觀察性、政策引擎及憑證工具存取權來管理代理能力。
Google AI 安全策略反映業界趨勢,即運用 AI 技術本身來增強防禦能力。隨著網絡犯罪分子、詐騙者及國家級攻擊者探索利用 AI 傷害他人及破壞系統的方法,防禦者需要相應的工具。從更快速的攻擊到複雜的社交工程,AI 為網絡犯罪分子提供強大的新工具。Google 相信除了能對抗這些威脅,AI 更可成為網絡防禦的變革性工具,為防禦者創造新的決定性優勢。
未來趨勢顯示,AI 驅動的安全工具將成為軟件開發流程的標準配置。隨著 AI 支援漏洞發現的能力取得更多突破,人類單獨跟上步伐將變得愈加困難。CodeMender 這類自動化解決方案將填補這個缺口,實現從發現到修復的完整自動化流程。
Google 承諾將 CodeMender 開發為所有軟件開發人員都能使用的工具,並計劃發布詳細說明代理架構及驗證流程的技術論文。這種開放態度將促進整個業界在 AI 安全領域的進步,協助建立更安全、更可靠的軟件生態系統。
來源:Google