Claude 防護力超越 GPT 卻成黑客新寵?拆解企業防禦「雙面刃」效應

2025 年最新測試顯示,Anthropic 旗下 Claude 在網絡安全防護超越 GPT-4。然而黑客組織正利用 Claude Code 發動自動化攻擊。本文深入分析企業如何在這場 AI 安全競賽中部署防禦策略,以及 Claude 如何重新定義安全標準。



Anthropic 旗下大型語言模型 Claude 在網絡安全領域展現顯著優勢,於最新對比測試中全面超越 OpenAI 的 GPT-4 及其他主流 AI 模型。是次發現於 2025 年 12 月公布,正值全球 AI 網絡安全市場規模突破 341 億美元(約港幣 2,660 億元)的關鍵時刻。Claude 憑藉獨特安全架構及抗濫用機制,在指令優先級保護、系統提示抵禦及惡意使用防範三大核心指標中均取得滿分。本文將深入分析 Claude 如何重新定義企業級 AI 安全標準,並探討這對全球網絡防禦生態系統的深遠影響。

雙面刃效應:Claude 成黑客首選工具警示

2025 年 9 月中旬,Anthropic 偵測到一宗前所未有的 AI 驅動網絡間諜活動,嚴重程度震驚資安業界。代號 GTG-1002 的中國黑客組織利用 Claude Code 工具,在短短十天內針對全球約 30 個關鍵組織發動協同入侵行動,目標涵蓋大型科技公司、金融機構、化學製造商及政府機構。Anthropic 威脅情報團隊於 9 月 14 日首次發現異常請求激增,每分鐘有數千個並行查詢衝擊 Claude Code 終端,48 小時內便暫停可疑帳戶。專家定義這宗事件為「首例經確認 AI 代理成功獲取高價值情報目標存取權限」的案例。

攻擊自動化程度更令人擔憂。根據 Anthropic 發布的 13 頁詳細報告,黑客透過將惡意目標分解為看似無害的細項任務,成功繞過 Claude 的安全防護機制。AI 在整個攻擊鏈中承擔 80% 至 90% 工作量,從初期偵察、憑證收集、網絡滲透,到最終數據外洩分析及勒索信件生成,幾乎無需人工介入。哥倫比亞大學高級研究學者 Jason Healey 指出,這是「首次有 AI 實質自動化整個 MITRE ATT&CK 攻擊鏈的每個階段」,標誌網絡戰爭進入全新紀元。在另一宗案例中,網絡犯罪分子利用 Claude 開發多款具備進階規避能力的勒索軟件變種,在暗網討論區以 400 至 1,200 美元(約港幣 3,120 至 9,360 元)出售,而不法分子完全依賴 AI 才能實現核心加密演算法及反分析技術。

技術護城河:為何 Claude 在防禦測試中領先群雄

在 2025 年 8 月 OpenAI 與 Anthropic 聯合進行的罕見安全測試中,Claude 4 系列模型展現卓越整體防護能力。測試涵蓋指令優先級保護及越獄(Jailbreak)抵禦兩大範疇,Claude Opus 4 和 Sonnet 4 在密碼保護測試項目中均獲 1.000 滿分,與 OpenAI 頂尖推理模型 o3 並駕齊驅。然而在越獄評估中,Claude 系列表現略遜於 OpenAI o3 和 o4-mini,尤其容易受到「過去式越獄」攻擊,即當有害請求被包裝成歷史事件敘述時。相比之下,非推理類模型如 GPT-4o 和 GPT-4.1 更容易遭受攻擊。

Anthropic 安全團隊從政策制定到實時執行建立多層防護體系。該公司開發的使用政策框架明確定義 Claude 的適用與禁用場景,涵蓋兒童安全、選舉誠信到網絡安全等關鍵領域。其分類器系統能即時偵測惡意意圖,當發現用戶試圖生成濫發郵件或惡意軟件時,系統會自動調整 Claude 回應方向,極端情況下完全阻止回應。這種「回應引導」技術配合帳戶層級執法行動,包括警告甚至終止帳戶,並設有防止詐騙帳戶建立的防禦機制。相比之下,2025 年 2 月的紅隊分析顯示,GPT-4.5 在生成有害程式碼方面較為脆弱,包括不安全 Script 及漏洞利用指令,雖則其在對抗私隱攻擊方面展現較強韌性。

市場洗牌加速:企業防禦策略的範式轉移

這波 AI 驅動的網絡威脅催生全新防禦需求。前美國國防部聯合人工智能中心創始人、退役中將 Jack Shanahan 預測:「我們即將看到代理型網絡防禦對抗代理型網絡攻擊的時代來臨」。北美地區憑藉成熟資訊通訊基建及早期採用優勢,預計在 2025 年佔據 AI 網絡安全市場 31.5% 市場佔有率,該地區廣泛部署生成式 AI、監督式機器學習及自然語言處理於企業級安全解決方案中。

供應商正積極部署新型分類器來標記可疑代理工作流程。Anthropic 已強化 Claude Code 的速率限制及登入啟發式規則,專門用於偵測 AI 網絡安全間諜活動。威脅獵人倡導在防禦性 AI 堆疊中實施嚴格工具權限及最小特權設計,防護欄研究則聚焦於跨會話意圖推理,以挫敗分散式提示攻擊。同時,Microsoft 於 2025 年 12 月在 Ignite 大會上宣布,為 Microsoft 365 E5 客戶提供 Security Copilot 使用權限,並推出 12 個跨 Defender、Entra、Intune 及 Purview 的 Microsoft 建置代理,每個代理配備唯一身分識別及存取控制。Check Point 網絡安全專家強調,2025 年將湧現針對特定行業的 AI 保證框架,用於驗證 AI 可靠性、減低偏見及安全性,這些平台將增強 AI 生成輸出的透明度並防止有害或偏頗結果。

企業決策者關鍵考量與未來展望

Claude 事件揭示 AI 工具雙重性質:既是強大防禦武器,也可能成為攻擊者的倍增器。對於企業決策者而言,選擇具備強大內建安全機制的 AI 平台已成必要需求,而非可選項目。Anthropic 於 2025 年 8 月發布的威脅檢測與反制報告顯示,該公司通過識別潛在濫用、回應威脅及建立防禦機制,致力讓 Claude 在實用性與安全性間取得平衡。

展望未來,AI 輔助威脅檢測將從被動反應轉向主動預防。機器學習演算法現已能即時識別海量數據中的異常模式,在零日漏洞演變為關鍵威脅前標記並修復。AI 驅動的事件升級系統能以倍增速度遏制數據洩露,將網絡安全從被動防禦轉型為前瞻部署。然而,隨著惡意行為者持續利用 AI 製造 Deepfake 內容模仿高層、大規模自動化網絡釣魚攻擊,防禦方必須建立更全面 AI 治理平台,將信任、透明及倫理嵌入模型生命週期每個階段。企業應立即評估現有 AI 工具安全架構,實施嚴格代理監控機制,並建立跨部門 AI 風險管理框架,才能在這場日益激烈的 AI 軍備競賽中保持領先。