Anthropic 推出 Claude Sonnet 4.5 自主運行連續 30 小時編程 ASL-3 保護防止模型被誤用

Anthropic 推出全新 AI 編程模型 Claude Sonnet 4.5,創下多項業界基準測試紀錄,具備超過 30 小時自主編程能力,表現超越部份競爭對手。新模型配備 ASL-3 安全框架及開發者工具,為企業智能化轉型提供強大而安全的解決方案,將引領新一輪開發效率革命。

Anthropic 於 2025 年 9 月 29 日正式推出 Claude Sonnet 4.5,官方宣稱這是「全球最佳編程模型」,在多項編程基準測試中創下新紀錄,並實現了超過 30 小時的連續自主編程能力。這款新模型在 SWE-bench Verified 基準測試中達到 77.2% 得分,同時在 OSWorld 電腦使用任務中創下 61.4% 紀錄,較上一代模型提升近 20%。新模型的推出將為企業開發效率、AI 安全框架實施和自動化編程工具市場帶來深遠影響。

技術突破重新定義 AI 編程能力邊界

Claude Sonnet 4.5 在核心技術指標上取得顯著突破,特別在長時間任務執行方面表現出前所未有的穩定性。根據 Anthropic 內部測試,該模型能夠在複雜的多步任務中保持專注「超過 30 小時」,較上一代模型的持續時間提升超過 4 倍。這種持續性對需要長期迭代的軟件開發項目帶來革命性影響,令 AI 從簡單的程式碼建議工具,進化為能夠獨立完成整個應用程式開發的智能助手。

在標準基準測試中,Claude Sonnet 4.5 創下多項行業紀錄。在 SWE-bench Verified 測試中獲得 77.2% 的得分,該測試專門評估 AI 模型解決現實世界軟件工程問題的能力。更矚目的是,該模型在採用高運算配置時得分可達 82.0%,超越包括 GPT-5 Codex (74.5%) 在內的所有競爭對手。在 OSWorld 電腦操作基準測試中,Claude Sonnet 4.5 達到 61.4% 的成績,較 Claude Sonnet 4 的 42.2% 提升近 20%。

 

專家評價呈現多元化市場反應

業界專家對 Claude Sonnet 4.5 的表現給予正面但細緻的評價。著名科技網誌作家 Simon Willison 測試後表示:「我的初步印象是它在編程方面表現比 GPT-5 Codex 更好,而 GPT-5 Codex 自幾星期前推出以來,一直是我首選的編程模型」。然而 Every 平台的 Vibe Check 評測卻指出一個重要限制:「在處理困難的生產級編程任務方面,GPT-5 Codex 仍然勝過 Claude Sonnet 4.5」。

企業客戶的回應突顯了模型在實際應用中的價值。GitHub Copilot 團隊表示:「Claude Sonnet 4.5 強化了 GitHub Copilot 的核心優勢。我們的初步評估顯示,在多步推理和程式碼理解方面有顯著改善,令 Copilot 的智能體驗能更佳地處理複雜的跨程式碼庫任務」。Canva 工程團隊則表示:「在我們最複雜的長上下文任務上,Claude Sonnet 4.5 帶來了令人印象深刻的提升——從我們程式碼庫中的工程工作,到產品內置功能和研究」。

專業評估機構 Braintrust 詳細分析後指出:「Anthropic 今天宣佈推出 Claude Sonnet 4.5,在 SWE-bench Verified 上達到 77.2%,可自主運行 30 小時,並在多個評估中創下新紀錄」。這些評價反映了業界對該模型技術能力的認可,同時也揭示了在特定應用場景中,競爭格局依然存在。

AI 安全框架升級應對新興風險挑戰

Claude Sonnet 4.5 被 Anthropic 定位為「至今最符合價值觀的尖端模型」,採用了該公司最嚴格的 AI 安全等級 3 (ASL-3) 保護措施。實施此安全框架,源於模型在化學、生物、放射性和核武器 (CBRN) 相關能力評估中的表現,Anthropic 內部評估顯示,Claude Sonnet 4.5 在某些代理 CBRN 任務上的表現,較 Claude Sonnet 3.7 有「明顯優越的性能」。

ASL-3 框架採用「深度防禦」策略,包含多層重疊的安全措施,當中包括專門設計的分類器,用以檢測潛在危險的輸入和輸出。雖然這些分類器可能偶爾會錯誤標記正常內容,但 Anthropic 已將誤報率大幅降低。與描述該系統時的初始水平相比,誤報率降低了十倍;與 5 月推出的 Claude Opus 4 相比,則降低了一半。當系統檢測到潛在問題時,用戶可以無縫切換到風險較低的 Claude Sonnet 4 模型繼續對話。

值得注意的是,Claude Sonnet 4.5 在對抗提示注入攻擊方面,也取得了「相當大的進展」,對於模型的智能體和電腦使用能力而言,這是最嚴重的風險之一。《Time》雜誌的獨家報導指出:「Anthropic 的 ASL-3 安全措施採用該公司所謂的『深度防禦』策略,意味著設有幾個不同而重疊的保護層」。

 

開發工具生態系統推動企業採用

隨着 Claude Sonnet 4.5 推出,Anthropic 同時推出了 Claude Agent SDK,這是一套基於 Claude Code 基礎設施的完整開發框架,讓開發者能創建類似 Anthropic 自家產品的複雜 AI 智能體。該 SDK 包含自動上下文管理、豐富的工具生態系統、高級權限系統以及內置的錯誤處理和會話管理功能。

產品更新方面,Claude Code 增加了業界最受歡迎的檢查點功能,允許用戶保存進度並即時回滾到之前的狀態。同時原生 VS Code 擴充功能和改良的終端機介面,為開發者提供了更流暢的工作體驗。對於 Max 訂閱用戶,Claude Chrome 擴充功能已開始向早前加入候補名單的用戶開放。

市場研究機構 SNS Insider 發布的報告顯示,全球 AI 編程工具市場預計將從 2024 年的 60.4 億美元(約港幣 471.1 億元)增長到 2032 年的 373.4 億美元(約港幣 2,912.5 億元),複合年增長率達 25.62%。在這個快速擴張的市場中,Menlo Ventures 的中期報告指出:「Claude 迅速成為開發者程式碼生成的首選,獲得 42% 市場佔有率,是 OpenAI (21%) 的兩倍多」。

企業市場競爭格局與香港應用前景

在企業級 AI 市場競爭中,Claude Sonnet 4.5 的推出進一步加劇了與 OpenAI 的直接競爭。根據《SQ Magazine》統計,Anthropic 目前佔據生成式 AI 市場約 3.91% 市場佔有率,而 OpenAI 仍以約 17% 市場佔有率保持領先地位。然而 FourWeekMBA 的分析顯示一個有趣的現象:「雖然總收入不到 OpenAI 的一半,但 Anthropic 在 API 收入方面,實際上已超越 OpenAI」。

這種市場分化反映了兩家公司不同的戰略定位。LinkedIn 上 Robert Matsuoka 的分析指出:「GPT-5 推出突顯了 OpenAI 與 Anthropic 的市場分化」,OpenAI 更專注於消費者市場,而「基於早期行業觀察,目前使用 Claude 的大型企業在 GPT-5 推出後,似乎正維持其部署」。

雖然香港政府大力推行 AI ,但地緣政治因素也帶來挑戰,因 Anthropic 最近收緊了對中國企業及其全球子公司連接 Claude 的限制,這「標誌著從之前僅針對位於中國境內公司的措施升級」。對香港企業而言,PTS Consulting 指出:「與 OpenAI 的 ChatGPT 類似,Anthropic AI 及其 Claude 模型似乎尚未在香港提供服務」。

Claude Sonnet 4.5 的推出代表了 AI 編程工具發展的重要里程碑,其 30 小時連續編程能力和創紀錄的基準測試表現,預示著 AI 將從編程助手,進化為真正的開發合作夥伴。隨着 ASL-3 安全框架的實施和 Agent SDK 開放,企業將獲得更強大而安全的工具來推動數碼化轉型。對於香港這樣積極擁抱 AI 技術的地區,如何在地緣政治約束下充分利用這些先進工具,將成為決定其在亞洲 AI 中心地位的關鍵因素。

資料來源:
TechCrunch
SiliconAngle
Ars Technica
CNBC
Anthropic