
Anthropic 於本週一正式推出迄今最強大的人工智能模型 Claude Opus 4.5,定價較前代產品大幅削減約三分之二,同時在軟件工程任務表現刷新業界紀錄。這項策略部署令這家獲 Amazon 投資的 AI 初創企業,與資金雄厚的競爭對手 OpenAI 及 Google 之間的角力進一步白熱化。
據資料顯示,Claude Opus 4.5 在 Anthropic 最嚴格的內部工程評估中,取得比公司歷來所有人類求職者更高的分數。這項結果反映 AI 系統能力正急速提升,亦引發外界對科技將如何重塑白領專業工作的深層思考。
定價策略大幅調整 開發者門檻顯著降低
Anthropic 將 Claude Opus 4.5 定價訂於每 100 萬個輸入詞元收費 5 美元(約港幣 39 元),每 100 萬個輸出詞元收費 25 美元(約港幣 195 元),相比今年較早時推出的前代型號 Claude Opus 4.1 分別收取 15 美元及 75 美元,降幅相當顯著。Anthropic 開發者關係主管 Alex Albert 接受媒體訪問時表示,公司期望能確保模型真正服務有意使用的用戶,核心關注點在於如何讓 Claude 更有效協助用戶處理工作中不願親自執行的任務。這次減價行動令高階 AI 功能變得更普及,讓更多開發者及企業能夠使用,同時亦向競爭對手施壓,迫使他們在效能與定價兩方面同步跟進。
軟件工程基準測試領先群雄 超越 OpenAI 及 Google 最新型號
Anthropic 的內部測試顯示,Claude Opus 4.5 在推理能力上有顯著飛躍。根據該公司數據,模型在 SWE-bench Verified 基準測試中取得 80.9% 準確率,這項測試專門評估現實世界軟件工程任務的處理能力。這個成績超越 OpenAI 的 GPT-5.1-Codex-Max(77.9%)、Anthropic 自家的 Sonnet 4.5(77.2%)以及 Google 的 Gemini 3 Pro(76.2%),當中 OpenAI 的型號只在 5 天前才發布。技術基準測試數字以外,Alex Albert 指出內部測試員工持續反映模型在各類任務中展現出更佳判斷力和直覺,形容這種轉變是模型發展出對現實世界情境中何者重要的敏銳觸覺。
Alex Albert 以自身工作流程為例說明這種轉變,過往會要求 AI 模型蒐集資訊,但對於讓模型整合或排列優先次序則有所保留。使用 Opus 4.5 後,他開始委派更完整的任務,將模型連接至 Slack 及內部文件,產出與優先考量一致的連貫摘要。他形容模型「就是懂」(Just gets it),在許多現實事務上發展出一種直覺和判斷力,感覺上比過往模型有明顯進步。
內部工程測試超越所有人類應徵者 引發專業工作前景討論
Claude Opus 4.5 在 Anthropic 內部工程評估中的表現標誌着一個重要里程碑。這項帶回家完成的測驗專為績效工程師候選人設計,目標是在規定的 2 小時限制內評估技術能力和判斷力。Anthropic 採用名為「平行測試時運算」技術,將模型的多次嘗試結果匯總並選取最佳答案,結果顯示 Opus 4.5 得分高於歷來所有參加測試的人類應徵者。在不設時限的情況下,模型在 Anthropic 的編程環境 Claude Code 內使用時,表現與歷來最佳人類應徵者相若。
Anthropic 承認測試並未評估其他關鍵專業技能,例如協作、溝通,或多年經驗累積而成的直覺,但公司表示這項結果引發 AI 將如何改變工程專業的疑問。Alex Albert 強調這項發現的重要性,認為這或許預示這些模型在工作環境中實際能發揮多大作用,雖然這是工程任務而模型在工程領域的表現相對領先其他範疇,但這是一個值得關注的重要訊號。
訂閱限制全面解除 Opus 4.5 不再設限
對於月費企業用家來說,早前 Opus 模型的限制引來極大迴響,所以 Anthropic 再宣布重大政策變更,對所有 Claude 和 Claude Code 訂閱用戶全面取消 Opus 4.5 的每週使用上限(weekly quota)。過往 Opus 模型因運算成本高昂而設有嚴格配額,即使付費 Max 用戶亦面臨較低的使用量天花板,這一直是困擾用戶的難處。
新政策下,Max 和 Team Premium 訂閱用戶的整體使用限制大幅提升,現時可使用的 Opus Token 數量大致等同之前 Sonnet 的配額量。同時 Sonnet 現擁有獨立使用限制,確保用戶可如常使用。對於 Claude Code 用戶,所有 Opus 專屬使用上限已完全移除,用戶可在總體限制範圍內自由使用 Opus 4.5。
Reddit 討論區對此反應熱烈,許多開發者表示這終於讓 Opus 4.5 成為「可以每天使用的主力模型」,而非僅限於關鍵任務的奢侈選項。Anthropic 在官方聲明中強調,這些限制設定專門針對 Opus 4.5,隨著未來更強大模型推出,使用限制可能會根據使用模式演變而調整。
效率提升大幅減少運算資源消耗 最高可節省 76% token 用量
除了原始效能,Anthropic 押注效率提升將成為 Claude Opus 4.5 在市場上的差異化優勢。Anthropic 表示模型使用的詞元數量大幅減少,在達到相近或更佳成果的同時,資源消耗遠低於前代產品。根據 Anthropic 數據,在中等努力程度下,Opus 4.5 在 SWE-bench Verified 上達到與前代 Sonnet 4.5 最佳分數相若的成績,但輸出詞元用量減少 76%;在最高努力程度下,Opus 4.5 表現超越 Sonnet 4.5 達 4.3 個百分點,詞元用量仍減少 48%。

Anthropic 引入「努力程度參數」讓開發者擁有更大控制權,用戶可調整模型在每項任務上投入的運算工作量,在效能、延遲和成本之間取得平衡。企業客戶對效率提升的說法提供了早期驗證,雲端編程平台 Replit 行政總裁 Michele Catasta 向媒體發表的聲明中表示,Opus 4.5 在內部基準測試中擊敗 Sonnet 4.5 及競爭對手,同時使用更少詞元解決相同問題,這種效率優勢在規模化後會產生複合效應。GitHub 產品總監 Mario Rodriguez 表示,早期測試顯示 Opus 4.5 在超越內部編程基準的同時將詞元用量減半,特別適合程式碼遷移和程式碼重構等任務。
自我改進能力令 AI 代理可自主改良技能 企業用戶反映效果顯著
早期客戶展示的最突出功能之一,涉及 Anthropic 所稱的「自我改進代理」,即能夠透過迭代學習來提升自身表現的 AI 系統。日本電子商務及互聯網企業樂天測試了 Claude Opus 4.5 在辦公室任務自動化方面的應用,該公司 AI 業務總經理 Yusuke Kaji 表示,他們的代理能夠自主改良自身能力,在 4 次迭代後達到最佳表現,而其他模型在 10 次迭代後仍無法達到同等質素。
Alex Albert 解釋模型並非更新自身的權重(定義 AI 系統行為的基本參數),而是迭代改善用於解決問題的工具和方法。他描述模型會迭代改良某項任務的技能,並觀察到它正嘗試改良技能以獲得更佳表現從而完成任務。這種能力延伸至編程以外的領域,Alex Albert 表示 Anthropic 觀察到在製作專業文件、試算表和簡報方面有顯著改善,用戶反映這是他們見過模型世代之間最大的躍進,從 Sonnet 4.5 到 Opus 4.5 的進步幅度超過過往任何兩個連續模型。金融建模公司 Fundamental Research Labs 聯合創辦人 Nico Christie 報告指,內部評估的準確率提升 20%,效率上升 15%,過往看似遙不可及的複雜任務現已變得可行。

新功能瞄準企業用戶需求 Excel 整合及無限對話長度成亮點
配合模型發布,Anthropic 同時推出一系列針對企業用戶的產品更新。Claude for Excel 現已向 Max、Team 及 Enterprise 用戶全面開放,新增支援樞紐分析表、圖表及檔案上傳功能,Chrome 瀏覽器擴充功能現亦向所有 Max 用戶開放。最重要的更新是「無限對話」功能,透過在對話增長時自動摘要較早部分的內容,消除上下文視窗的限制。Alex Albert 解釋在 Claude AI 產品本身,用戶實際上因壓縮功能加上記憶功能而獲得無限上下文視窗的效果。
開發者方面,Anthropic 發布「程式化工具調用」功能,讓 Claude 能編寫並執行直接調用函數的程式碼。Claude Code 獲得更新的「計劃模式」,並以研究預覽形式在桌面版推出,讓開發者能夠並行運作多個 AI 代理工作階段。
市場競爭持續升溫 三大巨頭效能與定價角力加劇
Anthropic 在 2025 年第 1 季的年化收入達到 20 億美元(約港幣 156 億元),較前一期的 10 億美元增長超過一倍,每年消費超過 10 萬美元的客戶數目按年增長 8 倍。Opus 4.5 在 10 月推出 Haiku 4.5 及 9 月推出 Sonnet 4.5 後僅數週便面世,這種快速發布節奏反映更廣泛的行業動態。OpenAI 在整個 2025 年發布了多個 GPT-5 變體,包括 11 月推出可自主工作長達 24 小時的專門 Codex Max 模型,Google 則在 11 月中旬經過數月開發後推出 Gemini 3。
Alex Albert 將 Anthropic 加快步伐的部分原因歸功於使用 Claude 來加速自身開發,無論在實際產品建構還是模型研究方面,Claude 都提供了大量協助和加速效果。Opus 4.5 的減價可能壓縮利潤率,但同時有潛力擴大可觸及的市場,Alex Albert 預期會看到大量初創企業開始更多將此整合到產品中並突顯展示。
AI 市場預計在 10 年內收入將突破 1 萬億美元(約港幣 7.8 萬億元),但即使模型達到能有意義地自動化複雜知識工作的門檻,仍未有單一供應商確立主導市場地位。AI 驅動程式碼編輯器 Cursor 的行政總裁 Michael Truell 稱 Opus 4.5 是 Cursor 內部相比之前 Claude 模型的顯著改善,在定價和困難編程任務的智能方面均有提升。AI 編程初創企業 Cognition 行政總裁 Scott Wu 表示,模型在最困難的評估中取得更強結果,並在 30 分鐘自主編程工作階段中保持穩定表現。
行業前景展望 AI 能力逼近人類專家水平帶來深遠影響
對企業和開發者而言,這場競爭意味着能力快速提升而價格持續下降。但隨着 AI 在技術任務上的表現接近甚至有時超越人類專家水平,這項技術對專業工作的影響已不再是理論層面。當被問及工程測試結果以及這對 AI 發展軌跡意味着甚麼時,Alex Albert 直接表示這是一個值得關注的重要訊號。這次發布標誌 AI 行業進入新階段,頂尖模型的能力已達到可實質自動化複雜知識工作的水平,企業需要認真評估如何將這些工具整合到工作流程中,同時為員工提供適應這種轉變的支援和培訓。
來源:Anthropic




