Anthropic 正式發佈 Claude Opus 4.6,這是 Claude 4.5 模型系列中最先進版本,距離前代 Opus 4.5(2025 年 11 月發佈)僅三個月。Anthropic 企業產品負責人 Scott White 接受 CNBC 訪問時直言:「我認為我們正在進入『vibe working』的時代。」這並非單純行銷口號——White 在 TechCrunch 訪問中進一步解釋,過去一年 Claude 已從一個「完成小任務或回答問題」的對話工具,進化為企業可以「真正交付重要工作」的夥伴,而 Opus 4.6 是讓這個轉變落地的關鍵節點。值得留意的是,企業客戶已佔 Anthropic 業務量約八成,且 Anthropic 觀察到越來越多非工程師如產品經理、金融分析師、各行業專業人士,正在使用 Claude 作為核心工作引擎。

推理與分析能力:對企業最重要的進步
對決策者而言,基準測試分數本身意義有限,但以下幾項數據值得關注,因直接反映模型在商業場景中的實際表現。在 GDPval-AA 評估中(由 Artificial Analysis 獨立營運,專門衡量金融、法律等領域真實知識工作表現),Opus 4.6 超越業界次佳模型 OpenAI GPT-5.2 約 144 個 Elo 分,較前代 Opus 4.5 更提升 190 分。Anthropic 指出這意味 Opus 4.6 在約 70% 專業工作任務中能勝過 GPT-5.2。在測試模型能否靈活解決非套路問題的 ARC AGI 2 基準中(The New Stack 指出這恰恰是企業日常工作最常見挑戰),Opus 4.6 得分 68.8%,較前代的 37.6% 接近翻倍。綜合而言,Opus 4.6 在絕大多數維度上實現顯著躍升。值得一提的是,個別軟件工程相關指標出現極微小回退,但整體而言,在推理、長上下文處理和代理式任務等對企業最重要的領域,進步幅度相當可觀。

百萬級上下文視窗:大規模文件處理的遊戲規則改變者
Opus 4.6 首度在 Opus 級別引入一百萬 token 上下文視窗(beta 階段)。過去 AI 模型處理冗長文件時普遍存在「上下文衰退」,即隨著輸入增加,模型對早期資訊理解顯著退化。Opus 4.6 在這方面實現質的飛躍:在專門測試大量文字中精確檢索特定資訊的 MRCR v2 百萬 token 版本中,Opus 4.6 達到 76% 準確率,上一代僅為 18.5%。配合全新「上下文壓縮」功能(模型在接近上限時自動摘要早期內容),代理式任務得以持續運行而不會因觸及限制而中斷。這對企業具直觀實際意義:財務團隊可將一整套盡職調查文件交給 Claude,獲得針對性精確回答而非籠統摘要;法務團隊可讓模型同時消化數十份合約,識別出隱藏風險條款。Thomson Reuters 技術長 Joel Hron 表示,這項進步為他們設計複雜研究工作流程提供「更強大基礎模組」。

金融領域的專項突破
Anthropic 針對金融服務發佈專項能力報告。在其內部「Real-World Finance」評估中,涵蓋約 50 個投資銀行、私募股權及企業財務常見分析任務,Opus 4.6 較幾個月前旗艦模型 Sonnet 4.5 提升超過 23 個百分點。在外部 Vals AI Finance Agent 基準測試(分析 SEC 公開申報文件)中以 60.7% 達到業界最佳;在稅務評估 TaxEval 中以 76.0% 同樣領先;法律科技公司 Harvey 亦報告 Opus 4.6 在 BigLaw Bench 法律推理測試中達到 90.2%,其中四成項目獲得滿分。但對企業最有感的或許是「第一稿質素」飛躍。Anthropic 對 The New Stack 表示,Opus 4.6「首次嘗試就能更接近可直接使用質素」。過去需要資深分析師兩到三週完成的商業盡職調查報告,Opus 4.6 能在首次產出時交付具備專業水準的試算表和簡報。Hebbia 技術長 Aabhas Sharma 形容:「過去需要數小時財務簡報現在只需幾分鐘。」英國投資公司 Hg 旗下 Hg Catalyst 負責人 Lloyd Hilton 和加拿大機構投資者 BCI 也分別印證從盡職調查到多分頁分析場景的實質提升。

網絡安全:自主發現 500 多個零日漏洞
這可能是對企業資訊保安長最具說服力的一項進步。根據 Axios 報導,Anthropic 前沿紅隊在發佈前將 Opus 4.6 放入沙箱環境,僅提供基本工具(Python、除錯器、模糊測試工具),不給予任何特定指令。結果 Claude 僅憑開箱即用能力發現超過 500 個此前未知的零日漏洞,涵蓋從系統崩潰到記憶體損壞等不同嚴重程度,每一個都經過人工驗證。受影響開源專案包括 GhostScript、OpenSC 和 CGIF 等廣泛使用工具。Anthropic 前沿紅隊負責人 Logan Graham 對 Axios 表示:「這是防禦者和攻擊者之間的競賽,我們期望盡快將工具交到防禦者手中。」他預測這可能成為未來確保開源軟件安全的主要方式之一。在挪威央行投資管理公司(NBIM)盲測中,Opus 4.6 在 40 項網絡安全調查中有 38 次產出最佳結果,每次涉及多達 9 個子代理和 100 多次工具調用。這對依賴開源元件的企業而言,意味 AI 驅動的安全審計正從概念走向實用。

代理式工作與產品整合:嵌入既有工作流程
Opus 4.6 的「代理式」能力,即自主規劃、拆解任務、長時間持續執行,在實際企業場景中已展現顯著成效。Rakuten 的 AI 總經理 Yusuke Kaji 分享案例:Opus 4.6 在單日內自主關閉 13 個議題、將 12 個分配給正確團隊成員,管理一個約 50 人、跨 6 個程式碼庫的組織,同時處理產品和組織層面決策,並在需要時適時交回人類處理。SentinelOne 首席 AI 長 Gregor Stewart 則表示,模型像一位資深工程師般處理數百萬行程式碼庫遷移,事前規劃、邊學邊調整,最終以一半時間完成。全新「代理團隊」功能讓多個 AI 代理可以平行協作,各自負責一個環節並自主協調,Replit 總裁 Michele Catasta 形容這是「代理式規劃的巨大飛躍」。在產品整合方面,Anthropic 將這些能力直接嵌入企業常用辦公工具中。Claude in PowerPoint(研究預覽版)讓 Claude 直接在 PowerPoint 側邊欄內協助製作簡報,讀取既有版面佈局、字型和母版樣式以確保品牌一致性。Claude in Excel 新增樞紐分析表編輯、條件格式、資料驗證等金融級功能,分析師可在單一介面完成從建模到交付全流程。Cowork 桌面工具則更進一步,授權 Claude 存取指定資料夾後,即可並行讀取、編輯和建立檔案,搭配行業外掛程式(涵蓋財務、法律、銷售等領域)自動化日記帳分錄、差異分析和對帳等工作。正是這些行業外掛程式推出,在華爾街引發一場風暴。
「SaaSpocalypse」:AI 替代效應已被市場定價
就在 Opus 4.6 發佈前數天,Anthropic 推出 Cowork 行業外掛程式在華爾街引發被 Jefferies 交易員稱之為「SaaSpocalypse」的恐慌性拋售。Thomson Reuters 股價單日暴跌約 18%,創歷史最大單日跌幅;LegalZoom 下跌近 20%;軟件行業 ETF 單日下挫 5.69%。衝擊波迅速蔓延全球,RELX(LexisNexis 母公司)跌約 14%,印度 Nifty IT 指數暴跌 6%。Schroders 分析師 Jonathan McMullan 對 Reuters 直言:「AI 進步速度使長期估值越來越難以支撐,AI 工具讓企業能以更少員工完成更多工作,威脅到按用戶收費的傳統商業模式。」恐慌是否合理市場存在分歧。JP Morgan 分析師 Mark Murphy 認為,將個人生產力工具直接推演為替代所有關鍵企業軟件「是不合邏輯的飛躍」。法律科技媒體 Artificial Lawyer 亦指出,Thomson Reuters 等公司本質上是「法律數據堡壘」,數十年整理的專有數據並非幾個外掛程式就能取代。但無論短期反應是否過度,這場市場動盪傳遞明確訊號:AI 對知識工作替代效應已從理論走向市場定價現實。企業需要思考的不只是「要不要用 AI」,而是如何在行業格局被重塑之前率先整合 AI 以獲取結構性優勢。
16 個 Claude 同時寫出一個 C 編譯器 「代理團隊」的極限壓力測試
Anthropic 於同日發佈了一篇工程技術文章,由安全團隊研究員 Nicholas Carlini 撰寫,詳細記錄了一項極具野心的實驗:讓 16 個 Opus 4.6 代理實例以「代理團隊」模式平行協作,從零開始用 Rust 撰寫一個 C 編譯器——然後研究人員基本上就離開了,讓它們自主運行。經過近兩週、接近 2,000 次 Claude Code 會話,這個代理團隊產出了一個十萬行的編譯器,能夠在 x86、ARM 和 RISC-V 三個平台上編譯 Linux 6.9 核心,同時也能編譯 QEMU、FFmpeg、SQLite、PostgreSQL、Redis 等知名開源項目,在 GCC 酷刑測試套件等主流編譯器測試中達到 99% 的通過率。整個過程消耗了約 20 億個輸入 token 和 1.4 億個輸出 token,API 總成本約為兩萬美元——Carlini 坦言,這相較於他自己或一個人類工程團隊完成同等工作所需的成本,只是「極小的一部分」。實驗中每個代理被放入獨立的 Docker 容器,透過 Git 同步變更,以「鎖定」機制避免重複工作,各自判斷「下一個最該做的事」並透過共享進度文件互相協調,沒有中央調度。原始碼已在 GitHub 公開(github.com/anthropics/claudes-c-compiler)。
Carlini 也誠實地指出了當前的天花板:編譯器仍無法完全取代 GCC,16 位元 x86 程式碼生成的效率問題未能解決,組譯器和連結器仍有瑕疵,產出的程式碼效率低於 GCC 關閉所有優化後的結果。他更直言:「作為曾從事滲透測試的人,想到程式設計師可能部署自己從未親自驗證過的軟體,我感到真實的擔憂。」但對決策者而言,這篇文章的價值恰恰在於它提供了一個具體、可量化的參照點——兩萬美元、兩週時間、十萬行可運作的程式碼——這不是行銷宣傳中的抽象承諾,而是一個可驗證的工程成果。它同時誠實展示了 AI 自主開發目前的邊界:能完成令人印象深刻的大規模任務,但在精細度、效率和可靠性上仍需人類把關。這恰恰是企業在規劃 AI 導入策略時最需要的現實基準。
定價、部署與安全
Opus 4.6 的 API 定價維持在每百萬 token 輸入 5 美元(約港幣 HK$39)、輸出 25 美元(約港幣 HK$195),與前代完全一致,企業在不增加成本情況下即可獲得能力升級。超過 20 萬 token 長上下文請求適用溢價,輸入 10 美元(約港幣 HK$78)、輸出 37.50 美元(約港幣 HK$292.5)。模型已可通過 claude.ai、API 及 Amazon Bedrock、Google Cloud Vertex AI 使用。針對資料主權需求,Opus 4.6 提供美國境內專屬推理選項(1.1 倍定價)。開發者可透過四級「投入度」控制在智能、速度和成本之間取捨,輸出上限亦提升至 12.8 萬 token。安全方面,Opus 4.6 整體對齊水平與前代 Opus 4.5 相當(後者已是當時業界最佳),且「過度拒絕率」是近期所有 Claude 模型中最低,這意味日常使用中遇到不必要阻礙機會更少。Anthropic 為此版本執行歷來最全面安全評估,並針對加強網絡安全能力新增六項專用探測機制。
理性看待:基準分數之外的現實
雖然合作夥伴反饋普遍積極,Box 報告高推理任務表現提升 10 個百分點,Shortcut.ai 形容進步「幾乎令人難以置信」,企業仍應保持務實。知名開發者 Simon Willison 此前就 Opus 4.5 指出,基準測試進步不一定能在所有日常工作流程中帶來同等感受。Anthropic 自身亦坦承 AI 在高風險領域仍有局限,建議用戶持續審查產出,尤其在金融和法律等對準確性要求極高場景中,人類專業判斷依然不可或缺。但綜合能力提升幅度、產品整合深度、以及市場已開始為 AI 替代效應重新定價現實,Opus 4.6 為正在尋求 AI 賦能企業提供目前市場上最具說服力選項之一。決策者面對的問題已不再是「AI 是否足夠好」,而是「我們準備好了嗎」。
資料來源
- Anthropic 官方公告 — Introducing Claude Opus 4.6
- Claude 金融應用專題 — Advancing finance with Claude Opus 4.6
- CNBC — Anthropic launches Claude Opus 4.6 as AI moves toward a ‘vibe working’ era
- CNN Business — Anthropic Opus 4.6: The AI that shook software stocks gets a big update
- TechCrunch — Anthropic releases Opus 4.6 with new ‘agent teams’
- The New Stack — Anthropic’s Opus 4.6 is a step change for the enterprise
- Axios — Anthropic’s Claude Opus 4.6 uncovers 500 zero-day flaws in open-source code
- CNN Business — Anthropic’s new AI tool sends shudders through software stocks
- Artificial Lawyer — Claude Crash Impact on Thomson Reuters + LexisNexis is Irrational
- SmartBrief — Claude Cowork spooks software investors
- OfficeChai — Anthropic Releases Claude Opus 4.6, Beats Gemini 3 And GPT 5.2 On Most Benchmarks




