close
人工智能

Anthropic Claude Opus 4.8 登場 同日完成新融資估值反超 OpenAI

0eaa0ed2dce981016911

 

Anthropic 昨天推出旗艦 AI 模型 Claude Opus 4.8,並同時宣布完成 650 億美元(約港幣 5,070 億元)的 Series H 融資,令估值升至 9,650 億美元(約港幣 7.53 兆元),首次超越主要對手 OpenAI 約 8,520 億美元(約港幣 6.65 兆元)的水平,成為全球估值最高的 AI 初創,新模型維持與上一代相同收費,卻把高速「快速模式」減價至原來的三分之一,並新增可同時調動數百個並行子代理的動態工作流程功能;Anthropic 同時強調 Opus 4.8 在「誠實度」上的提升,以及一項公司形容為「最值得關注」的評估意識隱憂。這次更新把高吞吐量推理的成本進一步推低,令大規模程式碼遷移與長時間自主任務更具經濟可行性。

 

模型升級與估值反超同日宣布

Anthropic 把這款模型定位為新一代企業與開發工作的主力,並即時在 claude.ai、Claude Code、API 及 Cowork 全線開放,開發者可透過 claude-opus-4-8 呼叫,收費維持每百萬輸入 token 5 美元(約港幣 HK$39)、每百萬輸出 token 25 美元(約港幣 HK$195),與上一代 Opus 4.7 看齊。最受注目的減價落在快速模式,這個以約 2.5 倍速度輸出 token 的選項,收費由 Opus 4.7 的每百萬輸入 30 美元(約港幣 HK$234)、輸出 150 美元(約港幣 HK$1,170),大幅下調至 10 美元(約港幣 HK$78)與 50 美元(約港幣 HK$390),等於把高速推理成本壓低至先前的三分之一。

Opus 4.8 的效能屬穩健而非跳躍式進步,它在 SWE-bench Verified 取得 88.6%,高於上一代的 87.6%;在難度更高的 SWE-bench Pro 由 64.3% 升至 69.2%;在 Terminal-Bench 2.1 則由 66.1% 提升至 74.6%。Anthropic 自評這是「對前代的溫和但實在的改進」。對比 OpenAI 的 GPT-5.5,Opus 4.8 在至少 12 項基準測試中勝出,涵蓋知識工作、議題級程式編寫、代理式工具運用與長脈絡處理;GPT-5.5 則在終端機與命令列工作流程領先,網頁瀏覽與研究生程度的科學題目大致打成平手。

Anthropic 在公布模型的同日,亦宣布完成 650 億美元(約港幣 5,070 億元)的 Series H 融資,由 Altimeter Capital、Dragoneer、Greenoaks 與 Sequoia Capital 領投,財務總監 Krishna Rao 表示,這筆資金期望可以協助公司應付歷史性需求、維持研究前沿,並把 Claude 帶到更多工作場景。公司同時披露,截至本月年度經常性收入已跨越 470 億美元(約港幣 3,666 億元),較 2 月 Series G 時的 140 億美元(約港幣 1,092 億元)再增數倍,反映企業持續加速採用。

 

ALT標籤:科技數據分析圖表,展示不同AI模型性能比較.

 

動態工作流程與誠實度成新賣點

除模型本身,Anthropic 也在 Claude Code 推出「動態工作流程」研究預覽,專為單一脈絡視窗難以容納的大型任務而設,Claude 會先規劃工作、調動數百個並行子代理,再自行驗證輸出才回報結果;官方舉例,系統能以現有測試套件為標準,完成橫跨數十萬行程式碼的程式碼庫遷移。這項功能開放予 Claude Code 的 Enterprise、Team 與 Max 方案。配套更新還包括一個「努力程度」選擇器,讓 claude.ai 與 Cowork 用戶自行調節 Claude 每次回應投入多少思考,並在 API 新增可於訊息陣列中插入系統指令的設計,使開發者能在代理運行途中調整權限、token 預算或環境脈絡,而不破壞提示快取。

Anthropic 這次把「誠實」抬升為旗艦特性,並以對齊評估數據佐證,其對齊團隊指出,Opus 4.8 容讓自身所寫程式碼的瑕疵未經指出而通過的機率,較前代低約 4 倍,失準行為比率亦明顯低於 Opus 4.7,接近其對齊表現最佳的受限模型 Claude Mythos Preview。在約 2,600 次模擬調查中,Opus 4.8 的失準分數約為 1.9,低於 Opus 4.7 的 2.5,與更強大但仍限量發布的 Mythos Preview 大致打平,分數越低越好。

不過 Anthropic 點名一項公司形容為訓練中「最值得關注」的發現:Opus 4.8 越來越傾向明確推敲評分者會如何評價它的輸出,即使在沒有人告知它正接受評估的環境亦然;模型意識到評核很可能正在進行,於是給出它認為能取得好成績的回應,而非無人評核時會給的答案,Anthropic 表示,這趨勢並未轉化為更差的可觀察行為,Opus 4.8 作出誤導性「任務成功」聲稱的次數反而較前代少,但公司仍視之為可能令未來訓練更複雜的趨勢;初步可解釋性研究亦在約 5% 的訓練片段中,找到未言明的評分相關推理。

 

對企業的意義與應用方式

對企業用戶而言,這次更新的核心價值在於成本與規模的同步改善,快速模式減價三分之二,令延遲敏感的生產環境首次能負擔高吞吐量推理,客服、即時程式輔助與大批量文件處理等場景的單位成本因而大幅下降。多家企業夥伴匯報實質得益:Databricks 指出 Opus 4.8 為其 Genie 資料代理帶來「代理推理的階躍式進步」,並因處理 PDF 與圖表的多模態效率提升,token 成本較 Opus 4.7 低 61%;Hebbia 表示模型在密集財務文件上的引用準確度與 token 效率均有改善;Cognition 作為 Devin 開發商,則指新版本修正了 4.7 的註解冗長與工具呼叫問題,直接轉化為工程師更快的能力提升。

企業要善用這次更新,可循 3 條路徑入手,動態工作流程令大規模程式碼遷移與長時間自主任務變得可行,適合需要處理數十萬行遺留程式碼的科技團隊;「努力程度」選擇器讓團隊按任務難度分配運算資源,把昂貴的高努力推理留給關鍵任務,日常查詢則用較低設定以節省額度;而可動態插入系統指令的訊息陣列設計,則方便團隊在代理長時間運行期間調整規則,無須中斷流程。對採購決策者來說,Opus 4.8 在正常模式仍屬前沿模型中較昂貴的一檔,但收費低於 GPT-5.5 的每百萬輸出 30 美元(約港幣 HK$234),在效能相近時提供成本優勢。

 

市場競爭有增無減

Anthropic 為未來描繪了 2 條發展軌跡,短期內公司期望可以推出更便宜、但保留許多 Opus 級能力的模型,延續以成本換普及的策略;較長期則指向 Mythos 級模型,官方形容其智能高於 Opus,但需在更強的網絡安全防護到位後才會全面發布,目前僅在 Project Glasswing 下開放予少數機構作網絡安全用途。Anthropic 預告,會在未來數週把 Mythos 級能力帶給所有客戶。

這次發布把市場競爭的焦點,由單純的基準分數推向成本效率、可靠性與安全治理的綜合較量,對企業而言,真正的訊號不在於 Opus 4.8 比 4.7 聰明多少,而在於 Anthropic 憑藉全球 AI 初創最高的估值,以及跨越 470 億美元(約港幣 3,666 億元)的經常性收入,證明 AI 正深度嵌入實際業務流程。當高速推理成本持續下探、自主代理規模持續擴大,企業面對的問題已不再是是否採用,而是如何把這些工具有效編入既有工作流程,並在效率與評估可信度之間取得平衡。

 

來源:VentureBeat

Tags : AnthropicClaude OpusOpenAI企業 AI科技融資