OpenAI 昨天終於推出最新旗艦模型 GPT-5.4,同步登陸 ChatGPT、API 及 Codex 平台。這次發佈的核心重點相當明確:OpenAI 不再將能力分散於多個模型,而是將推理、編程、AI 代理工作流程及原生電腦操作能力整合至單一系統。目標是讓企業用戶無須切換不同工具,便可由頭到尾完成複雜專業工作。
外媒形容這是 OpenAI 向 Anthropic 企業客戶群發起正面挑戰,因為 Anthropic 過去 1 年透過 Claude for Financial Services 等產品在企業端建立穩固地位。GPT-5.4 的基準測試成績顯著進步,在專業知識工作評測 GDPval 中達到 83% 的行業專家持平或超越率,較前代 GPT-5.2 的 71% 大幅提升,反映模型處理真實商業任務能力已跨越重要門檻。
AI 代理正式踏入桌面與瀏覽器
GPT-5.4 最突破的升級在於原生電腦操控能力,模型可以透過滑鼠點擊、鍵盤輸入及擷取熒幕截圖等方式直接操作網站和桌面軟件。模型在 OSWorld-Verified 桌面環境測試成功率達 75%,甚至超越人類操作者的 72.4%。這代表 AI 代理具備在真實軟件環境中執行日常行政工作的基本能力,從讀取電郵、填寫表格到排程日曆均可由模型自主完成。對企業而言這代表大量重複性電腦操作任務能夠自動化,開發者亦可透過 API 中的 computer tool 將這些能力嵌入自家系統。
辦公檔案處理能力躍進
OpenAI 針對企業最常用的辦公場景加強功能,在模擬初級投資銀行分析師工作的試算表建模測試中,GPT-5.4 得分從 GPT-5.2 的 68% 躍升至 87%。進步幅度接近 19%,足以改變企業對 AI 處理財務檔案的信心。簡報製作方面人類評審在近 70% 比較中偏好 GPT-5.4 產出,因為其視覺設計更出色及圖片生成運用更靈活。OpenAI 同步推出 ChatGPT for Excel 插件及 Google Sheets 測試版整合,讓用戶直接在試算表內呼叫模型處理數據。有分析指 OpenAI 接入 FactSet 及 MSCI 等數據供應商,讓團隊在單一工作流程中提取市場與企業數據。此舉明顯為在金融數據分析領域與 Anthropic 企業產品正面競爭。
更少錯誤、更聰明地使用工具
企業採用 AI 最大顧慮始終是準確度。OpenAI 表示 GPT-5.4 個別陳述出錯機率較前代減少 33%,完整回答含有錯誤的機率減少 18%,是旗下歷來最具事實準確度模型。法律 AI 公司 Harvey 應用研究總監 Niko Grupen 指出模型在法律檔案處理的 BigLaw Bench 評測取得 91% 得分,在長篇合約分析有大幅改善。在工具使用方面 GPT-5.4 引入 Tool Search 機制, 讓模型只在需要時才查閱工具定義,無須將所有定義一次過載入提示詞。在啟用 36 個 MCP 伺服器的測試中,這種做法將 token 消耗減少 47% 而準確度不變。有外媒認為 Tool Search 是 GPT-5.4 在 API 層面最具實際意義的更新,因為它讓 AI 代理在龐大工具生態中高效運作,不會因為工具數量增加而拖慢速度或推高成本。
企業可進行多元化部署
AI 招募平台 Mercor 行政總監 Brendan Foody 表示 GPT-5.4 模型在其 APEX-Agents 專業服務基準測試中排名榜首,涵蓋簡報製作、財務建模及法律分析等長週期任務。Walleye Capital 和 Balyasny Asset Management 等對沖基金均為早期採用者。試算表建模測試 87% 得分代表模型接近初級分析師工作水準。企業可考慮將重複性高的財務建模、合約審查及盡職調查交由 AI 處理,讓專業人員處理更具判斷性工作。值得留意的是此舉並非要取代分析師,而是將他們從機械性的數據整理中解放出來,讓其專注於需要商業判斷和客戶溝通的高價值環節。
GPT-5.4 同時結合編程與電腦操作能力,能在 Codex 平台上完成從編寫程式碼到啟動瀏覽器測試的完整開發週期。AI 程式碼編輯器 Cursor 開發者教育副總裁 Lee Robinson 指出模型在處理模糊問題時更果斷,會主動並行處理多項工作以保持進度。程式碼代管平台 GitHub 產品總監 Mario Rodriguez 亦表示模型在邏輯推理和執行複雜多步驟工作流程表現出色。OpenAI 同步推出 Playwright (Interactive) 實驗性技能,讓模型在建構應用程式同時進行自動化視覺測試,將「編寫、執行、驗證、修復」開發循環壓縮至單一代理流程內。對開發團隊而言這代表原型製作和除錯週期可大幅縮短。
在即時回應客服場景中,GPT-5.4 在無推理模式下表現較前代有明顯進步。客服自動化公司 Mainstay 行政總監 Dod Fraser 分享具體案例:在涉及約 30,000 個物業稅務入口網站的測試中,模型首次嘗試成功率達 95%,3 次嘗試內達到 100%。速度較前代快約 3 倍而 token 消耗減少約 70%。自動化整合平台 Zapier 行政總監 Wade 則指出 GPT-5.4 是目前在多步驟工具使用方面最持久的模型,能夠在其他模型放棄的任務中堅持完成。這些數據對需要處理大量重複性網上操作的企業具直接參考價值,例如批量數據錄入、跨平台資訊提取或客戶服務自動化等場景。
定價與競爭格局
與主要競爭對手比較,Anthropic 旗艦模型 Claude Opus 4.6 定價為輸入 5 美元(約港幣 HK39)、輸出25美元(約港幣HK195)。GPT-5.4 標準版在輸入端較 Claude Opus 4.6 便宜,但 Pro 版本的輸出定價遠高於後者。Batch 及 Flex 可享 5 折,Priority 處理則為 2 倍標準價。企業選擇模型時應根據工作負載和 token 消耗模式綜合評估,而非單純比較單價。以需要頻繁使用工具的代理工作流程為例,GPT-5.4 的 Tool Search 機制可能透過減少 token 消耗來抵銷較高單價,反而令總成本更具競爭力。
模型競賽正進入新階段
GPT-5.4 發佈後,AI 模型競賽重點從純粹追求基準測試分數轉向模型的整合能力、實際工作完成度和部署效率。OpenAI 將編程、電腦操作、知識工作和工具使用整合至單一模型,正在模糊傳統 SaaS 工具與 AI 平台界線。財經媒體 Fortune 指出 Anthropic 今年初推出 Cowork 插件時已引致 SaaS 類股票廣泛拋售,GPT-5.4 出現可能進一步加劇這種市場擔憂。與此同時 OpenAI 正面對用戶流失壓力。有報道指出,約 150 萬用戶因 OpenAI 與美國國防部合作爭議離開 ChatGPT。GPT-5.4 推出某程度上亦是 OpenAI 期望以產品實力重新凝聚信心的舉措。
在安全層面 OpenAI 將 GPT-5.4 歸類為「高網絡安全能力」等級,並推出 CoT controllability 開源評測監控模型推理透明度。科技媒體 TechCrunch 報道指出測試顯示模型難以隱藏其推理過程,OpenAI 視之為正面的安全訊號。
對企業決策者而言 GPT-5.4 已從對話助手演變為自主執行代理,企業應重新審視哪些工作流程可交由 AI 由頭到尾自動處理。其次建立多模型架構比押注單一供應商更穩健,因為 OpenAI、Anthropic、Google 及 xAI 競爭正快速壓低價格並提升能力。最後企業應優先在高重複性、規則明確任務中部署 AI 代理。逐步累積經驗後再擴展至複雜判斷性工作,這種漸進式採用策略能有效控制風險,同時確保團隊有足夠時間適應新的人機協作模式。
來源:OpenAI