全新 GPT-5-Codex 再提升編程能力 AI 編程工具市場競爭白熱化

OpenAI 週一宣布推出 GPT-5-Codex,是專為編程任務特製的 GPT-5 版本。它能夠動態調整處理時間,由幾秒鐘到 7 小時不等。新模型在代理編程基準測試中表現超越 GPT-5,現已向所有 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 用戶開放。

OpenAI 週一宣布推出 GPT-5-Codex,是專為編程任務特製的 GPT-5 版本。它能夠動態調整處理時間,由幾秒鐘到 7 小時不等。新模型在代理編程基準測試中表現超越 GPT-5,現已向所有 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 用戶開放。

動態思考能力成最大突破

OpenAI Codex 產品主管 Alexander Embiricos 表示,GPT-5-Codex 的性能提升,主要歸功於其動態「思考能力」。ChatGPT 用戶可能熟悉 GPT-5 的路由器功能,它會根據任務複雜性將查詢導向不同模型。Embiricos 指出 GPT-5-Codex 運作方式類似,但內部並無路由器,能夠即時調整處理任務所需時間。

相比路由器在開始時便決定處理問題所需的計算能力和時間,GPT-5-Codex 更具優勢。GPT-5-Codex 可以在處理問題 5 分鐘後,決定需要再花費一小時。Embiricos 表示在某些情況下,曾見過模型需要超過 7 小時處理任務。

OpenAI 在 4 月首次推出開源編程代理 Codex CLI,並於 5 月推出網頁版 Codex。兩週前 OpenAI 將 Codex 整合為單一產品,透過 ChatGPT 帳戶連接,讓開發者能夠在本地和雲端環境之間無縫切換工作。現在 GPT-5-Codex 透過更深入的工程能力擴展此統一設定,據官方說法能夠「在大型複雜任務上獨立運行超過 7 小時」。

性能測試顯示大幅領先

在專門衡量代理編程能力的 SWE-bench Verified 測試中,GPT-5-Codex 獲得 74.9% 的分數,表現超越 GPT-5。該模型在來自大型成熟儲存庫的程式碼重構任務基準測試中也表現優異。

OpenAI 還訓練 GPT-5-Codex 進行程式碼審查,並要求經驗豐富的軟件工程師評估其審查評論。工程師報告指出 GPT-5-Codex 提交的錯誤評論較少,同時增加了更多「高影響力評論」。

GPT-5-Codex 專為 Codex 中的代理軟件工程作進一步改良。OpenAI 在其網誌中提到,GPT-5-Codex 的訓練專注於實際軟件工程工作。公司聯合創辦人兼行政總裁 Sam Altman 在 X 平台透露,GPT-5-Codex 發布僅兩小時後,其流量已佔 Codex 總流量約 40%,預計當天將佔超過一半。

AI 編程工具市場爆發式增長

OpenAI 這次更新,是為了讓 Codex 在面對 Claude Code、Anysphere 的 Cursor 或 Microsoft 的 GitHub Copilot 等競爭產品時更具競爭力。由於用戶需求強烈,AI 編程工具市場在過去一年變得更加擁擠。

Cursor 在 2025 年初的年度經常性收入 (ARR) 突破 5 億美元,並僅用12個月便達到1億美元ARR,成為有史以來增長最快的SaaS公司。公司在6月宣布完成9億美元(約港幣HK70.2 億元) 的 C 輪融資,估值達到 99 億美元,投資者包括 Thrive Capital、Accel、Andreessen Horowitz 和 DST。

現時 Cursor 已獲超過一半的財富 500 強公司採用,包括 NVIDIA、Uber 和 Adobe。這個規模將有助推動 AI 編程研究的前沿發展。公司內部數據顯示 ARR 大約每兩個月增倍,其增長速度讓經驗豐富的投資者都感到震驚。Cursor 報告稱,每天已生成近 10 億行 AI 輔助程式碼。

Windsurf 收購案引發產業震動

類似的程式碼編輯器 Windsurf 成為混亂收購的目標,其團隊最終在 Google 和 Cognition 之間分裂。2025 年 7 月發生的一系列戲劇性事件,顯示了 AI 編程工具市場的激烈競爭。

OpenAI 原本計劃以 30 億美元收購Windsurf,但交易在最後關頭告吹。Google隨後以24億美元(約港幣HK187.2 億元) 的交易介入,包括授權費和員工薪酬,聘請了 Windsurf 的行政總裁 Varun Mohan、聯合創辦人 Douglas Chen 和幾位高級研究人員加入 Google DeepMind 團隊。

交易告吹後僅幾天,Cognition 宣布收購 Windsurf 剩餘業務。Cognition 總裁 Russell Kaplan 在 X 平台表示,Windsurf 收購案實際上在週末達成,就在 Google 交易公開後幾小時。他指出第一通電話是在週五下午 5 時後撥出,並於週一早上簽署協議。

Cognition 在其網誌文章中指出,100% 的 Windsurf 員工將在財務上參與這筆交易,並免除他們至今工作的歸屬懸崖期。透過增加 Windsurf 的人才和知識產權,Cognition 可能成為一家能與 OpenAI、Anthropic 和 Cursor 等巨頭競爭的超級初創公司。

市場估值創新高反映投資者信心

AI 編程工具領域的投資熱潮持續升溫。據悉 Anysphere 正在談判,估值接近 100 億美元,若交易完成,距離其上一輪25億美元(約港幣HK195 億元) 估值的融資僅相隔約三個月。新一輪融資預計由原有投資者 Thrive Capital 領投。

Anysphere 上一輪融資時,公司估值為其 1 億美元 ARR 的 25 倍,而現在投資者似乎願意以更高倍數評估快速增長的公司。Anysphere 目前的 ARR 可能已攀升至 1.5 億美元 (約港幣 HK$11.7 億元),意味著新交易的估值將達到驚人的 66 倍 ARR。

開發 AI 編程編輯器 Windsurf 的公司 Codeium,正以近 30 億美元 (約港幣 HK234億元)估值籌集資金。此輪融資由KleinerPerkins領投,將公司估值定為其約4,000萬美元(約港幣HK3.12 億元) ARR 的約 70 倍。

技術創新驅動產業變革

GPT-5-Codex 會根據任務複雜性動態調整思考時間。簡單任務如「列出此目錄中的檔案」運行速度會更快,而大型複雜任務則需時更長。OpenAI 報告指在某些情況下,Codex 處理時間長達 7 小時。

在專有的「程式碼重構評估」中,分數由 GPT-5 (高) 的 33.9% 提高到 GPT-5-Codex (高) 的 51.3%。雖然未有評估細節,難以對此作深入評估,但至少說明重構性能是其關注重點。此外「GPT-5-Codex 在創建流動網站時的人類偏好評估中也顯示出顯著改進」,意味著過去提示模型「使其適合流動裝置」的做法,現在可能不再需要。

與作為通用 AI 模型建立的 GPT-5 不同,GPT-5-Codex 是為 OpenAI 所謂的「代理編程」而改良。基本上 AI 代理會作為開發者的自主同事運作,能夠自行編寫、運行並修改程式碼,過程一次可長達數小時。

產業未來發展趨勢

投資者表示,AI 在編程工具的應用速度最快,已超過其在銷售、法律、醫療保健等其他領域。最近幾週投資者一直在接觸另一家 AI 編程公司 Poolside,該公司亦正在開發自家的大型語言模型。

更廣泛的 AI 輔助開發工具市場在過去 18 個月迎來爆發性增長。Microsoft 的 GitHub Copilot 開創先河,據報現時年收入已超過 5 億美元 (約港幣 HK$39 億元)。Replit、Together AI 等初創公司均獲得大額融資,反映投資者正争相支援下一個 AI 編程巨頭。

Cursor 之所以脫穎而出,因其並非插件或噱頭,而是專為 AI 整合而建立的完整編程環境。這種原生優先的方法,幫助 Cursor 在用戶採用率和收入方面超越競爭對手。到 2025 年中期,Cursor 已實現了 Copilot 需要幾年才能達到的成就。分析師表示,雖然競爭加劇,但 Anysphere 的先發優勢、技術團隊以及深受用戶喜愛等因素,使其處於獨特地位。

Cursor 行政總裁 Michael Truell 在最近的訪談中表示,他相信 AI 推理模型正充分發展,令編程代理變得可行。他預計到 2026 年,將有 20% 的編程工作流程由代理處理。現時 Cognition 能夠同時提供 AI 編程代理和 AI 驅動的 IDE,這可能會增強其價值主張。

來源:OpenAI