
麻省理工學院(MIT)1 項涵蓋逾 100,000 名開發者研究發現,AI 編程工具雖令程式碼產量大幅上升約 180%,但真正部署至生產環境軟件僅增加約 30%。數字背後揭示 1 個關鍵問題:AI 寫得多,不代表企業交付能力同步提升。
投資以 10 億計,換來甚麼?
近年 AI 編程工具吸引大量資金湧入,各大初創公司爭相開發所謂「程式代理」(Coding Agent)。這股熱潮背後,是各類基準測試(Benchmark)亮麗成績——AI 由早期僅能應付部分任務,到短時間內大幅躍進,令不少投資者深信軟件開發已進入全自動化時代。
然而 MIT 研究數據卻為市場熱情降溫。程式碼產量固然大幅上升,但實際可用軟件增幅與之相差甚遠,顯示市場對 AI 編程能力期望存在明顯落差。
測試拿高分,實戰卻是另一回事
AI 工具在基準測試中表現理想,背後有其結構性原因:編譯器(Compiler)能直接判斷程式碼是否通過,測試套件亦可即時反映對錯,令模型可以不斷按指標調校。這種環境天然有利 AI 發揮。
現實企業系統卻截然不同。難點從來不只是「能否寫出可執行程式碼」,更在於判斷 1 項改動是否適合某個文件殘缺、結構複雜既有系統。這類判斷無法靠排行榜分數衡量,往往需要系統在真實負載下長時間運作才能驗證。換言之 AI 擅長處理部分,正是企業開發流程中相對容易一環。
真正價值在於深度整合
業界逐漸意識到,AI 商業價值不在於回答通用問題,而在於能否配合企業專屬數據、內部工作流程及權限架構作出準確判斷。1 個能理解特定公司業務邏輯 AI,實際效益遠高於只懂生成通用程式碼工具。這亦意味數據存取權限與企業系統整合深度,往往比模型本身參數規模更能決定最終成效。
部分 AI 公司已據此調整商業模式,採用「成功才收費」(Pay-for-outcome)機制——即代理程式真正解決問題才計費,而非按使用量收費。這類模式前提是業者須取得足夠系統權限,以核實任務是否切實完成。法律科技界亦出現類似趨勢,部分公司以自身實測結果反向定義合格 AI 輸出,令行業標準愈來愈由市場實踐主導,而非單靠實驗室訓練數據決定。
快寫不快交,壓力轉移至下游
MIT 研究核心啟示在於:AI 編程工具並非讓整條開發流程等比加速,而是把瓶頸從「寫程式」推向「交付」。程式碼生成速度提升後,審查、測試、整合與最終部署等環節壓力隨之倍增。若企業內部流程未能同步跟上,整體效益自然大打折扣。
對投資市場而言,這項研究提出 1 個更務實評估框架:比起關注 AI 工具在基準測試分數,更應審視相關工具能否真正嵌入企業日常運作,並在複雜真實環境中持續交付可用成果。能做到這點公司,才是 AI 編程浪潮中值得長線關注對象。
來源: Forbes




