close
人工智能

研究揭 AI 代理長工作流崩壞風險 頂尖模型平均損壞 25% 檔案內容

一個復古風格的機械人,象徵AI技術的潛在崩壞風險,反映研究中提到的模型損壞率達25%的問題。.

 

Microsoft Research 最新發表的論文《LLMs Corrupt Your Documents When You Delegate》揭示一個令企業決策層必須正視的事實,即使是市面上最頂尖的大型語言模型(LLM)在處理長時間及多步驟的檔案編輯工作時平均會默默損壞 25% 的檔案內容,而所有受測模型的平均檔案劣化幅度更高達 50% 。

 

研究團隊建立名為 DELEGATE-52 的全新標準測試涵蓋 52 個專業領域,結果顯示只有 Python 編程一個範疇達到可委派的成熟水平。這項發現對正大手筆投資於 AI 代理(AI Agent)的企業而言無疑是一盆冷水,並令市場重新審視所謂自主工作流的真實可靠性。

 

DELEGATE-52 基準如何揭穿代理神話

Microsoft 研究員 Philippe Laban、Tobias Schnabel 和 Jennifer Neville 共同設計這套標準以期望可以模擬真實知識工作者把任務交給 AI 完成的情境,研究團隊以 19 個大型語言模型進行大規模實驗,測試涵蓋編寫程式、晶體學、樂譜記譜法及會計賬目分類等專業範疇。

實驗以會計分類為例,研究員會給予模型一份非牟利組織 Hack Club 的會計總賬作為原始檔案,要求模型先按類別拆分成獨立檔案再按時序合併為單一檔案,經過 20 輪委派互動後前沿模型 Gemini 3.1 Pro、Claude 4.6 Opus 與 GPT 5.4 平均損壞 25% 的檔案內容,而較弱模型的損壞情況更為嚴重。

研究員把達到可委派水平的門檻設定為 20 輪互動後仍保留 98% 或以上內容的完整度,結果令人震驚顯示 52 個領域中只有 Python 編程一個範疇符合資格。在 80% 的測試組合中模型造成至少 20% 的內容劣化,更有超過 80% 的模型或領域組合出現災難性損壞,即評分跌至 80% 或以下。表現最佳的 Google Gemini 3.1 Pro 也只在 52 個領域中有 11 個達標。

 

沉默損壞才是最大威脅

這份研究最令企業憂慮的並非錯誤本身而是錯誤發生的方式,較弱的模型傾向於刪除內容令使用者較易察覺,但前沿模型的問題模式截然不同——它們會以看似合理的方式改動檔案,悄悄破壞語義或結構令審閱者難以發現。

損壞一詞在研究中有精準定義,指的是檔案中已不再保留原本意義的內容比例,研究員觀察到錯誤往往一次過爆發,在單一輪互動中令檔案評分驟跌 10 至 30 分而非逐步累積。較強的模型並非更善於避免小錯,而是把致命失誤延後到較後輪次發生,令使用者更難在前期察覺風險。

研究團隊發現給予模型工具使用權限(即所謂代理化配置,包括檔案讀寫與程式碼執行)並無助改善表現,反而令檔案劣化平均額外增加 6% ,換言之業界目前熱炒的代理化(Agentic)部署模式在長期檔案處理任務上除了沒有解決問題外更可能加劇問題。

 

企業正押注一場高風險賭局

這份研究的發表時機相當敏感,根據 Gartner 預測到 2027 年底前超過 40% 的代理式 AI 項目將面臨被取消的命運,主要原因包括成本失控、商業價值不明確以及風險控制不足。Deloitte 在 2026 年的企業 AI 報告中亦指出,只有 21% 的機構為自主 AI 代理建立成熟的管治模式。

企業對 AI 的投資並未放緩,RAND Corporation 的研究顯示超過 80% 的 AI 項目無法成功部署,失敗率是不涉及 AI 的 IT 項目的兩倍。2026 年 AI 代理市場規模預計達到 109 億至 120.6 億美元(約港幣 850.2 億至 940.68 億元),複合年增長率高達 44% 至 46% 。企業用真金白銀押注於一項技術,而 Microsoft 的研究卻顯示這項技術在大部分領域尚未成熟到可以放心交付工作。

OpenAI 的 GPT 模型系列在過去 16 個月內標準測試成績由 14.7% 提升至 71.5% 顯示能力確實在進步,然而能力進步並不等同於可靠性達標,特別是當錯誤模式由明顯刪除演變為沉默損壞時企業的審計與品控成本只會更高。

 

對企業營運帶來風險

Microsoft 研究團隊明確指出使用者仍需密切監察 LLM 系統的操作過程,特別是在編碼以外的領域。企業若把財務報表整理、法律檔案審閱及市場研究彙整等任務全權交給 AI 代理,並依賴模型在 20 輪以上的長工作流中保持檔案完整性,極可能在不知情下承擔重大資料資產損失。

企業應採用窄範圍及可驗證的代理部署模型,業界數據顯示成功部署 AI 代理的企業中有 81% 把代理範圍限定在單一工作流並設定二元成功標準,74% 在最初 60 至 90 日部署期間設置明確的人為審核檢查點。這種窄而深的方式遠勝於把代理當作開放式助理放任其處理多元任務。

評估與可觀察性(Observability)工具將成為 2026 年企業 AI 預算的核心項目,企業需要在每次提示、模型或工具變更前進行自動化評估,並建立可追溯的審計日誌以確保即使 AI 代理出錯亦能在錯誤擴散前及早發現。

香港企業在金融、法律及專業服務領域的業務複雜度高加上監管要求嚴格,更應審慎評估代理部署的範疇,AI 代理最適合處理高量、結構化及可逆轉的任務,例如客戶查詢分流、結構化資料抽取及初稿生成等,至於涉及合規責任、終端決策或長檔案整合的工作應保留人為主導,AI 僅作輔助。

 

從全自動代理回歸協作式 AI

DELEGATE-52 的研究結果預示業界對 AI 代理的論述將出現重要修正,過去兩年 Vibe Coding 、 Autonomous Workflow 及 Agentic Enterprise 等口號主導市場敘事,供應商紛紛宣稱 AI 代理可以給予一個目標便自動完成所有工作。Microsoft 自家的研究卻提供反證,迫使行業面對技術現實。

未來 12 至 18 個月市場將見到三個明顯轉向,第一個轉向是協作式 AI (Collaborative AI)取代全自動代理成為主流論述,強調人機之間的責任分工而非全權委派。第二個轉向是長時程評估(Long-horizon Evaluation)成為新標準,因為研究證明模型在 2 輪互動後的表現並不能反映 20 輪後的表現,企業採購 AI 服務前必須要求供應商提交長工作流的可靠性數據。第三個轉向是特定領域代理(Vertical Agents)的興起,由通用代理走向針對特定行業及特定檔案格式調優的專業代理,因為通用模型在跨領域長任務上的失敗率太高。

值得留意的是研究結果並非否定 AI 代理的價值而是釐清其適用邊界,正如 Deloitte 報告引述某電訊公司副總裁所言,AI 不會單純取代人類員工而是給予現有員工倍增器(Force Multiplier)令他們更有效率地完成工作。這個視角與 Microsoft 研究結論一致——AI 代理在 Python 編程這類結構化及可驗證的領域已達到可委派水平,但在大多數知識工作領域人類仍然不可或缺。

 

結語:信任必須建基於數據而非口號

Microsoft 這份研究的最大貢獻是把一個原本停留在直覺懷疑層面的問題轉化為可量化及可比較的數據,當前沿 AI 模型在長檔案編輯任務中平均蝕掉四分之一內容,企業領導層便不能再以最新模型應該不會出錯的假設來規劃自動化策略。

企業在推進 AI 轉型時應把這份研究視為一份重要的風險清單而非否定信號,AI 代理確實能帶來可觀效益,但效益必須與適用範疇匹配。企業應把 AI 部署在擅長的領域(編碼、結構化資料處理及客戶查詢初步分流),同時在薄弱的領域(長檔案整合、跨領域知識整合及創意撰寫)保留人為主導,這才是 2026 年最務實的企業 AI 策略。技術會繼續進步但企業沒有條件等到技術完美才行動,真正的競爭優勢在於懂得在哪裏放手及在哪裏緊握。

 

來源:The Register

Tags : AI 代理DELEGATE-52Microsoft企業科技大型語言模型