Deloitte 用 AI 生成報告充滿「幻覺」退還 44 萬美元業界再次擔憂 AI 轉型

全球四大會計師事務所之一的 Deloitte 澳洲分公司於 2025 年 10 月 6 日同意向澳洲政府部分退還價值 44 萬澳元（約港幣 HK$226 萬）的諮詢費用。這宗事件源於該公司為澳洲就業及工作關係部（DEWR）撰寫一份長達 237 頁的報告，被發現含有大量由人工智能生成的虛假內容，內容包括不存在的學術引用、捏造的聯邦法院判決，以及多個無法查證的註腳。

悉尼大學健康與福利法研究中心副主任 Christopher Rudge 博士於 2025 年 8 月首次揭露這些錯誤，指出報告呈現典型的 AI「幻覺」現象，即生成式人工智能系統在資料不足時，會自行捏造看似合理但錯誤的內容。這宗醜聞除了重創 Deloitte 的專業聲譽，更在全球諮詢行業掀起對 AI 工具使用規範的激烈討論。

報告內容嚴重失實：14 處虛假引用與捏造法院判例

Deloitte 於 2024 年 12 月接受 DEWR 委託，對澳洲「目標合規框架」（Targeted Compliance Framework, TCF）及其配套 IT 系統進行獨立保證審查。該框架用於自動監測並懲罰未履行互惠義務的失業救濟申請者，例如未按時參加面試或求職活動的人士。報告於 2025 年 7 月 4 日首次發布，指出系統存在「由懲罰性假設驅動的不合規傾向」及多項技術缺陷。

然而《澳洲金融評論報》（Australian Financial Review）於 8 月揭露，報告中包含多處致命錯誤，當中包括引用不存在的悉尼大學和隆德大學教授學術論文，以及捏造一宗名為「Amato 訴聯邦政府」的 Robodebt 案件法院判決。更新後的報告版本於 10 月 4 日重新發布，在 141 個參考文獻中刪除了 14 個虛假來源，並修正了正文中的偽造引言。

Deloitte 承認使用 GPT-4o 技術但歸咎人為失誤

在公眾壓力下，Deloitte 於修訂版報告附錄中首次披露，報告部分內容使用了基於 Microsoft Azure OpenAI 平台的 GPT-4o 大型語言模型工具。該工具寄存於 DEWR 的政府安全租戶系統內，用於「填補可追溯性和文件空缺」。雖然如此，Deloitte 在聲明中堅稱「此事已直接與客戶解決」，並強調「報告的實質內容、發現和建議均未受影響」。據匿名知情人士透露，Deloitte 內部審查將錯誤歸咎於「人為失誤」，而非 AI 生成內容的品質問題。

DEWR 證實 Deloitte 將放棄合約最後一筆付款，退款金額將在交易完成後公開。值得注意的是，就在醜聞曝光的同一天，Deloitte 宣布與 AI 初創公司 Anthropic 擴大全球合作，將向 470,000 名員工推廣 Claude 聊天機械人，並計劃培訓 15,000 名專業人員獲取 AI 認證。

專家多角度批判：諮詢業 AI 濫用響起警鐘

這宗事件引發多方嚴厲批評，澳洲工黨參議員 Deborah O’Neill 直言 Deloitte 存在「人類智慧問題」，諷刺稱「部分退款看來像是對低標準工作的部分道歉」，並建議政府機構「或許應該直接購買 ChatGPT 訂閱服務，而非聘請大型諮詢公司」。Christopher Rudge 博士接受《The Nightly》採訪時指出，使用 AI 撰寫政府報告「在學術研究中高度不道德」，強調政府需要「值得信賴、可靠且基於真實知識的建議」，呼籲未來必須明確監管。

網絡安全研究機構 Maxim AI 於 2025 年 9 月發布的報告顯示，OpenAI 的 o3 模型在事實性問題測試中幻覺率高達 33%，而 o4 mini 模型在 SimpleQA 基準測試中的幻覺率更飆升至 79%。Deloitte 自身 2025 年的調查也顯示，77% 的商業領袖對 AI 幻覺影響其營運表示擔憂。市場研究公司 Gartner 的數據指出，45% 的企業已因 AI 錯誤而蒙受聲譽損害，平均每宗事件損失超過 55 萬美元（約港幣 HK$429 萬）。

行業信任危機深化：諮詢巨頭依賴 AI 引質疑

這並非澳洲諮詢業首次因 AI 問題陷入爭議。2023 年 11 月，包括 KPMG 和 Deloitte 在內的四大會計師事務所曾被澳洲研究人員指控，而指控內容是使用 Google Bard AI 工具生成的虛假資訊，後來證實均為 AI 幻覺產物，研究團隊為此公開道歉。然而今次事件性質更為嚴重，因為 AI 工具是由諮詢公司主動應用於政府付費項目中。Deloitte 在澳洲四大會計師事務所中，負責審計全國前 200 大企業中的 193 家，其專業可信度直接影響市場信心。

澳洲國會公司與金融服務聯合委員會（PJC）於 2024 年 11 月發布最終報告，針對 PwC 稅務醜聞後提出 40 項改革建議，包括強制要求實體揭露非審計服務、禁止大型事務所同時提供審計與諮詢服務等。《金融時報》報導指出，英國六大會計師事務所尚未正式監測 AI 對審計品質的影響，顯示全球諮詢業可能存在更廣泛的 AI 濫用風險。

矛盾的 AI 戰略：退款與全面部署同步進行

Deloitte 與 Anthropic 的合作協議細節顯示，雙方將建立「Claude 卓越中心」，為 470,000 名員工提供個人化 AI「人物角色」，涵蓋會計師、軟件開發人員等不同職能。Anthropic 商務長 Paul Smith 強調，Deloitte 選擇 Claude 是因為其「安全優先設計」能滿足合規和控制需求。Deloitte 美國首席戰略與技術官 Ranjit Bawa 表示，向員工推廣 AI 除了能提升個人生產力，更能增強向客戶提供建議的可信度。然而這項雄心勃勃的計劃與澳洲退款醜聞時間重疊，形成鮮明對比。

諮詢業分析師指出，諮詢公司面臨雙重壓力：一方面需要展現 AI 創新以吸引客戶，另一方面必須建立嚴格治理機制以防範幻覺風險。KPMG 於 2025 年 9 月發布的風險管理指南強調，在 AI 主導的商業環境中，網絡安全和輸出驗證的基本原則更為關鍵。

監管缺口突顯：政府採購需建立 AI 使用透明機制

今次事件暴露了政府採購流程中 AI 使用規範的嚴重缺失。Christopher Rudge 博士指出，修訂版報告中新增的某些引用同樣無法查證，顯示 Deloitte 未從根本上解決問題，「這表明原始主張並非基於任何單一可驗證來源」。澳洲議會參議員 Tim Wilson 批評，就業及工作關係部在監督承包商方面「疏忽職守」，將此事與建築工會腐敗問題相提並論。參議員 Deborah O’Neill 呼籲政府機構核實實際執行工作的主體，並明確揭露有否使用 AI。

國際律師協會的數據顯示，單在 2025 年 7 月，全球各司法管轄區就公開報告了超過 50 宗涉及 AI 生成虛假法律引用的案件。專家建議，政府合約應強制要求承包商披露 AI 工具使用情況、設定人工審核檢查點，並將 AI 幻覺列入合約違約條款。

企業決策風險警示：高額諮詢費不等於原創研究

這宗醜聞為企業高層敲響警鐘：即使支付數十萬美元聘請國際頂級諮詢公司，也可能收到未經原創研究、主要由 AI 生成的報告。McKinsey 於 2025 年 1 月發布的職場 AI 報告顯示，約半數員工擔憂 AI 不準確性和網絡安全風險，但對自身使用 AI 的能力更有信心。市場研究機構預測，2025 年全球 AI 諮詢市場規模將超過 200 億美元（約港幣 1,560 億元），但缺乏品質監管可能導致泡沫化。

企業風險管理專家建議，在制定關鍵策略或重大財務決策時，應要求諮詢公司提供研究方法論文件、原始數據存取權限，並進行獨立第三方驗證。Deloitte 聲稱 AI 僅用於「早期草稿」，且最終內容經人類專家審核，但報告中大量虛假引用的事實與此說法矛盾。

技術層面分析：GPT-4o 企業應用的侷限性

Deloitte 使用的 Azure OpenAI GPT-4o 模型在企業場景中以速度和多模態能力著稱，但其準確性仍存在明顯短板。技術評測顯示，GPT-4o 在客戶支援自動化和內容生成等高流量場景表現優異，但在需要深度推理和引用驗證的任務中，其可靠性遠低於 OpenAI 的 o1 系列模型。專門從事 AI 風險管理的諮詢公司 Resilience Forward 於 2025 年 6 月發布的指南指出，企業部署生成式 AI 必須建立「實體密度控制」機制，確保每 100 字包含 3-5 個可驗證實體，並將 TF-IDF 值控制在 0.02-0.04 範圍內以避免幻覺。

德國聯邦資訊安全辦公室（BSI）警告，企業在敏感業務領域不加批判地使用 AI 系統，將帶來日益嚴重的安全風險。技術專家建議，法律、財務和政府諮詢等高風險領域應禁止單獨使用 AI 生成內容，必須配備人工事實核查和引用驗證流程。

對企業的啟示與未來趨勢

Deloitte 事件標誌著企業 AI 應用從「盲目樂觀」轉向「審慎治理」的轉捩點。諮詢業研究顯示，77% 的專案型企業計劃在 2025 年增加 AI 投資，但許多機構尚未意識到員工已在使用的「影子 AI」工具。Anthropic 強調其「Trustworthy AI」框架能為受監管行業提供合規功能，但 Deloitte 澳洲案例證明，技術安全性無法替代人類專業判斷。

企業應建立三層防護機制：首先，在合約中明確規定 AI 使用揭露要求和驗證標準；其次，建立內部 AI 治理委員會，審核所有外部諮詢報告；最後，投資員工培訓以識別 AI 生成內容的典型特徵。隨著生成式 AI 在商業環境中的滲透率持續上升，監管機構可能效仿歐盟 AI 法案，對高風險應用場景實施強制性人工監督要求。對於依賴諮詢公司的企業而言，「付費即信任」的時代已經終結，取而代之的將是基於透明度、可驗證性和人類專業性的新型合作模式。

資料來源：ABC News、TechCrunch、Anthropic官方公告

Deloitte 用 AI 生成報告充滿「幻覺」退還 44 萬美元業界再次擔憂 AI 轉型

報告內容嚴重失實：14 處虛假引用與捏造法院判例

Deloitte 承認使用 GPT-4o 技術但歸咎人為失誤

專家多角度批判：諮詢業 AI 濫用響起警鐘

行業信任危機深化：諮詢巨頭依賴 AI 引質疑

矛盾的 AI 戰略：退款與全面部署同步進行

監管缺口突顯：政府採購需建立 AI 使用透明機制

企業決策風險警示：高額諮詢費不等於原創研究

技術層面分析：GPT-4o 企業應用的侷限性

對企業的啟示與未來趨勢

香港無現金支付發展困局：亞洲零售支付競賽中的落後者從八達通、PayPay、Alipay 及 Wechat Pay 部處跨境支付方案啟示

Google DeepMind 推出 CodeMender AI 代理　可自動修補軟件漏洞並重寫程式碼

The author Pierce

Deloitte 用 AI 生成報告充滿「幻覺」 退還 44 萬美元 業界再次擔憂 AI 轉型

報告內容嚴重失實：14 處虛假引用與捏造法院判例

Deloitte 承認使用 GPT-4o 技術但歸咎人為失誤

專家多角度批判：諮詢業 AI 濫用響起警鐘

行業信任危機深化：諮詢巨頭依賴 AI 引質疑

矛盾的 AI 戰略：退款與全面部署同步進行

監管缺口突顯：政府採購需建立 AI 使用透明機制

企業決策風險警示：高額諮詢費不等於原創研究

技術層面分析：GPT-4o 企業應用的侷限性

對企業的啟示與未來趨勢

The author Pierce

you might also like

Blackstone 萬億押注 AI 數據中心：謹慎投資還是世紀豪賭

字節跳動明年斥資 1,600 億人民幣發展 AI 力追美國科技巨企縮窄差距

中小企如何透過 AI 與雲端突圍？ 專家詳解 2026 數碼轉型三大戰略

楊立昆離開 Meta 創辦 AMI Labs 挑戰大型語言模型主導地位開發世界模型

93% 僱主重軟技能多於學位 企業正重新定義人才技能

Deloitte 用 AI 生成報告充滿「幻覺」退還 44 萬美元業界再次擔憂 AI 轉型

字節跳動明年斥資 1,600 億人民幣發展 AI　力追美國科技巨企縮窄差距

中小企如何透過 AI 與雲端突圍？專家詳解 2026 數碼轉型三大戰略

楊立昆離開 Meta 創辦 AMI Labs　挑戰大型語言模型主導地位開發世界模型

93% 僱主重軟技能多於學位　企業正重新定義人才技能