全球四大會計師事務所之一的 Deloitte 澳洲分公司於 2025 年 10 月 6 日同意向澳洲政府部分退還價值 44 萬澳元(約港幣 HK$226 萬)的諮詢費用。這宗事件源於該公司為澳洲就業及工作關係部(DEWR)撰寫一份長達 237 頁的報告,被發現含有大量由人工智能生成的虛假內容,內容包括不存在的學術引用、捏造的聯邦法院判決,以及多個無法查證的註腳。
悉尼大學健康與福利法研究中心副主任 Christopher Rudge 博士於 2025 年 8 月首次揭露這些錯誤,指出報告呈現典型的 AI「幻覺」現象,即生成式人工智能系統在資料不足時,會自行捏造看似合理但錯誤的內容。這宗醜聞除了重創 Deloitte 的專業聲譽,更在全球諮詢行業掀起對 AI 工具使用規範的激烈討論。
報告內容嚴重失實:14 處虛假引用與捏造法院判例
Deloitte 於 2024 年 12 月接受 DEWR 委託,對澳洲「目標合規框架」(Targeted Compliance Framework, TCF)及其配套 IT 系統進行獨立保證審查。該框架用於自動監測並懲罰未履行互惠義務的失業救濟申請者,例如未按時參加面試或求職活動的人士。報告於 2025 年 7 月 4 日首次發布,指出系統存在「由懲罰性假設驅動的不合規傾向」及多項技術缺陷。
然而《澳洲金融評論報》(Australian Financial Review)於 8 月揭露,報告中包含多處致命錯誤,當中包括引用不存在的悉尼大學和隆德大學教授學術論文,以及捏造一宗名為「Amato 訴聯邦政府」的 Robodebt 案件法院判決。更新後的報告版本於 10 月 4 日重新發布,在 141 個參考文獻中刪除了 14 個虛假來源,並修正了正文中的偽造引言。
Deloitte 承認使用 GPT-4o 技術但歸咎人為失誤
在公眾壓力下,Deloitte 於修訂版報告附錄中首次披露,報告部分內容使用了基於 Microsoft Azure OpenAI 平台的 GPT-4o 大型語言模型工具。該工具寄存於 DEWR 的政府安全租戶系統內,用於「填補可追溯性和文件空缺」。雖然如此,Deloitte 在聲明中堅稱「此事已直接與客戶解決」,並強調「報告的實質內容、發現和建議均未受影響」。據匿名知情人士透露,Deloitte 內部審查將錯誤歸咎於「人為失誤」,而非 AI 生成內容的品質問題。
DEWR 證實 Deloitte 將放棄合約最後一筆付款,退款金額將在交易完成後公開。值得注意的是,就在醜聞曝光的同一天,Deloitte 宣布與 AI 初創公司 Anthropic 擴大全球合作,將向 470,000 名員工推廣 Claude 聊天機械人,並計劃培訓 15,000 名專業人員獲取 AI 認證。
專家多角度批判:諮詢業 AI 濫用響起警鐘
這宗事件引發多方嚴厲批評,澳洲工黨參議員 Deborah O’Neill 直言 Deloitte 存在「人類智慧問題」,諷刺稱「部分退款看來像是對低標準工作的部分道歉」,並建議政府機構「或許應該直接購買 ChatGPT 訂閱服務,而非聘請大型諮詢公司」。Christopher Rudge 博士接受《The Nightly》採訪時指出,使用 AI 撰寫政府報告「在學術研究中高度不道德」,強調政府需要「值得信賴、可靠且基於真實知識的建議」,呼籲未來必須明確監管。
網絡安全研究機構 Maxim AI 於 2025 年 9 月發布的報告顯示,OpenAI 的 o3 模型在事實性問題測試中幻覺率高達 33%,而 o4 mini 模型在 SimpleQA 基準測試中的幻覺率更飆升至 79%。Deloitte 自身 2025 年的調查也顯示,77% 的商業領袖對 AI 幻覺影響其營運表示擔憂。市場研究公司 Gartner 的數據指出,45% 的企業已因 AI 錯誤而蒙受聲譽損害,平均每宗事件損失超過 55 萬美元(約港幣 HK$429 萬)。
行業信任危機深化:諮詢巨頭依賴 AI 引質疑
這並非澳洲諮詢業首次因 AI 問題陷入爭議。2023 年 11 月,包括 KPMG 和 Deloitte 在內的四大會計師事務所曾被澳洲研究人員指控,而指控內容是使用 Google Bard AI 工具生成的虛假資訊,後來證實均為 AI 幻覺產物,研究團隊為此公開道歉。然而今次事件性質更為嚴重,因為 AI 工具是由諮詢公司主動應用於政府付費項目中。Deloitte 在澳洲四大會計師事務所中,負責審計全國前 200 大企業中的 193 家,其專業可信度直接影響市場信心。
澳洲國會公司與金融服務聯合委員會(PJC)於 2024 年 11 月發布最終報告,針對 PwC 稅務醜聞後提出 40 項改革建議,包括強制要求實體揭露非審計服務、禁止大型事務所同時提供審計與諮詢服務等。《金融時報》報導指出,英國六大會計師事務所尚未正式監測 AI 對審計品質的影響,顯示全球諮詢業可能存在更廣泛的 AI 濫用風險。
矛盾的 AI 戰略:退款與全面部署同步進行
Deloitte 與 Anthropic 的合作協議細節顯示,雙方將建立「Claude 卓越中心」,為 470,000 名員工提供個人化 AI「人物角色」,涵蓋會計師、軟件開發人員等不同職能。Anthropic 商務長 Paul Smith 強調,Deloitte 選擇 Claude 是因為其「安全優先設計」能滿足合規和控制需求。Deloitte 美國首席戰略與技術官 Ranjit Bawa 表示,向員工推廣 AI 除了能提升個人生產力,更能增強向客戶提供建議的可信度。然而這項雄心勃勃的計劃與澳洲退款醜聞時間重疊,形成鮮明對比。
諮詢業分析師指出,諮詢公司面臨雙重壓力:一方面需要展現 AI 創新以吸引客戶,另一方面必須建立嚴格治理機制以防範幻覺風險。KPMG 於 2025 年 9 月發布的風險管理指南強調,在 AI 主導的商業環境中,網絡安全和輸出驗證的基本原則更為關鍵。
監管缺口突顯:政府採購需建立 AI 使用透明機制
今次事件暴露了政府採購流程中 AI 使用規範的嚴重缺失。Christopher Rudge 博士指出,修訂版報告中新增的某些引用同樣無法查證,顯示 Deloitte 未從根本上解決問題,「這表明原始主張並非基於任何單一可驗證來源」。澳洲議會參議員 Tim Wilson 批評,就業及工作關係部在監督承包商方面「疏忽職守」,將此事與建築工會腐敗問題相提並論。參議員 Deborah O’Neill 呼籲政府機構核實實際執行工作的主體,並明確揭露有否使用 AI。
國際律師協會的數據顯示,單在 2025 年 7 月,全球各司法管轄區就公開報告了超過 50 宗涉及 AI 生成虛假法律引用的案件。專家建議,政府合約應強制要求承包商披露 AI 工具使用情況、設定人工審核檢查點,並將 AI 幻覺列入合約違約條款。
企業決策風險警示:高額諮詢費不等於原創研究
這宗醜聞為企業高層敲響警鐘:即使支付數十萬美元聘請國際頂級諮詢公司,也可能收到未經原創研究、主要由 AI 生成的報告。McKinsey 於 2025 年 1 月發布的職場 AI 報告顯示,約半數員工擔憂 AI 不準確性和網絡安全風險,但對自身使用 AI 的能力更有信心。市場研究機構預測,2025 年全球 AI 諮詢市場規模將超過 200 億美元(約港幣 1,560 億元),但缺乏品質監管可能導致泡沫化。
企業風險管理專家建議,在制定關鍵策略或重大財務決策時,應要求諮詢公司提供研究方法論文件、原始數據存取權限,並進行獨立第三方驗證。Deloitte 聲稱 AI 僅用於「早期草稿」,且最終內容經人類專家審核,但報告中大量虛假引用的事實與此說法矛盾。
技術層面分析:GPT-4o 企業應用的侷限性
Deloitte 使用的 Azure OpenAI GPT-4o 模型在企業場景中以速度和多模態能力著稱,但其準確性仍存在明顯短板。技術評測顯示,GPT-4o 在客戶支援自動化和內容生成等高流量場景表現優異,但在需要深度推理和引用驗證的任務中,其可靠性遠低於 OpenAI 的 o1 系列模型。專門從事 AI 風險管理的諮詢公司 Resilience Forward 於 2025 年 6 月發布的指南指出,企業部署生成式 AI 必須建立「實體密度控制」機制,確保每 100 字包含 3-5 個可驗證實體,並將 TF-IDF 值控制在 0.02-0.04 範圍內以避免幻覺。
德國聯邦資訊安全辦公室(BSI)警告,企業在敏感業務領域不加批判地使用 AI 系統,將帶來日益嚴重的安全風險。技術專家建議,法律、財務和政府諮詢等高風險領域應禁止單獨使用 AI 生成內容,必須配備人工事實核查和引用驗證流程。
對企業的啟示與未來趨勢
Deloitte 事件標誌著企業 AI 應用從「盲目樂觀」轉向「審慎治理」的轉捩點。諮詢業研究顯示,77% 的專案型企業計劃在 2025 年增加 AI 投資,但許多機構尚未意識到員工已在使用的「影子 AI」工具。Anthropic 強調其「Trustworthy AI」框架能為受監管行業提供合規功能,但 Deloitte 澳洲案例證明,技術安全性無法替代人類專業判斷。
企業應建立三層防護機制:首先,在合約中明確規定 AI 使用揭露要求和驗證標準;其次,建立內部 AI 治理委員會,審核所有外部諮詢報告;最後,投資員工培訓以識別 AI 生成內容的典型特徵。隨著生成式 AI 在商業環境中的滲透率持續上升,監管機構可能效仿歐盟 AI 法案,對高風險應用場景實施強制性人工監督要求。對於依賴諮詢公司的企業而言,「付費即信任」的時代已經終結,取而代之的將是基於透明度、可驗證性和人類專業性的新型合作模式。