
英國消費者權益組織 Which? 最新測試顯示,主流 AI 聊天機械人回答消費者查詢時錯誤率極高,但近半使用者仍對這些工具抱有過高信任。研究團隊測試 ChatGPT、Google Gemini、Microsoft Copilot、Meta AI 及 Perplexity 等 6 款工具,發現準確率介乎 50% 至 71%,當中 Meta AI 表現最差,正確率僅約 51%,而全球最多人使用的 ChatGPT 準確率亦只有 64%,排名倒數第二。
Which? 向超過 4,000 名英國成年人進行調查,同時對 6 款主流 AI 聊天機械人進行 40 條涵蓋健康、財務及旅遊等範疇測試問題。結果顯示 51% 受訪者使用 AI 工具搜尋網絡資訊,當中 47% 表示「在很大程度上」或「合理程度上」信任 AI 提供資訊。較令人擔憂是經常使用 AI 工具用戶中,信任比例更高達 65%。
測試發現這些工具經常引用過時討論區帖文或 Reddit 討論串作為資訊來源。雖然這些來源有時可提供有用資訊,但未必如 AI 聊天機械人自信語氣所顯示般權威可靠。研究亦揭示 17% 受訪者依賴 AI 獲取財務建議,但許多涉及稅務編碼或個人儲蓄帳戶(ISA)免稅額查詢答案令人憂慮,容易令用戶陷入麻煩。
國際消費者組織 Consumers International 在 2024 年 3 月進行全球測試印證這問題嚴重性。該組織召集來自 19 個國家 35 個成員組織參與實驗,測試結果顯示所有聊天機械人都出現某種形式「幻覺」(hallucination),即憑空捏造不存在資訊。更糟糕是聊天機械人提供引用來源機率僅為 50%,如同擲硬幣一樣隨機。
Which? 科技專家 Andrew Laughlin 警告:「日常使用 AI 工具情況正在飆升,但我們發現在獲取所需答案時,細節決定成敗。我們研究發現太多不準確和誤導性陳述,特別是在依賴 AI 處理財務或法律查詢等重要問題時。」
企業應用 AI 聊天機械人風險與機遇
對企業而言,AI 聊天機械人準確性問題除了是技術缺陷,也可能帶來嚴重商業風險。研究機構 Deloitte 在 2024 年調查顯示,使用生成式 AI 員工中僅三分之一用戶表示「信任」這項技術。值得注意是用戶在實際使用前對生成式 AI 幾乎沒有信任感,但經常使用者信任度則排名第三。
AI 聊天機械人在客戶服務領域應用日益廣泛。調查公司 Capterra 在 2024 年研究指出,53% 美國企業現已使用 AI 增強客戶服務軟件。然而 72% 員工承認擔心 AI 工具向客戶提供資訊準確性。金融機構面臨風險尤其嚴重,因為錯誤 AI 建議可能導致客戶作出錯誤財務決策,甚至觸犯監管規定。
軟件供應鏈安全成為另一個重大隱憂。研究人員發現,當開發人員詢問 AI 工具如何解決編程問題時,工具可能推薦根本不存在軟件包,這現象稱為「套件幻覺」(package hallucination)。威脅行為者可利用這漏洞,創建含有惡意程式碼同名軟件包。安全公司 Lasso Security 研究顯示,GPT-4 出現套件幻覺比例達 24.2%,而 Google Gemini 更高達 64.5%。研究人員上傳一個虛擬軟件包後,數週內錄得超過 30,000 次真實下載,證明大量開發人員盲目信任 AI 生成程式碼。
報告指出 AI 輔助開發人員可產生比未使用輔助工具同行多 3 至 4 倍程式碼量,但同時亦會產生多達 10 倍安全問題。這種權衡對企業構成嚴峻挑戰:一方面希望提升生產力,另一方面必須應對隨之而來安全風險。
企業如何安全運用 AI 聊天機械人技術
企業要有效運用 AI 聊天機械人同時管理相關風險,需要採取多層次策略。首先是建立嚴格驗證機制。開發團隊應該使用自動化工具和人工審查相結合方式,檢查所有 AI 生成程式碼。這雙重驗證雖然增加時間成本,但能大幅降低安全漏洞風險。
實施檢索增強生成(Retrieval-Augmented Generation,RAG)技術可以改善 AI 回應準確性。RAG 將 AI 生成能力與從已驗證數據源提取資訊檢索系統結合,確保回應基於可靠來源而非單純模型訓練數據。金融機構開始採用「群體共識」方法,使用多個 AI 模型並行處理相同查詢,只有當多個模型達成一致時才接受輸出結果,這做法已被證實能大幅減少幻覺風險。
員工培訓是關鍵防線。企業應該更新安全意識培訓,教導員工了解 AI 幻覺風險,並養成雙重檢查 AI 提供事實性資訊習慣。明確界定 AI 工具使用範圍亦很重要,特別是在涉及敏感資料、財務決策或法律事務時,應該要求人工專家進行最終審核。
對於客戶服務應用,47% 企業現已允許客戶在 AI 與人工客服之間選擇,這混合模式既能發揮 AI 效率優勢,又能在複雜情況下提供人工支援。Zendesk 數據顯示 72% 客戶體驗領導者認為,聊天機械人應該是品牌形象智能延伸,而非只是完成任務簡單機器。
企業亦需要建立持續監控機制。定期更新 AI 系統訓練數據,確保模型基於最新和準確資訊運作。設定「護欄」(guardrails)可以協助 AI 工具識別應該和不應該回答問題類型,降低提供錯誤或危險建議風險。
未來趨勢與結論
AI 聊天機械人市場正在快速擴張。市場研究顯示,全球聊天機械人市場在 2024 年價值達 70.1 億美元(約港幣 546.8 億元),預計到 2029 年將增長至 208.1 億美元(約港幣 1,623 億元)。英國市場在 2024 年達到 2.292 億美元(約港幣 17.9 億元),預計到 2033 年將達到 12.278 億美元(約港幣 95.8 億元),複合年增長率為 20.50%。
技術進步正在改善 AI 表現。研究顯示商業模型如 GPT-4 幻覺率(5.2%)遠低於開源模型(21.7%)。Perplexity AI 在最近學術研究中達到 67% 匹配準確率,成為評估中表現最佳聊天機械人。多模態 AI 發展亦令人期待,Gartner 預測到 2027 年,40% 生成式 AI 解決方案將能理解文字、圖像、音訊和影片。
員工預測未來 5 年內,52% 客戶服務查詢將由 AI 獨立處理,無需人工介入。這趨勢要求企業在追求效率同時,必須建立穩健風險管理框架。監管機構亦開始關注這領域,提供 AI 在金融等受監管行業道德使用指引。
最重要是企業和消費者都需要對 AI 工具保持適度懷疑態度。Andrew Laughlin 建議:「使用 AI 時,務必清楚定義問題,並檢查 AI 引用資訊來源。對於特別複雜問題,在作出重大財務決策或採取法律行動之前,務必尋求專業建議,特別是醫療查詢。」
AI 聊天機械人無疑為企業帶來巨大機遇,但準確性、保安和透明度必須成為優先考量。企業應該將 AI 視為增強人類能力工具,而非完全替代人類判斷方案。只有在建立適當護欄、驗證機制和持續監控前提下,AI 聊天機械人才能真正成為企業提升競爭力可靠夥伴。
來源:Which?




