OpenAI 研究人員於 9 月發表論文,承認 AI 模型經常產生虛假輸出的「幻覺」問題,可能源於訓練時的根本錯誤。現行的訓練方式獎勵猜測而非承認不確定性,導致模型寧願編造答案也不願表示「我不知道」。研究顯示即使 GPT-5 號稱減少 80% 幻覺,問題依然存在,因為解決方案會嚴重損害用戶體驗。
訓練機制獎勵猜測導致問題
由 OpenAI 三名研究人員與喬治亞理工學院電腦科學特聘教授 Santosh Vempala 合著的論文《Why Language Models Hallucinate》指出,大多數主流評估方法都在獎勵幻覺行為。研究團隊要求 OpenAI 機械人報告論文作者之一、OpenAI 研究科學家 Adam Tauman Kalai 的生日,結果產生了三個錯誤答案,原因是訓練者教導模型回傳答案而非承認無知。
OpenAI 在隨論文發布的網誌文章中承認,經過數千個測試問題後,猜測模型在排行榜上看起來,比起承認不確定性的謹慎模型表現更好。根本問題在於 AI 模型訓練時獎勵猜測而非正確答案。猜測雖然可能產生表面上合適的答案,但若直接告訴用戶 AI 找不到答案,則會令用戶感到不滿。
作者解釋,AI 模型建構的預訓練階段已嵌入這種無益行為,因為訓練者輸入模型的資料包含許多特定數據的例子,例如正確的拼寫。如果少數拼寫錯誤進入用於訓練模型的語料庫,AI 仍有許多正確拼寫的例子,能夠學習如何產生準確結果。
評估標準強化錯誤誘因
當用於訓練模型的語料庫不包含可學習的資料模式時,例如生日的例子,AI 便會嘗試猜測並經常出錯。論文指出,預訓練後的幻覺率至少應該是訓練事實中僅出現一次的比例。例如,如果 20% 的生日事實在預訓練資料中僅出現一次,基礎模型預計會在至少 20% 的生日事實上產生幻覺。
模型開發的後訓練階段所使用的技術會加劇這種情況。論文指出,許多語言模型基準反映了標準化人類考試,使用準確性或通過率等二元指標。因此,針對這些基準進行最佳化的模型可能會促進幻覺。人類在現實社會中會學習到表達不確定性的價值;另一方面,語言模型卻主要使用懲罰不確定性的考試來作評估。
作者將其比作多選題問卷,即使隨機選擇大致合理的答案,得分也可能比不選任何答案更高。他們總結指,大多數主流評估都在獎勵幻覺行為。只要對主流評估作簡單修改,便可以重新調整誘因,獎勵適當表達不確定性的行為而非懲罰它們。這有望消除抑制幻覺的障礙,為未來發展更細緻的語言模型鋪路。
完美資料集方案不切實際
理論上,AI 模型製造者可以透過使用不含錯誤的資料集來消除幻覺。但論文承認這種情況根本不可能實現,特別是因為用於訓練的大量資料可能包含錯誤。
OpenAI 建議一個更可行的答案,是調整模型讓它們更常回應「我不知道」,即使這會影響用戶體驗。該機構聲稱已為此調整其訓練制度,ChatGPT-5 亦採用了相應措施,然而根據媒體實測,新模型的用戶仍會發現它產生一些絕對錯誤。
GPT-5 改善有限但問題仍在
OpenAI 在 2025 年 8 月推出 GPT-5 時,聲稱已大幅減少幻覺。公司表示,在啟用網絡搜尋功能並使用匿名提示的測試中,GPT-5 的回應包含事實錯誤的可能性,比起 GPT-4o 低約 45%。當進行思考時,GPT-5 的回應包含事實錯誤的可能性,比起 OpenAI o3 低約 80%。
獨立測試機構 Vectara 的評估顯示,GPT-5 的基礎幻覺率為 1.4%,相比之下 GPT-4 為 1.8%,GPT-4 turbo 和 4o mini 為 1.69%,GPT-4o 為 1.49%。有趣的是,ChatGPT-5 的幻覺率略高於 ChatGPT-4.5 預覽模式的 1.2%,但也遠高於 OpenAI 表現最佳的 o3-mini 高推理模型,後者的基礎幻覺率僅為 0.795%。
ChatGPT-5 的幻覺仍然比競爭對手少得多,Gemini-2.5-pro 的幻覺率為 2.6%,Grok-4 則高達 4.8%。這意味著 GPT-5 在常見任務上仍有機會產生幻覺。
解決方案會摧毀用戶體驗
OpenAI 研究人員的數學框架顯示,在適當的信心門檻下,AI 系統會自然地表達不確定性而非猜測,這將引致更少幻覺。問題在於這對用戶體驗的影響。
英國謝菲爾德大學數學與物理科學學院助理教授 Wei Xing 在《The Conversation》分析指出,如果 ChatGPT 開始對 30% 的查詢回答「我不知道」,而這個數字是基於論文對訓練資料中事實不確定性分析的保守估計,那麼習慣對任何問題都收到自信答案的用戶,可能會迅速放棄這些系統。
Wei Xing 以自己參與的鹽湖城空氣質素監測項目為例,當系統在惡劣天氣或裝置校準時,標示出測量的不確定性時,用戶參與度較低,即使這些自信讀數在驗證後被證明並不準確。
運算成本構成另一障礙
即使能夠克服用戶不喜歡不確定性的問題,還有更大的障礙,就是運算經濟學。能意識到不確定性的語言模型,需要比現時的方法多得多的運算資源,因為它們必須評估多個可能的回應並估計信心水平。對於每天處理數百萬次查詢的系統,這意味著營運成本大幅提高。
更複雜的方法,例如主動學習,即 AI 系統提出澄清問題以減少不確定性,雖然可以提高準確性,但會進一步大幅增加運算需求。使用論文的見解來減少幻覺並不困難,量化不確定性的既定方法已存在數十年。這些方法可用於提供可信的不確定性估計,並指導 AI 做出更明智的選擇。
商業誘因與技術改進背道而馳
論文無意中突顯了一個令人不安的事實:推動消費者 AI 開發的商業誘因,與減少幻覺的目標根本上不一致。直到這些誘因改變,幻覺問題將持續存在。
OpenAI 行政總裁 Sam Altman 將 GPT-5 描述為一個隨時待命的博士級專家團隊。他表示,人們的限制在於想法,而非真正的執行能力。公司要求 GPT-5 創建一個網絡應用程式,協助英語使用者學習法語。應用程式必須有吸引人的主題,包括閃卡和測驗等活動,以及追蹤每日進度的方法。
OpenAI 將相同提示提交到兩個 GPT-5 視窗,它在幾秒鐘內生成了兩個不同的應用程式。OpenAI 負責人表示,應用程式有些粗糙之處,但用戶可以根據需要對 AI 生成的軟件進行額外調整,例如更改背景或添加額外標籤。
OpenAI 面對的是一個基本矛盾:幻覺是訓練方法的必然結果,但消除幻覺的解決方案卻會破壞產品的吸引力。正如論文所暗示,治療可能比疾病更糟糕。
來源:OpenAI