
加拿大 AI 偵測初創公司 GPTZero 發表調查報告,揭露全球極具影響力的人工智能學術會議 NeurIPS 2025,其收錄的論文中竟有超過 100 個由生成式 AI 創造的虛構引用,散布於至少 53 篇獲接受的論文內。這些存有問題的論文,全部通過 3 名或以上同行評審專家的審查。GPTZero 聯合創辦人兼行政總裁 Edward Tian 指出,這是首次有紀錄顯示虛構引用正式進入頂級機器學習會議的官方出版紀錄,情況令人擔憂。調查同時發現,國際學習表徵會議(ICLR)2026 年的投稿論文中亦有超過 50 篇含有類似問題,反映學術界正面臨由 AI 工具濫用所引發的系統性誠信危機。
NeurIPS 調查揭示的問題全貌
GPTZero 的研究團隊對 NeurIPS 2025 獲接納的 4,841 篇論文進行全面掃描,結果發現約 2% 論文至少含有 1 個虛構引用。GPTZero 技術總監 Alex Cui 解釋,公司的「幻覺檢測工具」(Hallucination Check)會自動搜尋公開網絡及學術資料庫,核實每篇論文引用的作者姓名、標題、出版刊物及連結。若系統無法找到相關文獻或僅有部分吻合,便會標記為可疑項目。
調查團隊發現的虛構引用類型相當多樣化,當中包括明顯造假的例子,例如使用「John Doe」及「Jane Smith」等明顯虛構的作者名稱,並配以偽造的 arXiv 識別碼。然而更具欺騙性的個案,則是將真實作者姓名配上虛構論文標題,又或將正確標題配上錯誤的期刊名稱及偽造的 DOI 編號。最隱蔽的手法是在真實論文基礎上作細微修改,例如將作者姓名縮寫擴展為猜測的全名,或將論文標題改寫、更換出版刊物名稱,令核實工作變得極為困難。
NeurIPS 大會主辦方回應指出,2025 年已要求評審人員主動標記幻覺內容,並強調即使 1.1% 的論文因使用大型語言模型而出現引用錯誤,亦不代表論文的研究內容本身必然無效。不過批評者認為,這種回應未能正視問題嚴重性,因為在學術規範下,即使只有 1 個虛構引用亦足以構成拒稿理由。

論文投稿激增與錯誤率同步攀升
GPTZero 高級機器學習工程師 Nazar Shmatko、機器學習主管 Alex Adam 及學術寫作編輯 Paul Esau 在公司網誌撰文指出,生成式 AI 工具普及已導致「AI 垃圾內容海嘯」席捲學術界。數據顯示,NeurIPS 的論文投稿數量由 2020 年的 9,467 篇急增至 2025 年的 21,575 篇,升幅超過 220%。大會為應付投稿潮而需要大量招募評審人員,結果衍生監督不足、專業領域錯配、審查疏忽甚至欺詐等問題。
來自 Together AI、NEC Labs America、Rutgers University 及 Stanford University 的研究人員於 2025 年 12 月發表的預印本論文,專門分析 ICLR(2018 至 2025 年)、NeurIPS(2021 至 2025 年)及 TMLR(2022 至 2025 年)3 個主要機器學習學術組織的論文質素。研究發現,已發表論文包含的實質錯誤數量(例如公式錯誤、計算失誤、圖表問題等)隨時間顯著上升:NeurIPS 論文的平均錯誤數量由 2021 年的 3.8 個增加至 2025 年的 5.9 個,升幅達 55.3%;ICLR 論文由 2018 年的 4.1 個增至 2025 年的 5.2 個;TMLR 論文則由 2022/23 年的 5.0 個升至 2025 年的 5.5 個。
雖然相關性不等於因果關係,但論文錯誤率在 OpenAI 推出 ChatGPT 後大幅攀升的現象,令人難以忽視生成式 AI 工具被廣泛採用所帶來的風險。對科學家而言,不加核實地使用 AI 工具的風險不單止於聲譽受損,更可能導致其研究成果被判定為無效。
同行評審制度面臨系統性挑戰
出版商 Frontiers 於 2025 年 5 月至 6 月對來自 111 個國家共 1,645 名活躍研究人員進行調查,結果發現超過 50% 研究人員在進行同行評審時曾使用 AI 工具。這項名為《釋放 AI 未開發潛力:研究與出版的負責任創新》的白皮書,是首個大規模研究 AI 在撰寫、評審及編輯工作流程中的採用情況、信任度、培訓及管治問題。
學術出版商協會(STM)的項目總監 Joris Van Rossum 指出,出版商正利用日益先進的自動化及 AI 技術來偵測論文工廠產品及其他類型欺詐行為的跡象,目標是在論文進入同行評審程序甚至成為已發表文獻之前便將其攔截。STM Integrity Hub 及 Clear Skies、Cactus Communications 等公司的研究誠信平台,會透過網絡分析、作者資歷核查、引用驗證及 AI 生成內容偵測等多重檢查來標記可疑論文。
然而,Retraction Watch 聯合創辦人 Adam Marcus 對此持較審慎態度。他在接受 The Register 訪問時表示,學術出版商確實意識到問題並正採取措施自我保護,但這些措施能否成功仍有待觀察。他形容學術界正處於「AI 軍備競賽」之中,防守方能否抵禦攻勢尚屬未知之數。他同時批評出版商過往採用以數量為先的商業模式,令自己變得容易受到攻擊,指出出版商絕非無辜受害者。
法律界的前車之鑑
學術界面對的 AI 幻覺問題,在法律界早已響起警號。法國巴黎 HEC 商學院研究員 Damien Charlotin 建立的「AI 幻覺案例資料庫」,至今已記錄超過 821 宗涉及生成式 AI 產生虛構內容的法律裁決,當中絕大部分涉及虛構案例引用。
2025 年 7 月,美國科羅拉多州聯邦法官 Nina Y. Wang 對代表 MyPillow 行政總裁 Mike Lindell 的兩名律師 Christopher Kachouroff 及 Jennifer DeMaster 各處以 3,000 美元(約港幣 23,400 元)罰款,因為他們使用 AI 工具準備的法庭文件中包含超過 24 處錯誤,當中包括多個根本不存在的虛構案例。法官在裁決書中指出,兩名律師未有妥善解釋這些錯誤如何發生,而引用不存在的案例是「最嚴重的問題」。
Stanford Human-Centered Artificial Intelligence(HAI)及 RegLab 的研究人員對 LexisNexis 的 Lexis+ AI 及 Thomson Reuters 的 Westlaw AI-Assisted Research 進行測試,發現即使採用了被視為可減少幻覺的檢索增強生成(RAG)技術,這些專為法律專業人士設計的 AI 工具仍會產生 17% 至 34% 的錯誤資訊,包括確認錯誤前提、引用錯誤法律見解、將草案法例當作現行法律,以及依賴已被推翻或過時的判例。
美國首席大法官 John Roberts 在 2023 年聯邦司法年度報告中亦提及 AI 工具及虛構法院案例的問題,強調生成式 AI 工具具有巨大潛力,但任何 AI 及大型語言模型的使用都必須有人類監督。
企業及研究機構的應對策略
面對 AI 幻覺問題日益嚴重,企業及研究機構必須建立有效的防範機制。根據 GPTZero、Turnitin、Scribbr 等主要 AI 偵測工具供應商的建議,以下策略值得參考。
首先,機構應將 AI 偵測工具納入標準工作流程。GPTZero 在 G2 的 2025 年排名中被評為最受信賴及可靠的 AI 工具,準確率達 99%;Turnitin 的 AI 寫作偵測器在獨立研究中亦獲得「非常高準確度」的評價。這些工具可用於在發布或提交前核查內容真確性。
其次,研究人員及專業人士應建立「人工在迴路」(human-in-the-loop)的核查制度。AI 生成的內容應被視為初稿而非最終版本,所有引用、數據及事實陳述均需由人手逐一核實。專家建議將寫作時間的 10% 至 15% 預留作引用驗證之用,以 50 個引用計算,即約需 25 分鐘。
此外,機構應制定清晰的 AI 使用政策。根據 2025 年 8 月的調查,約 83% 的高影響因子期刊及 75% 的中等影響因子期刊已建立 AI 政策,但各學科的執行力度差異甚大。STM 學科傾向實施較嚴格的限制,而社會科學及人文學科的規定則相對寬鬆。
國際科學、技術及醫學出版商協會(STM)最新報告指出,2024 年的學術通訊量已達 570 萬篇文章,較 5 年前的 390 萬篇大幅增長。報告強調,出版慣例及政策必須適應 AI 輔助及 AI 偽造研究的新現實。
未來真正重要的研究更難被識別
AI 工具確實能提升研究效率,尤其對非英語母語的研究人員而言更是如此;研究顯示,採用 AI 寫作工具的研究人員論文產出可提升多達 50%。不過另一方面,AI 產生的精美但欠缺實質價值的論文正在污染學術文獻庫,令真正重要的研究更難被識別。
預計未來數年,AI 偵測技術與 AI 生成技術之間的「軍備競賽」將持續升級。已有工具聲稱能令 AI 生成內容更難被偵測,例如一款名為「Humanizer」的 Claude Code 技能便宣稱能「移除 AI 生成寫作的痕跡,令文字聽起來更自然、更像人類撰寫」。
學術機構及企業必須認識到,AI 工具的便利性不能成為破壞知識誠信的藉口。正如 GPTZero 的 Edward Tian 所言,若 AI 研究人員自己都無法在論文中發現 AI 幻覺,問題便是系統性的。解決方案不在於禁止 AI,而在於建立嚴格核查標準,確保人類判斷仍然是把關的最後防線。
來源:GPTZero




