OpenAI 高層聲稱 GPT-5 解決了 10 個未解決的數學問題,但又數學家隨即揭穿這項聲稱,事實證明該模型只是找到了現有的學術文獻。競爭對手 Meta 和 Google DeepMind 的領導人公開嘲諷這項錯誤聲明,OpenAI 因此面對嚴重的信譽問題,也反映出人工智能行業過度宣傳的危機。
OpenAI 高層發布不實聲明隨即刪文
OpenAI 副總裁 Kevin Weil 於 10 月 18 日在社交媒體發文,聲稱 GPT-5 找到了 10 個「先前未解決的 Erdős 問題」的解決方案,並在另外 11 個問題上取得進展。Erdős 問題是由匈牙利數學家 Paul Erdős 提出的著名數學猜想。Weil 形容這些問題「數十年來一直未解決」,這種表述令人相信 GPT-5 獨立產生了困難數論問題的數學證明。OpenAI 研究員 Sebastien Bubeck 也跟隨發文,表示「透過 AI 加速科學研究正式開始」。
然而數學家 Thomas Bloom 迅速指出這些聲稱「完全是錯誤的理解」。Bloom 負責維護 erdosproblems.com 網站,他解釋網站上列為「open」(未解決) 的問題,只是代表「我個人不知道有論文解決了這個問題」,而不是數學界認為這是活躍的研究前沿。Bloom 澄清,GPT-5 找到的是已發表的學術文獻中解決這些問題的論文,只是他個人尚未發現這些文獻而已。
競爭對手嚴厲批評 OpenAI 陷入尷尬境地
Google DeepMind 行政總裁 Demis Hassabis 對這個事件的回應極為直接,他在社交媒體上評論「這令人尷尬」。Meta 首席人工智能科學家 Yann LeCun 更以尖銳的方式批評,他使用了「Hoisted by their own GPTards」這個雙關語,意指 OpenAI 被自己的宣傳所困。這句話是改編自「hoisted by your own petard」這個成語,意思是被自己的計謀所害。
Bubeck 在面對批評後刪除了原有的發文,並承認「只是找到了文獻中的解決方案,僅此而已」。他嘗試辯護說「我知道搜尋文獻有多困難」,試圖將這視為一項成就。不過這個辯護並未獲得業界認同,批評者指出精密的文獻搜尋功能遠遠不是 OpenAI 一直承諾的下一代模型突破性能力。Weil 的發文也已被刪除,但這個事件已在人工智能社群引起熱議。
數學家觀點:AI 應作為輔助工具而非突破創造者
著名數學家 Terence Tao 對於 AI 在數學研究中的角色有清晰的看法。他認為當前的 AI 模型最直接的潛力在於加速繁瑣的任務,例如文獻搜尋,而不是解決最困難的未解問題。Tao 指出,GPT-5 這類工具在追蹤相關學術論文方面確實有價值,尤其是對於術語不一致或文獻分散的問題領域。
賓夕法尼亞大學沃頓商學院 AI 教授 Ethan Mollick 也強調了當前 AI 系統的局限性。他指出 GPT-5 的自動路由系統存在問題,用戶有時會獲得最佳的 AI 模型,有時則會獲得最差的模型,甚至可能在同一對話中切換。OpenAI 行政總裁 Sam Altman 也承認路由系統曾經故障,「自動切換器故障了整整一天,令 GPT-5 看起來愚蠢得多」。
Terence Tao 在與 Renaissance Philanthropy 的對話中表示,AI 工具已經幫助他進行簡單的程式碼計算,這些計算他以前不會做。他認為 AI 可以實現一定程度的實驗數學,但這仍然只是當前數學活動的極小部分。Tao 強調,數學正進入規模化時代,可以眾包大型研究項目,但目前這類規模化項目的實際案例太少,很難預測會發生什麼。
企業應用:AI 作為研究助手的實際價值
對於商業機構而言,這個事件提供了重要的啟示。GPT-5 在文獻搜尋和資料整合方面確實展現了實用價值,但企業不應期望 AI 能夠獨立產生突破性的創新。根據 Microsoft Azure 的公佈,GPT-5 在企業工作流程中的最大優勢體現在研究和知識工作領域,能夠加速財務和法律分析、市場情報和盡職調查,大規模閱讀並產生可追溯的決策就緒輸出。
Box 行政總裁 Aaron Levie 表示,他的團隊在複雜的現實業務數據上測試 GPT-5 數週,包括數百頁的租賃協議和產品路線圖,發現該模型在之前 AI 系統失敗的問題上表現出色。他強調,對於在後台執行任務的企業用途,這些階梯式改進至關重要,GPT-5 可能成為工作自動化的真正突破。
然而企業必須謹慎評估 AI 能力聲稱的真實性。根據 RAND Corporation 報告,80% 的 AI 專案失敗,失敗率是其他 IT 專案的兩倍。Gartner 的技術成熟度曲線報告也顯示,生成式 AI 目前正進入幻滅低谷階段。麥肯錫預測 AI 到 2030 年可能自動化科技領域高達 45% 的工作活動,但這需要企業實際將 AI 整合到可靠的工作流程中,而不是僅僅依賴市場宣傳。
企業領導者應該專注於 AI 的實際應用場景,例如使用 AI 進行法律文件審查、財務數據分析或市場研究的文獻綜述。這些應用不需要 AI 展現突破性的創新能力,而是利用其大規模處理和搜尋能力來提升效率。OpenAI 的企業客戶報告顯示,GPT-5 API 使用量自推出以來大幅增長,處理的程式碼和代理建構工作增加了一倍以上,推理使用案例增長了八倍以上。
AI 行業面臨誠信挑戰 宣傳與現實的鴻溝擴大
這次事件反映了 AI 行業更廣泛的模式,即公司急於宣布聽起來比實際更令人印象深刻的能力。在一個已經充滿宣傳、涉及數十億美元的領域,為什麼領先的 AI 研究人員會在未驗證事實的情況下分享如此戲劇性的聲稱?業界觀察家指出,OpenAI 正處於壓力之下,需要證明其在 AI 競賽中的領先地位,尤其是面對 Anthropic 在企業市場的領先優勢。
根據世界經濟論壇的研究,98% 的全球組織在過去一年感受到圍繞 AI 的緊迫性增加,85% 的組織表示如果在 18 個月內未能部署 AI 策略,將會看到負面的業務影響。然而 Cisco 2024 年 AI 準備度指數顯示,近半數公司表示 AI 實施未能達到預期,全球只有 13% 的公司準備好充分利用 AI 和 AI 驅動的技術。
Autodesk 2025 年設計與製造狀況報告顯示,對 AI 的情緒較去年顯著下降,只有 69% 的商業領袖表示 AI 將增強其行業,較 2024 年下降 12%。對 AI 造成行業破壞的擔憂也是主要關注點,近半數領袖現在同意 AI 將破壞其行業的穩定。這個全球情緒下降標誌著 AI 正在遵循經典的技術宣傳週期,領導者面對實施的現實、持續的技術技能短缺以及當前技術的局限性。
未來趨勢:從宣傳到務實應用的轉變
未來 AI 行業可能會經歷從宣傳驅動到價值驅動的轉變,Gartner 2025 年 AI 技術成熟度曲線顯示,AI 就緒數據和 AI 代理是今年移動最大的兩個技術,都位於誇大期望的高峰。要擴展 AI,領導者必須演進數據管理實踐和能力,確保 AI 就緒數據能夠滿足現有和即將到來的業務需求。然而 57% 的組織估計其數據尚未準備好用於 AI。
AI 代理是自主或半自主的軟件實體,使用 AI 技術來感知、決策、採取行動並在數碼或實體環境中實現目標。AI 技術的突破,例如大型語言模型的改良和工具使用能力的增強,使得 AI 代理成為可能。然而業界預期這些代理在未來 2 至 3 年內將不可避免地滑入幻滅低谷,因為公司將發現構建能夠可靠執行複雜業務任務的完全自主代理非常困難。挑戰將集中在安全性、與遺留系統的整合以及管理不可預測的行為。
Terence Tao 預測,到 2026 年,AI 將成為數學家的有用助手,成為數學研究中值得信賴的合作夥伴。他認為未來的數學家不會打字輸入證明,而是向某個 GPT 解釋證明。GPT 會在過程中嘗試在 Lean 中形式化證明。如果一切檢查無誤,GPT 會說「這是你的 LaTeX 論文;這是你的 Lean 證明。如果你願意,我可以按下這個按鈕為你提交到期刊」。
對於企業而言,關鍵在於建立對 AI 能力的現實預期。AI 不會在一夜之間革新所有行業,正如哈佛商業評論所指出的,AI 轉型將按照企業時間進行:更長、更慢,並且比大多數人預期的摩擦要多得多,遠比矽谷所宣傳的要慢。企業應該專注於 AI 可以立即提供價值的具體應用,例如自動化重複性任務、增強數據分析能力或改善客戶服務效率。
這次 OpenAI 的失誤也突顯了 AI 行業需要更嚴格的標準和更透明的溝通。當研究人員維護權威問題資料庫時公開糾正你的聲稱,這發出了一個明確的訊號,即你的公告背後的科學嚴謹性存在問題。對於整個行業而言,這是一個警示,提醒所有參與者在宣傳 AI 能力時需要更加謹慎和負責任。
商業領袖應該將這個事件視為一個機會,重新評估其 AI 策略。與其追逐最新的宣傳,不如專注於建立堅實的 AI 基礎設施,培養內部 AI 專業知識,並建立評估 AI 工具實際價值的框架。這包括投資於數據品質、建立跨職能團隊來監督 AI 專案,以及制定明確的成功指標來衡量 AI 投資的回報。只有透過這種務實的方法,企業才能真正從 AI 技術中獲益,而不是成為宣傳週期的受害者。
來源:TechCrunch