
為了進行 AI 大模型的訓練,AI 業界一直大規模搜刮各種數據,不過近來優質數據已經出現即將耗盡的徵兆。前 OpenAI 首席科學家 Ilya Sutskever 在 2024 年 12 月的 NeurIPS 會議上提出了一個引人深思的概念「峰值數據」(peak data),警告 AI 產業已觸及數據供給的極限。
近來有多項研究佐證了這個現象,學術研究預測公開 AI 訓練數據可能於 2026 年徹底耗盡;Data Provenance Initiative 的調查揭示,在 14,000 個網域中,25%的高品質數據來源已限制存取。英國 Alan Turing Institute 的 Andrew Duncan 更明確警告,數據短缺將成為 AI 發展的最大樽頸。
在數據枯竭的壓力下,科技巨頭紛紛採取行動。NVIDIA 近日以據傳高達九位數美元的金額收購了專門開發生成合成 AI 訓練數據的新創公司 Gretel,遠超後者最近一次 3.2 億美元的估值。
未經授權的數據抓取引發反制措施
數據短缺同時引起 AI 爬蟲(Scraping)活動的激增。網路服務供應商 Cloudflare 最近發現,在其監測的所有網路請求中,已有近 1%來自 AI 爬蟲機械人,目的是大規模抓取網站內容用於訓練 AI 模型。
這種未經授權的數據抓取引發了廣泛爭議。儘管網站經營者可以透過 robots.txt 檔案、修改伺服器設定或 CAPTCHA 等措施阻止爬蟲,但實際上,這些防禦機制常被忽略或繞過。結果導致大量不必要的爬蟲流量消耗系統資源,同時未經創作者許可的內容被用於 AI 訓練,這做法目前正面臨侵犯版權的法律挑戰。
Cloudflare 有見及此推出了「AI 迷宮」(AI Labyrinth)防禦機制。不同於傳統的封鎖策略,AI 迷宮允許爬蟲機械人進入,但隨後使用生成式 AI 為它們提供看似真實但無實際價值的內容。Cloudflare 團隊解釋:「當我們檢測到未經授權的爬取活動時,我們連結到一系列 AI 生成的頁面,這些頁面足夠逼真以誘使爬蟲深入它們。」
這種方法既浪費了爬蟲的時間和資源,同時提供了識別機械人的新機制:「沒有真正的人類會深入四層 AI 生成的無意義內容,」Cloudflare 的專家指出,「任何這樣做的訪客幾乎可確定是機械人。」這為網站提供了一種全新的機械人識別和防禦工具。
合成數據成趨勢
面對數據短缺和爬蟲爭議,科技巨頭正轉向合成數據尋求出路。Gartner 報告估計,2024 年已有 60%的 AI 與分析數據來自合成數據生成。Microsoft 的 Phi-4、Google 的 Gemma、Anthropic 的 Claude 3.5 Sonnet 及 Meta 的 Llama 系列等頂尖 AI 模型均已結合合成數據進行訓練。
合成數據吸引人的理由不難理解。首先是成本效益顯著。AI 新創公司 Writer 宣稱,其主要使用合成數據訓練的 Palmyra X 004 模型開發成本僅為 70 萬美元,相比之下,類似規模的 OpenAI 模型估計成本高達 460 萬美元,差距近 7 倍。
其次,合成數據能有效規避私隱風險,符合歐盟 GDPR 與美國 CCPA 等嚴格法規要求。在醫療與金融等敏感領域,合成數據提供了兼顧 AI 發展和私隱保護的平衡方案。此外,合成數據還能生成多樣化數據集,涵蓋真實數據難以捕捉的特殊案例,增強模型的泛化能力。
然而,合成數據也面臨嚴峻挑戰。最受關注的風險是「模型崩潰」(model collapse)現象——模型反覆使用合成數據訓練後,逐漸喪失對真實世界的表達能力,性能出現退化。這種「閉環效應」可能導致模型過度擬合特定模式而忽視真實世界的多樣性。
更令人擔憂的是偏見放大問題。若原始數據存在偏差,合成數據可能進一步加劇這些偏見,影響模型決策的公平性。Elon Musk 也指出,合成數據使用不當可能增加 AI「幻覺」(hallucinations)風險,生成不準確或無關的內容,降低系統可靠性。
未來 AI 需改變數據收集模式
面對數據耗盡的挑戰,Ilya Sutskever 提出了幾個關鍵方向,其中包括提升 AI 的自主推理能力,開發能在有限數據下有效學習的「代理型 AI」(agentic AI),減少對海量訓練數據的依賴。其次是增加推理階段的計算資源投入,讓模型生成回答前進行更深入的「思考」,提高輸出品質和準確性。
除此之外,產業正轉向更注重數據品質而非數量的模式,集中精力獲取高品質、精心註解的數據集,而非盲目追求數據規模。同時,與內容創作者建立更透明、公平的合作關係,確保創作者權益得到尊重,也成為可持續發展的必要條件。
而更長遠來看,產業需要在技術創新、法律合規和道德責任之間尋找平衡點。AI 公司可能需要轉向開發更高效率的學習算法,從更少的數據中獲取更多價值,同時考慮數據價值的公平分配機制。
來源:The Register