大型語言模型需要使用大量數據訓練,在 AI 潮流下,為 AI 公司收集內容的爬蟲機械人激增,有報導指,情況已經惡化至全球畫廊、圖書館、檔案館和博物館(GLAMs)的網站不堪重負,部分更被迫下線,令藝術和文化數碼機構構成前所未有的威脅。
文化機構遭遇機械人海嘯
GLAM-E Lab 週二發布的報告顯示,文化機構正被 AI 機械人淹沒。這些網絡爬蟲腳本存取網站並下載數據用於訓練 AI 模型。GLAM-E Lab 是埃克塞特大學科學、文化和法律中心與紐約大學法學院恩格爾伯格創新法律與政策中心的聯合倡議。
報告基於 43 個組織的匿名調查,顯示文化機構對其內容被積極採集感到震驚。這些數據採集完全不顧對網站造成的負擔。報告指出:「機械人很普遍,雖然並非無處不在。在 43 名受訪者中,39 人最近經歷了流量增加。39 名經歷流量增加的受訪者中,27 人將其歸因於 AI 訓練數據機械人,另有 7 人認為機械人可能是流量增加的原因。」
報告表示,用於 AI 訓練的數據收集機械人激增,往往直到情況變得如此糟糕以至於令網上收藏下線時才被注意到。受訪者擔心 AI 訓練數據機械人群將創造一個成本不可持續地上升的環境,影響提供網上收藏存取。
對這些問題發表評論的機構對機械人激增開始的時間有不同看法。一些報告早在 2021 年就注意到這情況,而其他機構今年才開始注意到網絡爬蟲流量。
現有防禦措施效果有限
部分機械人會表明身份,但有些不會。無論如何,受訪者表示 robots.txt 指令(網站發布者為網絡爬蟲發布的自願行為準則)目前無法有效控制機械人群。
AWS 和 Cloudflare 等公司提供的機械人防禦似乎有所幫助,但 GLAM-E Lab 承認問題很複雜。如果機構的目標是提供對數碼資產的公共存取,將內容置於登入牆後面可能無效。而且可能有理由希望某種程度的機械人流量,例如為搜索引擎索引網站的機械人。
GLAM-E Lab 調查呼應了開放獲取儲存庫聯盟(COAR)本月早些時候發布的類似報告的發現。該報告基於 66 個由圖書館、大學和其他機構營運的開放獲取儲存庫的回應。
COAR 報告表示:「超過 90% 的調查受訪者表示他們的儲存庫遇到攻擊性機械人,通常每週不止一次,經常導致速度減慢和服務中斷。雖然無法 100% 確定這些機械人的目的,但社區的假設是它們是為生成式 AI 訓練收集數據的 AI 機械人。」
多個知名網站受影響
GLAM-E Lab 調查還讓人想起維基媒體基金會、Sourcehut、Diaspora 開發者 Dennis Schubert、維修網站 iFixit 和存檔項目 ReadTheDocs 對濫用機械人提出的投訴。
這些機構面臨的挑戰不僅是技術問題,更是資源問題。大多數文化機構缺乏資金和技術能力來應對不斷升級的機械人攻擊。它們必須在提供公共存取和保護其數碼收藏之間取得平衡。
GLAM-E 報告最終認為,AI 提供商需要開發更負責任的方式與其他網站互動。報告指出:「託管網上收藏的文化機構沒有資源持續增加更多服務器、部署更複雜的防火牆和永久僱用更多營運工程師。這意味著用機械人群淹沒它們的實體找到可持續的方式存取它們如此渴望的數據符合長期利益。」
尋求可持續解決方案
文化機構現在面臨艱難選擇,它們可以限制存取以保護其系統,但這會違背提供公共存取文化遺產的使命。或者它們可以繼續開放存取,但冒著系統崩潰和成本螺旋上升的風險。
業界需要共同努力制定標準和最佳實踐,AI 公司應該與文化機構合作,開發既能滿足訓練需求又不會壓倒源網站的數據收集方法。這可能包括建立專門的 API、設定合理的速率限制,或為數據存取提供補償。
隨著 AI 技術持續發展,對訓練數據的需求只會增加。文化機構擁有寶貴的數碼收藏,對 AI 發展至關重要。找到保護這些資源同時允許合理使用的平衡點,將決定數碼文化遺產的未來以及 AI 技術的可持續發展。
來源:glam-e lab