Google 讓網站選擇是否為其 AI 模型提供訓練數據

生成式 AI 模型的興起，引發了不同方面的討論，其中對於這些模型未經許可抓取網站內容就成為爭議。Google 最近就加入新的選項，容許網站拒絕其抓取程式存取內容。

Google 一直有使用其網絡抓取 (Web Scraping) 程式來更新其搜尋引擎的內容，最近亦用來提取內容訓練其大型語言模型 Bard。這個做法引起一些媒體不滿，因為這樣就有如抄襲，令網站失去人流以及廣告收入。有見及此，Google 提供了一個選項，讓網站選擇是否允許其內容被用作訓練其 AI 模型。網站管理者只需在其 robots.txt 檔案中列明禁止 “User-Agent: Google-Extended”，即可選擇不提供其內容作為 AI 的訓練用途。

Google 信任副總裁 Danielle Romain 在博客中提到，網上出版商希望對他們的內容如何用於新興生成 AI 用例有更多的選擇和控制權，不過這種選擇基本上只是詢問網站是否願意「協助改善 Bard 和 Vertex AI 生成 API」，而不是阻止 Google 未經授權取用內容。有評論認為，Google 對互聯網內容已有無限制的存取，並在得到所需數據後才尋求許可，令其「尊重網上出版商」的姿態受到質疑。

而其他網上出版平台例如 Medium 早已開始用自己的方式阻止此類網絡抓取，不過對於防止 AI 開發者擅自抓取內容，相信仍然會是一場持久的攻防戰。

來源：TechCrunch

Google 讓網站選擇是否為其 AI 模型提供訓練數據

SoftBank 計劃與 OpenAI 及 Jony Ive 聯手製作 AI 硬件產品

AWS 正式推出 Bedrock 生成式 AI 服務

Google 讓網站選擇是否為其 AI 模型提供訓練數據

you might also like

Google 總裁史丹福演說避談 AI 企業推動 AI 應用的社會許可正受考驗

Google AI Mode 用戶破 10 億 網絡內容生態鏈面臨重大壓力

霍爾木茲海峽變「數碼收費站」 伊朗向 Google、Microsoft、Meta 等巨頭徵收海底光纜過境費

Google 重新定義滑鼠操作 Magic Pointer 把 Gemini AI 嵌入每一次點擊

Google 開源 DESIGN.md：AI 設計標準改變企業 UI 生產方式 設計入門門檻大幅降低

Google 總裁史丹福演說避談 AI　企業推動 AI 應用的社會許可正受考驗

Google AI Mode 用戶破 10 億　網絡內容生態鏈面臨重大壓力

霍爾木茲海峽變「數碼收費站」伊朗向 Google、Microsoft、Meta 等巨頭徵收海底光纜過境費

Google 重新定義滑鼠操作　Magic Pointer 把 Gemini AI 嵌入每一次點擊

Google 開源 DESIGN.md：AI 設計標準改變企業 UI 生產方式設計入門門檻大幅降低