close
人工智能

Google 讓網站選擇是否為其 AI 模型提供訓練數據

生成式 AI 模型的興起,引發了不同方面的討論,其中對於這些模型未經許可抓取網站內容就成為爭議。Google 最近就加入新的選項,容許網站拒絕其抓取程式存取內容。

Google 一直有使用其網絡抓取 (Web Scraping) 程式來更新其搜尋引擎的內容,最近亦用來提取內容訓練其大型語言模型 Bard。這個做法引起一些媒體不滿,因為這樣就有如抄襲,令網站失去人流以及廣告收入。有見及此,Google 提供了一個選項,讓網站選擇是否允許其內容被用作訓練其 AI 模型。網站管理者只需在其 robots.txt 檔案中列明禁止 “User-Agent: Google-Extended”,即可選擇不提供其內容作為 AI 的訓練用途。

Google 信任副總裁 Danielle Romain 在博客中提到,網上出版商希望對他們的內容如何用於新興生成 AI 用例有更多的選擇和控制權,不過這種選擇基本上只是詢問網站是否願意「協助改善 Bard 和 Vertex AI 生成 API」,而不是阻止 Google 未經授權取用內容。有評論認為,Google 對互聯網內容已有無限制的存取,並在得到所需數據後才尋求許可,令其「尊重網上出版商」的姿態受到質疑。

而其他網上出版平台例如 Medium 早已開始用自己的方式阻止此類網絡抓取,不過對於防止 AI 開發者擅自抓取內容,相信仍然會是一場持久的攻防戰。

來源:TechCrunch

Tags : BardgoogleLLC
Antony Shum

The author Antony Shum