用來訓練大型語言模型所需的數據量相當龐大,而早前有人爆料指,Google 的 Bard 對話機械人是使用客戶 Gmail 私人郵件內容訓練,Google 對此就作否認。
早前有 AI 研究員向 Bard 詢問其訓練資料是來自哪裏,其答覆竟然說是來自 Gmail 的內部數據。而之前因為認為大型語言模型 LaMDA 擁有知覺的最後被解僱的前 Google 員工 Blake Lamoine 更表示他們之前確實有這樣做,利用 Gmail 的客戶郵件內容訓練 AI。
The LaMDA engine underlying Bard is also what drives autocomplete and autoreply in Gmail so … yeah Bard's training data includes Gmail. FWIW, they put a lot of effort into ensuring that LaMDA doesn't use give personal information about individuals in its responses.
— Blake Lemoine (@cajundiscordian) March 21, 2023
不過 Google 對此矢口否認。他們回應 The Register 的查詢時表示,像所有大型語言模型一樣,Bard 有時也會產生包含不準確或誤導的回覆,而且會自信地表示出來,這也是今次出現的情況。Google 強調,他們不會使用來自客戶 Gmail 或其他私人應用程式和服務的個人數據來訓練和改善 Bard。
目前 Bard 已經開放了英美地區測試,而至今仍未出現像 Bing 一樣瘋狂的表現,但仍然會出現提供錯誤資訊的問題,需要未來逐步解決。
來源:The Register