研究發現 GPT-4 訓練內容偏重科幻小說或影響其表現

大型語言模型訓練所使用的龐大數據集之中包括不同的來源，OpenAI 目前沒有公開內容來源，但有學者就分析其內容，發現當中包含不少著名小說內容，以科幻和奇幻小說為主。

加州大學柏克萊分校的學者發表了一份論文，研究 ChatGPT/GPT-4 之中包含的書本內容。研究指出，OpenAI 的模型訓練過程之中，包含了大量的版權內容，其收錄的標準視乎內容段落在網上出現的頻率。其中著名小說作品包括《Harry Potter》、《Lord of the Rings》、《Hunger Games》、《Hitchhiker’s Guide to the Galaxy》、《1984》和《Game of Thrones》等都有收錄在內。

學者強調，他們並非嘗試完全解開 GPT-4 訓練數據集的謎團，這些書本也並非完整被收錄在模型之中，他們希望研究的是到底這些書本的內容與模型的表現是否會有關聯。研究發現，GPT-4 訓練之中包含的小說大多都是科幻和奇幻類型，而其他類型的作品則相對少，例如國際英語作品和黑人作品等就不多。

報告認為，模型訓練偏重於科幻和奇幻小說，對其敘事和表現方式帶來的影響值得思考，而確保訓練模型的過程中使用什麼數據透明公開很重要，因此開源模型會是個更好的做法，希望這個研究可以協助提升收集數據作訓練時的負責任標準。另一個值得注意的問題是，當更多受版權保護內容被收錄在大型語言模型中，負責開發的科技企業未來將遇到更多版權上的法律挑戰，到底訓練模型是否屬於「公平使用」，就留待法院判定了。

來源：The Register

Next Read: 繼 SVB 之後另一對初創友善的銀行 First Republic Bank 倒閉 »