研究發現 GPT-4 訓練內容偏重科幻小說或影響其表現

大型語言模型訓練所使用的龐大數據集之中包括不同的來源,OpenAI 目前沒有公開內容來源,但有學者就分析其內容,發現當中包含不少著名小說內容,以科幻和奇幻小說為主。

加州大學柏克萊分校的學者發表了一份論文,研究 ChatGPT/GPT-4 之中包含的書本內容。研究指出,OpenAI 的模型訓練過程之中,包含了大量的版權內容,其收錄的標準視乎內容段落在網上出現的頻率。其中著名小說作品包括《Harry Potter》、《Lord of the Rings》、《Hunger Games》、《Hitchhiker’s Guide to the Galaxy》、《1984》和《Game of Thrones》等都有收錄在內。

學者強調,他們並非嘗試完全解開 GPT-4 訓練數據集的謎團,這些書本也並非完整被收錄在模型之中,他們希望研究的是到底這些書本的內容與模型的表現是否會有關聯。研究發現,GPT-4 訓練之中包含的小說大多都是科幻和奇幻類型,而其他類型的作品則相對少,例如國際英語作品和黑人作品等就不多。

報告認為,模型訓練偏重於科幻和奇幻小說,對其敘事和表現方式帶來的影響值得思考,而確保訓練模型的過程中使用什麼數據透明公開很重要,因此開源模型會是個更好的做法,希望這個研究可以協助提升收集數據作訓練時的負責任標準。另一個值得注意的問題是,當更多受版權保護內容被收錄在大型語言模型中,負責開發的科技企業未來將遇到更多版權上的法律挑戰,到底訓練模型是否屬於「公平使用」,就留待法院判定了。

來源:The Register