OpenAI：不使用版權內容不可能開發優質 AI 模型

現在快速流行的大型語言模型開創了生成式 AI 的風潮，不過背後用來訓練的數據庫卻往往未有公開，存在未經許可使用版權內容的爭議。最近 OpenAI 就表示，如果完全不使用受版權保護的內容就不可能開發優質 AI 模型。

OpenAI 最近在英國回應通訊及數碼委員會的質詢時表示，只依賴過時的公共範疇材料來訓練，將會產生劣質的 AI 模型。OpenAI 堅持，要維持其 AI 模型有效運作而言，使用受版權保護的材料來訓練是必不可少的。

雖然 OpenAI 等 AI 公司大多都未有公開訓練其大型語言模型使用了什麼內容，不過近來已經有越來越多的研究指出他們使用了不少受版權保護的內容，甚至也引發了出版商和畫家等版權持有者對這些公司提告。

面對這些指控，OpenAI 認為使用版權內容是合法行為，在版權法下屬於合理使用的範疇。不過是否真的一如他們所宣稱的合法使用，則仍然有待法庭判斷。而且一旦被視為侵權，AI 模型的使用者都可能背上共同侵權的法律責任，影響深遠。