Meta 公佈音樂和音效生成 AI 框架 AudioCraft

生成式 AI 模型之中,文字生成模型固然最受矚目,不過圖像生成亦相當受歡迎。Meta 最近更發表音樂和音效生成模型,將生成式 AI 的應用範疇繼續擴充。

Meta 最近開源發佈的 AudioCraft 框架,可以讓用家輸入簡單的文字描述或提示,生成「高質素」和「逼真」的音樂或音效。他們在 6 月開源發表了 AI 音樂生成模型 MusicGen,今次 AudioCraft 則再進一步擴充生成範疇。Meta 表示,這個框架的設計目的,是要簡化音效生成模型的用法,同一個模型可以提供一系列音效和音樂生成器以及壓縮算法,可用於建立和編碼歌曲和音效,而無需在不同的代碼庫之間切換。

AudioCraft 之內有三種 AI 生成模型,MusicGen、AudioGen 和 EnCodec。其中 MusicGen 就是之前發表過的音樂生成模型,除了 Meta 提供的預訓練模型外,用家也可以使用訓練代碼用自己的音樂數據集來訓練。而 AudioGen 則可以生成音效或環境聲音,採用與 Stable Diffusion 類似的擴散設計,據稱可以生成相當像真和複雜的環境聲音甚至真人語音。EnCodec 方面則是有損神經編解碼器,用於壓縮各種類型的音效。

這種新的技術開源後,不少人都擔心會帶來版權問題(利用現有受版權音樂訓練並生成新音樂),以及偽造新聞的問題,而 Meta 表示他們的預訓練版本使用了自家音樂和特別授權的音樂來訓練,亦刪除了人聲,不過如果用戶自己訓練甚至用作商業用途,則不對此負責。

來源:TechCrunch