Meta 公佈音樂和音效生成 AI 框架 AudioCraft

人工智能 by Antony Shum on 3 八月, 2023

生成式 AI 模型之中，文字生成模型固然最受矚目，不過圖像生成亦相當受歡迎。Meta 最近更發表音樂和音效生成模型，將生成式 AI 的應用範疇繼續擴充。

Meta 最近開源發佈的 AudioCraft 框架，可以讓用家輸入簡單的文字描述或提示，生成「高質素」和「逼真」的音樂或音效。他們在 6 月開源發表了 AI 音樂生成模型 MusicGen，今次 AudioCraft 則再進一步擴充生成範疇。Meta 表示，這個框架的設計目的，是要簡化音效生成模型的用法，同一個模型可以提供一系列音效和音樂生成器以及壓縮算法，可用於建立和編碼歌曲和音效，而無需在不同的代碼庫之間切換。

AudioCraft 之內有三種 AI 生成模型，MusicGen、AudioGen 和 EnCodec。其中 MusicGen 就是之前發表過的音樂生成模型，除了 Meta 提供的預訓練模型外，用家也可以使用訓練代碼用自己的音樂數據集來訓練。而 AudioGen 則可以生成音效或環境聲音，採用與 Stable Diffusion 類似的擴散設計，據稱可以生成相當像真和複雜的環境聲音甚至真人語音。EnCodec 方面則是有損神經編解碼器，用於壓縮各種類型的音效。

這種新的技術開源後，不少人都擔心會帶來版權問題（利用現有受版權音樂訓練並生成新音樂），以及偽造新聞的問題，而 Meta 表示他們的預訓練版本使用了自家音樂和特別授權的音樂來訓練，亦刪除了人聲，不過如果用戶自己訓練甚至用作商業用途，則不對此負責。

來源：TechCrunch