Meta 推全新聲音生成 AI 模型 Audiobox

生成式 AI 近來的發展趨於「多模態」模型，同時支援不同的媒體內容，不過也有專注於生成特定種類媒體的模型陸續誕生。最近 Meta 就公佈了全新的 Audiobox 模型，可以輕鬆自動生成各種不同的聲音。

Facebook AI Research (FAIR) 實驗室最近正式公佈了 AI 聲音生成模型 Audiobox，用家可以透過語音或自然語言提供指令，生成語音或音效。透過這個模型，用家還可以複製自己的聲音特徵，使生成的語音像是自己說出來一樣。

Audiobox 裏面內藏了不同的子模型，負責不同的聲音生成應用，例如有擅長語音模仿的模型，也有負責創造環境聲音和音效的模型，這些模型透過共享的自監督學習 (Self-supervised learning, SSL) 框架統一，提供易於使用的一站式設計。Meta 方面表示，SSL 框架可以自動為沒有標記的數據生成標記，克服標記數據不足和品質有限的問題，最終以 16,000 小時的語音（主要是英文）、20,000 小時的音樂和 6,000 小時音效來訓練。

目前 Audiobox 已經提供公衆試用，不過其使用僅限於非商業目的，且在某些美國州因法律限制而無法使用。有興趣的朋友可以在以下網站自行嘗試。

來源：Meta