生成式 AI 近來的發展趨於「多模態」模型,同時支援不同的媒體內容,不過也有專注於生成特定種類媒體的模型陸續誕生。最近 Meta 就公佈了全新的 Audiobox 模型,可以輕鬆自動生成各種不同的聲音。
Facebook AI Research (FAIR) 實驗室最近正式公佈了 AI 聲音生成模型 Audiobox,用家可以透過語音或自然語言提供指令,生成語音或音效。透過這個模型,用家還可以複製自己的聲音特徵,使生成的語音像是自己說出來一樣。
Audiobox 裏面內藏了不同的子模型,負責不同的聲音生成應用,例如有擅長語音模仿的模型,也有負責創造環境聲音和音效的模型,這些模型透過共享的自監督學習 (Self-supervised learning, SSL) 框架統一,提供易於使用的一站式設計。Meta 方面表示,SSL 框架可以自動為沒有標記的數據生成標記,克服標記數據不足和品質有限的問題,最終以 16,000 小時的語音(主要是英文)、20,000 小時的音樂和 6,000 小時音效來訓練。
目前 Audiobox 已經提供公衆試用,不過其使用僅限於非商業目的,且在某些美國州因法律限制而無法使用。有興趣的朋友可以在以下網站自行嘗試。
來源:Meta