Facebook 聲音辨識系統已支援 51 種語言

聲音辨識系統與圖像辨識一樣，都是近年人工智能系統的重點發展項目。其中 Facebook 就表示，他們已經開發出全球最大型的同類自動語音辨識模型，可以支援 51 種不同的語言，而且辨識效能有所提升。

Facebook 的聯合序列到序列（Seq2Seq）模型在所有語言之間共享編碼、解碼和標記的參數，簡化了對多種語言的工作過程。研究人員將 51 種語言分為不同的組別，各自都有不同的解碼器，然後用 10,000 個「子詞語」單元作為每個語言組別的 token 集。之後會將一些較小的語言組別手動組合在一起，直到最後總共有 6 個語言組別，這樣可以防止語言組別的規模因其包含的語言數量而過度傾斜。

研究報告指，在幾次實驗中，他們的最佳模型對高資源語言的 WER（文字錯誤率）平均提高了 9.1%，對中度資源語言提高了 12.44 %，對低資源語言提高了 28.76%。而這個系統對應之前未有支援的低資源語言也表現良好，包括繁體中文、波斯語和泰盧固語等。

Facebook 研究人員表示，這是首個如此大規模地研究多語言系統的計劃，為 51 種不同的語言訓練一個大規模的單一 ASR 架構，而結果發現，與 51 種不同的單語言基線相比，它要改善表現時，要用的時間將會大幅減少。

來源：Venture Beat

Facebook 聲音辨識系統已支援 51 種語言

科技同行 (十九) ：如何釋放數據價值

施耐德推出開放式 API 系統簡化邊緣管理

Facebook 聲音辨識系統已支援 51 種語言

you might also like

Pew Research Center 報告證實 Facebook 掌握最高決策權客群 58% 購買力轉換第一名

路透社：Meta 年賺 520 億元詐騙廣告收入 內部文件揭每日曝光 150 億次風險廣告

市調：TikTok 美國用戶規模首超 Facebook 長達數年的收購協議即將落實

Facebook Pay 改名為 Meta Pay 希望成為元宇宙電子錢包

Meta 股票代號終於成功更改 FB 代號告一段落

路透社：Meta 年賺 520 億元詐騙廣告收入　內部文件揭每日曝光 150 億次風險廣告

Meta 股票代號終於成功更改　FB 代號告一段落