Mozilla 有一個名爲「Common Voice」的開源語音辨識平台,透過眾包方式收集志願者提供的語音數據,然後讓開發者用於製作語音辨識產品,減低相關的技術門檻。最近他們推出了最新的版本,提供更實用的應用方式。
今次 Mozilla 推出的最新版本 Common Voice,集合了共 54 個語言的超過 7,226 小時的語音數據,除了錄音之外更有相關的元數據,包括說話者的性別、口音、年齡等,對於訓練語音辨識引擎相當實用。而新版本更首次有為特定應用場景而設的目標語音段,例如數字 0-9,「是」、「否」等命令,更明確應對語音控制功能的開發。這也將會用於開發 Firefox 的「Hey Firefox」語音控制功能,讓用家可以直接透過語音瀏覽網頁。
負責計劃的 Megan Branson 表示,這些細分數據將幫助 Mozilla 用多種語言對開源語音識別引擎 DeepSpeech 的準確性進行基準測試,並將獲得有關如何繼續改進數據集的更詳細的資料。借助全球各地的貢獻,社群正在幫助實現目標,以建立一個任何人都可以公開使用並代表我們生活的世界的語音數據集。
來源:Venture Beat