目前從文字生成語音的技術已經相當普及,由於應用範疇的廣泛,不少科技公司仍然努力開發新的技術,帶來更自然流暢的效果。最近 Microsoft 就開發出一個只需要少量訓練就可以運作的人工智能語音技術。
目前的文字生成語音技術需要大量的資源作訓練和調整,才可以達到自然的效果,不過 Microsoft 最近開發出的人工智能技術,就可以用 200 個聲音標本,也就是約 20 分鐘的錄音,來自動生成像真度高的語音,比傳統的技術節省不少時間。技術採用深度神經網絡技術,直接將輸入的文字連接到聲音庫,令生成語音更有效率,即使是比較複雜的文字也可以高速生成。
據研究人員指,雖然現時技術所生成的語音仍然未有完美的流暢度,但其可讀性已經達到 99.84%,意味着在絕大多數情況下,語音都可以被正確理解。新技術將會令文字生成語音的技術門檻大幅降低,就算是中小型公司,都可以簡單地製作自己的語音系統,無需投入大量資源。不過目前 Microsoft 仍然未推出使用這技術的相關產品,距離正式推出相信仍有一段時間。
來源:Venture Beat