close
企業趨勢

為了解決機器翻譯的理解障礙,Google 要讓機器在句子中找線索

機器學習(Machine learning)已經證明是很有用的翻譯工具,但在人們使用語言的變化多元情況下,傾向逐字逐句翻譯的機器仍可能出現嚴重錯誤,Google 負責研究的部門近日發文解釋了這個問題,以及他們找到的解決方案。

 

Google 自然語言處理部門(NLU)的 Jakob Uszkoreit 表示,目前語言理解任務主要都是透過神經網路進行,其中又以遞歸神經網路(RNNs)為主要核心,像是建立語言模型、機器翻譯和問答都是基於此在發展。

但是在語言理解上,機器往往會面臨一些語意的理解問題,像是「bank」同時有銀行、河岸等多種意思,在不同的文法句子中,人們很快就能依據前後文推斷出代表的意義,但逐字翻譯的演算法很有可能犯錯,因為它無法確定哪個意思才是正確的。

這種錯誤經常在機器翻譯出現,但如果只為了句子的語義問題就反覆修改神經網路,實在不太有效率,因此 Google 團隊在進行研究後,直接推出一套搭載解決方案的新型翻譯系統「Transformer」。

在 Transformer 系統中有設定所謂的「關注機制」(Attention Mechanism),在這個機制設定下,系統會將句子中每個單詞配對比較,來查看其中是否存在任何一個單詞,會以某種關鍵方式產生相互影響,進而理解是「他」還是「她」在說話,又或者「bank」代表河岸還是銀行。

有趣的是,在關注機制之下,人們得以一窺翻譯系統的思考邏輯:在 Google 團隊的設定中,Transformer 系統會針對每個「單詞」與「單詞」間的相關性給予評分,因此你可以看到哪些它認為是相關的,哪些又認為是無關緊要。

在 Google 團隊的測試中,Transformer 系統不論在「英文→德文」或是「英文→法文」的翻譯中,在 BLEU 評價都勝過應用 RNN 和卷積神經網絡(CNN)的翻譯系統。

其實不僅 Google,翻譯公司 DeepL 也正在開發類似的關注機制,聯合創始人 Gereon Frahling 甚至認為,他們的版本將比 Google 的系統更好。

只是在翻譯上,機器可能還有很多需要學習,畢竟語言總是有一些意義不明確的詞,像是英文的它(it),可以是街道、動物或許多事物,人的大腦會自動分辨並理解,但機器就還是需要「補習」了。

(本文由 TechNews 授權轉載)

 

Tags : google
Technews

The author Technews

科技新報 (TechNews)於 2013 年下半年成立,是一群對資訊科技、能源、半導體、行動運算、網際網路、醫療、生物科技具有高度熱忱與興趣的產業與新媒體人士所共同組成的時代新媒體,以產出有觀點與特色的原創文章為主要任務。