為了解決機器翻譯的理解障礙，Google 要讓機器在句子中找線索

機器學習（Machine learning）已經證明是很有用的翻譯工具，但在人們使用語言的變化多元情況下，傾向逐字逐句翻譯的機器仍可能出現嚴重錯誤，Google 負責研究的部門近日發文解釋了這個問題，以及他們找到的解決方案。

Google 自然語言處理部門（NLU）的 Jakob Uszkoreit 表示，目前語言理解任務主要都是透過神經網路進行，其中又以遞歸神經網路（RNNs）為主要核心，像是建立語言模型、機器翻譯和問答都是基於此在發展。

但是在語言理解上，機器往往會面臨一些語意的理解問題，像是「bank」同時有銀行、河岸等多種意思，在不同的文法句子中，人們很快就能依據前後文推斷出代表的意義，但逐字翻譯的演算法很有可能犯錯，因為它無法確定哪個意思才是正確的。

這種錯誤經常在機器翻譯出現，但如果只為了句子的語義問題就反覆修改神經網路，實在不太有效率，因此 Google 團隊在進行研究後，直接推出一套搭載解決方案的新型翻譯系統「Transformer」。

在 Transformer 系統中有設定所謂的「關注機制」（Attention Mechanism），在這個機制設定下，系統會將句子中每個單詞配對比較，來查看其中是否存在任何一個單詞，會以某種關鍵方式產生相互影響，進而理解是「他」還是「她」在說話，又或者「bank」代表河岸還是銀行。

有趣的是，在關注機制之下，人們得以一窺翻譯系統的思考邏輯：在 Google 團隊的設定中，Transformer 系統會針對每個「單詞」與「單詞」間的相關性給予評分，因此你可以看到哪些它認為是相關的，哪些又認為是無關緊要。

在 Google 團隊的測試中，Transformer 系統不論在「英文→德文」或是「英文→法文」的翻譯中，在 BLEU 評價都勝過應用 RNN 和卷積神經網絡（CNN）的翻譯系統。

其實不僅 Google，翻譯公司 DeepL 也正在開發類似的關注機制，聯合創始人 Gereon Frahling 甚至認為，他們的版本將比 Google 的系統更好。

只是在翻譯上，機器可能還有很多需要學習，畢竟語言總是有一些意義不明確的詞，像是英文的它（it），可以是街道、動物或許多事物，人的大腦會自動分辨並理解，但機器就還是需要「補習」了。

（本文由 TechNews 授權轉載）