Google 翻譯愈來愈聰明，錯誤建議騙不到它

7 年前

Google 台灣董事總經理簡立峰說，Google 翻譯比以前好用太多了！就算有人惡作劇，刻意在「提出修改建議」欄位寫下錯的翻譯，也不會影響系統的運作。

簡立峰解釋，Google 翻譯有學習及資料庫的功能，不斷累積經驗，錯誤也是一種經驗，除非幾乎所的人都在「修改建議」欄寫下一模一樣的錯誤，才會積非成是，但事實上這種情況並不可能發生。

他認為，雖然簡體中文、繁體中文有些相同的字詞有著不同的意義，或相同的字已衍生出新的意義，但因簡體、繁體中文語法相同，在機器翻譯上仍採用一套系統，可視為專有名詞，透過學習建立資料庫來校正。

其實不只簡體中文、繁體中文的語法相同，他透露，日文、韓文在機器翻譯上也可算是語法相同，用同一套系統。

他指出，機器學習是很重要的議題，大家在討論 Google 翻譯的學習功能之際，也會聯想到人工電腦 AlphaGo 打敗真人世界棋王。現在也有人提出讓 AlphaGo 打 AlphaGo，學習能力可以更快的說法，就像是金庸小說「華山論劍」裡全真派的周伯通，用自己的左手和右手對打，使出的「左右互搏」。

Google 翻譯的發展進程快速，10 年前，Google 推出翻譯服務，並以片語式機器翻譯（Phrase-Based Machine Translation）做為主要運算方式。從過去僅支援幾種語言，到現在可支援 103 種語言，且每天翻譯超過 1,400 億個單詞，Google 翻譯的品質有了很大的進展。

數年前，Google 採用遞歸神經網絡（Recurrent Neural Networks）將句子視為一個單位進行翻譯，之後的片語式機器翻譯方式（PBMT），則是將句子切割成單獨的字和詞組做獨立翻譯。

過去，為翻譯任意兩種語言，Google 需要建構多個不同的翻譯系統，運算成本相當可觀。相較於過去的片語機器學習（PBMT），神經機器翻譯（NMT）僅需要較少的系統架構設計。剛開始推出神經機器翻譯時，這兩種翻譯方式的精準度不相上下。

為改善 NMT 翻譯品質，研究人員提出許多技術來解決，這當中包括透過模擬調校模型（external alignment model）處理罕見字詞、使用「注意」（attention）來對準輸入詞和輸出詞，以及將詞拆解成更小的單元以應對罕見字詞等。

Google 神經機器翻譯（GNMT）將中文句子翻譯成英文句子的過程，透過編碼器（Encoder），首先，GNMT 將中文句子的每一個單詞進行向量（vector）編碼，而每個向量將顯示出目前為止單詞被讀取到的所有意義。

在讀取完整句子後，解碼器（Decoder）就會開始運作，一次產生一個英語句子中的一個詞。

注意功能是為了每一步都產出正確的詞，解碼器將針對編碼中文向量裡最相關的英文單詞權重分布（weighted distribution）進行解碼。

（作者：潘智義；首圖來源：shutterstock）