AI 驅動機器翻譯更進一步,像 Star Trek 裡的通用翻譯器不再是夢想

35

不少人要瞭解外文文章,常常倚賴 Google 翻譯等機器翻譯服務。但如果要查閱的語言不是主流語言,沒有大量的訓練材料,現行的機器翻譯就抓不太到大致的意思。如今兩篇新論文可能是小語言的救星,不必靠大量有雙語作品存在的文本訓練,也不需要人工監督,不用兩種語言對譯的文本,AI 就可以學會對譯兩種語言。

科幻作品如 Star Trek 的通用翻譯器,成為消弭不同種族溝通障礙的利器。兩個研究團隊-西班牙巴斯克大學,以及美國卡內基美隆大學,提出的論文不用兩種語言都有平行的字詞庫,甚至只有單一語言也行。因為語言裡的字詞用類似的方式組成群組,像是桌子和椅子,透過非監督式的機器學習,AI 猜出在另一種語言的對應字詞。再用猜出的結果,分析句子的結構。最後翻譯到其他語言,再翻譯回去,AI 評估機器翻譯的結果,學會語言的結構。

不少人運用的 Google 翻譯,則可以服務 103 種語言之間的對譯,包括世界十大語言如中文、西班牙文、印地語、孟加拉語等。Google 運用有平行字詞庫的語言,包括有大量翻譯文本存在的語言,用監督式學習讓 AI 學習兩種語言之間如何翻譯轉換。儘管 Google 翻譯有時候會出現相當好笑的結果,經過大量訓練時間以及文本,往往翻譯效果會越來越好。但不是每一種語言都有足夠的文本能夠運用。學者找出用單一語言庫,甚至用非監督式學習就能得到不錯的成果,是機器翻譯領域相當大的突破。

研究團隊成員的巴思克大學 Mikel Artetxe 說:「想像一下給一個人很多本中文書以及很多本阿拉伯文書,沒有一本是講重覆的內容,兩這個人得學會如何從中文翻譯成阿拉波文。上述的說法看來不可能,對不對?但我們用電腦做到了!」

機器翻譯的權威,微軟的 AI 專家 Di He 的研究影響了上述兩篇論文,則評論說:「很訝異電腦能在不需要人類監督的狀況下完成翻譯工作。」

兩篇論文將投稿給 International Conference on Learning Representations 大會,並且已經被接受,不過仍得等待經過同儕審查的程序,在正式發表的時候論文的內容可能有些微的調整。

兩篇論文的研究者都指出,他們的方法仍在初期階段,翻譯的正確率仍達不到 Google 的水準,還不知道最後會走到什麼程度。加上彼此的方法能增進翻譯的效果。

(首圖來源:shutterstock)