微軟：我的人工語音辨識技術媲美人類水準，未來將用在 Cortana 上

由

2019-06-13

微軟研究人員在期刊上發表新的語音辨識技術，號稱能達到人類部分的辨識能力，在測試環境下，有人類的辨識水準。

微軟這套新的語言辨識系統採用神經語言技術串連類似的文字，能夠有效組織化。這套新系統的文字錯誤率是 5.9%，相當於一般人類的水準。

Perspective Box 透視箱

微軟首席語音科學家 Xuedong Huang 說：「我們達成人類部分的辨識能力了，這可是歷史性的成就。」

這項成就意味著語音辨識系統能像人類一樣「聽懂」人類的對話。微軟打算運用這套技術到他們的語音助理 Cortana 上面，以及語音辨識軟體。

微軟人工智慧和研究團隊的執行副總裁 Harry Shum 說：「即便是 5 年前，我還很難想像我們能達成這項成就。我甚至覺得這不可能啊。」

儘管有相當好的結果，微軟仍要證明在現實中，不同的語言對話情境，雜音很大的環境，像是車子裡或派對上，還有不同口音下，都能達到好的辨識結果。語音辨識系統也必須能在多人對話下，「記住」對話的人。不論是不同年齡、腔調或語言能力，辨識系統都要能處理這些不同口音狀況。而對 Cortana 這類語音助理來說，知道文字意思轉成對應的行動，遠比正確拚寫出來還要重要的多啊。

微軟人工智慧和研究團隊主管 Geoffrey Zweig 說：「下一步是從辨識到瞭解。」

相關連結