微軟:我的人工語音辨識技術媲美人類水準,未來將用在 Cortana 上

23

微軟研究人員在期刊上發表新的語音辨識技術,號稱能達到人類部分的辨識能力,在測試環境下,有人類的辨識水準。

微軟這套新的語言辨識系統採用神經語言技術串連類似的文字,能夠有效組織化。這套新系統的文字錯誤率是 5.9%,相當於一般人類的水準。

微軟首席語音科學家 Xuedong Huang 說:「我們達成人類部分的辨識能力了,這可是歷史性的成就。」

這項成就意味著語音辨識系統能像人類一樣「聽懂」人類的對話。微軟打算運用這套技術到他們的語音助理 Cortana 上面,以及語音辨識軟體。

微軟人工智慧和研究團隊的執行副總裁 Harry Shum 說:「即便是 5 年前,我還很難想像我們能達成這項成就。我甚至覺得這不可能啊。」

儘管有相當好的結果,微軟仍要證明在現實中,不同的語言對話情境,雜音很大的環境,像是車子裡或派對上,還有不同口音下,都能達到好的辨識結果。語音辨識系統也必須能在多人對話下,「記住」對話的人。不論是不同年齡、腔調或語言能力,辨識系統都要能處理這些不同口音狀況。而對 Cortana 這類語音助理來說,知道文字意思轉成對應的行動,遠比正確拚寫出來還要重要的多啊。

微軟人工智慧和研究團隊主管 Geoffrey Zweig 說:「下一步是從辨識到瞭解。」