根據藍色巨人 IBM在官網上的公布,該公司已經開發出針對語音辨識,錯誤率達到 5.5% 的系統。根據這樣結果,顯示當前電腦語音辨識的能力已經與人類達到差不多的水準。
IBM 指出,人們在說話時,對方每聽 20 個單字或詞,就有可能會漏掉或聽錯 1 到 2 個。以此比例計算,人類在 5 分鐘的對話中,有可能會聽錯 80 個單字或詞。只是就人類來說,多數人在理解說話的意思上沒有問題。然而這樣的情況對電腦可就不一樣。
2016 年,IBM 宣布在自然對話環境中的語音辨識上獲得重大進展,也就是開發出單字或詞錯誤率為 6.9% 的系統,之後還在不斷進步。現在 IBM 宣布,已經達到新的業界紀錄,創下 5.5% 錯誤率。而 IBM 研究人員在達成這個突破時,是專注於應用深度學習技術,將 LSTM 和 WaveNet 語言模型與其他 3 個強大的聲學模型結合起來的結果。
使用的 3 個聲學模型中,前 2 個為雙向 6 層 LSTM。包括一個為多特徵輸入,另一個則是有對話多任務學習能力。最後一個模型不僅能從積極的例子中學習,也能利用消極的例子,這將使系統變得越來越聰明,在之後重複出現類似的說話風格時,便能表現更好。
IBM 表示,達成與人類同等水準,也就是錯誤率與一般 2 個人類說話時相當,長期以來都是在開發語音辨識時的目標,目前其他公司也正在努力追趕 IBM 的紀錄。在這樣的成就上,IBM 與合作夥伴 Appen 正合作呈現與人類相同水準的語音辨識系統。
不過,雖然 IBM 達成 5.5% 的錯誤率是一次大突破,但有其他廠商的研究發現,真正的電腦語音辨識要達到人類同等水準,其錯誤率應該下降到 5.1%。雖然只有 0.4% 錯誤率的差別,但就目前的科技技術來說,要達到與人類相同水準的錯誤率,還有很大一段需要努力的距離。
(首圖來源:shutterstock)