IBM 成功開發出與人類錯誤率相等的語音辨識系統

7 年前

根據藍色巨人 IBM在官網上的公布，該公司已經開發出針對語音辨識，錯誤率達到 5.5% 的系統。根據這樣結果，顯示當前電腦語音辨識的能力已經與人類達到差不多的水準。

IBM 指出，人們在說話時，對方每聽 20 個單字或詞，就有可能會漏掉或聽錯 1 到 2 個。以此比例計算，人類在 5 分鐘的對話中，有可能會聽錯 80 個單字或詞。只是就人類來說，多數人在理解說話的意思上沒有問題。然而這樣的情況對電腦可就不一樣。

2016 年，IBM 宣布在自然對話環境中的語音辨識上獲得重大進展，也就是開發出單字或詞錯誤率為 6.9% 的系統，之後還在不斷進步。現在 IBM 宣布，已經達到新的業界紀錄，創下 5.5% 錯誤率。而 IBM 研究人員在達成這個突破時，是專注於應用深度學習技術，將 LSTM 和 WaveNet 語言模型與其他 3 個強大的聲學模型結合起來的結果。

使用的 3 個聲學模型中，前 2 個為雙向 6 層 LSTM。包括一個為多特徵輸入，另一個則是有對話多任務學習能力。最後一個模型不僅能從積極的例子中學習，也能利用消極的例子，這將使系統變得越來越聰明，在之後重複出現類似的說話風格時，便能表現更好。

IBM 表示，達成與人類同等水準，也就是錯誤率與一般 2 個人類說話時相當，長期以來都是在開發語音辨識時的目標，目前其他公司也正在努力追趕 IBM 的紀錄。在這樣的成就上，IBM 與合作夥伴 Appen 正合作呈現與人類相同水準的語音辨識系統。

不過，雖然 IBM 達成 5.5% 的錯誤率是一次大突破，但有其他廠商的研究發現，真正的電腦語音辨識要達到人類同等水準，其錯誤率應該下降到 5.1%。雖然只有 0.4% 錯誤率的差別，但就目前的科技技術來說，要達到與人類相同水準的錯誤率，還有很大一段需要努力的距離。

（首圖來源：shutterstock）