語音助理越來越聰明,但怎麼讓它們聽見汽車駕駛的聲音?

63

在車聯網時代來臨的前夕,我們車上已經有 GPS、行車紀錄器、藍牙喇叭等裝置,營造更便利的駕駛環境。不過,在上路前免不了的一連串手動輸入或設定,卻又不是那麼方便了,更遑論開車到一半時要進行變更。即使是趁著等紅燈的空檔,只要還得伸手去螢幕上按來按去,就多少增加了行車風險。於是,為了駕駛人與乘客更舒適安全的的乘車體驗,語音助理搭配人工智慧將是不可或缺的環節。

然而,這樣一來我們就得面對另一個難題,便是這些車用語音智慧產品,如何能提供優異的語音辨識品質,提高辨識率,讓機器準確接收我們的指令呢?想像一下,你載著滿車朋友出遊,在國道上高速行駛,大夥快意談笑,夾雜引擎運轉與風噪聲,可能還正好放著一首 Lana Del Rey 的《Burning Desire》,使你不自覺腳踩油門。這時車內環境噪音絕對高於 70dB(分貝),而且還夾雜不同頻率的聲音。因此,讓產品偵測說話的人並接收正確指令,是相當令人頭痛的問題。

環境噪音對語音通訊品質的影響

在語音辨識的流程中,可分為五道程序:包含語音輸入及語音訊號處理、語音特徵擷取、以聲學模型(acoustic model)進行語音單元辨識、以語言模型(language model)來組織語音單元、解碼及輸出等。

目前語音助理的市場上,Microsoft 耕耘最久,Apple、Google 相繼而起,以完善智慧型手機體驗為目標;近期火熱的 Amazon Echo,其語音助理 Alexa 則一開始就以獨立的聲控家用平台為定位,建立自身生態系。以上這幾家語音助理開發商,基本上已經掌握後面四道程序。不過,一旦來到車用領域,產品裝置開發商則勢必要在語音輸入及語音訊號處理的程序上,投注更多心力。

車用語音智慧產品在車內環境中,與使用者的距離不出 0.5~1 公尺之內。一般汽車引擎發動後且車窗緊閉的情況下,車內噪音約 60dB 左右。假設使用者發出約 89dB 的聲音(即一般說話音量的平均值),此時嘴邊的訊噪比為 29dB,足以維持良好的通訊品質。但你不會想要每次下指令還得把臉貼到汽車面板前,因此 0.5~1 公尺是產品接收語音訊號的合理距離。然而,當說話聲音傳到 0.5 公尺時會衰減至 65dB,此時訊噪比只剩 5dB;說話聲音到 1 公尺時則只剩 60dB,與噪音的音量相當,更不用說上述提到高速行駛的環境下,噪音都比發出指令的人聲還要大。

符合標準的車用通訊品質

當面臨車聯網逐漸完善、語音應用普及化,越來越多車廠要求內建 Android Auto、Apple Carplay 等智慧助理,而這些都需要按照 ITU-T P.1110/P.1100 語音標準來設計,對代工組裝或設計加工的車用電子系統廠來說,等於是踏入未知的領域,只能以現有產品不斷偵錯找出問題,相當耗費時間。因此像是貝爾聲學這種第三方語音測試實驗室,就會從麥克風模組、連接線材等部分測試,首先幫廠商判斷選料是否正確。

貝爾聲學曾針對一款舊的車用麥克風模組進行測試,該模組配兩顆 ECM 電容式類比麥克風,一顆為全指向性,主要用來收環境音,作為背景噪音消除演算法的用途;另一顆為單指向性,收音方向指向駕駛,用來接收駕駛的語音訊號。依據 ITU-T P.1110 測試方式,得出了以下數據:

語音助理越來越聰明,但怎麼讓它們聽見汽車駕駛的聲音?

從結果可以看到,麥克風模組離標準建議值太遠,感度差了約 30dB,因此訊號必須放大 30dB,才能滿足標準建議值。然而,這意味著雜訊也會跟著放大,造成語音品質跟辨識率低落。代表這款麥克風一開始根本就不該出現在車用語音智慧產品上。透過貝爾聲學的協助,能讓廠商快速找到癥結點,避免進行過多無意義的測試。

由於車子所處的環境噪音會隨著車速、路段、路況、空調、乘客及音響等各種因素不斷改變,而背景降噪演算法不易解決時時變動且突發性的聲音,所以車用語音智慧產品可以著重在一些細節,幫助提升通訊品質。例如採用兩顆以上的麥克風陣列,以進行較佳的背景降噪演算法;採用訊噪比較高的麥克風,最好是 SNR 58dB 以上。其次,把麥克風置於離駕駛嘴巴最近的位置,如方向盤附近;但同時又要盡量縮短麥克風線材至主機的距離,且加強線材隔絕性,以減少外來的雜訊。最後,則是加上迴音消除(Echo cancellation)、背景降噪(Background noise reduction)以及麥克風自動增益(Mic auto gain control)等三種功能,幫助提升語音辨識率。

(首圖來源:Shuttertock)