便宜晶片與簡單 AI，Google 打造拋棄式語音辨識產品

由

2019-06-13

Google 工程師 Pete Warden 在英國 ARM 研究高峰論壇表示，他希望打造超便宜的語音辨識產品，搭載只要 50 美分的超低價晶片，一個硬幣大小的電池，足以維持一年的電力，再搭配簡單的人工智慧演算法，就可以讓語音辨識產品快速普及。

麻省理工科技評論（MIT Technology Review）報導，這種超便宜的語音辨識晶片可用來生產便宜的對話玩偶，或是簡單的家用電器，如可被語音驅動的燈。在工業環境應用，這種晶片可辨識不尋常的聲響，或是農田裡的蟋蟀。

Warden 為 Google 的雲端人工智慧工具開發行動和嵌入式應用，稱為 TensorFlow，他在開發過程中發現亞馬遜的 AI 助手 Alexa 透過電池供電的簡單晶片運作，時脈只有幾百兆赫是不夠的，原因是 Alexa 必須辨識許多不同的聲音，而且因為大多數語音辨識 AI 工具使用的神經網路資源匱乏，這就是為什麼 Alexa 必須將處理任務交給雲端的原因。

為改善上述問題，Warden 限制問題的問法，譬如只能使用開、關、啟動、停止等字眼，並捨棄一般語音辨識演算法，他拿一個音頻將其切成短片段，然後計算每個片段的頻率內容，接著一個接一個排列每個頻率圖，以建立一個頻率內容與時間的二維圖像，並應用視覺辨識演算法來辨識單詞的獨特記號。

第一次嘗試分析音頻的 1 秒鐘片段需要 800 萬次計算，準確度為 89%，這可用現代智慧手機運作，並且互動速度也夠快，這種方式比將運算過程送到雲端更好，但是在低功耗晶片上性能不佳。

後來開發團隊借鑑一些幫助 Android 手機辨識短語的演算法技巧後，系統只需執行 75 萬次計算，就能達到 85% 的分析準確率，研究團隊已經在 TensorFlow 網站發表代碼供他人使用，他們打算應用在類似單晶片微控制器 Arduino 搭載的更小晶片。

但英國劍橋大學前 AI 研究員 Tony Robinson 認為，低成本策略可能可以幫助語音辨識產品普及，不過用戶不太可能按表操課，大多數人沒有耐心使用高度限制性的指令，認為功率稍微高一點，可以處理更多語言能力的晶片，可能更適合消費者應用。

For Disposable Voice Recognition, Take Cheap Chips and Add Simple AI

（首圖來源：Google）