不只認臉，AI 現在能從人群中找出你的聲音

7 年前

智慧助理的語音辨識技術已經漸漸成為現代社會不可或缺的科技，除了 Apple 的 Siri 之外，Amazon 及 Google 更開發了家庭智慧助理，分別為 Echo 和 Google home，只要對機器說指令，舉凡開燈、放音樂、訂外送等，智慧助理都會幫你完成。

但是儘管科技公司不斷的在精進語言辨識的技術，智慧助理如 Amazon 的 Echo 仍無法在嘈雜的環境中辨認你的聲音。

近期位於美國麻州的三菱電子研究中心研發出一項技術，能在多人講話的情況辨認出你的聲音，並已於東京科技展亮相。

研究團隊表示，他們使用機器學習中一種稱為「deep clustering」的方法來辨認每個人的「聲音軌跡」（voiceprint），三菱電子發言人 Niels Meinke 說，一開始他們使用 100 個英語母語使用者來訓練機器學習模型，後來發現即使用帶有口音的聲音當訓練資料，機器也有辦法辨認出不同聲音。

相比傳統使用兩個麥克風模擬人耳的方法來辨認聲音，只有 52% 準確度，這套新方法在兩個人說話的環境下，辨認準確度可達 90%，就算 3 個人的環境也能有 80% 準確度。

多人環境下語音辨識的問題已困擾人工智慧界多年，這項新技術可望幫助智慧家庭助理、智慧汽車，甚至自動語言翻譯等領域的進步。三菱電子也表示，他們正計劃安裝語音辨識技術到自家冷氣、電梯等產品。

（首圖來源：Flickr/MsSaraKelly CC BY 2.0）

延伸閱讀：