人工智慧,中國有自己的那一套,阿里巴巴推出的語音揚聲器 Tmall Genie 類似亞馬遜的 Echo,搭載語音助理 AliGenie,可以線上購物、查看天氣、放音樂、控制家中的智慧裝置。百度也有對話平台叫做 DuerOS,可以添加在家用機器人、電視機上盒、HTC 智慧手機上,中國科技巨擘期待自家語音助理可以吸引投資者,與亞馬遜互別苗頭。
事實上這個市場潛力無窮,IDC 預期 2020 年 51% 的中國智慧駕駛產業,68% 的電話與穿戴產業會搭載語音人工智慧系統。麻省理工科技評論(MIT Technology Review)報導認為,中國發展語音系統有跡可循,因為中文輸入相對麻煩,這也是為何中國消費者早就習慣語音留言取代文字輸入使用 WeChat。
但是現在中國的語音助理技術可以執行命令,無法對話,因為對話運算沒那麼簡單,必須先解決中文的複雜性。報導舉例,在中文世界當中,同樣的單字安排在不同的順序上意義就會不同,即使順序相同,意思也會隨上下文出現差異。此外,中國沒有像英文的空格,所以中國自然語言處理研究人員必須教育演算法在哪裡插入空格,以建立句子適當的意義。且中文沒有時態,所以機器很難辨識句子的時間意義。
更別說中國有許多方言,對機器學習而言也是一大挑戰。研究自然語言處理的清華大學副教授指出,為了真正了解人類話中的意圖並進行適當溝通,電腦不得不採用語調和壓力等細微的線索。 他們也必須了解情緒,因為人類的決策不是完全依賴邏輯。
為了使系統更智慧,百度在平台上引入培訓師模式,讓軟體開發人員透過內建的註釋機器人即時提供語言數據,機器人接收到開發者反饋從中學習,然後更正系統。
報導認為,中國研究人員解決這些問題的一個優勢是大量數據,由於支持當今電腦語言理解的神經網路需要大量數據訓練,因此擁有的數據愈多,其神經網路將更智慧化。截至 2016 年底,百度每月活躍行動用戶達 6.65 億戶,截至今年 3 月,阿里巴巴每月有 5.07 億行動用戶。
但是阿里巴巴的人工智慧科學家王剛表示,研究人員必須設計不需要大量數據的神經網路,才能讓機器語言學習更有效率。他說,畢竟在現實世界中,人們用不同方式表達同樣意義,電腦不可能學會所有解釋。
王剛與研究團隊開發一種不需龐大數據,只要相關主題的數據就可訓練電腦理解主題的方法,例如為了訓練神經網路了解運動醫學文本,只需使用運動與醫學數據,就特定主題訓練神經網路。雖然使用特定主題資料的效果不如大量數據,但是在數據量有限的情況下,這種方法特別有用。
由於對話介面的互動更自然,將可吸引更多人進入網路世界,而最終語音助理成功的關鍵就是內容和服務。如在中國推出小魚聲控家庭助理機器人的 Ainemo,計劃透過百度的 DuerOS 對話平台在家庭語音助理中建立教育和醫療保健項目,目標是為不太會使用電腦與智慧手機上網,特別是老人與幼兒提供基於語音的服務。
(首圖來源:Flickr/Jonathan Kos-Read CC BY 2.0)