2017 年 I/O 大會,Google 發表一款識人又識物的新產品。
- 你只需要對著別人的名片一掃,所有資訊就能存進通訊錄。
- 你只需要對著景物一掃,就能獲得當前景物的所有資訊。
- 當你在遊覽時,它還能當你的隨身翻譯、導遊……
更重要的是,這款產品打破了智慧手機的檔次局限,無論是高階旗艦還是低階入門,只要搭載的是智慧系統,任何手機都用得上它。
這個在當時有著神仙功能的新品,就是我們在往後 2 年 I/O 活動都能看到的「Google Lens」,如今這個產品經過 2 年發展,已成為識物工具中的佼佼者。
而隨著今年 Google 在這款工具裡加入 AR 和朗讀功能後,有著 124 年曆史的笛洋美術館(de Young museum)也在近日宣布,將全面支援遊客用 Google Lens 遊覽展館。
這也是世界第一家支援 Google Lens 的美術館/博物館。
(Source:de Young museum)
在笛洋美術館內,遊客可以透過 Google Lens 辨識展品,系統在進行辨識後會推送當前作品的作者、歷史等相關資訊,遊客可以在館內透過這個功能自由獲取想了解的內容。
(Source:Google)
更有意思的是,除了辨識作品,遊客還可透過 Google Lens 辨識特定物品,成功後系統會播放作品相關的 AR 圖像或影片內容。
透過這種方式,遊客能獲得面前這幅作品以外的資訊,比如作者介紹作品的創作經歷等,讓遊客透過具體且優雅的方式獲得知識內容,就像和藝術家面對面交流。
不過,AI 識物能在未來取代傳統人類導覽,成為遊客獲得新知識的主要途徑嗎?這個想法可能不錯,但現在似乎還有點早。
強大的 AI 人工智慧讓 Google Lens 成為世界數一數二的識圖工具,越來越多應用途徑,也讓這款工具走出實驗室和 PPT,成為使用者了解新事物的另一種途徑。
(Source:Google Lens)
但這種機械式的嚮導能取代人力成為未來遊覽的發展主流嗎?筆者認為「取代」可能說得有點早了,而且在短期內,AI 導覽不會取代人類成為主流。
首先不否認 AI 的兩個優勢:全天候運作和可延展性。
相比於人類導覽,AI 能 24 小時全天工作,同時透過自學習能力,AI 能在執行任務時不斷學習,且在網路的幫助下,AI 並不是一個大腦在學習,而是伺服器主腦和終端「大腦」的資訊互通,進而組成一張儲存特徵的智慧網路。
表面來說,比如筆者用手機掃描面前的杯子,系統會記錄物體的特徵資訊,當其他用戶掃描類似的物體時,AI 會特徵辨識和結果篩選,快速得出結果。或當筆者第一次掃描這物體時,AI 會先記錄特徵,當筆者第 2 次掃描時,AI 會繼續增加特徵,進而全局提升辨識的速度和準確率。
神經網路的自學習能力能讓 AI 的辨識效率接近人腦,甚至有不受情緒和精神的影響,可能還超越人腦,但能得出準確無誤的結果,前提是需要大量訓練。
(Source:COCO)
AI 能在短時間內得出辨識結果,實際上有賴於研發團隊在功能推出前的各種訓練工作。譬如在 Google 的 TensorFlow API 中,他們會透過 COCO 資料庫的 90 大類、共 30 萬張圖像對 AI 做辨識訓練,透過圖像提升 AI 的辨識能力;但即便有大量的訓練資訊為基礎,AI 也並非天下無敵。
The Verge 近日《人工智慧難以辨識低收入地區的日用品》文章,就探討 AI 辨識的基礎,並下了「AI 訓練不平衡」觀點。
研究人員發現,物體辨識演算法在辨識月收入 50 美元的家庭物品時,結果的誤差大約會比超過 3,500 美元的物品增加 10%,而且不同地區物品的準確率也差異甚大,比如演算法在辨識美國物品方面會比索馬利亞和布吉納法索的物品提升 15%~20% 準確率。
另外,這篇文章有意思的論點在於,由於 AI 識物在訓練時大多都是在發達地區訓練,因此對於非發達地區的物品,AI 識物會出現辨識失效情況,這種不平衡的現像很可能影響未來自動駕駛在非發達地區的發展,因為自動駕駛需要依賴感測器和 AI 辨識。
▲ 同一個 Soap(肥皂),不同的結果。(Source:The Verge)
所以儘管 AI 在某些方面比人類表現出色,但前提需要大量的數據支撐,對於有變量的物品,人腦學習和處理會比 AI 優秀。面對博物館的固定展品,AI 能帶來低成本、快捷的體驗,但應對互動和資料庫沒有的物品,人類導覽仍有優勢。
不過 AI 要取代人力,真正要克服的不是知識量,而是互動情感。
AI 識物能提供詳細的知識傳播,但卻不具備人類最可貴的互動交流。雖然 AI 識物方便參觀者透過手機查看展品詳細資訊,但這只是機械性獲得千篇一律的內容,並非人與人交流。這種區別就像網路授課和面對面課堂,獲得的資訊不變,但若要提問資料庫沒有的知識,誰能解答呢?
當然,面對情感這個大問題,不少廠商也正透過語音優化讓 AI 貼近人類發聲,比如 Google Duplex 在語音加入仿人類的語氣和停頓,「唔」、「哦」這些助詞讓 AI 說的話更像真人而不是機器人;蘋果也在 iOS 13 透過 TTS 對 Siri 進行多語音拼合優化,讓 Siri 的發音更自然。
總體而言,雖然目前 AI 有強大的學習能力和辨識效率,但還有知識的提供途徑,AI 當下仍處於輔助為主的發展階段,擁有情感和互動的人力依然有主流優勢。
不過不可否認的是,在網路技術推動下,AI 已踏上高速發展道路,越來越貼近真實人類,AI 若干年後能提供新知識給我們,並非不可能。