眼部追蹤技術一直擁有廣泛應用前景,然而過去 40 年來,由於其昂貴的硬體成本(高達幾十萬),使得它距離普通消費級應用十分遙遠。之前也有廠商嘗試過將這一技術應用於消費產品中,例如三星 Galaxy S4 基於普通鏡頭的眼部追蹤翻動手機頁面功能,然而產生的最大問題就是精度差,受環境光影響嚴重,不同人種更是差異巨大,所以三星後來去掉了這一功能。
近日, MIT 與喬治亞大學的人工智慧研究院希望可以改變這一現狀。他們藉助兩款名為 Gaze Capture 和 iTracker (與蘋果的手機防盜追蹤軟體 iTracker 不是同一個)的 App, 可以將任何一支手機都變成眼球追蹤裝置,大大降低了眼球追蹤技術應用的成本,並且精度提高一大截。
關於此項技術的一篇論文在 6 月 28 日的計算機視覺和模式識別大會上發佈,論文的作者之一 Aditya Khosla 表示,相比於之前同行的研究,他們的優勢在於數據。 Khosla 介紹,他們已經透過 GazeCapture 蒐集了超過 1,500 個手機用戶的注視模型,而在此之前,最大的數據樣本是大概也只有 50 個用戶。
為 什麼他們能蒐集到如此多的數據?答案是「眾包」模式。研究人員選擇亞馬遜的「Amazon Mechanical Turk」群眾外包平台,發佈使用 GazeCapture 任務,用戶可以登錄 Amazon Mechanical Turk。在下載這款 App(目前只提供 iOS 版)之後, GazeCapture 會在螢幕上展示一個顫動的小點,並在小點裡寫上「L」或「R」 (分別代表左右),以確保用戶集中注意力。用戶則透過點擊螢幕左側或右側來做出響應,然後藉助前置鏡頭記錄用戶的目光。用戶在完成每次任務之後,都可以獲得一筆「小費」。
透過以上方法, GazeCapture 幫助研究人員蒐集了豐富注視模型數據。之前,大多數的研究機構都是召集人們來實驗室採集數據,有 50 個數據樣本就非常不錯了。
(Source:Amazon Mechanical Turk)
對於 iTracker 軟體,一款目前只能在蘋果手機上運行的卷積神經網路系統 App 。 iTracker 能辨識出頭部和眼球的位置與方向,確定用戶的目光究竟看向螢幕的哪個位置。目前 iTracker 誤差範圍縮小到了 1.5 釐米,比以往實驗的精度提高了 2 倍。在論文提交之後,研究團隊又加入了 700 個用戶的數據,平均每個用戶有 1,600 張照片。在這一輪訓練中,誤差範圍更是縮小至 1 釐米,研究人員預測如果用戶達到 1 萬人,那麼精度會提高為 0.5 釐米。不過,這樣的精度對於商業用途來說,已經十分足夠 了。
對於 iTracker 來說,存在的最大問題是,神經網路是一個很大的系統,在手機端的運行效率會很低。不過,研究人員透過採用 「Dark Knowledge」(並非黑科技的意思)的處理方法,能夠將神經網路規模縮小到 20%,使得 iTracker 可以在手機端處理 15 格/ 秒的畫面,哪怕最短暫的眼神都可以清楚記錄。
對於眼球識別技術的重大突破,康奈爾大學教授 Noah Snavely 評論稱:
「在電腦視覺和人機互動領域,眼部追蹤一直都是人們十分感興趣的領域,但是它成本太貴了,讓普通用戶的手機就可以實現這一技術,非常令人驚嘆。在我看來,他們達到的精度,似乎可以讓這個領域的人群開始做些有趣的事了,這一項成果將會引發業內的一輪快速發展。」
(本文由 雷鋒網 授權轉載;首圖來源:MIT Technology Review)