MIT 和 Google 讓 AI 獲得多種感官協調能力

27

根據 MIT 和 Google 研究人員近期發表的論文,他們正在訓練 AI 將影像、聲音和文字等多方面資訊連接起來。

在語音辨識、影像辨識以及下圍棋等單項能力方面,AI 已夠出色,甚至超越人類。但如果 AI 一次只能使用一種感知能力,無法將看到和聽到的內容結合,就無法徹底理解周圍的世界。這正是 MIT 和 Google 研究人員進行這項研究的原因。

研究人員並沒有教演算法任何新東西,只是建立一種方式,讓演算法將多種感官獲得的知識連線和協調,這點至關重要。

論文的聯合作者之一──MIT 的 AI 博士後 Yusuf Aytar 以無人車為例:比如無人車的聲音感測器先聽到救護車的蜂鳴聲,然後雷射雷達才看到救護車。有關救護車的鳴叫、外觀及職能的知識可讓無人車放慢速度,切換車道,讓路給救護車。

他說道:「你是先看到汽車還是先聽見引擎聲並沒有關係,你馬上能辨識出這是同個概念。因為你大腦中的資訊自然把它們協調統一了。」

為了訓練這套系統,MIT 研究小組首先向神經網路展示與聲訊相關的影圖片。神經網路發現圖中的對象並辨識出特別聲訊後,AI 就會嘗試預測哪個對象跟聲音的關聯。比方說,招手會不會發出聲音?

接下來,研究人員又以相同形式為演算法提供有標題的圖片,讓它連連看文字和圖片。網路首先需要單獨辨識出圖中所有對象及相關問題,然後才能連接。

MIT 和 Google 讓 AI 獲得多種感官協調能力

(Source:arxiv.org

由於 AI 獨立辨識聲音、影像、文字的能力已十分出色,這種網路乍看之下並沒有什麼了不起,但研究人員表示,當他們訓練 AI 進行聲音/影像、影像/文字的配對時,系統就能在未經訓練指導哪個單詞與不同聲音符合的情況下將聲音與文字連結起來。這表明神經網路對看到的、聽到的或讀到的東西已形成更客觀的看法,且這種看法的形成並不完全依賴於了解這資訊的媒介。

統籌對象的觀感、聽覺及文字後,演算法就能自動將聽到的東西轉化為視覺影像,強化對世界的理解。

據悉,Google 也進行了類似研究,不過 Google 更強調一點:新演算法還能將文字轉化成其他媒體形式,雖然從準確率上來說,暫時還比不上單用途的演算法。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)