微軟新研究:無人機獲推理能力,看圖就能做決策

22

轉載從: Tech News 科技新報

微軟新研究:無人機獲推理能力,看圖就能做決策

一般來說,人類透過感知做決定,比如看到障礙物選擇躲開。

儘管這種「從感知到動作」的邏輯應用到感測器和鏡頭領域,並成為目前機器人自主系統的核心。但目前機器的自治程度遠遠達不到人類根據視覺資料做決策的程度,尤其處理第一人稱視角(FPV)航空導航等開放世界感知控制時。

不過,微軟 17 日分享的新機器學習系統帶來了新希望:幫助無人機透過影像推理出正確決策。

微軟從第一人稱視角(FPV)無人機競賽獲得啟發,競賽時操作者可透過單眼鏡頭規劃和控制無人機的執行路線,大大降低發生危險的可能性。因此,微軟認為,這模式可應用到新系統,將視覺資訊直接連結至正確決策。

具體來說,新系統明確將感知套件(理解「看到的」內容)與控制策略(決定「做什麼」)分開,這樣便於研究人員除錯深層神經模型。模擬器方面,由於模型必須分辨模擬和真實環境間細微的差異,微軟使用名為「AirSim」的高傳真模擬器訓練系統,然後不經修改,直接將系統安裝到真實場景的無人機。

微軟新研究:無人機獲推理能力,看圖就能做決策

▲ 微軟測試使用的無人機。

微軟還使用稱為「CM-VAE」的自動編碼器框架緊密連結模擬與現實間的差異,進而避免過度擬合合成資料。透過 CM-VAE 框架,感知模組輸入的影像從高維串列壓縮成低維表示形式,比如從 2 千多個變數降至 10 個變數,壓縮後的畫素大小為 128×72,只要能說明最基本狀態就行。儘管系統僅使用 10 個變數編碼影像,但解碼後影像為無人機提供「所見場景」的豐富說明,包括物體大小位置,以及不同背景資訊,且這種維度壓縮技術平滑且連續。

為了展示系統功能,微軟使用有前置鏡頭的小型敏捷四旋翼無人機測試,嘗試讓無人機根據 RGB 攝影機的影像自我導航。

研究人員分別在 8 個障礙框組成的長達 45 公尺 S 型軌道,以及長達 40 公尺的 O 型軌道測試安裝新系統的無人機。實驗證明,使用 CM-VAE 自動編碼框架的無人機表現比直接編碼的表現好很多。即便有強烈視覺干擾的情況下,新系統也順利完成工作。

微軟新研究:無人機獲推理能力,看圖就能做決策

▲ 測試場地的側視和俯視。

微軟聲稱:

在模擬訓練階段,在無人機從未「見過」的視覺條件下測試,我們將感知控制框架發揮到極致。

通過模擬訓練後,此系統能獨立在現實世界充滿挑戰的環境下「自我導航」,非常適合部署於搜索和救援工作。研究參與者表示,此系統實際應用時將展現巨大潛力──儘管年齡、身材、性別、種族和其他因素都不同,但自主搜索和救援機器人更能清楚辨識出人類,並幫助人類。

(本文由 雷鋒網 授權轉載;圖片來源:微軟

延伸閱讀: