Google 透過人工智慧教電腦如何分辨透明物體

由

2020-02-19

如何正確辨識透明物體一直是電腦視覺領域的一大難題，雖然自駕車或工業自動化機器人大多搭載先進且複雜的影像辨識系統，但往往敗在透明物體。為了解決這項挑戰，哥倫比亞大學、Synthesis Ai 與 Google 的研發團隊共同推出 ClearGrasp 技術，透過人工智慧的方式強化辨識效果。

目前電腦視覺常使用 RGB-D 相機（可記錄景深資訊的相機，如 Kinect）、光達（Lidar）等光學距離感應器建立準確的 3D 環境模型，然而使用光學方式偵測的缺點，就是很容易受玻璃容器等透明物體干擾。

主要的原因，在於這類感測器運作過程，會假設所有物體表面均為完全漫反射（Lambertian Reflectance，指表面能將光線均勻反射至所有方向，進而在所有視角下產生均勻的表面亮度），然而透明物體表面除了有反射光，還會有折射光，所以違背了這個假設，造成無法辨識或辨識為雜訊等情況。

根據 ClearGrasp 的論文指出，ClearGrasp 可在深度學習的協助下，使用深度卷積網路判斷物體表面的法線，以及透明物體的表面遮罩、遮擋邊界（Occlusion Boundary，即景深的不連續性），以精確推算單張 RGB-D 圖像的景深資訊。

▲ 使用 Intel RealSense D415 景深攝影機拍攝透明物體的效果並不理想。（Source：Google，下同）

▲ 以傳統方式建立的 3D 模型，許多透明物體無法正常偵測並顯示。

▲ ClearGrasp（右下）能大幅提升辨識透明物體的準確度。

ClearGrasp 運作過程總計使用 3 個神經網路，第 1 個用於標記物體表面的法線，第 2 個則用於標記遮擋邊界，最後的用於標記透明物體，以利後續透過遮罩過慮屬於透明物體的所有畫素，並在最後補上正確的景深數據。

由於目前沒有現成的透明物體圖片與景深資料庫，因此在訓練過程，開發團隊使用 3D 繪圖產生超過 50,000 張 RGB-D 模擬圖像，這樣一來不但可快速建立資料庫，還能使用逼真的 CG 圖像搭配準確的景深資料訓練系統，並依需要改變背景和照明條件，增加訓練資料庫的豐富性。

為了驗證訓練成果，研發團隊準備 286 組真實照片，每組由 2 張照片構成，其中一張包含透明物品，而另一張則將透明物品替換為外型一模一樣的非透明物品，藉以分析 2 種情況下的辨識情況是否相同。

值得注意的是，雖然這種訓練能準確辨識真實照片的透明物體，但對其他表面（如牆壁或一般物品）的表面辨識不太理想，因此開發團隊還補充使用 Matterport3D 與 ScanNet 資料庫訓練系統一般物品，以強化整體表現。

驗證實驗部分，開發團隊使用 UR5 機器手臂測試抓取透明物體，使用平行爪抓取物體的成功率可從 12% 提升到 74%，如果使用吸盤吸取物體，成功率從 64% 提高升到 86%，證明 ClearGrasp 的準確度相當理想。

▲ ClearGrasp 總共使用 3 個神經網路分析輸入的影像。

▲ 研發團隊使用大量電腦繪圖的模擬圖像訓練深度學習系統。

▲ 並使用包含透明、非透明對照物品的真實照片驗證。

▲ 此外，研發團隊還使用 Matterport3D 與 ScanNet 資料庫訓練系統辨識一般物品，強化整體準確度。

▲ ClearGrasp 的成果展示。影片最後可以看到 ClearGrasp（右上）的辨識情況與真實條件（左上）相當接近。

ClearGrasp 目前以開源形式釋出，有興趣的讀者可參考專案網頁或 GitHub 取得更多資訊。

（本文由 T客邦授權轉載；首圖來源：pixabay）