轉載從: Tech News 科技新報
AI 修圖到底有多強?前幾日 Adobe Max 大會剛結束,Photoshop 2021 版便登上各大媒體版面。
因新版 PS 工具內建 AI 驅動工具,如「天空置換」等高難度修圖問題,現在點點滑鼠就輕鬆達成,效果遠超過人手慢慢修。
無論拍人拍景或其他,「天空」都是攝影的關鍵元素。如一張平平無奇的景色圖加上落日餘暉的天空色調,是不是更有味道?
對短片愛好者來說,修影片如果也能達到如此境界,豈不是高興到飛上天?
沒錯,今天就是要介紹一款基於原生影片的 AI 處理工具,不僅可一鍵更換天空背景,還可打造各種「天空之城」。
AI 影片新玩法
這項 AI 處理工具來自密西根大學的華裔博士後最新研究,基於視覺技術可一鍵調整影片天空背景和轉換天氣。
如《星際爭霸戰》等科幻電影經常出現的浩瀚星空、宇宙太空船,也可利用這項技術融入隨手拍的影片。
(Source:SkyAR,下同)
公路片秒變科幻片,毫無違和感。影片的藍色天空也隨太空船變成灰濛濛色調,世界末日感馬上就出來了。
當然玩法還不只如此。動漫迷也可創建自己的移動城堡。喜歡《天空之城》、《霍爾的移動城堡》的人應對下面這幕非常熟悉。
或掛上一顆超級月亮,又是另一番景象。
只要腦洞夠大,利用這項 AI 技術,影片創作就有無限玩法。
另外還有天氣轉換功能,如晴空萬里、陰雨綿綿、雷雨交加等各種天氣,都可隨意切換。
喜歡玩 Vlog 的朋友是不是心動了?研究人員表示,現在已考慮製作成外掛程式/腳本,方便業界或個人使用。
在此之前,這項技術的 AI 代碼已在 Github 開源,懂技術的讀者可先安裝玩玩看。
技術原理
不同於傳統研究,研究人員提出一種完全基於視覺的解決方案。好處就是可處理非靜態圖像,同時不受拍攝設備限制,也不需要用戶互動,可處理線上或離線影片。
上述實驗影片,均是透過智慧手機和行車記錄器在野外拍攝。經過處理後,影片畫質、運動動態、照明轉換方面都還有較高保真度。如浮動城堡、超級月亮範例,使用單張 NVIDIA Titan XP GPU 卡,可輸出解析度 640×320 達 24fps 的即時處理速度,854×480 時達近 15fps 即時處理速度。
此工具分為 3 個核心模組:
- 天空遮罩框架(Sky Matting Network):檢測影片幀天空區域的影片框架。採用基於深度學習的預測通道,產生更精確的檢測結果和更具視覺效果的天空模版。
- 動態預測(Motion Estimation):恢復天空動態的動態估算器。天空影片需在真實攝影機運動下渲染及同步。
- 圖像混合(Image Blending):將用戶指定的天空模板混合到影片幀的 Skybox。除此之外還能重置和著色,使混合結果在顏色和動態範圍內更逼真。
完整框架如下圖:
天空遮罩框架:利用卷積神經網路(CNN)的優勢,在一畫素級回歸框架下預測天空冰雹,可產生粗細兩種天空模版。天空遮罩框架由一個分段編碼器( Segmentation Encoder )、一個掩模預測解碼器(Mask Prediction Decoder)和一個軟細化模組(Soft Refinement Module)組成。編碼器的目的是學習採樣輸入圖像的中間特徵。解碼器訓練和預測粗糙的天空。優化模組同時接收粗糙的天空模版和高解析度輸入,並生成高精度的天空模版。
動態預測:研究人員直接預測目標在無窮遠處的動態,並創建圖像混合的天空盒(Skybox),透過將 360 度天空盒模板圖像混合到透視窗口,渲染虛擬天空背景。
假設天空模式運動是由矩陣 M 2 R 33 模擬,由於天空中物體(如雲、太陽或月亮)應在同位置,假設透視變換參數是固定值,並已包含於天空盒背景圖像,然後使用更新 Lucas-Kanade 和金字塔方法計算光學流,進而逐幀追蹤一組稀疏特徵點。對每對相鄰幀,給定兩組 2D 特徵點,使用基於 RANSAC 的強健性模糊估計計算有 4 個自由度(僅限於平移、旋轉和均勻縮放)的最佳 2D 變換。
圖像混合:預測天空模版時,輸出畫素值越高,表示畫素屬於天空背景的機率越高。常規方法通常利用圖像遮罩,將新合成的影片幀與背景線性組合,以當作畫素級組合權重。
但由於前景色和背景色可能是不同色調和強度,因此直接進行上述方法可能會導致不切實際的結果。研究人員應用重新著色和重新照明技術,將顏色和強度從背景轉移到前景。
實驗結果
研究人員採用天空電視台數據集,是基於 AED20K 數據集構建而成,包括多子集,每個子集對應使用不同方法創建真實的填空遮罩。
本次試驗使用「ADE20K+DE+GF」子集培訓評估,共有 9,187 張圖像,驗證集有 885 張圖像。以下為基於此工具的影片天空增強效果:
▲ 最左邊是輸入影片起始幀,右邊圖像依序是不同時間段的輸出效果。(Source:arXiv.org,下同)
天氣轉換的效果為晴到多雲、晴到小雨、多雲到晴天及多雲到多雨。
合成雨天圖像時,研究人員透過螢幕混合在結果頂層添加動態雨層(影片源)和霧層。結果顯示,只需稍修改 skybox 模板和重新照明因子,就可做到視覺逼真的天氣轉換。
下為與 CycleGAN 的比較結果。CycleGAN 是基於條件生成對抗網路的非成對圖像到圖像轉換。定性方面,此方法表現出更高保真度。
▲ 第一行為兩個原始輸入幀;第三行為 CycleGAN 結果。
定性比較方面,PI 和 NIQE 得分值越低越好。
可看出,此工具在定量指標和視覺質量都優於 CycleGAN。
更多詳細內容可參見《Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos》。
作者介紹
Zhengxia Zou 是第一作者,目前是密西根大學安娜堡分校博士後研究員,2013 年和 2018 年獲得北京航空航天大學學士學位和博士學位,後加入密西根大學,研究興趣包括電腦視覺在遠距、自動駕駛及影片遊戲相關應用。近幾年發表的多篇相關論文被 ACM、CVPR 及 AAAI 收錄。
對這項研究,Zhengxia Zou 認為除了影片領域應用,還有一潛在應用──數據擴充。他說:
數據集的規模和品質是電腦視覺技術的基礎,在現實場景,即使 ImageNet、MS-COCO 等大規模數據集,應用時也有採樣偏差造成的局限,此方法對提高深度學習模型檢測、分割、追蹤等各種視覺任務的泛化能力,有很大的潛力。
不過當然研究也有局限性,主要是兩方面:
- 天空遮罩網路無法檢測夜間影片的天空區域。
- 當影片某段時間沒有天空畫素,或沒有紋理時,天空背景運動就無法精確建模。
因運動估計的特徵點假定為同一位置,並使用距離第二遠的特徵點估計運動,會不可避免有誤差。
因此未來研究會著重於 3 方向最佳化:第一是自適應天空光照;第二是強健性背景動態預測;第三是探索基於天空渲染的數據增強目標檢測和分割的有效性。