AI 突破次元壁又來了！《天外奇蹟》角色 1 秒變真人

Auto Post

5 年前

從「換臉」到「生成動畫臉」，AI 影像合成技術已非常成熟。

因為支援一鍵切換，且效果逼真，之前抖音「變身漫畫」特效還登上微博熱搜，從明星到路人，近千萬用戶使用。國外也有一款「秒變迪士尼公主」工具，上線當天就因為瀏覽量過大被迫關門一陣子。

從髮型、臉部輪廓到五官，一切自訂化動畫臉，感覺不用後期處理就能直接去演電影了。

這件事引起 AI 藝術家 Nathan Shipley 的好奇心，AI 生成動畫臉如此逼真，那麼反過來，將動畫角色轉成「真人」效果會怎麼樣？剛好最近國外研究團隊推出一通用版 AI 模型：Pixel2Style2Pixel（pSp）。

因此 Shipley 便利用這款 AI 模型，嘗試轉換《超人特攻隊》、《天外奇蹟》等動畫電影角色，結果也因效果太好登上 Reddit 熱門榜。

《超人特攻隊》的「飛毛腿」巴小飛，「真人版」形象也太有喜感了。

仔細看頭髮、眉毛等細節都轉得不錯。

還有彈力女超人巴荷莉、超能先生巴鮑伯，除了鮑伯誇張的動畫臉型，這些角色似乎也能在現實世界找到真人演員。

不過《天外奇蹟》的小羅是不是出了什麼錯？五官正常，但髮型怎麼怪怪的……

其實是 AI 把小羅的帽子當成頭髮了，結果就變成這樣。網友笑說改成「貓王」髮型也很酷！

不只動畫角色真人化，這款通用 AI 模型還可用在畫作轉換。如果說動畫角色真人化還有些卡通風，那麼迪亞哥·里維拉（Diego Rivera）兩幅畫的還原效果也很高品質。

這項技術如何達成的？

pSp：通用版影像合成模型

Pixel2Style2Pixel（pSp）是影像到影像的轉換框架，由 Penta-AI 和以色列特拉維夫大學的 Elad Richardson、Yuval Alaluf 等人在名為《Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation》的論文提出。

pSp 框架基於新編碼器網路，可直接生成一系列樣式向量，送入預先訓練的 StyleGAN 建構程式，形成可延伸的 W+ 潛在空間。

pSp 是簡單的架構，透過特徵金字塔延伸三等級特徵對映，中間網路 map2style 負責從匯入端擷取樣式，然後將樣式按照一定比例傳輸到建構程式（StyleGAN Generator），最後匯出影像。過程中完成畫素轉換的「中間樣式表示」帶來不依賴局部畫素到畫素對應的全域方法，且透過風格重取樣支援多模態合成。

總體來說，相較傳統 StyleGAN 模型，pSp 新型編碼器架構在影像合成有兩項進步，一是能將真實臉部影像直接編碼到 W+ 潛在域；二是解決點到點通用任務。

為了評估 pSp 框架影像到影像轉換的有效性，研究人員測試了常見的影像處理如臉部正面化、條件面合成和超解析度。

實驗測試及結果

StyleGAN Inversion

目標是在潛在域尋找真實影像的潛在程式碼。研究人員比對 pSp 與 ALAE 和 IDInvert 架構的編碼器。ALAE 基於 StyleGAN 的自動編碼器，與建構程式一起訓練以生成潛在程式碼。IDInvert 是將真實影像嵌入預先訓練的 StyleGAN 潛在域，然後將影像編碼為 W+，再最佳化生成的潛在影像。

從實驗結果來看，ALAE 在 W 域無法準確重建匯入影像，而 IDInvert 雖然保留了影像原始屬性，但顯然更細節的處理步入 pSp 模型。

臉部正面化（Face Frontalization）

由於缺少高品質且完整的臉部數據庫，臉部正面化對影像轉換框架來說是艱難的挑戰。確保訓練和編碼器一致情況下，pSp 處理時從兩方面最佳化。一是目標增強，一是削弱背景。

目標增強：pSp 會隨機翻轉目標影像，並生成與匯入影像不一致的姿態。如果沒有影像增強過程，模型只會簡單學習匯入影像的編碼符合姿態。
削弱背景：為了降低背景影像對臉部的干擾，pSp 降低損失目標的權值（如降低 LPIPS 和 L2 損失函數）

實驗結果如下：

使用相同資料訓練時，pix2pixHD 無法收斂到令人滿意的結果，因更依賴匯入和匯出對的對應關係。相反地，PsP 能成功保持身分同時生成逼真的正面臉。另外，轉化過程採用 3D 對齊也有不錯表現。

這表明，即使無數據標記的情況下，基於風格的轉換機制也能克服臉部正面化的挑戰。

條件影像合成（Face From Sketch）

目標是在指定匯入影像下生成具真實感的影像。比如從簡筆草稿生成高品質臉部，條件影像合成是單體對映，理想對映框架應能給定匯入生成多個不同匯出，因此 pSp 採用一種多模態綜合法。

草稿生成臉部的實驗，常用方法要求匯入草稿與生成影像畫素對應，以產生與匯入對齊的匯出。如果匯入不完整，可能無法有效轉化草稿到影像，如 pix2pixHD。

從實驗結果來看，pix2pixHD 處理抽象草稿的視角效果很差，故 pSp 提供專門的對映網路。

與 pix2pixHD 相比，FaceDrawing 繪製可取得更滿意的效果，但多樣性仍然受限制，相反 pSp 有不同匯出的能力，且更能保留細節（如毛髮）。

超解析度（Super Resolution）

目標是基於低解析度（LR）匯入影像轉化為高解析度（HR）臉部影像。常用方法是採用脈衝（PULSE）無監督。具體而言，對給定的 LR 匯入影像，脈衝遍歷 HR 影像流，以搜尋縮小到初始 LR 影像的 HR 影像。

但不同的是，研究人員研究有監督方式下，應用 pSp 的解決效果。從實驗比較結果來看，pix2pixHD 在 16×16 向下取樣，以及 PULSE 在 8×8 取樣時，視覺上均明顯失真。pSp 均能在初始影像的基礎上，獲得更有真實感的影像。

研究人員還展示 pSp 模型在局部編輯、影像修復和臉部影像內建應用等的效果，更多內容可見論文。

這款 AI 模型已在 Github 開源，感興趣的讀者可自己體驗，看看喜歡的動畫角色真人化後會變成什麼模樣。

[P] Creating “real” versions of Pixar characters using the pixel2style2pixel framework. Process and links to more examples in comments.

（本文由雷鋒網授權轉載；首圖來源：Nathan Shipley）