人工智慧(AI)造假的技術已引起人們的關注。就目前來說,除了沒有評斷標準的繪畫,人們還是非常輕易就能看出 AI 生成的造假圖片,然而隨著時間過去、AI 技術持續發展,未來要區分真實和虛假的東西將會變得越來越難。
最近 DeepMind 和英國赫瑞瓦特大學(Heriot-Watt University)研究團隊運用對抗式神經網路(GAN)創造出的機器學習模型 BigGANs 便再度提高了 AI 生成圖片的質量,創造出首圖可見到的所有圖片。
在視覺影像資料庫 ImageNet 接受 128×128 解析度的訓練後,BigGANs 在衡量真實度的 Inception Score(IS)大幅超越以往最高得分 52.52,達到與真實影像分數 233 十分接近的 166.3。
單以數字來說可能有些難以體會,我們不妨從下面幾張圖片來感受一下 BigGANs 的實力。在下面幾張組合圖片中,分別都有一張 BigGANs 生成的圖片混在其中,你看得出來哪些是由 AI 產生的圖嗎?
▲ 你分得出來 AI 創作的狗、蝴蝶和漢堡分別是哪一個嗎?(詳見附註)
如果看圖片久一點,你或許可以看到 BigGANs 創作的圖片中有些輕微異常;像是狗狗的眼睛混濁,蝴蝶的翅膀上有奇怪的斑塊等,然而以整體來說,這些圖片仍舊是截至目前為止 AI 以假亂真的最好創作。
BigGANs 能獲得更真實結果的訣竅之一,是讓模型訓練量變得更大。arXiv 上刊載論文顯示,每個模型都需要 128~512 個 Google TPU 3.0 Pod 在 1~2 天內進行訓練,訓練參數大約是現有技術的 2~4 倍,批次(batch)大小則達到 8 倍。
Brock 強調,要創造令人信服的圖片,神經網路必須學習構成人們視覺世界的複雜結構,「你必須『理解』事物才能描繪它。如果我們能夠建立完全理解的模型,那麼我們可以用它們學到的表現做很多有趣的事情。」
訣竅之二,則是將輸出變量控制在更小的範內。由於生成器(generator)的輸出是由輸入的變化程度控制,透過減少輸入的可變性,研究人員讓 BigGANs 創造更類似訓練數據的圖片,質量更高並更真實。
在許多其他研究,我們都可以看到 GAN 技術用在人臉圖或影像造假,除了讓歐巴馬(Barack Obama)、川普(Donald Trump)等政治家說出他們沒有說過的話,一些人甚至將類似的技術應用於色情影片修改。
Brock 表示,他也擔心惡意使用 GANs 技術的情況,這也是為什麼團隊選擇專注在更一般的圖片,而不是人臉建模。「比起人物圖片,要把狗網球圖片用於政治或不道德的目的要困難得多。」
註:三張影像最左上角的圖片都是由 BigGANs 所生成。
(圖片來源:arXiv 論文)