轉載從: Tech News 科技新報
Deepfake 負面應用愈演愈烈。10 月,「一鍵脫衣」AI(DeepNude)盜用社群網路自拍照生成裸體刷爆社群網路,短短幾天,致使 68 萬女性受害。近日,再次有外媒爆出在 Reddit 社群中,一個名為 r / GeneratedPorn Subreddit 正在散播大量色情作品,而製作這些色情作品的正是造假軟體──Deepfake。
這些虛假的色情作品已在 Twitter、Facebook、Reddit 多個社群網路,以及 XVideos、Pornhub 等色情網站上被瘋狂傳播。
不同於 DeepNude 利用社群網路中的私人照片,這次 Deepfake 造假軟體利用的是現有的成人色情作品。創建者認為在原有色情作品上,利用 Deepfake 生成不存在的人臉進行二次創作可以避免法律上的懲罰和道德上的譴責。
但事實可能並非如此,目前 Reddit、XHamster 等多個網站已經將該軟體封殺,並強調,
Reddit 網站政策禁止非自願色情內容的分享和傳播,包括 Deepfake 作品。
利用「成人影片」的 Deepfake
Deepfake 的深度造假能力到底有多強?它除了支援換頭、換臉、對嘴型以及脫衣外,甚至還可以生成一張完全不存在的人臉,像下圖這樣,連頭髮絲都顯得逼真自然。
(Source:影片截圖)
然而,正是這項原本被廣泛用於影視業的逼真造假技術,被一名博士生用來創建了大量淫穢影片。
這款 Deepfake 造假軟體被命名為 GeneratedPorn,簡稱 GP。GP 所利用的色情數據集全部來自於捷克的一家色情片製作公司──Czech Casting。
多年來,該公司拍攝了成千上萬的女性影片,並託管在共享網站支援免費下載。影片中每個女性都被編號,並站在白色背景下進行 360° 無死角拍攝,甚至包括局部生殖器官的鏡頭特寫。
這些高清、無死角的影片內容非常符合機器學習演算法的訓練要求,GP 的創建者從中提取了 7,500 張圖像,他說:
之所以選擇該數據源是因為,生成對抗網路(GAN)需要學習生成對像類的圖像結構,如果圖像在結構上相似,則模型可以了解有關對象類的更精確細節,比如精確到臉上的酒窩或雀斑,這樣可以獲得更高品質的結果。
GAN 的全稱為 Generative Adversarial Networks ,是一種深度學習模型,是近年來複雜分布上非監督學習最具前景的方法之一。該網路模型分為生成網路和判別網路模型,兩個神經網路在相互博弈中,可以獲得逼真的圖像輸出結果。
繼 2016 年 GAN 首次被提出之後,NVIDIA 在此基礎上研發出了 StleGAN,並在 2019 年升級為 StyleGAN2。如之前所說,StyleGAN2 在生成人臉,尤其是生存逼真且不存在的人臉方面已經達到最高性能,更重要的是,該模型已經在 GitHub 開源。
GP 創建者表示,它利用的就是開源的 StyleGAN2 模型,並用色情數據集加載到其中進行訓練。這個過程與其他換臉 Deepfake 相似,但不同的是,GP 使用的不是一張人臉多種表情組成的數據集,而是多個數據集中提取的數據。
同時,他也強調雖然 GP 生成的色情內容非常逼真,肉眼甚至看不出任何破綻,但它生成的是不存在的人臉。
遭多個平台封殺,創建者:我只是想炫耀一下
今年 9 月,這位博士生在 Reddit 上開設論壇,開始炫耀其用 GP 軟體生成的色情作品。按照他的說法,在創建 GP 之初,已經曾考慮過道德層面的問題了。最後之所以選擇現有色情作品做為訓練數據集,部分原因也是出於道德層面的考慮。
這位博士生是一位電腦科學相關的學生,同時也是一位 AI 技術狂熱愛好者。他說,
這一切的開始都是出於對技術的好奇和熱愛,尤其是轉向生成色情作品以後,這是一項非常酷的技術。
一開始,他計劃製作一個 OnlyFans,提供定制化的 AI 裸體影片,但是這個想法遭到好友反對,因此,他將目標轉向了色情公司的作品集。在他看來,利用成人色情作品,並切換成不存在的人臉圖像,創建的色情圖像可以避免道德上的譴責。
但事實可能並非如此,儘管是成人作品,但涉及到的女性並未給予授權,因此依然屬於非法盜用。此外,其數據集所屬公司 Czech Casting 正在面臨刑事訴訟。
警方指控該公司透過販賣人口和性侵來非法獲取女性色情圖像和影片,並勒令其向 22 名影片中的女性支付近 1,300 萬美元的精神賠償。同時,其創始人也正被聯邦調查局(FBI)通緝。
而他對此並非不了解,因此,他解釋了兩點:
- 一是要透過演算法生成完整的裸露身體,需要更多真實且裸露的圖像和影片,而 Czech Casting 的影片無疑是最佳資源。
- 二是有些女性是專門從事這項工作的,我無法透過圖片判斷其背後的故事,因此只能假設這些資源是可以利用的。
此外,雖然一再強調已經盡力在規避道德問題,但他還是在 XVideos、Pornhub、XHamster、Twitter、Facebook 多個網站上開通了個人帳號並分享其色情作品。
目前,多個社交平台已經將其帳號封禁。其中,XHamster 刪除 GP 用戶資料的同時也表示,
這些類型的內容確實屬於灰色地帶,我們需要與自己的機器學習團隊以及 TOS 團隊一起審查,以確定該如何評估和預防。
Deepfake 的正確使用方式為何
除了 GP,DeepNude 創建者也是出於對技術研究的熱忱。
但無論是出於什麼原因,他們的做法確實濫用 AI 技術產生惡劣的影響。而且如果從技術的角度來講,他們應該處理好數據隱私問題,包括數據集授權以及社群網路分享。
這一點可以借鑑 Facebook 的做法。
2019 年,Facebook 為應對社群網路中充斥的色情影片造假問題,發起了 Deepfake 挑戰賽(Deepfakes Detection Challenge)。
(Source:影片截圖)
該挑戰賽的所用數據集就包含了 10 萬張色情演員的表演影片,供研究人員使用。但重點是,該數據集已付費並獲得授權,同時技術測試內容也禁止任何社交平台分享。正如數據科學家喬杜里(Chowdhury)所說:「在未經授權的情況下使用資料庫圖像的 AI 是不道德的。」
但事實上,除了專業機構外,大部分利用 AI 生成的虛假影片均未獲得授權,而且其中色情影片占比最高,達到了 96%。據了解,Facebook 託管在 Kaggle 的色情數據集也曾多次被盜取(Kaggle 是為開發商、數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的專業平台)。
正因如此,Deepfake 逐漸淪為一個臭名昭著的造假軟體。為遏制虛假內容的生成,Facebook 的努力已經初見成效(辨識準確率可達 82.56%),但想要完全關上潘朵拉的盒子,還需要更多企業、學界以及開發者的共同努力。
- ‘Frankenstein’s Monster:’ Images of Sexual Abuse Are Fueling Algorithmic Porn
- This Website Uses AI to Generate the Faces of People Who Don’t Exist
- We Are Truly Fucked: Everyone Is Making AI-Generated Fake Porn Now