轉載從: Tech News 科技新報
Deepfake 自問世以來,一路向人性陰暗面直奔。民間技術已能將 AI 換臉教程玩得不亦樂乎,但每個人更容易成為受害者:假造綁架影片勒索詐騙,不雅影片損毀名譽,或恐怖影片製造混亂,都因 Deepfake 開源技術變得空前容易。
▲ 讓名人換上小布希的臉部動作。(Source:影片截圖)
PS 摧毀大眾對圖片的信任後,Deepfake 也在摧毀大眾對影片的信任。沒有人想在網路看到自己的面孔說出沒說過的話,許多針對個人的傷害,也因為影響不夠大而投訴無門。
美國正在形成一支 Deepfake 糾察隊,不僅是學校實驗室、研究中心在找尋 Deepfake 的破綻,創業潮流也在興起。
但這是一場造假 AI 與辨別 AI「你有張良計,我有過牆梯」的競賽。每篇檢討 Deepfake 的論文,彷彿幫造假技術修補漏洞,進而更上一層樓。
關上 Deepfake 的潘多拉盒子,他們能做到嗎?
以找出 Deepfake 創業
Shiva Kintali 離開擔任講師 4 年的普林斯頓大學電腦系,正在矽谷創業認證虛擬造影片,合作對象有警察、記者、保險公司等,透過機器學習找尋虛擬影片的破綻,用區塊鏈紀錄資訊等技術來輔助認證。
Kintali 的網站可上傳影像、音訊、影片來分析檢查是否有修改痕跡。他同時開發手機相機應用,用人工智慧為影像添加時間、地點浮水印,並將圖片初始資訊印至區塊鏈。一旦影像的資訊與原始圖片不符,就容易判斷真假。
這些產品希望幫助記者、媒體公司、政治競選團體、執法機構(如 FBI、NSA),保險公司(假事故照片的保險索賠問題)和大公司(如 Facebook、Twitter、Redditt、PornHub),在平台阻止假影片、假音訊、照片傳遞。
由於 Deepfake 降低了影片造假的門檻。面對真假難辨的影像資料,記者不知道能否發表,保險公司不知是應該理賠還是警告詐騙,警察收集證據後,也需要專業工具鑑定圖片和影片的真假。
目前流傳的假影片大多是「淺度造假」,但因數量多,造成無數困擾。史丹佛研究人員向認證公司確認困擾他們的三大問題:數量太多、可用認證時間太短、缺乏標準化工具。
因此,研究者搜尋能大規模應用的檢測方法。Facebook、Twitter 等社群網路爆炸式傳遞的圖片和影像,留給驗證真假的時間越來越短。大眾也不可能僱用專業人士認證。
商用化的影像驗證平台 Truepic 已上線智慧相機應用軟體。用戶將拍下的影像上傳至伺服器,建立時身分驗證照片和影片,獲得唯一編碼。相機應用擷取裝置的感測器資料,在傳送之前加密照片或影片,執行 20 多個影像取證測試,並在幾秒鐘內,將影像加密簽名印至公用區塊鏈,使資訊不可篡改。
這是一種「自證清白」的方式,適用電子商務平台和公民記者類用戶。如果用戶將圖片傳給接收者,Truepic 允許收件人驗證影像的原點和資料的完整性。任何二次傳遞的多媒體材料,都可與區塊鏈原始資訊對比,辨別真假。
在 Deepfake 的威脅下,鑑定圖片影片的真實性,都成了相機應用的賣點。但這類以營利為目的的產品又引起用戶的新擔憂。畢竟,誰能確保 Truepic 也不作惡?
演算法打演算法
位於矽谷的 SRI International AI 中心則「以毒攻毒」,用假影片訓練演算法,讓演算法辨識虛擬痕跡。在人們上傳影片到社交網站時,平台需要重新編碼影片。這是個偵測假影片的好時機。
但隨著 Deepfake 漏洞日漸最佳化,用演算法打演算法的難度也日益增加。
辨別 AI 原本就是訓練造假 AI 的一部分,兩者剛好在生成對抗性網路的兩端。一個是建構程式,一個是認證程式,道高一尺,魔高一丈。
由於 Deepfake 的技術在於篡改資料,認證方則搜尋一切篡改資料的痕跡。一種方法是基於像素的影片偵測,影片其實是成千上萬幀圖片連放,細致到偵測每個像素的改變痕跡,是頗浩大的工程。
此外,假的臉部表情仍有缺陷。假臉部表情往往與其他部分不一致,電腦演算法可偵測圖片或影片的不一致。
▲ 加州大學柏克萊分校研究者比對真假人物的臉部差異。(Source:柏克萊分校)
舉例來說,初代 Deepfake 影片的人物,眨眼方式都有點奇怪。
紐約州立大學奧爾巴尼分校電腦科學副教授 Siwei Lyu 曾撰文表示,成年人眨眼間隔為 2~10 秒,一次眨眼需要十分之一到十分之四秒。這是正常影片人物應有的眨眼頻率,但很多 Deepfake 影片的人做不到。
由於缺乏閉眼影像資料,演算法的訓練並不完美,影片人物面孔總有一種「哪裡不對」的不和諧感。
然而,透過閉眼的臉部影像、或使用影片串列訓練,可改善眨眼間隔。假影片的品質總會提高,而研究人員需要繼續找尋檢測漏洞的方法。
南加大研究者 Wael Abd-Almageed 表示,社群網路可使用演算法大規模辨識 Deepfake。為了做到自動化,研究人員首先建立一個神經網路,「學習」人類說話時如何行動的重要特徵。然後,研究人員使用這些參數將假影片的堆疊幀輸入 AI 模型,偵測隨時間的不一致性。
普渡大學研究人員也採用類似方法,他們認為,隨著訓練模型的 Deepfake 資料量越來越大,模型也會更精確,更容易找出假影片。
美國 2020 年總統大選在即,如何阻止 Deepfake 從低俗娛樂發展到操縱民意,是研究者最迫切的動力之一。但願一鍵辨假的速度,能追上一鍵換臉的速度。
(本文由 PingWest 授權轉載;首圖為示意圖,來源:pixabay)