歐巴馬遭強行「洗白」後，AI 藝術創作又犯了種族偏見大忌

由

Auto Post

2021-01-01

轉載從: Tech News 科技新報

Perspective Box 透視箱

你能辨識哪幅藝術作品是 AI 創作的嗎？

▲ 你能辨識哪幅藝術作品是 AI 創作的嗎？（Source：Ahmed Elgammal）

即使最有經驗的藝術家，有時也無法區分 AI 作品與人類作品。巴塞爾藝術展時，有 53% 觀眾認為這些作品全部都是人類創作的。

事實上它們全部來自羅格斯大學（ Rutgers University ）藝術與人工智慧實驗室團隊創建的神經網路 AI 。

AI 已學會辨識經典藝術作品的創作風格和手法，並融匯貫通創作出全新作品。以上作品的創作素材來自 15~20 世紀 1 千多名藝術家 8 萬多幅畫作，涉及印象派繪畫、立體派繪畫，以及文藝復興早期繪畫等不同風格。

憑著快速高效且絲毫不遜於人類的創作能力，AI 廣泛應用於藝術創作領域。但隨著 AI 作品日益增多，我們不得不思考一個問題：稱為「黑匣子」的藝術創作過程中，AI 演算法是否有偏見？

近日，美國 Fujitsu AI Lab 研究人員發表最新論文：《藝術史視角下的生成藝術偏見》。明確指出：AI 藝術創作過程沒有考慮到社會倫理的影響，表現出明顯的偏見。

內容目錄 隱藏

1 AI 藝術創作背後的三大偏見

2 歐巴馬被洗白，AI 種族偏見惹爭議

3 如何避免資料庫偏差？

AI 藝術創作背後的三大偏見

研究人員透過因果模型 DAG，測試現有 AI 藝術創作工具和作品，以發現是否有偏見。

為了確保研究準確性，他們調查學術論文的 AI 模型、線上 AI 平台及相關應用程序，並選擇藝術風格（文藝復興藝術、印象主義、表現主義、後印象主義和浪漫主義）、流派（風景畫、肖像畫、戰爭畫、素描和插圖）、材料（木版畫、雕刻、繪畫）及藝術家（杭特、瑪麗·卡薩特、文森·梵谷、古斯塔夫·多雷、吉諾·塞維里尼）等多類型 AI 藝術作品一一評估。

某項測試中，他們發現 AI 生成藝術工具 Abacus 有明顯的性別偏見，如皮耶羅·迪·科西莫（Piero di Cosimo）畫作《一個年輕人的肖像》是一位留著長髮的年輕男性（下圖 iii），卻辨識成女性（iii-iv）。

▲ (i) 是拉斐爾的男人肖像、(iii) 是科西莫的年輕人肖像。(ii) 和 (iv)：分別是 (i) 和 (iii) 性別轉換。長髮的年輕人被 Abacus 判別為女性。（Source：arXiv.org，下同）

另外，還有些 AI 工具可能涉及種族主義偏見。如 GoArt，允許用戶以其他藝術家的風格重新繪製圖片。表現主義創作中，GoArt 將克萊曼甸·杭特（Clementine Hunter）的黑人女族長臉從黑色變成紅色。

而德賽德里奧·達·塞蒂格納諾（Desiderio da Settignano）在文藝復興時期創作的白色雕塑《喬維內托》，在表現主義轉換時，臉部顏色沒有變成紅色。

類似 GoArt 的 AI 工具 Deepart 藝術風格辨識也有明顯缺陷。如下圖中間《瑪麗·埃里森小姐》（現實主義風格）轉換成左圖，並沒有呈現出表現主義的藝術特點。

右圖為表現主義作品：恩斯特·路德維希·克爾希納（Ernst Ludwig Kirchner）的《爾納》。

無論 AI 繪畫還是寫作或創作音樂，基本原理都是先經由龐大資料庫訓練，學習相關知識，然後再經過 AI 模型完成訓練和輸出。

研究人員認為，以上輸出之所以有偏見，根本原因應歸咎於訓練資料庫不平衡。主要體現在兩點：一是資料庫收集受人為偏好影響。如他們發現 AI 應用程序 Portr AI ts，使用 4.5 萬幅文藝復興時期的肖像畫大部分是白人。

二是資料庫標籤不一致，或模型學習標籤註釋資料庫的過程產生偏差。不同的註釋者有不同偏好、文化和信仰，這些都可能反映到創建的資料庫標籤。

最後研究人員也警告，AI 研究人員和實踐者檢查、設計及應用過程應充分考慮社會政治背景因素，透過錯誤建模或忽略創建資料庫的某些細節，AI 創作藝術可能會引起人們對社會、文化和政治方面的誤解，或引起不必要的爭議和衝突。

目前無論業界還是學術界，對 AI 演算法可能有的偏見已引起廣泛注意，因已多次挑起種族主義風波。

歐巴馬被洗白，AI 種族偏見惹爭議

近幾年隨著研究不斷突破，電腦視覺技術發展突飛猛進。

因此不僅藝術領域，AI 在更廣泛的圖像辨識與合成均有潛在的偏見風險，尤其涉及人臉圖像。如 2020 年上半，杜克大學出品的 PLUSE 演算法便被指責有種族歧視，在社群平台引起軒然大波。

起因是 PULSE 將前美國前總統巴拉克·歐巴馬（Barack Obama）圖像變成白人。

（Source：Chicken3gg）

PULSE 是新型超解析度演算法，功能是將低解析度圖像轉為高清圖像（生成逼真且不存在的人），但輸出結果產生明顯的膚色偏好。

不僅是歐巴馬，網友測試中，美國國會議員亞歷山大·奧卡西奧·科爾特斯（Lexandria-Ocasio Cortez）、女星劉玉玲（Lucy Liu）等人的膚色也被 PULSE 變成白色。

▲ Cortez。（Source：囧Robert Osazuwa Ness囧，下同）

▲ 劉玉玲。

因此不少網友認為，AI 有根深蒂固的種族偏見。

當時 PULSE 創建者也承認，演算法按比例放大畫素化圖像時更可能生成具白種人特徵的人臉。而且他說：「這種偏見很可能是 StyleGAN 從資料庫繼承的。」

其實這問題在機器學習極普遍，主因是訓練 AI 的資料庫通常是在人口統計學佔優勢的白人。如果資料庫不出現或較少出現黑人，就會影響 AI 模型性能，導致輸出結果是白人的機率更高。除此案例外，AI 臉部辨識演算法也多次引發種族爭議。

若資料庫有偏差，必然會導致演算法偏見，那如何才能有效改善資料庫？

如何避免資料庫偏差？

資料庫是 AI 研究的基礎，如何修正和完整資料庫一直是研究人員關注的重點。

除了頻頻引發爭議的種族偏差、性別偏差，資料庫在研究過程也有測量偏差、排除偏差及關聯偏差等一系列問題。不過近幾年針對如何解決資料庫偏見問題，研究人員也開發出應對措施，如少量標註，提高模型泛化能力，減少人為標註帶來的偏差等。

總體來說，防止資料庫偏差是持續過程，有時很難知道資料庫或模型何時出現偏差，且不同資料庫也有不同標準。不過相關研究人員也總結以下通用準則，幫助我們及早發現和減少偏差：

注意一般用例和潛在異常值，確保資料科學家和標籤團隊多元化。
為資料庫標籤創建黃金標準，確保測量團隊註釋的準確性和一致性。
對可能出現資料庫偏差的項目，使用多次註釋。如情感分析、內容審核和意圖辨識。
收集更多與敏感群體相關的訓練資料庫解決不公平的問題。
Google、IBM 和微軟等均發表過工具和指南，可用來分析不同資料庫類型的偏差。

（本文由雷鋒網授權轉載；首圖來源：shutterstock）

Perspective Box 透視箱