中國 AI 另類經濟,廉價人工湧向數據標籤公司

25

傳統觀點認為,採用更先進的技術,那些從事低技術工作的人將成為最大受害者,學術研究大多支持這一點,但這並不代表技術必然會取代所有工作,譬如 AI 需要大量數據來學習和辨別模式,要教授演算法如何準確辨識蘋果是一個蘋果,它需要成千上萬的蘋果圖片,而這些數據無論是照片、影片或聲音檔都需要有人做貼標籤的工作,由此催生中國內陸城市誕生許多小型數據貼標公司。

據 VICE Media 旗下網站 Motherboard 報導,這些從事數據貼標的人每天坐在電腦前 8 小時,點擊幾十張照片,根據客戶要求的規格,標示背景、前景和特定物品,有些人可能會標記醫療掃描檔案,有些人標示風景和樹木照片,有些人標示無人駕駛車輛的道路圖片。這是讓 AI 演算法學習看數據的基礎教材,AI 產業發展仍然需要仰賴這種廉價的人工,因為演算法和機器學習在很多情況下都是由人來訓練。

Perspective Box 透視箱

這是中國 AI 蓬勃發展的冰山一角。去年風險資本家向中國 AI 新創公司投入 50 億美元,超過美國。中國政府已將該領域做為優先事項,並宣布到 2030 年將投入 1,500 億美元。AI 也是中國製造 2025 中列出的十大重點產業之一。中國也是現在是世界上最有價值的 AI 公司商湯科技的所在地,商湯科技專注臉部和圖像識別,並與全國各地的地方政府合作進行監控,據研究公司 CB Insights 稱,商湯科技估值高達 45 億美元。

而風光的 AI 公司幕後推手也包括上述這些勞動密集型數據標籤企業,這些企業為演算法提供和處理大量數據。許多中國年輕人正湧向數據標籤產業,報導訪問一家有 100 多名員工,設在河南鄭州的數據標籤公司老闆表示,雖然標籤工作是相當低級別的工作,但進入門檻相對較低,而且仍然是 AI 產業,「如果可以從這裡開始,我們可以慢慢地,一步一步地走向更高價值的東西。」

數據貼標者的月工資從 2 千人民幣到 4 千人民幣不等,與中國工人的平均可支配收入或稅後帶回家收入相當,2017 年為 2,164 人民幣。

現在 AI 照片辨識教學的標準是使用 ImageNet 的圖像,這是一個由史丹佛大學教授李飛飛和她的團隊創建的超過 1,400 萬張圖像的資料庫,該資料庫根據亞馬遜的 Mechanical Turk,Mechanical Turk 將勞動密集型任務以一張圖幾美分價錢外包給網路用戶。

隨著 AI 應用愈來愈多,ImageNet 和 Mechanical Turk 證明是不夠的,譬如辨識醫療圖像需要非常詳細的要點,才能幫助 AI 了解差異,由於一般 AI 公司只有少數幾個數據科學家,需要大量的體力勞動,無法指望那些薪水如此高的人從事這項勞動密集型工作,所以這項工作必須外包。

標籤工作也擴展到圖片之外,聲音識別、影音標籤甚至原始數據都是一門生意,譬如河南的公司幫一家客戶收集當地講方言的兒童語音。但是任何一個低技術勞力工作最有可能被時代淘汰,當有一天演算法學會自己識別事物時會發生什麼事,這些數據標籤公司的老闆並不擔心這個,還說「如果它真的處於那個階段,那麼也許人類將不再活著」。

(首圖來源:Flickr/Maxime Guilbot CC BY 2.0)

Perspective Box 透視箱