即使現在網際網路滲透到生活各方面,但依然只是現實的物理世界在虛擬的網路空間按位元訊息編碼後的投射。
這就意味著自動化程式同樣可以模仿人的行為,因為機器速度更快且不知疲倦,會用於批量在論壇、網站、App 發行銷訊息。在監管不足的情況下,利潤更高的行業往往底線更低,自動機器人發的垃圾消息經常和賭博、詐騙、色情等灰色產業有關,一些自動化程式還會嘗試以「撞庫」方式竊取用戶帳號、密碼,為網站帶來巨大的安全隱憂。
驗證碼正是為了解決這樣的問題而生,也是自動化程式,不過目的是區分用戶到底是機器人還是真人。
自動生成的扭曲文字和圖案是最常見的驗證碼,雖然有效辨識很大一部分自動化程式,但對真人用戶的體驗並不好。隨著機器學習發展,破解也越來越容易。
▲ 驗證碼風格的藝術品。(Source:Flickr/Becky Stern CC BY 2.0)
Google 的驗證碼團隊經歷多次創新,比如創造性地把驗證碼用於紙質典籍數位化。在扭曲文字、圖片的主流路線之後,Google 團隊還嘗試新思路,透過追蹤點擊行為等來辨識用戶是否為真人,用戶只需要點擊「我不是機器人」的方框驗證即可。
最新版 Google 驗證碼 reCAPTCHA v3 中,你甚至什麼都不用做,系統就悄悄核驗用戶是不是機器人。技術正在讓「驗證碼」越來越隱形,人類不必再為了自證身分做「反向圖靈測試」,但驗證碼進步也帶來一些新問題。
初代驗證碼 CAPTCHA:歪歪扭扭的文字是為了故意讓機器人看不懂
卡內基美隆大學校舍不大,學校排名也和常春藤盟校也有一定差異,但有全美排名第一的電腦科學專業。
這所學校出了 13 名圖靈獎得主,其中一位 Herbert Simon 還因為把電腦科學和系統理論、運籌學結合用於管理決策問題,開創了「決策理論」,3 年後獲得諾貝爾經濟學獎。
在嚴肅的學術研究之外,卡內基美隆大學還有一些對電腦和網際網路行業影響深遠的「小發明」,比如給 emoji 產業靈感的第一個笑臉符號「:-)」,以及「煩人」的驗證碼。
2000 年,從杜克大學數學系畢業,到卡內基梅隆大學讀電腦科學博士的路易斯‧馮‧安(Luis von Ahn)和導師一起提出驗證碼的概念,全稱是全自動區分電腦和人類的公開圖靈測試(Completely Automated Public Turing test to tell Computers and Humans Apart,CAPTCHA)。
▲ 路易斯‧馮‧安。(Source:EneasMx [CC BY-SA 4.0], via Wikimedia Commons)
圖靈測試由電腦先驅人物,「人工智慧之父」艾倫‧圖靈提出,如果一台電腦能和人類對話不被認出是機器人,即認為通過圖靈測試。驗證碼也是一種圖靈測試,不過目的不是為了認出人工智慧,而是辨識真實的人類用戶。
一種最常見的驗證碼是由演算法生成的扭曲文字,這麼做是為了防止光學字符辨識程序(OCR)自動辨識。
(Source:Martin [Public domain], via Wikimedia Commons)
還有一些更現代的方法,包括在字上加條曲線、將不同字母疊在一起或添加複雜的背景。
(Source:BMaurer at English Wikipedia [Public domain], via Wikimedia Commons)
圖片驗證碼也大行其道,包括要求用戶辨識圖片的物體,以及把缺失部分拖到正確的位置和拼圖等。
不管形式如何,這些驗證碼有一個共同原則:人類很容易辨識,但對電腦來說非常困難。一位人工智慧研究者在自己的 Podcasting 有更詳細的解釋,為避免 CAPTCHA 過難而使網站損失用戶,通常要求人類用戶通過測試的時間小於 30 秒,用戶通過率大於 90%(引自 CSDN 用戶 luolan9611)。
還有一個普通人不會知道的點,驗證碼被稱為「圖靈測試」,所以設計之初就有促進人工智慧發展的意圖。
根據定義,驗證碼演算法必須公開,目的是為了讓破解驗證碼的過程也是解決對應的人工智慧問題,例如圖像辨識、準確度更高的 OCR 等,破解者不必花費心思逆向工程推算演算法。
再次引用上文提到的研究者博文:
CAPTCHA 機制的研究是雙贏局面。CAPTCHA 的設計和破解研究呈現「設計─辨識─再設計─再辨識」的互相攀升現象,促使 CAPTCHA 研究不斷向前發展,帶來 CAPTCHA 機制的強健性和可用性不斷提升。
reCAPTCHA:驗證碼還能用於紙質典籍數位化
驗證碼發明人路易斯‧馮‧安除了是電腦科學家,還是企業家,但是那種相信人性美好,希望藉助技術,創造商業價值同時能附帶創造社會價值的人。
馮‧安的博士論文完成於 2005 年,他創造一個新概念「人本計算」(Human-based Computation),即把人腦和電腦結合,完成兩者都無法單獨完成的工作。實現方式中「眾包」是最典型的,馮‧安也公認是眾包先驅。
不僅是理論提出者,馮‧安也是實踐先驅。驗證碼已廣泛用於各大網站、App,有數據顯示,這項技術推出後短短 5 年內,每天有 2 億個驗證碼使用。
很快,他提出一個新的計畫 reCAPTCHA,主要用於把網際網路出現前的紙質典籍數位化。思路是這樣的:驗證碼系統會向用戶出示兩個單詞,第一個是正常的自動生成扭曲文字,另外一個則來自紙質典籍的掃描版,通常因年代久遠、紙有污點等原因難以被 OCR 程式辨識。
(Source:The New York Times [Public domain], via Wikimedia Commons)
用戶輸入驗證碼時,只要第一個單詞輸入正確就可判別為人類,輸入第二個單詞就成了「義務勞動」。系統會默認這個單詞輸入正確,並與其他用戶的輸入結果對比,如果多名用戶答案一致,這個詞的數位化就完成了。
不要小看這樣一個詞一個詞積累,推出之初,reCAPTCHA 每天就能收錄 3,000 萬個字詞。2011 年,已完成全部《紐約時報》數位化工作,這份從 1851 年開始出版的老報紙有大量純紙版內容。
2009 年,Google 看上這個計畫的價值,出手收購 reCAPTCHA,也被 Facebook、Twitter、CNBC 等媒體使用。幫助這些流量最大的網站抵禦自動化程式騷擾同時,Google 圖書難以自動辨識的掃描版古老典籍,同樣藉助 reCAPTCHA 得以數位化。
(Source:PCBheaven)
此後,reCAPTCHA 還用於幫助機器學習系統提高圖像辨識率,運作原理和前述方法一樣,機器難以辨別的門牌號、貓狗照片都拿來當驗證碼考人類。
辨識驗證碼的同時,用戶實際在幫機器學習系統標註訓練集,所以 AlphaGo 背後的人工智慧技術,可能早就有你一份功勞。
順便提一下,reCAPTCHA 被 Google 收購後,馮‧安還有很多基於「人本計算」的計畫,比如「帶著目的玩遊戲」(Games With A Purpose,簡稱 GWAPs),遊戲 2 個人同玩,如果 2 名玩家對一張圖片的描述一致即可得分,實際上,玩遊戲時也幫人工智慧標註數據。
2014 年,馮‧安創辦了一家更知名的公司──多鄰國(Duolingo),這個學外語的應用同樣採用「眾包」模式,用戶免費學習外語時,也反過來協助建構多國的語言課程,讓其他人也能多學習一種語言。
NoCAPTCHA:不用輸入字符的新驗證碼,以及隱私風險
一家公司的「基因」通常和人一樣,與生俱來,難以改變。
收購 reCAPTCHA 後,Google 改進它,以 Google 的方式。
2014 年,Google 推出新的驗證碼系統 NoCAPTCHA reCAPTCHA,名字有點拗口,核心是不需要輸入驗證碼的驗證系統,用戶只需點擊「我不是機器人」的方框,Google 就能判別你是不是真人。
(Source:Google)
reCAPTCHA 的口號也從「別發垃圾訊息了,讀點書吧」(Stop Spam. Read Books),變成驗證碼最初的目的「對人類簡單,對機器人困難」(Easy on Humans, Hard on Bots.)。
NoCAPTCHA 的工作機制是追蹤用戶點擊驗證框之前、當時和之後的行為,比如在網頁花費的時間,判斷是否人為操作。
如果你被誤判為機器人,還有「申訴」的機會,就是從一堆圖片選出正確的目標。
(Source:Google)
2018 年,Google 再次升級了 reCAPTCHA,稱為 v3 的版本中,用戶連「我不是機器人」方框也看不到了,系統會在背後悄悄分析用戶瀏覽網站的方式,並根據行為的惡意程度給予風險評分。如果用戶評分過低,網站可能要求用戶輸入更多訊息證明身分。
目前有 65 萬個網站使用最新的 reCAPTCHA v3,使用 reCAPTCHA 的網站超過 450 萬,包括 Top 1000 網站的 25%。
在 Google 看來,這是最好的體驗,用戶不需輸入任何資訊,且破解程式很難學習。唯一的問題是,Google 掌握越來越多用戶的隱私。
據 FastCompany 報導,2 位研究者測試 reCAPTCHA v3 後發現,用戶是否使用 Google Cookies 是決定評分的重要因素。也就是說,如果用戶選擇讓 Google 記住登錄資訊,會得到更高分;沒有登錄 Google 帳號,或使用 VPN、洋蔥瀏覽器(Tor Browser),通常會被提示高風險。
另外,使用 reCAPTCHA v3 的網站被鼓勵在網站每個頁面放置 reCAPTCHA v3 代碼,而不只在登錄頁面,因為 reCAPTCHA 系統會追蹤用戶的所有瀏覽行為再分析。
兩個因素結合,Google 可獲得幾乎所有用戶行為。FastCompany 的報導刊出後,Google 確認,用戶使用的硬體資訊及設備軟體會發送回 Google 服務器,但表示獲得的結果「只用於分析用戶行為,不用於個性化廣告推薦」。
2018 年,Facebook 遭遇史上最大危機,除了商業廣告收入增速放緩,在監管和大眾層面,身為最大的社交網路和網路廣告公司之一,Facebook 對用戶隱私保護不力激起前所未有的質疑。Google 也被牽連。但不可逆轉的趨勢是,我們的一舉一動都被網際網路巨頭「登記在案」,從這個層面來看,隱私保護方面,監管部門應該對大公司有更高的要求。