LeCun 又紅了！1993 年首次文本辨識 CNN 影片衝上 Reddit 熱門榜

Auto Post

5 年前

提到卷積神經網路大家可能並不陌生，是深度學習（Deep Learning）的經典演算法之一，自 1990 年代以來，在電腦視覺、自然語言處理領域不斷取得驚人結果。

卷積神經網路（Convolutional Neural Networks，CNN）首次用於文本辨識示範是 1993 年的貝爾實驗室（AT&T Bell Laboratories），示範者就是有「CNN 之父」之稱的 Yann LeCun。

最近 LeCun 當年示範影片被網友挖出，並迅速登上 Reddit 熱搜，有近千人點讚。

（Source：Reddit）

有網友評論，示範影片出現前就像通用人工智慧（AGI）和其他難題，這種文本辨識都認為不可能完成。還有不少網友留言，說他們是真正的工程師，向他們致敬。

據悉，這支影片展示世界首次用於文本辨識的卷積神經網路，是之後 CNN 廣泛應用於電腦視覺、自然語言處理領域的重要開端。

CNN：辨識手寫數字任務

1990 年代初，LeCun 加入當時最負盛名的研究機構之一貝爾實驗室。彼時才 32 歲的他，與同事創建可讀取並辨識手寫數字的系統，是典型的點到點圖像辨識系統。

（Source：影片截圖，下同）

示範影片中，系統快速且精準辨識出手寫數字 210-949-4038。據說這是 LeCun 的貝爾實驗室電話號碼。

另外，它在處理更密集更多樣的數字辨識任務時，也表現出良好性能，這在 1990 年代非常難能可貴。

參與這項實驗的研究人員還有實驗室負責人 Rich Howard 和電腦專家 Donnie Henderson。

據了解，此程式開發主要是為了應用於 NCR（National Cash Register Coporation）的支票讀取系統。

總體而言，由於數值計算能力有限、學習樣本不足，加上同時期以支持向量機（Support Vector Machine，SVM）為代表的核學習（kernel learning）法興起，故為了各類圖像處理問題設計的卷積神經網路還停留在實驗室研究階段。

不過到 1998 年，Yann LeCun 及合作者共同構建更完備的卷積神經網路 LeNet-5，並在手寫數字辨識問題取得更進一步的成功。截至 1990 年代末期，此系統處理了美國 10%~20% 支票辨識。

其實 LeNet-5 神經網路早在 1989 年 LeCun 就已提出。LeNet 最初版包含兩個卷積層，2 個全連接層，共計 6 萬個學習參數，規模遠超 TDNN 和 SIANN，且結構與現代卷積神經網路十分接近。

LeCun 於 1989 年發表的《使用反向傳播和神經網路辨識手寫數字》論文，論述網路結構時首次使用「卷積」一詞，「卷積神經網路」自此誕生，之後 LeCun 便被稱為「CNN 之父」。

MNIST 數據集

基於這項實驗，LeCun 還創建了經典手寫數據集 MNIST，是研究機器學習、模式辨識等任務的高品質資料庫，Hinton 稱為「機器學習界的果蠅」。

MNIST 手寫數字圖像資料庫為機器學習基準使用了 20 餘年，包含訓練集和測試集，訓練集有 6 萬個樣本，測試集有 1 萬個樣本，每個樣本都是一張 28×28 畫素的灰度手寫數字圖片。

▲ MNIST 資料庫有各種（0~9）手寫數字。

據悉，MNIST 資料庫抽取自 NIST 資料庫。其中訓練數據來自 2,000 名人口普查局僱員的手寫字，測試數據來自 500 名在校生的手寫字。由於測試集樣本較少，MNIST 很難提供有意義的置信區間。2019 年 6 月，來自 Facebook 和紐約大學的研究者擴展重建資料庫，新增 5 萬個樣本。LeCun 在 Twitter 轉發，新資料庫重生、恢復、擴展了 MNIST。

目前資料庫含以下四類文件：

手寫數字辨識是電腦視覺領域的基本項目，相當於傳說中機器學習入門的「Hello World」，因此 MNIST 資料庫也有廣泛使用。

深度學習之父 Yan LeCun

自 1998 年之後，LeCun 一直深耕深度學習領域，還發表多本重要論文，如 OverFeat 檢測框架、CNN 用於立體匹配、DropConnect 方法等，總引用量超過 10 萬次。

2015 年，他與蒙特利爾大學教授 Yoshua Bengio、Google 副總裁兼工程研究員 Geoffrey Hinton 合著發表《深度學習》綜述論文，並登上《Nature》。

LeCun 是 CNN 的重要推動者。2018 年，Yann 因「將反向傳播演算法引入 CNN，並發明權值共享、池化等技巧，讓 CNN 真正可用」，獲得 ACM（Association for ComputingMachinery，國際電腦協會）頒發的 2018 圖靈獎。

宣布獲獎者時，ACM 學會稱三位電腦科學家為「深度學習革命之父」，並指出「三位科學家在概念和工程學方面取得的突破，讓深度神經網路成為計算的關鍵」。

圖靈獎有「電腦界的諾貝爾獎」之稱，由英國數學家艾倫·圖靈名字而來，因其發明最早的人造電腦模型「圖靈機」。共同獲獎的還有 Yoshua Bengio、Geoffrey Hinton。

值得一提的是，Hinton 還是 LeCun 就讀多倫多大學博士期間的教授。Hinton 主要研究神經網路用於機器學習、記憶、感測和符號處理法。當時深度神經網路學科是大冷門，LeCun 的神經網路研究受到 Hinton 不少指導和幫助。

除此之外，LeCun 曾獲 IEEE 神經網路先驅獎（2014）、IEEE PAMI 傑出研究員獎（2015），目前是紐約大學數據科學中心創辦主任、Facebook 副總裁兼首席人工智慧科學家。

2020 AAAI 大會，LeCun 針對 AI 的未來發表名為「Self-Supervised Learning」主題演講，他認為深度學習已至瓶頸，而自監督學習才是 AI 的光明前景。他說，雖然自動駕駛、語言翻譯、聊天機器人等方面，深度學習有一席之地，但卻無法創造出「真正的」人工智慧。

而自監督學習因更接近人類的學習過程，將是未來的發展趨勢。

（本文由雷鋒網授權轉載；首圖來源：Flickr/Ecole polytechnique CC BY 2.0）