為什麼手機能認出戴口罩的你？主要是「它」的功勞

Auto Post

6 年前

武漢肺炎（COVID-19、新冠肺炎）疫情讓臉部解鎖功能低下高貴的頭，當口罩成為出門必備品，解鎖手機時總要經歷「臉部辨識失敗→輸入密碼」的麻煩過程，不由得讓人懷念起指紋辨識。

為了優化臉部解鎖體驗，今年稍早創業者 Danielle Baskin 推出帶臉部資訊的口罩，透過擷取用戶臉部資訊，然後印在口罩外側，用戶就算戴口罩也可拼成完整的臉。

▲ 但有點驚悚。（Source：Danielle Baskin）

不過產品解鎖成功率不明確，且沒有大量樣本證明有用。那要如何讓臉部辨識不再被口罩困擾？

一些網友漸漸發現，隨著戴口罩時間越來越久，手機似乎由一次次解鎖失敗找到「經驗」，逐漸能辨識成功戴著口罩的主人。

靠這思路，一些科技網紅也分享更有效的教程，如戴口罩反覆解鎖，臉部辨識不成功就立即輸入密碼，循環這動作 30 分鐘左右，手機便能辨識戴口罩的自己了。

▲ 戴口罩成功臉部解鎖。（Source：Farhad Usmanoff）

不過網友表示，不同機型的「學習」速度不一，有人重複 20 分鐘便成功，但有人重複上千次，手機仍無法辨識戴口罩的人。

為什麼會出現這種情況？答案和手機 AI 學習能力有關。

內容目錄 隱藏

深度學習利器──NPU

如果有關注近兩年的手機發表會，一定會發現手機廠商介紹 SoC 晶片時，都會重點提到 NPU 升級。

NPU 就是神經網路處理器。手機晶片一般分為幾個功能區，發表會常提到的有 3 個：一是擅長處理繁複工作和發號指令的 CPU，二是擅長圖形處理的 GPU，再來就是擅長處理人工智慧任務的 NPU。

雖然 NPU「占地」沒有 CPU 和 GPU 大，但能力卻不容忽視，手機的智慧程度就靠它了。

訓練手機辨識戴口罩的人，便主要歸功於 NPU 的能力。鏡頭捕捉到臉部後，CPU 和 GPU 會在極短時間前端處理圖片，然後 NPU、GPU 偵測擷取特徵，最後 CPU、GPU 和 NPU 共同完成臉部辨識分類。

得益於日益強大的運算力，整個過程能到「無感」程度。我們拿起手機的瞬間，上述流程便處理完畢。

NPU 的加入，讓手機認識不同狀態的你。早上剛起床時，即便浮腫，手機也知道這就是你，甚至被馬蜂蟄了、嘴巴腫成「香腸」，手機依然能辨識你。

所以經過定量訓練後，手機便可「無懼口罩」認出你了。

如果只靠演算法，CPU 和 GPU 也能配合學習，但缺點是效率低且功耗大。據《汽車電子與軟體》介紹，CPU 和 GPU 需使用數千條指令完成神經元處理，NPU 只需一條或幾條就能完成。

▲ NPU 學習效率頗高。（Source：Android Authority）

另外同等功耗下，NPU 效能是 GPU 的 18 倍，可看出 NPU 深度學習的處理效率方面有明顯優勢。

說到這不得不提 NPU 的工作原理。NPU 的學習效率高，不是因為喝了「紅牛」，而是在電路層模擬人類神經元和突觸，使用深度學習指令集，直接處理大規模的神經元和突觸。透過突出權重達成儲存和計算一體化，NPU 一條指令就能勝任以往 CPU 和 GPU 的上千條指令。

打個不準確的比喻，就像電商的倉儲、物流一體化，提高送貨效率，當天買當天就能拿到商品。

NPU 並不雞肋

中國最早研究 NPU 的企業當屬寒武紀。2017 年發表的麒麟 970 晶片，就採用寒武紀 NPU 架構，麒麟 970 也為世界首款行動端 AI 晶片。

華為表示整合 NPU 單元的麒麟 970，相較 4 個 Cortex-A73 核心處理同樣的 AI 任務時，擁有約 50 倍能效和 25 倍效能優勢。例如影像辨識速度可達約每分鐘 2 千張，遠高於業界水準。

11 天後，iPhone 8 / 8 Plus、iPhone X 帶著 A11 仿生晶片問世，蘋果表示這是有史以來最強大、最智慧的晶片。

A11 Bionic 是蘋果首款以「仿生」命名的處理器，也是蘋果第一款支援 AI 加速的處理器。比如臉部辨識，神經網路引擎讓 A11 支援速度高達每秒 6 千億次運算辨識。

也是從這年開始，越來越多廠商重視手機 AI 能力宣傳。如華為主打的 AI 攝影、超級夜景、隔空手勢等功能；iPhone 引以為傲的 Face ID、人像景深、Deep Fusion（深度融合）等功能，都依賴 NPU 的能力。

▲ 華為 AI 手勢操控。

2019 年 6 月開始，麒麟 810 發表，華為開始使用自研達芬奇架構的手機 AI 晶片。達芬奇架構的巧妙之處在於各單元分工清晰，可有更高效的 AI 計算。

據《電子產品世界》介紹，達芬奇架構核心的 3D Cube、Vector 向量計算單元、Scalar 純量計算單元等，都各自負責不同運算並列化計算模型，共同保證 AI 計算高效處理，達成高算力、高能效、靈活可裁剪的特徴。

剛結束的 Mate 40 系列發表會，華為強調麒麟 9000 晶片 NPU 升級到達芬奇架構 2.0 版本，算力翻倍。AI 計算能力更強同時，效能提升 15%，網路執行效能也提升 20%。

蘇黎世聯邦理工學院的 AI Benchmark 榜單，麒麟 9000 摘得 Android 陣營桂冠，分數是高通驍龍 865+ 兩倍多。

▲ AI Benchmark 榜單。

至於麒麟 9000 也進化到每秒 2 千張的速度。發表會重點展示的 AI 隔空手勢、AI 靈動熄螢幕、AI 字幕等，也都是 NPU 能力的顯現。尤其「智感支付」功能，當手機感測到掃碼盒時，便會自動出現付款碼頁面，一氣呵成完成支付。

▲ 華為智感支付。（Source：VDGER）

第四代 iPad Air 發表時，蘋果也強調 NPU 能力精進。相比 A12 仿生處理器，A14 仿生新一代神經網路引擎讓機器學習效能快達兩倍。

超高的機器學習速度，讓 A14 仿生晶片達成超級畫素功能，搭配 pixelmator 使用，放大裁切後照片，畫素會自動增補，讓照片更清晰。

反映到 iPhone 12 系列，計算攝影能力也空前改進。舉個例子，延遲攝影時，手機會自動計算被攝物體，如果是拍車流，手機會自動降低快門速度，讓車燈呈現拖影感，畫面流動感更強。

新一代 iPhone 在 Deep Fusion、HDR 影片等方面，與 iPhone 11 相比都有肉眼可見的變化，都得益於 A14 強大的 AI 計算能力。

我們可期待 NPU 什麼？

雖然行動端 NPU 近兩三年才開始大力宣傳，但相關概念在 2013 年就已出現。

當時高通希望透過模仿人腦的計算架構，縮小普通機器運算與人腦的差距，這種透過模擬神經元的運算處理器，高通稱為「Zeroth」。

▲ 高通介紹 Zeroth。

高通 Zeroth 晶片，運算架構模仿人類生物神經細胞的運作模式，是大腦架構層面。NPU 則是模仿大腦功能層面，兩者方向不一樣。高通沒有加入獨立 NPU 大軍，堅持人工智慧引擎 AI Engine 的方向。

高通驍龍 845 發表時，某些外界聲音批評高通沒有順應 NPU 趨勢，以至於 AI 能力落後。高通進階副總裁兼行動業務總經理 Alex Katouzian 回應，雖然沒有獨立神經網路引擎單元，但採用更彈性的機器學習架構（AI Engine），通用平台內最佳化核心，分散於 CPU、GPU、DSP 等每個單元，可針對不同行動終端機提供彈性呼叫各處理單元。

可以這樣理解：NPU 的方向是分工明確，每個單元的集約化程度較高；高通 AI Engine 的方向是「有工作大家一起做」。

直到採用第五代多核人工智慧引擎 AI Engine 驍龍 865 系晶片發表時，高通依舊沒有踏入 NPU 之道。

▲ 高通強調 865 的 AI 能力（左下方）。

不過實際使用，高通驍龍 865 的學習能力依然值得肯定。如近半個月使用搭載高通驍龍 865+ 的 vivo X50 Pro+ 時，每天解鎖十次左右，已能成功辨識戴口罩的主人了。

但從資料看，AI 學習能力落後麒麟 9000 和 A14 不少。NPU 一次次用數據證明自己的 AI 實力，高通下一代 AI Engine 能否力挽狂瀾，還需等 875 系列晶片面世才能知道。

人工智慧時代希望看到的場景是，手機不再被動回應用戶需求，而是能主動分析、感測用戶需求，並預先提供相關服務的智慧裝置。

▲ Mate 40 系列 AI 能力展示。

這方面各家廠商還都在起步階段。如應用建議，目前最好的筆者認為是小米。透過時間和場景等因素分析，每次都能「猜到」想開啟的軟體，並智慧排序在最顯眼的位置。Mate 40 系列支援的「智感支付」更走在 AI 前端，也給人們更多想像空間。

除了手機，NPU 也逐漸應用到平板電腦、筆電等行動端。蘋果近日發表的 M1 晶片就擁有 16 核 NPU，每秒可執行 11 兆次運算，將機器學習速度提升 11 倍，這是傳統 PC 難以企及比擬。

搭載 M1 晶片的 MacBook 系列、Mac mini 將有哪些使用體驗變化，頗令人期待。

目前的軟體生態下，行動端 CPU 和 GPU 提升對用戶日常使用來說感受不強，如 iPhone XS 和 iPhone 12 相比，應用流暢性差不多，會影響用戶體驗的，就是機器學習能力變化，也是為什麼要關注 NPU 發展。

（本文由愛范兒授權轉載；首圖來源：pixabay）