在人工智慧晶片戰場追逐 GPU 背影的英特爾

由

2020-02-13

環顧歷史名將如拿破崙、古德林、隆美爾，乃至波斯灣戰爭的美國陸軍將領，一談到「攻勢」，幾乎無不強調「追擊」的重要，讓敵軍毫無站穩腳跟鞏固和重組的機會而一瀉千里。

反過來說，當這簡單道理套用到商業競爭，意義就不外乎「產品如果無法準時到位（Time To Market）」，特別是在人工智慧這種一堆人還搞不清楚狀況的新興應用領域，或像半導體這種成本和售價會隨技術演進快速滑落的產業，很可能一下子就被競爭對手一舉衝垮，讓產品開發工作左右支絀，無法建立一條穩固的市佔率防線，接著陷入惡性循環，難以翻身。

2016 年 3 月 5 日：nVidia 發表「總算擺脫黏了 4 年的台積電 28 奈米製程」、推進到台積電 16 奈米和三星 14 奈米 Pascal，支援 FP16 半精確度浮點、8 位元整數與相對應的內積向量指令（Vector Dot Product），也具備 NVLink 連接 8 顆 GPU 的延展性，踏出 nVidia GPU 進入人工智慧應用的第一步。

2016 年 5 月 Google I/O：Google 發表第一代推論用的第一代 TPU。

內容目錄 隱藏

1 【延伸閱讀】：【Hot Chips 29】淺談 Google 的 TPU

2 【延伸閱讀】：英特爾將出資高於 4 億美金購買機器深度學習的新創公司 Nervana

3 【延伸閱讀】：英特爾與 AMD 把各自擅長的 CPU、GPU 送作堆，背後脈絡是什麼？

4 【延伸閱讀】：【x86 興衰史】奠定 Intel Xeon Phi 技術基礎的「x86 處理器顯示卡」：Larrabee

5 【延伸閱讀】：Google 物聯網戰略啟動，推 Edge TPU 進軍邊緣運算

6 【延伸閱讀】：NVIDIA Turing 新品發不停，Tesla T4 聚焦資料中心推論應用

7 【延伸閱讀】：英特爾強調 NVIDIA Tensor Core GPU 極適合推論作業的原因

8 【延伸閱讀】：百度、英特爾聯手打造新一代 Nervana NNP 晶片，效能提升 3~4 倍

10 【延伸閱讀】：NVIDIA 發表全球最小邊緣 AI 超級電腦，Jetson 家族讓新創公司面臨更大壓力

11 【延伸閱讀】：3.5 億美元收購失敗？英特爾將停止 NNP-T 開發，專注 Habana Labs

【延伸閱讀】：【Hot Chips 29】淺談 Google 的 TPU

2016 年夏天：英特爾購併「聲稱產品效能將比 GPU 高至少 10 倍」的 Nervana，就為了跟 nVidia GPU 競爭。

【延伸閱讀】：英特爾將出資高於 4 億美金購買機器深度學習的新創公司 Nervana

2016 年 11 月 17 日：英特爾公開 Nervana 代號 Lake Crest 的初步成果，但製程仍停留在台積電 28 奈米，且過沒多久就因 nVidia 推出 Volta 而失去意義。

2017 年 3 月 29 日：nVidia 發表採用 Tegra X2 的「嵌入式人工智慧運算裝置」Jetson TX2，嚴格說來也算是 nVidia GPU 應用的延伸，但早從 2014 年 4 月底就出現的 Jetson 產品線，怎麼看都有一股「幾年來替進攻手機平板都以失敗收場的 Tegra 系統單晶片找出路」的味道。

2017 年 5 月 Google I/O：Google 繼續「按表操課」發表支援浮點運算（Bfloat16 浮點格式）、可同時用於訓練和推論的第二代 TPU。

2017 年 6 月 21 日：nVidia 公開台積電 12 奈米製程「原本產品時程表並沒有」的 Volta，內建 640 個 Tensor Core（張量核心），可執行 4×4 16 位元浮點乘積和，應用於特徵辨識的卷積運算（Convolutional Neural Network，CNN），這讓 Volta 成為 nVidia 史上首款針對人工智慧量身訂做、兼顧「學習／訓練」與「推論／預測」的 GPU 微架構。

Volta 的訓練效率高達 Pascal 的 12 倍，推論性能也達 6 倍之譜，這讓 Nervana 的「Lake Crest 至少有 GPU 十倍」變得毫無意義，nVidia 也藉由 NVswitch 打造出 16 顆 GPU、數量為 DGX-1 兩倍的 DGX-2，英特爾只能重新設計產品，也一再延誤開發時程，直到承諾 2019 年底推出新晶片，屆時距離購併案已超過 3 年。

2017 年 8 月 14 日：AMD 發表「早就簡報講很久」的 Vega（Global Foundry 14 奈米製程），支援 FP16 / INT16 / INT8 包裹式（Packed）計算，並鎖定 FP16 與 INT8 精度，新增約 40 個新指令，也為影像匹配此類應用，提供 SAD（Sum of Absolute Differences，絕對誤差和演算法）指令。AMD 當然也會宣稱「擁有完整的 Software Stack」，至於成效如何，就請各位自由心證，筆者不予評論。

2017 年 11 月 8 日：來自 AMD 的 Raja Koduri 空降英特爾並擔任資深副總裁，宣示打算「砍掉重練」整個繪圖技術，拋棄對 x86 指令集相容性的執念，從頭到尾打造貨真價實 GPGPU，2019 年 3 月公布 GPU 架構的稱呼「Xe」和一個讓人摸不著頭緒、看起來很像「在所有硬體平台包含 FPGA 都能跑的 OpenCL」的「軟體堆疊」OneAPI，就是最後的解答。

【延伸閱讀】：英特爾與 AMD 把各自擅長的 CPU、GPU 送作堆，背後脈絡是什麼？

2018 年 5 月 Google I/O：Google 再接再厲，發表整體效能和規格是前代兩倍的第三代 TPU，不過依然還是 Google 自研自用就是了。

2018 年 7 月 23 日：從 Larrabee 開始掙扎超過十年，英特爾總算完全放棄「超級多核心 x86 處理器絕對無所不能」的南柯大夢，宣佈放棄 Xeon Phi 產品線。有趣的是，停產通知提到「市場對產品的需求已轉移到其他英特爾產品」，但這些產品並不存在於英特爾產品線，沒有任何產品提供類似 Xeon Phi 的性能和功能，這些需求「轉移」到 nVidia 的機率可能還高一點。

筆者 2017 年底就預期 Xeon Phi 的處境非常危險，「x86 義和團」的最後碉堡即將失守，不幸一語成讖，早知就去買樂透。

【延伸閱讀】：【x86 興衰史】奠定 Intel Xeon Phi 技術基礎的「x86 處理器顯示卡」：Larrabee

2018 年 7 月 26 日：Google 發表適用物聯網、「可以在消耗極少資源和能源的情況下提供絕佳效能，因此能夠在邊緣部署高精確度 AI」的邊緣推論用 TPU，這也讓 Google TPU 踏出自家資料中心，與一群盤據半導體市場已久的豺狼虎豹捉對廝殺。

【延伸閱讀】：Google 物聯網戰略啟動，推 Edge TPU 進軍邊緣運算

2018 年 8 月：nVidia 發表採用 Xavier 系統單晶片的 Jetson Xavier，同時應用於邊緣 AI 運算及自動駕駛系統。

2018 年 9 月 20 日：採用台積電 12 奈米製程的 Turing，融合兩者之長，結束了短暫的「消費型」（Pascal）和「專業型」（Volta）分立局面，Tensor Core 增加了新 INT8 和 INT4 精度模式，FP16 半精度能完整支援經常用到的矩陣融合乘加（FMA）運算。

【延伸閱讀】：NVIDIA Turing 新品發不停，Tesla T4 聚焦資料中心推論應用

此外，Tensor Core 也不再只是「限定專業應用」，可用來執行消除混疊的深度學習程式（深度學習超級採樣，DLSS），利用先前向執行 Neural Graphics Framework 的超級電腦，餵食遊戲畫面進行訓練神經網路的學習成果，渲染出接近 64 倍取樣的畫面濾鏡，再套用回玩家的遊戲畫面，柔化畫面鋸齒邊緣。

2019 年 1 月 7 日：AMD 發表採用台積電 7 奈米製程的 Vega，晶片大幅縮小，性能大幅提升，然後我們現在也知道為何 AMD 初代 7 奈米製程 APU 的繪圖核心還是 Vega，不是更新一代的 Navi 了。

2019 年 3 月 19 日：nVidia 再次發表「邊緣 AI 超級電腦」Jetson Nano，也開始有開發者比較與 Google Edge TPU 的優劣勝負。

2019 年 5 月 21 日：nVidia 利用 Anandtech 的報導，倒打英特爾一耙，在官方部落格狂吃英特爾某篇官方文章《Intel CPU 在推論勝過 nVidia GPU》的豆腐。預計 2020 年第二季推出的英特爾下一代 Xeon 平台 Whitley，首款 CPU Cooper Lake（還是繼續擠 14 奈米製程牙膏）會支援 Bfloat16 浮點格式，屆時各位可以期待 nVidia 會不會再如法炮製一番。

【延伸閱讀】：英特爾強調 NVIDIA Tensor Core GPU 極適合推論作業的原因

2019 年 7 月 7 日：AMD「擴大製程領先優勢」發表台積電 7 奈米製程的 Navi，重點集中在結束漫長 GCN 時代的全新 RDNA（Radeon DNA）SIMT 執行單元結構，在人工智慧相關並無著墨，但業界盛傳第二代 RDNA 將支援 Google Tensor Flow 的 Bfloat16 浮點格式，也有人在擔心搞不好這又會讓 AMD 顯示卡再被一大票數位貨幣礦工搶得一乾二淨，再度上演有錢也買不到顯卡之戲碼。

2019 年 8 月：nVidia「持之以恆」繼續在 HotChips 談論自家多晶片可擴展式推論晶片研究案，意思就是 nVidia 故意宣示除商品外，還有「餘裕」進行額外前瞻性技術研發工作就對了。

2019 年夏天，英特爾看似開心的跟百度宣布合作，購併 Nervana 滿 3 年的人工智慧晶片，看似前程似錦，連潛在客戶都談好了。

【延伸閱讀】：百度、英特爾聯手打造新一代 Nervana NNP 晶片，效能提升 3~4 倍

【延伸閱讀】：英特爾發表最新 AI 晶片 Nervana，把 Google、台積電技術都用上了！

2019 年 11 月 8 日：NVIDIA 宣布推出「全球尺寸最小的邊緣 AI 超級電腦」Jetson Xavier NX，不知不覺中，在這幾年內，nVidia 的 Jetson 家族已枝繁葉茂。

【延伸閱讀】：NVIDIA 發表全球最小邊緣 AI 超級電腦，Jetson 家族讓新創公司面臨更大壓力

2019 年 11 月 13 日：英特爾總算「使命必達」準時在 2019 年底推出 Nervana NNP 產品線，包含深度學習導向的 NNP-T1000（Spring Crest，性能號稱是 Lake Crest 的 3~4 倍）與推論專用的 NNP-I1000（Spring Hill），宣稱樣品已經送到客戶（百度、Facebook）手上，不只現場實際較量 NNP-I1000 和 nVidia T4，可用不到 2 倍數量達成 3.68 倍的效能，也同時宣布 2020 年推出「20 倍邊緣推論性能」、源自 2016 年某金額不明購併案的 Movidius 體系產品。

但短短一個月後，2019 年 12 月 16 日，英特爾宣布以 20 億美元收購以色列 AI 晶片新創公司 Habana Labs，瞬間風雲變色，2020 年 2 月就傳出英特爾將「部分放棄 Nervana」、停止 NNP-T1000 開發的消息，但有鑑於 NNP-I1000 本質上根本就是「純正英特爾血統」的產物，這也意味著 Nervana 併購案完全失敗了。

【延伸閱讀】：3.5 億美元收購失敗？英特爾將停止 NNP-T 開發，專注 Habana Labs

「剛剛好」整件命案的所有參與演員：命案現場的英特爾、Habana Labs、坐在板凳一旁看戲的 AMD 與 nVidia，都是 2019 年 IEEE Hotchips 31 的台上貴賓（大概因家大業大格局大，活動的餐點飲料包含酒類據說都由英特爾贊助買單），我們就來看看，英特爾耗費三年多做出來的成果，以及瞧瞧 NNP-T1000 為何被閃電腰斬的可能原因。

畢竟現在這票所謂人工智慧深度學習等的新興應用，無論從硬體架構到資料處理格式到框架到應用程式函式庫等等，很多部分都是高度客製化，少有業界共通的公開比較基準，單純比較數字「賽豬公」的意義並不大，筆者也不會在這裡仔細介紹英特爾兩顆晶片的技術細節。

但透過規格比較，可清楚看到兩件事實：

Spring Crest 和 Spring Hill 根本是兩個完全不同的技術體系，前者完全繼承 Nervana，後者則是根正苗紅的「英特爾本家」，大量引用現有 Ice Lake 技術。

Nervana 的預設對手就是 nVidia 的旗艦級 GPU，連晶圓代工業者都是台積電。

Nervana NNP-T1000 慘遭殺害，究竟有哪些可能的兇手？

成本太高：都這個時候了，還在台積電 16 奈米製程？且聽說台積電 16 奈米的主要產地正位於因武漢肺炎而封城的南京？但 Habana Labs 目前兩顆晶片也都是台積電 16 奈米耶？這裡由不合邏輯。
政治因素：英特爾不願意看到重要的產品交給台積電生產？可是這件事不是很久以前該知道了嗎？Habana Labs 也是台積電生產啊，所以這也不合理。
客戶不滿：難道先期導入的客戶並不滿意產品的實際表現？
需要客戶：Habana Labs 已搶到「超大規模的客戶」，甚至「搶走英特爾手上煮熟的鴨子」，所以才有 20 億美元的購併價值？
軟體不行：手上可掌握的軟體資源和「生態系統」技不如人？
規格不利：Hanaba Labs 的推論晶片 Gaudi 可支援原生的乙太網路界面走 RDMA，這難道對大型雲端客戶來說，算是殺手級的規格優勢？

總之，只有英特爾和時間才會告訴我們誰是真正的兇手，也很有可能真相永遠不會大白。