英特爾發表最新 AI 晶片 Nervana，把 Google、台積電技術都用上了！

由

2019-08-22

近幾年 AI 晶片火熱，不讓 Nvidia 專美於前，英特爾在確定進入 10 奈米時代後更是積極追趕，美國時間 20 日，英特爾公布首款神經網路處理器 Nervana（代號Springhill）相關細節，包含訓練晶片 NNP-T 與推論晶片 NNP-I，加上原有的 Xeon 在 AI 晶片陣容越發堅強，技術也開始兼容了起來。

美國時間 20 日，英特爾在今年 Hot Chips 大會上公布首款神經網路處理器 Nervana 細節，如其名，這是 2016 年英特爾收購包含 Nervana 幾家新創公司的成果。Nervana 處理器分為訓練晶片 NNP-T 與推論晶片 NNP-I。

訓練用的 Nervana NNP-T，主打可編程與靈活性，並強調可從頭建構大規模深度學習模型，且盡可能訓練電腦在給定的能耗預算內快速完成任務，也無需傳統技術的龐大開銷。

內容目錄 隱藏

1 英特爾拓展了 Google Tensorflow 的 bfloat16 運算

2 訓練晶片 NNP-T 罕見採用台積電 16nm CLN FF+ 製程

3 推論晶片 NNP-I 以 10nm Ice Lake 架構出發

英特爾拓展了 Google Tensorflow 的 bfloat16 運算

NNP-T 支援了 Google TPU Tensorflow 架構特有的運算格式「bfloat16」，bfloat16 截斷既有的 32 位元 float32 的前 16 位，僅留下後 16 位所組成，包含 Google 以及英特爾/Facebook 都在 bfloat16 進行研究，確認在許多機器學習模型可以容忍較低精確度計算、不需降低收斂準確率的情況下，許多模型使用 bfloat16 達到的收斂準確率結果與一般使用的 32 位元浮點（FP32）計算數值的結果一樣。降低精度其實能讓記憶體效率取得較佳的平衡，從而訓練與部署更多的網路、降低訓練所需的時間，有較好的效率與靈活性，包含此次的 NNP-T、新的 Xeon 處理器 Cooper Lake 新的 AI 晶片家族都紛紛宣告支援起 bfloat16。

英特爾發表最新 AI 晶片 Nervana，把 Google、台積電技術都用上了！

▲ bfloat16 浮點格式。（Source：Google）

訓練晶片 NNP-T 罕見採用台積電 16nm CLN FF+ 製程

另外有趣的是 NNP-T 其實採用的是台積電 16 奈米 CLN FF+ 製程，這與一般我們對英特爾自行生產晶片的認知有所差異，而在 Nervana 被英特爾收購前，第一代 Lake Crest 就是由台積電所代工。NNP-T 採用台積電最新的 CoWoS（Chip on Wafer on Substrate）封裝技術，將 NNP-T 的晶粒與 4 個 8GB HBM2 記憶體異質整合堆疊 2.5D，讓其封裝體積縮小成一個 60X60 mm的晶片。

▲ Nervana NNP-T 採用台積電 16nm CLN FF+ 製程。（Source：Intel）

推論晶片 NNP-I 以 10nm Ice Lake 架構出發

英特爾同時發表了推論晶片 Nervana NNP-I，主要針對大型資料中心市場高效能深度學習推論而生，NNP-I 主要基於英特爾 10nm Ice Lake 處理器，官方強調透過此晶片，可提高每瓦效能，讓企業以更低的成本執行推論運算工作，降低推論大量部署的成本。英特爾指出，NNP-I在功率 10 瓦下每秒能處理 3600 張影像，而處理器本身亦擁有高度可編程性，且同時不影響性能與功效。