Nvidia 黃仁勳撰文反擊 Google,P40 比 TPU 速度快 2 倍、頻寬是 10 倍

74

前不久 Google 釋出關於 TPU 細節的論文,稱「TPU 處理速度比目前 GPU 和 CPU 要快 15~30 倍」。當時就有人對此「比較」表示質疑,因其拿來的比較對象並非市場中效能最好的。

而美國時間 4 月 10 日,輝達(Nvidia) CEO 黃仁勳親自撰文回應,文章第一段就以 Google TPU 開頭,炮擊意圖十分明顯,隨後更扔出 Tesla P40 GPU 與 TPU 的效能對比圖,可謂針鋒相對。

不過 P40 和 TPU 的售價差距很大(P40 24GB 版本售價 5 千多美元,TPU 成本估計在幾百美元),大小和製程也不一樣,也有人覺得這樣的比較未免也不恰當。但黃仁勳不惜親自撰寫長文,擺事實擺資料,意在表明輝達在 AI 晶片領域的強勢姿態和技術領先的驕傲。

當時 TPU 論文一發布,雷鋒網就論文中的比較問題諮詢 AI 人士意見,感興趣的讀者可看《Google 公布 TPU 細節後,AI 界怎麼看?》。

以下則為黃仁勳全文,原文標題為《AI 驅動資料中心加速計算的崛起》(AI Drives the Rise of Accelerated Computing in Data Centers)。

AI 驅動資料中心加速計算的崛起

Google 最近的 TPU 論文給了一個十分明確的結論:如果沒有高速運算能力,大規模 AI 實現根本不可能。

如今的世界經濟在全球資料中心上執行,而資料中心也在急劇改變。不久之前,資料中心服務支援網頁、廣告和影片。現在,它們能夠從視訊流裡辨識聲音、偵測圖片,還能隨時讓我們獲得想要的資訊。

以上提到的各種能力,都愈來愈依靠深度學習。深度學習是一種演算法,從大量資料裡學習形成軟體,來處理諸多高難度挑戰,包括翻譯、癌症診斷、自動駕駛等。這場由 AI 引發的變革,正在以一種前所未有的速度影響各種產業。

深度學習的開拓者 Geoffrey Hinton 最近接受《紐約客》採訪時:「凡是任何一個有很多資料的分類問題,都可以用深度學習的方法來解決。深度學習有幾千種應用。」

不可思議的效果

以 Google 為例。Google 在深度學習裡突破性的工作引發全球關注:Google Now 語音互動系統令人吃驚的精確性、AlphaGo 在圍棋領域歷史性的勝利、Google 翻譯應用於 100 種語言。

深度學習已經達到不可思議的效果。但是深度學習的方法,要求電腦在摩爾定律放緩的時代背景下,精確處理海量資料。深度學習是一種全新的計算模型,也需要一種全新計算架構的誕生。

一段時間以來,這種 AI 計算模型都是在輝達晶片上執行。2010 年,研究員 Dan Ciresan 當時在瑞士 Juergen Schmidhuber 教授的 AI 實驗室工作,他發現輝達 GPU 晶片可用來訓練深度神經網路,比 CPU 的速度快 50 倍。一年之後,Schmidhuber 教授的實驗室又使用 GPU 開發了世界上首個純深度神經網路,一舉贏得國際手寫辨識和電腦視覺比賽的冠軍。接著 2012 年,多倫多大學的碩士生 Alex Krizhevsky 使用了兩個 GPU,贏得如今蜚聲國際的 ImageNet 影像辨識競賽。(Schmidhuber 教授曾經寫過一篇文章,全面梳理了於 GPU 上執行的深度學習對於當代電腦視覺的影響。 )

深度學習最佳化

全球 AI 研究員都發現了,輝達為電腦圖形和超級計算應用設計的 GPU 加速計算模型,是深度學習的理想之選。深度學習應用,比如 3D 圖形、醫療成像、分子動力學、量子化學和氣象模擬等,都是一種線性代數演算法,需要進行大規模並列張量或多維向量計算。誕生於 2009 年的輝達 Kepler GPU 架構,雖然幫助喚醒了世界在深度學習中使用 GPU 加速計算,但其誕生之初並非為深度學習量身訂做。

所以,我們必須開發出新一代 GPU 架構,首先是 Maxwell,接著是 Pascal,這兩種架構都對深度學習進行特定最佳化。在 Kepler Tesla K80 之後  4 年,基於 Pascal 架構的 Tesla P40 推理加速器誕生了,它的推理效能是前者的 26 倍,遠遠超過摩爾定律的預期。

在這時期,Google 也設計了一款自訂化的加速器晶片,名為「張量處理單元」,即 TPU。具體針對資料推理,於 2015 年部署。

上週 Google 團隊釋出了關於 TPU 優越性的一些資訊,稱 TPU 比 K80 的推理效能高出 13 倍。但是,Google並沒有拿 TPU 與如今最新一代的 Pascal P40 比較。

最新對比

我們建立了如下圖表,量化 K80、TPU 和 P40 的效能,看看 TPU 與如今輝達技術間的較量。

P40 在計算精度和吞吐量、片內儲存和儲存頻寬間達到良好平衡,不僅在訓練階段,也在推理階段達到前所未有的效能表現。對於訓練階段,P40 擁有 10 倍於 TPU 的頻寬,32 位浮點效能達到 12個 TFLOPS 。至於推理階段,P40 具高吞吐的 8 位整數和高儲存頻寬。Nvidia 黃仁勳撰文反擊 Google,P40 比 TPU 速度快 2 倍、頻寬是 10 倍

▲ 資料基於 Google Jouppi 等人論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》[Jou17],以及輝達內部基準分析。K80 與 TPU 的效能比資料來源於論文 [Jou17] 裡 CNN0 和 CNN1 的加速效能比,其中比較的是效能減半的 K80。K80 與 P40 效能比基於 GoogleNet 模型,這是一種可以公開使用的 CNN 模型,具有相似的效能屬性。

雖然 Google 和輝達選了不同的發展路徑,我們有一些共同關切的主題。具體包括:

  • AI 需要加速計算。在摩爾定律變慢的時代背景下,加速器滿足了深度學習大量資料處理需求。
  • 張量處理處於深度學習訓練和推理效能的核心位置。
  • 張量處理是一個重要的新工作負載,企業在建立現代資料中心的時候,要考慮這一問題。
  • 加速張量處理可以顯著減少現代資料中心的建設成本。

全球科技正處於一場稱為「AI 革命」的歷史性轉變中。如今這場革命影響最深刻的地方,就是阿里巴巴、亞馬遜、百度、Facebook、Google、IBM、微軟、騰訊等公司所擁有的超大規模資料中心。這些資料中心,需要加速 AI 工作負載,不必花費數十億美元用新的 CPU 節點來打造新的資料中心。如果沒有加速計算,大規模 AI 實現根本不可能。

(本文由 雷鋒網 授權轉載;首圖來源:Flickr/Masaru Kamikura CC BY 2.0)

延伸閱讀: