Facebook「下一代 AI 計算平台」長什麼樣子?

25

Facebook 於日前公開「下一代」AI 模型訓練硬體平台 Zion,也一起介紹了另外兩類計算的自訂化 ASIC(應用專屬積體電路)晶片:用於 AI 推理的 Kings Canyon,以及用於影片轉碼的 Mount Shasta。這些新設計主要針對 AI 推理、AI 訓練、影片轉碼三類計算。這些計算不僅負荷重、切換為專屬硬體的提升明顯,而且也是 Facebook 快速擴大的服務類別。

從當代 AI 硬體到下一代 AI 硬體

Facebook 早就開始大規模部署 AI 模型用於業務計算,這些模型每天要做超過 100 兆次預測及超過 60 億次語言翻譯。Facebook 用來辨識、分類內容的影像辨識模型也使用超過 35 億張影像訓練。各種使用 AI 的服務幫助用戶日常溝通,也為他們提供獨特、個性化的使用感受。

Facebook 自研的 AI 平台 FBLearner 管理 Facebook 目前大多數 AI 模型流水線。FBLearner 包含儲存特徵、管理訓練過程、管理推理引擎等工具。另外,Facebook 也基於「開放計算計畫」(OCP)設計硬體,和 FBLearner 配合使用,能讓 Facebook 開發人員快速大量部署模型。

解決目前緊迫的計算規模問題後,Facebook 繼續集中精力研發,最終目標是建立針對未來、可靠的硬體設計,不僅對供應商透明,同時也持續體現 Facebook 最大化執行效率的離散化設計理念。Facebook 的答案就是下一代訓練、推理硬體平台。

用 Zion 進行 AI 訓練

Zion 是 Facebook 的下一代大容量統一訓練平台,目標是高效承擔更高計算負載。Zion 設計時就考慮如何高效處理 CNN、LSTM、稀疏神經網路等多種不同的神經網路模型。Zion 平台提供高記憶體容量、高頻寬、靈活的高速內部連線,為 Facebook 內部關鍵工作負載提供強大的計算能力。

Zion 設計採用 Facebook 新供應商透明 OCP 加速模型(OAM)。OAM 的作用在於,Facebook 從 AMD、Habana、Graphcore、英特爾、輝達等供應商購買硬體,只要他們以開放計算計畫(OCP)的公開標準基礎開發硬體,不僅幫助他們更快創新,也讓 Facebook 自由在同一機架的不同硬體平台、不同伺服器間拓展,只需要透過一個機櫃網路交換機。即便 Facebook 的 AI 訓練負載不斷增加、不斷複雜,Zion 平台也能拓展處理。

具體來說,Facebook 的 Zion 系統分為三部分:八路 CPU 伺服器、OCP 加速模組、可裝載 8 個 OCP 加速模組的平台主板。

Facebook「下一代 AI 計算平台」長什麼樣子?

▲ 左為模組化伺服器主板,每個主機板可安裝 2 個 CPU;右為 4 張主機板、8 個 CPU 組成一台八路伺服器。

Facebook「下一代 AI 計算平台」長什麼樣子?

▲ 左為一個 OCP 加速模組;中為 8 個 OCP 加速模組安裝在一個平台主板;右為組成一個含 8 塊加速晶片的平台。

Facebook「下一代 AI 計算平台」長什麼樣子?

▲ Zion 平台內部模組連線示意圖。

Zion 平台的設計得以解耦系統中的記憶體、計算、網路部件,然後每項都可獨立拓展。系統的八路 CPU 平台提供超大 DDR 記憶體池,服務對記憶體容量有很高要求的工作,比如稀疏神經網路的內嵌表。對 CNN 或稀疏神經網路較稠密那些,對頻寬和計算能力更敏感,加速主要就是依靠連線到每個 CPU 的 OCP 加速器模組。

系統包括兩種高速連線線:一種互相連線所有 CPU ,另一種互相連線所有加速器。由於加速器有很高記憶體頻寬和低記憶體容量,Facebook 工程人員想了一種辦法高效利用總記憶體容量:劃分模型和記憶體,比較經常存取的資料就儲存在加速器記憶體,不常存取的資料儲存在 CPU 的 DDR 記憶體。所有 CPU 和加速器之間的計算和通訊會平衡進行,透過高速和低速互聯線路執行。

用 Kings Canyon 進行 AI 推理

與逐漸增加的 AI 訓練負載相對應,AI 推理負載也在快速增加。下一代設計中,Facebook 和 Esperanto、Habana、英特爾、Marvell、高通等企業合作,共同開發易於拓展和部署的專屬 ASIC 晶片。Kings Canyon 晶片同時支援偏重推理速度的 INT8(8 位整型)計算,以及偏重更高精準度的 FP16(半精準度浮點)計算。

Facebook「下一代 AI 計算平台」長什麼樣子?

Kings Canyon 晶片搭載在 M.2 規格的電路板上;每個 Glacier Point v2 母板安裝 6 塊 Kings Canyon 晶片;最後,兩個 Glacier Point v2 母板和兩個單路伺服器一同組成完整的 Yosemite 伺服器。

Facebook 的影片轉碼 ASIC 晶片 Mount Shasta 也採用這種布置方式。

總結

根據 Facebook 的圖解和介紹,目前似乎只有 AI 訓練平台 Zion 開始使用,AI 推理晶片 Kings Canyon、影片轉碼晶片 Mount Shasta 及相關硬體還沒看到實物。但 Facebook 上下都對這套設計充滿信心。未來他們會透過 OCP 公開所有設計和相關規格,便於更廣泛的合作;Facebook 也會和目前的合作夥伴一起共同改善整套系統的軟硬體共同設計。

更多詳細說明可參見 Facebook 官網

(本文由 雷鋒網 授權轉載;首圖來源:Facebook