長期關注半導體產業及處理器技術的最新發展,不可能不知道以下 4 場歷史悠久、與 IEEE(電子電機工程學會)息息相關的 4 場研討會。
- Hot Chips:介紹最新型高效能晶片,目前第 29 屆,廠商彼此較勁、技術行銷意味濃厚的簡報大賽活動,時間選在炎炎夏日,的確頗符合「Hot Chips」的抬頭。
- Cool Chips:介紹最新型「低功耗,高效能」晶片(所以連 IBM 和 Fujitsu「自己覺得沒那麼耗電」的 Power9 與 SPARC64 XII 都登場了),目前第 20 屆,商業味道比較沒那麼重,主要在日本橫濱舉辦,眾多日本廠商和學術機構一同共襄盛舉,包含明年 4 月的第 21 屆。
- ISSCC(國際固態電路學會):從 1953 年至今,發表先進固態電路與系統單晶片的全球論壇,提供工程師獨特的機會,在先進 IC 設計工作的領域進行交流,論文清單也可經常見到台灣企業與學校的身影。
- IEDM(國際電子元件會議):始自 1955 年,發表半導體、電子元件技術、設計、製造、物理與模型等領域中的技術突破,動輒勞駕總統行政院長褒揚的台灣半導體相關人士,多半與在 IEDM 發表重大研究成果有關。近年越來越多關於新世代非揮發性儲存記憶體的相關論文,都在此發表。
其中相對「平易近人」的 Hot Chips,堪稱是處理器業界現況與趨勢的風向球。
Hot Chips 29 的趨勢:人工智慧滿天下
- 相較於 2016 年的 Hot Chips 28,「人工智慧概念股」完全爆炸性的成長,而各類型「人工智慧晶片」,從 GPU、超級多核 CPU、FPGA、專用晶片,甚至吸引眾人目光的 Google TPU,均傾巢而出。
- 拜自駕車風潮之所賜,自動駕駛相關技術也是變得異常熱門。
- 以可程式化為首的 FPGA 也要開始「包山包海」,要能接無線網路,也要提供高頻寬記憶體。但更重要的是,微軟、Amazon 和百度高談他們是怎樣利用 FPGA 加速運算。
- 傳統伺服器處理器的玩家還是那幾個,但這次 Qualcomm 殺進來了。
- P4 編程語言的實用化,象徵著軟體定義網路(SDN)應用的深化。
- 做為網路設備心臟的高階網路處理器,規格還是一如往常的暴力。
Hot Chips 也按照慣例,在 12 月中對未參加者,開放下載完整的議程簡報和線上視訊,所以特此簡述今年 Hot Chips 的重點,如讀者想進一步了解細節,可自行閱讀網站上提供的豐富文件,外行看熱鬧,內行看門道,以下依序簡介重點。
Keynote(主題演講):還是聚焦在人工智慧。
- The Direct Human / Machine Interface and hints of a General Artificial Intelligence(Wiseteachers.com)
- Recent Advances in Artificial Intelligence via Machine Learning and the Implications for
Computer System Design(Google)
Tutorial(特別議程):SDN(軟體定義網路)應用的「P4」封包編程語言的實用化,資料中心網路管理或 ISP 從業人士相信特別有感。
Background on Software Defined Networking (Netronome)
重點:SDN 也需要資料階層的封包處理編程語言。
P4 Language and Applications(Barefoot Networks、Xilinx)
重點:獨立於通訊協定之外的交換器架構。
Overview of the P4 tools(Cisco)
重點:Cisco 教你怎麼撰寫 P4 程式。
P4 Hardware Implementations(硬體實做)
- Tofino Chip Architecture(Barefoot Networks)
- 重點:對應 P4 的交換器晶片。
- The p4c-sdnet Compiler(Xilinx)
- 重點:對應 P4 的 FPGA 編譯器。
- Network Flow Processor and Agilio SmartNICs(Netronome)
- 可處理 P4 的 120 核心網路處理器晶片。
Future Directions: Research Problems, Getting Involved, and Resources(Cisco)
重點:P4 生態圈誓師大會。
Tutorial(特別議程):nVidia 大談自動駕駛順便推銷晶片。
An Overview of NVIDIAs Autonomous Vehicles Platform(NVIDIA)
重點:94% 的交通事故都是三寶等人為因素,所以大家就不要自己開車吧。
Deep Neural Networks Autonomous Vehicle Landscape(NVIDIA)
重點:從後端深度學習一路到前端車用系統,請大家愛用 nVidia 的晶片。
GPU and Gaming:nVidia「Volta」大戰 AMD「Vega10」,然後 AMD 再度昭告天下通吃遊戲機市場。
AMD’s Radeon Next Generation GPU(AMD)
重點:AMD Vega 很強很厲害,不過只和自己前代比。
NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing(nVidia)
重點:nVidia 終於在比較正式的場合,公開了大量技術細節,包含 SM 內的運算單元結構。
The Xbox One X Scorpio Engine(Microsoft)
重點:新世代 Xbox One 各方面的性能都是前代的好幾倍,但跟系出同源的 PS4 越來越像。
IOT / Embedded:計算機結構大師 Patterson 創造的 RISC-V 再度登上舞台,只是可能沒太多人記得。
SiFive Freedom SoCs: Industry’s First Open-Source RISC-V Chips(SiFive)
重點:RISC 指令集的上古神獸,然後很多東西都不會收你錢。
Self-timed ARM M3 Microcontroller for Energy Harvested Applications(ETA Compute)
重點:要到處亂灑並不倚賴電池為動力的微控制器,時脈一定是高不起來的。
Processors:大家就拚命加速深度學習和資料處理吧。
XPU: A programmable FPGA Accelerator for diverse workloads(百度)
重點:連百度都在設法用 FPGA 加速其實際的「業務」,「反觀」台灣。
Knights Mil: Intel Xeon Phi Processor for Machine Learning(Intel)
重點:Intel 新款 Xeon Phi 針對深度學習,最佳化低精度運算的效能。
Celerity: An Open Source RISC-V Tiered Accelerator Fabric(密西根大學)
重點:用大量的通用 RISC-V 核心,堆疊出適合不同運算的多核心架構。
Graph Streaming Processor(GSP)A Next-Generation Computing Architecture(ThinCI)
重點:追求 Task Graph 工作平行化的運算架構。
Automotive:繼續談自動駕駛。
R-Car Gen3: Computing Platform for Autonomous Driving Era(Renesas)
重點:瑞薩的新型自動駕駛運算平台,與未來邁向 Level 4 的簡略時程。
Localization for Next Generation Autonomous Vehicles(Swift Navigation)
重點:自駕車的導航系統,也需要配合不同的應用環境「在地化」。
FPGA:這年頭的可程式化邏輯陣列要能包山包海。
Xilinx RFSoC: Monolithic Integration of RF Data Converters with All Programmable SoC in 16nm FinFET for Digital-RF Communications(Xilinx)
重點:FPGA 要做無線應用,也需要整合 RF 資料轉換器。
Stratix 10: Intel’s 14nm Heterogeneous FPGA System-in-Package(SiP)Platform(Altera / Intel)
重點:Intel 繼續宣傳「高級膠水技術」EMIB 在 FGPA 的優勢。
Xilinx 16nm Datacenter Device Family with In-Package HBM and CCIX Interconnect(Xilinx)
重點:這年頭不只 GPU,連 FPGA 都需要整合 HBM 因應高頻寬需求,世道真的不同了。
FPGA Accelerated Computing Using AWS F1 Instances(Amazon)
重點:不只百度,連 Amazon 也引進 FGPA 加速運算了。
Neural Net:類神經網路與深度學習真的很熱鬧。
A Dataflow Processing Chip for Training Deep Neural Networks(Wave Computing)
重點:針對深度學習而量身訂做的資料流處理晶片,順便「暗示」當下 CPU 加上 GPU 的問題。
Accelerating Persistent Neural Networks at Datacenter Scale(Microsoft)
重點:微軟終於告訴大家,他們是怎如何在資料中心使用 FPGA 加速深度學習了。
DNN ENGINE: A 16nm Sub-uJ Deep Neural Network Inference Accelerator for the Embedded Masses(哈佛大學/ARM)
重點:哈佛大學研究的深度學習最佳化晶片微架構。
DNPU: An Energy-Efficient Deep Neural Network Processor with On-Chip Stereo Matching(南韓科學技術院)
重點:連南韓的研究機構也在自行打造深度學習晶片了。
Evaluation of the Tensor Processing Unit: A Deep Neural Network Accelerator for the Datacenter(Google)
重點:各位,歡呼吧,Google 公布 TPU 架構細節啦。
Architecture:Cisco 的恐龍化網路處理器與 ARM 繼續炒作動態處理器分配技術。
A 400Gbps Multi-Core Network Processor(Cisco)
重點:Cisco 新一代 672 核心網路處理器。
ARM DynamIQ: Intelligent Solutions using Cluster Based Multi-Processing(ARM)
重點:ARM 介紹 DynamIQ 的細節。
Server:IBM、Intel、AMD 大亂鬥,加上 Qualcomm 插一腳。
The Next Generation IBM Z Systems Processor(IBM)
重點:源自 S/360 的 IBM 大型主機,到現在還活得好好的,還是藍色巨人真正的金雞母,地球上「伺服器」的萬王之王。
The Next Generation AMD Enterprise Server Product Architecture(AMD)
重點:EPYC 的多晶片封裝,製造成本不到單晶片設計的六成。
The New Intel Xeon Processor Scalable Family(Formerly Skylake-SP)(Intel)
重點:感覺是有點為了宣傳而宣傳,勉為其難的介紹產品階層很像直銷組織的 Skylake-SP。
Qualcomm Centriq 2400 Processor(Qualcomm)
重點:Qualcomm 終於投入 ARM 伺服器市場,而且還是「純 64 位元」微架構。
會場的海報:連做硬碟的廠商都要告訴大家他們想在未來的 SSD 做啥好事,不過就請屆時下載慢慢看吧。
Using Texture Compression Hardware for Neural Network Inference(喬治亞理工/ARM)
重點:類神經網路的推論工作也需要材質壓縮。
SoundTracing: Real-time Sound Propagation Hardware Accelerator(世宗大學)
重點:為了 AR 應用,透過硬體加速的聲音追蹤技術。
A Memory-Efficient Persistent Key-value Store on eNVM SSDs(Western Digital)
重點:減少未來新型 SSD 的 KVS(Key Value Store)控制器的 CPU 與記憶體消耗。
Accelerating Big Data Workloads with FPGAs(Bigstream)
重點:將 FPGA 應用於大數據處理。
Loom: A Precision Exploiting Neural Network Accelerator(多倫多大學)
重點:「探尋權重與激活值精度以加速卷積神經網路」的人工智慧晶片。
EPIPHANY-V: A TFLOPS scale 16nm 1024-core 64-bit RISC Array Processor(Adapteva)
重點:美國國防部高等研究計畫署(DARPA)加持的 1024 核心 RISC 處理器,有點嚇人。
Fully-Integrated Surround Vision and Mirror Replacement SoC for ADAS/Automated Driving(TI)
重點:TI 針對自駕車周圍視野與後照鏡的方案。
GRVI Phalanx On Xilinx Virtex UltraScale+: A 1680-core, 26 MB RISC-V FPGA Parallel Processor Overlay(Gray Research LLC)
重點:1,680 核心看起來好像很恐怖。
(首圖來源:影片截圖)