從2022新公開(kāi)的特斯拉機(jī)器人Dojo芯片架構(gòu)解析到存算一體
在Hot Chips 34(2022)大會(huì)上,Emil Talpes公開(kāi)了特斯拉Dojo處理器的關(guān)鍵細(xì)節(jié)。
Emil Talpes 本人在 AMD 工作了近 17 年,曾研究各種 Opteron 處理器以及 “K12”Arm服務(wù)器芯片。
D1處理器由臺(tái)積電制造,采用7納米制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm?,小于英偉達(dá)的A100(826 mm?)和AMD Arcturus(750 mm?)。要知道,這個(gè)D1處理器可是特斯拉人形機(jī)器人的核心,意義重大。
千芯科技陳巍博士就D1架構(gòu)、D1訓(xùn)練模塊、D1訓(xùn)練網(wǎng)格以及訓(xùn)練矩陣整體架構(gòu)做了解析。
D1處理器架構(gòu)
D1處理器結(jié)構(gòu)
每個(gè)D1處理器由 18 x 20 的D1核心構(gòu)成。每個(gè)D1處理器中有354個(gè)D1核心可用。估計(jì)是出于良率和處理器核心穩(wěn)定考慮,D1處理器由臺(tái)積電制造,采用7nm制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm?。
這個(gè)尺寸小于英偉達(dá)的A100(826 mm?)和AMD Arcturus(750 mm?)。但是每個(gè)核心都是一個(gè)完整的帶矩陣計(jì)算能力的CPU,其計(jì)算靈活性是遠(yuǎn)超眾核架構(gòu)的GPU的,這也會(huì)帶來(lái)極高的成本。這個(gè)架構(gòu)有點(diǎn)類(lèi)似于SambaNova。
D1芯片運(yùn)行在2GHz,擁有巨大的440MB SRAM,是存算一體架構(gòu)(近存計(jì)算)。
D1核心的架構(gòu)
D1核心結(jié)構(gòu)
從18x20陣列中每個(gè)D1核心的結(jié)構(gòu)上看,每個(gè)D1核心是帶有向量計(jì)算/矩陣計(jì)算能力的處理器,具有完整的取指、譯碼、執(zhí)行部件。處理器運(yùn)行在2GHz,具有4個(gè)8x8x4矩陣乘法計(jì)算單元。
D1處理器指令集
據(jù)稱(chēng)D1以RISC-V架構(gòu)ISA為基礎(chǔ)進(jìn)行擴(kuò)展。
D1核心具備FP32和FP16這兩個(gè)標(biāo)準(zhǔn)的計(jì)算格式,同時(shí)還具備更適合Inference的BFP16格式。為了達(dá)到混合精度計(jì)算提升性能的目的,D1還采用了用于較低精度和更高吞吐量的 8 位 CFP8 格式。Dojo 編譯器可以在尾數(shù)精度附近滑動(dòng),以涵蓋更廣泛的范圍和精度。在任何給定時(shí)間,最多可以使用 16 種不同的矢量格式,靈活提升算力。
D1處理器的數(shù)據(jù)格式
D1訓(xùn)練塊架構(gòu)
D1訓(xùn)練模塊展開(kāi)圖
在D1訓(xùn)練模塊方面,每個(gè)D1訓(xùn)練模塊由5x5的 D1芯片陣列排布而成,以二維Mesh結(jié)構(gòu)互連。片上跨內(nèi)核SRAM達(dá)到驚人的11GB,這也算是一個(gè)非常典型的近存計(jì)算架構(gòu)了。當(dāng)然耗電量也達(dá)到了15kW的驚人指標(biāo)。能效比為0.6TFLOPS/W@BF16/CFP8。對(duì)于CPU架構(gòu)來(lái)說(shuō),這一能效比非常不錯(cuò)。顯然存算一體架構(gòu)帶來(lái)的優(yōu)勢(shì)非常大。外部32GB共享HBM內(nèi)存。(HBM2e或HBM3)
每個(gè)訓(xùn)練模塊外部邊緣的 40 個(gè) I/O 芯片達(dá)到了 36 TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。
數(shù)據(jù)傳輸方向與芯片平面平行,供電及水冷卻方向與芯片平面垂直。這是一個(gè)非常優(yōu)美的結(jié)構(gòu)設(shè)計(jì),不同的訓(xùn)練模塊之間還可以互連?上攵@是一個(gè)可以橫向擴(kuò)展的超級(jí)計(jì)算機(jī)架構(gòu)。
當(dāng)然,一開(kāi)始的那個(gè)圖是展開(kāi)圖。實(shí)際的D1訓(xùn)練塊像是個(gè)扁扁的披薩餅盒子。
D1訓(xùn)練模塊
D1訓(xùn)練網(wǎng)格與訓(xùn)練矩陣
D1訓(xùn)練網(wǎng)格
D1擴(kuò)展的方式就好像自家鋪地磚一樣。在 D1 網(wǎng)格的邊緣有Dojo 接口處理器(DIP)。
每個(gè)DIP包括了32GB HBM(800GB/s存儲(chǔ)帶寬),以及900GB/s的對(duì)外傳輸帶寬(特斯拉自定義的TTP協(xié)議),32GB/s PCIe Gen4接口,以及50GB/s的以太網(wǎng)帶寬(特斯拉自定義的TTPoE協(xié)議)
Dojo V1訓(xùn)練矩陣
Dojo V1 訓(xùn)練矩陣由 6 個(gè)訓(xùn)練塊、4 個(gè)主機(jī)服務(wù)器上(裝有20個(gè) DIP),以及一組連接到以太網(wǎng)交換結(jié)構(gòu)的輔助服務(wù)器構(gòu)成。
這樣算下來(lái),Dojo V1 系統(tǒng)有 53,100 個(gè)D1 內(nèi)核,在 BF16 和 CFP8 格式下算力 1 Exaflop,1.3 TB 的SRAM 內(nèi)存,以及 DIP 上的 13 TB 的 HBM內(nèi)存。
與其一同被揭秘的還有特斯拉ExaPod超算。
總的來(lái)說(shuō),特斯拉D1芯片有以下幾個(gè)特點(diǎn):
(1)2D Mesh架構(gòu);
(2)具備向量及矩陣計(jì)算加速單元的眾核架構(gòu);
(3)存算一體架構(gòu)(近存計(jì)算)。
據(jù)Dojo項(xiàng)目負(fù)責(zé)人Ganesh Venkataramanan介紹,特斯拉Dojo是史上最快的AI訓(xùn)練計(jì)算機(jī)。相比于業(yè)內(nèi)其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節(jié)省5倍。而使得Dojo完成訓(xùn)練AI算法的重任,就是特斯拉自研神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片。
馬斯克透露,不久后,特斯拉即將開(kāi)始Dojo超級(jí)計(jì)算機(jī)的首批組裝,特斯拉Dojo超級(jí)計(jì)算機(jī)將于明年投用。
原文標(biāo)題 : 從2022新公開(kāi)的特斯拉機(jī)器人Dojo芯片架構(gòu)解析到存算一體

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?