TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自nextplatform
“El Capitan”超級計算機開創(chuàng)了融合 CPU-GPU 計算的先河。
從勞倫斯利弗莫爾的專家處所知,從許多指標(biāo)來看,El Capitan 可以與超大規(guī)模企業(yè)和云構(gòu)建者為 AI 訓(xùn)練運行而啟動的大型機器相媲美。El Capitan 是一臺專門為運行有史以來最復(fù)雜、最密集的模擬和建模工作負(fù)載而定制的機器,它恰好在 GenAI 革命的核心——新型大型語言模型方面表現(xiàn)相當(dāng)出色。
而且得益于 Cray 設(shè)計的“Rosetta” Slingshot 11 互連和惠普企業(yè)銷售的 EX 系列系統(tǒng)的核心組件,El Capitan 已經(jīng)采用了 HPC 增強型可擴展以太網(wǎng),這與超級以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 試圖推進的技術(shù)路線類似,因為超大規(guī)模企業(yè)和云構(gòu)建者厭倦了為他們的 AI 集群支付 InfiniBand 網(wǎng)絡(luò)的高昂費用。
勞倫斯利弗莫爾將獲得一臺極其強大的 HPC/AI 超級計算機,而其價格比如今的超大規(guī)模計算公司、云構(gòu)建商和大型 AI 初創(chuàng)公司支付的價格要低得多。很難準(zhǔn)確地說出兩者之間的差異,但筆者初步粗略計算得出,El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在構(gòu)建的大型“Hopper”H100 集群的一半。
國家安全至關(guān)重要,而某些技術(shù)突破和創(chuàng)新有著積極意義。以 El Capitan 為例,突破系統(tǒng)設(shè)計的架構(gòu)極限意義非凡。同時,要有勇于在設(shè)計混合 CPU - GPU 計算引擎方面展現(xiàn)自身能力的決心,而且將超快的 HBM 內(nèi)存接入到這些融合設(shè)備之間的共享內(nèi)存空間,這一系列舉措都能帶來好處。最后,El Capitan 和超大規(guī)模企業(yè)、云構(gòu)建者以及 AI 初創(chuàng)公司正在打造的強大機器之間存在著巨大的差異。
2019 年 8 月,惠普 (Hewlett Packard Enterprise) 獲得了價值數(shù)百萬美元的 El Capitan 合同,當(dāng)時用戶只知道這臺機器將使用 Slingshot 互連,成本約為 5 億美元,并提供至少 1.5 百億億次浮點運算的持續(xù)性能。就在幾個月前,HPE 表示將以 13 億美元收購 Cray。
無論如何,彼時El Capitan 的持續(xù)性能預(yù)計至少為 IBM 為實驗室構(gòu)建的 “Sierra” 混合 CPU - GPU 系統(tǒng)的 10 倍,功率范圍達 30 兆瓦。2020 年 3 月,勞倫斯利弗莫爾宣稱其正與 AMD 合作開發(fā) El Capitan 的計算引擎,并進一步指出,該系統(tǒng)的峰值理論 FP64 性能將超 2 百億億次浮點運算(實際系統(tǒng)能夠以 64 位分辨率進行計算),功耗約為 40 兆瓦,成本不超過 6 億美元。
El Capitan 混合 CPU - GPU 系統(tǒng)已在勞倫斯利弗莫爾完成安裝且近乎滿負(fù)荷運行,人們公認(rèn)這是世界上針對傳統(tǒng)模擬和建模工作負(fù)載性能最優(yōu)的系統(tǒng),這其中包括中國 “天河三號”(2.05 百億億次浮點運算)和 “海洋之光”(1.5 百億億次浮點運算)超級計算機的峰值性能。
2022 年 6 月,勞倫斯利弗莫爾和 AMD 宣布將采用融合的 CPU - GPU 設(shè)備(AMD 數(shù)十年來一直將其稱為加速處理單元或 APU)作為 El Capitan 系統(tǒng)的主要計算引擎。自那時起,眾人皆在猜測 “Antares” Instinct MI300A 設(shè)備的時鐘速度、設(shè)備中 GPU 計算單元的數(shù)量以及其運行時鐘速度。事實證明,筆者認(rèn)為 MI300A 的時鐘速度會更高,因此只需較少的時鐘周期即可達到相應(yīng)性能。勞倫斯利弗莫爾所獲得的機器性能比預(yù)期更優(yōu),因此其性價比甚至超出了預(yù)期水平。
勞倫斯利弗莫爾國家實驗室利弗莫爾計算部門首席技術(shù)官 Bronis de Supinski透露,El Capitan 系統(tǒng)中總計有 87 個計算機架,另有數(shù)十個額外機架用于容納其 “Rabbit” NVM - Express 快速存儲陣列。
El Capitan 在液冷 Cray EX 機架中總共擁有 11,136 個節(jié)點,每個節(jié)點配備四個 MI300A 計算引擎,整個系統(tǒng)共有 44,544 個設(shè)備。每個設(shè)備都有 128GB 的 HBM3 主內(nèi)存,由 CPU 和 GPU 芯片共享,運行頻率為 5.2GHz,能夠為 CPU 和 GPU 芯片提供總計 5.3TB / 秒的總帶寬。
根據(jù) 11 月份 Top500 排行榜的數(shù)據(jù),MI300A CPU 芯片組的運行頻率為 1.8 GHz,而 AMD 規(guī)格表顯示 GPU 芯片組的峰值運行頻率為 2.1 GHz。該芯片組包含三個 “Genoa” X86 計算復(fù)合體,每個復(fù)合體具備八個核心,總計 24 個核心,系采用臺積電的 5 納米工藝蝕刻而成。MI300A 設(shè)備上的六個 Antares GPU 芯片組擁有 228 個 GPU 計算單元,總共包含 912 個矩陣核心和 14,592 個流處理器。在矢量單元方面,MI300A 的峰值 FP64 性能為 61.3 萬億次浮點運算,在矩陣單元上,其 FP64 性能為矢量單元的兩倍,即 122.6 萬億次浮點運算。
每個 El Capitan 節(jié)點的峰值 FP64 性能可達 250.8 teraflops,當(dāng)將所有節(jié)點連接在一起時,F(xiàn)P64 總性能可達 2,792.9 petaflops,前端配備 5.475 PB 的 HBM3 內(nèi)存。在 CPU 和 GPU 計算芯片下方設(shè)有四個 I/O 芯片,用于將這些元件整合并連接至 HBM3 內(nèi)存,這些芯片是采用臺積電的 6 納米工藝蝕刻而成。
值得注意的是,MI300A 封裝上仍有六個計算芯片(在 AMD 術(shù)語中為 XCD),其與六個 GPU 芯片完美匹配。橡樹嶺的 “Frontier” 超級計算機定制的 “Trento” CPU XCD(單個芯片中每個節(jié)點八個)與四個獨立的雙芯片 “Aldebaran” MI250X GPU 的比例亦為一比一。這種一比一的封裝形式在多代 Cray 超級計算機的 CPU 和加速器之間一直得以延續(xù),這或許并非偶然。從某種意義上講,MI300A 是一個六路 X86 CPU 服務(wù)器,與六路 GPU 系統(tǒng)板交叉耦合。
以下是一個匯總表,展示了 El Capitan 系統(tǒng)及其位于勞倫斯利弗莫爾的 El Capitan 區(qū)塊的 “Toulumne” 和 “rzAdams” 芯片以及位于桑迪亞國家實驗室的 “El Dorado” 系統(tǒng)的相關(guān)參數(shù):
El Capitan 服務(wù)器節(jié)點的示意圖如下:
如您所見,存在四個 Infinity Fabric x16 端口,其總帶寬達 128 GB / 秒,以內(nèi)存一致性方式將四個 MI300A 設(shè)備相互連接。
此外,還有四個端口,這些端口可配置為 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在此情形下,它們被設(shè)置為前者,以便插入 Slingshot 11 網(wǎng)絡(luò)接口卡,這些接口卡實際上通過 Slingshot 11 架構(gòu)將整個系統(tǒng)中的 APU 相互連接。
最后,關(guān)于 El Capitan 系統(tǒng)有一個饒有趣味的觀點,從技術(shù)層面而言,該系統(tǒng)用于運行對超級計算機進行排名的高性能 Linpack 基準(zhǔn)測試的那部分機器,其性能可達 2,746.38 千萬億次浮點運算。(若物理機器上總計有 44,544 個 APU,此部分機器激活了 43,808 個 APU,占機器容量的 98.3%。)額定性能末尾的 46 千萬億次浮點運算(性能的第三和第四位有效數(shù)字)比 2024 年 11 月 Top500 榜單上除 34 臺機器之外的所有機器都要大。當(dāng)提及 “2.7 百億億次浮點運算” 時所舍棄的那些四舍五入數(shù)字,其規(guī)模幾乎與巴塞羅那超級計算中心的 “MareNostrum 5” 超級計算機相當(dāng)。
若勞倫斯利弗莫爾讓 HPL 在系統(tǒng)中的所有 APU 上運行,El Capitan 的性能將再提升 1.65%,并且我們認(rèn)為,計算、內(nèi)存和互連相互作用的改進可使其性能再提高約 5%。倘若勞倫斯利弗莫爾能夠?qū)④浖途W(wǎng)絡(luò)調(diào)優(yōu)性能提高 7.5%,那么該機器的峰值 HPL 容量將突破 3 百億億次浮點運算,我們期望實驗室能夠達成這一目標(biāo),畢竟這極具意義。這將是五年前項目啟動時 El Capitan 最初預(yù)期性能的兩倍 —— 且是按時按預(yù)算推進的。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
原文標(biāo)題 : TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?