香蕉久久免费一区二区三区,中文字幕精品视频在线看免费

通用算力會向高密、液冷的整機柜形態(tài)演進。

文｜趙艷秋

編｜�；�

2023年初，一家互聯網大廠找到浪潮信息，想解決一個業(yè)務中遇到的新問題：客戶的應用場景非常多元，在實際應用中，他們發(fā)現每個場景最佳匹配的處理器平臺并不同。比如，輕量級容器場景，通常對性能需求適中，但對功耗和密度要求較高；高性能的計算場景，則更傾向于具有更強并行處理能力，有更多高頻核心的處理器平臺�？蛻籼岢鲆粋€訴求，我怎么在各種業(yè)務中，快速上線不同處理器的服務器？

此前，通用服務器系統都圍繞著某一個處理器的平臺為核心，進行“定制”開發(fā)�，F在，面對客戶對多元處理器平臺的“既要”、“也要”，服務器怎么去快速覆蓋？這對幾乎數十年不變的通用服務器架構，提出了變革訴求。

與這個問題幾乎同時出現的是，雖然大模型的訓練和推理大都由AI服務器承擔，但人工智能也對通用服務器提出了新要求，比如大模型訓練需要的數據存儲。而通用服務器也具備了智能加速能力，可以運行大模型推理服務。從長遠來看，正在快速演進的十萬卡乃至百萬卡智算集群，對數據中心的顛覆和重構，也牽引著通用服務器，像AI服務器那樣，走向高密度部署。

市場出現的這兩個新變量，也讓已進入產業(yè)成熟期的通用服務器，再次站到了新變革的起點上。

通用服務器未來的出貨量增幅預計保持在5%～6%

新標準的變革和博弈

面對這家互聯網大廠提出的多元算力訴求，浪潮信息與客戶展開了“頭腦風暴”，解耦思路浮出水面。此前，AI服務器也曾面臨多個加速芯片競爭的局面，浪潮信息參與并推動的OAM標準，采用了解耦和標準化模組方式，讓不同廠商的芯片能夠快速應用和上量。

“OAM的思路給了我們啟發(fā)。”浪潮信息服務器產品線總經理趙帥說。通用服務器如果能打破市場慣例，不再以某一處理器為核心做系統架構設計，而是拆分為處理器、硬盤、IO、電源等標準化模塊，那么，客戶就可以像拼樂高一樣拼接不同模塊，滿足自己的多元需求。

這個想法提出的一年多之后，經過產業(yè)鏈多方的努力，解耦思路得以落實。開放標準組織OCTC發(fā)起了開放算力模組(OCM，Open Computing Module)規(guī)范，建立了標準化算力模組，實現了“一機多芯”。按照規(guī)范的定義，未來一臺服務器中，英特爾、AMD、ARM更多CPU平臺可隨意切換，甚至可以同時支持。這也是國內首個服務器計算模組設計標準規(guī)范。

開放算力模組(OCM，Open Computing Module)規(guī)范啟動

浪潮信息也完成了首個符合OCM規(guī)范的產品設計。數智前線獲悉，首款基于OCM規(guī)范的元腦服務器NF3290G8目前已進入送測階段，預計2025年Q1進行批量部署。

這一標準之所以能在此時打破過去幾十年通用服務器的設計慣例，也與產業(yè)鏈各方正在尋求的破局相關：

最強勢的處理器芯片環(huán)節(jié)“松動”了。最近兩年，多元算力起勢，不僅X86體系，RSIC-V體系、ARM體系都在積極布局算力市場，芯片的競爭趨于白熱化——誰先抵達用戶側、實現業(yè)務快速上線，誰就能占領市場。強勢的芯片廠商也不能再固守陳規(guī)，有了可協商的空間。

終端用戶企業(yè)也提出急迫需求�；ヂ摼W大廠需要靈活多變的算力單元，通信企業(yè)則有多元算力快速部署上量的壓力。

服務器企業(yè)面對這么多芯片平臺，開發(fā)工作量成倍攀升、成本高企。他們也有迫切提升多元算力服務器研發(fā)效率的動力。

而對于國家標準制定單位，算力模塊產業(yè)標準一直是個空白，他們有意愿去構建相關標準，促進國內服務器產業(yè)對標國際水平。

這些推力，讓產業(yè)鏈各方走到了一起。于是，在2024年OCTC發(fā)起開放算力模組規(guī)范時，人們看到首批成員包括了中國電子技術標準化研究院、百度、小紅書、浪潮信息、英特爾、AMD、聯想、超聚變等各方代表。

不過，標準出臺的過程并非一帆風順，大家有各自的需求，也因此有一些沖突點。

比如，互聯網大廠和芯片廠商，互聯網大廠更關注領先芯片平臺在標準中獲得落實，一些國內外芯片廠商則更關注平臺的兼容性，以及能否將各自的優(yōu)勢得以展現。最終，標準組將這些算力平臺都納入進來，做標準化評估和兼容。

不同服務器廠商也有自己的訴求，都期望標準多向自己傾斜一些。最終，標準組通過主板標準+托盤方法，快速耦合不同機箱或技術架構平臺，化解了這一矛盾。

浪潮信息服務器產品線產品規(guī)劃經理羅劍回憶這次標準發(fā)起和制定過程時說，各方能走到一起，一個大前提是有利于整個產業(yè)的健康發(fā)展。在這個前提之下，OCM提供了一個相對公平的平臺。通過這一平臺，大家可以共同促進算力產業(yè)的高質量發(fā)展。

產品化呈現三大重要趨勢

OCM標準出臺之后，業(yè)界開始了產品化工作。

浪潮信息緊鑼密鼓推出了首個基于OCM架構的通用服務器——元腦NF3290G8。首代服務器支持兩種CPU新品，英特爾®至強®6處理器，以及第五代AMD EPYC™ 9005系列處理器。前者在AI推理與計算、生成式AI、科學研究等場景，表現出較高的性能提升，后者則在全閃存儲、高網絡帶寬、金融高頻交易、大數據分析等場景，性能提升不錯。

而在這次系統廠商對OCM標準的產品化過程中，有三大趨勢也值得業(yè)界關注：其一是解耦化；其二是產品智能化管理中，對大模型技術的引入；其三是硬件開放、軟件開源的潮流。

在第一個大趨勢上，OCM采用的解耦趨勢，代表了服務器系統架構的未來演進方向。“從系統效率來看，系統分為通用算力、內存、異構算力等標準模塊之后，提供一致性的供電、散熱和調控，就可以針對不同硬件資源，進行相應的供電、散熱優(yōu)化，才能實現極致的能效比。”羅劍說，采用OCM標準的元腦NF3290G8，已呈現了雛形。

為了實現解耦和模塊化設計，工程師們聚焦解決了計算模塊的供電、管理、對外高速互連等歸一化問題。如在管理上，由于每個處理器芯片的管理接口、協議等均不同，要求管理系統BMC，要掌握各家處理器的“密碼本”，將不同的信息翻譯成“明文”后，進行統一管理。此前，這一技術掌握在獨立BMC固件提供商（IBV）手中。而2023年，浪潮信息通過開源路線OpenBMC，掌握了固件研發(fā)的技術能力，為這次實現處理器管理的歸一化，奠定了基礎。

在第二大趨勢產品管理智能化上，針對通用服務器中的高故障部件，如內存和硬盤，新一代服務器平臺，利用了大模型可對海量數據進行學習訓練的優(yōu)勢，基于浪潮信息推出的大模型“源”，對以往服務器的故障日志數據，進行了針對性訓練，形成故障預警模型，集成到BMC管理引擎中。目前，系統實現了提前7天的故障預警，將客戶的非計劃停機時間縮至更短，以減少業(yè)務損失。

在第三大趨勢開源開放上，硬件的產品設計，尤其是與OCM產品化相關的設計，都在OCTC開放社區(qū)中進行貢獻，讓客戶可獲得相關資料。在軟件開源上，從OpenBMC社區(qū)而來的開源技術，幫助浪潮信息解決了解耦中的關鍵問題，并再次回饋給開源社區(qū)。開源開放是一個不斷積累和匯聚技術力量的過程，最終為自身和產業(yè)鏈發(fā)展提供強大的支撐和動力。

在這三大重要趨勢之外，通用服務器功耗攀升帶來的散熱問題，也是業(yè)界極為關注的。根據介紹，散熱也是這次產品化過程中，遇到的最大挑戰(zhàn)。

我們可以在通用服務器上看到，處理器平臺的未來功耗大約在500~600瓦之間。同時，服務器中還有四個350瓦的GPU。而智能網卡已成為云業(yè)務的標配，隨著帶寬的攀升，它的功耗也不容小覷。這些部件的功耗加起來，整機功耗已接近3000瓦。如何解決如此大功耗的散熱？羅劍透露，工程師們采用的方法之一是散熱風道分離，CPU、GPU以及智能網卡，都有單獨的散熱通道。這讓散熱效率提升5%以上，對數據中心的PUE來說極為重要。

而接下去，當通用服務器的功耗進一步攀升，風冷可能就走到盡頭了，OCM標準可能將向液冷方向演進。

采用OCM標準后，服務器的研發(fā)成本大幅降低。因為解耦，減少了很多重復性的開發(fā)工作，加快了芯片從研發(fā)、測試驗證到落地的速度，浪潮信息的產品開發(fā)周期從原來的18個月，壓縮到6到8個月。另外解耦和模塊化過程中，因為可靠性標準，包括信號、電源、結構、系統穩(wěn)定性要求的提高，架構的改變，并未降低服務器的可靠性。

圖說：OCM算力模塊，可支持多處理器平臺

通用服務器處于變革起點

OCM是一個重要的里程碑，用解耦思路，改變了通用服務器的設計慣例，但從長遠來看，未來一段時間，智算對通用服務器帶來的影響，將更為劇烈。

當下，智算正在引領整個產業(yè)的演進。大模型對算力的需求，讓智算算力高速攀升。根據市場調研公司的IDC的分析預測，2023年和2024年，AI服務器市場連續(xù)翻番。如在中國市場，AI服務器2023年翻倍到100億美元；2024年又翻倍增長到近200億美元。AI服務器即將占據整體服務器市場的半壁江山。服務器市場也因而有了一句話，市場好不好，就看AI服務器。

在AI服務器中，GPU的旗艦芯片實現了Chiplet化，多個芯片裸片被互聯封裝在一起，以提供極致的算力，但也讓芯片功耗迅速攀升到1200瓦甚至1600瓦，并進一步拉動了整個算力基礎設施的供電需求。

過去10年，數據中心基礎設施的變化并不大�，F在，大多數數據中心供電能力為10千瓦~12千瓦。隨著智算的演進，未來數據中心整體供電能力將達到100千瓦向上，甚至200千瓦�，F在，一些AI整機柜服務器甚至可能達到400千瓦。

“在這一大前提下，我們判斷未來通用算力可能也會出現大變革。” 羅劍說，因為當下通用服務器的部署方式，與高供電能力的數據中心相比，收益和效率都較低。“我們判斷通用算力也會向高密、液冷的整機柜形態(tài)做長期演進。”

如果通用服務器采用高密整機柜部署形態(tài)，其中的節(jié)點將基于分層解耦理念進行設計。而OCM的解耦理念，也是將算力單元變成一個個小模塊。因此，OCM可能會成為實現數據中心服務器高密部署的起點。未來可能再通過液冷方式，將部署密度提升上去。

羅劍分析，在朝著高密、液冷方向演進的過程中，產品設計將發(fā)生翻天覆地的變化。如內存可能將平鋪在主板或貼在主板正反面，或以一種更易于液冷部署的方式來構建。

而為了實現這樣的變革，現有的產業(yè)鏈也將延伸，液冷、內存、供電等環(huán)節(jié)的企業(yè)也將加入進來。“OCM會是一個好的開始。”羅劍說，“它將推動算力產業(yè)面向未來的需求去演進、升級。”

發(fā)表評論