聊聊大模型推理系統(tǒng)之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
作者:InternLM、Qwen 等 LLM
全文約 2600 字,預(yù)計(jì)閱讀 7 分鐘
近年來,大型語言模型(LLM)的廣泛應(yīng)用推動(dòng)了推理服務(wù)系統(tǒng)的不斷優(yōu)化。然而,在離線批量推理場(chǎng)景中,如何平衡計(jì)算資源利用效率和性能仍是一個(gè)亟待解決的問題。
因此,今天我們來聊聊加州大學(xué)伯克利分校、華盛頓大學(xué)等團(tuán)隊(duì)聯(lián)合提出的一種名為BlendServe的系統(tǒng),通過創(chuàng)新的資源感知批處理策略,顯著提升了硬件利用率與推理吞吐量。本文將帶您快速了解這項(xiàng)研究的核心亮點(diǎn)、背景、方法創(chuàng)新及行業(yè)意義。
核心看點(diǎn)
BlendServe的核心目標(biāo)是通過重新排序和重疊請(qǐng)求來最大化硬件資源利用率,同時(shí)保持高前綴共享率。實(shí)驗(yàn)表明,該系統(tǒng)在多種合成多模態(tài)工作負(fù)載下表現(xiàn)出色:
吞吐量提升:相比現(xiàn)有的行業(yè)標(biāo)準(zhǔn)(如vLLM和SGLang),BlendServe實(shí)現(xiàn)了高達(dá)1.44 倍的吞吐量加速。資源重疊優(yōu)化:通過資源感知前綴樹的設(shè)計(jì),系統(tǒng)能夠有效結(jié)合計(jì)算密集型和內(nèi)存密集型請(qǐng)求,實(shí)現(xiàn)資源調(diào)度的最佳平衡。前綴共享保持:即使在優(yōu)化資源使用的同時(shí),BlendServe仍能保持接近最優(yōu)的前綴共享率(超過 97% )。通用性強(qiáng):無論是文本生成、視頻理解還是多模態(tài)任務(wù),BlendServe均展現(xiàn)出穩(wěn)定的性能優(yōu)勢(shì)。
這些突破為離線推理任務(wù)提供了全新的解決方案,特別是在大規(guī)模多模態(tài)數(shù)據(jù)處理中具有重要應(yīng)用價(jià)值。
研究背景
在傳統(tǒng)的在線推理服務(wù)中,低延遲是首要目標(biāo),因此系統(tǒng)設(shè)計(jì)通常采用嚴(yán)格的“先到先服務(wù)”策略(FCFS)。然而,在離線批量推理場(chǎng)景中,延遲要求相對(duì)寬松,這為更靈活的請(qǐng)求調(diào)度和資源優(yōu)化提供了可能。近年來,隨著Transformer架構(gòu)的普及,模型的輸入輸出長(zhǎng)度變得更加多樣化,例如長(zhǎng)上下文推理(如Tree of Thoughts)、復(fù)雜推理鏈路(如Chain of Thought)以及多模態(tài)擴(kuò)展(如LWM、Unified-IO等)。
這種多樣性帶來了新的挑戰(zhàn):一方面,不同請(qǐng)求對(duì)計(jì)算資源(如 GPU 算力)和內(nèi)存帶寬的需求差異顯著;另一方面,現(xiàn)有技術(shù)(如NanoFlow)雖然嘗試通過操作級(jí)重疊優(yōu)化資源使用,但忽略了請(qǐng)求間的資源互補(bǔ)性,導(dǎo)致整體性能受限。因此,如何在離線推理中實(shí)現(xiàn)高效資源調(diào)度成為了一個(gè)關(guān)鍵問題。
BlendServe正是從這一痛點(diǎn)切入,提出了一種兼顧資源重疊和前綴共享的全新調(diào)度方法,從而在保證高吞吐量的同時(shí)降低推理成本。
核心貢獻(xiàn)
方法創(chuàng)新:資源感知前綴樹
為了實(shí)現(xiàn)資源調(diào)度的全局優(yōu)化,BlendServe引入了一種新穎的資源感知前綴樹結(jié)構(gòu)。這一結(jié)構(gòu)不僅能夠捕獲請(qǐng)求之間的前綴共享關(guān)系,還能通過節(jié)點(diǎn)的計(jì)算密度值量化其資源需求特性。具體而言:
計(jì)算密度定義:計(jì)算密度(ρ(r))是計(jì)算時(shí)間與內(nèi)存綁定操作時(shí)間的比值。通過這一指標(biāo),系統(tǒng)能夠區(qū)分計(jì)算密集型和內(nèi)存密集型請(qǐng)求,并將其分別排列在樹的左側(cè)和右側(cè)。雙掃描算法:在排序后的前綴樹上,BlendServe采用一種啟發(fā)式雙掃描算法,從左至右和從右至左同時(shí)掃描葉子節(jié)點(diǎn),動(dòng)態(tài)構(gòu)建混合型請(qǐng)求批次。這種方法確保了計(jì)算與內(nèi)存資源的均衡使用,同時(shí)保留了高前綴共享率。
實(shí)驗(yàn)結(jié)果表明,相較于僅依賴深度優(yōu)先搜索(DFS)的傳統(tǒng)方法,BlendServe在吞吐量上平均提升了 20.84% (基準(zhǔn):NanoFlow-DFS)。
理論突破:前綴共享與資源重疊的權(quán)衡
傳統(tǒng)方法通常在前綴共享和資源重疊之間存在權(quán)衡:追求高前綴共享率可能導(dǎo)致資源分配不均,而單純優(yōu)化資源重疊則可能犧牲前綴共享帶來的性能增益。BlendServe通過理論建模解決了這一問題:
首先,系統(tǒng)基于計(jì)算密度對(duì)請(qǐng)求進(jìn)行分層排序,確保計(jì)算密集型和內(nèi)存密集型請(qǐng)求的分布均勻。其次,通過動(dòng)態(tài)調(diào)整 GPU 內(nèi)存分區(qū),系統(tǒng)能夠在每個(gè)批次內(nèi)實(shí)現(xiàn)最佳資源重疊比例(即計(jì)算密度接近 1),從而最大化硬件利用率。
在實(shí)際測(cè)試中,BlendServe達(dá)到了 86.55% 的理論最優(yōu)吞吐量,顯著優(yōu)于現(xiàn)有基線。
實(shí)證成果:廣泛適用的性能提升
研究團(tuán)隊(duì)在多個(gè)合成工作負(fù)載上驗(yàn)證了BlendServe的性能,包括WildChat、ShareGPT、Azure-Trace和OpenVid等代表性數(shù)據(jù)集。結(jié)果顯示:
在高前綴共享率場(chǎng)景下,系統(tǒng)性能穩(wěn)定,吞吐量提升幅度達(dá) 19.34%-22.65% 。在低前綴共享率場(chǎng)景下,系統(tǒng)仍能通過高效的資源重疊策略實(shí)現(xiàn) 14%-34% 的性能提升。
此外,BlendServe的靈活性使其適用于分布式環(huán)境,能夠輕松擴(kuò)展至多 GPU 或多節(jié)點(diǎn)部署,契合當(dāng)前大規(guī)模推理服務(wù)的發(fā)展趨勢(shì)。
行業(yè)意義
BlendServe的研究成果不僅為離線推理任務(wù)提供了全新的思路,還對(duì)整個(gè) AI 推理服務(wù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響:
推動(dòng)多模態(tài)推理發(fā)展:隨著多模態(tài)模型(如EMU、VILA-U)的興起,推理系統(tǒng)需要處理更加復(fù)雜的資源需求。BlendServe的資源感知機(jī)制為這類任務(wù)提供了高效解決方案,有助于進(jìn)一步降低計(jì)算成本。契合綠色計(jì)算趨勢(shì):通過提高硬件利用率,BlendServe能夠顯著減少推理任務(wù)的能耗,符合碳中和政策導(dǎo)向,助力綠色數(shù)據(jù)中心建設(shè)。引領(lǐng)技術(shù)變革:該研究為未來的推理系統(tǒng)設(shè)計(jì)提供了重要參考,特別是在分布式環(huán)境下的資源調(diào)度優(yōu)化方面,有望推動(dòng)新一代推理框架的誕生。結(jié)語
BlendServe以其獨(dú)特的資源感知批處理策略,成功突破了離線推理中的資源調(diào)度瓶頸,為多模態(tài)任務(wù)和大規(guī)模推理服務(wù)帶來了顯著的性能提升。未來,隨著更多應(yīng)用場(chǎng)景的落地,這一技術(shù)有望成為 AI 推理領(lǐng)域的核心工具之一,為行業(yè)帶來更大的變革力量。
???? 論文鏈接:
https://arxiv.org/abs/2411.16102
第一作者Yilong Zhao和Shuo Yang深耕AI 系統(tǒng)優(yōu)化領(lǐng)域多年,曾參與多項(xiàng)高性能計(jì)算與機(jī)器學(xué)習(xí)系統(tǒng)的研究項(xiàng)目。本研究得到了加州大學(xué)伯克利分校、華盛頓大學(xué)以及 xAI 實(shí)驗(yàn)室的聯(lián)合支持。
-- 完 --
原文標(biāo)題 : 聊聊大模型推理系統(tǒng)之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?