久久久久久一级毛片免费野外黑人,美女大胆作爱全过程

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

聊聊大模型推理系統(tǒng)之 BlendServe：通過資源感知批處理策略，最大化硬件資源利用率和推理吞吐量

2025-04-30 09:47

作者：InternLM、Qwen 等 LLM

全文約 2600 字，預(yù)計(jì)閱讀 7 分鐘

近年來，大型語言模型（LLM）的廣泛應(yīng)用推動(dòng)了推理服務(wù)系統(tǒng)的不斷優(yōu)化。然而，在離線批量推理場(chǎng)景中，如何平衡計(jì)算資源利用效率和性能仍是一個(gè)亟待解決的問題。

因此，今天我們來聊聊加州大學(xué)伯克利分校、華盛頓大學(xué)等團(tuán)隊(duì)聯(lián)合提出的一種名為BlendServe的系統(tǒng)，通過創(chuàng)新的資源感知批處理策略，顯著提升了硬件利用率與推理吞吐量。本文將帶您快速了解這項(xiàng)研究的核心亮點(diǎn)、背景、方法創(chuàng)新及行業(yè)意義。

核心看點(diǎn)

BlendServe的核心目標(biāo)是通過重新排序和重疊請(qǐng)求來最大化硬件資源利用率，同時(shí)保持高前綴共享率。實(shí)驗(yàn)表明，該系統(tǒng)在多種合成多模態(tài)工作負(fù)載下表現(xiàn)出色：

吞吐量提升：相比現(xiàn)有的行業(yè)標(biāo)準(zhǔn)（如vLLM和SGLang），BlendServe實(shí)現(xiàn)了高達(dá)1.44 倍的吞吐量加速。資源重疊優(yōu)化：通過資源感知前綴樹的設(shè)計(jì)，系統(tǒng)能夠有效結(jié)合計(jì)算密集型和內(nèi)存密集型請(qǐng)求，實(shí)現(xiàn)資源調(diào)度的最佳平衡。前綴共享保持：即使在優(yōu)化資源使用的同時(shí)，BlendServe仍能保持接近最優(yōu)的前綴共享率（超過 97% ）。通用性強(qiáng)：無論是文本生成、視頻理解還是多模態(tài)任務(wù)，BlendServe均展現(xiàn)出穩(wěn)定的性能優(yōu)勢(shì)。

這些突破為離線推理任務(wù)提供了全新的解決方案，特別是在大規(guī)模多模態(tài)數(shù)據(jù)處理中具有重要應(yīng)用價(jià)值。

研究背景

在傳統(tǒng)的在線推理服務(wù)中，低延遲是首要目標(biāo)，因此系統(tǒng)設(shè)計(jì)通常采用嚴(yán)格的“先到先服務(wù)”策略（FCFS）。然而，在離線批量推理場(chǎng)景中，延遲要求相對(duì)寬松，這為更靈活的請(qǐng)求調(diào)度和資源優(yōu)化提供了可能。近年來，隨著Transformer架構(gòu)的普及，模型的輸入輸出長(zhǎng)度變得更加多樣化，例如長(zhǎng)上下文推理（如Tree of Thoughts）、復(fù)雜推理鏈路（如Chain of Thought）以及多模態(tài)擴(kuò)展（如LWM、Unified-IO等）。

這種多樣性帶來了新的挑戰(zhàn)：一方面，不同請(qǐng)求對(duì)計(jì)算資源（如 GPU 算力）和內(nèi)存帶寬的需求差異顯著；另一方面，現(xiàn)有技術(shù)（如NanoFlow）雖然嘗試通過操作級(jí)重疊優(yōu)化資源使用，但忽略了請(qǐng)求間的資源互補(bǔ)性，導(dǎo)致整體性能受限。因此，如何在離線推理中實(shí)現(xiàn)高效資源調(diào)度成為了一個(gè)關(guān)鍵問題。

BlendServe正是從這一痛點(diǎn)切入，提出了一種兼顧資源重疊和前綴共享的全新調(diào)度方法，從而在保證高吞吐量的同時(shí)降低推理成本。

核心貢獻(xiàn)

方法創(chuàng)新：資源感知前綴樹

為了實(shí)現(xiàn)資源調(diào)度的全局優(yōu)化，BlendServe引入了一種新穎的資源感知前綴樹結(jié)構(gòu)。這一結(jié)構(gòu)不僅能夠捕獲請(qǐng)求之間的前綴共享關(guān)系，還能通過節(jié)點(diǎn)的計(jì)算密度值量化其資源需求特性。具體而言：

計(jì)算密度定義：計(jì)算密度（ρ(r)）是計(jì)算時(shí)間與內(nèi)存綁定操作時(shí)間的比值。通過這一指標(biāo)，系統(tǒng)能夠區(qū)分計(jì)算密集型和內(nèi)存密集型請(qǐng)求，并將其分別排列在樹的左側(cè)和右側(cè)。雙掃描算法：在排序后的前綴樹上，BlendServe采用一種啟發(fā)式雙掃描算法，從左至右和從右至左同時(shí)掃描葉子節(jié)點(diǎn)，動(dòng)態(tài)構(gòu)建混合型請(qǐng)求批次。這種方法確保了計(jì)算與內(nèi)存資源的均衡使用，同時(shí)保留了高前綴共享率。

實(shí)驗(yàn)結(jié)果表明，相較于僅依賴深度優(yōu)先搜索（DFS）的傳統(tǒng)方法，BlendServe在吞吐量上平均提升了 20.84% （基準(zhǔn)：NanoFlow-DFS）。

理論突破：前綴共享與資源重疊的權(quán)衡

傳統(tǒng)方法通常在前綴共享和資源重疊之間存在權(quán)衡：追求高前綴共享率可能導(dǎo)致資源分配不均，而單純優(yōu)化資源重疊則可能犧牲前綴共享帶來的性能增益。BlendServe通過理論建模解決了這一問題：

首先，系統(tǒng)基于計(jì)算密度對(duì)請(qǐng)求進(jìn)行分層排序，確保計(jì)算密集型和內(nèi)存密集型請(qǐng)求的分布均勻。其次，通過動(dòng)態(tài)調(diào)整 GPU 內(nèi)存分區(qū)，系統(tǒng)能夠在每個(gè)批次內(nèi)實(shí)現(xiàn)最佳資源重疊比例（即計(jì)算密度接近 1），從而最大化硬件利用率。

在實(shí)際測(cè)試中，BlendServe達(dá)到了 86.55% 的理論最優(yōu)吞吐量，顯著優(yōu)于現(xiàn)有基線。

實(shí)證成果：廣泛適用的性能提升

研究團(tuán)隊(duì)在多個(gè)合成工作負(fù)載上驗(yàn)證了BlendServe的性能，包括WildChat、ShareGPT、Azure-Trace和OpenVid等代表性數(shù)據(jù)集。結(jié)果顯示：

在高前綴共享率場(chǎng)景下，系統(tǒng)性能穩(wěn)定，吞吐量提升幅度達(dá) 19.34%-22.65% 。在低前綴共享率場(chǎng)景下，系統(tǒng)仍能通過高效的資源重疊策略實(shí)現(xiàn) 14%-34% 的性能提升。

此外，BlendServe的靈活性使其適用于分布式環(huán)境，能夠輕松擴(kuò)展至多 GPU 或多節(jié)點(diǎn)部署，契合當(dāng)前大規(guī)模推理服務(wù)的發(fā)展趨勢(shì)。

行業(yè)意義

BlendServe的研究成果不僅為離線推理任務(wù)提供了全新的思路，還對(duì)整個(gè) AI 推理服務(wù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響：

推動(dòng)多模態(tài)推理發(fā)展：隨著多模態(tài)模型（如EMU、VILA-U）的興起，推理系統(tǒng)需要處理更加復(fù)雜的資源需求。BlendServe的資源感知機(jī)制為這類任務(wù)提供了高效解決方案，有助于進(jìn)一步降低計(jì)算成本。契合綠色計(jì)算趨勢(shì)：通過提高硬件利用率，BlendServe能夠顯著減少推理任務(wù)的能耗，符合碳中和政策導(dǎo)向，助力綠色數(shù)據(jù)中心建設(shè)。引領(lǐng)技術(shù)變革：該研究為未來的推理系統(tǒng)設(shè)計(jì)提供了重要參考，特別是在分布式環(huán)境下的資源調(diào)度優(yōu)化方面，有望推動(dòng)新一代推理框架的誕生。結(jié)語

BlendServe以其獨(dú)特的資源感知批處理策略，成功突破了離線推理中的資源調(diào)度瓶頸，為多模態(tài)任務(wù)和大規(guī)模推理服務(wù)帶來了顯著的性能提升。未來，隨著更多應(yīng)用場(chǎng)景的落地，這一技術(shù)有望成為 AI 推理領(lǐng)域的核心工具之一，為行業(yè)帶來更大的變革力量。

???? 論文鏈接：

https://arxiv.org/abs/2411.16102

第一作者Yilong Zhao和Shuo Yang深耕AI 系統(tǒng)優(yōu)化領(lǐng)域多年，曾參與多項(xiàng)高性能計(jì)算與機(jī)器學(xué)習(xí)系統(tǒng)的研究項(xiàng)目。本研究得到了加州大學(xué)伯克利分校、華盛頓大學(xué)以及 xAI 實(shí)驗(yàn)室的聯(lián)合支持。

-- 完 --

原文標(biāo)題 : 聊聊大模型推理系統(tǒng)之 BlendServe：通過資源感知批處理策略，最大化硬件資源利用率和推理吞吐量

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频