端側(cè)AI爆發(fā),AI模組破局DeepSeek在實(shí)體產(chǎn)業(yè)落地最后一公里
作者:李寧遠(yuǎn)物聯(lián)網(wǎng)智庫(kù) 原創(chuàng)
在上一篇文章《從附加功能到重構(gòu)產(chǎn)品價(jià)值,端側(cè)AI將重新定義可穿戴設(shè)備》中曾提到過(guò)智能終端正在利用本地側(cè)AI來(lái)提升終端產(chǎn)品附加值,并逐步通過(guò)軟硬件協(xié)同將AI從“附加功能”推向“重構(gòu)核心能力”,轉(zhuǎn)移設(shè)備價(jià)值重心,最終端側(cè)AI將成為智能終端設(shè)備的定義者。
從生成式AI的云端智能到端側(cè)AI落地的革命漫長(zhǎng)的技術(shù)周期里,上下游廠商不斷探索著硬件創(chuàng)新、端側(cè)算法模型優(yōu)化與場(chǎng)景落地的協(xié)同。那當(dāng)AI走出云端落到端側(cè)如何才能讓終端設(shè)備真正“智能”?Deepseek的橫空出世給出了一份答案。Deepseek展現(xiàn)的“低成本、高性能、開(kāi)源”顛覆性?xún)?yōu)勢(shì),直接點(diǎn)亮了終端側(cè)AI的發(fā)展前景,端側(cè)智能不再完全受限于硬件算力與能效,大模型通過(guò)蒸餾技術(shù)重構(gòu)的小模型在端側(cè)部署可行性大增。
從已發(fā)布的多個(gè)Deepseek R1的精簡(jiǎn)模型來(lái)看,在保持性能的前提下,能將模型參數(shù)量大幅壓縮,這使得端側(cè)模型部署難度顯著減小,并突破以往端側(cè)AI面臨存儲(chǔ)空間、算力消耗、推理延遲等部署障礙。知名分析師郭明錤日前也發(fā)文指出,Deepseek爆紅后,端側(cè)AI趨勢(shì)將加速。
端側(cè)應(yīng)用的想象空間的確在Deepseek的加持下不斷擴(kuò)大,特別是在今年端側(cè)AI元年這個(gè)時(shí)間節(jié)點(diǎn),AI模組廠商紛紛布局Deepseek,幫助下游終端客戶(hù)搭建本地智能。模組與Deepseek的融合,這意味著產(chǎn)業(yè)鏈下游的中小型廠商能夠通過(guò)模組快速集成AI能力推出各自的終端產(chǎn)品。可以說(shuō)AI模組正在破局DeepSeek在實(shí)體產(chǎn)業(yè)落地的最后一公里,AI也將在今年快速向終端普及。
Deepseek正在成為端側(cè)AI新引擎
自Deepseek成為整個(gè)科技圈關(guān)注的焦點(diǎn),上到芯片廠商、模組廠商下到軟件廠商、方案廠商以及再到垂直應(yīng)用的終端廠商,都在爭(zhēng)先恐后加入Deepseek生態(tài)圈。這一全球現(xiàn)象級(jí)的模型到底有何特別之處,特別對(duì)于端側(cè)應(yīng)用來(lái)說(shuō),Deepseek給出了哪些不同以往模型的支持?
圖源:Deepseek
首先是模型的輕量化設(shè)計(jì),Deepseek采用自研的DeepseekMoE架構(gòu),和傳統(tǒng)的MoE架構(gòu)相比,減少專(zhuān)家間的知識(shí)冗余,并通過(guò)稀疏混合專(zhuān)家(Sparse Mixture of Experts)層替代傳統(tǒng)Transformer的前饋網(wǎng)絡(luò)(FFN),每個(gè)Token僅激活少量專(zhuān)家,大幅減少計(jì)算量和顯存占用。
這一輕量化設(shè)計(jì)最直接的體現(xiàn)就是671B參數(shù)的模型實(shí)際激活參數(shù)量?jī)H37B,顯著降低推理資源需求。這意味著AI能夠在計(jì)算資源有限的終端設(shè)備上運(yùn)行,支持從超大規(guī)模模型到端側(cè)設(shè)備的無(wú)縫擴(kuò)展,在手機(jī)、PC、ARVR等可穿戴設(shè)備、汽車(chē)等端側(cè)硬件本地化部署上具有很強(qiáng)的可操作性。
其次,大模型推理過(guò)程KV 機(jī)制是限制推理效率的一大瓶頸,Deepseek創(chuàng)新的MLA機(jī)制通過(guò)低秩聯(lián)合壓縮鍵值(KV)緩存,相比傳統(tǒng)MHA減少約90%的KV緩存量,提升推理效率。MLA在保持性能的同時(shí),減少對(duì)顯存帶寬的依賴(lài),實(shí)現(xiàn)更徹底的輕量化,更適合端側(cè)設(shè)備部署。
在模型蒸餾和本地部署上,Deepseek本身就提供了不少蒸餾版模型,如R1的1.5B版本,全面支持在資源受限硬件中運(yùn)行。例如PC僅需1.1GB內(nèi)存即可完成基礎(chǔ)推理任務(wù),極大擴(kuò)展了AI的應(yīng)用場(chǎng)景。
第二是Deepseek在低功耗上的優(yōu)化。在并行計(jì)算與通信優(yōu)化上大幅減少了功耗。Deepseek采用DualPipe流水線(xiàn)并行技術(shù),通過(guò)重疊前向傳播與后向傳播的計(jì)算和通信階段,減少GPU閑置時(shí)間。同時(shí)結(jié)合16路流水線(xiàn)并行、64路專(zhuān)家并行與ZeRO-1數(shù)據(jù)并行,能顯著降低能耗。
Deepseek還支持FP8混合精度訓(xùn)練,對(duì)激活和權(quán)重分別采用Group-wise與Block-wise量化策略,在TensorCore上執(zhí)行高效矩陣運(yùn)算,減少計(jì)算能耗。推理階段通過(guò)預(yù)填充與解碼分離策略,優(yōu)化資源分配。
最后是端側(cè)看重的且相比云端更具優(yōu)勢(shì)的隱私保護(hù)機(jī)制。Deepseek支持完全離線(xiàn)的本地部署模式,用戶(hù)數(shù)據(jù)無(wú)需上傳云端,避免敏感信息泄露風(fēng)險(xiǎn)。
在加密與權(quán)限控制上,Deepseek采用動(dòng)態(tài)路由策略與冗余專(zhuān)家部署,結(jié)合訪問(wèn)控制機(jī)制,防止模型內(nèi)部數(shù)據(jù)被逆向分析。同時(shí),API服務(wù)支持密鑰管理與用量監(jiān)控,進(jìn)一步保障數(shù)據(jù)安全。
總的來(lái)看,Deepseek通過(guò)MoE架構(gòu)和MLA注意力機(jī)制輕量化得更徹底且性能強(qiáng)勁,比依賴(lài)量化后模型體積縮減的TensorFlow Lite和依賴(lài)Metal加速與硬件適配的Core ML更靈活效率更高。加之低功耗與隱私保護(hù)方面的增強(qiáng),這些革新的優(yōu)勢(shì)點(diǎn)都是端側(cè)AI亟需的,推動(dòng)了模型向端側(cè)設(shè)備普及,也為AI落地的多元化需求提供了更優(yōu)解,完全可以說(shuō)Deepseek正在成為端側(cè)AI的新引擎。
Deepseek帶動(dòng)端側(cè)AI產(chǎn)業(yè)鏈發(fā)展
Deepseek雖然面世不久,但已經(jīng)成為端側(cè)AI上下游廠商的布局重點(diǎn)。在具體的端側(cè)設(shè)備領(lǐng)域,手機(jī)方面包括OPPO、榮耀、魅族等廠商均宣布已經(jīng)完成了對(duì)Deepseek模型的接入;汽車(chē)圈也開(kāi)始全面適配,包括吉利、極氪、嵐圖、寶駿、智己、東風(fēng)、零跑、長(zhǎng)城等8家車(chē)宣布接入Deepseek;PC方面,國(guó)產(chǎn)GPU廠商沐曦與聯(lián)想合作推出的Deepseek智能體一體機(jī)、英特爾AIPC合作伙伴Flowy在最新版的AIPC助手上率先支持了端側(cè)運(yùn)行Deepseek模型……終端硬件與Deepseek的融合正在以驚人的速度發(fā)展。
在上游芯片領(lǐng)域,花旗分析師Laura Chen團(tuán)隊(duì)在最近的研報(bào)中表示,Deepseek的出現(xiàn)推動(dòng)AI技術(shù)的低成本化和端側(cè)化,將重塑半導(dǎo)體行業(yè)格局。和模型息息相關(guān)的AI芯片產(chǎn)業(yè)鏈,國(guó)內(nèi)企業(yè)正紛紛響應(yīng),沐曦、燧原科技、華為昇騰、海光信息、龍芯中科、天數(shù)智芯、壁仞科技、摩爾線(xiàn)程、中星微、云天勵(lì)飛等十幾家本土AI芯片廠商均宣布在云端或是端側(cè)適配Deepseek模型。
如華為昇騰已與Deepseek合作,支持Deepseek-R1和Deepseek-V3模型的推理部署;云天勵(lì)飛已經(jīng)完成DeepEdge10“算力積木”芯片平臺(tái)與Deepseek-R1系列大模型的適配,主攻端側(cè)應(yīng)用;海光信息宣布完成Deepseek V3和R1模型、Deepseek-Janus-Pro多模態(tài)大模型與海光DCU(深度計(jì)算單元)的適配;中星微技術(shù)旗下星光智能系列AI芯片也在全面融合Deepseek模型能力向端側(cè)發(fā)力。
在智能硬件中成本占比最高的一環(huán),端側(cè)SoC以及ASIC芯片,隨著Deepseek相關(guān)端側(cè)應(yīng)用爆發(fā),在終端AI部署中的應(yīng)用需求會(huì)增加,將迎來(lái)更多市場(chǎng)機(jī)會(huì)。如恒玄科技、瑞芯微、晶晨股份、全志科技、富瀚微、樂(lè)鑫科技、中科藍(lán)訊、炬芯科技等公司的SoC芯片,翱捷科技、寒武紀(jì)等公司的端側(cè)ASIC產(chǎn)品都較有代表性。
隨著Deepseek模型在應(yīng)用端的落地,智能終端對(duì)存儲(chǔ)芯片的需求同樣強(qiáng)烈。以典型的端側(cè)AI與先進(jìn)存儲(chǔ)技術(shù)代表終端AI手機(jī)為例,一部高端機(jī)型需要搭載8-12GB的DRAM和128-512GB的NAND Flash。可穿戴市場(chǎng)上對(duì)中大NOR Flash容量需求增加也是確定性的趨勢(shì),尤其是中大容量NOR Flash。兆易創(chuàng)新、江波龍、普冉股份、恒爍股份等存儲(chǔ)芯片廠商也在端側(cè)AI時(shí)代同樣能一展身手。
模組廠商也在迅速推進(jìn)端側(cè)AI加Deepseek方面的融合,如美格智能正在加速開(kāi)發(fā)DeepSeek-R1在端側(cè)的落地應(yīng)用,并計(jì)劃在2025年推出100TOPS級(jí)別的AI模組;廣和通、移遠(yuǎn)通信、潤(rùn)欣科技、芯訊通等廠商也在推進(jìn)相關(guān)模組產(chǎn)品布局。
移遠(yuǎn)通信已經(jīng)宣布其搭載高通 QCS8550 平臺(tái)的邊緣計(jì)算模組 SG885G,成功實(shí)現(xiàn)了 DeepSeek-R1 蒸餾小模型的穩(wěn)定運(yùn)行,在成功實(shí)現(xiàn) DeepSeek 模型端側(cè)運(yùn)行;廣和通不久前已官宣高算力 AI 模組及解決方案全面支持小尺寸的 DeepSeek-R1 模型,幫助客戶(hù)快速增強(qiáng)終端 AI 推理能力;美格智能正在結(jié)合 AIMO 智能體、高算力 AI 模組的異構(gòu)計(jì)算能力,結(jié)合多款模型量化、部署、功耗優(yōu)化 Know-how,加速開(kāi)發(fā) DeepSeek-R1 模型在端側(cè)落地應(yīng)用及端云結(jié)合整體方案……
端側(cè)AI已經(jīng)成為推動(dòng)智能設(shè)備革新的核心力量,Deepseek風(fēng)暴為這個(gè)即將迎來(lái)爆發(fā)的市場(chǎng)向前推進(jìn)推進(jìn)了一大步。端側(cè)AI+Deepseek帶來(lái)的終端全面AI正在加速到來(lái),產(chǎn)業(yè)鏈上下游也將在這波浪潮中受益良多。Deepseek推動(dòng)端側(cè)AI元年到來(lái),AI模組破局Deepseek在端側(cè)實(shí)體產(chǎn)業(yè)落地的最后一公里
回到開(kāi)頭的問(wèn)題,當(dāng)AI走出云端落到端側(cè)如何才能讓終端設(shè)備真正“智能”?從目前的端側(cè)應(yīng)用來(lái)看,Deepseek正在破解端側(cè)AI落地最后一公里面對(duì)著硬件碎片化、模型泛化性、以及端側(cè)能效三個(gè)難題。
硬件碎片化即不同端側(cè)設(shè)備如手機(jī)、攝像頭、傳感器的算力差異大、架構(gòu)差異大,傳統(tǒng)AI模型難以高效適配統(tǒng)一優(yōu)化。這方面Deepseek帶來(lái)的改變已經(jīng)開(kāi)始顯現(xiàn),首先通過(guò)Deepseek蒸餾和量化出來(lái)的端側(cè)模型已經(jīng)做到了和硬件無(wú)關(guān)的輕量化,支持從超大規(guī)模模型到端側(cè)設(shè)備的無(wú)縫擴(kuò)展,解決了一部分端側(cè)場(chǎng)景多層次硬件需求。
其次通過(guò)優(yōu)化模型架構(gòu),Deepseek的動(dòng)態(tài)異構(gòu)計(jì)算框架支持端側(cè)芯片內(nèi)多種計(jì)算單元的協(xié)同調(diào)度來(lái)解決硬件配置碎片化難題。這一方面目前各上游芯片原廠已經(jīng)開(kāi)始全面推進(jìn)基于Deepseek的軟硬協(xié)同創(chuàng)新,相信后續(xù)出來(lái)的端側(cè)芯片能很好地解決不同端側(cè)設(shè)備算力差異大、架構(gòu)差異大的問(wèn)題。
模型泛化性即傳統(tǒng)模型易受多變的端側(cè)環(huán)境干擾,如何在保證端側(cè)輕量化的同時(shí),讓模型適應(yīng)端側(cè)場(chǎng)景的復(fù)雜多變。Deepseek給出的答卷也很出彩,其跨維度知識(shí)蒸餾體系將大模型的邏輯解構(gòu)為思考推理,而非單純知識(shí)記憶,再通過(guò)動(dòng)態(tài)權(quán)重分配注入端側(cè)模型。端側(cè)模型雖小但較以往的端側(cè)模型性能更優(yōu),更全面地適配端側(cè)垂直場(chǎng)景。
至于端側(cè)能效,長(zhǎng)期以來(lái)都是模型算法廠商與端側(cè)硬件設(shè)備廠商在攻克的命題,這需要兩邊長(zhǎng)期的軟硬協(xié)同優(yōu)化。Deepseek在算法層面已經(jīng)做了極致的壓縮,如何與硬件做定制化的協(xié)同優(yōu)化就看后續(xù)的適配與迭代了。
Deepseek的出現(xiàn)加速了端側(cè)AI發(fā)展進(jìn)程,而AI模組與Deepseek的融合為端側(cè)實(shí)體產(chǎn)業(yè)落地的最后一公里提供了一條破局之道。對(duì)于端側(cè)AI產(chǎn)業(yè)鏈下游的終端廠商來(lái)說(shuō),特別是中小型廠商,如何便捷快速高效地為終端產(chǎn)品賦予本地智能是一道難題。
Deepseek帶動(dòng)的資本市場(chǎng)熱潮褪去后,落地到真正的實(shí)體產(chǎn)業(yè)帶動(dòng)終端設(shè)備升級(jí)與市場(chǎng)增長(zhǎng)是下一階段的關(guān)鍵。作為與終端設(shè)備關(guān)系最緊密的中游模組廠商,將AI模組與Deepseek的融合,為下游提供更精準(zhǔn)、更高效的端側(cè)AI產(chǎn)品與服務(wù),為端側(cè)實(shí)體產(chǎn)業(yè)落地的難題提供了解題思路。
Deepseek能夠無(wú)縫地將大模型的推理能力遷移到更小、更高效的端側(cè)版本中,也能更方便將其融合在智能模組中。像移遠(yuǎn)通信AI模組 SG885G成功實(shí)現(xiàn)了 在DeepSeek-R1 蒸餾小模型端側(cè)運(yùn)行的基礎(chǔ)上,同時(shí)完成該模型的針對(duì)性微調(diào),提供更精準(zhǔn)、更高效的端側(cè) AI 服務(wù),生成速度超過(guò)40Tokens/s,而且還能優(yōu)化。此芯科技在端側(cè)平臺(tái)適配的DeepSeek-R1-1.5B模型推理速度接近40Tokens/s,7B模型達(dá)10Tokens/s。這表明端側(cè)模組引入DeepSeek后,在推理速度提升上實(shí)現(xiàn)了顯著升級(jí)。搭載DeepseekAI模組的端側(cè)AI產(chǎn)品進(jìn)而也能夠承擔(dān)更多計(jì)算量,減輕云端服務(wù)器的計(jì)算負(fù)擔(dān)。
目前已經(jīng)官宣跑通Deepseek的模組,在應(yīng)用場(chǎng)景覆蓋性很廣,涵蓋智能汽車(chē)、機(jī)器視覺(jué)、PC、機(jī)器人、智能家居、AI玩具及可穿戴設(shè)備等多元化場(chǎng)景,多場(chǎng)景應(yīng)用支持讓不同行業(yè)不同終端的下游設(shè)備廠商能夠全面受益于Deepseek帶來(lái)的本地智能,加速終端智能化的發(fā)展。
而且模組廠商正在大力推進(jìn)不同算力、功耗的Deepseek模組產(chǎn)品,滿(mǎn)足下游客戶(hù)對(duì)成本、尺寸的差異化需求。模組針對(duì)不同終端應(yīng)用持續(xù)的優(yōu)化將大幅縮短端側(cè)智能相關(guān)產(chǎn)品的落地周期,從而賦能終端側(cè)真正享受到 AI 帶來(lái)的收益。
Deepseek在解決了端側(cè)AI硬件碎片化、模型泛化行和效能瓶頸上提供了強(qiáng)大助力,模組與Deepseek的深度結(jié)合更為端側(cè)AI落地最后一公里難題指出了一條破局之道。這條破局之道指向的最終藍(lán)圖,是讓端側(cè)AI成為終端設(shè)備核心功能的定義者,讓終端硬件真正智能起來(lái)。
寫(xiě)在最后
很長(zhǎng)一段時(shí)間端側(cè)模型都是制約智能終端硬件發(fā)展的枷鎖,而現(xiàn)在DeepSeek的出現(xiàn)讓這種局面開(kāi)始有所好轉(zhuǎn)。在可預(yù)期的未來(lái)里,針對(duì)端側(cè)應(yīng)用開(kāi)發(fā)的Deepseek AI模組將涌現(xiàn),為終端提供便捷高效的AI能力,端側(cè)AI已處在爆發(fā)前夕。
原文標(biāo)題 : 端側(cè)AI爆發(fā),AI模組破局DeepSeek在實(shí)體產(chǎn)業(yè)落地最后一公里

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線(xiàn)下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線(xiàn)會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線(xiàn)自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?