訂閱
糾錯(cuò)
加入自媒體

一文搞懂DeepSeek創(chuàng)新了些啥?

各位小伙伴兒過年好哈。

春節(jié)這陣子,DeepSeek帶著AI大模型火出了圈,大家都說DeepSeek公司和旗下AI大模型有多好多好,但很少提及具體的創(chuàng)新點(diǎn)在哪里。今天我們就來聊聊DeepSeek具體創(chuàng)新了些啥。

以往,大家普遍認(rèn)為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到,OpenAI興起的時(shí)候,不僅英偉達(dá)(NVIDIA)因此受益,只要沾邊AI的東西都“飛起”。美國(guó)佬更是通過禁售英偉達(dá)GPU來遏制中國(guó)AI發(fā)展。

但就在大家燒錢堆算力的時(shí)候,DeepSeek選擇燒腦改算法,下面那我就來捋一捋DeepSeek那些創(chuàng)新的點(diǎn)。(如有不對(duì),歡迎指正):

1、首先我們先看是DeepSeek-V2

DeepSeek-V2可以說是DeepSeek的第一次小出圈,當(dāng)時(shí)靠著超低價(jià)格直接讓國(guó)產(chǎn)大模型廠商紛紛降價(jià),那么為什么DeepSeek-V2能做到如何低價(jià)呢?

為了實(shí)現(xiàn)高效的推理和成本效益高的訓(xùn)練,DeepSeek-V2采用了兩大創(chuàng)新:DeepSeekMoE架構(gòu)和多頭潛在注意力(Multi-head Latent Attention,MLA)。這兩個(gè)技術(shù)創(chuàng)新分別針對(duì) Transformer 架構(gòu)中的不同瓶頸,成為DeepSeek-V2出圈的關(guān)鍵所在。

下面我們來看下什么是MoE架構(gòu)?

我們都知道,Dense大模型是目前國(guó)外主流的模型架構(gòu),DeepSeek-V2放棄了DeepSeek-V1的Dense(密集)路線,轉(zhuǎn)而使用MoE(混合專家模型)路線。

Dense的缺點(diǎn)就是參數(shù)量大,硬件消耗大,這也導(dǎo)致之前的大模型價(jià)格高。MoE由多個(gè)子模型(即“專家expert”)組成,每個(gè)子模型都是一個(gè)局部模型,專門處理輸入空間的一個(gè)子集。

相當(dāng)于把dense大模型變成很多個(gè)sparse(稀疏)的專家(expert)小模型,通過多個(gè)模型聚合來達(dá)到和dense大模型相當(dāng)?shù)哪芰。轉(zhuǎn)成MoE架構(gòu),DS-V2不僅激活參數(shù)量大大減少,并且性能提升很高。

舉個(gè)例子,傳統(tǒng)的大模型就好比一家?guī)讉(gè)頂級(jí)廚師的餐廳,每個(gè)廚師擅長(zhǎng)所有的菜系,但當(dāng)大量復(fù)雜的菜品出現(xiàn)時(shí),廚師忙不過來反而會(huì)造成效率低下。MoE模型則相當(dāng)于招了更多的沒那么高級(jí)廚師來說,但是每個(gè)廚師會(huì)不同的菜系,在面對(duì)復(fù)雜的菜品時(shí),模型能夠根據(jù)菜品的特點(diǎn),智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費(fèi)。

可能有人有會(huì)問,MoE這么好為什么國(guó)外大模型不愛用呢?

其實(shí)主要原因就是MoE大模型有個(gè)問題叫負(fù)載均衡(load balance),會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這會(huì)導(dǎo)致一個(gè)問題,就是訓(xùn)練過程中會(huì)采用所謂的專家并行(expert parallelism)機(jī)制,通過將不同的expert放到不同的顯卡上來加速訓(xùn)練,而load balance問題會(huì)導(dǎo)致某些重要的expert計(jì)算量更大,最終結(jié)果就是不重要的expert所在的顯卡跑不滿,效率不夠高。

DeepSeek-V2則在一些現(xiàn)有的解決load balance問題的方法基礎(chǔ)上,引入了額外的損失函數(shù)(即設(shè)備級(jí)平衡損失和通信平衡損失,下圖)來讓模型在訓(xùn)練中自主控制不同設(shè)備間的平衡,這兩個(gè)優(yōu)化方法都是他們的創(chuàng)新點(diǎn)。

DeepSeek-V2的另一大創(chuàng)新是MLA(Multi-Head Latent Attention,多頭潛注意力,下圖)。

下面我們大概簡(jiǎn)單說下。

在大模型運(yùn)行過程中,每次生成一個(gè)token(可以大概理解為一個(gè)字),而每個(gè)token只與之前的token有關(guān)。在不進(jìn)行優(yōu)化的情況下,每個(gè)token生成的時(shí)候都需要把之前所有的token都處理一遍,這樣的話效率非常差。

由于每個(gè)token只與之前的token有關(guān),我們就可以把上一次生成過程中計(jì)算過的矩陣保存下來,這樣生成下一個(gè)token我們可以復(fù)用這個(gè)矩陣,只需要計(jì)算新token的注意力即可。這個(gè)技術(shù)叫做kv-cache,是目前大模型非常常用的優(yōu)化算法。

但是kv-cache需要額外的顯存保存這些kv-cache,這樣的話在上下文(context)很長(zhǎng)的情況下顯存占用會(huì)非常高。尤其是在實(shí)際部署時(shí)服務(wù)器一般會(huì)批量處理并發(fā)請(qǐng)求,這樣的并發(fā)請(qǐng)求會(huì)帶來恐怖的kv-cache量,會(huì)導(dǎo)致顯存不夠用。

MLA通過低秩聯(lián)合壓縮鍵值(Key-Value),將它們壓縮為一個(gè)潛在向量(latent vector),從而大幅減少所需的緩存容量。這種方法不僅減少了緩存的數(shù)據(jù)量,還降低了計(jì)算復(fù)雜度。MLA在我看來是個(gè)天才的想法,比較有趣的是去年梁文峰的訪談提到這個(gè)MLA是某位研究員突發(fā)奇想想到的。當(dāng)然從想法到落地還是很難的,據(jù)他所說用了幾個(gè)月。

同樣用上面的飯店來舉個(gè)例子,傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員的餐廳,每個(gè)服務(wù)員從頭到尾獨(dú)立負(fù)責(zé)自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當(dāng)有大量復(fù)雜菜品出現(xiàn)時(shí),這就可能會(huì)出現(xiàn)多個(gè)服務(wù)員重復(fù)記錄相同訂單、傳菜時(shí)堵在廚房門口的問題。

MLA技術(shù)讓所有服務(wù)員共享一個(gè)智能平板,能實(shí)時(shí)同步訂單、桌號(hào)、菜品狀態(tài)(省去重復(fù)記錄);上菜時(shí),只有負(fù)責(zé)上菜的服務(wù)員工作,其他人在需要時(shí)才會(huì)介入(按需分工)。這樣既能更快地完成任務(wù),又能保證每部分任務(wù)的完成質(zhì)量。

2、接下來我們來看下DeepSeek-V3的創(chuàng)新。

DeepSeek-V3在2024年12月發(fā)布,發(fā)布時(shí)候引來了極大的關(guān)注,也是DeepSeek第一次大范圍出圈,其訓(xùn)練成本低的令人吃驚。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架構(gòu)合MLA技術(shù),但DeepSeek-V3引入了MTP(Multi-Token Prediction,多token預(yù)測(cè))機(jī)制。

我們都知道,傳統(tǒng)的大模型(LLMs)都是decoder-base的模型結(jié)構(gòu),也就是無論在模型訓(xùn)練還是在推理階段,對(duì)于一個(gè)序列的生成過程,都是token-by-token的。每次在生成一個(gè)token的時(shí)候,都要頻繁跟訪存交互,加載KV-Cache,再通過多層網(wǎng)絡(luò)做完整的前向計(jì)算。對(duì)于這樣的訪存密集型的任務(wù),通常會(huì)因?yàn)樵L存效率形成訓(xùn)練或推理的瓶頸。

針對(duì)token-by-token生成效率的瓶頸,業(yè)界很多方法來優(yōu)化,包括減少存儲(chǔ)的空間和減少訪存次數(shù)等,進(jìn)而提升訓(xùn)練和推理性能。

DeepSeek-V3的MTP,通過對(duì)MTP模塊的重新設(shè)計(jì),使得同時(shí)生成的多個(gè)token之間有了相互的聯(lián)系,從而對(duì)數(shù)據(jù)的利用率更好,而且MTP在生成時(shí)可以通過更好的預(yù)先規(guī)劃產(chǎn)生更好的生成結(jié)果。

就像飯店的服務(wù)員,在顧客點(diǎn)主菜后,立馬建議甜點(diǎn)和飲料,提前準(zhǔn)備服務(wù),而不是等顧客一個(gè)個(gè)點(diǎn)完,從而使服務(wù)更加流暢、體驗(yàn)更好。

除了架構(gòu)上的升級(jí),DeepSeek-V3的成本之所以能做到那么低,主要原因是優(yōu)化了訓(xùn)練的方法。

比如一般來說現(xiàn)在的大模型都采用BF16精度訓(xùn)練,而DeepSeek-V3原生采用FP-8精度進(jìn)行訓(xùn)練,F(xiàn)P-8精度訓(xùn)練的效率是BF-16精度約1.6倍。他們?yōu)榱朔(wěn)定的FP8訓(xùn)練對(duì)運(yùn)算底層操作進(jìn)行了大量?jī)?yōu)化,因?yàn)橛ミ_(dá)本身沒有對(duì)FP8進(jìn)行太好的優(yōu)化,畢竟大部分AI企業(yè)都是再用BF16進(jìn)行訓(xùn)練。另外DeepSeek-V3還優(yōu)化了并行流水線(pipeline)共同造就了DeepSeek-V3“AI拼多多”般的低成本。

3、DeepSeek-V3的創(chuàng)新

在2025年1月,DeepSeek-V3發(fā)布。相比于V3,DeepSeek-R1創(chuàng)新性主要體現(xiàn)在“范式轉(zhuǎn)換”上。

一直以來,LLM的訓(xùn)練方式都是讓模型跟著數(shù)據(jù)學(xué)生成,這種方式稱之為監(jiān)督學(xué)習(xí)(Supervised Finetuning,SFT)。而R1采用了強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的方法。

RL通俗來說就是讓模型(agent)和環(huán)境(environment)進(jìn)行互動(dòng),然后通過其互動(dòng)的結(jié)果進(jìn)行打分(reward),從而訓(xùn)練模型。大語言模型此前采用的RLHF(人類反饋強(qiáng)化學(xué)習(xí))也是RL的一種。但和RLHF不同的是,R1采用的RL方法(稱為GRPO,Group Relative Policy Optimization,組相關(guān)策略優(yōu)化,下圖)并不需要一個(gè)龐大的人類標(biāo)注數(shù)據(jù)庫(kù)。

他的訓(xùn)練方式很簡(jiǎn)單:讓模型自己生成過程,最后只檢查結(jié)果是否正確。如果是數(shù)學(xué)題,那么就看輸出的結(jié)果文本;如果是編程題,那就看運(yùn)行后的結(jié)果。而DeepSeek發(fā)現(xiàn),在V3的基礎(chǔ)上直接采用這種簡(jiǎn)單的RL,竟然能讓新的模型具有推理(Reasoning)的能力,而且隨著訓(xùn)練步數(shù)增多,其思維鏈(Chain-of-Thought,CoT)的長(zhǎng)度也越來越長(zhǎng),并且發(fā)現(xiàn)模型開始在推理過程中自我反思。

這個(gè)純RL方法練出來的模型就是R1-Zero,是完全RL訓(xùn)練出來的模型,一開始沒有教模型任何圍棋知識(shí),一切全靠模型自己摸索,最后達(dá)到超越人類)。但是DS發(fā)現(xiàn)R1-Zero的CoT并不是很完美,最大問題是可讀性很差。

所以他們利用R1-Zero生成了一批帶有CoT的“冷啟動(dòng)樣本”,然后對(duì)V3進(jìn)行了一次SFT,這樣就獲得了一個(gè)初步能夠進(jìn)行推理的模型(稱為模型1)。接下來他們對(duì)模型1進(jìn)行一次基于GRPO的RL(和R1-Zero一樣),然后用這個(gè)模型1生成一批高質(zhì)量的推理數(shù)據(jù)集。接著,再用V3生成一批沒有推理的數(shù)據(jù)集(主要用于保證模型的文科類能力,比如寫作、事實(shí)問答)。然后將這兩個(gè)數(shù)據(jù)集合并(文理科合并),重新對(duì)V3進(jìn)行SFT,獲得模型2,再對(duì)模型2進(jìn)行基于GRPO的RL,最終獲得R1。

R1證明了一件事:就是如果基礎(chǔ)模型能力夠強(qiáng)(如V3),在RL過程中它就能自己學(xué)會(huì)推理。這也是為什么國(guó)外AI圈的人看到DS-R1之后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗(yàn)镽1說明能力足夠強(qiáng)的模型是可以不依靠人類自己進(jìn)化的(當(dāng)然,嚴(yán)格來說現(xiàn)階段的reward還是需要標(biāo)簽的)。

4、模式創(chuàng)新,“繞過”通用,從垂直場(chǎng)景切入。

根據(jù)DeepSeek公布的跑分?jǐn)?shù)據(jù)顯示,DeepSeek-R1在培訓(xùn)后階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù),在數(shù)學(xué)、代碼、自然語言推理和其他任務(wù)上,其性能可與OpenAI o1正式版本媲美,而價(jià)格僅為o1的3%。

但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是“通用智能”,投入大量資金人力,想要的是全能通才的效果。國(guó)內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒有什么明顯的能力短板,快速達(dá)到可商用水平。

DeepSeek選擇從垂直場(chǎng)景切入,先追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長(zhǎng)和建立差異化優(yōu)勢(shì)的發(fā)展策略。

因?yàn),筆者認(rèn)為,目前中國(guó)的大模型企業(yè),不必都扎堆死磕“全能大模型”,可選擇垂直場(chǎng)景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過構(gòu)建起數(shù)據(jù)護(hù)城河,進(jìn)而在細(xì)分領(lǐng)域闖出一片天。

       原文標(biāo)題 : 一文搞懂DeepSeek創(chuàng)新了些啥?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)