中文字幕精品久久久人妻,麻豆国产精品入口免费观看

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

一文搞懂DeepSeek創(chuàng)新了些啥？

2025-02-07 10:49

了不起的云計(jì)算

各位小伙伴兒過年好哈。

春節(jié)這陣子，DeepSeek帶著AI大模型火出了圈，大家都說DeepSeek公司和旗下AI大模型有多好多好，但很少提及具體的創(chuàng)新點(diǎn)在哪里。今天我們就來聊聊DeepSeek具體創(chuàng)新了些啥。

以往，大家普遍認(rèn)為算力是AI的核心，發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到，OpenAI興起的時(shí)候，不僅英偉達(dá)（NVIDIA）因此受益，只要沾邊AI的東西都“飛起”。美國(guó)佬更是通過禁售英偉達(dá)GPU來遏制中國(guó)AI發(fā)展。

但就在大家燒錢堆算力的時(shí)候，DeepSeek選擇燒腦改算法，下面那我就來捋一捋DeepSeek那些創(chuàng)新的點(diǎn)。（如有不對(duì)，歡迎指正）：

1、首先我們先看是DeepSeek-V2

DeepSeek-V2可以說是DeepSeek的第一次小出圈，當(dāng)時(shí)靠著超低價(jià)格直接讓國(guó)產(chǎn)大模型廠商紛紛降價(jià)，那么為什么DeepSeek-V2能做到如何低價(jià)呢？

為了實(shí)現(xiàn)高效的推理和成本效益高的訓(xùn)練，DeepSeek-V2采用了兩大創(chuàng)新：DeepSeekMoE架構(gòu)和多頭潛在注意力（Multi-head Latent Attention，MLA）。這兩個(gè)技術(shù)創(chuàng)新分別針對(duì) Transformer 架構(gòu)中的不同瓶頸，成為DeepSeek-V2出圈的關(guān)鍵所在。

下面我們來看下什么是MoE架構(gòu)？

我們都知道，Dense大模型是目前國(guó)外主流的模型架構(gòu)，DeepSeek-V2放棄了DeepSeek-V1的Dense（密集）路線，轉(zhuǎn)而使用MoE（混合專家模型）路線。

Dense的缺點(diǎn)就是參數(shù)量大，硬件消耗大，這也導(dǎo)致之前的大模型價(jià)格高。MoE由多個(gè)子模型（即“專家expert”）組成，每個(gè)子模型都是一個(gè)局部模型，專門處理輸入空間的一個(gè)子集。

相當(dāng)于把dense大模型變成很多個(gè)sparse（稀疏）的專家（expert）小模型，通過多個(gè)模型聚合來達(dá)到和dense大模型相當(dāng)?shù)哪芰�。轉(zhuǎn)成MoE架構(gòu)，DS-V2不僅激活參數(shù)量大大減少，并且性能提升很高。

舉個(gè)例子，傳統(tǒng)的大模型就好比一家?guī)讉€(gè)頂級(jí)廚師的餐廳，每個(gè)廚師擅長(zhǎng)所有的菜系，但當(dāng)大量復(fù)雜的菜品出現(xiàn)時(shí)，廚師忙不過來反而會(huì)造成效率低下。MoE模型則相當(dāng)于招了更多的沒那么高級(jí)廚師來說，但是每個(gè)廚師會(huì)不同的菜系，在面對(duì)復(fù)雜的菜品時(shí)，模型能夠根據(jù)菜品的特點(diǎn)，智能地將其分配給最合適的廚師處理，從而提高處理效率，減少不必要的資源浪費(fèi)。

可能有人有會(huì)問，MoE這么好為什么國(guó)外大模型不愛用呢？

其實(shí)主要原因就是MoE大模型有個(gè)問題叫負(fù)載均衡（load balance），會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這會(huì)導(dǎo)致一個(gè)問題，就是訓(xùn)練過程中會(huì)采用所謂的專家并行（expert parallelism）機(jī)制，通過將不同的expert放到不同的顯卡上來加速訓(xùn)練，而load balance問題會(huì)導(dǎo)致某些重要的expert計(jì)算量更大，最終結(jié)果就是不重要的expert所在的顯卡跑不滿，效率不夠高。

DeepSeek-V2則在一些現(xiàn)有的解決load balance問題的方法基礎(chǔ)上，引入了額外的損失函數(shù)（即設(shè)備級(jí)平衡損失和通信平衡損失，下圖）來讓模型在訓(xùn)練中自主控制不同設(shè)備間的平衡，這兩個(gè)優(yōu)化方法都是他們的創(chuàng)新點(diǎn)。

DeepSeek-V2的另一大創(chuàng)新是MLA（Multi-Head Latent Attention，多頭潛注意力，下圖）。

下面我們大概簡(jiǎn)單說下。

在大模型運(yùn)行過程中，每次生成一個(gè)token（可以大概理解為一個(gè)字），而每個(gè)token只與之前的token有關(guān)。在不進(jìn)行優(yōu)化的情況下，每個(gè)token生成的時(shí)候都需要把之前所有的token都處理一遍，這樣的話效率非常差。

由于每個(gè)token只與之前的token有關(guān)，我們就可以把上一次生成過程中計(jì)算過的矩陣保存下來，這樣生成下一個(gè)token我們可以復(fù)用這個(gè)矩陣，只需要計(jì)算新token的注意力即可。這個(gè)技術(shù)叫做kv-cache，是目前大模型非常常用的優(yōu)化算法。

但是kv-cache需要額外的顯存保存這些kv-cache，這樣的話在上下文（context）很長(zhǎng)的情況下顯存占用會(huì)非常高。尤其是在實(shí)際部署時(shí)服務(wù)器一般會(huì)批量處理并發(fā)請(qǐng)求，這樣的并發(fā)請(qǐng)求會(huì)帶來恐怖的kv-cache量，會(huì)導(dǎo)致顯存不夠用。

MLA通過低秩聯(lián)合壓縮鍵值（Key-Value），將它們壓縮為一個(gè)潛在向量（latent vector），從而大幅減少所需的緩存容量。這種方法不僅減少了緩存的數(shù)據(jù)量，還降低了計(jì)算復(fù)雜度。MLA在我看來是個(gè)天才的想法，比較有趣的是去年梁文峰的訪談提到這個(gè)MLA是某位研究員突發(fā)奇想想到的。當(dāng)然從想法到落地還是很難的，據(jù)他所說用了幾個(gè)月。

同樣用上面的飯店來舉個(gè)例子，傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員的餐廳，每個(gè)服務(wù)員從頭到尾獨(dú)立負(fù)責(zé)自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當(dāng)有大量復(fù)雜菜品出現(xiàn)時(shí)，這就可能會(huì)出現(xiàn)多個(gè)服務(wù)員重復(fù)記錄相同訂單、傳菜時(shí)堵在廚房門口的問題。

MLA技術(shù)讓所有服務(wù)員共享一個(gè)智能平板，能實(shí)時(shí)同步訂單、桌號(hào)、菜品狀態(tài)（省去重復(fù)記錄）；上菜時(shí)，只有負(fù)責(zé)上菜的服務(wù)員工作，其他人在需要時(shí)才會(huì)介入（按需分工）。這樣既能更快地完成任務(wù)，又能保證每部分任務(wù)的完成質(zhì)量。

2、接下來我們來看下DeepSeek-V3的創(chuàng)新。

DeepSeek-V3在2024年12月發(fā)布，發(fā)布時(shí)候引來了極大的關(guān)注，也是DeepSeek第一次大范圍出圈，其訓(xùn)練成本低的令人吃驚。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架構(gòu)合MLA技術(shù)，但DeepSeek-V3引入了MTP（Multi-Token Prediction，多token預(yù)測(cè)）機(jī)制。

我們都知道，傳統(tǒng)的大模型(LLMs)都是decoder-base的模型結(jié)構(gòu)，也就是無論在模型訓(xùn)練還是在推理階段，對(duì)于一個(gè)序列的生成過程，都是token-by-token的。每次在生成一個(gè)token的時(shí)候，都要頻繁跟訪存交互，加載KV-Cache，再通過多層網(wǎng)絡(luò)做完整的前向計(jì)算。對(duì)于這樣的訪存密集型的任務(wù)，通常會(huì)因?yàn)樵L存效率形成訓(xùn)練或推理的瓶頸。

針對(duì)token-by-token生成效率的瓶頸，業(yè)界很多方法來優(yōu)化，包括減少存儲(chǔ)的空間和減少訪存次數(shù)等，進(jìn)而提升訓(xùn)練和推理性能。

而DeepSeek-V3的MTP，通過對(duì)MTP模塊的重新設(shè)計(jì)，使得同時(shí)生成的多個(gè)token之間有了相互的聯(lián)系，從而對(duì)數(shù)據(jù)的利用率更好，而且MTP在生成時(shí)可以通過更好的預(yù)先規(guī)劃產(chǎn)生更好的生成結(jié)果。

就像飯店的服務(wù)員，在顧客點(diǎn)主菜后，立馬建議甜點(diǎn)和飲料，提前準(zhǔn)備服務(wù)，而不是等顧客一個(gè)個(gè)點(diǎn)完，從而使服務(wù)更加流暢、體驗(yàn)更好。

除了架構(gòu)上的升級(jí)，DeepSeek-V3的成本之所以能做到那么低，主要原因是優(yōu)化了訓(xùn)練的方法。

比如一般來說現(xiàn)在的大模型都采用BF16精度訓(xùn)練，而DeepSeek-V3原生采用FP-8精度進(jìn)行訓(xùn)練，F(xiàn)P-8精度訓(xùn)練的效率是BF-16精度約1.6倍。他們?yōu)榱朔€(wěn)定的FP8訓(xùn)練對(duì)運(yùn)算底層操作進(jìn)行了大量?jī)?yōu)化，因?yàn)橛ミ_(dá)本身沒有對(duì)FP8進(jìn)行太好的優(yōu)化，畢竟大部分AI企業(yè)都是再用BF16進(jìn)行訓(xùn)練。另外DeepSeek-V3還優(yōu)化了并行流水線（pipeline）共同造就了DeepSeek-V3“AI拼多多”般的低成本。

3、DeepSeek-V3的創(chuàng)新

在2025年1月，DeepSeek-V3發(fā)布。相比于V3，DeepSeek-R1創(chuàng)新性主要體現(xiàn)在“范式轉(zhuǎn)換”上。

一直以來，LLM的訓(xùn)練方式都是讓模型跟著數(shù)據(jù)學(xué)生成，這種方式稱之為監(jiān)督學(xué)習(xí)（Supervised Finetuning，SFT）。而R1采用了強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）的方法。

RL通俗來說就是讓模型（agent）和環(huán)境（environment）進(jìn)行互動(dòng)，然后通過其互動(dòng)的結(jié)果進(jìn)行打分（reward），從而訓(xùn)練模型。大語言模型此前采用的RLHF（人類反饋強(qiáng)化學(xué)習(xí)）也是RL的一種。但和RLHF不同的是，R1采用的RL方法（稱為GRPO，Group Relative Policy Optimization，組相關(guān)策略優(yōu)化，下圖）并不需要一個(gè)龐大的人類標(biāo)注數(shù)據(jù)庫(kù)。

他的訓(xùn)練方式很簡(jiǎn)單：讓模型自己生成過程，最后只檢查結(jié)果是否正確。如果是數(shù)學(xué)題，那么就看輸出的結(jié)果文本；如果是編程題，那就看運(yùn)行后的結(jié)果。而DeepSeek發(fā)現(xiàn)，在V3的基礎(chǔ)上直接采用這種簡(jiǎn)單的RL，竟然能讓新的模型具有推理（Reasoning）的能力，而且隨著訓(xùn)練步數(shù)增多，其思維鏈（Chain-of-Thought，CoT）的長(zhǎng)度也越來越長(zhǎng)，并且發(fā)現(xiàn)模型開始在推理過程中自我反思。

這個(gè)純RL方法練出來的模型就是R1-Zero，是完全RL訓(xùn)練出來的模型，一開始沒有教模型任何圍棋知識(shí)，一切全靠模型自己摸索，最后達(dá)到超越人類）。但是DS發(fā)現(xiàn)R1-Zero的CoT并不是很完美，最大問題是可讀性很差。

所以他們利用R1-Zero生成了一批帶有CoT的“冷啟動(dòng)樣本”，然后對(duì)V3進(jìn)行了一次SFT，這樣就獲得了一個(gè)初步能夠進(jìn)行推理的模型（稱為模型1）。接下來他們對(duì)模型1進(jìn)行一次基于GRPO的RL（和R1-Zero一樣），然后用這個(gè)模型1生成一批高質(zhì)量的推理數(shù)據(jù)集。接著，再用V3生成一批沒有推理的數(shù)據(jù)集（主要用于保證模型的文科類能力，比如寫作、事實(shí)問答）。然后將這兩個(gè)數(shù)據(jù)集合并（文理科合并），重新對(duì)V3進(jìn)行SFT，獲得模型2，再對(duì)模型2進(jìn)行基于GRPO的RL，最終獲得R1。

R1證明了一件事：就是如果基礎(chǔ)模型能力夠強(qiáng)（如V3），在RL過程中它就能自己學(xué)會(huì)推理。這也是為什么國(guó)外AI圈的人看到DS-R1之后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗(yàn)镽1說明能力足夠強(qiáng)的模型是可以不依靠人類自己進(jìn)化的（當(dāng)然，嚴(yán)格來說現(xiàn)階段的reward還是需要標(biāo)簽的）。

4、模式創(chuàng)新，“繞過”通用，從垂直場(chǎng)景切入。

根據(jù)DeepSeek公布的跑分?jǐn)?shù)據(jù)顯示，DeepSeek-R1在培訓(xùn)后階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù)，在數(shù)學(xué)、代碼、自然語言推理和其他任務(wù)上，其性能可與OpenAI o1正式版本媲美，而價(jià)格僅為o1的3%。

但這并不意味著DeepSeek-R1超越了OpenAI o1，畢竟OpenAI優(yōu)先追求的是“通用智能”，投入大量資金人力，想要的是全能通才的效果。國(guó)內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路，希望自家大模型沒有什么明顯的能力短板，快速達(dá)到可商用水平。

而DeepSeek選擇從垂直場(chǎng)景切入，先追求在部分領(lǐng)域（如數(shù)學(xué)、代碼）的表現(xiàn)更優(yōu)，再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長(zhǎng)和建立差異化優(yōu)勢(shì)的發(fā)展策略。

因?yàn)�，筆者認(rèn)為，目前中國(guó)的大模型企業(yè)，不必都扎堆死磕“全能大模型”，可選擇垂直場(chǎng)景靶向爆破：這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn)，又能通過構(gòu)建起數(shù)據(jù)護(hù)城河，進(jìn)而在細(xì)分領(lǐng)域闖出一片天。

原文標(biāo)題 : 一文搞懂DeepSeek創(chuàng)新了些啥？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频