訂閱
糾錯(cuò)
加入自媒體

小白讀懂DeepSeek:從MoE到MLA,國(guó)產(chǎn)AI改變世界

2025-03-12 10:39
雷科技
關(guān)注

DeepSeek的創(chuàng)新就在于讓每個(gè)人都能用上好的AI。

微信圖片_20250311163751.png

此前,不少讀者都在后臺(tái)討論,DeepSeek雖然牛逼,但是在其之上還有ChatGPT等更強(qiáng)的AI模型,難道僅憑開(kāi)源就能夠引起如此廣泛的關(guān)注?再說(shuō)回來(lái),DeepSeek能夠被AI從業(yè)者反復(fù)琢磨和研究,到底是有哪些過(guò)人之處?

微信截圖_20250208222220.png

圖源:DeepSeek

對(duì)于這個(gè)問(wèn)題,其實(shí)有不少專(zhuān)業(yè)文章都做過(guò)解釋?zhuān)贿^(guò)大家未必會(huì)想去看萬(wàn)字長(zhǎng)文,也對(duì)枯燥的學(xué)術(shù)概念沒(méi)啥興趣。所以小雷這次打算用通俗易懂的方式,向大家解釋一下DeepSeek在AI模型的訓(xùn)練和設(shè)計(jì)中,到底有哪些讓人眼前一亮的創(chuàng)新。

憑“MoE+MLA+MTP”成為效率狂魔 

自打DeepSeek-V2發(fā)布以來(lái),這個(gè)AI模型就以高效而聞名,大家對(duì)此估計(jì)也都有所耳聞,甚至一度被網(wǎng)友稱(chēng)為“三低一高”:低推理成本、低參數(shù)量、低硬件要求、高推理性能。

不少網(wǎng)友都認(rèn)為DeepSeek之所以比ChatGPT等AI模型更高效,是因?yàn)槭褂昧讼∈杞Y(jié)構(gòu)。這個(gè)結(jié)論并沒(méi)有錯(cuò),只是稀疏架構(gòu)并非DeepSeek獨(dú)創(chuàng),是泛指在運(yùn)行過(guò)程中會(huì)選擇性激活一部分網(wǎng)絡(luò)單元,而非激活全網(wǎng)絡(luò)單元的AI模型,其最早在深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)應(yīng)用中被提出,并成為AI領(lǐng)域的主流結(jié)構(gòu)之一。

稀疏結(jié)構(gòu)的優(yōu)勢(shì)是可以用更少的算力資源來(lái)運(yùn)行和訓(xùn)練更大參數(shù)量的模型,并且在實(shí)際的推理過(guò)程中擁有更高的效率,不過(guò)也因此會(huì)導(dǎo)致其出現(xiàn)其他缺陷,這個(gè)我們?cè)诮酉聛?lái)再詳細(xì)說(shuō)明。

而ChatGPT等AI模型則是采用的稠密結(jié)構(gòu),也就是為每一個(gè)數(shù)據(jù)塊都進(jìn)行單獨(dú)標(biāo)記,并且每一個(gè)數(shù)據(jù)塊都與前一層所有數(shù)據(jù)塊相連,形成密集的數(shù)據(jù)矩陣。當(dāng)你在進(jìn)行推理/訓(xùn)練時(shí),本質(zhì)上會(huì)讀取整個(gè)模型的所有參數(shù),借助龐大的參數(shù)量可以進(jìn)行更復(fù)雜的計(jì)算和更準(zhǔn)確的回答,缺點(diǎn)則是當(dāng)參數(shù)量過(guò)大時(shí),效率會(huì)愈發(fā)低下。

從AI大模型的角度來(lái)說(shuō),其實(shí)并不存在最好的選擇,稀疏和稠密都有各自的優(yōu)缺點(diǎn),目前主流的AI企業(yè)基本對(duì)兩種結(jié)構(gòu)都有所研究,只是根據(jù)各自模型的特性和應(yīng)用范圍,會(huì)選擇不同的結(jié)構(gòu)。

以ChatGPT這種全通用型的AI模型為例,為了覆蓋盡可能多的領(lǐng)域,其用的就是稠密架構(gòu),但是也讓ChatGPT-5一直難產(chǎn),即使以O(shè)penAI的龐大算力矩陣也難以解決龐大參數(shù)量所導(dǎo)致的超高算力消耗和效率下降問(wèn)題。

而DeepSeek-R1也有著671B參數(shù)量,但是因?yàn)椴捎孟∈杓軜?gòu),實(shí)際上每次只激活其中32B的參數(shù),加上DeepSeek的思維鏈優(yōu)化等技術(shù),就可以實(shí)現(xiàn)近似于ChatGPT-4o和o1的推理能力。 

DeepSeek如何做到這點(diǎn)的?接下來(lái)讓我們隆重介紹一下DeepSeek-R1的核心——MoE+MLA+MTP

首先,DeepSeek創(chuàng)新性地應(yīng)用MoE架構(gòu)提高訓(xùn)練效率。

首先需要明確的是,MoE并非DeepSeek首創(chuàng),其最早在20世紀(jì)90年代就已經(jīng)被提出,隨后在機(jī)器學(xué)習(xí)領(lǐng)域的專(zhuān)家Jordan和Jacobs的完善下,在1994年進(jìn)一步發(fā)展成“分層混合專(zhuān)家”模型的概念。

v2-77378a16ac6e82af73d4719d8244d85c_1440w.png

圖源:Hugging Face

 

隨后,2017年時(shí)由谷歌的研究團(tuán)隊(duì)首先將其用在了深度學(xué)習(xí)領(lǐng)域,提出一個(gè)具有1370億參數(shù)的稀疏MoE模型,并且展示了在MoE架構(gòu)下進(jìn)行高效推理的可能。MoE架構(gòu)到底是什么?簡(jiǎn)單來(lái)說(shuō),就是將一個(gè)巨大的AI模型切割成多個(gè)子模型,相當(dāng)于將一個(gè)全科天才拆分成語(yǔ)文、數(shù)學(xué)、化學(xué)、生物等不同學(xué)科的專(zhuān)家(實(shí)際劃分并非如此,而是更復(fù)雜)。 

在MoE架構(gòu)下,當(dāng)你提出一個(gè)問(wèn)題時(shí),AI會(huì)首先判斷這個(gè)問(wèn)題涉及哪些專(zhuān)家,然后跳過(guò)那些不相關(guān)的專(zhuān)家,把對(duì)應(yīng)領(lǐng)域的專(zhuān)家喊過(guò)來(lái)討論你的問(wèn)題,然后得出結(jié)果。而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問(wèn)題,雖然能力強(qiáng)大,但是當(dāng)問(wèn)題變多時(shí)就會(huì)顯得效率十分低下,而且其消耗的資源也遠(yuǎn)超“普通專(zhuān)家”。 

聽(tīng)起來(lái),MoE架構(gòu)似乎更合理,那么為何國(guó)外主流AI模型沒(méi)有使用呢?實(shí)際上并非如此,ChatGPT-4等模型都有使用MoE架構(gòu)的部分特性強(qiáng)化效率,只不過(guò)最終還是選擇以Dense(密集)架構(gòu)為主。而沒(méi)有將MoE作為主架構(gòu)的原因主要是這個(gè)架構(gòu)存在訓(xùn)練不穩(wěn)定、通信成本高、模型復(fù)雜度高、微調(diào)困難等問(wèn)題,說(shuō)白了就是你得對(duì)模型進(jìn)行精雕細(xì)琢,無(wú)法通過(guò)單純的堆高算力和加大參數(shù)量來(lái)得到顯著提升。

0_Dfl9g1Y-je6-MNrc.jpg

圖源:DeepSeek

 

只能說(shuō)“窮人家”的孩子早當(dāng)家,DeepSeek在沒(méi)有龐大算力支持的情況下,只能轉(zhuǎn)而對(duì)模型進(jìn)行深度優(yōu)化,放棄了DeepSeek-V1的Dense路線(xiàn),轉(zhuǎn)向在同等算力下有著更高效率的MoE,并且針對(duì)MoE的各種問(wèn)題開(kāi)發(fā)了一系列的解決措施。比如設(shè)計(jì)了一種創(chuàng)新的無(wú)輔助損失負(fù)載均衡策略,通過(guò)預(yù)先設(shè)置的負(fù)載均衡邏輯來(lái)動(dòng)態(tài)調(diào)整負(fù)載,拋棄傳統(tǒng)的額外的損失函數(shù)方案。 

簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)方法是經(jīng)理總攬全局,如果看到哪個(gè)產(chǎn)線(xiàn)過(guò)度繁忙,就會(huì)通知那個(gè)產(chǎn)線(xiàn)的工人你們要被罰款了,不想扣錢(qián)就把工作讓給隔壁沒(méi)活干的產(chǎn)線(xiàn)。因?yàn)樾枰?jīng)理不停發(fā)出指令調(diào)整分配,所以實(shí)質(zhì)上增加了管理復(fù)雜度,并且難以應(yīng)付大量的數(shù)據(jù)請(qǐng)求。 

而DeepSeek則是選擇給每個(gè)產(chǎn)線(xiàn)都增加一個(gè)智能控制器,當(dāng)控制器檢測(cè)到產(chǎn)線(xiàn)負(fù)載逐漸增加時(shí)就會(huì)自動(dòng)調(diào)低自己的優(yōu)先級(jí),讓系統(tǒng)將任務(wù)分配給優(yōu)先級(jí)更高的其余空余產(chǎn)線(xiàn)。從而實(shí)現(xiàn)在無(wú)人管理的情況下,多數(shù)產(chǎn)線(xiàn)都可以得到均衡的負(fù)載,確保訓(xùn)練和推理的效率一直保持在高位。

3fdf1382-38dc-45fc-a741-b62babfd99c5_2258x1268.jpg

圖源:DeepSeek

其次,DeepSeek用MLA創(chuàng)造性地提高推理效率。

 解決了訓(xùn)練效率等問(wèn)題,DeepSeek很快將注意力放到了進(jìn)一步解決推理效率的問(wèn)題上,然后在某位研究員的“靈光一閃”下開(kāi)發(fā)出了MLA——多頭潛在注意力機(jī)制。從技術(shù)角度來(lái)說(shuō),就是通過(guò)將注意力頭的鍵和值進(jìn)行線(xiàn)性變換,將他們壓縮到一個(gè)共享的低維潛在向量空間,接下來(lái)推理時(shí)只需要拿著壓縮后的縮略圖倒騰即可,在得到結(jié)論后再把對(duì)應(yīng)的壓縮包解壓,計(jì)算其中的鍵和值并輸出最終答案。 

讓我們用一個(gè)更簡(jiǎn)單的比喻,你可以把傳統(tǒng)多頭注意力機(jī)制看作一個(gè)老圖書(shū)館,每本書(shū)都擁有對(duì)應(yīng)的詳細(xì)索引卡,此時(shí)進(jìn)來(lái)一個(gè)人要借書(shū),然后AI開(kāi)始翻動(dòng)索引卡,嘗試從浩如煙海的圖書(shū)中找到對(duì)方要的書(shū),雖然AI的查找速度奇快,但是這樣做的效率肯定不會(huì)高。 

而DeepSeek的MLA就是在編好索引卡后對(duì)書(shū)籍又按照類(lèi)別進(jìn)行歸檔,為每個(gè)類(lèi)型的書(shū)籍建立一個(gè)上級(jí)索引,然后又建立了一個(gè)智能化的檢索機(jī)制。當(dāng)借書(shū)人在輸入書(shū)名后,系統(tǒng)會(huì)自動(dòng)判斷所屬類(lèi)型,然后直接鎖定大致區(qū)間,接下來(lái)只需要檢索這一片書(shū)架就能把書(shū)找出來(lái),直接節(jié)省了大量的無(wú)效檢索時(shí)間。

v2-2b9f958121be3f73616db6dd8df2744a_1440w.png

圖源:Hugging Face

最后,DeepSeek引入MTP機(jī)制提高預(yù)測(cè)能力。

解決了訓(xùn)練和推理等問(wèn)題,DeepSeek就很自然地開(kāi)始對(duì)預(yù)測(cè)機(jī)制下手,預(yù)測(cè)機(jī)制涉及AI的訓(xùn)練效率、推理速度和回答質(zhì)量等各個(gè)方面,可以說(shuō)是AI模型的核心機(jī)制之一。傳統(tǒng)的AI在預(yù)測(cè)時(shí)都是“循規(guī)蹈矩”,就像解一道數(shù)學(xué)題一樣,做完一段推理后再進(jìn)入下一階段。 

而DeepSeek則是引入了MTP機(jī)制(多令牌預(yù)測(cè)),簡(jiǎn)單來(lái)說(shuō)就是讓你多了好幾只手,然后把數(shù)學(xué)題的解題過(guò)程一分為五,五只手同時(shí)驗(yàn)算,最后再進(jìn)行組合生成答案。正是通過(guò)這種方式,DeepSeek極大地提高了模型的訓(xùn)練效率,同時(shí)也使其推理效率得到顯著提升。

1_Iq7aEqYYdLgwcRPBZ1wfaA.png

圖源:DeepSeek

 

而且,MTP機(jī)制下生成出來(lái)的文字內(nèi)容會(huì)更加流暢和自然,因?yàn)镸TP機(jī)制就等于將“走一步看一步”的寫(xiě)作方式,變成了“先擬大綱再填充字詞”。DeepSeek先想好要寫(xiě)什么,然后再通過(guò)MTP生成一系列字詞,選擇其中相關(guān)性更強(qiáng)的部分組合,這也是為什么大家在看DeepSeek生成的文字內(nèi)容時(shí),會(huì)感覺(jué)更有“人”味,因?yàn)檫@就是人類(lèi)的寫(xiě)作方法。 

從DeepSeek-V2引入MoE并完善MLA,再到DeepSeek-V3加入MTP,最終才有了DeepSeek-R1的誕生基礎(chǔ)。

 如何讓AI學(xué)會(huì)“自主學(xué)習(xí)”? 

DeepSeek-R1也就是我們現(xiàn)在常說(shuō)的“滿(mǎn)血版”DeepSeek,是在V3的基礎(chǔ)上經(jīng)過(guò)“強(qiáng)化學(xué)習(xí)”進(jìn)化而來(lái)的。什么是強(qiáng)化學(xué)習(xí)?

要回答這個(gè)問(wèn)題,首先我們來(lái)了解下傳統(tǒng)AI的訓(xùn)練模式——監(jiān)督學(xué)習(xí)。 

監(jiān)督學(xué)習(xí)就是把AI當(dāng)成一個(gè)“笨”學(xué)生,他只能理解你明確標(biāo)注出來(lái)的知識(shí)點(diǎn)。比如他看到一個(gè)“白鴨子”,即使他此前已經(jīng)記住了“黑鴨子”,但是在你把“白鴨子”的名字標(biāo)注出來(lái),并將其與“黑鴨子”歸為一類(lèi)之前,AI都不知道擺在自己面前的“白色奇怪物體”是什么。

當(dāng)你標(biāo)注的數(shù)據(jù)足夠多后,AI才能在后續(xù)的推理過(guò)程中,根據(jù)現(xiàn)有的數(shù)據(jù)特點(diǎn)來(lái)自主判斷面前的“紅鴨子”是一只“鴨子”。這種模式下,需要通過(guò)AI的交叉標(biāo)注和人工手動(dòng)微調(diào)來(lái)引導(dǎo)AI一點(diǎn)點(diǎn)累積知識(shí),在AI大模型發(fā)展的初期倒也還好,但是隨著AI模型的參數(shù)量突破千億、萬(wàn)億,標(biāo)注效率下降的同時(shí)成本會(huì)大幅度上升,只能通過(guò)不斷堆高算力來(lái)“大力出奇跡”。

0_R31A71UjHM8R8Pps.png

圖源:Medium

 

所以,對(duì)于DeepSeek這樣算力有限的公司來(lái)說(shuō),監(jiān)督學(xué)習(xí)是個(gè)一眼就能看到盡頭的死路,想進(jìn)一步強(qiáng)化AI就只能走出一條新的路,于是他們想到了機(jī)器學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)概念,決定讓AI自己教自己學(xué)習(xí),又稱(chēng)“左腳踩右腳上天”法。 

DeepSeek拋棄了復(fù)雜的標(biāo)注和獎(jiǎng)懲機(jī)制,選擇了更簡(jiǎn)單的方案:給出問(wèn)題,提供正確答案,然后讓AI自主推理。在完成前期的數(shù)據(jù)標(biāo)注后,不再干涉推理過(guò)程,讓AI自行比對(duì)結(jié)果與標(biāo)準(zhǔn)答案的區(qū)別,將低于一定得分的結(jié)果直接廢棄,并在更接近標(biāo)準(zhǔn)答案的結(jié)果上進(jìn)行新一輪推理,重復(fù)多次直到最終得出正確答案為止。 

然后DeepSeek的研究人員就發(fā)現(xiàn),隨著AI的訓(xùn)練步數(shù)增加,AI的思維鏈也越來(lái)越長(zhǎng),并且開(kāi)始出現(xiàn)自我反思的能力,AI會(huì)為了更快地接近正確答案而回頭檢索出錯(cuò)的推理過(guò)程,然后將其標(biāo)記避免自己再犯同樣的錯(cuò)誤。 

DeepSeek第一個(gè)完全由強(qiáng)化學(xué)習(xí)方式訓(xùn)練的AI被命名為DeepSeek-R1-Zero,在這個(gè)模型的相關(guān)論文中,DeepSeek的研究人員甚至提到R1-Zero在強(qiáng)化學(xué)習(xí)過(guò)程中會(huì)出現(xiàn)奇怪的舉動(dòng)。當(dāng)他在計(jì)算某個(gè)問(wèn)題,并且開(kāi)始接近正確答案時(shí),會(huì)突然出現(xiàn)與推理過(guò)程相關(guān)性不大的感慨“Wait, wait, Wait. That's an aha moment I can flag here.(論文原話(huà))”,翻譯過(guò)來(lái)就是:等等,等等,等等。這是一個(gè)我可以標(biāo)記的‘啊哈’時(shí)刻。

1738498147.png

圖源:DeepSeek

 

看起來(lái)就像你在冥思苦想一個(gè)數(shù)學(xué)難題,突然靈光一閃后情不自禁發(fā)出的感慨,因此DeepSeek也將這種現(xiàn)象稱(chēng)為“aha moment”,也就是“頓悟”。 

DeepSeek-R1-Zero直接證明了一個(gè)結(jié)論,那就是只要基礎(chǔ)模型足夠強(qiáng)大,那么就可以讓這個(gè)模型在強(qiáng)化學(xué)習(xí)的過(guò)程中,自我進(jìn)化出一個(gè)更強(qiáng)大的模型。理論上,未來(lái)的AI模型可以直接脫離人類(lèi)的幫助,在不停地自問(wèn)自答中進(jìn)化到更高的智能水平。 

當(dāng)然現(xiàn)階段還是不行的,AI仍然需要人類(lèi)進(jìn)行事先的標(biāo)注,確認(rèn)條件、對(duì)比結(jié)果等數(shù)據(jù),然后才能進(jìn)入自主強(qiáng)化學(xué)習(xí)階段,但是從目前各個(gè)AI大廠的進(jìn)度來(lái)看,我們距離AI完全自主學(xué)習(xí)的階段可能并不遙遠(yuǎn)。

DeepSeek的強(qiáng)化學(xué)習(xí)理念可以說(shuō)徹底顛覆了主流AI訓(xùn)練的理念,在狂堆算力和參數(shù)的“暴力模式”之外,指出了一條更適合多數(shù)人的新捷徑。當(dāng)然,之前并非沒(méi)有其他人嘗試過(guò)強(qiáng)化學(xué)習(xí),但是他們都沒(méi)有一個(gè)足夠高效且出色的基礎(chǔ)模型,而且也沒(méi)能解決強(qiáng)化學(xué)習(xí)中遇到的一系列問(wèn)題,所以最終只有DeepSeek成功并打造出了DeepSeek-R1。 

不過(guò)隨著DeepSeek-R1及相關(guān)訓(xùn)練技術(shù)的開(kāi)源,不少AI大廠都已經(jīng)在嘗試引入相關(guān)機(jī)制來(lái)訓(xùn)練模型,并在他們?cè)械膹?qiáng)化學(xué)習(xí)架構(gòu)上根據(jù)DeepSeek的經(jīng)驗(yàn)進(jìn)行優(yōu)化,或許我們很快就會(huì)迎來(lái)一次新的AI性能暴漲。

NSA:全新注意力機(jī)制,下一代「核彈」?

DeepSeek在2月18號(hào)還公布的一篇新論文,這篇由DeepSeek創(chuàng)始人之一梁文鋒親自?huà)烀恼撐,短短兩小時(shí)就獲得了三十萬(wàn)瀏覽量(截止到19號(hào)晚,閱讀量已接近200萬(wàn))。

在這篇論文中,DeepSeek提出了一種新的注意力機(jī)制——NSA,這是一個(gè)可以用于超快長(zhǎng)上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制,并且具有硬件對(duì)齊特性,從論文的描述來(lái)看,可以將64K長(zhǎng)文本的訓(xùn)練速度提升9倍,推理速度提升11.6倍。

微信截圖_20250227024625.png

圖源:DeepSeek

這是什么概念呢?簡(jiǎn)單的說(shuō),如果之前訓(xùn)練一段64k長(zhǎng)度的文本需要100秒,那么現(xiàn)在只需要11秒,推理相同長(zhǎng)度的文本內(nèi)容,從100秒直接降低到10秒以?xún)?nèi)。不僅如此,使用NSA訓(xùn)練的AI在64k文本里的命中準(zhǔn)確率從傳統(tǒng)的35%提升到100%,并且保持效率優(yōu)化不變。

而且不止是強(qiáng)化文本推理,在數(shù)學(xué)推理等方面,NSA也讓AI的準(zhǔn)確率得到顯著提升,在省下90%算力的情況下還能提升推理正確率,我們一般用兩個(gè)字來(lái)形容:逆天。

基于NSA注意力機(jī)制,AI模型可以用原本十分之一的算力來(lái)處理64k文本,也可以中同樣算力的情況下,將可處理文本擴(kuò)大十倍,理論上基于新的機(jī)制可以處理最高640k的超長(zhǎng)文本,遠(yuǎn)超現(xiàn)有的已公開(kāi)AI模型上限。

看起來(lái)或許只是效率提升,實(shí)際上對(duì)整個(gè)AI的理解和推理效果都將帶來(lái)質(zhì)的提升。比如說(shuō)讓AI看一本書(shū),如果字?jǐn)?shù)是30萬(wàn)字的長(zhǎng)篇小說(shuō),那么傳統(tǒng)模式下的AI受64k文本限制,一次只能記住約五分之一的內(nèi)容,需要在讀完五分之一后先建立一個(gè)記憶存檔,然后開(kāi)始讀取下一部分。

當(dāng)你詢(xún)問(wèn)AI剛剛他讀的某一段內(nèi)容的看法時(shí),他需要先檢索出對(duì)應(yīng)的記憶模塊,再通過(guò)此前生成的對(duì)應(yīng)摘要來(lái)定位內(nèi)容位置,接著再重新閱讀上下文并進(jìn)行推理。但是受限于64k的檢索范圍,實(shí)際上AI只能根據(jù)內(nèi)容所在的前后共64k的內(nèi)容來(lái)進(jìn)行推論,在算力不足或受限的情況下,你會(huì)發(fā)現(xiàn)AI經(jīng)常答了后面忘了前面,記憶力似乎還不如你。

這也是為什么現(xiàn)在的AI在長(zhǎng)篇小說(shuō)創(chuàng)作、解讀等方面的表現(xiàn)不如人意,根本原因就是AI記不住這么長(zhǎng)的文字內(nèi)容,不僅受限于算法,也受限于算力。而DeepSeek則打算徹底改變這個(gè)現(xiàn)狀,打造一套“基于塊(blockwise)進(jìn)行選擇”,并采用了壓縮、篩選、滑動(dòng)窗口三種注意力機(jī)制并行優(yōu)化計(jì)算效率的系統(tǒng)。

DeepSeek的NSA注意力機(jī)制就是將長(zhǎng)文本切割成512字的數(shù)據(jù)塊,然后再對(duì)數(shù)據(jù)塊進(jìn)行簡(jiǎn)略標(biāo)記,接著再通過(guò)編寫(xiě)動(dòng)態(tài)篩選機(jī)制,讓AI自主決定需要檢索哪些數(shù)據(jù)塊,并通過(guò)持續(xù)的訓(xùn)練來(lái)進(jìn)一步優(yōu)化篩選機(jī)制。

在篩選出“有用”的數(shù)據(jù)塊后,AI再對(duì)數(shù)據(jù)塊進(jìn)行全面檢索,也就是進(jìn)入傳統(tǒng)AI的遍歷模式,以此來(lái)提升推理準(zhǔn)確率,同時(shí)還會(huì)啟動(dòng)上下文檢索機(jī)制,快速查找是否還存在其他相關(guān)信息,避免AI根據(jù)篩選的內(nèi)容“斷章取義”,給出錯(cuò)誤的回答。

DeepSeek的這個(gè)技術(shù)以一種巧妙的方式,輕松實(shí)現(xiàn)了過(guò)去難以解決的長(zhǎng)文本推理和創(chuàng)作問(wèn)題,讓AI可以直接閱讀數(shù)十萬(wàn)字的巨作,并且記住其中絕大多數(shù)的細(xì)節(jié)。換言之,即使你突然丟給AI一本自己寫(xiě)的超長(zhǎng)小說(shuō),他也可以在短時(shí)間內(nèi)閱讀并記住,然后與你討論整部小說(shuō)的設(shè)定和細(xì)節(jié),彼時(shí)或許才是多數(shù)小說(shuō)作家的“革命之時(shí)”。

NSA的提出意味著AI模型在處理超長(zhǎng)文本、復(fù)雜推理任務(wù)時(shí)邁向了新的階段,為未來(lái)的大模型發(fā)展提供了重要的技術(shù)方向,也讓人好奇DeepSeek到底打算把開(kāi)源做到怎樣的地步?

DeepSeek開(kāi)源:授人以漁,改變世界

DeepSeek采取開(kāi)源架構(gòu),在前不久的“開(kāi)源周”上,它大方地開(kāi)放了多個(gè)技術(shù)/工具/架構(gòu),每一個(gè)都將對(duì)AI大模型產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。

1、FlashMLA:給AI開(kāi)個(gè)“外掛”。

微信截圖_20250226185512.png

圖源:雷科技

FlashMLA,官方的解釋是一款面向Hopper GPU的高效MLA解碼內(nèi)核,并針對(duì)可變長(zhǎng)度序列的服務(wù)場(chǎng)景進(jìn)行了優(yōu)化。

用更通俗的說(shuō)法來(lái)解釋?zhuān)褪且粋(gè)針對(duì)H系列計(jì)算卡的超頻“外掛”,為什么叫外掛而非工具?因?yàn)镕lashMLA的效果實(shí)在是太炸裂了。根據(jù)DeepSeek給出的參數(shù),經(jīng)過(guò)FlashMLA優(yōu)化的H800計(jì)算卡,在計(jì)算受限的情況下仍然能擁有高達(dá)580TFLOPS的算力,內(nèi)存帶寬達(dá)到3000GB/s。

這是什么概念?這么說(shuō)吧,H800是由H100閹割而來(lái)的性能殘缺版,但是在優(yōu)化后算力已經(jīng)超越了H100的默認(rèn)算力(495TFLOPS),并且內(nèi)存帶寬接近顯存的理論上限值,對(duì)比默認(rèn)狀態(tài)下帶寬提升約50%的性能,接近H100經(jīng)過(guò)專(zhuān)屬優(yōu)化后的巔峰性能。

換句話(huà)說(shuō),DeepSeek硬生生將H800優(yōu)化成了超頻版的H100,突破了算力的限制。不僅如此,針對(duì)長(zhǎng)序列推理時(shí)出現(xiàn)的顯存碎片問(wèn)題,F(xiàn)lashMLA通過(guò)將分頁(yè)KV緩存切割為64-block粒度的技術(shù),將顯存利用率大幅度提高,并顯著降低實(shí)際推理過(guò)程中無(wú)效算力的占比,并讓長(zhǎng)序列推理的端到端時(shí)延降低40%,直接提升了實(shí)時(shí)對(duì)話(huà)和長(zhǎng)文本生成等實(shí)用場(chǎng)景下的體驗(yàn)。

FlashMLA開(kāi)源后,一些開(kāi)發(fā)者直接將DeepSeek稱(chēng)為“源神”(開(kāi)源之神),因?yàn)檫@相當(dāng)于把DeepSeek-R1最核心的效率工具之一免費(fèi)貢獻(xiàn)給整個(gè)AI行業(yè)。不管是直接部署使用還是在此基礎(chǔ)上進(jìn)行更多硬件的適配和優(yōu)化,都可以顯著提升模型的算力效率并降低推理成本,用“榨干GPU的每一絲潛力”來(lái)形容都不為過(guò)。

2、DeepEP:MoE模型的通信革命。

微信截圖_20250226185427.png

圖源:雷科技

從官方描述來(lái)看,DeepEP是一款針對(duì)MoE模型訓(xùn)練和推理所設(shè)計(jì)的EP(專(zhuān)家并行)通信庫(kù),旨在解決這類(lèi)模型在常規(guī)通信機(jī)制下的高延遲、低數(shù)據(jù)傳輸速率等問(wèn)題。

我們前面說(shuō)到過(guò)MoE是由一個(gè)個(gè)“專(zhuān)家”組成的數(shù)據(jù)矩陣,而且這些專(zhuān)家還位于不同的GPU內(nèi)核,為了可以攜手解決問(wèn)題,自然需要進(jìn)行交流和通訊,分享自己掌握的數(shù)據(jù)。如果說(shuō)傳統(tǒng)的通信機(jī)制類(lèi)似于發(fā)電報(bào),那么DeepEP就等于裝上了語(yǔ)音電話(huà),不僅讓兩個(gè)專(zhuān)家可以即時(shí)交流,還能邊交流邊思考。

官方發(fā)布的基準(zhǔn)測(cè)試?yán),?jīng)過(guò)優(yōu)化后的帶寬通信利用率高達(dá)92%,是英偉達(dá)官方解決方案的3倍,而通信時(shí)延也從毫秒級(jí)降到了微秒級(jí),同時(shí)支持FP8低精度運(yùn)算。可以說(shuō),這就是DeepSeek為了強(qiáng)化MoE模型的訓(xùn)練和推理,而專(zhuān)門(mén)定制的一套方案。

但是這玩意的離譜之處就在于,DeepEP實(shí)際上可以適配H系列的各種GPU內(nèi)核,并且提供了一鍵部署方案,只是還需要大家在此基礎(chǔ)上做進(jìn)一步適配優(yōu)化來(lái)達(dá)到最佳效果。這項(xiàng)技術(shù)的開(kāi)源,可以說(shuō)直接給MoE模型的訓(xùn)練提供了一個(gè)很好的優(yōu)化思路,并且已經(jīng)在實(shí)際使用中得到了充分驗(yàn)證。

3、DeepGEMM:壓箱底的“寶貝”。

微信截圖_20250226185406.png

圖源:雷科技

DeepGEMM是一個(gè)專(zhuān)為簡(jiǎn)潔高效的 FP8 通用矩陣乘法(GEMM)設(shè)計(jì)的庫(kù),具有細(xì)粒度縮放功能,支持普通和混合專(zhuān)家(MoE)分組的 GEMM。以上是官方解釋?zhuān)话阕x者可能看不懂,不過(guò)沒(méi)關(guān)系,因?yàn)榇蠖鄶?shù)人都是一樣的,咳咳。

簡(jiǎn)單的講,這就是一個(gè)教你如何在FP8精度下訓(xùn)練AI大模型,同時(shí)還保證AI大模型的訓(xùn)練不會(huì)出問(wèn)題的玩意。什么是“精度”?直觀解釋就是數(shù)據(jù)的準(zhǔn)確性,舉個(gè)例子,“小明的身高是1米7”這就是FP8,“小明的身高是1米72”這就是FP16,精度越高所含的數(shù)據(jù)就越精準(zhǔn),在AI大模型訓(xùn)練中就可以得出更準(zhǔn)確的結(jié)果。

但是高精度也會(huì)帶來(lái)問(wèn)題,那就是數(shù)據(jù)包本身會(huì)占用更大的算力資源,F(xiàn)P16的內(nèi)存占用幾乎是FP8的兩倍,而且還會(huì)因此影響到傳輸速度等各方面的效率。所以實(shí)際訓(xùn)練中FP16的效率是遠(yuǎn)不如FP8的,只不過(guò)FP8一直也存在嚴(yán)重各種問(wèn)題,以至于在公開(kāi)范圍內(nèi),還沒(méi)有哪個(gè)AI大模型是以FP8精度完成訓(xùn)練的。

而DeepSeek此前公布訓(xùn)練成本時(shí),其實(shí)就已經(jīng)指出高效的背后與FP8精度訓(xùn)練脫不開(kāi)關(guān)系,其中的關(guān)鍵就是DeepGEMM。該代碼庫(kù)用一種雙重驗(yàn)證+智能糾錯(cuò)的方式,讓FP8在實(shí)際訓(xùn)練中也能夠擁有媲美高精度訓(xùn)練的準(zhǔn)確率,并且解決了溢出等各種問(wèn)題。

當(dāng)然DeepGEMM的作用不止于此,不過(guò)這是最核心的應(yīng)用之一(更詳細(xì)的解讀大家可以去看看知乎大佬們的解答)。你可以認(rèn)為DeepSeek這波就是把真正的壓箱底玩意拿出來(lái)分享了,大家可以根據(jù)DeepGEMM的思路,將AI大模型的訓(xùn)練成本大幅度降低,并且提高整個(gè)AI大模型的運(yùn)行效率。

DeepGEMM的整個(gè)執(zhí)行代碼只有約300行,堪稱(chēng)極致的精簡(jiǎn)和效率,以至于有外國(guó)網(wǎng)民評(píng)價(jià):這是一份可以直接入選教科書(shū)的代碼,讓我重新領(lǐng)略到了代碼的美。

DeepSeek啟示錄:與其重復(fù)造輪子,不如推廣「好用的輪子」

不得不說(shuō),DeepSeek真的是將開(kāi)源精神貫徹到極致。從DeepSeek-R1及相關(guān)算法的完全開(kāi)源,到開(kāi)源周的壓箱底技術(shù)大放送,幾乎都采用MIT或類(lèi)MIT的開(kāi)源協(xié)議,所有人都可以自由地使用、復(fù)制、修改、合并、發(fā)布、分發(fā)、再許可及銷(xiāo)售軟件及軟件的副本,不受任何制約,而且不強(qiáng)制要求使用開(kāi)源庫(kù)的項(xiàng)目進(jìn)行開(kāi)源。

從商業(yè)公司的角度來(lái)看DeepSeek的做法簡(jiǎn)直匪夷所思,因?yàn)镈eepSeek本可以借助這些技術(shù)優(yōu)勢(shì)來(lái)獲取更大的利潤(rùn),但是卻選擇了完全開(kāi)源,以此換取整個(gè)AI行業(yè)的躍升。這個(gè)形容并不夸張,畢竟從DeepSeek開(kāi)源的一系列技術(shù)來(lái)看,AI模型的推理成本有望在今年降低50%甚至更多,而且在實(shí)時(shí)交互等方面都將有顯著的體驗(yàn)提升。

而且,DeepSeek的開(kāi)源做法也使得更多的AI企業(yè)開(kāi)始考慮加入開(kāi)源陣營(yíng),從根本上促進(jìn)了整個(gè)AI行業(yè)的交流與學(xué)習(xí),讓AI企業(yè)從“重復(fù)造輪子”的閉源困境中解脫,從這個(gè)角度來(lái)看,稱(chēng)DeepSeek的開(kāi)源為AI發(fā)展史上的重要節(jié)點(diǎn)也毫不為過(guò)。

雖然DeepSeek的大多創(chuàng)新都是在已有的概念上,進(jìn)行極致「工業(yè)化」的成果。但是就像英國(guó)鐵匠托馬斯制造了第一臺(tái)真正實(shí)用的蒸汽機(jī),但是卻只能用來(lái)抽礦井積水,而詹姆斯·瓦特則將其變得更具效率且更通用,最終為工業(yè)革命徹底奠定了基礎(chǔ)。

DeepSeek的開(kāi)源就像把自己的「通用技術(shù)」拿了出來(lái),讓大家都能用上了「通用蒸汽機(jī)」,在DeepSeek的影響下,AI的普及將比預(yù)料的更快。對(duì)于普通人來(lái)說(shuō),DeepSeek的最大意義在于讓我們不用再忍受低質(zhì)量的AI模型困擾。而對(duì)于AI行業(yè)來(lái)說(shuō),他的意義在于從根本上改變了整個(gè)行業(yè)的動(dòng)向,讓開(kāi)源變得更受重視,讓強(qiáng)化學(xué)習(xí)機(jī)制的潛力得到進(jìn)一步認(rèn)可。 

最后,文章開(kāi)頭的問(wèn)題答案其實(shí)很簡(jiǎn)單,DeepSeek的創(chuàng)新總結(jié)起來(lái)無(wú)非就三點(diǎn):更高效、更自主(指AI訓(xùn)練)和更開(kāi)放。

 來(lái)源:雷科技

       原文標(biāo)題 : 小白讀懂DeepSeek:從MoE到MLA,國(guó)產(chǎn)AI改變世界

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)