男男高肉h视频无码网址,色老板成人永久免费视频,不卡2021天天做夜夜爽视频

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

小白讀懂DeepSeek：從MoE到MLA，國(guó)產(chǎn)AI改變世界

2025-03-12 10:39

DeepSeek的創(chuàng)新就在于讓每個(gè)人都能用上好的AI。

微信圖片_20250311163751.png

此前，不少讀者都在后臺(tái)討論，DeepSeek雖然牛逼，但是在其之上還有ChatGPT等更強(qiáng)的AI模型，難道僅憑開(kāi)源就能夠引起如此廣泛的關(guān)注？再說(shuō)回來(lái)，DeepSeek能夠被AI從業(yè)者反復(fù)琢磨和研究，到底是有哪些過(guò)人之處？

微信截圖_20250208222220.png

圖源：DeepSeek

對(duì)于這個(gè)問(wèn)題，其實(shí)有不少專(zhuān)業(yè)文章都做過(guò)解釋?zhuān)贿^(guò)大家未必會(huì)想去看萬(wàn)字長(zhǎng)文，也對(duì)枯燥的學(xué)術(shù)概念沒(méi)啥興趣。所以小雷這次打算用通俗易懂的方式，向大家解釋一下DeepSeek在AI模型的訓(xùn)練和設(shè)計(jì)中，到底有哪些讓人眼前一亮的創(chuàng)新。

憑“MoE+MLA+MTP”成為效率狂魔

自打DeepSeek-V2發(fā)布以來(lái)，這個(gè)AI模型就以高效而聞名，大家對(duì)此估計(jì)也都有所耳聞，甚至一度被網(wǎng)友稱(chēng)為“三低一高”：低推理成本、低參數(shù)量、低硬件要求、高推理性能。

不少網(wǎng)友都認(rèn)為DeepSeek之所以比ChatGPT等AI模型更高效，是因?yàn)槭褂昧讼∈杞Y(jié)構(gòu)。這個(gè)結(jié)論并沒(méi)有錯(cuò)，只是稀疏架構(gòu)并非DeepSeek獨(dú)創(chuàng)，是泛指在運(yùn)行過(guò)程中會(huì)選擇性激活一部分網(wǎng)絡(luò)單元，而非激活全網(wǎng)絡(luò)單元的AI模型，其最早在深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)應(yīng)用中被提出，并成為AI領(lǐng)域的主流結(jié)構(gòu)之一。

稀疏結(jié)構(gòu)的優(yōu)勢(shì)是可以用更少的算力資源來(lái)運(yùn)行和訓(xùn)練更大參數(shù)量的模型，并且在實(shí)際的推理過(guò)程中擁有更高的效率，不過(guò)也因此會(huì)導(dǎo)致其出現(xiàn)其他缺陷，這個(gè)我們?cè)诮酉聛?lái)再詳細(xì)說(shuō)明。

而ChatGPT等AI模型則是采用的稠密結(jié)構(gòu)，也就是為每一個(gè)數(shù)據(jù)塊都進(jìn)行單獨(dú)標(biāo)記，并且每一個(gè)數(shù)據(jù)塊都與前一層所有數(shù)據(jù)塊相連，形成密集的數(shù)據(jù)矩陣。當(dāng)你在進(jìn)行推理/訓(xùn)練時(shí)，本質(zhì)上會(huì)讀取整個(gè)模型的所有參數(shù)，借助龐大的參數(shù)量可以進(jìn)行更復(fù)雜的計(jì)算和更準(zhǔn)確的回答，缺點(diǎn)則是當(dāng)參數(shù)量過(guò)大時(shí)，效率會(huì)愈發(fā)低下。

從AI大模型的角度來(lái)說(shuō)，其實(shí)并不存在最好的選擇，稀疏和稠密都有各自的優(yōu)缺點(diǎn)，目前主流的AI企業(yè)基本對(duì)兩種結(jié)構(gòu)都有所研究，只是根據(jù)各自模型的特性和應(yīng)用范圍，會(huì)選擇不同的結(jié)構(gòu)。

以ChatGPT這種全通用型的AI模型為例，為了覆蓋盡可能多的領(lǐng)域，其用的就是稠密架構(gòu)，但是也讓ChatGPT-5一直難產(chǎn)，即使以O(shè)penAI的龐大算力矩陣也難以解決龐大參數(shù)量所導(dǎo)致的超高算力消耗和效率下降問(wèn)題。

而DeepSeek-R1也有著671B參數(shù)量，但是因?yàn)椴捎孟∈杓軜?gòu)，實(shí)際上每次只激活其中32B的參數(shù)，加上DeepSeek的思維鏈優(yōu)化等技術(shù)，就可以實(shí)現(xiàn)近似于ChatGPT-4o和o1的推理能力。

DeepSeek如何做到這點(diǎn)的？接下來(lái)讓我們隆重介紹一下DeepSeek-R1的核心——MoE+MLA+MTP。

首先，DeepSeek創(chuàng)新性地應(yīng)用MoE架構(gòu)提高訓(xùn)練效率。

首先需要明確的是，MoE并非DeepSeek首創(chuàng)，其最早在20世紀(jì)90年代就已經(jīng)被提出，隨后在機(jī)器學(xué)習(xí)領(lǐng)域的專(zhuān)家Jordan和Jacobs的完善下，在1994年進(jìn)一步發(fā)展成“分層混合專(zhuān)家”模型的概念。

圖源：Hugging Face

隨后，2017年時(shí)由谷歌的研究團(tuán)隊(duì)首先將其用在了深度學(xué)習(xí)領(lǐng)域，提出一個(gè)具有1370億參數(shù)的稀疏MoE模型，并且展示了在MoE架構(gòu)下進(jìn)行高效推理的可能。MoE架構(gòu)到底是什么？簡(jiǎn)單來(lái)說(shuō)，就是將一個(gè)巨大的AI模型切割成多個(gè)子模型，相當(dāng)于將一個(gè)全科天才拆分成語(yǔ)文、數(shù)學(xué)、化學(xué)、生物等不同學(xué)科的專(zhuān)家（實(shí)際劃分并非如此，而是更復(fù)雜）。

在MoE架構(gòu)下，當(dāng)你提出一個(gè)問(wèn)題時(shí)，AI會(huì)首先判斷這個(gè)問(wèn)題涉及哪些專(zhuān)家，然后跳過(guò)那些不相關(guān)的專(zhuān)家，把對(duì)應(yīng)領(lǐng)域的專(zhuān)家喊過(guò)來(lái)討論你的問(wèn)題，然后得出結(jié)果。而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問(wèn)題，雖然能力強(qiáng)大，但是當(dāng)問(wèn)題變多時(shí)就會(huì)顯得效率十分低下，而且其消耗的資源也遠(yuǎn)超“普通專(zhuān)家”。

聽(tīng)起來(lái)，MoE架構(gòu)似乎更合理，那么為何國(guó)外主流AI模型沒(méi)有使用呢？實(shí)際上并非如此，ChatGPT-4等模型都有使用MoE架構(gòu)的部分特性強(qiáng)化效率，只不過(guò)最終還是選擇以Dense（密集）架構(gòu)為主。而沒(méi)有將MoE作為主架構(gòu)的原因主要是這個(gè)架構(gòu)存在訓(xùn)練不穩(wěn)定、通信成本高、模型復(fù)雜度高、微調(diào)困難等問(wèn)題，說(shuō)白了就是你得對(duì)模型進(jìn)行精雕細(xì)琢，無(wú)法通過(guò)單純的堆高算力和加大參數(shù)量來(lái)得到顯著提升。

圖源：DeepSeek

只能說(shuō)“窮人家”的孩子早當(dāng)家，DeepSeek在沒(méi)有龐大算力支持的情況下，只能轉(zhuǎn)而對(duì)模型進(jìn)行深度優(yōu)化，放棄了DeepSeek-V1的Dense路線(xiàn)，轉(zhuǎn)向在同等算力下有著更高效率的MoE，并且針對(duì)MoE的各種問(wèn)題開(kāi)發(fā)了一系列的解決措施。比如設(shè)計(jì)了一種創(chuàng)新的無(wú)輔助損失負(fù)載均衡策略，通過(guò)預(yù)先設(shè)置的負(fù)載均衡邏輯來(lái)動(dòng)態(tài)調(diào)整負(fù)載，拋棄傳統(tǒng)的額外的損失函數(shù)方案。

簡(jiǎn)單來(lái)說(shuō)，傳統(tǒng)方法是經(jīng)理總攬全局，如果看到哪個(gè)產(chǎn)線(xiàn)過(guò)度繁忙，就會(huì)通知那個(gè)產(chǎn)線(xiàn)的工人你們要被罰款了，不想扣錢(qián)就把工作讓給隔壁沒(méi)活干的產(chǎn)線(xiàn)。因?yàn)樾枰?jīng)理不停發(fā)出指令調(diào)整分配，所以實(shí)質(zhì)上增加了管理復(fù)雜度，并且難以應(yīng)付大量的數(shù)據(jù)請(qǐng)求。

而DeepSeek則是選擇給每個(gè)產(chǎn)線(xiàn)都增加一個(gè)智能控制器，當(dāng)控制器檢測(cè)到產(chǎn)線(xiàn)負(fù)載逐漸增加時(shí)就會(huì)自動(dòng)調(diào)低自己的優(yōu)先級(jí)，讓系統(tǒng)將任務(wù)分配給優(yōu)先級(jí)更高的其余空余產(chǎn)線(xiàn)。從而實(shí)現(xiàn)在無(wú)人管理的情況下，多數(shù)產(chǎn)線(xiàn)都可以得到均衡的負(fù)載，確保訓(xùn)練和推理的效率一直保持在高位。

圖源：DeepSeek

其次，DeepSeek用MLA創(chuàng)造性地提高推理效率。

解決了訓(xùn)練效率等問(wèn)題，DeepSeek很快將注意力放到了進(jìn)一步解決推理效率的問(wèn)題上，然后在某位研究員的“靈光一閃”下開(kāi)發(fā)出了MLA——多頭潛在注意力機(jī)制。從技術(shù)角度來(lái)說(shuō)，就是通過(guò)將注意力頭的鍵和值進(jìn)行線(xiàn)性變換，將他們壓縮到一個(gè)共享的低維潛在向量空間，接下來(lái)推理時(shí)只需要拿著壓縮后的縮略圖倒騰即可，在得到結(jié)論后再把對(duì)應(yīng)的壓縮包解壓，計(jì)算其中的鍵和值并輸出最終答案。

讓我們用一個(gè)更簡(jiǎn)單的比喻，你可以把傳統(tǒng)多頭注意力機(jī)制看作一個(gè)老圖書(shū)館，每本書(shū)都擁有對(duì)應(yīng)的詳細(xì)索引卡，此時(shí)進(jìn)來(lái)一個(gè)人要借書(shū)，然后AI開(kāi)始翻動(dòng)索引卡，嘗試從浩如煙海的圖書(shū)中找到對(duì)方要的書(shū)，雖然AI的查找速度奇快，但是這樣做的效率肯定不會(huì)高。

而DeepSeek的MLA就是在編好索引卡后對(duì)書(shū)籍又按照類(lèi)別進(jìn)行歸檔，為每個(gè)類(lèi)型的書(shū)籍建立一個(gè)上級(jí)索引，然后又建立了一個(gè)智能化的檢索機(jī)制。當(dāng)借書(shū)人在輸入書(shū)名后，系統(tǒng)會(huì)自動(dòng)判斷所屬類(lèi)型，然后直接鎖定大致區(qū)間，接下來(lái)只需要檢索這一片書(shū)架就能把書(shū)找出來(lái)，直接節(jié)省了大量的無(wú)效檢索時(shí)間。

圖源：Hugging Face

最后,DeepSeek引入MTP機(jī)制提高預(yù)測(cè)能力。

解決了訓(xùn)練和推理等問(wèn)題，DeepSeek就很自然地開(kāi)始對(duì)預(yù)測(cè)機(jī)制下手，預(yù)測(cè)機(jī)制涉及AI的訓(xùn)練效率、推理速度和回答質(zhì)量等各個(gè)方面，可以說(shuō)是AI模型的核心機(jī)制之一。傳統(tǒng)的AI在預(yù)測(cè)時(shí)都是“循規(guī)蹈矩”，就像解一道數(shù)學(xué)題一樣，做完一段推理后再進(jìn)入下一階段。

而DeepSeek則是引入了MTP機(jī)制（多令牌預(yù)測(cè)），簡(jiǎn)單來(lái)說(shuō)就是讓你多了好幾只手，然后把數(shù)學(xué)題的解題過(guò)程一分為五，五只手同時(shí)驗(yàn)算，最后再進(jìn)行組合生成答案。正是通過(guò)這種方式，DeepSeek極大地提高了模型的訓(xùn)練效率，同時(shí)也使其推理效率得到顯著提升。

圖源：DeepSeek

而且，MTP機(jī)制下生成出來(lái)的文字內(nèi)容會(huì)更加流暢和自然，因?yàn)镸TP機(jī)制就等于將“走一步看一步”的寫(xiě)作方式，變成了“先擬大綱再填充字詞”。DeepSeek先想好要寫(xiě)什么，然后再通過(guò)MTP生成一系列字詞，選擇其中相關(guān)性更強(qiáng)的部分組合，這也是為什么大家在看DeepSeek生成的文字內(nèi)容時(shí)，會(huì)感覺(jué)更有“人”味，因?yàn)檫@就是人類(lèi)的寫(xiě)作方法。

從DeepSeek-V2引入MoE并完善MLA，再到DeepSeek-V3加入MTP，最終才有了DeepSeek-R1的誕生基礎(chǔ)。

如何讓AI學(xué)會(huì)“自主學(xué)習(xí)”？

DeepSeek-R1也就是我們現(xiàn)在常說(shuō)的“滿(mǎn)血版”DeepSeek，是在V3的基礎(chǔ)上經(jīng)過(guò)“強(qiáng)化學(xué)習(xí)”進(jìn)化而來(lái)的。什么是強(qiáng)化學(xué)習(xí)？

要回答這個(gè)問(wèn)題，首先我們來(lái)了解下傳統(tǒng)AI的訓(xùn)練模式——監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)就是把AI當(dāng)成一個(gè)“笨”學(xué)生，他只能理解你明確標(biāo)注出來(lái)的知識(shí)點(diǎn)。比如他看到一個(gè)“白鴨子”，即使他此前已經(jīng)記住了“黑鴨子”，但是在你把“白鴨子”的名字標(biāo)注出來(lái)，并將其與“黑鴨子”歸為一類(lèi)之前，AI都不知道擺在自己面前的“白色奇怪物體”是什么。

當(dāng)你標(biāo)注的數(shù)據(jù)足夠多后，AI才能在后續(xù)的推理過(guò)程中，根據(jù)現(xiàn)有的數(shù)據(jù)特點(diǎn)來(lái)自主判斷面前的“紅鴨子”是一只“鴨子”。這種模式下，需要通過(guò)AI的交叉標(biāo)注和人工手動(dòng)微調(diào)來(lái)引導(dǎo)AI一點(diǎn)點(diǎn)累積知識(shí)，在AI大模型發(fā)展的初期倒也還好，但是隨著AI模型的參數(shù)量突破千億、萬(wàn)億，標(biāo)注效率下降的同時(shí)成本會(huì)大幅度上升，只能通過(guò)不斷堆高算力來(lái)“大力出奇跡”。

圖源：Medium

所以，對(duì)于DeepSeek這樣算力有限的公司來(lái)說(shuō)，監(jiān)督學(xué)習(xí)是個(gè)一眼就能看到盡頭的死路，想進(jìn)一步強(qiáng)化AI就只能走出一條新的路，于是他們想到了機(jī)器學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)概念，決定讓AI自己教自己學(xué)習(xí)，又稱(chēng)“左腳踩右腳上天”法。

DeepSeek拋棄了復(fù)雜的標(biāo)注和獎(jiǎng)懲機(jī)制，選擇了更簡(jiǎn)單的方案：給出問(wèn)題，提供正確答案，然后讓AI自主推理。在完成前期的數(shù)據(jù)標(biāo)注后，不再干涉推理過(guò)程，讓AI自行比對(duì)結(jié)果與標(biāo)準(zhǔn)答案的區(qū)別，將低于一定得分的結(jié)果直接廢棄，并在更接近標(biāo)準(zhǔn)答案的結(jié)果上進(jìn)行新一輪推理，重復(fù)多次直到最終得出正確答案為止。

然后DeepSeek的研究人員就發(fā)現(xiàn)，隨著AI的訓(xùn)練步數(shù)增加，AI的思維鏈也越來(lái)越長(zhǎng)，并且開(kāi)始出現(xiàn)自我反思的能力，AI會(huì)為了更快地接近正確答案而回頭檢索出錯(cuò)的推理過(guò)程，然后將其標(biāo)記避免自己再犯同樣的錯(cuò)誤。

DeepSeek第一個(gè)完全由強(qiáng)化學(xué)習(xí)方式訓(xùn)練的AI被命名為DeepSeek-R1-Zero，在這個(gè)模型的相關(guān)論文中，DeepSeek的研究人員甚至提到R1-Zero在強(qiáng)化學(xué)習(xí)過(guò)程中會(huì)出現(xiàn)奇怪的舉動(dòng)。當(dāng)他在計(jì)算某個(gè)問(wèn)題，并且開(kāi)始接近正確答案時(shí)，會(huì)突然出現(xiàn)與推理過(guò)程相關(guān)性不大的感慨“Wait, wait, Wait. That's an aha moment I can flag here.（論文原話(huà)）”，翻譯過(guò)來(lái)就是：等等，等等，等等。這是一個(gè)我可以標(biāo)記的‘啊哈’時(shí)刻。

圖源：DeepSeek

看起來(lái)就像你在冥思苦想一個(gè)數(shù)學(xué)難題，突然靈光一閃后情不自禁發(fā)出的感慨，因此DeepSeek也將這種現(xiàn)象稱(chēng)為“aha moment”，也就是“頓悟”。

DeepSeek-R1-Zero直接證明了一個(gè)結(jié)論，那就是只要基礎(chǔ)模型足夠強(qiáng)大，那么就可以讓這個(gè)模型在強(qiáng)化學(xué)習(xí)的過(guò)程中，自我進(jìn)化出一個(gè)更強(qiáng)大的模型。理論上，未來(lái)的AI模型可以直接脫離人類(lèi)的幫助，在不停地自問(wèn)自答中進(jìn)化到更高的智能水平。

當(dāng)然現(xiàn)階段還是不行的，AI仍然需要人類(lèi)進(jìn)行事先的標(biāo)注，確認(rèn)條件、對(duì)比結(jié)果等數(shù)據(jù)，然后才能進(jìn)入自主強(qiáng)化學(xué)習(xí)階段，但是從目前各個(gè)AI大廠的進(jìn)度來(lái)看，我們距離AI完全自主學(xué)習(xí)的階段可能并不遙遠(yuǎn)。

DeepSeek的強(qiáng)化學(xué)習(xí)理念可以說(shuō)徹底顛覆了主流AI訓(xùn)練的理念，在狂堆算力和參數(shù)的“暴力模式”之外，指出了一條更適合多數(shù)人的新捷徑。當(dāng)然，之前并非沒(méi)有其他人嘗試過(guò)強(qiáng)化學(xué)習(xí)，但是他們都沒(méi)有一個(gè)足夠高效且出色的基礎(chǔ)模型，而且也沒(méi)能解決強(qiáng)化學(xué)習(xí)中遇到的一系列問(wèn)題，所以最終只有DeepSeek成功并打造出了DeepSeek-R1。

不過(guò)隨著DeepSeek-R1及相關(guān)訓(xùn)練技術(shù)的開(kāi)源，不少AI大廠都已經(jīng)在嘗試引入相關(guān)機(jī)制來(lái)訓(xùn)練模型，并在他們?cè)械膹?qiáng)化學(xué)習(xí)架構(gòu)上根據(jù)DeepSeek的經(jīng)驗(yàn)進(jìn)行優(yōu)化，或許我們很快就會(huì)迎來(lái)一次新的AI性能暴漲。

NSA：全新注意力機(jī)制，下一代「核彈」？

DeepSeek在2月18號(hào)還公布的一篇新論文，這篇由DeepSeek創(chuàng)始人之一梁文鋒親自?huà)烀恼撐�，短短兩小時(shí)就獲得了三十萬(wàn)瀏覽量（截止到19號(hào)晚，閱讀量已接近200萬(wàn)）。

在這篇論文中，DeepSeek提出了一種新的注意力機(jī)制——NSA，這是一個(gè)可以用于超快長(zhǎng)上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機(jī)制，并且具有硬件對(duì)齊特性，從論文的描述來(lái)看，可以將64K長(zhǎng)文本的訓(xùn)練速度提升9倍，推理速度提升11.6倍。

微信截圖_20250227024625.png

圖源：DeepSeek

這是什么概念呢？簡(jiǎn)單的說(shuō)，如果之前訓(xùn)練一段64k長(zhǎng)度的文本需要100秒，那么現(xiàn)在只需要11秒，推理相同長(zhǎng)度的文本內(nèi)容，從100秒直接降低到10秒以?xún)?nèi)。不僅如此，使用NSA訓(xùn)練的AI在64k文本里的命中準(zhǔn)確率從傳統(tǒng)的35%提升到100%，并且保持效率優(yōu)化不變。

而且不止是強(qiáng)化文本推理，在數(shù)學(xué)推理等方面，NSA也讓AI的準(zhǔn)確率得到顯著提升，在省下90%算力的情況下還能提升推理正確率，我們一般用兩個(gè)字來(lái)形容：逆天。

基于NSA注意力機(jī)制，AI模型可以用原本十分之一的算力來(lái)處理64k文本，也可以中同樣算力的情況下，將可處理文本擴(kuò)大十倍，理論上基于新的機(jī)制可以處理最高640k的超長(zhǎng)文本，遠(yuǎn)超現(xiàn)有的已公開(kāi)AI模型上限。

看起來(lái)或許只是效率提升，實(shí)際上對(duì)整個(gè)AI的理解和推理效果都將帶來(lái)質(zhì)的提升。比如說(shuō)讓AI看一本書(shū)，如果字?jǐn)?shù)是30萬(wàn)字的長(zhǎng)篇小說(shuō)，那么傳統(tǒng)模式下的AI受64k文本限制，一次只能記住約五分之一的內(nèi)容，需要在讀完五分之一后先建立一個(gè)記憶存檔，然后開(kāi)始讀取下一部分。

當(dāng)你詢(xún)問(wèn)AI剛剛他讀的某一段內(nèi)容的看法時(shí)，他需要先檢索出對(duì)應(yīng)的記憶模塊，再通過(guò)此前生成的對(duì)應(yīng)摘要來(lái)定位內(nèi)容位置，接著再重新閱讀上下文并進(jìn)行推理。但是受限于64k的檢索范圍，實(shí)際上AI只能根據(jù)內(nèi)容所在的前后共64k的內(nèi)容來(lái)進(jìn)行推論，在算力不足或受限的情況下，你會(huì)發(fā)現(xiàn)AI經(jīng)常答了后面忘了前面，記憶力似乎還不如你。

這也是為什么現(xiàn)在的AI在長(zhǎng)篇小說(shuō)創(chuàng)作、解讀等方面的表現(xiàn)不如人意，根本原因就是AI記不住這么長(zhǎng)的文字內(nèi)容，不僅受限于算法，也受限于算力。而DeepSeek則打算徹底改變這個(gè)現(xiàn)狀，打造一套“基于塊（blockwise）進(jìn)行選擇”，并采用了壓縮、篩選、滑動(dòng)窗口三種注意力機(jī)制并行優(yōu)化計(jì)算效率的系統(tǒng)。

DeepSeek的NSA注意力機(jī)制就是將長(zhǎng)文本切割成512字的數(shù)據(jù)塊，然后再對(duì)數(shù)據(jù)塊進(jìn)行簡(jiǎn)略標(biāo)記，接著再通過(guò)編寫(xiě)動(dòng)態(tài)篩選機(jī)制，讓AI自主決定需要檢索哪些數(shù)據(jù)塊，并通過(guò)持續(xù)的訓(xùn)練來(lái)進(jìn)一步優(yōu)化篩選機(jī)制。

在篩選出“有用”的數(shù)據(jù)塊后，AI再對(duì)數(shù)據(jù)塊進(jìn)行全面檢索，也就是進(jìn)入傳統(tǒng)AI的遍歷模式，以此來(lái)提升推理準(zhǔn)確率，同時(shí)還會(huì)啟動(dòng)上下文檢索機(jī)制，快速查找是否還存在其他相關(guān)信息，避免AI根據(jù)篩選的內(nèi)容“斷章取義”，給出錯(cuò)誤的回答。

DeepSeek的這個(gè)技術(shù)以一種巧妙的方式，輕松實(shí)現(xiàn)了過(guò)去難以解決的長(zhǎng)文本推理和創(chuàng)作問(wèn)題，讓AI可以直接閱讀數(shù)十萬(wàn)字的巨作，并且記住其中絕大多數(shù)的細(xì)節(jié)。換言之，即使你突然丟給AI一本自己寫(xiě)的超長(zhǎng)小說(shuō)，他也可以在短時(shí)間內(nèi)閱讀并記住，然后與你討論整部小說(shuō)的設(shè)定和細(xì)節(jié)，彼時(shí)或許才是多數(shù)小說(shuō)作家的“革命之時(shí)”。

NSA的提出意味著AI模型在處理超長(zhǎng)文本、復(fù)雜推理任務(wù)時(shí)邁向了新的階段，為未來(lái)的大模型發(fā)展提供了重要的技術(shù)方向，也讓人好奇DeepSeek到底打算把開(kāi)源做到怎樣的地步？

DeepSeek開(kāi)源：授人以漁，改變世界

DeepSeek采取開(kāi)源架構(gòu)，在前不久的“開(kāi)源周”上，它大方地開(kāi)放了多個(gè)技術(shù)/工具/架構(gòu)，每一個(gè)都將對(duì)AI大模型產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。

1、FlashMLA：給AI開(kāi)個(gè)“外掛”。

微信截圖_20250226185512.png

圖源：雷科技

FlashMLA，官方的解釋是一款面向Hopper GPU的高效MLA解碼內(nèi)核，并針對(duì)可變長(zhǎng)度序列的服務(wù)場(chǎng)景進(jìn)行了優(yōu)化。

用更通俗的說(shuō)法來(lái)解釋?zhuān)褪且粋€(gè)針對(duì)H系列計(jì)算卡的超頻“外掛”，為什么叫外掛而非工具？因?yàn)镕lashMLA的效果實(shí)在是太炸裂了。根據(jù)DeepSeek給出的參數(shù)，經(jīng)過(guò)FlashMLA優(yōu)化的H800計(jì)算卡，在計(jì)算受限的情況下仍然能擁有高達(dá)580TFLOPS的算力，內(nèi)存帶寬達(dá)到3000GB/s。

這是什么概念？這么說(shuō)吧，H800是由H100閹割而來(lái)的性能殘缺版，但是在優(yōu)化后算力已經(jīng)超越了H100的默認(rèn)算力（495TFLOPS），并且內(nèi)存帶寬接近顯存的理論上限值，對(duì)比默認(rèn)狀態(tài)下帶寬提升約50%的性能，接近H100經(jīng)過(guò)專(zhuān)屬優(yōu)化后的巔峰性能。

換句話(huà)說(shuō)，DeepSeek硬生生將H800優(yōu)化成了超頻版的H100，突破了算力的限制。不僅如此，針對(duì)長(zhǎng)序列推理時(shí)出現(xiàn)的顯存碎片問(wèn)題，F(xiàn)lashMLA通過(guò)將分頁(yè)KV緩存切割為64-block粒度的技術(shù)，將顯存利用率大幅度提高，并顯著降低實(shí)際推理過(guò)程中無(wú)效算力的占比，并讓長(zhǎng)序列推理的端到端時(shí)延降低40%，直接提升了實(shí)時(shí)對(duì)話(huà)和長(zhǎng)文本生成等實(shí)用場(chǎng)景下的體驗(yàn)。

FlashMLA開(kāi)源后，一些開(kāi)發(fā)者直接將DeepSeek稱(chēng)為“源神”（開(kāi)源之神），因?yàn)檫@相當(dāng)于把DeepSeek-R1最核心的效率工具之一免費(fèi)貢獻(xiàn)給整個(gè)AI行業(yè)。不管是直接部署使用還是在此基礎(chǔ)上進(jìn)行更多硬件的適配和優(yōu)化，都可以顯著提升模型的算力效率并降低推理成本，用“榨干GPU的每一絲潛力”來(lái)形容都不為過(guò)。

2、DeepEP：MoE模型的通信革命。

微信截圖_20250226185427.png

圖源：雷科技

從官方描述來(lái)看，DeepEP是一款針對(duì)MoE模型訓(xùn)練和推理所設(shè)計(jì)的EP（專(zhuān)家并行）通信庫(kù)，旨在解決這類(lèi)模型在常規(guī)通信機(jī)制下的高延遲、低數(shù)據(jù)傳輸速率等問(wèn)題。

我們前面說(shuō)到過(guò)MoE是由一個(gè)個(gè)“專(zhuān)家”組成的數(shù)據(jù)矩陣，而且這些專(zhuān)家還位于不同的GPU內(nèi)核，為了可以攜手解決問(wèn)題，自然需要進(jìn)行交流和通訊，分享自己掌握的數(shù)據(jù)。如果說(shuō)傳統(tǒng)的通信機(jī)制類(lèi)似于發(fā)電報(bào)，那么DeepEP就等于裝上了語(yǔ)音電話(huà)，不僅讓兩個(gè)專(zhuān)家可以即時(shí)交流，還能邊交流邊思考。

官方發(fā)布的基準(zhǔn)測(cè)試?yán)�，�?jīng)過(guò)優(yōu)化后的帶寬通信利用率高達(dá)92%，是英偉達(dá)官方解決方案的3倍，而通信時(shí)延也從毫秒級(jí)降到了微秒級(jí)，同時(shí)支持FP8低精度運(yùn)算。可以說(shuō)，這就是DeepSeek為了強(qiáng)化MoE模型的訓(xùn)練和推理，而專(zhuān)門(mén)定制的一套方案。

但是這玩意的離譜之處就在于，DeepEP實(shí)際上可以適配H系列的各種GPU內(nèi)核，并且提供了一鍵部署方案，只是還需要大家在此基礎(chǔ)上做進(jìn)一步適配優(yōu)化來(lái)達(dá)到最佳效果。這項(xiàng)技術(shù)的開(kāi)源，可以說(shuō)直接給MoE模型的訓(xùn)練提供了一個(gè)很好的優(yōu)化思路，并且已經(jīng)在實(shí)際使用中得到了充分驗(yàn)證。

3、DeepGEMM：壓箱底的“寶貝”。

微信截圖_20250226185406.png

圖源：雷科技

DeepGEMM是一個(gè)專(zhuān)為簡(jiǎn)潔高效的 FP8 通用矩陣乘法（GEMM）設(shè)計(jì)的庫(kù)，具有細(xì)粒度縮放功能，支持普通和混合專(zhuān)家（MoE）分組的 GEMM。以上是官方解釋?zhuān)话阕x者可能看不懂，不過(guò)沒(méi)關(guān)系，因?yàn)榇蠖鄶?shù)人都是一樣的，咳咳。

簡(jiǎn)單的講，這就是一個(gè)教你如何在FP8精度下訓(xùn)練AI大模型，同時(shí)還保證AI大模型的訓(xùn)練不會(huì)出問(wèn)題的玩意。什么是“精度”？直觀解釋就是數(shù)據(jù)的準(zhǔn)確性，舉個(gè)例子，“小明的身高是1米7”這就是FP8，“小明的身高是1米72”這就是FP16，精度越高所含的數(shù)據(jù)就越精準(zhǔn)，在AI大模型訓(xùn)練中就可以得出更準(zhǔn)確的結(jié)果。

但是高精度也會(huì)帶來(lái)問(wèn)題，那就是數(shù)據(jù)包本身會(huì)占用更大的算力資源，F(xiàn)P16的內(nèi)存占用幾乎是FP8的兩倍，而且還會(huì)因此影響到傳輸速度等各方面的效率。所以實(shí)際訓(xùn)練中FP16的效率是遠(yuǎn)不如FP8的，只不過(guò)FP8一直也存在嚴(yán)重各種問(wèn)題，以至于在公開(kāi)范圍內(nèi)，還沒(méi)有哪個(gè)AI大模型是以FP8精度完成訓(xùn)練的。

而DeepSeek此前公布訓(xùn)練成本時(shí)，其實(shí)就已經(jīng)指出高效的背后與FP8精度訓(xùn)練脫不開(kāi)關(guān)系，其中的關(guān)鍵就是DeepGEMM。該代碼庫(kù)用一種雙重驗(yàn)證+智能糾錯(cuò)的方式，讓FP8在實(shí)際訓(xùn)練中也能夠擁有媲美高精度訓(xùn)練的準(zhǔn)確率，并且解決了溢出等各種問(wèn)題。

當(dāng)然DeepGEMM的作用不止于此，不過(guò)這是最核心的應(yīng)用之一（更詳細(xì)的解讀大家可以去看看知乎大佬們的解答）。你可以認(rèn)為DeepSeek這波就是把真正的壓箱底玩意拿出來(lái)分享了，大家可以根據(jù)DeepGEMM的思路，將AI大模型的訓(xùn)練成本大幅度降低，并且提高整個(gè)AI大模型的運(yùn)行效率。

DeepGEMM的整個(gè)執(zhí)行代碼只有約300行，堪稱(chēng)極致的精簡(jiǎn)和效率，以至于有外國(guó)網(wǎng)民評(píng)價(jià)：這是一份可以直接入選教科書(shū)的代碼，讓我重新領(lǐng)略到了代碼的美。

DeepSeek啟示錄：與其重復(fù)造輪子，不如推廣「好用的輪子」

不得不說(shuō)，DeepSeek真的是將開(kāi)源精神貫徹到極致。從DeepSeek-R1及相關(guān)算法的完全開(kāi)源，到開(kāi)源周的壓箱底技術(shù)大放送，幾乎都采用MIT或類(lèi)MIT的開(kāi)源協(xié)議，所有人都可以自由地使用、復(fù)制、修改、合并、發(fā)布、分發(fā)、再許可及銷(xiāo)售軟件及軟件的副本，不受任何制約，而且不強(qiáng)制要求使用開(kāi)源庫(kù)的項(xiàng)目進(jìn)行開(kāi)源。

從商業(yè)公司的角度來(lái)看DeepSeek的做法簡(jiǎn)直匪夷所思，因?yàn)镈eepSeek本可以借助這些技術(shù)優(yōu)勢(shì)來(lái)獲取更大的利潤(rùn)，但是卻選擇了完全開(kāi)源，以此換取整個(gè)AI行業(yè)的躍升。這個(gè)形容并不夸張，畢竟從DeepSeek開(kāi)源的一系列技術(shù)來(lái)看，AI模型的推理成本有望在今年降低50%甚至更多，而且在實(shí)時(shí)交互等方面都將有顯著的體驗(yàn)提升。

而且，DeepSeek的開(kāi)源做法也使得更多的AI企業(yè)開(kāi)始考慮加入開(kāi)源陣營(yíng)，從根本上促進(jìn)了整個(gè)AI行業(yè)的交流與學(xué)習(xí)，讓AI企業(yè)從“重復(fù)造輪子”的閉源困境中解脫，從這個(gè)角度來(lái)看，稱(chēng)DeepSeek的開(kāi)源為AI發(fā)展史上的重要節(jié)點(diǎn)也毫不為過(guò)。

雖然DeepSeek的大多創(chuàng)新都是在已有的概念上，進(jìn)行極致「工業(yè)化」的成果。但是就像英國(guó)鐵匠托馬斯制造了第一臺(tái)真正實(shí)用的蒸汽機(jī)，但是卻只能用來(lái)抽礦井積水，而詹姆斯·瓦特則將其變得更具效率且更通用，最終為工業(yè)革命徹底奠定了基礎(chǔ)。

DeepSeek的開(kāi)源就像把自己的「通用技術(shù)」拿了出來(lái)，讓大家都能用上了「通用蒸汽機(jī)」，在DeepSeek的影響下，AI的普及將比預(yù)料的更快。對(duì)于普通人來(lái)說(shuō)，DeepSeek的最大意義在于讓我們不用再忍受低質(zhì)量的AI模型困擾。而對(duì)于AI行業(yè)來(lái)說(shuō)，他的意義在于從根本上改變了整個(gè)行業(yè)的動(dòng)向，讓開(kāi)源變得更受重視，讓強(qiáng)化學(xué)習(xí)機(jī)制的潛力得到進(jìn)一步認(rèn)可。

最后，文章開(kāi)頭的問(wèn)題答案其實(shí)很簡(jiǎn)單，DeepSeek的創(chuàng)新總結(jié)起來(lái)無(wú)非就三點(diǎn)：更高效、更自主（指AI訓(xùn)練）和更開(kāi)放。

來(lái)源：雷科技

原文標(biāo)題 : 小白讀懂DeepSeek：從MoE到MLA，國(guó)產(chǎn)AI改變世界

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶(hù)名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频