訂閱
糾錯
加入自媒體

DeepSeek到底用了多少GPU?

各位小伙伴們大家好呀

在中國春節(jié)期間DeepSeek靠著超低價格迅速出圈,掀起了一場全球AI大模型風(fēng)暴。這直接改變了以前大家普遍認(rèn)為的發(fā)展AI就要不斷地堆算力、堆GPU的“傳統(tǒng)”觀念。

但很多網(wǎng)友會有一個疑問:訓(xùn)練出DeepSeek,需要多少GPU呢?

關(guān)于這個問題,網(wǎng)上也是說法不一,甚至連“美國鋼鐵俠”馬斯克也在瘋狂質(zhì)疑DeepSeek:不信只用了極少的芯片。

那么DeepSeek到底用了多少GPU呢?最近國外網(wǎng)站SemiAnalysis對這一話題進(jìn)行了分析,我個人覺得相對比較符合事實,我們今天拿過來一起來討論一下。

▉ DeepSeek與幻方

對于密切關(guān)注AI大模型領(lǐng)域的人來說,DeepSeek嚴(yán)格意義上其實并不算一家新公司。

DeepSeek創(chuàng)始人梁文鋒1985年出生于廣東省湛江市,2015年梁文鋒與朋友一同創(chuàng)辦了幻方量化(High-Flyer),是最早在交易算法中使用人工智能的機構(gòu)之一。

他們很早就意識到AI人工智能在金融以外領(lǐng)域的潛力,以及擴展的重要性。因此,他們不斷擴充其GPU的供應(yīng)。在2021年出口限制之前,High-Flyer就投資了1萬個A100 GPU,這一舉措獲得了豐厚回報。

隨著High-Flyer的不斷進(jìn)步,2023年5月他們意識到是時候分拆出“DeepSeek”,以更專注地追求進(jìn)一步的人工智能能力。由于當(dāng)時外部投資者對人工智能興趣不大,主要擔(dān)心缺乏商業(yè)模式,High-Flyer自行投資了這家公司,這在現(xiàn)在看來是多個明智的一項投資。

由于這層關(guān)系,如今High-Flyer和DeepSeek經(jīng)常共享人力和計算資源。

DeepSeek如今已經(jīng)發(fā)展成為一個嚴(yán)肅且有組織的努力方向,絕非許多媒體所聲稱的“副業(yè)”。SemiAnalysis認(rèn)為,即使考慮到出口管制,他們在GPU上的投資也已超過5億美元。

▉ DeepSeek的GPU資源分布

SemiAnalysis預(yù)估,DeepSeek使用大約5萬個Hopper GPU來做訓(xùn)練,當(dāng)然正如一些人所聲稱的那樣,這并不等同于5萬個H100。英偉達(dá)根據(jù)不同法規(guī)制造了H100的不同版本(H800、H20),目前只有H20可供中國的模型供應(yīng)商使用。

需要注意的是,H800的計算能力與H100相同,但網(wǎng)絡(luò)帶寬較低。

SemiAnalysis認(rèn)為DeepSeek使用了大約1萬個H800和大約1萬個H100。此外,他們還訂購了更多的H20,英偉達(dá)在過去9個月中已經(jīng)生產(chǎn)了超過100萬個專為中國設(shè)計的GPU。這些GPU在High-Flyer和DeepSeek之間共享,并在一定程度上地理分散部署,用于交易、推理、訓(xùn)練和研究。

通過分析顯示,DeepSeek的服務(wù)器總資本支出約為16億美元,其中與運營這些集群相關(guān)的成本相當(dāng)可觀,達(dá)到9.44億美元。

同樣,所有AI實驗室和超大規(guī)模云服務(wù)提供商都有更多的GPU用于各種任務(wù),包括研究和訓(xùn)練,而不是僅用于單次訓(xùn)練運行,如何有效集中資源進(jìn)行特定任務(wù)的訓(xùn)練也是DeepSeek的挑戰(zhàn)之一。

在人才方面,DeepSeek專注從中國招聘人才,并不考慮之前的資歷,重點放在能力和好奇心上。據(jù)了解,DeepSeek定期在北大和浙大等頂尖大學(xué)舉辦招聘會,許多員工都畢業(yè)于這些學(xué)校。職位并不一定預(yù)先定義,招聘人員被賦予靈活性,甚至在招聘廣告中吹噓可以無限制地使用數(shù)萬個GPU。

DeepSeek極具競爭力,據(jù)稱為有前途的候選人提供超過130萬美元的薪水,遠(yuǎn)高于同為中國的競爭對手,如Moonshot。DeepSeek目前有大約150名員工,但正在迅速增長。

正如歷史所證明的那樣,一個資金充足且專注的小型初創(chuàng)公司往往能夠突破可能的邊界。DeepSeek沒有像谷歌那樣的官僚機構(gòu),并且由于是自籌資金,他們可以迅速推進(jìn)想法。然而,與谷歌一樣,DeepSeek(在大多數(shù)情況下)自行運營數(shù)據(jù)中心,不依賴外部方或提供商。這為實驗開辟了更多空間,使他們能夠在整個堆棧中進(jìn)行創(chuàng)新。

SemiAnalysis認(rèn)為DeepSeek是當(dāng)今最好的“開放靈活”實驗室,超過了Meta的Llama項目、Mistral等。

▉ DeepSeek的訓(xùn)練成本和性能

近期,一個新聞頭條中提到DeepSeek的價格和效率引發(fā)了全球的熱潮,標(biāo)題是DeepSeek V3的訓(xùn)練成本只有“600萬美元”,這是錯誤的。這就好比指出產(chǎn)品材料清單中的一個特定部分,并將其視為全部成本。預(yù)訓(xùn)練成本只是總成本中非常狹窄的一部分。

下面我們來看下DeepSeek整體的訓(xùn)練成本

我們相信預(yù)訓(xùn)練的成本遠(yuǎn)遠(yuǎn)不是模型實際花費的金額。

SemiAnalysis認(rèn)為DeepSeek在公司歷史上對硬件的支出遠(yuǎn)遠(yuǎn)超過5億美元。在模型開發(fā)過程中,為了開發(fā)新的架構(gòu)創(chuàng)新,需要在測試新想法、新的架構(gòu)想法和消融研究上花費相當(dāng)多的資金。

比如多頭潛在注意力(Multi-Head Latent Attention)是DeepSeek的一個關(guān)鍵創(chuàng)新,它的開發(fā)花費了團隊幾個月的時間開發(fā),涉及了大量的人力和GPU資源。

文章中提到的600萬美元成本僅歸因于預(yù)訓(xùn)練運行的GPU成本,這只是模型總成本的一部分。被排除在外的還有像研發(fā)和硬件本身的總擁有成本(TCO)這樣重要的部分。

作為參考,Claude 3.5 Sonnet的訓(xùn)練成本為數(shù)千萬美元,如果這就是Anthropic所需的全部成本,那么他們就不會從谷歌籌集數(shù)十億美元,從亞馬遜籌集數(shù)百億美元了。這是因為他們需要進(jìn)行實驗、提出新的架構(gòu)、收集和清理數(shù)據(jù)、支付員工工資等。

那么DeepSeek是如何擁有如此龐大的集群的呢?出口管制的滯后是關(guān)鍵,此外,他們還訂購了大量的H20型號GPU,這是專門為滿足中國市場的需求而生產(chǎn)的。

下面我們來看下V3的性能

V3無疑是一個令人印象深刻的模型,但值得注意的是,它相對于什么來說是令人印象深刻的。許多人將V3與GPT-4o進(jìn)行比較,并強調(diào)V3的性能超過了4o。這是事實,但GPT-4o是在2024年5月發(fā)布的。而在AI領(lǐng)域,這段時間已經(jīng)帶來了顯著的算法進(jìn)步。

隨著時間的推移,使用較少的計算資源實現(xiàn)相同或更強的能力是正常的。例如,現(xiàn)在可以在筆記本電腦上運行的小型模型,其性能與GPT-3相當(dāng),而GPT-3的訓(xùn)練需要超級計算機,并且推理需要多個GPU。

換句話說,算法改進(jìn)使得訓(xùn)練和推理相同能力模型所需的計算量減少,這種模式一次又一次地出現(xiàn)。這一次,世界之所以注意到,是因為它來自中國的實驗室。但小型模型性能提升并不是什么新鮮事。

到目前為止,我們見證的這種模式表明,人工智能實驗室在絕對美元支出上花費更多,以換取更高的性價比。據(jù)估計,算法進(jìn)步的速度為每年4倍,這意味著每過一年,實現(xiàn)相同能力所需的計算量就會減少到原來的1/4。

Anthropic的首席執(zhí)行官Dario認(rèn)為,算法的進(jìn)步速度甚至更快,可以帶來10倍的提升。就GPT-3級別的推理定價而言,成本已經(jīng)降低了1200倍。

在研究GPT-4的成本時,我們看到了類似的成本下降趨勢,盡管這處于曲線的更早期階段。盡管隨著時間推移成本差異的減少可以通過不再保持能力恒定來解釋,但在這種情況下,我們看到算法改進(jìn)和優(yōu)化帶來了成本的10倍降低和能力的10倍提升。

需要明確的是,DeepSeek的獨特之處在于他們率先實現(xiàn)了這一成本和能力水平。他們在發(fā)布開源權(quán)重方面也是獨一無二的,但之前的Mistral和Llama模型也曾這樣做過。DeepSeek已經(jīng)實現(xiàn)了這一成本水平,但到今年年底,不要對成本再下降5倍感到驚訝。

R1的性能是否與o1相當(dāng)?

另一方面,R1能夠達(dá)到與o1相當(dāng)?shù)慕Y(jié)果,而o1是在9月才剛剛宣布的。DeepSeek是如何如此迅速地迎頭趕上的呢?

答案在于推理是一個新的范式,它具有更快的迭代速度和更低的入門門檻,能夠在較小的計算量下取得有意義的收益,這比之前的范式更有優(yōu)勢。正如在擴展定律報告中所概述的那樣,之前的范式依賴于預(yù)訓(xùn)練,而這正變得越來越昂貴,也越來越難以取得穩(wěn)健的收益。

這個新的范式專注于通過在現(xiàn)有模型上進(jìn)行后訓(xùn)練的合成數(shù)據(jù)生成和強化學(xué)習(xí)(RL)來實現(xiàn)推理能力,這使得人們能夠以更低的價格更快地取得進(jìn)步。較低的入門門檻加上易于優(yōu)化的特點,使得DeepSeek能夠比以往更快地復(fù)制o1的方法。隨著參與者逐漸學(xué)會在這個新范式中實現(xiàn)更大規(guī)模的擴展,預(yù)計匹配能力的時間差距將會增加。

需要注意的是,R1的論文中沒有提及所使用的計算量。這并非偶然——為了進(jìn)行R1的后訓(xùn)練,生成合成數(shù)據(jù)需要大量的計算,更不用說強化學(xué)習(xí)了。R1是一個非常好的模型,我們并不否認(rèn)這一點,如此迅速地達(dá)到推理能力的前沿是令人欽佩的。DeepSeek作為中國的公司,而且用更少的資源就迎頭趕上了,這更令人印象深刻。

但是R1提到的一些基準(zhǔn)測試也是具有誤導(dǎo)性的。將R1與o1進(jìn)行比較是很棘手的,因為R1故意沒有提及他們沒有領(lǐng)先的基準(zhǔn)測試。而且盡管R1在推理性能上與o1相當(dāng),但在許多情況下,它并不是每個指標(biāo)的明確贏家,而且在許多情況下,它比o1更差。

我們還沒有提到O3。O3的能力比R1和O1都要高出很多。事實上,OpenAI最近分享了O3的結(jié)果,其基準(zhǔn)測試的提升是垂直的。“深度學(xué)習(xí)撞墻了”,但這是另一種類型的“墻”。

谷歌的推理模型與R1相當(dāng)?

盡管R1引發(fā)了大量炒作,但一家市值2.5萬億美元的公司早在一個月前就發(fā)布了一個更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。該模型已經(jīng)可以使用,并且比R1便宜得多,盡管它的模型上下文長度通過API要大得多。

在報告的基準(zhǔn)測試中,F(xiàn)lash 2.0 Thinking擊敗了R1,盡管基準(zhǔn)測試并不能說明全部情況。谷歌只發(fā)布了3個基準(zhǔn)測試,因此這是一個不完整的畫面。盡管如此,我們認(rèn)為谷歌的模型是穩(wěn)健的,在許多方面都能與R1抗衡,盡管它沒有受到任何炒作。這可能是因為谷歌糟糕的上市策略和用戶體驗不佳,但也因為R1是一個來自中國的驚喜。

明確地說,這些都不會削弱DeepSeek的杰出成就。DeepSeek作為一個快速行動、資金充足、聰明且專注的初創(chuàng)公司,能夠擊敗像Meta這樣的巨頭發(fā)布推理模型,這是值得稱贊的。

▉ DeepSeek技術(shù)創(chuàng)新

DeepSeek破解了AI大模型密碼,解鎖了領(lǐng)先實驗室尚未實現(xiàn)的創(chuàng)新。SemiAnalysis預(yù)計,DeepSeek發(fā)布的任何改進(jìn)都將被西方實驗室?guī)缀趿⒓磸?fù)制。

這些改進(jìn)是什么?大多數(shù)架構(gòu)成就都與V3有關(guān),V3是R1的基礎(chǔ)模型。讓我們詳細(xì)說明這些創(chuàng)新。

訓(xùn)練方面(預(yù)訓(xùn)練和微調(diào))

DeepSeek V3在前所未有的規(guī)模上使用了多標(biāo)記預(yù)測(MTP),并且增加了注意力模塊,這些模塊預(yù)測接下來的幾個標(biāo)記,而不是單一標(biāo)記。這在訓(xùn)練期間提高了模型性能,并且可以在推理時丟棄。這是一個算法創(chuàng)新的例子,它實現(xiàn)了在較低計算量的情況下提高性能。

還有其他考慮因素,比如在訓(xùn)練中使用FP8精度,但領(lǐng)先的美國實驗室已經(jīng)進(jìn)行了很長時間的FP8訓(xùn)練。

DeepSeek V3也是一種混合專家模型,這是一個由許多其他較小的專家組成的大型模型,這些專家擅長不同的事情,這是一種新興行為;旌蠈<夷P兔媾R的一個挑戰(zhàn)是如何確定哪個標(biāo)記應(yīng)該分配給哪個子模型或“專家”。

圖片

DeepSeek實現(xiàn)了一個“門控網(wǎng)絡(luò)”,以平衡的方式將標(biāo)記派發(fā)到正確的專家,而不會降低模型性能。這意味著派發(fā)非常高效,并且在訓(xùn)練期間,相對于模型的整體大小,每個標(biāo)記只改變少量參數(shù)。這增加了訓(xùn)練效率,并降低了推理的成本。

盡管有人擔(dān)心混合專家(MoE)的效率提升可能會減少投資,但Dario指出,更強大的人工智能模型帶來的經(jīng)濟效益如此巨大,以至于任何成本節(jié)約都會迅速重新投入到構(gòu)建更大模型中。與其減少整體投資,混合專家的效率提升將加速人工智能的擴展努力。公司專注于將模型擴展到更多的計算資源,并在算法上提高它們的效率。

就R1而言,它從擁有一個強大的基礎(chǔ)模型(V3)中受益匪淺。這在一定程度上是因為強化學(xué)習(xí)(RL)。強化學(xué)習(xí)有兩個重點:格式化(以確保其提供連貫的輸出)和有用性與無害性(以確保模型是有用的)。推理能力是在模型在合成數(shù)據(jù)集上進(jìn)行微調(diào)時出現(xiàn)的。

需要注意的是,在R1論文中沒有提到計算量,這是因為提到使用的計算量會顯示他們擁有的GPU比他們聲稱的要多。這種規(guī)模的強化學(xué)習(xí)需要大量的計算,尤其是用于生成合成數(shù)據(jù)。

此外,DeepSeek使用的一部分?jǐn)?shù)據(jù)似乎來自O(shè)penAI的模型,SemiAnalysis認(rèn)為這將對從輸出中提取信息的政策產(chǎn)生影響。這在服務(wù)條款中已經(jīng)是非法的,但展望未來,一種新的趨勢可能是某種形式的KYC(了解你的客戶),以阻止提取信息。

說到提取信息,R1論文中最有趣的部分或許是能夠通過用推理模型的輸出對較小的非推理模型進(jìn)行微調(diào),從而將它們變成推理模型。數(shù)據(jù)集策劃總共包含了80萬個樣本,現(xiàn)在任何人都可以使用R1的CoT輸出來創(chuàng)建自己的數(shù)據(jù)集,并借助這些輸出制作推理模型。我們可能會看到更多較小的模型展示推理能力,從而提升小模型的性能。

多頭潛在注意力(MLA)

MLA是DeepSeek大幅降低推理成本的關(guān)鍵創(chuàng)新之一。原因是MLA將每個查詢所需的KV緩存減少了約93.3%,與標(biāo)準(zhǔn)注意力相比。KV緩存是Transformer模型中的一種內(nèi)存機制,用于存儲代表對話上下文的數(shù)據(jù),減少不必要的計算。

圖片

隨著對話上下文的增長,KV緩存也會增加,并且會帶來相當(dāng)大的內(nèi)存限制。大幅減少每個查詢所需的KV緩存可以減少每個查詢所需的硬件數(shù)量,從而降低成本。

然而,SemiAnalysis認(rèn)為DeepSeek正在以成本價提供推理服務(wù)以獲得市場份額,而不是真正賺錢。谷歌的Gemini Flash 2.0 Thinking仍然更便宜,而且谷歌不太可能以成本價提供該服務(wù)。MLA特別引起了眾多領(lǐng)先美國實驗室的關(guān)注。MLA于2024年5月發(fā)布的DeepSeek V2中推出。由于H20的內(nèi)存帶寬和容量比H100更高,DeepSeek在推理工作負(fù)載方面也享受了更多效率。

關(guān)注DeepSeek的創(chuàng)新的內(nèi)容詳解可以查看我上一篇文章一文搞懂DeepSeek創(chuàng)新了些啥?

目前來說,DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過使用智能工作負(fù)載分配、量化和動態(tài) GPU 分配,業(yè)務(wù)可以顯著降低計算成本,同時保持高性能。這也是DeepSeek被稱作"國運級"產(chǎn)品的重要原因吧。

       原文標(biāo)題 : DeepSeek到底用了多少GPU?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號