今年355萬片等效H100,流向五大AI龍頭
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自lesswrong
2024年五大AI巨頭,擁有多少片英偉達(dá)GPU?
人工智能基礎(chǔ)設(shè)施的數(shù)據(jù)難以精確獲取。諸多報(bào)道中會(huì)出現(xiàn)諸如 “某公司本季度在基礎(chǔ)設(shè)施上花費(fèi)了 Xbn”“某公司購買了 10 萬臺(tái) H100” 或者 “擁有 10 萬臺(tái) H100 集群” 這類信息,但當(dāng)筆者試圖估算某家公司能夠使用的計(jì)算資源時(shí),卻無法找到統(tǒng)一的數(shù)據(jù)。
在此,筆者試圖從各類來源搜集信息,來大致估算以下兩點(diǎn):其一,截至 2024 年,預(yù)計(jì)各方會(huì)擁有多少計(jì)算能力?其二,預(yù)計(jì) 2025 年會(huì)有哪些變化?之后,筆者將簡(jiǎn)要闡述這對(duì)主要前沿實(shí)驗(yàn)室的培訓(xùn)計(jì)算可用性的意義。在討論該問題之前,筆者想先說明幾點(diǎn)注意事項(xiàng)。
這些數(shù)字是筆者在有限時(shí)間內(nèi)依據(jù)公開數(shù)據(jù)估算得出的,可能存在誤差,也可能遺漏了一些重要信息。
付費(fèi)供應(yīng)商很可能有更精準(zhǔn)的估算,他們能夠花費(fèi)更多時(shí)間去詳細(xì)分析諸如晶圓廠的數(shù)量、各晶圓廠的生產(chǎn)內(nèi)容、數(shù)據(jù)中心的位置、每個(gè)數(shù)據(jù)中心的芯片數(shù)量等諸多細(xì)節(jié),并得出精確得多的數(shù)字。若讀者需要非常精確的估算,筆者建議向幾家供應(yīng)商中的一家購買相關(guān)數(shù)據(jù)。
英偉達(dá)芯片生產(chǎn)
首先要從最重要的數(shù)據(jù)中心 GPU 生產(chǎn)商 Nvidia 開始。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度財(cái)報(bào)之后,預(yù)計(jì)Nvidia 該財(cái)年數(shù)據(jù)中心收入約為 1100 億美元。這比 2023 年的 420 億美元有所增長,預(yù)計(jì) 2025 年將達(dá)到 1730 億美元(基于 2026 財(cái)年 1770 億美元的估計(jì))。
數(shù)據(jù)中心的收入絕大部分來自芯片銷售。2025 年的芯片銷售額預(yù)計(jì)為 650-700 萬 GPU,幾乎全部是 Hopper 和 Blackwell 型號(hào)。根據(jù) CoWoS-S 和 CoWoS-L 制造工藝的預(yù)期比例以及 Blackwell 的預(yù)期量產(chǎn)速度,筆者估計(jì) Hopper 和 Blackwell 型號(hào)分別為 200 萬和 500 萬。
2024 年產(chǎn)量
有關(guān) 2024 年生產(chǎn)數(shù)字的資料來源很少,而且經(jīng)常相互矛盾,但 2024 年第四季度的 Hopper GPU 產(chǎn)量估計(jì)為 150 萬個(gè)(盡管其中包括一些 H20 芯片,因此這只是一個(gè)上限),而且各季度的數(shù)據(jù)中心收入比率表明,產(chǎn)量上限為 500 萬個(gè)(這將假定每個(gè) H100 同等產(chǎn)品的收入約為 2 萬美元)。
這與今年早些時(shí)候估計(jì)的 150 萬到 200 萬臺(tái) H100 的產(chǎn)量相沖突--這種差異是否可以合理地歸因于 H100 與 H200、擴(kuò)容或其他因素尚不清楚,但由于這與他們的收入數(shù)字不一致,筆者選擇使用較高的數(shù)字。
此前的產(chǎn)量
為了評(píng)估目前以及未來誰擁有最多的計(jì)算資源,2023年之前的數(shù)據(jù)對(duì)整體格局的影響有限。這主要是因?yàn)镚PU性能本身的提升,以及從英偉達(dá)的銷售數(shù)據(jù)來看,產(chǎn)量已經(jīng)實(shí)現(xiàn)了大幅增長。根據(jù)估算,微軟和Meta在2023年各自獲得了約15萬塊H100 GPU。結(jié)合英偉達(dá)的數(shù)據(jù)中心收入,2023年H100及同等級(jí)產(chǎn)品的總產(chǎn)量很可能在100萬塊左右。
GPU/TPU 按組織計(jì)數(shù)
筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當(dāng)量表示的芯片,以及 2025 年的相關(guān)數(shù)量。
許多消息源稱 “英偉達(dá) 46% 的收入來自 4 個(gè)客戶”,不過這可能存在誤導(dǎo)性。查閱英偉達(dá)的 10 - Q 和 10 - K 可以發(fā)現(xiàn),他們區(qū)分了直接客戶和間接客戶,46% 這個(gè)數(shù)字指的是直接客戶。然而,直接客戶大多是中間商,比如 SMC、HPE 和戴爾,他們購買 GPU 并組裝服務(wù)器供間接客戶使用,這些間接客戶包括公共云提供商、消費(fèi)互聯(lián)網(wǎng)公司、企業(yè)、公共部門和初創(chuàng)公司,而筆者所關(guān)注的公司屬于 “間接客戶” 這一范疇。
關(guān)于間接客戶的信息披露相對(duì)寬松,可能也不太可靠。在 2024 財(cái)年(約 2023 年,文中所討論的情況),英偉達(dá)的年報(bào)披露,“一個(gè)主要通過系統(tǒng)集成商和分銷商購買我們產(chǎn)品的間接客戶估計(jì)占總收入的約 19%”。按照規(guī)定,他們需要披露收入份額超過 10% 的客戶信息。所以,要么他們的第二個(gè)客戶最多只有第一個(gè)客戶規(guī)模的一半,要么存在測(cè)量誤差。這個(gè)最大的客戶可能是微軟,有零星信息披露稱,每季度有第二個(gè)客戶的數(shù)量曾短暫超過 10%,但這種情況不具有連貫性,而且不包括 2023 年全年或 2024 年前 3 個(gè)季度的情況。
估計(jì) 2024 年底 H100 等效芯片數(shù)量
微軟,Meta
筆者考慮到微軟身為最大的公有云之一,是 OpenAI 的主要計(jì)算提供商,自身沒有像谷歌、可能還有亞馬遜那樣大規(guī)模的定制芯片安裝基礎(chǔ),并且與英偉達(dá)似乎存在相對(duì)于同行的特殊關(guān)系(例如,他們顯然率先獲得了 Blackwell 芯片),所以推測(cè)這兩個(gè)最大的客戶極有可能都是微軟。英偉達(dá)在 2024 年的收入份額不像 2023 年那般精確,其在第二季度和第三季度提及 H1 收入的 13%,而第三季度僅 “超過 10%”,不過 13% 可作為一個(gè)合理的估計(jì),這表明微軟在英偉達(dá)銷售中的份額相較 2023 年有所降低。
另有一些對(duì)客戶規(guī)模的估計(jì),數(shù)據(jù)顯示,微軟占英偉達(dá)收入的 15%,其次是 Meta Platforms 占 13%,亞馬遜占 6%,谷歌占約 6%,但從消息來源難以確定這些數(shù)據(jù)對(duì)應(yīng)的年份。截至 2023 年底,有關(guān)這些云提供商擁有 H100 芯片數(shù)量的報(bào)告(Meta 和微軟為 15 萬片,亞馬遜、谷歌和甲骨文各為 5 萬片)與上文的數(shù)據(jù)更為契合。
這里有一個(gè)關(guān)鍵的數(shù)據(jù)點(diǎn),即 Meta 宣稱到 2024 年底 Meta 將擁有 60 萬 H100 當(dāng)量的計(jì)算能力。據(jù)說其中包含 35 萬 H100,其余大部分似乎將是 H200 和上個(gè)季度到貨的少量 Blackwell 芯片。
倘若我們將這 60 萬視為準(zhǔn)確數(shù)據(jù),并依據(jù)收入數(shù)字的比例,便能更好地估算微軟的可用計(jì)算量比這高出 25% 至 50%,即 75 萬至 90 萬 H100 等效值。
谷歌,亞馬遜
筆者注意到,亞馬遜和谷歌向來被視作在對(duì)英偉達(dá)收入的貢獻(xiàn)方面處于較為靠后的位置。不過,二者的情況實(shí)則全然不同。
谷歌早已擁有大量自定義的 TPU,而這 TPU 正是其內(nèi)部工作負(fù)載所倚重的主要芯片。至于亞馬遜,其內(nèi)部 AI 工作負(fù)載看上去很可能要比谷歌小得多,并且亞馬遜所擁有的數(shù)量相當(dāng)?shù)挠ミ_(dá)芯片,主要是為了通過云平臺(tái)來滿足外部 GPU 的需求,其中最為顯著的當(dāng)屬來自 Anthropic 的需求。
下面先來看谷歌的情況。如前文所述,TPU 是其用于內(nèi)部工作負(fù)載的主要芯片。提供該領(lǐng)域數(shù)據(jù)的領(lǐng)先訂閱服務(wù) Semianalysis 在 2023 年底曾宣稱:“谷歌是唯一一家擁有強(qiáng)大內(nèi)部芯片的公司”,“谷歌具備近乎無與倫比的能力,能夠以低成本和高性能可靠地大規(guī)模部署 AI”,且稱其為 “世界上計(jì)算資源最豐富的公司”。自這些說法問世以來,谷歌在基礎(chǔ)設(shè)施方面的支出一直維持在較高水平。
筆者對(duì) TPU 和 GPU 的支出進(jìn)行了 2 比 1 的估計(jì)(此估計(jì)或許較為保守),即假設(shè)每一美元的 TPU 性能等同于微軟的 GPU 支出,由此得出的數(shù)據(jù)范圍是在 2024 年年底擁有 10 萬 - 150 萬 H100 當(dāng)量。
亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia,但它們起步的時(shí)間相較于谷歌的 TPU 要晚得多,并且在這些芯片的發(fā)展進(jìn)程中似乎落后于前沿水平。亞馬遜甚至推出 1.1 億美元的免費(fèi)積分以吸引人們?cè)囉,這一舉措表明其芯片截至目前尚未呈現(xiàn)出良好的適應(yīng)性。半分析指出:“我們的數(shù)據(jù)顯示,Microsoft 和 Google 在 AI 基礎(chǔ)設(shè)施上的 2024 年支出計(jì)劃將使他們部署的計(jì)算量遠(yuǎn)超過亞馬遜”,并且 “此外,亞馬遜即將推出的內(nèi)部芯片 Athena 和 Trainium2 仍然顯著落后”。
然而,到 2024 年年中,情況或許已有所轉(zhuǎn)變。在 2024 年第三季度財(cái)報(bào)電話會(huì)議上,亞馬遜首席執(zhí)行官安迪?賈西談及 Trainium2 時(shí)表示 “我們察覺到人們對(duì)這些芯片抱有濃厚興趣,我們已多次與制造合作伙伴溝通,產(chǎn)量遠(yuǎn)超最初計(jì)劃”。但由于當(dāng)時(shí)他們 “在接下來的幾周內(nèi)才開始增產(chǎn)”,所以在 2024 年其芯片似乎不太可能有大規(guī)模的供應(yīng)。
XAI
筆者在此要介紹的最后一位重要參與者便是 XAI。該機(jī)構(gòu)發(fā)展極為迅速,在相關(guān)領(lǐng)域坐擁一些規(guī)模最大的集群,且有著宏大的發(fā)展計(jì)劃。其在 2024 年底對(duì)外透露了一個(gè)正在運(yùn)行的、擁有 10 萬臺(tái) H100 的集群,不過就目前來看,似乎在為該站點(diǎn)提供充足電力方面存在一定的問題。
2025年Blackwell芯片預(yù)測(cè)
筆者注意到《2024 年人工智能狀態(tài)報(bào)告》對(duì)主要供應(yīng)商的 Blackwell 購買量有所估計(jì),其提到 “大型云公司正在大量購買這些 GB200 系統(tǒng):微軟在 70 萬 - 140 萬之間,谷歌在 40 萬以及 AWS 在 36 萬之間。有傳言說 OpenAI 至少有 40 萬 GB200”。由于這些數(shù)字是芯片的總數(shù),所以存在重復(fù)計(jì)算 2024 年 Blackwell 購買量的風(fēng)險(xiǎn),故而筆者打了 15% 的折扣。
若依據(jù)微軟的估計(jì),谷歌和 AWS 購買英偉達(dá)的數(shù)量約為 100 萬臺(tái),這與它們相對(duì)于微軟的典型比例相符。這也會(huì)使微軟占英偉達(dá)總收入的 12%,此情況與其在英偉達(dá)收入中的份額于 2024 年的小幅下降態(tài)勢(shì)相一致。
在這份報(bào)告里,Meta 未被給出任何估計(jì),但 Meta 預(yù)計(jì)明年人工智能相關(guān)基礎(chǔ)設(shè)施支出將 “顯著加速”,這意味著其在英偉達(dá)支出中的份額將維持在高位。筆者假定到 2025 年,Meta 的支出約為微軟的 80%。
對(duì)于 XAI 而言,其在這些芯片的相關(guān)內(nèi)容中未被提及,不過埃隆?馬斯克宣稱他們將于 2025 年夏天擁有一個(gè) 30 萬的 Blackwell 集群。考慮到馬斯克有時(shí)會(huì)有夸張言論的情況,XAI 似乎有可能在 2025 年底擁有 20 萬至 40 萬這樣的芯片。
一架 B200 的 H100 值多少呢?為衡量產(chǎn)能增長,這是一個(gè)關(guān)鍵問題。訓(xùn)練和推理所引用的數(shù)字不同,就訓(xùn)練而言,當(dāng)前(2024 年 11 月)的最佳估計(jì)值是 2.2 倍。
對(duì)于谷歌,筆者假定英偉達(dá)芯片繼續(xù)占其總邊際計(jì)算的 1/3。對(duì)于亞馬遜,筆者假定為 75%。這些數(shù)字存在較大不確定性,估計(jì)數(shù)對(duì)其較為敏感。
值得留意的是,仍然有諸多 H100 和 GB200 未被記錄,且可能在其他地方有顯著聚集,尤其是在英偉達(dá) 10% 的報(bào)告門檻之下。像甲骨文等云服務(wù)提供商以及其他較小的云服務(wù)提供商可能持有。
芯片數(shù)量估計(jì)摘要
模型訓(xùn)練注意事項(xiàng)
筆者在此所提及的上述數(shù)字,乃是對(duì)可用計(jì)算總量的估計(jì)情況。不過,想必許多人會(huì)更為關(guān)注用于訓(xùn)練最新前沿模型的那部分計(jì)算量。接下來,筆者將著重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展開介紹。但需說明的是,這一切內(nèi)容都頗具推測(cè)性,畢竟這些公司要么是私營性質(zhì),要么規(guī)模極為龐大,以至于無需對(duì)外披露這方面的成本明細(xì)。就拿谷歌來說,相關(guān)內(nèi)容僅僅只是其業(yè)務(wù)的一小部分罷了。
據(jù)預(yù)計(jì),OpenAI 在 2024 年的培訓(xùn)成本將會(huì)達(dá)到 30 億美元,其推理成本則為 40 億美元。依照一位消息人士的說法,Anthropic“預(yù)計(jì)今年將會(huì)虧損約 20 億美元,營收可達(dá)數(shù)億美元”。這也就意味著,Anthropic 的總計(jì)算成本要比 OpenAI 的 70 億美元多出 20 億美元。由于 Anthropic 的收入主要源自 API,且應(yīng)當(dāng)具備正的毛利率,所以其推理成本將會(huì)大幅降低,由此可推斷出,多出的 20 億美元中的大部分是用于訓(xùn)練的,大概為 15 億美元左右。即便與 OpenAI 相比,Anthropic 在培訓(xùn)成本方面存在兩個(gè)不利因素,但這似乎并未對(duì)其競(jìng)爭(zhēng)力造成妨礙。這種情況看起來確實(shí)很有可能,因?yàn)?Anthropic 的主要云提供商是 AWS,而我們已然了解到,AWS 所擁有的資源通常要比為 OpenAI 提供計(jì)算資源的微軟少。之前提到的《AI 狀態(tài)報(bào)告》中有傳言稱,微軟將會(huì)向 OpenAI 提供 40 萬個(gè) GB 200 芯片,這一數(shù)量將會(huì)超過 AWS 傳聞中的整個(gè) GB 200 容量,所以極有可能使得 OpenAI 的訓(xùn)練能力遠(yuǎn)遠(yuǎn)高于 Anthropic 的訓(xùn)練能力。
筆者發(fā)現(xiàn),谷歌的情況不太明晰。Gemini超 1.0 模型的訓(xùn)練計(jì)算量大約是 GPT - 4 的 2.5 倍,不過在其發(fā)布 9 個(gè)月后,相比最新的 Llama 模型僅多出 25%。正如我們所了解到的,谷歌或許比同行擁有更多的可用計(jì)算能力,然而,由于它既是一個(gè)主要的云提供商,又是一家大企業(yè),所以其自身的需求也更多。谷歌的計(jì)算能力要強(qiáng)于 Anthropic 或 OpenAI,甚至比 Meta 也要強(qiáng),要知道 Meta 也有大量獨(dú)立于前沿模型培訓(xùn)的內(nèi)部工作流程,比如社交媒體產(chǎn)品的推薦算法。Llama 3 在計(jì)算方面比 Gemini 要小,盡管它是在 Gemini 發(fā)布 8 個(gè)月后才推出的,這表明截至目前,Meta 分配給這些模型的資源相較于 OpenAI 或 Google 而言略少一些。
再看 XAI 方面,據(jù)稱其使用了 2 萬個(gè) H100 來訓(xùn)練Grok 2 型,并且預(yù)計(jì)Grok 3 型的訓(xùn)練將會(huì)使用多達(dá) 10 萬個(gè) H100。鑒于 GPT - 4 據(jù)稱是在 25000 個(gè)英偉達(dá) A100 GPU 上訓(xùn)練了 90 - 100 天,而 H100 的性能大約是 A100 的 2.25 倍,如此一來,Grok 2 型的計(jì)算量將達(dá)到 GPT - 4 的兩倍,并且預(yù)計(jì)Grok 3 型的計(jì)算量還會(huì)再增加 5 倍,從而使其接近行業(yè)領(lǐng)先水平。
需要注意的是,XAI 并非所有的計(jì)算資源都來自于他們自己的芯片,據(jù)估計(jì),他們從甲骨文云租用了 16000 個(gè) H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計(jì)算資源合理地部分用于培訓(xùn),筆者猜測(cè)它的培訓(xùn)規(guī)模或許會(huì)與 Anthropic 類似,略低于 OpenAI 和谷歌。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
原文標(biāo)題 : 今年355萬片等效H100,流向五大AI龍頭

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?