小米開源首個7B推理AI大模型!聊聊小米如何通過架構(gòu)創(chuàng)新和獎勵模型等訓(xùn)練策略創(chuàng)新,媲美o1-mini
作者:羰湯羰及 InternLM、Qwen 等 LLM
全文約 4200 字,預(yù)計閱讀 12 分鐘
昨天 ,阿里通義發(fā)布了兩款 MoE 模型和六款 Dense 模型,即便是其小尺寸模型 Qwen3-4B,在數(shù)學(xué)推理和編程上的性能依舊令人驚艷。
然而就在今天早晨,新組建的「小米大模型 Core 團隊」突然開源四款 MiMo-7B 系列模型(包括基礎(chǔ)模型、指令微調(diào)模型和兩款強化學(xué)習(xí)模型),以僅 70 億參數(shù)的“輕量級”身軀,挑戰(zhàn)了傳統(tǒng)觀念,展現(xiàn)出媲美甚至超越更大規(guī)模模型的推理能力。
這款模型不僅在預(yù)訓(xùn)練階段通過獨特的數(shù)據(jù)策略奠定了堅實基礎(chǔ),還在后訓(xùn)練階段通過創(chuàng)新的強化學(xué)習(xí)(RL)方法釋放了驚人潛能,最終在數(shù)學(xué)、代碼和通用推理任務(wù)上擊敗了 OpenAI 的 o1-mini 等強力對手。
MiMo-7B 的誕生,不僅為開源社區(qū)帶來了寶貴的資源,更為開發(fā)高效推理模型提供了全新的思路。本文將帶你深入了解 MiMo-7B 的創(chuàng)新之處,揭秘其實驗方法與驚艷的成果,探索這款小模型如何在推理賽道上跑出“超車”速度。如果你對語言模型的推理能力感興趣,或者好奇如何用更少的資源實現(xiàn)更強的性能,MiMo-7B 的故事一定值得一讀!
創(chuàng)新點:從預(yù)訓(xùn)練到后訓(xùn)練的全面優(yōu)化
MiMo-7B的核心魅力在于其全鏈路的優(yōu)化設(shè)計,涵蓋了預(yù)訓(xùn)練和后訓(xùn)練兩大階段。團隊沒有簡單地堆砌參數(shù)或依賴大規(guī)模算力,而是從數(shù)據(jù)、架構(gòu)到訓(xùn)練策略進行了精巧的設(shè)計,力求在每個環(huán)節(jié)都最大化模型的推理潛能。
預(yù)訓(xùn)練階段
在預(yù)訓(xùn)練階段,MiMo-7B的團隊深刻認識到,高質(zhì)量的推理數(shù)據(jù)是激發(fā)模型潛能的關(guān)鍵。為此,他們優(yōu)化了數(shù)據(jù)預(yù)處理流程,開發(fā)了專門針對網(wǎng)頁中數(shù)學(xué)內(nèi)容和代碼片段的 HTML 提取工具,解決了傳統(tǒng)提取器丟失關(guān)鍵推理模式的問題。例如,數(shù)學(xué)博客中的公式和編程教程中的代碼片段得以完整保留,大幅提升了數(shù)據(jù)的推理密度。他們還采用增強的 PDF 解析工具,來獲取論文和書籍中的 STEM 和代碼相關(guān)內(nèi)容。
此外,團隊還利用高級推理模型生成了多樣化的合成推理數(shù)據(jù),這些數(shù)據(jù)在高輪次訓(xùn)練中表現(xiàn)出極強的魯棒性,避免了過擬合風(fēng)險。
為了進一步優(yōu)化數(shù)據(jù)分布,MiMo-7B采用了三階段數(shù)據(jù)混合策略:
第一階段平衡各類數(shù)據(jù);第二階段大幅增加數(shù)學(xué)和代碼數(shù)據(jù)的比例至約70%;第三階段引入10%的合成推理數(shù)據(jù)并擴展上下文長度至 32,768 個token。
最終,模型在約 25 萬億token的龐大數(shù)據(jù)集上完成了預(yù)訓(xùn)練,為后續(xù)的推理任務(wù)奠定了堅實基礎(chǔ)。
另一個重要的創(chuàng)新是多token預(yù)測(MTP)模塊的引入。傳統(tǒng)的自回歸生成方式在推理任務(wù)中往往因生成序列過長而效率低下。MiMo-7B 通過 MTP 模塊,允許模型一次性預(yù)測多個 token,從而顯著加速推理過程。在預(yù)訓(xùn)練中,團隊使用單一 MTP 層以保持訓(xùn)練效率,而在推理階段則通過復(fù)制和微調(diào)多個MTP層實現(xiàn)推測解碼(speculative decoding)。在 AIME24 基準測試中,第一MTP層的接受率高達90%,第三層仍保持75%以上。這種設(shè)計不僅提升了推理速度,還保證了生成質(zhì)量,為復(fù)雜推理任務(wù)提供了高效支持。
圖3:MiMo-7B 中 MTP 模塊的架構(gòu)圖。在預(yù)訓(xùn)練期間,使用單個 MTP 層,而推理階段可以使用多個 MTP 層以獲得額外的加速。圖源:技術(shù)報告
后訓(xùn)練階段
在后訓(xùn)練階段,MiMo-7B通過強化學(xué)習(xí)進一步釋放了模型的推理潛能。
團隊精心構(gòu)建了包含 13 萬個可驗證數(shù)學(xué)和代碼問題的RL數(shù)據(jù)集,并通過基于規(guī)則的驗證器確保獎勵的可靠性。為了解決代碼任務(wù)中獎勵稀疏的問題,他們提出了測試難度驅(qū)動的獎勵機制(difficulty driven code reward),靈感來源于國際信息學(xué)奧林匹克(IOI)的評分規(guī)則。這種機制將測試用例按難度分級,允許模型通過部分測試用例獲得獎勵,從而有效優(yōu)化了訓(xùn)練效率。此外,團隊還開發(fā)了“無縫回滾引擎”(Seamless Rollout Engine),通過連續(xù)回滾、異步獎勵計算和早期終止等技術(shù),將訓(xùn)練速度提升了2.29倍,驗證速度提升了1.96倍。這些創(chuàng)新共同確保了MiMo-7B-RL在推理任務(wù)中的卓越表現(xiàn)。
圖4:“無縫回滾引擎”概覽圖。圖源:技術(shù)報告
值得一提的是,MiMo-7B系列模型已全面開源,包含基礎(chǔ)模型、監(jiān)督微調(diào)(SFT)模型以及兩款 RL 模型。開源地址:
實驗方法
MiMo-7B的成功離不開其科學(xué)嚴謹?shù)膶嶒灧椒,從?shù)據(jù)準備到獎勵模型設(shè)計,再到評估流程,每一步都體現(xiàn)了團隊對推理任務(wù)的深刻理解。
數(shù)據(jù)集與預(yù)處理
預(yù)訓(xùn)練數(shù)據(jù)集是 MiMo-7B 的基石。團隊整合了網(wǎng)頁、學(xué)術(shù)論文、書籍、編程代碼和合成數(shù)據(jù)等多種來源,總計約25萬億token。為了提升數(shù)據(jù)質(zhì)量,他們優(yōu)化了文本提取工具,特別針對數(shù)學(xué)公式和代碼片段進行了增強,確保這些高價值內(nèi)容不被遺漏。同時,采用快速全局去重技術(shù)和多維度數(shù)據(jù)過濾,剔除了低質(zhì)量內(nèi)容并上采樣了專業(yè)領(lǐng)域的優(yōu)質(zhì)數(shù)據(jù)。合成推理數(shù)據(jù)的引入進一步豐富了數(shù)據(jù)集,團隊通過提示高級推理模型生成深入分析和問題解答,確保了數(shù)據(jù)的多樣性和推理深度。
圖源:機智流
在后訓(xùn)練階段,RL數(shù)據(jù)集由 10 萬個數(shù)學(xué)問題和 3 萬個代碼問題組成。數(shù)學(xué)問題來源于開源數(shù)據(jù)集和競賽級私有集合,經(jīng)過嚴格的去重和去污染處理,并通過模型難度評估過濾掉過難或過易的問題。代碼問題同樣經(jīng)過了嚴格篩選,確保每個問題都有可靠的測試用例支持。這樣的數(shù)據(jù)精選策略為RL訓(xùn)練提供了高質(zhì)量的素材。
獎勵模型設(shè)置
MiMo-7B的RL訓(xùn)練采用了改進的組相對策略優(yōu)化(GRPO)算法,并融入了一系列創(chuàng)新優(yōu)化。
獎勵函數(shù)的設(shè)計尤為關(guān)鍵:
數(shù)學(xué)任務(wù)使用基于規(guī)則的Math-Verify庫進行準確性評估;而代碼任務(wù)則引入了測試難度驅(qū)動的獎勵機制。
目前,對于代碼生成任務(wù),現(xiàn)有的強化學(xué)習(xí)工作(如Deepseek-R1)采用基于規(guī)則的獎勵策略,即只有生成的代碼通過給定問題的所有測試用例,解決方案才會得到獎勵。然而,對于困難的算法問題,模型可能永遠不會得到任何獎勵,從而阻止它從這些具有挑戰(zhàn)性的案例中學(xué)習(xí),降低了動態(tài)采樣的訓(xùn)練效率。
相比之下,MiMo-7B 采用的“測試難度驅(qū)動的獎勵”機制將測試用例按通過率分級,分為嚴格和軟性兩種獎勵方案:
嚴格獎勵要求模型通過所有低難度測試用例才能獲得高難度獎勵;而軟性獎勵則將分數(shù)均分給每個通過的測試用例。
這種設(shè)計有效緩解了復(fù)雜代碼任務(wù)的獎勵稀疏問題,提升了模型的學(xué)習(xí)效率。
圖7:“測試難度驅(qū)動的獎勵機制”相關(guān)實驗。左圖為測試用例的通過率與難度分級。右圖為不同獎勵方案的性能對比,其中“Vanilla Reward”為傳統(tǒng)獎勵機制,僅當(dāng)生成的代碼通過所有測試用例時給予獎勵;“Strict Reward”和“Soft Reward”分別為嚴格和軟性的測試難度驅(qū)動獎勵;實驗結(jié)果表明 Soft Reward 有助于模型在復(fù)雜問題上更快學(xué)習(xí)。
為了進一步優(yōu)化訓(xùn)練過程,團隊提出了動態(tài)采樣和低難度數(shù)據(jù)重采樣策略(easy data resampling strategy)。動態(tài)采樣通過過濾完美通過或完全失敗的樣本,保持批次中樣本的有效梯度;低難度數(shù)據(jù)重采樣則通過維護一個低難度數(shù)據(jù)池,以10%的概率從中采樣,穩(wěn)定了后期訓(xùn)練的策略更新。這些策略共同確保了RL訓(xùn)練的高效性和穩(wěn)定性。
實驗場景與評估方法
MiMo-7B的評估覆蓋了廣泛的推理任務(wù),包括語言理解、科學(xué)問答、閱讀理解、數(shù)學(xué)推理和代碼生成等。具體基準測試包括BBH、MMLU、AIME、LiveCodeBench等,涵蓋了從通用知識到專業(yè)領(lǐng)域的多種場景。評估過程中,團隊采用了pass@k指標,通過多次采樣評估模型的推理能力邊界,確保結(jié)果能夠真實反映模型的潛力。
在后訓(xùn)練評估中,MiMo-7B-RL與多個強基準模型進行了對比,包括GPT-4o、Claude-3.5-Sonnet、OpenAI o1-mini等。采樣參數(shù)設(shè)置為溫度0.6、top-p 0.95,最大生成長度根據(jù)任務(wù)需求設(shè)置為8,192或32,768 token。這樣的設(shè)置既保證了生成內(nèi)容的多樣性,也適應(yīng)了長序列推理任務(wù)的需求。
實驗結(jié)果:小模型的大作為
MiMo-7B的實驗結(jié)果令人振奮,無論是在基礎(chǔ)模型(MiMo-7B-Base)還是RL優(yōu)化后的模型(MiMo-7B-RL)上,都展現(xiàn)出了遠超預(yù)期的性能。
基礎(chǔ)模型的推理潛能
MiMo-7B-Base在預(yù)訓(xùn)練階段就展現(xiàn)了強大的推理能力。在BBH基準上,它取得了75.2的得分,超越了同等規(guī)模的Qwen2.5-7B約5個百分點。在SuperGPQA上,模型在處理研究生級問題時表現(xiàn)出色,證明了其在復(fù)雜推理任務(wù)中的潛力。在長上下文理解任務(wù)中,MiMo-7B-Base在RULER基準的針-in-a-haystack任務(wù)中實現(xiàn)了近乎完美的檢索性能,同時在需要長上下文推理的任務(wù)(如常見詞提取和變量跟蹤)中也顯著優(yōu)于Qwen2.5-7B。
圖8:MiMo-7B-Base在RULER長上下文理解任務(wù)中的表現(xiàn)。該圖展示了MiMo-7B-Base在大海撈針任務(wù)中的近乎完美檢索性能,以及在常見詞提。–WE)、頻繁詞提。‵WE)和變量跟蹤(VT)等長上下文推理任務(wù)中的優(yōu)異表現(xiàn)。
在數(shù)學(xué)和代碼任務(wù)上,MiMo-7B-Base同樣表現(xiàn)突出。在AIME 2024上,它取得了32.9的得分,遠超Llama-3.1-8B和Qwen2.5-7B;在LiveCodeBench v5上,它以32.9的得分再次大幅領(lǐng)先。這些結(jié)果表明,MiMo-7B-Base在預(yù)訓(xùn)練階段已具備了超越同規(guī)模模型的推理潛能,為后續(xù)RL訓(xùn)練提供了優(yōu)質(zhì)的起點。
RL優(yōu)化后的驚艷表現(xiàn)
通過強化學(xué)習(xí),MiMo-7B-RL將推理能力推向了新的高度。在數(shù)學(xué)任務(wù)上,MiMo-7B-RL在MATH500上取得了95.8的驚人得分,在AIME 2025上達到了55.4,超越OpenAI o1-mini約4.7個百分點。在代碼生成任務(wù)上,MiMo-7B-RL的表現(xiàn)尤為亮眼:在LiveCodeBench v5上,它以57.8的得分顯著領(lǐng)先o1-mini;在更新的LiveCodeBench v6上,它取得了49.3的得分,超出QwQ-32B-Preview逾10個百分點,展現(xiàn)了其在算法代碼生成中的穩(wěn)健性和領(lǐng)先優(yōu)勢。
表1:MiMo-7B和其他主流模型的比較
值得注意的是,MiMo-7B-RL在通用任務(wù)上也保持了競爭力。盡管RL訓(xùn)練僅針對數(shù)學(xué)和代碼任務(wù)優(yōu)化,模型在MMLU-Pro、GPQA Diamond等通用基準上的表現(xiàn)依然超過了QwQ-32B-Preview和DeepSeek-R1-Distill-Qwen-7B。這表明,MiMo-7B的優(yōu)化策略不僅提升了特定領(lǐng)域的推理能力,還在一定程度上保留了模型的通用性。
表2:MiMo-7B系列模型在代碼和數(shù)學(xué)推理基準上的性能。該表展示了MiMo-7B在LiveCodeBench和AIME等基準上的優(yōu)異表現(xiàn),特別是在代碼生成和數(shù)學(xué)推理任務(wù)中,MiMo-7B-RL的得分顯著領(lǐng)先于其他模型,凸顯了其強大的推理能力。RL訓(xùn)練的洞察
團隊在RL訓(xùn)練過程中還發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如,直接從基礎(chǔ)模型進行RL訓(xùn)練(MiMo-7B-RL-Zero)展現(xiàn)了更強的性能增長趨勢,但在最終性能上略遜于從SFT模型開始的MiMo-7B-RL。這表明,適當(dāng)?shù)腟FT可以為RL提供更好的起點,但過度依賴輕量級SFT可能限制模型的推理潛能。
圖9:三種MiMo模型變體在RL過程中的性能比較。
此外,在訓(xùn)練后期,基礎(chǔ)模型在數(shù)學(xué)和代碼任務(wù)間的性能平衡變得困難,數(shù)學(xué)任務(wù)容易出現(xiàn)獎勵利用(reward hacking)問題,而代碼任務(wù)因測試用例的嚴格驗證更為穩(wěn)健。這提示未來的RL訓(xùn)練需要更加注重數(shù)學(xué)問題集的質(zhì)量。
為什么MiMo-7B值得關(guān)注?
MiMo-7B的成功不僅在于其卓越的性能,更在于它為語言模型推理研究指明了新的方向。傳統(tǒng)的觀念認為,推理能力需要依賴大規(guī)模模型,但MiMo-7B用70億參數(shù)的“小身板”證明了高效數(shù)據(jù)策略和創(chuàng)新訓(xùn)練方法的巨大潛力。其三階段數(shù)據(jù)混合、MTP模塊、測試難度驅(qū)動獎勵等創(chuàng)新,為開發(fā)輕量級高性能模型提供了寶貴經(jīng)驗。
更重要的是,MiMo-7B的開源為研究者和開發(fā)者打開了一扇大門。無論是學(xué)術(shù)研究還是行業(yè)應(yīng)用,MiMo-7B的開源模型和詳細的技術(shù)報告都為進一步探索提供了堅實基礎(chǔ)。對于那些希望在資源有限的環(huán)境下開發(fā)強大推理模型的團隊來說,MiMo-7B無疑是一個值得借鑒的范例。
結(jié)語
MiMo-7B的故事是一場關(guān)于創(chuàng)新與效率的冒險。從預(yù)訓(xùn)練的數(shù)據(jù)優(yōu)化到后訓(xùn)練的RL突破,小米 LLM Core 團隊用科學(xué)的方法和巧妙的設(shè)計,打造了一款在推理任務(wù)中大放異彩的輕量級模型。無論是在AIME的數(shù)學(xué)難題上,還是在LiveCodeBench的代碼挑戰(zhàn)中,MiMo-7B都以超越期待的表現(xiàn)證明了“小模型”也能有“大作為”。
如果你對語言模型的未來充滿好奇,或者正在尋找一款高效的推理工具,不妨深入了解MiMo-7B。它的開源資源和技術(shù)洞察或許能為你的下一個項目帶來靈感。你認為MiMo-7B的成功會如何影響未來的模型開發(fā)?歡迎在評論區(qū)分享你的看法!
-- 完 --
原文標題 : 小米開源首個7B推理AI大模型!聊聊小米如何通過架構(gòu)創(chuàng)新和獎勵模型等訓(xùn)練策略創(chuàng)新,媲美o1-mini

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?
- 9 地平線自動駕駛方案解讀
- 10 封殺AI“照騙”,“淘寶們”終于不忍了?