多方巨頭宣布開源數(shù)據(jù)集,全球具身智能加速進(jìn)化中!
具身智能正在數(shù)據(jù)開源的道路上奔跑。
在具身智能領(lǐng)域,數(shù)據(jù)對(duì)于訓(xùn)練深度學(xué)習(xí)模型以增強(qiáng)和優(yōu)化機(jī)器人能力至關(guān)重要,但數(shù)據(jù)采集成本高昂、數(shù)據(jù)采集效率低、數(shù)據(jù)通用性差等因素極大限制了具身智能的發(fā)展。
北京航空航天大學(xué)機(jī)器人研究所所長(zhǎng)王田苗也指出,數(shù)據(jù)的匱乏讓人形機(jī)器人很難具備泛化性。當(dāng)前,機(jī)器人任務(wù)泛化、感知泛化和運(yùn)動(dòng)操作的三個(gè)泛化數(shù)據(jù)很難獲取,比如讓機(jī)器人疊衣服、騎自行車等這些數(shù)據(jù)很難得到。
也正因如此,數(shù)據(jù)集的開源就成為了推動(dòng)具身智能行業(yè)共同進(jìn)步的關(guān)鍵“加速器”。
2024年末至今,全球已有8家具身智能公司與研究機(jī)構(gòu)宣布開源數(shù)據(jù)集,多方巨頭正共同助力數(shù)據(jù)生態(tài)建設(shè),加速全球具身智能進(jìn)化。
傅利葉——FourierActionNet
3月17日,上海機(jī)器人企業(yè)傅利葉正式開源全尺寸人形機(jī)器人數(shù)據(jù)集FourierActionNet,首批上線超3萬條高質(zhì)量真機(jī)訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)集囊括傅利葉GRx系列所有機(jī)型的各類任務(wù)訓(xùn)練,完整記錄機(jī)器人在真實(shí)環(huán)境中的任務(wù)執(zhí)行數(shù)據(jù),涵蓋了對(duì)常用工具、家居用品、食物等多種物體的精確取放、傾倒等操作,以及在不同環(huán)境條件下實(shí)現(xiàn)泛化執(zhí)行,包含專門針對(duì)手部任務(wù)的模仿學(xué)習(xí)數(shù)據(jù),適配多自由度靈巧手任務(wù),同時(shí),所有數(shù)據(jù)均采用視覺語言模型(VLM)進(jìn)行自動(dòng)標(biāo)注,并通過人工二次核驗(yàn)。
值得注意的是,F(xiàn)ourierActionNet包含萬級(jí)真機(jī)訓(xùn)練數(shù)據(jù),包含專門針對(duì)手部任務(wù)的模仿學(xué)習(xí)數(shù)據(jù),適配多自由度靈巧手任務(wù),所有數(shù)據(jù)均采用視覺語言模型(VLM)進(jìn)行自動(dòng)標(biāo)注,并通過人工二次核驗(yàn),確保數(shù)據(jù)精度與準(zhǔn)確性。
創(chuàng)新中心——RoboMIND、“天工”
3月12日,北京人形機(jī)器人創(chuàng)新中心有限公司 Tien Kung(以下稱“創(chuàng)新中心”)發(fā)布了全球首個(gè)“一腦多能”“一腦多機(jī)”的通用具身智能平臺(tái)“慧思開物”。“慧思開物”的應(yīng)用是對(duì)基于單一場(chǎng)景單一任務(wù)做專項(xiàng)開發(fā)這一傳統(tǒng)機(jī)器人應(yīng)用開發(fā)模式的顛覆,同時(shí)也填補(bǔ)了具身智能領(lǐng)域在通用軟件系統(tǒng)方面的空白。
在數(shù)據(jù)集開源方面,創(chuàng)新中心發(fā)布的行業(yè)首個(gè)標(biāo)準(zhǔn)化通用具身智能數(shù)據(jù)集和Benchmark RoboMIND首批開源數(shù)據(jù)10萬條,覆蓋工業(yè)、家庭、辦公等多場(chǎng)景任務(wù),具備高度的通用性和可擴(kuò)展。
2024年12月27日,創(chuàng)新中心與北京大學(xué)計(jì)算機(jī)學(xué)院聯(lián)合推出了大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,基于成型標(biāo)準(zhǔn)采集,經(jīng)多個(gè)模型訓(xùn)練驗(yàn)證有效,支持多本體多任務(wù)并具備通用性。
據(jù)統(tǒng)計(jì),本次創(chuàng)新中心發(fā)布的數(shù)據(jù)集采用了包括單臂機(jī)器人、雙臂機(jī)器人、人形機(jī)器人等多種形態(tài)的機(jī)器人本體進(jìn)行數(shù)據(jù)采集,包含了279項(xiàng)不同任務(wù)的多類場(chǎng)景,涵蓋了高達(dá)61種不同的物體,具備多本體、多技能、多應(yīng)用的特點(diǎn),是我國(guó)首個(gè)具備通用性且由模型驗(yàn)證有效的具身智能數(shù)據(jù)集。
2024年11月11日,創(chuàng)新中心宣布啟動(dòng)“天工開源計(jì)劃”,將陸續(xù)把本體、數(shù)據(jù)集、運(yùn)動(dòng)控制等方面的技術(shù)成果面向行業(yè)開源開放。
據(jù)悉,基于全身協(xié)同智能小腦平臺(tái),“天工”實(shí)測(cè)平均時(shí)速可達(dá)每小時(shí)10公里,最高奔跑速度已提升至每小時(shí)12公里,其還可在斜坡、樓梯、草地、碎石、沙地多種復(fù)雜泛化地形中實(shí)現(xiàn)平穩(wěn)移動(dòng)。
“天工”所裝配的多能具身智能體平臺(tái)“開物”包含AI大模型驅(qū)動(dòng)任務(wù)規(guī)劃的具身大腦和以數(shù)據(jù)驅(qū)動(dòng)的端到端技能執(zhí)行具身小腦,具備一腦多機(jī)、一腦多能的能力,未來將擁20萬條機(jī)器人軌跡數(shù)據(jù),適配超20個(gè)以上機(jī)器人本體,實(shí)現(xiàn)具身能力開發(fā)時(shí)間降低90%。
數(shù)據(jù)生態(tài)方面,創(chuàng)新中心數(shù)據(jù)采集涵蓋6類本體7大典型場(chǎng)景,日產(chǎn)數(shù)據(jù)已達(dá)10TB。
Physical Intelligence——π0
今年2月,美國(guó)明星具身智能初創(chuàng)企業(yè)Physical Intelligence(簡(jiǎn)稱PI)開源了他們的視覺-語言-動(dòng)作具身模型π0,在GitHub上發(fā)布了π0的代碼和權(quán)重。他們還表示,根據(jù)他們自己的實(shí)驗(yàn),1 到 20 小時(shí)的訓(xùn)練數(shù)據(jù)足以讓π0適配各種任務(wù)。
π0具備 預(yù)訓(xùn)練基礎(chǔ),基于一個(gè)30億參數(shù)的預(yù)訓(xùn)練視覺語言模型(VLM),并在此基礎(chǔ)上進(jìn)行調(diào)整,以實(shí)現(xiàn)機(jī)器人控制。在任務(wù)表現(xiàn)上,π0 在多項(xiàng)機(jī)器人任務(wù)上表現(xiàn)優(yōu)于其他基線模型,包括整理桌面、疊衣服、組裝紙箱等。且該模型能夠接受自然語言指令并執(zhí)行任務(wù),同時(shí)支持對(duì)復(fù)雜任務(wù)的微調(diào)。
本次π0基礎(chǔ)模型開源的內(nèi)容包括:運(yùn)行基礎(chǔ)預(yù)訓(xùn)練π0模型的代碼和模型權(quán)重;針對(duì)ALOHA和DROID等機(jī)器人平臺(tái)上的一些簡(jiǎn)單任務(wù)微調(diào)的多個(gè)檢查點(diǎn);在多個(gè)現(xiàn)實(shí)世界和模擬機(jī)器人平臺(tái)上運(yùn)行推理的示例代碼;用于針對(duì)特定任務(wù)和平臺(tái)微調(diào)基礎(chǔ)π0模型的代碼。
深圳市人工智能與機(jī)器人研究院——MultiPlan
今年1月,深圳市人工智能與機(jī)器人研究院的AIRS智能控制中心冀曉強(qiáng)教授團(tuán)隊(duì)提出了國(guó)際首個(gè)用于大語言模型(LLM)微調(diào)的異構(gòu)多機(jī)器人協(xié)作控制數(shù)據(jù)集MultiPlan,以及錯(cuò)誤診斷指標(biāo)MRED。MultiPlan基于自然語言任務(wù)描述框架定義了任務(wù)內(nèi)容、環(huán)境描述和動(dòng)作規(guī)劃,結(jié)合機(jī)器人底層SDK,提供了簡(jiǎn)潔且可部署的智能協(xié)作方案。
與傳統(tǒng)方法相比,微調(diào)后的7B參數(shù)規(guī)模模型在復(fù)雜任務(wù)的規(guī)劃及控制能力上實(shí)現(xiàn)了對(duì)GPT-4o等閉源大模型的顯著超越。MultiPlan數(shù)據(jù)集涵蓋100個(gè)常見室內(nèi)外生活場(chǎng)景,通過模板生成與人工復(fù)核的數(shù)據(jù)流水線,確保了數(shù)據(jù)的泛化性和多樣性。實(shí)驗(yàn)分別在辦公室服務(wù)和城市街道清潔兩個(gè)場(chǎng)景中進(jìn)行部署,證明了方法的有效性和魯棒性。
智元——AgiBot World
2024年12月30日,智元機(jī)器人宣布百萬真機(jī)數(shù)據(jù)集開源項(xiàng)目AgiBot World。智元機(jī)器人介紹稱,AgiBot World 是全球首個(gè)基于全域真實(shí)場(chǎng)景、全能硬件平臺(tái)、全程質(zhì)量把控的百萬真機(jī)數(shù)據(jù)集。相比谷歌開源的Open X-Embodiment數(shù)據(jù)集,AgiBot World長(zhǎng)程數(shù)據(jù)規(guī)模高出10倍,場(chǎng)景范圍覆蓋面擴(kuò)大100倍,數(shù)據(jù)質(zhì)量從實(shí)驗(yàn)室級(jí)上升到工業(yè)級(jí)標(biāo)準(zhǔn)。
AgiBot World誕生于智元自建的大規(guī)模數(shù)據(jù)采集工廠與應(yīng)用實(shí)驗(yàn)基地,空間總面積超過4000平方米,包含3000多種真實(shí)物品和100多種高度還原的真實(shí)場(chǎng)景,按家居(40%)、餐飲(20%)、工業(yè)(20%)、商超(10%)和辦公(10%)進(jìn)行分布,全面覆蓋了機(jī)器人在生產(chǎn)和生活中的典型應(yīng)用需求。
宇樹科技——G1操作數(shù)據(jù)集
2024年11月13日,宇樹科技宣布,為了推進(jìn)全球具身智能行業(yè)發(fā)展,開源 G1 人形機(jī)器人操作數(shù)據(jù)集,包括數(shù)據(jù)采集、學(xué)習(xí)算法、數(shù)據(jù)集和模型,并表示將持續(xù)更新。
本次開源,宇樹科技公布了用于G1人形機(jī)器人的遙操作控制代碼,內(nèi)容包括遙操作控制的代碼教程、硬件配置圖、物料清單和安裝說明等。同時(shí),宇樹科技還開源了G1人形機(jī)器人的操作數(shù)據(jù)集,數(shù)據(jù)集涵蓋擰瓶蓋倒水、疊三色積木、將攝像頭放入包裝盒、收集物品并存儲(chǔ)、雙臂抓取紅色木塊并放入黑色容器等五種操作,記錄了機(jī)器人手臂和靈巧手的七維狀態(tài)和動(dòng)作數(shù)據(jù)。
清華大學(xué)——RDT
2024年10月18日,清華大學(xué)開源了全球最大的雙臂機(jī)器人擴(kuò)散大模型RDT(Robotic Diffusion Transformer)。RDT是由清華大學(xué)計(jì)算機(jī)AI研究院TSAIL團(tuán)隊(duì)推出的全球最大的雙臂機(jī)器人操作任務(wù)擴(kuò)散基礎(chǔ)模型。RDT具備1.2B參數(shù)量,能在無需人類操控的情況下,自主完成復(fù)雜任務(wù)。RDT可以基于模仿學(xué)習(xí)人類動(dòng)作,展現(xiàn)出強(qiáng)大的泛化能力和操作精度,能處理未見過的物體和場(chǎng)景。
據(jù)了解,RDT在迄今為止最大的多機(jī)器人數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并將其擴(kuò)展到1.2B參數(shù),這是最大的基于擴(kuò)散機(jī)器人操作基礎(chǔ)模型。在自建多任務(wù)雙手?jǐn)?shù)據(jù)集上對(duì)RDT進(jìn)行微調(diào),數(shù)據(jù)集包含超過6000+集,改進(jìn)其操作能力。RDT擁有目前最大的雙臂微調(diào)數(shù)據(jù)集,清華團(tuán)隊(duì)構(gòu)建了包括300+任務(wù)和6000+條演示的數(shù)據(jù)集。
谷歌——Open X-Embodiment
2024年10月,谷歌DeepMind聯(lián)手斯坦福大學(xué)、上海交通大學(xué)、英偉達(dá)、紐約大學(xué)、哥倫比亞大學(xué)、東京大學(xué)、日本理化研究所、卡內(nèi)基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、倫敦帝國(guó)理工學(xué)院等21家國(guó)際知名機(jī)構(gòu),整合了60個(gè)獨(dú)立的機(jī)器人數(shù)據(jù)集,創(chuàng)建了一個(gè)開放的、大規(guī)模的標(biāo)準(zhǔn)化機(jī)器人學(xué)習(xí)數(shù)據(jù)集——Open X-Embodiment。
據(jù)悉,Open X-Embodiment是迄今為止最大的開源真實(shí)機(jī)器人數(shù)據(jù)集,涵蓋了從單臂機(jī)器人到雙臂機(jī)器人,再到四足機(jī)器人等22種不同形態(tài)的機(jī)器人,共包含超過100萬條機(jī)器人軌跡和527項(xiàng)技能(160,266項(xiàng)任務(wù))。研究人員證明,相較于僅在單個(gè)機(jī)器人類型數(shù)據(jù)上訓(xùn)練的模型,在多個(gè)機(jī)器人類型數(shù)據(jù)上訓(xùn)練的模型表現(xiàn)更佳。
注:頭圖來自國(guó)地共建具身智能機(jī)器人創(chuàng)新中心官網(wǎng)
原文標(biāo)題 : 多方巨頭宣布開源數(shù)據(jù)集,全球具身智能加速進(jìn)化中!

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?