訂閱
糾錯
加入自媒體

人形機器人界的安卓,國家隊搶先做了

作者|向欣

在當今的人形機器人界,有一種主流觀點是,硬件本體并不是人形機器人應(yīng)用的阻礙,大腦與小腦才是。

也就是說,人形機器人缺乏能夠智能決策的大腦,與精細控制全身關(guān)節(jié)運動的小腦。

這兩者是人形機器人能夠執(zhí)行任務(wù),走入人類生活的關(guān)鍵技術(shù)。

為了幫助人形機器人行業(yè)解決這個問題,3 月 12 日,人形機器人界的國家隊——北京人形機器人創(chuàng)新中心(國家地方共建具身智能機器人創(chuàng)新中心,以下簡稱「創(chuàng)新中心」)發(fā)布了通用具身智能平臺「慧思開物」。

這是全球首個「一腦多能」、「一腦多機」的通用具身智能平臺,包含負責(zé)任務(wù)規(guī)劃的「大腦」與負責(zé)執(zhí)行任務(wù)的「小腦」。

它相當于機器人的思考與控制中樞,能夠幫助多種不同構(gòu)型的機器人靈活適應(yīng)工業(yè)、物流、家庭等多種場景,自主完成整理物品、物流打包等復(fù)雜任務(wù)。

「慧思開物」最大的特點是,它可以讓不懂算法、甚至不懂機器人,但想要用機器人干活的人或者企業(yè)也能夠較為輕松、快速地完成機器人應(yīng)用開發(fā),實現(xiàn)多種機器人在不同場景、任務(wù)中的高效運用。

創(chuàng)新中心首席技術(shù)官唐劍稱,「慧思開物」是對傳統(tǒng)機器人應(yīng)用開發(fā)模式的顛覆,有望顯著減少機器人應(yīng)用開發(fā)在人力與時間方面的投入。

適配多種機器人構(gòu)型,

具備任務(wù)泛化能力

傳統(tǒng)的工業(yè)、服務(wù)機器人的應(yīng)用開發(fā),通常需要一個專業(yè)團隊在特定場景下采集數(shù)據(jù),針對特定任務(wù)寫一個專用程序,并做各種調(diào)試才能完成。

此類應(yīng)用開發(fā)方案不僅耗費較多的時間與人力成本,調(diào)試出的機器人也幾乎不具備泛化能力,僅適用于固定流程與操作對象。

隨之帶來的結(jié)果是,機器人行業(yè)一直以來都無法解決場景、任務(wù)、本體泛化能力差的痛點。

而「慧思開物」,是一個可以讓市面上各種主流機器人能夠針對任意場景、任務(wù)進行快速開發(fā)的平臺。

它的「通用」特性體現(xiàn)于此。

「一腦多能」、「一腦多機」、數(shù)據(jù)利用率是「慧思開物」最核心的三個亮點:

「一腦多能」:支持機器人適應(yīng)從工業(yè)制造到家庭服務(wù)等多種場景,執(zhí)行各類復(fù)雜任務(wù),如工業(yè)分揀、整理桌面、物流打包等等;

「一腦多機」:可適配機械臂、輪式機器人、人形機器人等多種機器人;

數(shù)據(jù)利用率高:將任務(wù)拆解為拿、擰、挑等多項元技能,僅需少量數(shù)據(jù)即可高效訓(xùn)練并成功執(zhí)行任務(wù)。

在發(fā)布會現(xiàn)場,「慧思開物」展示了在工業(yè)分揀、積木搭建、桌面清理和物流打包四個場景的真機操作應(yīng)用。

這是全球首次多場景、多任務(wù)、多構(gòu)型具身智能機器人操作的直播展示。

工作人員僅使用「慧思開物」APP 給機械臂下達指令,或直接告訴人形機器人它要做什么,機器人就能自主分析任務(wù)與環(huán)境,并完美執(zhí)行任務(wù),整個過程絲滑流暢。

在積木搭建場景中,「慧思開物」首次實現(xiàn)了復(fù)雜任務(wù)的智能化拆解與執(zhí)行。

現(xiàn)場觀眾隨意搭建了一個積木,人形機器人「天工」在接收到語音指令后,利用視覺大模型(VLM)分析積木的構(gòu)成,規(guī)劃每一層的搭建順序,重新搭建了一個一模一樣的積木,精度達毫米級,展現(xiàn)了「慧思開物」及人形機器人在教育娛樂、精密制造等領(lǐng)域的應(yīng)用潛力。

在整理桌面的過程中,面對人類不斷移動物品的干擾,機器人也能沉著冷靜地應(yīng)對,具備優(yōu)秀的自主糾錯能力。

「慧思開物」強大的機器人應(yīng)用開發(fā)能力,源于其大腦與小腦:

大腦部署在云端,由 MLLM(多模態(tài)大語言模型),VLM(視覺-語言模型)驅(qū)動,具備自然交互、空間感知、意圖理解、分層規(guī)劃和錯誤反思等能力

小腦部署在端側(cè),由 VA(視覺-行動)、VLA(視覺-語言-行動)模型和 LLM(大語言模型)驅(qū)動,負責(zé)端到端執(zhí)行任務(wù)

在小腦層面,又分為兩個子平臺:

具身操作平臺:擁有元技能,可實現(xiàn)泛化抓取、技能調(diào)用和錯誤處理等功能;

具身運控平臺:負責(zé)機器人全身控制、包括雙臂協(xié)作、穩(wěn)定行走、移動導(dǎo)航等。

其中,元技能庫是指一個包含了機器人完成各種復(fù)雜任務(wù)所需的基礎(chǔ)、通用技能集合的數(shù)據(jù)庫。

「慧思開物」使用了創(chuàng)新中心構(gòu)建的通用具身智能數(shù)據(jù)集和 Benchmark——RoboMIND 進行訓(xùn)練。RoboMIND 覆蓋工業(yè)、家庭、辦公等多場景任務(wù),具備高度的通用性和可擴展性。

「慧思開物」的運行過程是,由具身「大腦」進行任務(wù)規(guī)劃,再調(diào)用具身「小腦」技能庫執(zhí)行具體動作,并將執(zhí)行反饋傳遞給具身「大腦」,形成任務(wù)閉環(huán)。

比如,當接收到一個打包快遞的指令時,機器人大腦會理解指令并規(guī)劃任務(wù),把任務(wù)分解成多個子任務(wù),即拿起掃碼槍和物品、進行掃碼、放置物品、關(guān)上紙盒、貼上快遞單。

隨后任務(wù)指令傳入小腦,小腦從元技能庫中調(diào)用出執(zhí)行這些任務(wù)所需要的技能,比如抓取、放置、掃碼、貼標簽等。最后由小腦的具身運控平臺控制機器人的身體完成動作。

由于應(yīng)用開發(fā)的快捷性與多場景適用性,「慧思開物」目前已用于支持優(yōu)必選人形機器人,幫助其成功應(yīng)用優(yōu)必選創(chuàng)新提出的群腦網(wǎng)絡(luò) (BrainNet) 軟件架構(gòu),從而能夠執(zhí)行整條工業(yè)產(chǎn)線的任務(wù)

無論是對關(guān)注機器人應(yīng)用的各行各業(yè)的客戶,還是投身機器人科研開發(fā)的科學(xué)家與極客來說,「慧思開物」都是快速縮短機器人應(yīng)用開發(fā)周期的利器。

多項關(guān)鍵技術(shù)開源

為具身智能「添柴加薪」

創(chuàng)新中心首席技術(shù)官唐劍介紹,「慧思開物」平臺技術(shù)架構(gòu)會在今年按照計劃陸續(xù)開源開放,包括其中的 VLM、VLA 模型以及相關(guān)的代碼等。

對于仍處于發(fā)展初期的具身智能行業(yè),開源意義重大,它能夠打破技術(shù)壁壘,快速降低行業(yè)門檻與研發(fā)成本,將前沿技術(shù)加速擴散,促進行業(yè)快速起步和多元化發(fā)展。

創(chuàng)新中心成立于 2023 年 11 月,由京城機電、優(yōu)必選、亦莊機器人等 10 家行業(yè)領(lǐng)軍企事業(yè)單位出資 4.6 億元聯(lián)合組建,彼時名為北京人形機器人創(chuàng)新中心。

2024 年 10 月,在工業(yè)和信息化部與北京市人民政府指導(dǎo)下,該創(chuàng)新中心正式升級為「國家地方共建具身智能機器人創(chuàng)新中心」。

這一升級,讓它擁有了國家隊的屬性。

自成立以來,創(chuàng)新中心聚焦具身智能及人形機器人行業(yè)的共性技術(shù)研發(fā),在取得成果后已開源多項重大技術(shù)或資源

開源機器人本體:開源人形機器人「天工」,包括軟件開發(fā)文檔、軟件架構(gòu)、機器人結(jié)構(gòu)圖紙、電氣系統(tǒng)等,同時有多家合作伙伴們基于「天工」平臺面向應(yīng)用場景進行二次開發(fā);

開源具身智能數(shù)據(jù)集:通用具身智能數(shù)據(jù)集和 Benchmark——RoboMIND 首批開源數(shù)據(jù) 10 萬條,近百家企業(yè)、高校和科研機構(gòu)數(shù)千次下載使用。

人形機器人「天工」目前擁有兩個不同的版本:天工 Lite、天工 Pro

天工 Pro 是本次「慧思開物」發(fā)布會上進行演示的機器人,身高 163cm,體重 56kg,擁有 42 個自由度。

在運動能力上,「天工」能夠在 38°的高溫戶外環(huán)境下應(yīng)對草地、沙地等多種復(fù)雜地形,還能在雪地奔跑,普通路面奔跑速度最高達 12km/h

今年 2 月份,「天工」還實現(xiàn)了爬上 134 級臺階,成為全球首例可在室外連續(xù)攀爬多級階梯的人形機器人,并在國家電網(wǎng)成功完成電力巡檢任務(wù)。

此外,在開源社區(qū)方面,國地創(chuàng)新中心吸引了超千名開發(fā)者參與數(shù)據(jù)集的數(shù)據(jù)優(yōu)化與模型訓(xùn)練工作,推動技術(shù)成果在 GitHub、Hugging Face 等平臺形成傳播,并與中科院軟件所聯(lián)合搭建了 AGIROS 開源社區(qū)

創(chuàng)新中心的發(fā)展定位顯而易見:

他們希望成為具身智能行業(yè)的賦能者,將領(lǐng)先的技術(shù)成果共享,為整個行業(yè)注入活水。

Deepseek 開源 R1 模型后,直接引發(fā)了 AI 普惠化的浪潮,讓性能優(yōu)秀的大模型也能夠以低成本的方式廣泛應(yīng)用于能源、金融、電信等行業(yè),從中我們已經(jīng)看到了開源對行業(yè)發(fā)展產(chǎn)生的巨大推動力。

國地共建的開放生態(tài),或許正是撬動機器人產(chǎn)業(yè)從「實驗室特技」邁向「社會生產(chǎn)力」的支點。

隨著「慧思開物」平臺的開源與應(yīng)用不斷拓展,中小企業(yè)無需重復(fù)「造輪子」,開發(fā)者可聚焦場景創(chuàng)新。

領(lǐng)先技術(shù)的不斷開源將為技術(shù)迭代按下加速鍵。

未來,機器人有望以更低的成本、更強的適應(yīng)性走進工業(yè)、倉儲、物流、家庭甚至災(zāi)難救援現(xiàn)場,改變?nèi)祟惿a(chǎn)生活方式。

       原文標題 : 人形機器人界的安卓,國家隊搶先做了

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號