做大腦、推新品、擴(kuò)量產(chǎn),稚暉君的智元想“活”成什么樣?
智元正踐行:以大腦為驅(qū)動,通過“一腦多形”快速部署于多種形態(tài)本體;以產(chǎn)品矩陣撬動多場景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。
作者:呂鑫燚
編輯:狄鑫彤
出品:具身研習(xí)社
“稚暉君”神神秘秘預(yù)告要發(fā)布“好東西”后,智元機(jī)器人仿佛按下了“加速鍵”,帶來了不止一個新東西,但“夠不夠好”還要靜待時間給出答案。
首先,智元機(jī)器人發(fā)布了首個通用具身基座大模型“智元啟元大模型”(Genie Operator-1),該大模型主打四個優(yōu)勢,基于人類視頻學(xué)習(xí);小樣本快速泛化;一腦多形;持續(xù)進(jìn)化。
緊接著,稚暉君更新視頻,正式發(fā)布雙足智能交互人形機(jī)器人靈犀X2,能像人一樣自然走路,甚至能騎自行車、踩滑板車。搭載了多模態(tài)交互大模型“硅光動語”,通過視覺理解和認(rèn)知世界,可以做到與人進(jìn)行無縫流暢的交互。
據(jù)稚暉君透露,靈犀X2研發(fā)了三個月,視頻準(zhǔn)備了一個月,是迄今為止最復(fù)雜的項(xiàng)目。
或許該項(xiàng)目的復(fù)雜點(diǎn)在于團(tuán)隊(duì)對靈犀X2的創(chuàng)新思考。為了尋找創(chuàng)新性,團(tuán)隊(duì)“套用”了魯迅先生的思想,基于“從來如此,便對嗎?”的想法,想一改機(jī)器人外表“鋼筋鐵骨”的固有形態(tài),甚至考慮過使用化妝的美妝蛋作為材料。不過,最終還是選擇了親和的柔性材料。
圖片來源:稚暉君
做大腦、推新品、宣布1000臺機(jī)器人下線,智元機(jī)器人破圈動作頻頻,仿佛距離宇樹科技的曝光度只差一個秧歌節(jié)目了。
然而上述舉措只是智元對外輸出的“表象”,其背后指向的是智元機(jī)器人在創(chuàng)始人稚暉君“天才少年”標(biāo)簽背后,打磨無限生產(chǎn)力的故事。以大腦為驅(qū)動,通過“一腦多形”快速部署于多種形態(tài)本體,讓機(jī)器人更聰明;以產(chǎn)品矩陣撬動多場景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。
構(gòu)想足夠性感,但智元機(jī)器人的東西“好”到能支撐嗎?
做一個能自主進(jìn)化的大模型
“機(jī)器人公司,你如果不做大模型,那是屬于沒有未來的機(jī)器人。”智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長、具身業(yè)務(wù)部總裁姚卯青說道。在姚卯青看來,沒有“智能化”支持、沒有作業(yè)能力只是硬件,機(jī)器人能做的事情非常有限。
具體來看,“大模型”智能化高低決定的是人形機(jī)器人理解物理世界的程度和落地技能的水平。但這份“高低”也正是當(dāng)下產(chǎn)業(yè)發(fā)展的瓶頸。
由于“大腦”智能化受限,導(dǎo)致其泛化能力差,使得人形機(jī)器人在新場景的成功率大幅下降;不同本體的數(shù)據(jù)難以共用,致使數(shù)據(jù)采集成本高;大模型自身無法實(shí)現(xiàn)持續(xù)進(jìn)化,迭代速度較慢。
為了解決上述瓶頸各家都找了多種技術(shù)路線的解決方法,例如通過分層端到端模型訓(xùn)練的方式,集百家所長提升泛化能力;推出具身操作算法,通過視頻生成大模型進(jìn)行后訓(xùn)練,基于全過程零真機(jī)樣本數(shù)據(jù),實(shí)現(xiàn)多平臺泛化等。
智元機(jī)器人的GO-1也是延續(xù)上述脈絡(luò)而誕生的。
據(jù)智元機(jī)器人方面介紹,其提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),由多模態(tài)大模型(VLM)與混合專家模型(MoE)組成,彌合視覺、語言與動作之間的鴻溝。
基于ViLLA架構(gòu),GO-1大模型能結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),可以更好地理解物理世界;在極少數(shù)據(jù)甚至零樣本下,實(shí)現(xiàn)技能泛化到新場景、新任務(wù),降低了具身模型的使用門檻及訓(xùn)練成本;支持不同機(jī)器人形態(tài)間遷移,適配到不同本體;搭配智元數(shù)據(jù)回流系統(tǒng),從實(shí)際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)。
舉個例子,機(jī)器人得到用戶下達(dá)的“掛衣服”指令后,大模型工作任務(wù)流為:根據(jù)眼前的畫面,理解用戶指令對應(yīng)的任務(wù)要求,然后調(diào)動訓(xùn)練時學(xué)習(xí)過的掛衣服視頻,自動設(shè)想掛衣服涉及到的操作步驟,最后執(zhí)行并完成。
圖片來源:智元機(jī)器人
GO-1大模型加持下,機(jī)器人能用更低成本學(xué)得更快,用較小的數(shù)據(jù)量掌握更泛化的能力,且能快速部署在不同身體中,并在實(shí)際應(yīng)用中持續(xù)進(jìn)化自主學(xué)習(xí)。這是一套較為完整的大模型解決方案路線,形成了“數(shù)據(jù)-泛化-成本-進(jìn)化”的自驅(qū)動發(fā)展閉環(huán)。
據(jù)智元機(jī)器人官方表示,GO-1大模型在測試中取得了較為不錯的成績,但究竟有幾斤幾兩還需等待真機(jī)部署實(shí)地打工時刻之際見分曉。
將視角放大,實(shí)際上智元機(jī)器人做大模型這件事,有兩個標(biāo)桿性的意義。
其一,整機(jī)廠現(xiàn)階段仍依賴于GPT等大模型,其發(fā)展較為被動,通用大模型或行業(yè)大模型和人形機(jī)器人的適配度有限,成為人形機(jī)器人更聰明進(jìn)化的掣肘;
其二,大摩的報(bào)告清晰可見國內(nèi)在大模型的短板,這條彎道超車的機(jī)會不僅留給了大模型創(chuàng)企,還留給了整機(jī)廠,機(jī)會導(dǎo)向的是中國在人形機(jī)器人領(lǐng)域再下一城。
踩自行車而來,跟你做一次情感交流
無論是設(shè)計(jì)語言還是主打特點(diǎn),靈犀X2和其前輩靈犀X1都有些差別。
回顧一下靈犀X1,其采用了串并聯(lián)混合構(gòu)型手臂和差分驅(qū)動雙肩關(guān)節(jié)設(shè)計(jì),整臂重量為2.5kg。基于智元X-Lab自研的PowerFlow兩款模塊化關(guān)節(jié),全身實(shí)現(xiàn)了三十多個主動自由度。
圖片來源:智元機(jī)器人
從外觀上來看,靈犀X1看起來還有些“僵硬”,直角肩的形態(tài)和橢圓形的腦部構(gòu)型,仿佛缺少了點(diǎn)溫度。畢竟靈犀系列面向To C市場,聚焦的是養(yǎng)老方向。當(dāng)該系列以“養(yǎng)老伙伴”角色出現(xiàn)在日常生活中,或許更具親和力的外表能提高人類對于機(jī)器人的接受度。
而這也是靈犀X2做得最多改變的地方。
從外表來看,靈犀X2采用柔性材料外殼,能做到更抗摔。“圓滾滾”的上半身,還做到了細(xì)微起伏的“呼吸感”,看起來更具“柔和感”;趧幼髂B(tài)集成至模型中,靈犀X2學(xué)會了人類的小動作,如暗中觀察、坐下的時候偷偷蕩腿、走路時胳膊自由擺動甚至還“到處扣扣”。
這些小動作仿佛讓靈犀X2多了幾分生命力,也更貼合一個“養(yǎng)老伙伴”的角色。當(dāng)然,稚暉君給其的定位已經(jīng)不再局限于“養(yǎng)老”而是“吉祥三寶”。
從技術(shù)路線來看,靈犀X2全身擁有28個自由度,未使用任何并聯(lián)結(jié)構(gòu)。配備小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統(tǒng)Xyber-BMS及核心關(guān)節(jié)模組Powerflow等核心組件。通過結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿算法學(xué)習(xí),靈犀X2展現(xiàn)了走路、奔跑、轉(zhuǎn)身、踩滑板車、玩平衡車、騎自行車等高難度動作。
圖片來源:稚暉君
在交互能力方面,靈犀X2搭載了基于VLM的多模態(tài)交互大模型“硅光動語”,能通過人類的面部表情和語音語調(diào)精準(zhǔn)判斷情感狀態(tài),并做出相應(yīng)的回應(yīng)。在回答“你和狗狗同時掉進(jìn)水里,我應(yīng)該先救誰”的時候,靈犀X2也會迅速給出答案“先救狗狗”。此外,靈犀X2能通過遠(yuǎn)程裸眼3D交流,不過當(dāng)人臉圖片出現(xiàn)在其腦部顯示屏幕的時候,多少有點(diǎn)“恐怖谷效應(yīng)”。
相比于靈犀X1作為彩蛋,出現(xiàn)在聚光燈照射下的線下發(fā)布會,靈犀X2的發(fā)布略顯簡單,一支不到13分鐘在辦公室完成的視頻里,稚暉君通過三大維度講述了這款靈犀X2的技能點(diǎn)和團(tuán)隊(duì)思考。雖然簡單但足夠有料,也確實(shí)和市面上其他人形機(jī)器人產(chǎn)品呈現(xiàn)出不一樣的技能點(diǎn)。
而且在辦公室跑來跑去的靈犀X2,和稚暉君娓娓道來的講述,也更符合外界對于這位“天才少年”的印象。
但值得一提的是,該視頻發(fā)布后出現(xiàn)了不同的聲音,部分業(yè)內(nèi)人士認(rèn)為這支視頻很難服眾。靈犀X2騎自行車的片段只有中間騎行部分,沒有上車、下車的部分,很容易聯(lián)想到稚暉君當(dāng)年能研發(fā)出自動駕駛自行車技能。是真靈犀X2在騎自行車,還是自行車自己動,或許還要看智元接下來如何回應(yīng)。
智元想“活”成什么?
2024年,智元搞出過最大的動靜就是“開源”。
其一,智元機(jī)器人開源了百萬真機(jī)數(shù)據(jù)集AgiBot World,該數(shù)據(jù)集是全球首個全功能、全場景、高質(zhì)量的人形機(jī)器人百萬真機(jī)數(shù)據(jù)集,100多種數(shù)據(jù)中,家居占40%、餐飲20%、工業(yè)20%、商超10%以及辦公場景10%,其中80%的任務(wù)均為長程任務(wù)。
其二,靈犀X1面向全球正式開源,軟硬件全套圖紙和代碼上線到GitHub,開發(fā)指南上線至智元機(jī)器人官網(wǎng)。
開源是促動行業(yè)整體前行的重要路徑之一,通過前輩的成熟經(jīng)驗(yàn)為后來者鋪路,避免行業(yè)參與者陷入重復(fù)造輪子,消耗大量時間和資金成本。小鵬汽車創(chuàng)始人何小鵬在分享自家機(jī)器人時,也曾表示,沒有500億做不好機(jī)器人。
此外,在成熟經(jīng)驗(yàn)基礎(chǔ)上前行能在短時間內(nèi)形成技術(shù)差異化路線,避免產(chǎn)業(yè)陷入同質(zhì)化發(fā)展。開源的成功案例早在四足機(jī)器狗身上上演過,當(dāng)年MIT開源四足機(jī)器狗技術(shù)成果后,加速了四足機(jī)器人的產(chǎn)業(yè)化進(jìn)程,國內(nèi)外涌現(xiàn)了一批優(yōu)秀四足機(jī)器人企業(yè)。
實(shí)際上,開源并不是智元機(jī)器人必須完成的任務(wù),也沒有義務(wù)分享技術(shù)推動平權(quán)。從這一點(diǎn)可見,或許智元想做的不只是一家機(jī)器人公司,如果以后視鏡來看其或許想成為“集大成者”,建立多維度商業(yè)壁壘,成為中國具身智能繞不開的核心玩家。
但這條路注定困難重重。
首當(dāng)其沖的就是智元自身要承擔(dān)大量成本,這便要求智元無論是融資能力還是自造血能力都要跟得上發(fā)展步伐。
畢竟,除了真機(jī)數(shù)據(jù)采集外,智元在供應(yīng)鏈上也有不少自研部分。硬件方面,自研了核心的關(guān)節(jié)模組,包括電機(jī)、減速器、編碼器等。軟件方面,自研了具身智能的大腦和發(fā)布的大模型。還開源了中間件、操作系統(tǒng)、AimRT等。據(jù)了解,智元還在研發(fā)高自由度的靈巧手,多款產(chǎn)品在早期打樣階段。
多條腿走路的智元,在觸碰多種發(fā)展可能性的同時,也將比友商遇見更多困難。
原文標(biāo)題 : 做大腦、推新品、擴(kuò)量產(chǎn),稚暉君的智元想“活”成什么樣?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?