色视频综合在线观看,91原创国产剧情

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

谷歌 DeepMind 推出兩款機(jī)器人AI模型

2025-03-17 16:07

芝能科技出品

谷歌 DeepMind 近日推出了兩款基于 Gemini 2.0 的新型機(jī)器人 AI 模型：Gemini Robotics 和 Gemini Robotics-ER。

這兩款模型將 AI 能力從數(shù)字世界擴(kuò)展至物理世界，使得我們可以嘗試邁向通用性、交互性和靈巧性。

● Gemini Robotics 是一個先進(jìn)的視覺-語言-動作模型，能夠處理未訓(xùn)練過的任務(wù)、理解自然語言指令并實(shí)時適應(yīng)環(huán)境變化；

● Gemini Robotics-ER 則專注于增強(qiáng)空間理解能力，支持跨平臺應(yīng)用并提升安全性，為未來機(jī)器人在日常生活中的廣泛應(yīng)用奠定了基礎(chǔ)。

當(dāng)前技術(shù)仍面臨動作緩慢、數(shù)據(jù)不足等挑戰(zhàn)，距離成熟商用尚需時日。

01

Gemini Robotics：

邁向通用機(jī)器人的里程碑

● 通用性：突破特定任務(wù)的限制

機(jī)器人技術(shù)長期以來面臨的一個核心難題是其在陌生環(huán)境中的適應(yīng)能力不足。

正如谷歌 DeepMind 機(jī)器人研究主管 Kanishka Rao 所指出的：“機(jī)器人通常只在經(jīng)歷過的場景中表現(xiàn)良好，但在面對陌生情況時完全無能為力。”

傳統(tǒng)機(jī)器人往往依賴預(yù)編程或針對特定任務(wù)的訓(xùn)練，一旦超出已知范圍，性能便大幅下降。

而 Gemini Robotics 的出現(xiàn)，通過其卓越的通用性，顯著緩解了這一痛點(diǎn)。Gemini Robotics 能夠在全新、未曾訓(xùn)練過的任務(wù)和環(huán)境中自主操作。

根據(jù) DeepMind 的技術(shù)報(bào)告，該模型在綜合泛化能力基準(zhǔn)測試中的表現(xiàn)比當(dāng)前最先進(jìn)的視覺-語言-動作模型高出兩倍多。

這一突破意味著機(jī)器人無需為每個具體應(yīng)用場景進(jìn)行專門訓(xùn)練，便能適應(yīng)新物體、多樣化指令和新環(huán)境。

例如，在演示中，研究人員擺放了小碟子、葡萄和香蕉，并指示機(jī)器人：“把香蕉放進(jìn)透明容器里。”機(jī)器人迅速識別出香蕉和容器，完成任務(wù)。即使容器位置隨后被移動，機(jī)器人也能實(shí)時調(diào)整，重新定位并執(zhí)行指令。

更令人驚訝的是，當(dāng)研究人員展示一個玩具籃球和籃網(wǎng)，并要求“灌籃”時，盡管機(jī)器人從未接觸過這些物體，它依然理解指令并完成動作。

這些例子生動展示了 Gemini Robotics 對新任務(wù)的泛化能力，使其成為邁向通用機(jī)器人的關(guān)鍵一步。

● 交互性：自然語言與實(shí)時適應(yīng)

Gemini Robotics 的另一大優(yōu)勢在于其交互性。

◎ 基于 Gemini 2.0 的強(qiáng)大語言理解能力，該模型能夠響應(yīng)日常會話式語言指令，甚至支持多語言交流。

這意味著用戶無需使用專業(yè)術(shù)語或固定命令格式，只需以自然語言與機(jī)器人溝通。例如，用戶可以說：“幫我把桌上的葡萄放進(jìn)餐盒里。”機(jī)器人便能理解并執(zhí)行。

◎ 具備實(shí)時適應(yīng)環(huán)境變化的能力。它能持續(xù)監(jiān)測周圍環(huán)境，檢測物體位置變化或意外情況，并迅速調(diào)整行動。例如，當(dāng)葡萄從抓取中滑落，或容器被移動時，機(jī)器人能夠重新規(guī)劃路徑并繼續(xù)任務(wù)。

這種動態(tài)適應(yīng)性對于在不確定性較高的現(xiàn)實(shí)世界中工作尤為關(guān)鍵，使 Gemini Robotics 在與人類協(xié)作時更具實(shí)用性。

● 靈巧性：精細(xì)操作的實(shí)現(xiàn)

靈巧性是機(jī)器人實(shí)用性的重要衡量標(biāo)準(zhǔn)。許多人類輕松完成的日常任務(wù)，如折紙或打包零食，對機(jī)器人而言卻極具挑戰(zhàn)性。Gemini Robotics 在這方面表現(xiàn)出色，展示了強(qiáng)大的精細(xì)動作控制能力。

◎ 它能夠處理需要精確操作的復(fù)雜多步驟任務(wù)，例如折疊紙張或?qū)⒘闶逞b入密封袋。在演示視頻中，機(jī)器人通過雙臂協(xié)作完成折紙任務(wù)，這不僅要求動作精度，還需對手部協(xié)調(diào)和物理材質(zhì)的理解。

◎ 此外，它還能將飯盒裝入包中，展現(xiàn)了對柔軟物體和力控制的掌握。這些能力表明，Gemini Robotics 不僅能在宏觀層面執(zhí)行任務(wù)，還能在微觀層面實(shí)現(xiàn)精細(xì)操作，為其在家庭、醫(yī)療和工業(yè)等領(lǐng)域的應(yīng)用打開了可能性。

● 技術(shù)基礎(chǔ)與訓(xùn)練方式

Gemini Robotics 是一個視覺-語言-動作（VLA）模型，在 Gemini 2.0 基礎(chǔ)上增加了物理動作輸出，直接控制機(jī)器人。其訓(xùn)練數(shù)據(jù)來源多樣，包括模擬環(huán)境中的合成數(shù)據(jù)和現(xiàn)實(shí)世界中的遠(yuǎn)程操作數(shù)據(jù)。

◎ 在模擬環(huán)境中，機(jī)器人學(xué)習(xí)物理規(guī)則，如不能穿墻而過；

◎ 通過遠(yuǎn)程操作，人類引導(dǎo)機(jī)器人完成現(xiàn)實(shí)任務(wù)。

◎ 此外，DeepMind 還在探索利用視頻素材進(jìn)一步豐富訓(xùn)練數(shù)據(jù)。

這一多模態(tài)訓(xùn)練方式為模型的通用性、交互性和靈巧性提供了堅(jiān)實(shí)支撐。

02

Gemini Robotics-ER：

空間理解與多形態(tài)適應(yīng)的先鋒

● 空間理解的突破

Gemini Robotics-ER 是 Gemini Robotics 的姊妹模型，專注于增強(qiáng)空間理解能力。

它大幅提升了 Gemini 2.0 的指向和 3D 檢測功能，使機(jī)器人能夠更直觀地感知物理世界并規(guī)劃動作。例如，當(dāng)面對一個咖啡杯時，該模型能識別出適合的兩指抓取方式，并計(jì)算安全的接近軌跡。

這一能力不僅依賴于對物體形狀的理解，還需對空間關(guān)系和動作后果進(jìn)行推理。

這種空間理解的提升，使 Gemini Robotics-ER 在復(fù)雜環(huán)境中表現(xiàn)出色。它能夠處理需要高度空間推理的任務(wù)，如在擁擠空間中導(dǎo)航或操作嵌套物體。

這一突破為機(jī)器人研究人員提供了強(qiáng)大工具，可將其與現(xiàn)有低層次控制系統(tǒng)結(jié)合，進(jìn)一步優(yōu)化機(jī)器人性能。

● 多形態(tài)適應(yīng)性與應(yīng)用前景

Gemini Robotics-ER 的另一大亮點(diǎn)是其多形態(tài)適應(yīng)性。

雖然主要在 ALOHA 2 雙臂機(jī)器人平臺上訓(xùn)練，但它也能控制基于 Franka 機(jī)械臂的平臺，甚至適配更復(fù)雜的載體，如 Apptronik 開發(fā)的人形機(jī)器人 Apollo。

這種跨平臺能力使其應(yīng)用范圍大幅擴(kuò)展，涵蓋工業(yè)機(jī)器人、服務(wù)機(jī)器人乃至人形機(jī)器人。

例如，與 Apptronik 的合作中，Gemini Robotics-ER 被用作 Apollo 人形機(jī)器人的“機(jī)器人大腦”，展現(xiàn)了其在復(fù)雜形態(tài)上的潛力。

此外，谷歌通過“可信測試者”項(xiàng)目，向 Boston Dynamics 和 Agility Robotics 等公司提供有限訪問權(quán)限，加速了技術(shù)在不同場景中的驗(yàn)證與優(yōu)化。這種靈活性為機(jī)器人技術(shù)的多樣化發(fā)展提供了可能。

● 安全性：從低層次到語義的全面保障

隨著 AI 進(jìn)入物理世界，安全性成為不可忽視的問題。DeepMind 采取分層方法，從低級電機(jī)控制到高級語義理解全面保障安全。

◎ Gemini Robotics-ER 可與特定機(jī)器人的低層次安全控制器對接，確保動作符合物理安全標(biāo)準(zhǔn)，如避免碰撞或限制接觸力。

◎ 在語義安全層面，谷歌發(fā)布了 ASIMOV 數(shù)據(jù)集，用于評估和改進(jìn)具身 AI 的安全性能。

該數(shù)據(jù)集包含多種情境，要求機(jī)器人判斷行為是否安全，例如“將漂白劑與醋混合是否安全？”Gemini Robotics-ER 在此基準(zhǔn)測試中表現(xiàn)出色，能夠識別潛在風(fēng)險(xiǎn)。

此外，受阿西莫夫“機(jī)器人三大法則”啟發(fā)，DeepMind 為模型開發(fā)了憲法 AI 機(jī)制，通過自我批評和反饋優(yōu)化響應(yīng)，確保機(jī)器人優(yōu)先考慮人類安全。

小結(jié)

谷歌 DeepMind 推出的 Gemini Robotics 和 Gemini Robotics-ER 模型，Gemini Robotics 通過通用性、交互性和靈巧性的突破，為實(shí)現(xiàn)自主操作的通用機(jī)器人奠定了基礎(chǔ)；Gemini Robotics-ER 則憑借空間理解和多形態(tài)適應(yīng)性，推動了機(jī)器人在復(fù)雜環(huán)境中的應(yīng)用潛力，安全性設(shè)計(jì)的完善進(jìn)一步提升了技術(shù)的可靠性。

這兩款模型仍處于早期階段，面臨動作緩慢、學(xué)習(xí)能力有限和訓(xùn)練數(shù)據(jù)不足等挑戰(zhàn)，目前尚無明確的商業(yè)化計(jì)劃。

原文標(biāo)題 : 谷歌 DeepMind 推出兩款機(jī)器人AI模型

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

3月27日
立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
4月30日
立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中，新智能座艙挑戰(zhàn)的解決方案
5月15-17日
立即預(yù)約>> 【線下巡回】2025年STM32峰會
即日-5.15
立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
5月15日
立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
5月16日
立即參評 >> 【評選啟動】維科杯·OFweek 2025（第十屆）人工智能行業(yè)年度評選

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<u id="dfi00"></u>

<label id="dfi00"></label>

<u id="dfi00"></u>