訂閱
糾錯
加入自媒體

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

文|盧瀅西 周文斌

“特斯拉是有四個輪子的機器人,而Optimus就是有兩條腿的機器人。”

北京時間10月1日,特斯拉CEO馬斯克在2022年AI Day上,正式發(fā)布人形機器人擎天柱Optimus原型機,展示了人形機器人在汽車工廠搬運箱子、澆植物、移動金屬棒的視頻。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”在搬運箱子

馬斯克一直在強調(diào)“我們就是想盡快設(shè)計出有用的量產(chǎn)機器人”,售價要在2萬美元左右,3~5年內(nèi)實現(xiàn)量產(chǎn)。這決定了機器人的整體設(shè)計路線,走的并不是如波士頓動力一樣“高大上”的實驗室路線。

除了人形機器人的炫酷之外,作為機器人和智能汽車共同應(yīng)用的部分,自動駕駛也是此次AI DAY的重要組成部分。

這次AI DAY上,特斯拉從基礎(chǔ)訓練、Occupancy系統(tǒng)、車道和物體、規(guī)劃、人工智能編譯器和推理、自動貼標、模擬、數(shù)據(jù)引擎這八個部分,整體介紹了自家自動駕駛從環(huán)境感知、數(shù)據(jù)收集、訓練、處理、到應(yīng)用的整套流程。

而從這次介紹中我們也發(fā)現(xiàn),特斯拉的自動駕駛技術(shù)方案于8月底毫末在AI DAY上提出的方向都頗有許多一致性。

比如雙方都對云端訓練的重視,并投入了大量的資源在超算中心和云端訓練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓練,以及自然語言處理等等。

這其實都在說明,無論是國外還是國內(nèi),自動駕駛在工程化上的探索,終于走到了相互交集的時候。下面一起來看看具體內(nèi)容。

3年量產(chǎn)、售價2萬美元,人形機器人有哪些技術(shù)細節(jié)?

1、“擎天柱”的整體情況

在去年AI Day上介紹特斯拉機器人的概念以后,“擎天柱”一共迭代了三個版本。最新一代的“擎天柱”身高170cm,體重73kg,用電功率在靜坐時為100W,快走時500W,全身有200多個自由度,手部27個自由度。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”的內(nèi)部構(gòu)造

設(shè)計“擎天柱”的過程中,為了減少功耗,特斯拉將配電和計算集中到軀干中心,在軀干里裝了一個2.3千瓦時的電池組,并且還搭載著特斯拉自研的SoC芯片,配備Wi-Fi和LTE連接網(wǎng)絡(luò)。特斯拉官方稱,這個電池組能夠維持機器人一整天的工作,但有媒體根據(jù)已知的數(shù)據(jù)測算,如果不間斷地工作,“擎天柱”的續(xù)航時間大概在1.5-2小時之間。

在大腦部分,特斯拉的全自動駕駛系統(tǒng)FSD直接被應(yīng)用在擎天柱身上,但由于人形機器人的需求和形式與汽車仍然存在差異,因此,還做了三方面的改變。

首先,基于多個感官傳感輸入,讓機器人能夠處理視覺數(shù)據(jù)并做出決策;其次,有很多無線連接和音頻支持通信。另外,在硬件上,“擎天柱”也需要確保安全性,包括保護機器人本身和機器人周圍的人,這就涉及到機器人的四肢控制。

機器人的結(jié)構(gòu)基礎(chǔ)上,人形機器人復用了特斯拉汽車基于物理的生產(chǎn)能力以及模擬能力,讓用于汽車撞擊實驗的軟件也來做機器人的撞擊實驗,進行損害破壞的控制,防止昂貴的“大腦”過度損傷。同時,“擎天柱”身上有很多的執(zhí)行器,通過這些執(zhí)行器可以讓人形機器人完成比如上樓、下蹲、拿東西等各類任務(wù)。

2、“擎天柱”靠什么動起來?

實現(xiàn)這些動作就需要設(shè)定相應(yīng)的指標,而這些設(shè)計也來自于一些生物學的非線性原理。通過展示出機器人在進行上樓梯、下蹲等動作時,關(guān)節(jié)會呈現(xiàn)什么樣的壓力曲線,來滿足安全性的相關(guān)要求。另外,動作的實施也對執(zhí)行器的扭矩提出相關(guān)要求。

那么“擎天柱 ”的執(zhí)行器是如何設(shè)計、生產(chǎn)出來的呢?

在機器人身上,執(zhí)行器所執(zhí)行的工作與關(guān)節(jié)所要承受的壓力相關(guān),在實踐之前需要先進行驗證,將相關(guān)參數(shù)放到優(yōu)化模型中來適應(yīng)不同的場景,根據(jù)任務(wù)所需能耗和時間來對執(zhí)行器的成本進行詳細設(shè)計。因此,特斯拉先對“擎天柱”的28個結(jié)構(gòu)執(zhí)行器進行共性分析,測試如何讓執(zhí)行器可以滿足多于一個關(guān)節(jié)的要求,再進行點云解析。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

點云解析

發(fā)布會上透露,執(zhí)行器一共有6種不同的設(shè)計,它們的扭矩、輸出力和質(zhì)量都完全不同。機器人身體不同部分的關(guān)節(jié)自由度各不相同,因此需要在極限情況下對執(zhí)行器進行測試。AI DAY的現(xiàn)場,通過一段提起一架將近半噸的鋼琴的視頻,對執(zhí)行器的承壓能力進行了演示。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

6種不同設(shè)計的執(zhí)行器

在手部的抓取上,特斯拉的人形機器人團隊為“擎天柱”設(shè)計了金屬基件,通過金屬基件驅(qū)動機器人的手,能夠抓取很小、很薄的東西。此外,“擎天柱”的手指上還裝有手指驅(qū)動器,離合機制讓機器人即使不打開手也能夠進行活動。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

“擎天柱”的手部關(guān)節(jié)展示

3、“擎天柱”如何實現(xiàn)看得見、走得穩(wěn)?

“擎天柱”機器人采用了和汽車一樣的感知方案——用攝像頭輸入數(shù)據(jù),以神經(jīng)網(wǎng)絡(luò)進行計算。同時,在運動、規(guī)劃和控制性上,特斯拉已經(jīng)在汽車場景上積累了不少經(jīng)驗,形成了一套FSD系統(tǒng),而運動規(guī)劃的沉淀又可以復用到機器人上,生成機器人運動學模型進行相應(yīng)的路徑規(guī)劃。

為了讓人形機器人對時間和空間形成一定的記憶,特斯拉對“擎天柱”進行了一系列的訓練,改善了占用網(wǎng)絡(luò)使用方法,使得機器人能夠更準確、快速地識別行駛區(qū)域。此外,還運用了大量的渲染,讓人形機器人能夠與現(xiàn)實環(huán)境更好地互動。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

機器人看到的世界

在人形機器人關(guān)鍵的運動控制方面,雖然“擎天柱”目前能夠?qū)崿F(xiàn)整體的平衡,但在現(xiàn)實中,機器人不僅要有對于自身物理存在的感知以及對周圍環(huán)境的完整感知,還需要讓運動軌跡和機器人可以提供的支撐力量更好地結(jié)合,防止跌跌撞撞的情況發(fā)生,扭矩是其中非常重要的一個因素。

只有使用傳感器和計算機視覺對周圍世界的感知進行動態(tài)評估,才能確保機器人保持良好的姿態(tài)和步態(tài)。

為此,特斯拉通過對動作進行捕捉后,做可視化處理,形成“關(guān)鍵幀”。軀干、手、腿的位置都會做詳細的關(guān)鍵幀分析,再將這些數(shù)據(jù)映射到機器人身上,更好地實現(xiàn)軌跡優(yōu)化。

目前,特斯拉已經(jīng)搜集了很多數(shù)據(jù)并建立了可用的數(shù)據(jù)庫,通過軌跡優(yōu)化程序讓機器人能夠更好地了解自己的物理位置以及物理軌跡。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

運動軌跡

這個被網(wǎng)友戲稱,跟小米的“鐵大”住在同一個養(yǎng)老院的“擎天柱”雖然目前功能并不完善,甚至走得都不算穩(wěn)健,但馬斯克對人形機器人的未來依然充滿信心:“擎天柱預計產(chǎn)量非常高,未來可達數(shù)百萬臺。價格將比汽車低得多,可能不到2萬美元!

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

       16萬客戶,年底全球推出,特斯拉自動駕駛有哪些進展?

這次AI DAY 除了人形機器人之外,自動駕駛也是重要組成部分。

會上,特斯拉Autopilot負責人Ashok Ellaswamy表示,2021年特斯拉FSD Beta只有2000名客戶,但如今這一數(shù)字增長到16萬,而這一成果,來源于自動駕駛團隊對75,000多個神經(jīng)網(wǎng)絡(luò)模型進行訓練。

而在具體實踐方面,自動駕駛面臨哪些問題、挑戰(zhàn),以及解決方案,這次AI DAY上特斯拉也從基礎(chǔ)訓練、Occupancy系統(tǒng)、車道和物體,規(guī)劃、人工智能編譯器和推理、自動貼標、模擬、數(shù)據(jù)引擎這八個部分分別進行了細致的講解。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

特斯拉自動駕駛實踐模型

1、路線規(guī)劃與計算

首先是路線規(guī)劃方面,特斯拉向觀眾展示了一個十字路口行人過馬路場景,自動駕駛的車輛要繞過行人實現(xiàn)左轉(zhuǎn),如何把握最好的轉(zhuǎn)向時機、是從行人的前方通過,還是從后方繞行、以及如何防止和周圍的車輛發(fā)生碰撞,都是路線規(guī)劃方面的問題。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

在這個場景中,特斯拉自動駕駛可以通過大量的計算實現(xiàn)路線規(guī)劃和障礙物的規(guī)避。

簡單來說,就是自動駕駛首先通過感知系統(tǒng)識別感知到障礙物,比如圖片中正在過馬路的路人,然后通過對它的行進軌跡、行進速度計算得出它可能的行進路線。

就像這樣,特斯拉需要將這個路口周圍所有的障礙物的軌跡都計算出來,然后再根據(jù)自己行動速度進行路線規(guī)劃,看是從他的前方通過,還是從后面繞行。

這個過程說起來簡單,但實際的決策會涉及到許多規(guī)劃的問題,比如后方突然來車,就需要用到防碰撞系統(tǒng)。因此整個系統(tǒng)具體可以包括軌跡評分、碰撞計算、平順性分析、進入性可行性分析四個部分。

一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

       2、Occupancy網(wǎng)絡(luò)和視頻訓練庫

在路線規(guī)劃系統(tǒng)背后,就需要應(yīng)用到大量的計算和強大的環(huán)境感知,也就是后面提到的Occupancy,即占用網(wǎng)絡(luò)。通過占據(jù)網(wǎng)絡(luò),特斯拉可以讓模型獲得預測物體所占據(jù)空間的能力,并在向量空間里生成由一個個立方體組成的環(huán)境。

有這個環(huán)境作為基礎(chǔ),特斯拉自動駕駛在行駛過程中,路線規(guī)劃就會可以避開這些“立方體”,車輛可以在不必識別出具體是什么障礙物的情況下做出避讓動作。除此之外,F(xiàn)SD還可以借助該數(shù)字環(huán)境識別道路坡度/曲率,讓車輛根據(jù)實際道路情況提前預測加速/減速,進一步提高安全性和舒適度。

由于數(shù)據(jù)訓練都是基于大量原始視頻文件,所以特斯拉為此專門設(shè)計了一個視頻訓練庫,它可以存儲大量的視頻原始文件并直接提供給服務(wù)器使用。

相比普通的存儲服務(wù)器,這個視頻訓練庫可以讓訓練速度提升30%,存儲文件的空間下降11%,讀取速度最小每秒讀寫次數(shù)提升4倍。

3、自動標注與仿真訓練

擁有了數(shù)據(jù),緊接著而來的問題就是對數(shù)據(jù)進行標注和處理。

為了完成這個任務(wù),特斯拉內(nèi)部有一個由1.4萬個GPU組成的超級計算機。這1.4萬GPU,有4千個用在了汽車貼標測試上,有1萬個用在了數(shù)據(jù)訓練。在此之外,特斯拉還有許多視頻緩存方面的應(yīng)用,因為在數(shù)據(jù)訓練的時候,需要大量的圖像同時導入導出,而要保證這些圖像的流暢,就需要對緩存進行非常好的處理。

當然,即使有4千個GPU用作數(shù)據(jù)標注,但如果所有的標注都依靠人工,那光特斯拉每天收集的數(shù)據(jù)就需要人工處理幾個月的時間。所以特斯拉為此還開發(fā)了一個“數(shù)據(jù)自動標注”系統(tǒng)。

除了數(shù)據(jù)自動標注之外,特斯拉還在做的一個事情是仿真模擬的自動生成,這是一個類似數(shù)字孿生的的概念。通過模擬仿真,特斯拉可以在系統(tǒng)中對自動駕駛進行訓練,按AI DAY上的說法,這可以將自動駕駛的訓練效率提高1000倍。

仿真訓練是針對有標數(shù)據(jù)的,然后再把這些數(shù)據(jù)導入到數(shù)據(jù)引擎,看看這些仿真訓練的數(shù)據(jù)是否成立,如果不成立,就再返回去再重新計算。

仿真訓練的一個好處是,它可以模擬許多現(xiàn)實環(huán)境中不存在的情況,這些情況通過實際的路測很難遇到,但我們無法保證這些情況不會出現(xiàn),如果一旦出現(xiàn),系統(tǒng)沒有準備,那結(jié)果可能將是致命的。

而模擬仿真可以將這些現(xiàn)實極難碰到,或者不可能出現(xiàn)的情況模擬出來,用作自動駕駛訓練。為此,特斯拉模擬了舊金山的交通數(shù)據(jù),這個數(shù)據(jù)如果人類來做需要一兩周甚至幾個月的時間,但是用模擬器來做,一夜之間就能完成。

4、DOJO超級計算機

說到這里,其實我們會發(fā)現(xiàn),數(shù)據(jù)、訓練一直是特斯拉自動駕駛的關(guān)鍵詞,而要完成這么多的訓練,算力就成為了其中的關(guān)鍵。

用特斯拉工程師的話說, 算力是訓練的基本糧食,沒有算力,訓練會很難執(zhí)行,或者效率會非常低。所以在這次AI DAY上,特斯拉也著重介紹了自家的超級計算機——DOJO。

DOJO來自日語“道場”,也有訓練場的意思。而在特斯拉內(nèi)部,DOJO就是專門用來進行模擬訓練的,它往往要面對規(guī)模極大的模型,包含數(shù)以億計的數(shù)據(jù)、參數(shù)。

為了解決這些問題,特斯拉的方法是將25個D1芯片集成在一個訓練瓦片(Tile)上,讓每個訓練瓦片都具備54P算力和13.4TB/S對分帶寬。6個訓練瓦片、20片接口處理器又可以組成一個托盤,兩個托盤又可以形成一個機柜,許多個機柜組合在一起,就形成了超算DOJO。

簡單理解,其實超算DOJO就是無數(shù)個D1芯片的疊加累計。 當然這最后的效果是非常明顯的,因為每臺ExaPOD的訓練性能都具備1.1E算力、1.3T高速內(nèi)存、13TB高帶寬內(nèi)存,4臺即相當72個GPU機柜的訓練性能。

可以說,DOJO的出現(xiàn),實現(xiàn)人工智能訓練的超高算力,同時擴展帶寬、減少延遲、節(jié)省成本的需求。

總的來說,在這次AI DAY上,特斯拉整體介紹了自家自動駕駛從環(huán)境感知、數(shù)據(jù)收集、訓練、處理、到應(yīng)用的整套流程。

而這一切的實現(xiàn),又都是從圍繞著特斯拉汽車周圍的八個攝像頭的視覺識別開始的。

通常,當一輛特斯拉的汽車行駛在路上的時候,自動駕駛首先會對汽車周圍的路況進行識別,比如墻、其他汽車、或者建筑等等,然后再導入到神經(jīng)系統(tǒng)中,通過這個數(shù)據(jù)的導入導出進行計算,然后對未來這這些汽車行動進行規(guī)劃,然后再結(jié)合地圖信息,比如知道的車在什么位置,下一個路口需要往什么方向轉(zhuǎn)彎等等,然后再結(jié)合一些其他數(shù)據(jù),最終實現(xiàn)車輛障礙物的規(guī)避和路線規(guī)劃。

整套邏輯的理論,都是汽車只專注于開好當前這段路,這就像人類駕駛員的開車邏輯一樣。這套邏輯和毫末在8月底剛剛舉辦的AI DAY上提出的方向頗有許多一致性。

這種一致性,也表現(xiàn)在其他方面,比如對云端訓練的重視,投入了大量的資源在超算中心和云端訓練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓練,以及自然語言處理等等。

這其實都在說明,自動駕駛在工程化上的探索,終于走到了相互交集的時候。

       原文標題 : 一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號