訂閱
糾錯(cuò)
加入自媒體

推進(jìn) AI 打造最值得信賴的駕駛員:Waymo 在自動(dòng)駕駛模型算法方面的實(shí)踐

在NVIDIA GTC 2025 上,Waymo 副總裁兼研究主管 Drago Anguelov 發(fā)表了題為“推進(jìn) AI 打造最值得信賴的駕駛員”的演講。他演講的核心思想是,要成為世界上最值得信賴的駕駛員,需要將先進(jìn)的 AI 模型與實(shí)際駕駛經(jīng)驗(yàn)相結(jié)合,打造一個(gè)安全、可靠且具有社會(huì)意識(shí)的自動(dòng)駕駛系統(tǒng)。在會(huì)上,Drago具體分享了,Waymo在“構(gòu)建駕駛員”(Building the Driver)和“驗(yàn)證駕駛員”(Validating the Driver)等自動(dòng)駕駛算法方面的實(shí)踐。

當(dāng)然此演講,也被外網(wǎng)不少技術(shù)大拿評(píng)價(jià)為2025GTC最值得看的自動(dòng)駕駛內(nèi)容。本文根據(jù)相關(guān)內(nèi)容整理,Waymo自動(dòng)駕駛主要是基于AI算法方面實(shí)踐內(nèi)容,希望帶來(lái)一些信息和前沿AI自動(dòng)駕駛算法關(guān)鍵詞的理解。構(gòu)建駕駛員”(Building the Driver)-從人類駕駛到AI駕駛的躍遷人類駕駛其實(shí)是一項(xiàng)復(fù)雜的技術(shù),一般的法律都需要滿16歲,然后通過(guò)交通規(guī)則的考試和實(shí)際操作考試,最后才允許上路駕駛。

那么換成機(jī)器去駕駛,同樣會(huì)有人類駕駛難題的挑戰(zhàn):復(fù)雜的物理環(huán)境,現(xiàn)實(shí)的駕駛環(huán)境包括不同的天氣,光照,灰塵;道路上其他人的駕駛危險(xiǎn)和違章等等,而人類駕駛的眼睛等能夠處理高維多模態(tài)輸入,每秒可讀取1億個(gè)傳感器讀數(shù)。高性能計(jì)算的需求,汽車駕駛需要在安全相關(guān)領(lǐng)域操作,如果出錯(cuò),可能導(dǎo)致嚴(yán)重后果。而且,各種事故的出現(xiàn),大概率都是罕見的長(zhǎng)尾案例。實(shí)時(shí)性的計(jì)算,所有安全關(guān)鍵計(jì)算必須使用汽車的車載計(jì)算機(jī)實(shí)時(shí)執(zhí)行,必須遵守嚴(yán)格的延遲要求。Waymo駕駛員構(gòu)建的法則是,利用AI技術(shù),采用Waymo基礎(chǔ)模型(Foundation Model)的方式。Waymo基礎(chǔ)模型(Foundation Model)Waymo基礎(chǔ)模型(Waymo Foundation Model)的核心目標(biāo)是結(jié)合專有的自動(dòng)駕駛機(jī)器學(xué)習(xí)技術(shù)(AV-specific ML)與通用視覺語(yǔ)言模型(VLMs)的世界知識(shí),以解決自動(dòng)駕駛中的關(guān)鍵挑戰(zhàn)。

感知輸入數(shù)據(jù):整合攝像頭(Camera)、激光雷達(dá)(Lidar)、雷達(dá)(Radar)等多傳感器數(shù)據(jù)。Token和Decoder:通過(guò)Tokenizer(分詞器)和Decoder(解碼器)處理,生成統(tǒng)一的場(chǎng)景表示,形成類似于語(yǔ)言結(jié)構(gòu),方便LLM類的大模型處理。中間任務(wù):利用Intermediate Tasks(如目標(biāo)檢測(cè)、語(yǔ)義分割)提取場(chǎng)景特征,并通過(guò)Language Aligned Encoders(語(yǔ)言對(duì)齊編碼器)將感知結(jié)果與地圖先驗(yàn)(Map Prior)結(jié)合,增強(qiáng)空間推理能力。

以上為Waymo駕駛的基礎(chǔ)模型框架,在這個(gè)框架里面,Waymo做了更細(xì)節(jié)的實(shí)踐。MotionLM架構(gòu)擴(kuò)展上文講到,駕駛中最難的是交互,Waymo推出MotionLM模型,它將多智能體也就是其他交通參與者的行為建模為“對(duì)話”,使用類似LLM的架構(gòu)預(yù)測(cè)軌跡(類似語(yǔ)言中的句子),支持長(zhǎng)尾場(chǎng)景的交互決策。通過(guò)大規(guī)模計(jì)算(FLOPs)驗(yàn)證模型性能隨規(guī)模提升的規(guī)律。

端到端多模態(tài)模型(EMMA)這個(gè)我們之前文章《采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》分享過(guò),他是基于Gemini架構(gòu),支持多任務(wù)(如3D目標(biāo)檢測(cè)、可行駛區(qū)域估計(jì)、路徑規(guī)劃)的統(tǒng)一模型。在Waymo Open Motion和nuScenes數(shù)據(jù)集上達(dá)到SOTA性能(如EMMA+的L2誤差僅0.29m)。

而可以看到,國(guó)內(nèi)模型方面例如地平線的UniAD;理想汽車和清華做的Drive VLM誤差都比Waymo的EMMA大。

以上就是為Waymo在自動(dòng)駕駛方面“構(gòu)建駕駛員”的一些探索;那么如何確保構(gòu)建的駕駛員是正確的,安全的?這個(gè)時(shí)候就需要驗(yàn)證駕駛員”(Validating the Driver)了。驗(yàn)證駕駛員”(Validating the Driver)-應(yīng)對(duì)視覺語(yǔ)言模型的局限性為什么要驗(yàn)證構(gòu)建的駕駛員?方法論上是可實(shí)施的,但是當(dāng)前自動(dòng)駕駛主要依賴的核心技術(shù)是視覺AI,而當(dāng)前的視覺語(yǔ)言模型也是有他的局限性的。獨(dú)立視覺語(yǔ)言模型(Standalone Vision-Language Model)的局限性主要包括以下四點(diǎn):

1. 多模態(tài)傳感器支持不足(Multi-modal Sensor Support)其實(shí),現(xiàn)有模型難以有效整合激光雷達(dá)(Lidar)、視覺(Camera)、雷達(dá)(Radar)等多模態(tài)傳感器的數(shù)據(jù)。但是,當(dāng)前的自動(dòng)駕駛需要融合不同傳感器的互補(bǔ)信息(如激光雷達(dá)的精確3D定位與視覺的語(yǔ)義理解),獨(dú)立模型在此類跨模態(tài)對(duì)齊與聯(lián)合推理中存在性能瓶頸。

2. 空間推理精度有限(Accurate Spatial Reasoning)當(dāng)前的模型對(duì)三維物理空間的動(dòng)態(tài)感知和推理能力不足,例如在復(fù)雜交通場(chǎng)景中準(zhǔn)確預(yù)測(cè)車輛、行人的運(yùn)動(dòng)軌跡(如ADE指標(biāo)中的誤差積累)。例如,演講中提到EMMA+模型在8秒預(yù)測(cè)窗口的ADE誤差仍達(dá)1.553米(Waymo Open Motion數(shù)據(jù)集),表明長(zhǎng)時(shí)空間推理仍需提升。

3. 長(zhǎng)期記憶能力欠缺(Long Term Memory)當(dāng)前的大模型缺乏對(duì)歷史場(chǎng)景的持續(xù)記憶能力,難以在長(zhǎng)時(shí)間駕駛?cè)蝿?wù)中保持上下文一致性(如跟蹤持續(xù)移動(dòng)的目標(biāo)或應(yīng)對(duì)周期性事件)。例如,在復(fù)雜城市道路中(如多次變道、路口連續(xù)交互),短期記憶可能導(dǎo)致決策片段化,增加風(fēng)險(xiǎn)。

4. 魯棒推理與幻覺抑制不足(Robust Reasoning without Hallucinations)當(dāng)前大模型在噪聲數(shù)據(jù)或模糊場(chǎng)景下易產(chǎn)生錯(cuò)誤推斷(如誤判障礙物位置)或“幻覺”(如虛構(gòu)不存在的交通參與者)。當(dāng)前類似的與Deepseek或者ChatGPT有這種幻覺,頂多讓你信息錯(cuò)誤,而駕駛在公共道路上,任何的事故風(fēng)險(xiǎn)都是人命,所以比較要驗(yàn)證“自動(dòng)駕駛的駕駛員”。

驗(yàn)證的主要內(nèi)容是應(yīng)對(duì)不同場(chǎng)景下,不同駕駛參與者的博弈和交互;驗(yàn)證感知的內(nèi)容是準(zhǔn)確的。Waymo的驗(yàn)證駕駛員”(Validating the Driver)實(shí)踐有:

1,可擴(kuò)展的仿真驗(yàn)證平臺(tái)。開發(fā)了基于AI的交通仿真器Scene Diffuser++,通過(guò)生成式世界模型實(shí)現(xiàn)城市級(jí)多智能體交通流模擬。該模型采用多模態(tài)張量擴(kuò)散技術(shù),聯(lián)合預(yù)測(cè)未來(lái)時(shí)間步中所有交通參與者(車輛/信號(hào)燈)的運(yùn)動(dòng)軌跡和狀態(tài)有效性。使用Block-NeRF技術(shù),通過(guò)車輛自有傳感器數(shù)據(jù)重建城市街區(qū)的三維環(huán)境,實(shí)現(xiàn)高保真度的傳感器模擬(如激光雷達(dá)、攝像頭)。

現(xiàn)在采用3D高斯?jié)姙R(3DGS)來(lái)取代NeRF技術(shù)。NeRF:依賴神經(jīng)網(wǎng)絡(luò)隱式建模場(chǎng)景的輻射場(chǎng),通過(guò)體積渲染生成圖像,需復(fù)雜的光線追蹤計(jì)算。3DGS:使用顯式的各向異性3D高斯模型(帶有外觀信息的幾何體素),直接渲染場(chǎng)景,兼容傳統(tǒng)圖形引擎,無(wú)需復(fù)雜的光線追蹤。

這樣,采用3D高斯?jié)姙R(3DGS)實(shí)時(shí)渲染技術(shù),比NeRF快57倍,提升模擬真實(shí)性和效率。

2.真實(shí)場(chǎng)景生成與泛化驗(yàn)證基于大規(guī)模真實(shí)駕駛數(shù)據(jù)學(xué)習(xí)仿真器(Real2Sim),Controllable Editing,支持多視角場(chǎng)景重建與全局編輯(如天氣、時(shí)間變化),重點(diǎn)解決系統(tǒng)在未見過(guò)場(chǎng)景中的泛化能力挑戰(zhàn)。

通過(guò)隨機(jī)化車輛動(dòng)態(tài)參數(shù)(如加速度限制、轉(zhuǎn)向響應(yīng))和道路使用者行為(如模擬注意力缺失駕駛員),生成多樣化測(cè)試場(chǎng)景,驗(yàn)證系統(tǒng)在極端情況下的魯棒性。寫在最后Waymo還是非常合規(guī)和謹(jǐn)慎的企業(yè),Waymo剛開始是Google于2009年1月開啟的一項(xiàng)自動(dòng)駕駛汽車計(jì)劃,之后于2016年12月才由Google獨(dú)立出來(lái),然而到現(xiàn)在算是在自動(dòng)駕駛摸爬滾打了16年,依然只是在美國(guó)的4個(gè)城市實(shí)踐,即將拓展另外2個(gè)城市。

他們的商業(yè)和投資環(huán)境,他們的公司理念還是值得欽佩和學(xué)習(xí)。未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄Advancing AI to Build the World’s Most Trusted Driver pdf - VP, Head of AI Foundations Team WaymoDriveVLM:自動(dòng)駕駛與大型視覺語(yǔ)言模型的融合 pdf- 理想汽車和清華大學(xué)相關(guān)人員 加入我們的知識(shí)星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。

       原文標(biāo)題 : 推進(jìn) AI 打造最值得信賴的駕駛員:Waymo 在自動(dòng)駕駛模型算法方面的實(shí)踐

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)