一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
VLA 應(yīng)該是自動(dòng)駕駛以及機(jī)器人產(chǎn)業(yè)前沿最熱的 AI人工智能詞語(yǔ)。我們之前文章《2025年,自動(dòng)駕駛即將開(kāi)“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和預(yù)言過(guò)它是自動(dòng)駕駛大模型2.0。那其實(shí)到今天,理想 VLA應(yīng)該要上車了,小鵬也發(fā)布下一代圖靈芯片的車型要上 VLA,基本上所有用英偉達(dá) Thor 超過(guò)500Tops的大算力芯片都會(huì)切換到 VLA這個(gè)算法概念上。為什么 VLA呢?VLA 怎么樣的結(jié)構(gòu)?VLA 怎么起源的?VLA 還在哪里廣泛研究和應(yīng)用?VLA 在當(dāng)前國(guó)內(nèi)外自動(dòng)駕駛的應(yīng)用情況?本文通過(guò)自己的行業(yè)認(rèn)知,結(jié)合各個(gè) VLA Paper 來(lái)做一個(gè)科普,希望給大家?guī)?lái)一些信息和啟發(fā)。1.為什么 VLA呢?VLA 除了大算力需求這個(gè)缺點(diǎn),其他都是優(yōu)點(diǎn)。
通過(guò)預(yù)訓(xùn)練提高數(shù)據(jù)效率:VLA 模型可以使用視覺(jué)-語(yǔ)言對(duì)(例如,圖像和字幕或教學(xué)視頻)在大規(guī);ヂ(lián)網(wǎng)或模擬數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,從而減少對(duì)特定任務(wù)數(shù)據(jù)的依賴。例如自動(dòng)駕駛可能不要再講你有1000萬(wàn)clips數(shù)據(jù),這些數(shù)據(jù)可能都是重復(fù)和無(wú)效的。VLA 這種預(yù)訓(xùn)練有助于引導(dǎo)其功能,使其能夠以極少的微調(diào)很好地推廣到下游任務(wù)中。更好的人類指令交互:可以聽(tīng)懂人類的語(yǔ)言,看懂人類的環(huán)境,VLA 模型可以解釋和執(zhí)行人類的指令,例如“前面紅綠燈路口左轉(zhuǎn)”或“開(kāi)進(jìn)前面的停車場(chǎng)”,這是從手動(dòng)編碼的動(dòng)作策略或符號(hào)規(guī)劃管道進(jìn)行的范式轉(zhuǎn)變。端到端大模型統(tǒng)一訓(xùn)練:VLA 模型本質(zhì)上也是一種端到端算法,它將感知、任務(wù)理解和控制合成一個(gè)整體模塊,對(duì)場(chǎng)景、目標(biāo)和行動(dòng)方式進(jìn)行聯(lián)合推理。這種整體方法提高了魯棒性并簡(jiǎn)化了系統(tǒng)設(shè)計(jì)。
跨領(lǐng)域和跨平臺(tái)泛化:視覺(jué)和語(yǔ)言的共享嵌入空間使單個(gè)模型能夠跨任務(wù)、對(duì)象和機(jī)器人實(shí)例遷移知識(shí)。這也就是當(dāng)前不少新勢(shì)力車企既能造車也能造機(jī)器人,采用VLA算法架構(gòu)和設(shè)施都可以泛化。簡(jiǎn)而言之,VLA 模型為構(gòu)建能夠在多樣化和動(dòng)態(tài)的現(xiàn)實(shí)環(huán)境中理解和執(zhí)行任務(wù)的通用機(jī)器人包括自動(dòng)駕駛奠定了良好的基礎(chǔ),使其成為下一代具身人工智能。2.VLA 怎么樣的結(jié)構(gòu)?當(dāng)前自動(dòng)駕駛也好,機(jī)器人也罷,他們執(zhí)行的任務(wù)都需要融合視覺(jué)和語(yǔ)言信號(hào),以理解空間關(guān)系、預(yù)測(cè)駕駛/行動(dòng)意圖并生成情境感知的駕駛或者行為。一般 VLA需要包含以下三個(gè)結(jié)構(gòu):視覺(jué)編碼器(例如 CNN、ViT、CLIP),對(duì)場(chǎng)景中的物體(例如道路、車輛、行人)進(jìn)行分割和分類,將像素轉(zhuǎn)換為概念Token化。語(yǔ)言模型(例如Deepseek、LLaMA-2、阿里巴巴的 Qwen類別LLM、Transformer),將指令編碼為高維嵌入,推理給出高階的意圖策略模塊或規(guī)劃器(Policy modules or Planners),使車輛能夠推理高級(jí)目標(biāo)并將其轉(zhuǎn)化為低階精細(xì)化的運(yùn)動(dòng)。這些模型通常采用多模態(tài)融合技術(shù)(例如交叉注意、級(jí)聯(lián)嵌入或標(biāo)記統(tǒng)一),以將視覺(jué)類信息與文本指令對(duì)齊。與傳統(tǒng)的視覺(jué)運(yùn)動(dòng)流程不同,VLA 支持語(yǔ)義基礎(chǔ),從而實(shí)現(xiàn)情境感知推理、可供性檢測(cè)和時(shí)間規(guī)劃。
典型的 VLA 模型通過(guò)攝像頭或激光雷達(dá)等傳感器數(shù)據(jù)觀察環(huán)境,可以解讀用語(yǔ)言表達(dá)的目標(biāo)(例如“前方右轉(zhuǎn)”),并輸出高階(例如左轉(zhuǎn))或者低階的精細(xì)化運(yùn)動(dòng)序列(例如方向2度,前進(jìn)2m等)。3. VLA 怎么起源的?VLA 模型的概念形成于 2021-2022 年左右,由 Google DeepMind 的 Robotic Transformer 2 (RT-2) 等項(xiàng)目開(kāi)創(chuàng)。提出了一種變革性架構(gòu),將感知、推理和控制統(tǒng)一在一個(gè)框架內(nèi)。VLA 集成了視覺(jué)輸入、語(yǔ)言理解和運(yùn)動(dòng)控制功能,使具身智能體能夠感知周圍環(huán)境、理解復(fù)雜指令并動(dòng)態(tài)執(zhí)行適當(dāng)?shù)膭?dòng)作。VLA 一詞最早出現(xiàn)在 Google RT-2論文中,該論文使用 PaLI-X 和 PaLM-E 作為將“像素轉(zhuǎn)化為動(dòng)作”的主干。
隨著Google RT-2論文的爆火和引用,VLA也被廣泛傳播。4. VLA 還在哪里廣泛研究和應(yīng)用?VLA應(yīng)該是在機(jī)器人行業(yè)發(fā)展更迅速,畢竟當(dāng)前機(jī)器人產(chǎn)業(yè)創(chuàng)業(yè)和實(shí)驗(yàn)成本都低于汽車。所以,我們從機(jī)器人產(chǎn)業(yè)的相關(guān)研究來(lái)看看 VLA應(yīng)用的發(fā)展。截至 2025 年本文發(fā)布時(shí)間,業(yè)內(nèi)認(rèn)為,比較先進(jìn)的視覺(jué)語(yǔ)言動(dòng)作模型 (VLA)采用的是雙層專家系統(tǒng),結(jié)合 VLM 和Diffusion擴(kuò)散解碼器。
這兩個(gè)專家系統(tǒng)共同模仿了丹尼爾·卡尼曼的雙重過(guò)程理論,將高級(jí)規(guī)劃與低級(jí)快速執(zhí)行相結(jié)合。
專家系統(tǒng) 2(“慢思考”):視覺(jué)語(yǔ)言模型( VLM ) 將視覺(jué)和文本作為上下文,對(duì)其所見(jiàn)的復(fù)雜場(chǎng)景和中間任務(wù)做出方法論決策。由于其對(duì)機(jī)器人世界的出色理解,這可以指導(dǎo)機(jī)器人的整體行為。它充當(dāng)高級(jí)規(guī)劃器,通過(guò)對(duì)多模態(tài)輸入進(jìn)行推理,深入到多個(gè)中間子任務(wù)并生成軌跡,從而實(shí)現(xiàn)其主要目標(biāo)。專家系統(tǒng) 1(“快速思考”):Transformer 解碼器或Diffusion擴(kuò)散模型充當(dāng)?shù)图?jí)控制和靈巧運(yùn)動(dòng)的動(dòng)作專家。擴(kuò)散模型具有豐富的圖像先驗(yàn)知識(shí),該系統(tǒng)利用其卓越的語(yǔ)義場(chǎng)景關(guān)系,翻譯并執(zhí)行系統(tǒng) 1 的引導(dǎo)路徑或指令,從而執(zhí)行敏捷且精細(xì)的運(yùn)動(dòng)動(dòng)作。例如Nvidia Groot N1和FigureAI 的 Helix,采用此類策略Nvidia 發(fā)布的 GR00T N1 是通用人形推理和控制的開(kāi)放基礎(chǔ)模型。
N1 是一個(gè) 2B 參數(shù)模型(eagle2_hg_model主干),基于 Omniverse 和 Cosmos 的海量合成數(shù)據(jù)以及人形機(jī)器人數(shù)據(jù)集的真實(shí)捕獲數(shù)據(jù)進(jìn)行訓(xùn)練,該預(yù)訓(xùn)練策略可以無(wú)縫適配跨實(shí)體系統(tǒng)。在 GR00T N1中環(huán)境感知、語(yǔ)言指令和機(jī)器人狀態(tài)被編碼為標(biāo)記,并傳遞給系統(tǒng) 2 和系統(tǒng) 1,以預(yù)測(cè)可以直接控制機(jī)器人的動(dòng)作標(biāo)記。規(guī)劃器將長(zhǎng)期目標(biāo)(例如“清理桌子”)解析為原子子任務(wù),而低級(jí)控制器則確保實(shí)時(shí)執(zhí)行。系統(tǒng) 2: VLM 通過(guò)推理來(lái)規(guī)劃正確的行動(dòng),用視覺(jué)和語(yǔ)言指令解釋物理世界。系統(tǒng) 1:Diffusion Transformer 擴(kuò)散變壓器,遵循系統(tǒng) 2 的指令,通過(guò)去噪以 120Hz 產(chǎn)生有意義的平滑和精確的運(yùn)動(dòng)動(dòng)作,延遲為 10 毫秒。
Figure AI 的 Helix 類似,該系統(tǒng)由兩個(gè)主要部分組成即,S2 是 VLM 主干,是一種較慢的思維模型,可以處理場(chǎng)景的視覺(jué)線索和語(yǔ)義目標(biāo),S2 基于一個(gè)擁有 7B 參數(shù)的開(kāi)源、開(kāi)放權(quán)重 VLM 構(gòu)建。S1 是一種以 200Hz 運(yùn)行的快速模型,能夠快速適應(yīng)伙伴機(jī)器人的實(shí)時(shí)動(dòng)作,S1 是一個(gè) 80M 參數(shù)的交叉注意力編碼器-解碼器 Transformer,負(fù)責(zé)處理低級(jí)控制。它依賴于一個(gè)全卷積、多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理,該主干網(wǎng)絡(luò)由完全在模擬環(huán)境中完成的預(yù)訓(xùn)練初始化。雖然 S1 接收與 S2 相同的圖像和狀態(tài)輸入,但 S1以更高的頻率處理它們,以實(shí)現(xiàn)響應(yīng)更快的閉環(huán)控制。來(lái)自 S2 的潛在向量被投影到 S1 的標(biāo)記空間中,并沿著序列維度與 S1 視覺(jué)主干網(wǎng)絡(luò)中的視覺(jué)特征連接起來(lái),從而提供任務(wù)調(diào)節(jié)。Helix 的訓(xùn)練方式是,它映射視覺(jué)場(chǎng)景和文本命令的原始像素,以產(chǎn)生具有標(biāo)準(zhǔn)回歸損失的連續(xù)動(dòng)作。
此外,比較早期和學(xué)術(shù)的 VLA模型有:OpenVLA
它由四個(gè)主要部分組成:視覺(jué)編碼器:采用雙視覺(jué)編碼器方法,結(jié)合 DINOv2(約 3 億參數(shù))和 SigLIP(約 4 億參數(shù)),接收?qǐng)D像并創(chuàng)建嵌入的扁平化塊。DINOv2 擅長(zhǎng)處理空間關(guān)系,而 SigLIP 則提供強(qiáng)大的語(yǔ)言對(duì)齊特性。投影:使用 MLP 投影將視覺(jué)嵌入映射到 LLM 的共享嵌入空間中。LLM:Llama2 7B 模型接收語(yǔ)言指令并進(jìn)行標(biāo)記化。
視覺(jué)嵌入和文本標(biāo)記一起作為序列傳遞給 LLM,以生成諸如位置、旋轉(zhuǎn)和夾持器狀態(tài)變化等動(dòng)作,這些動(dòng)作可直接用作連續(xù)信號(hào)來(lái)控制機(jī)器人的末端執(zhí)行器。動(dòng)作解碼:動(dòng)作解碼給執(zhí)行器執(zhí)行。谷歌的 Robotic Transformer (RT-2)它由預(yù)訓(xùn)練的 PaLI-X (55B) 作為視覺(jué)模型,以及 PaLM-E (12B) 作為主干模型,并與視覺(jué)數(shù)據(jù)和加權(quán)后的機(jī)器人動(dòng)作數(shù)據(jù)共同訓(xùn)練。它接收機(jī)器人的攝像頭輸入(圖像)和 NLP 查詢,并輸出離散的動(dòng)作 token。這些 token 隨后被去 token 化,生成基于代碼的指令,這些指令可以控制機(jī)器人
Physical Intelligence的 π π 推出的用于通用機(jī)器人控制的基礎(chǔ)視覺(jué)-語(yǔ)言-動(dòng)作流 VLA模型,此 VLA 模型在圖像和文本標(biāo)記的末尾附加了額外的動(dòng)作和狀態(tài)標(biāo)記,類似于把Detoken也組合進(jìn)來(lái)了,它包含:一個(gè)約 30 億預(yù)訓(xùn)練的 Paligemma VLM 模型作為基礎(chǔ)骨干,一個(gè) 3 億的擴(kuò)散模型作為基于 π 跨實(shí)體機(jī)器人數(shù)據(jù)集訓(xùn)練的動(dòng)作專家。
伯克利的SuSIESuSIE(SUbgoal Synthesis via Image Editing (SuSIE))更是一絕了,他采用的方法是通過(guò)將圖片“編輯”成一個(gè)有意義的子目標(biāo),然后使用低級(jí)目標(biāo)達(dá)成策略來(lái)實(shí)現(xiàn)該子目標(biāo)來(lái)執(zhí)行該命令。首先利用一個(gè)簡(jiǎn)單的圖像生成模型,根據(jù)給定目標(biāo)來(lái)生成未來(lái)狀態(tài)圖片。然后執(zhí)行機(jī)構(gòu)依靠低級(jí)策略來(lái)確定精確的運(yùn)動(dòng)驅(qū)動(dòng),完成機(jī)器動(dòng)作。
顯然在機(jī)器人的產(chǎn)業(yè)和學(xué)術(shù)界 VLA做了很多的探索,那么當(dāng)前汽車界使用的呢?5.VLA 在當(dāng)前自動(dòng)駕駛的應(yīng)用情況?最早在汽車智能駕駛上應(yīng)用 VLA的應(yīng)該是英國(guó)自動(dòng)駕駛創(chuàng)業(yè)公司W(wǎng)ayve,他在 2023 年 9 月推出的 LINGO-1算法就在自動(dòng)駕駛上應(yīng)用了 VLM,他可以生成連續(xù)的評(píng)論,解釋駕駛行為背后的原因。這可以幫助用戶用自然語(yǔ)言理解自動(dòng)駕駛模型正在關(guān)注什么以及它正在做什么。到了2024年3月份,Wayve就發(fā)布了其 VLA模型 LINGO-2。
目前 Wayve已經(jīng)和 Uber合作在美國(guó)和英國(guó)部署L4 robotaxi。日產(chǎn)將在2027年基于Wayve的技術(shù)推出下一代ProPilot智能輔助駕駛。另外一家推出過(guò)類似 VLA概念的就是Google自動(dòng)駕駛公司W(wǎng)aymo。Waymo的EMMA,是Waymo在2024年10月發(fā)布的一個(gè)探索項(xiàng)目論文,應(yīng)該沒(méi)有批量應(yīng)用。
在中國(guó)這邊跟特別緊的就是理想汽車了,走了類似于Wayve的路。理想汽車在2024年2月份左右推出VLM論文,緊接著大概7月份宣發(fā)上車。到了年底開(kāi)始推出VLA相關(guān)論文,然后將會(huì)在2025年7月基于英偉達(dá)Thor以及雙Orin平臺(tái)上市 VLA新的智能輔助駕駛。具體了解理想的VLA可以查看之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》.
小鵬在最近發(fā)布的G7已經(jīng)明確表示采用 VLA,但具體實(shí)現(xiàn)形式不清楚,不過(guò)通過(guò)其發(fā)布的720億(72B)云端算法架構(gòu)圖,顯然這是一個(gè) 云端VLA的架構(gòu),未來(lái)估計(jì)可以蒸餾成一個(gè)車端 VLA模型放到車端芯片上。根據(jù)小鵬6月12 G7發(fā)布會(huì)上宣布的信息,小鵬智能駕駛采用三塊圖靈芯片共計(jì)2200Tops的算力,支持車端 VLA+VLM 的架構(gòu)。其實(shí)可以瞄一眼上圖理想的VLA架構(gòu),兩家應(yīng)該趨同了,不同點(diǎn)是理想的 VLM是放在云端,小鵬憑借大算力芯片將 VLM放在了車端。
華為在年初發(fā)布的ADS 4.0采用的WEWA,總體上是宣布華為到了端到端,WE 世界引擎也就是世界模型的一個(gè)應(yīng)用,用于生成虛擬驗(yàn)證的場(chǎng)景。WA應(yīng)該是一個(gè)端到端的范式,華為目前應(yīng)該缺少跑VLA的芯片。
6.寫(xiě)在最后VLA采用視覺(jué)信息,語(yǔ)言信息結(jié)合,基本上就是類人的仿生,人類也就是采用這類方式與物理世界交互。所以 VLA就是解決 Physical AI而生,自動(dòng)駕駛以及機(jī)器人都是Physical AI最大的落地應(yīng)用,自動(dòng)駕駛以及機(jī)器人產(chǎn)業(yè),他們的人工智能算法邏輯,儲(chǔ)能以及運(yùn)動(dòng)電機(jī)等核心零部件類似,所以,做智能汽車的基本上也會(huì)做人形機(jī)器人了。那么是不是 VLA需要自研呢?其實(shí)至少里面的 LLM大語(yǔ)言模型肯定不需要自研的,畢竟一個(gè)LLM是一個(gè)人工智能的基礎(chǔ)范疇,不需要也沒(méi)必要重新發(fā)明輪子。目前已知國(guó)外自動(dòng)駕駛或者機(jī)器人基本用Open AI、Meta、Google的LLM; 國(guó)內(nèi)汽車界理想和小鵬應(yīng)該通用采用Deepseek或者阿里的Qwen。最終大家都是利用人工智能模型組合好自己的 VLA,進(jìn)行落地應(yīng)用。不過(guò)最后,提醒,先進(jìn)的技術(shù)≠ 好的產(chǎn)品體驗(yàn)。
參考文章以及圖片
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment - wayve
ZERO-SHOT ROBOTIC MANIPULATION WITH PRETRAINED IMAGE-EDITING DIFFUSION MODELS - University of California, Berkeley 2Stanford University 3Google DeepMind
π0:用于通用機(jī)器人控制的視覺(jué)-語(yǔ)言-動(dòng)作流模型 - Physical Intelligence
ORION:基于視覺(jué)語(yǔ)言指導(dǎo)動(dòng)作生成的整體端到端自動(dòng)駕駛框架 - Huazhong University of Science and Technology, 2 Xiaomi EV
HybridVLA: 統(tǒng)一視覺(jué)-語(yǔ)言-動(dòng)作模型中的協(xié)同擴(kuò)散和自回歸.pdf - 1State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University; 2Beijing Academy of Artificial Intelligence (BAAI); 3CUHK
視覺(jué)-語(yǔ)言-行動(dòng)模型:概念、進(jìn)展、應(yīng)用與挑戰(zhàn).pdf - aCornell University, Biological & Environmental Engineering, Ithaca, New York, USA bThe Hong Kong University of Science and Technology, Department of Computer Science and Engineering, Hong Kong cUniversity of the Peloponnese, Department of Informatics and Telecommunications, Greece
全球自動(dòng)駕駛模型綜述 - Tuo Feng, Wenguan Wang, Senior Member, IEEE, Yang Yi, Senior Member, IEEE
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:
原文標(biāo)題 : 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月13日立即參評(píng)>> 【評(píng)選】維科杯·OFweek2025中國(guó)工業(yè)自動(dòng)化及數(shù)字化行業(yè)年度評(píng)選
-
6月13日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】olution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
推薦專題
- 1 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 2 又一巨頭裁員6000人,賠償N+8!
- 3 全民智駕,宣告結(jié)束
- 4 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 5 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單