通過視覺信號預(yù)測駕駛員意圖
本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡(luò)來檢測視頻序列中信號的方法,采用該方法對超過一百萬幀視頻資源進(jìn)行實驗,實驗結(jié)果表明,采用該方法,每幀的精度都很高。
ICRA(International Conference on Robotics and Automation) 是IEEE機(jī)器人與自動化學(xué)會的旗艦會議。2019年的ICRA在加拿大蒙特利爾于當(dāng)?shù)貢r間5月20日盛大召開。本次ICRA會議,有眾多行業(yè)大咖分享最新的學(xué)術(shù)成果,并設(shè)立一個行業(yè)論壇和IERA計劃、一個政府論壇和一個ICRA-X機(jī)器人藝術(shù)論壇。
圖片選自ICRA官方網(wǎng)站
往屆的ICRA,匯集世界頂尖研究人員和企業(yè),共同分享最新的研究成果,很多的機(jī)器人和自動化領(lǐng)域的重要前沿科技均是在ICRA首度曝光。隨著機(jī)器人自動化領(lǐng)域的不斷擴(kuò)大,以行業(yè)為中心的活動不斷增加,今年的ICRA2019匯集了更多行業(yè)領(lǐng)軍人才及企業(yè)。
在每日的keynote演講嘉賓名單中,小編發(fā)現(xiàn)了Raquel Urtasun。Raquel Urtasun是優(yōu)步ATG首席科學(xué)家兼優(yōu)步ATG多倫多負(fù)責(zé)人,是多倫多大學(xué)計算機(jī)科學(xué)系的副教授,加拿大機(jī)器學(xué)習(xí)和計算機(jī)視覺研究主席以及人工智能矢量研究所的聯(lián)合創(chuàng)始人。研究領(lǐng)域包括:自動駕駛汽車,計算機(jī)視覺,機(jī)器學(xué)習(xí),遙感和機(jī)器人。她的實驗室被選為NVIDIA NVAIL實驗室。曾獲得NSERC EWR Steacie、NVIDIA AI獎,教育和創(chuàng)新早期研究員獎,三個Google Faculty Research獎。
22日,Raquel Urtasun將為ICRA做主題為“A future affordable self-driving vehicles”的主旨演講。因為她的主題還未發(fā)表,那么我們先來看看Raquel Urtasun實驗室的投稿論文吧。
小編發(fā)現(xiàn),在Raquel Urtasun實驗室主頁上顯示,有一篇題為“深度信號:通過視覺信號預(yù)測駕駛員意圖 DeepSignals: Predicting Intent of Drivers Through Visual Signals”中投ICRA。本篇文章提出了一種利用深度神經(jīng)網(wǎng)絡(luò)來檢測視頻序列中信號的方法,采用該方法對超過一百萬幀視頻資源進(jìn)行實驗,實驗結(jié)果表明,采用該方法,每幀的精度都很高。
文章詳情
在自動駕駛汽車成為常態(tài)之前,人類和機(jī)器人將不得不共享道路。在這種共享的場景中,車輛之間的通信對于向其他車輛發(fā)出緊急或危險的演習(xí)警報至關(guān)重要。因此,對人類意圖的社會理解對自我驅(qū)動的進(jìn)步至關(guān)重要。這給自動駕駛系統(tǒng)帶來了額外的復(fù)雜性,因為這種交互通常很難學(xué)習(xí)模仿。司機(jī)們相互交流意圖,以便做出臨時決策的動作,以便在更早的時候發(fā)出警告,而不是通過運動來推斷。雖然駕駛員的動作傳達(dá)了意圖,例如,當(dāng)駕駛員減速以表示其他車輛可以并道,或接近車道邊界以表示所需的合并位置時,駕駛員的動作提示是微妙的、全動作相關(guān)的、并且是短期瞬時的。相比之下,視覺信號,尤其是信號燈,是清晰的,可以提前很長時間發(fā)出警告,這種警告表示可能出現(xiàn)的意外動作。
例如,如果沒有檢測到轉(zhuǎn)彎信號,一輛停著的汽車在駛?cè)胗娑鴣淼能嚵鲿r,同樣有可能保持停著不動。類似地,當(dāng)司機(jī)計劃在另一輛車前面停車時,他們通常會提前發(fā)出安全信號。公共汽車在停車接送乘客時也會發(fā)出閃光信號,允許從后面駛來的車輛改變車道,從而減少了延誤和擁堵。當(dāng)司機(jī)了解其他交通參與者的意圖,這些日常行為是安全的;但如果忽視視覺信號是危險的。因此,人類希望自動駕駛汽車做出反應(yīng),通過視覺信號預(yù)測駕駛員意圖的問題,并特別關(guān)注于解釋信號燈。
圖2 來自1,257,591個標(biāo)記幀的數(shù)據(jù)集的挑戰(zhàn)性場景。
研究人員在一個全新的、具有挑戰(zhàn)性的真實數(shù)據(jù)集上展示了他們的方法的有效性,該數(shù)據(jù)集包含來自他們實驗室的自動駕駛平臺的34小時視頻。該數(shù)據(jù)集包括在真實的(黑夜白天)城市駕駛場景中發(fā)現(xiàn)的不利條件,包括擁堵、遠(yuǎn)距離和不常見的車輛、惡劣天氣等各種場景(參見圖2)。
圖3 在這項工作中,研究人員建議使用一個卷積循環(huán)架構(gòu)來分類車輛的轉(zhuǎn)彎信號狀態(tài)。對于每個輸入幀,使用全卷積網(wǎng)絡(luò)預(yù)測掩碼(a),然后使用原始輸入圖像獲取element-wise,并使用基于vgg16的CNN提取空間特征(b),然后合并使用卷積LSTM時序特性(c),從最終隱藏狀態(tài)出發(fā),預(yù)測了車輛轉(zhuǎn)彎信號狀態(tài)和視場面的概率分布(d)。
該模型的建立是為了解決三個問題:attention意圖,識別行為人的信號燈; understanding語義理解,識別遮擋和觀察行動者的方向; temporal reasoning時間推理,以區(qū)別閃爍燈和持久燈。針對這些問題研究人員設(shè)計了一個深度學(xué)習(xí)體系結(jié)構(gòu)。請參考圖3以獲得詳細(xì)說明。輸入幀首先由應(yīng)用空間掩碼的attention模塊進(jìn)行處理,然后使用深度卷積網(wǎng)絡(luò)恢復(fù)空間概念。然后,將每幀的信息輸入卷積LSTM,將轉(zhuǎn)彎信號和緊急閃光的時間模式與其他內(nèi)容區(qū)分開來。生成的時空特征被傳遞到完全連接的層中進(jìn)行分類。
研究人員使用多任務(wù)丟失來訓(xùn)練模型。具體來說,在任務(wù)上定義了加權(quán)交叉熵?fù)p失。給定模型輸入x,地面真值標(biāo)簽y,模型權(quán)值θ,任務(wù)權(quán)值γ,網(wǎng)絡(luò)函數(shù)σ,損失函數(shù)為:
其中每個任務(wù)損失使用交叉熵定義為:
由于沒有用于轉(zhuǎn)彎信號分類的公共數(shù)據(jù)集,研究人員在自主駕駛平臺上記錄了超過10000條10赫茲下的車輛軌跡,并將其標(biāo)記為轉(zhuǎn)彎信號狀態(tài),總共標(biāo)記了1,257,591幀。每一幀都被標(biāo)記為左轉(zhuǎn)彎和右轉(zhuǎn)彎燈的ON打開,OFF關(guān)閉或UNKNOWN未知。注意,標(biāo)簽標(biāo)識了每盞燈的概念狀態(tài),ON表示即使燈泡沒有被點亮,信號也是活動的。這些較低層次的標(biāo)簽被用來推斷高層次的動作意圖:左轉(zhuǎn)、右轉(zhuǎn)、閃光、關(guān)閉和未知。圖4a顯示了標(biāo)簽的數(shù)量,它證明了數(shù)據(jù)集中對OFF類有相當(dāng)大的偏向。還顯示了距離上的分布(圖4c)和視點(圖4d)。
比較FC-LSTM、ConvLSTM、cn-clstm以及文章提出的方法,上述指標(biāo)如表1所示。FC-LSTM性能最弱;這可以解釋為全連通層在提取空間特征時效率低下,只有通過網(wǎng)絡(luò)的大容量來平衡,這使得它可以學(xué)習(xí)更復(fù)雜的功能。ConvLSTM通過利用門的卷積實現(xiàn)了稍好一點的效果,這使得它更適合于空間特征提取。然而,它的內(nèi)存效率低下阻止了使用更深層次的架構(gòu),因此限制了模型的容量。結(jié)合這兩種方法,得到了一個CNNLSTM,它既能利用CNNs豐富的空間特征提取,又能利用LSTMs的時間特征表示,取得了比之前基線更好的效果。我們提出的方法在LSTM和注意機(jī)制中進(jìn)一步增加了卷積,得到了最好的結(jié)果。
混淆矩陣如表2所示。注意,OFF的檢測精度明顯較高,而FLASHERS的檢測精度較低,因為這兩個類在數(shù)據(jù)集中分別表示過多和過少,即使使用分層抽樣方案,圖4d(a)這種不平衡自然會影響測試性能。
網(wǎng)絡(luò)故障模式。(a)夜間明亮的燈光被錯誤地歸類為左轉(zhuǎn)。(b)遠(yuǎn)處車輛右側(cè)的明亮反光被誤列為右轉(zhuǎn)彎。(c)一輛不常見的車輛識別結(jié)果為沒有發(fā)出右轉(zhuǎn)信號。(d)姿態(tài)解碼錯誤,輸出翻轉(zhuǎn)。(e)在載有單車的車輛上作假性左轉(zhuǎn)。
結(jié)論
在自動駕駛領(lǐng)域,檢測駕駛員的意圖是一項必不可少的任務(wù),是預(yù)測諸如變道和停車等突發(fā)事件的必要手段。在本文中,研究人員解決了轉(zhuǎn)彎信號分類這一重要而尚未探索的問題。提出了一種能夠端到端的訓(xùn)練方法,能夠處理車輛的不同視點。提出的神經(jīng)網(wǎng)絡(luò)通過意圖、卷積和遞歸來推斷空間和時間特征,從而在幀級對一系列觀測信號的轉(zhuǎn)彎信號狀態(tài)進(jìn)行分類。該實驗使用包含120多萬張實況圖像的數(shù)據(jù)集來訓(xùn)練和評估的方法。未來在這個問題上,研究領(lǐng)域?qū)䲠U(kuò)展到緊急車輛信號,以及更多分類的功能(例如來自曝光不足的相機(jī)的圖像)的識別問題上。
參考:
[1] Frossard D, Kee E, Urtasun R.DeepSignals: Predicting Intent of Drivers Through Visual Signals[J]. arXivpreprint arXiv:1905.01333, 2019.
[2] icra2019.org
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
技術(shù)文庫
最新活動更多
推薦專題
- 1 2025上海車展看什么?看這一篇就夠了!
- 2 關(guān)稅大戰(zhàn),汽車芯片會漲價嗎
- 3 工信部召開智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入及軟件在線升級管理工作推進(jìn)會提的內(nèi)容,將如何影響智駕行業(yè)發(fā)展?
- 4 地平線智駕方案軟硬結(jié)合,大眾、保時捷的合作紛至沓來
- 5 高呼的“全民智駕”真的做到“全民”了嗎?
- 6 一季度汽車產(chǎn)量省份排名大洗牌!誰在異軍突起?
- 7 奇瑞的混動技術(shù):厚積薄發(fā),從發(fā)動機(jī)到混動系統(tǒng)
- 8 中國汽車發(fā)展頂層設(shè)計思路 - 萬鋼主席2025百人會核心內(nèi)容總結(jié)
- 9 東風(fēng)+華為,還是華為借東風(fēng)?華為ADS3.0技術(shù)詳解
- 10 工信部對浮躁的智駕說“不”