論文:基于關(guān)鍵點的單目3D目標檢測
關(guān)鍵點檢測網(wǎng)絡(luò)
本文的關(guān)鍵點檢測網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測框的頂點及中心點,其包括三個組成部分:骨架、關(guān)鍵點特征金字塔以及檢測頭,主要架構(gòu)采用了與 2D 無錨檢測器相似的一階段策略。
為了在速度和準確性之間進行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個 RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對輸入進行降采樣。ResNet-18 和 DLA-34 用于圖像分類網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進行上采樣。在上采樣層之前連接了相應(yīng)的低級特征圖,同時添加了一個 1×1 卷積層以減小通道尺寸。經(jīng)過三個上采樣層后,通道分別為 256、128、64。
圖像中的關(guān)鍵點在大小上沒有差異。因此,關(guān)鍵點檢測不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點特征金字塔網(wǎng)絡(luò)(KFPN),以檢測點空間中尺度不變的關(guān)鍵點。假設(shè)我們有F個尺度特征圖,我們首先調(diào)整每個大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運算生成軟權(quán)重,以表示每個尺度的重要性。通過線性加權(quán)獲得最終的尺度空間得分圖:
檢測頭由三個基本組件和六個可選組件組成,可以任意選擇這些組件以提高 3D 檢測的準確性,而計算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點作為連接所有特征的主要中心 由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點。Heatmap 定義為 M,其中 C 是目標種類的數(shù)量,另一部分是由頂點和中心點投影出的 9 個點 V,對于一個對象的關(guān)鍵點,本文將回歸得到的主中心的局部偏移量 Vc 作為指標。最接近 Vc 坐標的 V 的關(guān)鍵點被作為一個對象的集合。盡管 9 個關(guān)鍵點的 18 個的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗條件能夠增加更多的約束,中心偏移 M_OS,頂點偏移 V_OS 是 heatmap 中對每個關(guān)鍵點的離散誤差。
3D 目標的維度 D 方差小容易預(yù)測,本文引用基于 Multi-Bin 方法對偏航角 θ 進行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進行分類,并使用 2 個 bin 生成方向特征圖,同時對 3D 邊框的中心深度Z進行回歸。最終的 loss 如下(各部分 loss 的定義參見原文,在此不再贅述):
3D邊框的估計
得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標是找出哪一個邊框中心點與 2D 關(guān)鍵點 kp 最匹配,這能夠最小化 3D 關(guān)鍵點和 2D 關(guān)鍵點的投影損失,并將它和其他先驗損失定義為一個非線性最小二乘優(yōu)化問題:
其中 e_cp、e_d、e_r 是相機點、維度先驗、方向先驗的損失,從 heatmap 中提取的置信度表示為:
實驗論文
本文在 KITTI 數(shù)據(jù)集上進行了實驗。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?