使用Python進(jìn)行SOTA:用于多目標(biāo)跟蹤的一鍵式跟蹤器
介紹
多目標(biāo)跟蹤是計算機視覺中的一個重要問題,近年來一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
MOT的目標(biāo)是在視頻序列中預(yù)測多個感興趣對象的單個軌跡。它有益于自動駕駛、人機交互到智能視頻等重大應(yīng)用。
通過檢測范式進(jìn)行跟蹤
在大多數(shù)現(xiàn)代多目標(biāo)跟蹤系統(tǒng)中,主要的策略是通過檢測范式進(jìn)行跟蹤。通過檢測范式進(jìn)行跟蹤將MOT分解為以下步驟:
用于目標(biāo)定位的目標(biāo)檢測器
建立外觀模型為檢測到的目標(biāo)提取ReID特征。
深入研究 Person-ReID
運動模型和數(shù)據(jù)關(guān)聯(lián),在其中分配檢測到的目標(biāo)并將其連接到現(xiàn)有軌跡。
它旨在尋找與時空相匹配并形成軌跡的檢測。理想情況下,每個單獨的軌跡都應(yīng)具有唯一的跟蹤ID。
小提示:檢測總是不完美,我們將在“挑戰(zhàn)”部分中介紹。多年來,我們目睹了目標(biāo)檢測和再識別方面的驚人進(jìn)步,這是多目標(biāo)跟蹤的關(guān)鍵組成部分。但是,如何在單一網(wǎng)絡(luò)中同時完成這兩項任務(wù),目前還很少有人關(guān)注。在此博客中,我們將分解MOT系統(tǒng),并研究FairMOT,該系統(tǒng)在檢測和跟蹤方面具有很高的準(zhǔn)確性,在幾個公共數(shù)據(jù)集上,它的性能大大超過了之前的SOTAs。我們還將介紹以前的單次方法失敗的原因。
挑戰(zhàn)
當(dāng)我們分解MOT系統(tǒng)時,我們可以把握每個步驟可能面臨的挑戰(zhàn)。由于遮擋,視角/姿勢/模糊/照明變化和背景混亂等因素,目標(biāo)檢測可能會失敗。序列中可能存在相同對象類型的多個實例,這使得外觀通常非常相似,并且很難進(jìn)行唯一匹配。因此,擁有正確的指標(biāo)來評估MOT框架并進(jìn)一步優(yōu)化它是非常重要的。方法多目標(biāo)跟蹤系統(tǒng)可以放在兩個括號中:在線跟蹤:在線跟蹤會逐幀處理跟蹤ID,而無法查看將來的幀。非常適合實時應(yīng)用程序和流數(shù)據(jù)。但是它很容易漂移,因為很難從錯誤或遮擋中恢復(fù)。脫機跟蹤:脫機跟蹤按順序處理一批幀。這有助于從遮擋中恢復(fù)以及對動態(tài)世界的推理。它不適用于實時應(yīng)用,但不適用于視頻分析。例如,通過顧客在商店中的移動和互動來分析顧客的行為。MOT神經(jīng)求解器 (https://arxiv.org/abs/1912.07515) 是這種方法的一個很好的例子,它探索了圖神經(jīng)網(wǎng)絡(luò)。數(shù)據(jù)MOTChallenge(https://motchallenge.net/)社區(qū)創(chuàng)建了一個通用框架來測試多目標(biāo)跟蹤器。他們添加的公共數(shù)據(jù)集序列,具有挑戰(zhàn)性,具有多種特征,包括不同的幀頻,擁擠的場景,視角或光照,可以模仿現(xiàn)實生活的場景,并挑戰(zhàn)研究人員和從業(yè)者開發(fā)一個通用跟蹤器來處理這些序列。
MOT16 / 17數(shù)據(jù)集——來源
PapersWithCode:)MOT:)正如你所看到的FairMOT在多個公共數(shù)據(jù)集上處于領(lǐng)先地位。我們將很快在博客中討論他們的方法。指標(biāo)許多單獨的指標(biāo)用于評估MOT的不同方面。研究團體主要在兩個復(fù)合指標(biāo)上進(jìn)行了優(yōu)化,即多目標(biāo)跟蹤精度(MOTA)和識別F1分?jǐn)?shù)(IDF1)。初始指標(biāo)側(cè)重于目標(biāo)覆蓋范圍,跟蹤識別性能由后者衡量。多目標(biāo)跟蹤精度(MOTA) 在單一性能指標(biāo)下考慮三種誤差:
MOTA :其中t是視頻序列中的幀索引,而GT是真實目標(biāo)的數(shù)量。其中FN為假陰性,即系統(tǒng)未檢測到的真實目標(biāo)的數(shù)量。FP是誤報,即系統(tǒng)錯誤檢測但在真實目標(biāo)中不存在的數(shù)量。IDSW是識別轉(zhuǎn)換的數(shù)量,即給定軌跡從一個真實目標(biāo)變?yōu)榱硪粋目標(biāo)的次數(shù)。**多目標(biāo)跟蹤精度(MOTP)**是所有真實正值與其對應(yīng)的真實目標(biāo)之間的平均差異。對于邊界框重疊,其計算公式如下:
其中ct表示幀t和dt中的匹配數(shù)目,i是目標(biāo)i與幀t中指定的真實目標(biāo)的邊界框重疊。然后,將IDF1表示為正確識別的檢測數(shù)與平均真實目標(biāo)和計算的檢測數(shù)之比,并通過其諧波均值來平衡識別精度和召回率:
IDF1-來源高階跟蹤準(zhǔn)確性(HOTA)是去年末(2020)發(fā)布的一項指標(biāo)。它可以將執(zhí)行準(zhǔn)確的檢測,關(guān)聯(lián)和定位的效果平衡到用于跟蹤器比較的單個統(tǒng)一指標(biāo)中。測量多目標(biāo)跟蹤器的性能需要仔細(xì)設(shè)計,因為可能會出現(xiàn)多個對應(yīng)星座。
圖片由Bernardin,Keni和Rainer Stiefelhagen提供-來源py-motmetrics是一個很棒的庫,它為多目標(biāo)跟蹤器(MOT)的基準(zhǔn)測試提供了一個度量的Python實現(xiàn)。通過提交日期、時間和模型類別來衡量跟蹤器性能的概述。
FairMOT:多目標(biāo)跟蹤中檢測和再識別的公平性作者的貢獻(xiàn)和他們試圖解決的挑戰(zhàn):他們演示并討論了以前的一次性跟蹤框架所面臨的挑戰(zhàn),這些框架已被忽視,但嚴(yán)重限制了它們的性能。他們在諸如點對象(CenterNet)之類的無錨OD方法之上,引入了一個框架來公平地平衡檢測和Re-ID任務(wù)。他們提出了一種自我監(jiān)督的學(xué)習(xí)方法,以在大規(guī)模檢測數(shù)據(jù)集上訓(xùn)練FairMOT,從而提高了泛化能力。FairMOT概述
FairMOT概述—來源 順帶一提錨造成的不公平
解決目標(biāo)檢測任務(wù)有多種方法。1)兩階段檢測器,例如RCNN系列,它具有區(qū)域提議網(wǎng)絡(luò)和一個用于檢測的網(wǎng)絡(luò)。2)單級探測器,如YOLO系列,CenterNet,它沒有單獨的區(qū)域提議網(wǎng)絡(luò),可以進(jìn)一步分類為帶有錨定盒和無錨定點的探測器。忽略的ReID任務(wù)一個錨可以對應(yīng)多個身份;阱^的目標(biāo)檢測方法通常使用 ROI-Pool 或 ROI-Align 從每個提議中提取特征。ROI-Align的大多數(shù)采樣位置中都可能存在令人不安的干擾實例或背景。多個錨對應(yīng)一個身份
2. 特征引起的不公平使用多層特征聚合通過允許兩個分支從多層聚合特征中提取它們所需的必需特征,可以有效地解決這一矛盾。如果沒有多層融合,該模型將偏向主要檢測分支并生成低質(zhì)量的ReID特征。
3.特征維度引起的不公平盡管學(xué)習(xí)高維ReID特征可能會略微提高其區(qū)分對象的能力,但由于兩項任務(wù)的競爭,這會特別損害對象檢測的準(zhǔn)確性,這反過來又對最終的跟蹤精度產(chǎn)生負(fù)面影響。他們建議學(xué)習(xí)低維ReID功能以平衡兩個任務(wù)。當(dāng)訓(xùn)練數(shù)據(jù)較少時,學(xué)習(xí)低維ReID特征可降低過擬合的風(fēng)險。MOT中的數(shù)據(jù)集通常比ReID區(qū)域中的數(shù)據(jù)集小得多。因此有利于減小特征尺寸。低維ReID功能可提高推理速度。
4.重要指標(biāo)FairMOT在步幅為4的高分辨率特征圖上運行,而以前的基于錨的方法在步幅為32的特征圖上運行。消除錨點以及使用高分辨率特征,可以更好地將ReID特征與對象中心對齊,這大大提高了跟蹤精度。ReID功能的尺寸設(shè)置為僅64,這不僅減少了計算時間,而且還通過在檢測任務(wù)和ReID任務(wù)之間取得良好的平衡來提高跟蹤的魯棒性。他們?yōu)楣歉删W(wǎng)配備了Deep Layer Aggregation 運算符,以融合多層特征,以容納分支并處理不同比例的對象。Deep Layer Aggregation:5.?dāng)?shù)據(jù)關(guān)聯(lián)
FairMOT中的數(shù)據(jù)關(guān)聯(lián)涉及三個實體,即邊界框IoU,ReID功能和卡爾曼過濾器。這些屬性用于計算每對檢測到的邊界框之間的相似度,然后使用諸如匈牙利算法的唯一匹配算法來解決分配問題。僅使用邊界框IoU會導(dǎo)致很多ID switch,對于擁擠的場景和快速的攝像機運動尤其如此。單獨使用ReID似乎可以增加IDF1并減少ID switch的數(shù)量。添加卡爾曼濾波器有助于獲得平滑的小軌跡,從而進(jìn)一步減少ID switch的數(shù)量。重要的是要利用邊界框IoU,ReID特征和卡爾曼濾波器來獲得良好的跟蹤性能。結(jié)論作者嘗試了為什么以前的單一方法未能獲得與兩階段MOT方法可比的結(jié)果的原因,并發(fā)現(xiàn)使用基于錨點的目標(biāo)檢測模型和身份嵌入是導(dǎo)致結(jié)果降低的主要原因。本文還探討了以前的MOT框架中的檢測和ReID任務(wù)之間功能的不公平和沖突問題,并提出了FairMOT(一種無錨的單發(fā)MOT框架)。MOT方面的研究正在朝“一擊跟蹤”邁進(jìn),我對即將在該領(lǐng)域進(jìn)行的研究感到非常興奮。在 Fynd Trak,我們度過了一段美好的時光,為視頻分析探索和實施多種多目標(biāo)跟蹤方法,以分析客戶的互動和在商店中的參與度。它有助于將分析引入離線環(huán)境,以了解客戶并優(yōu)化商店轉(zhuǎn)換和銷售。
參考文獻(xiàn)[1] Zhang, Yifu and Wang, Chunyu and Wang, Xinggang and Zeng, Wenjun and Liu, Wenyu, FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking (2020). Arxiv, abs/2004.01888[2] Wang, Zhongdao and Zheng, Liang and Liu, Yixuan and Wang, Shengjin, Towards Real-Time Multi-Object Tracking (2019). ArXiv preprint ArXiv:1909.12605[3] Zhou, Xingyi and Wang, Dequan and Kr{”a}henb{”u}hl, Philipp, Objects as Points (2019). Arxiv, abs/1904.07850[4] Patrick Dendorfer, Aljo?a O?ep, Anton Milan, Konrad Schindler, Daniel Cremers, Ian Reid, Stefan Roth, Laura Leal-Taixé, MOTChallenge: A Benchmark for Single-Camera Multiple Target Tracking (2020), Arxiv, abs/2010.07548[5] Keni Bernardin & Rainer Stiefelhagen, Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics (2008), EURASIP Journal on Image and Video Processing[6] Milan, Anton, et al. “Mot16: A benchmark for multi-object tracking.” arXiv preprint arXiv:1603.00831 (2016).

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?