亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)電子論文》 深度視覺目標(biāo)跟蹤進(jìn)展綜述> 正文

深度視覺目標(biāo)跟蹤進(jìn)展綜述

所屬分類:電子論文 閱讀次 時(shí)間:2021-06-22 10:31

本文摘要:摘要:視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究課題。近年來,隨著深度學(xué)習(xí)在視覺目標(biāo)跟蹤領(lǐng)域獲得了巨大的成功,一系列優(yōu)秀的深度跟蹤算法涌現(xiàn)出來。在本篇論文中,我們回顧近年來深度目標(biāo)跟蹤領(lǐng)域的進(jìn)展。首先,我們?cè)敿?xì)討論了近十年來跟蹤領(lǐng)域數(shù)據(jù)集

  摘要:視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究課題。近年來,隨著深度學(xué)習(xí)在視覺目標(biāo)跟蹤領(lǐng)域獲得了巨大的成功,一系列優(yōu)秀的深度跟蹤算法涌現(xiàn)出來。在本篇論文中,我們回顧近年來深度目標(biāo)跟蹤領(lǐng)域的進(jìn)展。首先,我們?cè)敿?xì)討論了近十年來跟蹤領(lǐng)域數(shù)據(jù)集的發(fā)展趨勢(shì),這些數(shù)據(jù)集不僅全面地評(píng)估了算法性能同時(shí)為模型訓(xùn)練提供了極大的便利。其次,我們分類討論了幾大類經(jīng)典的深度學(xué)習(xí)跟蹤框架,包括深度相關(guān)濾波器跟蹤、分類式網(wǎng)絡(luò)跟蹤、雙路網(wǎng)絡(luò)跟蹤、基于梯度的深度跟蹤算法以及基于ransformer的跟蹤算法。最后,我們對(duì)全文內(nèi)容進(jìn)行總結(jié),并指出未來的發(fā)展趨勢(shì)。

  關(guān)鍵字:深度目標(biāo)跟蹤;跟蹤數(shù)據(jù)集;相關(guān)濾波器;分類式跟蹤網(wǎng)絡(luò);雙路跟蹤網(wǎng)絡(luò);梯度跟蹤網(wǎng)絡(luò)

深度視覺目標(biāo)

  1引言

  視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本任務(wù)。目標(biāo)跟蹤旨在基于初始幀中指定的感興趣目標(biāo)(一般用矩形框表示),在后續(xù)幀中對(duì)該目標(biāo)進(jìn)行持續(xù)的定位,如圖所示。目標(biāo)跟蹤的應(yīng)用場(chǎng)景非常廣泛,包含視頻監(jiān)控、人機(jī)交互、機(jī)器人、無人駕駛等。雖然近二十年來,視覺目標(biāo)跟蹤取得了極大的進(jìn)展,但是一些挑戰(zhàn)性因素如目標(biāo)遮擋、背景雜亂、運(yùn)動(dòng)模糊、光照變化等仍是目標(biāo)跟蹤算法面臨的主要挑戰(zhàn)。傳統(tǒng)的視覺跟蹤算法通常采用手工特征來對(duì)目標(biāo)進(jìn)行表觀建模,然后通過訓(xùn)練魯棒的辨別式或生成式模型實(shí)現(xiàn)目標(biāo)跟蹤,典型的方法包括MIL[1]、TLD[2]、SCM[3],STRUCK[4]、KCF[5]等。然而,在新近的比較有挑戰(zhàn)性的數(shù)據(jù)集如VOT2018[6]或大規(guī)模數(shù)據(jù)集TrackingNet[7]和LaSOT[8]上,這些算法的性能遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)際應(yīng)用的要求。

  自從2012年AlexNet[9]在圖像分類任務(wù)中大放異彩,深度學(xué)習(xí)受到了廣泛關(guān)注。得益于強(qiáng)大的特征提取能力和端到端的訓(xùn)練模式,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理等領(lǐng)域都廣受關(guān)注,并取得了巨大進(jìn)展。在過去的五六年間,基于深度學(xué)習(xí)的目標(biāo)跟蹤算法獲得了巨大突破。一些經(jīng)典的深度跟蹤算法,如HCF[10]、MDNet[11]、SiamFC[12]、ECO[13]、SiamRPN[14]、ATOM[15]、DiMP[16]等不同程度地挖掘了深度學(xué)習(xí)的潛能并顯著提高了跟蹤性能。例如,在經(jīng)典的OTB2015[17]數(shù)據(jù)集上,這些深度學(xué)習(xí)的跟蹤算法大幅度超越經(jīng)典的跟蹤器并不斷刷新最優(yōu)性能。在每年舉辦的視覺跟蹤的挑戰(zhàn)賽如VOT2018中,排名前10位的算法均不同程度的使用了深度特征。

  這些深度學(xué)習(xí)的跟蹤算法采用了各種各樣的框架,包含相關(guān)濾波器、分類式網(wǎng)絡(luò)、雙路網(wǎng)絡(luò)等。在處理跟蹤任務(wù)的角度上,從基于匹配思想的雙路網(wǎng)絡(luò)框架到基于二分類思想的辨別式跟蹤器,各種算法框架在性能和效率上各有千秋。 最初的深度跟蹤算法主要聚焦于相關(guān)濾波器。通過將傳統(tǒng)相關(guān)濾波器中的手工特征替換成深度特征,跟蹤性能得到了大幅度提升。后續(xù)研究人員嘗試端到端地結(jié)合相關(guān)濾波器和深度模型,并進(jìn)一步引出了一系列的基于梯度優(yōu)化的方案,如iMP算法16。

  通過將跟蹤任務(wù)視為模板匹配,基于雙路網(wǎng)絡(luò)的跟蹤算法(如iamFC[12])由于其簡(jiǎn)潔的框架和高效率而受到了極大的關(guān)注。但是該類方法由于忽略了背景信息,因而對(duì)相似干擾物的辨別能力較弱,后續(xù)工作在雙路網(wǎng)絡(luò)中借鑒相關(guān)濾波器來提升模型的辨別能力。另一方面,受啟發(fā)于目標(biāo)檢測(cè)領(lǐng)域的進(jìn)展,基于分類式的深度跟蹤框架(如MDNet[11])、雙路網(wǎng)絡(luò)結(jié)合區(qū)域錨點(diǎn)的多尺度回歸14等思路同樣被廣泛研究。近期基于ransformer的深度跟蹤器,使用注意力機(jī)制進(jìn)行跟蹤模型建模,取得了領(lǐng)先的性能。

  我們總結(jié)了深度跟蹤領(lǐng)域常見的框架及代表性工作。表大致按照各種算法最早出現(xiàn)的順序進(jìn)行安排。深度相關(guān)濾波器大致在2015年左右被提出(如HCF[10),并在近年來持續(xù)受到關(guān)注。相關(guān)濾波器的思想近年來被其他跟蹤框架如雙路網(wǎng)絡(luò)和基于梯度的跟蹤器所吸納;诜诸惥W(wǎng)絡(luò)(MDNet)和雙路網(wǎng)絡(luò)(iamFC)的跟蹤算法幾乎同時(shí)期被提出,大致于2016年左右,并獲得了廣泛關(guān)注。

  但是由于分類網(wǎng)絡(luò)需要在線的模型微調(diào),導(dǎo)致效率偏低,因而近年來關(guān)注度逐漸降低。雙路網(wǎng)絡(luò)通過汲取相關(guān)濾波器的優(yōu)勢(shì)(如CFNet)以及融入?yún)^(qū)域候選網(wǎng)絡(luò)(如iamRPN)而持續(xù)地演變和進(jìn)化,目前仍是研究的熱點(diǎn);谔荻鹊膬(yōu)化方法在2019年左右受到了廣泛關(guān)注,其代表性工作包括ATOM和iMP。該類方法受啟發(fā)于相關(guān)濾波器,通過采用快速梯度下降的方法求解具有前景、背景區(qū)分能力的濾波器核。由于利用了背景信息,該類方法相比于雙路網(wǎng)絡(luò)具有更好的干擾物辨別能力。

  在2021年,同時(shí)期出現(xiàn)了數(shù)個(gè)基于ransformer結(jié)構(gòu)的深度跟蹤算法。該類方法利用注意力機(jī)制利用時(shí)序信息24,或?qū)Ω櫰鹘?5[26],取得了十分突出的性能。為了總結(jié)歸納深度跟蹤算法的發(fā)展趨勢(shì),本文詳細(xì)梳理了近年來深度跟蹤領(lǐng)域的相關(guān)工作,并按如下的順序進(jìn)行闡述:跟蹤數(shù)據(jù)集的發(fā)展趨勢(shì)、結(jié)合深度特征的相關(guān)濾波器、基于分類網(wǎng)絡(luò)的跟蹤算法、基于雙路網(wǎng)絡(luò)的跟蹤算法、基于梯度的深度跟蹤算法、基于ransformer的深度跟蹤等,最后對(duì)研究方向進(jìn)行展望。

  跟蹤數(shù)據(jù)集發(fā)展趨勢(shì)數(shù)據(jù)、算法和算力是人工智能的重要的三個(gè)要素。在計(jì)算機(jī)視覺任務(wù)中,好的數(shù)據(jù)集往往能夠帶動(dòng)相關(guān)領(lǐng)域的快速發(fā)展。隨著卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,更多參數(shù)量的網(wǎng)絡(luò)往往需要更多的數(shù)據(jù)去學(xué)習(xí)得到一個(gè)更好的模型。因此,一個(gè)良好的標(biāo)注數(shù)據(jù)集能快速促進(jìn)相關(guān)算法的發(fā)展。近些年來,視頻目標(biāo)跟蹤領(lǐng)域出現(xiàn)了許多不同大小、不同種類的數(shù)據(jù)集。這些數(shù)據(jù)集引領(lǐng)了目標(biāo)跟蹤算法的進(jìn)步。因此本節(jié)內(nèi)容將詳細(xì)介紹目標(biāo)跟蹤領(lǐng)域的常見數(shù)據(jù)集。

  OTB:OTB數(shù)據(jù)集一共包含TB201327]和TB2015[17]兩個(gè)版本。其中OTB2013數(shù)據(jù)集包含51個(gè)視頻序列,由Wu等人收集了以往目標(biāo)跟蹤領(lǐng)域的常用測(cè)試視頻。該數(shù)據(jù)集考慮到很多影響跟蹤性能的因素,比如形變、遮擋、光照變化、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊等。同時(shí)作者還提出了一系列的評(píng)估準(zhǔn)則。這些準(zhǔn)則與數(shù)據(jù)集一起為跟蹤算法提供了相對(duì)統(tǒng)一的測(cè)試與評(píng)估環(huán)境,有利于不同跟蹤方法之間的比較,極大地促進(jìn)了早期目標(biāo)跟蹤任務(wù)的發(fā)展。OTB2015是OTB2013數(shù)據(jù)集的擴(kuò)充,通過引入額外的視頻,該數(shù)據(jù)集總共包含100個(gè)視頻。此外,該數(shù)據(jù)集還對(duì)視頻標(biāo)出了遮擋、形變、快速運(yùn)動(dòng)、模糊等個(gè)視頻屬性,便于分析跟蹤器應(yīng)對(duì)不同場(chǎng)景的能力。

  3深度跟蹤算法

  3.1深度相關(guān)濾波器跟蹤

  相關(guān)濾波器(CorrelationFilter,CF)通過學(xué)習(xí)一個(gè)具有區(qū)分力的濾波器來處理待跟蹤的圖片,其輸出結(jié)果為一個(gè)響應(yīng)圖,表示目標(biāo)在后續(xù)幀中的不同位置的置信度。相關(guān)濾波器通過利用循環(huán)樣本和循環(huán)矩陣的性質(zhì)求解嶺回歸問題,得到了頻域上的高效閉合解,計(jì)算效率十分高效。傳統(tǒng)的相關(guān)濾波器使用手工特征(如HOG、ColorName等)進(jìn)行學(xué)習(xí),較好地兼顧了性能和效率。但由于相關(guān)濾波器的學(xué)習(xí)過程中引入了循環(huán)樣本,這些樣本不可避免的帶來了邊界效應(yīng),因此傳統(tǒng)的相關(guān)濾波器算法在如何抑制邊界效應(yīng)上開展了大量的研究,典型的工作包括SRDCF[33]、BACF[34]、ASRCF[35]等。

  其余的經(jīng)典工作包含如何自適應(yīng)調(diào)整學(xué)習(xí)率(如SRDCFdecon[36),如何引入更多的背景信息(如CACF[37])等。隨著深度學(xué)習(xí)的日益發(fā)展,深度學(xué)習(xí)和相關(guān)濾波器的結(jié)合受到了廣泛的關(guān)注。在早期的工作中,研究人員探索如何將離線訓(xùn)練好的深度特征(如利用ImageNet預(yù)訓(xùn)練的VGG模型[38])和相關(guān)濾波器進(jìn)行結(jié)合。典型的工作HCF10]提出將不同層的深度特征分別訓(xùn)練相關(guān)濾波器并進(jìn)行由粗到精的融合。高層的語義特征對(duì)于目標(biāo)的抽象表達(dá)能力很強(qiáng),而低層的模型特征擅長(zhǎng)于刻畫目標(biāo)的紋理、形狀等底層信息。通過將不同尺度的特征下的濾波響應(yīng)圖進(jìn)行融合,相關(guān)濾波器更好地利用了深度模型。

  4展望

  視覺跟蹤領(lǐng)域的算法層出不窮,并且各類算法框架都處于不斷的發(fā)展與完善中。隨著研究的不斷深入,深度學(xué)習(xí)的潛能也進(jìn)一步被激發(fā)。然而,現(xiàn)有的框架仍存在有待提升的空間。最近的雙路網(wǎng)絡(luò)方法(如SiamRPN++)和梯度優(yōu)化的方法如DiMP)為了追求高性能,均采用了很深的CNN模型如ResNet50。最新的深度模型動(dòng)輒具有幾十甚至上百兆的模型大小,使得這些算法需要極大的存儲(chǔ)空間,限制了實(shí)際應(yīng)用。如何設(shè)計(jì)適合他們的輕量級(jí)模型,例如使用神經(jīng)網(wǎng)絡(luò)搜索的方式來獲得更優(yōu)的模型結(jié)構(gòu),以兼顧低內(nèi)存消耗和高精度具有重要的研究?jī)r(jià)值。

  此外,隨著CNN網(wǎng)絡(luò)越來約深,模型越來約復(fù)雜,幾大類深度跟蹤框架無論雙路網(wǎng)絡(luò)(SiamRPN++)、分類網(wǎng)絡(luò)(如RTMDNet)還是梯度優(yōu)化的方法(DiMP),都僅能保持GPU設(shè)備下勉強(qiáng)實(shí)時(shí)的速度。視覺跟蹤作為很多應(yīng)用系統(tǒng)中的底層輔助任務(wù),對(duì)于效率有很高的要求。期待未來更多的工作能夠聚焦于跟蹤算法的速度提升。設(shè)計(jì)硬件友好的模型運(yùn)算結(jié)構(gòu),用于特定場(chǎng)景的高效率視覺跟蹤同樣具有巨大的應(yīng)用前景;趓ansformer的視覺跟蹤算法剛剛起步,未來有巨大的挖掘空間。

  首先,目前的ransformer跟蹤算法25][26仍沒有充分利用背景信息,如何將背景信息引入到ransformer結(jié)構(gòu)中提升它的前景、背景區(qū)分能力有待探索。其次,設(shè)計(jì)可更新的ransformer結(jié)構(gòu),用于適應(yīng)目標(biāo)的外觀變化亟需探索。例如,STARK算法26僅僅粗暴地加入一幀歷史樣本,如何更好地利用時(shí)序信息以更新ransformer模型將有助于達(dá)到更優(yōu)性能。最后,ransformer的注意力機(jī)制擅長(zhǎng)于進(jìn)行多模態(tài)信息間的轉(zhuǎn)換以及融合,該框架的興起為多模態(tài)的視覺跟蹤提供了良好的研究契機(jī),如帶有紅外信息(RGBT視頻中)和深度信息(RGBD視頻中)的視覺跟蹤。

  計(jì)算機(jī)方向評(píng)職知識(shí):寫機(jī)器視覺論文好發(fā)表嗎

  5結(jié)束語

  盡管近十年來視覺目標(biāo)跟蹤技術(shù)取得了巨大的進(jìn)展,但在復(fù)雜的實(shí)際場(chǎng)景中,計(jì)算機(jī)跟蹤系統(tǒng)和人類的視覺系統(tǒng)仍有巨大差距。雖然深度學(xué)習(xí)算法取得了令人矚目的成績(jī),但與此同時(shí)帶來的跟蹤效率限制和模型存儲(chǔ)消耗等問題仍需進(jìn)一步完善。真正意義上的通用、魯棒、準(zhǔn)確且高效率的視覺跟蹤研究仍然任重道遠(yuǎn)。但是,我們也目睹了近年來的視覺跟蹤領(lǐng)域的快速迭代和不斷突破,相信在眾多研究者的共同努力下,未來的視覺目標(biāo)跟蹤技術(shù)會(huì)朝著實(shí)用的、高效的、可靠的、通用的跟蹤技術(shù)更進(jìn)一步。

  參考文獻(xiàn)

  [1]BabenkoB,YangMH,BelongieS.Robustobjecttrackingwithonlinemultipleinstancelearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2011,33(8):16191632.

  [2]KalalZ,MikolajczykK,MatasJ.Trackinglearningdetection[J].IEEETransactionsonSoftwareEngineering,2011,34(7):14091422.

  作者:王寧,席茂,周文罡,李禮,李厚強(qiáng)

轉(zhuǎn)載請(qǐng)注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/27177.html