本文摘要:摘要:在線(xiàn)知識(shí)蒸餾通過(guò)同時(shí)訓(xùn)練兩個(gè)或多個(gè)模型的集合,并使之相互學(xué)習(xí)彼此的提取特征,從而實(shí)現(xiàn)模型性能的共同提高。已有方法側(cè)重于模型間特征的直接對(duì)齊,從而忽略了決策邊界特征的獨(dú)特性和魯棒性。該算法利用一致性正則化來(lái)指導(dǎo)模型學(xué)習(xí)決策邊界的判別性
摘要:在線(xiàn)知識(shí)蒸餾通過(guò)同時(shí)訓(xùn)練兩個(gè)或多個(gè)模型的集合,并使之相互學(xué)習(xí)彼此的提取特征,從而實(shí)現(xiàn)模型性能的共同提高。已有方法側(cè)重于模型間特征的直接對(duì)齊,從而忽略了決策邊界特征的獨(dú)特性和魯棒性。該算法利用一致性正則化來(lái)指導(dǎo)模型學(xué)習(xí)決策邊界的判別性特征。具體地說(shuō),網(wǎng)絡(luò)中每個(gè)模型由特征提取器和一對(duì)任務(wù)特定的分類(lèi)器組成,通過(guò)正則化同一模型不同分類(lèi)器間以及不同模型對(duì)應(yīng)分類(lèi)器間的分布距離來(lái)度量模型內(nèi)和模型間的一致性,這兩類(lèi)一致性共同用于更新特征提取器和決策邊界的特征。此外,模型內(nèi)一致性將作為自適應(yīng)權(quán)重,與每個(gè)模型的平均輸出加權(quán)生成集成預(yù)測(cè)值,進(jìn)而指導(dǎo)所有分類(lèi)器與之相互學(xué)習(xí)。在多個(gè)公共數(shù)據(jù)集上,該算法均取得了較好的表現(xiàn)性能。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué);模型壓縮;在線(xiàn)知識(shí)蒸餾;一致性正則化
引言深度神經(jīng)網(wǎng)絡(luò)(Deepneuralnetworks,DNNs)在目標(biāo)檢測(cè)與追蹤[1,2]、語(yǔ)義分割[3,4]、圖像分類(lèi)[5,6]等多種計(jì)算機(jī)視覺(jué)任務(wù)中均取得了顯著的研究成果。然而,性能優(yōu)越的DNN模型往往依賴(lài)于較深的網(wǎng)絡(luò)結(jié)構(gòu)和較大的計(jì)算量,因此極大地限制了其在存儲(chǔ)空間有限的設(shè)備中的廣泛應(yīng)用。近年來(lái),研究者們對(duì)模型壓縮方法進(jìn)行了廣泛的探索與研究,主要可以分為以下四大類(lèi):a)模型剪枝[7,8],b)網(wǎng)絡(luò)量化[9,10],c)直接搭建緊湊的網(wǎng)絡(luò)模型[11,12],d)知識(shí)蒸餾(KnowledgeDistillation,KD)[13,26,27,28]。其中,KD又可以分為離線(xiàn)知識(shí)蒸餾(offlineKD)和在線(xiàn)知識(shí)蒸餾(onlineKD)兩大類(lèi)。
傳統(tǒng)的offlineKD方法分兩階段進(jìn)行,首先需要預(yù)訓(xùn)練一個(gè)性能較強(qiáng)的大網(wǎng)絡(luò)模型,這一過(guò)程會(huì)造成計(jì)算成本的額外消耗,然后凍結(jié)其參數(shù)并進(jìn)一步指導(dǎo)小模型來(lái)學(xué)習(xí)擬合該大模型的輸出預(yù)測(cè)分布或中間層特征等知識(shí)信息,從而實(shí)現(xiàn)小模型的性能提高。為了克服offlineKD分步訓(xùn)練的缺點(diǎn)和局限性,研究者們近些年提出了onlineKD的思想,即無(wú)須大模型的預(yù)訓(xùn)練過(guò)程,而是在目標(biāo)任務(wù)的監(jiān)督下,以協(xié)作的方式同時(shí)訓(xùn)練所有對(duì)等網(wǎng)絡(luò)模型并指導(dǎo)它們相互學(xué)習(xí)彼此之間的預(yù)測(cè)分布和特征知識(shí),從而實(shí)現(xiàn)對(duì)等模型性能的共同提高。
其中,最具代表性的深度相互學(xué)習(xí)網(wǎng)絡(luò)(DML)[13]即是通過(guò)指導(dǎo)對(duì)等模型直接學(xué)習(xí)其他模型的最終預(yù)測(cè)分布從而實(shí)現(xiàn)了在線(xiàn)知識(shí)蒸餾與遷移;動(dòng)態(tài)集成網(wǎng)絡(luò)(ONE)[14]則是引入了一個(gè)門(mén)控單元來(lái)指導(dǎo)對(duì)等模型之間的相互學(xué)習(xí);特征融合學(xué)習(xí)網(wǎng)絡(luò)(FFL)[15]提出了融合分類(lèi)器從而實(shí)現(xiàn)與對(duì)等模型之間的相互知識(shí)學(xué)習(xí);Chen等人[16]提出的OKKDip網(wǎng)絡(luò)使用兩級(jí)蒸餾訓(xùn)練實(shí)現(xiàn)了多個(gè)輔助模型與一個(gè)主模型之間的相互學(xué)習(xí);Guo等人提出的KDCL[17]通過(guò)整合較小模型的輸出預(yù)測(cè)和增強(qiáng)后的輸入圖像從而生成軟化目標(biāo)作為監(jiān)督信息,進(jìn)一步提高模型的性能。盡管這些onlineKD算法已經(jīng)取得了較好的實(shí)驗(yàn)結(jié)果,但它們?cè)诿總(gè)模型中均采用單個(gè)分類(lèi)器來(lái)輸出預(yù)測(cè)分布,更重要的是,已有方法忽略了決策邊界周?chē)哪:卣鳌?/p>
為了克服該缺點(diǎn),本文基于一致性正則化設(shè)計(jì)了一個(gè)在線(xiàn)知識(shí)蒸餾網(wǎng)絡(luò)(OKDCR),實(shí)現(xiàn)了兩個(gè)或多個(gè)對(duì)等模型之間模糊特征的識(shí)別與對(duì)齊,從而進(jìn)一步提高了模型的表現(xiàn)能力。對(duì)于每個(gè)對(duì)等模型,OKDCR引入了一對(duì)任務(wù)特定的分類(lèi)器,并使之共享同一個(gè)的特征提取器。給定一個(gè)輸入圖像,將其自由變換兩次后輸入給各個(gè)模型的特征提取器,從而為每個(gè)模型中的不同分類(lèi)器生成不同的特征。
通過(guò)衡量每個(gè)模型的兩個(gè)分類(lèi)器之間以及跨模型的對(duì)應(yīng)分類(lèi)器之間預(yù)測(cè)值分布的一致性,即模型內(nèi)一致性和模型間一致性,以此來(lái)更新特征提取器的參數(shù),增強(qiáng)其對(duì)模糊特征識(shí)別的魯棒性。此外,模型內(nèi)一致性用來(lái)計(jì)算自適應(yīng)權(quán)重,并與每個(gè)模型的平均輸出共同生成最終的集成預(yù)測(cè)值,進(jìn)一步為所有分類(lèi)器提供額外的監(jiān)督信息。大量實(shí)驗(yàn)結(jié)果表明,OKDCR訓(xùn)練的對(duì)等網(wǎng)絡(luò)模型在一致性正則化以及自適應(yīng)集成預(yù)測(cè)的指導(dǎo)與監(jiān)督下,能夠?qū)W習(xí)到具有更強(qiáng)識(shí)別能力的特征,其表現(xiàn)性能和實(shí)驗(yàn)結(jié)果始終優(yōu)于已有的最新水平。這項(xiàng)工作的貢獻(xiàn)可以概括為以下三個(gè)方面:
1)設(shè)計(jì)了一個(gè)新的網(wǎng)絡(luò)架構(gòu)OKDCR,引入模型內(nèi)一致性和模型間一致性來(lái)規(guī)范兩個(gè)或多個(gè)對(duì)等模型內(nèi)和跨模型間的在線(xiàn)協(xié)作學(xué)習(xí),提高特征提取器的魯棒性。2)其次,根據(jù)模型內(nèi)一致性設(shè)計(jì)了一個(gè)自適應(yīng)集成預(yù)測(cè)方案,為對(duì)等模型之間的在線(xiàn)知識(shí)蒸餾產(chǎn)生額外的監(jiān)督信息,提高分類(lèi)器的辨別性和穩(wěn)定性。3)大量的實(shí)驗(yàn)證明了本文提出的一致性正則化算法的有效性,即OKDCR與現(xiàn)有的onlineKD方法相比,取得了更好的分類(lèi)結(jié)果和表現(xiàn)性能。
OKDCR在用于研究知識(shí)蒸餾的三個(gè)公開(kāi)公共數(shù)據(jù)集上進(jìn)行了性能評(píng)估與分析。其中,CIFAR10[18]和CIFAR100[19]是應(yīng)用廣泛的圖像分類(lèi)數(shù)據(jù)集,它們分別有10個(gè)和100個(gè)圖像類(lèi)別,各自均有50000個(gè)訓(xùn)練圖像和10000個(gè)測(cè)試圖像,兩個(gè)數(shù)據(jù)集中的所有圖像都是由32×32像素的RGB顏色構(gòu)成。
對(duì)于圖像增強(qiáng)與變換,實(shí)驗(yàn)部分采用與現(xiàn)有的onlineKD方法[14,20]中相同的操作,即用零將原始輸入填充為40×40圖像并隨機(jī)裁剪出32×32區(qū)域。第三個(gè)數(shù)據(jù)集ImageNet[21]是由120萬(wàn)個(gè)訓(xùn)練圖像和50000個(gè)驗(yàn)證圖像組成,共有1000個(gè)圖像類(lèi)別。為了與已有方法進(jìn)行公平的比較,對(duì)于圖像變換,實(shí)驗(yàn)部分采用與[14]相同的操作,即水平翻轉(zhuǎn)并隨機(jī)裁剪出224×224區(qū)域。在實(shí)驗(yàn)結(jié)果評(píng)估中分別使用Top-1/Top-5平均分類(lèi)準(zhǔn)確率(%),其中前者用于CIFAR10/CIFAR100/ImageNet數(shù)據(jù)集,而后者僅用于ImageNet數(shù)據(jù)集。
所有實(shí)驗(yàn)都是在NVIDIAGPU設(shè)備上基于PyTorch實(shí)現(xiàn)的。在訓(xùn)練過(guò)程中,采用帶Nesterov動(dòng)量的隨機(jī)梯度下降法進(jìn)行優(yōu)化,動(dòng)量衰減和權(quán)重衰減分別設(shè)置為0.9和10-4。在CIFAR10和CIFAR100數(shù)據(jù)集上,總訓(xùn)練次數(shù)和批量大小分別設(shè)置為300和128,對(duì)等網(wǎng)絡(luò)的學(xué)習(xí)率在訓(xùn)練次數(shù)的50%時(shí)從0.1下降到0.01,在75%時(shí)下降到0.001。在ImageNet數(shù)據(jù)集上,采用128的最小批量大小,學(xué)習(xí)速率從0.1開(kāi)始,每30個(gè)訓(xùn)練周期衰減0.1倍,總共90個(gè)周期。
在CIFAR10和CIFAR100&ImageNet上,式(2)中的平衡參數(shù)和分別設(shè)置為1和100。與對(duì)比方法[22,23]相同,式(3)中的溫度參數(shù)T在整個(gè)實(shí)驗(yàn)過(guò)程中設(shè)置為3從而進(jìn)行公平的比較。為了促使模型更加穩(wěn)定和高效的學(xué)習(xí),式(6)中的加權(quán)因子根據(jù)訓(xùn)練步驟按照min(1,1.25(s/S))進(jìn)行更新的,其中s和S是分別表示當(dāng)前訓(xùn)練次數(shù)和總訓(xùn)練次數(shù)。
實(shí)驗(yàn)部分將OKDCR與DualNe[20]、DML[13]、ONE[14]、FFL[15]、AMLN[24]、KDCL[17]、OKKDip[16]等多種onlineKD方法進(jìn)行了對(duì)比。在以下的實(shí)驗(yàn)對(duì)比結(jié)果表格中,“Avg”和“Ens”分別表示模型1(Net1)和模型2(Net2)的平均分類(lèi)準(zhǔn)確率和集成分類(lèi)準(zhǔn)確率,“vanilla”下的“1C”和“2C”是指模型分別采用一個(gè)分類(lèi)器和兩個(gè)分類(lèi)器并只在交叉熵分類(lèi)損失函數(shù)監(jiān)督下的單獨(dú)訓(xùn)練結(jié)果。
顯示了在CIFAR10和CIFAR100上使用相同對(duì)等網(wǎng)絡(luò)模型結(jié)構(gòu)時(shí)的最高Top-1分類(lèi)準(zhǔn)確率。在對(duì)比的方法中,DML和AMLN致力于提高單個(gè)模型的性能,而DualNet的目標(biāo)是提高集成預(yù)測(cè)的分類(lèi)結(jié)果。從實(shí)驗(yàn)結(jié)果可以觀察到,DML、DualNet、ONE、FFL、AMLN和OKDCR表現(xiàn)性能均優(yōu)于vanilla基準(zhǔn)網(wǎng)絡(luò)。
其中,ONE和FFL在CIFAR10和CIFAR100上的分類(lèi)準(zhǔn)確率相似,而本文所提出的OKDCR在“Avg”和“Ens.”上取得了最高的分類(lèi)結(jié)果。從模型的平均準(zhǔn)確率“Avg”來(lái)看,ONE、FFL、AMLN和OKDCR在四組網(wǎng)絡(luò)模型中均優(yōu)于DML,在CIFAR10上分別提高了0.87%、1.11%、2.44%和3.40%,在CIFAR100上分別提高了6.56%、4.82%、9.11%和10.22%;從集成準(zhǔn)確率“Ens.”來(lái)看,ONE、FFL和OKDCR在CIFAR10上比DualNet分別提高了0.32%、0.53%和4.60%,而在CIFAR100分別提高了2.31%、3.61%和10.94%。
此外,不同方法在CIFAR10上的測(cè)試精度變化過(guò)程進(jìn)行了可視化,從中可看出,在學(xué)習(xí)率變化的訓(xùn)練節(jié)點(diǎn),各個(gè)方法的準(zhǔn)確率均發(fā)生明顯的提高,且OKDCR訓(xùn)練的單個(gè)模型其性能始終優(yōu)于已有的對(duì)比方法,表現(xiàn)出相對(duì)穩(wěn)定性和一致性。為了驗(yàn)證該方法是否具有通用性,OKDCR接著在CIFAR10和CIFAR100上使用不同的對(duì)等網(wǎng)絡(luò)模型對(duì)(WRN16-2&ResNet32,WRN-40-2&ResNet56)進(jìn)行了評(píng)估。
Net1&Net2使用OKDCR方法訓(xùn)練時(shí),其性能始終優(yōu)于其他在線(xiàn)蒸餾方法。以在CIFAR100數(shù)據(jù)集上WRN-16-2&ResNet32的分類(lèi)結(jié)果為例,OKDCR訓(xùn)練的Net1&Net2比DML、FFL和AMLN訓(xùn)練的Net1&Net2分別高出2.54%&3.29%、2.02%&2.04%和0.21%&0.33%。OKDCR的優(yōu)異性能主要?dú)w功于兩個(gè)因素:首先,模型內(nèi)和模型間的一致性正則化有助于模型更好地學(xué)習(xí)決策邊界附近的特征對(duì)齊;其次,自適應(yīng)集成預(yù)測(cè)能夠?yàn)槟P吞峁┝己玫谋O(jiān)督,并指導(dǎo)對(duì)等網(wǎng)絡(luò)學(xué)習(xí)更多的辨別性特征知識(shí)。
圖像論文范例: 通過(guò)風(fēng)格遷移的濃霧天氣條件下無(wú)人機(jī)圖像目標(biāo)檢測(cè)方法
本文提出了一種基于一致性正則化的在線(xiàn)知識(shí)蒸餾方法(OKDCR),與現(xiàn)有的工作不同,OKDCR在每個(gè)模型中引入一個(gè)共享的特征提取器和兩個(gè)任務(wù)特定的分類(lèi)器;诿總(gè)模型內(nèi)分類(lèi)器間以及不同模型對(duì)應(yīng)分類(lèi)器間的分布差異,從而對(duì)模型內(nèi)一致性和模型間一致性進(jìn)行正則化,并用于特征提取器的參數(shù)更新,增強(qiáng)其對(duì)模糊特征的提取能力和魯棒性。此外,利用模型內(nèi)一致性生成自適應(yīng)權(quán)值,并作為每個(gè)模型平均預(yù)測(cè)的權(quán)重,從而生成對(duì)等模型的最終集成預(yù)測(cè),進(jìn)一步對(duì)所有分類(lèi)器提供額外的監(jiān)督信息,提高其對(duì)模糊特征的辨別能力。
實(shí)驗(yàn)部分在三個(gè)具有挑戰(zhàn)性的圖像分類(lèi)數(shù)據(jù)集上進(jìn)行了廣泛的評(píng)估與分析,與現(xiàn)有最新的在線(xiàn)知識(shí)蒸餾方法相比,OKDCR表現(xiàn)出明顯的優(yōu)越性和有效性。在未來(lái)的工作中,會(huì)進(jìn)一步探究多個(gè)分類(lèi)器共享特征提取器的模型性能表現(xiàn),以及不同分類(lèi)器使用不同任務(wù)訓(xùn)練且彼此相互學(xué)習(xí)時(shí)的表現(xiàn)效果。
參考文獻(xiàn):
[1]PérezgonzálezA,VergaraM,SanchobruJL,etal.Visualizingdatausingt-sne[J].JournalofMachineLearningResearch,2015.
[2]WangJiang,YangYi,MaoJunhua,etal.CNN-RNN:Aunifiedframeworkformulti-labelimageclassification[C]//InIEEEConferenceonComputerVisionandPatternRecognition,2016:2285-2294.
[3]ParkSB,LeeJW,SangKK.Content-basedimageclassificationusinganeuralnetwork-ScienceDirect[J].PatternRecognitionLetters,2004,25(3):287-300.
[4]LiuWei,AnguelovD,ErhanD,etal.SSD:Singleshotmultiboxdetector[C]//InEuropeanConferenceonComputerVision,2016:21-37.
[5]BelagiannisV,FarshadA,GalassoF.Adversarialnetworkcompression[C]//InEuropeanConferenceonComputerVision,2018:431-449.
[6]LiuPeiye,LiuWu,MaHuadong,etal.KTAN:Knowledgetransferadversarialnetwork[C]\arXivpreprintarXiv:1810.08126,2018.
[7]LuoJianhao,WuJianxin,LinWeiyao.ThiNet:Afilterlevelpruningmethodfordeepneuralnetworkcompression[C]//InIEEEInternationalConferenceonComputerVision,2017:5058–5066.
[8]MolchanovP,TyreeS,KarrasT,etal.Pruningconvolutionalneuralnetworksforresourceefficienttransferlearning[C]//arXivpreprintarXiv:1611.06440,2016.
[9]CourbariauxM,HubaraI,SoudryD,etal.Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1[C]//arXivpreprintarXiv:1602.02830,2016.
作者:張曉冰,龔海剛,劉明
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/27974.html