本文摘要:摘要:在線知識蒸餾通過同時訓(xùn)練兩個或多個模型的集合,并使之相互學(xué)習(xí)彼此的提取特征,從而實現(xiàn)模型性能的共同提高。已有方法側(cè)重于模型間特征的直接對齊,從而忽略了決策邊界特征的獨特性和魯棒性。該算法利用一致性正則化來指導(dǎo)模型學(xué)習(xí)決策邊界的判別性
摘要:在線知識蒸餾通過同時訓(xùn)練兩個或多個模型的集合,并使之相互學(xué)習(xí)彼此的提取特征,從而實現(xiàn)模型性能的共同提高。已有方法側(cè)重于模型間特征的直接對齊,從而忽略了決策邊界特征的獨特性和魯棒性。該算法利用一致性正則化來指導(dǎo)模型學(xué)習(xí)決策邊界的判別性特征。具體地說,網(wǎng)絡(luò)中每個模型由特征提取器和一對任務(wù)特定的分類器組成,通過正則化同一模型不同分類器間以及不同模型對應(yīng)分類器間的分布距離來度量模型內(nèi)和模型間的一致性,這兩類一致性共同用于更新特征提取器和決策邊界的特征。此外,模型內(nèi)一致性將作為自適應(yīng)權(quán)重,與每個模型的平均輸出加權(quán)生成集成預(yù)測值,進而指導(dǎo)所有分類器與之相互學(xué)習(xí)。在多個公共數(shù)據(jù)集上,該算法均取得了較好的表現(xiàn)性能。
關(guān)鍵詞:計算機視覺;模型壓縮;在線知識蒸餾;一致性正則化
引言深度神經(jīng)網(wǎng)絡(luò)(Deepneuralnetworks,DNNs)在目標(biāo)檢測與追蹤[1,2]、語義分割[3,4]、圖像分類[5,6]等多種計算機視覺任務(wù)中均取得了顯著的研究成果。然而,性能優(yōu)越的DNN模型往往依賴于較深的網(wǎng)絡(luò)結(jié)構(gòu)和較大的計算量,因此極大地限制了其在存儲空間有限的設(shè)備中的廣泛應(yīng)用。近年來,研究者們對模型壓縮方法進行了廣泛的探索與研究,主要可以分為以下四大類:a)模型剪枝[7,8],b)網(wǎng)絡(luò)量化[9,10],c)直接搭建緊湊的網(wǎng)絡(luò)模型[11,12],d)知識蒸餾(KnowledgeDistillation,KD)[13,26,27,28]。其中,KD又可以分為離線知識蒸餾(offlineKD)和在線知識蒸餾(onlineKD)兩大類。
傳統(tǒng)的offlineKD方法分兩階段進行,首先需要預(yù)訓(xùn)練一個性能較強的大網(wǎng)絡(luò)模型,這一過程會造成計算成本的額外消耗,然后凍結(jié)其參數(shù)并進一步指導(dǎo)小模型來學(xué)習(xí)擬合該大模型的輸出預(yù)測分布或中間層特征等知識信息,從而實現(xiàn)小模型的性能提高。為了克服offlineKD分步訓(xùn)練的缺點和局限性,研究者們近些年提出了onlineKD的思想,即無須大模型的預(yù)訓(xùn)練過程,而是在目標(biāo)任務(wù)的監(jiān)督下,以協(xié)作的方式同時訓(xùn)練所有對等網(wǎng)絡(luò)模型并指導(dǎo)它們相互學(xué)習(xí)彼此之間的預(yù)測分布和特征知識,從而實現(xiàn)對等模型性能的共同提高。
其中,最具代表性的深度相互學(xué)習(xí)網(wǎng)絡(luò)(DML)[13]即是通過指導(dǎo)對等模型直接學(xué)習(xí)其他模型的最終預(yù)測分布從而實現(xiàn)了在線知識蒸餾與遷移;動態(tài)集成網(wǎng)絡(luò)(ONE)[14]則是引入了一個門控單元來指導(dǎo)對等模型之間的相互學(xué)習(xí);特征融合學(xué)習(xí)網(wǎng)絡(luò)(FFL)[15]提出了融合分類器從而實現(xiàn)與對等模型之間的相互知識學(xué)習(xí);Chen等人[16]提出的OKKDip網(wǎng)絡(luò)使用兩級蒸餾訓(xùn)練實現(xiàn)了多個輔助模型與一個主模型之間的相互學(xué)習(xí);Guo等人提出的KDCL[17]通過整合較小模型的輸出預(yù)測和增強后的輸入圖像從而生成軟化目標(biāo)作為監(jiān)督信息,進一步提高模型的性能。盡管這些onlineKD算法已經(jīng)取得了較好的實驗結(jié)果,但它們在每個模型中均采用單個分類器來輸出預(yù)測分布,更重要的是,已有方法忽略了決策邊界周圍的模糊特征。
為了克服該缺點,本文基于一致性正則化設(shè)計了一個在線知識蒸餾網(wǎng)絡(luò)(OKDCR),實現(xiàn)了兩個或多個對等模型之間模糊特征的識別與對齊,從而進一步提高了模型的表現(xiàn)能力。對于每個對等模型,OKDCR引入了一對任務(wù)特定的分類器,并使之共享同一個的特征提取器。給定一個輸入圖像,將其自由變換兩次后輸入給各個模型的特征提取器,從而為每個模型中的不同分類器生成不同的特征。
通過衡量每個模型的兩個分類器之間以及跨模型的對應(yīng)分類器之間預(yù)測值分布的一致性,即模型內(nèi)一致性和模型間一致性,以此來更新特征提取器的參數(shù),增強其對模糊特征識別的魯棒性。此外,模型內(nèi)一致性用來計算自適應(yīng)權(quán)重,并與每個模型的平均輸出共同生成最終的集成預(yù)測值,進一步為所有分類器提供額外的監(jiān)督信息。大量實驗結(jié)果表明,OKDCR訓(xùn)練的對等網(wǎng)絡(luò)模型在一致性正則化以及自適應(yīng)集成預(yù)測的指導(dǎo)與監(jiān)督下,能夠?qū)W習(xí)到具有更強識別能力的特征,其表現(xiàn)性能和實驗結(jié)果始終優(yōu)于已有的最新水平。這項工作的貢獻可以概括為以下三個方面:
1)設(shè)計了一個新的網(wǎng)絡(luò)架構(gòu)OKDCR,引入模型內(nèi)一致性和模型間一致性來規(guī)范兩個或多個對等模型內(nèi)和跨模型間的在線協(xié)作學(xué)習(xí),提高特征提取器的魯棒性。2)其次,根據(jù)模型內(nèi)一致性設(shè)計了一個自適應(yīng)集成預(yù)測方案,為對等模型之間的在線知識蒸餾產(chǎn)生額外的監(jiān)督信息,提高分類器的辨別性和穩(wěn)定性。3)大量的實驗證明了本文提出的一致性正則化算法的有效性,即OKDCR與現(xiàn)有的onlineKD方法相比,取得了更好的分類結(jié)果和表現(xiàn)性能。
OKDCR在用于研究知識蒸餾的三個公開公共數(shù)據(jù)集上進行了性能評估與分析。其中,CIFAR10[18]和CIFAR100[19]是應(yīng)用廣泛的圖像分類數(shù)據(jù)集,它們分別有10個和100個圖像類別,各自均有50000個訓(xùn)練圖像和10000個測試圖像,兩個數(shù)據(jù)集中的所有圖像都是由32×32像素的RGB顏色構(gòu)成。
對于圖像增強與變換,實驗部分采用與現(xiàn)有的onlineKD方法[14,20]中相同的操作,即用零將原始輸入填充為40×40圖像并隨機裁剪出32×32區(qū)域。第三個數(shù)據(jù)集ImageNet[21]是由120萬個訓(xùn)練圖像和50000個驗證圖像組成,共有1000個圖像類別。為了與已有方法進行公平的比較,對于圖像變換,實驗部分采用與[14]相同的操作,即水平翻轉(zhuǎn)并隨機裁剪出224×224區(qū)域。在實驗結(jié)果評估中分別使用Top-1/Top-5平均分類準(zhǔn)確率(%),其中前者用于CIFAR10/CIFAR100/ImageNet數(shù)據(jù)集,而后者僅用于ImageNet數(shù)據(jù)集。
所有實驗都是在NVIDIAGPU設(shè)備上基于PyTorch實現(xiàn)的。在訓(xùn)練過程中,采用帶Nesterov動量的隨機梯度下降法進行優(yōu)化,動量衰減和權(quán)重衰減分別設(shè)置為0.9和10-4。在CIFAR10和CIFAR100數(shù)據(jù)集上,總訓(xùn)練次數(shù)和批量大小分別設(shè)置為300和128,對等網(wǎng)絡(luò)的學(xué)習(xí)率在訓(xùn)練次數(shù)的50%時從0.1下降到0.01,在75%時下降到0.001。在ImageNet數(shù)據(jù)集上,采用128的最小批量大小,學(xué)習(xí)速率從0.1開始,每30個訓(xùn)練周期衰減0.1倍,總共90個周期。
在CIFAR10和CIFAR100&ImageNet上,式(2)中的平衡參數(shù)和分別設(shè)置為1和100。與對比方法[22,23]相同,式(3)中的溫度參數(shù)T在整個實驗過程中設(shè)置為3從而進行公平的比較。為了促使模型更加穩(wěn)定和高效的學(xué)習(xí),式(6)中的加權(quán)因子根據(jù)訓(xùn)練步驟按照min(1,1.25(s/S))進行更新的,其中s和S是分別表示當(dāng)前訓(xùn)練次數(shù)和總訓(xùn)練次數(shù)。
實驗部分將OKDCR與DualNe[20]、DML[13]、ONE[14]、FFL[15]、AMLN[24]、KDCL[17]、OKKDip[16]等多種onlineKD方法進行了對比。在以下的實驗對比結(jié)果表格中,“Avg”和“Ens”分別表示模型1(Net1)和模型2(Net2)的平均分類準(zhǔn)確率和集成分類準(zhǔn)確率,“vanilla”下的“1C”和“2C”是指模型分別采用一個分類器和兩個分類器并只在交叉熵分類損失函數(shù)監(jiān)督下的單獨訓(xùn)練結(jié)果。
顯示了在CIFAR10和CIFAR100上使用相同對等網(wǎng)絡(luò)模型結(jié)構(gòu)時的最高Top-1分類準(zhǔn)確率。在對比的方法中,DML和AMLN致力于提高單個模型的性能,而DualNet的目標(biāo)是提高集成預(yù)測的分類結(jié)果。從實驗結(jié)果可以觀察到,DML、DualNet、ONE、FFL、AMLN和OKDCR表現(xiàn)性能均優(yōu)于vanilla基準(zhǔn)網(wǎng)絡(luò)。
其中,ONE和FFL在CIFAR10和CIFAR100上的分類準(zhǔn)確率相似,而本文所提出的OKDCR在“Avg”和“Ens.”上取得了最高的分類結(jié)果。從模型的平均準(zhǔn)確率“Avg”來看,ONE、FFL、AMLN和OKDCR在四組網(wǎng)絡(luò)模型中均優(yōu)于DML,在CIFAR10上分別提高了0.87%、1.11%、2.44%和3.40%,在CIFAR100上分別提高了6.56%、4.82%、9.11%和10.22%;從集成準(zhǔn)確率“Ens.”來看,ONE、FFL和OKDCR在CIFAR10上比DualNet分別提高了0.32%、0.53%和4.60%,而在CIFAR100分別提高了2.31%、3.61%和10.94%。
此外,不同方法在CIFAR10上的測試精度變化過程進行了可視化,從中可看出,在學(xué)習(xí)率變化的訓(xùn)練節(jié)點,各個方法的準(zhǔn)確率均發(fā)生明顯的提高,且OKDCR訓(xùn)練的單個模型其性能始終優(yōu)于已有的對比方法,表現(xiàn)出相對穩(wěn)定性和一致性。為了驗證該方法是否具有通用性,OKDCR接著在CIFAR10和CIFAR100上使用不同的對等網(wǎng)絡(luò)模型對(WRN16-2&ResNet32,WRN-40-2&ResNet56)進行了評估。
Net1&Net2使用OKDCR方法訓(xùn)練時,其性能始終優(yōu)于其他在線蒸餾方法。以在CIFAR100數(shù)據(jù)集上WRN-16-2&ResNet32的分類結(jié)果為例,OKDCR訓(xùn)練的Net1&Net2比DML、FFL和AMLN訓(xùn)練的Net1&Net2分別高出2.54%&3.29%、2.02%&2.04%和0.21%&0.33%。OKDCR的優(yōu)異性能主要歸功于兩個因素:首先,模型內(nèi)和模型間的一致性正則化有助于模型更好地學(xué)習(xí)決策邊界附近的特征對齊;其次,自適應(yīng)集成預(yù)測能夠為模型提供良好的監(jiān)督,并指導(dǎo)對等網(wǎng)絡(luò)學(xué)習(xí)更多的辨別性特征知識。
圖像論文范例: 通過風(fēng)格遷移的濃霧天氣條件下無人機圖像目標(biāo)檢測方法
本文提出了一種基于一致性正則化的在線知識蒸餾方法(OKDCR),與現(xiàn)有的工作不同,OKDCR在每個模型中引入一個共享的特征提取器和兩個任務(wù)特定的分類器。基于每個模型內(nèi)分類器間以及不同模型對應(yīng)分類器間的分布差異,從而對模型內(nèi)一致性和模型間一致性進行正則化,并用于特征提取器的參數(shù)更新,增強其對模糊特征的提取能力和魯棒性。此外,利用模型內(nèi)一致性生成自適應(yīng)權(quán)值,并作為每個模型平均預(yù)測的權(quán)重,從而生成對等模型的最終集成預(yù)測,進一步對所有分類器提供額外的監(jiān)督信息,提高其對模糊特征的辨別能力。
實驗部分在三個具有挑戰(zhàn)性的圖像分類數(shù)據(jù)集上進行了廣泛的評估與分析,與現(xiàn)有最新的在線知識蒸餾方法相比,OKDCR表現(xiàn)出明顯的優(yōu)越性和有效性。在未來的工作中,會進一步探究多個分類器共享特征提取器的模型性能表現(xiàn),以及不同分類器使用不同任務(wù)訓(xùn)練且彼此相互學(xué)習(xí)時的表現(xiàn)效果。
參考文獻:
[1]PérezgonzálezA,VergaraM,SanchobruJL,etal.Visualizingdatausingt-sne[J].JournalofMachineLearningResearch,2015.
[2]WangJiang,YangYi,MaoJunhua,etal.CNN-RNN:Aunifiedframeworkformulti-labelimageclassification[C]//InIEEEConferenceonComputerVisionandPatternRecognition,2016:2285-2294.
[3]ParkSB,LeeJW,SangKK.Content-basedimageclassificationusinganeuralnetwork-ScienceDirect[J].PatternRecognitionLetters,2004,25(3):287-300.
[4]LiuWei,AnguelovD,ErhanD,etal.SSD:Singleshotmultiboxdetector[C]//InEuropeanConferenceonComputerVision,2016:21-37.
[5]BelagiannisV,FarshadA,GalassoF.Adversarialnetworkcompression[C]//InEuropeanConferenceonComputerVision,2018:431-449.
[6]LiuPeiye,LiuWu,MaHuadong,etal.KTAN:Knowledgetransferadversarialnetwork[C]\arXivpreprintarXiv:1810.08126,2018.
[7]LuoJianhao,WuJianxin,LinWeiyao.ThiNet:Afilterlevelpruningmethodfordeepneuralnetworkcompression[C]//InIEEEInternationalConferenceonComputerVision,2017:5058–5066.
[8]MolchanovP,TyreeS,KarrasT,etal.Pruningconvolutionalneuralnetworksforresourceefficienttransferlearning[C]//arXivpreprintarXiv:1611.06440,2016.
[9]CourbariauxM,HubaraI,SoudryD,etal.Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1[C]//arXivpreprintarXiv:1602.02830,2016.
作者:張曉冰,龔海剛,劉明
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/27974.html