本文摘要:摘要:針對(duì)傳統(tǒng)的圖像描述模型不能充分利用圖像信息且融合特征方式單一的問(wèn)題,提出了一種融合自適應(yīng)常識(shí)門(mén)的圖像描述生成模型。首先,使用VCR-CNN提取視覺(jué)常識(shí)特征,并將常識(shí)特征分層輸入到Transformer編碼器中;然后,在編碼器每一分層中設(shè)計(jì)了自適應(yīng)常識(shí)門(mén),對(duì)視覺(jué)常
摘要:針對(duì)傳統(tǒng)的圖像描述模型不能充分利用圖像信息且融合特征方式單一的問(wèn)題,提出了一種融合自適應(yīng)常識(shí)門(mén)的圖像描述生成模型。首先,使用VCR-CNN提取視覺(jué)常識(shí)特征,并將常識(shí)特征分層輸入到Transformer編碼器中;然后,在編碼器每一分層中設(shè)計(jì)了自適應(yīng)常識(shí)門(mén),對(duì)視覺(jué)常識(shí)特征和編碼特征進(jìn)行自適應(yīng)融合操作;最后,將融合常識(shí)信息的編碼特征送入Transformer解碼器中完成訓(xùn)練。通過(guò)MSCOCO數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,在指標(biāo)BLEU-4、CIDEr、SPICE分別為39.2、129.6和22.7,相較于POS-SCAN模型分別提升了3.1%、2.9%和2.2%。實(shí)驗(yàn)結(jié)果表明,所提出的模型效果明顯優(yōu)于使用單一顯著區(qū)域特征的Transformer模型,能夠?qū)D像內(nèi)容進(jìn)行準(zhǔn)確的描述。
關(guān)鍵詞:圖像描述;自然語(yǔ)言處理;卷積神經(jīng)網(wǎng)絡(luò);視覺(jué)常識(shí);自適應(yīng)常識(shí)門(mén)
0引言
圖像描述生成是一個(gè)融合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的跨模態(tài)任務(wù),它是圖像處理的高級(jí)層次。從傳統(tǒng)基于檢索、模板的方法到后來(lái)基于編碼器-解碼器的深度學(xué)習(xí)方法[1-2],使圖像描述生成任務(wù)從只能生成單一形式的語(yǔ)句發(fā)展到現(xiàn)在可以生成精度更高、描述更加準(zhǔn)確的語(yǔ)句。在常規(guī)的編解碼框架中,使用了卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)[3]作為編碼器將圖像編碼為相應(yīng)特征,使用長(zhǎng)短期記憶(LongShort-TermMemory,LSTM)網(wǎng)絡(luò)作為解碼器將圖像特征解碼為對(duì)應(yīng)描述句子。
2017年,Vaswani等[4]提出了一種完全依賴(lài)于注意力機(jī)制的Transformer結(jié)構(gòu),可以對(duì)圖像特征進(jìn)行關(guān)系建模,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)存在的時(shí)間依賴(lài)問(wèn)題。隨后,基于Transformer結(jié)構(gòu)的各種變體[5],[6]在圖像描述模型中應(yīng)運(yùn)而生。2018年Anderson等[7]首次采用FasterR-CNN(FasterRegion-basedConvolutionalNeuralNetwork)[8]作為編碼器,提取圖像的顯著區(qū)域特征并應(yīng)用在圖像描述生成模型中,一經(jīng)問(wèn)世便取得了極其優(yōu)秀的表現(xiàn)。
2019年,Herdade等[9]在Transformer結(jié)構(gòu)之上,通過(guò)幾何注意合并對(duì)象事物之間的空間關(guān)系信息,證明了模型空間意識(shí)的重要性。以上的圖像描述生成模型雖然能產(chǎn)生描述圖像語(yǔ)義內(nèi)容的句子,但無(wú)法確切描述圖像事物的因果關(guān)系,存在潛在的視覺(jué)注意不合理問(wèn)題。2020年,Wang等[10]提出了一種新的無(wú)監(jiān)督特征表示學(xué)習(xí)方法,設(shè)計(jì)了VCR-CNN(VisualCommonsenseRegion-basedConvolutionalNeuralNetwork),該網(wǎng)絡(luò)通過(guò)因果關(guān)系訓(xùn)練得到視覺(jué)常識(shí)特征,可以捕捉圖像中上下文之間的潛在關(guān)系,在圖像描述生成模型上取得了很好的表現(xiàn)。
現(xiàn)在的圖像描述生成模型在使用多個(gè)特征進(jìn)行融合處理時(shí),會(huì)出現(xiàn)特征信息利用不充分且融合方式單一的問(wèn)題,存在一定的局限性。文獻(xiàn)[10]從圖像中提取視覺(jué)常識(shí)特征,但只是單一拼接到顯著區(qū)域特征上訓(xùn)練,并未充分利用視覺(jué)常識(shí)性信息。文獻(xiàn)[11]使用了VGG(VisualGeometryGroup)19和ResNet(ResidualNetwork)作為特征提取網(wǎng)絡(luò),整體融合方式也只是單一拼接,沒(méi)有重點(diǎn)融合其中的關(guān)鍵信息,導(dǎo)致生成語(yǔ)句存在重要內(nèi)容缺失問(wèn)題。
本文提出了基于Transformer結(jié)構(gòu)的圖像描述生成模型,引入了一種全新的自適應(yīng)常識(shí)門(mén)機(jī)制。為了提高對(duì)圖像深層關(guān)系的感知和表征性,提取視覺(jué)常識(shí)特征分層輸入到Transformer編碼器中,使模型更好的從特征信息中感知圖像的因果關(guān)系。為了增強(qiáng)常識(shí)信息在Transformer結(jié)構(gòu)上的利用效果并提高網(wǎng)絡(luò)收斂速度,本文改進(jìn)了兩種特征之間單一拼接的方式,在每一分層上設(shè)計(jì)了自適應(yīng)常識(shí)門(mén)(AdaptiveCommonsenseGate,ACG)。這樣不僅可以降低模型收斂速度,而且能夠充分融合視覺(jué)常識(shí)信息和圖像編碼信息,生成更加符合語(yǔ)境的描述語(yǔ)句。
1模型架構(gòu)
為了更好的實(shí)現(xiàn)并行處理,提高圖像描述的準(zhǔn)確度,模型使用了目前流行的完全基于注意力機(jī)制的Transformer結(jié)構(gòu),并在此基礎(chǔ)上重新設(shè)計(jì)了網(wǎng)絡(luò)。模型大體分為三個(gè)部分:特征提取網(wǎng)絡(luò)、融合ACG的編碼器、解碼器。其中,編碼端由多個(gè)自注意力塊和ACG堆積組成:自注意力塊負(fù)責(zé)對(duì)圖像特征進(jìn)行聚合操作,以此得到更高層次的圖像特征;ACG負(fù)責(zé)融合視覺(jué)常識(shí)特征和圖像編碼特征,自適應(yīng)地決定兩者特征之間的權(quán)重。解碼端由多個(gè)掩碼自注意力塊和交叉注意力塊組成,負(fù)責(zé)對(duì)編碼圖像進(jìn)行解碼操作,通過(guò)迭代解碼預(yù)測(cè)圖像標(biāo)題。
1.1特征提取網(wǎng)絡(luò)
通過(guò)目標(biāo)檢測(cè)任務(wù)中的FasterR-CNN提取圖像的顯著區(qū)域特征以及VCR-CNN提取圖像的視覺(jué)常識(shí)特征。FasterR-CNN將區(qū)域建議網(wǎng)絡(luò)(RegionProposalNetwork,RPN)引入深度神經(jīng)網(wǎng)絡(luò)中,將最終層提取的圖像特征組合為顯著區(qū)域特征Vvvv=12,,,…。
VCR-CNN作為一種改進(jìn)的視覺(jué)區(qū)域編碼器,使用因果關(guān)系干預(yù)該區(qū)域的上下文對(duì)象,可以學(xué)習(xí)感知構(gòu)建知識(shí)。VCR-CNN通過(guò)干擾因子字典(ConfounderDictionary,CD)存儲(chǔ)常識(shí),它的實(shí)現(xiàn)和FasterR-CNN相比,去除了RPN網(wǎng)絡(luò),不再訓(xùn)練網(wǎng)絡(luò)建議邊界框,而是直接將訓(xùn)練集中真實(shí)詞的邊界框坐標(biāo)輸入到其中,直接提取區(qū)域特征。
1.2融合ACG的編碼器
設(shè)計(jì)自適應(yīng)常識(shí)門(mén)的動(dòng)機(jī)來(lái)源于文獻(xiàn)[12]中的門(mén)控機(jī)制,在許多計(jì)算機(jī)視覺(jué)任務(wù)中得到了廣泛的應(yīng)用。采用門(mén)控機(jī)制的目的是建立信道特征依賴(lài)關(guān)系,可以更加有效地指導(dǎo)多通道信息之間的交互。ACG通過(guò)后續(xù)層和自注意力塊相結(jié)合,以此在編碼器中以同質(zhì)方式對(duì)圖像模態(tài)間和模態(tài)內(nèi)的常識(shí)性關(guān)系進(jìn)行建模。
2實(shí)驗(yàn)準(zhǔn)備
2.1實(shí)驗(yàn)數(shù)據(jù)集以及訓(xùn)練環(huán)境
本文使用MSCOCO2014[13]數(shù)據(jù)集來(lái)驗(yàn)證模型性能。MSCOCO數(shù)據(jù)集是當(dāng)前圖像描述任務(wù)的最大離線(xiàn)數(shù)據(jù)集,其包括82783個(gè)訓(xùn)練圖像,40504個(gè)驗(yàn)證圖像和40775個(gè)測(cè)試圖像,每個(gè)圖像標(biāo)有5個(gè)標(biāo)題。離線(xiàn)“Karpathy”數(shù)據(jù)分割[14]用于離線(xiàn)性能比較,這種分割在圖像描述工作中得到了廣泛的應(yīng)用,其中113,287張帶有5個(gè)標(biāo)題的圖像進(jìn)行訓(xùn)練,并用5000張圖像用于驗(yàn)證,5000張圖像用于測(cè)試。實(shí)驗(yàn)環(huán)境在Windows操作系統(tǒng)下進(jìn)行,基于Pytorch深度學(xué)習(xí)框架,該框架支持GPU運(yùn)算;用于測(cè)試的環(huán)境為Python3.7;用于訓(xùn)練和測(cè)試的硬件配置為:Inteli7-9700CPU3.00GHz處理器,NVidiaGeForceGTX2080顯卡。
2.2評(píng)分標(biāo)準(zhǔn)
為了對(duì)所提出的模型方法進(jìn)行定量的性能評(píng)價(jià),實(shí)驗(yàn)采用了標(biāo)準(zhǔn)的客觀(guān)量化評(píng)分方法,其中包括BLEU(BiLingualEvaluationUnderstudy)、ROUGE_L(LongestcommonsubsequencebasedRecall-OrientedUnderstudyforGistingEvaluation)、METEOR(MetricforEvaluationofTranslationwithExplicitORdering)、CIDEr(Consensus-basedImageDescriptionEvaluation)[15]以及SPICE(SemanticPropositionalImageCaptionEvaluation)[16]等評(píng)價(jià)指標(biāo)。
2.3實(shí)驗(yàn)參數(shù)設(shè)置
參數(shù)設(shè)置方面,本文在編碼器和解碼器中使用N=3個(gè)相同的層。單詞嵌入層的輸出維數(shù)為512,輸入的視覺(jué)特征也通過(guò)線(xiàn)性投影映射到512。前饋網(wǎng)絡(luò)的內(nèi)層維數(shù)為2048。多頭注意采用=8個(gè)平行注意層。本文使用ADAM(ADAptiveMomentestimation)[17]優(yōu)化器訓(xùn)練,將beta1和beta2分別設(shè)置為0.9和0.999,epsilon設(shè)置為1e-6。在語(yǔ)言文本生成模型中設(shè)定單詞時(shí)間步為20,為了生成更加合理的圖像文字描述,本文采用集束搜索BeamSearch的方式,將beamsize大小設(shè)置為3。
為了增強(qiáng)模型的魯棒性以及提高模型的訓(xùn)練速度,分別使用預(yù)先訓(xùn)練的FatserR-CNN模型提取圖像的顯著區(qū)域特征,使用VCR-CNN模型提取圖像對(duì)應(yīng)視覺(jué)常識(shí)特征。訓(xùn)練中,本文設(shè)置模型學(xué)習(xí)速率初始化為3e-4,輸入批處理大小為10,每次訓(xùn)練5輪增加0.05的計(jì)劃抽樣概率,進(jìn)行15輪交叉熵?fù)p失訓(xùn)練;隨后使用SCST(Self-CriticalSequenceTrainingforimagecaptiongeneration)[18]強(qiáng)化學(xué)習(xí)方法訓(xùn)練,學(xué)習(xí)率大小設(shè)置為1e-5,訓(xùn)練至30輪結(jié)束。
3實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證提出的融合自適應(yīng)常識(shí)門(mén)的圖像描述模型表現(xiàn)和性能。
3.1實(shí)驗(yàn)結(jié)果定性分析
本文選取測(cè)試集中不同場(chǎng)景的圖像進(jìn)行測(cè)試,各圖生成的描述實(shí)例,其中每個(gè)實(shí)例包含Transformer基線(xiàn)模型、本文模型以及人為標(biāo)注的參考描述(HUMAN)。從這些示例中,本文發(fā)現(xiàn)Transformer基線(xiàn)模型生成的標(biāo)題符合語(yǔ)言邏輯,但描述內(nèi)容不夠準(zhǔn)確,甚至有些描述與圖像內(nèi)容不太匹配。
而本文提出的模型生成的標(biāo)題相對(duì)正確且更具有描述性。從中可以看到本文提出的模型生成的語(yǔ)句不僅相比基線(xiàn)模型效果要更好,甚至比人工描述更加生動(dòng)形象,描述出了人工標(biāo)注也忽略了的一些重要點(diǎn)。然而,相對(duì)于表達(dá)程度更深的人工標(biāo)注而言,機(jī)器產(chǎn)生的描述存在一定的局限性。本文模型和Transformer基線(xiàn)模型僅僅只是描述出圖像中的內(nèi)容“一組飛機(jī)停在機(jī)場(chǎng)”,而人工標(biāo)注進(jìn)一步描述出了“在窗戶(hù)后面”。
4結(jié)語(yǔ)
本文提出了一種基于Transformer結(jié)構(gòu),融合自適應(yīng)常識(shí)門(mén)的圖像描述生成模型。使用FasterR-CNN模型提取圖像顯著區(qū)域特征,使用VCR-CNN模型提取視覺(jué)常識(shí)特征。通過(guò)將視覺(jué)常識(shí)特征分層輸入到Transformer編碼器中,并在每一分層中設(shè)計(jì)使用了自適應(yīng)常識(shí)門(mén),從而增強(qiáng)了模型對(duì)視覺(jué)常識(shí)信息的提取能力,同時(shí)進(jìn)一步融合了圖像的顯著區(qū)域信息和視覺(jué)常識(shí)信息。本文所提出的模型在圖像描述評(píng)價(jià)指標(biāo)上都取得較高分?jǐn)?shù),其中BLEU-4、CIDEr得分可以達(dá)到39.2分和129.6分。實(shí)驗(yàn)結(jié)果表明,本文提出的模型泛化能力相比于傳統(tǒng)模型更好一些,在圖像描述生成任務(wù)上能取得出色的表現(xiàn)。
參考文獻(xiàn):
[1]JiangW,MaL,JiangYG,etal.Recurrentfusionnetworkforimagecaptioning[C]//Proceedingsofthe2018EuropeanConferenceonComputerVision.Cham:Springer,2018:499-515.
[2]黃友文,游亞?wèn)|,趙朋.融合卷積注意力機(jī)制的圖像描述生成模型[J].計(jì)算機(jī)應(yīng)用,2020,40(1):23-27.(HUANGYW,YOUYD,ZHAOP.Imagecaptiongenerationmodelwithconvolutionalattentionmechanism[J].JournalofComputerApplications,2020,40(1):23-27.)
[3]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimagerecognition[C]//Proceedingsofthe2016InternationalConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety,2016:770-778.
[4]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[C]//Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc,2017:6000-6010.
[5]ZHUX,LIL,LIUJ,etal.CaptioningTransformerwithStackedAttentionModules.AppliedSciences.2018;8(5):739.
作者:楊有1,2,陳立志2*,方小龍2,潘龍?jiān)?
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/29279.html