本文摘要:摘要:針對傳統(tǒng)的圖像描述模型不能充分利用圖像信息且融合特征方式單一的問題,提出了一種融合自適應常識門的圖像描述生成模型。首先,使用VCR-CNN提取視覺常識特征,并將常識特征分層輸入到Transformer編碼器中;然后,在編碼器每一分層中設計了自適應常識門,對視覺常
摘要:針對傳統(tǒng)的圖像描述模型不能充分利用圖像信息且融合特征方式單一的問題,提出了一種融合自適應常識門的圖像描述生成模型。首先,使用VCR-CNN提取視覺常識特征,并將常識特征分層輸入到Transformer編碼器中;然后,在編碼器每一分層中設計了自適應常識門,對視覺常識特征和編碼特征進行自適應融合操作;最后,將融合常識信息的編碼特征送入Transformer解碼器中完成訓練。通過MSCOCO數(shù)據(jù)集進行訓練和測試,在指標BLEU-4、CIDEr、SPICE分別為39.2、129.6和22.7,相較于POS-SCAN模型分別提升了3.1%、2.9%和2.2%。實驗結果表明,所提出的模型效果明顯優(yōu)于使用單一顯著區(qū)域特征的Transformer模型,能夠對圖像內容進行準確的描述。
關鍵詞:圖像描述;自然語言處理;卷積神經(jīng)網(wǎng)絡;視覺常識;自適應常識門
0引言
圖像描述生成是一個融合了計算機視覺和自然語言處理的跨模態(tài)任務,它是圖像處理的高級層次。從傳統(tǒng)基于檢索、模板的方法到后來基于編碼器-解碼器的深度學習方法[1-2],使圖像描述生成任務從只能生成單一形式的語句發(fā)展到現(xiàn)在可以生成精度更高、描述更加準確的語句。在常規(guī)的編解碼框架中,使用了卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetwork,CNN)[3]作為編碼器將圖像編碼為相應特征,使用長短期記憶(LongShort-TermMemory,LSTM)網(wǎng)絡作為解碼器將圖像特征解碼為對應描述句子。
2017年,Vaswani等[4]提出了一種完全依賴于注意力機制的Transformer結構,可以對圖像特征進行關系建模,解決了循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetworks,RNN)存在的時間依賴問題。隨后,基于Transformer結構的各種變體[5],[6]在圖像描述模型中應運而生。2018年Anderson等[7]首次采用FasterR-CNN(FasterRegion-basedConvolutionalNeuralNetwork)[8]作為編碼器,提取圖像的顯著區(qū)域特征并應用在圖像描述生成模型中,一經(jīng)問世便取得了極其優(yōu)秀的表現(xiàn)。
2019年,Herdade等[9]在Transformer結構之上,通過幾何注意合并對象事物之間的空間關系信息,證明了模型空間意識的重要性。以上的圖像描述生成模型雖然能產(chǎn)生描述圖像語義內容的句子,但無法確切描述圖像事物的因果關系,存在潛在的視覺注意不合理問題。2020年,Wang等[10]提出了一種新的無監(jiān)督特征表示學習方法,設計了VCR-CNN(VisualCommonsenseRegion-basedConvolutionalNeuralNetwork),該網(wǎng)絡通過因果關系訓練得到視覺常識特征,可以捕捉圖像中上下文之間的潛在關系,在圖像描述生成模型上取得了很好的表現(xiàn)。
現(xiàn)在的圖像描述生成模型在使用多個特征進行融合處理時,會出現(xiàn)特征信息利用不充分且融合方式單一的問題,存在一定的局限性。文獻[10]從圖像中提取視覺常識特征,但只是單一拼接到顯著區(qū)域特征上訓練,并未充分利用視覺常識性信息。文獻[11]使用了VGG(VisualGeometryGroup)19和ResNet(ResidualNetwork)作為特征提取網(wǎng)絡,整體融合方式也只是單一拼接,沒有重點融合其中的關鍵信息,導致生成語句存在重要內容缺失問題。
本文提出了基于Transformer結構的圖像描述生成模型,引入了一種全新的自適應常識門機制。為了提高對圖像深層關系的感知和表征性,提取視覺常識特征分層輸入到Transformer編碼器中,使模型更好的從特征信息中感知圖像的因果關系。為了增強常識信息在Transformer結構上的利用效果并提高網(wǎng)絡收斂速度,本文改進了兩種特征之間單一拼接的方式,在每一分層上設計了自適應常識門(AdaptiveCommonsenseGate,ACG)。這樣不僅可以降低模型收斂速度,而且能夠充分融合視覺常識信息和圖像編碼信息,生成更加符合語境的描述語句。
1模型架構
為了更好的實現(xiàn)并行處理,提高圖像描述的準確度,模型使用了目前流行的完全基于注意力機制的Transformer結構,并在此基礎上重新設計了網(wǎng)絡。模型大體分為三個部分:特征提取網(wǎng)絡、融合ACG的編碼器、解碼器。其中,編碼端由多個自注意力塊和ACG堆積組成:自注意力塊負責對圖像特征進行聚合操作,以此得到更高層次的圖像特征;ACG負責融合視覺常識特征和圖像編碼特征,自適應地決定兩者特征之間的權重。解碼端由多個掩碼自注意力塊和交叉注意力塊組成,負責對編碼圖像進行解碼操作,通過迭代解碼預測圖像標題。
1.1特征提取網(wǎng)絡
通過目標檢測任務中的FasterR-CNN提取圖像的顯著區(qū)域特征以及VCR-CNN提取圖像的視覺常識特征。FasterR-CNN將區(qū)域建議網(wǎng)絡(RegionProposalNetwork,RPN)引入深度神經(jīng)網(wǎng)絡中,將最終層提取的圖像特征組合為顯著區(qū)域特征Vvvv=12,,,…。
VCR-CNN作為一種改進的視覺區(qū)域編碼器,使用因果關系干預該區(qū)域的上下文對象,可以學習感知構建知識。VCR-CNN通過干擾因子字典(ConfounderDictionary,CD)存儲常識,它的實現(xiàn)和FasterR-CNN相比,去除了RPN網(wǎng)絡,不再訓練網(wǎng)絡建議邊界框,而是直接將訓練集中真實詞的邊界框坐標輸入到其中,直接提取區(qū)域特征。
1.2融合ACG的編碼器
設計自適應常識門的動機來源于文獻[12]中的門控機制,在許多計算機視覺任務中得到了廣泛的應用。采用門控機制的目的是建立信道特征依賴關系,可以更加有效地指導多通道信息之間的交互。ACG通過后續(xù)層和自注意力塊相結合,以此在編碼器中以同質方式對圖像模態(tài)間和模態(tài)內的常識性關系進行建模。
2實驗準備
2.1實驗數(shù)據(jù)集以及訓練環(huán)境
本文使用MSCOCO2014[13]數(shù)據(jù)集來驗證模型性能。MSCOCO數(shù)據(jù)集是當前圖像描述任務的最大離線數(shù)據(jù)集,其包括82783個訓練圖像,40504個驗證圖像和40775個測試圖像,每個圖像標有5個標題。離線“Karpathy”數(shù)據(jù)分割[14]用于離線性能比較,這種分割在圖像描述工作中得到了廣泛的應用,其中113,287張帶有5個標題的圖像進行訓練,并用5000張圖像用于驗證,5000張圖像用于測試。實驗環(huán)境在Windows操作系統(tǒng)下進行,基于Pytorch深度學習框架,該框架支持GPU運算;用于測試的環(huán)境為Python3.7;用于訓練和測試的硬件配置為:Inteli7-9700CPU3.00GHz處理器,NVidiaGeForceGTX2080顯卡。
2.2評分標準
為了對所提出的模型方法進行定量的性能評價,實驗采用了標準的客觀量化評分方法,其中包括BLEU(BiLingualEvaluationUnderstudy)、ROUGE_L(LongestcommonsubsequencebasedRecall-OrientedUnderstudyforGistingEvaluation)、METEOR(MetricforEvaluationofTranslationwithExplicitORdering)、CIDEr(Consensus-basedImageDescriptionEvaluation)[15]以及SPICE(SemanticPropositionalImageCaptionEvaluation)[16]等評價指標。
2.3實驗參數(shù)設置
參數(shù)設置方面,本文在編碼器和解碼器中使用N=3個相同的層。單詞嵌入層的輸出維數(shù)為512,輸入的視覺特征也通過線性投影映射到512。前饋網(wǎng)絡的內層維數(shù)為2048。多頭注意采用=8個平行注意層。本文使用ADAM(ADAptiveMomentestimation)[17]優(yōu)化器訓練,將beta1和beta2分別設置為0.9和0.999,epsilon設置為1e-6。在語言文本生成模型中設定單詞時間步為20,為了生成更加合理的圖像文字描述,本文采用集束搜索BeamSearch的方式,將beamsize大小設置為3。
為了增強模型的魯棒性以及提高模型的訓練速度,分別使用預先訓練的FatserR-CNN模型提取圖像的顯著區(qū)域特征,使用VCR-CNN模型提取圖像對應視覺常識特征。訓練中,本文設置模型學習速率初始化為3e-4,輸入批處理大小為10,每次訓練5輪增加0.05的計劃抽樣概率,進行15輪交叉熵損失訓練;隨后使用SCST(Self-CriticalSequenceTrainingforimagecaptiongeneration)[18]強化學習方法訓練,學習率大小設置為1e-5,訓練至30輪結束。
3實驗結果及分析
為了驗證提出的融合自適應常識門的圖像描述模型表現(xiàn)和性能。
3.1實驗結果定性分析
本文選取測試集中不同場景的圖像進行測試,各圖生成的描述實例,其中每個實例包含Transformer基線模型、本文模型以及人為標注的參考描述(HUMAN)。從這些示例中,本文發(fā)現(xiàn)Transformer基線模型生成的標題符合語言邏輯,但描述內容不夠準確,甚至有些描述與圖像內容不太匹配。
而本文提出的模型生成的標題相對正確且更具有描述性。從中可以看到本文提出的模型生成的語句不僅相比基線模型效果要更好,甚至比人工描述更加生動形象,描述出了人工標注也忽略了的一些重要點。然而,相對于表達程度更深的人工標注而言,機器產(chǎn)生的描述存在一定的局限性。本文模型和Transformer基線模型僅僅只是描述出圖像中的內容“一組飛機停在機場”,而人工標注進一步描述出了“在窗戶后面”。
4結語
本文提出了一種基于Transformer結構,融合自適應常識門的圖像描述生成模型。使用FasterR-CNN模型提取圖像顯著區(qū)域特征,使用VCR-CNN模型提取視覺常識特征。通過將視覺常識特征分層輸入到Transformer編碼器中,并在每一分層中設計使用了自適應常識門,從而增強了模型對視覺常識信息的提取能力,同時進一步融合了圖像的顯著區(qū)域信息和視覺常識信息。本文所提出的模型在圖像描述評價指標上都取得較高分數(shù),其中BLEU-4、CIDEr得分可以達到39.2分和129.6分。實驗結果表明,本文提出的模型泛化能力相比于傳統(tǒng)模型更好一些,在圖像描述生成任務上能取得出色的表現(xiàn)。
參考文獻:
[1]JiangW,MaL,JiangYG,etal.Recurrentfusionnetworkforimagecaptioning[C]//Proceedingsofthe2018EuropeanConferenceonComputerVision.Cham:Springer,2018:499-515.
[2]黃友文,游亞東,趙朋.融合卷積注意力機制的圖像描述生成模型[J].計算機應用,2020,40(1):23-27.(HUANGYW,YOUYD,ZHAOP.Imagecaptiongenerationmodelwithconvolutionalattentionmechanism[J].JournalofComputerApplications,2020,40(1):23-27.)
[3]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimagerecognition[C]//Proceedingsofthe2016InternationalConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety,2016:770-778.
[4]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[C]//Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc,2017:6000-6010.
[5]ZHUX,LIL,LIUJ,etal.CaptioningTransformerwithStackedAttentionModules.AppliedSciences.2018;8(5):739.
作者:楊有1,2,陳立志2*,方小龍2,潘龍越2
轉載請注明來自發(fā)表學術論文網(wǎng):http:///dzlw/29279.html