本文摘要:摘要把人像或景物等真實(shí)世界中的圖片直接變換為動漫或插畫風(fēng)格圖像是一件非常有趣且具有實(shí)際應(yīng)用需求的任務(wù),自該概念提出后就在計算機(jī)視覺領(lǐng)域引起了廣泛的研究興趣。當(dāng)前在該任務(wù)的研究中主要通過生成對抗學(xué)習(xí)模型對圖像進(jìn)行風(fēng)格遷移來實(shí)現(xiàn)。但是現(xiàn)有方法在圖像風(fēng)格
摘要把人像或景物等真實(shí)世界中的圖片直接變換為動漫或插畫風(fēng)格圖像是一件非常有趣且具有實(shí)際應(yīng)用需求的任務(wù),自該概念提出后就在計算機(jī)視覺領(lǐng)域引起了廣泛的研究興趣。當(dāng)前在該任務(wù)的研究中主要通過生成對抗學(xué)習(xí)模型對圖像進(jìn)行風(fēng)格遷移來實(shí)現(xiàn)。但是現(xiàn)有方法在圖像風(fēng)格遷移時難以同時傳輸風(fēng)格與內(nèi)容。本文針對該問題設(shè)計了新的生成器網(wǎng)絡(luò),在同時遷移風(fēng)格與內(nèi)容時做到了比較好的平衡。在將設(shè)計的生成對抗模型應(yīng)用到圖像風(fēng)格轉(zhuǎn)換任務(wù)上時,能夠根據(jù)目標(biāo)藝術(shù)風(fēng)格生成對應(yīng)的動漫插畫效果。這些生成的插畫圖像不僅擁有非常好的視覺質(zhì)量,而且原有的圖像內(nèi)容也能被很好地保留。
關(guān)鍵詞深度學(xué)習(xí);圖像風(fēng)格遷移;圖像生成;生成對抗網(wǎng)絡(luò)
1引言
使用計算機(jī)生成具有動漫插畫藝術(shù)風(fēng)格的圖像是一件非常有趣的任務(wù)。當(dāng)前對該任務(wù)的研究主要通過圖像風(fēng)格遷移來實(shí)現(xiàn)[1]。圖像風(fēng)格遷移指的是使用計算機(jī)對圖像中的內(nèi)容進(jìn)行風(fēng)格化處理,使其在原有內(nèi)容能夠被辨識的情況下呈現(xiàn)特定的藝術(shù)風(fēng)格,是近年來計算機(jī)視覺中一個新的研究方向。由于風(fēng)格遷移技術(shù)能夠讓計算機(jī)“自主”地進(jìn)行藝術(shù)創(chuàng)作,因此自該概念提出以來,便立即引起了人們的廣泛關(guān)注。
當(dāng)前在對圖像風(fēng)格遷移的研究中,基本上采用深度卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)或生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)學(xué)習(xí)模型[2]。這些模型能夠?qū)⒛骋凰囆g(shù)風(fēng)格添加到目標(biāo)圖像上,從而使其具有藝術(shù)化的屬性。在圖像風(fēng)格遷移中,首先使用CNN或GAN從指定的風(fēng)格圖像中學(xué)習(xí)風(fēng)格模式,再應(yīng)用到目標(biāo)圖像上后就可以把它們轉(zhuǎn)換為油畫、卡通動漫、中國山水畫等不同的藝術(shù)圖像[1-4],或者是在圖像上實(shí)現(xiàn)季節(jié)和紋理的變換[5-6]。
由于GAN模型在訓(xùn)練中存在不穩(wěn)定與難以優(yōu)化的問題,當(dāng)前許多風(fēng)格遷移工作從損失函數(shù)的角度對其加以改進(jìn)。在這些改進(jìn)的模型中,DualGAN和CycleGAN等都能夠比較好地完成圖像風(fēng)格遷移工作[7-8]。但是這些GAN模型在風(fēng)格遷移時只能對風(fēng)格或內(nèi)容二者之一進(jìn)行遷移。本文通過對其中的生成器結(jié)構(gòu)進(jìn)行改進(jìn),使得模型在對風(fēng)格與內(nèi)容同時遷移時做到比較好的平衡。改進(jìn)后的模型被進(jìn)一步應(yīng)用到自然圖像到動漫插畫的風(fēng)格變換中。實(shí)驗(yàn)結(jié)果表明,該模型能夠在保留原自然場景內(nèi)容的同時,擁用非常優(yōu)秀的動漫插畫風(fēng)格效果。
2生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)GAN也是一種生成模型,但是它不需要顯式地表達(dá)樣本的概率分布,而是采用對抗學(xué)習(xí)的思想,通過生成器與判別器之間的零和博弈隱式地學(xué)習(xí)到數(shù)據(jù)的內(nèi)在分布。當(dāng)生成器與判別器達(dá)到納什平衡狀態(tài)后,由生成器生成的數(shù)據(jù)就能夠擁有和真實(shí)數(shù)據(jù)相同的內(nèi)在屬性,這樣就可以利用生成器來獲得以假亂真的數(shù)據(jù)。GAN模型由生成器
生成器
當(dāng)使用GAN模型生成圖像數(shù)據(jù)時,需要為生成器
因此,在整個訓(xùn)練過程中,生成器
3動漫插畫風(fēng)格遷移模型
與一般的GAN模型相同,本文設(shè)計的動漫插畫風(fēng)格遷移模型也由生成器與判別器構(gòu)成,通過兩者對抗學(xué)習(xí)來獲得數(shù)據(jù)的內(nèi)在分布。為了能夠在動漫插畫風(fēng)格遷移中比較好地保留圖像原始內(nèi)容,同時實(shí)現(xiàn)藝術(shù)風(fēng)格的遷移,該生成器結(jié)構(gòu)以ResNet-18作為基礎(chǔ)模型,將圖像的生成分為降采樣與上采樣兩個部分。
4實(shí)驗(yàn)
實(shí)驗(yàn)采用了JunYanZhu等人的自然世界圖像數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)中的源域圖像[8],采用SametHicsonmez等人的藝術(shù)圖像作為目標(biāo)域[10],源域與目標(biāo)域的圖像數(shù)分別為5402與4890。作為源域的圖像主要是各種自然風(fēng)光與景物圖像,而作為目標(biāo)域的圖像來自于不同兒童插畫繪本中的圖像。它們由不同的藝術(shù)家所繪制,因此具有不同的藝術(shù)風(fēng)格。
在訓(xùn)練時,這些圖像都被統(tǒng)一縮放到了256×256的像素大小。本文圖像風(fēng)格遷移并不需要為目標(biāo)圖像與源圖像配對,只需要從源域與目標(biāo)域中隨機(jī)選擇圖像進(jìn)行配對訓(xùn)練即可。實(shí)驗(yàn)在Ubuntu18.04環(huán)境下,采用了PyTorch深度學(xué)習(xí)框架進(jìn)行,并使用NVIDIA-1080GPU與CUDA10進(jìn)行加速。實(shí)驗(yàn)使用了學(xué)習(xí)率為0.002的SGD優(yōu)化器對模型作為200個epoch的優(yōu)化,再將其用于動漫插畫風(fēng)格圖像的生成測試。
分別為使用CycleGAN、DualGAN與本文模型生成插畫風(fēng)格圖像?梢钥吹,這幾種模型都能夠?qū)崿F(xiàn)動漫插畫風(fēng)格的遷移,生成的圖像都在源圖像內(nèi)容可辨識的情況下添加上了目標(biāo)藝術(shù)風(fēng)格。但是CycleGAN生成的圖像中會混入一些其他內(nèi)容,給原始的圖像內(nèi)容帶來了破壞;DualGAN雖然比較好地保留了源圖像的內(nèi)容,但是在圖像風(fēng)格上差強(qiáng)人意。與它們相比,本文模型生成的動漫插畫中不僅原始內(nèi)容得到了很好地保留,而且藝術(shù)風(fēng)格明顯,圖像的整體視覺質(zhì)量最為優(yōu)秀。
5結(jié)論
本文對基于對抗生成網(wǎng)絡(luò)的動漫插畫風(fēng)格遷移進(jìn)行了研究。為了能夠同時對圖像風(fēng)格與內(nèi)容進(jìn)行遷移,設(shè)計了新的生成器網(wǎng)絡(luò)。在使用自然世界圖像作為源域數(shù)據(jù)、藝術(shù)插畫圖像作為目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練后,本文方法能夠生成具有優(yōu)秀視覺質(zhì)量的動漫插畫圖像。與CycleGAN和DualGAN等模型生成的圖像相比,本文方法在圖像風(fēng)格與原有圖像內(nèi)容上達(dá)到了比較好的平衡。
參考文獻(xiàn)
[1]YongchengJing,YezhouYang,ZunleiFeng,etal.NeuralStyleTransfer:AReview.IEEETransactionsonVisualizationandComputerGraphics.2019,26(11):33653385
[2]GoodfellowIan,PougetAbadieJean,MirzaMehdi,etal.GenerativeAdversarialNets//Advancesinneuralinformationprocessingsystems,2014:26722680
[3]XunHuang,MingYuLiu,SergeBelongie,etal.Multimodalunsupervisedimagetoimagetranslation//ProceedingsoftheEuropeanConferenceonComputerVision.IEEE,2018:172189
[4]JiachuanSheng,CaifengSong,JunWang,etal.ConvolutionalNeuralNetworkStyleTransferTowardsChinesePaintings.IEEEAccess,2019(7):163719163728
[5]FujunLuan,SylvainParis,EliShechtman,etal.DeepPhotoStyleTransfer//ProceedingsoftheIEEEInternationalConferenceonComputerVision.IEEE,2017:49904998
作者:董虎勝劉誠志朱晶徐蘇安
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/28540.html