動(dòng)漫插畫風(fēng)格圖像生成研究

所屬分類：文史論文閱讀次時(shí)間：2021-11-12 16:40

本文摘要：摘要把人像或景物等真實(shí)世界中的圖片直接變換為動(dòng)漫或插畫風(fēng)格圖像是一件非常有趣且具有實(shí)際應(yīng)用需求的任務(wù)，自該概念提出后就在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了廣泛的研究興趣。當(dāng)前在該任務(wù)的研究中主要通過(guò)生成對(duì)抗學(xué)習(xí)模型對(duì)圖像進(jìn)行風(fēng)格遷移來(lái)實(shí)現(xiàn)。但是現(xiàn)有方法在圖像風(fēng)格

　　摘要把人像或景物等真實(shí)世界中的圖片直接變換為動(dòng)漫或插畫風(fēng)格圖像是一件非常有趣且具有實(shí)際應(yīng)用需求的任務(wù)，自該概念提出后就在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了廣泛的研究興趣。當(dāng)前在該任務(wù)的研究中主要通過(guò)生成對(duì)抗學(xué)習(xí)模型對(duì)圖像進(jìn)行風(fēng)格遷移來(lái)實(shí)現(xiàn)。但是現(xiàn)有方法在圖像風(fēng)格遷移時(shí)難以同時(shí)傳輸風(fēng)格與內(nèi)容。本文針對(duì)該問(wèn)題設(shè)計(jì)了新的生成器網(wǎng)絡(luò)，在同時(shí)遷移風(fēng)格與內(nèi)容時(shí)做到了比較好的平衡。在將設(shè)計(jì)的生成對(duì)抗模型應(yīng)用到圖像風(fēng)格轉(zhuǎn)換任務(wù)上時(shí)，能夠根據(jù)目標(biāo)藝術(shù)風(fēng)格生成對(duì)應(yīng)的動(dòng)漫插畫效果。這些生成的插畫圖像不僅擁有非常好的視覺(jué)質(zhì)量，而且原有的圖像內(nèi)容也能被很好地保留。

　　關(guān)鍵詞深度學(xué)習(xí);圖像風(fēng)格遷移;圖像生成;生成對(duì)抗網(wǎng)絡(luò)

動(dòng)畫圖像生成

　　1引言

　　使用計(jì)算機(jī)生成具有動(dòng)漫插畫藝術(shù)風(fēng)格的圖像是一件非常有趣的任務(wù)。當(dāng)前對(duì)該任務(wù)的研究主要通過(guò)圖像風(fēng)格遷移來(lái)實(shí)現(xiàn)[1]。圖像風(fēng)格遷移指的是使用計(jì)算機(jī)對(duì)圖像中的內(nèi)容進(jìn)行風(fēng)格化處理，使其在原有內(nèi)容能夠被辨識(shí)的情況下呈現(xiàn)特定的藝術(shù)風(fēng)格，是近年來(lái)計(jì)算機(jī)視覺(jué)中一個(gè)新的研究方向。由于風(fēng)格遷移技術(shù)能夠讓計(jì)算機(jī)“自主”地進(jìn)行藝術(shù)創(chuàng)作，因此自該概念提出以來(lái)，便立即引起了人們的廣泛關(guān)注。

　　當(dāng)前在對(duì)圖像風(fēng)格遷移的研究中，基本上采用深度卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)或生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)學(xué)習(xí)模型[2]。這些模型能夠?qū)⒛骋凰囆g(shù)風(fēng)格添加到目標(biāo)圖像上，從而使其具有藝術(shù)化的屬性。在圖像風(fēng)格遷移中，首先使用CNN或GAN從指定的風(fēng)格圖像中學(xué)習(xí)風(fēng)格模式，再應(yīng)用到目標(biāo)圖像上后就可以把它們轉(zhuǎn)換為油畫、卡通動(dòng)漫、中國(guó)山水畫等不同的藝術(shù)圖像[1-4]，或者是在圖像上實(shí)現(xiàn)季節(jié)和紋理的變換[5-6]。

　　由于GAN模型在訓(xùn)練中存在不穩(wěn)定與難以優(yōu)化的問(wèn)題，當(dāng)前許多風(fēng)格遷移工作從損失函數(shù)的角度對(duì)其加以改進(jìn)。在這些改進(jìn)的模型中，DualGAN和CycleGAN等都能夠比較好地完成圖像風(fēng)格遷移工作[7-8]。但是這些GAN模型在風(fēng)格遷移時(shí)只能對(duì)風(fēng)格或內(nèi)容二者之一進(jìn)行遷移。本文通過(guò)對(duì)其中的生成器結(jié)構(gòu)進(jìn)行改進(jìn)，使得模型在對(duì)風(fēng)格與內(nèi)容同時(shí)遷移時(shí)做到比較好的平衡。改進(jìn)后的模型被進(jìn)一步應(yīng)用到自然圖像到動(dòng)漫插畫的風(fēng)格變換中。實(shí)驗(yàn)結(jié)果表明，該模型能夠在保留原自然場(chǎng)景內(nèi)容的同時(shí)，擁用非常優(yōu)秀的動(dòng)漫插畫風(fēng)格效果。

　　2生成對(duì)抗網(wǎng)絡(luò)

　　生成對(duì)抗網(wǎng)絡(luò)GAN也是一種生成模型，但是它不需要顯式地表達(dá)樣本的概率分布，而是采用對(duì)抗學(xué)習(xí)的思想，通過(guò)生成器與判別器之間的零和博弈隱式地學(xué)習(xí)到數(shù)據(jù)的內(nèi)在分布。當(dāng)生成器與判別器達(dá)到納什平衡狀態(tài)后，由生成器生成的數(shù)據(jù)就能夠擁有和真實(shí)數(shù)據(jù)相同的內(nèi)在屬性，這樣就可以利用生成器來(lái)獲得以假亂真的數(shù)據(jù)。GAN模型由生成器

　　生成器

　　當(dāng)使用GAN模型生成圖像數(shù)據(jù)時(shí)，需要為生成器

　　因此，在整個(gè)訓(xùn)練過(guò)程中，生成器

　　3動(dòng)漫插畫風(fēng)格遷移模型

　　與一般的GAN模型相同，本文設(shè)計(jì)的動(dòng)漫插畫風(fēng)格遷移模型也由生成器與判別器構(gòu)成，通過(guò)兩者對(duì)抗學(xué)習(xí)來(lái)獲得數(shù)據(jù)的內(nèi)在分布。為了能夠在動(dòng)漫插畫風(fēng)格遷移中比較好地保留圖像原始內(nèi)容，同時(shí)實(shí)現(xiàn)藝術(shù)風(fēng)格的遷移，該生成器結(jié)構(gòu)以ResNet-18作為基礎(chǔ)模型，將圖像的生成分為降采樣與上采樣兩個(gè)部分。

　　4實(shí)驗(yàn)

　　實(shí)驗(yàn)采用了JunYanZhu等人的自然世界圖像數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)中的源域圖像[8]，采用SametHicsonmez等人的藝術(shù)圖像作為目標(biāo)域[10]，源域與目標(biāo)域的圖像數(shù)分別為5402與4890。作為源域的圖像主要是各種自然風(fēng)光與景物圖像，而作為目標(biāo)域的圖像來(lái)自于不同兒童插畫繪本中的圖像。它們由不同的藝術(shù)家所繪制，因此具有不同的藝術(shù)風(fēng)格。

　　在訓(xùn)練時(shí)，這些圖像都被統(tǒng)一縮放到了256×256的像素大小。本文圖像風(fēng)格遷移并不需要為目標(biāo)圖像與源圖像配對(duì)，只需要從源域與目標(biāo)域中隨機(jī)選擇圖像進(jìn)行配對(duì)訓(xùn)練即可。實(shí)驗(yàn)在Ubuntu18.04環(huán)境下，采用了PyTorch深度學(xué)習(xí)框架進(jìn)行，并使用NVIDIA-1080GPU與CUDA10進(jìn)行加速。實(shí)驗(yàn)使用了學(xué)習(xí)率為0.002的SGD優(yōu)化器對(duì)模型作為200個(gè)epoch的優(yōu)化，再將其用于動(dòng)漫插畫風(fēng)格圖像的生成測(cè)試。

　　分別為使用CycleGAN、DualGAN與本文模型生成插畫風(fēng)格圖像�？梢钥吹�，這幾種模型都能夠?qū)崿F(xiàn)動(dòng)漫插畫風(fēng)格的遷移，生成的圖像都在源圖像內(nèi)容可辨識(shí)的情況下添加上了目標(biāo)藝術(shù)風(fēng)格。但是CycleGAN生成的圖像中會(huì)混入一些其他內(nèi)容，給原始的圖像內(nèi)容帶來(lái)了破壞;DualGAN雖然比較好地保留了源圖像的內(nèi)容，但是在圖像風(fēng)格上差強(qiáng)人意。與它們相比，本文模型生成的動(dòng)漫插畫中不僅原始內(nèi)容得到了很好地保留，而且藝術(shù)風(fēng)格明顯，圖像的整體視覺(jué)質(zhì)量最為優(yōu)秀。

　　5結(jié)論

　　本文對(duì)基于對(duì)抗生成網(wǎng)絡(luò)的動(dòng)漫插畫風(fēng)格遷移進(jìn)行了研究。為了能夠同時(shí)對(duì)圖像風(fēng)格與內(nèi)容進(jìn)行遷移，設(shè)計(jì)了新的生成器網(wǎng)絡(luò)。在使用自然世界圖像作為源域數(shù)據(jù)、藝術(shù)插畫圖像作為目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練后，本文方法能夠生成具有優(yōu)秀視覺(jué)質(zhì)量的動(dòng)漫插畫圖像。與CycleGAN和DualGAN等模型生成的圖像相比，本文方法在圖像風(fēng)格與原有圖像內(nèi)容上達(dá)到了比較好的平衡。

　　參考文獻(xiàn)

　　[1]YongchengJing,YezhouYang,ZunleiFeng,etal.NeuralStyleTransfer:AReview.IEEETransactionsonVisualizationandComputerGraphics.2019,26(11):33653385

　　[2]GoodfellowIan,PougetAbadieJean,MirzaMehdi,etal.GenerativeAdversarialNets//Advancesinneuralinformationprocessingsystems,2014:26722680

　　[3]XunHuang,MingYuLiu,SergeBelongie,etal.Multimodalunsupervisedimagetoimagetranslation//ProceedingsoftheEuropeanConferenceonComputerVision.IEEE,2018:172189

　　[4]JiachuanSheng,CaifengSong,JunWang,etal.ConvolutionalNeuralNetworkStyleTransferTowardsChinesePaintings.IEEEAccess,2019(7):163719163728

　　[5]FujunLuan,SylvainParis,EliShechtman,etal.DeepPhotoStyleTransfer//ProceedingsoftheIEEEInternationalConferenceonComputerVision.IEEE,2017:49904998

　　作者：董虎勝劉誠(chéng)志朱晶徐蘇安