-
现有的图像增强算法在针对具有低分辨率特征的不清晰图像实施复原处理时,大多数图像通常会出现缺乏真实性问题与出现伪影问题,严重影响增强后图像的质量。为此,本文作者提出一种DDR GAN网络图像增强算法,以增强图像效能。
-
本文中提出的算法整体结构框架受生成对抗网络启发,其中心思想是源自博弈论当中的纳什均衡这一概念,主要由两部分组成:DDR GAN网络生成器G和网络判别器D,如图 1所示。
具有低分辨率特征的模糊图像M,其在历经DDR GAN网络生成器G施行增强手段后,即得到尽可能与清晰图像S相似度较高的生成图像G(M);此后,进一步把G(M)与清晰图像S一同输入至网络判别器D当中,网络判别器D会对G(M)做出评价,输出一个0~1之间的数值,这个值越趋近于1,说明生成图像G(M)越趋近于真实的清晰图像S,这个值又会反向指导G生成与S更加接近的G(M)。生成器G的目标就是让其生成的图像G(M)和与之对应的清晰图像S无限接近;而判别器D的核心目标,即精确判定出所输进的图像究竟归属于清晰图像S亦或是图像G(M)。G与D之间相互对抗、共同优化,最终达到纳什均衡,即当网络判别器D的判别能力已较为优秀后,生成器生成的图像G(M)仍无法被准确识别,这时认为网络达到了最优状态。
-
当按照传统的网络连接方式顺序连接卷积层时,信息存在着一定的损耗与丢失,随着网络结构深度的增加,网络会出现退化问题,导致训练误差大幅度上升。残差网络(residual network,ResNet)通过一条通道将输入输出直接连接起来,减少了信息的损耗。残差网络的本质,即是数个包含前馈卷积网络与跳跃连接的残差块单元(residual block, RB)连接而成。假定C(x)代表着需要求解的潜在映射,x象征着残差块的实际输入,那么即可合理运用输出和输入之间所堆叠在一起的非线性多层网络以进行拟合处理,进而获取到相应的残差映射函数,具体表现为H(x)=C(x)-x。设恒等映射C(x)=x为网络最优解,则使得H(x)拟合0远易于使C(x)拟合x。通常情况下,尽管最优解相比于恒等映射来说更为复杂,然而此等残差结构的存在能够使最优解范围被划定出来,进而能够提出一个具备着合理性的基本假定条件,对实际训练过程施以简化处置。残差网络中的残差块单元结构,如图 2所示。
图中,conv(convolution)代表卷积层, ReLU(rectified linear unit)代表激活层。相较于传统意义上的前馈卷积网络来讲,残差网络则更加容易被施以优化处理,且搭建难度低,只需在原网络中添加一个跳跃连接,同时,由于不需要担心过深的深度导致的网络退化问题,只需通过增加深度的方法就可以提高网络性能。
DDR GAN网络生成器G主要是将密集残差网络(residual in residual dense block,RRDB)[24]作为主要网络单元,其基本结构如图 3所示。
图中,dense block为密集块,数个密集块依照残差连接共同组成一个密集残差网络。此外,各密集块的输出和输入间均构成了残差映射,而整个网络在实际运作的过程中同样构成了残差映射。应用此等运作方式,RRDB即能够顺利获得网络的全局特征。RRDB当中各密集块的详细结构,如图 4所示。
图中,LReLU(leaky rectified linear unit)为稀疏型ReLU层,也是激活层。各卷积层均可以获得其前端全部卷积层所输出的相关信息内容,即在一定程度上有助于特征信息得以顺利复用,进而减小梯度消失带来的影响。此外,各卷积层后端均未增添批量归一化层,可确保网络结构的简化,推进深度网络的构建。
-
DDR GAN网络生成器能够针对所输进的全部模糊图像进行增强。其核心目标,即促使所产生的图像无限相似于真实的清晰图像,使判别器没有办法对图像的实际来源进行及时准确的分辨。生成器结构如图 5所示。
头部由3个卷积-激活模块构成,包含了卷积层、实例归一化层(instance normalization, IN)与激活层ReLU,用于提取图像特征并扩张图像通道数,然后串联6个残差块构成的残差网络, 以进一步对图像的残差特征进行提取;随后,针对图像实施转置卷积(convTranspose)处理,并串联3个通道的卷积层, 以初步增强图像清晰度。通过卷积层以针对图像特征予以再度提取处理,输入到9个RRDB组成的密集残差网络当中,利用其密集连接机制最大限度地获取每一层卷积信息,完善图像的细节信息,再合理应用像素重排模块(pixel shuffler)以成功实现图像分辨率的提升;最后,接一层规格为3×3的卷积层以实现图像的向外输出。
-
判别器网络的核心目标在于能够精确判定出所输进的图像究竟归属于清晰图像还是由生成器所产生的图像,并最终对图像进行评价,输出图像为真实清晰图像的概率。网络整体遵循全卷积神经网络样式设计,结构如图 6所示。
图中,conv为卷积层,LReLU为激活层,BN(batch normalization)为批量归一化层。网络首先利用数个卷积模块以针对图像实施降采样处理,提取图像特征信息; 然后通过维度1024的全连接层(Dense(1024));最后经维度为1的全连接层(Dense(1))以及sigmoid函数,将相应的判定结果输出。
-
本文中提出的DDR GAN网络,其整体目标是针对所输进的模糊图像施以增强处理,判别器网络和生成器网络在训练期间构成对抗局面,其中判别器的最终目标是准确判断输入图片来源于真实图像还是生成图像,其损失函数如下式所示:
$L_{\mathrm{d}}=-E_{x_i}\left[\lg D\left(\boldsymbol{x}_i\right)\right]-E_{x_j}\left[\lg \left(1-D\left(\boldsymbol{x}_j\right)\right)\right] $
(1) 式中,xi表示图像来自于真实清晰图像集pr,xj表示图像来自于生成器生成图像集pf,D表示判别器输出的概率值,E表示分布函数的期望值。
DDR GAN网络生成器的终极目标是成功输出和清晰图像相接近的伪清晰图像。对抗损失函数如下式所示:
$ L_{\mathrm{a}}=\sum\limits_{o=1}^n-\lg D\left(G_o\left(\boldsymbol{p}_{\mathrm{m}}\right)\right) $
(2) 式中, Go(pm)即象征着经生成器网络所向外输出的生成图像;而D(Go(pm))则象征着判别器把相应的生成图像判定成清晰图像的实际概率。
当对抗损失为唯一优化目标时,生成图像当中较易产生部分伪影[25],影响图像质量。而DDR GAN网络则是通过添加感知损失的基本方法处置好此问题,进而增强图像生成真实性,其定义如下式所示:
$ \begin{gathered} L_{\mathrm{p}}=\frac{1}{W_{i, j} H_{i, j}} \sum\limits_{x=1}^{W_{i, j}} \sum\limits_{y=1}^{H_{i, j}}\left\{\left[\boldsymbol{\Phi}_{i, j}\left(\boldsymbol{p}_{\mathrm{r}}\right)\right]_{x, y}-\right. \\ {\left[\boldsymbol{\Phi}_{i, j}\left[G\left(\boldsymbol{p}_{\mathrm{m}}\right)\right]_{x, y}\right\}^2} \end{gathered} $
(3) 式中, Φi, j即象征图片在视觉几何组19(visual geometry group, VGG)第i个最大池化层之前、第j个卷积层激活完毕以后的特征映射;而Wi, j和Hi, j则代表着该特征图的宽和高; x, y分别是特征图像之上的像素点横坐标与纵坐标。
最终生成器的损失总计即为感知损失和对抗损失两者的和,如下式所示:
$ L_{\mathrm{g}}=L_{\mathrm{a}}+\gamma L_{\mathrm{p}} $
(4) 通过实验测试可知:当公式内的系数γ=100时,总损失函数针对网络训练所起到的优化成效即为最优。
本节中从整体网络结构、生成器网络、判别器网络、损失函数4个方面,详细描述了所提出的基于DDR GAN网络的图像增强算法。于网络结构当中适度引进RRDB以及RB,进而合理处置好梯度消失这一难题,在一定程度上提高了网络运作性能,确保通过增强处理以后的图像质量能够达至最优;与此同时,将感知损失项添加至损失函数当中,以进一步确保生成图像更为真实。
-
本文中所构建的DDR GAN网络软件采用PyTorch 1.9搭建,实验中所用GPU为NVIDIA GeForce RTX 2060,运行内存16 G。为验证本文作者所提方法的有效性,引入大规模图像数据集GoPro,该数据集由一系列真实自然场景的清晰/模糊视频图像组成,场景丰富,并提供了2103对模糊和1111对清晰的图像用于模型的训练与测试。为公平对比本文中方法与最新的研究算法的性能,采用GoPro数据集所提供的默认训练样本和测试样本。
本文中网络训练采用Adam优化器,初始学习率为2×10-4,并使用学习率衰减,每5个训练期学习率乘以0.5,网络训练的总期数设置为100,batch-size设置为64。交替更新生成器和判别器网络实施训练处理,即更新比率设置为1。
-
采用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)来评价输出图片的质量。
PSNR是一个能够和两图像像素均方误差存在显著关联的基础指标。换句话说,即象征着两图片基于像素层中所展现出来的实际相似度。倘若该数值愈大,即意味两图片像素愈发相似,其定义为:
$ \begin{gathered} E_{\mathrm{MSE}}=\frac{1}{A B} \sum\limits_{m=1}^A \sum\limits_{n=1}^B\left[\boldsymbol{p}_{\mathrm{r}}(m, n)-G\left(\boldsymbol{p}_{\mathrm{m}}\right)(m, n)\right]^2 \end{gathered} $
(5) $ R_{\mathrm{PSNR}}=10 \lg \left[\frac{\left(2^n-1\right)^2}{E_{\mathrm{MSE}}}\right] $
(6) 式中,下标MSE表示生成图像和清晰图像之间的均方差(mean square error);A是图像高度,B是图像宽度。此外,m与n分别表示像素的横纵坐标,pr表示具有真实性特征的清晰图像集,G(pm)为生成图像,2n-1则表示可能存在的最大像素数值。
SSSIM代表两图像基于对比度方面、结构方面以及亮度方面的相似度, 此数值愈接近数值1,则意味着图像间的相似度越高。其定义为:
$ \left\{\begin{array}{l} S_{\mathrm{SSIM}}=\frac{\left(2 \mu_{\boldsymbol{p}_{\mathrm{r}}} \mu_{\boldsymbol{p}_{\mathrm{f}}}+C_1\right)\left(2 \sigma_{\boldsymbol{p}_{\mathrm{r}} \boldsymbol{p}_{\mathrm{f}}}+C_2\right)}{\left(\mu_{\boldsymbol{p}_{\mathrm{r}}}^2+\mu_{\boldsymbol{p}_{\mathrm{f}}}{ }^2+C_1\right)\left(\sigma_{\boldsymbol{p}_{\mathrm{r}}}^2+\sigma_{\boldsymbol{p}_{\mathrm{f}}}{ }^2+C_2\right)} \\ C_1=\left(k_1 R\right)^2 \\ C_2=\left(k_2 R\right)^2 \end{array}\right. $
(7) 式中, μpr和μpf表示真实清晰图像和生成图像之间的平均数值;σpr与σpf则表示两图像之间的标准差;σpr pf表示两图像间的协方差; C1和C2为稳定性常数; R表示像素值的实际动态范畴; k1=0.01,k2=0.03。
-
DDR GAN网络损失函数变化曲线如图 7所示。随着迭代次数增加,判别器与生成器的损失函数呈现出慢慢收敛趋势,曲线在后期有小幅度的波动,说明网络已达到了纳什均衡,判别器已拥有一定的判别能力,但仍无法判断输入图像为生成图像还是真实清晰图像。
-
为进一步展现本文中算法所具有的优越性特征及有效性特征。将本文中算法和增强型超分辨率生成对抗网络(enhanced super-resolution generative adversarial network,ESR GAN)及DeBlur GAN-V2的实际效能相比较,以上所提到的对比算法,均是当下增强低质量模糊图像的有效算法。基于相同实验环境下,在GoPro数据集中选择出具有经典意义的低分辨率模糊图像以实施增强手段处置。测试图片如图 8~图 10所示。
由图 8b、图 9b、图 10b可以看出,ESR GAN针对图像所起到的增强效果存在一定局限,所获取到图像当中的物体外形依旧存在明显的失真。而由DeBlur GAN-V2所获取到的图 8c、图 9c、图 10c可知,尽管对图像的实际运动模糊予以去除,但细节信息依旧存在着缺失,图像边缘未能够得以有效恢复。本文中算法表现最优,其生成的图 8d、图 9d和图 10d,在大众肉眼看来则更为清楚,相应细节信息的丰富度更为显著,同时获取到更明显的边缘。
-
使用SSIM及PSNR这两项基础指标,进一步衡量生成图像和真实清晰图像两者间的相似度,对网络图像增强的实际效果施以定量性评测处理,在GoPro数据集中采用五折交叉验证实验中得到的结果, 如表 1所示。
表 1 算法对比结果
Table 1. Comparison of results for different algorithms
evaluation criterion ESR GAN DeBlur GAN-V2 our algorithm PSNR/dB 20.3371 20.8760 22.0443 SSIM 0.6570 0.6640 0.7353 running time/s 0.326 0.293 0.596 从表中可以看出:将本文中所提算法和DeBlur GAN-V2以及ESR GAN予以比较,PSNR分别提高1.7072 dB和1.1683 dB,SSIM分别提高0.0783和0.0713。同时,对各算法的平均单帧运行时间进行测算,ESR GAN为0.326 s,DeBlur GAN-V2为0.293 s,而本文中算法为0.596 s,相较于前两种算法时间有所增加,但仍属于亚秒级。
本节中通过一系列的图像增强实验,进而针对基于DDR GAN的网络的低分辨率模糊图像增强算法的效果予以验证处理。经实验结果可知:本文中所提出的算法能够对具有低分辨率特征的模糊图像施以显著增强,可为目标检测、跟踪等后续任务提供更为清晰的增强图像,提升任务效能。
基于DDR GAN的低质量图像增强算法
Low-quality image enhancement algorithm based on DDR GAN
-
摘要: 现有图像增强方法在处理模糊且分辨率较低的图像时,因图像的细节缺乏真实性并且存在伪影现象,会导致增强效果较差。为了解决这一问题,采用一种基于深度密集残差生成对抗网络(DDR GAN)的低分辨率模糊图像增强算法,实现了低质量图像的有效增强。首先构建端到端的生成对抗网络框架;然后设计深度密集残差隐特征编码架构,提升对输入图像的深层语义特征表示,增强图像生成效能;最后重构损失函数,添加感知损失以指导模型学习生成图像的真实性。结果表明,相比于目前最先进的增强型超分辨率GAN法(ESR GAN)和第2版去模糊GAN法(DeBlur GAN-V2),DDR GAN生成的图像在视觉效果上更佳,具有更高的清晰度和更丰富的图像细节;在客观评价指标方面,DDR GAN相较于ESR GAN和DeBlur GAN-V2,峰值信噪比分别提高1.7072 dB和1.1683 dB,结构相似度分别提高0.0783和0.0713。该算法对低分辨率模糊图像的复原增强是有帮助的。
-
关键词:
- 图像处理 /
- 深度密集残差生成对抗网络 /
- 深度学习 /
- 低分辨率模糊图像
Abstract: In order to solve the problems of artifacts and unreal details when process low-resolution blurred images using image enhancement methods, a low-resolution blurred image enhancement algorithm based on deep dense residual generative adversarial network (DDR GAN) was used to achieve effective enhancement of low-quality images. Firstly, an end-to-end generative adversarial network framework was constructed; further, a deep dense residual latent feature encoding architecture was designed to improve the deep semantic feature representation of the input image and enhance the image generation efficiency; finally, the loss function was reconstructed and the perceptual loss was added to guide the model to learn to generate realistic images. The comparative experimental results show that compared with the current state-of-the-art enhanced super-resolution GAN(ESR GAN) and DeBlur GAN-V2 algorithms, the images generated by DDR GAN are visually better, with higher definition and richer image detail. In terms of objective evaluation indicators, compared with ESR GAN and DeBlur GAN-V2, the peak signal-to-noise ratio was improved by 1.7072 dB and 1.1683 dB through DDR GAN, respectively, and the structural similarity by 0.0783 and 0.0713, respectively. This algorithm is helpful for the restoration and enhancement of low-resolution blurred images. -
表 1 算法对比结果
Table 1. Comparison of results for different algorithms
evaluation criterion ESR GAN DeBlur GAN-V2 our algorithm PSNR/dB 20.3371 20.8760 22.0443 SSIM 0.6570 0.6640 0.7353 running time/s 0.326 0.293 0.596 -