-
为了能够充分利用视点阵列图强相关性来提升光场图像的编码效率,本文中提出一种混合线性加权与帧内块拷贝的编码块预测算法。该算法基于高清视频编码(high efficiency video coding,HEVC)屏幕编码扩展平台(screen content coding extension, SCC),将线性加权算法与帧内块拷贝算法利用率失真优化过程进行结合,进一步提高编码块的预测精度。
假设当前编码块像素值用列向量x0表示,与当前编码块相邻的厚度为T的像素块的像素值用列向量y0表示。本文中所提算法的主要目的就是利用已知的编码重建区域来获取当前编码块的最佳预测值。基于视点阵列图的强相关性,本文中首先在已知重建区域中相邻视点图中搜索得到当前编码块的K个最近邻像素块,然后利用线性加权算法得到当前编码块的最佳预测。针对线性加权算法在纹理复杂区域预测精度不高的问题,本文中提出利用帧内块拷贝的预测算法来提高纹理复杂区域的预测精度。
-
本文中所提的线性加权预测算法是利用当前编码块的K个最近邻像素块的线性加权值作为当前编码块的最佳预测值,主要包含两方面的问题:一是K个最近邻像素块的获取; 二是加权矢量系数的计算。
为了能够获取当前编码块的K个最近邻像素块,充分利用视点阵列图的强相关性,在重建区域与当前视点图相邻的视点图中进行匹配搜索。由于当前编码块是未知的,利用与当前编码块相邻的厚度为T的像素块,以欧氏距离作为匹配准则进行搜索。搜索过程中首先获得矢量y0的K个最近邻像素块,然后根据相应的位置关系获得当前编码块的K个最近邻像素块。由于搜索过程非常耗时,因此,本文中限定了搜索范围来降低搜索过程计算复杂度。图 3中给出了在相邻的左视点、上视点以及左上视点中指定的搜索范围。假设虚拟绘制视点的宽度及高度分别为Wview与Hview,当前编码块的坐标为(cx, cy)。相邻视点图像中,与当前编码块相对应的像素块坐标如图 3所示。根据相邻视点图像中对应的像素块坐标,在相邻左视点中的搜索范围为水平方向2H的范围,在相邻上视点中的索索范围为垂直方向上2V的范围,在左上视点中的搜索范围是V×H的范围。
在获取当前编码块的K个最近邻像素块后,将利用线性加权算法得到当前编码块的最佳预测。假设获取的当前编码块x0的K个最近邻像素块用矢量X={xk|k=1, 2, …, K}表示,像素块y0的K个最近邻像素块用矢量Y={yk|k=1, 2, …, K}表示。线性加权预测过程可以表示为:
$ {\mathit{\boldsymbol{\hat x}}_0} = \sum\limits_{k = 1}^K {{\mathit{\boldsymbol{\omega }}_k}} \cdot {\mathit{\boldsymbol{x}}_k} $
(1) 式中,矢量$ {\mathit{\boldsymbol{\hat x}}_0}$为当前编码块x0的预测向量,矢量ωk为加权矢量系数。
为了获取加权矢量系数ωk,本文中充分考虑到矢量x0与矢量y0的相关性,利用y0及其K个最近邻像素块Y来近似估计ωk。估计过程可以表示为:
$ \mathop {\min }\limits_{{{\mathit{\boldsymbol{\hat \omega }}}_k}} {\left\| {{\mathit{\boldsymbol{y}}_0} - \sum\limits_{k = 1}^K {{{\mathit{\boldsymbol{\hat \omega }}}_k}} \cdot {\mathit{\boldsymbol{y}}_k}} \right\|_2}^2, \left( {\sum\limits_{k = 1}^K {{{\mathit{\boldsymbol{\hat \omega }}}_k}} = 1} \right) $
(2) 式中,$ {{{\mathit{\boldsymbol{\hat \omega }}}_k}}$为加权矢量系数ωk的近似值,将作为加权矢量用于当前编码块的线性加权预测。
-
对于纹理复杂区域,由于当前编码块x0与其相邻的像素块y0的相关性较低,利用线性加权预测算法很难获得较高的预测精度。因此,本文中提出利用帧内块拷贝预测算法来提高纹理复杂区域的预测精度。与线性加权预测算法不同,帧内块拷贝算法利用当前编码块的原始像素值在已知的编码重建区域中进行搜索,获得当前编码块的最佳预测。记录下当前编码块与最佳预测块之间的位移矢量。然后将记录的位移矢量传输到解码端,以辅助解码端根据位移矢量获取当前编码块的最佳预测像素块。本文中位移矢量的搜索范围设定为所有已知编码重建区域。搜索过程如图 4所示。
-
由于HEVC-SCC平台中嵌入了帧间块拷贝预测模式,因此本文中选择将所提预测算法集成到HEVC-SCC平台上。为了避免修改比特流结构,本文中提出将所提的线性加权预测算法替换HEVC-SCC帧内编码提供的35种角度预测模式中的任意一种预测模式。换言之,所提线性加权预测算法获得的当前编码块的预测值将替换利用某一角度预测模式获得的编码块的预测值。
HEVC-SCC帧内编码提供了灵活的四叉树编码结构,支持编码树单元(coding tree unit, CTU)最大到64pixel×64pixel的扩展。CTU又可以进一步根据四叉树结构划分为更小的编码单元(coding unit, CU)。预测单元(prediction unit, PU)可以通过CU分割得到,是编码块预测的基本单元,支持4pixel×4pixel到64pixel×64pixel的块尺寸扩展。但是由于光场图像内容纹理复杂度要远高于自然2-D图像,编码器很少选择64pixel×64pixel作为PU块尺寸。因此,只选择4pixel×4pixel到32pixel×32pixel的PU尺寸扩展,以降低部分算法复杂度。
为了在帧内角度预测模式、线性加权预测模式以及帧内块拷贝模式中选择PU的最优预测模式及最佳块尺寸,采用率失真优化过程作为衡量标准。率失真优化表示为:
$ \left\{\begin{array}{l}{J^{*}=\underset{d \in D}{\operatorname{argmin}}\left(\underset{p \in P}{\operatorname{argmin}} J_{\mathrm{m}}\right)} \\ {J_{\mathrm{m}}=\left(S_{1}+\omega_{\mathrm{c}} \times S_{\mathrm{c}}\right)+\lambda_{\mathrm{m}} \times R_{\mathrm{m}}}\end{array}\right. $
(3) 式中,J*表示率失真代价,Jm表示块尺寸为d、预测模式为p情况下的率失真代价。D∈{0, 1, 2, 3}表示PU从32pixel×32pixel到4pixel×4pixel的块尺寸,P表示所有的候选预测模式。Sl与Sc分别表示当前PU亮度和色度与在块尺寸d、预测模式为p情况下预测重建块的亮度与色度值之间的失真。ωc为色度部分的加权系数,λm为拉格朗日乘子,Rm表示编码当前PU所需要的比特数。
本文中所提的视点阵列图编码算法采用遍历PU所有的块尺寸以及所有的预测模式的方式来提高编码块的预测精度。其中,预测模式主要包括帧内角度预测模式、线性加权预测模式以及帧内块拷贝模式。所提算法可以在确保编码图像虚拟质量的同时,进一步提升视点阵列图的编码效率。
-
实验中以HEVC-SCC参考软件SCM-3.0[20]为测试平台,聚焦光场图像bike, fountain, Laura以及seagull作为测试集。测试聚焦光场图像原始分辨率为7240pixel×5432pixel,子图像分辨率为75pixel×75pixel。由于子图像边缘存在光晕现象[18],因此在实验过程中将每个子图像在中心位置处裁剪64pixel×64pixel大小的像素块,拼接成新的光场图像作为实验测试序列。所有测试序列均转化为YUV为4:2:0的形式送入编码器进行压缩编码。实验中编码器配置文件设置为“all intra”[21],4个量化参量(quantization parameter,QP)设置为22, 27, 32及37。为了验证本文中算法的有效性,将其与4个编码算法进行对比:原始HEVC编码算法(HEVC)、集成了IBC的HEVC扩展参考软件HEVC-RExt 6.0[22](HEVC-RExt)、参考文献[19]中提出的视差补偿预测算法(disparity compensation coding method, DCCM)以及HEVC屏幕扩展编码标准[23](HEVC-SCC)。经典的BD峰值信噪比(BJONTEGAARD delta peak signal-to-noise ratio, BD-PSNR)以及BD-rate将作为评价标准来衡量算法的编码效率。
视点提取过程中,提取块大小设置为8pixel×8pixel。当前编码块最近邻像素块搜索过程中,厚度T设置为当前编码块的尺寸,且在相邻视点图像中分别搜索3个与当前编码块最相近的像素块来预测编码块。实验过程中,所提线性加权算法将替换帧内角度预测模式4来嵌入HEVC-SCC平台。相邻视点图像中搜索范围V与H均设置为16。
表 1中给出了本文中所提算法与其它3种压缩编码算法相比于HEVC的BD-PSNR以及BD-rate对比。从表 1中可以看出,本文中所提算法可以获得最优的编码效率。相比于HEVC,本文中所提算法可以获得平均2.55dB的BD-PSNR编码增益。相比于HEVC-RExt,所提算法可以获得0.93dB的平均BD-PSNR增益。与DCCM算法相比,所提算法也可以获得0.72dB的平均BD-PSNR增益。其原因是DCCM只是利用子图像的相关性,搜索得到当前编码块的最佳预测块。但是对于纹理复杂区域,该算法的预测精度较差。HEVC-SCC相比于HEVC帧内编码,集成了新的IBC以及palette (PLT)预测模式,在编码性能上要优于HEVC, HEVC-RExt以及DCCM 3种压缩算法。本文中所提算法可以获得0.56dB的平均BD-PSNR增益。其主要原因是本文中所提算法利用率失真优化将线性加权预测算法以及IBC预测算法结合,增加了编码块的预测精度。此外,本文中所提压缩编码算法对于纹理更为复杂的光场图像可以获得更好的编码效率。例如,对于光场图像Laura来说,所提编码算法相比于HEVC-SCC,可以获得0.74dB的BD-PSNR增益。
Table 1. BD-PSNR and BD-rate performance of the proposed method and the compared compression methods to HEVC
test images compressionmethods BD-PSNR/dB BD-rate/% bike HEVC-RExt 1.35 -18.51 DCCM 1.63 -23.21 HEVC-SCC 1.69 -24.57 the proposal 2.14 -32.41 fountain HEVC-RExt 1.52 -22.11 DCCM 1.77 -26.25 HEVC-SCC 1.84 -27.33 the proposal 2.34 -36.02 Laura HEVC-RExt 1.53 -20.40 DCCM 1.69 -22.80 HEVC-SCC 1.88 -25.36 the proposal 2.62 -35.99 seagull HEVC-RExt 2.07 -31.77 DCCM 2.24 -35.32 HEVC-SCC 2.56 -39.23 the proposal 3.08 -48.89 表 2中给出了4种编码算法相比于HEVC的编码时间比率。从表 2中可以看出,本文中所提编码算法需要最多的编码时间,平均为HEVC编码时间的23.38倍。主要原因是本文中所提算法在选择最优编码块尺寸以及最优预测模式时遍历了所有的块尺寸以及所有的预测模式。这一遍历过程是非常耗时的,不过,本文中所提编码算法可以获得一个较高的编码效率。
Table 2. Coding time ratios to HEVC
test images HEVC-RExt DCCM HEVC-SCC the proposal bike 2.81 3.31 10.35 13.86 fountain 3.21 4.10 11.35 18.48 Laura 3.97 4.15 29.76 31.25 seagull 3.04 4.57 26.01 29.92 average 3.26 4.03 19.37 23.38 图 5中给出了在比特率近似0.16bit/pixel情况下,解码光场图像的虚拟绘制视点质量对比。从图 5中可以看出,所提算法相比于HEVC可以获得一个较好的虚拟绘制视点质量。其主要原因有两方面:一是所提编码算法相比于HEVC可以获得一个更高的编码块预测精度;二是所提编码算法对于纹理复杂区域可以确保编码块的细节信息。
基于视点相关性的光场图像压缩算法
Light field image compression method based on correlation of rendered views
-
摘要: 为了探索虚拟绘制视点之间的强相关性, 提高光场图像的压缩效率, 提出一种基于视点相关性的光场图像压缩算法。该算法基于高清视频编码屏幕内容编码扩展平台, 利用线性加权算法以及帧内块拷贝混合预测算法来提升编码块的预测精度; 并利用率失真优化过程来自适应地选择最优的编码块大小以及预测模式。结果表明, 所提算法相比于高清视频编码标准可以获得2.55dB的平均BD-峰值信噪比编码增益, 同时可以获得较好的虚拟视点绘制质量。该算法充分利用虚拟绘制视点之间的强相关性, 提高了光场图像的编码效率。Abstract: In order to explore the strong correlation between virtual rendering viewpoints and improve the compression efficiency of optical field image, an optical field image compression algorithm based on viewpoint correlation was proposed. The algorithm was based on high efficiency video coding (HEVC) and screen content coding expansion platform. Linear weighting algorithm and intra-block copy hybrid prediction algorithm were used to improve the prediction accuracy of coded blocks. Distortion optimization process was used to adaptively select the optimal block size and prediction mode. The experimental results show that, the average BJONTEGAARD delta peak signal-to-noise ratio(BD-PSNR) coding gain of the proposed algorithm is 2.55dB compared with that of HEVC standard. At the same time, better quality of virtual view rendering can be gotten. The algorithm makes full use of the strong correlation between virtual rendering viewpoints and improves the coding efficiency of optical field images.
-
Table 1. BD-PSNR and BD-rate performance of the proposed method and the compared compression methods to HEVC
test images compressionmethods BD-PSNR/dB BD-rate/% bike HEVC-RExt 1.35 -18.51 DCCM 1.63 -23.21 HEVC-SCC 1.69 -24.57 the proposal 2.14 -32.41 fountain HEVC-RExt 1.52 -22.11 DCCM 1.77 -26.25 HEVC-SCC 1.84 -27.33 the proposal 2.34 -36.02 Laura HEVC-RExt 1.53 -20.40 DCCM 1.69 -22.80 HEVC-SCC 1.88 -25.36 the proposal 2.62 -35.99 seagull HEVC-RExt 2.07 -31.77 DCCM 2.24 -35.32 HEVC-SCC 2.56 -39.23 the proposal 3.08 -48.89 Table 2. Coding time ratios to HEVC
test images HEVC-RExt DCCM HEVC-SCC the proposal bike 2.81 3.31 10.35 13.86 fountain 3.21 4.10 11.35 18.48 Laura 3.97 4.15 29.76 31.25 seagull 3.04 4.57 26.01 29.92 average 3.26 4.03 19.37 23.38 -
[1] ADELSON E H, BERGEN J R. The plenoptic function and the elements of early vision[M]. Cambridge, UK:MIT Press, 1991:3-20. [2] McMILLAN L, BISHOP G. Plenopticmodeling: an image-based rendering system[C]//Proceedings ofthe 22nd Annual Conference on Computer Graphics and Interactive Techniques. New York, USA: IEEE, 1995: 39-46. [3] LEVOY M, HANRAHAN P. Light field rendering[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques (SIGGRAPH). New York, USA: IEEE, 1996: 31-42. [4] GORTLER S J, GRZESZCZUK R, SZELISKI R, et al. The lumigraph[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).New York, USA: Association for Computing Machinery, 1996: 43-54. [5] WILBURN B, JOSHI N, VAISHV, et al. High performance imaging using large camera arrays [J].ACM Transactions on Graphics (TOG), 2005, 24(3): 765-776. doi: 10.1145/1073204 [6] LUMSDAINE A, GEORGIEV T. The focused plenoptic camera[C]//IEEE International Conferenceon Computational Photography (ICCP).New York, USA: IEEE, 2009: 1-8. [7] PERWASS C, WIETZKE L. Single lens 3D-camera with extended depth-of-field [J]. Proceedings of the SPIE, 2012, 8291:77-89. [8] SUN Y J, LEI W H, HU Y H, et al. Rapid ship detection in remote sensing images based on visual saliency model[J]. Laser Technology, 2018, 42(3):379-384(in Chinese). [9] ZHANG Ch, LIU F, HOU G Q, et al. Light field photography and its application in computer vision[J]. Journal of Image and Graphics, 2016, 21(3): 263-281 (in Chinese). [10] LIU D, WANG L, LI L, et al. Pseudo-sequence-based light field image compression[C]//2016 IEEE International Conference on Multimedia & Expo Workshops(ICMEW).New York, USA: IEEE, 2016: 1-4. [11] WANG G, XIANG W, PICKERING M, et al. Light field multi-view video coding with two-directional parallel inter-view prediction[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5104-5117. doi: 10.1109/TIP.2016.2603602 [12] LI L, LI Z, LI B, et al.Pseudo sequence based 2-D hierarchical coding structure for light-field image compression[C]//2017 Data Compression Conference (DCC).New York, USA: IEEE, 2017: 131-140. [13] HELIN P, ASTOLA P, RAO B, et al. Sparse modeling and predictive coding of sub-aperture images for lossless plenoptic image compression[C]//2016 3DTV-Conference: The True Vision-Capture, Transmission andDisplay of 3D Video (3DTV-CON).New York, USA: IEEE, 2016: 1-4. [14] ZHU W Y, LI Y, YUAN F, et al. Multiple image fusion algorithm in wavelet domain based on JPEG[J]. Laser Technology, 2014, 38(3):425-430(in Chinese). [15] MONTEIRO R, LUCAS L, CONTI C, et al.Light field HEVC-based image coding using locally linear embedding and self-similarity compensated prediction[C]//2016 IEEE International Conference on Multimedia & Expo Workshops (ICMEW).New York, USA: IEEE, 2016: 1-4. [16] MONTEIRO R J S, NUNES P J L, RODRIGUES N M M, et al. Light field image coding using high order intra block prediction[J]. IEEE Journal on Selected Topics in Signal Processing, 2017, 11(7):1120-1131. doi: 10.1109/JSTSP.2017.2721358 [17] LIU D Y, AN P, MA R, et al. Three-dimensional holoscopic image coding scheme using high-efficiency video coding with kernel-based minimum mean-square-error estimation[J].Journal of Electronic Imaging, 2016, 25(4):043015. doi: 10.1117/1.JEI.25.4.043015 [18] LI Y, SJOSTROM M, OLSSON R, et al.Scalable coding of plenoptic images by using a sparse set and disparities[J]. IEEE Transactions on Image Processing, 2016, 25(1):80-91. [19] LIU D Y, AN P, MA R, et al.Disparity compensation based 3D holoscopic image coding using HEVC[C]//IEEE China Summit & International Conference on Signal and Information Processing (ChinaSIP).New York, USA: IEEE, 2015: 201-205. [20] JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC).HEVC SCC reference software Ver. 3.0 (SCM 3.0) [EB/OL].(2016-02-01)[ 2018-08-31]. https://hevc.hhi.fraunhofer.de. [21] YU H, COHEN R, RAPAKA K, et al. JCTVC-X1015, common test conditions for screen content coding, geneva [EB/OL].(2016-08-14)[ 2018-08-31]. http://phenix.int-evry.fr/jct/. [22] ROSEWARNE C, SHARMAN K, NACCARI M, et al.JCTVC-P1013, HEVC range extensions test model 6 encoder description[EB/OL].(2014-02-23)[ 2018-08-31].http://phenix.int-evry.fr/jct/. [23] JOSHI R, XU J, COHEN R, et al. JCTVC-Q1014, Screen content coding test model 1 (SCM 1)[EB/OL].(2014-04-28)[ 2018-08-31].http://phenix.int-evry.fr/jct/.