-
高光谱图像中含有丰富的光谱信息与空间信息,不同信息具有各自不同的特性。高光谱图像中光谱信息的光谱分辨率较高,每个像元都具有连续的光谱曲线[15], 也就是说,单个波段与相邻几个波段之间的像元亮度值(digital number, DN)具有一定的相关性。随着波段间距离的增加,这种相关性会逐渐减弱。在高光谱图像分类中,空间信息主要指空间上下文信息,其特性具体表现为空间位置上距离较近的像元属于同一类地物的概率比距离较远的可能性大[16]。分类过程中合理利用空间信息能够有效提升分类精度,削弱椒盐现象[17]。进行分类时需要同时考虑到两类信息的特性,采用合适的特征提取策略,以此提升高光谱图像的分类效果。
-
CNN最初是应用在2维结构的图像数据上,在提取图像的空间特征上表现出极佳的效果。绝大多数CNN使用的都是2维卷积核,但是高光谱图像具有上百个波段(即上百张2维图像),将2维卷积核应用到高光谱图像的处理上时将会产生大量参量,对于标注数据较少的高光谱图像来说,极易造成过拟合现象[18]。
3维卷积核可以同时在3个方向上进行卷积,输出为一个3阶张量。在3-D-CNN卷积层第i层,第j个特征图中,(x, y, z)位置的输出可通过如下公式计算:
$ \begin{array}{c} {v_{ij,xyz}} = f\left( {{b_{ij}}} \right. + \\ \sum\limits_{k = 1}^m {\sum\limits_{w = 0}^{{W_i} - 1} {\sum\limits_{h = 0}^{{H_i} - 1} {\sum\limits_{b = 0}^{{B_i} - 1} {\left. {{u_{ijk,hwb}}{v_{(i - 1)k,(x + w)(y + h)(z + b)}}} \right)} } } } \end{array} $
(1) 式中,f(·)是激活函数;bij为偏置;Bi, Wi和Hi是3维卷积核的大小,即Bi是3维卷积核在光谱维的尺寸,Wi和Hi分别是3维卷积核的宽和高;uijk, hwb是与(i-1)层第k个特征图相连接的卷积核。相对于2维卷积,3维卷积涉及的参量较少,更适合于样本有限的训练任务。除此之外,对比2维卷积核与3维卷积核对高光谱图像的卷积结果(如图 1所示),利用2维卷积核提取特征,可能会损失高光谱图像的3维结构信息。3维卷积核能够充分地提取高光谱数据的空间特征,并且保留光谱维上的数据维度大小。因此本文中采用3-D-CNN进行空间特征的提取。
卷积核的大小对模型训练效果和速度有重要影响。有研究表明[19],大小为3×3的卷积核可以在参量较少的情况下,表现出更好空间特征提取效果,所以3维卷积核的大小定为3×3×1。3-D-CNN提取空间特征的策略为:从原始高光谱图像中提取大小为n×n×B(B指高光谱图像波段数)的数据块,使用3-D-CNN对数据块进行卷积处理,卷积核大小为3×3×1。经过几个卷积层的非线性变换之后将中心像元周围一定大小邻域的空间信息融入到中心像元中,生成一个大小为1×1×B大小的向量,完成空间特征的提取。
-
高光谱图像的光谱数据是一种序列数据,波段之间具有序列相关性。随着波段间距离的增加,这种相关性会逐渐减弱,说明光谱数据中各个波段之间短期依赖性较强,而且对前后信息都具有依赖性。为了降低训练成本,在训练时不考虑其长期信息记忆的损失,采用参量较少的标准RNN。但是标准的RNN处理序列数据时只会将之前的信息记忆应用于当前的输出,却忽略了之后的信息。
BiRNN是RNN的一种变体,其基本思想是对同一组序列数据分别用向前和向后两个RNN进行训练,两个RNN同时与输出层相连,这种结构为每一个输出提供前后的上下文信息。因此,本文中采用BiRNN对光谱维上的特征进行提取,网络结构如图 2所示。其中包含6个权重:输入层到前向和后向隐层(U1, U2),隐层到隐层(Q1, Q2),前向和后向隐层到输出层(V1, V2)。
-
本文中设计的3D-CRNN模型包括空间维特征提取与光谱维特征提取两部分。空间维特征提取部分主要由3-D-CNN组成,卷积核大小皆为3×3×1,步长为1。卷积层之间不设池化层,以保留小目标的特征信息。在卷积核的数目设置上,按照CNN的普遍设计比率,后一层的卷积核数目是前一层的两倍,初始层卷积核的数目设为4。每个卷积层的输出经过批归一化(batch normalization,BN)层与ReLU激活函数。对最后一个卷积层输出进行丢弃处理,避免因密集采样而导致模型过拟合。数据集准备过程中,需要对原图像边缘进行一定的零填充,然后以原图像上的每一个像元为中心点依次选取n×n×B大小的像素块作为训练样本与验证样本,其中n×n为高光谱图像空间维上的采样大小,B指光谱波段数。为了满足光谱维特征提取部分的输入格式,处理后的数据大小必须为1×1×B。因此,对于输入到训练网络中不同大小的像素块,可以通过改变卷积层的层数实现改变输出大小的目的,例如:对于大小为5×5×B的像素块,卷积层层数设为2;对于大小为7×7×B的像素块,卷积层层数设为3,以此类推。光谱维特征提取部分由Bi-RNN构成,递归层的层数设为1,隐藏层特征数设为32。将输出经过BN层,使用Tanh函数作为Bi-RNN的激活函数, 最后将BiRNN的输出结果输入到全连接(fully connected, FC)层中,使用Softmax作为训练分类器的损失函数。整个网络结构如图 3所示。
-
为了评价模型的分类效果,选择Pavia University与Indian Pines两个具有代表性的高光谱图像数据集对模型分类效果进行验证, 如表 1所示。这两个数据集在传感器、空间分辨率、样本数量以及地物种类等方面具有较大差异,更能综合地反映出模型的分类性能。分类评价指标采用平均分类精度、总体分类精度与衡量分类精度的kappa系数。
Table 1. Hyperspectral image data set
Pavia University Indian Pines shooting area University of Pavia, Italy Indiana, USA imaging spectrometer ROSIS AVIRIS spectral range/nm 430~860 400~2500 number of wavelengths(remove strong noise and water vapor band) 103 200 image size/pixels 610×340 145×145 spatial resolution/m 1.3 20 sample size 42776 10249 object types 9 16 -
实验的硬件平台是一台个人计算机,配置为Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz 2.21GHz,8G运行内存,NVIDIA GeForce GTX 1060显卡。软件平台均采用Windows 10系统下的Python 3.6.0和PyTorch 0.4.0。
使用随机梯度下降优化器进行网络训练,初始学习率为0.001,动量为0.9,学习率更新采用自适应调整策略。由于训练集较小,所以模型的单位样本数量取为16, 丢弃率设为0.5,网络训练正反流程数设为150。在数据准备阶段,对数据样本进行随机水平或垂直翻转并添加噪声,降低过拟合概率,并对每类样本随机打乱,确保数据随机分布。实验数据的训练集和验证集分配比例为4:6。
-
在3-D-CRNN模型中,训练样本大小为n×n×B,B为高光谱图像波段数,空间维大小为n。若n过小,空谱特征中包含的空间信息量不足,会影响分类效果;若n过大,局部空间区域中不属于同一类别的像元数目可能会增多,对分类产生消极影响[20]。为了确定训练样本中最合适的空间维大小,分别选择大小为5×5×B, 7×7×B, 9×9×B, 11×11×B, 13×13×B, 15×15×B, 17×17×B的像素块作为训练样本对3-D-CRNN网络进行训练,不同大小的训练样本对应的总体分类精度和训练时间如图 4所示。可以看出,在Pavia University数据上,随着像素块大小的增加,总体分类精度先上升后下降,n=11时精度最高;训练时间也不断增长,并且增长幅度逐渐增大。在Indian Pines数据上也表现出相同的变化情况,当n=15时,总体分类精度最高。因此无论是从分类精度方面,还是从训练时间上考虑,都应该针对不同特点的数据选择合适的输入像素块大小。同时,对比图 4a和图 4b可以发现,由于Pavia University数据的空间分辨率比Indian Pines数据要高,混合像元较少,所以前者的分类精度普遍高于后者。
Figure 4. Overall classification accuracy and training time corresponding to different training samples in two data sets
将本文中提出的3-D-CRNN模型分别与近几年来高光谱图像分类文献中的CNN方法[8, 10-11]进行比较以评价模型性能。单目3维深度卷积神经网络[10](monocular 3-D deep CNN,M3D-DCNN)与3-D-CNN[11]同时利用了高光谱图像中的空间信息与光谱信息;1-D-CNN[8]仅利用高光谱图像中的光谱信息进行分类。同时,为了进一步证明使用BiRNN提取光谱特征的优越性,本文中参考MOU等人[14]设计的RNN-GRU模型(门控循环单元(gate recurrent unit, GRU))中的网络设计与参量设置,使用BiRNN模块构建RNN-BiRNN模型对高光谱图像进行分类。并与原文献中的RNN-GRU模型进行比较。
为了更好地对比分类效果,所有模型中训练集与验证集分配比例和正反流程数均与本文中模型相同,权重初始化、学习率以及优化器的选择等条件则与原文献相同。以上模型在两个数据集上的分类精度如表 2、表 3所示。
Table 2. Classification accuracy of different methods on Pavia University data/%
number classification name 1-D-CNN RNN-GRU RNN-BiRNN M3D-DCNN 3-D-CNN 3-D-CRNN 1 Asphalt 96.49 93.09 96.02 99.69 98.91 99.96 2 Meadows 90.00 94.42 97.51 99.76 99.78 99.97 3 Gravel 92.43 83.56 92.15 99.70 98.96 99.69 4 Trees 99.39 98.57 96.03 99.27 98.85 100.00 5 Metal sheets 99.85 100.00 100.00 99.85 99.85 100.00 6 Bare soil 94.98 93.46 94.60 98.77 98.47 100.00 7 Bitumen 84.88 86.84 87.46 99.84 97.92 100.00 8 Bricks 81.59 85.89 85.10 95.62 98.36 99.79 9 Shadows 100.00 99.57 100.00 99.57 99.57 100.00 accuracy — 91.54 93.47 94.89 99.22 99.16 99.95 average accuracy — 93.29 92.82 94.31 99.11 98.96 99.94 kappa — 88.60 91.00 93.20 99.00 98.90 99.90 Table 3. Classification accuracy of different methods on Indian Pines data/%
number classification name 1-D-CNN RNN-GRU RNN-BiRNN M3D-DCNN 3-D-CNN 3-D-CRNN 1 Alfalfa 83.33 100.00 100.00 100.00 88.89 100.00 2 Corn-notill 73.53 80.46 81.88 96.12 98.79 98.88 3 Corn-mintill 84.21 85.33 87.65 95.29 96.81 100.00 4 Corn 71.96 81.05 83.24 95.00 100.00 95.76 5 Grass-pasture 95.98 96.53 96.66 99.57 99.26 100.00 6 Grass-trees 93.43 94.08 95.61 100.00 99.81 100.00 7 Grass-pasture-mowed 86.67 91.66 93.15 98.12 100.00 100.00 8 Hay-windrowed 95.18 96.76 97.22 100.00 100.00 100.00 9 Oats 77.78 83.33 94.84 99.58 100.00 100.00 10 Soybean-notill 69.16 81.92 81.95 100.00 99.67 99.57 11 Soybean-mintill 70.67 72.85 77.10 94.38 99.88 98.41 12 Soybean-clean 87.08 90.21 79.81 95.73 88.34 98.62 13 Wheat 96.15 100.00 99.01 96.57 100.00 100.00 14 Woods 92.91 91.13 93.21 100.00 100.00 100.00 15 Buildings-grass-trees-drives 66.48 82.23 83.85 95.10 97.91 88.52 16 Stone-steel-towers 97.22 95.55 97.43 100.00 100.00 91.67 accuracy — 79.86 83.78 84.33 96.87 98.60 98.81 average accuracy — 83.85 88.94 90.16 97.84 98.08 98.21 kappa — 76.80 81.30 82.40 96.40 98.40 98.60 对比表 2、表 3可知:(1)将仅利用光谱信息的方法(1-D-CNN, RNN-GRU, RNN-BiRNN)与同时考虑空间光谱信息的方法(M3D-DCNN, 3-D-CNN, 3-D-CRNN)进行对比,可以发现同时考虑空间与光谱信息的方法能够有效提高分类精度; (2)使用同样的方法进行分类时,在Pavia University数据集上的分类精度要优于Indian Pines数据集,这也与上面得出的结论相同,即空间分辨率越高,混合像元的情况也越少,分类精度也就越高; (3)对比RNN-GRU与RNN-BiRNN两种方法,可以发现RNN-BiRNN方法在两种数据集上的分类精度与kappa系数均高于RNN-GRU, 这说明RNN-BiRNN在提取光谱特征方面要优于RNN-GRU,间接上也证明了3-D-CRNN模型设计的合理性; (4)对比M3D-DCNN, 3-D-CNN和3-D-CRNN 3种方法,在Pavia University和Indian Pines数据集上,3-D-CRNN在分类精度与kappa系数高均于其它两种方法,总体分类精度分别达到了98.81%和99.95%,实际的分类效果图与真实地物分布也十分接近;但是在Indian Pines数据集上,本文中的方法对第15、第16类地物的分类精度与其它两种方法相比相差较大,说明对于3-D-CRNN难以对复杂地物组成的类别进行精确分类。
图 5、图 6是不同模型在两个数据集上的分类结果图。从图中可以发现,对比3-D-CNN和3-D-CRNN两种方法的分类结果图可以发现,尽管两者分类精度相差不大,但是相比于3-D-CRNN,3-D-CNN方法的实际分类效果与真实地物分布相差较大,对小目标的识别能力较弱。可见,分类精度并不一定能够代表实际的分类效果。
3维卷积递归神经网络的高光谱图像分类方法
Hyperspectral image classification based on 3-D convolutional recurrent neural network
-
摘要: 为了针对高光谱图像中空间信息与光谱信息的不同特性进行特征提取,提出一种3维卷积递归神经网络(3-D-CRNN)的高光谱图像分类方法。首先采用3维卷积神经网络提取目标像元的局部空间特征信息,然后利用双向循环神经网络对融合了局部空间信息的光谱数据进行训练,提取空谱联合特征,最后使用Softmax损失函数训练分类器实现分类。3-D-CRNN模型无需对高光谱图像进行复杂的预处理和后处理,可以实现端到端的训练,并且能够充分提取空间与光谱数据中的语义信息。结果表明,与其它基于深度学习的分类方法相比,本文中的方法在Pavia University与Indian Pines数据集上分别取得了99.94%和98.81%的总体分类精度,有效地提高了高光谱图像的分类精度与分类效果。该方法对高光谱图像的特征提取具有一定的启发意义。Abstract: In order to extract the features of spatial information and spectral information in hyperspectral image, a 3-D convolutional recursive neural network (3-D-CRNN) hyperspectral image classification method was proposed. Firstly, 3-D convolutional neural network was used to extract local spatial feature information of target pixel, then bidirectional circular neural network was used to train spectral data fused with local spatial information, and joint features of spatial spectrum were extracted. Finally, Softmax loss function was used to train classifier to realize classification. The 3-D-CRNN model did not require complex pre-processing and post-processing of hyperspectral image, which can realize end-to-end training and fully extract semantic information in spatial and spectral data. Experimental results show that compared with other deep learning-based classification methods, the overall classification accuracy of the method in this paper is 99.94% and 98.81% respectively in Pavia University and Indian Pines data set, effectively improving the classification accuracy and efficiency of hyperspectral image. This method has some enlightening significance for feature extraction of hyperspectral image.
-
Table 1. Hyperspectral image data set
Pavia University Indian Pines shooting area University of Pavia, Italy Indiana, USA imaging spectrometer ROSIS AVIRIS spectral range/nm 430~860 400~2500 number of wavelengths(remove strong noise and water vapor band) 103 200 image size/pixels 610×340 145×145 spatial resolution/m 1.3 20 sample size 42776 10249 object types 9 16 Table 2. Classification accuracy of different methods on Pavia University data/%
number classification name 1-D-CNN RNN-GRU RNN-BiRNN M3D-DCNN 3-D-CNN 3-D-CRNN 1 Asphalt 96.49 93.09 96.02 99.69 98.91 99.96 2 Meadows 90.00 94.42 97.51 99.76 99.78 99.97 3 Gravel 92.43 83.56 92.15 99.70 98.96 99.69 4 Trees 99.39 98.57 96.03 99.27 98.85 100.00 5 Metal sheets 99.85 100.00 100.00 99.85 99.85 100.00 6 Bare soil 94.98 93.46 94.60 98.77 98.47 100.00 7 Bitumen 84.88 86.84 87.46 99.84 97.92 100.00 8 Bricks 81.59 85.89 85.10 95.62 98.36 99.79 9 Shadows 100.00 99.57 100.00 99.57 99.57 100.00 accuracy — 91.54 93.47 94.89 99.22 99.16 99.95 average accuracy — 93.29 92.82 94.31 99.11 98.96 99.94 kappa — 88.60 91.00 93.20 99.00 98.90 99.90 Table 3. Classification accuracy of different methods on Indian Pines data/%
number classification name 1-D-CNN RNN-GRU RNN-BiRNN M3D-DCNN 3-D-CNN 3-D-CRNN 1 Alfalfa 83.33 100.00 100.00 100.00 88.89 100.00 2 Corn-notill 73.53 80.46 81.88 96.12 98.79 98.88 3 Corn-mintill 84.21 85.33 87.65 95.29 96.81 100.00 4 Corn 71.96 81.05 83.24 95.00 100.00 95.76 5 Grass-pasture 95.98 96.53 96.66 99.57 99.26 100.00 6 Grass-trees 93.43 94.08 95.61 100.00 99.81 100.00 7 Grass-pasture-mowed 86.67 91.66 93.15 98.12 100.00 100.00 8 Hay-windrowed 95.18 96.76 97.22 100.00 100.00 100.00 9 Oats 77.78 83.33 94.84 99.58 100.00 100.00 10 Soybean-notill 69.16 81.92 81.95 100.00 99.67 99.57 11 Soybean-mintill 70.67 72.85 77.10 94.38 99.88 98.41 12 Soybean-clean 87.08 90.21 79.81 95.73 88.34 98.62 13 Wheat 96.15 100.00 99.01 96.57 100.00 100.00 14 Woods 92.91 91.13 93.21 100.00 100.00 100.00 15 Buildings-grass-trees-drives 66.48 82.23 83.85 95.10 97.91 88.52 16 Stone-steel-towers 97.22 95.55 97.43 100.00 100.00 91.67 accuracy — 79.86 83.78 84.33 96.87 98.60 98.81 average accuracy — 83.85 88.94 90.16 97.84 98.08 98.21 kappa — 76.80 81.30 82.40 96.40 98.40 98.60 -
[1] BIOUCAS-DIAS J M, PLAZA A, CAMPS-VALLS G, et al. Hyperspectral remote sensing data analysis and future challenges[J]. IEEE Geoscience and Remote Sensing Magazine, 2013, 1(2):6-36. doi: 10.1109/MGRS.2013.2244672 [2] DALE L M, THEWIS A, BOUDRY C, et al. Hyperspectral imaging applications in agriculture and agro-food product quality and safety control: A review[J]. Applied Spectroscopy Reviews, 2013, 48(2):142-159. doi: 10.1080/05704928.2012.705800 [3] GHIYAMAT A, SHAFRI H Z M. A review on hyperspectral remote sensing for homogeneous and heterogeneous forest biodiversity assessment[J]. International Journal of Remote Sensing, 2010, 31(7):1837-1856. doi: 10.1080/01431160902926681 [4] van der MEER F D, van dwe WERFF H M A, van RUITENBEEK F J A, et al. Multi- and hyperspectral geologic remote sensing: A review[J]. International Journal of Applied Earth Observation & Geoinformation, 2012, 14(1):112-128. [5] ELIZABETH A W, SHAROLYN A, MICHAIL F, et al. Supporting global environmental change research: A review of trends and know-ledge gaps in urban remote sensing[J]. Remote Sensing, 2014, 6(5):3879-3905. doi: 10.3390/rs6053879 [6] YUEN P W, RICHARDSON M. An introduction to hyperspectral imaging and its application for security, surveillance and target acquisition[J]. The Imaging Science Journal, 2010, 58(5):241-253. doi: 10.1179/174313110X12771950995716 [7] PILORGET C, BIBRING J P. Automated algorithms to identify and locate grains of specific composition for NIR hyperspectral microscopes: Application to the micromega instrument onboard exomars[J]. Planetary and Space Science, 2014, 99:7-18. doi: 10.1016/j.pss.2014.05.017 [8] HU W, HUANG Y Y, WEI L, et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors, 2015(10): 1-12. [9] YANG J, ZHAO Y Q, CHAN C W. Learning and transferring deep joint spectral-spatial features for hyperspectral classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(8):4729-4742. doi: 10.1109/TGRS.2017.2698503 [10] HE M, LI B, CHEN H. Multi-scale 3-D deep convolutional neural network for hyperspectral image classification[C]//2017 IEEE International Conference on Image Processing (ICIP). New York, USA: IEEE, 2017: 57-61. [11] LI G D, ZHANG Ch J, GAO F, et al. Doubleconvpool-structured 3D-CNN for hyperspectral remote sensing image classification[J]. Journal of Image and Graphics, 2019, 24(4): 639-654(in Chin-ese). [12] WU H, SAURABH P. Convolutional recurrent neural networks for hyperspectral data classification[J]. Remote Sensing, 2017, 9(3): 298-303. doi: 10.3390/rs9030298 [13] MOU L, GHAMISI P, ZHU X X. Unsupervised spectral-spatial feature learning via deep residual conv-deconv network for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 56(1):391-406. doi: 10.1109/TGRS.2017.2748160 [14] MOU L, GHAMISI P, ZHU X X. Deep recurrent neural networks for hyperspectral image classification[J]. IEEE Transaction Geoscience and Remote Sensing, 2017, 55(7):3639-3655. doi: 10.1109/TGRS.2016.2636241 [15] ZHANG B. Hyperspectral image classification and target detection. Beijing: Science Press, 2011: 9-10(in Chinese). [16] DU P J, XIA J Sh, XUE Zh H, et al. Review of hyperspectral remote sensing image classification[J]. Journal of Remote Sensing, 2016, 20(2): 236-256(in Chinese). [17] QI Y F, MA Zh Y. Hyperspectral image classification method based on neighborhood speetra and probability cooperative representation[J].Laser Technology, 2019, 43(4):448-452(in Chinese). [18] ZHANG H K, LI Y, JIANG Y N. Deep learning for hyperspectral imagery classification: The state of the art and prospects[J]. Acta Automatia Sinica, 2018, 44(6): 961-977(in Chinese). [19] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(9):34-37. [20] LIU J. Hyperspectral image classification based on long short term memory network[D]. Xi'an: Xidian University, 2018: 19-21(in Chinese).