HTML
-
选取第1个公开数据集是UC Merced Land-Use,该数据集每一类分别有100张角度不同的遥感图片,共21类,图片总数量为2100张,每张大小为256pixel×256pixel,空间分辨率为0.3m/pixel,部分类别图像样本如图 4所示。样本均随机选取情况下,将该数据集中每类的80%当作训练集,其余20%当作测试集。
选取第2个公开数据集是NWPU-RESISC45,该数据集有沙漠、海港、岛屿等共45类场景,每类场景有700张遥感图片,每张图片大小为256pixel×256pixel,图片总数量为31500张,该数据集是由一些人从已有的常用数据集中挑选、组合而成的新数据集,大多数图像的空间分辨率在0.2m/pixel~30m/pixel,部分类别图像样本如图 5所示。该数据集上同样随机选取测试集和训练集为8:2的比例进行实验。
-
本文中的实验均是基于深度学习框架软件TENSORFLOW1.9的基础上完成,所用服务器硬件配置为DGX-1服务器,内含8块NVLink V100 GPU,每块32GB显存,共256GB,本地固态硬盘为7TB的固态驱动器(solid state disk,SSD),当采用深度学习方法或对计算性能要求较高时,一般应用该设备;实验操作系统为Linux4.15.0 -47-generic x86_64。
由于实验中所用数据集输入图片大小均为256pixel×256pixel,图片尺寸相对较大,因此在提取全局特征时需对密集网络进行扩展,网络详细参量设置信息见表 1。算法学习率为0.001,批量大小为20。将图片输入网络后,经第1次卷积(采用same方式),使输出与输入大小一致,保留了图像的边界信息;第1个池化方式采用最大池化,目的是减小偏移误差,解决了原始遥感图像部分纹理信息丢失的问题。
layers input size/pixel kernel size number of convolution kernels pool stride output size/pixel input convolution 256×256 3×3 72 — — 256×256 max pooling 256×256 1×1 — 2×2 2 128×128 dense block 1 128×128 3×3 360 — — 128×128 transition layer 1 128×128 1×1 360 2×2 2 64×64 dense block 2 64×64 3×3 648 — — 64×64 transition layer 2 64×64 1×1 648 2×2 2 32×32 dense block 3 32×32 3×3 936 — — 32×32 transition layer 3 32×32 1×1 936 2×2 2 16×16 dense block 4 16×16 3×3 1224 16×16 transition layer 4 16×16 1×1 1224 2×2 2 8×8 dense block 5 8×8 3×3 1512 — — 8×8 classification layer 1×1 1 1×1 Table 1. Extended DenseNet-40 structure
-
实验结果采用评价指标:分类准确率A、误分类率E和混淆矩阵。计算公式如下所示:
式中,T表示测试集中被正确分类的图片数;M表示测试集图像总数。
误分类率公式如下所示:
本文中方法在UC Merced Land-Use dataset上分类产生的混淆矩阵如图 6所示。由图中可看出, 场景中分类目标不单一,背景对象多导致分类精度较低;并且有些图像场景之间具有相似性,往往让网络认为是同一场景,如森林和中等密集住宅、中等密集住宅和密集住宅等;而对于场景单一、目标突出、特征明显的场景,分类精度较高,如茂密树丛、海港、跑道等。本文中的算法从整体来看分类效果较为理想,但很少数类别的分类结果未达到理想值,可能是场景之间的相似性,才导致误分率相对较高。
采用支持向量机(support vector machine, SVM)加文档主题生成模型(latent dirichlet allocation,LDA)的SVM-LDA[19]方法、包含空间信息的费舍尔核(Fisher kernel-spatial,FK-S)[20]方法、多尺度深度卷积神经网络(multi-scale deep convolutional neural network,MS-DCNN)[13]方法及主成分分析(principal components analysis,PCA)加CNN的PCA-CNN[14]方法与本文中的算法对比,在UC Merced Land-Use Data Set上的各个类别的分类精度如图 7所示。SVM-LDA[19]算法通过使用显着性检测,从图像数据集中的显着区域提取一组代表性图像块,用无监督的特征学习方法利用这些未标记的数据块,组成一个强大而高效的特征提取器。其中,最大池化的步长为1,稀疏值0.4;PCA-CNN[14]方法的阈值β=0.3,α=0.8,并且为每个图像随机选择100张大小为64×64×3的图像块。由图可知,算法SVM-LDA[19]的每一类分类结果均比其余两种算法低,而PCA-CNN[14]算法的整体分类结果较为平均,但其分类准确率低于本文中所提出的方法,证实了本算法的优势。
为了分析不同尺度的遥感图像输入对分类结果的影响,取原图像(256pixel×256pixel)和压缩后(32pixel×32pixel)的图像尺寸作为输入图像,分类结果见表 2。由表 2可知, 前两组分类精度相对较低,因为输入单一尺度的图像时,仅能提取到部分的图像特征,从而特征利用率不高,导致分类结果较低。前两组实验对比来看,输入图像尺度为32pixel×32pixel时,图像信息被压缩,提取特征失真,导致分类结果偏低。第3组实验同时将两种尺度的图像输入,提取更加丰富的图像特征,分类效果较好。
input size accuracy/% UC Merced Land-Use NWPU-RE-SISC45 32pixel×32pixel 89.05 88.91 256pixel×256pixel 91.29 90.24 fusion network 93.81 92.62 Table 2. Impact of two different scale input images on classification accuracy
为了评价不同算法的分类效果,对两种数据集应用本文中方法与现有文献中其它方法的分类准确率见表 3,误分类率见表 4。由表可知,深度卷积神经网络在图像分类任务中有着不可替代的作用。传统方法中,提取的图像特征大多数属于中低层次的图像特征,而深度学习方法还能提取高层次的图像语义特征,高、中、低层次图像特征综合分析,比中低层图像特征更具有可分析性,因此采用深度学习的方法是当前的趋势,因此本文中采用双通道密集网络来提取图像特征,把图像信息各层次特征提取出来并高效复用,达到全面分析的效果,从而实现更优的分类结果。
Table 3. Classification accuracy of five methods for datasets experiments