HTML
-
实验中采用由5个品种的小麦种子(中化现代农业有限公司,中国北京),分别为JM22(济麦22,山东)、JM44(济麦44,山东)、XM26(新麦26,河南)、BN4199(百农4199,河南)和ZM33(周麦33,河南)各1000粒,共5000粒。按照面筋数值划分可分为强筋和中筋,详细信息如表 1所示,杂交时的父本和母本在表中用亲缘关系表示。
variety origin place kinship gluten value JM22 Shandong 935024/935106 medium gluten XM26 Henan Xinmai9408/Jinan17 strong gluten JM44 Shandong 954072/Jinan17 strong gluten BN4199 Henan Bainonggaoguang3709F2/BainongAK58 medium gluten ZM33 Henan Zhengmai366/BainongAK58 strong gluten Table 1. Details of 5 varieties of wheat
-
实验中使用的高光谱采集系统主要由高光谱相机、载物台及其移动平台、光源组成。高光谱相机采集的光谱范围为400 nm~1000 nm、光谱分辨率为1.29 nm、波段间隔为0.64 nm,空间像素合并值设置为10,采用150 W的光纤卤素灯作为光源,其它参数等详细介绍见参考文献[10]。在进行图像采集时,设置高光谱相机的曝光时间设置为0.25 s,光源功率设置为60 W,图像采集采用线扫描的方式,所采集的高光谱图像合计扫描1000条线,每条线在2维平面上含有1392个像素点,每个像素点采集的是94个不同的光谱波段,因而所采集到的高光谱图像3维大小为[1000, 1392, 94]。由于黑色数粒板能够防止小麦种子移动过程中出现晃动以及对采集的图像进行预处理时易于分割的特点,因而在采集过程中将每个品种的小麦分为10个批次,每个批次100粒小麦种子样本放置在黑色数粒板上,这样5个品种的小麦将会得到50幅小麦种子的高光谱图像,实际上相机捕获的高光谱数据是通过光源照射到样本再反射到相机的反射率获得的,因而光谱数据也可以称为光谱反射率[11]。本文中选取了各品种小麦任一批次下的高光谱图像,并通过ENVI 4.3选择RGB对应的3个波段的数据组成的伪彩色图像,如图 1所示。从图像也可以看出,不同品种小麦的形状、外观等特征较为接近,几乎无法通过肉眼识别。
-
实验中采集的高光谱图像中除小麦种子样品有效的高光谱信息外,还有背景板信息以及电荷耦合器件(chang-coupled device, CCD)中含有的电流暗噪声等多种信息,尤其电流暗噪声信息会对结果分析产生较大影响,因而首先要对采集到的图像进行校正,校正公式如下:
式中:Iraw、Iwhite、Iblack和I分别为通过相机采集到的原始高光谱图像、标准白板下的高光谱图像、标准黑板下的高光谱图像和校正后的图像。完成黑白板校正后,需要进一步提取小麦种子所在区域内(也称为感兴趣区域)的有效信息,该有效信息是利用阈值分割算法(阈值分割-腐蚀膨胀-计算均值光谱信息)进行提取的。完成上述步骤后,即可得到小麦种子的均值光谱信息,将每粒小麦种子的均值光谱作为模型的输入特征,各品种小麦种子中的平均光谱曲线(反射率)如图 2所示。图中垂直虚线所在位置为各品种小麦的吸收峰在波段的分布。表 2中给出了吸收峰所处的波段范围以及影响吸收峰的因素。结合图 2和表 2可知,品种为BN4199的小麦种子反射率较高,品种为XM26的小麦种子反射率较低,与其它品种小麦的光谱曲线差异较为明显,其余3类品种小麦种子的光谱曲线较为接近,这些差异主要是由于小麦种子中蛋白质、淀粉和水的成分含量不同造成的。
1.1. 实验材料
1.2. 样本采集与预处理
1.2.1. 样本采集
1.2.2. 高光谱图像预处理
-
实验中将上述5个品种的小麦种子分为5组。第1组(JM22):正样本为JM22,负样本为XM26、JM44、BN4199和ZM33;第2组(XM26):正样本为XM26,负样本为JM22、JM44、BN4199和ZM33;第3组(JM44):正样本为JM44,负样本为JM22、XM26、BN4199和ZM33;第4组(BN4199):正样本为BN4199,负样本为JM22、XM26、JM44和ZM33;第5组(ZM33):正样本为ZM33,负样本为JM22、XM26、JM44和BN4199。
为了更好地比较不均衡样本分类模型的性能,本文中采用SVDD、KNN和SVM进行对比实验。SVDD原理参见参考文献[23],为了使建立的超球体容错能力更强,在训练的过程中,允许模型训练过程中添加少量的负样本从而使超球体更加收敛[23]。因此SVDD在许多不均衡样本与异常识别等问题具有广泛的应用[24-25]。实际上根据KNN原理(参见参考文献[26]),KNN既能够应用于在不均衡样本分类中[27-28],也可以应用于均衡样本分类[26]。因而在实验过程中将SVDD用于不均衡样本识别,KNN分别用于不均衡样本、通过SMOTE扩充后的样本以及波段选择后的样本分类识别。
实验过程中从正样本所在类随机抽取800粒、负样本每类抽取20粒共80粒分别训练SVDD模型、KNN模型和SVM模型,SVDD和SVM均采用10折交叉验证和网格寻优,KNN采用10折交叉验证和自动超参数寻优,每组随机训练10次,取其平均准确率、精确率以及负样本检出率。再从剩下的样本中,抽取200粒正样本,随机抽取负样本每类25粒共100粒作为测试集。用第2.4节中的评价指标评估各模型下测试集的结果,如表 3所示。表中最后一行为5类小麦纯度检测结果的平均值。
positive samples SVDD KNN SVM A/% P/% tND/% A/% P/% tND/% A/% P/% tND/% JM22 64.00 79.11 67.00 84.03 81.35 52.40 93.07 90.68 79.20 XM26 64.33 83.45 77.00 79.20 76.74 37.70 89.80 87.01 70.20 JM44 56.33 74.13 63.00 81.40 78.83 45.10 92.23 89.65 76.90 BN4199 62.33 87.18 85.00 82.70 80.01 49.80 95.50 84.09 87.50 ZM33 60.00 76.32 64.00 82.33 80.13 51.60 89.87 87.38 70.70 average 61.40 80.04 71.20 81.93 79.41 47.32 92.09 87.76 76.90 Table 3. Results of wheat seed purity under unbalanced samples
由表 3可知,SVDD的准确率、精确率以及负样本的检出率都较低,表明SVDD在本文中研究的不均衡样本下的小麦种子纯度检测并不适用。KNN和SVM的平均准确率和精确率都在79.00%以上,而负样本的平均检出率分别只有47.32%和76.90%,这表明利用传统算法处理不均衡样本的分类问题时会使结果倾向于多数样本类,使少数样本类的分类效果降低,负样本检出率较低,表明模型将许多负样本识别为正样本,这在小麦种子纯度检测当中的影响将是巨大的。为此,在选择上述数据集的基础上,用SMOTE算法生成一些新的负样本,使训练集中正负样本的数量均为800,分别用KNN和SVM进行评估,结果如表 4所示。
positive samples SMOTE-KNN SMOTE-SVM A/% P/% tND/% A/% P/% tND/% JM22 88.87 89.26 77.20 94.80 93.17 85.30 XM26 82.63 85.28 69.10 94.80 93.78 86.70 JM44 94.33 92.56 84.00 94.40 92.57 83.69 BN4199 88.57 89.74 78.60 96.53 95.49 90.60 ZM33 84.67 86.86 72.60 95.47 94.60 88.60 average 87.81 88.74 76.30 95.20 93.92 86.98 Table 4. Results of SMOTE seed purity after SMOTE sample extension
由表 4可知,在用SMOTE算法对不平衡样本数据集进行扩充以后,分类效果均有了显著提升,KNN模型下平均准确率从81.93%提升到了87.81%,精确率由79.41%提升到了88.74%,负样本检出率从47.32%提升到了76.30%;SVM模型下的平均准确率从92.09%提升到了95.20%,精确率由87.76%提升到了93.92%,负样本检出率从76.90%提升到了86.98%。模型在SMOTE对不平衡数据集进行扩充后负样本检测率有较大提升,这表明混有杂质品种小麦的样本被正确识别的可能性越来越大,通过SMOTE对本研究的数据集进行扩充提升分类效果是可行的。
为了尽可能地消除波段间的冗余信息,进一步提升模型的分类效果,在用SMOTE算法对数据进行扩充以后,采用UVE对波段进行选择,同时对比了SPA算法。SPA的原理参见参考文献[29]。表 5中统计了各个模型下的平均检测结果。表中最后一列是各品种小麦在SPA和UVE下的平均最佳波段数目。
model A/% P/% tND/% number SMOTE-UVE-KNN 91.12 90.09 78.50 71.00 SMOTE-SPA-KNN 90.50 89.62 77.61 74.00 SMOTE-UVE-SVM 95.98 94.94 89.32 71.00 SMOTE-SPA-SVM 95.30 94.12 87.52 74.00 Table 5. Average results of 5 wheat varieties in 4 models
由表 5可知,在保证各项评价指标不降低的前提下,用SPA和UVE选择了各品种小麦的最优波段后,SVM模型和KNN模型的分类效果均有所提升,且UVE的波段选择效果优于SPA,表明了SMOTE-UVE-SVM方法在所有比较的方法中效果最佳。表 6中给出了各品种小麦在SMOTE-UVE-SVM模型下的检测结果。由表 6可知,各品种小麦的纯度检测结果相较于SVM在全波段范围内不均衡样本的小麦种子纯度检测有较大提升,且能够保证准确率、精确率均在93.00%以上的前提下,负样本的检出率均不低于85.00%。
positive samples SMOTE-UVE-SVM A/% P/% tND/% number JM22 96.13 94.92 89.30 75.00 XM26 95.30 94.49 88.30 68.00 JM44 95.07 93.22 85.40 81.00 BN4199 97.23 96.46 92.70 72.00 ZM33 96.17 95.60 90.90 57.00 average 95.98 94.94 89.32 71.00 Table 6. Test results of 5 varieties of wheat seeds in SMOTE-UVE-SVM model
图 3中给出了UVE所选最优波段在全波段的分布。而由图 4可知,UVE所选波段除分布在除表 2所分析的吸收峰附近外,其余分布较为均匀。分析结果可知,UVE选择的波段可助于消除波段间携带的冗余信息,提升分类效果。同时本文作者选择了实验过程中以BN4199为正样本,其余品种小麦为负样本的预测结果,其准确率、精确率与负样本检出率分别为97.33%、96.60%与93.00%。图 4a和图 4b中分别给出了测试样本的标签与测试结果。