HTML
-
SPA根据RMSECV确定选择的特征波长数和光谱具体波段,当RMSECV达到明显拐点时,此时所对应的特征波长数即为降维后的结果。由图 5a可知,RMSECV随着选择特征波长数量的增加整体上呈下降趋势,当达到拐点时,值为0.1168,对应选择的特征波长数为11。实验中所选400 mm~1167 nm共524个波段,图 5b为SPA降维后11个特征波长数在此524个波段中的具体位置。
-
作为一种无监督的机器学习算法,PCA可由原始信息产生新的特征,新特征对于原光谱数据的总解释贡献度如表 1所示。当新特征数为9时,贡献度达到0.9997,因此,选择前9个特征作为降维后的新特征。
number of features cumulative contribution rate 1 0.8669 2 0.9473 3 0.9801 4 0.9920 5 0.9970 6 0.9983 7 0.9991 8 0.9996 9 0.9997 10 0.9997 Table 1. Feature contribution in PCA
-
利用SPA-PCA 2次降维后产生的新特征贡献度如表 2所示。当特征数达到7时,贡献度为0.9997,因此,选择前7个特征作为SPA-PCA降维后的特征波段。
number of features cumulative contribution rate 1 0.7377 2 0.9300 3 0.9745 4 0.9902 5 0.9972 6 0.9991 7 0.9997 8 0.9997 Table 2. Feature contribution in SPA-PCA
3种降维方法提取的特征个数占原特征数量的百分比分别为1.79%、2.46%和2.14%,有效地减少了数据冗余。
-
将原始光谱(full)和3种降维后的数据分别与PLS和RF结合建立硬度预测模型,构建8种模型的评价指标。
由表 3和表 4可知,在使用3种降维方法对特征进行提取后,PLS在校正集上的CCP均有不同程度的提升,其中基于SPA-PCA的2次降维效果最好,由全光谱的0.8636提高到0.9099。但是使用降维算法后,RF在预测集上的CCP有不同程度的下降,其中SPA-PCA的2次降维下降最多,由全光谱的0.8889降低到0.8158。因此,选择SPA-PCA-PLS和full-RF两个回归算法模型做进一步比较。
modeling methods CCC CCP RMSEC RMSEP RPD full-PLS 0.9084 0.8636 0.1307 0.1592 2.4973 PCA-PLS 0.9111 0.9047 0.1283 0.1352 3.1019 SPA-PLS 0.9069 0.8700 0.1323 0.1529 2.6451 SPA-PCA-PLS 0.9101 0.9099 0.1290 0.1344 3.2623 Table 3. PLS-based model modeling results
modeling methods CCC CCP RMSEC RMSEP RPD full-RF 0.9611 0.8889 0.0845 0.1491 2.5344 SPA-RF 0.9321 0.8667 0.1143 0.1473 2.1535 PCA-RF 0.9522 0.8735 0.0926 0.1644 2.0531 SPA-PCA-RF 0.9620 0.8158 0.0837 0.1891 1.7907 Table 4. RF-based model modeling results
两者的校正集和预测集样本模型预测值和硬度计测量值分布散点图如图 6所示。
可以看出,SPA-PCA-PLS模型的预测效果更好。其次,full-RF模型未对光谱特征进行降维,存在着大量冗余的信息,而SPA-PCA-PLS模型确定的特征个数仅有7个,其中RPD也是所有模型中最高的,达到了3.2623,因此,确定SPA-PCA-PLS为硬度预测模型,建立硬度预测公式为:
式中: Hp为硬度的预测值; Fi为2次降维后的特征变量(i=1, 2, 3, 4, 5, 6, 7)。
-
将4个类型504个样本(草莓果肉、发霉果肉、萼片、草莓籽,每类126个)的3个参数(I1、I2和I3)计算出来并分别绘制箱线图。箱线图用来比较各组分在3个参数中的分布情况,阈值由上下四分位数及四分位距来确定,结果如图 7所示。
由图 7a、图 7b可知,草莓果肉和萼片与另外两种组分在I1和I2上的分布有明显差异。I1上发霉果肉及萼片异常值更少,对萼片的识别效果更好。I1中草莓籽下四分位数Ql, 1与四分位距IIQR, 1分别为0.322、0.122;萼片上四分位数Qu, 2与四分位距IIQR, 2分别为-0.307、0.078,确定θ1分割阈值为0.026。草莓果肉1.5IIQR, 1和发霉果肉1.5IIQR, 2在I1上有明显重叠,在I2上无重叠现象,确定I2对草莓果肉的识别效果更好。I2中草莓果肉下四分位数Ql, 1与四分位距IIQR, 1分别为0.807、0.118,发霉果肉上四分位数Qu, 2与四分位距IIQR, 2分别为0.542、0.137,则θ2分割阈值为0.689。由图 7c可知,I3可将4种类型分为两个大类,分别为正常果肉和发霉果肉、萼片和草莓籽, I3中草莓籽下四分位数Ql, 1与四分位距IIQR, 1分别为0.118、0.075,发霉果肉上四分位数Qu, 2与四分位距IIQR, 2分别为-0.066、0.039,确定θ3分割阈值为0.001。
由光谱特征分析,确定960 nm分割阈值为0.1对背景进行分割,则θ0~θ3分别为0.1、0.026、0.689,0.001。
在对高光谱图像中每个像素点经多阈值的逐层分割后,所分割出不同组分的二值化结果,如图 8所示。
图 8a为第3天的草莓样本RGB图; 图 8b为分割出的草莓区域图,轮廓清晰;图 8c和图 8d显示萼片和草莓籽部分,部分萼片和果梗被错分成草莓籽,原因在于萼片和果梗均含有叶绿素,两者的光谱反射率在515 nm~640 nm范围内平稳,并没有突出的波峰,光谱曲线与草莓籽相近; 图 8e为分割出的霉变果肉,在存放3天后,草莓均已经开始不同程度腐败和霉变,红色框霉变程度较明显,由点状霉变发展成片状霉变;图 8f为去除掉无关组分的草莓果肉,用于后续果肉硬度重建。
-
提取草莓果肉部分的光谱信息,基于SPA-PCA-PLS最优模型所确定的硬度拟合公式,对每个像素点进行硬度拟合并伪彩色化,图 9为不同贮藏天数的草莓硬度分布图。图中①~⑥为6个草莓样本,day 1~day 5表示不同的贮藏时间。硬度值最低为0 Pa,最高3×105 Pa,由蓝到红硬度不断提高。总体上看,草莓硬度值经历了先下降后上升的两个过程。采摘时草莓成熟度不高,随着存放时间的增加,草莓不断成熟,细胞壁变薄,果胶质逐渐水解为果胶酸,细胞坚固程度下降,草莓硬度值不断下降,到第3天硬度达到最低。等到草莓完全成熟后保水能力变差,在室内环境不断进行蒸腾作用,水分减少,果实失水皱缩,体积变小,导致了硬度上升,从第4天开始硬度增大,且高于刚采摘后的草莓。草莓样本④在第3天出现了霉变,霉变发生在右下角区域,随着时间的变化,霉变区域不断扩大,第5天时已几近于覆盖整颗草莓。