HTML
-
有关苹果糖度的参量如表 1所示,包括糖度的范围、平均值、标准差和变异系数,由表 1可知, 校正集的苹果的平均值是13.46,标准差为1.04,预测集的平均值为12.75,标准差为1.2。
data set number of sample minimum maximum mean standard deviation calibration set 48 11.2 15.2 13.46 1.04 validation set 15 11 15 12.75 1.20 Table 1. Distribution of sugar content in apple samples
-
为保证实验结果的准确性,采集光谱应保证在相同的实验条件下进行,图 4a为63个苹果样品采用常规单波长模式下的苹果谱图,图 4b为同批样品在相同实验条件和阿达玛变换模式下的苹果光谱图。对比两图可知,不同模式下的苹果光谱图大体形状十分接近,而阿达玛模式下采集的光谱图较常规单波长模式下的光谱图更为光滑。
-
采集的近红外光谱信号不仅包含样品组成相关的信息,而且也引入了由于样品状态、杂散光以及仪器响应等因素的差异而产生的噪声和基线偏移等干扰信息,因而需要在建模前对光谱数据进行预处理来消除干扰信息的影响。进行适当的预处理有利于提高模型的精度及稳定性。本实验中使用了Savizky-Golay(S-G)平滑、1阶求导、标准正态变量变换(standard normal variate transformation, SNV)以及多元散射校正(multiplicative scatter correction, MSC)等预处理方法,对其建模效果进行了比较,最终选择1阶求导结合S-G平滑的预处理方法,S-G平滑窗口数为5。
-
在建立3层BP神经网络时,为了减小运算量提高运算效率,采用主成分分析对光谱数据进行降维处理,得到主成分数为7时,其累计总贡献率达到99.83%,能够较好地代表原始光谱信息,因此选择贡献率较大的前7个主成分作为BP网络的输入,即输入层的神经元个数为7。隐含层神经元个数经网络测试确定为10,输出层神经元个数为1。隐含层和输出层的传递函数分别为tansig和purelin激励函数,网络的训练方法采用梯度下降法,学习速率取0.05,训练目标为0.001,最大迭代次数为1000。由神经网络的规模可确定粒子群的维度为91,取粒子群中粒子的个数为30,以训练均方根误差作为粒子的适应度评价函数。
表 2中列出了用PSO-BP算法结合多种预处理方法对两种模式下的光谱数据进行建模分析的结果。由表 2可知,阿达玛变换模式下的模型较常规单波长模式下的模型,不论是原始数据还是经过预处理后数据,其得到的预测相关系数都更高,预测标准差更小,模型的预测精度和稳定程度更高。这与阿达玛变换较常规模式信号均方差更小、信噪比更高的特点相对应。此外阿达玛模式下经1阶导数+S-G平滑预处理后的PSO-BP模型预测效果最好,其中预测集的相关系数为0.9911,校正均方根误差为0.1502。
pretreatmentmethod calibration set validation set Rc σc Rp σp single wavelength Hadamard transform single wavelength Hadamard transform single wavelength Hadamard transform single wavelength Hadamard transform none 0.8790 0.9401 0.7045 0.4177 0.7944 0.8732 0.9601 0.7290 S-G smoothing 0.9035 0.9522 0.6634 0.3675 0.8382 0.9098 0.8664 0.6652 SNV 0.8377 0.8612 0.8672 0.7523 0.7845 0.8325 0.9914 0.8631 MSC 0.8406 0.8809 0.8043 0.9588 0.7867 0.8451 0.9856 0.7935 the 1st derivative+S-G smoothing 0.9684 0.9983 0.3051 0.0956 0.9566 0.9911 0.3589 0.1502 the 1st derivative+SNV 0.8534 0.9214 0.7852 0.5412 0.8123 0.8813 0.8927 0.9057 the 1st derivative+MSC 0.8631 0.9352 0.7512 0.4906 0.8265 0.8925 0.8716 0.8541 Table 2. Modeling results obtained by single wavelength mode and Hadamard transform mode
表 3中列出了PSO-BP模型与其它模型的比较结果,与多元线性回归(multiple linear regression, MLR)、偏最小二乘法(PLS)相比,优化的神经网络模型整体性能更好,预测精度高误差小;对于简单的BP神经网络模型,校正集的相关系数和均方根误差都较好,然而对于验证集的预测效果较差,出现明显的过拟合现象,可能是由于BP网络在训练过程中陷入局部最优的原因;PSO-BP模型在粒子群算法的优化下,取得良好的预测效果,模型的稳定性高,泛化能力强。图 5为PSO-BP模型的预测糖度值和实际测量值的相关系数图。
models calibration set validation set Rc σc Rp σp MLR 0.8722 0.7589 0.8031 0.9547 PLS 0.9523 0.3612 0.9012 0.6718 BP 0.9845 0.1877 0.7313 1.2514 PSO-BP 0.9983 0.0956 0.9911 0.1502 Table 3. Comparison of results using a PSO-BP model and other models