HTML
-
实验样本:从市场上收集的6种品牌共计40个不同型号的车用保险杠样本。表 1中列举了6种样本的基本信息。
number brand sample 1 Audi Audi-1, Audi-2, Audi-3, Audi-4,
Audi-5, Audi-6, Audi-72 Honda Honda-1, Honda-2, Honda-3,
Honda-4, Honda-5, Honda-63 Buick Buick-1, Buick-2, Buick-3,
Buick-4, Buick-5, Bucik-64 Ford Ford-1, Ford-2, Ford-3, Ford-4,
Ford-5, Ford-6, Ford-7, Ford-8, Ford-95 Nissan Nissan-1, Nissan-2, Nissan-3,
Nissan-4, Nissan-5, Nissan-6, Nissan-76 Changan Changan-1, Changan-2, Changan-3,
Changan-4, Changan-5Table 1. The details of 6 kinds of samples
仪器及参量设置:红外光谱仪(Nicolet 5700, Thermo Fisher Scientific公司), 氘化三甘氨酸硫酸酯探测器(DTGS, Thermo Fisher Scientific公司), KBr分束器(Thermo Fisher Scientific公司)[6], OPUS光谱数据处理软件(德国Bruker公司)[7]。扫描次数为32次[15], 分辨率为4cm-1, 光谱采集范围为4000cm-1~400cm-1。每个样本采集4次光谱曲线, 取平均值作为实验数据, 实验温度为(29±3)℃, 相对湿度为57%。
-
在红外光谱测量的过程中, 往往由于仪器自身原因、光源条件、实验温度等影响, 存在基线漂移、高频噪音等现象。提取有效光谱信息, 建立稳健、准确的鉴别模型是应用领域所关切的问题之一。常用的预处理方法有光谱求导和基线校准:光谱求导是一种有效的预处理方法, 其能从重叠的吸收光谱中分离出各自的吸收峰, 消除或降低背景吸收的干扰, 提高光谱的分辨率、信噪比和检测灵敏度[16], 但求导阶数的增加也会使得导数运算中高频噪声不断放大, 使得信噪比降低; 基线校准分自动校准和手动校准, 相比较前者, 后者依赖主观经验, 操作费时费力, 实用性低, 无法满足一线执法人员和鉴定人员快速检测的需求。自动基线校准主要有小波变换重构、插值和中值滤波等方法, 其操作简单, 实用性较高。此外, 其它校准方法还有基于背景估计[17]、基于形态学算子[18-19]和频率域分析[20]等。常用的插值方法有拉格朗日插值多项式和牛顿插值多项式。相比较前者, 后者计算简单快速, 具有继承性和易变化节点的优势, 即增加节点时计算只增加一项, 这在缩短实际的运算时间方面占据很大优势。牛顿插值多项式基本原理为如下。
假设有函数f(x), x0, x1, x2, x3, …, xk是一系列互不相等的点, 1阶差商定义为:
可求得f(x)为:
同理, k阶差商定义为:
可求得f(x0, x1, x2, …, xk-1)为:
则牛顿差值多项式为:
插值余项为:
实验中采用基线校准和光谱求导两种预处理方法, 考察并比较红外全波段光谱、指纹光谱、牛顿多项式插值(1次项~6次项)、1阶导数、2阶导数和3阶导数等方法对分类模型的预测效果, 进而选出最优预处理方法, 开展对样本的识别工作。
-
Bayes判别是一种较为有效的分类方法, 其先通过计算样本的先验概率, 即根据先期样本聚类结果计算出样本特征的各种概率密度函数, 然后按照贝叶斯公式计算出后验概率, 根据后验概率进行判别分析, 从而实现最小错误率意义上的优化。
其基本思想为:设x={a1, a2, …, am}为一个待分类项, 每个a为x的一个特征属性, 则有类别集合:C=={y1, y2, …, yn}, 计算P(y1∣x), P(y2∣x), …, P(yn∣x), 如果:P(yk∣x)=max{P(y1∣x), P(y2∣x), …, P(yn∣x)}, 则x∈yk。
1.1. 样本与仪器
1.2. 光谱预处理
1.3. 建模方法及原理
-
各样本的红外光谱全波段和指纹区波段分类模型的预测结果见表 2。由表 2可知, 基于指纹区波段建立的判别模型总体准确率(80.0%)高于全波段模型(77.5%)。分析认为, 车用保险杠是混合物, 不同品牌的样品会存在一定差异, 这些差异会在其光谱信息中呈现出来, 且主要集中反映在指纹区。测量过程中由于基线漂移等现象, 全波段光谱中的冗余和噪声信息远远多于指纹区, 这不仅会加大分类模型的计算复杂度, 更会严重影响到其预测精度, 因此削弱冗余和噪声区间的影响尤为重要。指纹区由于冗余和噪声信息较少, 其分类模型的精度相对较高。基于此, 实验中选择红外光谱指纹区波段开展基线校准工作, 以此提高模型的判别精度。
type accuracy/% total accuracy/% Audi Changan Ford Nissan Buick Honda full band spectrum 57.1 40.0 100.0 85.7 66.7 83.3 77.5 fingerprint spectrum 85.7 40.0 100.0 85.7 66.7 83.3 80.0 Table 2. Predicted results under full and fingerprint spectra
表 3为借助牛顿差值多项式进行基线校准, 得到的不同插值次数处理后各品牌样本的预测结果。图 1为不同插值次数处理后的总体判别准确率。由表 3可知, 在不同插值次数处理后, 日产和福特品牌样本的分类准确率均较高, 长安品牌样本的分类准确率均低于其它品牌样本分类结果, 奥迪品牌样本在0次、1次、4次和5次插值处理后的分类准确率最高(85.7%), 别克样本在5次插值处理后的分类准确率最高(100%), 本田品牌样本在2次、4次和6次插值处理后的分类准确率最高(83.3%)。结合图 1, 4次牛顿插值多项式处理后的判别准确率最高(85%), 3次牛顿插值多项式处理后的判别准确率最低(62.5%), 5次和6次插值处理后的总体判别准确率逐渐下降, 这是因为插值次数升高会使其结果越偏离原函数, 出现龙格现象, 即插值节点个数增加会使得两个插值节点之间的插值函数并无法很好地逼近被插值函数, 加上高次插值计算量大, 会产生严重的误差积累, 从而使得分类模型的精度和稳定性降低。综上所述, 选择4次牛顿插值多项式进行基线校准, 开展对样本进一步的识别工作。
interpolation
timesaccuracy/% Audi Changan Nissan Buick Honda Ford 0 85.7 40.0 100.0 85.7 66.7 83.3 1 85.7 60.0 100.0 83.3 66.7 88.9 2 71.4 60.0 85.7 66.7 83.4 88.9 3 42.9 20.0 85.7 66.7 66.7 77.8 4 85.7 60.0 85.7 83.4 83.4 100.0 5 85.7 60.0 85.7 100.0 66.7 88.9 6 57.1 60.0 100.0 50.0 83.3 88.9 Table 3. Predicted results after different polynomial order
表 4为在经过4次牛顿插值多项式处理后, 各品牌样本在不同阶求导下的分类准确率情况。由表 4可知, 1阶导数处理后分类准确率最高(100%), 2阶导数(97.5%)和3阶导数(95.0%)对识别准确率的提高没有1阶导数效果明显, 经求导后奥迪、别克和本田品牌的样本均实现了100%的准确区分, 相比较1阶和2阶求导, 长安和福特品牌的样本经3阶求导后分类准确率反而降低, 分析认为随着求导阶数的增加, 光谱中的噪声信息也会不断放大, 从而使得分类准确率降低。基于此, 选择1阶导数处理开展对样本品牌光谱信息的判别工作, 得到了判别函数摘要(见表 5)。
type accuracy/% total accuracy/% Audi Changan Ford Nissan Buick Honda original spectrum 85.7 100.0 83.3 83.3 85.7 60.0 85.0 the 1st derivative spectrum 100.0 100.0 100.0 100.0 100.0 100.0 100.0 the 2nd derivative spectrum 100.0 100.0 100.0 85.7 100.0 100.0 97.5 the 3rd derivative spectrum 100.0 80.0 88.9 100.0 100.0 100.0 95.0 Table 4. Predicted results after different derivative processing
function total correlation function test Wilks’Lambda Sig DF1 187.098 0.997 1 to 5 0.000 0.000 DF2 83.153 0.994 2 to 5 0.000 0.001 DF3 12.735 0.963 3 to 5 0.007 0.373 DF4 4.683 0.908 4 to 5 0.096 0.913 DF5 0.835 0.675 5 0.545 0.998 Table 5. The details of discriminant function
表 5中相关性表明了不同分组与各个函数之间的关联性。相关性越强, 则组别在此维度上的差异越大。Wilks’ Lambda是组内平方和与总平方和之比, 其值越小, 说明某个量对于模型的影响越显著。显著性(significance, Sig)是对数据差异性的评价, 一般取值需小于0.05, 当其小于等于0.001时, 表明数据具有高度统计学意义[21]。由表 5可知, 判别模型中构建了5个判别函数, 前2个函数的Wilks’Lambda均为0, 表明前2个函数对模型的影响十分显著, Sig值分别为0和0.001, 表明判别函数(discrimination function, DF)DF1和DF2对模型影响的显著性十分高, 能很好解释各样本的分类情况。综上所述, 选择函数DF1和DF2作为判别函数, 构建判别分类模型, 得到了6种品牌样本的空间分布图(见表 5)。
图 2为6种品牌样本的判别空间分布图。由图可知, 6种品牌的样本均实现了100%的准确区分, 其中, Buick和Audi品牌样本在DF1判别轴上区分明显, Honda和Audi品牌样本在DF2判别轴上区分明显, Nissan和Changan品牌样本在DF1判别轴上实现了区分, Changan与Ford品牌样本在DF2判别轴上实现了区分, 由于DF1判别轴单位长度为5, 故而使得Nissan和Changan品牌样本之间的区分不是十分明显。DF1判别函数为Z1=-3.247X1+24.887X2-6.496X3-19.919X4+22.019X5-9.167X6+6.406X7+…+4.284X28-9.55X29+5.326X30+1.187X31+4.044X32+0.068X33, DF2判别函数为Z2=-4.051X1-10.771X2-0.491X3+4.132X4-5.425X5+8.273X6+1.942X7+…+6.657X27-1.947X28+2.797X29-3.637X30-4.78X31+7.378X32+0.277X33。如果想区分未知变量, 只需要在判别函数中输入其相应值, 在分布图中会显示出其位置, 就能区别新数据属于哪一类别。