HTML
-
样本:从市场上收集了40支记号笔,其中水性记号笔油有广博共计8支水性记号笔,油性记号笔有三木、乐途、宝克和金万年共计32支油性记号笔(见表 1)。
type samples water-based markers Guangbo-1, Guangbo-2, Guangbo-3, Guangbo-4, Guangbo-5, Guangbo-6, Guangbo-7, Guangbo-8 oily-based markers Sanmu-1, Sanmu-2, Sanmu-3, Sanmu-4, Sanmu-5, Sanmu-6 Letu-1, Letu-2, Letu-3, Letu-4, Letu-5, Letu-6, Letu-7, Letu-8, Letu-9, Letu-10, Letu-11, Letu-12, Letu-13, Letu-14 Jinwannian-1, Jinwannian-2, Jinwannian-3, Jinwannian-4, Jinwannian-5, Jinwannian-6 Baoke-1, Baoke-2, Baoke-3, Baoke-4, Baoke-5, Baoke-6 Table 1. The details of 40 samples
仪器:Nicolet 5700型傅里叶变换红外光谱仪(Thermo Fisher Scientific公司),衰减全反射附件(Thermo Fisher Scientific公司),氘化三甘氨酸硫酸酯探测器(Thermo Fisher Scientific公司),KBr分束器(Thermo Fisher Scientific公司),OPUS光谱数据处理软件(德国Bruker公司)。扫描次数为32次,分辨率为4cm-1,光谱采集范围为1300cm-1~400cm-1,每个样本采集3次光谱曲线,取均值作为实验样本光谱数据,实验温度为(27±2)℃,相对湿度为47%。
-
借助Nicolet 5700型傅里叶变换红外光谱仪获取40个样本的红外指纹谱图,光谱预处理采用多元散射校正(multiple scatter correction, MSC)、峰面积归一化(peak area normalization, PAN)和自动基线校正(automatic baseline correction, ABC),采用Savitzky-Golay平滑谱图,光谱波数400cm-1~500cm-1处噪声较大,将以上部分剔除,选择Zscore标准化处理数据,借助化学计量分析方法,开展对样本的分析与研究。
-
多层感知器神经网络是一种常见的人工神经网络算法,它是一种趋向结构的神经网络,映射一组输入向量到一组输出向量。最典型的MLP包含3组结构,即输入层、隐层和输出层。MLP每一层的所有神经元都与下一层相连接。其中输入层的作用是将信息输入到神经网络之中,隐层的作用即通过一系列函数将输入映射到输出,常用的函数有sigmoid函数、tanh函数和ReLU函数,输出层即输出模型分类结果,常用softmax函数,若有一个神经元j, 当输入向量为yi时,其输出向量zj的表达式为[22]:
式中, yi为神经元j上一层的第i个神经元的输出,wji表示神经元j与神经元i连接的权重,zj为神经元j的输出向量。
1.1. 样本与仪器
1.2. 实验方法
1.3. 实验建模
-
记号笔墨水分油性和水性两种,图 1为水性记号笔与油性记号笔的红外指纹图谱。由图 1可知,两种类型的记号笔谱图走势大致一样,但是出峰的位置,峰形等有较为明显的差异,在波数为1050cm-1处和750cm-1处,油性记号笔均有一宽峰,水性记号笔则没有峰,在波数为700cm-1处,油性记号笔有一左高右低的双峰,水性记号笔则有一尖峰。据此,借助红外指纹图谱可将8支广博品牌的记号笔样本全部区分出来。
-
32支油性记号笔的红外指纹图谱见图 2。由图 2可知,各样本的峰形、峰的走向和出峰的位置基本一致,在波数为1070cm-1处均有一个弱峰,在波数为1000cm-1左右均有一个左低右高的双峰,在波数830cm-1处各样本均有一宽峰,在波数为750cm-1处均有一峰,在波数为700cm-1处均有一左高右低的双峰。其中个别峰的个数以及相对峰高有所区别,在波数为1270cm-1和1160cm-1处部分样本有一宽峰,部分样本则没有,在波数为750cm-1处双峰的相对峰高有差异。依据谱图的特征开展区分工作费时费力,且将其实现准确区分难度较大。实验中借助化学计量分析方法,开展对样本品牌的分类工作。
随机在4种品牌中各选取其中一个样本,通过实验分析得到它们各自的光谱数据信息,实验结果如表 2所示。样本数据是否具备分析价值,主要通过以下3个指标进行衡量:均值、标准差和变异系数。其中均值能够反映样本数据集中趋势,标准差能够反映数据集离散程度,而变异系数即标准差与均值的比值,它是反映样本数据在单位均值上的离散程度的一项重要指标,其中变异系数小于0.15的数据可用于分析研究。由表 2可知,各样本变异系数均在0.15以下,因此这些样本数据可以满足分析研究的需要。
brand minimum value maximum value average standard deviation coefficient of variation Sanmu 28.35436 74.06045 57.25220 14.386853 28.35436 Letu 39.22037 78.16590 65.23025 12.533006 39.22037 Jinwannian 38.93423 85.08097 71.69274 13.544799 38.93423 Baoke 26.46985 82.26426 68.18328 12.606254 26.46985 Table 2. The data details of 4 kinds of samples
光谱数据的维度过高会造成样本特征的冗杂,使计算过程变得更加复杂,增加了数据分析时长,同时也降低了模型精度,不利于数据的快速准确分析。因此必须合理控制数据维度,注意有效信息的采集。每个实验样本采集的光谱数据为波数在1304cm-1~500cm-1,分辨率为4cm-1,即实验数据为201维,其维度较高,需通过降维方式提取有效特征。
借助主成分分析,选择降维后的1维到35维等共计35个维度下的特征变量,应用多层感知器(MLP)构建分类模型,对4种品牌的黑色记号笔墨水光谱数据展开识别工作,图 3中列举了10维、15维、20维、25维和30维等共计12个维度下分类模型的识别准确率。
由图 3可知,30维特征变量构建的MLP模型识别准确率最高,为100%,10维特征变量构建的MLP模型识别准确率最低,为59.4%。分析认为是原始数据经过降维后,30维矩阵上样本的特征信息提取较好,无用信息剔除较好,在10维、15维、25维矩阵上样本包含的信息量较少,特征信息损失较多,无法准确解释黑色记号笔墨水所包含的主要理化信息,而在31维、33维和35维矩阵上样本信息的无关特征和冗余特征较多,这增加了训练过程的时间,影响了模型的性能,降低了分类精度。综上所述,选择30维度光谱数据构建MLP分类模型,得到了各特征变量重要性分布结果(见图 4)。特征变量重要性即在MLP分类模型中,各维度变量对模型区分效果的贡献程度,由图 4可知,特征12贡献程度最高,为0.0355,其次为特征26和特征17,贡献程度分别为0.0347和0.0346,特征14贡献程度最低,为0.0316,30个特征变量的重要程度值总和为1。
特征变量选择贡献程度最大的特征12、特征26和特征17,隐藏层数选择为一层,激活函数选择tanh函数,输出层激活函数选择softmax函数,构建MLP分类模型,得到了4种油性品牌的空间分布结果(见图 5)。
由图 5可知,4种品牌共计32样本均实现了100%的准确区分,其中x, y和z分别代表特征12、特征26和特征17,乐途品牌的样本聚敛程度较高,分布集中,表明其墨水的组分和含量差异较小,宝克品牌的样本分布较为分散,其墨水的组分和含量相对差异较大。为验证模型精度,选择Sanmu-3, Sanmu-5, Letu-7,Letu-5,Jinwannian-2,Jinwannian-4,Baoke-6,Baoke-1这8个样本作为待判定样本,开展分类工作,得到了8个待判定样本的分类结果(见表 3)。由表可知各样本均实现了准确地归类,模型精度较高,可准确实现对黑色记号笔墨水品牌间的区分和认定。
sample to be determined Sanmu Letu Jinwannian Baoke Sanmu-3 √ Sanmu-5 √ Letu-7 √ Letu-5 √ Jinwannian-2 √ Jinwannian-4 √ Baoke-6 √ Baoke-1 √ Table 3. Results of 8 determined-samples