HTML
-
实验中所用的THz-TDS系统由日本Advantest公司研制,系统使用两个超短脉冲激光器(1.55μm)做偏置输出(太赫兹波产生)和信号输入(太赫兹波探测)。飞秒激光脉冲输出功率为20mW,中心波长为1550nm,宽度为50fs,重复频率为50MHz。太赫兹波对水分比较敏感,为了减少实验误差,将太赫兹电磁辐射通过的光路封闭在氮气箱内,在实验过程中,湿度保持在4%的恒定值。
-
实验中所使用苯甲酸的纯度大于99%,购自阿拉丁试剂网。所有样品均在40℃的温度下烘干1h以去除水分。本文中将苯甲酸按0~0.200的质量分数与玉米粉混合用于光谱分析,制备了33种不同质量分数的苯甲酸和玉米粉的混合物,每个质量分数制备4个样品,样本的质量分数组成如表 1所示。质量分数间隔0.005,一共132个样本。所有混合物都在混匀器上被均匀混合,然后用液压机在10MPa的压力下压1min,取出压片。压片的形状为圆形,直径13mm,厚度1mm左右。将这些样品密封在贴有标签的袋子里,最后利用太赫兹设备获得样本的太赫兹光谱信息。
sample number mass fraction of benzoic acid 1 0.005 2 0.010 3 0.015 4 0.020 5 0.025 6 0.040 7 0.045 8 0.050 9 0.060 10 0.070 11 0.075 12 0.080 13 0.085 14 0.090 15 0.100 16 0.110 17 0.120 18 0.125 19 0.130 20 0.135 21 0.140 22 0.145 23 0.150 24 0.155 25 0.160 26 0.165 27 0.170 28 0.175 29 0.180 30 0.185 31 0.190 32 0.195 33 0.200 Table 1. Mass fractions of 33 benzoic acid samples
-
所有测量均采用日本爱德万公司生产的太赫兹系统进行。实验记录参考太赫兹信号Eref(t)和样本的太赫兹时域信号Esam(t),利用快速傅里叶变换(fast Fourier transform,FFT)算法可以得到光谱。根据菲涅耳公式,大多数低损耗材料的THz振幅透射率可以表示为:
式中, Eref(ω)和Esam(ω)分别为参考信号和样本信号的THz脉冲; A和φ分别为基准信号和样本信号的幅值比和相位差,n为样本折射率,N=n+ik为样品的复折射率,k为消光系数;d为样片厚度,是角频率,c是真空中的光速。由(1)式得到相对折射率n(ω)和相对吸收系数α(ω)。
-
采用PLS, LS-SVM和MLR 3种建模方法进行建模分析。将132个样本按3:1随机分为校正组和预测组,其中校正组样本99个,预测组样本33个。PLS是常用的多元线性回归方法之一,PLS从光谱数据中提取正交特征,建立特征与目标变量之间的相关性[12]。本文中采用PLS建立了苯甲酸样品吸收系数与频率的关系,用于苯甲酸样品的定量分析。
LS-SVM是在统计学习理论的基础上发展起来的一种新的模式识别方法[13]。基于支持向量回归理论,建立了苯甲酸质量分数的支持向量机预测模型,确定惩罚因子和核参量是支持向量机模型的关键[14]。采用交叉验证法选择支持向量机的惩罚因子和核参量。图 1是支持向量机预测模型流程图。采用交叉验证法选择模型的最佳参量[8]。
使用多元线性回归的前提是自变量之间必须是相互独立的,但是采集的光谱变量之间在一定程度上都会有某种程度的相关关系,出现统计学意义上的多从共线的问题。在进行多元线性回归方法建模前,需要减小数据的多重线性关系,而减小这种关系最常用的方法是对数据进行降维,提取数据的主要特征,本文中通过连续投影算法(successive projections algorithm,SPA)对数据进行线性特征提取,然后将提取的特征作为输入,利用多元线性回归建立数学模型[15]。
利用标定集对模型进行了交叉验证均方根误差(root mean square error of cross valibration,RMSECV)优化,并根据预测集均方根误差eRMSEP、预测集相关系数Rp、校正集相关系数Rc和校正集均方根误差(root mean square error of calibration,RMSEC)eRMSEC 4个方面对模型的性能进行了评价。均方根误差(root mean square error,RMSE)eRMSE和相关系数R定义如下:
式中,yp, i是第i个样本的预测质量分数,yr, i是第i个样本的标称质量分数。yr和yp分别代表所有样本标称和预测值的平均值,m表示参与计算样品数。
1.1. 仪器
1.2. 样本制备
1.3. 数据采集
1.4. 建模与方法
-
图 2a是纯苯甲酸太赫兹光谱图。从图中可以得知, 苯甲酸的吸收峰位置在1.98THz处,苯甲酸的太赫兹吸收只在1.98THz前后比玉米粉的吸收强,因此这个峰值可以作为苯甲酸定量检测的指纹特征。图 2b中是苯甲酸混合物样品在0.5THz~3THz之间的太赫兹吸收光谱,样品太赫兹吸收强度近似地随频率的变大而增强,随着苯甲酸的质量分数增加, 在1.98THz处出现吸收峰。光谱中除了有自身的化学信息外,还存在很多其它跟样品的无关信息[16],比如说电噪声和杂散光等,以及固体颗粒的大小、表面散射等对光透射的影响,在建模前对光谱数据进行预处理,可以有效地消除这些无关信息带来的影响,本实验中共采用了5种预处理方法分别处理数据,移动平均平滑算法、标准正态变换、多元散射校正和基线校正等对光谱数据进行预处理。
-
本文中按3:1随机划分建模集和预测集,其中建模集样品99个,预测集样品33个。采用移动平均平滑法、标准正态变换法(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、基线校正和归一化等预处理方法,然后用偏最小二乘法进行建模,表 2是利用偏最小二乘法建模得到的模型结果。结果显示,采用移动平均平滑算法对光谱进行预处理得到的效果稍微好些,其它4种预处理方法处理后建模结果反而比用原始光谱数据进行建模得到的模型结果更差。其中采用移动平均平滑算法,窗口数为5时效果最佳,其Rp=0.98151,eRMSEP=0.01125,表 2中是偏最小二乘法模型预测结果。
preprocessing methods PLS principal component Rc eRMSEC Rp eRMSEP original 7 0.98602 0.01006 0.98095 0.01152 moving average smoothing size 3 7 0.98655 0.01005 0.98107 0.01143 size 5 7 0.98611 0.01002 0.98151 0.01125 SNV 5 0.97942 0.01671 0.97219 0.01402 MSC 5 0.97897 0.01231 0.96902 0.01426 baseline 7 0.98145 0.01156 0.98149 0.01186 normalization 5 0.97796 0.01218 0.96475 0.01515 Table 2. PLS model results of different pretreatment methods
在光谱分析过程中,其PLS主因子数的选择和模型的实际预测能力直接相关,选取的主因子数过少,则会很难充分地表达测试样品的光谱信息,选取的主因子数过多的,则会加入过多的噪声,直接影响模型的预测能力。图 3是PLS的均方根误差随主成分因子数变化图。从图中可以看出,在主成分因子数小于3的时候出现了过拟合现象,但主成分因子数为7时,校正集均方根误差趋于稳定,预测集均方根误差略微有点上升。因此, 选择主因子数为7时作为最佳主成分数。图 4是随着频率变化的回归系数变化的图。图中反应的是不同频率对模型的影响大小。回归系数越大,对模型的影响越大,从图中可以看出在1.98THz处有最大的回归系数,这个位置正好也是苯甲酸的太赫兹特征峰位置,说明苯甲酸含量对模型影响很大。
图 5为经过移动平均平滑法,窗口数为5时的PLS苯甲酸质量分数预测模型的散点图。Rc=0.98611,eRESEC=0.01002,Rp=0.98151,eRMSEP=0.01125。
-
为了得到较好的数学模型,本文中还采用了最小二乘支持向量机对玉米粉中苯甲酸质量分数建立建模,LS-SVM模型的精度主要有3个因素确定,分别是输入变量、核函数的类型和核函数的参量。采用原始光谱和移动平均平滑法预处理过的数据作为输入,其中移动平均平滑法的窗口数为5。考察LS-SVM的预测能力,主要从两种核函数出发,用线性核函数和径向基(radial basis function,RBF)核函数两种类型的核函数分别建立数学模型,γ和σ2是径向基核函数主要考虑的两个参量,而线性核函数主要考虑1个参量γ, 其模型的结果如表 3所示,t是运算时间[17-18]。从表中可以看出, 不管是否进行预处理,采用径向基核函数比采用线性核函数的效果好,在都使用核函数的情况下,使用原始光谱所建的苯甲酸质量分数模型在γ=1980.3968,σ2=51.8468时模型最好,此时Rp=0.9958,eRMSEP=0.0057。
input data kernel function Rp eRMSEP type parameter t/s original spectrum linear kernel γ=2.4123 0.0468 0.9850 0.0104 RBF kernel γ=1980.3968, σ2=51.8468 0.0468 0.9958 0.0057 moving average smoothing size 5 linear kernel γ =2.7239 0.0468 0.9844 0.0106 RBF kernel γ=192721.9293, σ2=852.7071 0.0312 0.9917 0.0082 Table 3. LS-SVM model prediction results
图 6是最小二乘支持向量机苯甲酸质量分数预测模型的散点图。图 6a是原始数据苯甲酸质量分数预测模型散点图,图 6b是经过预处理后的苯甲酸质量分数预测模型散点图。其中原始数据在径向基核函数下得到Rp=0.9958, eRMSEP=0.0057,选择线性核函数时,Rp=0.9850, eRMSEP=0.0104;经过预处理后的数据在径向基核函数下得到Rp=0.9917, eRMSEP=0.0082,选择线性核函数时,Rp=0.9844, eRMSEP=0.0106。
-
连续投影算法(SPA)是一种选择变量的算法,在选择过程中从某一个波长变量开始,而接下来的循环则计算没有被选择过波长变量上的投影[14]。选择投影向量中最大的波长点,每一次新选入的波长点和之前选入的波长点之间线性相关最小。本文中通过SPA选取原始光谱中的特征波长点,利用SPA从360个波长点中选取了27个主要特征波长点。然后将这27个特征波长点用MLR进行建模。图 7是利用SPA结合多元线性回归算法建模得到的玉米粉中苯甲酸质量分数预测模型散点图。其中Rc=0.9897,eRMSEC=0.0085, Rp=0.9896, eRMSEP=0.0090。
-
本文中采用PLS, LS-SVM和SPA-MLR等方法建立模型,建模前进行预处理,由结果可知, 采用移动平均平滑算法、窗口数为5时,效果最佳,其Rp=0.98151,eRMSEP=0.01125,利用LS-SVM建模分别从径向和线性核函数出发,结果表明, 对原始光谱,在径向核函数下得到的模型最佳,得到Rp=0.9958,eRMSEP=0.0057;最后还利用了多元线性回归进行建模,在建模前为了使变量之间的相关性最小,利用SPA挑选了27个特征波长变量,然后利用这些特征波长变量建立模型,其得到的结果为Rp=0.9896,eRMSEP=0.0090。对比这3种建模方法,LS-SVM建模得到最优模型,Rp最大,误差最小,偏最小二乘法模型结果相对来说最差。