HTML
-
本文中首先通过采用Python程序语言自行编程对波长调制二次谐波信号进行仿真研究。假设不含噪声的体积分数为10-7的甲醛二次谐波信号为参考信号X(信号幅值为相对值),体积分数为2×10-7的二次谐波信号为待分析信号Y,并通过对待分析信号Y添加不同幅值A的噪声(部分信号如图 3a~图 3c所示),进而对以上两种线性拟合模型进行评估。以图 3a~图 3c仿真二次谐波信号(横坐标为采样点数,无单位)中每个X信号为横坐标,Y信号为纵坐标,画出的图形及相应线性拟合结果分别展示在对应的图 3d~图 3f中,最终拟合结果统计如表 1所示。从表 1可以看出,对具有较高信噪比(signal-to-noise ratio, SNR)RSNR的谐波信号进行线性拟合,两种算法的拟合结果具有很好的一致性;随着噪声的增加,对具有较低信噪比的二次谐波信号进行线性拟合时,RANSAC算法明显比LSM更具有优越性,拟合结果的线性相关度R2要明显高于LSM, 且拟合的比值(slope)(即线性拟合的斜率,Y与X的比值)更接近真实值2.0。
Figure 3. a~c—the simulated second harmonic signal of formaldehyde with noise level A=10, 20, 50, respectively e~f—the corresponding fitted results by using LSM and RANSAC algorithms, respectively
experimental results R2 slope LSM RANSAC LSM RANSAC A=0(RSNR=∞) 1.0 1.0 2.0 2.0 A=5(RSNR=8.87) 0.9833 0.9935 1.9845 2.0059 A=10(RSNR=6.00) 0.9371 0.9831 2.0183 1.9997 A=20(RSNR=3.54) 0.8045 0.9412 2.0252 2.0003 A=50(RSNR=0.64) 0.2654 0.7482 1.6848 1.9083 Table 1. Fitting results of two harmonic signal of formaldehyde simulation with different SNR (adding Gaussian noise with different amplitude A to Y, while keeping X unchanged)
-
为了进一步对两种拟合算法进行评估,将两种拟合模型应用到实验中记录的大气甲醛二次谐波信号处理中,实验测量系统如参考文献[16]中所述。大气中甲醛含量极低,因此,实验中测量的光谱信号质量较差。实验上获得二次谐波信号I2, f与气体分子浓度C之间满足以下关系[17]:
式中,I0为激光初始光强,α为分子吸收系数,L为有效吸收光程。因此,通过将未知浓度的样品信号与已知参考样品的信号进行对比分析,即可消除初始光强的影响,从而获得未知样品的浓度信息。本文中主要是通过已知浓度的甲醛信号,对相关算法的可靠性进行初步的评估。图 4a是不同甲醛体积分数的两个二次谐波信号(signal_1:42×10-9;signal_2:35×10-9),信号基线部分受到采集系统噪声的严重干扰。类似于图 3处理方法,以signal_2的数据点为横坐标和signal_1的数据点为纵坐标时,给出如图 4b中符号“·”所示的依赖关系(包含inliers和outliers),图中符号“-”描述的分别为LSM和RANSAC算法线性拟合的结果。由此图可见,LSM算法处理的对象为整个数据点集(inliers+outliers), 而RANSAC算法通过排除含有噪声干扰的数据点(outliers),只对有效数据(inliers)进行拟合分析,从而使得拟合结果的可靠性得到显著提高。图 5a为甲醛体积分数为35×10-9不变的情况下,长时间连续测量二次谐波信号时不同时刻下选取的两个二次谐波信号(signal_2和signal_3),由于受系统的稳定性和背景噪声的干扰,使得信号的峰峰值出现明显的上下波动。同理,图 5b中给出了signal_2和signal_3之间的依赖关系(如“·”所示),及相应LSM和RANSAC算法线性拟合结果(如“-”所示),拟合结果相关的参量统计归纳在表 2中。
Figure 4. a—the experimentally measured second harmonic signal of formaldehyde with different concentrations b—the fitting results by using LSM and RANSAC algorithms, respectively
Figure 5. a—the experimentally measured second harmonic signal of formaldehyde with same concentration b—the corresponding fitted results by using LSM and RANSAC algorithm, respectively
formaldehyde sample 1 sample 2 LSM RANSAC LSM RANSAC actual ratio 1.20 1.20 1.0 1.0 fitted value 1.1818 1.1818 0.5342 1.0272 correlation coefficient R2 0.8923 0.9853 0.2111 0.9743 error/% 1.517 -0.18 46.58 -2.72 Table 2. Linear fitting results of formaldehyde spectra under different experimental conditions
从拟合结果可以看出,LSM在信噪比较低情况下,极易受异常数据的影响,使拟合模型明显偏离,线性相关度较低,拟合的体积分数误差高达47%。而RANSAC算法通过设置阈值来区分内外点,可以很好地排除仪器系统噪声(光学干涉噪声和电子学噪声)的影响,使得拟合线性相关度提高,反演的气体体积分数误差较小。
通过以上对仿真信号和实验数据的分析处理可见,当光谱数据信噪比较高的时候,两种模型拟合结果保持很好的一致性,当光谱数据信噪比较差的时候,尤其是光谱信号受到采集系统噪声的严重干扰,RANSAC算法比LSM更能鲁棒性地估计模型参量,提高线性相关度,减小气体浓度反演的误差。