HTML
-
本文中进行了如下参数的优化:采用Adam优化器,参数β1设定为0.98,学习率的初始值为0.001,同时设置权重衰减系数为0.0005, 批处理大小选取为64。所有的输入图像的尺寸为640×640,训练的轮次数是200次,为了增加每个样本的上下文信息,训练中启用了Mosaic数据增强技术。训练平台配置如表 1所示。
name configuration information CPU(central processing unit) Intel(R)Core i9-10900X GPU(graphics processing unit) NVIDIA RTX 3090 ×2 framework Pytorch 1.12.1 environments CUDA11.6 CUDNN8.3.2 Table 1. Training platform configuration
-
使用的FLIR数据集特点是真实性高、多样性强,具有较高的挑战性。FLIR热图像数据集的训练数据集有10742张红外图像,验证数据集有1144张红外图像。原始数据集包含的标签种类有人、汽车、自行车、摩托车、公交车、狗等15类目标,挑选了目标数目最多的两类人和汽车,目标数量分别为50478和73623。
-
为了对训练出来的模型进行性能评估,进而优化算法、提高准确率和泛化能力,需要对训练模型进行多方面评估。真正例(true positive,TP)T表示实际为红外目标正例且被模型准确地预测为红外目标正例的次数;假正例F则是指模型错误地将实际为红外图像非正例(false posifive, FP)的目标预测为正例的次数;假负例(false negative,FN)表示为N。
精确率是衡量预测为正类别的样本中有多少是真正的正类别,其计算公式为:
召回率反映正确识别出的正样本占所有正样本的比例, 直观地反映模型的覆盖面,其计算公式为:
平均精确率(average precision,AP)PAP主要用于衡量预测框和真实框之间的匹配程度。在目标检测任务中,通常通过计算精确率-召回率曲线下的面积来评估模型性能。该曲线展示了在不同的置信度阈值下,精确率和召回率之间的关系,其计算公式为:
全类别平均精确率(mean average precision, MAP)PMAP是一个相对综合的指标,同时考虑了模型在不同类别上的表现。通常情况下,MAP越高表示模型的性能越好。对每个类别(i=1, …, m)的AP取平均即可得到MAP,其计算公式为:
-
为了验证改进算法对红外目标的有效性,进行了一系列消融实验,结果如表 2所示。在这些实验中,实验以YOLOv5s作为基准算法,并使用MAP两个评价指标来评估实验效果。表中,“√”表示针对原始算法进行的改进点,以下IOU阈值均大于0.5。分别进行了A、B、C、D 4组消融实验。
model +head BiFPN CA EIOU MAP/% YOLOv5s 81.1 A √ 83.9 B √ √ 84.5 C √ √ √ 84.8 D √ √ √ √ 85.4 Table 2. Improved Yolov5 ablation experimental data
由表 2可以看出,A组实验添加了一个额外的检测层,虽然增加了算法的计算量,但是增加了一个额外的预测层,MAP相比于原始的算法提升了2.8%,额外检测层增加了对小目标的检测能力。B组实验在A组实验的基础上,替换了原始YOLOv5s算法的特征融合网络使用了BiFPN,模型的MAP比A组实验提升了0.6%,BiFPN可以更好地处理多尺度目标检测问题,同时提高检测精度。C组实验在前两组实验的基础上增加了CA模块,MAP相比C组实验提升了0.3%。D组实验在C组实验的基础上修改了损失函数,实验表明:该改进方法比C组方案的MAP提升了0.6%。
总体来讲,每项算法的优化对最终的结果都是正向促进作用,4项算法的组合改动同时应用使该算法的MAP达到最优。
-
为评估在FLIR数据集上的性能,本文中对当前主流的一阶段和二阶段网络模型进行了训练和测试。全面考虑了精确度P、召回率R、MAP、模型参数量、模型大小、模型计算量(亿浮点计算数)(billion floating point operation, BFLOP)以及检测速率等指标,以验证不同模型的可行性。实验结果如表 3所示,选用了faster R-CNN、SSD、YOLOv3-tiny、YOLOv4、YOLOv5s、YOLOv5s-p2和本文作者改进的YOLOv5s进行对比实验。faster R-CNN是最为典型的两阶段目标检测模型,在对比实验中无论是参数量还是计算量都是最多的,MAP高于SSD、YOLOv3-tiny和YOLOv4。由于SSD对小目标的检测效果并不理想,MAP并不是很高,同时参数量和计算量也很高。YOLOv3-tiny是上述实验中单张检测速度最快的,在NVIDIA RTX 3090上检测速率是205 frame/s,但是模型的MAP是最低的。改进YOLOv5s模型的MAP比YOLOv3-tiny高26.4%。如表 3所示,相比于原始的YOLOv5s以及添加了额外的小目标预测层的YOLOv5s-p2,虽然改进YOLOv5s的检测速度和计算量有所损失,但其MAP分别提升了4.2%和3.4%。改进的YOLOv5s权衡了模型的检测速度、参数量和计算量,提高了模型MAP,为其在嵌入式设备上部署提供了可能性。
model P/% R/% MAP/% parameter/106 size/Mbyte speed/(frame·s-1) BFLOP faster R-CNN 63.9 53.7 80.4 99.2 330.6 33 440.3 SSD 71.8 34.7 71.8 91.7 182.2 64 190.7 YOLOv3-tiny 72.1 52.4 58.9 8.6 17.4 205 12.9 YOLOv4 79.3 66.5 74.9 9.1 18.7 101 20.6 YOLOv5s 82.6 71.0 81.1 7.0 14.4 116 15.8 YOLOv5s-p2 85.3 72.8 81.9 7.1 15.5 113 18.6 our 86.9 74.4 85.3 7.2 15.8 106 19.0 Table 3. Comparison of detection performance of different models
为了评估改进后的YOLOv5s在小目标检测方面的性能,本文中按目标尺度划分数据集为小、中、大3类。小目标被定义为像素小于32 pixel×32 pixel的目标,大目标则为尺寸大于96 pixel×96 pixel的目标,而介于两者之间的目标被归为中目标。这分类策略有助于细致地检验模型在不同尺度目标上的表现。表 4中的实验结果验证了在添加额外的预测层、修改特征融合网络以及替换原始的损失函数后模型对于FLIR数据集中的小目标检测能力。从表 4可以看出,改进后模型相对于原始模型对小、中、大目标的MAP分别提高了8.5%、1.1%和0.8%,其中小目标的检测指标增幅最大,达到8.5%。
model MAP/% small medium large YOLOv5s 71.3 95.2 94.4 our method 79.8 96.3 95.2 Table 4. Comparison of detection indicators of different sizes
图 5是红外目标在4个不同的场景下的检测效果。由图 5a和图 5b的场景可以看出,改进后的模型能够检测出红外图像道路中小目标的行人目标;根据图 5c和图 5d检测效果图可以看出,当图像中的行人目标出现重叠、目标紧密连接或者车辆目标的特征信息不强时,原始模型会出现错检漏检的情况,而经过改进的YOLOv5s对遮挡目标以及尺寸小的目标都能很好地预测出它在图像中的位置,并准确分类出其类别,达到了在红外场景下进行准确的目标检测需求。