An improved infrared object detection algorithm based on YOLOv5
-
摘要: 为了解决红外图像特征少、对比度不佳导致目标检测时精度低的问题,采用增加一个额外的预测特征层的方法,以提高原始YOLOv5在红外图像中的识别率;通过添加坐标注意力机制,优化红外目标强特征提取,提升检测准确度;再使用双向特征金字塔网络优化特征融合,增强模型表达能力,降低冗余计算;最后解决检测定位差和边界框回归任务中样本不平衡,采用focal-EIOU作为模型的边界框损失函数,提高收敛速度,并专注于高质量的锚框回归。结果表明,改进的YOLOv5在FLIR数据集上的准确率达到了85.3%,相比于原始网络模型提高了4.2%,具有较高的检测准确率。这一结果为在嵌入式设备上部署该软件提供了可行性。Abstract: To address the issues of low recognition accuracy, lack of infrared image features, and poor contrast affecting object detection, several improvements to the original YOLOv5 model were proposed. Firstly, an additional prediction feature layer was introduced to enhance the detection capability for small objects in infrared images. Additionally, a coordinate attention mechanism was employed to enhance the extraction of strong features from infrared targets, thereby improving the detection accuracy of the model. Secondly, the feature fusion network was optimized by using a bidirectional feature pyramid network to improve the model's expressive power and reduce redundant computation. Lastly, to tackle the problem of sample imbalance in detection localization and bounding box regression tasks, the focal-EIOU as the loss function was adopted. This accelerates convergence speed and focuses the regression process on high-quality anchor boxes. Experimental results demonstrate that the improved YOLOv5 achieves an accuracy of 85.3% on the FLIR dataset, which is a 4.2% improvement over the original network model. It not only exhibits high detection accuracy but also provides feasibility for deployment on embedded devices.
-
0. 引言
空间相机的分辨率与口径成正比,随着科技发展,对于空间大口径反射镜的需求日趋明显。随着反射镜口径的增大,反射膜镀制的难度也急剧提升。热蒸发镀膜过程中存在晶格失配、热膨胀系数失配,这使得完成镀膜工作后,由镀膜温度冷却至室温过程中在“薄膜-基板”系统中存在热应力。当应力过大时会导致反射镜面形产生改变从而严重威胁到“薄膜-基板”系统的稳定性。另外,对于大口径反射镜来说,随着口径的增大,重力对于反射镜面形的影响变得更为明显,反射镜的面形发生变化将极大地增加反射膜的沉积难度。本文中针对热应力及重力对大口径反射镜镀膜的影响进行了仿真分析研究。
1. 生长热应力及重力对反射膜面形的影响
1.1 生长热应力产生的影响
为保证大口径光学元件的面形精度,并避免不必要的风险,镀膜过程中必须将基底温度控制在较低的水平[1-5]。在完成镀膜后,反射镜从镀膜温度冷却到室温后,仍会有一定的热应力存在于反射膜与反射镜基底之间[6],它对反射膜的牢固度会产生很大的威胁。
一般将薄膜应力分为张应力和压应力,如图 1所示。当表现为张应力时,薄膜会产生收缩的趋势。当张应力超过薄膜本身的弹性限度时,会导致膜层破裂甚至脱落。压应力则与之相反,当压应力超过薄膜的弹性限度时,会导致膜层起皱[7-11]。对于Ag膜反射镜,采用热蒸发镀膜方式,从沉积温度冷却至室温的过程中,应力主要表现为张应力,具体表现是薄膜更容易在反射镜边缘部分出现脱落及破损的情况。
1.2 重力对反射膜面形的影响
到目前为止,大口径反射镜主流的镀膜方式仍是采用镜面向下、向上蒸发镀膜材料的方法[12-14]。通过优化反射镜背部固定点的位置,经研究发现,这种镀膜方式对口径在2 m左右的反射镜面形产生的影响仍在可控范围之内[15-18],随着反射镜口径继续增大,由于重力的影响,反射镜面形出现明显的变化,若继续采用镜面向下的镀膜方式,会极大增加镀膜的难度[19],同时严重影响反射膜的牢固度[20]。另外,完成镀膜工作后,反射镜需要进行吊装和镜面翻转[21],在这个过程中,反射镜面以及沉积在镜面上的反射膜,受到的重力方向会产生改变,这种改变带来的反射镜面形变化对于大口径反射镜的反射膜伤害很大,容易造成膜层破裂以及脱落[22-23]。
2. 生长热应力对反射膜影响的仿真研究
2.1 反射膜热应力系统仿真建模
建模工况模拟真实镀膜情况,采用ZZS-2500型箱式真空热蒸发镀膜机,反射镜固定在镀膜机中的镀膜工装上,镀膜工装可绕中心轴旋转且高度可调。旋转速度提高有利于提高膜厚的均匀性,考虑到镀膜机旋转轴的承载能力,最大转速为15 r/min。镀膜时, 蒸发源距离反射镜垂直高度为1.4 m,镀膜工装以15 r/min速度转动,通过修正挡板对膜厚的均匀性进行调整。
针对不同口径反射镜反射膜生长热应力的分布及影响规律进行了以下仿真实验。Ag膜反射镜结构如图 2所示。反射镜基底口径分别设置为600 mm、1200 mm以及2400 mm,对应的基底厚度分别为60 mm、120 mm和240 mm(满足基底厚度∶反射镜口径=10 ∶1的要求)。Ag膜层厚度为100 nm,镀膜温度为200 ℃,环境温度为20 ℃,金属Ag膜的材料参数见表 1。
表 1 Ag膜材料参数Table 1. Material parameters of Ag filmdensity ρ/(kg·m-3) elastic modulus E/GPa Poisson’s ratio μ thermal expansion coefficient A/10-6K-1 coefficient of heat transfer K/(W·m-2·K-1) thermal conductivity κ/(W·m-1·K-1) 10500 73.2 0.38 19.5 429 411 为便于仿真计算,设定基底材料和Ag反射膜是均匀、各向同性的弹性材料,且不考虑周围环境影响。镀膜后,反射镜退火过程在真空镀膜机中完成,与外界无导热及对流。为研究热应力对反射膜本身所产生的面形变化趋势,针对反射膜本身进行仿真,Ag膜反射镜系统模型如图 3所示。基底下表面为z=0 mm平面,原点为基底下表面中心,图中金属灰色为单层银膜,深褐色为基底,划分网格后对模型进行有限元分析。
2.2 生长热应力仿真结果及分析
600 mm、1200 mm、2400 mm口径反射镜每个反射镜的吊装固定点数量为4个,分别设置为反射镜半径的中心位置处,反射镜基底温度设定为室温20 ℃。反射膜热应力仿真结果分别如图 4~图 6所示。从图中可以看出,靠近反射镜边缘部分的反射膜在冷却过程中温度梯度的变化更为剧烈,在冷却过程中释放出更多的应力,因此靠近反射镜边缘位置处,膜层更容易出现剥落和损坏的情况。
根据分析,原因在于应力的变化对反射膜的非球形形变有很大影响,非球形形变不仅发生在反射膜的边缘,而且布满整个镀膜区域,不论应力分布如何,发生在边缘位置的非球形形变,都是随着自由区的增大而增加的,反射镜口径的增大导致边缘部分自由区的增大,因此, 大口径反射镜更容易在边缘区出现膜层破裂、剥落等情况,仿真结果与参考文献[23]中的结论相符。
3. 重力对大口径反射镜基底形变影响的仿真分析
电子束镀膜过程中,反射镜镜面向下,一般采用多点吊挂或套圈吊挂方式。在镀膜实验研究中发现,基底材料不同的反射镜重力相差很大,反射镜自身重力所导致的面形变化会对镀膜工作带来很大影响。另外, 完成反射膜镀制工作后,反射镜的吊装、翻转过程使反射镜所受重力的方向发生变化,重力方向改变会引起反射镜面形产生变化。大口径反射镜由于其口径大、重量大,受重力影响反射镜面形的变化也更为明显,反射膜也有更大的可能出现损坏和脱落。为充分了解大口径反射镜镀膜及吊装、翻转过程中的重力分布,解决反射镜由于其自身重力导致的面形变化对镀膜工作带来的影响,对相同口径、不同基底材料的反射镜进行了重力仿真分析。
3.1 大口径反射镜-膜系统重力仿真建模
由于反射镜口径较大,且反射膜与基底之间的厚度相差过大,反射膜层本身有重力引起的面形变化依赖于基底面形由重力所导致的改变,因此重力仿真针对反射镜基底进行。
反射镜基底材料分别为石英、零膨胀(ultra-low expansion,ULE)玻璃、微晶这3种常用于制备空间反射镜基底的材料,材料参数如表 2所示。
表 2 基底材料及参数Table 2. Base material and its parametersserial number base material density ρ/(kg·m-3) Young’s modulus E/GPa Poisson’s ratio μ 1 quartz 2150 72 0.15 2 ULE 2210 67.6 0.17 3 crystallite 2500 95 0.25 以微晶玻璃基底反射镜为例,反射镜采用微晶玻璃作为基底材料,口径1320 mm、厚度132 mm。设基底下表面为z=0 mm平面,原点为基底下表面中心,反射镜背面外缘均匀分布6个吊挂点,反射镜基底模型如图 7所示。
图 8为有限元模型网格划分后,对反射镜模型施加方向向下(与重力方向相同)的重力载荷并求解。
3.2 重力仿真结果及分析
3.2.1 反射镜镜面向下边缘吊挂方式镀膜
如图 9所示,6点吊挂方式,反射镜面形变化区域主要在镜子中心,由于重力作用,反射镜中心沿重力方向下移,反射镜基底产生明显形变。如果不消除重力影响,会对最终镀膜产品的面形、膜层牢固度等质量产生影响。
对1320 mm口径反射镜采用背部均布6个吊挂点的方式进行重力影响仿真,基底材料为空间反射镜常用的石英、微晶、ULE玻璃,重力仿真结果如图 10~图 15所示。反射镜背部形变主要集中在吊挂点位置处,该位置在镀膜过程中固定无位移,反射镜其余位置受重力影响发生形变。随着基底材料密度的增大,反射镜重量随之增大,反射镜背部边缘位置附近产生的形变也随之增大,镜面支撑点内部区域明显小于边缘处。
相同口径、不同基底材料反射镜重力引起的应力仿真结果与面形仿真结果类似。但图 14中微晶基底反射镜面应力分布与其余3种基底镜面应力分布略有不同,这与微晶材料的泊松比的值更大有关,导致微晶基底材料较其余3种基底材料更容易产生横向变形。
由重力仿真数值分析可知,受反射镜自身重力影响,采用6点边缘吊挂、镜面向下的镀膜方式时,镜面会在重力方向发生形变;这一形变与6点中间区域吊挂产生的形变可以互补。
3.2.2 反射镜镜面向上、底部支撑方式镀膜
大口径反射镜由于镜坯价格昂贵、加工周期长,镀膜过程中反射镜的安全是镀膜最基本要求。光学加工过程一般是镜面向上加工,如果采取镜面向下镀膜,需要进行翻转操作,反转过程会使镜体受力不均衡,如果设计或操作不当容易对镜体产生损坏。
对于大口径反射镜采用镜面向上的镀膜方式能够大大减小镜面翻转带来的风险。镀膜时可采取边缘套圈或多点支撑方式,图 16是3000 mm口径反射镜镜坯外环有12个区域支撑,重力环境下的镜坯变形与应力仿真图。由图可以看出,只进行边缘支撑,同样会引起镜坯产生形变,需要通过仿真设计,优化重力支撑点分布,减小重力影响,如图 17所示。
4. 结论
分别对600 mm、1200 mm、2400 mm不同口径的Ag膜反射镜进行了镀膜热应力有限元仿真,仿真结果表明,靠近反射镜边缘部分的反射膜在冷却过程中温度梯度的变化更为剧烈,在冷却过程中释放出更多的应力,因此在膜层靠近边缘的位置处更容易出现剥落和损坏的情况。另外,随着反射镜口径的增大,热应力也随之增大,因此, 相对于小口径反射镜来说,大口径反射镜的反射膜层更容易出现剥落和损坏的情况。
其次进行了重力对反射镜形变影响的仿真。仿真结果表明,对于大口径反射镜镀膜过程中,如果采取镜面向下的吊挂方式,随着反射镜口径增大,重力会引起反射镜形变,需要进行重力消除处理;通过对相同口径反射镜背部吊挂方式的重力影响仿真,设计了镀膜过程中的消应力背部吊挂装置,通过调整,可以达到减少重力对大口径反射镜镀膜过程基底形变的影响。应用重力仿真研究成果设计出1320 mm口径反射镜镀膜重力卸载工装。对于3000 mm口径的反射镜,在镀膜过程中,为提升膜层和镀膜后的面形精度,抵消重力影响,同样需要对支撑方式进行优化设计。
-
表 1 训练平台配置
Table 1 Training platform configuration
name configuration information CPU(central processing unit) Intel(R)Core i9-10900X GPU(graphics processing unit) NVIDIA RTX 3090 ×2 framework Pytorch 1.12.1 environments CUDA11.6 CUDNN8.3.2 表 2 改进的YOLOv5消融实验数据
Table 2 Improved Yolov5 ablation experimental data
model +head BiFPN CA EIOU MAP/% YOLOv5s 81.1 A √ 83.9 B √ √ 84.5 C √ √ √ 84.8 D √ √ √ √ 85.4 表 3 不同模型的检测性能对比
Table 3 Comparison of detection performance of different models
model P/% R/% MAP/% parameter/106 size/Mbyte speed/(frame·s-1) BFLOP faster R-CNN 63.9 53.7 80.4 99.2 330.6 33 440.3 SSD 71.8 34.7 71.8 91.7 182.2 64 190.7 YOLOv3-tiny 72.1 52.4 58.9 8.6 17.4 205 12.9 YOLOv4 79.3 66.5 74.9 9.1 18.7 101 20.6 YOLOv5s 82.6 71.0 81.1 7.0 14.4 116 15.8 YOLOv5s-p2 85.3 72.8 81.9 7.1 15.5 113 18.6 our 86.9 74.4 85.3 7.2 15.8 106 19.0 表 4 不同尺寸的检测指标对比
Table 4 Comparison of detection indicators of different sizes
model MAP/% small medium large YOLOv5s 71.3 95.2 94.4 our method 79.8 96.3 95.2 -
[1] 李其昌, 李兵伟, 王宏臣. 非制冷红外成像技术发展动态及其军事应用[J]. 军民两用技术与产品, 2016, 42(21): 54-57. DOI: 10.3969/j.issn.1009-8119.2016.21.029 LI Q Ch, LI B W, WANG H Ch. Development trends and military applications of uncooled infrared imaging technology[J]. Dual Use Technologies & Products, 2016, 42(21): 54-57(in Chinese). DOI: 10.3969/j.issn.1009-8119.2016.21.029
[2] 侯春萍, 张倩文, 王晓燕, 等. 轮廓匹配的复杂背景中目标检测算法[J]. 哈尔滨工业大学学报, 2020, 52(5): 121-128. https://www.cnki.com.cn/Article/CJFDTOTAL-HEBX202005018.htm HOU C P, ZHANG Q W, WANG X Y, et al. Object detection algorithm in complex background based on contour matching[J]. Journal of Harbin Institute of Technology, 2020, 52(5): 121-128(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-HEBX202005018.htm
[3] BILAL M, HANIF M S. Benchmark revision for HOG-SVM pedestrian detector through reinvigorated training and evaluation methodologies[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 16(52): 1277-1287.
[4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hie-rarchies for accurate object detection and semantic segmentation[C]// Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE Press, 2014: 277-127.
[5] LI Y, PANG Y, CAO J, et al. Improving single shot object detection with feature scale unmixing[J]. IEEE Transactions on Image Processing, 2021, 30: 2708-2721. DOI: 10.1109/TIP.2020.3048630
[6] CHENG G, YUAN X, YAO X W, et al. Towards large-scale small object detection: Survey and benchmarks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 23(76): 34-46.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE Press, 2016: 779-788.
[8] 张明淳, 牛春晖, 刘力双, 等. 用于无人机探测系统的红外小目标检测算法[J]. 激光技术, 2024, 48(1): 114-120. DOI: 10.7510/jgjs.issn.1001-3806.2024.01.018 ZHANG M Ch, NIU Ch H, LIU L Sh, et al. Infrared small target detection algorithm for unmanned aerial vehicle detection system[J]. Laser Technology, 2024, 48(1): 114-120(in Chinese). DOI: 10.7510/jgjs.issn.1001-3806.2024.01.018
[9] 王云杰, 王艳林, 夏润秋, 等. 大视场红外告警系统中目标高精度方位提取[J]. 激光技术, 2023, 47(2): 200-204. DOI: 10.7510/jgjs.issn.1001-3806.2023.02.007 WANG Y J, WANG Y L, XIA R Q, et al. High precision azimuth extraction of targets in a large field of view infrared warning system[J]. Laser Technology, 2023, 47(2): 200-204(in Chinese). DOI: 10.7510/jgjs.issn.1001-3806.2023.02.007
[10] JIANG P, DAJI E, LIU F, et al. A review of YOLO algorithm deve-lopments[J]. Procedia Computer Science, 2022, 199: 1066-1073. DOI: 10.1016/j.procs.2022.01.135
[11] TERVEN R, CORDOVA-ESPARAZA D M. A comprehensive review of YOLO: From YOLOv1 to YOLOv8 and beyond[J]. arXiv Computer Science, 2023, 4: 2304.00501.
[12] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 75(23): 2004-10934.
[13] ZHANG Y, GUO Zh Y, WU J Q, et al. Real-time vehicle detection based on improved YOLOv5[J]. Sustainability, 2022, 19: 12274-15427.
[14] FANGBO Z, ZHAO H L, NIE Z. Safety helmet detection based on YOLOv5[J]. IEEE International Conference on Power Electronics, Computer Applications, 2021, 34(56): 6-11.
[15] ZHU X K, LYU Sh Ch, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//International Conference on Computer Vision. Québec, Canada: IEEE Press, 2021: 11539.
[16] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE Press, 2021: 13731-13722.
[17] WOO S H, PARK J C, LEE J Y, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision. Munich, Germany: Springer Science Press, 2018: 3-9.
[18] HU J, LI S, SUN G. Squeeze-and-excitation networks[C]//Confe-rence on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE Press, 2018: 7132-7141.
[19] TAN M X, PANG R M, LE Q V. Efficientdet: Scalable and efficient object detection[C]//Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE Press, 2020: 10781-10790.
[20] ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.
[21] 陈旭, 彭冬亮, 谷雨. 基于改进YOLOv5s的无人机图像实时目标检测[J]. 光电工程, 2022, 49(3): 210372. https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202203006.htm CHEN X, PENG D L, GU Y. Real-time objeet detection for UAV images based on improved YOLOv5s[J]. Opto-Electronic Engineering, 2022, 49(3): 210372(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-GDGC202203006.htm