高级检索

ISSN1001-3806CN51-1125/TN 网站地图

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于改进YOLOX算法的X射线图像违禁品检测方法

袁金豪 张南峰 阮洁珊 高向东

引用本文:
Citation:

基于改进YOLOX算法的X射线图像违禁品检测方法

    作者简介: 袁金豪(1997-), 男, 硕士研究生, 主要从事机器学习方面的研究.
    通讯作者: 高向东, gaoxd@gdut.edu.cn
  • 基金项目:

    广州市技术创新发展专项基金资助项目 202002020068

  • 中图分类号: TP391.4

Detection of prohibited items in X-ray images based on modified YOLOX algorithm

    Corresponding author: GAO Xiangdong, gaoxd@gdut.edu.cn
  • CLC number: TP391.4

  • 摘要: 为了实现自动检测X射线图像中的违禁品, 解决相互遮挡、目标相近和小目标违禁品检测难的问题, 提出一种基于改进的你只观察一次(YOLOX)算法的X射线图像违禁品检测方法。首先在YOLOX的主干网络低层中引入使用大核注意力构建的空间注意力, 提取低层特征图的远距离依赖信息和纹理信息, 之后在主干网络的中层和高层增加卷积块的注意力模块以增强感兴趣区域信息并抑制无用信息; 该方法在公开的安全检查X射线数据集上进行实验, 同时为改善模型的鲁棒性, 在训练前70个周期使用Mosaic数据增强方法。结果表明, 改进的模型较基本模型增加少量的参数和计算量, 均值平均精度增加2.45%, 提升到87.88%, 平均推理速率为58.5 frame/s。该研究为即时自动检测X射线图像中违禁品提供了有益的参考。
  • 图 1  改进后用于违禁品检测的YOLOX网络结构

    Figure 1.  Improved YOLOX network structure for prohibited items detection

    图 2  用于违禁品检测的YOLO head结构

    Figure 2.  YOLO head structure for prohibited items detection

    图 3  大核卷积分解图

    Figure 3.  Decomposition diagram of large-kernel convolution

    图 4  用于违禁品检测的SA结构

    Figure 4.  SA structure for prohibited items detection

    图 5  CBAM模块构成图

    a—通道注意力模块  b—空间注意力模块  c—CBAM结构

    Figure 5.  Composition graph of CBAM module

    a—channel attention module   b—spatial attention module   c—CBAM structure

    图 6  5种模型训练损失曲线

    Figure 6.  Training loss curves of five models

    图 7  5种模型测试的mAP曲线

    Figure 7.  mAP curves tested with five models

    图 8  5种模型的部分检测结果

    Figure 8.  Partial detection results of five models

    图 9  基本模型与改进模型的训练损失和测试mAP曲线图

    Figure 9.  Training loss and test mAP curves of basic model and improved model

    图 10  实拍实验的部分检测结果

    Figure 10.  Partial detection results from the real-shot test

    表 1  SIXray数据集中各类违禁品的数量

    Table 1.  Number of various contraband items in SIXray dataset

    category gun knife wrench pliers scissors
    count 3498 2126 2144 3787 811
    下载: 导出CSV

    表 2  5种模型的检测性能

    Table 2.  Detection performance of five models

    model total params FLOPS mAP/% inference velocity/(frame·s-1)
    YOLOX 8.93×106 13.32×109 85.43 66.1
    YOLOXLKA 8.94×106 13.67×109 85.99 63.7
    YOLOXSA 8.95×106 13.89×109 86.63 60.7
    YOLOXCBAM 9.07×106 13.32×109 87.15 62.1
    YOLOXSA+CBAM 9.08×106 13.91×109 87.88 58.5
    下载: 导出CSV

    表 3  5种违禁品的查准率

    Table 3.  Precision of five kinds of prohibited items/%

    model gun knife wrench pliers scissors
    YOLOX 97.35 94.89 83.35 91.19 90.00
    YOLOXSA+CBAM 96.51 91.36 86.44 93.94 84.14
    下载: 导出CSV

    表 4  5种违禁品的查全率

    Table 4.  Recall of five kinds of prohibited items/%

    model gun knife wrench pliers scissors
    YOLOX 91.16 72.09 63.83 73.85 70.09
    YOLOXSA+CBAM 93.31 77.65 73.94 79.34 76.01
    下载: 导出CSV

    表 5  5种违禁品的平均精度

    Table 5.  Average precision of five kinds of prohibited items/%

    model gun knife wrench pliers scissors
    YOLOX 96.40 84.69 77.52 86.29 82.26
    YOLOXSA+CBAM 97.00 85.08 83.47 89.13 84.70
    下载: 导出CSV
  • [1] 季玉坤, 高向东, 刘倩雯, 等. 焊接缺陷磁光成像卷积神经网络识别方法[J]. 仪器仪表学报, 2021, 42(2): 107-113.

    JI Y K, GAO X D, LIU Q W, et al. Weld defect recognition method with magneto-optical imaging based on convolutional neural network[J]. Chinese Journal of Scientific Instrument, 2021, 42(2): 107-113(in Chinese). 
    [2] 裴瑞景, 王硕, 王华英. 基于改进YOLOv4算法的水果识别检测研究[J]. 激光技术, 2023, 47(3): 400-406.

    PEI R J, WANG Sh, WANG H Y. Research on fruit recognition detection algorithm based on improved YOLOv4[J]. Laser Technology, 2023, 47(3): 400-406(in Chinese). 
    [3] 李宇豪, 吕晓琪, 谷宇, 等. 基于改进S3FD网络的人脸检测算法[J]. 激光技术, 2021, 45(6): 722-728.

    LI Y H, LV X Q, GU Y, et al. Face detection algorithm based on improved S3FD network[J]. Laser Technology, 2021, 45(6): 722-728 (in Chinese). 
    [4]

    CHEN J Q, WANG T, GAO X D, et al. Real-time monitoring of high-power disk laser welding based on support vector machine[J]. Computers in Industry, 2018, 94(C): 75-81.
    [5]

    GAO X D, ZHANG Y X. Monitoring of welding status by molten pool morphology during high-power disk laser welding[J]. Optik—International Journal for Light and Electron Optics, 2015, 126(19): 1797-1802. doi: 10.1016/j.ijleo.2015.04.060
    [6] 梁添汾, 张南峰, 张艳喜, 等. 违禁品X光图像检测技术应用研究进展综述[J]. 计算机工程与应用, 2021, 57(16): 74-82.

    LIANG T F, ZHANG N F, ZHANG Y X, et al. Summary of research progress on application of prohibited item detection in X-ray images[J]. Computer Engineering and Applications, 2021, 57(16): 74-82(in Chinese). 
    [7]

    GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2014: 580-587.
    [8]

    REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
    [9]

    REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2016: 779-788.
    [10]

    REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. (2018-04-08)[2022-07-14]. https://arxiv.org/abs/1804.02767.
    [11]

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Long Beach, CA, USA: Neural Information Processing Systems Foundation, 2017: 5999-6009.
    [12]

    LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[EB/OL]. (2021-08-17)[2022-07-14]. https://arxiv.org/abs/2103.14030.
    [13]

    CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]// Lecture Notes in Computer Science. Cham, Switzerland: Springer International Publishing, 2020: 213-229.
    [14]

    SUBRAMANI M, RAJADUARI K, CHOUDHURY S D, et al. Eva-luating one stage detector architecture of convolutional neural network for threat object detection using X-ray baggage security imaging[J]. Revue d'Intelligence Artificielle, 2020, 34(4): 495-500.
    [15]

    MIAO C J, XIE L G, WAN F, et al. SIXray: A large-scale security inspection X-ray benchmark for prohibited item Discovery in overlapping images[C]// IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2019: 2114-2019.
    [16] 郭守向, 张良. YOLO-C: 基于单阶段网络的X光图像违禁品检测[J]. 激光与光电子学进展, 2021, 58(8): 0810003.

    GUO Sh X, ZHANG L. YOLO-C: One-stage network for prohibited items detection within X-ray images[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810003(in Chinese). 
    [17] 穆思奇, 林进健, 汪海泉, 等. 基于改进YOLOv4的X射线图像违禁品检测算法[J]. 兵工学报, 2021, 42(12): 2675-2683.

    MU S Q, LIN J J, WANG H Q, et al. An algorithm for detecting prohibited items in X-ray images based on improved YOLOv4[J]. Acta Armamentarii, 2021, 42(12): 2675-2683(in Chinese). 
    [18]

    GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO series in 2021[EB/OL]. (2021-08-06)[2022-07-14]. https://arxiv.org/abs/2107.08430.
    [19]

    GUO M, LU C, LIU Z, et al. Visual attention network[EB/OL]. (2022-07-11)[2022-07-14]. https://arxiv.org/abs/2202.09741.
    [20]

    WOO S H, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]// Lecture Notes in Computer Science. Cham, Switzerland: Springer International Publishing, 2018: 3-19.
  • [1] 田师思姜红齐恒慧王一端满吉 . X射线荧光光谱法结合优化k均值检验墨粉的研究. 激光技术, 2021, 45(4): 530-534. doi: 10.7510/jgjs.issn.1001-3806.2021.04.019
    [2] 潘李琳邵剑飞 . 融合图注意力的多分辨率点云补全. 激光技术, 2023, 47(5): 700-707. doi: 10.7510/jgjs.issn.1001-3806.2023.05.019
    [3] 刘利锋肖沙里钱家渝 . 基于球面晶体背光成像系统的性能模拟研究. 激光技术, 2017, 41(1): 6-9. doi: 10.7510/jgjs.issn.1001-3806.2017.01.002
    [4] 姜红王欣徐乐乐朱晓晗 . X射线荧光光谱结合多元统计学检验纸张灰烬. 激光技术, 2021, 45(3): 318-321. doi: 10.7510/jgjs.issn.1001-3806.2021.03.009
    [5] 朱新旺王新兵傅焰峰卢彦兆石玉华 . CO2激光等离子体极紫外光源收集镜研究. 激光技术, 2010, 34(6): 725-728. doi: 10.3969/j.issn.1001-3806.2010.06.002
    [6] 贺大经 . 核能泵浦的x射线激光器问世. 激光技术, 1981, 5(2): 63-63.
    [7] 谈爱玲赵勇史锦珊 . 基于MATLAB的单光阱光镊中光阱力的分析. 激光技术, 2004, 28(4): 373-375,400.
    [8] 朱彦旭杜志娟刘飞飞于宁王岳华宋会会王红航 . GaN基微腔传感器悬空隔膜的力电转换的ANSYS研究. 激光技术, 2016, 40(6): 791-795. doi: 10.7510/jgjs.issn.1001-3806.2016.06.004
    [9] 徐荣青陆建倪晓武杨克成程祖海 . 光场力对烧蚀物时空分布的影响. 激光技术, 2003, 27(3): 202-204.
    [10] 张新陆程元丽王骐 . X射线激光在柱状等离子体中的传播与放大. 激光技术, 2002, 26(3): 221-222.
    [11] 张新陆王骐程元丽 . 毛细管放电软X射线激光传播的解析研究. 激光技术, 2002, 26(5): 392-393,397.
    [12] 雷洁红段浩邢丕峰唐永建 . 常用间隔层材料软X射线多层膜的设计. 激光技术, 2011, 35(3): 415-417. doi: 10.3969/j.issn.1001-3806.2011.03.033
    [13] 郭振华孙文 . 力创辉煌——纪念中国激光器诞生四十周年. 激光技术, 2001, 25(3): 214-217.
    [14] 杨培根 . X射线激光器. 激光技术, 1988, 12(2): 51-54.
    [15] 桑玉蕾刘晓东刘榴黄中琨 . 实体材料的激光3维雕刻射线算法研究. 激光技术, 2011, 35(6): 734-737,755. doi: 10.3969/j.issn.1001-3806.2011.06.003
    [16] 李仲义译朱清风校 . X射线预电离KrF激光器——预电离电子密度对激光输出功率的影响. 激光技术, 1981, 5(1): 41-48.
    [17] 史永基译江德全校 . X射线全息摄影术. 激光技术, 1984, 8(4): 29-29,26.
    [18] 郭振华李再光 . X射线激光武器浅谈. 激光技术, 1985, 9(6): 7-10,16.
    [19] 卢兴发陈德应夏元钦王骐 . 光场感生电离X射线激光. 激光技术, 1999, 23(6): 321-328.
    [20] 吴香伟郭宝峰陈春种沈宏海 . 基于加权组合核RX算法异物检测及其参量选择. 激光技术, 2015, 39(6): 745-750. doi: 10.7510/jgjs.issn.1001-3806.2015.06.003
  • 加载中
图(10) / 表(5)
计量
  • 文章访问数:  1294
  • HTML全文浏览量:  798
  • PDF下载量:  21
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-06-13
  • 录用日期:  2022-07-27
  • 刊出日期:  2023-07-25

基于改进YOLOX算法的X射线图像违禁品检测方法

    通讯作者: 高向东, gaoxd@gdut.edu.cn
    作者简介: 袁金豪(1997-), 男, 硕士研究生, 主要从事机器学习方面的研究
  • 1. 广东工业大学 广东省焊接工程技术研究中心, 广州 510006
  • 2. 黄埔海关技术中心, 东莞 523076
基金项目:  广州市技术创新发展专项基金资助项目 202002020068

摘要: 为了实现自动检测X射线图像中的违禁品, 解决相互遮挡、目标相近和小目标违禁品检测难的问题, 提出一种基于改进的你只观察一次(YOLOX)算法的X射线图像违禁品检测方法。首先在YOLOX的主干网络低层中引入使用大核注意力构建的空间注意力, 提取低层特征图的远距离依赖信息和纹理信息, 之后在主干网络的中层和高层增加卷积块的注意力模块以增强感兴趣区域信息并抑制无用信息; 该方法在公开的安全检查X射线数据集上进行实验, 同时为改善模型的鲁棒性, 在训练前70个周期使用Mosaic数据增强方法。结果表明, 改进的模型较基本模型增加少量的参数和计算量, 均值平均精度增加2.45%, 提升到87.88%, 平均推理速率为58.5 frame/s。该研究为即时自动检测X射线图像中违禁品提供了有益的参考。

English Abstract

    • 伴随着经济的快速增长,国内的公共交通建设得到飞速发展,人们的出行从未如此便捷与频繁;由于公共交通人流密集,如果发生恐怖袭击事件,后果不堪设想。目前效果显著的措施是从根源上控制违禁品带入公共场所,该方法使用X射线安检机扫描行李包裹得到X射线图像,再由安检人员观察X射线图像将违禁品筛查出来,这十分依赖安检人员的业务能力;但长时间专注地观察会使安检人员产生视觉疲劳和工作惰性,这将增高误检率与漏检率,产生安全隐患。近年来,深度学习技术在众多领域表现出优秀的性能[1-5],将目标检测技术应用在违禁品的检测已成为研究热点之一[6]

      目前,应用广泛的目标检测模型是在卷积神经网络(convolutional neural network, CNN)基础上开发的。CNN模型按照推理流程大致分为两类:区域卷积神经网络(region convolutional neural network, RCNN[7])和更快的RCNN[8]是典型的两阶段模型;以你只观察一次(you only look once, YOLO)系列(YOLOv1[9]、YOLOv3[10])为代表的单阶段模型。前者推理过程大致为先提取区域建议框、再做目标分类和位置回归两阶段,后者直接做目标分类和位置回归;一般来说,前者精度更高,后者检测速度更快。近几年,受基于变形器算法[11]的模型在自然语言处理任务上成功地激励,LIU等人[12]尝试扩展变形器算法的通用性,使其能够成为像CNN一样的通用主干;CARION等人[13]结合CNN和变形器算法提出一种端到端目标检测模型;基于变形器算法的目标检测模型会成为目标检测的另一选择。

      目前,许多研究者将目标检测方法以及改进的算法应用到X射线图像违禁品的检测上。SUBRAMANI等人[14]提出以Inception v3为主干网络的单发多盒探测器模型(single shot multibox detector, SSD), 该主干网络使用迁移学习后,模型再在安全检查X射线数据集(security inspection X-ray, SIXray[15])进行训练并测试,实现均值平均精度(mean average precision, mAP)为60.8%的测试结果。GUO等人[16]在YOLOv3基础上,结合复合骨干网络思想构建的YOLO-C网络在SIXray数据集上得到73.68%的mAP,推理速率达到40 frame/s。MU等人[17]基于YOLOv4模型,设计了一种空洞密集卷积模块,增大了卷积核的感受野并提高特征提取能力;再对融合后的特征信息加入注意力机制以区分有效特征和无效特征,在SIXray数据集上获得80.16%的mAP,推理速率为25 frame/s。以上改进算法对X射线违禁品检测速度较快的精度较低,而精度较高的检测速度却较慢。

      许多研究者在增加少量参数和运算成本前提下,提出在目标检测算法中增加各种功能模块来提升模型的检测精度。受此启发,本文作者提出一种基于改进YOLOX[18]算法的X射线图像违禁品检测方法,具体工作为以下3个方面:(1) 为充分利用图像的低层特征信息,在主干网络的前端加入大核注意力[19](larger kernel attention, LKA);(2)为防止低层纹理信息丢失,结合残差思想,使用LKA构建了空间注意力(spatial attention, SA),在主干网络中替换LKA;(3)为提高模型检测精度,在主干网络的中层和高层增加卷积块的注意力模块[20](convolutional block attention module, CBAM)。

    • 改进后用于违禁品检测的YOLOX网络结构如图 1所示,大致分为以下3个部分:(1)主干网络。对输入X射线图像做基本的特征提取,可以得到3个有效特征层,依次从中间层、中高层、高层输出;(2)颈部网络。模型的颈部先利用特征金字塔网络(feature pyramid network, FPN)进行特征融合,再使用路径增强网络(path aggregation network, PAN)进行特征聚合;对主干网络输出的3个有效特征层进行特征融合与聚合,得到3个增强后的有效特征层;(3)预测网络。预测网络的检测头使用与其它YOLO模型不同的YOLO head,该检测头将预测框的类别、判断预测框是前景还是背景、预测框坐标进行解耦,再进行预测,结构如图 2所示。图中,SA为空间注意力模块,CSP1为1个交叉跨级局部模块(cross stage partial),CSP3为3个交叉跨级局部模块,CBS为卷积归一激活模块(convolution batch normalization SiLU),SPP为空间金字塔池化模块(spatial pyramid pooling)。

      图  1  改进后用于违禁品检测的YOLOX网络结构

      Figure 1.  Improved YOLOX network structure for prohibited items detection

      图  2  用于违禁品检测的YOLO head结构

      Figure 2.  YOLO head structure for prohibited items detection

    • 主干网络对输入X射线图像进行5次下采样并提取有效特征层,主干网络先后使用:focus模块对输入X射线图像进行2倍下采样并在通道上扩充4倍,下采样过程不会丢失信息;使用由LKA构建的SA模块提取低层特征图的远距离依赖信息和低层纹理信息;利用包含残差结构的交叉跨级局部模块(CSP)增大网络的深度,增强网络的梯度信息并防止梯度爆炸和梯度弥散;卷积归一激活模块(CBS)是网络中最基本的功能模块,该模块利用卷积层提取特征、经批归一化层(batch normalization, BN)做归一化处理、再使用SiLU激活函数进行非线性转换;为改善特征图的尺寸不变性,使用空间金字塔池化模块(SPP);利用CBAM模块增强感兴趣信息并抑制无用信息;通过主干网络得到3个有效特征层。为充分使用主干网络提取的有效特征层,使用FPN+PAN的网络结构,使用FPN对主干网络得到的有效特征层自上而下进行上采样,其再与主干网络的有效特征层进行特征融合,融合后的特征层再经PAN自下而上进行下采样,其再与融合后的特征层进行特征聚合,得到增强后的3个有效特征层输入到预测网络。预测网络将增强后的有效特征层进行解耦操作,将分类问题(目标的种类)和回归问题(目标置信度和预测框位置)分别处理,再将所有处理过的特征图进行整合用于预测。

    • 为获取低层特征图的长距离依赖信息,通常利用大卷积核对特征图进行特征提取,这将导致参数量和计算量显著增多,于是将大卷积核进行分解,如图 3所示,将K×K的大核卷积分解为3个部分:(1)一个(K/d)×(K/d)的深度膨胀卷积(depth-wise dilation convolution, DW-D-conv),其膨胀系数为d;(2)一个(2d-1)×(2d-1)的深度卷积(depth-wise convolution, DW-conv);(3)一个1×1卷积(conv1×1)。图 3中将13×13的卷积分解为5×5的DW-conv、5×5膨胀率为3的DW-D-conv和1×1的conv1×1,包含中心点的1/4。

      图  3  大核卷积分解图

      Figure 3.  Decomposition diagram of large-kernel convolution

      大核注意力的数学表达式为:

      $ W=\operatorname{conv}_{1 \times 1}(\mathrm{DW}-\mathrm{D}-\operatorname{conv}(\mathrm{DW}-\operatorname{conv}(I))) $

      (1)

      $ O=W \times I $

      (2)

      式中,I为输入特征图,W是大核注意力计算得到的权重,O为输出特征图。

    • 为防止特征丢失,结合残差思想,使用LKA构建的SA模块如图 4所示。使用的conv将输入特征图通道方向信息进行聚合,经过SiLU激活函数非线性处理可以增强网络表征能力,通过LKA模块提取特征图的长距离依赖信息,再经1×1的conv将通道信息整合;为防止丢失输入特征图的局部信息,将处理过的特征图与原始特征图进行逐元素相加。SA模块加在基本模型主干网络的focus模块后。

      图  4  用于违禁品检测的SA结构

      Figure 4.  SA structure for prohibited items detection

    • CBAM是一种能够增强有用特征,抑制不必要信息的功能模块,其利用通道注意力模块(channel attention module, CAM)在通道方向上关注信息“是什么”,并使用空间注意力模块(spatial attention module, SAM)在空间方向上关注信息“在哪里”,图 5所示为该模块构成图。CBAM模块能够使网络倾向关注目标区域,增强感兴趣区域的有用信息,抑制无用信息;该模块分别加在基本模型主干网络的第1个CSP3模块后和第2个CSP1模块后,经过该模块处理后的特征图作为有效特征层输出。

      图  5  CBAM模块构成图

      Figure 5.  Composition graph of CBAM module

    • 实验的模型都是基于Pytorch框架搭建的,实验硬件为:CPU为Intel Core i5-11400、GPU为Nvidia Geforce RTX3060。采用的X射线图像数据集是2019年公开的SIXray[15]数据集,实验数据集是从中挑选8908张含有违禁品的图像构成的,其中违禁品包含手枪、小刀、扳手、钳子、剪刀5类,各类违禁品数量如表 1所示。为改善模型泛化的能力,在训练前70个周期使用Mosaic数据增强,该方法随机从训练数据集中选取4张经过色域变化、翻转、缩放等变换操作的图像合成一张训练图像。

      表 1  SIXray数据集中各类违禁品的数量

      Table 1.  Number of various contraband items in SIXray dataset

      category gun knife wrench pliers scissors
      count 3498 2126 2144 3787 811
    • 将实验数据集随机打乱,前70%组成训练集,后30%构成测试集,由于权重只在模型训练阶段更新,为使训练集数据利用最大化,将训练集中1%用作验证集;训练策略为:随机初始化训练,初始学习率为0.001,学习率更新策略选用等间隔调整并设置间隔步长为4并且更新倍率为0.92,批处理大小设为8,优化器选用自适应矩估计算法(adaptive moment estimation, Adam),训练迭代周期为100,Mosaic数据增强方法在第71个周期关闭。为验证模型改进的有效性,所有的模型训练策略全部保持一致。

    • 采用测试集的mAP值用来评判模型的优劣,mAP的计算公式定义为:

      $ P=T_{\mathrm{p}} /\left(T_{\mathrm{p}}+F_{\mathrm{p}}\right) \times 100 \% $

      (3)

      $ R=T_{\mathrm{p}} /\left(T_{\mathrm{p}}+F_{\mathrm{n}}\right) \times 100 \% $

      (4)

      $ A_{\mathrm{p}}=\int_0^1 P(R) \mathrm{d} R $

      (5)

      $ M=\frac{1}{N_{\mathrm{c}}} \sum\limits_{n=1}^{N_{\mathrm{c}}} A_{\mathrm{p}}(n) $

      (6)

      式中,Tp为预测正确的数量;Fp为预测错误的数量;Fn为未被检测出来的数量;P为查准率;R为查全率;Ap是平均精度;Ap(n)是第n类违禁品的平均精度;Nc是违禁品类别总数;M为计算得到的mAP值。

      评价指标还使用评判模型推理速度的指标,代表模型每秒能够处理的图像数、模型总参数量表示模型的大小和模型计算量(floating point operations per second, FLOPS)用于代表模型的计算复杂度。

    • 为验证前述提到的功能模块在YOLOX模型中的有效性,先后将各模块加入到主干网络中,为提供参考,将原YOLOX模型作为基本模型,将加入LKA模块的模型记为YOLOXLKA、加入SA模块的模型记为YOLOXSA、加入CBAM模块的模型记为YOLOXCBAM、同时加入SA和CBAM模块的模型记为YOLOXSA+CBAM图 6所示为上述5种模型的损失函数曲线图。图中, 纵坐标值已取对数,横纵坐标无单位。曲线均呈下降趋势,在第71个周期关闭Mosaic数据增强后,损失值有所上升,这是由于训练图像发生变化;加入的各模块都能使模型损失值收敛地更小,且受到功能模块数量影响。

      图  6  5种模型训练损失曲线

      Figure 6.  Training loss curves of five models

      为验证各模型的检测效果,使用前述5种模型所有的训练参数在测试集上进行违禁品检测,检测精度曲线如图 7所示,横坐标无单位。各模型测试的mAP都随训练周期呈上升趋势,且mAP与损失成相反关系,损失收敛地越小,mAP值越大;加入的功能模块对检测精度都有不同程度的提高,与期望结果相吻合。

      图  7  5种模型测试的mAP曲线

      Figure 7.  mAP curves tested with five models

    • 前述5种模型得到的最佳模型参数指标如表 2所示。通过在基本模型主干网络中加入各功能模块,均在一定程度上增加模型的检测精度,增加功能模块会导致总参数量和计算复杂度增加,相应地会降低推理速度。所提改进的方法较基本模型仅增加0.15×106参数量和0.59×109计算量,mAP得到2.45%的提高,推理速率每秒下降7.6帧,这是可以接受的。

      表 2  5种模型的检测性能

      Table 2.  Detection performance of five models

      model total params FLOPS mAP/% inference velocity/(frame·s-1)
      YOLOX 8.93×106 13.32×109 85.43 66.1
      YOLOXLKA 8.94×106 13.67×109 85.99 63.7
      YOLOXSA 8.95×106 13.89×109 86.63 60.7
      YOLOXCBAM 9.07×106 13.32×109 87.15 62.1
      YOLOXSA+CBAM 9.08×106 13.91×109 87.88 58.5

      对比基本模型与所提改进方法的检测性能,5种违禁品在目标置信度为0.5的查准率、查全率如表 3表 4所示,平均精度如表 5所示。在X射线检测违禁品领域,查准率可以反映误检率,查全率反映漏检率;查准率越高,误检率就越低,同理,查全率越高,漏检率就越低。改进方法在前述5类违禁品的查准率有提高也有降低,但在5类违禁品的查全率上都有显著提高,手枪、小刀、扳手、钳子、剪刀的查全率分别提高了2.15%、5.56%、10.11%、5.49%、5.92%;同时,5类违禁品检测的平均精度也都得到相应提高。由于检测任务的特殊性,应该尽量降低漏检率,即提高查全率,改进方法能够很好地改善该类问题,体现有效性。

      表 3  5种违禁品的查准率

      Table 3.  Precision of five kinds of prohibited items/%

      model gun knife wrench pliers scissors
      YOLOX 97.35 94.89 83.35 91.19 90.00
      YOLOXSA+CBAM 96.51 91.36 86.44 93.94 84.14

      表 4  5种违禁品的查全率

      Table 4.  Recall of five kinds of prohibited items/%

      model gun knife wrench pliers scissors
      YOLOX 91.16 72.09 63.83 73.85 70.09
      YOLOXSA+CBAM 93.31 77.65 73.94 79.34 76.01

      表 5  5种违禁品的平均精度

      Table 5.  Average precision of five kinds of prohibited items/%

      model gun knife wrench pliers scissors
      YOLOX 96.40 84.69 77.52 86.29 82.26
      YOLOXSA+CBAM 97.00 85.08 83.47 89.13 84.70
    • 为验证前述功能模块的作用,部分检测结果可视化如图 8所示。从图中可直观看出,在基本模型的主干中加入各不同功能模块,能够使模型的检测效果有不同程度的提升。由于LKA关注远距离依赖信息,从第1行中可以发现,加入LKA能够提高模型对相互遮挡的违禁品检测效果;SA会保留低层纹理信息,从第2行中可以发现,SA模块能够提高模型对相近违禁品检测效果;由于CBAM增强感兴趣区域,从第3行中可以发现,CBAM能够提高模型对小目标违禁品的检测效果;从第4行可以发现,结合使用SA和CBAM能够使模型对违禁品的检测效果更佳。

      图  8  5种模型的部分检测结果

      Figure 8.  Partial detection results of five models

    • 为验证改进模型的普遍适用性,使用单能X射线安检机采集了1948张实验图像,其中违禁品类别为小刀、剪刀、扳手、手枪、螺丝刀。由于采集到的实验图像与前述数据集存在较大差异,在得到的参数基础上将模型进行迁移学习,训练策略中的学习率更新间隔步长设为1、训练周期为20,其它参数不变。图 9为基本模型和改进模型的训练损失与测试mAP曲线图。图中的训练损失和测试mAP曲线的关系与前述总结一致,且改进模型的检测精度比基本模型高。

      图  9  基本模型与改进模型的训练损失和测试mAP曲线图

      Figure 9.  Training loss and test mAP curves of basic model and improved model

      实拍实验的部分检测结果如图 10所示。从图 10中可以发现,改进模型对相互遮挡目标的检测效果的确优于基本模型,同时检测效果更佳,与前述所得结果相同。

      图  10  实拍实验的部分检测结果

      Figure 10.  Partial detection results from the real-shot test

    • 基于YOLOX改进的X射线违禁品目标检测方法,在基本网络的低层引入由LKA构建的SA不仅能够提取低层特征图的远距离依赖信息,同时保留低层特征图的纹理信息,能够改善违禁品中物品相互遮挡和相近的检测问题;通过在基本网络的中层和高层增加CBAM,模型能够增强感兴趣区域信息并抑制无用信息,以改善违禁品中小目标的检测问题。由于违禁品检测任务的特殊性,所提改进的方法相比基本模型大幅提高查全率,能够显著降低漏检率,表明所提方法在违禁品检测任务中是有益的。

参考文献 (20)

目录

    /

    返回文章
    返回