基于VDNet卷积神经网络的羊群计数

杜永兴; 苗晓伟; 秦岭; 李宝山

doi:10.7510/jgjs.issn.1001-3806.2021.05.023

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于VDNet卷积神经网络的羊群计数

内蒙古科技大学信息工程学院，包头 014000

作者简介: 杜永兴(1980-)，男，教授，博士，现主要从事大数据、人工智能、电磁场与微波技术的研究。E-mail: dyxql@imust.edu.cn.

基金项目:

内蒙古自治区自然科学基金资助项目 2019MS06021

内蒙古自治区高等学校青年科技英才计划资助项目 NJYT-19-A15

国家自然科学基金资助项目 61961033

内蒙古自治区科技重大专项资助项目 2019ZD025

中图分类号: TP391.4

Herd counting based on VDNet convolutional neural network

School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014000, China

CLC number: TP391.4

摘要: 为了避免传统羊群计数任务中，羊只之间相互遮挡带来的干扰，提高羊群计数的准确度，采用了视觉几何群(VGG-16)与空洞卷积(DC)相结合的VDNet神经网络羊群计数方法。该方法在网络前端采用去除了全连接层的VGG-16网络提取2-D特征，后端采用6层具有不同空洞率的DC提取更多的高级特征；DC在保持分辨率不变的同时扩大了感受野，替代池化操作，降低了网络的复杂性；最后用一层卷积核大小为1×1的卷积层输出高质量的密度图，通过对密度图像素积分得出输入图片中羊的数量，并进行了理论分析和实验验证。结果表明，VDNet的平均绝对误差为2.51，均方误差为3.74，平均准确率为93%。这一结果对羊群计数任务是有帮助的。

Abstract: In order to avoid the interference of mutual occlusion between sheep in the traditional flock counting task and improve the accuracy of flock counting, the VDNet(VGG-16+DC net) convolutional neural network flock counting method, combining visual geometry group(VGG) 16 and dialated convolution (DC) net, was adopted. VGG-16 with the fully connected layer removed was used at the front end of the network to extract 2-D features, 6 layers of DC with different dilated rates was used to extract more advanced features. DC expanded the receptive field, replaced the pooling operation, and decreased the complexity of the network while kept the resolution unchanged at the same time. The theoretical analysis and experimental verification were carried out. Finally, a convolutional layer with a convolution kernel size of 1×1 was used to output a high-quality density map, and then the number of sheep in the input image was obtained by integrating the pixels of the density map. The results show that the average absolute error of the counting method in this paper is 2.51, the mean square error is 3.74, and the average accuracy is 93%, respectively. This result is helpful for the task of counting sheep.

Key words:

method

MAE

MSE

old method

10.05

13.37

the method in this paper

2.51

3.74

基于VDNet卷积神经网络的羊群计数

作者简介: 杜永兴(1980-)，男，教授，博士，现主要从事大数据、人工智能、电磁场与微波技术的研究。E-mail: dyxql@imust.edu.cn

内蒙古科技大学信息工程学院，包头 014000

收稿日期: 2020-09-09

录用日期: 2020-10-09

网络出版日期: 2021-09-25

基金项目: 内蒙古自治区自然科学基金资助项目 2019MS06021内蒙古自治区高等学校青年科技英才计划资助项目 NJYT-19-A15国家自然科学基金资助项目 61961033内蒙古自治区科技重大专项资助项目 2019ZD025

关键词:

全文HTML

引言

内蒙古大草原作为最佳天然牧场之一，是我国草地分布最广的地区。但是由于牧区缺乏高效的羊群计数的方法，因此相关部门不能对放牧强度作出监管和指导，导致过度放牧。高效的羊群计数方法同时能提高牧民在养殖过程中的工作效率。

近年来研究人员提出了一些有关羊群计数任务的方法。例如传统的基于你只需一次运算(you only look once, YOLO)监测的方法^[1]，这种方法需要提取整张图片的特征，然后进行卷积运算和非极大值抑制处理，得到图片中羊的位置，最终计算出输入图片中羊的数量。这种方法虽然能对羊群进行计数，但是需要检测并框出图片中的每一只羊，因此当羊的密度较大时，由于羊群之间相互遮挡比较严重，所以计数效果较差。ZHANG等人提出了一种基于单片机和射频识别(radio frequency identification, RFID)技术的智能数羊器系统^[2]，该方法首先给每一只羊的耳朵打耳标，然后通过RFID模块对其进行计数，这种方法只适合在羊群入圈和出圈时使用，限制了羊群计数的场地。如果想对羊群进行计数, 必须设有一个让羊有序通过的通道，在羊有序通过的过程中由RFID模块进行计数。但由于通道中能同时通过的羊群是有限的，因此不能快速且高效地对羊群进行计数。

针对目标计数的传统方法有基于监测目标整体的方法^[3]，该类方法使用支持向量机、提升和随机森林等多种分类器结合哈尔小波^[4]、方向梯度直方图(histogram of gradient, HOG)、小边^[5]等特征，使得这种方法在行人、车辆计数等方面进行了初步的应用。后来学者提出了基于部分监测的方法来提高计数的准确度，这类方法主要通过检测目标的部分结构例如人的头部和肩部^[6]来进行计数，无论是哪种基于检测的方法都无法规避目标之间相互遮挡的问题，研究人员提出了基于回归的方法^[7-8]，该类方法首先提取低级特征，然后利用回归模型学习低级特征与人群个数的映射关系，由于不需要检测每一个目标个体，因此与基于检测的方法相比较，计数准确率显著地提高。

近年来，在计算机视觉领域中，卷积神经网络表现出了巨大的优势，研究人员开始尝试在人群计数任务中使用卷积神经网络对高密度场景的人群进行计数^[9-10]。ZHANG等人提出了一种带有不同尺度卷积核的多列卷积来应对密度差异的变化^[11]。WU等人提出了具有不同感受野的两条平行体系结构^[12]，并在公开的数据集上取得了较好的结果。OORO-RUBIO等人使用金字塔图像来提取多个尺度的密度特征^[13]。为了避免景深和遮挡的干扰，LEI提出了一种多模型融合的人群计数算法，并在人群计数任务方面取得了较好的效果^[14]。TANG等人针对复杂开放环境下人群密度估计中的多尺度目标和小目标感知问题, 提出了一种基于特征图融合的多列卷积神经网络的人群密度估计算法^[15]。WANG等人提出了一种带有注意力图的两分支融合模型，用于解决人群计数中比例尺度变化和复杂背景的问题^[16]。WANG等人提出了一种上下文学习网络用于对高密度人群进行计数^[17]。为了让模型适应不同人群密度的场景，WU等人提出了一种自适应场景发现框架，用于对密度不同的人群进行计数^[18]。

使用卷积神经网络的方法在高密度人群计数任务中已经取得了理想的效果。但针对草原上羊群计数的任务，目前还没有相关报道。于是作者提出了一种基于视觉几何群(visual geometry group, VGG)16与空洞卷积(dialated convolution, DC)相结合的卷积神经网络(VGG-16+DC net, VDNet)的羊群计数算法来满足牧民和相关部门的需要。将无人机拍摄的无固定分辨率的彩色图片送入模型，生成对应的羊群分布图，然后对密度图进行像素积分得出图片中羊群的数量，此方法不需要像传统羊群计数方法一样检测并框出图片中的每一只羊，因此在高密度场景下提升了计数准确度。经过实验验证平均准确率为93%。

3. 结论

为了更好地满足牧民和相关部门对羊群计数任务的需求，引入了空洞卷积对高密度羊群进行计数。网络的前端采用VGG-16的前13层，后端采用6层的空洞卷积，最后一层使用1×1的卷积层进行卷积输出密度图。此方法不需要像传统基于YOLO的羊群计数方法一样检测图片中的每一只羊，避免了羊群之间相互遮挡带来的计数准确率下降的问题。经过实验验证，本文中计数的方法平均绝对误差为2.51，均方误差为3.74，平均准确率为93%。

参考文献 (21)

[1]	TIAN L. Design of sheep number detection system[D]. Hohhot: Inner Mongolia University, 2019: 45-57(in Chinese).
[2]	ZHANG L, XU J, TIAN Z, et al. Research and implementation of intelligent counting sheep system in pastoral areas[J]. Telecom Power Technologies, 2017, 34(4): 165-166(in Chinese).
[3]	ENZWEILER M, GAVRILA D, GAVRILA D M. Monocular pedestrian detection: Survey and experiments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2179-2195. doi: 10.1109/TPAMI.2008.260
[4]	JONES M J, SNOW D. Pedestrian detection using boosted features over many frames[C]// International Conference on Pattern Recognition. New York, USA: IEEE, 2008: 8-11.
[5]	WU B, NEVATIA R. Detection and tracking of multiple, partially occluded humans by bayesian combination of edgelet based part detectors[J]. International Journal of Computer Vision, 2007, 75(2): 247-266.
[6]	FELZENSZWALB P F, GIRSHICK R B, McALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645. doi: 10.1109/TPAMI.2009.167
[7]	LIU T, TAO D. On the robustness and generalization of cauchy regression[C]// 2014 4th IEEE International Conference on Information Science and Technology (ICIST). New York, USA: IEEE, 2014: 32-37.
[8]	ZHAI J Y, TU L Zh, ZHUANG Y. Saliency detection based on boundary prior and adaptive region merging[J]. Computer Engineering and Applications, 2018, 54(6): 178-182(in Chinese).
[9]	ZENG L, XU X, CAI B, et al. Multi-scale convolutional neural networks for crowd counting[C]// 2017 IEEE International Conference on Image Processing (ICIP). New York, USA: IEEE, 2017: 89-91.
[10]	HUANG S Y, LI X, CHENG Zh Q, et al. Stacked pooling: Improving crowd counting by boosting scale invariance[J]. Computer Vision and Pattern Recognition, 2018(22): 46-52.
[11]	ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2016: 98-103.
[12]	WU X, ZHENG Y, YE H, et al. Adaptive scenario discovery for crowd counting[J]. Computer Vision and Pattern Recognition, 2019(9): 12-16.
[13]	OORO-RUBIO D, LÓPEZ-SASTRE R J. Towards perspective-free object counting with deep learning[C]// European Conference on Computer Vision(ECCV) 2016. New York, USA: IEEE, 2016: 56-64.
[14]	LEI H L. Crowd counting algorithm based on multi model deep convolution network fusion[D]. Hohhot: Inner Mongolia University, 2020: 32-37(in Chinese).
[15]	TANG S Y, TAO Y, ZHANG L L, et al. A deep crowd counting algorithm based on multi-column feature map fusion. Journal of Zhengzhou University (Natural Science Edition), 2018, 50(2): 69-74(in Chinese).
[16]	WANG Y J, ZHANG W, LIU Y Y, et al. Two-branch fusion network with attention map for crowd counting[J]. Neurocomputing, 2020, 411: 1-8. doi: 10.1016/j.neucom.2020.06.034
[17]	WANG S, LU Y, ZHOU T, et al. SCLNet: Spatial context learning network for congested crowd counting[J]. Neurocomputing, 2020, 404: 227-239. doi: 10.1016/j.neucom.2020.04.139
[18]	WU X, ZHENG Y, YE H, et al. Counting crowds with varying densities via adaptive scenario discovery framework[J]. Neurocomputing. 2020, 397: 127-138. doi: 10.1016/j.neucom.2020.02.045
[19]	LI Y, ZHANG X, CHEN D. CSRNet: Dilated convolutional neural networks for understanding the highly congested scenes[J]. Computer Vision and Pattern Recognition, 2018 (27): 31-39.
[20]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Vision and Pattern Recognition, 2014(4): 19-25.
[21]	ZHANG C, LI H, WANG X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2015: 17-29.

[1]	常颖 , 常大俊 . 改进型卷积神经网络焊点缺陷识别算法研究. 激光技术, 2020, 44(6): 779-783. doi: 10.7510/jgjs.issn.1001-3806.2020.06.023
[2]	冯玮 , 王玉德 , 张磊 . 加权联合降维的深度特征提取与分类识别算法. 激光技术, 2018, 42(5): 666-672. doi: 10.7510/jgjs.issn.1001-3806.2018.05.016
[3]	陆宝红 , 宋雪桦 . 基于历史信息的区域卷积神经网络行人检测. 激光技术, 2019, 43(5): 660-665. doi: 10.7510/jgjs.issn.1001-3806.2019.05.014
[4]	雷翰林 , 张宝华 . 基于多模型深度卷积网络融合的人群计数算法. 激光技术, 2019, 43(4): 476-481. doi: 10.7510/jgjs.issn.1001-3806.2019.04.008
[5]	柳长安 , 孙书明 , 赵丽娟 . 基于激光点云实现杆塔提取的轻量级网络. 激光技术, 2021, 45(3): 367-372. doi: 10.7510/jgjs.issn.1001-3806.2021.03.018
[6]	刘超军 , 段喜萍 , 谢宝文 . 应用GhostNet卷积特征的ECO目标跟踪算法改进. 激光技术, 2022, 46(2): 239-247. doi: 10.7510/jgjs.issn.1001-3806.2022.02.015
[7]	关世豪 , 杨桄 , 李豪 , 付严宇 . 3维卷积递归神经网络的高光谱图像分类方法. 激光技术, 2020, 44(4): 485-491. doi: 10.7510/jgjs.issn.1001-3806.2020.04.015
[8]	刘翠连 , 陶于祥 , 罗小波 , 李青妍 . 混合卷积神经网络的高光谱图像分类方法. 激光技术, 2022, 46(3): 355-361. doi: 10.7510/jgjs.issn.1001-3806.2022.03.009
[9]	黄威威 , 游德勇 , 高向东 , 张艳喜 , 黄宇辉 . 基于相关分析和神经网络的激光焊接稳态识别. 激光技术, 2022, 46(3): 312-319. doi: 10.7510/jgjs.issn.1001-3806.2022.03.004
[10]	李文龙 , 戈海龙 , 任远 , 成巍 . 图像处理技术在激光熔池温度检测的应用. 激光技术, 2018, 42(5): 599-604. doi: 10.7510/jgjs.issn.1001-3806.2018.05.004
[11]	张海庄 , 姚梅 , 雷萍 , 李鹏 , 曾庆平 . 远场激光光斑图像处理方法研究. 激光技术, 2013, 37(4): 460-463. doi: 10.7510/jgjs.issn.1001-3806.2013.04.010
[12]	汤敏 , 王惠南 . 激光扫描共聚焦显微镜图像的计算机处理. 激光技术, 2007, 31(5): 558-560.
[13]	张羽鹏 , 王开福 . LabVIEW和MATLAB在电子散斑干涉图像处理中的应用. 激光技术, 2009, 33(6): 582-585,589. doi: 10.3969/j.issn.1001-3806.2009.06.007
[14]	冯煦 , 张瑞瑛 , 周萍 , 李松 . 大功率半导体线激光图像处理方法研究. 激光技术, 2010, 34(5): 624-627. doi: 10.3969/j.issn.1001-3806.2010.O5.013
[15]	顾国庆 , 王开福 , 燕新九 . 基于同态滤波的电子散斑干涉图像处理. 激光技术, 2010, 34(6): 750-752,797. doi: 10.3969/j.issn.1001-3806.2010.06.009
[16]	苏平 , 牛燕雄 , 李大乾 , 牛海莎 , 李易难 , 张超 . 基于面阵CCD的激光告警系统的图像采集与处理. 激光技术, 2013, 37(3): 394-399. doi: 10.7510/jgjs.issn.1001-3806.2013.03.028
[17]	刘逸飞 , 苏亚 , 姚晓天 , 崔省伟 , 杨丽君 , 周聪聪 , 何松 . OCT无创血糖检测图像处理最优化方法研究. 激光技术, 2023, 47(2): 178-184. doi: 10.7510/jgjs.issn.1001-3806.2023.02.004
[18]	张怡霄 , 杜惊雷 , 高福华 , 姚军 , 曾阳素 , 郭永康 . 分数域啁啾滤波及其在数字图像处理中的应用. 激光技术, 2003, 27(1): 78-80.
[19]	李宇豪 , 吕晓琪 , 谷宇 , 张明 , 李菁 . 基于改进S3FD网络的人脸检测算法. 激光技术, 2021, 45(6): 722-728. doi: 10.7510/jgjs.issn.1001-3806.2021.06.008
[20]	陈树越 , 刘金星 , 丁艺 . 基于小波变换的红外与X光图像融合方法研究. 激光技术, 2015, 39(5): 685-688. doi: 10.7510/jgjs.issn.1001-3806.2015.05.021

留言板