HTML
-
训练一个深度卷积神经网络需要耗费大量的计算资源,利用迁移学习将已经训练好的模型参量迁移到新的模型中,再进行新模型的训练,可以大大降低训练的开销。本文中对提出的HR-CNN在TensorFlow神经网络框架中实现,并基于预训练的Inception V4[18]对HR-CNN在Caltech行人检测数据集上进行训练。如图 8所示,HR-CNN对Caltech数据集中部分图像检测的输出结果。由于大部分Caltech数据集图像中行人数量偏少,本文中选取了行人数量相对较多的图像进行展示。从图 8中可以看到,HR-CNN准确地检测到了图中的行人。
-
实验在一台Linux主机上进行,配置如下:10核Intel(R) Xeon(R) CPU E7-4830处理器,256GB内存和Titan X显卡,操作系统为Ubuntu 16.04,测试程序基于TensorFlow 1.8.0实现。
-
将HRPN与RPN以及选择性搜索[19](selective search)和边框[20](edge-boxes)3种区域推荐算法在交并比(intersection-over-union,IoU)为0.7的情况下进行了对比。交并比为推荐区域和标记区域的交集和并集的比值,最理想的状态是推荐区域和标记区域完全重叠,即IoU为1。但是,在实际中不可能都达到理想状态,通常认为IoU大于0.5就是一个良好的推荐结果。表 1为统计结果,其中selective search, edge-boxes和RPN的统计数据均来自于参考文献[21]。
recall recommendation algorithm selective search edge-boxes RPN HRPN 50% 300 100 30 7 75% 1400 800 250 18 Table 1. Recall rates with different regional recommendation algorithms
从表 1中可见, HRPN只需7个推荐区域就可以获得50%的召回率,18个推荐区域可以获得75%的召回率,大大优于RPN以及selective search和edge-boxes。这充分说明,结合历史信息仅需较少的推荐区域就可以获得高召回率,提升了推荐区域产生的质量。
-
在Caltech数据集上将HR-CNN与R-CNN, fast R-CNN, faster R-CNN以及adapted faster R-CNN[13]等区域推荐神经网络算法从检测准确率和速度两方面进行了对比,其中adapted faster R-CNN为ZHANG等人对faster R-CNN去除上采样后在CityPersons数据集上训练的模型,该模型在Caltech数据集上的检测效果达到了与目前最好的检测结果相近的水平。同时,为了体现HRPN的作用,本文中还对比了使用HRPN作为区域推荐网络的faster R-CNN,同adapted faster R-CNN一致,采用VGG-16作为卷积层。
在目标检测中,通常使用平均精度均值(mean average precision,MAP)作为衡量指标,行人检测中的检测目标只有行人这一种类别,因此对行人检测结果的AP也就是MAP。从表 2中可以看出:HR-CNN相较于faster R-CNN和adapted Faster R-CNN在检测速度上分别提升了5倍和2.5倍,同时检测结果的准确率与adapted faster R-CNN相比也提升了约1.5%;采用HRPN作为区域推荐网络的faster R-CNN相较于采用原faster R-CNN在检测速度提升了3倍,检测准确率提升了约11%,这是因为HRPN可以用更少的推荐区域获得更高的召回率,而检测的准确率低于HR-CNN是因为VGG-16对小目标的检测效果没有Inception V4好。
R-CNN fast R-CNN faster R-CNN adapted faster R-CNN faster R-CNN with HRPN HR-CNN time 47s 5s 198ms 99ms 64ms 39ms MAP/% 53.3% 65.7 73.2 88.7 84 90.2 Table 2. Test results accuracy and test time with different regional recommendation algorithms
图 9为HR-CNN与adapted faster R-CNN等行人检测算法的漏检率-错误率和准确率-召回率两个指标进行了比较。从图 9中可以看出,HR-CNN在两个指标上都优于其它对比方案。