基于CNN的车辆检测中激活函数的研究

时间:2022-03-05 09:54:53  阅读:

方案,最早由ROSENBLATT提出感知机模型[4],解决简单的分类问题;1980年FUKUSHIMA提出卷积神经网络CNN的概念[5];2006年HINTON等在《Neural Computation》杂志上发表了一篇论文,提出了深度置信网(Deep Belief Networks,DBN)[6],使得深度学习受到研究者广泛关注。处理图像分类领域提出了AlexNet[7]、VGG[8]、GoogleNet[9]和ResNet[10]等经典CNN网络,使得图像分类超过了人眼的正确率;图像目标检测领域出现了R-CNN[11]、Fast R-CNN[12]、Faster R-CNN[13]、YOLO[14]等高准确度CNN网络;图像分割领域出现了FCN[15]、Mask R-CNN[16]等精度高的CNN网络。

对于车辆检测技术,存在许多具有挑战的问题,如光照明显变化和突然变化会对图像中的车辆检测增加难度;图像中背景和车辆颜色相近时易混淆难检测;车辆被车辆或者背景物体遮挡时遮挡模型难检测等等。先前的研究者提出了很多特征算法,如Haar特征[17]、方向梯度直方图(Histogram of Oriented Gradient, HOG)特征[18]、局部二值模式(Local Binary Pattern, LBP)特征[19]等等,而卷积神经网络CNN算法的特征提取效果与现在使用的算法相比,性能是最好的。SUN等使用Gabor 滤波器提取候选框特征,并且使用SVM来做特征的分类,从而检验出车辆,很好地利用了目标的局部空间信息和频域信息,对光照变化不敏感,具有光照鲁棒性,但是需要计算频域信息,计算量大而且复杂,不适应形态多变的目标[20];ARRSPIDE等使用HOG特征描述符加SVM分类器做车辆检测,将目标的位置和方向进行量化抑制了目标平移、旋转带来的影响,但是由于梯度计算对噪声粒子敏感,特征计算复杂,很难实时计算,且很难处理遮挡问题[21]。本文使用的是YOLOv2[22]目标检测算法,对其进行优化训练成车辆检测模型。YOLO是2016年由Redmon、Joseph和Farhadi等设计的CNN网络,论文被CVPR2016录用,YOLOv2是YOLO的第二个版本,实现端到端多任务同时训练,也是端到端实时检测的,不需要过多的人工干预。YOLOv2在检测速度上超过大部分CNN网络,精度上也能保持世界前列。

激活函数是CNN算法的重要模块,其作用是实现CNN的非线性映射,使得CNN算法可拟合成任意的线性或非线性函数[23]。激活函数和后向传播(Back Propagation,BP)算法的出现推动了CNN算法的发展,使得CNN的训练变为可以实现的。传统的逻辑激活函数sigmoid函数,sigmoid函数对深层的网络有个很大的缺陷,会产生梯度弥散现象,可能使得模型不能收敛;Relu函数曲线特性类似神经元激活特性,展现了很优越的性能,解决了梯度弥散现象,所以很多CNN模型都使用的是这个激活函数;Leaky-Relu函数是在Relu函数的激发下产生的,解决特征为负值时被归零的限制。本文首先对非线性激活函数和线性相加对CNN网络的影响做分析;然后讨论不同的激活函数对CNN的学习能力和训练产生的变化,提出一种基于Leaky-Relu设计的ssatu函数;最后以车辆检测比较分析不同激活函数的效果。

1CNN卷积神经网络

CNN作为深度学习在人工智能领域的应用,不断被重视和改进,其有严格的数学推导过程,包括输入樣本到隐含层特征的计算、隐含层到输出结果的计算、输出结果反馈到隐含层参数的计算,即二维卷积计算、激活函数计算、池化计算、BP计算,以及一些模型训练技巧,如图1,图2所示。

3YOLOv2车辆检测实验分析

3.1YOLOv2网络

图4为YOLO的网络结构,此网络与CNN网络相比有许多改进的方面。它采用检测框坐标和物体类别同时处理的结构,对输入的图片划分出许多超像素块,类似一张渔网放在图片上,每一个网

格区域对应一个超像素块,每个超像素块看作一个单位回归目标检测框和目标类别,比CNN网络检测速度快。YOLO网络有22个卷积层对图像的特征进行处理,检测的准确度比CNN网络高,可以用于实时视频车辆检测。由于CNN网络卷积计算单元本身的不完善和多类别多目标同时检测,使得预测的目标位置精度不高,对整体目标数据集的召回率不高,对稍小目标的检测率低。本文使用车辆数据对YOLOv2网络进行了单目标检测训练,使用不同的激活函数改进CNN网络计算单元,然后分析车辆检测模型训练的过程,分析不同激活函数对应的车辆检测模型对检测准确度和速率的影响。

3.2不同激活函数训练对比

使用不同激活函数的YOLOv2网络训练过程如图5所示。训练数据来自于Kitti开放数据集,提取出数据集中只含有车辆的数据,制作出训练数据集和验证数据集,训练数据集用来训练网络模型,验证数据集用来测试评价模型的好坏。训练数据集有10226张图片,验证数据集含有813张图片,数据图片来自由真实环境中的移动摄像头,图片中出现的车辆目标情况非常丰富,包含光照条件明显不同的车辆、各种不同颜色不同型号的车辆、多种视角下的车辆、多种遮挡情况的车辆、多种距离尺度的车辆。实验的操作环境为Ubuntu1404LTS操作系统,使用的GPU型号为GTX TITAN X。在训练过程中,记录下网络的损失值、训练时间、迭代次数等信息,经过数学计算后绘制出图5、图6。

从图5可以看出:首先,在收敛过程中由于批量梯度下降算法的缺点,网络损失值在不停的剧烈振荡,振幅随着下降周期呈现高低变化,幅值不成周期性;然后,虽然损失值在不停振荡,但是最终还是趋向于收敛,表明在这个网络的训练中,各激活函數都没出现梯度消失;最后,加入非线性激活函数的网络在200到300次迭代后开始收敛,而线性函数的网络在400次之后才开始收敛,表明加入非线性激活函数的训练过程要比线性函数的训练快,原因是线性函数直接将前一层的特征传给下一层,而非线性激活函数会对前一层的特征做映射,或是加强或是减弱,使得下一层的特征更具表达能力。

对图6中各激活函数进行对比发现:sigmoid函数训练的损失值平均波动最小,收敛速度最快,因为sigmoid函数是连续非线性的软饱和函数,且其导函数在整个定义域内连续;ssatu函数的收敛速度和sigmoid函数差不多,但是其损失值平均波动最大,这与其导函数性质有关;Relu函数和Leaky-Relu函数,虽然两者都是非线性的分段函数,但是在每个分段内是线性的,线性性质没有对特征进行处理,所以收敛慢。

3.3车辆检测结果

激活函数是神经网络计算单元中的模块,对模型的性能有直接的影响,本文通过实验数据展示各激活函数训练得到的模型的测试数据,评测模型的性能。评价指标为平均召回率(Recall)和平均精确率(Pricision),召回率的计算公式为:

召回率=模型检测到的样本数

测试用样本总数×100%。

平均精确率以IOU值计算,即模型预测框Pr与样本真实框Tr的交集除以并集,公式如下:

IOU=Pr∩TrPr∪Tr×100%。

实验中用到的验证数据,除了Kitti开放数据集,PASCAL VOC2007开放数据集,还有本文的Street数据集。Street数据集采集了汽车的行车记录仪实时记录的行车视频,代表一些实用场景,可为相关应用的开发做铺垫。实验的模型是训练80000多次后获得的模型,在三个数据集上的实验结果如表1、表2。

在训练过程中,ssatu函数和sigmoid函数使网络收敛速度较快,但在表1和表2的结果数据中,使用ssatu函数和linear线性函数的性能较差,Recall和IOU都比较低,说明非线性激活函数不仅可以加快网络收敛而且能提高网络模型性能;以线性函数分段组成的非线性函数比sigmoid函数性能好,体现对所有原始特征做映射抑制不利于网络的表达能力;而ssatu函数由于本身的导函数性质,其导函数值在(0,1)的区间里取值无穷大,可能是影响其网络模型性能的原因。在实验中训练出的网络的测试效果如图7所示。

4结论

激活函数是CNN网络中的重要模块,使CNN网络表达出任意非线性函数,增强网络的表达能力。本文分析的四种激活函数中,有连续可导函数,也有分段函数;在没有出现模型发散的情况下,软饱和函数sigmoid和函数ssatu使模型收敛的速度最快,且连续可导非线性sigmoid函数使模型训练中损失值的振荡最小;在模型性能上体现出不抑制特征点的分段函数更适用于一般性的创建CNN网络。随着CNN网络不断发展,新的激活函数对网络产生怎样的影响,后续可以继续深入研究。

参考文献:

[1]LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553):436-444.

[2]孙志远,鲁成祥,史忠植,等. 深度学习研究与进展[J].计算机科学,2016,43(2):1-8.

[3]卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17.

[4]ROSENBLATT F.The perception: a probabilistic model for information storage and organization in the brain[J]. Psychological Review,1958,65(6): 386-408.

[5]FUKUSHIMA K.Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics,1980,36(4): 193-202.

[6]HINTON G E,OSINDERO S,TEH Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation,2006,18(7): 1527.

[7]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the Acm,2012,60(2): 2012.

[8]SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EBOL].(2015-04-10)[2017-12-16].https:arxiv.orgpdf1409.1556v6.pdf.

[9]SZEGEDY C, LIU W, JIA Y Q, et al. Going Deeper with Convolutions[EBOL].(2014-09-17)[2017-12-16].https:arxiv.orgpdf1409.4842.pdf.

[10]HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[EBOL].(2015-12-10)[2017-12-16].https:arxiv.orgpdf1512.03385v1.pdf.

[11]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[EBOL].(2014-10-22)[2017-12-16].https:arxiv.orgpdf1311.2524v5.pdf.

[12]GIRSHICK R. Fast R-CNN[EBOL].(2015-09-27)[2017-12-16].https:arxiv.orgpdf1504.08083.pdf.

[13]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[EBOL].(2016-01-06)[2017-12-16].https:arxiv.orgpdf1506.01497.pdf.

[14]REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[EBOL].(2016-05-09)[2017-12-16].https:arxiv.orgpdf1506.02640.pdf.

[15]LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4): 640-651.

[16]HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[EBOL].(2017-03-20)[2017-12-16].https:arxiv.orgpdf1703.06870.pdf.

[17]VIOLA P, JONES M. Rapid Object Detection using a Boosted Cascade of Simple Features[C] Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Kauai, HI, USA:IEEE, 2001:511.

[18]DALAL N, TRIGGS B. Histograms of Oriented Gradients for Human Detection[C] 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA:IEEE, 2005: 886-893.

[19]OJALA T, PIETIKAINEN M, HARWOOD D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C] Proceedings of 12th International Conference on Pattern Recognition, Jerusalem, Israel:IEEE,1994: 582-585.

[20]SUN Z, BEBIS G, MILLER R. On-road vehicle detection using Gabor filters and support vector machines[C] 2002 14th International Conference on Digital Signal Processing Proceedings, Santorini, Greece:IEEE, 2002: 1019-1022.

[21]ARROSPIDE J,SALGADO L,CAMPLANI M. Image-based on-road vehicle detection using cost-effective Histograms of Oriented Gradients[J]. Journal of Visual Communication & Image Representation,2013,24(7): 1182-1190.

[22] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[EBOL].(2016-12-25)[2017-12-16].https:arxiv.orgpdf1612.08242.pdf.

[23]曲之琳,胡曉飞. 基于改进激活函数的卷积神经网络研究[J]. 计算机技术与发展,2017,27(12): 77-80.

(责任编辑:周晓南)

推荐访问:函数 激活 车辆 检测 研究

版权所有:汇朗范文网 2010-2024 未经授权禁止复制或建立镜像[汇朗范文网]所有资源完全免费共享

Powered by 汇朗范文网 © All Rights Reserved.。鲁ICP备12023014号