基于YOLOv5m和注意力机制融合的地铁车厢乘客实时检测*

时间:2023-08-20 17:15:03 来源:网友投稿

邱 芳,李玉峰,孔才华

(1.沈阳地铁集团有限公司运营分公司,沈阳 110011;
2.沈阳航空航天大学电子信息工程学院,沈阳 110136)

近年来,城市轨道交通快速发展,地铁已成为市民出行的主要交通工具。地铁车厢乘客密度大,客流复杂,科学合理地实时检测车厢乘客,可指导乘客安全出行,保障安全运营[1]。国内外学者针对目标检测在地铁领域的应用做了大量研究。例如方晨晨等人[2]提出基于BP神经网络的地铁车厢下车人数短时预测方法;
杨谱等人[3]利用纹理分析和神经网络相结合的方法对地铁人群密度进行预测;
劳超勇等人[4]利用Wi-Fi探针实现对地铁站内拥挤点客流量的统计。各方法在客流预测中取得一定效果,但对车厢乘客目标检测涉及不多。谈世磊等人[5]利用YOLOv5模型对人员口罩佩戴进行实时检测,实验阶段具有一定优势,但实用性有待验证。YOLOv5算法是基于回归思想的目标检测[6-8],将检测与类别区分开[9],按照其深度和宽度的不同,分为YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5算法速度快,可快速部署,相比传统检测方法,精度和速度都有所提升,但是对小目标和密集目标检测性能仍然较弱。针对以上方法目标检测性能差、检测方法单一等问题,在此提出注意力模块(CBAM)与YOLO v5m主干网络层进行融合改进,在通道和空间维度提高检测目标的特征提取能力,从而提高目标检测性能。该模型权重小、速度快,可满足对地铁车厢乘客实时检测的要求。

YOLOv5算法网络结构如图1所示。按照执行顺序,处理过程可分为四个层次:输入端(Input)、骨干网络层(Backbone)、中间层(Neck)网络,以及预测层(Prediction)[10]。

图1 YOLOv5网络结构

输入端主要完成Mosaic数据增强、自适应锚框计算和自适应图片缩放等基本图像处理任务。骨干网络层作为主干网络,增加了Focus结构和CSP结构,主要是通过深度卷积操作提取输入图像不同层次特征,其中Focus结构主要是对输入端的图像进行压缩、整合得到图像特征图,Bottle net CSP结构通过减轻网络模型参数量,来提高模型精度和速度。Neck层使用特征图金字塔网络(FPN)及路径聚合结构(PAN),进一步加强Backbone层提取的不同层次图像特征的特征融合,提升目标检测性能。Prediction层做预测,利用加权NMS对多目标框进行筛选,获得最优目标框,主要预测不同层次特征图的不同尺寸目标[11]。

注意力学习机制在深度学习领域已成为重要的实用工具,原理上可提升模型的性能,并在细粒度分类和目标检测方面效果显著,可以在有限的资源环境下,从无关背景下筛选出重要的目标区域[12]。注意力机制是对特征图进行注意力重构,突出特征图中的重要信息,抑制一般信息,其中主要包括通道注意力、空间注意力、混合注意力、自注意力和类别注意力等。

混合注意力机制CBAM是在原有的通道注意力(CAM)的基础上,衔接了一个空间注意力(SAM)模块的综合特征注意力方法,使得检测性能在通道维度和空间维度得到提升。CBAM作为一个轻量型的通用模型模块,可集成到任何CNN框架上,计算量可忽略不计,其结构图如图2所示[13]。

图2 CBAM结构图

对于输入的三维特征F∈RC×H×W,通过将通道注意力和空间注意力级联使用,对输入的特征图进行平均池化和最大池化操作压缩,得到平均池化特征Fsavgfavg和最大池化特征Fcavgfmax,减少单一池化操作对特征信息的影响,再将两个特征传送到由多层感知器和隐含层共同构成的共享网络,生成通道注意力特征Mc(F)∈RC×1×1,利用特征间的空间关系,生成空间注意力模块所需的特征。与通道注意力不同,空间注意力通过通道上的平均和最大池化操作,生成平均池化特征Fsavgfavg∈R1×H×W和最大池化特征Fcavgfmax∈R1×H×W,将两个特征拼接串联。通过7×7卷积操作行降维和使用Sigmoid函数进行归一化,生成空间注意力特征Ms(F)∈RC×1×1,将空间注意力所需模块与空间注意力特征做乘法,便可得到最终特征图。

YOLOv5采用卷积和池化对图像特征进行提取,在模型的快速部署上具有很强的优势。但是随着不断加深加宽网络,性能虽有提升但检测速度却急剧增加。为进一步提升网络性能,解决YOLOv5对地铁车厢乘客目标检测精度低、检测正确性差的问题,将计算量较小的CBAM模块进行网络结构融合,模型命名为YOLOv5-C,在通道和空间维度方面加以改良,提高网络对检测目标的提取能力,提高检测性能。YOLOv5-C主干网络模块结构如图3。

图3 YOLOv5-C主干网络模块结构图

融合后网络结构对输入的三维特征图进行通道注意力和空间注意力的池化、卷积降维、Sigmoid函数归一化处理等操作,获得新的空间特征。经处理后特征图中的重要信息更加突出,一般信息得到抑制,目标特征信息得到更好的全局把握。

4.1 实验准备

实验研究的是空间狭小、密闭和环境更为复杂的地铁车厢内乘客的目标检测。车厢内摄像机实际是按照俯视角度进行车厢内乘客拍摄,因此进行目标检测时只考虑乘客的头部即可。通过比较和进行大量的测试最终选择了部分数据集进行YOLOv5网络模型训练,各选中数据集的描述见表1。数据集的标注格式遵循PascalVOC标准。

表1 实验选用数据集描述

为更好比较数据集的检测效果,将实验目标检测网络模型输入均调整为640×640像素大小,超参数也设置成相同数值。实验在谷歌云服务器下进行,其中深度学习框架为Pytorch;
使用型号Tesla K80 GPU进行运算;
显卡CUDA版本为10.1。实验设计的YOLOv5网络模型超参数如表2所示。

表2 YOLOv5网络模型超参数设置

4.2 实验结果及对比分析

4.2.1 YOLOv5模型训练

按照模型设计和实验平台设置进行YOLOv5模型训练,并利用目标检测的评价指标精准率(Precision)、召回率(Recall)、类平均精度(mAP)和GIOU_Loss损失函数等进行模型性能评估,得到的实验结果曲线如图4所示。

图4 实验数据集训练性能评估结果

图 中,exp1、exp2、exp3、exp4对 应 数 据 集Ⅰ;
exp5对应数据集Ⅱ;
exp6对应数据集Ⅲ;
exp7、exp8、exp9、exp10对应数据集Ⅳ。

实验配置环境数据集的训练及验证得出的最优结果整理为表3。可以看到,Metro数据集中,数据集Ⅰ的类平均精度、精准率和召回率的数值接近于80%,损失函数数值在1.4%~2.1%之间;
数据集Ⅳ的几项指标数值则在90%以上,损失函数数值在1.1%~1.9%之间。SCUT-HEAD数据集中,数据集Ⅱ和Ⅲ类平均精度、精准率和召回率的数值也均在90%以上;
其中数据集Ⅲ类平均精度和精准率数值接近于100%,损失函数的数值在3.2%以上。由此,通过数据性能指标数值可以看出,YOLOv5网络模型对于头部特征数据集的检测效果是理想的。

表3 YOLOv5四种模型训练结果对比单位:%

4.2.2 实验测试

将地铁车厢内测试视频的数据输入到训练模型中进行实验,视频分为视频1和视频2,分别得到测试结果如图5、图6所示。

图5 各数据集在视频1模型测试结果

图6 各数据集在视频2模型测试结果

目标框上的数值代表类别标签的置信度。实验通过模型正确检测该帧视频人数占该帧视频总人数比例得到模型的检测效果。对地铁车厢内测试视频进行人工统计总人数,并将YOLOv5的四个模型分别进行性能检测,详细对比结果如表4所示。

表4 YOLOv5网络模型性能比较

可见,SCUT-HEAD数据集中数据集Ⅱ、Ⅲ的测试正确检测率分别为16.7%,20.4%,正确率较低;
数据集Ⅱ、Ⅲ训练的模型无法准确检测该帧视频中人数,因此不适合对于特定车厢内的乘客头部特征检测。从模型的测试性能结果看,数据集Ⅳ中YOLOv5m模型的正确检测率最优,分别达到83.3%和80%,比数据集Ⅰ中YOLOv5m模型的正确检测率分别高12.5%和3.3%,可清晰显示该帧视频下数据集Ⅳ比数据集Ⅰ检测更多目标。比较表3中训练模型各性能数值,也可看到数据集Ⅳ的各项指标数值都优于数据集Ⅰ。综合训练模型性能指标和测试正确率情况,选择自制的Metro数据集(Ⅳ)训练的YOLOv5m模型作为地铁车厢乘客实时检测器。

4.2.3 YOLOv5m-C模型实验结果分析

针对特定环境的地铁车厢乘客目标实时检测,Metro数据集训练的YOLOv5m模型在正确检测率方面优于其他模型,因此在该模型上融合CBAM注意力机制进行改进,模型命名为YOLOv5m-C,对特征图重构,突出重要的乘客头部特征,抑制一般特征信息,进一步提升目标检测的效果。使用Metro数据集进行YOLOv5m-C模型训练,并将训练的模型进行视频测试,实验中网络模型超参数按上述表2设置,得到实际测试效果如图7,与其他文献数据的详细对比如表5所示。

图7 实际测试前后效果对比

表5 算法性能比较

从表中数据可见,YOLOv5系列算法性能指标正确检测率、平均精度和召回率都高于文献中提到的其它算法。改进后的YOLOv5m-C在精准率和正确检测率上都有明显的提升,且精准率的指标达到92.3%,比原始网络提升了5%;
测试后的正确检测率达到87%,比原方法提升了4.4%。

综述所述,YOLOv5系列算法检测性能指标更加全面,且性能普遍优于当前大多数算法,能够很好地满足实时性检测需求。

注意力模块CBAM与YOLOv5m模型主干网络融合后,网络特征提取能力得以提升,也改善了检测器识别效果。针对地铁车厢这种特定环境的目标检测,本模型训练精准率和测试正确检测率均得到一定提升,每帧视频预处理时间仅为0.5ms,推理时间为61.7ms,检测性能与速度表现均优于当前大多数其他算法,能够胜任地铁车厢乘客的实时检测工作。

猜你喜欢车厢注意力乘客让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09嫦娥五号带回的“乘客”中学生数理化·八年级物理人教版(2022年3期)2022-03-16六号车厢四川文学(2020年11期)2020-02-06汽车顶层上的乘客文苑(2019年24期)2020-01-06最牛乘客今日农业(2019年16期)2019-01-03“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21SSAB Hardox悍达450材料轻型自卸车厢体测试报告专用汽车(2016年9期)2016-03-01QMI汽车夏季维护:雨季车厢除异味汽车维修与保养(2014年7期)2014-04-18阅读理解两则中学英语之友·下(综合版)(2008年10期)2008-02-16

推荐访问:车厢 乘客 注意力