基于视听感知替代的虚拟环绕声导盲系统设计

时间:2023-08-21 18:40:03 来源:网友投稿

陆 翔,吴 冕,杨新宇,张国宁,王新钰

(山东科技大学 电子信息工程学院,山东 青岛 266590)

世界卫生组织估计全世界有盲人约4 000~4 500万,低视力人群的数量是盲人的3倍。截至2019年,中国的盲人数达到1 700万[1]。随着视障人士数量的逐年增加,解决视障人士的出行问题成为热门问题。近年来,随着该领域相关技术的快速发展,国内外研发了不同解决方案的导盲系统,其中障碍物检测与人机交互是相关研究的重点领域。

在导盲设备研究领域,目前障碍物检测方法主要有雷达[2]、红外[3]以及图像检测[4]。其中,便携式三维激光雷达价格昂贵,红外难以检测垂直方向障碍物,而图像检测方法尚未广泛应用。但随着相关研究的不断推进,有研究表明[5]大多数视障人士的心理障碍远大于周围事物对他们造成的障碍。目前大多数研究着重关注导盲系统的功能性问题,采取多样的障碍物检测方式,但往往忽略了视障人士的心理状态。尽管也有导盲系统使用语言提示的方式将导盲信息以语言播报的方式提供给使用者[6],但通常忽略了人脑在处理声音信息时,不够直观的信息对视障群体造成的认知压力[7]过大的问题。目前大多数价格适中的导盲设备无法检测到垂直方向上的障碍物,对于常使用导盲拐杖的视障人群而言,地面上的障碍物已不是最大的安全隐患。因此迫切需要一种方法,能在检测到水平及垂直方向障碍物的同时,兼顾解决视障群体认知压力的问题。

本研究提出一种将视听融合与虚拟环绕声技术融入导盲系统的设计方案,缓解视障人士在使用相关导盲辅助设备时所带来的认知压力过大的问题。方案采用图像障碍物检测的方式获取障碍物相关信息,首先提取图像的轮廓或者特征点,在两幅或者多幅图像中进行匹配,利用得到的视差图计算障碍物的大小、距离、位置等信息,然后将图像映射为声音,利用头相关传输函数实现虚拟环绕声,将障碍物信息映射为声音的音长、频率和方位,实现系统的导盲功能。该方案在应对复杂多变环境时有着明显优势,并且能够提供足够的准确度以及稳定性,为降低视障群体的认知压力提供一种新的途径。

1.1 映射音频产生原理

声音从声源传输到人的双耳过程中,左耳和右耳不是在同一时刻接收到音频信号的,而是存在一个很小的时间差,该时间差就是双耳时间差[8];
且由于距离不同,空气等媒质对声音的衰减不同,左耳和右耳接收到的声音强度也不一样,这个强度差值就是双耳强度差,如图1所示。从图1可以看出,距离声源远的耳朵接收到声音时间比距离声源近的耳朵接收到声音的时间更长、声音强度更小。

图1 双耳时间、强度差示意图

1.2 头相关传输函数

目前已有相关研究提出了更符合人听觉特性的频域传输函数——头相关传输函数(head-related transfer functions,HRTF)[9-10]。HRTF是一组频域滤波器,用来描述声音从声源传输到耳朵的过程。HRTF的定义为:

(1)

式中:PL为声源到左耳的复数声压,PR为声源到右耳的复数声压,P0为假设人头部消失时中心处的复数声压,θ为水平方位角,φ为垂直方位角,r为声源到人头部中心的距离,ω为声音的角频率,α为人的头部大小。

为了实现辅助导盲并缓解使用者认知压力,并且在较为复杂的环境下,如果无法解决垂直方向的障碍物识别问题,将混淆使用者对障碍物方位的判断。因此,本研究采用虚拟环绕声作为提示音,提示使用者障碍物的方位、距离、大小等信息。在获取3个音频参数之前,需要对摄像头进行预处理,获得优化的图像后计算与障碍物的3个参数相对应的音频参数,进行图像声音映射与虚拟环绕声的合成,最后通过耳机输出音频。本设计解决了大多数方案在垂直方向上识别障碍物方位困难的问题,解决了文献[2]的雷达方案与文献[3]的红外方案只能实现水平方向上对障碍物检测的局限。总体方案流程如图2所示。

图2 导盲系统流程图

2.1 图像采集预处理

为采集到较为准确、稳定的图像,本研究首先利用MATLAB的立体相机校准工具箱对所使用的摄像头进行相机标定,标定方法参考文献[11],用双目摄像机在不同角度拍摄标定板,通过标定板上的棋盘格角点位置,结合多个图像,求解出标定参数,具体标定流程如图3所示。完成标定后,获得双目摄像头的相关参数,如表1所示。运用畸变向量、旋转矩阵等对原始图像进行矫正。对矫正后的两张图片进行像素点匹配,并根据计算结果得到深度图。

图3 MATLAB 工具箱标定流程

2.2 立体匹配获取深度图

完成标定之后可以采集并处理得到具有精确参数的图像。由于双目摄像头拍摄获得的图片无法直接用来获取本研究所需的参数,需要利用立体匹配将图片处理为深度图——通过图像中某空间点计算出该点与相机的距离。立体匹配利用OpenCV(open computer vision)自有BM(block matching)算法完成,流程如图4所示。该算法为局部匹配算法,处理速度快。

图4 OpenCV BM算法实现流程图

进行立体匹配获得的深度图有较多的噪点和部分错误匹配的点,对其进行空洞填充和中值滤波后能够得到修复后的深度图。原图、未经修复的深度图以及修复后的深度图对比如图5所示。

图5 修复前后对比图

对修复后的深度图,选择连通面积最大的一个区域,计算大小参数、中心点坐标(x,y),并计算平均距离d。为了获取本研究所需参数,首先对修复后的深度图进行阈值分割获得二值化图像,然后进行连通区域识别,获得连通区域数目、中心点坐标、面积等信息,用以计算距离最近和面积最大障碍物的映射参数。这里只计算深度图障碍物的平均距离,也就是深度图障碍物区域的平均像素值,最终效果如图6所示。

图6 距离最近或面积最大的障碍物

2.3 映射方案设计

为了能够让使用者直观地感受到映射出的音频参数与上述参数的关系,符合常人的声音分辨习惯,本研究将获取到的障碍物位置、大小、距离等参数分别通过各自的映射方案映射为音频中的方位、音长、频率[12],映射参数如表2所示。

表2 提示音参数区间

音长0.1 s对应小障碍物,1 s对应最大障碍物。频率500 Hz对应远距离障碍物,声音柔和;
1 500 Hz对应最近距离障碍物,声音尖锐,以此提醒使用者更加警觉。方位采用HRTF数据库表示方法。

2.3.1 障碍物大小与距离映射

障碍物大小的映射方法与距离的映射方法类似,均为直接映射方式。其中,障碍物的像素个数映射区间为[500,4 000],对应的音长区间为[0.1 s,1 s],映射关系为:

(2)

式中:s为映射的大小量;
t为映射后的音长,ms。

距离的映射区间为[300 mm, 3 000 mm],对应的频率区间为[500 Hz, 1 500 Hz],映射关系为:

(3)

式中:d为映射的平均距离,mm;
f为映射后的频率,Hz。

通过上述映射关系式,可将参数s映射为音长t,参数d映射为频率f。

2.3.2 障碍物方位映射

1) 图像像素方位到角度转换

由于图像像素方位和该像素点现实中角度方位的映射不是线性关系,因此需要把图像像素方位转换到角度方位,转换方法如图7所示。

图7 像素角度转换示意图

图7(a)中,扇形为视野范围[-65°, 65°],BA为图像平面水平方向的正半轴方向,∠BOA为65°,可得:

(4)

式中,dAB、dBP分别为图7中AB、BP的距离。从而得到映射角

(5)

同理可以得:

(6)

式中,hCP、hOD分别为图7中CP、OD的高度。

借助现有HRTF数据库实现虚拟立体环绕声[13],通过查找α、β在HRTF数据库中对应的头相关冲激响应 (head-related impulse response,HRIR),将此HRIR数据与合成声音进行时域卷积,即可实现方位的映射。其中HRIR为HRTF的时域表示,可由傅里叶逆变换得出。

2) 方案实施

方位映射的流程如图8所示。首先得到物体中心的像素数据,将像素数据坐标转化为角度坐标,然后在HRTF数据库中查找最接近该方位的HRIR数据位置,最后将该数据用于后续的虚拟环绕声合成。

图8 方位映射流程图

2.4 虚拟环绕声合成

首先利用Python中Numpy库的相关函数产生音频,并对音频信号进行时域卷积;
然后从HRIR数据库中提取左、右耳对应方向上的HRIR数据,利用相关卷积函数对其进行时域卷积得到左、右声道的音频文件,并将其合并得到输出的双声道音频文件;
最后将获取的音频文件用于音频设备输出,为使用者提供导盲功能。

3.1 试验数据

本研究采用CIPIC(center for image processing and integrated computing)机构[14]测量的多人数据集,该数据集有多人的HRTF数据且公开发布,每组数据均包含个体特征的测量值,对每个个体测量了1 250个方位的冲激响应。

HRTF在时域中有以下关系:

y(n)=u(n)⊗h(n)。

(7)

式中:n为离散时间序列,⊗表示卷积运算,h(n)为HRIR,u(n)为原始音频序列,y(n)为时域卷积的结果。将左、右声道的声音分别与对应的HRIR进行卷积后得到yL(n)和yR(n),然后将二者合成为双声道立体声yS(n),通过耳机输出到人双耳中。

HRIR数据分为左耳和右耳数据。单耳的1 250个方位的数据构成25×50×200的三维矩阵,分别对应水平方位角(图9(a))、垂直方位角(图9(b))及对应数据[15]。对于虚拟环绕声的生成来说,HRIR数据最为重要,其直接与待处理音频对应声道时域卷积,参与虚拟环绕声的生成过程。

图9 CIPIC HRTF数据方位角示例

1) 水平方位角

水平方位角数据一共25个方向,如图9(a)所示。假定使用者正前方为0°,左侧为-90°,右侧为90°,则这25组数据分布在-80°、-65°、-55°、80°、65°、55°等6个方向和-45°~45°中每5°间隔共19个方向上。

2) 垂直方位角

垂直方位角为均匀分布,如图9(b)所示,从-45°开始逆时针转到人体后侧230.625°,方位间隔为5.625°。对于每个方位来说,其数据是采样频率为44.1 kHz的冲激响应函数。如图10所示,显示了水平方位角0°、垂直方位角0°时左耳的HRIR数据。

图10 水平和垂直方位角均为0°时左耳HRIR数据

测试好HRIR数据后,利用Python的Numpy库、Simpleaudio库进行音频生成与输出。

3.2 障碍识别及声音映射准确度试验

3.2.1 障碍识别试验

为了便于使用者正确识别障碍物的大小、方位和距离,耳机中播放出的虚拟环绕声会呈现不同的特性。对于识别障碍物的大小,障碍物在图像中像素点个数越多,则声音的持续周期越长,反之越短;
对于识别障碍物的方位,基于虚拟环绕声的环绕特性,使用者能识别障碍物在前方某个角度大致的水平与垂直方位;
对于识别障碍物的距离,类似于汽车雷达系统中的声音信号,距离较远时,声音频率较低而低沉,随着距离逐渐减小,声音频率也随之升高而显得尖锐。

试验结果如图11所示。结果表明,本研究设计的导盲系统在正常光照下对静止和移动中的障碍物识别准确度能够维持在90%以上,但在强光位置点的静止和移动的障碍物识别准确度仅在50%左右,后续可以考虑通过增加环境光传感器来缓解光线强弱的影响。

图11 障碍识别准确度试验结果

3.2.2 声音映射试验

为使数据更具代表性,在选取试验个体时,遵循普遍性的原则,根据不同的个体参数进行筛选,如耳廓尺寸、头围等。水平方向声音映射准确度试验结果如图12所示,其中测试点信息如表3所示。垂直方向声音映射准确度试验结果如图13所示,其中测试点信息如表4所示。

表3 水平方向测试点信息

表4 垂直方向测试点信息

图12 水平方向声音映射准确度试验结果

图13 垂直方向声音映射准确度试验结果

试验结果表明,使用者的方位识别水平偏差角度在15°之内的准确度为82.85%,垂直偏差角度在15°之内准确度为67.5%,对应水平方向的识别能力总体上高于垂直方向,可辅助盲人进行基本的障碍物识别。试验结果还可以看出,每个测试个体的准确度均不同,这是由于在CIPIC的HRTF数据库中,受测试个体头部的形状、肩宽、耳廓尺寸等人体参数的影响,每个测试个体对应不同的HRTF数据,因此产生准确度的差别。

1) 本设计将虚拟环绕声应用于导盲领域,而不再拘泥于语言播报等忽视视障人士心理因素的提示方式,为该领域后续研究提供参考。

2) 采用图像检测方式,在复杂环境中依然能够稳定检测障碍物,并能够检测障碍物的垂直方位,为室外复杂环境下障碍物检测方案提供了借鉴。

3) 采用图像-声音的映射方案设计,将视听融合技术引入导盲系统。在方位识别方面,使用者判断的水平偏差角度在15°之内的测试成功数占总测试次数的82.85%,垂直偏差角度在15°之内的测试成功数占总测试次数的67.5%,可实现简单的导盲功能。

本设计对光强变化较为敏感,在不同光照环境下障碍物识别准确度差距较大,后续将尝试通过环境光传感器等手段进行光补偿自适应调整方面的试验研究。

猜你喜欢深度图环绕声方位认方位幼儿园(2021年12期)2021-11-06一种基于WMF-ACA的深度图像修复算法上海师范大学学报·自然科学版(2021年4期)2021-09-23Dirac Live加持!让好效果来得更容易 ROTEL Rotel RAP-1580MKⅡ AV功放/RSP-1576MKⅡ环绕声处理器/RMB-1585五声道功放家庭影院技术(2021年6期)2021-07-28简洁又轻松的Soundbar环绕声解决方案家庭影院技术(2020年2期)2020-03-25基于深度图的3D-HEVC鲁棒视频水印算法计算机应用(2019年3期)2019-07-31更简单直接的环绕声音效体验 环绕声技术的几个应用家庭影院技术(2019年4期)2019-04-17探寻家用环绕声发展的未来究竟是简单还是繁琐家庭影院技术(2017年11期)2017-12-20一种基于局部直方图匹配的深度编码滤波算法软件导刊(2016年9期)2016-11-07叠加速度谱在钻孔稀少地区资料解释中的应用科技视界(2016年2期)2016-03-30基于TMS320C6678的SAR方位向预滤波器的并行实现火控雷达技术(2016年2期)2016-02-06

推荐访问:感知 视听 虚拟