声源定位

2024-11-03

声源定位(精选8篇)

声源定位 篇1

摘要:传统麦克风声源定位在噪声环境下无法精确的定位出声源, 而人耳却能准确的辨别出来。根据人耳这一特性, 提出一种在多声源环境下基于耳蜗基底膜的声源定位。该方法利用多麦克风进行声音信号的采集[1-2], 然后采用基底膜滤波器对声源信号进行滤波, 这里采用GC-4滤波器进行滤波, 最后再进行声源定位。实验结果证明在多声源情况下基于耳蜗基底膜的声源定位能提高定位精度。

关键词:声源,耳蜗基底膜,滤波器,精度

人耳听到声音的过程是:首先通过听觉系统的外耳, 实现对声音信号的收集和放大!然后经由耳道传输至耳膜, 经过中耳的阻抗匹配后传导至内耳的耳蜗[3]。耳蜗基底膜对声音信号具有频率选择特性, 即不同频率会在基底膜的不同位置产生不同幅度的调谐峰, 基底膜的这种频率选择特性相当于一个带通滤波的过程, 人耳听觉系统以此实现对声音信号的滤波.经过基底膜滤波之后的声波信号传递到内毛细胞.内毛细胞接受耳蜗传来的振动信号, 经过半波整流之后将其转换成神经电信号由听觉神经纤维实现对声音信号的脉冲编码。

1 耳蜗基底膜特性

声音信号在耳蜗中传输时, 耳蜗对声音信号进行滤波处理, 此时耳蜗相当于一组带通滤波器。而耳蜗基底膜贯穿了耳蜗的底部到顶部, 是耳蜗内对声音信号滤波的主要执行者。耳蜗基底膜主要有以下几个特性: (1) 频率选择; (2) 频谱分析特性; (3) 滤波器频率响应的非对称; (4) 滤波器频率响应的强度相关。

耳蜗基底膜上的每一个点都在一个特定的频率下响应出现峰值。对高频声学信号, 耳蜗基底膜的峰值出现在基底膜的底端附近, 相反对低频声学信号, 耳蜗基底膜的峰值出现在基底膜的顶端附近。耳蜗基底膜纵向位置上, 存在频率部位的转化关系。在耳蜗基地膜的顶端开始, 500Hz以上声音信号, 相对带宽基本为恒量, 其最大方位的包络的线性距离与频率的对数基本上呈线性关系, 耳蜗基底膜的与频率的这种联系如 (1) 式所示:

BF的单位是k Hz;x表示的是基底膜某处离基底膜顶部的长度和基底膜的全长的比值, 一般数值在0~1范围内;表示的是常数参量 (=2.1) ;k表示的也是常数参量 (k=0.85) 。A表示的也是常数参量 (这里取值为A=0.1654) 。

耳蜗基底膜的特性明显可以看出耳蜗基底膜具有滤波的作用, 由此可建立滤波模型。

2 GC滤波器的设计改进及实现

基底膜特性可以建立一个更加符合人耳听觉特性的滤波器, 使其具有更好的频率选择性能, 本文选用GC滤波器, 并对其进行改进。GC滤波器是一种标准的耳蜗听觉滤波器, 该滤波器组的冲激响应的典型模式为 (2) 式所示:

其中:

通过傅里叶变换, 上式可变为GC滤波器的幅频响应, 如式 (3) 式所示:

由上述可以知道, GC滤波器是由GT滤波器级联一个非对称补偿滤波器得到, 所以, 其改进实质上是在GT-4上级联一个非对称补偿滤波器。而文章的非对称补偿滤波器没有冲激响应函数, 需要从补偿滤波器的设计方法实现。

将式子 (5) 简化为式 (7) 。

非对称补偿滤波器在z域的表达式为 (8) 所示:

由式 (9) 分析可以得到, 将GT-4滤波器级联一个低通滤波器, 然后再级联高通滤波器后, 最终形成GC-4滤波器。

然后利用改进后的GC-4滤波器进行滤波, 最后利用内毛细胞模型, 耳蜗核模型以及神经纤维模型获取脉冲发放率。最后采用映射求和互相关算法求得双耳对应频率通道的互相关函数。这里的加权函数采用相位变化加权函数。具体表达式如公式 (10) 所示:

其中, 是由两个滤波器组第i个滤波器通路测得的信号的互功率函数。然后将互相关函数是通过一个合适的映射函数 () 获得如下方程式所示:

其中, Θ为常用的经验公式, 本文采取时间差对应角度位置的常用公式, 如式 (12) 表示:

相对于空间坐标中的新函数, 将其定义为映射GCC函数 (m GCC) 。通过映射函数, 便可以得到左右两个相同频率通道求得的空间坐标。然后求得各频率通道中目标声源分量的空间坐标。然后将保留下来的空间坐标进行相加, 如式 (5.35) 所示各信号源的位置。该式定义为求和GCC函数 (s GCC) 。

3 声源定位估计通过找到在全局坐标式最大的峰值位置来确定

如公式 (14) 所示。在一个声源的时候, 值存在一个最大的峰值。而且, 当存在多个声源的时候, 求和GCC的结果不仅仅是唯一的峰值, 还存在第二个或者多个峰值, 这是因为空间坐标相加得到的峰值位置表示的声源的位置。在多声源下基于耳蜗基底膜的声源定位角度误差明显小于其他两种方法。由此证明:在多声源环境下, 基于耳蜗基底膜的声源定位系统比基于麦克风阵列的定位系统和基于过零点的声源定位系统具有更高的定位精度。

参考文献

[1]赵秀粉.基于麦克风阵列的声源定位技术研究[D].电子科技大学, 2013.

[2]基于小型麦克风阵列的声源定位技术[J].华中科技大学学报, 2013, (41) :1671-4512.

[3]曲天书, 曹松潍.双耳时间差和强度差与声源距离线索关系的研究[J].北京大学学报, 2010, 46 (06) :0479-8023.

[4]罗元, 陈君.基于耳蜗基底膜特性的语音特征提取方法及在智能轮椅上的应用[J].计算机应用, 2012, 29 (10) :1001-3695.

声源定位 篇2

关键词 仿生学 声源定位技术 听觉系统 声音信号 目标声音

中图分类号:TB51 文献标识码:A

1仿生学概览

1.1仿生学的发展历史

通过研究可以得出结论:一些植物和动物具有类似的功能,实际上超出人们关于这方面设计的方案需要。人们通过模仿动物和植物在技术方面得以借鉴,是一个突破。仿生学是一门交叉学科,如工程仿生技术和生物科学相结合,近年来发展迅速。对于合理应用生物学原理,不仅要找到一些长期存在难题的解决方案,而要使这个方案完全适应自然的需要。

仿生学研究生物学的系统结构,研究功能,信息控制与能量转换等的优良特性,而这些特性应用于实际系统,用于改善现有的技术,并建立一个全面的自动设备,工艺,技术架构配置系统等。从生物学的角度看,仿生学的一个分支,属于生物学的应用。仿生学作为一门独立的学科,在1960年9月问世,仿生学在俄亥俄州空军基地的第一次会议在美国空军航空局召开了。从第二十世纪50年代以来,人们已经认识到,生物系统是一个开发新技术的主要途径。人们通过数学,化学,物理和数学模型,对生物系统的研究,并促进生物学快速发展,而研究生物功能的机制也取得了很大的进步。

1.2仿生学的应用背景

仿生学已经进入了各行各业技术创新和技术革命的前沿,如在自动控制,航空,航海等军事领域都获得了不少的成就。科学家的灵感来自与旗鱼状突起的长针,开发超音速飞机在高速飞行时产生刺耳声的屏障;从鲸鱼的形状发展潜艇;通过模仿蝙蝠的行为使雷达可以在任何时间根据脉冲参数的目标检测方法和调整方向,提高雷达的灵敏度和抗干扰的能力。

仿生学的任务是研究生物系统与生俱来的能力和原则,为这些能力与原则创建相应的数学模型,并设计崭新的设备,开展了一个全新的应用空间。听觉仿生模型应该更全面地描述目标声识别过程。现在大多数的研究没有在本质上对听觉系统创建出一个合理的模型,特征提取不能够完全体现出声音的特点。因此,在听觉系统模型几何部分中建立一个更精确的语音识别系统是发展的必然趋势。

1.3机器人听觉系统的应用

随着电子技术和数字信号处理技术的发展,仿人机器人(如图1所示)的研究有了新的进展,机器人听觉与视觉系统是智能机器人的重要标志,已成为机器人研究领域的一个重要研究方向,是实现机器人与环境的相互作用和人机交互的一个重要手段。因为声音绕过障碍,听觉可以由机器人多信息采集系统来实现功能,利用机器人的其他感官来弥补其他传感系统无法通过非透明障碍物的缺点。此外,对于模拟人类听觉系统的研究,也表明了人类对于听觉生理能力所掌握的知识程度很高。

2声源定位技术的发展

2.1声源定位技术的应用背景

声源定位技术是对具有听力功能的耳朵进行仿真,利用声波传感装置接收声音,声音信号通过电子设备进行处理,从而实现并定位声源识别的检测,定位和声源目标跟踪。利用被动声来定位,并对多通道信号分析与处理,得出一个或多个在平面或在空间域中的声源空间坐标,以获得声源位置。

声源定位技术具有隐蔽性强,适应性强的优点,成本低,逐渐受到世界各国的重视,在军事和民用领域具有广阔的应用前景。在水下感知目标,在危险的环境中应用程序来完成战场扫雷工作。声探测技术在许多控制装置中得到广泛使用,如声雷达,被动声纳,语音识别系统,视频会议系统和辅助收听系统等。它可用于扬声器麦克风阵列波束的方向控制,视频会议系统的对准;也可用于语音信号的预处理,提供高质量的声音信号,提高相关的系统功能;检测管道泄漏的位置,管道泄漏后的声波振动会沿墙传播,只要在管道泄漏的地方进声源振动信号的采集,就可以通过两个信号时延估计确定泄漏的位置;在电话会议中的声源定位,语音信号接收不同谈话的人,根据不同的传感器位置接收声音信息,确定发言人的立场;对于室内监控系统,安装拾音器在走廊,房间,采集目标方位角接收到的声音信号,并进一步记录声音和图像目标的信息。声源定位技术具有应用价值和广阔的发展前景,值得研究。

2.2声源定位技术的优势

声源定位技术是利用电子装置来获知声音位置的信号处理技术。声源定位技术可以分为被动声源定位和主动声源定位两种。主动定位包括发送和接收装置,如雷达发射信号的使用,根据目标的接受波形来判断的位置。被动声定位是接收装置,与传统的主动声源定位技术相比,它具有隐蔽性强的优点,不易受电磁干扰。

参考文献

[1] 郭策,戴振东,孙久荣.?生物机器人的研究现状及其未来发展[J].机器人,2005(02).

[2] 崔玮玮,曹志刚,魏建强.?声源定位中的时延估计技术[J].数据采集与处理,2007(01).

近场声源定位算法研究 篇3

关键词:语音信号处理,麦克风阵列,声源定位,近场DOA估计,子空间方法

0 引言

近年来,基于麦克风阵列的声源定位技术快速发展,并且在多媒体系统,移动机器人,视频会议系统等方面有广泛的应用。例如,在军事方面,声源定位技术可以为雷达提供一个很好的补充,不需要发射信号,仅靠接收信号就可以判断目标的位置,因此,在定位的过程中就不会受到干扰和攻击。在视频会议中,说话人跟踪可为主意拾取和摄像机转向控制提供位置信息,使传播的图像和声音更清晰。声源定位技术因为其诸多优点以及在应用上的广泛前景成为了一个研究热点。

现有的声源定位方法主要分为三类:基于时延估计的定位方法、基于波束形成的定位方法和基于高分辨率空间谱估计的定位方法。基于时延估计的定位方法[1]主要步骤是先进行时间差估计,也就是先计算声源分别到达两个麦克风的时间差,然后根据这个时间差和麦克风阵列的几何结构估计出声源的位置。该类方法的优点是计算量较小,容易实时实现,在单声源定位系统中已经得到广泛应用。基于波束形成的定位方法[2]不需要直接计算时间差,而是通过对目标函数的优化直接实现声源定位。但由于实际的应用环境中,目标函数往往存在多个极值点,因此如何优化复杂峰值的搜索过程就成为了一个重点。基于高分辨率的空间谱估计的声源定位算法,例如宽带的MUSIC(Multiple Signal Classification)方法[3]和最大似然方法[4],因其可以同时定位多个声源并且具有比较高的空间分辨率,受到了广泛的关注。

空间谱估计的方法源于阵列信号处理,其中的多重信号分类(MUSIC)算法在特定条件下具有很高的估计精度和分辨力,从而吸引了大量的学者对其进行深入的分析与研究。但与阵列信号处理不同的是,在声源定位中,声源在大多数情况下是位于声源近场的。为了解决这一近场问题,许多学者针对传统的信号模型提出了改进算法,Asano等人将传统时域的MUSIC[5,6]算法应用在频域中,提出了一种基于子空间的近场声源算法[7]。下面来看一下近场的声源信号模型。

1 近场声源信号模型

传统的阵列信号处理大多是基于远场模型的平面波信号的假设,但是在声源定位的实际应用中,有很多情况是处于声源近场的[8],例如视频会议,机器人仿真等。同时又由于麦克风阵列阵元拾音范围有限,更多的情况下定位也处于近场范围内,此时信源到达各麦克风阵元的信号应该是球面波,其衰减不是单一的常数,这种非线性决定了麦克风阵列声源定位的信号需要应用近场球面波模型(如图1)。

假设M个全方向无差异的麦克风组成一个均匀直线阵列(如图1所示),麦克风阵元的间距为d,不妨设入射声源为点源,则P个入射声音信号S1,S2……,SP各自的方位角以及距离参数为:(θ1,r1)(θ2,r2)……(θp,rp)。其中,θi为声源Si和阵列的参考点(阵列中心)之间的连线与麦克风阵列所在的直线之间的夹角,ri为声源Si与阵列的参考点之间的距离,i=1,2,…,P。

则可以得出,第i个入射声源信号Si与第m个麦克风阵元之间距离为:

其中,dm为第m个麦克风阵元与阵列的参考点之间的距离,且满足

由此可得出,第i个入射声源信号到第m个阵元的距离与其到参考点的距离之差为

从而可以得出第i个入射声源信号到达第m个麦克风阵元与其到达参考点的时间差为

其中,c为声音在空气中传播时的速度,这里取c=340m/s。

第m个麦克风阵元所接收到的来自第i个入射声源信号的信号为:

其中,α是声源信号在传播中所产生的幅度衰减参数,在近场环境模型下,其值为

当ri→∞时,α=1,即由近场模型转变为远场模型。

对于P个入射信号,第m个麦克风所接收到的全部信号为:

由此可以得到,整个阵列所接收到的信号为:

其中,S(t)=(s1(t),s2(t),…,sp(t))T,N(t)=(n1(t),n2(t),…,np(t))T,H为空间阵列的M觹P维的导向向量阵,即为入射信号的方向矢量。

2 MUSIC算法基本原理

结合上面所介绍的数学模型(8),在条件理想的情况下,数学模型所在的空间中的信号子空间与其噪声子空间应该是相互正交的,那么信号子空间的导向矢量也应与其噪声子空间相互正交,即

同时应该注意到,在实际接收中得到的数据矩阵长度是有限的,所以无法精确求得信号的数据协方差矩阵R。基于以上考虑,数据协方差矩阵的最大似然估计为:

对上式特征值分解就可以得到噪声子空间的特征矢量矩阵U`N。但是由于噪声的存在,U`N和aH(θ)并不能完全正交,这就导致式(9)不成立。因此,DOA的估计应该是通过搜索使aH(θ)U`N取最小值时的θ来实现的,所以可以定义MUSIC的谱估计公式为:

只要对PMUSIC进行谱峰搜索,找出其极大值点对应的角度,就得到了信号入射的方向。

3 实验结果与分析

下面应用计算机仿真方法来验证前面的算法,仿真运用Matlab语言。实验中采取一维均匀直线阵,采用8个全向无差异的麦克风,在x轴上均匀分布,间距为10cm,取32ms为一帧,采样率设为16k Hz进行数据处理。选取汉明窗,窗长16ms,对输入信号进行实时的傅立叶变换。

不同信噪比情况下,在不同角度上算法准确率的仿真结果如表1所示。

从表1中可以看出,在信噪比为-5d B时,算法估计的准确率可以达到80%以上,在信噪比大于0d B时,算法估计准确率可达95%以上。在不同的信噪比下,定位算法所表现出的性能不同,随着信噪比的增加,其定位性能更加准确。

4 结束语

声源定位技术是目前研究的热点之一,可以广泛应用在生活,军事等领域中。此技术所要解决的问题是如何用可探测到的信号来对声源目标的位置进行估计。本文在构建了麦克风阵列近场模型的基础上,应用经典的MUSIC算法对空间中的声源进行定位。该算法先对接收到的矩阵进行频域预处理,然后利用MUSIC子空间的方法得到空间谱,再通过对得到的空间谱进行搜索,从而得到估计值。Matlab仿真结果表明,此算法拥有良好的定位性能,但在研究过程中发现此算法的复杂度比较高,如何减小算法的复杂度是下一步的研究工作。

参考文献

[1]OMOLOGO M,SVAIZER P.Use of the crosspower-spectrum p-hase in acoustic event location[J].IEEE Trans.on Speech andAudio Processing,1997,5(3):288-292.

[2]DIBIUSE J.A high-accuracy,low-latency technique for talkerIocalization in reverberant environments[D].Providence RI,USA:Brown University,2000.

[3]居太亮,彭启琮,邵怀宗,等.基于任意麦克风阵列的声源二维DOA估计算法研究[J].通信学报,2005,26(8):129-133.

[4]CHEN J C,YAO K,HUDSON R E.Acoustic source localizati-on and beamforming:theory and practice[J].EURASIP Journalon Applied Signal Processing,2003(4):359-370.

[5]SCHMIDT R O.Multiple emitter location and signal parameterestimation[J].IEEE Trans AP,1986,34(3):276-280.

[6]ZHANG Q.Probability of resolution of the MUSIC algorithm[J].IEEE Trans Signal Processing,1995,43(4):978-987.

[7]ASANO F,ASOH H,MATSUI T.Sound source localization andseparation in near-field[J].1EICE Trans Fundamentals,2000,E83-A(11):2286-2294.

基于阵列的声源定位系统 篇4

基于阵列的声源定位是将若干个传声器按照一定的几何关系排列,通过信号处理的方法对阵列接收到的信号进行处理,从而确定声源的空间位置。它在视频会议、目标定位、语音识别等领域都有重要的应用价值和广阔的应用前景。

2 定位原理与算法

2.1 广义互相关时延估计算法

自从G.Carter等学者提出广义互相关时延估计法后,这一方法就得到了很大的发展,它是以广义互相关理论为基础,通过对接收信号进行加权处理实现的。

2.1.1 基本互相关

设x1(t)和x2(t)分别为两个传声器的接收信号,S(t)为源信号,D为两阵元间的时延,n1(t)、n2(t)为加性噪声,α为声波相对衰减系数,则:

x1(t)、x2(t)的互相关函数为:

其中:τ为时间量。假设S(t)、n1(t)、n2(t)为互不相关的平稳随机过程,则式(2)的后3项均为0。令α=1,则有:

其中:Rss(τ-D)为S(t)的自相关函数。由相关函数的性质R(0)≥R(τ)可知,当τ=D时,Rss(τ-D)取最大值。因此计算出两接收信号的互相关函数并求出峰值出现的时刻τ,τ就是所求的时间延迟D。

2.1.2 广义互相关时延估计

信号x1(t)和x2(t)先经过预滤波器H1(f)和H2(f)滤波,变为y1(t)和y2(t),再求其互相关函数,经过峰值检测确定时延估计值D。

两路信号经预滤波处理后,其互功率谱可表示为:Gy1y2(f)=H1(f)H2*(f)Gx1x2(f)。………………(4)由于互相关函数与互功率谱函数是一对傅里叶变换的关系,则相关函数输出为:

其中:W(f)为权函数,W(f)=H1(f)H2*(f)。由式(5)可以看出,W(f)=1时就是基本互相关,对于功率谱比较平坦的宽带信号,它的性能很好,但当功率谱随频率变化很大时,就会产生较大的时延估计误差,因此需要合理选用权函数以提高时延估计的精度。

2.2 定位模型

空间四元阵模型如图1所示。

作如下设定:

(1)S为球面波声源;T1、T2、T3、T4为传声器;直角坐标系下各点坐标为S(xs,ys,zs)、T1(x1,y1,z1)、T2(x2,y2,z2)、T3(x3,y3,z3)、T4(x4,y4,z4);r为S到坐标原点的距离;di为S到Ti的距离(i=1,2,3,4);T2、T3、T4与T1间的声程差分别为:d21=d2-d1、d31=d3-d1、d41=d4-d1。

(2)t21、t31、t41分别为T2、T3、T4相对于T1接收到信号的时延估计;c为声速。则:d21=d2-d1=t21c;d31=d3-d1=t31c;d41=d4-d1=t41c。基于时延的目标定位原理表达式为:

将式(6)变形整理得:

其中:xij、yij、zij(i=1,2,3,4;j=1,2,3,4)为各阵元对应坐标的差值;rij(i=1,2,3,4;j=1,2,3,4)为对应两阵元之间的距离。

由式(7)可以看出,只要将实际测得的时延值与阵列中各阵元的位置坐标代入便可求出S的空间位置坐标。

3 定位系统软件和硬件配置

3.1 系统硬件设计

系统硬件组成框图如图2所示。传声器为ECM888B测量传声器;采集卡为M-AUDIO fast track ultra专业声卡;计算机为普通的笔记本电脑。

3.2 系统软件设计

系统软件是基于LabView虚拟仪器平台开发的。软件包含4个模块:(1)信号的实时显示与滤波:设置了IIR、FIR滤波器供选择;(2)信号频谱分析:得到时延值、信号的功率谱、功率谱密度、幅度-相位谱等信息;(3)定位算法:求得声源的空间位置;(4)用户界面:可根据需要选择合适的采样率和滤波器。

4 实验

实验选在相对安静的室内大空间进行,尽量减小环境噪声和回声对定位精度的影响。声源为手机,传声器呈三角形排列的空间四元阵。定位系统示意图如图3所示。

参数设置如下:采样频率为48 kHz;精度位数24 bit;声速c取340 m/s;各传声器的坐标分别为

T4(0,0.01,0.1)。

实验中,保持声源S在x、z方向上的坐标不变,y方向上以Δy=0.1 m为增量,从距坐标原点0.2 m的位置移动到距原点1.3 m的位置,每个位置的观察时间为30 s,取均值。声源定位结果见表1。

由实验数据可以看出,当声源与声阵的距离小于1 m时,系统的定位精度很高;而当声源与阵列的距离超出1 m时,定位精度便出现较大偏差。这主要是由于传声器的灵敏度不够以及声源的音量较小所致。

5 总结

实验结果表明,系统在一定的距离范围内具有较高的定位精度。由于时间和实验条件的限制,该系统还有许多方面需要改进,如如何提高时延估计的精度、如何对多目标进行定位等。

参考文献

[1]陈华伟,赵俊渭,郭业才.四元十字阵被动声定位算法及其性能研究[J].探测与控制学报,2003,25(4):11-16.

[2]Knapp C H,Carter G C.The generalized correlation methodfor estimation of time delay[J].IEEE Transactions onAcoustics,Speech and Signal Processing,1976,4(4):320-327.

[3]邱天爽.时延估计的基本原理和方法[J].海洋技术,1992,11(3):17-25.

基于HRTF的虚拟声源定位 篇5

心理声学的研究表明,在自由场情况下,对声源的方向定位因素包括双耳时间差、双耳声级差、谱因素等。双耳时间差是对声源定位的一个重要因素,点声源位于中垂面时,双耳时间差为零。双耳声级差是声源定位的另一个重要因素,点声源偏离中垂面时,就会形成于声源方向和频率有关的双耳声级差。耳廓对声波的反射和散射所引起的声压频谱的特征也是声源定位的一个因素。在头部固定不动的条件下,声波从声源到双耳的传输过程可以看成是线性时不变过程,头相关传输函数包含了以上的声源定位因素[1]。

2 头相关传输函数( HRTF)

在自由场( 略去环境反射声) 的情况下,声源到双耳的传输过程可以看成一个滤波器,这一滤波器的频率响应就包含了传输路径和耳郭对声音的共同响应,这一频率响应就是所谓的“头部相关传输函数( Head Related Transfer Function,HRTF) ”,头部相关传输函数包含了有关声源的主要空间信息,在双耳听觉的研究方面有很重要的意义。

头相关传输函数定义为自由场情况下从声源到双耳的频域声学传输函数,它表达了生理结构对声波的综合滤波效果,见公式( 1) ,公式( 2) 。

其中,PL、PR分别是简谐点声源在左、右耳产生的频域复数声压,P0是头移开后点声源原头中心位置处的频域复数声压。与HRTF相对应的时域表示称为头相关脉冲响应 ( Head Related Impulse Response,HRIR) 。本文中使用的数据来源于麻省理工学院多媒体实验室( MIT Media Lab) 测得的KEMAR HRTF数据库。

2. 1 HRTF 时域特性

根据MIT Media Lab公布的KEMAR HRTF数据库,我们在图1、图2中分别给出了仰角φ = 0°,方位角θ = 60°的左、右耳的头相关脉冲响应波形[2]。

当方位角为60°时,声源处于右前方位置,离右耳较近,由以上两图可见: 图1中左耳的HRIR比图2中右耳的HRIR有明显的起始时间延迟,反映了双耳时间差; 另外,图2中右耳的HRIR幅度明显强于图1中左耳的HRIR幅度,体现了双耳声极差。

2. 2 HRTF 频域特性

图3、图4分别给出了φ = 0°,θ = 60°的左、右耳的频域HRTF幅度谱。

HRIR在某些时刻变化剧烈,由于耳廓对入射声波的反射作用,声源同侧的HRIR波形( 图2) 较声源异侧的起伏变化更为剧烈。在频谱特性上则表现为声源位于耳的同侧时( 图4) ,平均情况下,高频HRTF幅度较低频有一定的提升。

3 虚拟三维音频合成原理及算法

由于要对基于HRTF的虚拟声源进行定位实验,所以首先需要使用HRTF数据库来合成具有方位信息的虚拟三维音频,使用HRTF数据库实现虚拟三维音频合成的实质是求HRTF与原始欲处理单声道音频信号的卷积[3]。

将输入的音频信号E0通过指定仰角φ和方位角θ 的左右耳HRTF滤波处理,见公式( 3) 、公式( 4) 。

所得到的双耳信号EL、ER通过一对耳机重放,就可以得到具有方位信息的双声道音频信号。信号处理基本原理图如图5所示[4]。具体算法步骤如下:

( 1) 读取原始单声道音频WAVE文件,并对时域信号进行快速傅立叶变换( FFT) 得到频域信号E0;

( 2) 选取仰角和方位角,从HRTF数据库中读取时域数据,并对其进行快速傅立叶变换得到频域HL和HR;

( 3) 用( 1) 中得到的E0分别与( 2) 中得到的HL、HR相乘,生成新的频域信号;

( 4) 对上一步生成的频域信号进行FFT逆变换,得到具有方位信息的时域音频信号;

( 5) 最后对( 4) 中得到的时域信号进行写WAVE文件。

4 虚拟声源定位实验

实验在一个安静的房间里进行,硬件设备包括一台计算机、一副头戴式耳机。被试听音人员为实验室的12名( 6男6女) 听觉正常者,被试人员有一个声源方位坐标系统以辅助报告听音方位,坐标系统由水平面和中垂面组成,如图6所示。用A4纸打印,被试者与计算机显示屏相背,看不到主试的操作界面。

在本实验中,使用10个具有方位信息的音频作为刺激信号,预设方位及声源代号如表1所示。原始单声道音频为2. 5s时长的女声语音文件。

具体实验步骤如下:

( 1) 给被试者发一张声源方位坐标系统图,然后正确佩戴耳机,坐姿端正且尽量避免头部摇晃;

( 2) 主试先给被试者播放一组具有各种方位信息的测试音频文件,不告知具体的方位,让被试者熟悉一下声音方位感;

( 3) 给被试者播放表1中的S1声源文件,要求被试者听到三次重复声音刺激后,报告自己感觉到的声源方位,如果没有听清,可以让主试再次重复播放直到能明确说出感觉到的方位角度为止;

( 4) 按照表1中的声源代号顺序,对S2 - S10声源文件,依次重复步骤( 3) 。

5 实验结果与分析

经过实验和结果数据统计,表2给出了每位被试者的声源定位正确率,表3给出了每个方位声源定位的整体正确率。

实验结果分析:

( 1) 从表2可以看出,被试者2( BS2) 的正确率较高,而被试者7( BS7) 的正确率却非常低。一方面,这是由于使用的HRTF数据是非个性化的,并不一定对每个人都适用; 另一方面,也有可能是被试者2对声音方位判断的敏感度明显高于被试者7的原因。

基于概率计算的声源定位技术研究 篇6

1、麦克风阵列的安排

我们采用麦克风阵列进行声音信号的采集, 将麦克风分别安放在相应的位置, 同时使用放大器进行信号的放大, 然后传输到系统的信号处理部分。

有很多可能的原因可能导致信号的错误, 如本地的声音来源, 诸如噪音、混响信号对麦克风的影响。

对目标信号的处理过滤是非常重要的, 其中之一就是本文提出的, 对目标信号到达不同麦克风的时间延迟进行过滤处理。

2、概率过程

尽管麦克风阵列被安排为成三角形排列, 但是系统周围的环境噪声和声学条件仍然可能会导致计算时间差的错误。麦克风之间的时间延迟的获得错误是导致定位错误的主要原因。使用马尔可夫过程用于计算一个时间延迟。两个麦克风之前的时间延迟被选中作为状态变量。

∆Tij是麦克风i和j之间的时间延迟, 根据观察到的声音信号, 我们想计算出当前计算时间延迟是否是可靠的。根据目前的麦克风阵列 () 获得的可能的时间延迟可以写成下面公式 (2) 的形式:

总的来说, 对一个声源定位我们需要逐步的进行概率递归, 这个过程需要两个部分—预测和更新部分。

2.1 预测部分

在预测部分, 运动模型预测当前状态的概率, 在时间框架和当前状态取决于前面状态的情况下, 声音来源不能移动在一个特定的角度。因此, 运动模型, 我们使用用高斯模型方程来描述, 如公式 (3) :

根据这个运动的模型, 我们可以估计每个时间延迟的状态概率, 如公式 (4) 。

当前的状态是求和预测的, 因为两个麦克风之间的时间延迟是离散的和依赖于采样频率的。

2.2 更新部分

当获得后验分布后, 测量系统就可以从麦克风的话筒获得一个健全的声音信号, 我们提出了一个可能的测量系统模型, 使用某一对麦克风之间的时间延迟计算互相关值。

这里是麦克风i在时间t的声音信号, 关于的后验分布是根据贝叶斯公式等到的:

当这个概率是最高值得时候, 就是我们期望的麦克风对之间的时间延迟。相对于每个麦克风对, 这个过程是独立的。

2.3 后置处理

根据我们配置的麦克风阵列之间获得声音信号的时间延迟的值, 我们可以确定声源的位置。根据我们采用的后验分布模型, 取决于测量值, 似然模型, 时间延迟, 选择上述的概率过程, 过滤掉那些不需要的时间延迟设置, 当时间延迟符合特征值的时候, 采用这些时间延迟计算声源的位置。

2.4 声源定位

当获得合适的时间延迟之后, 假定传感器坐标为 (x1, y1) , (x2, y2) , (x3, y3) 。声源目标坐标为 (x, y) 。

式中:r21为目标到达一号传感器与二号传感器的距离差;r31为目标到达一号传感器与三号传感器的距离差。v为声速;1t, 2t为时间差。

根据获得的时间差就可以计算出声源目标的位置。由此可以看出时间延迟的获得对声源定位的精度起决定作用。

3、结语

声音是人们控制智能设备的一种重要的基本形式, 提供了大量的人类与智能设备的空间和时间的信息。根据麦克风阵列之间获得声音信号的时间差, 通过计算确定了声源目标的位置。在本文, 我们采用了概率的方法来提取时间延迟, 是定位结果更加可靠。使用这种方法我们可以设计一个声源目标的跟踪装置, 在一些特定的场合取代人类, 进行目标的监测。这种方法比传统的T D O A方法更加准确, 定位效果更加理想。

参考文献

[1]Seung Seob Yeom, Yoon Seob Lim, Hong Sick Kim, Jae Moon Lee, “An Application System of Probabilistic Sound Source”, In-ternational Conference on Control, Automation and Systems 2008, Oct, 14-17, 2008.

[2]林岳松, 杜巍, 郭云飞.被动声传感器网时延概率定位算法.传感器技术学报, 2009.9.

[3]唐皓, 吴季达, 鲁东生.基于TDOA原理计算信号源位置的算法探讨.Vol.38No.10A, Oct2011.

麦克风阵列声源定位算法研究综述 篇7

声音历来是人们广泛使用的信息载体, 作为一种重要的信息资源, 是信号与信息处理领域的一个重要研究内容。而声音信息采集工具———麦克风是其中的一个研究方向。单个麦克风具有声音拾取范围有限和噪声抑制能力弱等缺点, 无法满足日益增长的语音通信质量要求。麦克风阵列在时域和频域的基础上增加了空间域, 对声音信息的处理能力增强, 成为众多高质量语音通信应用的首选目标。

麦克风阵列声源定位是利用麦克风阵列拾取高质量的声音信号, 再结合声源和阵列结构之间的关系, 得到一个或者多个声源的位置信息, 为人们更好地利用声音提供帮助。相比传统的雷达定位技术, 麦克风阵列声源定位具有隐蔽性好、不易受干扰等优势, 应用前景广阔。特别是在军事应用方面, 现有的麦克风阵列声源定位系统已经显示出极大的优越性, 引起了许多国家军方的高度重视。

2 麦克风阵列声源定位系统研究概况

近年来, 基于麦克风阵列的声源定位研究一直是非常活跃的研究课题。许多国家如美国、法国、意大利、以色列和加拿大等相继开展了这方面的研究工作并卓有成效。研制的很多麦克风阵列声源定位系统已经广泛应用于社会生活的各种场合, 发挥着极其重要的作用。

在军事及警用领域, 美国、法国及以色列等国家多次投入经费, 研究和开发基于固定麦克风阵列的枪声探测系统, 并在伊拉克战争中展现出出色的探测能力。AAI公司的PDCue系统将麦克风安装在车辆的四角, 可以提供低轮廓和360度的态势感知能力。在任何环境下, PDCue系统都可以根据单发、多发和点射枪声迅速定位并跟踪枪声来源。BBN公司研发的Boomrange系统利用八元球形麦克风阵来进行枪口口径、子弹速度及弹道轨迹的估计, 并能得到狙击手的距离, 且方位角的平均精度为1.2°, 俯仰角为3°, 距离为1.6%。南加州大学等学校针对现有雷达系统难以发现低空直升机的弱点正积极研发相关声源定位系统, 目前已取得较大进展。

国内近几年也在麦克风阵列声源定位方面进行了大量研究, 受到国防科技重点实验室基金和国家自然科学基金的支持, 并已取得了一定的成果。其中炮用立靶声定位系统列入国家军用标准, 弹头落点定位系统和敞开型胸环靶系统也已通过鉴定并列入国家军用标准。

3 基于麦克风阵列声源定位算法研究现状

麦克风阵列声源定位是利用麦克风阵列拾取高质量的声音信号, 再结合声源和阵列结构之间的关系, 得到一个或者多个声源的位置信息。它是阵列信号处理的一个新兴分支, 继承和发展了许多传统的阵列信号处理算法。

目前广泛使用的声源定位算法分为三类:基于波束形成的定位算法、基于高分辨率谱估计的定位算法和基于到达时延差 (TDOA:Time Difference of Arrival) 定位算法。其中, 基于波束形成的定位算法是采用波束形成技术, 调节麦克风阵列的接收方向, 以网格搜索的方式在整个接收空间进行扫描, 使麦克风阵列所形成的波束对准信号源, 从而获得最大的输出功率点。它是出现较早的定位方法之一, 盲波束形成技术是这类算法中新的研究内容。基于高分辨率谱估计的定位算法用求解阵列接收信号的协方差矩阵的方法获得空间谱函数, 再由此信息进行声源定位, 广泛使用的算法有MUSIC、ESPRIT、子空间拟合等。

基于到达时延差的方法计算相对较简单, 是实际应用最广泛的一种定位方法, 近年来发展很快。互相关法是出现最早使用最广泛的一种时延估计算法。布朗大学于1995年实现了一个实时声源定位系统, 该系统采用相位变换的时延估计算法和线性插值方位估计算法。1997年新泽西州立大学采用相位变换法作为时延估计和非闭合的方向搜索算法进行实时的声源定位。佐治亚理工大学电子与计算机工程系Yiteng Huang于2001年采用自适应特征值分解算法 (AEDA Adaptive Eigenvalue Decomposition Algorithm) 对时延进行估计, 用线性校正最小二乘法来估计声源方位。

4 展望

基于麦克风阵列的声源定位研究最早起源于80年代, 近年来由于其在语音处理方面具备的独特优势, 已经取得了很大的进展, 但随着麦克风阵列应用的进一步加深, 也涌现出很多需要研究解决的问题:一是, 小孔径阵列的各种抗干扰研究和声源定位精度提高。二是, 分布式麦克风阵列, 在任意布阵的情况下, 不依赖固定结构来实现声源定位。三是, 降低算法复杂度, 提高算法和硬件平台的兼容性。随着研究的进一步深入, 麦克风阵列声源定位必定会具备越来越广阔的应用前景。

摘要:基于麦克风阵列的声源定位是利用麦克风阵列拾取声音信号, 再结合声源和阵列结构之间的关系, 得到一个或者多个声源的位置信息, 为人们更好地利用声音提供帮助。麦克风阵列声源定位技术具有隐蔽性好、不易受干扰等优势, 应用前景广阔。

关键词:麦克风阵列,声源定位,现状,问题

参考文献

[1]J.Z.Stafsudd, S.Asgari, R.Hudson K.Yao, E.Taciroglu.Localization of shortrange acoustic and seismic wideband sources:Algorithms and experiments, Journal of Sound and Vibration, 2008, 312, 74-93.

[2]Valin J M, Michaud F, Rouat J.Robust.localization and tracking of simultaneous moving sound sources using beamforming and particle filtering.Robotics and Autonomous Systems Journal, 2007, 55 (3) :216-228.

[3]J.Millet and B.Balingand.Latest achievements in gunfire detection systems, In proc.of the RTO-MP-SET-107 Battlefield Acoustic Sensing for ISR Applications, Neuilly-sur-Seine, France, 2006.

声源定位 篇8

据统计, 交通噪声约占城市噪声的70%。随着车辆的增多, 频繁嘈杂的鸣笛声不但影响周边居民的生活质量, 而且增加行车疲劳, 影响安全驾驶。如果能利用声音传感器将违章鸣笛声源定位, 辅以视频观测装置对禁鸣区进行监管, 有助于杜绝此类违章行为。

声源定位系统的应用前景广阔。在控制机器人行动, 定位发言人位置, 室内家电控制, 防盗等多种不同领域都有着不同程度的运用。本文研究了一种类似于“电子警察”的智能电子交通执法系统, 提出了一种利用各声音传感器接收到的目标信号时间差来定位违章鸣笛的汽车声源位置的方法。

一、声源定位的模型算法

设:在直角坐标系中, p表示声源 (可置于任意位置) , s1, s2, s3, s4分别表示以立体十字形阵列对称分布的4个麦克风, 其中:s1位于x轴正半轴, s2位于y轴正半轴, s3位于x轴负半轴, s4位于y轴负半轴。d表示麦克风到坐标原点的距离, ri表示声源p到传声器si的距离, tij表示声源到传声器si与sj之间的时延, 点声源到坐标原点的距离r、俯仰角θ和方位角φ, 声速为c。

利用两点间距离公式并通过化简方程得出距离、方位角和俯仰角的计算公式:

俯仰角:

距离: (8) 方位角:

二、系统总体硬件设计

1、传声器的选择

各种类型的传声器由于其内部结构和换能原理的不同, 有其各自的独特性能和使用范围。高质量的录音和播音, 主要要求音质好, 应选用电容式传声器、铝带传声器或高级动圈式传声器。而一般扩音时, 选用普通动圈式即可当讲话人位置不时移动或讲话时与扩音机距离较大, 如卡拉OK演唱, 应选用单方向性、灵敏度较低的传声器, 以减小杂音干扰等。

本系统主要是采集20Hz到20KHz内的声音信号, 且不要求高质量的声音信号, 故将四个PC机用的麦克风固定在十字架上组成麦克风阵列。

2、数据采集卡的选择

普通计算机的声卡就可用于数据采集。从测控的角度来看, 声卡是一个具有双通道A/D、D/A的信号采集和输出设备。它在音频范围内有很平滑的频率响应, 采样频率可达192KHz, 采样深度可达24位, 存储深度极大, 可充分利用计算机内存。声卡内部的增益控制使得在不外加信号衰减电路的情况下也可以测量低电压信号。

本系统选用MAYA44V3声卡作为数据采集卡。

三、声源定位系统软件设计

1、主页面设计

主页面主要由“配置声卡参数”、“启动采集”、“频谱显示”、“定位显示”四个按钮组成。在每个子模块独立运行后, 可通过“返回”按钮回到主界面。

程序框图中有一个WHILE循环和一个事件结构, 该事件结构触发条件来源于用户单击界面上任意一个按钮。设置WHILE循环的“Wait Until Done”参数为“False”使动态加载的VI与主VI独立运行, 设置前面板窗口打开为“True”来打开动态加载VI的前面板。

2、声音采集模块

声音读取程序中主要由“读取声音输入”、“配置声音输入”、“配置声音输出”、“写入声音输出”四个模块构成。

本系统需要进行四通道同步采集。LabVIEW会按采样设置运行声卡设备上的A/D转换器来扫描一组通道, 以提供最小的同步失真。同时, 信号在传输过程中不可避免地要混入干扰信号, 因此必须配合滤波手段采集。本系统采用高阶巴特沃斯滤波器, 可实现理想的低通响应。

3、信号分析处理模块

此模块包括“信号参数测量”、“幅度相位谱”和“功率谱”三个子模块, 并通过“Tab Control”控件触发事件结构实现。信号参数测量子模块通过全局变量调用声音文件数据, 使用“Amplitude and Level Measurements vi”进行相关参数测量分析, 结果在前面板中显示出来, 主要完成信号的周期平均值、周期均方根值、峰峰值、均值等的测量和显示测量幅度相位谱和功率谱。利用“Scaled window”节点进行加窗处理, 其主要目的是平滑截断出不连续的变化并减少泄露。

4、声源定位计算模块

本模块先判断声源所在象限, 然后利用前文所述的距离、方向角和俯仰角公式来进行坐标计算。判断象限的时候, 从两个方面同时进行判断:1) 从时间先后角度来判断, 可以通过“最大值时刻”VI来实现;2) 从能量大小角度来判断, 可以通过“最大值幅值”VI来判断。进行坐标计算的时候, 可以将“最大值相位”VI和“幅值最大时的信号频率”VI导入到“Matlab Script”VI里面, 结合前文所述公式进行计算。

5、摄像头图像采集模块

本模块需要配合USB摄像头和步进电机控制软件使用, 配合IMAQ图像处理模块来完成图像采集。利用“IMAQ Creat”节点来创建图像读取任务。采集视频前需进行数据初始化。初始化工作可由“IMAQdx Configure Acquisition”模块和“IMAQdx Start Acquisition”模块共同完成。然后利用“IMAQdx Grab”模块读取图像数据, 并通过“Image Display”模块完成图像显示, 通过“IMAQdx Stop Acquisition”模块完成一次数据清空, 结束一次循环。

四、结论

本文取得如下成果:

1、开发了声源定位系统, 选择麦克风和声卡作为系统硬件, 实现了利用互相关时延估计算法计算声源位置。系统具有开放性, 升级硬件即可提高性能, 性价比高。

2、提出将声源定位系统用于交通区域噪声源定位的设想。

参考文献

[1]Robert H.Bishop.《LabVIEW8实用教程》, 电子工业出版社, 2008年。

[2]李佳、丁红胜:《基于LabVIEW和USB摄像头的焊缝形貌检测研究》, 《自动化技术与应用》, 2011年。

[3]施珂毅、孙懋珩:《汽车鸣笛声定位算法研究及系统实现》, 《中国新通信》, 2009年。

上一篇:国际价值研究文献综述下一篇:当代体现