基于麦克风阵列声源定位的发展历程及关键技术

基于麦克风阵列声源定位的发展历程及关键技术

一、发展历程

早在20世纪七八十论文联盟年代,就已经开始将麦克风阵列应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点[1]。1985年flanagan将麦克风阵列引入到大型会议的语音增强中,并开发出很多实际产品。1987年silverman将麦克风阵列引入到语音识别系统,1992年又将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。1995年flanagan在混响环境下用阵列信号处理对声音进行捕获。1996年silverman和brandstein开始将其应用于声源定位中,用于确定和实时跟踪说话人的位置[2]。目前麦克风阵列系统已有许多应用,其中在民用上包括视频会议、语音识别、车载系统环境、大型场所的会议记录系统以及助听装置等;***用上包括声纳系统对水下潜艇的跟踪及无源定位直升机和其他发声设备上。在国外,很多著名的公司和研究机构,如ibm,bell等,正致力于麦克风阵列的研究和产品,而且已经有了一些初期产品进入市场[3]。这些产品已经应用到社会生活的各个场合并体现出了极大的优越性。遗憾的是,在国内,到目前为止还没有自主产权的麦克风阵列产品。因此,研究我国自主的基于麦克风阵列的语音处理算法和技术具有重要的意义。我国一些企业、研究所和高校做了大量的相关工作,但是目前对声源定位的研究才算刚刚起步。

二、声源定位关键技术

基于麦克风阵列的声源定位是指用麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或者多个声源的位置信息,其使用的关键技术有以下几个方面。

2.1 模型的建立

麦克风阵列的阵元按一定的方式布置在空间不同的位置上组成阵列,阵列能够接收空间传播信号,经过适当的信号处理提取所需的信号源和信号属性等信息。阵列按阵元在空间分布形式的不同,可以分为任意离散阵、直线阵、平面阵、圆弧阵和均匀圆阵。不同的阵列模型有各自的优缺点 ,可以用来处理不同的实际情况。

均匀直线阵由于结构简单,并且同时间序列的均匀采样完全对应,可以采用绝大多数基于时间序列的算法,因此受到很大的重视,应用也十分广泛。然而均匀直线阵列也有很多局限性,不适合多波束的形成,不能直接用于180°范围内的定位,往往是利用多个阵列组合定位,但增加了系统复杂度和实现成本,而且在麦克风阵列的算法处理中也需要进行切换。

平面阵虽然可以在整个平面对目标进行测向,但对于低空甚至是超低空飞行的目标来说,由于在z轴方向没有基元,测向精度受到限制。

均匀圆阵是阵元均匀分布在一个圆环上的圆形阵列,方向增益基本一致,可以提供360°的方位信息,但其对应一个二维空间,在时域无法找到对应的采样定理,会给算法实现带来麻烦,并且由于其圆对称性,均匀圆形阵列对相干声源的解算能力比较弱。但因其不需扇区切换,处理较为容易。

三维阵列结构较复杂,可以选择的算法不是十分丰富,实现成本较高,但是对整个三维空间定位性能好,适用于需要对整个三维空间定位的系统。

在利用麦克风阵列进行声源定位时,必须已知各个麦克风阵元之间的相对位置关系。不同的阵型结构对算法精度的影响也非常大,因此需针对不同的应用环境选择与之相对应的阵列结构。特别是对多个声源目标进行定位时,过小的阵列口径会极大地影响阵列的应用范围。因此,要根据不同的应用需求选取不同的阵列模型。

2.2 算法的选取

麦克风阵列接收的声音信号本身就是复杂的信号,因此声源定位算法必须能够适应信号的各种特性。不同的声源信号,采取的定位算法也可能不同:例如,在对说话人进行定位时,由于拾取到的语音信号没有经过调制,也没有载波,阵列之间的时延和相位差与信号源的频率关系密切,此时麦克风阵列处理的信号应该看做是一个宽带信号,而传统的定位算法是对窄带而言的。下面就两种经典的算法进行比较。

music算法的基本思想是将任意阵列输出的协方差矩阵进行特征分解,得到相互正交的信号子空间和噪声子空间,然后利用两者的正交性进行doa估算。music算法对波达方向的估计性能很好,可以高分辨地准确表现各信号的波达方向,如果参与运算的数据长度足够长或信噪比足够高,且信号模型准确的话,music算法可以得到任意精度的波达方向估计值。但是music算法是以信号子空间和噪声子空间能够准确得到为前提,如果信噪比低或样本数不够,music算法的分辨率会大幅下降。

基于时延估计(tdoa)的声源定位法在运算量上优于其他方法,实时性好,可以在实际中低成本实现,但也有不足之处:其一是估计时延和定位分成两阶段来完成,因此在定位阶段用的参数已经是对过去时间的估计,这在某种意义上只是对声源位置的次最优估计;其二是时延定位的方法比较适合于单声源的定位,而对多声源的定位效果就不好;其三在房间有较强混响和噪声的情况下,往往很难获得精确的时延,从而导致第二步的定位产生很大的误差;其四是由于阵列结构和系统采样率等条件的限制,其定位精度远远不能与超分辨类算法相比。

任何一种算法都不可能适用于所有情况,我们在不断完善算法,优化其性能的同时,应根据不同的应用环境来选择最佳算法,从而达到最佳效果。

三、麦克风阵列处理的难点

采用多个麦克风构成一个麦克风阵列,在时域和频域的基础上增加一个空间域,对接收到的来自空间不同方向的信号进行空时处理,这就是阵列麦克风信号处理的核心思想。阵列信号处理理论的完善和发展,促进了基于阵列麦克风的信号处理理论的发展。很多用于阵列信号处理的新算法、新技术和新体系,都可以用于阵列麦克风。可以说,阵列信号处理理论的发展为阵列麦克风的研究带来了新的契机[4]。

基于麦克风阵列的语音信号处理是阵列信号处理的一种,但它又不同于传统的阵列信号处理,其主要技术难点如下:

3.1 麦克风阵列模型的建立

麦克风主要用于处理语音信号,同时阵列麦克风的拾音范围都有限,因此,声源大都位于麦克风阵列近场范围内。这使得传统阵列处理,如雷达、声纳等,所用的平面波前远场模型不再适用,必须使用更为精确的球面波前模型[5]。球面波前模型必须考虑由于传播路径不同所带来的幅度衰减的不同,即除了信号的到达方向外,还需要考虑声源与阵列之间的距离。所以,进行麦克风阵列研究,必须建立适用于麦克风阵列的近场模型。

3.2 阵列宽带信号的处理

传统的阵列处理的信号一般是窄带信号。阵元之间接收到的信号的时延和相位差主要由载波确定。在麦克风阵列处理中,信号没有经过调制,也没有载波由于语音信号的最高频率和最低频率之比很大,这导致相同的时间延迟却有不同的相位差,阵元之间接收到的信号的时延和相位差由信号源的特性来决定。麦克风接收到的语音信号频率一般在300~3000hz之间,阵列之间的时延和相位差与信号源的频率关系密切。因此,麦克风阵列处理的信号可以看成是一个宽带信号,这使得阵列处理更加困难。

转贴于论文联盟

3.3 非平稳信号的处理

传统的阵列处理的接收信号一般为平稳信号,而麦克风阵列中的接收信号为非平稳的语音信号。语音信号可以看成是在20ms ~40ms的时间内是近似平稳的,即语音信号具有短时平稳性。结合上面的宽带情况,麦克风阵列处理一般先把接收信号经过一个短时傅立叶变换,求出其短时谱,然后在频域进行处理。每一频率对应一论文联盟个相位差。麦克风阵列的信号处理是将宽带信号在频域上分成多个子带,对每一个子带应用传统的窄带处理,从而得到接收信号的空间谱。

3.4 混响的影响

传统的阵列信号处理中,噪声和信源通常是不相干的.而麦克风阵列多位于室内等较封闭的环境中,除了环境噪声和其他声源的影响外,声源本身在室内的混响也会对准确定位造成影响。

四、结束语

麦克风阵列信号处理是数字信号处理的一个新领域,具备许多传统阵列信号处理无法比拟的优势,是目前国内外的研究热点。但其在低信噪比或强混响的环境下,很多算法的性能都不是很理想,如tdoa,时延的估计精度会受到采样频率的限制。尽管许多方法试***通过插值来提高估计精度,但是这样的插值只提供了一种平滑的方法,并没有提高时间分辨率。所以期待能有一种更加精确的时延估计方法,使得tdoa估计不受采样频率的限制。对于实际的定位系统而言,稳健的时延估计将为下一步精确的定位奠定基础。

庞大的运算量也限制了许多算法在实时定位系统中的应用,如music算法,如何提高在低信噪比环境下的性能与定位系统的抗噪声能力,在复杂度与性能之间取得折衷,将是下一步的研究工作。相信随着研究的不断深入,麦克风阵列信号处理也必定会具备越来越广阔的应用前景。

转贴于论文联盟

转载请注明出处学文网 » 基于麦克风阵列声源定位的发展历程及关键技术

学习

人人游戏:用大数据了解玩家

阅读(33)

以客户为中心、从内部数据入手、用分析手段将大数据落地。这是人人游戏的大数据探索之路。人人游戏是人人公司旗下专业的游戏研发和运营平台,在过去的几年里,人人游戏以消费者的需求为出发点,在行业里进行了一系列技术创新和产品创新行。如

学习

好女孩上天堂坏女孩来阿姆斯特丹

阅读(34)

自由之城阿姆斯特丹从阿姆斯特丹归来的汪士卿导演笑呵呵地给我们看他拍的一张照片:街边小摊上的一件漂亮的T恤上写着:“goodgirlsgotoheaven,badgirlsgotoAmsterdam,(好女孩上天堂,坏女孩来阿姆斯特丹。)”是的,阿姆斯特丹是一个自由、开放的

学习

澳洲巨型龙虾深海伤人之谜

阅读(43)

本文为您介绍澳洲巨型龙虾深海伤人之谜,内容包括澳洲淡水龙虾死亡主要原因,澳洲龙虾脑袋里深绿色物体。海滨魔影宁格鲁礁是澳大利亚著名的旅游点之一,这里离澳洲大陆很近,但紧邻深海,可以吃到很多在世界其他地方吃不到的深海海鲜,可以游到世

学习

巴马原生态养生食物:火麻

阅读(28)

本文为您介绍巴马原生态养生食物:火麻,内容包括巴马火麻对人身体有什么好处,巴马长寿之乡的火麻的功效。火麻,亦称汉麻,为一年生草本作物。火麻是巴马最古老的传统作物,火麻油是大石山区群众传统的食用植物油。火麻生长在大石山区,每年春季,

学习

赤西仁 任性的小孩有糖吃

阅读(57)

有人说赤西仁是个任性的小孩,做起事情来不为别人考虑;但也有人说赤西仁的任性是因为有一颗敢于打破现实束缚的心。可不管怎样,就算是任性也没什么不好,不是有句话说“任性的小孩有糖吃”吗?喜多川一眼看中的小子赤西仁从小就对杰尼斯有憧憬,所

学习

服务器的冗余电源技术

阅读(36)

本文为您介绍服务器的冗余电源技术,内容包括服务器冗余电源设置,服务器冗余电源有什么用。引言冗余电源是高可用系统中的关键组件。在最简单的解决方案中,两个电源可以采用二极管来驱动负载以共同为输出供电。这样,这两个电源既可以共同为

学习

阿波罗登月世纪大骗局真相

阅读(38)

本文为您介绍阿波罗登月世纪大骗局真相,内容包括世纪工程阿波罗登月,阿波罗登月骗局完全解释。近日,就在嫦娥三号任务顺利开展并正为大家勾勒美好的探月前景之时,有媒体报道说,上海航天技术研究院的内部人士透露,我国对探月工程,乃至整个航天

学习

项目投资实施方案范文

阅读(36)

本文为您介绍项目投资实施方案范文,内容包括项目投资方案模板,定制家具项目投资计划书范文。项目投资实施方案范文第1篇一、项目基本情况(一)项目建设内容:新造高产油茶。(二)项目建设规模:总规模30000亩,全部为油茶新造林。项目建设期为5年,其

学习

五石散传奇

阅读(39)

本文为您介绍五石散传奇,内容包括五石散最早期应源于魏晋名流,五石散国学。五石散,顾名思义其成分由五种矿石组成。在中国,矿石很早就用作了内服药。早在淳于意医案中已有“不可服五石”之论,可知春秋战国时期服用石药已相当普遍了。六朝时

学习

筋缩可能引发众多症状

阅读(63)

本文为您介绍筋缩可能引发众多症状,内容包括筋缩是什么脏器引起,筋缩是什么症状。何谓筋缩?在倡导拉筋法的香港名医朱增祥看来,要清楚筋缩,先要了解筋的意思。筋,是传统中医之称,西医统称为肌腱、韧带、腱膜等;缩,有收缩和痉挛的意思。

学习

关爱女性 关注健康

阅读(44)

本文为您介绍关爱女性 关注健康,内容包括关爱女性健康的文章,女性关爱自己关注健康。作者简介张进平,北京老年医院发展规划部主任,呼吸内科副主任医师,从医31年,近五年一直关注老年保健养生。现任中华医学会结核科学会委员,中国防痨协会会员

学习

美术教育学论文范文

阅读(43)

本文为您介绍美术教育学论文范文,内容包括美术教育学论文参考文献,美术教育学论文2000字。美术教育学论文范文第1篇关键词:人格塑造;美术教育;艺术素质良好的艺术素养对于健全人格过程中有着重要的意义,美术教育具有强烈的情感和德育功能,对

学习

有色金属.冶炼部分

阅读(64)

本文为您介绍有色金属.冶炼部分,内容包括金属冶炼目录,有色金属冶炼分类。薄层纯化纳米铝粉及特性研究马江虹;于月光;曾克里;任先京;YPSZ纳米结构热喷涂粉末材料制备机理及模型研究林锋;于月光;曾克里;任先京;李敦钫;蒋显亮;纳米环氧封闭漆对电弧

学习

数字电视机顶盒工作原理及主要技术

阅读(44)

本文为您介绍数字电视机顶盒工作原理及主要技术,内容包括数字电视机顶盒的主要技术,液晶电视数字板的工作原理。随着科技的发展和群众生活水平的提高,数字电视已经基本普及,作为扩展电视机功能的数字电视机顶盒的应用也日益广泛,主要介绍数

学习

RAID 1磁盘阵列的组建与修复

阅读(45)

初次接触RAID的用户对构建方法总是一头雾水。针对IntelICH系列南桥芯片集成的SATA,在构建RAID的方法上非常具有代表性,我们不妨以Intel主板为例来组建RAID1。修改BIOS相关值首先在开机时按DEL进入主板BIOS,进入Integratedperipherials将Int

学习

光纤磁盘阵列技术选型

阅读(41)

当前市场上的磁盘阵列呈现出一番花团锦簇的景象。在用户有了众多选择的同时,也有了选择上的困惑。因此,本文就从体系结构的角度,简要分析目前磁盘阵列的差异性,供用户参考。当今世界信息爆炸式的增长,除了给科技与技术的发展带来更大的发展动