端点检测

2024-06-14

端点检测(通用8篇)

端点检测 篇1

摘要:众所周知, 在语音的系统的识别中, 如何降低端点检测得出错率, 一直是人们研究和考察的重点, 然而重要的步骤就是进行端点的检测。因此对端点检测也成为了语音信号处理的一个一个关键的部分。本文就是根据声音端点检测的方法还有步骤, 进行探讨还有研究, 在本篇论文中可能会涉及到实验的相关的环节, 本篇论文用实验的客观结果, 来证明, 这种端点检测法的出错率就会大范围的的降低, 催检测的准确率也是一个大的提升, 检测结果也会越来越精确。这样也更方便我们能准确的检测出语音信号的端点。

关键词:端点检测,模型,过零率

1 引言

在现代社会人类进行交流, 最方便和快捷的方式毫无疑问那就是语音的交流。提高语音的传播速度, 扩大云因的传播内容, 一直是工程人员的一个研究的重点, 如何能够实现云因的人类还有机器人的互相交互, 提高语音功能的智能化, 一直是语音信号处理研究领域中的重要研究课题。然而语音端点检测它包括以下几项内容, 首先是要对语音进行分析, 然后还有语音的合成, 对语音系统进行编码处理, 还有一个更为重要的技术难题就是对说话者的说话内容要能够进行准确的识别也是一项十分重要的环节, 它将直接影响到后面一些列工作的实施还有就是工作进行的准确性。但是在实际的操作的过程中, 要做的第一步及是对系统的输入信号能够进行一个准确的判断, 语言的数据的准确性是保证和确定声音的端点还有尾点的关键所在, 因此这就会大大的增加准确性运算强度, 提高了学习效率, 同时降低了完成这项任务所需要花费的时间。

在日常的语音识别系统中, 首先是根据一定的端点检测算法, 对语音的信号进行分割处理, 语音信号一般分为有音信号, 还有无音信号, 两者是有很大区别的, 姐姐就是对有声片段进行处理, 这主要包括根据语音信号的某些明显特征进行处理。通过实验我们发现了一下几点现象, 首先是在安静的环境中, 语音系统识别的出错率, 都集中在端点位置上。从以上的实验中我们可以得出, 对语音的信号识别系统的检测就显得尤为重要。安静的环境如此, 在噪音的环境中更是如此, 如果不能保证端点检测的准确率, 会直接影响后续工作的进行, 所以我们必须保证准确性, 这是我们进行下面工作的前提保证。所以语音信号的准确还有语音信号的端点检测一直是现在进行研究的重难点分析。

2 语音信号的时域特征

2.1 短时能量分析

语音信号的强弱是由多方面决定, 其中一个关键点就是, 语音信号时间的长短问题, 这也是人们非常容易忽视的一个问题, 信号也会随着清浊音的变化从而发生一系列相应的变化, 通过总结和分析我们得出了一下的计算工程式:

从上述公式中我们看出, 函数也会随着短时能量的变化而发生相应的变化, 线性的高低都会出现一个冲突:

根据短时间的能量, 从而看出能量的高低会直接影响我们的所得数值的准确性, 因此通过总结研究得出以下方程式可以大大的提高运算的准确性。

2.2 短时平均过零率

大家都非常熟悉的一点是, 段时间的平均的过零率会对信号有着极为严格的要求, 平均值的准确性实际上就是所得符号它采集的准确性, 这都密不可分。根据短时能量的定律我们可以得出, 短时能量的大体位置和方向。

w (n-m) 为窗函数, 定义为:

Sgn[]是符号函数, 即

3 端点检测

3.1 端点检测介绍

识别语音信号的起止点是所有语音识别系统所必须经历的一个过程。只有保证起点还有终点的准确率。这样我们才能保证我们测试出的结果是正确的, 这样也能够保证我们的数据分析得出的结果是准确的。通过这样的方法, 不但降低了我们数据量的采集, 还有就是降低了运算的工程量还有处理的时间, 这些方面的提高都会在一定的程度上降低我们的出错率。人类的声音也是各有特色的每个人都有每个人的特点, 但是从总体上我们可以大体分为两个部分首先第一个就是清音, 第二个是浊音。这两种声音是有很大不同的, 平常我们所采用的端点检测方法, 大多数会采用特征提取方法。根据这两种声音的发生规律, 对其进行比较和研究, 将该特征和设定的门限进行比较或是采取某种判决机制来判断。

在日常的语音识别过程中, 过零率的端点检测, 是最普遍的语音端点检测的方法, 它有明显的物理意义, 而且计算的过程也是相对的简单, 他的这些优点, 使它在端点的实际操作中得到了最为广泛的应用。但是任何事物都具有它的两面性, 因此他也具有不可否认的缺点, 而最根本最实际的判断的标准就是根据我们日常积累的实际经验才判断们限的端点问题。

3.2 双门限端点检测算法

对过零率的端点的检测都是采用2级的判断的方法, 第一步就是根据平均值进行第一次判断, 接下来在这个基础上, 我们再利用段时间平均的过零率统一进行第二次判断。之所以我们不用段时间判断作为第一判断, 原因就是段时间的判断不能准确的得出起点的关键位置, 因此为了增加我们判断的准确率, 通常是常采用双门限的方法, 通过比较得出一个准确的答案。

从图1我们可以看出, 符值都会在这个限度范围之内。通过这个步骤我们可以进行第一次初步的判断。如果进行语音测试的语音落在了, 这个起止点所对应的时间的间隔之外 (即AB段之外) 。接下来, 要做的事要在噪声的情况下, 对语音进行数据研究分析, 我们通过分析, 得出以下两个公式, 从这公式中我们可以清晰地看到, 平均值准确性, 完全是由多级判断而决定的, 语音的起点还有结束的尾点都至关重要。

3.3 基于调频-调幅模型的语音端点检测技术

双门限检测方法我们在上文介绍中, 已经提到了就是要根据我们以往的经验值, 来判断一个大概的经验值, 榆次同时呢, 要对判断结果进行二次判断, 得出一个相对来说更为准确的门限值。这样也会增加我们判断的误差。与之相反的如果我么采用而运用Teager能量算子判断, 这样既可以反映幅值的变化, 同时也能反映出频率的变化。判断他们是成正想观性还是负相关性, 是不是频率的的增加, 频率也会增加。能量的输出值是不是也会随之发生相应的改变, 同时呢, 在针对不同类别的信号时, Teager能量算子的输出也反映出不同的特性。因此, 能量算法的使用非线性能量算子来跟踪语音信号, 这是我们语音信号系统的一个创新之举, 不在是单纯的靠单个共振峰的语音信号能量的检测进行分析:

可以看出R (n) 信号的能量算子输出由两部分组成:一部分频率调制后的瞬时频率, 另一部分是幅值调制后的幅值包络, 它可以反应出幅值和频率的变化。根据这个特点可以进行以Teager能量算子输出的能量为特征的端点检测。

4 结论

本篇论文主要是对声音端点检测的方法进行研究, 我们通过双门限的检测方法, 可以高效的将频率与幅值完全给结合起来, 这种方法的检测要比以往的传统的能量进行端点检测得到更为准确的结果。但是万物都存在着优点还有缺点, 如果在噪音较大的情况下, 我们的检测结果也是不准确的, 在没有噪音干扰的情况下它的检测结果就会提高, 同时信号不是很强的情况下, 它的结果也不是很准确。

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出版社, 2003.

[2]易克初.语音信号处理[M].北京:国防工业出版社, 2004.

[3]王炳锡, 屈丹, 彭煊.实用语音识别基础[M].北京:国防工业出版社, 2005.

[4]雷静.语音识别技术的研究及基本实现[D].武汉:武汉理工大学, 2002.

[5]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业版社, 2003.

[6]韩纪庆, 张磊, 郑铁然[M].北京:清华大学出版社, 2004.

端点检测 篇2

7月22日,赛门铁克公司宣布推出端点防护产品SEP 12(Symantec Endpoint Protection 12),以帮助企业应对大量且复杂的网络攻击。第三方独立测试结果显示,SEP 12在虚拟及物理环境中所表现的性能远超竞争对手的产品,能够为用户提供有效的保护和高速性能。

“SEP 12的发布意义重大,它是一款高度创新的划时代产品,对消费者和企业信息安全有很大的意义。”赛门铁克公司全球副总裁、大中国区总裁吴锡源说。

据了解,SEP 12最核心的两项技术分别是Insight和SONAR。其中,Insight是基于社区与云的信誉技术,它使SEP 12比其他安全产品能更早并更准确地检测及阻止复杂的新型威胁。“Insight技术不仅能够识别恶意软件,还能自动识别可信的、信誉度高的文件,将其列入白名单中,从而将病毒扫描时间节省了70%。这在业界是独一无二的。”赛门铁克中国区首席解决方案顾问林育民告诉记者。

全球第一个混合行为信誉引擎SONAR则能够针对可疑行为实时监测运行程序,从而阻止零日以及目标高度明确的威胁。“SEP 12是目前市场上最快、最有效的企业端点安全产品,能够很好地支持虚拟化,兼顾安全与性能。”林育民表示。

端点检测方法的研究 篇3

在采用某些设备对语音信号进行采集时有可能出现语音段已经结束, 仍然会出现不希望被采集到的语音片段, 或者在两段声音信号之间出现一段空白时间, 此时, 人们就希望可以通过某些方法判断出语音信号的起始点, 即必须对语音信号进行端点检测。

语音端点检测的核心部分是特征提取, 因此, 需要选择合适的特征。在语音信号中, 好的特征必须满足两点: (1) 能够较好地区分语音和噪声; (2) 鲁棒性能好。由于噪声影响语音信号的准确度、降低提取特征的鉴别能力, 因此, 通常要求选择的特征必须能够适应不同的信噪比环境。

1 基于短时能量和短时过零率的端点检测

语音信号具有随时间变化的特点, 它是一个不平稳随机过程, 这也就说明语音信号的能量也具有随着时间变化的特点。语音信号的这种能量变化特征可以通过短时能量分析来表现。

针对语音信号x (n) , 短时能量可以得到公式 (1-1) 的定义。

当离散的时间信号出现相邻两个样点的正负号异号时, 则称之为“过零”, 就说明此时信号的时域波形通过了零电平的横轴, 所以我们把过零率的定义为每帧内信号通过零电平的横轴次数。在一定程度上, 短时平均过零率可以反映出频谱的特性。短时平均过零率的公式如 (1-2) 所示。

短时过零率可以粗略估计语音的频谱特性。通过对语音产生模型的分析可知, 低频率与低过零率相对应, 高频率与高过零率相对应。

2 基于双门限法的端点检测

2.1 第一级判别

根据语音短时能量的轮廓需要选取一个较高的门限T1, 首先进行第一次大概判断:找出语音的起止点。起止点应该位于AB段之外, 即门限值与短时能量包络交点对应的时间间隔之外。然后根据背景噪声的平均能量确定一个较低的门限T2, 并从A、B点分别往左、往右搜索, 分别找到两个点C和D, 它们是短时能量包络和门限T2相交的点, 于是就找到了根据短时能量判定的语音段起止点。

2.2 第二级判别

在第二级判别中, 以短时平均过零率为准, 从C、D两点分别往左右搜索, 分别找到两点E和F, 这两个点令短时平均过零率第一次低于某个门限值T3, 这就找到了语音段的起止点。门限T3是由背景噪声的平均过零率所确定的[1]。在进行语音段的起止点判决前, T1, T2, T3, 三个门限值的确定还应当通过多次实验。由以上的分析可知, 两级判别法依据的两个因素分别为短时平均能量和短时平均过零率, 这种方法很好从语音的一段信号中确定出语音的开始点和结束点。

3 基于倒谱系数的端点检测

特征提取在语音识别过程中占据重要的地位, 特征提取是指针对不同的语音信号, 寻找总结它们内在的特征, 根据所提取的特征来判断未知的语音。识别的效果在很大程度上受特征选择的影响, 除此之外, 特征参数的计算量也会影响到识别的效果。通常采用传统的线性预测系数 (LPC) 、线性预测倒谱系数 (LPCC) 、梅尔频率倒谱系数 (MFCC) [2]。

3.1 线性预测系数

线性预测分析是从发生机理入手, 全极点数字滤波器是线性预测分析系统的默认传递函数, 我们假设某一时刻t, 若想估计出时刻t的信号, 我们可以对信号t前的若干时刻的信号进行线性组合, 并对这一线性组合进行估计, 由此预测出时刻t的信号。通过将实际的语音信号采样值与线性预测采样值相减, 得到最小均方误差 (MSE) 最小, 这样就可以得到LPC。

设语音信号s (n) 经过Z变换后为S (z) , 信号E (z) 作为一个线性非移变因果稳定系统V (z) 的激励进而产生的输出。因此, 可以知道, 语音信号产生的声道模型的形式与一个全极点模型相同, 如公式 (1-3) 所示。

依据最小均方误差 (MSE) 对该模型的参数ak记性估计, 就可以得到线性预测编码算法, 得到LP系数 (p为预测器阶数) 。

3.2 LPC倒谱系数

倒谱系数是指对语音信号Z变换的对数模函数的逆Z变换。线性预测分析有效的处理了短时平稳信号的模型化问题。表达复杂的语音信号特征只需要12个LPCC系数, 这样不仅可以在很大程度上降低语音信号的冗余度, 而且在减少了计算量和存储量的问题上也得到了很大改善。

语音信号的每个样值都可以由前若干个样值的线性组合来进行逼近, 由最小均方差可以得出一组预测系数, 语音信号s (n) 就可以用p个过去的样值s (n-i) 进行预测, 得到结果如公式 (1-4) 所示。

式中, a表示加权系数, 即LPC系数, p表示LPCC预测阶数, 因此预测误差为公式 (1-5) 所示。

LPCC系数记录了语音信号谱的极值点的轨迹, 用LPCC来表示语音信号的特征, 我们能够得到平滑的语谱图。

3.3 梅尔频率倒谱系数 (MFCC)

Mel频率倒谱参数 (MFCC) 是基于人的听觉的特征参数。MFCC参数就是在研究人的听觉系统的基础上所得出的声学特征。当两个频率相近的音调同时发出时, 人们往往只能听到一个声调, 这个频率叫做临界带宽。当两个音调的频率均小于临界带宽时, 这时我们就会把两个音调听成一个[2]。Mel刻度就是量度临界带宽的有效方法之一。我们通常取12~16个MFCC系数就可以很好地表示语音信号的特征。得到MFCC系数的公式如 (1-6) 所示。

本文主要介绍了两种端点检测的方法, 并采用MATLAB对其进行了仿真。总的来说, 在噪声较低的情况下采用短时能量和过零率的端点检测方法较为理想, 在噪声较大的情况下采用基于倒谱系数的端点检测方法较好。

参考文献

[1]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社, 2010:1~6.

几种语音端点检测方法简介 篇4

1、双门限检测法

语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征参数, 并采用双门限判定法来检测语音端点, 即利用过零率检测清音, 用短时能量检测浊音, 两者配合。首先为短时能量和过零率分别确定两个门限, 一个是较低的门限数值较小, 对信号的变化比较敏感, 很容易超过;另一个是比较高的门限, 数值较大。低门限被超过未必是语音的开始, 有可能是很短的噪声引起的, 高门限被超过并且接下来的自定义时间段内的语音超过低门限, 意味着信号开始[5]。

算法过程如下:

(1) 在开始阶段要做预加重和分帧的处理, 讲语音信号分成一帧一帧的, 分帧处理有利于对语音信号进行准确的分析, 并且能够提高识别率, 这时再分别求出每帧的短时能量和短时过零率。

(2) 接着要设置初始化参数, 比如最大静音长度, 这是一个经验值, 用来判断语音段是否结束, 论文中是根据大量的语音样本的长短设置的一个经验值。另外, 短时能量和短时过零率的门限也要设置初始值等。

(3) 判断当语音在静音段或者是过渡段时, 如果语音信号的短时能量值大于短时能量的高门限, 或者语音信号的短时过零率大于短时过零率的高门限, 那么就确认进入了语音段, 如果短时能量的值大于短时能量的低门限或者过零率的值大于过零率的低门限, 那么语音处于过渡段, 否则, 语音仍就处于静音段。

(4) 当语音信号在语音段时, 判断如果短时能量的值大于短时能量的低门限或者短时过零率的值大于短时过零率的低门限, 那么语音信号仍然处于语音段。

(5) 如果静音长度小于设置的最大静音长度, 那么就表明语音还尚未结束, 还在语音段, 如果语音的长度小于最小噪声长度, 那么认为语音太短, 此时是噪声, 同时判断语音处于静音段;否则语音就进入结束段。

2、基于自相关极大值的语音端点检测方法

在端点检测中, 如果所处理的语音信号是非平稳的随机过程s (n) , 可以采用短时自相关函数, 它的定义为

这里之所以要将自相关函数归一化是为了在语音端点检测过程中不用考虑信号绝对能量的大小所带来的影响。我们知道语音是由浊音和清音两部分组成的。浊音语音是0~10ms内可以被看作为一个准周期信号, 而清音信号接近于随机噪声。由于语音的绝大部分能量都集中在浊音语音部分, 因此语音可以在10~2 0 ms内被看作为一个准周期信号, 那么它的归一化自相关函数也呈准周期性, 而高斯白噪声信号的归一化自相关函数的分布较为平均和分散, 不具有准周期性。

为了突出带噪语音信号的归一化自相关函数的准周期性和高斯白噪声信号的归一化自相关函数分散性, 可以利用一个低通滤波器除去波形上的高频毛刺。这样我们就可以清晰地看到带噪语音信号自相关函数所具有的准周期性。图1 (a) 为带噪语音信号的归一化自相关函数经过低通滤波后的典型波形。图1 (b) 为高斯白噪声信号的归一化自相关函数经过低通滤波后的典型波形。我们看到带噪语音信号的自相关函数的能量将集中在基音周期的各个整数倍点上, 在这些点附近将出现极大值, 并且此函数在零点处必将出现最大值。而高斯白噪声信号的自相关函数却不具有准周期性, 它的归一化自相关函数的能量在零点之外较为平均和分散。从图1中我们可以清晰地看到带嗓语音信号和高斯白噪声信号的自相关函数准周期性方面的差别。

通过上面两个波形图的观察, 可以得出这样的推论:带嗓语音信号的归一化自相关函数经过低通滤波后的最大值可以间接地反映信号的准周期性的程度。带噪语音信号和纯噪声信号的归一化自相关函数最大值都为1, 但带噪语音信号具有准周期性。当带噪语音的归一化自相关函数通过低通滤波器之后, 由于它的能量较为集中, 因此低通滤波之后所得的最大值就较大。反之高斯白噪声的归一化自相关函数的能量较分散, 因此低通滤波之后所得的最大值就较小。因此可以通过统计该最大值的方法来确定一个阈值用于区分带噪语音信号和高斯白噪声。

3、基于小波变换的端点检测方法

利用小波变换进行语音端点检测的算法为:

(1) 首先, 将语音数据进行 (16ms/帧) 分帧处理, 分帧后各段帧数据x1 (m) 、x2 (m) ……xN (m) , 其中, 包括 (4ms) 的帧移数据处理。

(2) 估计端点检测的门限值:

其中φ为端点检测的门限值, α为实验测量的标准值, 200为经验门限值。根据统计可知:绝大多数语音数据的能量分布在2000000~8000000之间, 因此取α=5000000。 (3) 对上述数

(3) 对上述数据进行小波变换, 变换结果为X1 (m) 、X2 (m) ……XN (m) 。如果x (m) 是背景噪声信号, 则这些小波变换后的X (m) 都是同一个常数C。根据能量守恒原理, 则有

这里Ni是第i个子带信号x (m) 的长度, i=1, 2, …, N。E1、E2…EN为信号的x (m) 小波子带平均能量序列。进一步, 将能量序列通过一个中心滤波器, 进行一次中心消波, 这样可以使得能量序列的特征更好的表现出来。接着计算这个能量序列的均值和方差:

显然, 如果信号x (m) 主要由背景白噪声组成, 那么, 由于噪声的“白”谱性质, 这个能量序列应该近似为一个常数序列, 其方差近似为零。如果信号x (m) 主要由语音组成, 那么, 这个能量序列是一个数值变化的序列, 其方差不会近似为零。如果信号x (m) 主要由白色噪声和语音组成, 那么, 不论白色噪声能量有多大, 由于语音的存在, 这个能量序列依然是一个数值变化的序列, 其方差不会近似为零。

(4) 根据上述思想, 计算每帧小波变换后的语音数据X (m) 的方差, 如果方差大于门限值φ, 那么即认为这一帧之后的语音数据为有效的语音数据, 记为起始帧。如果在起始帧存在的前提下, X (m) 的方差小于φ, 那么认为这一帧为结束帧。

5、总结

本文介绍了端点检测的三种方法:双门限检测法、基于自相关极大值的检测法和基于小波变换的检测法。通过分析, 双门限结合了短时能量和短时过零率的优点, 其精确度和误检率都有了进一步的改善。但是, 其中还是有很多不足的地方:双门限的误检率还是很高, 因为在时域范围内数据的很多特征是无法准确决定声音的端点的。而且双门限方法不具备抗噪能力。

基于自相关极大值的检测法能够很准确地检测出语音的端点, 将纯高斯噪声段和含语音信号段分辨出来。当信嗓比比较高时, 运用能量端点检测方法可以分辨出含语音信号段与纯高斯噪声段, 如输入信嗓比为5dB时。当信噪比降低为-5dB后, 此时传统的检测方法已完全失效, 而运用此方法仍能有效地检测出含噪语音段的端点。

基于小波变换的检测法检测的声音数据虽然检测的精度很高, 但是检测的速度是很慢的。一个50KB左右的语音数据 (大约说话人只说了3-5个字) , 在一台CPU为2.04G的电脑上检测, 得到完整的检测结果大约需要5秒。如果这段语音数据再大一些的, 检测速度会变得更慢。所以这个算法只能在实验室的情况下进行端点检测。

摘要:语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用, 直接影响着后续工作的正确率。本文在双门限检测法的基础上, 介绍了基于自相关极大值和基于小波变换的端点检测方法, 阐述其优缺点。

关键词:语音端点检测,过零率,小波变换,自相关极大值

参考文献

[1]Junqua J C.Robustuess and Cooperative Multimodel Man-machine Communication Applications[M].Proc.Second VenacoWorkshop and ESCA ETRW.1991.9.

[2]张震宇.基于Matlab的语音端点检测实验研究.浙江科技学院学报, 2007, 19 (3) :197-201

[3]赵高峰, 张雪英, 侯雪梅.一种基于小波系数方差的语音端点检测方法.太原理工大学学报, 2006, 37 (5) :511-513.

[4]董力, 陈宏钦, 马争鸣.基于小波变换的语音段起止端点检测算法.中山大学学报 (自然科学版) , 2005, 44 (3) :116-117.

端点检测 篇5

在语音识别中, 正确地判定输入语音的起点、终点对于提高识别率往往是非常重要的。在环境噪声水平理想的情况下, 精确的语音端点检测比较容易。但在实际应用系统中, 噪声对语音信号的污染以及说话人自身的态度、情绪等, 都对端点检测在内的鲁棒性提出了很高的要求。常用的算法有短时能量法、短时过零率法和谱熵法等。其中短时能量法和短时过零率法是语音端点检测最常用的方法之一, 它们都是在时域中进行检测, 方法简单, 并且易于实现, 但在信噪比较低时, 误判率高;谱熵法虽然采用的是频域检测, 然而这种方法的计算量和复杂度都比时域检测的大。因此, 在实际应用中体现不出优越性。针对这种情况, 本文提出了基于差分算法和Teager能量算子的端点检测方法。实验证明, 在低信噪比环境中, 这种改进的算法能够取得更好的效果。

1 基于功率谱差分的降噪

一般加性噪声的功率谱相对语音信号功率谱变化较缓慢。带噪语音为s (n) , 其中纯净语音为x (n) , 加性噪声为高斯白噪声η (n) , 则:

纯净语音x (n) 与噪声η (n) 互不相关, 则有:

其中, |Sm (ω) |2、|Xm (ω) |2和|η (ω) |2分别为带噪语音、纯净语音和噪声的功率谱, 对其求偏导, 则:

可以近似认为加性噪声的偏导为零, 则:

等式 (4) 可以写成时域差分的形式, 如:

2 TEO

TEO具有非线性能量跟踪信号特性, 不仅对调幅 (AM) 信号的幅包络和调频 (FM) 信号的瞬时频率的变化非常敏感, 而且对不同类型的信号能显示不同的TEO结果。理论和实验结果表明, TEO能在抑制背景噪声中起到信号增强同时进行信号特征提取的作用。对于一有限频带的信号f (n) , Teager能量算子可以描述如下:

式中Ψ[·]表示离散域的能量算子。从式 (6) 中看出, 能量算子输出的局部特性只依赖于原始语音信号本身和它的时域差分, 即要计算能量算子在第n点处的输出, 只需要知道该样本点和它前后各一个样本点的值。这样会使得能量算子输出后的信号依然与始信号保持相似的局限性。由式 (1) 、式 (6) 得到带噪语音信号的Teager能量为:

式中珟Ψ[x (n) η (n) ]为x (n) 和η (n) 互Teager能量。由于x (n) 和η (n) 相互独立, 则珟Ψ[x (n) η (n) ]为0, 因此, 有:

E{Ψ[η (n) ]}与E{Ψ[x (n) ]}相比, 可以忽略不计, 所以:

用Teager能量算子能消除零均值噪声的影响, 具有语音增强的能力。

3 实验与分析

Step1对原始语音信号进行分帧加窗, 对每帧信号进行快速傅里叶变换, 计算出功率谱, 并求功率谱差分;

Step2 TEO非线性运算。对功率谱的差分用TEO能量算子得到Ψ[s (n) ];

Step3进行Teager能量算子的自适应门限的检测。自适应门限值的计算方法是:

1) 将语音信号的功率谱差分能量全部相加得到我们语音检测的特征曲线, 计算公式为式 (10) , 其中n表示语音信号的帧数。

2) 初始化变数m=1, 并且TA (1) (n) =TA (n)

其中, E[TA (m) (n) ]为的平均值。

3) 定义P为加权值, P等于TA (2) (n) 的能量和与输入信号能量和的比值。

4) 门限值:

4 实验结果

本文对提出的方法在计算机上进行了实验, 用声卡采集声音信号样本, 以wav文件格式存储, 端点检测过程基于MATLAB实现。语音样本采用8 k Hz的采样频率和8 bits量化, 16位采样精度, 采样取帧长256, 加Hamming窗, 帧移为80。端点检测是在白噪声条件下进行测试的, 语音信号与不同电平的白噪声合成作为检测样本。采用2种方法评估端点检测算法的性能:标注法和识别率。

(1) 标注法

语音样本的内容为“北京欢迎您”, 用传统的VAD方法和本文中提出的方法对语音信号进行端点检测, 分别对原始语音信号和加噪语音信号进行检测, 对检测结果标注。对比结果, 实验结果如图2、图3和图4所示。

图2为原始语音信号的端点检测结果。图3给出了加上高斯白噪声且信噪比为10d B时的语音信号采用改进的基于功率谱差分和Teager能量算子的端点检测结果。图4给出了相同条件下传统的端点检测方法检测结果。从图中可以看出, 说明短时能量、过零率算法的检测不能适应变强度噪声环境, 而改进的端点检测方法中使用的参数能够将被测语音特征明显地区分出来, 语音特征因此变得明显, 所以处理的效果相对传统的基于短时能量和过零率方法, 语音端点检测效果良好。

(2) 语音识别率评估性能

实验样本:采用8 k Hz的采样频率和8 bits量化, 用单声道在实验室安静环境中录音, 3男3女, 每人读从数字0到数字9, 读5次, 共300个测试数据。以MFCC为特征参数, 语音识别模型采用HMM, 计算识别率。识别率计算公式为:

表1为在不同噪声下, 本文中提出的算法与短时能量、过零率法的识别结果。

5 结束语

针对传统的语音端点检测方法存在的缺陷, 本文提出了基于功率谱差分和Teager能量的端点检测方法。通过实验研究, 证明了这种算法快速有效, 在低信噪比情况下也有良好的性能。与其他算法的比较, 本文提出的端点检测方法满足了鲁棒性端点检测的要求。

参考文献

[1]韩纪庆, 张磊, 铁然.语音信号处理[M].北京:清华大学出版社2, 004.

[2]Jabloun F, Cetin A E, Erzin E.Teager energy-based feature paremetersfor speecch recognition in car noise[J].IEEE Signal Processing Lett, 1999, 6 (10) :259-261.

[3]陈明义, 黎华.基于Teager能量算子的语音激活检测[J].重庆工学院学报2, 007 (10) :112-114.

[4]Nehe N S, Holambe R S.Power Spectrum Difference Teager EnergyFeaturesfor Speech Recognition in Noisy Environment[C].2008 IEEERegion 10 Colloquium.INDIA December 8-10, 2008:178-182.

[5]Xu J, Wei G.Noise-robust speech recognition based on difference ofpower spectrum[J].Electronics Letters, 6th July 2000:1247-1248.

一种基于谱熵的语音端点检测方法 篇6

随着语音识别、语音增强等技术的飞速发展, 端点检测越来越重要。端点检测的目的是在复杂环境下识别出噪音信号与语音、噪音混合信号, 确定语音信号的开始与结束端点, 以便进一步的语音信号处理。在助听器、手机等硬件环境下, 由于实时性与准确性要求较高, 计算量即不能过大以免硬件不能满足要求, 又要求语音信号处理快速、准确。准确的端点检测可以大幅度减少计算量, 提高系统的语音处理效率。现阶段运用的端点检测算法有短时能量与短时过零率双门限法、自相关函数法、方差法、谱距离法、能零比与能熵比等。在噪音环境下这些方法的效果并不是很理想, 语音信号的能量并不大, 所以单纯用能量参数并不能很好的将语音信号检测出来。Shen提出了一种基于信息熵的端点检测方法, 信息熵只与语音信号的统计学特性有关, 与单纯的能量幅值大小无关, 所以这种方法能够较好地将语音信号与噪音信号检测出来, 并且计算量不大, 适用于助听器、手机等硬件环境。但是对于周期性能量较为集中的噪音而言, 误判率较高。为了消除每帧信号FFT变换后的谱线幅值受噪音影响, 把每条谱线的谱熵值改为子带的谱熵, 从而改善在周期性噪音环境中端点检测的效果。为提高在低信噪比环境下端点检测的效果, 在谱熵计算中引入一个正常量K。经过实验证明这种方法确实比一般方法正确率要高, 但是随着信噪比不断降低, 端点检测误判率又会不断提高, 单纯的运用加入正常量的子带谱熵法还是不能适用于噪声较严重的场合。

针对上述情况, 本文提出了一种自适应正常量可变的谱熵端点检测改进算法。这种方法基于子带谱熵法, 引入一个可变的正数K, 计算信号谱熵。基于最大离散谱熵定理, 通过正数K的调节, 增大有语音信号帧与无语音信号帧谱熵值的差距, 增强语音与噪音的区分度, 使算法在低信噪比环境下也能有效的进行。

2端点检测算法

2.1谱熵法

若熵函数有

即等概率分布时, 熵函数取最大值, 表明等概分布时信号不确定性最大, 称为最大离散熵原理。

由于语音信号具有共振峰结构, 归一化谱概率密度函数分布不均匀, 所以语音信号的谱熵值一般都低于噪声的谱熵, 在统计学概率上与噪音信号有所区别, 与能量大小无关, 所以谱熵法在噪音环境中的效果优于其他算法。但是对于周期性噪音, 未改进的谱熵法效果一般。如图1所示, 语音信号是青年男音:“兰州理工大学”, 背景噪音为工厂噪声, 信噪比为5DB, 误判率较高。

2.2改进后的子带谱熵法

为了消除每帧信号FFT后每条谱线受噪声影响, 可把每条谱线的谱熵法改为子带的谱熵。子带谱熵法的思想是把每一帧信号分为若干个子带, 然后求每条子带的谱熵, 这样就消除了单独谱线受噪音的干扰。如前面所述语音信号Xi (n) , FFT后得到:

2.4算法流程

Step5:检测到语音开始点后比较Hb (i) 与S1, 若大于S1则为结束点, 若不大于则继续step5

Step6:重复step4、step5直到语音段结束。

2.5实验仿真结果

改进算法后在MATLAB中进行仿真, 新算法的效果经实验验证要好于改进前的算法, 如图4所示, 在低信噪比为-5DB时, 算法也有比较好的效果。为了说明一般性, 录制男女各10人, 样率为8000HZ、16bit量化的纯净语音信号, 分别叠加白噪声、工厂噪声对比改进前与改进后算法的效果见表1与表2, 实验证明新算法的误判率较低, 端点检测效果较好。

3小结

本文提出了一种可以根据环境噪声选择参数的子带谱熵端点检测算法, 即改进了可引入常数的谱熵法, 得到一种抗噪能力较强的子带谱熵法, 并通过仿真实验证明与之前的算法相比在低信噪比环境中检测效果更好。

参考文献

[1]杨行峻, 迟惠生.语音信号数字处理[M].北京:电子工业出版社, 1995.

[2]卢艳玲.一种基于多特征的带噪语音信号端点检测与音节分割算法[J].电声技术, 2005 (07) :60-62.

[3]孙炯宁, 傅德胜, 徐永华.基于熵和能量的语音端点检测算法[J].计算机工程与设计, 2005, 26 (12) :3429-3431.

[4]张徽强.带噪语音信号的端点检测和声韵分离[D].国防科学技术大学, 2005.

[5]Shen J, Hung J, Lee L.Robust Entropybased Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceeding of International Conferenceon Spoken Language Processing.Sydney:[s, n], 1998:232-238.

[6]王琳, 李成荣.一种基于自适应谱熵的端点检测改进方法[J].计算机仿真, 2010, 27 (12) :373-375.

端点检测 篇7

关键词:谱减法,短时能量,双门限,声音信号,端点检测

0 引言

声音信号的端点检测是指从包含声音的一段信号中确定出声音的起始点和结束点位置。有效的端点检测方法不仅能减少系统的处理时间、提高处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得到较大的提高,直接影响着后续工作的正确率。传统端点检测方法主要有时域参数法和频域参数法,时域参数主要包括短时能量、短时对数能量、短时过零率、自相关系数等,这类算法简单,处理速度快,但在低信噪比环境下检测误差大;频域参数主要包括倒谱、信息熵、谱熵、频带方差等,这类算法较时域处理更为准确,但运算量偏大[1,2]。

谱减法是一种有效的语音增强技术,是先对噪声的频谱进行估计,通过“谱相减”去除噪声段的技术,其计算复杂度低,实时性强。本文先利用谱减法对带噪语音信号进行增强处理,再采用基于短时能量的单参数双门限的检测方法进行端点检测,在matlab平台的运行结果表明,选定合适的阈值能有效提高端点检测的识别率。

1 谱减法减噪

1.1 基本谱减法

要对声音信号进行分析,首先要对其提取可表示该声音本质的特征参数。声音信号是一个非稳态、时变的信号,为了研究方便,认为其在“短时间”范围内是稳态、时不变的,这个“短时间”一般为10~30 ms。在短时分析中,需要将整体的声音信号先分帧,每一帧的特征参数组成了该信号的特征参数时间序列。

设声音波形时域信号为x(n)、加窗分帧处理后得到的第i帧声音信号为xi(m),帧长为N,则xi(m)做DFT(discrete fourier transform)满足:

要对xi(k)求出每个分量的幅值和相角,幅值使|xi(k)|,相角为:

若前置无话段时长为IS,对应帧数为NIS,则该噪声段的平均能量为:

谱减算法为:

式中,a和b是2个常数,a为过减因子,b为增益补偿因子。

求出谱减后幅值为,结合保存的相位信息xiangle(k),就能经过IFFT(inverse fast fourier transform)求出谱减后的语音序列[3]。

经过基本谱减法消噪后的声音一般会有明显的“音乐噪声”,增加过减因子a的数值,有时能减少“音乐噪声”,但过大时会使波形失真。

1.2 改进的谱减法

S.F.Boll在1979年给出了一种改进的谱减法,主要在以下几个方面对基本谱减法做了改进。

1)在谱减中使用信号的频谱幅值或功率谱

噪声段的平均谱值为:

式中,γ可以为1,相当于用谱幅值做谱减法,也可以为2,相当于用功率谱做谱减法,α为过减因子,β为增益补偿因子。

2)计算平均谱值

每帧信号根据式(1)做DFT后,在相邻帧之间计算平均值:

对于第i帧,将在Xi-M(k),Xi-M+1(k),…,Xi(k),…,Xi+M(k)等(2M+1)帧之间计算平均值。主要是为了得到较小的谱估计方差。

3)减小噪声残留

噪声是完全随机的,有可能在某个时段某条谱线的谱值会大于α×D(k),这样按照式(5)相减后并没有完全把噪声消除,而是把峰值噪声保留了下来,这个称为噪声残留,在谱减成的声音信号中造成“音乐噪声”。Boll提出在减噪过程中将噪声的最大值保留下来,从而在谱减过程中尽可能的减少噪声残留[3~6]。

分别用一般谱减法和改进的谱减法对敲击取得的声音信号进行实验。实验中,力锤从固定高度下落敲击试验件,由拾音器通过声卡传入PC机。经11 025 Hz采样,单声道。噪声为高斯白噪声。混合生成0 d B的带噪语音,用Matlab7.0仿真实现。图1为在高斯白噪声条件下,改进的谱减法与基本谱减法去噪效果的对比。从图1中可以看出,通过对谱减过程中的噪声估计值进行实时更新,去噪效果有了一定的提高。

实验结果表明改进的谱减去噪方法使噪声得到很明显的抑制,提高了语音质量。

2 基于短时能量的单参数双门限声音信号端点检测

2.1 短时能量

设声音波形时域信号为x(n)、加窗函数w(n)分帧处理后得到的第i帧声音信号为yi(n),则yi(n)满足:

式中,w(n)为窗函数,一般为矩形窗或汉明窗;yi(n)为一帧的数值,n=1,2…,L,i=1,2,…fn,L为帧长,inc为帧移,fn为分帧后的总帧数,则计算第i帧声音信号yi(n)的短时能量公式为:

在matlab环境下,读入敲击声音信号,通过分帧和加窗函数,按照式(2)计算得到短时能量。

2.2 双门限法

双门限法是指利用两级判决判定声音的起始点位置,最初使基于短时平均能量和短时平均过零率提出的。在声音信号的短时能量包络线上选取一个较高阈值(门限)T2进行一次粗判,能量高于T2的肯定是声音,起始点位置应在该阈值与短时能量包络交点的时间点之外。在平均能量上确定一个较低的阈值T1,并向两端往外搜索,分别找到短时能量包络与阈值T1相交的两点,为一级判决所判定的声音段的起止点位置。再以短时平均过零率为准,从一级判定的两点向两端搜索,找到短时平均过零率低于某个阈值T3的两点,这便是第二级判定的声音段的起止点。

分析敲击声音的短时平均过零率,有别于语音信号,噪音和敲击声音的过零率分辨不是特别明显。因此,在数据处理过程中选择了基于短时平均能量的单参数双门限判定方法。图2为使用该方法判定的函数流程图[7]。

3 实验分析

笔者在Matlab7.0环境下,先对采集到的敲击声音信号进行谱减降噪,再基于短时能量进行单参数双门限的端点检测。如图3在5 d B和图4在0 d B白噪声的条件下均能有效检测出敲击声音的起止点。

4 结语

针对传统语音端点检测方法存在的缺陷,提出了基于谱减法和短时能量双门限的端点检测方法。通过改进的谱减增强算法,提高了语音号的信噪比,再结合基于短时能量的双门限检测方法,在低信噪比环境下也能够快速有效检测声音信号的起止点。

参考文献

[1]韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1225.

[2]夏敏磊.语音端点检测技术研究[D].浙江:浙江大学,2005.

[3]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013:184-191.

[4]刘新飞,周辉.基于谱减法及频谱方差的语音端点检测方法[J].兵工自动化,2014,33(4):34-38.

[5]Chen Zhixin.Simulation of Spectral Subtraction Based Noise Reduction Method[J].International Journal of Advanced Computer Science and Applications,2011,2(8):30-32.

[6]郭胜楠,崔慧娟,唐昆.低信噪比下基于短时谱估计的语音增强[J].清华大学学报(自然科学版),2010,50(1):149-152.

端点检测 篇8

日常生活中,我们说话时都会受到周围环境的噪声干扰。比如:手机铃声、汽车鸣笛声和其他说话人的声音等等。为了更清楚地获取说话者所表达的信息,就需要把语音中的各种干扰和噪声滤除。端点检测是用来区分噪声段和语音段,是语音去噪的基础。其方法有多种,如:基于能量、基于过零率、基于复倒谱等。但是这些方法的鲁棒性不好,对噪声变化敏感,在低信噪比下的效果不能令人满意。

Shen等人首次把能量熵应用于语音端点检测[5],因为其反映了能量在时频域的波动性和分布特点,可以用来更好地区分语音段和噪声段。Huang结合能量和熵的特点,提出了EE_F算法[3]。Bing-Fei Wu等人根据语音信号的带状分布特性,提出了子带谱熵(BSE)和自适应子带熵(ABSE)端点检测算法[4],通过自然加权因子和自适应子带选取,使其在各种噪声环境中都具有较好的鲁棒性。

以上所提出的熵的端点检测都是基于短时傅里叶变换(STFT)的,但是STFT存在着不可克服的缺点,其只具有单一的频率和时间分辨率。由于语音信号在高频段波动剧烈,要求较高的时间分辨率,在低频段波形较平缓,频率成分很多,要求较高的频率分辨率,然而STFT不可能做到两者兼得。文献[3]中提到的自然加权因子是根据浊音谱的分布特性,即高能量子带和低能量子带间隔分布,增加带状谱的权值,也就增强了浊音段熵的权值。本文依据谱熵法的基本原理和浊音的频谱分布特点,提出了一种基于小波熵的端点检测方法,并对自然加权因子进行改进,仿真表明算法有更高的准确率和抗噪声性能。

1 小波变换及小波熵端点检测

小波分析是傅立叶分析的进一步发展,具有自适应和数学显微镜性质,特别适合非平稳、非线性信号的处理。1988年Mallat提出多分辩分析的概念,使小波具有带通滤波的特性,从而小波变换得到了更广泛的应用。

1.1 小波变换及多分辨分析

小波分析是一种窗口的大小不固定、形状可变的时频局部化信号分析方法,即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分则相反。小波变换的含义是:把称为基本小波的函数ψ(t)做位移τ后,在不同尺度a下与待分析信号x(t)做内积:

与傅立叶变换不同的是:傅立叶变换在时域是非局部化的,仅从时域或者是频域对信号分析。而小波变换的核函数是小波函数,它在时域和频域都是局部化的。通过位移参数τ和尺度参数a的不同组合可以对信号在时率域内进行联合分析。

小波变换的多分辨分析是指:我们可以把小波变换看成用基本频率特性为ψ(ω)的带通滤波器在不同尺度a下对信号做滤波。由于傅立叶变换的尺度特性,如果ψ(t)的傅立叶变换是ψ(ω),则ψ(t/a)的傅立叶变换为aψ(aω),组滤波器品质因数恒定,即相对带(带宽与中心频率之比)恒定。

1.2 小波能量熵

应用小波框架理论,令尺度j上的小波系数矢量Dj=(dj,1,dj,2,…,dj,n),n为j层的小波分解个数。定义尺度j上的能量和总能量分别为:

由熵的定义可知j尺度能量的概率为:

小波熵端点检测的原理是根据信号小波分解系数在语音帧和非语音帧的不同分布特性,反映为熵值的变化来区分噪声和语音段,而后通过门限进行判决。如图1所示。

具体方法是:

step1选取适当的小波,对信号进行小波分解,求个各个尺度的小波能量。

step2为了降低由于某一个点频处的波动对熵造成的影响,以各层为子带,求个子带的能量:

step3由下式求j子带的熵。

2 自适应分层及改进的自然加权

2.1 自适应分层

文献[3]指出当信噪比较低时,由于噪声波动性大,导致了较多子带被噪声污染,有用子带数减少,熵的波动性大。因此在信噪比较低时应尽量减少被噪声污染的子带个数,降低子带能量的波动,反之要增大子带个数。这就需要自适应选择子带个数。

NMin BE(l)表示第l帧的有用子带数,Eb(n,l)表示第l帧第n个子带的能量。小波熵分解层数和小波熵的波动性也具有相似的关系。

图2可以看出分解层数越多,熵波动越明显,高信噪语音段越明显,但是一些清音段和低信噪比浊音段会淹没在噪声中,不利于检测。相反当分解层数较低时,整体波动小,噪声段熵较平坦,语音段熵值也有所下降。因此需要自适应的调整分解层数,在低信噪比段选用较小的分解层数,反之增大分解层数。

本文根据小波能量的分布特点把最高频子带作为噪声子带,用最高频子带能量和最低子带能量的比来确定分解层数。

M(l)为最高频子带能量和最低子带能量的比,N(l)为分解层数。

通过和图3比较,可以看出自适应分层使语音帧更突出,噪声帧更平坦,但是当信噪比较低时噪声段的波动仍很大。

2.2 改进的自然加权因子

文献[3]指出熵值的大小与帧内各子带能量的分布有关,语音帧和噪声帧子带能量随频率的提高都有所减小,但是噪声帧大多顺势依次递减;而语音帧,特别是浊音帧由于其谐波特性,大约125HZ会出现一个波峰,而后是波谷。Bing-Fei Wu等人[4]依据这种交替的柱状频谱分布特性提出一种自然加权因子。

其中Pb_offset(n-1,l)、Pb_offset(n,l)、Pb_offset(n+1,l)分别为当前子带内最小能量帧和连续3个子带的能量比。但是单独一帧的柱状谱不能很好地反映浊音段的时域特征。因此本文对其进行了时域平滑,认为如果连续三帧具有近似的柱状分布才进入浊音段,这样更加符合谐波在频域的柱状特性和时域的延续性。

其中a、b、c为常数,且a+b+c=1。w(n,l)为第l帧第n个子带的加权因子。

图4为改进后的加权熵在对数域的分布曲线,要明显优于图3的结果。

3 实验仿真分析

仿真中纯净语音信号来自NOIZEUS数据库时长2.24s,采样频率为8000Hz,噪声信号分别选用来自Noisex92数据库的白噪声,色噪声,工厂噪声和hf噪声。测0d B、-5d B和-10d B三种情况。小波变换核函数为'bior3.7'。帧长度为256,采用汉明窗,帧间重叠50%。比较自适应子带能量谱熵(ABSE)和本文提出的子带小波熵(WBSE)的检测效果。如图5所示。

从图6和图7可以看出:在浊音段WBSE要明显好于ABSE,这一方面是由于小波变换在低频的分辨率要好于STFT,另一方面是由于改进的加权因子对谐波段效果更明显。通过对比还能看出:WBSE在一些能量极低的清音段的检测效果不好(如本例中27帧左右),这是由于清音段类似白噪声,无法通过自然加权因子进行调整。因此当信噪比较高(0d B以上)时WBSE检测正确率不如ABSE,但是当信噪比继续降低,两种方法对清音段和爆破音段都无法检测,但是WBSE对浊音段有更强的抗干扰性,且浊音段在整个语音段中所占比重很高,因此检测效果要好于ABSE。如表1所示。

4 结论

本文根据自适应子带谱熵法端点检测原理,提出了小波熵端点检测算法,并改进了自然加权因子。仿真结果表明算法在低信噪比条件下效果要好于前者,但是其计算复杂度也有所增加。此外两种算法在低信噪比时都无法检测出清音段,这也是今后需要改进的地方。

摘要:首先对语音信号进行小波变换,引入反映信号能量分布特性的小波熵,进行端点检测。并根据浊音的特点,改进了自然加权因子。仿真表明,在低信噪比条件下其检测效果要好于自适应子带谱熵法。

关键词:端点检测,能量熵,小波能量,小波熵

参考文献

[1]Shen J L,Hung J W,Lee L S.Robust entropy-based endpointdetectionfor speech recognition in noisy environments[C].Proc of InternationalConference on Spoken Language Processing.Sydney,1998:232-238.

[2]陈四根,和应民.一种基于信息熵的语音端点检测方法[J].应用科技,2001,3(28):13-15.

[3]Shen L S,Yang C H.Anovel approach to robust speech endpoint detec-tion in car environments[C].ICASSP,2000:1751-1754.

[4]Bing-Fei Wu,Kun-Ching Wang.Robust Endpoint Detection AlgorithmBased on the Adaptive Band-Partitioning Spectral Entropy in AdverseEnvironments[C].IEEE Transactions on Speech and Audio Processing,September,2005,13(5):762-774.

[5]Shen L S,Yang C H,Lee L S.Robust entropy-based endpoint detectionfor speech recognition in noisy environments[C].presented at the ICS-LP,1998.

[6]徐望,丁琦,王炳锡.一种基于特征空间能量熵的语音信号端点检测算法[J].通信学报,2003,11(24):126-130.

[7]王让定,柴佩琪.一个基于谱嫡的语音端点检测改进方法[J].信息与控制,2004(1):77-79.

[8]Thomas F Quati.Discrete-Time Singal Processing:Principle and Practice[M].北京:电子工业出版社,2004.

[9]Cyril Plapous,Claude Marro,Pascal Scalart.reliable A posteriori signal-to-noise ratio features selection[C].2005 IEEE Workshop on Applica-tions of Signal Processing to Audio and Acoustics October,New Paltz,NY.2005:16-19.

[10]Gokhun Tanyer S,HaInza Ozer.Voice Activity Detection in NonstationaNoise[J].IEEE Sactionsno SpecehandAndioPrCOessing,2000,8(4):478-482.

[11]李哗,张仁智,崔慧娟,等.低信噪比下基于谱嫡的语音端点检测算法[J].清华大学学报:自然科学版,2005(10):1387-1390.

上一篇:植物园林设计下一篇:无公害大棚