语音信号处理(精选10篇)
语音信号处理 篇1
语音信号处理是二十世纪至今发展最为迅猛的研究领域之一,其主要任务是利用信号处理技术研究语音信号,建立和谐的人机交互通信。语音识别和说话人识别是语音信号处理中两大重要分支,两者的处理过程基本相似,都可大致分为特征提取和模式匹配两大过程,其中特征提取这一关键技术对提高识别率来说有着至关重要的作用。
当今国内外有很多文献对语音处理特征提取的各种方法进行了详细的说明,其中有对常规方法的推陈出新,也有新理论的研究成果。本文针对这一现状总结性的介绍了语音特征提取的一些主要方法,对其结果进行比较,并对HHT这一新起的数字信号处理方法在语音特征提取中的应用作了相应的介绍。
一、语音信号处理过程
对语音信号进行数字处理时,第一环节是预处理,主要有A/D变换、预加重和端点检测(也称去静音)部分。预处理的目的是为了后续的特征提取步骤能够更加清晰、可靠的分析语音段,提取语音或者是说话人的特征。在很多文章里把预处理过程划分到特征提取这一部分中,也可以说它是特征提取的准备阶段。检测到语音的起止点后,就开始对语音信号段进行分析处理。特征提取的主要作用是从语音信号段中提取出对识别有用的信息,去掉无关的冗余信息。特征提取完成后,在此基础上建立识别所需的模板。而计算机在识别过程中将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。以上为完整的识别系统的全过程,图1给出了一般语音识别系统框图,同样的过程也适应于说话人识别。
二、语音识别与说话人识别特征提取异同
语音识别系统根据识别对象的范围可以大致分为非特定人识别和特定人识别系统两种。目前语音识别和说话人识别特征提取的主流方法很多都是一致的。事实上说话人识别当中采用的特征和建模方法大部分都是从语音识别中借鉴而来的,比如常用的LPCC和MFCC特征参数在语音识别和说话人识别上都有应用。但两者还是有本质上的差别,主要原因是语音识别和说话人识别在何种“有用特征”的提取上存在着很大的不同。对于语音识别中的非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个体特征;对于说话人识别来说情况正好相反,需要提取的特征尽量包含说话人呢个性差异,而减少共性的语义信息;对于语音识别中的特定人识别,却既需要提取的特征包含共性的语义信息也需要个性的人为差异。介于最终目的不同,特征提取的内容也存在差异。
三、特征提取的研究进展
常用的语音特征有常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、基音频率、短时傅立叶变换、倒谱、共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。
3.1常规方法分析[4]
LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。由此语音特征派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。LPCC为LPC的倒谱参数,它的原理和计算都较为简单,容易实现。计算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。
基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性性映射得到的一个频率尺度。MFCC是继LPCC之后语音识别领域中又一大创新理论。相比于LPCC它的识别性能有明显的改进,只是计算量大于LPCC,用C语言在计算机上做模拟时其运算时间是LPCC的近十倍。由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下,仍具有较高的识别精度,特别是对噪声情况下的识别具有一定的鲁棒性。更随着DSP技术的发展以及它对FFT计算的支持,使得MFCC的参数提取速度也很快。
结合LPC与MFC的后来提出的一种特征提取的方法PLP(感知线性预测参数),用durbin法计算LPC参数,而在计算自相关时用类似MFC的方法。PLP性能类似MFCC,甚至在某些特征提取结果上要好于MFCC。
3.2二次特征提取的主要方法
后来,基于LPCC和MFCC特征提取方法,人们衍生出它们的差分形式以及加权组合等方式来进一步提高识别率,常常也称这类对特征重新加工的方法为二次特征提取。实践证明,二次特征提取能够有效地改进原方法的识别率。二次特征提取是对原始提取的特征向量综合应用加权、微分、组合以及筛选等方法进一步寻找出更能反映语音或者说话人本质的特征。二次特征提取所运用的四种方法对原始特征向量的相应的操作涵义不同,最后提取的特征向量所能表征的识别结果就不同。很多文献都给出了二次特征提取的有效地识别结果,有的结合MFCC和LPCC,结合两者的优点提高识别率。文献[1]中给出了二次特征提取相对于原始特征向量的识别结果,文献[4]对各个特征参数提取并仿真结果。由此证明了采用二次特征提取的方式重新构造新的特征向量是有效并可行的。
3.3特征提取的最新进展
特征提取是语音识别和说话人识别的关键技术,同样它也是由语音识别和说话人识别所决定。由于语音识别的多方面性和复杂性,特征提取的内容也相应有所不同。对于单语言语音识别,只需要建立自己语言的模板即可,而对于多语言混合语音识别,通常需要针对不同语言建立相应的识别模板。针对此情况管辖音系学提出了适用于多语言的语音学特征,文献[2]介绍了这一新型的理论管辖音系学的基本原理,并提出了汉语普通话的管辖音系学特征及提取方法。针对噪声环境中的语音识别和说话人识别,很多学者致力于寻找具有鲁棒性的特征参数,常用的是一些模仿听觉特性的感知语音特征。
语音信号的语谱图可以借鉴图像处理的相关知识提取内在的特征参数,应用图像的一些处理方法例如小波变换、神经网络等。小波变换在语音信号处理中的效果并不显著,但是应用小波包的语音特征提取取得了不错的效果。文献3、4、5中可以看出小波包相比与经典的特征提取方法,说话人识别率的较大提高,而且具有抗噪鲁棒性。
3.4 Hilbert-Huang transform应用于特征提取
HHT[10]是Hilbert-Huang transform的缩写,是指希尔波特变换经过黄锷教授的改进之后形成的一种处理非线性非稳定时间序列的行之有效的方法。HHT发表于1998年,目前已经吸引不少学者研究,在国内乃至整个学术界都属于尚新的理论。不少人探究它的优缺点,都希望能克服它的弱点,更大的发挥其优越性。
HHT在非线性非稳定信号处理领域有着其他方法无法比拟的优点,相比于经典的傅立叶变换、小波变换处理信号具有自适应性,能更好的分析数值的统计特性。把传统变换中不能联系起来的时域和频域结合在一起,观察非线性数值的频率随时间的变化情况,并且分辨率高,形成的时频特性图具有能量局部性、频带清晰聚集、能量泄漏少等优点。HHT的理论核心可以概括为原时域语音信号通过经验模式分解(EMD)得到一系列本征函数(IMFs),分别对IMFs实施希尔伯特变换,并得到瞬时频率随时间的表达式,建立频谱图。
语音信号是一个典型的非线性信号,传统的方法都是建立在其短时平稳的特型上,先对语音信号分帧,然后再分析每帧信号内的局部特型,从而忽略了语音信号动态特性。利用HHT分析语音信号,文献[11]给出了一种提取前五阶IMFs求取瞬时频率HF作为说话人特征的提取方法,结果表明利用HHT原理简单、用来训练的码本远小于传统的特征提取方法,识别率也略高。延续这个思路,可以加入其它常规特征共同提高识别率,例如幅度;也可以利用二次特征提取,进一步对能量高、频率高的IMF分量进行加权处理。不管怎样,HHT应用于语音信号为特征提取提供了新的思路,依据它的原理可以预见这个应用研究是行之有效的,目前作者更进行此方面的研究。
四、结语
本文主要介绍了语音信号处理中的特征提取的方法,总结和展望了特征提取的各个常规方法以及最新研究成果。最后介绍了HHT在特征提取中的应用,并指出这个新兴理论的研究前景与可行性。
参考文献
[1]芮贤义,俞一彪.噪声环境下说话人识别的组合特征提取方法.信号处理,2006 Vol.22 No.5
[2]李虎生,刘加,刘润生.高性能汉语数码语音识别算法[J].清华大学学报(自然科学版),2000,40(1):32-34
[3]刘雅琴,裘雪红.应用小波包变换提取说话人识别的特征参数.计算机工程与应用,2006.09
[4]武妍,金明曦,王洪波.基于KL—小波包分析的文本无关的说话人识别.计算机工程与应用,2005.04
[5]芮贤义,俞一彪.基于小波变换的鲁棒型特征提取及说话人识别.电路与系统学报,2005 Vol.10 No.5
语音信号处理 篇2
2、在考虑语音通信的过程中,开始在大脑中思考消息在扬声器中的一些抽象的表示形式是有帮助的。虽然产生语音的过程是复杂的,但该消息中的信息最终被转换成声学信号。在言语产生的过程中消息的信息可以被认为存在许多不同的表示方式。例如,该消息信息首先被转换成一组能控制发音机制的神经信号(即,运动舌头,嘴唇,声带等)。发音器官的运动响应于这些神经信号来完成一系列的手势,其结果是在原始消息中包含的信息的音响波形。
3、信息虽然连通但讲话本质上是一个离散的性质的信息,i.e.,即,它可以被有限集合中元素串联的符号表示,每一个声音的符号可以被分类,被称为音素。每种语言都有它自己的独特的音素,编号通常在30至50之间。例如英语可以表示为一组约42个编号的音素。
4、信息理论关注的中心问题是传达信息的速率。讲话的信息率可以通过发音器官物理上的运动速度粗略估计,人类讲话的平均速率每秒约10个音素。如果每个音素表示一个二进制数,那么6位数字代码足以代表所有的英语音素,设平均增长率为每秒10音素,并且忽略任何相邻音素的组合,我们得到了一个大约60比特/秒的平均信息语速。换句话说,书面讲话包含的信息相当于60位/秒正常讲话率。当然一个“真正”的语音信息内容的下界是大大高于这个速度的,上述估计确实需要考虑一些因素,如说话者的身份和情感状态,说话的速率,声音的响度,等。
5、在语音通信系统中,语音信号的传输、存储、和处理有许多方法。技术问题导致各种表示形式的语音信号的产生。一般来说,有两个主要的问题存在于任何一个系统中:一是保护消息内容的语音信号。另一个是语音信号便于传输和存储的表示形式。或者以一种灵活的形式表示,这样修改后不会对语音信号所表示的消息内容产生严重退化的影响。
6、语言信号必须这样表示,信息内容能被听众容易的提取,或自动被机器提取。
语音信号的表示形式(而不是消息的内容)可能需要从500到1百万比特每秒以上的提取速度。这些表示形式的设计和实现,信号处理的方法发挥基础性作用。
7、一般的信息处理问题可用图3-22描绘的框图表示。在语音信号的情况下,说话者就是信源。一般测量或观察声波的尺寸。
8、涉及信号处理,首先根据一个给定的模型获得信号,利用运用程序对信号进行一些更高层次的变换,以便把该信号转换成一个更方便的形式。在这个过程中的最后一步是报文信息的提取和利用。本步骤可以由人类听众或由机器自动进行。例如,一个系统,其功能是自动识别扬声器从一个给定的发言者发出的语音信号,该语音信号可能使用一个随时间变化的频谱表示。
9、因此,语音信号处理涉及两个任务。一,这是语音信号的波形或参数一般表示形式的获取手段;二,信号处理在转换的过程中提供函数帮助,这是信号一般性质的替代形式,但更适合特定的应用程序。
10、我们将探索数字技术在语音信号处理中的作用。数字信号处理涉及离散信号的获取与表示,伴随变换理论,涉及和数控程序的实施用来处理离散信号的表示。数字信号的处理目的类似于模拟信号的处理。因此,在语音通信的上下文中单独挑出数字信号处理技术做特别考虑是合理的。可以列举一些很重要的原因。首先,最重要的大概是一些极其复杂的信号处理功能可以用数字技术来实施的事实。此外,语音信号处理中常用的算法本质上是离散时间信号处理系统。它们大多不适合作为近似的模拟系统来观察,的确在许多情况下没有可用的模拟实施方案。
11、数字信号处理技术在语音处理问题中被首次运用,仿真复杂的模拟系统。最初的观点来看,模拟系统可以在计算机上进行模拟,避免为了试验参数选择和其他设计考虑系统建设的必要性。数字仿真模拟系统的首次应用,需要大量的处理时间。在1960年代中期,一次数字信号处理的革命发生了。主要的主要催化剂是发展快速的计算机和突飞猛进的数字信号处理技术理论。因此,数字信号处理系统具有的优点使得年轻一代有能力来模拟模拟系统的情况变得明朗。目前计算机语音处理系统在实验室中实现,他们作为一个数字系统,可以作为实施特殊用途的数字硬件或对专用的计算机系统进行精确模拟。
12、除理论发展外,伴随数字硬件的发展数字处理技术的优点进一步加强以致于超过模拟系统。数字系统非常可靠和紧凑。集成电路技术已经发展到可以把极其
复杂的系统实现在单个芯片上。逻辑运算的速度足以满足许多信号处理功能所需的巨大数量的计算,可以实现实时语音采样率。
13、在语音通信系统中使用数字技术有另外的原因。如,如果使用合适的编码,在非常嘈杂的信道,数字形式的语音信号能可靠地传输。语音信号的数字形式与其他形式的数据的相同。因此,可以使用一个通信网络同时传输话音和数据,除解码外没有必要区分它们。在安全方面语音信号的传输需要数字表示,它具有明显的优势超过了模拟系统。为了保密,对信息比特进行加扰,最终能在接收器解读。这些和许多其他的原因,数字技术正在被越来越多地应用于语音通信问题。
语音信号处理 篇3
关键词:语音信号; 参数编码; 线性预测编码; 仿真分析
中图分类号: TN 911.72 文献标志码: A doi: 10.3969/j.issn.1005-5630.2015.01.015
Abstract:Parameter coding is to extract the characteristic of speech signal. The main purpose is to improve the intelligibility of the reconstruction of speech signal. Linear prediction coding(LPC)is a valuable method. By analyzing the principle of LPC, we choose Levinson-Durbin algorithm for prediction coefficient. After determining the forecast order number and gain, we carry out the prediction simulation of a real speech signal. The experimental results show that maximum residual error of the predicted waveform is less than 0.3%.
Keywords:speech signal; parameter coding; linear prediction coding(LPC); simulation analysis
引 言
语言是人类交换信息最为方便快捷的方式,语音信号处理是信号处理当中的重要内容之一[1]。语音信号的线性预测编码(linear prediction coding,LPC)是在语音信号处理的基础上,对语音信号线性预测模拟的一种分析方法。线性预测分析的重要性在于它提供了一种十分简洁的语音信号参数模型,这一组参数较精确地表征了语音信号的频谱幅度,而且分析这些参数所需要的运算量适中[2]。应用这种模型参数可以降低编码语音信号的数码率,将LPC参数形成模板储存在语音识别中既可以提高识别率又可以降低计算时间。
1 线性预测分析的基本原理
根据线性预测编码原理,一个语音采样序列的当前值能够通过对过去若干个语音采样值的线性组合来逼近,若经过优化处理可以使预测值在最小均方误差意义上逼近实际采样值。若语音信号的取样值序列设为s(n),n=1,2,…,p,…,信号当前取样值s(n)可以通过提取信号序列的前p个取样值进行加权预测得出,其预测值记为s^(n)。为了实现线性预测编码,首先用系数{ak}定义一个p阶预测器F(z),其数学描述为:
2 语音信号线性预测仿真分析
语音信号的线性预测分析可以根据之前的信号预测,仿真出现在的语音信号。由上面的计算可知,在选定合适的预测系数阶数和增益G的情况下,可以得到理想的预测结果。为此,针对一段实际语音信号进行线性预测验证分析。图2所示为语音信号原始波形图,图中语音波形是由五个汉语单字组成的,本段语音的取样点数很高,有几万个取样点,图3是线性预测的结果。
图4为两个波形的残差。可以看到线性预测的效果较好,由于实际语音中所用到的抽样点很多,无法直观的看出各个点数的预测情况。从上面的语音信号中截取480个语音点来进行同样的预测分析,得到图5所示的曲线图。其中,深色的曲线代表原始语音波形,浅色的曲线代表估计语音波形,较为平直的线代表原始语音波形和估计语音波形之间的残差。由图5可以看出,线性预测的效果很好,估计波形已经基本接近原始波形,其最大残差小于0.3%。
3 结 论
在语音编码算法中,如果对语音进行直接编码,则会导致编码所需的比特数较大,编码所需的速率较高。为此,采用了线性预测这一编码方法。本文在分析线性预测编码器原理基础上,利用Levinson-Durbin算法求解预测系数。通过对实际语音波形的线性预测实验证明:LPC线性预测效果比较理想,不仅大大减少量化比特数,而且降低了对编码速率的需求。
参考文献:
[1] 刘云,沈连丰,朱惠芬.语音编码技术及其实验研究[J].电气电子教学学报,2004,26(3):11-16.
[2] 周波,许萌.数字语音编码技术研究[J].科技情报开发与经济,2008,18(3):165-167.
[3] 叶蕾,杨震,郭海燕.基于小波变换和压缩感知的低速率语音编码方案[J].仪器仪表学报,2010,31(7):1569-1574.
[4] 潘丽娜,庄紫云,王戈,等.运用半导体激光器进行监听以及音源定位的研究[J].光学仪器,2013,35(1):37-43.
[5] 杨会彩,樊延虎.几种低速率语音编码算法分析[J].延安大学学报,2009,28(1):44-46.
[6] 陈立伟,赵春晖,孙玲,等.一种语音信号线性预测系数的求解新方法[J].应用科技,2005,32(8):12-13.
(编辑:张 磊)
云计算平台下的语音信号处理 篇4
1语音识别特征
汉语语境下,语言情感识别研究相对较晚,但得到了科研工作者的广泛关注。如神经网络、K近邻法、支持向量机、贝叶斯分类器等模式识别分类算法在语言情感识别中得到了使用。本文使用支持向量机算法建立语音情感识别模型,使用语音信号进行预处理,提取用于识别的特征参数,使用训练数据对支持向量机模型进行训练,之后使用测试数据对训练好的模型的泛化能力进行测试。通过对语音信号的分析以及参考文献,本文使用的用于语音信号识别的语音信号特征参数如表1所示[4,5,6]。本文主要针对愉悦、平静、 悲伤、惊奇、恐惧以及愤怒6种情感的语音识别进行研究。这6种情感的语音波形如图1所示[7,8]。
2 Map Reduce模型
Map Reduce将庞大数据操作任务分配给多个计算机节点共同完成,并将多个计算机节点的计算结果合成得到传统单台计算机计算得到结果。Map Reduce包括的过程有:Map,Partition,Shuffle,Combine、Sort以及Reduce。但是可以将该过程合并为Map和Reduce两个过程。Map过程将任务分配给多个计算机节点共同完成, Reduce过程将多个计算机节点的计算结果进行合成。
注:frame代表帧数;Ei代表各帧短时能量。
Map过程中,系统会把一个庞大的任务分划为大小固定的片段,并将各个片段分解为键值对。Hadoop平台则片段建立Map任务,可以完成用户自定义的Map函数,并输入该片段的键值对,从而输出计算结果。根据K2将计算的结果进行排序,得到元组。Reduce过程中,系统会把Map计算的结果进行排序,输入为,输出为。Map Reduce模型结构如图2所示[9]。
3云计算环境下SVM语音信号处理模型
传统SVM语音信号处理识别模型是在单台计算机中完成所有数据的处理和运算。云计算环境的Hadoop平台下使用SVM对语音信号处理,能够发挥Map Reduce并行计算优势,通过Map和Reduce操作将所需要的数据处理和运算任务分配到多个计算机中同时进行。在云计算环境的Hadoop平台下使用SVM对语音信号处理时,需要使用Map操作将分割的子计算节点中的各个训练数据的子支持向量SVs求出,之后使用Reduce操作子计算节点的子支持向量SVs进行汇总得到完整的支持向量All SVs,即建立了云环境的SVM语音信号处理识别模型。使用SVM语音信号处理识别模型进行数据测试时,需要使用Map操作将分割的子计算节点中的各个测试数据的测试结果Rs求出,之后经过Reduce操作将子计算结果合并得到最终的语音信号处理识别结果。 具体流程如图3所示[10,11]。
云计算环境的Hadoop平台下建立基于SVM的语音信号处理识别模型过程如下:
(1)预处理语音信号数据,将处理后的数据按照HDFS要求进行分块处理,并将分解的数据块存储到集群的各个计算机中。
(2)建立SVM语音识别模型,初始化相关参数,并选取应用广泛,性能优越的RBF核函数作为SVM的核函数。
(3)使用语音信号数据的训练样本对SVM语音识别模型进行训练,并将训练后得到的识别模型使用测试数据进行泛化能力测试[12]。
4实验分析
通过实验对本文研究的云计算平台语音信号处理识别模型的性能进行验证。实验平台具有一台主机Name Node,CPU为Intel i5 4950,内存为8 GB DDR31 600 MHz,硬盘为500 GB,数据节点Data Node由三台计算机组成集群,CPU为Intel i3 4170,内存为4 GB DDR3 1 333 MHz,硬盘为500 GB。Hadoop为1.0.2版本,各个计算机集群节点实验千兆交换机进行连接。本文使用中科院自动化研究所建立的CASIA汉语情感数据库中的语音信号数据作为实验数据。在此针对愉悦、 平静、悲伤、惊奇、恐惧以及愤怒这6种情感的语音进行识别,从数据库中抽取600条情感语句,其中每种情感语句有100条,80条用于对识别模型进行训练,另外20条用于对识别模型进行测试[13]。使用本文研究的云计算平台下的语音信号处理识别结果如表2所示。
实验结果表明,使用云计算平台下的语音识别模型针对研究的几种情感的识别率基本在70%以上,识别率可以满足要求。定义传统单台计算机完成任务所需时间除以云计算平台完成任务所需时间为加速度比,本文使用的一台Name Node和三台Data Node组成的Hadoop集群平台在处理语音情感识别任务时的加速度比达到了3.6,说明使用云计算平台处理这种数据比较庞大的计算任务时,相比传统单台计算机平台,效率较高,优势比较明显。
5结语
情感识别已然成为情感计算的重要分支,并得到了科研工作者的广泛关注。本文在云计算平台下使用支持向量机算法建立语音情感识别模型,使用语音信号进行预处理,提取用于识别的特征参数,使用训练数据对支持向量机模型进行训练,之后使用测试数据对训练好的模型的泛化能力进行测试。使用中科院自动化研究所建立的CASIA汉语情感数据库中的语音信号数据作为实验数据;针对愉悦、平静、悲伤、惊奇、恐惧以及愤怒6种情感的语音进行识别。实验结果表明,使用云计算平台下的语音识别模型针对研究的几种情感的识别率基本在70%以上,识别率可以满足要求。使用Hadoop集群平台在处理语音情感识别任务时的加速度比达到了3.6,说明使用云计算平台处理这种数据比较庞大的计算任务时,相比传统单台计算机平台,效率较高,优势比较明显。
摘要:针对云计算平台下的语音信号处理模型进行研究。传统SVM语音信号处理识别模型是在单台计算机中完成所有数据的处理和运算。云计算环境的Hadoop平台下使用SVM对语音信号处理,能够发挥Map Reduce并行计算优势,通过Map和Reduce操作将所需要的数据处理和运算任务分配到多个计算机中同时进行。使用中科院自动化研究所建立的CASIA汉语情感数据库中的语音信号数据作为实验数据。实验结果表明,使用云计算平台下的语音识别模型针对研究的几种情感的识别率基本在70%以上,识别率可以满足要求。使用云计算平台处理这种数据比较庞大的计算任务时,相比传统单台计算机平台,效率较高,优势比较明显。
语音信号处理 篇5
录
1.课程设计目的………………………………………………………………(1)
2.课程设计基本要求……………………………………………...………….(1)
3.课程设计内容………………………………………..……………………..(2)
4.课程设计实现……………………………………………………..…..……………(3)
(1)语音信号的采集……………………………………………………..(5)
(2)语音信号的频谱分析………………………………………………..(6)
(3)设计滤波器和画出频率响应………………………………………..(6)
(4)用滤波器对信号进行滤波…………………………………………..(9)
(5)比较滤波前后语音信号的波形及其频谱…………………………..(9)
(6)回放语音信号………………………………………………………..(11)
(7)设计系统界面………………………………………………………..(13)
5、心得体会……………………………………………..……………………..(14)
语音信号特征参数研究 篇6
在语音识别的发展过程中使用了大量的语音信号特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术, 其基本思想是将预处理过的信号通过一次变换, 去掉冗余部分, 而把代表语音本质的特征参数抽出来。接下去所要作的识别处理都是建立在特征参数之上的, 如果特征参数不能很好地反映语音信号的本质, 识别就不能成功。
语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小大约是20~30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。帧叠大, 相应的计算量也大。
常用的语音特征参数有平均能量、平价跨零数或跨零率、共振峰、LPC参数、倒谱参数、临界带倒谱等。下一节介绍一些常用的语音特征。
2 语音信号特征参数介绍
(1) 基音周期 (Pitch)
人的语音基本上由两类构成, 一类是浊音 (voice) , 另一类是清音 (unvoice) 。浊音的语音信号具有较强的周期性, 不同的浊音波形是不同的。浊音的这种周期叫基音周期, 其倒数叫做基音频率, 它主要和声带的特性有关。一般来说, 成年男性的语音的基音频率在60Hz~200Hz, 而成年女性和儿童语音的基音频率在200Hz~450Hz。清音的语音信号具有随机噪声的特点, 一般来说清音的幅度小于浊音的幅度。基音周期 (Pitch) 是指发浊音时声带震动所引起的周期运动时间间隔, 代表声带震动的快慢, 震动越快音高会越高, 基音周期是声带振动频率F0的倒数, 它是语音信号分析的一个重要参数。
(2) 短时频谱
语音信号特征在较短的时间间隔中保持基本不变, 即语音信号具有时变特性, 因而可以将语音信号看作是一个短时平稳过程。语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。可以用下列公式计算:
也即sw (n) 的离散傅立叶变换。|Sw (k) |2称为s (n) 的短时功率谱。
(3) 短时自相关函数
sw (n) 的自相关函数Rw (τ) 称为s (n) 的短时自相关函数。可用公式 (4) 计算:
(4) 短时能量
s (n) 的短时能量计算公式如下:
短时能量代表声音的尺寸, 可由声音信号的震幅来类比。
(5) 短时平均幅度
s (n) 的短时平均幅度计算公式如下:
短时能量和短时平均幅度都是表示一段语音信号能量大小的参数。
(6) 短时过零率
信号按段分割就称为短时, 段可是帧大小。过零就是信号的幅度值从正值到负值、负值到正值要经过零点, 统计信号在一秒钟内有几次过零就是过零率。s (n) 的短时过零率表示一段语音信号中语音信号波形与横轴相交的次数。可以用式 (5) 计算:
其中sgn (x) 是符号函数:
以短时能量为主, 短时过零率为辅, 可对语音信号中的清音进行较精密的检测。
(7) 倒谱
倒谱是一段语音信号的一组重要参数。要计算信号sw (n) 的倒谱, 首先要计算sw (n) 的离散傅立叶变换:
然后对离散傅立叶变换的模取对数:
最后再做傅立叶反变换:
这样得到的c (n) 被称做是“倒频谱”或“倒谱”。
(8) 线性预测编码 (LPC) 参数
考虑语音信号序列s (n) 。假设某时刻n之前的P个语音信号值s (n-1) , s (n-2) , …, s (n-P) 已知, 但时刻n的语音信号值s (n) 未知。如果用前P个已知的信号值的某种线性组合预测s (n) 的值, 则预测值s! (n) 可以表示为:
其中αi都是实数, 称作预测系数。预测值s! (n) 与真值s (n) 之间的预测误差ε (n) 可以用下式计算:
由于s (n) 是一个随机序列, 所以ε (n) 也是一个随机序列。可以用ε (n) 的均方差来衡量线性预测的准确性。δε2越小, 预测的准确性在均方误差最小意义下越好。
还有以下几类特征参数:线谱对 (LSP) 参数、线性预测倒谱参数 (Linear Prediction Cepstrum Coefficient, LPCC) 、美尔频标倒谱系数 (Mel Frequency Cepstrum Coefficient, MFCC) 、感觉加权线性预测特征 (Perceptual Linear Predictive, PLP) (PLP参数、RASTA-PLP参数) 、动态差分参数、高阶信号谱类特征等[3]。
3 语音信号特征选择
短时自相关分析可用来区分清音和浊音, 浊音信号是准周期性的, 用短时自相关函数求出语音波形序列的基音周期。对语音信号进行线性预测分析时也要用到短时自相关函数。
短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律, 清音段的幅度一般比浊音段的幅度小很多, 根据语音信号短时能量值的变化, 可大致判定浊音变为清音或清音变为浊音的时刻。短时能量在高信噪比的语音信号中, 可以用来区分静音, 静音的噪声能量很小, 而有语音信号时短时能量值显著地增大到某一数值, 通过这一点也可以区分语音信号的起点和终点 (也即端点) 。
可以根据平均过零数来粗略区分清音和浊音, 发清音时具有较高的平均过零数, 发浊音时具有较低的平均过零数。短时平均过零数还可以用于识别语音信号的起点和终点。
具体应用领域对语音信号特征有不同的要求, 特征的选择很重要, 它强烈地影响应用系统的效率。我们要对具体的应用选择合适的特征, 在一个说话人识别系统中倒谱特征、倒谱与差值倒谱特征组合以及倒谱、差值倒谱、基音、差值基音组合有更好的识别准确率[2]。由此可见多特征组合有更高的识别准确率。
4 语音信号特征提取实验
我们对采样频率 (fs) 为16k HZ的sunday.wav来提取上一节中介绍的特征参数:短时能量、短时平均幅度。其中每帧大小为256 (即每帧包含256个取样点) , 帧叠为0。
我们可用公式 (3) 计算得到图2所示的短时能量图。我们希望短时能量图平滑一些, 采用减去每帧中的中位值后再进行绝对值求和的方法, 如公式 (12) 所示, 公式 (12) 中的median为每帧帧向量的中位值, 所得的短时能量图如图3所示。但这短时能量图没变化多少, 且短时能量对于高电平信号非常敏感, 我们采用对数短时能量计算方式来得到短时能量, 如公式 (13) 所示, 公式 (13) 中的δ为一个无穷小量, 是为防止对0取对数而加入的, 计算后所得的短时能量图如图4所示。根据公式 (6) 所得的短时平均幅度为图5所示。它与图3很接近。
5 结束语
语音信号具有很大的信息冗余, 我们提取出最能表征语音信号的特征能极大地提高语音识别准确率, 也能极大的压缩语音信号。在本文第2节中介绍了大量语音信号特征;在第3节中介绍了语音信号特征的选择;第4节中对部分语音信号特征进行了提取, 并用可视化的方法展示了部分语音信号特征。提取出语音信号特征后, 接下来就可以对语音信号进行语音识别, 这就是我们接下来的工作。在语音信号特征提取之前可先对语音信号进行端点检测, 准确标记出语音信号的起止点, 这样也能提高语音识别的准确率, 这也是我们接下来想进行的工作。以及有关语音信号特征的线性、非线性组合以提高语音识别的准确率也是我们接下来想进行的工作。
参考文献
[1]张智星.音讯处理与辨识[EB/OL].网上在线课程.[2008-01-23].]http://www.cs.nthu.edu.tw/ ̄jang.
[2]边肇祺.张学工.模式识别[M].北京:清华大学出版社, 2005.
语音信号的滤波设计 篇7
在数字信号处理中, 数字滤波占有极其重要的地位。目前对数字滤波器的设计有多种方法, 其中MATLAB软件已成为设计数字滤波器的强有力工具[1]。通过使用MATLAB设计FIR和IIR数字滤波器, 对含有噪声的语音信号进行滤波, 然后对滤波后的语音信号的时域波形和频谱进行分析。
1 FIR数字滤波器的设计原理
1.1 FIR数字滤波器的设计思想
MATLAB信号处理工具箱为FIR滤波器的两种设计方法提供了直接函数———窗函数法和等波纹最佳一致逼近法[2]。文中使用的设计方法是窗函数法, 下面就此方法简要说明其设计思想。
窗函数设计法一般由一个理想的所需设计的滤波器的频率响应开始, 即先求出理想滤波器的频响, 其对应的单位抽样响应是一个无限长、非因果的序列。由于FIR滤波器的单位抽样响应是有限长的, 所以需要一个有限长的序列逼近它, 得到有限长序列的一种简便方法就是运用窗函数对无限长序列进行截断处理, 因此窗函数的形状及长度的选择就成了关键。
1.2 FIR滤波器设计的MATLAB实现
在MATLAB中, 其信号处理工具箱提供了常用的6种窗函数, 分别是:矩形窗、三角窗、汉宁窗 (Hanning窗) 、汉明窗 (Hamming窗) 、布莱克曼窗 (Blackman窗) 和凯塞窗 (Kaiser窗) [3]。这些窗函数各有优缺点, 所以要根据实际情况进行合理选择。
2 IIR数字滤波器的设计原理
2.1 IIR数字滤波器的设计思想
IIR滤波器的设计思想就是寻找滤波器的各个系数, 使其逼近所要求的特性指标。IIR滤波器的设计方法有两种:一是直接法, 先确定一种最优化准则, 再求此最佳准则下的滤波器系数;二是间接法, 先设计一个合适的模拟滤波器, 然后变换成满足技术指标的数字滤波器[4]。
2.2 IIR滤波器设计的MATLAB实现
采用完全设计法 (即双线性变换后做数字频带变换) 设计IIR数字滤波器时, 在程序中无须经过模拟滤波的转换, 直接带入函数如buttord (巴特沃斯数字滤波器) 、cheblord (切比雪夫数字滤波器) 和cheby1 (椭圆滤波器) 即可。
采用双线性变换法设计滤波器时, 需要使用bilinear函数来实现模拟滤波器到数字滤波器的转换, 采用冲激不变法时, 数字截止频率到模拟截止频率的转换是线性的, 需要使用impinvar来实现模拟滤波器到数字滤波器的转换。
3 基于MATLAB语音信号去噪分析
3.1 语音信号的采样
在计算机上启动录音机, 按下录音按钮, 对着话筒说“数字信号处理”, 停止录音, 将录音保存为“xinhao.wma”, 将其转换为“xinhao.wav”, 保存入d:matlabwork中。
3.2 语音信号的时频分析
在MATLAB平台上利用函数wavread对语音信号进行采样, 得到的时域波形和频谱图如图1所示。
3.3 加噪信号的时频
在MATLAB中认为加入一个噪声干扰信号, 在本仿真中用的是随机噪声信号, 加噪信号的时域波形和频谱如图2所示。
通过将这两张图片的时域波形相对比, 可以明显看出加噪后的语音信号比原始语音信号浑浊, 通过将两者的频谱图对比也可以看出在2 000 Hz以后有明显的不同。从语音信号的回放效果来说, 加噪后的信号比原始信号要浑浊很多, 而且还有吱吱嘎嘎的混杂音。
3.4 FIR滤波器滤波
由加噪和原始语音信号频谱图的对比知, 噪音大部分是大于2000Hz的部分, 故设计低通滤波器进行滤波处理。
用设计好的FIR数字低通滤波器对加噪语音信号进行滤波, 滤波后的图像如图3所示。
将滤波前后信号的波形与频谱图相比, 可以看出滤波后的波形明显变得清晰了, 与原始信号的波形图与频谱图相近。从回放效果来说, 滤波后的加噪语音信号基本可以听清了, 杂音也没有那么强烈, 但仍然没有原始信号清晰。
3.5 IIR滤波器滤波
同理, 由于噪音大部分是大于2 000 Hz的部分, 故设计低通滤波器进行滤波处理。
用设计好的FIR数字低通滤波器对加噪语音信号进行滤波, 滤波后的图像如图4所示。
4 结束语
在对语音信号进行滤波时, 使用FIR与IIR滤波器均可以实现滤波功能, 但是由于其各自参数不同, IIR实行起来比较简单, 因此现在常用的是IIR滤波器。
参考文献
[1]付大丽, 党幼云.数字滤波器在语音信号处理中的应用[J].电声技术, 2012 (8) :62-65, 72.
[2]火元莲, 齐永锋, 甘振业.数字滤波器的MATLAB设计与应用[J].自动化仪表, 2007, 28 (12) :70-71.
[3]桂志国.数字信号处理[M].北京:科学出版社, 2010.
时频分析在语音信号处理中的应用 篇8
时频分析是近年发展起来的一个重要的、新的数学分支,目前已成为国际上极为活跃的研究领域。它的研究始于20世纪40年代,1946年,Dennis Gabor对以往的时频分析方法进行总结,给出了短时Fourier变换的全面解释,从而使时频分析得以实用化。1948年,Ville将Wigner 在1932 年提出的Wigner分布引入到信号处理领域,这种时频分析方法对分析非平稳信号和异常信号起到很大的作用[1,2]。时频分析可分为线性和非线性时频分布。常用的线性时频表示有短时傅里叶变换(STFT) 等。而非线性时频表示则是二次型的能量分布表示,常用的非线性时频表示有Wigner-Ville 时频分布等。
语音信号处理是研究应用数字信号处理技术对语音信号进行处理的一门学科,处理的目的是要得到一些语音参数以便高速地传输或储存,或者通过处理的某种算法以达到某种用途的要求[3,4]。许多天然的和人工合成的信号,比如语音、雷达和声纳信号等就是典型的非平稳信号,其特点是持续时间有限,并且是时变的。时频分析正是着眼于真实信号组成成分的这种时变谱特征,将一个一维信号以二维信号的时间—频率函数表示出来,旨在揭示信号中包含多少频率分量经及每个分量随时间是如何变化的[5]。本文主要介绍了时频分析的两种基本方法,及应用MATLAB对语音信号的时频分析处理,根据仿真结果对Winger-Ville分布和重排理论两种方法进行比较,从而得出结论。
1 Wigner-Ville分布
进行时频分析的基本目的就是确定一种时频分析函数,使其能够确定在时间t及频率f处信号的部分能量。Cohen类双线性表示的实质就是将信号的能量分布于时频平面内,其中Wigner-Ville分布就是一种最基本的双线性表示形式[6,7,8]。在物理学与信息论关于信号瞬时频率与瞬时频谱的研究中,为克服短时傅里叶变换的缺点,1948年Ville将其引入到信号分析领域。
Wigner-Ville分布定义为:
令信号s1(t),s2(t)的傅里叶变换分别是S1(f),S2(f),那么s1(t),s2(t)的联合Wigner-Ville分布定义为:
信号s出现了两次(即“双线性”),且不含任何窗函数,这样就避免了线性时频表示中时间和频率分辨率的相互牵制。Wigner分布的时频带宽积达到了Heisenberg不确定性原理给出的下界,使得Wigner分布具有很高的时频分辨率,时频聚集性比较好[9]。但是对于多分量信号,根据卷积定理,其Wigner-Ville分布会出现交叉项,影响了对非平稳、非线性信号的精确分析,使其应用受到很大限制。交叉项问题实际上是所有二次型或双线性时频分布都存在的问题,它来自多分量信号之间的交叉作用,由Cohen类时频分布的定义可知,核函数对Wigner-Ville分布起着一种平滑作用,从而抑制交叉项,常用的有平滑伪Wigner-Ville分布(SPWD)。其定义为
式中g(u),h(τ)是两个实的偶窗函数,且h(0)=G(0)=1。
2 重排理论
根据前面的定义,频谱图的表达式写成信号的Wigner-Ville分布和分析窗的Wigner-Ville分布的二维卷积,即
Sx(t,f)=∫
上述定义的分布能够衰减信号的Wigner-Ville分布的交叉项,但却是以降低时频分辨率,以及边缘性质和一阶矩为代价的。从上式可以看出,Wh(t-s,f-ζ)在点(t,f)附近构成了一个时频域,在这个区域中对信号的Wigner-Ville分布值进行加权平均。重排原理的关键在于这些值不必以(t,f)作为时频域的几何中心而对称分布。因此,加权平均不应该位于点(t,f)上,而应该是时频域的重心,这样更能代表信号的局部能量。总之,重排方法就是将任一点(t,f)处计算得到的频谱图的值移动到另外一点(
这样就得到了重排后的频谱图,它在任何一点(t',f')处的值是所有重排到这一点的频谱图的值的和。重排频谱为:
f)dtdf。
这种新的分布的一个最有价值的特性是它不仅利用了STFT的幅值信息,而且还利用了STFT的相位信息。虽然重排频谱不再是双线性的,但它仍然满足时间和频移不变性、能量守恒和非负性。
重排方法可以直接推广应用于其他分布中。事实上,如果将Cohen类的一般表达式看作是WVD的二维卷积,则
Cx(t,f;Π)=∫
ξ)dsdξ。
核函数Π(s,ζ)取代公式中特定的平滑核Wk(u,ζ),就能定义Cohen类成员的重排公式:
C
如果选择合适的平滑核,重排后的分布能够将交叉项的抑制与信号的时频聚集性有效地结合起来。重排方法的基本思想是对现有的时频分布进行修正,即把时频平面上的某一点计算的值移到另一点去表示,从而提高多分量信号的时域和频域定位能力,同时大大减小交叉干扰[10]。
3 时频分析在语音信号处理中的应用
本次语音信号是以学生的声音为分析样本。一般电脑自带的录音软件录得噪音太多,所以先在电脑上下载一个专门的录音软件,录(3—5)s的一段语音。为了使本段语音开始就接收到学生的声音,在录制开关按下之前,反复念“大连交通大学”,直到录完3 s语音。然后将录好的语音先进行去噪,以防噪音影响仿真效果。将录好的语音文件以wav格式保存下来,然后放到MATLAB软件的work目录下,利用Wavread函数,可得出声音的采样频率为8 000 Hz;通过sound函数可清晰地听到读音0。图1(a)为原始波形图,从图中可以看出,样本信号的波形随时间变化,是一个非平稳信号,并能看出语音能量的起伏。图1(b)为其功率谱图,一般人说话时,声音的频率大概范围是20 Hz—20 000 Hz,由图中可以看出,原始信号大约在200 Hz—1 800 Hz之间的功率密度比较大,表示声音频率基本都集中在这个波段。由图2可以看出短时傅里叶变化的等高线非常清晰,在归一化频率附近的频率比较大,而Wigner-Ville时频分布的等高线图明显聚焦性比较好。
图3和图4为Wigner-Ville时频分布和重排平滑伪Wigner-Ville时频分布的时频图。图中红色部分表示高频部分,蓝色部分表示低频部分。图3每个信号分量具有很好的聚集性,但是信号之间的交叉项较多,使得时频面难以解释;而图4中,经过重排处理后交叉项明显减少,且其频率随时间分布还比较平滑。由两图中的原始图和能量谱密度可以看出两者处理的信号完全相同,且信号都集中在(0—20)s之间。
由图5和图6可以很清楚地看到经处理后的信号的时频分布状况、能量分布,与原始信号的时域波形图相比,可以看出信号的很多其他特点。从图5中可以看出有两个频率点处的能量比较大;从图6中可以看出,大约在归一频率0.2 Hz处两边的能量谱对称。
4 结论
本文讨论了时频分析方法中的Winger-Ville分布和重排理论,然后应用MATLAB时频分析工具箱中的函数对输入的语音信号进行了时频分析处理,由上面的实验结果可以看到,将重排方法应用于语音信号处理,处理后交叉项明显减少,且其频率随时间分布还比较平滑。即可明显改进时频表示的可读性,可更有效地识别信号和提取信息。
参考文献
[1]金国彬,李玲,林国汉.电信号的时频分析新方法.湖南工程学院学报,2009;19(1):1—4
[2]耿萌,石林锁.三种非平稳信号时频分析的方法.机械工程与自动化,2010;1:108—109
[3]刘波,文忠,曾涯.MATLAB信号处理.北京:电子工业出版社,2006
[4]胡航.语音信号处理.哈尔滨:哈尔滨工业大学出版社,2002
[5]葛哲学,陈仲生.Matlab时频分析技术及其应用.北京:人民邮电出版社,2006
[6]张曦,杜兴民.基于Gabor谱方法的跳频信号时频分析.数据采集与处理,2007;22(2):150—154
[7]郭汉伟,梁自农,秦臻.不同时频分析方法综合检测信号.信号处理,2003;6:62—65
[8]丁康,陈键林.平稳和非平稳振动信号的若干处理方法及发展.振动工程学报,2003;1:24—26
[9]董建华,顾汉明,张星.几种时频分析方法的比较及应用.工程地球物理学报,2007;4:85—89
语音信号处理 篇9
开展双语教学具有切实的现实意义, 双语教学 (Bilingual Teaching) 的概念来自美国。我国教育部2007年5月颁发了《关于加强高等学校本科教学工作提高教学质量的基本意见》, 要求各高校要创造条件使用英语等外语进行公共课和专业课教学[1], 开设率为全部课程的5%~10%。哈尔滨工程大学水声工程学院为此开设了以《语音信号处理》专业课为首的4门双语课程。双语课程的开出使学生能直接接触到本学科、本专业国内外最新知识和技术, 有利于提高学生的科学素质, 同时满足了学生未来发展的需要——学生将来为了科研工作、获取信息、出国深造、谋求职业, 都必须具有双语能力[2]。
水声工程学院培养的学生是能够从事水声工程专业的理论和实验研究的人才。语音信号处理课程内容不仅涵盖了语音基础、人体语音感知、语音信号特征、语音信号处理方法、语音信号处理应用等方面内容, 还包括了声学、信号处理、人工智能、人体工程学、感知学、语言学等多学科, 体现出了很强的学科交叉和综合应用特点。在电子工程、计算机、通信工程等专业都有开设。如何能够结合专业特色, 激发学生学习兴趣并引导学生积极投入是该课程教学策略设计的关键。
该课程作为水声工程学院面向本科生设立的专业选修课, 要求运用多媒体授课, 授课教师要具有多年的讲课经验, 且出国进修深造过。自2007年开始采用双语教学授课, 对授课教师来说无疑是一种挑战, 必须要全身心地投入精力, 授课教师不仅要研究教学方法, 还要设计适当的教学内容来完成好该课程的双语教学任务。从语音信号处理课程的教学内容设置、教学手段和教学方法等方面出发对双语教学策略进行研究, 并对双语教学的体会加以介绍, 最后对教学实践结果进行总结。
2结合学科特色设置双语课程内容
语音信号处理课程具有很强的多学科交叉的特点, 在不同学校、不同专业都有开设[3]。在教学中要体现水声工程专业的特色, 注重课程的前后衔接, 在打好专业基础上突出特色是课程内容设置的关键。
2.1 注重基础
该课程作为大四本科的专业选修课, 课时仅为32学时, 要想覆盖所有语音信号处理相关学科范围是远远不足的, 而且双语教学本身就很耗用学时, 所以在课程内容设置上注重强调基础, 对于语音特征、人体语音感知特性、语音信号处理基本方法进行详细的讲授, 而对于语音识别、语音编码、语音合成等应用方面进行典型介绍, 使学生对语音信号处理整体知识理解掌握, 为未来从事该领域的深入研究打好基础。
2.2 结合最新动态促进双语教学
注重结合学科发展前沿和动态, 在专业双语课程中实施科研综合训练, 如查阅资料、理解文献、仿真实现、撰写报告和分组交流等, 引领学生对语音信号处理学科的最新成果动态的关注, 使学生能够吸收国外先进的教学理念, 培养学生进行科学研究的能力。在课堂中, 授课教师要注意吸引学生, 从语音信号处理学科发展的起伏规律出发, 结合当今通讯领域语音压缩实际需求, 查阅有关VOIP标准、3GPP的语音编码协议等内容, 既达到了吸引学生投入的目的, 又培养了学生查阅外文文献的能力, 提高学生外语水平, 同时也掌握了相近学科发展动态的能力。
2.3 体现专业特色
在水声工程学院专业的发展过程中, 始终坚持水声工程的专业特色, 逐渐形成了声电并重、以工为主、理工结合的专业建设思想。多年来为国家培养了大批水声工程领域的技术骨干, 目前行业内水声专业的技术人员60%以上毕业于水声工程专业, 在行业内外创造了良好的社会声誉。
作为水声工程学院开设的语音信号处理专业课, 具体体现了知识的综合性与拓展性, 而且面向实际应用环节, 对于巩固学生学习效果、提高知识灵活应用能力、培养面向实际应用解决问题的能力都起到了很好的作用。最重要的是该课程注重课程衔接, 结合声学基础、信号系统、数字信号处理方面课程, 体现专业的渗透和交叉。实践证明, 这对于学生融合所学知识, 并灵活应用具有很好的锻炼价值。
语音信号处理课程内容的设置对于完成双语教学目标发挥了重要作用, 内容设计上贯彻激发学习兴趣, 吸引学生投入的原则, 既要为学生打好语音信号处理学科学习基础, 又注意培养学生自主学习能力, 关键是培养学生对于知识内容前后衔接, 学会融会贯通。总结双语教学实践中的体会, 该课程内容设置对于课程教学目标完成发挥了良好作用。
3结合实际应用的教学方法
知识来源于实际的生产实践过程, 是对实际应用的总结。专业课的知识通常都有较强的实际应用背景, 学生对知识的理论、概念以及相应常用问题的理解往往是陌生的, 因此在教学过程中应该注意学生对基本概念的准确理解, 要结合实际的工程应用背景引导学生对知识进行学习和理解, 重视学生对方法的原理和实际应用技巧的掌握。比如在教学过程中可以结合授课教师的科研课题对知识的应用和方法的原理进行讲解。
语音信号处理教学直接面向常见的语音信号, 只有通过学生切实感受才能真正对信号处理发生兴趣。结合该课程, 授课教师要注重从实际的科研项目中提炼出合适的教学事例进行讲授, 并搭建相关语音信号处理教学演示平台, 让学生能直接参与、体会教学中的信号处理方法和实际应用。
从结合项目子课题的语音信号水声通信系统设计出发, 为学生讲授语音压缩的实际应用。对于语音信号处理课程来说, 实际科研项目的渗透, 能极大地引起学生关注, 提高学生的学习兴趣。在历年来的本科毕业设计中, 选取适当的实例进行剖析, 让听者有身临其境的感受。例如通过对学生毕业设计“基于语音锁的加密系统”课题内容的讲授, 不仅促进学生对知识的掌握, 而且进一步激发学生参与相关领域研究的兴趣。在课程结束后, 面临毕业设计选题时, 关于语音信号处理方面的题目受到了学生广泛关注。
4双语教学方法的实践应用
4.1 外语多媒体课件, 清晰直观
双语课程的课件设计也是需要花费心思的地方, 根据授课内容安排, 重要的是从学生理解角度出发来设计课件, 也就是“换位思考”。清晰设计知识点, 对于重点知识可以通过颜色变化、动作设计予以标示;对于难点知识, 要予以分解;对于首次出现的专业术语和生词, 要清楚掌握, 予以重点讲解, 并在课程内重复出现时, 提示并加以复习, 力求学生加深对外文的专业术语和生词的印象;双语课件在形式上尤其要避免单调, 对于适合的内容, 可以通过动画 (如横波与纵波) 、视频 (如讲话时各器官的运动) 、音频 (语音压缩质量) 方式加以传授。
在讲授知识时, 注意介绍背景知识, 如讲授Frequency Domain Processing语音信号频域处理时, 就要同时介绍傅立叶的有关生平和快速傅立叶变换的发现等背景知识, 提高学生听课兴趣和对内容的理解能力。课件内容要避免简单的、大段重复摘抄, 适当内容应梳理为条目, 在理解基础上讲授。辅助要配合板书, 板书对于推导、解算方面有着课件不可替代的作用[4]。注意上下文的衔接和过渡, 相互联系, 每次课程后的总结, 上述原则都要根据教学实践不断进行调整。
4.2 因材施教, 分组交流
课堂授课环节上, 注意交流互动, 创造机会让学生利用英语进行交流。授课教师在教学中, 每次课程都要根据内容设计探讨话题, 指定阅读文献, 在下次课程开始阶段安排讨论, 每次讨论都选择至少2名以上同学发言, 逐步过渡到完全英语的讨论。对学生采用激励教育, 发掘他们身上的闪光点。倡导合作学习, 分组学习。在设计讨论时, 应用分组机制, 将学生个体责任、组内互助、小组结果关联起来, 促进交流和协作。授课教师注意在学生讨论发言过程中, 类似评委和裁判, 最终对结果进行点评和总结。
4.3 自编外语教学讲义, 合理安排内容
由于原版英文教材价格昂贵, 学生无法接受, 特别是贫困学生, 而且原文教材的内容也不完全符合课程的教学内容。为此授课教师通过对原版书籍和文献的查阅, 在学校的支持下, 编写了“Speech Signal Processing”英文教学讲义, 讲义的内容主要参阅了语音信号处理经典教材, 也是目前国外语音信号处理课程中通常指定的阅读材料, 根据实际教学特色进行了精心编排。通过讲义的编译, 教师不仅对课程知识有了进一步的掌握, 对授课内容安排, 尤其是双语课程的设计也带来优势。由于讲义篇幅限制, 根据授课内容安排, 指定学生去图书馆借阅相关的中文书籍, 并在课程中设计预习, 力争让学生有针对性地学习, 适应双语教学模式。讲义和辅助阅读材料的选择对于双语教学尤为重要, 是双语课程授课的首要考虑因素。
5总结
从语音信号处理双语教学的实践来看, 通过对教学方法和教学内容的逐步完善, 学生对该课程满意度逐步增加, 而且对于从事语音信号处理方面的兴趣也有所增强, 同时也提高了学生的双语能力, 培养了能够应用国际化方法和视野来解决各类专业技术问题的人才。
摘要:语音信号处理作为水声工程学院的专业骨干课程之一, 具有很强的综合性和实用性。重点阐述了如何结合专业特色, 运用声学、信号与系统以及信号处理等学科综合背景知识, 研究建设具有特色的语音信号处理双语教学策略。结合双语教学实践, 对教学内容设计、教学方法以及教学效果进行了分析。提出了以激发学生兴趣为导向, 促进学生投入为目标的语音信号处理课程教学策略。
关键词:双语教学,策略研究,语音信号处理
参考文献
[1]教育部.关于加强高等学校本科教学工作提高教学质量的若干意见[EB/0L]. (2007-05-22) .http://www.bfa.edu.cn.
[2]闫立梅.对高校双语教学的思考和认识[J].教育教学研究, 2012, (1) :139-140.
[3]刘庆华, 陈紫强.基于MATLAB和DSP的语音信号处理课程的建设[J].电气电子教学学报, 2006, (8) :26-27.
语音信号特征参数的提取 篇10
1.1 汉语的音素、音节和音调
我们发现依据人类声音产生的机制, 由于激励方式的不同会形成清音和浊音两种不同的语音。由这两种语音又可以组合成两种不一样音素:元音及辅音。构成语音的最小单位是音素。元音由不相同的口腔形状发声而形成, 辅音的形成由发声的部位以及发声的方法决定。
音节是构成汉语的最小单位。我们所说的音节指的是一个元音加上一或两个辅音所构成的音素的组合。汉语当中包括以下4种音节, 即:元音、元音+辅音、辅音+元音, 辅音+元音+鼻音。一般汉语可以简单划分为声母+韵母两个部分。音节前部分的辅音称之为声母, 元音和元音后面有时候出现的鼻音称之为韵母。汉语可认为是一种声调语言, 根据声调的不同所表达的意思很可能完全不一样, 汉语共有阴平、阳平、上声及去声四种声调。而声调的变化可以看成浊音周期的变化。声调曲线从韵母起始点至韵母的终止点。
1.2 语音信号的数学模型
语音的产生是因为声道激励发生共振, 因为发声过程中声道是振动的, 所以能够用一个时变线性系统来描述。可以用如图1所示描述语音生成模型。
由图1可知一个完整的语音信号模型由激励模型、声道模型、及辐射模型三个子模型串联而成。激励模型由浊音激励与清音激励组成。对清音部分来说, 激励信号等同于白噪声, 而对于浊音部分来说, 因为声带在不断地张开与闭合, 所以会有间隙性的脉冲波产生。共振峰模型是当前广泛使用的一种声道模型。声道的终端是人类口与唇, 速度波通过声道输出, 然而语音信号是一种声压波。
2 语音信号的前端处理
为了得到我们所需要的信号, 须先对模拟语音信号进行数字化, 接着进行预处理与加窗。
2.1 语音信号的数字化
为将模拟语音信号转变为数字信号, 先对信号进行采样与量化。在采样与量化之前, 须进行语音信号的预滤波, 其目的在于:第一, 滤除高频噪声;第二, 防止50Hz的工频干扰。
2.2 语音信号的预处理与加窗
因为语音信号的平均功率受到鼻辐射以及声门激励的很大影响, 因此在语音信号频谱的求取时, 随着频率的增高相应的响应成分越小, 也就是说高频部分频谱比起低频部分来不够精确, 为此我们需要对信号进行预加重。为了平滑频域信号, 使得信号处理的后面阶段对有限长响应不那么敏感, 通常情况下让数字语音信号通过一个低阶的系统。目前广泛使用的是固定的一阶数字滤波器, 即
式中a为预加重系数, 通常取值0.95左右。
因为语音信号的特性是随时间变化的, 而非平稳过程, 但由于人的发音器官的肌肉运动速度比较慢, 因此可以认为语音信号是个局部的短时平稳的信号。因此, 我们对对语音信号进行分帧加窗的处理。通常情况下语音信号帧长取为10ms~30ms, 每秒帧数约为33~100, 分帧可以是连续的, 有可以是交叠分段的, 在语音信号的分析当中常用“短时分析”来表述。我们一般采用窗函数来乘语音信号, 常用的窗函数是Hamming窗。
Hamming窗函数是:
2.3 语音信号的端点检测
端点检测指的是找出语音信号中的各段落的起始点以及终止点的位置。语音信号的时域处理方法包括:短时平均幅度、短时能量、短时过零率以及短时自相关。端点检测一般要用到语音信号的短时能量以及短时平均过零率两中参数。
用En来表示第m帧的短时能量, 其计算式如下:
短时平均幅度Mn的计算式如下:1N-
短时能量En的最主要作用是:区分清音与浊音、区分声母与韵母的分界、无声与有声的分界、连字的分界以及能够用于进行语音识别。
“过零率”指的是在单位时间内信号通过零的次数。短时过零率z (m) 是用来描述频谱的简单有效的方法之一, 计算公式如下:
在短时处理技术中, 描述一个随机信号的其中一个重要特征是自相关函数Rn, 可以用自相关函数区分清音与浊音, 计算公式如下:
短时频域处理作为语音信号处理的基本方法之一。短时频域处理适合缓慢变化的语音信号。第m帧的短时傅立叶变换计算式如下:
3 语音特征参数提取
在完成语音信号的预加重、分帧、及端点检测之后, 下一步关键的是提取特征参数。我们不可能直接识别原始波形, 语音信号需要经过变换, 提取出其特征参数后再进行识别, 特征参数需要满足:反映语音的本质、参数个分量之间耦合尽量小、参数的提取方便等几方面的要求。目前语音识别中线性预测倒普参数LPCC、美尔倒普参数MFCC使两种较为常用的参数。LPCC利用线性预测编码技术求取倒普参数。MFCC则构造人的听觉模型, 以语音信号经过该模型的输出值作为声学特征, 直接利用离散傅里叶变换得到。
3.1 线性预测倒普参数LPCC的提取
线性预测分析是语音特征分析方法之一, 能够有效的解决短时语音信号的模型化问题。LPCC的基本原理:语音信号的每个样值可以通过过去的若干个值的线性组合逼近求得, 也能够用实际语音信号的抽样与线性预测的均方差值最小的方式, 求出一组预测值。
其中a为加权系数, p为线性预测倒普参数的预测阶数。
LPCC系数表示的是语音信号频谱极值点的变化, 用该系数来表征语音信号, 能够获得比较平滑的语音频谱图。
3.2 美尔倒普参数MFCC的提取
MFCC参数与LPCC参数不同, 它考虑了人耳的听觉特性, 先将频谱转变为美尔频标的非线性频谱, 接着再转换到倒普域上。因为MFCC比较地充分考觉特性, 所以MFCC参数有很好的识别性能与抗噪能力。由测试可得, MFCC参数性能在汉语语音识别中要明显优于LPCC参数, 由于人类在对1 000Hz频率以上的声音的感知能力并不遵循通常的线性关系, 它遵循的是对数频率坐标上的线性关系。
首先, 语音信号在经过预处理、分帧加窗后转变为短时信号, 经过FFT变换将x (n) 转化为X (m) , 并计算出其短时能量谱P (f) 。在将P (f) 在频率轴上的频谱转化为在美尔坐标上的P (M) 。接着在美尔频域内将在美尔坐标上加入三角带通滤波器得到滤波器组Hm (K) , 再计算美尔坐标上的能量谱P (M) 通过该滤波器组的输出值。最后在美尔刻度谱上能够采取修改的离散余弦反变换来求取美尔倒普参数:
式中, p为MFCC阶数。
4 结论
本文主要介绍了语音学的基础知识、语音信号的数字化及其特征提取, 为语音模型的训练做了很好的铺垫。在计算机普及的今天能够让计算机识别出人的自然语言是人们一直努力的一个方向, 对计算机直接用语言信息发号施令, 我们的双手才能真正得到解放。
参考文献
[1]胡航.语音信号处理.2版.哈尔滨:哈尔滨工业大学出版社, 2002:256.
[2]刘幺和, 宋庭新.语音识别与控制应用技术.北京:科学出版社, 2008:201.
[3]易克初.语音信号处理.北京:国防工业出版社, 2000, 14:363.
[4]李波, 王成友, 杨聪, 等.基于语音频谱包络抽取的MFCC算法.长沙:国防科技大学学报, 2004.