语音质量

2024-09-17

语音质量（共12篇）

语音质量篇1

在地空通信中,语音通信作为一种重要的指挥手段,能够实现指挥员与飞行员的直接对话,更好地完成战术配合,在地空通信中发挥着极其重要的作用。短波在远程语音通信中优势突出,但现有短波语音通信还存在对空指挥通信盲区、跨区飞行时难以实时了解飞行通信指挥情况等问题需要解决。

因此要解决这些问题,短波地面台站和各级指挥所的话音IP组网势在必行。引入VoIP技术不仅可以实现短波台站的共享、消除话音盲区,而且为话音的记录与监听,还为台站的扩展提供了方便。而且近年来随着网络的不断发展和普及,VoIP作为一种新兴的网络业务得到了广泛的运用,VoIP的QoS技术也得到了完善和发展,可以满足航空通信的需求。

承载网络的性能(包括时延、时延抖动、丢包率等)是影响语音质量的主要因素[1]。语音编码技术直接影响语音重构后的质量,特别是用于短波地空通信中,地面网络采用的VoIP技术,在到达电台后,语音解码重构、重构后的语音能否适应短波信道的传输、会造成多大程度的语音质量损失在很大程度上受到地面VoIP的编码技术的影响。

1 语音传输流程以及现有的编码技术

在实现短波地面台站和各级指挥所的话音IP组网后,语音从指挥席送到飞行器要经过地面有线IP网和短波无线信道,流程如图1所示。

现有的语音压缩编码技术[2,3]主要有脉冲编码调制(PCM)、适应脉冲编码调制(ADPCM)、低延时代码激励线性预测器(LD-CELP)、共扼结构代数码激线性预测(CS-ACELP)和多脉冲最大似然量化技术(MP-MLQ)。

语音编码技术比较如表1所示。

欧洲的单一欧洲天空计划(SERSA)最早提出在航空通信中采用VoIP技术,并很快得到了国际民航组织(ICAO)的认可,在2009年起草的ED-137文件中推荐采用的语音编码标准有G.711 A率和μ率,G.728和G.729[4]。在本文中将对这4种编码标准用于短波地空通信中的效果进行评估。

2 仿真环境的设置与实现

本文主要是研究不同编码技术对短波地空通信语音质量的影响,因此首先将地面网络理想化,暂不考虑网络性能对语音质量的影响。G.711 A率(A=86.7)和μ率(μ=100),G.728和G.729语音编解码[5]通过Matlab7.8软件编程实现。语音样本采用含有中年男子和女子的语音片段“a.wav”,时长为10.6 s,语音的时域和频域波形如图2、图3所示。

短波传输的仿真环境使用Matlab7.8的Simulink进行搭建。主要采用的技术和参数设置如下:

短波信道采用Watterson短波信道模型。短波传输以电离层为中继的特点决定了短波信道存在着多径时延、衰落、多普勒频移、频谱扩散、近似高斯白噪声和电台干扰等复杂现象。在此采用了Watterson短波信道模型[5],Watterson信道模型全面描述了短波信道的各种特性,经国际电信科学机构和实践的研究证明是一个非常好的短波信道模型。Watterson模型如图4所示。

Watterson模型利用N个抽头延迟线来等效N条路径。每个抽头延迟不仅都有独立的延迟τi,而且还具有一个增益函数Gi(t)与延迟了的信号x(t-τi)相乘。处理后信号的幅度和相位就进行了调整。Gi(t)是相互独立的,它反映了衰落、频谱扩散和多普勒频移成分。Gi(t)可以表示为

Gi(t)=Gia(t)ej2πviat+Gib(t)ej2πvibt (1)

式中:下标i代表第i条路径;a,b表示对应路径的2个磁离子分量;via,vib为指数因子,反映了第i条路径2个磁离子分量的频率扩散和多普勒频移程度;Gia(t),Gib(t)代表第i条路径两个磁离子分量的幅度变量,是均值为零、相互独立的复低通高斯过程样本函数,反映了每条路径的衰落程度;Gi(t)代表了乘性干扰。另外短波信道中还存在着加性干扰,可分为两种类型:一类是高斯白噪声NG(t),服从均值为零的正态分布;另一类是冲激噪声NI(t),服从对数正态分布。那么,Watterson模型的输出信号可表示为

$y (t) = \sum_{i = 1}^{Ν} G_{i} (t) x (t - τ_{i}) + Ν_{G} (t) + Ν_{Ι} (t) (2)$

使用Simulink实现短波语音Watterson模型[7],模型如图5所示,首先将要发送的语音信号通过Wavread函数读入到M文件中,然后对获得语音信号进行Hilbert变换,得到实部和虚部正交的复信号,再通过To Frame模块将基于采样的格式转换为基于帧的格式,之后将信号送入模型的核心单元Multipath Fading和AWGN信道,最后再将格式转换为基于采样的格式,分离实部和虚部,输出到M文件中。

参数设置时,在Multipath Rayleigh Fading Channel和AWGN Channel中设置信道的多普勒频扩(Doppler Spread)、多径延迟时间(Delay Vector)和各路径增益(Gain Vector)。采样速率为12 000 Hz,载频为1 800 Hz,采用双径模式(一条为主径,一条为多径),时延设为20 ms,衰落设为10 Hz,多普勒扩展为20 Hz,在AWGN Channel模块中设置信道的信噪比为10 dB。

3 仿真结果及分析

3.1 地面网络理想情况下的质量评估

首先要采用不同的语音编码技术对样本a.wav进行编解码,分别得到重构后的语音,再将重构后的语音送入短波电台在接收端接收到最终的话音,不同编码标准得到的话音如表2所示。

编解码后的话音以及经过短波传输后的部分话音波形如图6～10所示。

通过PESQ模型[8],对经过编解码和短波信道后的语音质量进行评估。PESQ评估模型是一种基于输入-输出方式的客观评价模型,效果良好。与其他客观评估算法相比,PESQ评估模型不仅采取了听觉模型等比较先进的技术,同时也考虑了语音端到端的时延,对通信时延、环境噪声都有较好的稳健性。

PESQ评估模型是将原始语音和输出的语音信号经过电平调整、输入滤波器、时间对准和补偿、听觉变换之后,综合时频特性,得到PESQ分数,最后将得分映射到主观平均意见分(MOS)上,模型流程如图11所示,PESQMOS值为-0.5～+4.5,语音质量等级与MOS值(取值范围0～5)类似。不同的语音编码技术对应的PESQMOS值如表3所示。

3.2 地面网络丢包率对语音质量的影响

丢包率是影响质量的重要因素之一,在此利用Matlab程序对丢包率进行人为控制,通过50次重复仿真,得到不同丢包率下4种编码算法的平均值如图12所示。

通过仿真结果可以看到编解码后的语音质量评估值都能达到良好以上,而且G.711 A率和μ率编解码后的语音质量要明显好于G.728和G.729标准,但经过短波信道后,接收端的语音质量G.729,G.711 A率和μ率比较接近,G.728的值却相对较小。由图12可知,在丢包率小于3%前语音质量都未受到明显影响,当丢包率逐渐增大时G.728和G.729受影响较大,当丢包率大于7%以后4种编码技术下的语音质量急剧下降,语音质量损失严重,MOS值小于0.5,人耳识别困难。

以上结果说明,虽然经过G.728和G.729标准编解码后的语音信号具有较为相近的PESQMOS值,但G.729标准重构后的语音信号对短波信道的适应能力要优于G.728标准。G.729标准重构后的语音信号与G.711 A率和μ率相比虽然对短波信道的适应能力相对较弱,但相差不大,如果再考虑地面IP网络中语音包(ED137文件中推荐以20 ms的数据为一个语音包)的负载,G.729标准又相对占据了优势。因此,如果地面IP网络的带宽足够宽,建议采用G.711 A率或μ率,而如果带宽受限,则建议采用G.729标准。

4 小结

VoIP应用与航空通信领域,是近年来才提出的新课题,还未进入实用阶段。本文以短波地空通信为背景,通过仿真实验,为短波地空组网中地面VoIP话音编码的选择提供了参考意见。但由于短波信道采用的仿真环境与不稳定的真实传输环境还有差别,所以只能作为实际使用的参考。下一步的工作将以G.729标准为例,引入具体IP网络,研究时延、时延抖动对航空语音通信的影响权值,从而设计出更适合与航空语音通信的QoS保证技术,提高接收端的语音质量。

参考文献

[1]章学静,何素娜,李金平.基于TMS320DM642的VoIP可视电话的关键设计[J].电视技术,2009,33(06):105-108.

[2]贾懋珅,鲍长春,李锐.8～64Kb/s超宽带嵌入式语音频编码方法[J].通信学报,2009,30(5):27-34.

[3]张继东,陆义宁.ITU-T中两种低码率语音编码系统的性能比较[J].电声技术,2001(12):6-8.

[4]ED-137,Interoperability standards for VoIP ATM components[S].2009.

[5]范睿,鲍长春,李锐.基于ACELP的嵌入式语音编码算法[J].通信学报,2007,28(10):48-54.

[6]张尔扬,王莹,路军.短波通信技术[M].北京:国防工业出版社,2002.

[7]权明波,朱小明,吴江.基于Watterson模型的短波信道的Simulink研究与仿真[J].无线通信,2007,242(3):20-22.

[8]ITU-T P.862.2,Wideband extension to recommendation P.862 for theassessment of wideband telephone networks and speech codecs[S].2007.

语音质量篇2

开启方法1：

登录QQ后在主面板点开群/讨论组页面，点击您想要语音聊天的QQ群打开群会话窗口：

在该群会话窗口的顶部功能栏中点击群语音按钮即可开启群语音功能

开启方法2：

在QQ群会话窗口点击群语音按钮右侧的下拉箭头，点击【进入群语音】操作项

开启方法3：

点击QQ群会话窗口内文字信息展示区内群语音邀请信息的【点击参与】链接

群友语音畅谈

开启群语音后您将看到如下图所示的弹出语音会话窗口，对着麦克风发言就可以与群内正在试用群语音功能的群友们一块语音聊天了，

正在语音的标示：语音会话窗口内群友 QQ头像左侧的绿色声波图标代表着该用户当前正在使用语音发言

邀请群成员

在使用群语音过程中您也可以在语音会话窗口的主面板上点击【邀请群成员】，邀请群友与您一同使用群语音。

语音质量篇3

一、创设游戏，在实践中学习音标

都说国际音标难教、枯燥。是的，单纯的音素认读、记忆和反复拼读练习确实比较乏味。如果不在教法上多做文章，小学生是不会感兴趣的。如果在教法上来点"味精"，即在教学中穿插些趣味活泼的游戏、竞赛，通过生动活泼的形式来加快认读，促进记忆，熟练拼读，通过紧张而激烈的竞赛，来激发学生学习的积极性和兴趣，学习效果要好得多。

二、循序渐进，提高学习效率

教学音标的目的不仅是让学生认识48个音标，更主要的是培养学生运用音标的拼读来自主学习英语的能力。能力的培养要根据教学内容循序渐进。

三、洞察学情，巩固教学成果

教完音标及拼读方法，并不意味着完成了语音教学任务。许多学生往往在开头学得很好，以后就只重视句型和对话，忽视了音标的巩固，甚至有语音退步现象。如单词thank，一开始教学时强调口形、舌位，学生发音较准，慢慢地，由于疏忽，就会发成另外一个音。因此，音标教学绝不能仅限于入门阶段，而是要贯穿于整个教学过程。教学中，我们教师应随时注意这个问题，尽量做到以下两点：

1.音形结合，掌握规律

教会学生音标的认读及拼读之后，应注意培养学生按照读音规则，把单词的音、形、义联系起来迅速反应的能力。每次教新词时，不仅要求学生要会发音、会拼读，还要与旧词联系，进行一些归类性的训练。如教单词head 时，先让学生回忆ea发[e]的单词，如出示卡片让学生读读，再与ea发[i：]的一组卡片做比较。通过这种比较，掌握规律，学生们不仅渐渐地知道单个辅音字母的发音，还知道字母组合的发音规则，用这样的方法，能培养学生自觉地把单词，音标作音、形比较，直至掌握一些规律，逐步学会听音知形、见形知音的本领。这样的训练，也能培养学生速记单词的能力。

2.严格要求，常抓不懈

教师在教学中要做到持之以恒，严格要求学生。不断正音，不让语音退化。当然，严格要求，及时纠音，也应和适当宽容相结合，因为每个人的接受能力不同，而且语音学习是需要一个过程的，不可能一下就学得十分标准。起初时，应允许把一点“错误”逐步标准化。我在教学时经常注意在复习环节中安插一点时间操练音素，平时检查读书、背书时也十分重视学生的发音。如学生容易把book读成[bu：k]，[u：]与[u]不分，这就要靠教师经常训练，不断提醒，并及时表扬发音好的学生，形成正确发音的习惯。在课文中所出现的连读，我也利用音标提示学生；句子的语调、会话、朗读的感情，也都对他们严格要求，一丝不苟，学生只有在这种严格训练下，语音才会越来越好。在几年的教学中，我体会到，只要教师肯在教法上钻研创新，而且持之以恒，常抓不懈，就完全可以处理好音标教学这一难关。

如何提高小学英语语音教学质量篇4

关键词：英语语音,升级,教学质量

一、现阶段英语语音教学存在的问题

1.课堂设计有失人性化

语音课程的设计方案是否合理, 授课内容是否能让学生们产生兴趣爱好, 都直接关系到学生是否愿意主动走进教室学习。在语音教学中, 学生不断地进行着音节发音练习及音节规则练习, 这种抽象的发音方式是很难让学生记住的, 导致最终达不到好的效果, 致使后期没有办法发出正确的音调, 无法区分各声音的变化, 所以老师要对授课内容的设计做到足够的重视。老师不能单纯地让学生进行生字模仿, 死记硬背, 更不应该简简单单地让学生背诵单词的顺序, 缺少口语阅读, 更有甚者单词可以写出来却读不出来, 或者是别人读学生连拼写都不会的现象。在这个英语教学的重要阶段, 授课应该更加人性化, 不能机械式地反复学习知识, 课程的设计对授课效果有着很大的影响, 学生第一印象好的话, 就喜欢学习, 学习起来也就会感觉比较轻松愉快。

2.教师素质水平较低

现阶段英语教师的英语水平有待提高, 在我们看来我国小学英语教师的水平并没发现存在什么大问题, 但事实上有一些教师存在着教学水平及专业素质不达标的情况。语音发音标准是对英语教师最基本的要求, 教师应该达到英语口语及英语写作两个技能的高水平, 有很多教师的素养是很高的, 但是英语口语能力一般, 一些语音及语调的发音不标准, 很大程度上受到他们的母语及地方方言的影响, 这就影响到了授课。学生在小学时期的学习是至关重要的, 尤其是小学英语学习, 是学生语音形成的重要时期, 因为这个时期的学生分辨声音的能力较强, 喜欢学习及模仿别人的语言, 这些都是小学生学习英语的优势, 因此要重视这个阶段的学习, 要有针对性地进行标准教育。

二、加大对小学英语语音教学质量力度的思考

1.重视授课过程中使用多种方法

小学英语教学中的语音教学不是让学生学习用英语讲话的方式, 其主要任务是教给学生学会英语的语音、语感, 进而为以后各方面的学习打下坚实的基础。英语教学中的语音教学, 必须要进行大量的练习, 培养学生学习的积极性, 教师要勇于尝试更科学的授课方法, 提升学生发音的准确率, 也可以通过各种活动培养学生学习的主动性。比如, 下列几种方法:

(1) 听音授课。可以采用这种授课方式, 让学生通过听英美原声发音资料, 然后进行模仿, 注意听各因素之间的区别, 培养学生听觉辨音的能力。听音的进一步是辨音, 同时也是检验听音的效果的方法。在辨音来发现问题, 然后继续听, 继续辨别, 直到听准确了, 辨清楚了为止。

(2) 模仿授课。有了一定的听音辨音能力之后, 引导学生跟读, 再让学生自己进行朗读, 发现读过程中的问题, 然后总结问题, 集体进行纠正。在模仿及纠正错误的过程中, 领会发音的方法, 对各个发音器官的要领进行简明的讲解。一边进行讲解, 一边进行示范, 再进行练习, 有音有形, 让学生在模仿过程中体会发音。比如, 在讲解双元音的发音时, 第一个发音重且清晰, 第二个发音轻且模糊, 并且是由第一个音滑到第二个音。进行辅音讲解时的区别在声带是否有振动。

(3) 实践授课。在学生掌握了英语发音以后, 就要将发音准确的应用到音节、单词、短语、句子及文章中去, 进行标准的发音朗读, 众多的拼读规律只有在大量的实践过程中才能够真正得到训练。

2.以旧带新, 完善语音教学

语音教学是一个长期的、不断重复的任务。在词汇教学中, 我们要“以旧带新”, 逐步地、不断地把语音知识渗透进去, 更好地完善语音的教学。例如, 在教学单词toy的时候, 复习单词boy是一个很好的切入点, 在将b改成t的同时, 学生对b和t的发音也有了一定的认识, 并且也将整理音和单词的拼写联系在了一起。这样的教学, 学生不但很快能够“以旧带新”掌握新单词, 又能够同时了解字母的语言, 真可谓一箭双雕。小学生强烈的表现欲望也促使他们积极主动地自学单词, 还会举一反三地学习。这种教学做到了“授之以渔”, 使学生掌握良好的学习方法, 培养学生自主学习的习惯, 大大提高英语学习效率。

参考文献

[1]宿琳.新课程理念下的小学英语教学探究[J].中国科教创新导刊, 2012 (36) :45.

[2]鲁子问, 王笃勤.新编英语教学论[M].上海:华东师范大学出版社, 2011.

语音质量篇5

1、在 Microsoft Windows XP控制面板中，单击声音、语音和音频设备，再单击语音，

在 Windows 控制面板中，双击语音图标。

2、单击语音识别选项卡。

3、在语言下，选择语音识别引擎。

注释

如果您要切换语音识别引擎：

若要使用听写，您必须切换键盘布局以便与语音引擎的语言相匹配。

语音质量篇6

【关键词】英汉语音差异语音教学

【基金项目】本文系贵州省教育厅教改重点项目“汉英语音课改革与实验研究”（12333）研究成果。

【中图分类号】H311【文献标识码】A 【文章编号】2095-3089（2016）07-0097-02

语音是语言的基本物质外壳和表达手段，英语与汉语作为目前应用最广的两种语言，在语音学方面有一定共性，在语音系统、音位系统及节奏韵律方面都有一定相似之处，明确英汉语音的差异对于更好的学习不同语言有重要意义，有助于解决英语语音学习这个难点，减少发音错误。因此明确英汉语言差异有助于更好的指导英语语音教学工作的展开，对于提升英语语音教学质量有重要价值。下面对英汉语音差异及英语语音教学进行分析探讨。

1.英汉语言对比

汉语音韵学主要由声母、韵母和声调组成，音节开口为声母，声母之后为韵母，韵母包括元音及辅音，其中韵母组成部分主要为元音，但并不等于原因，声母主要由辅音充当，汉语字音开口无辅音的话，被称为零韵母。

1.1英汉元音对比

元音是气流振动声带，在口腔没有受到阻碍而形成的一类音节，各种不同的元音音质是由舌位的高低、前后以及双唇的园展撮不同形状所造成的。元音的不同是由共鸣腔造成，决定元音发音的主要有三个方面，舌头往前伸还是往后缩；嘴唇撮起来还是展平，嘴张的大小或者舌头的高低，嘴张得越大舌头位置就越低，相反张得越小舌头位置越高。英语元音系统主要由12单元音和8双元音构成，元音20个分别为前元音/i：/、/i/、/e/、/？覸/；中元音/？誻：/、/？藜/、/？蘧/，后元音/u：/、/u/、/？蘅：/、/？鬑/、/a：/；汉语韵母系统则主要由6个单韵母、13个复韵母及15个鼻韵母构成，韵母39个以a、o、e……ong、iong等为主。按开头元音发音口形可分为开口呼、齐齿呼、合口呼、撮口呼，比如开元音/i：/、/a/、/o/、/e/，双元音/ia/、/ie/，闭元音/u/、/ua/等。要注意两种语言中相似但是不同的元音，尤其要注意汉语中所没有的英语元音，在英语元音发音中注意松紧的对立，注意到长短的区别，避免将汉语中没有松紧、长短区别的较长较紧元音发音习惯带入。要注意英语双元音由第一个元音划到第二个元音算一个单位，具有前长后短、前重后轻、滑动明显等特点，避免汉语双元音习惯的带入。

1.2英汉辅音对比

辅音作为英汉语言的重要构成部分，在发音中占据重要地位，辅音是盛强中气流受阻所形成的一类发音，其音质同发音部位、发音方式密切相关。汉语辅音以声母为主共计21个，英语辅音28个，主要以齿龈音t、d、s、z，腭音sh、ch，舌根音k、g、ng，唇音p、b、m，唇齿音f、v，齿间音th等为主，后根据发音时声带是否振动还有清浊之分。英语的强弱辅音与汉语的送气、不送气辅音，英语辅助浊音多清音少，清浊或强弱的区别在于英语中具有辨别意义的功能，但是送气、不送气的区别不影响意义，汉语辅音清音多于浊音，送气与不送气起着区别意义的作用。比如齿龈音/s/思、四，/z/资、自，/c/、/ts/次、此，腭音/？蘩/、（sh）， /r/、/？廾/以及流音/r/，舌根音/h/喝，河，和，/t？蘩/、/d？廾/，（ch）和/d？廾/、（zh）等。汉语中的z不同于英语中的/z/，英汉辅音中r和/r/、h和/h/、w和/v/发同音，汉语中的j、q、x、zh、ch较为特殊，英语中的/d？廾/和/t？蘩/发同音，英语辅音群如/st-/、/kl-/、/-pt/、/-tl/不能在其中加元音。

另外，还要注意英汉语言在音节结构上的区别，音系学层面来看，语音要素在汉英语中具有不同价值，音高、音长、音强、音质四要素均各有特色，汉语对音高敏感，是声调语言，英语对音强敏感，是重音语言，在发音训练中一定要把握好音高与音强的区别，从而做到准确发音。

2.英汉语音差异下英语语音教学探究

2.1提升英语教师语音素养

要立足于英汉语音差异强化教师语音素养及教学技能的提高培训。要针对一线教师常见英语语音问题展开培训，以高度浓缩语音教学内容为主，从音长、口型和舌位示范音素发音入手进行练习，并在词和语境中的音变进行训练，着重于中英易混音素和英语特色音素的指导和训练。从louder，longer and higher三方面结合音乐韵律进行节奏训练，在语境中体会六种不同语调表达的意义差异，利用重音、连读和停顿体现节奏的强弱和意义的变化。

教师语音培训中要以各类丰富多彩的活动为主线，从音素、音节、重音和节奏的教学方法入手，引导教师们举一反三，通过设计不同的语音教学实践活动提升参与性与积极性，并指导教师运用所学结合英语教材设计语音教学片断，并进行展示和评价。

2.2创新语音教学方法

语音是语言教学的基础，英语学习中只有学好语音、打好基础，才能够更加轻松的完成日后的英语学习，教师要巧妙设计多种创新教法，积极运用各种辅助教具配合科学有效的方式完成英语语音教学。比如教师可利用Missing card将所授音标进行展示，利用互动游戏让学生识记音标并调动学习兴趣，在掌握音标的基础上训练学生英语思维和发音，使其集中注意力，真正做到学中玩、玩中学。教师可以组织Finding the good friends等类似游戏，进行英语清辅音或浊辅音的训练应对及短元音或长元音的训练应对，练习学生对比发音的同时培养其快速反应能力，要积极设计多种音标操练游戏，利用简单易操作的游戏激发学生学习英语语音的兴趣。

教师可通过设计面对面发音或者传递口型等互动活动，让学生们仔细观察不同英语发音的唇形、口型及发音部位，及时发现自己及他人错误，纠正不良发音习惯，真正以学生为主体做到会学。利用口型传递让学生对音素之间口腔张合度、唇型、舌位及舌位高低的变化和差异有一定认识，配合面对面发音的机械练习进一步增强学习趣味性与娱乐性，配合教师引导掌握英语准确语音。此外，英语绕口令、角色扮演等也是有效教学方法，比如“Can you can a can like a caner can can a can？ ”简单的绕口令可以让学生了解到英语发音中意群、连读等的重要性，帮助学生建立发音学习的兴趣，让发音器官更加灵活，帮助学生辨音和发音。角色扮演可引入英语原声电影欣赏等方法，通过听电影原声模仿台词让学生进行语调练习，以经典的电影作为听力教材，利用正宗地道的英式或美式口语展开模仿练习，从而把握语调与情感，运用所学的语音知识如语调、重音、连读、爆破等进行模仿发音，在实践中发现更多更加适合自己学习语音的方法，除此之外学唱英文歌曲、对话练习等也是有效手段。

2.3强化英语语音训练

英语语音教学中要通过强化语音训练帮助学生克服各种错误的语音现象。要严格把好音标关，音标是学好英语的前提，音标基础的好坏决定了语音、语调的好坏，打好语音基础对于提高学生的听力水平和英语口语会起到事半功倍之效，因此必须着力培养学生英语口语正确发音习惯，为长期英语学习打下良好基础。

要引导学生加强英语朗读技巧的训练和培养，教师要引导学生有意识地输入诸如语句重音、节奏、弱化、连读以及语调等知识并加以模仿，极大程度上减小自身发音和标准英语口语发音的差异。通过不断的训练，掌握英语语调的调式，了解不同语调调式所代表的差异化意义；通常情况下，可以用降调、升调、降升调来划分英语基本调式，一般在陈述句、特殊疑问句、祈使句、感叹句等句型中运用降调，如“She is beautiful.”“How smart he is.”，用于表述事实，或者表达肯定语气。在请求、道歉、打招呼等句型中则主要运用升调，如“Is she a good girl？”“You like English？”，表达一种建议、责怪或者怀疑等。而在含有对比意义的陈述句、表达反驳意义的陈述句中则主要运用降升调，如“Mary isnt my wife. But…”将对比、含蓄或者言外之意表达出来。此外，为进一步提升英语语音训练效果，还要帮助学生增进对英语背景文化知识的了解，使其学会地道纯正的英语口语表达，通过深入了解英美国家文化和生活习惯，提供给学生一个真实的语言环境，将英语国家的习俗文化渗透到学习过程之中，培养学生的英语思维能力，从而更有利于其养成正确的英语表达习惯，练就纯正英语语音及口语表达。

3.小结

综上所述，英汉语音差异的存在对语音学习造成一定影响，要立足于英汉语音差异，积极采用多种有效手段改进语音教学，减少学生语音发音错误，提升发音准确性，以促进英语语音教学的进步。

参考文献：

[1]钱虹.迁移理论视域下的英汉语音对比及英语语音教学浅析[J].台州学院学报，2015（1）：20-23.

[2]张玉鹏.语音对比与英语语音教学[J].安阳工学院学报，2015（5）：101-104.

[3]廖立夏，王蔚嘉.高校英语语音课中的英美发音差异教学研究[J].教育，2015（2）：208-208.

[4]刘晓然.英语专业基于合作学习的语言教学与传统语音教学的对比研究[J].齐鲁师范学院学报，2015（2）：32-36.

[5]李斯斯.基于母语负迁移现象的英语语音习得研究[J].长春教育学院学报，2015（3）：88-89.

作者简介：

语音质量篇7

一、现阶段英语语音教学存在的问题

1.课堂设计有失人性化

合理化地设计语音教学方案。学生能否主动地去学习英语的重要方面就是要保证所学的内容能够引起学生的兴趣, 只有教学内容丰富多彩, 趣味多多, 学生才会积极地走进教室学习英语发音。在语音的教学过程中学生需要进行重复性的音节和发音规则练习, 这种比较抽象的发音方法比较难记住, 这就使得学生无法掌握正确的发音方式和正确的语调, 因此教师则要教导学生去寻求规律, 避免学生一味地模仿单词, 不进行深入思考, 加强学生的口语训练, 在很多时候甚至会出现学生对自己写的单词根本就不会读, 有时还会出现学生之间发音不一致的情况。

2.教学内容配置不合理

如今, 我国在大多数的小学中开始开展英语教学, 在小学英语课程教学中所教受的能容不是很集中, 语音的训练也无法有效地进行, 由于这些方面的原因, 就造成了学生需要6个学期来进行发音的学习, 而且教学课程内容之间无法实现连贯, 这就使得语音教学无法实现有效的配置和安排, 这样就在很大程度上影响英语教学的质量, 无法有效地提升学生的语音表达能力, 因此, 教师应该对学生的英语学习过程进行指导, 为学生提供充足的资源。

二、提高小学英语语音教学的质量

1.以旧带新, 提高语音教学

语音教学是一项漫长而且重复性的工作。词汇教学的过程中要不断进行教学方法的完善和改进, 采取“以旧带新”方法, 渐渐地将语音知识进行完善, 提高语音教学的质量。例如, 当对玩具这个单词进行教学的过程中, 可以对Boy这个词进行复习, 由于两个单词形成对比这就能够使学生对于B和T的发音有了更加深入的了解, 与此同时学生还能够将语音和拼写之间建立联系。

2.模仿授课

教学过程中, 学生能够进行听力辨音时, 就需要引导学生进行朗读, 让学生在大声朗读的过程中不断发现存在的问题, 对存在的问题进行总结, 然后教师对学生存在的问题进行及时的纠正。学生能够在模仿和教师纠正错误的时候, 掌握发音的方法, 同时教师还要对主要的发音器官进行合理的解释。对学生进行指导、示范, 通过不断地练习, 使学生能够充分体会英语发音。

3.听力教学

可以使用听力教学的方式, 为学生提供相应的英美发音听力学习, 让学生进行发音模仿, 对于因素之间所存在的差异进行重点教学, 进而不断提高学生的辨音能力。辨音是听力学习的重要步骤, 辨音还能够对听音效果进行检测。通过辨音找到存在的问题, 通过反复的听不断进行修正。

4.传输语言教学的学习态度

(1) 学习态度。学生在语言学习的过程中容易受外部的影响, 这样学生的情感好恶直接影响学生的学习效果。

(2) 理解态度。这主要是指学生对于语言概念的自主掌握和理解。

(3) 情感态度。语言的学习需要进行多年的积累, 在这个过程中老师需要根据自己的经验, 充分使学生感觉自己的学习过程和老师的学习过程相似。

(4) 思考的态度。学生在学习过程中能够对客观现实的东西进行自主的分析。

简而言之, 在小学中进行英语学习时, 教师必须在日常的教学中进行语音教学, 在学生语音学习的关键时期有效地进行教学, 但是不能急于求成, 一定要循序渐进, 让学生在自然的学习过程中进行体会, 提高模仿能力, 对以后的英语学习打下良好的基础。

摘要：语言是人类社会发展过程中不可或缺的工具, 语言是人们进行有效交流的方式, 其中语音是语言得以表现的主要方式, 语言能够比较容易地被人们理解关键就是要保证语音表现的准确性, 只有这样才能够达到有效交流的效果。为了能够实现人与人之间的有效沟通, 需要去了解各种不同的语言, 只有这样才能够有效地进行信息传递, 达到更好相互理解的目的, 换句话说就是让人们能够理解语言的意义, 而且还能够将语言有效地表达出来。但是一旦语言表达不准确, 所表达的意思就无法更好地被理解, 这就造成了沟通障碍。由此可见, 语音是非常重要的, 这就需要在英语教学中给予重视, 而且这也是学好英语的关键的一个方面。论述英语发音在教学中的重要作用, 而且对于语音教学怎样有效开展进行了有效的研究, 进而有效提高英语教学的质量。

关键词：语音语调,教学问题,提高方法,准确教育

参考文献

[1]周瑞芬.提高小学生语音能力的教学实践[J].山东师范大学外国语学院学报, 2012 (6) :52-55.

[2]崔刚.小学英语中的语音教学[J].基础教育外语教学研究, 2012 (8) :3-5.

农产品质量语音查询系统的设计篇8

近年农产品的质量问题越来越受到重视。设计农产品质量语音查询系统的目的,就是使消费者通过电话就能查询到相关产品的质量信息,扩大消费者的知情权,促进生产企业提高产品质量[1]。农产品质量语音查询系统要求查询信息及时,语音清晰,系统运行稳定可靠。本文依据有限状态机(Fin ite State Machine)原理[2],运用用线程技术,集成高质量语音合成(Text-to-Speech)引擎,设计并实现了语音查询系统。

2、系统设计

2.1 系统组成

系统构成如图1所示。

系统由硬件和软件两部分组成。硬件部分包括电话语音卡和PC机,软件主要有语言查询处理模块、语音合成引擎、SQL Serve r数据库和系统监控模块。

硬件部分的电话语音卡完成查询电话接入、数字按键信号转换和语音播放三项功能。为了能同时处理多路电话查询,电话语音卡一般有8个或16个端口。由于需要长时间保持系统无人值守状态下稳定的工作,普通PC机不能完全胜任,因此选用工控机作为系统主机。

软件部分,语音查询处理模块是整个系统的核心。它主要具有如下几个功能:(1)侦测语音卡各端口,接入和关闭通话;(2)识别用户按键输入的产品数字序列号;(3)查询农产品质量信息;(4)登记查询记录,更新最新查询记录缓冲池;(5)调用语音合成引擎,将农产品质量信息转换成语音文件;(6)控制电话语音卡播放查询信息。

SQL Server数据库存放农产品质量信息记录,语音合成引擎的主要作用是将文本转换为语言文件。系统监控模块被设计成一个后台进程,它每间隔一段时间就验证一下语音查询处理模块是否在正常运行,如果发现异常退出情况则重新启动语音查询处理模块。采用后台进程监控语音查询处理模块的另一个优点是维护成本低,可以使系统在无人值守的情况下运行,也能透过网络对系统进行远程维护。

2.2 有限状态机

处理电话查询的交互过程用有限状态机实现。所谓有限状态机又称有限状态自动机或状态机,是表示有限个状态以及在这些状态之间转移和动作等行为的数学模型[2]。表1描述了查询电话处理的基本过程。

由于篇幅所限,上表仅列出了查询系统的主要状态及状态之间转移的条件。查询处理模块定时检查每个电话端口,根据查询的当前状态和转移条件更新查询状态,全部的查询过程从电话接入开始到结束通话为止。

3、多线程处理

3.1 语音查询线程设计

线程是指进程中的一个实体,可以理解为程序中单一的顺序控制流,是被系统独立调度和分派的基本单位。线程与进程不同,它不拥有系统资源,只能与同属一个进程的其它线程共享该进程的系统资源。应用线程技术可编制支持并发操作的应用程序,可以使应用系统具备实时处理多任务的能力[3]。

语音查询处理模块要求能实时处理16路接入电话,所以模块主程序部分是以轮询方式查看电话语音卡16路端口有无电话接入,而且还要将合成的语音文件送入相应端口播放。如果语音查询处理模块功能(2)~功能(5)全部放在主程序部分实现,那么势必造成接入电话和播放语音执行时发生拥塞,导致系统无法正常处理业务。原因是访问数据库与语音合成都是比较耗时的操作,全部放在主程序中执行是不合适的。为了解决这个问题,采用线程技术是一个比较好的办法,具体做法是将功能(2)~功能(5)放在另外一个辅助线程中实现。由于开设太多辅助线程会降低查询处理模块的效率与可靠性,所以本文只建一个辅助线程。农产品质量语音查询处理模块辅助线程部分流程图如图2所示。

辅助线程执行代码开始部分先检查同步事件是否被主程序触发,如果同步事件被触发,首先重置同步事件,然后取出主程序线程安全队列内的任务请求数据块,根据任务代码调用辅助线程相应的成员函数完成请求功能[4]。辅助线程提供4个成员函数,实现来电归属地查询、企业代码查询、农产品质量信息记录查询和TTS语音合成[5]。本文使用事件来同步主线程与辅助线程。如果同步事件没有被触发,则在一个指定的时间周期后继续检查同步事件是否被触发。

3.2 设计实现和结果

(1)线程要经ADO组件访问SQL Server数据库,所以线程Execute()方法开始处应加入Co Initialize()调用,线程销毁前要调用Co Uninitialize(),防止访问数据库失败。

(2)检查同步事件触发部分要判断各种情况。首先要判断检查同步事件的过程是否超时,如果超时则表明该时间段内主程序没有触发同步事件,需要返回重新再次检查。其次,如果同步事件被触发,则要立即重置同步事件,然后打开主程序中的线程安全队列,将主线程加入的任务请求数据块取出。判断请求任务代码,调用相应成员函数,修改队列数据块指针内容,返回查询数据。最后如果辅助线程异常,则自动退出。

(3)辅助线程对象由new()指令创建,删除它采用自动销毁方式,线程属性Free On T erminate设置为True。

(4)经过实测,采用线程技术的农产品质量语音查询系统工作稳定,能在无人值守情况下可靠运行,系统监控模块能准确及时处理异常退出情况;语音查询处理模块可以正常处理16路外线电话拨入查询追溯记录,用户平均查询等待时间小于1秒,极端最长等待时间为5秒;最新查询记录单独存放在缓冲池中,加快相同记录查询处理过程;数据库和语言合成引擎工作稳定。系统符合实用要求。

4、结语

本文设计的农产品质量语音查询系统,采用线程技术实现了关键的语音查询处理功能,整个系统具有占用资源少、工作效率高、运行稳定、便于远程维护等特点,能够较好的满足用户查询农产品质量信息的需求。由于基于线程应用程序调试比较复杂,本文采用将中间数据写入文本文件的方法调试程序。另外,检查同步事件是否触发的时间周期值如何设置才能使系统工作最有效率,如何快速判断系统运行故障点以及如何较方便的适应业务逻辑的改变,这些问题在后续工作中需要进一步加以解决。

摘要：根据农产品售后服务的需要,本文利用数据库和文本语音转换技术开发了一套农产品质量语音查询系统。系统结构合理,工作稳定,响应速度快。

关键词：文本语音转换,多线程,有限状态机

参考文献

[1]杜国民.我国农产品质量安全责任辨析[J].南京农业大学学报(社会科学版),2009,9(3):13-14.

[2]张涌,钱乐秋,王渊峰.基于扩展有限状态机测试中测试输入数据自动选取的研究[J].计算机学报,2003,26(10):1296-1298.

[3]黄长青.多线程程序设计在数据库查询中的应用[A].武汉市第二届学术年会通信学会2006年学术年会论文集[C].武汉:湖北省通信学会,2006:233-235.

[4]袁裕辉.Delphi多线程数据库应用程序编程技术[J].计算机工程,2001.27(1):162-163.

语音质量篇9

人类语音的一个显著特点是其全部频率在10～10 000 Hz之间,几乎80%的能量集中在300～3 400 Hz的范围内,初期的PCM方案传输速率为64 kb/s,占用的频带相当宽,并且无法在一些窄带信道上传输,如何在这种较窄的带宽内多传送几路话音和数据,以增加传输的信息量,这就要求研究各种压缩编码,以达到扩大通信容量,在窄带信道上传输的目的。AMBE2000是 DVSI公司的一种专用语音编解码芯片,它能以低速率的全双工的工作方式提供优质的语音服务。本文基于AMBE2000芯片,设计实现了一种窄带语音通信系统,该系统具有硬件设计简便,语音编码速率可变,接口灵活,功耗低,在低速率和较强背景噪声下仍具有比较好的语音质量等诸多优点,具有很高的实用价值。

1 AMBE2000的主要特性

AMBE2000是一高性能的多速率语音编解码芯片,其压缩后的数据速率在2.0～9.6 kps范围内可调,以适应不同信道速率的需要;另外,对于不同误码率的信道,AMBE2000的话音数据/纠错数据配置也可以进行选择:当信道误码率较高,可适当提高纠错码的速率(降低话音数据速率);当信道误码率不太高时,可适当提高话音数据/纠错数据配置比,以得到最佳的语音效果。

同时AMBE2000本身具备双音多频功能,这样不需要外挂其他的器件来产生和检测双音多频信号,简化了电路板设计,提高了可靠性;AMBE2000具备16 ms的回波抵消功能,这对于一般的设计已经足够,不需要再外挂回波抵消器件,使其使用方法简单,功能可靠。

AMBE2000还具有静音检测和断音续组功能。在编码器部分,AMBE2000将话音数据每20 ms压缩为一个语音数据包,当没有声音信号输入时,它能够检测到静音并写入标志位;在解码器部分,当它检测到丢失一帧语音数据时,它能够依据上一帧数据尽量真实的预测下一帧语音数据,给出适当的语音信号。这在IP交换和分组交换中有广泛应用前途。AMBE2000的这些特性使得它非常适合数字语音通信、加密语音通信以及其它需要对语音行数字处理的场合。

从功能上AMBE2000可以被简单地看作是2个独立的器件:编码器和解码器,其内部功能框图如图1所示。编码器接收8 kHz的话音数据流,并输出到信道所要求的数据流,相反,解码器接收信道发送的数据流并合成出8 kHz的话音数据流。

2 系统设计与实现

系统硬件主要包括7个大组成部分,即:用户接口单元、中继接口单元、FPGA单元、语音编解码单元、微处理器控制单元、A接口单元和时钟单元。系统硬件主要组成框图如图2所示。

用户接口和中继接口是对外接口电路,用来直接接用户和中继设备;控制单元主要由AT89C51组成,用来处理信令以及对各个单元的控制和设置;FPGA单元主要完成对压缩语音数据打包、解包和CPC信令的收发以及产生各种时序信号等功能;时钟单元为其他单元提供所需要的时钟;语音编解码单元主要由AMBE2000组成,完成数字话音的压缩和解压缩功能;A接口单元主要完成与其他系统的数据连接,此处的A接口单元只需在FPGA里稍微更改一下设计的就可以换成K接口,接口灵活,调试和使用起来非常方便。

2.1 用户、中继接口

用户接口单元用来直接接数字话机,它由MY8668及很少的外围电路组成。中继接口单元用来直接中继设备如STM交换机等,它由MY8633及其外围电路组成。用户接口单元和中继接口单元送出的PCM码流经FPGA和其相应的帧同步控制脉冲送入AMBE2000芯片。

2.2 微处理器控制单元及语音编解码单元

微处理器控制单元采用了Atmel公司的单片机AT89C51作为微控制器,用来处理信令以及对各个单元的控制和设置,运行状态监视等。

语音编解码单元主要由AMBE2000完成,对来自用户接口单元或中继接口单元的8 kHz语音数据语音数据进行高效的压缩和解压缩,以降低语音数据的传输速率。本系统采用AMBE2000的主动帧格式模式,AMBE2000要求大约每20 ms读一个编码包,当EPR输出由高到低的脉冲时,读一个编码包,20 ms之后,读下一个编码包。AMBE的基本帧格式包括输入语音帧和输出语音帧,它们都是24 w(48 bytes),必须要在20 ms内从AMBE读出一帧数据和写入一帧数据。

48 bytes的帧格式前12 w由帧头、ID标志和控制信息位组成,第0 w是帧头,通常为0×13 ec;第1 w的前8 bit是电源状态控制,正常工作时报告为0×00,后8 bit是控制字1,报告了解码帧重复、解码静音检测、编码静音检测、编码双音多频检测的标志位;第2～6 w是速率管理状态字,报告当前的工作速率,也可以通过软件改变这几个状态字来改变速率;第7 w是误码率状态字,报告当前的误码率;第8～9 w无用,通常为0×00;第10 w为双音多频状态检测报告字;第11 w为控制字2,高8 bit用于解码器音量控制,其中0×80表示原音量,0×FF为原音量的两倍,小于0×80为减小音量,低8 bit是静音检测、睡眠模式、回波抵消、速率信息改变使能等报告位。格式字后12 w 12～23为压缩数据信息,是由真实话音数据组成,但由于传输数据速率不同,并非所有的话音数据都传入信道,而只有一部分数据传入信道,通过FPGA滤掉多余的部分把有用的数据发送到窄带信道上。

AMBE2000语音帧的以上各字都能够由FPGA提供的CPU接口通过89C51软件程序来控制。AMBE所需输入的语音帧前12 w可由软件来设置,AMBE输出的语音帧前12 w可由软件来读取。

系统接收数据时,从窄带信道传输来的数据由AMBE2000解码器接收并进行解压缩,在外部时钟及帧同步脉冲控制下变为8 kHz的语音数据,送入用户接口或中继接口单元还原为语音音频信号。

2.3 A接口单元

A接口单元提供一路群路信息信号以及时钟信号发送/接收,速率为128 kb/s。发送部分是将设备内部的二进制码变换成易于传输的平衡码,同时实现阻抗变换;接收部分则相反,将线路上的平衡码变换成设备内部所需的二进制码。

2.4 时钟单元

时钟单元由20 MHz晶振和16.384 MHz晶振组成, 20 MHz的时钟是控制单元的微处理器的工作时钟,通过FPGA送入; 16.384 MHz的时钟由FPGA分频后为其他单元提供2.084 MHz和8 kHz的时钟信号。

2.5 FPGA单元

FPGA单元是整个系统设计的核心单元,其内核设计的主要工作在于在AMBE2000,A接口单元,微处理器控制单元三者之间架起一座桥梁。由于此项工作比较复杂,涉及信号较多,时序关系错综复杂。因此采用自顶向下设计方法,模块化结构设计,VHDL语言描述方法。

FPGA负责产生送给AMBE2000各种时序控制信号;同时FPGA 还负责和外部接口的数据交换以及对AMBE2000的数据的读取和发送等。FPGA内部主要模块组成如图3所示。

(1) 定时控制和CPU接口模块

定时控制模块是把时钟单元送来的时钟进行分频产生各个模块所需的时钟,同时还产生AMBE2000所需的时钟和帧同步脉冲以及字同步脉冲。

CPU接口模块是连接微处理器控制单元与FPGA单元的,微处理器通过此模块进行数据的读写,来操作一些寄存器,从而达到交互信息的目的。

(2) 话音编码后处理模块

话音编码后处理模块的主要功能就是拆包,也就是从编码器输出的语音帧中提取头信息,根据语音帧格式前12 w携带的信息内容进行相应的操作,同时把语音帧格式后12 w携带的真正的语音编码数据取出来送到传输信道。

本系统利用AMBE2000的双音多频(DTMF)的检测发送功能,进行收发双音多频。此模块完成双音多频的发送功能,即从语音编解码单元送过来的语音帧头信息格式字10中取出DTMF送往CPU接口模块,通过软件控制发出DTMF。

前面已经提到,并非语音帧中所有的话音数据都传入信道,根据传送的话音数据速率的不同,其在信道中传送的数据位数也不相同,数据位数和压缩数据率的关系如下:

位数=压缩数据率bps/50 bps

从上面的公式可以计算出语音帧中后24 bytes只有在传输速率为9.6 kb/s时,所有位都是有用位,而在传输速率低于9.6 kb/s时,这后24 bytes只有一部分是有用位,其余则是被置0的无用位,但在传输过程中,这些无用置0位还要进入传输信道,由编码器传入解码器。

(3) 话音解码前处理模块

话音编码后处理模块完成的是把编码器输出的语音帧头信息、控制信息抽去,把真正的语音编码数据送到传输信道,而话音解码前处理模块要完成的一个主要功能就是接收时再把头信息、控制信息和语音编码信息进行重新组合成语音帧,然后再送给解码器,这样输入解码器的语音帧和编码器输出的信息就一致了。

(4) CPC信令收发和复分接模块

此模块完成CPC信令的收发。收CPC信令就是从信道过来的数据中检测出CPC信令通过CPU接口模块送往微处理器控制单元以便进行信令交互;发送CPC信令就是把微处理器控制单元通过CPU接口模块送来的CPC信令逐个发送到信道。

复分接模块的复接功能是将各支路接口单元送来的8 kb/s数字话音或数据信号经比特交织复接成128 kb/s的群路信号,送到线路端的A接口单元;分接则完成相反的过程。

3 结束语

本文所设计的基于AMBE2000的高质量窄带语音通信系统在较低数据码率 2.4 kbps 传输时输出的语音非常清晰,且该系统稳定性好,简单实用,性价比较高,扩展性好,对通信带宽的需求小,组网方便快捷灵活,能够和现有的多种通信网络互连互通。

参考文献

[1]刘斌.高效语音芯片AMBE2000及其在语音压缩中的应用[J].电声技术,2005,37(1):37-39.

语音质量篇10

近年来, 语音业务作为一种新兴的网络业务得到了广泛的应用。但是由于目前IP网络所采用的是尽力而为的服务方式[1], 造成在通话过程中存在着较大的通话时延、抖动和一定的丢包, 使得通话效果往往难以令人满意。一般来说, 端到端的通话时延不应超过400ms[2]。为了改进语音通信的服务质量, 有必要对实时语音流进行测试, 以获取时延、抖动等参数, 从而进一步分析影响通话效果的主要因素。

根据是否发送主动探针 (a c t i v e probe) , 网络测量技术可分为主动测量和被动测量技术[3]。主动测量是通过向网络发送探针来推测网络的情况, 被动测量是通过监听网络中已有的分组流来推测网络的情况。被动测量具有不影响网络负荷的优点, 因此, 本软件主要采用被动测量的思想, 实时加载一条真实的VoIP流, 并对该流的时延、抖动、丢包等服务质量参数进行测量和记录。

2、实时语音通信设计与实现

2.1 通信连接的建立

本软件所测试的对象为实时加载的一条VoIP流。为了实现更为真实的VoIP通信, 本软件采用最常见的VoIP通信模式, 采用服务器端进行连接管理, 客户端启动后首先连接到服务器获取所需通信的对端的连接信息, 然后建立与通信对端间的直接连接, 传输语音数据。连接建立过程依照SIP协议的相关规定, 其连接建立过程如图1所示。

2.2实时语音数据的采集与播放

为了实现交互式会话, 本系统采用多线程技术, 一个线程专门用来采集和发送语音分组, 另一个线程用来接收和播放对方发过来的语音数据。语音的采集和播放采用低级音频函数W a v e X, 其基本操作步骤如下。WaveX采用Windows消息映射机制来实现事件的处理。

2.2.1 音频数据的采集

(1) 打开录音设备:waveInOpen

(2) 为录音设备准备缓存:

waveInPrepareHeader

(3) 为输入设备增加缓存:

waveInAddBuffer

(4) 启动录音:waveInStart

(5) 清除缓存:

waveInUnprepareHeader

(6) 停止录音:waveInReset

(7) 关闭录音设备:waveInClose

2.2.2 音频数据的播放

(1) 打开输出设备:waveOutOpen

(2) 为输出设备准备缓存:

waveOutPrepareHeader

(3) 写数据到输出设备缓存:

waveOutWrite

(4) 清除输出缓存:

waveOutUnprepareHeader

(5) 停止输出:waveOutReset

(6) 关闭输出设备:waveOutClose

为了降低网络传输的数据量, 本系统采用G.729编码方案对语音数据进行压缩和解压。G.729将模拟信号以8Kbps的速率进行数字化, 并采用共轭代数结构代码预测法以8:1的比例进行压缩。

3、传输质量关键指标测量

本软件主要对语音流传输过程中的时延、抖动和丢包数这3个传输质量参数进行测量。为了计算时延和抖动, 通信两端需要进行时间同步, 以消除由于两客户端间的时间差造成的测量误差。

3.1 传输质量参数的计算

(1) 丢包

本软件能记录测试过程中被丢弃的数据包的总数 (packet＿lost) 。发送的每个语音数据分组将被附上16bit的数据包序号 (packet＿num) , 所有数据到达接收方后将被缓存, 播放时接收方检查所播放数据分组的序号, 每发现一个丢失的数据包packet＿lost增加1。每检测到一个延迟太大, 到达时其前后相邻数据包均已播放的包, packet＿lost也增加1, 该数据包将直接丢弃。

(2) 抖动计算

本软件所测试的抖动 (jitter) 是指两个相邻语音数据包的时延差值, 其计算公式见式1。这里delay1代表相邻的第一个包时延, delay2则是第二个包时延。

(3) 时延计算

现有的时延测量包括对双向时延和单向时延的测量, 端到端双向时延测量可简单地通过环回时延 (RTT, round trip time) 获得, 但是VoIP应用的性能更多依赖于单向性能, 因此本系统测量单向时延。时延delay为该数据包发送端开始发送的时刻 (t＿recv) 到接收端完成接收的时刻 (t＿s e n d) 之间的差值, 其计算如式2。

t＿recv和t＿send只能由发送端或接收端从本机时间读取, 而通信的两台计算机不可能精确时间同步, 会对所计算的时延的准确性产生影响, 因此本软件需要设计时间同步机制。

3.2 时间同步机制的设计

本软件采用相对时间来记录数据包的收发时刻, 客户端软件选择各自的系统开始运行时刻作为时间起点, t＿r e c v和t＿send为数据包收发的绝对时刻到时间起点间的间隔。本软件采用Query Performance Counter () 函数进行精确计时。该函数返回高精度性能计数器的值, 其计时的最小单位是CPU Tick, 还需要系统频率才能计算出所经过的时间。利用Query Performance Frequency () 函数可获得系统的频率值, 即每秒的T i c k数。n Start Counter是在发送端选取的时间起点处调用Query Performance Counter () 得到的开始点计数。nStopCounter是发送语音数据包时再次调用该函数时得到的计数值。本机发送时刻t＿sendtime的计算见式3, 该时刻将作为时间戳随数据包发送。同理, 可以得到接收刻t＿recv。

接收端收到数据包后读取时间戳t＿sendtime, 然后减去两机之间的时间差adjust, 得到t＿send用于计算delay。adjust反映通信两端之间时间起点时刻之间的差值, 由通信两端之间周期性做时间同步请求操作来获得。数据收发端之间的时间同步请求过程如图2所示。根据图2所示过程, 同步请求包传输时间delay＿time的计算见公式4, adjust的计算如式5。

4、结论

本文结合Winsock网络编程、WaveX低级音频API以及多线程技术, 设计并实现了一款实时语音流服务质量测试工具。在有线和无线局域网中进行的大量测试证明本系统能够实现两客户端之间的实时语音交互通信, 并能对该语音流的收发数据包数量、时延、抖动、丢包数等传输质量参数进行比较准确的测量和记录, 可供改变的测试参数包括采样位数、静音阈值等。

该软件还存在一定的不足, 采用多线程技术所引入的切换时间以及发送同步请求包所带来的时延会使得通信两端时间同步出现误差, 从而影响测量准确性。如何完善本测试工具的功能, 提高其测量准确性, 还需要进一步深入研究。

参考文献

[1]A.H.Muhamad Amin.VoIP performance measurement using QoS parameters[C].Proceedings of the Second International Conference on Innovation in Information Technology (IIT'05) , 2005:2-8.

[2]V.Paxson.End-to-end Internet Packet Dynamics[J].IEEE/ACM Transaction on Networking, 1999, 7 (3) :277-292.

[3]谢海波, 王海燕.无线局域网QOS技术发展综述[J].现代电信科技.2005, 34 (08) :50-53.

语音质量篇11

关键词：中国东北方言音日语语音相似性

一、引言

历史上，中日间的文化交流和友好往来，促使汉字直接或间接地传入了日本。在汉字传入日本的同时，汉字音也随之传入日本。日本人将传入的汉字作为自己的表记文字，并使这些汉字语音延续至今，从而创造了日本独有的语言文字体系。正是中日语言之间的历史渊源，使得它们之间存在着某种对应规律，因此二者的语音之间也必然存在着相似之处。近些年来，关于中日语言之间的对比研究正逐步兴起。其中，中日词汇对比一直是研究的热点，但关于语音方面的研究却为数不多。针对日语与汉语北方方言区下的次方言区的比较研究成果则更不多见。通过调查分析，可以发现中国东北方言在发音方面与日语具有相似之处。所以，本文拟从语音方面进行初步比较，希望能够为今后这一方面的研究提供帮助。

二、中国东北方言音与日语语音的相似性

1.平翘舌转化现象

“z、c、s”为舌尖前音，即平舌音。“zh、ch、sh”为舌尖后音，即翘舌音。舌尖前音声母与舌尖后音声母混淆是中国东北方言的一个显著特点。如表1所示。

表1：中国东北方言翘舌音与标准平舌音示例

汉字中国东北方言读音标准读音

怎 zhěn zěn

正月 zēng yuè zhēng yuè

充电 cōng diàn chōng diàn

睡觉 suì jiào shuì jiào

责怪 zhé guài zé guài

餐厅 chān tīng cān tīng

比赛 bǐ shài bǐ sài

打伞 dǎ shǎn da sǎn

此外，还有一些平翘舌发音的字易混淆，如“支援——资源，治理——自理，撤出——测出，身长——深藏，散光——闪光，市长——司长，诗人——私人，主力——阻力”等。

通过对日语常用汉字表中声母为“zh、ch、sh”的汉字进行考察（如表2所示），可以看出汉语中翘舌音“zh、ch 、sh”在日语中的发音都向“sa”行或“ta”行转换，从发音的角度来看都是非卷舌音。因此，二者之间存在着某些发音的相似之处。

表2：汉语翘舌音与日语平舌音示例

中国汉字音日语汉字音中国汉字音日语汉字音中国汉字音日语汉字音

札（zha）さつ（satsu）茶（cha）さ（sa）砂（sha）さ（sa）

展（zhan）てん（ten）产（chan）さん（san）山（shan）さん（san）

折（zhe）せつ（setu）车（che）しゃ（sya）舌（she）した（sita）

珍（zhen）ちん（tin）沈（chen）ちん（tin）深（shen）しん（sin）

政（zheng）せい（sei）成（cheng）せい（sei）生（sheng）せい（sei）

支（zhi）し（si）吃（chi）ち（ti）师（shi）し（si）

周（zhou）しゅう（syuu）出（chu）しゅつ（syutu）收（shou）しゅう（syuu）

追（zhui）つい（tui）垂（chu）た（ta）水（shui）すい（sui）

2.鼻化现象

在中国东北方言中，与平翘舌现象同样明显的是鼻化现象。在中国东北，部分地区的方言习惯在零声母音节前添加一个明显的鼻辅音，这类添加的鼻辅音包括在开口呼音节前加一个前鼻辅音“n”。普通话中的“e、ai、ao、ou、an、en、ang”等7个开口呼零声母音节前常常被加上声母“n”，变成“n”声母音节，如“熬袄欧安俺岸恩昂”等。东北的偏远地区或者年纪大的人更习惯这样发音。另外，在开口呼音节前添加一个后鼻辅音“ng”的习惯用法，这一语音特点主要通过当地居民在日常交流中不经意间表达出来。

表3：中国东北方言中的鼻化音示例

汉字中国东北方言读音标准读音

矮 nǎi ǎi

挨着 nāi zhe āi zhe

熬粥 náo zhōu áo zhōu

棉袄 mián nǎo mián ǎo

安排 nān pái ān pái

饿 nè è

大鹅 dà né dà é

恶心 ně xīn ě xīn

俺们 nǎn men ǎn men

在日语中，“ga”行假名的辅音为“g”，但当其出现在词首以外的位置时，就要根据情况发成鼻音“n”。两种发音在单词中虽没有区别，但当“ga”位于句尾时，即以“すみませんが......ですが......”的形式出现时，发鼻音“n”能更好地起到缓冲语气的作用。在这一点上，中国东北方言和日语的发音规则是相同的。

3.塞擦音声母向塞音声母的转化现象

中国东北方言中有将擦音声母发成塞擦音声母的情况，如将“机械（xiè）”读成机“械（jiè）”;或将塞擦音声母发成塞音声母，如将“刹（chà）那”读成“刹（shà）那”;或将塞擦音声母发成塞音声母，如将“解（jiě）扣儿”读成“解（gǎi）扣儿”。这种改换个别字声母的现象在东北方言区普遍存在，只是各地方所涉及的字略有不同。声母为“j”的汉字在日语中也多读为“ka”行或“ga”行音，即发为以“g”为辅音的音。

表4：发“g”辅音的汉字示例

汉字标准读音中国东北方言读音日语（括号里为罗马字发音）

解 jiě gǎi がい（gai）

解放 jiě fàng gǎi fàng かいほう（kai）

街 jiē gāi がい（gai）

上街 shàng jiē shàng gāi がい

4.硬腭化现象

中国东北方言中，“r”声母音节分别被“n”“l”“y（零声母1）”声母取代，这种取代一般与“r”同“u”“ui”等声母与韵母构成的音节有关。被“n”取代的字为“扔（rēng）”。被“l”取代的音节不多，常听到的有“儒（rú）生”，中国东北方言读作“儒生（lú）”;“花蕊（rǔi）”，中国东北方言读作“花蕊（lǔi）”。剩下的大部分都被“y”（零声母）音节取代。例如，“吵嚷（rǎng）”，中国东北方言读作“吵嚷（yǎng）”;“闷热（rè）”，中国东北方言读作“闷热（yè）”;“肥肉（ròu）”，中国东北方言读作“肥肉（yòu）”。但是当“y”遇到不能与之相拼的韵母时，韵母就会发生变化，例如“人（rén）民”，中国东北方言读作“人（yín）民”。

上文提到，东北方言中有些地方没有“r”声母字，它为“l”“n”“y（零声母）”所替代。在日语中，“r”属于齿龈边闪音/?/（或卷舌闪音/?/），具有“闪颤”的发音特点，并且日语中不存在“r”和“l”的对立，因此，很多外来语特别是英语中的以“r”为首的词汇在日语中都发音为“l”。这一发音规则与中国东北方言中发“r”的音被“l”取代的规则有相似之处。

三、中国东北方言音与日语语音存在相似性的原因

中国东北方言由于受地理条件、民族杂居以及其他各方言渗透的影响，在形成过程中，一方面继承并发展了汉语语音词汇，另一方面也吸收了其他方言中的语音词汇。其中，值得一提的是满语和移民人口带来的各地方言音对中国东北方言的影响。

（一）满语语音的影响

中国东北地区属于少数民族聚居区，以汉族为主体，满族、鄂伦春族、蒙古族、锡伯族、朝鲜族等少数民族构成了该地区的民族结构。其中，满族作为东北地区人口数量最多、分布最广的民族共同体，形成了自己的风俗习惯。满语随着满族人与汉族人的杂居共处与中国东北方言渐趋融合，有些语言甚至成为了当地居民日常生活中不可缺少的基本语言。满语作为阿尔泰语系的分支之一，有6个元音、19个辅音，名词无领属形式，动词无人称形式，句子结构为主宾谓，主从复合句较发达，通过大量虚词来表达语法意义，具有黏着语的特点。从这些特征来看，可以初步断定满语与日语属于同源语系，二者在构词及句子结构等方面都存在着诸多共性。受满语的影响，中国东北方言音与日语的语音存在诸多相似之处。

（二）移民方言音的影响

方言是语言发展的活化石，一种方言的变化发展不仅体现着该地区内部自然环境、人口结构等的变化，也体现着整个语言大环境的变化。在完全封闭的状态下，方言可能会沿着单一路线发展，不会呈现出太大的变化。语言是一个动态开放的体系，当方言处于与外来语言相连通的环境之中，它就很容易受到外来语言的影响而呈现出一种特殊的变化。在这种动态开放的体系之中，移民活动是最大的影响因素之一。当移民数量巨大、时间集中且聚居时，外来方言就必然会对原有的语言格局造成影响。由于历史上的劳动力掠夺、国家移民政策、人口流放、躲避战乱和自然灾害等原因，中国东北地区曾经是人口大量迁入的地区，这些移民的迁出地以山东为主，即著名的“闯关东”;其他地区还包括华北的幽燕之地，即今天的北京、天津、河北保定。安徽、河南洛阳、山西以及江苏连云港、云南等地也有大量人口迁入东北，伴随着人口迁移而来的是迁入人口的语言对当地原有语言的影响。在长期的共同生活中，迁入人口的方言渐渐融入中国东北方言之中，对其发音、词汇、语法、句子结构等都带来了一定的改变。而这些迁入人口的原有语言又与日语在语音等方面存在着一定的共性和对应关系。

四、结语

中日两国一衣带水，自古就有交流沟通，在这种交流沟通的过程中传入日本的中国汉字及其发音对日语语言文字体系的形成产生了深远的影响。近代以来，两国之间虽然有过战争摩擦，但随着世界大环境的改变，中日两国渐渐相互依存、相互合作，成为不可分割的两个主体。因此，对中日语言进行对比，尤其是语音方面的对比研究，不仅对研究中日两国的历史有着重要意义，在今天更是具有新的使命和意义。目前，关于中国方言与日语的语音比较研究还处于起步阶段，还有很大的空白需要我们去填补。因此，本文仅从中国东北方言与日语的语音相似性方面进行了比较，并追溯了中国东北方言在发音上的历史渊源和变化过程，希望能够对汉日两种语言在发音方面细致而深入的比较研究起到积极作用。

（本文系南京信息工程大学本科生优秀毕业论文（设计）支持计划项目资助。）

参考文献：

[1]蔡全胜.日语语音学[M].大连：大连出版社，2007.

[2]赵冬梅.《甄嬛传》和《大奥》中的女性人物对比分析[J].电影

文学，2013，（4）.

[3]包婷婷.浅谈东北方言中的满语成分[J].甘肃高师学报，2008，

（3）.

[4]何丰.湘方言与日语语音相似点的比较研究[J].长沙铁道学

院学报（社会科学版），2010，（2）.

[5]赵冬梅.论室町喜剧狂言的艺术风格[J].安徽文学（下半月），

2014，（5）.

[6]黎力.论重庆方言与日语在发音特征上的近似性[J].语文建设，

2013，（15）.

语音质量篇12

小波分析作为20世纪80年代后期发展起来的新兴的数学理论,经过20多年的发展,目前已广泛地应用于信号与图像处理、机器视觉与编码、语音合成与识别、信号的奇异性检测与谱分析等众多学科领域。小波变换是一种时频局部化分析方法,是分析非平稳时变信号的有力工具。小波变换克服了短时傅里叶变换固定分辨率的弱点,既可以分析信号的概貌,又可以分析信号的细节[1]。下面对其在通信中语音音质客观评价方面进行实验和研究。将小波变换与MFCC方法相结合,对比只应用MFCC方法进行语音音质客观评价与主观评价MOS(Mean Opinion Score)评分进行拟合的效果,发现在应用小波变换后,语音音质客观评价系统对相同的数据源的处理结果有一定改善。

1小波变换的基本原理

1.1小波变换的定义

小波变换的含义是:如果ψ(t)为一平方可积函数,即ψ(t)∈L2(R),若其傅里叶变换 $\overset{⌢}{ψ} (w)$ 满足条件[2]:

$C_{ψ} = \int_{- \infty}^{\infty} \frac{| \overset{⌢}{ψ} (w) |}{w}^{2} d w < \infty$ , (1)

式中,ψ(t)称为母小波的函数,将其进行平移和伸缩,就可以得到函数ψa,τ(t) :

$ψ_{a, τ} (t) = \frac{1}{\sqrt{a}} ψ (\frac{t - τ}{a}) ‚ a, τ \in R$ ;a>0。 (2)

式中,a为尺度因子;τ为平移因子,反映位移;将ψa,τ(t)称为依赖于参数a,τ的小波基函数。对任意函数x(t)∈L2(R),可定义信号x(t)的连续小波变换为[3]:

$W Τ_{x} (a ‚ τ) = \frac{1}{\sqrt{a}} \int_{- \infty}^{+ \infty} x (t) ψ^{*} (\frac{t - τ}{a}) d t, a > 0$ 。 (3)

1.2离散序列的小波变换

在实际应用中,为了方便用计算机进行分析处理,信号x(t)都要离散化为离散序列,因此连续小波变换也必须离散化,这里的离散化是指对a和τ进行离散化。

离散小波变换定义为[3]:

$W Τ_{x} (a_{0}^{j} ‚ k τ_{0}) = \int_{- \infty}^{+ \infty} x (t) ψ_{a^{\begin{array}{l} j \\ 0 \end{array}} ‚ k τ_{0}}^{*} (t) d t, j = 0, 1, 2, \dots, k \in z$ 。 (4)

小波滤波器算法示意图如图1所示[4]。

图1中,各x $_{k}^{(j)}$ 代表分辨率a=2j下的离散“模糊”信号,也就是该分辨率下对于原始信号x(t)的平滑逼近,对应于低频部分。各d $_{k}^{(j)}$ 代表分辨率a=2j下的离散细节信号,也就是该分辨率下的小波变换系数WTx(j,k),对应于高频部分。

只要h′0(k)和h′1(k)已知(原则上它们可由尺度函数φ(t)和小波函数ψ(t)求得,称为滤波器系数),就可以按图1结构由x $_{k}^{(0)}$ 逐级求x $_{k}^{(j)}$ 和d $_{k}^{(j)}$ 。

$d_{k}^{(j)} = \sum_{n} h_{0 (n - 2 k)} x_{n}^{(j - 1)}$ , (5)

$x_{k}^{(j)} = \sum_{n} h_{1 (n - 2 k)} x_{n}^{(j - 1)}$ 。 (6)

此算法就是Mallat算法,可以得出离散小波变换由以下几部分构成:

① 第0级输出x $_{k}^{(0)}$ 就是信号的原始采样序列xk;

② 各级低通输出x $_{k}^{(j)}$ 是xk在第j级分辨率下的平滑逼近;

③ 各级高通输出d $_{k}^{(j)}$ 是xk在第j级分辨率下的细节信号,就是离散序列xk在第j级的小波变换;

④ h0(k)和h1(k)是处理时所用滤波器组的冲击响应。h0(k)是低通的,h1(k)是高通的。

2小波美倒谱语音评估原理

MFCC参数主要是在一般倒谱系数概念的基础上考虑了人耳对音调的感察。音调是听觉分辨声音高低时,用于描述这种感受的一种特性。对于频率低的声音,听起来感觉它的音调“低”,而频率高的声音,听起来感觉它的音调“高”。但是音调与声音的频率并不成正比关系,还与声音的强度及波形有关。为了描写音调,采用了Mel标度。一个高于听阈40 dB、频率为1 kHz的纯音所产生的音调定为1 000 Mel。如果一个纯音听起来比1 000 Mel的声音调子高1倍,则其音调定为2 000 Mel。MFCC参数既应用了人耳感知模型,又是一个倒谱域参数。

小波美倒谱语音评估原理就是利用小波变换对受扰语音进行消噪,然后将重构的受扰文件与标准文件进行比对,计算美倒谱距离。利用小波变换进行语音信号去噪的基本原理为:携带信息原始信号在频域或小波域的能量相对集中,表现为能量密集区域的分解系数的绝对值比较大,而噪声信号的能量谱相对分散,所以系数的绝对值小,这样就可以通过利用阈值的方法过滤掉绝对值小于一定阈值的小波系数,从而达到降噪的效果。对信号进行小波分解,如果噪声能量明显小于信号能量,则与噪声对应的小波系数也将明显地小于与信号对应的小波系数,选择一个合适阈值处理小波系数,把低于阈值的小波系数设为零,高于阈值的小波系数予以保留[5],其原理框图如图2所示[6]。

3实验及结果

3.1实验原理

由于一种客观评价测度的优劣取决于它与主观评价MOS值在统计意义上的相关程度,为了检验某种客观音质测度对某一类失真的适用性,目前采用的做法是产生一个失真语音数据库以及对这些失真语音进行主观评价所得结果的数据库,加上标准的语音数据库。利用这3个数据库产生客观音质测度O(d)与主观音质测度S(d),然后对客观测量结果与主观测量结果进行相关分析,以其相关系数及标准偏差作为一种优选值来进行比较。相关系数R可衡量客观评价测度和主观评价MOS值的相符程度。σ表示用客观估值代替主观估值时期望误差的标准方差。

$R = \frac{\sum_{d} [X C S S 4 . t i f, J Ζ] S (d) - \bar{S (d)} [X C S S 5 . t i f, J Ζ] [X C S S 4 . t i f, J Ζ] Ο (d) - \bar{Ο (d)} [X C S S 5 . t i f, J Ζ]}{[\sum_{d} (S (d) - \bar{S (d)})^{2}]^{1 / 2} [\sum_{d} (Ο (d) - \bar{Ο (d)})^{2}]^{1 / 2}}$ 。 (7)

$σ = [E (S - E (s / o))^{2}]^{1 / 2}$ 。 (8)

分别利用MFCC方法和小波美倒谱算法计算得到语音文件的失真距离值,与主观测量结果进行相关分析,通过对比MFCC方法和小波美倒谱算法得到的相关系数和方差值,分析小波变换对语音质量客观评估的影响。

3.2实验方法

实验的受扰文件是将原始语音文件通过超短波信道传输,在传输过程中加不同程度的干扰信号而得到的不同程度的受干扰文件。其中原始语音文件有6个,均为数码报文,其中3个是男声语音文件,3个是女声语音文件,在语音码本的前面加有同步信号,同步信号可使标准语音与相应的失真语音的时间同步误差小于1 ms。共产生女声的加噪文件19个,男声的加噪文件18个,均为现场录制得到,其主观评价MOS评分是20个有一定收报经验的人独立作出的评分取均值得到的,其中MOS值评分选择如军用标准所要求,从0～4取5个等级。

小波变换均使用Mallat算法,滤波器为13阶Daubechies小波滤波器组。实验方法为小波美倒谱算法,对上述的受干扰文件进行计算,将客观测度距离和主观MOS分值进行最小二乘拟合,得到主客观评价曲线,其中,X轴为客观测度距离值,Y轴为主观MOS分值。

3.3实验结果

用MFCC方法对女声语音文件得到的相关系数为0.86,方差为0.1。用小波美倒谱方法对女声语音文件得到的相关系数为0.93,方差为0.03,如图3和图4所示。

用MFCC方法对男声语音文件得到的相关系数为0.85,方差为0.25。用小波美倒谱方法对男声语音文件得到的相关系数为0.91,方差为0.08,如图5和图6所示。

3.4结果分析

通过上面的实验可以看出,小波美倒谱算法对比MFCC方法的效果是有很大提高的。小波美倒谱评估方法在女声文件方面表现尤为突出。

由此可以得出:小波变换在滤除了高频那些对人耳听力没有影响的噪声成分并且对有用的低频成分进行放大后,对于MFCC中Mel滤波器的效果有了很大提高,这说明小波变换对于类似于MFCC这种基于人类感知模型所设计的滤波器是有提高作用的;小波变换所进行的高频滤除和低频放大对于语音信号质量客观评估有很好的辅助作用,是一个值得一用的好方法。

4结束语

从上面实验可以看到,小波变换对于MFCC客观评价方法与主观评价MOS评分拟合的相关系数有很大提高。由于小波变换有着和人耳相似的频率特性,在语音音质客观评价中滤除了高频成分,而且对低频也有改变,可以很好地提高语音音质客观评价的准确性,使拟合曲线有比较高的相关系数和比较低的方差。而且在MFCC方法中,小波变换用于倒谱域或者说对数谱域(其间的变换为线性的),充分说明小波变换是一个鲁棒性较强的方法。 

摘要：对小波变换原理进行简要分析的基础上,对小波变换与小波美倒谱(MFCC)方法相结合进行语音客观音质评价的方法进行了研究,给出了小波美倒谱语音音质评估原理及计算流程。使用MFCC方法和小波美倒谱算法分别计算原始语音文件与受扰语音文件的失真距离,并将失真距离与主观评测结果进行相关分析,得出相应算法的相关系数和方差值,通过对比表明小波美倒谱语音评估方法对于以倒谱域参数为基础的客观评价方法有很大改善。

关键词：小波变换,MFCC,语音音质客观评价,相关

参考文献

[1]许山川.基于小波变换的语音信号去噪研究[J].燕山大学工学硕士学位论文学学报,2006(4):1-5.

[2]付维勇.基于小波变换的语音信号处理的应用研究[D].昆明:昆明理工大学硕士学位论文,2008:16-17.

[3]谭乔来.语音增强方法研究及应用[D].长沙:湖南师范大学硕士学位论文,2008:19-20.

[4]杨福生.小波变换的工程分析与应用[M].北京:科学出版社,1999.

[5]张建良.基于小波变换的语音信号的噪声处理研究[D].兰州:兰州大学硕士学位论文,2007:19-20.

【语音质量】推荐阅读：

语音语音教学计划06-08

语音知识07-14

语音研究07-16

语音问题07-20