语音合成技术

2024-07-22

语音合成技术（精选7篇）

语音合成技术篇1

1. 引言

语音教学对语言学习起着重要作用，发音错误就导致读不好、听不准，从而直接影响到词汇的记忆、积累以及听说能力。目前英语语音教学一般采用教师朗读，学生跟读；教师演示发音口形，学生模仿；教师播放录音，学生跟读等常规教学方式。这些方式单调、枯燥、抽象，受授课地点、时间的限制，调动不起学生的学习积极性。

为了解决英语语音学习中所出现的问题，提高语音教学质量，笔者设计了一个基于语音合成技术的可视英语语音教学辅助系统。系统可把学习者任意输入的单词、短语、句子用高质量的合成语音播放出来，同时将对应口形以动画形式生动形象地同步表现出来，学习者可参照系统模仿跟读，改进发音。

2. 英语语音教学系统软件设计与实现

除了听到的声音外，人说话时口形的变化有助于学习者对语言的理解，是人获取信息的重要渠道，学习者可根据口形变化模仿、对比、调整发音，语音中称之为视位。音位和视位是语音的两个基本特性，因此本系统在合成语音同时显示出口形变化，来改善传统语音软件只能听声的弊端。

2.1 设计思路

系统主要通过Microsoft Speech SDK提供的关于语音处理的应用程序编程接口SAPI进行可视语音合成开发。通过调用相关接口，系统允许学习者自己设定男女发音音调、音量和朗读速度，可以根据通知消息实时获得当前音素或视位信息并转换为口形动态显示出来。

2.2 总体设计

基于语音合成技术的可视语音教学系统的主体部分实现过程如下:

(l) 初始化引擎，注册回调函数，载入所有口形图片；

(2) 用户设定语速语调，输人文本；

(3) 调用SAPI函数朗读；

(4) 接收音素通知消息，根据音素值，变换为口形并同步显示。

2.3 详细设计

国际标准MPEG-4对视位的定义为与某一音位相对应的嘴唇、舌头、下愕等可视发音器官所处的物理状态，在此我们将其简化为口形。通过对英语发音口形的大量研究，将英语的音素发音按照口形进行分类。有些音素单从口形上看基本相同，比如[p][b[m]，虽然三个音素气流、舌位变化不同，但其口形都是先闭合后张开。最终确定了常用单音素和22个基本静态口形的映射规则，如图1所示，系统初始化时须将此22个口形载入。

系统初始化完成后，学习者根据实际学习情况调整语速、语调、音量、语气，自行输入单词或句子，系统根据设定值调用以下函数朗读文本：

SpVoice1->Speak (WideString (UserText) , SVSFDefault) ;

朗读开始，声音将被合成并播放，遇到音素或视位变化时，系统会接收到SAPI发送的反馈消息，此时可根据当前音素或视位信息显示对应口形图像，关键代码如下：

为了得到自然的语音口形动画，可以通过图像变形方法在两个口形之间插入若干补间帧来平滑过度。

3. 结束语

利用此种可视语音合成技术进行英语语音教学, 可以提高学习效率，因人施教。但要想达到好的教学效果，语音库的选择很重要。微软、IBM、Nextup.com等多家公司都在研发自己的语音库，对比发现，好的语音引擎发音标准，相应嘴形配合到位，学习者可以更好的掌握发音。

摘要：语音合成技术是人机智能交互的关键技术, 本文描述了一种利用语音合成技术产生实时语音及其口形变化的英语语音辅助教学软件。该软件系统可以使语音教学更加生动形象, 增强学习交互性, 灵活性, 提高学生参与学习的主动性和积极性, 使学生更加容易和牢固地掌握语音知识。

关键词：英语语音教学,语音合成,可视语音

参考文献

[1]MPEG-4, 国际标准ISO/IEC14496[S].

[2]Microsoft.Speech API[EB/OL]http://www.microsoft.com/speech/developers.aspx, 2010

[3]胡壮麟.语言学教程 (修订版) [M].北京:北京大学出版社, 2001

[4]张鸽.创新性英语音素教学模式--多媒体人机互动式自主学习模式的理论与设计[J].外语电化教学, 2008.

[5]鲁杰, 王永斌.利用SmartRead SDK实现文本的语音合成[J].计算机与数字工程, 2009.

计算机语音识别与合成技术篇2

人和人之间进行通信的最基本的方式就是通过语音的形式, 如果实现了计算机和人之间的语音交互这一重大问题, 那么产生的价值是不可估摸的。从20世纪六七十年代开始, 全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。

计算机已经取得了显著的科技成果, 同样的语音识别与合成技术也已经取得了丰硕的成果, 并且已经在多项领域当中已经进入应用阶段。此外, 在语音的识别方面, 目前市场上已有一些识别软件的出售, 如:中国科学院的识别系统, 可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下, 通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用, 在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM公司的Via Voice系统, 是一种可听写系统。在语音合成方面, 中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。

2 计算机语音识别与合成技术的方法研究

计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此, 为了能够对语音的重建不失真, 离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象, 进行采样的频率最小要能够达到6800Hz, 也就是说每秒要达到6800个样点。一般认为, 人的耳朵可听频率为5HZ~20KHZ, 那么从这点考虑, 语音合成最高用10KHZ来处理就能够取得较好的效果, 通常采用8KHZ采样频率, 此外, 如果是对语音量化的情况下, 那么A/D转换器只需要12位就足够了。但是, 如果语音信号需要进行量化的话, 所需要的位数达到12位即可。如果从实际考虑出发的话, 如果达到8位就能够听懂经过合成的语音了。以这样算来的话, 每秒进入计算机的信息量大约为8000×8=64kbps, 但是一个字长若为8位的话, 所占的存储量则为8K, 这样的话也不会有太大的使用价值。所以, 要对语音信息进行一定的压缩, 当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。

(1) 波形编码法

在计算机语音识别与合成技术当中最常用的波形编码法是ADM法和DM法。而ADM法当中的量化宽度是根据DM当中的值进行固定的, 所以如果出现超载噪声或者是粒状噪声, 那么在ADM法当中是不能够进行宽度值的变化的, 而且他还有能够按照趋势跟踪的自我适应能力功能, 这种方法有对噪声的自动抑制功能;DM法的主要特点是能够按照波形进行相应的编码, 作用是对下一个语音信号的值进行比较, 是高还是低。低则显示给定编码“0”;高则显示给定编码“1”。这样一来, 要进行语音信号的编码, 很明显要先对存储量进行节省, 但是其音质要略差一点。

(2) 录音编辑法

通过直接录制的方式把语音录制下来, 并且还要把这些录制下来的语音经过连接结合在一起, 编辑成文章, 在输入到计算机内的时候不经过任何压缩处理, 而是直接输出出来, 但是这种方法需要有大量的存储器。

(3) 规则合成法

这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法, 所用的单位是音素链以及音节, 可以和任意的会话和单词进行合成, 但缺点是语调比较差。

(4) 参数编码法

目前来说最常用的参数编码法主要的有LCLPC法、LPC法以及FORMANT法和PARCOR法等等, 其中, LPC法采用的是一线性预测编码的形式, 通常进行波形采样的帧为10ms-25ms, 一帧之内为一线性不变系统, 但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数, 在存储器当中的各个帧当中进行叙述, 然后在语音合成的时候才开始对这些参数进行综合。LPC法用的是3-7位的方式对所有的编码进行处理, 并且在各个数值之间进行自动插补和运算, 这种方式合成的语音的音质动听柔美。

语音合成技术篇3

中英文语音合成技术的研究主要集中在语音模型的处理上, 大致可分为以下三种方法: (1) 分别基于各自的语料库训练中文和英文的语音模型, 中文模型与英文模型相互独立; (2) 先统一中文和英文的所有音素, 并在label中添加语言类别信息, 然后将中文和英文语料库混合成一个语料库用于训练, 最后获得一个涵盖中文和英文的语音模型[3]; (3) 先用第一种方式获得基于大量语料的独立的中文模型和英文模型, 然后基于KLD准则建立起两种模型之间的映射关系即音素映射[4]和状态映射[5], 继而可实现在只具备某说话人的少量语音数据 (中文或英文) 的情况下, 获得基于充足预料的任何语言的语音模型。三种语音模型处理的方法, 复杂程度不同发展出的中英文语音合成技术能够实现的功能也不相同。基于第三种方法的合成系统, 可以在只有特定说话人的某一种语言的少量语料的情况下, 合成出的该说话人的中文或英文的语音, 虽然功能多样化, 但是系统太复杂, 实现起来难度较大。对于第二种方法, 用一个混合模型来实现两种语言语音的合成, 语言类别成为了模型的一种属性, 中英文模型一起捆绑构成决策树, 这种混合捆绑的方式拉近了中文HMMs和英文HMMs的距离, 同时也模糊了中文与英文HMMs间的界限, 致使难以准确地控制合成语音的质量。而第一种方法, 虽然不能如方法三一样合成出特定说话人的语音, 但是可以满足基本的中文和英文语音的合成需求, 它最简单且最容易实现, 是目前各种语音合成产品应用的主流选择。本文将以第一种方法为方向, 结合中文语音合成技术, 构建了一个简单、快速、高效的中英文语音合成系统, 适用于嵌入式平台下的中英文语音合成应用。

1 中文TTS原理

中文语音合成是根据中文语料库训练出的HMMs模型, 查找并生成与文本相对应的语音的声学参数, 进而合成出说话人的中文语音。本文以北京语音天下科技有限公司的中文文语转换系统SYN6658为参考对象, 分析研究中文语音合成技术, 为中英文语音合成技术的研究做好准备工作。

1.1 中文HMMs模型

在训练HMMs模型之前, 需要准备一定量的中文语料库, 语料库中包括语音数据 (raw或wav文件) 和与之相对应的文本数据 (utts文件) , 具体的模型训练过程为:首先在语料库中, 挑选出若干句音素均衡、内容均衡的语料数据, 从中提取语音参数, 即从raw文件中提取出每帧的对数基频参数lf0和频谱参数mgc, 并且根据utts文件生成文本标注信息文件labels。需要注意的是, 此处中文的label是以音节为基本发音单元, 音节可理解为汉字的拼音, 训练中用10个状态的HMMs来描述一个音节;其次用labels、lf0和mgc数据进行训练得到模型.mmf文件 (二进制文件) , 再将二进制.mmf模型转化为hts_engine可接受的模型形式, 如概率密度分布dur.pdf、lf0.pdf、mgc.pdf和决策树dur.inf、lf0.inf、mgc.inf, 以及窗函数文件.win等。

1.2 系统软件构建

TTS系统包括两部分内容, 即文本分析和后端合成。中文文本分析部分是基于汉语语言学和语义学构设计, 其中韵律词、多音字、数值、专有名称缩写符号等需要特别处理。由于HMMs模型训练采用的是音节labels, 故TTS系统中文分析与后端合成的接口也采用音节labels, 与训练中的音节label形式一致。

HTS研究小组开发出的实时合成引擎hts_engine, 软件占用空间小、运行速度快且与合成语音的语种无关, 是语音合成产品应用中合成技术开发的一个重要参考对象。中文TTS系统的后端合成部分, 是在hts_engine的基础上改进得到的, 原理与hts_engine大致相同[6], 改进工作主要表现为韵律词分段合成和模型数字化处理。韵律词分段合成充分利用了汉语语言表达的习惯, 每个汉字语音之间的间隔时间并不完全一致, 韵律词之间的间隔时间比韵律词内部两个字之间的间隔时间长。由于后端合成耗费时间较长, 为了缩短合成语音的时间, 将韵律词之间的时间间隔用于合成语音过程的消耗, 以一个韵律词代替hts_engine中的一整句话作为一段合成单元。换句话说, 后端合成流程完整运行一次, hts_engine合成出输入一句话label的语音, 而中文TTS后端则合成出输入一句话中的某个韵律词label的语音。模型数字化处理是将文本形式的HMMs模型, 数字化后转化为二进制形式的模型, 主要体现在决策树结构.inf、概率密度分布pdfs的数字化。决策树数字化时, 将决策树问题、跳转方式、跳转节点索引等文本形式内容用1至2个字节的数据表示;由于pdfs本身是以二进制数值存储, 不需要数字化, 此处的处理是只保留合成涉及到pdfs的7个数据———3个均值、3个方差、1个msd, 其中一阶msd、二阶msd和零、一、二阶1—msd值舍弃。

另外, 在后端合成的参数查找与生成部分中状态数的设置须与HMMs中的一致 (10个状态) , 且在合成出语音波形数据之后, 用两个缓冲单元存放数据以等待播放, 如此即可实现连续语音的流畅播放。

2 中文TTS与英文TTS比较

2.1 模型训练

语音模型是任何语言合成技术的根本, 合成语音质量的好坏很大程度上取决于训练出的模型质量。对于使用HTS工具训练HMMs模型, 关键在于一些参数的设置。中文TTS系统的模型是基于音节labels的HMMs, 用10状态的HMM描述一个音节。而英文TTS系统的HMMs模型, 是以音素为基本发音单元训练得到的, 用5个状态的HMM描述一个音素。两者在模型训练时状态数的设置不相同, 中文状态数为10, 而英文状态数为5。HMMs状态数的差异, 致使中英文模型必须分开训练。对于训练频谱参数种类的选择和频谱维度等其他参数的设置是可调的, 使用统一的参数值来分别训练中英文HMMs, 将会为中英文TTS系统的构建带来极大的便利。

2.2 文本分析

文本分析是基于语言学和语义学分析语言文本, 得到文本标注信息labels。由于中文与英文之间的巨大差异, 两者的文本分析的具体过程没有可以融合的部分, 因此中英文的文本分析只能由两个相对独立的中文和英文文本分析模块组成。中英文语音合成技术处理的对象为中文与英文混合的语言文本, 由于中英文文本分析模块独立, 输入混合文本需要转化为单一语言的文本, 才能进入相应的模块进行分析, 这样在对中文文本和英文文本分析之前, 要先判断文本的语种类型, 以决定采用哪一种语言的文本分析模块分析。

2.3 后端合成

中文TTS系统和英文TTS系统的后端合成部分, 都是以hts_engine为参考进行软件设计的, 两者原理和处理流程总体上一致, 可以考虑将两个后端融合成一个后端, 能接受中文和英文labels合成语音。因为中文HMMs与英文HMMs相互独立且状态数不同, 后端涉及HMMs和状态数的查找决策树、参数生成部分需要特殊处理。

中文TTS后端采用韵律词分段合成, 大大减少了文本到合成语音播放的等待时间, 此种分段合成的方式可推广至英文合成后端, 可以考虑以单词、韵律词等为合成小段, 进而提高系统性能。除此之外, 英文HMMs的处理也可参照中文HMMs的数字化处理方式, 以达到减小系统占用内存空间的效果。

3 中英文语音合成系统构建及其性能分析

经过中文TTS系统与英文TTS系统的比较分析后发现, 虽然中文和英文之间存在较大差异, 但是它们的合成技术之间存在很多共通性, 为中英文语音合成技术的研究提供了一些思路和方向, 整个系统的框架也逐渐清晰。在此基础上, 本文提出了一种构建中英文语音合成系统 (TTS系统) 的方法。

3.1 整体框架与模型训练

在综合分析中文和英文语音合成的各项技术性能的基础上, 本文提出了一种中英文语音合成系统的构建方法, 系统的整体框架如图1所示。首先将输入的中英混合文本划分成英文、中文文本, 然后用相应的语言文本分析模块分析之后, 获得文本标注信息labels, 后端将输入labels划分为若干小段进行合成, 中文labels按韵律词分段, 英文labels按单词分段, 最后将合成的中英文语音数据存入音频缓冲单元中等待播放。

后端合成使用的是相互独立的中文HMMs和英文HMMs, 两者是通过分开单独训练出来的。本文挑选500句中文语料, 以音节为建模单元训练中文HMMs, 音节HMM的状态数设为10;同时挑选500句音素均衡的英文语料, 以音素为建模单元进行训练, 音素HMM的状态数设为5。另外, 中、英文HMMs训练采用统一的语音参数, 包括状态时长dur, 对数基频lf0、一阶lf0和二阶lf0、清浊音界限值msd、一阶msd和二阶msd, 以及18维线谱对 (LSPs) 系数和其一阶、二阶动态参数。

3.2 中英文前端

本文构建的中英文语音合成系统采用两个文本分析模块, 分别实现中文和英文文本的分析。由于该系统重点针对中英文混合文本来合成语音, 输入的文本内容, 既包含中文汉字, 又包括英文单词, 因此需要经过适当的处理之后才能使用相应的模块进行分析。另外, 本文系统的应用环境主要为中文环境, 即该系统以中文用户为主要应用对象, 在用户不指定合成某种语言时, 优先考虑中文语言形式的合成。

中英文前端文本处理的几个关键点说明如下:

(1) 文字编码。中文汉字与英文字母的编码方式不同, 汉字一般采用2 bytes的GBK或GB2312编码, 而英文文本一般采用1 bytes的ANSIC II编码方式, 而且文本还可能使用Unicode的编码方式。为了后续处理的方便, 在划分中英文句之前, 先进行统一文本编码的处理, 无论输入文本使用何种编码方式, 都将其转化为2 bytes的GBK编码;待分句结束之后, 再将GBK编码的英文句转换回ANSIC II编码的文本, 然后用英文分析模块处理。系统支持GBK2312、ANSIC II以及Unicode编码至GBK编码的转换。

(2) 文本分析模块。中文的文本分析采用STN6658的文本分析模块, 支持GBK编码文本处理;英文的文本分析采改进的文本分析模块, 支持ANSIC II编码文本处理。

(3) 中英文本的划分。由于系统使用的是独立的中、英文文本分析模块, 它们都只能处理各自的单一语言文本, 为此在分析之前先将输入的混合语言文本划分为独立的中文文本或英文文本。整个处理过程分以下两步实现:

(1) 划分中英文句。若句子中含有汉字, 则认为该句为中文句;若句子中不含汉字, 并且含有两个及以上数目的英文单词, 则认为是英文句;除此之外的其他类型则认为是不确定句。不确定句的处理以前一句文本的类型为参考, 即若前一句为中文句, 则将不确定句当作中文句处理, 若前一句为英文句, 则当做英文句处理。

(2) 中文句中英文文本的处理。在第一步判断出的中文句中, 除了汉字之外还可能包含英文文本内容, 该部分的英文内容应该用英文分析模块处理。

(4) 中英labels的生成。由于用于后端合成的中文HMMs和英文HMMs是完全独立分开的, 且中文与英文文本的具体分析过程不存在交集, 故在每次处理完一段文本之后, 直接将生成的labels用于后端合成。也就是说, 中英文前端生成的labels只包含一种语言类型, 不存在中文和英文labels混合在一起的情况。

3.3 中英文后端

中英文合成系统后端的总体结构如图1所示, 后端采用分段合成的方式, 且使用独立的中文HMMs和英文HMMs, 在短时间内实现文本至语音的合成。后端合成的几个重要处理过程说明如下:

(1) labels分段函数。后端沿用了中文TTS后端韵律词分段的处理方式, 并将其扩展至英文labels的合成。然而, 英文labels与中文labels在形式上存在差异, 两者分段的标准并不相同, 不能将中文分段函数用于英文labels的单词分段, 因而需要构造英文labels的单词分段函数。另外, 由于后端合成在原理上与合成语音的语言种类无关, 它本身不能识别出labels的语种。为了区别使用分段函数, 在labels中加入语种信息, 用数值0或1来描述, 0表示中文label, 1表示英文label。按照labels中的语种标志值进行分段函数的转入, 即可实现labels的正确分段, 进而查找出相应的参数HMMs, 并合成语音。

(2) 中英文模型。与中文TTS后端HMMs的处理一样, 对英文HMMs也进行数字化处理。为了使整个系统结构更加清晰简洁, 用一个文件来存储数字化后的英文HMMs与中文HMMs数据, 文件中两个模型按顺序依次独立存储, 具体表现为:二进制模型文件的前半部分为中文HMMs数据, 后半部分为英文HMMs数据。

(3) 参数决策顺序。HMMs的数字化不仅仅改变了模型数据的存储形式, 同时还对数据的存储顺序有所调整。从HMMs模型数据表中可知, lf0和mgc的概率密度分布是按照状态决策树顺序依次存放的, 英文HMMs从状态2到状态6, 中文HMMs从状态2到状态11。为了解决模型数据占据空间较大的问题, 程序按照状态的先后顺序, 每次只读入某一颗状态 (记为i) 决策树的节点数据, 待决策出labels段中所有labels的状态i的pdfs之后, 释放该决策树缓存, 然后再读入下一颗状态决策树的节点数据, 决策出labels段的状态i+1的pdfs后释放决策树缓存, 如此依次进行下去, 直至labels段的所有状态的pdfs的决策结束。换句话说, 中英文后端先决策出labels段中所有labels的某一个状态的语音参数模型pdfs, 而不是如hts_engine中的先决策出labels段中某一条label的所有状态的语音参数模型pdfs。

与hts_engine的先labels后状态的语音参数pdfs决策顺序不同, 中英文语音合成系统后端采用先状态后labels的参数决策顺序。

(4) 音频缓冲单元与音频播放。后端滤波器的输出是2字节的raw语音数据, 然后再被转换成wav数据存入语音缓冲单元中。系统用两个256 K的缓冲单元存放wav数据, 在合成段滤波结束之前, 若缓冲单元被填满, 则立即播放语音数据并清空缓存;每当结束一个合成段的合成, 即使缓冲单元没有被填满, 也将播放语音数据、清空缓存。

3.4 系统性能分析

实验分别用只有两个合成段 (单词或韵律词) 的10个纯中文、纯英文和中英混合的文本进行语音的合成, 为了排除分句的影响, 测试文本采用可视作一个句子的短语。实验结果如图2、图3所示。

根据图2结果可知, 中英文TTS对纯中文和纯英文的合成速度与独立的系统相差不大, 甚至有小幅的下降, 但中英文混合文本合成所用的时间则少于中、英文TTS的合成时间之和, 说明中英文TTS的中英文合成速度比独立分开的系统快。图3为TTS播放声音前的等待时间, 结果说明中英文TTS从输入文本到合成语音播放需要的等待时间更短, 更适宜实时的语音合成应用。

4 结语

通过对中、英文TTS的比较分析, 采用改进的英文TTS和基于嵌入式的中文TTS, 整个中英混合TTS系统占用空间较小, 相比于两个系统的简单切换, 本文提出的中英混合系统运行速度更快, 更加适合嵌入式平台上实时的语音合成应用。

摘要：在SYN6658的中文TTS基础上, 结合改进的英文合成技术, 经过分析比较中文TTS和英文TTS的特性之后, 提出了一种构建简单快速、占用空间小的中英文语音合成系统的方法。构建的系统能够实时快速地合成出中英文语音, 系统简单、易实现且合成效果较好, 是中英文语音合成产品的较好选择。

关键词：语音合成,隐马尔可夫模型,文语转换系统,混合语音合成

参考文献

[1] 尹惠玲, 杨帆, 于虹, 等.基于COM的智能TTS系统的设计与实现.微计算机信息, 2009; (15) :172—173Yin Huiling, Yang Fan, Yu Hong, et al.Design and implementation of intelligent TTS system based on COM.Microcomputer Information, 2009; (15) :172—173

[2] 徐英进, 蔡莲红.基于HCSIPA的中英文混合语音合成.计算机工程, 2013;39 (4) :14—17Xu Yingjin, Cai Lianhong.Chinese and English mixed speech synthesis based on HCSIPA.Computer Engineering, 2013;39 (4) :14 —17

[3] 徐莹.中英双语语音音节表征方式与连通机制实验研究.北方文学, 2013; (9) :182—185Xu Ying.Experimental study of the representation and communication mechanism of bilingual speech syllable representations.Northern Literature, 2013; (9) :182—185

[4] 刘航, 凌震华, 郭武, 等.改进的跨语种语音合成模型自适应方法.模式识别与人工智能, 2011;24 (4) :457—463Liu Hang, Ling Zhenhua, Guo Wu, et al.The adaptive method of cross language speech synthesis model.Pattem Recognition and Aitificial Intelligence, 2011;24 (4) :457—463

[5] Liang H, Yao Q, Soong F K, et al.A cross-language state mapping approach to bilingual (Mandarin-English) TTS.ICASSP, 2008:4641—4644

语音合成技术篇4

1 SAPI SDK语音开发包简介

语音开发平台Speech SDK即是帮助开发人员实现语音应用的重要工具。然而,历史的Speech SDK里面并没有对中文语音进行支持,目前支持中文的Speech SDK最高版本为Windows平台下的SAPI 5.1,该版本一共可以支持3种语言的识别(英语,汉语和日语)以及2种语言的合成(英语和汉语)。也就是说,在部分系统平台上并未集成中文语音环境。如果需要,可以到http://www.mi-crosoft.com/speech/download/sdk51下载。

SAPI SDK包含了语音应用设计接口(SAPI)、连续语音识别引擎(MCSR)以及语音合成(TTS)引擎等。其结构如图1。

语音引擎则通过DDI层(设备驱动接口)和SAPI(Speech API)进行交互,应用程序通过API层和SAPI通信。通过使用这些API,用户可以快速开发在语音识别或语音合成方面的应用程序[2]。

2 语音合成(TTS)引擎开发环境的搭建

在安装了SAPI SDK语音开发包后,先在C:Program FilesCommon FilesMicrosoft SharedSpeech目录下面找到SAPI.dll,这里面定义了SAPI的COM对象。将SAPI.dll中的SAPI运行库转换成.NET平台下的Assembly---Dot Net Speech.dll,这样原本抽象的API函数就可以变成.NET类库中的一部分。我们可以利用.Net Framework自带的工具Tlb Imp.exe来把SAPI SDK的COM对象导入到.Net中。

DOS状态下执行以下命令导入SAPI的COM对象:

C:Program FilesCommon FilesMicrosoft SharedSpeech>Tlbimp sapi.dll/out:Dot Net Speech.dll

然后,在.NET开发环境下,通过添加引用的方法将Dot Net Speech.dll引用即可。

3 从文本到语音转换的实现

在完成了前述开发环境的搭建工作以后,打开Form1.cs代码文件,在代码开头添加名字空间(注意大小写)。

using Dot Net Speech;

这样就实现了SAPI SDK的导入,下面我们就可以开始编写应用代码了。首先实现将一段字符串文本用喇叭读出来。编写成一个方法:

更进一步,将文本转换成音频文件,编写成一个方法:

实际上,在文本的语音合成中,还存在着词组搭配、多音字选择的问题,可以采用自建词组库的方式进行解决,该文限于篇幅不再垒述。[3]

4 应用开发实例

“指纹识别开放实验室出入登记系统”主要应用于院校实验室学生自由出入时指纹登记。区别于以往的刷卡、笔录等形式,此系统拥有无人专门值守、无需携带额外介质、不考虑卡片损坏遗失以及无需特别整理登记数据的优点。而要使用好指纹管理,语音提示尤为重要。如图2。

若上机,指纹识别成功,即发音“欢迎xx上机”,离开时按指纹则发音“xx欢迎再来”。

指纹管理一个非常重要的问题就是指纹数据库的建立。为此,利用SAPI专门设计了指纹叫号软件,选择一个学生集中自习的时间,依据学号顺序,系统依次采用语音合成的方式叫相应姓名的同学上来录指纹。实践证明,这一做法极大减轻了管理员的工作量,一名管理员即可在半小时的时间对150名左右的学生进行有条不紊的指纹采集工作。学生对语音叫号也非常感兴趣,很好得配合了这一工作的进行。

5 结束语

SAPI5.1 SDK为语音人机界面提供了强大的平台,合理的应用语音平台既可以大幅提高工作效率,也能在工作中体会乐趣、减少客户之间的枯燥交流。该文详细介绍了TTS的实现方法及个人工作总结,下一步,应该跟深入的探讨MCSR的应用、TTS词组拆分问题,实现深入的人机对话。更重要的,通过TTS的应用,通过该文,希望一起思考对以往程序设计中融入语音系统的意义。

参考文献

[1]姚涵珍.TTS中文语音合成技术的研究与实践[J].天津科技大学学报,2004,19(1):65-67.

[2]陈本峰..Net平台下开发中文语音应用程序[EB/OL].微软中国社区.http://www.microsoft.com/china/community/program/originalarti-cles/TechDoc/Cnspeech.mspx.

基于发音轨迹的可视语音合成篇5

关键词：语音可视化,CM协同发音模型,改进的CM协同发音模型,舌读,唇读

0 引言

语音可视化是近30年发展起来的一门技术,即通过直观地呈现可见发音器官(如牙齿、唇等)及不可见发音器官(如舌头、软腭等)的发音运动,达到增强语音可懂度和识别率的目的。该技术在噪声环境、听觉损伤或其他因素导致的声学信息得不到保证的情况下,可发挥其显著的优势[1]。而在语音可视化的众多实现方法中,一种通用的方法即基于模型的方法,这种语音可视化的实现方法以其具有直观性和实用性的显著优势而得到了广泛的应用。基于模型的语音可视化技术的实现主要分为两个步骤:第一,重构基于人体生理结构的虚拟2D或3D说话人头模型。有研究基于MRI、CT及视频数据重构了符合人体生理结构的3D说话人头模型,模拟了包括唇、舌头、牙齿、软腭等发音器官[2]。第二,获得驱动数据和定义驱动模型的关键参数。近年来,国际上已成功实现了英语、法语、瑞典语等语言的语音可视化。

目前国内外有关模型的驱动数据主要有三种类型,即MR图像,X射线和三维发音运动采集仪EMA(Elector-magnetic Articulogratory)采集的三维发音运动数据。

基于EMA数据驱动的3D音视频说话人头系统不仅可呈现各发音器官的发音运动,而且还具备复杂、灵活的优势。它拥有着非常广阔的应用前景:可帮助言语障碍儿童进行言语功能的治疗、感知和康复;辅助外语学习者进行发音训练[5];而且,对语音产生机理的研究也是一个有力的工具。

本文旨在利用EMA采集的发音动作数据,实现基于模型的汉语可视化。实现过程为:首先,使用EMA采集标准普通话发音者的音视频数据及发音动作数据;接着,基于单个声母和韵母的发音运动,使用CM协同发音模型合成汉字的发音轨迹,本文提出了一种改进的CM协同发音模型,可更为逼真地模拟真实发音轨迹,合成的发音轨迹也更加平滑;最后以改进的合成轨迹作为驱动数据,驱动和控制虚拟可透明说话人头,进而产生汉语发音时唇、牙齿、舌头、下巴等发音器官的发音运动,直观展示真实说话人发音时可见及不可见发音器官的发音运动。

此外,本文还运用数据驱动的3D说话人头设计了三组感知实验,实验目的是探索和评估舌头运动的呈现,即舌读[5]在语音感知和理解上的贡献,并定量比较唇读和舌读在语音感知和识别中的作用。

1改进的CM协同发音模型合成发音轨迹

1.1 虚拟音视频说话人头模型

虚拟音视频3D说话人头模型由各部分独立的发音器官组合而成,包括唇、舌头、牙齿、下巴等发音器官。利用虚拟的音视频3D说话人头可产生音视频的多模式语音,即在提供听觉信息的同时,还可显示包括通常可见发音器官(如唇)和通常不可见的发音器官(如舌头、软腭)发音运动的视觉信息,使人们可从多模式的语音信息中更好地感知和理解语音。

1.2 模型的数据驱动

目前,国内外数据控制和驱动说话人头模型的方法主要有三种:即基于标志的数据驱动方法、基于医学影像技术的数据驱动方法和基于EMA的数据驱动方法。其中,基于标志的数据驱动方法,是通过在人的皮肤上做发光标记,并使用红外摄像机追踪这些会主动或被动发光的发光标志来收集驱动数据的[5]。基于医学影像技术(如超声回波描记术、射线活动摄影术、动态MRI、CT等)的数据驱动方法,是通过超声、射线等方法来采集驱动数据的。而基于EMA的数据驱动方法是通过将微型传感器粘贴到说话人的发音器官上,再收集传感器的三维位置信息来获取数据的。

基于标记的方法只能采集外部发音器官(如嘴唇)的发音数据,而不能采集内部发音器官(如舌头、软腭等)的发音数据;基于超声的医学影像技术的可测发音器官仅局限于舌头,基于射线的医学影像技术对人体有害而不适于采集大规模的语料;基于动态MRI的医学影像技术的速度太慢,难以适应发音运动微小多变的特点。因此,前两种方法都不适于采集微小复杂的发音运动数据。而EMA是采集微小动作的专用设备,采样率为200帧/秒,其精度可达1mm,并可同时跟踪口腔内外多至二十多个离散点的运动轨迹,其缺点是由有限采样点而带来的较低的空间分辨率,然而高精度的发音器官模型可以巧妙地克服这一缺点。综上,基于EMA的数据驱动方法是最理想的模型驱动方法,因此试验选择基于EMA的数据驱动方法来驱动和控制模型。

1.3 EMA数据采集和处理

为了采集标准的普通话发音运动数据,实验请了一位标准普通话发音的女性作为说话人。数据采集的语料包括普通话的21个声母和35个韵母,以及由声母和韵母组成的汉字,在汉字的选择上,力求做到所选的汉子囊括所有的声/韵母,并尽量使各个声/韵母在汉字中等概率出现。采集数据时,各个声/韵母及汉字都要求说话人阅读两次,以便从中选取音频较清晰、发音动作较明显的数据。

鉴于EMA设备可采集的离散数据点有限,我们选取了11个可用的传感器来采集11个离散点的发音动作数据。其中4个传感器分别置于鼻梁N、上齿槽UI和左耳后硬骨EL和右耳后硬骨ER处,这4个传感器要求固定在发音器官的运动不会导致其移动的固定部位上,它们的作用是单独采集头部运动的数据,我们把这4个传感器叫做参考传感器。另外7个传感器用于采集发音动作数据,它们是有效传感器,分别置于说话人的上唇UL、下唇LL、左嘴角LCL、右嘴角RCL、下牙槽LI、以及舌尖TT、舌体TB和舌后TD位置处,如图1所示。

图1中的VEL表示软腭,图中用黑色实心圆点表示传感器的粘贴位置,共标出了9个传感器的位置,分别为:鼻梁N、右耳后ER、上唇UL、下唇LL、上牙槽UI、下牙槽LI、舌尖TT、舌体TB和舌后TD。图中未标出的3个传感器的粘贴位置分别为:左耳后EL、左嘴角传感器LCL和右嘴角传感器RCL,分别粘贴在与右耳后相对应的位置处和两嘴角的边缘位置处。

由于EMA采集的原始数据是各个传感器的电压幅值信息,需要经过专用的软件将电压幅值转变为三维空间坐标值。然而由此得到的3维位置数据是混合了说话人头部运动的混合发音轨迹,因此还要进行头部校准去除头部运动,只留下单纯的发音运动数据。经过这一系列的数据处理工作,可得到高精度的发音器官三维运动数据,即Z轴(垂直于水平面方向)和X轴、Y轴(水平面上相互垂直的两个方向)上发音器官的空间位置数据。

为了便于分析比较汉语声母和韵母的发音运动特征,对每个声母/韵母都从其一系列的数据帧中选出了能表征该声母/韵母发音动作特征的一帧或几帧(即关键帧)来代表此声/韵母。而与关键帧相对应的一帧是静态帧,静态帧是指不发音且无明显动作的一帧,本文将所有声/韵母的静态帧都选为同一个数据帧。因此,通过比较某声/韵母的关键帧,即可得知该声/韵母的发音特征。

如图2的上图描绘了韵母/a/发音时,上唇(UL)和下唇(LL)上的各帧在Z轴上的取值,单位是毫米。在图2的上图中,上面一条较平缓的曲线代表上唇在Z轴方向上的发音轨迹;而下面的一条曲线代表下唇在Z轴上的发音轨迹,下唇发音轨迹的波谷位置表示该位置处的位移最大,即该帧是开口最大的一帧,能表征韵母/a/的发音特征,因此将这一帧选为韵母/a/的关键帧(约为第90帧),图中用虚线标示。

但是,对于一些塞音或擦音,仅仅一个关键帧可能不足以代表此音素的发音特征,图2中的下图描绘了声母/b/的上下唇在Z轴上的发音轨迹,通过观察声母/b/的发音轨迹发现:声母/b/的下唇在Z轴上的发音轨迹既有波谷又有波峰,即声母/b/发音时,上下唇是先闭合后张开的,而这一发音特征也符合了语言学上/b/的发音特征,即/b/发音时,双唇闭合,软腭上升,堵塞鼻腔通路,声带不颤动,较弱的气流冲破双唇的阻碍,迸裂而出,爆发成声。例如“标兵”bīaobīng里的/b/[10]。因此,对于韵母/b/及与/b/的发音轨迹相类似的音素,需在波峰和波谷处分别选取多个关键帧来表征此音素的发音特征。图2中下图所示的两条虚线标出的两帧即声母/b/的两个关键帧(约为第25帧和第70帧),其中一个关键帧对应上下唇闭合最大的状态,而另一个关键帧则对应上下唇张开最大的状态。

1.4 改进的CM协同发音模型合成发音轨迹

由于协同发音对口形的影响,用声母和韵母的发音运动轨迹通过直接拼接的方法合成汉字发音运动轨迹的方法并不可取。目前可用于合成高质量视觉语音的两种合成技术分别为:①参数控制的合成技术;②肌肉骨骼模型[5]。因为肌肉骨骼模型需要建立复杂、灵活的肌肉组织和骨骼组织模型,所以本文选取参数控制的合成技术来合成发音轨迹。

CM协同发音模型是由加州大学的Massaro和Cohen于1993年提出的用于解决视觉语音合成中协同发音问题的合成模型,是合成高质量语音的有效技术。2012年,有研究在CM协同发音模型的基于上,合成了英语的发音动作轨迹[6]。本文使用文献[4]的方法基于声母和韵母的发音运动合成了汉字的发音轨迹,并对其进行了改进,使合成发音运动轨迹更逼近真实的发音运动轨迹。合成过程主要分为两个基本步骤:

1)控制函数Dp(τ)的生成

由式(1)和式(2)可得到控制函数Dp(τ):

其中τ=tpk-t,tpk是指声、韵母序列中第p个音素的关键帧时刻。αpD表示控制函数的幅度,由式(3)得到:

其中,表示音素序列中第p个音素的位移矢量,即由关键帧与静态帧的差值组成的矢量。

式(4)中,tps、tpk和tpe分别为第p个音素的起始帧、关键帧和结束帧时刻。ε是一个很小的常数,试验中取为0.22。式(4)中的θd、θg为常数,分别表示指数函数的上升和下降斜率,用向量=[θd,θg]T表示,其中符号T表示转置,由式(4)可推出θd和θg的计算公式,即:

式(5)中的符号“”表示右除,其中的矩阵A和向量分别由式(6)和式(7)决定:

至此已获得了控制函数Dp(τ)中所有变量的计算方法。

综上所述,可得到计算控制函数Dp(τ)的流程图,如图3所示。

2)加权平滑函数Hp(t)的生成

得到各声、韵母序列的控制函数后,需对其进行平滑处理获得汉字的合成发音轨迹。改进的加权平滑函数由式(8)获得:

式(9)是文献[4]中提出的平滑算法;而式(8)是本文提出的平滑算法;其中,αpH为加权系数,由式(10)获得:

经过以上步骤,便可由改进的CM协同发音模型合成单个汉字的发音轨迹。本文使用声/韵母的控制函数,利用式(8)平滑得到了汉字的合成发音轨迹,并与式(9)得到的合成发音轨迹相比较。如图4所示,图4的上图描绘了音节/bō/的三个音素序列/b1/、/b2/(声母部分/b/有两个关键帧)和韵母/ō/的下唇在Z轴上的控制函数Db1(τ)、Db2(τ)和Da(τ),其中实线和点划线分别是声母/b/的两个控制函数Dbl(τ)和Db2 (τ),而虚线Do(τ)则对应于韵母/ō/的控制函数。图4的下图描绘了音节/bō/的下唇在Z轴上的发音动作轨迹,其中实线R(t)代表音节/bō/的真实发音轨迹,而虚线Fp(t)表示按文献[4]中的合成方法得到的合成发音轨迹,点划线Hp(t)则代表由改进的合成方法得到的合成发音轨迹。由图4的下图可知:改进的合成发音轨迹Hp(t)与文献[4]中的合成发音轨迹Fp(t)相比,在波形和幅值上都更逼近真实的发音轨迹R(t),而且改进合成方法得到的合成发音轨迹也更为平滑。

接着,本文用改进的CM协同发音模型合成的发音轨迹驱动3D音视频说话人头模型。模型的控制参数选为关键帧与静态帧位置的差值,即位移矢量。

2音视频感知实验

人类在语音的感知识别和理解过程中,使用了视觉和听觉等多模式的信息,而集成了视觉模式的语音会对人类更好地感知语音[1]做出巨大的贡献。本文利用唇读和舌读信息这两种语音可视化技术研究了视觉输入信息在语音感知中的作用。

唇读是指人们通过口形的变化,“读出”语音之语义的过程,与之相对的舌读是指通过观察舌头的发音运动,“读出”语义的过程。唇读和舌读技术的区别在于唇读是基于通常可见发音器官(嘴唇)的,而舌读是基于通常不可见发音器官(舌头)的。有研究证明唇读和舌读的意义都是利用视觉信息补充听觉信息[11],以提高语音感知和识别的准确率,此外,在听觉信息得不到保证的情况下,唇读和舌读的视觉信息将发挥其独特的优势。总之,唇读和舌读不仅可以帮助听觉障碍者理解语音,也可以帮助正常人在噪音坏境下提高对语音的感知和识别率,尤其是在音频信息严重衰弱时,唇读和舌读信息可以大大提高语音的感知和识别率。

众所周知,唇读在语音感知和识别中有着重要的意义,它已在辅助语音识别、辅助手语识别、聋人辅助教育、口形合成等多个方面得到了广泛的应用。然而,与唇读相对应的舌读信息是否也具有识别力,也可在语音感知和识别中发挥独特的作用呢?目前,学者们正试图进行相关的研究,且有研究证明舌读同样携带着重要的语音信息[12],例如:有些音素或音节的唇读信息相同或相似而难以辨别,此时便可通过舌读信息加以区别,例如声母/d/和/g/的唇读信息相类似,但舌读信息却截然不同。所以,舌读也有着广泛的应用前景:可配合唇读信息,用于语音迟缓儿童的语音治疗、感知和康复训练,还可帮助外语学习者练习准确的发音,此外,也为人类研究发音机理做出了更进一步的贡献。

本文用改进的CM模型合成的数据驱动和模拟了动态可透明的三维音视频发音说话人头模型,成功呈现了汉语的发音动作。通过可透明的说话人头发音模型,人们可以直观地观察汉语的声母、韵母和汉字在发音时,舌头、唇等发音器官的发音运动轨迹。这一技术的实现不但可用于听障儿童的康复训练,还可用于帮助外语学习者练习汉语发音。本文将进一步使用这一技术定量地分析噪音环境下,舌读和唇读信息在语音感知和识别中的贡献。

2.1 实验环境

为了定量地分析视觉信息在人类感知和识别语音中的贡献,实验的语料选了听觉上易混淆的12对汉语声/韵对,如图4横坐标的标示所示。这些声/韵对均在唇形或舌头运动特征上有所区别,例如声母/d/和/g/,虽在唇形上相似,但在舌头运动上却不同,即/g/发音时,舌面后部抵住软腭,软腭后部上升,堵塞鼻腔通路,声带不颤动,较弱的气流冲破阻碍,爆发成声;而/d/发音时,舌尖抵住上齿跟,软腭上升,堵塞鼻腔通路,声带不颤动,较弱的气流冲破舌尖的阻碍,进裂而出,爆发成声[10]。

实验的听觉信息为叠加了5dB高斯白噪声的普通话自然女性(26岁)语音;视频信息为数据驱动的三维音视频说话人头的发音动作,包括侧面皮肤透明处理后清晰可见的舌头发音动作视频(即舌读信息)和正面唇部的发音动作视频(即唇读信息)。在音视频语音感知测试试验中,利用音视频编辑和处理软件将加噪的自然语音分别与唇读或舌读的视频信息进行了同步叠加处理,并将获得的音视频多媒体语音信息作为感知实验的输入。

实验是在普通的实验室环境下进行的,实验器材为一台17英寸的笔记本电脑和一副高质量的耳机。

2.2 音视频感知实验的设计

本文共设计了三组音视频感知实验。

第一组实验是在5dB高斯白噪声的环境下,基于纯听觉信息的听辨实验。实验中请了10名普通话水平良好的中国学生(5名男同学和5名女同学,年龄在24到28周岁之间,平均年龄约为26岁)相互独立地进行相似声母或韵母的听辨测试,并进行统计。实验过程为:首先,告知测试者待辨别的声/韵母对,然后请测试者戴上耳机,并随机先后播放待辨别声/韵母的音频信息,请测试者说出前后两个声/韵母的音频信息分别对应哪个声/韵母。实验结果如图5所示:条形图中的黑色条表示第一组听辨实验的实验结果。从图中可知,在5dB高斯白噪声的噪音环境下,单纯的音频信息的识别率普遍较低,平均识别率仅为60%。

第二组音视频感知实验的目的是定量地分析舌读在语音感知中的贡献。感知实验的输入是在叠加了5dB高斯白噪声的听觉信息的前提下,叠加了同步的舌读视觉信息。在这组实验中,测试者在辨别过程中的输入信号为加噪的听觉语音信息及与其同步的舌头发音动作的视觉信息。在与第一组实验同条件(即相同的实验室环境、相同的测试者以及相同的实验方法)的前提下,进行了第二组感知实验。实验过程如下:在告知测试者待辨别的声/韵母对的前提下,随机播放其中一个待辨别声/韵母的多媒体视频,随后播放另一个待辨别的声/韵母的多媒体视频,并请测试者辨别出前后两段声/韵母的视频分别对应哪个声/韵母。在第二组感知实验中,测试者在听到加噪语音的同时,可直观地观察到三维可透明说话人头发音时舌头的运动情况。实验结果如图5的条形图所示,图中的白色条代表第二组感知实验的辨别结果,从图中可以看出:叠加了舌读信息的平均语音感知识别率约为86.7%,较单一音频形式的平均语音感知识别率提高了26.7%。

第三组音视频感知实验的目的是定量地分析唇读信息在语音感知中的贡献。实验过程如下:在告知测试者待辨别的声/韵母对及与第二组实验具备相同实验条件的前提下,先随机播放其中一个待辨别的声/韵母的视频,包括叠加了5dB高斯白噪声的语音信息和同步的3D说话人头的视频信息;随后播放另一个待辨别的声/韵母的视频,并请测试者进行辨别。实验过程中,要求测试者在听加噪语音的同时仔细观察3D说话人头发音时嘴唇的发音动作。感知测试者对音视频语音的辨别反映了声音信息和唇读信息的共同作用。实验结果如图5中的条形图所示,图中的灰色条代表第三组感知实验的辨别结果。从图4可知:在噪声环境下,叠加了唇读信息的语音感知识别率约为85.8%,较单一的音频信息的平均识别率约提到了25.8%。通过对第二组和第三组感知实验的比较可知:叠加了舌读信息的语音感知识别率较叠加了唇读信息的平均感知识别率约提高了0.9%。因此,按语音感知识别率从高到低的顺序依次可排列为:叠加了舌读信息的加噪语音、叠加了唇读信息的加噪语音和单一的加噪语音。

综合分析三组感知实验的结果可知:在噪声环境及其它听觉信息质量下降的环境下,唇读信息和舌读信息可以大幅度提高语音感知的识别率,且叠加了舌读信息的平均语音感知识别率略高于叠加了唇读信息的平均感知识别率。这一实验结果表明:当唇读信息的识别力不足(例如:声母/d/和/g/、/e/和/l/的唇形动作差别并不明显,而舌头的发音动作却截然不同)时,舌读将发挥巨大的优势。另有研究利用非真实说话人的发音数据驱动的模型及不同的感知实验方法也获得了类似的实验结果[13]。此外,舌读能力的学习和掌握既简单又快捷[12],为听障者感知语音和外语学习者练习发音提供了的一条良好的途径[4]。感知实验证明:舌读与唇读一样,具有明显的识别能力。舌读作为一种新兴的语音视觉信息将在语音的感知、识别及人类语音的发音机理等多个方面发挥巨大的作用。

3 结语

本文从真实说话人音素级的三维发音动作出发,提出了一种改进的CM协同发音模型,并运用此模型合成了普通话中声母和韵母的三维发音动作,然后以此驱动和控制了一个虚拟可透明音视频说话人头,直观展现了说话人唇、舌等发音器官的发音动作。最后,以加噪语音和可透明的3D音视频说话人头为实验的输入,设计了三组语音感知实验,定量地比较了人类在语音感知和识别的过程中,唇读和舌读的不同贡献,并阐明了舌读信息的独特作用。实验结果表明:在噪音环境下,舌读信息与唇读信息一样具有辨识能力,叠加了舌读信息的语音感知和识别率会显著提高。这一研究成果在听觉信息得不到充分保障的情况下,将发挥巨大的作用。它不仅可用于听障儿童的康复训练、外语学习者练习更准确地汉语发音,而且还在人类发音机理的研究中做出一定的贡献。

语音合成系统的研究与应用篇6

语音合成系统被称为TTS系统, 即Text-To-Speech) , 又被称为文语转换系统, 直白来说就是一种把文字转换为语音的系统。因为语音合成技术是一种专注于人机语音交流的系统, 所以合成出清晰、自然、可懂又兼具表现力的语音就成为了语音合成技术当前最主要的目标。语音合成是一种跨越各种学科的技术, 它涉及声理学、信号学、语言语音学、心理学、教育学等各方面。只有将这些都研究透彻, 各种成果互相比对应用才能实现语音合成所追求的目标。虽然研究很困难, 但最近这些年来, 语音合成系统还是有了出乎意料的发展。该项技术目前广泛应用于通信, 人机交互等互联网领域, 有着很好的应用前景。合成出来的语音质量虽然还未达到目标, 但已经在清晰和可懂方面有了大幅度的提高, 尽管人们还是能分辨出合成语音与自然语音的差别, 但相信在不久的将来这个关键问题也会迎刃而解。

语音合成的研究已经跨越二百多年, 应用并涉及各个领域, 是如今世界各个国家都在研究的热门技术。用机械模拟是最早的语音合成研究, 后来随着社会的发展, 人们抛弃简单的机械模拟, 开始通过电子技术的发展使语音合成变为可能。20世纪30年代早期, Homer Dudley作为Bell实验室的一员发明出来声码器, 之后Homer Dudley与同在Bell实验室的Riezs和waktins共同研究出了早期的语音合成器, 近似共振峰的效果, 用与琴键类似的键盘产生各种语音。[1]1940年之后, 实验语言学展开了声学分析、言语产生与知觉研究三个发展方向。该时期是语音合成和言语学分析的繁盛时期, 解开了各种语音秘密。1950年以后, 计算机的出现开创了一个全新的时代, 开始了数字计算机合成语音的时代, 这种用软件模拟的方式大大降低了研究成本, 缩短了研究周期。

从20世纪60年代开始, 语音合成自觉分支成两条路线:声学模型与发音模型合成。声学模型是从信号处理的角度处理声学波, 发音模型是从发音机制的角度出发, 依靠发音参数建模。65年之后, 人们对两种语音合成产生了深厚的兴趣, 研究者们逐渐勾画出了语音合成系统的基础框架, 开始对许多基本问题进行研究。时间进入1970年以后, 大规模集成电路超速发展, 语音技术产生了跨越性的实质发展, 语音产品在此种背景下第一次被投进市场。

2计算机语音合成系统的研究应用

80年代以后, 人们对语音技术的开发与探究越加关切, 各个大学与研究所都开始致力于前沿科技的探究, 面对市场需求, 各国大公司也迈开了大力开发语音商品的脚步。相继出现了基因同步叠加技术等, 极大地提高了立足于时域的波形合成方法语音的自然度。接下来的20世纪90年代, 利用正弦波对声源和声道建模的正弦模型以及把语音信号分开成两个频带的谐波加噪声合成法渐渐流行起来。进入21世纪后, 计算机芯片运行速度加快, 除此之外, 计算机的容量存储也大大增加, 数据库的语音合成技术成为人们关注的新焦点。在此种技术中, 合成出的语音单元是从被预先录下的语音数据库里挑出来的, 所以, 只要我们能保证语音数据库的容量, 从理论上来说是绝对可以拼剪出任何想要的语句的。而且在所有语音都来自原始自然的发音前提下, 合成出的语音自然与清晰度都会越来越高。

在国外计算机语音合成技术繁荣发展的背景下, 国内汉语语音合成虽然研究起步稍晚, 但进入20世纪80、90年代就已经赶上国际研究的步伐, 与其站在了同一层面上。很多科技研究所包括中科院声学所、社科院语言研究所、清华、北大、中国科技大学等针对汉语语音合成系统做了大量可行性的研究, 并取得了长足的进展。同一时期, 台湾的交通大学, 台大等与Bell实验室携手共同展开了针对汉语语音合成系统的研究。近年来有很多科研成果已经可以转化为市场产品并被投入使用。最为人熟知的如清华大学研究出的Sonic系统, 中科大研发出来的KD863汉语TTS系统, 杭州三汇公司研究出来的中文语音合成转换系统等。到2003年捷通华声已经可以向全世界展示其面向奥运会的多种语言的语音合成系统, 是这些年来亮相最成功的多种语言合成系统。[2]这些系统基本都是利用时域波形拼接技术, 到目前为止, 有些系统已经能合成出接近人声的自然语音, 虽然还是能听出其中机器的感觉, 但我们已经可以看见计算机语音合成系统发展的广阔前景。

随着国内外计算机技术研究的飞速发展, 语音合成系统技术也有了很大程度的进步, TTS已经被应用到办公自动化、电话银行、信息咨询、戏剧与电影配音、医学等各个领域。以医学领域的应用来说, 通过语音合成系统可以合成语音帮助聋哑人说话, 也可以帮助声道受损患者提高语音可懂度。语音合成系统的广泛应用, 是促使计算机语音合成系统不断向前发展的动力, 但从当前发展可以看出语音合成系统的研究应该更进一步。首先, 提高计算机语音合成的自然与可懂度是现在和以后的核心目标。以汉语语音合成的例子来说, 虽然已经可以基本解决单字词组这种一级合成语音的自然与可懂度, 但一旦句子复杂, 篇章稍长时, 自然度与可懂度的问题就又变得棘手起来。其次, 合成语音的表现力是语音合成系统的第二大需要研究的问题。现在国内外对语音合成的研究大多数是针对TTS系统, 而且能能被解决的还只是以朗读方式将书面语言转换成口语输出的问题, 但在不同年龄段、男女性别区分、语速快慢、语气强弱以及个人感情色彩等方面的表现力还有所欠缺。随着人类社会的发展和对信息的需求, 人机交互问题也被赋予了更多的要求和期望。这些不仅要求语音

基于云计算的WLAN和GPRS融合方案研究

董天亮

(兰州交通大学电子与信息工程学院, 甘肃兰州730070)

摘要:主要研究在云端实现WLAN和GPRS相融合, 利用云计算高安全性、高可靠性、在线迁移、实时共享等各类技术, 将其应用在WLAN和GPRS融合业务之中, 实现WLAN和GPRS业务的实时无缝切换。同时也有效利用了云计算的各种优势, 提高了移动通信的各项性能。

关键词:云计算;WLAN;GPRS;融合

中图分类号:TN929.5文献标识码:A

文章编号:1673-1131 (2012) 05-0114-02

Abstract:The paper mainly research realize WLAN and GPRS fusion each other in clouds, using each kinds of technology such as high safety、high reliability、V-motion、real-time sharing etc of cloud computing, applying in WLAN and GPRS fusion business, realizing WLAN and GPRS business seamless switch on time.Meanwhile using many advantages of cloud computing

1概述

移动互联网在经历了高资费、浅应用的初期培育阶段后进入了高速发展的新时期, 互联网的日益繁荣为移动互联网带来了新的契机, 培育健康的移动互联网发展环境, 促进移动网与互联网的融合是当前通信行业的一项重要课题, 本文在分析移动互联网融合业务发展模式的基础之上, 提出移动互联网融合业务的创新及盈利模式, 并从产业链的角度提出移动网GPRS与互联网WLAN融合形势下的新模式, 以支撑两网融合业务的良性发展, 推进新的市场格局下移动互联网融合业务发展方面的研究。

2 云计算

云计算技术是IT产业界的一场技术革命, 已经成为了IT行业未来发展的方向。各国政府纷纷将云计算服务视为国家软件产业发展的新机遇。当前中国的云计算的发展正进入成长期, 预期在2015年之后, 中国云计算产业将真正进入成熟期, 云计算服务模式将被广大用户接受。

云计算的特点和优势主要表现在:

(1) 超大规模。“云计算管理系统”具有相当的规模, Google云计算已经拥有100多万台服务器。“云”能赋予用户前所未有的计算能力。

合成的自然和可懂, 更涉及到计算机语言合成感染度和人类大脑高级神经活动的模仿研究, 丰富合成语音的表现力也刻不容缓。再次, 语音合成系统的研究应该着手于降低语音合成技术领域的复杂度。正是因为语音合成正在走进市场, 面对社会需求的日渐增长, 为了能够扩大语音合成的应用范围, 除了以上两个问题外, 对语音合成系统的实用性和简便性方面也正在被提上研究日程。

3 结语

语音是人机交互的手段, 语音合成系统的应用前景广阔。虽然语音技术是计算机领域的研究热点, 但是综合各个方面来说计算机语音合成系统技术离需求市场所要求的成熟度和广泛性还有较大距离。尽管技术发展到现在, 合成语音可懂度、清晰度已经基本被解决, 但在自然度和表现力上还需更进

(2) 虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务, 甚至包括超级计算这样的任务。

(3) 高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性, 使用云计算比使用本地计算机可靠。

(4) 通用性。云计算不针对特定的应用, 在“云”的支撑下可以构造出千变万化的应用。

(5) 高可扩展性。“云”的规模可以动态伸缩, 满足应用和用户规模增长的需要。

(6) 按需服务。“云”是一个庞大的资源池, 可按需购买。

(7) 极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云。

3 WLAN和GPRS融合

GPRS现在已经被世界上许多国家的运营商大规模商业部署了, 但GPRS终端提供的数据速率最高172kb/s (典型值42kb/s) , 3G终端为2Mb/s (典型值144kb/s) 。WLAN相对GPRS、乃至3G而言, 提供的数据速率要高得多。因此, WLAN技术可以为任何蜂窝技术提供完美的带宽补充。但是, 相对蜂窝技术, WLAN的覆盖范围要小多, 所以基于节约投资等因素的考虑, WLAN只能部署在诸如机场、宾馆等热点

一步。所以, 语音合成系统在技术和应用方面还有待开拓, 还需要付出很多的努力。相信, 在不久的将来计算机语音技术将伴随我们每一个人共享信息时代。

参考文献

[1]张桂香.个性化语音合成的研究与实现[D].哈尔滨工程大学硕士学位论文.2007 (5) ;2-3

气象灾害预警信息的自动语音合成篇7

“96121”作为气象防灾减灾服务系统和气象预警应急体系的重要组成,在保障公共安全、防灾减灾等方面具有特殊作用。通过气象灾害预警信息的自动语音合成系统的开发,做到当遇有灾害性天气发生时,通过96121系统,在第一时间及时、准确、快捷地向公众发布气象灾害预警信息,以确保人民的生命财产安全。

1 模块构成及流程图

由于96121节目制作工作站中的语音库是相对固定的,而气象灾害预警信息的文字内容是动态变化的,它很难像常规的短期预报等信息那样,通过库中的语音合成来生成信箱的语音,因此,通过TTS(Text To Speech)技术将预警文件的文本内容转换为96121能识别的语音文件格式,再由96121系统自动读取该语音文件,从而达到生成信箱语音的目的。同时自动在顶级信箱中添加预警信息的提示音,引导用户的拨打。该系统为后台全自动运行,无需人工的干预。

1.1 自动查找最新的预警文件模块

由于气象台发布的气象灾害预警信息现以Word文档的形式存放,通过这个模块能查询到在搜索时间间隔T(T=2-5Min)内,最新生成的预警文件的Word文档。发布的预警文档可以分成两类:一类是新发布的气象灾害预警信息,一类是解除先前发布的气象灾害预警信息,对于解除的灾害预警信息,将在96121系统中发布30分钟后取消。

1.2 读出预警文档中的预警内容模块

灾害预警Word文档中是一个固定格式的表格,表格内容包括发布标题、发布对象、签发人,预警信息内容等。通过VBA程序来控制读取Word文档里第7行内的预警信息内容文本,然后生成txt文本输出到指定的路径下,以作为TTS转换文本来使用。部分程序代码如下:

1.3 预警文本转换为语音文件模块

这个模块利用TTS技术,将预警文本的内容自动转换为可以被96121系统识别的语音格式文档,这是整个程序中最为关键的一步,将在后续做详细介绍。

流程图如图1所示。

2 TTS开发接口

使用的是科大讯飞Inter Phonic语音合成系统的TTS SDK开发接口,在Windows平台中使用时,需要在运行目录下拷入开发包中的组件,包括头文件STTSApi.h、动态引入库STTSApi.Lib以及动态链接库i Fly TTS.dll和STTSApi.dll,然后在模块中进行STTS Api的声明如下:

3 在96121系统中的实现

通过前面的步骤,已经实现了一旦有新的预警Word文档生成,系统即自动生成8K8bit的预警语音文件,文件名为yujing.au,当解除预警信号30分钟后,则以空语音文件来代替yujing.au。而在96121系统中需要提前进行一些设置,即可实现预警信息发布后,用户拨打96121电话时,首先听到的就是最新的灾害预警信息。96121中的设置步骤为:通过信箱设置将某一信箱设为“灾害天气预警”信箱,并将该信箱与原先用户拨打96121首先听到的那个信箱相关联,之后把“灾害天气预警”信箱设置为用户首先能听到的信箱。最后在“用户扩展功能接口”中,将yujing.au文件指定为“灾害天气预警”信箱的声讯语音,这样当96121系统检测到yujing.au文件有变化时,就能够自动转换为“灾害天气预警”信箱的语音。

4 结语

灾害性天气预警是防灾减灾工作的重要组成部分,气象灾害预警信息的发布和传送应该做到环环相扣,才能将灾害天气带给公众的危害降低到最低程度。目前通过96121系统所做的灾害预警信息服务还只是被动式的,今后还可以朝着电话主动呼出服务的方向发展。

摘要：通过将气象灾害预警信息自动合成96121可播放的语音文件的方法(TTS),保证了预警语音在96121系统中第一时间的传播,提高了服务的及时性。

关键词：气象灾害预警,自动,语音合成

参考文献

[1]InterPhonic用户开发手册Programmer’s Guide.

[2]王仕星,谢国权,冯国标,等.浙江省公共气象服务业务平台建设框架设计[J].浙江气象,2009,30(增刊).

【语音合成技术】推荐阅读：

语音技术11-11

语音识别技术05-28

数字语音技术09-03

智能语音技术10-28