计算机语音技术

2024-06-24

计算机语音技术（精选10篇）

计算机语音技术篇1

1 计算机语音识别和合成技术的现状

人和人之间进行通信的最基本的方式就是通过语音的形式, 如果实现了计算机和人之间的语音交互这一重大问题, 那么产生的价值是不可估摸的。从20世纪六七十年代开始, 全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。

计算机已经取得了显著的科技成果, 同样的语音识别与合成技术也已经取得了丰硕的成果, 并且已经在多项领域当中已经进入应用阶段。此外, 在语音的识别方面, 目前市场上已有一些识别软件的出售, 如:中国科学院的识别系统, 可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下, 通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用, 在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM公司的Via Voice系统, 是一种可听写系统。在语音合成方面, 中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。

2 计算机语音识别与合成技术的方法研究

计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此, 为了能够对语音的重建不失真, 离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象, 进行采样的频率最小要能够达到6800Hz, 也就是说每秒要达到6800个样点。一般认为, 人的耳朵可听频率为5HZ~20KHZ, 那么从这点考虑, 语音合成最高用10KHZ来处理就能够取得较好的效果, 通常采用8KHZ采样频率, 此外, 如果是对语音量化的情况下, 那么A/D转换器只需要12位就足够了。但是, 如果语音信号需要进行量化的话, 所需要的位数达到12位即可。如果从实际考虑出发的话, 如果达到8位就能够听懂经过合成的语音了。以这样算来的话, 每秒进入计算机的信息量大约为8000×8=64kbps, 但是一个字长若为8位的话, 所占的存储量则为8K, 这样的话也不会有太大的使用价值。所以, 要对语音信息进行一定的压缩, 当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。

(1) 波形编码法

在计算机语音识别与合成技术当中最常用的波形编码法是ADM法和DM法。而ADM法当中的量化宽度是根据DM当中的值进行固定的, 所以如果出现超载噪声或者是粒状噪声, 那么在ADM法当中是不能够进行宽度值的变化的, 而且他还有能够按照趋势跟踪的自我适应能力功能, 这种方法有对噪声的自动抑制功能;DM法的主要特点是能够按照波形进行相应的编码, 作用是对下一个语音信号的值进行比较, 是高还是低。低则显示给定编码“0”;高则显示给定编码“1”。这样一来, 要进行语音信号的编码, 很明显要先对存储量进行节省, 但是其音质要略差一点。

(2) 录音编辑法

通过直接录制的方式把语音录制下来, 并且还要把这些录制下来的语音经过连接结合在一起, 编辑成文章, 在输入到计算机内的时候不经过任何压缩处理, 而是直接输出出来, 但是这种方法需要有大量的存储器。

(3) 规则合成法

这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法, 所用的单位是音素链以及音节, 可以和任意的会话和单词进行合成, 但缺点是语调比较差。

(4) 参数编码法

目前来说最常用的参数编码法主要的有LCLPC法、LPC法以及FORMANT法和PARCOR法等等, 其中, LPC法采用的是一线性预测编码的形式, 通常进行波形采样的帧为10ms-25ms, 一帧之内为一线性不变系统, 但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数, 在存储器当中的各个帧当中进行叙述, 然后在语音合成的时候才开始对这些参数进行综合。LPC法用的是3-7位的方式对所有的编码进行处理, 并且在各个数值之间进行自动插补和运算, 这种方式合成的语音的音质动听柔美。

对语音识别与合成技术的研究至今已有近50年的历史, 其应用领域的广泛按照应用范围大致分为以下几种:电脑语音报警器、电脑报站机、文本阅读系统以及语音留言机等等。

计算机语音技术篇2

关键词：小学；英语；计算机；语音室；建设；体会

中图分类号：TP3-4

多媒体计算机网络数字化语音室的优势毋庸置疑，对于提升英语教学有效性具有重要意义。但真正能建设配置多媒体计算机语音室的学校还是为数不多，主要原因还是资金投入不足，相信在教育信息化快速发展的未来，多媒体计算机网络数字化语音室将成為学校装备的一种标准配置。笔者做为一名学校的中层管理者，负责英语学科教学的管理，深感多媒体计算机语音室建设的迫切性和必要性，下面结合多次外出培训的学习体验以及装备条件良好的学校语音室建设现状，浅谈一下小学英语多媒体计算机语音室建设配置的几点体会。

1 多媒体计算机语音室是未来英语教育的一种硬件支撑

以前老版本的语言实验室都是基于模拟信号的系统，就像以前应用的卡式录音机，模拟手机等等，这种传统型语言实验室的系统稳定性较差，音质不理想，大多数为单声道，系统功能单一，教学交互性差，所有的传统型语言实验室在上课后只能闲置，没有任何利用的空间—前几年，本区域的几所学校还保存有老式语音室，但基本闲置淘汰。

而多媒体计算机语音室是建立在计算机网络协议的数据交换的基础上，在现有计算机网络操作环境的基础上，经过硬件的A/D语音数据转换或通过计算机多媒体教室功能软件等进行语音数据和影像资料的传送，实现良好的计算机音乐MP3的良好音质，满足英语教学多样化教学需要。未来的英语教育一定是有数字化计算机语音室的硬件支撑的，这是一种技术发展的趋势，也是教育现代化发展的必然目标，期待这种功能丰富、资源全面、操作简单、互动性强的全新多媒体计算机语音室带给英语教学的无限支撑服务，圆满辅助英语教学，全面提高学生英语听说素养。

2 达到多媒体计算机语音室基本建设与配置，满足教学需要就是最好的语音室

其实，多媒体计算机数字语音室（见图1）就是一个多功能计算机教室，换个角度就是在原有计算机网络教室升级建设成多媒体计算机数字语音室，首先这个计算机功能室是一个计算机网络教室，可在这里进行信息技术教学和网络教研等，在此基础上安装升级多媒体电子语音管理系统或多媒体电子教室系统，就可以转换为功能强大的多媒体计算机数字语音室。

图1

2.1 基础必备计算机数学语音室配置标准。多媒体计算机语音室就是在多媒体计算机功能基本上加上多媒体语文学习系统及配套的硬件：教师主计算机、多媒体语言教学平台、语言通信交换主机、信交换分机、主录音卡座、系统管理软件、语言学习终端、专用键盘、耳机、学生桌、系统电源、主控台、显示器、教师椅、其他语音室设备、功放、音箱等。具体配置情况针对多媒体计算机数字语音室建设的不同需求标准，不能同一而论。

2.2 安装配置好多媒体计算机语言学习系统软件。一般在多媒体计算机教室教师师和学生都安装有多媒体语言学习系统（见图2），教师主控计算机平台使教师和学生之间的交流一目了然。利用数字通讯及计算机联网技术，采用单线时分编码方式连接众多的学生机，简化结构，提高可靠性。并配有双向自动应答方式，实现师生对话。具有可靠的遥控、遥测方式，该方式对每一学生机遥控，能进行故障监测。

图2

3 多媒体计算机数字式语音室功能强大，可实现一对一、一对多或多对多的互动语言交流

（1）具备传统语音室的基本教学功能，如计算机教室的广播教学、2、3、4人小组讨论、示范教学、分班教学、电子举手、监听辅导、跟读与复读等。（2）多媒体计算机平台教学功能：可连接卡座、DVD、录像机、显示器、投影机、视频展示台等多媒体外设，由计算机集中控制播放声音与视频文件，关键是在教师计算机播放的视频资料时声音与图像必须同步，延迟不能超过100ms。（3）学生自主学习功能：大容量听力教材，供学生在空余时间自主选择收听，并可转录到自带的录音机中便于以后学习。（4）变速不变调功能：在保证语音不变调的条件下，语音播放速度+30%可调整，学生终端可自主调速。（5）网络管理功能：将计算机局域网中可实现包括自主学习计费计时功能、考试成绩统计功能、建立学生档案功能、学生认证功能、故障检测功能等。（6）丰富的资源库：可通过多媒体外设把新的教学资料添加到资源库中，可通过对校园网和互联网连接实现资源共享。以上功能可能过于理想化，最基本的功能就是多媒体计算机广播教学，可实现一对一、一对多或多对多的互动语言交流，可对语音和视频资料进行灵活控制，这是最初步的计算机数字语音室的功能需求。

4 加强多媒体计算机数字语音室的管理和维护工作

多媒体计算机数字语音室一次性投入大，使用周期长，所以一定要加强多媒体计算机数字语音室的管理和维护工作，建立健全管理制度和维护机制，像多媒体计算机机房一样专人负责管理，做好日常检查和维护工作，尤其是学生耳麦，这是计算机易损件，特别是接头或连接线位置造成接触不良。做为一项学校的重大资金投入，只有严格做好管理、维护、维护、保养工作，才能确保多媒体计算机数字语音室的应用率和开出率，真正为英语教学服务。

综上所述，多媒体计算机数字语音室是学校英语教师和学生的一种迫切需求，它带给英语教学的质量提升效果显著，因此，加强多媒体计算机数字语音室的建设和配置工作，才是未来英语教学的硬件技术发展的终极目标，让我们期待这一美好英语教学时代的到来。

参考文献：

[1]魏艳.多媒体语音室布局新探[J].才智，2012（19）.

[2]夏玉宏.多媒体语音室的科学管理[J].教学与管理.2005（27）.

作者简介：侯贺（1975.10-），女，吉林人，中级教师，研究方向：小学英语与信息技术整合，教材版本：PEP版本。

计算机语音识别技术的应用分析篇3

1 语音技术的发展历史

早在二十世纪五十年代, 语音识别技术的研究已经初步展开, 但是当时的研究人员的工作的重点主要在于声学和语音学上。早在1952年, 相关的研究人员已经在实验室通过原音之间的共振峰之间的差异成功的实现了可以识别十个英文数字单音发音的语音识别系统。在1956年, RCA Lab又在此基础上进行了进一步的研究, 实现对单一发音的不同的音节的识别, 随后又在1959年, 英国国立大学的有关项目的研究人员开始寻求除了共振峰以外的另一种语音识别方式, 即采用谱分析和模板匹配方法来设计一种能够识别不同音素的识别装置, 试验中可以完成对四个原音以及九个辅音的识别, 至此语音识别系统进入了一个崭新的发展阶段, 开始进入到音素识别器的研发阶段。随后在1962年, 由东京大学的相关研究人员进一步的进行了音素识别元件以及设备的研发, 并取得了一定的进展。在1963年, 日本NEC实验室在先前的研究成果的基础上, 实现了数字进行语音识别的尝试计划, 并且由此开始了长期的规划和研究。以上的三个研究项目的开启具有划时代的意义, 对于现代语音识别技术的发展有着非常重要的影响。不仅实现了对语音研究在时间刻度上的不均匀问题的解决, 还实现了语音时间的始末点的可靠检测。

2 语音识别技术的发展现状

在全球的相关学者和研究人员的共同努力下, 语音识别技术取得了很大的发展, 半个世纪后的今天, 语音识别系统已经逐渐的由研发投入到实际的应用中。目前在试验中, 最号的语音识别情况下, 连续朗读的语音信号的识别率可以达到百分之九十以上。在此基础上, 语音识别技术和语音识别系统也逐渐的由实验转为实际应用, 病开始商品化, 并成功的研制出了IBM Via Voice和Dragon Dictation两大听写设备, 语音识别技术由此开始大众化。由于在语音识别的过程中, 校对和纠正错误信息会有效的降低语音识别的速度和质量, 所以为了更好的发挥语音识别的应用优势, 并使得其能够克服由于环境和不同的口音导致的语音识别错误, 有关的研究人员应该致力于克服此类问题, 才能使其更好的应用在实际的生产生活中。

就目前来看, 现有的语音识别系统在对待特殊的识别词汇时可以起到很好的效果, 尤其是电话自动转接、电话查询以及数字串识别, 在接收到此类任务后, 系统不仅能够自动的存储所接收的信息, 还能够在实际数据同实验室数据较为符合的情况下, 实现百分之百的识别率。但是该种情况的限制条件比较多, 需要进一步的予以巩固和加强。

3 语音识别技术发展趋势

虽然语音识别系统和相关的技术已经取得了较大的发展和进步, 但是仍然不够完善, 需要不断的进行加强, 笔者认为语音识别技术的发展可以从以下几个方面入手: (1) 提高可靠性。所谓可靠性的提高, 就是指在语音识别的过程中, 加强对各种干扰因素的排除, 尤其是在声学环境不利的情况下, 要保证语音识别的准确性和稳定性。比如说在比较吵闹的公共环境中, 人会根据自己的需要来主观的排除不利的影响因素, 但是语音识别系统作为一种机械化的系统, 却很难做到。此外, 由于人的语言具有较大的随意性和不稳定行, 导致在日常的交流过程中会出现很多明显的语言习惯。所以, 要克服以上问题, 必须要实现语音系统的更加智能化的发展, 才能保证语音识别过程中的可靠性。 (2) 增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限, 当用户所讲的词汇超出系统已知的范围时, 则语音识别系统不能准确的识别出相应的内容, 比如, 当突然从中文转为英文、法文、俄文时, 计算机就会常常输出混乱奇怪的结果。但是, 随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展, 未来的语音识别系统可能会做到词汇量无限制和多种语言混合, 这样用户在使用的时候可以不必在语种之间来回切换, 这样就能大大减少词汇量对语音识别系统的限制。 (3) 应用拓展。所谓应用拓展, 就是指对语音识别技术的应用范围和内容的丰富。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事, 比如, 当人们出现手忙、手不能及以及分身无术的场景时, 通过语音识别系统的模型构造, 则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面, 语音识别技术可能带动一系列崭新或更便捷功能的设备出现, 更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活, 更重要的会带来生产方式的革命, 是下一代智能化控制的基础。 (4) 降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径, 其推广程这取决于语音识别技术本身进步的程度, 同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上, 可以大幅度降低产品成本和体积, 产品必然受到消费者的青睐, 语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。在信息系统早期, 相当部分数据的处理都是通过人工手工录入, 这样, 不仅数据量十分庞大, 劳动强度大, 而且数据误码率较高, 也失去了实时的意义。为了解决这些问题, 人们就研究和发展了各种各样的自动识别技术。

结束语:综上所述, 二十一世纪人们进入了信息网络时代, 各种先进通讯技术的应用使得全球范围内的语音通信更加的便捷和灵活。目前来看, 自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现, 大大的方便了人们的生产生活方式, 但是这些技术的实现是建立在语音识别的基础上的, 因此有关科研单位应该加强和重视对语音识别技术的完善和创新。文中笔者对计算机语音识别技术的应用现状和前景进行了分析, 希望以此为推动语音识别技术的发展做出贡献, 诸多不足, 还望批评指正。

摘要：随着信息技术的发展和应用, 计算机语音识别技术也取得了较大的发展成就。本文对计算机语音识别技术的应用问题进行分析, 从语音识别技术的发展历史、语音识别技术的发展现状、语音识别技术发展趋势等几个方面, 对该问题进行论述, 诸多不足, 还望批评指正。

关键词：语音识别技术,发展,趋势

参考文献

[1]范长青, 华宇宁.语音识别中改进viterbi算法的研究实现[J].科技资讯, 2007 (32) .

[2]滕云, 贺春林, 岳淼.基于神经网络的语音识别研究[J].重庆师范大学学报 (自然科学版) , 2010 (4) .

外语口语训练中语音识别技术研究篇4

【关键词】外语口语训练语音识别技术关键技术研究

一、引言

随着我国外语教学的不断发展，各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点，当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学，并且因为外语口语学习者的学习水平不一，在学习过程中很难将自己的不正确发音找出来。于是，在外语口语学习中就可以应用语言识别技术，该系统具备外语口语发音的纠正功能，学习者通过该系统进行外语口语的学习与练习，就能纠正自己错误的发音，避免因为多次错误发音而形成不良习惯。因此，对外语口语训练中语音识别技术进行研究，能够提高外语口语学习者的学习效率。

二、外语口语学习中语音识别技术应用的重要意义

随着中国改革开放程度的深化以及全球经济一体化的飞速发展，世界各国的交往越来越频繁，学习并掌握一门外语，对于人们的工作与生活而言，已经成为必不可少的工具。在学习外语的需求不断增长的情况下，出现了各种外语教学方法、教学工具以及语言学校等，然而国人在外语学习过程中，外语的口语教学与学习一直是较难突破的难题，其主要原因有以下几个方面：

（一）各种外语发音的特点与汉语发音的特点存在较大差异，因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。

（二）目前在国内合格的外语口语教师还是很少，自己发音标准又能够准确地指导别人进行口语学习的外语教师，即便是在一些大中城市的中小学中也相当缺乏。同时，一般的媒体教学也不能够针对学生的特定情况，有效地让学生与教师互动进行口语训练，只能够单方面地进行传授，所以起到的作用也不是很有效。

外语口语训练中语音识别技术的应用，让软件具备了矫正错误发音的功能，能够为学习者及时改正错误的发音提供帮助，从而有效避免错误反复而变成一种恶性习惯，并使外语学习者口语学习的效率与效果得到一定程度的提高，获得更大的市场价值与社会效益。

三、外语口语训练中语音识别的关键技术

（一）语音识别

在语音识别技术中，语音识别是第一步也是最重要的一步，接下来几个步骤的精确度都会受其影响，它能够在语法与音素模型的基础上，将输入的语音信号翻译成单词串。同时，许多基于计算机的语言训练活动都可以应用这一部分，比如基于语音的选择题或者是与计算机的对话训练等等。

（二）语音评分

在基于语音识别技术的外语口语学习系统中，语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况，可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下，按照语音评分技术，目前的外语口语学习系统主要可以分为两种：一种是基于语音特征比较的评分方法，它通过将学习者的发音与标准语音进行对比参考，从一个较为主观的角度对一段语音质量进行评价，通常采用动态时间规整技术实现，因为其具备运算量小的特点，因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法，它能够通过语音识别技术将以计算发音质量所需的小单元切割出来，然后再通过事先训练好的声学模型与其进行对比，最后根据评分机制对其评分，因为该方式较为客观，目前主流的外语口语学习系统中均采用这种技术，其主要是基于隐马尔可夫模型（HMM）技术实现。

如图1，基于HMM的语音评分流程图所示，其语音评分的关键技术分为以下几步：

图1 基于HMM的语音评分流程图

1.首先，对学习者所输入的语音进行特征提取;

2.其次，将已经训练好的HMM作为模板，再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割，并强制对齐;

3.最后，采用不同的评分机制对不同的需要进行评分，将评分结果得出。同时，在某些情况下，要注意将说话验证在语音评分开始时加入，从而将学习者发音内容与标准发音完全不同的部分挡下，保证整个口语学习系统的可信度更高。此外，由于同样的声音可能代表的意义不同，因而在这些更加复杂的应用中，需要将各种词发生概率的大小、上下文的关系进行综合考虑，并将语言模型加入，从而为声学模型的判断提供更好的辅助。

（三）发音错误检测与错误纠正

对于外语学习者而言，虽然知道系统能够评价其发音质量，但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到，对这个错误也不知道如何进行纠正。因而，外语口语学习者需要通过系统对发音的错误进行检测与定位，并将相应的错误纠正建议提供给学习者进行有效纠正。

1.发音错误的检测与定位

在外语口语训练中，导致错误发音的因素有很多。例如学习者不会发某种声音，或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法，比如用母语训练的语音识别器，但是因为在没有使用自适应技术的情况下，学习者发音的识别错误也有可能会当成是发音错误，因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以，目前对错误发音的检测比较合理的一种做法是：首先以发音专家的知识为依据，严格将容易出错的发音进行合理的分类，然后以不同的错误类型为依据，将其相应的检测算法设计出来，最后用各种错误检测算法对学习者的发音分别进行检测。

2.发音错误的纠正

系统将发音错误检测出来后，同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中，对于这些发音专家知识的构建而言，是通过事先收集大量的经验数据而积累而成的，例如不同学习者的发音特点等，然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来，再由专家客观地评判分类的发音，最后将各聚类的改进建议提出来。

（四）回馈展示

在基于语音识别技术的外语口语学习系统中，这一部分是整个系统对用户的窗口，上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块，外语学习者才能够从基于语音识别技术的外语口语学习系统中获益，所以，整个系统的可用度都通过这一模块设计的好坏来决定。

四、结语

总而言之，随着社会经济与科学技术的快速发展，各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中，为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统，有效地提高了外语学习者的学习效率与学习效果，相信在未来，也能够为外语学习者们提供更快、更好的电子学习手段。

【参考文献】

[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术，2014（04）：836-837，843.

[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛：青岛大学，2012.

[3]涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海：上海交通大学，2011.

[4]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报，2012（05）：65-66.

语音电路在火控计算机中的应用篇5

在现代大多控制系统中, 通常使用发光二极管LED、数码管、液晶显示器、蜂鸣器等进行状态/结果显示和故障报警, 如果在显示报警仪表上采用数字语言技术, 使适合用听觉传送的信息用语言传送, 就可以发挥听觉的优势, 弥补完全用视觉信号传递信息的不足。近年来随着语音电路的迅速发展, 语音芯片已经以其直观、生动、与单片机接口方便等优势, 越来越广泛的应用于单片机控制系统中了, 成为现代控制系统中人机联系的一个友好界面。

1语音电路分析

语言处理合成芯片很多, 大多采用:语言信号- 驻极话筒-电压-滤波放大-AD转换数字信号存储。放音时采用:数字信号-DA转换、输出, 这在实际使用时存在着以下不足:

(1) 要使语音不失真地被采样, 要求采样频率fs≥8 000 Hz。在小系统中, 以这样的速度采样语音只能是很短的时间, 若要稍长一段时间, 势必占用很大的存贮空间。

(2) 系统构成成本高, 由于需要ADC, DAC, 专用语音芯片及相关电路。

(3) 存在不同程度的失真 (信号采样和恢复) 。

(4) 使用不灵活, 只能录什么, 放什么, 难以实现字、词、句的组合。

ISD1420语音芯片是美国ISD公司出品的新型优质单片录放音电路, 采用了直接模拟量存储技术DAST。主要由振荡器、语音存储单元、前置放大器、自动增益控制电路、抗干扰滤波器、输出放大器组成。一个最小的录放系统仅由一个麦克风、一个喇叭、两个按钮、一个电源、少数电阻电容组成。录音内容存入永久存储单元, 提供零功率信息存储, 这个独一无二的方法是借助于美国ISD公司的专利——多电平直接模拟存储技术 (DAST TM) 实现的。利用它, 语音和音频信号被直接存储, 以其原本的模拟形式进入EEPROM 存储器及分段输出, 因而失真小, 能够非常真实、自然地再现语音效果, 避免了一般固体录音电路因量化和压缩造成的量化噪声和“金属声”。使用方便, 不需专用语音开发工具, 成本低廉。直接模拟存储允许使用一种单片固体电路方法完成其原本语音的再现。不仅语音质量优胜, 而且断电语音保护。因而在现代技术上得到广泛使用。主要特点如下:

(1) 使用方便的单片录放系统, 外部元件最少

(2) 重现优质原声, 没有常见的背景噪音

(3) 信息可保存100年, 可反复录放10万次

(4) 较强的分段选址能力可处理多达160段信息

(5) 边沿/电平触发放音

(6) 无耗电信息存储, 省掉备用电池

(7) 具有自动节电模式

(8) 录或放后立即进入维持状态, 仅需0.5 μA电流

(9) 工作电压:5 V

(10) 工作电流:典型值15 mA, 最大值30 mA (16欧姆)

2系统构成

本语音电路作为火控计算机的一部分, 主要是对目标距离进行实时报读, 供指挥人员提供观察和决策, 以选择最佳时机发出击发命令。语音电路组成框图如图1所示。由火控计算机主机发出RS232电平信号, 经电平转换后, 为单片机AT89C52所接收。单片机AT89C52一方面控制高亮度数码管显示状态信息, 同时控制语音芯片ISD1420实时报读目标距离, 为指挥人员提供提示。

3语音信号控制

3.1语音电路特性

选用语音存储/再生芯片ISD1420。该电路采用EEPROM存储方法将模拟语音数据直接写入半导体存储单元中, 具有音质自然、可反复录放、抗干扰、低功耗等许多优点。ISD1420放音时间为20秒;最多可分为160段, 每段段长最少125 ms;输入采样6.4 kHz;100 000次录音周期;5 V单电源供电, 放音电流15 mA, 维持电流0.5 μA。完全满足设计需要。

ISD1420芯片地址引脚 (A0～A7) 输入有双重功能, 根据地址中的A6, A7的电平状态决定A0～A7的功能。如果A6, A7有一个是低电平, A0～A7输入全解释为地址位, 作为起始地址用。地址位仅作为输入端, 在操作过程中不能输出内部地址信息。根据 PLAYL、PLAYE或REC的下降沿信号, 地址输入被锁定。如果A6, A7同为高电平时, 它们即为模式位 (见表1) 。

使用操作模式有两点要注意:

(1) 所有初始操作都是从0地址开始, 0地址是1420存储空间的起始端, 以后的操作可根据模式的不同, 而从不同的地址开始工作。当电路中录放音转换或进入省电状态时, 地址计数器复位为0。

(2) 当PLAYL、PLAYE或REC变为低电平, 同时A6, A7为高电平时, 执行对应操作模式。这种操作模式一直执行到下一个低电平控制输入信号出现为止, 这一刻现行的地址/模式信号被取样并执行。操作模式可以与微控制器一起使用, 也可用硬件连线得到所需系统操作。

通过以上介绍可知, 160段对应着160个地址, 由A0～A7组合产生。要实现分段播放先要进行录音, 录音可以采用高级的声音处理软件一次把声音灌进语音模块里头也可以采用分段录音的方法进行分段录制。在使用ISD1400系列的语音芯片时, 应注意在REC和VCC之间接一个0.1 mF的电容, 以防止在上电时出现录音操作而破坏原来录制的信息。

根据火控计算机系统报读的需要, 放音内容为军用数字发音:“幺、两、三、四、五、六、拐、八、勾, 洞”。我们利用A0～A7引脚的地址功能, 通过声音处理软件结合ISD1420开发录放板, 一次把声音灌进语音模块ISD1420中。这样每一个数字发音都对应一个内部存储空间。可以通过调整语音芯片的地址 (P2口控制) 来选择合适的数据播放。

由于在户外使用, 要求发出的声音具有一定的响度, 即要求语音电路有较大功率输出。语音芯片ISD1420内部输出级带有放大器, 其直接的扬声器驱动功率为12.2 mW (16 Ω负载) , 这距离我们的实际需要相差很大, 通常1 W以下的扬声器可用LM386、D2283 D2822、MC34119、TA7368等芯片驱动 , 1 W～10 W的扬声器用TDA2003、LA4440芯片驱动, 因此后级功放必须保证能在低电压下输出大功率信号, 以推动扬声器发声, 在这里我们选用了LA4440芯片驱动。

3.2语音电路构成

语音部分电路设计见图2所示, 在该电路中设计了以单片机89C52为核心的语音报读电路, 89C52的P2口用来实现地址选择, 放音时先由软件给出一个地址, 就是一个语音段首址, 在这一放音过程中地址是不能变化的;LA4440为音频功放电路, 将ISD1420 的音频输出放大推动喇叭, 通过调整电阻R1的阻值可控制音量大小;语音芯片ISD1420周围的RC电路主要为了减小噪声的影响;MAX813L则作为看门狗电路为单片机AT89C52提供上电复位和运行监控。

MAX232将火控计算机主机送过来的RS232电平信号转换成TTL电平并送到单片机AT89C52, 单片机AT89C52对火控计算机主机的状态信息实时显示并进行报读, 通过引脚P3.6控制ISD1420的放音, P2口用来调整放音地址。通过按地址分时播放就可以实现分段播放了, 而分段播放的最大优点是可以只要一些基本的声音就可以合成一段话。这样可以节省语音模块的空间, 提高产品的灵活性, 降低生产成本。分段播放可以用在一些发音的基本元素不多, 但组合发音变化比较多的地方。

4软件设计

AT89C52的软件设计相对简单。主要包括与火控计算机主机的串行通讯程序 (11.0592 MHz晶振、4800波特率、八位异步方式) , 放音控制程序, 显示控制程序及看门狗程序。

放音控制程序根据火控计算机系统的要求及实际情况, 只对火控计算主机传送来信息的目标距离量进行实时报读。目标距离是实施射击和掌握开火时机的重要依据。它的报读原则是:“远距离报读间隔大一些, 近距离报读间隔小一些, 开火报到点上”。报读时, 根据目标快速运动的特点, 可以省略报读字节, 提高反应速度和报读的清晰度。电平控制放音中开始地址和播放时间也是必不可少的, 只要控制了这两个参数就可以确定播出内容。

5结束语

按上述方法设计出的语音电路报读电路在某火控系统中得到实际应用, 实践证明运行可靠、准确, 具有一定的使用价值。

参考文献

[1]张友德, 赵志英.单片微型机原理、应用与实验[M].上海:复旦大学出版社, 1992.

计算机语音技术篇6

计算机辅助语言教学相对于传统语言教学的优势已毋庸置疑, 而计算机辅助语音教学更能突现其优越性。这不仅因为它能为学习者提供一个相对自由、宽松的环境, 使学习者得到充分的语言输入并对学习步骤和进度进行自我调节, 更在于它能突破传统课堂语音教学的限制, 充分利用计算机多媒体的优势, 从视觉、听觉等多角度为学习者提供全方位的信息反馈。

计算机辅助语音教学成功的关键在于软件系统的开发和应用。近年来, 随着语音技术的不断进步, 市场上出现了多种语音教学软件, 然而这些软件的效果并不令人满意。这些花哨的东西起初也能让人眼前一亮, 但他们终究不能完全符合语音教学的需要 (Ambra et al.2008) 。这些软件并没有充分发挥计算机辅助语音教学的优势, 他们并非应语音教学需要而生, 只是技术进步的产物, 这种现象的根本原因在于教学和学习理论指导不足。

反馈是语言习得和教学中的关键因素, 近年来, 越来越多的研究者开始关注反馈研究 (Nagata 1993;Nicholas et al 2001;张雪梅、戴炜栋2001;孙燕青2005;李俊芬2008) , 但国内外关于反馈的研究还有不少空白, 关于计算机辅助语音教学中的信息反馈研究更少。本文将介绍一些相关的研究成果, 试图探索计算机辅助语音教学中的有效信息反馈应该遵循的指导标准, 旨在抛砖引玉, 引起更多业内人士的关注和重视。

二、反馈的概念、类型及作用

在教学环境中, 反馈通常指为了改进、提高学生的学习而对其某一学习任务完成情况发回的信息。就反馈的来源来说, 反馈可以由教师提供, 也可以是由与学习者进行交流的人提供, 或者是由学习者自己提供 (例如, 当学习者在反思自己的言语行为时给予自己的反馈, 带有元语言认知的成分) ;就反馈的目的或针对的语言问题来说, 反馈可能是为了达成语言交互双方的互相理解而提出的, 可能是为了纠正学习者的语音、语法等方面的错误而提出的;就反馈信息的性质来说, 反馈可以是正向的, 例如“对, 很好”等评语, 也可以是负向的, 例如“这个单词发音不对”;就提供方式来说, 反馈可以是外显的 (explicit) , 即直接给出对或错的评价或指出问题所在, 也可以是内隐的 (implicit) , 即以暗示性的、间接的方法对学习者的言语行为做出评价 (孙燕青2005) 。在计算机辅助语言教学领域, 反馈更可以看做是学习者在完成某一学习任务过程中得到的计算机的帮助和提示 (Trude H.&Anne R.2008) 。本文中的“反馈”指的是学习者在语音输出后所得到的计算机的回应信息。

至于反馈在语言学习中的作用, Carroll (1993) 首次作了清楚的阐述。他把语言输入分成两类:一类输入 (TYPE1) 和二类输入 (TYPE2) 。一类输入指学习者从周围环境中获得的正确的目的语言输入;二类输入则指包括外显和内隐反馈在内的否定输入。他认为二类输入在某种程度上补充了一类输入在解释“刺激贫乏” (poverty o stimulus) 理论中的不足。“刺激贫乏”是母语习得和二语习得研究中人们都无法回避的一个基本问题, 即语言刺激本身, 就学习者在交际中所听到的语言分析与理解的形式和意义, 都不足以构成复杂、微妙的语言学习的充分基础 (Chomsky 2008) 。人们无法解释他们如何知道、知道什么, 换言之, 如何“认知” (cognize) 语言 (Chomsky 2008:95) , 因为这些刺激不能直接反映出他们最终知道什么。认知主义理论将语言学习看做假设—检验的过程, 二类输入有利于学习者发现其语言假设中知识是如何关联的, 帮助学习者反思自己的语言行为, 检验自己原先的假设, 修正语言输出。所以二类输入在一定程度上解释了“刺激贫乏”的问题。在语言学习中, 反馈在认识上有助于学习者测试或调整其有关的语言学习假设, 因此在某种意义上, 反馈亦是可理解输入的一部分。如把反馈结合到语言学习中, 其具体作用如图1所示:

三、语音教学中的信息反馈

有研究 (Krashen 1981) 表明, 语音习得需要经历一个自然发展的过程, 元语言意识在语音习得过程中发挥重要作用, 而语音信息反馈则阻碍元语言意识的发展, 因此对语音习得是不利的。但更多研究 (Schmidt 2008;Flege 1995) 表明, 反馈在语音习得过程中的作用不容忽视, 尤其在成人语音习得方面。成人外/二语语音习得受母语影响大, 他们自身很难区分自己的发音和目的语语音的差别, 只有在反馈信息的帮助下他们才能发现错误进而改正错误。

传统的语音教学通常采用听录音并跟读、模仿 (listen and imitate) 的方法, 比如使用广泛流行的语言复读机。练习过程中学生得不到任何反馈引导, 因此我们很难确定机器播放出的语音与学生跟读两者之间的相关性。有些学生觉得自己的发音很接近于磁带标准的发音, 实际上相差很远。甚至可能出现这种情况:学生花费了大量时间做跟读练习, 结果不但发音不准反而养成了一些难以纠正的坏习惯, 比如刻意追求外语发音的字正腔圆, 而忽略了口语的流利、连贯和内容的深度和广度。因而有效的、准确的、实时性的信息反馈在语音教学中尤为重要。在课堂教学中, 即使有教师指导, 也很难做到针对每一个学生的语音语调提出实时的、准确的指导, 使学生立即明白问题所在。计算机辅助语音教学恰能充分利用计算机多媒体的优势, 从视觉、听觉等多角度为学习者提供全方位的信息反馈, 弥补传统语音教学的不足。

四、反馈在计算机辅助语音教学中的应用现状

计算机辅助语音教学相对于传统课堂语音教学的优势已显而易见, 但由于现今软件系统设计缺乏学习和教学理论的有效指导, 其应用效果并不令人满意。大部分语音教学软件系统 (例如国际上很流行的英语语音教学软件Talk to Me和Tell me More系列) 都是通过对学习者的发音进行声学分析1, 然后利用波形图或声谱图将分析结果反馈给学习者, 并辅之以预先录入的“标准”发音 (可能由教师或本族语者提供) 的图像供学习者对比分析。然而这种反馈方式的有效性值得商榷。

首先, 语音的波形声谱图具有很强的专业性, 一般学习者很难读懂他们, 即使经过专门训练的学生也很难从那些抽象的图片中提取他们提高语音所需的信息。第二, 这种对比分析向学习者暗示他们发音的波形图或声谱图最终要和标准发音完全一致, 事实上这是没必要的, 因为即使同一个人两次发同一个音, 其声谱分析的结果也不尽相同。第三, 现有的语音教学软件系统在实际应用操作中都有一定的复杂度, 而且从语音输入到语音分析再到反馈信息, 学生往往要通过多步操作, 花费很长时间才能看到最终反馈信息, 实时性差, 不利于教学。

Kommissarchik公司曾经在2000年开发了一套语音教学软件系统Better Accen Tutor2, 用于英语的语调、重音和节奏教学。这个软件摒弃了抽象难懂的波形图和声谱图而代之以相对比较容易解释的曲线图。使用该系统的学习者先听本族语者的录音, 然后进行模仿。模仿结束后立刻就能得到系统的可视化反馈:系统将两种发音用曲线图呈现出来, 供学习者对照, 其曲线的长短和高低不同分别代表语调的长短和高低。这个软件系统的曲线图相对容易理解, 但它只能对学习者进行超音段音位 (super segmental phonemes) 发音的训练, 不能解决音段音位的发音 (segmental phonemes) 问题。

还有的软件 (例如Fresh Talk) 利用语音识别技术3, 将学习者的发音和标准发音进行对比之后, 对学习者的发音进行评估, 系统自动生成评估结果反馈给学习者, 方式可以是系统给学习者打分或显示不同表情的脸形图片等。这种自动评估的方式很容易理解也容易被学习者接受, 但它存在两个问题:第一, 如何确定合适的评估标准?此处的“合适”指的是机器的语音接受标准应该符合人的语音接收标准, 因为学习者经过机器语音训练的最终目的是和人进行交流。第二, 这种反馈太笼统, 不能为学习者提供更正信息。它只能告诉学习者发音是好还是差, 不能指出问题所在, 因而学习者很难去纠正错误的发音。

五、计算机辅助语音教学中有效的语音反馈探讨

成功有效的语音教学软件系统的设计开发既要有技术的支持, 更要有学习和教学理论的指导, 否则它只能是花哨的技术产品, 不符合教学的根本要求。鉴于当前计算机辅助语音教学软件系统存在的问题, 结合第二语言习得和教学领域关于反馈的研究成果, 笔者认为反馈信息的设计应注意以下几点:

首先, 反馈信息具有可理解性。二类输入的有用性主要取决于学习者本人及其推断力, 而不是反馈信息提供者及其目的。只有学习者能够理解反馈信息, 反馈才有意义。因此, 针对不同阶段的学习者应提供不同类型的可理解性反馈信息。

第二, 反馈要为学习者提供评价性信息, 使学习者意识到自己的言语行为是否可以被接受。认知主义理论将语言学习过程看做假设—检验的过程, 反馈要帮助学习者反思自己的语言行为, 检验自己原先的假设, 修正语言输出。

第三, 反馈要针对学习者语音输出中的错误提供更正性信息。它不仅要使学习者知道自己的语音有问题, 还要引导学习者发现其问题所在, 并引导他们更正错误。

第四, 外显和内隐的反馈相结合。外显的反馈会影响学习者的内部情感反馈。根据Krashen (1982) 等的情感过滤假说, 有了大量合适的输入并不等于就能掌握目的语。情感因素中的焦虑、自信、动机直接影响着输入的信息能否到达语言习得机制。因此反馈应能激发学生的学习兴趣, 降低或消除不同的情感障碍 (李俊芬2008) 。

第五, 音段和超音段语音训练相结合。自上个世纪80年代末开始, 语音研究和教学领域出现了一个新的趋势, 即从传统的着重对音段的研究和训练转向对超音段的研究和训练。新观点认为:语调、重音和节奏的错误给交际造成的障碍比元音发音不准造成的障碍更为严重。

六、结语

计算机语音技术篇7

语音教学对语言学习起着重要作用，发音错误就导致读不好、听不准，从而直接影响到词汇的记忆、积累以及听说能力。目前英语语音教学一般采用教师朗读，学生跟读；教师演示发音口形，学生模仿；教师播放录音，学生跟读等常规教学方式。这些方式单调、枯燥、抽象，受授课地点、时间的限制，调动不起学生的学习积极性。

为了解决英语语音学习中所出现的问题，提高语音教学质量，笔者设计了一个基于语音合成技术的可视英语语音教学辅助系统。系统可把学习者任意输入的单词、短语、句子用高质量的合成语音播放出来，同时将对应口形以动画形式生动形象地同步表现出来，学习者可参照系统模仿跟读，改进发音。

2. 英语语音教学系统软件设计与实现

除了听到的声音外，人说话时口形的变化有助于学习者对语言的理解，是人获取信息的重要渠道，学习者可根据口形变化模仿、对比、调整发音，语音中称之为视位。音位和视位是语音的两个基本特性，因此本系统在合成语音同时显示出口形变化，来改善传统语音软件只能听声的弊端。

2.1 设计思路

系统主要通过Microsoft Speech SDK提供的关于语音处理的应用程序编程接口SAPI进行可视语音合成开发。通过调用相关接口，系统允许学习者自己设定男女发音音调、音量和朗读速度，可以根据通知消息实时获得当前音素或视位信息并转换为口形动态显示出来。

2.2 总体设计

基于语音合成技术的可视语音教学系统的主体部分实现过程如下:

(l) 初始化引擎，注册回调函数，载入所有口形图片；

(2) 用户设定语速语调，输人文本；

(3) 调用SAPI函数朗读；

(4) 接收音素通知消息，根据音素值，变换为口形并同步显示。

2.3 详细设计

国际标准MPEG-4对视位的定义为与某一音位相对应的嘴唇、舌头、下愕等可视发音器官所处的物理状态，在此我们将其简化为口形。通过对英语发音口形的大量研究，将英语的音素发音按照口形进行分类。有些音素单从口形上看基本相同，比如[p][b[m]，虽然三个音素气流、舌位变化不同，但其口形都是先闭合后张开。最终确定了常用单音素和22个基本静态口形的映射规则，如图1所示，系统初始化时须将此22个口形载入。

系统初始化完成后，学习者根据实际学习情况调整语速、语调、音量、语气，自行输入单词或句子，系统根据设定值调用以下函数朗读文本：

SpVoice1->Speak (WideString (UserText) , SVSFDefault) ;

朗读开始，声音将被合成并播放，遇到音素或视位变化时，系统会接收到SAPI发送的反馈消息，此时可根据当前音素或视位信息显示对应口形图像，关键代码如下：

为了得到自然的语音口形动画，可以通过图像变形方法在两个口形之间插入若干补间帧来平滑过度。

3. 结束语

利用此种可视语音合成技术进行英语语音教学, 可以提高学习效率，因人施教。但要想达到好的教学效果，语音库的选择很重要。微软、IBM、Nextup.com等多家公司都在研发自己的语音库，对比发现，好的语音引擎发音标准，相应嘴形配合到位，学习者可以更好的掌握发音。

摘要：语音合成技术是人机智能交互的关键技术, 本文描述了一种利用语音合成技术产生实时语音及其口形变化的英语语音辅助教学软件。该软件系统可以使语音教学更加生动形象, 增强学习交互性, 灵活性, 提高学生参与学习的主动性和积极性, 使学生更加容易和牢固地掌握语音知识。

关键词：英语语音教学,语音合成,可视语音

参考文献

[1]MPEG-4, 国际标准ISO/IEC14496[S].

[2]Microsoft.Speech API[EB/OL]http://www.microsoft.com/speech/developers.aspx, 2010

[3]胡壮麟.语言学教程 (修订版) [M].北京:北京大学出版社, 2001

[4]张鸽.创新性英语音素教学模式--多媒体人机互动式自主学习模式的理论与设计[J].外语电化教学, 2008.

语音识别技术探析篇8

1. 语音识别技术的发展情况

1.1 国外发展状况

国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。

1.2 国内发展状况

我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:

一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。

二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。

三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。

2. 语音识别系统的分类

2.1 从说话者与识别系统的关系考虑

一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。

2.2 从说话者的方式考虑

一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。

2.3 从识别词汇量大小考虑

一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。

3. 语音识别的基本方法

3.1 基于语音学和声学的方法

在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。

3.2 模板匹配的方法

模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。

3.3 神经网络的方法

这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。

4. 语音识别系统的结构

随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:

4.1 特征提取

特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。

4.2 模式匹配

将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。

5. 语音识别所面临的问题

5.1 语音识别需要进一步突破模型匹配方面的技术

语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。

5.2 语音识别技术也要进一步改进以提高其自适应性

目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。

5.3 语音识别技术还需进一步增强其强健性以适应各种环境

目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。

5.4 多种语言以及专业词汇识别方面还需要改进

目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。

由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。

摘要：随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。

关键词：语音识别技术,探析

参考文献

[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.

[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.

计算机语音技术篇9

【关键词】语料库资源机器学习语音与书写识别

一、语言学习的不同视角

随着信息技术的发展，对电脑从各种方式处理语言的需求也在持续发展，这就导致在学术上IT的子域有了一系列不同的名字：“自然语言处理”，或“计算机语言学”，英国研究资助机构 “言语和语言技术”（SALT）。所有SALT系统都需要某种形式的语言模式，把这种模式融入计算机系统的一种方式就是运用机器学习算法，把语料库作为训练数据。大部分的术语是与人类语言学习相平行的，但是在潜在的语言学习过程中，也有很大的不同。更重要的是，人类作为学习者，把英语作为第二语言或外语开始学习，是从了解某种其他的自然言语开始的，学习任务是从在新的和已知的语言的映射开始的，但对于任何两个被认为是理所当然的自然语言可以有一个很大的重叠。在机器学习中，电脑从编程开始。一个像computer一样的单词只是一个ASCII（基于拉丁字母的一套电脑编码系统）字符或字符串序列，除非学习或联系与这个词有关的更复杂的语言模式。

二、语音识别作为“嘈杂”英语的消歧

消除歧义是语音和语言技术的核心问题，对于大型词汇语音识别器，不局限于一个小领域，为输入声信号找到正确的ASCII音标的任务可以被视为一个消歧问题。同样的观点也适用于手写识别、光学字符识别系统，甚至语法校正文字处理软件也可以以这种方式建模：在每种情况下，输入必须认为是嘈杂的，与一些潜在的分析，在每个点之间做出选择。

在一个识别系统（演讲，手写或打印文本输入）里，嘈杂英语代表通常是一个序列候选词，称为单词识别格，Atwell（1993）给出了如下的叙述（与现实的系统比较简化得多）。听到这句话“斯蒂芬去年离开学校，”一个英语语音识别系统可能产生下列格子的候选词：

Lest last least Yearnyour year

在语音识别方面，替代候选单词每一点在发音上都是相似的，在脚本识别中，候选都是在轮廓上相似的，对英文文本的单词处理的错误性检测的任务也可以在单词识别格完成，如果每个单词输入时，系统人为的使其模棱两可，Atwell（1987）建议：这可以通过对每个输入单词生成军团来完成，然后选择最符合上下文的军团成员。如果最好的选择不是实际上输入的这个词，这将成为一个建议的错误的更换项。

语言模型的任务是找到单词的最好的序列，这样的话选择的单词的序列是在语言上最合理的，大多数语言模型对点阵消歧只提供可用的语言知识模仿覆盖。这是因为系统必须搜索所有可能的候选词的组合，分析识别晶格包括横贯一个更大的搜索空间与在分析已知的句子相比。正因为如此，在合理的时间消除歧义识别晶格，复杂的语言分析系统可能过于缓慢而笨拙。例如，Atwell（1994）发现一个概率的上下文无关的图解析器，还需要长时间的计算发现大量的模糊分析，甚至于对简单的单词识别晶格，相似的Keenan（1992）报道了不实际的长时间的计算，当试图使用阿尔维自然语言工具包（ANLT）图表解析器（Phillips，1987）对手写文字识别格消歧时。这可以说是一个需要语言模型达到一个务实的平衡，在保持计算实用的同时，吸收一系列的语言知识。

三、电脑从语料库资源可以学到哪些方面的语言

一般从语料库资源习得和提取的模型都是以词汇为导向的，并非为了语言理论的原因，而是因为机器学习数据驱动的，而在自底向上的学习中，训练文本中的词是基线，广泛的词汇信息以及它们如何结合，可以从语料库中收集到资源，这是尤其如此，如果语料库资源不仅限于原始文本样本，而是丰富的文本资源。标注语料的范围也不断扩大，包括局部演讲标记了单词的文本，与句子注释与句法短语结构树图资料库，口语语料库与字形和语音合成与数字化声学信号，平行语料库与英语句子与他们在另一种语言的翻译，错误语料，有拼写或语法错误标记英语考试，并与优先修正带注释的，点阵全集，言语和手写系统的输出，其中每个单词注释着一组队列或候选词列，甚至平行注释全集，单词和句子注释着几种类型的语言分析。对于机器学习的目的，它可能在对待机器可读版本的印刷词典时是有效的，作为一种特殊的标注语料库，词有复杂的注释包括语法类和定义文本，假设这广泛的训练数据，更广泛的语言信息是通过机器可学的，包括以下：

·英文单词列表，连同频率或可能性；

·单词级别或类别：句法、语义或复合；

·反复出现单词的组合，习语和搭配模式；

·单词组（词语对，词语组）频率或可能性；

·单词级别-词性标记组（标记-对，标记-组）频率或可能性；

·高级句法组成结构，组成可能；

·字典词义（词汇语义）所说的搭配可能性

总之，基于语料库的方法迫使实际问题的意识在可重用的一个SALT系统工作中很重要，在手工制作一个语言模型中，语言学家可以忽略标点符号和韵律标记，大写，新词或词汇外的生词，分割成单词和句子等问题。

参考文献：

[1]Holder，W.（1967），Elements of English Speech.Scolar Press，Menston.

[2]Sheridan，T.（1968），Course of lectures on elocution.Scolar Press，Menston.

作者简介：王静（生于1990年1月），女，西安电子科技大学，硕士学位，外国语言学及应用语言学，硕士研究生。

语音增强技术及算法综述篇10

关键词：语音增强,谱减法,卡尔曼滤波

1 引言

语音增强技术1指当语音信号被各种各样的噪声 (包括语音) 干扰, 甚至淹没后, 从噪声背景中提取出尽可能纯净的语音信号, 增强有用的语音信号, 抑制、降低噪声干扰的技术。

由于干扰的随机性, 因而从带噪语音提取完全纯净语音几乎不可能。在这种情况下, 语音增强的目的主要有两个:一是改进语音质量, 消除背景噪声, 使听者乐于接受, 不感觉疲劳, 这是一种主观度量;二是提高语音的可懂度, 这是一种客观度量。这两个目的往往不能兼得。

当前, 语音增强己发展成为语音信号数字处理的一个重要分支。它的主要应用范围是降低听觉噪声, 识别系统的预处理和线性预测编码的预处理。语音增强是一门跨学科的技术, 不但与语音信号数字处理理论有关, 而且涉及到人的听觉感知和语音学。再者, 噪声来源众多, 随应用场合而异, 它们的特性也各不相同。即使在实验室仿真条件下, 也难以找到一种通用的语音增强算法适应于各种噪声环境。必须针对不同噪声, 采取不同的语音增强对策。

2 语音增强算法

根据语音和噪声的特点, 出现了很多种语音增强算法[2]。比较常用的有噪声对消法[3]、谱相减法、维纳滤波法、卡尔曼滤波法、FIR自适应滤波法等。此外, 随着科学技术的发展, 又出现了一些新的增强技术, 如基于神经网络的语音增强、基于HMM的语音增强、基于听觉感知的语音增强、基于多分辨率分析的语音增强、基于语音产生模型的线性滤波法、基于小波变换的语音增强方法[4]、梳状滤波法、自相关法、基于语音模型的语音增强方法等。

2.1 谱减法

谱减法5是一种从带噪信号谱中减去估计噪声平均谱, 从而恢复信号的幅度谱或功率谱的方法。这是一种在频域上处理的方法。假设噪声是平稳的或变化缓慢, 要从短时幅度谱恢复时域信号, 需要综合带噪信号的相位信息, 通过傅立叶逆变换从频域变换到时域。带噪信号的相位无须修改, 这是因为人耳对语音的相位不敏感, 并且估计信号的相位是非常困难的。

假设yw (n) 为离散带噪语音信号, sw (n) 和dw (n) 分别为纯净语音信号和加性噪声信号, 二者相互独立, 由于语音是非稳态信号, 就要对信号加窗分帧, 则加窗后的信号表示为:

其傅立叶变换分别以表示, 于是得到信号的功率谱关系表达式为:

其中和分别是和各自的复共轭。函数表示语音的短时功率谱。

基于短时谱幅度估计的语音增强技术的目的就是设法得到的估计, 并由此得到的估计, 即增强后的语音。因无法精确得到, 所以分别以三者各自的系统平均能量来估计。假设d (n) 零均值并和s (n) 不相关, 则均为0。这样可由下式获得:

在频域用上式 (3) 得到纯净语音的谱估计, 就可以根据式 (4) 得到增强后的语音。

将指数概括, 式 (4) 可以改写成式 (5) 的形式:

考虑到噪声的平稳性, 可以取几帧噪声谱的连续平均值来计算

谱相减法的优点:总体上运算量较小, 容易实时实现, 增强效果也较好, 是目前最常用的一种方法。它的缺点:谱相减法利用在无声期间统计得到的噪声方差来代替当前帧的噪声频谱时, 若该帧某频点上的噪声分量较大, 则相减后会有较大的噪声残留, 频谱上有相应的随机尖峰出现。增强后的语音会夹杂着有节奏的音乐残留噪声。因此在实际应用时, 更多地使用谱相减的改进形式, 其估计式为:改进形式增加了参数α和β。引入系β数可以对噪声估计值进行调整, 在语音能量较高的区域, 令β>1, 这样可以降低语音能量, 更好地突出语音频谱。

2.2 卡尔曼滤波法

卡尔曼滤波法7通过引入卡尔曼信息, 并将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题, 适合于非平稳条件下的最小均方误差意义下的最优估计。

对于带噪的观测数据y (k) =s (k) +n (k) , 其中纯净语音信号s (k) 和环境背景噪声n (k) 分别可用AR模型表示为:

其中i=1, …p和i=1…q是模型的未知参数, w (k) 和v (k) 分别是未知方差为和的零均值白噪声过程, p和q是模型的阶次, 这里假定它们已知, 上述模型还可以写为状态空间表达形式:其中

由此可以构造增广状态空间表达形式其中

对于增广系统式, 当系统参数已知时, 由卡尔曼滤波理论可得系统的状态估计

其中, 式 (2) 是卡尔曼增益矩阵, 式 (3) 是预测误差协方差矩阵, 式 (4) 是估计误差协方差矩阵。

的方差矩阵定义为因此, 经卡尔曼滤波后的语音增强信号为

由于纯净语音和噪声的AR模型参数未知, 因此在进行尔曼滤波之前首先要做参数估计。参数估计的精度直接影语音的增强效果。

卡尔曼滤波法是基于语音生成模型的, 用线性预测 (LPC) 分析参数实现波形最小均方误差意义下的最佳估计。在非平稳条件下也可以保证最小均方误差意义下的最优, 故适合于非平稳噪声干扰下的语音增强。它的优点是不需要假定噪声的平稳性, 对非平稳噪声也能运用。缺点是:需要叠代估计模型参数, 在噪声强时误差大;语音生成模型中假定激励是白噪声源, 这仅对清音成立而对浊音是不成立的;计算量较大;优化标准是时域的波形误差最小, 对语音信号而言此标准不够合理。

2.3 基于听学掩蔽效应的语音增强[8]

目前, 在语音增强中用得比较成功的是听觉掩蔽效应, 它指出语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号, 而使得这部分噪声不为人所感知到。因此从掩蔽效应的角度看, 语音增强应该通过改变带噪语音的短时谱幅度 (STSA) 使所有噪声成分都能被语音信号掩盖掉。

一个较弱的声音 (被掩蔽音) 的听觉感受被另一个较强的声音 (掩蔽音) 影响的现象称为人耳的“掩蔽效应”[9]。被掩蔽音单独存在时的听阈分贝值, 或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明3k Hz-5k Hz绝对闻阈值最小, 即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著, 即在这个范围内语言可储度最高。在掩蔽情况下, 提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈 (或称掩蔽门限) , 被掩蔽弱音必须提高的分贝值称为掩蔽量 (或称阈移) 。

2.3.1 纯音对纯音、噪音对纯音的掩蔽效应

(1) 纯音间的掩蔽

1) 对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。

2) 低频的纯音可以有效地掩蔽高频的纯音, 而反过来则作用很小。

(2) 纯音和噪音间的掩蔽

噪音对纯音的掩蔽噪音是由多种纯音组成, 具有无限宽的频谱。若掩蔽声为宽带噪声, 被掩蔽声为纯音, 则它产生的掩蔽门限在低频段一般高于噪声功率谱密度17d B, 且较平坦;超过5OOHz时大约每10倍频程增大10d B。若掩蔽声为窄带噪声, 被掩蔽声为纯音, 则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。

2.3.2 掩蔽类型

(1) 频域掩蔽

所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应, 又称同时掩蔽。这时, 掩蔽声在掩蔽效应发生期间一直起作用, 是一种较强的掩蔽效应。通常, 频域中的一个强音会掩蔽与之同时发声的附近的弱音, 弱音离强音越近, 一般越容易被掩蔽;反之, 离强音较远的弱音不容易被掩蔽。例如, 一个1000Hz的音比另一个900Hz的音高18d B, 则900Hz的音将被1000Hz的音掩蔽。而若1000Hz的音比离它较远的另一个1800Hz的音高18d B, 则这两个音将同时被人耳听到。一般来说, 低频的音容易掩蔽高频的音;在距离强音较远处, 绝对闻阈比该强音所引起的掩蔽阈值高。

(2) 时域掩蔽

所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时, 又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应, 则称为导前掩蔽:否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间, 异时掩蔽也随着时间的推移很快会衰减, 是一种弱掩蔽效应。

利用了耳听觉掩蔽进行语音增强, 其优点是:在进行语音增强时, 不需要把噪声完全抑制掉, 只要使残留的噪声信号不被人感知即可, 所以这样在消噪的同时可以减少不必要的语音失真。其缺点是:噪声掩蔽门限的计算是在纯净语音基础上得到的, 在实际中一般只能用带噪语音来估计掩蔽门限, 这样估计的结果误差很大。

3 结语

综上所述, 以上各种方法各有优缺点, 分别适用于不同情况。参数方法对语音的模型参数依赖性强, 但在低信噪比条件下不容易得到正确的模型参数;非参数方法由于频谱相减会产生一咱具有一定节奏的残余噪声。统计方法需要大量数据进行训练以得到统计信息;小波变换以及离散余弦变换的阈值获取困难, 运算量大。因此实际使用中常常根据具体的环境噪声和语音特性将不同方法结合起来应用, 通过方法互补取得更好的语音增强效果。

参考文献

[1]刘淑华.低信噪比下的语音增强技术研究[J].硕士学位论文.广西:广西大学, 2006:9-11.

[2]刘淑华, 胡强, 覃团发, 万海滨.语音增强算法的研究[J].第十届全国青年通信学术会议, 2005, (7) :282-287.

[3]Jeong J, Moir T J.A real-time kepstrum approach to speech en-hancement and noise cancellation.Neurocomputing, 2008, 71 (13-15) :2635-2649.

[4]谭东星.基于小波变换的语音增强方法研究及实时实现[J].硕士学位论文.湖南:湖南大学, 2004:14-17.

[5]索忠伟.语音增强技术研究及其DSP实现[J].硕士学位论文.西安:西南交通大学, 2006:14-15.

[6]Plourde E, Champagne B.Auditory-Based Spectral Amplitude Estimators for Speech Enhancement.Audio Speech and Lan-guage Processing, IEEE Transactions on2008, 16 (8) :1614-1623.

[7]Xu Guohui, Xu Hui.A study of variance estimation of kalman filtering method.Wuhan University (Engineering Science) , 2004, 37 (4) .

[8]SUNDARRIAJAN R.LOIZOU P C.A noise-estimation algorith-m for highly non-stationary environments.Speech Communi-cation.2006, (48) :220-231.

【计算机语音技术】推荐阅读：