语音识别技术(精选12篇)
语音识别技术 篇1
语音识别技术是让计算机识别一些语音信号, 并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛, 包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场, 渗透到家电、通信、医疗、消费电子产品等各个领域, 让人们的生活更加方便。
1. 语音识别技术的发展情况
1.1 国外发展状况
国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。
1.2 国内发展状况
我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:
一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。
二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。
三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。
2. 语音识别系统的分类
2.1 从说话者与识别系统的关系考虑
一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。
2.2 从说话者的方式考虑
一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。
2.3 从识别词汇量大小考虑
一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。
3. 语音识别的基本方法
3.1 基于语音学和声学的方法
在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。
3.2 模板匹配的方法
模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。
3.3 神经网络的方法
这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。
4. 语音识别系统的结构
随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:
4.1 特征提取
特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。
4.2 模式匹配
将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。
5. 语音识别所面临的问题
5.1 语音识别需要进一步突破模型匹配方面的技术
语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。
5.2 语音识别技术也要进一步改进以提高其自适应性
目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。
5.3 语音识别技术还需进一步增强其强健性以适应各种环境
目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。
5.4 多种语言以及专业词汇识别方面还需要改进
目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。
由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。
摘要:随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。
关键词:语音识别技术,探析
参考文献
[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.
[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.
[3]焦高超, 张原野等.语音识别技术的发展与研究[J].网络财富2010年15期.
语音识别技术 篇2
1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,
在 Windows 控制面板中,双击语音图标。
2、单击语音识别选项卡。
3、在语言下,选择语音识别引擎。
注释
如果您要切换语音识别引擎:
若要使用听写,您必须切换键盘布局以便与语音引擎的语言相匹配。
语音识别技术 篇3
不过一旦我们离开了办公室,许多人不假思索地向智能手机发出语音命令,无论这意味着语音拨号手机、向谷歌报出搜索词语,还是询问Siri今日天气如何。
市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。
主要进展就是,语音工具现在离用户更近了——出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。
当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。
米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展——不过可能永远不会尽善尽美。”
可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。
工作站前的语音
对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。
米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。
至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。
伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。
那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。
不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。
此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”
值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。
J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。
她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”
马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。
米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。
nlc202309031729
当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。
办公室周围的语音
Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。
他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。
互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。
马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”
米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?
马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。
马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”
链接:语音应用软件如何知道你说的是什么?
Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。
要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。
据语音技术咨询公司NewSpeech的总裁比尔?肖尔茨(Bill Scholz)博士声称,方言和重口音的主要问题是,语音程序并不分析声音模型以寻找语音方面的变化。他表示,典型的语音合成器可能有几百万个声音样本,但这还是不足以应对各种方言、不常用的俚语或含糊的话。不过,随着系统不断积累更多的语音数据,模型会日趋改善。
肖尔茨补充说,语音算法也需要改进,以排除干扰,比如你在说话时的咳嗽声。他表示,语音技术公司应对识别的一个办法就是,更准确地识别某人何时开始说话、何时说完。
沈建苗编译
语音识别技术研究进展 篇4
语音是由人的发音器官发出来的代表一定意义的声音, 是语言存在的物质外壳[1]。语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在高度信息化的今天, 语音处理的一系列技术及其应用已经成为信息社会不可或缺的重要组成部分[2]。
语音的产生是一个复杂的过程, 包括心理和生理等方面的一系列动作。当人需要通过语音表达某种信息时, 首先是这种信息以某种抽象的形式表现在说话人的大脑里, 然后转换为一组神经信号, 这些神经信号作用于发声器官, 从而产生携带信息的语音信号。
2 语音识别 (Speech Recognition) 概述
语音识别是试图使机器能“听懂”人类语音的技术[3]。语音识别的作用是将语音转换成等价的书面信息, 也就是让计算机听懂人说话。作为一门交叉学科, 语音识别又是以语音为研究对象, 是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域, 甚至还涉及到人的体态语言 (如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信[4]。)
3 语音识别的研究历史及现状
3.1 国外研究历史及现状
语音识别的研究工作可以追溯到20世纪50年代[5]。1952年AT&T贝尔实验室的Audry系统, 是第一个可以识别十个英文数字的语音识别系统。
20世纪60年代末、70年代初出现了语音识别方面的几种基本思想, 其中的重要成果是提出了信号线性预测编码 (LPC) 技术和动态时间规整 (DTW) 技术, 有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。
20世纪80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络 (ANN) 在语音识别中的成功应用。
90年代, 在计算机技术、电信应用等领域飞速发展的带动下, 迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力, 新用户不需要对全部词汇进行训练, 便可在使用中不断提高识别率。
3.2 国内研究历史及现状
我国在语音识别研究上也投入了很大的精力, 国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项, 我国语音识别技术的研究水平已经基本上与国外同步。
4 语音识别系统的分类
从不同的角度和要求出发, 语音识别有不同的分类方法。
按照说话人的限定范围, 可以分为: (1) 特定人识别系统:仅考虑对于专人的话音进行识别; (2) 非特定人语音系统:识别的语音与人无关, 通常要用大量不同人的语音数据库对识别系统进行学习。
按照词汇表大小分, 可以分为: (1) 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2) 中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3) 大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。一般而言, 随着词汇表中词汇量的增多, 各词汇之间的混淆性增加, 系统的识别率也会降低[5]。
按照发音方式分, 可以分为: (1) 孤立词识别:孤立词识别是指在发待识别语音时, 每次只含词汇表中的一个词条。孤立词识别是语音中最简单也是最成熟的识别技术。 (2) 连接词识别:连接词识别每次说词汇表中的若干个词条进行识别, 该若干词条以慢速连读的方式连续说出。 (3) 连续语音识别系统:连续语音识别指说话人以日常自然的方式讲述并进行识别。连续语音输入是自然流利的连续语音输入, 大量连音和变音会出现。
5 语音识别的几种基本方法
当今语音识别技术的主流算法, 主要有传统的基于动态时间规整 (Dynamic Time Warping, 简称为DTW) 算法、基于非参数模型的矢量量化 (Vector Quantization, 简称为VQ) 方法、基于参数模型的隐马尔可夫模型 (Hidden Markov Models, 简称为HMM) 的方法和基于人工神经网络 (Artificial Neural Network, 简称为ANN) 等语音识别方法[6]。
5.1 动态时间规整 (DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤, 它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落 (如音素、音节、词素) 的始点和终点的位置, 从语音信号中排除无声段。在早期, 进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60年代日本学者Itakura提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短, 直到与参考模式的长度一致。在这一过程中, 未知单词的时间轴要不均匀地扭曲或弯折, 以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时, 在小词汇量、孤立字 (词) 识别系统中, 也已有许多改进的DTW算法提出。
5.2 隐马尔可夫模型 (HMM)
隐马尔可夫模型是20世纪70年代引入语音识别理论的, 它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型, 将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列, 是由大脑根据语法知识和言语需要 (不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程, 很好地描述了语音信号的整体非平稳性和局部平稳性, 是较为理想的一种语音模型。
5.3 矢量量化 (VQ)
矢量量化是一种重要的信号压缩方法。与HMM相比, 矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧, 或有k个参数的每一参数帧, 构成 k 维空间中的一个矢量, 然后对矢量进行量化。量化时, 将 k 维无限空间划分为 M 个区域边界, 然后将输入矢量与这些边界进行比较, 并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可能的平均信噪比。
5.4 人工神经网络 (ANN)
人工神经网络的出发点是通过模拟大脑的机制, 将包括听觉系统的生物神经系统的信息处理机制引入机器学习的研究中, 使其具有学习和理解的能力。系统的所有计算都是由神经元单元完成的, 而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的, 具有传统的数字计算机系统即线性网络没有的优点[7]。
5.5 支持向量机 (SVM)
支持向量机 (Support vector machine) 是应用统计学理论的一种新的学习机模型[8], 采用结构风险最小化原理 (Structural Risk Minimization, SRM) , 有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力, 在解决小样本、非线性及高维模式识别方面有许多优越的性能, 已经被广泛地应用到模式识别领域。
6 语音识别系统的结构
语音识别本质上是一种模式识别的过程, 其基本原理框图如图1, 主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块, 其中后处理模块为可选模块。
预处理模块, 对输入的原始语音信号进行处理, 滤除掉其中的不重要的信息以及背景噪声, 并进行语音信号的端点检测、语音分帧以及预加重等处理。
特征提取模块负责计算语音的声学参数, 并进行特征的计算, 以便提取出反映信号特征的关键特征参数, 以降低维数并便于后续处理。
在训练阶段, 用户输入若干次训练语音, 系统经预处理和特征提取后得到特征矢量参数, 建立或修改训练语音的参考模式库。
在识别阶段, 将输入的语音的特征矢量参数和参考模式库中的模式进行相似性度量比较, 将相似度最高的模式所属的类别作为识别的中间候选结果输出。
后处理模块对候选识别结果继续处理, 通过语言模型、词法、句法、和语义信息的约束, 得到最终的识别结果。
7 语音识别所面临的问题及展望
1) 就算法模型方面而言, 需要有进一步的突破。目前使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。
2) 就自适应方面而言, 语音识别技术也有待进一步改进, 做到不受特定人、口音或者方言的影响, 这实际上也意味着对语言模型的进一步改进。
3) 就强健性方面而言, 语音识别技术需要能排除各种环境因素的影响。目前, 对语音识别效果影响最大的就是环境杂音或嗓音, 个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音, 如何让语音识别技术也能达成这一点是一个艰巨的任务。
4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入, 用户因此就可以不必在语种之间来回切换。此外, 对于声学模型的进一步改进, 以及以语义学为基础的语言模型的改进, 也能帮助用户尽可能少或不受词汇的影响, 从而可实行无限词汇识别。
5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合, 全世界说不同语言的人都可以实时地自由地交流, 不存在语言障碍。可以想见, 多语种自由交流系统将带给我们全新的生活空间。
6) 语音情感识别:近年来随着人工智能的发展, 情感智能跟计算机技术结合产生了情感计算[9]这一研究课题, 这将大大的促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介, 携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。
参考文献
[1]戴庆厦.语言学基础教程[M].北京:商务印书馆, 2006.
[2]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.
[3]王士元, 彭刚.语言、语音与技术[M].上海:上海教育出版社, 2006.
[4]http://www.ctiforum.com CTI论坛.语音识别技术及发展.
[5]蔡莲红, 黄德智, 蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社, 2003.
[6]赵力.语音信号处理[M].北京:机械工业出版社, 2003.
[7]息晓静, 林坤辉, 周昌乐, 蔡骏.语音识别关键技术研究[J].计算机工程与应用, 2006 (11) .
[8]宇缨.支持向量机及其在自然语言处理中的应用[J].东莞理工学院学报, 2007 (14) .
语音识别技术 篇5
1、用右键单击某个错误。
2、在快捷菜单 (快捷菜单:显示与特定项目相关的
一列命令的菜单。要显示快捷菜单,请用右键单击某一项目或按下 Shift+F10。)上,单击可选更正。
3、如果未列出可选更正,请单击“其他”,再单击某个可选项。
注释
·如果用右键单击某个语法错误,请单击快捷菜单上的“语法”来更正错误。也可以通过单击快捷菜单上的“可选语音”来选择可选的更正。
·单击“语言”栏上的“更正” 选择更正可选项。
更正错误拼写
1、用鼠标或键盘来选择错误。
2、在“听写”模式中,请朗读“spelling mode”,稍微暂停,然后拼写更正。
例如,如果您朗读的是“sun”,但插入的文本为“son”,通过朗读“s-u-n”可以更正错误拼写,
更正错误听写
1、使用鼠标或键盘选择错误,包括错误前后的一至两个单词。
例如,如果听写“This is another example sentence”,而您看到“This is an utter example sentence”,请选择“is an utter example”。
2、朗读所选的单词,包括错误的更正。
例如,朗读“is another example”。
注释 也可以只选择不正确的单词,但听写多于一个单词时,识别准确性会更高。
重新键入更正错误
1、使用键盘或鼠标选择错误。
2、使用键盘键入更正。
提示
·朗读“scratch that”可以删除刚才朗读的最后一段语音。
语音识别技术 篇6
语音识别已经不再遥不可及!
近日,微软新推出的Windows Vista就安装了语音识别系统。不懂鼠标和键盘操作的人,有了此软件的帮助,问题就能迎刃而解。这也是这一操作系统的一大亮点。
从上世纪50年代开始,语音识别作为重要的研究对象,引起了科学家的广泛兴趣。今天,半个多世纪过去了,语音识别技术已经发生了突飞猛进的变化,IBM、苹果和微软等公司甚至已经把它应用于自己的部分产品中。
目前,语音识别软件主要运用于法律和医药领域,但随着软件的日趋完善,将被更多领域采纳和运用,并帮助人们解决疑难问题。
不过,语音识别软件目前或多或少存在缺陷,如抗干扰差、语音识别误差较大、易受黑客攻击等。因此,要想短期内取代手工操作还不现实。
备受青睐
其实,自电脑诞生以来,让电脑听懂人们的说话,就是科学家们奋斗的目标。几年前,这方面还仅局限于实验室内的演示。不过现在不同了,电脑的语音识别功能已经有了质的飞跃,并被广泛运用到各个领域。
微软和福特汽车正在进行一项有趣的工作,他们希望人们能向汽车发出口头指令,这让人觉得有些不可思议。不过,人们通过芯片进行口头交流,早已成为现实,只是目前还没有被广泛应用到日常生活中,所以大家对此感到陌生。可以肯定的是,随着技术的日趋成熟,今后人们和芯片的交流的机会将越来越多。
前不久,在拉斯维加斯举行的国际电子消费品展览会上,比尔·盖茨和福特汽车的高管们,展示了微软的Sync软件,它可让驾车者们如何通过口头指令,在车内播放音乐和拨打电话。但是,通过口头指令驾驶汽车还难以被广泛运用,至少目前还不行。
IBM在语音识别技术上,一直走在最前沿。以它的ViaVoice软件为例,这种软件可以帮助人们通过麦克风用语音向字处理软件输入文字,能识别英语、意大利语、德语、法语、日语、汉语等语种。由于大量的无线上网设备的使用,语音识别软件的销售前景看好,特别适用于医生、律师和作家等职业。
从去年9月1日开始,该语音识别软件已经开始降价销售,其中最便宜的一款只需30美元。据估计,目前,全世界已有1000多万人在使用ViaVoice软件。
微软新版的Windows操作系统Vista,也配置了先进的语音识别软件。用户可以通过语音和计算机交流——对于无法操作键盘和鼠标设备的人们,这是一个很重要的功能。经过训练,Vista能识别用户的语音。这样,用户就可以通过口述来“书写”信件或电子邮件。一言以敝之,用户可以通过语音来执行大多数常见任务。
不过,目前世界上最先进的语音识别软件,既不是微软生产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。
Naturally Speaking已经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误。久而久之,该软件就会适应用户的说话风格,当然,用户如果在说话过程中发现软件无法识别的,也相应地作出调整,这样一来,语音识别的正确率就会逐渐提高。
用途广泛
在语音识别软件领域,比尔·迈森很有发言权,他是这方面的专家。他指出:“目前该软件主要用于法律和医学等特定领域。例如,放射线学者们越来越多地通过语音识别软件口授诊断报告和结果,而不再由录音机录下口头报告,再加以转录。”
语音识别软件是利用非常复杂的统计方法,把人们的讲话与单词相对应起来的。如今,语音识别技术在一些领域已经得到广泛应用,如呼叫中心。采用这项技术,可以省去不少麻烦,目前已有不少电脑查询服务采用了Nuance公司的技术,来处理客户的需求。
可以看出,语音识别技术的特点就是使工作变得自动化。但也有人指出,语音识别技术发展到足够强大并得到普遍应用的时候,在给人类带来方便的时候,同时也会使更多的人失去工作。比如,现在很多公司都设置咨询室,将来有可能被机器取代,人们可以通过公司的电脑发出口头指令来完成各项咨询。
迈森预言:“接下来,语音识别技术将被用于网络搜索。”不久的将来, Google和雅虎将推出面向手机用户的语音搜索服务,用户只要说出自己要找什么,就可以听到电脑的自动答复。这2家公司都已聘请了语音识别技术专家。Nuance还与雅虎对簿公堂,因为雅虎挖走了Nuance的13名工程师。
IBM也不甘步人后尘,此前它在语音识别一直处在领先位置。目前,IBM正在实施一个超前的计划——研制一种能监听4-5个人参加的小型会议的语音识别软件,用以提供准确的书面记录。这一步迈得很大,不知道何时能取得成功。
此外,负责IBM的语音识别技术开发的戴维·那哈莫还表示,该公司已经开发出了其他一些应用软件。其中一项能自动翻译外语广播——该软件首先通过语音识别技术记录下说话者所说的话,然后通过翻译软件把外语翻译成英语。
尽管这一软件目前还不成熟,不过它已经能够翻译出说话者的要点。这一软件的卖点不错,尤其受缺乏外语人才的机构和部门欢迎,比如情报机构。当然,该软件也适合缺乏人手的电视台,为听觉有障碍的观众提供字幕服务。
正视缺陷
当然,语音识别软件还没有发展到能够取代键盘和鼠标的程度,还有很多不完善的地方,这也是所有语音识别软件目前普遍存在的问题。比如抗干扰,这类软件还无法分辨出哪是人的发音,哪是音响的发音。
在语音识别上,目前也存在差错。在一家公司的一次演示中,与会者大跌眼镜。这家公司的工作人员试图让自己开发的软件识别“Dear Mom”这个短语的发音,然而,让人哭笑不得的是,语音识别软件却把它理解为“Dear aunt”,也就是著名的“认母为姨”。
此外,语音识别还可能被黑客利用,不久前就传出Vista的语音功能存在缺陷,容易遭致黑客利用进行远程语音攻击。微软对此表示,安全人员此前公布了该漏洞,影响微乎其微。
微软安全响应中心的发言人宣称,攻击者利用此漏洞仅能获得当前用户的权限,并不能绕过用户帐户控制系统的监管运行任何管理员级别的命令。黑客要想成功发动攻击,前提条件是目标系统已经设置好语音识别功能,并且启用话筒和音箱,此时他们可以通过音频文件的播放执行复制、删除、关机等命令。因此微软方面建议不要一直同时开启麦克风和音箱。如发现有执行命令的音频文件播放,要关闭媒体播放器和语音识别,重启电脑。
安全响应中心的程序经理Adrian Stone称:“我们对该问题十分重视,经过调查,我可以自信地说,没有必要担心该问题。”
计算机语音识别与合成技术 篇7
人和人之间进行通信的最基本的方式就是通过语音的形式, 如果实现了计算机和人之间的语音交互这一重大问题, 那么产生的价值是不可估摸的。从20世纪六七十年代开始, 全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。
计算机已经取得了显著的科技成果, 同样的语音识别与合成技术也已经取得了丰硕的成果, 并且已经在多项领域当中已经进入应用阶段。此外, 在语音的识别方面, 目前市场上已有一些识别软件的出售, 如:中国科学院的识别系统, 可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下, 通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用, 在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM公司的Via Voice系统, 是一种可听写系统。在语音合成方面, 中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。
2 计算机语音识别与合成技术的方法研究
计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此, 为了能够对语音的重建不失真, 离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象, 进行采样的频率最小要能够达到6800Hz, 也就是说每秒要达到6800个样点。一般认为, 人的耳朵可听频率为5HZ~20KHZ, 那么从这点考虑, 语音合成最高用10KHZ来处理就能够取得较好的效果, 通常采用8KHZ采样频率, 此外, 如果是对语音量化的情况下, 那么A/D转换器只需要12位就足够了。但是, 如果语音信号需要进行量化的话, 所需要的位数达到12位即可。如果从实际考虑出发的话, 如果达到8位就能够听懂经过合成的语音了。以这样算来的话, 每秒进入计算机的信息量大约为8000×8=64kbps, 但是一个字长若为8位的话, 所占的存储量则为8K, 这样的话也不会有太大的使用价值。所以, 要对语音信息进行一定的压缩, 当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。
(1) 波形编码法
在计算机语音识别与合成技术当中最常用的波形编码法是ADM法和DM法。而ADM法当中的量化宽度是根据DM当中的值进行固定的, 所以如果出现超载噪声或者是粒状噪声, 那么在ADM法当中是不能够进行宽度值的变化的, 而且他还有能够按照趋势跟踪的自我适应能力功能, 这种方法有对噪声的自动抑制功能;DM法的主要特点是能够按照波形进行相应的编码, 作用是对下一个语音信号的值进行比较, 是高还是低。低则显示给定编码“0”;高则显示给定编码“1”。这样一来, 要进行语音信号的编码, 很明显要先对存储量进行节省, 但是其音质要略差一点。
(2) 录音编辑法
通过直接录制的方式把语音录制下来, 并且还要把这些录制下来的语音经过连接结合在一起, 编辑成文章, 在输入到计算机内的时候不经过任何压缩处理, 而是直接输出出来, 但是这种方法需要有大量的存储器。
(3) 规则合成法
这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法, 所用的单位是音素链以及音节, 可以和任意的会话和单词进行合成, 但缺点是语调比较差。
(4) 参数编码法
目前来说最常用的参数编码法主要的有LCLPC法、LPC法以及FORMANT法和PARCOR法等等, 其中, LPC法采用的是一线性预测编码的形式, 通常进行波形采样的帧为10ms-25ms, 一帧之内为一线性不变系统, 但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数, 在存储器当中的各个帧当中进行叙述, 然后在语音合成的时候才开始对这些参数进行综合。LPC法用的是3-7位的方式对所有的编码进行处理, 并且在各个数值之间进行自动插补和运算, 这种方式合成的语音的音质动听柔美。
语音识别技术的研究及基本实现 篇8
1 语音识别技术的概念和基本原理
语音识别主要是指以人类的语音为主要研究对象, 通过计算机对声音信号进行一定的技术处理, 使其转化为文字或指令的一个过程, 它是一门综合性特别强的学科, 最终实现人与机器能够进行自然语言的通信是语音识别的主要目标。对语音识别的开发与研究涵盖诸多学科领域的研究, 包括心理学、声学、人工智能、语言学及数字信号处理等。数字信号转变阶段、提取语音特征参数阶段、学习阶段及结果识别阶段是语音识别工作的四个主要阶段, 其基本原理是:通过对输入的语音信号进行采样、自动增益控制等预处理, 从而将共振峰、音调等语音特征参数提取出来, 然后进入训练和模式库部分对提取的关键数据进行分类处理, 最后进入模式匹配这个系统核心部分, 测度所提取的待测语音与模式库语音的匹配度, 最终实现语音的准确输出。如下图所示:
2 语音识别技术的发展及现状研究
早在20世纪50年代, 语音识别就开始被研究。1952年, Davis等人在Bell研究所成功研制出世界上第一个语音识别系统, 可以识别10个英文数字发音的Audry系统;之后, 1956年, Olson等通过数字计算机的应用第一台语音打印机被成功的开发出来;进入60年代, 随着计算机技术及信息处理系统的不断发展和完善, 语音识别逐渐被作为一个重要的课题进行开展和研究, 其中信号线性预测编码是这一时期主要的语音方面的研究成果;在70、80年代, 通过对语音识别进行更深层次的研究, 世界上第一个非特定人连续语音识别系统被研制成功;随后, 随着对语音识别研究的技术不断成熟及语音识别基础性理论的完善, 在90年代及进入21世纪, Microsoft、语音识别芯片等的成功开发, 使汉语语音识别和嵌入式语音识别技术越来越受到人们的关注, 从而促进了语音识别技术产品的商业化。目前, 国内外很多计算机领域的专家和研究人员都对语音识别技术的研究和开发日益重视起来, 而且还有很多科技水平很高的研究成果诞生。语音识别技术的应用领域特别广泛, 而且应用空间非常广阔, 比如声控智能玩具、手机声控语音拨号、军事航空飞行中的语音指挥等等, 无论是生活、医疗领域还是在军事斗争领域, 都发挥着不可或缺的作用。
3 语音识别技术实现的问题及研究
近几年, 语言识别技术逐渐向规模化商业用途的方向发展, 特别是汉语语音识, 然而, 在语言识别技术应用的过程中发现了存在的一些问题和一定的技术难关需要解决和攻克, 主要表现在以下这两个方面:
(1) 语言识别技术系统模型和算法上的某些缺陷是语言识别技术应用的过程中发现的主要问题。隐马尔可夫模型 (HMM) 和算法作为语言识别领域的核心竞争力, 是一种十分成功的语音识别模型和算法, 随着对其的深入研究发现该训练量、储存量等方面还存在重要的缺陷。只有不断的对这些缺陷进行弥补和完善才能够使语音识别技术更加具有优势, 使语言识别的实用性更强, 从而给社会带有极大的便利。
(2) 语音识别系统自身适应性较差及容易受到各种外界环境因素的影响是语言识别技术应用的过程中发现的重要问题。语音识别对环境的依赖性比较强, 采集于特定环境下的语音训练系统在其他环境中极易受到不同语调、语速、音调及说话方式等多种因素的影响, 从而无法进行识别和匹配, 造成性能在一定程度上的下降。因此, 提高语音系统对环境的适应性, 从而克服环境造成的语音识别障碍, 是语音识别技术有待解决的一个非常重要的实际性问题。
4 结束语
随着语音识别技术的不断发展和进步, 应该加大对语音识别系统的研究力度, 语音识别系统作为语音识别技术的技术核心, 对语音识别系统进行更加深入的研究具有十分重要的意义, 而且, 对语音识别系统进行不断的完善, 使其的运用范围逐渐扩大, 不在仅仅是出现在人们的日常生活领域, 而是向教育培训、国际交流、商业洽谈、国际会议等各个方面逐步扩展, 通过语言的自动识别、翻译, 在消除语言障碍的基础上, 能够加强人与人之间的沟通能力, 由此可见, 语音识别技术的在人类社会的进步和经济的发展中发挥着非常重要的作用, 对于科学技术的发展有一定的促进作用。
参考文献
[1]高宏涛, 张德贤.语音识别技术研究及实现[J].关盘技术, 2007 (03) .
[2]王敏妲.语音识别技术的研究与发展[J].综述与评论, 2009 (23) :1-2.
语音识别:从技术应用到习惯应用 篇9
近日,百度Big Talk2015年第一期在美国硅谷开讲,百度首席科学家吴恩达(Andrew Ng)在会上表示,百度是第一个建立深度学习的网络,而深度学习将改变人工智能,这些机会体现在文本、图像和语音识别上。吴恩达以火箭为例,指出,“建造火箭需要一个很多的燃料(数据)和很大的引擎,深度学习就是让火箭腾飞的引擎。”他认为,神经元网络的技术很有前景,建立了有效的深度学习的算法将会改变整个人工智能。
语音识别技术的应用
与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别,我们最容易想到的还要数不会讲笑话的Siri。
作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果i Phone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了2015CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。
在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景,诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。
随着互联 网技术的 快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。
如今国内 也有了相 应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
从打字到语音的习惯改变
随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。
腾讯、百度都建立了自己的语音团队,在移动搜索领域发力。随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革。在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”
今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能,宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。
而我们今天最常用的语音识别服务,莫过于打车软件中的“马上叫车”。我们习惯直接与司机语音互动,比如说“我想打车到国贸大厦”就能实现叫车功能。作为一款基于语音识别、语意理解技术,“出门问问”每周在迭代的嘀嘀打车后台,通过语音识别技术发布订单。作为面向移动搜索领域的智能手机应用,用户可以通过语音提问的方式直接获取到自己需要的各种生活信息。而交互能力、信息抓取、智能语音推荐,为手机端、可穿戴智能设备上的出门问问的语音搜索功能侧重于有应用场景之下使用提供了可能。出门问问CEO李志飞说,“技术能够真正帮助所有人提高生活质量,这也是技术的目的。”
浅谈语音识别技术的应用和发展 篇10
语音是人类互相之间进行交流时使用最多、最自然、最基本、最重要的信息载体。在高度信息化的今天, 语音处理的一系列技术及其应用已经成为信息社会不可缺少的组成部分。语音的产生是一个复杂的过程, 包括心理和生理等方面的一系列因素。当人们需要通过语音表达某种信息时, 首先是这种信息以某种抽象的形式表现在说话人的大脑里, 然后转换为一组神经信号, 这些神经信号作用于发声器官, 从而产生携带信息的语音信号。
1 语音识别的研究历史及现状
在国外语音识别的研究工作可以追溯到上世纪50年代。1952年AT&T贝尔实验室的Audry系统是第一个可以识别十个英文数字的语音识别系统。
上世纪60年代末70年代初出现了语音识别方面几种基本思想, 其中重要成果是提出了信号线性预测编码 (LPC) 技术和动态时间规整 (DTW) 技术, 有效的解决了语音信号特征提取和不等长语音匹配问题, 同时, 还提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。
上世纪80年代语音识别研究进一步走向深入, 其显著特征是隐马尔可夫模型 (HMM) 和人工神经网络 (ANN) 在语音识别中的成功应用。上世纪90年代, 在计算机技术、电信应用等领域飞速发展的带动下, 迫切的要求语音识别系统从实验室走向实际应用。具代表性的是IBM的Via Voice和Dragon公司的Dragon Dictate系统, 这些语音识别系统具有说话人自适应能力, 新用户不需要对全部词汇进行训练便可在使用中不断提高识别率[1]。
国内在语音识别研究上也投入了很大的精力, 中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项, 我国语音识别技术的研究水平已经基本上与国外同步。
2 语音识别系统的分类
目前, 语音识别的系统分类有孤立语音和连续语音识别系统, 特定人和非特定人语音识别系统, 大词汇量和小词汇量语音识别系统, 嵌入式/服务器模式等。
2.1 孤立语音和连续语音识别系统
自然的语音, 只在句尾或是文字需要加标点的地方必须间断, 其它的部分可以连续不断地发音。以前的语音识别系统, 几乎都是以单字或单词为单位的孤立语音识别系统, 但随着近年来的研究和发展, 连续语音识别技术渐趋成熟, 这个最自然的说话方式, 将成为语音识别系统的主流。
2.2 特定人和非特定人语音识别系统
特定人和非特定人语音识别系统是按照声学模型建立的方式来划分。特定人系统是指系统在使用前必须由用户输入大量的发音数据, 并对其进行训练。非特定人系统则试图达到在系统构建成功之后, 用户不需要事先输入大量的训练数据, 即可使用的目的。
2.3 大词汇量和小词汇量语音识别系统
在语音识别技术的发展过程中, 词汇量也正是从少到多不断积累的, 随着词汇量的增大, 对系统各方面的要求也越来越高, 该系统的成本也越来越高了。语音识别系统只是要为你在开车的时候利用语音进行电话拨号, 那它只要能听懂十个数字就可以了, 属于小词汇量语音识别系统。如果它是为你自动订飞机票, 那么它就应该还会认识地名、时间等字和词, 这属于中等词汇量语音识别系统。如果它是为一个记者把口述的一篇报告转换成为文字, 那它的词汇量就必须很大才能胜任这样的工作, 这属于大词汇量语音识别系统[2]。
2.4 嵌入式/服务器模式
嵌入式是将语言识别软件及模型写在设备 (如手机) 的存储器里, 识别过程在终端完成。在服务器模式, 终端只负责收集和传导语音信号, 由服务器负责完成识别。因此, 对于大规模、多用户和有大量识别需求的系统, 服务器模式提供了有效的方式。同时服务器方式对最终用户的知识需求甚少, 系统的更新、升级和管理方便、有效, 可由运营商负责, 而嵌入式则在很大程度上受终端设备资源所限。
3 语音识别的几种基本方法
当今语音识别技术的主流算法, 主要有传统的基于动态时间规整 (Dynamic Time Warping, DTW) 算法、基于非参数模型的矢量量化 (Vector Quantization, VQ) 方法、基于参数模型的隐马尔可夫模型 (Hidden Markov Models, HMM) 的方法和基于人工神经网络 (Artificial Neural Network, , ANN) 等语音识别方法[3]。
4 语音识别系统的结构[4]
语音系统基本构造, 如图1所示, 系统可以分为前端处理和后端处理。前端处理包括语音的录入、处理、特征值的提取, 后端是个夸数据库的搜索过程, , 分为训练和识别。训练是对所建的模型进行评估、匹配、优化, 获得模型参数。识别是一个专用的搜索数据库, 获取前端数值后, 在声学模型、一个语言模型和一个字典。声学模型表示一种语言的发音声音, 可以通过训练来识别特定用户的语音模型和发音环境的特征。语言模型是对语料库单词规则化的概率模型。字典列出了大量的单词及发音规则。总体上说, 语音识别是一个模式识别匹配的过程, 在这个过程中, 计算机首先要根据人的语音特点建立语音模型, 对输入的语音信号进行分析, 并抽取所需的特征, 在此基础上建立语音识别所需的模板。然后, 在识别过程中, 计算机根据语音识别的整体模型, 将计算机中已经存有的语音模板与输入语音信号的特征进行比较, 并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板。最后通过查表和判决算法给出识别结果。显然识别结果与语音特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。
5 语音识别尚未解决的问题及值得研究的方向
5.1 就算法模型方面而言, 需要有进一步的突破。
声学模型和语言模型是听写识别的基础。目前, 使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。
5.2 语音识别的自适应性也有待进一步改进
同一个音节或单词的语音不仅随着讲话者的不同而变化, 而且对同一个讲话者在不同场合、不同上下文环境中也会发生变化, 这意味着对语言模型的进一步改进。
5.3 语音识别技术还需要能排除各种环境因素的影响
对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行, 这对多数用户来说是不现实的。在公共场合, 对于语音识别技术能清除环境嗓音并从中获取所需要的特定声音, 是一项艰巨的任务。
参考文献
[1]柳春.语音识别技术研究进展[J].甘肃科技2008, 24 (9) :41-43.
[2]朱淑鑫, 谢忠红.浅谈语音识别技术的应用及发展[J].长春理工大学学报 (高教版) , 2009, 4 (2) :64-65.
[3]赵力.语音信号处理[M].北京:机械工业出版社, 2003.
说话娃娃走红语音识别商机 篇11
公司市场部褚先生表示,目前公司生产的芯片产品主要应用在玩具方面,“我们自己不生产玩具,而是通过与一些玩具生产商合作的方式开发说话玩具。”装上了这种语音识别芯片,玩具就可以与人进行几十句不同的交互式对话,当然,提问者的提问范围必须在事先设置好的范围内。褚先生介绍,公司已经与一些玩具厂商共同开发了白雪公主等几个系列的玩具,“目前我们正在开发识别能力更强的新产品———“超级小女生”玩具,在一些较吵的环境下都能够识别提问。
虽然只能按照设定来完成简单的交流,但比起静物玩具,或是只会唱一首歌、说一句话的电子娃娃,这种会回答问题的玩具还是受到了市场欢迎。褚先生表示,语音识别功能增加了玩具的趣味性和娱乐性,让顾客有一种与心爱玩具交流的快乐,尤其对好奇心强的儿童来说,就像为他们增添了新朋友。
计算机语音识别技术的应用分析 篇12
1 语音技术的发展历史
早在二十世纪五十年代, 语音识别技术的研究已经初步展开, 但是当时的研究人员的工作的重点主要在于声学和语音学上。早在1952年, 相关的研究人员已经在实验室通过原音之间的共振峰之间的差异成功的实现了可以识别十个英文数字单音发音的语音识别系统。在1956年, RCA Lab又在此基础上进行了进一步的研究, 实现对单一发音的不同的音节的识别, 随后又在1959年, 英国国立大学的有关项目的研究人员开始寻求除了共振峰以外的另一种语音识别方式, 即采用谱分析和模板匹配方法来设计一种能够识别不同音素的识别装置, 试验中可以完成对四个原音以及九个辅音的识别, 至此语音识别系统进入了一个崭新的发展阶段, 开始进入到音素识别器的研发阶段。随后在1962年, 由东京大学的相关研究人员进一步的进行了音素识别元件以及设备的研发, 并取得了一定的进展。在1963年, 日本NEC实验室在先前的研究成果的基础上, 实现了数字进行语音识别的尝试计划, 并且由此开始了长期的规划和研究。以上的三个研究项目的开启具有划时代的意义, 对于现代语音识别技术的发展有着非常重要的影响。不仅实现了对语音研究在时间刻度上的不均匀问题的解决, 还实现了语音时间的始末点的可靠检测。
2 语音识别技术的发展现状
在全球的相关学者和研究人员的共同努力下, 语音识别技术取得了很大的发展, 半个世纪后的今天, 语音识别系统已经逐渐的由研发投入到实际的应用中。目前在试验中, 最号的语音识别情况下, 连续朗读的语音信号的识别率可以达到百分之九十以上。在此基础上, 语音识别技术和语音识别系统也逐渐的由实验转为实际应用, 病开始商品化, 并成功的研制出了IBM Via Voice和Dragon Dictation两大听写设备, 语音识别技术由此开始大众化。由于在语音识别的过程中, 校对和纠正错误信息会有效的降低语音识别的速度和质量, 所以为了更好的发挥语音识别的应用优势, 并使得其能够克服由于环境和不同的口音导致的语音识别错误, 有关的研究人员应该致力于克服此类问题, 才能使其更好的应用在实际的生产生活中。
就目前来看, 现有的语音识别系统在对待特殊的识别词汇时可以起到很好的效果, 尤其是电话自动转接、电话查询以及数字串识别, 在接收到此类任务后, 系统不仅能够自动的存储所接收的信息, 还能够在实际数据同实验室数据较为符合的情况下, 实现百分之百的识别率。但是该种情况的限制条件比较多, 需要进一步的予以巩固和加强。
3 语音识别技术发展趋势
虽然语音识别系统和相关的技术已经取得了较大的发展和进步, 但是仍然不够完善, 需要不断的进行加强, 笔者认为语音识别技术的发展可以从以下几个方面入手: (1) 提高可靠性。所谓可靠性的提高, 就是指在语音识别的过程中, 加强对各种干扰因素的排除, 尤其是在声学环境不利的情况下, 要保证语音识别的准确性和稳定性。比如说在比较吵闹的公共环境中, 人会根据自己的需要来主观的排除不利的影响因素, 但是语音识别系统作为一种机械化的系统, 却很难做到。此外, 由于人的语言具有较大的随意性和不稳定行, 导致在日常的交流过程中会出现很多明显的语言习惯。所以, 要克服以上问题, 必须要实现语音系统的更加智能化的发展, 才能保证语音识别过程中的可靠性。 (2) 增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限, 当用户所讲的词汇超出系统已知的范围时, 则语音识别系统不能准确的识别出相应的内容, 比如, 当突然从中文转为英文、法文、俄文时, 计算机就会常常输出混乱奇怪的结果。但是, 随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展, 未来的语音识别系统可能会做到词汇量无限制和多种语言混合, 这样用户在使用的时候可以不必在语种之间来回切换, 这样就能大大减少词汇量对语音识别系统的限制。 (3) 应用拓展。所谓应用拓展, 就是指对语音识别技术的应用范围和内容的丰富。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事, 比如, 当人们出现手忙、手不能及以及分身无术的场景时, 通过语音识别系统的模型构造, 则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面, 语音识别技术可能带动一系列崭新或更便捷功能的设备出现, 更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活, 更重要的会带来生产方式的革命, 是下一代智能化控制的基础。 (4) 降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径, 其推广程这取决于语音识别技术本身进步的程度, 同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上, 可以大幅度降低产品成本和体积, 产品必然受到消费者的青睐, 语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。在信息系统早期, 相当部分数据的处理都是通过人工手工录入, 这样, 不仅数据量十分庞大, 劳动强度大, 而且数据误码率较高, 也失去了实时的意义。为了解决这些问题, 人们就研究和发展了各种各样的自动识别技术。
结束语:综上所述, 二十一世纪人们进入了信息网络时代, 各种先进通讯技术的应用使得全球范围内的语音通信更加的便捷和灵活。目前来看, 自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现, 大大的方便了人们的生产生活方式, 但是这些技术的实现是建立在语音识别的基础上的, 因此有关科研单位应该加强和重视对语音识别技术的完善和创新。文中笔者对计算机语音识别技术的应用现状和前景进行了分析, 希望以此为推动语音识别技术的发展做出贡献, 诸多不足, 还望批评指正。
摘要:随着信息技术的发展和应用, 计算机语音识别技术也取得了较大的发展成就。本文对计算机语音识别技术的应用问题进行分析, 从语音识别技术的发展历史、语音识别技术的发展现状、语音识别技术发展趋势等几个方面, 对该问题进行论述, 诸多不足, 还望批评指正。
关键词:语音识别技术,发展,趋势
参考文献
[1]范长青, 华宇宁.语音识别中改进viterbi算法的研究实现[J].科技资讯, 2007 (32) .
[2]滕云, 贺春林, 岳淼.基于神经网络的语音识别研究[J].重庆师范大学学报 (自然科学版) , 2010 (4) .