语音图像识别(精选7篇)
语音图像识别 篇1
随着高科技日新月异的不断发展,市场上的智能型玩具层出不穷,它们与家用电脑一样,正在越来越受到消费者的青睐。智能玩具年年翻新,有些智能性玩具不仅可以开发年轻人的智力,提高中年人的智能,而且对防止老年人的智力衰退也有好处。为此在设计此类玩具时要特别注意娱乐性、趣味性和智能性的有机结合。目前市场上玩具车的种类花样繁多,但是大多数要不就是打开电源走直线驱动的小车,要不就是遥控器控制的机械运动小车,总之,已经开始不为小朋友所喜爱,这就需要我们提高创新,设计出更加新颖、时尚而好玩的玩具车。
1 系统整体方案
本设计以61板为控制核心,以市场上能够买到的普通小车为车体,外加语音录放功能模块、图像识别模块、电机驱动模块和电源模块,系统框图如图1所示。61板是以SPCE061A为核心的精简开发板,除了具备单片机最小系统电路外,还包括有MIC输入和DAC音频输出电路、电源电路等,负责协调整个玩具小车的系统工作;61板可外接电源,也可采用电池供电,本系统采用电池供电;语音录放功能模块主要处理语音信号的存储、录放以及识别;图像处理模块主要用来识别相应的颜色和物体;电机驱动模块则主要用来驱动玩具小车的驱动电机和方向电机,驱动小车实现前进、后退、左转、右转、追踪物体等功能。
2 系统硬件设计
2.1 单片机选择
SPCE061A 是凌阳科技推出的一款16位微控制器,高速的处理速度和μ'nSPTM的内核结构使它能够非常容易、快速地处理复杂的数字信号,具有DSP功能,但是比专用的DSP芯片廉价。SPCE061A具有语音录放和语音识别的库函数,能容纳210 s的语音数据,只要了解库函数的使用,就会很容易完成语音录放,这些都为软件开发提供了方便的条件。同时SPCE061A内嵌32 K字的FLASH ROM和2 K字的SRAM,因此SPCE061A微控制器是适用于语音领域的一种最佳选择。同时SPCE061A采用了CMOS制造工艺,大降低了系统功耗,而且工作电压范围较大,能在低电压供电时正常工作,可以使用电源供电,也可以用电池供电,这对于用电池供电的玩具产品具有特殊的意义[2]。
2.2 车体结构
玩具小车为四轮结构,其中前面两个车轮由前轮电机控制,在连杆和支点作用下控制前轮左右摆动,来调节玩具小车的前进方向。在自然状态下,前轮在弹簧作用下保持中间位置。后面两个车轮由后轮电机驱动,为整个玩具小车提供动力,所以又称前面的轮子为方向轮,后面的两个轮子为驱动轮。如图2所示。
2.3 电机控制模块
电机驱动模块是玩具车的核心部分之一,它是采用普通PNP8550和NPN8050三极管搭建的H桥电路,包括方向控制单元和动力控制单元两大部分[2],硬件框图如图3所示。工作电压为:DC+4 V~+6 V,工作电流为:运动时约200 mA。动力驱动由后轮驱动实现,负责玩具车的直线方向运动,包括前进和后退,后轮驱动电路是一个全桥驱动电路,如图4所示:Q1、Q2、Q3、Q4组成四个桥臂,Q5控制Q2、Q3的导通与关断,Q6控制Q1和Q4的导通与关断,而Q5、Q6由IOB9和IOB8控制,即通过IOB8和IOB9控制四个桥臂的导通与关断控制后轮电机的运行状态,使之正转反转或者停转,进而控制玩具小车的前进和后退。方向控制由前轮驱动实现,包括左转和右转,前轮驱动电路也是一个全桥驱动电路,与图4所不同的是控制信号来自单片机的IOB10和IOB11。玩具车的运行状态与单片机输出信号的对照表,如下表1所示。
2.4 音频输入/输出接口
61板的MIC_IN端口是语音的MIC输入端,自带自动增益(AGC)控制。语音输出通过双通道10位DAC的引脚21或22,经语音集成放大器SPY0030A放大,然后外接一个2 pin的喇叭输出。SPY0030A是凌阳的一款芯片,功能相当于LM386,但是比LM386音质好,它可以工作在(2.4~6.0)V范围内,最大输出功率可达700 mW。
2.5 语音识别模块
语音识别主要分为“训练”和“识别”两个阶段,实现流程如图5所示。在训练阶段,单片机对采集到的语音样本进行分析处理,从中提取出语音特征信息,建立一个特征模型;在识别阶段,单片机对采集到的语音样本也进行类似的分析处理,提取出语音的特征信息,然后将这个特征信息模型与已有的特征模型进行对比,如果二者达到了一定的匹配度,则输入的语音被识别。此时,识别到的语音信号被传送给电机控制单元操纵玩具小车的运动。图6为语音信号控制电机的硬件框图。左边区域为61板结构图,右边部分为控制板结构图。
2.6 图像识别模块
图像识别模组由光学镜头、CMOS传感器(SPCA561A)、图像处理芯片(SPCA563A)组成。SPCA563A内置AE/AWB功能,用来把CMOS传感器的数据处理成CIF/QVGA格式。由于其内部嵌入了图像捕获单元、特征识别单元、unSP内核的16位CPU单元、ROM单元等,使其具有颜色识别、形状识别等功能。SPCA563A分析和处理SPCA561A传过来的图像信号,并得出相应的信息(颜色、形状等)。图像识别模组和外界的接口共有6针,依次接在SPCA563A的:VCC、SCK、SD、RDY、图像识别3_RESET和GND。该光学镜头能够识别的角度为其正前方左右45°的范围,一般情况下在户外能够识别的理论距离至少5 m,当然其性能和环境光线有关。
3 系统软件设计
系统软件部分主要分为三个模块:语音训练模块、语音识别模块、颜色识别及跟踪模块,把几个模块结合在一个主程序中,同时实现语音功能、颜色识别及物体跟踪功能,主程序流程图如图7所示。系统运行之前需要先对玩具小车进行语音模型的训练,训练完毕后方能正确实现语音和图像识别并跟踪红色物体的功能。若语音模型导入、装载成功,则开始进入语音识别模块。颜色识别模块在语音模型的基础上进行。玩具小车接受到语音命令即玩具小车的名字,主程序开始调用颜色识别子程序,若物体不是红色,玩具小车不作任何动作;若物体为红色,则主程序给定标志位被赋值,此时调用跟踪子程序,并同时播放选定的音乐,我们这里选择的是警笛声音。这样就同时实现了玩具小车的语音识别、颜色识别、跟踪物体并播放音乐的功能。警笛声音是通过电脑自带的录音机录取,并将其转换为8 000 kHZ、16位、单声道、WAV格式的文件,再通过音频压缩工具转换为***.48K格式的文件,最后将该文件加载到工程里。
4 系统测试
4.1 电机控制模块测试
按照表1单片机输出信号与玩具小车运动状态对照表,实际测试结果和先前理论分析结果完全吻合,证明电机控制模块达到设计预期。
4.2 语音识别模块测试
4.2.1 语音训练测试
成功下载程序以后,去掉下载线并复位系统,玩具小车提示对它进行训练。过程如下:
步骤一:玩具车提示“给我起个名字吧”;
步骤二:告诉玩具车“小白”(或者其他的名字);
步骤三:玩具车提示:“请再说一遍”(重复训练提示音);
步骤四:再次告诉玩具车“小白”(重复训练一次);
步骤五:玩具车提示“前进”;
步骤六:告诉玩具车“前进”;
步骤七:玩具车提示“请再说一遍”;
步骤八:告诉玩具车“前进”;
步骤九:玩具车提示“倒车”;
步骤十:告诉玩具车“倒车”;
步骤十一:玩具车提示“请再说一遍”;
步骤十二:告诉玩具车“倒车”;
步骤十三:玩具车提示“左拐”;
步骤十四:告诉玩具车“左拐”;
步骤十五:玩具车提示“请再说一遍”;
步骤十六:告诉玩具车“左拐”;
步骤十七:玩具车提示“右拐”;
步骤十八:告诉玩具车“右拐”;
步骤十九:玩具车提示“请再说一遍”;
步骤二十:告诉玩具车“右拐”;
步骤二十一:玩具车提示“准备就绪,开始辨识”。
通过多次实际的测试,在距离玩具小车8 m之外对其训练,同样能够成功,但是要求声音不能太小,环境噪声不能太大。如果在距离玩具小车1 m左右的距离,用平时说话的声音训练即可成功。
4.2.2 语音识别测试
我们分别在距离玩具小车1 m、2 m、3 m、4 m、6 m、8 m等6个地方做了实际的语音测试,如果对玩具小车发出和训练一样的施令,玩具小车能够按指令做前进、后退、左拐、右拐等动作。详细测试数据见表2。每个动作玩具小车移动的距离约为(0.8~1.8)m,移动的距离受电池电量影响比较大,所以为一个距离范围。由于是语音控制,要求控制者每次发出的声音不能差别太大,否则声控的成功率将降低。由测试可知:在(1~3)m距离范围内,成功率为100%。距离远时成功率将降低,其中左右转的成功率相对较低。主要原因有三个方面,一是距离远,存在一定的噪声,对声音的质量有影响,所以识别的成功率降低。二是由于左右拐的语音中都存在“拐”字,对语音匹配度有较大影响,也会降低识别的成功率。三是由于玩具小车的后轮齿轮摩擦力较大,容易卡住,所以实现左右拐动作的成功率相对较低,还有待于进一步的改进。通过表格也可以看出,玩具小车声控的最佳距离范围为(1~4)m。
4.3 图像识别模块测试
步骤一:喊玩具小车名字,玩具小车回答“YEAH!”。
步骤二:在玩具小车前方放置一红色物体,红色物体距离玩具小车在(0.3~1)m范围内,玩具小车保持不动,处于待命状态。当移动红色物体到距离玩具小车小于0.3 m左右的范围内时,玩具小车开始后退,并在后退的同时播放警笛声音,当后退到距离红色物体0.8 m左右玩具小车停车,继续处于待命状态。当红色物体移动到距离玩具小车超过1 m左右的范围内时,玩具小车实现前进的动作,并在前进的同时播放警笛声音。当红色物体偏离光学镜头正前方约10°时,玩具小车实现左右拐运动,并在追踪红色物体的同时播放警笛声音。玩具小车的反应时间和所处环境光线有关,通常反映时间为(0.5~2)s。如果红色物体突然从图像识别模块能够识别的范围内消失,则玩具小车会做出左右寻找的动作,如果把红色物体再次移动到它的识别范围,则玩具小车能够继续识别到红色物体并可以实现继续跟踪。由于我们测试的是玩具小车的动作,而且受测量条件的限制,同时受电池的电量影响比较大,所以相关距离和角度只是近似值。详细测试见表3。
通过测试可知:玩具小车在环境光线较好,而且背景颜色和红色差别较大的情况下,玩具小车的识别和跟踪动作完成的成功率最高。在测试的过程中还发现电池的电量对玩具小车识别和跟踪功能有很大的影响,在电池电量不够的情况下可能会出现:虽然警笛声音在继续播放,但是玩具小车没有实现跟踪。这种情况说明,玩具小车已经识别到红色物体,但是由于电量不足,没有足够的能力驱动电机实现跟踪红色物体的功能。
5 结束语
本课题设计的玩具小车具有语音识别的功能,并能实现前进、后退、左拐和右拐的动作;还能够识别图像并跟踪红色物体,而且在跟踪红色物体的同时播放警笛声音,增加了玩具车的趣味性,目前尚未发现具有此功能的玩具车。同时,语音控制板上还留有预留开关型传感器接口,还可进一步扩展实现玩具小车的其它功能,如避障等。
摘要:为了使玩具更具娱乐性、趣味性和智能性,设计了一种具有语音和图像识别及跟踪功能的智能玩具车。系统以61板为控制核心,以普通玩具车为车体,外加语音录放功能模块、图像识别模块、电机驱动模块和电源模块构成。实际测试表明:该智能玩具车能够识别语音命令,并执行前进、后退、左拐和右拐的动作;能够识别和跟踪红色物体,且在跟踪的同时播放警笛声音,这是最大的创新。目前尚未发现具有此功能的玩具车,具有很强的娱乐性和趣味性。
关键词:语音识别,图像识别,智能,玩具车,SPCE061A
参考文献
[1]王延伟,罗亚非.大学生创新竟赛实战:凌阳16位单片机应用.北京:北京航空航天大学出版社,2009:2—5
[2]罗亚非.凌阳十六位单片机应用基础.北京:北京航空航天大学出版社,2005:1—9
[3]求是科技.单片机典型模块设计实例导航.北京:人民邮电出版社,2004:211—217
[4]凌阳科技.图像识别模组.http://www.unsp.com/download/soft.aspx?softid=324&categoryid=17,2005
[5]张培仁,张志坚,高修峰.十六位单片微处理器原理及应用.北京:清华大学出版社,2005:280—286
语音识别技术探析 篇2
1. 语音识别技术的发展情况
1.1 国外发展状况
国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。
1.2 国内发展状况
我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:
一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。
二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。
三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。
2. 语音识别系统的分类
2.1 从说话者与识别系统的关系考虑
一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。
2.2 从说话者的方式考虑
一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。
2.3 从识别词汇量大小考虑
一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。
3. 语音识别的基本方法
3.1 基于语音学和声学的方法
在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。
3.2 模板匹配的方法
模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。
3.3 神经网络的方法
这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。
4. 语音识别系统的结构
随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:
4.1 特征提取
特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。
4.2 模式匹配
将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。
5. 语音识别所面临的问题
5.1 语音识别需要进一步突破模型匹配方面的技术
语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。
5.2 语音识别技术也要进一步改进以提高其自适应性
目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。
5.3 语音识别技术还需进一步增强其强健性以适应各种环境
目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。
5.4 多种语言以及专业词汇识别方面还需要改进
目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。
由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。
摘要:随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。
关键词:语音识别技术,探析
参考文献
[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.
[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.
语音识别为何“叫好不叫座”? 篇3
日前, “互联网女皇”玛丽·米克发布了2016年《互联网趋势》报告, 这也是玛丽连续21年发布此类报道, “女皇”认为, 语音应该是最有效的计算输入形式, 并进一步指出, 当前销量放缓的苹果应该恐惧亚马逊, 因为亚马逊在语音识别智能设备的路上正在越走越远, 有可能危及苹果的统治。
虽说如此, 但在今天的市场之中, 语音识别备受冷落也是一个不争的事实。尤其在智能手机上, 语音识别利用率不高, 未来普及存在巨大的挑战。
苹果应该恐惧亚马逊?
在“女皇”的报告之中, 亚马逊的家庭语音联网设备Echo尽管刚起步, 在2015年第二季度的销量仅为20万部, 但到2016年第一季度销量已经突破了100万部。
为此“女皇”认为, 这一迹象显示出类似Echo的虚拟语音助理或许开始得到大部分消费者的认可。消费者习惯于同这类语音助理进行互动, 并在短短数秒内从它们那里得到合理的反馈。由此“女皇”甚至认为, 苹果最大的敌人不是谷歌、微软, 而是开发出了Echo虚拟语音助理的亚马逊。因为Echo搭载的智能助手能够执行Uber叫车、播放Spotify音乐、在线订购披萨等服务, 未来甚至会逐渐掌控汽车等人们出行的重要载体。
“女皇”的判断令人颇感意外, 因为在今天的创投市场中, 普遍观点是VR和智能可穿戴设备将是下一个计算中心和流量入口, 按照“女皇”的观点, 一个搭载语音识别的工具将挑战现有以手机为主导的硬件格局。
事实上, “女皇”的观点十分新锐, 但在笔者看来, “女皇”可能漏算了一点, 即语音助理虽好, 但目前来看, 已经搭载了语音助理的智能手机使用率普遍偏低。看来语音识别目前真正的问题不是如何颠覆手机, 而是其自身在手机上使用率就偏低, 很难带来革命意义的改变。
2015年1 2月, 市场调查机构TECHnalysis Research对来自5个国家 (美国、英国、德国、巴西和中国) 的3012名用户就虚拟语音助手发起调查, 调查发现, 2015年全球智能手机语音助手使用率达43%, 尽管这些语音助手正在不断进化, 但是若要成为主流工具依然有很长的路要走, 尤其是对于老年消费者。
在参与调查的1024位美国用户中, 有超过50%表示并不会使用语音助手, 而7%的人不知道语音助手是什么。在全球范围和美国地区, 只有43%的参与调查者表示使用语音助手服务。而在年龄段方面, 18~24岁和25~34岁之间的用户相对而言使用语音助手的频率要高一点, 不过在全球范围内使用该功能的主要还是集中在25~34岁之间。
也正是如此, 所谓“苹果应该恐惧亚马逊”的说法可能有些言过其实。目前真正需要解决的问题应该是如何提升智能手机上的语音识别使用率。
语音识别使用率为何偏低?
目前来看, 几乎所有巨头都在重视语音识别给交互带来的改变。苹果的Siri、微软的Cortana、谷歌的Google Now, 乃至中国市场大多数手机厂商预装的讯飞、百度和与部分手机厂商合作的度秘等, 都是目前最主流的语音识别技术。但纵观整个市场, 几乎没有哪家能够把语音识别做到真正好用, 语音识别在目前的大环境之中也很难产生大的颠覆作用, 而这或许是参与调查者语音识别使用率偏低的主要原因。
首先是手机续航。手机续航是影响用户使用语音识别的重要原因之一。i OS9推出之后, 苹果把Siri作为重要功能推出, 但不得不说的是, Siri带来的便利感远远不能弥补它挑战续航时间所带来的焦虑。浏览国内各个论坛、贴吧可以发现, 用户每天都在为自己的i Phone续航时间太短而焦虑, 很多教程中开出的药方都是把Siri“一禁了之”。因为Siri平时使用率太低, 还带来了续航的负面影响。
事实上, 这种类似的操作逻辑在其他手机上同样屡见不鲜。Moto X入华之后, 搭载了讯飞旗下的灵犀语音助手, 但是很多用户为了拯救Moto X的续航, 同样是把语音唤醒关闭, 以此换取更长的续航时间。有意思的是, 谷歌在产品层面上已经对此做出了改变和反应, 即2015年10月, 谷歌在Windows、Mac和Linux平台的Chrome64版本中移除了“OK Google”语音激活指令, 原因是该功能对于PC用户来说使用率并不高, 而移除它又能够提升浏览器工作效率, 减少资源占用, 提升续航。谷歌此举其实也从一个侧面反映出语音识别对续航的拖累。
其次是“功能鸡肋”。虽说语音识别被寄予了厚望, 但目前来看, 语音识别很难承担起更为复杂的功能。以笔者i Phone上的Siri为例, 它更像是一个“花瓶”。用语音设定闹钟相对较为简单, 但到了其他相对复杂的场景和功能上, Siri束手无策。以订外卖为例, 当对着Siri喊“Hi!Siri, 帮我订个外卖”时, Siri是没有任何反应的。微软的Cortana同样如此, 而灵犀语音助手充其量是在同样的环境下能问最近的西餐厅在哪里。
目前来看, 语音识别能够完成的任务仅仅是导航、定位、定闹钟, 顺便遭“调戏”等, 而这些功能总体上属于“鸡肋”。
再次是易被干扰。语音助手容易被噪音干扰, 这在很大程度上限制了语音助手的使用场景。当身处公交、地铁等环境时, 语音助手是无法使用的, 即使是在日常生活中, 随处存在的噪音也会影响到语音识别的识别率。就笔者的体验, 相对抗干扰能力较强的是微软的Cortana, 苹果的Siri、谷歌的Google Now、讯飞都相对较弱。其实干扰事小, 但一旦出现干扰, 其实多数功能都需要重新用语音进行识别。这种反复尝试反而背离了语音识别最初诞生的宗旨, 即解放用户双手, 给用户带来便利。
第四是心理障碍。罗永浩有一句话说得非常对, “语音交互面临着用户的心理障碍”。就像一个段子所说的:语音识别有两个主要问题, 一是如何在嘈杂环境里分辨出人说话, 二是如何在安静环境中不让别人以为你很傻。
罗永浩解释的原因, 是人们无法容忍一个没有达到智能水平的设备跟他“耍聪明”:从人的正常角度来讲, 如果一个软件在你面前装聪明, 你会想要去戳穿它, 于是它马上就被戳穿了;第二个原因, 是在他人面前使用语音交互太尴尬。
有人曾经用这样一个点分析了Siri的体验障碍:语言沟通是快节奏且高效的, 文字表达则有一定的延迟。当一个人处在即时状态下的高效表达时, 对方以慢速的文字作为回应会让沟通现场显得不协调。这也是为什么语音交互一定要配以声音反馈, 哪怕是你对Siri说“给老爸打电话”, 在它完成这一指令之前, 也一定要回应一句:“正在拨打父亲的电话”。
这不仅是Siri的问题, 而是目前语音识别助手的普遍问题。用户在使用过程之中不仅需要面临周围人怪异的目光、泄露隐私所带来的心理障碍, 还会存在与一个机器人对话所带来的自我不适。
最后是底层逻辑。单纯语音识别的另一个局限是, 识别+自然语言处理本质上是根据文本理解, 语音先转换成文本, 自然语言理解仅仅针对文本进行, 这种模式很难应对语音识别的错误, 也无法理解用户意图的模糊性。例如说“三里屯”, 到底是去三里屯, 还是去三里屯附近的哪家餐馆是不清楚的。因为在识别过程中没有针对交互过程中的上下文建立对话模型和联系历史信息, 这类用户意图的模糊是无法由自然语言处理完成的。
人天生倾向于用非精确的信息来交互, 因为非精确的信息传输量更大, 更方便。机器却是需要对精确信息加以处理, 才能让识别和自然语言处理更准确。这是一对天然的矛盾。
面临上述问题, 目前语音识别一直都难以取得质变的突破。但是不得不说的是, 语音识别依旧是重要的突破方向。核心问题可能依旧在于语音识别的准确性以及服务整合的完整性两个层面。
语音情感识别研究现状综述 篇4
1、语音情感识别的发展意义及概念
计算机的快速发展对人类的生活,学习,休闲,交流起到了不可替代的作用。人们对计算机功能的需求和实现也不断地提高和发展。在互联网飞速发展的今天,人机交互和人机互动 (HMI&HCI) 无疑是计算机发展的一个重大方向,它蕴藏着重大科研价值,商业价值以及应用价值。在互联网逐渐转向移动终端,可智能穿戴设备的今天,提升用户体验感,舒适度,以及提升人机交互的功能性,可用性以及友好性是研究之重。
人类传达情感识别的方式主要有表情,语言声调以及肢体动作。而语言作为人类信息感情交流的直接媒介,对于发展HCI的今天扮 演着重大 的地位。 语音情感 识别(Speech emotion Recognition)就是将计算 机作为“人类”,通过对说话者的语气,语调,特殊词汇等的把握,采集在语音中对这些声学特征信号,并对其进行提取和分析。通过对结果的处理与研究,发现特征信号与人类情感的映射关系。而这些映射关系是计算机语音情感识别的重要组成部分,是人机交互的主要部分。所以,通过以上分析,可以确定以下三个方面:
(1)语音情感识别是发展人机交互的核心之一
人机交互就是对计算机赋予人类的情感识别,处理能力;是计算机智能的重要体现;同时也可以让计算机更好的为人类服务。
(2) 语音情感识别是计算机对人类情感研究的重要特征标识之一
人类发展 研究出了 指纹识别 , 虹膜识别 , 面部识别 , 以及表情 识别等。 生物特征 识别是比 传统鉴别 方法更加安 全的渠道 之一。语 音包含着 各种生物 信息 ,所以语音 情感识别 要在生物 特征识别 上将要扮 演更重要的 角色。
(3)语音情感识别应用范围广
在远程语音服务中,服务员通过计算机可以感知用户的情感状态,可以随时调整服务方式,从而提高服务质量;在犯罪审问过程中,计算机可以通过语音识别辅以心跳,脑电波等来判断犯人是否说谎;在玩具中,可以增加情感玩具,从而从小就可以提高孩子的情感处理能力;在教师远距离语音授课中,学生和教师双方都可以通过语音识别来感知双方情感,从而提高教学质量。
2、语音情感识别流程
二、主流语音情感模型
1、离散情感数据库
离散情感数据库就是将情感分为有限的几类,每一种情感都有三个标准:单一,浓重,辨识度高。不过生活中很难达到这种状态,自然语音很难满足这三种标准。因此,现有的离散情感数据库多属于表演型,引导型,综合型。
现有的离散情感数据库有Belfast英语情感数据库,柏林EMO-DB德语情感语音库,CASIA汉语情感语料库,ACCorpus系列汉语情感数据库等。他们统一的特点都是录制人的语音 都具有某 种特定的 情感特性 , 如nertral、anger、fear、joy、sadness、disgust、boredom等。其中CASIA为中国科学院自动化研究所录制,由两男两女分别在纯净录音环境下(信噪比约35db),用高兴、悲哀、生气、惊吓、中性的语气,16k Hz采样,16bit量化,采集500句文本,最终筛选保留其中9600句。ACCorpus系列汉语情感数据库由清华大学和中国科学院心理研究所合作录制,有5个子库。其中ACCorpus_SR (情感语音识别数据库) 共由25对男女对5类情感 (nertral、happiness、anger、fear和sadness) 录制得到,16k Hz采样,16bit量化。
2、维度情感数据库
维度情感数据库又称连续情感数据库,它存在在一个连续的空间,并且将情感映射在某一个三维或者二维坐标上,形成一个点。在三维情感空间中,每个维度的定义分别为:(1)效价维(Valence/Evaluation),主要作用是将情感分为正、负两种;(2)激活维(Activation/Arousal),主要作用是通过显示与情感相关的神经的生理激活水平来反映一个情感的猛烈程度;(3)控制维(Control/Power),它用来反映一个情感所具有的主观程度,用于区分该情感是周围环境所致还是由个人主观能动性产生的。
在维度情感数据库中有一个很重要的Plutchik为代表提出的“情感轮”理论,位于二维空间中,它将圆心作为情感原点,意为所有情感的综合,不过各个情感对于原点影响太小,从而可以忽略不计。不同的情感对应着不同的由原点引出的向量,原点所引出的向量的“模长”与“方向”分别对应了情感的强烈程度,和情感的方向。
不同于Plutchik的情感轮,Fox的三级情感分类模型是通过情感主动和被动的作为区分标准,按照低级粗分,高级细分将人类的情感分成了三个等级。
三、语音情感识别方法
根据人们对语音情感识别的研究与认识情况,一个完整的语音情感识别一般都要经过以下三个过程:
1、语音情感预处理
语音情感预处理的第一步就是语音分析,通过对语音的分析及降噪从而获得更高精度的测量结果。它的主要技术为“短时分析技术”,语音无论从整体上看它的特征,还是细分到表征其特征的参数都是随时间而变化。由于语音信号是一个非平 稳的变化 过程 ,所以我们 不能使用 处理平稳过 程信号的 数字信号 来处理 ;另一方面 ,语音信号是 由人的口 腔肌肉运 动而产生 ,类似声道 ,这种口腔的 肌肉运动所产 生的语音信 号变化是 缓慢的。 因此 ,虽然语音信号 时时都在变 化 ,但是在一 个很短的 时间内 ,它的特征也 是相对平稳的 。因此 ,明确了语 音信号建 立在短时的 基础之上 后 , 我们就可 以将语音分成一段,也可以说是一帧(10~30ms)。再将每一帧的语音特性参数组成一个序列。
语音分析按参数性质分类分为:时域分析,频域分析,倒谱分析。
语音分析按分析方法分类分为:模型分析法和非模型分析法。
2、语音情感特征分析提取
通过语音情感预处理后,我们可以得到语音的样本。因为语音情感特征的提取对于语音识别的结果有决定性影响,所以对于其特征的选取是研究的重中之重。一般选取的语音情感特征具有以下特点:
(1)能够在同一情感中基本稳定表现;
(2)对于不同的情感有明显的区别;
(3)外界影响较小;
(4)特征之间的相关度降到最小;
(5)对于特征的提取和测量不太复杂,特别是对于运算的时间复杂度不高。
经过研究表明,具有这些特点的语音情感特征可以分为声学特征和音学特征,声学特征又可分为韵律特征和语音特征,相关参数是基音,能量,过零率,共振峰(可以用线性预测法预测系数,用共振检测法计算共振峰频率)等;音学特征主要是表述人耳对声音的感知情况,相关参数是MFCCs和Mel频谱能量动态系数等。
3、SVM 语音情感识别介绍
语音情感识别主要分为语音预处理,语音情感特征提取,语音情感识别三部分。在情感识别部分,常见的有通过SVM模型进行情感识别。
以下为识别原理图:
在一整套SVM情感识别模型中,最先开始的预处理是数字化预处理以及语音端点检测处理,因为只有消噪,降噪后选取的有效的语音信号才能带来计算量的减少,提高识别的精确度。情感特征分析提取主要是将这些通过实验研究获得的情感特征送入情感识别模块,情感模式识别的两部分分别为情感分类模型的的训练和情感分类模型的测试。在情感分类模型的训练中,主要是利用上一步情感特征提取的全局统计情感特征,将SVM模型训练出具有情感分类能力。语音情感识别测试分为用训练好的SVM模型在情感语音库上进行性能检测,旨在提高其泛化能力的离线测试。和通过人声实时录制,对已训练好的SVM模型进行性能检测的在线测试。
四、总结与展望
语音情感识别技术具有重要的理论和研究价值,截至今日,其技术的发展已经有了长足的进步,不过它仍处于较为初级的研究阶段,距离技术的成熟仍有巨大的距离。本文仅对其基本原理、技术及其发展进行了简单的综合阐述,对于现有的语音情感识别技术来说只是冰山一角,在其研究阶段仍有很多问题亟待我们去解决,例如我们如何以更接近人类的方式对语音情感进行分析,以及解决基本情感状态集合的确定问题。在未来的某一天,计算机不再只会知道我们“说什么”,它会围绕人类的思维,并且在非接触的情况下获取人类心理活动等更多信息。对于这项具有挑战性的课题,随着人们对其语音情感识别理论及其实践的研究与认识,在未来的科学发展中一定会有重大的突破。
摘要:本文从语音情感识别的概念以及流程入手,对近些年来关于语音情感识别过程情况的阶段性研究成果进行了综合阐述,并对其未来研究及其发展进行了展望。
语音识别中小波分析的应用 篇5
关键词:语音识别,小波分析
1语音信号特征简述
语音信号是一种时变、非平稳的随机信号, 其主要频带特征和信号特征如下:
(1) 频带特征
人说话声音频率范围是300Hz~3400Hz, 男性大约在250Hz~2 000 Hz之间, 女性则大约在450Hz~4 000 Hz之间。
(2) 信号特征
清音:没有周期性, 主要在高频部分, 易混于噪音;
浊音:接近周期信号, 主要分布在低频部分;
噪音:语音之间间隙, 纯噪音的“无声区”。
2当前语音识别技术的难点
目前, 国内已有科大讯飞、云之声等为代表的高新技术企业以及高校、科研院所等单位, 在语音识别技术研究领域取得了不少成果, 但是依然面临着产业化发展的技术瓶颈, 主要表现在以下几个方面:
(1) 语音识别系统的适应性差;
(2) 高噪声环境下语音识别进展困难;
(3) 如何把语言学、生理学、心理学方面的研究成果量化、建模并用于语音识别, 还需深入研究;
(4) 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;
(5) 若将语音识别系统商品化, 还有识别速度、拒识问题以及关键词/句检测技术等细节问题需要解决。
3小波分析的基本原理及其在语音识别中的应用
(1) 基本原理
小波分析是一种强有力的信号分析工具, 它是时间和频率的局部变换, 能有效的从信号中提取信息。例如, 在信号的高频域部分, 运用小波分析可以取得较好的时间分辨率;在信号的低频域部分, 则取得较好的频率分辨率;在提取识别特征前, 用小波进行预处理, 能够选取语音信号的有用信息, 并且有效抑制无关信息对识别所产生的干扰。
(2) 小波分析在语音识别中的应用
小波分析在语音识别中的作用十分突出, 尤其对语音数据的预处理至关重要, 主要应用包括语音信号的降噪处理、语音信号压缩与重构以及幅度突变信号的检测等。
1) 语音信号的降噪处理
降噪处理的基本过程可分为三个步骤:1一维信号的小波分解;2小波分解高频系数的阈值量化;3一维小波重构。
主要特点:1高频部分所影响的是小波分解的第一层细节;2低频部分所影响的是小波分解的最深层和最低频层;3高频系数的幅值随着分解层次的增加而迅速的衰减, 且其方差也有同样的变化趋势。
2) 语音信号压缩与重构
语音信号压缩与重构主要包括三个步骤:1信号的小波分解;2对高频系数进行阀值量化处理;3对量化后的系数进行小波重构。
3) 幅度突变信号的检测
小波分析能够检测信号幅值变化的准确时间, 能够准确地将正弦信号幅度发生跳变的时间点检测出来。
(3) 典型技术解决方案
1) 利用Matlab消噪
1用ddencmp生成信号的默认阀值, 后利用wdencmp进行消噪;2用wthresh函数进行给定阀值量化处理, 比默认阀值可信度高;3小波分解结构中的高频系数全部置0, 强制消噪处理。
传统的语音去噪流程直接对语音信号进行阈值处理, 信号的高频部分置0, 造成去噪后信号的失真等问题。
利用Matlab消噪, 是在传统语音信号去噪技术的基础上, 通过改进算法和阈值函数来实现的, 即先进行清浊音分离, 后用不同阈值进行处理。
改进算法
1语音信号的清浊音分离 (清浊音判定方法:清音在较高的频率段上能量比较强, 而浊音的能量主要分布在较低的频率上) ;2对清音段和浊音段分别进行不同的阈值处理;3离散小波反变换, 获得去噪后的语音信号。
改进阈值函数
常用的几种阈值函数主要有:硬阈值函数、软阈值函数、折中阈值函数和μ律阈值函数等。
这些阈值函数使用中的缺点:1硬阈值法, 去噪效果不理想, 重构产生振荡;2软阈值法, 重构信号存在较大的失真;3前三种阈值函数, |X|≤T时都等于0, 会导致去噪后的信号产生较大失真。
改进的阈值函数, 即二次小波分解全局阈值函数, 具有以下优点:1输入信噪比较低时:效果和折中阈值法差不多, 克服了μ律阈值法去噪效果不佳的缺点;2输入信噪比较高时:其去噪效果和μ律阈值法差不多, 相对折中阈值法而言输出信噪比有所改善。
采用改进算法进行去噪的具体流程
1首先对信号进行三层小波分解, 三个高频系数和一个低频系数;
2其高频部分由噪声和信号两部分混合组成, 对高频部分进行二次小波分解, 得到二次分解后的6个高频系数和6个低频系数;
3此时对各高频部分分解后得到高频系数利用全局阈值进行去噪处理, 得到处理后的3个高频部分;
4将处理后高频系数和第一次分解的低频系数再经过小波逆变换, 得到去噪后的重构信号。
2) 基于小波包分解的语音特征提取
该方法主要是利用小波树已分解出来的各级系数来提取某类目标的信号特征, 具体操作步骤如下:
1首先对信号进行多尺度小波树分解, 分别提取从低频到高频的各个频段成分的信号特征;
2对小波树的各级分解系数重构, 提取各频带范围内的信号;
3求各频带信号的总能量;
4构造特征向量。
该种方法可以使语音信号特征在不同分辨率的不同子空间中显示出来, 得到的各个频带内的能量信号比原始信号有更好的类别可分性。
5语音识别小波分析技术的发展方向
上文主要介绍了国内外主流的语音识别小波分析技术及其技术路线。可以看出, 目前国内小波分析技术有了较大进步, 主要是通过对算法和函数的局部改进, 有效弥补了传统语音去噪技术的诸多不足, 具有一定的技术推动作用。
随着神经网络技术的不断发展, 未来语音识别小波分析技术将会呈现与神经网络相结合的发展趋势, 目前比较看好的是小波混沌神经网络技术 (wavelet chaotic neural network, wcnn) 。该技术将小波分析作为神经网络的前置处理, 为神经网络隐含层提供输入特征向量, 然后再提供给混沌神经元部分进行识别, 具有响应速度快、识别精度高等优点, 是未来小波分析在语音识别领域的技术发展趋势之一。
6语音识别小波分析技术的应用前景分析
现阶段, 语音识别正在人们日常工作和生活的各个方面愈加广泛应用。但由于语音环境的高度复杂性, 现有语音识别系统无一例外在噪声环境下遭遇识别盲区, 为语音产品的大规模推广应用制造了障碍。
因此, 语音数据预处理环节的去噪技术研究, 对语音识别技术的发展具有十分重要的理论和现实意义。而小波分析技术的应用则为去噪技术提供了新的解决思路, 未来若能与神经网络技术相结合, 实现优势互补, 必将极大推动语音识别技术的快速发展, 为促进语音产品早日实现产业化奠定基础。
参考文献
[1]袁莉芬等, 一种改进型的小波变换语音去噪算法, 《现代电子技术》, 2009年第18期.
[2]马道钧、刘然, 小波变换在语音识别中的应用研究, 北京, 北京电子科技学院学报, 2007.
[3]李从清等, 小波变换的语音去噪方法, 《计算机工程与应用》2009, 45 (36) .
智能机器人语音识别技术 篇6
关键词:智能机器人,语音识别,隐马尔可夫模型,DSP
0 引 言
语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别,以及大词汇量的连续词识别。对于智能机器人这类嵌入式应用而言,语音可以提供直接可靠的交互方式[1],语音识别技术的应用价值也就不言而喻。
1 语音识别概述
语音识别技术最早可以追溯到20世纪50年代[2],是试图使机器能“听懂”人类语音的技术。按照目前主流的研究方法,连续语音识别和孤立词语音识别采用的声学模型一般不同。孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合[3]。
语音的能量来源于正常呼气时肺部呼出的稳定气流,喉部的声带既是阀门,又是振动部件[4]。语音信号可以看作是一个时间序列,可以由隐马尔可夫模型(HMM)进行表征。语音信号经过数字化及滤噪处理之后,进行端点检测得到语音段。对语音段数据进行特征提取,语音信号就被转换成为了一个向量序列,作为观察值。在训练过程中,观察值用于估计HMM的参数。这些参数包括观察值的概率密度函数,及其对应的状态,状态转移概率等。当参数估计完成后,估计出的参数即用于识别。此时经过特征提取后的观察值作为测试数据进行识别,由此进行识别准确率的结果统计。训练及识别的结构框图如图1所示。
1.1 端点检测
找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是语音识别过程中一个基本而且重要的问题。端点作为语音分割的重要特征,其准确性在很大程度上影响系统识别的性能[5]。
能零积定义:一帧时间范围内的信号能量与该段时间内信号过零率的乘积。
能零积门限检测算法可以在不丢失语音信息的情况下,对语音进行准确的端点检测,经过450个孤立词(数字“0~9”)测试准确率为98%以上,经该方法进行语音分割后的语音,在进入识别模块时识别正确率达95%。
当话者带有呼吸噪声,或周围环境出现持续时间较短能量较高的噪声,或者持续时间长而能量较弱的噪声时,能零积门限检测算法就不能对这些噪声进行滤除,进而被判作语音进入识别模块,导致误识。图2(a)所示为室内环境,正常情况下采集到的带有呼气噪声的数字“0~9”的语音信号,利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声,之后为数字“0~9”的语音。
从图2(a)直观的显示出能零积算法在对付能量较弱,但持续时间长的噪音无能为力。由此引出了双门限能零积检测算法。
所谓的双门限能零积算法指的是进行两次门限判断。第一门限采用能零积,第二门限为单词能零积平均值。也即在前面介绍的能零积检测算法的基础上再进行一次能零积平均值的判决。其中,第二门限的设定依据取决于所有实验样本中呼气噪声的平均能零积及最小的语音单词能零积之间的一个常数。如图2(b)所示,即为图2(a)中所示的语音文件经过双门限能零积检测算法得到的检测结果。可以明显看到,最前一段信号,即呼气噪声已经被视为噪音滤除。
1.2 隐马尔可夫模型HMM
隐马尔可夫模型,即HMM是一种基于概率方法的模式匹配方法。它的应用是20世纪80年代以来语音识别领域取得的重要成果[6]。
一个HMM模型可以表示为:
式中:π为初始状态概率分布,πi=P(q1=θi),1≤i≤N,表示初始状态处于θi的概率;A为状态转移概率矩阵,(aij)N×N,aij=P(qt+1=θj|qt=θi),1≤i,j≤N;B为观察值概率矩阵, B={bj(ot)},j=1,2,…,N,表示观察值输出概率分布,也就是观察值ot处于状态j的概率。
1.3 模型训练
HMM有多种结构类型,并且有不同的分类方法。根据状态转移矩阵(A参数)和观察值输出矩阵(B参数)的不同有不同类型的HMM[7]。
对于CHMM模型,当有多个观察值序列时,其重估公式由参考文档[8]给出,此处不再赘述。
1.4 概率计算
利用HMM的定义可以得出P(O|λ)的直接求取公式:
式(2)计算量巨大,是不能接受的。Rabiner提出了前向后向算法,计算量大大减小。定义前向概率:
那么有:
(1) 初始化:
(2) 递推:
(3) 终止:
式(2)表示的是初始前向概率,其中bi(o1)为观察值序列处于t=1时刻在状态i时的输出概率,由于它服从连续高斯混合分布,故此值往往极小。根据大量实验观察,通常小于10-10,此值在定点DSP中已不能用Q格式表示。分析式(3)可以发现,随着时间t的增加,还会有大量的小数之间的乘法加法运算,使得新的前向概率值αt+1更小,逐渐趋向于0,定点DSP采用普通的Q格式进行计算时便会负溢出,即便不发生负溢出也会大大丢失精度。因此必须寻找一种解决方法,在不影响DSP实时性的前提下,既不发生负溢出,又能提高精度。
2 DSP实现语音识别
孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合[9]。
为了能实时控制机器人,首先需要考虑的是能够实现实时地语音识别。而考虑到CHMM的巨大计算量以及成本因素,采用了数据处理能力强大,成本相对较低的定点数字信号处理器,即定点DSP。本实验采用的是TI公司多媒体芯片TMS320DM642。定点DSP要能准确、实时的实现语音识别,必须考虑2点问题:精度问题和实时性问题。
精度问题的产生原因已经由1.4节详细阐述,这里不再赘述。因此必须找出一种可以提高精度,而又不会对实时性造成影响的解决方法。基于以上考虑,本文提出了一种动态指数定标方法。这种方法类似于科学计数法,用2个32 b单元,一个单元表示指数部分EXP,另一个单元表示小数部分Frac。首先将待计算的数据按照指数定标格式归一化,再进行运算。这样当数据进行运算时,仍然是定点进行,从而避开浮点算法,从而使精度可以达到要求。
对于实时性问题,通常,语音的频率范围大约是300~3 400 Hz左右[10],因而本实验采样率取8 kHz,16 b量化。考虑识别的实现,必须将语音进行分帧处理。研究表明,大约在10~30 ms内[11],人的发音模型是相对稳定的,所以本实验中取32 ms为一帧,16 ms为帧移的时间间隔。
解决实时性问题必须充分利用DSP芯片的片上资源。利用EDMA进行音频数据的搬移,提高CPU利用率。采用PING-PONG缓冲区进行数据的缓存,以保证不丢失数据。CHMM训练的模板放于外部存储器,由于外部存储器较片内存储器的速度更慢,因此开启CACHE。建立DSP/BIOS任务,充分利用BIOS进行任务之间的调度,实时处理新到的语音数据,检测语音的起止点,当有语音数据时再进入下一任务进行特征提取及识别。将识别结果用扬声器播放,并送入到机器人的控制模块。
实验中,采用如图3的程序架构。
3 机器人控制
机器人由自然条件下的语句进行控制。这些语句描述了动作的方向,以及动作的幅度。为了简单起见,让机器人只执行简单命令。由手机进行遥控,DSP模块识别出语音命令,送控制命令到ARM模块,驱动左右机械轮执行相应动作。
3.1 硬件结构
机器人的硬件结构如图4所示。
机器人主要有2大模块,一个是基于DSP的语音识别模块;另一个是基于ARM的控制模块,其机械足为两滑轮。由语音识别模块识别语音,由控制模块控制机器人动作。
3.2 语音控制
首先根据需要,设置了如下几个简单命令:前、后、左、右。机器人各状态之间的转移关系如图5所示。
其中,等待状态为默认状态,当每次执行前后或左右转命令后停止,即回到等待状态,此时为静止状态。
语音的训练模板库由4个命令加10个阿拉伯数字共14个组成,如下所示。
命令:“前”、“后”、“左”、“右”;
数字:“0~9”。
命令代表动作的方向,数字代表动作的幅度。当执行前后命令时,数字的单位为dm,执行左右转弯命令时,数字的单位为角度单位的20°。每句命令句法为命令+数字。例如,语音“左2”表示的含义为向左转弯40°,“前4”表示向前直行4 dm。
机器人语音控制的关键在于语音识别的准确率。表1给出了5个男声样本的识别统计结果。
4 结 语
工作中,成功地将CHMM模型应用于定点DSP上,并实现了对机器人的语音控制。解决了CHMM模型巨大计算量及精度与实时性之间的矛盾。提出了一种新的端点检测算法,对于对抗短时或较低能量的环境噪音具有明显效果。同时需要指出的是,当语音识别指令增多时,则需要定义更多的句法,并且识别率也可能会相应降低,计算量也会相应变大。下一步研究工作应更注重提高大词汇量时的识别率及其鲁棒性。
语音识别中环境失配补偿综述 篇7
随着信息技术的迅猛发展,信息的获取、交互与处理已成为推动当今社会发展的强大动力。以计算机为中心的信息技术不断地改变着人们的生活方式,这一过程被誉为信息革命,而信息革命的提出也已成为继工业时代之后的知识时代里的里程碑式的重大事件[1]。语音是人类最自然、最常用的信息交流方式。无论是在生活中还是在快速普及的互联网上,语音作为主要媒体之一,承载着大量的有用信息。因此,对语音中的信息进行分析、处理与识别无疑具有广阔的应用前景。作为语音处理的支撑技术之一,语音识别以识别语音信号并将其转换成文字为目标,在智能人机接口、机器人语音理解、语音内容分析、军事侦查、工业控制、听写机、语言辅助学习和呼叫中心等领域有着广泛应用。
语音识别的历史可以追溯到上世纪30年代初,当时的研究者们尝试识别特定的声音,并开始从声学角度识别音素或数字等,但其任务只是局限于小词表孤立词识别。上世纪60年代到80年代,语音识别技术得到了较快发展,典型的进展是基于线性预测的频谱分析[2,3]、基于线性规划的语音时间对齐方法[4]以及矢量量化的成功应用[5],识别任务也发展到了中等规模的孤立词识别和连接词识别[6]。上世纪最后20年里,语音识别技术取得了长足进步,最重要的标志是隐马尔可夫模型(Hidden Markov Model,HMM)在语音识别领域的创新性应用[7,8],同时还辅以前向后向算法、K均值训练算法、维特比解码算法、基于神经网络的条件概率估计方法[9]以及提出的各种模型自适应方法,使语音识别迈向了非特定大词表连续语音识别(Large-Vocabulary Continuous Speech Recognition,LVCSR)的新阶段。近十年来,语音识别获得了进一步的飞速发展,出现了区分性训练、不确定性解码、噪声鲁棒性以及机器学习等一系列新技术,语音识别已经逐渐走出实验室,不断进入实际应用。
经过数十年的发展,语音识别技术取得了巨大进展,在理想环境下,目前的小词表以及中等词表语音识别系统的识别率能达到99%以上,LVCSR系统识别率也能超过95%[10],但在训练和测试条件不匹配时,识别率就会急剧下降。有众多因素会造成这种不匹配,较为典型的主要有:声学环境失配、说话方式差异、说话人差异以及词汇量和领域差异。
其中,声学环境差异是导致系统性能下降的主要原因,也是语音识别系统走向应用所面临的最大挑战。声学环境可以用如下公式建模:
式中,x(τ)和y(τ)分别为干净语音和畸变语音,h(τ)和v(τ)分别为信道畸变和加性噪声。从式(1)可以看出,造成环境失配的主要原因在于噪声的存在,这种噪声可能是加性的,卷积性的,也可能是两者的混合。诸如训练环境没有噪声而测试环境存在噪声,或者训练环境和测试环境存在不同的噪声,这都会引起环境失配。文献表明,当存在信噪比为10dB加性噪声时,未做任何补偿的孤立词识别系统的识别率将从99%降到49%[11];随着信噪比继续降低,语音识别系统将无法使用。相比较而言,人的听觉在噪声情况下则具有很强的鲁棒性。研究发现,在噪声环境下人的误识率虽然也会增加,但其降低的速度与当前的语音识别系统相比,则要慢上许多[12]。本文正是针对语音识别中环境失配问题,研究并提出增强系统环境鲁棒性的有效方法,从而推动语音识别技术走向现实应用。
1 国内外研究现状与分析
式(1)是声学环境的数学描述,全面刻画了信道畸变和加性噪声。在现实应用中,环境失配存在三种可能的情况,即信道畸变、加性噪声和二者同时并存。相应地,目前的环境失配补偿方法也可以大致分为信道畸变补偿、加性噪声补偿和联合补偿三类。下面将按照这一分类方式阐述环境失配补偿的研究现状。
1.1 加性噪声补偿方法
加性噪声在时域和频域都呈加性,但在对数频域和倒谱域则因对数运算表现出了高度非线性。加性噪声的补偿大致可以分为特征规正、特征增强和模型补偿三种方式。特征规正首先假定语音特征服从某一概率分布,而噪声的存在却改变了这种分布,可通过规正特征使其实现指定的概率分布,因此减小了噪声的影响。比如,倒谱均值规正(Cepstral Mean Normalization,CMN)[13,14]中通过在一个时间段内统计倒谱均值,然后从各帧中减去这一均值,达到了减小噪声影响的目的。倒谱均值方差规正(Cepstral Mean Variance Normalization,CMVN)[15]实现了同时规正倒谱特征的均值和方差,使得规正后的特征均值为零,而方差为一。倒谱直方图规正(Cepstral Histogram Normalization,C-HN)[16]则是用倒谱直方图代替其概率分布,通过将直方图规正到已知的形状以达到规正倒谱概率分布的目的。
加性噪声的补偿中的另一种,特征增强则是可以通过增强信号后提取特征、或者直接补偿特征来达到增强识别系统鲁棒性的目的。
在信号增强方面,谱减[17]和非线性谱减[18]是出现得较早且研究得较多的语音增强方法。谱减法首先利用噪声段估计噪声谱,然后从各帧语音谱中减去噪声谱以实现信噪比的提高。而针对谱减法会形成残留噪声(音乐噪声)的不足,非线性谱减法则通过比较噪声谱和混噪语音谱后采取分段处理策略,即能有效减少残留噪声,但以上这两种均不适用于快速时变的噪声环境。维纳滤波也已广泛用于语音增强,该方法在基于干净语音和输出语音的均方误差最小的条件下来设计线性滤波器处理混噪语音。欧洲分布式语音识别编码和传输标准[19]就采用了两阶段的梅尔弯折维纳滤波器。而且自适应滤波和卡尔曼滤波[20]对时变噪声的表现出了一定的跟踪能力。子空间降噪方法[21]是将混噪语音投影到一个子空间,并认为清晰语音和噪声分布在不同的分量上,通过压制噪声所代表的分量实现降噪。经过文献分析可知,语音信号或频谱被增强后,噪声的成分将有所减少,理论上由其提取的特征所受到的噪声影响也会相应地变小。
在特征增强方面,基于数据驱动的方法因其运用效果显著而受到广泛关注。这类方法在建立清晰语音和混噪语音之间的关系方面,需要清晰环境和噪声环境下同时录制并要求得到对齐的立体声数据。微软的学者们在这方面作了深入研究,提出了一系列方法。Acero等提出了基于码字的倒谱规正(NR-Dependent Cepstral Normalization,SDCN),其中假定清晰语音的特征服从高斯混合(Gaussian Mixture Model,GMM)分布,通过迭代的方式在混噪语音上估计噪声参数,进而补偿混噪特征。邓力等提出的SPLICE[22]是通过学习混噪语音和清晰语音特征的联合分布,然后运用混噪特征得到清晰特征的最小均方误差(Minimum MeanSquared Error,MMSE)估计。另一种使用立体声数据的补偿方法是RATZ[23],该方法仍然使用高斯混合函数实现清晰语音建模,其后运用MMSE估计获得清晰语音的估计值。尽管基于立体声数据的补偿方法能取得较好效果,但却需要预先知道噪声环境以及相应的立体声数据,应用条件苛刻,因而对于未知声学环境并不适用。
目前,多数方法均建基于对噪声的建模与估计,但是,噪声的时变特性以及其与语音之间的复杂作用方式却使得对噪声的建模与估计非常困难且不可靠。丢失数据技术[24]不对噪声作任何假设,也无需为噪声建模与估计,而只需要知道噪声对语音频谱污染的量级程度即可实现噪声畸变的补偿。该方法在前端用一个标记向量将语音特征分为可信的和不可信的两部分,在后端或者丢弃不可信部分,直接利用可信部分进行识别,或者利用统计的方法重估丢失部分特征,然后利用可信部分和重构部分进行识别[24,25]。标记向量根据语音谱的局部信噪比确定,最初只含有元素0和1,分别表示对应特征完全丢失和完全可信,而后扩展到可以取0~1之间的任何数,即所谓的软决策[26,27]。丢失数据方法最初运行在对数频谱域,后来又拓展到倒谱域[28,29]。在丢失频谱的重构方面,可以采用基于最大后验概率或基于聚类的估计方法[25]。在估计过程中,各种先验知识也可以参与其中,最为常用的则是时频相关性。比如文献[30]在频谱上组合传统的基于频率相关性和基于时间相关性的方法重构丢失特征,并对二者进行了一个合理的权衡,取得了一定的效果。基于丢失数据技术的方法虽然不需对噪声进行建模和估计,在信号处理上也类似于人耳对声音的处理方式,但在计算标记向量时却需要判断混噪频谱是否可信,这就同样存在着一个难以解决的问题。与丢失数据方法类似的另一种方法是不确定解码方法[31]。该方法根据信噪比对不同的特征赋予不同的置信度,并在后端充分考虑这些置信度以达到提高系统鲁棒性的目的。
近年来,随着稀疏分解与重构理论的成熟,稀疏编码(Sparse Coding)[32,33]在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示,获得信号的稀疏表示(Sparse Representation)。其中,每个基元信号称为一个原子(Atom),所有原子组成的集合称为字典(Dictionary)。稀疏性是指信号被分解到某个字典上时,仅有少量原子的系数不为零。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性[34];另有研究表明,人类的感知神经系统在对外部刺激进行编码时也总是从海量神经元中仅仅激活其中极少的一部分[35,36]。这就意味着人类的感知系统在处理信号时,也利用了稀疏性原则。稀疏性似乎是信号本身具有的特点,是一种先验知识;而稀疏编码的有效性却正是利用了这种先验知识。作为一种新兴的技术,稀疏编码可广泛用于信号压缩、分析、去噪和分离等[37]。尤其是近年来,该技术在图像处理及模式识别领域的有效应用[38]使其得到了更加深入和广泛的探索与研究。
用稀疏编码增强语音频谱需要解决三个问题,即字典构建、稀疏分解和频谱重构。字典构建是稀疏编码的首要问题,目的在于选取有代表性的基元信号(原子)构成字典。目前的方法大致可分为基于选择的和基于学习的两类。基于选择的方法从预先定义的基函数中直接选取需要的原子组成字典[39,40,41]。基于学习的方法则在满足重构误差要求的情况下,从大量数据中选取一组能稀疏表示信号的原子组成字典[42,43]。稀疏分解的目的在于将信号表示为各原子的线性组合,其求解过程是非线性的;典型的方法有正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)[44]、匹配追踪算法(Matching Pursuit,MP)[32]和基追踪去噪算法(Basis Pursuit Denoising,BPDN)[45,46]等。频谱重构则利用稀疏表示和字典重构干净频谱,其过程是线性的。近年来,在语音及特征增强方面,稀疏编码开始应用于语音增强[47,48]和鲁棒语音识别[49,50]。但在用法上大多是将稀疏编码作为工具简单使用,缺乏针对语音信号特殊性的有效分析和应用。如果硬件和应用场合允许,基于麦克风阵列的语音增强也可用于信号去噪以及特征提取。麦克风阵列可以首先确定声源位置,然后采用空域滤波的方式,通过自适应滤波器增强某一位置的声音,同时抑制其他位置的声音,典型的方法有基于波束形成的方法[51]、多通道维纳滤波[52]、多通道子空间方法[53]和空间-时间预测法[54]等。但基于麦克风阵列的增强方法对硬件有较高要求,也不适合处理已经存在的单通道语音信号。
1.2 信道畸变补偿方法
当加性噪声可被忽略时,信道畸变在时域表现出卷积性,而在频域则表现出乘积性。因此,目前的方法普遍认为,信道畸变在对数频谱域或在梅尔倒谱域是一个加性的常量。补偿方法也可分为特征规正、特征补偿和模型补偿。特征规正类方法中,最为典型的则是CMN和相关谱滤波(RelAtive SpecTrA,RASTA)[55]。CMN认为信道影响存在于特征的直流分量中,在各帧中减去均值即可消除直流分量,从而去除信道影响。RASTA则提出信道产生的畸变存在于信号的慢变分量中,通过设计一个低通滤波器抑制信号的慢变分量,以达到抑制信道畸变的目的。CMN和RASTA是两种标准的规正处理方法,被广泛用于语音识别系统中,但文献中大量实验表明RASTA在没有畸变时反而会降低系统识别率。此外,文献[56]又提出可通过一个梅尔频域的带通滤波器逐帧处理畸变语音。该方法首先通过区分性函数进行重要性分析求得滤波参数,然后利用传统的特征轨迹滤波方法去除信道影响。实验表明,该方法与CMN和RASTA组合后则能够能进一步提高识别率。在特征补偿方面,基于贝叶斯框架的信道参数估计方法[57]是假定信道畸变为一个加性常量,并分别在假定语音服从高斯、高斯混合模型和隐马尔可夫模型的情况下,利用最大似然、最大后验概率在畸变语音中估计得到信道偏移量。补偿时,通过在特征中减去信道偏移量,达到补偿信道畸变的目的。在模型域,信号偏移量去除法(Signal Bias Removal,SBR)[58]在声学模型上使用期望最大化算法(Expectation Maximization,EM)迭代地估计信道偏移量,然后在模型域修改高斯均值,最后利用修改后的模型识别畸变语音。文献[59]用丢失数据技术,将倒谱特征的静态和动态参数表示成对数频谱的线性组合。该方法基于丢数据框架,利用噪声谱的可信部分,在对数频谱域或倒谱域使用最大似然准则估计一个直流偏移量以实现信道畸变的补偿。
近年来,研究者们开始关注语音识别中另一类由信道引起的畸变,即窄带语音畸变问题[60,61,62,63,64]。当待识别语音的带宽比训练语音的带宽窄时,与训练语音相比,待识别语音即丢失了部分频段,这种情况也将导致环境失配[60]。这一问题在复杂信道环境(比如互联网、分布式语音识别等)中广泛存在。在增强语音质量方面,解决这一问题的方法是人工频带扩展(Artificial Bandwidth Extension,ABE),即将窄带语音的频带加以扩展,使其成为宽带语音。典型的任务是将带宽为0~3.4kHz的窄带语音扩展为0~8.0kHz的宽带语音。ABE用以解决的问题就是利用现有窄带数据,重构得到3.4kHz~8.0kH频段的频谱。目前大多数方法都基于语音的源-滤波器产生模型。这些方法首先产生一个激励信号,然后用一个滤波器模拟声道处理激励信号以生成高频段频谱,再组合窄带信号和重建的高频信号,而最终获得宽带信号。在激励信号方面,目前常用的方法有频谱折叠、频谱变换和非线性处理等[65],也可使用正弦合成[66]或调节噪声模拟激励源[67]。声道通常用一个全极点滤波器进行模拟,而滤波器参数可以是线性频谱或倒谱系数[66]。因窄带信号是已知的,可以利用窄带特征估计高频段滤波参数。常用的方法有基于码本[66,68,69]、高斯混合模型[70,71]、隐马尔可夫模型[72,73]以及人工神经网络[66,74]等的方法。
尽管从信号增强的角度已经开展了大量工作用于扩展频带,但也有研究表明,直接运用上述方法扩展频带后所提取的特征在提高系统识别率上将非常有限[75]。原因在于用ABE方法重构的高频段虽然能提高测试个体的主观听觉,但这和提高识别准确率的目标并不一致,由此提取的特征在识别时仍然存在失配问题。研究者们尝试直接以语音识别为目的补偿带宽失配。在这些方法中,环境自适应类方法对此类畸变有一定效果,文献[60]将基于GMM的频段扩展方法和基于HMM的声学模型结合在一起,实现宽带声学模型对窄带语音的识别。文献[61]采用特征域的限定最大似然线性回归(Constraint Maximum Likelihood Linear Regression,CMLLR)将宽带特征直接转变为窄带特征,而后用于窄带声学模型的训练。文献[62]和[63]通过训练数据学习得到一组矫正函数以实现畸变语音特征向干净语音的转变;而文献[64]则在丢失数据技术框架下利用语音频谱的时频相关性,实现丢失频段的重构。尽管以上这些方法都是以提高语音识别或语音检索系统的性能为目的,而且取得了一定的效果,但其本质上仍是特征域补偿方法,而且又严重依赖于训练数据。而且这些方法要获得良好实现,一方面需要大量训练数据,另一方面要求语音带宽稳定。此外,这些方法只是单纯地补偿窄带引起的畸变,而对常规信道畸变却未能同时加以考虑,因而将导致这些方法仅适用于单一的带宽失配场合,而不适合各种畸变并存的复杂环境。
1.3 联合补偿方法
当信道畸变和加性噪声同时存在时,就需要对这二者同时进行补偿。在特征域可以选用能有效表示信号的特征,在模型域可以选用数据驱动的方式实现各种自适应,也可以利用畸变模型估计噪声参数然后补偿声学模型。鲁棒特征提取旨在有效表示信号并提取受噪声影响较小的特征以提高系统鲁棒性。常用的特征有基于人耳听觉特性的梅尔频率倒谱系数(Me-Frequency Cepstrum Coeficient,MFCC)[76]、基于自回归模型的线性预测系数(Linear Prediction Coeficient,LPC)[77]和基于听觉感知的相对谱感知线性预测系数(RelAtive SpecTrA Perceptual Linear Prediction,RASTA-PLP)[78]。此外,目前较新的Teager能量倒谱系数(Teager Energy Cepstral Coeficient,TECCs)通过采用一种稠密平滑的滤波器组以及可变的能量计算策略,取得了比MFCC更好的噪声鲁棒性。而瓶颈特征(Bottleneck Feature,BF)[79,80]则借助含有少量显层和大量隐层节点的瓶状神经网络生成新特征用以提取,获得了一定成果。虽然研究者们在特征提取方面做了大量尝试,提出了一系列特征,也取得了一定的成果。但对当前还有哪些参数携带着最有用、最具鲁棒性的信息,却仍处于不明朗之中。因为特征参数能表示语音,在一定程度上也能表示噪声,换言之,特征参数中不可避免地混有噪声,这将引起识别率的下降。
由于噪声影响在倒谱域呈现高度非线性,Moreno[81]等提出用泰勒级数(Vector Taylor Series,VTS)将非线性关系近似展开成线性,同时假定清晰语音服从高斯混合分布,并运用每一句语音在线估计信道参数和噪声参数,然后再进行特征补偿。该方法无需额外训练数据,能在短时间内动态补偿噪声,具有一定的优势。
特征域补偿方法试图补偿语音特征,使其与模型相匹配,而模型域方法则修改声学模型使其适应输入的特征。匹配训练的思路较为直观,即直接采集某一噪声环境下的语音进行标注,然后重新训练模型,用来识别这一噪声环境下的语音。这也意味着每遇到一个新的环境,匹配训练都需要重新采集、标注数据以及训练模型,其结果虽能保证识别率,但耗时耗力,无法推广。多重风格训练[82]可以采集所有可能的噪声环境下的数据,用以训练声学模型。但该方法也带有明显弊端:一方面,对未知噪声环境中的噪声类型无法穷尽,另一方面,过多的数据会导致声学模型的区分能力降低。总之,匹配训练和多重风格训练虽然能得到较高的识别率,但运算量不小而且需要又大量未知噪声环境下的标注数据,不适合LVCSR,因而只能用于在实验中作为对比方法以考察其他方法的性能。
模型域方法更多采用的策略,则是训练干净环境下的声学模型,然后利用目标环境下的少量数据,通过模型适应的方式增强系统对环境的适应能力。模型分解方法[83]可修改声学模型的基本结构,既补偿了均值和方差,又能补偿高斯混合数和混合系数,因此能使因噪声污染而呈现非高斯分布的语音得到综合补偿。该方法训练一个干净语音HMM和一个噪声HMM,然后在这两个HMM组成的状态空间进行联合解码。混噪语音与清晰语音以及噪声之间的关系经常通过一个最大值算子加以近似,因此该方法对低能量语音帧建模存在误差。另外,该方法使用的是对数谱特征而不是倒谱特征,计算复杂度相当高。
并行混合模型(Parallel Model Combination,PMC)[84]将清晰语音的HMM和噪声HMM从倒谱域变换到线性频域,然后根据失配函数合成后,再变换至倒谱域,获得混噪语音的声学模型。数据驱动并行混合模型(Data-driven PMC,DPMC)则采用蒙特卡罗方法获得清晰语音和噪声的概率分布,然后进行混合,运算复杂度也很高。尽管文献报道PMC取得了好的效果,但该方法在实际应用中存在一定的缺陷,表现为,一方面需要为每种噪声训练模型,另一方面,当噪声时变时,还必须随时更新模型。
另外,各种自适应方法,诸如最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)[85]、CML-LR和最大后验概率(Maximum A-Posteriori,MAP)[86]等用畸变环境下的标注语音进一步训练模型也能增强系统鲁棒性。这几种方法最初用于说话人自适应,而实验表明,这些方法也同样适用于环境自适应。MLLR假定清晰语音和混噪语音的模型均值和方差可以通过一个线性变换矩阵相互转换,然后在期望最大化(Expectation-Maximum,E-M)算法框架下通过最大化自适应数据的似然比得分,最终求得该变换矩阵。CMLLR与MLLR的不同之处则在于前者的均值变换矩阵与方差变换矩阵同一,而后者却无此限制。MAP自适应在最大化混噪数据后验概率的准则下重估模型参数。由于MAP估计的参数多于MLLR,因此需要更多的自适应数据。当自适应数据不足时,其性能明显低于MLLR,而随着自适应数据的增加,其性能将趋近于匹配训练方法。
2 结束语