嵌入式语音识别

2024-11-01

嵌入式语音识别(通用10篇)

嵌入式语音识别 篇1

语音识别就是让机器听懂人类的语言,本质上属于模式识别,起源于上世纪50年代,1952年贝尔实验室的Davis等人首次研制成功能识别10个英文数字的语音识别系统———Audry系统[1]。70年代 ~90年代是语音识别理论快速发展的时期,70年代的动态时间规整(DTW)和线性预测技术(LPC),80年代的隐马尔可夫模型(HMM)和人工神经网络(ANN), 90年代的支持向量机(SVM)等都是这一时期涌现出的典型算法理论,也是目前语音识别的主流技术。20世纪90年代开始语音识别逐渐从实验室走向实用化,期间一些世界级的知名公司象苹果、IBM、AT&T等都投入巨大的人力、物力资源进行实用化研究,并相继推出了各自的典型产品。如:IBM公司推出的ViaVoice,DragonSystem公司的Natu- rallySpeaking,Microsoft的Whisper等,这些产品的平均识别率都达到95%以上。随着集成电路技术的发展,各种微处理器的功能越来越强大,使得嵌入式语音识别成为一个新亮点,并已经广泛应用到汽车导航、智能家居、高端玩具、自动信息查询等领域。

1 系统硬件平台

系统硬件以S3C2410为核心,配以外围语音模块、通信模块、存储模块、电源模块等,如图1所示。

1.1 微处理器的选择

嵌入式语音识别系统通常以高性能的微处理器和DSP为双核来构成,也可以高性能的微处理器为单核来构成,应根据实际需要来选择,对于孤立词、小词汇量识别系统用单核就能胜任了。微处理器一般采用ARM9或ARM11,ARM11的性能要比ARM9强很多,当然价格也贵很多,应根据系统的性能要求来选择微处理器,一般的识别系统采用ARM9就能够完成 了。ARM9处理器的 类型很多 包括AR M926EJ-S、ARM946E-S、ARM966E-S、ARM968E-S、ARM996HS、ARM920T和ARM922T。Samsung公司S3C2410A处理器是一款低功耗,高性能的小型处理器,有助于嵌入式系统的成本控制。S3C2410A采用了ARM920T内核,0.18umCMOS工艺,内部集成了内存管理单元(MMU), 支持WinCE,EPOC 32和Linux等嵌入式操作系统,支持多种总线接口。1通道IIC总线可进行8位串行双向数据传输,标准模式下数据传输速度可达100kbit/s,最高可达到400kbit/s;1通道音频IIS总线接口,可基于DMA方式工作;兼容2通道SPI协议2.11版。时钟频率为200MHz,最高可达266MHz[2]。

1.2 外围电路

1.2.1 语音芯片

UDA1341TS是Philips公司生产的专用语音处理芯片,能对语音信号进行程控放大、内插滤波、DAC滤波、支持IIS音频接口,具有DSP处理能力, 因此,UDA1341TS是嵌入式语音识别系统的首选语音芯片。此外,Infineon公司生产的SDA80D51语音芯片也是不错的选择。

1.2.2 存储芯片

S3C2410微处理器内置的内存容量较小,要运行Linux或WinCE需要扩展内存,通常采用SDRAM芯片。SDRAM (Synchronous Dynamic Random Access Memory),即同步动态随机存储器。它是一种动态存储器,即信息是存放在MOS管的寄生电容上的,需要定时刷新。它的主要特点是成本低、容量大、速度快(存取时间小于10ns) 被广泛应用于嵌入式系统中。SDRAM芯片大多数是8位 /16位数据宽度,而ARM9是32位的,因此需要通过位扩展的方式将SDRAM芯片扩展成32位的。例如可将两片16位64MBytes的SDRAM芯片(HY57V561620)扩展为32位64MBytes的。系统运行时首先将启动代码从闪存复制到SDRAM中,此外系统运行时产生的临时数据、变量、堆栈也都存放在SDRAM中。

FLASH存储器(闪存)是嵌入式系统的另一种重要的内存芯片。Flash Memory和SDRAM不同, SDRAM是挥发性的存储器,即断电后上面的信息全部丢失,所以SDRAM存储器需要刷新电路不断刷新,以保持上面的数据,而flash memory是非挥发性存储器,即断电后信息仍然能保存(能保存10年以上)。目前闪存主要有两种类型,Nor Flash和Nand Flash,Nor Flash采用并行数据传输方式,因此存取数据速度快,Nand Flash采用串行数据传输方式,因此存取数据速度慢,但Nand Flash占用系统的端口少,为了节省系统资源,通常都采用Nand Flash来构成。嵌入式操作系统和识别算法代码都存放在FLASH存储系统中。

1.2.3 通信接口电路

S3C2410A支持RS-232串行接口,RS-232采用负逻辑,即高电平(+5V~+15V) 为逻辑0,低电平 (-5V~-15V)为逻辑1,而系统板是采用正逻辑,因此需要电平转换芯片,常用的电平转换芯片有MC1489、MAX232、MC1488等 ,MAXIM公司生产 的MAX232应用最广泛。

2 系统软件平台

常见的嵌入式操作系统主要有Windows CE、Vxworks、NetBSD、pSOS、Rtems、QNX、Linux等[3]。其中Linux最受嵌入式工程师的青睐,Linux的优点: (1)完全免费,开放源代码,这样设计人员可以通过网络免费获得,并可以通过简单的改造就能获得自己需要的操作系统;(2)支持多用户、多任务,各个用户可同时开发,互不影响,多个应用程序能同时并独立地运行;(3) 支持多种硬件平台,支持x86、ARM. ALPHA. SPARC,MIPS等硬件平台。

2.1 系统软件设计思路

在目标板上建立Linux系统,通常可分四步进行[4]:(1)确定系统的组件配置。(2)创建系统内核。 (3)创建根文件。(4)设置引导软件。嵌入式系统是资源受限的一个微型系统,存储空间通常都不大,因此一般都采用交叉编译的方式进行开发,即将Linux开发工具、引导程序、系统内核都安装在宿主机 (HOST)上,然后在目标板(TARGET)上运行。

2.2 系统引导文件 BootLoader

BootLoader的作用类似于PC机的BIOS,在Lin- ux内核运行之前先由BootLoader将系统的硬件设备初始化,建立内存空间映射表,将系统环境设置在一个合适的状态。BootLoader的启动过程分两个阶段, 第一阶段:进行宏定义,初始化一些常量、变量,设置中断向量表,初始化硬件、寄存器、堆栈;第二阶段: 调用初始化函数,加载系统内核,设置启动参数。常用的BootLoader引导文件有:U-boot、armboot、blob、vivi等[5]。

2.3 linux 向 ARM 处理器的移植

一个完整的嵌入式Linux系统主要由Linux内核和根文件系统组成。由于嵌入式系统的存储空间有限,因此需要将标准的Linux内核进行瘦身并重新配置,然后编译生成内核映文件。Linux的根文件系统可直接复制拷贝到NANDFLASH中。

3 识别算法

语音识别算法有:动态时间规整(DTW)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、人工神经网络(ANN)、支持向量机(SVM)等。嵌入式语音识别系统主要为孤立词或小词汇量的识别系统, 同时它是个资源受限的系统,因此,识别算法的选择在识别精度满足要求的前提下应尽可能简单。动态时间规整 (DTW)和隐马尔可夫模型(HMM)是嵌入式识别系统最常用的两种识别算法。

3.1 动态时间规整(DTW)

动态时间规整(DTW)将时间规整和距离测度结合起来的一种非线性规整技术, 它成功地解决了语音信号发音长短不一的模板匹配问题。它实质上是用线性方式来描述在时间上或空间上是非线性的两个序列之间的相似度的一种算法[6]。对于孤立词系统,DTW识别原理为:首先用部分语音信号进行模式匹配训练得到最佳匹配模板;然后将未知语音帧与全部参考模板进行相似度计算, 距离最小的参考模板即为识别的结果。

3.2 隐马尔可夫模型(HMM)

HMM是一个双内嵌的随机过程,一个描述状态的转移,另一个描述状态和观察值之间的统计关系[7]。而人类的言语过程也刚好是一种双重随机过程,因为语音是听得见的(可观察的),但它的产生是由人类的大脑根据思维状态(不可观察的)、及语言知识、语法规则决定的。因此,HMM模型非常适合对语音信号建模。HMM是基于统计概率的分离器模型,其特点是系统的扩展性好,即可任意增加新样本,只需对新样本进行训练,而不需要对所有的样本进行训练,因此适合小词汇量的嵌入式语音识别系统。HMM识别原理:首先语音信号经过分帧、加窗、端点检测等预处理;然后进行特征参数提取,特征参数有:线性预测倒谱系数 (LPCC) 、美尔频倒谱系数 (MFCC)等;最后用维特比(vietrbi)算法进行识别。

4 结束语

本文对嵌入式语音识别系统所涉及的硬件平台S3C2410、软件系统Linux、识别算法作了全面的分析研究。对普通的嵌入式语音识别系统硬件采用ARM9已完全够用了,对于高端的识别系统可考虑采用ARM11;操作系统Windows CE和Linux都是非常优秀的。对于实际的识别系统应综合考虑系统的工作环境(背景噪声的强弱),识别率的高低,实时性的要求等因素来配置系统硬件及外围器件。

语音识别帮你忙 篇2

这些应用有,用语音命令来处理一连串有组织的任务:从管理电子邮件和语音邮件、控制日程表,到记录下头脑中一闪即逝的创意,提供相关服务的公司包括约特网络公司(Jott Networks)、Nuance和Vlingo。数家市场研究公司都预言,接下来的三年将成为这种语音识别技术应用的转折点。欧帕斯调研公司(Opus Research)相信,到2011年,带有语音识别功能的移动设备市场将达到2.39亿美元,将比2006年增长五倍。

“目前,语音识别技术应用面临的问题是复杂性。”约翰·波拉德(John Pollard)说,他是约特网络公司的联合创始人兼CEO。今年初,这家公司就开始了一系列语音控制应用软件的测试。“由于很多人远程办公,而且他们中大多数人的个人生活和工作的界限很模糊,这使问题进一步加剧。通过运用声音,他们能时刻关注着世界。”

“Jott lo Someone Else”是约特网络公司开发的一个应用软件,通过它你能够口述一个备忘录,并通过电子邮件和声音文件传送给自己或者其他人或者一个小组,也可以与超过40种网络服务相关联。7月份,约特网络公司就会引入与微软公司的Outlook软件的关联,这能够让你对着手机口述一封电子邮件的草稿, 同样,也能与Google的日程表项目建立关联,通过语音提示就能创建新的条目。

只要你能忍受广告,约特网络公司提供的服务并不收费,当然你也可以花钱购买没有广告的服务,但是直到该文截稿时,这项服务的价格还没有最后确定。

Vlingo公司则正在对一款名为“Vlingo Find”的应用软件进行测试。这项免费的搜索和地图服务适用于包括AT&T、Sprint、T-Mobile还有Verizon这些运营商旗下的手机。你可以靠说话就能够控制那些需要输入问题的文本框。如果你是Sprint的手机用户,你也许已经在使用来自Nuance公司的名为“Voice Control”的服务,这也是目前最成形的移动语音控制技术应用服务。目前该服务有几千个用户,“Voice Control”包括由一键访问式或通过声音指令就能实现的15种预置应用,其中包括互联网搜索软件信息、天气预报、商铺位置和指路、口述电子邮件、语音拨号等。

迈克尔·汤普森(Michael Thompson)是Nuance公司的副总裁兼总经理,他说语音拨号功能是“Voice Control”的用户最普遍使用的服务,互联网搜索是其次,接下来则是口述短信息。这些服务每个月收费6美元,可以在智能手机上运行,包括黑莓、Palm Treo和装载了Windows Mobile操作系统的移动终端。汤普森说他们公司正在与其他的终端厂商进行接触。

26岁的大卫·沃尔夫(David Wolf),是SES解决方案公司(Syntryx Executive Solution)的创始人兼CEO,这家公司位于科罗拉多的波尔德(Boulder)。在他右手臂受伤的时候,他感同身受地体会到了语音识别工具的价值。由于沃尔夫大约有40%的时间都在国外,每天在打电话上花的时间有4-5个小时,他需要找到管理电子邮件信件和其他短信息的办法。他的一个朋友向他推荐了PhoneTag公司开发的能将语音转化为文本的服务,至今他仍在使用。

嵌入式语音识别系统性能分析 篇3

实验室环境下的语音识别算法已经基本成熟,基于HMM(隐含马尔可夫模型)的非特定人连续语音识别系统成为主流,在标准发音和安静环境的条件下可以取得令人满意的识别正确率。但是,应用于小型便携的嵌入式产品,基于HMM的非特定人连续语音识别系统还存在识别性能与识别速度、识别性能与内存消耗的尖锐矛盾,成为当前语音识别应用的技术瓶颈之一。在此背景下,本文在三种不同的嵌入式系统上建立了基于HMM的非特定人大词汇表连续语音识别的实验平台,对语音识别的实时性能进行了测试分析,讨论了非特定人连续语音识别系统在不同嵌入式平台上的可行性。

2 非特定人连续语音识别系统

基于HMM的非特定人连续语音识别系统是一个极其复杂的统计模式识别系统,包含有众多的功能模块、繁杂的程序结构和大量的运算,远比采用模板匹配技术的孤立词识别系统要复杂得多。

语音识别在执行搜索算法时,一般是根据设定好的语法关系,并以HMM模型为节点,来展开一个大的识别网络(或称搜索空间),然后再利用高斯概率计算的结果在这个大的网络中寻找一条最合适的路径,作为正确的识别结果输出。假设一共有M个HMM模型,没有文法约束,采用无任何优化的穷举法进行搜索,而待识别的语音长度为L(也就是说这句语音的识别结果将由L个HMM模型组成),那么可以说,这种情况下的搜索算法的计算复杂度将为O(ML)。所以,搜索算法的复杂度与HMM模型数目(等同于识别任务的复杂程度)以及待识别语音的长度有着直接的关系。如果是N-Best搜索算法,即在每个节点处保留N个可能的结果,那么计算复杂度将会升至O(NLML),即使对于中小词汇表的语音识别系统,这样的计算复杂度也是惊人的。如果采用Viterbi算法进行优化,那么每个节点处将只保留最好的可能结果,且每一步所有的节点都要同时进行比较,以竞争出一个最好的结果出来,所以此时的计算复杂度会有显著的下降,大约为O(LM)量级。虽然下降很大,但仍可以看出,搜索算法的计算复杂度将会随着HMM模型数目和识别句子的长度的增加而线性增长。

语音识别中高斯概率计算是HMM模型计算的主要组成部分,它的过程相对于前端处理和搜索算法来说,比较简单。但是它涉及到大量的浮点运算,所以从运算量上来说,它是语音识别最重要的部分。假设我们采用的高斯输出概率的混合度为T,待识别的语音长度为L(也就是说这句语音的识别结果将由L个HMM模型组成),HMM模型个数为M,则在用Viterbi算法优化以后,搜索算法的复杂度大约在O(LM),即每一步保留M条路径,但是每条路径接下去又会产生M条新的路径,这样实际需要计算概率的路径数在每一步都会大约有M2条,识别长度为L的语音将会有M2L条路径需要进行概率计算。再考虑到每条路径上的模型数目平均约为L/2个,所以总的高斯输出概率的计算复杂度约为undefined量级。

因此可以看出,非特定人连续语音识别系统的计算量非常大,对硬件平台的计算资源有很高的要求,尤其是浮点运算能力。

3 嵌入式平台介绍

嵌入式系统的核心部件是各种类型的嵌入式处理器,据不完全统计,全世界嵌入式处理器的品种已有上千种之多。实际上,几十年来,各种4、8、16和32位的处理器在嵌入式系统中都有广泛应用。嵌入式系统的处理器可以分为两大类:一类是采用通用计算机的CPU为处理器,如X86系列;另一类为微控制器和DSP,微控制器具有单片化、体积小、功耗低、可靠性高、芯片上的外设资源丰富等特点,成为嵌入式系统的主流器件。当前,嵌入式系统处理器的发展趋势主要采用32位嵌入式微控制器,因此本文选用了三款市场上主流的32位嵌入式微控制器构建测试用的嵌入式平台,其中MPC5200内部带有浮点运算单元。

3.1ADM5120 MIPS平台

ADM5120是由ADMTek公司发布的一款高性能、高集成度和高灵活性的SOC(System On Chip),它内部集成了高性能(227 MIPS)的MIPS 4Kc CPU、SDRAM控制器、USB主机接口和UART接口,还集成了交换机引擎、10/100M以太网PHY和PCI桥。MIPS32 4Kc CPU是采用MIPS技术特定为SOC而设计的高性能、低电压的32位MIPS RISC内核,它采用MIPS32体系结构,并且具有存储器管理单元(MMU)以及扩展的优先级模式,使得这个处理器与目前嵌入式领域广泛应用的R3000和R4000系列32位微处理器完全兼容[1]。

3.2 国产方舟2号CPU平台

方舟2号是一款面向信息终端设备的高性能、低功耗、高集成度SOC芯片。方舟2号集成了高性能CPU核心和PC架构南北桥中的大部分功能,是网络计算机和信息终端设备的理想解决方案。方舟2号的CPU核心工作频率高达400MHz, 具有完整的MMU功能,支持硬件调试,哈佛总线结构,集成了8K/16K指令高速缓存和8K/16K数据高速缓存。此外,方舟2号集成了32位PCI总线控制器,支持多种内存类型的外部存储器接口、USB 1.1控制器、10/100Mbps自适应以太网控制器、符合AC97标准的音频控制器、串口通信控制器、红外控制器、智能卡控制器,以及直接访存控制器、时钟发生器、功耗管理器、中断控制器、时钟定时器、看门狗时钟、通用IO端口等大量外围模块。方舟2号在400MHz主频下运行时最大功耗只有360毫瓦,是业界最具竞争力的高性能、低功耗微处理器产品[2]。

3.3 MPC5200 PowerPC平台

MPC5200是Freescale公司开发的一款具有卓越性能的PowerPC系列微处理器。高集成度低成本的MPC5200嵌入式32位微处理器,非常适合网络、工业控制和汽车电子应用。该产品运算速度为760MIPS,带浮点单元(FPU),在I/O全部使用时功率为850毫瓦。这种先进的处理器设计用于快速数据输入输出和处理,支持双数据速率(DDR)存储器并集成有BestComm DMA控制器。 该处理器全功能的嵌入式PowerPC 603e系列G2_LE内核将高性能32位处理器与双精度浮点、存储器管理、分支预测单元、16K数据及16K指令缓存集成在一起。其它片上特性还包括高性能存储控制器、中断控制器、DMA控制器、PCI控制器、USB主机控制器、CAN 2.0 A/B控制器、ATA控制器、I2C接口及16550兼容DUART[3]。

4 实验分析

本文研究的基线系统是基于隐含马尔可夫模型的汉语非特定人连续语音识别系统,语音信号帧长为25毫秒,相邻帧的间隔为10毫秒。分帧后的语音信号经过预加重和汉明窗加窗处理后,提取出由静态特征、一阶动态特征和二阶动态特征共同组成的39维MFCC特征系数。声学模型采用由左至右可跳转的上下文相关的三音子(triphone)HMM,状态数为5个,状态输出为逆对角线协方差矩阵的连续高斯密度分布,并且由一个或者几个高斯分布混合组成。

本文待识别的任务模型为出租车常用对话[4,5]。出租车常用对话任务包含了北京的比较有名的机构和景点名称、司机与乘客交流的常用会话等等,一共有声学模型5635个,高斯输出概率的混合度为1。任务模型转换成词图,使用Viterbi剪枝束搜索算法进行解码。其中,Viterbi剪枝束搜索算法是针对复杂任务的语音识别中搜索空间候选路径过多的问题的。它利用路径剪枝技术,在几个参数上设定阈值,将不符合要求的路径剪裁掉。采用剪枝束搜索算法的识别系统和不采用该算法的基线系统相比较,可以更有效地把那些最终胜出概率非常小的路径早早地舍弃掉,减少计算复杂度,提高语音识别系统的实时性能。

本文采用句子识别正确率作为评判语音识别准确度的指标,用Sent%表示,定义为完全识别正确的句子占所有句子的百分比。评价算法性能的指标还需要考虑算法的实时性能和识别速度,这里引入了实时因子(Real-Time Factor,RTF)指标,定义如下:

RTF = 识别语音所用的时间 / 语音的时间长度 (1)

例如,如果一个小时长度的语音的识别过程也只用了一个小时,则RTF等于1.0。如果RTF小于1.0,则可以认为系统达到了实时识别的要求,RTF越小,系统的实时性能越好。

出租车对话系统测试语音库的说话人有8人,5男3女,共有100句话,全部语音的时间长度为203秒,每句话的平均长度为2.03秒。录音环境为办公室环境,16kHz采样,16位线性量化。

表1为不采用剪枝束搜索算法的基线系统和采用该算法的剪枝系统的句子识别正确率对比,由于剪枝束搜索算法会裁剪掉一些正确路径,因此造成剪枝系统的识别率在可接受范围内有轻微的下降,采用路径剪枝后出租车对话系统的句子识别正确率下降了4个百分点。

表2为基线系统和剪枝系统在PC和三种嵌入式平台上RTF的值的对比。可以看出,运用剪枝技术的搜索算法大大减小了搜索空间,使得剪枝系统的识别速度比基线系统有了大幅度的提高,采用路径剪枝后出租车对话系统在PC、ADM5120平台、方舟平台和MPC

5200平台上分别比其基线系统快大约14倍、7倍、5.5倍和23.5倍。非特定人连续语音识别系统在不具备浮点运算单元的ADM5120平台和方舟2号平台的实时性非常不理想,而在具有浮点运算单元MPC5200平台上则达到了实时的要求。

5 结束语

嵌入式语音识别系统具有广泛的市场应用前景。非定人连续语音识别系统相对于特定人孤立词语音识别系统具有多方面的优点,因此成为嵌入式语音识别系统研究和实现的主要着眼点。通过这三种平台的系统测试,验证了内部带有浮点运算单元的嵌入式微处理器可以很好的运行非特定人连续语音识别系统,而对于内部不带有浮点运算单元的嵌入式微处理器则应该大幅度简化语音识别系统的计算复杂度,例如采用特定人、孤立词、小词汇表的语音识别。此项研究对于今后研制不同嵌入式平台上的语音识别系统具有很好的参考意义。

参考文献

[1] ADMTeck Inc.ADM5120 Datasheet.ADMTeck Inc.,2003.

[2] ARCA Technology Corp.Arca210 Hardware Manual.ARCA Technology Corp.,2003.

[3] Freescale Semiconductor.MPC5200 Users Guide.Freescale Semiconductor,2004.

[4] Limin DU,Junlan FENG,Yi SONG,Jinchen SUN.A Chinese?English Speech Translation Prototype System:CEST-CAS1.0.USA:ICSPAT’99,1999.

语音识别 理想与现实的距离 篇4

很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐步让四肢从繁琐的工作中解放出来,最终就会变成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)就是在这种科幻进程中解放我们双手的一项重要技术。

让机器直接能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技术虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。

哼唱识别系统

不久前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就可以检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。

“哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研究哼唱检索系统的语音助理研究员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。正是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛(MIREX)中,以92%的准确度获得了第一名的好成绩。

任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研究室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在不久的将来,就可以实现在互联网上哼唱一段旋律来检索歌曲名称。

提高识别率

对于中科信利语音实验室研究出来的这套哼唱识别系统,还有一个更好的应用前景就是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的经历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友常常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能简单概括的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技术就可以了。

但是,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?

“目前语音识别技术需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个就是要不断提出好的算法。”颜永红这样对记者说到。语音识别技术的基本原理就是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技术不仅对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些正是导致语音识别技术识别率不高的主要原因,也是导致语音识别技术一直没有能够大规模展开应用的瓶颈。

如何提高识别率一直都是语音识别技术不断挑战的问题。基于目前的语音识别技术,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技术对于盲人群体的作用与帮助要大大高于一般的正常人。

语音识别搜索

语音识别技术一个很有效的应用,就是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研究员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都可以针对原声搜索出其位置。而哼唱检索系统就是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。

在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。而且,信息已经不单纯是以往的纯文本,而是逐步发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经开始广泛应用。

美国的Blinkx就是最先开始应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的语音、视频搜索市场。

未来无限大

语音识别芯片的应用范围其实十分广阔: 电话通信中的语音拨号、汽车的语音控制、工业控制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。

除此之外,语音识别还可以给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通信以及广播监听。发音纠正软件可以对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内部分地区推广普通话的进程中了。

“市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技术无法在家电等领域应用的主要原因。“早在2002年,技术上就已经实现在电话上应用语音识别技术了,但是却只能用在部分高端手机上。”颜永红说。

中科信利语音实验室目前一直在和致力于芯片技术的厂商合作,从而有效地解决了语音处理过程中遇到的噪声等问题,提高了声学语音传达的准确性,与语音识别软件技术形成优势互补。

嵌入式语音识别 篇5

语言是人类传播信息的重要手段, 语音识别则是实现语音控制的关键技术, 自然语音的人机交互也是当前的研究热点和难点, 苹果公司正在研制的i Watch中也增加了语音识别功能。采用嵌入式语音识别技术使得设备具有功耗低、使用简便、灵活等优点, 摆脱了复杂按键和按钮的困扰, 在服务机器人、智能家居及消费电子等领域发挥着重要作用。

2. 系统构成与原理

语音识别主要包括两个阶段[1]:训练阶段和识别阶段。在训练或识别过程中, 都必须对输入语音进行预处理和特征提取。训练阶段通过用户输入的若干次训练语音, 经过预处理和特征提取后得到特征参数, 最后通过特征参数建模, 进而建立训练语音的参考模型库。而识别阶段是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量, 然后把相似度最高的输入特征矢量作为识别结果输出, 从而达到语音识别目的, 如图1所示。

语音识别技术可分为:特定人识别和非特定人识别两种。特定人识别是指需要对待识别人的语音进行采集训练, 识别对象为专门的人;非特定人识别是指识别对象为大多数用户, 一般要采集多个人的语音进行录音、训练和学习, 从而达到较高的识别率。

在实际应用中, 现代技术开发嵌入式语音识别有两种实现方式:调入嵌入式语音开发包和外扩语音识别芯片。本文的语音识别系统方案是以嵌入式处理器S3C2440为核心, 外扩非特定人语音识别芯片LD3320, 并将超声波测距模块和云台相结合作为系统的机械执行机构。系统测量过程如下:首先根据语音指令控制两自由度云台的位姿, 使超声波探测器指向特定方向, 然后开启超声波探测器, 测量出前方障碍物距离, 最后将测量结果转化为可以播放的二进制数据流, 通过LD3320的播放功能完成数据的播放。

3. 硬件电路设计方案

硬件电路主要包括语音识别部分、主控部分、超声波测距部分和舵机控制部分, 如图2所示。处理器为三星公司的S3C2440, 系统主频最高可达533 MHz, 支持SPI、I2C、UART等接口, 能够满足控制系统的需求。主控芯片S3C2440通过SPI总线完成对语音识别模块的读写操作, 超声波测距部分和舵机控制部分由处理器的GPIO进行统一控制。

3.1 语音识别电路设计

为了使系统能够识别操作人员发出的语音指令, 设计中采用了由ICRoute公司设计生产的非特定人语音识别芯片LD3320, 它集成了语音识别处理电路和一些外部电路, 包括AD、DA转换器、麦克风接口、声音输出接口等[2], 不需要外接任何的辅助芯片如Flash、RAM。在主控制器的控制下, 可以识别出预先添加到识别列表中的内容。设计中参考了ICRoute发布的LD3320数据手册, 图中LD3320的P0、P1、P2引脚通过SPI接口与嵌入式处理器相接, 控制信号WRB、CSB、RSTB以及中断返回信号引脚INTB与处理器S3C2440直接相连, 如图3所示。

3.2 超声波测距和舵机控制电路设计

超声波测距原理相对比较成熟, 系统中采用超声波测距模块HC-SR04。该模块有两个TTL电平通信引脚, 兼容3.3V电平。其中, 控制端口Trig发一个10us以上的高电平, 接收端口Echo将输出与距离成正比的高电平信号。当Echo有高电平输出时就开启处理器定时器, 当端口电平跳变为低电平时关闭定时器, 根据定时器的值可计算得到障碍物的距离。其中, 控制端口Trig和接收端口Echo分别接至处理器的GPG9、GPG6引脚。

超声波测距模块的感应角度小于15°, 为了扩大测距的感应角度范围, 将超声波测距模块安装在两自由度云台上, 其中, 舵机为SG90 (9G) , 旋转角度为180°。处理器通过GPB0和GPB1分别控制两个舵机以实现云台的旋转, 以测量不同方向的障碍物, 如图4所示。

4. 软件设计方案

系统软件基于嵌入式Linux操作系统, 实现了语音识别、语音播放、超声波测距和舵机控制等任务, 使用fock机制为每项任务分配独立的进程, 使系统可以进行多任务处理。针对不同功能模块编写了相应的底层驱动程序, 为上层应用程序提供了调用接口。

系统工作流程如下:处理器通过SPI总线对语音识别芯片LD3320进行通用初始化, 使语音识别芯片进入循环识别模式, 系统处理器反复启动语音识别过程。如果有识别结果, 则根据识别作相应处理后 (比如播放某个声音作为应答) 再启动下一个识别过程。处理器通过SPI总线读取C5寄存器的识别结果并分析, 将语音命令转换为超声波测距和舵机的控制信号, 完成多方位测距任务, 如图5所示。

4.1 语音识别功能程序设计

语音识别芯片LD3320的特色是兼有语音识别和MP3播放的两项功能, 在功能切换的时候, 必须进行通用初始化, 对芯片进行一系列的设置[3]。

语音识别功能的驱动程序工作流程为通用初始化à语音识别用初始化→写入识别列表→开始识别→响应识别中断。为了提高识别成功率, 在识别列表中增加了“垃圾关键词”以吸收错误的识别。上层应用程序为语音识别功能分配了单独的进程, 通过ioctl () 函数控制LD3320的工作状态, read () 函数可以读取识别结果。程序中使用select机制实现read () 函数的非阻塞访问[4]。同时, 设定select监控超时时间, 在超时后, 重新初始化语音识别芯片LD3320, 为下一次语音识别做准备, 如图6所示。

4.2 语音播放功能程序设计

LD3320支持MP3数据播放, 程序中操作顺序为:通用初始化à播放模式初始化à音量调节à开始播放, 并准备好中断响应函数, 打开中断允许位。在程序中, 首先将数字0~9、“十”、“百”、“点”的语音MP3数据分别转换为标准C语言数组格式文件, 将该文件添加到工程中进行统一编译。然后把需要播放的距离数据进行拆分, 并对每一位进行查表操作, 得到相应的语音数据。例如, 将距离数据12.5拆分为:“1”、“十”、“2”、“点”、“5”。最后将查表得到的语音数据按从左到右的顺序组合, 并存储到LD3320的播放数据存储器, 在即将播放完毕时, 芯片会发出中断请求, 在中断响应函数中连续写入播放数据, 直到声音数据播放完毕。

4.3 超声波测距和云台控制程序设计

超声波测距功能的驱动程序属于Linux字符型驱动, 利用ioctl () 函数对相应GPIO进行时序控制, 完成超声波的发射和接收。在接收端口输出高电平脉冲信号时, 触发系统中断并使用定时器计算得到高电平持续时间△T, 根据公式 (1) 完成距离S的测量[5]。式中V为超声波的传播速度, 常温下超声波在空气中的传播速度是340米/秒。在应用程序中, 可以通过read () 函数读取到所测量的距离值。

(1)

两自由度云台由两个舵机组成, 分别控制云台水平和垂直方向的旋转角度。在驱动程序中, 首先打开定时器PWM功能并设置定时周期, 然后映射定时器中断函数, 最后使能定时器, 使定时器开始运行。程序中根据实验者发出的语音指令, 利用ioctl () 函数控制定时器输出两路PWM信号, 分别控制两个舵机的旋转角度, 最后将运动合成为云台的位姿。

5. 结语

本文介绍了嵌入式语音识别技术在超声波测距系统中的一种应用以及实现方式, 实验人员可以通过预先定义好的语音指令 (例如:“开始测量”、“左上方”、“前方”) 实现对系统的控制, 并利用超声波进行距离测量。测量完成后, 系统通过语音播放的方式将测量结果反馈给实验人员, 完成人机交互, 提高了用户体验度。本系统具有易扩展的优点, 可以将其应用到其它嵌入式控制系统中。

摘要:该设计运用三星公司的S3C2440, 结合ICRoute公司的高性能语音识别芯片LD3320, 进行了语音识别系统的硬件和软件设计。在嵌入式Linux操作系统下, 运用多进程机制完成了对语音识别芯片、超声波测距和云台的控制, 并将语音识别技术应用于多角度超声波测距系统中。通过测试, 系统可以通过识别语音指令控制测量方向, 无需手动干预, 最后将测量结果通过语音播放出来。

关键词:语音识别,嵌入式Linux,人机交互,语音播放,超声波测距

参考文献

[1]苏宝林.基于AVR单片机的语音识别系统设计[J].现代电子技术, 2012, 35 (11) :136-138.

[2]苏鹏, 周风余, 陈磊.基于STM32的嵌入式语音识别模块设计[J].单片机与嵌入式系统应用, 2011, 11 (002) :42-45.

[3]洪家平.LD3320的嵌入式语音识别系统的应用[J].单片机与嵌入式系统应用, 2012, 12 (2) :47-49.

[4]杨铸.Linux下C语音应用编程[M].北京:北京航空航天大学出版社, 2012.61-64.

嵌入式语音识别 篇6

语音识别是将人类语音信号进行预处理、特征提取, 然后和测试、训练后存储在计算机中的标准模型进行比较, 得出判定和识别结果。当前主流的语音识别技术多基于统计模式, 模型训练过程中算法复杂、运算量大, 需要PC或工控机实现, 在一定程度上制约了语音识别技术的发展。

和基于PC的语音识别系统相比, 嵌入式语音识别系统运算速度、内存容量有限, 但体积小、功耗低、可靠性高、安装灵活, 在智能家电、消费电子等领域具有优势, 逐渐成为了研究的热点。

2、模块整体方案

语音识别包括训练、识别两个阶段, 在这两个阶段中, 都必须对输入的语音信号进行预处理和特征提取。语音识别的基本原理如图1所示。

在训练阶段, 用户多次输入训练语音, 模块预处理后进行特征提取, 得到特征矢量参数, 通过特征建模建立训练语音的参考模型库。在识别阶段, 模块按照一定算法, 将语音的特征矢量参数和模型库中的参考模型进行比较, 相似度最高的输入特征矢量将被判定为识别结果。根据识别对象, 语音识别分为特定人识别和非特定人识别。特定人识别的识别对象是特定用户, 非特定人识别的识别对象是普通用户, 需要采集多人语音进行训练, 才能达到较高的识别率。

现有的嵌入式语音识别系统主要有两种方式, 一种是在嵌入式处理器中直接调用语音开发包, 另一种则采取“嵌入式处理器+语音芯片”的模式。第一种方式计算相对复杂、开发周期长, 第二种方法结构简单, 微处理器计算量低, 可靠性高、开发周期短。本文介绍的语音识别模块以嵌入式微处理器为核心, 外围是非特定人语音识别芯片及相关电路, 模块选用ICRoute公司的LD3320芯片作为语音识别芯片。

3、硬件电路设计

模块硬件电路结构如图2所示, 包括主控制器和语音识别电路。模块正常工作时, 语音识别电路通过并口将处理后的数据传输给主控制器, 主控制器根据语音识别的结果, 向USART发送相应的命令, USART可用来扩展语音合成模块等外围串行设备。

3.1 主控制器芯片

本文介绍的语音识别模块主控制器选用S T公司的STM32F103C8T6芯片, 该芯片基于ARM Cortex-M332位RISC内核, 工作频率可达72MHz, 内置高速存储器, 拥有丰富的增强型I/O端口, 具有高性能、低功耗、低电压等优点, 易于集成和开发。

3.2 语音识别电路

语音识别电路参考了ICRoute发布的LD3320数据手册, 其原理图如图3所示。LD3320内部集成了语音识别优化算法, 无需外接Flash和RAM, 不用事先训练就能实现对非特定人的语音识别, 而且识别准确率较高。

LD3320和STM32F103C8T6通过并行方式相接, 其控制信号和复位信号、中断返回信号I N T B和STM32F103C8T6直接连接, 使用10k上拉电阻提高系统稳定性。在图3中, MBS (12引脚) 是麦克风的偏置, 并接了RC电路, 确保向麦克风提供稳定的电压。

4、系统软件设计

模块软件包括主控单元嵌入式操作系统μC/OS-Ⅱ移植、LD3320语音识别程序、对话管理程序等三部分。

4.1 嵌入式操作系统移植

μC/OS-Ⅱ是一个开源的实时多任务操作系统, 大部分代码采用C语言编写, 执行效率高、占用空间小、可扩展性强, 最小内核仅有2KB。μC/OS-Ⅱ是可剥夺型内核, 任务优先级划分非常重要。从分层化、模块化的设计理念出发, 主控系统任务优先级划分如表1所示。

除OSTaskStat、OSTaskIdle是系统自带任务外, 其他任务由用户创建。App_TaskStart是系统首个任务, 负责初始化时钟和底层设备, 创建事件及其他用户任务, 并对系统状态进行监测。

4.2 语音识别程序设计

本文介绍模块的语音识别程序采用中断方式, 其工作流程为:初始化、写入识别列表、开始识别、响应中断。

(1) 初始化。进行软复位、模式设定、FIFO设定、时钟频率设定。

(2) 写入识别列表。每个识别条目对应1字节的特定编号, 编号可重复, 但数值应小于256。LD3320最多支持50个识别条目, 每个识别条目是小写的汉语拼音, 每2个字 (拼音) 间有一个空格。

(3) 开始识别。图4是开始识别流程, ADC是麦克风输入通道, ADC增益是麦克风音量, 建议在40H-6FH间赋值, 值大表示MIC音量较大, 语音识别启动越敏感, 误判的概率也较高;值小代表MIC音量较小, 启动识别功能需要较大的音量, 但抗干扰性较好。经过对比实验, 本文介绍的模块中设定值为43H。

(4) 响应中断。麦克风采集到声音时, 就会产生中断信号, 中断程序会根据寄存器值分析结果, C5寄存器中的答案是得分最高、最可能正确的答案。

4.2 对话管理程序设计

对话管理单元用来存储等待识别的语音、等待执行的命令, 在主控制器中通过二维数组完成。每进行一次识别, LD3320可设置50个候选识别语句, 它们是10个以内的汉字或79个字节拼音串。本文介绍模块的对话管理数组如表2所示。

待识别的行为编号储存在行为数组中, 和50个语音识别语句对应。模块共有50组指令, 每组指令可包含6个行为, 能并行执行的行为可以归为一步, 在该模式下, 多个行为进行组合可完成复杂任务。

5、验证和测试

为验证语音识别模块的性能和可靠性, 分别在安静的室内环境、噪声较多的医院环境对语音识别模块进行测试。测试中, 对8条语音命令循环10次, 每个环境下对3名非特定人各测试80次, 计算成功识别的比例。

测试结果表明, 模块在室内环境下对非特定人的语音识别率在96%以上, 噪声较多的医院环境下语音识别率在92%左右。通过测试还发现, 在噪声较多的环境中模块的稳定性、实时性均有所降低。

6、结语

本文介绍了基于STM32的嵌入式语音识别模块的设计和实现, 对模块软、硬件组成及原理进行了较为详细的说明。实验表明, 本文介绍的语音识别模块具有稳定性好、识别率高、使用方便等优点, 可应用在智能家电、服务机器人、消费电子等领域, 具有一定的理论价值和应用前景。

摘要:本文介绍了以ARM为核心的嵌入式语音识别模块的设计和实现, 模块选用ST公司32位处理器STM32F103C8T6为核心处理单元, 通过以LD3320芯片为核心的硬件电路实现语音识别, 使用嵌入式操作系统μC/OS-Ⅱ实现任务调度和外围设备管理。

关键词:语音识别,ARM,LD3320

参考文献

[1]张丽娟, 王申良.基于STM32的语音识别系统的设计与实现[J].黑龙江科技信息, 2010 (2) .

[2]陈景帅, 周风余.基于SpeechSDK的机器人语音交互系统设计[J].北京联合大学学报 (自然科学版) , 2010 (1) .

[3]祝常健, 胡维平, 叶佳宁.基于HMM语音识别技术在ARM平台的实现[J].微计算机信息, 2009 (5) .

语音识别技术探析 篇7

1. 语音识别技术的发展情况

1.1 国外发展状况

国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。

1.2 国内发展状况

我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:

一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。

二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。

三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。

2. 语音识别系统的分类

2.1 从说话者与识别系统的关系考虑

一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。

2.2 从说话者的方式考虑

一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。

2.3 从识别词汇量大小考虑

一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。

3. 语音识别的基本方法

3.1 基于语音学和声学的方法

在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。

3.2 模板匹配的方法

模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。

3.3 神经网络的方法

这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。

4. 语音识别系统的结构

随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:

4.1 特征提取

特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。

4.2 模式匹配

将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。

5. 语音识别所面临的问题

5.1 语音识别需要进一步突破模型匹配方面的技术

语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。

5.2 语音识别技术也要进一步改进以提高其自适应性

目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。

5.3 语音识别技术还需进一步增强其强健性以适应各种环境

目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。

5.4 多种语言以及专业词汇识别方面还需要改进

目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。

由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。

摘要:随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。

关键词:语音识别技术,探析

参考文献

[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.

[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.

语音情感识别综述 篇8

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1 语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2 情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3 语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTER-SPEECH 2009Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

资料来源:文献[2]

4 语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[3,4]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM AduioVisual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,6,7,8]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5 语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6 语音情感识别的主要挑战

6.1 语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2 跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

摘要:随着情感计算成为人工智能的一个重要发展方向,语音情感识别作为情感计算的一个重要组成部分,受到了广泛关注。从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出目前语音情感识别技术存在的挑战,以及相应的研究方法。

外语口语训练中语音识别技术研究 篇9

【关键词】外语口语训练      语音识别技术     关键技术     研究

一、引言

随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。

二、外语口语学习中语音识别技术应用的重要意义

随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:

(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。

(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。

外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。

三、外语口语训练中语音识别的关键技术

(一)语音识别

在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。

(二)语音评分

在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。

如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:

图1  基于HMM的语音评分流程图

1.首先,对学习者所输入的语音进行特征提取;

2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;

3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。

(三)发音错误检测与错误纠正

对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。

1.发音错误的检测与定位

在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。

2.发音错误的纠正

系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。

(四)回馈展示

在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。

四、结语

总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。

【参考文献】

[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.

[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.

[3]涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海:上海交通大学,2011.

[4]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(05):65-66.

语音情感识别研究现状综述 篇10

1、语音情感识别的发展意义及概念

计算机的快速发展对人类的生活,学习,休闲,交流起到了不可替代的作用。人们对计算机功能的需求和实现也不断地提高和发展。在互联网飞速发展的今天,人机交互和人机互动 (HMI&HCI) 无疑是计算机发展的一个重大方向,它蕴藏着重大科研价值,商业价值以及应用价值。在互联网逐渐转向移动终端,可智能穿戴设备的今天,提升用户体验感,舒适度,以及提升人机交互的功能性,可用性以及友好性是研究之重。

人类传达情感识别的方式主要有表情,语言声调以及肢体动作。而语言作为人类信息感情交流的直接媒介,对于发展HCI的今天扮 演着重大 的地位。 语音情感 识别(Speech emotion Recognition)就是将计算 机作为“人类”,通过对说话者的语气,语调,特殊词汇等的把握,采集在语音中对这些声学特征信号,并对其进行提取和分析。通过对结果的处理与研究,发现特征信号与人类情感的映射关系。而这些映射关系是计算机语音情感识别的重要组成部分,是人机交互的主要部分。所以,通过以上分析,可以确定以下三个方面:

(1)语音情感识别是发展人机交互的核心之一

人机交互就是对计算机赋予人类的情感识别,处理能力;是计算机智能的重要体现;同时也可以让计算机更好的为人类服务。

(2) 语音情感识别是计算机对人类情感研究的重要特征标识之一

人类发展 研究出了 指纹识别 , 虹膜识别 , 面部识别 , 以及表情 识别等。 生物特征 识别是比 传统鉴别 方法更加安 全的渠道 之一。语 音包含着 各种生物 信息 ,所以语音 情感识别 要在生物 特征识别 上将要扮 演更重要的 角色。

(3)语音情感识别应用范围广

在远程语音服务中,服务员通过计算机可以感知用户的情感状态,可以随时调整服务方式,从而提高服务质量;在犯罪审问过程中,计算机可以通过语音识别辅以心跳,脑电波等来判断犯人是否说谎;在玩具中,可以增加情感玩具,从而从小就可以提高孩子的情感处理能力;在教师远距离语音授课中,学生和教师双方都可以通过语音识别来感知双方情感,从而提高教学质量。

2、语音情感识别流程

二、主流语音情感模型

1、离散情感数据库

离散情感数据库就是将情感分为有限的几类,每一种情感都有三个标准:单一,浓重,辨识度高。不过生活中很难达到这种状态,自然语音很难满足这三种标准。因此,现有的离散情感数据库多属于表演型,引导型,综合型。

现有的离散情感数据库有Belfast英语情感数据库,柏林EMO-DB德语情感语音库,CASIA汉语情感语料库,ACCorpus系列汉语情感数据库等。他们统一的特点都是录制人的语音 都具有某 种特定的 情感特性 , 如nertral、anger、fear、joy、sadness、disgust、boredom等。其中CASIA为中国科学院自动化研究所录制,由两男两女分别在纯净录音环境下(信噪比约35db),用高兴、悲哀、生气、惊吓、中性的语气,16k Hz采样,16bit量化,采集500句文本,最终筛选保留其中9600句。ACCorpus系列汉语情感数据库由清华大学和中国科学院心理研究所合作录制,有5个子库。其中ACCorpus_SR (情感语音识别数据库) 共由25对男女对5类情感 (nertral、happiness、anger、fear和sadness) 录制得到,16k Hz采样,16bit量化。

2、维度情感数据库

维度情感数据库又称连续情感数据库,它存在在一个连续的空间,并且将情感映射在某一个三维或者二维坐标上,形成一个点。在三维情感空间中,每个维度的定义分别为:(1)效价维(Valence/Evaluation),主要作用是将情感分为正、负两种;(2)激活维(Activation/Arousal),主要作用是通过显示与情感相关的神经的生理激活水平来反映一个情感的猛烈程度;(3)控制维(Control/Power),它用来反映一个情感所具有的主观程度,用于区分该情感是周围环境所致还是由个人主观能动性产生的。

在维度情感数据库中有一个很重要的Plutchik为代表提出的“情感轮”理论,位于二维空间中,它将圆心作为情感原点,意为所有情感的综合,不过各个情感对于原点影响太小,从而可以忽略不计。不同的情感对应着不同的由原点引出的向量,原点所引出的向量的“模长”与“方向”分别对应了情感的强烈程度,和情感的方向。

不同于Plutchik的情感轮,Fox的三级情感分类模型是通过情感主动和被动的作为区分标准,按照低级粗分,高级细分将人类的情感分成了三个等级。

三、语音情感识别方法

根据人们对语音情感识别的研究与认识情况,一个完整的语音情感识别一般都要经过以下三个过程:

1、语音情感预处理

语音情感预处理的第一步就是语音分析,通过对语音的分析及降噪从而获得更高精度的测量结果。它的主要技术为“短时分析技术”,语音无论从整体上看它的特征,还是细分到表征其特征的参数都是随时间而变化。由于语音信号是一个非平 稳的变化 过程 ,所以我们 不能使用 处理平稳过 程信号的 数字信号 来处理 ;另一方面 ,语音信号是 由人的口 腔肌肉运 动而产生 ,类似声道 ,这种口腔的 肌肉运动所产 生的语音信 号变化是 缓慢的。 因此 ,虽然语音信号 时时都在变 化 ,但是在一 个很短的 时间内 ,它的特征也 是相对平稳的 。因此 ,明确了语 音信号建 立在短时的 基础之上 后 , 我们就可 以将语音分成一段,也可以说是一帧(10~30ms)。再将每一帧的语音特性参数组成一个序列。

语音分析按参数性质分类分为:时域分析,频域分析,倒谱分析。

语音分析按分析方法分类分为:模型分析法和非模型分析法。

2、语音情感特征分析提取

通过语音情感预处理后,我们可以得到语音的样本。因为语音情感特征的提取对于语音识别的结果有决定性影响,所以对于其特征的选取是研究的重中之重。一般选取的语音情感特征具有以下特点:

(1)能够在同一情感中基本稳定表现;

(2)对于不同的情感有明显的区别;

(3)外界影响较小;

(4)特征之间的相关度降到最小;

(5)对于特征的提取和测量不太复杂,特别是对于运算的时间复杂度不高。

经过研究表明,具有这些特点的语音情感特征可以分为声学特征和音学特征,声学特征又可分为韵律特征和语音特征,相关参数是基音,能量,过零率,共振峰(可以用线性预测法预测系数,用共振检测法计算共振峰频率)等;音学特征主要是表述人耳对声音的感知情况,相关参数是MFCCs和Mel频谱能量动态系数等。

3、SVM 语音情感识别介绍

语音情感识别主要分为语音预处理,语音情感特征提取,语音情感识别三部分。在情感识别部分,常见的有通过SVM模型进行情感识别。

以下为识别原理图:

在一整套SVM情感识别模型中,最先开始的预处理是数字化预处理以及语音端点检测处理,因为只有消噪,降噪后选取的有效的语音信号才能带来计算量的减少,提高识别的精确度。情感特征分析提取主要是将这些通过实验研究获得的情感特征送入情感识别模块,情感模式识别的两部分分别为情感分类模型的的训练和情感分类模型的测试。在情感分类模型的训练中,主要是利用上一步情感特征提取的全局统计情感特征,将SVM模型训练出具有情感分类能力。语音情感识别测试分为用训练好的SVM模型在情感语音库上进行性能检测,旨在提高其泛化能力的离线测试。和通过人声实时录制,对已训练好的SVM模型进行性能检测的在线测试。

四、总结与展望

语音情感识别技术具有重要的理论和研究价值,截至今日,其技术的发展已经有了长足的进步,不过它仍处于较为初级的研究阶段,距离技术的成熟仍有巨大的距离。本文仅对其基本原理、技术及其发展进行了简单的综合阐述,对于现有的语音情感识别技术来说只是冰山一角,在其研究阶段仍有很多问题亟待我们去解决,例如我们如何以更接近人类的方式对语音情感进行分析,以及解决基本情感状态集合的确定问题。在未来的某一天,计算机不再只会知道我们“说什么”,它会围绕人类的思维,并且在非接触的情况下获取人类心理活动等更多信息。对于这项具有挑战性的课题,随着人们对其语音情感识别理论及其实践的研究与认识,在未来的科学发展中一定会有重大的突破。

摘要:本文从语音情感识别的概念以及流程入手,对近些年来关于语音情感识别过程情况的阶段性研究成果进行了综合阐述,并对其未来研究及其发展进行了展望。

上一篇:核辐射探测器的研制下一篇:压裂技术