语音识别

2024-10-15

语音识别(精选12篇)

语音识别 篇1

语音识别技术是让计算机识别一些语音信号, 并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛, 包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场, 渗透到家电、通信、医疗、消费电子产品等各个领域, 让人们的生活更加方便。

1. 语音识别技术的发展情况

1.1 国外发展状况

国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。

1.2 国内发展状况

我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:

一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。

二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。

三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。

2. 语音识别系统的分类

2.1 从说话者与识别系统的关系考虑

一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。

2.2 从说话者的方式考虑

一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。

2.3 从识别词汇量大小考虑

一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。

3. 语音识别的基本方法

3.1 基于语音学和声学的方法

在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。

3.2 模板匹配的方法

模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。

3.3 神经网络的方法

这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。

4. 语音识别系统的结构

随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:

4.1 特征提取

特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。

4.2 模式匹配

将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。

5. 语音识别所面临的问题

5.1 语音识别需要进一步突破模型匹配方面的技术

语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。

5.2 语音识别技术也要进一步改进以提高其自适应性

目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。

5.3 语音识别技术还需进一步增强其强健性以适应各种环境

目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。

5.4 多种语言以及专业词汇识别方面还需要改进

目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。

由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。

摘要:随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。

关键词:语音识别技术,探析

参考文献

[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.

[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.

[3]焦高超, 张原野等.语音识别技术的发展与研究[J].网络财富2010年15期.

语音识别 篇2

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。

音频二维码 音频二维码技术

二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫无疑问音频信息将成为互联网行业的第三大入口方式。

音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。

2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。

音频二维码应用

音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。

例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串话让观众知道如何来报名参加非诚勿扰,只需要说“欢迎在听到嘀声后报名参加非诚勿扰”就可以了。观众的终端在听到嘀声后解析相应的内容,获取到报名所需要的电话号码和电子邮箱。观众可以任选一种进行报名。这样观众再也不需要拿笔和纸去记录这些信息了。

观众在观看好享购频道的时候,在一个节目结束的时候插入一个声音。观众的手机在听到这个声音后自动解析购买此商品的号码,用户按拨号键就可以直接购买自己想要的商品。使用了音频二维码技术,用户便从对着电视屏幕记录购买号码中解脱出来了。

不像电视技术同时通过声音和画面来传递信息,广播技术只能通过声音来传递信息。所以在广播行业中,尤其需要其它的手段让听众接收信息。在这个需求下,音频二维码技术变得尤为重要。

通过音频二维码技术,广播和电视可以向用户推送广告,例如团购消息、好享购商品信息以及商场打折券等等;可以向用户推送增值服务,例如天气预报、银行还款等等;可以向用户发起投票活动;还可以允许用户分享这些内容到各大社交论坛,吸引物联网用户的眼球。

缺点

蛐蛐儿SDK采用的是人耳可以听到的四千到一万伏的频段。这导致非常容易被周围环境中的噪声干扰。经过测试,该SDK在咖啡店和火锅店等公共场所中,在两米以内的传输率能达到百分之百,距离越远,传输率越低。蛐蛐儿SDK采用的是人耳听觉范围内的音频,这对于广播电视行业来说是个缺点。因为在原本纯内容的声音信息中加入了其它的对人耳来说无用的声音,可能会让观众无法接受。这个问题可以通过采用超声波或者次声波来代替可听波来解决。但是如果采用超声波,会显著增加功耗,并且不能绕过障碍物。在电视前站一个人将把所有信息拒之门外。并且某些频率的次声波对人体产生的危害非常大。所以确定音频的频率是一个非常重要的研究。

音频指纹 音频指纹技术

音频指纹技术是一种通用音频处理技术。它能根据音频对象的特征准确识别该对象的信息。音频指纹是音频对象简短的摘要。音频指纹技术在音频对象和指纹之间建立一种映射关系。通过这种机制,不需要通过比较较大的音频对象本身,而是通过比较相关的指纹,就可以确定音频之间知觉平等的关系。

音频技术的研究起步较早,现在已发展的非常成熟。音频指纹的研究主要有两个方向。一是基于水印嵌入的指纹方法。周鸿飞提出了一种基于混沌和系数均指统计特性的音频指纹方案。首先使用用户信息生成混沌映射初值,然后应用混沌方法把混沌映射初值生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中。这种方法具有一定的鲁棒性,但是需要嵌入多余的数据。另一种是基于内容的指纹方法。Haitsma J.提出了一种鲁棒的音频哈希指纹方法,对相邻2帧提取频域能量的差异作为哈希指纹。

音频指纹应用

音频指纹起步较早,应用也非常广泛。目前应用最广的领域是音乐播放软件中。根据音乐的旋律能够准确识别歌名歌手等信息。飞利浦公司研制了一款手机软件。只要把手机贴近正在播放歌曲的收音机,不出三秒钟的时间就能记下这首歌曲的音频指纹。然后手机可以通过该音频指纹去音频指纹数据库寻找匹配的歌曲。酷我音乐也采用了这种技术实现了类似的功能。

音频指纹也可以应用到电视媒体中。例如可以使用音频指纹对电视广告进行检测。商业公司可以检测电视台的广告是否按合同规定播出。媒体研究机构和广告策略公司可以统计广告的信息,对其进行整理和数据挖掘。

音频指纹还可以用于版权控制。版权所有者可以对广播和电视进行音频指纹采集,然后根据音频指纹对比音视频数据库,找到该音视频,进而挖掘传播者是否具有该音视频的版权。

音频指纹也可以用于向电视和广播用户的终端推送服务,增加与用户的互动。例如用户的手机接收到特定的音频指纹后就打开web浏览器,转到一个URL。该URL可以是与用户互动的投票系统,也可以是广告,或者是一些增值服务。

音频指纹同样也可以用于物联网行业。当用户上传或者下载音频的时候,首先传递该音频的指纹。如果发现已存在该音频,将直接完成此次下载任务。达到秒级的用户体验。

总结

微软将收购语音识别公司 篇3

Tellme的语音识别技术使用户可以通过电信网络从互联网上收集信息,为手机用户提供有关本地商家、行车路线、体育赛事得分、股市行情、天气和新闻等方面的咨询。同时,它还向企业用户提供电话号码自动查询等服务,在美国的电话号码查询市场占有相当份额,客户包括美林、联邦快递、移动通信运营商Cingular等。

微软表示,这个收购将有助于推动它的语音技术的发展,尤其是在互联网通信领域。微软认为,手机搜索是一个开发程度相对较低的市场,在这一市场同搜索引擎巨头Google竞争时会更有利。

收购预计将在今年第二季度完成,Tellme公司将成为微软商业部门的一部分。

分析师点评: 独立研究机构Directions on Microsoft分析师Rob Horwitz表示,微软一直看重手机设备市场,但Windows Mobile平台在市场上表示并不十分令人满意。收购Tellme后,可以向服务提供商出售Tellme应用许可证,或在Tellme 平台上部署Windows Mobile应用,这样可以推动微软移动部门的业务发展。

语音情感识别综述 篇4

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1 语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2 情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3 语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTER-SPEECH 2009Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

资料来源:文献[2]

4 语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[3,4]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM AduioVisual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,6,7,8]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5 语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6 语音情感识别的主要挑战

6.1 语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2 跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

摘要:随着情感计算成为人工智能的一个重要发展方向,语音情感识别作为情感计算的一个重要组成部分,受到了广泛关注。从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出目前语音情感识别技术存在的挑战,以及相应的研究方法。

语音识别 篇5

软件名称:语音专家V1.9

软件大小:565KB

收拾行囊

由于语音专家使用了微软公司提供的语音识别引擎,所以,您在使用之前必须安装语音识别引擎。

请到如下地址下载语音识别引擎:www.ie5.net/speechsoft/speechsdk51.exe

执行“控制面板→语音”,打开语音属性对话框,如图所示。在“语言”下选择“MicrosoftSimplifiedChinese…”(简体中文),再单击“训练配置文件”,按提示一步一步地进行语音训练就可完成语音配置。

如果大家用过MicrosoftOfficeXP的语音输入功能,对这一训练过程一定有会感到陌生,

而且,安装语音引擎和进行训练后,你还会得到一个附加的好处??可在MicrosoftOfficeXP下用语音输入汉字。同样地,如果你已安装了MicrosoftOfficeXP的语音输入法,上述过程可免。

-背包出发

启动“语音专家”,单击“设置”,根据自己所需勾选一些必要的选项。然后就能对电脑进行语音操作了,比如,对准话筒说“控制面板”,控制面板就会自动打开,怎么样,不错吧。

如果要想让它工作得更好,我们还得在“网上语音”和“常用程序”下作更进一步的设置。比如在“常用程序”下,勾选“说‘文字编辑’打开的软件”,再单击后面的文件夹图标,找到C:ProgramFilesMicrosoftOfficeOffice10(MicrosoftOfficeXP的默认安装目录)下的WINWORD.EXE,今后,只要对着话筒说“文字编辑”,Word就能自动打开。

“语言属性”对话框

声音,男女有别,老少不同。如果用户甲进行过上述语音训练,它发出语音命令电脑能听出的正确率较高。换另一个用户乙,那就会对牛弹琴,得添加一个用户:在如图所示界面中单击“新建”,新的用户进行完语音训练后,就可以他的声音为标准进行识别。当然,原用户不会删除,可在如图所示界面中进行转换。

自动语音识别:从幻想到现实 篇6

简单地说,自动语音识别(ASR)是一种让计算机识别语音,并将它转换为书面文本的技术,是语音科学与工程发展最快的领域之一。作为新一代的计算技术,它是人机交互领域继文本到语音转换(TTS)和支持交互式语音响应(IVR)系统之后的又一个重大创新。自动语音识别系统的目标是准确、有效地将语音信号转换成文本,并且不受说话者、环境或者是使用的设备(即麦克风)的限制。

语音识别技术最初是为残疾人设计的,它可以帮助那些肌肉骨骼残疾人士实现计算机上的最大生产力。虽然自动语音识别是一项几十年前就开始开发的技术,但直到Apple的虚拟个人助理SiriTM和IBM的WatsonTM的商业成功才真正展示了这一领域的重大突破。事实上,当2011年底Apple推出新一代的iPhone Siri语音识别软件时,在某种意义上意味着这个具有几十年历史的旧技术对普通消费者来说已经足够好了。

全球语音识别市场的主导者是总部设在美国的Nuance Communications,其软件被认为是Siri的动力, 而它的大多数技术依赖于将语音转换为计算机可以理解的文本。Nuance的语音解决方案支持多达50种不同的语言,并且维护着世界上最大的语音数据图书馆之一;有近三分之二的财富100强公司依靠Nuance的解决方案;Nuance的解决方案已经应用到超过50亿部手机和7千万辆汽车上。在医疗方面,仅在美国就有超过3千家医院使用Nuance的医疗保健解决方案,超过15万的医生和护理人员使用Nuance的Dragon Medical系统。

自动语音识别的发展

最早尝试设计机器自动语音识别系统是在20世纪50年代,但以失败告终。第一次成功的语音识别成果产生在20世纪70年代,当时一般的模式匹配技术被推出。由于应用扩展有限,基于统计方法的自动语音识别技术也在同一时期开始开发。如今,统计技术在自动语音识别应用中盛行,常见的语音识别系统可以识别数千字。

在20世纪90年代初,计算机语音识别技术出现了巨大的市场机会。但当时这些产品的早期版本笨重且很难使用,而且不得不做出妥协:它们或者被“调整”为要依赖于一个特定的说话者,或者是只有小词汇量,或者是用一种非常程式化、僵化的语法。然而,在计算机行业中没有什么可以长期保持不变。20世纪90年代末期,出现了全新的商业语音识别软件包,它们比上一代产品更容易使用,也更有效。

自动语音识别研究的“神圣目标”是让计算机实时地以100%的准确度识别任何一个人说的话,并且不受词汇量、噪音、说话者特征和口音、或者说话渠道的影响。尽管在这一领域的研究已经有几十年了,但大于90%的准确率只有在某种程度的制约下才能实现。例如对通过使用麦克风(小词汇量,无噪音)的连续数字的识别准确率可以达到99%以上;如果系统被训练学习某个说话者的声音,那么在可用的商用系统中较大的词汇也同样能被处理,只是准确率会下降到90%~95%;而不同说话者不同渠道的大词汇量语音识别的准确率不超过87%,并且处理时间是实时的数百倍。自动语音识别的性能可能受许多因素的影响,包括技术设计、语音输入的类型和质量、周边环境和用户特征等。当有更多的数据时,自动语音识别系统的性能可以更好,因为这样统计模型就可以建立在更大的基础上。Google的自动语音识别系统性能好的原因是它们存储了每个键入或说到Google中的搜索词,并基于搜索的共性来确定概率。

自动语音识别的应用

过去十年目睹了语音识别技术的显著改善,高性能算法与系统都已可用,使得自动语音识别的应用越来越广泛。IT主流使得采用自动语音识别在全球商业中变得更为关键,尤其是近年来互联网协议(VoIP)平台的扩散刺激了企业对语音识别技术的采用。以支持应用程序开始,语音识别解决方案已经演变成渗透包括航空公司、银行、仓储、库存管理和安全券商等多个行业的核心应用程序,并已经成为差异化服务和建立客户关系的工具。甚至医疗中心、医院、制药公司和其他医疗保健行业参与者也纷纷采用自助语音解决方案,因为这不仅能降低运营成本,同时也提高了客户的隐私度。

消费者对自动语音识别技术的应用程序范围从基本的依靠语音启动的报警系统和手机上的语音拨号,到智能手机应用中的语音股票报价和基于语音的电子邮件,以及更多的有针对性的解决方案,如互动娱乐和语音身份验证等。同时,自动语音识别也是汽车导航、远程信息处理系统和信息跟踪等的重要组成部分。随着对支持语言学习的创新应用的需求日益增加,使用自动语音识别技术的计算机辅助语言学习(CALL)系统也越来越受关注。

语音自动转化为文本 我们都听过像Apple的Siri一类的可以自动识别我们说什么的系统,并想知道我们能否使用这种“自动语音识别”技术来替代手工转录口述内容的繁琐过程。

自动语音识别的一个流行应用是语音自动转录为文本,比如将讲话转录成手机短信、自动数据输入、直接语音输入和制备结构化文档等。日本议会的转录系统就使用了自动语音识别。在这种应用下,声音用电子方式被转换成文本,并创建会议记录或者报告草稿等。然后会议记录或者报告草稿被格式化,编辑修正翻译、标点或语法中的错误,并且检查一致性和任何可能的错误。在有标准化术语的领域工作的转录员——比如放射学或病理学领域中——更有可能会遇到语音识别技术。在医疗界,医疗转录机可以听医生和其他专业医疗保健人员的录音,并把它们转录到医疗报告、信件和其他行政材料中。这一应用具有提高工作输出效率并改善访问和控制各种计算机应用的潜力。通过使用语音输入,自动语音识别应用程序绕过或尽量减少传统的手动输入方法(例如键盘、鼠标),因此也使它成为有严重的肢体或神经运动障碍人士的一种替代输入法。

同声传译 目前同声传译设备虽然尚未完善,但达到基本上可用的要求却是指日可待。2012年夏天,伦敦发明家Will Powell展示了一个进行英语和西班牙语即时互译的系统。对话双方都戴着与手机相连的耳机,而他们佩带的特制的眼镜可以像字幕一样把翻译的文字显示出来。这款即时互译系统在只要有手机信号的地方就能工作,但目前此系统需要耳机、云服务和笔记本电脑的支持,也就意味着它目前还只能是个设计原型。

2012年11月,日本最大的移动电话运营商NTT DoCoMo推出了一项可以将电话中的日语与英语、中文或韩语互译的服务。通话的每一方都连续说话,然后该公司的计算机在几秒钟内将听到的内容翻译到所要求的语言,并将结果视情况适当地用男声或女声输出。

在同声传译领域最诱人的成果可能来自Microsoft。2012年10月,当该公司的首席研究官Rick Rashid出席天津的一个会议时,他的英语演讲现场就被翻译成了普通话,先是以字幕的形式显示在大屏幕上,接着以电脑合成的声音读出。最引人注目的是,Rashid先生的中文版演讲与他的英文版演讲具有相同的语气和音调。Microsoft认为,如果以说话者自己的声音传递译文,听众对错误的容忍度会提高,比如Rashid先生演讲的即时中文翻译虽然偶有错误,但仍收到热烈的掌声。

自动语音翻译技术和智能手机中的应用目前可用的视频和音频数据量正在以指数级飞速增长,远远超过了人工翻译的承受力。当人工翻译不可行时,自动语音翻译可以发挥重要的作用,它不仅让通信成为可能,而且可以帮助从海量的数据中找出重要信息。自动语音识别和机器翻译能让会议跨越国界和语言地高效举行。

不仅是技术的进步支持自动语音识别的采用,商业趋势也如此。在各个行业中,对最新移动技术的需求与日俱增。为顺应这一趋势,许多语音翻译技术都可以装在智能手机应用或平板电脑上使用。

不可否认,基于互联网的解决方案有巨大的优势,因为当人们说话时他们的数据可以被收集和分析,而识别准确率的一个主要因素是训练声学模型的数据量。越多的人对Google Search和Siri说话,这些系统的性能就会越好。但是如果一个系统只能联网使用,那旅行者的使用就会受限。而英国的一家叫Nouvaris的公司于2012年开发的Nova Search不需要连接到互联网就能使用。因此,当没有3G或无线网信号时,你仍然能让智能手机或计算机通过数据库进行搜索或回答问题。而当如果有互联网连接时,该技术可以在几秒钟之内就从庞大的数据库中完成筛选,到目前为止,它已对高达2.45亿条的列表起作用。由于是在智能手机上而不是互联网上解码语音,Nova Search可以更快速地完成语音指令的数据库搜索。

Google和Siri基本上是将语音转换为单词流输入到网络搜索或人工智能口译员。而Nova Search不同是因为它直接用语音输入搜索自定义数据库,它会产生拼音符号流,并将其用在一个非常快的已获得专利的搜索技术中。通过使用以拼音为基础的方法,该软件可以一次搜索整个词组,而不是只搜索个别单词。虽然该软件仍然是在搜索互联网时最有用,但能在本地使用设备的语音识别功能仍具有一些关键的优势,因为需要发送的数据大大减少,而且很快,要知道语音是一种非常昂贵的信号发送。该软件的应用包括对智能手机或电脑说出目的地,然后它会帮你找到公共交通路线等。

语音识别验证 在兴起的所有类型的生物特征识别应用中,基于语音的身份验证是用户排斥较小的安全验证,它是一种非接触式、非侵入式且易于使用的方法。使用说话人的语音进行验证可以有许多应用。例如,当仓库中员工在工作中走来走去时,可以给他们配备可穿戴/便携式语音数据收集系统使其进入仓库;可以对因酒后驾车而定罪的罪犯方便地进行远程酒精测试。结合移动定位系统,语音验证还可以用于跟踪保安人员,以确保他们自己在正常巡逻,而不是让他们的朋友在帮他们巡逻。另外,语音验证也可作为多安全系统用来控制过境。比如在Montana州的Scobey,气温有时会降至零度以下,于是大多数其他形式的生物识别技术不再可行,而语音验证装置却可以照常工作。

在金融方面,语音验证也开始有了应用。Nuance公司2013年5月的调查数据显示,有85%的人对当前的身份验证方法不满,因为要登录到银行帐户、旅行网站或其他个人帐户时,必须要记住许多个人识别码、密码、安全问题及其答案;数据还显示,如果能有相同高的安全级别的话,90%的人希望能使用语音识别解决方案来代替传统的身份验证方法,因为语音识别技术可以通过每个人独特的声音来标识他,从而消除了要记住和键入密码、个人识别码的麻烦,让身份验证过程变得快速而简单。

2013年5月,Barclays财富投资管理部署了Nuance的Free Speech语音识别方案,成为第一家在呼叫中心将被动的语音识别技术部署为主要客户验证手段的金融服务公司。自推出以来,超过84%的Barclays客户已在Nuance语音生物识别技术解决方案中注册,其中有95%的人第一次使用时就成功验证了身份。更妙的是,客户与联系中心的经验反馈也有所改进,93%的客户对新的身份验证系统就速度、易用性和安全性的评分至少为90分。Nuance的语音生物识别技术让象Barclays银行这样的组织通过更直观、更透明的认证方式重新定义它们的客户服务经验,减轻了客户和服务代理的负担。

汽车上的应用 技术的发展一日千里,这极大影响了现代汽车中的驾驶员界面。先进的驾驶员辅助系统、自动泊车制动系统和无钥匙点火等创新从根本上改变了驾驶员界面的构成。这些新的舒适性、信息和娱乐系统要求驾驶员处置大量的按钮、旋钮和屏幕,并且这一需求还在不断增加。移动智能手机和平板电脑也被越来越多地纳入汽车中,以满足驾驶员在行车中对连接和新服务的需求。对驾驶员来说,这显然带来了驾驶干扰和信息超载的风险,尤其是这些主要车辆控制还只是冰山一角。而最有前景的解决方案似乎是语音控制,并且这早已是汽车行业的愿望。2013年现代的下一代汽车将有自然语言的语音启动电话拨号、消息听写、目的地输入等,并能在车内或在线音乐服务中搜索音乐。然而需要认识到的是,即使有语音控制,驾驶员分神的风险依然存在。

自动语音识别的其他应用 移动广告是数字广告中增长最快的领域之一。根据eMarketer的数据,2012年全球移动广告支出达84.1亿美元,是2011年的40亿美元的两倍以上,并且预计到2013年达到近370亿美元。作为创新性的新的移动广告格式,语音广告是游戏规则改变者,它可以让人们与他们喜欢的品牌有动人有趣的双向对话,品牌可以通过让消费者在广告中畅所欲言而令其对品牌产生持久的印象。在以前,从来没有一个品牌能够有超过10亿用户的个人对话,而这正是品牌一直渴求的与公众的亲密关系。目前Nuance VoiceAds已经完全可以做到这一点。

2013年,松下新的高清智能电视SMARTVIERA采用Nuance配备的Dragon TV系统,人们可以坐着通过语音来查找内容、搜索网页、控制音量等, 创造了更多的互动和智能电视体验。

另一个更为有趣的应用发生在俄罗斯,该国最大的零售银行联邦储蓄银行(Sber bank)开发了一种使用语音识别来测谎的自动提款机。该机器通过将客户对一些问题的反应与一个记录审讯中说谎人的数据库比较,从而确定客户是否说谎。

自动语音识别的未来

除了从事自动语音识别的研究和开发的科学家和技术人员,大多数人考虑自动语音识别时低估了它的复杂性。它不仅是自动的文本到语音,复杂的识别任务的一个必要条件是自动语音识别需要有大的数据容量和存储器的快速计算机,并且需要语音科学家、语言学家、计算机科学家、数学家和工程师的参与。这些参与者应用神经网络、心理声学、语言学、言语感知、人工智能、声学语音学等领域的知识,为实现人类和机器之间的自然会话这一最终目标共同努力。

过去三十多年来,语音识别研究的特点是小改进的稳步积累。由于语音识别性能的提高和更快计算机的可用,商业研究和其他学术研究继续把重点放在日益难以解决的问题上。其中一个关键领域是提高语音识别性能的强健耐用性,这不仅是指抗噪音方面,也包括在所有可能导致性能大幅下降的情况下的强健耐用性。另一个关键领域关注的是一个机会,而不是一个问题,因为这项研究尝试利用许多应用中的大量高达数百万小时的可用语音数据。如果靠人来把这些语音转录成文本,成本相当高昂,因此研究关注的是开发一种新的机器学习的方法,使之能有效地利用大量未标记的数据。还有一个研究领域是更好地理解人的能力,并使用这种理解来提高机器识别性能。

自动语音识别产品将会不断完善,并被更多地使用。虽然在键盘上打字相对容易,但很难有人可以像说话一样快速准确地键入文字。基于我们生活的现代世界里时间是最重要的这一事实,自动语音识别将帮助人类提高生产力,让我们能够更容易更迅速地运行搜索查询、撰写重要文档和管理我们的日常生活。此外,企业还将能在没有互联网连接时随时使用相应的应用程序,而目前在旅行时这些应用并不总是可用的。

语音情感识别研究现状综述 篇7

1、语音情感识别的发展意义及概念

计算机的快速发展对人类的生活,学习,休闲,交流起到了不可替代的作用。人们对计算机功能的需求和实现也不断地提高和发展。在互联网飞速发展的今天,人机交互和人机互动 (HMI&HCI) 无疑是计算机发展的一个重大方向,它蕴藏着重大科研价值,商业价值以及应用价值。在互联网逐渐转向移动终端,可智能穿戴设备的今天,提升用户体验感,舒适度,以及提升人机交互的功能性,可用性以及友好性是研究之重。

人类传达情感识别的方式主要有表情,语言声调以及肢体动作。而语言作为人类信息感情交流的直接媒介,对于发展HCI的今天扮 演着重大 的地位。 语音情感 识别(Speech emotion Recognition)就是将计算 机作为“人类”,通过对说话者的语气,语调,特殊词汇等的把握,采集在语音中对这些声学特征信号,并对其进行提取和分析。通过对结果的处理与研究,发现特征信号与人类情感的映射关系。而这些映射关系是计算机语音情感识别的重要组成部分,是人机交互的主要部分。所以,通过以上分析,可以确定以下三个方面:

(1)语音情感识别是发展人机交互的核心之一

人机交互就是对计算机赋予人类的情感识别,处理能力;是计算机智能的重要体现;同时也可以让计算机更好的为人类服务。

(2) 语音情感识别是计算机对人类情感研究的重要特征标识之一

人类发展 研究出了 指纹识别 , 虹膜识别 , 面部识别 , 以及表情 识别等。 生物特征 识别是比 传统鉴别 方法更加安 全的渠道 之一。语 音包含着 各种生物 信息 ,所以语音 情感识别 要在生物 特征识别 上将要扮 演更重要的 角色。

(3)语音情感识别应用范围广

在远程语音服务中,服务员通过计算机可以感知用户的情感状态,可以随时调整服务方式,从而提高服务质量;在犯罪审问过程中,计算机可以通过语音识别辅以心跳,脑电波等来判断犯人是否说谎;在玩具中,可以增加情感玩具,从而从小就可以提高孩子的情感处理能力;在教师远距离语音授课中,学生和教师双方都可以通过语音识别来感知双方情感,从而提高教学质量。

2、语音情感识别流程

二、主流语音情感模型

1、离散情感数据库

离散情感数据库就是将情感分为有限的几类,每一种情感都有三个标准:单一,浓重,辨识度高。不过生活中很难达到这种状态,自然语音很难满足这三种标准。因此,现有的离散情感数据库多属于表演型,引导型,综合型。

现有的离散情感数据库有Belfast英语情感数据库,柏林EMO-DB德语情感语音库,CASIA汉语情感语料库,ACCorpus系列汉语情感数据库等。他们统一的特点都是录制人的语音 都具有某 种特定的 情感特性 , 如nertral、anger、fear、joy、sadness、disgust、boredom等。其中CASIA为中国科学院自动化研究所录制,由两男两女分别在纯净录音环境下(信噪比约35db),用高兴、悲哀、生气、惊吓、中性的语气,16k Hz采样,16bit量化,采集500句文本,最终筛选保留其中9600句。ACCorpus系列汉语情感数据库由清华大学和中国科学院心理研究所合作录制,有5个子库。其中ACCorpus_SR (情感语音识别数据库) 共由25对男女对5类情感 (nertral、happiness、anger、fear和sadness) 录制得到,16k Hz采样,16bit量化。

2、维度情感数据库

维度情感数据库又称连续情感数据库,它存在在一个连续的空间,并且将情感映射在某一个三维或者二维坐标上,形成一个点。在三维情感空间中,每个维度的定义分别为:(1)效价维(Valence/Evaluation),主要作用是将情感分为正、负两种;(2)激活维(Activation/Arousal),主要作用是通过显示与情感相关的神经的生理激活水平来反映一个情感的猛烈程度;(3)控制维(Control/Power),它用来反映一个情感所具有的主观程度,用于区分该情感是周围环境所致还是由个人主观能动性产生的。

在维度情感数据库中有一个很重要的Plutchik为代表提出的“情感轮”理论,位于二维空间中,它将圆心作为情感原点,意为所有情感的综合,不过各个情感对于原点影响太小,从而可以忽略不计。不同的情感对应着不同的由原点引出的向量,原点所引出的向量的“模长”与“方向”分别对应了情感的强烈程度,和情感的方向。

不同于Plutchik的情感轮,Fox的三级情感分类模型是通过情感主动和被动的作为区分标准,按照低级粗分,高级细分将人类的情感分成了三个等级。

三、语音情感识别方法

根据人们对语音情感识别的研究与认识情况,一个完整的语音情感识别一般都要经过以下三个过程:

1、语音情感预处理

语音情感预处理的第一步就是语音分析,通过对语音的分析及降噪从而获得更高精度的测量结果。它的主要技术为“短时分析技术”,语音无论从整体上看它的特征,还是细分到表征其特征的参数都是随时间而变化。由于语音信号是一个非平 稳的变化 过程 ,所以我们 不能使用 处理平稳过 程信号的 数字信号 来处理 ;另一方面 ,语音信号是 由人的口 腔肌肉运 动而产生 ,类似声道 ,这种口腔的 肌肉运动所产 生的语音信 号变化是 缓慢的。 因此 ,虽然语音信号 时时都在变 化 ,但是在一 个很短的 时间内 ,它的特征也 是相对平稳的 。因此 ,明确了语 音信号建 立在短时的 基础之上 后 , 我们就可 以将语音分成一段,也可以说是一帧(10~30ms)。再将每一帧的语音特性参数组成一个序列。

语音分析按参数性质分类分为:时域分析,频域分析,倒谱分析。

语音分析按分析方法分类分为:模型分析法和非模型分析法。

2、语音情感特征分析提取

通过语音情感预处理后,我们可以得到语音的样本。因为语音情感特征的提取对于语音识别的结果有决定性影响,所以对于其特征的选取是研究的重中之重。一般选取的语音情感特征具有以下特点:

(1)能够在同一情感中基本稳定表现;

(2)对于不同的情感有明显的区别;

(3)外界影响较小;

(4)特征之间的相关度降到最小;

(5)对于特征的提取和测量不太复杂,特别是对于运算的时间复杂度不高。

经过研究表明,具有这些特点的语音情感特征可以分为声学特征和音学特征,声学特征又可分为韵律特征和语音特征,相关参数是基音,能量,过零率,共振峰(可以用线性预测法预测系数,用共振检测法计算共振峰频率)等;音学特征主要是表述人耳对声音的感知情况,相关参数是MFCCs和Mel频谱能量动态系数等。

3、SVM 语音情感识别介绍

语音情感识别主要分为语音预处理,语音情感特征提取,语音情感识别三部分。在情感识别部分,常见的有通过SVM模型进行情感识别。

以下为识别原理图:

在一整套SVM情感识别模型中,最先开始的预处理是数字化预处理以及语音端点检测处理,因为只有消噪,降噪后选取的有效的语音信号才能带来计算量的减少,提高识别的精确度。情感特征分析提取主要是将这些通过实验研究获得的情感特征送入情感识别模块,情感模式识别的两部分分别为情感分类模型的的训练和情感分类模型的测试。在情感分类模型的训练中,主要是利用上一步情感特征提取的全局统计情感特征,将SVM模型训练出具有情感分类能力。语音情感识别测试分为用训练好的SVM模型在情感语音库上进行性能检测,旨在提高其泛化能力的离线测试。和通过人声实时录制,对已训练好的SVM模型进行性能检测的在线测试。

四、总结与展望

语音情感识别技术具有重要的理论和研究价值,截至今日,其技术的发展已经有了长足的进步,不过它仍处于较为初级的研究阶段,距离技术的成熟仍有巨大的距离。本文仅对其基本原理、技术及其发展进行了简单的综合阐述,对于现有的语音情感识别技术来说只是冰山一角,在其研究阶段仍有很多问题亟待我们去解决,例如我们如何以更接近人类的方式对语音情感进行分析,以及解决基本情感状态集合的确定问题。在未来的某一天,计算机不再只会知道我们“说什么”,它会围绕人类的思维,并且在非接触的情况下获取人类心理活动等更多信息。对于这项具有挑战性的课题,随着人们对其语音情感识别理论及其实践的研究与认识,在未来的科学发展中一定会有重大的突破。

摘要:本文从语音情感识别的概念以及流程入手,对近些年来关于语音情感识别过程情况的阶段性研究成果进行了综合阐述,并对其未来研究及其发展进行了展望。

语音识别技术研究进展 篇8

语音是由人的发音器官发出来的代表一定意义的声音, 是语言存在的物质外壳[1]。语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在高度信息化的今天, 语音处理的一系列技术及其应用已经成为信息社会不可或缺的重要组成部分[2]。

语音的产生是一个复杂的过程, 包括心理和生理等方面的一系列动作。当人需要通过语音表达某种信息时, 首先是这种信息以某种抽象的形式表现在说话人的大脑里, 然后转换为一组神经信号, 这些神经信号作用于发声器官, 从而产生携带信息的语音信号。

2 语音识别 (Speech Recognition) 概述

语音识别是试图使机器能“听懂”人类语音的技术[3]。语音识别的作用是将语音转换成等价的书面信息, 也就是让计算机听懂人说话。作为一门交叉学科, 语音识别又是以语音为研究对象, 是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域, 甚至还涉及到人的体态语言 (如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信[4]。)

3 语音识别的研究历史及现状

3.1 国外研究历史及现状

语音识别的研究工作可以追溯到20世纪50年代[5]。1952年AT&T贝尔实验室的Audry系统, 是第一个可以识别十个英文数字的语音识别系统。

20世纪60年代末、70年代初出现了语音识别方面的几种基本思想, 其中的重要成果是提出了信号线性预测编码 (LPC) 技术和动态时间规整 (DTW) 技术, 有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。

20世纪80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络 (ANN) 在语音识别中的成功应用。

90年代, 在计算机技术、电信应用等领域飞速发展的带动下, 迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力, 新用户不需要对全部词汇进行训练, 便可在使用中不断提高识别率。

3.2 国内研究历史及现状

我国在语音识别研究上也投入了很大的精力, 国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项, 我国语音识别技术的研究水平已经基本上与国外同步。

4 语音识别系统的分类

从不同的角度和要求出发, 语音识别有不同的分类方法。

按照说话人的限定范围, 可以分为: (1) 特定人识别系统:仅考虑对于专人的话音进行识别; (2) 非特定人语音系统:识别的语音与人无关, 通常要用大量不同人的语音数据库对识别系统进行学习。

按照词汇表大小分, 可以分为: (1) 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2) 中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3) 大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。一般而言, 随着词汇表中词汇量的增多, 各词汇之间的混淆性增加, 系统的识别率也会降低[5]。

按照发音方式分, 可以分为: (1) 孤立词识别:孤立词识别是指在发待识别语音时, 每次只含词汇表中的一个词条。孤立词识别是语音中最简单也是最成熟的识别技术。 (2) 连接词识别:连接词识别每次说词汇表中的若干个词条进行识别, 该若干词条以慢速连读的方式连续说出。 (3) 连续语音识别系统:连续语音识别指说话人以日常自然的方式讲述并进行识别。连续语音输入是自然流利的连续语音输入, 大量连音和变音会出现。

5 语音识别的几种基本方法

当今语音识别技术的主流算法, 主要有传统的基于动态时间规整 (Dynamic Time Warping, 简称为DTW) 算法、基于非参数模型的矢量量化 (Vector Quantization, 简称为VQ) 方法、基于参数模型的隐马尔可夫模型 (Hidden Markov Models, 简称为HMM) 的方法和基于人工神经网络 (Artificial Neural Network, 简称为ANN) 等语音识别方法[6]。

5.1 动态时间规整 (DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤, 它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落 (如音素、音节、词素) 的始点和终点的位置, 从语音信号中排除无声段。在早期, 进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60年代日本学者Itakura提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短, 直到与参考模式的长度一致。在这一过程中, 未知单词的时间轴要不均匀地扭曲或弯折, 以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时, 在小词汇量、孤立字 (词) 识别系统中, 也已有许多改进的DTW算法提出。

5.2 隐马尔可夫模型 (HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的, 它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型, 将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列, 是由大脑根据语法知识和言语需要 (不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程, 很好地描述了语音信号的整体非平稳性和局部平稳性, 是较为理想的一种语音模型。

5.3 矢量量化 (VQ)

矢量量化是一种重要的信号压缩方法。与HMM相比, 矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧, 或有k个参数的每一参数帧, 构成 k 维空间中的一个矢量, 然后对矢量进行量化。量化时, 将 k 维无限空间划分为 M 个区域边界, 然后将输入矢量与这些边界进行比较, 并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可能的平均信噪比。

5.4 人工神经网络 (ANN)

人工神经网络的出发点是通过模拟大脑的机制, 将包括听觉系统的生物神经系统的信息处理机制引入机器学习的研究中, 使其具有学习和理解的能力。系统的所有计算都是由神经元单元完成的, 而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的, 具有传统的数字计算机系统即线性网络没有的优点[7]。

5.5 支持向量机 (SVM)

支持向量机 (Support vector machine) 是应用统计学理论的一种新的学习机模型[8], 采用结构风险最小化原理 (Structural Risk Minimization, SRM) , 有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力, 在解决小样本、非线性及高维模式识别方面有许多优越的性能, 已经被广泛地应用到模式识别领域。

6 语音识别系统的结构

语音识别本质上是一种模式识别的过程, 其基本原理框图如图1, 主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块, 其中后处理模块为可选模块。

预处理模块, 对输入的原始语音信号进行处理, 滤除掉其中的不重要的信息以及背景噪声, 并进行语音信号的端点检测、语音分帧以及预加重等处理。

特征提取模块负责计算语音的声学参数, 并进行特征的计算, 以便提取出反映信号特征的关键特征参数, 以降低维数并便于后续处理。

在训练阶段, 用户输入若干次训练语音, 系统经预处理和特征提取后得到特征矢量参数, 建立或修改训练语音的参考模式库。

在识别阶段, 将输入的语音的特征矢量参数和参考模式库中的模式进行相似性度量比较, 将相似度最高的模式所属的类别作为识别的中间候选结果输出。

后处理模块对候选识别结果继续处理, 通过语言模型、词法、句法、和语义信息的约束, 得到最终的识别结果。

7 语音识别所面临的问题及展望

1) 就算法模型方面而言, 需要有进一步的突破。目前使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。

2) 就自适应方面而言, 语音识别技术也有待进一步改进, 做到不受特定人、口音或者方言的影响, 这实际上也意味着对语言模型的进一步改进。

3) 就强健性方面而言, 语音识别技术需要能排除各种环境因素的影响。目前, 对语音识别效果影响最大的就是环境杂音或嗓音, 个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音, 如何让语音识别技术也能达成这一点是一个艰巨的任务。

4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入, 用户因此就可以不必在语种之间来回切换。此外, 对于声学模型的进一步改进, 以及以语义学为基础的语言模型的改进, 也能帮助用户尽可能少或不受词汇的影响, 从而可实行无限词汇识别。

5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合, 全世界说不同语言的人都可以实时地自由地交流, 不存在语言障碍。可以想见, 多语种自由交流系统将带给我们全新的生活空间。

6) 语音情感识别:近年来随着人工智能的发展, 情感智能跟计算机技术结合产生了情感计算[9]这一研究课题, 这将大大的促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介, 携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。

参考文献

[1]戴庆厦.语言学基础教程[M].北京:商务印书馆, 2006.

[2]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.

[3]王士元, 彭刚.语言、语音与技术[M].上海:上海教育出版社, 2006.

[4]http://www.ctiforum.com CTI论坛.语音识别技术及发展.

[5]蔡莲红, 黄德智, 蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社, 2003.

[6]赵力.语音信号处理[M].北京:机械工业出版社, 2003.

[7]息晓静, 林坤辉, 周昌乐, 蔡骏.语音识别关键技术研究[J].计算机工程与应用, 2006 (11) .

[8]宇缨.支持向量机及其在自然语言处理中的应用[J].东莞理工学院学报, 2007 (14) .

智能机器人语音识别技术 篇9

关键词:智能机器人,语音识别,隐马尔可夫模型,DSP

0 引 言

语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别,以及大词汇量的连续词识别。对于智能机器人这类嵌入式应用而言,语音可以提供直接可靠的交互方式[1],语音识别技术的应用价值也就不言而喻。

1 语音识别概述

语音识别技术最早可以追溯到20世纪50年代[2],是试图使机器能“听懂”人类语音的技术。按照目前主流的研究方法,连续语音识别和孤立词语音识别采用的声学模型一般不同。孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合[3]。

语音的能量来源于正常呼气时肺部呼出的稳定气流,喉部的声带既是阀门,又是振动部件[4]。语音信号可以看作是一个时间序列,可以由隐马尔可夫模型(HMM)进行表征。语音信号经过数字化及滤噪处理之后,进行端点检测得到语音段。对语音段数据进行特征提取,语音信号就被转换成为了一个向量序列,作为观察值。在训练过程中,观察值用于估计HMM的参数。这些参数包括观察值的概率密度函数,及其对应的状态,状态转移概率等。当参数估计完成后,估计出的参数即用于识别。此时经过特征提取后的观察值作为测试数据进行识别,由此进行识别准确率的结果统计。训练及识别的结构框图如图1所示。

1.1 端点检测

找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是语音识别过程中一个基本而且重要的问题。端点作为语音分割的重要特征,其准确性在很大程度上影响系统识别的性能[5]。

能零积定义:一帧时间范围内的信号能量与该段时间内信号过零率的乘积。

能零积门限检测算法可以在不丢失语音信息的情况下,对语音进行准确的端点检测,经过450个孤立词(数字“0~9”)测试准确率为98%以上,经该方法进行语音分割后的语音,在进入识别模块时识别正确率达95%。

当话者带有呼吸噪声,或周围环境出现持续时间较短能量较高的噪声,或者持续时间长而能量较弱的噪声时,能零积门限检测算法就不能对这些噪声进行滤除,进而被判作语音进入识别模块,导致误识。图2(a)所示为室内环境,正常情况下采集到的带有呼气噪声的数字“0~9”的语音信号,利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声,之后为数字“0~9”的语音。

从图2(a)直观的显示出能零积算法在对付能量较弱,但持续时间长的噪音无能为力。由此引出了双门限能零积检测算法。

所谓的双门限能零积算法指的是进行两次门限判断。第一门限采用能零积,第二门限为单词能零积平均值。也即在前面介绍的能零积检测算法的基础上再进行一次能零积平均值的判决。其中,第二门限的设定依据取决于所有实验样本中呼气噪声的平均能零积及最小的语音单词能零积之间的一个常数。如图2(b)所示,即为图2(a)中所示的语音文件经过双门限能零积检测算法得到的检测结果。可以明显看到,最前一段信号,即呼气噪声已经被视为噪音滤除。

1.2 隐马尔可夫模型HMM

隐马尔可夫模型,即HMM是一种基于概率方法的模式匹配方法。它的应用是20世纪80年代以来语音识别领域取得的重要成果[6]。

一个HMM模型可以表示为:

λ=(π,A,B)(1)

式中:π为初始状态概率分布,πi=P(q1=θi),1≤iN,表示初始状态处于θi的概率;A为状态转移概率矩阵,(aij)N×N,aij=P(qt+1=θj|qt=θi),1≤i,jN;B为观察值概率矩阵, B={bj(ot)},j=1,2,…,N,表示观察值输出概率分布,也就是观察值ot处于状态j的概率。

1.3 模型训练

HMM有多种结构类型,并且有不同的分类方法。根据状态转移矩阵(A参数)和观察值输出矩阵(B参数)的不同有不同类型的HMM[7]。

对于CHMM模型,当有多个观察值序列时,其重估公式由参考文档[8]给出,此处不再赘述。

1.4 概率计算

利用HMM的定义可以得出P(O|λ)的直接求取公式:

Ρ(Ο|λ)=q1,q2,qΤπq1bq1(o1)aq1q2bq2(o2)aqΤ-1qΤbqΤ(oΤ)(2)

式(2)计算量巨大,是不能接受的。Rabiner提出了前向后向算法,计算量大大减小。定义前向概率:

αt(i)=Ρ(o1,o2,oΤ,qt=i|λ)(3)

那么有:

(1) 初始化:

α1(i)=πibi(o1)1iΝ(4)

(2) 递推:

αt+1(j)=[i=1Ναt(i)aij]bj(ot+1)1jΝ1tΤ-1(5)

(3) 终止:

Ρ(Ο|λ)=i=1ΝαΤ(i)(6)

式(2)表示的是初始前向概率,其中bi(o1)为观察值序列处于t=1时刻在状态i时的输出概率,由于它服从连续高斯混合分布,故此值往往极小。根据大量实验观察,通常小于10-10,此值在定点DSP中已不能用Q格式表示。分析式(3)可以发现,随着时间t的增加,还会有大量的小数之间的乘法加法运算,使得新的前向概率值αt+1更小,逐渐趋向于0,定点DSP采用普通的Q格式进行计算时便会负溢出,即便不发生负溢出也会大大丢失精度。因此必须寻找一种解决方法,在不影响DSP实时性的前提下,既不发生负溢出,又能提高精度。

2 DSP实现语音识别

孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合[9]。

为了能实时控制机器人,首先需要考虑的是能够实现实时地语音识别。而考虑到CHMM的巨大计算量以及成本因素,采用了数据处理能力强大,成本相对较低的定点数字信号处理器,即定点DSP。本实验采用的是TI公司多媒体芯片TMS320DM642。定点DSP要能准确、实时的实现语音识别,必须考虑2点问题:精度问题和实时性问题。

精度问题的产生原因已经由1.4节详细阐述,这里不再赘述。因此必须找出一种可以提高精度,而又不会对实时性造成影响的解决方法。基于以上考虑,本文提出了一种动态指数定标方法。这种方法类似于科学计数法,用2个32 b单元,一个单元表示指数部分EXP,另一个单元表示小数部分Frac。首先将待计算的数据按照指数定标格式归一化,再进行运算。这样当数据进行运算时,仍然是定点进行,从而避开浮点算法,从而使精度可以达到要求。

对于实时性问题,通常,语音的频率范围大约是300~3 400 Hz左右[10],因而本实验采样率取8 kHz,16 b量化。考虑识别的实现,必须将语音进行分帧处理。研究表明,大约在10~30 ms内[11],人的发音模型是相对稳定的,所以本实验中取32 ms为一帧,16 ms为帧移的时间间隔。

解决实时性问题必须充分利用DSP芯片的片上资源。利用EDMA进行音频数据的搬移,提高CPU利用率。采用PING-PONG缓冲区进行数据的缓存,以保证不丢失数据。CHMM训练的模板放于外部存储器,由于外部存储器较片内存储器的速度更慢,因此开启CACHE。建立DSP/BIOS任务,充分利用BIOS进行任务之间的调度,实时处理新到的语音数据,检测语音的起止点,当有语音数据时再进入下一任务进行特征提取及识别。将识别结果用扬声器播放,并送入到机器人的控制模块。

实验中,采用如图3的程序架构。

3 机器人控制

机器人由自然条件下的语句进行控制。这些语句描述了动作的方向,以及动作的幅度。为了简单起见,让机器人只执行简单命令。由手机进行遥控,DSP模块识别出语音命令,送控制命令到ARM模块,驱动左右机械轮执行相应动作。

3.1 硬件结构

机器人的硬件结构如图4所示。

机器人主要有2大模块,一个是基于DSP的语音识别模块;另一个是基于ARM的控制模块,其机械足为两滑轮。由语音识别模块识别语音,由控制模块控制机器人动作。

3.2 语音控制

首先根据需要,设置了如下几个简单命令:前、后、左、右。机器人各状态之间的转移关系如图5所示。

其中,等待状态为默认状态,当每次执行前后或左右转命令后停止,即回到等待状态,此时为静止状态。

语音的训练模板库由4个命令加10个阿拉伯数字共14个组成,如下所示。

命令:“前”、“后”、“左”、“右”;

数字:“0~9”。

命令代表动作的方向,数字代表动作的幅度。当执行前后命令时,数字的单位为dm,执行左右转弯命令时,数字的单位为角度单位的20°。每句命令句法为命令+数字。例如,语音“左2”表示的含义为向左转弯40°,“前4”表示向前直行4 dm。

机器人语音控制的关键在于语音识别的准确率。表1给出了5个男声样本的识别统计结果。

4 结 语

工作中,成功地将CHMM模型应用于定点DSP上,并实现了对机器人的语音控制。解决了CHMM模型巨大计算量及精度与实时性之间的矛盾。提出了一种新的端点检测算法,对于对抗短时或较低能量的环境噪音具有明显效果。同时需要指出的是,当语音识别指令增多时,则需要定义更多的句法,并且识别率也可能会相应降低,计算量也会相应变大。下一步研究工作应更注重提高大词汇量时的识别率及其鲁棒性。

嵌入式语音识别系统研究 篇10

1 系统硬件平台

系统硬件以S3C2410为核心,配以外围语音模块、通信模块、存储模块、电源模块等,如图1所示。

1.1 微处理器的选择

嵌入式语音识别系统通常以高性能的微处理器和DSP为双核来构成,也可以高性能的微处理器为单核来构成,应根据实际需要来选择,对于孤立词、小词汇量识别系统用单核就能胜任了。微处理器一般采用ARM9或ARM11,ARM11的性能要比ARM9强很多,当然价格也贵很多,应根据系统的性能要求来选择微处理器,一般的识别系统采用ARM9就能够完成 了。ARM9处理器的 类型很多 包括AR M926EJ-S、ARM946E-S、ARM966E-S、ARM968E-S、ARM996HS、ARM920T和ARM922T。Samsung公司S3C2410A处理器是一款低功耗,高性能的小型处理器,有助于嵌入式系统的成本控制。S3C2410A采用了ARM920T内核,0.18umCMOS工艺,内部集成了内存管理单元(MMU), 支持WinCE,EPOC 32和Linux等嵌入式操作系统,支持多种总线接口。1通道IIC总线可进行8位串行双向数据传输,标准模式下数据传输速度可达100kbit/s,最高可达到400kbit/s;1通道音频IIS总线接口,可基于DMA方式工作;兼容2通道SPI协议2.11版。时钟频率为200MHz,最高可达266MHz[2]。

1.2 外围电路

1.2.1 语音芯片

UDA1341TS是Philips公司生产的专用语音处理芯片,能对语音信号进行程控放大、内插滤波、DAC滤波、支持IIS音频接口,具有DSP处理能力, 因此,UDA1341TS是嵌入式语音识别系统的首选语音芯片。此外,Infineon公司生产的SDA80D51语音芯片也是不错的选择。

1.2.2 存储芯片

S3C2410微处理器内置的内存容量较小,要运行Linux或WinCE需要扩展内存,通常采用SDRAM芯片。SDRAM (Synchronous Dynamic Random Access Memory),即同步动态随机存储器。它是一种动态存储器,即信息是存放在MOS管的寄生电容上的,需要定时刷新。它的主要特点是成本低、容量大、速度快(存取时间小于10ns) 被广泛应用于嵌入式系统中。SDRAM芯片大多数是8位 /16位数据宽度,而ARM9是32位的,因此需要通过位扩展的方式将SDRAM芯片扩展成32位的。例如可将两片16位64MBytes的SDRAM芯片(HY57V561620)扩展为32位64MBytes的。系统运行时首先将启动代码从闪存复制到SDRAM中,此外系统运行时产生的临时数据、变量、堆栈也都存放在SDRAM中。

FLASH存储器(闪存)是嵌入式系统的另一种重要的内存芯片。Flash Memory和SDRAM不同, SDRAM是挥发性的存储器,即断电后上面的信息全部丢失,所以SDRAM存储器需要刷新电路不断刷新,以保持上面的数据,而flash memory是非挥发性存储器,即断电后信息仍然能保存(能保存10年以上)。目前闪存主要有两种类型,Nor Flash和Nand Flash,Nor Flash采用并行数据传输方式,因此存取数据速度快,Nand Flash采用串行数据传输方式,因此存取数据速度慢,但Nand Flash占用系统的端口少,为了节省系统资源,通常都采用Nand Flash来构成。嵌入式操作系统和识别算法代码都存放在FLASH存储系统中。

1.2.3 通信接口电路

S3C2410A支持RS-232串行接口,RS-232采用负逻辑,即高电平(+5V~+15V) 为逻辑0,低电平 (-5V~-15V)为逻辑1,而系统板是采用正逻辑,因此需要电平转换芯片,常用的电平转换芯片有MC1489、MAX232、MC1488等 ,MAXIM公司生产 的MAX232应用最广泛。

2 系统软件平台

常见的嵌入式操作系统主要有Windows CE、Vxworks、NetBSD、pSOS、Rtems、QNX、Linux等[3]。其中Linux最受嵌入式工程师的青睐,Linux的优点: (1)完全免费,开放源代码,这样设计人员可以通过网络免费获得,并可以通过简单的改造就能获得自己需要的操作系统;(2)支持多用户、多任务,各个用户可同时开发,互不影响,多个应用程序能同时并独立地运行;(3) 支持多种硬件平台,支持x86、ARM. ALPHA. SPARC,MIPS等硬件平台。

2.1 系统软件设计思路

在目标板上建立Linux系统,通常可分四步进行[4]:(1)确定系统的组件配置。(2)创建系统内核。 (3)创建根文件。(4)设置引导软件。嵌入式系统是资源受限的一个微型系统,存储空间通常都不大,因此一般都采用交叉编译的方式进行开发,即将Linux开发工具、引导程序、系统内核都安装在宿主机 (HOST)上,然后在目标板(TARGET)上运行。

2.2 系统引导文件 BootLoader

BootLoader的作用类似于PC机的BIOS,在Lin- ux内核运行之前先由BootLoader将系统的硬件设备初始化,建立内存空间映射表,将系统环境设置在一个合适的状态。BootLoader的启动过程分两个阶段, 第一阶段:进行宏定义,初始化一些常量、变量,设置中断向量表,初始化硬件、寄存器、堆栈;第二阶段: 调用初始化函数,加载系统内核,设置启动参数。常用的BootLoader引导文件有:U-boot、armboot、blob、vivi等[5]。

2.3 linux 向 ARM 处理器的移植

一个完整的嵌入式Linux系统主要由Linux内核和根文件系统组成。由于嵌入式系统的存储空间有限,因此需要将标准的Linux内核进行瘦身并重新配置,然后编译生成内核映文件。Linux的根文件系统可直接复制拷贝到NANDFLASH中。

3 识别算法

语音识别算法有:动态时间规整(DTW)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、人工神经网络(ANN)、支持向量机(SVM)等。嵌入式语音识别系统主要为孤立词或小词汇量的识别系统, 同时它是个资源受限的系统,因此,识别算法的选择在识别精度满足要求的前提下应尽可能简单。动态时间规整 (DTW)和隐马尔可夫模型(HMM)是嵌入式识别系统最常用的两种识别算法。

3.1 动态时间规整(DTW)

动态时间规整(DTW)将时间规整和距离测度结合起来的一种非线性规整技术, 它成功地解决了语音信号发音长短不一的模板匹配问题。它实质上是用线性方式来描述在时间上或空间上是非线性的两个序列之间的相似度的一种算法[6]。对于孤立词系统,DTW识别原理为:首先用部分语音信号进行模式匹配训练得到最佳匹配模板;然后将未知语音帧与全部参考模板进行相似度计算, 距离最小的参考模板即为识别的结果。

3.2 隐马尔可夫模型(HMM)

HMM是一个双内嵌的随机过程,一个描述状态的转移,另一个描述状态和观察值之间的统计关系[7]。而人类的言语过程也刚好是一种双重随机过程,因为语音是听得见的(可观察的),但它的产生是由人类的大脑根据思维状态(不可观察的)、及语言知识、语法规则决定的。因此,HMM模型非常适合对语音信号建模。HMM是基于统计概率的分离器模型,其特点是系统的扩展性好,即可任意增加新样本,只需对新样本进行训练,而不需要对所有的样本进行训练,因此适合小词汇量的嵌入式语音识别系统。HMM识别原理:首先语音信号经过分帧、加窗、端点检测等预处理;然后进行特征参数提取,特征参数有:线性预测倒谱系数 (LPCC) 、美尔频倒谱系数 (MFCC)等;最后用维特比(vietrbi)算法进行识别。

4 结束语

语音识别 篇11

关键词:Linux;语音识别;pocketsphinx编程

中图分类号:TP311文献标识码:A文章编号:1007-9599 (2011) 06-0000-01

Sphinx Speech Recognition Under the Linux Platform

Yu Jiang,Liu Shi,Li Huaizhou

(School of Optoelectronic Information,University of Electronic Science&Technology,Chengdu610054,China)

Abstract:The programming of speech recognition under the Linux platform is expounded in this paper,and introduces the way to build a speech recognition system using PocketSphinx in detail.

Keywords:Linux;ASR;Pocketsphinx programing

随着科技的发展,语音识别在生活中扮演着越来越重要的角色,语音识别是机器通过录音设备将语音转化成程序能“理解”的命令的过程pocketsphinx是由卡耐基梅隆大学研发的一个轻量级,多平台,非特定人,大词汇库,可连续识别语音的引擎。

一、语音设别过程

语音识别的一般过程是:获得声音波形,划分为“字”单位,然后识别。我们可能要尝试所有的词组合来进行和音频的匹配。但这样会给计算机造成很大的负担,我们找到了一个折中的方法:构建模型来进行语音识别这样速度和精确性都得到了很好的照顾。

二、模型

语音识别系统主要由以下几个基本模块所构成:

1.统计声学模型:典型系统多采用基于一阶隐马尔科夫模型进行建模。

2.发音词典:发音词典包含系统所能处理的词汇集及其发音。

3.语言模型:语言模型对系统所针对的语言进行建模。

三、sphinx系统的构建

从sphinx项目主页上下载源码包,编译安装我们这里要安装的工具有两个即pocketsphinx和sphinxbase。编辑/etc/ld.so.conf文件向其中添加以下两行:

Include /usr/local/lib

include /usr/local/lib/pkgconfig

然后执行命令ldconfig来重构库配置文件,这样pocketsphinx和sphinxbase所需要的库文件就被加入到了环境变量中了。这时候环境就搭建完毕了。打开麦克风,在终端中运行命令./pocketsphinx_continuous并进行语音输入,这时可以发现已能识别语音信号,但精确度很差。在最新的Linux发行版中,已经默认的采用ALSA来驱动音频,如果Linux内核的版本为2.6,则要安装libasound2-dev库。如果以上测试不成功,则需要在终端下输入以下命令来进行测试环境变量。

pkg-config--cflags--libs pocketsphinx sphinxbase

此时输出结果如下所示,环境变量设置成功,否则检查安装的步骤是否正确。

-I/usr/local/include-I/usr/local/include/sphinxbase -I/usr/local/include/pocketsphinx

-L/usr/local/lib-lpocketsphinx-lsphinxbase-lsphinxad

四、程序编写

在准备好开发环境后可以编写程序了。创建一个文本文件test.txt并往文件中输入以下命令:open browser;new e-mail;next window;last window;open music player。最简单的方法是创建一个语言模型,运用在线工具来产生需要的文件,网址为http://www.speech.cs.cmu.edu/tools/lmtool.html。提交文件后,会产生由4个数字和后缀名组成的文件,假设其中包括的两个文件为8521.dic字典文件和8521.lm语言模型文件即我们所需要的文件。可以用两个线程处理这一过程,从而提高程序的性能:一个线程用来监听和处理语音命令,一个线程用来执行命令对应的应用程序,如图1所示。

假设C语言源程序名为hello_ps.c则可以编写如下的Makefile文件:

#Makefile for hello_ps.c

obj=hello_ps

modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

$(obj):$(obj).c

gcc $(obj).c-o $(obj)-DMODELDIR="$(modeldir)"$(flags)

运行make命令编译即可产生hello_ps文件。然后运行./hello_ps-lm 8521.lm -dict 8521.dic就可以测试了。

五、结束语

本文介绍了语音识别引擎pocketsphinx在Linux环境下的应用程序编程,语音识别有着广泛的应用。如我们常见的声控拨号电话,语音识别锁等等。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景色。

参考文献:

[1]Carnegie Mellon University.http://cmusphinx.sourceforge.net/wiki/

[2]http://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

[作者简介]余江(1985-),重庆垫江人,在读硕士研究生,专业:电路与系统,研究方向:复杂电路系统;刘士(1986-),安徽亳州人,在读硕士研究生,专业:电路与系统,研究方向:Linux嵌入式系统;李怀周(1986-),河南新乡人,在读硕士研究生,专业:电路与系统,研究方向:Linux嵌入式系统。

计算机语音识别与合成技术 篇12

人和人之间进行通信的最基本的方式就是通过语音的形式, 如果实现了计算机和人之间的语音交互这一重大问题, 那么产生的价值是不可估摸的。从20世纪六七十年代开始, 全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。

计算机已经取得了显著的科技成果, 同样的语音识别与合成技术也已经取得了丰硕的成果, 并且已经在多项领域当中已经进入应用阶段。此外, 在语音的识别方面, 目前市场上已有一些识别软件的出售, 如:中国科学院的识别系统, 可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下, 通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用, 在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM公司的Via Voice系统, 是一种可听写系统。在语音合成方面, 中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。

2 计算机语音识别与合成技术的方法研究

计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此, 为了能够对语音的重建不失真, 离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象, 进行采样的频率最小要能够达到6800Hz, 也就是说每秒要达到6800个样点。一般认为, 人的耳朵可听频率为5HZ~20KHZ, 那么从这点考虑, 语音合成最高用10KHZ来处理就能够取得较好的效果, 通常采用8KHZ采样频率, 此外, 如果是对语音量化的情况下, 那么A/D转换器只需要12位就足够了。但是, 如果语音信号需要进行量化的话, 所需要的位数达到12位即可。如果从实际考虑出发的话, 如果达到8位就能够听懂经过合成的语音了。以这样算来的话, 每秒进入计算机的信息量大约为8000×8=64kbps, 但是一个字长若为8位的话, 所占的存储量则为8K, 这样的话也不会有太大的使用价值。所以, 要对语音信息进行一定的压缩, 当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。

(1) 波形编码法

在计算机语音识别与合成技术当中最常用的波形编码法是ADM法和DM法。而ADM法当中的量化宽度是根据DM当中的值进行固定的, 所以如果出现超载噪声或者是粒状噪声, 那么在ADM法当中是不能够进行宽度值的变化的, 而且他还有能够按照趋势跟踪的自我适应能力功能, 这种方法有对噪声的自动抑制功能;DM法的主要特点是能够按照波形进行相应的编码, 作用是对下一个语音信号的值进行比较, 是高还是低。低则显示给定编码“0”;高则显示给定编码“1”。这样一来, 要进行语音信号的编码, 很明显要先对存储量进行节省, 但是其音质要略差一点。

(2) 录音编辑法

通过直接录制的方式把语音录制下来, 并且还要把这些录制下来的语音经过连接结合在一起, 编辑成文章, 在输入到计算机内的时候不经过任何压缩处理, 而是直接输出出来, 但是这种方法需要有大量的存储器。

(3) 规则合成法

这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法, 所用的单位是音素链以及音节, 可以和任意的会话和单词进行合成, 但缺点是语调比较差。

(4) 参数编码法

目前来说最常用的参数编码法主要的有LCLPC法、LPC法以及FORMANT法和PARCOR法等等, 其中, LPC法采用的是一线性预测编码的形式, 通常进行波形采样的帧为10ms-25ms, 一帧之内为一线性不变系统, 但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数, 在存储器当中的各个帧当中进行叙述, 然后在语音合成的时候才开始对这些参数进行综合。LPC法用的是3-7位的方式对所有的编码进行处理, 并且在各个数值之间进行自动插补和运算, 这种方式合成的语音的音质动听柔美。

上一篇:裂缝及防治下一篇:信息迁移题