中文语音识别技术

2024-06-19

中文语音识别技术(精选7篇)

中文语音识别技术 篇1

语音识别技术是让计算机识别一些语音信号, 并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛, 包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场, 渗透到家电、通信、医疗、消费电子产品等各个领域, 让人们的生活更加方便。

1. 语音识别技术的发展情况

1.1 国外发展状况

国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始, 第一个语音识别系统是贝尔实验室研究出来的Audry系统, 该系统虽然只能识别10个英文数字, 但是它却是语音识别的鼻祖, 开了语音识别技术的先河。在70年代初, 语音识别技术取得了实质性的进展, 能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末, 语音识别技术取得重大突破, 比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统, 该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义, 使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资, 语音识别系统的实用化研究得以蓬勃发展, 拓展应用到各个领域。

1.2 国内发展状况

我国关于语音识别技术的研究开始于20世纪50年代, 其研究历程主要分为三个阶段:

一是引进、移植阶段。在20世纪70-80年代中期, 我国语音识别技术研究处于探索和起步阶段, 这一时期以吸收和引进国外理论和技术为主, 主要进行实验室环境条件为主的汉语语音识别研究, 为汉语语音识别技术的研究和发展奠定了基础。

二是自成体系阶段。在20世纪80-90年代中期, 在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下, 我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子, 缩小了与国际研究水平的差距。

三是成熟阶段。从90年代中期以来, 在国家863《智能计算机主题》项目的推动下, 汉语语音识别技术在逐渐走向成熟, 在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。

2. 语音识别系统的分类

2.1 从说话者与识别系统的关系考虑

一是仅考虑对于专人的话音进行识别的特定人的语音识别系统;二是识别的语音与人无关的非特定人的语音识别系统;三是能识别一组人的语音的多人语音识别系统。

2.2 从说话者的方式考虑

一是输入每个单词都要停顿的语音识别系统;二是能够识别简短的连续语音的语音识别系统;三是能够正确识别大量的连续语音的语音识别系统。

2.3 从识别词汇量大小考虑

一是只包括几十个词的小词汇量的语音识别系统;二是包括几百个词到几千个词的中等词汇量的语音识别系统;三是包括几千到几万个词的大词汇量的语音识别系统。

3. 语音识别的基本方法

3.1 基于语音学和声学的方法

在语音识别技术发展之初, 就提出了基于语音学和声学方面的研究, 但是由于所涉及的领域过于广泛、知识过于复杂, 多年来一直没有突破, 仍然处于实验室研究阶段, 没有走向实用, 而且逐渐被其他方法所取代。

3.2 模板匹配的方法

模板匹配方面经过多年的研究已经取得突破性的进展, 目前已比较成熟, 开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。

3.3 神经网络的方法

这种语音识别方法起步于80年代末期, 该方法模拟了人类神经活动的原理, 具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们, 但是由于识别、训练时间太长, 一直不被人们所接受, 目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。

4. 语音识别系统的结构

随着语音识别技术的发展, 目前已经有成千上万个语音识别系统, 虽然每个语音识别系统功能上都有所不同, 但是所采用的基本技术都是相似的, 一个典型的语音识别系统实现过程如下:

4.1 特征提取

特征提取是对语音信号进行分析处理, 去掉无关的多余信息, 获取有用的关键信息, 同时对语音信号进行压缩处理以便于存储。

4.2 模式匹配

将获得的语音信息使用一些算法进行训练产生声学模型, 然后将输入的语音信息和模型库中的声学模型进行比较和匹配, 以获取需要的语音信息。

5. 语音识别所面临的问题

5.1 语音识别需要进一步突破模型匹配方面的技术

语言模型和声学模型是语音识别技术的基础, 目前语音识别技术在这两个方面仍处于研究探索阶段, 所使用的语言模型还是一种概率模型, 还没有开发出来以语言学为基础的模型。因此, 要使计算机真正能听懂和理解人类的语言, 必须进一步突破模型匹配方面的瓶颈问题。

5.2 语音识别技术也要进一步改进以提高其自适应性

目前, 大部分语音识别系统都需要用户在输入之前进行语言训练, 让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦, 导致使用语音输入的积极性就差, 宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此, 语音识别系统要想被广大用户的认可, 必须提高其自适应性, 使之不受用户口音、语速及语调的过多影响。

5.3 语音识别技术还需进一步增强其强健性以适应各种环境

目前, 语音识别技术受环境因素的影响还是很大, 在公共场合, 来自四面八方的声音, 让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用, 如何让语音设备从纷繁复杂的声音中获取自己所需要的声音, 这确实是个艰巨的任务, 需要有很长的路要走。

5.4 多种语言以及专业词汇识别方面还需要改进

目前使用的声学模型和语言模型比较简单, 只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言, 或者说出一些专业词汇, 计算机就会不知所云, 可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进, 使计算机能够识别多种语言和一些专业的词汇, 这样, 用户就不会在各种语言和词汇方面进行来回转换。

由此可见, 如果语音识别技术在上述几个方面取得一些进步, 人类的生存和交流空间将进一步得到拓展, 人类将获得更大的自由, 将会带个我们全新的生活空间。

摘要:随着信息技术和计算机技术的迅猛发展, 语音识别技术已经应用到各个领域中, 语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时, 应该对语音识别技术有所了解, 本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述, 已达到抛砖引玉的作用。

关键词:语音识别技术,探析

参考文献

[1]廖锎.浅析语音识别技术的发展及趋势[J].科技传播, 2010年17期.

[2]任杰.语音识别技术概述[J].大众科技, 2010年08期.

[3]焦高超, 张原野等.语音识别技术的发展与研究[J].网络财富2010年15期.

语音识别技术研究进展 篇2

语音是由人的发音器官发出来的代表一定意义的声音, 是语言存在的物质外壳[1]。语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在高度信息化的今天, 语音处理的一系列技术及其应用已经成为信息社会不可或缺的重要组成部分[2]。

语音的产生是一个复杂的过程, 包括心理和生理等方面的一系列动作。当人需要通过语音表达某种信息时, 首先是这种信息以某种抽象的形式表现在说话人的大脑里, 然后转换为一组神经信号, 这些神经信号作用于发声器官, 从而产生携带信息的语音信号。

2 语音识别 (Speech Recognition) 概述

语音识别是试图使机器能“听懂”人类语音的技术[3]。语音识别的作用是将语音转换成等价的书面信息, 也就是让计算机听懂人说话。作为一门交叉学科, 语音识别又是以语音为研究对象, 是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域, 甚至还涉及到人的体态语言 (如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信[4]。)

3 语音识别的研究历史及现状

3.1 国外研究历史及现状

语音识别的研究工作可以追溯到20世纪50年代[5]。1952年AT&T贝尔实验室的Audry系统, 是第一个可以识别十个英文数字的语音识别系统。

20世纪60年代末、70年代初出现了语音识别方面的几种基本思想, 其中的重要成果是提出了信号线性预测编码 (LPC) 技术和动态时间规整 (DTW) 技术, 有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。

20世纪80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络 (ANN) 在语音识别中的成功应用。

90年代, 在计算机技术、电信应用等领域飞速发展的带动下, 迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力, 新用户不需要对全部词汇进行训练, 便可在使用中不断提高识别率。

3.2 国内研究历史及现状

我国在语音识别研究上也投入了很大的精力, 国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项, 我国语音识别技术的研究水平已经基本上与国外同步。

4 语音识别系统的分类

从不同的角度和要求出发, 语音识别有不同的分类方法。

按照说话人的限定范围, 可以分为: (1) 特定人识别系统:仅考虑对于专人的话音进行识别; (2) 非特定人语音系统:识别的语音与人无关, 通常要用大量不同人的语音数据库对识别系统进行学习。

按照词汇表大小分, 可以分为: (1) 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2) 中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3) 大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。一般而言, 随着词汇表中词汇量的增多, 各词汇之间的混淆性增加, 系统的识别率也会降低[5]。

按照发音方式分, 可以分为: (1) 孤立词识别:孤立词识别是指在发待识别语音时, 每次只含词汇表中的一个词条。孤立词识别是语音中最简单也是最成熟的识别技术。 (2) 连接词识别:连接词识别每次说词汇表中的若干个词条进行识别, 该若干词条以慢速连读的方式连续说出。 (3) 连续语音识别系统:连续语音识别指说话人以日常自然的方式讲述并进行识别。连续语音输入是自然流利的连续语音输入, 大量连音和变音会出现。

5 语音识别的几种基本方法

当今语音识别技术的主流算法, 主要有传统的基于动态时间规整 (Dynamic Time Warping, 简称为DTW) 算法、基于非参数模型的矢量量化 (Vector Quantization, 简称为VQ) 方法、基于参数模型的隐马尔可夫模型 (Hidden Markov Models, 简称为HMM) 的方法和基于人工神经网络 (Artificial Neural Network, 简称为ANN) 等语音识别方法[6]。

5.1 动态时间规整 (DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤, 它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落 (如音素、音节、词素) 的始点和终点的位置, 从语音信号中排除无声段。在早期, 进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60年代日本学者Itakura提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短, 直到与参考模式的长度一致。在这一过程中, 未知单词的时间轴要不均匀地扭曲或弯折, 以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时, 在小词汇量、孤立字 (词) 识别系统中, 也已有许多改进的DTW算法提出。

5.2 隐马尔可夫模型 (HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的, 它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型, 将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列, 是由大脑根据语法知识和言语需要 (不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程, 很好地描述了语音信号的整体非平稳性和局部平稳性, 是较为理想的一种语音模型。

5.3 矢量量化 (VQ)

矢量量化是一种重要的信号压缩方法。与HMM相比, 矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧, 或有k个参数的每一参数帧, 构成 k 维空间中的一个矢量, 然后对矢量进行量化。量化时, 将 k 维无限空间划分为 M 个区域边界, 然后将输入矢量与这些边界进行比较, 并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可能的平均信噪比。

5.4 人工神经网络 (ANN)

人工神经网络的出发点是通过模拟大脑的机制, 将包括听觉系统的生物神经系统的信息处理机制引入机器学习的研究中, 使其具有学习和理解的能力。系统的所有计算都是由神经元单元完成的, 而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的, 具有传统的数字计算机系统即线性网络没有的优点[7]。

5.5 支持向量机 (SVM)

支持向量机 (Support vector machine) 是应用统计学理论的一种新的学习机模型[8], 采用结构风险最小化原理 (Structural Risk Minimization, SRM) , 有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力, 在解决小样本、非线性及高维模式识别方面有许多优越的性能, 已经被广泛地应用到模式识别领域。

6 语音识别系统的结构

语音识别本质上是一种模式识别的过程, 其基本原理框图如图1, 主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块, 其中后处理模块为可选模块。

预处理模块, 对输入的原始语音信号进行处理, 滤除掉其中的不重要的信息以及背景噪声, 并进行语音信号的端点检测、语音分帧以及预加重等处理。

特征提取模块负责计算语音的声学参数, 并进行特征的计算, 以便提取出反映信号特征的关键特征参数, 以降低维数并便于后续处理。

在训练阶段, 用户输入若干次训练语音, 系统经预处理和特征提取后得到特征矢量参数, 建立或修改训练语音的参考模式库。

在识别阶段, 将输入的语音的特征矢量参数和参考模式库中的模式进行相似性度量比较, 将相似度最高的模式所属的类别作为识别的中间候选结果输出。

后处理模块对候选识别结果继续处理, 通过语言模型、词法、句法、和语义信息的约束, 得到最终的识别结果。

7 语音识别所面临的问题及展望

1) 就算法模型方面而言, 需要有进一步的突破。目前使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。

2) 就自适应方面而言, 语音识别技术也有待进一步改进, 做到不受特定人、口音或者方言的影响, 这实际上也意味着对语言模型的进一步改进。

3) 就强健性方面而言, 语音识别技术需要能排除各种环境因素的影响。目前, 对语音识别效果影响最大的就是环境杂音或嗓音, 个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音, 如何让语音识别技术也能达成这一点是一个艰巨的任务。

4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入, 用户因此就可以不必在语种之间来回切换。此外, 对于声学模型的进一步改进, 以及以语义学为基础的语言模型的改进, 也能帮助用户尽可能少或不受词汇的影响, 从而可实行无限词汇识别。

5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合, 全世界说不同语言的人都可以实时地自由地交流, 不存在语言障碍。可以想见, 多语种自由交流系统将带给我们全新的生活空间。

6) 语音情感识别:近年来随着人工智能的发展, 情感智能跟计算机技术结合产生了情感计算[9]这一研究课题, 这将大大的促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介, 携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。

参考文献

[1]戴庆厦.语言学基础教程[M].北京:商务印书馆, 2006.

[2]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.

[3]王士元, 彭刚.语言、语音与技术[M].上海:上海教育出版社, 2006.

[4]http://www.ctiforum.com CTI论坛.语音识别技术及发展.

[5]蔡莲红, 黄德智, 蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社, 2003.

[6]赵力.语音信号处理[M].北京:机械工业出版社, 2003.

[7]息晓静, 林坤辉, 周昌乐, 蔡骏.语音识别关键技术研究[J].计算机工程与应用, 2006 (11) .

[8]宇缨.支持向量机及其在自然语言处理中的应用[J].东莞理工学院学报, 2007 (14) .

中文语音识别技术 篇3

1 SAPI SDK语音开发包简介

语音开发平台Speech SDK即是帮助开发人员实现语音应用的重要工具。然而,历史的Speech SDK里面并没有对中文语音进行支持,目前支持中文的Speech SDK最高版本为Windows平台下的SAPI 5.1,该版本一共可以支持3种语言的识别(英语,汉语和日语)以及2种语言的合成(英语和汉语)。也就是说,在部分系统平台上并未集成中文语音环境。如果需要,可以到http://www.mi-crosoft.com/speech/download/sdk51下载。

SAPI SDK包含了语音应用设计接口(SAPI)、连续语音识别引擎(MCSR)以及语音合成(TTS)引擎等。其结构如图1。

语音引擎则通过DDI层(设备驱动接口)和SAPI(Speech API)进行交互,应用程序通过API层和SAPI通信。通过使用这些API,用户可以快速开发在语音识别或语音合成方面的应用程序[2]。

2 语音合成(TTS)引擎开发环境的搭建

在安装了SAPI SDK语音开发包后,先在C:Program FilesCommon FilesMicrosoft SharedSpeech目录下面找到SAPI.dll,这里面定义了SAPI的COM对象。将SAPI.dll中的SAPI运行库转换成.NET平台下的Assembly---Dot Net Speech.dll,这样原本抽象的API函数就可以变成.NET类库中的一部分。我们可以利用.Net Framework自带的工具Tlb Imp.exe来把SAPI SDK的COM对象导入到.Net中。

DOS状态下执行以下命令导入SAPI的COM对象:

C:Program FilesCommon FilesMicrosoft SharedSpeech>Tlbimp sapi.dll/out:Dot Net Speech.dll

然后,在.NET开发环境下,通过添加引用的方法将Dot Net Speech.dll引用即可。

3 从文本到语音转换的实现

在完成了前述开发环境的搭建工作以后,打开Form1.cs代码文件,在代码开头添加名字空间(注意大小写)。

using Dot Net Speech;

这样就实现了SAPI SDK的导入,下面我们就可以开始编写应用代码了。首先实现将一段字符串文本用喇叭读出来。编写成一个方法:

更进一步,将文本转换成音频文件,编写成一个方法:

实际上,在文本的语音合成中,还存在着词组搭配、多音字选择的问题,可以采用自建词组库的方式进行解决,该文限于篇幅不再垒述。[3]

4 应用开发实例

“指纹识别开放实验室出入登记系统”主要应用于院校实验室学生自由出入时指纹登记。区别于以往的刷卡、笔录等形式,此系统拥有无人专门值守、无需携带额外介质、不考虑卡片损坏遗失以及无需特别整理登记数据的优点。而要使用好指纹管理,语音提示尤为重要。如图2。

若上机,指纹识别成功,即发音“欢迎xx上机”,离开时按指纹则发音“xx欢迎再来”。

指纹管理一个非常重要的问题就是指纹数据库的建立。为此,利用SAPI专门设计了指纹叫号软件,选择一个学生集中自习的时间,依据学号顺序,系统依次采用语音合成的方式叫相应姓名的同学上来录指纹。实践证明,这一做法极大减轻了管理员的工作量,一名管理员即可在半小时的时间对150名左右的学生进行有条不紊的指纹采集工作。学生对语音叫号也非常感兴趣,很好得配合了这一工作的进行。

5 结束语

SAPI5.1 SDK为语音人机界面提供了强大的平台,合理的应用语音平台既可以大幅提高工作效率,也能在工作中体会乐趣、减少客户之间的枯燥交流。该文详细介绍了TTS的实现方法及个人工作总结,下一步,应该跟深入的探讨MCSR的应用、TTS词组拆分问题,实现深入的人机对话。更重要的,通过TTS的应用,通过该文,希望一起思考对以往程序设计中融入语音系统的意义。

参考文献

[1]姚涵珍.TTS中文语音合成技术的研究与实践[J].天津科技大学学报,2004,19(1):65-67.

[2]陈本峰..Net平台下开发中文语音应用程序[EB/OL].微软中国社区.http://www.microsoft.com/china/community/program/originalarti-cles/TechDoc/Cnspeech.mspx.

计算机语音识别与合成技术 篇4

人和人之间进行通信的最基本的方式就是通过语音的形式, 如果实现了计算机和人之间的语音交互这一重大问题, 那么产生的价值是不可估摸的。从20世纪六七十年代开始, 全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。

计算机已经取得了显著的科技成果, 同样的语音识别与合成技术也已经取得了丰硕的成果, 并且已经在多项领域当中已经进入应用阶段。此外, 在语音的识别方面, 目前市场上已有一些识别软件的出售, 如:中国科学院的识别系统, 可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下, 通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用, 在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM公司的Via Voice系统, 是一种可听写系统。在语音合成方面, 中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。

2 计算机语音识别与合成技术的方法研究

计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此, 为了能够对语音的重建不失真, 离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象, 进行采样的频率最小要能够达到6800Hz, 也就是说每秒要达到6800个样点。一般认为, 人的耳朵可听频率为5HZ~20KHZ, 那么从这点考虑, 语音合成最高用10KHZ来处理就能够取得较好的效果, 通常采用8KHZ采样频率, 此外, 如果是对语音量化的情况下, 那么A/D转换器只需要12位就足够了。但是, 如果语音信号需要进行量化的话, 所需要的位数达到12位即可。如果从实际考虑出发的话, 如果达到8位就能够听懂经过合成的语音了。以这样算来的话, 每秒进入计算机的信息量大约为8000×8=64kbps, 但是一个字长若为8位的话, 所占的存储量则为8K, 这样的话也不会有太大的使用价值。所以, 要对语音信息进行一定的压缩, 当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。

(1) 波形编码法

在计算机语音识别与合成技术当中最常用的波形编码法是ADM法和DM法。而ADM法当中的量化宽度是根据DM当中的值进行固定的, 所以如果出现超载噪声或者是粒状噪声, 那么在ADM法当中是不能够进行宽度值的变化的, 而且他还有能够按照趋势跟踪的自我适应能力功能, 这种方法有对噪声的自动抑制功能;DM法的主要特点是能够按照波形进行相应的编码, 作用是对下一个语音信号的值进行比较, 是高还是低。低则显示给定编码“0”;高则显示给定编码“1”。这样一来, 要进行语音信号的编码, 很明显要先对存储量进行节省, 但是其音质要略差一点。

(2) 录音编辑法

通过直接录制的方式把语音录制下来, 并且还要把这些录制下来的语音经过连接结合在一起, 编辑成文章, 在输入到计算机内的时候不经过任何压缩处理, 而是直接输出出来, 但是这种方法需要有大量的存储器。

(3) 规则合成法

这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法, 所用的单位是音素链以及音节, 可以和任意的会话和单词进行合成, 但缺点是语调比较差。

(4) 参数编码法

目前来说最常用的参数编码法主要的有LCLPC法、LPC法以及FORMANT法和PARCOR法等等, 其中, LPC法采用的是一线性预测编码的形式, 通常进行波形采样的帧为10ms-25ms, 一帧之内为一线性不变系统, 但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数, 在存储器当中的各个帧当中进行叙述, 然后在语音合成的时候才开始对这些参数进行综合。LPC法用的是3-7位的方式对所有的编码进行处理, 并且在各个数值之间进行自动插补和运算, 这种方式合成的语音的音质动听柔美。

基于VC的语音识别技术研究 篇5

语音识别是将原始语音经过预处理后进行特征提取,再与事先经测试和训练后所得并存储到计算机的标准参考模型进行比较,最后得出判定和识别结果。这是一门交叉学科。近年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。可以说语音识别技术已经发展的相对成熟。本文提出一种基于VC的语音识别系统,通过实验验证其基本能够实现识别简单语音的任务。

1 系统功能介绍及设计实现

本系统以VC为基础,主要功能有录制语音、播放语音、预处理、分段滤波、特征提取和最后的识别语音。本系统的开发流程图如图1所示。根据系统的各个功能,将其分采集模块、处理模块和识别模块。

1.1 采集模块

使用微软SDK语音包实现录音功能,生成WAVE文件,播放生成的语音WAVE文件,并生成其波形图和语谱图,为后续处理提供依据。

1.2 处理模块

1.2.1 预处理

(1)预加重是对信号进行平滑,即提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一般是通过一个数字滤波器1-uz-1来实现,u的值一般在0.94~0.98之间,在本系统中取0.97。其调用格式为:

其中,x为要加重的语音信号。

(2)端点检测就是从一段信号中检测出语音信号的起始点和结束点,这可借助于语音信号的能量和过零率两个时域参数来判断各数字的边界。有声语音的能量值较大,无声语音(如摩擦音)的过零率较高,因此可以通过计算短时能量大致判断出语音的端点,然后使用过零率找到语音端点的相对精确位置,分解出每一个语音段。

1.2.2 分段滤波

滤波器是对输入信号的频率具有选择性的一个二端口网络,它允许某些频率段(通常是某个频率范围)的信号通过,而其他频率的信号幅值均要受到衰减,从而将不同频率的语音信号分离开,使得识别器能够更好的识别语音信号。

1.2.3 特征提取

提取语音信号的MFCC参数作为特征参数。其计算流程如下:

(1)倒谱提升窗口

在为每帧数据计算出K阶MFCC参数后,通常还要为这K个系数分别乘以不同的权系数。实际上是一个短的窗口:

(2)差分倒谱参数

可以用下面的公式来求得差分参数:

上面式中,k为常数,c和d为一帧语音信号参数,计算两次得到二阶差分参数,依此类推,计算n次,将得到n阶差分参数。为了计算方便和相对准确,本文分别计算语音信号MFCC参数及其一阶差分参数,再将二者合并,构成一个特征向量,作为语音信号的最终特征参数。

1.3 识别模块

(1)模式匹配

建好数据库后,对待识别的语音信号提取特征参数后,将其特征参数与库中数据按照DTW算法进行匹配,如果找到相似度最接近的模板,则该模板就是待识别的语音,并在下面窗口中输出语音信号,否则,将该特征参数存入数据库,并输出“数据库中无接近语音模板”。

(2)输出结果

按“输出结果按钮”,输出界面的识别结果,输出结果有两种,待识别语音特征参数与数据中模板特征参数的相似度符合条件,则可以识别,输出识别结果,如:待识别语音为“1”;否则,输出“数据库中无接近语音模板!”。

1.4 后台数据库

(1)数据库的任务:根据工作需求存储语音信号特征参数,并提供后续的查询、输出工作。

(2)数据库中基本表的功能:根据数据库所要完成的功能建立相应的表。

在本系统中,后台数据库有两个基本表:语音表和特征参数表,前者存储语音参考模板,后者存储语音参考模板的特征参数,本文将12阶MFCC参数和其一阶差分参数合并后的参数作为每个语音模板的特征参数,因此特征参数是一个含有24个分量的特征向量,这样得到的参数比较详细、具体,使相似语音间的误差变得很小,极大地提高了语音识别的准确率。

2 仿真结果及分析

2.1 VC仿真

(1)语音模板的获取

运用系统的采集模块录制一个普通男声5组声音,录制“0,1,2,3,4,5,6,7,8,9”十个语音为实验对象,分别命名为Oa.wav、la.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav、7a.wav、8a.wav、9a.wav。分析处理后,提取特征参数,经过模板训练,为十个语音分别选取最合适的语音作为模板,存入数据库建立参考模型库。

(2)待测语音的获取

类似,录制一组普通男声的声音,同样为“0,1,2,3,4,5,6,7,8,9”十个语音,作为十个待测语音信号。分别命名为0b.wav、lb.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav、7b.wav、8b.wav、9b.wav。

(3)语音识别

用本文的方法对十个待测语音进行识别,编制DtwTest函数进行处理。首先读入语音信号的wav文件,用函数wavread来完成;其次,对读入信号进行端点检测,应用函数StreamVad来处理;再次,提取其MFCC参数作为特征参数,并将所有特征参数分别存入到参考模板的结构数组中或待测语音的结构数组中。接下来,要求得所有待测语音和参考模板之间的距离,以进行模式匹配,并将这些距离存入矩阵dist,得到矩阵如表1所示。然后用函数FindLeastDistPath找出最小累积距离,其对应的模板即为所要的识别结果。

2.2 仿真结果分析

上一小节使用VC仿真实验结果表明:程序完成了任务要求,获得了正确的识别结果。为了更为准确地考察识别结果,下面看一下匹配距离矩阵dist的数据:上面矩阵dist是一个10阶矩阵,这是因为参考模板和待测语音的数量都是10。其中,每一行元素表示每个待测语音特征参数与10个参考模板特征参数的匹配距离,并且根据DTW算法特性,将每个待测语音的最小匹配距离放置在主对角线上。从上表明显看出,距离矩阵的对角线上是正确匹配模板的对应分数,可见对角线上的10个数值都是在本行中最小的,这说明得到了正确的识别结果。进而表示本文系统的识别模块能较好地完成识别简单语音的任务。

3 总结

本文首先介绍了系统的各个功能模块,然后对各个模块进行详细设计,最后通过实验验证本文系统的可行性。以“0,1,2,3,4,5,6,7,8,9”十个语音为例,录制多组语音,从中选定参考模板和待测语音,用本系统对待测语音进行识别,从程序的输出结果可以看出,识别得到了正确的结果。这充分说明了本系统能够完成识别简单语音的任务。尽管本系统已能够初步完成任务能够识别简单语音单元,但对于整句语音不能很好地处理,并且在复杂环境下(较高噪声时)也存在一定的局限性,自适应能力和强健性都是亟待改进的地方。不过,相信随着研究工作的不断深入,系统会逐渐完善,会逐步实现其识别语音功能。

参考文献

[1]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社.2004.

[2]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社.1995.

[3]赵力.语音信号处理[M].北京:机械工业出版社.2003.

[4]陈勇,屈志毅,刘莹,语音特征参数MFCC的提取及其应用[J].湖南农业大学学报(自然科学版).2009.

[5]汤扣,陆中华.基于证据理论及冲突属性转换的目标识别方法.指挥信息系统与技术.2011.

语音识别:从技术应用到习惯应用 篇6

近日,百度Big Talk2015年第一期在美国硅谷开讲,百度首席科学家吴恩达(Andrew Ng)在会上表示,百度是第一个建立深度学习的网络,而深度学习将改变人工智能,这些机会体现在文本、图像和语音识别上。吴恩达以火箭为例,指出,“建造火箭需要一个很多的燃料(数据)和很大的引擎,深度学习就是让火箭腾飞的引擎。”他认为,神经元网络的技术很有前景,建立了有效的深度学习的算法将会改变整个人工智能。

语音识别技术的应用

与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别,我们最容易想到的还要数不会讲笑话的Siri。

作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果i Phone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了2015CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。

在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景,诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。

随着互联 网技术的 快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。

如今国内 也有了相 应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

从打字到语音的习惯改变

随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

腾讯、百度都建立了自己的语音团队,在移动搜索领域发力。随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革。在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”

今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能,宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。

而我们今天最常用的语音识别服务,莫过于打车软件中的“马上叫车”。我们习惯直接与司机语音互动,比如说“我想打车到国贸大厦”就能实现叫车功能。作为一款基于语音识别、语意理解技术,“出门问问”每周在迭代的嘀嘀打车后台,通过语音识别技术发布订单。作为面向移动搜索领域的智能手机应用,用户可以通过语音提问的方式直接获取到自己需要的各种生活信息。而交互能力、信息抓取、智能语音推荐,为手机端、可穿戴智能设备上的出门问问的语音搜索功能侧重于有应用场景之下使用提供了可能。出门问问CEO李志飞说,“技术能够真正帮助所有人提高生活质量,这也是技术的目的。”

中文语音识别技术 篇7

近期, 语音识别在移动终端上的应用最为火热, 语音对话机器人、语音助手、互动工具等层出不穷, 许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用, 目的是通过语音交互的新颖和便利模式迅速占领客户群。我国采用嵌入式芯片设计技术研发了语音识别专用芯片系统, 这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能, 可以识别30条特定人语音命令, 识别率超过95%[1]。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域, 一些应用型产品正在研发中, 其商品化的过程也越来越快, 而孤立词识别凭借着识别凭借着识别准确度高、具有较强使用价值等优点打开了广阔的应用前景。

1 孤立词音识别技术的难点[2]

首先, 实现小词汇量语音识别系统最可靠的方法为孤立词语音识别。虽然孤立词语音识别较其他类型的语音识别成熟完善, 基本可以达到使用要求, 但在实际的具体系统应用环境中, 仍存在一些影响因素使其识别率降低, 孤立词语音识别存在的难点问题有:

(1) 系统在面对环境变化时的稳定性:环境噪声广泛存在易造成训练与测试环境不匹配, 致使系统性能严重下降。

(2) 系统词汇的变化 (增加) :生活中, 每天都会有大量新词汇产生, 这导致模型训练和识别难度加大, 系统识别能力下降。

(3) 选取识别基元:如何选择识别基元, 才能在稳定性 (大基元) 和灵活性 (小基元) 间达到最佳的取舍, 是研究难点。

2 孤立词音识别的基本原理和思路

2.1 基本原理

孤立词语音识别系统指人在发音时, 以单字的发音方式向语音识别系统输入语音, 词语词之间要有足够的时间间隙, 以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。语音识别系统本质上是一种模式识别系统, 因此它的基本结构与常规模式识别系统一样, 包含特征提取、预加重、分帧、端点检测、模式匹配、参考模式库等单元。图1为孤立词语音识别系统的原理框图[3]。

2.2 基本思路

孤立词语音识别从本质上来说是模式识别, 语音识别过程就是根据模式匹配原则, 按照一定的相似性度量法则, 使待测语音的特征矢量与语音模式库中的某一个模板获得最佳匹配的过程, 如图2所示。

2.3 典型技术解决方案

隐马尔科夫模型 (Hidden Markov Model, HMM) :HMM是一种统计分析模型, 是在马尔可夫链的基础上发展起来的。HMM有算法成熟、效率高、易于训练等优点, 被广泛应用于语音识别、行为识别、文字识别和故障诊断等多种领域, 是目前语音识别的主流技术。对于非特定人连续识别, HMM的表现性能良好。

HMM的缺点在于统计模型的建立需要依赖一个较大的语音库, 这在实际工作中占有很大的工作量, 且模型所需要的存储量和匹配计算的运算量相对较大[4]。

在已知系统目前的状态 (现在) 的条件下, 一个过程的“将来”仅依赖“现在”而与“过去”无关, 这种过程称为无记忆的单随机过程 (马尔可夫过程) 。时间和状态都离散的马尔可夫过程称为马尔可夫链。设S是一个由有限个状态组成的集合, S={1, 2, 3, …, n-1, n}, 可以把马尔可夫链看做小球随时间在n种状态跳动的过程。

3 孤立词语音识别的技术方法[5]

3.1 预处理

预处理模块, 是对由用户录入的语音信号进行初步处理, 其目的是滤除与语音识别无关的较小的、会产生负面影响的信息等, 并对语音进行端点检测, 需要有滤波器完成。

3.2 预加重

预加重的目的是为了使语音信号的频谱更加平坦, 响应函数为

(1) 语音分帧

语音分帧是为了获得一个准稳态过程, 以方便对语音信号进行理论分析。加汉明窗可有效克服频率泄漏现象。

(2) 特征提取[6]

通过话筒采集到的语音信号中含有很多冗余的信息, 只有从语音信号中撮出的表示其特性关键参数来表征其特性, 才可以为更语音模型库的建立创造良好的前提条件。由于Mel频率滤波器组对人耳的拟合精确度较高, 故相关研究人员将Mel频率的倒谱系数 (MFCC) 视为一种理想的特征参数, 如图8所示。

(3) 建立声学模型库

建立声学模型库最主要是, 考虑两方面的问题, 即识别基元选择问题和声学模型的训练问题。语音识别的准确度 (识别性能) 与以什么训练方式得到模板有很大关系

A偶然训练法 (单一用户、小词汇量)

B多模板平均法 (重复朗读、特征矢量序列、动态时间规整DTW平均)

C聚类训练法 (用于非特定人的语音识别)

4 孤立词语音识别技术的发展方向[6]

语音作为当前通讯系统中最便捷的通信载体, 随着计算机和语音处理技术的发展, 语音识别系统的实用性将进一步提高。今后孤立词语音识别技术的发展方向:

(1) 不同语种之间的互译——语音翻译;

(2) 非特定人、小词汇、孤立词、连续语音识别;

(3) 人体语音口语与机器语音相结合的人机交互技术;

(4) 网络语音和电话语音、面向通讯和互联网的语音识别;

(5) 逐步微型化发展, 从PC机平台到PDA堂上电脑, 再到嵌入式的语音识别。

21世纪是信息和网络的时代, Internet把全球各连接成一个地球村, 海量的信息资源能够通过互联网在短暂的时间内迅速传播到全球各地, 人与机器进行信息互通的需求不断增强, 迫切需要语音识别技术领域的技术成果, 以满足人们在任何地方、任何时间、对任何事物都能够通过语音交互的方式得以实现。从语音识别技术的发展可以看出, 科学技术推动了社会发展, 满足人们的需求, 社会需求也反过来推动科学技术发展, 随着语音识别技术的快速发展, 我们将深切体会到语音识别带来的种种便利。

5 孤立词语音识别技术的应用前景分析

语音识别技术发展到今天, 特别是中小词汇量非特定人语音识别系统识别精度已经大于98%, 对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展, 这些复杂的语音识别系统也已经完全可以制成专用芯片, 大量生产。在西方经济发达国家, 大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能, 还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息, 并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内, 语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上, 人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统, 要建成这样一个系统仍然是人类面临的一个大的挑战, 我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。作为一项具有实用性的技术, 孤立词语音识别的应用越来越广。为了满足实际需求人们一直在致力于不断完善孤立词语音识别系统, 使语音识别具有更高的便捷性、高效性、随机性、交互性等显著特点, 从而进一步推动人类社会的信息化和自动化进程。

摘要:孤立词语音识别技术, 采用的是模式匹配法, 是语音识别技术的核心之一。首先, 用户将词汇表中的每一词依次说一遍, 并且将其特征矢量作为模板存入模板库。然后, 将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较, 将相似度最高者作为识别结果输出。本文介绍了孤立词语音识别技术的研究现状及几种常见的技术方法, 并且分析探讨了孤立词语音识别技术的应用和发展前景。

关键词:语音识别,孤立词

参考文献

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用.2010 (14-17) .

[2]倪崇嘉, 刘文举, 徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报.2009 (01) .

[3]王敏妲.语音识别技术的研究与发展[J].微型机与应用.2009 (55-58) .

[4]李刚建.语音识别模式发展方向研究[J].吉林建筑工程学院学报.2006 (03) .

[5]安镇宙, 杨鉴王, 红余映.范一种新的基于并行分段裁剪的DTW算法[J].计算机工程与应用2007 (43) 研究.

上一篇:贴近社会下一篇:空气监测