说话人识别技术

2024-07-25

说话人识别技术(共7篇)

说话人识别技术 篇1

如今, 说话人识别技术已逐渐开始进入了实际应用的阶段, 比如, 已应用于自动提款机, 就是AT&T应用了说话人识别技术研制出了智慧卡 (smart card) 。欧洲电信联盟在电信与金融结合领域应用声纹识别技术, 于1 9 9 8年完成了C A V E (C a l l e r V e r i f i c a t i o n i n B a n k i n g a n d Telecommunication) 计划, 并于同年又启动了PICASSO (Pioneering Call Authentication for Secure Service Operation) 计划, 在电信网上完成了说话人识别。同时, 为了实现电子交易的自助化, Motorola和Visa等公司成立了V-commerce联盟, 其中此项目的重要组成部分就是语音识别, 即通过声音确定人的身份。[1]另外说话人识别技术还在其他的一些商用系统有广泛应用, 比如:I T T公司的S p e a k e r K e y、K e y w a r e公司的Voice Guardian、T-NETIX公司的Speak EZ等, 都是利用该技术的先行者。

可靠性一词源于1957年AGREE的学术报告, 它在说话人识别技术应用中具有丰富的涵义。具体到技术运行的可靠性, 通常称为支持可靠性[1]。支持可靠性通过固有可靠性和使用可靠性两方面来表现, 这两方面涵盖了技术研究和投入使用两方面的全过程。固有可靠性是指技术内在的可靠性, 它在技术的研发过程中得以确立。技术的仿真、结构的设计、工艺的科学性以及检验方法决定了固有可靠性, 而使用可靠性则与技术的实现环境和实现方法密切相关, 它更多的取决于技术的操作方法等众多外界因素, 另外产品的研发者的素质对使用可靠性也会产生很大的影响。[2]

1 我国说话人识别技术研究现状

在我国, 由于汉语在发音和结构上的独特性, 语音信号的特征参数和行为规范比较复杂而多变, 国外的说话人识别技术无法直接应用, 这给中国的说话人识别技术带来了很大的困难和挑战。但是近几年来, 国内外众多科研机构、高校实验室以及高科技公司都对汉语的说话人识别技术投入了很大的精力, 国内外一些重点实验室、研究所以及一些公司等都通过自身的努力和互相间的合作, 对说话人识别技术的研究做出了很大的贡献。

2 语音特征参数提取及组合

2.1 线性预测倒谱系数提取的实现

本文中所做实验中语音特征参数选用线性预测倒谱系数 (LPCC) 、美尔倒谱系数 (M FCC) 。

实验中需要先取取线性预测系数 (LPC) , 在LPC的参数求出的条件下再进行LPCC计算, 这是因为由于不能直接提取到线性预测倒谱系数。这一过程的实现可采用MATLAB软件语音处理工具箱中的lpc函数进行提取, 它的实现语句是:

这里x为一帧语音, p为计算LPC参数的阶数。MATLAB语音处理工具箱中也提供了计算实复倒谱系数的函数cceps, 如果不考虑计算量, 可以用下面的函数计算一帧语音信号x的LPCC系数:

该程序中首先计算x的LPC系数, 由于函数cceps不是基于递推公式的, 因此要保留所有阶的LPC系数, 即a的长度与序列x的长度相同。当然, 这种方法在一个实际的语音系统中是不能采纳的, 因为计算量太大。因此, 采用迭代算法计算LPCC参数的程序如下[3]:

此段代码中, 假设LPC系数的阶数为14, LPCC系数的阶数为16, 前10阶LPCC系数通过10阶LPC迭代计算, 后2阶LPCC则是通过外推得到的。

2.2 美尔倒谱系数提取的实现

在MATLAB语音处理工具箱中, 计算MFCC的函数为melcepst, 其中调用了计算滤波器系数的melbankm函数, melbankm的语法为:

其中, m为滤波器个数, n为语音帧长度, fs为采样频率。例如, 设计一个滤波器组, 包含24个滤波器, 语音信号的帧长度为256, 信号采样频率为8000Hz, 所用的命令为:

利用函数melcepst可以直接计算语音信号s的MFCC参数

这一命令默认地以256点为帧长计算12阶的MFCC参数。如果s比较长, 将会按照128点的间隔将s分为若干帧, 再分别计算。由于本系统要获取16阶的MFCC系数, 且语音的帧长为256点, 帧移128点, 因此不能直接采melcepst函数。修改后的计算MFCC的函数如下:

2.3 语音参数的特征组合

图1为本文所采用的组合方式, 将LPCC与MFCC两个特征组合为一个特征Com。具体特征组合方法如下:

其中, p为MFCC的维数, q为LPCC的维数。

通过仿真得出的组合特征参数的图如图1所示。

组合特征参数图中, 横坐标取MFCC和LPCC各20帧, 纵坐标为所对应参数值的数值。语音参数中不同的特征是基于不同的模型, 本文中LPCC是基于声道模型, MFCC则是基于人的听觉模型, 不同类型的特征向量表征了人的不同特性, 通过特征组合采用多种向量组合有利于从不同的角度体现说话人个性。

单独使用某一参数只能反映某一方面的特性, MFCC反映的是说话人语音的听觉频率非线性特性, LPCC反映的是说话人声道生理结构的差异, 使用组合特征参数LPCC弥补了MFCC声道不能描述声道的特征, 语音识别中利用组合特征参数能较好的反映说话人的个性特征, 能够提高说话人识别率。

3 结语

本论文主要目的是对语音特征参数的组合进行研究, 通过参数的特征组合从不同的角度来反映说话人的个性特征, 能够大大提高说话人识别系统的识别率。本文首先对说话人识别的基本知识及研究历程做了介绍, 其中涉及到了说话人识别常用的特征参数以及利用特征参数进行说话人识别存在的技术难点。其次对语音信号的基本处理进行阐述, 说话人识别归根到底就是对说话人语音的识别, 所以对语音信号的处理是一项很重要的工作, 本文所用的特征参数 (MFCC及LPCC) 的特性及提取过程进行了详细的解释。

摘要:本论文重点对语音特征参数的组合进行了研究, 通过参数的特征组合从不同的角度来反映说话人的个性特征, 能够大大提高说话人识别系统的识别率。对其中的特征参数 (MFCC及LPCC) 的特性及提取过程进行了详细的解释和仿真。

关键词:说话人识别技术,线性预测倒谱系数,语音参数

参考文献

[1]史绍强.基于多级小波神经网络的模糊说话人识别研究[D].长沙理工大学学位论文, 长沙:长沙理工大学, 2004.

[2]岳喜才, 叶大田.文本无关的说话人识别:综述[J].模式识别与人工智能, 2001, 14 (2) :194~198.

说话人识别技术 篇2

关键词:说话人识别,生存证明,防录音假冒

1 前言

12333个人社保查询电话是国家重要的民生服务平台, 不仅推进了人力资源和社会保证电话咨询服务系统的建设, 而且有助于畅通人力资源社会保障部门和社会公众的沟通渠道。个人通过12333社保查询电话可以及时了解到养老保险、医疗保险、工伤保险、生育保险、失业保险等信息。同时, 社保工作人员可以通过电脑软件, 实时处理多个来电, 并兼具留言解答、短信回复、文件传真等功能, 极大提高了社保服务效率和质量。但目前12333平台对于咨询来电的话者身份认证缺乏有效的手段, 这使得个人社保缴费等隐私信息的查询得不到有效的保护, 同时也使得12333平台难以为社会公众提供更多社保相关的自助服务。

在社保业务中, 非常重要的一块工作是关于老年人养老保险领取的生存证明。目前, 离退休人员需要到社保单位现场出示相关证件或证明, 才能够领取本人的养老金。这一方式存在以下一些问题: (1) 越来越多的老年人随孩子异地居住, 每年都需要至少一次返回户籍所在地进行生存证明, 这给老年人带来了极大的不方便, 尤其当老年人身体不好或住院治疗时; (2) 现场生存证明给社保单位工作人员带来极大的工作压力, 不仅需要核对老年人的身份信息, 而且还要提供人性化的老年人服务和应对现场突发情况; (3) 现有生存证明方式较单一, 靠身份证照片核实误差较大; (4) 即使采取指纹认证的方式, 但由于老年人的指纹难以采集, 实际使用效果不好; (5) 由于目前户籍制度还不完善, 存在一个人有多个养老金账户的情况, 现有认证方式难以解决; (6) 现有社保生存证明的措施, 缺乏远程便捷高效的身份认证手段。随着12333电话咨询平台在全国的建设越来越完善, 基于电话的远程说话人认证成为解决上述问题的一种有效的方法。

说话人识别是生物识别的一种, 是一项根据语音波形中反映说话人生理和行为特征的语音参数, 来识别语音话者身份的技术。由于每个人的发声器官 (舌、牙齿、喉头、肺、鼻腔) 在尺寸和形态方面不尽相同, 因此说话人识别也就成为一种鉴别语音话者身份的识别手段。说话人识别技术相对于其他生物识别技术, 在远程身份认证上有着得天独厚的优势。将说话人识别技术应用到12333社保电话咨询服务系统中, 为现有系统提供了一种鉴别来电话者身份的手段, 提高了个人社保隐私信息的安全性, 并能够让老年人不离开家门就可以进行生存证明, 从而节省老年人的时间和金钱成本和社保单位的人员业务管理成本。

GMM-UBM (Gaussian Mixture ModelUniversal Background Model) 系统已经广泛应用于说话人识别系统中, 并在实际应用中取得了较好的识别效果。但在信道复杂的情况下, GMM-UBM系统的识别率明显下降, 其主要原因是在于训练和识别语音的不匹配导致的。在不匹配的因素中, 信道差异占据了极大的比重。为了消除信道差异的影响, 在前段声学特征领域, 可以采用特征映射 (Feature Mapping) 的方法;在说话人模型领域, 可以采用说话人合成 (Speaker Model Synthesis) 、联合因子分析 (Joint Factor Analysis, JFA) 和扰动属性映射 (Nuisance Attribute Projection, NAP) 。JFA方法由于与GMM-UBM系统结合紧密, 在理论上也更为完备, 已成为目前主流说话人识别系统采用的算法, 并在近几年的NIST评测中, 取得了优异的性能。

在12333电话咨询平台中使用说话人认证技术, 需要解决利用录音来假冒身份的问题。本文提出了一种防录音假冒的说话人认证方式:通过让用户跟读系统指定文本的方式, 将说话人识别与语音识别结合起来, 对录音同时进行身份和内容验证。由于跟读文本的随机性, 这种方式可以有效的防止录音假冒的发生。结合防录音假冒技术, 本文提出一种与现有12333电话咨询系统相结合的远程说话人采集和验证的解决方案和业务流程。

本文安排如下:第2节介绍说话人识别系统;第3节介绍防录音假冒方法;第4节介绍说话人识别系统在12333电话咨询系统中的应用解决方案;第5节介绍实验背景和结果分析;第6节总结全文。

2 说话人识别系统

2.1 简介

说话人识别系统是以说话人的语音作为输入, 用训练得到的特定人说话人模型来识别待测语音的话者身份。说话人识别系统一般包括两个步骤:说话人建模 (Speaker Modeling) 和说话人验证 (Speaker Verification) 。典型的说话人识别系统如图1所示。

2.2 高斯混合模型-通用背景模型

说话人模型与UBM本质上都是高斯混合模型, 可以用C个高斯函数的加权和表示如下:

其中, mi, ∑i分别代表第i个高斯混合的均值和方差参数, 代表第i个高斯混合的权重, C为高斯混合的个数。

在GMM-UBM系统里, 首先在大量的说话人语音数据上通过EM算法训练得到UBM;其次说话人模型是用该人的语音在UBM上通过最大后验概率准则 (Maximum A Posteriori, MAP) 自适应得到;最后, 将测试语音在说话人模型和UBM上的似然分差作为判决依据。

在GMM-UBM系统中, UBM作为一种说话人的发音共性分布描述, 结合MAP自适应算法, 可以使得用较少的说话人建模语音就能得到高精度的说话人模型。

2.3 联合因子分析

JFA的基本假设是将说话人高斯混合模型的均值超向量所在的空间划分为三个子空间:本征音空间、本征信道空间和残差空间。所谓均值超向量, 即是把一个高斯模型各混合的均值向量按照混合索引依次拼接形成的一个超大维度的矢量。一个说话人的超向量可以表示如下:

其中, 是说话人s的高斯混合模型均值超向量, 是UBM的均值超向量, U是维本征信道空间载荷矩阵, V是维本征音空间载荷矩阵, D是维对角残差空间载荷矩阵, F是特征维数, C是高斯混合模型的混合个数, Ru是本征信道空间因子数, Rv是本征音空间因子数。一般而言。

基于JFA的说话人识别系统主要有三个步骤: (1) 利用大量说话人语音数据事先估计出本征信道空间、本征音空间和残差空间矩阵; (2) 训练说话人模型; (3) 对测试语音进行说话人验证。

JFA算法通过移除说话人均值超向量在本征信道空间的影响, 来消除信道差异的干扰。同时, JFA在建立说话人模型时需要估计的参数明显减少 (本征音空间维数要远小于均值超向量的维数) , 更适用于训练数据相对不足的情况。

2.4 说话人分数归一化

分数归一化是指通过估计特定信道下的假冒者语音在分数域上的得分分布 (通常是单高斯分布) , 来对该信道下的测试语音的得分做归一化处理, 以此减少信道差异对分数数值的影响。本文采用的方法是TNorm:首先给定一组假冒者的说话人模型, 在说话人验证的时候, 用测试语音在这些假冒者说话人模型上的得分估计出均值和标准方差, 然后按照公式 (3) 来对说话人模型的得分进行归一化处理。

其中X是测试语音, λ是说话人模型, μ和σ是估计得到的均值和标准方差, 为X在模型λ上的似然分, 是归一化后的得分。

分数归一化的另一个好处是使得单一系统判决阈值在说话人验证时更加通用。但如果使用的假冒语音与实际测试语音存在较大的差异, 分数归一化反而会降低系统的性能。

3 防录音假冒方案

为了防止用事先录好的语音来假冒他人访问12333电话咨询平台, 本系统采用让待认证人跟读指定文本的方式, 将说话人识别和语音识别结合起来, 既识别语音的身份, 又识别语音的内容, 从而防止非法录音的假冒。

为了保证说话人识别系统的性能, 跟读文本采用固定文本加随机文本的形式: (1) 固定文本可以选用4-7个汉字 (如4字成语、7字成语) 。这些固定文本由于被大众所熟知, 因而很容易跟读; (2) 随机文本如采用3-6个随机数字的形式, 方便待认证人跟读。在说话人建模过程中, 需要参保人跟读3段系统提示文本, 建模平均耗时在15秒左右;在说话人验证阶段, 参保人只需跟读一段系统提示文本即可完成身份验证, 平均耗时在5秒左右。基于防录音假冒的v说话人采集和验证流程如图2所示。

4 社保说话人系统

4.1 说话人识别服务应用架构

说话人识别服务的主要交互对象为12333呼叫中心整合系统 (CCI) 、人工座席系统与后台管理系统。同时, 说话人识别服务也涉及到了数据库服务器之间的数据通信。搭建中的应用体系架构如图3所示。

4.2 说话人识别系统网络部署图

参保人拨打12333接入社保信息服务平台后, 首先进入自助语音服务流程并根据系统提示预留语音, 然后IVR服务器将采集到的参保人单人语音, 通过调用说话人识别服务器提供的接口函数与说话人识别服务器进行交互。说话人识别服务器将建模或识别的结果反馈给IVR服务器以便进行相应的流程控制。12333平台说话人识别系统网络部署如图4所示。

4.3 远程说话人身份认证业务流程

由于现有12333业务流程没有身份认证环节, 为了将说话人系统与IVR现有业务流程更好地结合在一起, 本文在现有IVR流程基础上, 提出了基于说话人建模和说话人验证的业务流程。参保人在IVR的语音提示下, 完成相应的建模或验证操作。对于社保信息查图5:说话人建模业务流程询业务和养老保险生存证明, 在本系统中采用同样的说话人建模和验证流程。

4.3.1 说话人建模流程

说话人建模流程采用第3节中的防录音假冒的方法, 其业务流程如图5所示。建模时需使用者跟读3遍系统提示, 每条提示文本为4字固定文本加4字随机数字串, 总的建模录音时长大致为15秒。

4.3.2 说话人验证流程

说话人验证流程如图6所示, 需要用户跟读至少一遍系统提示文本, 若一次通过, 验证录音时长大致为5秒;若3次通过, 总录音时长大致为15秒。

5 实验结果与分析

5.1 系统参数

实验中语音数据的采样率为8KHz, 采样精度为16bit。说话人识别系统的前端处理使用的语音帧长为20毫秒, 帧移是10毫秒, 预加重系数为0.97, 窗函数为哈明窗 (Hamming Window) , 每帧语音使用的FFT大小为256, 截止频率为200Hz~3800Hz, Mel滤波器组的个数为30, 经过RASTA[11]滤波得到12维的MFCC, 与一阶、二阶差分系数构成36维的特征。最后, 由倒谱均值减 (Cepstral Mean Subtraction, CMS) [12]和倒谱方差归一化 (Cepstral Variance Normalization, CVN) [13]对特征进行归一化处理。

5.2 开发数据集说明

实验中使用的说话人识别系统是基于JFA的GMM-UBM架构, 其中, UBM是用男女各1, 000位说话人的语音数据训练得到的, 总量近100个小时。JFA的V矩阵由男女各500位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟。JFA的U矩阵是由男女各500位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟, 并且覆盖固话、GSM、CDMA、WCDMA、TD-SCDMA等信道。JFA的D矩阵由男女各300位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟。TNorm中的假冒者模型由男女各300位说话人的语音训练得到。上述使用到的各语音数据库的人员之间有小部分的重叠。实验中UBM的混合数为1, 024, V矩阵的秩为300, U矩阵的秩为50。

5.3 测试数据集说明

测试语音由男女各300位说话人按照4.3节业务流程采集得到, 其中, 每人3段建模语音, 3段验证语音。每个人的建模语音均来自同一个信道, 但验证语音不一定为同一信道。对每个说话人模型, 随机选择同性别的10位说话人的验证语音进行闯入测试。这样, 自识别的次数为1, 800次, 闯入识别的次数为18, 000次。

5.4 结果与分析

实验对比了4个系统, 分别是GMM-U B M, G M M-U B M-T N o r m, G M M-U B M-JFA, GMM-UBM-JFA-TNorm, 其测试结果如表1所示。

由于验证语音与建模语音存在一定的信道差异, 这在一定程度上影响了GMM-UBM系统的性能, 而JFA算法极大的提高了说话人识别系统的信道鲁棒性, 相对于GMM-UBM系统来说, EER相对下降了43.84%, 而加入TNorm算法, 进一步降低了系统的EER。

6 总结

说话人识别系统的实现 篇3

说话人识别是基于生物识别技术, 能够自动进行语音检测。本论文我主要做了语音的端点检测以及特征参数的提取。主要算法是使用matlab进行仿真实验。算法的总体流程主要包括使用matlab读取语音文件,进行预处理,对语音信号端点检测,美尔倒谱参数的提取,最终建立码本, 实现语音的识别。

1说话人识别系统的组成

在训练阶段,需要系统的每个用户说出若干个训练语句,系统据此建立每个说话人的模板或模型。在识别阶段,首先要从语音信号中提取出相同的特征参数,并用这些参数与训练阶段建立的模板或模型相比较,根据一定的模式分类算法得到判决结果。(图1)

2说话人识别系统的设计

基于对语音去噪、预加重处理、语音端点检测、语音特征参数提取、各种说话人识别等算法的分析,本文中,我的设计思路如图2所示

2.1语音的预加重

在语音合成时再进行“去加重”处理就可以恢复原来的语音。常用的预加重因子为1- [R(1) / R(0)]*z-1,其中R(n)是语音信号的自相关函数。语音在大约800Hz以上的高频端按6d B/ 倍频程跌落,为此要在预处理中进行预期重。

2.2语音的分帧与加窗

分帧时,每帧长度为20ms左右,帧与帧之间的偏移通常取帧长的1/2或1/3,即每隔帧长的1/2或1/3进行分帧。这样我们可以假设语音信号的特征在每一帧内保持不变。为了平滑信号,避免频谱出现“破碎”现象,我们要对语音信号进行加窗[

汉明窗:

2.3语音的端点检测

短时能量和短时过零率

由于语音信号幅度随时间有相当的变化,特别是清音段的幅度一般比浊音段的幅度小很多。所以用短时能量能够比较合适的反映这些幅度变化。通常,定义短时能量为:

2.4语音的特征提取:美尔倒谱系数MFCC

2.4.1 MFCC系数的提取

MFCC参数的计算是以“bark”为其频率基准的,它和线性频率的转换关系如下公式

2.5矢量量化

2.5.1矢量量化(VQ)的基本原理

矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量, 然后用若个离散的数字值( 或称为标号) 来表示各种矢量。

2.5.2基于VQ的说话人识别

设X={ x1, x2,....,xT} 是未知的说话人的特征矢量,共有T帧。在训练阶段所形成的码书为:{B1, B2,.......,BN}(N表示说话人个数),则对于说话人辨认的具体步骤如下:

设i=1根据第i个码书Bi依小距离原则对X进行聚类,即求出其中j表示X中第j(j=1,2…….,T)帧的特征向量,m表示第i个说话人的第m个码字,共有m个码字,d为欧氏距离测试。

按照平准失真测度

计算X到第i个码书的平均失真距离Di。

i=i+1,计算D(i+1),直到i=N,求出所有的D1, D2,.......,DN。

求出{D1, D2,.......,DN} 中最小者所对应的那个i,既是所求的那个人

3说话人识别系统的算法实现

3.1语音信号预处理

语音信号预处理分为三个步骤,即连续信号数字化、预加重、分帧加窗。( 以一个码本test4为例)。

1、将将码本test4的语音信号读入MATLAB软件

将语音文件读入MATLAB,使用的函数是wavread。

2.、预加重

语音信号在分析之前要采用一个FIR滤波器进行预加重,使提取的特征更加符合原声道的模型。

其中a为预加重系数,本系统取为0.96。实验表明,预加重可有效地提高系统的性能。

4分帧处理

在MATLAB中有enframe函数用于实现分帧,格式为:

M=enframe(M,framesize,ovlap);

M是放入的语音文件,frame Size为每帧语音信号的长度,定为256点, overlap是帧移,这里采用信号长度的80点。采样频率为7k Hz。

4.1短时平均过零率计算及MFCC提取

对于离散信号而言,前后采样点符号发生变化即为发生过零。这里可以使用MATLAB内函数diff来实现。根据过零率提取MFCC参数。

5结论

本文在前人基础上,对说话人识别系统进行了探讨,在语音信号特征提取方面,分析了当前最常用的一种特征参数: Mel频率倒谱系数(MFCC)。并对其进行了改进,将MFCC与其一阶差分组合在一起形成新的特征参数。在识别算法方面,分析了目前常用的矢量量化(VQ)方法,并对这种方法加以实现。论文最后用matlab软件仿真了语音特征提取和识别算法。

摘要:本文从语音信号的预处理开始分析,对语音信号进行了端点检测,滤除了语音信号的无声段,为语音特征参数的提取提供了有效的语音段。然后对语音信号进行端点检测。在特征提取方面,本文提取了语音信号的美尔倒谱系数,获得其一阶差分,并将倒谱系数与其一阶差分结合在一起形成新的特征参数。在识别算法方面,本文运用矢量量化的方法送行了研究,并用matlab语言实现了一个有效的说话人识别系。

基于改进VQ算法的说话人识别 篇4

说话人识别(Speaker Recognition,简称SR)是指对说话人语音进行相应的分析处理,提取相应的特征或建立相应的模型,以此做出判断,确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。它与语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个性特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。

1矢量量化技术

矢量量化技术(Vector Quantization,简称VQ)在说话人识别中有着重要的应用,VQ方法中模型匹配不依赖于参数的时间顺序,因而匹配过程中无需动态时间归整(DTW)技术,而且比DTW方法的参考模型存储量小。当用于训练的数据量较小时,VQ方法比隐马尔可夫(HMM)方法有更大的鲁棒性。由于VQ方法比较简单,实时性也较好,因此是说话人识别中最常用的识别方法之一。图1为应用VQ算法的说话人识别系统示意图。

矢量量化的设计算法多采用LBG算法,此算法是由Linde、Buzo和Gray 3个人在1980年首次提出的,故被称为LBG算法。运用LBG算法时常采用分裂法来选取初始码本。但是在分裂过程中,有可能会产生空胞腔,致使一些码字很少被利用,从而降低了生成码本的质量。本文针对这种情况提出了一种优化分裂算法,并将这种优化算法应用到了说话人识别的研究中。

2特征参数选取

Mel倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)是在Mel标度频率域提取出来的倒谱参数。Mel标度描述了人耳对频率感知的非线性特性,在此计作Mel,它与频率f(Hz)的关系可用公式(1)近似表示:

Mel(f)=1 125ln(1+f/700) 。 (1)

MFCC参数的提取过程如下:

(1) 将语音信号x(n)通过一个高通滤波器:

H(z)=1-0.97(1/z) 。 (2)

(2) 每帧采样256点,帧移128点,加汉明窗:

undefined

。 (3)

其中:N为采样帧数。

设分帧后的信号为S(n),则加窗后的信号S′(n)为:

S′(n)=S(n)W(n) n=0,1,…,N-1 。 (4)

(3) 对加窗后的语音帧时域信号S′(n)进行离散傅立叶变换后得到线性频谱X(k) (0≤k≤N-1)。

(4)求频谱幅度|X(k)|的平方,得到能量谱|X(k)|2,用一组三角带通滤波器在频域对能量进行滤波,求得每个滤波器输出的对数能量S(m)。值得注意的是,这组滤波器在Mel频率上是平均分布的,每个滤波器两个底点的频率分别等于相邻两个滤波器的中心频率。滤波器的个数P取24。每个滤波器的传递函数为:

undefined

。 (5)

其中,f[m]是三角滤波器的中心频率,满足下面的关系式:

Hm(f[m+1])-Hm(f[m])=Hm(f[m])-Hm(f[m-1]) 。 (6)

得到的对数频谱S(m)为:

undefined。 (7)

(5) 将上述得到的S(m)进行离散余弦转换,求出L阶的Mel参数c(n),L通常取12。离散余弦转换的公式如下:

undefined。 (8)

(6) 一个帧的能量也是语音的重要特征,因此通常再加上一个帧的对数能量,使得每一帧的语音特征有13维,其中包含了12维的Mel参数和1维的对数能量。

3VQ方法在语音识别中的应用

将每个待识别的说话人看作是一个信源,从这些说话人的训练序列中提取特征矢量,利用VQ聚类成码本。对待识别的语音段提取特征矢量序列,利用系统建立的N个码本进行矢量量化,计算各自的平均量化失真Di:

undefined。 (9)

其中:yundefined(r=1,2,…,R;i=1,2,…,N)是指第i个码书中的第r个码字;xm是从测试语音中提取的特征矢量序列;M是特征序列的长度,本文采用前述的12维MFCC倒谱系数和对数能量作为特征矢量;d(xm,yundefined)为待测矢量xm和码字yundefined之间的距离,本文中d(xm,yundefined)采用欧氏距离。满足Di最小的那个码书所对应的i即为系统识别的结果。

3.1 常规分裂法

训练过程用LBG算法,由说话人语音的训练样本序列聚类生成码本。本文采用分裂法,并针对分裂过程有可能产生空胞腔的问题,提出了用2个小胞腔替代1个大胞腔的优化算法。分裂法的步骤如下:

(1)首先令码书尺寸Q=1,即初始码书中只包含一个码字,然后计算所有训练序列的形心,将所得的形心作为第一个码字Y(0)1。

(2)将Yundefined乘以扰乱系数1±ε,得到两个初始码字Yundefined=Yundefined(1-ε),Yundefined=Yundefined(1+ε),用LBG算法设计仅含2个码字的码书undefined,其中的上标(0)表示初始码字,(n)表示得到的码字。

(3)将码书undefined(n)2中的2个码字Yundefined和Yundefined乘以扰乱系数分裂成4个码字,重复上述过程,经过log2Q次设计就得到所要求的有Q个码字的初始码书undefined。

3.2 改进的去空胞腔分裂法

先把某空胞腔的形心去掉,然后将最大胞腔SM分裂为2个小胞腔SM1、SM2。分裂方法如下:

(1) 用扰乱系数1±ε分别乘以形心YM,得到2个码字:

YM1=(1+ε)YM,YM2=(1-ε)YM 。

(2)以Yundefined、Yundefined2个码字来划分这个大胞腔,构成2个小胞腔,它们分别为:

SM1={X|d(X,YM1)≤d(X,YM2),X∈SM} ,

SM2={X|d(X,YM2)≤d(X,YM1),X∈SM} 。

采用去空胞腔的优化方法,能够解决码本中可能存在的空胞腔和有些码字利用率低的问题,减小了失真。但是它的迭代时间稍长,算法也要复杂些。

4实验结果及分析

实验中使用CoolEdit录音软件录制语音数据,共采集3个人的语音数据,每人发音30次,其中20次作为训练数据,10次作为测试数据。信号采样频率为16kHz,量化为16bit。提取参数时,窗宽度为30ms,每帧采样点为256,帧移为128点,提取12维MFCC系数和对数能量作为特征矢量。本文分别采用分裂法和去空胞腔分裂法对语音进行识别,两种方法识别结果见表1。

表1的结果表明了识别率与待识别语音长度的关系,待识别的语音段越长,识别率越高。当待识别语音超过5s时,去空胞腔分裂法的识别率可达到100%。而传统的分裂法在5s后识别率变化缓慢,直到10s之后才能达到100%。由实验可知,将改进的码本生成算法用于码本训练,能在更短的时间内得到更好的识别效果,提高了系统的性能。

摘要:介绍了基于改进矢量量化(VQ)方法的说话人识别系统。该系统采用了能够反映人对语音感知特性的Mel频率倒谱系数(MFCC)作为特征参数,对VQ训练时码书的形成算法作了一些改进,并提出了一种去空胞腔分裂法的优化算法。实验证明,此优化算法减少了矢量量化失真,同时改善了量化的性能。

关键词:矢量量化,说话人识别,去空胞腔分裂法

参考文献

[1]胡光锐.语音处理与识别[M].上海:上海科学技术文献出版社,1994.

[2]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995.

说话人识别技术 篇5

说话人识别(Speaker Recognition,SR)是语音识别的一种,是通过话音区分说话人,从而进行身份鉴别与认证的技术。与其他生物认证技术如指纹识别、掌型识别、虹膜识别等相比,具有独特的方便性、经济性和准确性,并逐渐成为人们日常生活和工作中重要且普及的安全验证方式[1]。

Matlab是使用最为广泛的科学计算软件之一,在说话人识别中有着广泛应用。但在实际应用中仍存在如下不足:其语音处理工具箱仅仅提供了基本函数,并未针对一类问题给出一整套设计方案;一般Matlab控制台程序以命令形式调用语音处理工具箱函数,这种形式不像人机交互界面那样直观,也不易数据处理。正因为这些困难与不足,有必要设计基于Matlab GUI的说话人识别测试平台[2]。

1 GUI说话人识别测试平台实现

1.1 系统框架设计

说话人识别系统框图如图1所示,主要由以下模块组成:

(1)预处理模块:完成对语音信号的采样与量化、预加重处理、加窗、端点检测等;

(2)特征提取模块:测试音和训练音都必须经特征提取,提取出表征说话人个性的语音信号特征,以方便后续处理;

(3)参考模板模块:对模型参数进行估计和优化,建立说话人模型;

(4)模式匹配模块:测试音经特征提取,将提取出的特征参数和训练时产生的模型进行匹配,计算匹配距离;

(5)判决模块:根据匹配距离大小,依照某种相似性准则形成判决[3]。

对上面5个模块编写程序,在程序中调用了语音处理工具箱中的enframe,melcepst,melbankm等函数[4]。对所有程序进行优化和整合,设计出说话人识别系统测试平台。

1.2 人机交互界面设计

说话人识别测试平台主界面如图2所示。设置各控件属性,通过回调函数实现系统功能。

1.2.1 控件属性值设置

图2主界面中,包括如下控件类型:Static Text,,,,,Mpanel等。表1为各控件类型的主要属性设置情况[5]。

1.2.2 系统各部分功能的实现

主界面主要包括录音、测试及结果分析3部分。

(1)录音部分:首先设置语音采样点数,然后录音,可通过PLOT按钮观看录制的语音波形,或通过PLAY按钮听录制语音的声音[6],以保证录制语音质量。录音按钮回调函数为:

function pushbutton9_Callback(h Object,eventdata,handles)

(2)测试部分:首先选择人数、发音的字数、帧长、帧移、是否选择有端点检测,然后选择采用的语音特征参数是MFCC或MFCC+ΔMFCC,通过The Path of Train按钮,输入训练语音路径,以输入训练语音,再按TRAIN按钮,当Edit text框中显示training has been completed表明训练已完成。再按The Path Of Test按钮,输入测试语音路径,以输入测试语音,再按TEST按钮以进行测试,其测试结果显示在Edit text框中,最后识别率显示在Identify rate窗口。训练按钮回调函数为:

function train_Callback(h Object,eventdata,handles)3

(3)结果分析部分:对几个影响识别率的因素进行了分析。主要因素有:帧长、人数、字数、MFCC阶数、是否采用端点检测等,其结果和理论结论一致。

2 测试实例

测试实例参数设置及测试结果如图3所示。特征参数采用MFCC+差分MFCC;识别模型为矢量量化模型;测试环境为实验室环境。人数为50人,每个人训练、测试时分别说12个汉字,中文普通话。识别率窗口显示系统识别率为96%,效果较好,表明了该测试平台的有效性。

3 结语

本文所设计的基于Matlab GUI说话人识别测试平台,充分利用Matlab软件中的GUI技术及语音处理工具箱中内置函数,功能完善,包括录音、测试及结果分析部分。该平台提供了良好的人机交互环境,便于用户在各种参数条件下的测试实验,例如用户可方便设置采样点数、人数、字数、及帧长、帧移、MFCC的阶数等测试条件,系统识别率高,为进一步开发说话人识别系统提供一定的仿真环境及参考价值。

参考文献

[1]吴朝晖.说话人识别模型与方法[M].北京:清华大学出版社,2009.

[2]秦辉.基于Matlab GUI的预测控制仿真平台设计[J].系统仿真学报,2006,18(10):2778-2779.

[3]甄斌,吴玺宏,刘志敏.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报:自然科学版,2001,37(3):371-378.

[4]陈炜杰.噪声环境下的说话人识别技术研究[D].杭州:浙江工业大学,2008.

[5]郑阿奇.Matlab实用教程[M].北京:电子工业出版社,2005.

矢量量化在说话人识别中的应用 篇6

所谓说话人识别,就是根据输入语音确定发音者的身份,即用待识语音和预先提取的说话人特征来确定或鉴别说话人的身份[1]。主要讨论了说话人识别技术的原理及其实现方法,做了一个基于矢量量化(VQ)的说话人识别系统,并对仿真实验数据进行了分析。

2 基于矢量量化(VQ)的说话人识别方法及其算法实现

2.1 矢量量化的基本原理

矢量量化的基本原理是:将若干个标量数据组成一个矢量(或是从一帧语音数据中提取的特征矢量)在多维空间给与整体量化,从而可以在信息量损失较小的情况下压缩数据量,这是仙农信息论中“率-失真理论”在信源编码中的重要应用。矢量量化有效地应用了各元素间的相关性,因此比标量量化具有更好的压缩效果[2]。

2.2 矢量量化在语音识别中的应用

通过矢量量化可以把大量分布在特征空间中的向量投射到这个空间中的有限点上,既压缩了数据又不会对精度造成太大的影响。将矢量量化用于说话人识别系统的建模中,这时的特征空间是由说话人的声学特征向量构成的,经过矢量量化后,每个说话人最具有代表性的特征向量的集合就构成了相应的说话人模型(码书或码本)。其中,构成码本的单个特征向量称为码字。在矢量量化系统中,每个说话人的码本就是它的参考模型。首先,用矢量量化的码本作为说话人识别的参考模板,即为输入的语音中的每一个词或字做一个码本作为该词或字的参考模板,识别时对于任意输入的语音特征序列,计算该序列对每个码本的总平均的失真量化误差,即语音每一帧特征矢量与码本的失真之和除以该语音的长度(帧数)。总平均误差最小的码本所对应的词或字即为识别结果。

3 基于矢量量化(VQ)的说话人识别系统的仿真结果与分析

3.1 说话人识别系统的建立

所用的语音数据均在相对安静的教室环境下,采用设计的说话人识别系统通过笔记本电脑采集,声卡自动完成语音波形的A/D转换,获得WAV文件。采样率为11025Hz,量化值为16bit。获得的WAV文件,为后续的处理提供测试数据。笔记本电脑硬件系统如下:

CPU:Ce2.0;内存:785776KB

麦克风:SHURE,MODEL PROLOGUE14H-LC,Frequency Response:40-13000Hz

声卡:Creative,Sound Blaster Audigy Platinum e X

预处理前要进行语音信号的端点检测,端点检测主要是为了区分语音的有声段和无声段,找出语音的起始端点和结束端点,把语音信号的有效部分从输入信号中找出来。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。在背景噪声较小时用平均能量识别较为有效,在背景噪声较大时用平均过零率识别较为有效。采用短时能量与短时过零率相结合的方法来确定语音的起始点。预处理阶段主要是对语音信号进行预加重,加窗,分帧等。

预加重的目的在于消除唇辐射的影响,提升语音高频部分,使语音信号的频谱区域平坦,预加重滤波器采用下式实现:

分帧,即把语音信号分成帧长为N,帧移为M的短时语音帧序列。取256点(23.2ms)为一帧,帧移128点(11.6ms)。

加窗,采用汉明窗(Hamming window)来消除由于分帧引起的信号边缘蜕变。汉明窗计算公式如下:

的说话人识别系统是基于MATLAB搭建的,其工作界面如图1所示。此系统主要用于说话人辨认实验。

3.2 基于矢量量化的说话人辨认实验

为了测试所建立的说话人识别系统的有效性,同时也为了进一步了解识别模型的识别性能和特点,我们在安静的教室环境下选择10个说话人(6男4女)进行干净语音的提取并进行说话人辨认实验,实验中使用的语音特征参数为MFCC+△MFCC。

实验一:

a.采集10个说话人的语音作为训练样本,内容为汉语“说话人识别”,不同的人说同样的内容;

b.再次采集这10个人的语音作为测试样本,测试样本一的语音内容为汉语“说话人识别”,测试样本二的语音内容为5位阿拉伯数字“12345”。

在基于矢量量化(VQ)的说话人识别系统中进行实验一,实验数据如表1所示。

表1的实验数据可以看出,训练者个数越多,识别率越好,在相同的训练样本个数下,待识别者的语音长度越长识别性能越好,但并不要求无限长,从表中可以看出,3s和5s的识别率几乎是相当的,都能达到几乎100%的识别率。

4 结论

说话人识别技术具有广泛的应用前景,矢量量化技术是仙农信息论中“率-失真理论”在信源编码中的重要应用。通过上面的实验证明了设计的说话人识别系统是可行的,并能实现较好的说话人识别,而基于矢量量化的说话人识别系统也具有相当高的识别率。

摘要:说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术,具有广泛的应用前景。采用矢量量化(VQ)方法,可以在信息量损失较小的情况下更好地压缩数据量,从而增高说话人识别系统的识别率。研究了VQ在说话人识别中的应用,提出并设计了一个基于VQ的说话人识别系统,当用于训练的数据量较小时,可以得到比较稳定的识别性能。

关键词:说话人识别,特征提取,矢量量化

参考文献

[1]臧晓昱.基于改进的高斯混合模型说话人识别方法的研究[R].西安:武警工程学院,2006.

说话人识别技术 篇7

语音是人类日常生活中相互之间交流的最自然、最简便的主要方式。语音中包含了多种信息,有表达的语义信息、说话人身份信息、语种信息、信道信息等等[1]。随着计算机技术的发展和应用的需求,人们希望能够通过计算机自动提取语音中的这些信息,因此从语音信号中提取语义信息的语音识别和提取语种信息的语种识别研究都取得了迅速的进步,并且开始进入实际应用阶段。本文探讨的说话人识别就是自动提取语音信号中说话人信息的技术。

快速的说话人识别技术对国防安全有着重要的意义,但话音内容、噪声干扰、以及传输信道之间的差异,给技术的应用带来挑战。传统的说话人识别系统,往往对给定的目标说话人进行建模,然后通过似然概率计算或距离的度量,直接给出判决。本文基于美国国家科学技术标准局(National Institute of Science and Technology, NIST)的说话人识别评测(Speaker Recognition Evaluation, SRE)任务[2],设计并实现了一个快速的说话人识别系统,实现了高斯超向量方法。该系统以高斯混合模型的参数作为特征,建立超向量,并采用支持向量机进行分类,并给出判决。为了增加超向量对目标说话人的描述能力,系统对分类器进行了设计,引入了鲁棒性技术。系统结合了高斯混合模型的统计特性和支持向量机的分类特性,在提高精度的同时,并没有引入更多的计算复杂度。

本文将分以下几个部分来介绍快速说话人识别系统:第二部分介绍说话人识别技术原理,包括:高斯混合建模和支持向量机分类;第三部分具体介绍说话人识别系统的设计和实现;第四部分将对系统进行测试,给出其性能结果;最后第五部分为本文的结论和展望。

2 说话人识别技术

2.1 高斯混合建模

使用高斯混合模型对说话人进行建模主要基于两个出发点。第一,高斯混合模型中的高斯分量能够描述一些广义的语音学特征。对于说话人识别任务来说,其语音体现了多种声学特征信息组合,每一类特征都近似对应一类语音学特征(如擦音,塞音,鼻音,或者某种舌位和口型),这些语音学特征能够描述不同说话人的发音情况。第二,线性加权的高斯密度函数可以逼近任意形状的概率分布,能比较准确的拟合说话人特征分布情况,比使用单高斯拟合和矢量量化方法都有更好的建模优势。因此可以用混合高斯模型描述不同说话人的发声特征概率分布情况。

高斯混合模型可以描述为一个由M个高斯分量组成的高斯混合密度函数,是M个高斯密度函数的加权和:

undefined

undefined其中,undefined是一帧语音的特征矢量,undefined是混合密度中各个分量的密度函数,而wi(i=1,....M)是各个高斯分量的权重,这些权重满足关系式:

undefined

其中λ为GMM模型参数,每个高斯分量的密度函数为如下形式的高斯函数:

这里undefined是高斯函数的均值矢量,Σi为高斯函数的协方差矩阵,D是特征矢量维数。

undefined在高斯混合模型中,每一个高斯概率密度分量bi(x)都可以用其权重wi,均值ui和协方差Σi描述,这样,一个M分量的高斯混合模型可以由以下集合表示:

undefined

在说话人识别应用中,目标说话人的高斯混合模型通常由一个全局背景模型(Universal Background Model, UBM)自适应得到[3]。这里提到的自适应,采用了基于最大后验概率估计(Maximum a Posteriori, MAP)的方法[4]。这种方法在说话人识别领域经常采用,优点是可以用比较少的数据来较为准确的估计模型。通过对输入语音进行自适应,可以得到对应超向量[5]:

2.2 支持向量机

支持向量机(Support Vector Machine,SVM)一种最大间隔分类器,它通过最大间隔超平面将在特征空间中线性可分的训练数据分开[6]。支持向量机(Support Vector Machine,SVM)训练理论是基于最大边界距离概念之上的。对于一个在SVM空间可以分开的两类样本集(正样本集和负样本集),通过找到两个具有最大边界距离的超平面来确定分类平面。在边界上的训练样本矢量则被称为支持向量。SVM分类器由一组支持向量组成:

undefined

其中xi为支持向量,αi为支持向量权重,ti为支持向量的理想输出(+1对于正样本支持向量,-1对于负样本支持向量),并且有undefined。K(x,xi)为核函数。对于一个测试样本x,当得分f(x)大于阈值时,分类器判决为属于正样本,小于阈值时,则判决属于负样本。其中,核函数表示为

K(x,y)=b(x)tb(y)

其中b(x)为将矢量由矢量空间映射到SVM空间的函数。K(x,y)选择有多种选择,如多项式函数,线性核函数,高斯RBF(radial basis function)函数[7]等。本文我们采用基于高斯混合模型的超向量核函数[8]。

undefined

3 系统设计与实现

3.1 系统框架

本文提出的说话人识别系统框架如图1所示,主要包括前端预处理,有效语音检测、特征提取、非线性映射方法、后端分类器以及多系统判决技术。整个系统处理流程分4个阶段:P1,P2,P3和P4。P1阶段主要完成一系列预处理工作,首先检测输入语音中的有效数据,然后提取语音特征参数。在P2阶段,选择了不同的映射策略,目的是将底层的语音倒谱特征,经过非线性的变换,映射成高层的特征向量。在此过程中,我们采用高斯混合建模的非线性映射,生成高斯超向量。P3阶段在超向量的高维特征空间中,使用支持向量机进行分类,并将分类得分转换成各个目标人的后验概率。P4阶段基于假设检验的思想,通过门限进行识别结果判决。

3.4 实现流程

系统采用模块化的设计方法,软件流程包括建模过程和识别过程,系统软件设计流程如图2所示。

建模过程包括两个部分:首先离线采集大量的训练数据,这些数据尽可能地包含各种信道,覆盖各种发音内容,采用最大期望算法训练通用背景模型。其次将目标说话人训练数据和反样本数据在通用背景模型的基础上,采用最大后验概率自适应算法得到各自的超向量,通过支持向量机,训练得到目标说话人的分类模型。

识别过程包括以下几个部分:首先,对输入语音进行特征分析,加窗后生成单高斯进行距离测算,将距离大于门限的窗进行分段,并判决是否为有效语音,完成对有效语音进行特征提取;其次,合并有效语音段的声学特征,在背景模型的基础上进行最大后验概率自适应得到高斯超向量;接着,将测试语音的超向量与各目标说话人的分类模型进行分类,同时完成信道分析消除信道影响;最后,对支持向量机分类得到的距离得分进行处理,将其转换成对各个目标人的后验概率得分,并通过门限比较给出系统判决。

4 性能测试

4.1 测试指标

NIST说话人识别评测任务中,都是给定一个测试语音和一个目标人,系统要判断当前语音是否属于该目标人,就是所谓的测试任务样本。一个测试任务样本的答案无非有两种“是”或“否”。 所以,在说话人确认中经常会出现两种错误:漏报和误警。如果待测试语音是给定目标人的话音,系统确认为“否”,那么就代表系统没有检测出该目标人,这种错误称为漏报(False Rejection,FR);反之,如果待测试语音不是给定目标人的话音,系统确认为“是”,那么就代表系统检测出的结果出错,这种错误称为误警(False Alarm,FA)。

漏报和误警是此消彼长的关系,为了降低漏报,就必须降低判决阈值,这样就带来更多的误警;为了降低误警,就必须提高判决阈值,而这样又带来了更多的漏报。因此,衡量一个系统的性能,通常必须同时考虑漏报率和误警率两个方面的因素。由于针对海量数据语种识别应用,为了快速进行评估系统性能好坏,本文采用相对简单的等错误率EER(Equal Error Rate, EER)值[9]。等错误率值,即漏报和误警相等时的值。

4.2 测试数据

本文的任务集包含两个部分,分别采用了NIST说话人识别评测2008年和2010年的“电话-电话”测试任务集,标记为“SRE08”和“SRE10”。这些语音数据均从电话信道下进行采集,并且绝大部分都是英语发音,可以排除由于语言不同对说话人识别性能造成的影响。在众多国内外研究单位发表的文章中,都选择了这两个数据集作为测试对象。

4.3 测试结果

为了与传统高斯混合建模方法比较,首先建立高斯混合系统,采用了18维MFCC特征,并做一次差分变换,建模方法采用了基于最大似然准则,选择高斯分量数目为512。在超向量系统中,高斯超向量的产生同高斯混合系统中目标人建模过程一致。表1给出了超向量说话人识别系统的等错率指标,可以看出采用高斯超向量作为输入样本的快速系统,其性能比传统高斯混合系统提高了很多。这是因为,一方面,本文采用的高斯混合建模能够描述目标说话人的声音特性;另一方面,作为区分性分类器,支持向量机能够在最优条件下把目标说话人与非目标人分开。超向量系统结合两种技术的优点,取得了较好的性能。同时,表1给出了说话人识别系统的速度指标,“倍实时”的含义就是1小时可以识别的语音数据量,即“16.1倍实时”代表1小时可以处理16.1小时的语音数据。可以看出,由于超向量系统后端只进行分类计算,计算速度要快于高斯混合系统中的似然概率计算。其中测试机器的硬件配置为Intel单核CPU,主频2.26GHz,4G内存。

5 结束语

本文研究目的是针对电话自然口语语音实现快速并且实用的说话人识别技术。结合美国国家技术标准局的说话人识别评测任务,本文提出了一个快速说话人识别系统框架。该框架包含对原始语音信号的预处理、声学特征提取、高斯混合建模、超向量生成、支持向量机分类和系统判决等过程。本文对系统框架中使用的技术进行阐述,实现了应用系统,并对该系统进行了性能测试,达到了应用要求。在未来的工作中,我们将进一步消除电话信道影响,提高系统的鲁棒性,进一步提高系统性能。

参考文献

[1]杨行峻,迟惠生.语音信号数字处理,北京:电子工业出版社,1995.

[2]The NIST Speaker Recognition Evaluation Plans.http://nist.gov/itl/iad/mig/sre.cfm.

[3]R.Gopinath.Maximum Likelihood Modeling with Gaussian Distributions for Classification,ICASSP,1998,661-664

[4]D.A.Reynolds,T.F.Quatieri,R.B.Dunn.Speaker Verification using Adapted Gaussian Mixture Models,Digital Signal Pro-cessing,2000(10):19-41

[5]W.M.Campbell,J.P.Campbell,D.A.Reynolds,E.Singer.Support vector machines for speaker and language recognition,Computer Speech and Language,2006(20):210-229

[6]忻栋.支持向量机的研究及在说话人识别上的应用[D].浙江大学硕士学位论文,2002.

[7]C.C.Chang,C.J.Lin.LIBSVM:a library for support vector machines.from http://www.csie.ntu.edu.tw/~cjlin/libsvm.(2001).

[8]H.B.Suo,M.Li,P.Lu,Y.H.Yan,Automatic Language Identification with Discriminative Lanugage Characterization Basedon SVM,IEICE Transaction on Information and System,2008(E91-D):567-575.

上一篇:屋面防水设计类型分析下一篇:传媒转型