声纹识别系统研究

2024-05-19

声纹识别系统研究（精选3篇）

声纹识别系统研究篇1

社区矫正声纹识别IVR系统

本系统为司法行政工作中产生的其他信息和各基层单位相关组织人员信息提供动态管理与维护功能。系统的建立和使用将使得司法矫正人员管理工作从传统的经验型的定性管理转化为自动化、标准化、规范化的定量管理，极大地提高矫正人员管理的效率和现代化水平。天聪公司开发的社区矫正声纹识别IVR系统（以下称为本系统），基于天聪声纹识别引擎（tsVPR），与先进的CTI系统无缝集成，能够依据较短的语音，自动鉴别说话人的身份。什么是声纹识别

声纹是人体固有生物特征，具有唯一性和指纹、虹膜等相同。

声纹识别是通过建立声纹模型并进行相似度比较。

基于声纹识别技术，可准确判断矫正对象身份的合法性，顺利解决了人机分离情况下矫正对象身份验证的问题。系统结构

本系统主要由三部分组成：VPRService、IVR、tsVPR，其中VPRService的功能是负责跟外部其它系统（第三方软件）交互和资料的管理；IVR的功能主要是负责系统业务流程；tsVPR是天聪声纹识别引擎，负责声纹登记和声纹识别。应用场景：

社区矫正声纹IVR系统自动呼叫矫正对象定位手机，由IVR系统将采集到的矫正对象语音，通过调用声纹识别引擎提供的接口函数进行声纹确认。声纹识别引擎将确认结果反馈给IVR系统并将结果传回社区矫正管理平台，矫正工作人员可通过管理平台进行监控，具体应用场景如图1所示：

图1 声纹识别应用场景

系统功能

 声纹登记：声纹登记是提取说话人的声纹特征，训练出该说话人的声纹模型。

 声纹识别：将说话人的语音跟指定的声纹模型进行比对，以确定电话远端说话人的身份。

 系统主叫：本系统能根据需求主动拨打对象电话，进行声纹验证。

 合法性检查：如果对象拨打非对应的系统接入号或者非对象拨打系统接入号，系统都会有相应提示。

 系统录音：本系统通过配置，可对对象进行录音存储，以便事后追踪和后期维护。技术性能指标

1、信噪比要求：>25dB；

2、语音格式：8k 8bit PCM(a律压缩/μ律压缩)；

3、同信道识别：等错误率EER<2.5%；

4、跨信道识别：等错误率EER<3.0%；

5、最大并发数：单机最大240路。特色优势

 声纹识别系统：国内率先将移动定位技术和声纹识别技术结合应用在司法矫正管理系统；

 人机分离识别：采用声纹技术准确判断矫正对象身份，顺利解决人机分离情况下矫正对象身份验证的问题；

 可以规避一些管理上人为因素的问题。

声纹识别系统研究篇2

声纹识别属于生物认证技术的一种,是一项根据语音波形中反映的说话人生理和行为特征的语音参数自动鉴别说话人身份的技术,有着广阔的市场应用前景。根据是否规定语音内容可将声纹识别系统分为文本相关型和文本无关型,本文主要研究的是与文本无关的系统。说话人识别的关键问题在于特征参数的选择与识别模型的建立,目前常用的特征参数有LPC、LPCC以及MFCC等,常用的识别模型有矢量量化、高斯混合模型、隐马尔科夫模型等。

1 基于矢量量化的声纹识别系统结构

基于矢量量化(Vector Quantization,VQ)的声纹识别分为训练和识别两个阶段[1]。在训练阶段,系统采用矢量量化方法对特征矢量序列进行聚类分析,得到说话人的码本。在识别阶段,计算测试语音的特征矢量集与每个码本的平均失真距离。将平均失真距离最小的码本所对应的说话人的身份信息作为结果输出。基于VQ的声纹识别系统的结构如图1所示。

图1基于VQ的声纹识别系统的结构(参见右栏)

2 特征参数的提取

基于人耳对声音频率的感知特性而提出的Mel倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),无任何前提假设,不涉及语音内容。综上考虑,本文选取MFCC作为特征参数。但其仅反映说话人声纹的静态特征,为了描述语音帧之间的相关性和连续性,本文引入了反映声纹特征动态特性的差分系数(△MFCC)。将MFCC与△MFCC的组合形式作为新的特征参数可以完整的描述说话人的生理和行为特征。

2.1 MFCC的提取

MFCC的提取过程如下[2]:

(1)原始数字语音信号s(n)经预处理得到每个语音帧的时域信号x(n)。

(2)对x(n)作离散傅里叶变换(DFT)得到线性频谱X(k):

其中,N为离散傅里叶变换的点数,即DFT窗宽。

(3)对X(k)取模的平方得到离散能量谱P(k),即:

(4)用一组Mel频率滤波器对能量谱P(k)进行滤波,经过滤波器组输出的功率谱Pm(k)为:

(5)将Pm(k)取对数得到对数功率谱S(m):

(6)谱S(m)作离散余弦变换:

(7)倒谱提升,即为P阶倒谱系数分别乘以不同的权值。倒谱窗有多种形式,其中典型的形式为:

加权后的倒谱系数:

2.2 特征参数的改进

差分MFCC的计算采用如下公式:

在式(8)中,c(n)、d(n)分别表示一帧的语音的MFCC和△MFCC,k为常数,为了方便计算k值取2,此时差分系数就为当前帧的前两帧与后两帧语音标准特征参数的线性组合,计算得到的差分系数就称为一阶差分系数。

将标准特征参数和一阶差分系数合并为一个矢量,作为一帧语音信号的特征参数,此时,语音特征参数的静态特性与动态特性成互补,帧与帧之间的相关性和连续性得以体现,将更有效地提高系统的识别性能。

3 基于VQ的声纹识别模型

矢量量化需要解决两个关键问题:1)失真距离的测度。2)最佳码本的设计。

3.1 基于标准差的加权欧氏距离[3]

设某个K维矢量A,与码本中某个K维矢量B进行比较,ai,bi(i=1,2,…,K)分别表示A和B中的各元素,均方误差欧氏距离:

在采用均方误差欧氏距离进行量化失真测度时,特征矢量的各个分量是等权重的,各分量的分布情况在距离度量中没有得到反映,这会给系统识别性能带来一定的影响。一种好的声纹特征参数理应是对同一个说话人语音的离散程度小,而对不同说话人语音的离散程度大,即要求类内聚合程度和类间离散程度都尽可能的大。本文将采用基于标准差的方法来衡量类内聚合程度,在识别时对特征参数进行加权处理,以此来考察对识别率的影响。

设某个说话人的码本由M个码字构成(即码本尺寸为M),每个码字是一个K维矢量,则该码本的第k维通道参数的标准差为:

式中,表示的是第i个码字的第k维分量参数,表示的是第k维分量参数的平均值,σk表示的是第k维分量参数偏离均值的程度,偏离越小代表着对说话人特征的描述越理想,越有利于声纹特征的识别,所以应给予加重。由此,定义第k维分量参数的权值为:

其中,wk表示的是第k维分量参数的权值。

进行归一化处理：

设某个K维特征矢量为A=(a1,a2,…,ak),与码本中的某个码字B=(b1,b2,…,bk)进行比较,ai,bi(i=1,2,…,K)分别表示A和B中的各维分量,则标准差的加权欧氏距离失真测度为:

3.2 基于分裂法的最佳码本设计

为了实现最佳码本的设计,应该遵守两条原则[4,5]:

(1)对于给定的码本Y找出所有码字的最佳的区域边界Rj(j=1,2,…,M),使得平均失真测度最小。

(2)对于给定的区域边界Rj,找出最佳码字Yj,使得码本的平均失真测度最小。

基于分裂法的码本生成算法如下[6,7,8]:

(1)求出所有训练序列X的均值作为初始码本的码字Y1(0):

(2)利用较小的阈值将一分为二,即:

(3)分别以和Y(n+1)作为形心,按照最近邻规则把全部特征矢量化分成两类,再分别求出两类的形心和Y(n+1),回到步骤(2)。

在上述过程中,Y上标表示迭代次数,下标表示码字的序号。重复上述过程,逐步扩大码本的大小,经过log2M次重复过程,就形成了具有M个码字的初始码本。基于分裂法的码本生成算法的流程图如图2所示。

图2基于分裂法的码本生成算法的流程图(参见下页)

4 系统测试及分析

本文在实验室环境下录制30人的语音库,每人录音时长5s,发音3次,均不规定发音内容,任取一组发音内容规定的语音文件用于训练,其他两组用于测试。

4.1 特征参数的对比

任选一组测试语音,进行特征参数的测试,测试结果如表1所示。

从表1可以看出,特征参数MFCC的识别率很明显小于MFCC+△MFCC的识别率,因而可以断定MFCC+△MFCC描述语音的个性特征优于MFCC。这是因为MFCC仅包含语音的静态特征,而MFCC+△MFCC既包含了语音的静态特征又包含其动态特征。

4.2失真测度的对比

任选一组测试语音,选择MFCC+△MFCC作为特征参数进行失真测度的测试,测试结果如表5.2所示:

从表2可以看出,加权欧氏距离与均方误差欧氏距离相比识别率提高了16.7%。这说明由改进的欧氏距离推导的特征参数具有较高的区分说话人的能力,能够充分体现说话人个体间的差异。

5 结论

本文借助MATLAB工具实现了基于与文本无关的声纹识别系统,并对该系统进行了测试。实验中,共有30个人参加测试,对文本无关的进行测试,经过反复的观察,采用差分MFCC+MFCC作为特征参数的识别率优于单独采用MFCC的识别率。采用加权欧氏距离的作为失真测度的识别率高于均方误差欧氏距离的。

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出版社, 2009:13-15.

[2]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010.

[3]姚天任.数字语音处理[M].武汉:华中科技大学出版社,2007.

[4]陈伯胜.基于VQ和GMM的与文本无关的说话人识别系统的研究[D].重庆:重庆大学,2007.

[5]黄文辉.基于矢量量化的说话人识别技术研究[D].西安:西安电子科技大学,2006.

[6]蒋晔.基于文本无关的说话人识别技术研究[D].南京:南京理工大学,2008.

[7]蔡莲红,黄德智,蔡锐.现代语音技术基础应用[M].北京:清华大学出版社,2003:56-60.

声纹识别系统研究篇3

一、声纹识别系统简介

(一) 声纹识别研究概述

声纹识别 (VR, Voiceprint Recognition) 即说话人识别 (SR, Speaker Recognition) , 是利用说话人的语音判断说话人身份的生物特征识别技术。其应用场景主要有两类, 即说话人辨认 (Speaker Identification) 和说话人确认 (Speaker Verification) 。前者用以判断某段语音是若干人 (或海量语音) 中的哪一个所说的, 是“多选一”问题;而后者用以确认某段语音是否指定的某个人所说的, 是“一对一判别”问题, 银行系统多属于后者应用, 即用于识别服务对象的身份是否正确。

(二) 声纹识别系统开发的基础

说话人的语音由人的生理特征决定, 并受后天社会生活的环境影响。从生理角度分析, 语音是由发声器官运动产生的。气流通过喉中的声门, 引起声带的周期性振动, 形成周期性的脉冲串并进入声道, 周期性脉冲的周期称为基音周期。气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射, 其间的传输通道称为声道。声道是具有某种谐振特性的腔体, 当气流通过时, 输出的气流频率特性, 即声门脉冲串的特性, 取决于声道的特性。发声的器官和过程确定了语音中特定说话人信息的形式, 其中声道的形状是最重要的生理因素。另外, 从社会环境分析, 受语言种类、教育程度和社会地位等多方面影响, 每个人说话的音量、语调、语速和韵律都各有特色。由于每个人声道形状都不相同, 就如同人的指纹、虹膜也都不一样, 以及每个人发音习惯也不同, 因此可以通过人的语音确定出说话人的声纹, 即身份。这奠定了说话人识别的应用前提。目前, 在一定的条件下, 说话人识别的精度可以达到与指纹识别的精度相当水平。

二、银行系统应用背景

在电子科技日益发达的今天, 电话银行在国内外迅速兴起。它通过电话这种现代化的通信工具把用户与银行紧密相连, 只要通过拨通电话银行的电话号码, 就能够得到电话银行提供的其他服务。电话银行的出现和应用, 可以使用户在任何时间、任何地点处理金融业务, 对很多消费者来说, 购物、转账、缴费等以前需要在银行柜台操作的业务通过电话的方式来完成。这样, 一方面节省了用户去银行和排队办理业务的时间, 另一方面, 也减少了银行设置网点和银行工作人员的成本, 电话银行正在迎来一个快速发展的黄金时期。

三、电话银行面临的问题

在电话银行的使用方式上, 用户的安全性无疑是非常重要的一项指标。以手机银行为例, 目前各大银行陆续推出的手机银行所采用的都是静态密码、口令卡、贴身密保等安全认证措施, 而这些措施并没有使得广大用户认可手机银行的安全性, 主要原因如下。

一是静态密码认证是目前最常用的密码认证方式, 作为一种低成本而且方便的认证方式, 在网络与手机中普遍应用。但是目前还存在安全等方面的问题:随着科技水平的发展, 犯罪分子可以通过音频分析软件, 记录用户输入的按键音, 通过分析就可以得到用户的账号和密码, 通过电脑或手机木马程序盗取密码也成了新的犯罪趋势;由于密码一般为6位数字串, 有些用户的密码设置简单或有规律性, 很容易被金融诈骗人员猜测出来;如果用户密码记得不牢固, 当手机银行静态密码连续输入错误3次, 系统将会冻结该用户的账号, 造成用户诸多不便。

二是动态口令卡也是手机银行中最常用的一种认证方式。当用户在手机银行上进行转账、缴费、购物等操作时, 手机银行系统就会随机给出一组口令卡坐标, 用户根据坐标从卡片中找到口令组合的数字并输入到手机银行系统中, 但口令卡使用起来也很不方便。首先口令卡采用九宫格的模式, 用户每次进行交易操作的时候, 都需要很费神地去寻找九宫格内的数字, 容易看错导致认证失败;其次口令卡存在卡片丢失或被窥视、拍照、复印等风险。

三是动态口令牌是一种定期自动更新口令的密码生成芯片并具有显示功能的专用硬件, 安全性能比较高。对于用户而言, 现在基本上是手机不离身的状态, 但用户不方便时时刻刻都随身带着动态口令牌, 没有动态口令牌则无法进行手机银行上的交易操作, 那手机银行的最大特色也就退色了。

四是由于密码信息与使用者身份无关, 因此在追究账户处置过失时不能成为使用者身份依据。

五是银行基于安全性考虑, 在向他人的账户转账和汇款的业务上对资金额度有所限制, 造成了大客户使用的不便。

因此, 为了提高电话银行的可靠性、安全性和便利性, 银行急需引入新的身份认证技术, 特别是基于说话人声音的验证技术。由于语音可以通过电话进行远程验证, 这很自然地成为电话银行引入新身份认证手段的首选。

四、声纹识别技术在电话银行应用的优势

声纹识别特别适合电话银行, 电话银行声纹认证系统是利用每个人声纹特征唯一的特性, 将声纹识别引入到现有电话银行系统中, 在原有静态密码认证的基础上增加了一把安全锁。每次客户在使用电话银行系统时, 根据系统的提问, 回答相关问题 (语音口令) , 系统便可根据客户的动态语音口令信息和声纹信息判断其是否为合法用户, 从而提高了交易的安全性, 解决传统手机银行认证方式上的安全问题。目前该种声纹特征验证已经达到很高的水平。其主要优势有以下几方面。

一是声纹识别所采用的是人体的生物特征, 具有表示用户身份的唯一性, 即使犯罪分子盗取了用户的账号和密码, 如果通话声音中含有的声纹信息与账号对应的声纹信息不匹配, 也无法盗取账号上的资金。系统通过随机提示问题的方式, 加大了犯罪分子盗取用户完整声纹信息的难度, 有效防止录音闯入的发生, 再配合语音口令, 可以进一步提高识别的准确率。

二是蕴含声纹特征的语音获取方便、自然、简单, 声纹的获取是在用户通话中不知不觉得到的, 不用携带, 不会丢失或遗忘, 因而不会给用户带来不便。

三是声纹识别可以远程实现, 对手机银行这个已建有远程操作的语音平台来说, 声纹识别的优势尤为明显。且在使用通讯设备时无需购置额外的录音设备。

四是声纹作为一种使用便利且认证方式安全可靠的技术, 可以大大增强用户的体验感和信任度, 可为银行带来电话银行的用户数和交易量的增加, 从而降低成本, 提升价值。

综上, 手机银行最吸引用户的无疑是它不受时间和地点的限制, 可随时随地进行操作, 手机声纹认证又解决了传统手机银行的安全性问题, 因此, 声纹识别技术和传统电话银行密码的结合, 将使电话银行安全性和便利性大幅提高, 声纹识别在友好配合的条件下, 其性能可以做到与指纹识别性能相当。该技术的应用最终将进一步提升电话银行的应用价值。

五、声纹识别技术应用现状

在国内, 声纹识别系统已在部分银行试点应用。电话银行签约客户通过在电话银行人工系统进行声纹预留后, 即可在自助语音系统成功验证声纹, 使用本人名下签约账户 (转账标志为“可转入任意账户”) 向任意账户转账。

六、声纹识别认证主要工作流程

(一) 声纹注册

用户首次使用电话服务激活信用卡、电话卡时, 经客服人员确认合法身份后, 客服人员向客户提问5~10个问题 (银行可规范10个问题, 比如:你叫什么名字, 你是哪年出生的, 你最喜欢什么样的颜色等) , 客户重复客服人员的问题, 并回答此问题, 客服将所回答问题的答案用汉字输入到数据库中, 形成语音口令识别模板, 作为以后登入时对语音口令进行验证, 同时, 声纹识别系统自动采集用户的语音以提取用户声纹特征, 保存到声纹数据库中, 用作以后客户的声纹特征进行认证, 两者结合可以达到相当于目前指纹验证的水平。如图1所示。

(二) 客户登入时声纹确认过程

1.用户注册后再使用电话服务, 客服系统会随机提问已留存的问题, 客户回答相关的问题, 系统根据用户的回答判断语音口令是否正确, 同时提取当前用户的语音特征, 并与数据库中的样本特征作比对, 以判断当前用户是否为合法用户本人, 从而决定授权、拒绝 (可在第一时间通知合法用户) 或其他选择。

2.由于说话人的个性特征具有长时变动性, 声纹识别系统可以执行在线自适应功能, 即利用当前用户登入的新语音, 对声纹数据库内保存的声纹模型进行更新, 从而保持用户语音特征具有最好验证效果。

3.无论当前用户是合法还是非法身份, 系统都可以把用户的语音信息和声纹比对结果记录下来, 以备他用。如图2所示。

七、声纹识别的技术特点与指标

对声纹的识别可以做到与所说的文本无关和所说的语言无关;声纹确认的误识率小于千分之一;支持跨信道的识别, 如GSM, CDMA, 固话等不同信道的声纹识别。

【声纹识别系统研究】推荐阅读：

识别系统设计06-20

视觉识别系统09-12

环境视觉识别系统06-07

人脸识别应用系统08-16

企业形象识别系统08-20