IVR系统

2024-08-31

IVR系统（共4篇）

IVR系统篇1

0 引言

说话人识别(Speaker verification,or Speaker recognition)技术是通过分析人的前后两次语音,并进行对比验证来进行个人身份的鉴定。由于人的声音可以很好的唯一标识一个人,并不容易被模仿。人声属于内藏型身体特征,只要当事人不开口说话,则没有任何被盗用的可能性。目前说话人识别的精度已经很高,达90%以上。但由于技术方面的因素,始终没有达到100%,这也是进行系统设计时需要考虑的一点。另外说话人识别是文本无关的,也就是用户随机说出的一段话,就可用于说话人识别。我们的系统正是与文本无关的说话人确认系统。

IVR(Interactive Voice Response),即交互式语音应答,是一种基于电话的语音增值业务的统称。用户只需拨打指定号码,系统就自动播报语音,提示用户根据自身需要选择需要的服务,并根据语音提示输入必要的指令,就可完成整个业务流程。整个过程没有客户人员参与,系统自动播放机器语音。这种方式节省了人力成本,方便24小时服务。

1 需求分析与设计

基于说话人识别的IVR验证系统,核心是说话人识别。目前软件界有一些由语音服务公司提供的说话人识别服务,可以购买相关服务,用于这个系统;当然也可以自己研发。这里我采用的是自己研发的基于MFCC+GMM算法的语音识别组件。这一项在下一节中有详细描述。虽然目前说话人识别的精度达90%以上,但不能保证100%精确,为确保安全性。需要有一定的机制来保证验证的准确度。基于以上因素,这里涉及的基于说话人识别组件包含以下模块:

1.1 说话人识别组件

该组件主要提供两个接口 , Voice Register和Voice Verification。两个接口的定义如下:

double()Voice Register(string Voice Path);

double Voice Verification ( double ( ) voice Print , stringvoice Path)

其中,Voice Register接口是用来对一个人的语音进行建模,形成语音指纹。

Voice Verification接口是把用户语音和以前录入的语音指纹进行比较,得出相似度百分比。

这两个接口的核心算法是利用说话人识别组件进行建模和对比。有关说话人识别组件的具体实现算法。

1.2 验证问题列表管理子系统

由于说话人识别的精度不能达到100%,我们打算在IVR过程中,让用户辅助验证若干安全问题。这里我们设计了一个验证问题列表管理子系统。管理员进去维护若干验证安全问题,并把当前想让用户验证的问题设置为Active,其他问题为Inactive,并附有添删改查功能,方便管理员随时调整验证安全问题。这些问题的答案一般是数字,方便用户通过电话按键输入进行回答。而且一般只有两三个问题被设置为Active,因为在电话语音验证过程中,问题过多,会增加验证时间,体验性差。而且因为有说话人识别组件的存在,有两三个问题已经足够验证用户。

另外基于安全性的需要,该系统有权限控制的功能,比如用户维护页面,用户登录页面,只允许有权限的用户才能登录该系统,并对验证安全问题列表进行维护。

1.3 IVR 服务子系统

要想实现IVR系统,需要购买IVR第三方供应商的服务,比如Twilio公司,该公司主页是www.twilio.com。进入该网站注册,选定服务类型,再进行一些设置,就可以获得IVR服务,并且Twilio会给你提供一个电话号码,专门用于此项服务。在设置页面,有一栏位是用于设置业务逻辑系统的URL。这里的业务逻辑系统就是我们所需设计和实现的IVR服务子系统。

IVR服务子系统的注册流程如下:

a.用户拨打指定的IVR电话;

b.Twilio自动调用IVR服务子系统,IVR服务子系统返回需要播报的语音文字,比如欢迎文字或语音,提示用户选择注册或其他服务;

c.用户选择注册服务;

d.Twilio自动调用IVR服务子系统,IVR服务子系统提示用户输入一段大约8秒钟的语音;

e.用户随机说一段约8秒钟的语音;

f.Twilio再调用IVR服务子系统,IVR服务子系统对用户语音进行分析(调用说话人识别组件),把语音指纹保存在数据库。随后给用户播放第一个安全问题,并提示用户按键给出答案;

g.用户按键给出答案;

h.Twilio再调用IVR服务子系统,IVR服务子系统再给用户播放第二个安全问题,并提示用户按键给出答案;

i.用户按键给出答案;

j.重复h,i,直到所有安全问题问答完毕;

k.IVR提示用户注册成功。

IVR服务子系统的验证流程如下:

a.用户拨打指定的IVR电话;

b.Twilio自动调用IVR服务子系统,IVR服务子系统返回需要播报的语音文字,比如欢迎文字或语音,提示用户选择注册或其他服务;

c.用户选择其他服务;

d.Twilio自动调用IVR服务子系统,IVR服务子系统提示用户输入一段大约8秒钟的语音;

e.用户随机说一段约8秒钟的语音;

f.Twilio再调用IVR服务子系统,IVR服务子系统对用户语音进行对比分析(调用说话人识别组件),如果验证通过,进入下一步,否则提示用户验证失败,返回;

g.IVR服务子系统再给用户播放第一个安全问题,并提示用户按键给出答案;

h.用户输入答案;

i.Twilio再调用IVR服务子系统,IVR服务子系统把用户答案和注册时的答案进行对比,如果失败,提示用户重试;否则进入下一步;

j.IVR服务子系统再给用户播放第二个安全问题,并提示用户按键给出答案;

k.用户输入答案;

l.Twilio再调用IVR服务子系统,IVR服务子系统把用户答案和注册时的答案进行对比,如果失败,提示用户重试;否则进入下一步;

m.重复j,k,l,直到所有安全问题问答完毕;

n.如果所有问题验证成功,提示用户验证通过,可进行后续操作;否则IVR提示用户验证失败,请重试或联系客服部门。

2 说话人识别组件

说话人识别的关键步骤:

特征提取:把说话人语音转换成数字信号,用一定算法转换成数学化的语音特征;也称语音指纹;

说话人语音建模:把若干语音的特征集合在一起,用一定的算法进行建模,得到背景语音模型;

模型匹配:把个人的前后两次语音和背景语音库的语音一起进行对比建模,最后得出个人前后两次语音的相似度百分比。

决策评定:这个模块主要决定语音相似与不相似的百分比阈值,从而评定两段语音是否由同一个人所说。

我所开发的说话人识别组件是用MFCC+GMM算法实现的。

MFCC(Mel Frequency Cepstrum Coefficient),即Mel频标倒谱系数,它是在Mel标度频率域中提取出倒谱参数,也就是先将频谱转换为基于Mel频标的非线性频谱,然后转换到倒谱域上。它的实现流程如下:

(1)把输入语音转换成数字信号,并对语音加帧,得到加帧后的语音向量组;

(2)对语音帧加汉明窗后做快速傅里叶变换,将时域信号转换成频域信号 , 获得信号的频谱为其中k =0…N-1。

傅立叶变换后,每个点k对应的频率为其中Fs为Sampling Rate。

(3)把频域信号用序列三角滤波器进行滤波处理,得到一系列系数;

(a)确定三角滤波器范围

fh=min(4300Hz,0.5Fs)

fl=300Hz

(b)取M个滤波器,每个滤波器的中心频率为

(c)每个三角滤波器为

每个滤波器输出的对数能量为

(4)用离散余弦变换将滤波器输出变换到到频域:

经过以上步骤就可得到MFCC参数,它具有识别性能和抗躁性强的特点。

GMM(Gaussian Mixture Model),即高斯混合模型。一个M阶的高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的。所示如下:

其中λ为模型中所有参数的集合。

GMM模型可以利用EM迭代法求解,这方面的文献很多。GMM模型的训练就是给定一组训练数据,依据某种准则确定模型的参数,本系统选用的参数估计方法是最大似然估计。

作为背景语音库的语音数量要足够多,不然会影响说话人识别的精度。背景语音材料也需要兼顾各种语音环境,不然的话,最后得到的说话人识别组件可能在一种语音环境下识别率高(比如电话语音),另一种语音环境下,识别率低(比如电脑麦克风语音)。

在准备背景语音过程中,我们采用了900段语音,其中300段手机语音,300段座机录音、300段电脑录音。为了测试算法中若干参数的阈值,再用500段语音进行了相似匹配度测试,最后确定了最佳精度阈值,说话人识别的精度为92%。

3 结语

综合以上所述,MFCC+GMM算法是比较好的说话人识别算法。把它用户IVR验证系统,辅助一些安全问题设计,就可使得系统简单、易用,验证安全准确。该系统具有很好的使用价值。

摘要：信息时代,信息的安全性和验证的便利性是各大公司和系统需要考虑的首要点和重点。基于说话人识别的IVR验证系统,通过说话人识别组件分析用户的语音信息,并给出匹配相似度,再辅以验证几组安全问题,可以大大提高验证的准确性和缩短验证流程的时间,具有很好的实际应用价值。

关键词：IVR,说话人识别,验证系统,应用

IVR系统篇2

一、目前联通10010热线的IVR流程如下：

10010客服热线查询服务请按1业务咨询请按2业务办理请按3故障申告请按4投诉建议请按53G业务请按8如需帮助请按0

二、若沃税通热线设置为二级菜单10010+9，客户拔打10010后，会有“沃税通业务请按9”的语音提示，客户选择9号键自动接入沃税通客服专席，IVR流程如下图：

10010客服热线查询服务请按1业务咨询请按2业务办理请按3故障申告请按4投诉建议请按53G业务请按8沃税通业务请按9如需帮助请按0

三、若沃税通热线设置为三级菜单，建议在2号键“业务咨询”菜单下设置5号键为沃税通客服专席，因其他二级菜单只是单独针对“查询”、“故障”、“投诉”等类型的一项，而“业务咨询”则涵盖的范围比较广，因此建议在“业务咨询”菜单下设置沃税通客服专座，IVR流程如图：

IVR系统篇3

随着系统工程学的发展, 人们发现在科研系统工程中, 系统评价从定性和定量两个维度分析是不够的。目前, 业界还没有一套完善地反映开放式IVR系统整体效能的指标体系, 其效能指标也没有统一的规范和标准。本文将从定性-定量-定时-定位四个角度, 创新地运用“四定分析综合集成法”[1]来对IVR系统进行全方位的评价。

2 开放式IV R系统模型建立

2.1 开放式IVR系统

IVR (交互式语音响应) 是呼叫中心的重要组成部分, 主要用于为用户电话来访提供语音提示, 引导用户选择服务内容和输入电话事务所需的数据, 并接受用户在电话拨号键盘输入的信息, 实现对计算机数据库等信息资料的交互式访问。IVR可以取代或减少话务员的操作, 达到提高效率、节约人力、实现24小时服务的目的。同时也可方便用户, 减少用户等候时间, 降低电话转接次数。开放式IVR系统, 即处于网络中的IVR系统。

2.2 电信级IVR系统模型

IVR系统即呼叫中心系统是基于计算机电话集成 (CTI) 技术发展起来的, CTI技术是电话交换 (程控交换) 技术和计算机技术有机融合, 因此, 呼叫中心技术拥有以下特点:以程控交换技术为基础开发, 由局用程控交换机发展而来, 具有技术成熟、功能强大、性能稳定的优点, 其缺点是投资较大, 适合于中大型呼叫中心、特别是运营企业的呼叫中心建设。电信运营商的IVR系统, 采用如图1所示的系统模型。

交换接入层 (ACD) 完成PSTN交换网络的接入、智能排队及业务支撑层提交的业务控制任务, 所提供的平台要具备组网能力。

业务支撑层 (CTI) 是交换与具体业务之间的支撑系统, 它针对具体业务对话务的需求, 通过解释转化为任务, 向交换接人层提交, 在业务实现层的配合下, 完成丰富多变的话务功能。

业务实现层 (SCE) 通过API接口按照具体应用的话务需求向下层提出需求, 结合计算机网络技术实现具体的应用, 它是系统计算机网络侧的应用。

2.3 开放式IVR系统模型

当IVR系统处于网络中与其他计算机系统互连时, 它便属于开放式IVR系统。而IVR系统模型三层架构中每一层均可处于开放式环境, 因此, 开放式IVR系统模型如图2所示。

3 开放式IV R系统级评估范式

3.1“四定分析综合集成法”

定性分析与定量分析相结合的方法作为科研系统工程的传统方法, 得到了中外学者们的普遍重视, 钱学森院士进而倡导研究复杂开放巨系统应采用从定性到定量的综合集成法。然而, 正确的质与量的辩证关系在很大程度上取决于它们是否处于同一时空框架内, 否则即使是相同的质-量关系也会因时空的变换而转换, 相等的量与不同的时间、空间相结合也会产生完全相异的质。因此, 当科研系统工程面对的是具有强烈时空特性的复杂问题时, 就不能仅从质与量的角度对其进行分析, 而应将其纳入质-量-时-空的四维思考范式, 采用定性-定量-定时-定位相结合的“四定分析综合集成法” (见图3) 来全方位地分析问题与解决问题。

3.2 开放式IVR系统级评估范式

在四定分析综合集成法的思考范式中, 复杂问题的系统分析首先应建立在准确的时-空分析基础之上;因此, “四定分析”的“综合集成”有一定的内在层次 (见图3和图4) , 定时-定位的时空分析是进一步开展定性-定量分析的基础, 它的作用在于划定问题的时空边界, 是分析复杂问题的基本条件。其次, 系统分析中的定性、定量、定时、定位分析诸要素间又存在着紧密联系, 任一要素都不可完全独立于其它要素之外。定性分析, 只有在与定量、定时、定位分析相结合后才会形成全面的、准确的质的认识。失去了时空条件与质的认定, 单纯量的测定也失去了意义, 而没有质-量分析的定时-定位分析又会失去分析的目标。因此, “四定分析”又是一个不可分割的整体。它的内在层次性强调定时-定位分析的基础性, 各要素的不可分割性则揭示出面对复杂系统时应运用“四定分析综合集成法”四维结构的整体来分析问题和解决问题。

IVR系统评价运用以上“四定分析综合集成法”中的四个维度:定性、定量、定时和定位逐一展开。

4 开放式IV R要素级评估方法簇

4.1“四定分析综合集成法”用于开放式IVR系统评价

可以分别从定性、定量、定时和定位四个维度开展, 定性包括:响应能力、承载能力、可靠性和可用性。定量包括:响应时间、并发用户数、系统恢复时间、吞吐量和资源利用率。定时包括:设计阶段、工程阶段和运维阶段。定位包括:接入层、接口控制层和应用层。

4.2 开放式IVR系统性能评估模型建立

按照上述评价方法, 结合“德尔菲”法, 我们给出了各个阶段的指标权重配比模型, 具体结果如表1、表2。

结束语

本文通过对IVR系统进行效能分析, 提出了一个IVR系统那个效能综合指标体系, 根据“四定分析综合集成法”对该指标体系进行了详细的分析和划分。对于各种指标, 其获取方法可以有所不同, 如仿真方法、数学分析方法、测量方法等。效能指标综合评估也有许多方法可采用, 限于篇幅, 这些问题留待今后讨论。

参考文献

[1]刘劲杨, 刘波, 刘德权.科研系统工程的“四维结构”与“四定分析”[J].自然辨证法研究, 2002, 5.