语音电话

2024-07-23

语音电话(共7篇)

语音电话 篇1

随着计算机技术、现代通信技术和网络技术的飞速发展, 人类社会正迈入信息化时代, Internet、WEBservice的普遍应用, 更使人们彼此间的交流变得简单、易行。

图书馆队伍阔步向区域集群化大环境开进的同时, 图书馆人的服务理念也正在悄然的从以业务为中心向为读者提供高质量的服务为主线开始转变。图书馆在发展读者队伍的同时, 也在积极寻找与读者进行互动交流的有效途径, 而移动的短信业务以及电话语音服务为连续用户与图书馆之间的纽带, 发挥着十分重要的作用, 其中电话语音服务又由于其使用简单方便, 所体现的功能丰富多样, 从而一举成为当代图书馆信息化武装不可或缺的重要装备。然而, 怎样通过有效的方式把其与图书馆自动化管理系统有机的结合起来, 从而最大可能的挖掘其潜在的价值, 则又成为我们图书馆人永恒的话题。

当前, 在各类图书馆管理系统中大多采用B/S或者C/S模式, 怎样通过有效的方式实现自动化管理系统和电话语音平台通信, 又通过怎样的一种方式来实现两者之间海量的数据交换?针对上述问题我们做了一些探究。

下面, 笔者单就当前在图书界广泛使用的自动化管理平台interlib和基于北京华胜声望提供的模拟语音卡开发的电话语音平台来阐述其实现的途径。

1 interlib自动化管理系统和电话语音系统之间的通信

Interlib是新一代的图书馆自动化软件, 采用开放的多层结构体系, 基于Internet的B/S模式多层体系结构, 而基于北京华胜声望提供的模拟语音卡开发的电话语音平台是用c++实现的C/S体系架构, 在实施的过程中我们发现, 如果我们在interlib自动化过系统中抽象出一个对外访问的接口, 接口程序与Interlib业务系统之间通信的领域统一采用http (TCP/IP) 请求模式, 并对其请求格式规范化统一化, 当电话语音平台向interlib业务系统发出请求时, interlib业务系统通过自身的验证机制进行身份认证, 认证通过后, 做出相关响应, 并通过一定方式来组织信息输出, 反馈给电话语音系统。

如:

http://%s:%s/interlib/common/phone Service?cmd ACT=query&reader=%s&select=%s, m_s Server, m_s Port, cardno, select

select:

查询借书

如你的interlib服务器ip为192.168.0.110, web容器的端口号 (如tomcat) 为8080, 读者正号reader为41105128, 则请求格式为:

2 interlib与电话语音系统信息交换的实现

现阶段图书馆电话服务的方式有很多, 服务内容主要可分为电话续借服务和电话咨询服务两大类型。

2.1 电话续借

电话续借不仅是传统续借方式的补充, 而且越来越占据图书续借的主导地位。以广州图创语音电话续借系统为例, 开展的电话续借服务主要有以下5种功能:

2.1.1 更改密码

为防止读者所使用的借阅卡被人盗用, 可对原先电脑自动默认的最后4位密码进行更新, 增强读者密码的保密性。

2.1.2 图书续借功能

读者对所续借的图书可以有两种选择: (1) 续借所有图书; (2) 续借特定图书, 在实际操作时, 语音续借系统会提示所借图书的书名和还书日期, 告之续借成功, 或提示这本书已超过续借次数不能续借。

2.1.3 查询功能

读者可通过电话查询所借图书的书名及还书日期。

2.1.4 挂失功能

如读者借阅卡不慎丢失或被人盗用, 可通过该功能进行挂失, 防止被人冒用, 避免损失。

2.1.5 到期催还功能等

2.2 人工咨询

人工咨询功能的实现, 所表现的状态又因不同读者的不同操作不同而不同, 换句话说, 不同读者不同的操作, 系统返回的信息是不同的, 杂乱无章的, 所以, 如何通过一种有效的方式来组织两者之间的信息交换, 则显得至关重要。

Xml作为一种自定义标记语音, 代表Extensible Markup Language (e Xtensible Markup Language的缩写, 意为可扩展的标记语言) 。是一套定义语义标记的规则, 这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言, 即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。用户可以根据自己的需要来灵活的定义自己所需要的数据标签, 从而有效的组织数据输出。所以选择xml来作为两者之间信息交流的载体是不二之选。

Xml具有以下几种优势:

*数据是自说明的

*数据可用标准工具加以处理

*数据可用标准工具查看

*用样式单可容易地生成同样数据的不同视图

XML数据是自描述的。每个数字的意义是清楚的

如:

电话语音系统通过如下标准http请求, 向interlib业务系统发出读者预约查询请求, interlib通过身份确认后, 将通过xml组装数据输出。

查询预约

如你的interlib服务器ip为192.168.0.110, web容器的端口号 (如tomcat) 为8080, 读者正号reader为41105128, 则请求格式为:

返回结果:

其中元素reg表示预约登记状态的结果集。DIS表示已经分配的结果集。这样杂乱无章的数据, 通过xml有效的组装显得极为简单而直观。

语音电话 篇2

电话祝福网是国内首家语音祝福网站,致力于打造全球最高品质语音服务平台。网站本着为消费者说出心里话的宗旨,聘请专业的播音老师和优秀的技术人员,组建了强有力的音频制作团队。其深情打造出的高品质语音祝福产品,感动了千千万万的中国消费者。消费者可以根据自己不同的需要,自由选择或量身定制适合自己心意的祝福语音,以电话传达的方式送给亲朋好友。

网站理念

把平淡的关怀转化为动听的问候,把无言的情感转化成为有声的祝福。用热诚的服务,为消费者提供最优质的语音祝福产品,传达最真心的祝福,传播最具时尚、创意和实用的祝福文化。

网站简介

目前网站划分为八大板块:亲情祝福、友情祝福、爱情祝福、生日祝福、节日祝福、贺词祝福、日常祝福、致歉妙语。囊括了生活中的层层面面,使有任何需求的消费者都能在此找到自己想要说的话。

此网站推出后,在很短的时间内,此类语音祝福产品已经深入人心,赢得了众多消费者的一致好评,覆盖的消费者人群以超乎想象的速度向外扩张。

语音祝福类别

亲情祝福:你难道已经忘记了远方的父母和兄弟姐妹?如果没有,那为什么不祝福他们?

友情祝福:朋友一生一起走,那些日子不再有,一句话一辈子,一生情一杯酒。很多时候,朋友很需要你的祝福。

爱情祝福:如果连这世上最美妙的情感都不去思念和祝福的话,那我们的生活中还剩下些什么?

生日祝福:虽然一个人每年只能过一次,但我们身边还有很多的亲朋好友,他们每个人每年也要过一次。不去祝福他们,你还在等什么?

节日祝福:一起庆祝的时候,不要忘记了,给在身边或者是不在身边的亲朋好友一个美丽的节日问候。

贺词祝福:朋友结婚的时候,你想说点什么?朋友得子的时候,你又想说点什么?朋友开业、乔迁、升职的时候,我们是不是都得说点什么?最好听的祝福!

日常祝福:周末的时候你想起朋友们了吗?想不想在早上起床的时候给他们一个惊喜?想不想在他们吃饭的时候讲一个笑话让他们喷饭?如果想,你就可以!

语音电话 篇3

语音电话模拟接口即用户接口电路SLIC, 是连接普通模拟话机和各种数字交换网络的一个终端模块, 模拟电话拨打和接收网络话音, 必须通过SLIC才能进行。本文介绍一种基于AVR单片机ATmega16的语音电话的模拟接口电路, 它可以用于数字交换网络, IP电话, 也可用于居民小区, 企业, 家庭等公共通信网络终端。

(二) 硬件设计

1. 组成框图

接口部分电路使用AVR单片机作为主控芯片实现对用户模拟电话送各种信号音, 检测用户摘挂机, DTMF接收和发送拨号号码等控制功能。通过语音处理模块实现对模拟数据的PCM编解码, SLIC模块实现程控用户电路的BORSCHT七大功能, 通过FPGA实现语音数据的通信以及与外网的连接。

(1) 各模块功能介绍。1) SLIC模块。SLIC模块采用爱立信公司的PBL38710芯片, 此用户接口电路芯片不仅能支持多种振铃信号, 而且电路中省去了振铃继电器、铃流发生器等许多传统器件, 可大大节省PCB布线空间, 降低设计成本, 并且控制使用也很方便。其中TIRX和RINGX引脚与OVP和模拟电话相连接, OVP实现过压保护功能。2) DTMF及正弦波发生器。DTMF收发电路, 采用集发送、接收于一体的MT8880芯片, 正弦波发生器采用DAC0832作为A/D转换芯片, 由FPGA产生25Hz和450Hz的正弦波信号, 通过VR引脚为SLIC提供铃流信号和各种信号音。3) 语音处理模块。采用MC145480编译码滤波器, 可将音频信号进行PCM处理, 也具有管理传送和接收PCM数据的功能。其中MIC和SPEAK端口可用作系统测试。4) 控制模块。使用AVR单片机ATmega16作为电路主控芯片, 是整个系统的控制核心, 它与FPGA之间采用串行外设接口SPI实现高速同步数据传输, 语音数据经FPGA发送到网络中。

(三) 软件设计

1. 软件流程图

软件流程图如图所示, AVR控制FPGA启动相应的模块, 因为本设计的模块较多, 因此在FPGA内部使用译码器, 便于单片机对各个模块的控制, 第一可以减少通信所用的I/O口数 (单片机的I/O口有时候可能会成为稀缺资源) ;第二可以减少出错的可能性 (译码器的输出在任意时刻只有一个为低电平) ;

2. 工作过程

(1) 去话过程。1) 用户摘机:主叫用户摘机后, 用户接口电路SLIC输出给微处理器终端信号, 从而引起微处理器中断, 主控电路通过用户接口电路检测到电话机摘机。2) 送拨号音:微处理器接到SLIC终端信号后, 发生中断。而后, 主控电路控制信号音电路送出拨号音。3) 拨号:当主叫听到拨号音后就可以进行拨号。拨号模拟信号经SLIC输出给DTMF, DTMF将其变成二进制的8421码送给主控电路, 主控电路开始检测主叫用户的DTMF拨号。收到主叫用户的DTMF后, 主控电路停送拨号音。如果主叫号码符合要求, 主控电路通过语音通信信令进行下一步处理。4) 送回铃音:收完号码后, 主控电路控制FPGA向节点内/外的号码呼叫, 若被叫忙, 则语音通信信令通知微处理器, 微处理器执行送忙音子程序, 将忙音PCM码进行处理后变成模拟信号输出给话机, 使之发出忙音, 提示主叫被叫忙。如果被叫空闲, 则语音通信信令通知微处理器, 微处理器就执行送回铃音子程序, 将回铃音输出给话机, 主叫用户将听到回铃音, 以提醒主叫被叫话机响铃。5) 通话:当被叫摘机后, 微处理器就停送回铃音, 此时主叫被叫双方开始通话。通话过程如下:当只使用某一个话机时, 主叫的话音信号经SLIC送给音频处理电路, 音频处理电路在对话音信号进行A/D变换等处理后将话音信号转换成PCM码, 在帧同步和位同步作用下, 发送给节点语音子板进行处理;同样, 被叫话音信息PCM码则通过接受数据线被音频处理电路接收, 并进行D/A变换等处理, 输出模拟信号由SLIC处理后送给主叫, 从而完成主叫与被叫的通话。6) 话终复原:通话完毕, 如果主控电路检测到主叫用户先挂机, 则向节点发出挂机命令, 通话结束。如果主控电路检测到被叫用户先挂机, 则微处理器向主叫用户发送忙音, 从而使主叫听到忙音, 并通过用户接口电路SLIC监测主叫挂机, 通话结束。

(2) 来话过程。1) 话机振铃:当话机作为被叫时, 先由微处理器对SLIC进行控制和检测。若检测到来自节点的振铃信号RING后, 就通过信号音产生电路产生铃流信号, 使本端话机产生振铃。2) 当用户摘机, 微处理器产生中断, 微处理器执行中断子程序, 停送铃流, 使之进入通话状态。3) 双方通话结束的处理同上面的去话过程。

3. AVR的SPI串行通信

AVR单片机与FPGA传输命令字和少量数据时, 采用串行外设接口SPI, 它允许ATmega16和外设或其他AVR器件进行高速的同步数据传输。当单片机向FPGA传送参数时, 用到MOSI, MISO和SS三条线。

在SPI的4种模式中, 只用一种, 即SPI0 (时序图中CPHA=0, CPOL=0部分) :将片选端SS拉低, 然后在每个时钟上升沿 (SCK) 送出数据。接收端可以采用串入并出的移位寄存器。将片选端信号SS与移位寄存器的使能端 (En) 相连 (如果En为高使能, 要接反相器) , MOSI和串行数据输入端 (SI) 相连, SCK和CLK相连。在SS信号置低电平后, 移位寄存器开始工作, 每个时钟上升沿将接收到的数据位左移一位, 等全部接收好了以后, 将SS置为高电平, 移位寄存器工作结束, 输出的即为所需要的命令字或参数。

移位时, 移位寄存器总是有输出, 即命令字或参数不断变化, 这是不符合要求的, 加了D触发器的作用, 就是在数据全部传输完毕后, SS信号拉高的瞬间, 改变输出的命令字或参数。

꣑猈片选信号SS可以由单片机的任一空闲I/O来充当, 在传输结束以前, 需要初始化SPI, 初始化的条件为:SPCR= ( (1<

(四) 结论

本模块在单终端情况下的测试是成功的, 在实验中, 通过RJ11接口和普通电话机相连, 振铃, 摘挂机正常, 语音质量良好, 完全可以应用于用于数字交换网络, IP电话等公共通信网络终端。

参考文献

[1]黄任.AVR单片机与CPLD/FPGA综合应用入门[M].北京航空航天大学出版社, 2004:127-136.

[2]张军.AVR单片机应用系统典型实例[M].中国电力出版社, 2005:89-96.

[3]叶敏.程控数字交换与现代通信网[M].北京:北京邮电大学出版社, 1998:156-157.

[4]吴继华.ALtera FPGA/CPLD设计 (初级篇) [M].北京:人民邮电出版社, 2005:18-19.

语音电话 篇4

摘要:介绍多媒体网关中模拟电话语音卡的软硬件设计。一个基于TMS320VC5402处理器、AM79(SLIC)用户线路接口芯片和AM79Q02(SLAC)用户音频处理芯片及PCI9052 PCI桥接芯片的模拟电话语音卡的设计。

关键词:多媒体网关 模拟电话语音卡 DSP PCI总线

目前,热点的CTI(计算机电话集成)应用有媒体网关、IP电话、IP传真等。软交换有时又称为呼叫服务器或媒体网关控制器。软交换的基本概念是把呼叫控制功能从传输层(媒体网关)中分离出来。通过服务器上的软件实现基本呼叫控制功能,如呼叫选路、管理控制、信令互通。由于把呼叫控制与呼叫传输分离开来,为控制、交换和软件可编程功能建立分离的平面,使业务提供者可以方便地将传输业务与控制协议结合起来,实现业务转移。

电话语音卡是构筑各种CTI应用系统的基础,它是一种用于电脑并能够实现语音处理电脑插件。电话语音卡(简称语音卡)的主要功能是:通过计算机与电信网相连,提供拨号、振铃检测与控制摘挂机、信令检测、转接内线、监控录音、传真、数据传输、主叫号侦测等服务功能。作为实现语音处理的功能部件,语音卡一般都有与电话网的接口。与电话网不同的接口类型,可分为模拟语音卡和数字语音卡。

(本网网收集整理)

以下将介绍一个基于TMS320VC5402处理器(简称DSP5402)、AM79R79(SLIC)用户线路接口芯片和AM79Q02(SLAC)用户音频处理芯片及PCI9052 PCI桥接芯片所构成的模拟电话语音卡设计。

1 系统总体方案

在设计中,电话语音卡实现了16路话音的连续控制和成帧功能。系统通过PCI总线与DSP5402交互,对单板进行维护和管理;语音业务通过TDM(时分多路复用)总线连接;单板内部则由DSP5402完成对语音的连接控制和成帧功能。总体设计框图如图1所示。

2 硬件电路的设计

2.1 DSP5402简介

DSP5402是TI公司的54x系列16bit定点DSP,具有低功耗、高性价比的特点。具体特点如下:扩展地址模式最大可址到1M×16bit外部程序空间,4K×16bit片上ROM,16K×16bit片上双口RAM;指令集支持单指令循环和块循环,存储块移动指令提供高效的程序和数据存储器管理;片上硬件资源包括软件可编程等待状态发生器和可编程存储单元转换,连接内部振荡器或外部时钟源的锁相环(PLL)时钟发生器,两个多通道缓冲串口(McBPs),增强型8bit并行主机接口(HPI8),两个16bit定时器,6通道直接存储器访问(DMA)控制器;工作电源有3.3V和1.8V(内核);在3.3V供电(1.8V核心电压)下单周期定点指令的执行周期可达10ns(100MIPS)。

设计中DSP5402一方面通过PCI总线完成与主机的通信、数据交换,另一方面完成对语音的接续与成帧功能的控制,以及信号和信令处理功能。

因此DSP5402外围设计分两部分:

(1)DSP5402与PCI9052的硬件接口

完成DSP5402的HPI总线与PCI9052 LOCAL本地总线连接,主机从而可以通过PCI总线与DSP5402进行通信。首先通过HPI对DSP5402进行程序加载并启动,然后完成对语音板的监控操作。

当DSP5402与主机(HOST)交换信息时,HPI是主机的一个外围设备。它有如下特点:可访问所有片内RAM空间、HOST访问总是与DSP5402时钟同步、HOST和DSP5402均可访问片内RAM。

PLX公司的PCI总线控制芯片PCI9052完成PCI总线高速信号与LOCAL侧本地设备资源的信息交互。它提供了本地总线与PCI总线的接口,避免用户直接面对复杂的PCI总线协议,提供高性能的从目标PCI接口板卡与PCI总线的连接;支持宽速率范围的本地总线,最高可达132 Mbps的传输速率;对PCI9052编程可实现复用/非复用的8位、16位、32位的本地总线接口。

设计中PCI9052本地总线采用非复用8位模式与HPI8总线匹配,CPLD完成PCI本地总线与DSP5402的HPI总线互连,如图2所示。其中具体信号定义如下:PCI本地侧地址信号(LA27、LA0、LA[1:2]),配合PCI本地侧读写信号LW/R#、地址使使能信号ADS#及BLAST传输模式使能信号编码生有心HPI控制信号(如片选信号HCS#、数据字高低字节选择信号HBIL、功能寄存器选择信号HCNTL[0:1]及读写信号HR

D#、HWR#);HPI准备就绪信号HRDY产生PCI本地侧就绪信号READY#,可根据需要插入等待周期,达到实际时序要求;HPI中断信号HINT#触发PCI本地中断信号LINT#;HPI数据总线HD[0:7]通过CPLD电平匹配与PCI本地侧数据总线LD[0:7]连接。

(2)DSP5402与AM79Q02(SLAC)的硬件接口

选用AMD公司SLIC用户线路接口芯片AM79R79(简称SLIC)实现电话的接续各状态的转换,监视电话线的负载变化,实现摘机检测、馈电供给及振铃传送;与其实现无缝接口的SLAC用户音频处理芯片AM79Q02(简称SLIC)实现电话的连续各状态的转换,监视电话线的负载变化,实现摘机检测、馈电供给及振铃传送;与其实现无缝接口的SLAC用户音频处理芯片AM79Q02(简称SLAC)实现语音的A/D转换,并成帧到PCM码流中。SLAC)实现话音的A/D转换,并成帧到PCM码流中。SLAC提供的SPI MCU总线接口简化了与MCU的硬线连接,并且SLAC(提供完全的SLIC的控制总线)与SLIC可实现无缝连接,因此对SLIC的控制可完全简化为直接控制SLAC来间接完成,简化了硬件电路的设计,节省了用户的开发成本。

SPI接口包括时钟DCLK、片选CS及数据线DI/O,而没有读写方向控制线,对读写方向的控制则通过写单字节的读写命令字的bit0完成;读写命令字的bit7-bit1包含控制寄存器的地址信息,这样就可以完成对SLAC的寄存器操作。

另外,设计SLAC的SPI接口时序需特别注意:每次读写操作CS低使能有效至少维持8个DCLK周期,即完成一个字节的读写操作;当CS低使能有效少手8个DCLK周期时,则该读写忽略;当CS低使能有效地8~15个DCLK周期,则取倒数的8个DCLK周期为有效读写周期;当CS低使能有效大于15个DCLK周期,则会引起硬件复位。

图3是SLAC的MCU接口SPI总线时序图。

DSP5402有两个通道缓冲串口(McBPs),McBPs有多种配置模式,可根据需要配置成高速主从SPI接品,考虑到以后功能扩展需要,设计中保留了McBPs;采取由软件读写通用I/O,模拟SPI时序并配合CPLD实现SPI接口,从而完成DSP5402与SLAC的硬件接口,并实现DSP5402对SLAC/SLIC单元的状态监视与控制。

2.2 PCI9052

PCI9052是PLX公司推出的.一种PCI总线从设备接口芯片。它提供了方便的本地总线与PCI总线的接口。避免用户直接面对复杂的PCI总线协议。

2.3 AM79Q02与AM90R79

选用AMD公司SLIC/SLAC用户线路接口与音频处理、成帧电路。SLIC实现电话的接续各状态的转换,监视电话线的负载变化,实现摘机检测、馈电供给及振铃传送的功能;而SLAC实现话音的A/D转换,并成帧到8Mbps的PCM码流中。它还有如下特点:软配置SLIC输入阻抗、收发增益、回路损耗等线路参数;A/μ率编码或线性编码可选;PCM码流时隙再分配;单双8Mbps的PCM通道可选;支持四路SLIC控制与语音处理,缩小了电路板的尺寸、降低了成本;其中内部环回、音频发生电路,方便了电路的故障诊断与测试。

SLAC用户线路音频处理电路,如图4所示。

另外SLAC与MCU通信提供SPI接口,简化了与MCU的硬件连接;而且SLAC与SLIC无缝连接的SLIC控制与音频接口,因此直接控制SLAC以间接完成对SLIC的控制,简化了硬件电路和软件编程。

3 软件设计

软件设计分为如下两部分:目标板内驱动程序设计与主机程序设计(其中包括PCI驱动程序及主机应用程序开发)。

3.1 目标板内驱动程序设计

目标板内驱动程序可根据功能模块划分:系统自检、测试模块;SLAC/SLIC的控制模块,实现包括线路激活、振铃、待机和新线状态,摘挂机检测及检测门限可编程;与主机通信模块,实现主机对目标板的实时监控。

3.2 主机程序设计

这里将主机程序设计分为PCI驱动程序开发和主机应用程序开发两部分。

PCI驱动程序使用Jungo公司的驱动程序生成软件KernelDriver,使用十分方便。利用KernelDriver中的驱动程序生成向导,根据需要生成驱动程序代码;在MS-VC++编译环境编译刚刚生成的驱动CPP代码,调试没问题了,PCI驱动程序开发也就完成了。

主机应用程序则是在PCI驱动程序之上,调用相关的API函数对PCI设备进行操作,完成主机对目标板的程序加载及对其状态进行实时监控操作。

语音电话 篇5

1 骚扰电话自动拨测系统构建

通过新增1套骚扰电话拨测识别系统, 实现骚扰电话的自动拨测、识别、录音和取证功能。该系统与现有骚扰电话治理各系统间的关系如图1所示。

该系统通过文件接口从骚扰电话识别系统采集需要拨测的号码清单, 对号码进行拨测、录音、语音识别, 拨测结果输出到拦截系统和客服系统进行后续处理。通过骚扰电话自动拨测识别系统代替客服的人工拨测和审核, 提升骚扰电话人工审核的效率和准确度, 提高骚扰电话治理效果。

1.1 骚扰电话拨测系统处理流程

骚扰电话拨测系统的处理流程见图2。

骚扰电话自动拨测识别系统的业务流程主要分为4步, 分别是:待拨测号码的采集分析、对号码进行拨打呼叫、对骚扰电话的识别和判断、结果输出。

1.2 拨测系统构建

拨测录音模块设计了2个方案供选择:测试卡方案或模拟主叫号码方案。测试卡方案:利用自动拨测系统的拨测仪进行拨打。模拟主叫号码方案:利用自动拨测系统, 采用PBX (专用小交换机) 拨测设备进行拨打。

1.2.1 方案一测试卡方案

为满足多张本省和外省测试卡在拨测仪上进行测试, 设计采用自动拨测系统上已配备的SUM (服务器集中监控管理) 设备集中插放SIM (用户识别模块) 卡, 通过远程调用的方式实现SIM卡自动切换拨测, 以达到测试的目的。系统构架图见图3。

1.2.2 方案二模拟主叫号码方案

在现有自动拨测系统基础上, 使用PBX中继拨测仪实现自动拨测与录音功能, 以达到测试的目的。保持现网自动拨测系统网络结构不变, 新增的专业拨测仪采用IP方式接入, 接受自动拨测系统管理。组成拓扑见图4。

本方案中新增1台 (PBX) 中继拨测仪, 通过TCP/IP (传输控制协议/网际协议) 方式接入自动拨测系统, 接受CMS (内容管理系统) 的管理和维护。中继拨测设备通过E1中继专线方式连接汇接局或MSC (移动交换中心) 、且与STP (信令转接点) 间开链路。使中继拨测仪成为移动MSC下的一个专用PBX用户端局。通过汇接局或MSC可以实现与MSC、GMSC (网关移动交换中心) 以及其他运营商网络的用户通信。为专用的E1 (2.048Mb/s数字同步传输) 中继电路配置专用OPC (源信令点编码) , 并设置为免费, 解决计费问题。

2 自动识别算法

为了提高骚扰电话拨测系统的识别准确率, 降低骚扰电话误识别率, 我们采用了多种组合算法进行骚扰电话的识别。具体的算法说明如下。

1) 先进行较小文件过滤。通过对骚扰电话的录音分析, 发现骚扰电话都有较长的通话时长 (约30~100 s) , 录音文件也都比较大 (起码大于800 KB) 。因此先将一部分较小的文件过滤掉 (都是关机、停机、暂时无法接通等) , 这些小文件的几乎都可以确定都是非骚扰电话。获得较小文件大小的经验值为450 KB, 小于450 KB的认为是非骚扰电话。

2) 骚扰电话号码识别库过滤。骚扰电话号码识别库可以通过历史的自动拨测系统平台全国共享, 避免同一个号码重复识别, 节约系统资源, 提高骚扰电话的判断效率和准确性。

3) PESQ (语音质量的感觉评定) 过滤 (过滤掉长时间的振铃、无人接听和来电提醒等) 。参考文件为常见的非骚扰电话, score (ITU-T P.862) speech分数大于2, 认为评估文件是非骚扰电话。

PESQ语音评估软件其本质就是一个相似度比对系统, 原理是把无法自动判断的录音文件, 比如怪异的接听应答音, 先通过人为判定是否是骚扰电话, 然后设取比对值, 作为一个文件蓝本库保存。当下次拨测产生与之相似度高的录音文件时, 自动判断成蓝本库所属内容, 确定是不是骚扰电话。因此, 随着不断的开展拨测工作, 样本库文件会不断的丰富, 最终的识别率也会不断提高。

4) 语音识别。使用一系列常见的骚扰电话关键字进行识别, 同时对正常带彩铃的号码进行识别。语音识别系统其本质是一套通过对录音文件中的关键字匹配来确认是否是骚扰电话的系统。关键字如“公证处”“抽奖”“中奖”“奖金”等, 其内容库可以通过语音训练不断丰富, 以提高最终的识别率。

语音识别软件采用定制的Inter Reco语音识别系统, 是一款与说话人无关的语音识别系统, 能够完成电话应用环境下的语音识别功能。定制的语音识别系统采用了ASR (自动语音识别) 技术。它是一种使计算机能够识别人通过麦克风或者电话输入的词语或语句的技术。简单地说, 就是能够让计算机听懂人说话。它的最终目标是使得计算机在不受词汇量限制, 在各种噪声环境、语音信道下, 能够实时、准确地识别不同方言、口音等特点的说话人的语句。包含了骚扰电话特征词, 如:中奖、公证处、赌博、六合彩等。

由语音识别模块对经过“骚扰电话号码库”过滤的录音文件进行自动识别, 判断出具有骚扰电话特征的录音文件, 并判断为骚扰电话, 随录音文件一起送至输出接口模块。语音识别中不符合骚扰电话特征的录音文件继续转交下一步处理。

5) PESQ语音再评估 (语音识别的识别率只有70%~80%, 还有20%~30%的疑似骚扰电话没有被识别出来) 。我们对这些没有被识别出来的20%~30%的疑似骚扰电话进行PESQ语音评估, 目的是提高被降低的语音识别漏判率。

3 应用情况

3.1 试点情况

骚扰电话拨测系统于2013年3月底完成平台的搭建, 实现了对骚扰电话的拨测测试。拨测系统初期对江苏移动提供过的三批共计2 758个骚扰电话样本做了识别判断, 具体测试情况见表1。

采用基于语音识别的骚扰电话拨测系统对1 000个号码进行拨测和识别, 需要的时间约为20 min, 存储空间约为12 GB, 大大提升了骚扰电话的人工审核效率。同时, 对于无法确认的号码输出拨测录音, 供客服人员人工判断, 有效解决了部分号码无法通过系统进行识别的问题。

我们把完成1~5项步骤的判断机制定义为“模式一”, 把仅完成1~3项步骤的判断机制定义为“模式二”。模式一是对模式二识别出来的疑似骚扰电话号码再进行一次语音识别和PESQ再评估, 目的是降低误判率, 而语音识别和PESQ再评估没有100%地将骚扰电话识别出来, 因此, 漏判率增加了。

模式二的思路是排除非骚扰电话, 剩下的认为是骚扰电话;模式一的思路是排除非骚扰电话, 剩下的进行语音识别和PESQ再评估, 识别出来的是骚扰电话, 没有识别出来的是非骚扰电话。因此, 模式一比模式二误判率低, 漏判率高。

在实际使用中, 可能还会存在正常带彩铃的录音文件, 这个必须要借助语音识别系统来判断, 所以说必须要用模式一的判断机制来进行拨测。当然模式二的测试结果给了我们一些参考, 比如在测试当中发现和论证了这样一个问题:模式一比模式二误判率低, 漏判率高。如果不使用语音识别软件 (即模式二) , 漏判率反倒有明显的降低。结合上述三批测试, 模式二测试情况见表2。

经过反复比对和论证, 查明的原因是:第三方的语音识别软件本身也存在一定的不足, 语音识别率只有70%~80%, 即使我们已经通过PESQ语音评估进行补漏, 也不能达到100%的识别率, 会漏掉很多的骚扰电话, 只能不断来优化完善它, 后续需不断进行改进。

3.2 试点结论

从理论上分析, 使用语音识别后可以减少误判的发生, 随着语音识别软件的日益完善, 这方面的效果会越来越得到体现。本着尽可能减低骚扰电话误判率 (为此可以牺牲部分的漏判) 的原则, 体现真实的判断效果, 且正确判断正常带彩铃的号码, 建议继续使用语音识别系统, 即模式一这样的全程判断机制来做骚扰电话拨测。

4 其他应用领域

语音电话 篇6

1 电话语音信号数字化模块硬件实现

1.1 电话语音信号数字化模块整体架构

电话语音信号数字化模块需要从语音信号中分离出拨号信息、语音信息等, 并且对语音信号进行压缩处理, 因此可以将其分为电话接口模块、音频编解码模块、控制和数据处理模块。原理框图如图1所示。

其中电话接口模块包括SI3201和SI3210;音频编解码模块包括AMBE-2000TM;控制和数据处理模块包括EPM1270、LPC952和SP3232EEA。

1.2 电话接口模块

电话接口模块由SI3210与SI3201组成, SI3210与SI3201是Silicon Laboratories公司设计的SILC芯片和线路接口芯片, 这两个芯片一般联合起来使用, 其硬件连接原理电路如图2所示, 在这一部分主要功能是将电话语音信号由模拟信号转换成数字信号。

1.3 音频编解码模块

音频编解码模块是由AMBE-2000TM来实现。AMBE-2000TM是美国DVSI公司设计的一款高性能、低功耗、可变速率的单片实时全双工语音压缩解压芯片。该芯片采用改进的多带激励 (AMBE) 算法。其主要特点如下:

(1) 具有高品质的语音质量;

(2) 压缩数据率可在2kbps-9.6kbps范围内用软件调节;

(3) 纠错率范围为50bps-7.2kbps;

(4) 具有VAD (语音激活检测) /CNI (插人舒适噪声) 功能;

(5) 具有DTMF信号检测和产生功能;

(6) 电源电压+3.3V。

AMBE-2000TM编码的数据格式分为两种:有帧格式和无帧格式。本设计采用有帧格式。有帧格式情况下, AMBE2000大约每20ms生成一个压缩数据包, 这个数据包共由24个字组成;数据包生成后, 其EPR管脚会输出一个短的负脉冲指示, 依此来决定对数据包的处理。数据包的具体构成如下。

格式字0:固定为0xl3EC, 为数据包的头;

格式字1:高8位用于芯片功率控制, 0x00表示正常工作模式;0x55表示低功耗模式。低8位的位功能 (高有效) 如表1所列。

此时可以检测最低位来判断是否有DTMF信号, 如果有, 可以从格式字10得出DTMF值;

格式字2~6:用于指定和表示芯片的压缩数据率;

格式字7:该位在输入数据包中不用, 而在输出数据包中表示误码率;

格式字8、9:不用;

格式字10:高8位用于控制和表示DTMF信号的幅度, 范围从3~60dBm低8位用于控制和检测DTMF信号。

格式字11:高8位用于解码器音量控制;低8位的功能如表2所列。

格式字12~23:压缩数据信息。

1.4 控制和数据处理模块

数据处理模块主要由EPM1270、LPC952和SP3232EEA构成。其中EPM1270是Altera公司生产的CPLD芯片主要用来实现各芯片的逻辑控制, LPC952是飞利浦公司生产的单片机芯片用来实现编码后的数据包重新打包和数据处理, SP3232EE是TTL电平转RS232电平的电平转换芯片。

2 程序设计

2.1 CPLD内程序设计

CPLD内程序使用Verilog HDL语言来实现, 可以划分为以下两个主要功能模块:

(1) PCM接口时序控制:该模块主要用来对SI3210和AMBE-2000TM的PCM接口时序进行控制, 以便让SI3210和AMBE-2000TM的PCM接口进行数据交换, SI3210 PCM接口发送数据时序如图3所示, AMBE-2000TM PCM接口发送数据时序如图4所示。其中CLK是时钟信号, 设置为2.048MHz;FSYNC、CODE_RX_STRB和CODE_TX_STRB是帧同步信号, 其周期为8KHz。

(2) 主机数据接口时序控制:该模块主要用来控制LPC952和AMBE-2000TM进行数据交换。图5所示为LPC952和AMBE-2000TM进行数据交换的一个周期, 其中CHAN_TX_DATA发送上一周期所存储的P5值。

2.2 MCU程序设计

MCU内程序使用C语言来实现。主要有以下几个功能模块。

(1) SI3210初始化:SI3210初始化是通过SPI将预设值写入控制寄存器。在写寄存器时, SPI输入的第一个字节是目标寄存器地址, 第二个才是需写入的值;

(2) AMBE-2000TM初始化:AMBE-2000TM初始化是通过复位后芯片输入的第一个数据帧来实现;

(3) 数据包处理:当有数据从电话端传来时, 首先判断第一个字是否为0x13EC, 如果不是将重置;如果是那么将再连续接收23个字, 然后按照表3所示将数据重新打包再从串口发出;当有数据从通信网络端传来时, 首先判断第一个字是否为0x13EC, 如果不是将重置;如果是, 那么将再连续接收13个字, 然后按照表3所示并将空缺的字节全部填0把数据重新打包发给CPLD。

3 结语

当前社会对数字语音通信的要求越来越高, 通过本文所介绍的AMBE2000和SI3210所构成的电话语音信号数字化模块, 可以在PSTN、GSM等系统平台上实现语音信号的加密、存储、回放等功能。

摘要:通过介绍实现电话语音信号数字化模块的设计方法, 详细说明了AMBE-2000的编码后的数据包格式, 同时也阐述了芯片的工作原理和应用方法, 并对SI3210的工作原理及应用方式做了简单的介绍。

关键词:SI3210,AMBE-2000,语音信号数字化,电话接口

参考文献

[1]姚雷波, 张燕.基于AMBE2000的多通道数字语音记录仪[J].电声技术, 2007 (11)

[2]邢建泉.新型语音压缩编解码器AMBE2000[J].国外电子元器, 2003 (11)

[3]陈寿才, 陶炎焱.基于AMBE2000TM的高质量语音通信系统[J].山西电子技术, 2006 (6)

[4]赵中.基于AMBE2000的语音通信模块[J].电子元器件应用, 2006 (5)

语音电话 篇7

关键词:电话语音监控,说话人识别,维吾尔语,GMM-UBM,SVM

0引言

有声语言是人类最直接和最有效的交际工具。因此我们可以使计算机成功和有效地利用有声语言的交际功能,让计算机了解其中的认知和理解过程。

据科学家分析,人类说话的声音能够表现出一个人的生理、情绪、感情、健康程度、受教育状况、居住以及所处的社会环境等许多关联的物理现象,且跟一个人的遗传因子(DNA)有密切关系。为此在科学上常用声音的声学参数来标记、观察、辨别一个人的生理特征及身份。这种技术一般叫做声纹技术,目前应用很广泛[1,2,3]。

语音是信息最重要的载体。随着手机、互联网等方便好用的通讯产业的高速发展,利用电话-互联网等通讯手段的犯罪时有发生,且有逐年上升的趋势。比方说电话诈骗,通过电话、网络终端的非法交易,利用电话的政治煽动事件(如乌鲁木齐7.5事件)等都是通过语音信息载体以隐藏的方式作案,直接危害公共安全以及人民群众正常的生活和工作。因此语音监控技术在国家,地区及公共安全领域有着重大的应用价值。

目前像说话人自动辨认ASI(Automatic Speaker Identification)等应用系统主要依据于语音中所包含的说话人特定的信息来自动辨认/识别一个人的身份。这种技术作为生物认证技术在国内外安全要害部门的出入注册、侦听嫌疑人通话、出入境管理及敏感内容的监控等方面已得到了广泛的应用,需求较大。

语音监控技术或者说话人识别技术,近年来一直是计算机通信领域的热门研究课题。由于 HMM(Haddin marcov Model) 对含噪音的语音信号有较强的鲁棒性,因此在说话人识别得到广泛的引用,如在文献[4,5,6,7]中通过连续语音CHMM (Continuous HMM) 的方法实现了较好的识别结果。但由于HMM对上下文无关时间序列的建模能力有限(需要自动转写内容),因此,近来大多数说话人识别的研究均采用一个状态GMM法, 即高斯混合分布模型法。

在实现一个基于海量数据的监控任务的说话人识别系统时,不仅要考虑电话话筒、周围环境等一些附加噪音因素,且还要面临被监控对象的发话时间短、变化多等复杂的实际问题。因此在这种场合单用GMM法就不能保证应用系统的精度及可靠性[8]。

支持向量SVM法,对于小量静态数据有较强的分类能力,近来在语音处理技术中应用广泛。有不少研究证明通过SVM法可以在语音信号的分类上获取较高的分类效果[9]。

面向实际应用说话人识别系统,本文研究讨论了如何有效地发挥GMM及SVM这两种方法的优势实现应用系统的方式方法。除此之外,为了得到当前测试语音是否来自目标人注册模型所对应的说话人,本系统进一步研讨了基于通用背景声纹模型UBM(Universal background Model,由多人混合训练获得模型适应目标人模型)的识别方法,即基于GMM-UBM及SVM方式的电话语音监控系统。

1语音信号传输特性

说话人识别系统的性能受很多因素的影响,如:环境、受话机、录音和信道条件、说话人自身特征(如:方言、说话方式、情绪等)以及语种。图1表示信道特性构造。传输到受话筒的语音是包含多种附加噪音的混合信号。

假设无杂音语音信号表示为SDi(ω;n),电话线路传输特性为H(ω),传输到受话话筒的语音信号Oi(ω;n)的表示形式为式(1):

Oi(ω;n)=SDi(ω;nH(ω) (1)

在式(1)中ω表示信号传输频率,n为特征量序列号,而i为说话人数。可见由于H(ω)的客观存在,使受话筒信号产生失真。另外考虑到个人声道特性SDFi(ω;n),发话环境杂音Nenv(ω;n)及回线杂音Ncn(ω,n)等因素,实际传输到受话筒上的语音信号的数理模型应表现为式(2)的形式,即:

Oi(ω;n,k)={S(ω;nSDFi(ω)+Nenv(ω;n)}×

H(ω;k)+Ncn(ω;n) (2)

因此,在设计建立一个实时的说话人识别系统时,如何从这样一个复杂的含噪音的信号中提取原有的语音信号是电话语音识别的最大的问题,也是本研究拟去解决的关键性问题。

2系统分析

2.1高斯混合分布模型GMM

高斯混合分布模型GMM法是目前在说话人识别技术中常用来建模的有效方法之一。图2所示说话人识别GMM模型的表现形式图。其中bΜs表示说话人s的M维高斯分布,μΜs为均值,∑Μs为共分散矩阵,而wms为加权比例系数。实时识别时的数理模型可表示为式(3)和(4):

p(X|λs)=j=1Μwjsbjs(x) (3)

s=speaker=mixam1jΜlogp(X|λs) (4)

与HMM法比较,GMM不依赖于语音的音素(文本)信息,因此,可以利用多种形式的发话语音建模。

2.2支持向量分类器(SVM)

SVM是一个强有力的机器学习分类器。对小量静态数据(对语音数据要求特征参数有不易变动的固定维数)可以获得理想的两类分类效果[10]。其数理模型表示为:

f(x)=i=1lyiαiΚ(xi,x)+b (5)

其中:xiRn,i=1,2,…,l,为支持向量,yi∈{-1,1}为分类系数,K为kernal系数。αi>0,系数K一般设定为RBF值。

2.3矢量量化(VQ)及加权矢量量化(WVQ)技术

基于VQ的说话人识别模型,与其它模型(如GMM)相比具有计算简单、实时性强的特点,因而得到广泛的应用[11]。对于说话人特征向量为M的训练码书Cis(i=1,2,…,M ),用帧大小为T的测试语音xj(j=1,2,…,T) 进行匹配测试时,其最小欧氏距离定义为如式(6):

ds=1Τj=1Τmin1mΜ[d(xj,Cms)] (6)

而用K个通道参数加权的量化距离定义为式(7):

d(Cis,xj)=k=1ΚWk(xjk-Cmks)2 (7)

其中加权系数通过式(8)至式(10)计算:

Rjk=(rjk1-rjk¯)2+(rjk2-rjk¯)2,++(rjkΜ-rjk¯)2 (8)

Wki=1ik=1Rjk (9)

Wk=1ΝΝi=1wki (10)

3电话语音监控系统

图3为本研究提案的上下文无关电话监控系统的结构图。

本系统由语音输入及噪音预处理模块VAD(Voice advanced detection)、GMM-UBM模块、语音特征量抽出及两层判别输出模块组成。各模块工作步骤如下:

1) 目标人注册流程

(1) 端点检测及噪声消除

含有噪音的电话语音经噪音消除模块VAD对有效语音片断消除噪声处理。

(2) 特征提取

先实现语音数据的分帧处理。然后对于每帧数据,计算与语音类似的参数。最后计算前后多帧数据的差分。提取特征能够考虑语音的走势信息。

(3) 目标人注册

将输入语音中有效语音上提出的所有帧进行聚类并计算每一类的均值、方差和比例,建立GMM模型并与通用模型UBM适应构建目标人声纹模型。

2) 监控测试流程

监控语音的特征提取之前的处理流程和目标人注册流程相同。在特征提取之后,监控测试根据注册获得的声纹模型计算语音特征的概率。为了得到当前测试语音是否来自该注册模型所对应的说话人,系统经预先建立的背景声纹模型UBM(用复数人语音数据混合训练获得),计算当前测试语音的概率,然后比较两个概率,获得置信度打分。如果打分值满足一个预值(经试验设定的置信度范围),系统将对当前的测试语音进行基于GMM法的判断并给出一个识别结果。否则拒绝当前测试输入。如果这个识别结果小于门限值δ,系统将输出最后的判断结果OUT-1,否则将最相近的目标人特征数据(均值向量)送给SVM重新训练后,再次对测试语音进行判别给出最终的判断结果OUT-2(δ 经预备试验设定)。

4试验

4.1数据

目前我们录制了100个人的自由谈话电话录音数据(男生50,女生50)。本次试验中用50个人的(男女分别25人)数据混合训练了UBM声纹模型,并用这50个人的数据对每个人切出10秒、20秒、30秒的三个不同长度的发话语音段训练了各目标人独立数据特征与UBM进行适应处理便生成目标人声纹模型。同时在这个50个训练人数据中,对每个发话人语音上另切出10秒和5秒的两段数据(上下文无关)作测试语音用。合作录音人均来自于新疆大学在读的维吾尔族含有各地区方言的学生。为了保证录音学生的个人信息安全,在录音阶段没有让学生提示自己的姓名、电话号码及身份证号码等个人信息,并签定合同保证本数据只用来科学试验。

试验条件:语音特征量设定 12 维MFCC特征,加12维Δ及1维能量,共25维特征量。GMM的混合系数设定为128,SVM Kemel选定RBF。在实验中对目标人及测试语音进行均值归一化CMN(Cepstral Mean Normalization) 处理。

4.2试验结果

本文提案语音监控系统的试验结果与常用VQ及WVQ试验对比结果见图4所示。

4.3试验结果分析

从图4可以看出,比起基线(仅使用GMM法)方法及其它方法,在目标人训练数据在20秒左右时,该提案方法GMM-UBM/SVM的识别结果有大幅度改善的趋势,识别精度在94%。同时发现在训练数据长短在10-20秒之间时识别精度变动很大,训练数据越短识别效果越差。本研究要求训练数据用发话语音段在20秒左右时保证95%左右的识别精度,本研究提案方法基本满足要求。

5结语

结合语音监控或者说话人识别技术的实际需求及新疆多语言地区的特点,本文介绍了以维吾尔语为研究对象,利用GMM-UBM /SVM的混合方式实现电话语音监控系统的实现过程。为了便于比较,本文中同时也尝试了用常用VQ及WVQ方法的实验结果。通过本次试验确认比起常用的VQ及WVQ技术,在发话时间短,背景、电话传输线噪声大以及目标人数较多的场合利用提案方法的有效识别精度分别提高到了20.2%及16.7%。本次试验中在目标人有效语音设定为20秒,测试语音为10秒时获得的最好的识别精度为94.2%。基本满足应用要求。

在今后的实验中要定期修改训练数据,刷新声纹模型,在被测试人群需加入不同年龄段、不同背景的维吾尔语系测试者,进一步确认系统的可信性及可靠性。

参考文献

[1]白井克彦.音声言语处理的潮流[M].Corona Publishing CO.LTD,2010.

[2]Solomonoff A,Mielke A,et al.Clustering speakers by their voice[C]//Pro.ICASSP,1998,2:757-760.

[3]张利鹏,王琳琳,徐明星.多发音方式下说话人识别研究[C]//第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文集.

[4]Furui S.Speaker dependent feature extraction,recognition and process-ing techniques[J].Speech Communication,1991,10(5-6):505-520.

[5]Matsui T,Furui S.Comparison of text independent speaker recognitionmethods using VQ-distortion and discrete/continuous HMMs[C]//Proc.ICASSP,Vol.II,1992:157-160.

[6]Reynolds D A.Speaker Identification and verification using Gaussianmixture speaker model[J].Speech Communication,1995,17(1-2):91-108.

[7]Tseng B,Soong F,A Rosenberg.Continuous probabilistic acoustic map for speaker recognition[C]//Proc.ICASSP Vol.II,1992:161-164.

[8]Kenichi YOSHIDA,et,al.Speaker Recognition Using Multi-SNR Sub-band GMM under Noisy Environments[R].Technical Report of IEICE DSP2000-97:55-61.

[9]Minghui Liu,Zhongwei Huang.Evaluation of GMM-based Features for SVM Speaker Verification[C]//Proceeding of the7 th World Congress on Intelligent Control and Automation,2008:5027-5030.

[10]Hirokazu Itahashi,et al.Explaining A Discriminate Model Construct red By SVM in Text Categorization[C]//The22 nd Annual Conference of the Japanese Society for Artificial Intelligence,2008:1-4.

上一篇:自主创新性学习下一篇:转向顶推技术