实时语音

2024-07-26

实时语音(共6篇)

实时语音 篇1

摘要:随着移动通信网络技术的不断升级运用,在网络化特定的环境中,可以实现对高噪音语音环境下清晰的语音通讯相对难题的解决方式,通过使用多方面的技术控制与创新,在早期的语音噪音处理中,主要使用模拟器搭建的方式,但是,目前对于这种噪音处理技术的运用,更加侧重在整体功能方面的实现,对语音信号的质量要求更加精致准确。因此,要从多方面加强大规模多人实时语音通讯的语音降噪处理技术,形成多学有效的算法。本文将针对大规模多人实时语音通讯的语音降噪实时处理算法进行系统化、理论化以及实践研究,更好的服务整个技术发展的需要。

关键词:大规模,多人实时语音,降噪,处理算法

0 引言

在当前的语音降噪处理过程中,要实现高噪音环境下的语音通讯的清晰度,就要突出在整个技术控制中的综合作用,通过使用多方面的技术控制,能全面提升降噪技术的整体进步。笔者通过结合整个噪音消除技术的运用,尤其是在大规模多人实时语音通讯的语音降噪处理中,要形成科学有效的算法处理,这样,才能起到更好的效果。

1 简述语音降噪处理的运用现状

1.1 重虑波电路技术的运用

这种技术在整个降噪的处理中,最主要的是不能实现对噪音的整体消除,因此,在整个技术控制过程中,由于自身原因等方面的影响,在模拟电路自身的特点中,在环境噪音发生变化的背景下,就会形成一些剧烈的变化。因此,模拟器也就不能适应外界环境的变化。这种传统检测方式的运用,为数字化语音降噪技术的实现提供了良好的基础。

1.2 硬件改进过渡到算法的提高

随着DSP技术的发展,降噪技术逐渐由以前的硬件上的改进,实现在精准算法上的提高。因此,实时处理算法的运用,可以直接决定整个降噪整体功能的发挥。其中,自动适用技术是降噪处理的重要方式,可以在不基于任何语音模型的使用过程中,实现语音特征的整体性,并产生更好的降噪效果。其中,传统的算法主要是包括基于时域的LMS算法以及频域的数字算法等,可以通过使用小波变化方法、高阶统计量方法、神经网络方法以及时频分析方法等。通过这种具体方法的运用,可以有效的提高整个算法的精准度。同时,在DSP高速芯片以及精准算法的出现,更好为实现数字化降噪技术提供了良好的基础。

2 大规模多人实时语音通讯降噪的模型与方法

2.1 大规模多人语音通讯的特点

大规模多人实时语音通讯强调的就是在多种状况下的语音运用模式,其中,最主要的就是通过利用信号处理技术的运用,在整个信号消除的过程中,形成对强噪音干扰的处理,并在提高输出信噪音比拟中提取出有用的信号与技术。在大规模多人实时语音的噪音表现中,具有多方面的特点。一是语音的时变性与非平稳性。早大规模多人实时语音系统中,由于不同人群在发音系统以及生理结构上的变化,尤其是在语速的表现中是不相同的。因此,就会出现一定的时变性。二是语音的不同种类表现。在语音系统的综合运用中,就会出现相应的语音表达方式,其中,主要是包括有浊音与清音等。在音频的表现中,主要是集中在较低频段内的清音段没有形成明显的时域与频域特征。因此,可以采用浊音的周期性特征,通过使用梳状滤波器来实现对整个语音分量以及对非语音信号的抑制。三是语音可以通过对信号的统计分析来实现对特征的整体描述。在语音的非平稳性的表现中,可以实现长时间的时间统计,尤其是通过高斯分布模型的中心极限处理方式,在高斯模型中应用有限帧长只是一种相对近似的描述,形成整体语音的综合控制。四是语音感知的整体优势。在大规模多人实时语音降噪的处理中,对于周期性噪声、冲激噪音以及宽带噪音等方式,在整个应用过程中,更好的实现对降噪技术中精准算法的运用。

2.2 几种传统的语音降噪方式

在传统的降噪技术运行中,主要是实现对语音信号的集中处理,从这些传统的语音降噪处理,可以起到更好的实际效果。一是频谱减法的运用。这种算法主要是通过对噪音的统计平稳度等,在这种方法的运用中,有语音期间的噪音振幅谱的期望值与无语音间隙噪音的振幅谱的期望值形成相等的方式,在这种算法中,可以形成多方面的技术控制。二是线性滤波法的运用。这种算法主要是利用语音的产生模型。在具体原理的运用中,主要是对于受加性稳态白噪音干扰的语音信号进行综合处理,在语音频谱的产生中,形成一种近似的运用包含语音噪音的预测效果,更好的形成对语音参数的准确设置。三是小波变换的算法运用。在小波分析的过程中,传统信号的建立主要是形成综合模式的运用,并建立在傅立叶变换的基础上的,通过建立多分辨率分析框架以及小波分析的关系,形成多方面的语音信号以及综合技术的处理功能。

3 探讨大规模多人实时语音通讯的语音降噪实时处理算法的运用

3.1 LMS 算法的运用方式

这种算法主要是实现对整个语音降噪技术的全面控制,在综合技能的实现中,可以全面实现对整体技术的控制,通过程序设计等方式的优化,更好的形成整个技术的控制。具体设计如下。

function [yn,W,en]=LMS(xn,dn,M,mu,itr)

% LMS(Least Mean Squre)算法

% 迭代计算

for k = M:itr % 第k次迭代

x = xn(k:-1:k-M+1); % 滤波器M个抽头的输入

y = W(:,k-1).' * x; % 滤波器的输出

en(k) = dn(k) - y ; % 第k次迭代的误差

% 滤波器权值计算的迭代式

W(:,k) = W(:,k-1) + 2*mu*en(k)*x;

end

% 求最优时滤波器的输出序列

yn = inf * ones(size(xn));

for k = M:length(xn)

x = xn(k:-1:k-M+1);

yn(k) = W(:,end).'* x;

end

3.2 子空间语音降噪法

子空间语音降噪法将带噪语音信号投影到语音信号子空间和噪声子空间两个子空间,语音信号子空间中主要为语音信号,但还含有少量的噪声信号,噪声子空间只含有噪声信号,因此对纯净语音的估计可以不考虑噪声子空间中的分量,只保留语音信号子空间中的分量。在信号与噪声子空间分解算法中先对信号进行一些假设:语音信号与噪声都是零均值的随机过程;语音信号在短时内是平稳的;语音信号与噪声是正交的;噪声是一个随机的白噪声;所有的信号都是各态历经的,即可以用时间平均来代替统计平均。根据时域约束条件,可以推导出语音信号失真最小情况下的最优估计器。在线性信号模型中,假定纯净语音信号为:

S=y*y(2-2)

其中吵为K×M的矩阵,其秩为M,是肘×1的矩阵。S的协方差矩阵为:

Rs=E Sr>=y?gr yr(2—3)

其中砖的协方差矩阵,为正定的。匙的秩为地有了前述的假设,可以将带噪语音信号表示为:

X=S+N=+N(2-4)

其中X,S和Ⅳ分别是K维的带噪语音信号、纯净语音信号和噪声向量。设x=s.X为纯净语音信号的估计,其中日为职K阶矩阵。则该估计器的误差信号£为:

占=S—S=(日一D?S=H?N=6s+知(2.5)

其中,知和知分别表示语音信号的失真和残留噪声。

3.3 遗传算法在网络入侵检测系统中的应用

我们以计算机为工具,数据库为核心,用计算机技术和方法、网络技术和方法、通信技术和方法综合应用管理工程技术,行为科学技术等现代化科学技术,建立一个客户关系管理系统,以操作简便、界面友好、灵活、安全稳定为出发点,对各种资源信息进行管理,并在网络范围内进行共享。本测试系统服务器: CPU主频1 GHz以上,内存1 GB以上,硬盘自由空间在1 GB以上。服务器: 操作系统 为Windows2003Server或Windows XP,客户端。操作系统: MicrosoftWindows XP SP3或win7,同时,软件为B/S架构,用户使用IE浏览器即可登录并访问系统。为了保证数据的安全性以及平缓电网的波动给网络带来的影响,在服务器及工作站均采用了UPS不间断电源。

基于网络的入侵检测系统可以获得很多有价值的数据,去判别不良的意图。即使防火墙抗拒这些尝试,但防火墙之外的基于网络的入侵检测系统也能查出躲在防火墙后的攻击意图。基于主机的入侵检测系统无法跟踪未攻击到防火墙内主机的未遂攻击,而这些丢失的信息对于评估和优化安全策略是至关重要的,本系统设计的适应度函数为[4]:

式中: xi 为某个个体,a为正确检测到的攻击数目;A为总有攻击数目;b为被误判为攻击的连接数;B为总的正常连接数;m为xi 中1的个数; ?m 为m对于该适应度函数的相关系数,即高检出率低误报率使适应度函数值高,低检出率高误报率使适应度函数值低。个体中置l的位数越少,适应度值越大,这是出于寻找最小特征子集的考虑,其影响的强弱由相关系数d去控制。

对于终端主机网络安全技术来说,目前为人们所接受并大规模投入应用的主要有:杀毒软件、主机网络防火墙、各种辅助的安全工具。其中,杀毒软件主要用于计算机病毒和各种恶意代码的防护。主机网络防火墙可以对针对当前主机的网络访问流量进行简单控制并防护常见的针对主机的网络攻击行为,它可以大大减少来自网络的潜在威胁,各种辅助安全工具可以有针对性的对某些环境或软件起到专门的保护作用,如MSN防护盾、网银安全控件等。

{

status Set = null;

new Account Info Dao().Update Account Visit(account);

Document Box Item Daodoc Box Dao=newDocument Box Item Dao();

Queue Item Dao queue Dao = new Queue Item Dao();

statusSet = new DataSet();

foreach (Guid current Doc Guid in docguids)

{

Data Table doc Table =

doc Box Dao.Select Document Box Item Data Table(current Doc Guid.To String());

if (doc Table.Rows.Count == 0)

{

Log.SaveA ccess Log(client Ip, account, operator Name,operation, "

}

}

4 结语

通过结合数字化降噪处理技术的运用,可以有效的实现对大规模多人实时语音通讯的语音降噪实时处理算法,在这些算法的整体运用中,才能更好的降低整个噪音处理的功能。

参考文献

[1]胡旭,刘晓明,太云见,黄承彩,张敏.快速响应热释电器件降噪[J].红外技术.2004年03期

[2]赖睿,杨银堂.场景自适应的红外焦平面阵列非均匀性校正新方法[J].西安电子科技大学学报.2009年02期

[3]李英,汪航.FIR自适应滤波的语音增强算法[J].电声技术.2004年06期

局域网内实时语音传输实现 篇2

在局域网内对音频信号进行采集, 并在网内实时传输, 每个用户可以收到对方的话音信号, 并将自己的话音信号实时发送到需要接收的客户端。

对音频这类多媒体传输业务而言, 为了满足传输实时性的要求, 常常采用一种应用层分帧 (ALF) 的策略:由上层应用完成对数据流的分割, 得到应用数据单元 (ADU) , 传输层将ADU作为整体处理。另外, 为了克服传统分层体系串行处理在效率方面的不足, 尽量将对数据的串行操作转换为并行操作, 从而充分发挥并行处理器、多任务操作系统的能力, 提高协议的效率。

1 路由选择

在网络上传输封装了音频数据的IP数据报 (Datagram) 。发送端从传输层接收数据段 (Segment) , 为之加上IP报头, 封装成数据报;然后将数据报送往数据链路层。中间站点为数据报寻径, 并且当网络的MTU减小时, 将数据报分片。接收点将分片重新组合, 经过差错检查后, 去掉数据报的IP头, 将数据段提交给与发送端对应的传输层协议[1]。

1.1 基本概念

站在IP层的角度, 网络传输音频数据报主要有3种方式:单播 (Unicast) 、组播 (Multicast) 和广播 (Broadcast) 。

单播是Internet上最常见的通信方式, 它在2个特定的IP地址间进行数据通信;全网广播在子网内部向所有IP地址发送数据包, 所有在子网内部的IP站点都能够收到数据包;组播介于单播和广播之间, 它对一组特定IP地址传送数据。

1.2 最佳方式

对音频数据的传输而言, 由于数据量庞大, 需要占用很大的网络带宽, 如果采用单播模式, 那么有多少个接收端就得传输多少份数据, 所需的网络带宽与接收端的数目成正比;如果采用广播或组播方式, 那么源端只需要传输一份数据, 组内或同一网段上的所有接收端均可以收到, 因此广播和组播对提高网络带宽的利用效率是很有意义的。

2 传输协议

2.1 基本概念

从TCP/IP概念模型来看, 传输协议为传输层的范畴。传输层主要解决2个方面的问题:传输层提供标准的传输服务;对下面的网络层而言, 由于网络层提供的分组传输是不可靠的, 有必要在传输层增强网络层提供的服务质量。传输层在数据传输中的地位和作用如图1所示[2]。

2.2 传输低层协议

2.2.1 TCP

TCP是面向连接的传输控制协议。TCP利用网络层IP协议提供的不可靠的分组传输服务, 为应用进程提供可靠的、端到端的、面向连接的字节流通信。Internet许多著名的服务, 如Telnet, FTP, HTTP等, 都采用TCP作为其传输协议。

TCP传输控制协议一般不直接用来传送音、视频数据本身, 但是, 对于音、视频传输中的控制信息而言, TCP是最合适的。

2.2.2 UDP

UDP是无连接的用户数据报传输协议。与TCP相比, UDP的报头要简单得多。对音、视频数据的传输而言, UDP比TCP更为适用。TCP的大量确认应答使音、视频数据不得不因为等待应答而放弃, 造成不必要的延迟和更大范围的数据丢失。相比较而言, UDP只要网络流量足够, 音、视频数据就可以源源不断的到达接收者。因此, 在IP网络上传送音视频数据, 往往采用UDP协议, 而不是TCP协议。

3 编程原理

Window Socket支持数据报 (SOCK_DGRAM) 和流式 (SOCK_STREAM) 两种类型的套接字[3]。前者采用UDP协议传输, 而后者采用TCP协议传输。编程实现流式数据传输方式的主要过程如表1, 表2所示。其中表1表示连接建立的过程, 而表2表示数据传输的过程。括号中表示的是完成相应操作的Window Socket函数[4]。

4 Windows Socket控件通信原理

Windows Socket程序接口, 是以BSD UNIX中流行的Socket接口为原则, 定义了一套可使网络程序开发人员在Microsoft Windows环境下开发标准TCP/IP网络程序[5]。

WinSock控件支持TCP协议和UDP协议。由于TCP是一种面向连接的通信技术, 它要求每一个通信必须先建立一个连接, 故不适合基于组播技术的数据传输。在局域网上对数据包进行组播传输需采用UDP协议, 数据传输率高, 适合IP组播的数据传输。

5 DirectSound对象

在Windows系列操作系统中, Microsoft提供了强大的DirectX工具。其中的DirectSound技术可以实现对声音的实时捕捉和播放。

5.1 播放功能概述

DirectSound缓冲区对象表示一个包含声音数据的缓冲区, 这些数据以PCM格式被存储。该对象不仅可以用于开始、停止或暂停声音的播放, 还能够设置声音数据中诸如频率和格式等属性。

5.2 音频捕获

DirectSoundCapture对象可以查询音频捕获设备的性能, 并为从输入源捕获音频而创建缓冲区, 它还能够捕获压缩格式的音频。DirectSoundCaptureBuffer对象表示一个用于捕获音频的缓冲区, 它可以循环利用。

5.3 播放声音的过程

(1) 锁定 (IdirectSoundBuffer::Lock) 从缓冲区的一部分;

(2) 写数据:将捕捉到的声音数据写入将要发送的数据包中;

(3) 解锁 (IdirectSoundBuffer::Unlock) :对 (1) 的锁定部分进行解锁;

(4) 将声音传送给主缓冲区, 并从哪里输出 (IdirectSoundBuffer::Play) 。

6 应用实例的设计及实现

基于以上技术, 在此开发了局域网上的音频组播系统, 以实现服务器端和客户端之间的音频通信。

6.1 设计思想

系统的应用平台是Windows操作系统, 使用的是Winsock2规范, 系统的开发工具是Microsoft Visual C++6.0[4]。此次设计的软件, 对组播组的成员, 分为Server和Client 2种。进行通信之前, Server和Client都必须先加入一个组播组。

(1) Server:

可以随时发言, 实时接听, 不受他人限制。对来自Client的发言申请作出响应, 然后将该信息拷贝到发送缓冲区发送出去。图2为Server端数据流程图。

(2) Client:

可以实时接听, 每次发言前必须发出申请信息。当申请信息发送出去后, 组播组内的所有成员都可以收到。当Server发送出对申请信息的响应信息后, 各个Client将根据自己的本地地址与信息中包含的地址信息做比较, 如果发现申请信息中的地址信息与本机地址一致, 则说明是自己的发言申请的响应, 于是处理;如果信息中的地址信息与本机地址不一致, 那么不处理。图3是Client端数据流程图。

6.2 实现步骤

6.2.1 Server端的实现

在应用程序的头文件中定义如下数据结构[6]:

(1) 为了实现组播数据传输, 首先要加入组播组。

IP组播数据包的包头中包含一个TTL字段, 用于控制一个IP组播数据包的传播范围[7]。

若TTL值为0, 则组播数据包只能在本地主机的多个线程间传播;

若TTL值为1, 则组播数据不允许传出本地网络之外;

当TTL大于1时, 路由器传送这个数据包到组成员所属的其它网络。

以下函数用于实现组播组加入:

(2) 定义一个CdirectSound类, 实现声音的捕捉和播放。主要成员变量和函数如下[7]:

(3) 定义play函数实现音频数据的实时播放[7]:

(4) 定义Capture函数实现音频数据的实时捕捉[3]:

6.2.2 Client端的实现

Client端的编程过程与Server端很相似。添加一个Application按纽, 给它添加处理“单击”事件的成员函数OnApplication () 。另外一点就是主对话框的receive () 成员函数对收到的数据包的处理[8]。

7 结 语

本文通过基于局域网的实时语音组播的研究, 探讨了在Visual C++6.0环境中实现对局域网声音的实时捕捉和组播传送的关键技术和方法。从基本概念、路由选择、传输协议等角度, 层层深入, 循序渐进, 通过分析比较TCP、UDP等实现数据传输的过程[9], 提出了实现语音传输的最佳方式:即利用COM组件对象模型提供的2个声音信号的采集接口类IDirectSoundCapture8, IdirectSoundCapture Buffer8和播放接口类IDirectSoundBuffer8, 采用UDP数据传输协议, 从Server和Client2个角度, 提出了具体的设计实现的设计思想及编程代码, 有很大的研究价值及现实意义。

摘要:多媒体和网络技术的迅速发展为基于网络的视、音频通信提供了可能, 在很多的网络通信中, 都需要将某一发送端的话音实时的传输给接收端。实时语音组播系统为这些应用需求提供了一个不错的解决方案, 实时语音组播系统可以分成发送端、接收端和网络传输3个子系统。在此从TCP/IP通信的原理, 包括路由选择、传输协议、编程实现等角度, 给出了比较完善的解决方案, 从而实现了在局域网内语音信号的实时传输, 有很好的参考和借鉴意义。

关键词:局域网,实时语音,TCP/IP,单播,组播,音频捕捉

参考文献

[1]陈坚, 陈伟.Visual C++网络高级编程[M].北京:人民邮电出版社, 2001.

[2]曹衍龙, 刘海英.Visual C++网络通信编程实用案例精选[M].北京:人民邮电出版社, 2006.

[3]曹章元, 刘加明.Visual C++6.0类库大全[M].北京:电子工业出版社, 1999.

[4]求是科技.Visual C++音视频编解码技术及实践[M].北京:人民邮电出版社, 2006.

[5]Microsoft.Microsoft MSDN library[EB/OL].[2007-08-13].http://www.microsoft.com.

[6][美]JAMSA Kris.C/C++/C#程序员实用大全[M].北京:中国水利水电出版社, 2002.

[7][美]KRUGLINSKI David J.Visual C++技术内幕[M].4版.北京:清华大学出版社, 2001.

[8]王华, 叶爱亮.Visual C++6.0编程实例与技巧[M].北京:机械工业出版社, 1999.

[9]陈坚.实用Visual C++编程大全[M].西安:西安电子科技大学出版社, 2000.

实时语音 篇3

前期的督办方式主要存在以下不足: (1) 督办人手不足:网元日益增多, 督办量数量较大, 而人手并未相应增加; (2) 督办方式不足:前期都是通过短信作为督办和超时提醒作为通知手段, 且督办未升级到领导层面, 导致工单回复及时性较差; (3) 考核手段不足:由于工单的受理、处理回复、过程环节督办处于半失控状态, 考核工作的开展十分困难。

基于IVR的故障实时语音通报系统, 可以提高告警的预警通知率、工单受理、处理及时率, 实现工单的过程督办可监控性, 实现量化故障监控工作, 进而达到优化故障监控的目的。

1 基于IVR的故障实时语音通报系统

1.1 系统结构图

按照系统建设的规划, 系统结构图如图1所示。基于IVR的故障实时语音通报系统的整体架构包括数据采集层、数据处理层、接口层和数据展现层, 各层的功能说明如下:

(1) 数据采集层:建立接口适配器, 从各相关系统采集数据并入库的能力。并加载到数据库中;

(2) 数据处理层:根据业务需求按照系统过滤配置规则、数据类型, 及通过各种数据之间的关联生成用户需要的相关信息;

(3) 数据展现层:面向用户提供人机交互的界面, 用于呈现系统相关分析结论, 包括数据管理、数据配置、查询统计分析;

(4) 接口层:提供外部系统间数据的共享及数据调用, 提供对外接口, 及外部系统接口的调用。

1.2 功能模块

基于IVR的故障实时语音通报系统, 具有如下的功能模块:

(1) 告警传报管理模块:实现故障网元告警的传报与管理, 具体功能包括告警过滤配置、告警传报对象统计、告警呼叫记录查询、通讯录管理;

(2) 督办工单管理模块:包括受理工单数据同步、处理工单数据同步、受理工单数据处理、处理工单数据处理、接口标识、状态回传、手动督办、督办对象配置、督办人员配置、督办顺序设置、工单通知对象统计等;

(3) 统计分析模块:包括故障工单通知统计、工单语音通知流水、督办对象排名统计、语音通知统计;

(4) 语音通知模块:包括受理督办、处理督办、智能督办升级、关联拨打等。其中, 关联拨打按是指按照通知规则要求, 对同一个批次的故障工单记录如有相同督办对象, 则合并通知。合并数量根据系统上线测试后设定合理值目前暂设定合并数量为5。合并后语音通知内容格式如下:“您有待受理或待处理3张一级工单、2张二级工单。工单编号为XXXX, 请尽快受理或处理”, 使之在一次电话中完成督办提醒。

1.3 系统特点

为解决存在的督办人手不足、督办方式不足、考核手段不足等问题, 基于IVR的故障实时语音通报系统具有如下优势:

(1) 支撑手段开发:该系统面向一线维护人员, 业务流程通过IMS专线完成, 可负担批量的语音拨打任务, 通过开发相关系统实现告警的督办, 工单的受理、过程、处理回复全过程自动督办, 将人力从督办任务中解放出来, 值班人员可以将更多的时间放在预处理、专项工作上, 提升个人能力, 更有效地利用人力资源。

(2) 督办方式完善:通过开发升级督办、智能督办等功能, 提升督办效率, 使维护人员能更加感知到故障处理和工单回复的重要性, 以更积极的态度去对待故障处理, 回复工单, 分公司领导也能对相关的告警和工单更加重视, 及时督促维护人员处理故障, 达到双重督促的目的。

(3) 督办考核完善:通过开发督办统计分析功能, 完善督办考核, 分公司管理人员可对已督办但仍然超时的工单进行严厉考核, 对督办多次但未接电话的情况进行考核, 其次分公司领导可实时根据工单的升级督办情况进行考核。

1.4 应用效果说明

系统从2013年7月份试运行以来, 提供了7*24小时的稳定服务, 保障了故障通知的及时性、稳定性。依托灵活的督办规则、面向一线维护人员的实时通知, 取得了如下运行效果:

(1) 缩短一线代维的处理时长, 工单处理超时情况大大减少。故障语音督办系统的从7月使用后, 一线维护人员的处理故障效率大大提升, 大大缩短了故障处理历时, 工单超时的情况也大大减少。从7月份和6月份的工单数据比较来看, 7月份各分公司全省超时工单总量比6月份压减了330张, 压减量平均一天接近30张, 各分公司的超时工单量均有压减;一线维护人员7月的严重故障工单处理历时相比6月压减了1100分钟, 大大压缩故障处理历时, 有效提升了故障处理效率。

(2) 解放省监控的生产力, 减少了人力和时间的浪费。对以往故障超时的工单都是通过短信或人为手动督办至一线维护人员, 大大浪费了应有的人力资源, 影响了工作效率。以武汉分公司为例, 值班人员10人, 每人每天至少5个督办电话, 且不包括对二三级工单的督办, 一个月至少有1500个电话, 这么多督办电话现在通过故障语音督办系统实现, 每月能节约大约50个小时, 这50个小时可安排值班人员做其他的专项工作, 值班人员的精力无需浪费在枯燥的电话督办上, 同时发挥了值班人员的能力。

(3) 故障督办提供有效的考核手段, 强化了一线维护人员的管理。对以往通知失败的督办对象, 人工无法准确核实延误超时及对该故障工单所属督办对象详细通知记录, 也不能及时通知其他督办对象人员或相关领导进行后续处理。通过故障语音督办系统的督办, 一是对未及时处理的严重工单升级督办, 引起相关领导的重视, 考核自己的员工;二是督办后仍然超时的情况, 省监控会进行严厉考核, 实现责任到督办人。

2 结语

基于IVR的故障实时语音通报系统, 应用于日常的工单处理场景中, 集告警通知、工单通知、通知规则于一体, 实现了面向一线维护人员的告警督办通知、工单全过程督办通知。系统自运营以来, 一线维护人员的故障处理时长大大缩短, 工单回复及时率大大提高, 代维人员的管理更到位。后期, 将组建系统优化小组, 奔赴全省16个分公司进行系统应用调研, 力争从性能、时延等多方面, 全面对系统进行优化。

摘要:在TD-LTE网络里, 网元的告警监控和故障的第一时间通报与处理, 对提高网络质量和企业竞争力, 具有重要意义。在早期的故障督办措施和系统中, 存在人员不足、督办不力、管理不到位、系统效率低下等不足。针对早期系统存在的问题, 湖北公司开发了一套LTE模式下基于IVR的故障实时语音通报系统, 该系统可充分克服早期系统的不足, 实现了技术流程和管理流程的双突破, 对网络运维具有重要贡献。

关键词:LTE,EOMS,IVR,IMS

参考文献

[1]邓启明.基于EOMS系统的MySQL表空间管理的设计与实现[D].电子科技大学, 2011

[2]李冬玲, 林平分.LTE系统中物理下行参考信号的设计分析[J].电子元器件应用, 2010 (9)

实时语音 篇4

全数字语言学习系统 (语音教室) 在本专院校培养外语人才中广泛运用。本文主要设计了数字语言学习系统的语音通信过程, 实现了教师端和某个学生端、教师端对一组学生端、分组的多个学生端、单个和单个学生端间的实时交流通话。

随着计算机技术、网络通信技术、多媒体技术的发展和普及, 语音通信系统也从传统的模拟电路产品发展成为全数字化产品, 改进了传统语言学习系统的不足。在结构设计上, 本系统的数据传输是建立在计算机网络的IT技术之上, 结构由复杂变得简单, 功能由单一变得齐全, 更重要的是在语音通信中不仅保证传输的实时性, 而且抗干扰能力强、失真小、清晰、音质音色好。该系统的设计主要结合现代高端DSP技术, 保证系统的稳定和通信的实时可靠。

1数字语言学习系统的设计

1.1 系统功能

数字语言学习系统所应有的功能如下:一是能对教师端或学生端发出的语音信号进行采集和播放;二是该系统具备数字录音和点播重放的功能, 需要对语音信号进行存储, 由外设的FLASH存储器来完成;三是在整个教室的局域网系统中, 语音的传输要通过DSP的ISA总线平台来进行网络化的传输。

为了实现上述功能, 在技术上必须实现语音信息的数字化和数字通信网络[1], 语音的数字化指对从麦克风发出的语音信号进行放大、滤波后通过ADC采样转化成数字信号, 然后由DSP芯片对数字信号进行纠错、压缩成语音压缩包, 按照MPEG标准对语音进行编码, 最后通过解码, 解压缩, DAC转换成模拟语音信号, 通过功放放大后输出给终端的接收部分。数字通信的网络化是指局域网中的多台学生计算机通过计算机网络技术, 将传统语音通信中的控制线路和模拟线路改进为单一的数字线路。在这个网络语音通信中, 学生机也采用PC机的声卡和网卡, 基于DSP的ISA总线平台, 通过网卡直接编程实现DSP与声卡、网卡的接口连接, 构建了DSP的以太网, 通过DSP接收和发送以太网的数据, 通过标准的网络协议实现网络数据的交换。

1.2 数字语言学习系统的结构图

系统硬件主要包括网络交换机、教师机、服务器、语音控制器、学生终端[2], 系统结构框图如图1所示。中央控制器是插在计算机里的一块 ISA总线适配卡, 它是这个系统的核心, 它与交换机和语音控制器相连接, 采用时分多址的策略对整个网络进行管理, 同时控制所有语音信息通信的切换和处理。一方面中央控制器将PC机发出的语音和控制信号通过以太网传传递给学生端, 另一方面又对学生端发出的信号进行分析处理, 然后发终端信号给PC机, 在该系统中以太网数据包中包含有源地址和目的地址, 每个学生端网卡的IP地址是惟一的, 方便教师端对学生端的控制。

2数字语音通信的DSP平台设计

2.1 数字语言通信的DSP平台硬件图

该数字语音学习系统的语音通信平台由数字处理器DSP作为核心部分, 通过语音采集与编解码模块TLV320AIC23实现语音的采集与传输, 由以太网控制器实现该系统通过网卡、声卡在网络上传输语音数据, 由DMA控制器直接读取硬盘数据, 其硬件结构图如图2所示。

2.2 数字信号处理器TMS320VC5416

DSP作为一种专用的数字信号处理器[3], 是一种可编程的微处理器, 对语言和图像有强大的处理功能, 运算速度快, 接口灵活, 能实时、快速实现各种数字信号处理算法。在数字语言学习系统中DSP选用TI公司TMS320VC5416芯片, 对语音压缩编码运算能力达到50 MIPS, 数据、程序的存储空间大, 对语音输入/输出、信码输入/输出提供双向串口。为保证语音质量, 语音压缩编码技术采用ITU-T制定为低速率编解码算法G.729标准, 即CS-ACELP 算法。它实现了8 Kb/s的码率, 能实现DSP对编解码的处理。

2.3 语音采集与编解码 (CODEC) 模块TLV320AIC23

音频芯片采用一块可编程的芯片TLV320AIC23[4], AIC23是通过数字控制口将芯片的控制字写入AIC23内部的寄存器。音频控制口与DSP的通信主要由多通道缓冲串行口McBSP1来实现, 支持立体声或MIC两输入方式和立体声输出。TLV320AIC23的模数转换 (ADCs) 和数模转换 (DACs) 部件高度集成在芯片内部, 采用了先进的Sigma-Delta过采样技术, 可以在8~96 kHz的频率范围内提供16 b, 20 b, 24 b和32 b的采样。语音控制器的控制接口为标准的RS 232接口, TLV320AIC23与TMS320VC5416的接口电路图如图3所示。

2.4 DMA控制器, HPI的配置

在数字语言学习系统中, DMA[5]在对声卡进行控制和访问时, 需要实现DSP对DMA功能的扩展, 通过ISA总线兼容声卡、网卡的硬件结构, 为了有效地采集信号、播放语音, 对声卡、语音网卡采用中断和DMA控制方式, 结合DSP使用HOLD操作进行, 直接读取硬盘数据, DMA控制器可以不需要CPU介入而直接在内部存储器, 外部存储器和芯片上外设之间传递数据, 当操作完成后, DMA控制器可以向CPU发出中断, 同时DMA有一个辅助端口用于HPI 和存储器间传递数据。

2.5 以太网控制器

该系统的交换机采用先进的芯片作为以太网控制器[6], 简化了系统的线缆连接, 解决了语音通信的堵塞问题, 以太网控制器采用台湾Realtek生产的RTL8019AS, 内置16 KB的SRAM, 用于收发缓冲、半双工通信, 达到10 Mb/s, 与主机采用PnP接口模式。在DSP接收和发送以太网数据时, 选择联合体作为DSP接收和发送以太网数据包的缓冲区, 使得在各层协议间的数据传输, 实质上是数据指针在传递而不是数据拷贝传递。该控制器实现该系统通过网卡、声卡在网络上传输语音数据, 通过DSP对声卡直接操作实现语音的录放控制。

2.6 DSP的存储器扩展

为了防止TMS320C5416在断电程序和数据的丢失, 需要用配置容量为 (512K×16) b FLASH和 (256K×16) b SRAM将程序和数据存储起来, 在系统恢复电位后, 将外部FLASH中的程序搬移到DSP内部的程序存储空间中, 同时也通过 FLASH存储器[7]进行语音数据的存储。

3语音的网络传输

3.1 传输方式

传输控制协议TCP[8]和用户数据报协议UDP这两种传输协议都是在IP协议上完成的。TCP协议需要在教师端和学生端间建立直接的通信通道, 采用存储转发式的非实时方式。而语言学习系统的语音通信要求实时性强, UDP作为一种底层的传输协议, 是无连接的数据报传输, 不需要建立通信通道, 直接把数据送到接收端, 且提供复用机制的能力, 可以迅速地实现该系统的实时通信。

3.2 传输协议

RTP/RTCP协议, 是由实时传输协议 (RTP) 及其控制协议 (RTCP) 组成, 控制数据的拥塞和流量。在数字语言学习系统中, RTP和RTCP配合使传输效率最佳化。实时传输协议是一种应用型的传输层协议, 通过UDP协议对语音数据进行单播或者多播, 实现通过学习系统的语音间通信。

3.3 IP组播

IP组播 (IP Multicast) [9]是一种点到多点的通信方式, 包括3种IP数据通信方式:点对点通信、全网广播和居于以上两者之间IP多播。能实现源IP主机教师端向指定IP的某个学生端间进行通信;源IP主机教师端向一个网络段中所有IP的学生机组间进行通信;更重要的是IP多播通过使用一个特殊的IP地址组作为组播地址, 并对这个组进行命名, 这个地址也同时惟一地表示了一个多点广播组, 在这里, 源主机能够向 IP 网络上的任何一组IP地址组发送IP信息包, 实现了IP分组语音通信[9]。

4结语

通过先进的数字信号处理器结合现代通信基本协议实现了数字语言学习系统的语音传输的实时性, 采取DMA读取硬盘的方式, 实现了多点语音传输和分组语音传输, 满足了现代教学的需要, 解决了在通信中语音信息数字化和数字通信网络化, 使得该系统有效运行。

参考文献

[1]刘国福, 张屺, 王跃科, 等.基于DSP的全数字式语言学习系统的设计[J].网络与多媒体, 2003 (12) :57-59.

[2]曹军.基于IP组播技术的远程教学系统的研究与实现[D].上海:华东师范大学, 2009.

[3]郭良涛, 黄建国, 韩晶, 等.基于DSP的小型数字语音通信平台设计[J].计算机测量与控制, 2009, 17 (6) :1209-1211.

[4]游燕, 李开贵, 吴静.DSP网络实时视频教学系统[J].成都纺织高等专科学校学报, 2006, 23 (2) :25-27.

[5]汪春梅, 孙洪波, 任志刚.TMS320C5000DSP系统设计与开发实例[M].北京:电子工业出版社, 2004.

[6]罗剑.基于以太网传输的语音录放存储系统[J].可编程控制器与工厂自动化, 2007 (1) :70-71.

[7]刘国福, 张屺, 王跃科.基于DSP的语音录放、存储及传输系统[J].电声技术, 2002 (11) :30-32.

[8]盛青松.一种基于TCP/IP协议的局域网通信系统[J].中国新技术新产品, 2008 (10) :14-15.

实时语音 篇5

近年来, 语音业务作为一种新兴的网络业务得到了广泛的应用。但是由于目前IP网络所采用的是尽力而为的服务方式[1], 造成在通话过程中存在着较大的通话时延、抖动和一定的丢包, 使得通话效果往往难以令人满意。一般来说, 端到端的通话时延不应超过400ms[2]。为了改进语音通信的服务质量, 有必要对实时语音流进行测试, 以获取时延、抖动等参数, 从而进一步分析影响通话效果的主要因素。

根据是否发送主动探针 (a c t i v e probe) , 网络测量技术可分为主动测量和被动测量技术[3]。主动测量是通过向网络发送探针来推测网络的情况, 被动测量是通过监听网络中已有的分组流来推测网络的情况。被动测量具有不影响网络负荷的优点, 因此, 本软件主要采用被动测量的思想, 实时加载一条真实的VoIP流, 并对该流的时延、抖动、丢包等服务质量参数进行测量和记录。

2、实时语音通信设计与实现

2.1 通信连接的建立

本软件所测试的对象为实时加载的一条VoIP流。为了实现更为真实的VoIP通信, 本软件采用最常见的VoIP通信模式, 采用服务器端进行连接管理, 客户端启动后首先连接到服务器获取所需通信的对端的连接信息, 然后建立与通信对端间的直接连接, 传输语音数据。连接建立过程依照SIP协议的相关规定, 其连接建立过程如图1所示。

2.2实时语音数据的采集与播放

为了实现交互式会话, 本系统采用多线程技术, 一个线程专门用来采集和发送语音分组, 另一个线程用来接收和播放对方发过来的语音数据。语音的采集和播放采用低级音频函数W a v e X, 其基本操作步骤如下。WaveX采用Windows消息映射机制来实现事件的处理。

2.2.1 音频数据的采集

(1) 打开录音设备:waveInOpen

(2) 为录音设备准备缓存:

waveInPrepareHeader

(3) 为输入设备增加缓存:

waveInAddBuffer

(4) 启动录音:waveInStart

(5) 清除缓存:

waveInUnprepareHeader

(6) 停止录音:waveInReset

(7) 关闭录音设备:waveInClose

2.2.2 音频数据的播放

(1) 打开输出设备:waveOutOpen

(2) 为输出设备准备缓存:

waveOutPrepareHeader

(3) 写数据到输出设备缓存:

waveOutWrite

(4) 清除输出缓存:

waveOutUnprepareHeader

(5) 停止输出:waveOutReset

(6) 关闭输出设备:waveOutClose

为了降低网络传输的数据量, 本系统采用G.729编码方案对语音数据进行压缩和解压。G.729将模拟信号以8Kbps的速率进行数字化, 并采用共轭代数结构代码预测法以8:1的比例进行压缩。

3、传输质量关键指标测量

本软件主要对语音流传输过程中的时延、抖动和丢包数这3个传输质量参数进行测量。为了计算时延和抖动, 通信两端需要进行时间同步, 以消除由于两客户端间的时间差造成的测量误差。

3.1 传输质量参数的计算

(1) 丢包

本软件能记录测试过程中被丢弃的数据包的总数 (packet_lost) 。发送的每个语音数据分组将被附上16bit的数据包序号 (packet_num) , 所有数据到达接收方后将被缓存, 播放时接收方检查所播放数据分组的序号, 每发现一个丢失的数据包packet_lost增加1。每检测到一个延迟太大, 到达时其前后相邻数据包均已播放的包, packet_lost也增加1, 该数据包将直接丢弃。

(2) 抖动计算

本软件所测试的抖动 (jitter) 是指两个相邻语音数据包的时延差值, 其计算公式见式1。这里delay1代表相邻的第一个包时延, delay2则是第二个包时延。

(3) 时延计算

现有的时延测量包括对双向时延和单向时延的测量, 端到端双向时延测量可简单地通过环回时延 (RTT, round trip time) 获得, 但是VoIP应用的性能更多依赖于单向性能, 因此本系统测量单向时延。时延delay为该数据包发送端开始发送的时刻 (t_recv) 到接收端完成接收的时刻 (t_s e n d) 之间的差值, 其计算如式2。

t_recv和t_send只能由发送端或接收端从本机时间读取, 而通信的两台计算机不可能精确时间同步, 会对所计算的时延的准确性产生影响, 因此本软件需要设计时间同步机制。

3.2 时间同步机制的设计

本软件采用相对时间来记录数据包的收发时刻, 客户端软件选择各自的系统开始运行时刻作为时间起点, t_r e c v和t_send为数据包收发的绝对时刻到时间起点间的间隔。本软件采用Query Performance Counter () 函数进行精确计时。该函数返回高精度性能计数器的值, 其计时的最小单位是CPU Tick, 还需要系统频率才能计算出所经过的时间。利用Query Performance Frequency () 函数可获得系统的频率值, 即每秒的T i c k数。n Start Counter是在发送端选取的时间起点处调用Query Performance Counter () 得到的开始点计数。nStopCounter是发送语音数据包时再次调用该函数时得到的计数值。本机发送时刻t_sendtime的计算见式3, 该时刻将作为时间戳随数据包发送。同理, 可以得到接收刻t_recv。

接收端收到数据包后读取时间戳t_sendtime, 然后减去两机之间的时间差adjust, 得到t_send用于计算delay。adjust反映通信两端之间时间起点时刻之间的差值, 由通信两端之间周期性做时间同步请求操作来获得。数据收发端之间的时间同步请求过程如图2所示。根据图2所示过程, 同步请求包传输时间delay_time的计算见公式4, adjust的计算如式5。

4、结论

本文结合Winsock网络编程、WaveX低级音频API以及多线程技术, 设计并实现了一款实时语音流服务质量测试工具。在有线和无线局域网中进行的大量测试证明本系统能够实现两客户端之间的实时语音交互通信, 并能对该语音流的收发数据包数量、时延、抖动、丢包数等传输质量参数进行比较准确的测量和记录, 可供改变的测试参数包括采样位数、静音阈值等。

该软件还存在一定的不足, 采用多线程技术所引入的切换时间以及发送同步请求包所带来的时延会使得通信两端时间同步出现误差, 从而影响测量准确性。如何完善本测试工具的功能, 提高其测量准确性, 还需要进一步深入研究。

参考文献

[1]A.H.Muhamad Amin.VoIP performance measurement using QoS parameters[C].Proceedings of the Second International Conference on Innovation in Information Technology (IIT'05) , 2005:2-8.

[2]V.Paxson.End-to-end Internet Packet Dynamics[J].IEEE/ACM Transaction on Networking, 1999, 7 (3) :277-292.

[3]谢海波, 王海燕.无线局域网QOS技术发展综述[J].现代电信科技.2005, 34 (08) :50-53.

实时语音 篇6

连续斜率增量调制 (Continuously Variable Slope Delta modulation) 语音编码技术最早由Greefkes和Riemens于1972年提出。与固定增量编码相比, CVSD具有跟踪信号变化快慢而改变量阶的特点。擅长处理丢失和被损坏的语音采样, 即使误码率达到4%, CVSD译码语音质量任然可以接受[1]。CML公司的CMX649专用芯片可以实现ADM和CVSD编码, 但在灵活性和可扩展性方面软件实现更具优势。TMS320C6455是TI公司推出的一款高性能专注于通信信号处理的芯片, 该芯片的处理能力能够实现CVSD编译码的实时工作。

1 CVSD工作原理

1.1 CVSD编码原理

和固定增量调制编码DM类似CVSD编码器对输入数字语音信号的幅度变化量进行编码, 与之不同的是在CVSD编码中, 信号差值量阶Delta不再是常值, 而是随输入信号的斜率变化而变化, 连阶判断逻辑用来捕获信号的斜率变化。输入语音信号x (n) 与预测信号x1 (n) 相减得到差值信号d (n) , 此差值信号经过一位量化器得到编码输出c (n) , 同时该差值信号作为连阶判断逻辑的当前输入进行连阶判断, 其判断结果控制当前编码c (n) 与当前预测信号共构建下一时刻预测信号x1 (n) 。

图中:D (n) =X (n) -X1 (n) , 为当前输入与预测信号的差值。

连阶判断逻辑常以最新3次或者4次编码输出值作为判断依据, 在本项目中采用3次连码判断, 判断逻辑为:

1.2 CVSD译码原理

译码过程是编码过程的逆过程, 接收码字首先进行连阶逻辑判断, 根据判断结果调整量化阶距delta, 同时接收码字根据最新的量化阶距进行逆量化, 获得差值信号d1 (n) , d1 (n) 与预测信号叠加获得当前的译码信号, 经进一步的低通滤波输出译码语音信号。

图中除最终输出信号与编码输入对应外, 其余信号都加上上标, 指示信道干扰对传输码字的影响。各变量的计算方式与编码环节类似, 通常语音信号能量大部分分布在300~3400Hz频带范围, 低通滤波器用于滤除带外信道噪声, 高频量化和过载噪声等, 高频噪声对语音音质的影响较大。

2 CVSD性能仿真

在CVSD仿真评估中量阶参数的选取会直接影响到语音译码的输出性能, 由于于心信号可以看做单音正弦信号叠加, 正弦波形在零点时变化率达到最大而在峰值时变化率最小。连码逻辑的判决结果可视为信号斜率变化快慢的参考, 出现连码时, 采取较大量阶以跟踪较快的信号变化, 非连码时采用较小的量阶减小颗粒噪声[2]。

根据以上原则, 选取适当的量阶参数对一段真实语音信号进行MATLAB仿真, 由图中时域波形可以看出, 解码后的语音信号能较好的恢复原始语音信号。

3 TMS320C6455软件实现及优化

3.1 CVSD软件设计

C6000芯片内部的运算功能单元达到2组共8个, 芯片的并行化程度非常高, 完全由人手工编写汇编程序代码反而很难有效分配资源, 发挥处理器并行处理的优势[3]。在实际项目中常采用C语言进行软件开发, 其中CVSD编译码部分的处理流程如图所示。

3.2 代码优化

在C6000系列芯片应用程序开发中, CCS开发环境提供了多种工具控制从代码输入, 编译, 优化, 下载的全过程。其中Profile工具对当前代码的运行性能进行全面的评估, 既可以对应用程序全局运行时间进行测试, 也可以针对单个函数函数甚至函数内部的循环块LOOP进行cycle数的统计。所有的Cycle数统计结果可以直接通过Profile下的Viewer工具直接查看分析, 也可以另存为.csv文件进行离线分析[4]。

从表1可以看出, 编译码函数在优化前后消耗的cycle数差异较大, 优化后均降低到优化前的40%以下, 根据系统容量的设计需要, 可进一步采用内联指令进行代码级的优化。滤波函数调用TI的信号处理库函数, 该函数已经由TI采用内联指令进行优化, 在实际系统中只需要进行参数配置即可。

4 结束语

将一段音乐经由TMS320C6455芯片进行CVSD编码并解码播放, 对比编码前后的语音质量发现, 即使加入干扰噪声CVSD编码在压缩文件信息量的同时仍然获得较好语音。基于6455芯片的CVSD语音编码实现可以大大改善超短波地空电台的话音传输质量, 提高了其抗误码能力和保密性能, 对超短波地空通信装备的发展和现有地空通信抗予扰电台的技术改造将有着重要推动作用。

摘要:本文介绍了CVSD语音编译码原理, 对CVSD编码仿真建模, 仿真分析了量阶参数对编码性能的影响。在TMS320C6455芯片进行了软件实现, 并利用CCS的Profile进行了代码优化分析。

关键词:CVSD,TMS320C6455,代码优化

参考文献

[1]李欣, 臧笛, 罗程.CVSD编码/译码器在语音系统中的应用[J].电子与自动化, 1999.

[2]黄富贵, 骞俊, 张静.CVSD的算法仿真及实现[J].桂林电子工业学院学报.2003, 5 (23) :5-8.

[3]张旭, 陈阵, 吴月珠.基于DSP的CVSD语音编解码[J].微处理机, 2001 (4) :52-54.

上一篇:中国青年手机使用调查论文下一篇:线的艺术