数字语音技术

2024-09-03

数字语音技术（精选12篇）

数字语音技术篇1

摘要：本文介绍了基于数字中继语音技术及计算机电信集成技术的呼叫中心硬件构成、编程思想及业务流程。该系统是以Windows消息机制方式设计程序,结合硬件驱动程序与数据库技术开发的呼叫中心。

关键词：数字中继,呼叫中心,消息机制

呼叫中心(callcenter)又称客户服务中心(customerservice center),早期的呼叫中心是指以电话接入为主的呼叫响应中心,为客户提供各种电话响应服务;现今的呼叫中心是一种基于计算机电信集成(computertelecommunicationintegration,CTI)技术,将电话通信和计算机两大技术融合在一起,利用计算机强大的信息处理能力和数据库技术,在传统电话网上提供更多增值服务,从而能有效地为客户提供高质量、全方位的服务。

本文介绍的是农业百事通呼叫中心,用户面向农民,是一个农业咨询专家系统,用户可以在线咨询关于农业比如农作物种植、动物养殖等方面的问题。该系统选用SHD系列数字中继模块,使用VB 6.0编程以及SQLServer数据库进行相应数据的记录。

1 硬件构成

系统框图如图1所示,SHD系列数字中继语音模块与坐席模块内插于服务器PCI插槽,两模块通过卡上H.100总线共享资源。语音模块通过数字中继线连接到程控交换机上,从而接入公众电话网。服务器通过网络交换机与短消息网关(ShortMessage Gateway,SMG)相连接,短消息网关负责分发和路由,再由短消息服务中心(ShortMessageServiceCenter,SMSC)负责短信的收发。服务器分别通过坐席模块和网络交换机与坐席电话和坐席电脑相连接。

SHD系列数字中继语音模块以PCI为总线,可实现采用E 1数字中继线接入的电话语音处理系统所需的绝大部分功能,其主要功能如下:

(1)可支持4个E 1即具有120路的电话呼叫处理和语音处理能力。

(2)可实现所有通道同时全双工录音和放音并由DSP硬件支持ADPCM格式的语音压缩,以及不同通道同时以不同格式录放音。

(3)带有信令处理所需的全部资源,可完成中国1号信令、7号信令和ISDN信令接继处理。

(4)全部通道可在录放音的同时进行DTMF信号的收/发,支持FSK信号收发。

(5)带有CT-BUSH.100总线,可以与其它带有H.100总线的CT产品互联并且兼容MVIP总线、SC总线和ST总线,实现模块间语音交换和资源共享。

(6)装有符合电信标准的防雷电路确保不受雷击损坏。

根据本系统的业务要求,主要使用了其电话的呼入与呼出、放音、DTMF信号的收发、SS7号信令及总线功能。

坐席模块可用于直接连接电话机构成人工坐席,或者提供交换机的分机用户线功能。支持将FSK/DTMF格式的主叫信息传送至坐席话机。坐席模块具有完善的防过流过压电路,支持长达5.5km的用户线。

网络交换机为系统提供网络平台,通过短信网关实现系统与用户之间短信的收发。

2 软件设计

本系统用VB 6.0编程,服务器操作系统为WindowsService2003,数据库为MicrosoftSQLServer。

系统有三个接入号码A、B、C,用户分为包时和普通用户。A面向包时用户免费开放,其他用户无权拨打;B面向所有用户收费开放;C与专家连线,面向所有用户收费开放。其中A和B接入后进行按键选择,按键1选择人工坐席,按键2选择语音信箱。通常情况下,用户可以通过人工坐席在线回答其问题,如果坐席无法回答用户问题,将问题记录下来,在24小时内请教专家,并将答案录制为语音文件。当语音文件放置到指定文件夹下后,系统会向用户发送短信提醒,用户可以根据短信提示收听语音信箱。此外,用户还可以通过拨打接入号C与专家连线,在线为其解答疑难问题。

2.1 SynCTI驱动程序

本系统使用的数字语音中继模块支持SynCTI驱动程序,程序使用Windows消息机制模式对模块的状态进行判断,再进行相应的处理。SynCTI驱动程序的体系结构见图2。

通过对ShIndex.ini、ShCtiConfig.exe、SS7Monitor.exe、SS7Cfg.exe等文件的设置配置驱动程序。

2.2 Windows消息机制

一个消息由一个消息名称(UINT)和两个参数(WPARAM,LPARAM)组成。在窗口的过程(WNDPROC)中可以对消息进行分析处理。系统通过窗口句柄在整个系统中唯一标识一个窗口,发送一个消息时必须指定一个窗口句柄表明该消息由哪个窗口接收。系统将会维护一个或多个消息队列,所有产生的消息都会被放入或是插入队列中。系统会在队列中取出每一条消息,根据消息的接收句柄而将该消息发送给拥有该窗口的程序的消息循环。每一个运行的程序都有自己的消息循环,在循环中得到属于自己的消息并根据接收窗口的句柄调用相应的窗口过程。

SynCTI驱动程序在输出事件时,可以使用2种数据结构:MESSAGE INFO和SSM EVENT,本系统使用的是前者。

wEvent为事件编码。SynCTI驱动程序抛出的事件大致分为下列几种:

(1)E CHG xxxx:驱动程序内部的某个状态或计数器发生变化。

(2)E PROC xxxx:应用程序提交的某个任务有进展。

(3)E SYS xxxx:驱动程序检测到某个事件发生。

(4)E RCV xxxx:驱动程序从对端交换机收到某个消息或事件。

其中,xxxx表示事件的标志符。而参数nReference和dwParam的物理含义与参数wEvent的值有关。例如:事件编码:0x000F,事件类型:E PROC PlayEnd,描述:放音任务结束,nReference:通道的逻辑编号,dwParam:输出放音任务终止的原因。通过该数据结构,可以获得当前事件的具体状态及所发生的通道号,以此对事件进行处理。

2.3 系统综合

系统使用7号信令,有三个接入号,其中A和B接入后进行按键选择,按键1选择人工坐席,按键2是选择语音信箱,其业务流程图如图3。

首先系统先判断用户拨打的接入号码。当用户拨打接入号A或B后,会有语音提示用户选择按键,通过DTMF判断用户的按键选择。

当用户选择人工坐席时,查询是否有空闲通道。若有,建立连接;若没有,提示用户系统繁忙。其部分程序如下:

当有电话打入人工坐席后,用户手机号、接入时间会显示在界面上,坐席只需记录用户的问题,并将问题是否处理的状态进行选择,坐席的问题记录界面如图4。

当用户的问题解决后,将录制好的语音文件放到指定路径下后,点击图4中的“问题处理”,弹出相应对话框,如图5。

当用户选择收听语音信箱时,首先查询是否有问题记录及其个数,然后通过判断记录条数的不同播放语音文件及语音提示音,并可以根据提示选择是否重播。其部分程序如下:

当用户拨打专家热线即接入号C时,系统自动选择专家号码与其建立连接后,再与用户连接,连接后的业务流程与人工座席类似。

3 总结

本文介绍了选用SHD系列数字中继语音模块开发的数字呼叫中心系统,主要内容包括其硬件构成和软件开发模式。该系统已投入运行,并且运行稳定。呼叫中心的构建方式逻辑清晰,功能稳定,可扩展性强,易于开发和维护,并可推广应用到其他领域,比如燃气行业、有线电视网络、气象中心等。

参考文献

[1]SynCTI程序员手册Ver4.8.0.1.pdf,

[2]徐琳茜,吴开炎,赵建涛.基于语音卡的语音信箱系统的设计与实现[J].华北电力大学学报.2006.33(4).62-64.

[3]张大陆,曹栋.快速移植的微型呼叫中心设计[J].计算机应用研究.2006.5.230-231.

[4]刘韬,骆娟.Visual Basic数据库通用模块及典型系统开发[M].北京.人民邮电出版社.2006.

数字语音技术篇2

TOPTRONS数字语音室软件教学系统

拓创公司纯软件语音教学系统是以计算机、网络、多媒体最新技术开发的新一代教学系统。它把计算机教室、多媒体网络教室、语音教室集合于一体，整合丰富的多媒体外语学习资源，学生在听到声音的同时又能感受丰富的动画效果，突破了传统的语音教室单一听力教学模式；和多媒体网络教室相比，纯软件语音教室除了拥有多媒体网络教室所有功能外，还拥有专业的语音教学功能。拓创公司纯软件语音教室使课堂更生动活泼，又达到寓教于乐、事半功倍的教学效果，是语言教学的最佳选择。

随着外语教学大纲2004年改革的开始，建设校园数字化视听语音教室，实现外语教学的多样化，己成为当今各学校教学的必要举措。

丰富的教与学功能，使学生方便地应用计算机和网络技术进行自主学习；同时也便于教师因材施教，组织多种形式的教学活动，及时获得学生学习的反馈。纯软件语音教室具有比以往传统的硬件语音教室教学手段更好的效果，成为现代及未来语言教学不可或缺的组成部分。

产品特色

 数字化网络传输，保证CD音质。 支持音、视频跟读学习。

 合班教学，在教师资源紧张或者大班授课时，一个教师可同时给多个教室进行授课。 完美的分组讨论功能，并可实现独特的分组录音保存功能。

 提供专业的语音复读机，具有数字录音、复读跟读、波形对比、变速不变调、自动回句等功能。

 强大的统计功能，可实现学生资源使用情况和考试的统计。 强大的考试功能，支持A/B卷、四六级考试、考场监控。 实现网络安装，节约安装维护时间。 中英文接口随意切换，满足外教教学需求。

拓创科技-智能控制系统制造商

功能介绍

一、无限教学中心

屏幕教学

教师可调用预先编辑好的课件进行广播教学，声音亦同步广播给学生，屏幕教学过程中，教师可选择让学生发言，教师和所有其它学生均可听到发言。媒体教学

教师可广播视、音频给指定的学生或全班学生。语音教学

语音教学是外语教学中最常用的功能，教师可选择不同的音源进行教学：  耳麦：教师通过耳麦口授教学。 CD：可把光驱里CD的声音广播给学生。

拓创科技-智能控制系统制造商

 卡座：可把卡座里磁带的声音广播给学生

 所有声音：可把教师机上听到的所有声音都广播给学生，比如在卡座声音播放给学生的时候同时教师通过咪对学生进行辅导。分组讨论

教师可以按照自由分组和固定分组等不同的方式对学生进行分组，每个小组的人数不受限制，最多可为班级所有人在同一小组。

学生在讨论的过程中教师可进行插话对小组进行辅导或监听以了解各小组讨论情况。同时还可以录制分组讨论的内容。文本交流

老师和学生、学生与学生之间可进行文字交流，可有效的提高学生书面表达能力和词汇掌握情况。不同的组分别进行不同主题的文字交流。双向对讲

教师可和一个或者多个学生实行双向语音交流，学生之间亦可进行双向对讲。示范教学

教师选定一个学生进行示范教学，将该学生的屏幕和声音广播给教师以及其它所有学生。实名登录

学生注册后，教师可直观的在主控窗口看到学生的姓名等信息。课堂测试

教师随机向学生发布一道选择题，学生通过键盘选择答案，学生选择的答案同步在教师屏幕上显示。教师亦可对学生答题情况进行统计分析。

拓创科技-智能控制系统制造商

二、无限复读机

复读机是外语学习中的重要工具。在教学模式下，学生端复读机受到教师机复读机的控制，按照老师的要求进行分段等不同方式的学习，有利于教师控制学习的进度；在自学模式下，学生可根据自身情况进行跟读学习，同时亦可进行波形对比。主要特色如下：  波形对比  复读跟读

 音文对照：学习音频内容的时候，复读机窗口显示相对应的文字信息，方便学生学习。 书签功能：可自由设定99个书签。

 变速不变调：可以50%-150%调节语速，不改变语调。 数字录音：可把磁带等录音转换成MP3通用格式存放在硬盘。 自动回句：回到句子起始位置重新播放。

三、学生自主学习中心

学生自学模块充分考虑到《新大纲》提倡的“注重学生自主学习能力的培养”以及“允许学生随时随地选择适合自己需要的材料进行学习”。

拓创科技-智能控制系统制造商

 音频点播：学生可点播资源服务器中的音频档案，支持主流的MP3格式。 视频点播：可点播资源服务器中多种视频格式的资源，包括MPEG4、RM等。 文章阅读：实现电子阅览室的功能，还可以实现音文对照。 课件浏览：学生可点播Flash、Powerpoint等课件。

四、资源管理（备课）

 资源导入：导入音视频、文本、课件等资源。

 账号管理：对学生登录账号的管理，可批量导入学生账号，节省老师工作量。 评估学生：教师可了解学生自主学习的情况，以便进行考核。

 教师备课：教师编辑授课所需的课件，放到资源库中，以便于上课期间调用。

五、无限考试模块（可选）

（系统管理窗口）

拓创科技-智能控制系统制造商

（学生考试界面）

 支持英语四、六级以及A/B卷考试；  超文本格式的试题试卷内容；

 丰富的试题类型，包括选择，简答，听写以及口语回答；

 试卷自动生成功能，可以由教师选定规则，自动抽取符合条件之试题组成试卷，自动化操作；

 灵活的考试手段，提供教师监考指定考试以及学生自考的功能；

 强大的考试监控功能，提供实时的考试管理及监控，实时反映学生状态及灵活管理；  统一的试题、试卷、用户和分类管理，接口一致，方便学习使用；  分权限类型的用户管理，不同类型的用户使用不同的资源，简化复杂度；  自动化阅卷和手动阅卷相结合，减轻教师批阅试卷的工作量；  可储存和打印试卷以便学生书面作答。

六、无限计费中心（可选）

拓创科技-智能控制系统制造商

系统自动记录学生使用机器的开始和结束时间，反映设备使用情况，也便于学校进行收费管理。

拓扑图

拓创科技-智能控制系统制造商

系统配置

教师机

Celeron 800以上，256M内存。

16位声卡(推荐使用创新SB Live!系列声卡)100M网卡。

Windows 2000或Windows XP。

学生机

Celeron 800以上，128M内存。

16位声卡（推荐使用创新SB PCI128声卡）100M网卡。

Windows 2000或Windows XP。

服务器（可选）

P4 1.6G以上，256M内存，100G可用硬盘空间。Windows 2000 Server 网络

100M交换网络

浅谈数字语音室的特点及应用篇3

关键词：数字语音室；特点；应用

随着计算机技术的不断发展，数字语音室的建设和发展成为新的趋势。数字化语音室的教育需要考虑到网络规则的具体变化，通过控制数字信号或者声音的形式，实现语言教育。数字化传输方式本身的损耗比较小，传播速度比较快，要重视数字语音室的具体应用。

一、数字语音室的特点

（一）数字化。在传统的语言系统设计阶段，学生端和主控端可以通过模拟信号的形式对信息进行传输。模拟信号则是通过模拟电子器件产生的，在整个传递过程中会受到其他因素的影响。数字语音室则考虑到数字化的特点，应用效果明显，很难受到其他因素的影响，在教学内容录制和编辑过程中实用性比较强，具备一定的可行性。

（二）智能化。原有的语言实验室以录音机为主要载体，将学生客户端和主控端联系在一起，实现设备信号的有效接入和应用。数字语音室的智能化设计形式比较特殊，不存在机械部件，因此机械故障比较少。

（三）网络化。网络是一个巨大的信息资源库，需要及时对各类信息进行有效的处理。网络资料是处于实时更新的状态中的，覆盖了社会的方方面面，为学生和教师提供了更多的选择机会。数字语音室设定主要是采用无线网设定的形式，将学生端和教师端连接在一起，建立一个系统的无线局域网，实现网络的无缝对接。利用现有的网络资源，能给师生之间和学生之间增加交流的机会，实现网络的有效处理。

二、数字语音室的具体应用

（一）实现自主学习。传统的教学形式忽视了学生的个性化差异，数字语音室的教学形式能让每一个学生具备自主学习的设备。在实践阶段，学生可根据自身的学习能力和学习水平，按照进度形式和要求进行学习。教师也要起到一定辅助作用，很多学生自身规划性比较差，无法及时选择有效方式学习，因此教师可以根据教学进度的要求，为学生安排有效的活动，让学生按照学习计划进行。例如在听说训练教育阶段，教师可以让学生采用角色扮演的形式进行学习，配合录音对选择的角色进行反复练习。学生可以将录音内容带走，便于在课后进行学习。

（二）实现互动交流。针对不同课程形式的特殊性，在交际活动教育阶段，对学生的自身学习情况有一定的要求，课件中的交际活动设计需要通过学生间的相互协作完成的。学生之间可以成立学习小组，小组成员在4-6人左右，对同一个项目进行有效的分析和讨论。通过学生相互间在计算机上的交流和沟通，能有效培养学生的语言技能。此外数字语音室教学内容比较多，为了提升学生的学习能力，要重视教学案例的选择，考虑到学生的具体情况，强化训练学生的英语听说能力，增加学生学习英语的兴趣和信心，提升学生的参与能力，满足互动教学机制的整体要求。

（三）开展网络系统。网络资源为教学内容，在系统设定的过程中，教师需要对英语教材内容有一定的了解，直接登录到相关的英语教学网站中，对学生的资料进行收集。此外在网络系统开展中，要了解学生的内心想法，根据学生的回应，适当对教学模式进行调整。学生可以听取相关网站提供的材料，开展各种形式的教学活动。教师也可以向学生介绍国内外优秀的英语学习网站，选择适合自己语言训练的材料，采用搜索引擎的方式，选择自己感兴趣的方向。现有的网络系统教学形式优势比较明显，能充分显示学生的个性化特点，体现出个性化教育的学习特点。

（四）语言输入教育。语言学习是通过语言输入完成的，因此在学习中要对语言形式进行有效的分析，考虑到语法大纲的具体要求，提升语言的学习能力。非母语教学环境容易受到多种因素的影响，也是语言学习的重大弊端，在应用阶段考虑到语言环境的特殊性，要重视听力系统的训练和后续教育，利用数字化语言学习系统，创建教学情境，实现信息的有效传递。在实践中，教师需要考虑到的输入形式的具体要求，根据指标结构和语音室具体情况，引导学生学习，实现信息的高效输入。

结束语：数字语音室的教学形式比较特殊，在应用阶段，要及时对教学环境进行分析，根据现有的教学评估政策要求，为了实现信息的有效处理和应用，要满足已有教学模式的具体要求，落实教育政策。数字语音室辅导教学方向是光明的，教师和广大工作人员要合理对网络化教学形式引起重视，帮助学生更好的学习英语，提升自身英语学习能力。

参考文献：

数字语音辅助设备发展预测篇4

Stategy Analytics最新调查研究表明,数字语音辅助设备这一产品类别将会发展迅猛,年度总出货量将会从2016年的180万部激增到2020年的1510万部。

零售方面,Google Home预计销售价格为129美元,比Amazon Echo便宜50美元。然而,亚马逊同样提供低端版本——Echo Dot,六组的售价为250美元。其价格更亲民,利于驱动消费者采用,这样消费者便可把Alexa设备放置在家里的每个房间。

如此低的价格,两家公司都不太可能在硬件销量上赚取利润,但对于谷歌和亚马逊来说关系不大。对于亚马逊,Alexa为消费者提供操作简单的交互界面来订购公司当前提供的数字和实体产品,以及未来可能提供的如购买机票这类服务。谷歌已经开始利用诸如Google Express这类新的服务帮助用户购买机票,该服务提供当天送达,这正在对亚马逊的核心业务构成威胁。Google Home将对谷歌的所有服务提供自然语言交互界面。

Strategy Analytics智能家居战略服务高级分析师Joe Branca表示,“亚马逊最先推出数字语音辅助设备,并已售出数百万台支持Alexa的设备。但该类产品仍是新生市场,先发优势并不能保证长期的成功,尤其是鉴于Google Home提供一些独特的功能。数字语音辅助设备最大的能力之一是识别特定用户并提供定制化回应——这将对许多智能家居应用很有帮助。”

Google Home也支持多房间音频同步以及和Chromecast的互动,比如在电视上播放流视频。Strategy Analytics互联家居设备服务总监David Watkins表示,“Google Home和Amazon Echo在产品规格上的差别并不是太大,然而Google Home可以控制任何支持流播(cast)设备的能力使其为现有的谷歌设备用户提供了引人入胜的功能。”

数字语音技术篇5

根据信息技术与课程整合的`基本要求,提出基于校园网实现语音数字化教学的设计思路,研究开发出一个“数字语音网络教学系统”.教师利用这套系统可在任何一个网络终端建立自己的备课模板.再由管理员建立排课模板,然后带着遥控器,即可在普通教室轻松点播教学所需的高品质的数字音频节目.另外,这套系统还可以实现点对面播音、分区播音、定时播音和学生自主点播学习等,使教学过程实现数字化.

作者：李嫒作者单位：大连广播电视大学甘井子分校,辽宁,大连,116003 刊名：硅谷英文刊名：SILICON VALLEY 年，卷(期)： “”(3) 分类号：G43 关键词：数字化网络化资源共享数字语音网络教学系统

浅谈语音处理技术篇6

关键词：语音用户界面；VoiceXML；语音技术

中图分类号：G202文献标识码：A文章编号：1009-3044(2007)12-21612-01

The Tray Talks about the Technology of Pronunciation Treatment

BAO Yuhong1,CAO Zhong2

(1.The Occupation Tec College of Changji Computer Department,Changji 831100,China;2.The Occupation Tec College of Changji,Changji 831100,China)

Abstract:Voice recognition is a multidisciplinary cross frontier branches of science,it needs the field professional knowledges such as linguistics,psychology, project and computer.Be going to be in progress to voice recognition and the speech synthesis technology studying,to want to be in progress to person in the field of pronunciation passage lower interactive mechanism, behavior way etc.too studying not only.

Key words:VUI;VoiceXml;Voice Technology

1 引言

语音处理技术是语音用户界面设计和开发的基础，为了有效的设计语音界面，我们应该也必须了解语音处理技术的基本概念和发展现状。主要包括语音合成、自动语音识别、双频多音和打断功能几个方面。

1.1语音合成技术

语音合成是人机语音交互的一个重要组成部分，它赋予了机器“说”的功能，并且目的是让机器象人那样说话。在20世纪60年代后期到20世纪70年代后期，实用的英语语音合成技术系统就已经首先被开发出来，随后各种语言的语音合成系统也相继被开发出来，包括中文，如清华大学的新华音霸KingVoice1.0[7]。现在语音合成技术己经能够实现任意文本的语音合成。语音合成技术的应用领域十分广泛，如：电信服务、自动报时、报警、公共汽车或电车自动报站、电话查询服务业务、语音咨询应答系统，打印出版过程中的文本校对、电子邮件、各种电子出版物的语音阅读等。这些应用都已经发挥了很好的社会效益。

文语转换技术TTS(Text to Speech)是语音合成技术中的一类，也是语音合成技术的主要方向。TTS是指通过一定的硬件、软件将文本转换为语音，并由计算机或电话语音系统等输出语音的过程，并尽量使合成的语音具有良好的自然度与可懂度[8]。使用该技术，业务提供者不用预先录制业务语音，就可以直接播放文本信息，满足信息的动态性和实时性的需求。文语转换系统能够提供一个良好的人机交互界面，可以用于各种智能系统，如信息查询系统，自动售票系统；也可作为残疾人的辅助交流工具，如可以用作盲人的阅读工具或作为聋哑人的代言工具；从长远看，文语转换系统还可以用于通信设备或一些数字产品中，如手机和PDA等，而且韩国己经推出了TTS功能手机。

文语转换系统的三个核心部分是文本分析、韵律控制和语音合成这三个模块。

其结构如图1所示。

图1 文语转换结构模型

1.1.1文本分析

文本分析的主要功能就是使计算机能够识别文字，并根据文本的上下文关系在一定程度上对文本进行理解，并知道要发什么音、怎样发音，并将发音的方式告诉计算机，甚至还需要让计算机知道文本中的词、短语、句子，以及抑扬顿挫。文本分析的工作过程可以分为四个主要步骤；

(1)将输入的文本规范化。用户可能的拼写错误将在这个过程中被处理，并将文本中出现的一些不规范或无法发音的字符过滤掉；

(2)分析文本中的词或短语的边界，确定文字的读音，同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式；

(3)根据文本的结构、组成和不同位置出现的标点符号，来确定发音时语气的变换以及不同音的轻重方式；

(4)文本分析模块将输入的文字转换成计算机能够处理的内部参数，便于后继模块进一步处理并生成相应的信息。

1.2.1韵律控制

任何人说话都有韵律特征，有不同的声凋、语气、停顿方式，发音长短也各不相同，这些都属于韵律特征，而韵律参数则包括了能影响这些特征的声学参数，如：基频、音长、音强等。最终系统能够用来进行语音信号合成的具体韵律参数，还要靠韵律控制模块。

1.3.1语音合成

文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法，其中最具代表性的是基音同步叠加法(PSOLA)。其核心思想是，直接对存储于音库的语音运用PSOLA算法来进行拼接，从而整合成完整的语音。然而，基于波形拼接方法的系统有一个致命缺点，就是它的音库非常庞大，需要占据较大的存储空间。这对系统推广到掌上电脑或一些小的终端设备上非常不利。另外，在拼接时，两个相邻的声音单元之间的音谱的不连续性也容易造成音质的下降。目前，解决这些问题较好的途径是把基于规则的波形拼接技术和参数语音合成方法结合起来。

1.2自动语音识别ASR(Automatic Speech Recognition)

自动语音识别(ASR)就是让机器具有“听”的功能。它是计算机系统接收人的语音输入并返回对应于该语音输入的单词、短语或数字的过程。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分。

(1)语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法)：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，从而得到最佳的识别结果。

(3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别能力。

1.3双音多频

双音多频DTMF(Dual Tone Multi-Frequency)信令，已经使用在全世界范围内的按键式电话机上，因其提供更高的拨号速率，迅速取代了传统转盘式电话机使用的拨号脉冲信令。近年来DTMF也应用在交互式控制中，诸如语言菜单、语言邮件、电话银行和ATM终端等。双音多频(DTMF)系统通过电话网络中的硬件和软件对按键式电话的键盘输入进行翻译，实现音频播放。每个按键都能产生一个可被识别的独一无二的音频。该系统使得用户可以使用电话键盘将数字信息输入VoiceXML应用程序，并且由程序负责接受和理解这此数字信息。

1.4打断功能

用户通过双音多频(DTMF)输入或者语音输入来中断提示信息的播放，这种功能称为打断功能，这种打断功能有着非常重要的作用。有效的打断方案的目的是要最大限度地缩短最终用户请求停止播放提示到系统实际停止播放提示之间的时间。打断响应时间大约为几百毫秒或更短。

由于大多数语音门户结构均通过电话资源来支持DTMF，因此通过这个界面来传递TTS的输出很容易支持有效的打断机制。但是，对语音打断机制的支持在大多数情况下可、如DTMF打断机制那样有效。语音打断机制要求有一个活动ASR资源和TTS资源连接到相同的端日，连接到相同端口后，当提示播放时，用户发出的语音命令就可以“立即”被识别。当用户的语音命令被认定为有效命令时，语音处理器就被告知停止提示。

2 结束语

语音识别技术是2000年至2010年信息技术领域十大重要技术之一，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别是模式识别的一种，它是让机器通过识别和理解过程将语音信号转变成相应的模型参数。作为一个专门的研究领域，语音识别又是一门交叉学科。

参考文献：

[1]顾良,刘润生.改进汉语数码语音识别中的语音特征提取性能[J].电路与系统学报,1997,2(4):1-6.

[2]姚涵珍,陆文秀.TTS中文语音合成技術的研究与实践[J].天津科技大学学报,2004, 3,Vo1.19,No.l,65-67.

[3]刘占军,计算机语音系统软件的研究与开发[J].计算机应用,2001.5,Vol.21.No.5,67-68.

数字语音技术篇7

近年来,通信事业发展迅速,各种新技术相继出现,使人们对通信质量的要求更为苛刻,以致频谱资源越来越紧张。在保证良好通信质量的情况下,如何提高频谱利用率,已经成为一个难题[1]。通信系统中,语音编码技术是移动通信数字化的基础,语音编码决定了接收的语音质量和系统容量。低比特率语音编码提供了解决该问题的一种方法,在编码器能够传送高质量语音的前提下,语音编解码比特率越低,就可以在一定的带宽内容纳更多的语音通道[2]。因此,人们不断地寻求新的编码方法,以求在低比特率的前提下,提供较高的语音质量。

英国CML公司推出的语音编解码芯片CMX618,能够以较低的比特率进行编解码处理,并保证很高的语音质量。在此基于CMX618设计实现了一个数字语音通信系统,该系统结构简单,但功能强大,而且它的工作电压很低,功耗很小,非常适合通信领域开发使用。

1 CMX618功能与特点

1.1 RALCWI算法

CMX618是接近长话级的半双工语音编解码芯片,通过一种新的数据速率算法技术——RALCWI技术,对语音进行编解码处理。RALCWI是一种鲁棒的先进的复杂性波形插入技术,与其他语音编解码技术不同[3],它使用独有的信号分解和参数编码方法,可确保在较高的压缩率下有很好的语音质量。在声码器中,采用RALCWI技术实现的语音质量与编码位速率在4 Kb/s以上的标准声码器话音质量基本相符。它的MOS(平均意见得分)处于3.5~3.6之间,而且表现相当优秀。

RALCWI声码器以帧-帧为基础进行传输。在8 kHz的采样速率下,对语音信号进行分帧处理,每帧语音包含160个采样点,形成20 ms的元语音帧。语音编码器以较高的计时分辨率(8次/帧)进行语音分析,对每一个语音段都会生成一系列的评估参数。然后,使用不同的矢量量化(VQ)方法,这些估算参数被量化生成41 b,48 b或55 b的帧。值得一提的是,这些向量量化值是以多语言语音为基础进行混合编排的,包含了东西方多种语言的语音采样值[4]。

1.2 芯片主要功能及特点

CMX618语音编解码芯片体积小,性能高,功耗低,其具体特点如下:

(1) 编码时,有三种位速率可供选择(2 050 b/s,2 400 b/s或者2 750 b/s)。在选择前向纠错编码(FEC)的情况下,可通过信道编码和交织处理形成3 600 b/s的位数据流(60 ms/216 b的数据包或80 ms/288 b数据包)。

(2) 解码时,可选择前向纠错(FEC)解码器对输入编码后的语音位流(216 b/60 ms或者288 b/ 80 ms的数据包)进行解交织和信道解码,生成纠错后的编码语音位速率为2 050 b/s,2 400 b/s或者2 750 b/s,速率依据所选的模块而定。当使用FEC解码器时,可利用“软决策”方法增强解码功能,减小误码的产生。

(3) 内部含有一个集成的语音压缩/解压器(CODEC),实现模拟语音到低位速率编码的压缩/解压过程。

(4) 芯片大部分功能,均可通过软件编程的方式,配置内部的寄存器来实现,简单方便。

(5) 具有非连续发送检测(DTX)、舒适噪声生成器(CNG)、语音激活检测(VAD)和双音多频信号检测(DTMF)的检测和产生等辅助功能,使语音性能达到最佳[4]。

1.3 CMX618工作原理

CMX618内部结构图如图1所示。

由结构图可以看出,CMX618主要由音频压缩/解压器(CODEC)、RALCWI编解码器、前向纠错编解码器和其他特殊功能模块几部分组成。

编码时,输入的模拟语音首先要经过音频压缩/解压器(CODEC)模块,进行调节增益、A/D转换、滤波和压缩处理,然后进入编码器中开始编码。编码后,如果选择使用前向纠错(FEC)功能,则会对编码进行纠错处理,尽量消除误码。这样,编码后的语音数据,按选择的位速率和帧的结构生成数据包,利用C-BUS串行总线,传输到微控制器LPC2138中。

解码是编码的逆处理过程。经C-BUS串行总线传输的数字语音,进入解码器(可选择FEC功能)开始解码,然后经过解压、滤波、D/A转换、调节增益等处理后,就成为可以听到的模拟语音。

另外,在编码和解码期间,如果选择一些辅助功能,例如非连续发送检测(DTX)、语音激活检测(VAD)或双音多频信号检测(DTMF)时则需另行处理。

2 系统设计实现

2.1 微控制器

ARM微控制器具有内核耗电少,功能强,成本低等优点,现在多应用于无线通信、GPS、智能手机开发等诸多领域。这里选用PHILIPS公司的LPC2138作为数字语音通信模块的主控制器。LPC2138是一个基于支持实时仿真和嵌入式跟踪的32位ARM7TDMI-S CPU 的微控制器芯片,较小的封装和很低的功耗使LPC2138特别适用于小型系统中[5]。此外,由于LPC2138片内集成了ROM,RAM,A/D和多个外设模块,如通用I/O口、定时器、串行口等,因此非常适合于通信网关、协议转换器、软件modem、语音识别、低端成像等场合,为这些应用提供大规模的缓冲区和强大的处理功能[6]。

2.2 系统的硬件设计与实现

基于CMX618的语音通信模块主要由语音编解码器CMX618和LPC2138组成,如图2所示。

该语音通信系统使用CMX618内置的CODEC模块,其内部集成了A/D和D/A转换、通道滤波、增益调节等功能,足以满足对模拟语音的抽样、量化等操作的指标要求。因此,无需再外接芯片,也节省了大量的物理空间,这在实际的开发设计中是十分重要的。

微控制器LPC2138通过C-BUS串行总线与CMX618连接。C-BUS是一个四线中断-驱动串行系统,可在主控制器和CMX618内部寄存器间进行数据传输、控制或状态信息的发送[7]。

2.3 系统的软件设计与实现

系统的软件设计主要是编写CMX618的驱动程序,以及对主控制器LPC2138进行编程实现对CMX618的控制。在上电后,首先应初始化CMX618和LPC2138。对语音编解码芯片,要配置其中的一些功能寄存器,这包括设置编解码位速率、组帧结构、增益大小、辅助功能选用以及开启中断标志位等;对主控制芯片,则要配置接口方式、中断条件和传输速率等。

实际应用中,为使编解码过程中的纠错能力达到最佳,在使用前向纠错(FEC)编码器处理语音编码时。可选择声码器帧以3×20 ms或4×20 ms的形式进行数据包传输。这种把多帧数据进行封装、打包传输的形式,更有效地抑制了误码的产生[8,9]。

这里,要注意CMX618语音编解码芯片的状态(state)寄存器(地址为MYM40)。编码和解码操作在状态寄存器中都有对应的标志位,当采用中断方式编解码时,每次要先读出状态寄存器中对应标志位的值,只有当对应标志位的值为“1”时,才会产生中断,执行相应的操作,如图3所示。

其中,在状态(state)寄存器(地址为MYM40)中对应的状态标志有VDA,VDW,RDY。其中,VDA为编码标志位;VDW为解码标志位;RDY为等待配置标志位。

2.4 关键问题

(1) 采用RALCWI算法时,由于存在算法抖动,会使编码每一帧时花费的时间不同,这使微处理器对输出数据的时间不好掌握。为解决此问题,在编码时,会给微处理器一条指令,只要编码可行,就会进行数据传输;在解码时,则会增加一个初始延迟时间,避免CODEC因无采样数据而产生时间空隙。

(2) 为了提高微控制器LPC2138与CMX618间的传输速率,使用C-BUS串行总线读/写寄存器时,可采用“数据流”的方法传输数据,即只需要一个地址/指令,就可以传输多个数据字节。具体实例如图4和图5所示。

利用C-BUS串行总线,写入CMX618内部寄存器的过程中,从主控制器传过来的数据,首个字节为CMX618寄存器的地址,然后,数据就会源源不断地传入此寄存器中;同样,从CMX618内部寄存器读出数据时,首先也要写入寄存器的地址,确定位置,然后就可以从此寄存器中读出数据了,直到传输完为止[10]。

3 应用

该语音通信模块已经成功应用于900 MHz数字无中心对讲机中,图6为900 MHz数字无中心对讲机各功能模块的结构简图,图中的语音模块与微控制器部分即为涉及的内容。如今,民用对讲机逐步数字化已是大势所趋,国内外众多机构已经投入了大量的人力、物力进行研究和开发[11],故此系统有着广阔的发展空间。

4 结语

研究了CMX618在语音通信系统中的应用,虽然CMX618刚刚研发出来,很多人还不了解,但它的诸多优越性能已足以受到广大设计者的青睐。基于该芯片设计的数字语音通信系统,有很好的清晰度和稳定性,在通信产业迅猛发展的今天,必将有着广阔的应用前景。

参考文献

[1]苏桃.浅谈语音压缩编码的发展和应用[J].科技情报开发与经济,2006,16(22):157-158.

[2]石广源,王福君.低速率语音编解码声码器的实现[J].辽宁大学学报,2006,33(3):224-227.

[3]赵叶星,韦志棉.基于AMBE-2000的数字语音传输系统[J].无线电工程,2007,37(7):30-31.

[4]CMX608/CMX618 Half-Duplex RALCWI Vocoder Data-sheet[Z].2007.

[5]周立功.深入浅出ARM7-LPC213X/214X(上册)[M].北京:北京航空航天大学出版社,2005.

[6]周立功.ARM微控制器基础与实践[M].2版.北京:北京航空航天大学出版社,2005.

[7]周明德,蒋本珊.微机原理与接口技术[M].2版.北京:人民邮电出版社,2007.

[8]ETSI.TS 102 490.2005-12.Peer-to-Peer Digital Private Mo-bile Radio Using FDMA with a Channel Spacing of 6,25kHz with e.r.p of up to 500 mW[S].2005.

[9]ETSI.TS 102 361.2006-9.Digital Mobile Radio(DMR)Systems[S].2006.

[10]Maitreyee Dutta,Renu Vig.An I mproved Method ofSpeech Compression Using Warped LPCand MLT-SPI HTAlgorithm[J].WSEAS,2006,24(22):85-94.

数字化语音存储与回放系统设计篇8

关键词：数字化语音存储与回放系统设计,单片机,系统方案,硬件设计,软件设计

引言:在电子与信息处理的使用中, 已采用数字化语音存储与回放系统完全代替了传统的磁带语音录放系统, 它体积小巧、功耗低, 主要以对语音的录音与放音的数字控制为基本原理, 其主要技术在于:采用了非失真压缩算法对语音信号进行压缩后再存储, 不仅增加了语音存储时间, 同时也提高了存储器的利用率, 从而确保了语音回放的可靠质量。

一、系统方案

语音芯片的种类虽多, 但有的缺乏灵活性, 难以满足不同场合的需要。为此, 可使用微处理器控制的语音数字化存储与回放系统。系统采用高速LinCMOS8位模数转换器TLC0820AC完成语音信息的采集, 用两片静态RAM628128作片外数据存储器, 用以存放语音信息, DAC0832完成语音回放。该系统对语音信号的采样频率为8/4kHz, 能对语音进行压缩, 回放音质较好, 其结构原理如图1所示。

语音信号经放大滤波后, 送入A/D进行模数转换。转换后的数字化语音信号, 通过单片机的控制写入片外数据存储器, 完成语音数字化存储。回放时, 单片机从数据存储器中将数据读出, 送入并行D/A转换器, 进行数模转换, 转换后的模拟信号经滤波、功率放大后, 实现语音回放。

二、硬件设计

2.1单片机系统控制电路

本系统主要由8031、ADC0808、DAC0832、8255及RAM62256组成, 其中ADC0808、DAC0832及8255的片选信号由8031的高位地址经74LS138译码所得。在电路中利用8255进行数字存储器的扩展, 其中PB, PC用于扩展地址, PA用于扩展数据。

2.2 A/D电路

A/D电路由模拟语音信号处理电路及A/D转换电路组成。其工作原理如图2。

整个模拟语音信号输入处理电路, 包括:前置放大器、带通滤波器及电平范围调整电路。一般麦克风输出电平为几十毫伏, 经增益约为46 dB的前置放大器A1放大至1 V左右的范围, 以便推动后级电路。带通滤波器的通带为300~3 400 Hz, 系统的采样频率定为8 kHz, 即每秒钟采样8 000点语音数据, 每一点数据以一个字节表示。电平范围调整电路是将原先双极性的语音信号转换到0~5V的范围, 以满足ADC0808对接口信号的要求。

2.3 D/A电路

图3为D/A转换的工作原理图。D/A芯片DAC0832是8位双极性电流驱动的数模转换器。

由于所要转换输出的信号为语音信号, 其本身是双极性的信号, 因此对杂音的处理尤其重要。在无信号输出时, 希望其输出对地是零电位, 因此应用两组运算放大器作为电流到电压的转换器, 完成双极性控制的目的。数字信号经D/A转换、双极性电流至电压变换后已成为模拟语音信号, 经带通滤波器再送往音频功率放大器, 做适当的功率提升而推动喇叭。

2.4带通滤波器设计

为了滤除不必要的干扰及杂波, 系统前向通道和后向通道中各设计了一个通带为300 Hz~3 400 Hz的带通滤波器。此带通滤波器由一个低通滤波器和一个高通滤波器串联而成。其中低通滤波器上限频率为3 400 Hz, 高通滤波器下限频率为300 Hz, 电路如图4所示, 其中A1构成低通滤波器, A2构成高通滤波器。如选R1=R2, C1=C2, R5=R6, C3=C4, 则有:fH=1/ (2πR1C1) 、fL=1/ (2πR5C3) , 故很易选定各参数值[2]。

三、软件设计

3.1总体程序设计

系统程序由三部分组成, 即主程序、键盘中断处理程序和系统定时器中断处理程序。各部分程序功能如下所述:

1) 主程序

程序中将程序运行状态分为四种, 即F R E E (空闲态) 、RECORD (录音) 、PLAY (回放) 、ALARM (录音完毕报警) 。在主程序中仅依靠当前状态设置各LED的亮或灭, 以指示当前工作状态。

2) 键盘中断处理程序

键盘中断处理程序框图如图5。若“录音”键按下, 则设置当前状态为“RECORD”, 若“放音”键按下, 则设置当前状态为“PLAY”。

3) 定时器中断处理程序

由定时器产生定时中断, 定时时间为0.125 ms。在程序中对应于当前不同的工作状态做相应的处理。

3.2数字滤波程序

输入A/D转换器的信号虽然经过带通滤波器滤波, 但由于ADC0808进行A/D转换时, 末位数据会有跳变, 故产生了高频信号, 因此要进行数字滤波。数字滤波方法主要有算术平均值滤波、加权平均值滤波、滑动平均值滤波等[3]。其中算术平均值滤波和加权平均值滤波都要采样多个数据, 然后求算术平均值或加权平均值, 但由于必须采样多次, 故检测速度较慢, 所以采用滑动平均值滤波。其算法为:先在存储器RAM中建立一个数据缓冲区, 依次存放8个数据, 每采进一个新数据, 就将最早采集的那个数据丢掉, 而后求包括新数据在内的8个数据的算术平均值。这样每进行一次采样, 即可算出一个新平均值, 大大增加了数据处理的速度。其具体程序流程, 这里就不再赘述。

3.3语音压缩与解压

由于数字语音信号数据庞大, 10s语音信号数据即需80K存储器, 为了提高存储器的利用率, 必须进行数据压缩。数据压缩算法可分为失真压缩算法和非失真压缩算法。失真压缩算法一般是对信号进行付立叶变换, 然后抽取有用频率分量, 解压时进行反变换, 从而恢复有用信号, 采用此种压缩算法压缩量较大, 但本系统却不宜采用, 主要原因有两点: (1) 语音信号频带较窄, 采用付氏变换会丢失部分有用频率分量, 从而引起失真。 (2) 付氏变换运算量庞大, 8位单片机很难应付。所以采用非失真压缩算法。其具体算法为:当有两个以上连续相等的数据时, 可以用三个字节表示, 即前两个字节相等表示被压缩的数据值, 后一个字节表示重复的次数。由于语音信号自身的特点, 即冗余度大, 这就为此种压缩提供了可能。同样, 在解压时, 程序读入数据流, 当遇到两个相等数据时则重复此数, 重复次数由后一个数据决定。

四、总结

本系统完成了语音拾取、数字化存储及回放功能。对300Hz~3.4kHz范围内音频信号进行存储和回放, 低频段效果较好, 高频段稍次。如果提高采样频率, 高频段音质可得到改善。带通滤波器矩形系数稍差。如果采用高阶 (如四阶或六阶) 带通滤波器, 噪音会减少, 信噪比能得以改善。同时, 系统电路简单, 程序简洁。采用闪速存储器保存语音数据, 即使断电数据仍不失, 所以保存数据安全可靠。若在软件中增加数据压缩算法, 可节省存储空间, 是一种实用的电路方案。

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出版社, 2002.

[2]程佩青.数字信号处理教程[M].北京:清华大学出版社, 1995.

[3]潘新民.单片机实用系统设计[M].北京:人民邮电出版社, 1992.

数字语音技术篇9

鸟类在人类生存环境的生态平衡中起着重要的作用，人类采取各种措施并制定法规对其进行保护，但是迅速增加的动物数量对农业生产形成严重危害，造成了农产品产量和质量的下降。据不完全统计，全国98%以上的果园遭受过鸟害，每年造成的直接经济损失高达7亿元之巨。

近年来，针对鸟害问题，国内外研究了一些驱赶害鸟的方法，主要是声音驱赶及形象驱赶。其中利用仿生学原理，采用一系列富有生物学意义的声音，如猛禽的叫声，鸟类遇难或报警叫声为控制手段的语音驱鸟装置，驱赶效果很好。本文采用数字语音驱鸟器阵列，通过波束形成方法实现声场聚焦，将驱赶声音链声场控制在期望区域，以达到良好驱鸟效果。

声场聚焦原理

目前，声场聚焦主要采用时间延迟 (TD) 和最大控制增益 (MCG) 两种方法实现。TD方法根据各扬声器单元到目标点处距离的差异所引入的时延差来调整各单元发射信号的相位，使目标点处的所有接收信号同相叠加以得到最大的声压强度，如图1所示。MCG方法不仅考虑到所有接收信号的时延差异，还考虑到其幅度衰落差异，通过调整阵元发射信号的幅度和相位，以实现目标点处的声场聚焦。

数字语音驱鸟器阵列系统设计

为了有效驱赶果园中的害鸟，设计了6路驱鸟器阵列系统。该系统对语音数字信号相位调整，进行加权处理。再经过数模转换，通过功率放大器驱动多路扬声器输出。

图2为数字语音驱鸟器阵列系统框图。现场中央控制器获取入侵害鸟的位置信息后，根据驱鸟器阵列扬声器布置位置信息计算出声音链的加权值，并通过串行总线将加权值信息传送给微控制器，由微控制器给出驱赶声音链的播放策略，调整阵列信号的相位，通过控制地址发生器和功放开关，将预先存储的数字声音链经DAC转换后进行播放，达到声场聚焦的目的。

声音链相位调整算法

假设数字声音链信号可表示为：

式中w为频率，A为幅值，ϕ为相位偏移。权值ur=ejϕr，加权后数字声音链信号为：

根据正交调制的方法实现信号的幅相调整。已知权值:

对序列x[n]做IQ双路幅相调制可得:

其中加权后的数字信号可以由下式来计算:

驱鸟器阵列分布设计

扬声器的安放位置应该能够使声场覆盖区内的任何位置，合理的扬声器位置设计能够有效地控制扬声器的声场分布和满足投射距离的声压级要求，也有利于形成声音聚焦区，达到更好的驱鸟效果。根据扬声器的最大供声距离L和指向角α，确定了单个播放器的有效覆盖面积：

考虑到设备总成本最小化，而单个驱鸟器成本固定，则需要确定最小的扬声器数量。该值与防治区域总面积，单个扬声器有效面积及播放器空间分布紧密相关，从而建立目标函数关系式：

这里N为扬声器数量;S为防治区域总面积;s为单个扬声器有效面积;xi, yi为第i个扬声器在防治区域内坐标分布。对目标函数求解来获得理论上的位置分布情况，为实际驱鸟器阵列的布置提供基础参考。

驱鸟器阵列系统硬件实现

数字语音驱鸟器阵列系统由微控制器、地址发生器、存储器、DAC、功率放大器、扬声器组成。微控制器完成语音声音链的时延差计算、相位加权调整、播放及各模块同步控制。地址发生器由两个12位计算器组成，用于产生语音存储芯片的地址信号，地址发生器的计数时钟由微控制器提供。存储器中预先存储用于驱赶害鸟的数字语音信号。DAC转换器将数字语音信号转化为模拟信号，经功率放大器放大后，驱动扬声器阵列工作。微控制器选用Microchip公司的PIC18F6527，该控制器接口模块丰富，可以满足系统的功能要求。语音存储器为AMD公司的AM29F032B，容量为32Mbit，存储处理好的驱赶声音数字信号。DAC采用8位的AD557，实现数模转换。后级功率放大器为National Semiconductor公司的LM4950，可驱动7.5W的扬声器。由于整个硬件系统采用低功耗、模块化设计，具有休眠功能，系统使用方便，维护简单。目前，该系统已完成实验室调试。

结语

为了提高语音驱鸟器驱赶害鸟的效果，本文给出了数字语音驱鸟器阵列系统设计和声音链声场聚焦实现方法，并详细说明了硬件电路的实现。通过调整数字声音链阵列声源相位实现了声场聚焦，室内实验取得了较好的效果。由于果园现场周围情况复杂，下一步的现场使用还有大量工作要做。

摘要：鸟害已成为某些农作物的主要经济损失的来源之一, 为了提高数字语音驱鸟器驱赶害鸟的效果, 本文给出了数字语音驱鸟器阵列系统设计和声音链声场聚焦实现方法, 并详细说明了硬件电路的实现。阐述了声场聚焦的原理, 通过调整声音链阵列加权实现了声场聚焦, 达到预期效果。

关键词：数字语音,驱鸟器,声场聚焦

参考文献

[1]谭树人.果园鸟害防御措施[J].西北园艺, 2007 (6) :45

[2]郝锡联, 易国栋.机场驱鸟方法的探究[J].吉林师范大学学报 (自然科学版) , 2005, 26 (2) :45-46

[3]Wen Y, Yang J, GAN W S.Strategies for an acoustical hotspot generation[J].IEICE Trans A, 2005, E88-A (7) :1739-1746

[4]Wen Y, Yang J, GAN W S.Target-oriented acoustic radiation generation technique for sound field control[J], IEICE Trans A, 2006, E89-A (12) :3671-3677

[5]刘抗振, 曾光宇.球面等间距阵列声场聚焦特性研究[J].山西科技, 2006 (1) :96-98

[6]Delwiche M J, Houk A P, GorenzelW P, et al.Electronic broadcast call unit for bird control in orchards[J].American society of agricultural engineers, 2005, 21 (4) :721-727

[7]马登永, 匡正, 杨军.实现声场聚集的扬声器阵列系统设计[J].噪声与振动控制, 2007 (11) :448-450

数字网络语音室的应用与管理篇10

一、LBD2000型全数字化网络语音室功能介绍

LBD2000型全数字化网络语音室是采用ATM网络技术、运用计算机网络技术、语言处理技术研制出的专业语言学习系统。彻底解决了以太网难以解决的语音延迟、断裂问题, 完全满足语言教学实时交互的要求。实现传统语音室基本功能的同时, 更兼顾听说读写, 加上开放式语言自学、变速不变调语音播放、网络化口语考试等独有功能, 令语言教学现代化。

1. 课堂教学

全面的教学方式、先进的教学手段、丰富的教学资源为教师、学生带来新鲜、理想的教与学感受。教师通过课堂教学功能可以进行广播, 播放资料库资料, 达到语音素材声文同步、按句处理, 清晰明了地呈现给学生, 完全符合语言学习的习惯, 也能播放外部设施资料, 同时可以通过广播与学生对话, 分组讨论和教案播放等。课堂广播教学时, 每位学生自主调节收听进度, 达到句句听懂, 人人听懂;教师利用教师机界面显示学生收听进度。实现因人施教、因学施教。可提高20%的教学效率。小组讨论实现2人, 3人, 4人, 6人小组讨论, 声音饱满、发音清晰。保证对话时语音交互的实时、无断裂、高保真、全通, 提高学生听、说应变的综合能力。监听辅导随时监听学生说话或收听资料的情况, 了解学生听力水平并进行相对辅导。教师通过“媒体”, 可以用广播录像机、DVD、视频展示台等外部设备的多媒体资料来进行生动活泼、声像并茂的课堂语言学习。教师在每节课上课前, 进行语音室系统检查, 只需要按“检测”按钮, 系统将进行自动检测。如没有问题, 教师机上学生座位下显示“__”;如果系统有问题, 将没有“__”反馈。

2. 自主学习

实验室有丰富的语音听读资料和听写资料, 学生在平时课余时间可以到实验室进行自主学习, 同时可以根据自身外语水平有针对性地选择资料进行自主学习提高。学生进入自主学习界面后, 可以充分利用里面的各种功能, 如:自主录音, 学生自主录音后可以自己播放录音, 学生通过点播资料可以选择资料库里面丰富的听力资料和听写资料, 还可以利用丰富的资料库的测试题进行自我测试, 达到提高外语听力水平的目的。

3. 考试系统

专业的考试题库、周到的阅卷系统、详细的试题分析, 为学生提供整套可行的专业考试实施环境。听力选答考试及计算机自动阅卷利用录音卡座播放试题或本地资料库中调用考题, 学生通过终端按键作答。试毕, 系统自动评卷, 其中为教师提供多种评估方式并将学生的考试成绩存档, 便于复查。

4. 教师备课

丰富的授课资料, 为教师安排合理的教学空间。教师通过资料管理可以制作教案, 该教案制作好后, 存放于本地教师机中, 待上课后直接调用, 方便教师安排授课进程。制作教案可以是音频+文本, 也可以是音频+视频+文本。教师可以在素材库中直接调用授课素材, 自主制作教案。

5. 资料管理

用户信息管理教师可“添加”或“删除”用户, 添加年级、班级、学号等学生信息。学生使用时间计费管理完成对学生使用交费、续费等费用使用情况的查看及管理。设备使用情况记录管理系统自动记录学生使用某终端的开始和结束时间, 反映设备使用情况, 便于查找造成设备故障的责任人。学生学习情况记事管理学生自学过程中, 系统自动记录学生学习内容 (点播资料名称、学习时间) , 方便校方监控学生学习情况。

6. 系统设置

可以设置灵活的授课方式, 系统权限设置, 保证教师的系统教学。普通设置对各种功能使用权限进行设置, 可对学生终端复听、跟读、录音快进、快退时间等进行设置。还可对学生进行自主学习是否计费进行设置。高级设置可对学生坐位数、座位排列、录音途径、跟读路径, 素材库路径等选项进行设置。

7. 退出系统

教师或使用者完成某项教学内容, 或使用完毕系统的某种功能后通过点击“退出系统”即可关闭整个语音系统, 结束教学活动。

二、数字网络语音室的管理

语音室的管理是一项比较庞大而且复杂的工作, 它有一定的技术性和复杂性。语音室管理包含多方面的工作, 根据多年的实践经验, 主要介绍语音室的系统平台管理, 供电设备管理和常见故障排除等三方面的管理。

1. 系统平台管理

语音系统主要是建立在一台配置较高的PC机上, 日常要做好PC机的系统安全, 及时升级杀毒软件并清理系统垃圾, 尽量少安装或不安装与语音系统会冲突的大型软件, 防止系统突然崩溃, 同时要注意改善设备的外部运行环境, 提高机器散热降温效果, 保证设备周围的空气流通, 让系统运行在一个良好的环境下能够充分发挥系统的最佳性能。

2. 供电设备的管理

我校语音室的供电设备是由一组三个稳压电源组成, 每个稳压电源分别为一个交换机供电。对稳压电源要正确开启和关闭, 定期给稳压电源散热风扇清理灰尘, 加润滑剂, 保证稳压电源的正常运行;做好其他外设供电电源插座的安装和检查工作, 定期检查供电插座是否出现松动和接触不良等现象。

3. 常见故障排除及解决方法

(1) 硬件故障处理

(1) A1座位的学习终端只显示蓝鸽科技故障

解决方法:

A.首先关闭直流电源, 将旁边的一个好的学习终端同A1座位的学习终端调换一下, 如果A1座位的学习终端变好了, 而旁边的学习终端变坏了, 说明此学习终端坏了。

B.如果调换两个学习终端后, A1座位的学习终端还是显示蓝鸽科技, 那么把A1座位的学习终端所接的语音交换分机口同旁边的口对换一下, A1座位的学习终端变好了, 而旁边的学习终端变坏了, 说明此语音交换分机这个接口坏。

C.如果对换语音交换分机两个口之后, A1座位的学习终端还是坏的, 可以证明A1座位的用户线, 也就是数据连接线有问题, 更换即可。

(2) A1座位的学习终端没有声音故障

解决方法:

A.首先检查座位的学习终端音量是否被关小, 如果没关小, 那么检查耳机插头是否插好或插反;如果都不是, 那么更换一副好的耳机再试机。

B.如果座位的学习终端更换好的耳机还是没有声音, 那么更换好的学习终端再试机;如果座位的学习终端有声音了, 说明学习终端坏掉, 更换终端即可。

(3) 如果某一个语音交换分机 (假定A) 所接的8个学习终端只显示蓝鸽科技故障

解决方法:

A.将好的语音交换分机同A语音交换分机对换, 如果A交换分机所接的学习终端还是显示蓝鸽科技故障, 说明A语音交换分机坏。

B.如果对换语音交换分机之后, A语音交换分机所接的8个学习终端显示正常, 而另一个语音交换分机所接的8个学习终端显示不正常, 说明此语音交换分机与语音交换主机之间的连线有问题, 需重点检查该连线。

(4) 全部学习终端只显示蓝鸽科技故障

解决方法:

A.进入课堂教学模块, 播放资料, 听学生耳机是否有声音, 如果教师耳机有声音, 学生耳机没有声音, 说明交换主机故障。

B.如果拔掉语音卡与语音交换主机之间的主干线, 再检查语音卡是否有声音, 如果没有声音, 说明语音卡坏掉, 需更换语音卡。

(5) 只有1台显示器没有电脑信号和图象或者有条纹颤动故障

解决方法:

A.检查显示器是否有电源。

B.找到此显示器所连接的VGA分配器, 然后换一个好的接口再试, 如果还是不行, 说明此显示器有故障, 如果正常, 则说明该分配器的这一接口有故障。

(6) 学生桌的显示器全部没有电脑信号和图象或者有条纹颤动故障

解决方法:

A.检查总的VGA分配器是否有电源。

B.将电视宝输出口连接的那个VGA分配器直接接到教师机显示器所接的VGA分配器上, 如果正常, 说明电视宝有问题, 如果不正常, 说明此VGA线有故障。

(2) 软件故障处理

(1) 播放素材库里面的资料有声音, 而播放所有的媒体如 (卡座、录像机等) 没有声音故障

解决方法:

A.检查计算机的声卡的音量是否被关小, 输入是否被关闭。

B.检查多媒体控制器电源是否打开。

C.检查多媒体控制器的串行口所接计算机的COM口是否与软件中系统设置模块中的高级里面的串行口设置一致。

D.检查多媒体控制器与计算机声卡的输入口之间的连线是否有问题, 是否没有插紧或断线现象。

E.检查计算机声卡的输出口与语音卡的输入口之间的连线是否有故障。

(2) 运行数字网络语音室软件时, 系统提示初始化失败故障

解决方法:

A.检查语音卡的驱动程序是否安装好。

B.将安装光盘中的***128文件中的LG64V, VXD, LG64VDLL。DLL文件拷贝到C:/WINDOWS, SYSTEM下面。

三、结束语

数字网络语音系统实现了传统听力教学技术和网络教学技术的紧密结合, 突破了听力教学技术原有的桎梏。教师要不断探索数字网络语音教学系统的各种新功能, 充分合理利用教学资源, 发挥语音设备技术的优势, 提高教学质量和教学效果。语音室的管理更是要求管理人员有强烈的责任感和事业心, 以主人翁的精神全身心投入到自己的工作中, 保障语音室的正常运行, 提高语音室的利用率和使用寿命, 最终达到提高英语教学水平的目标。

摘要：数字网络语音室已经在高校广泛使用, 并且成为外语教学一个重要的硬件设施。在介绍新一代数字网络语音学习系统的技术设计和功能的基础上, 分析了它对外语教学带来的各种益处, 以及管理人员对其科学的管理。

关键词：数字网络语音室,专业语言学习系统

参考文献

[1]任桂英, 崔明子.简谈数字网络语音室的应用与管理[J].中国轻工教育, 2004, 4

[2]林英.浅谈数字化语音室的应用和维护[J].消费导刊, 2007, 9

数字语音技术篇11

关键词：无线；语音传输；I/O接口

中图分类号：TP31文献标识码：A文章编号：1007-9599 (2011) 05-0000-02

Wireless Mesh Network Voice Transmission Technology Research

Zhang Dengke,Gao Xing

(Information Engineering,Zhengzhou University,Zhengzhou450001,China)

Abstract:In this paper,real-time voice transmission wireless IP the key technology involved in discussions,analysis of network physical layer,data link layer and network layer optimization ideas,the transport layer of the network systems and voice data compression scheme put forward a reasonable solution.Wireless network system in accordance with the requirements of voice communication terminal,the design of the hardware platform.Resolved voice acquisition,interface constraints such as voice transmission rate of the problem.

Keywords:Wireless;Voice transmission;I/O Interface

一、前言

针对一体化指挥网络中对电台通信的需求，依托“无线语音通信验证平台”项目，深入系统的研究无线网络下的语音通信技术，并在着重考虑服务质量（Quantity of Service，QoS）的基础上运用Mesh组网技术实现无线网络下的灵巧式通信电台。

二、无线通信终端平台设计

嵌入式系统的开发平台主要包括硬件平台与操作系统平台。在设计硬件平台时，需始终考虑语音通信的性能需求，合理的设计各个部分从而不会对语音传输造成瓶颈。在设计操作系统平台时，需依据系统硬件合理配置，保证在系统最为精简的情况下稳定运行。

（一）无线语音通信系统组成

本文的研究目标是设计一个基于无线Mesh网络的无线语音通信系统，该系统通过通信终端实现音频数据的实时采集、压缩、传输和播放。通信终端与网络接入适配器以自组网方式组成多跳无线网络，并能够通过网络接入适配器接入有线网络，构成了基本的Mesh混合结构。无线语音通信系统组成如图1所示。

图1 无线语音通信系统组成

如图1所示，通信终端一号和三号不在一跳通信范围之内，但可以通过二号的转发进行通信；二号与网络接入适配器不在一跳通信范围之内，但可以通过一号的转发进行通信，从而实现有线网络的接入。

（二）硬件平台设计

通信终端与有线网络接入适配器的硬件完全相同，只是内部的应用程序不同。本系统采用Intel Xscale PXA270作为系统的硬件平台。硬件结构如图2所示。

图2 通信终端（有线网络接入适配器）硬件结构

由图2可知，通信终端（有线网络接入适配器）的硬件主要由CPU、Flash ROM、SDRAM、调试接口、以太网控制器（SMSC Lan91C96I）、GPIO（General-Purpose I/O）接口、SDIO（Secure Digital Input Output）接口、AC'97 Codec、AR6001无线网卡以及WLAN功率放大器SKY65132等组成。

1.PXA270微系统

PXA270采用ARM V5TE架构的处理器，兼容ARMV5TE架构指令集，遵从ARM通用编程模型规范。其提供了43条新的SIMD指令，包含了完整的MMX指令集和一些SSE指令集中的整数指令。这项能力可以加速芯片的编码和解码速度，提高多媒体和游戏的性能。

2.存储模块

PXA270处理器的存储器接口支持各种存储器芯片，包括SDRAM，FLASH，SMROM，ROM，SRAM以及与SRAM类似的可变延迟I/O等。PXA270的总线宽度是32位的，所以对于16位的外部存储器，通过“位扩展”构成32位的存储系统。本设计使用的FLASH存储器和SDRAM存储器都采用这种方法，使系统数据总线工作在32位模式下。

在设计中，其空间范围分成不同的区域，用于不同的用途，如表1所示。

表1 Flash ROM空间分配表

开始地址大小用途

0x00000000512KByteBootloader

0x000800002MByteKernel

0x002800006MByteFile system

0x0088000023.5MByteUser

处理器启动时，从0X00000000地址开始执行代码，两片Flash ROM都是使用NCS0作为片选信号。Flash的其他控制脚由处理器内部集成的Static Memory控制器进行控制。

3.音频模块

AC'97标准是Intel公司专为计算机音频处理设计的，AC'97不只是一种数据格式，用于音频编码的内部架构规格，它还具有控制功能，与具有分离控制接口的I2S方案相比，AC'97明显减少了整体管脚数。

语音的输入输出流程为：外部模拟信号输入到CS4201芯片中，完成音频采样、A/D转换成数字信号后经由AC-Link接口传送给AC'97 Digital Controller，再通过地址和数据总线完成向内存写入；输出的音频数据由内存传送到AC'97 Digital Controller，通过AC-Link接口送到CS4201，在芯片内部完成D/A转换成模拟信号，送到输出设备播放。

4.以太网口

以太网口在本系统中主要有两项功能：（1）下载Linux内核、根文件系统和应用软件到Flash ROM的通信接口；（2）与普通计算机或同类终端相连进行信息的交换，实现由无线网络接收到的数据转发到有线网络的功能。

系统采用SMSC Lan91C96I芯片作为以太网控制器。LAN91C96I网卡控制其内部集成了6KB的RAM，用来存放数据包。内部的MMU、判决器和DMA对数据包的传输发送进行有效的管理。CSMA/CD模块负责监听网络情况和地址过滤。编解码器负责曼彻斯特（Manchester）编解码，并提供标准6脚连接单元接口（AUI），外接同轴传输接收器，应用10Base2或10Base5。传输数据时，10Base-T负责把主控制器传过来的反向不归零码数据转换为Manchester数据，并以适当的电平加以驱动；接收时负责连接完整性测试。外接的串行电可擦除只读ROM存储器EEPROM中可存储网卡的MAC地址，当OS启动加载网卡驱动时，以太网控制器就从EEPROM的固定地址中读取MAC地址并存储在相应的寄存器中。

5.SDIO接口

SDIO接口是由SD存储卡的规范发展而来，它在机械、电路、功耗、信号与软件上与SD存储卡完全兼容，但SDIO接口可扩展性更强，传输速度更快，能够为移动设备提供高速低功耗的IO数据传输解决方案。本系统的AR6001无线网卡与主控板的接口部分使用的就是SDIO接口。

PXA270集成了MMC/SD/SDIO控制器（Processor MMC/SD/SDIO Controller），该控制器采用MMC/SD/SDIO传输模式或串行通信接口SPI模式，使PXA270主处理器能够与SDIO设备进行通信。在SD/SDIO通信协议中，支持1位和4位数据传输。在1位SD/SDIO模式中，数据传输速率达19.5Mbps；对于4位SD/SDIO的数据传输速率达78Mbps[100]。本系统的设计是基于IEEE 802.11g标准，带宽最高可达54Mbps，因此必须采用4位SD/SDIO模式才不会对数据传输构成瓶颈。图3为4位SDIO的连接方式。

图3 4位模式的SDIO线路连接方式

6.无线网通信模块

本系统采用的AR6001X是Atheros公司推出的移动射频芯片（Radio-on-Chip for Mobile，ROCm）系列中的一员。AR6001X基于IEEE 802.11a/g标准设计，在芯片上整合了802.11 MAC、基频和射频，能提供54Mbps的传输速率。为提高无线语音数据的传输距离，系统采用了SKYWORKS公司推出的功率放大器SKY65132。SKY65132是一种MMIC（Microwave Monolithic Integrated Circuit）功率放大器，具有较强的输出功率和效率。SKY65132兼容IEEE802.11b/g标准，对应802.11g标准，能将要发送的信号的输出功率放大至27dBm即500mW。

7.硬件平台设计总结

在一般情况下无线网络下的语音通信至少需要经过语音数据的采样、打包、发送、接收、解包和播放等6个步骤。在硬件平台上，本系统对以上6个步骤提供了充分的支持而不会构成瓶颈，如表2所示。

表2 硬件平台对语音通信各步骤的支持

语音通信数据采样数据打包数据发送数据接收数据解包数据播放

硬件平台提供的功能可满足最高18位、48kHz的语音采样能够满足网络协议处理需求能够提供最高54Mbps的传输带宽，满足同时传输16路话音需求能够满足网络处理协议需求可满足最高20位、48kHz的语音播放

通过表2可以看出，本系统的硬件平台设计是合理的，完全可以满足语音通信的需求。

三、小结

本文主要完成了无线语音通信系统的硬件平台、操作系统平台的搭建工作，为用户应用程序的设计和实现提供了必要的开发环境支持。其中硬件平台搭建的主要包括主处理器、存储模块、音频模块、以太网口、调试接口、SDIO接口以及无线网络模块的选型及设计工作。操作系统平台搭建主要包括交叉编译环境的建立和Bootloader、系统内核及根文件系统的生成工作。

参考文献：

[1]H.Balakrishnan,V.N.Padmanabhan,R.H.Katz.Network asymmetry:the effects of asymmerry on TCP performance.Mobile Networks and Applications,1999,4:219-241

[2]鲁宏伟.基于UDP传输协议的包丢失和失序处理[J].计算机工程与应用,2001,2:48-55

[3]Reliable UDP Protocol Draf t_ietf_sigtran_reliable_udp_00.txt.T.BovaT.Krivorunchka.Cisco systems,1999:241-247

[4]王海军,刘彩霞,程东年.一种基于UDP的可靠传输协议分析与研究[J].计算机应用研究,2005,11:181-183

基于DSP平台的语音数字化设计篇12

数字技术的应用几乎已经渗透到现代科技的每一个角落,而数字音频技术[1]则是应用最广泛的领域之一。现在大量的数字音频设备已相当成熟,利用软件在已有的硬件平台上实现不同的功能已成为一种趋势,软件编程的灵活性给设备增加很多不同的功能提供了方便。和其它数字系统一样,DSP[2,3,4]系统具有许多模拟系统所不具备的优点,如灵活、可编程,支持时分复用,易于模块化设计,可重复使用,可靠性高等。随着DSP技术的发展,以DSP为内核的设备越来越多,基于DSP技术的开发应用正在成为数字时代应用技术领域的潮流。本设计考虑到大部分高校及企业的实际情况,在节约成本的前提下,利用实验室现有的仪器设备,以DSP为核心,设计了功能完善的数字音频设备,可用于学生的实践教学及企业相关技术人员的实践操作,具有非常广泛的实用价值。

1 硬件设计

1.1 硬件环境描述

本设计开发板系统的组成大致有以下几个部分:TPS767D301电源转换芯片、有源晶体振荡器、A T 4 5 D B 6 4 2 D-C N U片外F l a s h芯片、T M S 3 2 0 V C 5 5 0 9 A D S P核心处理芯片、TLV320AIC23B语音芯片、语音编解码加密芯片、DA8547TS立体声放大器。系统硬件电路总体框图如图1所示。

1.2 硬件电路设计方案

本系统的工作原理是以TPS767D301电压转换芯片[5]为系统各部分提供合适的工作电压,以TMS320VC5509A[6]为核心处理器,对数字量进行抽样、压缩、解压缩、插点等操作,通过音频编解码器TLV320AIC23B对信号进行模数、数模转换,最后将得到的模拟信号进行功率放大后经过扬声器播放出来。系统工作原理框图如上图1所示。

1.2.1 TPS767D301电源转换芯片

TI公司为用户提供了具有两路输出的电源芯片,如TPS73xx系列芯片和TPS76xx芯片等。其中,TPS73HD301和TPS767D301是TI公司新推出的双路低压差电源调整器,主要应用在需要双电源供电的DSP设计中,可提供两路输出电源,一路为3.3V电源,另一路为可调电压电源,前者的可调范围为1.2～9.75V,后者的可调范围为1.5～5.5V。本系统采用TPS767D301作为电压转换模块。

1.2.2 AD转换器

本系统中采用的AD转换器为TLV320AIC23B(以下简称AIC23B),AIC23B是TI推出的一款高性能的立体声音频Codec芯片,内置耳机输出放大器,支持MIC和LINE IN两种输入方式(二选一),且对输入和输出都具有可编程增益调节。AIC23B的模数转换(ADCs)和数模转换(DACs)部件高度集成在芯片内部,采用了先进的Sigma-delta过采样技术,可以在8～96kHz的频率范围内提供16bit、20bit、24bit和32bit的采样,ADC和DAC的输出信噪比分别可以达到90dB和100dB。与此同时,AIC23还具有很低的能耗,回放模式下功率仅为23mW,省电模式下更是小于15μW,在本系统中的主要作用是进行AD/DA转换。

1.2.3 FLASH存储器

本系统中采用的FLASH存储器为AT45DB642D-CNU,该存储器采用单电源2.7～3.6V供电,存储容量为64Mbit,有串行接口和并行接口两种形式,本系统中采用了串行接口形式。

1.2.4 TDA8547TS

本系统中采用TDA8547TS作为立体声放大器,其供电电压为单电源2.2～18V,很少的外围电路,等待状态下电流只有10μA。在本系统中的作用主要是将AIC23BDA转换后得到的模拟信号进行功率放大。

1.3 硬件调试和测试

TPS767D301的调试:其连接电路如图2所示。在调试过程中先不安装电阻R1、R6,使电源电路与系统其它部分电路断开。

其中2OUT(2OUT1,2OUT2)稳定输出3.3V电压,1OUT输出电压V0=Vref(1+R3/R5),式中,Vref为基准电压,典型值为1.182V。R3和R5为外接电阻,通常所选择的阻值使分压器电流近似为7μA,推荐R5的取值为169kΩ,而R3的取值可根据所需的输出电压来调整,这里R3取59.7kΩ。由于库存中不含有这两种阻值的电阻,为充分利用现有资源,取R5=150kΩ,R3=56kΩ,且能满足系统要求。

2 软件环境描述

编程语言:C语言。

编程环境:Windows系列平台,编译环境CCS 3.3。

本软件运行在使用Windows系列平台的计算机上,通过DSP仿真器JTAG与所设计的开发板相连接。

3 功能测试

在计算机上运行软件,通过JTAG仿真器将代码下载到开发板进行在线仿真测试,在代码恰当位置设置断点,通过编译环境CCS的Watch Window窗口及菜单项(View----->graph)拷贝所需测试数据,并使用CoolEdit分析生成DTMF信号。如下图3代表所生成的DTMF标号8,图4代表所检测的DTMF检测标记及标号。

经过测试,确定系统软硬件各项功能均已满足设计要求。

4 结束语

本设计硬件部分以DSP为核心处理器,软件部分通过对AD/DA驱动编写、DSP程序加载、语音数字化转换,配合硬件打通电路。在节约成本的情况下,硬件软件相结合完成了语音数字化的诸多功能,对高校的学生实践教学及企业技术人员的实践操作有着非常重要的实用价值。

摘要：基于DSP平台的语音数字化设计以DSP为核心处理器,采用硬件软件相结合的技术,具有话音采集,数字化压缩,解压和音频扬声器输出功能,并同时具有DTMF、单音检测及VAD功能。经测试该设计功能完善,且成本不高,对高校的学生实践教学及企业技术人员的实践操作有着非常重要的实用价值。

关键词：数字信号处理,语音,数字化,双音多频

参考文献

[1]沙占友,刁彦华,孟志永.数字音频技术的原理与应用[J].河北科技大学学报,2004,25(4):59-63.

[2]郭良涛,黄建国,韩晶,等.基于DSP的小型数字语音通信平台设计[J].计算机测量与控制,2009,17(6):1209-1210.

[3]聂伟,何心莹,白天石.基于DSP的G.729语音编解码器设计[J].现代电子技术,2011,34(9):93-96.

[4]高立志.基于DSP的数字化仪系统设计与实现[D].哈尔滨:哈尔滨工程大学,2011.

[5]张云安,冯志华,王晓峰.双路输出低压差电压调整器TPS767D301及其应用[J].电子元器件应用,2006(7):112-114.

【数字语音技术】推荐阅读：