数字语音

2024-07-21

数字语音（精选10篇）

数字语音篇1

出货量将在2017年达到近300万部,助于扩大数字语音辅助设备的市场规模。

Stategy Analytics最新调查研究表明,数字语音辅助设备这一产品类别将会发展迅猛,年度总出货量将会从2016年的180万部激增到2020年的1510万部。

零售方面,Google Home预计销售价格为129美元,比Amazon Echo便宜50美元。然而,亚马逊同样提供低端版本——Echo Dot,六组的售价为250美元。其价格更亲民,利于驱动消费者采用,这样消费者便可把Alexa设备放置在家里的每个房间。

如此低的价格,两家公司都不太可能在硬件销量上赚取利润,但对于谷歌和亚马逊来说关系不大。对于亚马逊,Alexa为消费者提供操作简单的交互界面来订购公司当前提供的数字和实体产品,以及未来可能提供的如购买机票这类服务。谷歌已经开始利用诸如Google Express这类新的服务帮助用户购买机票,该服务提供当天送达,这正在对亚马逊的核心业务构成威胁。Google Home将对谷歌的所有服务提供自然语言交互界面。

Strategy Analytics智能家居战略服务高级分析师Joe Branca表示,“亚马逊最先推出数字语音辅助设备,并已售出数百万台支持Alexa的设备。但该类产品仍是新生市场,先发优势并不能保证长期的成功,尤其是鉴于Google Home提供一些独特的功能。数字语音辅助设备最大的能力之一是识别特定用户并提供定制化回应——这将对许多智能家居应用很有帮助。”

Google Home也支持多房间音频同步以及和Chromecast的互动,比如在电视上播放流视频。Strategy Analytics互联家居设备服务总监David Watkins表示,“Google Home和Amazon Echo在产品规格上的差别并不是太大,然而Google Home可以控制任何支持流播(cast)设备的能力使其为现有的谷歌设备用户提供了引人入胜的功能。”

批评人士指出,谷歌的硬件产品销量在过去常常不尽如人意,但其Chromecast设备却一直非常成功。Strategy Analytics预计,谷歌迄今已经销售了超过3000万部Chromecast设备;同时,流播(Cast)技术现已融入到越来越多的无线音箱、条形音箱和接收器中。

数字语音篇2

TOPTRONS数字语音室软件教学系统

拓创公司纯软件语音教学系统是以计算机、网络、多媒体最新技术开发的新一代教学系统。它把计算机教室、多媒体网络教室、语音教室集合于一体，整合丰富的多媒体外语学习资源，学生在听到声音的同时又能感受丰富的动画效果，突破了传统的语音教室单一听力教学模式；和多媒体网络教室相比，纯软件语音教室除了拥有多媒体网络教室所有功能外，还拥有专业的语音教学功能。拓创公司纯软件语音教室使课堂更生动活泼，又达到寓教于乐、事半功倍的教学效果，是语言教学的最佳选择。

随着外语教学大纲2004年改革的开始，建设校园数字化视听语音教室，实现外语教学的多样化，己成为当今各学校教学的必要举措。

丰富的教与学功能，使学生方便地应用计算机和网络技术进行自主学习；同时也便于教师因材施教，组织多种形式的教学活动，及时获得学生学习的反馈。纯软件语音教室具有比以往传统的硬件语音教室教学手段更好的效果，成为现代及未来语言教学不可或缺的组成部分。

产品特色

 数字化网络传输，保证CD音质。 支持音、视频跟读学习。

 合班教学，在教师资源紧张或者大班授课时，一个教师可同时给多个教室进行授课。 完美的分组讨论功能，并可实现独特的分组录音保存功能。

 提供专业的语音复读机，具有数字录音、复读跟读、波形对比、变速不变调、自动回句等功能。

 强大的统计功能，可实现学生资源使用情况和考试的统计。 强大的考试功能，支持A/B卷、四六级考试、考场监控。 实现网络安装，节约安装维护时间。 中英文接口随意切换，满足外教教学需求。

拓创科技-智能控制系统制造商

功能介绍

一、无限教学中心

屏幕教学

教师可调用预先编辑好的课件进行广播教学，声音亦同步广播给学生，屏幕教学过程中，教师可选择让学生发言，教师和所有其它学生均可听到发言。媒体教学

教师可广播视、音频给指定的学生或全班学生。语音教学

语音教学是外语教学中最常用的功能，教师可选择不同的音源进行教学：  耳麦：教师通过耳麦口授教学。 CD：可把光驱里CD的声音广播给学生。

拓创科技-智能控制系统制造商

 卡座：可把卡座里磁带的声音广播给学生

 所有声音：可把教师机上听到的所有声音都广播给学生，比如在卡座声音播放给学生的时候同时教师通过咪对学生进行辅导。分组讨论

教师可以按照自由分组和固定分组等不同的方式对学生进行分组，每个小组的人数不受限制，最多可为班级所有人在同一小组。

学生在讨论的过程中教师可进行插话对小组进行辅导或监听以了解各小组讨论情况。同时还可以录制分组讨论的内容。文本交流

老师和学生、学生与学生之间可进行文字交流，可有效的提高学生书面表达能力和词汇掌握情况。不同的组分别进行不同主题的文字交流。双向对讲

教师可和一个或者多个学生实行双向语音交流，学生之间亦可进行双向对讲。示范教学

教师选定一个学生进行示范教学，将该学生的屏幕和声音广播给教师以及其它所有学生。实名登录

学生注册后，教师可直观的在主控窗口看到学生的姓名等信息。课堂测试

教师随机向学生发布一道选择题，学生通过键盘选择答案，学生选择的答案同步在教师屏幕上显示。教师亦可对学生答题情况进行统计分析。

拓创科技-智能控制系统制造商

二、无限复读机

复读机是外语学习中的重要工具。在教学模式下，学生端复读机受到教师机复读机的控制，按照老师的要求进行分段等不同方式的学习，有利于教师控制学习的进度；在自学模式下，学生可根据自身情况进行跟读学习，同时亦可进行波形对比。主要特色如下：  波形对比  复读跟读

 音文对照：学习音频内容的时候，复读机窗口显示相对应的文字信息，方便学生学习。 书签功能：可自由设定99个书签。

 变速不变调：可以50%-150%调节语速，不改变语调。 数字录音：可把磁带等录音转换成MP3通用格式存放在硬盘。 自动回句：回到句子起始位置重新播放。

三、学生自主学习中心

学生自学模块充分考虑到《新大纲》提倡的“注重学生自主学习能力的培养”以及“允许学生随时随地选择适合自己需要的材料进行学习”。

拓创科技-智能控制系统制造商

 音频点播：学生可点播资源服务器中的音频档案，支持主流的MP3格式。 视频点播：可点播资源服务器中多种视频格式的资源，包括MPEG4、RM等。 文章阅读：实现电子阅览室的功能，还可以实现音文对照。 课件浏览：学生可点播Flash、Powerpoint等课件。

四、资源管理（备课）

 资源导入：导入音视频、文本、课件等资源。

 账号管理：对学生登录账号的管理，可批量导入学生账号，节省老师工作量。 评估学生：教师可了解学生自主学习的情况，以便进行考核。

 教师备课：教师编辑授课所需的课件，放到资源库中，以便于上课期间调用。

五、无限考试模块（可选）

（系统管理窗口）

拓创科技-智能控制系统制造商

（学生考试界面）

 支持英语四、六级以及A/B卷考试；  超文本格式的试题试卷内容；

 丰富的试题类型，包括选择，简答，听写以及口语回答；

 试卷自动生成功能，可以由教师选定规则，自动抽取符合条件之试题组成试卷，自动化操作；

 灵活的考试手段，提供教师监考指定考试以及学生自考的功能；

 强大的考试监控功能，提供实时的考试管理及监控，实时反映学生状态及灵活管理；  统一的试题、试卷、用户和分类管理，接口一致，方便学习使用；  分权限类型的用户管理，不同类型的用户使用不同的资源，简化复杂度；  自动化阅卷和手动阅卷相结合，减轻教师批阅试卷的工作量；  可储存和打印试卷以便学生书面作答。

六、无限计费中心（可选）

拓创科技-智能控制系统制造商

系统自动记录学生使用机器的开始和结束时间，反映设备使用情况，也便于学校进行收费管理。

拓扑图

拓创科技-智能控制系统制造商

系统配置

教师机

Celeron 800以上，256M内存。

16位声卡(推荐使用创新SB Live!系列声卡)100M网卡。

Windows 2000或Windows XP。

学生机

Celeron 800以上，128M内存。

16位声卡（推荐使用创新SB PCI128声卡）100M网卡。

Windows 2000或Windows XP。

服务器（可选）

P4 1.6G以上，256M内存，100G可用硬盘空间。Windows 2000 Server 网络

100M交换网络

数字语音室在英语教学中的作用篇3

关键词：数字语音室；英语教学；作用

英语教学是我国现代化教育体系中的重要组成部分，在提高学生综合素质、强化学生口语交际能力中发挥着重要作用。随着现代信息技术的进一步发展，数字网络技术开始被应用在英语教学中，并显著提高了英语整体教学水平。本文将以此为背景，对数字语音室在英语教学中的应用的相关问题进行分析。

一、数字语音室在英语教学中的作用概述

（一）有助于促进学生的个性化发展。在数字语音室教学环境下，英语教师在开展英语教学时打破了空间、时间的限制，能够根据教学要求，为学生提供生动、丰富的教材内容；而对学生而言，他们通过观看这些新的教学内容，能够对事件的起因、经过、结果有一个更加明确的认识，取代了传统教学中需要学生“凭空现象”的现象。在这种情况下，教师引入教材内容，学生就可以根据数字语音室所播放的内容不断的散发思维，进而以多种角度看待教材内容，在促进学生个性化发展的同时，最大程度上保证了教学效果。

（二）提高了英语教学水平。与其他教学科目相比，英语教学具有明显的特殊性，部分学生在学习英语知识过程中始终“提不起兴趣”，在课堂上也经常出现走神、溜号现象，私下里与其他学生交流，不仅影响了英语教学效果，也不利于保证课堂纪律。而在数字语音教学室开展英语教学，教师可以通过视频、动画、语音等多种形式开展教学，使整个英语教学都处在积极愉悦的氛围中；同时，课堂上所播放的视频、动画等牢牢的吸引了学生的注意力，使学生的思维能紧跟教师的教学，保证了课堂教学对学生的影响，有助于提高学生的英语整体水平。

二、数字语音室在英语教学中的应用策略分析

（一）重视教学方式的转变，培养学生英语阅读能力。当前英语教学中，词汇、语法是开展英语教学的主要人员，而教师未来让学生能更加全面的掌握词汇、语法的应用方式，通常会开展大量的阅读教学，通过阅读，让学生深刻掌握不同词汇、语法的应用技巧。但从教师的实践经验来看，在阅读教学中，学生始终处于被动学习状态，学习效果得不到保证。而在数字语音室，教师可以通过DVD等视频、音频资料，获取与教学有关的资料与信息，进而开展教学。以名词教学为例，在教学之前，教师可以收集与相关名词有关的视频、音频资料，并进行整理、加工。在课堂上，当讲到相关知识点时，教师可以播放相关视频，学生就可以通过视频，了解相关名词的具体使用方法与正确的发音情况。之后，教师可以通过播放2-3遍视频，使学生对相关词汇的正确使用方法有一个充分的认识。之后，教师通过小组学习法，要求各小组学生能通过正确的方法，围绕着相关词汇展开讨论，通过设定场景进行英语对话，最后将阅读内容体现在课本上，达到了阅读课文的目的。在整个教学过程中，教师通过视频资料吸引了学生的注意力，并通过视频讲解、演示，使学生掌握了词汇的正确用法；最后，教师将课堂交给学生，让学生有充足的时间对词汇的语法等进行认识与理解，不仅加深了学生对知识点的认识，也强化了学生的阅读能力。

（二）重视借鉴与学习，完善教师自身教学策略。与传统教学媒介相比，数字语音室的推广也丰富了教师的学习渠道，使教师能够从网络上获取与自身教学的信息，不断的丰富自身教学；也能借鉴其他教师的陈成功教学经验，不断的提高自身教学水平。例如在商务教学过程中，教师就可以借鉴网络上有关商务教学的内容，借鉴其他教师的经验，判断本次课堂讲解的重难点，进而合理分配教学实践；在教学过程中，教师也能通过声音、文字、图片等多种方式传递书本内容，为提高学生商务英语的实际运用能力提供有利条件。在教学时，教师可以按照教学大纲的相关内容，自行编制能满足学生学习需求的视听材料，并通过这种吸引学生注意力，激发学生注意力。但对教师而言，在教学过程中应用数字语音室时需要注意以下问题：（1）就数字语音室的硬件设备数量而言，难以保证每个同学的自主学习要求；（2）教师的课件制作水平有限，并且难以从市场上获取高质量的英语教学课件。

结束语：随着语音室的日益普及，语音室已成为英语教学的一个主要舞台，在提高学生的英语水平、激发学生的英语学习兴趣等方面发挥着重要作用。本文主要分析了数字语音室在英语教学中作用的相关问题，以及教师应该如何正确使用数字语音室。总体而言，数字语音室作为一种新鲜事物能显著提高学生的教学水平。但是数字语音室对教师的各方面能力提出了较高的要求，因此，教师也应该重视自我学习，为提高英语教学效果奠定基础。

参考文献：

数字语音加密系统的硬件设计篇4

关键词：AD73311,AMBE-2000,加密

语音是人们获取信息的重要手段, 语音通信是现代通信中最常用、最方便的通信手段之一。随着通信技术的发展, 针对语音通信的攻击也越来越严重, 如窃听、“电话跟踪”、电话劫持和拒绝服务等对语音通信安全构成了极大威胁, 因此, 研究语音加密, 对保障语音通信的安全十分重要。在研究语音通信保密性的同时, 也要考虑通话的实时性。本文所提出的语音保密通信系统设计方案, 首先将语音信号压缩, 以减少数据量, 而后用一种基于数字混沌序列的快速加密算法对压缩后的数据进行加密。此种方案能较好地满足我们在实际中对语音通信安全性和实时性的要求。

1、系统总体设计

该系统主要由语音编解码模块、加密模块这两大模块组成, 系统框图如图1所示。

在发送端, 系统首先将接收到模拟语音信号经A/D转换芯片转换成数字信号, 而后编解码芯片对转换后的数字语音信号进行压缩编码输出给加密模块, 最后加密模块完成对信号的加密操作。在接收端, 系统对信号的处理流程与发送端相反。

2 各模块设计

2.1 编解码模块

在此模块中, 本文采用AD73311模数/数模转换器芯片和AMBE-2000语音压缩/解压芯片对输入的语音信号进行编解码。

AD73311是美国AD公司推出的低成本、低功耗的数模转换器件。它具有可变增益的输入、输出放大器, 采样频率可通过编程改变, 小的转换群延时, 允许8个芯片级联, 自身带参考电压和低功耗等许多优良特性, 可广泛应用于信号处理、无线通信、数据通信等领域。

AD73311包括四个部分:A/D转换通道, D/A转换通道, 串行输入/输出端口和片内参考电压电路。有5种工作模式:程序模式、数据模式、混合模式、模拟环路模式、数字环路模式。其中前三种是正常的工作模式;后两种是调试模式, 仅在调试时使用。AD73311启动或者重置后即工作于程序模式, 此时可以通过串口往芯片内的控制寄存器写控制字, 来设定工作状态。设定完成后, 写“进入数据模式”的命令进入数据模式, 此时AD73311串行口输出的是A/D转换的16位数据, 输入的是D/A转换的16位数据。

AMBE-2000是一种高性能、低功耗的单片实时语音压缩解压芯片, 其压缩率可在2kbps~9.6kbps范围内由软件调节, 且具有FEC (前向纠错) 、VAD (语音激活检测) 功能和DTMF信号检测功能。AMBE2000可以分为两个独立的元件-编码器和解码器。编码器从语音串行接口接收8KHZ的语音采样数据流 (16位线性, 8位A律, 8位μ率) 并且在给定速率下输出通道数据流。解码器接收通道数据流, 然后合成语音数据流。AMBE-2000编码器和解码器接口时序是完全异步的。语音串行接口接A/D、D/A转换器, 我们选用的AD73311转换器配合AMBE2000使用, 在实际应用中取得了良好的效果。如图2所示是AMBE2000与AD73311的连接图

语音信号经过AD73311转换后的数据和控制信息, 以串行的方式送到声码器。声码器中的编码器接收到8KHZ的采样数据流, 然后输出压缩数据流给解码器;解码器对其进行解压缩, 同样输出8KHZ的语音数据流, 该数据流随后进入AD73311进行D/A转换, 并以差分的形式输出原始的语音信号。

2.2 加密模块

该模块以AT89C51单片机为核心来完成对数据的加解密操作。它接收到来自AMBE-2000的数据后用设计好的加解密算法对其进行加解密操作。为确保数据通信的保密性, 加解密算法的设计是关键。本文所设计的加密的算法是, 让输入的语音信号与一个混沌序列进行模2运算, 即:Yt=Xt⊕St其中, St为发送端的数字语音信号, Xt为发送端的混沌加密序列, Yt为加密后的信号。解密算法是, 让经加密处理后的语音数字信号与同样一个混沌序列进行模2运算。即:Sr=Yr⊕Xr;Yr=St+Nr其中, Sr为解密后的语音信号, Yr为接收端收到的加密信号, Nr为通道噪声。显然, 当收方与发方采用同一初始条件相同的混沌系统时, Xt=Xr;若双方在通信过程中信号传输无误, Nr=0, 则有St=Sr, 此时信号得以还原。

混沌序列的生成:

一类非常简单却被广泛研究的动力系统是Logistic映射, 其定义如下:

其中, 0<μ≤4称为分支参数, Xk∈ (0, 1) 。当3.5699…<μ≤4时, Logistic映射工作于混沌态。也就是说, 由初始值Xk在Logistic映射的作用下所产生的序列j是非周期的、不收敛的, 并对初始值非常敏感。

由于Xk∈ (0, 1) , 因此在计算机中采用浮点运算。但在实际的应用中, 浮点数运算内存需求大, 运算速度慢。又由于单片机对浮点数的运算能力十分有限, 用此生成序列几乎难以实现数字语音信号加密的实时性。研究发现, 我们可以通过关系式 (1) :

使混沌序列的浮点迭代过程变为适合单片机指令的整点迭代过程。转换过程如下:

令

从上式可知:X是十进制整数。由此就完成了从小数到整数的转换。

该方法运算量明显小于浮点运算, 它降低了对计算精度的要求。加快了运算速度。从而降低了对硬件电路的要求。

3 结束语

在数字语音加密通信系统中, 最重要的是加解密密钥的产生, 本文所采用的混沌序列生成方法, 减少了运算量, 加快了运算速度, 降低了对硬件电路的要求。使得加解密算法可在单片机上实现。理论分析表明, 该系统很好地满足了我们对语音保密通信的要求。

参考文献

[1]AD73311Datasheet, Analog Devices, Inc., 1998.

[2]AMBE-2000TM Vocoder Chip User's Manual Version4.8, 2007.

数字语音篇5

根据信息技术与课程整合的`基本要求,提出基于校园网实现语音数字化教学的设计思路,研究开发出一个“数字语音网络教学系统”.教师利用这套系统可在任何一个网络终端建立自己的备课模板.再由管理员建立排课模板,然后带着遥控器,即可在普通教室轻松点播教学所需的高品质的数字音频节目.另外,这套系统还可以实现点对面播音、分区播音、定时播音和学生自主点播学习等,使教学过程实现数字化.

作者：李嫒作者单位：大连广播电视大学甘井子分校,辽宁,大连,116003 刊名：硅谷英文刊名：SILICON VALLEY 年，卷(期)： “”(3) 分类号：G43 关键词：数字化网络化资源共享数字语音网络教学系统

数字化语音存储与回放系统设计篇6

关键词：数字化语音存储与回放系统设计,单片机,系统方案,硬件设计,软件设计

引言:在电子与信息处理的使用中, 已采用数字化语音存储与回放系统完全代替了传统的磁带语音录放系统, 它体积小巧、功耗低, 主要以对语音的录音与放音的数字控制为基本原理, 其主要技术在于:采用了非失真压缩算法对语音信号进行压缩后再存储, 不仅增加了语音存储时间, 同时也提高了存储器的利用率, 从而确保了语音回放的可靠质量。

一、系统方案

语音芯片的种类虽多, 但有的缺乏灵活性, 难以满足不同场合的需要。为此, 可使用微处理器控制的语音数字化存储与回放系统。系统采用高速LinCMOS8位模数转换器TLC0820AC完成语音信息的采集, 用两片静态RAM628128作片外数据存储器, 用以存放语音信息, DAC0832完成语音回放。该系统对语音信号的采样频率为8/4kHz, 能对语音进行压缩, 回放音质较好, 其结构原理如图1所示。

语音信号经放大滤波后, 送入A/D进行模数转换。转换后的数字化语音信号, 通过单片机的控制写入片外数据存储器, 完成语音数字化存储。回放时, 单片机从数据存储器中将数据读出, 送入并行D/A转换器, 进行数模转换, 转换后的模拟信号经滤波、功率放大后, 实现语音回放。

二、硬件设计

2.1单片机系统控制电路

本系统主要由8031、ADC0808、DAC0832、8255及RAM62256组成, 其中ADC0808、DAC0832及8255的片选信号由8031的高位地址经74LS138译码所得。在电路中利用8255进行数字存储器的扩展, 其中PB, PC用于扩展地址, PA用于扩展数据。

2.2 A/D电路

A/D电路由模拟语音信号处理电路及A/D转换电路组成。其工作原理如图2。

整个模拟语音信号输入处理电路, 包括:前置放大器、带通滤波器及电平范围调整电路。一般麦克风输出电平为几十毫伏, 经增益约为46 dB的前置放大器A1放大至1 V左右的范围, 以便推动后级电路。带通滤波器的通带为300~3 400 Hz, 系统的采样频率定为8 kHz, 即每秒钟采样8 000点语音数据, 每一点数据以一个字节表示。电平范围调整电路是将原先双极性的语音信号转换到0~5V的范围, 以满足ADC0808对接口信号的要求。

2.3 D/A电路

图3为D/A转换的工作原理图。D/A芯片DAC0832是8位双极性电流驱动的数模转换器。

由于所要转换输出的信号为语音信号, 其本身是双极性的信号, 因此对杂音的处理尤其重要。在无信号输出时, 希望其输出对地是零电位, 因此应用两组运算放大器作为电流到电压的转换器, 完成双极性控制的目的。数字信号经D/A转换、双极性电流至电压变换后已成为模拟语音信号, 经带通滤波器再送往音频功率放大器, 做适当的功率提升而推动喇叭。

2.4带通滤波器设计

为了滤除不必要的干扰及杂波, 系统前向通道和后向通道中各设计了一个通带为300 Hz~3 400 Hz的带通滤波器。此带通滤波器由一个低通滤波器和一个高通滤波器串联而成。其中低通滤波器上限频率为3 400 Hz, 高通滤波器下限频率为300 Hz, 电路如图4所示, 其中A1构成低通滤波器, A2构成高通滤波器。如选R1=R2, C1=C2, R5=R6, C3=C4, 则有:fH=1/ (2πR1C1) 、fL=1/ (2πR5C3) , 故很易选定各参数值[2]。

三、软件设计

3.1总体程序设计

系统程序由三部分组成, 即主程序、键盘中断处理程序和系统定时器中断处理程序。各部分程序功能如下所述:

1) 主程序

程序中将程序运行状态分为四种, 即F R E E (空闲态) 、RECORD (录音) 、PLAY (回放) 、ALARM (录音完毕报警) 。在主程序中仅依靠当前状态设置各LED的亮或灭, 以指示当前工作状态。

2) 键盘中断处理程序

键盘中断处理程序框图如图5。若“录音”键按下, 则设置当前状态为“RECORD”, 若“放音”键按下, 则设置当前状态为“PLAY”。

3) 定时器中断处理程序

由定时器产生定时中断, 定时时间为0.125 ms。在程序中对应于当前不同的工作状态做相应的处理。

3.2数字滤波程序

输入A/D转换器的信号虽然经过带通滤波器滤波, 但由于ADC0808进行A/D转换时, 末位数据会有跳变, 故产生了高频信号, 因此要进行数字滤波。数字滤波方法主要有算术平均值滤波、加权平均值滤波、滑动平均值滤波等[3]。其中算术平均值滤波和加权平均值滤波都要采样多个数据, 然后求算术平均值或加权平均值, 但由于必须采样多次, 故检测速度较慢, 所以采用滑动平均值滤波。其算法为:先在存储器RAM中建立一个数据缓冲区, 依次存放8个数据, 每采进一个新数据, 就将最早采集的那个数据丢掉, 而后求包括新数据在内的8个数据的算术平均值。这样每进行一次采样, 即可算出一个新平均值, 大大增加了数据处理的速度。其具体程序流程, 这里就不再赘述。

3.3语音压缩与解压

由于数字语音信号数据庞大, 10s语音信号数据即需80K存储器, 为了提高存储器的利用率, 必须进行数据压缩。数据压缩算法可分为失真压缩算法和非失真压缩算法。失真压缩算法一般是对信号进行付立叶变换, 然后抽取有用频率分量, 解压时进行反变换, 从而恢复有用信号, 采用此种压缩算法压缩量较大, 但本系统却不宜采用, 主要原因有两点: (1) 语音信号频带较窄, 采用付氏变换会丢失部分有用频率分量, 从而引起失真。 (2) 付氏变换运算量庞大, 8位单片机很难应付。所以采用非失真压缩算法。其具体算法为:当有两个以上连续相等的数据时, 可以用三个字节表示, 即前两个字节相等表示被压缩的数据值, 后一个字节表示重复的次数。由于语音信号自身的特点, 即冗余度大, 这就为此种压缩提供了可能。同样, 在解压时, 程序读入数据流, 当遇到两个相等数据时则重复此数, 重复次数由后一个数据决定。

四、总结

本系统完成了语音拾取、数字化存储及回放功能。对300Hz~3.4kHz范围内音频信号进行存储和回放, 低频段效果较好, 高频段稍次。如果提高采样频率, 高频段音质可得到改善。带通滤波器矩形系数稍差。如果采用高阶 (如四阶或六阶) 带通滤波器, 噪音会减少, 信噪比能得以改善。同时, 系统电路简单, 程序简洁。采用闪速存储器保存语音数据, 即使断电数据仍不失, 所以保存数据安全可靠。若在软件中增加数据压缩算法, 可节省存储空间, 是一种实用的电路方案。

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出版社, 2002.

[2]程佩青.数字信号处理教程[M].北京:清华大学出版社, 1995.

[3]潘新民.单片机实用系统设计[M].北京:人民邮电出版社, 1992.

论数字化语音存储回放系统设计篇7

1.1 语音信号采集

通常情况下, 人能够听到的声音频率范围为大于20 Hz、小于20000 Hz的信号, 通常情况下的语音信号频率最高能达到3400 Hz。所谓语音信号采集是指将通过麦克风和高频放大器的语音声波信息, 转换为模拟量电信号, 最后转变成数字量的过程。要想确保采集信号不存在失真现象, 采样频率要为模拟信号最高频率的2倍以上, 即最低频率为6800 Hz, 在考虑语言质量的前提下, 应当将采样频率确定为8000 Hz。

1.2 语音压缩

待录制信号在输入到系统中后, 先被分配到各自的预放大器, 直到放大到合适的电平后, 转移到信号混合单元将信号进行混合, 形成一路完整的信号, 并交由低通滤波器将高频滤去, 将处理后的语音送至A/D转换器实施模数转换, 将其变为频率为8 k Hz的语音信号, 形成特定的串行比特流, 利用串行的方式将语音信号送至语音压缩单位。利用语言压缩单元20 ms为一帧的速率对语音信号实施40∶1的高倍压缩, 最终生成2.4 kb/s的压缩语音, 由此完成语音压缩流程。

1.3 语音生成原理

一般情况下, 由于可将语音生成过程看作是语音采集过程的反向过程, 所以掌握语音生成过程能够实现回放语音信号的功能。值得注意的是, 语音生成过程并不是原原本本地将语音信息进行恢复, 而是对原来语音可重组、可控制的地方进行实时恢复。在播放语音时, 单片机要先读出储存在数据存储器中的语音数据, 利用数字音量调整单元将语音信号调整到适合的电平, 而后用解压缩单元将其还原成12位串行音频比特流。下一步利用D/A转换器将数字音频信号转换为模拟音频信号, 并将其送至开关电容低通滤波器, 使模拟音频信号的高频噪音得以滤除, 最后经音频放大、功率放大, 使语音从扬声器中发出, 从而完成语音回放过程。

2 数字化语音存储回放系统的具体设计方法

2.1 设计方案的确定

(1) 系统总体设计。通过技术性以及经济性等多方面综合考虑, 最终决定选用单片机来完成人机交互和声音信号的采集、编解码等功能。选用单片机的主要原因是其具有诸多优点, 如丰富的接口资源、电路结构简洁明了、可实现较为复杂的控制与运算、便于调试等等。

(2) 语音信号的设计方案。经过综合考虑后, 决定采用前置同相放大器, 这样设计的原因是通过放大器前置能够使功效的增益变为连续可调, 同时还进一步确保了比较器的精度。本系统的前置放大器采用的是同相宽带放大器, 这种放大器具有频带宽、漂移低、支持满幅度运放、增益可调等优点, 而且采用这种放大器还有助于实现输入电阻较大的设计要求。

(3) 谐波器设计方案。为了进一步避免高、低频信号产生干扰, 并增强信噪比, 决定选择带通滤波器。由于系统本身的输出波形频率具有覆盖范围较大的特点, 为保证整个频率覆盖范围之内的滤波效果达到最为理想的状况, 并防止语音信号失真, 最终决定采用4+5阶巴特沃兹滤波器, 该滤波器可以实现最大平坦的频率响应。

(4) 功率放大器的设计方案。本系统采用的是LM386音频功率放大器, 选择该音频放大器的原因是其外接的元器件相对较少, 并且电压增益可调、功率大、电路简单。

2.2 语音编码技术

目前, 较为常见的语音编码主要有以下三类:参数编码、波形编码以及混合编码。

(1) 参数编码。其又被称之为声码器技术。语音本身属于短时间平稳状况, 只有在非常短的时间内, 才能够认为声音模型的基本特征是近似的, 因而, 模型特征参数在更新方面的频率相对较低, 这样一来使得编码比特率大幅度降低。该编码最显著的特点是速率快, 最高可达2.4 kbps以下, 但其缺点是合成后的语音音质相对较差, 尤其是自然度较低, 对语音环境当中的噪音十分敏感, 必须在较为安静的环境当中才能获得较高的可懂度。

(2) 波形编码。这种编码方式最为显著的优点是语音质量好、环境适应能力超强, 唯一的缺陷是需要用到的语音编码速率高。

(3) 混合编码。这是一种基于上述两类编码方式的基础上形成的, 由于其具备参数和波形这两种编码类型的全部优点, 并克服了它们的缺陷, 因此获得了广泛应用。本系统的设计采用的就是混合编码。

2.3 系统主要电路设计

(1) A/D电路。A/D电路的构成部分为A/D转换电路和模拟语音信号处理电路。模拟语音信号在输入A/D电路后, 需要经过前置放大器、带通滤波器、电平范围等步骤对电路进行调整。通常情况下, 麦克风的输出电平为几十毫伏, 通过前置放大器进行处理后可放大至1 V左右, 从而推动后续流程操作。带通滤波器的通带为300~3400 Hz, 将系统的语音采样频率确定为8 k Hz, 也就是说1 s内可采样8000点语音数据, 并将数据用字节进行表示。电平范围对电路进行调整是将原本具有双极性的语音信号转变到0~5 V范围, 从而使其符合接口信号的要求。

(2) D/A电路在转换输出语音信号中, 对语音信号杂音的处理是十分重要的。由于在没有信号输出的状态下, 应当保持输出对地是零电位, 所以要用两组运算放大器作为转换器, 实现电流到电压的双极性转换和控制的目的。数字信号经过D/A电路以及转换器的处理后, 形成模拟语音信号, 最终成为输出音频。

综上所述, 本系统能够实现语音拾取和数字化存储以及回放等功能, 可对300~3400 Hz这一范围区间内的音频信号进行存储和回放。

摘要：近年来, 随着科学技术水平的不断提高, 各种高科技产品逐渐走进了人们的生活。数字化语音处理技术作为高科技应用领域当中的一个热点, 其从理论到相关产品现已基本趋于完善。它与医疗卫生机构以及福利事业的生活支援系统有着十分密切的联系, 并且极有可能成为下一代操作系统的用户界面。基于此点, 本文就数字化语音存储回放系统的设计进行研究。

关键词：数字化,单片机,语音存储回放系统,设计

参考文献

[1]周瑗, 杨丽华.基于CPLD技术的数字化语音存储与回放系统[J].北京化工大学学报 (自然科学版) , 2010 (8) .

[2]曲洪权, 李柯南, 张北南.基于FPGA控制的数字化语音存储与回放系统[J].电子技术, 2010 (12) .

数字网络语音室的应用与管理篇8

一、LBD2000型全数字化网络语音室功能介绍

LBD2000型全数字化网络语音室是采用ATM网络技术、运用计算机网络技术、语言处理技术研制出的专业语言学习系统。彻底解决了以太网难以解决的语音延迟、断裂问题, 完全满足语言教学实时交互的要求。实现传统语音室基本功能的同时, 更兼顾听说读写, 加上开放式语言自学、变速不变调语音播放、网络化口语考试等独有功能, 令语言教学现代化。

1. 课堂教学

全面的教学方式、先进的教学手段、丰富的教学资源为教师、学生带来新鲜、理想的教与学感受。教师通过课堂教学功能可以进行广播, 播放资料库资料, 达到语音素材声文同步、按句处理, 清晰明了地呈现给学生, 完全符合语言学习的习惯, 也能播放外部设施资料, 同时可以通过广播与学生对话, 分组讨论和教案播放等。课堂广播教学时, 每位学生自主调节收听进度, 达到句句听懂, 人人听懂;教师利用教师机界面显示学生收听进度。实现因人施教、因学施教。可提高20%的教学效率。小组讨论实现2人, 3人, 4人, 6人小组讨论, 声音饱满、发音清晰。保证对话时语音交互的实时、无断裂、高保真、全通, 提高学生听、说应变的综合能力。监听辅导随时监听学生说话或收听资料的情况, 了解学生听力水平并进行相对辅导。教师通过“媒体”, 可以用广播录像机、DVD、视频展示台等外部设备的多媒体资料来进行生动活泼、声像并茂的课堂语言学习。教师在每节课上课前, 进行语音室系统检查, 只需要按“检测”按钮, 系统将进行自动检测。如没有问题, 教师机上学生座位下显示“__”;如果系统有问题, 将没有“__”反馈。

2. 自主学习

实验室有丰富的语音听读资料和听写资料, 学生在平时课余时间可以到实验室进行自主学习, 同时可以根据自身外语水平有针对性地选择资料进行自主学习提高。学生进入自主学习界面后, 可以充分利用里面的各种功能, 如:自主录音, 学生自主录音后可以自己播放录音, 学生通过点播资料可以选择资料库里面丰富的听力资料和听写资料, 还可以利用丰富的资料库的测试题进行自我测试, 达到提高外语听力水平的目的。

3. 考试系统

专业的考试题库、周到的阅卷系统、详细的试题分析, 为学生提供整套可行的专业考试实施环境。听力选答考试及计算机自动阅卷利用录音卡座播放试题或本地资料库中调用考题, 学生通过终端按键作答。试毕, 系统自动评卷, 其中为教师提供多种评估方式并将学生的考试成绩存档, 便于复查。

4. 教师备课

丰富的授课资料, 为教师安排合理的教学空间。教师通过资料管理可以制作教案, 该教案制作好后, 存放于本地教师机中, 待上课后直接调用, 方便教师安排授课进程。制作教案可以是音频+文本, 也可以是音频+视频+文本。教师可以在素材库中直接调用授课素材, 自主制作教案。

5. 资料管理

用户信息管理教师可“添加”或“删除”用户, 添加年级、班级、学号等学生信息。学生使用时间计费管理完成对学生使用交费、续费等费用使用情况的查看及管理。设备使用情况记录管理系统自动记录学生使用某终端的开始和结束时间, 反映设备使用情况, 便于查找造成设备故障的责任人。学生学习情况记事管理学生自学过程中, 系统自动记录学生学习内容 (点播资料名称、学习时间) , 方便校方监控学生学习情况。

6. 系统设置

可以设置灵活的授课方式, 系统权限设置, 保证教师的系统教学。普通设置对各种功能使用权限进行设置, 可对学生终端复听、跟读、录音快进、快退时间等进行设置。还可对学生进行自主学习是否计费进行设置。高级设置可对学生坐位数、座位排列、录音途径、跟读路径, 素材库路径等选项进行设置。

7. 退出系统

教师或使用者完成某项教学内容, 或使用完毕系统的某种功能后通过点击“退出系统”即可关闭整个语音系统, 结束教学活动。

二、数字网络语音室的管理

语音室的管理是一项比较庞大而且复杂的工作, 它有一定的技术性和复杂性。语音室管理包含多方面的工作, 根据多年的实践经验, 主要介绍语音室的系统平台管理, 供电设备管理和常见故障排除等三方面的管理。

1. 系统平台管理

语音系统主要是建立在一台配置较高的PC机上, 日常要做好PC机的系统安全, 及时升级杀毒软件并清理系统垃圾, 尽量少安装或不安装与语音系统会冲突的大型软件, 防止系统突然崩溃, 同时要注意改善设备的外部运行环境, 提高机器散热降温效果, 保证设备周围的空气流通, 让系统运行在一个良好的环境下能够充分发挥系统的最佳性能。

2. 供电设备的管理

我校语音室的供电设备是由一组三个稳压电源组成, 每个稳压电源分别为一个交换机供电。对稳压电源要正确开启和关闭, 定期给稳压电源散热风扇清理灰尘, 加润滑剂, 保证稳压电源的正常运行;做好其他外设供电电源插座的安装和检查工作, 定期检查供电插座是否出现松动和接触不良等现象。

3. 常见故障排除及解决方法

(1) 硬件故障处理

(1) A1座位的学习终端只显示蓝鸽科技故障

解决方法:

A.首先关闭直流电源, 将旁边的一个好的学习终端同A1座位的学习终端调换一下, 如果A1座位的学习终端变好了, 而旁边的学习终端变坏了, 说明此学习终端坏了。

B.如果调换两个学习终端后, A1座位的学习终端还是显示蓝鸽科技, 那么把A1座位的学习终端所接的语音交换分机口同旁边的口对换一下, A1座位的学习终端变好了, 而旁边的学习终端变坏了, 说明此语音交换分机这个接口坏。

C.如果对换语音交换分机两个口之后, A1座位的学习终端还是坏的, 可以证明A1座位的用户线, 也就是数据连接线有问题, 更换即可。

(2) A1座位的学习终端没有声音故障

解决方法:

A.首先检查座位的学习终端音量是否被关小, 如果没关小, 那么检查耳机插头是否插好或插反;如果都不是, 那么更换一副好的耳机再试机。

B.如果座位的学习终端更换好的耳机还是没有声音, 那么更换好的学习终端再试机;如果座位的学习终端有声音了, 说明学习终端坏掉, 更换终端即可。

(3) 如果某一个语音交换分机 (假定A) 所接的8个学习终端只显示蓝鸽科技故障

解决方法:

A.将好的语音交换分机同A语音交换分机对换, 如果A交换分机所接的学习终端还是显示蓝鸽科技故障, 说明A语音交换分机坏。

B.如果对换语音交换分机之后, A语音交换分机所接的8个学习终端显示正常, 而另一个语音交换分机所接的8个学习终端显示不正常, 说明此语音交换分机与语音交换主机之间的连线有问题, 需重点检查该连线。

(4) 全部学习终端只显示蓝鸽科技故障

解决方法:

A.进入课堂教学模块, 播放资料, 听学生耳机是否有声音, 如果教师耳机有声音, 学生耳机没有声音, 说明交换主机故障。

B.如果拔掉语音卡与语音交换主机之间的主干线, 再检查语音卡是否有声音, 如果没有声音, 说明语音卡坏掉, 需更换语音卡。

(5) 只有1台显示器没有电脑信号和图象或者有条纹颤动故障

解决方法:

A.检查显示器是否有电源。

B.找到此显示器所连接的VGA分配器, 然后换一个好的接口再试, 如果还是不行, 说明此显示器有故障, 如果正常, 则说明该分配器的这一接口有故障。

(6) 学生桌的显示器全部没有电脑信号和图象或者有条纹颤动故障

解决方法:

A.检查总的VGA分配器是否有电源。

B.将电视宝输出口连接的那个VGA分配器直接接到教师机显示器所接的VGA分配器上, 如果正常, 说明电视宝有问题, 如果不正常, 说明此VGA线有故障。

(2) 软件故障处理

(1) 播放素材库里面的资料有声音, 而播放所有的媒体如 (卡座、录像机等) 没有声音故障

解决方法:

A.检查计算机的声卡的音量是否被关小, 输入是否被关闭。

B.检查多媒体控制器电源是否打开。

C.检查多媒体控制器的串行口所接计算机的COM口是否与软件中系统设置模块中的高级里面的串行口设置一致。

D.检查多媒体控制器与计算机声卡的输入口之间的连线是否有问题, 是否没有插紧或断线现象。

E.检查计算机声卡的输出口与语音卡的输入口之间的连线是否有故障。

(2) 运行数字网络语音室软件时, 系统提示初始化失败故障

解决方法:

A.检查语音卡的驱动程序是否安装好。

B.将安装光盘中的***128文件中的LG64V, VXD, LG64VDLL。DLL文件拷贝到C:/WINDOWS, SYSTEM下面。

三、结束语

数字网络语音系统实现了传统听力教学技术和网络教学技术的紧密结合, 突破了听力教学技术原有的桎梏。教师要不断探索数字网络语音教学系统的各种新功能, 充分合理利用教学资源, 发挥语音设备技术的优势, 提高教学质量和教学效果。语音室的管理更是要求管理人员有强烈的责任感和事业心, 以主人翁的精神全身心投入到自己的工作中, 保障语音室的正常运行, 提高语音室的利用率和使用寿命, 最终达到提高英语教学水平的目标。

摘要：数字网络语音室已经在高校广泛使用, 并且成为外语教学一个重要的硬件设施。在介绍新一代数字网络语音学习系统的技术设计和功能的基础上, 分析了它对外语教学带来的各种益处, 以及管理人员对其科学的管理。

关键词：数字网络语音室,专业语言学习系统

参考文献

[1]任桂英, 崔明子.简谈数字网络语音室的应用与管理[J].中国轻工教育, 2004, 4

[2]林英.浅谈数字化语音室的应用和维护[J].消费导刊, 2007, 9

数字语音篇9

关键词：语音存储与回放,ADPCM,短时傅里叶变换,FPGA控制

0 引言

由单片机与FPGA共同完成语音的录制与回放,可以拥有丰富的接口资源和运算能力,鉴于PCM的存储冗余值过大和DPCM的量化噪声问题,ADPCM成为了不错的压缩算法[1,2]。同时为了拥有较高的共模抑制比、低失真、高功率和高输入阻抗,本文采用仪表放大器、立体声功率放大和控制芯片,结合ADPCM编码,设计并实现了具有采集速度快、存储时间长、语音回放质量良好的数字语音存储与回放系统。

1 系统设计框图

系统主要包括采集、处理与语音回放模块三个部分。对于采集模块,一般由麦克风或者耳机输入的语音通过前置放大和低通滤波等预处理之后,完成A/D转化。对于语音处理模块来说,进行ADPCM的编码以及FFT运算,可将数字化的语音存储于外部介质。对于回放模块来说,可提取存储的语音内容,并且通过解码、D/A转换,最后驱动扬声器来完成回放功能。系统整体框图如图1所示[3,4]。

其中的立体声ADC和立体声DAC组成部分都集成在芯片PCM3010内部。通过立体声音量控制芯片PGA3010实现立体声音量的调节,最后由功率放大器驱动扬声器完成语音播放功能。同时,通过在FPGA内部对采样数据进行短时傅里叶变换,可在示波器上实时显示语音信号的频谱。

2 理论分析计算[5,6,7]

2.1 ADPCM编码的理论分析

ADPCM的原理是对相邻两采样值的差值进行编码,利用自适应的思想改变量化阶的大小。ADPCM编码法结合了DCM与ADM,其实是差分算法原理的自适应方向改进。对于输入的信号Si与自适应输出值Sp存在差值,根据自适应量化步长d对此差值进行量化,输出ADPCM四位量化码I。对于量化码I又重新计算量化步长d。其原理图如图2所示。

另外一方面对于量化码I,又要送入反量化器,根据计算的步长d进行差别断定,生成新的解码值,进行下一轮的语音编码。其原理图如图3所示。

通过ADPCM的编码,可以达到1/6的压缩比率。也就是说,对于24 b的采样数据,4 b的存储率即可达成要求,可以大大延长存储的时间。当采样速率为46 k Hz时,数据传输速率为184 Kb/s,由于外部存储器BQ4015大小为512×8 Kb,故能够存储的最长时间为22 s。当采样速率为8 k Hz时,能够存储的最长时间为128 s。

2.2 信噪比计算

一般认为,通话的语音频率一般不超过3.4 k Hz,所以低通滤波器选取3.4 k Hz作为其截至频率,同时保证A/D采样频率高于8 k Hz,根据奈奎斯特定律,即可满足语音量化不损失。对于耳机声道声音,其频率范围为20 Hz~20 k Hz,所以对于上述的滤波器以及A/D采样频率也能满足其要求。根据如下信噪比(单位:d B)公式:

式中σx2,σe2,xmax,B分别为输入语音信号方差、噪声信号方差、信号峰值、量化字长。

若假定语音信号服从拉普拉斯分布,则xmax=4σx。

所以可以计算出:

表明量化器中每个比特字长对信噪比的贡献大约为6 d B。选用24 b A/D转换器PCM3010,理论上可以达到137 d B的信噪比。

2.3 预加重处理

为了提升语音质量,一般都会对采集的语音进行预加重处理。使得信号的高频部分进行提升,同时信号更平坦。处理的时候一般在高频段按照-6 d B/倍频程跌落,在FPGA内部实现具有6 d B/倍频程提升高频特性的预加重数字滤波器。选取一阶高通滤波器,其特性函数为:

式中u值取为0.94~0.97。当然,在信号处理之后,还需要通过去加重来还原原本的语音信号。

2.4 分帧加窗处理

为了能用传统的方法对语音信号进行分析处理,需要对本来是时变语音信号进行加窗处理。假定语音信号在30 ms内是平稳的,则在30 ms范围内对于语音信号分割加窗。若采样速率为46 k Hz,每帧信号由512个点组成,则一帧的时间长度为11.1 ms,满足语音信号的短时平稳特性。

不同的窗函数对于信号会有不同的处理结果,为了选取更优的处理结果,于是对于矩形窗和汉明窗两个最为典型的窗的特性进行比较,结果如图4,图5所示。

由图4,图5可知,矩形窗有不错的平滑特性,但是在频谱带外会有一定的信号损失,会有泄漏现象。而汉明窗虽然平滑特性不好,但是其带宽却大于矩形窗,更适合语音信号处理。故在时域中对每帧信号添加汉明窗,再进行傅里叶变换,能更真实地分析其频谱信息。

显示频谱时,由于示波器的分辨率有限,对512点的频谱信息,采取每间隔8个点抽取1个点的方式,即得到64点的频谱信息。由于显示时只需显示0~fs2(fs为采样速率)频率段的信息,故最后在示波器上清晰地显示32个点的频谱。

3 单元模块电路设计[8,9,10]

3.1 前级放大电路

一般来说,语音的输入能量不大,为了完成A/D操作,就需要对输入的信号进行放大。对于简单的电路放大设计,选用最基本的AD620、INA129。对于调制电阻RG,通过增益计算公式G=49.4 kΩ/RG+1可以计算得到,RG使用50 kΩ可调电位器来达到2.5倍的增益放大,电路设计图如图6,图7所示。

3.2 A/D及D/A设计电路

PCM3010为24 b立体声音频编码器,其内部包含Σ-Δ型ADC和DAC。其中立体声ADC输入信号峰峰值为3 V,内置抗混叠滤波器和高通滤波器,采样速率为16~96 k Hz可调,立体声DAC输出信号峰峰值为3 V,内置去加重滤波器,转换速率为16~192 k Hz可调。DAC输出信号接后置低通滤波器,可实现较好的波形输出。

该芯片将ADC、DAC集成一体,极大地简化了硬件电路规模,并且价格便宜,具有极高的性价比。这里在某些数据线与控制线上串接了一个小电阻,以降低信号上下边沿的跳变速率。其电路图如图8所示。

3.3 音量控制及功放电路

音量调节选用高性能立体声音频音量控制芯片PGA2310实现。通过数字方法控制模拟音量,每声道音量单独可调,并具有静噪功能。它具有极宽的增益衰减范围,-95.5~31.5 d B以0.5 d B步进可调,失真度仅为0.000 4%。其输出两路信号送入高效D类音频功率放大器TPA2000D4,+5 V供电驱动4Ω负载时功率可达2 W。其静态功耗低,外接电路简单,无需外接LC输出滤波器,即可直接驱动扬声器。电路图如图9所示。

4 程序设计

系统软件部分由单片机的C51语言和FPGA的Verilog HDL语言组成。其中,单片机主要完成用户输入输出处理和系统的控制,FPGA主要完成需要严格时序控制(如数据采集、频谱显示)以及大规模数据计算(如FFT、ADPCM编码)等。整个系统的设计中模块化思想贯穿始终,采用菜单键选择所用功能,系统流程图如图10所示。

5 测试方案与测量结果

5.1 测试仪器

测试仪器包括直流稳压稳流电源,型号为SG1733SB3A;60M数字存储示波器,型号为Tektronix TDS1002;秒表。

5.2 测试方案与测试结果

5.2.1 语音存储与回放效果测试

(1)一名组员面对麦克风以不同大小的声音说话,录下一段语音,记录回放语音的效果,结果见表1。

(2)由耳机输入不同音量的立体声音乐,录下一段语音,记录回放语音的效果,结果见表2。

5.2.2 语音存储时间测试

(1)由耳机不间断地输入立体声音乐,启用录音模式,待系统显示存储器存满后,回放语音,用秒表记录语音回放最长时间,结果见表3。

(2)一名组员面对麦克风不间断地说话,启用录音模式,待系统显示存储器存满后,回放语音,用秒表记录语音回放最长时间,结果见表4。

5.2.3 语音频谱分析及显示测试

由耳机或麦克风输入一段语音信号,由扬声器直接播放出来,同时在示波器上实时显示频谱。测试结果为当播放的声音变化时,可观察到频谱有相应的明显变化。

由于不能明确知道语音信号的实时频率和幅度信息,故只对频谱进行了定性测试。

5.3 测试结果分析及总结

系统实现了语音存储及回放,最长存储时间达2 min,回放语音效果清晰良好,并能在示波器上实时显示语音频谱。采用ADPCM编码在保证回放音质的情况下,极大地提高了存储器的利用率,并通过对语音信号采用分帧加窗的方法实现了短时频谱分析。

另外,系统采取了一系列抗干扰措施以减小噪声,如数字地与模拟地分开走线,在一点汇合;电源处采用一个10μF和0.1μF的电容并联去耦;时钟走线尽量短等。但系统在语音回放时仍存在一定的噪声,尤其当输入语音音量较小时,噪声更为明显,这是本系统需要完善的地方。

参考文献

[1]韩纪庆.语音信号处理[M].北京:清华大学出版社,2004.

[2]陈永彬.语音信号处理[M].上海:上海交通大学出版社,2000.

[3]黄根春.电子设计教程[M].北京:电子工业出版社,2007.

[4]曹志刚,钱亚生.现代通信原理[M].北京:清华大学出版社,2006.

[5]林志锋.ADPCM语音压缩编解码器的FPGA实现[J].电声技术,2009,33(5):70-76.

[6]冯喜忠.数字化语音存储于回放系统研究[J].济源职业技术学院学报,2009,8(2):16-19.

[7]陈溯.ADPCM语音压缩编码的分析与仿真[J].中国西部科技,2008,7(32):45-47.

[8]董尚斌,代永红.电子线路[M].北京:清华大学出版社,2006.

[9]LOIZOU P.COLEA:A Matlab software tool for speech analy sis[D].Dallas:University of Arkansas,1998.

[10]夏宇闻.数字系统设计:Verilog实现[M].北京:高等教育出版社,2006.

数字语音篇10

2011年9月1日, 安徽交通广播正式成为“安徽省应急广播”, 被列入省政府应急管理体系。承担着及时、有效预防突发公共事件和应对突发公共事件以及保障人民群众生命财产安全的重要责任。交通广播所采用的传统采访模式, 即在制作机房里面, 记者通过电话耦合器呼叫预约的采访对象进行采访, 通过调音台、录音工作站对通话内容进行实时录音, 并在后期对录音音频进行剪辑的方法, 在突发公共事件面前, 应急响应能力显得不足。

如交通广播的“维权908”、“天使爱帮忙”等栏目, 新闻线索大多发生在各个不同的地方, 甚至发生在几百公里之外, 记者、主持人要在短时间内完成节目采集制作, 回复听众, 丰富节目的音频素材, 只能通过电话进行采访。但是使用制作机房需要预约, 在需要采访的时间段内, 制作机房可能正在使用, 经常发生在采访档期内没有制作机房可用的情况。

在采访链路通道容量较少的情况下, 如何保证在暴雪、洪涝等自然灾害以及交通事故等重大突发事件发生时, 多位记者同一时刻与现场多方施救人员联系, 迅速获取现场信息;到达现场的记者, 如何在第一时间发回现场播报素材, 以提升节目的时效性和现场感;接收听众申报在新闻线索的同时, 如何实时录制成原汁原味的鲜活节目素材, 更好地为听众服务, 提升品牌影响力, 成为需要解决的问题。

鉴于以上情况, 稳定的信号、多路并发的线路容量、更加便捷的采访技术手段和节目编辑方式将是最佳的选择, 也是时效性高、现场感强、信息量大和突发公共事件应急新闻报道快速响应这一广播节目发展趋势的内在需求。

由此, 我们设计了数字语音采访系统, 从扩充采访、连线报道技术手段、提升交通广播应急响应能力、提高采编工作效率和丰富节目音频素材的角度出发, 最终实现做大做强交通广播的要求和政府应急广播的定位。

1需求分析

交通广播作为省级专业交通服务频率和政府应急广播, 需要在暴雪、洪涝等自然灾害、交通事故等重大突发事件中做出快速响应, 同时, 为满足节目需求, 提升节目的时效性和现场感, 往往需要在节目制作中加入现场播报素材。

交通广播原有电话采访模式的不利因素有:采访过程操作繁琐;模拟电话信号质量不是很稳定;采访对象档期内机房忙碌, 反复预约采访对象;发现新闻线索无法第一时间发回现场播报素材;无法满足在重大事件中大并发量的采访, 快速获取现场信息的需求;不能将听众申报的新闻线索实时录音, 生成鲜活节目素材。

通过对现有电话采访系统和实际应用的分析, 对系统设计提出了以下几个方面的需求:

1.能提供优质的采访通话录音, 记录第一手资料, 作为节目素材编辑播报。

2.能提供多路采访通路, 支持大并发量的采访。

3.能在远距离长途呼叫中, 快速建立呼叫链路。

4.能自定义听众呼入流程, 力求方便听众呼入系统申报线索。

5.能在发现新闻线索的第一时间内发回现场播报素材。

6.能在办公电脑管理、分类查询检索、统计、试听和下载采访录音。

7.能通过电话键盘操作修改用户密码;试听、删除播报内容。

8.能提供语音文字转换功能, 自动生成采访文稿文本。

9.语音提示方式摒弃传统的文本语音合成 (TTS) 方法, 实现主持人原声配音录制, 做到具有交通广播特色的语音提示。

CTI (Computer Telephony Integration) 技术是计算机与通信的集成融合, 通过对CTI硬件的驱动和配置, 实现采访通信链路的建立、实现多种编码格式的录音, 实现个性化的呼叫转接流程。

E1 (欧洲的30路脉冲编码调制简称E1, 速率是2.048Mb/s) 作为传输的一次群信号接口, 能够在2.048Mb/s的速率上, 配置信令协议, 提供30路64kb/s的传输通道。在A-law (A律编码) 编码下支持30路的采访呼叫链路。在中国1号、7号及综合业务数字网-基群速率接口 (ISDN-PRI, Integrated Service Digital Network-Primary Rate Interface) 信令中, 基群速率接口 (PRI, Primary Rate Interface) 信令作为共路信令, 它拥有更快的呼叫连接建立时间和更高的可靠性等特点。

综上所述, 由于异地和应急的新闻语音采访一般以手机联系为主要方式, 采用最高码率的数字CTI通话音质, 可以适用于新闻节目编播的需要, 同时可扩大通话的并发容量, 提高应急能力。

传统电话采访系统模式与数字语音采访系统模式设想的对比示意图见图1和图2。

2系统设计

CTI技术同时包含了计算机与通信技术, 将通信线路中的信令、状态及内容与计算机系统相融合, 支持脉冲编码调制 (PCM, Pulse-Code Modulation) 、A-law、MP3等多种语音编码技术, 生成不同编码的音频文件, 满足不同领域用户的管理和使用需求。利用CTI技术实现的数字语音采访系统, 可以自动的接听投诉维权、新闻线索和服务求助等方面来电, 同时将通话录音保存并记录来电号码, 支持多位记者同时进行电话录音采访, 满足在重大突发事件中进行电话录音采访的需求, 驻地记者能够便捷、实时发回现场电话录音报道。

系统 (图3) 由服务器、数字语音卡及相关软件构成, 通过E1传输线路与公共电话网络连接, 能够同时建立30路呼叫链接。从系统的可扩展性和安全性出发, 选择使用模块化的C/S架构。系统由管理、配音、下载、留言、呼转及语音文字转写六个模块构成。

2.1通信线路设计

通信线路采用中国电信和欧洲传输网使用的一次群标准PCM信号E1的信息传输线路, 其传输速率是2.048Mb/s。每帧由开始处的8位同步位, 中间的8位信令位及30路的8位数据位构成, 共256位, 用125μs的时长进行传送, 所以每个E1帧中均有32个时隙。同步时隙与信令时隙按照共路信令或者随路信令的方式配置, E1支持我国1号、7号和PRI信令协议, 能够同时传输30或者31路语音信号。

共路信令PRI的特点是传送速度快, 呼叫建立时间短。对于远距离呼叫来说, 其拨号时延在1s以内, 有利于快速建立采访系统呼叫链路。ISDN链路提供端到端的透明数字连接, 其数据信道码率高达64kb/s, 可靠性高, 传输语音音质高, 符合音频编码方式G.711的标准, 并且在传输语音的同时, 还可以传输数据、图文、传真等数据, 有利于将来系统的扩展。因此选择将E1线路配置为ISDN-PRI信令接口, 满足同时接入30路数字电话。

2.2数字语音卡配置

相对于传统的模拟语音卡来说, 数字CTI语音卡具有更好的通话效果和更多的线路容量。它能够适配E1端口的上下行信号, 接收主叫与被叫信息;支持双音多频 (DTMF, Dual Tone Multi Frequency) 信号检测;支持中国1号、7号以及PRI信令的呼叫连接与状态分析;支持自动增益控制 (AGC, automatic gain control) ;支持在A-law、PCM、MP3等语音编解码格式下对呼叫进行录音, 包括来话单向、去话单向以及来、去话混合三种录音模式;支持生成可以用Cool edit (数字音频编辑器) 进行编辑和播放标准音频文件。采用G.711的A-law音频信号编码方式, 它的采样频率、编码和码率分别为8k Hz、8bit、64kb/s, 保证了在采访过程中的高保真通话。

2.3管理模块

管理模块与数字语音卡通讯配接, 对呼叫进行管理和对流程进行控制, 是整个系统的核心, 包括以下功能:

1.用户管理:添加、删除用户, 赋予用户相关权限, 用户可以通过电脑客户端登录系统修改密码, 也可以通过电话呼入系统, 根据语音提示修改密码。

2.录音管理:设置单次通话的最长录音时间、自动挂机的时长, 配置录音模式, 录音文件的存放位置, 设置放音音量电平大小。

3.流程管理:根据交通广播的实际需求, 设置呼叫流程, 实现语音提示和采访通话呼转功能。

4.通话管理:传递通话信令, 并自动记录呼叫的具体时间、长度及来电号码等相关信息。

2.4配音模块

配音模块摒弃传统的文本语音合成 (TTS) 提示音, 结合流程结构设计, 提示语音是由主持人通过电话呼入系统进行录制的原声配音, 提高了提示语音的亲和力, 真实性。包括以下功能:

1.录制提示语音、控制提示语音播放音量及电平。

2.预听录制的提示语音。

3.重新录制提示语音。

2.5下载模块

下载模块是一个客户端程序, 部署在办公电脑终端, 主持人和记者通过终端设备即可以接入系统, 根据栏目、时间等关键词查询、预听、下载记者的采访录音以及热心听众的留言录音, 包括以下功能:

1.查询管理:支持根据栏目、时间或主叫号码等关键词查询采访和留言录音。

2.下载管理:预听查询到的录音文件, 并选择性的下载到本地电脑。

3.信息输出:根据检索关键字生成呼叫信息报表, 打印输出结果。

2.6留言模块

留言模块主要是为听众服务的, 根据交通广播目前的实际需求, 共设置了三个栏目, 分别是新闻线索、投诉建议和服务求助, 听众可以根据语音提示呼入这三个栏目申报新闻线索和维权要求。所有的听众留言系统自动录音并生成WAV文件, 保存在服务器上, 通过下载模块节目编辑人员对留言内容进行筛选, 根据需要联系来电听众进一步采访, 制作成节目以供播出。

根据人们的呼叫习惯, 设置成二级选择菜单, 听众可便捷的呼入系统, 根据语音提示操作, 即可进入相关栏目留言 (图4) 。

2.7呼转模块

呼转模块是为记者和主持人服务的, 记者和主持人呼入系统即可进行远程采访、回传播报、听录音和修改密码操作。呼转流程如图5所示。

1.远程采访:记者可随时随地呼入系统, 根据语音提示进入呼转模块, 通过电话按键输入工号和密码, 选择远程采访, 就可通过系统中继呼叫采访对象, 建立采访通话链路, 并实时录制通话内容, 生成WAV文件, 保存在服务器内。

2.回传播报:记者在现场呼入系统, 根据语音提示进入呼转模块, 通过电话按键输入工号和密码, 选择回传播报, 即可进入个人语音信箱进行现场播报。播报完毕即可以试听刚才的播报内容, 根据需要选择结束挂机、删除或者重录, 所有播报实时录制成WAV文件, 保存在服务器内。

3.听录音:记者呼入系统, 根据语音提示, 进入呼转模块, 输入工号密码, 选择听录音, 即可试听本人之前进行远程采访或现场播报的录音音频。

4.修改密码:记者呼入系统, 按语音提示选择修改密码, 更改个人密码。

2.8语音文字转写模块

语音文字转写模块, 将录制的语音信息通过科大讯飞语音云平台接口, 发送到讯飞语音云平台, 进行识别转换, 并以文本文件返回, 实现听众留言、远程采访和回传现场播报的语音转写文本功能。

实现方式分为两类, 第一类, 在系统启动CTI录音的同时, 将录音数据发往讯飞语音云平台接口, 进行识别转写, 该方式有较多待识别转写的录音数据, 并可能对识别准确率构成一定的影响;第二类, 编辑将录音文件下载、剪辑后, 发往讯飞语音云平台, 进行识别转写, 该方式剪裁了一部分重复的和不必要的录音数据, 文件更小巧, 音质也得到改善, 易于提高识别准确率, 如图6所示。

根据模块的实现设计, 我们使用讯飞语音输入软件等手段先期仿真了转写模块的功能, 对采访录音文件语音转写的识别效果与人工听写的效果进行了比较, 如图7所示。

经过多次测试, 发现对于系统录音文件的语音转写受限于采访对话形式、各地方言、口音和语速的不同, 其识别率远低于在麦克风前口播普通话的方式。同时, 录音文件经过互联网传输存在一定的内容泄露风险。

沟通以后, 交通广播部门提出, 目前语音转写生成的文字稿件, 仍需节目编辑花费较多时间、精力对照录音进行审听、校验, 不能较大幅度提高编辑工作效率。因而, 确定当前采用人工听写方式编辑录音文字稿, 语音转写模式待转写识别技术更加成熟后, 再行实施。

3总结

数字语音采访系统自建成运行以来, 实际使用稳定、效果良好, 已是安徽交通广播的重要采访平台, “维权908”、“天使爱帮忙”等节目的主要采访平台, 完善了突发公共事件新闻采访报道手段。

系统的应用提高了采访的便捷性, 增加了采访通道的容量, 改善了采访通道信号的质量和稳定度。主持人、记者可以随时随地的进行连线采访, 可以即时发回现场报道。听众可以根据类别申报最新线索, 并实时录制成最新鲜的新闻素材。

系统的应用极大的提高了节目制作人员的工作效率, 丰富了节目音频素材, 增强了节目的时效性和现场感, 同时提升了交通广播在突发事件中的应急响应能力。从而为交通广播的收听率、市场占有率和品牌影响力的提升, 以及及时、有效预防和应对突发公共事件, 承担安徽省应急广播责任, 完成突发公共事件交通信息广播电视宣传中心任务, 起到了积极地促进作用。

摘要：数字语音采访系统主要针对安徽交通广播如何在突发事件中迅速准确进行新闻报道、如何收集热心听众提供的新闻线索以及如何实现记者远程采访的需求而设计。该系统基于CTI技术、E1技术和语音识别技术, 是通信网络与广播电台采访信息系统的结合创新。系统实际使用稳定、效果良好, 极大提高了采编的工作效率、丰富了节目的音频素材, 已经成为安徽交通广播重要采编平台。

关键词：数字语音采访,E1数字传输,CTI技术

参考文献

[1]李爱振.CTI技术与呼叫中心[M].北京:电子工业出版社, 2002.

[2]成际镇, 林晓勇.计算机电信集成技术及应用[M].北京:人民邮电出版社, 2007.

[3]杜玲玲.基于CTI技术的社区呼叫中心的应用开发[J].计算机工程与设计, 2009, 30 (24) .

[4]冯炜, 路晨昊, 李海涛.基于CTI技术的呼叫中心系统设计及系统分析[J].黑龙江科技信息, 2010 (26) .

【数字语音】推荐阅读：

数字语音技术09-03

数字语音无线传输08-24

数字语音室01-12

数字化语音技术12-27

数字化网络语音室07-27