语音广播

2024-09-20

语音广播（精选4篇）

语音广播篇1

1自动语音广播系统结构以及流程设计阐述

具体广播系统结构如图1所示。

自动广播系统具体包括服务器、自动播音控制软件、语音库及自动语音合成装置以及工作站等, 全部装置均是利用广播系统网络进行连接, 利用TCP/IP协议实现通讯功能。自动广播系统有关数据输入与输出, 前者包括信息系统集成、航显系统航班数据以及由半自动广播工作站完成编辑得到的半自动广播信息等;输出包括自动语音合成装置生成的Cobra Net音频等。

系统流程如下:首先, 自动广播服务器接收信息, 具体包括从信息集成或航显系统输出而来的航班信息, 系统会自动生成相关广播指令, 并且将其传递到自动语音合成装置, 由自动语音合成装置安装广播内容播放要求, 完成自动语音的合成。如果广播内容在片段语音数据中所有均可以匹配到相应的片段, 那么由自动语音合成装置负责对广播内容WAV文件进行编辑和生成, 并且将其传输至Cobra Net信息处理卡。在此过程中, 必须要向NPMS传递广播申请, 具体内容由广播区域、优先级等信息组成。COBRANET信息卡安装传输来的WAV文件生成对应的Cobra Net音频流, 把Cobra Net音频流传输至NION-N3, NPMS向NION发出相关控制指令, 具体是控制NION能够开启对应音频通道。实际上, NION进行数字音频处理之后, 把Cobra Net音频分别播向对应的广播分区。如果广播内容在片段库中无法做到完全匹配, 那么由自动语音合成装置对未匹配部分广播内容TEXT文件进行编辑和生成, 利用TTS引擎完成TTS合成, 把合成结果生成的WAV文件传输到自动语音合成装置进行编辑与合成, 最后得到和广播内容相一致以及信息完整的播音WAV文件, 将其传输到NION播出即可。

2系统的功能

2.1数字音频矩阵的热备份功能

数字音频矩阵系统具有热备份功能, 其中涉及到相关软件与硬件的结合。比如, NPMS侦测到相关NION处于宕机状态, 控制NION的备机则立刻启动, 以初始化文件对宕机设备初始化文件进行更换, 如此以来备机功能则和宕机装置功能保持一致, 完成NION的热备份功能。

2.2功放自动倒备功能

实际上, 功放自动倒备功能是通过功放倒备器BS-901来完成。功放倒备器对功放系统的工作状态进行实时检测, 如果获取某回路的功放无法正常工作, 那么功放倒备器会自动把输出切换至备份通道, 从而实现功放自动倒备的功能。

2.3故障自动检测功能

广播系统可以完成一些故障检测功能, 比如设备检测, 数字音频矩阵系统、人工呼叫站等, 以及线路检测, 包括扬声器线路、人工呼叫站线路检测等功能。

2.4设备的自动检测功能

数字音频矩阵系统具体指的是媒体矩阵数字音频矩阵系统, 包括系统软件与硬件, 相关硬件比如媒体矩阵主机NION、网络型数字接口设备等, 以上所有设备均是利用网络进行连接, 通过安装于媒体矩阵主机内的专用软件能够实现对以上设备在网络内的工作状态进行检测, 检测内容既有音频数据包的流向及具体设置情况, 还包括全部音频接口机的工作状态、控制信号在网络内的传输通道、全部音频输入/输出的电平情况、网络连接状况进行检测及报警、数字音频矩阵工作状态等。

2.5线路检测功能

扬声器回路检测功能是利用智能功放倒备器来完成, 其中功放倒备器能够对输出到每一个回路扬声器的数据信号进行监测, 如果得知某个回路的输出信号产生异常情况, 功放倒备器会利用网络向系统管理服务器传输报警信息, 并且指明产生异常的回路位置。

2.6功能电源远程控制功能

因为航站楼具有非常大的整体规模, 而且广播机房的分布范围较为广泛, 之间的距离非常远, 往往要利用远程遥控的方式完成功放顺序的调整, 从而对起动进行控制, 此外还可以减少管理人员的劳动强度。功放电源远程控制功能是通过功放机房中的Cobarnet接口卡来完成, 具体工作流程是在系统管理服务器中对功放发送开关控制信号, 信号利用网络传输至对应区机房的Cobarnet, 使得Cobarnet的RELAY接口始终工作于常开状态或者是常闭状态, 以此完成对多台功放电源时序控制的功能。

3自动广播系统接口软件

自动广播系统的接口软件能够实现航班信息源系统和广播系统之间信息交换, 实现航班信息源的航班动态信息等进行实时传递。自动广播接口软件利用IMF平台或者是航显系统能够准确获取航班消息, 并且对本地航班信息进行更新。广播接口软件能够对各种各样的航班消息进行处理, 具体而言包括航班动态整表信息、资源动态整表信息等。软件上还能够实现详细的消息日志及操作日志记录, 此外还具备一定的容错功能。

4总结

总而言之, 要确定的一点是, 民航机场公共广播系统是针对广大旅客而开发的服务系统, 一方面要求各分区的广播音质保持清晰, 声压符合相关指标, 另一方面就是广播要准确及时地进行发布, 严禁产生各种漏播错播情况, 利用科学合理的设计及完善功能。

参考文献

[1]龙宽.南京禄口国际机场广播系统自动广播的技术实现[J].江苏航空, 2005 (02) .

[2]李庆瑞.机内广播系统的设计分析[J].科技创新导报, 2014 (24) .

[3]王晓瑾, 柴加宁.南京禄口机场智能化广播系统与Cobra Net技术应用[J].江苏航空, 2015 (02) .

语音广播篇2

2011年9月1日, 安徽交通广播正式成为“安徽省应急广播”, 被列入省政府应急管理体系。承担着及时、有效预防突发公共事件和应对突发公共事件以及保障人民群众生命财产安全的重要责任。交通广播所采用的传统采访模式, 即在制作机房里面, 记者通过电话耦合器呼叫预约的采访对象进行采访, 通过调音台、录音工作站对通话内容进行实时录音, 并在后期对录音音频进行剪辑的方法, 在突发公共事件面前, 应急响应能力显得不足。

如交通广播的“维权908”、“天使爱帮忙”等栏目, 新闻线索大多发生在各个不同的地方, 甚至发生在几百公里之外, 记者、主持人要在短时间内完成节目采集制作, 回复听众, 丰富节目的音频素材, 只能通过电话进行采访。但是使用制作机房需要预约, 在需要采访的时间段内, 制作机房可能正在使用, 经常发生在采访档期内没有制作机房可用的情况。

在采访链路通道容量较少的情况下, 如何保证在暴雪、洪涝等自然灾害以及交通事故等重大突发事件发生时, 多位记者同一时刻与现场多方施救人员联系, 迅速获取现场信息;到达现场的记者, 如何在第一时间发回现场播报素材, 以提升节目的时效性和现场感;接收听众申报在新闻线索的同时, 如何实时录制成原汁原味的鲜活节目素材, 更好地为听众服务, 提升品牌影响力, 成为需要解决的问题。

鉴于以上情况, 稳定的信号、多路并发的线路容量、更加便捷的采访技术手段和节目编辑方式将是最佳的选择, 也是时效性高、现场感强、信息量大和突发公共事件应急新闻报道快速响应这一广播节目发展趋势的内在需求。

由此, 我们设计了数字语音采访系统, 从扩充采访、连线报道技术手段、提升交通广播应急响应能力、提高采编工作效率和丰富节目音频素材的角度出发, 最终实现做大做强交通广播的要求和政府应急广播的定位。

1需求分析

交通广播作为省级专业交通服务频率和政府应急广播, 需要在暴雪、洪涝等自然灾害、交通事故等重大突发事件中做出快速响应, 同时, 为满足节目需求, 提升节目的时效性和现场感, 往往需要在节目制作中加入现场播报素材。

交通广播原有电话采访模式的不利因素有:采访过程操作繁琐;模拟电话信号质量不是很稳定;采访对象档期内机房忙碌, 反复预约采访对象;发现新闻线索无法第一时间发回现场播报素材;无法满足在重大事件中大并发量的采访, 快速获取现场信息的需求;不能将听众申报的新闻线索实时录音, 生成鲜活节目素材。

通过对现有电话采访系统和实际应用的分析, 对系统设计提出了以下几个方面的需求:

1.能提供优质的采访通话录音, 记录第一手资料, 作为节目素材编辑播报。

2.能提供多路采访通路, 支持大并发量的采访。

3.能在远距离长途呼叫中, 快速建立呼叫链路。

4.能自定义听众呼入流程, 力求方便听众呼入系统申报线索。

5.能在发现新闻线索的第一时间内发回现场播报素材。

6.能在办公电脑管理、分类查询检索、统计、试听和下载采访录音。

7.能通过电话键盘操作修改用户密码;试听、删除播报内容。

8.能提供语音文字转换功能, 自动生成采访文稿文本。

9.语音提示方式摒弃传统的文本语音合成 (TTS) 方法, 实现主持人原声配音录制, 做到具有交通广播特色的语音提示。

CTI (Computer Telephony Integration) 技术是计算机与通信的集成融合, 通过对CTI硬件的驱动和配置, 实现采访通信链路的建立、实现多种编码格式的录音, 实现个性化的呼叫转接流程。

E1 (欧洲的30路脉冲编码调制简称E1, 速率是2.048Mb/s) 作为传输的一次群信号接口, 能够在2.048Mb/s的速率上, 配置信令协议, 提供30路64kb/s的传输通道。在A-law (A律编码) 编码下支持30路的采访呼叫链路。在中国1号、7号及综合业务数字网-基群速率接口 (ISDN-PRI, Integrated Service Digital Network-Primary Rate Interface) 信令中, 基群速率接口 (PRI, Primary Rate Interface) 信令作为共路信令, 它拥有更快的呼叫连接建立时间和更高的可靠性等特点。

综上所述, 由于异地和应急的新闻语音采访一般以手机联系为主要方式, 采用最高码率的数字CTI通话音质, 可以适用于新闻节目编播的需要, 同时可扩大通话的并发容量, 提高应急能力。

传统电话采访系统模式与数字语音采访系统模式设想的对比示意图见图1和图2。

2系统设计

CTI技术同时包含了计算机与通信技术, 将通信线路中的信令、状态及内容与计算机系统相融合, 支持脉冲编码调制 (PCM, Pulse-Code Modulation) 、A-law、MP3等多种语音编码技术, 生成不同编码的音频文件, 满足不同领域用户的管理和使用需求。利用CTI技术实现的数字语音采访系统, 可以自动的接听投诉维权、新闻线索和服务求助等方面来电, 同时将通话录音保存并记录来电号码, 支持多位记者同时进行电话录音采访, 满足在重大突发事件中进行电话录音采访的需求, 驻地记者能够便捷、实时发回现场电话录音报道。

系统 (图3) 由服务器、数字语音卡及相关软件构成, 通过E1传输线路与公共电话网络连接, 能够同时建立30路呼叫链接。从系统的可扩展性和安全性出发, 选择使用模块化的C/S架构。系统由管理、配音、下载、留言、呼转及语音文字转写六个模块构成。

2.1通信线路设计

通信线路采用中国电信和欧洲传输网使用的一次群标准PCM信号E1的信息传输线路, 其传输速率是2.048Mb/s。每帧由开始处的8位同步位, 中间的8位信令位及30路的8位数据位构成, 共256位, 用125μs的时长进行传送, 所以每个E1帧中均有32个时隙。同步时隙与信令时隙按照共路信令或者随路信令的方式配置, E1支持我国1号、7号和PRI信令协议, 能够同时传输30或者31路语音信号。

共路信令PRI的特点是传送速度快, 呼叫建立时间短。对于远距离呼叫来说, 其拨号时延在1s以内, 有利于快速建立采访系统呼叫链路。ISDN链路提供端到端的透明数字连接, 其数据信道码率高达64kb/s, 可靠性高, 传输语音音质高, 符合音频编码方式G.711的标准, 并且在传输语音的同时, 还可以传输数据、图文、传真等数据, 有利于将来系统的扩展。因此选择将E1线路配置为ISDN-PRI信令接口, 满足同时接入30路数字电话。

2.2数字语音卡配置

相对于传统的模拟语音卡来说, 数字CTI语音卡具有更好的通话效果和更多的线路容量。它能够适配E1端口的上下行信号, 接收主叫与被叫信息;支持双音多频 (DTMF, Dual Tone Multi Frequency) 信号检测;支持中国1号、7号以及PRI信令的呼叫连接与状态分析;支持自动增益控制 (AGC, automatic gain control) ;支持在A-law、PCM、MP3等语音编解码格式下对呼叫进行录音, 包括来话单向、去话单向以及来、去话混合三种录音模式;支持生成可以用Cool edit (数字音频编辑器) 进行编辑和播放标准音频文件。采用G.711的A-law音频信号编码方式, 它的采样频率、编码和码率分别为8k Hz、8bit、64kb/s, 保证了在采访过程中的高保真通话。

2.3管理模块

管理模块与数字语音卡通讯配接, 对呼叫进行管理和对流程进行控制, 是整个系统的核心, 包括以下功能:

1.用户管理:添加、删除用户, 赋予用户相关权限, 用户可以通过电脑客户端登录系统修改密码, 也可以通过电话呼入系统, 根据语音提示修改密码。

2.录音管理:设置单次通话的最长录音时间、自动挂机的时长, 配置录音模式, 录音文件的存放位置, 设置放音音量电平大小。

3.流程管理:根据交通广播的实际需求, 设置呼叫流程, 实现语音提示和采访通话呼转功能。

4.通话管理:传递通话信令, 并自动记录呼叫的具体时间、长度及来电号码等相关信息。

2.4配音模块

配音模块摒弃传统的文本语音合成 (TTS) 提示音, 结合流程结构设计, 提示语音是由主持人通过电话呼入系统进行录制的原声配音, 提高了提示语音的亲和力, 真实性。包括以下功能:

1.录制提示语音、控制提示语音播放音量及电平。

2.预听录制的提示语音。

3.重新录制提示语音。

2.5下载模块

下载模块是一个客户端程序, 部署在办公电脑终端, 主持人和记者通过终端设备即可以接入系统, 根据栏目、时间等关键词查询、预听、下载记者的采访录音以及热心听众的留言录音, 包括以下功能:

1.查询管理:支持根据栏目、时间或主叫号码等关键词查询采访和留言录音。

2.下载管理:预听查询到的录音文件, 并选择性的下载到本地电脑。

3.信息输出:根据检索关键字生成呼叫信息报表, 打印输出结果。

2.6留言模块

留言模块主要是为听众服务的, 根据交通广播目前的实际需求, 共设置了三个栏目, 分别是新闻线索、投诉建议和服务求助, 听众可以根据语音提示呼入这三个栏目申报新闻线索和维权要求。所有的听众留言系统自动录音并生成WAV文件, 保存在服务器上, 通过下载模块节目编辑人员对留言内容进行筛选, 根据需要联系来电听众进一步采访, 制作成节目以供播出。

根据人们的呼叫习惯, 设置成二级选择菜单, 听众可便捷的呼入系统, 根据语音提示操作, 即可进入相关栏目留言 (图4) 。

2.7呼转模块

呼转模块是为记者和主持人服务的, 记者和主持人呼入系统即可进行远程采访、回传播报、听录音和修改密码操作。呼转流程如图5所示。

1.远程采访:记者可随时随地呼入系统, 根据语音提示进入呼转模块, 通过电话按键输入工号和密码, 选择远程采访, 就可通过系统中继呼叫采访对象, 建立采访通话链路, 并实时录制通话内容, 生成WAV文件, 保存在服务器内。

2.回传播报:记者在现场呼入系统, 根据语音提示进入呼转模块, 通过电话按键输入工号和密码, 选择回传播报, 即可进入个人语音信箱进行现场播报。播报完毕即可以试听刚才的播报内容, 根据需要选择结束挂机、删除或者重录, 所有播报实时录制成WAV文件, 保存在服务器内。

3.听录音:记者呼入系统, 根据语音提示, 进入呼转模块, 输入工号密码, 选择听录音, 即可试听本人之前进行远程采访或现场播报的录音音频。

4.修改密码:记者呼入系统, 按语音提示选择修改密码, 更改个人密码。

2.8语音文字转写模块

语音文字转写模块, 将录制的语音信息通过科大讯飞语音云平台接口, 发送到讯飞语音云平台, 进行识别转换, 并以文本文件返回, 实现听众留言、远程采访和回传现场播报的语音转写文本功能。

实现方式分为两类, 第一类, 在系统启动CTI录音的同时, 将录音数据发往讯飞语音云平台接口, 进行识别转写, 该方式有较多待识别转写的录音数据, 并可能对识别准确率构成一定的影响;第二类, 编辑将录音文件下载、剪辑后, 发往讯飞语音云平台, 进行识别转写, 该方式剪裁了一部分重复的和不必要的录音数据, 文件更小巧, 音质也得到改善, 易于提高识别准确率, 如图6所示。

根据模块的实现设计, 我们使用讯飞语音输入软件等手段先期仿真了转写模块的功能, 对采访录音文件语音转写的识别效果与人工听写的效果进行了比较, 如图7所示。

经过多次测试, 发现对于系统录音文件的语音转写受限于采访对话形式、各地方言、口音和语速的不同, 其识别率远低于在麦克风前口播普通话的方式。同时, 录音文件经过互联网传输存在一定的内容泄露风险。

沟通以后, 交通广播部门提出, 目前语音转写生成的文字稿件, 仍需节目编辑花费较多时间、精力对照录音进行审听、校验, 不能较大幅度提高编辑工作效率。因而, 确定当前采用人工听写方式编辑录音文字稿, 语音转写模式待转写识别技术更加成熟后, 再行实施。

3总结

数字语音采访系统自建成运行以来, 实际使用稳定、效果良好, 已是安徽交通广播的重要采访平台, “维权908”、“天使爱帮忙”等节目的主要采访平台, 完善了突发公共事件新闻采访报道手段。

系统的应用提高了采访的便捷性, 增加了采访通道的容量, 改善了采访通道信号的质量和稳定度。主持人、记者可以随时随地的进行连线采访, 可以即时发回现场报道。听众可以根据类别申报最新线索, 并实时录制成最新鲜的新闻素材。

系统的应用极大的提高了节目制作人员的工作效率, 丰富了节目音频素材, 增强了节目的时效性和现场感, 同时提升了交通广播在突发事件中的应急响应能力。从而为交通广播的收听率、市场占有率和品牌影响力的提升, 以及及时、有效预防和应对突发公共事件, 承担安徽省应急广播责任, 完成突发公共事件交通信息广播电视宣传中心任务, 起到了积极地促进作用。

摘要：数字语音采访系统主要针对安徽交通广播如何在突发事件中迅速准确进行新闻报道、如何收集热心听众提供的新闻线索以及如何实现记者远程采访的需求而设计。该系统基于CTI技术、E1技术和语音识别技术, 是通信网络与广播电台采访信息系统的结合创新。系统实际使用稳定、效果良好, 极大提高了采编的工作效率、丰富了节目的音频素材, 已经成为安徽交通广播重要采编平台。

关键词：数字语音采访,E1数字传输,CTI技术

参考文献

[1]李爱振.CTI技术与呼叫中心[M].北京:电子工业出版社, 2002.

[2]成际镇, 林晓勇.计算机电信集成技术及应用[M].北京:人民邮电出版社, 2007.

[3]杜玲玲.基于CTI技术的社区呼叫中心的应用开发[J].计算机工程与设计, 2009, 30 (24) .

[4]冯炜, 路晨昊, 李海涛.基于CTI技术的呼叫中心系统设计及系统分析[J].黑龙江科技信息, 2010 (26) .

语音广播篇3

1 系统设计原理与目标

由于煤矿井下环境潮湿,噪音较大;同时,区域分布广,环境安全要求特殊,传统的广播技术难以满足矿井要求。因此,煤矿井下语音应急扩播系统基于数字IP网络广播系统的设计原理进行构建与设计[1,2]。数字IP网络广播系统,是基于TCP/IP协议的公共广播系统,采用IP局域网或Internet广域网作为数据传输平台。该系统具有以下特点:网络好,可实现Internet传输;音质好,系统支持音频码率8Kbps-320Kbps自适应,支持全部MP3格式文件的播放;稳定性好,系统支持TCP、IP、UDP网络协议,支持组播接收音频数据。

在数字IP网络广播系统中,是将经数字化的音频信号,在数字状态下进行压缩、编码、打包等处理。在本系统中,将模拟音频信号经过采集、量化、编码、压缩后形成的MP3格式的数字音频文件,以数据包形式按照自定义的MP3_Phone传输协议将音频文件通过工业以太网传送到井下语音广播终端,然后在广播终端进行D/A转换成还原成音频信号,经放大后驱动喇叭工作。

本系统的总体设计目标为:

1) 分区广播:可以同时对单点、多点或全部区域进行广播。

2) 全体广播:可以对所有终端进行广播。

3) 定时广播:可以按作息时间定制广播节目,定时播放。

4) 应急广播:拿起麦克风即可广播。

5) 宣传广播:可以播放背景音乐、领导讲话、语音宣传等。

2 系统设计方案

本系统基于TCP/IP、UDP协议,通过矿井的工业以太网在井上和井下之间传递数字音频数据,实现数字网络广播功能。系统主要由IP网络广播控制工控机、井下广播终端、井下广播音箱、光缆、电缆等组成。煤矿井下语音应急广播系统的整体结构如图1所示。同时,系统严格按照国家煤矿安全标准进行的安全技术设计,完全符合井下使用的设备防爆本安安全要求。

该系统采用C/S结构,煤矿井下语音应急广播系统的主要组成部分如下:

1)IP网络广播控制工控机,是本系统的核心,包含工控主机、基于ARM架构的语音采集终端、广播话筒、警告接口等。在工控机上上,安装自主开发的服务器软件,可以对各个广播终端实现应急广播、实时广播、宣传广播、定时广播、分区广播、双向对讲等功能实施管理与控制。通过语音采集终端对音频数据进行采集,对将传输到井下各广播终端的音频流数据,按照自定义的MP3_Phone传输协议进行数字音频数据的打包处理。

2)井下广播终端,主要包括矿用本安型广播通信主机和矿用本安型广播分站两部分,此两部分设备同样基于ARM架构进行设计。矿用本安型广播通信主机可安装至井下工作面、大巷、迎头等高危地区,对广播控制工控机发送来的音频信号进行解析处理、解码并播放,并可对井下的异常情况进行报警,还可通过广播终端实现双向对讲功能,将该区域异常情况向控制室实现即时汇报。矿用本安型广播分站可安装至井下工作面、大巷等高危区域沿线,对广播通信主机解析处理后的音频信号进行广播,还可通过广播分站进行紧急呼叫,可实现和控制室的双向对讲功能,将该区域情况即时汇报。

3 关键技术及实现

煤矿井下语音应急广播系统由3个子系统所组成,分别是广播发送端子系统、以太网传输子系统和广播接收端子系统[3]。其中,以太网传输子系统主要是指支持TCP/IP、UDP协议的矿井以太网网络。在此,传输子系统不作为系统研究的重点,重点讨论的是广播发送端子系统和广播接收端子系统两方面。广播发送端子系统主要负责语音数据的采集、压缩及实时发送,而广播接收端子系统则主要负责语音数据的接收、解压缩以及广播。

3.1 广播发送端子系统设计

广播发送端子系统主要由IP网络广播控制工控机和ARM语音采集终端构成,发送终端与接受终端的硬件与软件结构基本相似。其主要任务包括语音数据的采集与压缩,以及以利用UDP协议组播方式发送经压缩的语音数据。要实现实时语音组播的功能,就必须使上述的3个任务并发执行。为了实现此目的,在系统实现的过程中,需采用边采集、边压缩、边发送的并发执行方式。具体而言,一边通过ARM语音采集终端对下一个时间片的语音数据进行采集,形成N + 1块数据块;同时,广播控制工控机开始对上一个时间片的语音数据进行压缩,并把压缩后的数据,所形成N块数据块,以组播方式发送至矿井工业以太网上。在此,将每一个时间片采样的数据划分为一个数据块,则可以用图2来描述发送端子系统的工作流程。

3.2 接收端子系统设计

接受端的硬件CPU采用Luminary Micro公司Cortex-M3内核的LM3S8962,内部集成10/100M以太网接口和SD/MMC读卡接口,语音的编码与解码芯片采用AMBE1000+CSP1027,MP3文件的解码采用VS1003芯片,接受端的软件架构采用国内RT-Thread开源的实时操作系统。与发送端子系统的工作任务相对应,接收端子系统并发处理过程中的工作任务同样包括3个任务,一是从以矿井太网络上接收数据,二是对接收得到的数据进行解压缩操作,最后是把已解压缩后的语音数据进行广播。其工作流程如下所述,每接收到一个数据包之后就拆包和解码,然后播放声音,从而形成一个完整的首尾相衔接流水式过程,实现多任务并发处理,可解决系统传输的间隙时间,避免播放过程中的卡音、停顿、卡死等现象的出现。接收端子系统的工作流程如图3所示。

3.3 MP3_Phone传输协议

在本系统中,通过Socket的数据传输方式,实现发送端和接收端之间的物理连接,基于UDP协议进行数据传输。Socket处于网络协议的传输层。Socket传输具有以下的优点:传输数据为字节级,传输数据可自定义;传输数据时间短,性能高;适合于客户端和服务器端之间的信息实时交互;可以加密,以提高数据传输的安全性。

为了合理、有序协调发送端和接收端的Socket传输,在系统中,自定义了MP3_Phone传输协议,用于传送音频数据块。该传输协议的格式如表1所示,其中,数据块第1至4个字节为数据块的帧头校验位;音频数据块为传输的音频数据;数据块第8005和8806个字节为数据块的帧尾校验位。

4 结束语

煤矿井下语音应急广播系统利用井下工业以太网作为传播介质,实现了发送端与井下广播终端长距离的双工音频服务和双向通话功能。系统在突发事故发生时,起到指引遇险的井下人员及时撤离避险的作用;同时,通过宣传广播、播放音乐的方式,在日常生产管理、舒缓井下人员情绪方面发挥了重要作用。工业现场应用表明:系统数据传输距离长、音频播放流畅、安全稳定性强。

摘要：根据煤矿救灾应急的实际需要,提出了一种新型井下语音应急广播系统的设计方案,详细介绍该系统的设计原理、结构、主要功能和软硬件设计,重点阐述了系统发送端与接收端两个子系统实现的关键技术。运行结果表明,该系统稳定、可靠,音频播放流畅,能够满足矿井现场的实际需要。

语音广播篇4

随着我国广播事业的不断发展, 目前广播监测工作量越来越大, 如何自动监测和评估这些节目的播出信号质量, 以及及时地判断这些节目是否存在空播、错播、停播等异态事件, 已经成为我们必须解决的一个现实问题。

目前, 广播监测的手段正在由传统依靠人工操作向计算机辅助监测过渡, 初步达到了设备控制的自动化和广播信号采集的数字化、信息化和网络化, 并实现了部分简单异态事件监测的自动化。在广播监测中, 其中一种方式是依靠无人值守的遥控站点采集当地实时收听到的节目, 并以录音文件的形式回传到中心机房进行评估, 这种主要依靠人工识别的监测方法, 在站点数量众多时, 需要处理的工作量非常大, 人工很难在较短时间内发现并确认汇总异态。近年来广播监测业务规模不断扩大, 对监测质量的要求也不断提高, 建设一套智能化的广播语音综合处理系统, 提高对异态处理的实效性和准确性, 对于提高广播监测服务质量和维护空中电波秩序具有非常重要的意义。

2 建设内容

广播监测网语音综合处理系统的核心功能是监测服务区内听众听到的节目是否与播出时节目源的节目和语言一致, 如果不一致, 确认信号的可听度、干扰强度、及语言等, 为此需要完成基于录音文件的自动评估、实时语音语种识别、台名与呼号辅助识别三个主要功能, 具体建设内容包括:

2.1 基于录音文件的自动评估

对站点采集的各频次语音数据进行自动评估, 输出判断结果及其置信度。其中:

(1) 质量评估结果:停播、错播和空播; (2) 效果评估结果:评分结果为5分制, 其中3分以上直接打分3/4/5, 3分以下给出s1/s2形式评分 (s1:广播台可听度0~5渐强, s2:干扰情况0~5渐弱) , 并判断噪声种类 (背景噪声或同邻频语音干扰) 和干扰强度; (3) 语种评估结果:在错播异态条件下, 且s2在3分以下时, 自动给出错播语种的候选结果及其置信度。

2.2 实时语音语种识别

针对实时采集的数据文件, 应能够判断是否按照预定的语言进行播出。如果没有按照预定语言播出, 则进行报警, 并显示应当播出的语种、实际播出的语种等信息。

2.3 台名与呼号辅助识别

可以对站点采集到的含有外台台名及呼号的录音文件进行台名与呼号识别。

3 设计原则

考虑到综合处理系统具有监测数据处理量大, 实时性强, 对数据安全性、可靠性、准确性要求高的特点, 并结合现有网络传输条件, 确定以下设计原则:

(1) 可靠性:系统能够长时间稳定运行, 设备监测指标准确, 信息上报处理迅速, 达到系统的最大平均无故障时间; (2) 先进性:采用先进的音频智能处理技术, 提高处理的准确性和实时性, 而且充分考虑到未来技术发展的需要, 力争超前设计; (3) 安全性:建立在一个专用网络中, 注重信息和数据的保护与隔离, 可保证广播监测网系统的安全, 具有完善、可靠的系统访问权限机制; (4) 模块化:系统采用模块化设计和面向服务的构架, 当监测任务增加、监测站点增加和网络规模扩大时, 通过增加相应的功能模块, 就能方便地扩大监测规模; (5) 开放性:采用开放式操作系统、开放式网络结构及其协议、和开放式的客户/服务器模式, 从而实现充分的资源共享, 使平台具有良好的可移植性。

4 系统软硬件设计

4.1 物理结构设计

“广播监测网语音综合处理系统”的物理结构如图1所示。

如图中所示, 整个系统的硬件组成包括如下:

(1) 录音任务下发与回传服务器:该服务器已到位, 负责遥控站录音文件的采集和回收; (2) 卫星参考源采集服务器:负责卫星参考源信号的实时采集存储; (3) 数据库服务器:负责存储数据和结果信息, 是业务层交互信息的核心存储区; (4) Web服务器:负责系统页面的展示; (5) 调度服务器:负责数据处理任务的调度, 并负责处理结果的回收入库, 负责负载均衡控制, 以充分利用计算机集群的计算能力; (6) 引擎计算服务器:负责实时对调度器下发的任务进行音频比对计算, 并把计算结果通知调度器; (7) 同步服务器:负责运行图的实时同步, 和数据库信息的同步; (8) 磁盘阵列:负责存储录音文件和参考源数据。

各个服务器均可为主流机架式计算机物理部署, 服务器之间通过千兆局域网互连。用户业务系统在基于J2EE的Web服务器管理下, 实现多用户并发数据访问。

4.2 软件架构设计

广播监测网语音综合处理系统的软件架构采用模块化设计原则, 每个模块保持一定的功能独立性, 在协同工作时, 通过相互之间的接口完成实际的任务, 模块化设计将功能模块有机地结合起来, 在保证正确性和健壮性的基础上, 提高了软件的可扩展性和可复用性。系统软件模块架构图2如下:

系统的软件架构采用分层逻辑结构, 整个系统自下到上分为3层:数据采集存储层、数据分析处理层、表示层。

4.2.1 数据采集存储层

数据采集存储层主要实现三部分数据采集与存储工作:

各电台参考源信号的采集与存储:基于组播技术, 给定IP和端口, 实时采集几十套电台的多语种广播节目, 每套节目每天存储量约2GB。

中短波调幅广播的采集与存储:对接收机输入一路中短波调幅广播信号, 基于V8指令, 在1分钟内切换频率进行采集, 并把数据存储到磁盘阵列中。

录音回传数据的数据库存储:对监测网数据采集系统所回传的录音文件进行同步, 把文件相关信息, 比如文件名、路径、语言、时长等同步到数据库中进行存储, 数据库采用oracle11g, 可存储百万条数据记录。

4.2.2 数据分析处理层

数据分析处理层综合利用固定模板检索、语音比对、语种识别与确认、音频分类、音频质量评估等先进的智能处理技术, 通过ESB企业级服务总线, 为上层“表示层”的系统业务应用提供中间层的服务支撑。

在本系统中, ESB企业级服务总线封装了各服务的差异性, 使得所有在总线上通信的服务能够适应于不同的服务使用者, 消除了提供中间服务支撑的软件间的差异性, 在很大程度上也为系统将来的功能扩展奠定很好的一个基础服务平台, 能够很方便地加入新的音视频智能处理服务。

另外, “表示层”可通过服务总线调度分布式集群并行计算环境, 在分布式集群并行计算环境中进行音视频内容的智能分析, 并将结果输出给“表示层”进行显示, 用户可对置信度较低的智能识别结果进行人工编辑审核。

4.2.3 功能模块表示层

功能模块表示层负责向数据分析处理层提交任务, 通过动态网页与数据分析处理层进行交互以及数据通信, 其中包括提交增加, 删除, 查询, 修改, 管理等操作, 并提供时间轴控件显示音频波形数据, 以达到辅助人工快速审核计算机智能处理结果的目的。

功能模块表示层包含的功能子系统主要有:广播效果智能评估、频谱收测实时评估。

功能模块表示层采用C/S架构, 以页面形式将各个功能进行展示, 用户可打开客户端界面对系统进行登录和访问。

5 系统功能流程设计

步骤1:打开并读取mp3格式的音频文件, 如果文件小于3秒, 则报文件错误异常, 否则进行下一步。

步骤2:把音频文件以1秒为测试单位, 分成语音、音乐和噪声, 并计算其中的音乐比 (音乐时长占总时长的比例) 、噪声比 (噪声时长占总时长的比例) 和语音时长, 同时把语音片段提取出来保存为语音片段文件。

步骤3:根据静音比例, 如果静音比例很高, 则判断信号为空播, 并给出置信度, 否则进行下一步。

步骤4:根据噪声比例, 如果噪声比例很高, 则判断信号为停播, 并给出置信度, 否则进行下一步。

步骤5:根据信噪比, 对音频文件进行质量评估, 得到初始信号质量分数, 然后根据音乐比和噪声比, 对分数进行调整, 从而得到最终质量分数。

步骤6:对音频文件进行台名呼号模板检索, 如果检索到, 则根据该台名呼号所属的语种节目得到识别语种和置信度, 此时把在步骤2中保存的语音片段文件删除, 清理内存并输出结果。

步骤7:判断音频文件是否是录音回传模式, 如果是, 对录音回传模式的音频文件, 判断音频文件中的语音长度是否大于10秒, 如果是, 则查找参考源进行语音比对。

步骤8:如果与各电台节目比对结果一致, 则给出本节目语言及其置信度, 否则进行下一步。

步骤9:对非录音回传模式的音频文件, 或者未找到参考源的音频文件, 或者比对不一致的音频文件, 判断音频文件中的语音长度是否小于10秒, 或者语音质量低于3分, 如果是则给出话少结果, 否则进行下一步。

步骤10:进行语种确认, 如果确认结果的第一名与指定语言相对应, 则给出语种确认结果及置信度, 否则进行下一步。

步骤11:进行语种识别, 给出前5名识别语言的候选及其置信度。

系统整体功能流程如图3所示。

6 结束语

目前广播监测网语音综合处理系统已基本建设完成, 处于试运行阶段, 系统运行稳定。该系统应用了多项音频智能处理技术, 监测结果可靠, 自动化程度很高, 值班人员仅需要对低置信度结果进行审核即可, 大大减轻了人工工作量。未来随着监测站点规模不断增加、语言种类不断扩大, 相信该系统的投入使用, 可以大大提高监测工作效率, 为安全播出提供有力的技术保障。

摘要：随着我国广播事业的不断发展, 对广播监测的要求也在不断提高, 工作量也越来越大, 依靠原有人工识别为主的工作模式已经无法满足现在的业务需求。广播监测网语音综合处理系统的建设很好地解决了这一问题, 将监测工作从人工识别向计算机识别发展, 提高了语言和节目的识别率, 从而提高了广播监测的工作效率。

关键词：广播语音综合处理,语音评估,语种识别,呼号识别

参考文献

[1]L.Lu, H.-J.Zhang, and H.Jiang.Content analysis for audio classification and segmentation.IEEE Transaction on Speech and Auido Processing.10 (7) :504-516, October 2002.

[2]Kashino K, Kurozumi T, Murase H.A quick search method for audio and video signals based on histogram pruning[J].IEEE Transaction on Multimedia, 2003, 5 (3) :348-357.

[3]Haitsma J, Kalker T.A highly robust audio fingerprinting system[C]//Proceedings of International Symposium on Music Information Retrieval.Paris, France, 2002:107-115.

[4]姜洪臣, 任晓磊, 赵耀宏, 等.基于音频语谱图像识别的广告检索, 清华大学学报 (自然科学版) , Vol.51, No.9, pp 1249-1252, 2011.

[5]姜洪臣, 郑榕, 张树武, 等.基于SDC特征和GMM-UBM模型的自动语种识别, 中文信息学报.Vol.21 No.1, pp 49-53, 2006.

【语音广播】推荐阅读：

语音语音教学计划06-08

语音知识07-14

语音研究07-16

语音问题07-20

数字语音07-21

语音功能05-09

语音变化05-15

语音处理05-23

语音理论06-03