音频技术发展

2024-10-23

音频技术发展（精选9篇）

音频技术发展篇1

在电视广播领域里, 结束了模拟电视时代之后, 就进入了数字电视时代。在解决了模拟电视的杂波、干扰和重影等问题之后, 画面清晰度又成了人们的追求。标清电视已经不能满足越来越绚丽多彩的节目镜头, 对大场面演出, 或者广袤无垠的大海或太空, 标清画面就无法让观众有身临其境的感受。于是, 市场需求就转向了高清电视。可是, 相应的高清电视只解决了画面清晰度问题, 并没有在音频上做多大的改进。一些高清电视节目采用了多声道环绕声技术, 但这只不过是声音的空间感有改善, 而声音质量并没有提高, 反而因为使用了压缩技术, 使得每个声道的声音质量有所下降。声音与画面没有实现完美的协调, 即使画面清晰度再高, 人们的体验和感受仍然有限。

对于声音质量的追求也是与时俱进的。数字化音频刚出台, 就是一个44.1k Hz采样频率和16bit量化的基本格式, 这是标准CD的PCM音频格式。然而, 由于数字技术刚开始发展时, 各种载体容量和传输带宽都十分有限, 因此绝大多数应用中都采取了数字压缩的办法, 例如众所周知的MP3就是12倍压缩的例子。经过30多年的技术发展, 如今不仅像硬盘、蓝光光盘、高速SSD等载体的容量急速增加, 而且传输领域无论卫星还是宽带的通频带也越来越宽, 以致对音频不必采取压缩技术, 就可以顺利送达用户端。人们对声音的辨别能力也在不断提高, 基本格式的CD音质已经不能满足消费者的耳朵, 需要更高质量的数字化音频技术才能更加逼真地还原乐器、人声等原始声音, 这样, 一种可以把自然界各种声音, 包括音乐都不失真地传达到人们耳朵的高解析度音频 (Hi-Res Audio) 应运而生。

高解析度音频通常指24bit/96k Hz或更高的音频信号, 比传统的CD质量高好几倍。尽管目前高解析度音频并无统一标准和格式, 但是, 由于高清音频可以毫无损失地数字化原始模拟音频, 能真实地还原各种声音, 因此受到人们越来越广泛的欢迎。这种技术早已在音乐载体上采用, 以满足对声音质量有高要求的消费者。这些高清音频聆听设备不仅在家里固定使用, 而且越来越多地出现在头戴耳机等便携设备中, 成为年轻人的新宠。然而, 随着高清画面媒体的逐渐普及, 尤其4K电视技术的出现, 人们对优质声音的追求也提到了日程。互联网的急速发展, 4G移动网络和光纤宽带已经进入千家万户。基于这种背景, 在先进国家早已开设了互联网高清音乐播送网站。我国也已经有了一家高清现场音乐网站, 用户可以实时聆听或者付费下载高清音频文件。在电视领域, 一些先进国家开始了4K电视的高清音频环绕声试播。高清音频技术的出现, 使得以往必须通过使用支付巨额授权费的编解码压缩处理技术才能记录或传输的多声道信号, 如今都可以采用非压缩直接记录或传输优质音频, 因此即使是多声道环绕声, 其声音质量也可保持原始声源的高水平。相信在不久的将来, 人们不仅能在家里欣赏高清晰度的电视画面, 而且可以同时聆听高解析度的电视声音。

顶级PC音频技术亮相IDF 篇2

DTS日前在英特尔信息技术峰会上展示了新一代PC音频解决方案新技术Premium Suite II。这是DTS首次将这款顶级音频解决方案介绍到中国消费者面前。Premium Suite II共包含4项最新技术：DTS Clear Voice(对白清晰) 、DTS Clear Audio(音质清晰) 、DTS Audio Restoration(音频重建)、DTS Enhance(音频增强)。

DTS集团副总裁和大中华区执行董事 Roy Law认为，PC从以往的奢侈品变成了单纯的数码类消费品，其在影音娱乐方面的缺憾更加凸显。“DTS推出的PC音频新技术Premium Suite II是一次令人兴奋的尝试，也是PC音频体验的创新之举。它不仅在上一代出色音频技术基础上，为用户带来更智能、更出色的音频使用体验，而且前瞻洞察到PC交互应用功能的需求，将互联时代音频使用体验带来质的提升。”

作为DTS的合作伙伴，英特尔的音频架构总监Devon Worrell认为，未来电脑不仅仅是电影或者音乐，还有很多人与人之间、人与电脑硬件的互动和交流。无论是娱乐体验还是用户交流使用体验，英特尔坚信DTS作为一个出色的合作伙伴，能够提供给用户更好的音频解决方案。

音频技术在多领域的发展趋分析篇3

1 录音制作

在这一领域, 声道数的增加是最显著的趋势, 多声道音频录制的产品数量在逐年增加。5.1多声道已广泛应用与录音及制作过程, 而7.1, 9.1甚至更多的声道还在不断增加。电影方面杜比全景声的应用, 以及实验性的全息声技术, 都旨在利用更多的声道带给听众更真实的听觉感受;另一显著趋势是高分辨率音频技术的掌握。由于云存储、HD流媒体等技术的发展, 更高品质的数字音频将成为一种持续性的需求。更高的采样频率, 如96k Hz和192k Hz已被应用于录音制作当中, 大多数的工作站系统已经可以支持这样高的采样率。某些情况甚至会使用到更高采样率DSD系统。DXD系统, 采用24bit位深度 (比CD格式的16bit还多8个比特数) 和352.8KHz采样率 (8倍于CD采样率44.1KHz) 的解决方案, 也开始成为数字录音的新趋势。

数字音频工作站 (DAW) 是现在音频制作最主要的工具, 模拟调音台成为了数字音频工作站的接口, 已经很少有人使用模拟的操作界面进行录音、混音, 取而代之的是使用电脑显示器上的虚拟控制界面。数字音频工作站利用硬盘进行存储, 还可以利用基于服务器的存储系统来提高效率, 甚至网络附加存储 (NAS) 也可被用于音频录音;多通道音频数字接口得到广泛的普及应用, 因为相比较传统的双声道立体声录音, 多声道录音需要更多的通道数满足同时使用的需要;考虑到现在是ip网络的全盛期, 不断增长的数据传输速率是对于改进和完善数字音频系统不得不考虑的重要因素之一。

还有一个明显的趋势是大量新的音频处理插件的开发, 配备这些音频处理插件的数字音频工作站系统不仅在工作中效率出众, 而且价格也十分平易近人。这样的音频解决方案已经改变了现在主流音乐市场的形态, 录音制作不再是高精尖的存在, 广大音乐爱好者都可以一窥管豹。

2 游戏领域

游戏的音频发展是由迅速发展的游戏科技所带领的。数字信号处理 (DSP) 技术的运用, 完成了由硬件过度到软件的主流趋势, 游戏平台趋于多样化, 多平台兼容性极大提高, 手持设备 (如任天堂Wii游戏机) 、触摸屏 (如苹果i OS和安卓操作系统) 以及非触摸技术 (如微软Kinect体感设备) , 这些都能通过追踪玩家的位置和姿势提供全新的游戏体验。而为了不断完善游戏体验, 音频成为新的关注点。

大多数游戏开始使用5.1或者7.1声道回放, 和音乐、电影领域接轨, 一些大型商业游戏已经用到全景声;而移动平台主要关注的是耳机回放品质, 或者是终端音响回放品质;语音输入被应用到很多游戏和设备当中, 用于提供个性化控制或者是玩家之间的沟通, 所以语音分析和处理也是游戏音频的主要研究范围;另外还有一大类节奏或旋律类游戏 (如游戏“节奏大师”) 使用虚拟乐器和触摸屏的结合, 而新的技术是使用真实的乐器取代虚拟的游戏控制器 (如游戏“摇滚史密斯”) ;游戏音乐的创作越来越趋于复杂和大型化, 甚至可媲美电影配乐。

考虑到这些不断更新的技术手段与游戏工具之间的兼容性, 游戏音频程序员似乎将成为稀缺职业。

3 移动设备

在过去的几年中, 智能手机和平板设备已经占领了整个移动通信设备的较大比例。给音频方面也提出了新的挑战。

语音控制功能已经发展到了通过网络识别具有大量词汇的自然语音;一些设备配备了多声道音频捕捉功能;由于移动设备已不仅仅是通讯功能, 还被大量用于智能化处理, 多媒体播放等, 扩展配件的层出不穷是新的趋势, 很多情况下, 移动设备可以完成与家庭多媒体系统配对进行音频视频系统的连接, 具有HDMI输出接口的智能手机已不罕见;智能移动设备成为专业音频领域的延伸方向, 各种软件硬件开始支持移动平台, 数字音频工作站趋向于更小型化、更个人化。

在接下来的几年中, 不断扩大的应用环境, 设备功能的快速增长, 也许会使得便携式移动设备演变成无法想象的工具。

4 汽车音响

除了收音机、CD播放、USB接口这些常规配置, 汽车内的音频技术也在飞速发展。

车载硬盘开始出现在一些价位较高的车型中, 用于车内高级音响系统的使用, 由于防震的需要, 这些硬盘一般比家用硬盘要小, 现在40G到80G容量的车载硬盘比较普遍, 而相信更大的容量也很快能实现;固态硬盘或许会成为趋势取代普通硬盘, 实现更大容量的存储需求;车内的音频测量逐渐完善, 对声压级和失真的测量已做到了不错的水平, 而对于各个方向上频率响应的测量还在改善;汽车制造的趋势是降低成本和减轻重量, 而这与更高性能的汽车音响系统的发展趋势是相冲突的, 所以这也是未来需要权衡的问题。

一些高端车开始设计中置扬声器, 音箱出现在前排座椅的顶部;环绕声系统开始成为高档车的标配, 尽管多数音源仍然是双声道的立体声;一个有趣的现象是, 在中国或其他一起国家, 后座的音频性能显得更加重要, 因为有很多雇佣司机的人存在;自动均衡调节、有效的道路噪声消除以及电平补偿, 这些都将是汽车音响的发展趋势。

5 结束语

纵观全局, 多领域的相互融合, 交互式的体验将是整体的发展趋势。例如, 一个名为“Inception” (盗梦空间) 的应用程序, 设计卖点在将身边的一切植入你的梦境, 在这个应用中, 使用者可以听到Hans Zimmer的电影原声等。又例如, 黑眼豆豆的“BEP360”互动音乐视频, 玩家进入后仿佛置身其中, 软件与实景增强开发公司合作, 提供各种人机交互体验。音频已经不仅仅只是被聆听这么简单。多领域的整合对未来提出的挑战是, 音乐已不再是单纯的音频数据, 人们也已不满足于靠在沙发上, 闭上双眼听音乐了。

注释

11 .DSD (Direct Stream Digital) :连续单一个位元的序列以64倍于CD采样率 (44.1k Hz) 的频率来采样, 即2.8224MHz, 是Sony和飞利浦的专利。

22 .DXD (Digital Extreme Definition) 。由于1bit的DSD格式不适用于编辑, DXD格式可用于替换以完成后期编辑制作。

33 .HDMI:高清器度多媒体接口。

44 .Hans Zimmer:著名电影配乐大师。

音频技术发展篇4

摘要:声音作为多种媒体信息表现形式中一种极富感染力的表现形式,不仅能烘托气氛,还可以增强作品的感染力,它比其他形式更能深刻地影响人们的思想感情,打动人心。本文主要论述了多媒体课件中常用的音频处理技术,对多媒体课件中的音频类型及作用进行了分析,提出了提高多媒体课件中声音美的途径,认为提高多媒体课件中的声音美是提高多媒体课件质量的重要方法之一。

关键词:多媒体课件音频技术声音艺术

一、多媒体概述

(一)媒体

媒体一词来源于拉丁语“Medium”,音译为媒介,意为两者之间。它是指:信息在传递过程中,从信源到受传者之间承载并传递信息的载体或工具。也可以把媒体看作实现信息从信源传递到受传者的一切技术手段。媒体具有两层含义,一是承载信息的载体,二是指储存和传递信息的实体。

按照国际电话与电报顾问委员会的定义,媒体可分为感官媒体、表示媒体、显示媒体、存储媒体和传输媒体。

感官媒体指的是用户接触信息的感觉形式,如视觉、听觉、触觉等。表示媒体指的是信息的表示形式,如文字、图形、图像、音频、视频、动画和运动模式等。显示媒体指的是表示获取信息的物理设备,如显示器、打印机、扬声器等。存储媒体指的是存储数据的物理设备,如软盘、硬盘、光盘、U盘、磁带等。传输媒体指的是传输数据的物理设备,如光缆、电缆、交换设备等。

(二)多媒体

多媒体是指利用计算机技术来处理文本、图形、图像、声音、视频等多种媒体信息,使之在不同媒体间能够建立起逻辑连接,集成为一个具有交互性的系统。简而言之,多媒体技术是一种通过计算机综合处理声、文、图、像等信息的技术。

多媒体集文字、声音、影像和动画于一体,形成一种更自然、更人性化的人机交互方式,从而将计算机技术从人要适应计算机向计算机要适应人的方向发展。特别是随着计算机硬件和软件功能的不断提高,客观上为多媒体技术的实现奠定了基础。

(三)课件与多媒体课件

1.课件

课件是一种根据教学目标设计的、表现特定教学内容和反映一定教学策略的计算机程序教学。

2.多媒体课件

多媒体课件是根据教学大纲的要求和教学的的需要,经过严格的教学设计,并以多种媒体的表现方式和超文本结构制作而成的教学软件。

多媒体课件主要由文本、图形、图像、声音、动画和视频等媒体元素组成。在制作多媒体课件时应遵循以下设计原则:

(1)教育性,包括直观性、趣味性、新颖性、启发性、针对性、创新性。

(2)科学性,包括描述概念的科学性、问题表述的准确性、引用资料的正确性、认识逻辑的合理性。

(3)技术性,包括交互性、稳定性、易操作性、可移植性、易维护性、合理性、多媒体效果等方面。

(4)艺术性,包括画面艺术、语言文字、声音效果等。

据心理学调查分析,人在从外界获取的信息中,有11%的信息来自听觉,听觉是仅次于视觉的获得信息的重要途径,充分发挥听觉优势,可以使学生在学习过程中轻松掌握知识。在多媒体课件中,声音是极富感染力的一种表现形式,它不仅能烘托气氛,还可以增强作品的感染力,更能深刻地影响人们的思想感情,打动人心。视听结合,能有效发挥视听感官的综合感知功能,帮助学生记忆,从而提高学习效率。在多媒体课件中,以其他媒体信息为主,音频为辅,主辅相互配合,更好地表达主题,音乐在其中起到了画龙点睛的作用。在课件中通过对美妙音乐的运用,可以培养学生对真、善、美的热爱。通过对表达各种情感的音乐的使用,可以培养学生丰富的情感世界。

二、多媒体课件中的音频类型及其作用

多媒体课件中如能恰当地使用音频,不仅能烘托气氛,还可以增强课件的感染力。按音频的使用用途,多媒体课件中的音频可分为背景音乐、音效和配音。

(一)背景音乐

背景音乐是用来烘托气氛的歌曲和音乐。多媒体课件中的背景音乐主要用来烘托气氛,它能摆脱文本精确描述的桎梏,给学习者一个想象的思维空间。使用得当的背景音乐,其声音的强弱、音调的高低、节奏的急缓随着教学内容的变化而变化,能创造出一种真实的情境,营造一种氛围,让学习者不知不觉地从情感上参与到教学中,使学习变得不再枯燥和乏味,从而更好地提高学习效率。

(二)音效

音效是指自然界发出的各种声响,它包括天然声响和人工合成声响两大类。天然声响是指未经加工处理的现实中的声响,如风雨声、雷声、鸟叫声、马蹄声、流水声等。人工合成声响是指靠人工模拟制作出来的声音,如模拟的化学反应声、物体爆裂声、界面按钮声、反馈声等。在多媒体课件中,音效的使用主要在于传递教学信息,或者给学习者一个反馈。如有的化学实验危险性较大,在不能真正实验时,又为了让实验现象真实,就可借助音效来辅助实验的现象;又如在物理教学中,使用多媒体课件教学时,当物体碰撞时配上碰撞时发出的声响,使得教学更生动和形象。另外,在使用多媒体课件时,经常使用反馈提示音响,如当操作正确时给出轻快的音响,操作失败和不正确时给出暗淡刺耳的音响等等。

(三)配音

配音主要是指朗诵和解说。朗诵主要是用于文章或诗词的范读,如散文朗诵、诗词朗诵、字词发音等,特别是用于英语多媒体课件中;解说用来表现对主题的阐述、解释、说明与补充,与其他媒体互为补充、交相呼应,以便更深刻、更全面、更完美地表现和展示教学内容。在语言类课程教学时,并非每个教师的朗诵都具感情色彩,有时发音也不够标准,并且当一次次的重复做朗诵示范或领读后容易产生疲劳和厌烦情绪,影响教学效果,如果多媒体课件中配有发音标准、富有感情的朗诵时,就可避免传统教学的这一缺陷。例如使用“普通话”学习软件辅助教学,不仅可以做到发音标准,而且形象的展示了发音时的动作要领,可以让学生反复的练习。多媒体课件中的配音与图像结合使用,能有效的帮助学生理解和记忆,例如在古诗的教学中,一边播放有感情的朗诵,一边给学生呈现与古诗内容相关的图像,然后将声音关闭,只给学生看图像,让学生根据图像来回忆古诗内容,最后再让学生不看图像回忆,这样就摆脱了枯燥和乏味的学习,学生不再需要死记硬背就可轻松的记住所学知识。

三、多媒体课件中的音频处理技术

(一)多媒体课件中常用的音频格式

1.WAV格式

WAV是由微软公司开发的一种声音文件格式。它可以由Windows自带的录音程序“录音机”直接录制得到,是最原始的声音记录方式。WAV格式的音频通用性是最好的,缺点是文件较大,不适合长时间记录。

2..MP3格式

MP3格式是MPEG标准中的音频部分,MP3有其高压缩比和小容量的特征,深受人们的喜爱,已成为目前音频的主流。

3.MP4格式

MP4采用的是美国电报电话公司所研发的,以“知觉编码”为关键技术的a2b音乐压缩技术,将压缩比提高到15:1-20:1而不影响音乐的音质。MP4文件它体积小,音质好,更适合在Web上传播,在多媒体课件制作中使用较少。

4.WMA格式

WMA格式来自于微软公司,音质、压缩比要强于MP3格式,WMA文件支持音频流技术,适合网络上在线播放。

(二)音频素材的获取方法

1.直接录音

多媒体课件中的配音常常需要录音制作。利用声卡和相关的录音软件(如Windows自带的“录音机”Cool Edit等),可以直接录制WAV音频文件。为了保证录音文件的质量,应选择品质高的麦克风、声卡和音箱及采用足够高的采样频率和量化精度。

2.从录音磁带中转录

在制作多媒体课件时,有的声音(如英语听力和课文朗读)已经使用传统的录音机录制并保存在磁带中,当用到这些录音时,需要将录音磁带上的声音转换为计算机中的数字音频。

3.从光盘中获取

随着数字音频存储技术的不断发展,可将已经制作好的音乐或歌曲数字音频文件存储在计算机的磁盘中,然后通过一些软件将其存储到光盘中,制作成为专门的音频素材光盘,需要时可以通过光盘驱动器直接从光盘或磁盘中获取。

4.从网上下载

目前,很多的数字音频不同文件格式的都可以从网上下载,那些已经制作好的数字音频素材已被传到网上,以便他人使用,真正实现资源共享。我们可以找到一些效果较好的音频文件,如散文朗读、配乐诗朗诵等。在音乐极限网(http://www.chinamp3.com)、中国音乐网(http://www.music.cn.net)都能下载音频资料;也可以直接在百度里下载,打开百度后,单击“MP3”,输入文件名,按回车键即可找到各种格式的音频文件,再根据实际需要下载相应格式的文件,如输入“再别康桥”,按下回车键,就可找到再别康桥的配乐诗朗诵,然后再把它下载即可。还可以到网上的多媒体素材资源库中下载,如多媒体素材资源库(http://www.fsec.cn/cjh/sczy.htm)里面有很多声音素材可供下载。从网上下载音频素材时应注意版权的问题,不可作为商业用途,使用时应标明来源。

(三)音频格式转换

在实际制作多媒体课件时,我们经常要考虑到课件中音频的容量及音质,不同格式的音频容量和音质是不一样的,这就需要我们根据实际需要对音频进行格式间的转换。当我们确定需要哪一种格式的音频文件时,可以使用一些音频处理软件来对已有音频文件进行格式转换。

(四)音频处理技巧

1.录音技巧

(1)正确使用麦克风

在录制多媒体课件音频素材时,最好采用专业的麦克风,以保证录音的质量,在不具备专业麦克风时,录音时主要考虑的技术因素就是麦克风所放的位置。尽量用麦克风座,或者用吊架把麦克风从天花板上悬挂下来。

(2)减少外来噪音干扰

在录制音频素材时,我们要尽量的减少噪音,最好有专门的录音室,如没有,要尽量选择安静没有其他人的环境进行录音,如果是在计算机机房里录音,应将其他计算机和荧光灯关闭,因为电磁干扰会被记录到计算机上形成噪音。在翻阅资料或做其他准备时应停止录音。在录音过程中应使用耳机进行监听。

2.采集模拟波形技巧

当开始一次新的录音时,大多数录音软件都会先显示新建波形(Record Settings)窗口,在这里提供了采样率、分辨率(16比特或8比特)和立体声/单声道选项。要准确地设定好采样率、分辨率和立体声/单声道之后,和录音增益后就可以按录音(Record)按钮进行录音了。

3.混音技巧

在对音频处理时,很多时候需要用到混音。混音是指将多个音轨和谐的合并在一起,例如将多媒体课件中的背景音乐和解说合并为一个单独的音频文件。

4.添加混响

混响是自然界普遍存在的一种自然现象,但是在录音室录进的声音相对来说都是干声,必要时应该添加一定的混响,这样各声部才融合自然,也更能体现出说话的环境特点和音乐的情境。加入混响可以使声音显得不那么干涩,变得圆润、厚重,更生动一些。如果多媒体课件中的声音是干巴巴的,让人听起来产生厌烦的心理,从而影响到教学效果,没有发挥多媒体课件的优势。

四、多媒体课件中声音美的表现形式

多媒体课件中的声音美主要是通过背景音乐、音效和配音的功能与艺术性来表现。

(一)背景音乐的美

音乐是一种听觉艺术,它能表现和激发人们的情感。在多媒体课件中恰当地将优美的音乐融入到教学内容中,利用音乐的感染力,让学习者在美的旋律中学习,给学习者创造一个联想到空间。逼真合理的音乐能丰富图形、图像,增加其真实性和表现力,如给古诗文教学的课件配上适当的古典背景音乐,能创造出一种与古诗文内容相关的意境。在适当时候给课件配上一点背景音乐,可以缓解紧张的学习氛围和乏味的文字给人带来的疲劳,使学习者身心愉悦,让学习者感受到学习有趣的一面。

(二)音效的美

多媒体课件中的音效有些是现实生活中的声响,如风雨声、雷声、鸟叫声、马蹄声、流水声等,它们具有一定的客观性和真实性,能给人以朴实无华、真实可信、身临其境的感受;有的是人工模拟制作出来的音响,如模拟的化学反应时的声音、物体碰撞或爆裂时的声音、点击按钮时的声音以及一些反馈声等,它们具有一定的假定性和夸张性,能给人以戏剧性、艺术性的感受。如在练习型课件中,当学生回答正确时给予欢快的掌声鼓励,回答错误时给予温馨的提示,不再是传统的一个“勾”或是一个“叉”,这样能较好的刺激学习者认真学习、回答,有效的激发学习者的学习兴趣。

(三)配音的美

配音在多媒体课件中能起到补充画面内容,帮助学生思考,丰富教学内容,加深理解的作用。由于语言是抽象思维的表现形式,因此在多媒体课件设计中,应根据教学内容和学生的心理特征进行不同的设计。优秀的配音其语言准确,声音吐字清晰,语调快慢有致,铿锵有力,富有感染力,这样的语言美可以帮助学生正确理解和掌握教学内容,激发学生的学习兴趣,使学生精神振奋、注意力集中。

五、提高多媒体课件中声音美的途径

多媒体课件中的声音美是指音频不仅要音色美,而且要随着教学内容和教学过程的需要而富于旋律感和节奏感,使之产生时高时低、时升时降、抑扬顿挫的音韵美。可从以下几个方面来提高多媒体课件中的声音美。

(一)提高课件制作者的音乐审美能力

多媒体课件中音频制作者的音乐审美能力将直接影响到多媒体课件中音频的效果,因此,提高课件制作人员的声音审美水平至关重要。声音审美的第一关就是听觉关,所以应多听音乐,从音乐中获得情感的愉悦并完成关于声音的审美过程,从音乐欣赏中获得情感体验。在欣赏音乐时,我们可以发现,音乐很多时候都是在抒情的,并且音调也不是一调到底的,随着感情的变化而转调,在教学中,教学内容也是变化着的,那些抒情散文,叙事散文中作者的情感都随着情节的发展而变化,正如音乐中的音调变化一样。制作者通过音乐欣赏,最终能给多媒体课件配上与教学内容情感基调相符的背景音乐。

(二)提高制作者自身的声音美和音频处理技术水平

由于制作多媒体课件时,不是每个制作者都能找到专业的配音人员,这就需要自己配音。制作者应不断提高自己的声音美,通过练声训练和相关知识的学习,按照普通话的标准和规范把汉字音节的声母,韵母,声调念准,进而读准每个常用的音节,力求使自己的发音正确清晰、明快清脆、圆浑清亮、富丽清新、坚韧清悦的配音者,所录制的声音才会使人身心愉悦,给人以听觉上的享受,才能真正发挥出音频的作用。

另外,制作者的音频处理技术水平也是非常关键的。如果只知道何时该使用声音,使用什么样的声音,自己却无法来制作和处理也是不行的,让其他人来制作和处理又不一定能做出自己想象中的效果。所以每一个课件制作者都应该具备一定的音频处理技术,能熟练使用各种音频处理软件,通过技术处理来弥补自身发音的不足。

(三)把握声音运用的艺术性

在多媒体课件中,在声音使用的安排上要符合学习内容、学科特点以及教育学、心理学的规律。例如低年级的学生的思维以具体形象思维为主,并逐渐向抽象思维过渡,因此课件中的配音要注意语言的准确、童真,声音要咬字清晰,语调快慢有致,富有感染力。确定每一页面中音乐的出现和消失的特技形式,例如淡入淡出等;背景音乐不能盖过配音解说,要求达到背景音乐可以增加意境、消除疲劳但却不会干扰配音解说的艺术效果。在使用背景音乐时,不要使用学生过分熟悉的音乐,如果学生对于某段音乐过于熟悉,则很容易产生联想,甚至跟着哼唱,引起学生在音乐方面的过度注意,只是单纯的去欣赏音乐而忘记了对内容的学习,直接影响到教学信息的获取,从而影响到教学效果。

(四)合理的安排配音解说

1.要根据课件的具体内容来选择配音人员,因为不同的配音人员的音质、音色、音调等都有所不同。例如,当教学内容的感情基调是慷慨激昂时,可选男配音员,可显得铿锵有力,当感情基调是轻快舒缓时,可选女配音员,显得优美和轻快。

2.音节要协调。在安排解说词时,适当多用一些双音节词,可以增强语言的响度和节奏感,读起来朗朗上口,听起来比较优美悦耳。运用拟声词、象声词也是使音节协调的一种办法。它既可以使被表述的事物形象生动,又可使声音和谐,达到声与形的有机统一,增添语言的表现力。运用对偶、排比、抒情、呼应等手法编写解说词来体现其艺术性特点。

3.应控制好配音时的语速。要根据教学内容的难易、深浅程度的不同而区分语速的快慢。教材上有的内容可以稍快,讲解课外内容时可以放慢语速给学生足够的时间思考。讲述日常生活的知识可以快一些,讲解抽象的理论知识应当慢一些;讲述过程、介绍背景知识可以快一些,分析原理、公式、规律性的知识要慢一些;讲解简单易懂的知识内容可以快一些,讲解重点、难点时要慢一些,还要注意停顿;总的来说,在讲解学生了解的、已经熟悉的知识时,可以快一些,在讲解陌生的新知识以及逻辑推理性强的知识时就有必要放慢语速。这样注意语速上的快慢交替,不但会使教学重点、难点突出,快慢有致,也体现出了它的艺术性。

(五)发挥教育部门的导向作用

随着信息技术的发展,教育必将走向现代化,多媒体课件将是未来教育的重要组成部分,多媒体课件的质量将直接影响着教学效果。教育部门应该注重教学资源的投入和多媒体课件的数量及质量,多开展一些多媒体课件展览或比赛,使更多的人有更多的机会接触到优秀的多媒体课件,通过彼此学习和借鉴,来提高自己制作多媒体课件的水平。另外,教育部门还应该加强教师教学技能培训,特别是那些处于农村基础教育的教师,除培训制作课件的技术能力外,还应注重教师语言培训,因为目前农村基础教育的教师中大部分是普通师范毕业生,一部分教师的语言能力仍存在着缺陷,如果他们没能得到较好的学习和训练,一代影响一代,最终教师的声音美还是没能提高。通过教师语言技能的训练,使每个教师的声音美都得到提高,这样也间接的提高了多媒体课件的声音美。

六、结语

音频是多媒体课件中重要的组成元素,多媒体课件声音是否美将直接影响着多媒体课件的整体质量和教学效果。多媒体课件制作者应不断完善自我,不断提高音频处理技术和声音审美能力,从而制作出声音美妙的多媒体课件,真正发挥出音频的作用,使多媒体课件能更好地为教学服务,改善和提高教学效果。

参考文献:

1.蔡铁权,王丽华.现代教育技术教程[M].北京:科学出版社,2005

2.张鹤峰.多媒体应用技术[M].大连:东北财经大学出版社,2006

3.张振宇.多媒体技术与应用[M].北京:科学出版社,2004

4.凌晓蕾.艺术美育[M].广州:暨南大学出版社,2006

5.李康,梁斌,蔡兴勇.多媒体课件设计原理与制作基础[M].广州:暨南大学出版社,2001

6.南国农,李运林.教育传播学[M].北京:高等教育出版社,2005

7.刘国基.音乐艺术欣赏[M].南京:河海大学出版社,2003

8.史济民,史令,沈齐生.多媒体应用与开发基础[M].北京:清华大学出版社,2003

音频技术发展篇5

随着经济的发展与社会的不断进步, 极大地促进了当前数字技术的提高。在现实生活汇总, 国内各大电视台已经构建了较为完善的数字化演播室, 从而实现了广播电视节目的数字化发展目标。在此基础上, 采用数字化音频技术能够检测广播电视直播节目的顺利进行, 并且对其进行实时监控, 与此同时还能够拓展相关设备功能, 对设备进行科学有效管理。结合上文所述, 本文详细的分析与论述了数字信息技术作为数字化广播电视制作的先进手段, 在当前广播电视工程中的重要意义与作用。

数字音频技术的具体含义

所谓数字音频信号, 其主要依托于广播电视技术, 在其基础之上逐渐的成长与发展, 通过处理模拟信号之后, 转变为数字化技术处理, 逐渐成长为当前广播电视领域之中使用比较广泛的方式, 其能够有效地对节目进行前期、后期与播出过程中的相关处理。在现实生活中, 采用数字音频设备, 一方面符合当前广播电视节目较高的音频技术要求, 另一方面, 还能够有效地保留之前的模拟音频信号, 在很好的取代模拟音频系统设备的基础上, 促使其在模拟信号的形势下进行工作。数字音频技术主要以满足人们的听觉、提高音质的高保真效果为目的。

广播电视工程中数字音频技术的优势

在电子技术的快速发展和计算机多媒体的广泛应用下, 计算机应用音频技术, 数字音频工作站给广播电视台带来了创新。现代的数字音频工作站主要包括数字录制音频工作站、节目管理工作站以及数字播出音频工作站。在广播电视工程中应用数字音频技术, 主要具备以下几个方面的优势。

1.运用多轨数字硬盘进行录音

数字音频具有64轨, 能够有效地保障音乐语言类的节目, 与此同时, 还能够实现其录音过程中补录、搬轨与并轨方面的工作, 从而实现用户在使用过程中, 对轨道采取必要的扩充工作。

2.数字编辑精密性高

数字音频拥有高解像度的计算机屏幕, 其能够将声音运用波形的方式进行显示, 进而方便编辑剪接的过程。运用图像波形的方式显示音频, 实现波形剪辑的精确性。

3.数字信号处理能力比较强

4.存储能力

其具备计算机数据存储器的功能, 对音频程序和相关的设备信息进行存储。

5.数字音频广播系统

数字音频广播系统的关键技术主要包括三个方面, 分别是对数字音频信号进行压缩编码、对高速数据信号进行无线传输以及运用组网技术等。在数字广播中使用多种不同的音频压缩编码技术, 主要立足于人耳的感觉特性角度, 来有效的降低码率。在进行编码的过程中, 对人的听觉频率、声音的定位特性以及时间的遮蔽效应三个方面进行考虑。当出现两个频率比较接近、并且强度差别较大的信号时, 人的耳朵往往能对高强度信号进行感受, 遮蔽强度低的信号, 该效应在传送信号时, 主要对某一个时间段中的弱信号进行遮蔽, 不进行传送, 进而降低码率。人的听觉在对声音来源进行定位时, 往往对于频率低是信号反应比较迟钝, 人耳的特性被运用到数字音频传输系统。

广播电视工程中数字音频技术的应用和发展

1.广播电视工程中数字音频技术的应用

(1) 数字调音台的应用

在广播电台系统中应用数字调音台, 主要对调音台进行处理, 保证其具备传统调音台的功能, 提高噪声、串音以及失真功能的质量。新型的数字调音台具备数字切换矩阵的功能。针对上述情况, 可以采用不同形式的控制面, 来实现用户在不同的环境之中不同的操作方式以及功能上的需求, 从而有效的满足不同方式新闻编辑以及制作的过程, 其具有通路多、体积小的优点。

(2) 数字音频嵌入技术的应用

在对广播电视视频信号的模数进行转换时, 由于模拟信号构成不同, 数字转化过后的传输方式也分为并行和串行。其在公共部位具有相同点, 例如在视频数字信号的行消隐过程中, 能够实现数字音频与其他数据信息之间的传送。在播出信息时, 很少出现音频分切的现象, 通过运用嵌入音频技术, 减少矩阵层面, 进而提高播控系统的安全可靠性。

2.广播电视工程中数字音频技术的发展

在我国的广播电视节目的制作过程中运用数字音频技术, 给声音的录制和后期制作带来一定的便利。数字音频技术不仅将前期录制工作的科学性进行展现, 而且在后期的制作中也具有很强大的功能。虽然目前我国的广播电视节目实现了数字化, 但是其中还存在着一定的缺点, 相信在不久的将来, 数字音频技术将会得到飞速的发展, 更好的为广播电视服务。

结语

音频技术发展篇6

1 接地技术的原理和方式分析

1.1 接地技术的概念

接地技术原来应用在电力系统中, 后来应用在弱电系统中, 现在比较广泛的应用在电子设备中, 所谓接地, 指的是在系统和某一个电位基准之间构建低电阻通路, 同一个接地点之间的连线叫做地线。

1.2 接地技术的原理

大地本身作为一个大型导体, 电容量较大、电阻较低, 能够吸引外界的电荷, 并且在吸收足够多的电荷后依然保证自身电位不发生概念, 进而将其作为电位体的参考对象。接地技术主要将相关的电路、电气设备和大地或者类似大地的大型导电体互相连接, 将部分无用的噪音干扰和电流干扰输进导电体中, 最大限度的确保在雷电天气或者电流短路情况下不会导致设备出现损坏现象, 并防止出现人员事故出现伤亡现象。

1.3 接地技术的方式

接地技术主要包括接地保护、防雷接地、安全接地、屏蔽接地以及工作接地等。

1.3.1 接地保护

电气设备中的配电设施和金属外壳中的构架绝缘出现破坏情况容易导致设备带电, 进而给工作人员的人身安全带来严重的威胁, 因此, 为了提高电子设备的安全力度, 需要运用接地技术进行保护。接地保护主要包括接零保护和接地保护。保护方式的选择要根据供电系统运用的配电系统类型来确定。通常情况下, 对于三相四线的供电系统而言, 运用接零方式, 能够将电子设备的金属外壳在导体的作用下实现和零线的相接, 注意不能将外壳和大地进行直接连接。对于广播电视工程来说, 其大型的耗电设备、发射机设备、中央空调设备以及配电系统的开关等均需要运用接零保护模式。另外, 在具体的保护接地中, 要严格运用公式Re≤Ue/le进行实现, 其中Ue指的是容许设备对地的电压;Le指的是系统单项接地短路电流。

1.3.2 防雷接地

为了将雷电保护装置的作用进行充分的发挥, 并在雷电天气的袭击下将大量的电流放到大地中, 避免出现人员伤亡的情况, 减少电压给电气设备带来的危害。目前, 在广播电视工程系统中主要运用全固态发射机, 该类设备存在一定的缺陷, 例如耐压低、易被击穿以及抗干扰性能低等。因此, 运用防雷接地技术要选择安全可靠性高的固态发射机, 才能够有效的保证机房设备的安全、稳定运行。

1.3.3 安全接地

所谓安全接地, 指的是实现电气设备的外壳与大地之间互相连接的一种方式。如果设备出现绝缘损坏现象或者机壳带电现象, 采用切断电源的方式, 进行电源电路的保护工作, 并有效的确保工作人员人身的安全。

1.3.4 屏蔽接地

屏蔽接地方式主要以保证电气设备在不受到外接电磁干扰的前提下, 实现电气设备和干扰源之间的电气连接为目的。屏蔽接地方式具有复杂特点, 主要分为电场屏蔽和静电屏蔽。静电屏蔽指的是对带电设备周围所设置的空腔金属屏蔽体进行保卫, 不仅能够保证屏蔽范围中的仪器设备不受到外界干扰, 而且还能够给外部设备带来影响。在广播电视工程的具体实施过程中, 由于屏蔽区域比较大, 所以适宜运用金属屏蔽网。

1.3.5 工作接地

工作接地指的是为了确保电路能够正常工作而提供基准电位的一种方式。一般情况下基准电位的设置为零。基准电位指的是电气设备系统中的一个点、一个段或者一块。在基准电位与大地不相接的情况下, 叫做零电位。零电位稳定性不高, 容易受到外界电磁场的影响而发生变化, 导致电气设备不稳定。在基准电位与大地互相连接的情况下, 其不会受到外界电磁场的变化而产生变化。

2 广播电视工程中应用接地技术需要注意的问题

2.1 注意系统信号地与其他接地之间的连接顺序

在广播电视工程系统中的视频、音频设备, 对系统信号地和其他接地之间的连接顺序进行考虑, 通过对功率和安全地进行对比, 信号地中的接地电阻比较大。目前, 随着信息技术广泛的应用在社会的各个领域, 大部分的信息设备均配置了独立的数字地和模拟地, 对于这类情况要做好接地工作, 进行汇聚, 实现其与公共接地母线相靠近。此外, 信号设备的外壳要和保证设备外壳地线与机柜外壳相连接, 机柜外壳使用机柜地线连接系统外壳, 然后在系统的金属外壳上安装系统安全接地螺栓。

2.2 确保机房数字设备接地的规范

如果机房柜中的设备比较多, 特别是随着广播电视机房中的数字设备的不断增多, 数字地线、信号地线、机柜外壳地线以及功率地线等也在不断的增多。因此, 可以通过敷设几条相互并行、与系统外壳绝缘半环型接地母线, 其中, 一条作为信号地母线, 另一条作为屏蔽地及机柜外壳地母线。当系统内的各信号地接近于信号地母线时, 系统内的各个屏蔽地和机柜外壳地就近接到屏蔽地或者机柜外壳的地母线上。两条半环型的接地母线中部要接近安全接地螺栓, 屏蔽地以及机柜外壳地母线要与安全接地螺栓相连接;信号地母线要确保接到信号地的螺栓上;另外, 要确保母线具有良好的电气性能, 电阻尽量较小。

2.3 保证三相电源中的性点电位是零电位

三相四线制电源在供电时, 各负载用电量和用电不同时进行, 进而导致三相具有不平衡性。中性线接地不好, 三相电源中性线电位容易发生偏移情况, 进而给单相供电的电压产生影响, 轻则使其电压偏高或者偏低, 不能稳定、正常的工作, 重则会导致设备损坏。因此, 保证三相电源中的性点电位为零电位对于电源中性线接地的安全性和可靠性具有十分重要的作用。另外, 注意不能使用绝缘性不高或者不具有绝缘性的金属丝编织管、扁铁、扁铜等金属, 其不能实现接地线之间的绝缘。除此之外, 还要将工作接地线和保护接地箱互相分开。

3 结论

总而言之, 在广播电视工程中接地技术应用质量的高低对于广播电视信号的稳定传输、设备运行的安全可靠以及工作人员的人身安全具有十分重要的影响。因此, 通过不断的创新和总结, 对接地技术使用过程中需要注意的问题进行了解, 有效的保障电气设备的良好接地、提高接地质量。

参考文献

[1]陆利根.有线广播电视传输网络防雷系统的研究与成功应用[J].中国有线电视, 2012, 3 (11) :77-78.

[2]田洪国.接地在广播电视工程中的应用思路研究[J].科技资讯, 2010, 10 (35) :55-56.

音频检索技术概述篇7

随着互联网和移动通信技术的发展, 越来越多的人能够更加方便、快捷、经济地通过网络查找和传输各种信息。基于文本的信息检索已经无法满足现代的人们的需求, 图像图形信息和音频信息检索应运而生。

音频信息作为一种重要的信息载体, 相比图像、图形和文本信息有其独特的便利和优越性。音频信息检索技术有着广泛的应用前景: (l) 它是智能语音系统的核心技术, 用户可通过该技术方便快捷地获取所需的信息; (2) 它可以实现对网络中的媒体, 例如网上电视, 音视频等的音频信息进行实时检索、审查和有效监控, 对各种数字音频产品的版权保护, 如音乐的版权保护, 即搜索未经授权的使用等; (3) 它在音频信息分类与统计技术的研究中也扮演着重要的角色, 如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息, 使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索, 更好地管理、存储与高效利用这些资源。此外, 它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。

2 音频检索技术

2.1 音频及音频内容

音频泛指人类能够听到的所有声音。人耳能够听见的声波频率范围是20Hz~20 000Hz, 其中语音频率大约分布在300Hz~4 000Hz之间, 而音乐和其他自然声响则是全范围分布。

音频的内容从整体上来看可以分成三个等级:最底层的物理样本级、中间层的声学特征级和最高层的语义级。在物理样本级, 音频内容呈现的是媒体流形式, 其中包含原始音频数据和注册数据 (如采样频率、量化精度和压缩编码方法等) [1]。用户可以通过时间刻度检索或调用音频的样本数据, 如常用的音频录放软件Cool Edit。中间层是声学特征级。声学特征是从音频数据中自动抽取的, 它可以分为物理特征 (Physical Feature) 和感觉特征 (Perceptual Feature) , 前者包括音频的基频、幅度和共振峰结构等, 后者表达用户对音频的感知, 例如音调、响度和音色等, 可直接用于检索。最高层是语义级, 是音频内容、音频对象的概念描述, 在这个级别上, 音频的内容可以是语音识别、辨别后的结果 (文本) 、音乐旋律和叙事说明等。

2.2 主要的音频检索技术

早期对于音频信息的检索, 主要是采用文本检索技术, 即通过人工方式输入音频的属性和描述 (例如文件名、文件格式等文本信息) 来进行检索, 但其局限性非常明显:首先, 互联网信息庞杂, 充斥着许多未标注、错误标注文件名等文本信息的音频数据, 而如要正确标注互联网所有音频数据显然非人力所及;其次, 许多现实的应用需要使用音频数据本身的感知内容, 而这种感知内容通过简单的文件名等文本标注无法体现, 如音乐的旋律、音调、音质等[2]。再次, 即便针对于语音信息, 比如新闻记录、谈话记录等, 通过文本检索技术也仅仅是检索其文件标注, 而不能检索其内容。

为了解决上述问题, 基于内容的音频检索 (Content-Based Audio Retrieval, CBAR) 应运而生。它主要研究如何利用音频信息的幅度、频谱等物理特征, 响度、音高、音色等听觉特征和音频类别、语义等特征实现音频信息检索[3]。由于起步晚、数据复杂、研究难度大等原因, 基于内容的音频信息检索技术和文本检索技术相比仍存在很大差距, 还有大量问题亟待解决。

2.3 音频检索系统的基本框架

音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的音频检索, 该方法是从媒体数据总体取出特定的信息线索, 建立音频数据表示方法和数据模型, 采用有效和可靠的查询处理算法, 使得用户可以在智能化的查询接口的辅助下, 从大量存储数据库中的媒体进行查找, 检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询, 是检索出与用户指定的要求非常相似的所有声音。其检索系统的基本框架如图1所示:首先是建立数据库:对音频数据进行特征提取, 将特征装入特征库部分, 并通过特征对数据聚类, 然后将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。在查询接口上, 用户可以采用以下形式提交查询: (1) 示例查询方式 (Query by example) :用户通过查询界面选择一个声音查询例子, 并设定属性值, 然后提交查询。如查询与飞机的轰鸣声相似的所有声音。 (2) 拟声查询方式:用户发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出“嗡嗡”声来查找蜜蜂或电气嘈杂声。 (3) 主观特征:用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义, 如用户可能要寻找“欢快”的声音。用户提交查询后, 系统对用户提交的内容进行提取特征, 结合属性值确定查询特征矢量, 并对特征矢量进行模糊聚类, 然后检索引擎对特征矢量与聚类参数集进行匹配, 最后按相关性排序后通过查询接口返回给用户[4]。

2.4 音频检索系统的核心技术

音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取 (音频内容的描述) 和音频分割与分类和特征相似度匹配四个部分。首先是预处理阶段对输入的音频进行格式转换 (在此实现多采样率支持, 多格式支持 (wav, mp3, rm) , 转换为系统内部统一格式) [5]。

其次音频特征提取是整个音频检索最核心的技术, 它是在音频内容获取的基础之上进行的, 同时是进一步进行音频特征相似度匹配的必要前提, 特征提取是指寻找原始音频信号的表达形式, 提取出能代表原始信号的数据形式.与文本检索中的特征是关键字不同, 在音频数据中提取特征有两种方法, 一种是提取听觉感知特征如音调、音高等。另一种是计算非感知特征或者称物理特征, 如对数倒频谱系数、线性预测系数。要抽取特征和属性, 通常要对数据库中的多媒体数据项进行预处理。所有这些提取出来的特征被用来表征音频数据流, 在检索过程中, 是对这些特征和属性而不是对信息项本身进行搜索和比较, 所以特征抽取的质量决定着检索效果。

由于音频信息是时间序列的数据流, 为了对持续时间很长的音频直接进行处理, 选择在其特征发生突变的地方进行分割, 把连续多媒体数据流分成不同长度的数据片段, 即音频分割, 然后对分割好的数据片段进行处理。音频数据流分割基本是根据所提取的音频低层物理特征完成的, 所分割出来音频数据只是些物理单元, 需要对这些物理单元进行识别分类, 将它们归属成事先定义好的不同语义类, 这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类, 在这一步中, 可以对分割出来的音频物理单元进行组分, 如将切分出来的音频分类为静音、音乐和语音、环境音等, 也可以进行某一事件或某一人物的精细分类, 如“暴力”事件、“演讲”事件等。常见的分类方法是:首先计算输入音频片段的频谱中心, 如果其频谱中心值比预先设定的阈值高, 则认为它是音乐, 否则它是语音, 但由于有的音乐也具有低的频谱中心值, 因此, 它也可能是音乐。其次, 计算静音比, 如果它的静音比低, 则认为它是音乐, 否则, 认为它是语音或独奏音乐。最后计算平均过零率ZCR, 如果它有着非常高的ZCR可变性, 则它是语音, 否则它是独奏音乐。

最后就是对识别出来的语义类建立索引, 进行检索。建立索引可以有三个途径:

(1) 用文字形成的抽象概念描述这些类别, 这样用户必须通过文字查询音频数据。

(2) 用音频特征建立索引, 查询时用户提交的是对特征的描述, 如对音频能量描述的“音调”。

(3) 提交一个音频例子, 提取这个音频例子的特征, 按照前面介绍的音频例子识别方法判断这个音频例子属于那一类, 然后把识别出的这类所包含的若干个样本按序返回给用户, 这是基于例子的音频检索。基于例子的音频检索遵循概率排队的规则, 根据用户的查询需要, 基于检索模型对查询样本和库中音频分别计算音频的相关特征, 并比较相似性, 最后按相似性值由大到小排列库中音频, 完成一个查询过程。

3 音频的检索模式

根据音频的特性, 可以将音频划分为三种:语音、音乐和其他声响。相应的音频检索可以分为三种主要的模式:语音检索、音乐检索和波形声音检索。语音检索是指以语音为中心的检索, 采用语音识别等处理技术进行检索, 例如有关电话记录、会议录音的检索等。音乐检索是以音乐为中心的检索, 充分利用音乐的音符和旋律等音乐特性来进行检索, 例如音乐作品的检索等。波形声音检索主要以波形文件为对象的检索, 依据声学特征来检索。后两者都是利用更一般性的音频分析, 以适合更广泛的音频媒体。

3.1 语音检索技术

基于语音技术的检索目前较成熟的有:利用大词汇语音识别技术进行检索、子词单元检索、关键词识别检索、对说话人的辨认进行分割检索。

(1) 利用大词汇语音识别技术进行检索

这种方法是利用自动语音识别 (ASR) 技术把语音转换为文本, 从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度, 但在实际应用中, 如电话和新闻产播等, 其识别率并不高。即使这样, ASR识别出来的脚本仍然对语音信息的检索有用, 这是因为检索任务只是匹配包含在音频数据中的查询词句, 而不是要求得到一篇可读性好的文章。

(2) 子词单元检索

当语音识别系统处理无限制主题的大范围语音资料时, 其识别性能会变差, 尤其当一些专业词汇 (如人名、地点) 不在系统词库中时。一种变通的方法是利用子词 (Sub-Word) 索引单元, 当执行查询时, 用户的查询首先被分解为子词单元, 然后将这些单元的特征与库中预先计算好的特征进行匹配。

(3) 关键词识别检索

在无约束的语音中自动检测词或短语通常称为关键词的发现 (Spotting) 。利用该技术, 识别或标记出长段录音或音轨中反映用户感兴趣的事件, 这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。

(4) 对说话人的辨认进行分割

这种技术是简单地辨别出说话人口音的差别, 而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术, 可以根据说话人的变化分割录音, 并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化, 建立索引和确定某种类型的结构 (如对话) 。例如, 分割和分析会议录音, 分割的区段对应于不同的说话人, 可以方便地直接浏览长篇的会议资料。

3.2 音乐检索技术

基于内容的音乐检索涉及音乐旋律的表达、音乐旋律的特征提取、用户查询构造、音乐旋律匹配以及音乐数据库构造等很多方面的问题, 这些问题的解决是建立一个完整、有效的音乐检索系统的关键。基于内容的音乐检索通常采用下面通用的步骤: (1) 音乐旋律的表达.即音频信号的预处理; (2) 通过对音乐旋律的特征提取, 形成查询索引; (3) 对音乐数据库中的音乐建立音频索引; (4) 用户查询构造; (5) 根据查询索引和数据库中音频索引之间的相似性, 对音乐片段进行检索。基于内容的音乐检索主要是基于音频特征 (如节奏、音符、乐器) 矢量匹配和近似音调匹配。计算机对信息的表达归根结底是种状态表达, 要将听觉感知的信息借助计算机进行存储与检索, 这不仅依靠用户本身感官与表达的一致性, 也依靠统计的度量算法的选用, 因此, 基于内容的音频检索只能是一种相似性检索, 而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究, 但是为了满足大容量数据库和www检索的要求还有许多工作要做。

3.3 波形检索

其他音频检索是以波形声音为对象的检索, 这里的音频可以是汽车发动机声、雨声、鸟叫声, 也可以是语音和音乐等, 这些音频都统一用声学特征来检索。虽然ASR可以对语音内容给出有价值的线索, 但是, 还有大量其他的音频数据需要处理, 从声音效果到动物叫声以及合成声音等[6]。因此, 对于一般的音频, 仅仅有语音技术是不够的, 使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找, 基于样例的音频检索为用户提供高级的音频查询接口。

4 音频检索的研究现状与不足

音频检索日益成为国内外研究的热点, 目前较成熟的研究包括美国的Muscle Fish系统;IBM的Via voice系统;马里兰 (Maryland) 大学的Voice Graph系统和Android系统的Voice Actions;苹果公司的siri智能语音控制系统, 以及国内的金立手机的语音控制系统和ARS系统。

Muscle Fish是较早推出的较为完整的原型系统。它通过直接对音频进行波形特征分析, 得到声学参数如音高、音强、音长、带宽等, 形成相应的N维特征矢量, 并以此作为比较和聚类的依据。

Via voice和Voice Actions主要是语音识别系统, 用户可通过话筒输入语音信息, 就可以让计算机执行相应的命令, 包括搜寻相应的信息, 打开软件, 写报告等等。Voice Actions提供了非常坚实可靠的声音识别引擎, 它的高识别度令人称奇。不过, 这两个系统也和过去的所有语音命令系统一样, 要求说的话要具备严格的语法结构和格式, 否则系统将无法识别。

苹果公司i OS系统自带的Siri和前者类似, 也是一款以语音识别为基础的系统, 但相比前者, 它不仅拥有较完善的语音识别功能, 可以通过声控搜寻相关信息, 执行某些命令, 其最大的特点则是在人机互动方面, Siri可以针对客户的询问进行语音回答, 回答的内容不至于答非所问, 更重要的是, 可以抛弃繁琐的语法结构, 甚至思维模式也可以混乱, Siri会结合上下文结构去理解, 它还会从人类语言史的角度出发, 利用人工智能系统去分析, 并在绝大多数情况下领会用户的意思。而更加人性化的特点是, 一旦你开始和Siri进入一段对话, 它甚至能理解许多含义模糊或者引申的语义, 所以在一定意义上说, Siri是一款智能控制系统。而Voice Actions做不到这样的事情, 因为它只是一个声控命令软件, 而并非人工智能。

Voice Graph结合基于内容和基于说话人的查询, 检索已知的说话人和词语, 并设计了一种音频图示查询接口。

国产的金立语音王手机自带的金立语音控制系统和ARS也是一种基于内容的音频检索系统, 金立语音控制系统主要是中文的语音识别, 在识别的基础上实现某些手机功能的操作, 使用范围狭窄, 仅仅适用于操作金立手机上的相关功能, 对语音的识别也很有限。而ARS系统通过提取音调、音强、亮度、带宽、过零率等5个特征, 对数据进行分类和处理。操作过程首先判定其是否为音频, 而后进行语言识别以判定采用何种音频检索模式。

上述几个系统中Muscle Fish、Voice Graph和ARS虽然都是基于内容的音频检索系统, 但都有各自的不足, 如Muscle Fish虽然直接进行波形检索, 但他只对笑声、铃声、电话声等16类特定的声音有较高的准确率, 而对于这16类特定声音的检索性能的好坏还依赖于哼唱输入信号的音调跟踪的准确性, 只有当在相邻的音符之间插入一个停顿时才能获得很高的性能。而Voice Graph使用的准确度也非常有限, 而ARS和金立语音识别主要是针对中文语音, 识别的范围也十分有限, 对于音乐和其他波形的准确率都有待提升。Siri在语音识别方面算是十分完善的, 支持中文、英文、法文等十多种语言的识别和控制, 但是同样的对其他音频都不能进行处理。

基于内容的音频检索还处于不成熟的领域, 基于语音识别的语音索引和检索相对比较容易, 但是没有任何词汇限制的一般主题的语音识别性能仍有待改进。对于音乐检索, 主要是基于音频特征矢量匹配和近似音调匹配, 这方面许多研究已经做了大量工作, 然而对于一般情况下如何感知音乐和音频以及关于音乐片段之间的相似性比较, 还有许多工作要做。

5 总结与展望

本文介绍了音频检索系统的框架, 主要的检索技术和检索模式和相关的问题, 虽然许多研究对音频检索技术做了大量探讨, 但基于内容的音频检索还处在起步阶段, 该研究领域与信号处理、人感知心理研究和模式识别等学科都紧密相连。为了使计算机能像人那样对音频语义实现自动理解, 对音频信息就行搜索, 还有许多急待解决的问题, 如高层概念和底层特征的关联, 以实现音频语义的计算机自动抽取;网络大量数据的高效处理检索;音乐旋律的结构化检索等。此外, 对音频特征的表示、音频信息的聚类以及特征信息的挖掘都有待进一步的发展。

参考文献

[1]黄卫平, 肖健宇, 张大方.多媒体数据库的关键技术:特征的提取与索引.计算机工程与应用, 2003, 39 (11) :194～196

[2]邢伟利.基于内容的音频检索技术研究与实现[D].西安:西北大学.2004

[3]李国辉等.基于内容的检索[N].计算机世界专题, 1998, 05:26

[4]李恒峰, 李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000, 07:54～56

[5]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2001, (4) :431-437

DRA分层音频编码技术篇8

关键词：DRA,分层编码,数字音频广播

在分层音频编码上, 国外已经研究了几种精细分层的有损数字音频编码方法及无损音频编码, 主要包括:1) ISO/IEC 14496-3 MPEG-4 BSAC (Bit Sliced Arithmetic Coding) 比特片算术编码[1], 在这种编码算法中, 基于对MDCT (修正离散余弦变换) 变换后的变换域系数 (频谱系数) 被量化为整数后, 从低频到高频分成多个组, 每个组谱系数从高位到低位形成比特片方式进行算术编码, 因此可以实现非常精细的分层 (或者伸缩) 编码。2) 在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸缩采样率编码算法AAC-SSR (Advanced Audio CodingScalable Sampling Rate) , 首先是由Sony提出的, 编码架构也类似于其独有的ARTAC (Adaptive Transform Acoustic Coding) 编码。其基本算法是:首先将输入的数字音频信号通过4带的多相正交滤波器组 (Polyphase Quadrature Filter, PQF) 分割成4个频带, 然后这4个频带分别进行1个256点MDCT (512样点窗长) 或8个32点 (64样点窗长) MDCT。这种技术的好处在于每个频带内可以独立选择长块或短块MDCT, 因此对高频可使用短块编码增强时间分辨率;而对低频使用长块编码获得高频率分辨率。3) MPEG-4 SLS (Scalable Lossless Coding) 有两种方式。一种是有损音频编码层 (如AAC) 和无损误差增强层, 这样就保证了与原来有损编码的后向兼容。另外一种是没有有损编码层, 仅仅无损增强层。在这两种方式中, 无损增强层能够实现精细分层, 提供低质量、高质量以及无损质量。

第一种分层编码算法为了实现精细分层, 需要考虑限制频谱分区长度等, 而导致需要较多额外开销降低了编码效率;第二种分层编码算法由于应用了4个PQF, 造成带间存在混迭, 因此相邻部分的变换域系数编码效率会下降;而第三种分层也是一种极其精细的分层编码技术, 同样存在需要较多额外开销的问题。

中国数字音频 (调频) 广播 (CDR) 系统已经分别颁布了信道标准[2]和复用标准, 其中在信道传输技术规范中, 调制技术支持粗分层调制, 且信道编码支持不等错保护技术, 因此数字音频信源编码技术最好能够适配信道传输技术, 而上述的几种分层编码技术不太合适, 同时已颁布的我国多声道数字音频编码技术规范DRA[3]也不支持分层方式。为此本文提出了一种新的基于DRA分层编码方法, 简称为DRA+L, 在使用很小额外开销的条件下提供2层的帧结构, 同时保证了与原DRA兼容。

1 DRA分层编码结构

图1给出了DRA基本帧结构示意图[3], 在帧头信息中有1 bit指明是否在帧尾存在辅助数据部分, 其目的就是为以后应用需求而进行功能及性能增强所保留的扩展单元, 这样也确保了增强后的编码算法仍与原DRA兼容。另外需要注意的是, DRA帧头信息中的帧长度信息的计算并不包含辅助数据部分, 因此辅助数据部分需要独立定义自身的长度, 便于解码器拆分辅助数据单元, 并且易于快速同步。

1.1 辅助数据一般结构

辅助数据结构示意图如图2所示, 其中DRA帧头信息中的帧长信息是以32比特 (4 byte) 为单位。辅助数据中每个数据块下面小括号内的数字表示其占用的长度, 单位为bit。X1, Xn分别为第1个和第n个辅助类型的数据长度, 单位为byte。在辅助数据的开始是辅助数据的长度指示, 当辅助数据比较短时 (小于256 byte) , 直接使用8 bit基本长度信息描述;否则辅助数据长度通过16 bit扩展长度与前面的8 bit基本长度共同描述, 即在256基础上累加16 bit无符号二进制数所表示的数值作为整个辅助数据长度。

每种辅助数据的类型由三部分组成:第一部分是本类型附属数据的长度, 用12 bit描述 (以byte为单位) ;第二部分为本类型附属数据的具体类型, 以4 bit表示, 最后一部分是本类型辅助数据的有效载荷。

1.2 分层编码的数据结构

DRA分层编码就是在国标DRA算法的基础上通过分层编码辅助数据的增强扩展而实现的。分层编码可根据编码的声道数进一步分为单声道/立体声的分层和5.1环绕声分层, 其码流结构分别如图3和图4所示的两层结构 (即基本层和增强层) 。

1) 单声道/立体声分层帧结构

在单声道/立体声分层编码模式时, 分层编码的基本层就是在它所分配的码率限制下通过国标DRA编码单声道或立体声;分层编码的增强层首先是辅助数据的总长度, 辅助数据内部仅包含一种辅助数据类型, 即分层编码类型。分层编码类型包括:12 bit分层编码类型长度、4 bit分层编码类型指示和分层编码扩展的有效载荷。在有效载荷的开始, 通2 bit声道模式“00”用于表示当前DRA分层编码是是单声道/立体声分层编码;有效载荷的其他部分则为单声道/立体声残差的DRA编码信息。

2) 环绕声分层编码帧结构

在5.1环绕声分层编码模式时, 分层编码的基本层就是前置左右声道对的DRA编码;增强层的结构与单声道/立体声分层的增强层相似, 但有效载荷的开始2 bit声道模式置为“10”, 并且有效载荷的其他部分为其余声道 (中央声道、超重低音及左右环绕声道对) 的DRA编码信息。

3) 低码率DRA分层编码帧结构

当在数字音频 (调频) 广播等应用中, 有时需要在一个模拟调频节目内传输多路数字立体声信号或环绕声信号, 因此要求DRA可提供更高编码效率而降低码率, 这时需要在DRA算法的基础上增加一些增强编码工具, 例如带宽扩展及参数立体声等, 实现低码率DRA编码算法。参照DRA分层编码结构图3和图4, 可以通过简单修改给出低码率DRA分层编码结构。

(1) 单声道/立体声低码率DRA分层

单声道低码率DRA分层:基本层包括单声道低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (包括带宽扩展辅助数据的长度、类型及数据) ;增强层包括图3中辅助信息长度之后的所有部分 (其中残差DRA编码也是编码单声道的低频部分的残差信号) 。

立体声低码率DRA分层:当不采用参数立体声时, 基本层包括立体声对低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据;增强层包括图3中辅助信息长度之后的所有部分。当采用参数立体声时, 基本层包括立体声对下混为单声道后的单声道低频部分DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (在数据内部包含参数立体声编码数据) ;增强层包括图3中辅助信息长度之后的所有部分。

(2) 环绕声低码率DRA分层

基本层包括左右立体声对低码率DRA编码信息 (包括左右立体声对低频部分的DRA编码或者下混后的单声道低频部分的DRA编码、辅助信息长度和带宽扩展类型辅助数据) ;增强层为图4辅助信息长度之后的所有部分 (其中中央声道C采用低码率DRA单声道编码方法, 左右环绕声道对采用低码率DRA声道对编码方法) 。

2 分层编码算法

2.1 单声道和立体声分层编码算法

图5给出了单声道/立体声分层编码的原理框图, 其中基本层为单声道或立体声的DRA编码 (图中虚线框内的两个模块带宽扩展 (BWE) 编码和参数立体声 (PS) 编码是低码率DRA编码的增强单元) , 其中DRA完全符合国家标准规范的压缩算法;增强层则是对残差信号的编码, 用于进一步改善解码信号的精度。下面主要介绍3个部分:DRA残差信号的计算、DRA残差信号量化和DRA残差信号的码书编码。

1) DRA残差信号的计算

GB/T 22726—2008国标中实现DRA的标准算法简单示意图如图6所示 (为了清晰, 特将解码端也做了简单描述, 其中解码端模块见图6的虚线框图) 。时域数据x[n]经过MDCT变换到频域得到谱系数X[k], 将频域系数分成多个子带, 对其中属于子带b的谱系数除以一个量化步长Δb, 然后取整 (nint) 得到量化后的谱系数X̂[k], 其中每个量化步长Δb和谱系数X̂[k]通过各种方式传输到解码端。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k], 对其做IMDCT得到解码后的时域系数x͂[n]。

DRA分层算法简单示意图如图7所示的中间模块。由图7可以看到, 基本层和图6的编码端完全一致, 也即完全兼容。增强层包括:取整得到的量化后的谱系数X̂[k]在增强层乘以量化步长Δb恢复出量化后的谱系数X͂[k], 然后用原始谱系数X[k]减去量化后的谱系数X͂[k], 得到残差谱系数E[k]。将残差谱系数E[k]分成多个子带, 对其中属于子带e的谱系数除以一个残差谱系数量化步长Δe, 取整 (nint) 得到量化后的残差谱系数Ê[k]。增强层需要传输残差谱系数量化步长Δe和量化后的残差谱系数Ê[k]。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k];对量化后残差谱系数Ê[k]乘以残差谱系数量化步长Δe, 得到逆量化的残差谱系数E͂[k]。最后将基本层得到的逆量化的谱系数X͂[k]和增强层得到的逆量化的残差谱系数E͂[k]相加, 并对和做IMDCT得到解码后的时域系数x͂[n]。

2) 残差信号的量化

由于残差信号的概率分布与原始音频信号的概率分布不同, 特别是0附近的小信号概率明显增大, 因此残差信号的量化算法是对DRA量化算法的改进, 主要是重新定义了量化码书1和2的都为4维Huffman编码 (其他码书相同) , 分别对应量化频谱系数的绝对值在1和2的情况, 并且重新训练并编制了新的Huffman码书, 提高了编码效率。

残差信号的量化步长采用差分编码Huffman编码方式表示 (第一个量化步长用7 bit绝对值表示) , 而DRA标准是量化步长绝对值Huffman编码方式。

3) 残差信号的码书选择及应用范围

不同于DRA编码规范中固定用5 bit表示码书段个数, 残差信号的码数段个数对平稳帧仍用5 bit, 但对瞬态帧仅用4 bit。

码书的应用范围划分进一步简化, 并且从Huffman编码改为游程编码。如果是平稳帧时, 每16个谱线为1个编码子带, 即每16个谱线用1个Huffman码书。所以1 024个谱线有64个编码子带。码书的应用范围先用5 bit表示最多32个编码子带, 如果应用范围大于32个编码子带, 则再用5 bit, 这时最多可以表示64个编码子带;如果是瞬态帧, 每8×n Block Num (n Block Num取值可参考文献[3]) 个谱线为一个编码子带, 即每8×n Block Num个谱线用一个Huffman码书。所以128×n Block Num个谱线有16个编码子带。码书的应用范围先用3 bit表示最多8个编码子带, 如果应用范围大于8个编码子带, 则再用3 bit, 这时最多可以表示16个编码子带。

对每个码书段的码书索引量化方式由Huffman编码改为更简单的哥伦布编码。

2.2 环绕声分层编码算法

与立体声分层编码算法相比, 图8所示的DRA环绕声分层编码算法比较简单。基本层是对左 (L) 和右 (R) 声道对进行DRA编码;增强层是对中央声道 (C) 进行DRA编码, 对超重低音 (LFE) 声道进行DRA编码, 以及对左环绕 (Ls) 和右环绕 (Rs) 声道对进行DRA编码。声道在编码时可能开启和差立体声模块, 一般不使用强度立体声工具。

当低码率DRA环绕声分层编码时, 其中的DRA编码替换为低码率DRA编码即可, 其中声道对编码可能开启参数立体声编码模块, 提高低码率 (例如低于128 kbit/s环绕声情况) 下的编码效率和主观声音质量。

3 DRA分层编码的试验及分析

DRA环绕声分层编码是在DRA环绕声分层编码算法的基础上通过简单调整各声道编码数据实现分层的, 仅仅引入了很少的额外辅助数据, 占整帧数据的比例很小, 因此环绕声分层编码的总声音质量和DRA环绕声相当, 环绕声分层编码基本层的主观声音质量与相应码率的DRA立体声质量一样;而DRA单声道/立体声分层编码采用残差方式, 与原DRA编码差别较大, 下面将重点分析这种情况下的声音质量比较。而低码率DRA分层编码的性能可对照DRA分层编码结果, 本文不再累述。

3.1 DRA分层编码的额外开销分析

由于单声道/立体声分层编码主要通过残差方式实现, 因此这里主要分层环绕声分层编码的额外开销问题, 表1给出了48 k Hz采样率下不同典型码率时环绕声分层编码额外开销情况。由于DRA帧长是32比特的倍数, 以及基本层和增强层具有同样的长度, 同时应用中实际比特率一般应低于典型设置的比特率, 因此表1中给出了实际比特率。

3.2 DRA分层编码性能客观测试结果

考虑到DRA分层编码属于感觉音频编码技术, 因此基于心理声学模型的客观测试软件能够较准确地衡量这种编码算法。主要测试条件及内容如下:

1) 测试软件:本文采用基于ITU-R BS.1387标准[4]的商用客观测试软件CRC-SEAQ。

2) 测试音频片段:12个48 k Hz和16 bit量化的MPEG立体声测试序列。

3) 码率:DRA分层@64 kbit/s基本层+64 kbit/s增强层和DRA分层@64 kbit/s基本层。

4) 输出:客观差别分ODG (数值越接近0越好) 。

测试结果如图9所示, 其中前12列分别对应12个不同的MPEG测试序列, 最后一列为12个测试序列得分的平均值。上面的折线表示DRA分层编码ODG分数, 下面的折线为DRA分层编码中仅仅解码基本层所获得的ODG分数。可以看到仅解码DRA分层编码的基本层可提供基本的收听质量, 通过增强层解码可提高约1分的平均分, 能够进一步明显提高总的主观声音质量。

4 DRA分层编码的应用示例

在数字音频 (调频) 广播应用中, DRA分层编码应用如图10所示, 通过DRA粗分层音频编码算法将输入的数字音频信号编码分为基本层和增强层两组数据, 通过非等错信道编码可对基本层给予强误码保护, 对增强层给予弱保护;或者通过分层调制技术使得基本层和增强层有不同的抗干扰能力;最后通过发射机播出。由于 (调频) 广播信道一般为无线信道, 除了随着距离增加信号自然衰减之外, 还受到各种衰落、遮挡、电磁干扰等, 在接收端通常无法完全正确解调被干扰的信号, 可用功信道解码降低误码率。如图中用户1的情况, 接收环境比较差, 只能正确解码基本层, 如果广播的是环绕声节目, 则用户1可收听高质量的立体声部分;如果广播的是立体声节目, 用户1将接收到基本质量的立体声信号。用户2有良好的接收环境, 可完全解码基本层和增强层, 这样用户2可收听高质量环绕声广播或者高质量立体声广播。

5 结论

本文提出的DRA分层编码是基于DRA技术而开发的一种新的编码算法, 主要特点是DRA分层编码提供了一种新的粗分层码流结构, 并且由于DRA环绕声分层编码仅仅是通过引入小于1%的额外开销控制多声道编码数据重新组织而实现了分层, 保证了环绕声分层编码质量基本无下降;DRA单声道/立体声分层采用残差再编码的技术实现的分层, 客观测试表明DRA单声道/立体声分层编码可在基本层的ODG分数上通过增强层进一步明显改善大约1分。由于DRA分层编码是通过DRA编码算法中辅助数据的扩展来实现, 因此DRA分层编码与DRA编码兼容, DRA编码可完全解析基本层数据。DRA分层编码特别适用于数字音频广播, 可与非等错信道编码和分层调制技术完美结合, 提供最佳的收听效果。

参考文献

[1]ISO/IEC 14496-3, Information technology-coding of audio-visual objects-part 3:audio[S].2004.

[2]GY/T 268.1, 调频频段数字音频广播第1部分:数字广播信道帧结构、信道编码和调制[S].2013.

[3]GB/T 22726—2008, 多声道数字音频编解码技术规范[S].2008.

对于我国数字音频广播发展的思考篇9

关键词：网络,数字广播的数字化,转型

目前无线电广播在全世界范围内的转型速度飞快, 以往的模拟技术正向数字化转变, 由于地域的不同, 转型的方式也是千差万别。由于这些年技术方面的不断进步, 数字音频广播取代传统的模拟广播已成必然, 纵观当今世界数字音频广播节目的制作, 国内的数字音频广播工作明显不足, 这方面的发展力度必须加大, 从而早日实现其在国内的全面推广。

1 数字音频广播的特点

首先来讲数字音频广播最大的特点就是极大地改善了音频的质量, 其次是提高了频率的使用效率, 还能为数据提供附加的通道, 伴随着图片、文字等诸多的媒体信息。由信源和信道两大部分组成了数字广播信号的发送, 经过编码的数字视频、音频和多媒体数据信号, 通过复用电路转化为信源信号, 通过相应的信道才能进行最终的输出。

基于由所述内容提供数据的附加信息可以被大致分为两类:首先, 程序无关的附加信息, 例如天气、新闻、安全、交通、紧急的广播等, 第二个则是与广播的节目相关的信息附加的业务, 诸如此类的数据业务一共分为四大类:首先是提示类的相关信息:如EPG, 英文Electroni Program Guide的缩写, 中文翻译是电子节目指南, 个性化的电台, 滚动的标签以及订阅方面的服务, 标识和状态的显示等;其次是广播实时录制的播放服务和回放的功能, 用户可以随意收听;第三条则是文字的相关信息:如音乐播放的信息、歌词以及节目中的新闻标题和摘要等, 最后一类是图像的相关信息, 主要包括有视频的片段、相关节目的图片之类相关的信息。在视觉上具有相当大的冲击力。通过Journaline (一种针对低比特率需求而特别提供的分级分类的以文字滚动方式显示的信息服务) 可以显示相关的附加信息, 除此之外, 也可以用幻灯片的形式来呈现, 极个别复杂的运用网站的形式来显示。

2 数字音频广播面临的困境

2.1 来自移动互联网的冲击

近年来移动互联网技术不断进步, 3G技术方兴未艾, 4G技术将粉墨登场, 通讯运营商以强有力的制高点迅速占领所有涵盖多媒体业务的传播领域, 广播媒体也借此纷纷构建自己的新媒体系统, 实现智能手机移动接收广播节目的应用。从某个意义上讲, 流式数字广播已经在移动互联网中呈现出来, 丰富的内容和可选择性, 以及有效的互动更贴近用户需求, 而智能终端更是日益普及, 因为人们并不介意花数千元购买性能优异的智能手机, 合理的资费和流量并不阻碍用户使用手机收听流式广播。面对移动互联网流式广播的冲击, 我国数字音频广播的发展处在关键时期, 若不加快发展, 听众市场将会受到不断的挤压。

2.2 数字音频广播与多媒体广播之争

我国DAB广播还未获得市场广泛认可时便迅速过渡到DMB数字多媒体广播, 从商业应用角度看, DMB提供的多媒体业务比DAB单纯的音频广播更有市场应用价值, 似乎更能吸引用户, 但经过几年的发展, 这种SDTV标准清晰度的电视服务并未得到市场的广泛认同, 一方面接收终端价格难以使人们接受, 即便定位在公交移动视频广播上, 也因缺乏市场有效投放, 使得运营难以为继。

无论是DMB还是CMMB, 都属于多媒体广播, 从系统的构建到商业运作, 都没有呈现出要逐步取代现有模拟广播而向数字音频广播发展的态势, 在管理和运营模式上使得数字多媒体广播与数字音频广播分属两个不同的数字广播体系。在我国, 无线广播有着重要的社会地位和影响力, 拥有坚实的社会基础和广播机构, 深受广大群众喜爱, 是国家重要的宣传工具。我国声音广播的数字化应当要有自己的模式专属发展。

3 探索数字音频广播的发展

3.1 附加数据广播的合理应用

目前来讲DRM+和HD RADIO的设计都是以替换模拟AM和FM广播为目的的, 同一频率可以提供许多数码节目和附加的数据服务是其最大的特点, 主要的载体仍然是语音广播, 这与CMMB和DMB多媒体广播迥然相左。所以, 为了避免FM广播的数字化重复建设, 多媒体业务无需过多地进行考虑, 而对于新闻、广告、天气预报这样附加的数据服务信息应当充分地运用数字广播, 并以图文的形式呈现在我们的眼前, 对于数字音频广播内容的可读性和可听性来讲是质的飞越, 从而达到广播媒体以音频节目广播为主的最终目的, 互联网和新兴媒体的运用可以推进广播媒体有关视音频多媒体业务的发展。

3.2 知识产权是唯一的出路

中国高端电子技术在近年来得到了很大的进步, 自主创新对相关的企业来讲至关重要, 注重自主知识产权的发展, 促动行业施行新的标准。目前国内对于数字电视, 移动多媒体广播技术以及高清电视的标准已然完备。目前中国是世界FM收音机使用最广泛的国家之一, 制定具有我国特色的数字音频广播标准是必然的, 对于自主知识产权的技术的开发, 音频编解码技术和广播信道的制式是难点, 我们必须克服困难, 勇往直前, 才能有效地推动数码声音广播在中国的快速发展。

3.3 实现广播可视化

3.3.1 内容的可视化

运用技术将广播中的声音转换成为文本信息, 我们可以实现听、读同步。这样一来不能详细在广播节目中予以介绍的内容直接呈现在听众的眼前, 如视频剪辑的画面, 图片和文字这类的信息以方便观众的查询。举例来讲, 当我们在观看NBA的赛事直播的时候, 我们可以在线点击了解每一位球员的个人信息, 对球场的描述和球队的胜败率也都能了如指掌。不仅如此, 当我们在播放音乐的时候, 可以选择边看歌词边欣赏美妙的音乐, 这相当于我们在家就能唱卡拉OK, 极大地丰富了老百姓的业余生活, 过去我们听一首歌, 往往不知道唱歌的人是谁, 而现在, 歌曲信息, 歌者的信息都在眼前了, 所以现在说音视频及图文资源的充分运用, 为我们实现了节目的直播与点播, 广播也实现了存贮、下载、查阅的功能。

3.3.2 节目互动可视化

过去的广播是通过热线电话与网站BBS互动这种文字的方式来与听众进行联系的。而现在开辟记者嘉宾访谈网络视频互动、多媒体博客互动等新领域才是现代广播的发展方向。电台节目应当与手机和互联网等这样的新媒体之间产生互动, 这样才能更好地发展现代的数字广播技术, 实现主持人、嘉宾与听众的在线互动, 这样一来可以很好地拉近听众与主持人之间的距离, 使得广播更加亲民化, 从而实现数字广播的全面推广。

4 结语

总而言之, 通过这些年来对数字广播技术的持续摸索, 我们老一辈的开发人员不怕困难, 不惧艰辛为我们今后的开发打好了坚定的基础, 再加上现代的科研人员的创新思维, 共同推动着数字广播技术的发展。我们共同期待着数字广播技术早日实现在全国范围内的推广, 具有自主知识产权的能被我国广播行业所广泛认可的数字广播时代就要到来了, 我们马上就可以享受到数字化广播为我们带来的高品质服务。

参考文献

[1]吴彝鼐, 董年初.数字音频广播 (DAB) 的发展现状及战略思考 (上) [J].广播与电视技术, 2012, (4) .

[2]吴彝鼐, 董年初.数字音频广播 (DAB) 的发展现状及战略思考 (下) [J].广播与电视技术, 2012, (5) .

【音频技术发展】推荐阅读：

音频处理技术09-02