音频管理

2024-06-08

音频管理(精选12篇)

音频管理 篇1

摘要:大型客机的音频管理系统包括了飞机上所有的音频信息, 主要有通信和导航的音频、告警音频、座舱和维护内话音频以及驾驶舱音频记录器的音频信息等。这些音频信息用于飞机外部通信、内部通信以及告警等功能。

关键词:大型客机,音频管理,音频控制,耳机,扬声器

一、音频管理系统概述

大型客机音频管理系统一般为驾驶舱机组人员提供了2套音频管理装置及3套音频控制板 (ACP) , 并且配备了头戴耳机组、氧气面罩话筒、手持话筒以及驾驶舱扬声器等外围设备。音频管理系统主要对飞机上音频信息的管理与控制, 与通信、导航和驾驶舱语音记录器 (CVR) 之间存在信号交联, 并且配备了与飞机所有音响告警系统的接口。音频管理系统具有足够的独立信道和信号处理能力, 还具有应急工作模式, 满足安全性、可靠性要求。

二、典型的大型客机音频管理系统设备

2.1 音频管理装置。

一般大型客机的音频管理系统包括两套音频管理装置, 用来进行无线电数据的集中, 双套无线电管理, 和双套无线电横向控制功能。作为数据集中器, 音频管理装置与每一套无线电系统均有接口。每一音频管理装置从本侧每一无线电系统收到至少一个输入。在音频管理装置内为无线电数据集中, 每一音频管理装置提供两个独立的数据通路 (主和次) 。

音频管理装置从音频控制板 (ACP) 以及其他的飞机音频源接收音频输入。在音频管理装置中把所有的模拟信号和数字信号进行转换, 使其混合并加以控制。

2.2 音频控制板。

典型的ACP的控制键通常按功能分成通信收发区、导航接收区和主要控制器三个区域, 如图1为A320的音频控制板。

2.2.1 通信收发区。

通信收发区包含COM1、COM2、COM3、HF1、HF2、CAB和PA的发射选择键和音量控制旋钮。当按下某个无线电收发机所对应的发射选择键, 该无线收发机即被选中, 按钮上面的绿色LED指示灯点亮 (在同一时间只能选择一套无线电收发机) 。对应的音量控制旋钮并旋转它可以调节接收到的通信信号的音量。

2.2.2 导航接收区。

导航接收区包含VOR1、VOR2、LS、MKR、ADF1和ADF2的控制旋钮。这些控制旋钮用于导航接收机的选择和音量调节。如果一个导航接收机被选择了, 就会对与其相关联的语音和ID音调进行监控。

2.2.3 其他按键。

按压发话开关 (PTT) 是瞬时开关, 通常位于中间位置, 表示断开;按压驾驶盘PTT发话开关到RAD位置, 将键控已选的收发机;按压到INT位置, 将键控飞行内话。ON VOICE键允许机组抑制音频导航信号 (VOR, ADF) 。RESET键用来复位相关的呼叫信号灯。

2.3 外围设备

2.3.1 音频插孔板。

大型客机配有3个音频插孔板, 分别供正驾驶、副驾驶和观察员使用。音频插孔板上的插孔供头戴耳机组使用。

2.3.2 头戴耳机、手持话筒。

大型客机一般配有3副头戴耳机, 3个手持话筒, 分别供正驾驶、副驾驶和观察员使用。

2.3.3 驾驶舱扬声器。

大型客机的驾驶舱一般配有2个扬声器, 位于天花板, 供驾驶员监听音频信息。

三、结束语

本文主要介绍了典型的大型客机音频管理系统的组成及相关设备, 在设计大型客机的音频管理系统时, 我们应借鉴国际上典型的设计理念进行设计。

音频管理 篇2

电脑没有音频设备的解决方法(根据步骤逐一检查,可能会帮助您找到问题所在):

第一步:检查声卡驱动是否正常,鼠标右键点击“我的电脑”——>选择“属性”——>从“常规”切换到“硬件”选项卡中——>点击打开“设备管理器”——>展开“声音、视频和游戏控制器”前面的+号——>查看第一项和第二项是否出现感叹号或问号,亦或是第一项直接显示“传统视频捕捉设备”,出现类似情况都表明声卡驱动安装不正常,请直接按A步操作——>如果显示有音频设备的型号参数,但上面出现一把红色的叉,请按B步操作:

A步:声卡驱动不正常或未安装解决起来也简单,首先百度搜索“驱动精灵”——>下载安装后打开驱动精灵——>在“基本状态”中,程序将自动检测当前有问题的驱动程序——>然后点击“升级驱动”,驱动精灵全程自动下载安装驱动程序,傻瓜式操作,非常简单——>等到驱动程序安装结束,重新启动计算机即可,如果“没有音频设备”的问题依旧,请接第二步; B步:声音设备上出现一把红色的叉,表示驱动程序可能是正常的,只是用户停用了音频设备所导致的,仍然在“设备管理器”中——>鼠标右键点击显示红叉的项目,然后选择“启用”即可,将所有带小红叉的项目都启用;

如果“没有音频设备”的问题仍然存在,请接第二步;

第二步:启动“windows声音服务”,点击“开始”菜单——>选择“运行”——>在运行中输入“services.msc”(不含引号),点击确定打开“服务(本地)”窗口——>在右边窗口中下拉滑动条,找到“Windows Audio”服务——>双击鼠标左键打开该服务——>将“启动类型”设置为“自动”——>再点击“服务状态”下方的“启动(S)”按钮,启动“Windows Audio”服务——>最后点击确定退出;如果“没有音频设备”的问题仍然没有解决,请看第三步;

第三步:经过上述操作之后,如果问题依旧,请先使用360安全卫士、金山毒霸等杀毒软件对计算机进行一次全盘扫描杀毒,扫描完毕之后在使用第一步的方法安装驱动程序,如果仍然显示“没有音频设备”很有可能是声卡硬件损坏造成的,您可用尝试更换一张独立声卡后重新安装驱动程序,或者将电脑送指定维修点维修。

音频管理 篇3

关键词:音频工作站Pro Tools 5.1 声道环绕立体声

中图分类号:TP39文献标识码:A 文章编号:1007-3973(2010)06-055-02

随着时代的发展,计算机技术发生着翻天覆地的变化,音视频技术也实现了从模拟到数字的飞速转变。经过多年的发展,Pro Tools音频工作站近年来已成为音乐、广播、电影、电视中数字音频制作的标准。 同时提供了世界上功能最强大的,基于TDM技术的实时数字信号处理技术,并拥有众多第三方插件的音频效果处理功能。使其成为音频制作行业、电影电视领域、广播及多媒体制作领域中的标准平台。

那么怎样利用Pro Tools音频工作站来完成5.1声道的音频制作呢,首先我们来了解一下什么是5.1声道。

1什么是5.1声道

从数字编解码格式标准来分,5.1 声道环绕立体声目前主要有美国Do1by标准、DTS 标准和世界标准化组织的MPEG2-AAC标准,其中以Do1by系列和DTS系列应用最为广泛。

自20世纪50年代开始研究环绕声以来,环绕声录音格式也从过去的LCR、Quad、LCRS发展到现在的5.1,6.1,7.1甚至更高。杜比数字可在占用较小带宽的前提下完成优质的5.1 声道环绕声编码,现已成为高清电视、数字广播、DVD Audio等世界范围内的音频标准。Dolby与DTS系列中的一些最新编码技术也已经成为下一代数字电影院和蓝光盘的事实性标准。

近几年“高清”概念不断成为人们关注的焦点,作为音频“高清”标准的5.1 声道环绕立体声已经成为现代影视声音制作的标准规范,它给影视作品带来了前所未有的震撼力和感染力。一些比较知名的声音录制压缩格式,譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的,其中“.1”声道,则是一个专门设计的超低音声道,这一声道可以产生频响范围20~120Hz的超低音。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。相信每一个真正体验过Dolby AC-3音效的朋友都会为5.1声道所折服。

5.1采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音,使人产生犹如身临音乐厅的感觉。而所谓5.1声道音箱,“5”是指2个主音箱(前置音箱)、2个环绕声音箱、1个中置音箱共5个音箱,而“.1”是指超重低音音箱,用于进一步烘托环境,还原标准配置的5个音箱不能很好重放的超重低音(一般100HZ以下),也称低音炮。

2Pro Tools音频工作站的概念

由美国DIgidesign公司出品的Pro Tools系统是当今世界上应用范围最为广泛的计算机音频工作站。大到顶级的录音棚,小到个人的录音间,你到处都可以看到它的身影。

Pro tools是一套真24位,综合了数字录音、编辑、处理和混音的音频工作站。 自从它问世以来,Protools|24正逐步改变音频工作者的思路。过去常用数小时的工作现在只需几分钟的时间就能完成。以前有限的工作需要建立在大量预算的基础上,而现在极具创造性的Protools|24对音乐或者音频进行后期制作即可实现。Pro tools音频工作站的出现大大提高了音频的创作效率。

迄今为止,尚未有另一个系统可以象Pro tools一样提供如此全面,如此强大的编辑工具,这些功能远远超出了基本非线性编辑中对音频进行剪切、复制、粘贴一类的简单功能。Pro tools软件具有单键编辑的操作功能和各种高效的操作方式,利用它们对制作内容进行组织、操作、查看非常便捷。每个工具都是按照录混音实际操作的需要精心斟酌设计。

3利用Pro Tools音频工作站完成5.1声道的音频制作的系统流程

Pro Tools音频工作站是目前最先进的工作站之一,那么这样的工作站怎样来完成5.1音频节目的制作?一个优秀的数字音频工作站,应该能为创作人员带来前所未有的便利性和灵活性。以下,本文将从前期准备、后期编辑、放声系统的设置与调校三部分对环绕声系统使用流程进行详细说明。

3.1前期准备

由于环绕声节目的制作比过去的立体声要复杂得多,所以不能将制作立体声节目的理念沿袭到制作环绕声节目中。5.1环绕声的拾音一般要求录制信号应具有宽频带、高信噪比、大动态和高量化精度和采样频率等特征。只有这样,记录下的声音才能更好地对原始信号进行还原再现。专业声卡一般提供较低的延迟,较容易实现多轨同步录音。

Pro Tools软件具有符合专业要求的声音录入和播放。所谓的专业要求,也就是说从指标上最低应该采用16-bit、44.1kHz的音频格式,频响范围应该达到 20Hz~20kHz,而动态范围和信噪比都应该接近90dB或更高。

其次,能够同时播放至少8个音频轨。由于可以进行同步分轨录音,所以计算机音频工作站能够同时录入几个音频轨似乎并不显得十分重要。但作为计算机音频工作站至少应该可以同时播放8个音频轨,以满足2轨人声、2轨立体声MI DI音乐、l至2轨声学乐器 、2至3轨单独电子音色的需要 。

3.2后期编辑混缩

5.1声道节目在音频工作站Pro Tools系统里可以进行编辑缩混。在ProTools下,我们能够用耳朵、眼睛、手并用去做混音,使这一过程变的相当容易。ProTools 软件的工作界面允许对混音的各个方面进行处理,软件和控制台之间共享信息,您做的每一项操作在两者之间是相互映射的。电脑系统对混音数据进行处理,而您可利用直观的ProTools用户界面去操作具体的混音步骤。ProTools软件提供了多种可变通的方法进行控制和制作自动缩混。所有处理都是非破坏性的,并在可恢复的友好环境内完成。而在一些特别的音乐节目制作中,你也无须离开ProTools环境就可制作环绕声。ProToolsTDM软件能够混录多种流行的环绕声格式——包括LCRS,5.1,6.1,和7.1格式,——并且可几种环绕声格式的制作可同时进行。一旦完成了session的环绕声混音,您就可以将混录的session 交付给您的客户了。ProTools可以同时将声轨分配给多个输出目标,从而提交不同需要的文件格式。它通过共享多个不同混音格式的声像信息完成这个过程。例如,如果您是按7.1格式做的混音,您可以通过分配系统的多重输出,获得一个5.1或立体声混音。这让您可以同时制作多重混音格式。

4总结

显然,利用流行并享有盛誉的Pro Tools音频软件来完成对5.1声道的音频制作是极佳的选择。但是5.1 声道环绕声节目制作目前还处在发展阶段,面临的困难也比较多,要走的路也很漫长。希望通过本文能提供给音频爱好者关于Pro Tools软件的信息以及对5.1 声道环绕声节目制作工艺流程的一个参考。

注释:

顾肖联.电视音响创作技巧[M].北京:中国广播电视出版社,2004:282-299.

胡泽,雷伟.计算机数字音频工作站[M].北京:中国广播电视出版社,2005:439-454.

韩宪柱,刘日.声音素材拾取与采集[M].北京:中国广播电视出版社,2002:179-194.

张伟,刘晋芳. 基于计算机的5.1 声道音频工作站系统构建[J].北京:中国现代教育装备出版社,2009年第6期:64-66.

发射机音频切换管理系统的设计 篇4

关键词:广播电视,音频信号,自动控制

信号源系统是发射台的重要播出系统之一,为了减少因信号源系统故障引起的安全事故,发射机房安装主备音频节目源自动切换系统显得非常有必要,以确保在主音频节目信号源故障无信号时,自动投入备用节目源,确保发射机正常播出。然而,音频信号是个随机信号,要想使用一种简单方法来完成主备音频节目信号自动切换是一个比较困难的事情。

目前,吉林省广播电视技术中心台引进了9台音频自动切换器,采用主从模式播出,当第一路信号源无故障不中断的情况下,一直采用主路信号源;当主路信源信号中断时,自动切换至备路信源,这就衍生出了一个问题,当主路信源没有发生中断而被恶意信号取代或发生其他不适合使用主路音频信源时,切换器不能自动切换至备路信源,而切换器硬件上也缺少切换至备路信源的装置。这样我们只有采用上位机远程控制切换器,在上位机上设计一套音频手动自动音频切换系统软件,这样不仅实现了主备信源之间的自由切换,而且能够把9台切换器的信号切换操作集中于上位软件,极大地降低了值班员的值班难度,从而保证发射台站安全优质高效播出。

1 音频切换管理系统构成

本文介绍的音频管理系统主要由5个部分组成,包括电源、音频信源接收、自动切换、上位监控和音频信号发射网络部分组成。

电源主要是用UPS提供不间断供电,以保证音频切换系统设备的电源供给。

接收系统主要由光缆和微波信源解调器、功率分配器组成,用于完成光缆45 M信号和微波信号的接收和解调,把音频信号送入切换器。

自动切换部分是本系统中的核心部分,主要由自动切换器、远程音频切换软件和网口集线器组成。自动切换器是本系统中最重要的设备之一,它能自动检测音频的信源信号,并提供两路音频信号的输入,在主路信号中断时,能自动切换至备路信号源,从而保证节目不间断播出。

上位监控部分主要是监测主备信源接收信号,值班员可以在监控界面清晰地看出各路信号源的情况,并能自由选择手动模式和自动模式。当上位软件所有频点都处于自动模式时,则相当于切换器的主从模式,即优先使用主路信源,主路信源中断时能自动切换至备路信源;根据各种需要必须使用备路信源时,值班员在监控软件上将模式调整为手动,选择所需要的信源种类即可。

音频信号发射网络主要是由音频调制器混合器和信号传输网络构成。

经过上述音频管理系统的处理之后,信号经过切换器至分配器最终经发射天线传输到用户终端。

2 系统主要技术特点

2.1 多路信源输入输出

每台切换器可以在四路输入信源之间进行切换,并同时提供两路L、R音频信源输出,并使信号进入下一级分配器。

2.2 主路断电直通

当切换器断电后,主路信号(第一路信号)仍然可以正常输出,保证广播不间断播出。

2.3 多种切换方式

本套硬件系统中,只适用于自动切换且采用信号顺序为主从模式,为此我们研发设计了音频切换软件系统,在此上位机软件系统中,切换器有两种切换方式:手动和自动。鼠标单击窗口中的手动或自动模式按钮,可以选择手动或自动模式。系统开机默认自动模式采用主路信号源。在自动模式下,默认采用主路信号源,当主路信源中断时,自动切换至备路信号源。手动切换适用于人工选择信源或其他需要。在手动模式下,可以对任何一路信源进行切换,并对各路信号进行实时监测。

在切换器的这两种模式下,手动模式具有较高的优先级,即如果采用手动模式输出信号时,自动方式失效,即使所用的信源中断也不会自动切换至正常信源,所以需要谨慎使用手动模式。在广播电视发射台,一般都是在特殊情况下使用切换器的手动模式。

2.4 设备的统一管理

目前国内发射台都拥有十几台切换器,而且有很多有不同的厂家和型号,在硬件上操作不仅费时费力而且安全系数不高,音频自动切换管理系统软件的实施大大改善了这些不足,在同一个软件界面下,设备便于统一管理,同时也大大降低了值班员的工作量。

3 结语

音频切换系统软件的研发使本地所有切换器便于集中管理,设备快速响应,操作简便,提高工作效率,一旦音频主路信号中断,切换器立即自动切换至备路信号源,当主路信号恢复正常后,切换器又可以立即切换至主路音频信号,有效地避免了电视节目突然中断事故,即使切换器设备在故障情况下也能断电直通,对提高广播电视安全优质不间断播出提供了有力保障。

参考文献

[1]徐文革.视音频切换器集中控制系统的设计与实现[J].中国有线电视,2009(9)

高通音频调试总结 篇5

----夏珊珊

之前会议电话项目我们设计的方案是:外部的codec内带音频处理dsp接6270模块工作。外部codec+6270与高通的codec+dsp工作方式大致相同。所以调节音频的工作原理可以以高通内部的原理来作依据。

在调节会议电话的时候我们遇到了一个很大的问题,底噪。我们在这个问题上纠结了很久。调节了mic的滤波电路,高通的AGC参数,TX,RX filter 参数,都没有明显的改善,后来我们把mic断开接地,发现tx端还是有很大的噪音,截取输入到高通的音频噪音比较明显,从而我们确定了这个噪音是由外部的codec所引入的。调整音频的时候分析噪音来源比较重要,这样相应调整各部分增益来使噪音源影响尽量减小。

对于噪音处理,发现不管使用高通的AGC压制噪音还是使用外部CODEC带的DSP处理噪音都对音质有很大的损伤。所以建议在调整音频之前先最大限度的保证结构和硬件设计的优化性,毕竟软件可以对数字噪音处理比较理想,但是对于模拟噪音就不是万能的了。具体对于噪音的处理后续会在文档中提到。

高通音频通道及调整

基本概念

回音:Near end 端不说话,far end说话了后经过上图的path,经过喇叭播放后在空中回荡,又被mic收回去,在far-end听到了自己的声音。

Echo path:从Echo Canceller出来,经过gain、a/d转换 到speaker 经外面的环境,然后又被mic收回,通过一系列的通道到Echo Canceller。

Acoustic echo path:从speaker 出来,在环境中回荡后再进mic

从上图可以看到:

如果TX进来的ECHO跟我们估测的ECHO相近,Ataptive filter相减TX进来的echo可以消除回音。

Ataptive filter:用于模拟echo。

PCD(Path Change Detect):当使用者在移动,acoustic echo path也会改变。SPDET:用于检测是far end speaker讲话或者near end speaker,防止near end speaker讲话的时候被抑制掉

理想的状态是TX进来的echo,跟我们估测echo相近,相减就为0,但是实际上不可能,所以需要一个DENS消除非线性的回音,我们选择0~4KHZ是因为这个范围的声音是人声范围。

调整顺序:

设置音量等级和AGC gain→EC gain和 limit→codec和mic的gain→Ec parameter。高通的default volume 基本上可以使用于各个普通的场合。

AGC gain 我们首先调整外围的gain,比如tx agc、txvolume,AGC处理噪音比较有效,但是会相应的牺牲tx端的音质及音量大小。如果这个噪音会随着Rx_Volume变化,在拔出手柄或者静音Rx_CODEC_GAIN(0x0000),噪音明显减弱,那么这个噪音是数字噪音,可以使用RxAGC减弱,具体的操作方法是:

 设置Rx AGC工作在静态增益模式(compFlinkAIGFlag=0x0000); 减弱‘rx_agc_static_gain’为0dB(compFlinkStaticGain=0x2000); 增加‘rx_agc_exp_thres’ 到-40dBm0mu(expFlinkThreshold=0x1180).同样TX端的数字噪音也可以调整TX AGC 消除,调整的方式于RX AGC相同。在音频通路上,建议调整增益的地方是codectxgain 和txvolume,这样做的目的是防止送入codec处理的音频信号太大出现削顶失真,使EC无法很好的模拟回音并处理掉回音。所以我们尽量在EC处理完毕后对信号进行放大。

EC gain和limit 外围的gain调整完毕后调整EC block gain(input gain、output gain)在调整的时候,rx volume 是调整到最大处理,这样做为了避免rx 方向上声音太小,扬声器声音不够大,不易于测试回音。

Nlpp limit:当input太大的时候,rx收到的声音特别大声,但是spk不总是这么大声,这样使ECHO收到的东西太多失真,设置limit的话使突强的时候使进入EC的echo不要太多。AF limit:控制TX方向的,EC 无法收敛,或者收敛的速度太慢,收到的东西突强太多,这样使用limit 解决,用于限制突然大声的信号。

Codec及mic的gain 随后设置codec和mic的gain,文章开端曾提到若模块有噪音,噪音的来源必须找到,并相对于此来设置codec及mic的gain。我们的应用噪音是来自于codec芯片本身,所以对于mic增益的降低对噪音是没有益处的,因为噪音会随着ADC的放大而放大,衰减而减弱。Mic增益小,相对的ADCgain必须放大才能让tx端听到清晰的声音,这样反而把噪音放大了。所以为了让产生的噪音最小,我们尝试把mic的增益放大,ADC gain衰减来减弱噪音,达到比较好的效果。所以调整这部分的增益需要根据具体的情况,具体的模块相应调整。

Ec parameters 对回音来说,结构及材料也有很大的影响因素。我们在设计的时候必须要考虑到这些因素才能更好的实现音质效果。比如SPK与mic必须尽量的拉开距离;mic腔体不能太大,mic使用专门的泡膜包起来;机壳的材质最好使用吸引的材料,防止大声音播放的时候机壳震动影响mic等等,这些在前期的时候最好设计考虑到。

关于EC参数,高通有几组默认的回音参数,从Speaker phone 到bluetooth 几个等级。通常尝试的时候从普通的模式到aggressive尝试,ECHO canceller的肯定会伤害到double talk的能力,所以可以不用不压抑太多就不要压抑太多。如果尝试模式的参数没有echo,就选择压制的比较小的那组参数。总之是在Double talk 和echo canceller取得一个平衡。

细调

如果使用aggressive那组参数,echo还是没有消除,那么查找echo path delay Echo会随着echo path改变,echo path有长短。当echo path delay设置不好,会使echo收敛不好。

如果不知道要设置多少的话就先设置为0,然后慢慢向上调整。

调整进入AF的参数

调整进入AF的两个进入EC的input的大小,他们的大小关系必须在一定的范围,AF才能正常的收敛。

X[K]> Z[K],AF才能正常的收敛。从网路端送来的信号,ECHO是从环境处理后的声音,肯定是稍微有点小,但是如果经过codec处理后就可能比X大,那么就使用Inputgain降低,然后增大OutputGain。

EC已经收敛了,如果有非线性的echo无法消除,通过设置 DENS_tail_portion: DENS_tail_alpha: DENS_NL_atteu:

这几个参数设置越大,echo 消除能力越好,但是影响double talk 高通给出的参数适用于大部分的场合,只需要在默认参数的基础上微调就可以了。这些参数的调整如果使用工具调整就比较方便了。下面就讲讲音频调试工具。

音频调试工具

音频调试工具的比较(这个是引用了钟明同学的文档,他的高通文档讲解的比较清晰了,我对其引用补充下吧 O(^_^)O)

AT Command: 引用了6100的使用的AT命令作个简要的介绍。设置回音的ECHO命令AT+ECHO和AT+ECHO1可以设置回音的28个参数。

AT+CLVL: 音量级别设置 AT+RXVOL: RX端音量设置 AT+CMUT:静音设置 AT+CMIC: mic音量设置 AT+SIDET:侧边音设置

AT+ECHO:设置手持与免提模式下的回声各个参数 AT+ECHO1:设置蓝牙耳机与普通耳机的回声参数

QACT 需要导入正确的audio_cal.xml,通常这个文件在工程里带有 使用步骤

1.配置QPST,使使端口出现在active Phones tab。

如果设备没有连接上或者XML文件导入错误,在QACT v1.x的版本会弹出这个窗口。表示只能在PC上调整,而无法在线的把数据导入到模块。

导入正确的xml文件

如果连接成功,可以看到以下图片,选择“否”,也就是不把XML 中默认的结果导到模块里面去。(我们这里只是调试,不要导入.XML 中默认的值)

我们在里面会调整的比较多的是: 调整codec的gains

Graphical拉AGC 参数,从Data获取参数

拉TX,RX filter 曲线

选择对应的path,device,拉出曲线后可见右边的7个参数,对应于代码里voc_pcm_path_cal_type结构体中的tx_iir_filter。

QACT在线调试必须通话挂机后才生效。而且拉TX,RX filter无法模拟模块里原来的声音曲线,调节音质曲线个人比较倾向于使用Qfilt。

QFILT 使用音频分析仪器获取未处理的(TX/RX filter全部设置为0)频响曲线。把这个曲线数据保存为*.EXP格式。

之前在龙旗做测试的时候发现使用仪器获取曲线数据无法直接保存为.EXP格式,保存为.ASM格式,将保存的数据去掉100之前及4000之后的数据,加上固定的格式如下:

# 09-27-06 15:32:32.49 Hz dBPa/V 100 0.239521 105.83 0.174744 112 0.105024 118.322 0.0793721 125 0.0562545 132.288 0.0526554 140 0.0522274 149.666 0.0886258 160 0.144394 169.706 0.17004 180 0.128156 189.737 0.0954074 „„„„ 3768.29 0.286294 4000 FAIL 保存为.EXP格式,红色的是RX的首尾固定格式,Tx的首尾固定格式如下:

# 09-29-06 15:05:11.04 Hz dBV/Pa „„ FAIL 使用QFILT导入对应的RX或者TX数据,导入数据之前必须配置右边的相关设置。选择Test Mode,Test Class,Test Path及Filter Type 0.676438

导入文件后的初始化曲线,这个曲线跟使用仪器测出来的频响曲线一致。

通过调整滤波曲线后的图如下:绿色是调整后的曲线,黄色的是原始的曲线,红色的滤波器的调整曲线。我们调整曲线的目的是确保调整后曲线在两条白色的曲线之间,且比较平滑。

调整到合适的曲线则点击Get Cofficients 获取调整的参数

在实际测试的时候如果把这个参数写入程序然后编译下载效率太慢了,这个时候可以直接使用QDV把这些实时的数据写入到模块,在通话的过程中实时生效,使用测试仪器测试使用调整后的参数曲线是否能通过测试。

QDV QDV使用需要导入正确的rpt文件。这个文件可以跟高通提SR获取。

之前遇到使用了错误的rpt文件导致有些参数设置不正确,所以一定要确保使用正确的文件。

启动QDV,首先看到以下的界面:

MEMA , MEMB , MEMC , MEMI值一定要设置正确,这个值可以通过查看代码获取。设置完成后进入以下界面

它的工具条如下所示

选择导入.rpt文件。

选择完.rpt文件后 点击 打开一个Text view 界面,右击选择需要修改的参数。

选择new可以导入一个新的参数。

导入后如图,选中变量后点击

可以修改变量值。

音频文件巧压缩 篇6

编辑后再转换

这种方法通常用在音乐文件本身太长的情况下,做铃声只需要截取高潮部分即可。打开Windows Movie Maker,简单了解一下软件的各个工作区。

然后再导入你要编辑的音频文件。导人完成后将这个文件拖到下面时间线的音频/音乐轨中,完成后会显示效果。

点击上面监视器的播放按钮,试听音乐。找到要作为铃声片断的开始时间,将鼠标在相应的时间线上单击,然后拆分。此时音频文件被剪成两段,然后将不需要的那段删除(注意:如果将前半部分删除,一定要把音频拖到时间线的开头,否则,播放时会出现时间空白。)剪切完成后,点击菜单栏中“文件”,选择“保存电影文件”,单击“下一步”,按提示操作直到完成。

直接转换

这种方法就简单得多了,只需要按步骤就可搞定。将音频文件拖入音频/音乐轨后,直接点击菜单栏中的“文件/保存电影文件”,点击“下一步”,设置完文件名和保存路径后,会出现“电影设置”对话框。

在这里,单击“显示较多选项”,选择“其他设置”。在这里有八种默认的音频格式可以选择,不同格式生成的文件大小比较见下表。作为手机铃声,在音质不发生较大变化的情况下建议使用“CD音质音频(64kbps)”。然后单击“下一步”,直到完成。

音频工作站系统的管理和维护探讨 篇7

关键词:音频工作站系统,管理和维护,广播电台

随着当今网络科技以及现代媒体技术的飞速发展, 如今我国的媒体形式正在想着多元化趋势发展。而广播电台作为一种以音频传输信息的媒体形式, 在节目的音质方面的提升是技术工作部门的重点研究内容。目前, 广播电台中对节目音质的控制主要是通过音频工作站系统进行, 通过对系统的管理与维护, 可以实现电台节目的正常播出。从节目的录制、编排以及播出等方面, 都需要通过音频工作站的管理工作获得音质上的保证。

我台的节目播出同样是建立在先进的音频工作站系统之上, 通过对系统的管理与维护, 我台的节目质量在技术方面一直处于较为领先的地位。

一、音频工作站系统概况

目前, 我台的音频工作站系统的使用时间已经有八年以上, 为节目的正常播放做出了非常大的贡献。

而从现在的技术背景来说, 我台的音频工作站系统的软硬件设施以及日常的管理与维护工作都处于较为先进的水平, 可以满足节目播放的需求。

特别是在前几年对音频工作站系统进行了一次更新换代之后, 系统的工作稳定性得到了更好的保障。

(一) 音频工作站系统组成类型

我国的音频工作站系统属于英夫美迪air2000系统, 主要负责的工作包括了节目录制、编排、播出、录音收集以及资料储存等等, 几乎涉及了电台中的所有工作内容。

所使用的工作软件技术为Client/Server以及COM软件技术。

(二) 音频工作站系统的主要功能模块

在我台的音频工作站系统中, 主要包括了用户管理模块、模板管理模块、音频管理模块、广告管理模块以及节目播出模块等多个部分, 各模块之间的功能关系如下图所示:

从图一中可以看出来, 在音频工作站系统中, 各部分的模块有着相互关联的关系, 贯穿了整个电台的工作流程。主要的功能模块可以分为三个部分。

其中, 用户管理模块与模板管理模块为管理工作部分, 为日常的节目播出提供设备上的支持, 让电台的节目播出能够得到更好的保障。同时, 管理工作部分也可以设置用户的权限, 对于系统的管理维护具有很大的作用。

而音频编辑管理模块以及广告管理模块为制作工作部分, 所负责的主要工作内容则是对节目的相关资料进行管理与编排, 是节目播放过程中准备阶段的主要工作。

最后, 播出管理模块属于播出工作部分, 主要完成节目的直播或者录播, 是电台各项工作内容中最终节目的执行部分。

通过管理工作、制作工作以及播出工作等流程, 电台的节目就能够以较好的音质播放出来, 实现节目质量的提高。由此可见, 对于电台的节目制作来说, 音频工作站系统可起到非常大的作用, 对节目的音质有着决定性的影响。

二、音频工作站系统管理和维护的主要内容

在电台节目制作与播放的全过程, 都需要通过音频工作站系统, 让节目的音质得到更好的保证。在我台里面, 对音频工作站系统进行管理与控制, 主要包括了工作站、服务器以及总控系统等方面的内容, 通过这几方面的管理与维护, 让直播间、总控室以及服务器的设备能够正常地使用, 避免出现设备故障, 减小节目事故发生的几率。

具体的管理与维护内容如下:

(一) 对工作站的管理与维护

工作站是电台各部分工作的基本单元, 是实现节目制作以及节目播放的枢纽具有相当重要的地位。进行工作站的管理与维护, 主要是对每一个工作站进行工作情况的检查, 进行工作站的除尘清理, 让工作站能够保持正常的运行状态。由于工作站在运行的过程中, 会出现非常多的故障, 因此对工作站需要尤其注意日常的维护工作。当工作站崩溃的时候, 可以通过之前的镜像备份文件, 对丢失的数据进行恢复, 并快速恢复工作站的正常。

而在工作站的日常运行过程中, 维护措施则主要包括了灰尘清除、磁盘碎片整理、文件清理、系统修复、以及系统安全性能提高等方面的内容。特别是对系统安全性能的提高非常重要, 也会维护工作中的核心内容, 是防止音频工作站系统感染上病毒的基础措施, 对系统的正常工作具有非常深远的意义。

(二) 对服务器的管理与维护

我台的音频工作站系统, 所采用的是客户端/服务器的工作模式, 所以系统中软件的运行与服务器的工作有非常紧密的联系, 通过对服务器进行管理维护, 可以进一步提升音频工作站系统软件的运行质量。为了保证服务器工作的安全性, 避免服务器故障对系统的工作产生影响, 在服务器的系统盘中采取了镜像数据备份的措施。当服务器发生故障时, 镜像数据会转变为新的系统盘进行临时的工作, 在很短的时间内解决服务器的故障问题, 具有安全可靠、故障处理效率高的特点。对服务器的维护工作主要是对其运行情况进行实时的检测, 随时掌握服务器的工作状态, 并能够将可能发生的服务器故障进行分析, 及时处理故障, 防范故障对音频工作站系统造成严重影响。

(三) 对总控系统的管理与维护

我台的所有工作站以及服务器都处在一个相对独立的区域内, 该区域通过计算机软件进行全面的控制, 该软件系统即为音频工作站系统中的总控系统, 具有核心控制的地位。

对总控系统进行管理, 主要是从软件的安全性角度入手, 让系统处于稳定安全的工作状态, 实现对电台各项工作内容的准确控制。而对总控系统的维护力度则需要在工作站的维护与服务器的维护基础上更进一步, 增加维护的频率。另外, 通过控制用户权限的方式, 也可以对总控系统的维护带来很大的帮助, 避免音频工作站系统内部的关键数据发生恶意删除的现象。

三、结束语

从本文可以看出, 音频工作站系统在广播电台的节目播放过程中产生着十分重要的作用, 具有电台的核心地位。通过对音频工作站系统的工作站、服务器以及总控系统进行管理与维护, 可以实现对系统工作质量的有效控制, 让电台节目的音质以及节目内容在编排上得到更大程度的提升。随着计算机软件技术以及网络安全技术的不断进步, 音频工作站系统的管理与维护工作将会越来越稳定, 可以让广播电台的节目质量得到本质上的改变, 真正将广播电台的节目改革融入到电台工作的每一个部分。

参考文献

[1]罗为民.广东电台音频工作站系统容灾设计[J].电声技术, 2013.

[2]马捷.淮阴区广播电台数字音频工作站系统技术浅析[J].数字技术与应用, 2011.

[3]李玉峰, 许长青.数字化节目制作与音频工作站系统及其维护管理[J].科技传播, 2013.

音频管理 篇8

如果从系统磁盘中批量导出音频文件,用户看到的将是很多以长编码命名的文件,这种长编码文件类似人们的身份证号码,是唯一的,其文件名是在用户将音频灌入音频工作站系统时系统自动生成的,既不互相重复也没有规律,目的是防止系统在数据检索过程中出现重名文件而无法正确建立一一对应关系。虽然这种命名方式对于系统数据库而言便于程序化管理和检索,但是对于需要导出共享的用户来说,只看文件名的话是不可能知道该音频文件是什么内容、什么类型的资料,这就需要对音频资料进行试听,根据内容分辨,然后对音频文件进行重命名归类;或者通过音频工作站系统前端逐一检索,逐一导出,这样就大大增加了音频资料共享的难度,降低了工作效率。

下面就介绍一种借助Excel及Windows自带的批处理命令来完成音频文件定位、关系对应及批量改名的办法,借助此办法可以对后台导出的以字符编码命名的音频文件进行快速批量管理。

首先大家需要到数据库中找到需要导出的音频文件对应关系表,来确定文件在磁盘中的真实存放路径、磁盘存储名以及音频工作站系统对应的中文曲名等信息。

如上图1所示,找到该数据表后,使用SQL的select语句对表单数据进行查询,可以根据实际情况来设置查询条件,这里设置的是查询显示前10 000条表单内容,查询结果如图2所示。

从图2中人们可以看到音频资料在数据库中的对应关系,Song Title表单对应的是资料中文名,Master File Name表单对应的是资料在磁盘存储区中存放的真实路径,而Aud File表单对应的则是Song Title表单中文曲名所对应的编码格式文件名。人们要做的工作就是要把Master File Name表单所示路径的文件导出后,改为Song Title表单所对应的中文曲名,如果通过手动来逐一修改的话,无疑将会是一项耗时费力的繁杂工作,所以,首先就需要利用Excel来完成中文曲名与真实文件名的对应关系设置,为下一步文件批处理做准备。

将数据库表单中的所有内容复制粘贴到新建Excel中,将其他无用的表单删除,只留下Master File Name表单和Song Title表单中的内容。

将数据库中存在对应关系的两列数据分列两列放在Excel表格中,其中A列对应的是数据库的Song Title表单,也就是真实曲名,B列对应的是数据库的Master File Name表单,也就是磁盘中存储的编码格式文件名,大家需要将B列的文件名用A列的真实曲名替代,这时候选中C列的第一个单元格后,在Excel表格上方的公式区中输入“="REN?"&B1&"?"&A1&""”,意思是将表格B1的内容替换成表格A1的内容,这时C列的第一行C1处会出现REN XXXX XXXX的内容,这其实就是生成了一条Dos的文件重命名命令,剩下的表格用Excel的拖拉复制功能选中C1表格右下角从第一条拖到最后一条,这样就方便快捷地批量生成了Dos的重命名命令,Excel的任务也就完成了。

接下来就要对导出的文件进行批量改名了,执行批量改名之前需要把需要改名的所有文件都放在同一个文件夹下。然后新建一个文本文件,将刚才的Excel中的C列所有内容复制到文本文件中保存退出,后缀名改成.bat的文件类型保存,也就是Windows的批处理文件类型。

完成这步操作后需要把.bat后缀的批处理文件放在与需要改名的音频资料文件相同的目录下双击执行。由于中文曲名录入时会出现一些不规范的字符,利用REN命令改名的时候会出现个别无法改名的情况,这时候只需要等待批处理命令执行完毕后,找到目录下的未改名的音频文件,对照Excel中的对应关系手动更改就可以了。

结语

通过以上几条简单的命令就能完成需要人工花费大量精力去完成的资料管理归档工作,使工作效率大幅提高,是音频工作站音频资料导出分享和管理的好方法。

摘要:音频工作站系统是广播电台日常节目生产中素材流转、节目制作及上单播出等工作的重要支撑系统,是编辑、记者、主持人使用频率最高的节目制作系统,在现有的系统条件下,音频资料导出所面临的最大问题就是音频资料在数据库应用前端的检索信息与系统存储底层的实际文件名之间的对应关系并不是所见即所得。该文介绍依靠Excel及Windows自带的批处理命令来对音频文件进行处理,此方法可以对后台导出的以字符编码命名的音频文件进行快速批量管理。

关键词:数据库,音频资料,检索,管理

参考文献

[1]尚召根.浅议音频资料的数字化加工与储存[J].太原大学学报,2014(S1):27-28.

[2]王亮.小型电台数字音频资料的修复与管理[J].民营科技,2014(7):40.

音频管理 篇9

关键词:数字化节目制作,音频工作站系统,维护管理

传统的广播节目制作建立在模拟信号的基础上。模拟信号是一个物理量, 它随着时间或空间连续变化。随着数字技术的发展, 数字化的节目制作技术已经成熟, 从l 997年5月中国国际广播电台的43种语言广播、每天192小时节目的录制和播出, 率先实现了数字化。目前许多省台、市台已广泛采用数字方式制作广播音频节目。数字信号是一个依赖于时间或空间的二进制形式编码值序列, 它是从模拟信号转换来的。

1 数字化制作方式的优点

广播电台的数字化发展是合理的选择。具体来说, 有以下优点:

1) 减少节目制作过程中的失真, 提高节目品质;2) 可共享节目资源。既提高了资源的利用率, 还减少了磁带反复拷贝过程中的失真;3) 节目制作方便, 可节省大量制作时间;4) 在节目播出时, 可反复播放某一节目, 不必担心由于磁带磨损带来音质的恶化, 也不需要反复倒带, 简化了播出手续;5) 数字化节目资源易于保存, 品质不会因存储时间太久而恶化;6) 数字化节目资源易于查找, 并且可以很方便地检听节目内容;7) 数字化节目可方便地实现非线性播出和自动化播出。

2 数字音频工作站系统

数字音频工作站系统是数字化节目制作的物质基础。

2.1 数字音频工作站及其特点

数字音频是指把声音信号数字化, 并在数字状态下进行传送、记录、重放以及其他加工处理等——整套技术。数字音频工作站的英文缩写为DAW, 也简称为音频工作站, 是一种声音处理工具。它是以计算机控制的硬磁盘为主要载体的非线性数字音频系统, 由计算机中央处理器、数字音频处理器、软件功能模块、音源外设、存储器等部分所构成, 集计算机和录音机、调音台、效果器音响设备为一体的数字音频系统。

2.2 DAW的构成与数字化过程

DAW是在计算机的基础上发展起来、是依靠调用程序来工作的。工作站的主机采用普遍使用的通用微机, 软件系统也是普通的视窗操作系统。从音频工作的角度, 多媒体计算机的硬件构成, 也就是普通计算机硬件的主体:运算器、控制器、存储器、输入和输出设备。

DAW系统是多台主机通过快速以太网、FC网或更高速的网络进行连接, 通过软件系统实现复杂的功能, 其中的每一台主机都叫做一个工作站。

DAW处理声音信号的第一步是把模拟信号进行数字化。把输入模拟信号的波形以适当的时间间隔来观测, 并将各个时刻波形的幅值用二进制数读出, 然后再将这些二进制数毁排列成顺序的脉冲列, 这就是将模拟信号数字化。

数字化过程要经过三个重要的步骤:采样、量化和编码。

1) 采样 (sam Plin8)

采样也被称为取样, 把振幅随时间连续变化的信号波形按照一定的时间间隔切取, 形成在时间上不连续的脉冲列的操作叫做采样。每个脉冲都可以看做是表示在各个时刻信号的振幅的样本, 叫做样本值或采样值。采样把连续信号变成了与时间有关的离散信号。

采样的关键参数是采样频率, 采样频率是一秒钟内间隔采样脉冲的个数。为了逼真反映原模拟音频信号, 按照采样定理, 采样频率应高于声波的最大频率20k Hz的两倍, 即应超过40k Hz, 如果低于这个频率, 有可能发生“频谱混正”失真。由于实际声音的动态范围并非总是达到40k Hz (语音的动态范围较窄, 器乐的动态范围较宽) , 因此, 一般根据采样声音类型的不同, 使用11.025k Hz、22.05k Hz和42.lk Hz三种标准采样频率进行采样, 采样频率越高, 声音的保真度越高。其中, 42.1k Hz的采样频率是通常所说的CD质量声音的一个指标。

2) 量化

采样后的脉冲信号按照一定的等级归一化, 凡是落在某一范围内的振幅都用同一个量化电平表示, 把连续变化的信号振幅用按一定间隔设定的有限个不连续振幅电平近似, 进而变换成阶梯状变化的不连续信号波形的操作叫做量化。量化将连续信号变成了与振幅有关的离散信号。采样和量化在顺序上多半同时进行。

3) 编码

将量化后的幅值转变成相应的二进制代码的过程称为编码。编码可以用各种码, 但是一般使用二进制代码。因为二进制代码只有0、1两个数, 而开关电路的两种状态最容易或者说恰好能代表这两个数, 实现二进制编码。二进制代码的一个重要参数是数码的位数, 数码信息的单位通常称之为“bit”。

对音频一般采用8bit或16bit的量化字长进行量化, 有时对单纯语音也采用4bit量化。8bit采样可以按照256个量化记录每个取样点的音量值, 而16bit量化的分辨率可达65536个音量级。量化字长越长, 保存的声音就越完整, 同时在磁盘或光盘上所占的存储空间也相应增加。

2.3 非线性编辑系统

磁带记录意味着在一段磁带上移动录/放音磁头, 这被称为线性记录。不论快进/快退, 从一个点移动到另一个点需要花费一些时间。硬盘记录则完全不同, 在数字硬盘上存储的信息是按照盘操作系统规则进行分配的, 信息存储样式与接受信息的顺序不相关, 因此达到一个精确的位置不需要快进/快返的操作。硬盘不是一种按时间排列前后顺序的记录媒体, 数据随机存储, 可以在1min内被访问, 这被称为非线性记录。从广播技术的角度看, 非线性编辑是计算机和多媒体技术高速发展的必然产物, 从节目编排与制作的角度分析, 它代表着数字时代广播制作观念的更新。

3 数字化节目制作与播出流程

对于DAW来讲, 是通过一个广播非线性编辑程序来处理音频数据。DAW提供了录音棚所需的全部功能, 实际上就是一台非线性数字编辑多声轨录音机。

3.1 录音、放音与合成

DAW的录音、放音、合成与普通制作多声轨节目一样。但在录放音时既听到声音, 同时还可看到DAW屏幕上的彩色信号波形, 更直观、更有效, 所有操作界面均可同屏显示, 操作状态一目了然。

3.2 数字效果处理

DAW通过DSP数字处理器提供了许多数字信号处理手段, 在Pc机控制下可实时完成调音、均衡、声像移动、电平调整、混响、延迟、降噪、变调等多种功能, 对声音进行时域和频域的处理。它们控制界面的风格形成和各种可调参数与传统的设备基本一样, 所有操作都在习惯的工作环境下完成。其中某些处理在传统设备上是无法实现的。

3.3 节目存储

节目制作完毕后, 时效性强的节目直接通过快速因特网传送到节目播出服务器中等候播出, 其他节目可以通过控制程序自动存档。存储的介质是磁盘或光盘, 即储存到大容量的磁盘阵列或光盘塔中。

3.4 节目播出

通过大容量的播服务器及高速网络传输播出自动化。播出服务器接收上传的音频节目, 播出前一天再转移回硬盘待播。在播控软件系统的控制下, 实现节目在播出前可以先转移到磁带库中, 到新型的节目播控系统不仅能在磁带及硬盘的基础上完成多频道播出, 而且能完成近线存储与归档、周边设备的调度、监控与报警、自动化卫星收录管理、丰富的播出类型 (顺序播出、插入播出、延时播出、自动重复播出等) 管理、信息与数据的共享, 以及非线性编辑网络的无缝连接等更多的功能, 从而建立一个以数字化、网络化为核心的功能强大、安全稳定的“大播控”系统。

4 DAW系统的安全维护与管理

DAW集广播节目的录、编、审、播一体, 贯穿于节目的整个制作、播出过程, 系统维护的中心是保证设备的完好工作与网络的畅通无阻, 系统的安全性应放在首要地位, 主要体现在;网络安全性、数据安全性、播出安全性。

1) DAW系统由计算机局域网构成, 网络安全的隐患主要在于大量的音频数据传输可能引发网络阻塞、工作站死机, 以及关键网络设备发生故障而引起系统的瘫痪。从网络安全上考虑:一方面要保证工作站所用的设备在设计制造及设备配套上没有缺陷, 要采用备用服务器, 通过软件实现服务器的自动切换;另一方面要对音频数据流量的大小与网络工作站的数量、类别进行深入的分析, 对音频网上的工作站进行合理布局, 要充分实现带宽的共享;

2) DAW系统在录、编、审、播过程中产生了大量的音频数据资源, 这些资源一旦丢失, 后果则非常严重。所以, 数据的安全极为重要。要保证数据的安全, 首先要采用具有高度存储技术的存储介质保证存储安全, 必要时也要采用备用存储。其次, 要防止数据在网络传输中丢失或阻塞, 以避免信息的丢失或错误。

参考文献

[1]刘国忠.浅析播控系统中的数字音频工作站[J].广播电视信息, 2008 (11) .

[2]董景.功能齐备的数字音频工作站[J].中国新闻科技, 1999 (3) .

[3]白木, 周艳琼.数字化音频技术扫描[J].影视技术, 2003 (1) .

音频管理 篇10

Avid将于BIRTV期间推出多款全新和升级版解决方案,涉及音频制作、专业编辑、多平台内容发布、播出图形制作以及资产管理诸多领域。同时,Avid还将分享题为“Avid,无处不在”的战略愿景,致力于打造业界最流畅的端到端、分布式媒体制作环境。

在BIRTV发布的全新和升级版产品包括:

●创意工具:Avid Media Composer7,Avid Pro Tools11,Avid Motion GraphicsTM 2.5,Avid Fast TrackSolo和Duo以及Avid S3L Syst

em;●媒体管理解决方案:Avid Interplay Production 3.0,AvidInterplay Pulse和Avid AirSpeed5000 2.5。

此外,Avid还邀请到《钢铁侠3》音效剪辑师Mark Stoeckinger助阵展台,在展会期间为中国观众及专业人士介绍好莱坞大片的剪辑秘籍。

音频家族迎来新成员 篇11

Batmobile 你也可以成为伸张正义的蝙蝠侠

老款的蝙蝠侠座驾真车玩具你见过没?这不仅仅是件摆设,除了拥有真车1:1的大小,你甚至可以从商店租一套蝙蝠侠的战袍,开着它出家门。在21世纪的今天,车内当然得配套齐全,除了有仪表、按钮式点火键、工作灯等,车内的DVD音响设备还能为你在角色扮演中增添更多乐趣。

人民币售价:约940000元

Aston Martin×Jaeger-LeCoultre 8周年应运而生

为庆祝与知名汽车制造商阿斯顿·马丁合作8周年,瑞士顶级制表品牌积家推出了AMVOX7 Chronograph计时腕表。表盘的装饰图案完美再现了阿斯顿·马丁新型跑车Vanquish的进气格栅,精致的设计使得其功能也更加直观。按压12点位置可以启动和停止计时器,按压表盘下端则可将计时器的指针归零。机芯选用积家756型自动上链机械机芯,不仅拥有每小时28800次的振频,还拥有长达65小时的动力储存。

人民币售价:约160000元

BMW美国队新双人竞技雪橇

经过一年多的开发研制,宝马北美分部终于完成了为美国队设计的双人原型雪橇的制作。这部由宝马和美国雪橇联盟合作打造的雪橇将作为美国雪橇队的“武器”,参加国际雪橇联合会举办的世界杯雪橇比赛。这款雪橇采用轻量化的碳纤维材质,不但大幅降低风阻系数,还将提供更为优异的稳定性和灵活性。

人民币售价:未知

BMW LTE车上享受最高速的移动网络

近日BMW公司推出了汽车热点LTE功能,这也是首家将车载4G高速移动网络热点安装到汽车上的公司。使用者若想上网,只需将支持LTE热点功能的SIM卡安装到热点装置即可。如果手机配备了NFC接口,那么仅需要将手机放置在LTE热点装置上,无线网络就会自动连接成功。即使用户的手机不支持NFC接口,LTE热点系统也会提供Wi-Fi客户端。在3米范围内,仅需要按下装置上的“连接”按钮,手机便可上网。

人民币售价:未知

Rugged Rukus给点阳光就“灿烂”

开车去野外春游的同学们有福了!Etón升级了它的Rukus太阳能便携式蓝牙音箱,加入新的防溅水外罩,只要有阳光的地方,Rugged Rukus就不会耗尽电力,从此音乐不断。跟所有蓝牙扬声器一样,它能配对任何无线设备。拥有20英寸太阳能面板,只要让它每日晒足五小时的“日光浴”,就能持续播放音乐,实在是给点阳光就灿烂。

人民币售价:约650元

拓乐THULE ProRide 591置顶自行车架

这款拓乐“普洛来”THULE ProRide 591置顶自行车架是最安全、简单,且全球销量第一的自行车顶架。其轻便优雅的铝质设计更具人性化,速卸固定带能将车轮牢固固定到位,并且可根据不同的车轮尺寸进行调节。这款车架可搭载重量达20公斤的自行车。

人民币售价:1690元

索尼首款全画幅数码单电α99

α99搭载了全新研发的约2430万有效像素35mm Exmor CMOS影像传感器,高精细的“全画幅”影像传感器采用了独立多段光学低通滤波器,能够快速实现丰富清晰的色彩和图像细节,有效提升图像解像力,带来专业的高品质照片效果。

人民币售价:单机19800元

朗界新款智能高防护手机RG210

朗界新款智能高防护手机RG210通过了两米跌落测试,它除拥有双卡双待、IP68级高三防认证、3.2"多点触控屏、Android2.3(可升级4.0)、G-Senser传感系统(海拔、温湿度、光源感应、指北针)、蓝牙2.1、WiFi、FM的配置外,还有高精度GPS以及500万摄像头+30万前置摄像头的配置。这样的一款三防手机,在骑行等户外运动中可是必备的。

人民币售价:未知

拓乐Pack’n Pedal自行车载物包

该款拓乐“派德”Pack’n Pedal载物包采用压缩扣和叶片、螺旋、磁体隐藏式装载系统,防水、透气的CORDURA?材料可确保包里的物品安全、干燥、通风。定制化压缩扣可根据装载量大小进行调节,亮度增强的侧光袋可作为车灯使用,此外,其加热成型、防挤压的SafeZone?区隔可对易损坏的设备进行保护。

人民币售价:未知

Pearlizumi 1720骑行服手套

这是Pearlizumi顶级骑行服手套,除了具有排汗速干等常规特性外,它还具有世界最顶级防紫外线功能,保护你在烈日下骑行不会被轻易晒伤。最重要的是这款骑行手套配有中层手心减震垫,在山区、公路和丘陵地段使用时,还能保护手掌不会因为路面的颠簸而压迫神经。

人民币售价:560元

LOOK986山地自行车

LOOK986这款山地自行车,其越野性能在奥运会和世界杯的赛场上已经得到了无数次验证。LOOK将A-Stem把立应用在986上面,这样的设计让986的操作精确度更上一层楼。采用全碳纤维设计,不仅硬度得以保证,重量更轻盈。不论是激烈竞赛还是休闲旅行,986都可以完美胜任。

人民币售价:46800元

Pearlizumi多彩骑行服

该款骑行服是日本顶级骑行品牌Pearlizumi的经典款,采用高性能的保暖及排汗面料,在初春这个季节骑行也不用害怕会被低温、凉风等外在因素影响了好心情。红、黑、白简单三色既抢眼又有型。

人民币售价:3510元

Plasma头盔

头盔是骑行中最必不可少的“保安”,既想要安全又不失潮流绝对是众人追捧的。这款MAVIC顶级骑行头盔采用了立体结构,在设计上更加符合人体工程学,在骑行中能更好地保护好头部的安全。

人民币售价:1600元

Zxellium Maxi骑行鞋

这是MAVIC顶级款骑行鞋,该款骑行鞋被广泛应用于环法、奥运会和世界杯等顶级赛事中。该款骑行鞋以人体工程学设计,采用碳纤维轻量化鞋底,足够宽大的内部,更适合脚部肥大的人。当每一次蹬踏时,都能通过坚硬的碳纤维鞋底直接传送给轮组,鞋身仅为310克的轻盈度,足以令人尖叫。

人民币售价:2600元

音频管理 篇12

音视频中暴力与色情内容的自动分析与检测已然成为近年来研究工作的新鲜热点之一, 而倍受各方广泛关注。尤其在网络发达的今天, 包含过多儿童不宜观看内容的音视频, 如果只是依靠人工审核, 即使耗费大量的人力及财力也难以即时发现不良信息。本文即针对电影中所包含的音频暴力片段进行研究, 提出了基于音频长短时特征与统计特征相融合的组合量特征, 由此而实现了一种基于音频的长短时特征与统计特征融合的暴力内容自动分析系统。

对于什么是暴力, 一直没有给出过权威的定义。目前以Media Eval竞赛为标准的暴力定义[1]是:“身体暴力或事故导致的人体伤害或疼痛。”鉴于视频数据的直观、特征可分性强等优势, 前期暴力检测工作的重点多是关注于视频数据的分析, Chen等就使用了平均运动强度等特征检测了打斗、流血等暴力镜头, 平均识别率达到了85%[2]。Zhang、Chen等则使用了基于内容的HOF特征进行打斗场景的识别, 也取得了86%的识别结果[3]。而基于暴力场景中经常采用特定音频事件来渲染气氛的特点分析, 随之即进一步展开了对基于音频特征暴力场景识别的有关分析与研究。其中, 由于能量熵可以反映短时间内的能量突变, Jeho和Ahmed就将其作为运动强度、火焰特征、流血特征等视频特征的辅助性能来完成基于事件的视频摘要提取工作[4]。为此, Theodoros等即使用了能量、过零率等八种音频特征对固定长度的音频段进行了暴力与非暴力的分类[5], 并且取得了90.5%的识别结果。时下大多数工作也只尝试对一种或少量几种暴力音频事件进行了检测。例如, Huang等使用能量和基频特征对尖叫事件所进行的检测, 最终取得了86%的识别结果[6]。Pikrakis等更使用了MFCC、能量熵、基频等在内的统计特征进行了枪击的检测, 相应地取得了90.6%的识别结果[7]。Penet又使用MFCC、能量等特征, 对枪击和爆炸产生的音响进行了识别, 分别取得了80%和72%的识别结果[8]。

在电影暴力内容的分析工作中, 基本单位多为镜头, 但每个镜头的持续时间却有所不同。因此, 除了镜头内的短时音频特征, 同时更要提取短时音频特征的长时统计特征, 如此才能进一步体现镜头内特征的变化。与其相应地, 本文即提出一种基于音频多尺度时长特征的暴力镜头中音频事件的自动分析与检测技术。

本文的主要结构安排如下:第一部分为基于长时特征以及统计特征的音频特征提取, 对暴力音频事件音频特征进行分析与提取;第二部分即对实验结果进行分析;最后进行总结以及给出对下一步工作的展望。

1 多尺度时长下暴力音频特征的定义与提取方法

电影中的声音对电影信息表达起着至关重要的作用, 尤其是在暴力镜头中, 声音的作用更是突出。若要对音频事件进行有效的识别, 就需要选择合适的特征。大多数音频场景分析通常采用短时特征, 且特征所对应的音频信号单元也多为定长[9,10,11], 如MFCC、短时过零率、LPC等特征都是研究过程的常见选择。

而电影中的镜头构成场景的声学事件多为不定长的音频片段。并且, 由于音频事件差异性较大, 使其持续的时长与特征也有本质不同。例如爆炸声和尖叫声、枪击声在子带能量、频谱质心和过零率等特征上均呈现不同的分布。本文中的长时特征, 即为体现出特征在一段时间内的变化, 可通过计算相应的统计信息而得到, 具体来说包括了子带能量的均值和方差、音频能量的均值和方差、帧间的一阶以及二阶差分等。

1.1 定时长短时音频特征的提取

定时长短时特征, 即通过对音频信息进行预处理、分帧之后提取的每帧的特征, 包括MFCC、基频、LPC、能量熵等。现在将各个特征的提取方式依次给出, 具体内容如下:

(1) MFCC是将人耳听觉感知特性和语音的产生机制相结合而来, 因此将更加接近人们的听觉认知习惯, 已经广泛用于音频信息分析。在此, 可划分26个mel频带, mel系数选取12, 这样本文共提取12维MFCC特征。

(2) 基频体现的是声音的知觉特性, 并且这种知觉特性在人们听闻和理解不同的声响中发挥着重要的作用。对于暴力声音, 如:尖叫、枪击等来说, 其音高均不相同, 因此可以采用音高特征作为本文音频事件的识别特征。

(3) LPC是根据理想的声道模型计算得到的, 为此根据爆炸、枪击和尖叫所发出声音的通道也是不同的, 可应用LPC及其倒谱系数LPCC特征来共同确定暴力音频的声源性质。

(4) 能量熵。能量熵是一帧信号中的能量变化程度。通过将每帧音频信号分为固定长度的K个大小相同的子窗口, 而对于每个子窗口i均要计算其经过标准化的能量σ2, 标准化过程就是将每个子窗口的能量除以整帧信号的能量, 具体计算如公式 (1) 所示。

本文中, K=5, 即每个子窗口长度为5ms, 在这个时间内的信号可定义为是稳定的。

1.2 变时长音频特征的提取

由于音频事件差异性较大, 且持续的时长与特征多有本质不同, 只是单纯提取短时特征即会造成大量信息丢失。因此本文工作中给出了根据暴力音频持续的时间差异, 分析获得不同时间长度内的统计特征, 包括能量谱质心和频谱质心特征、子带能量的均值和方差、音频能量的均值和方差、帧间的一阶及二阶差分等。下面将逐一分列其对应的计算模型, 详情如下。

(1) 能量谱质心和频谱质心特征

频谱质心是功率谱分布的重心位置, 能够作为度量音频亮度的近似指标, 并且不同暴力音频场景 (尖叫、爆炸、枪击) 会有不同音频亮度。因此频谱质心即是一种检测音频事件的有效特征。同时, 不同音频事件的音频信号频谱在其频谱质心周围的分布情况也是不同的。本文计算信号在经过傅里叶变换后将统计前256个频带的μ (μ=1, 2) , 也就是频谱质心和能量谱质心计算如公式 (2) 所示。

相应地, 当μ=1时, 计算可得频谱质心, 当μ=2时, 计算得到的则是能量谱质心。

在本文中, 还将计算语音信号频谱在其频谱质心周围的分布情况, 即频谱散度 (Spectral Spread, SS) , 其计算可见公式 (3) 。

(2) 归一化子带能量的均值和方差

子带的能量可以反映信号的不同声学特性。不失一般性, 本文应用数据的采样率为8k Hz。在此采样率下, 划分了十六个频率子带, 分别为[0-500 Hz], [500-1 000Hz], ..., [7 500-8 000Hz], 统计计算不同暴力音频事件在每个子带能量的均值和方差, 再将相同子带上的能量取均值并归一化, 使得各子带上的能量累加和为1, 从而得到能量在不同子带上的分布。

(3) 能量均值和方差

在不同的电影中, 整体的能量可能偏大或偏小。因此, 为了能够使相应的识别效果具有一定的鲁棒性, 即提取了一个镜头内音频能量的均值和方差。

(4) 帧间差分

通过帧间差分提取一个镜头内的特征的差异程度, 体现镜头内的一个长时的变化, 本文则采用HTK中计算差分的方法, 对文中提取的特征计算其一阶差分和二阶差分。其中, 一阶差分的具体计算公式如下:

式中, ct表示当前帧, Θ取2。

得到一帧信号的一阶差分后, 在一阶差分的基础上再进行一重差分, 就得到信号的二阶差分at, 其计算公式可表述如下。

综上所述, 本文中所提取特征及维数则如表1所示。

2 实验结果及分析

Media Eval 2012 Workshop[1]是目前公开的、较权威的暴力检测竞赛, 该竞赛所使用的视频数据主要选自Hollywood电影。本文即采用Media Eval 2012 Workshop所提供的数据库, 具体可称作VSD (Video Scenes Dataset) 。

数据的预处理, 主要对音频信号进行预加重, 并加汉明窗。本文中数据采用帧长为25ms, 帧移10ms。本文所使用数据库中包含的电影名称以及每个电影中包含特定暴力音频事件的镜头数目统计如表2所示。对于每一种音频事件皆选取4/5的镜头特征作为训练, 剩余的1/5作为测试集。

评测指标采用经典AED (Audio Event Detect) 中获得广泛采用的评价指标, 也就是Precision、Recall、F1, 其计算即如公式 (6) 所示。

其中, β表示Precision和Recall之间的平衡因子, 本文中β=1。

本文主要设计三组实验, 分别针对三种暴力音频事件和正常音频场景的识别、三种暴力音频事件之间的识别以及三种暴力音频事件和正常音频的四类问题。其中分类器采用的则是SVM[12]。

实验一:针对三种暴力音频事件和非暴力音频的识别, 即爆炸和非爆炸, 枪击和非枪击, 尖叫和非尖叫。其中设定了5折实验, 而且分别使用短时特征以及长短时特征的结合来进行实验, 具体识别结果如表3、表4所示。

通过表3, 表4可以看出, 仅仅使用短时特征虽然能够取得较好的结果, 但如果能够加入长时特征, 整体的识别结果仍会得到更为显著的提升。同时, 由上述实验结果也可以看出, Precision普遍较低。这一结果则与选取数据库中的暴力镜头和非暴力镜头的数量差异直接相关。

实验二:主要针对三种暴力音频事件的两两组合间的识别, 以此来验证本文所提取的特征在不同暴力音频事件上的各自识别效果。此处, 只是选取爆炸、枪击和尖叫的镜头进行实验。同样, 本实验也是使用短时特征以及长短时特征的结合而设定了两组实验, 实验结果则如表5、表6所示。

通过表5和表6可以看出, 整体来说爆炸和枪击对尖叫的区分效果较好, 但爆炸和枪击二者的区分却要差上一些。这可能是由二者的特性所导致, 毕竟二者在发声上有较大的近似。只是进一步地, 通过加入长时特征, 就可以将三种暴力音频事件实现有效的区分。

实验三:四类识别。实验数据包括三种暴力音频事件镜头的特征, 以及所有不包含三种音频事件镜头的特征。共四类数据。与上述实验一样, 采用了5折验证, 并且也使用了短时特征以及长短时特征进行实验, 实验结果分别如表7、表8所示。

由表7和表8可知, 在进行多类的识别时, 加入长时特征, 也可以提高实验的识别效果。总体来说, 对于当前所使用的数据库, 加以客观条件所限, 本文取得的结果已是较为理想。而且, 对于处理不定长的音频段, 利用长短时特征的融合, 亦可以有效地提高相应的识别效果。

3 结束语

现阶段对于电影中的暴力检测研究仍属稀少, 而且已有研究基本都采用视频数据进行对暴力镜头的检测。使用音频进行检测仍尚属罕见, 尤其是暴力电影中的音频事件 (爆炸、枪击、尖叫等) 检测。本文使用上述所介绍的音频特征同时对爆炸、枪击、尖叫等三种具有代表性的暴力音频事件进行了检测。取得了较好的结果:最高的为爆炸, 达到了93.3%;最低的为尖叫, 也达到了81%。总体来讲, 本文提取的特征是有效的, 而且能够产生较好的识别结果。大部分的暴力音频检测在较短的音频段进行和实现, 而对电影中以镜头为检测粒度的工作及文献还较少见到, 因此, 对于一个镜头中的音频特征的提取和使用则是后续需要进一步深度研究的工作内容之一。与此同时, 在后续的工作中还要考虑使用其他的分类算法, 以在更大程度上提高研究的识别结果。另一方面, 暴力音频事件的检测更是对电影中暴力镜头检测工作的一部分。因此, 未来应该可以与视频特征相结合进行暴力镜头检测。

摘要:暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征, 由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性, 现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外, 还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位, 使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验, 表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中, 能够取得较好的结果。

关键词:暴力镜头检测,多尺度时长特征,音频事件检测,支持向量机

参考文献

[1]DEMARTY C H, PENET C, GRAVIER G, et al.The mediaeval2012 affect task:violent scenes detection in hollywood movies.MediaEval 2012 Workshop, Pisa, Italy, October 2012:4–5.

[2]CHEN L H, HSU H W, WANG L Y, et al.Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV) , 2011 Eighth International Conference on.IEEE, 2011:119-124.

[3]CHEN Y, ZHANG L, LIN B, et al.Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA) , 2011 Second International Conference on.IEEE, 2011:95-98.

[4]NAM J, TEWFIK A H.Event-driven video abstraction and visualization[J].Multimedia Tools Appl, 2002, 16 (1-2) :55–77.

[5]GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.

[6]HUANG Weimin, et al.Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA) , 2010 the5thIEEE Conference on.IEEE, 2010.

[7]PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al.Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008.ICASSP 2008.IEEE International Conference on.IEEE, 2008.

[8]PENET, CDRIC, et al.Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]//Content-Based Multimedia Indexing (CBMI) , 2013 11thInternational Workshop on.IEEE, 2013.

[9]CHENG W, CHU W, WU J.Semantic context detection based on hierarchical audio models[C]//Proceedings of the 5thACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.

[10]NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene characterization[C]//IEEE International Conference on Image Processing, 1998:353–357.

[11]Temko A, Nadeu C, Biel J I.Acoustic event detection:SVMbased system and evaluation setup in CLEAR’07[M].Multimodal Technologies for Perception of Humans.Springer Berlin Heidelberg, 2008:354-363.

上一篇:矿山提升机下一篇:体质分析