音频技巧

2024-06-19

音频技巧（共4篇）

音频技巧篇1

引言

近2a来, 全国及各省气象高清会商系统陆续投入运行, 更新升级后的高清会商系统视频质量达到了1080p30标准, 音频系统方面, 也普遍支持G.722、G.728、Siren7、Siren14等多种协议, 并采用数字音频矩处理器, 达到ITU 20k Hz以上的高清效果, 大大提高了天气预报会商质量。由于气象会商系统具有使用频率高、每天发言单位多及会商交流多等特点, 所以会商声音的质量越来越受人关注, 而且, 音频相比视频, 受影响的因素更多, 更复杂, 还与临时设置、调控及人为因素有关, 所以, 天气预报会商系统的音频设计与保障显得非常重要。

1 会商系统中音频质量常见问题

声音还原是技术和艺术的有机结合, 其质量的好坏要从主观和客观2方面来衡量。一般来说, 客观反映声音效果的主要因素有声压级、清晰度、声场均匀度、传声增益等。

1.1 噪音大

噪音亦称底噪。一般指电声系统中除有用信号以外的总噪声:包括音响设备噪声和放音环境噪声2部分。过强的本底噪声, 不仅会使人烦躁, 还淹没声音中较弱的细节部分, 使声音的信噪比和动态范围减小, 再现声音质量受到破坏。

1.2 有回响

回音是由声波延时产生的, 若麦克风既拾取声源信号又拾取经扩音还原的信号, 或者与声源距离不同的2只麦克风拾取同一声源的信号, 或者一只麦克风拾取经扩音还原后的另一只麦克风的信号, 都将产生相应的路程差而造成延时。

1.3 产生啸叫

“啸叫”是扬声器与麦克风之间发生正反馈引起的。产生反馈的主要原因是话筒的传声增益过大, 话筒和音箱的距离太近, 又或是声场中某些频率的声音反射状态过于活跃, 造成声音的正循环性放大。“啸叫”产生主要有4个原因:过载、距离、角度和频率。一般“啸叫”的出现都是在失真的时候, 主要是输入信号的过载引起。话筒啸叫的危害很大, 一般会表现出音感狭窄、混响拖尾、刚响失真、声压过大等问题, 严重影响会商和会议的气氛, 严重时可能导致烧坏功率放大器和发声设备。

1.4 声音太小不稳

主要表现是发言声音过小、过大或忽大忽小的状况。声压级:反映听众听到发言人声音的音量大小。主要原因是发言人距离话筒的距离太远、太近或者时远时近。

1.5 有串音

串音一般有线路串音和会议串音2种。线路串音是指在一根电缆中不同线对之间由于耦合产生的不需要的信号。会议串音主要是指当2个会议同时召开时, 由于声音输入输出设置不正确, 2个会议的声音互相混音叠加而成。

2 音频方案设计

2.1 音频环境设计

一个良好的建声环境可提高音频系统的音质。会议室是一类功能要求极强的场所, 其装修设计应该满足会议室对会议的气氛和功能的要求。会场环境控制和降低本地噪声;保持良好的吸音环境;保持良好的隔音环境;设置较好的混响时间。

2.2 音频线及音频设备的选择

音频线主要有音箱线和音频线2种。好的音频线能减少衰减和音频干扰, 减小不必要的底噪。音箱线信号线 (喇叭线) , 属于无屏蔽, 专用于功放与音箱见连接, 极为优秀的导电性。信号线 (音频线) 属于二芯线, 带屏蔽, 传输音频信号。音响设备主要分音源设备、调控设备、周边处理设备和终端处理设备。音源部分有话筒、CD、音频接口等信号源;调控部分主要有模拟调音台、数字调音台、媒体矩阵等设备对声音调整和控制。周边处理设备主要对声音进行各种处理。包括动态处理设备和频率处理设备声场处理设备, 主要有压缩器、限幅器、均衡器、混响器等;终端设备如功率放大器、音箱等, 主要用来重放还原声音。

2.3 会商音频系统的方案设计

图1是福建省气象高清会商系统的音频设计流程图, 整个会商系统的音频设计方案主要采用视频终端、模拟调音台和C8音频矩阵控制器3方面进行综合处理。

合理设置模拟调音台。模拟调音台采取多个话筒接入, 对系统输入的声音不采取直接输出到音响, 防止各个声道互相干扰, 产生回声和啸叫等, 必须先输入到音频矩阵控制器进行处理;再进行输出;使用C8音频矩阵控制器对音频进行综合处理;音频信号通过反馈抑制, 一般可将50~15000Hz中的任何反馈频率送入移相器, 进行移相处理后, 再将音频信号送入正机的输入端;选择具有音频自适应的会议终端。会议终端具有音频自适应功能, 支持强大的音频自适应功能, 根据终端的音频能力, MCU可以自动匹配最优音频协议让终端入会, 充分保证高清终端、标清终端自动入会, 保证最优秀的音频效果。

3 音频方案的保障技巧

3.1 适当减小会商环境噪音

可采取以下方法:增加电源滤波器, 利用谐振电路滤除谐波, “净化”输出电源;信号的输入、输出线与电源线分开走线, 且不能平行布线, 避免毗邻和交叉干扰, 互相感应;降低调音设备增益;减少环境噪声。

3.2 有效消除回音现象

主要采取以下方法避免:启用终端回声抵消设置;选用指向性强的麦克风;根据回声传播的路径, 可以通过调小调音台或功放的声音输出来减小回声, 防止声音过大。

3.3 严格进行啸叫抑制处理

除了设计时对C8矩阵控制器啸叫抑制处理降低扩声增益外, 适当调整扬声器布局、改变麦克风方向以及2者之间的距离, 避免形成正反馈。提示各单位发言首席, 养成说话开话筒、发言完毕及时关话筒的良好习惯, 防止互相干扰, 产生正反馈。

3.4 严格规范防止声音忽大忽小

统一和相对固定模拟调音台、终端设备的音量级别, 保持启动设备时音量大小合适;抓好会前调试关, 如POLYCOM终端统一采用级别三音量, 很好的保持了省内各地市音量的大小大概一致;根据发言人声音的大小调整好话筒输入音量。

3.5 设置合理防止互相串音

在临时设置音频线路时, 尽量减少交叉, 防止线路互相干扰;在同时召开多个会议时, 根据会商会议的各种模式选择好预先设计好的音频矩阵输入输出模式, 防止音频串音。但在个别会议比较特殊时, 必须临时设置音频输入输出, 必须先预先进行多方测试。

3.6 抓好音频故障应急

根据会商系统故障应急方案, 当会商系统出现各种故障或音响设备出现故障时, 应判断设备的故障点, 采取相应的应急方法进行应急:当音响出现故障时, 应采用应急音响应急;当终端出现故障时应采取备用终端进行应急;当C8音频矩阵出现故障时, 应及时把音频从模拟调音台直接输入到相应终端;当调音台出现故障时, 应把话筒直接接到终端, 或直接终端话筒直接发言;正确设置好音频控制软件, 防止设置错误;随时准备在C8音频矩阵Web控制界面上调整各终端的音频输入输出, 防止产生各种杂音和干扰。

参考文献

[1]李珏, 邹蓓, 余红卫, 等.M数字音频平台在气象视频会商系统中的运用[J].贵州气象, 2011 (04) .

[2]武深秋.音频系统噪声解决方法[J].家庭电子, 2005 (24) .

[3]张常亮, 马渝勇, 刘一谦, 等.基于MCU级联的省-市-县三级高清视频会议系统设计与实现[J].电视技术, 2012 (09) .

音频技巧篇2

CDR为中国数字音频广播 (China Digital Radio) 英文缩写。调频频段中国数字音频广播 (FM CDR) 是工作于传统模拟调频广播频段的数字广播系统, 通过数字编码调制技术实现数字音频广播业务和数据业务的播出。2013年已发布信道帧结构和编码调制标准, GY/T 268.1-2013《调频频段数字音频广播第1部分:数字广播信道帧结构、信道编码和调制》。2014年发布激励器和发射机测试标准, GD/J061-2014《调频频段数字音频广播激励器技术要求和测量方法》, GD/J062-2014《调频频段数字音频广播发射机技术要求和测量方法》。激励器是发射机核心设备, CDR发射机中数模信号通过激励器进行合成。根据CDR激励器测试标准要求数字码流输入接口为两种方式, 一是IP传输方式的RJ45接口, 一是TS流的ASI接口;模拟音频输入接口支持L/R和AES/EBU, 目前几种信号接口已完全实现, 实际送测通过IP和ASI分别加入数字信号、通过L/R和AES/EBU送入模拟信号, 对不同组合工作模式进行实际收听测试。

2 CDR频谱模式

为更好理解测试过程中频点及带宽的设置和准确读取频谱显示值, 有必要了解标准中规定的频谱模式。FM CDR建议频谱模式主要有6种:1、2、9、10、22、23, 其余模式为保留模式。参见表1, 其中 (L) 表示下半子带, (U) 表示上半子带, 模式9、10、22、23中间深灰色部分为模拟信号, 两边为数字信号。

3 CDR激励器指标测试

CDR采用数模同播技术, 虽然标准中测试方法已明确但实际测试与传统模拟调频广播、数字电视等测试方法还是有较大区别, 特别是一些测试还需设置多个频点且要通过公式计算, 理解起来比较复杂和抽象。这里通过实际工作中对具体几项主要技术指标总结的测试方法和技巧以及测试时一些参数的设置和大家共享一下, 既能满足标准测试要求同时能简化测试步骤提高测试效率。

3.1 数字技术指标测试

根据GD/J061-2014测试标准规定, 大多指标测试需在纯数字和数模两种工作状态下测, 带肩和峰均比测试在纯数字工作模式下。其中纯数字工作状态下测试信源采用PRBS (伪随机二进制序列) 序列。根据标准中对输入接口的功能性要求需具备ASI和IP两种输入方式, 实际测试中通过分别输入TS流和IP数据测试, 本文为描述简洁, 输入信号均为ASI接口的TS流。

3.1.1 相位噪声

相位噪声测试较为简单, 输入信号要求只有射频载波, 设置中心频率之后, 进入phrase noise测试菜单后即可测出, 参见图1。

3.1.2 带内频谱符合性

带内频谱符合性按标准所述测试方法, 在不同频谱模式下测试点是不一样的, 基本思想是测试带内不平度, 这里以频谱模式9在工作模式1下为例介绍测试方法。

表2是根据标准中测试方法计算出的具体测试频率点, 根据标准最后测试结果应该为ΔP绝对值中最大值。从表中来看如果按照每个频点单独测试功率值, 再差值计算较为复杂, 具体测试中利用现有频谱仪一些设置功能, 可以直接测出数据。即首先在MARK点设置中将上表需测试的功率Pi对应频率点分别设置为MARKi (i=1, 2, 3, …6) , 然后利用仪器菜单功能中相对量偏差值设置, 将上述设置好的MARK点中对应Pi+点与对应Pi-点做偏差, 即对应表2中ΔPi值 (i=1, 2, 3) , 同时打开MARK TABLE菜单, 参见图2可看到具体最终测量值, 其中Δ值中最大值即为测试结果。

3.1.3 子带间功率均匀性

此项指标只要求在数模同播情况下测试, 以模式9为例, 具体测试值参考表3, 本例中fc为98MHz。

按照标准测试步骤应该是先设中心频率Fc, 然后测试功率值P1、Pu, P1测试范围是fc-fp~fc-fq, Pu测试范围是fc+fp~fc+fq, 最后取P1-Pu的绝对值, 按照此测试方法先计算出对应频率点, 参见表3, 可以看出比较复杂。实际测试过程:设置中心频率fc, 在频谱仪off set Fre功能中直接设置fbc, 设置时取两边偏移, 然后再设置测量带宽为47.8k Hz, 参见图3可直接读出Pupper, Plower, 则测量值为Pupper与Plower差值的绝对值, 这样就简单多了。下面我们通过计算核实一下这种方法所测频点是否与表3标准要求的测试点一致。当测试上边带时, 中心频率实际为fc+Foff set, 即98.1741MHz, 测量带宽47.8k Hz, 通过计算得出P-upper测试范围是98.1502MHz~98.198MHz, 发现该值与表3中Pu要求测量范围一致;同理P-lower测量值对应的实际中心频率为fc-Foff set, 即97.8259MHz, 测量带宽仍为47.8k Hz, 可计算出P-lower实际测量范围是97.8259±23.9MHz, 即97.802~97.8498MHz, 发现该值与表3中P1要求测量范围一致, 所以P1-Pu的绝对值就是图3中Pupper-Plower的绝对值。

3.1.4 带肩

带肩测试要求在频谱模式2下任一工作模式, 从标准可查到对应的f1=27.9k Hz, 根据标准计算出以下测试点 (中心频率fc=98MHz) , 参照表4。

根据标准测试步骤, 以上3个频率点对应的功率值分别为Pc1, Pc+, Pc-, 最后取后两个测量值与Pc1的差值中较大值作为测试结果。同样可按“2.子带间功率均匀性”中方法设置MARK值并做偏差值, 可直接读取结果, 参见图4不再赘述。

3.1.5 射频有效带宽

射频带宽测量根据标准分别读取有效子载波最高端、最低端频率, 然后二者差值即是。实际操作时感觉不好把握, 具体测量时直接采用带宽测试中OBW设置, 发现与其设置值关系较大, 当设置大于99%时与标准要求值比较接近, 如频谱模式9工作模式1下标准要求有效带宽为396k Hz, 实际测试值参见图5。

3.1.6 峰值平均功率比

这个测试较为简单, 进入CCDF测试功能参照标准测试即可。

3.1.7 邻频道带内无用发射功率

邻频道带内、带外指标测试在数字、数模工作方式下均测试, 在纯数字工作方式下测试时采用频谱模式2, 在数模同播工作方式下采用频谱模式9, 测试方法基本一致, 只是不同频谱模式下测量参数设置不同, 本文仅论述数模同播下测试方法。测量带宽设置为400k Hz (测量带宽同测量频谱模式带宽) , 根据标准测量方法测试出中心频率fc对应功率Pc和上下邻频道带内功率Pb (所测邻频道功率中较大值) , 然后根据标准中公式计算出测量结果。实际测量中直接采用频谱仪中的ACP测试功能, 设置好中心频率fc、测量带宽, 然后在OFFSET FRE中设置上下邻频偏移量, 参见图6测试结果, 这样比标准单点计算方法简单。

3.1.8 邻频道带外无用发射功率

邻频道带外测试方法同邻频道带内, 只是测量频率偏移量不同, 测量频谱模式9时, 带外OFFSET FRE通过SELECT OFFSET选择后依次设置为400k Hz、800k Hz、1200k Hz、1600k Hz, 参见图7, 这样可直观读出所有带外值。纯数字测量方法同数模工作模式, 只是测量带宽设置要同所测量频谱模式带宽倍数对应。

3.2 模拟技术指标测试

传统模拟调频指标大多台站采用FMAB测试, 标准中对模拟指标测试描述为“激励器工作在模数同播时的模拟调频广播相关测量项见GY/T 169-2001规定用的测量用信号”, 应该理解是需要激励器工作在数模同播情况下测量模拟技术指标。可如果在数模同播工作状态下, FMAB由于数字信号干扰无法测量, 只能设置为纯模拟工作模式。我们研发过程中采用R&S公司带FM解调模块的ETL测试, 可实现数模同播下对模拟指标的测试。这种测试方式虽满足标准要求, 但发现部分指标测试结果和FMAB测试数据比对有较大差异。如ETL对失真的测量, 在测试结果中有THD和THD+N两组数据, 通常THD测试出数据非常好, THD+N数据较差 (加噪声) , 同样情况下采用FMAB做对比测试发现FMAB测试数据与THD+N基本一致, 后来测试就以THD+N数据作为参考。还有寄生调幅噪声、频响两种不同仪器测试结果差异较大, 所以模拟指标的测试对于采用哪种测试仪器以及激励器的工作状态还有待于进一步探讨, 特别是新型数模信号测量仪器和传统模拟测量仪器的参考标准一致性方面有待权威性机构确认。

4 结束语

调频广播带内同播技术在国内应用无论是对激励器、发射机还是测量仪器都是一个全新的课题, 同时随着测量标准的发布一些具体测试方法和指标要求也值得大家讨论研究, 文中只是一些测试经验, 错误不妥之处还请各位同行专家老师多给与指教, 希望通过大家的不断探索和努力加快CDR这项新技术的普及和推广。

参考文献

[1]GD/J 061-2014.调频频段数字音频广播激励器技术要求和测量方法[S].

音频技巧篇3

一、广播数字音频的编辑制作思路

广播数字音频的编辑制作过程主要包括以下两个方面:一是合成制作;二是录音制作。合成制作是将原本分散的音频内容, 应用广播音频编辑软件进行合成, 从而形成一部拥有完整性的广播节目。录音制作则是专业的广播从业人员通过专业的音频录制设备, 对不同时间、空间上的声音源进行录制, 通过广播数字音频的编辑软件将这些音源处理混合, 从而合成若干个节目的音频作品。

随着现代数字音频技术的不断发展和普及, 传统手工制作的广播音频节目作品逐渐被替代。广播节目在形式上形成了桌面化、一体化和异地化的新格局。通过广播数字音频编辑制作软件的不同处理, 广播作品在形式上变得更加多样化, 节目作品的内容也变得丰富多彩, 广播音频节目的质量也得到了很大提升。编辑和制作人员在广播节目的整个制作过程中得到了更好地交流, 也使得我国广播音频节目的制作技术与传播得到了长久的发展。

二、广播音频编辑制作软件的构建核心

(一) 广播音频编辑与制作软件应用的环境

在我国, 广播行业使用的音频编辑与制作软件是多种多样的, 音频的编辑与制作是广播行业的关键环节, 专业的技术人员通过广播电台的编辑工作站对需要进行编辑的音频进行处理, 主要是进行剪接、合成和处理过程的有效集合。

(二) 广播音频编辑与制作软件结构设计

随着数字音频技术的高速发展和在广播电台的普遍应用, 编辑工作台的硬件水平在很大程度上影响着整个广播电台的运行过程。目前我国大部分广播电台使用的声卡均来自于法国DIGIGRAM公司研制的专业声卡, 该声卡可以对多种音频进行驱动, 可以有效降低音频节目在播出时的延时, 能够在实际应用中切实提高广播节目的录音、处理和播出效率。广播音频编辑与制作软件是安装在广播电台编辑工作台计算机终端的一个应用软件, 这样可以让广播电台内的工作人员更快、更好地使用广播音频编辑与制作软件, 对节目的音频作品进行编辑和制作。

(三) 广播音频编辑与制作软件模块设计

广播音频编辑与制作软件在实际广播行业的应用是由多个不同模块之间协调工作而进行的, 处于优先等级高的模块通过软件内部的调用函数对优先级低的模块进行访问, 优先级低的模块将采集到的数据和参数及时反馈给优先等级高的模块, 从而实现广播音频编辑与制作功能。

1.广播音频编辑与制作软件主程序模块

广播音频编辑与制作软件在广播电台的应用主要是通过主程序模块实现软件与用户之间的交互界面设计、数据信息的采集存储以及硬件设备的更新与格式化等等。用户交互设计的界面需要简洁, 可以使用户在使用广播音频编辑与制作软件时操作方便;数据信息的采集存储需要准确和安全, 在确保采集信息准确性的前提下不断提高采集速度, 对采集到的信息可以及时存储并能够安全的进行保管;硬件设备的更新需要做到及时精确, 确保广播音频编辑与制作软件的硬件时刻保持与软件相符合, 对其格式化功能要进行准确把控。

2.广播音频编辑与制作软件功能控制模块

广播音频编辑与制作软件的功能模块是根据不同用户的实际操作情况来完成判断功能的有效性, 用户不同的操作针对于当前文件是否有效都是通过这一模块实现的。一旦出现用户操作不符合目标音频文件的情况, 则将该操作视为失效, 不予以执行, 相反则对音频文件作出相应处理。

3.广播音频编辑与制作软件波形显示模块

波形显示模块是广播音频编辑与制作软件中至关重要的一个模块, 这一部分的模块对于音频编辑制作人员来说是最能直观体现音频内容的部分。通过对音频文件展现出的不同波形, 可以判断该音频文件是否需要进行编辑, 同样对于音频文件的编辑和制作也是通过改变不同波形来完成的。

三、广播音频编辑与制作软件的应用特点探索

广播音频编辑与制作软件的应用, 对于我国构建新型的广播音频节目起到了至关重要的作用。在实际应用中不断发现和探索其应用特点可以更好地为我国广播事业做出贡献。

(一) 可视化

广播音频编辑与制作软件的最显著特点就是其实现了编辑的可视化, 过去传统的开盘式录音机只能够完成音频的录制过程, 对于音频的具体信息是完全看不到的, 如果想要对已录制的音频进行编辑则需要相关工作人员反复更换磁带, 即使是编辑也是凭借相关编辑制作人员的听力进行模糊的剪切和拼接, 这在很大程度上限制了音频作品的质量和制作人员的工作热情。当使用广播音频编辑与制作软件时, 用户可以很直观地通过“看”来分析和处理相关音频文件, 在用户的交互界面上音频以波形的具体形式展现出来, 用户仅需要通过辨别不同波形, 判断需要进行修剪编辑的音频信息。

(二) 无损化

过去人们在制作音频文件的时候从心理上会有一种担心, 对于音频文件的编辑在很大程度上会影响其本身的质量。传统方式下对于磁带的修剪只能是一次性的, 一旦出现错误或缺失是很难进行弥补的。使用广播音频编辑与制作软件后可以针对性的对音频文件进行编辑, 其中包括剪接、复制、分割和粘贴等等。广播音频编辑与制作软件自身带有的储存功能, 可以很好地保存音频文件的源文件, 对于音频的编辑处理也不再是简单的对原始文件直接处理。通过利用可视化的编辑模式对音频文件的不同音轨进行波形上的编辑处理, 不再会出现损坏源文件的情况。

(三) 多样化

广播音频编辑与制作软件不仅在质量上满足了专业化的音频节目制作, 同时使编辑出的节目具有良好的性能, 可以满足广大人民群众不同的需求, 同时简化了用户的操作, 使得用户可以节约更多的时间对节目本身进行欣赏。随着广播音频编辑与制作软件的不断更新升级, 对于广播音频节目的多样化起到了推动作用, 也使得各级广播电台节目在播出与制作中向着多功能、多元化的方向不断发展。

结束语

综上所述, 本文分析了广播音频编辑软件在我国的发展情况, 就其应用环境做出了一定的研究, 针对广播音频编辑软件在我国广播事业上的发展和应用的具体要求做出了设计。从广播音频编辑与制作软件的应用特点探索的过程中我们可以发现, 广播音频编辑与制作软件具有可视化、无损化和多样化的特点, 结合这些广播音频编辑与制作软件的独有特点, 相关从业人员可以更好地在实际工作中对音频文件进行编辑处理, 从而更好地促进我国广播文化事业的发展。

摘要：随着科学技术的不断发展, 计算机技术和电子信息技术已经广泛地应用于各行各业。由此促进广播电台的数字化程度也在不断加深, 广播音频编辑软件与计算机技术的相辅相成使得我国在数字音频技术下构建新型广播电台变得更加容易。本文就基于数字音频技术的广播音频编辑软件构建进行了研究, 确定了广播音频编辑制作软件的构建核心, 分析了广播音频编辑与制作软件的应用特点, 希望给相关从业人员提供帮助。

关键词：广播音频编辑软件,数字音频技术,构建

参考文献

[1]罗双兰.基于TC动机设计模型网络学习动机的激发策略研究[J].广西师范大学学报 (哲学社会科学版) , 2011 (3)

音频技巧篇4

音视频中暴力与色情内容的自动分析与检测已然成为近年来研究工作的新鲜热点之一, 而倍受各方广泛关注。尤其在网络发达的今天, 包含过多儿童不宜观看内容的音视频, 如果只是依靠人工审核, 即使耗费大量的人力及财力也难以即时发现不良信息。本文即针对电影中所包含的音频暴力片段进行研究, 提出了基于音频长短时特征与统计特征相融合的组合量特征, 由此而实现了一种基于音频的长短时特征与统计特征融合的暴力内容自动分析系统。

对于什么是暴力, 一直没有给出过权威的定义。目前以Media Eval竞赛为标准的暴力定义[1]是:“身体暴力或事故导致的人体伤害或疼痛。”鉴于视频数据的直观、特征可分性强等优势, 前期暴力检测工作的重点多是关注于视频数据的分析, Chen等就使用了平均运动强度等特征检测了打斗、流血等暴力镜头, 平均识别率达到了85%[2]。Zhang、Chen等则使用了基于内容的HOF特征进行打斗场景的识别, 也取得了86%的识别结果[3]。而基于暴力场景中经常采用特定音频事件来渲染气氛的特点分析, 随之即进一步展开了对基于音频特征暴力场景识别的有关分析与研究。其中, 由于能量熵可以反映短时间内的能量突变, Jeho和Ahmed就将其作为运动强度、火焰特征、流血特征等视频特征的辅助性能来完成基于事件的视频摘要提取工作[4]。为此, Theodoros等即使用了能量、过零率等八种音频特征对固定长度的音频段进行了暴力与非暴力的分类[5], 并且取得了90.5%的识别结果。时下大多数工作也只尝试对一种或少量几种暴力音频事件进行了检测。例如, Huang等使用能量和基频特征对尖叫事件所进行的检测, 最终取得了86%的识别结果[6]。Pikrakis等更使用了MFCC、能量熵、基频等在内的统计特征进行了枪击的检测, 相应地取得了90.6%的识别结果[7]。Penet又使用MFCC、能量等特征, 对枪击和爆炸产生的音响进行了识别, 分别取得了80%和72%的识别结果[8]。

在电影暴力内容的分析工作中, 基本单位多为镜头, 但每个镜头的持续时间却有所不同。因此, 除了镜头内的短时音频特征, 同时更要提取短时音频特征的长时统计特征, 如此才能进一步体现镜头内特征的变化。与其相应地, 本文即提出一种基于音频多尺度时长特征的暴力镜头中音频事件的自动分析与检测技术。

本文的主要结构安排如下:第一部分为基于长时特征以及统计特征的音频特征提取, 对暴力音频事件音频特征进行分析与提取;第二部分即对实验结果进行分析;最后进行总结以及给出对下一步工作的展望。

1 多尺度时长下暴力音频特征的定义与提取方法

电影中的声音对电影信息表达起着至关重要的作用, 尤其是在暴力镜头中, 声音的作用更是突出。若要对音频事件进行有效的识别, 就需要选择合适的特征。大多数音频场景分析通常采用短时特征, 且特征所对应的音频信号单元也多为定长[9,10,11], 如MFCC、短时过零率、LPC等特征都是研究过程的常见选择。

而电影中的镜头构成场景的声学事件多为不定长的音频片段。并且, 由于音频事件差异性较大, 使其持续的时长与特征也有本质不同。例如爆炸声和尖叫声、枪击声在子带能量、频谱质心和过零率等特征上均呈现不同的分布。本文中的长时特征, 即为体现出特征在一段时间内的变化, 可通过计算相应的统计信息而得到, 具体来说包括了子带能量的均值和方差、音频能量的均值和方差、帧间的一阶以及二阶差分等。

1.1 定时长短时音频特征的提取

定时长短时特征, 即通过对音频信息进行预处理、分帧之后提取的每帧的特征, 包括MFCC、基频、LPC、能量熵等。现在将各个特征的提取方式依次给出, 具体内容如下:

(1) MFCC是将人耳听觉感知特性和语音的产生机制相结合而来, 因此将更加接近人们的听觉认知习惯, 已经广泛用于音频信息分析。在此, 可划分26个mel频带, mel系数选取12, 这样本文共提取12维MFCC特征。

(2) 基频体现的是声音的知觉特性, 并且这种知觉特性在人们听闻和理解不同的声响中发挥着重要的作用。对于暴力声音, 如:尖叫、枪击等来说, 其音高均不相同, 因此可以采用音高特征作为本文音频事件的识别特征。

(3) LPC是根据理想的声道模型计算得到的, 为此根据爆炸、枪击和尖叫所发出声音的通道也是不同的, 可应用LPC及其倒谱系数LPCC特征来共同确定暴力音频的声源性质。

(4) 能量熵。能量熵是一帧信号中的能量变化程度。通过将每帧音频信号分为固定长度的K个大小相同的子窗口, 而对于每个子窗口i均要计算其经过标准化的能量σ2, 标准化过程就是将每个子窗口的能量除以整帧信号的能量, 具体计算如公式 (1) 所示。

本文中, K=5, 即每个子窗口长度为5ms, 在这个时间内的信号可定义为是稳定的。

1.2 变时长音频特征的提取

由于音频事件差异性较大, 且持续的时长与特征多有本质不同, 只是单纯提取短时特征即会造成大量信息丢失。因此本文工作中给出了根据暴力音频持续的时间差异, 分析获得不同时间长度内的统计特征, 包括能量谱质心和频谱质心特征、子带能量的均值和方差、音频能量的均值和方差、帧间的一阶及二阶差分等。下面将逐一分列其对应的计算模型, 详情如下。

(1) 能量谱质心和频谱质心特征

频谱质心是功率谱分布的重心位置, 能够作为度量音频亮度的近似指标, 并且不同暴力音频场景 (尖叫、爆炸、枪击) 会有不同音频亮度。因此频谱质心即是一种检测音频事件的有效特征。同时, 不同音频事件的音频信号频谱在其频谱质心周围的分布情况也是不同的。本文计算信号在经过傅里叶变换后将统计前256个频带的μ (μ=1, 2) , 也就是频谱质心和能量谱质心计算如公式 (2) 所示。

相应地, 当μ=1时, 计算可得频谱质心, 当μ=2时, 计算得到的则是能量谱质心。

在本文中, 还将计算语音信号频谱在其频谱质心周围的分布情况, 即频谱散度 (Spectral Spread, SS) , 其计算可见公式 (3) 。

(2) 归一化子带能量的均值和方差

子带的能量可以反映信号的不同声学特性。不失一般性, 本文应用数据的采样率为8k Hz。在此采样率下, 划分了十六个频率子带, 分别为[0-500 Hz], [500-1 000Hz], ..., [7 500-8 000Hz], 统计计算不同暴力音频事件在每个子带能量的均值和方差, 再将相同子带上的能量取均值并归一化, 使得各子带上的能量累加和为1, 从而得到能量在不同子带上的分布。

(3) 能量均值和方差

在不同的电影中, 整体的能量可能偏大或偏小。因此, 为了能够使相应的识别效果具有一定的鲁棒性, 即提取了一个镜头内音频能量的均值和方差。

(4) 帧间差分

通过帧间差分提取一个镜头内的特征的差异程度, 体现镜头内的一个长时的变化, 本文则采用HTK中计算差分的方法, 对文中提取的特征计算其一阶差分和二阶差分。其中, 一阶差分的具体计算公式如下:

式中, ct表示当前帧, Θ取2。

得到一帧信号的一阶差分后, 在一阶差分的基础上再进行一重差分, 就得到信号的二阶差分at, 其计算公式可表述如下。

综上所述, 本文中所提取特征及维数则如表1所示。

2 实验结果及分析

Media Eval 2012 Workshop[1]是目前公开的、较权威的暴力检测竞赛, 该竞赛所使用的视频数据主要选自Hollywood电影。本文即采用Media Eval 2012 Workshop所提供的数据库, 具体可称作VSD (Video Scenes Dataset) 。

数据的预处理, 主要对音频信号进行预加重, 并加汉明窗。本文中数据采用帧长为25ms, 帧移10ms。本文所使用数据库中包含的电影名称以及每个电影中包含特定暴力音频事件的镜头数目统计如表2所示。对于每一种音频事件皆选取4/5的镜头特征作为训练, 剩余的1/5作为测试集。

评测指标采用经典AED (Audio Event Detect) 中获得广泛采用的评价指标, 也就是Precision、Recall、F1, 其计算即如公式 (6) 所示。

其中, β表示Precision和Recall之间的平衡因子, 本文中β=1。

本文主要设计三组实验, 分别针对三种暴力音频事件和正常音频场景的识别、三种暴力音频事件之间的识别以及三种暴力音频事件和正常音频的四类问题。其中分类器采用的则是SVM[12]。

实验一:针对三种暴力音频事件和非暴力音频的识别, 即爆炸和非爆炸, 枪击和非枪击, 尖叫和非尖叫。其中设定了5折实验, 而且分别使用短时特征以及长短时特征的结合来进行实验, 具体识别结果如表3、表4所示。

通过表3, 表4可以看出, 仅仅使用短时特征虽然能够取得较好的结果, 但如果能够加入长时特征, 整体的识别结果仍会得到更为显著的提升。同时, 由上述实验结果也可以看出, Precision普遍较低。这一结果则与选取数据库中的暴力镜头和非暴力镜头的数量差异直接相关。

实验二:主要针对三种暴力音频事件的两两组合间的识别, 以此来验证本文所提取的特征在不同暴力音频事件上的各自识别效果。此处, 只是选取爆炸、枪击和尖叫的镜头进行实验。同样, 本实验也是使用短时特征以及长短时特征的结合而设定了两组实验, 实验结果则如表5、表6所示。

通过表5和表6可以看出, 整体来说爆炸和枪击对尖叫的区分效果较好, 但爆炸和枪击二者的区分却要差上一些。这可能是由二者的特性所导致, 毕竟二者在发声上有较大的近似。只是进一步地, 通过加入长时特征, 就可以将三种暴力音频事件实现有效的区分。

实验三:四类识别。实验数据包括三种暴力音频事件镜头的特征, 以及所有不包含三种音频事件镜头的特征。共四类数据。与上述实验一样, 采用了5折验证, 并且也使用了短时特征以及长短时特征进行实验, 实验结果分别如表7、表8所示。

由表7和表8可知, 在进行多类的识别时, 加入长时特征, 也可以提高实验的识别效果。总体来说, 对于当前所使用的数据库, 加以客观条件所限, 本文取得的结果已是较为理想。而且, 对于处理不定长的音频段, 利用长短时特征的融合, 亦可以有效地提高相应的识别效果。

3 结束语

现阶段对于电影中的暴力检测研究仍属稀少, 而且已有研究基本都采用视频数据进行对暴力镜头的检测。使用音频进行检测仍尚属罕见, 尤其是暴力电影中的音频事件 (爆炸、枪击、尖叫等) 检测。本文使用上述所介绍的音频特征同时对爆炸、枪击、尖叫等三种具有代表性的暴力音频事件进行了检测。取得了较好的结果:最高的为爆炸, 达到了93.3%;最低的为尖叫, 也达到了81%。总体来讲, 本文提取的特征是有效的, 而且能够产生较好的识别结果。大部分的暴力音频检测在较短的音频段进行和实现, 而对电影中以镜头为检测粒度的工作及文献还较少见到, 因此, 对于一个镜头中的音频特征的提取和使用则是后续需要进一步深度研究的工作内容之一。与此同时, 在后续的工作中还要考虑使用其他的分类算法, 以在更大程度上提高研究的识别结果。另一方面, 暴力音频事件的检测更是对电影中暴力镜头检测工作的一部分。因此, 未来应该可以与视频特征相结合进行暴力镜头检测。

摘要：暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征, 由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性, 现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外, 还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位, 使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验, 表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中, 能够取得较好的结果。

关键词：暴力镜头检测,多尺度时长特征,音频事件检测,支持向量机

参考文献

[1]DEMARTY C H, PENET C, GRAVIER G, et al.The mediaeval2012 affect task:violent scenes detection in hollywood movies.MediaEval 2012 Workshop, Pisa, Italy, October 2012:4–5.

[2]CHEN L H, HSU H W, WANG L Y, et al.Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV) , 2011 Eighth International Conference on.IEEE, 2011:119-124.

[3]CHEN Y, ZHANG L, LIN B, et al.Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA) , 2011 Second International Conference on.IEEE, 2011:95-98.

[4]NAM J, TEWFIK A H.Event-driven video abstraction and visualization[J].Multimedia Tools Appl, 2002, 16 (1-2) :55–77.

[5]GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.

[6]HUANG Weimin, et al.Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA) , 2010 the5thIEEE Conference on.IEEE, 2010.

[7]PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al.Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008.ICASSP 2008.IEEE International Conference on.IEEE, 2008.

[8]PENET, CDRIC, et al.Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]//Content-Based Multimedia Indexing (CBMI) , 2013 11thInternational Workshop on.IEEE, 2013.

[9]CHENG W, CHU W, WU J.Semantic context detection based on hierarchical audio models[C]//Proceedings of the 5thACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.

[10]NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene characterization[C]//IEEE International Conference on Image Processing, 1998:353–357.

[11]Temko A, Nadeu C, Biel J I.Acoustic event detection:SVMbased system and evaluation setup in CLEAR’07[M].Multimodal Technologies for Perception of Humans.Springer Berlin Heidelberg, 2008:354-363.

【音频技巧】推荐阅读：

音频信号07-20

音频管理06-08

音频音响系统05-23

数字音频传输06-15

音频功放电路06-16

网络音频传输07-02

音频系统改造08-24

音频处理技术09-02

播音音频范文08-21

音频自动播出系统05-19

>> 查看更多相关文档