音频治疗(精选10篇)
音频治疗 篇1
慢性喉炎是耳鼻喉科临床常见的疾病之一,多与长时间用嗓、抽烟、饮酒、细菌感染等因素有关。目前临床常规治疗有喉腔滴药、雾化吸入、微波、音频电等多种方法。我院采用中药超声雾化加音频联合喉腔滴药治疗慢性喉炎,效果显著,现将结果分析报道如下。
1 资料与方法
1.1 一般资料
选择我院2008年5月至2011年4月收治的慢性喉炎患者164例,均符合《实用耳鼻咽喉科学》中关于慢性喉炎的诊断标准[1],均有喉部干燥不适、声音嘶哑、喉痛、干咳或黏痰等临床表现,同时排除喉部肿瘤、肺部感染和不能配合治疗的患者。
采用随机数字表法将全部患者分为观察组和对照组,每组各82例。对照组患者年龄18~65岁,平均年龄为(45.36±11.25)岁;病程0.5~12年,平均病程(6.37±2.74)年;其中男性34例,女性48例;职业包括教师37例、歌手21例、话务员15例、播音员5例、其他4例。观察组患者年龄20~66岁,平均年龄为(45.93±11.57)岁;病程1~11年,平均病程(6.25±2.58)年;其中男性35例,女性47例;职业包括教师35例、歌手22例、话务员14例、播音员6例、其他5例。
两组患者从性别、年龄、临床表现、病程、职业等方面比较,差异无统计学意义(P>0.05),具有可比性。
1.2 治疗方法
全部患者均戒烟戒酒、忌食刺激性食物、注意声带休息,并给予音频联合喉腔滴药治疗。患者取坐位,将庆大霉素8万U、地塞米松5mg、生理盐水10m L混合,以长弯形喉滴管于间接喉镜下缓缓滴入喉腔,2~3滴/次,2次/d;音频治疗电流强度为20m A,治疗时间为20min,1次/d[2]。
观察组患者在此基础上给予中药超声雾化治疗,取桔梗10g、胖大海6g、金银花15g、野菊花15g、射干9g、牛蒡子9g、木蝴蝶10g、陈皮6g、生甘草6g,加水1000m L煎煮至约200ml,滤出煎液,放冷后取药液150ml超声雾化吸入,15min/次,2次/d[3]。
全部患者均以14d为1个疗程,连续治疗2个疗程。
1.3 判断标准
显效:发音正常、无哑音,咽干、喉痛、干咳等临床症状基本消失,喉镜检查结果提示声带表面色泽正常,声门闭合良好。有效:声嘶症状减轻,咽干、喉痛、干咳等临床症状缓解,喉镜检查结果提示声带仍有轻度肿胀、充血,声门闭合较差。无效:临床症状未见明显改善,甚至恶化[4]。总有效率=(显效+有效)例数/总例数×100%。
如同一患者发生几种不良反应,以症状最严重的不良反应计一次。
1.4 统计学方法
全部数据均采用SPSS13.0统计学软件进行处理,计数资料以百分率(%)表示,比较采用χ2检验,P<0.05表示差异有统计学意义。
2 结果
2.1 临床疗效比较
与对照组比较,观察组总有效率明显较高,差异有统计学意义(P<0.05)。具体数据详见表1。
注:与对照组比较,*P<0.05
2.2 不良反应比较
两组不良反应发生率比较,差异无统计学意义(P>0.05)。全部不良反应症状均较轻微,未进行特殊处理,不影响治疗,并于停止治疗后自行消失。具体数据详见表2。
3 讨论
临床上治疗慢性喉炎的方法较多,但尚无特效方法治愈此病。一般治疗前需消除诱因,嘱患者戒烟戒酒、忌食刺激性食物,并注意声带休息。药物治疗常用皮质类固醇激素,口服或静脉注射的给药方法在声带局部达到的药物浓度均不高,长期应用不良反应较大;喉腔滴药的给药方式利用了喉部黏膜毛细血管丰富的特点,使药物得到良好的吸收,同时大大减轻了激素的不良反应。音频电疗法可促进喉部血液循环与淋巴回流、抑制神经兴奋性,具有良好的消炎镇痛作用;同时可减轻肌肉痉挛、提高声带张力,对喉部的慢性炎症具有较好的消退作用[5]。
中医学理论将慢性喉炎归纳于“喉喑”、“喉痹”之范畴,多由风寒之邪入侵,肺气失宣、气血不调、经络气机不畅,以致声门受阻。治则以行气活血、散结开音为法。方中桔梗、胖大海宣肺祛痰、利喉开音;金银花、野菊花清热解毒、疏散风热;射干、木蝴蝶清热解毒、消痰利咽;牛蒡子化痰散结;陈皮理气化痰;生甘草调和诸药。上药合用,共奏行气化痰、散结开音之功效。采用超声雾化法吸入药液,可引药力直达病所,疗效更佳。
本研究结果表明:采用中药超声雾化加音频联合喉腔滴药治疗慢性喉炎,可以取得良好的临床疗效,且不产生额外的不良反应,值得推广应用。
参考文献
[1]黄选兆,汪吉宝.实用耳鼻咽喉科学[M].北京:人民卫生出版社,2001:1314.
[2]赵世春,杨晓霞,李玉琴.音频电和超短波治疗慢性喉炎的临床实验[J].航空航天医药,2009,20(1):16-18.
[3]魏晓萍.喉腔滴药和超声雾化加音频治疗306例慢性喉炎的疗效观察[J].重庆医学,2011,40(1):75-76.
[4]木克热木木奎依提,高颖,阿不都西克尔,等.比较金喉健超声雾化剂与利咽饮对小儿急慢性喉炎的疗效[J].中国临床药理学杂志,2010,26(8):586-588.
[5]李乐.慢性喉炎的治疗进展[J].中医耳鼻喉科学研究杂志,2008,7(1):30-33.
音频治疗 篇2
摘要:个人移动设备中的音频系统能够将多种功能集成为一体,不过由于选择众多,满足这些需求比较困难。一种有效的解决方案是使用音频子系统,该子系统可以使系统便捷五连并且提供出色的音频性能。性能改善的主要领域是扬声器的输出功率、电源抑制和高动态范围编解码器。
关键词:混合信号;音频;子系统;便携式;路由
引言
功能手机、智能手机、PDA以及其它许多手机派生产品正在取代许多便携式电子设备的地位。这种功能融合,在减少消费者携带设备数量的同时,扩大对系统的音频要求,并增加了设计人员解决音频难题的负担。
随着音频需求的增加,系统设计人员可以选择使用分立音频功能模块的方法。然而,在混合信号系统中采用这种方法是多线作战。在数字领域,提供多种采样率、格式和数字式电平会使复杂性呈指数级增长。在模拟领域,信号偏置于不同的电平水准,同时需要混合和切换、放大和衰减,且容易拾取噪音。事实上,目前便携式媒体设备具有10~20条不同的音频信号路径非常普遍。在这种迷宫中找到一条道路是一项艰巨的任务。混合信号子系统通过集成多种有效要素,帮助解决这类问题。
信号路由
混合信号子系统的最显著的特点是它能够将许多信号路由到多个地方。凭借使用路由信号,便携式媒体设备或手机能够执行许多任务。混合信号音频子系统的示例如图1所示。
例如,考虑一个同时具备手机和数字音频播放器功能的系统。来自手机基带的脉冲编码调制(PCM)数字信号需要连接到数模转换器(DAC),继而连接到耳机放大器供耳机使用。同一耳机放大器也适用于数字音频播放器,这是一个I2s数据流,通过DAC播放然后连接到耳机。具有双数字音频端口的混合信号子系统可以轻松完成此任务。
具备多路复用能力的混合信号音频子系统的男一个优点是能够处理模拟FM收音机信号。虽然调频收音机信号电平通常是受到控制的,但它们常常超出规格。这些超出规格的电平通常比预期大得多,这可能会导致扬声器损坏。混合信号音频子系统可以将FM信号数字化。使用DsP从而提供自动电平控制(ALC)和均衡,然后转换回模拟信号以便放大给扬声器或耳机。此外,混合信号子系统可以将数字化的信号传递给基带处理器,以便进行更多DSP处理。
除了音频路由和处理之外,混合信号子系统还可以混合多个音频流。通过将来自麦克风的信号混合到耳机中,由此产生侧音。同样,可以在听音乐的同时播放铃声,而无需使音乐静音。
拥有两个数字音频端口可以使混合信号音频予系统成为在系统内连接数字音频的强大工具。例如,I2s数字音频流可转换为PCM并发送到基带。或者,可以使用相同方法将48kHz的I2S接口数据流转换为44.1kHz信号。
受益于双数字音频端口和采样率转换的一种应用是蓝牙桥。混合信号音频子系统提供从蓝牙收发器到基带的连接桥。如果需要,可以执行采样率转换,以及数字均衡。这种连接的示例如图2所示。
通过混合信号音频子系统连接到蓝牙收发器使许多案例成为可能。显然,电话机能够处理双向语音。蓝牙收到的音频信号能够发送到扬声器或耳机中。FM收音机信号在混合信号子系统中进行数字化并发送到蓝牙耳机。基带处理器可以将来自闪存的数字音频通过混合信号子系统发送到耳机或放大器,如具有蓝牙功能且能够帮助实现汽车中立体声效果的扩充口或耳机。
D类输出功率
D类扬声器放大器凭借其高效率正在成为智能手机和多功能手机的业界标准。D类放大器的优势在于输出功率。高输出功率的D类放大器能够实现手机扬声器达到响亮清晰的水准。在环境噪音较大的区域(如火车站和机场),通常需要迅速分辨铃声。
功能手机或智能手机也常常用于媒体资源共享。比如,与朋友分享一首歌或与同事共享信息。
混合信号音频子系统拥有高功率的D类放大器。例如,LM49352通常可用4.2v信号将970mW传递到8负载,总谐波失真及噪音(THD+N)仅为1%。这样出众的输出功率确保在较高的音量水平下清晰传递消息。
一项最新应用在手机中的功能是微型投影仪。微型投影仪在高输出功率标准下,可以实现与一群人共享视频。
PSRR
移动电话凭借开关模式电源(SMPS)高效提供多种电源电压。除了SMPS电源产出高频噪音之外,手机本身也会借助KF功率放大器(PA)循环供电。这种PA循环频率发生在音频频带中,通常为217Hz。
所有这些噪音源会降低手机的音频质量,有时会非常严重。混合信号音频子系统中一个最主要的特性是对这些噪音具有高抵抗力。混合信号音频子系统的电源抑制比(PSRR)可达90dB或更高,最大限度地减少了这些来源导致的任何噪音。例如,混合信号音频子系统LM49350的耳机放大器的PsRR测试结果表明,该器件在217Hz时的PSRR为95dB,且在较高频率区域的保持高音频质量。
高PsRR对系统具有巨大的价值。混合信号音频子系统的模拟电源可以直接连接到电池,源自SMPS的数字电源可用于产生其它数字核心电压。由于混合信号音频子系统本身能抑制噪音,因此不需要额外的低压降稳压器(LDO)或被动式滤波器来消除噪音。
单独的耳机电源
几乎所有便携式媒体设备具有的通用功能是其立体声耳机连接。与耳机的连接一般采用标准的3.5mm插孔、专用连接器或迷你USB接口的变形。在所有这些情况下,耳机阻抗通常约为32。一个充电泵产生负电压的真正接地的耳机放大器,只需施加1v电压到32负载,即可提供16mW的功率。对大多数用户来说,16mW"已非常响亮,所以实际所需的电压要低得多。
因为耳机放大器是AB类,所以单独及较低电源电压的耳机需要具备显著的功率优势。在图3中,两条曲线显示具有AB类输出的单通道理想放大器。只需将耳机电源从3.3V降低到1.8V,即可节省能耗45%。虽然D类放大器在理论上将节省更多能源,但它需要体积较大且比较昂贵的LC输出滤波器。而且,未知的耳机线长度和负载阻抗也会使滤波器的设计变得非常困难。
高SNR数据转换器
高性能的数据转换器是使几何处理技术水平日益下降的一个因素。遗憾的是,手机中的基带Ic凭借先进的处理技术,可以在最小尺寸和最低功耗水平下提供较高的性能。虽然它实现了这些优点,但是在基带DAC和ADC中维持较高的信噪比(sNK)变得越来越难。
手机的多功能融合加剧了这种性能的下降。如果它们只是用作手机,就没有太大的问题。然而,对许多人来说,手机也是他们的便携式音乐播放器。这使信噪比要求特别是在使用高品质耳机的时候,从电信质量提高到高保真。
有人可能会提出异议。认为SNR超过90dB将造成浪费,但实际上这是不正确的。的确,绝大多数音频便携式媒体设备起源于CD音质(44.1kHz采样,16位分辨率),且使用MP3之类的算法压缩至更低的分辨率和保真度。然而,对于正常听力水平,大多数耳机对2nlw左右的功率具有足够的灵敏度。针对SNR设定的标准是40row或更高的满载输出,因此设计人员只损失了大约26dB SNR。
由数模转换移出基带的另外一个优点是可以让DAC更贴近负载。与模拟信号相比,数字信号具有更高的抗噪能力。混合信号子系统消除了从基带DAC到外部放大器的布线,从而消除了这种噪音来源。
结语
音频治疗 篇3
1 资料与方法
1.1 一般资料
67例患者均符合慢性胃炎诊断标准, 将67例患者随机分为两组, 治疗组34例, 男16例, 女18例, 年龄20-78岁, 平均 (41±9.2) 岁, 对照组33例, 男12例, 女21例, 年龄19~80岁, 平均 (42±10.2) 岁。两组患者的年龄、性别、临床表现、病情程度、H.pylori检测、胃液分析情况相似, 具有可比性 (P>0.05) 。
1.2 方法
(1) 药物治疗采用根除H.pylori, 抑酸或抗酸, 消除或减少胆汁反流, 增强胃粘膜的防御与保护, 促进消化道动力, 抗氧化剂、抗抑郁, 给予维生素等。 (2) 治疗组在上述治疗基础上, 加用音频电药物透入结合超短波治疗。应用汕头市医用设备厂DL-C-B超短波电疗机, 患者仰卧位, 27cm×18cm板状电极于上腹部对置, 温热量, 80-100m A, 2 0 m i n。超短波治疗后再采用上海产Y D-Ⅱ型音频电疗机, 频率2000Hz, 电极10cm×8cm×2cm进行治疗, 药物为:维生素B1针剂, 并置法于胃肠区, 电流密度0.1~0.3m A/cm2, 1次/d, 30min/次。两组均治疗4周后评定疗效。 (3) 疗效评定标准。痊愈:临床症状消失, 胃镜检查炎症消失, 胃液分析正常;显效:临床症状明显减轻, 胃镜检查炎症减轻, 病变范围减小, 胃液分析较初诊有改善;无效:临床症状无变化, 胃镜检查炎症、病变范围无变化, 胃液分析无变化。
1.3 统计学方法
计数资料采用χ2检验, 以 (P<0.05) 为差异有统计学意义。
2 结果
治疗组明显优于对照组见表1。
3 讨论
药物处方的作用:维生素B1在体内形成焦磷硫酸铵, 是糖代谢中间产物丙酮酸氧化脱羧酸的辅酶组成部分, 为糖类代谢所必需, 它能维持心脏、神经及消化系统的正常功能。
超短波具有护张局部血管, 加速局部血流, 增加毛细血管通透性, 增强吞噬细胞的活性, 提高机体免疫功能。能改善局部组织的营养和生理状态, 起到镇痛及加快炎症组织修复的作用。音频电 (尤其是频率2000HZ的电流) 可使局部血液循环明显加快, 局部血流量增大55%“音频电”通过溶液时, 交变电场引起离子极化, 形成离子交变机械震荡, 致使水化膜厚度变薄, 削弱溶剂与溶质间的引力, 从而增加溶液中药物离子扩散和离子迁移速度。“音频电”每一个脉冲具有较高的电位, 可改变离子透入人体时的渗透压, 有利于离子透入人体, 提高药物透入人体率。音频电药物透入前做超短波治疗能使局部皮肤毛孔扩张, 血液循环加快, 有利于药物透入, 起到协同增效作用[2]。慢性胃炎属于中医“胃脘痛”、“胃痞”、“痞胀”等范畴, 认为胃为水谷之海, 若饮食不节, 情志失调, 脾胃素虚或感受外邪则致胃脘痛, 其共同病机为胃气阻滞、失于和降[3]。应用音频电药物透入结合超短波治疗慢性胃炎, 加速局部血流, 能通经活络, 气血疏通, 促进胃肠功能蠕动, 消饱胀维持心脏、神经及消化系统的正常功能, 是一种安全、有效、无创性治疗, 患者易于接受, 治疗效果满意, 优于单一药物治疗。
参考文献
[1]韦健盛.慢性胃炎中西医结合治疗进展状况[J].光明中医, 2011, 26 (12) :2594-2596.
[2]李世林.中药离子导入结合超短波治疗腰背肌筋膜炎的临床观察[J].社区中医药, 2010, 29 (12) :136-137.
音频新品速递 篇4
参考价格:698元
特色:iPod新伴侣
iSpeak 800是一款功能强大的移动数码音箱。这款音箱如一个放在底座上的半球,半球直径14cm,移动便携,适用于家居环境及野外郊游。iSpeak 800为2.1声道结构。配合10W的输出功率,全新微型铝振膜扬声器,钕铁硼磁体结构,结合三诺特有的气磁场仿真技术,保证了音质的良好表现。iSpeak 800特别具有苹果公司授权的音源插口,可通过推拉式的iPod底座接插不同型号的iPod产品,并可为iPod充电。产品提供了3.5mm音频输出插孔,可接驳MP3/笔记本等产品。iSpeak 800还具备时钟及音乐闹钟和收音机功能,提高了产品的实用性。
盈佳A-600X
参考价格:388元
特色:卫星音箱采用双分频设计
A-600X为2.1结构,黑白色的简单搭配,给人一种简约的时尚感。A-600X在单元的设计上非常出色,用料十足:采用厚实的中密度板制造的低音炮与卫星箱,不但可以防止谐振和箱声,对于提升音质也有一定好处;5.25英寸防磁的低音扬声器,输出功率为21W,低频量感十足,弹性优秀,声音相当饱满。双分频技术使中音以及高音表现也明显超过其他同价位的多媒体2.1产品,1英寸高音和3英寸中频高音各司其职,高频表现清晰透彻,中音丰满,人声的还原度具有不错的真实感,不论是用来看电影还是欣赏音乐,它都可以满足你的要求。
漫步者e3300
参考价格:498元
特色:时尚路线新作
漫步者的e系列是定位于时尚个性的产品系列,e3300是该系列的新成员。e3300的外观更加抽象化,绝对能与现代家居融为一体。外观设计灵感应该来自于金字塔的造型和女性曼妙的曲线。漫步者e3300卫星箱采用标准两分频设计,低音单元采用5英寸单元,由于电源适配器采用54W大功率专用电源,所以在使用时可以感受到强劲的低音效果。值得一提的是这款音箱配备的线控器配有AUX输入与耳机输出,并带有红色指示灯,非常人性化。
多彩DL2165
参考价格:128元
特色:实用实惠
多彩DLS-2165是一款全木质2.1声道多媒体有源音箱,外型简约大气,特别是开机后主箱按钮下方会有一线蓝色荧光灯亮起,别致且时尚。
音频治疗 篇5
音视频中暴力与色情内容的自动分析与检测已然成为近年来研究工作的新鲜热点之一, 而倍受各方广泛关注。尤其在网络发达的今天, 包含过多儿童不宜观看内容的音视频, 如果只是依靠人工审核, 即使耗费大量的人力及财力也难以即时发现不良信息。本文即针对电影中所包含的音频暴力片段进行研究, 提出了基于音频长短时特征与统计特征相融合的组合量特征, 由此而实现了一种基于音频的长短时特征与统计特征融合的暴力内容自动分析系统。
对于什么是暴力, 一直没有给出过权威的定义。目前以Media Eval竞赛为标准的暴力定义[1]是:“身体暴力或事故导致的人体伤害或疼痛。”鉴于视频数据的直观、特征可分性强等优势, 前期暴力检测工作的重点多是关注于视频数据的分析, Chen等就使用了平均运动强度等特征检测了打斗、流血等暴力镜头, 平均识别率达到了85%[2]。Zhang、Chen等则使用了基于内容的HOF特征进行打斗场景的识别, 也取得了86%的识别结果[3]。而基于暴力场景中经常采用特定音频事件来渲染气氛的特点分析, 随之即进一步展开了对基于音频特征暴力场景识别的有关分析与研究。其中, 由于能量熵可以反映短时间内的能量突变, Jeho和Ahmed就将其作为运动强度、火焰特征、流血特征等视频特征的辅助性能来完成基于事件的视频摘要提取工作[4]。为此, Theodoros等即使用了能量、过零率等八种音频特征对固定长度的音频段进行了暴力与非暴力的分类[5], 并且取得了90.5%的识别结果。时下大多数工作也只尝试对一种或少量几种暴力音频事件进行了检测。例如, Huang等使用能量和基频特征对尖叫事件所进行的检测, 最终取得了86%的识别结果[6]。Pikrakis等更使用了MFCC、能量熵、基频等在内的统计特征进行了枪击的检测, 相应地取得了90.6%的识别结果[7]。Penet又使用MFCC、能量等特征, 对枪击和爆炸产生的音响进行了识别, 分别取得了80%和72%的识别结果[8]。
在电影暴力内容的分析工作中, 基本单位多为镜头, 但每个镜头的持续时间却有所不同。因此, 除了镜头内的短时音频特征, 同时更要提取短时音频特征的长时统计特征, 如此才能进一步体现镜头内特征的变化。与其相应地, 本文即提出一种基于音频多尺度时长特征的暴力镜头中音频事件的自动分析与检测技术。
本文的主要结构安排如下:第一部分为基于长时特征以及统计特征的音频特征提取, 对暴力音频事件音频特征进行分析与提取;第二部分即对实验结果进行分析;最后进行总结以及给出对下一步工作的展望。
1 多尺度时长下暴力音频特征的定义与提取方法
电影中的声音对电影信息表达起着至关重要的作用, 尤其是在暴力镜头中, 声音的作用更是突出。若要对音频事件进行有效的识别, 就需要选择合适的特征。大多数音频场景分析通常采用短时特征, 且特征所对应的音频信号单元也多为定长[9,10,11], 如MFCC、短时过零率、LPC等特征都是研究过程的常见选择。
而电影中的镜头构成场景的声学事件多为不定长的音频片段。并且, 由于音频事件差异性较大, 使其持续的时长与特征也有本质不同。例如爆炸声和尖叫声、枪击声在子带能量、频谱质心和过零率等特征上均呈现不同的分布。本文中的长时特征, 即为体现出特征在一段时间内的变化, 可通过计算相应的统计信息而得到, 具体来说包括了子带能量的均值和方差、音频能量的均值和方差、帧间的一阶以及二阶差分等。
1.1 定时长短时音频特征的提取
定时长短时特征, 即通过对音频信息进行预处理、分帧之后提取的每帧的特征, 包括MFCC、基频、LPC、能量熵等。现在将各个特征的提取方式依次给出, 具体内容如下:
(1) MFCC是将人耳听觉感知特性和语音的产生机制相结合而来, 因此将更加接近人们的听觉认知习惯, 已经广泛用于音频信息分析。在此, 可划分26个mel频带, mel系数选取12, 这样本文共提取12维MFCC特征。
(2) 基频体现的是声音的知觉特性, 并且这种知觉特性在人们听闻和理解不同的声响中发挥着重要的作用。对于暴力声音, 如:尖叫、枪击等来说, 其音高均不相同, 因此可以采用音高特征作为本文音频事件的识别特征。
(3) LPC是根据理想的声道模型计算得到的, 为此根据爆炸、枪击和尖叫所发出声音的通道也是不同的, 可应用LPC及其倒谱系数LPCC特征来共同确定暴力音频的声源性质。
(4) 能量熵。能量熵是一帧信号中的能量变化程度。通过将每帧音频信号分为固定长度的K个大小相同的子窗口, 而对于每个子窗口i均要计算其经过标准化的能量σ2, 标准化过程就是将每个子窗口的能量除以整帧信号的能量, 具体计算如公式 (1) 所示。
本文中, K=5, 即每个子窗口长度为5ms, 在这个时间内的信号可定义为是稳定的。
1.2 变时长音频特征的提取
由于音频事件差异性较大, 且持续的时长与特征多有本质不同, 只是单纯提取短时特征即会造成大量信息丢失。因此本文工作中给出了根据暴力音频持续的时间差异, 分析获得不同时间长度内的统计特征, 包括能量谱质心和频谱质心特征、子带能量的均值和方差、音频能量的均值和方差、帧间的一阶及二阶差分等。下面将逐一分列其对应的计算模型, 详情如下。
(1) 能量谱质心和频谱质心特征
频谱质心是功率谱分布的重心位置, 能够作为度量音频亮度的近似指标, 并且不同暴力音频场景 (尖叫、爆炸、枪击) 会有不同音频亮度。因此频谱质心即是一种检测音频事件的有效特征。同时, 不同音频事件的音频信号频谱在其频谱质心周围的分布情况也是不同的。本文计算信号在经过傅里叶变换后将统计前256个频带的μ (μ=1, 2) , 也就是频谱质心和能量谱质心计算如公式 (2) 所示。
相应地, 当μ=1时, 计算可得频谱质心, 当μ=2时, 计算得到的则是能量谱质心。
在本文中, 还将计算语音信号频谱在其频谱质心周围的分布情况, 即频谱散度 (Spectral Spread, SS) , 其计算可见公式 (3) 。
(2) 归一化子带能量的均值和方差
子带的能量可以反映信号的不同声学特性。不失一般性, 本文应用数据的采样率为8k Hz。在此采样率下, 划分了十六个频率子带, 分别为[0-500 Hz], [500-1 000Hz], ..., [7 500-8 000Hz], 统计计算不同暴力音频事件在每个子带能量的均值和方差, 再将相同子带上的能量取均值并归一化, 使得各子带上的能量累加和为1, 从而得到能量在不同子带上的分布。
(3) 能量均值和方差
在不同的电影中, 整体的能量可能偏大或偏小。因此, 为了能够使相应的识别效果具有一定的鲁棒性, 即提取了一个镜头内音频能量的均值和方差。
(4) 帧间差分
通过帧间差分提取一个镜头内的特征的差异程度, 体现镜头内的一个长时的变化, 本文则采用HTK中计算差分的方法, 对文中提取的特征计算其一阶差分和二阶差分。其中, 一阶差分的具体计算公式如下:
式中, ct表示当前帧, Θ取2。
得到一帧信号的一阶差分后, 在一阶差分的基础上再进行一重差分, 就得到信号的二阶差分at, 其计算公式可表述如下。
综上所述, 本文中所提取特征及维数则如表1所示。
2 实验结果及分析
Media Eval 2012 Workshop[1]是目前公开的、较权威的暴力检测竞赛, 该竞赛所使用的视频数据主要选自Hollywood电影。本文即采用Media Eval 2012 Workshop所提供的数据库, 具体可称作VSD (Video Scenes Dataset) 。
数据的预处理, 主要对音频信号进行预加重, 并加汉明窗。本文中数据采用帧长为25ms, 帧移10ms。本文所使用数据库中包含的电影名称以及每个电影中包含特定暴力音频事件的镜头数目统计如表2所示。对于每一种音频事件皆选取4/5的镜头特征作为训练, 剩余的1/5作为测试集。
评测指标采用经典AED (Audio Event Detect) 中获得广泛采用的评价指标, 也就是Precision、Recall、F1, 其计算即如公式 (6) 所示。
其中, β表示Precision和Recall之间的平衡因子, 本文中β=1。
本文主要设计三组实验, 分别针对三种暴力音频事件和正常音频场景的识别、三种暴力音频事件之间的识别以及三种暴力音频事件和正常音频的四类问题。其中分类器采用的则是SVM[12]。
实验一:针对三种暴力音频事件和非暴力音频的识别, 即爆炸和非爆炸, 枪击和非枪击, 尖叫和非尖叫。其中设定了5折实验, 而且分别使用短时特征以及长短时特征的结合来进行实验, 具体识别结果如表3、表4所示。
通过表3, 表4可以看出, 仅仅使用短时特征虽然能够取得较好的结果, 但如果能够加入长时特征, 整体的识别结果仍会得到更为显著的提升。同时, 由上述实验结果也可以看出, Precision普遍较低。这一结果则与选取数据库中的暴力镜头和非暴力镜头的数量差异直接相关。
实验二:主要针对三种暴力音频事件的两两组合间的识别, 以此来验证本文所提取的特征在不同暴力音频事件上的各自识别效果。此处, 只是选取爆炸、枪击和尖叫的镜头进行实验。同样, 本实验也是使用短时特征以及长短时特征的结合而设定了两组实验, 实验结果则如表5、表6所示。
通过表5和表6可以看出, 整体来说爆炸和枪击对尖叫的区分效果较好, 但爆炸和枪击二者的区分却要差上一些。这可能是由二者的特性所导致, 毕竟二者在发声上有较大的近似。只是进一步地, 通过加入长时特征, 就可以将三种暴力音频事件实现有效的区分。
实验三:四类识别。实验数据包括三种暴力音频事件镜头的特征, 以及所有不包含三种音频事件镜头的特征。共四类数据。与上述实验一样, 采用了5折验证, 并且也使用了短时特征以及长短时特征进行实验, 实验结果分别如表7、表8所示。
由表7和表8可知, 在进行多类的识别时, 加入长时特征, 也可以提高实验的识别效果。总体来说, 对于当前所使用的数据库, 加以客观条件所限, 本文取得的结果已是较为理想。而且, 对于处理不定长的音频段, 利用长短时特征的融合, 亦可以有效地提高相应的识别效果。
3 结束语
现阶段对于电影中的暴力检测研究仍属稀少, 而且已有研究基本都采用视频数据进行对暴力镜头的检测。使用音频进行检测仍尚属罕见, 尤其是暴力电影中的音频事件 (爆炸、枪击、尖叫等) 检测。本文使用上述所介绍的音频特征同时对爆炸、枪击、尖叫等三种具有代表性的暴力音频事件进行了检测。取得了较好的结果:最高的为爆炸, 达到了93.3%;最低的为尖叫, 也达到了81%。总体来讲, 本文提取的特征是有效的, 而且能够产生较好的识别结果。大部分的暴力音频检测在较短的音频段进行和实现, 而对电影中以镜头为检测粒度的工作及文献还较少见到, 因此, 对于一个镜头中的音频特征的提取和使用则是后续需要进一步深度研究的工作内容之一。与此同时, 在后续的工作中还要考虑使用其他的分类算法, 以在更大程度上提高研究的识别结果。另一方面, 暴力音频事件的检测更是对电影中暴力镜头检测工作的一部分。因此, 未来应该可以与视频特征相结合进行暴力镜头检测。
摘要:暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征, 由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性, 现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外, 还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位, 使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验, 表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中, 能够取得较好的结果。
关键词:暴力镜头检测,多尺度时长特征,音频事件检测,支持向量机
参考文献
[1]DEMARTY C H, PENET C, GRAVIER G, et al.The mediaeval2012 affect task:violent scenes detection in hollywood movies.MediaEval 2012 Workshop, Pisa, Italy, October 2012:4–5.
[2]CHEN L H, HSU H W, WANG L Y, et al.Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV) , 2011 Eighth International Conference on.IEEE, 2011:119-124.
[3]CHEN Y, ZHANG L, LIN B, et al.Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA) , 2011 Second International Conference on.IEEE, 2011:95-98.
[4]NAM J, TEWFIK A H.Event-driven video abstraction and visualization[J].Multimedia Tools Appl, 2002, 16 (1-2) :55–77.
[5]GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.
[6]HUANG Weimin, et al.Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA) , 2010 the5thIEEE Conference on.IEEE, 2010.
[7]PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al.Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008.ICASSP 2008.IEEE International Conference on.IEEE, 2008.
[8]PENET, CDRIC, et al.Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]//Content-Based Multimedia Indexing (CBMI) , 2013 11thInternational Workshop on.IEEE, 2013.
[9]CHENG W, CHU W, WU J.Semantic context detection based on hierarchical audio models[C]//Proceedings of the 5thACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.
[10]NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene characterization[C]//IEEE International Conference on Image Processing, 1998:353–357.
[11]Temko A, Nadeu C, Biel J I.Acoustic event detection:SVMbased system and evaluation setup in CLEAR’07[M].Multimodal Technologies for Perception of Humans.Springer Berlin Heidelberg, 2008:354-363.
音频治疗 篇6
关键词:音频指纹,压缩域音频,音频识别,鲁棒性
随着多媒体信息量的急剧增加, 如何从一个音频数据库中快速而准确的查找到自己所需要的音频文件已经变得越来越困难。当前主流的基于关键信息的音频索引方式要求查找者事先知晓待查音频的至少某一项关键信息 (如作者、文件名称、关键词等) [1], 并且检索结果一般不唯一, 还需要人工进行二次筛选。因此, 国内外学者于20世纪末开始研究基于音频指纹的音频自动识别理论和技术。音频指纹是指可以代表一段音频重要声学特征的基于内容的紧致数字签名, 其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量[2]。
在众多的音频指纹识别方案中, Philips算法[3]当属经典, 随后出现的音频指纹算法绝大多数都是基于Philips算法的改进方案。但是这类算法一般针对wav格式的音频进行研究, 不符合当前大多数音频文件都以压缩格式 (如MP3格式) 进行存储和传输的现状。所以, 直接从压缩域音频提取指纹已经成为了研究音频识别技术一个新的热点。压缩域音频指纹是指从经过有损压缩后的音频文件 (如MP3和AAC) 中直接提取指纹, 其过程并不对压缩域音频文件进行完全解码。目前压缩域音频指纹算法主要集中于选用从MP3解码得到的MDCT (Modified Discrete Cosine Transform, 修正离散余弦变换) 频谱系数来计算指纹。根据对现有压缩域音频指纹算法的总结, 仅有数十篇文献对其进行研究, 主要分为以下两类。文献[4, 5]首先由MDCT系数来计算MFCC系数, 从而根据MFCC系数的统计特征来获得指纹。文献[6, 7]把从若干帧MP3解码出来的MDCT系数作为一个块, 接着按照某种刻度将每个MDCT块划分为多个子带, 根据子带能量来计算每个块的子带能量期望或者子带能量熵, 最后由相邻块的期望差或熵差来定义指纹。虽然大部分上述指纹方案均取得了很好的正确识别率, 但是它们对指纹算法的鲁棒性测试均不够。且算法[6,7]在应对随机剪切带来的音频片段边界不对齐的问题时效果较差, 即使用于比较的两个音频片段具有相同的听觉内容。
提出了一种基于MDCT频谱的对数带能量的压缩域音频指纹算法。相比于其它同类算法, 该算法的指纹尺寸更小, 识别率更高, 鲁棒性更好。
1 压缩域音频指纹算法
MP3格式由于其在压缩率和音质两方面具有很好的平衡性, 它已成为了绝对主流的音频压缩格式。本文选择MP3音频文件作为研究和实验的对象, 由于MP3编解码的理论和技术都比较成熟, 且MP3编解码过程不是本文的研究重点, 因此在这里不对MP3的编解码步骤进行叙述。本文算法也选用MDCT频谱来计算指纹, 对于MP3编码和解码过程中得到MDCT频谱的具体流程, 可以根据文献[8]来实现。并将从得到MDCT频谱后开始介绍压缩域音频指纹算法, 其详细过程如图1所示。
把从10帧MP3解码出来的MDCT系数作为一个MDCT块, 相邻块之间有95%的重叠。由于一帧MP3包含两个节, 即相邻块之间具有一个节的跳距。从一个MDCT块, 能提取出一个长为24 bit的子指纹。一个子指纹一般不足以用于识别出相应的完整的音频, 所以把208个子指纹组成一个指纹块, 称之为查询指纹块, 它可以用于进行有效地音频识别。采用此指纹计算策略的结果是从一个长约0.26 s的MDCT块提取一个子指纹, 而相邻块的差距仅为13.06 ms。这样在识别过程中, 使用的查询指纹块与事先存储在数据库中的指纹块的边界不对称的最大误差为6.53 ms。也就是说大的重叠, 可以确保即使在最坏的情况下, 待识别的音频片段的绝大多数子指纹仍然和数据库中相同片段的子指纹是非常相似的。从而可以确保算法具有较高的正确识别率。实验中选择的MP3格式的音频信号的属性为:44.1 k Hz采样率、1 141 kbps码率, 则一个查询指纹块对应的音频片段的长度约为3 s, 即只需要一段长为3 s的未知音频片段即可识别出完整的音频, 因此该算法的指纹粒度为3 s, 指纹尺寸为4 992bits (=208×24) 。参见图1, 压缩域音频指纹算法的具体实现步骤如下
(1) 在得到MDCT系数后, 首先用式 (1) 对其进行预加重处理, 以提高MDCT频谱能量的信噪比;
(2) 对MDCT系数进行重叠分块。
(3) 由于对数刻度能够很好地反应人耳对声音频率高低的听觉特性[3], 在300 Hz~fs频率范围 (与指纹识别算法最相关的频率范围) 内按照对数刻度把每节MDCT块划分成25个子带, 这样可以确保提取出的指纹与听觉内容具有很大的相关性。
(4) 计算同一块内的具有相同子带序号的能量和:如果用SEN (i, j) 来表示MDCT频域的第i块第j个子带的能量;s (m, n) 表示第m个节中的第n个MDCT系数;MDCTi和MDCTj分别表示属于某个子带的MDCT系数索引的上下界限, 因此第i块第j个子带的MDCT谱能量可依式 (2) 来计算。
(5) 其实指纹序列是一组二进制比特流, 按式 (3) 对音频指纹的每个比特进行定义。
2 算法测试
2.1 有效性
首先来测试指纹算法是否能主要根据听觉内容来进行音频识别, 且不考虑音频文件的格式 (压缩域或者非压缩域) 。在Method Man的“All I Need”歌曲中节选一段长为3 s的音频片段 (32 Kbps@MP3格式) , 并且选择其相应的wav格式的版本, 两个片段的采样率均为44.1 k Hz, 根据这两个具有相同听觉内容的音频片段来观察该算法在指纹相似性方面的性能。用第2节所述的指纹算法计算二者的音频指纹 (一个含有208个子指纹的指纹块) 分别见图2 (a) 和图2 (b) 。在图2中, 黑点代表“1”, 白点代表“0”。图2 (c) 中的黑点即反应了指纹图2 (a) 和图2 (b) 的差距。为了测试不同音频片段的指纹之间的相似性, 也可以称之为指纹间的区分性, 图2 (d) 示出了Oasis的“Live Forever”歌曲 (MP3格式, 采样率44.1 k Hz, 码率为32 Kbps) 中一段长为3s的音频片段的指纹图。图2 (e) 中的黑点表示了指纹图2 (a) 和图2 (d) 的误码位置。
从图2 (c) 中比较少的黑点数量 (实为1 171点) 可知, 即使音频格式不同 (原始音频为wav格
(a) :“All I Need”32 Kbps@MP3版本的指纹图; (b) :“All I Need”的wav格式的指纹图; (c) : (a) 与 (b) 的误码图; (d) :“Live Forever”32 Kbps@MP3版本的指纹图; (e) : (a) 和 (d) 的误码图
式, 另一个为MP3格式) , 指纹算法从相同听觉内容中提取出的指纹仍然具有很大的相似性, 即算法可适用于压缩域音频和非压缩域音频的指纹在同一个指纹数据库中进行有效检索。从图2 (e) 中许多杂乱的黑点 (实为2 339点) 可知, 对于不同听觉内容的音频, 其指纹之间的汉明距离相当大。因此, 指纹算法能很好的根据听觉内容来判定两个音频片段的相似程度。
2.2 误码率阈值
选择误码率 (bit error rate, BER) 用于度量两个音频片段的相似程度。假设用于比较的两个指纹片段的长度分别为N1、N2 (设N1≤N2) , 指纹间的汉明距离为M, 则BER可以定义如下
通过多次指纹相似性测试实验得到BER阈值λ=0.355, 即当BER<0.355时, 就认为两个音频片段的内容相似;反之当BER>0.355时, 可以判定两段音频的内容不相同。计算图2 (c) 和图2 (e) 中的误码率分别0.234 6和0.468 5, 与3.1节的实验结论一致。对于可靠的音频指纹识别系统, 要求不同听觉内容的音频片段对应的指纹之间的BER应该大于判决阈值, 这就要求误码率阈值不仅能衡量指纹之间的相似性, 还要能体现出良好的区分性。通过如下实验来测试误码率阈值对不同听觉内容的区分能力:实验样本为随机选择的1 000个不同的长约为3秒的音频片段 (MP3或wav格式, 立体声, 16bit量化, 44.1 k Hz采样率) , 这些音频片段涵盖了民谣、轻音乐、摇滚、DJ、电子、嘻哈、乡村、布鲁斯、爵士、古典等10种不同的音乐类型。使用本文算法计算每个音频片段的指纹 (一个查询指纹块大小, 208×24=4 992比特) , 再对这1 000个指纹块互相之间进行两两对比, 计算出所有的BER, 则总共可以得到499 500 (=999+998+…+1) 个BER数据, 最后对这499 500个BER数据做分布图, 结果如图3所示。同时, 采用相同的实验样本, 分析文献[6]和文献[9]中的压缩域音频指纹算法的BER分布。在图3中, 横轴为BER的值, 纵轴为具有相同BER值的指纹的个数, 它们的和为499 500。
从图3中可看出BER近似于呈正态分布, 这是因为不同感知内容的音频之间其指纹分布规律是随机的。理论上所有的BER数据应该在0.5两边完全对称, 图3中所示的异常情况是由于BER的统计数据并不是足够多。本文算法所产生的全部BER数据的均值为0.499、方差为0.030 3;在文献[6]的算法中, 这一结果分别为0.501 2和0.030 7。在文献[9]中, 这一结果更糟, 仅有0.501 8和0.031 9。这意味着根据本文的算法, 从不同音频内容所生成的音频指纹之间具有更好的区分性。此外, 本文算法的BER数据中没有出现BER<0.35, 由此可知本文的指纹提取算法能很好地很据听觉内容对音频片段的相似程度做出正确的判断。
2.3 鲁棒性
这里仍然采用3.2节所述的实验样本。对每个音频片段按照如下11种方式进行时频域失真处理:回声 (延迟0.5 s) 、白噪声 (+10 d B) 、带通滤波 (截止频率100 Hz~5 000 Hz) 、MP3 32 kbps编码、MP3128 kbps编码、偏移 (+0.2) 、均衡器 (+1.0 d B) 、音量 (±1.5 d B) 、音调 (±3%) 、频谱滤波 (+1.0 d B) 、线性速度变化 (linear speed change, LSC±3%) 。对这1 000个原始音频片段与它们的失真处理版本进行指纹提取, 再计算每个原始音频的指纹与每种失真版本的指纹之间的BER。对于每一种失真, 都可以得到1 000个BER数据, 把这1 000个BER数据的平均值以及正确识别率 (1 000个BER值中低于误码率阈值的比例) 作为本文算法对该失真的鲁棒性结果, 可以得到如表1所示的鲁棒性测试结果。此外, 采用文献[6]和文献[9]中的指纹算法做相同的鲁棒性测试。
由表1可知, 本文的指纹算法对于常见的时频域失真处理均具有非常好的鲁棒性, 除了+10 d B白噪声处理外, 正确识别率均大于90%, 在实际应用中, 这是一个可以接受的结果。算法对白噪声的鲁棒性效果较差的原因在于:实验样本中的1 000个音频片段是随机截取的, 部分片段可能会含有较多的低音 (声音幅值较小) 信号, 白噪声会将这些低音部分淹没, 以致于这些片段在加入白噪声前后, 其指纹出现了较大的差异, 造成了正确识别率稍微偏低。但是白噪声处理所对应的BER平均值却不是最大的, 这说明对于不含有太多低音信号成分的音频片段, 指纹算法具有很好的鲁棒性。根据表1, 本文算法的鲁棒性强于文献[6]和文献[9], 尤其是对于抵抗LSC和音调变化。这是由于文献[6]和文献[9]中的算法是从更长的时间 (算法[6]为0.130 6 s, 算法[9]为0.095 8 s, 而本文为0.014 1 s) 中提取1比特指纹, 这将导致它们在应付音频数据线性移位方面的能力降低。进一步的实验还表明, 对超过±4.8%范围的LSC处理, 本文算法会失去鲁棒性。
3 结论
提出了一种基于音频指纹的压缩域音频识别方法, 它能实现压缩域音频和非压缩域音频的指纹在同一个指纹数据库进行有效检索。算法对约0.26 s内容提取24比特的子指纹, 相比于指纹尺寸同为3 s的类Philips算法 (8 192 bit=256×32) , 其指纹尺寸 (4 992 bit) 大大减小, 这可以缩短指纹的比较时间, 提高检索效率。实验表明, 算法对各种常见的时频域失真处理都具有较好的鲁棒性, 尤其是它能应对±4.8%以内的线性速度变化, 这对于商业应用 (例如广告和广播) 中常见的音频加速播放具有很好的识别效果。此外, 算法的多项特性均优于现有的压缩域音频指纹算法。本文后续工作的重点将围绕在大型指纹数据库中进行指纹的快速索引和匹配而展开。
参考文献
[1] Stephen A, Natalie L, Erica B, et al.Recognition of elderly speech and voice-drivendocument retrieval.Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing.Phoenix, USA, 1999:145—148
[2] 李伟, 李晓强, 陈芳, 等.数字音频指纹技术综述.小型微型计算机系统, 2008;29 (11) :2124—2130Li Wei, Li Xiaoqian, Chen Fan, et al.Review of digital audio fingerprjnting.Journal of Chinese Computer Systems, 2008;29 (11) :2124—2130
[3] Haitsma J, Kalker T.A highly robust audio fingerprinting system.Proceedings of the Intemational Symposium on Music Information Retrieval.Paris, France, 2002:107—115
[4] Saenz-Lecho N, Osma-Ruiz V, Godino-Llorente J I, et al.Effects of audio compression in automatic detection of voice pathologies.IEEE Transactions on Biomedical Engineering, 2008;55 (12) :2831—2835
[5] Liu Chih-Chin, Chang Po-Feng.An efficient audio fingerprint design for MP3 music.Proceedings of the 9th International Conference on Advances in Mobile Multimedia, Hue City, Vietnam, 2011:190 —193
[6] Wu Liming, Han Wei, Deng Yaohua, et al.A compression-domain audio fingerprint technique based on the mathematical expectation of MDCT spectrum.International Journal of Advancements in Computing Technology, 2013;5 (9) :291—298
[7] Zhou Ruili, Zhu Yuesheng.A robust audio fingerprinting algorithm in MP3 compressed domain.World Academy of Science, Engineering and Technology, 2011;55:715—719
[8] International Organization for Standardization.ISO/IEC 11172—3, 1993
音频接口设计 篇7
当今各式各样的音频设备层出不穷, 附有外部扬声器音频功能的便携设备日趋增多, 它们的输出根据配置和驱动的不同而各异。以往通用的音频接口已经远远不能满足需要, 所以急于设计出一个新的音频接口电路已满足不同设备, 下面将对于传统接口进行分析, 以及新的音频电路设计的必要性及优点。
2. 音频接口的种类
根据输出的不同, 我们可以区分音频为:单端信号、差分信号。
例如MP3播放器或手机的输出是单端信号, 适合驱动32Ω的听筒扬声器。典型外置扬声器系统的扬声器阻抗是4至8Ω, 每个声道可能会有多个扬声器。然而32Ω的驱动器难以驱动这些低阻抗扬声器, 也就无法提供足够的音量。
外部扬声器系统因品质、音量及扬声器数目的不同而有所区别, 因此通用的放大器将不适于驱动这些扬声器。如MP3播放器的扬声器系统具有耳机插孔输入端, 并能支持单端输出的立体声信号。某些新型高端扬声器系统可支持差分信号, 为了后向兼容, 这些系统也支持单端信号。
由于差分信号是单端信号的两倍, 因而单端信号和差分信号将产生不同的音量。人的听力和声音大小的关系符合对数曲线规律, 因此就不能采用线性的控制方式 (图1) 。
对于将输入信号放大为相等输出的单端/差分音频放大器来说, 有几种方法可以对其进行检测和实现。系统之间的接口连接器应至少有5个引脚才能提供差分信号。两个器件之间的共地连接是必须的。乍看起来, 由于信号是直流隔离的, 因而交流耦合电容无需与地连接, 但实际上这是提供理想噪声性能的需要。
3. 检测输入信号方法
在诸多电路中, 有两种电路用连接器的一个外部引脚来测试输入信号的直流电平。
一、指定连接器的一个外部引脚很容易, 但对于空间狭小的应用来说却不可行。源器件既能使该引脚开路也能使该器件接地。
二、是利用比较器来测试信号的直流电平, 看后者是接地的还是差分信号。
以上两种方法的输入信号都必须通过低通滤波器。原始信号必须分离为其直流电平的50%至25%, 如果系统在低频、高峰峰值交流信号的差分模式下, 这将导致错误的检测结果 (图2) 。若原始信号的直流电平是地电平的话, 这种技术也不能使用。
4. 电路设计
音频电路除上述检测电路外还有第二个部分是音频放大器。该电路的解决方案和所需的声音质量有关。真正的差分输入比进入一个放大器的差分信号能提供更高的声音质量, 实际的差分放大器需要一个附加电路将单端信号转换为差分输入。
对音频放大器来说最简单的办法是将信号输入到一个放大器中 (图3) 。在单端模式下, 该差分输入不产生信号, 允许不经转换的输入设置于0.5Vcc上, 这就是标准的单端输入配置。模拟开关保持在断开状态, 以使放大器输出2倍的增益。在差分模式下, 模拟开关闭合, 增益变为1。因此对不同的输入模式, 这两种输入信号都会产生相同的输出信号幅度。
第二种实现方法是采用真正的差分放大器来驱动扬声器。这种放大器可提供较好的噪声抑止。与上一方法不同, 此时输入音频放大器的信号必须是差分信号。差分信号可利用运算放大器或变压器来实现。
运算放大器的实现方法有利于系统的尺寸, 但对平衡输入信号则存在困难 (图4) 。该运算放大器的增益为-1, 以将单端输入信号变成反向信号。模拟开关在输入之间转换以实现音频放大器的输入。这种差分信号可以直接送入音频放大器中。 (下转第193页) (上接第191页)
替代运算放大器产生差分信号的另一个方法是采用1:1的变压器。该变压器可简化电路 (图5) , 但增加了尺寸, 特别是高度。需要注意的是, 变压器的频率范围必须在系统能够放大的音频信号范围之内。原始的输入信号必须采用交流旁路电容来使直流与地隔离。模拟开关可用来使该放大器的增益在2倍 (单端输入) 和1倍 (差分输入) 之间进行转换。
5. 音量控制
利用标准单向电位器通过几种方法可以实现对音量的控制。如前面所述, 旋转旋纽时, 具有对数特性的电位器才能产生平滑的音量控制。该电位器可以对电路进行计数, 从而产生线性的响应。对于差分输入, 单声道系统需要2个电位器, 而立体声系统则需要4个电位器。
最简单的方法是在电位器中的输入音频信号和地之间放置一个电阻, 滑动端与音频放大器的输入相连接。滑动端的输出与输入信号成比例。如果音频放大器需要大电流输入, 则将影响音频放大器的输入电阻比例, 因而不会产生期望的增益。当电容与电位器阻抗相关时, 会出现其它问题, 很可能产生旁路滤波器 (在电位器中滤掉某些频率的信号) 。
另一个解决方案是在电位器的滑动端增加一个运算放大器 (图6) 。对于输入端该电路呈现的是电位器的静态阻抗。运算放大器直接驱动音频放大器, 因而消除了增益的不同。对该电路来说, 由于音频放大器无法真正实现满幅 (rail-to-rai) 输出, 因此电位器不能通过接地来消除输出信号的噪声。
6. 结束语
音频接口设计是个比较复杂的设计, 不仅仅需要考虑信号的通用性, 而且还需要考虑其通用性。设计者对于传统各种音频设计需要有较深的了解, 然后综合这些众多音频设计, 总结优缺点, 从而设计出满足人们需要的, 通用性强的音频设计。
摘要:随着人们物质生活的提高, 各式各样的音频设备大量的进入到我们的生活中, 传统音频接口简单, 通用性较弱。随着不同设备的配置驱动的不同, 通用音频接口越来越值得关注。本文将讨论音频接口是现代通用化音频接口中重点考虑的问题。
关键词:音频,单端信号,差分信号
参考文献
[1]《电子工程专辑》, 2008
音频检索技术概述 篇8
随着互联网和移动通信技术的发展, 越来越多的人能够更加方便、快捷、经济地通过网络查找和传输各种信息。基于文本的信息检索已经无法满足现代的人们的需求, 图像图形信息和音频信息检索应运而生。
音频信息作为一种重要的信息载体, 相比图像、图形和文本信息有其独特的便利和优越性。音频信息检索技术有着广泛的应用前景: (l) 它是智能语音系统的核心技术, 用户可通过该技术方便快捷地获取所需的信息; (2) 它可以实现对网络中的媒体, 例如网上电视, 音视频等的音频信息进行实时检索、审查和有效监控, 对各种数字音频产品的版权保护, 如音乐的版权保护, 即搜索未经授权的使用等; (3) 它在音频信息分类与统计技术的研究中也扮演着重要的角色, 如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息, 使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索, 更好地管理、存储与高效利用这些资源。此外, 它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。
2 音频检索技术
2.1 音频及音频内容
音频泛指人类能够听到的所有声音。人耳能够听见的声波频率范围是20Hz~20 000Hz, 其中语音频率大约分布在300Hz~4 000Hz之间, 而音乐和其他自然声响则是全范围分布。
音频的内容从整体上来看可以分成三个等级:最底层的物理样本级、中间层的声学特征级和最高层的语义级。在物理样本级, 音频内容呈现的是媒体流形式, 其中包含原始音频数据和注册数据 (如采样频率、量化精度和压缩编码方法等) [1]。用户可以通过时间刻度检索或调用音频的样本数据, 如常用的音频录放软件Cool Edit。中间层是声学特征级。声学特征是从音频数据中自动抽取的, 它可以分为物理特征 (Physical Feature) 和感觉特征 (Perceptual Feature) , 前者包括音频的基频、幅度和共振峰结构等, 后者表达用户对音频的感知, 例如音调、响度和音色等, 可直接用于检索。最高层是语义级, 是音频内容、音频对象的概念描述, 在这个级别上, 音频的内容可以是语音识别、辨别后的结果 (文本) 、音乐旋律和叙事说明等。
2.2 主要的音频检索技术
早期对于音频信息的检索, 主要是采用文本检索技术, 即通过人工方式输入音频的属性和描述 (例如文件名、文件格式等文本信息) 来进行检索, 但其局限性非常明显:首先, 互联网信息庞杂, 充斥着许多未标注、错误标注文件名等文本信息的音频数据, 而如要正确标注互联网所有音频数据显然非人力所及;其次, 许多现实的应用需要使用音频数据本身的感知内容, 而这种感知内容通过简单的文件名等文本标注无法体现, 如音乐的旋律、音调、音质等[2]。再次, 即便针对于语音信息, 比如新闻记录、谈话记录等, 通过文本检索技术也仅仅是检索其文件标注, 而不能检索其内容。
为了解决上述问题, 基于内容的音频检索 (Content-Based Audio Retrieval, CBAR) 应运而生。它主要研究如何利用音频信息的幅度、频谱等物理特征, 响度、音高、音色等听觉特征和音频类别、语义等特征实现音频信息检索[3]。由于起步晚、数据复杂、研究难度大等原因, 基于内容的音频信息检索技术和文本检索技术相比仍存在很大差距, 还有大量问题亟待解决。
2.3 音频检索系统的基本框架
音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的音频检索, 该方法是从媒体数据总体取出特定的信息线索, 建立音频数据表示方法和数据模型, 采用有效和可靠的查询处理算法, 使得用户可以在智能化的查询接口的辅助下, 从大量存储数据库中的媒体进行查找, 检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询, 是检索出与用户指定的要求非常相似的所有声音。其检索系统的基本框架如图1所示:首先是建立数据库:对音频数据进行特征提取, 将特征装入特征库部分, 并通过特征对数据聚类, 然后将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。在查询接口上, 用户可以采用以下形式提交查询: (1) 示例查询方式 (Query by example) :用户通过查询界面选择一个声音查询例子, 并设定属性值, 然后提交查询。如查询与飞机的轰鸣声相似的所有声音。 (2) 拟声查询方式:用户发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出“嗡嗡”声来查找蜜蜂或电气嘈杂声。 (3) 主观特征:用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义, 如用户可能要寻找“欢快”的声音。用户提交查询后, 系统对用户提交的内容进行提取特征, 结合属性值确定查询特征矢量, 并对特征矢量进行模糊聚类, 然后检索引擎对特征矢量与聚类参数集进行匹配, 最后按相关性排序后通过查询接口返回给用户[4]。
2.4 音频检索系统的核心技术
音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取 (音频内容的描述) 和音频分割与分类和特征相似度匹配四个部分。首先是预处理阶段对输入的音频进行格式转换 (在此实现多采样率支持, 多格式支持 (wav, mp3, rm) , 转换为系统内部统一格式) [5]。
其次音频特征提取是整个音频检索最核心的技术, 它是在音频内容获取的基础之上进行的, 同时是进一步进行音频特征相似度匹配的必要前提, 特征提取是指寻找原始音频信号的表达形式, 提取出能代表原始信号的数据形式.与文本检索中的特征是关键字不同, 在音频数据中提取特征有两种方法, 一种是提取听觉感知特征如音调、音高等。另一种是计算非感知特征或者称物理特征, 如对数倒频谱系数、线性预测系数。要抽取特征和属性, 通常要对数据库中的多媒体数据项进行预处理。所有这些提取出来的特征被用来表征音频数据流, 在检索过程中, 是对这些特征和属性而不是对信息项本身进行搜索和比较, 所以特征抽取的质量决定着检索效果。
由于音频信息是时间序列的数据流, 为了对持续时间很长的音频直接进行处理, 选择在其特征发生突变的地方进行分割, 把连续多媒体数据流分成不同长度的数据片段, 即音频分割, 然后对分割好的数据片段进行处理。音频数据流分割基本是根据所提取的音频低层物理特征完成的, 所分割出来音频数据只是些物理单元, 需要对这些物理单元进行识别分类, 将它们归属成事先定义好的不同语义类, 这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类, 在这一步中, 可以对分割出来的音频物理单元进行组分, 如将切分出来的音频分类为静音、音乐和语音、环境音等, 也可以进行某一事件或某一人物的精细分类, 如“暴力”事件、“演讲”事件等。常见的分类方法是:首先计算输入音频片段的频谱中心, 如果其频谱中心值比预先设定的阈值高, 则认为它是音乐, 否则它是语音, 但由于有的音乐也具有低的频谱中心值, 因此, 它也可能是音乐。其次, 计算静音比, 如果它的静音比低, 则认为它是音乐, 否则, 认为它是语音或独奏音乐。最后计算平均过零率ZCR, 如果它有着非常高的ZCR可变性, 则它是语音, 否则它是独奏音乐。
最后就是对识别出来的语义类建立索引, 进行检索。建立索引可以有三个途径:
(1) 用文字形成的抽象概念描述这些类别, 这样用户必须通过文字查询音频数据。
(2) 用音频特征建立索引, 查询时用户提交的是对特征的描述, 如对音频能量描述的“音调”。
(3) 提交一个音频例子, 提取这个音频例子的特征, 按照前面介绍的音频例子识别方法判断这个音频例子属于那一类, 然后把识别出的这类所包含的若干个样本按序返回给用户, 这是基于例子的音频检索。基于例子的音频检索遵循概率排队的规则, 根据用户的查询需要, 基于检索模型对查询样本和库中音频分别计算音频的相关特征, 并比较相似性, 最后按相似性值由大到小排列库中音频, 完成一个查询过程。
3 音频的检索模式
根据音频的特性, 可以将音频划分为三种:语音、音乐和其他声响。相应的音频检索可以分为三种主要的模式:语音检索、音乐检索和波形声音检索。语音检索是指以语音为中心的检索, 采用语音识别等处理技术进行检索, 例如有关电话记录、会议录音的检索等。音乐检索是以音乐为中心的检索, 充分利用音乐的音符和旋律等音乐特性来进行检索, 例如音乐作品的检索等。波形声音检索主要以波形文件为对象的检索, 依据声学特征来检索。后两者都是利用更一般性的音频分析, 以适合更广泛的音频媒体。
3.1 语音检索技术
基于语音技术的检索目前较成熟的有:利用大词汇语音识别技术进行检索、子词单元检索、关键词识别检索、对说话人的辨认进行分割检索。
(1) 利用大词汇语音识别技术进行检索
这种方法是利用自动语音识别 (ASR) 技术把语音转换为文本, 从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度, 但在实际应用中, 如电话和新闻产播等, 其识别率并不高。即使这样, ASR识别出来的脚本仍然对语音信息的检索有用, 这是因为检索任务只是匹配包含在音频数据中的查询词句, 而不是要求得到一篇可读性好的文章。
(2) 子词单元检索
当语音识别系统处理无限制主题的大范围语音资料时, 其识别性能会变差, 尤其当一些专业词汇 (如人名、地点) 不在系统词库中时。一种变通的方法是利用子词 (Sub-Word) 索引单元, 当执行查询时, 用户的查询首先被分解为子词单元, 然后将这些单元的特征与库中预先计算好的特征进行匹配。
(3) 关键词识别检索
在无约束的语音中自动检测词或短语通常称为关键词的发现 (Spotting) 。利用该技术, 识别或标记出长段录音或音轨中反映用户感兴趣的事件, 这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。
(4) 对说话人的辨认进行分割
这种技术是简单地辨别出说话人口音的差别, 而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术, 可以根据说话人的变化分割录音, 并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化, 建立索引和确定某种类型的结构 (如对话) 。例如, 分割和分析会议录音, 分割的区段对应于不同的说话人, 可以方便地直接浏览长篇的会议资料。
3.2 音乐检索技术
基于内容的音乐检索涉及音乐旋律的表达、音乐旋律的特征提取、用户查询构造、音乐旋律匹配以及音乐数据库构造等很多方面的问题, 这些问题的解决是建立一个完整、有效的音乐检索系统的关键。基于内容的音乐检索通常采用下面通用的步骤: (1) 音乐旋律的表达.即音频信号的预处理; (2) 通过对音乐旋律的特征提取, 形成查询索引; (3) 对音乐数据库中的音乐建立音频索引; (4) 用户查询构造; (5) 根据查询索引和数据库中音频索引之间的相似性, 对音乐片段进行检索。基于内容的音乐检索主要是基于音频特征 (如节奏、音符、乐器) 矢量匹配和近似音调匹配。计算机对信息的表达归根结底是种状态表达, 要将听觉感知的信息借助计算机进行存储与检索, 这不仅依靠用户本身感官与表达的一致性, 也依靠统计的度量算法的选用, 因此, 基于内容的音频检索只能是一种相似性检索, 而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究, 但是为了满足大容量数据库和www检索的要求还有许多工作要做。
3.3 波形检索
其他音频检索是以波形声音为对象的检索, 这里的音频可以是汽车发动机声、雨声、鸟叫声, 也可以是语音和音乐等, 这些音频都统一用声学特征来检索。虽然ASR可以对语音内容给出有价值的线索, 但是, 还有大量其他的音频数据需要处理, 从声音效果到动物叫声以及合成声音等[6]。因此, 对于一般的音频, 仅仅有语音技术是不够的, 使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找, 基于样例的音频检索为用户提供高级的音频查询接口。
4 音频检索的研究现状与不足
音频检索日益成为国内外研究的热点, 目前较成熟的研究包括美国的Muscle Fish系统;IBM的Via voice系统;马里兰 (Maryland) 大学的Voice Graph系统和Android系统的Voice Actions;苹果公司的siri智能语音控制系统, 以及国内的金立手机的语音控制系统和ARS系统。
Muscle Fish是较早推出的较为完整的原型系统。它通过直接对音频进行波形特征分析, 得到声学参数如音高、音强、音长、带宽等, 形成相应的N维特征矢量, 并以此作为比较和聚类的依据。
Via voice和Voice Actions主要是语音识别系统, 用户可通过话筒输入语音信息, 就可以让计算机执行相应的命令, 包括搜寻相应的信息, 打开软件, 写报告等等。Voice Actions提供了非常坚实可靠的声音识别引擎, 它的高识别度令人称奇。不过, 这两个系统也和过去的所有语音命令系统一样, 要求说的话要具备严格的语法结构和格式, 否则系统将无法识别。
苹果公司i OS系统自带的Siri和前者类似, 也是一款以语音识别为基础的系统, 但相比前者, 它不仅拥有较完善的语音识别功能, 可以通过声控搜寻相关信息, 执行某些命令, 其最大的特点则是在人机互动方面, Siri可以针对客户的询问进行语音回答, 回答的内容不至于答非所问, 更重要的是, 可以抛弃繁琐的语法结构, 甚至思维模式也可以混乱, Siri会结合上下文结构去理解, 它还会从人类语言史的角度出发, 利用人工智能系统去分析, 并在绝大多数情况下领会用户的意思。而更加人性化的特点是, 一旦你开始和Siri进入一段对话, 它甚至能理解许多含义模糊或者引申的语义, 所以在一定意义上说, Siri是一款智能控制系统。而Voice Actions做不到这样的事情, 因为它只是一个声控命令软件, 而并非人工智能。
Voice Graph结合基于内容和基于说话人的查询, 检索已知的说话人和词语, 并设计了一种音频图示查询接口。
国产的金立语音王手机自带的金立语音控制系统和ARS也是一种基于内容的音频检索系统, 金立语音控制系统主要是中文的语音识别, 在识别的基础上实现某些手机功能的操作, 使用范围狭窄, 仅仅适用于操作金立手机上的相关功能, 对语音的识别也很有限。而ARS系统通过提取音调、音强、亮度、带宽、过零率等5个特征, 对数据进行分类和处理。操作过程首先判定其是否为音频, 而后进行语言识别以判定采用何种音频检索模式。
上述几个系统中Muscle Fish、Voice Graph和ARS虽然都是基于内容的音频检索系统, 但都有各自的不足, 如Muscle Fish虽然直接进行波形检索, 但他只对笑声、铃声、电话声等16类特定的声音有较高的准确率, 而对于这16类特定声音的检索性能的好坏还依赖于哼唱输入信号的音调跟踪的准确性, 只有当在相邻的音符之间插入一个停顿时才能获得很高的性能。而Voice Graph使用的准确度也非常有限, 而ARS和金立语音识别主要是针对中文语音, 识别的范围也十分有限, 对于音乐和其他波形的准确率都有待提升。Siri在语音识别方面算是十分完善的, 支持中文、英文、法文等十多种语言的识别和控制, 但是同样的对其他音频都不能进行处理。
基于内容的音频检索还处于不成熟的领域, 基于语音识别的语音索引和检索相对比较容易, 但是没有任何词汇限制的一般主题的语音识别性能仍有待改进。对于音乐检索, 主要是基于音频特征矢量匹配和近似音调匹配, 这方面许多研究已经做了大量工作, 然而对于一般情况下如何感知音乐和音频以及关于音乐片段之间的相似性比较, 还有许多工作要做。
5 总结与展望
本文介绍了音频检索系统的框架, 主要的检索技术和检索模式和相关的问题, 虽然许多研究对音频检索技术做了大量探讨, 但基于内容的音频检索还处在起步阶段, 该研究领域与信号处理、人感知心理研究和模式识别等学科都紧密相连。为了使计算机能像人那样对音频语义实现自动理解, 对音频信息就行搜索, 还有许多急待解决的问题, 如高层概念和底层特征的关联, 以实现音频语义的计算机自动抽取;网络大量数据的高效处理检索;音乐旋律的结构化检索等。此外, 对音频特征的表示、音频信息的聚类以及特征信息的挖掘都有待进一步的发展。
参考文献
[1]黄卫平, 肖健宇, 张大方.多媒体数据库的关键技术:特征的提取与索引.计算机工程与应用, 2003, 39 (11) :194~196
[2]邢伟利.基于内容的音频检索技术研究与实现[D].西安:西北大学.2004
[3]李国辉等.基于内容的检索[N].计算机世界专题, 1998, 05:26
[4]李恒峰, 李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000, 07:54~56
[5]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2001, (4) :431-437
蓝牙的无线音频生活 篇9
金属盒子
创新声霸锣
创新声霸锣在外观设计上采取简约风格,整体没有太多花哨的修饰元素,大面积的金属网孔设计却让这款无线音箱具有强烈的金属质感。 蓝牙3.0技术使得音箱在连接时更为稳定,点击蓝牙按键就后就可通过手机蓝牙搜索到设备并匹配连接。
除了基本的音乐播放功能之外,通话功能能让它变身成为电话会议的免提设备,而语音录音功能,可以将播放的音频内容以及语音内容,通过内录的形式刻录进TF卡内,成为录音电话。在内置6000mAh锂电池的支持下,创新声霸锣可保持8小时的播放时间,同样大容量的电池,可以通过背后的USB口,在紧急情况下成为充电宝,为我们的智能手机以及平板电脑充电。
色彩
SoundLink Colour蓝牙扬声器在设计风格上与以往的Bose音箱有明显的区别,SoundLink Colour面对的用户人群更为年轻化,音箱机身由工程塑料制成,正反两面均设置有大面积的网孔,两侧的弧线造型也颇为美观。
SoundLink Colour可以保持8小时的播放时间,使用强度较低的情况下可以保持1~2天的使用。在蓝牙配对上,SoundLink Colour更加的方便与简单,内置的配对引导,可让连接过程变得更加简便。
无线充电
LUXA2 GroovyW
LUXA2 GroovyW在外观与功能设计上与传统的蓝牙便携式音箱相仿,连接方式、音质都没有太多的亮点,不过音箱底座的无线充电模块却是GroovyW的一大特色。无线充电板采用和机身相仿的长方形设计,充电板正中间LUXA2 LOGO字样的位置正是无线充电线圈,当支持无线充电的手机放置在充电板上,音箱便会用提示音和指示灯提示用户充电开始。
音频治疗 篇10
济南电视台数字化网络化音频后期制作系统包括一个80平方米的综合录音机房和两个50平方米后期制作机房, 主要完成电视节目音、视频同步录音合成制作, 环绕声节目制作、器乐录音 (包括民乐, 西乐, 电子乐, 戏曲等) 、声乐录音 (包括独唱, 组合, 合唱、用伴奏带进行声乐录音合成) 、MIDI制作, 音频信号各种效果处理, 音乐资料编目、检索、归档、保存、交换和共享的功能;音频工作站各站点之间数据 (节目数据和音乐效果数据) 传输和交换功能;音频网与视频制作网、新闻网、演播室网之间压缩的视频及无压缩的音频数据 (节目数据和音乐效果数据) 传输和交换功能。实现了网内音频制作的非线性、无带化工作模式。
该音频系统的工作流程为:
z全台网络节目进入音频网:音频网与视频后期制作网之间压缩的视频及无压缩的音频数据 (节目数据和音乐效果数据) 传输和交换功能。能够实现制作音频时可对节目视频实时监看、搜索、回放, 实现音视同步的音频制作, 即:编导将需要音频包装的素材段打包成一个mov文件 (视频压缩、音频文件不压缩) 放入到音频制作网的存储磁盘阵列中提交包装, 录音师在接到音频包装的请求后将提交的mov文件调入到ProTools音频工作站中进行音频处理包装;
z音频网包装后节目回传制作网:经过音频包装后, 录音师可以把制作好的音频无压缩地打包到音频网的存储磁盘阵列中的已包装音频库中, 由提交包装的编导, 将包装好的素材回传到用户的视频制作网中, 调入到系统中后将原有的音频删除实现音频的包装制作。目前, 济南电视台制作的被评为山东省十佳栏目之一的《有么说么故事会》就是采用该模式。
一系统主要配置
济南电视台音频后期制作系统三个机房具体功能分配为:1号50平方米后期制作机房完成网内电视节目音、视频同步录音合成制作, 2号50平方米后期制作机房完成网内及外来电视节目音、视频同步录音合成制作, 80平方米的综合录音机房完成网内及外来电视节目音、视频同步录音合成制作, 环绕声节目制作、器乐录音 (包括民乐, 西乐, 电子乐, 戏曲等) 、声乐录音 (包括独唱, 组合, 合唱、用伴奏带进行声乐录音合成) 、MIDI制作, 音频信号各种效果处理等。这里主要以80平方米的综合录音机房为例进行系统的配置。设备选型、系统配置应当依据对功能和质量标准的要求进行, 包括对设备、系统、工艺和行业发展的前瞻性要求。我们确定了整个音频系统的大体框架:数字音频工作站、数字调音台为系统的核心, 满足高质量立体声、5.1环绕声录音的要求, 可实现立体声、环绕声输出, 实现16/20/24bit量化、44.1/48/96kHz采样, 录音系统可实现24bit、96kHz记录。
ProTools数字音频工作站是整个制作系统的核心, 在配置上能满足实现16/20/24bit量化、44.1/48/96kHz采样, 多轨记录和5.1环绕声录音的要求, 并具备出色的音质、对声音的加工处理能力和可操控性及高度安全性。我们选择了DigiDesign公司的Pro Tools|HD3数字音频工作站, Pro Tools数字音频工作站现已成为音乐制作行业、电影电视领域、广播及多媒体制作领域中的标准平台。Pro Tools HD系统可以根据实际需要按不同组合配置, 以适应不同的制作需要。系统采用模块结构的设计思路, 任何时候都能对系统进行各种功能的扩展。
配置如下:
z PC电脑HP XW8200;
z一块Pro Tools|HD Core板卡;
z两块Pro Tools|HD Accel扩展卡;
z Pro Tools TDM 7.3软件一套;
z免费Pro Tools HDpack捆绑插件;
z Waves Diamond bundle钻石效果器插件一套;
z 192 I/O音频接口两台;
z 192 Digitai I/O音频接口一台;
z Sync I/O同步接口一台;
z Avid Mojo数字视频捕捉和回放卡一台;
z MIDI接口一台;
z DigiDesign Machine Control机器控制软件一套。
上述配置的Pro Tools|HD3具有以下功能指标:在192kHz下, 多达36个同时音频轨;96kHz下, 多达96个同时音频轨;44.1/48kHz下, 多达192个同时音频轨;多达160个单声道或立体声辅助输入;128内部混录母线;27块DSP芯片用于混录引擎和TDM插件, 提高处理速度;Waves Diamond bundle软件包括了构成工作站核心的35个顶级处理插件效果器, 完成音频信号各种效果处理;支持各种主流多通道环绕声格式缩混如LCR格式、Quad四声道格式、5.1格式、6.1格式及7.1格式;Sync I/O同步器接口用于为数字音频系统提供同步源;2个9针端口可通过DigidesignMachineControl软件实现双设备同步控制等;Avid Mojo视频接口用于把外来视音频节目采集到工作站和实时视频监控等。
二使用技巧
我们在使用Pro Tools音频工作站对主持人、播音员、歌手进行录音棚内录音时, 人声处理的技巧有以下10个步骤, 以下与同行交流。
第1步:高质量录音
使用YAMAHA DM2000数字调音台、ProTools音频工作站、Focusrite Red1 4通道话筒放大器;TC Electronic SYSTEM 6000多通道处理平台;LEXINCON PCM91立体声效果器;TC Electronic Voice Pro人声处理器;U87话筒, Schoeps ORTF MSTC64g、NeumannU87 Ai、CAD E300、Shure Beta-52A、Shure Beta-56A、Shure Beta-57A等不同制式的话筒;FOSTEX PH-100立体声耳机分配放大器以及模拟和数字跳线盘等在80平米录音棚中进行优质录音, 力求声音清晰、圆润、明亮柔和、不失真。
第2步:给各个音轨清除噪音
第3步:精细处理各个音轨
适当地标准化 (NORMALIZATION) 。
第4步:在音轨间建立相对的电平平衡
第5步:深加工各个音轨
比如EQ, 压缩, 限幅和其他个性化的处理。至于EQ, 在人声的中频部分做一些微小的提升 (3kHz~5kHz) 。如果歌手需要温暖的质感, 可以稍微提高低音部分, 如果声音过于厚重, 可以做一些“低切”。对于声乐作品, 先独奏这个音轨仔细去听。声乐是最重要的元素, 其他任何东西都必须与它和谐相容.用很少的压缩在人声轨上, 因为先前提到的充分化的窍门、一些简单的渐强减弱, 或者声波小小的放大, 他们与浓重的压缩相比听起来会更加富有动态, 效果很好, 可以根据掌握的技术和经验来针对不同的人声进行处理。
对人声效果的处理, 比较常用的有频率均衡、延时反馈、限幅失真等3种基本方法。然后对人声进行纠调处理, 把不准确的音高纠正。
(1) 频率均衡
频率均衡的分段越多, 效果处理的精细程度也就越高。人声乐音的频谱随音调的变化也很大, 所以调节乐音的均衡曲线应非常平缓, 均衡的中点频率可在1000 Hz~3400Hz, 均衡带宽为六个倍频程。人声齿音的频谱分布在4kHz以上。由于此频段亦包含部分乐音频谱, 所以建议调节齿音的频段应为6 kHz~16kHz, 均衡带宽为3个倍频程, 均衡中点频率一般在10kHz~12kHz, 均衡增益最大向上可调至+10dB;如需向下降低人声齿音的响度, 则应使用均衡带宽为1/2倍频程, 均衡中点频率为6800Hz的均衡处理, 其均衡增益最低可向下降至-10dB。
(2) 延时反馈
延时反馈是效果处理当中应用最为广泛, 但也是最为复杂的方式。其中, 混响、合唱、镶边、回声等效果, 其基本处理方式都是延时反馈。
a.混响 (Reverb)
混响器在人声处理中, 是非常重要的效果器。常用的有TC Native的Reverb, Ultrafunk的reverb插件, Timewalks的reverb插件等。
Tc Native混响, 可以模拟各种声场的形状, 大小, 回授等。通过干湿声的调整, 不仅能润色音频, 也能起到拉开整体层次的作用。首先, 要调节混响设置里的时间参数基本上人声应该在1.0s~1.5s之间 (视具体情况可以减小) ;其次, 在混响设置中还有它自己的3段均衡, 如果把LOW的GAIN调小会出现声音很远的感觉, 如果想让声音靠前, 就要将M的G调大一些, 但是要注意听音色的均衡不能太过。最后是效果发送的级别FX LEV, 由它还可以控制效果参数发送的多少。
b.延时 (Delay)
延时就是将音源延迟一段时间后再播放的效果处理。依其延迟时间的不同, 可分别产生合唱、镶边、回音等效果。
当延迟时间在3ms~35ms之间时, 人耳感觉不到滞后音的存在, 并且它与原音源叠加后, 会因其相位干涉而产生“梳状滤波”效应, 这就是镶边效果。如果延迟时间在50ms以上时, 其延迟音就清晰可辨, 此时的处理效果才是回音。回音处理一般都是用于产生简单的混响效果。
延时、合唱、镶边、回音等效果的可调参数都差不多, 具体有以下几项:
z延时时间 (Dly) , 即主延时电路的延时时间调整。
z反馈增益 (FB Gain) , 即延时反馈的增益控制。
z反馈高频比 (Hi Ratio) , 即反馈回路上的高频衰减控制。
z调制频率 (Freq) , 指主延时的调频周期。
z调制深度 (Depth) , 指上述调频电路的调制深度。
z高频增益 (HF) , 指高频均衡控制。
z预延时 (Ini Dly) , 指主延时电路预延时时间调整。
z均衡频率 (EQ F) , 这里的频率均衡用于音色调整, 此为均衡的中点频率选择。
延迟效果器的应用, 可以让人声产生“回声”的感觉。除了在一些音乐段落对歌声产生美化作用, 或产生空旷感觉之外, 更是一种特殊的处理手段。我们常用的延迟处理手法是在歌声的最后几个字上添加延迟效果, 给人回味无穷的感受。Ultrafunk的delay插件, Dsound的delay插件等都不错。
c.镶边 (Flanger)
镶边 (Flanger) 是常见的电吉他效果器之一, 应用范围很广。而在人声处理中, 也是种很另类而出彩的工具。运用镶边效果器, 可以让人声显得迷离幻妙, 有时候还结合“颤音”或“飘忽”效果器一起作用。在一些迷幻、电子、实验风格的音乐作品中, 经常可以听到加过Flanger的人声效果。我们常用的有:Dsound的Flanger插件, Ultrafunk的Flanger插件等。
压缩 (Compress) , 压缩器 (或限制器) 在人声处理的应用中, 主要是对声音信号的动态进行压缩。同时压缩效果器可以提升人声的整体响度, 使得歌声在配乐陪衬中显得更清晰而避免部分细节被音乐掩盖。常用的有:Ultrafunk的Compressor插件, Waves的C4等。
还有几种特殊的效果如:
环绕 (Surround) 是一种很强烈的表现手法, 一般对人声应用不是很多。但在适当时刻进行适量应用, 可以产生很美妙的效果。比如你可以通过环绕效果器, 制作出歌声在耳边绕来绕去、轻轻呢喃的效果, 营造飘渺的声场和游离的空间感——这都是环绕效果器的作用。我们常用的有:Ultrafunk的surround插件。
(3) 声激励
对音源信号进行浅度的限幅处理, 音响便会产生一种类似“饱和”的音感效果, 从而使其发音在不提高其实际响度的基础上有响度增大的效果。
激励处理类似于音响设备的过载失真, 因而对音源的过量激励, 会产生令人不悦的嘈杂感。在人声音源当中, 除了一少部分经过专门训练的人之外, 大部分的发言都缺乏劲度, 因而这里的激励处理是十分必要的。
对人声音源的激励处理, 通常有以下几项调整参量:
z输入增益 (Gain) , 用于调节输入电平, 注意此处切勿产生过载;
z调谐频率 (Tuning) , 根据需要处理的频段, 选择一个合适的频率;
z驱动电平 (Drive) , 用于调整激励的深度。驱动电平较大时, 效果比较嘈杂;驱动电平较小时, 效果则比较温和;
z混合比率 (Mix) , 即原信号与效果信号的响度比。
我们常用的人声效果器插件主要有如下几种:
Waves Native Gold Bundle v3.;
Tc Native Bundle v3.0;
Ultrafunk Sonitus fx v3.0。
第6步:创建立体的声音舞台
为单声道的乐器、人声安排一个合适的声像位置时, 要避免将声像设置得过于靠左或是靠右。
我们在录制合唱时, 选用了立体声话筒Schoeps ORTF录音, 收取环境音, 再设置点话筒摆位, 加倍翻倍录音, 有很好的立体声声场, 效果不错。如济南电视台大型文艺晚会《颂歌献祖国》在进行后期进棚合唱录音时, 就营造了百人大合唱的效果。
做声场的软件有Ultrafunk的Surround环绕插件, 可以做左右前后的模拟摆位, 以及声相环绕, 环绕速度和范围可以自己调节, 非常好, 无论针对单声道或者立体声文件, 都可以进行操作。Waves S1-shuffle:这个可以用来做左右和上下的位置, 以及立体声扩展, 同时在扩展同时可以进行低频补偿。还可以做左右声道的互换。后期混音时, 合理使用把各乐器分离有很好的效果。
第7步:声学空间
从选择一个精彩的混响开始, 然后再对选中的音轨增加混响和/或延时效果, 为一个扁平的声场创造出一定的纵深空间。可以将一个音轨的声音放置到声场的后方。通常情况下, 会对整个乐曲使用混响, 以建立一种特殊的声学空间 (俱乐部、音乐厅、礼堂等) 。然后对某一个单独的音轨再使用一次混响效果, 如对通通鼓使用一个门混响 (gated reverb) 。
第8步:母带处理
我们在完成歌声与伴奏的平衡缩混后, 要进行母带处理。常用的有i Zotope插件包、T-racks插件包、Waves L3 L2C4插件等等。根据不同的音乐风格, 选用不同的效果插件。
第9步:反复监听、调试, 得到最优化的效果
先在济南电视台最大的80平米录音棚内环绕声近场Dynaudio AcousticsBM15A有源全频监听音箱、BM14S有源低频监听音箱反复监听, 再在各种各样的耳机和音箱上听一听, 并且既用立体声来听, 也用单声道来听, 同时还要试验大音量播放和小音量播放间有什么不同。因此应该尽量做到在所有的音频系统上聆听混音时感觉都较好。
第10步:音频网包装后节目回传制作网
经过音频包装后, 我们录音师把制作好的音频无压缩地打包到音频网的存储磁盘阵列中的已包装音频库中, 由提交包装的编导, 将包装好的素材回传到用户的视频制作网中, 调入到系统中后将原有的音频删除实现音频的包装制作。
济南电视台音频后期制作系统自2007年6月12日投入使用至今已完成全台7个频道累计20多个栏目的音频制作任务, 同时制作了一大批高质量的节目, 如:精品节目《天下泉城》、《名士济南》、《我的济南老家-季羡林》、《泉城之光》、《孙中山与济南》、《有么说么故事会》、济南电视台与中央台合作的《迎奥运——倾国倾城》晚会的专题片《泉》、《万人快书迎奥运》;歌曲《山东快书英雄会》在泉城广场万人迎奥运现场播放和全台各频道滚动播出;群口快书《山东快书万人迎奥运》在泉城广场万人迎奥运现场播放;2012年济南电视台跨年狂欢晚会所有歌曲进棚录音后经缩混制作后播出, 均受到一致好评。
摘要:本文结合济南电视台新建成的数字化网络化音频后期制作系统, 从功能特点、系统运行情况等几方面对ProTools数字音频工作站系统的设计与实践进行了探讨, 对具体应用情况进行了介绍。