模拟音频技术论文

2024-08-31

模拟音频技术论文（通用7篇）

模拟音频技术论文篇1

档案作为一种不可再生资源, 它的最大特点是原始性和唯一性!

随着社会的飞速发展和进步, 档案资源的开发力度越来越大, 档案利用的频度越来越高, 档案需求的开放性越来越强, 因此档案如何被及时、有效的安全保护以及如何最大限度地延长档案的寿命等问题, 也相应地凸显出来。

由于时间的流逝, 和存储历史的原因, 博物馆、图书馆和档案馆有许多具有历史意义的音频收藏 (非物质文化遗产中的一部分) 由于所处的环境条件越来越差而受到损坏。因此将原格式音频记录转化成数字格式, 将保护原本的模拟信号音频记录, 并且降低由于音频存储介质的退化造成的档案保护风险;另外, 作为一个保护过程, 它还能够提供模拟信号音频记录以外所不能提供的访问方式, 如客户通过互联网收听馆内数字音频。

在数字转化过程中, 对大部分模拟音频信号损失微小, 并且可以随时安全访问数字音频, 不必担心对原始资料的破坏。

如果设计合理, 将使整个转换系统更易于使用, 更易于控制成本, 这对大多数档案馆是具有历史意义的。

1 模拟音频信号转化指标

实际上我们听到的“声音”是一些连续的空气压力波, 这些波震动耳鼓, 刺激耳内神经, 传入大脑。

最早声音记录方式是在石蜡圆柱体上的凹槽中, 拨动它, 就能模拟空气压力波的高低幅度。同样, 存储在磁带上的也是模拟信号。

在数字化过程中, 电子设备播放模拟信号音频, 设备所生成的电流变化值以非常高的频率进行采样。

1.1 音频信号采样速率

第一个影响因素, 如图1, 当以较低的采样速率进行模拟信号转化时, 不能准确再现原始声波形状;高采样速率时更能再现原声波。

1.2 音频信号位深

第二个影响因素, “位深”数字范围表达每次测量时的音频振幅。如图2, 高位深能表达更宽音域, 拥有更大的“动态范围”更高的位深会使音频资料听力来更“柔和”、更真实、拥有更大的“动态范围”。所有的音频CD都采用16位深记录。

1.3 人类听力范围

图3中显示了一些声音源的频率范围[1], 蓝色部分为人类听力范围。请注意, 图中的频率范围只是一些基础源声音的相对值, 不含对我们完全 (实际) 听到的声音的高频泛音部分。

2 模拟音频信号转化实施

在确定好转化时的技术方法后, 要解决准备转化的音频源的法律及版权问题, 为了进行可靠、长期保存数字文件, 关键是创建高质量元数据, 其结构及相应内容一般依照表1所述分为4个部分。

图4是整个音频数字化模块化系统组成图。数字信号转化过程基本上包含4个设备:模拟信号回放设备、数/模转换器 (AD conventer) 、处理数字信号的工作站、以及数字文件存储器。如果利用混响设备, 例如音频混响板, 则可将多个模拟音频信号回放装置与AD转化器进行连接置, 提高转化效率。但是, 实际应用时不提倡这样, 是因为音频信号链中任何附加的设备会影响音频信号质量。

很多音频软件程序, 例如Pro Tools、Sound Forge、Adobe Audition, 允许用户在转换过程中设置音频文件的音量、跟踪、均衡、降噪、压缩等技术指标, 使用多种方法来增强原始声音并创建替代文件。但是, 即使这些软件有这些功能, 也尽量在保存数字文件时尽少使用。

所转换成的数字音频文件虽然可以选择多种格式, 而且首选一些开放的、非私有权格式, 还要保持非压缩格式来最大化保证音频保真度。这里要提到的是:日常使用的WAV、AIF和MP3格式并不是开放源文件格式, 它们分别属于微软公司、苹果公司和弗劳恩霍夫研究所。

最后, 将数字音频文件写入数字存储介质中。一般常见的有, DC/DVD, 外接硬盘 (RAID硬盘存储系统) , 以及磁带库备份。

3 结语

音频数字化是完好延续保存“社会记忆”的良药[2], 珍贵的音频档案不但可以无衰减复制, 具有高信噪比的特点, 而且实现了长久稳定保存, 同时满足利用者检索的需求, 实现网络授权下载、使用。

参考文献

[1]Digital Audio Best Practices.网页地址:http://www.mndigital.org/digitizing/standards/audio.pdf

[2]中外音频档案数字化的现状及启示.丁子涵.北京档案[J].2011 (2) :42~44.

模拟音频技术论文篇2

该模拟音频处理模块, 主要由贝塞尔滤波、音频信号平衡非平衡变换、音频加直流、自动功率补偿、数字控制音频衰减、音频末级处理等功能模块组成, 主要给下一级的A/D转换电路提供含有直流及抖动信号成分的单端非平衡音频信号及B- 信号。

1贝塞尔滤波器电路

贝塞尔滤波器电路, 主要完成滤除干扰信号及对过大音频进行限幅的作用, 能滤掉音频频带以上的频率成分, 而且不会引起过冲。当音频信号很强时, 会造成强烈的限幅, 只要滤波器匹配适当, 方波过冲并不明显。

2音频信号的平衡不平衡变换电路

音频信号的平衡不平衡变换电路, 完成输入音频的平衡非平衡变换, 即音频前端送过来的平衡音频信号, 通过平衡非平衡转换电路, 转换成便于处理的非平衡单端音频信号。

3音频+ 直流电路

从10kW DAM数字调制发射机的工作与案例中得知, 开启或关闭的功放数量与发射机的输入音频幅度有关, 为了保证发射机无音频调制时的静态载波功率, 系统采用音频+ 直流的方式, 保证18个左右的大台阶功放的开启, 保证发射机无音频输入时的静态功率, 因此, 音频+ 直流电路, 保持发射机静态输出载波功率, 直流分量决定发射机的载波功率, 音频分量用于调制发射机。

4自动功率补偿电路

自动功率补偿电路, 为了避免外部供电电压影响发射机输出功率, 根据电源采样参数及发射机功率采样参数, 通过模拟乘法器, 产生音频+ 直流的动态控制信号, 对发射机功率进行动态补偿控制。自动功率补偿电路, 通过动态功率补偿的方式, 维持发射机的额定功率输出。

5数控衰减器

数控衰减器, 通过数控电位器, 对音频信号幅度进行控制线性控制, 在保持恒定输出阻抗的同时, 还响应保护信号、完成数字音频存储器清零等任务。

6音频末级电路模块

该模块的功能有两个, 一是给A/D转换器提供音频+ 直流+ 抖动信号, 二是给B- 电源提供音频+ 直流信号, 用于B- 信号的产生。

音频+ 直流信号上叠加抖动信号, 能优化发射机的噪声性能。当适叠加抖动信号后, 能使发射机的信噪比提高几个dB。抖动信号的频率固定在72kHz, 恰好可以滤除被输出带通网络, 以免产生不需要的寄生信号。叠加抖动信号之所以能提高发射机的信噪比, 是因为在A/D转换过程中, 存在 ±1的数码不确定性, 当模拟输入变化时, 由于存在这个不确定性, 在DAM数字调制发射机的调制包络上, 引起不可能被带通滤波器滤除的尖状缺陷, 而抖动信号可以减轻这个噪声。

音频+ 直流信送给B- 电源后, 产生B- 信号。B- 信号参与48个功放的开启或关闭过程的控制。

摘要：音频处理板是DAM10k W发射机的模拟音频处理模块, 主要对发射机输入信号进行预处理, 将一个含有直流及抖动分量的音频信号送给模数转换板, 与此同时, 还输出B-采样信号任务, 本文主要分析了该音频处理模块的原理及作用, 供同行们参考。

音频检索技术概述篇3

随着互联网和移动通信技术的发展, 越来越多的人能够更加方便、快捷、经济地通过网络查找和传输各种信息。基于文本的信息检索已经无法满足现代的人们的需求, 图像图形信息和音频信息检索应运而生。

音频信息作为一种重要的信息载体, 相比图像、图形和文本信息有其独特的便利和优越性。音频信息检索技术有着广泛的应用前景: (l) 它是智能语音系统的核心技术, 用户可通过该技术方便快捷地获取所需的信息; (2) 它可以实现对网络中的媒体, 例如网上电视, 音视频等的音频信息进行实时检索、审查和有效监控, 对各种数字音频产品的版权保护, 如音乐的版权保护, 即搜索未经授权的使用等; (3) 它在音频信息分类与统计技术的研究中也扮演着重要的角色, 如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息, 使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索, 更好地管理、存储与高效利用这些资源。此外, 它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。

2 音频检索技术

2.1 音频及音频内容

音频泛指人类能够听到的所有声音。人耳能够听见的声波频率范围是20Hz~20 000Hz, 其中语音频率大约分布在300Hz~4 000Hz之间, 而音乐和其他自然声响则是全范围分布。

音频的内容从整体上来看可以分成三个等级:最底层的物理样本级、中间层的声学特征级和最高层的语义级。在物理样本级, 音频内容呈现的是媒体流形式, 其中包含原始音频数据和注册数据 (如采样频率、量化精度和压缩编码方法等) [1]。用户可以通过时间刻度检索或调用音频的样本数据, 如常用的音频录放软件Cool Edit。中间层是声学特征级。声学特征是从音频数据中自动抽取的, 它可以分为物理特征 (Physical Feature) 和感觉特征 (Perceptual Feature) , 前者包括音频的基频、幅度和共振峰结构等, 后者表达用户对音频的感知, 例如音调、响度和音色等, 可直接用于检索。最高层是语义级, 是音频内容、音频对象的概念描述, 在这个级别上, 音频的内容可以是语音识别、辨别后的结果 (文本) 、音乐旋律和叙事说明等。

2.2 主要的音频检索技术

早期对于音频信息的检索, 主要是采用文本检索技术, 即通过人工方式输入音频的属性和描述 (例如文件名、文件格式等文本信息) 来进行检索, 但其局限性非常明显:首先, 互联网信息庞杂, 充斥着许多未标注、错误标注文件名等文本信息的音频数据, 而如要正确标注互联网所有音频数据显然非人力所及;其次, 许多现实的应用需要使用音频数据本身的感知内容, 而这种感知内容通过简单的文件名等文本标注无法体现, 如音乐的旋律、音调、音质等[2]。再次, 即便针对于语音信息, 比如新闻记录、谈话记录等, 通过文本检索技术也仅仅是检索其文件标注, 而不能检索其内容。

为了解决上述问题, 基于内容的音频检索 (Content-Based Audio Retrieval, CBAR) 应运而生。它主要研究如何利用音频信息的幅度、频谱等物理特征, 响度、音高、音色等听觉特征和音频类别、语义等特征实现音频信息检索[3]。由于起步晚、数据复杂、研究难度大等原因, 基于内容的音频信息检索技术和文本检索技术相比仍存在很大差距, 还有大量问题亟待解决。

2.3 音频检索系统的基本框架

音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的音频检索, 该方法是从媒体数据总体取出特定的信息线索, 建立音频数据表示方法和数据模型, 采用有效和可靠的查询处理算法, 使得用户可以在智能化的查询接口的辅助下, 从大量存储数据库中的媒体进行查找, 检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询, 是检索出与用户指定的要求非常相似的所有声音。其检索系统的基本框架如图1所示:首先是建立数据库:对音频数据进行特征提取, 将特征装入特征库部分, 并通过特征对数据聚类, 然后将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。在查询接口上, 用户可以采用以下形式提交查询: (1) 示例查询方式 (Query by example) :用户通过查询界面选择一个声音查询例子, 并设定属性值, 然后提交查询。如查询与飞机的轰鸣声相似的所有声音。 (2) 拟声查询方式:用户发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出“嗡嗡”声来查找蜜蜂或电气嘈杂声。 (3) 主观特征:用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义, 如用户可能要寻找“欢快”的声音。用户提交查询后, 系统对用户提交的内容进行提取特征, 结合属性值确定查询特征矢量, 并对特征矢量进行模糊聚类, 然后检索引擎对特征矢量与聚类参数集进行匹配, 最后按相关性排序后通过查询接口返回给用户[4]。

2.4 音频检索系统的核心技术

音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取 (音频内容的描述) 和音频分割与分类和特征相似度匹配四个部分。首先是预处理阶段对输入的音频进行格式转换 (在此实现多采样率支持, 多格式支持 (wav, mp3, rm) , 转换为系统内部统一格式) [5]。

其次音频特征提取是整个音频检索最核心的技术, 它是在音频内容获取的基础之上进行的, 同时是进一步进行音频特征相似度匹配的必要前提, 特征提取是指寻找原始音频信号的表达形式, 提取出能代表原始信号的数据形式.与文本检索中的特征是关键字不同, 在音频数据中提取特征有两种方法, 一种是提取听觉感知特征如音调、音高等。另一种是计算非感知特征或者称物理特征, 如对数倒频谱系数、线性预测系数。要抽取特征和属性, 通常要对数据库中的多媒体数据项进行预处理。所有这些提取出来的特征被用来表征音频数据流, 在检索过程中, 是对这些特征和属性而不是对信息项本身进行搜索和比较, 所以特征抽取的质量决定着检索效果。

由于音频信息是时间序列的数据流, 为了对持续时间很长的音频直接进行处理, 选择在其特征发生突变的地方进行分割, 把连续多媒体数据流分成不同长度的数据片段, 即音频分割, 然后对分割好的数据片段进行处理。音频数据流分割基本是根据所提取的音频低层物理特征完成的, 所分割出来音频数据只是些物理单元, 需要对这些物理单元进行识别分类, 将它们归属成事先定义好的不同语义类, 这由音频识别分类这一步完成。根据音频的特征值可将音频进行分类, 在这一步中, 可以对分割出来的音频物理单元进行组分, 如将切分出来的音频分类为静音、音乐和语音、环境音等, 也可以进行某一事件或某一人物的精细分类, 如“暴力”事件、“演讲”事件等。常见的分类方法是:首先计算输入音频片段的频谱中心, 如果其频谱中心值比预先设定的阈值高, 则认为它是音乐, 否则它是语音, 但由于有的音乐也具有低的频谱中心值, 因此, 它也可能是音乐。其次, 计算静音比, 如果它的静音比低, 则认为它是音乐, 否则, 认为它是语音或独奏音乐。最后计算平均过零率ZCR, 如果它有着非常高的ZCR可变性, 则它是语音, 否则它是独奏音乐。

最后就是对识别出来的语义类建立索引, 进行检索。建立索引可以有三个途径:

(1) 用文字形成的抽象概念描述这些类别, 这样用户必须通过文字查询音频数据。

(2) 用音频特征建立索引, 查询时用户提交的是对特征的描述, 如对音频能量描述的“音调”。

(3) 提交一个音频例子, 提取这个音频例子的特征, 按照前面介绍的音频例子识别方法判断这个音频例子属于那一类, 然后把识别出的这类所包含的若干个样本按序返回给用户, 这是基于例子的音频检索。基于例子的音频检索遵循概率排队的规则, 根据用户的查询需要, 基于检索模型对查询样本和库中音频分别计算音频的相关特征, 并比较相似性, 最后按相似性值由大到小排列库中音频, 完成一个查询过程。

3 音频的检索模式

根据音频的特性, 可以将音频划分为三种:语音、音乐和其他声响。相应的音频检索可以分为三种主要的模式:语音检索、音乐检索和波形声音检索。语音检索是指以语音为中心的检索, 采用语音识别等处理技术进行检索, 例如有关电话记录、会议录音的检索等。音乐检索是以音乐为中心的检索, 充分利用音乐的音符和旋律等音乐特性来进行检索, 例如音乐作品的检索等。波形声音检索主要以波形文件为对象的检索, 依据声学特征来检索。后两者都是利用更一般性的音频分析, 以适合更广泛的音频媒体。

3.1 语音检索技术

基于语音技术的检索目前较成熟的有:利用大词汇语音识别技术进行检索、子词单元检索、关键词识别检索、对说话人的辨认进行分割检索。

(1) 利用大词汇语音识别技术进行检索

这种方法是利用自动语音识别 (ASR) 技术把语音转换为文本, 从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度, 但在实际应用中, 如电话和新闻产播等, 其识别率并不高。即使这样, ASR识别出来的脚本仍然对语音信息的检索有用, 这是因为检索任务只是匹配包含在音频数据中的查询词句, 而不是要求得到一篇可读性好的文章。

(2) 子词单元检索

当语音识别系统处理无限制主题的大范围语音资料时, 其识别性能会变差, 尤其当一些专业词汇 (如人名、地点) 不在系统词库中时。一种变通的方法是利用子词 (Sub-Word) 索引单元, 当执行查询时, 用户的查询首先被分解为子词单元, 然后将这些单元的特征与库中预先计算好的特征进行匹配。

(3) 关键词识别检索

在无约束的语音中自动检测词或短语通常称为关键词的发现 (Spotting) 。利用该技术, 识别或标记出长段录音或音轨中反映用户感兴趣的事件, 这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。

(4) 对说话人的辨认进行分割

这种技术是简单地辨别出说话人口音的差别, 而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术, 可以根据说话人的变化分割录音, 并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化, 建立索引和确定某种类型的结构 (如对话) 。例如, 分割和分析会议录音, 分割的区段对应于不同的说话人, 可以方便地直接浏览长篇的会议资料。

3.2 音乐检索技术

基于内容的音乐检索涉及音乐旋律的表达、音乐旋律的特征提取、用户查询构造、音乐旋律匹配以及音乐数据库构造等很多方面的问题, 这些问题的解决是建立一个完整、有效的音乐检索系统的关键。基于内容的音乐检索通常采用下面通用的步骤: (1) 音乐旋律的表达.即音频信号的预处理; (2) 通过对音乐旋律的特征提取, 形成查询索引; (3) 对音乐数据库中的音乐建立音频索引; (4) 用户查询构造; (5) 根据查询索引和数据库中音频索引之间的相似性, 对音乐片段进行检索。基于内容的音乐检索主要是基于音频特征 (如节奏、音符、乐器) 矢量匹配和近似音调匹配。计算机对信息的表达归根结底是种状态表达, 要将听觉感知的信息借助计算机进行存储与检索, 这不仅依靠用户本身感官与表达的一致性, 也依靠统计的度量算法的选用, 因此, 基于内容的音频检索只能是一种相似性检索, 而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究, 但是为了满足大容量数据库和www检索的要求还有许多工作要做。

3.3 波形检索

其他音频检索是以波形声音为对象的检索, 这里的音频可以是汽车发动机声、雨声、鸟叫声, 也可以是语音和音乐等, 这些音频都统一用声学特征来检索。虽然ASR可以对语音内容给出有价值的线索, 但是, 还有大量其他的音频数据需要处理, 从声音效果到动物叫声以及合成声音等[6]。因此, 对于一般的音频, 仅仅有语音技术是不够的, 使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找, 基于样例的音频检索为用户提供高级的音频查询接口。

4 音频检索的研究现状与不足

音频检索日益成为国内外研究的热点, 目前较成熟的研究包括美国的Muscle Fish系统;IBM的Via voice系统;马里兰 (Maryland) 大学的Voice Graph系统和Android系统的Voice Actions;苹果公司的siri智能语音控制系统, 以及国内的金立手机的语音控制系统和ARS系统。

Muscle Fish是较早推出的较为完整的原型系统。它通过直接对音频进行波形特征分析, 得到声学参数如音高、音强、音长、带宽等, 形成相应的N维特征矢量, 并以此作为比较和聚类的依据。

Via voice和Voice Actions主要是语音识别系统, 用户可通过话筒输入语音信息, 就可以让计算机执行相应的命令, 包括搜寻相应的信息, 打开软件, 写报告等等。Voice Actions提供了非常坚实可靠的声音识别引擎, 它的高识别度令人称奇。不过, 这两个系统也和过去的所有语音命令系统一样, 要求说的话要具备严格的语法结构和格式, 否则系统将无法识别。

苹果公司i OS系统自带的Siri和前者类似, 也是一款以语音识别为基础的系统, 但相比前者, 它不仅拥有较完善的语音识别功能, 可以通过声控搜寻相关信息, 执行某些命令, 其最大的特点则是在人机互动方面, Siri可以针对客户的询问进行语音回答, 回答的内容不至于答非所问, 更重要的是, 可以抛弃繁琐的语法结构, 甚至思维模式也可以混乱, Siri会结合上下文结构去理解, 它还会从人类语言史的角度出发, 利用人工智能系统去分析, 并在绝大多数情况下领会用户的意思。而更加人性化的特点是, 一旦你开始和Siri进入一段对话, 它甚至能理解许多含义模糊或者引申的语义, 所以在一定意义上说, Siri是一款智能控制系统。而Voice Actions做不到这样的事情, 因为它只是一个声控命令软件, 而并非人工智能。

Voice Graph结合基于内容和基于说话人的查询, 检索已知的说话人和词语, 并设计了一种音频图示查询接口。

国产的金立语音王手机自带的金立语音控制系统和ARS也是一种基于内容的音频检索系统, 金立语音控制系统主要是中文的语音识别, 在识别的基础上实现某些手机功能的操作, 使用范围狭窄, 仅仅适用于操作金立手机上的相关功能, 对语音的识别也很有限。而ARS系统通过提取音调、音强、亮度、带宽、过零率等5个特征, 对数据进行分类和处理。操作过程首先判定其是否为音频, 而后进行语言识别以判定采用何种音频检索模式。

上述几个系统中Muscle Fish、Voice Graph和ARS虽然都是基于内容的音频检索系统, 但都有各自的不足, 如Muscle Fish虽然直接进行波形检索, 但他只对笑声、铃声、电话声等16类特定的声音有较高的准确率, 而对于这16类特定声音的检索性能的好坏还依赖于哼唱输入信号的音调跟踪的准确性, 只有当在相邻的音符之间插入一个停顿时才能获得很高的性能。而Voice Graph使用的准确度也非常有限, 而ARS和金立语音识别主要是针对中文语音, 识别的范围也十分有限, 对于音乐和其他波形的准确率都有待提升。Siri在语音识别方面算是十分完善的, 支持中文、英文、法文等十多种语言的识别和控制, 但是同样的对其他音频都不能进行处理。

基于内容的音频检索还处于不成熟的领域, 基于语音识别的语音索引和检索相对比较容易, 但是没有任何词汇限制的一般主题的语音识别性能仍有待改进。对于音乐检索, 主要是基于音频特征矢量匹配和近似音调匹配, 这方面许多研究已经做了大量工作, 然而对于一般情况下如何感知音乐和音频以及关于音乐片段之间的相似性比较, 还有许多工作要做。

5 总结与展望

本文介绍了音频检索系统的框架, 主要的检索技术和检索模式和相关的问题, 虽然许多研究对音频检索技术做了大量探讨, 但基于内容的音频检索还处在起步阶段, 该研究领域与信号处理、人感知心理研究和模式识别等学科都紧密相连。为了使计算机能像人那样对音频语义实现自动理解, 对音频信息就行搜索, 还有许多急待解决的问题, 如高层概念和底层特征的关联, 以实现音频语义的计算机自动抽取;网络大量数据的高效处理检索;音乐旋律的结构化检索等。此外, 对音频特征的表示、音频信息的聚类以及特征信息的挖掘都有待进一步的发展。

参考文献

[1]黄卫平, 肖健宇, 张大方.多媒体数据库的关键技术:特征的提取与索引.计算机工程与应用, 2003, 39 (11) :194～196

[2]邢伟利.基于内容的音频检索技术研究与实现[D].西安:西北大学.2004

[3]李国辉等.基于内容的检索[N].计算机世界专题, 1998, 05:26

[4]李恒峰, 李国辉.基于内容的音频检索与分类[J].计算机工程与应用, 2000, 07:54～56

[5]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2001, (4) :431-437

DRA分层音频编码技术篇4

关键词：DRA,分层编码,数字音频广播

在分层音频编码上, 国外已经研究了几种精细分层的有损数字音频编码方法及无损音频编码, 主要包括:1) ISO/IEC 14496-3 MPEG-4 BSAC (Bit Sliced Arithmetic Coding) 比特片算术编码[1], 在这种编码算法中, 基于对MDCT (修正离散余弦变换) 变换后的变换域系数 (频谱系数) 被量化为整数后, 从低频到高频分成多个组, 每个组谱系数从高位到低位形成比特片方式进行算术编码, 因此可以实现非常精细的分层 (或者伸缩) 编码。2) 在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸缩采样率编码算法AAC-SSR (Advanced Audio CodingScalable Sampling Rate) , 首先是由Sony提出的, 编码架构也类似于其独有的ARTAC (Adaptive Transform Acoustic Coding) 编码。其基本算法是:首先将输入的数字音频信号通过4带的多相正交滤波器组 (Polyphase Quadrature Filter, PQF) 分割成4个频带, 然后这4个频带分别进行1个256点MDCT (512样点窗长) 或8个32点 (64样点窗长) MDCT。这种技术的好处在于每个频带内可以独立选择长块或短块MDCT, 因此对高频可使用短块编码增强时间分辨率;而对低频使用长块编码获得高频率分辨率。3) MPEG-4 SLS (Scalable Lossless Coding) 有两种方式。一种是有损音频编码层 (如AAC) 和无损误差增强层, 这样就保证了与原来有损编码的后向兼容。另外一种是没有有损编码层, 仅仅无损增强层。在这两种方式中, 无损增强层能够实现精细分层, 提供低质量、高质量以及无损质量。

第一种分层编码算法为了实现精细分层, 需要考虑限制频谱分区长度等, 而导致需要较多额外开销降低了编码效率;第二种分层编码算法由于应用了4个PQF, 造成带间存在混迭, 因此相邻部分的变换域系数编码效率会下降;而第三种分层也是一种极其精细的分层编码技术, 同样存在需要较多额外开销的问题。

中国数字音频 (调频) 广播 (CDR) 系统已经分别颁布了信道标准[2]和复用标准, 其中在信道传输技术规范中, 调制技术支持粗分层调制, 且信道编码支持不等错保护技术, 因此数字音频信源编码技术最好能够适配信道传输技术, 而上述的几种分层编码技术不太合适, 同时已颁布的我国多声道数字音频编码技术规范DRA[3]也不支持分层方式。为此本文提出了一种新的基于DRA分层编码方法, 简称为DRA+L, 在使用很小额外开销的条件下提供2层的帧结构, 同时保证了与原DRA兼容。

1 DRA分层编码结构

图1给出了DRA基本帧结构示意图[3], 在帧头信息中有1 bit指明是否在帧尾存在辅助数据部分, 其目的就是为以后应用需求而进行功能及性能增强所保留的扩展单元, 这样也确保了增强后的编码算法仍与原DRA兼容。另外需要注意的是, DRA帧头信息中的帧长度信息的计算并不包含辅助数据部分, 因此辅助数据部分需要独立定义自身的长度, 便于解码器拆分辅助数据单元, 并且易于快速同步。

1.1 辅助数据一般结构

辅助数据结构示意图如图2所示, 其中DRA帧头信息中的帧长信息是以32比特 (4 byte) 为单位。辅助数据中每个数据块下面小括号内的数字表示其占用的长度, 单位为bit。X1, Xn分别为第1个和第n个辅助类型的数据长度, 单位为byte。在辅助数据的开始是辅助数据的长度指示, 当辅助数据比较短时 (小于256 byte) , 直接使用8 bit基本长度信息描述;否则辅助数据长度通过16 bit扩展长度与前面的8 bit基本长度共同描述, 即在256基础上累加16 bit无符号二进制数所表示的数值作为整个辅助数据长度。

每种辅助数据的类型由三部分组成:第一部分是本类型附属数据的长度, 用12 bit描述 (以byte为单位) ;第二部分为本类型附属数据的具体类型, 以4 bit表示, 最后一部分是本类型辅助数据的有效载荷。

1.2 分层编码的数据结构

DRA分层编码就是在国标DRA算法的基础上通过分层编码辅助数据的增强扩展而实现的。分层编码可根据编码的声道数进一步分为单声道/立体声的分层和5.1环绕声分层, 其码流结构分别如图3和图4所示的两层结构 (即基本层和增强层) 。

1) 单声道/立体声分层帧结构

在单声道/立体声分层编码模式时, 分层编码的基本层就是在它所分配的码率限制下通过国标DRA编码单声道或立体声;分层编码的增强层首先是辅助数据的总长度, 辅助数据内部仅包含一种辅助数据类型, 即分层编码类型。分层编码类型包括:12 bit分层编码类型长度、4 bit分层编码类型指示和分层编码扩展的有效载荷。在有效载荷的开始, 通2 bit声道模式“00”用于表示当前DRA分层编码是是单声道/立体声分层编码;有效载荷的其他部分则为单声道/立体声残差的DRA编码信息。

2) 环绕声分层编码帧结构

在5.1环绕声分层编码模式时, 分层编码的基本层就是前置左右声道对的DRA编码;增强层的结构与单声道/立体声分层的增强层相似, 但有效载荷的开始2 bit声道模式置为“10”, 并且有效载荷的其他部分为其余声道 (中央声道、超重低音及左右环绕声道对) 的DRA编码信息。

3) 低码率DRA分层编码帧结构

当在数字音频 (调频) 广播等应用中, 有时需要在一个模拟调频节目内传输多路数字立体声信号或环绕声信号, 因此要求DRA可提供更高编码效率而降低码率, 这时需要在DRA算法的基础上增加一些增强编码工具, 例如带宽扩展及参数立体声等, 实现低码率DRA编码算法。参照DRA分层编码结构图3和图4, 可以通过简单修改给出低码率DRA分层编码结构。

(1) 单声道/立体声低码率DRA分层

单声道低码率DRA分层:基本层包括单声道低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (包括带宽扩展辅助数据的长度、类型及数据) ;增强层包括图3中辅助信息长度之后的所有部分 (其中残差DRA编码也是编码单声道的低频部分的残差信号) 。

立体声低码率DRA分层:当不采用参数立体声时, 基本层包括立体声对低频部分的DRA编码、辅助信息长度信息、带宽扩展类型辅助数据;增强层包括图3中辅助信息长度之后的所有部分。当采用参数立体声时, 基本层包括立体声对下混为单声道后的单声道低频部分DRA编码、辅助信息长度信息、带宽扩展类型辅助数据 (在数据内部包含参数立体声编码数据) ;增强层包括图3中辅助信息长度之后的所有部分。

(2) 环绕声低码率DRA分层

基本层包括左右立体声对低码率DRA编码信息 (包括左右立体声对低频部分的DRA编码或者下混后的单声道低频部分的DRA编码、辅助信息长度和带宽扩展类型辅助数据) ;增强层为图4辅助信息长度之后的所有部分 (其中中央声道C采用低码率DRA单声道编码方法, 左右环绕声道对采用低码率DRA声道对编码方法) 。

2 分层编码算法

2.1 单声道和立体声分层编码算法

图5给出了单声道/立体声分层编码的原理框图, 其中基本层为单声道或立体声的DRA编码 (图中虚线框内的两个模块带宽扩展 (BWE) 编码和参数立体声 (PS) 编码是低码率DRA编码的增强单元) , 其中DRA完全符合国家标准规范的压缩算法;增强层则是对残差信号的编码, 用于进一步改善解码信号的精度。下面主要介绍3个部分:DRA残差信号的计算、DRA残差信号量化和DRA残差信号的码书编码。

1) DRA残差信号的计算

GB/T 22726—2008国标中实现DRA的标准算法简单示意图如图6所示 (为了清晰, 特将解码端也做了简单描述, 其中解码端模块见图6的虚线框图) 。时域数据x[n]经过MDCT变换到频域得到谱系数X[k], 将频域系数分成多个子带, 对其中属于子带b的谱系数除以一个量化步长Δb, 然后取整 (nint) 得到量化后的谱系数X̂[k], 其中每个量化步长Δb和谱系数X̂[k]通过各种方式传输到解码端。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k], 对其做IMDCT得到解码后的时域系数x͂[n]。

DRA分层算法简单示意图如图7所示的中间模块。由图7可以看到, 基本层和图6的编码端完全一致, 也即完全兼容。增强层包括:取整得到的量化后的谱系数X̂[k]在增强层乘以量化步长Δb恢复出量化后的谱系数X͂[k], 然后用原始谱系数X[k]减去量化后的谱系数X͂[k], 得到残差谱系数E[k]。将残差谱系数E[k]分成多个子带, 对其中属于子带e的谱系数除以一个残差谱系数量化步长Δe, 取整 (nint) 得到量化后的残差谱系数Ê[k]。增强层需要传输残差谱系数量化步长Δe和量化后的残差谱系数Ê[k]。在解码端对量化后谱系数X̂[k]乘以量化步长Δb, 得到逆量化的谱系数X͂[k];对量化后残差谱系数Ê[k]乘以残差谱系数量化步长Δe, 得到逆量化的残差谱系数E͂[k]。最后将基本层得到的逆量化的谱系数X͂[k]和增强层得到的逆量化的残差谱系数E͂[k]相加, 并对和做IMDCT得到解码后的时域系数x͂[n]。

2) 残差信号的量化

由于残差信号的概率分布与原始音频信号的概率分布不同, 特别是0附近的小信号概率明显增大, 因此残差信号的量化算法是对DRA量化算法的改进, 主要是重新定义了量化码书1和2的都为4维Huffman编码 (其他码书相同) , 分别对应量化频谱系数的绝对值在1和2的情况, 并且重新训练并编制了新的Huffman码书, 提高了编码效率。

残差信号的量化步长采用差分编码Huffman编码方式表示 (第一个量化步长用7 bit绝对值表示) , 而DRA标准是量化步长绝对值Huffman编码方式。

3) 残差信号的码书选择及应用范围

不同于DRA编码规范中固定用5 bit表示码书段个数, 残差信号的码数段个数对平稳帧仍用5 bit, 但对瞬态帧仅用4 bit。

码书的应用范围划分进一步简化, 并且从Huffman编码改为游程编码。如果是平稳帧时, 每16个谱线为1个编码子带, 即每16个谱线用1个Huffman码书。所以1 024个谱线有64个编码子带。码书的应用范围先用5 bit表示最多32个编码子带, 如果应用范围大于32个编码子带, 则再用5 bit, 这时最多可以表示64个编码子带;如果是瞬态帧, 每8×n Block Num (n Block Num取值可参考文献[3]) 个谱线为一个编码子带, 即每8×n Block Num个谱线用一个Huffman码书。所以128×n Block Num个谱线有16个编码子带。码书的应用范围先用3 bit表示最多8个编码子带, 如果应用范围大于8个编码子带, 则再用3 bit, 这时最多可以表示16个编码子带。

对每个码书段的码书索引量化方式由Huffman编码改为更简单的哥伦布编码。

2.2 环绕声分层编码算法

与立体声分层编码算法相比, 图8所示的DRA环绕声分层编码算法比较简单。基本层是对左 (L) 和右 (R) 声道对进行DRA编码;增强层是对中央声道 (C) 进行DRA编码, 对超重低音 (LFE) 声道进行DRA编码, 以及对左环绕 (Ls) 和右环绕 (Rs) 声道对进行DRA编码。声道在编码时可能开启和差立体声模块, 一般不使用强度立体声工具。

当低码率DRA环绕声分层编码时, 其中的DRA编码替换为低码率DRA编码即可, 其中声道对编码可能开启参数立体声编码模块, 提高低码率 (例如低于128 kbit/s环绕声情况) 下的编码效率和主观声音质量。

3 DRA分层编码的试验及分析

DRA环绕声分层编码是在DRA环绕声分层编码算法的基础上通过简单调整各声道编码数据实现分层的, 仅仅引入了很少的额外辅助数据, 占整帧数据的比例很小, 因此环绕声分层编码的总声音质量和DRA环绕声相当, 环绕声分层编码基本层的主观声音质量与相应码率的DRA立体声质量一样;而DRA单声道/立体声分层编码采用残差方式, 与原DRA编码差别较大, 下面将重点分析这种情况下的声音质量比较。而低码率DRA分层编码的性能可对照DRA分层编码结果, 本文不再累述。

3.1 DRA分层编码的额外开销分析

由于单声道/立体声分层编码主要通过残差方式实现, 因此这里主要分层环绕声分层编码的额外开销问题, 表1给出了48 k Hz采样率下不同典型码率时环绕声分层编码额外开销情况。由于DRA帧长是32比特的倍数, 以及基本层和增强层具有同样的长度, 同时应用中实际比特率一般应低于典型设置的比特率, 因此表1中给出了实际比特率。

3.2 DRA分层编码性能客观测试结果

考虑到DRA分层编码属于感觉音频编码技术, 因此基于心理声学模型的客观测试软件能够较准确地衡量这种编码算法。主要测试条件及内容如下:

1) 测试软件:本文采用基于ITU-R BS.1387标准[4]的商用客观测试软件CRC-SEAQ。

2) 测试音频片段:12个48 k Hz和16 bit量化的MPEG立体声测试序列。

3) 码率:DRA分层@64 kbit/s基本层+64 kbit/s增强层和DRA分层@64 kbit/s基本层。

4) 输出:客观差别分ODG (数值越接近0越好) 。

测试结果如图9所示, 其中前12列分别对应12个不同的MPEG测试序列, 最后一列为12个测试序列得分的平均值。上面的折线表示DRA分层编码ODG分数, 下面的折线为DRA分层编码中仅仅解码基本层所获得的ODG分数。可以看到仅解码DRA分层编码的基本层可提供基本的收听质量, 通过增强层解码可提高约1分的平均分, 能够进一步明显提高总的主观声音质量。

4 DRA分层编码的应用示例

在数字音频 (调频) 广播应用中, DRA分层编码应用如图10所示, 通过DRA粗分层音频编码算法将输入的数字音频信号编码分为基本层和增强层两组数据, 通过非等错信道编码可对基本层给予强误码保护, 对增强层给予弱保护;或者通过分层调制技术使得基本层和增强层有不同的抗干扰能力;最后通过发射机播出。由于 (调频) 广播信道一般为无线信道, 除了随着距离增加信号自然衰减之外, 还受到各种衰落、遮挡、电磁干扰等, 在接收端通常无法完全正确解调被干扰的信号, 可用功信道解码降低误码率。如图中用户1的情况, 接收环境比较差, 只能正确解码基本层, 如果广播的是环绕声节目, 则用户1可收听高质量的立体声部分;如果广播的是立体声节目, 用户1将接收到基本质量的立体声信号。用户2有良好的接收环境, 可完全解码基本层和增强层, 这样用户2可收听高质量环绕声广播或者高质量立体声广播。

5 结论

本文提出的DRA分层编码是基于DRA技术而开发的一种新的编码算法, 主要特点是DRA分层编码提供了一种新的粗分层码流结构, 并且由于DRA环绕声分层编码仅仅是通过引入小于1%的额外开销控制多声道编码数据重新组织而实现了分层, 保证了环绕声分层编码质量基本无下降;DRA单声道/立体声分层采用残差再编码的技术实现的分层, 客观测试表明DRA单声道/立体声分层编码可在基本层的ODG分数上通过增强层进一步明显改善大约1分。由于DRA分层编码是通过DRA编码算法中辅助数据的扩展来实现, 因此DRA分层编码与DRA编码兼容, DRA编码可完全解析基本层数据。DRA分层编码特别适用于数字音频广播, 可与非等错信道编码和分层调制技术完美结合, 提供最佳的收听效果。

参考文献

[1]ISO/IEC 14496-3, Information technology-coding of audio-visual objects-part 3:audio[S].2004.

[2]GY/T 268.1, 调频频段数字音频广播第1部分:数字广播信道帧结构、信道编码和调制[S].2013.

[3]GB/T 22726—2008, 多声道数字音频编解码技术规范[S].2008.

广播电视检测音频关键技术篇5

广播电视数字化后, 广播电台的音频节目的每一个部分都产生了深刻的变化, 而数字音频是数字化电视广播制作的主要功能手段, 因此, 对于电视广播检测音频技术的探究很有必要, 但随着数字音频的产生, 无论是基本理论、系统设计、音频格式还是接口方式都发生了改变, 检测工作的难度也因此增加, 单靠人力完成是远远不够的, 广播电视节目更加需要一种能够对数字音频进行实时检测分析的自动报警检测系统。

数字音频的基本原理

随着计算机技术的深入发展, 数字音频全面提高了广播电视节目的播出质量, 并且已经逐步取代广播电视制作系统中传统应用的以模拟信号处理方式的音频设备。数字音频设备在原有的模拟音频信号的输出和输入方式的基础上, 对音频设备的功能则设计为实现在模拟信号环境中运行。数字音频的实际技术运用, 是将音频设备经过信号转换, 由模拟信号转成数字信号, 在转换过程中同时实施对音频信号的控制, 然后再用于记录和传输。对于麦克风等模拟设备的信号采集, 需要进行数字化信号处理。其中最关键的技术的A/D转换, 模拟音频能够进行良好的数字化转换的基础在于高效率和高质量的A/D转换。而A/D转换的质量主要取决于抽样、量化、编码等工作的精确测量度以及准确性。目前使用的抽样标准有3种, 如下表:

数字音频检测分类

目前许多广播电视台的自动检测系统都只是单纯的对音频信号的质量和信号的好坏进行检测, 多采用人工监听, 循环播放的方式来完成检测, 这种方式效率较低且会出现滞后性, 导致电视广播节目出现突发现象。对于数字音频检测主要分为对音频内容好坏的检测和音频质量的高低以及信号来源的正确性。二者相互依存, 因为音频质量的高低会影响到节目播出的质量, 会影响到听众对信息内容的获取, 而音频内容的好坏又会直接影响到音频质量。针对于数字音频, 监测的关键技术主要包含数字音频频谱分析、数字音频电平测量、数字水印技术。

1. 数字音频频谱分析技术

进行频谱分析的方法通常包含有机遇数字滤波法的频谱分析、基于FFT技术的频谱分析以及基于外差原理的频谱分析。对于数字音频的频谱分析的基本原理是将时域信号转换到频域, 因此测出频谱分量。分析频谱则可以进一步观察音频信号对于不同频率上的幅值变化情况。下面以FFT技术为例, 简要说明数字音频频谱技术的分析方法。

FFT技术主要采用的仪器为FFT分析仪, 在信号采样以后, 对信号的采样点进行一段时间长度的傅里叶变换, 将时域信息转换为频域信息。这种变换采用的是离散时域采样点, 因此时域信号中不会存在频率信息的遗漏, 故而我们认为, FFT分析法所产生的信号宽带是能够实现实时分析的。在变换过程中, 需要关键考虑到FFT长度这个参数, 必须是2的整数次幂, 如果不足则用0值补齐。经过变换而得的频率信息的最低频率, 由音频采样频率域FFT长度共同决定。但是由于人耳能听到的频率范围是有一定局限性, 所以在实际测量中, 需要将频谱信息利用均衡图来分段显示。如下图所示为常用的集中显示均衡图。

2. 数字音频电平测量

最简单的音频检测形式是使用现实音频信号幅度的电平表, 一般包含两种类型的电平表: (Peak Program Meter) PPM表和 (Volum Unit) VU表。数字音频在制作过程中, 就与模拟音频有很大的区别, 数字音频采用脉冲编码调制的方法制成, 在电平检测的时候, 当输入信号电平上升到某一只时, 输出信号上升速度反而减慢, 达到饱和, 这就是模拟音频而非数字音频, 当数字信号通过电平检测时, 如果出现检测信号超过峰值节目表的0分贝时, 应该进行报警预告。

3. 音频的矢量和相位检测

音频的矢量图是由左右声道通过李萨如图形得到的, 我们可以利用矢量图来分析左右声道的相互关系, 进而检测这两个声道的平衡模式。

音频的相位图主要是表现出左右声道的相位差, 来判断左右声道信号之间的关系, 并且需要定量测量工作。相位差的测量方法主要包含:过零比较法、相关分析法、波形变换法。以相关分析法为例, 是利用左右声道的正弦同频信号的互联函数值与相位差的余弦值进行正比来获得的。

4. 数字水印技术

数字水印是在不影响音频质量的前提下, 在授权的情况下将防伪信息嵌入到音频的原始数据中, 对数字音频进行版权保护。数字水印技术一般包含了嵌入、提取、处理过程。现在人们对音频的数字水印的发展朝着不可见水印技术发展, 主要是由于可见水平容易受到攻击和模仿, 而不可见水印技术则有一定的隐藏性。实现不可见数字水印的方法大体分为在变换域中实现和在空间域中实现。以变换域中实现方法为例, 它首先需要对信号进行一系列变换如离散余弦变换、傅里叶变换等, 在镶嵌水印进入音频信号中, 这种方式计算较为复杂, 但隐蔽性高。

数字音频自动检测系统简要说明

自动化检测数字音频系统的主要运行方式为:音频信息输入音频检测终端, 音频信息被终端读取并进行DSP处理 (包括计算其音频左右声道相位差、电平大小、时域信号变换到频域) , 进一步输出给检测主机, 最后经过前端检测软件处理, 在输出设备上表现出输出结果。其中监测前端包括监测主机、音频监测终端、以及与其配套的显示设备和监听设备。主要完成音频信息的监听监看、参数设置、数据记录和查询、报警功能。该系统还含有存储系统和集中控制系统。

广播电视节目现在已经成了人们生活中不可分割的一部分, 对于广播电视的音频检测工作也越来越受到业内人士的关注, 随着信息技术的不断革新, 相信在不久的将来, 音频检测的关键技术也会不断深入发展, 技术也会越来越成熟, 促进我国的广播电视也的快速发展。

电视台视音频技术的具体应用篇6

关键词：现场直播,视音频直播,录制

随着观众对现场感的要求越来越高, 现场直播这一形式已经成为电视台报道重大会议, 重大文艺活动等所使用的常规播出方式, 现场录制也已经成为广告招商类文艺活动等节目的常规录制手段。其所需的技术手段也在不断提高。在这里以我台为例就室内 (外) 电视台现场直、录播技术做一个简单介绍。一套完整的直、录播系统, 根据设备的不同技术性能特点可分成信号系统、现场通讯系统、电源供给系统、灯光音响系统、播出系统五个部分。其中, 信号系统是电视现场直播的主要系统, 现场通讯系统是电视现场直播的必要工具, 电源系统是电视现场直播能否顺利完成的保障。

以我台为例。政风行风和说事这两档节目均在同一个演播室录制和直播。属于室内节目的录制及直播。出于场地的限制和功能的划分。设备的安装跨越3个楼层。顶层为大型综合演播室。在这里主要安装的是演播室配电及空调系统、灯光系统和视音频的拾取设备:调音台、有线和无线话筒、摄像机、导播的通话系统等。中间层为导播间。作为整套系统承上启下的关键层。这里我们安装了视频矩阵、视频特技切换台、内部通话系统、视频监视、外部电话耦合器、短片播放用非编等。录制上我们采用电脑采集录制和DVCPRO磁带录制的双备份的方式。在这一层中整个节目录制的工作就可以全部完成。最后一层就是我们的播出机房。这一层主要是把之前的所有信号汇总后播出, 考虑现场直播的安全性。我们安装了延时器, 设定10秒延时以确保直播的安全性。见 (视频图一) 。

(视频图一)

以上是就我台的实际情况对室内直、录播技术的简单介绍。

下面就户外直、录播也做个简单介绍。

大型电视台一般会购买电视转播车, 将多机位直播所需的全部设备安装在转播车上, 该车有完善的电源供给、信号处理、通讯联络等设备, 可以在转播车上直接实现视音频拾取及切换, 并可以直接将信号直接传至播出机房叠加字幕后播出。

以我台为例。虽然暂时没有配备转播车这一大型设备, 依然出色的完成了领导交付的各项直、录播任务。在这个户外系统中同室内的直, 录播系统几乎一样。主要先要在现场找到供电系统, 以保障所有设备的不间断供电。在现场搭建操作台:主要有视频特技切换台、多路监视设备、视频分配器、视音频分配器、调音台、dvcpro磁带录制设备 (如有需要还带非编进行现场录制) 、调音台等。

浅谈数字音频水印技术的应用篇7

关键词：数字音频水印技术,优势,应用

随着现代计算机和网络技术的快速发展, 我们的生活也随之发生了很大的改变。相比之前, 我们可以很轻松的通过网络获得各种的多媒体数字作品。这些作品的传播不再局限于纸张等实物, 而是可以以数字的形式快速的传播。

但是, 在快速传播的同时, 也会出现许多的问题。比如:版权的问题。在数字形式的音频作品上, 很难说明原创者是谁, 这就会牵涉出许多的争议。为了解决这一个问题, 就出现了数字音频水印技术。下面就来了解一下这项技术, 以及这项技术都有怎样的应用、未来还会有怎样的发展前景:

一、什么是数字音频水印技术

数字音频水印技术就是通过一定的计算方法, 将一些标志性的文字或者图案加入到数字音频中去。但是, 这种水印不会影响产品的使用。而且, 一般情况下肉眼也看不到, 必须通过特定的检测器才能检测出来。这种水印可以将产品的作者或者公司信息添加到产品当中去, 便于产品的辨识以及保护。数字音频技术添加的水印必须具备不可见性的特点, 特别是在视频当中, 不可见性是为了保证不会影响视频的观看。

二、数字音频水印技术都被应用到了哪些方面

(一) 数字音频水印技术在内容认证方面的应用

随着现代科技的快速发展, 一些贪图私利的人开始利用科技的进步进行盗版。这样的盗版行为严重的影响了我国音频事业的发展。为了应对这种情况, 就开始使用数字音频水印技术。

1) 在音频中加入水印, 这些水印一般情况下是很难被发现的, 而且也是很难被改变的。在音频加入水印, 可以很好地打击盗版行为, 保护正版的合法权益。而且, 水印中的信息都是受到很好地保护的, 很难被人知道制作者的信息。还有, 一旦音频受损, 可以通过水印找到相应的制作者, 还能便于音频的恢复。

2) 但是, 现在的数字音频水印技术在内容认证方面的应用还是存在许多的不足。

a.实用性比较差。因为这项技术需要产品不会发生一丁点的改动, 一旦发生改动, 产品就会被破坏。但是, 在不同的商家或者企业使用的时候, 难免需要根据实际的情况作出相应的改变, 这种技术的弊端就被暴露出来了。

b.不能实现盲检测。有时候需要知道音频的制作者是谁, 就需要对水印进行检测, 获取其中的信息。但是, 现在的水印技术还达不到不提取就检测的地步。所以, 想要检测就必须提取水印的信息。但是, 提取水印的时候就难免会对音频造成一定程度的毁坏。

c.不能确定篡改的类型。添加水印的目的就是为了防止盗版, 但是以现在的技术, 添加的水印还不能够确定音频的内容被做了哪些方面的篡改。

(二) 数字音频水印技术在数字版权管理方面的应用

1) 数字音频水印技术使用到多媒体数字作品当中, 可以表明数字作品的来源以及使用该数字产品的时候需要注意什么。而且, 还可以通过水印来提醒使用者, 这份数字产品是有正规出处的, 在一定程度上可以防止非法转载。

2) 在一个数字产品诞生的时候, 可以将作者的身份通过水印的形式添加到作品当中。万一日后有人未经允许私自使用该产品, 水印也可以成为维护作者合法权益的一项有力的证据。

3) 自动搜索盗版实例。当然, 搜索盗版必须建立在不需要水印原始数据的基础之上。如果不需要水印的原始数据, 就可以通过水印搜索出盗版的使用网址。这样也可以很好地维护作者的合法权益。