数字音频水印技术论文

2024-08-16

数字音频水印技术论文（共12篇）

数字音频水印技术论文篇1

摘要：在通信技术与网络技术的发展下, 数字媒体技术在各个领域得到了广泛应用, 关于知识产权保护、信息安全以及知识产权的认证问题开始受到人们的关注。合理应用数字音频水印技术可以解决这一问题, 实现使用跟踪、拷贝限制、盗用确认的要求, 本文主要针对数字音频水印技术的应用进行分析。

关键词：数字音频水印技术,优势,应用

随着现代计算机和网络技术的快速发展, 我们的生活也随之发生了很大的改变。相比之前, 我们可以很轻松的通过网络获得各种的多媒体数字作品。这些作品的传播不再局限于纸张等实物, 而是可以以数字的形式快速的传播。

但是, 在快速传播的同时, 也会出现许多的问题。比如:版权的问题。在数字形式的音频作品上, 很难说明原创者是谁, 这就会牵涉出许多的争议。为了解决这一个问题, 就出现了数字音频水印技术。下面就来了解一下这项技术, 以及这项技术都有怎样的应用、未来还会有怎样的发展前景:

一、什么是数字音频水印技术

数字音频水印技术就是通过一定的计算方法, 将一些标志性的文字或者图案加入到数字音频中去。但是, 这种水印不会影响产品的使用。而且, 一般情况下肉眼也看不到, 必须通过特定的检测器才能检测出来。这种水印可以将产品的作者或者公司信息添加到产品当中去, 便于产品的辨识以及保护。数字音频技术添加的水印必须具备不可见性的特点, 特别是在视频当中, 不可见性是为了保证不会影响视频的观看。

二、数字音频水印技术都被应用到了哪些方面

(一) 数字音频水印技术在内容认证方面的应用

随着现代科技的快速发展, 一些贪图私利的人开始利用科技的进步进行盗版。这样的盗版行为严重的影响了我国音频事业的发展。为了应对这种情况, 就开始使用数字音频水印技术。

1) 在音频中加入水印, 这些水印一般情况下是很难被发现的, 而且也是很难被改变的。在音频加入水印, 可以很好地打击盗版行为, 保护正版的合法权益。而且, 水印中的信息都是受到很好地保护的, 很难被人知道制作者的信息。还有, 一旦音频受损, 可以通过水印找到相应的制作者, 还能便于音频的恢复。

2) 但是, 现在的数字音频水印技术在内容认证方面的应用还是存在许多的不足。

a.实用性比较差。因为这项技术需要产品不会发生一丁点的改动, 一旦发生改动, 产品就会被破坏。但是, 在不同的商家或者企业使用的时候, 难免需要根据实际的情况作出相应的改变, 这种技术的弊端就被暴露出来了。

b.不能实现盲检测。有时候需要知道音频的制作者是谁, 就需要对水印进行检测, 获取其中的信息。但是, 现在的水印技术还达不到不提取就检测的地步。所以, 想要检测就必须提取水印的信息。但是, 提取水印的时候就难免会对音频造成一定程度的毁坏。

c.不能确定篡改的类型。添加水印的目的就是为了防止盗版, 但是以现在的技术, 添加的水印还不能够确定音频的内容被做了哪些方面的篡改。

(二) 数字音频水印技术在数字版权管理方面的应用

1) 数字音频水印技术使用到多媒体数字作品当中, 可以表明数字作品的来源以及使用该数字产品的时候需要注意什么。而且, 还可以通过水印来提醒使用者, 这份数字产品是有正规出处的, 在一定程度上可以防止非法转载。

2) 在一个数字产品诞生的时候, 可以将作者的身份通过水印的形式添加到作品当中。万一日后有人未经允许私自使用该产品, 水印也可以成为维护作者合法权益的一项有力的证据。

3) 自动搜索盗版实例。当然, 搜索盗版必须建立在不需要水印原始数据的基础之上。如果不需要水印的原始数据, 就可以通过水印搜索出盗版的使用网址。这样也可以很好地维护作者的合法权益。

三、数字音频水印技术未来的发展

目前的数字音频水印技术已经得到了很广泛的应用, 但是, 还是存在许多的不足。未来的发展可以集中在:

(一) 对产品的适应性

可以通过技术的改革使得水印在添加到产品中之后, 还能够允许产品做出一些小范围的改动。

(二) 实现盲检测

可以不用提取水印就能进行检测, 这样可以方便产品作者信息的获取, 还能够避免对相关产业的影响。

(三) 可以检测出篡改的类型

在水印技术改进之后, 可以通过对水印的检测, 就可以检测出盗版的产品进行了什么样的篡改。这样有利于下次再生产产品的时候避免此类盲区, 就能避免二次被盗版问题的产生。

四、结语

计算机技术的快速发展, 确实给我们的生活带来了很大的便利, 但同时也给我们的版权保护等问题带来了不少的麻烦。数字音频水印技术可以很大程度的保护版权, 相信随着科技的进步, 数字音频水印技术会发展的越来越好。

参考文献

[1]郑良斌, 游福成, 何薇.基于音频文档的版权保护技术——数字音频水印研究[J].计算机应用与软件, 2008 (07) .

[2]李春蔚, 何华平.数字音频水印算法的计算机仿真研究[J].四川理工学院学报 (自然科学版) , 2010 (05) .

[3]王庆, 张雪英, 马朝阳.一种新的基于变换域的数字音频水印算法[J].太原科技, 2009 (03) .

[4]张一帆, 蒋天发.基于时域扩展回声隐藏的数字音频水印研究[J].计算机工程与应用, 2008 (31) .

数字音频水印技术论文篇2

一、概述

回顾数字音频光盘的发展，自1983以来，CD以更宽的频率响应、更高的信噪比、更大的动态范围和更小的失真，加以轻、薄、小型、廉价、使用方便等优点，迅速地取代了传统LP密纹唱片市场。CD的数字音频采用PCM多比特录音技术，以每秒44.1KHz采样频率，16bit量化精度来记录音频数据。以后所开发的多种数字音频产品，如：DAT、DCC、MD等也沿用这种格式。但PCM存在着一些难以克服的缺陷： (1)当采用44.1 KHz取样频率时，必须在22 .05KHz处采用急剧升降的数字滤波器，以防止基带外的频率成分混入。该种锐截止滤波器带来的群延时失真明显地劣化了高频端的重放音质。(2)对于小信号，PCM方式中由于量化噪声的原因造成信噪比下降。为了解决这个问题而采用了一些改善措施。但这些措施随之又带来了新的问题，导致在声音还原时人们很容易辨别出CD还原的数码声，具体表现在低频生硬、单薄，中频不够透明，高频有毛刺感等。迄今近来虽然这种技术虽然在不断进步，量化编码从16bit上升到24bit、32bit，采样频率提升到96KHz，即使这样，其改善也是有限的。

因此后CD时代的竞争表面上是SACD和DVD-Audio之争，其本质上是DSD技术和PCM技术之争。它们的运用数字技术和格式完全不同，并且互不兼容。

二 DSD技术

DSD格式的推出，较大程度地改善了PCM存在的缺陷。DSD的取样频率为2.8224MHz，较传统CD的取样频率 44.1kHz高出64倍，理论上可以把频响范围扩展至1Hz-400kHz，大大超越传统CD20 kHz的极限。同时64倍于CD的超取样频率又可以使量化噪声的大部分能量被转移至音频范围之外，很容易被一个低通滤波器滤除。可见此编码技术就是通过大幅度地提高采样频率，来降低音频范围内量化噪声，同时使用 “噪声整形电路”进一步把可闻频带(0 ~ 20kHz)内的噪声转移到20kHz以上的超音频范围中去，有效地控制量化噪声的分布以进一步提高信噪比。

我们都知道，按照采样定律进行采样、量化和编码的数字音频信号，其信噪比决定于量化比特数，大约为量化比特数的6倍。因此在音频系统中降低量化比特数就将增大量化噪声。因此1bit信号流的噪声是很大的。为满足Hi-Fi放声的要求，一般采用16bit量化。DVD-Audio格式就是采用这种思路，但量化比特数的提高，不仅使数字信号的码率提高，而且所要求的A/D 转换和D/A转换更精密，相应价格变高，因此量化比特数的提高有一定的限制。DSD技术为解决该问题采用了另一种降低量化噪声的方法：采用过采样，同时使用噪声整形技术改变噪声在频率轴上的分布，并用滤波器滤掉20KHz以上的噪声，来提高系统的信噪比。下面简单讨论DSD信号流的获得、过采样和噪声整形。

2、过采样

如果数字音频系统原来的采样频率为fs(通常为44.1KHz或48KHz)，若将采样频率提高为Rfs, 并且R>1，则称为过采样，其中R称为过采样率。在这种采样的数字信号中，由于量化比特数未改变，故量化噪声功率也不变。这时的量化噪声被均匀分布在0-Rfs/2频带内，也就是音频频带内的噪声降低了。过采样系统的最大信噪比为 S/N=6.02m+1.76+10lg(Rfs/2fB) 式中fB为音频信号带宽，Rfs为过采样频率，m为量化的比特数。

由公式可得，在过采样时，采样频率提高一倍，即Rfs=4fB，则系统的信噪比提高3dB，换言之相当于量化比特数提高0.5bit。若R>>1， Rfs/2就远大于音频信号的最高频率，使得均匀分布在0-Rfs/2频率范围内的量化噪声大部分被分布在音频频带以外的区域。进一步采用噪声整形技术使原来均匀分布的`量化噪声转变成集中到高频区的新的分布方式。虽然总的噪声量没有减少，但音频频带内的噪声却降低了。此时音频频带外的噪声虽然增加了，但可用简单的低通滤波器加以滤掉。

随着采样频率的提升，相邻采样值之间的差别很小，可以对其差值进行量化，即采用差分脉冲调制(DPCM)，使量化比特数减少。当采样频率足够大，就可采用极限值1bit进行量化。这种1bit信号流只需要用一个简单的低通滤波器取出其平均电平即可。

3、噪声整形

由于噪声是在量化过程中产生的，噪声整形的工作原理就是将噪声分量进行负反馈，在反馈环路中加入网络，使低频反馈系数比高频反馈系数大，从而降低了音频频带内的噪声。图2为有无噪声整形电路之对比：

三、超级音频光盘SACD

SACD(Super Audio Disc)是一种采用DSD数字录音技术的新型光盘，它的频率范围和动态范围均比CD宽。一般分为三种结构：一种是单层HD(记录20KHz~100 KHz超宽频带信号的高密度层)，录入DSD信号。它可以存储9G字节的SACD格式的音乐。另两种均为双层光盘。其中一种是混合式双层结构，即一层与CD相容，另一层为高密度录音层HD层。它可以存储4.7G字节的数据，大约是普通CD的6倍。HD层又细分成三轨，可分别载入2声道讯号、6声道讯号及其他资讯(如：片名、曲名、图形和活动图象等)。SACD虽然具有与CD相同的外形尺寸，但能够提供比CD更好的音质。SACD和CD光盘的比较如表1所示。

四、SACD的放声系统

目前大部分SACD光盘所接的放声系统仍然是模拟式的。显然，SACD对功率放大器和扬声器的要求是非常苛刻的，传统模拟式的性能已跟不上。电子管或晶体管功率放大器的发展已接近极限，很难再有突破性的进展。一些公司针对此纷纷推出自己的数字功放。索尼的TA-FB940R，日本Sharp公司推出的1bit数字扩大机。它们采用全数字式工作原理，因而频率响应、动态范围、瞬态响应好。并因其操作属简单的开/关切换形式，使它的热量消耗只有传统模拟放大器的五分之一左右，电源消耗只需约一半。新型数字功放的推出不仅为SACD系统提供了功率放大器的解决方案，并且又可用于所有双声道立体声信号源，不论是模拟信号还是数字信号都可使用。

数字扬声器的研究进展不大，它的研究一直采用PCM系统，把二进制输入信号直接转换为声波辐射，扬声器本身完成D/A转换。低比特数的PCM扬声器性能不能满足Hi-Fi放声的要求，而高比特数的PCM扬声器则结构复杂，若要保证一定的截止频率，必须采用有足够高阶数的低通机械滤波器或声学滤波器，这样会使数字扬声器结构复杂、加工困难。数字扬声器若采用过采样和噪声整形技术可以减少对数字扬声器的比特要求，甚至降低为1bit。设想扬声器的输入若是1bit信号，那么数字扬声器只需是一个简单的低通机械滤波器或声学滤波器。不但简化了结构，而且提高了重放性能，并为研究高质量的数字扬声器提供了一种新方法。相信不久以后，这种1bit数字扬声器会得到实际应用的。

其次，在硬件方面，SACD已先一步走到DVD-Audio之前，早在两年前，SONY公司就有一款轰动业界的SCD-1问世。之后接踵而来的SCD-777SE、SCD-555、SCD-XB940，甚至影音兼容的DVP-S9000ES、Manantz公司的SA-1、SHARP公司的DX-SX1、先锋公司的DXAX100等，不胜枚举。而DVD-Audio阵容到目前为止也仅有松下、胜利、天龙等几家公司的少量品种应市。在软件供应方面也是SACD捷足先登，至今已有超过300款SACD唱片问世，国内看到的也有近百种，其中SONY和Philips一方面凭借自己旗下的唱片公司源源不断地出版SACD碟以示支持。另一方面更说服Telarc、DMP、拿索丝、DIGITAL等唱片公司加盟SACD陈营，不断推出SACD软件给广大消费者造成了“先入为主”的极深印象。而DVD-Audio还在摇篮中就被计算机黑客破解了防盗版密码，从而大大推迟了DVD-Audio唱片推出的时间表，这也是许多饱受盗版之苦的唱片公司暂不考虑对DVD-Audio阵营支持的主要原因。

数字音频水印技术论文篇3

关键词数字水印技术版权保护内容认证

中图分类号：TP309 文献标识码：A

在计算机以及网络通信快速发展的新时代，数字媒体中的图像、视频、音频等功能优势凸显，随着而来的数字媒体的信息安全、知识保护与认证成为一个重要课题。因此，要在数字水印技术上进行全面运用，提升加密处理的有效方法，形成在网络环境下知识产权保护与认证来源的技术运用。

1水印技术

水印技术是一种传统加密方法的技术运用方式，是不被感知地在作品中嵌入信息的操作行为。数字水印技术具有相应的特点，其中，水印是一种不可感知的，与传统的条形码不相同，水印不会减损图像的整体美观度。同时，水印与其嵌入的作品形成密不可分的关系，在作品进行相应转换以及格式变换的情况下，也不会出现消除的现象。此外，水印技术的运用，可以为查询变换情况提供良好的帮助。从目前水印技术的运用来看，主要包括有鲁棒型水印、脆弱型水印、半脆弱性水印三种，这三种水印技术分别运用与数字图像的知识产权保护、内容图像完整性以及可信度的验证等。通过数字水印技术的运用，具有一定的保护优势。其中，水印技术不需要辅助的数据，对于处理旧文件过程中，没有多余的空间储存数据等。还能承载作品相同的变换，在作品进行转换的过程中，内容变化，水印也会发生变化。通过相应的对比，可以清晰的查看出水印的修改情况，掌握基本的内容，对于修改的痕迹有很明显的把握。从目前水印技术的应用来看，主要包括有精准认证、选择认证以及局域化认证与作品重建等方面的内容。

2精准认证的运用方法

精准认证主要运用在对作品是否有被改变的判断中，可以从两个方面进行技术运用。

2.1脆弱水印技术

从数字水印精准认证的技术分析来看，脆弱水印是指作品在发生任何形态的转换之后，形成一些不可测的标志，脆弱水印技术能从中检测到一个非常脆弱的水印。这样可以判断出是否有被改变的可能性。对于是否有修改能形成精准的判断。比如，通过使用图像的半色调进行信息隐藏，采用视频利用MPEG编码表示水印，这样，可以有效的检测到是否有被恶意修改的可能。

2.2嵌入签名技术

嵌入签名技术主要是通过对认证签名嵌入载体作品之中，可以减少一般认证签名信息丢失的风险性，在格式被转换的情况下也不会轻易的丢失信息。因此，通过嵌入签名认证技术，可以有效的确认与作品计算出的签名是否相同。在有效的避免嵌入水印的过程中对作品造成的改变，可以从认证与存放水印两个方面进行控制。为了更好的实现精准度，可以通过擦除水印来解决这些问题。

3选择认证技术的运用

选择认证技术是指在图像与音频的剪辑过程中，在少年比特的改变不会造成原作品发生改变的情况下，即使有出现相应的修改之后的比特现象，但在整个视觉与听觉中不会出现相应的改变。

3.1半脆弱水印技术

在半脆弱水印技术的运用中，主要是指能承受合理失真，但又不会被不合理失真损坏的水印。半脆弱水印能在一定程度的信号处理中，将正常的信号处理与恶意篡改的形成有效的区分，在篡改现象出现的同时，可以提供篡改的破坏量精准的位置，并帮助分析被篡改的相应类型，这样，能有效的保护好内容的真实性。主要是通过鲁棒性水印，从而使其在失真达到相应程度实效的情况下，获取半脆弱水印。

3.2嵌入式半脆弱签名技术

半脆弱水印如同它们的脆弱部分一样常常不能抵抗恶意修改，因为他们都屈从于拷贝攻击。如认证水印只嵌入到高频的DCT块的系数中，一个不合理的失真只改变了低频部分，而保持高频不变，水印自然也不会受到影响，这时系统就会错误地认为图像可以通过认证。在通过嵌入式半脆弱水印技术的运用，对块状内容中出现的被修改或者被转换的内容，可以形成水印技术的检测。这种技术具有相应的技术优势，能形成不同的水印表现，不同作品具有不同的表现，也不会引起相应的保真度的问题。

4局部认证技术的运用

局部认证作为一种基于水印的认证方法，能有效的辨别出做作品被修改的次数与相应的区域，还可以对剩余没有被修改的内容进行有效的证明。并通过对被修改内容的精准分析，可以对修改动机、失真的合理性以及相关嫌疑人进行有效的认证。可以从基于块的内容认证与基于样本的内容认证两个方面进行技术分析。其中，基于块的内容认证主要是对作品许多郴相交的时间与空间区域，进行相应的认证运用，这样，在作品被修改的过程中，就能掌握具体的被修改的区域的内容。基于样本的内容认证，主要是对块内容进行系统局域化的空间敏锐性分析，在块大小上进行相应的技术处理，减少块尺寸大小对安全问题的风险控制等。在局部认证技术应用中，对于相应的个人身份显示，比如身份证、护照、驾驶证等形成一定的局部认证，能有效的辨别出真假，并对作品形成局部的保护，形成一种无法仿制与复制的整体功能，从而有效的加强对作品真实性的保护力度。

5作品重建技术运用

通过水印可以判断一幅作品是否被修改，甚至判断出修改位置及修改方式，同样，我们可以通过水印将被修改的作品重建。重建有两种策略：精确重建和近似重建。其中，精确重建将作品恢复到初始的状态（即目标是重建作品的每个比特都和原作一致）。将作品简单地看做比特的集合，纠错编码（ECC）是作品传输中表示的一部分，一个作品中可以有许多不同的纠错编码，而且这些元数据可以用水印来表示。近似重建是一个和原作品有一定差别的作品，但和原作没有显著差别。在技术重建的使用中，通过对作品重建技术的使用，能形成对作品整体功能的恢复，尤其是在被篡改的作品中，对于作品的失真性能构成很大的帮助，能有效的实现对作品的整体保护。并在重建的过程中，形成纠错编码的技术转换，在近似原作品的修复中，可以形成对目标控制的整体功能，从而为知识产权的保护提供良好的帮助。

6结语

数字水印技术与现代信息化发展有着很大的关联性，在图像处理以及内容认证方面有着很大的作用，尤其是在知识产权保护方面，通过数字水印技术与密码处理技术的有效结合，并采用智能开发技术，形成多种媒体类型的水印互操作的软件开发，能有效的对内容保护形成很大的效果，增强知识产权保护的整体力度。

参考文献

[1] 袁莉.数字水印的应用及攻击类型[J].长春师范学院学报，2005，11.

[2] 唐庆生，佘堃.基于离散小波变换的数字水印技术[J].成都信息工程学院学报，2005，01.

[3] 田震，陈高兴，李改肖，王斌.中国数字海图生产与版权保护[J].测绘科学，2005，04.

数字音频水印技术在扩频域的实现篇4

作为保护多媒体信息版权而发展起来的一项新兴技术,数字水印技术最早出现在1994年,早期主要应用于数字图像,后来,研究人员将数字水印的概念扩展到音频领域。与图像水印相比,音频在每个时间间隔内的采样点数要少得多,也就意味着音频信号中可嵌入的信息量要比可视媒体小得多。另外人耳比较灵敏,听觉上的不可感知性实现起来要比视觉的不可感知更为困难。虽然如此,数字音频水印仍有着重要的实用价值,例如军事领域语音通讯隐秘性,数字音频制品版权保护的问题等[1]。

就目前而言,数字音频水印技术总体上还处在一个技术评估阶段,研究者的主要任务是设计更多、更有效的数字音频水印算法,为本学科发展尽可能多的积累有关技术经验,尽可能多的接受多媒体产业日新月异发展需求的各种考验,不断完善数字水印理论框架体系,并大力发展实用的数字水印技术,促使数字水印技术向质变发展[2]。

2、基于人类听觉系统的音频水印算法实现

2.1 数字水印的基本原理

数字水印技术是嵌入某些标识数据到宿主信号中作为水印,使得水印在宿主信号中不可感知和足够安全。从信号处理的角度分析,就是把嵌入到宿主信号中的水印信号视为在强背景下叠加一个弱信号,只要叠加的水印信号强度低于人类听觉系统的感知门限阈值,人们就无法感知到水印信号的存在。由于人类感觉系统受时间和频率特性的影响,因此通过对宿主信号作一定的调整,就有可能在不引起人类感觉器官感知的情况下嵌入一些信息,从而达到水印嵌入目的。

2.2 数字音频水印的基本模型

研究表明,人耳存在掩蔽效应,即一个较弱的但可以听到的声音,由于另外一个较强的声音出现而变得无法听到的现象。掩蔽的效果依赖于掩蔽音和被掩蔽音的时域和频域特性;人耳对声音信号的绝对相位不敏感,而只对其相对相位敏感;人耳对不同频段声音的敏感程度不同,通常人耳可以听见20~18的信号。但对300~3400范围内的信号最为敏感,幅度很低的信号也能听见,而在低频区和高频区,能被人耳听见的掩蔽信号的幅度要高得多。依据这些特性,在数字水印系统设计时,研究听觉系统对声音的感知特性的目的与数字音频压缩相似,即寻找音频信号中与听觉感知不相关的部分。在感知压缩中,使用此信息可以确定量化噪声的上限;在音频水印中,使用此信息可以确定水印嵌入的最大强度,在此嵌入强度下,嵌入的水印信号不被听觉系统感知。同时,可利用HAS的掩蔽特性,控制水印的嵌入,以达到自适应的目的。

2.3 算法设计

数字音频水印算法有多种,目前公认的有最不重要位法,回声隐藏法,相位编码法,扩展频谱法[3]。其中,扩展频谱法利用同欲传输数据无关的扩谱码对被传输的信号扩展频谱,使之远远超过被传输信息所必需的带宽,将隐藏的数据流扩展到尽可能宽的频谱或者是指定的频段上,达到隐藏数据的目的,具有较高的健壮性和安全性。

本文基于人耳听觉系统,采用DCT变换和扩频技术,实现了32×32和64×64的二值灰度图像水印在数字音频信号中的嵌入与提取,具体算法如下:

1).对音频信号进行分段处理;

2).将二值水印图像由二维转换成一维;

3).在数字音频信号中嵌入水印:

a.对用于水印嵌入的音频数据部分做分段离散余弦变换;

b.在离散余弦变换域内确定数字音频信号的中频系数;

c.修改中频系数,嵌入序列元素;

d.对嵌入序列元素的水印离散余弦反变换,得到数字音频信号中含有水印信息的部分;

e.将含有水印信息部分代替原始信息中的相应部分,得到含水印的数字音频信号。

4).从含水印的音频信号中提取水印,具体步骤如下:

a.对原始的数字音频信号和待检测的数字音频信号做相应处理;

b.对原始数字音频信号中的用于水印嵌入部分和待检测的数字音频信号中的含水印部分分别做离散余弦变换;

c.在离散余弦变换域内抽取水印序列信息,得到抽取水印的一维序列;

d.对一维序列做升维处理,最终得到抽取的水印。

3、实验结果与分析

3.1 实验参数

采用如图所示的二值图像作为水印信号,像素大小为32×32和64×64;扩频因子为2,扩频后长度为4096×2;音频信号为单声道、长度为10s、44.1kHz采样率、16bit量化;将音频信号平均划分,每段取幅度最大的前8个数据,然后分段余弦变换。

3.2 实验结果

由实验结果来看,得到如图含有数字水印的音频信号,和原始音频信号几乎没有差别。两次实验所得到的峰值信噪比(PSNR)分别为41.5697d B和37.8711d B,水印相似度(NC)分别为0.9817和0.9953,由实验结果来看,用扩频实现数字音频水印有着良好的透明性。

4、结论

本文在对数字音频水印技术的各种算法进行了论述,并基于人耳听觉系统,采用DCT变换和扩频技术,实现了32×32和64×64的二值灰度图像水印在数字音频信号中的嵌入与提取。由实验结果来看,该算法对于数字音频水印的出入与提取都有着较好的效果。

参考文献

[1]Boney L,Tewfik A,Hamdy K.Digital watermarks for audio signals[J].IEEE Int conf on Multimedia Computing and Systems.1996(1):473-480.

[2]王炳锡,陈琦,邓峰森.数字水印技术[M].西安电子科技大学出版.2003.

[3]孙圣和,陆哲明,牛夏牧.数字水印技术及应用[M].北京:科学出版社.2004.

数字音频水印技术论文篇5

刘彤( tong.liu@263.net ) 裘正定[1]

摘要：随着多媒体技术和网络技术的飞速发展和广泛应用，对图像、音频、视频等多媒体内容的保护成为迫切需要的问题。数字水印技术作为版权保护和安全认证的有力工具，已得到了广泛的关注和发展。本文简要介绍了数字水印技术的原理，并基于该技术提出在WWW上的应用的版权认证方案。

关键词：数字水印多媒体信息安全版权保护认证

1．引言

随着信息技术和计算机网络的飞速发展，数字式多媒体信息（图象、文本、音频、视频）的存储、复制与传播变得非常方便。人们不但可以通过互联网络和CD-ROM方便快捷地获得多媒体信息，还可以得到与原始数据完全相同的复制品。但是由此引发的盗版问题和版权纷争已成为日益严重的社会问题。据美国唱片行业协会（RIAA）估计，全世界每年因盗版而造成的经济损失高达50亿美元。美国电影行业协会（MPAA）则估计，盗版使美国电影业的年收入减少了25亿美元。因此，对多媒体内容的版权保护已成为亟待解决的问题。

目前的版权保护系统广泛采用对网络资源的访问控制机制，它通过本地网或广域网控制某些IP地址或

终端的连接，限制某些用户的访问权限，从而有效地防止非法用户对计算机系统的访问。但是如果用户以合法账号得到多媒体信息，再对数据进行非法复制和传播，则安全访问控制机制就无能为力了。

传统的加密方法对多媒体内容的保护和完整性认证也具有一定的局限性。首先，加密方法只用在通信的信道中，一旦被解密，则信息就完全变成明文；另外，密码学中的完整性认证是通过数字签名方式实现的，它并不是直接嵌到多媒体信息之中，因此无法察觉信息在经过加密系统之后的再次传播与内容的改变。这样，数字水印技术作为加密技术的补充，在多媒体信息的版权保护与完整性认证方面得到了迅猛的发展。

2．数字水印技术的.基本原理

数字水印技术是通过一定的算法将一些标志性信息直接嵌到多媒体内容当中，但不影响原内容的价值和使用，并且不能被人的知觉系统觉察或注意到。水印信息可以是作者的序列号、公司标志、有特殊意义的文本等，可用来识别文件、图像或音乐制品的来源、版本、原作者、拥有者、发行人、合法使用人对数字产品的拥有权。与加密技术不同，数字水印技术并不能阻止盗版活动的发生，但它可以判别对象是否受到保护，监视被保护数据的传播、真伪鉴别和非法拷贝、解决版权纠纷并为法庭提供证据。为了给攻击者增加去除水印的难度，目前大多数水印制作方案都采用密码学中的加密(包括公开密钥、私有密钥)体系来加强，在水印的嵌入、提取时采用一种密钥，甚至几种密钥联合使用。水印的嵌入和提取方法如图1，图2

所示。

数字音频压缩编码技术研究篇6

关键词：音频压缩编码；MPEG-1标准；杜比AC技术

中图分类号：TP37 文献标识码：A文章编号：1009-3044(2007)15-30852-02

Digital Audio Compression Coding Technology Research

ZHANG Xue-feng,ZHANG Yao-jun,PAN Yun

(Xinyang agricultral college,Xinyang 464000,China)

Abstract:An audible signal and text, graph, picture,cartoon, video frequency is one of important multimedia characteristic. This paper commences from the basic characteristic of voice, introducing a relevant audio to compress coding of knowledge and technique parameter, and discussed development present condition and foreground of digital audio, introduced MPEG-1 audio standard and Dolby AC technology.

Key words:audio compression coding;MPEG-1 audio standard;Dolby AC technology

1 引言

对于多媒体计算机系统需要需要解决的关键问题之一就是要使计算机能实时地综合处理声、文、图信息，然而由于数字化的声音,图像等媒体数据量非常大，要实时地传输和处理这些数据就必须对其进行压缩编码。

2 声音的基本特征

自然界的声音极其复杂，一般来说声音是由空气中分子的振动而产生的，可近似地看成是一种随时间变化的周期性的函数，通常用模拟的连续正弦波形描述声波的形状，基线是测量模拟信号的基准点，振幅表示声音信号的强弱程度，声波的频率反映出声音的音调。由于计算机只能处理和记录二进制的数字信号，必须对声音信号数字化，数字音频才能够像文字和图形信息一样进行存储、检索、编辑和其他处理。通常我们采用脉冲编码调制(PCM)技术对模拟信号进行采样，量化，编码转化成数字信号。

3 音频信号编码的基础

采用数字音频获取声音文件的方法最突出的问题就是信息量大，音频信息文件在未压缩的情况下所需存储空间的计算公式为：

存储容量（字节）＝采样频率×采样精度／8×声道数×时间

以CD为例，其采样率为44.1KHz，量化精度为16比特，则一分钟的立体声音频信号约占10M字节的存储容量，也就是说一张CD唱盘的容量只有一小时左右。

研究表明，直接采取PCM码流进行存储和传输存在着相当大的冗余，因此可以对音频信号进行压缩编码。统计分析结果也说明，在语音信号中主要包括时域冗余和频域冗余。另外考虑到人的听觉机理特征，也能对语音信号进行压缩。对于音频的压缩理论的研究，是从人耳的听感系统开始的，首先第一个特点是人耳对各频率的灵敏度是不同的，在2K-4K频段，很低的电平人耳就能听到，其他频段时，要相对高一点的电平才能听到，这就是说在听觉阈值以下的电平可以去掉，相当于压缩了数据。第二个特点就是频率之间的掩蔽效应，其实就是指人耳接收信号时，不同频率之间的相互干扰。当电平高的频率点和电平相对较低的频率点同时出现时，电平低的频率点的声音将听不到。因为人耳的灵敏度不一样，所以不同频率点的掩蔽程度是不一样的。低于掩蔽阈值的的信号将不再编码，高于掩蔽阈值的信号将重新分配量化比特值进行压缩，这是MPEG能得到较高的压缩比又能保证音质的重要原因。第三个特点是短暂掩蔽效应，指在一个强信号之前或之后的弱信号也将被遮蔽掉。这样利用人耳的感觉特性，对数据流本身进行压缩，做到既能降低码流又能通过科学的方法提高码流的效率，而又不影响音质本身。由此可见，音频编码的目的就在于压缩数据，通常数据压缩会造成音频质量的下降和计算量的增加。

4 音频信号的压缩编码算法

4.1 基本原理

如同数字通信系统一样，在多媒体计算机系统中声音信号被编码成二进制数字序列，经传输和存储，最后由解码器将二进制编码恢复成原始的声音信号。如图所示。

设计声音压缩编码系统考虑的因素有输入声音信号的特点、传输速率及存储容量的限制、对输出重构声音的质量要求以及系统的可实现性极其代价。因此在实施数据压缩时，要在音频质量、数据量、计算复杂度三方面进行考虑。最简单的数字编码方法就是对声音信号做直接的数模(A/D)转换。

4.2 音频信号的编码分类

从方法上看，声音信号的编码方式大致可分为三大类，即波形编码方法、分析合成方法和混合编码方法。

波形编码方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值。这种方法的编码信息是声音的波形，编码率在9.6Kbps~64Kkps之间，属中宽带编码，重构的声音质量较高。但波形编码易受量化噪声影响，进一步降低编码率也较困难。典型的波形编码技术有PCM、ADPCM、APC（自适应预测编码）、SBC（子带编码）、ATC（自适应变换编码）。这里，前三中属于时域方式，后两种属于频域方式。波形编码的算法简单，易于实现，可获得高质量的语音。

参数编码方法通过建立起声音信号的产生模型，将声音信号用模型参数来表示，再对参数进行编码，在声音播放时根据参数重建声音信号。参数编码法算法复杂，计算量大，压缩率高，但还原声音的质量不高。

混合型编码是将波形编码的高质量与参数编码的低数据速率结合起来的一种新型编码方法。

由此可见，编码的作用其一就是采用一定的格式来记录数字数据，其二就是采用一定的算法来压缩数字数据以减少贮存空间和提高传输效率。压缩算法包括有损压缩和无损压缩。有损压缩指解压后数据不能完全复原,会丢失一部分信息，压缩编码的基本指标之一就是压缩比，它通常小于一。压缩越多，信息丢失越多，信号还原后失真越大。根据不同的应用应该选用不同的压缩编码方法。前面我们讲的波形编码方法，分析合成方法以及混合编码方法都是属于有损压缩。

4.3 音频信号压缩编码编码质量评估

音频的质量与其频率范围有关，音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好，根据频率范围的不同可以将音频分为电话语音级调幅广播级调频广播级和宽带音频级等四个质量等级。国际标准确定音频编码的数据速率在128Kbps以下。声音重构的质量跟编码的数据速率及编码算法有关。评估数字波形编码系统时，可以用信号/量化噪声比(SNR)作为准则，信噪比越大，声音质量越好。但是音频系统的最终准则应该是人耳听觉上的准则。然而，这种听觉上的准则很难客观量化。现在最常见的音频质量评估法是主观评估法。

主观评估标准是以平均主观平分(MOS)标准来度量,它分为5(优)4(良)3(中)2(差)1(劣)五个等级。一般频率达到7kHz可评为5分；对于符合长途通信的高质量语音，MOS可评4分；当语音质量有所下降，但尚不致妨碍正常通信时，MOS可评3.5分。

声音重构质量不但与编码数据有关，还与编码算法有关。一般地说，声音重构质量随数据速率减小而减低。

5 音频压缩编码的现状及发展趋势

自从1937年A.H.Reeves提出脉冲编码调制(PCM)以来，音频压缩编码技术已有60余年的发展历史。尤其近20年随着计算机和微电子技术的发展语音编码技术得到飞速发展。

在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。MPEG-1按复杂程度规定了三种模式即层Ⅰ、层Ⅱ（即Musicam，又称MP2）、层Ⅲ（又称MP3）。目前广泛使用的VCD的音频压缩方案为层Ⅰ。层Ⅱ（Musicam掩蔽模式通用子带集成编码与多路复用）复杂度属于中等，广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。层Ⅲ是综合Musicam和Aspec(自适应谱分析听觉熵编码) 的优点提出的混合压缩技术，MP3的复杂度最高，编码不利于实时传输，在低码率下有高品质的音质。MPEG-1的压缩编码采用子带压缩技术。子带编码的基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略。具体压缩过程：首先，将输入的PCM数字声音信号通过时频映射实现子带分割，将宽带音频信号分成32个子频带。同时，通过快速傅里叶变换（FFT）运算，对信号进行频谱分析，得出各子带的掩蔽特性。由于掩蔽特性的存在，减少了对量化比特率的要求，这样，不同的子带可以分配不同的量化比特数。另外加上CRC校验码，就可以得到标准的MPEG码流。在解码端进行相反过程即可输出原PCM码流。可以说MPEG-1标准的制订方式决定了它的成功, 这一思路甚至也影响到MPEG-2和MPEG-4音频标准的制订。

随着技术的不断进步和生活水准的不断提高，原有的立体声形式已不能满足受众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。更准确地说，环绕声应该是一种声音恢复形式，其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下，可将码率压缩至384kbps，压缩比约为10：1。它将特殊的心理音响知识，人耳效应的最新研究成果与先进的数码信号处理技术结合起来，形成这种“数字多声道音频处理技术”。Dolby AC-3最初是针对影院系统开发的，现在在影院系统，HDTV，消费类电子产品(如LD、DVD)以及卫星广播等方面也得到普遍应用，目前已成为应用最为广泛的环绕声压缩技术之一。

6 结束语

当今社会是个数字化社会,音频信号的数字化传输是通信的发展方向之一，数字化广播高清数字电视，伴音多媒体网络通信，正在全球范围内逐步得到开展，数字音频技术也成为目前应用最为广泛的技术之一。本文从声音的基本特征出发，对数字音频压缩编码知识作了相关介绍, 我们可以看出各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同，应该根据不同的场合去选择不同的压缩算法，最后讨论了数字音频编码的发展现状与前景。

参考文献：

[1]刘甘娜.多媒体应用基础（第三版）[M].高等教育出版社，2003，12.

[2]房建，左涛，陈婷.数字音频压缩编码技术及其应用[J].信息技术，2004，28(2)：9-11.

[3]马华东.多媒体计算机技术原理[M].清华大学出版社，1999，2.

[4]杨俊，蔡宜平，颜飞翔.数字音频技术及其应用与发展(一)[J].数字声频，2001，5.

数字音频水印技术论文篇7

近年来随着我国网络技术和多媒体技术的不断发展, 信息化建设也日新月异, 现代化的通信手段给人们生活工作带来极大便利的同时, 通信系统在网络环境下的安全问题日益突出。保密通信越来越受到重视, 保密通信中的安全技术已经成为研究热点和难点。

传统语音信息验证真伪的方法是利用密码学中的数字签名技术, 这种方法要求被传输的数据不允许有一点修改, 即使像数据压缩、格式转换等正常的数据处理过程也会去除签名信息[1]。数字水印技术则有效地克服了这个缺点, 它能在确保数据完整性的同时, 允许正常的数据操作。

1 认证数字水印技术

1.1 认证水印原理

认证水印也称为脆弱数字水印[2,3], 是数字水印的一种, 它在保证一定视觉质量的前提下, 将数字水印嵌入到多媒体数据中, 当多媒体内容受到怀疑时, 提取该水印来鉴别多媒体内容的真伪, 并指出篡改位置, 甚至攻击类型。

1.2 认证数字水印的特点

认证水印作为数字水印的一种, 除了具有水印的基本特征如不可感知性、安全性、一定的鲁棒性外, 还应具有如下基本要求: (1) 检测篡改。 (2) 水印盲提取。在一些应用背景下, 原始数据无法获得, 此时也要能够正确提取出水印信息。 (3) 鲁棒/脆弱性。认证水印的鲁棒性和脆弱性应根据不同的应用场合而有所不同, 对于要求多媒体内容精确度较高。而对于精度要求不高的应用则要求水印要有一定的鲁棒性, 对诸如数据压缩等正常的数据处理要有一定的抵抗性。 (4) 水印的安全性。水印的密钥空间要足够大。

2 基于指数刻度量化的认证语音水印

保密通信中音频认证水印主要用于检测音频内容是否受到篡改。认证水印可以进行精确认证和选择认证。在实际通信过程中更加具有实用价值的是选择认证, 音频信号在传输存储过程中不可避免地会受到音频信号处理操作, 使用者关系的问题是音频的内容是否被篡改或者替换, 例如检测通过通信系统发布的命令是否被敌方恶意篡改。

基于指数刻度量化的脆认证语音水印主要思想是采用奇偶调制的方法对指数刻度下的离散傅里叶变换系数进行量化[2]。奇偶调制方法主要用于图像篡改提示中, 这种方法基于均匀标量量化, 可以用于时空域也可以用于变换域。

指数刻度量化方法使用了简化的心理模型。由心理声学计算模型可知, 为了考虑频域掩蔽效应, 某个频带处的掩蔽阈值是该频率处频普及其周围频带处频普的加权组合。在简化的心理声学模型中没有考虑掩蔽效应的扩展。嵌入和检测算法分别表示为:

量化步长di采用由编码解码器信噪比获得的简化模型, 即:

为了提高该算法的安全性, 可采用一个伪随机序列修改量化步长

其中，ri由用户使用密钥产生的伪随机序列。该算法使用简化心理声学模型，从而保证嵌入器和检测器使用相同量化步长，避免量化步长不匹配导致检测错误的问题。该算法是一种半脆弱水印算法，对一般信号处理操作具有鲁棒性，对内容替换操作却是脆弱的。

结束语

信息时代的到来，在保密通信中信息的安全性显得越来越重要，由于语音信息在通信中的特殊地位，使得对语音信息的完整性认证至关重要。

参考文献

[1]孙圣和, 陆哲明, 牛夏牧.数字水印技术及应用[M].北京:科学出版社, 2004.

变换域音频数字水印研究篇8

随着信息技术和网络的发展, 全球范围内产生了新的数字革命, 现实生活中的文字、图片、音频和视频越来越多的数字化, 并且在网络上传播。信息数字化网络传播在给人们带来便利的同时, 也带来了很多的问题, 如不法分子无视作者权益, 在未经作者授权许可的情况下, 随意对媒体信息进行更改传播, 侵犯了作者的合法权益;更有甚者会利用多媒体信息产品加载不良信息, 危害用户利益甚至国家安全。如何有效地保护多媒体信息产品的版权信息和信息安全, 已经成为当前网络环境下备受关注的问题。

目前数字水印的研究热点已经逐渐从图像转换为音频和视频领域。音频数字水印分算法研究和系统框架研究, 当前研究多集中在算法的研究上。根据数字音频载体类型的不同, 音频数字水印技术有压缩域算法和非压缩域算法两类, 现重点研究非压缩域音频数字水印, 而非压缩域又分为空域研究和频域研究。本文的重点为频域研究。

2 音频数字水印分类及应用

2.1 音频数字水印的分类

数字音频水印的分类方式很多, 根据不同需求和应用可以分如下几类。

(1) 根据处理域来划分, 分为时域和变换域数字音频水印。时域数字水印计算方法简单, 效率高, 但抗干扰能力差;而变换域的抗干扰能力较好, 但计算复杂。

(2) 根据提取或检测时是否依赖原始信息分, 分为盲检测数字音频水印和非盲检测数字音频水印。盲检测数字水印技术在提取或检测时不需要载体或水印信息就可以提取和检测出水印, 而非盲检测技术提取或检测是依赖原始载体信息或嵌入的水印信息, 这种技术相对盲检测较为简单, 但盲检测音频数字水印技术目前比较常用。

(3) 根据算法本身能否抵抗攻击分, 为半脆弱水印和鲁棒性水印。脆弱水印不能抵抗攻击, 半脆弱水印抗攻击能力要强, 它能抵抗一定的攻击, 鲁棒性水印抗攻击能力强, 理论上要求对各种攻击都具有一定的抵抗能力。目前鲁棒性水印是研究的热点。

2.2 音频数字水印的应用

目前数字音频水印技术的应用领域不断拓展, 主要包括以下几方面。

(2) 保密通信:所谓的保密通信就是将需要传递的秘密信息嵌入到允许公开的数字音频文件中。与加密技术相比水印技术的保密性要更好。

(3) 认证:就是根据水印的完整性来确定文件的真实可靠性。当需要确定音频文件内容的真实性时, 可以在原始音频文件中嵌入脆弱水印, 当含有水印的作品受到恶意攻击时, 必会影响水印信息, 所以我们可以通过水印的完整性来判断音频文件的真实性。

(4) 数字指纹:是指将能代表个人特征的指纹信息以水印形式嵌入到音频文件中, 在安全验证方面常用到数字指纹。

(5) 使用控制:音频文件自身不能阻止非法的使用行为, 但可以通过集成了水印检测芯片的设备来检测, 一旦转录水印就可以阻止非法使用。

3 数字音频水印算法

3.1 LSB最低有效位算法

最初此方法应用在图像数字水印上, 它将秘密信息嵌入随机选择得最不重要得位置上, 这样保证了水印的透明性。现在引用到音频水印处理上, 此算法通常将音频载体分段, 将二值水印序列嵌入最低位上, 若水印为0最低位就嵌入0, 否则嵌入1。这种算法容易实现但易被攻击, 鲁棒性差, 目前很少用。

3.2 回声隐藏算法

3.2.1 算法特点

此算法根据人耳听觉系统的隐蔽效应来实现的, 弱信号在强信号消失后50ms-200ms之间不易被人察觉, 可以利用回声的位置作为水印嵌入的位置, 实现信息的隐藏, 目前大多数回声算法只考虑单回声的情况。

3.2.2 算法实现过程

水印嵌入过程首先将音频分段, 每段音频隐藏一比特的水印信息, 然后确定时间延迟t1和t2, 设置0比特对应时间延迟t1, 1比特对应时间延迟t2, 根据嵌入水印的情况确定时间延迟来完成水印的嵌入工作, 最后将嵌入水印后的每段音频连接起来, 就得到嵌入水印的音频文件。提取过程, 接收者先要知道对应分段情况的延迟时间, 然后求出各段的倒谱值, 并比较两个延迟时间对应的倒谱值判断嵌入水印为0还是1。

3.3 离散余弦变换算法

3.3.1 算法特点

离散余弦变换的变换核为实数的余弦函数, 它是一种正交变换, 相对FFT变换而言DCT变换后不产生虚部, 便于水印的嵌入和强度控制。对信号进行轻微干扰, 变换系数将不会发生大的变化, 抗攻击能力增强。变换后能量重新分配, 信号的大部分能量集中在少量低频系数中。

3.3.2 算法实现过程

首先对音频分段;二对水印进行降维处理, 一般水印为二维可视图像, 要先将它转换成一维序列, 为了增加水印的安全性, 鲁棒性, 对水印进行置乱处理或混沌处理;三离散余弦变换, 对音频每个段进行一维或二维的离散变换, 四在变换后的音频信息上嵌入处理后的水印信息;五为了能够恢复含有水印的数字信号, 必须将含水印的信息进行离散余弦逆变换, 水印的提取过程是嵌入的逆过程。

3.4 离散小波变换算法

3.4.1 算法特点

小波变换是将信号分解成时域和尺度域的一种变换, 不同的尺度对应于不同的频率范围, 因此小波变换是一种很好的分析工具。小波分析的时频局部化特性好, 原图像的低频部分和高频部分经变换后的系数比较集中, 而不会像DCT那样形成幅值分散。

小波分析是个范围可变的窗口方法, 用长的时间间隔来获得更精确的低频信息, 用短的时间间隔来获得高频信息, 这样能有效地克服傅里叶变换在处理非平稳的复杂图像信号时存在的局限性。小波变换还具有多分辨率分析能力, 更适应人眼的视觉特性, 因此小波变换扮演着十分重要的角色。

3.4.2 算法实现过程

离散小波变换的算法实现与离散余弦变换算法基本相同, 只需把其中离散余弦变换换成离散小波变换, 把水印嵌入到小波变换的低频部分。首先音频分段;二对水印进行降维处理, 一般水印为二维可视图像, 要先将它转换成一维序列, 为了增加水印的安全性, 鲁棒性, 对水印进行置乱处理或混沌处理;三离散小波变换, 对音频每个段进行一维或二维的离散小波变换, 四在变换后的低频部分嵌入处理后的水印信息;五为了能够恢复含有水印的数字信号, 必须将含水印的信息进行离散小波逆变换, 水印的提取过程是嵌入的逆变换。

4 数字音频水印的评价标准及攻击方法

4.1 评价标准

数字音频水印的评价指标主要有:相关系数、信噪比, 峰值信噪比。嵌入量的大小、嵌入强度等都会对水印的鲁棒性和透明性产生影响, 通常情况下, 嵌入水印量越大, 嵌入强度越大它的鲁棒性就会越好, 透明性就会越差。所以在设计水印算法时找到一个合适的平衡点来设计数字音频水印的算法。

4.2 常见攻击方法

常见的攻击和信号处理方法有:加噪, 在音频文件中加入或高斯白噪声有色噪声。滤波, 滤波攻击在音频信息处理时经常应用, 例如增强某一特定频率元素, 降低某一频率的元素。通常MP3播放器中带的均衡器本质就是滤波。重采样/重量化, 这是种常见的攻击方法, 可以把音频信号重采样或重量化到另一个值进行攻击。剪切, 对静音频段做非常小的剪切并不能影响声音的质量, 但是对要求同步性音频水印是一个有效的攻击。同步攻击, 指损坏水印中的提取检测位置, 如抖动、时间伸缩, 变调攻击等。

5 结语

随着信息技术和网络技术的不断发展, 音频数字水印技术成为许多学者研究的热点, 文章主要介绍了数字音频水印技术的分类应用, 典型算法, 评价指标及常见攻击方法, 研究发现音频数字水印算法一般先对音频载体进行分段, 对分段后的音频进行频域变化, 将水印嵌入变换后的信息中来说实现水印的嵌入和提取;基于离散小波变换的音频数字水印技术备受学者们的青睐, 混合域算法比单一一种变换域的算法具有更大的优势。

参考文献

[1]刘静, 张雄伟.音频水印的攻击及对策[J].科技资讯, 2006, (26) :231-232.

[2]王向阳, 杨红颖, 牛盼盼.性能优越的混合域数字音频盲水印算法[J].通信学报, 2012 (2) .

[3]丁玮, 囝伟齐, 齐东旭.基于Arnold变换的数字图像置乱技术[J].计算机辅助设计与图形学学报, 2010, 13 (4) :338-341.

[4]钮心忻, 杨义先.基于小波变换的数字水印隐藏与检测算法[J].计算机学报, 2000, 23 (1) :21-27.

一种鲁棒音频数字水印时域算法篇9

数字水印技术是近年来兴起的前沿研究领域, 在多媒体信息的版权保护和完整性认证方面得到迅猛发展, 已成为多媒体信息安全研究领域的一个热点[1]。音频数字水印技术就是在原始音频文件中嵌入水印信息的过程, 不同应用场合下, 水印内容可以是一段文字、一幅图像[2]、一段音频或者视频[3]等。由于人类听觉系统对噪声的存在非常敏感, 且现有众多音频处理软件可方便地对音频文件进行多种操作, 故通常要求水印信息的嵌入要与人类听觉系统相结合, 不能对原始音频文件造成人耳可察觉的失真影响, 并能够抵御常见音频攻击, 此外, 一般还应满足易于提取和能实现盲检测等条件。

根据水印信息的隐藏位置不同, 音频数字水印有时域和变换域之分。时域音频水印易于实现且计算复杂度较低[4], 但抵抗攻击的能力即鲁棒性较差[5]。变换域音频水印[6⁃8]通常具有较强的鲁棒性, 但在计算复杂度、嵌入和提取速度、实时性等方面不如时域音频水印。本文旨在设计一种强鲁棒性的音频数字水印算法, 这在对实时性要求较高的秘密通信领域显得尤为重要。该算法采用分段求取能量差值并进行比较的方式, 结合人类听觉系统的时域掩蔽效应实现水印信息的嵌入。实验结果表明, 该算法满足对鲁棒性的设计要求, 透明性好, 并可实现盲检测。

1 水印序列的嵌入

1.1 音频载体的划分

将音频载体信号表示为:

式中:M为音频载体信号;L为音频载体的长度。

将要嵌入到音频载体中的二值水印序列表示为:

式中:W为二值水印序列;N为水印序列的长度。

将音频载体信号划分为X节, 每节长度相等。为保证水印序列可被完整的嵌入到音频载体中, 需满足条件:X≥N。再将每节划分为等长的Y段 (本算法要求Y≥4) , 每段长度为S。分别用Mx1和Mx2表示第x (1≤x≤X) 节音频载体信号的前两段, 用Mx3和Mx4表示第x节的后两段, 则划分后第x节的前两段和后两段可分别表示为:

1.2 能量差值的计算

分别用Ex1, Ex2, Ex3和Ex4表示第x (1≤x≤X) 节音频载体信号前两段和后两段的能量, 它们可分别表示为:

用EDx1和EDx2分别表示第x节前两段的能量差值和后两段的能量差值, 则EDx1和EDx2可表示为:

1.3 水印序列的嵌入

在音频载体信号的每一节实现一位水印信息的嵌入。根据对音频载体信号每一节的能量差值EDx1和EDx2进行比较的结果, 结合要嵌入的水印序列和人类听觉系统的时域掩蔽效应, 通过修改相应段中音频载体信号取样值的方法实现在时域嵌入水印信息。

1.3.1 水印比特为“1”时的嵌入算法

当要嵌入的水印比特为“1”时, 若EDx1>EDx2, 则对该段音频载体信号的取样值不做改变。

若EDx1≤EDx2, 则通过修改相应段的取样值使得EDx1增大、EDx2减小, 直到两者之间满足条件EDx1>EDx2为止。具体算法如下:

如果Ex1>Ex2, 表明音频载体信号有减小的趋势, 根据人类听觉系统的时域后掩蔽效应, 通过修改相应段的取样值以增大Ex1, 同时令Ex2保持不变的方法实现增大EDx1的目的, 则Ex1前面的强音能够掩蔽增大Ex1对音频载体信号造成的影响。

如果Ex1≤Ex2, 表明音频载体信号有增大的趋势, 根据人类听觉系统的时域前掩蔽效应, 通过修改相应段的取样值以增大Ex2, 同时令Ex1保持不变的方法实现增大EDx1的目的, 则Ex2后面的强音能够掩蔽增大Ex2对音频载体信号造成的影响。

同理, 如果Ex3>Ex4, 则通过修改相应段的取样值以减小Ex3, 同时令Ex4保持不变以减小EDx2;如果Ex3≤Ex4, 则通过修改相应段的取样值以减小Ex4, 同时令Ex3保持不变以减小EDx1。

1.3.2 水印比特为“0”时的嵌入算法

当要嵌入的水印比特为“0”时, 若EDx1EDx2, 则对该段音频载体信号的取样值不做改变。

若EDx1>EDx2, 则通过修改相应段的取样值使得EDx1减小、EDx2增大, 直到两者之间满足条件EDx1≤EDx2为止。具体算法如下:

如果Ex1>Ex2, 则采取减小Ex1同时让Ex2保持不变的方法以减小EDx1。

如果Ex1≤Ex2, 则采取减小Ex2同时让Ex1保持不变的方法以减小EDx1。

如果Ex3>Ex4, 则采取增大Ex3同时让Ex4保持不变的方法以增大EDx1。

如果Ex3≤Ex4, 则采取增大Ex4同时让Ex3保持不变的方法以增大EDx1。

2 水印序列的提取

采用该算法在音频载体信号中嵌入的水印序列, 在提取水印序列时也要首先对含水印的音频信号进行划分, 且节与段的划分方式要与嵌入水印时的划分方式一致。然后针对含水印的音频信号分别计算每节前两段的能量差值ED′x1和每节后两段的能量差值ED′x2, 根据各节能量差值ED′x1和ED′x2的比较结果, 即可实现水印序列的提取, 具体提取算法如下:若ED′x1>ED′x2, 则提取水印比特为“1”;若ED′x1≤ED′x2, 则提取水印比特为“0”。

可见, 采用该算法在音频文件中嵌入的水印序列提取非常简单, 并且在提取水印序列时不需要原始音频载体信号, 可实现音频水印序列的盲提取。

3 实验与结果分析

实验用原始音频样本选用文件大小为861 KB、取样频率为11.025 k Hz、位深为16 b、持续时间为40 s的单声道Wave波形文件。嵌入音频样本中的水印选用文件大小为1.15 KB、像素为93×93的BMP格式的单色二值图像。将该水印图像降维处理成一维序列, 降维后的水印序列长度为8 469。原始音频样本长度为441 002, 根据本算法将音频样本按照每节50个取样点进行划分, 每节再划分为25个具有2个取样点的段。采用基于能量差值比较的音频数字水印算法将水印序列嵌入到音频样本中。

3.1 透明性检测[9]

采用本算法嵌入水印前后的音频信号与误差信号的时域波形如图1所示, 其中图1 (a) 所示为原始音频信号时域波形, 图1 (b) 所示为采用本文算法嵌入水印之后的音频信号时域波形。

由图1可见, 采用本算法在音频文件中嵌入水印信息, 对原始音频文件的改变很小, 再结合人类听觉系统的时域前掩蔽效应和时域后掩蔽效应, 这种改变是人耳很难感知到的, 故嵌入水印对音频数据的品质影响较小, 该算法透明性良好。

3.2 鲁棒性检测[10]

通常用归一化相关系数 (NC) 来计算提取的水印图像与原始水印图像之间的相似性[11]。设W为原始水印序列, W′为提取的水印序列, N为水印长度, 则归一化相关系数的计算公式为:

为检测该算法的鲁棒性, 分别对已嵌入水印的音频文件进行叠加噪声攻击、重采样攻击、音频格式转换攻击、低通滤波攻击等常见的音频攻击测试, 攻击后所提取的水印和相应的归一化相关系数 (NC) 如表1所示。其中, 叠加噪声①攻击是对已嵌入水印的音频文件添加1%高斯白噪声;叠加噪声②攻击是添加10%均匀分布白噪声;重采样攻击是对含水印的音频文件由11.025 k Hz上采样至22.05 k Hz;格式转换①攻击是在保持采样率为11.025 k Hz的情况下, 将含水印的音频文件由WAV格式转换为MP3格式, 再转换为WAV格式;格式转换②攻击为将含水印的音频文件由WAV格式 (采样率为11.025 k Hz) 转换为MP3格式 (采样率为22.05 k Hz) 再转换为WAV格式 (采样率为11.025 k Hz) ;低通滤波①攻击为将含水印的音频文件经过通带内允许最大纹波为1 d B的2阶ChebyshelⅠ型低通滤波器;低通滤波②攻击为将含水印的音频信号经过2阶Butterworth低通滤波器。通过在多种典型音频文件攻击下的测试结果可见, 该水印能够有效抵御多种攻击, 具有较强的鲁棒性。

4 结语

本文提出了一种强鲁棒性的音频数字水印时域算法, 该算法采用分段求取能量差值并进行比较的方法, 结合要嵌入的水印序列和人类听觉系统的时域掩蔽效应修改相应段中的取样值, 实现在音频载体中嵌入水印信息。通过对含水印的音频信号采取相同的分段求取能量差值并进行比较的方式实现水印信息的盲提取。实验结果表明, 该算法透明性良好, 且能够有效抵御叠加噪声、重采样、音频格式转换、低通滤波等多种常见的音频攻击, 具有较强的鲁棒性。

摘要：提出了一种强鲁棒性的基于能量差值比较的时域音频数字水印算法。根据要嵌入的水印序列将音频载体分为长度相等的若干节, 每节再分为长度相等的若干段, 通过比较每节前两段和后两段的能量差值, 结合要嵌入的水印序列和人类听觉系统的时域掩蔽效应, 采取修改每节前两段或后两段能量差值的方法将水印序列嵌入到音频载体中。实验结果表明, 该算法透明性良好, 对多种音频攻击均具有良好的鲁棒性, 并可实现盲检测。

关键词：时域算法,音频数字水印,能量差值,掩蔽效应,盲检测

参考文献

[1]金聪.数字水印理论与技术[M].北京:清华大学出版社, 2008.

[2]赵波, 卞金来, 高飞.基于可视密码术的小波域音频数字水印研究[J].现代电子技术, 2008, 31 (11) :84-86.

[3]LU Chun-shien, LIAO Hong-yuan Mark, CHEN Liang-hua.Multipurpose audio watermarking[C]//Proceedings of International Conference on Pattern Recognition.Barcelona:[s.n.], 2000, 3:282-285.

[4]孙素静, 管会生, 王妍妍, 等.音频水印算法复杂性评估[J].计算机工程与设计, 2008, 29 (11) :2848-2851.

[5]李伟, 袁一群, 李小强, 等.数字音频水印技术综述[J].通信学报, 2005, 26 (2) :100-111.

[6]WANG Hong-xia, FAN Ming-quan.Centroid-based semi-fragile audio watermarking in hybrid domain[J].Science China Information Sciences, 2010, 53 (3) :619-633.

[7]CHEN Ning, ZHU Jie.Multipurpose audio watermarking algorithm[J].Journal of Zhejiang University (Science A:An International Applied Physics&Engineering Journal) , 2008, 9 (4) :517-523.

[8]CHEN Bao-yuan, ZHU Yi-qiang, TIAN Lei-lei, et al.Robust audio blind watermarking algorithm based on haar transform[J].Journal of Harbin Institute of Technology, 2013, 20 (3) :104-108.

[9]王让定, 柴佩琪.基于听觉模型的自适应音频数字水印盲检算法[J].同济大学学报:自然科学版, 2004, 32 (11) :1516-1520.

[10]冯涛, 韩纪庆.基于听觉特性的音频水印能量估计及自适应嵌入算法研究[J].声学学报, 2006, 31 (1) :48-54.

基于小波变换的音频数字水印方法篇10

本文提出了以小波封包为基础,先将音频信号分割成1024个取样点的音框,再对音框做小波封包处理,并同时利用人耳声学模型对音频进行分析,依据欲嵌入的数字水印和小波系数的特性,做数学逻辑运算产生一组二元安全密钥,以取代传统数字水印技术对原始音频的要求,最后将修改过的小波系数还原为时间域上的信号即为藏有数字水印的音频信号。对数字水印进行提取时,则直接利用安全密钥从音频信号中提取出藏在其中的数字水印即可。

1 人耳声学模型

多年来人类听觉系统[2]已经被深入的研究,由于人耳构造的特殊结构,人脸所能听见的声音频率范围在20Hz~20kHz之间。而且人耳对声音有非线性反应的特点,对每个频率的敏感程度不同,所以就发展出人耳声学模型[3]来对人耳对声音的反应感受度进行建模。

1.1 声音掩蔽阈值的确定

本文利用声音的掩蔽效应来确定声音的掩蔽阈值。掩蔽效应也就是当某遮蔽源存在时,我们将听不到它所遮蔽的特定范围的频率。而且在某些固定的频率范围内掩蔽效应的模式是几乎不变的,其频率范围如式(1)所示,转换公式如式(2),式中f表示欲转换的频率值(单位Hertz),B表示转会后的巴克值。

人耳声学模型绝对掩蔽阈值的计算公式为:

式中f单位Hz,ATH以dB表示。

2 小波简介

2.1 小波封包(Wavelet Packet)

小波封包系统[4]是Ronald Coifman所提出,其允许在高频带的部分继续做更细微的切分,与传统只在低频带部分做进一步切分的小波转换系统不同。它提供了更丰富的频带树状结构,可适用于更多种类的信号分析。但是它所付出的代价是运算复杂度的增加,由原本小波转换的O(N)提高为O(Nlog(N)),其中N为滤波器的系数长度,定义为系数个数。图1和图2可以比较出小波转换与小波封包的不同。

2.2 小波分频架构

为了与人耳声学模型结合做数字水印嵌入,分次频带时越接近关键频带越好。因为如果某一个次频带宽同时包含多个关键频带在内,它所取的最小掩蔽阈值是它所包含的关键频带中比较小的值,所以便牺牲了比较大的值,这样一来是没有好处的,因为较大的掩蔽效应可以增加数字水印的鲁棒性。

所以我们采用的分频架构如图3。采用M=2的小波滤波器群组,共8阶29次频带的小波封包结构。

将一般音频的频带范围0~22kHz分成频宽不等的29个次频带,与MPEG标准中人耳声学模型的26个关键频带(Critical Bands)相对关系如图4所示。

由图5和图6将实际音频信号的小波系数值列出,我们可观察出系数能量的分别情形都非常的集中。

2.3 小波次频带的选择

以人类听觉感官而言,人耳对于中频带信号是较为敏感的[5],以1.1节的公式(3)为标准来看,在500Hz~10kHz听觉较为敏感,所以中频带系数不适合用来隐藏数字水印。高频带信号虽然具有较低的敏感性,但高频带的系数值通常较小,且经过音频压缩技术压缩后,损失较大,不利于数字水印的提取。所以我们选择较低频次频带的系数进行数字水印嵌入。以小波封包分频架构来看,选择第1次频带至第15次频带之间的系数,如图7中虚线方框内的范围,并将其分为两个频段,1~11为频带Ⅰ,次频带12~15为频带Ⅱ,如图7所示。以频率范围配合最小掩蔽阈值来看,选择的频率范围大致为0~2.75kHz,其中频带I的频率范围约为0~1.375kHz,频带Ⅱ的频率大致范围为1.375~2.75kHz,如图8所示。

通过以上的介绍,数字水印嵌入算法为:

1)现将音频信号分割成1024个取样点的音框;

2)对音框做小波封包处理,并同时利用人耳声学模型对音频信号进行分析;

3)将修改过的小波系数还原成时域信号即为藏有数字水印的音频信号。

数字水印的提取需要原始音频信号的参与。具体步骤如流程图9所示。

3 实验结构与分析

本论文的实验中采用的原始数字音频信号采样率为44.1kHz、分辨率为16位的音频作为数字水印嵌入的对象。在Matlab环境下编程实现。硬件测试环境为奔腾4 2.0 256RAM。

3.1 音频音质评价

将原始音频信号嵌入两种不同大小的二值数字水印如图10,计算含水印信号的信噪比,计算公式为:

统计结果如表1所示。

统计结果表明本论文的音频数字水印系统对音频信号在听觉上的品质的影响很小。

3.2 鲁棒性测试

在测试系统的鲁棒性时,我们采用常用的MPEG音频压缩技术对音频信号进行压缩攻击实验,分别测试32~256kbps不同压缩率时,对音频信号进行提取数字水印的能力。正确率计算方法为:

X:原始数字水印

X*:表示经音频处理后提取出的数字水印

由式(5)我们可以看出F值介于-1~1之间,越接近1表示数字水印的相似度越高,越接近0表示数字水印被破坏的越严重,-1表示提取出的水印与原始数字水印完全相反。实验统计结构如表2所示:

实验表明,压缩率在48kbps以上时,提取出水印的F值大都在0.9以上,具有较好的鲁棒性。

通过以上实验可以看出,本文提出的方法具有较好的鲁棒性,具有良好的可检测性和掩蔽性,能抵抗常见的攻击。具有一定的应用与研究价值。

参考文献

[1]张旭东,卢国栋,冯健.图像编码基础和小波压缩技术――原理、算法和标准[M].北京:清华大学出版社,2004.

[2]陈武凡.小波分析及其在图像处理中的应用[M].北京:科学出版社,2002.

[3]Cox I J,Kilian J,Leighton F T,et al.Secure spread spectrum watermarking for Multimedia[J].IEEE Trans on Image Processing,1997,6(12):1673-1687.

[4]Bender W,Cruhl D,Morimoto N,et al.Techniques for data hiding IBM[J].System Journal,1996,35(3&4):313-336.

数字音频水印技术论文篇11

目前，数字水印技术主要应用在对图像和视频等多媒体的版权保护中。在网络、微信、微博、QQ空间、社交平台、摄影等各种渠道制作、流传和存放的数字图像，将数字水印信息（比如个人手机号、公司LOGO、终端IP地址等内容）以不可见的方式隐藏到指定数字图像，在取证时可以通过专用软件或移动终端APP提取数字水印信息，以达到版权保护、溯源追踪的目的。另外，将版权标识作为不可见数字水印信息嵌入视频内容数据中，不改变视频内容的视觉质量，不影响视频内容播放使用，在盗版盗播取证时，运用专用软件提取视频内容中数字水印来识别版权信息，从而达到版权保护和溯源追踪。

将来，随着移动互联网、智能手机和4G网络快速发展，数字水印可以借助于智能手机的平台在印刷包装、出版物发挥着防伪溯源、“媒体桥”的功能。通过数字水印专用软件将IP地址等信息作为数字水印信息嵌入印前图像，然后制版印刷，不改变印刷工艺流程、不增加印刷成本费用、不影响印刷品视觉外观前提下，终端用户在阅读浏览印刷品过程中，通过智能移动终端APP或最新研制AR眼镜可以方便快捷地识别印刷品中数字水印信息，实现网络链接，在纸媒体和互联网之间为终端用户面前架起了一座桥梁，实现纸质媒体和网络媒体之间无缝衔接，为媒体企业和用户提供信息增值服务。这种方式可以使出版商、广告商和图像应用者增加其产品的附加值，如同一把钥匙，为手机市场、互联网行销以及电子商务带来新的市场与机会，开启互联网和传统媒体内容市场的巨大商机。

二维条码技术在透明性与保密性方面存在着缺陷，无法做到与媒体内容无缝融合，视觉体验很差，且由于条码生成算法公开，因此易受到攻击，而基于数字水印的“媒体桥”技术在这些方面具有很明显的优势。

国际上，美国Digimarc公司是在数字水印、数字信息标识、二维条码等领域的领导企业，基本处于国际垄断地位，国内数字水印产品市场应用水平总体偏低，还有很大的技术和市场提升空间。

笔者所在的杭州电子科技大学中央与地方共建图像信息处理实验室研发的数字水印技术已经走在了国内技术最前沿。笔者从2001年在浙大CAD&CG国家重点实验室读博士期间开始研究多媒体（图像、视频、三维模型）数字水印技术，获得了一系列原创性科研成果，先后在Computers & Graphics、The Journal of Systems & Software、International Journal of Innovative Computing、Information and Control、International Journal of Image and Graphics、Journal of Computational Information Systems等国内外重要国际期刊发表；2006年研究出抗打印扫描图像数字水印（扫描仪检测）；2013年研究成功智能手机检测纸媒图水印技术；2016年研究成功AR眼镜检测远距离纸媒图数字水印技术。

李黎教授团队十几年专注于数字水印技术的研究，打破了美国Digimarc公司的国际垄断，2016年迎来了产业化发展的黄金时期。现有来自西安、成都、武汉、广州、厦门、合肥、杭州、南京、苏州、淄博、北京等各地的公司前来洽谈合作，其中不乏上市公司。该团队数字水印技术在如下方面具有国内领先优势：

1.用于数字图像版权保护的数字水印技术

对数字图像，都可以通过数字水印（比如个人手机号、公司LOGO、终端IP地址等内容）嵌入到指定数字图像，在取证时可以通过专用检测软件提取数字水印信息，以达到版权保护、溯源追踪的目的。数字图像水印算法抗攻击性强，实验证明，能够抵抗打印-扫描、旋转、压缩、平移、加噪、裁剪、增强、变色等攻击。可提取由手机拍摄所得数字图像中的水印信息，正确率达到95%以上。

2.用于视频内容版权保护的数字水印技术

将版权标识作为不可见数字水印信息嵌入视频内容数据中，不改变视频质量，在经历视频帧操作、噪声、转码、重编码等攻击后，依然能将视频中数字水印检测出来，用于版权保护或溯源追踪。

3.用于印刷包装、出版物防伪溯源和“媒体桥（Media bridge）”功能的数字水印技术

通过数字水印专用软件将指定水印信息嵌入数字图像，然后制版印刷，不改变印刷工艺流程，实现防版权保护、溯源追踪和网络链接功能。在商品流通和消费终端，通过专用数字水印软件、智能移动终端水印检测APP或最新研制AR眼镜，对印刷的含有水印信息的图像进行拍照检测，可以方便快捷识别出数字水印信息，和Digimarc公司的产品相比，就有对图像质量影响小等优势。

总而言之，数字水印技术产业化应用将有效助推整个印刷出版产业行业技术升级，将传统印刷出版产业融入到互联网加的大平台中提供了技术支持，响应国家快速推动先进技术产业化号召。

数字音频水印技术论文篇12

在科技日益发展的今天, 数字图像、音频、视频等多媒体产品得到广泛的使用, 显著地提高了信息传播的效率和准确度。但这些数字作品会被不法分子所利用, 他们可以很轻易地复制这些作品, 并有可能在没有得到授权的情况下随意复制、篡改、传播有版权的内容。因此, 数字作品的知识产权保护已经成为一个迫切需要解决的关键问题。数字水印技术 (Digital Watermarking) 是将一些标识信息 (即数字水印) 直接嵌入数字载体 (包括多媒体、文档、软件等) 当中, 但不影响原载体的使用价值, 也不容易被人的知觉系统 (如视觉或听觉系统) 觉察或注意到。它充分利用人类视觉和听觉系统的冗余, 嵌入与版权所有者相关的秘密信息, 以证实信息的版权归属。数字水印的分类方法多种多样。依据应用范围, 通常可以把数字水印技术划分为图像水印技术、视频水印技术和音频水印技术。

目前对图像水印 (尤其是静态图像水印) 的研究很多, 而对于音频水印的研究却鲜有报道。音频数字水印技术是在原始音频数据中嵌入秘密信息———水印, 但不影响原始音频的听觉质量, 在音频中嵌入的水印可以有很多种形式如文字、图像、作品序列号等等。水印信息和原始音频数据紧密结合在一块, 通常情况下音频中嵌入的水印, 人们在听觉上根本察觉不到, 并且还要能够有效地抵抗不法侵权行为的攻击。与图像和视频相比, 音频信号在每个时间间隔内采样的点数要少得多, 意味着音频信号中可嵌入的信息量要比可视媒体少得多。人类听觉系统 (HAS) 要比人类视觉系统 (HVS) 灵敏得多, 听觉上的透明性实现起来要比视觉上困难得多。数字音频水印对信号的同步也有比较高的要求。但随着MP3、MPEG、AC- 3等新一代压缩标准的广泛应用, 对音频数据产品的保护就显得越来越重要。

2 数字音频水印算法的实现

2.1 实现过程

2.1.1 数据准备

数据准备同DCT算法相似; A是原始的音频信号, A= {a (u) ,0≤u

W是水印, W=imread (mark.jpg); 水印图像先进行二值化BW=im2bw (W); 之后将二维水印图像转化为一维的序列。

2.1.2 水印嵌入

将音频信号A分为若干个帧节, 对每个帧节进行离散小波变换得到信号的低频分量Ad和高频分量Aa:

计算每个帧的低频分量的能量:

对原始音频信号进行3级小波分解, 对前3级的高频分量不做变化, 予以保留。对第3级的低频分量Ad进行处理, 如图1所示。

假设需要隐藏的水印信号的长度为N, 选择Ad中最大的前N个值, 水印嵌入公式:

在实际嵌入时, 为了方便计算, α为设定的一个阙值。

把已经嵌入水印的低频分量Ad' 与没有处理的高频分量Aa 组合, 进行离散小波逆变换, 重构成音频信号Ai':

最后得到嵌入水印后的音频信号Ai'。

2.1.3 水印提取

该音频数字水印提取算法是盲水印算法, 即提取水印信息时不需要原始音频信号的参与, 如图2所示。

提取水印信息时, 在含水印音频中先找到每两段音频前的同步点, 去掉同步点, 再将嵌入水印的音频信号划分帧、节, 对音频信号分别实施离散小波变换:

计算每段音频信号低频分量的能量记为Ei', 比较能量的大小, 根据比较的结果, 确定嵌入的水印比特是“1”还是“0”。从而得到水印的一维序列 , 然后再将一维序列升维为二维图像, 如图3所示。

为了验证提取后的水印与原来水印是否相似, 采用归一化相关系数来衡量这两者的差别:

2.2 DWT 水印攻击测试

同样的先从直观的角度观察水印算发的感知透明度。经辨识, 嵌入水印后的音频在听觉上几乎与原音频一样, 人耳无法辨别噪声, 说明该水印有良好的感知透明度。

2.2.1 格式转换

原始音频为WAV格式, 水印图像为jpeg。格式直接提取后的水印存在噪声, 但水印仍然清晰可见, 证明水印有效, 但同时说明该水印的鲁棒性较差。

音频转换为MP3格式后, 再次提取水印。格式转换后水印已经被破坏, 失去效果, 说明该水印算法对格式转换压缩的文件处理是脆弱的, 格式一旦转换, 水印就失去效果。水印对格式转换的鲁棒性有待研究。

格式从MP3转换为WAV格式后, 水印依然是无法辨认, 水印仍然是被破坏的。音频的转换是不可逆的, 而且越转换音频丢失越多。

2.2.2 添加白噪声

同样在嵌入水印后的音频中加入不同信噪比的白噪声, 观察提取后的水印效果, 鉴于该水印鲁棒性较差, 信噪比宽度适当降低, 如图4所示。

相对信噪比不断降低, 水印的质量也不断下降:(1) 为信噪比90%的白噪声, 水印图像出现噪声, 但图像仍然清晰可见;(2) 为信噪比80%的白噪声, 水印图像噪声很大, 但仍能辨别出水印标志;(3) 为信噪比70%的白噪声, 水印图像的噪声非常大, 只能够辨别出水印的轮廓;(4) 为信噪比60%的白噪声, 水印图像无法辨别, 水印基本失效。

该实验表明DWT水印算法对白噪声攻击有一定的抵抗性, 但是信噪比的宽度略小, 说明水印的鲁棒性确实比DCT水印差。

2.2.3 剪切

音频剪切对于非同步水印算法的攻击非常有效, 实验表明, 进过音频静音段剪切之后, 水印无法辨认。该剪辑方式是直接在音频的时域中找到幅值为零的点进行剪辑, 所以对音频的改动是非常大的, 对小波变换的算法也是非常有效的攻击。但鉴于实际应用中的剪辑攻击不一定是静音区的剪辑, 而有可能是对音频进行小波分解后, 对高频部分做剪切, 从而不影响人耳的听觉, 在感知是仍旧是透明的, 但是该水印算法是嵌入到小波分解后的低频部分, 所以该水印算法对于高频剪切应该有一定的抵抗性, 高频剪切可以作为一个水印攻击的研究方向。

3 结语

【数字音频水印技术论文】推荐阅读：

数字音频传输06-15

数字音频信号10-22