数字音频信号接口技术

2024-08-08

数字音频信号接口技术（共6篇）

数字音频信号接口技术篇1

数字电视由于有着图像传输质量好、频谱利用率高、节省发射功率、易于实现信号存储和处理等优点,自诞生后迅速取代模拟电视得到了广泛应用。

1 视音频信号的数字化过程

模拟视音频信号实现数字化需完成取样、量化、编码三个过程,称为脉冲编码调制PCM (Pulse Code Modulation)。

取样,是指在时间(或空间)上用有限个取样点来代替连续无限的坐标位置。根据奈奎斯特取样定理,取样频率必须大于等于2倍模拟信号的最高频率,在接收端通过低通滤波器恢复离散的模拟样值序列。

量化,是对取样得到的样值序列的幅度进行离散化处理,将连续变化的无穷多个样值的幅度用有限的近似样值的幅度来表示,把离散脉冲的幅度进行舍零取整的过程。量化的级数的多少取决于量化比特数的多少,量化比特数越多,量化级越多,产生的量化误差越小,解码后恢复的模拟信号失真也越小。一般每增加或减少1 bit,就使量化信噪比增加或减少6 dB。对于音频和视频信号,通常采用非均匀量化,小信号时量化间隔小些,大信号时量化间隔随之大一些,使信噪比趋于一致。

编码是指用一组组二进制数依次表示一个个量化后的脉冲幅度值,并把它们排列起来组成数据信息流的过程。

2 视音频信号的编码技术

2.1 视频信号的编码方式

视频信号的编码分为复合编码与分量编码两种。

复合编码是将复合彩色全电视信号直接进行数字化,编码成PCM信号。由于取样频率与副载波频率间的差拍造成的干扰影响图像质量,复合编码已经淘汰。

分量编码是对三基色信号R、G、B分量或者是对亮度信号Y和两个色差信号R-Y和B-Y分别进行数字化,编码成二进制的脉冲编码调制PCM信号,然后以时分复用的方式混合在一起,构成PCM分量编码信号。其优点是编码与电视制式无关,便于电视制式转换和统一;由于对分量分别编码,采用时分复用方式混合在一起,从而有效地避免了亮/色互相串扰,可获得高质量的图像。

2.2 视频信号的取样格式

视频信号数字化时分为625行/50场制式和525行/60场制式。一副完整的图像都是通过两场隔行扫描完成的,一幅图像既有水平扫描又有垂直扫描。取样点通常采用正交结构,为了满足正交结构,要求取样频率必须是行频率的整数倍。为了实现两种扫描制式的兼容,采用同一种取样频率,即625行频和525行频的整数倍,同时还要满足奈奎斯特取样定理,确定亮度信号取样频率为13.5MHz。

由于色差信号的带宽比亮度信号的带宽窄的多,为了降低码率,在分量编码时两个色差信号的取样频率可以低一些。为了满足不同应用场合对图像质量的要求,亮度和色差信号的取样频率可以有不同的比例组合,即不同的取样格式。通常将3.375 MHz作为最低的基准频率。

4:4:4格式,即Y:(B-Y):(R-Y)=13.5 MHz:13.5 MHz:13.5MHz,适用于高质量图像信号源;

4:2:2格式,即Y:(B-Y):(R-Y)=13.5MHz:6.75MHz:6.75MHz,适用于标准清晰度电视(SDTV)演播室中;

4:2:0格式,即Y:(B-Y):(R-Y)=13.5 MHz:3.375 MHz:3.375 MHz,其实质上为4:1:1格式,适用于SDTV信源编码中。

2.3 数字电视信号的码率

国际电信联盟的无线电委员会(称为ITU-R)数字演播室标准CCIR-601,确定了以分量编码4:2:2标准作为演播室彩色电视信号数字编码的国际标准,对彩色电视信号的编码方式、取样频率、取样结构等都做了明确的规定。625行/50场和525行/60两种制式的亮度信号每行取样点分别为864个和858个,有效取样点数均为720个,取样频率为13.5MHz,行逆程取样点数分别为144个138个。两个色差信号每行分别取样432和429行,有效取样点均为360个,取样频率为6.75 MHz,行逆程取样点分别为72个和69个。

标准清晰度数字电视(SDTV)的码率=亮度信号的码率+2个色差信号的码率=13.5 MHz×10 bit+2×6.75 MHz×10bit=270 Mbit/s (取10 bit量化)

高清晰度数字电视(HDTV)的码率=亮度信号的码率+2个色差信号的码率=1485 Mbit/s (亮度信号取样频率为74.25MHz,取10 bit量化)

2.4 音频信号的数字化

音频信号都是复合信号,基本参数有频率、幅度和带宽。频率决定音调高低,幅度决定声音的大小或强弱,带宽决定音频信号的频率范围。人耳能听到的最大频率范围是10 Hz～20kHz。衡量音频信号数字化有三个指标:取样频率的大小、量化比特数、声道的多少。取样频率通常为11.05kHz、20.05kHz、44.1kHz、48 kHz等,常采用8比特和16比特量化;声道数可分为单声道、双声道(立体声)、环绕立体声(5声道)。

数字音频存储量=取样频率×量化比特数×声道数/8bit (字节)

3 压缩编码技术

压缩编码技术就是在发送端对数字信号进行变换处理的一种方法,其目的是去掉数字信号中冗余信息(数据),尽可能地降低信号的数码率,形成一个传输效率更高的数字信号。数字信号首先进入预测编码器,消除数据中的统计相关冗余,包括空间相关与时间相关冗余,再经过变换编码,把时域信号变换为空间域(频域)信号,实现码率的压缩。之后再通过量化编码、熵编码及缓冲器进一步压缩数码率,并保证数码率以平稳的速率达到与信道容量相匹配。缓冲器输出的信号再通过多工时分复用器与伴音、同步及其他辅助数据信号组成复合信号,最后送入信道编码器。

预测编码:又称差分脉冲调制编码(Differential Pulse Code Modulation,DPCM)。利用某种数学模式和已经传输的像素值(数据)进行预测,预测出一个与当前传输的像素值相接近的估计值,进而把当前要传输的像素值减去预测值,得到一个误差值,将误差值编码后传输出去。在接收端将收到的误差值解码后,再与预测值相加,即可得到当前要传输的像素值。

变换编码:基本思想是不直接对空间域图像数据进行编码,而是首先将原来空间域上的图像数据变换到另一个正交向量空间(变换域或频域)中,得到相应的一组变换系统,然后对这些变换系数进行量化、编码和传输,又称为正交变换编码。常用的变换编码有离散傅立叶变换和离散余弦变换DCT (Discrete Cosine Transform)。为了避免傅立叶变换的复数运算,常采用DCT变换,将一幅图像分为多个8×8个像素样值的子像块,即64个点的离散信号,通过DCT输出64个正交基信号,每个正交基信号的幅值称为DCT系数。由于高频分量DCT系数经常为0,仅对低频分量系数进行量化编码,大大压缩了数据量。

熵编码:又称统计编码,是一种无损编码。常用的有霍夫曼编码,先把信源符号按出现的概率由大到小顺序排列,然后按相反的顺序分配码字的长度。缺点是要求事先知道各信源符号出现的概率,否则效率会明显下降。

数字视频的运动补偿编码:是一种帧间预测编码,具有较大的数码压缩率,是运动图像视频编码国际标准(H.261、MPEG-1、MPEG-2)采用的关键技术之一。帧间预测编码基本原理是选择前一帧作为预测参考帧,在传输前一帧的基础上,只要传输前帧与后一帧对应像素的差值信号,在接收端只要将前一帧与差值相“加”,同样能得到后一帧。

运动补偿编码主要解决两个问题,即运动估计和运动补偿。运动估计就是对运动物体从前一帧到后一帧位移的方向和像素数做出估计,也就是求出运动矢量。运动补偿就是对运动物体的位移量进行补偿。

摘要：本文介绍了视音频信号的数字化过程,对视音频信号数字化的编码方式、取样格式和压缩编码技术要点进行分析。

关键词：视音频信号,数字化,压缩技术

参考文献

[1]吴恩学.数字电视实用技术[M].北京:教育科学出版社,2009.

[2]车晴,王京玲.卫星广播技术[M].北京:中国传媒大学出版社,2015.

数字音频信号接口技术篇2

在音频文件中嵌入水印的各种方法一般都要利用人类听觉系统的某些特性，即人的听觉生理———心理特性。使用这些特性是为了满足水印的不可感知性（听觉相似性）的要求。

首先，人的听觉具有掩蔽效应。其次，人耳对声音信号的绝对相位不敏感，而只对其相对相位敏感。最后，人耳对不同频率段声音的敏感程度不同，通常人耳可以听见20～18Hz的信号，但对300～3400Hz范围内的信号最为敏感，人耳实际感觉到的音量也是随频率而变化的。

2 音频数字水印技术

2.1 音频信号的数字表示

对大多数的数字音频表示有两个重要参数：采样量化方法和瞬态采样速率。

一般音频的常用采样频率包括8kHz、9.6kHz、10kHz、12kHz、16kHz、22.05kHz和44.1kHz。采样频率影响水印数据的隐藏量，因为它给出了可用频谱的上限（如果信号的采样频率为8kHz，则引入的修改分量的频率不会超过4kHz）。对于大多数已有的水印技术而言，可用的数字空间与采样的频率的增长至少成线性关系。最后需要考虑的是由有损和可感知压缩算法引起的变化。这些变化彻底改变了信号的数据结构。他们仅仅保留了听者能感觉到的特性部分，也就是说，它听起来与原始信号非常相似，但是信号在最小平方意义上完全不同。水印嵌入的速度依赖于信号的采样率、声音编码类型和具体的水印算法。

2.2 音频信号传送环境

在实践中，含有水印的音频信号从编码到解码之间有多种可能的传播途径。

第一种情形是声音文件从一个机器拷贝到另一机器，其中没有任何形式的改变，编码方和解码方的采样率完全一样。第二种情形是信号仍然保持数字的形式，但采样率发生了变化。这一变化保持了大多数信号的幅度和相位值，但是改变了信号的时域特征。第三种情形是信号被转换为模拟形式，通过模拟线路进行传播，在终端被重新采样，在此过程中信号的幅度、量化方式和时域采样率都得不到保持。通常，这种情形下信号的相位值可以得到保持。第四种情形是信号在空气中传播，经过麦克风重新采样。这时信号受到未知的非线性改变，会导致相位改变、幅度改变、不同频率成分的漂移和产生回声等。

在选择水印嵌入算法时，需要考虑信号的表述和传输路径。如果音频信号在传输中没有改变（比如第一种情形），则对水印算法的约束最小。如果音频信号在传输中发生很大变化（比如第四种情形），则对水印算法的约束很大，要求算法有很强的稳健。

2.3 音频数字水印要求

要成为成功地在数字音频媒体中隐藏数据，我们必须关注以下几方面的要求。

(1)数据变化处理操作的稳健性。要求水印本身应能经得住各种有意无意的攻击。典型的攻击有添加噪声、数据压缩、滤波、重采样、A/D-D/A转换、统计攻击等。(2)听觉相似性。数字水印是在音频载体对象中嵌入一定数量的掩蔽信息，为的是第三方不易察觉嵌入的信息，需谨慎选择嵌入方法，使嵌入信息前后不产生听觉可感知的变化。(3)是否需要原始数据进行信息提取。根据数据嵌入和提取方案的不同设计，有些方案可以不需要借助于原始数据进行信息提取，这一性能将影响方案的用途和性能。(4)数据提取误码率。数据提取误码率也是音频水印方案中的一个重要技术指标，因为一方面存在来自物理空间的干扰，另一方面，信道中传输的信号会发生衰减和畸变，再加上人为的数据变换和攻击，都会使数据提取的误码率增加。(5)嵌入数据量指标。根据用途的不同，在有些应用场合中必须保证一定的嵌入数据量，如利用音频载体进行隐蔽通信。

2.4 音频数字水印的评价标准

评价水印嵌入后媒体产品被影响程度，除了利用感知系统（人耳或人眼）定性评价以外，还可以采用定量的评价标准。通常对含有水印的音频信号进行定量评价的标准有以下两种。

(1)信噪比（SNR）。设N为音频数据段长度，xi为原始音频采样数据，xi^为嵌入水印后的音频采样数据，则信噪比被定义为：

(2)峰值信噪比（PSNR)

在音频信号中嵌入二值水印，为定量地评价提取的水印与原始水印信号的相似性，采用归一化相关系数（NC）作为评价标准，其定义为：

其中W为原始水印,大小为M1×M2;WS为提取水印。

3 总结

音频水印存在的问题及发展趋势，目前，存在的数字音频水印算法，在提取水印的过程中大多数需要原始音频信号，同时许多算法的计算量大，不便于数字音频水印技术的工程应用。寻找能提供完全版权保护的数字水印算法也是一个重要的研究方向。在水印的嵌入和提取过程中很少考虑同步问题。

寻找与新一代压缩标准MP3,MPEG,AC-3相适应的数字音频水印算法，对音频水印技术的广泛应用具有重要的意义。故今后水印技术的研究仍将着重于鲁棒性，真伪鉴别，版权证明，网络快速自动验证，水印性能评价标准等方面。

摘要：多媒体技术和网络技术的广泛应用,使得对图像、音频、视频等多媒体内容的保护成为迫切需要解决的问题。数字水印技术作为版权保护的重要手段,正得到深入的研究。

《音频信号数字化》教学案例篇3

《音频信号数字化》是浙江教育出版社出版的《多媒体技术应用》第三章第四节“声音素材”的第1课。本节知识涉及声音数字化的基本概念、声音素材的获取和使用、声音文件的格式转换等内容。本课要求学生学习音频信号数字化的基本概念, 让学生在理解采样频率、量化位数、声道数等概念的基础上, 掌握WAVE格式音频文件所占存储容量的计算方法。

学习对象分析

本课的授课对象是浙江省长兴县金陵高级中学高二的学生。学生来自实验班, 目前已学习了“信息技术基础”模块的“算法与程序设计”的部分内容, 具备一定的观察、分析和动手实践能力。但对“多媒体技术应用”的相关知识大部分学生知之甚少, 对计算机中的二进制、数字化等内容认知度较低。因此, 在本课教学时, 多数学生缺少“音频信号数字化”学习的前导知识, 而如何让学生理解数字化过程中“量化”与“量化位数”的概念, 则是本课的一个挑战。

教学目标

知识与技能目标:理解音频信号数字化的基本概念;掌握WAVE音频文件存储容量的计算方法。

过程与方法目标:体验声音数字化的过程, 发现数字音频参数与文件存储容量的关系, 培养发现问题、分析问题、总结问题的探究式学习方法。

情感态度与价值观目标:借助认知经验和探究能力的体验式任务, 进行“观察→发现→总结”, 培养递进式的探索发现意识;通过数字化过程的体验和探究, 激发探索信息数字化的兴趣。

教学重点、难点

重点:掌握WAVE音频文件存储容量的计算方法。

难点:采样频率和量化位数的理解。

设计思路

本课的内容贴近学生的生活, 容易引起他们的学习兴趣, 调动其课堂参与度, 但在数字化概念欠缺、前导知识不足的情况下, 如何深入浅出地引导学生理解相关概念是本课实施的重心。基于以上分析, 教学中我采用“以学生实验探究为主, 教师讲解引导为辅, 用‘倒序’的方式引导学生进行探究式学习”的思路进行教学设计。

教学过程

1.课题导入

教师让学生观察耳机 (计算机教室中不常配备耳机) , 并与电脑连接;探究认识耳机上按钮的功能。

学生尝试操作, 并交流相关按钮的功能。

教师概括本课的学习方法:观察、实践、交流。 (板书)

师:今天我们学习的知识将和耳机有关, 这就是《多媒体技术应用》第三章第四节声音素材中的内容。 (PPT投影章节名称, 并板书课题——音频信号数字化)

设计意图:开门见山, 引出本课时的学习方式, 提出课题。

2.实验探究

任务1:记录 (老师给大家发了4个音频文件, 如图1, 同学们可以对它们进行试听和观察, 并将结果记录在任务单中) 。

学生试听音频文件的音质, 观察音频文件的容量, 记录数据。

教师巡查, 观察学生的记录情况, 根据任务的完成度, 用问题引导课堂。

问题1:4个文件的容量怎样? (大小不一)

问题2:4个文件中音质最好的是哪个?最差的是哪个? (有1个明显差, 音质好的较难分辨)

问题3:猜想一下, 这几个音质究竟是怎样的关系? (根据容量来作出判断)

学生根据记录结果, 回答问题。

师:造成这种区别的原因是什么呢?下面我们通过一款音频编辑软件Audition, 来对它们进行观察和对比, 找找原因在哪。

教师演示Audition软件, 并让学生观察音频的状态参数。

设计意图:观察已有结果, 引导学生发现问题。其中, 问题2中关于哪个音质最好的不同回答将为下一任务的展开埋下伏笔, 从而引导学生选择1个音频文件作为参照, 用比较的方式来辨别。

任务2:比较 (学生记录、比较数据, 观察, 分析, 得出初步结论) 。

教师在学生每次比较时巡查引导, 及时掌握其完成度, 设置探究问题, 引导学生归纳探究结果。

1比较文件1和文件2。

初步得出结论:采样频率影响了文件容量。

探究1:采样频率是什么?

教师演示Audition, 让学生观察单位时间内的采样点。

学生对比文件1和文件2单位时间内采样点的数量, 并归纳:单位时间内采样点的数量越多, 波形越光滑 (音质越好) , 需要存储的点越多 (容量越大) 。

师生共同得出结论1:采样频率越高, 容量越大、音质越好。 (板书)

2比较文件1和文件3。

初步得出结论:量化位数影响了文件容量。

探究2:量化位数是什么?

教师演示Audition中量化等级的变化, 学生观察、交流后对量化等级进行归纳:量化区间等级划分越细, 采样点描述得越精确, 音质越好, 容量越大。

师:量化等级和量化位数两者有什么关系?

教师讲解n位和2n的对应关系, 初步建立数字化存储的印象, 师生共同得出结论2:量化位数越大, 容量越大、音质越好。 (板书)

3比较文件1和文件4。

学生自主比较, 观察声道数, 归纳声道数对音质和容量的影响, 得出结论3:声道数越多, 容量越大、音质越好。 (板书)

设计意图:对发现的问题寻因, 激发学生进一步探究的兴趣, 并在对比和交流中突破难点, 培养学生发现问题、分析问题的能力。

3.阶段发现

任务3:结果 (结合任务单和板书, 汇总、分析实验探究的结论, 观察影响声音音质和大小的参数, 并得出它们的关系——正比例关系) 。

教师在板书上用“×”连接三者, 并提出问题。

问题4:对于声音容量而言, 除这三个参数外, 还有哪个参数会影响其大小呢?

学生回答问题。 (时间)

教师板书声音容量大小的计算公式, 学生学习音频文件存储容量的计算方法。

设计意图:整理、归纳分析结论, 探究其本质原因, 突出重点。

4.应用体验

任务4:应用 (按要求录制一段声音, PPT展示要求, 如图2) 。

教师演示麦克风的检查方法和录音的基本操作。

学生录制一段音频, 试听录制效果, 体验音频数字化的过程。

教师巡查并解决录音过程中出现的问题, 掌握任务完成度, 提醒学生观察、记录录音参数, 并根据参数计算音频文件容量。同时, 根据学生录音过程中发现新问题的情况和课堂剩余时间, 设置探究问题, 延伸知识。

探究3:录音音量大小对音频文件容量有影响吗?

探究4:计算得到的理论大小和存储时的实际大小为什么会有区别?

设计意图:通过录音体验, 对音频数字化过程进行溯源, 验证实验探究所得知识, 建立理论与实践的对接。

5.分析总结

任务5:小结 (师生回顾音频数字化录音的过程, 分析音频数字化过程, 小结本课学习内容, 教师布置课后巩固练习, 如图3) 。

设计意图:回顾、总结、梳理知识要点;实现知识的巩固和提升。

教学反思

本节课的亮点主要有三个:第一, 教学主线的设计脉络清晰, 以发现、寻因、究底、溯源和巩固为主线有效地串联课堂各环节, 充分体现出生本、生态的特点。课堂具有较强的迁移性, 内容安排便于后续课时的教学。第二, 课堂任务的设计有意义、有梯度, 既符合学生的认知规律, 又体现了知识的内在规律。第三, 课堂任务完成度极高, 圆满完成了教学任务。本节课的不足之处主要是在教学互动时略有欠缺。在课前, 我未考虑特定环境对师生的影响, 造成课前时间的过多消耗, 进而影响了课堂上的学习氛围;课堂上个别知识点 (如采样频率) 的讲解稍显繁琐, 不敢放手, 错失了发掘学生自主学习的机会。

比赛课源于自身教学的日积月累, 精雕细琢, 但在教学内容之外, 我又不得不重提两个词, 那就是预设和心态。好的课堂有充足的预设, 也伴随着生成, 但由于学科特性, 又往往会有意外产生, 如课堂中教学软件的安装故障等。面对这些意外以及比赛的压力, 我们是否有足够强大的内心来容纳和解决呢?

附录:《音频信号数字化》学习任务单

1.记录

试听、观察以下的4个音频文件, 并完成下表。

2.比较

通过音频编辑软件Audition打开音频文件, 观察状态栏参数, 完成以下表格。

(1) 文件1和文件2的比较。

结论1:_________________________。

(2) 文件1和文件3的比较。

结论2:______________________________。

(3) 文件1和文件4的比较。

结论3:_________________________。

3.结果

WAVE格式音频文件的存储容量=。

4.应用

按要求录制一段音频, 根据参数计算该音频文件的存储容量, 并通过音频编辑软件观察该音频文件的存储容量, 完成下表。

5.小结

音频信号数字化编码方式分析篇4

一、声音信息中存在着以下冗余:1、幅度分布的非均匀性;2、样值间的相关性;3、周期间的相关性;4、话音间隙冗余。

二、听觉器官的不敏感性也就是专业语言所说的听觉的掩蔽效应, 它主要表现在以下两个方面:

1.频谱掩蔽效应

比如在一个频率1KHz, 强度为70d B的声音背景下的掩蔽门限线图如下

2.时间掩蔽效应

声压强度大的声音信号出现之前和之后的短暂时间内已存在的弱音信号也会被强音信号掩蔽掉, 分别称为前掩蔽 (20ms) 和后掩蔽 (100~200ms) 。

音频的编码技术通常会用到MPEG-1、MPEG-2标准。MPEG即Moving Picture Experts Group是国际电联ITU标准专家组制定的音频编码标准。MPEG强调人的听觉心理声学模型的利用。可利用估计听觉掩蔽阈值、量化精度、尺度化等各种压缩手段进行压缩编码。

MPEG-1音频 (ISO/IEC 11172-3) 描述了具有如下属性的三层音频编码:

层次Ⅰ, 将音频信号输入按一定格式固定分割成32个子带, 子带系数的量化精度为4bit, 比例因子为6bit, 单声道码率为192k bit/s.

层次Ⅱ, 采用自适应的比特分配, 子带低频量化精度为4bit, 中频段为3bit, 高频段为2bit;比例因子为6bit;高保真度码率为128k bit/s.

层次Ⅲ, 用混合带通滤波器提高频率分配率, 采用非均匀量化、自适应分段和量化值熵编码技术。每通道64k bit/s.

MPEG-2音频是在1994年11月为数字电视而提出来的, 其发展分为三个阶段:

第一阶段是对MPEG-1增加了低采样频率, 有16KHZ, 22.05KHZ, 以及24KHZ。

第二阶段是对MPEG-1实施了向后兼容的多声道扩展, 将其称为MPEG-2BC。支持单声道, 双声道, 多声道等编码。并附加“低频加重”扩展声道, 从而达到五声道编码。

第三阶段是向后不兼容, 将其称为MPEG-2 AAC先进音频编码。采样频率可以低至8KHZ;而高至96KHZ范围内的1-48个通道可选的高音质音频编码。

摘要：通过对声音信号特点和人耳听觉特性的理解来分析音频信号数字化的编码方式。

关键词：声音冗余,掩蔽效应,MPEG-1,MPEG-2

参考文献

[1]数字音频技术.作者: (美) 波尔曼 (Pohlmann, K.C)

数字音频信号接口技术篇5

随着数字电视的普及, 越来越多的演播室, 工作站、转播车等视音频制作系统采用数字接口对视音频信号进行传输。庞大的系统及设备的多样性, 要求保障各设备之间的同步是系统正常工作的先决条件。

传统模拟视音频设备之间的同步是由记录载体中记录的时间码来实现的, 但在数字领域却不是这么简单, 它引入模拟系统中没有的时钟概念, 正是通过时钟才能确定各数字音频设备的数字信号码的起始点, 避免整个系统由于同步不正确而造成的信号失落或引入数字噪声。

数字音频信号标准有很多标准, 例如:SPDIF、AES3/EBU、midi等等。在电视行业所从事的工作当中接触最多的是AES3/EBU标准, 由美国声学工程协会和欧广联共同制定 (以下简称AES3) , AES3标准是1985年首先发布的, 在标准执行一段时间后, 实践当中发现由于接口和电缆特性阻抗之间的匹配问题造成数字信号在线缆传输过程当中极易发生畸变, 影响时钟信号再生, 误码率升高。为此1992年对原标准进行修改, 修改后的数字音频AES3标准主要参数:量化比特:16～20bit取样频率:30～50kHz, 通常采用32k Hz, 44.1k Hz, 48k Hz三种, 44.1kHz用在CD音质, 48kHz用在广播电视领域较多。

2 数字音频信号AES/EBU及其接口

帧结构如一帧包括两个子帧 (Sub Frame) (子帧A和子帧B) , 一个子帧包括来自一个音频源或声道的样值数据20bit、同步数据4bit、附加数据 (辅助数据) 4bit、有效比特 (V) 1bit、用户比特 (U) 1bit、声道状态比特 (C) 1bit和奇偶校验比特 (P) 1bit, 一子帧总共32bit一帧64bit。音频每192个帧构成一个块 (Block) 。在数据流中由一个标志符Z标识每个块的开始。

帧结构为每帧包含2通道音频, 每通道32bit, 共64bit;数据结构如图1所示。

一个子帧为32bit, 也就4Bytes, 两个字帧形成一个8Bytes帧, 192个帧形成一个块, 一个块为192×8=1536 Bytes, 每个块总共可以传输192个双声道Sample (192对子块) 。

一帧的数据 (包含两个声音采样) 在一个采样周期内被传送出去, 其数据率是随选取的采样率来决定的。

虽然可以选择不同的取样频率, AES/EBU实际建议采样频率为48kHz, 这样既能保证得到高质量的数字音频信号, 又能保证音频采样频率和视频采样频率保持简单的换算关系, 视频信号处理器内部的27MHz主振荡器经过1125/256分频产生6.144MHz作为AES3的参考主时钟 (相应的AES3码率3.072MHz=6.144/2.数字音频的取样频率4.8kHz=6.144/128) , 有利于解决数字视音信号之间的同步问题。

这样的话以48kHz取样频率所产生的数字码率为3.072MHz=48k Hz X64bit, 如果按通常要求线路传输保证基带频率的5次谐波不产生失真, 那么线路带宽必须大于15MHz, 已经超出标准模拟清晰度电视信号的带宽, 这样的带宽对传输数字音频信号的通路、连接件都有着更高的要求, 其中AES/EBU和接口有关的参数见表1。

从表中可以看出AES3-1992实际上是针对一直使用的模拟音频物理接口标准的, 但标准明确提出要用数字音频线进行连接, 且只能点对点, 不能并接, 若需要并接时必须加分配放大器, 这一点与模拟音频的传输不同, 这是因为传统的模拟音频信号对线缆的阻抗特性没有太高要求, 长距离传输以及电缆分布电容的影响往往更多的是造成信号幅频特性的下降, 而数字信号传输对电缆阻抗特性要求较高, 任何造成时钟信息精度下降的因素都可能影响数字音频信号正确的编解码。数字音频以48kHz取样为例, 其带宽达到3.073MHz=48kHzX64bit, 其波长比模拟声频信号要短得多, 如果不严格要求传输电缆和连接器件的特性阻抗匹配, 势必影响数字信号的传输。

对于AES-ID标准 (ID:Information Document) , 是对AES-1992的一种补充, 数据传输格式与AES3相同, 重点是接口和电器特性的不同, 它是沿用专业视频设备的BNC传输接口, 由于上述原因早期生产的模拟视频电缆和接口已不适应传输AES-ID标准的数字音频信号, 必须采用改进过后的精密数字视频电缆。由于接口小、传输距离长, 可嵌入视频信号内同步传输, AES-ID接口目前使用范围越来越广, 很多只处理音频信号的设备也开始使用此标准接口。需要注意的是对于AES3-1992与AES3-ID标准接口相互连接时, 必须利用阻抗转换器, 而不能简单地利用连线转接。

3 数字音频信号的测量单位监视

音频测量通常用电平来表示, 单位:dB (分贝) , 这是因为音频信号有着很宽的动态范围, 用dB表示可将电压或功率的测量值用对数的函数形式来表示。因为人耳的听觉与音频信号幅度呈对数关系, 使用dB, 还便于我们定量地改变音频信号幅度。

在音频测量中也对dBm作了规定。0dBm是以600Ω作为负载阻抗, 在其上加0.775V电压, 相应功率1mW为基准功率。这样, 在使用这个等式时, dBm就相当于施加在600欧负载上的电压产生的功率与施加标准0.775V电压值产生的功率比。您可以计算出音频测量中常用的dB测量值, 它们用如下等式来表示:

在早期的音频系统连接中, 要求音频设备输入输出之间严格的按照阻抗匹配原则, 输出接口的内阻和输入接口的内阻相等, 为600Ω。随着技术的发展, 现在的音频设备连接, 已经形成低阻输出高阻输入的配接方式, 往往是输出阻抗在100Ω以下, 输入阻抗在10000Ω以上, 这种连接方式既方便了设备连接, 又为设备的级联提供方便。相应的电平测量单位也发生了变化, 往往不再采用dBm, 而用dBμ进行表达, 只对负载电压进行比较, 而不考虑负载的阻抗大小。若要使0dBμ=0dBm, 前提是跨连600Ω负载。

当采用1kHz标准测试信号, 负载有效电压为1.228V, 此时的电平值为20lg1228/775=4dBμ。

这就是目前世界大部分国家都在使用的专业设备电声系统参考电平。

在消费类电子领域里, 参考电压由0.775V改为1V, 相应的电平值单位为dBV。可以看出输入电压不变的情况下, 在专业领域电平显示的dBμ数值要大于显示的dBV数值。

最简单的音频监视形式是使用能够显示音频信号幅度的电平表。有两种类型的电平表, 即VU (Volume Unit) 表和PPM表 (Peak Program Meter) , 二者之间有着明显的差别。

VU表和PPM对音频节目素材表现出不同的响应。VU表显示的是音频信号的平均音量电平, 它具有对称的上升和降落时间, 其积累时间相对较长 (典型值为300ms) 。积累时间主要由表内指针结构的机械惯性所决定。VU表虽然反映着信号的平均值, 但其刻度是按照正弦波信号的有效值校准, 实际上是一种准平均值 (实际值为准平均值的0.9倍) , 表盘上有对数和百分比数两种刻度, 把大约满刻度的3/4处定位为基准电平 (0VU或100%处, 从基准点到满刻度有3dB的红色警示区域) 如图2所示。

PPM表显示的是音频信号的峰值音量电平, 它具有较快的上升时间 (10ms) 和较慢的降落时间 (2.85s) , 其积累时间为10ms。也是按照正弦波信号有效峰值校准的, 有着相应的红色预警区, PPM中的电子电路用以补偿机械摆动的惯性。由于存在着这些差别, 因此VU表和PPM对音频节目素材一般有着不同的响应。

在PPM表中又分为模拟PPM表和数字PPM表, 两者在数值上和VU表的对应关系也不尽相同。DPPM是根据量化后数据所能表示的最大极限值, 标称为满刻度电平0dBFs (Fs:即Full scale满刻度) , 没有VU和模拟PPM的警示区。

在用音频测试序列对系统进行调整时, 在使用相同的音频节目的情况下, 由于声音信号的峰值不同PPM应当比VU表有较低的读数才能使二者等效。使用VU读数时, 实际读数的大小往往能直接反映出听觉强度变化的真实大小, 但反映不出声音信号峰值变化的情况, 无法判断在某一时刻峰值是否已经超出动态范围;相对来说PPM表能对节目峰值电平给出更为可靠的控制, 它的缺点是表头所显示的数据不一定反映出音频信号的响度。

4 数字音频设备基准电平

目前世界上对于数字音频基准电平主要有两个不同标准, 一个是欧广联的EBU R-2000标准, 规定数字音频基准电平为-18d BFs, 主要在欧洲和日本使用, 另一个为美国电影电视协会的SMPTE RP155-1997标准, 其规定音频基准电平为-20dBFs, 我国采用的数字音频基准电平与全美SMPTE RP155-1997标准数值上一样。

不同的设备厂商采用的标准也不尽相同, 比如SONY设备采用SMPTE RP155-1997, 以-20dBFs为基准, 而松下设备以EBU R-2000-18dBFs为标准, 这种标准之间的差异给实际工作带来不便, 三者之间的对应关系见表2。

从表中不难看出EBU R-2000标准中音频指标的动态储备明显要小于SMPTE RP155-1997标准, 这种标准间的差别直接的影响就是在用户素材交换过程中声音的基准值不确定, 难免造成声音指标的忽大忽小, 为保证音频信号不产生衔接失真, 必须确认素材的基准电平, 在带头录制一定长度的标准千周信号就是为用户在编辑素材之前确定基准电平时使用。

为避免由于采用标准的不统一给使用者造成不便, 不少厂商在设备内部设置不同菜单选项以方便用户根据实际情况进行调用。

5 数字音频设备之间的同步

随着数字化的普及, 现在广播电视行业已经拥有了大量的数字音视频设备, 但就数字音频设备同步来讲, 已经不同于传统的模拟音频, 保证模拟音频同步的时间码同步在音频数字化之后其作用在不断减小。数字音频同步一般指数字音频设备之间同步和数字音频与数字视频之间同步两个方面。

字时钟在音频领域里的应用。

每台数字音频设备当它本身输出一定码流数字音频信号时, 相应的取样频率已经决定了其时钟的频率, 当把这段数字音频信号进行复制编辑时, 所使用的编辑设备两者之间必须同步。有一台设备提供主同步时钟, 另一台设备作为从同步时钟。

按照视频业界的AES3标准来传输数字音频已经延续多年。在AES3标准中, 其接口为串行数据码流, 没有单独的时钟信号, 为使接收机恢复数据, 应当从传送的数据码流中抽取时钟信息。为此, 只需采用一种简单的编码方案即可实现, 这种编码称为双相标志编码, 如图3所示。

在双相标志编码中, 每隔一个比特周期发生一次电平转换, 当数据值为“1”时, 则在后半个比特周期内再一次发生电平转换。采用双相标志编码, 可以很容易地从数据中抽取时钟, 并且使信号传输具有最少的直流分量。由于双相标志编码是用电平的转换来表示数据值, 因此这样的编码信号对极性也不敏感。

如果系统中只有两台设备作简单的输出与接收时, 由于编码的格式采用双向标志编码, 两者之间的时钟很容易同步。把数字音频输出设备的时钟设为内部时钟状态, 数字音频输入设备的时钟设为外同步状态, 使输入信号设备本身的时钟锁定于输入信号的取样频率, 形成两者之间的同步。

在多设备搭建的数字音频系统中, 为了使所有设备与同一时钟进行锁定, 这些设备就需要有专门的时钟参考信号的输入接口。这个接口就是WORD参考信号接口, 一般设备上标注为:WORD REF或WORD SYNC。

WORD同步信号是一个占空比为50%的方波, 其频率等于设备的取样频率, 物理接口使用BNC连接件, 匹配阻抗为75欧, 信号电平为5V左右的TTL信号。

由于WORD信号的频率与AES3/EBU信号的帧频相等, 使用它作为系统中所有形成AES3码流信号设备的参考信号不仅能保证每台设备的取样频率一样, 也能保证他们输出的AES3信号每帧的相位相同。而且由于WORD信号频率比AES3帧频较低, 信号幅度较高, 更能满足长距离传输时对时钟信号的要求。

在只为做单纯性音频节目系统当中, 除了一些简单的只用AES3连接输入输出接口的音频设备外 (数字压缩器、混响器、效果器等) , 其他所有进出系统的声音信号记录回放设备、音频信号采集设备 (音频放机/录机、数字话筒放大器, 模数转换器等) 都应当配备WORD接口, 选择好合适的主时钟信号, 使这些设备接收主时钟设备输出的WORD信号。只有系统当中所有设备的时钟完全锁定于WORD信号, 才能保证多声道信号处理设备 (调音台、工作站等) 从任何信号源得到的数据量是一样的, 确保数字音频信号能够在系统中正确的传输使用。

字时钟在视频领域里的应用按照视频业界的AES3标准来传输数字音频已经延续多年。AES3标准支持多个取样频率, 这些频率可以是32kHz、44.1kHz (CD用) 和48kHz (专业用) , 其中后者在视频设施中获得广泛应用。所以现在很多数字音频设备都具有将AES3码流锁定到视频同步信号的功能。往往用视频同步信号 (黑场、或三电平信号) 代替WORD信号为数字音频设备提供同步基准。在物理接口上两者都同样为BNC接头, 但传输的信号不同。

对于SDI或是HSDI, 无论是嵌入方式还是非嵌入方式, 视频信号每一帧对应有多少音频采样点都有严格的规定。无论或多或少都会造成在视音频切换当中音频数据的丢失, 影响音频的编解码, 严重的会造成数字噪音“咔咔咔”现象。

在电视节目制作当中, 声音的同步总是要跟随图像一致, 音频系统中的参考时间码必须和视频同步信号之间进行锁定, 这在SMPTE和EBU相关技术标准中有严格规定。

最后合成的声像信号中声音相对于图像的滞后时间能保证在一帧之内, 已基本满足观众对声像同步上的要求, 但在目前音视频具有各自通道的情况下, 往往视频处理环节 (特技、效果、上下变换等) 多于音频, 音频反而在时间上超前视频图像, 这种现象比音频滞后视频更加敏感, 也更难以接受, 解决的办法只有加存储器。至于嵌入和非嵌入音频的选择应当根据实际需要而定。

摘要：数字音频信号的大量使用, 对广播电视制作的要求也越来越高, 本文对实际工作当中数字音频信号的一些应用特点, AES/EBU及其接口, 数字音频信号的测量单位监视, 数字音频设备基准电平, 数字音频设备之间的同步等基本知识进行简单介绍。

数字音频信号接口技术篇6

该模拟音频处理模块, 主要由贝塞尔滤波、音频信号平衡非平衡变换、音频加直流、自动功率补偿、数字控制音频衰减、音频末级处理等功能模块组成, 主要给下一级的A/D转换电路提供含有直流及抖动信号成分的单端非平衡音频信号及B- 信号。

1贝塞尔滤波器电路

贝塞尔滤波器电路, 主要完成滤除干扰信号及对过大音频进行限幅的作用, 能滤掉音频频带以上的频率成分, 而且不会引起过冲。当音频信号很强时, 会造成强烈的限幅, 只要滤波器匹配适当, 方波过冲并不明显。

2音频信号的平衡不平衡变换电路

音频信号的平衡不平衡变换电路, 完成输入音频的平衡非平衡变换, 即音频前端送过来的平衡音频信号, 通过平衡非平衡转换电路, 转换成便于处理的非平衡单端音频信号。

3音频+ 直流电路

从10kW DAM数字调制发射机的工作与案例中得知, 开启或关闭的功放数量与发射机的输入音频幅度有关, 为了保证发射机无音频调制时的静态载波功率, 系统采用音频+ 直流的方式, 保证18个左右的大台阶功放的开启, 保证发射机无音频输入时的静态功率, 因此, 音频+ 直流电路, 保持发射机静态输出载波功率, 直流分量决定发射机的载波功率, 音频分量用于调制发射机。

4自动功率补偿电路

自动功率补偿电路, 为了避免外部供电电压影响发射机输出功率, 根据电源采样参数及发射机功率采样参数, 通过模拟乘法器, 产生音频+ 直流的动态控制信号, 对发射机功率进行动态补偿控制。自动功率补偿电路, 通过动态功率补偿的方式, 维持发射机的额定功率输出。

5数控衰减器

数控衰减器, 通过数控电位器, 对音频信号幅度进行控制线性控制, 在保持恒定输出阻抗的同时, 还响应保护信号、完成数字音频存储器清零等任务。

6音频末级电路模块

该模块的功能有两个, 一是给A/D转换器提供音频+ 直流+ 抖动信号, 二是给B- 电源提供音频+ 直流信号, 用于B- 信号的产生。

音频+ 直流信号上叠加抖动信号, 能优化发射机的噪声性能。当适叠加抖动信号后, 能使发射机的信噪比提高几个dB。抖动信号的频率固定在72kHz, 恰好可以滤除被输出带通网络, 以免产生不需要的寄生信号。叠加抖动信号之所以能提高发射机的信噪比, 是因为在A/D转换过程中, 存在 ±1的数码不确定性, 当模拟输入变化时, 由于存在这个不确定性, 在DAM数字调制发射机的调制包络上, 引起不可能被带通滤波器滤除的尖状缺陷, 而抖动信号可以减轻这个噪声。

音频+ 直流信送给B- 电源后, 产生B- 信号。B- 信号参与48个功放的开启或关闭过程的控制。

摘要：音频处理板是DAM10k W发射机的模拟音频处理模块, 主要对发射机输入信号进行预处理, 将一个含有直流及抖动分量的音频信号送给模数转换板, 与此同时, 还输出B-采样信号任务, 本文主要分析了该音频处理模块的原理及作用, 供同行们参考。

【数字音频信号接口技术】推荐阅读：

数字音频传输06-15

音频信号07-20