音视频技术

2024-12-04

音视频技术（精选12篇）

音视频技术篇1

随着我国信息时代发展, 信息时代的产物多媒体资料开始不断增加, 多媒体的资料包含着音频和视频等资源, 这些资源对于整个社会的发展有着非常重要的意义, 它是一笔不可复得的珍贵资产, 如何通过有效地多媒体资源管理技术对于不同形式保留下来的音频、视频内容进行有效地管理和应用, 是当前开发媒体资源管理系统的发展要求, 而网络、存储技术的发展也让多媒体资源管理技术成为了一种新兴的管理科学。

概述

随着信息时代的发展, 广播电视行业的扩展、网络媒体的增速, 不少节目、MV、视频等媒体资源都在飞速增加, 传统的节目是以介质作为保存、使用的方式已经遭遇到颠覆, 而现行的保存资源的方法已经升级到硬盘保存、光盘刻录等方式, 但是这些方式很容易由于磁盘寿命有限, 往往存在磁盘上面的数据长期不阅读就会造成大量有价值的视频、视频资源需要抢救;而光盘由于很容易受到光、磁的影响, 造成无法读取。

而且由于各个行业所使用的素材、媒体资源的数据格式、内容都各不相同, 而在数据传递之后, 在不断进行格式转换过程中, 很容易造成视频的质量下降、效率降低等因素, 造成播放出来的效果不佳。这样的伤害或者损坏对于音频和视频而言, 是无法修复的, 造成的损失是永久性的。

对于整个节目的制作、使用人员和编导而言, 使用最为理想的方式, 是通过系统管理的方式保存相应的音频、视频内容, 通过多重检索、多种查询的方式, 保存多数据格式的媒体信息, 这样在查询结束之后, 能够迅速看到与自己查询目标一致的相关视频、图像、文本、音频等信息, 并能够智能的推荐出节目的不同内容, 供使用人使用。因此, 利用构建整个媒体资源管理系统是非常必要的。

音视频媒体系统功能

音视频媒体资源管理系统的主要有以下几个子系统组成, 通过子系统的信息交互、查询, 最终能够实现系统的整合、传输、转码、查询、存储等功能。

(一) 资源采集系统

资源采集系统主要分为两个内容。转码功能和导入功能。转码功能指的是将传统的音视频编码快速转换成当前存储编码, 并能够根据客户的制定要求, 快速转换成客户要求的编码。转码功能可以以软硬件支持进行。导入功能主要是由于当前音视频的拍摄设备和存储内容多样化, 例如:DV存储、录音带存储、硬盘存储、DVD存储、CD存储、光盘存储、网络采集存储等, 如果采集系统无法选择多样式的导入方法, 将无法与各种格式相应的接轨。

(二) 编辑系统

编辑功能是媒体资源管理系统的重要功能之一, 但媒体导入和转码到系统当中后, 对于媒体的处理和编辑成为了本系统的重要内容, 由于音视频存储之后, 是需要在使用过程中不断的进行剪辑、编辑、更新、删除等操作, 最终将整个视频编辑成客户说需要的视频, 而在整个编辑过程中, 对音视频的清晰度、转换率、裁接功能有强大的支持功能。

(三) 资料编目与检索系统

1、编目子系统

该子系统应当严格按照我国的广电总局《广播电视音像资料编目规范》进行定制研发, 对于整个音视频的环节区分出节目层、故事层、场景层和镜头层四个层次。

2、检索子系统

该子系统充分实现了媒体影像检索的智能化、自动化, 用户可以通过多种检索手段, 包括全文、主题词、分类、关键帧、联合查询、图像及声音检索等高级方式检索所需信息。

(四) 数字化存储系统

存储功能是整个媒体资源管理的重要内容, 资源管理不是单单的对音视频的文件进行处理, 更多的是能够快速的查询、调用、存储文件。存储的过程中必须要保证文件在容量、安全、提升工作效率上有更大的满足性, 因此, 本系统应当采用在线、离线存储方式, 并在存储调用过程中支持断点续传、空间不足提醒等功能。

系统关键技术和要求

(一) 系统要求

音视频媒体资源管理系统首先立足于媒体的管理, 而更重要的是提供更多的查询和检索功能, 通过建立起一整套数字存储方式和结构、规范出格式和索引, 规范整个的软件操作、管理流程机制, 对视频素材的采、编、存、管、发的一体化流程建设, 使得整个视频信息管理环节能够有效地流通和服务, 最终实现视频内容信息流动和工作流程相互结合的方式。

(二) 音视频传输编码规格

对于当前的音视频媒体资源管理系统的技术而言, 主要有以下几种关键编码需要注意。

1、视频传输编码格式

由于世界范围内网络结构的不同和传输数据的带宽都有不同, 这对多媒体的传输和编码规格都将造成巨大的困难, 因此, 如何能够面向网络传输将整个视频编码的目标压缩成一个符合传输、速度要求的编码, 是非常重要的。

2、流媒体的网络传输

将整个媒体资源的媒体进行压缩编码之后, 如何能够快速将媒体发送是网络音视频媒体资源管理技术的另一个重要问题。在当前的网络环境中, 文字进行网络传输一般采用的是超文本传输协议 (HTTP, Hyper Text Transfer Protocol) , 而音视频服务器为了能够更加快速的传输流媒体, 一般而言都采用的是HTTP/TCP传输控制信息, 而实时传输协议/用户数据报协议 (RTP/UDP) 则用来传输实时数据。

当然, 由于网络对于传输数据的要求非常多样和复杂, 特别在部分的网络环境下, 存在着网络用户过多, 信息传输拥挤、带宽无法满足的情况, 如何能够实现将媒体迅速的传递到目的电脑是非常难以预料和控制的, 虽然当前的网络传输大都采用了单数据缓冲、双数据缓冲、单独的网络通道等功能缓解了数据的传输压力, 增强用户观看视频的直观感受, 但是面对带宽不足依然无法保证整个音视频网络、广域网调用和查询文件的要求。当然缓冲传输技术的广泛发展已经大大缓解了当前带宽的压力, 特别是高清直播电视的需求。为了进一步实现网络数据的传递, 世界上逐渐开发出更高效、实时传输的技术:RTP/RTCP、RTSP等协议。

系统结论

针对音频视频的媒体资源管理系统从整个系统的设计到最终的应用过程, 各个子系统应当对系统内部所需要的内容和情况做出相应的规划, 并通过整体规划区分出各个功能模块对于系统运行的效率、存储规模、文件格式、开放程度等多方面内容进行考核。在一个大规模的系统软件当中, 要实现各个方面的要求总是很难同时兼顾, 因此, 设计过程中用户的最终应用应当考虑现有的要求。

虽然我们在媒体资源管理已经取得了一定的进步, 但是在现有的媒体资源管理系统当中, 我们依然存在着急需解决的问题。系统管理层面较狭窄, 大部分仅仅限定于某种资源;缺乏有效地文字表达来关联多媒体内容;各个子系统之间的操作性较差;系统缺乏灵活和扩展性, 不利于收纳各种新的媒体资源;用户的维护、管理成本较高。因此, 如何能够真正实现音视频媒体资源管理技术是今后系统的扩展和研发需要真正解决的问题。

音视频技术篇2

1、首先什么是视频主持人？

视频主持人是一项可添加在网站上的一个新颖的真人在线视频解说技术，就是说当浏览者打开一个网站时，会从页面的左下角或是右下角走出或加载出一位主持人为网站进行一段解说，从而让浏览者在短短的30s---90s之间，迅速而又清晰的了解网站具体是做什么的。这个技术原先从欧美地区开始流行，现已盛行至国内。目前丽芸是国内首家推出这个技术的公司。

2、这个技术再添加之后到底会有哪些的优势？

音视频技术篇3

关键词：生本理念；音视频编辑合成技术；教学方法

一、教师要准确把握学生的特长，挖掘学生已经具备的动漫制作能力，确定音视频编辑合成技术教学策略

1.教师要准确把握学生的特长，挖掘学生已经具备的动漫制作能力

中职生文化基础参差不齐，很多学生对学习并不感兴趣，甚至有些学生是迫于家长的压力进入中职学校学习的。而中职学校动漫制作专业的《音视频编辑合成技术》课程专业性较强，有些教学内容也较为抽象，这就使得有些学生不愿意真正进入到课程的学习状态中，更不用说自主探究、自主思考了。在这样的情况下，教师要准确把握每个学生的特长，挖掘学生已经具备的动漫制作能力，充分调动学生学习的积极性，让学生产生对音视频合成技术学习的浓厚兴趣。如果学生尚没有任何基础，教师可以引导学生通过欣赏教师应用音视频编辑合成技术制作的学生文艺晚会或其他活动的音视频作品，激发学生的求知欲望和学习兴趣。当学生亲身感受到自己的声音、视频可以经过编辑合成技术的处理后变得那么优美、动听，还可以添加丰富、神奇的特效，学生学习的兴趣和动力自然就会增强。

2.以学定教，确定教学策略

尽管《音视频编辑合成技术》课程专业性强，但是只要教师善于引导，能够调动起学生参与学习的欲望，就能引导学生一步步深入学习新知，巩固旧知。因此，教师要思考调动学生学习兴趣的方法，想学生所想，急学生所急，让学生在教师设置的种种课堂情境中欲罢不能，不由自主地愿意跟着教师进一步研讨，提高能力。如，在“在After Effects 7.0中输出影片”的教学中，教师一方面要采用各種有效方式让学生完成基础知识的学习，掌握素材导入与处理、运动追踪的使用等基本操作的方法，另一方面要让学生在实例操作、新知解析以及实战演练中进行不断的思考延伸。教师要根据学生的实际学习情况适当降低或者提升教学目标，合理处理教学难点，让学生感觉到通过自己的努力能够完成教师所提出的教学要求，所付出的努力得到了老师的认可，愿意进一步完善自己所欠缺的能力。

二、多媒体课件辅助教学，帮助学生掌握音视频编辑合成技术教学重难点

1.抽象而专业的教学内容，必须要在多媒体课件的辅助下才能更好地完成教学目标

当学生建立起对《音视频编辑合成技术》学习的兴趣的时候，教师要逐步引导学生学习掌握基本的理论知识以及操作方法。但是《音视频编辑合成技术》中专业的知识单凭教师的口述很难让学生把握教学的重点难点，甚至有的时候学生都不明白教师讲授的内容是什么。在这样的情况下，教师要想让学生形象生动地掌握《音视频编辑合成技术》课程中的各种概念以及具体操作方法，就要引入多媒体课件，教师边讲边让学生跟随在多媒体电脑上操作，这样通过直接演示操作步骤、形象生动地呈现编辑的结果及各种音视频的特效，对学生进一步理解理论知识，掌握操作方法，提升教学效率有着非常重要的意义。如，在“视频特效”一节的教学中，教师采用多媒体课件向学生展示为视频添加各种视频特效及各种参数调整的操作方法，呈现加入特效、参数调整前后的效果对比，让学生通过观察和动手实践，体会和掌握各种视频特效的实际效果和相关参数的作用、调整方法，提升对视频特效的领会和运用能力。在多媒体课件的辅助教学中，学生理解得更为透彻，学习起来也更得心应手，也会逐步克服对专业课程的畏难情绪，提高学习能力以及专业运用的能力。

2.教师采用多媒体教学和学生的实践操作相融合，将学生放置在课堂的主体地位

在《音视频编辑合成技术》的教学中，教师采用多媒体课件进行教学的时候，要摆正位置。教师要将课堂上大部分的时间交给学生，让学生能够在教师的指导下进行实践操作。教师要懂得多媒体课件的辅助讲解要科学合理的运用。如果教师在一节课中大量使用多媒体课件进行讲解而忽视了学生的实践操作也是不能达到教学目的的。教师要精讲，不必面面俱到，要适当预留学生探究的空间，然后让学生进行独立操作或者小组合作操作，提高学生的动手能力，让教学过程更具有科学性，让学生能够最大限度地利用课堂有效时间完成对教学任务的了解与认知，进而达到掌握方法、锻炼技能的目的。

3.教师要引导学生加大实例操作训练

教师为能够切实提高学生的实践技能，不但要采用课本上现有的实例操作进行教学，还要补充适合学生练习的大量的实例操作训练项目，让学生进行实际操作的训练，教师要让学生通过大量的实例操作巩固旧知识和学习新知识，让学生在实例操作中熟练掌握和提高操作技能。教师选取的实例操作中，要注意与市场接轨，根据市场对动漫制作专业的要求以及对音视频编辑合成技术的要求和动向，让学生在学习中有针对性地不断强化社会就业岗位所需要的专业技能的训练，让学生的专业技能学习以最快的速度与职业岗位的要求相接轨，以便让学生在毕业时能更好地胜任社会岗位工作。

三、合作学习，改变单枪匹马学习的状态，让学生在共同成长中取长补短

1.教师要引导学生通过合作交流学习和掌握各项技能

在《音视频编辑合成技术》的教学中，一些专业性较强的教学内容如果单凭学生自己独立思考，可能一时半会儿很难突破思维瓶颈。而这时如果几个学生交流探究，共同讨论得出结论，其学习效率要远远胜过学生的单枪匹马的故步自封。因此，教师要加强合作学习的训练，让学生学会合作学习，让学生在交流探索中互相学习，取长补短，逐步掌握并共同提高在音视频编辑合成的实际操作能力和技巧。教师要引导学生积极进入到合作学习的状态中来，让学生认识和体会到合作学习的好处，以便能够更好地进行合作学习。

2.教会合作，让学生体验成功的喜悦

首先，教师要帮助学生根据同组异质的原则自主结成合作小组，让每个学生都能从其他学生身上汲取到营养，都能在和同学的交流中有所收获。如，在“素材基本加工”的教学中，教师要让学生学会素材的加工，并通过小组协作探讨，培养学生获取信息、处理信息的能力，让学生通过小组的合作提高自己的合作能力，培养集体主义精神。学生在交流探讨中掌握了声音素材、图片素材以及视频素材的加工，在这个过程中体会到成功和被同学认可的喜悦，激发了自身的创造热情。

四、加强工学一体化教学，强化学生实践能力

教师在教学中要加强工学结合一体化教学模式的教学，既要让学生掌握好本门课程的相关理论知识，同时在这个过程中让学生能够在实际任务的操作中完成实践操作。教师要学生完成文化、专业和专业基础课学习以及基本能力的训练之后，在实践教学中引入工作任务，让学生更能按照客户的要求完成编辑合成的操作流程，制作完整的作品，然后再让学生通过小组合作的形式互相交流，比较优劣。这样，学生不但在模拟工作的时候能够最大限度地发挥各自的潜能，而且能够通过任务的完成，提升自身的音视频编辑合成的实际操作能力，提高其综合职业能力。

总之，生本理念下的《音视频编辑合成技术》教学，教师首先要将学生放置在教学的主体地位，准确把握每个学生所具有的特长以及教学生长点，引导学生逐步形成对《音视频编辑合成技术》的兴趣，让学生通过不断的学习掌握知识、技能，再在实践中加以运用，提高综合操作能力。

参考文献：

[1]胡德才.论宫崎俊的动画电影及其对我们的启示[J].今传媒，2010（10）.

[2]宋丽.浅析实验动画短片的材料应用[J].当代艺术，2011（03）.

联合音视频中的跟踪技术研究篇4

在人机交互研究中,说话人跟踪是一个很重要的课题,对它的研究主要分为两大类:说话人位置定位和说话人时间定位。说话人位置定位一般应用在视频会议系统和机器人系统等,一般采用麦克风阵列、粒子滤波的方法,通过音频、视频或联合音视频的方法找到说话人的位置信息。很多研究人员对说话人位置定位进行了研究;然而对说话人时间定位的研究的人却很少,而且一般只采用音频的方法,即首先对多媒体文件进行说话人改变检测,然后再为说话人建立模型,在每个说话人改变点处判断该说话人是否是要跟踪的说话人。这种方法容易的缺点是它只使用音频信息的方法,对多媒体文件中出现的每个人都要首先进行说话人改变检测,然后再为说话人建立模型,最后判决是否为跟踪的说话人。

针对多媒体信号中说话人时间定位研究中存在的问题,本文提出了联合音视频的说话人跟踪方法:首先采用视频信息确定要跟踪的潜在说话人,然后再使用音频信息对潜在说话人进行判决找到要跟踪的说话人。

1 说话人跟踪算法

1.1 算法思想

该算法主要有两大部分构成:潜在说话人跟踪和说话人判决。首先使用视频信息找到潜在说话人,然后使用音频信息对潜在说话人进行判决,完成说话人跟踪。

为了跟踪说话人,分别从多媒体文件中提取视频文件和音频文件。为了寻找潜在说话人,首先提取要跟踪的说话人的图像特征,然后在图像库寻找匹配的潜在说话人;为了对潜在说话人进行判决,首先为要跟踪的说话人提取音频特征,然后为说话人建立高斯模型,最后计算潜在说话人在此说话人模型下的概率。

1.2 基于视频特征的潜在说话人跟踪

在这里,对图像提取的特征是纹理特征,使用HCT(Hierarchical Cellular Tree)树对图片进行索引和检索,其中把欧氏距离作为特征距离函数。图1是HCT树及其结构。

从图1可以看出,在该树中,分为三层,最底层LEVEL 0负责管理所有的叶子细胞,它有6个细胞构成,包含了所有的图片(a,b,……v)。LEVEL 1层的细胞由LEVEL 0层的细胞核(b,d,a,e,c,f)组成,同样的LEVEL 1层经过细胞分裂而得到LEVEL 2层,即顶层。顶层只有一个细胞,细胞内的数据是下一层的细胞核(b,a,c)。当顶层的细胞越来越大,符合分裂的条件时(即细胞成熟并且不够紧密),顶层细胞分裂成两个细胞,这样就会产生了一个新的层LEVEL 3,该层由LEVEL 2的两个细胞核组成。

HCT树的层结构只负责管理属于本层的细胞。分裂阈值与本层中成熟细胞的紧密度相关,是动态计算的——每一次插入或删除数据的操作都会对细胞的紧密度产生影响,从而对分裂阈值也有影响。另外,HCT的层结构除了负责提供本层细胞分裂阈值和管理细胞分裂外,还需要负责管理查找细胞时查找队列。

1.3 基于音频特征的潜在说话人判决

假设? 是事先训练好的要跟踪的说话人高斯模型,s潜在说话人语音对应的特征矢量,则s在 ? 下的概率计算公式如下:

其中,p m( s ),m ?1,...,M为第m个高斯的概率密度函数。

其中,D为特征矢量的维数,s和 μ m为D维矢量, ∑m 为D ?D的方差矩阵。根据公式(1),计算所有潜在说话人在要跟踪的说话人模型下的概率,最终找到目标说话人。

2 算法评估

2.1 实验设计

本文使用中央电视台的《新闻联播》对本文的算法进行评估,它拥有世界上最多的观众,也是最有可能存档的电视新闻节目。在实验中,总共有8天将近4个小时的数据,其中2个小时的数据用于训练,另外2个小时的数据用于实验评估。对数据的处理格式为:音频为单声道的wav格式、16KHz的采样率和16bits的量化精度,提取的特征是24维的梅尔倒谱系数(MFCC),说话人模型中高斯数目为32;视频为20维的纹理特征。

在本实验中使用说话人正确跟踪率(Speaker PrecisionTracking Rate,SPTR)和说话人漏跟踪率(Speaker MissedTracking Rate,SMTR)对提出的算法进行评估,它们的定义如下:

其中,一次说话人次数是指在没有发生说话人改变的情况下,说话人连续出现的情况。

2.2 实验结果与分析

表1是分别使用视频信息和联合音视频信息的说话人跟踪实验结果。

从表1可以看出,联合音视频信息比单独使用视频信息在SPTR方面提高了33.65%,这说明对视频信息跟踪后的结果使用音频信息进一步的判决可以把误判的说话人去除,而在SMTR方面两者的结果是一样的,这应该是因为音频信息是对视频信息得到的结果进行进一步的判决,而在第一步的视频特征已经漏跟踪的说话人无法在第二步跟踪到;另外,本文提出的算法可以避免只使用音频信息需对说话人进行说话人改变检测和说话人辨别。

3 结束语

本文综合利用了音频信息和视频信息,提出了一个联合音视频的说话人跟踪算法。视频信息在本文算法中起着寻找潜在说话人的作用;音频信息用以对潜在说话人进行判决,完成目标说话人跟踪。实验结果表明,联合音视频信息比单独使用视频信息在说话人正确跟踪率方面提高了33.65%,在说话人漏跟踪率方面二者是一样的。

摘要：为了解决目前说话人时间定位的跟踪方法中只采用音频特征的缺陷,本文提出了一种联合音视频的方法:首先采用视频信息,确定要跟踪的说话人的潜在目标,然后使用音频信息对潜在目标进行进一步的判决,最后完成说话人跟踪。实验结果表明,该方法避免了只使用音频信息需要为每个说话人进行改变检测和判决的缺点,联合音视频信息比单独使用视频信息在说话人正确跟踪率方面提高了33.65%,在说话人漏跟踪率方面二者是一样的。

关键词：联合音视频,音频信息,视频信息,说话人跟踪

参考文献

[1]侯代文,殷福亮.基于粒子滤波的交互式多模型说话人跟踪方法.电子学报.2010.

[2]曹洁,李伟.基于正规化粒子滤波的说话人跟踪方法研究.兰州理工大学学报.2010.

[3]侯代文,殷福亮.等,基于拟蒙特卡洛滤波的说话人跟踪方法.自动化学报.2009.

[4]侯代文,殷福亮.基于分层采样粒子滤波的说话人跟踪方法.大连理工大学学报.2009.

[5]曹洁,李伟.一种改进的粒子滤波算法及其在说话人跟踪中的应用.小型微型计算机系统.2012.

[6]Maurice F.Fallon,Simon J.Godsil,Acoustic Source Localization and Tracking of a Time-Varying Number of Speakers,IEEE Transaction on audio,speech and language processing,2012.

[7]Andrey Ronzhin,Alexander Ronzhin,Viktor Budkov,Audiovisual speaker localization in medium smart meeting room,2011 8th International Conference on Information,Communications and Signal Processing(ICICS 2011):1-5.

[8]Axel Plinge,Daniel Hauschildt,etc.Multiple speaker tracking using a microphone array by combining auditory processing and a gaussian mixture cardinalized probability hypothesis density filter,2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2011):2476-2479.

[9]Alireza Masnadi-shirazi,Bhaskar D.Rao,Separation and tracking of multiple speakers in a reverberant environment using a multiple model particle filter glimpsing method,2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP2011):2516-2519

数字视频制播技术篇5

（一）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：数字电视节目后期制作系统与接口示教

四、实验目的

通过示教，了解数字电视节目后期制作系统的组成，各种接口的构造及性能，了解SDI信号的结构组成。

五、主要设备

VM700视频综合测试仪，DVW-500P数字录像机，DVS-2000数字视频切换台，DME-3000数字视频特技机，PVM-14M4E图像监视器，以及SONY实验室内有关的其他设备。

六、实验内容

1．讲解数字电视节目后期制作系统的组成及各种设备的性能。2．以录像机为例，讲解各种接口。

3．用VM700看SDI信号，讲解视频数据和辅助数据的结构。

七、实验步骤

1．系统设备：

介绍数字电视节目后期制作系统的组成，各种设备之间的关系以及相互的连接接口。

介绍系统中的各种设备的功能，具体包括以下内容：（1）录像机：编辑功能，内置信号发生器。

（2）编控器：主机及操作盘各按键的作用，同时控制多台录像机及其他设备。

（3）调音台：混音、调电平、配音、均衡、延迟的效果演示。

（4）切换台：主机及操作盘各按键的作用，快切、扫换、淡变、叠化、键特技（亮、色、图形）效果。

（5）特技机：主机及操作盘各按键的作用，视频/键信号，时间线编辑等效果。（6）字幕机：视频/键信号，字幕、图片、台标，用下游键DSK进行字幕叠加。

（7）同步机：提供REF（Reference）信号，黑场信号BB，视分功能。2．系统接口：

（1）BNC：Q9，模拟、数字、同步，输入环通功能。

（2）XLR：卡侬，平衡输入/输出，模拟、数字、时码，差分放大的共模抑制作用。LOW OFF:-60dBu 高阻，HIGH OFF:+4dBu 高阻，HIGH ON:+4dBu 600欧。

（3）RCA：莲花，非平衡输入/输出，家用视听设备。话筒/耳机插头（大三芯1/4英寸即6.35mm，简称6.5；小三芯简称3.5）。（4）S-VEDIO：S端子，Y/C分离。（5）RS-422A：9芯遥控。3．SDI信号：

（1）图像数据：黑、白、彩条。（2）填充数据Empty：C200、Y040。（3）定时基准信号TRS：EAV/SAV。

（4）音频数据AES（包括音频扩展、音频控制）：48KHz/20Bit，超出部分放入扩展。AES1的DID为2FF，AES2为1FD。

（5）错误检测处理数据EDH：插在5/318行，DID为1F4。

八、实验结果思考题

1．后期制作系统的控制中心是什么设备？可控制哪些设备？ 2． REF信号的作用是什么？可以使用什么信号做为REF信号？ 3．按输出质量的高低排列各种模拟信号接口，分别排列视频和音频。4． SDI信号中最多可嵌入几组AES数字音频？每组AES数字音频可传几路模拟音频信号？

执笔人：王世平

实验室主任：

系主任：姜秀华 “数字视频制播技术 A”实验指导书

（二）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：构建二对一电视节目编辑制作系统

四、实验目的

通过实验，全面掌握二对一编辑系统的构成和搭建方法，了解并学会系统中各设备的简单使用方法。

五、主要设备

AJ-D440放像机两台，AJ-D455录像机，PVM-14N6E图象监视器两台，AG-A850编控器，DFS-300P特技切换台，1202-VLZPRO调音台，SOBEY-8000字幕机，TSM-61波形监视器，SMS-1P监听音箱。

六、实验内容

搭建起一个AB卷编辑系统。搭好后通过简单使用各设备验证系统搭建是否正确，各种功能能否正常使用。

七、实验步骤

1．分四部分搭接：控制线、同步线、视频线、音频线。

2．注意输入口环通的75欧终接，字幕机的两条线V和K。监1监视P1和P2的图像声音，监2监视录机和作为切换台输出的主监。示波器监视切换台主输出信号幅度。音箱监听调音台主输出。

3．系统搭好后，检查编控器的编辑功能，切换台的特技切换和下游键功能，字幕机字幕叠加功能，调音台的调音功能，各监听监看及波形监视功能。

八、实验结果

画出详细系统图。要求接线分别用4种不同颜色或形状画线区分。详细标明设备型号及接口名称。最后总结发生过的问题及解决方法，若无发生问题总结有何收获。

执笔人：王世平

实验室主任：

系主任：姜秀华 “数字视频制播技术 A”实验指导书

（三）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：数字电视节目后期系统功能示教

四、实验目的

通过示教，了解并学习使用数字电视节目后期系统各设备的各种功能，为下次实验动手操作做好准备。

五、主要设备

SONY实验室数字电视节目后期制作系统。

六、实验内容

编控器、调音台、切换台、字幕机、特技机的使用及如何将模拟音频转为数字音频以便配音配乐。

七、实验步骤

分别演示以下功能。

1．录像机：遥控开关及输入选择、监听选择。

2．编控器：编辑方式，编辑点，预演及回看，同时控制多台录像机CTRL+。3．调音台：输出分配、监听选择，配音、均衡、延时。按所选通道ACCESS键：TRIM输入衰减、PAN声像定位、DELAY延时、EQ频率均衡。

4．切换台：重点是输入信号分配、键信号分配、特技入/出信号分配。快切、扫换、淡变、叠化、键特技（亮、色、图形、下游）。

（1）WIPE划像：多倍Multi、调制Modify、比率Aspct。按住TOP MENU中对应WIPE键3秒复位。

（2）MIX混叠：普通混Mix、非相加混Nam mix、超级混Super mix。（3）CCR彩色校正：MISC-F5(CCR)-F6(MODE)-BUS-反复按F3选择母线。

-F6(MODE)-INPUT-按住F2(BOTTON)同时按AUX BUS中键选输入。校正后按UNITY复位。

5．特技机：时间线编辑（关键帧插入、取消、时间设定）。（1）BKGD&EDGE背景与边缘：色调旋转、混色、切割、加边。（2）FREEZE&RECURSIVE冻结与循环：画面冻结、抽帧，运动拖尾。（3）PICTURE MODIFY画面修改：多画面Multi move、虚焦Defocus、模糊Blur、闪光Glow、立方体。

（4）VIDEO MODIFY视频调整：海报Poster、负像Nega、黑白Mono、马赛克Mosaic、亮色调整、遮挡Mask、素描Sketch。

（5）NONLINEAR非线性特技：波浪Wave、涟漪Ripple、龙卷风Rings、分裂Split、镜像Mirror、翻页Page turn、卷页Roll、球面Sphere、扭曲Twist、爆炸Explosion、漩涡Swirl、百叶窗Blind、万花筒Kaleidoscope、熔化Melt。

（6）LIGHT EFFECT照明特技：条、圆、平面效果Lighting，图案效果Spot lighting、光源移动效果Target lighting、位置移动效果Target spotlighting。

6．字幕机：字幕制作与播放、上滚与左飞，图片、台标。7．使用DMA-2000音频转换器将模拟音频转为数字音频。

八、实验结果

以切换台为中心，画出输入/输出信号走向，标明所对应的通道编号。周边设备只画3台录像机和特技机、字幕机。

执笔人：王世平

实验室主任：

系主任：姜秀华 “数字视频制播技术 A”实验指导书

（四）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：数字特技节目制作实践（综合性、设计性实验）

四、实验目的

培养学生动手操作能力，促进学生深入理解传统的数字特技制作系统的结构、工作流程、视频切换台上“级”的概念以及视频切换台与数字特技机之间的工作关系。

五、主要设备

DVW-500P录像机，DVW-A510P放像机，BVE-2000 编控器，DVS-2000切换台，DME-3000特技机，DMX-E2000调音台，9000MIX字幕机，PVM-14M4E 监视器，PDW-1500 光盘录像机，PDW-530P光盘摄录机，DVD8200影碟机，BB-5同步机（12路黑场），DMA-2000音频转换器，MU-A200功放，Hi-Vi RESEARCH音箱。

六、实验内容

通过编控器、调音台、切换台、字幕机、特技机的使用，要求录制5分钟左右的节目。包含切换台和特技机的各种功能效果演示（每台设备至少10种以上），每种功能效果都要叠加文字说明，图像始终叠加本组的LOGO（台标），要加片头片尾字幕，节目要配背景音乐，也可加配一段解说或同期声。

七、实验步骤

实验人数8人/组，两人负责操作数字视频切换台，两人负责操作数字特技机，两人负责操作字幕机，一人负责调音台，一人负责编控器（编辑机)。

1．负责操作数字视频切换台的要求：

实现的特技效果要求：快切、混合、划像、键控以及下游键的使用。其中：（1）划像要求完成三种以上划像效果，包括划像图像边缘的处理（软边、加色框的边）、调制划像等；

（2）键控特技要求至少完成亮度键、色键、线性键以及两个键控信号的同时使用，亮度键需完成自键与外键两种方式，色键需完成自动调节与手动调节方式，线性键需画出键源信号与键信号（不好画出，最好拍下来放在实验报告中），；

（3）下游键要求完成快切、混合与键控效果；

（4）以上效果的完成体现在实验报告中的是说明每种效果的实验步骤与结果。

2．负责操作数字特技机的要求：

（1）二维2D特技效果，位置POSITION变化效果：调整水平H参数、垂直V参数、大小SIZE参数，拉伸/透视Skew/Perspective效果：调整水平、垂直参数，形成图像的拉伸；

（2）三维3D特技效果，调整图像帧在三维轴向的变化；图像旋转效果：可调整水平、垂直和深度轴向参数H ROT、V ROT、Z ROT；边缘BORDER/裁切CROP。分别调整四周边缘参数LEFTRIGHTTOPBOTTOM，加边框或剪裁图像。边缘彩色可调整饱和度、色调、亮度。

（3）彩色校正（数据处理效果），变化出油画、负片、版画等彩色特技效果。（4）图像冻结效果，完成两种图像冻结方式，一是定帧Freez方式，可以冻结一场或一帧图像；一是抽帧Strob方式。抽帧的效果是间隔几帧定格图像，再抓取新图像，间隔率Rate表示间隔的长度，冻结百分比%Frozen表示在间隔时间里，活动图像和冻结图像部分的分配，例如：设定Rate为10帧，%Frozen为50%，此时，表示每10帧抓取1次图像，5帧活动图像，5帧定格图像。抽帧的画面具有跳跃的视觉效果，适于表现动感和节奏。

（5）光源效果，完成三种光源类型有（光源、条形光源和面光源）的两种，并调整相关参数。

（6）三维曲面图像效果，完成warp选项中的三种非线性的效果，例如：卷页、球体、波纹、圆柱、分裂、镜像等。并调整相关参数。

（7）关键帧和时间线编辑，设置存储关键帧参数，将独立的效果组合，按照起幅、落幅逐帧存储在时间线上，将每一个关键帧的变化串联起来，形成连续的变化，即特技效果。使用按键INSERT NEXTDELETEMODIFYUNDO KF EDIT，可以进行键帧参数的设置、编辑，还具有参数复制、移动的功能。使用时间线控制按键PREVIOUSSTOPNEXTRUNPAUSE，可以进行关键帧之间的检查和运行。特技效果可以存储和调用。（8）以上效果的完成体现在实验报告中的是说明每种效果的实验步骤与结果。因为效果较多，配合的同学可各写一半。

3．负责操作字幕机的要求：

（1）字幕基本参数的调整，艺术字、字体、大小、材质、字边缘、字光感、加阴影、立体感等；

（2）字幕播出方式，滚屏播出，卷页播出，左飞或右飞播出，卡拉OK播出等等；

（3）各种图形的制作，例如，台标、标准LOGO的制作等；

（4）以上效果的完成体现在实验报告中的是说明每种效果的实验步骤与结果。

4．负责操作编控器的要求：

（1）画出或拍下编辑数据菜单显示图，说明由哪几部分组成以及每部分的作用；

（2）实现对录机、放机以及视频切换台、数字特技机的编辑控制，至少实现一种两种画面的混合效果控制；

（3）使用组合编辑编辑画面，使用插入音频编辑配背景音乐。（4）写出整个编辑实现的步骤以及结果。5．负责操作调音台的要求：多路声音效果的合成输出；

（1）实现某路声音的均衡调节以及该调音台所具有的其他声音处理功能；（2）将CD音乐转换成数字音频，使用调音台配乐。

（3）以上效果的完成体现在实验报告中的是说明每种效果的实验步骤与结果。

八、实验结果

说明自己在实验中所使用设备的型号、功能及使用方法。自己怎样操作并实现了怎样的效果，总结实验后的收获。

执笔人：王世平

实验室主任：

系主任：姜秀华 “数字视频制播技术 A”实验指导书

（五）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：演播室系统示教

四、实验目的：

通过实验，全面了解数字演播室系统的基本构成及各部分的主要功能；了解数字演播室系统的信号流程；掌握数字演播室系统的节目制作流程。

五、主要设备

摄像机、录像机、视频切换台、调音台

六、实验内容：

1．了解数字演播室系统的基本构成及各部分的主要功能 2．结合演播室系统框图讲解信号流程 3．介绍数字演播室的特点

七、实验步骤

1．讲解数字演播室系统的基本构成及各部分的主要功能 2．结合演播室系统框图讲解信号流程 3．介绍数字演播室的特点

4．介绍数字演播室节目的制作流程及制作工艺 5．分组实践操作

八、实验结果：

能够简要画出演播室视频系统框图。

执笔人：王世平

实验室主任：

系主任：姜秀华 “数字视频制播技术 A”实验指导书

（六）一、实验课程编码： 103004

二、实验课程名称：数字视频制播技术 A

三、实验项目名称：视频制作网络系统的认识和使用

四、实验目的

培养学生动手操作能力，促进学生深入理解视频制作网络的结构、工作流程,并帮助学生掌握利用视频制作网络来制作包装电视节目的技术。

五、主要设备

大洋实验室视频制作网络系统。

六、实验内容

介绍视频制作网络系统的构成。操作管理视频制作网络的管理软件，演示网络播出系统的工作流程，在视频制作网络上完成一个节目的制作(电视节目编辑、增加各种特技效果与字幕)。

七、实验步骤

1.介绍系统：HP服务器、有卡工作站、磁盘阵列、以太网交换机、光纤交换机。

（1）双网结构：FC网用于实现高码率数据在各精编工作站与在线存储体之间的高速数据交换。以太网用于系统管理，并可提供低码流MPEG-4素材的传输、调用。

（2）压缩格式：MPEG2 I Frame作为高码流素材的压缩格式，可选50Mbps和25Mbps两种码率。低码流素材采用MPEG4的压缩格式。

（3）存储系统：使用美国EDI公司的EDI6000产品，配置双电源、双控制器，采用RAID技术，共开2个1Gb主机端口，提供100MBps全双工理论读写带宽。双控制器模式下，实际写带宽可达87MBps、实际读带宽可达57MBps。EDI6000具备12个硬盘槽位。本系统中配置12块73GB硬盘，其中包含2块数据校验盘,总容量876GB，有效容量730GB，能够存储50Mbps码流的MPEG2素材约33小时（每小时MPEG2 50mbps码流素材约占用22GB硬盘空间），能够存储25Mbps码流的高质量素材约66小时。

（4）交换系统：美国VIXEL公司的采用高性能的VIXEL7100 8端口1Gb光纤交换机。Cisco公司3500系列以太网交换机，配置为24个100Mb端口和2个1000Mb端口，可以直接与服务器的1000Mb以太网口相连。

（5）服务器：配置2台主备MDC网络服务器，兼作主备数据库服务器。通过Sanergy集群软件实现MDC高可用、热备切换。数据库服务器采用了先进的双机容错技术（即服务器集群技术），保证高可用性。两台服务器均分别连接到以太网交换机上又分别连接到FC交换机上，如此的冗余连接方式保证了任何一台交换机故障情况下网络数据访问仍然能够正常进行。

（6）工作站：本系统中配置了2台有卡工作站和1台配音工作站、12台无卡编辑工作站、2台DV编辑工作站，采用加拿大Matrox公司的LX视音频处理卡，支持SDI输入输出。音频处理卡采用Digigram PCX440 np，支持数字音频输入输出

2.使用系统：编辑一个1分钟短片，要求有特技转换和字幕，有一段经特技处理的视频图像。

八、实验结果

画出系统图，标明设备型号及功能。总结线编与非线编各自的优缺点。

执笔人：王世平

实验室主任：

音视频技术篇6

关键词：物联网；平台；技术

中图分类号：TP391.41 文献标识码：A 文章编号：1674-7712 （2014） 04-0000-01

跟随着计算机网络、互联网的发展，物联网的技术也在慢慢的发展起来，越来越变得人们关注的焦点。长时间以来，物联网技术也应用到视频监控中去，高科技的引入导致传统的视频监控一系列的问题暴露出来，而人们的生活在安全防范上意识更强，为了人们在社会中有安全的防范，国家对视频的监控构建了物联网视频平台，对视频的分析更加的智能，高科技技术也慢慢走近人群、慢慢满足人们的需求。

一、高科技技术物联网的阐述

（一）物联网的介绍及特点。在计算机网络、互联网的基础上，延生出一种物联网的高科技的东西，在现实生活中，我们已经了解到计算机互联网网络时代给人类带来的很多益处，在其他国家发生的重大事件通过互联网我们就可以了解到，对于朋友和亲人想要见到一面，我们可以通过互联网得以实现，对于物联网是在互联网的基础上而发展的，可以想象它的功能之强大。通过射频识别、信息传感的物联网技术来传感设备，按照规定的技术、标准，通过一定的协议，将所需要的物品与互联网进行连接，并将物体进行对比，查看出异同，将比较的物体实物和虚物给以特定的编码，通过高科技技术的智能分析，将进行分析出来的信息进行分享，以此来达到对物体的识别、监视、确认、追踪等一系列的有效管理。在视频监控中这是一项非常重要的工作，有些不良分子为了扰乱社会秩序，什么样的事都能做出来，为此，采用此项技术可以很快的对这些非法分子进行控制，以此来达到社会的安定，维持人们的正常生活。物联网技术是在人类的综合水平之上，是一项比较智能的高科技技术，通过事物的高效率信息进行交换，把现实生活的实际物理空间与物联网的信息相融合，进行融合之后再对物体进行确认，具有快速、高效、捕获、处理以及更多的功能，它的特点就是可以通过射频的识别、信息的感知，可以任何时候对物体进行比较和感知，在它的一系列技术完成后，综合互联网的各种智能技术对物体进行分析出来的信息进行分享，最终实现智能化的管理和控制。

（二）物联网的发展史。“物联网”是国际电信联盟在2005年信息社会世界峰会上提出的，物联网概念的提出，在社会的每个角落里，信息的传递从人与人之间的传递变换为人与物或其他事物进行传递，在物联网的通信时代，人们日常生活中已经引入了一种近距离的收发器，这给人们的生活带来了极大方便。经过这些年的发展，在计算机互联网的基础上发展起来的物联网已经在飞速的发展，在每个领域里应用更为广泛，在国家与国家之间，此项技术已被应用，特别是在一些发达的国家，他们已经把物联网的高科技技术应用得很熟练，在物联网技术信息传递中已提高了很多的效益，减少了一些工作量，较低了成本。跟随着时代的进步，物联网的技术已不断在更新，信息传递方面越来越精确，许多发达国家已经对物联网技术开展了一系列有意义的活动，在活动要求不断的创新、不断的精确，让物联网技术慢慢的潜入人们的生活，随着人们对安全防范的需求，此项技术也在不断的满足人们的要求。在中国这个地大物博的领域里，我们国家对物联网技术的研究比较重视，对它的研究也是比较早的，国家该科技人才的培养上也是十分重视的，只有具备一定的先进科学水平和具体较高的能力，这个国家才能富强，人民生活才能提高。

二、对物联网视频平台关键技术的分析

（一）通过射频识别技术。在视频监控的过程中，要通过一定的设备来对物体进行识别，而这项技术称为射频识别技术，这项技术的系统有三种系统组成，分别为RFID电子标签系统、读写器系统、信息处理系统，射频识别技术在物联网高科技技术中是一个非常关键的技术，系统中的电子标签系统通过读写器对信息的进行处理，而空气中的无线电磁波可将标签中识别的信息传到读写器里进行处理，还有信息系统也可以进行处理，在完成这一系列的复杂的措施后，设备会将信息进行智能化的分析，进行高效的智能化管理，每一个标签就只有唯一的识别码，所以这项技术比较智能化，也能更好的为人民服务。

（二）传感设备的技术。在信息与信息之间、人与人、人与物之间都需要信息的传递进行交流，而传感器设备所拥有的技术就是为人们服务的，传感技术依赖于传感器设备和互联网之间，在互联网和传感器传感技术进行感知、确认，在物联网网络覆盖的区域内传感技术都会感应到，并对信息进行有效的收集然后进行有效的处理，传感器通过传感技术将被测到的信息转换成可用的信息，传感器设备的利用是非常广泛的，包括各种领域、行业，都有利用到此设备，包括军事、国防等。传感器技术综合了各种网络技术，包括网络无线通信技术，网络无线通信技术是物联网基础通道，是物联网提供信息传递和服务信息的通道，有着很大的作用，而传感器技术通过与网络通信技术的结合，增强了互联的功能，我们知道物联网是从计算机互联网时代基础发展起来的，所以物联网的一些技术是离不开网络通信技术的，以此传感器的通信技术的领域会越来越宽，通过各种高科技技术的配合，传感器技术具有效率高、稳定性高的特点，而对于其他的一些细微的技术在大部分功能上都是在为这些主要的关键技术服务，针对以射频技术、传感技术、网络通信技术为核心的高科技技术，科学家在研究的过程中也在不断的创新。

三、结束语

物联网的发展是社会发展推动发展的，就像如今的生活，电子产品在一代代的更新，新的取代过时、落后的，而物联网技术也是如此，在计算机网络互联网时代发展起来的，已引起国际上的关注，这必将是新一代的信息产业。然而，尽管物联网技术的大力发展，我们也要了解到它本身存在的一些问题，毕竟对此项技术才刚刚起步，所以在这个发展的过程中是很漫长的，所以只要人们通过不断的努力，通过此技术应用到视频监控中去，相信人们的生活会越来越好。

参考文献：

[1]冯晓媛.关于RFID的物联网研究与应用[J].鸡西大学学报，2011（03）：132-133.

音视频技术篇7

传统的高清音视频编码器一般带有多个网口, 内部具有不带AVB的网络交换芯片, 但这种设备在音视频网络传输上不太理想, 在网络状态出现波动时存在视频卡顿等现象。在这种情况下, 我们需要以流媒体技术和现代网络交换技术为基础, 设计一种真正适合音视频传输的音视频编码器, 它必须符合流媒体传输所特有的连续性、实时性与时序性的要求。

流媒体是指在网络上严格按时间先后次序传输和播放的连续音、视频数据流。流媒体作为特定意义的数据流, 它有一些独特的特点:一是连续性 (continuous) , 二是实时性 (realtime) , 三是时序性 (time-ordered) 。实时性和质量是流媒体的关键问题。为了保证时延和质量, 网络必须提供足够的带宽资源, 而资源的保证又依赖于许多其他的控制。音视频等对时间延迟非常敏感, 但能容忍某种程度的错误 (人类视觉冗余度所能接受的) ;网络文本数据等非实时媒体, 则更注重无误的传输, 而在时间上的适度的延迟是可以接受的。

IEEE 802.1 AVB工作组致力于制定一系列的新标准, 对现有的以太网进行功能扩展, 主要有精准时钟步协议802.1AS (Precise Timing Protocol) , 流预留协议802.1Qat (Stream Reservation Protocol) , 队列及转发协议802.1Qav (Queuing and Forwarding Protocol) 。通过建立高质量、低延迟、时间同步的音视频以太网络, 为家庭或企业提供各种普通数据及实时音视频流的局域网配套解决方案。基于以上分析, 重新设计一种基于Ethernet AVB技术适合音视频传输的编码器显得十分必要。

2 设计方案

本文采用MARVELL®88e6320是一个单芯片集成7个千兆以太网端口及两个的千兆以太网收发器的交换芯片。该芯片支持最新的IEEE 802.1音视频桥接 (AVB) 标准的802.1AS、802.1AS、802.1AS协议, 这些AVB技术预留网络资源用于传输流和支持精确的流同步, 通过这些AVB协议将音视频发送到一个低延迟和服务保证鲁棒性的以太网网络上。

2.1 硬件设计

高清视频编码器采用海思编码芯片作为主处理器, 完成视音频压缩编码及ARM嵌入式linux系统, 设备具有多路1080P高清输入接口, 多个以太网接口。系统的结构如图1所示。Hi35XX的GMAC接口与88E6320的port6口间通过RGMII接口互联, 如图2所示

2.2 网络功能设计

M A RV E L L®8 8 E 6 3 2 0包含影响所有的音视频桥接 (AVB) 功能的全局寄存器。这些寄存器通过AVBCommand和AVBData寄存器来访问。通过使用各种AVB块AVBBlock值访问以下3个全局AVB寄存器:0x0=802.1AS精确时间协议 (PTP) 和时间的应用程序接口 (TAI) 寄存器;0x1=802.1BA音视频桥接 (AVB) 策略寄存器;0x2=802.1Qav寄存器。

经过设置上述3类寄存器, 开启网络的AVB功能, 保证高品质视频实时传输 (高带宽, 低时延, 低丢包率) 。

该编码器交换功能在硬件上合并, 逻辑上分开, 同时有完善的单/组播, 流量访问控制、速度限制、远程管理等智能管理功能。

3 测试对比

音视频技术篇8

音频视频信号切换器是广播电视远程监控系统的重要组成设备之一[1],它与智能信号采集器、智能电视信号监测报警器[2]等,作为远程监控系统的前端设备。电视台播出电视信号时,常因为设备故障、自然气候影响或人为失误等原因造成输入到发射机的图像信号衰落或中断,这对安全优质播出和发射设备将产生不良影响。音视频自动切换器具有多路信号源输入,能在主信号衰落或中断时自动切换到备用信号上,以保持视音频切换器视频输出到发射机的信号的连续性,并同时告警,提示值机人员检查和排除故障。主信号恢复时,该电路又能自动将视频输入切换回到正常播出主信号位置,确保达到广播电视系统安全播出的需要。

传统的音视频切换器通常采用485或232接口与监控中心进行通信[3,4,5,6,7],容易受到发射机房内大功率射频信号和其他高频信号的干扰,特别是在中波机房,这种干扰更为严重。本文采用ENC28J60网络接口芯片,基于TCP协议实现切换器与监控中心的远程通信,通信可靠性高,抗干扰能力强。

1 系统的总体结构与功能

音视频信号切换器由单片机、音频切换电路、视切换电路、网络接口电路、显示及键盘接口电路和时钟等部分组成。系统的总体结构如图1所示。

系统的主要功能如下:

1) 具有4路音频和4路视频输入,并在单片机的控制下,实现4路音频视频信号的切换。

2) 具有手动切换和自动切换两个工作状态。

3) 手动切换时,可在直接在面板上进行操作。

4) 自动切换时,系统能自动检测各路输入信号的状态,若主信号出现故障时,能自动切换到正常的备用信号。

5) 具有网络通信接口,与监控中心主控计算机进行通信,并接受监控中心的控制和查询。

6) 面板上设置有电平和故障状态显示,能直观显示输入信号和输出信号的状态。

7) 面板上设置3个功能键和8位LED数码管显示,能设置和显示设备的内部参数和实时时钟。

8) 内置工作时间表,在工作时间内能自动产生故障报警。

2 音频信号检测与切换原理

音频信号的检测与切换电路由音频放大、音频多路选择开头、峰值检波、音量控制和单片机等部分组成,如图2所示。在发射机房内,通常每个频道除了具有一路主播出信号源外,还具有1～3路备用信号源。

音频信号检测原理如下:音频信号经NE5532放大后,送到峰值检波电路进行检波,得到其对应的平均直接分量,送到单片机,由单片机内部的AD转换电路转换成对应的数字信号,作为音频检测的基本状态信息。一般根据该电压值的大小,就可以判定音频信号是否有故障。但由于广播电视节目,特别是电视节目中,经常会出现较短时间(20 s以内)的安静(无声)的场景或画面,这时虽然电路上检测不到音频信号电压,但不希望产生误报警,所以需要通过单片机进行特殊处理,可以在软件上增加一个时间计数器,只在出现连续20 s以上的静音,才确认为音频故障,并触发报警和进行备用信号的切换。

音频信号的切换电路主要由多路选择开头MAX309、音频放大NE5532和音量控制DS1808等部分组成。MAX309是一种精密、双四通道的高性能COMS模拟开关,具有两位的地址选择端,双极性(±5～±15 V)电源供电,导通电阻小于100 Ω,适合用于具有双极性特性的音频信号的切换,MAX309的A0和A1引脚为通道选择地址输入端,可通过单片机来进控制,其逻辑功能如图3所示。DS1808为双通道的数字电位器芯片(如图4所示),具有I2C接口,一条I2C总线最多可以并联8片DS1808芯片,通过A0,A1,A2这3个引脚来设定芯片地址;其中W0,W1为数字电位器的中间抽头。

3 视频信号检测与切换原理

视频信号检测最常用的方法是对同步信号进行检测,通过对黑电平进行钳位,再采用同步分离电路分离出行、场同步信号,并判断同步信号的有无来确定视频信号的有无。该设计选用美信公司的MAX7452来实现视频信号的放大及视频故障检测。MAX7452内部具有视频AGC放大和同步信号检测功能,LOS引脚为同步信号丢失检测输出信号,高电平有效,单片机读取LOS信号确定对应视频输入信号是否正常[2]。

视频信号切换电路由MAX4314、MAX7452和单片机组成,如图5所示。与音频信号不同,视频信号为单极性、6 MHz宽带信号,工作频率较高,其切换电路采用MAX4314来实现。

MAX4314为高速、低功耗、单电源、多通道的多路视频放大器,主要特性如下:

1) 电源取+4 V～+12 V;

2) 3 dB带宽,150 MHz;

3) 通道切换时间为40 ns;

4) 通道间的增益误差为0.06%;

5) 通道间的相位误差为0.08°;

6) 输出阻抗为150 Ω。

MAX4314具有A0,A1共2个通道选择端,可连接到单片机IO端口,由软件来控制通道切换。典型应用电路如图6所示。

工作过程:视频输入信号经MAX7452进行放大,送到MAX4314输入端,同时MAX7452输出LOS同步丢失信号到单片机,由单片机处理后向MAX4314的A0和A1通道选择引脚发出相应的控制信号,实现视频信号切换,再经末级的MAX7452进行驱动放大并输出。

4 键盘与显示电路

键盘电路比较简单,只需3个按键分别实现UP,DOWN,OK功能,通过3个独立的IO端口进行连接。

显示接口可分为3个部分:时间及参数显示、电平指示和故障状态指示。其中,时间及参数显示由8个共阴极数码管(GF5461AS)组成;音频信号的电平指示由4个8位的LED光柱(HXA2010HB)组成,在工作状态下,光柱随着音频信号电平大小而变化,能直观地反映电平变化情况;故障状态指示用于显示4个通道的音频和视频信号是否正常,由8个独立的红色LED发光二极管组成,每个通道使用2个LED分别显示音频和视频状态,有信号输入时,不显示;无信号输入时,LED发红光表示该通道有故障。

不难看出,显示电路中涉及到3种显示器件,如果采用单片机的IO口直接控制,按照8段13位动态扫描进行驱动,需要使用单片机的21个IO端口,不仅造成显示面板和单片机主控板之间的连接比较复杂,而且占用的IO端口过多。为了简化电路结构,实际的显示电路由2片CH452A实现显示驱动,并通过I2C总线与单片机相连,其中一片CH452A驱动8个LED数码管,另一片CH452A则驱动4个8位的LED光柱和8个独立的LED发光二极管,电路结构简单,易于实现。显示接口框图如图7所示。

CH452A是专用的数码管显示和键盘扫描控制芯片,内置时钟振荡电路,可以动态驱动8位数码管或者64只LED,具有BCD译码、闪烁、移位、段导址、光柱译码等功能;CH452A通过I2C接口与单片机连接,一个单片机可以驱动多个CH452A芯片,CH452A的ADDR引脚用于静态选择CH452的设备地址,可以将2个CH452A接到并联同一I2C总线上,并将其中一个CH452A的ADDR接低电平,另一个CH452A的ADDR接高电平,使它们都具有不同的设备地址。

5 网络接口电路

网络接口实现单片机与以太网的连接,实现对音频切换器的远程监测与控制功能。网络接口电路由ENC28J60与HR911102A实现[8]。ENC28J60具有SPI及可编程过滤功能,8 kbyte的双口SRAM,支持半双工和全双工通信模式,传输速率最高可达10 Mbit/s, 兼容IEEE802.3协议标准;HR911102A是内置有以太网隔离变压器的RJ45网络模块。Mega64单片机具有SPI接口,Mega64的SS,SCK,MOSI,MISO,INT2引脚分别接到ENC28J60的CS,SCK,SI,SO,INT等引脚,电路结构如图8所示。

6 软件设计

音视频信号切换器的软件由设备端控制软件和远程管理软件两部分组成。

设备端控制软件主要完成设备工作状态的初始化;检测音频、视频输入状态是否正常,并能实现自动切换;检测各通道是否在工作时间表的工作时间内;通过网络接口接收上位机的命令和向上位机传送各种工作状态和数据;扫描面板按键以及控制面板显示等任务。设备端控制软件在ICCAVR-V7.22集成开发环境下进行编写,采用C语言进行编程,ENC28J60网络接口的编程是该设计的难点之一,由于受单片机内部存储器资源的限制,单片机上的TCP/IP通信一般不能集成完成的TCP/IP协议,而必须在保证数据通信需要的前提下,裁剪部分不需要的功能,才能在单片机环境下运行。同时,为了方便修改远程设备的网络通信参数,该设计还增加了一些通信协议,基于MAC地址作为标识,实现远程设备的IP地址、通信端口等网络参数远程修改,图9为采用Build C++6.0开发的远程设备网络参数配置软件运行界面。网络通信的调试使用Wireshark-1.4.0RC2软件,Wireshark是一个网络封包分析软件,利用该软件可以撷取网络通信双方的数据包,并尽可能显示出最为详细的网络封包资料,对进行AVR单片机网络接口的程序开发大有帮助。

上位机管理软件是基于Builder C++6.0进行设计,主要模块有:一是远程设备工作状态的监控界面的设计;二是远程设备工作参数设置界面设计;三是网络通信模块的设计等。上位管理软件有两种形态,一种是独立监控形态,仅用于单一的音频、视频设备的远程监控;另一种是内嵌于广播电视发射机远程监控系统中,与发射机的采集器、环境采集器、广播电视调谐器等集中进行管理和监控。

7 设备的测试方法

设备的测试包括以下几个方面:音频、视频信号的手动切换;音频视频的自动切换;面板显示状态;网络远程通信功能的测试、远程控制命令和工作状态的测试;音频、视频信号质量的测试等。所需要的仪器有视频信号发生器、音频测试信号发生器、音频信号失真测试仪、视频信号显示器等。

测试方法和步骤:1) 开机后,先观察面板显示是否正常,操作面板的按键,查看各按键的操作是否能正确响应。2) 连接视频信号和音频信号到CH1输入对应输入端,操作面板选择自动切换模式,设备的音频输出接到音频信号失真测试仪和音箱,视频输出端接收视频监视器,观察信号是否正常。3) 将CH2～CH4均输入音频和视频信号,此时应该输出CH1的信号,然后顺序撤除CH1～CH3等输入信号,观察设备自动切换动作是否正确。4) 通过网络端口,与上位机进行连接,并运行上位机管理软件,设置好网络通信参数,观察设备与上位机的通信是否正常。5) 将设备放置于发射机房等具有强电磁干扰的环境下,进行网络通信可靠性的测试。

8 结束语

本文以MEGA64单片机为核心,以ENC28J60为以太网接口实现了智能音视频切换器的设计,经过长达半年的研发测试,并在多个发射台站进行一年多的实际应用,结果表明,该系统功能和可靠性达到设计要求,而且以太网接口的应用,能很好地解决以前使用RS485或RS232串口通信方式时,在发射机房环境下通信容易受到干扰的问题。

摘要：提出一种带以太网接口的智能音视频切换器。该系统以Mega64单片机为核心,实现了4×1的音频、视频信号监测和自动切换输出。通过以太网接口连接监控中心,实现远程参数配置和监控功能。同时,该系统在无上位机时,可独立工作,灵活性较好。

关键词：音频切换,视频切换,视频监测,音频监测

参考文献

[1]聂雄,黄斌全.广西广播电视发射台远程监控系统的设计[J].电视技术,2011,35(22):78-81.

[2]聂雄.智能电视信号监测报警器的设计[J].电视技术,2011,35(4):33-36.

[3]杨华.电视信号的一种切换控制系统设计与实现[J].电视技术,2008,32(7):74-75.

[4]黄华灿.可任意扩展的视音频切换器设计[J].电视技术,2002,26(5):62-64.

[5]刘国春.视音频智能切换开关[J].山西电子技术,2009(6):76-77.

[6]何英慧,曹德新.在视音频切换器上加装视频自动切换报警电路[J].电视技术,1999,23(8):69-70.

[7]陈更俭,刘云翔,杨卫红.四选一视音频切换器的技术改造[J].中国有线电视,2005(6):574-579.

视频编码技术研究篇9

近年来,视频编码技术得到了迅速发展和广泛应用,并且日臻成熟,其标志是多个关于视频编码的国际标准的制定。其可分为两大系列:即国际标准化组织(ISO)和国际电工委员会(IEC)的运动图像专家组MPEG(Motion Picture Expert Group)关于活动图像的编码标准MPEG系列,以及国际电信联盟(ITU)的视频编码专家组VCEG(Video Coding Expert Group)制定的视频编码标准H.26X系列。

H.261,H.263,MPEG-1,MPEG-2等视频编码标准已经应用多年,可以称为第一代的编码标准。H.264,MPEG-4等新一代编码标准可以称为第二代编码标准。

2. 视频编码方法

2.1 预测编码

预测编码可以在一幅图像内进行,也可以在多幅图像之间进行。预测编码实际上是基于图像数据的空间和时间冗余特性,用相邻的已知像素(或图像块)来预测当前像素(或图像块)的值,然后再对预测误差进行量化和编码。

2.2 变换编码

变换编码的目的是对解相关变换系数进行量化和编码操作,著名的变换技术离散余弦变换DCT使用在JPEG和MPEG标准上,离散小波变换DWT使用在MPEG-4和JPEG2000标准上。DCT是以8×8大小的像素块为单位的,DWT是以帧为标准的方式。对于视频压缩,变换编码经常和运动补偿估计结合在一起,发展出一种非常有效的混合MC变换方法,即对图像先进行带有运动补偿的帧间预测编码,再对预测后的残差信号进行DCT变换。这种混合编码方法已成为许多视频压缩编码国际标准的基本框架。

2.3 图像序列的混合MC/DCT编码

在视频编码中,DCT算法比DWT算法获得的压缩增益更大。在基本的MPEG和ITU-T视频编码方案中,视频序列的第一帧(I-图像)以帧内模式编码,不用过去和未来的任何帧来作参考。对于运动预测编码(P图像),先前已编码的第N-1帧中的I或P图像帧存储在一个帧存储器(FS)中。在第N帧和第N-1帧之间,我们只能得到一个运动矢量被传输到接收端。运动补偿预测误差是对相邻两帧中对应宏块中的每个像素运动位移差计算得到的。N×N DCT算法应用到每一个N×N块(MPEG标准是8×8像素)中,输出的N×N DCT系数再经过量化,可变长的霍夫曼熵编码,量化步长可以根据宏块进行调整,解码端则进行反相操作。

2.4 基于内容的图像编码

把视频帧分成对应于不同物体的区域,然后分别对其进行编码,即对不同物体的形状、运动和纹理进行编码。比如,在比较简单的情况下,可以利用尔维轮廓描述物体的形状;利用运动适量描述其运动的形状;用颜色的波形描述纹理。

3. 视频编码标准

(1)MPEG-1编码。MPEG-1标准主要针对SIF标准分辨率(NTSC制为352X240;PAL制为352X288)的图像进行压缩,压缩位率主要目标为1.5Mb/s,相比MJPEG技术,MPEG1在实时压缩、每帧数据量、处理速度上有显著的提高。但MPEG1也有较多不利的地方:存储容量还是过大、清晰度不够高和网络传输困难。

(2)MPEG-2编码标准。MPEG-2在MPEG-1基础上进行了扩充和提升,和MPEG-1向下兼容,主要针对存储媒体、数字电视、高清晰等应用领域,分辨率为:低(352x288),中(720x480),次高(1440x1080),高(1920x1080)。MPEG-2视频相对MPEG-1提升了分辨率,满足了用户高清晰的要求,但由于压缩性能没有多少提高,使得存储容量还是太大,也不适合网络传输。

(3)H.261,又称为P*64,其中P为64kb/s的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。

(4)H.263。H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用。它一方面以H.261为基础,以混合编码为核心,其基本原理框图和H.261十分相似,原始数据和码流组织也相似;另一方面,H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分,如:半像素精度的运动估计、PB帧预测等,使它性能优于H.261。H.263使用的位率可小于64Kb/s,且传输比特率可不固定(变码率)。H.263支持多种分辨率:SQCIF(128x96)、QCIF、CIF、4CIF、16CIF。

(5)H.264。H.264代表了当前业界最先进的视频压缩技术,且具有以下无可比拟的优越性。1)码率低:和MPEG-2等压缩技术相比,在同等图像质量下,采用H.264技术压缩后数据量只有MPEG-2的1/2-1/30。显然,H.264压缩技术将大大节省用户的下载时间和数据流量收费。2)图像质量高:H.264能提供连续、流畅的高质量图像。3)容错能力强:H.264解决了在不稳定网络环境下容易发生的丢包等问题。4)网络适应性强:H.264提供了网络适应层,使得H.264的文件能容易地在不同网络上传输。

H.264标准算法复杂,对解码芯片的要求很高,但由于H.264标准提供稳定的图像质量,提高视频传输质量的可控力,并具有较强的差错处理能力,适用范围更广阔,因此成为关注的重点。

(6)MPEG-4编码MPEG-4的编码理念是:MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,并且这样也可以方便地实现对于各种对象的操作及编辑。例如,我们可以将一个卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实现交互,根据自己的需要有选择地组合各种视频音频以及图形文本对象。

4. 视频编码技术比较

4.1 H.264与MPEG-4的比较

在极低码率(32-128Kbps)的情况下,H.264与MPEG-4相比具有性能倍增效应,即:相同码率的H.26L媒体流和MPEG-4媒体流相比,H.26L拥有大约3个分贝的增益(画质水平倍增)。32Kbps的H.26L媒体流,其信躁比与128K的MPEG-4媒体流相近,即在同样的画面质量下,H.264的码率仅仅为MPEG-4的四分之一。

H.264在中低码率下与MPEG-4比较:在中低码率(32-128Kbps)的情况下,H.264与MPEG-4相比具有性能倍增效应。

4.2 应用方面的比较

大多数标准,例如JPEG2000,H.263/264,MPEF-1/2/4和H.264实现先进的压缩技术,所有这些视频压缩标准都是围绕基于块的混合MC/DCT算法,基于静态图像的小波变换是应用在JPEG2000和MPEF-4的静态图像部分编码。

在数字电视领域,虽然当前多采用MPEF-2编解码技术,但随着数字高清电视、数字移动电视、IPTV、手机电视等新技术的发展,带宽限制的矛盾必将越来越突出,采用更高压缩率的编码技术是必然趋势,因此,这一领域也必然成为下一代音视频编解码标准的焦点。

作为最新一代的视频编码标准,H.264在追求更高编码效率和简洁的表达方式的同时提供了非常好的视频质量,它是当前最高效的视频压缩技术。与目前广泛应用的MPEF-2、MPEF-4相比,同样的图像质量情况下,它的编码效率提高了30%-40%,相应地节约了30%的网络带宽。在当今网络带宽越来越宝贵、高清需求强烈的情况下,采用H.264标准已成为在有限带宽下满足用户需求的理想方案,虽然其复杂的编解码算法在实际应用中还不能发挥出全部优势,但其最终将成为高清时代编解码技术的主力军。

参考文献

[1]Wiegand T,Sullivan GJ,Bjntegaard G,Luthra A.Overview of the H.264/AVC Video Coding Standard.IEEE Trans,Circuits Sys t,Video Technol.,2003,1(7):560—578.

[2]Draft ITU-T recommendation and final draft international standard o f joint video specification(ITU-T Rec.H.264/ISO/IEC14496-10AVC.in Joint Video Team(JVT)of ISO/IEC MPEG and I-TU-TV CEG,J VTG050,2003.

[3]毕厚杰.新一代视频压缩编码标准-H.264[M].北京:人民邮电出版社,2005.

视频水印技术综述篇10

随着多媒体技术的快速发展,传播和获取视频信息也就变得越来越便利。但由于网络所具有的开放性和共享性,致使一些以数字媒介为载体的产品经常遭到恶意攻击、非法侵犯版权和信息篡改,严重损害了创作者的创作热情和利益。在这种情况下水印技术应运而生,同时也弥补了传统加密技术的不足。它的基本原理是在数字产品(如图像、音频、视频等)中嵌入可证明版权身份的信息,以达到保护版权的目的。数字水印技术是一门涉及到信息视频压缩及编码、视频分析及信息隐藏等多技术的边缘学科。

1 视频水印的原理及特点

1.1 数字视频水印原理

视频水印是利用视频中存在大量的数据冗余,将水印信息嵌入视频载体中作为版权保护的凭证,以达到保护版权的目的。一般数字视频水印系统包括3个部分:1) 水印的生成;2) 水印的嵌入及策略;3) 水印的提取或检测。由于水印技术在不同场合的不同应用,因此系统在这3部分上要求的侧重点也不尽相同。一般视频水印的流程图如图1所示。

1.1.1 水印生成

水印生成是视频水印中至关重要的一环,其生成过程的一般模型如图2所示。

先用伪随机发生器或混沌系统生成一维二值水印序列,然后再用密钥控制进行对水印信息置乱,最后再将一维水印序列转换成可嵌入视频数据的二维水印图案。

在水印的预处理中有几种常见的加密算法:1) 基于Arnold置换加密技术

Arnold变换是由A.L.Arnold提出的1种变换,又称猫脸变换[1]。变换公式为

$[\begin{array}{l} x^{'} \\ y^{'} \end{array}] = [[\begin{matrix} 1 & 1 \\ 1 & 2 \end{matrix}] [\begin{array}{l} x \\ y \end{array}]] m o d Ν (1)$

式中,(x,y)∈{0,1,…,N-1}。

猫脸置换的基本思想是:把原始点处的像素转移到另外一处,从而使原来清晰的图像变得杂乱无章。把全部像素进行变换后,并未改变像素值的大小。此置乱变换不仅为可逆变换,而且效果好,简单易行,误差小。但也有些不足之处,此方法恢复时间较长且必须预先知道图像尺寸来求变换周期。文献[2]提出了矩阵变换模周期存在条件,文献[3]在借鉴传统Arnold算法的基础上,提出了1种新的Arnold对角相等置换算法。利用映射φ数值重新设置,使对角上数值相等,以使图像像素点改变。

2) 混沌置乱加密算法

混沌理论由于其优良的统计特性和不可预测性被广泛应用于信息加密领域,Voyatzis[4]等人正式将混沌理论引入水印领域,指发生在确定系统中的随机不确定运动。混沌加密是混沌系统产生混沌序列作为密钥序列,利用该序列对水印进行置乱加密,在接收端利用混沌同步的方法进行提取解密。直接采用混沌序列作为水印的研究较少,通常采用与其他理论相结合的方式。文献[5]中将图像先进行DCT变换,把水印密钥与DCT中频系数结合成Logistic混沌映射初值水印,然后将水印嵌入DCT高频系数。混沌加密算法比其他一般算法的保密性更好,由于其对初始条件的高敏感性和难预测性,具有运算速度快、保真度高、密钥量大、安全性好以及具有足够的带宽和较强的实时功能,但也有运算开销大、运算效率不高的不足之处。

3) 幻方置乱算法

此算法利用定义好的幻方变换矩阵对水印图像进行分块并按图像复杂度确定分块的大小,然后把置乱加密后二值水印图像嵌入经过变换后的载体数据中。幻方置乱的公式[6]为

式中,n为自然数。若满足

则称矩阵A为标准幻方矩阵。

文献[7]中提到了基于幻方变换和行列变换结合的置换算法,先将图像块置乱后再对行或列进行置乱。该算法运算速度快、安全性高、稳健性好,但图像不够清晰、置乱效果较差且计算复杂度较大。

1.1.2 水印的嵌入

水印嵌入就是把水印信号嵌入载体数据的过程。其嵌入方法中经常使用的方法是

xw(i)=x(i)+h(i)W(i) 加法规则 (4)

xw(i)=x(i)×(1+h(i)W(i)) 乘法规则 (5)

式中:变量x指采样强度/幅度(空域/时域),或是变换域的系数值,W(i)表示水印信号;h(i)表示水印嵌入能量权值。水印嵌入的一般模式如图3所示。

视频水印的嵌入方案可以分为3种:

1) 在原始视频中嵌入水印,即水印嵌入到原始码流中,生成带有水印信息的原始视频码流,然后压缩成含有水印的原始压缩码流,提取时再对其进行解码。该方法应用较多,空域和频域均可使用且算法比较成熟,但是该方法嵌入水印势必会增加视频流的比特率,降低视频质量,影响视频速率的恒定性,同时还需对已压缩视频先解码,嵌入水印后再编码,降低了水印嵌入的实时性。

2) 编码过程中嵌入水印,就是在编码压缩时嵌入水印,将水印算法和视频编码相结合。该方法的的优点为由于水印在视频载体中嵌入和提取相对简单高效,因此实时性相对较好。因为水印只是嵌入在变换域的量化系数中,所以既能抵抗各类攻击又不增加视频流码率。缺点为对视频水印编码后的视频质量会有一定程度上的影响,编码器和解码器需要修改,因此在一定程度上也限制了某些水印算法的引入。

3) 在压缩域嵌入水印,即直接在经过压缩的视频码流中嵌入水印。此方法不仅计算冗余小而且具有较高的保真度。缺点为由于压缩后的冗余度小所以导致可嵌入信息的容量相对较小,并且产生帧图像运动偏移,可能会对运动补偿环路的稳定性造成一定的影响。

1.1.3 视频水印的提取或检测

视频水印检测或提取过程如图4所示。

1) 水印检测:

视频水印检测可分为盲检测和非盲检测。视频水印检测一般都采用不需要原始视频的盲检测。(1)相关检测法的基本思想是计算含水印的视频数据与水印信号之间的相似性,用相似性度量与相关阈值的比较来判断是否在视频中嵌入了水印信息。文献[8]提出1种基于运动目标检测技术的算法,该算法具有较好的不可见性和隐藏性。(2)由于视频数据和水印的随机性,水印检测系统难以避免的会出现一些错误。漏检误差是指在视频数据中未检测出水印信息的存在,而水印信息确实存在于视频数据中。虚警误差是视频水印检测系统中检测显示水印信息存在,而实际上水印不存在。文献[9]中给出了基于小波的1种改进算法,可以有效降低虚警和漏检误差。

2) 水印提取:

水印提取就是水印嵌入的逆过程,首先根据算法进行检测来确定水印嵌入帧的位置,然后利用密钥和水印提取算法将水印从视频数据中提取出来。鉴于水印的冗余度和嵌入位置多样性,水印提取一般采用加权综合与“多数”判决的方法,水印经该法处理后转化为二值信息,再利用密钥恢复出水印信息。

1.2 视频水印的特征

视频是在时间轴上连续的静止图像序列,相邻帧间不仅具有高度相关性并且有大量的空间和时间冗余度。因此视频水印就会具有图像水印的一些特性,比如安全性、稳健性、不可感知性等特点。此外视频水印还有图像水印所没有的其他性质:

1) 信息量大。

由于视频的信息量大,因此要以压缩的格式进行存储和传播,水印信息也可以嵌入压缩域中。

2) 具有随机检测性。

视频水印可以在视频流中随时随处地检测出水印。

3) 实时处理性。

为了使视频水印可以实时地进行水印的嵌入、提取或检测,要求其嵌入和提取过程具有高效性,在不同的应用中对嵌入和提取过程中高效性的侧重点有所不同。

4) 与视频编码标准相结合,针对视频数据量大,冗余度高的特点,在传输和存储时一般要进行压缩编码。

在水印嵌入压缩视频流中时,必须结合视频压缩编码标准来进行,在原始视频嵌入水印时必须考虑视频压缩编码问题,否则会使水印在编码过程中造成一定程度的丢失。

5) 一些特有攻击。

视频容易受到诸如帧重组、帧频改变、帧剪切等攻击。

6) 码率恒定性。

视频和音频大多是同时传输的,两者间具有一定程度的同步相关性。由于传输信道有一定带宽限制,所以就要求水印的嵌入对视频流码率影响很小以保证视频的传输正常。

水印的不可见性、稳健性及水印信息容量3方面是矛盾的结合体,很难使这3方面同时达到最佳,由于在应用中对各方面的需求不同,所以也就对视频某一特性的要求有所侧重。

2 典型视频水印算法

2.1 原始视频水印

原始视频水印就是直接对未经压缩的视频处理,根据得到的视频数据流是否是原始数据流又可分为:空间域水印、变换域水印。

2.1.1 空间域视频水印

空间域水印,直接修改空域中采样点的幅度值来实现视频水印的嵌入,水印信号一般嵌入亮度分量或颜色分量中,水印信号一般不做预处理直接嵌入在视频空间域中。较有代表性的是最低有效位算法(Least Significant Bit,LSB)[10,11] ,此外借鉴于扩频通信原理思想的H&G算法和JAWS算法也在空域应用中较多[12]。文献[13]提出了1种可有效抵抗MC-TFA攻击的空域视频水印算法,其对原始视频做基于宏块的运动估计得到运动矢量,据此对原始水印进行宏块为单位的移位调整得到嵌入水印。空域视频水印算法优点为算法简单、复杂度低、出现时间较早、有很多成熟的算法且可以比较好的完成盗版追踪和版权保护。缺点为属性范围小,稳健性较差难以抵抗常见的各种攻击和噪声干扰,难以实现播放控制。

2.1.2 变换域水印

变换域水印,在宿主信号的某个变换域中嵌入水印信号。空间域水印容易被各种信号破坏,所以一般设计成易碎水印。频域中水印嵌入后被散布到频域的各处,不仅不容易被感知而且可以有效抵抗各种处理,一般被设计成稳健水印。常用的变换包括离散傅里叶变换(DFT)、离散余弦变换(DCT)、小波变换(DWT)及曲波变换。

离散傅里叶变换就是先对视频图像进行傅里叶变换,再将处理后的水印信息嵌入到 DFT系数中,最后经反DFT变换后就得到嵌有水印的视频图像。文献[14]提出将傅里叶变换算法应用到视频中,文献[15]提出1种DFT变换与DCT变换相结合的算法,先将DCT系数转换成二维离散傅里叶变换系数,然后在DFT系数上做对数极坐标映射以及DT-CWT变换,最终将水印信息嵌入到经过修改的DT-CWT低频系数中。目前关于DFT变换的视频水印算法较少但其研究方向大致分为两类:1)基于DFT域的缩放、平移及旋转的几何不变性的视频水印算法,但由于采用插值近似计算,嵌入后的视频水印失真较大,算法复杂度较高,实现起来困难较大。2)利用DFT域频谱信息嵌入水印的视频水印算法,嵌入方法有相位谱、幅度谱以及幅度和相位谱相结合等种方法。

离散余弦变换(DCT),采用的是从图像空间到频率空间的全局变换。典型DCT视频水印方法是Cox[16]等人提出采用扩频序列技术和人类视觉特性的相关性,将水印嵌入DCT低频系数中。随后有人研究出分块式DCT变换[17]和分层式DCT变换水印算法[18]。文献[19]提出结合HVS和DCT的算法,将水印信息嵌入在原始视频的绿色分量中,二值水印的嵌入深度根据视频内容自适应选择DCT低频系数来完成,该方法透明性强、抗攻击能力强。文献[20]中提出基于DCT-SVD域的原始视频水印算法,将不同水印嵌入不同场景,以抵抗共谋攻击,将相同水印嵌入相同的场景帧中以使水印对帧剪切具有稳健性,此方法不仅具有较好不可感知性且有较高的稳健性。DCT域嵌入水印优点是离散余弦变换具有比较好的去相关和压缩能力,缺点是一般容易在进行压缩中产生失真以及块效应。

小波变换是1种空间和频率的局部变换,在视频水印研究分析中有着广泛应用,成为水印研究的热点。由于连续小波变换复杂度高、计算量大,所以在视频水印方面一般使用离散小波变换(DWT)。文献[21]Hussein等提出利用运动估计的方法将水印信息嵌入小波变换的HL和LH频带中。文献[22]用二维离散小波变换将每个视频帧分解成子频带,然后将PCA变换应用到LL和HH频带中,并将水印信息嵌入到这2个频带的最大PCA系数。该算法不仅具有较高的不可见性和信噪比而且可以有效抵抗各种攻击。文献[23]提出了1种基于帧内与帧间边信息的小波视频水印算法。该算法以视频的运动特征与纹理特征为边信息且确定自适应抖动调制量化步长。小波变换算法不仅实现了较好的盲检测性、不可见性并且对高噪声帧平均、帧删除、帧置换等攻击具有较好的稳健性。但也存在一些缺点即不能最优化地表示含线或者面奇异的高维数,在视频压缩过程中容易产生模糊、振铃效应等形式的失真。

Contourlet变换是1种不可分离的多尺度信号表示方法,其可以有效跟踪图像的线奇异性和面奇异性,将多尺度分析和方向分析分开进行,因此Contourlet域变换因其多分辨力、多方向性和各向异性的性质能有效地捕捉到帧图像边缘轮廓,弥补了小波变换中的不足。此方法比小波域更适合嵌入水印,成为视频水印领域1个很有潜力的研究方向。文献[24]提出在Contourlet分解后的空域低频子带系数的动态成分和静止成分中嵌入水印信息;文献[25]提出了基于Contourlet变换的双重视频水印算法,对I帧进行Contourlet变换,在低频重要系数嵌入破坏原始水印在高频域嵌入稳健水印,因此具有较高的保真度。

空域算法和频域算法各有优缺点,空域变换提出的较早、信息容量大、算法简单且便于实现,但也有稳健性差的缺点。频域算法将人类视觉系统和水印编码算法进行了有效的结合且能与压缩编码兼容,有良好的不可见性和稳健性,同时在频域中嵌入水印的能量可以遍布图像所有像素中,使水印的抵抗攻击能力和信息隐藏能力大大提高,还可以在视频的压缩域进行水印嵌入。由于频域算法的变换和反变换时间比较长,所以不太适合进行实时性操作。

2.2 压缩域视频水印

压缩视频水印是1种在压缩编码过程中嵌入水印或者直接把处理后的水印嵌入编码压缩后的视频中的方法。这种方法的优点是可以在编码过程中对信息调制产生影响的因素进行控制及做出适时的处理。缺点是该算法一般只和特殊的视频压缩编码相匹配。

2.2.1 在运动向量中嵌入水印

在运动矢量中嵌入水印时主要是将水印信息嵌入在幅度值大、相角变换小的运动矢量中,大部分的帧在压缩视频序列中是运动补偿编码帧,所以把水印隐藏在运动矢量可以有效利用视频比特流信息。文献[26]针对对视频水印的时间同步攻击,提出1种基于运动矢量统计特性的MPEG-4视频水印算法,根据运动矢量幅值分布特点将水印嵌入特定运动矢量中,该算法对时间攻击来说具有较好的稳健性和不可见性。文献[27]中利用P帧的运动矢量和局部的运动矢量信息来嵌入水印信息,水印信息是按运动矢量的奇偶位来嵌入的,所以要搜寻的嵌入点就要减少一半,从而降低了计算复杂度,提高了视频水印处理的实时性。运动矢量的大多数方案具有容量大、实时性及视觉质量好等特点,但其稳健性一般较差。

2.2.2 在脸部运动参数中嵌入水印

脸部运动参数技术是1998年Frank Hartung提出的,该技术采用扩频通信思想在MPEG-4的脸部运动参数中嵌入水印,利用66个脸部运动参数使MPEG-4的脸部模型运动起来。其基本思想为:将1 bit水印信息散布到多于1个FAT中,先扩展需要嵌入的比特信息,并对其进行调制,然后低通滤波和振幅调制,最后再嵌入欲嵌入的FAP块中。但该方法的问题是水印提取速率不均衡,非盲检测,且没有考虑HVS特性。在运动矢量嵌入水印的好处是,对运动矢量只需进行简单的判断和加减运算,计算复杂度低。由于GoP中B帧和P帧图像远多于I帧图像数量,运动矢量资源丰富,信息嵌入强度大且不影响视频质量。

2.2.3 基于VLC域中嵌入水印

压缩的视频码流中可直接获得的基本编码单元是可变长码字(VLC),每个DCT系数都有相应的VLC对应,因此可在VLC域嵌入水印。不仅算法简单,而且实时性检测效果也较好。文献[28]提出通过修改视频流中的可变长编码来嵌入水印信息,该算法不需要对压缩视频解码,水印嵌入速率高且计算复杂度小,但对信道干扰和视频处理的抵抗能力稍差。文献[29]提出1种新颖的基于VLC域半脆弱水印算法,利用视频VLC域I宏块预测方式和CBP块编码模式来自适应地提取特征码的宏块,利用子宏块量化系数低频能量之间的关系构建宏块级别的内容特征码,同时可以通过修改子宏块拖尾系数的方式来嵌入半脆弱认证水印。该方法具有良好的不可感知性和码率恒定性。该算法对添加性噪声、锐化、帧平均、I帧删除、共谋攻击等具有稳健性,但拷贝攻击稳健性较差。水印化视频对嵌入过程在小的DCT系数进行时不具有稳健性,所以此算法有待改进。

2.2.4 在DCT系数中嵌入水印

一般基于DCT 域的视频水印的嵌入和提取过程是在视频编解码中进行,通过调制DCT变换或量化后的系数来完成嵌入的。在视频的DCT系数中嵌入水印的方法是目前研究最多、技术最成熟的视频水印技术。清华大学的吴国威教授等人在考虑人眼视觉特性的基础上了提出了1种针对MPEG-2码流的算法,通过修改特殊位置的DCT系数侵入水印。文献[30]提出了1种基于H.264 DCT域的算法,在I帧中4×4变化块中选择合适的位置,将水印值和变换块的能量值替换嵌入点系数值,并引入拉格朗日优化的编码控制模型来提高水印的失真性能。文献[31]提出1种基于DCT压缩域嵌入可逆性视频水印算法,在8×8编码块采用略加修改的哈弗曼编码方法,再将水印信息嵌入DCT压缩内容中,该算法实时性好,输出视频质量有很大改善但载体容量相对较小。

2.2.5 DEW算法

该算法也叫差分能量算法 ,文献[32] Langelaar针对压缩视频码流,提出1种在压缩码流中选择性丢弃部分高频DCT系数,通过相邻2个区域的DCT高频系数的能量差值来编码水印信息,该算法是有损压缩。

3 对视频水印的攻击分类

视频水印攻击就是指1种阻碍或是减弱视频水印的检测或可以对提取出的水印信息产生多义性的处理过程。一般把视频水印攻击分为无意攻击和有意攻击。

1) 无意攻击

对视频进行各种处理时不可避免地产生水印信号攻击。比如,利用各种压缩编码标准对视频进行压缩编码;视频格式间互相转换时所造成的帧速率和显示分辨力的改变;帧删除、帧重组等编辑处理;还有一些帧重排、帧间组合等新型攻击形式。对于无意攻击可以通过改善水印系统来解决。

2) 有意攻击

有意攻击是有目的、有准备地为达到破坏、伪造和抽取水印而进行的水印攻击。有意攻击的方法及其相应的对策有:

(1) IBM攻击,也称为解释攻击,产生的原因是有些水印方案中对检测到的水印可能存在多个解释。其实,在解释攻击中并没有去除水印而是嵌入了另一个具有相同强度的水印,使得原来的水印失去了意义。一般水印方案有3方面的缺点:一是无法检测出2个水印嵌入的先后顺序;二是水印和原作品没有同时注册;三是水印的可逆性为攻击者提供了可趁之机。针对这3方面的不足,提出了以下解决方法:一是时间戳机制,合理使用时间戳机制,通过判定水印添加时间顺序就可以轻而易举地解决版权纠纷问题;二是公证机制,作者在向公证机关注册水印序列时同时也注册原作品;三是单向水印机制,将作者的水印方案约束在单向水印范围内以消除水印嵌入的可逆性,从而有效阻止水印的伪造行为;四是双水印技术,利用双密钥体制在图像中嵌入1个稳健水印序列和1个脆弱水印序列,稳健水印需要知道图像情况下才能检测到,脆弱水印进行检测时无需原图像,一旦发生版权纠纷,只要合法拥有者持有嵌有合法水印的图像,提取出证明版权归属的水印信息,非法攻击者进行视频水印盲检测时无法得到其嵌入伪水印,从而使得攻击失败。

(2) 合谋攻击,就是利用多个作品的优势去除水印或是无法检测到水印。合谋攻击分2类:第1类是在不同作品的不同拷贝中嵌入同一水印,通过对每份拷贝进行水印估算从而精确提取水印信息,这样就可以通过去除水印来获得原始作品;第2类是在同一作品的不同拷贝中嵌入不同水印,对嵌入不同水印的不同作品拷贝进行比如帧平均的线性组合,就有可能产生出无水印的原始作品。在数量上一定程度地限制含水印作品的提供,使用随机密钥增加合谋攻击的复杂度,都可有效抵抗合谋攻击。同时将随机或伪随机机制应用于水印信号嵌入位置选择上,也有利于加强水印对分析攻击的抵抗能力。

4 数字视频水印技术面临的挑战及对未来的展望

视频水印技术目前是水印研究领域的一大热点课题,虽然该项技术在多年的研究中有了不少的成果,但现有的技术中仍有一些需要改进和提高的地方。本文将视频水印技术面临的挑战及对未来的展望归纳为以下几个方面:

1) 对于视频水印的实时性研究,虽然现在水印算法的实时性在多年的研究中有了很大提高,视频的正常播放基本可以得到满足,但一旦受到攻击就会影响正常播放,因此需要更有效的算法来进一步提高这一性能。

2) 视频水印在网络传输中的研究,视频水印技术在流媒体应用中受到诸如网络带宽,网络传输误码等因素的影响,同时还必须对传输中所引起的差错进行控制和处理。因此,如何使视频水印技术更好地适用于网络视频流媒体是另一个研究重点。

3) 特征视频水印技术的研究,统计特征数字水印一般比较容易受到非线性等变换方法的攻击,同时帧图像高层特征的数字水印技术比如基于边界信息等具有较好的强壮性,也可能成为视频水印研究的重点。

由于笔者知识面的局限,介绍的内容和所做的评述肯定存在不全面、不确切、不妥当的地方,希望读者给予指正。

摘要：视频水印是用来实现版权保护的有效技术,也是目前水印领域中的研究热点。在研究总结国内外视频数字水印现状的基础上,简要地介绍了视频水印的原理及特点,阐述了典型视频水印算法及各自的优缺点,分析了针对视频水印的各类攻击及对策,最后探讨了数字视频水印面临的挑战及今后的发展趋势。

视频行业的技术服务商篇11

在国内，从事视频B2B的北京梦之窗数码科技有限公司（下简称“梦之窗”，产品为“CC视频”）于2005年成立，2007年底获得IDG资本200万美金的A轮投资，2011年又获得迪士尼旗下思伟投资、IDG投资、江苏高科技投资集团共2000万美元的B轮融资。

CC视频与Brightcove同时期、同模式，其成长路径也与中国视频领域的发展紧紧咬合在一起。

不做YouTube

CC视频与Brightcove在发展经历上有惊人的相似：从一开始都明确不走YouTube这种以用户自制视频内容为主的业务模式。

2005年公司成立开始，CC视频摸索着与播客、门户网站合作，很快发现直接去做视频门户太烧钱，需要大量资本去买带宽、服务器以及版权。尽管CC视频在公司成立之初就获得了一位企业老板200万人民币的天使投资，那还是因为其创始人张远在研究生时期做项目积累的企业人脉和信任。但显然，CC视频当时并没有可以大把拿来烧的钱。

2006年前后，国内近200多家视频网站做得热火朝天，新浪网、搜狐、TOM、QQ、百度等都相继推出了自己的视频业务。正是这样的火爆，让苦苦找寻视频行业创业方向的张远反倒看到了另一种可能：视频以后肯定会像图片、文字一样成为网站标配。但许多网站自己没有能力做视频全部的服务。那么，摆在眼前的一个巨大需求就是，帮助网站包括企业直接跨过视频应用中的资金、技术、管理等庞大成本，使他们只需一台电脑就能实现对视频的存储、播放、转码、编辑、广告管理等操作。

那时国内都把注意力集中在YouTube身上，做视频B2B的很少，张远觉得这还是个蓝海。与Brightcove创始人的技术背景一样，张远在北大的本科和研究生念的都是计算机专业，张远认为技术服务正是自己的强项。他和同学商量后决定就针对B端用户提供技术服务平台。2006年11月CC视频正式上线。

其实，从技术服务的角度，当时他还有一个方向可供选择：视频搜索。2006年互联网就有大量的视频搜索网站脱颖而出。但张远再一次做了减法，排除了自己不太擅长的部分。他们在研究生阶段已经有了不少多媒体方面的技术积累，所以还是选择针对2B用户，向更底层、更基础的视频技术服务方向走。

而这样的一个定位，实际上也规避和解决了视频领域两大悬而未决的难题：版权问题和盈利问题。版权方面，没有直接采购成本，更多的是去保护客户的版权；同时，在B2B的领域，商业和盈利模式相对也更清晰。

视频云模式

从2006年10月份开始，CC视频花了很少的推广费用就积累了1万个网站用户，至今说起来，张远还感到很骄傲。这批用户里就包括后来的民生银行和万科等大企业客户。张远回忆，早期这些用户都是通过客服电话接进来的。

但这些客户并非一开始就是付费用户。当时考虑到用户是没有缴费习惯的，而早期视频领域商业模式还不清晰，谈收钱也还为时过早。所以，张远说“只能先推免费服务，以快速获取市场”。当时，支撑CC视频盈利的点，就是通过广告置换获得视频广告上的收入。

而卖广告显然不是视频技术服务的优势所在，也不是其盈利的长久之计，以服务收费才是其应走的路。可是，“收钱不能着急”，张远等待着时机。

2008，视频产业经过三四年的发展，盈利模式逐渐清晰，比如视频广告逐渐被广告主所接受，还有像教育领域里面的收费视频点播这样的服务也开始快速增长。而这时，张远发现，在视频技术服务上，企业用户的需求正在悄然变化：企业不再希望由视频服务第三方来投放广告了，他们希望按量缴费，由自己来经营广告，自己决定视频观看权限。当这种声音多起来时，张远觉得，机会来了。2008年，CC视频的商用版本顺势推出。民生、万科都很自然地转成了付费用户。而其正式的商用版本推出于2010年的10月份。

现在看来，整个视频B2B领域的发展，和B2C领域的关键发展节点都是息息相关。

2010年，优酷、乐视上市，视频领域又到了下一个发展节点，除了视频综合门户之外，垂直视频门户和面向各行业的视频应用在快速地出现。作为相对通用的底层架构，CC视频又面临一个与行业深度融合的问题。

各行业对视频技术服务的要求不仅多种多样，甚至有所矛盾。比如，传媒机构希望视频被看得越多越好，教育机构希望视频要高度加密，医疗机构、珠宝行业要求足够地高清，有些移动终端需要足够快，高清与否倒在其次。不管是视频的存储还有访问的途径、访客记录、访问时间查询，以及访问权限的设置、访客消费曲线的记录等等。

可见，行业用户无法直接使用通用的视频服务技术，张远考虑，这时需要一个中间桥梁。但摆在CC视频面前的另一个选择题是——自己做还是与人合作？

张远选择了后者，CC视频在整个产业链中提供底层的视频基础服务，视频之外的行业解决方案则与合作伙伴共同向终端用户提供。这显然符合互联网“开放”带来的连环益处：用户有更多的应用可以使用，平台有更多的应用吸引用户，开发者有更多的收入支撑运营。而更重要的是，张远认为CC视频已经具备开放的能力了：“我们的存储能力、技术底层的服务品质等，已经确实能跟产业的上游、下游来产生增值价值了。”

实际上，作为视频技术服务提供平台，CC视频的优势也就在于基础服务，而不是行业经验，更何况以一当十地满足行业需求也不现实。为了承载大量的播放量，CC视频搭建了视频云平台。张远表示：“云平台里面从编辑使用开始，后面分成八步，从上传开始，到编解码，到存储到加速再到云加密，然后到云管理、到云播放器，最后到云统计。”

因此，基于开放的思路，首先开放的就是这个云平台，并将主要的视频技术云存储、云加速和云加密也开放给合作伙伴。在其开放API2.0产品中，CC视频云平台也被整合到合作伙伴的后台系统，开放更多的视频功能接口，真正融入客户的作业流程。

而这种技术能力不仅是CC视频的最大资本，也是守住视频B2B这片阵地的变向投资。打造第三方视频服务开放平台将增加庞大的技术成本、存储成本和传输成本。这个成本的增加，在用户端体现地不太明显，这既是CC视频的商业模式决定的，同时也是云计算平台的一大好处，因为架构和收费体系基于云计算，实际上就是多个用户摊薄了这个成本，提升了性价比。但对于提供服务的平台，如何消解这个成本，又是个问题。

云平台跟传统软件的不同就在于，当用户买了服务之后，服务提供方就要不断地在上面增加研发力量，自提供功能的无缝升级。“对于云计算服务平台来说，只能把平台的演进当成吸引用户的一种手段，要通过规模和营收的扩大来分担成本，”张远说。

音视频技术篇12

流媒体 (Streaming Media) 是指在网络中使用流式传输技术的连续时基媒体, 即在因特网上以数据流的方式实时发布音、视频多媒体内容的媒体, 音频、视频、动画或者其他形式的多媒体文件都属于流媒体之列。流媒体是在流媒体技术支持下, 把连续的影像和声音信息经过压缩处理后放到网络服务器上, 让浏览者一边下载一边观看、收听, 而不需要等到整个多媒体文件下载完成就可以即时观看的多媒体文件。

流媒体技术的出现, 对于传统的广播媒体的冲击是显而易见的。但是网上的音频流存在制作水平不高, 内容不丰富等问题, 而且网上音频流主要以娱乐音乐为主, 很少见到新闻题材;而传统媒体在这方面是强项, 尤其是新闻事件的报道及时性及权威性是网上流媒体不可比拟的。传统广播也存在一些由于现场采访环境比较嘈杂, 或者因为天气等各种客观原因, 会影响收听质量, 造成听众获取信息的不完整等问题。因此流媒体技术与传统广播相结合是广播媒体不可避免的趋势, 本文以中央人民广播电台建设的民族网站音频系统为例, 描述流媒体如何能有效的扩展传统广播媒体的影响力。

1民族网音视频系统概述

民族网音视频系统数据源主要来自以下几个方面:一是把无线电广播里的节目原封不动地通过因特网广播;二是广播与因特网的互动节目;三是专门在因特网上播出的节目。涉及地域主要包括中央台采集机房、中心机房、电信IDC和联通IDC的发布机房。

所有上述音视频信号在采集机房转换为可以网络上传或者音视频采集工作站转换为网络上可以识别、传输、展现的音视频文件, 保存到媒资库中;然后通过中心机房的转码服务器转换为系统可识别的视频格式, 编辑区的编辑人员对其进行加工处理, 通过流媒体服务器发布到电信和联通IDC的web服务器, 实现对外发布, 直接展现给最终用户。

系统解决了流媒体内容采集、管理、发布全流程的需求, 采用WINDOWS MEDIA SERVICE作为系统流媒体格式与服务标准的核心;在管理端采取B/S、C/S结构相结合的管理方式进行管理, 通过这种方式既体现了系统的安全性、保密性、又解决了管理员异地办公、远程管理的问题;发布端采取B/S结构进行服务, 无需用户安装任何第三方插件、软件, 降低了用户的技术门槛, 提升了网站体验。

系统架构如图1所示。

2民族网音视频系统特点

对比常见的音视频系统, 结合民族广播现状, 民族网音视频系统具有如下特点:

1.完善的采集方式。通过每天的节目单, 可以实现在直播的同时根据节目内容进行录制, 方便用户根据节目名称进行点播。

2.通过电视信号与网络视频直播的有机融合, 实现了电视信号的网络获取, 保证了少数民族的重大电视节目收看。

在本系统中利用现有数字电视信号的输出AV接口, 结合视频采集卡的AV采集功能, 通过媒资系统视频录制与直播功能, 实现了电视信号的网络化直播与录播。并且可通过电视信号的实时切换, 实现同步网络直播的信号切换。

3.存储数据同步, 数据冗余设计保障了数据的高可靠性。

本系统结合现有的存储数据同步技术, 利用存储同步软件, 结合媒资系统定制开发的API接口, 通过API接口对存储同步软件的调用, 实现采集的音视频文件的三地同时发布, 在保证高可靠性的同时, 也在某种程度上保证了用户访问的高可用性。

4.双发布机房设计, 保证网站提供流媒体服务的高可用性。

本系统中采用双发布区设计, 每个发布机房中都部署有流媒体发布服务器, 通过全局负载均衡技术, 保证联通用户的流媒体请求由联通机房提供, 其余用户的流媒体请求由电信机房来响应。

3未来的发展方向

1.广播的网络直播与字幕有机结合在一起, 这样方便了各民族听众收听各语种的广播节目。编辑可通过定制的管理系统后台加入音频的各语种字幕, 通过专业音频编辑软件实现时间轴校对, 实现字幕的滚动和音频节目的同步。

2.采用CDN技术, 保证了网络不发达地区的音视频访问速度和访问质量。CDN是构建在数据网络上的一种分布式的内容分发网。CDN的作用是采用流媒体服务器集群技术, 克服单机系统输出带宽及并发能力不足的缺点, 可极大地提升系统支持的并发流数目, 减少或避免单点失效带来的不良影响。CDN利用全局负载均衡技术将用户的访问指向离用户最近的工作正常的流媒体服务器上, 由流媒体服务器直接响应用户的请求。服务器中如果没有用户要访问的内容, 会根据配置自动从原服务器抓取相应的内容并提供给用户。使用CDN技术保证在网络不发达地区少数民族的收看收听的质量。

3.开发各类终端收听应用程序。终端收听程序既可以收听收看民族网站提供的各类音视频直播点播, 还可以提供字幕, 方便非本民族语言用户的收听收看;同时提供反馈服务, 既可以统计用户收听收看节目的记录, 又可以反馈用户意见;作为节目评估及影响程度的统计依据。如开发Apple的Appstore平台上开发收听民族网站的音视频的应用程序;开发PC系统中收听收看民族网站的音视频的应用程序。

4.申请的fm、am因特网域名, fm是西方太平洋的一个小的发展中的岛国密克罗尼西亚的联邦国家码顶级因特网域名, am是亚美尼亚的顶级因特网域名。由于fm, am又代表广播中调频和调幅, 具有强烈的广播色彩, fm、am域名更方便网络用户记忆。同时开发出WEB方式的网络收音机系统, 可以根据不同用户的收听习惯来提供给用户个性化的音频内容。

4总结

传统广播媒体要想在“流媒体时代”下生存并得到不断发展, 就必须懂得与网络媒体进行正确有效的合作和功能、价值的整合, 从而实现双赢。“流媒体时代”的到来并不可怕, 反而是传统广播焕发“第二春”的绝好契机。由于流媒体技术的出现, 传统广播在传播特征上的不足得到弥补, 传统广播转瞬即逝、选择性差、直观性差的弱点得以修正。通过流媒体技术, 人们可以自由自主地选择自己喜欢的节目、段落, 反复多次地收听, 同时可以配合文字、图片等各种其他载体, 丰富广播内容的传播形式。

随着技术日新月异的发展, 广播媒体还会面临更多的挑战和冲击, 重要的是要在这种发展中学会变化和调整。正如BBC的克里斯·韦斯科特所说, “广播不会因为互联网的出现而死亡, 但是会改变。”对广播媒体而言, 重要的是应该学会怎样更好地改变。

摘要：流媒体技术的出现使音频文件在网络媒体中的顺利传播成为现实, 从而使网络媒体对于广播媒体的直接竞争开始突现。同时流媒体又可以作为传统的广播媒体的有益补充, 延伸传统广播媒体的覆盖范围。本文以中央人民广播电台主办的民族网站中的音视频系统为例, 描述如何实现流媒体技术与传统广播媒体的有效结合。

【音视频技术】推荐阅读：

音视频设备07-08

数字音视频10-22

音视频流11-11

互联网音视频06-03

音视频技术

音视频技术篇1

(一) 资源采集系统

(二) 编辑系统

(三) 资料编目与检索系统

1、编目子系统

2、检索子系统

(四) 数字化存储系统

(一) 系统要求

(二) 音视频传输编码规格

1、视频传输编码格式

2、流媒体的网络传输

音视频技术篇2

音视频技术篇3

联合音视频中的跟踪技术研究篇4

数字视频制播技术篇5

音视频技术篇6

音视频技术篇7

音视频技术篇8

视频编码技术研究篇9

视频水印技术综述篇10

视频行业的技术服务商篇11

音视频技术篇12

本站热搜

相关推荐

音视频技术

音视频技术 篇1

(一) 资源采集系统

(二) 编辑系统

(三) 资料编目与检索系统

1、编目子系统

2、检索子系统

(四) 数字化存储系统

(一) 系统要求

(二) 音视频传输编码规格

1、视频传输编码格式

2、流媒体的网络传输

音视频技术 篇2

音视频技术 篇3

联合音视频中的跟踪技术研究 篇4

数字视频制播技术 篇5

音视频技术 篇6

音视频技术 篇7

音视频技术 篇8

视频编码技术研究 篇9

视频水印技术综述 篇10

视频行业的技术服务商 篇11

音视频技术 篇12

本站热搜

相关推荐

音视频技术篇1

音视频技术篇2

音视频技术篇3

联合音视频中的跟踪技术研究篇4

数字视频制播技术篇5

音视频技术篇6

音视频技术篇7

音视频技术篇8

视频编码技术研究篇9

视频水印技术综述篇10

视频行业的技术服务商篇11

音视频技术篇12