视频压缩技术论文(精选7篇)
视频压缩技术论文 篇1
0 引言
在人类所获取的信息中, 通过视觉和听觉获取的信息约占外界信息的90%以上。以视频信息和音频信息为主的多媒体技术是21世纪最具时代特征和最富有活力的研究和应用领域之一。人们对于数字技术下视频的实时性、流畅性、清晰性等的要求越来越高, H.264国际标准的专利费非常昂贵, 各个环节都要收费, 还有后续的广播费、点播费、软件费等。鉴于这种情况, 我国在音视频领域进行了研究规划, 取得了技术突破, 自主制定了数字音视频解码技术标准AVS (Audio Videocoding Standard) 。继AVS标准之后, 国家广电总局在2012年7月正式颁布了广播电影电视行业标准GY/T257.1-2012《广播电视先进音视频编码解码第1部分:视频》行业标准, 简称AVS+。
1 AVS+
AVS+是2012年7月发布的《广播电视先进音视频编解码第1部分:视频》行业标准, 要想知道什么是AVS+必须先了解AVS。AVS标准的正式名称是《信息技术先进音视频编码》, 音视频编解码标准的作用是把数字视频和音频数据压缩为原来的2%以下, 以保证传输带宽和存储容量能够被最有效地利用[1]。
AVS标准分为9个部分, 包括系统、视频、音频、数字版权管理等4个技术标准, 如图1所示。AVS标准的视频标准与H.264相类似, 分为变换、量化、熵编码、帧内预测、帧间预测、环路滤波等技术模块。此外, AVS视频标准还定义了3种不同类型的图像:I帧、P帧和B帧, I帧中的宏块负责帧内预测, P帧和B帧的宏块负责帧内预测或帧间预测。AVS视频编码器框图如图2所示[2]。
AVS采用的是混合编码方案, 视频编码并非单一的算法, 而是一整套的编码工具。起初各条技术主线平行开展, 每个主要的工具都是作为视频编码的完整解决方案而提出, 最后各性能最佳者汇合成为完整的解决方案, 这样综合起来就可以达到压缩比较高的综合压缩效果[3]。
2 AVS+关键技术
随着数字高清电视和3D高清电视的快速发展, 为了节约带宽和存储, 就需要对视频进行更好的压缩。AVS同MPEG-2、H.264的编码框架一样, 都属于混合编码, AVS的关键技术与H.264也是基本对应的, AVS+是在AVS基础上完成的, 二者大部分内容是相符合的, AVS+向下兼容AVS, 即AVS编码的视频码流AVS+可以解码, 同时在AVS基础上增加了4项新技术———高级熵编码、图像级自适应加权量化、同极性场跳过模式编码、增强场编码技术, 可以说是对AVS标准的优化升级[4]。AVS+相对更简单一些, 对硬件资源的消耗更少, 这些相对于H.264来说可以大大降低国内音视频产业的专利费负担, 同时也更易于硬件技术和设备的实现, 如表1所示。
根据“AVS技术应用联合推进工作组”联合组长高文院士介绍, AVS+标准在核心工具中的熵编码 (算术编码CBAC) , 以及次要工具加权量化 (AWQ) 、增强场编码 (B-Direct、P-Skip) 方面都有所更新[5]。我们将AVS+的关键技术与H.264High 4:2:2进行对比, 从表2中可以清晰地看出AVS+在预测、运动补偿、变换、熵编码等多个方面都有所改变。例如, 运动补偿去掉了“8×4、4×8、4×4”;多参考帧改为“最多2个或者4个”;滤波则变为“8×8块边界”。在熵编码中摒弃了变长编码, 选择性能优良的算数编码, H.264使用的是CAVLC和CABAC这两种编码方法, 而AVS+选择使用的则是复杂程度比较小的自适应2DVLC和新的内容自适应算数编码。因为我国的数字电视的高清标准是隔行扫描的, 在新技术增加之后, 运动场景的场编码图像就会比老技术标准清晰很多。
3 AVS+应用前景
AVS标准是一套适应面十分广阔的技术标准, 技术性能先进、实现复杂度低、专利负担费用低, 能提升国内企业的核心竞争力。AVS技术应用联合推进工作组在一年内完成AVS+标准的制定、优化、测试、验证、颁布、产品研发等一系列工作, AVS+标准的产业链正在逐步建立和完善。
为了使高标清节目编码向AVS+过渡, 工作组做出了以下部署:
(1) 卫星传输高清频道与地面高清频道将全部采用AVS+。卫星传输高清频道是新开展的业务, 还有地面的高清频道将在全国推广普及, 新开展的业务一开始就采用AVS+有利于AVS+的快速发展和部署。
(2) 以城市为单位, 逐步将目前地面标清节目的编码器由MPEG2改为AVS+, 同时配合直播星户户通的推进, 在农村的地面数字电视网准备大规模建设, 直接采用AVS+。
(3) 要求 (在3D实验频道之后) 新开办的3D电视频道采用AVS+。
从模拟到数字、从标清到高清, 从单向到双向, 从传统电视到智能电视, 电视业在不断向前演进。2009年, 电影业的3D风潮很快波及到电视。在CES 2011国际消费电子展上, Sony、Samsung、Panasonic等家电巨头纷纷推出全线3D电视产品。AVS+的应用和推广, 满足了高清晰度电视、3D电视等广播电影电视新业务发展的需要, 将带动我国直播星进入高清时代, 并快速带动各地有线、无线和网络电视转播和制播AVS+节目。同时, 在IPTV、CM-MB手机电视方面也有着广阔的应用空间。
摘要:视频技术从标清到高清, 电视从模拟到数字, 视频压缩技术成为重要的研究和应用领域。介绍了我国研究制定的AVS+标准, 将其关键技术与H.264进行了对比, 并介绍了AVS+的应用领域。
关键词:AVS+,视频技术,编码
参考文献
[1]高文, 黄铁军, 吴枫, 等.信息技术-先进音视频编码:第2部分:视频 (GB/T 20090.2-2006) [S].北京:中国标准出版社, 2006.
[2]广播电视先进音视频编解码:第1部分 (GY/T 257.1-2012) :视频[EB/OL].http://www.spsp.gov.cn/Page/QT/2012/GYT%20257-2012.shtml.
[3]黄铁军.AVS标准的背景、进展与产业应用展望[J].信息技术与标准化, 2003 (9) :4-8.
[4]鲁晨.AVS+产业化加速将全面推广使用[EB/OL].http://www.sarft.net/a/82765.aspx, 2013-10-9.
[5]董文辉, 邓向冬.AVS+视频压缩技术及应用[J].广播与电视技术, 2012 (12) :41-43.
[6]黄铁军, 高文.AVS标准制定背景与知识产权状况[J].电视技术, 2005 (7) :4-7.
[7]梁凡.AVS视频标准的技术特点[J].数字电视与数字视频, 2005 (7) :12-15.
[8]侯金亭, 马思伟, 高文.AVS标准综述[J].计算机工程, 2009, 35 (8) :247-252.
[9]国家数字音视频编解码技术标准工作组.视频编码标准AVS技术介绍[J].电子产品世界, 2005 (10) :58-62.
视频压缩技术论文 篇2
一、常用视频压缩技术简介
1. JPEG/Motion–JPEG。
传统的JPEG方法主要基于离散余弦变换 (DCT) , 而JPEG2000基于DCT和小波变换, 其压缩比更高, 压缩效果更好。使用JPEG/MJPEG方法一般不考虑视频帧之间的变换信息, 只单独对一帧视频图像进行压缩。压缩比为5∶1~17∶1。这种技术可以获取清晰度很高的视频图像, 而且可以灵活设置每路视频的清晰度、压缩帧数。但是该方法处理速度较慢, 会有丢帧现象发生, 而且压缩的比例较小, 不利于进行长时间的视频录像存储。
2. 小波变换方法。
小波变换方法和JPEG方法类似, 是针对每一帧视频图像进行单独的压缩编码, 并不考虑视频的帧间信息。该方法的压缩比较大, 通常为50∶1~70∶1, 分辨率可达到720×576, 静态画面的压缩效果较好。但是, 小波变换方法和JPEG方法类似, 所占用的宽带和硬盘空间相对较大, 对网络带宽的要求也较高。
3. MPEG (即Moving Pictures Experts Group, 运动图像专家组) 系列。
MPEG主要分为三个阶段:第一阶段为MPEG–1, 用于数字存储体上活动图像及其伴音的编码, 码率为1~1.5Mbps, 具有随机存取、正向/逆向搜索、逆向重播、视听同步、容错性高等特点。第二阶段为MPEG–2, 在MPEG–1的基础上做了许多重要的扩展和修改, 但算法基本和MPEG–1相同, 传输率为3~10 Mps;压缩率较低, 约40∶1。第三阶段为MPEG–4, 不仅注重视频、音频的编码, 更加注重多媒体系统的交互性和灵活性。
4. H.26X系列。
H.26X系列同样包括三个阶段:第一阶段为H.261, 该编码标准和MPEG相似, 但又有不同, H.261是传送屏幕区域中的更新信息, 大幅度降低了数据流的瞬时变化, 在宽带有障碍的信道上传输时是一种理想的方案, 但图像的压缩质量总体上略微逊于MPEG–1。第二阶段为H.263技术, H.263技术是1995年提出来的更低比特率的视频编码方案, 它在H.261的基础上增加了4种编码选项, 将码流速率降到128 kbps以下, 在9.6~128 kbps的速率上传输CIF或QCIF格式、每秒1~15帧的活动图像, 特别适合在电话线上传输质量要求不高的活动图像。
二、传统视频压缩技术的性能分析
在目前的视频压缩技术领域, MPEG–4和H.264是首选方案, 这两种方案有较高的压缩比率, 并且可以保留较好的视频质量, 适合远距离的网络传输。但这两种视频压缩方法针对所有的视频帧图像进行压缩编码, 并没有考虑视频帧中是否含有冗余信息。如, ATM机前的视频监控应主要关注含有人类活动的视频信息, 对于没有人类活动的视频图像, 原则上没有必要进行传输和存储, 会占用大量的网络带宽和存储空间, 浪费大量的相关资源, 同时也可能对事后事件的排查造成一定的干扰。因此, 在ATM机前、电梯门口等某些特定的场合, 有必要事先对视频进行过滤, 排除不含有人类活动的视频帧信息, 以减轻网络宽带和存储设备的负担。
三、对视频帧信息进行选择性压缩处理
在银行的某些特定场合中, 安装的摄像头一般是固定的, 其检测区域固定不变, 拍摄的背景场景也相对稳定。在该情况下, 可以采用简单的背景差方法来区分视频帧图像中是否含有活动目标, 以确定该帧图像是否需要进行存储和传输。
如图1所示, 假设得到的不含有活动目标的固定背景图像为Ibg, 其中由摄像头得到的Ibg如果为彩色图像, 为了方便帧间差操作, 则将其转化为灰度图像, 这里同样记为Ibg。假设第i帧视频图像为Ii, 同样为灰度图像, 则根据背景差公式:Ir=Ii-Ibg, 可以得到第i帧视频图像和背景图像之间的差值。理想情况下, 如果第i帧的图像中没有活动目标, Ii各个像素的灰度值和背景图像Ibg对应的各个灰度值相差不大, 则结果图像Ir基本上是一个黑色图像, 并没有含有凸显的区域块。反之, 如果Ii中含有活动目标, 则活动目标的区域对应的像素值和背景图像所在区域的灰度值应该有所差别, 这就导致结果图像Ir在活动目标的区域中亮度较为突出, 通过判断结果图像Ir是否含有凸显区域块, 进而可以判断对应的图像帧中Ii是否含有活动目标, 同时就可以决定该图像是压缩编码还是直接舍去。
四、结论
视频压缩技术论文 篇3
作为结构相似性指数的提出者和倡导者, 滑铁卢大学的王舟副教授及其研究团队最近发明了一种基于结构相似性的感知视频压缩技术。此技术可以在不提高带宽的前提下, 明显提高解压缩后的视频质量, 或者在不影响视频质量的前提下, 比现行最高质的H.264/MPEG4-AVC视频压缩标准进一步降低带宽最多达30%至40%。此项技术已得到国际学术界与工业界的广泛关注, 在智能手机、高清电视、网络电视、可视电话、视频点播等领域具有广泛的应用前景。
技术成熟度:专利、实验室成果。
视频压缩技术论文 篇4
关键词:高清数字,电视视频,压缩编码
随着人们对精神生活的要求不断提高,电视产品不断更新换代。高清数字电视具有较高的分辨率,能满足用户对画质的要求,丰富了人们的精神生活。视频压缩编码技术则在高清数字电视中具有重要作用,下面对此加以研究,旨在提高压缩效率及质量。
1 高清数字电视视频压缩编码的概述
本文以高清数字电视视频压缩编码色度为4:2:0的色度为例,对高清数字电视视频压缩编码技术有效研究的目的是更新视频压缩标准。用新的压缩标准来满足宽带传输高标准要求,可以提高数字电视画面的分辨率。平时用电视在接收4K信号图像时,所接收到的信号图像,用的是一个原始数据率即2.78Gbit/s。假如接收到一个8K的图像信号,相应的也应有一个原始数据率是11Gbit/s。在运用传统的视频压缩标准时,采用H.264的形式对4K进行模式图像,然后对其开始压缩。在对4K图像进行压缩时,压缩量会变小,不能满足视频图像处理要求,但这种压缩方式对宽带传输有很大的要求。降低宽带传输时的限制要求,已有研究人员对其加以研究表明HEVC技术是从264/AVC新一代视频编码技术,主要功能是在对其压缩时,会提供一个较好的视频压缩效率,与原来的视频图像压缩效果相比使性能提高了一倍。因此,在领先于其他编码技术的同时,也在高清电视压缩技术上取代了传统视频编码技术。
2 电视视频压缩编码技术
2.1 HEVC编码结构技术
电视编码技术主要是HEVC编码技术,采用的是H.264中的编码框架。HEVC编码采用H264的同时,在内容结构上也运用了先进的技术,使其在性能上更具有应变度。已有学者在HEVC编码技术的基础上研究发明了在新能上更具优势的超大尺寸的编码结构,该编码还加入了三种不同的结构方式,即CU、PU、TU,来进行有效的分隔、编码,保障了编码压缩后的效果。HEVC编码技术在结构上要比H.264编码结构大很多。在HEVC编码结构中CU代表的是编码单元,CU的内部结构方式和整体上的结构是相同的,同样采用四叉树递归方式加以划分,最小块的CU为8×8,最大块的CU是64×64,说明划分出的CU单元的形状应该都是正方形。TU的作用和CU相关,其功能是预测CU。TU在预测CU时,TU单元的大小要小于CU的大小,在划分中可以成为任何形状,完全不受限制。较为常用的TU划分方法主要有不对称或对称分割,其形状可以为长方形,也可以为正方形。
2.2 帧内预测编码技术
HEVC不单单是只有压缩编码的功能,还有帧内预测编码的技术,可以对高清电视视频进行编码。它的这种功能,也是在H.264编码技术的基础上发展出来的。在HEVC帧内预测编码技术中,预测单元的PU大小不同,且分布位置中规中矩。但在实际预测的过程中,HEVC对大小不同的PU提供出了相应的非方向性预测方法,且为此提供了多方向性帧内预测的有效方法,为PU预测单元操作成功提供了有利条件。
2.3 编码环路滤波技术
提到环路滤波技术,就必须提到SAO。SAO在类型方面有两种类型:一种是带状补偿,另一种是边缘补偿。边缘补偿是把一种像素和它旁边的像素,两者充分的进行优势对比,完成之后,要把像素分类标识的方法进行合理的分类。解码的过程应根据对应的分类标识有效的补偿。各个模板只对相邻的像素产生相比较现象,所以实际操作时非常简单。LCU能够在一定环境下进入独立解码状态,在顶行和底行的LCU像素一般不对模板进行有效处理;根据这个现象可看出,任何一个LCU的左右两列,其像素也不对模板进行信息处理工作。目前,HEVC主要有像素与区域的ALF分类方法。一般重建图像很容易在一定环境下失真,为了避免这种失真现象的发生,科技人员可采用HEVC引入自适应环路滤波器技术。这种技术是采用了一种叫树形的自适应环路滤波器,科技人员采用这种形式的滤波器主要是为了防止编码图像产生噪声。自适应环路滤波器对于亮度分量来说,滤波器在形状上是以点对称的二维滤波器;在色度分量上,滤波器形状又变为一个正方形点对称矩形二维FER滤波器。
3 结语
总之,随着科学技术不断发展,视频压缩编码技术也在不断进步。当前,国际间加强了合作交流,新的研究成果已逐渐得到应用。在今后一段时期内,在高清数字电视中仍具有较大作用。当然,在今后一段时间内,还应不断创新,研究出更好的视频压缩编码技术,提高电视视频质量。
参考文献
[1]阮若林,胡瑞敏.数字视频压缩编码技术标准现状与展望[J].电视技术,2014,38(3):7-11.
视频压缩技术论文 篇5
与其他视频监控技术不同,航拍视频可以覆盖较大范围的空间区域,尤其适合监控快速移动的目标。而在实际应用中,为了保证实时性,并不需要清晰地传输每一帧图像中的全部内容。航拍视频 中的感兴 趣区域 ( Region - of - Interest,ROI) 通常是人工目标,如道路、建筑、房屋等,以及运动物体。在相同的带宽下,对人们关注的区域进行高质量的编码传输,而对背景区域进行低质量编码传输,得到的效果要好于对整帧画面统一编码传输的方法。
传统的视频编码核心技术大多是通过去除视频中的时间、空间和统计等冗余信息来实现数据压缩,这样并没有很好地利用人眼的主观感知特性。因此,为了更有效地存储和传输海量的视频数据,出现了基于人眼感知机制的压缩方法。
感知视频编码利用人眼的感知性质,在没有感到明显的质量下降的情况下,去除视频中的感知冗余。根据感知理论,人们通常将注意力集中在画面中感兴趣的区域,而不是整幅画面。根据这一特性,可以从视频中提取感兴趣的目标或区域,在编码时对其分配较多的比特数并优先传输,将其他区域视为背景,分配较少的比特数。这样,在带宽有限的情况下,可以保证重点区域优先编码和传输,并且在解码端可以对感兴趣区域优先解码。即使在码流被截断时,背景的解码受到影响,但感兴趣区域仍可以清晰呈现。对感兴趣区域和背景区域分别处理,既避免了计算资源浪费,又降低了分析难度。
1 视觉注意机制
在观察整个视觉场景时,人眼的注意力一次只集中在一个或者为数很少的几个区域上,这个过程被称为视觉注意( Visual Attention) ,注意力集中的区域被称为感兴趣区域。图1是典型的视觉注意机制示例,由于形状、颜色与周围形成鲜明反差,观察者会迅速地将注意力集中在图中深色的圆盘上。
视觉注意是人类视觉系统( Human Visual System,HVS)中一项重要心理调节机制,能够影响人们对各种不同刺激进行辨认和识记,并引导人们有选择地获取所关注目标的特征,从而降低信息处理量。认知心理学研究表明,人类处理视觉信息分为视感觉处理和视知觉处理两个阶段[1]。其中,视感觉以并行的方式接受外界的视觉刺激,视知觉以串行的方式解释视感觉信息的意义。由于外界存在各种不同视觉刺激,视感觉提供的信息量远远大于视知觉阶段的处理能力。同时这些视觉信息中仅有一部分对人类认知活动起重要意义,没有必要对所有信息进行处理。因此,HVS需要利用视觉注意机制对大量视觉信息进行筛选,降低信息处理量,才能实现视感觉和视知觉这两个阶段的匹配,使人类可以快速地处理视觉信息,并及时作出反应。
视觉注意的一般表现形式是眼动( Eye Movement) ,根据是否伴随眼动,可以将视觉注意分为显式选择性注意( OvertAttention) 和隐式选择性注意( Covert Attention) 。由于人眼具有中央凹特性,即视网膜中心部分的分辨率远高于周围部分[2],人类注意力转移的时候通常带有明显的人眼注视焦点的转移,这便是显式选择性注意。而隐式选择性注意则是指不伴随注视焦点转移的注意力转移,例如人在正视前方的时候仍然可以注意到两侧运动的物体。目前针对这两种注意形式的注意力转移都有相关的研究工作[3],其中通过捕捉人眼运动来提取显式注意感兴趣区域的方法最为直观、快速、准确。另有研究[4]表明,虽然选择性注意分为显性和隐性两种,但人眼注视点移动到新的位置必然会使注意焦点也随之移动,因此基于眼动捕捉的方法总能反映人眼的视觉注意焦点。
根据在视觉活动中所处的阶段,视觉注意通常分为自下而上( bottom-up) 和自上而下( top-down) 两种基本类型[3]。自下而上的视觉注意由数据驱动,发生在视觉活动的初期阶段,基于输入视觉刺激信号的初级特征( 如颜色、方向、亮度)建立,不受特定认知任务对视觉注意的影响。图1体现的正是自下而上的视觉注意,在没有任务指导的情况下,由于形状、颜色特征与周围区域有显著不用,人眼将注意力集中在两张图中深色的圆盘上。自上而下的视觉注意与人的主观意识、记忆以及当前任务等有关,发生在视觉活动的后期,如在自然状态下,画面中人脸区域通常是感兴趣区域,在监控视频中,与任务相关区域是感兴趣区域。
航拍视频中,由于一般是远景画面,画面中数据量巨大,同时有大量树木、建筑等结构复杂的纹理图案,单纯数据驱动的方法不能起到很好的效果。同时,航拍视频中人们感兴趣的区域往往是一些特定目标,如运动物体、机场、跑道、桥梁等,利用这些先验知识,采用任务驱动的注意模型,根据目标特征的检测提取感兴趣区域更适合于航拍应用。
2 感兴趣区域提取方法
基于ROI的视频编码将视频场景分成感兴趣区域和非感兴趣区域分别进行处理,利用HVS更合理地分配比特资源和计算资源,可以有效去除感知冗余,提高编码效率。
如何提取出符合HVS感知结果的感兴趣区域是ROI视频编码技术的一个关键问题。现在应用较广的感兴趣区域提取方法可以分为手动设置、数据驱动提取、任务驱动提取。手动设置的方法适用于对准确度要求高的场景,但高度依赖于人工。数据驱动和任务驱动的方法分别利用了第1节介绍的自下而上和自上而下的2种视觉注意机制,通过建立视觉模型,自动提取感兴趣区域。这3种方法的原理、特点和适用场景各有不同,本章将结合应用对它们分别进行介绍。
2. 1 手动设置
手动设置,即用户通过鼠标、触屏或眼动仪( Eye movement tracker)[5]等输入设备人工地从视频中提取感兴趣区域。图2是手动设置的示意图,图中矩形区域为用户手动选取的ROI。这种方法直接根据用户的需要设置ROI,因为少了ROI自动提取的处理,而具有提取速度快的优点。此外,在一些对准确度要求高的场景中,自动的方法往往不能满足要求,需要用户进行手动ROI设置。如医疗系统中,ROI自动提取若出现错误可能会导致关键部位的影像不清晰,严重影响诊治结果,而利用手动方法,可以避免这种风险。文献[6]提出了一种基于Wi MAX无线网络的医疗视频传送系统,在传输过程中系统对用户手动设置的感兴趣区域采用高级别的安全机制,以保证对关键部位影像能够正确传输。在带宽受限的实时应用中,利用手动设置方法提取ROI还可以提高系统的交互性。如在实时航拍视频中,接收端用户随时可以根据需要手动选择ROI,编码端则根据新的ROI划分,重新分配资源,使用户可以看到所选目标的细节信息,实现与用户的交互。
目前,手动设置的方法还存在一定不足。首先,手动提取ROI依靠人工,进行操作的用户一般需要有相关的知识技能,才能完成任务。此外,手动方法对硬件设备要求较高,不仅需要有输入设备及相关设备来处理用户的输入操作,还需要占用一定带宽传送控制指令。另一方面,ROI的设置与编码器重新编码之间总存在着传输时延和处理时延[7],而由于带宽和编码器性能的限制,这些延时难以忽略,如果感兴趣区域变化过快,用户将无法接收到符合要求的视频画面。为了减小时延,编码器可以对用户设置的ROI进行预测,使编码器可以根据预测结果提前进行编码。
由于依靠人工,且对设备要求高,手动方法难以大规模应用,但在航拍视频场景中,凭借准确度高、交互性好的优点,仍有广阔前景。
2. 2 数据驱动提取 ROI
数据驱动模型基于自下而上的视觉注意机制建立,主要研究画面中的初级特征( 如颜色、方向、亮度) 对人眼视觉注意的影响,与认知任务无关。在现有的视觉注意模型中,Itti等[8]提出的基于显著图的模型( 以下简称“Itti模型”) 最具有代表性。如图3所示,显著图描述了画面各部分的显著程度,显著程度高的区域设定为ROI。显著图是一张灰度图,亮度越高,显著度越高。圆圈是以显著度最高点为中心的圆,将它所在的区域设定为感兴趣区域。
根据HVS对视觉信号的处理机制,Itti模型利用高斯滤波器、Gabor滤波器得到图像在多个尺度上颜色、亮度和方向的显著图,然后通过中央-周边算子( center-surround) 以及线性相加的方式,将不同尺度不同特征的特征图合为一张显著图。得到显著图后,Itti模型采用WTA( Winner-Take-All) 神经网络与返回抑制机制从显著图中获得注意焦点( Focus ofAttention,FOA) ,最后将以FOA为中心、半径固定的圆所在的区域设定为感兴趣区域。大量实验[9]表明没有上层任务指导,完全根据图像中各区域的显著程度进行视觉焦点转移的情况下,Itti模型基本可以搜索出各个注意区域。
在不同应用场景中,视频画面特性可能有非常大的差别,如何根据实际应用更有效地得到显著图,并提取ROI是目前的研究热点。一种应用于红外图像的ROI提取方法[10]针对红外图像分辨率、信噪比和对比度较低,且为灰度图的特点,对Itti模型进行了改进,使用小波变换替代高斯滤波生成多尺度图像,利用交替式有效子窗口搜索A-ESS替代WTA神经网络来获得FOA。Zhai等人[11]将视频场景时域上的运动特征引入,在快速运动场景和慢速运动场景下均提取出了正确的感兴趣区域。
现有的数据驱动模型对于内容比较简单的自然图像可以很好地提取出ROI,但是对于航拍视频却难以获得理想的检测结果。这是因为航拍视频内容复杂、信息量大、纹理信息丰富,而数据驱动模型在计算显著程度时通常依靠局部信息,没有充分考虑全局信息[12]; 除此之外,航拍图像的应用背景通常比较特殊,所以数据驱动、独立于任务的ROI检测算法在应用于航拍图像时存在一定的局限性。
2. 3 任务驱动提取 ROI
任务驱动模型基于自上而下的视觉注意机制建立,与观察者已有的经验、心理模型以及所处的任务等因素有关。由于涉及记忆、控制等模块的分工协作,甚至包含解释感觉信息等十分复杂的过程,人们难以得到通用的任务驱动模型,但在实际应用中,针对某一任务,利用其先验知识,可以有效地提取ROI。例如,在人物视频中,由于人脸区域通常是感兴趣区域,使用人脸检测算法引入人脸对视觉注意的影响可以大幅提高ROI提取的准确程度。
如前所述,航拍视频具有内容复杂、信息量大、纹理信息丰富等特点,因此单纯的基于数据驱动的建模方法难以得到理想的ROI,但由于航拍视频应用背景特殊,具有充足的先验知识,因此很适合利用任务驱动模型提取ROI。下面针对航拍视频中不同检测目标介绍目前常用的算法。
建筑物是城市区域的重要标志,检测结果可用于城市规划、智能驾驶等民用领域,以及军事目标识别、打击等军事领域。在高分辨率图像上,建筑物目标一般结构复杂、形状多样,且所处环境复杂、干扰较大。一类方法是边缘驱动或区域驱动算法[13],关注像素或区域的部分特征,具有简单高效的优点。此类方法对建筑物边缘进行折线逼近和感知编组,对于平顶直角建筑物的提取准确率高、鲁棒性好; 采用预定义形状和大小的滑动窗模型提取建筑物等。另一类方法是基于对象分析图像进行信息提取[14],如通过Boosting算法训练分类器,根据选取的样本特征学习提取目标; 采用对手惩罚竞争学习方法分割图像,并选择基于空间包络模式的支持向量机进行分类,最后通过结构特征确定建筑目标。
机场跑道的识别对于飞机起降等过程十分重要。由于机场跑道具有一些普遍特征,即自身灰度比较平稳,且呈长方形,所以此类检测问题可以转化为检测直线。最为经典的直线检测算法即为霍夫变换,它对噪声不敏感,但是计算复杂度高,实时性差。针对霍夫变换的改进方法有基于图像空间多尺度划分的霍夫变换方法[15],可以检测出边缘较短的线段,再通过线段连接,得到完整的跑道边缘。另一种常用的方法为链码跟踪法[16],其计算量小,但对噪声敏感。将改进的链码跟踪与分层霍夫变换相结合,既可以精确地检测出目标,又可以大大提高运算速度,该方法可以进行实时高精度检测,并且对于遮挡干扰、模糊干扰都具有良好的抵抗性。
城市道路的识别对于地图、导航等十分必要,由于城市道路通常处于密集建筑物群和其他地物中,背景复杂。因此自动提取的方法,如基于边缘、基于平行线对、基于二值化和知识提取的方法,得到的信 息过多,不适合实 际应用。文献[17]提出了基于统计-几何模型的方法,根据道路的形状和灰度特征建立几何模型,并根据概率分配得到检测结果,该方法具有较高的稳定性。文献[18]提出的基于动态规划的提取方法,先从低分辨率图像中建立道路的特征模型,再通过改进代价函数在较高分辨率图像中提取道路区域。结合LiDAR点云数据,可以降低算法对单一数据源的依赖性。
桥梁对于运输、军事打击等具有重要意义。根据桥梁是架设在水面上,以及桥梁和水域各自的灰度特征和几何性质存在很大差异的特点,可以建立典型场景模型进行匹配。模型驱动的方法计算量小、实时性好,但是建立模型需要大量的图像以取得先验知识,使得其应用具有局限性。由于不同场景的桥梁类型不同,具体特征也存在较大差异。有很多方法选择了检测河流区域,然后通过河流和桥梁的位置关系计算得出桥梁所在区域[19]。根据桥梁的灰度范围和灰度梯度与河流存在明显反差,首先建立河流特征模型,并通过形态学等方法处理提取河流,然后即可通过河流走向及水域间距离搜索得到图像中的桥梁位置。考虑到一些图像中桥梁和水面、陆地的灰度并不十分明显,文献[20]还提出了通过水面纹理特征分割水域的方法,该方法能够有效识别近景、远景和低对比度航拍图像中的桥梁区域,定位精度较高。
现有的检测运动目标的方法,大多数都是针对静止背景,或背景变化较小的场景,通常可以采用简单的帧差法进行运动目标的提取。但是在航拍图像中,随着拍摄的进行,镜头在不断运动,背景也存在着不规则的运动。随着背景运动补偿技术的发展,运动背景下的目标定位成为了可能。现有的方法通常为,先得到背景的仿射模型参数,以进行运动背景补偿,再使用基于运动向量聚类的方法定位运动目标。为得到背景的模型参数,可以利用稀疏采样块的方法,具体如局部补偿误差函数泰勒展开算法或Huber函数估计方法,以及利用图像特征点的方法,如最小亮度变化算法、圆形模板和多格算法等[21]。
3 基于感兴趣区域的编码技术
基于ROI的编码技术,通常采用分级压缩/解压缩的图像编码方式,对非感兴趣区域采用较高的压缩比,而对感兴趣的目标区域采用较低的压缩比,从而大幅减少了数据的实时传输量,同时对目标识别有很好的效果。图4对比了航拍视频中,采用相同比特率,普通编码与ROI编码的同一帧图像。基于ROI的编码技术( 图4b) 将桥梁设为感兴趣区域,给该区域( 方框内) 分配更多的比特资源,使其失真变小; 非感兴趣区域( 如圆圈内) 的比特资源变少,其失真较普通编码更大。由于在实际应用中,感兴趣区域的失真程度往往决定着视频编码的质量,因而基于ROI的编码有着更高的应用价值。
目前常用的基于ROI的编码方法有编码预处理、可变比特率编码、恒定比特率编码和分层编码。编码预处理在编码前即对视频进行处理,可以用于不同类型的编码器。可变比特率编码和恒定比特率编码分别控制视频的输出质量和比特率在较小范围内波动。分层编码则是考虑到信道的特性,根据给定的比特率,得到最优质量的视频编码。
3. 1 编码预处理
编码预处理是指在编码前对视频序列进行预处理,减少非感兴趣区域的细节信息,同时保留感兴趣区域信息。由于非ROI的细节信息变少,编码器可以用更少的比特对这部分进行编码,而编码后ROI的质量与原画质相近,利用HVS的视觉注意机制,实现了基于感兴趣区域的编码。
编码预处理通常利用空间模糊来减少细节信息。对画面中某一区域进行模糊处理的强度与该区域的感兴趣程度相反,感兴趣程度越高,模糊强度越低。一种最简单的预处理方法就是将视频画面分为前景和背景,只对背景区域进行模糊处理,但这样会使前景和背景之间产生明显的边界现象。为了解决边界问题,Itti[2]采用了变化连续的模糊处理,与感兴趣区域距离越远,模糊强度越高。除了空间模糊,编码预处理还可以通过时域处理实现[22]。编码器在编码时会利用视频的时域冗余度进行压缩,即将画面中的点用同一位置的不同帧像素的残差表示。对视频序列进行时域的“模糊”,可以减小残差,使编码器用更少的比特对视频进行编码。
由于是在编码前对视频进行处理,编码预处理不需要改变编码器结构,就能与任何编码器结合进行基于感兴趣区域的编码,十分易于实现。同时,由于很多编码器都是以“块”为单位进行编码,通过修改编码器实现的ROI编码方法容易引起明显的块效应,利用编码预处理技术可以有效避免这一问题。
编码预处理将质量控制与编码分离,虽然便于与不同编码器结合,但也导致其在与具体编码器结合时,无法充分发挥编码器性能,存在效率低下的问题。
3. 2 可变比特率编码
可变比特率编码是指输出码率可变的编码,其输出码率可以根据输入信号的复杂度进行自适应调整。基于ROI的可变比特率编码根据人眼对画面中不同区域的感兴趣程度,以不同的编码参数进行编码,使得输出视频的感知质量相对平稳。由于可变比特率编码的目的是保持输出质量不变,不同帧的编码比特数可能有很大差异。
现有的一些编码器支持对不同区域使用不同参数进行编码,因此可以直接实现可变比特率编码。FMO( Flexible Macroblock Ordering) 是H. 264编码标准提供的一种技术。不同于通常的图像扫描顺序,FMO允许宏块以一定的逻辑规则映射到相应的片( slice group) 里,突破了传统意义上片的划分。利用FMO灵活分片的特性,根据视觉感兴趣程度将宏块划分到不同片,再分别以不同的参数( QP、目标比特数等) 进行编码,是目前基于H. 264的感兴趣区域编码的一类常用方法[23]。
可变比特率编码允许码率根据场景的复杂度在一定范围内变化,因而能够获得近似恒定的视频服务质量,它能较好地平衡视频图像质量和输出码率波动之间的关系。由于用较多的比特对感兴趣程度高的区域编码,用较少的比特对感兴趣程度低的区域编码,可变比特率编码更适合于存储,而不适合流式传输。
3. 3 恒定比特率编码
恒定比特率编码( Constant Bit Rate,CBR) 方法将编码视频的比特率控制为基本恒定,只在目标比特率附近有较小的波动,因此编码输出的质量随着内容复杂度的变化而变化。为保持比特率恒定,通常的做法是改变编码参数。考虑到人眼的视觉特性,赋予感兴趣区域较多的比特数,而减少对背景编码分配的比特数,可以在不同视频场景下,保持每帧编码的比特率不变,而编码后的视频质量存在一定的差异。
为了在ROI和非ROI之间合理地分配比特数,从而在使用相同的比特数进行编码的条件下,达到更好的视频感知质量。可以在编码时分配给ROI较多的比特数,提高整体的视频质量。同时,为了降低编解码的计算复杂度,需要调整编码参数,如运动估计的模式、运动估计子像素的精度、运动估计搜索范围以及运动估计多参考帧等。这样,由于减少了ROI以外区域的计 算复杂度,整体的编 码时间大 大缩短。文献[24]建立了运动外推编码复杂度传播模型,该模型决定了帧内ROI和非ROI之间的比特分配,而视频的帧间比特分配由比例积分微分( PID) 决定,由此取得了一致感知质量和平滑缓冲区波动之间的平衡。
文献[25]根据人眼注意机制,将宏块按照其在帧内的位置分成了5种类型。该方法选用平方率量化模型表示码率、量化步长和均方差( MAD) 之间的关系。针对场景变化较小、运动缓慢的视频,采取线性MAD预测模型,使得运算复杂度降低; 通过MAD确定帧的复杂度,进一步决定比特分配。再通过宏块的类型确定QP值,并限定了QP的变化范围以保证画面的平滑。
根据HVS对高频信号失真不敏感的特点,文献[26]结合了视觉感知图对ROI进行编码。在H. 264编码过程的整数变换后、量化前,使用频率系数矩阵将高频分量按照视觉重要程度进行截断。从而给视觉重要的区域分配了更多的比特数,提高了这些区域的质量。
文献[27]在MPEG-4平台下,提出了一个区域权重率失真模型。基本层在编码ROI区域时的QP值取决于该模型计算出的各区域的编码权重。在增强层,通过位平面平移的方法来改变ROI的重要程度。例如,当码流被截断时,被放在比特流的前端包含ROI的宏块,就可以得到保留,与其他部分相比,被提升的宏块具有更好的视频质量。文献[28]针对MPEG-4的视频编码,提出了一种基于凸优化的对象级码率控制算法。该方法利用率失真( R-D) 模型,计算出当整体的失真程度最小时,一帧内多个VOP之间的比特最优分配。为实现对象级的ROI编码,在MPEG-4中,可以给不同的对象( Visual Object ,VO) 分配不同的权重。然而,如何准确分割对象是基于对象的编码方法的难点。
在流式传输中使用恒定比特率CBR编码最为有效。使用CBR编码时,比特率在流的进行过程中基本保持恒定,并且始终处于由缓冲区大小确定的时间窗内。CBR编码的缺点在于编码内容的质量不稳定,所以CBR流的某些部分质量会比其他部分差,相邻流的质量也会出现差异。
3. 4 分层编码
由于网络的异构性特点,以及网络流量随着时间的变化而变化,网络信道容量不再是固定的参数。一方面,编码器难以确定在不同比特率下如何使得编码视频的质量最优,另一方面,解码端可能无法及时解码所有接收到的比特以重建视频信号。因此要求比特流在一定的范围内波动时,对于任意的比特率进行部分解码,并在该比特率下得到重建的最优质量视频信号。
MPEG-2标准中提出了信噪比可扩展、空间可扩展和时间可扩展的方法,根据信道容量的不同,只解码部分比特流,使得比特率可以根据接收到的比特数进行自适应调整。层间可扩展性编码通常的特性为: 增强层的数据或者全部被接收解码,或者全部没有解码,完全没有起到增强的作用。而在MPEG-4中,精细可分 级编码 ( Fine Granularity Scalability,FGS) 增强层的比特流在编码完成后,每幅图像可以被截成任意比特数的流,解码器可以从基本层和截断的增强层比特流中重建出一个具有增强效果的视频。增强层的视频质量与解码器分配给每幅图像解码的比特数成正比。
多向位平面解码过程( MWBDP)[29]在解码时增加了一个延迟单元。在与寻找开始标志和多VLD分量结合后,可以重建一个快速位平面解码器。在FGS的增强层中,所有的解码过程共享一个帧缓冲区,该方法可以实现一个近似实时的解码器。宏块同步解码方案中,FGS增强层宏块可以在与之对应的( 即具有相同地址的) 基本层宏块重建后立刻开始解码,而不需要基本层的帧全部重建后再开始解码。该方案在基本层和增强层中,减少了内存读取的次数,并且更好地利用了高速缓冲存储器。
H. 264中的FMO技术在基于ROI的可伸缩视频编码上也有不少应用。在分层编码的架构中使用FMO结构,一方面有效地提高了解码的容错性,另一方面实现了基于ROI的选择性增强编码和优先传输,从而有效地克服了网络带宽的抖动带来的影响。文献[30]利用运动矢量估计和分隔编码模式分别对基本层和增强层的ROI进行定位选择,并结合FMO特性,对ROI和背景区域做不同的片划分,使ROI片的优先级最高。对运动矢量较大和分割尺寸较小的ROI宏块进行位平面提升,从而在码流被截断时,这些宏块被保留的几率增大,优化了增强层的解码质量。同时对增强层ROI采取了基于FMO特性的编码方法,提高了解码的容错能力。
4 总结与展望
本文总结并分析了现有的几种基于感兴趣区域的编码技术。利用人眼的感知特性,在视频中提取感兴趣区域,可以在人感觉无明显质量损伤的条件下,去除更多的数据冗余。从而在有限的带宽环境下,传输更多的数据,得到符合标准质量的视频。航拍图像中,感兴趣区域集中在运动目标以及桥梁、机场、道路、建筑等人工目标。针对每一类具体目标,分别介绍了几种代表性的自动或半自动ROI提取方法,并对其优缺点作了简要介绍。对此类算法的评价,传统的客观质量评价指标,诸如均方误差( MSE) 、峰值信噪比( PSNR) 等存在一定的缺陷,近年来也有很多人提出了与ROI技术相适应的评价指标。基于感兴趣区域的编码技术,基本思想是提高分配给感兴趣区域的比特数,并赋予其较高的优先级进行编码传输。
视频压缩技术论文 篇6
H.264/AVC标准是一种高性能的视频编解码技术,相比以前的标准,具有更高的压缩率、高质量图像、容错功能、并有很强的网络适应性。
随着Android技术的迅猛发展和日趋成熟,其开放性、便携性、良好的兼容性、无缝结合网络通信等特点将使Android操作系统在未来工业领域中有广泛的应用。
1 系统概述
基于Android平台的视频服务器监控系统由监控前端、监控终端和网络3部分组成。监控前端是一个嵌入式Android系统,通过S3C6410的USB摄像头采集视频数据,并传送给Android应用层的编解码模块,应用层通过调用JNI接口链接Android底层封装的动态库,实现基于H.264标准视频压缩,将压缩数据打包发送到IP网络上,监控终端通过网络接收数据包,最后解码进行实时播放。基于Android平台的H.264视频压缩技术的总体框架图,如图1所示。
2 系统的硬件设计
基于Android视频服务器系统包括视频信息采集模块、视频信息编解码模块、视频数据传输和显示模块组成。视频信息采集和编码模块是整个监控系统的前端,主要由USB摄像头和Android底层的系统库实现;视频数据传输模块是整个监控系统的中继,负责监控前端和监控终端视频数据的交互工作;监控终端主要由LCD显示模块和电源模块组成,LCD显示模块实时查看视频,电源模块为系统提供运行所需的能量。
该技术设计采用Samsung公司的ARM11 S3C6410嵌入式处理器为核心,其主频为533 MHz/667 MHz,S3C6410是基于16/32-bitRISC内核的低成本、低功耗、高性能微处理器解决方案,内部集成多个功能强大的硬件加速器,结合外部极佳的接口设备,能够满足Android程序开发的需求。其外接存储设备包括256 M的DDR-SDRAM、2 MB的NOR Flash、2 GB的NAND Flash。外围接口包括串行口、JTAG调试接口和USB接口,其中USB接口连接摄像头负责视频数据的采集,LCD进行实时显示。视频采集设备硬件结构如图2所示。
3 软件设计概述
Android的系统构架分为应用层、应用框架层、系统运行库和Linux内核层,Android应用程序的开发通过应用框架与Android底层进行交互。技术实现设计采用模块化设计方案,主要包括底层驱动移植模块、视频采集模块、视频压缩传输模块和视频显示模块。
基于Android的视频服务器系统主要包括监控前端、中间网络和监控终端。监控前端的USB摄像头采集视频数据,Android应用层调用封装的JNI库进行标准的H.264压缩,经过网络打包发送给监控终端,终端通过解码实时查看视频。其中流媒体服务器主要由3层结构组成:服务器、网络服务接口和驱动模块,如图3所示。
3.1 操作系统结构
Android作为终端操作系统,其软件层次自下而上分为:基于Linux内核的操作系统层,各种库和Android 运行环境,应用程序框架和应用程序。结构图如图4所示。
(1)应用程序。
应用程序包括Email客户端,SMS短消息程序,日历,地图,浏览器,联系人管理程序等。所有应用程序均使用Java语言编写。
(2)应用程序框架。
应用程序架构设计简化了组件的重用;任一个应用程序都可以发布功能块并且其它应用程序都可以使用其所发布的功能块。
(3)系统运行库。
当使用Android应用框架时,Android系统会通过一些C/C++库来支持使用的各个组件,使其能更好地服务。其中包括Bionic系统C库,多媒体库,关系数据库SQLite,Web浏览器引擎Webkit等。
(4)Linux内核。
Android 的核心系统依赖于 Linux 2.6内核,它同时也是硬件和软件之间的抽象层。此外Android对其做了部分修改,主要涉及两部分。Binder(IPC):提供有效的进程间通信,实现了自己的功能;电源管理:主要为省电,作为手持终端设备低耗电是追求目标。
3.2 底层驱动移植模块设计
Android系统本身是一个庞大的系统,移植需要考虑Android系统的硬件抽象层(HAL)和Linux中的相关设备驱动程序。移植的目的就是为了改动较小的内容,支撑较为庞大的上层系统。该系统驱动的移植主要为满足上层应用层的USB摄像头视频采集需求。
Android系统驱动移植首先要熟悉硬件抽象层的接口,其次要集成和复用已有的驱动程序,主要的工作量在硬件抽象层的实现中。移植的主要工作有两方面:Linux驱动、Android系统硬件抽象层。
USB摄像头驱动程序介于视频采集应用程序与Linux内核中USB核心的中间层。其一,USB摄像头驱动向USB核心注册本身的信息,并调用USB核心提供的API函数为上层服务;其二,应用程序通过调用USB摄像头驱动的一套接口函数进行视频采集和调整摄像头参数等操作,如图5所示。
3.3 视频采集模块设计
基于Android系统的H.264压缩技术的视频采集部分包括Android视频流的提取以及Android界面设计两部分。Android可以在拍照视频预览时截取视频流的数据。每获得一帧调用相应的接口函数。其中在Android的上层界面中定义了一个SurfaceView类,主要用于显示采集到的图像。Android通过USB摄像头采集格式为YUV的视频数据,通过SurfaceView类接口传输到应用层通过图像绘制进行显示。
应用程序界面设计具体步骤:打开Android项目里的res\layout目录,用xml语言来编辑设计程序界面。首先确定界面的布局,嵌套ViewGroup的LinearLayout和RelativeLayou进行布局,调整android:layout_width、android:layout_height、android:background、android:padding等参数值,达到满意的整体布局效果。然后在ViewGroup布局中添加View控件:textview、button根据实际需要调整各控件的android:id、android:layout_height、android:layout_width等参数值,最终完成对Android应用程序UI的布局。
3.4 H.264视频压缩模块设计
H.264是由ITU-T的VCEG和ISO/IEC的MPEG联合组建的联合视频组提出的一个新数字视频编码标准。它由VCL层和NAL层组成,VCL层主要负责编解码,主要包括运动补偿、变换编码、熵编码等;NAL层主要为VCL提供与网络无关的统一接口,负责将视频数据封装打包后传递给网络。
H.264标准视频压缩算法包括5个环节:帧间帧内预测编码、正反变换编码、量化反量化编码、环路滤波和熵编码。算法流程如图6所示。
技术实现是在Android操作系统上封装编译生成Android底层Library的JNI动态链接库,进而实现H.264标准编解码。具体实现步骤:选择合适的编码器,系统采用X264的编码器。X264省去了部分复杂增益,编码速度非常快,可以对CIF格式图像实时编码。H.264压缩画面以及分辨率:支持CIF/QCIF;图像分辨率:352×288;压缩格式H.264、MPEG-4压缩格式;压缩帧率:1~25帧可调;压缩码率:64 kbit·s-1~2 Mbit·s-1;码流控制方式:变码流、动码流、混合码流。H.264的优势主要体现在下面几个方面:(1)精确匹配解码,避免错误累积;(2)更简单的规范实施;(3)强大的容错能力;(4)高效压缩,比其他视频压缩能力高50%以上;(5)时延级差,以适应更多应用环境等。
3.5 主程序流程设计
基于Android视频服务器系统终端要接受来自监控前端的视频数据,必须采用Socket网络通信技术。
在进行Socket通信前必须对Socket初始化包括:创建Socket、绑定Socket和端口号、开始监听端口等步骤。创建Socket服务线程。当监听产生后,主进程负责不断循环地监听接收到的请求并建立新的客户连接Socket,创建针对此Socket的通信进程。
3.6 显示模块设计
Android平台的视频服务器监控系统终端显示需要对视频数据进行解码,通过LCD液晶显示屏实时观看。解码过程是编码的反变换,其中包括获取视频流,视频流信息的配置,视频流的帧解压,以及图像处理过程。该系统选择4.3寸(10.92 cm)LCD显示屏在进行显示端实时查看视频图像。
4 结束语
基于Android系统的视频客户控制界面,无需专用监控软件、使用方便、成本低。系统通过Arm11 CPU直接进行视频处理和传输,在提供高性能的同时,也允许在性能和功耗间做权衡满足某些特殊的应用需求。鉴于Android视频服务器的高性能和前沿性,基于Android平台的视频服务器可以在安全性要求高的各种场合得到应用,同时结合实际的应用再可以进行功能扩展,可应用到众多的有线或无线视频监控领域。
摘要:提出了基于Android平台的H.264视频压缩技术设计方案,该方案终端设计是基于S3C6410处理器的硬件和Android 2.3版本的软件平台,通过终端USB摄像头的驱动移植、视频图像的H.264标准压缩以及Socket网络编程,实现网络视频监控的实时显示。
视频压缩技术论文 篇7
1 MPEG-4的标准及其技术概述
针对现有MPEG-4的应用现状, 可将其具体特点总结如下:第一, 交互性。通过对相关内容的操作与对码流的编辑, MPEG-4能有效实现混合编码, 使各类码流在时间域内实现随机存取, 表现出极强的交互性特点。第二, 无论是从主观或是客观角度来讲, MPEG-4的压缩比均优于MPEG-1, 表现出明显的高压缩比特征。第三, 存储规律性。利用MPEG-4编码技术, 能够有效实现对不同类型图像的统一性存储, 虽说在图像存储过程中可能会出现对不同图像的细节进行丰富的程度不一等现象, 或者在存储过程中可能涉及到不同码率的采用, 但这并不影响对图像的统一性存储。
根据MPEG-4的标准视频框架, 可将基于MPEG-4标准的数字视频压缩的具体实现过程归纳如下:首先根据编码控制的有关机制, 确定其编码模式, 随后对有关数据进行处理, 若为帧内编码则进行DCT数据变换, 再交由合成器加工使之形成视频流重构预测帧, 作为下一帧的编码参考帧。如此往复直至所有图像帧处理完毕。
2 基于MPEG-4的运动估计分析
在视频压缩的相关技术中, 对运动估计与补偿进行帧间预测是其关键因素。而这一技术的核心内容在于对运动向量的计算。但在实际应用过程中, 对于图像静止区域及运动区域的实时分解及对有关矢量加以计算等问题, 仍存在一定难度, 这也是现今有关研究人员的工作重点内容。运动估计常用于处理帧间编码内容, 在对两帧图像的对比中获取信息, 进而对运动矢量以及当前帧进行合理预测。一般情况下使用运动矢量对各像素块间的相对位置变动进行描述。运动估计的具体实现步骤为: (1) 划分待处理图像序列中的每一帧, 使其形成多个局部结构; (2) 利用参考帧图像, 并使其与实际图像对比, 以获取每帧图像中的运动矢量。这一方法的运用可在很大程度上降低图像的帧间相关性, 使图像的压缩效率得到提升, 避免出现视频时间相关的现象。
2.1 块匹配基础上的运动估计是立足于算法中的匹配规则, 在参考帧与当前帧的不同模块间进行搜索与匹配, 从而得出估计值。
若假定当前帧在分割后形成了m×n的像素块, 每一像素块各不相同, 在X与Y两个方向上的搜索宽度分别设置为Wx与Wy;并假设划分后的同一区域块内各像素具有相同位移。在此条件下, 若设搜索区域范围为 (m+2Wx) × (n+2Wy) , 此时即可在这一搜索范围内获取目标子块的最佳匹配, 并最终经比对计算后得出运动矢量的估计值 (Mx, My) 。而在这一算法的具体应用过程中, 通常采用m=n=8或16, Wx=Wy=w。
2.2 另一种应用较为广泛的算法为自适应运动估计算法, 是在传统算法基础上改进与加工而来本文按照这一算法进行视频压缩, 并将压缩结果与其它算法进行仿真比较, 结果如图1所示。通过读图1可知, 自适应运动估计算法与全搜索算法 (FS) 的输出码率以及PSNR具有相似性, 且搜索效率更高;而相较于另两种算法而言, 在相同图像质量要求的条件下, 自适应算法编写每一帧的时间也有明显缩短, 具有较高的现实应用意义。
3 纹理编码技术的实现
纹理编码的对象具有多样化特征, 既有帧内编码模式的I-VOP, 也可对帧间编码模式B-VOP或P-VOP进行编码处理。纹理编码的主要编码方法仍以8×8像素块DCT编码方法为主, 在帧内编码时, 全部位于VOP内的像素块可进行经典DCT编码;均不位于VOP内像素块则不编码;部分位于VOP内的像素块, 对于超出VOP范围的像素块, 应先利用图像填充技术对VOP外的参考值进行准确获取, 随后再将其与VOP内像素块一起进行DCT编码处理。
需注意的是, 在帧内编码过程中, 还要求对经DCT处理后的DC与AC因子进行有效性预测;而帧间编码时, 出于编码B-VOP或P-VOP运动补偿后预测误差的目的, 一般编码人员灰浆超过VOP范围的像素值设置为128, 以实现编码目标。
结束语
综上所述, MPEG-4现已在多个视频处理的有关操作中受到重视并得到广泛应用, 该标准中还涉及到小波变换、形状多变VOP编码等多种实用性算法。上述算法在MPEG-4标准中的应用也促使MPEG-4更为完善, 其性能也得到了进一步提升, 在现有的应用中也已取得不错效果。目前, 编码人员应加大对减少编码计算量的研究, 通过对现有技术的改进, 以及对具体应用过程中的某些问题进行分析, 并在此基础上提出系统性的改进方案, 有利于推动MPEG-4在更广泛视频处理领域中得到应用。考虑到MPEG-4标准的多方面优点, 该编码技术将在多种类型的视频通信领域中得到应用, 具有较为广阔的发展空间。
摘要:信息化技术的日益普及, 使得数字视频技术成为移动通信、网络及家电信息化发展等领域的核心研究内容。数字视频压缩编码技术很好地将多种高效的图像编码技术进行有机结合, 为图像编码技术的发展与完善提供了具体方向。MPEG-4是数字视频领域的常见标准, 并凭借其优越性得到广泛运用。本文首先对MPEG-4的有关标准与技术进行概述, 随后分别分析了在该标准上建立运动估计和纹理编码的有关知识, 旨在为数字视频压缩编码人员提供参考。
关键词:数字视频,压缩算法,MPEG-4,运动估计,纹理编码
参考文献
[1]陈妍妍.基于MPEG-4视频压缩技术的自适应运动估计搜索算法研究[D].成都:电子科技大学, 2013.
【视频压缩技术论文】推荐阅读:
视频数字压缩10-15
视频压缩算法08-25
音视频数据压缩06-10
压缩编码技术07-15
并行压缩论文10-31
数字图像:压缩技术05-11
数据流压缩技术07-12
音频压缩采集终端论文07-07
活塞压缩机转轮连杆机构技术资料06-05
视频编辑技术07-18