视频质量评价方法

2024-09-14

视频质量评价方法(共11篇)

视频质量评价方法 篇1

随着3D拍摄及显示技术的不断发展, 观众对立体视频的需求持续增长, 这就对立体视频质量监控提出了更高的要求。立体视频的质量评价离不开主观评价实验, 如何开展符合标准的立体视频质量主观评价是研究立体电视系统不能回避的问题。本文以大量相关领域的研究成果为基础, 介绍立体视频质量主观评价的相关标准和评价方法。

1 标准化进展与研究情况

当前, 在立体视频质量主观评价的标准化研究方面, 国际上主要由国际电信联盟 (ITU) 主导。隶属于ITU的第6研究小组 (SG6) 致力于立体视频质量主观评价的课题研究与标准发布[1,2,3,4,5,6]。其中, 有关标清和高清视频的图像质量主观评价的研究所提出的观看条件、评价方法、数据处理等可以沿用到立体视频的评价中[1,2]。此外, ITU还提出了一些在总体上规范立体电视系统的标准或报告:文献[3]确定了双路立体电视的基本要求;文献[4]则从研究背景、产业链、质量评价等各个方面对立体电视系统做了详细说明。这些成果都是立体视频质量主观评价的基础。

ITU已经发布的有关立体视频主观评价的标准有2个, 一是2000年颁布的1438号建议书[5], 该标准确定了立体视频主观评价的评价要素、评价方法、观看条件、评价人员筛选和测试序列选择等问题。2012年ITU又发布了2021号建议书[6], 作为1438号标准的扩展, 该标准更为详尽地规范了立体视频主观评价的各方面内容, 是现有最完整的立体视频主观评价标准。

除ITU外, 研究方向涉及立体视频主观评价的国际组织和机构还有日本的图像信息与电视工程师协会 (ITE) [7]、日本电信电话株式会社 (NTT) [8,9]以及法国电信集团旗下的研究机构Orange Lab[10]等。

在国内, 立体电视系统的主观评价研究主要由广电总局领导, 广播电视规划院具体实施相关的研究工作。中国传媒大学[11,12,13]、天津大学[14]、宁波大学[15]等国内机构也在进行这方面的研究工作。

2 立体视频质量主观评价方法

本节结合ITU标准, 从素材选择、评价方法、观看条件、评价要素、评价人员和数据处理等6个方面全面讨论实施立体视频质量主观评价实验的具体方法。

2.1 素材选择

在需要进行主观评价实验的场合, 首先应该考虑素材序列的选择问题。立体视频素材的选择标准与2D评价不同, 其差异主要体现在3D视频需要考虑观看舒适度和左右眼图像视差的问题。

2.1.1 视差容限与舒适度

除特殊研究目的外, 测试序列不应引起视觉不适。由于立体视频引起视觉不适的主要原因在于视差控制不当, 因此, 素材的视差应处于合理的范围之内。对此, 很多国家和组织都制定了相关的参考标准。日本经济产业省在其发布的指导文件[16]中说明:立体视频图像的正视差应小于双眼间距, 儿童最大值为50 mm;负视差为视差角1°以下。我国广电总局发布的《3D电视技术指导意见》[17]对视差容限的说明为:画面主体内容的视差角应小于1°, 相当于左右眼图像在屏幕上的成像间距小于显示器画面宽度的3%, 约58个像素。ITU在其标准中也使用屏幕水平宽度的百分比来描述舒适观看的极限值:负视差为1%, 正视差为2% (总视差为3%) 。因此, 在选择参考序列时, 要按照标准选择视差处于容限范围内的序列, 避免引起不适。

2.1.2 左右眼图像误差控制

立体视频的左右眼图像差异过大时, 人眼会出现立体融像困难。因此, 选用参考素材时还应该注意控制两眼图像的误差, 具体的考察点主要有:

1) 几何误差:素材序列不应存在高度误差、旋转误差、梯形失真和尺寸误差等。

2) 光学误差:素材序列的左右眼图像在亮度、色调和黑电平等方面应该符合误差控制标准。

3) 实际观看时不应出现串扰、重影等。

2.1.3 现有的参考素材库

ITU在其标准中提出的参考素材库为ITE拍摄制作的视频和照片素材[7], 素材库共包含5幅照片和15个视频序列, 其运动序列截图如图1所示。

除此之外, 专门为立体视频主观评价拍摄制作的素材库还有墨尔本皇家理工大学的RMIT3DV立体视频素材库[18]和法国南特大学的NAMA3DS1-COSPAD1素材库[19]。这2个素材库均使用松下AG-3DA1一体式立体摄像机拍摄, 在各自的网站上可以获取无压缩格式的高清素材。他们的序列截图如图2和图3所示。

随着拍摄技术和标准的不断进步, 今后会提出更多的标准素材库, 为获得更准确的主观评价结果奠定基础。

2.2 评价要素

ITU-R BT.2021号建议书中定义了3个主要的评价要素 (图像质量、深度质量和视觉舒适度) 和2个附加要素 (真实感和临场感) 。其中, “图像质量”是与2D视频主观评价类似的评价要素, 主要反映图像的清晰度、色彩还原和运动表现等。“深度质量”、“舒适度”、“真实感”则是立体视频主观评价特有的评价要素。

“深度质量”是评价员对立体视频体现空间深度能力的主观感受, 可以分为深度清晰度和深度运动两方面。由于2D视频也可以通过透视、虚实等手法体现立体感, 评价员在评价立体视频的深度质量时应注意与2D视频区别。“舒适度”也是评价要素中重要的一项, 不恰当的拍摄和显示都会造成严重的不适。“真实感”是指立体视频对拍摄场景的还原程度, 失真的视频会出现木偶效应 (被摄物体不真实的“大”或“小”) 和卡片效应 (被摄物体在深度方向上变“薄”) 。这些失真现象在主观评价中应得到体现。表1总结出了主观评价实验可以考虑采用的评价要素。

对于不同的测试目的, 可以根据实际情况灵活选取评价要素进行主观评价。例如, 要评价采集和制作系统的性能, 可以着重评价画面的深度感和真实感;对压缩编解码系统的评估, 则可着重评价图像质量、深度质量和舒适度。

2.3 评价方法

ITU-R BT.500号建议书对各种评价方法做了详细说明, 这些方法可以沿用到立体视频的主观评价中。2021号建议书共提出了4种评价方法:单刺激 (SS) 法、双刺激连续质量量表 (DSCQS) 法、成对比较 (PC) 法和单刺激连续质量评价 (SSCQE) 法。各方法的差别主要表现在序列的排列方式和评分量度上。

2.3.1 单刺激法

该方法要求评价员对显示的每个测试序列的各个评价要素依次打分。其序列展示结构如图4所示。

在序列开始前应有小于3 s的灰场画面, 向评价员提示序列的相关信息;然后播放大约10 s的测试序列;播放结束后再出现灰场, 并提示评价员开始打分, 打分时间约为10 s。打分结束后开始下一测试序列的评价。

单刺激法的评分量度分为连续和非连续两种, 均使用五等级评分量度:“优、良、中、差、劣”, 在打分表上应该标明评分量度及提示性文字。结合标准, 本文提出如表2所示的五等级量度具体含义。

2.3.2 双刺激连续质量量度法

该方法将同一素材的2种不同版本 (例如码率不同或算法不同) 依次播放2次, 共播放4次, 评价员分别对这2个序列打分。其序列结构如图5所示。

其中测试序列时长约为10 s, 各序列间灰场间隔约为3 s, 最后的灰场约5~11 s, 评价员在序列播放第2遍的过程中打分, 给出A、B两个序列的主观分数。

本方法的评分量度为连续的五等级量度, 各评价要素的评分说明与单刺激法相同。

2.3.3 成对比较法

源素材序列经过不同处理后, 得到多个序列, 将这些序列成对展示给评价员的方法, 称为成对比较法。其序列结构如图6所示。

若处理后的序列共有N个, 则评价员将观看的序列应该为N (N-1) 对。例如, 序列为A, B, C时, 评价员应观看AB, BC, CA, BA, CB, AC共6对序列。

成对比较法的评分量表使用非连续七级评分, 分别是“-3, -2, -1, 0, 1, 2, 3”, 表示前后两序列的差异程度。评价员在看完一对序列后进行一次评分, 分值越高表示后一序列的效果相比前一序列越好。各评价要素均可使用这一量表进行打分。

2.3.4 单刺激连续质量评价法

该方法使用日常播出的节目, 如体育、新闻、影视剧等, 在序列时长上与前述3种方法不同。将30~60 min的节目分成一个个5 min的节目片段, 对每个片段做不同的处理, 并使这些处理尽可能随机分布 (例如码率随机分布) 。评价员观看整段节目, 并在观看时对所看到的画面连续评分。

这种方法的评分量度为连续的五等级评分量度。由于本方法使用的素材和演示方式和观众日常观看电视节目的方式类似, 所以多用于针对家庭实际环境的主观评价实验。

2.3.5 评价时长

对于舒适度不同的测试序列应注意控制评价总时长。如果待评价的序列都被认为是基本舒适的, 评价实验的总时长可以与2D评价相同, 约为20~40 min;如果序列视差较大, 观看体验不舒适, 则一定要控制评价时长, 保护评价员身心健康。

2.3.6 参考序列的使用

ITU认为, 应尽可能在评价实验中包含未经处理的原始视频序列作为参考序列。单视点的参考图像在立体视频主观评价中也会被用到, 特别是在对舒适度的研究中。此时应该使用与立体视频主观评价相同的播放和显示设备, 左右眼同时播放左视点图像, 再由评价员打分。

另外, 关于主观评价的评价方法, 在序列结构、评分量度和分值提示上, 可以根据实验的实际情况做适当的改动, 相关的研究也在进行中。

2.4 观看条件

2.4.1 播放及显示设备

立体视频主观评价的播放设备应具有双路HD-SDI或HDMI 1.4版本的输出接口, 满足双路全高清 (1 920×1 080) 或帧兼容格式 (SBS) 图像的播放;显示设备应具有相应的输入接口和全高清分辨率的显示, 准确反映序列自身的质量情况。对于主动快门式的显示设备, 应具有较高的刷新频率, 观看正常序列时不应出现串扰和重影。在主观评价实验报告中应标明所使用的显示设备的显示方式、尺寸、清晰度及播放设备的软硬件性能等。

2.4.2 观看距离

当评价员处于某一位置时, 如果眼睛与电视屏幕上相邻像素的夹角恰好为1弧分, 则称这一位置所代表的距离为主观评价的最佳观看距离。对于立体视频的主观评价来说, 显示器件的分辨率一般为1 920×1 080, 此时最佳观看距离为显示器高度的3.1倍。例如, 对于52 in (1 in=2.54 cm) 的电视机, 最佳观看距离应为2.01 m。

2.4.3 观看环境

由于观众收看立体电视的环境与收看2D视频时基本相同, 所以立体视频主观评价的观看环境 (环境照度、显示器亮度与对比度等) 应与2D评价保持一致。需要注意的是, 显示器不能放置在离墙面太近的位置, 这样会使观众感觉图像深入墙体, 引起不适。

2.5 与评价人员相关的问题

2.5.1 评价人数

ITU标准指出, 立体视频的评价结果不及2D主观评价稳定, 在一般情况下, 评价员人数至少应为30人。

2.5.2 评价员的筛选

对评价员的筛选主要考察视力、色觉和立体视觉能力。视力检查可以使用国际标准视力表;色觉检查可以使用Ishihara色盲检查表, 这两项检查主要反映评价员的平面视觉能力, 与2D主观评价相同。立体视觉能力的检查是立体视频主观评价必须实施的环节, ITU在1438号标准[5]和2021号标准[6]中都规定了立体视觉能力的检查方法。测试素材来自ITE[7], 主要测试项目包括:双眼融像能力、粗略的立体视觉、精密的立体视觉、动态立体视觉、双眼视力、水平斜视、垂直斜视、不等像视和回旋斜位等。

2.5.3 对评价员的训练

由于评价员对立体视频的观看体验不及2D视频丰富, 对评价要素的含义也需要熟悉的过程, 因此, 在主观评价开始前要对评价员进行立体视频的观看训练。实验人员还应说明研究目的和序列的演示结构, 详细解释各个评价要素的含义和打分方法。如果序列中可能出现令人不适的画面, 实验人员应在实验前向评价员说明, 防止评价员情绪受到较大波动。

2.5.4 减少评分差异

由于对视频内容的喜好程度各异, 不同评价员所打出的分数会存在差异。要减少这种评分差异, 可以增加评价员的样本容量。同一评价员的评分也会出现波动, 可以通过加强训练提高准确度, 并采用重复播放和随机播放的方法减小评分差异。

2.6 数据处理

实施立体视频主观评价实验之后得到的数据, 需要先进行筛选, 然后作统计分析。数据处理方法与2D主观评价相同, 可以沿用ITU-R BT.500号建议书[1]中附件2的处理方法。

3 总结

立体电视视频质量主观评价实验想要得到准确的主观分数, 就必须在各个环节上按照标准进行实验。本文按照建立主观评价实验整个过程的思路, 首先研究素材选择和评价要素, 列举了现有的素材库并对评价要素的具体含义进行了说明。然后对ITU标准提出的四种评价方法做了详细介绍, 并说明了针对不同要素和评分量表的具体评分方法。文章最后介绍了观看环境、评价人员和实验后的数据处理等问题。

今后关于立体电视视频质量主观评价的研究, 可以主要集中在评分方法的比较和改进上, 以获得更为准确、稳定的主观评分, 为立体视频质量客观评价模型的建立奠定基础。

摘要:主要研究了立体电视视频质量主观评价的标准化进展与相关的研究情况, 着重对ITU-R BT.2021号标准进行了解读, 从素材选择、评价要素、评价方法、观看条件、评价人员、数据处理等6个方面介绍了立体视频质量主观评价实验的具体实施方法。

关键词:立体电视,质量评价,主观评价,标准解读

视频质量评价方法 篇2

土壤环境质量评价方法初探

摘要:研究土壤环境质量评价方法,分析统计数据离散程度及其分布特征,对照土壤环境质量标准,得出评价结果.作 者:刘虹 LiuHong 作者单位:牡丹江市环境监测中心站,黑龙江,牡丹江,157000期 刊:黑龙江环境通报 Journal:HEILONGJIANG ENVIRONMENTAL JOURNAL年,卷(期):2010,34(1)分类号:X820.1关键词:土壤环境 单项污染指数 评价方法

信息系统运行质量评价方法研究 篇3

【摘 要】本文提出了信息系统运行质量评价管理模型的概念,明确了信息系统运行质量评价工作的目标、评价的关键领域;在此基础上,进一步论述了构成信息系统运行质量评价体系框架的主要环节,包括:目标识别、关键成功因素识别、指标确定、评价矩阵设计、评价监控;最后对实践中三个有益的经验进行了总结。

【关键词】信息系统;运行质量评价管理模型;运行质量评价体系

【中图分类号】C931.6【文献标识码】A【文章编号】1672-5158(2013)07-0072-04

1 引言

随着企业信息技术应用的不断深化,当前ERP、OA、PDM、SRM等核心应用系统在企业已经普遍投入使用,企业的信息化建设形成了一定的规模。信息系统对企业的业务运营和发展起到重要的支撑作用,已经成为企业决策、内部管理和业务执行中强有力的工具。

信息系统平台建设过程可以遵循项目管理的要求,按照相应的信息系统建设的方法进行项目建设;信息系统项目建设都有其预定的目标,达到项目目标和满足相应的管理需求,也是项目能够成功验收的先决条件。然而,信息系统平台成功验收之后,如何对日常运行的信息系统进行有效监控和管理,督促应用部门按照既定的业务蓝图方案执行业务和管理活动,并不断地优化信息系统和改善应用效果,确保系统的建设成果的持续保持?另外,企业不同的业务单元/部门应用同一信息系统的运行质量如何进行评价?如何帮助这些业务单元/部门提高应用水平,提升应用效果?

上面都是企业管理者很关心的问题,能否参照企业效绩管理的思路,建立一套信息系统运行质量的评价体系,以量化评价指标对应用单位进行评价,直观地反映信息系统运行质量情况?建立相应的评价指标能够很好地引导企业改善信息系统应用状况。我们建立的评价体系必须尽可能全面、客观和科学,如果建立的评价指标本身质量存在问题,那么指标导向的结果可能是不正确的或片面的,有时甚至会出现误导。

建立信息系统运行质量监控的评价体系工作涉及的内容较多,需要考虑的因素也较为零散,没有这方面现成的资料可以参考,这就很有必要对此工作进行系统地分析和总结,为科学地组织该项工作提供依据和帮助。本文将围绕信息系统运行质量评价管理模型的理论,对信息系统运行评价工作中的策略、方法及操作程序进行分析、探讨和归纳,希望能对从事该项工作的人士有所帮助。

2 信息系统运行质量评价管理的目标

2.1 与企业信息化相关的评价活动的层次划分

图1 与企业信息化相关的评价活动的三个层次

与企业信息化相关的评价活动通常可以分为三个层次:绩效管理评价、信息系统运行质量评价和信息系统服务质量评价。

1、绩效管理评价主要是基于企业的战略目标建立的绩效管理指标体系的评价活动。绩效管理指标体系通常依据平衡计分卡(Balanced Score Card)的原理进行建设,平衡计分卡主张从企业的战略出发,从财务、客户、内部流程和学习成长四个方面来评价组织的绩效。绩效管理评价工作的目标是衡量企业、部门和员工的绩效状况,引导企业的组织和员工服务于企业共同的战略目标,帮助企业实现既定战略目标。

2、信息系统运行质量评价是基于信息系统运行质量评价管理目标建立的运行质量评价体系的评价活动。参与评价的信息系统是已经进入正常应用阶段的系统,不包括正在建设阶段,还没有上线运行的信息系统。信息系统运行质量评价管理的目标是运行质量评价活动的出发点,该层次的评价活动是需要围绕信息系统运行质量评价管理目标来开展,并帮助企业实现管理目标。

3、信息系统服务质量评价活动主要的评价是基于IT部门的信息系统服务支持能力。该层次评价管理内容包括:评价信息系统服务级别、信息系统可用性、连续性、容量和IT事件的及时解决情况等。目标是通过服务质量评价活动提升IT部门服务水平,最终提升用户满意度。

通过对与信息系统相关的评价活动的分层,我们发现:绩效管理评价是与企业经营管理的成果相关的,是企业经营战略导向的;信息系统服务质量评价是与IT部门的提供的服务能力相关的,是用户满意度导向的;而信息系统运行质量评价则是与信息系统运行效果相关的,是信息系统的建设目标导向的。

2.2 信息系统运行质量评价管理的目标

要搞清楚信息系统运行质量评价具体应该从什么地方入手,关键还是要理清我们进行信息系统运行质量评价管理的目标到底是什么?如果信息系统做到了数据处理的准确、完整和及时,是否就可以说这个信息系统运行得很好了?是否就可以满足管理目标了?我们需要进行深入分析,但首先要明确信息系统运行质量评价管理的目标。

企业在建设信息系统项目时,正常情况下需要先明确应用需求和建设目标,项目需求和建设目标也是项目能够验收的重要标准。我们认为进行运行质量评价工作,其目标是通过设立评价的指标体系,量化分析信息系统运行的质量状况,监控信息系统运行,引导信息系统运行符合相关的业务蓝图方案、管理规范等支撑文件的要求,以支持信息系统建设目标的持续实现,并不断地优化改进。

通过对评价管理目标的澄清,我们发现:

1、信息系统运行质量评价并不直接关心企业经营管理的成果,这方面是企业绩效管理评价关心的事情。信息系统运行质量评价关注是系统运行是否还在按既定的业务蓝图方案、管理规范和其他相关管理文件要求在运行,进而推动信息系统建设目标的落实,最终是为企业战略目标的实现而服务。需要说明的是,企业确定信息系统的建设目标应该是与公司的战略目标是相符的;而我们在建设信息系统项目时,制订的解决方案、业务蓝图方案以及其他相关的管理规范是能够保障信息系统达成建设目标的。

2、企业经营环境不是一成不变的,企业战略目标和管理需求会不断地调整,这就要求信息系统也必须不断优化和改进,以适应变化的需求。信息系统运行质量评价虽不直接关注经营绩效与企业战略目标的实现,但必须关注信息系统建设目标的变化,要监控和促使信息系统运行优化与改进。

3 信息系统运行质量评价体系

3.1 信息系统质量评价管理模型

信息系统运行质量评价体系方面可以参考企业绩效管理的相关经验设计以下管理模型:

图2 信息系统运行质量评价管理模型

信息系统运行质量评价管理模型包括9项内容,参考“波特战略轮盘模型”设计为轮盘形状。信息系统运行质量评价管理目标(见2.2)位于管理模型的核心,是其他各个领域评价活动的目的地。模型中其他8项是整个运行质量评价管理的关键结果领域(KRA)(注:KRA是实现整体目标不可或缺的、必须取得满意结果的领域,是关键成功要素的聚集地),具体内容包括:

1、数据领域

数据可比为信息系统的“油料”,给信息系统提供了运行的驱动力。信息系统的数据可以分为输入数据和输出数据两大类。对数据领域的运行质量评价可以关注输入数据的准确、完整、及时和输出数据的适用性。评价数据的准确、完整、及时和适用性的评价标准依据支撑文件领域提出的相关要求或管理规则制定。

2、功能领域

功能可比为构成信息系统的“驾驶台”,提供了信息系统运行的操控界面。信息系统直观上看就是由一个个功能点组织起来的,而信息系统运行也表现为各项功能点有机地运行。对功能领域的评价可以关注用户对各功能点操作的正确性和使用的全面性。评价的标准依据支撑文件领域的操作手册、操作规程、蓝图方案、解决方案等制定。

3、流程领域

流程可比为信息系统运行的“线路图”,提供了信息系统运行的行驶路径。信息系统运行所执行的业务流程是由用户的一系列“动作”组成,这些“动作”有的涉及系统的功能和数据;有的与系统的功能并无关系,但是却是流程中不可缺少的环节,就是常说的“线下”操作,但这些都是信息系统运行评价管理的范畴。流程领域的评价可以关注重要业务流程执行是否与支撑文件领域的业务蓝图方案、解决方案、决议等相符合,评价标准依据支撑文件领域相关文件制定。

4、运维领域

系统运维可比为信息系统的“后勤保障”,提供了信息系统运行的维护服务。系统运维虽不直接参与信息系统运行相关的业务过程,但对信息系统的“健康”运行则至关重要。对运维领域的评价可以关注事件和基础数据、权限、程序及系统参数的变更处理过程是否合规。该领域的评价标准依据支撑文件领域的相关系统运维管理制度、服务管理规范等制定。

5、用户领域

用户可比为信息系统的“驾驶员”,提供了信息系统运行的操控者。用户对信息系统运行的作用是不言而喻的,任何系统都由人直接或间接进行控制和操作的,管理文件也是由用户来执行的,用户领域对信息系统运行质量有着决定性的影响。对用户领域的评价可以关注用户基本素质要求、培训情况和考核情况等。该领域评价标准依据支撑文件领域的项目章程、实施公约、管理制度等规范性文件制定。

6、支持团队领域

支持团队可比为信息系统运行的“教练”,提供了信息系统运行的指导者。支持团队包括关键用户、企业内部系统工程师和外部咨询顾问等。支持团队对信息系统运行起到培训指导、检查督促和管理的作用,而且也是运维活动的执行者。对支持团队领域的评价可以关注支持团队的设置状况、支持能力等。该领域评价标准为支撑文件领域的项目章程、实施公约、管理制度等规范性文件。该领域评价标准依据支撑文件领域的项目章程、实施公约、管理制度等规范性文件制定。

7、支撑文件领域

支撑文件好比是信息系统运行的“操作规定/指南”,提供了信息系统运行的规则。信息系统运行评价的支撑文件包括:业务蓝图方案、操作手册、相关管理办法、相关管理/技术标准和其他相关的决议性文件。支撑文件领域为以上6个领域提供了评价的标准,因此支撑文件领域在评价管理模型中包围着以上6个领域。对于支撑文件领域的评价应该关注支撑文件本身的编制质量,及时反映应用需求变更的情况。

8、持续优化领域

持续优化好比是信息系统运行的“路况分析”,帮助信息系统根据情况调整路线,保证平稳快速地驶向目标。信息系统运行本身不是一成不变的,是需要根据建设目标和应用需求的变化进行持续调整的。持续优化领域在评价管理模型中包围着其他领域,喻示着信息系统运行的各个领域都需要持续优化和调整,以适应不断变化的应用需求和建设目标。对于持续优化领域的评价可以关注用户应用建议、支持团队的解决方案、会议决议及执行情况。

信息系统运行质量评价是一项综合性较强的IT绩效管理工作。涉及的领域相互关联,这有点像我们评估一下能不能开车去北京,我们不仅要注意加对和及时加足油料(数据),还要注意正确地使用汽车的方向盘、油门和变速箱等操控部件(功能);同时你要选好道路(流程),特别是你还得有驾照和驾车经验(用户);开车时遇到汽车故障,还得确定在哪些地方可以维修(运维),技术问题可以咨询教练(支持团队)和查阅资料(支撑文件);开车的时候还得小心路面情况和交通提示,适时地调整行程(持续优化),这样才能按计划平安地到达北京。

3.2 信息系统运行质量评价的关键成功因素

关键成功因素(KSF)是一种信息系统开发和规划的方法,关键成功因素指的是对管理成功起关键作用的因素。关键成功因素法就是通过分析找出使得管理成功的关键因素,然后再围绕这些关键因素来确定需求,并进行规划。

关键成功因素的识别,主要是分析影响具体目标的各种核心因素以及影响这些因素的子因素,从中选择决定管理成败的重要因素。关键成功因素的选择力求精炼,通常控制在五、六个因素以内,可以根据评价对象的不同设立不同级次的关键成功因素。在目标识别的基础上,由信息化专家和业务专家参与,通过一系列讨论和分析,完成关键成功因素的确定。

常见的信息系统质量评价管理的关键成功因素如表1:

3.3 信息系统运行质量评价的指标

评价指标的一个重要的管理假设就是一句管理名言:“如果不能衡量它,你就不能管理它”。所以,评价指标一定要抓住那些能有效量化的指标或者将之有效量化。

评价指标是对关键成功因素(KSF)的明确和细化,是关键成功因素的具体评价体系。一个关键成功因素的具体评价指标可以很多,实际应用过程中,根据每个指标的重要程度选择最重要的几个指标,通常控制在三个以内。例如,评价对象是SAP-FICO模块的“输入数据准确性”时具体指标可以是:会计凭证冲销率、内部订单准确率、会计科目准确率。财务模块的“输入数据准确性”虽然可以表现在较多方面,但是这三个指标是其中通常出现问题较多,影响较大的表现方面,需要重点关注。

完整的评价指标主要包括的内容如表2:

* 评价指标库

针对具体信息系统所有领域的运行质量评价指标,我们可以称之为该系统的运行质量评价指标库。从理论上来说,所有工作都有方法量化,但量化的成本上升以及量化的重要性和可管理性决定了对评价指标的选择。所以在评价指标库的基础上,具体应用评价指标时,会有一个指标筛选的过程。

* 评价指标筛选

评价指标筛选是指在评价周期内,根据相关的选取原则在指标库中选择评价指标的过程。

* 评价指标的建立和筛选原则

可以参考的通用原则如下: 1、重要性:指标是本周期的工作方向和工作重点的内容,不能缺少的;

2、可理解:指标简单明了,容易被大家执行和理解;

3、可控制:指标有直接的责任归属方,能够被责任人掌控;

4、可实施性:指标能够促使责任方采取措施改进运行质量;

5、可信赖:指标有稳定的数据来源和科学的数据处理方法来支持;

6、可衡量:指标能够量化,有可信的衡量标准或计算公式;

7、可低成本获取:获取指标结果的成本要低于其带来的价值;

8、与目标一致:指标要与我们信息系统运行质量评价的目标一致。

3.4 信息系统运行质量评价矩阵

运行质量评价矩阵是开展评价工作的重要文件,其本身并不直接用于填写评价结果。通过建立评价矩阵,我们可以确定在当前评价周期内需要用到的元素,包括已经筛选出来的评价指标等。评价矩阵是将来开展评价计算、编制评价报告的基础,建议管理层内部在使用之前进行内部评审确认。

建立评价矩阵需要明确横向和纵向的所有项目,前面所论述的“关键结果领域”及其相关的“关键成功因素”、“评价指标”都可以构成横向的项目,另外横向上为了进行量化评分,还需要考虑“指标权重”;在纵向的元素就是“评价对象”。

“评价对象”是参加评价的应用单位。具体情况下,可以针对应用单位下的各个业务部门,或者应用单位的信息系统的各个子系统进行细分。

图3 信息系统运行质量评价体系框架

根据以上论述,我们可以设计图3所示的信息系统运行质量评价体系框架。该框架由围绕信息系统质量评价模型的五个环节组成,五个环节分别是目标识别、关键因素识别、指标确定、评价矩阵设计和评价监控。

1、目标识别:根据评价模型,分析具体的信息系统的应用领域特点、应用范围分布和评价管理的需求,确定运行质量评价的具体目标;

2、关键因素识别:基于评价模型的8大领域,分析相关的关键成功因素,也就是找出各个领域中影响运行质量的重要因素,这实际上是一种对目标进行层层分解的工作方法,具体见3.2内容;

3、指标确定:基于8大领域的关键因素进行具体细化,找出可以量化表现的系统特征,以少数几项数据体现关键因素的质量情况,评价指标的构成内容见表2;

4、评价矩阵设计:在明确评价目标、关键因素和评价指标的基础上,就可以设计相应系统的评价矩阵,具体见3.4的内容;

5、评价监控:这是运用评价矩阵对评价对象的系统运行质量进行监控的过程。评价监控的方式可以采取月度、季度和年度运行质量报告的形式,将评价对象的系统运行状况向管理层进行汇报,并提供分析意见,帮助应用单位提高运行质量;还可以通过BI工具,设计信息化的分析图表,定期向管理层展现相关系统的运行状况和系统运行的预警分析。

信息系统运行质量评价体系框架的5个环节构一个循环,这表示通过对信息系统运行质量的评价监控,我们还需要发现评价过程中的不足之处,并重新完善各环节的工作,不断提升信息系统运行质量评价的水平。

通过对信息系统运行质量评价体系的理解,我们结合实际评价活动,总结的几点实践经验如下:

1、灵活制定评价管理目标。确认评价目标是整个工作的起点,我们在明确总目标(见2.2)的同时,还可以确定相应的子目标。子目标同开展的具体评价工作相关,是当前阶段评价工作的重点。比如:通过评价需要引导应用单位/部门改善和提高的管理层关心的地方;各应用单位/部门通过评价,要确定运行质量排名情况,促进各应用单位/部门采取措施改进不足之处等。子目标的确定,使评价工作的具体开展有了更加明确的方向。

2、重视评价组织的作用。评价组织是开展评价工作本身的决策者和执行者。如果将评价工作视为一个信息化项目,评价组织有时还可以包括:领导小组、评价经理、工作小组等。评价工作的评价目标、评价矩阵、评价报告等都需要在评价组织内部取得共识,保证评价工作的持续和有效。

3、重视驱动性指标的作用。在评价体系的8个评价领域中,数据、功能、流程领域的指标通常是结果类型的指标,也是就是我们评价的内容都是已成事实的结果,我们评价工作干的是“亡羊补牢”的事;而运维、用户、团队、支持文件和持续优化领域的指标,则是所谓的驱动性指标,评价指标可以起到预防作用,我们干的是“未雨绸缪”的事。我们认为在某些情况下,驱动性指标有着更重要的作用,比如:我们评价管理结算中心系统,由于涉及大量银行资金的收支,这种系统更加重视预防性工作。

4 结论

随着企业信息化建设不断深入,企业管理的各个领域都将有信息系统上线运行,而衡量和评价这些系统在应用单位/部门的运行情况的情况,促使应用单位/ 部门提升应用效果也是企业管理层日益关心的难题。信息系统运行质量评价体系的建立,很好地解决这一难题,为信息系统运行管理提供了全新的思路。

本文作者的创新点:创造性地提出了信息系统运行质量评价模型,并基于这一模型建立出评价体系,提出了相应的评价方法,对实际工作有较好的指导性。经过企业的应用实践,基于该方法设计的评价指标较为完善,能够全面反映应用单位的实际运行水平,收到了良好的应用效果。

参考文献

[1] 卡普兰,诺顿 战略中心型组织[M].中国人民大学出版社,2008

[2] Joan Magretta.Understanding Michael Porter:The Essential Guide to Competition and Strategy.McGraw-Hill[M],2011

[3] 迈克尔.波特 竞争战略[M].华夏出版社,2005

[4] 昝新明.基于关键因素分析法的财务战略绩效评价体系设计[J].财会通讯(综合版),2008,(10)

[5] 尚晋,杨有.关键成功因素法在电脑选购方面的应用研究[J].《重庆航天职业技术学院学报》.2009,2

浅谈视频会议系统的质量评价方法 篇4

关键词:视频会议,语音质量,图像质量,评价

1 引言

视频会议[1,2]是指基于卫星、光缆、微波等通信技术, 融合计算机技术、通信网络技术和微电子技术, 为用户提供综合传送语音、数据和图像信号的新一代交互式视频通信业务。视频会议的信息主体是双向甚至多向的实时图像和语音信号, 不难看出, 视频会议系统中最重要的两个指标就是语音质量和图像质量, 其好坏直接影响着整个视频会议系统的性能。但由于每个人的视觉、听觉感官存在一定的差别, 再加上生成语音和图像信息的外部环境不同所导致的影响, 语音和图像的质量评价很难用一个量化的标准去衡量。视频会议系统的语音和图像质量评价是一个很复杂的工程, 现在所采用的评价方法都只有一定的参考价值, 而并不能真正衡量某个视频会议系统的质量。

2 语音质量评价

对于语音质量, 可以根据波形编码后的比特率高低来区分评价。模拟语音信号转换成数字信号至少要经过采样、量化、数字表征幅度等步骤, 由于量化会在编码器中产生量化误差, 而此误差在信号解码时又无法消除或补偿, 从而降低了信噪比。在比特率较高的波形编码中, 就可以采用信噪比来定量评价编码质量, ITU-T G.711标准规定信噪比要优于35 d B。

如果是低比特率的波形编码, 由于经过采样之后的每个样值仅仅是0.5 bit或1 bit, 采用客观标准方法很难真正评定编解码器的质量, 而只能用主观评价方法来评定。所谓主观评价方法就是利用人耳的听觉响应, 对解码后的语音信号在易懂、清晰、音律、音调等方面进行评价。

在进行主观评价的时候, 为了更准确地衡量编解码质量, 最少应当有15名以上的试听员来参加测试, 并且要包括非专业人士, 性别、年龄上也应有所区分。然后, 分别进行平均意见评分测试 (MOS) 、清晰度诊断押韵测试 (DRT) 和诊断可接受程度测试 (DAM) 。

平均意见评分测试 (MOS) :让试听员试听语音信号, 按质量或主观感受进行五级标准评分, 随后对试听员给出的分值进行平均处理, 得出1个MOS值, 然后重复测量至少5次, 分别得出5个MOS值, 再按照统计学理论和误差分析理论, 求出MOS平均值作为编码器的MOS值, 当然, 重复测量次数越多越能接近真值。评分标准见表1。高品质编码器的MOS值通常为4.0~4.5。

清晰度诊断押韵测试 (DRT) :DRT清晰度诊断分为优、良、中、差和不可接受等5个等级。在测试之前发给每位试听员一张记录打分表, 评价项目要求包括浊音性、鼻音性、送气性、低沉性、紧密性和持续性。然后请试听员聆听语音信号, 并逐项打分, 最后汇总进行数据处理, 推算出以百分比形式表示的DRT值, 见表2。参照GB/T 13504—2008的DRT清晰度得分等级表, 即可得出该语音编码器的DRT性能等级。视频会议系统要求DRT等级在良 (含良) 以上。

诊断可接受程度测试[3] (DAM) :这个指标更能反映视频会议系统的语音品质。让每一位试听员听一组由语音编码器处理后的语音。要求试听员从信号质量、背景质量、总体感觉等3个特征方面给出1%~100%的一个分数。尽可能的重复测量, 对每个特征的等级都要进行加权处理, 并运用统计学理论和误差分析理论, 最后得出分值。高品质的得分应当在45%~55%。

最后是根据上述3个方面的测量结果, 按照统计学理论建立数学模型, 并最终以图形或数据的形式概括出整个视频会议系统的语音质量。

3 图像质量评价

在图像传输过程中, 原始图像信息经过编码、解码、传输等多个环节, 其性能的优劣对最终在接收端恢复的图像质量有很大的影响。人们一方面希望接收端的恢复图像有足够高的观赏质量, 另一方面又希望传输的码率尽量低。因此, 对图像质量的评价是一个不可忽视的问题。

图像质量评价包括主观评价和客观评价两部分[4,5]。主观评价就是以人作为图像的观察者, 对图像的优劣作出主观评定, 具体地说就是让试看员给图像质量“打分”, 然后对所有评分进行平均, 得出评价结果。客观评价主要是使用一些仪表或工具来对图像清晰度、帧速率、延时、运动补偿等指标进行定量评价。

虽然在某些理想情况下, 可以对图像逼真度进行定量测试, 其结果与主观评价结果也大体一致, 但由于视频会议传输的是动态视频图像, 同时还伴有其他多媒体信号, 在做图像质量评价时容易受到外部因素的影响, 再加上人的视觉系统差异性的影响, 定量评价很难完全表征图像质量。所以在实际评价中, 还是以主观评价为主。

主观评价分为质量等级评定和损伤等级评定两种方式, 它们都是针对图像的逼真度、可懂度和总体感觉等3个方面来进行测试, 这3个方面能够涵盖图像信号的亮度、对比度、清晰度、颜色平滑度、实时性等指标。典型的主观评价方法有3种, 分别是双刺激连续质量分级法 (DSCQS) 、双重激励源损伤尺度 (DSIS) 和单独激连续质量评价方法 (SSCQE) 。视频会议系统的图像质量评价, 推荐采用双刺激连续质量分级法。

测试过程和语音质量评价类似, 将图像信号和标准信号交替播放给试看员看, 每个图像信号持续时间为10 s, 其目的是让试看员对图像信号有一个直接的质量比较, 然后分别为图像信号的逼真度、可懂度和总体感觉效果进行打分。最后依据统计学理论和误差分析理论, 进行加权平均, 并最终以图形或数据的形式概括出视频会议系统的图像质量情况。

现在已经有图像质量评价类仪表面市了, 如泰克公司的PQA500图像质量分析仪等。这些仪表大都是在基于人类视觉系统的模型上增加了许多特有算法, 能够模拟出接近真实的人类视觉系统, 从而做出图像质量的分析和评价。

视频会议系统的质量评价体系涉及的范围很广, 除了本文提及的语音质量和图像质量评价外, 还包括唇音同步、回音抑制以及MCU测试等。随着信息科学技术、视频技术和宽带传输技术的不断发展, 以及更多功能的质量分析类仪表上市, 视频会议系统质量评价能力也会得到进一步的提高, 给用户提供更可信的质量评价参考。

参考文献

[1]TONMSHO G.网络维护和故障诊断指南[M].战晓苏, 译.北京:清华大学出版社, 2003.

[2]万晓榆, 张溢华, 樊自甫.基于SIP的视频会议系统视频模块的设计与实现[J].电视技术, 2009, 33 (8) :99-102.

[3]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.

[4]黄孝建, 门爱东, 杨波.数字图像通信[M].北京:人民邮电出版社, 1998.

视频质量评价方法 篇5

摘要:技工院校的教学质量评价关系到教学质量的提高。本文通过获取当前教学质量评价标准的调查信息,为改进和完善教学质量评价体系提供科学依据。

关键词:技工院校 教学质量评价和考核 调查报告

技工院校是培养高技能人才的摇篮,教学工作是学校中心工作,教学质量的提高是学校工作的重中之重。建立科学规范、操作性强、行之有效的教学质量评价体系,有助于调动技工院校教师工作的积极性和主动性,有助于提高教学质量。随着学院规模的不断扩大和教学改革的不断深入,笔者学院原来的教学质量评价和考核办法已经不能充分发挥激励和导向作用。因此笔者设计了一份针对教师的调查表,以了解技工院校教师对教学质量评价体系的观点和看法,收集教师对教学质量评价体系完善方案的意见,为改进和完善教学质量评价体系提供科学依据。

一、调查对象和方法

本研究调查对象为山东医药技师学院在职教师,在学院一部、五系及一中心采用分层整群抽样的方法,随机抽取82名教师,发放问卷82份,回收82份。

调查问卷设计了“基本信息”和“调查项目”两项,其中“基本信息”包含9个问题,主要调查教师信息及对本院教学质量评价的认知。“调查项目”中设计了26项调查内容,调查内容主要关于教师对教学实施过程教学质量评价的重要性及对现状的满意度。

二、调查结果与分析

1.基本信息调查结果分析

本次调查的82名在职教师中,专职教师42人,占51.2%,兼职教师40人,占48.8%,任教专业课和基础课的教师占92%;从被调查者年龄结构看,35岁以下的教师47人,占57%,35~50岁中年教师31人,占38%,50岁以上仅4人,占5%。因此,从年龄结构看,中青年教师是学院教师群体的主体部分。从被调查者的教学工作特点看,有66人既是任课教师又承担班主任工作,占80%,他们从事最基层的教学和管理工作。从被调查者的学历结构看,本科学历52人,占63%,大專学历2人,占2%,研究生学历28人,占34%,可见教师群体以本科学历为主,研究生学历数量在逐年增加,从学历结构与教学质量评价的相关性分析,高学历群体对教学质量评价要求的理解更具有代表性。

综合分析本次调查对象,一是被调查者以中青年教师为主,思想活跃、接受能力强,中青年教师事业发展与教学评价密切相关,参与的积极性强;二是被调查者均是技工院校一线教学工作者,所反映情况比较真实、客观;三是被调查者学历、年龄有一定差异,通过调查能得出较全面的信息。

2.对笔者学院教学质量评价的认知调查结果分析

调查数据显示,对笔者学院教师教学质量的评价方法非常清楚的43人,占52.4%,不太了解或不知道的39人,占47.6%,说明笔者学院对教学质量评价方法的宣传工作还没有做到位,少数教师对教师质量评价工作不够重视。

关于所在系、部、中心的整体教学质量对个人的影响,认为有很大影响的19人,有一般影响的25人,合计占比53.7%,可见教师的教学在一定程度上受到其所在部门的教学质量影响。对于影响教师积极性的主要原因,有28人认为制度不健全,27人认为考评不客观,合计占比67.1%,调查数据说明,影响教师积极性的主要原因是评价制度不健全和考评不客观,如人为因素占比例较大。

关于制约教师教学成绩提高的主要因素,有35人认为制度不健全,占42.7%,31人认为学生无心向学,占37_8%;关于学生的学习态度,有22人认为只有少部分学生愿意学习,占26.8%,12人认为约有一半学生愿意学习,仅占14.6%,调查结果显示与技工院校的特点相吻合。

3.对学院现有教学质量评价体系及执行现状的调查结果分析

“调查项目”中每项调查内容从“重要性”和“满意度”两个方面进行调查,根据该项目“重要性”和“满意度”的程度由高到低设置了5、4、3、2、1五个分值,分值汇总、统计结果显示,在11个调查项目中,“重要性”分值占比较高的是“学院现行教学质量评价方法”和“从不同角度、不同层次综合进行评价”,分值比均为11.81%,其次是“学院目前教学质量”分值比11.72%,说明教师对这三项的重要性认同度较高。“学生的学习成绩列入教学评价范围”分值比最低,为5.14%,说明对这项的重要性认同度低,这可能与技工院校学生的学习态度相关。

“满意度”分值占比较高的是“理论课、实训课、一体化课程设立不同评价标准”,分值比为13.42%。这说明不同课程类型的教学模式、教学内容和教学组织方式等有一定差异,理论课、实训课、一体化课程的评价标准应有所区别。其次“重视教师个人教学质量评价”分值比为13.13%,说明教师期待自己的价值被学院认可,能更多参与学院的发展。分值占比较低的是“每学期学生对教师的测评”和“教学督导评价列入教学评价范围”,分值比分别为4.82%和5.78%,可能与学生对教师测评及教学督导评价的客观公正性相关。

4.对教师教学质量评价点的调查结果分析

统计结果显示:15个调查项目中,“重要性”分值占比较高的是“定期教学资料检查”,分值比为8.35%,其次为“注重培养学生的综合职业能力”和“教学方法改革创新”,分值比为8.25%和8.23%,说明教师对这三项的重要性有较高的认同。

“满意度”分值占比较高的是“教师授课计划及日志”和“教学大纲”,分值比为11.23%和11.17%,说明教师对这两项作为教学质量评价点有较高的认同。分值占比较低的是“教师互评”和“注重培养学生的综合职业能力”,分值比为2.92%和3.47%,教师对这两项作为教学质量评价点的认同较低,可能对教师互评的客观公正性不满意,培养学生的综合职业能力作为技工院校的培养目标,不是几方面评价就能确定的,而是一项系统工程。

三、对技工院校教学质量评价和考核方法的思考

技工院校教师教学质量评价和考核是一个复杂的系统工程,涉及学校管理、教师教学、学生学习等多个方面,结合调查结果分析,主要从以下几方面进行完善。

1.构建多元化教学质量监控与评价规章制度

根据社会对高技能人才的要求,笔者学院对学科建设、培养方案、课程体系、教师教学、学生成绩等进行调整,制定符合职业教育发展的综合评价标准,同时完善教学质量监控工作制度,包括人才培养方案、教学计划、教学规范等各种教学管理制度,规范和约束各项教学行为,真正做到教学质量监控与评价的科学化、制度化和标准化。

2.明确教学质量评价指标内容与标准

教学质量评价的指标除教学工作量、教学规范化、学生考试成绩等方面之外,还应关注教师自身的专业发展要求、课堂教学改革尝试、学生的综合职业能力提高。另外,应对不同课程、不同专业、不同考核内容等进行综合评价,充分发挥教学评价的激励作用。

3.完善教学质量评价反馈体系

视频质量评价方法 篇6

视频及图像质量的客观评价可广泛应用在多媒体产品的开发、销售及应用中,一直备受业界关注。在过去的十几年内,出现了许多针对视频及图像质量客观评价的方法[1]。这些方法根据其原理,可主要分成三大类:1)基于数理统计理论的评价方法:通过统计参考图像和待测图像在像素层上的绝对差值,得到画面的质量保真度。由于完全忽略人眼视觉特性对图像质量评测的影响,算法虽然实现简单,但评测结果与人的主观感受偏离较大。此外,仅面向静止画面(空域)的评价应用,并不适合针对运动序列(时域)的评价应用。2)HVS特性的仿生理论方法:通过“自下而上”的方式模仿人眼感知机制构建滤波器组,以实现对画面的劣化感知和评测。由于对人眼视觉感知机制的认识还很有限,因此仿生模型的实现通常非常复杂,且模型并不具有较好的实用性。3)HVS特征的参数提取方法:利用人眼视觉机制,“自上而下”的方式设计能典型代表画面质量的单个或多个特征参数,从而实现素材质量评测。其算法融合了HVS特性,比1)类方法具有更好的主观相似性,同时较2)类方法更易于工程实现。从目前国内外研究动态及标准化情况看,第3)类方法是视频、图像质量评价技术的发展趋势,具有较好的应用前景和研究意义。

1 视频序列的时域劣化分析

视频信号是三维数据信息,包括空域X、Y轴和时域Z轴。在面向静止画面的质量评价中,主要关注画面清晰度等空域指标;而在针对运动序列(视频)的质量评价中,除了关注空域的清晰度指标外,还必须考虑序列流畅性指标。视频流畅性反映的是视频在时域上的质量。

在无线视频、网络视频等应用中,除了常见的空域劣化形态(如马赛克、模糊、噪声等),还常发生诸如画面凝固、画面咔咯、以及画面跳跃等导致视频流畅性降低的现象。这些现象主要源于视频时域信息的损伤。要实现对视频质量客观、准确的评价,就必须在视频质量的评价中关注对时域信息的检测和评价,这已经成为视频质量评价技术研究的共识。常见的视频时域失真可归纳成两种类型的时域能量异常[2],即:时域能量丢失和时域能量增加,如表1所示。其中,运动能量差增加则体现为误块、迟滞或噪声;运动能量差减少则体现为画面迟滞;而重复帧则属画面迟滞凝固的特例。2008年,VQEG MM(Multi-Media)组发布了针对多媒体质量评价模型的最终报告[3](Phase I,2008-06);随后,四种模型被ITU-T J.247[4](2008-08)推荐为多媒体视频质量的评测方法。这四种模型(NTT、OPTICOM、Psytechnics和Yousei大学)均不无例外地设置了时域信息参数。要实现上述指标的设计,就必须先对视频的时域信息(TI,Temporal Information)进行检测。

2 视频时域信息的检测方法

2.1 传统的时域信息检测方法

传统的时域信息(TI)主要是基于ANSI T1.801.03-1996[5]和ITU-T Recommendation P.910[6]的定义和推荐方法,如式(1)所示。其中F(tn)和F(tn-1)分别表示tn时刻和tn-1时刻帧画面的亮度信息,rmsspace是计算时域梯度上总的RMS(Root Mean Square)能量。

从式(1)中可见,计算分两个步骤,即时域梯度计算和梯度空域图的均方根计算。根据均方根RMS的计算定义,设梯度画面规格为M×N,则梯度画面的RMS计算表达如式(2):

其中:Y(i,j,t)表示在t帧的梯度画面;i、j分别表示空域X和Y方向的像素坐标点,i∈[1,M],j∈[1,N]。

可见对传统的TI计算而言,其计算量主要是在梯度空域图的均方根处理;而式(2)进一步表明,CPU资源的耗费又集中体现在处理梯度图中各像素点的平方和(即体现在乘法类运算)。因此,其计算量与视频图像的分辨率存在直接关联:如对QCIF格式(176×144)的视频画面,则至少需要176×144次乘法运算。当视频画面空域分辨率增加时,其乘法运算量也随之增大,从而导致整体算法的计算量亦增大。

2.2 基于直方图的时域信息检测方法

从上述分析可见,传统时域信息检测与画面格式关系密切,在视频空域格式(或分辨率)增大时,导致算法运算量激增。而在视频质量评测中,时域信息检测迫切需要运算量低、执行效率高的方法,以快速对整体的视频序列进行时域的统计计算。为此,本研究基于直方图理论,对时域信息检测的方法进行改进。

我们知道图像的直方图表达了图像中不同灰度级像素出现的次数。设灰度级在范围[0,L-1]的数字图像,其直方图是一个离散函数,h(rk)=nk,其中k=2L。如对L=8的亮度画面,不论是QCIF(176×144)还是CIF(352×288),其直方图均为各灰度级(k=256)上的像素总数。根据上述特性,如果先计算梯度画面(记为Y)的直方图,再对直方图信息做相关的统计计算(包括RMS等方法),就可将RMS的计算量限制在灰度级个数的范围内(如本例则限制在大约256个乘法量级)。新方法的具体实施步骤如下:

首先,计算视频的时域梯度图像Y(tn),视频空域格式(或分辨率)为M×N,F(tn)和F(tn-1)分别表示tn时刻和tn-1时刻视频帧的亮度信息,则对应关系为

其次,对时域梯度图像Y(tn)求直方图,记函数imhist[]表示求直方图的操作,hod(i,tn)表示tn时刻第i个灰度级的统计个数,其中i∈[0,2L-1]。则关系为

最后,对经过直方图处理后的信息再根据ANSI T1.801.03-1996或ITU-T Recommendation P.910推荐的方案,计算统计信息。记Rpix表示总像素点,HoD(tn)表示tn时刻时域信息量化值,k为灰度级总数(k=2L),则表达关系为

由上述步骤可见,对时域梯度图像进行直方图处理后,图像的尺寸大小只与式(4)的直方图计算有关,而与式(5)的乘法运算无关。故本时域信息计算方法的乘法运算量仅与画面的灰度级个数有关,而与图像的尺寸大小无关。当画面增大时,以加法运算为主的直方图计算量增加;而乘法运算量在图像灰度级固定的前提下并不增加。因此,本时域信息计算方法相比传统方法,其所需的乘法计算量不会随图像画面大小的增大而增加,计算效率相对较高。

3 性能对比及讨论

性能测试的目的在于了解算法在视频时域信息检测方面是否能相似传统TI的检测效果。

3.1 测试素材设计

测试实验面向无线视频应用,其参考视频的格式主要由三类分辨率组成:QCIF(176×144),CIF(352×288)以及SIF(352×240),且参考素材均为标准视频序列[7]。在无线视频的传输仿真中,时域上的帧凝固和帧跳跃是常见的劣化形态。本研究的劣化素材制作尽可能反映无线视频典型劣化特征[8]。为此,论文对经过无线信道误码模板劣化后的视频素材再进行数据处理(包括信息抽取、替换、重复、删除等),从而模拟出既有空域劣化,又有典型时域损伤的无线劣化视频素材。时域劣化仿真参数的设计如下表2所示。设置的劣化参数级别划分成6级,级别越高表示对应的时域劣化越显著。帧凝固百分率表示凝固帧占总帧数的比值,比值越高则画面凝固时间越长,质量越差。帧跳跃频次表示素材出现时域劣化的次数。跳跃间隔表示劣化帧在时域上的间隔。需要说明的是上述三类劣化是可交叉组合,形成所需的时域劣化形态。

3.2 方法性能分析

1)性能有效性分析

新方法性能有效性实验是利用本研究方法(记为Proposed)对不同内容视频素材,以及典型劣化条件下的视频素材进行测试,并将测试效果与相同测试条件下传统时域信息(记为ANSI)检测效果进行对比,从而了解新方法是否可较好地保持推荐方法的检测性能。受篇幅限制,以素材(Suzie.QCIF和Coastguard.QCIF)的测试对比效果为例说明新方法的性能继承性。如图1所示,其中图例“Proposed”表示本研究提出的时域信息检测方法对素材的检测效果;图例“ANSI”表示传统时域信息检测方法对参考素材和待测素材的检测效果。图1(a)、1(b)为分别用传统方法和本研究方法对Coastguard.qcif序列的时域信息检测效果;图1(c)、1(d)为分别用传统方法和本和研究方法对Suzie.qif序列的时域信息检测效果。通过图1中(a)和(b),(c)和(d)两组的对照可见:本研究所提出的视频质量时域信息检测方法与传统方法除了数值上的差异及个别点形态差异外,具有大体相似的检测包络,说明新方法能有效保持传统时域信息检测方法的既有特性。

上述图1展示了本方法和传统方法对素材时域信息检测的效果图,为进一步说明二者在检测性能上具有较好的继承性,继续对上述Coastguard和Suzie序列的素材劣化检测进行测试,并通过散点图的形式比较性能差异,如图2所示。图中,水平轴表示用传统方法检测的数值分部,纵轴表示用本研究方法检测的数值分部,通过二者的散点分布图来对数值映射性能进行探讨。从图中可见,本研究方法和传统方法在在数值上存在线性映射关系,散点紧凑地分部在“Y=X”(约45°角)的范围内,充分说明本研究方法与传统方法具有很强的线性相关性。

2)性能改善性分析

上面篇幅说明了新方法对传统方法具有较好的性能继承性,事实上,新方法相比传统的时域信息检测,其改善性主要体现在较低的CPU资源消耗。以QCIF(176×144)素材为例,如果用推荐的传统方法直接计算整个图像的RMS,那么至少需要与图像像素点数一样多的乘法运算(176×144=25 344次);而新方法是先对176×144像素点进行直方图统计,再在直方图域上进行统计计算(乘法计算)。这样修改的最大好处在于,直方图运算过程是以加法形式为主,因此图像像素的增加只体现在加法运算量的增加。而在直方图域进行统计计算时,乘法计算的个数就仅取决于直方图的灰度等级。对于固定灰度等级(如常用的灰度级=256),乘法运算的次数是与图像大小无关的。从上述理论分析可见,本文提出的视频时域信息检测方法通过先进行帧差直方图计算,再进行统计计算的方式,将乘法运算次数限制在直方图灰度级个数的范围内,避免了传统方法乘法个数随画面像素数增加而增大的缺陷,可在保持相近检测效果的前提下,大大降低运算量。受篇幅所限,列举采用传统推荐方法与本方法对部分实验素材的时域信息检测所需的运算量对比(如表3)。

从表3中可见,在同等测试条件(Celeron M 1.4G,256 MB内存,XP操作系统)下,新方法平均运算速度较传统方法提高了3倍以上。图3给出三种视频格式下的平均耗时对照图。从中可以看出新方法对CIF、SIF格式的计算耗时与使用传统对QCIF的耗时相近,说明新方法在同等CPU资源消耗条件下,可处理更高分辨率的视频图像格式,具有更强的运算效率。

4 结论

本文针对视频质量客观评价中时域信息的检测应用,对ANSI T1.801.03-1996及ITU-T Recommendation P.910推荐的时域信息检测方法进行适当改进。算法较传统方法有较大的性能提升(同等条件下算法速度平均提升3倍),且算法实现简单,易于集成。可作为传统推荐方法的有效补充,在视频质量客观评价中具有较好的推广价值。

摘要:针对视频质量评测中时域信息的检测方法,本文提出了新的计算方法。该方法根据ANSI T1.801.03-1996和ITU-T Recommendation P.910时域信息(TI)的概念定义和方法推荐,采用先对时域梯度图求直方图,再在所求直方图的基础上进行统计计算的方式,克服了直接进行时域梯度RMS计算带来的乘法运算量与画面像素数成正比从而导致耗时较多的缺陷。实验结果表明,采用本改进方式的乘法运算量仅取决于直方图的灰度级,而与具体像素数无关,在同等条件下的平均计算效率可提高约三倍,且对时域信息的检测效果与推荐方法相仿。该方法实现简单,易于集成,在视频质量评测应用中具有较好的推广价值。

关键词:视频处理,质量评价,时域信息,时域特征

参考文献

[1]佟雨兵,胡薇薇.视频质量评价方法综述[J].计算机辅助设计图形学学报,2006,18(5):735-741.TONG Yu-bin,HU Wei-wei.A Review on Video Quality Assessment Methods[J].Journal of Computer-Aided Design&Computer Graphics,2006,18(5):735-741.

[2]Ong Ee Ping,Yang Xiaokang,Lin Weisi,et al.Perceptual quality and objective quality measurements of compressed videos[J].Journal of Visual Communication&Image Representation(S1047-3203),2006,17(4):717-737.

[3]VQEG.Final report from the Video Quality Experts Group on the validation of objective models of multimedia quality-Phase I VQEG Final Report[EB/OL].ftp://vqeg.its.bldrdoc.gov,2008.

[4]ITU-T.Objective perceptual multimedia video quality measurement in the presence of a full reference ITU-T Recom-mendation J.247[EB/OL].ftp://www.itu.int/itu-t,2008.

[5]American National Standard for Telecommunications.ANSI Standard T1.801.03,Digital Transport of One-Way Video Signals-Parameters for Objective Performance Assessment[S].1996.

[6]ITU-T.Subjective video quality assessment methods for multimedia applications,ITU-T Recommendation P.910[EB/OL]http://www.itu.int/itu-t,1999.

[7]袁飞,黄联芬,姚彦.一种基于HVS特性的视频质量评测方法[J].光电工程,2008,35(1):120-125.YUAN Fei,HUANG Lian-Fen,YAO Yan.Method for video quality evaluation based on HVS properties[J].Opto Electronic Engineering,2008,35(1):120-125.

视频质量评价方法 篇7

随着数字视频技术的发展, 人们对数字视频数据采集、压缩、处理、传输和恢复的质量要求日益提高。对经过一系列过程之后的视频数据质量以及损伤程度做出正确评价,成为该领域日益关注的课题。目前,针对图像和视频质量评价方法主要有两种形式:主观评价与客观评价。

主观评价即根据观测人员对被测数据的主观感觉进行质量评价,是国际公认最可靠的图像和视频质量评价方法。主观评价要求在一定光照、视距等条件下,由一组专家和一组非专家观测人员分别对同一组图像或视频打分,并对全部打分进行处理得到评价结果。目前,主观评价的方法主要有:双刺激损伤评价DSIS (Double Stimulus Impairment Scale)、DSXCQS (Double Stimulus Continuous Quality Impairment Scale)[1],单刺激损伤评价SSM (Single Stimulus Methods), SSCQE (Single Stimulus Continuous Quality Evaluation)[1],基于单刺激的ARC5、ACR9、ACR11等评价方法[2],基于双刺激的DCR、PC等评价方法[2],以及基于多媒体应用的SAQVIM评价方法[3]等。此外,还有基于一个或多个图像质量要素的属性指标[2]评价方法,考虑的质量要素主要有:亮度、对比度、轮廓清晰度等。每个测试视频通过以上方法得到一组测试分数,对这些分数求平均值MOS (Mean Opinion Score),得到最终的质量评价结果。对于MOS分值,一般采用五级制反映被测视频质量的好坏,如表1[4]:

主观评价的优点是适用于各种不同的处理过程以及测试数据类型,准确性高。不足之处在于受环境条件限制大,稳定性差,复杂度高,实时性有限。

2 数字视频客观质量评价

针对主观评价的缺陷,数字视频质量客观评价方法渐渐成为研究热点。客观评价是指对图像和视频数据建立数学模型,经过一系列计算,得到一个反映其质量和损伤程度的参数,作为评价结果。1997年,视频质量专家组(VQEG)成立,该组织专门致力于评测和标准化数字视频质量客观评价方法。2000年3月,VQEG完成FRTV Phase I测试,参与测试的所有模型无一达到可以取代主观评价的效果[4][5]。2003年8月,VQEG完成FRTV Phase II测试,参与测试的模型中,对于525测试系列有2个模型效果比较好,对于625测试系列有4个模型效果比较好[4]。

目前,客观评价模型主要分为三种类型:全参考模型,部分参考模型,以及无参考模型。

所谓全参考评价模型,是指原始序列与测试序列共同作为模型的输入,模型可以逐帧计算测试序列的失真,以测试序列相对原始序列的失真程度作为评价结果,如图1。简单而有效的全参考评价模型有RMSE (Root Mean Square Error)、SNR (Signal to Noise Ratio)、以及PSNR (Peak Signal to Noise Ratio)[6]。此外,Zhou Wang等人提出了基于图像结构失真的SSIM模型[6][7]。

然而,在很多情况下,作为参考的原始序列是不易获得的,因此提出了部分参考评价模型与无参考评价模型。部分参考模型是将原始序列部分特征与测试序列作为输入,通过对测试序列进行相应的特征提取,比较二者的特征参数,得到评价结果,如图2。而无参考模型是指仅根据测试序列特征与失真现象等对其做出评价。这类方法的设计与实现是十分困难的,VQEG将其作为未来研究与发展的方向。本文所研究的评价方法属于全参考评价模型。

3 基于图像清晰度的客观质量评价

清晰度是视频图像质量的重要指标,对人对图像质量优劣感知有非常重要的影响。在基于图像质量要素的主观评价方法中,图像清晰度作为一个关键的要素[2],被广泛的应用于网络视频系统测试中。总的来说,图像清晰度与图像边缘的锐利程度和图像细节的多少有密切的关系。从信号分析的角度来看,图像清晰度越高则意味着图像中有较多的高频成分。视频系统通常会在不同程度上抑制图像中的高频信息,导致边缘模糊,图像质量下降。边缘模糊越严重,图像质量则越差,系统性能也就越差。因此,本文重点研究了基于边缘能量的清晰度评估,并依此为基础进行视频质量的客观评价,下面详细说明这三种评估方法。

(1)基于无方向边缘能量的清晰度评估

这种方法采用无方向性的边缘提取算子计算图像的边缘能量,通过计算处理前后边缘能量的差异来度量图像清晰度的变化。本文使用的无方向边缘算子包括Canny、Log (Laplacian of Gaussian)、Sobel、Prewitt以及Roberts等等。基于无方向边缘能量,本文定义了相应的清晰度评估参数δ:

其中:E_XXout为输出视频的边缘能量,E_XXin为输入视频的边缘能量。XX表示使用的边缘提取算子,比如:Canny、Log、Sobel、Prewitt以及Roberts等等。该参数反映了输出视频与输入视频边缘能量的偏离,而这个偏离与视频的主观和客观质量密切相关。

(2)基于方向性边缘能量的清晰度评估

在视频数据压缩过程中,方块效应是一种常见的失真。特别在基于网路应用的视频系统中,多采用基于块的压缩算法,方块效应相对更加严重。方块效应的产生会导致图像水平竖直方向边缘能量增加,由此不难看出:方块效应会导致图像出现很强水平边缘和垂直边缘,而这些边缘本身不能反映图像清晰度的损失,因此本文考虑仅计算非水平、非竖直方向的边缘能量来衡量图像清晰度的变化,于是提出了基于方向性边缘的清晰度评估方法。

Sobel算子是边缘检测常用的算子之一,它通过两个卷积核分别对图像的水平和垂直边缘进行检测,复杂度较低[8]。因此利用Sobel边缘检测可以更有效地估计非水平竖直方向边缘能量的损失。本文用两个13×13的模板[4]对测试序列每一帧图像进行卷积,得到图像像素点 (i, j) 梯度的水平分量H (i, j) 与垂直分量V (i, j) ,进而计算该点梯度矢量的大小E (i, j) 与方向θ (i, j) [4]:

为反映图像在映非水平竖直方向的边缘能量,本文定义了一个方向性能量参数:

参考文献[4]中取e=20, Δθ=0.225。

在此基础上,我们定义一个基于方向性边缘能量的清晰度评估参数α:

其中,与分别是输入序列与输出序列各帧图像非水平坚直方向边缘能量参数的累加。这个参数的大小同样反映了测试序列与原始序列边缘能量的偏离,也在一定程度上反映了测试视频质量。

(3)基于小波变换的视频图像清晰度客观评价

小波变换是一种信号时间尺度分析方法,具有多分辨率分析的特点,在时频两域具有表征信号局部特征的能力,在低频部分具有较高的频率分辨率和时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,是一种时间窗和频率窗均可变的时频局部化分析方法。信号经过小波变换,首先被分解成低频L1与高频H1两个部分,在分解中,低频中失去的信息由高频捕获。在下一层的分解中,将L1进一步分解成低频L2与高频H2,低频L2中失去的信息由高频H2捕获,以此类推,进行更深层次的分解。

以此,小波变换将图像信息划分为不同尺度下的拥有原图像不同方向和频率成分的子带图像。经过一次小波变换,图像被分解为四个独立的块,如图3所示。

其中LL保留图像低频信息;LH、HL分别为图像水平与竖直方向高频信息;HH则为图像斜方向的高频信息。图像高频信息通常是指图像细节,如边缘等。上文提到非水平竖直方向边缘能量能更加准确的反映图像清晰度,因此图像斜方向的高频信息是否丰富,对图像清晰度应有十分重要的影响。基于这一观点,本文定义了一个基于小波变换的图像清晰度评估参数β:

其中,E_HHin与E_HHout分别是输入序列与输出序列各帧图像经小波变换获得斜方向高频信息能量。该参数反映了图像斜方向高频信息能量的偏离,即图像细节的变化,从而一定程度上反映了测试视频质量。

4 实验结果与分析

为测试图像清晰度系数δ,α,β与视频主观质量的关系,本文进行了仿真。仿真使用的序列来源与VQEG全参考质量评估第一阶段提供的测试序列,提取序列每一帧的亮度信号用于仿真。测试序列相关参数[5]如下:

(1) 625行/50Hz;220帧;YUV格式为4∶2∶2;

(2)序列源为src1_625_ref至src10_625_ref,总计10个序列,分别通过9个损伤模型hrc1至hrc9,得到90个测试序列。因此测试样本数为100。

对于每一个测试序列,VQEG均给出了相应的主观评价评分,我们的仿真主要是要验证本文提出的图像清晰度参数δ,α,β与主观测试结果的相关性。

为定量比较客观清晰度参数与主观测试结果之间的相关性,本文采用了国际上常用的四个参数[4][5]:均方根误差(RMSE)、Pearson线性相关系数(Pearson)、Spearman秩相关系数(Spearman)以及背离率(OR):

均方根误差RMSE的计算公式为:

其中,Si是序列主观评估分数,Pi是客观评估分数,n为样本数目,它反映评估参数的准确度,值越小参数越准确。

Pearson线性相关系数的计算公式为:

其中,Si是序列主观评估分数,S是各序列平均主观评估分数,Pi是客观评估分数,P是各序列平均客观评估分数,n为样本数目,Pearson线性相关系数反映了评估参数的准确度,值越大参数越准确。

Spearman系数的计算公式为:

其中d为偏差,d的计算方法如下:假定对10个图像序列的主观评分和客观评分如下所示:

为计算Spearman系数,我们需要对评分结果进行排序,然后记录每个分值的顺序。比如,在主观评分中,第4个序列的得分是5分,第10个序列的得分是100分,经过排序后,5分排第1, 100分排第10,于是将每个分值的排序情况如下所示:

根据分值的顺序计算出顺序的偏差以及偏差的平方。比如:第1个序列主观评分顺序为第4名,客观评分顺序为第4名,于是它们的差值为0;而第8个序列,它的主观评分分值排第9名,而客观评分分值排第7名,于是顺序偏差为2,偏差的平方为4。如下所示:

在计算出分值排序偏差之后,可利用上面的公式计算机Spearman系数。显然,Spearman系数并不关注具体的分数值,而是关注分数之间的相对关系。如果某两个图像序列主观评分的顺序与客观评分次序相同,那么Spearman系数就认为它们非常相关。该参数值越大单调性性越好。

背离率的计算公式为:

其中,numOR是评估结果满足|Si-Pi|>2·σ2MOS (i) 的视频的个数,它反映评估参数的一致性,值越小一致性越好。

实验结果如表2所示。整体来说,基于无方向性边缘能量的评估参数性能较佳,对四个参数均有不同程度的改善。方向性边缘模糊系数与基于小波变换的模糊系数性能相近,Pearson系数、Spearman系数与OR有较为明显的提高。以上三种方法对测试视频质量评价的准确性较现有PSNR与SSIM算法均有所改善。

从算法复杂度的角度,本文统计了各评估参数评价一个测试序列的运算时间,以及加法、乘法运算次数,统计结果如表3所示。其中,基于Canny算子的评估参数复杂度较高,基于方向性边缘模糊度系数次之。基于小波变换的模糊系数复杂度最低。因此,基于小波变换的评估参数在较低复杂度的条件下获得了较好的性能。

各评估参数对测试视频的评价结果与主观评价数据的一致性如图4所示,可见无方向边缘模糊系数客观评价数据与主观评分具有较好的一致性;方向性边缘迷糊系数与小波模糊系数数据一致性相近,但后者复杂度相对较低,因此认为具有更好的性能。

5 小结

本文分别基于无方向边缘能量、方向性边缘能量以及小波变换提出了三种基于图像清晰度的视频质量评估参数。其中,基于无方向Canny算子的边缘模糊系数能更加准确的反映测试视频质量,它以较高的时间和空间复杂度获得了较好的性能。方向性边缘模糊系数与小波模糊系数性能相近,后者复杂度相对较低。实验表明,以上三种方法对视频质量评价的准确性较现有PSNR与SSIM算法均有一定程度的改善。

参考文献

[1] ITU-R BT.500-11. Methodology for the subjective assessment of the quality of television pictures[S]

[2] ITU-T Recommendation P.910. Subjective video quality assessment methods for multimedia applications[S]

[3] ITU-R BT.1788. Methodology for the subjective assessment of video quality in multimedia applications[S]

[4] 陈天. 基于特征提取和结构性失真的视频客观质量评估[D].西安: 西安电子科技大学. 2007.1.

[5] VQEG. Final report from the Video Quality Experts Group on the validation of object models of video quality assessment[R]. VQEG Report COM 9-80-E. 2000.6.

[6] 朱立英, 苏开娜. 数字视频图像质量的客观评测[J]. 现代电视技术. 2006, 3: 148-150.

[7] Zhou Wang, Ligang Lu and Alan C. Bovik. Video quality assessment using structural distortion measurement[J]. IEEE International Conference on Image Processing.2002.9 (3) , pp: 65-68.

[8] 李捷, 唐星科, 蒋延军. 几种边缘检测算法的比较研究[J].信息技术. 2007, 9: 106-108.

视频质量评价方法 篇8

视频质量评价方法分为主观和客观质量评价方法。客观质量评价方法是模拟或是预测人眼对视频质量的评价。然而, 这些客观质量评价方法与人眼主观质量评价之间的准确性和一致性却不尽相同。这样的局面是多方面的原因造成的。首先, 到目前为止, 人们对人眼视觉系统 (HVS) [1]的认识有限;其次, 造成视频质量下降的表现很多, 诸如模糊、噪声和块效应等;再者, 视频质量与本身的内容有很大关系, 任何一个客观质量方法都不可能在所有的视频内容上得到验证;最后, 缺少对客观评价方法进行大规模的、可靠的比较。结果, 主观质量评价方法仍然是最可靠的质量评价方法。

压缩编码对视频传输来说是必不可少的, 此过程由视频编码器实现, 目的是把数据量很大的视频流压缩成为适应不同带宽信道的文件。在这个过程中要实现在码流速率以及视觉感知失真之间的折中, 即率失真优化过程。具体可以描述为在比特率R满足小于定制的码率R0[2]这样一个限制下, 使得压缩后的视频感知失真D最小。

这是一个典型的最优化问题, 其中视觉感知失真D用客观质量评价来衡量。因此, 客观评价算法的选取对率失真优化过程乃至最终编码器的性能都有很大的影响。

国际标准化组织———运动图像专家组 (ISO MPEG) 和国际电信联盟电信标准化部门———视频编码专家组 (ITU-T VCEG) 联合开发的新一代的视频编码标准———HEVC[3]在2013年1月25日国际电信联盟电信标准化会议上通过后, 许多专家学者对HEVC编码性能进行了研究。J.R.Ohm等[4]通过用峰值信噪比 (PSNR) 和主观评价结果计算出的Bjontegaard比特率差量 (BD-Rate) [5], 来比较HEVC测试模型HM8.0与之前存在的编码标准之间的编码效率。Y.Zhao等[6]用PSNR, SSIM[7]和图像质量指数 (PQI) [8]评价HM5.0的性能, 但只给出了不同指标的平均BD-Rate, 没有针对不同客观评价方法进行进一步的分析。

本文针对1 080p的视频序列, 首先, 把BD-Rate的概念推广到12个常用的全参考客观质量评价方法, 来对HEVC的测试模型HM9.0和H.264/AVC的开源编码软件x264的编码效率进行对比。然后, 对视频材料进行主观质量评价, 进而得出主观评价的BD-Rate。反过来通过比较主客观评价所得到的BD-Rate在不同视频序列之上的接近程度、皮尔逊相关系数 (PLCC) 和斯皮尔曼等级相关系数 (SROCC) 来评估客观质量评价方法的性能。

1 Bjontegaard测度介绍

VCEG建议用Bjontegaard测度来计算两种编码方式的编码增益。由于PSNR指标具有计算简单等特点, 被广泛用来评价编码器的性能。最初的Bjontegaard也测度模型中选择PSNR去评价两种编码方式对视频的编码损伤。Bjontegaard测度包括BD-Rate和Bjontegaard PSNR差量 (BD-PSNR) 两个指标。BD-Rate表示在同样的客观质量下, 较优的编码方法可以节省的码率百分比;而BD-PSNR表示了同等码率下, 两种编码条件下压缩后视频PSNR值的差异。

考虑到在率失真曲线上, 高比特率区域在相同的百分比下的范围比低比特率区域大, 如33%的码率节省在1 500~2 000 kbit/s范围是375~500 kbit/s范围的4倍[5]。所以, 率失真曲线图的比特率坐标轴取了对数。

不失一般性, 以某一测度为例, 通过率失真曲线图, 阐明Bjontegaard测度值的计算方法, 如图1所示。

具体步骤如下[9,10,11]:

第一步, 压缩好视频后, 用客观评价方法评价视频, 然后给每个视频序列描绘出不同的率失真点系列。

第二步, 观察画出的率失真点系列, 确定积分区间, 如水平方向[a, b], 垂直方向[c, d]。

第三步, 对点序列进行多项式拟合, 用确定的多项式表示, 如s1和s2。

第四步, 对拟合后的多项式在积分区间上积分。根据积分的结果, 计算Bjontegaard测度值

在式 (2) 和式 (3) 中, s1和s2有区别, 式 (2) 中是比特率的函数, 而式 (3) 中是质量指标的函数。BD-Rate一般为负值, 代表在两种编码方式中较优的一种比较差的一种节省的码率百分比。

在本文中, 把Bjontegaard测度中的PSNR推广到常用的图像质量评价方法, 以用HEVC测试软件HM9.0和H.264/AVC开源软件x264压缩的1 080p的视频材料为载体, 来估计这些图像质量评价方法在评价由压缩带来的损伤时的性能。

2 客观质量评价算法和视频序列的选取

2.1 客观质量评价模型

视频质量评价算法往往由图像质量评价方法推广而来, 通过对视频中的每一帧进行评价后整合得出对视频质量的评价结果, 如SSIM, 视觉信息保真度 (VIF) [12]和视觉信号噪声比 (VSNR) [13]等经常用于视频质量评价。本文选取了一组常用的全参考图像质量评价算法, 具体介绍如下:

PSNR由于计算简单等特点被广泛用来评价图像和视频质量, 是参考图像和损伤图像二者均方差的函数。

图像质量等级 (PQR) 由泰克公司的PQA序列计算出。其融合了HVS特点, 对比参考图像, 计算出被测图像的质量等级。关于PQR的更多信息可参考[14]。

SSIM根据图像的结构相似度来对图像质量进行评价, 是目前使用最多的算法之一。

多尺度SSIM (MSSIM) [15]是在SSIM上改进而来的一种算法。

信息保真度准则 (IFC) [16]表示图像信息保真度, 理论上其值范围为0 (表示图像无保真) 到无穷大。

信噪比 (SNR) 类似于PSNR, 用信号的实际大小代替PSNR中的峰值即可得到。

视觉信噪比 (VSNR) 是基于小波变换来计算视觉信息信噪比。

加权信噪比 (WSNR) 模拟人类视觉注意模型, 用加权的方法计算SNR, 加大了对图像中的某些区域的权重。

通用质量指数 (UQI) [17]把图像损伤度归结为3个因素:相关度降低、亮度和对比度失真。

噪声质量指标 (NQM) [18]揭示了加性噪声对信噪比的非线性权重影响。

VIF是通过在小波变换域中计算视觉信息保真度来对图像进行评价。

像素域的VIF (VIFP) [19]类似于VIF, 但是在像素域中计算得出。

以上质量评价算法除了PQR指标由泰克公司的PQA600测试得到外, 其余算法均可以从图像质量评价工具箱中[20]获得。

2.2 视频序列的选取

在实验中, 选取了12个全高清的视频序列, 这些视频序列均从慕尼黑工业大学的网站[21]上下载得到。表1列出了所有视频序列的基本信息。

所选取的视频序列在时间和空间复杂度均不相同。根据文献[22]中计算视频序列时间 (TI) 和空间信息 (SI) 的方法进行了分类。选取的视频序列的时间和空间信息分布如图2所示。

3 实验设置和结果分析

3.1 视频编码参数设置

在文献[23]中介绍了HEVC测试软件HM9.0编码可选项, 编码算法复杂度 (HE10和LC) 和4种基本的编码设置一共有8种测试条件。在本文的实验中, 选用了随机访问编码设置 (Random-Access) 配置文件来进行编码配置, 编码的量化参数选取了22, 27, 32, 37, 42共5个点。对应地, 用x264进行编码时, 量化了参数也选取了相同的点。其余编码参数设置见表2。

对视频序列的压缩完成后, 用第3部分中介绍的客观质量评价算法对编码后的视频进行评价, 所有的视频质量评价值都是通过逐帧计算视频的亮度分量, 然后再取平均得出。然后对每一个客观质量评价算法、每一个视频序列画出两条率失真曲线的图。基于视频序列的率失真曲线图, 进一步计算出Bjontegaard测度指标值。

3.2 主观质量评价方法

在主观质量评价中, 选用ITU-R BT.500-13[24]推荐的双激励失真方法 (DSIS II) ) 。在这种评测方法中, 首先播放参考序列, 接着播放测试序列。这样的过程重复一次后, 提示评估者对测试视频序列进行评分。评分采用5分制, 用1, 2, 3, 4, 5分代替非常差 (Bad) 、差 (Poor) 、一般 (Fair) 、好 (Good) 和非常好 (excellent) 5个质量等级。共有16个评估人员参加了此次视频质量评价。

另外, 在主观质量评价中, 在正式评测之前有一个训练过程, 使评估人员熟悉具体的评价步骤。用来训练的视频序列损伤程度与5级评分制对应, 组织人员向评测人员解释了二者的对应关系。整个主观评价环境按照ITU-R BT.500-11[24]来布置, 评测人员的观看距离为电视屏幕的3倍。

3.3 实验结果分析

对每一个客观质量评价算法, 每一个视频序列均可计算出一个对应的BD-Rate。对同一客观质量评价算法在不同的视频序列上计算出的BD-Rate取平均后, 将最终结果作为此客观质量评价算法对两种编码条件下产生的BD-Rate。同样, 主观质量评价结果也可以计算出一个BD-Rate, 见表3。

注:相关系数由不同视频序列上的BD-Rate得出。

首先, 从表3主观质量评价结果可以看出, 对于选取的视频序列, HEVC的编码效率要比H.264的高档次高出43%。HEVC标准在提出之时的目标是与H.264/AVC高档次相比, 在视觉感知质量一致的情况下, 比特率节省50%。在文献[4]的主观评价结果中, HEVC比H.264/AVC的高档次相比, 在不同视频序列上比特率可以节省30%到67%, 平均节省49.3%。文中未能达到50%, 可能与选取的视频序列有关。另一方面, HEVC编码标准刚刚通过, 很多编码算法还有待于进一步的优化和改进。就编码效率来说, HM9.0还有很大的空间来提升。

其次, 由主观质量评价得到的平均BD-Rate是最可靠的。而由不同的客观评价算法计算得到的平均BD-Rate各不相同, 通过计算这些值与主观结果的接近程度、一致性、精确性, 就可以体现不同客观评价方法的性能, 这一点也恰恰是本文的目的所在。图3给出了不同的客观评价算法计算出的平均BD-Rate与主观评价的平均BD-Rate的差的绝对值, 可以更清楚地看出客观评价算法与主观评价结果之间的差异。可以看到, SSIM与主观评价结果的差只有0.126 072, 是所选的客观评价算法中是最小的。也就是说, SSIM是在文中选择的客观评价算法中对压缩编码造成的损伤的评价最准确的一个, MSSIM紧跟其后。由UQI、UQI、VIFP、PSNR、SNR、IFC和WSNR计算得到的平均BD-Rate与主观评价的结果差值在2~4以内, 因此, 从视频编码器的编码效率角度来说, 可以认为它们的性能比较接近。而用来做很多编码器性能测试指标的PQR得到的结果与主观得到的结果差距最大。

从与每个序列主观评价得到的BD-Rate的准确性和一致性角度来分析不同的客观质量评价算法性能, 每个客观算法在每个序列上计算出的BD-Rate与主观评价结果在每个序列上计算出的BD-Rate之间的PLCC, SPOCC值在表3中给出。从表中可以看出, SSIM仍然是本文所选的客观算法中性能最好的一个。

本文以12个全高清视频序列为载体, 经过HEVC和H.264/AVC编码标准的编码器压缩后, 用客观质量评价算法对压缩后的视频进行质量评价, 计算出每一个客观评价算法对每一个视频序列的BD-Rate。分别从与主观评价得出的平均BD-Rate的接近程度、精确性和一致性程度角度, 对选取的客观质量评价算法进行了分析与比较。这样从一个新的角度对不同的客观质量评价方法的性能有新的认识。主要反映的是不同的客观质量评价算法对有压缩编码带来的损伤的敏感程度以及对特定的编码损伤的评价是否符合人眼感知。SSIM对编码带来的图像降质的评价从编码效率角度与人眼感知比较接近, 与很多对客观质量评价算法性能评价的结果一致, 这也从某种程度上论证了本文方法的合理性。

4 小结

基于视频质量评价的时域失真测量 篇9

人眼作为视频的最终受者,视频质量评价的直接方法是进行主观评测,这种方法费时又费力。为了能够实时地评价视频质量,客观评价方法是视频质量评价的关键。

图片质量评价算法(IQA)是视频质量评价算法的一部分。传统的图片质量评价算法,如PSNR,MSE等,只是从纯数学的角度计算两个图片的误差。客观质量评价算法不仅需要从数学角度出发,而且要考虑人眼视觉的相关特性。客观质量评价的最终目的是能够得到与主观评测很好的一致性。目前存在很多种基于人眼视觉特性的IQA算法。基于块的空域分割的SVD模型,Zhou Wang提出的基于结构相似性的SSIM算法[1,2]、基于视觉交互信息的VIF算法和基于可视对比度的VSNR模型,都是基于人眼空域特性的IQA算法。相对于IQA算法,HVS中的时域特征在VQA客观算法中具有重要作用。由于运动矢量在一定程度上反映了视频的时域特征,在对视频评价时,会考虑到视频每帧运动矢量信息[3]。除了运动矢量,时域失真的变化在视频质量评价中具有重要作用。近年来,越来越多的学者致力于HVS特性的时域分析。

目前的客观质量评价算法主要分为3类:全参考方法(FR)、部分参考方法(RR)、无参考方法(NR)。全参考方法是目前最可靠的方法。近年来的大部分方法都是全参考方法。本文的研究是基于全参考方法,主要致力于HVS的时域特性分析。

1 研究背景

VQA算法中时域分析主要由运动信息和HVS特性组成。目前很多视频质量评价算法都要考虑到HVS特性。空时域CSF特性[4]、时域掩蔽[5,6]、运动分解[7,8]、非对称行为[5,6,7,8,9]、感知饱和度[5,6,7,8,9,10]都是常用的HVS特性模型。在视频质量评价中融合这些特性评价视频的感知失真是研究的主要内容。VQA算法为了便于实时的测试应该具有高准确性和低复杂度。

1)运动特性

运动是视频中的重要特征。在VQA算法中,研究者通常把运动矢量作为时域权值计算视频质量。有些算法则是直接利用运动信息计算空时域失真[7,8,9,10,11]。运动信息还可作为一个权值自适应调整空域失真[6]。研究发现,运动信息可以一定程度上反映出眼球的运动。

2)中心凹和视觉暂留

中心凹是视网膜上视觉最敏锐的部位。在明亮条件下,中心2°的敏感性最高,而在中心5°时,敏感性相当于2°下降了50%,超过中心5°,敏感性急剧下降[10]。这个特征经常应用于评价图像。眼球运动常分为两种:扫视和平稳的跟踪。扫视表示人眼会随着时间的变化不停地变化兴趣点。而平稳的跟踪表示在一定时间内人眼会跟踪某一感兴趣点运动。在进行视频质量评价时,一般会把图片的中心点作为人眼最敏感的点。

视频播放时,当影像消失后,人眼将保持其影像0.1~0.4 s左右,这就是视觉暂留效应的影响,一般取人眼保持影像的时间为0.1 s。

3)时域失真波动

除了上述提到的特性,时域失真的波动是视频时域分析的重要部分。在一定的时间内,失真的连续性会影响人眼的感知失真。闪烁、蚊噪等是由时域失真变化引起的。这些都会严重影响人眼对视频序列的感知评价。因此,在研究视频质量评价算法时必须要着重考虑到时域失真。

2 提出的方法

为了分析视频的时域特性,基于HVS特性,建立了一个结构图分析时域特征。结构图如图1所示。

1)运动特征改进

运动具有时域的连贯性,运动估计和运动补偿能很好地反映出相邻帧的相关性。在这篇文章中,采用基于块和多参考帧的全搜索的运动估计方法。文献[8]中提到在一定的时间区间内,人眼的感兴趣点是保持不变的。在计算某一帧t时,仅考虑到t之前的时间区间,认为t的前几帧与当前帧有很大的相关性。为了探究t帧之后的时间区间内的帧内容同样影响人眼对t的感知,将对视频序列做以下处理。

对于参考序列t帧的Y分量I_reft,作基于16×16块的运动估计,参考帧为前后邻近10帧,得到20帧的运动矢量数据。再根据运动矢量对原始序列和测试序列进行运动补偿,得到补偿后的重建帧I_reft+i和It+i,i∈[-10,0)∪(0,10]。通过计算邻近重建帧的PSNR值,发现t后的时间区间内的帧与t帧也具有很高的相关性,如图2所示。

由上可知,在进行视频质量评价研究时需要同时考虑前后帧对当前帧感知质量的影响。

2)基于中心凹和视觉暂留的权值预测

根据视频播放时与人眼的相对运动,将空域中心凹特性扩展为时域中心凹特性。同时用一个滑动窗描述时域中心凹特性。类似于中心凹特性,认为人眼对播放的当前帧最敏感。随着邻近帧与当前帧的距离加大,敏感性降低。人眼视觉暂留一般取0.1 s,根据视频序列的帧率framerate,计算0.1 s内的帧数,见公式(1)

基于中心凹特性(foveal)和视觉暂留效应(visual_staying)融合得到帧级的权值。权值主要反映邻近帧与当前帧的敏感程度,记作ωi,见公式(2)

ωi=f(foveal,visual_staying)(2)

3)时域失真分析

随着时间的改变,失真会有一定程度的变化。人眼对这些失真的变化比较敏感。这一部分主要分析时域失真变化的重要性。由上述可知,对原始序列和测试序列当前t帧运动补偿后分别得到20帧的重建帧I_reft+i和It+i,i∈[-10,0)∪(0,10]。对t帧(m,n)位置的时域失真变化描述,见公式(3)

Dt+i(m,n)=I_reft+i(m,n)-It+i(m,n)(3)

式(4)表示当前t帧绝对失真

Dt(m,n)=I_reft(m,n)-It(m,n)(4)

由于邻近帧和当前帧有一定的相关性,相邻帧相对于当前帧的偏差程度作为t帧(m,n)位置的失真波动程度。

fltt(m,n)=f(Dt+i(m,n),20),i∈[-10,0)∪(0,10](5)

前文提到视觉暂留现象是人眼的一个显著特性。在视觉暂留的时间区间内的邻近帧对当前帧有一定的影响。因此,暂留效应时间内的失真波动程度可以描述为

f(x)的表达式为

图3表示了20帧的失真波动值和暂留效应影响时间内的失真波动值的情况。图4表示了flt和flt_stay之间的相关性。当flt<flt_stay,可以认为HVS对该区域比较敏感。

根据以上特性融合得到时域的感知失真。ωi作为每一邻近帧的时域影响因子,将失真与视觉暂留融合得到感知失真。

式中:pt(m,n)表示当前帧t的邻近帧的感知失真;p't(m,n)表示当前帧t的邻近帧内受暂留效应影响的帧的感知失真。两个参数的图像显示如图5所示。

根据时域和视觉暂留的相关性,将t帧的失真描述为

图6显示了失真图。为了研究时域失真与主观评测的一致性,将θt归一化到[0.5,1.5],即

像素级的失真采用Minkowski准则,融合为帧级值TVQAt,即

式中:M和N表示像素级失真图的高度和宽度。采用均值算法融合整个序列,得到序列的时域相关的客观分数。

3 结果分析

本文主要是研究时域失真与人眼视觉系统的相关性。基于LIVE数据库,验证测试序列的时域失真与主观分数的一致性。LIVE数据库包含10个参考序列,每个参考序列包含15个测试序列,总共包含了150个失真序列。本文选择了6种测试序列:Blue sky,Mobile&Calendar,River Bed,Rush Hour,Shield,Tractor,数据库中同时提供了测试序列的主观评测分数DMOS值。本文基于5种评测准则对6个序列进行评测:1)Spearman等级相关系数(SROCC);2)Pearson线性相关系数(CC);3)离出率(OR);4)均方根误差(RMSE);5)预测分数和主观分数的残差方差(VoR)。

表1显示了测试序列的结果[10]。这些序列包含静止镜头(River Bed,Rush Hour,Shield,Tractor)和移动镜头(Blue Sky,Mobile&Calendar)。CC值和SROCC值越大,表示时域失真和主观分数的一致性越好,OR,RMSE和VoR则相反。

从表中可以看出,静态镜头的CC和SROCC值比其他的要大。OR,RMSE和VoR值相对较小。这里认为这些特性的融合能很好地表示时域失真。

4 小结

本文讨论了VQA算法中时域波动的问题。该研究是基于HVS特性并将其整合为模型,从而判定时域分析对VQA算法的重要性。在本次研究中仍存在很多不足,如运动估计时的块大小,后续将继续研究并调整算法。图3可以看出时域失真波动图可以一定程度的反映出人眼感兴趣的区域,将基于此点继续做研究。

摘要:视频质量评价(VQA)对于视频处理应用有着重要影响。人眼视觉特性的时域掩蔽效应和时域失真波动是视频质量感知评价的关键因子。在已有的视频质量评价研究中,很少有考虑到时域失真波动对视频主观感知质量的影响。改进了传统的时域分析算法,并证明了视频质量评价算法中时域失真的有效性。

关键词:VQA,时域失真评价,时域失真波动

参考文献

[1]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assess ment:from error visibility to structural aimilarity[J].IEEE Trans.Im age Processing,2004,13(4):600-612.

[2]李成文,宋建新.一种基于结构相似性的空时视频质量评价方法[J].电视技术,2011,35(7):92-94.

[3]WANG Z,LI Q.Video quality assessment using a statistical modelof human visual speed perception[J].Optical Society of America,2007,24(12):B61-B69.

[4]KELLY D H.Motion and vision II.Stabilized spatio-temporal thresh old surface[J].Optical Society of America,1983,73(6):742-750.

[5]LI Songnan,MA Lin,NGAN K N.Full-reference video quality as sessment by dcoupling detail losses and additive impairments[J].IEEE Trans.Circuits Syst.Video Technol.,2012,22(7):1100-1112.

[6]ZHAO Yin,CHEN Zhenzhong,ZHU Ce.Video quality assessmentbased on measuring perceptual noise from spatial and temporal per spectives[J].IEEE Trans.Circuits Syst.Video Technol.,2011,21(12):1890-1902.

[7]WANG Yue,MA Siwei,GAO Wen.Novel spatio-temporal structuralinformation based video quality metric[J].IEEE Trans.Circuits SystVideo Technol.,2012,22(7):989-998.

[8]SESHADRINATHAN K,BOVIK A C.Motion tuned spatio-temporalquality assessment of natural videos[J].IEEE Trans.Image Process ing,2010,19(2):335-350.

[9]NINASSI A,MEUR O L,CALLET L,et al.Considering temporalvariations of spatial visual distortion in video quality assessment[J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):253-264.

[10]DUCHOWSKI A.Eye tracking methodology:theory and practice[M].London:Springer,2007.

视频质量评价方法 篇10

具有至关重要的作用,根据高职高专院校教育课程改革的特点和要求,应当将评价方法与本科院校的教学质量评价方法有区别地对待,建立起适合高职教育教学评价的新的方法与对策,并就在实施过程中发现的一些问题进行认真地思考和探索。

关键词:教学质量评价方法 评价标准 对策研究

课堂教学是高等学校教学活动的主体和核心,如何科学合理地评价教学质量也成为高等教育研究与实践的焦点,是人们关注高等教育的核心所在。高等职业院校作为培养高质量的“技能型”人才的摇篮,有其教学目标和教学重点的特殊性,使得高职院校的教学质量评价方法和本科类院校存在着一些差异,需要区别对待。课堂教学评价的合理性、科学性和可行性直接影响到评价结果的可信度与准确性,是课堂教学评价工作如何展开的难点,是一个值得探讨的问题。

职业教育是以服务为宗旨、以就业为导向,培养面向生产建设需要的、实践能力强、具有良好职业道德的高技能人才,这与一般本科大学的培养学术型人才的培养方针是存在很大的区别的,这种培养目的的区别直接导致高职院校教育教学方式的不同,进而对教学进行评价的方法以及遇到的实际问题也要区别对待。

1 高职院校课堂教学质量评价工作中存在的问题

1.1 忽略了实践课程与理论课程的区别

以往很长一段时间高职高专院校的教学定位不是很明确,依然是以理论教学为主,甚至很多课程根本就没有实践教学的部分,这就导致了以往的教学质量评价方法仅仅适用于理论课程而不适用于实践课程。随着高职高专院校教学改革的深入进行,为了真正提升学生的实际动手能力,实践教学所占的比重在不断加大,如何使教学评价方法能够既适应理论课程又适合实践教学质量的评价,就要求编制出与之相对应的指标与方法。

1.2 忽略了新兴课程与传统课程的区别

随着社会的发展,高职院校教学也与时俱进,很多新兴课程应运而生,这类课程与传统课程相比,无论是教学理念还是教学形式与方法都有着不小的差异,这就需要教学质量评价工作针对这些新课程的特殊性进行相应的改变。

1.3 难以考量学生的主观情感对于教学评价工作的影响

如今高校教学质量评价仍然以学生的评价为主,不得不说,这种衡量方法是把“双刃剑”,一方面学生是教学的直接受体,对教学质量有着直接的感受和评价,有实在的发言权;但是,学生都是独立的个体,对事物有着自己的偏好,一些学生可能偏好性格沉稳、管教严格的老师,一些学生可能刚好相反,还有部分学生很少在学习上寻找自己的主观的原因,将成绩不好、学的知识太少统统归到老师的身上,于是,如何有效避免将主观情感的过分和不成熟的情绪带入成为教学质量评价工作的一大难点。

1.4 指标体系中缺少企业、社会等评价主体的参与

由于高职高专教育“校企结合”的特点,其实践教学的参与者还包括社会、企业等主体,学生除了在学校学习一些实践课程,还会有时间较长且形式多样的校外实践活动,如实验、实习、实训等教育培养环节。因此,只有把这些环节也纳入到教学质量评价体系中来,才能真实有效地反映教学的成效。

1.5 缺乏评价反馈机制

高职院校在教学质量评价过程中,很少把评价结果反馈给教师,一般都是将结果及评语放在教务处或者教学秘书处,教师不能获得相关的详细的评价信息,或者教师了解自己的评价结果,却缺乏相应的改进机制,没有人督促教学效果的改进,这样教学过程中的问题就不能及时得到解决,教学质量自然得不到提升,那么,进行教学质量评估也就丧失了意义。

2 高职院校教学质量评价应当遵循的原则

2.1 针对性原则

高校教学涵盖不同的学科与专业,不能用同一种固定不变的评价标准来衡量,应当在反映各科教学基本规律与共性的基础上,针对不同性质、种类的课堂或课外教学采用多样化的评价指标体系。

2.2 全面性原则

教学质量评价体系应当从各个角度全面反映课堂教学的规律与特点,保证评价结果客观、真实。

2.3 可操作原则

进行评价的指标的表述应当是评价主体易于理解、易于判断的,同时应该是评价主体熟悉且容易搜集的,含糊不清的表述,模棱两可的判断,将使评价过程变得异常艰难,信息也会失真,从而丧失了评价的意义。

3 高职院校教学质量评价应对策略

3.1 多元化地制定教学质量评价指标

在一所综合类的高职高专院校中,会有很多性质不同的学科,不同性质的学科对于人才培养目标和方法也有所不同,不能以偏概全地用同一个指标体系来对教学要求与教学特点都不同的学科进行评价,这样不能真实地反映课堂的实际情况。所以在构建教学评价指标的时候,我们应当尽量把握不同学科的特点,有针对性地构建教学质量评价体系,这样才能让评价结果真实可靠,反映出教学的多元化和多样性的特点。

3.2 教学主体全面参与教学质量评价

教学质量评价不能仅仅让学生参与,而是应该让所有的教学主体都参与到这个过程中来。首先,学校要设立督导小组,负责评价指标的编制工作。其次,作为教学实施单位的系部也要有专人定期对教师的教学情况进行检查。检查的方法不能流于形式,不是简单的工作总结,而要严肃认真地对检查结果进行分析和改进,深刻剖析问题存在的原因,提出批评与自我批评。再次,要正确引导学生对老师的教学进行客观公正的评价,只要正确地对学生加以引导,会大大降低学生评分的任意性和主观性。最后,用人单位也应当参与到教学质量评估工作中来,毕竟,学生的质量高低,用人单位有最直接、最实际的感受,并且作为学校的参与主体,用人单位的评价将会最为公平客观。

3.3 定性与定量分析有机结合

教学活动是一个教与学结合的复杂过程,很多的特征可以用客观的数字化的标准来加以衡量;但是,同时又有很多的特征无法用固定的数字化的标准来衡量,这样就要求我们不能一味地让学生或是用人单位去打分,具体的分数只能大致地反映出教学质量的大概情况,但是具体有什么问题,或是有什么意见与建议,在分数里却不能很好地得以体现。因此,教学质量的评价应该将定性与定量的评价有机地结合起来,既要用规范、详细的定量标准去统一要求,又要有灵活性的问卷式问答进行询问和总结,这样就可以既强调对象对指标的达成度,又注重了教师的不同教学风格与个人性格的形成和发展,创造出多元化的课堂教学质量评价方式。

3.4 建立有效的督导与反馈机制

教学质量评估仅仅是一种方式与手段,其最终目标应该是“以评促改,以评促教”,促使教学质量得到不断的提高,确保学校培养出的人才能够适应社会与企业的需求。很多学校确确实实在做各种方式的教学质量评估,但往往在得到某个分数或结果之后就停滞了,这就是对进行教学质量评估的目的不明确。教学质量评价的功能与目的是通过对教学组织、过程及效果的全面监控,及时发现问题,并进行有效的反馈,最终对教学进行改进以及有效的激励。这就要求学校各级都需要有相应的人员进行全过程的督导,对评估的结果进行分析,将评估结果反馈到系部以及教师本人,评估结果好的教师应该加以适当的激励,表现差的提出批评,并监督加以改正。

3.5 评价数据的删选

在进行评价的过程中,要注意剔除一些异常数据,由于受主观因素的影响,需要对数据进行处理后再进行分析,从数理统计的角度来看,数据偏离期望值越多,其由不正常的因素导致的可能性就越大,所以为了提高评价结果的准确性,在进行数据处理时要注意剔除异常数据。由于学生受主观因素的影响较大,一般可以用去除最高5%和最低10%的数据的方法进行处理。

高职院校教学质量评价是提高教学质量、促进教师自我发展的有力措施之一,要充分调动评价主体的参与热情,建立科学合理的评价指标体系,克服评价过程中的主观因素的影响,将教学质量检测结果作为教师激励的一个重要评判依据,不断推进高职院校教学质量的提升,培养出更高质量的人才。

参考文献:

[1]李海英.高等数学教学方法与手段评价标准研究[J].价值工程.2011/21.

[2]王丹慧.高校绩效管理教师评价制度的问题与对策研究[J].价值工程.2011/19.

[3]李华,杨国梁.高校干部教育培训现状及对策研究[J].重庆大学学报(社会科学版).2011/04.

视频质量评价方法 篇11

随着视频编解码技术在多媒体行业的广泛应用,数字视频图像的质量评价也越来越重要。目前已有的评价算法包括主观评价和客观评价两大类。主观评价是基于人眼的直接观察来评价图像质量,因此结果可靠。但是该方法对测试环境要求苛刻,评价过程较为复杂,且不适用于对图像质量的实时评测[1]。而基于人眼视觉感知特性的客观质量评价技术则可以很好地解决这个问题,因此,客观评价在视频图像的相关领域得到了较为广泛的应用。

客观评价算法根据评价时对原始视频图像的依赖程度可进一步分为以下3种:1)全参考质量评价。该方法需要获取全部的原始视频信息,通过将受损的视频图像与原始视频进行逐帧逐像素的比较,以获得最终的评价结果。但是由于大部分应用都无法提供未压缩的原始信号作为参考,所以应用场合非常有限;2)缩减参考质量评价。该方法首先定义视频图像的特征参数,通过分析原始视频和受损视频对应特征参数的差异来评价图像的受损程度。由于评价中只用到特征参数,因此可以很大程度地减少在用户终端评价时所需要的时间和空间代价。但如果所定义的特征参数不能很好地表征视频序列的整体特征,则可能导致评价结果出现误差;3)无参考质量评价。该方法不需要原始视频信号的任何信息,仅通过分析和提取受损视频的特征即可实现质量评价。由于不需要原始信号作为参考,所以相比较前两种方法,该评价方法的应用范围更为广泛。无参考评价算法可以对非压缩域的视频图像进行评价,也可以直接对传输中的压缩码流进行评价。其中,对于非压缩域的质量评价需要先进行解码解压缩操作以获取各帧的像素值,必然会增加算法的复杂性、影响算法的实时性。因此,在无参考质量评价的研究中,如何通过分析码流参数来获取准确的质量评价结果是一个研究热点。

2 基于压缩域的无参考评价方法

目前国际上对压缩域视频图像质量客观评价的研究还处于初步阶段,相关的研究文献也较少。概括起来可以将现有的方法分为2类:1)在压缩域中求视频图像的某种损伤值[2,3,4],如量化噪声功率、块效应和峰值信噪比(PSNR)等。在文献[4]中,作者从压缩码流中提取量化因子(QP)和宏块类型这2个特征值,并通过一定的测试系统估计PSNR值以实现视频质量的客观评价。但这种方法着眼于某一种或几种损伤,由于图像的损伤种类很多,所以不适于表征视频图像整体感知质量。2)基于码流中的编码参数和视频的统计特征值(如量化因子和运动矢量等),寻找这些特征与感知损伤的关系,将特征加权,得到客观评估结果[5,6,7]。在文献[7]中,针对MPEG-2视频流,作者提出了一种基于CBP(Circular Back Propagation)神经网络的视频质量客观评价方法。该算法把从码流中提取的特征参数传入人工神经网络,通过神经网络对一些典型的样本进行训练,利用神经网络的“记忆”功能来建立计算提取的特征与主观评价结果的数学模型,以实现对图像质量的正确评价。其实验结果也说明了基于压缩域的无参考评价算法的优点:既不需要原始信号作为参考,又可以减少非压缩域视频质量评价所需要的再解码操作,从而降低了计算复杂性。

Zhou Wang等人于2002年提出了一种无参考JPEG压缩图像的可感知质量评价方法[8]。在这种方法中,首先分析了图像的损伤原因,并设计了一种计算简单、高效存储的特征提取方法。主要提取了图像特征中的块效应B、平均绝对差A和过零率Z,并结合图像的主观评价值S,设计了一种简单的算法模型,其表达式为

式中:α,β,γ1,γ2,γ3是模型参数。该模型采用非线性回归拟合算法,将用来训练的图像特征值和主观评价值作为模型的输入,以确定模型参数。之后,此模型即可用于图像质量的客观评测。但这种方法只能用来评价静止的图像,还不能用来评价H.26x/MPEG-2压缩的视频。而且这种方法需要大量不同类型的图像及其主观评价值用来训练,以得到较准确的模型参数,因此这种模型的泛化能力受到训练样本的限制。

然而,在文献[5]、[6]和[9]提出的算法中,实验采用的测试序列格式几乎都是QCIF或CIF,码率低于1 Mbit/s。可见,目前对H.264无参考视频质量评价的研究主要是针对低比特率、低分辨率的流媒体和无线网络,而在高清晰度视频应用领域的研究还很少。因此,基于H.264压缩域的高清晰度视频质量评价研究,笔者提出了一种新的无参考视频质量评价算法,通过分析并提取H.264压缩码流的特征信息来获取对当前码流质量的客观评价。

3 基于H.264视频流的无参考评价算法

基于H.264标准的无参考视频质量评价框图如图1所示。首先,选取一部分高清测试序列经过H.264编码器,将压缩后获得的码流作为训练素材,提取最能反映视频压缩损伤程度和视频图像特性的特征。之后,通过分析这些特征值与主观评价结果之间的对应关系,以及各特征参数对最终评价结果的影响程度,统计分析得到每个特征的加权系数,最终建立视频质量的客观评价模型。当采用这个客观评价模型对某一视频序列的压缩码流进行质量评测时,可以直接从码流中提取指定的特征,并根据模型定义的加权系数进行计算,获得该序列质量评价结果。

3.1 H.264压缩域特征参数提取

高清视频序列经过H.264编码器后生成H.264码流,该码流所含的特征参数记录了原始视频在通过编码器生成压缩码流时所“经历”的受损过程。这些参数可以为评价压缩编码所引起的质量损伤提供重要信息,因此,特征参数的定义直接影响到视频质量的评价效果。

然而,码流中可用的特征参数很多,需要经过一定的挑选。笔者对特征参数的挑选按如下2个原则进行:1)提取码流中直接表征视频压缩编码的特征。通过分析各特征与主观分数值的相关性,可以选择相关性较大的特征。2)充分考虑视频图像的复杂度和序列帧间的运动程度对视频压缩损伤的影响,提取出反映视频图像特性的特征。

经过比较分析以及MPEG-2视频流的实验验证[10],笔者最终挑选了“量化因子”、“编码跳过的宏块数目”这2个特征。其中,“量化因子”与主观差异值有很好的相关性,是直接度量视频序列损伤程度的参数;而“编码跳过的宏块数目”则能很好地反映视频序列前后帧图像的变化情况。

1)量化因子(QP)。在视频图像编码中,量化是图像编码中引入失真的主要环节。量化过程中,量化系数越大,编码所需的比特数就越少,则可获得较高的压缩比。但随着量化系数的增大,误差也随之增加。在选择量化系数时,一般可以依据人的视觉特性,加大图像不敏感成分的量化系数,在减少编码比特数的同时,获得较好的图像主观感受。序列码率的变化会导致编码时量化步长的变化,相应地QP值也发生改变。对于不同码率的序列,主观评价值必然不同,这说明了QP和主观值之间有一定的相关性。

2)编码跳过的宏块数(num_skip)。当图像采用帧间预测编码时,H.264允许在图像平坦的区域使用“跳跃”块,“跳跃”块本身不携带任何数据,解码器通过周围已重建的宏块数据来恢复“跳跃”块。随着num_skip的增加,不需要编码的宏块就越多,则编码后码率越小。这些跳跃块的存在可能导致解码后的画面在低频区域出现较明显失真,从而带来主观观看的不适,获得较低的主观评价结果。

3.2 主观评价

虽然笔者进行的是无参考评价算法的设计,但也需要用到主观评价。主观评价结果在本文算法中的作用有:1)在算法模型建立过程中调整各特征参数的加权系数;2)在测试过程中检测算法评价结果的准确度。

在主观评价标准中有多种不同评价算法,本文所采用的主观评价是双刺激连续质量标度法(DSCQS)。相对于只对受损图像评价的单刺激主观评价算法,DSCQS算法的评价准确度高,结果更可靠,因此,笔者在主观评价算法的选择中以此算法为主。

算法中所用到的主观评价结果并不是测试图像质量的绝对分值,而是参考图像和测试图像之间的评分差值,表征的是测试图像相对于参考图像的质量损伤程度,即测试得到的主观值越大,则说明测试图像相对于参考图像的质量损伤越大。

3.3 客观评价模型的建立

不同视频具有不同的空间和时间特征,而人眼对于某些特征参数会比较敏感。虽然单个特征参数可以反映图像质量损伤的来源,但却难以包含图像质量受损信息的全部来源,更无法直接替代主观评价结果。所以为了保证压缩域视频质量客观评价的全面性及准确性,并充分考虑H.264压缩域中的视频特性,在算法设计过程中需要处理多种特征参数。

在文献[10]中,可发现某些特征参数与主观值有较大的线性相关性,因此,笔者考虑将表征图像质量损伤的多个特征参数与主观值进行线性拟合,得到一组客观评价值,来代替主观评价值

式中:score是客观评价值,α,β和γ是各个特征参数的权值。式(2)就是本文建立的高清视频质量客观评价模型,其中各特征参数的权值为待确定的模型参数。

4 实验结果与分析

笔者采用8个高清序列进行实验:市场(含有镜头切换)、喷水、海豚、树枝、春晚、花朵(色彩鲜艳)、海港(运动缓慢)和秋叶(快速随机运动),序列截图见图2。压缩码流是由H.264高清硬件编解码器生成的,序列的色度采样格式是4∶2∶0,长度为10~15 s,包含8 Mbit/s,10 Mbit/s,12 Mbit/s,14 Mbit/s,16 Mbit/s,18 Mbit/s共6个码率。从序列的运动情况上看,涵盖了镜头的推拉摇移运动,包含运动相对缓慢及剧烈等情况。从序列画面的复杂程度看,包含了细节丰富和相对平缓的大面积着色等情况。

4.1 特征参数与主观值的相关性

量化因子QP与主观值的关系如图3a所示。可以看出,随着主观值的增大,QP几乎都呈增加趋势。这说明随着主观值的增加序列的码率在减小,则编码时量化步长将增大,相应地QP值也增加。

编码跳过的宏块数num_skip和主观值的关系如图3b所示,为了更直观的表示,图中横坐标的num_skip值是经过归一化处理的。由图3可以看出,随着主观值的增大,num_skip呈增加趋势。这说明随着num_skip的增加,不需要编码的宏块越多,则编码后码率越小,相应地主观值就会降低。理论上,当视频中有场景切换时,跳跃的宏块数会比相对“平坦”的视频要小,由图中也可看出,序列“花”的num_skip比其他序列的要小很多。

4.2 评价模型中的参数确定

在第3.3节笔者已经建立了高清视频质量客观评价模型,式(2)中的模型参数α,β和γ则需要通过分析各特征参数与主观评价结果之间的线性拟合关系来确定。

从实验样本中选出“春晚”和“秋叶”2个序列作为测试序列,不参与训练,其他6个序列作为训练序列。对训练序列的主观值与特征QP,num_skip的数值进行最佳线性拟合,得到客观评价值的最佳拟合结果为

通过对训练序列进行训练,对比式(2)和式(3)即可确定该客观评价模型中的α,β和γ这3个待定参数,如式(3)所示。

4.3 评价模型的性能检测

为了验证评价模型结果的可靠性,需要对测试序列进行测试。根据提取的特征值,用所建立的算法模型计算测试序列“春晚”和“秋叶”的客观评价值,并与实际的主观评价值进行比较,得到如图4所示的结果。

测试序列的主观值和客观评价值的相关系数为-0.869。由图4可以看出,主观值与客观评价值基本呈线性关系,也就是说对于一个序列,可以通过提取量化因子和跳过的宏块数等特征来计算它的客观评价值,可以近似地代替主观评价的结果。

5 总结

笔者提出了一种新的基于H.264标准的无参考视频质量评价算法,通过提取压缩码流的特征参数,建立评价模型实现对视频质量的客观评价,最终可以获取较为满意的基于压缩域的视频质量评价结果。目前,笔者通过选取2个特征参数(QP和num_skip)建立码流参数与评价结果之间的算法模型,并通过实验来验证该模型评价结果的可靠性。由于直接采用线性模型,因此,求解方便,计算速度快。而且,从目前的实验看,结果也比较准确。由于该算法采用的是无参考质量评价,不需要提供原始参考信号,所以其应用领域也得到了很大扩展。

由于目前H.264高清编解码器的应用非常有限,因此,可获取的H.264码流较少,暂时还无法通过大量的测试素材从多方面来分析该模型的性能。此外,为了降低算法的复杂度,本算法在求解模型参数时,只用了2个特征参数,而且没有验证特征参数与最终评价结果之间是否还满足其他数学关系。因此,实验具有一定的局限性,拟合结果和理想的结果有一定差距。未来的研究工作集中在从压缩码流中提取出更多的能反映质量损伤的特征参数来完善该算法,使测试结果更精确。

参考文献

[1]章文辉,王世平.数字视频测量技术[M].北京:北京广播学院出版社,2003.

[2]KOULOHERIS J L,LI Gang,WANG Zhou.Method and system for objective quality assessment of image and video streams:United States,7170933[P].2007-01-30.

[3]KNEE M.The Picture Appraisal Rating(PAR)A Single-ended picture quality measure for MPEG-2[C]//Proceedings of the Inter-national Broadcasting Convention.Amsterdam:[s.n.],2000:95-100.

[4]SLANINA M,RICNY V,FORCHHEIMER R.A novel metric for H.264/AVC no-Reference quality assessment[C]//IEEE Systems,Signals and Image Processing,2007:114-117.

[5]RIES M,NEMETHOVA O,RUPP M.Reference-free video quality metric for mobile streaming applications[C]//Proc.of the DSPCS05&WITSP05.Australia:[s.n.],2005:98-103.

[6]NEMETHOVA O,RIES M,SIFFEL E,et al.Quality assessment for H.264coded low-rate and low-resolution video sequences[C]//Proc.of conf.on Internet and Inf.Technologies(CIIT).US virgin Is-lands:[s.n.],2004:136-140.

[7]GASTALDO P,ZUNINI R,ROVETTA S.Objective quality assess-ment of MPEG-2video streams by using CBP neural networks[J].IEEE Trans.on Neural Networks,2002,13(4):939-947.

[8]WANG Zhou,SHEIKH H R,BOVIK A C.No-reference Perceptu-al quality assessment of JPEG compressed images[C]//IEEE Inter-national Conference on Image Processing.[S.l.]:IEEE2002.

[9]NEMETHOVA O,RIES M,SIFFEL E,et al.Quality assessment for H.264coded low-rate and low-resolution video sequences[C]//Proc.of Conf.on Internet and Inf.Technologies(CIIT).US Virgin Is-lands:[s.n.],2004:136-140.

上一篇:资产清理下一篇:预先研究项目