视频质量评估方法(精选10篇)
视频质量评估方法 篇1
1. 项目背景
随着三网融合的顺利推进, 视频目前已经成为互联网上流量增势最为迅猛的业务, 视频无疑将会成为电信网上的“流量之王”。因此, 对于电信业务运营商而言, 视频业务的服务质量已经成为影响互联网用户使用感知的主要因素, 但运营商如何评估网内视频网站的服务质量, 目前仍是一个难题。运营商作为互联网用户投诉的第一受理者, 无法评估自己网内视频网站的服务质量就意味着产生用户投诉时无法定位具体原因, 无法采取针对性措施提高用户感知, 造成了客户的流失。
2. 问题分析
(1) 原有技术方案不足。
视频网站的总体服务质量难以评估主要与视频网站的部署方式有关。视频内容提供商为了提高服务质量, 采用了CDN (内容分发网络) 、多IDC (互联网数据中心) 等方式将视频源分布部署在不同的服务器上;资源调度也采用动态机制, 不同的内容提供商的调度机制不尽相同, 可根据用户源地址、服务器负荷、最短路径将不同用户的访问定位到不同的视频源服务器上。但对用户和电信运营商而言, 内容提供商的调度过程完全是透明的:同一个用户在不同时间、不同的用户在同一时间访问同一个视频源, 可能调度到不同的视频服务器上, 从而出现观看视频有时流畅有时不流畅的情况。
(2) 现有方式无法反映整体的访问感知。
现有的评估手段通常是记录视频网站的一个视频地址, 然后通过不断播放该视频的方式来监控其访问质量。这种方式通过手工配置可以监控到一个或多个视频的访问质量, 而无法反映视频网站的整体访问感知, 不能指导后期的优化工作, 主要存在以下缺点: (1) 不全面。几个视频的测试结果显然无法反映视频网站的整体访问质量。 (2) 偶发性。调度到网内资源时测试结果可能很优秀, 但调度到网外时测试结果会很差。测试结果起伏越大可信度也就越低。
3. 深度扫描解决方案
新的评估方法需要能够把控视频网站的整体访问质量, 评估结果要能够真实地体现用户感知。因此, 新的评估方法不再局限于单个或数个视频, 而是归根溯源:通过深度搜索技术搜索视频网站的所有视频源服务器, 获取视频网站的所有视频服务器列表;通过广度测试技术来定位视频源服务器的服务质量;通过对定位概率的统计分析, 最终计算有多少视频定位到网内优质视频源, 有多少视频定位到网外劣质视频源, 并以计分来评估视频网站的整体服务质量。
这种系统主要包括三个功能模块:视频源扫描模块、视频测试模块、结果呈现模块。视频源扫描模块实现对指定视频网站中所有视频源服务器端的定位以及统计视频网站上视频的分布情况;视频测试模块实现对视频源服务器服务质量的测试;结果呈现模块实现对测试结果的统计分析, 通过报表形式展现最终的评估结果。
(1) 视频源扫描。
视频源扫描模块 (见图1) 通过仿真技术模拟用户操作: (1) 多层扫描。一个大规模的视频网站由多级页面组成, 视频扫描模块首先打开视频网站的主页, 通过对网页源代码的正则表达式分析, 获取出二层链接的URL, 通过调用IE进程模拟用户打开URL来获取更深层次的URL链接。 (2) 在最底层页面中扫描视频链接, 并模拟用户调用IE进程打开该链接。 (3) 触发视频服务提供商的调度过程。 (4) 调度服务器会将用户访问调度到实际的视频源服务器上。 (5) 视频扫描模块获取到最终的视频源服务器地址, 并与数据库比对, 定位该视频服务器归属的运营商。
视频扫描模块通过24h不间断地扫描, 最终可以将视频网站的所有源视频服务器地址纳入监控, 并可以计算出每个视频源服务器的命中率。
(2) 视频测试。
视频测试模块负责对视频扫描模块获取到的视频源服务器的测试。视频测试模块模拟用户打开视频后, 每隔10s计算一次下载速率, 并与视频自身的码流要求对比, 下载速度大于视频码流被认为是优质视频源服务器, 同时记录测试结果。
(3) 结果呈现。
结果呈现模块汇总分析视频测试模块与视频扫描模块的结果, 将计算出两个主要参数来评估视频网站的整体服务质量:优质视频源服务器占比和优质视频源命中率。优质视频源服务器占比高说明该视频服务提供商已经在运营商网内进行了大规模部署;优质视频源命中率高说明视频服务提供商已经将内容资源同步到了网内的视频服务器上。
运营商将根据结果主动向客户推荐优质视频源服务器占比高和优质视频源命中率高的视频网站, 提高用户访问感知。
4. 研究成果意义
本文所述研究成果解决了因视频调度机制问题导致的视频网站服务质量难以评估的难题, 克服了现有技术中测试结果不全面、不真实等缺点。通过深度扫描技术对视频网站的所有视频源服务器进行全面、不间断扫描, 确保数据的全面和完整;计算出优质视频源服务器占比和优质视频源命中率, 可以真实地反映用户感知, 有效地评估视频网站的整体访问质量, 进而有针对性地推荐优质视频网站, 提高网内客户的业务使用感知。
视频质量评估方法 篇2
受国内工程建筑施工企业管理粗放、建筑工人素质不高等因素影响,房地产企业工程质量问题一直是一项难以解决的复杂问题,不少知名房企尝试了各种方法,却收效甚微。近年来, 市场的成熟、客户购房知识和经验的提升,以及第三方验房的出现,对房地产企业工程品质提出了更高的要求。日益激烈的市场竞争也促使很多企业也开始思考如何更有效的推动工程品质的提升,部分优秀企业进行了很多有益的尝试,并形成了一些有效的方法,如建立工程质量评估体系及奖惩机制、促进内外部对工程质量的重视。以下是我们结合咨询项目的经验和企业具体实践,对工程质量评估体系的建立及效果评估等方面进行的总结和提炼,供广大房企借鉴。
一、工程评估体系的建立
工程评估体系的建立需要结合企业发展阶段展开,并结合企业实际建立相适应的评估体系。
(一)工程质量管理评估体系建设的阶段划分
工程质量管理评估体系建设具体可划分为四个阶段,即粗放阶段、规范管理阶段、品质提升阶段、卓越品质阶段。
以上前三个阶段在国内房地产企业的工程管理过程中均有企业实施,第四阶段目前国内还没有形成完善的体系,部分标杆企业正在摸索和实践中。
(二)工程质量评估体系设计的目的
工程质量评估体系设计的目的:满足国家及政府机构的强制要求;满足产品顺利交付给客户的目的;保障产品品质的一致性;减少质量事故和客户对质量的投诉;通过评估提升质量管理人员对品质管理的意识和管理能力;提升公司产品品牌价值,赢得更多客户信赖。
(三)工程评估体系评估方法的设计 1.工程质量评估体系建立的主要内容
工程质量评估体系实际是一个涵盖策划、实施、监控的完整系统,需要不断优化完善,其体系建立应从四大包含要素与质量目标的建立等五个方面着手。
2.工程管理评估体系建立的原则
目标导向:以企业发展战略目标为导向,建立与之匹配的工程管理目标,以及分解形成的工程质量提升目标,并基于此目标建立工程评估体系;
分步实施:工程质量评估体系的建立需结合企业发展阶段和内部能力,按计划分步骤实施,以逐步达到企业规定的要求;
逐步完善:工程质量评估体系的建立是一个由简单到精细的过程,因此需要企业不断的完善和优化; 渐进提升:工程质量管理目标的建立不宜一开始就制定过高的目标要求,需要一步一步的实现。
3.工程质量评估体系建立方法
(1)工程质量管理目标设立。企业工程质量评估体系策划需要基于企业工程质量管理目标展开,当企业对工程质量提出更高要求时,企业应结合内部管理能力规划工程管理能力提升的方向、目标及途径,并在此基础上建立相对应的评估体系。(图3)
(2)工程质量评估维度及权重设计。在明确工程质量管理目标的基础上,首先确定工程质量评估的维度及相应权重,选取本阶段评估有价值及可评估的维度,并根据重要性确定评估指标的权重。图4 某企业工程质量评估维度及权重示例中,观感质量、防渗抗裂及实测实量的评估需结合企业管理能力和基础确定是否纳入评估体系,如果这几个部分的评估难以开展,需要结合工程检查开展实体质量评估。
(3)建立评估标准。工程质量管理评估标准建立的思路:基于企业管理目标、内部管理能力、工程管理体系的精细化程度拟定工程质量评估标准。如某国内标杆企业出于对企业品牌和企业影响力方面的考虑,对控制项目风险有较高要求,因此在建立工程管理评估标准的同时,还建立了项目质量风险评估机制,以提前预控质量风险,前置采取防范措施。
工程管理评估标准建立的方法: 工程质量评估标准的建立的依据来源于两个方面,一方面是企业制定的工程管理标准,另一方面是国家规范及企业的工程技术标准、施工工艺规范等,所以工程评估标准的设计是建立在企业工程管理标准基础上。工程质量评估标准一般细分为三级指标:
a.一级指标评估可能包括工程实体质量、安全文明施工、质量管理活动、内业质量、项目风险评估等五个维度;
b.二级指标在一级指标的基础上细分,如实体质量中又可划分混凝土结构工程、砌筑工程、抹灰工程等;
c.三级指标是最终测量指标,如表面平整度、垂直度、方正度、外门窗洞口尺寸偏差等测量项目;
每一个测量分项都由以下几个部分组成:测量对象、合格标准、测量工具、抽样测量原则、测量方法等,企业在设计时还可以结合测量示意图更直观的表达测量方法。这些指标的选取主要基于项目质量视角、客户视角、安全文明生产视角等进行考虑,根据不同产品业态及档次确定具体测量指标,测量指标值应结合国家规范、企业标准和经验数据总结提炼。如果企业产品品质要求高,或者对工程质量的客户满意度要求较高,则还可根据需要针对性的增加防渗漏等检查项目和对观感质量的检查项目。同时对出现的质量通病和客户不满意的项目进行分析,查找原因,必要时在实测实量中增加相关检查项目,以促进该项指标的提升。从赛普专项咨询项目实施的经验来看,各企业基于产品档次、区域、产品精细度的要求不同(如精装房则要求的检查项目更多),目的不同(如万科推广的全面精装修房对尺寸要求更高),检查项目的设置均会有所不同,这就需要我们进行针对性的设计。
(4)评估管理流程及机制的建立。为保证工程质量评估体系有效实施,除策划评估标准外,还需要完善评估机制(包括评估的组织、评估的时机、频次、评估准备、评估实施、评估结果的输出以及评估结果应用等)。
在评估的组织职责方面,需根据集团管控模式明确集团、区域、城市公司/ 项目公司或项目部在工程质量评估方面的职责,并明确各级组织评估的侧重点。明确工程质量的评估职责后,还应明确评估的时间、频次、范围和相应的奖惩措施。(表2)
万科、中海在开展工程质量评估的过程中,通过对施工单位、监理单位实测实量评估结果的真实性进行检查,均充分发挥了监理单位的作用。各企业在实施实测实量时,抽查范围及频次均应结合企业工程管理人员的配置情况和能力进行设置,以确保评估工作有效推进。(5)评估结果应用机制的建立。
二、工程管理评估体系的实施
工程管理评估标准应该是一个动态管理的标准,需结合企业实践和不同阶段的管理需要,不断完善和修改。如万科过去采用现场检查评估,但基本上采取打分的方法进行评估。自2009年2月试行《产品质量评估管理办法》以来,采用实测实量的方法进行检查评估,采用量化评估的方法,使工程质量评估更加客观和准确。实测实量方法自发布以来已进行了第五次修订,测量内容也从实体质量到涵盖观感质量,以及工程管理的规定动作,形成了对工程项目管理的全面测量和评估。万科的工程管理评估系统由过去的工程实体质量、安全文明施工、内业质量三方面的评估,调整为实测质量、观感质量(含装修房、土建施工、园林施工)、规定动作(包括变更管理、计划管理、工序管理、四化管理、防渗漏管理五个方面和安全文明实测四个维度的量化指标体系。2011年,万科实测质量合格率已经达到了96.48%。
在评估实施的过程中,企业可结合内部人员配置情况及人员能力,确定实测实量的范围和频次。万科采取施工单位全检,监理单位30%抽查,甲方项目部10% 抽查的方式实施。
因此,企业在建立工程管理评估标准时,一定要结合企业的发展阶段和管理能力进行设计,不可照搬照抄其他企业的模式及评价指标体系。1.工程评估结果的应用
一方面可作为对下属公司工程管理的评估结果,另一方面也可以作为对具体开发项目部的工作考核,还可以根据实测实量的结果对施工单位进行考核。目前涵盖实测实量的工程评估体系因为可以定量评估,所以其评估结果公正、评估数据说服力强。应用的企业通过奖惩机制,引起了内部项目团队和外部施工单位的重视,也有效的促进了双方团队的学习热情,提升了施工单位的质量意识和质量水平。由于前期工程质量做的好,施工单位在后期维修维保的费用减少,并且减小了企业在未来产品交付后甲方由于工程质量问题引起的工程维修支出,降低了甲方的经济负担,从成本上也具有经济价值。2.工程质量评估体系应用效果分析
以下是某标杆企业近几年取得的成绩,以及实施工程质量实测实量后取得的成效。
结语
视频质量评估方法 篇3
一、26个国家采用外部评估
目前,欧洲共有26个国家的31种教育体制实行学校外部评估。外部评估将学校视为一个整体,旨在监督和提高学校质量。通常,外部评估主要是对学校的多种活动进行评估,包括教育和管理任务、教学质量、学习效果和纪律。根据一系列标准可以看出,在大多数教育体系中,中央政府设立的评估标准除了规定外部评估的内容外,还对“优秀学校”做出了定义。2013-2014年,各国全日制普通义务教育学校外部评估实施情况详见图1。
二、外部评估的主要步骤一致
尽管评估活动的范围和类别有差别,但各国外部评估的实施过程大同小异。实施过程通常分为三个步骤:初步分析、现场调研和提交报告。六个国家和地区(丹麦、爱尔兰、荷兰、瑞典、英格兰和北爱尔兰)将教育体系风险评估作为外部评估的第一个步骤——初步分析,目的是关注表现不达标的学校或者选择不同督导类型的学校。第二个步骤——现场调研,是外部评估的常见模式,旨在为评估员提供学校表现和功能的一手资料。在现场调研过程中,评估员需要查阅学校文件、观察教师教学行为、咨询学校内部员工甚至外部的利益相关者。第三个步骤——提交报告,即完成最终的评估报告。
三、补救性措施是最常见的
学校外部评估措施
学校外部评估措施分为三大类:补救性措施(remedial actions)、惩戒措施(discipline actions)和提升措施(profile-raising actions)。其中,最常见的是补救性措施,致力于寻找或修正规则中的不当之处。当补性救措施无法实现既定目标时,教育当局就会运用惩戒措施,惩戒措施一般将学校视为整体。在法国、立陶宛、波兰、英格兰、威尔士和北爱尔兰的教育体系中,外部评估不仅用于发现学校中的不足,也用于发现学校的长处和良好的实践,并让更多教育团体看到这些优良的做法。提升措施支持积极反馈、凸显运作模式,能发起同伴学习机制促进整个教育系统的积极回应。2013-2014年,各国全日制普通义务教育学校外部评估改进措施实施情况详见图2。
四、大多数国家公开发表外部评估报告
通常,最终的外部评估报告有三种处理方式:公开发表、半公开发表(有要求)和不公开发表。只有比利时法语区、丹麦、西班牙、塞浦路斯(低年级中等教育)、匈牙利、奥地利、土耳其等极少数国家或地区不公开报告,其他国家都是采取公开或半公开的方式发表报告。对学校利益相关者来说,公开发表的评估报告是促进教育质量提升的重要推动力。此外,在家长和学生有权选择学校的地区,如荷兰和英国的某些地区,公开发表的评估报告能够为学生及其家长提供有关学校的重要参考信息,从而帮助他们做出明智的选择。然而,这也可能引起学校争夺生源。事实上,在大多数国家,自由选择学校和公开发表外部评估报告是不会共存的。2013-2014年,各国全日制普通义务教育学校的外部评估报告发表情况详见图3。
五、27种教育体系强制要求
学校进行内部评估
内部评估是由学校自身发起和开展的评价自身质量的过程,主要由学校教职工进行,有时学校的利益相关者也会参与到学校内部评估中,如学生、家长、当地社区人员。内部评估涉及学校教学、管理等方面。在过去的10多年里,许多国家由建议学校开展内部评估发展到强制要求学校进行内部评估。目前,27种教育体系强制要求学校进行内部评估。在那些没有强制要求的国家,除了保加利亚和法国(小学阶段)之外,其他国家都建议学校进行内部评估。2013-2014年,各国全日制普通义务教育学校内部评估实施情况详见图4。
六、大部分国家为学校内部评估提供支持
除保加利亚以外,几乎所有的国家都为学校内部评估提供至少一种支持措施。这些措施包括进行内部评估专业培训、使用外部评估框架、建立能与其他学校对比的指标、参考专门的指南和手册、举办网上论坛、听取外部评估专家建议、进行经济资助等。在欧洲,最常见的支持内部评估的方式是提供评估指南和手册。
七、许多国家将内部评估结果
作为外部评估的信息来源
在欧洲,有31种教育体系采用内部评估和外部评估相结合的方式。在大多数情况下,外部评估员将内部评估结果作为参考信息,以便更好地了解学校相关情况,以及锁定需要特别关注的领域。如果外部评估员没有利用内部评估报告,那是因为外部评估和内部评估的目的和范围不同,或者学校没有强制要求实行内部评估。
八、学校利益相关者在评估中起到重要作用
欧洲议会(The European Parliament)和欧洲理事会(The European Council)强烈建议学校各利益相关者参与到学校评估中。在有关“欧洲学校教育质量评估合作”(European Cooperation in Quality Evaluation in School Education )的建议中,欧洲议会和欧洲理事会认为学校教职员工、家长、学生和当地居民在提高学校质量方面与学校担负着共同的责任。对此,尽管现在各国关于如何参与、为什么参与和参与程度等方面还有很大不同,但许多国家已经开始要求利益相关者参与学校评估。
注释:
①②分布图按照各国对学校评估的规定绘制。
视频质量评估方法 篇4
在国家政策、用户体验、商业价值等多重因素的推动下, 三网融合已成为中国电信等运营商下一步发展策略中的重要部分, 包括IPTV、网络视频和移动视频在内的视频等多媒体业务成为其中最受人关注、需求量最大的业务之一。可以预见, 基于其高带宽能力, 提供丰富而灵活的三屏协同模式下视频等多媒体业务将是中国电信三网融合战略中提升自己差异化服务的核心竞争力之一。
视频业务由于大数据量和实时性的特点, 是一个需要高带宽、低传输时延与低时延抖动的业务, 其服务质量极易受到目前具有分布式和开放环境的承载网络的稳定性的影响[1,2];同时, 在用户网络行为特征日趋复杂化和多样化的今天, 视频消费结构也呈现多元化的特点, 从而使得网络视频市场竞争格局向规模化和差异化发展, 提供视频质量检测、监控和保障体系将为中国电信等运营商充分考虑客户体验、提供更为高效而准确的服务、发挥自身优势起到重要作用。
综上, 针对各种尺寸、各种屏幕参数的视频图像以及逐步涌现的三维视频, 建立有效的视频质量模型, 研究客观质量评价指数体系和基于用户主观感知特点与情感倾向的视频质量评价方法, 对于开展面向三网融合的视频等多媒体业务的规划设计和咨询服务具有重要的基础意义, 也将在IP城域网等承载网设计、视频监控、可视电话等新业务领域也能发挥重要作用。同时由于国家三网融合政策还在试点、评估和完善中, 也使得中国电信三网融合中视频质量评估方案需要考虑一些不确定性, 从而较通用视频质量评估方法具有一些独特特点, 需要具有更大的灵活性和一定的前瞻性:如在评估方案设计中对探测节点的布置需要考虑适当的冗余性, 以针对不同的片源均能采取稳定可靠的检测;又如评估方法对视频参考图像要充分考虑无参考帧、质降参考帧和有参考帧的多种情况, 以适应目前可能的电视节目播控平台和用户信号传输保障之间可能的各种分工界面模式。
基于上述背景, 本文从技术和业务两方面探讨了面向中国电信三网融合建设的视频质量评估方法。首先, 针对中国电信三网融合示范网特点, 建立视频质量模型。其次, 分析归纳视频质量下降的各种因素, 包括由于网络传输质量特别是丢包、时延抖动、端到端延时给视频质量带来的噪声、花屏、马赛克、黑屏、静帧等现象;以及由于片源质量带来的视频音画不同步、视频清晰度及色彩较差等现象。实现视频质量模型的有参考帧和无参考帧的具体参数化评估方法。最后, 设计基于中国电信三网融合示范网的视频质量评估方案, 包括对设备商产品以及网络规划设计等诸多环节提出合理建议和可实现、可评估与易部署的视频质量评估标准, 帮助实现视频业务快速监控与准确定位, 实现视频业务的有效智能评估。
2 面向中国电信三网融合的视频质量评价模型
2.1 视频质量下降原因分析
视频图像在采集, 处理, 压缩, 存储, 传输和复制过程中都会受到各种因素的影响从而导致失真和质量下降。主要来源可以分为三类: (1) 视频采集中由于采集设备、环境等条件限制造成的质量问题, 或者从人感知角度觉得混乱或无法反映希望表达内容所体现的视频质量不佳。 (2) 视频编码特别是由于对DCT及其他图像变换后系数进行量化等视频编码因素造成的视频质量下降。 (3) 在网络传输过程中造成的误码及丢码造成的视频失真与质量下降[2]。
2.2 视频质量评价模型
视频质量模型是视频质量评估方法研究中一个核心问题。相对人类可以很自然地直接评估一幅扭曲的图像的质量, 设计一个客观无对照的视频质量模型则一直是研究的热点和难点[3,4,5]。
因此本文定义视频质量模型, 分别对应基于人类感知的视频源质量、视频编码质量和视频网络传输质量。各自有很多经典的定义, 比如文献[4]中从图像平均差、平均绝对误差、过零速率等参数通过非线性回归参数拟合得到最终的视频编码质量模型。也可以看出, 该模型可以很好适应中国电信三网融合中各种电视节目播控和信号传输组合模式中所需要的视频质量评估。
3 主客观视频质量评价体系
视频质量评估方法可以分为主观评价方法和客观评价方法。
主观评价方法中, 会根据一定的用户模型收集足够多的观察者, 将原始图像以及被测试图像按照某种规律交替显示, 然后让用户进行观察对比, 并以打分等形式让主观体验以数据的方法进行记录, 最后再统计平均值。ITU-R BT.500-1中特别制定了这一视频测量平均主观得分 (Mean Opinion Score, MOS) 值的方法。
在客观评价方法中, 全参考方法假定参考图像具有完善质量, 无参考方法一般针对特定的失真类型, 不需要参考图像。质降参考是一种介于上两者之间的方法, 利用参考图像的部分参考信息对失真图像进行评价[6], 是一种考虑特征信息传输和质量评价准确性之间平衡的方法。一般质降视频质量分析系统在发送端有特征提取过程, 在接收端有特征提取和质量分析过程。质降是一种可以检测广泛失真类型的通用方法;在源端采集和网络传输到视频评测端的信息较少, 只需要少量的特征信息;方法易于实现, 计算效率高。考虑目前网络传输负载、视频内容管理等政策与技术现状, 质降质量评价方法是面向当前中国电信三网融合建设值得重点考虑的质量评价方法。
4 视频质量评估设计方案
三网融合发展过程中诸多方面的成长性和不确定性, 使得面向中国电信三网融合的视频质量评估设计方案必然要具有一定的前瞻性和灵活性。在前面论述的多种视频质量评价方法中, 针对原始视频可以有完整视频信息, 典型质量特征和无参考等多种视频源端的采集方案。这也给设计方案中探测节点的布置方案带来了要求, 可以针对不同的政策和网络现状采取不同的策略, 从而进行不同的探测节点设置, 并带给网络不同类型和数据量的质量评估所需信息的传输负载。
本文针对上述思路和要求, 并综合现有IPTV等网络原型拓扑架构[7], 设计了一个如图2所示的面向电信三网融合的视频质量评估设计方案框架。如图所示, 该方案首先对于视频源进行无参考的视频质量检测, 并获取源视频参考帧和质量特征信息;其次在内容存储分发系统和骨干网到城域网的各个关键节点进行质量监控, 对经过每个节点视频流丢包情况进行监控和检测, 并通过与上下多个节点比较对丢包和质量下降进行定位, 并可对视频封包与网络封包的问题进行分类;最后在包括机顶盒、PC用户和手机的终端平台上进行质量反馈与检测, 这里根据需要可以采用在视频源获取的参考帧和质量特征信息。综上, 建立起一套针对目前三网融合视频平台的多层次、多策略、有一定冗余的视频质量评估方案, 可以对多种因素带来的视频质量下降进行可定位的实时监控与评估。
5 结语
本文研究了视频质量模型与视频质量评估方法, 特别针对目前中国电信的三网融合建设设计了一套多层次、多策略的视频质量评估方案。针对目前的国内三网融合政策和网络现状, 视频质量评估方案应综合考虑有参考、无参考和质降方法, 并在内容管理、业务运营支撑系统和各层次网络系统中设置探测节点。该方法的研究对于中国电信基于自身高带宽能力, 提升自身差异化的三网融合特别是视频业务具有重要的基础性作用。
摘要:面向中国电信三网融合建设, 研究具有更大灵活性和前瞻性的视频质量评估方法:包括建立视频质量模型, 研究主客观视频质量评估体系, 最终确定视频质量评估设计方案。特别是提供具有一定冗余性布置的探索节点方案, 提供多种参考帧方式的视频图像评估方法, 以适应目前三网融合中的各种分工界面模式。
关键词:视频质量评估方法,三网融合,中国电信
参考文献
[1]姚良, 奚溪.三网融合下视频业务质量评估体系的研究.[J]电信科学, 27 (3) , 27-33, 2011.
[2]范少芬.基于网络损伤和流媒体特征的IPTV视频QoE评估方法的研究与实现.[D]华东师范大学硕士学位论文, 2010.10.
[3]李东.基于人眼特性的流媒体无参考视频质量评估模型研究.[D]华南理工大学硕士学位论文, 2010.05.
[4]Z.Wang, H.R.Sheikh and Alan C.Bovik.“No-ReferencePerceptual Quality Assessment of JPEG Compressed Im-ages.”IEEE International Conference on Image Processing, 2002.09.
[5]Z.Wang and A.C.Bovik, “Mean squared error:love it orleave it-A new look at signal fidelity measures.”IEEE Sig-nal Processing Magazine, 26 (1) , 98-117, 2009.01.
[6]Z.Wang and E.P.Simoncelli, "Reduced-reference imagequality assessment using a wavelet-domain natural imagestatistic model, "Human Vision and Electronic Imaging X, Proc.SPIE, vol.5666, San Jose, CA, Jan.2005.
视频质量评估方法 篇5
随着我国经济的迅速发展,国家对于高等职业教育的重视程度越来越高。高等职业教育是我国高等教育的重要组成部分并在近几年来取得了飞速的发展。据2005年教育部公布的数据统计,我国独立设置从事高等职业教育的院校已达1078所,占全国高校总数的60%以上,2005年高职的在校生人数占全国高校总数的一半以上。在我国科教兴国战略中,发展高等教育能够有助于实现高等教育大众化,提高全民族文化的效果。可是,随着高职教育的超规模发展,给各大高职院校的教育教学工作带来了一定的困难。常见的困难有教育投入不足、教师师资缺乏、教学条件恶化、教学质量下降等。大学英语作为高等教育教学课程中的一门基础必修课,随着国家2004年初对大学英语进行教学改革的推广实施,结合新的《大学英语课程教学要求(试行)》(以下简称《课程要求》),高职的基础英语教育面临新的问题。贯彻新的《课程要求》,必须注意到以下几点:(1)提出了新的教学要求,“特别是听说能力”的要求; (2)提出了新的教学模式,即“基于计算机和课堂的英语多媒体教学模式”;(3)强调了一个重要性,即“全面、客观、科学、准确的评估体系”的重要性,指出了应把“教学评估分为形成性评估和终结性评估”两种; (4)明确了过程方法为教学管理的方法, 即“大学英语教学管理应当贯彻于大学英语教学的全过程。要加强教学过程的指导、督促和检查,确保大学英语教学达到一定的教学目标。”以下是结合我院大学英语教学改革的切身体会,重点讨论大学英语教学的质量管理问题以及我们的设想,希望能够引起广大同行对于大学英语改革深入发展的关注。
大学英语教学质量管理体系中存在的问题
我院开设的基础英语课程周期为新生入学后的2个学期,在学生完成每个学期的英语基础阶段的学习时,我们就要根据大学英语教学的基本要求来考核学生,然后分析考核的结果,找出问题,找到问题的原因,从而调整我们的教学和管理方法。从2008年至2011年我们采用了基于计算机和课堂的英语多媒体教学模式进行教学,但是学生的英语能力考核情况显示我院学生在各项技能上有40%以上的学生是无法达到《课程要求》中对于各项英语能力的一般要求。尤其是学生的听力理解能力和语言表达能力两项技能上。英语能力不达标的学生甚至为多数,有70%到80%之多。这样的结果与我们的期望值相差很远。很明显,除了学生的基础差是原因之一,最主要的是我们的某些教学环节出了问题,最后影响了我们的教学质量。大学英语教学的全部过程影响教学最终结果的质量。只有系统地对英语教学所应用的各个过程进行识别,对影响教学质量的相关过程进行计划和控制。当我们的教学质量发生问题时,应当从各个教学过程中存在的问题入手,找到问题所在的根源,因为我们只有把过程中存在的问题彻底解决了,才能实现教学质量的改进。过程方法,即“系统地识别和管理组织所应用的过程,特别是这些过程之间的相互作用”,是我们应当运用的保证大学英语教学质量的管理方法。回顾过去几年我们的教学历程,重新审视我们大学英语教学的质量监控与保证体系,我们发现大学英语教学过程中的确存在着教学质量监控不严格、保证措施不到位的问题。
(一)首先是学生上课的考勤问题:《大学英语》这一门课程采用的是小班授课的形式,每个班级不超过50个人。但是每个班级的缺勤的人数比较多。严重的时候会有20%的学生缺课。他们并没有参与到实际的教学过程中来。虽然我们的个系部会对缺课的学生进行相关的批评教育等措施,但是由于学生上课的出勤并没有与学期的总评成绩直接挂钩,所以学生缺勤的问题一直没有得到彻底的解决。
(二)学生自主完成课后作业和预习词汇与课文的问题:教师在每次上课期间都会布置学生的课后作业,包括作文,翻译练习,词汇练习等等。但是根据教师的反映和记录,每个班大约有超过10%的学生是不会完成老师布置的其他书面练习,这些学生的各项英语能力都是比较差的。这些学生更不会主动去预习课文。老师们都是想尽各种办法催交作业,但是仍有少数学生的学习情况没有得到很好的控制。通过与学生的课间谈话,老师们发现学生普遍有一个看法,他们总认为,只要把期中考试,期末考试考好了,学期末的總评成绩就不会有问题了。
(三)学生语言的输出能力的问题:我们的基础英语教材为学生设计了视听说的练习机会,譬如跟读和角色扮演等练习环节,这些练习如果学生跟着做,对学生的发音,语调等方面会有很大的改进。
以形成性考核评定学期总评成绩的教学质量管理模式
通过对《课程要求》中提出的“教学评估是大学英语课程教学的一个重要环节。全面、客观、科学、准确的评估体系对于实现课程目标至关重要。它既是教师获取教学反馈信息、改进教学管理、保证教学质量的重要依据,又是学生调整学习策略、改进学习方法、提高学习效率的有效手段。教学评估分形成性评估和终结性评估两种。”我们找到了解决上述问题的思路。
(一)考核项目和标准
1.考勤:20%
旷课一次扣2分,迟到一次扣1分, 早退1次扣1分,扣完为止。全勤者奖励5分。
2.课堂表现:30%
根据学生在学习过程中的学习态度、课堂参与等各方面的情况,评定其成绩。学生课堂上认真做笔记和积极主动参加课堂教学活动,每次奖励1分。
3.中期测试;10%
测试的内容可为本学期期中之前所学的内容或者教师可以自行利用其它教学资源来给学生进行测试,主要目的是督促学生巩固所学内容。
4.阶段性考核: 10%
每个单元结束后,针对本单元所学词组和句型进行考核。本部分得分取所有单元的平均分。
nlc202309040746
5.书面作业:10%
每学期作业4-5次,取平均分。
6.口头作业:20%
每个单元都针对课堂所学的基本语言要点和课文内容,安排形式多样的口头作业。如朗读、背书、对话、情景剧、英文歌曲演唱等。每個学生保证至少要有2次机会,取最高分。
(二)考核程序
1.原始记录
每次上课都要进行考勤,填写考勤登记表。其他项目的考核采用班级学生平时成绩登记表进行记录,也可根据考核项目、形式等重新制作考核登记表。
2.评定分数
根据考核标准,对各项目内容进行量化打分,考核项目中凡能量化的均进行量化,不能量化的也须经过一定的量化处理,使之数量化。
3.分数合成
将考核内容各部分的考核结果根据规定的合成标准进行分数合成,得出学生课程总评成绩,以百分制记录。
以形成性考核评定成绩的教学质量管理模式分析
一般来讲,用于成绩评定的标准就是学生用于行为决策和学习的标准,“核量什么就会完成什么”。评定成绩不仅仅是一项用于评定已经完成的教学活动的工具,它还可以用于激励学习者待定的行为,因而可以预先制订未来的结果。在以前,大学英语的总评成绩中平时成绩占40%,期末成绩占60%,所以很多学生不重视平时的学习过程,出现了缺课,不交作业等现象。由于课堂教学和课后练习这个质量形成的过程出现了问题,它肯定会在期中和期末考试的结果中反映出来。因此我们上述的教学改革方案是为了改变学生的学习观念和行为路线。
(一)首先是学生的英语语言技能方面:我们对高职高专的英语能力提出五大要求,即听力理解能力、口语表达能力、阅读能力、书面表达能力、翻译能力,所以我们把这五项技能都包括在教学过程和成绩评定的范围内。我们会在教学的过程中对学生的表现进行打分,还要给平时上课出勤率、课堂回答和书面表达能力完成率评分,并将这些分值计入学期总评成绩内。
(二)其次是教学形式多样化:我们采用了课堂集中教学、网络自主学习、分组学习三种形式作为培养五项英语能力的教学模式。传统的集中授课模式有助于学生系统地学习书本知识。而多媒体的教学主要有利于学生的听力学习过程。分组学习有助于带动基础很差的学生参与到英语学习当中来。
总之,总结和分析过去我们学院按照,《课程要求》进行的大学英语改革工作将有利于把学期总评成绩分解到平时各个教学过程的活动中,应当通过每一个教学过程质量的实现来实现最终教学结果的质量;因此,必须考评学生的上课出勤,作业完成,小组学习完成程度,从源头上保证教学质量。基于这种理念,我们提出把按过程质量评定的成绩作为实施大学英语教学质量监督和保证的规范模式。
(作者单位:海南经贸职业技术学院应用外语系)
视频质量评估方法 篇6
1 标准化进展与研究情况
当前, 在立体视频质量主观评价的标准化研究方面, 国际上主要由国际电信联盟 (ITU) 主导。隶属于ITU的第6研究小组 (SG6) 致力于立体视频质量主观评价的课题研究与标准发布[1,2,3,4,5,6]。其中, 有关标清和高清视频的图像质量主观评价的研究所提出的观看条件、评价方法、数据处理等可以沿用到立体视频的评价中[1,2]。此外, ITU还提出了一些在总体上规范立体电视系统的标准或报告:文献[3]确定了双路立体电视的基本要求;文献[4]则从研究背景、产业链、质量评价等各个方面对立体电视系统做了详细说明。这些成果都是立体视频质量主观评价的基础。
ITU已经发布的有关立体视频主观评价的标准有2个, 一是2000年颁布的1438号建议书[5], 该标准确定了立体视频主观评价的评价要素、评价方法、观看条件、评价人员筛选和测试序列选择等问题。2012年ITU又发布了2021号建议书[6], 作为1438号标准的扩展, 该标准更为详尽地规范了立体视频主观评价的各方面内容, 是现有最完整的立体视频主观评价标准。
除ITU外, 研究方向涉及立体视频主观评价的国际组织和机构还有日本的图像信息与电视工程师协会 (ITE) [7]、日本电信电话株式会社 (NTT) [8,9]以及法国电信集团旗下的研究机构Orange Lab[10]等。
在国内, 立体电视系统的主观评价研究主要由广电总局领导, 广播电视规划院具体实施相关的研究工作。中国传媒大学[11,12,13]、天津大学[14]、宁波大学[15]等国内机构也在进行这方面的研究工作。
2 立体视频质量主观评价方法
本节结合ITU标准, 从素材选择、评价方法、观看条件、评价要素、评价人员和数据处理等6个方面全面讨论实施立体视频质量主观评价实验的具体方法。
2.1 素材选择
在需要进行主观评价实验的场合, 首先应该考虑素材序列的选择问题。立体视频素材的选择标准与2D评价不同, 其差异主要体现在3D视频需要考虑观看舒适度和左右眼图像视差的问题。
2.1.1 视差容限与舒适度
除特殊研究目的外, 测试序列不应引起视觉不适。由于立体视频引起视觉不适的主要原因在于视差控制不当, 因此, 素材的视差应处于合理的范围之内。对此, 很多国家和组织都制定了相关的参考标准。日本经济产业省在其发布的指导文件[16]中说明:立体视频图像的正视差应小于双眼间距, 儿童最大值为50 mm;负视差为视差角1°以下。我国广电总局发布的《3D电视技术指导意见》[17]对视差容限的说明为:画面主体内容的视差角应小于1°, 相当于左右眼图像在屏幕上的成像间距小于显示器画面宽度的3%, 约58个像素。ITU在其标准中也使用屏幕水平宽度的百分比来描述舒适观看的极限值:负视差为1%, 正视差为2% (总视差为3%) 。因此, 在选择参考序列时, 要按照标准选择视差处于容限范围内的序列, 避免引起不适。
2.1.2 左右眼图像误差控制
立体视频的左右眼图像差异过大时, 人眼会出现立体融像困难。因此, 选用参考素材时还应该注意控制两眼图像的误差, 具体的考察点主要有:
1) 几何误差:素材序列不应存在高度误差、旋转误差、梯形失真和尺寸误差等。
2) 光学误差:素材序列的左右眼图像在亮度、色调和黑电平等方面应该符合误差控制标准。
3) 实际观看时不应出现串扰、重影等。
2.1.3 现有的参考素材库
ITU在其标准中提出的参考素材库为ITE拍摄制作的视频和照片素材[7], 素材库共包含5幅照片和15个视频序列, 其运动序列截图如图1所示。
除此之外, 专门为立体视频主观评价拍摄制作的素材库还有墨尔本皇家理工大学的RMIT3DV立体视频素材库[18]和法国南特大学的NAMA3DS1-COSPAD1素材库[19]。这2个素材库均使用松下AG-3DA1一体式立体摄像机拍摄, 在各自的网站上可以获取无压缩格式的高清素材。他们的序列截图如图2和图3所示。
随着拍摄技术和标准的不断进步, 今后会提出更多的标准素材库, 为获得更准确的主观评价结果奠定基础。
2.2 评价要素
ITU-R BT.2021号建议书中定义了3个主要的评价要素 (图像质量、深度质量和视觉舒适度) 和2个附加要素 (真实感和临场感) 。其中, “图像质量”是与2D视频主观评价类似的评价要素, 主要反映图像的清晰度、色彩还原和运动表现等。“深度质量”、“舒适度”、“真实感”则是立体视频主观评价特有的评价要素。
“深度质量”是评价员对立体视频体现空间深度能力的主观感受, 可以分为深度清晰度和深度运动两方面。由于2D视频也可以通过透视、虚实等手法体现立体感, 评价员在评价立体视频的深度质量时应注意与2D视频区别。“舒适度”也是评价要素中重要的一项, 不恰当的拍摄和显示都会造成严重的不适。“真实感”是指立体视频对拍摄场景的还原程度, 失真的视频会出现木偶效应 (被摄物体不真实的“大”或“小”) 和卡片效应 (被摄物体在深度方向上变“薄”) 。这些失真现象在主观评价中应得到体现。表1总结出了主观评价实验可以考虑采用的评价要素。
对于不同的测试目的, 可以根据实际情况灵活选取评价要素进行主观评价。例如, 要评价采集和制作系统的性能, 可以着重评价画面的深度感和真实感;对压缩编解码系统的评估, 则可着重评价图像质量、深度质量和舒适度。
2.3 评价方法
ITU-R BT.500号建议书对各种评价方法做了详细说明, 这些方法可以沿用到立体视频的主观评价中。2021号建议书共提出了4种评价方法:单刺激 (SS) 法、双刺激连续质量量表 (DSCQS) 法、成对比较 (PC) 法和单刺激连续质量评价 (SSCQE) 法。各方法的差别主要表现在序列的排列方式和评分量度上。
2.3.1 单刺激法
该方法要求评价员对显示的每个测试序列的各个评价要素依次打分。其序列展示结构如图4所示。
在序列开始前应有小于3 s的灰场画面, 向评价员提示序列的相关信息;然后播放大约10 s的测试序列;播放结束后再出现灰场, 并提示评价员开始打分, 打分时间约为10 s。打分结束后开始下一测试序列的评价。
单刺激法的评分量度分为连续和非连续两种, 均使用五等级评分量度:“优、良、中、差、劣”, 在打分表上应该标明评分量度及提示性文字。结合标准, 本文提出如表2所示的五等级量度具体含义。
2.3.2 双刺激连续质量量度法
该方法将同一素材的2种不同版本 (例如码率不同或算法不同) 依次播放2次, 共播放4次, 评价员分别对这2个序列打分。其序列结构如图5所示。
其中测试序列时长约为10 s, 各序列间灰场间隔约为3 s, 最后的灰场约5~11 s, 评价员在序列播放第2遍的过程中打分, 给出A、B两个序列的主观分数。
本方法的评分量度为连续的五等级量度, 各评价要素的评分说明与单刺激法相同。
2.3.3 成对比较法
源素材序列经过不同处理后, 得到多个序列, 将这些序列成对展示给评价员的方法, 称为成对比较法。其序列结构如图6所示。
若处理后的序列共有N个, 则评价员将观看的序列应该为N (N-1) 对。例如, 序列为A, B, C时, 评价员应观看AB, BC, CA, BA, CB, AC共6对序列。
成对比较法的评分量表使用非连续七级评分, 分别是“-3, -2, -1, 0, 1, 2, 3”, 表示前后两序列的差异程度。评价员在看完一对序列后进行一次评分, 分值越高表示后一序列的效果相比前一序列越好。各评价要素均可使用这一量表进行打分。
2.3.4 单刺激连续质量评价法
该方法使用日常播出的节目, 如体育、新闻、影视剧等, 在序列时长上与前述3种方法不同。将30~60 min的节目分成一个个5 min的节目片段, 对每个片段做不同的处理, 并使这些处理尽可能随机分布 (例如码率随机分布) 。评价员观看整段节目, 并在观看时对所看到的画面连续评分。
这种方法的评分量度为连续的五等级评分量度。由于本方法使用的素材和演示方式和观众日常观看电视节目的方式类似, 所以多用于针对家庭实际环境的主观评价实验。
2.3.5 评价时长
对于舒适度不同的测试序列应注意控制评价总时长。如果待评价的序列都被认为是基本舒适的, 评价实验的总时长可以与2D评价相同, 约为20~40 min;如果序列视差较大, 观看体验不舒适, 则一定要控制评价时长, 保护评价员身心健康。
2.3.6 参考序列的使用
ITU认为, 应尽可能在评价实验中包含未经处理的原始视频序列作为参考序列。单视点的参考图像在立体视频主观评价中也会被用到, 特别是在对舒适度的研究中。此时应该使用与立体视频主观评价相同的播放和显示设备, 左右眼同时播放左视点图像, 再由评价员打分。
另外, 关于主观评价的评价方法, 在序列结构、评分量度和分值提示上, 可以根据实验的实际情况做适当的改动, 相关的研究也在进行中。
2.4 观看条件
2.4.1 播放及显示设备
立体视频主观评价的播放设备应具有双路HD-SDI或HDMI 1.4版本的输出接口, 满足双路全高清 (1 920×1 080) 或帧兼容格式 (SBS) 图像的播放;显示设备应具有相应的输入接口和全高清分辨率的显示, 准确反映序列自身的质量情况。对于主动快门式的显示设备, 应具有较高的刷新频率, 观看正常序列时不应出现串扰和重影。在主观评价实验报告中应标明所使用的显示设备的显示方式、尺寸、清晰度及播放设备的软硬件性能等。
2.4.2 观看距离
当评价员处于某一位置时, 如果眼睛与电视屏幕上相邻像素的夹角恰好为1弧分, 则称这一位置所代表的距离为主观评价的最佳观看距离。对于立体视频的主观评价来说, 显示器件的分辨率一般为1 920×1 080, 此时最佳观看距离为显示器高度的3.1倍。例如, 对于52 in (1 in=2.54 cm) 的电视机, 最佳观看距离应为2.01 m。
2.4.3 观看环境
由于观众收看立体电视的环境与收看2D视频时基本相同, 所以立体视频主观评价的观看环境 (环境照度、显示器亮度与对比度等) 应与2D评价保持一致。需要注意的是, 显示器不能放置在离墙面太近的位置, 这样会使观众感觉图像深入墙体, 引起不适。
2.5 与评价人员相关的问题
2.5.1 评价人数
ITU标准指出, 立体视频的评价结果不及2D主观评价稳定, 在一般情况下, 评价员人数至少应为30人。
2.5.2 评价员的筛选
对评价员的筛选主要考察视力、色觉和立体视觉能力。视力检查可以使用国际标准视力表;色觉检查可以使用Ishihara色盲检查表, 这两项检查主要反映评价员的平面视觉能力, 与2D主观评价相同。立体视觉能力的检查是立体视频主观评价必须实施的环节, ITU在1438号标准[5]和2021号标准[6]中都规定了立体视觉能力的检查方法。测试素材来自ITE[7], 主要测试项目包括:双眼融像能力、粗略的立体视觉、精密的立体视觉、动态立体视觉、双眼视力、水平斜视、垂直斜视、不等像视和回旋斜位等。
2.5.3 对评价员的训练
由于评价员对立体视频的观看体验不及2D视频丰富, 对评价要素的含义也需要熟悉的过程, 因此, 在主观评价开始前要对评价员进行立体视频的观看训练。实验人员还应说明研究目的和序列的演示结构, 详细解释各个评价要素的含义和打分方法。如果序列中可能出现令人不适的画面, 实验人员应在实验前向评价员说明, 防止评价员情绪受到较大波动。
2.5.4 减少评分差异
由于对视频内容的喜好程度各异, 不同评价员所打出的分数会存在差异。要减少这种评分差异, 可以增加评价员的样本容量。同一评价员的评分也会出现波动, 可以通过加强训练提高准确度, 并采用重复播放和随机播放的方法减小评分差异。
2.6 数据处理
实施立体视频主观评价实验之后得到的数据, 需要先进行筛选, 然后作统计分析。数据处理方法与2D主观评价相同, 可以沿用ITU-R BT.500号建议书[1]中附件2的处理方法。
3 总结
立体电视视频质量主观评价实验想要得到准确的主观分数, 就必须在各个环节上按照标准进行实验。本文按照建立主观评价实验整个过程的思路, 首先研究素材选择和评价要素, 列举了现有的素材库并对评价要素的具体含义进行了说明。然后对ITU标准提出的四种评价方法做了详细介绍, 并说明了针对不同要素和评分量表的具体评分方法。文章最后介绍了观看环境、评价人员和实验后的数据处理等问题。
今后关于立体电视视频质量主观评价的研究, 可以主要集中在评分方法的比较和改进上, 以获得更为准确、稳定的主观评分, 为立体视频质量客观评价模型的建立奠定基础。
摘要:主要研究了立体电视视频质量主观评价的标准化进展与相关的研究情况, 着重对ITU-R BT.2021号标准进行了解读, 从素材选择、评价要素、评价方法、观看条件、评价人员、数据处理等6个方面介绍了立体视频质量主观评价实验的具体实施方法。
视频质量评估方法 篇7
随着网络技术和流媒体技术的不断发展, 基于网络视频的应用越来越多, IPTV作为一个备受关注的新业务, 得到了越来越多用户的认可。它改变了人们传统的收看电视的方式, 增加了主动交互过程, 使得观看者能自主进行选择。而且结合INTERNET的特点, 能够在IPTV的平台上开展各种增值业务。随着国家三网融合进程的推进, IPTV业务在国内快速的发展, 成为经济新的增长点。然而, 针对IPTV的节目质量控制手段并没有同步跟上, 在节目质量控制方面出现了许多新的问题, 遇到了新的困惑。内容资源是媒体的核心资产, 如何保证良好的节目技术质量并对其进行有效测评和控制是大家关心的问题。
1 IPTV视频质量客观评价模型概述
IPTV视频质量的分析, 从2001年开始兴起。由于IPTV系统的复杂性, 以及没有统一的国际标准, 不同的厂商、运营商有着不同的IPTV解决方案。根据ITU的定义, IPTV视频质量测评在多媒体系统中有网络规划和网络监控两种不同的应用。
参数规划模型[1] (Parametric Planning Model) 为用于网络规划的视频质量客观评价模型, 通过分析编解码机制、延时、丢包率、抖动等因素对IPTV视频主观体验的影响, 从而建立这些因素和主观质量之间的评估函数, 由此来评价这些参数引起的质量下降程度。
网络监控是指在对网络上传输视频流进行实时监控, 测量用户体验质量的下降程度的视频质量客观评价模型。网络监控可分为介入监控 (intrusive) 和非介入监控[2] (nonintrusive) 。介入监控需要对视频包完全解码后的像素信息进行访问;而非介入监控只需要分析视频包的包头信息和部分解码后的载荷信息。
由于IPTV电视节目经过了压缩、复用、打包等一系列处理, 因此网络监控这种视频质量测评模型可分解为多层分级模型, 通过分析不同层次的数据信息, 实现多针对性不同程度的测评。通常, 根据每层提取的信息不同, 将用于实时网络监控和网络规划的节目质量评价模型分为六类:参数规划模型 (Parametric Planning Model) 、参数网络层模型 (Parametric Network-layer Model) 、参数包层模型 (Parametric Packetlayer Model) 、比特流层模型 (Bitstream-layer Model) 、媒体层模型 (Media-layer Model) 以及混合模型 (Hybrid Model) [3], 如表1所示。
2 IPTV质量测评国内外研究现状
2.1 用于网络规划视频客观测评方法
参数规划模型是将与网络及终端相关的质量测量参数作为模型的输入。这些测量参数包括编码规范、比特率、帧频、错误隐藏算法及所有网络参数等, 一般来说此类测量参数中不体现所传输视频的内容特征。因此, 当网络规划参数设置相同时, 此类模型算法无法体现出不同内容IPTV视频节目的质量体验差别。ITU-T SG12与VQEG负责开发用于网络规划的多媒体视频质量客观评价标准。目前, 针对IPTV的节目质量测评标准G.OMVS (Q.13/12) 正在制定中, 国际上对这一块的研究程度也参差不齐。
2.2 用于网络监控视频客观测评方法
2.2.1 参数网络层模型
参数层模型不需要对视频包头信息和载荷信息进行检测, 而是只检测其网络统计信息。这种模型多应用于通信网的中间节点, 属于非介入监控方法。该参数模型用到的信息包括丢包率、抖动、延迟等网络参数, 从而建立这些因素和主观质量之间的评估函数, 评价这些参数引起的质量下降程度。目前还没有参数网络层模型的相关标准出台。
2.2.2 参数包层模型
参数包层模型需要使用包头信息。该类模型也同样适用于通信网络的中间节点, 当数据包的载荷信息被加密时, 这类模型更加有用。参数包层模型的算法一类是基于均方差MSE[4]的客观质量评价模型的扩展;另一类是基于客观测评结果和主观评价值相拟合的IPTV视频质量测评模型, 如YAMAGISHI K所提出的用于监控IPTV视频质量的参数包层模型[5], 其评价模型主要由编码失真和丢包失真两个质量评价单元组成, 架构与ITU-T G.1070[6]相似。在参数包层模型中, 目前应用比较广的是MDI模型。MDI (Media Delivery Index) [7]是由思科和Ineo Quest共同提出的媒体质量传输指标, 它主要用于IPTV和网络视频的质量检测评估。MDI可以精确测量和监测影响视频传输质量的网络抖动和延迟, 属于客观指标, 主要从网络传输角度进行评测。
2.2.3 比特流层模型
比特流层模型需要视频包的包头信息和部分解码后的载荷信息。它克服了参数包层模型不考虑视频内容特征对质量的影响的不足, 由于其能够深入到编码比特流中分析载荷信息, 因此解决了参数包层模型在这方面的不足, 能够利用编码信息分析视频内容的特性。比如, DCT系数在MPEG编码中代表了空间复杂度, 利用比特流层模型深入到载荷信息中, 可以通过提取DCT系数从而分析特定比特率情况下的丢包稳健性。
2.2.4 媒体层模型
媒体层模型允许对数据包解码后的全部像素信息进行访问, 是基于非压缩域的视频评价方法, 属于介入式监控方法。这种模型将视频内容差异以像素形式完全纳入测评范围, 同时考虑了解码器丢包隐藏机制, 是更贴近于人眼观看内容质量的评价模型。媒体层模型的评价算法比较多, 主要是利用已解码视频内容的空间连续性和像素结构特征来计算质量损伤, 从而建立特征参数和节目视频质量之间的评价算法。其中, 典型的算法是边缘失配度算法 (SBM, Slice Boundary Mismatch) [8], 即通过计算宏块行边缘的失配程度来体现网络传输对视频质量的损伤。除此之外, MPQM (Moving Picture Quality Metric) [9]也是基于媒体层模型的另一类经典算法, 其实现思路是通过对人眼视觉特性进行建模, 从而应用到视觉感知模型上, 在非压缩域因为其精确度很高而被广泛研究应用。
以上几个评价模型中, 参数包层模型算法由于是在网络层直接评估媒体流的延时、丢包等网络质量, 所以能达到实时评测的要求, 但却没有考虑视频内容的影响。而如比特流层模型算法, 对网络损失类型的考虑比较简单, 只考虑了丢包率的影响, 没有考虑网络延时、抖动这些网络参数, 而且算法较复杂, 实时性不如MDI等算法。因此需要综合以上各种模型, 建立混合评价模型。
2.2.5 混合模型
以上各个模型都有其好处及缺陷, 因此在实际应用中, 经常根据IPTV视频内容特点和测评需要, 将以上两种或多种模型进行组合, 从而得出更为精准的评价结果。目前国际上以ITU-T J.bitvqm[IPTV]为混合模型标准, 同时使用比特流层模型和媒体层模型进行建模, 从而得出更佳的评价性能。
3 IPTV业务Qo E简介
由于IPTV业务具备实时性要求高、占用带宽大的特点, 对于承载网络提出了很高的要求。近年来在接入网、核心网络研究取得的巨大进步, 特别是带宽的提高给IPTV视频业务带来可能性。但是, 高带宽并不意味着就是能提供高质量的服务。研究发现, 承载IPTV视频信息的数据包在相同的丢包率、延时的情况下, 用户收看到的视频质量可能并不相同。显然, 用于传统应用的网络服务质量 (Qo S, Quality of Service) 并不能准确的测量和评价网络承载视频流的能力。
用户体验质量 (Qo E, Quality of Experience) 是从普通用户体验角度的一个概念, 表示最终用户对使用的应用或业务的总体主观可接受程度。它将关注点从网络转移到了用户, 以用户的综合感官体验为评测的标准, 而不是采用各种专业指标, 比如时延、丢包率和抖动等。并且, Qo E模型不仅考虑了网络传输的质量, 而且考虑了IPTV系统结构中视频源端、用户终端等其他因素对视频质量的影响, 更全面的评价视频的质量。因此, Qo E指标由于其直观、准确、易理解等特点得到了广泛的应用和推广。将Qo E模型引进IPTV, 使得用户和运营商建立起一个统一的业务质量的指标。因此, 基于Qo E的IPTV视频质量客观测评成为了研究热点, 是运营商、服务提供商普遍关注的内容。
4 IPTV业务影响Qo E的因子
通过对IPTV系统以及Qo E概念的介绍, 可知IPTV是一个涉及编码、传输、解码、显示等技术的复杂系统, 每个处理过程都有可能影响最终的Qo E。
从用户Qo E的角度, IPTV的质量评测基本可以分为两个方面, 频道切换时间和视频质量评测[10]。频道切换时间, 就是通常指的“换台”的时间, 它可以通过换台后用户端接收到I帧的时延进行衡量。在视频质量测评方面, 影响Qo E的因素比较多, 包括网络传输损伤、视频压缩编码损伤等技术因素。除此之外, 还有节目内容、观看收费、终端性能、用户喜好等非技术因素。排除这些非技术因素, 本文主要研究和列举技术因素的所造成的的损伤。
1.视频片源的低质量造成的损伤
片源采用怎样的采样率, 图像分辨率的选择等等, 都会影响视频图像的质量。
2.视频压缩编码因子
1) 码率
码率就是数据传输时单位时间传送的数据位数, 单位是kbps即千位每秒。通俗一点的理解就是取样率, 单位时间内取样率越大, 精度就越高, 处理出来的文件就越接近原始文件, 也就是说画面的细节就越丰富。视频压缩编码的目标, 就是以尽可能低的码率传输视频文件而不明显损伤视频图像的质量。
2) 视频编码格式
对IPTV系统而言, 视频压缩编码采用H.264、MPEG-2、MPEG-4、AVS等。视频编码算法由于其编码机制和压缩效率各不相同, 因此不同编码标准输出的视频质量会有较大的差别。
3.网络传输因子
1) 带宽
对于数字信号而言, 带宽指的是单位时间里链路内通过的数据量, 它决定网络传输数据的能力, 是衡量网络性能最为重要的参数。
对于IPTV的视频业务而言, 往往需要比较大的带宽。如果采用MPEG-2编码, 一套标清的节目在4Mbps左右;而高清的节目则会超过20Mbps。在部署IPTV的业务是, 一般都是采用的专业网络传输, 其带宽能满足视频业务的承载。
2) 丢包
丢包率 (Packet Loss) [11]是指所丢失数据包数量占所发送数据包的百分比。IPTV的业务, 其传输层协议采用的是UDP协议, 不能通过丢包重传的机制减少丢包的影响。所以, 丢包带来的影响是这类应用重点考虑的因素, 如图1为TS丢包率为0.2%时的图像。
一般而言, 丢包率还跟包长度有关。受到链路层有最大传输单元 (MTU, Maximum Transmission Unit) 的限制, 以太网传输数据包最大为1550字节。如果超过1500字节, 在数据链路层将IP报文分为成几个短报文。在这种情况下, 报文分片的丢失造成的视频质量损伤相当于整个报文丢失造成的损伤, 加剧了丢包所造成的传输损伤。所以, IPTV的协议栈在处理视频数据时, 将7个TS包打包成1个RTP包 (IP包) , 以避免在数据链路层进行分片。
3) 延时
报文时间延迟 (PTD, Packet Transfer Delay) 表示报文从一个网络节点到达另一个节点需要的时间。如果传输路径的时间延迟比较长, 报文在传输过程中就更容易发生不稳定的状况, 因此也更容易造成传输变化。
对于IPTV的用户而言, 对于观看视频节目的等待时限是有限度的。对于实时直播节目, 延时会给用户带来不愉快的体验。而且, 延时也会影响IPTV的频道切换时间。
4) 抖动
网络抖动指的是分组延迟的变化程度, 对有较高实时性传输要求的应用来说是一个重要指标。一般来说, 视频传输损伤加剧首先体现在节目流抖动变化增加上。时延抖动是指当IP数据包在传输时, 因很多网络设备进行转发与排序等过程, 导致数据包通过网络的时延发生变化。
应用在IPTV业务上, 当机顶盒的IP流处理速率跟不上到达的视频数据流速率时, 机顶盒的缓冲模块应对数据流进行适当的缓冲, 稳定后再送至解码模块进行视频的解码播出。因此, IPTV机顶盒用于消除抖动的缓冲模块容量应与网络抖动的严重程度成正比, 网络抖动越严重, 缓冲容量就应该越大。但是, 在实际应用中, 缓冲模块的容量是固定并且有限的。如果缓冲容量大小不足就容易发生上溢或者下溢, 在这种情况下就会导致视频数据包的丢失, 此时观众所观看的图像就会出现马赛克、断断续续等失真, 如图2为60ms抖动的图像。
5 总结与展望
IPTV节目质量测评需要综合考虑视频内容质量、网络质量、用户体验等多重因素。若采用在网络层直接评估媒体流的延时、丢包等网络质量, 由于其属于非介入监控, 因此能够达到实时评测的要求, 但却没有考虑视频内容的影响。若对IPTV节目进行完全解码后针对解码后质量进行测评, 则能够综合考虑网络丢包、视频编码、内容特性等因素对视频质量的影响, 但却因耗时长无法达到实时监控测评的要求。因此, 今后的研究工作主要方向是设计出既能够综合考虑视频内容、网络质量、编码效果等多重因素, 又能提高效率实现实时监控测评的客观测评模型。同时, 在质量测评的基础上寻求IPTV节目质量控制的新方法。
摘要:视频质量是IPTV服务的关键, 其好坏直接决定了IPTV业务的服务质量。本文首先介绍了视频质量测评模型的分类, 之后分别针对几类测评模型的应用分析其国内外发展现状。同时, 详细描述了IPTV用户体验质量 (QoE) 的基本概念以及IPTV中影响QoE的因子。最后提出现有IPTV质量测评模型的不足及发展研究方向。
关键词:IPTV,节目质量,QoE,客观评价
参考文献
[1]Akira Takahash, Vincent Barriac, iDavid Hands, Standardization Activities in the ITU for a QoE Assessment of IPTV, IEEE Communications Magazine February 2008.
[2]朱雨涵, 视频通信业务质量客观评价方法综述[J], 电视技术2009年第33卷第06期.
[3]TAKAHASHI A, HANDS D, BARRIAC V.Standardization activities in the ITU for a QoE assessment of IPTV[J].IEEE Communication Magazine, 2008, 46 (2) .
[4]KANUMURI S, COSMAN P C, REIBMAN A R, et al.Modeling packet-loss visibility in MPEG-2 video[J].IEEE Tran.Multimedia, 2006, 8 (2) :341-355.
[5]YAMAGISHI K, HAYASHI T.Parametric packet-layer model for monitoring video quality of IPTV services[C]//Proc.IEEE International Conference on Communications.Beijing:IEEE Press, 2008:110-114.
[6]ITU-T Telecommunication G.1070, Opinion model for video-telephony applications[S].
[7]J.Welch, J.Clark, RFC 4445, A Proposed Media Delivery Index (MDI) [S].
[8]BABU R V, BOPARDIKAR A S, PERKIS A, et al.Noreference metrics for video streaming applications[EB/OL].[2009-02-23].
[9]Spirent Communications.white paper;MPQM vs.media delivery index;toward a comparison framework for delivered video quality metrics[EB/OL].[2008-06-26].http;//www.spirentcom.com/documents/4001.pdf.
[10]ITU—T Recommendation P.800 Methods for subjective determination of transmission quality[S].
视频质量评估方法 篇8
目前,网络与实时多媒体通信之间的矛盾主要表现为接收端视音频媒体播放的流畅性和清晰性。随着无线和IP网络的迅速发展,对视频通信系统抗误码能力提出了越来越高的要求[1]。这是因为:a.窄带信道要求视频信源编码效率高,大幅度去除信源的冗余。也正因为这些具有高压缩率的编码方法,极大地削弱了压缩视频的抗差错能力。而信道误码会引起视频整帧图像、甚至后续图像的不可恢复,最终可导致视频通信的中断;b.现有的抗差错方法都有它的适用范围,如传统的ARQ不适合实时通信系统;FEC技术对无线信道传输中的突发误码效果极差等;c.视频源和网络信道条件是变化的,抗差错技术须动态地使用;d.视频编解码算法的高计算量和移动设备有限的计算能力,决定了在其上使用的编解码与抗差错方法都不能过于复杂。
对此,本文充分利用人体视觉模型的特点,将影响视频重建图像视觉质量的多种因素与差错控制技术结合起来,以此优化视频编码与信道编码的比特分配,设计出了一种视觉质量优先的视频抗差错方法(ERMV)。经实践检验表明,此方法在窄带高噪声环境下,能明显地提高重建视频的视觉质量。
1 影响视频重建图像视觉质量的因素
在视频通信中,影响重建图像视觉质量的因素主要有:"玛塞克"效应[1]、视觉中心[2](Foveation)与视频的帧率[3]。
1.1 视觉中心
生理学研究表明,人体视觉具有选择注意的能力,人体视网膜对视觉信息的采样率与空间位置有关,即人体视觉对关注点附近的图像质量要求较高,而对其它区域则要求较低。一般来说,人眼在观察物体时,以关注点X为中心(如图1所示),空域解析度快速且平滑地降低。利用视觉这一特性,可消除图像中大于截止频率的信息,以在极低速率下,让有限的视频比特流合理地分配,从而使视频重建图像的视觉质量可以接受。
1.2"玛塞克"效应
"玛塞克"效应是由于视频采用了基于块的粗量化编码方法,或视频码流中的误码所引起的。在日常生活中,由于很少见到由"玛塞克"所组成的场景,所以我们一旦见到由此组成的图像,就会感到非常别扭,从而会严重影响我们的观感。
1.3 视频的帧率
一般说,视频的帧率越高,则其中运动物体所呈现的连续感就越强,视觉质量也就越好。然而,如果仅仅强调提高视频的帧率,那么在低传输速率情况下,势必采用粗量化编码方法来适应低的传输速率,从而可能产生有害的"玛塞克"效应,降低视频的视觉质量。经研究表明,人体视觉具有连续感觉的最小帧率(Fmin)为16帧/秒。当视频的帧率大于Fmin时,人体视觉对帧率的变化不太敏感;反之,则较为敏感。
2 视觉质量优先的视频抗差错方法
在这里,我们合理地权衡影响重建视频视觉质量的主要因素--视觉中心、"玛塞克"效应和视频帧率--三者之间的关系,结合反馈、信道编码与误码隐藏技术,设计了一种视觉质量优先的视频抗差错方法,其实现方法为:
首先,根据用户的反馈所得到的视觉中心位置,对编码的视频图像采用视觉中心滤波处理;
其次,编码器将视觉中心滤波处理后的视频图像按预设的参数编码并封装成RTP包传输。当解码器检测到差错或用户视觉中心位置发生改变时,解码器立即通过改进的RTCP协议向编码器反馈RR包,即将解码器所检测到的丢包率(这里,RTP包在播放时刻后到达也视为丢包)等信息实时地反馈给编码器;
然后,编码器一方面根据接收端的反馈,对出错的RTP包进行有时延限制的重传;另一方面编码器根据接收端反馈的信息,自适应地调整编码参数,即:
(1)当帧率大于Fmin时,如果检测到RTP包的丢包率不小于Qmax(本文Qmax取5%),则降低编码帧率,从而达到降低视频数据的发送速率,以避免因移动设备有限的接收缓存溢出或网络带宽衰减等原因而导致数据包进一步丢失的现象;
(2)当帧率小于Fmin时,这时,人体视觉对帧率的变化较为敏感。如果此时检测到RTP包的丢包率大于Qmax,则保持帧率不变,将编码量化步长增1。该过程直到编码量化步长已经达到量化上限为止;
(3)如果当前量化步长已经达到系统量化上限,且仍检测到差错,则进一步降低帧率;
(4)若反馈给编码端的丢包率小于Qmax,且此时量化步长不小于初始设置的量化步长,则量化步长减1,否则,帧率增1。
在这里,为了保证视觉关注点附近的区域的重建视频图像的质量,对于视觉关注区域的宏块组织成单独的视频包,其量化步长不受上面控制算法的影响。并且当帧率发生改变时,编码时要重新计算每一帧所期望分配的比特数,即重新确定图像各宏块的量化步长。
在解码端接收到的数据中,对于视频帧头信息,即使是在高噪声的无线信道环境下,因采用了上面的带FEC的双重头部保护机制,其发生出错的概率也是非常小的,但对于其它的比特流数据,就难免会出错。同时,考虑到系统的运行平台可能是处理能力较弱的移动设备(如PDA等),所以本文采用简单、高效的误码掩藏方法,即对帧内宏块使用空域误码掩藏方法,对帧间宏块使用时域误码掩藏方法,来减少差错对重建视频视觉质量的影响。
3 实验结果
本文采用QCIF格式的测试序列"news",共300帧进行仿真实验,编解码器采用Microsoft公司所提供的参考代码fdam1-2.3,22。同时,采用3GPP/3GPP2[4]错误模式对实际的信道进行模拟,本文的误码率设为2×10-3。
图2是编码量化步长与视频平均PSNR值、编码码率之间的关系,从图可以看出,随着量化步长的增加,视频图像的PSNR值先是较快速地下降,然后变化趋于平稳;而节省的比特先是较快速地增加,然后其增加趋势逐渐减小,本文在设计ERMV方法时,较好地利用了这一特性。
图3是采用本文所设计的ERMV方法前后视频图像质量的对比图(图中白色圈所设定的区域表示视觉关注中心),其中图3(a)为原始图像,图3(b)为经视觉中心编码后的图像,图3(c)为无误码影响下的视频重建图像,图3(d)为有误码影响后的视频重建图像,图3(e)为有误码影响,采用部分ERMV方法(即没有采用解码端误码隐藏技术)的视频重建图像,图3(f)为有误码影响,采用ERMV后的视频重建图像。从图中可看出,采用ERMV方法,视频重建图像的视觉质量有了明显的改善。
4 结束语
文章针对窄带高噪声信道环境,利用人体视觉模型的特性,将视觉特性与视频的差错控制技术结合起来,设计了一种视觉质量优先的的交互式差错控制方法。在模拟实验与我们所设计并申请软件著作权的"移动视频监控系统V1.0"中的运用表明,此方法能有效地提高重建视频的视觉质量。
摘要:在窄带高噪声的信道环境下,保证接收端的视频重建图像的质量是十分困难的。文章充分考虑三种主要影响重建视频视觉质量的因素,用此来优化视频编码比特在视频各部分的合理分配,然后将节省的码字用于视频的差错控制,减少因传输差错对视频重建图像质量的影响。经实验表明,此方法能在窄带高噪声的信道环境下,明显提高重建视频图像的视觉质量。
关键词:视频通信,抗误码技术,视觉质量
参考文献
[1]王曜,奥斯特曼,张亚勤.视频信号处理与通信,第1版[M].北京:清华大学出版社,2003.
[2]Geisler W S,Perry J S.A real-time foveated multiresolution system for low-bandwidth video communication[C]//Proc.SPIE,Jul.1998,3299:294-305.
[3]宋彬,常义林.基于主观质量控制的数字视频综合抗误码技术[J].电子学报,2001,29(7):919-922.
视频质量评估方法 篇9
当前,以数字视频图像为主体的多媒体业务正日益成为有线及无线网的主体业务形态。通过对视频图像质量的客观评价,可取代繁琐费时的主观评价方法,为数字节目制作、编解码器设计及优化、多媒体业务质量调整等诸多应用领域提供方便、快捷的技术保障。
最常用的评测方法是基于统计学理论的PSNR等,这些方法由于数学上处理容易、物理意义明确,广泛应用在视频图像质量评测的各个领域。然而其评价结果常与主观感受存在较大偏差,因此研制可有效替代PSNR的新的评测方法成为当前业界的重要课题,吸引着国内外越来越多院校及科研机构的研究兴趣。包括Intel、美国宇航局(NASA)、泰克仪器、皇家飞利浦等企业,以及ITU-T(SG9,SG12),ITU-R(WP6Q),IEEE(广播技术协会),ANSI(T1A1),VQEG(Video Quality Experts Group)等标准化组织都纷纷开展相关的方法研究和标准化测试。新的视频质量客观评价方法要取代广泛适用的PSNR,必须满足以下几个要求:首先,评价结果应比PSNR等具有更好的主观相似性;其次,评价方法需具有广泛普遍的适用性;最后,算法需简单可行,易于系统集成。基于人眼视觉特性构建HVS仿生模型是当前较流行的研究思路之一[1]。方法的通用做法是设计人眼HVS的仿生模型,模仿人眼对参考图像和待测图像之间差异的感知机制,得到相应的感知评价结果。然而,由于人眼生理响应机制十分复杂,这些方法在计算上常过于繁琐而无法实际推广。VQEG于2000年[2]和2003年[3]先后两次对全球各研究机构提交的视频质量评价模型进行评测。从其两次的报告看,目前视频图像质量的客观评价技术尚无法完全满足通用、可靠、简便的评价标准水平。
鉴于当前PSNR已在视频图像质量的评测中广为应用,具有相当规模的应用基础和普适性。本研究认为在PSNR算法基础上融合HVS的主要特性,能在不过多增加算法复杂性的前提下有效改善算法性能;同时,能保持PSNR的风格,具有较好的前向兼容性,更适合当前视频质量评价的应用需求。因此,本算法在PSNR的算法结构上,通过引入HVS特性以改善和优化PSNR算法的性能。算法是PSNR方法与HVS特性的融合体,其评价结果较PSNR具有更好的主观相关性,能在继承PSNR优势的同时提升其性能。为便于描述,文中称之为“增强PSNR”算法,即EPSNR(Enhanced PSNR)。
2 数字视频图像的客观评价
2.1 主观评价和客观评价
视频图像质量的评价主要有两类形式:主观评价和客观评价。主观评价是以人作为图像的观察者,在一定条件下对图像的优劣进行评分,将结果按诸如“非常好:5分”、“好:4分”、“过得去:3分”、“较差:2分”、“差:1分”或“无法察觉损伤:5分”、“轻微察觉但不讨厌:4分”、“察觉且有点讨厌:3分”、“察觉且讨厌:2分”、“非常讨厌:1分”的形式分档[4]。主观评价虽简单,但需人参与评测、复杂费时且结果易因人因时而异。
客观评价由仪器或软件对质量进行评估,其评价结果具有数值性、易操作性和可重复性等特点,因此在实际应用中具有广阔的应用前景。由于人是视频图像信息最后的接收者,其对质量的感受具有最终的审判权,因此客观评价的性能结果应与人的感受为参考依据。理想情况下客观评价结果应该与主观评价结果具有尽可能接近的相似性。
2.2 峰值信噪比及其缺陷
峰值信噪比(PSNR)是目前应用最广的视频图像客观评价算法,其定义为
其中:L表示图像中的最大的像素值(如8比特的量化则L为255);M和N则分别表示图像的行和列。从式(1)可知PSNR算法是基于噪声层的评价方式,通过像素点的对比能敏感捕获两幅图像(或两端视频)在像素层面上的细微失真,因此具有很高的敏感性。然而PSNR将构成图像或视频的像素点看成是相互独立的孤立个体,忽视了各像素的局部相关性;其次,PSNR忽略了HVS对相同差异出现位置、持续时间等是具有不同视觉感受的特点,将差异的影响等价化;此外,针对视频应用中,其不仅仅是空域信号,还包括时域上的差异,传统PSNR对时域检测则显得无能为力,只能简单将各帧的结果平均处理。
3 人眼主要视觉特性
视频图像是乘载人眼感受信息的特殊数据,如果采用一般数据差异的计算方式表达劣化值势必与主观结果相偏离。所以研究视频质量的基础是人眼的主要视觉特性。
3.1 多通道及视觉阈值
人的视觉系统是一个多通道结构,它把输入的图像分解成不同感觉分量。每个感觉通道都有其自己的阈值(称之为视觉阈值),如果激励值低于通道的视觉阈值,人眼就感觉不到该激励。视觉阈值主要有空间性和时间性两大特点。空间性特点体现在视觉的空间频率响应。研究表明人眼空间感知能力具有带通和低通滤波特性,对高频部分的失真较低频失真不敏感;此外,还与目标及背景的相对亮度有很大关系。时间性特点体现在视觉的时间频率响应。研究表明其响应也类似一个带通滤波器,通常的闪烁临界范围(高过此范围,人眼感觉不出闪烁)在20∼80Hz,而相应的范围取决于显示的平均亮度;显示亮度越高,则临界范围的阈值越高。
3.2 掩蔽效应
掩蔽效应是影响上述视觉阈值的重要原因。掩蔽是指当存在多个激励时,激励间的互相干扰导致视觉阈值发生变化的现象。视觉阈值的存在使低于阈值的损伤不被觉察;而掩蔽的存在则使视觉阈值变化提升,从而能够容纳更多无法察觉的损伤。只要人眼察觉不出损伤,其造成的影响事实上可忽略不计。典型的掩蔽效应[5]主要有:“对比掩蔽”(如人眼对损伤的敏感度在非常亮或非常暗的区域下降);“纹理掩蔽”(如人眼对损伤的敏感度在图像纹理复杂区比平坦区低);“运动掩蔽”(如人眼对内容随时间变化大的图像块的损伤敏感度低);“切换掩蔽”(如场景切换后的瞬间1∼3帧,人眼对损伤的可见性下降)等。
4 基于视觉特性的处理方法
视频是一组相关图像按一定速率播放的序列。因此,本研究先分别从“帧内”和“帧间”两个角度探讨结合HVS特性的图像处理方法,最后再根据特性对整体进行融合修正。
4.1 帧内图像的处理方法
帧内图像体现了空间频率响应特性。HVS的主要特征表明,人眼对图像边缘通常格外关注。边缘能量的损失大小将很大程度上影响评价分的高低。因此,可通过边缘滤波器提取边缘信息能量,计算这些边缘点上的像素差,以突出边缘区域的误码情况。此外,人眼具有方向选择性,对水平和垂直方向的敏感度相对其他方向大。研究中我们采用水平与垂直方向的边缘滤波[6],如下式所示:
其中:g(m,n)表示在像素位置(m,n)的梯度图像;gx和gy分别表示水平向和垂直向的梯度图像。
在视频压缩及通信应用中,方块效应常是最主要的帧内图像的误码形态之一。其误码形态在待测图案中会造成较多的边缘图案。如果这些边缘闭合,则提示该部分方块与背景的对比度级差超过一定值,可能存在严重失真[6];此外,人眼对视觉兴趣区域(ROI,Range of Interest)内的图像失真比其外失真会敏感很多[7]。因此,需要判断新增方块边缘的闭合程度、区域大小及出现位置,并据此修正边缘检测索引图。在索引图参考下计算边缘图案的均方误差,如下式所示:
其中:MSEedge(k)表示第k帧的边缘像素均方误差;Sedge(i,j,k)和Pedge(i,j,k)分别表示第k帧原始图像和待测图像在(i,j)位置的边缘图;Redge(i,j,k)表示经方块效应修正后的检测索引图;Q(k)表示Redge(i,j,k)内的总像素点。
4.2 帧间图像的处理方法
帧间图像主要体现了时间轴上的响应特性[5]。根据HVS的特性,当图像运动较快时人眼无法区分图像中较高的空间频率;而在图像静止时,却能分辨高得多的空间频率。本方法在帧间图像处理上设计了两个任务:“切换点记录”和“帧率估算”。“切换点记录”的目的是记录场景切换的帧号;而“帧率估算”的目的是检测待测帧流畅性是否劣于参考帧,从而可根据流畅性指标判断是否需要对最后结果进行加权。切换点及帧率的估算采用图像的帧间差值距离度量[8],定义为
其中:k表示当前帧序号;(i,j)表示其帧内轮廓边缘的像素点坐标;Y表示图像轮廓边缘的亮度值。
场景切换通常前后亮度差较大,视觉对前后亮度差较大点亦存在较高的时域掩盖门限值;换句话说也就是对这时候出现的劣化形态较不敏感。因此,可设定一阈值(∆Yedge)max,当计算出的∆Yedge超过(∆Yedge)max,则认为该帧是处于切换点,即记录其序号k。对帧率的测量,可通过比较原始视频的∆Sedge(k)与待测视频的∆Pedge(k)是否具有线性相关性来判定。如线性相关,则说明待测视频的帧率跟原始视频基本吻合;如∆Sedge(k)值较大而∆Pedge(k)较小,则说明待测视频的帧率没有跟上原始视频,从而估算出待测视频的帧率。
4.3 整体融合与修正
在视频文件处理后,需根据HVS特性对3.1和3.2的处理进行融合和修正,修正步骤如下:
首先,根据掩盖特性在“切换点记录”修正(3),忽略场景切换点前后3帧的MSEedge(k)差值影响,可得总体的边缘MSE值及边缘PSNR值为
其次是对所得的EPSNRtp,结合估计帧率进行加权。在图像通信中,视频重建时常会用内插或重复帧的方法恢复丢帧。因此,如原视频与测试视频在一段时间内的帧率差异超过一定门限,则说明待测图像可能出现人为内插图片或画面凝固现象,因此即可通过选择质量衰减因子λ的方式来修正影响,有如下表达式:
研究表明,帧率对主观质量的影响大小常受应用场合、终端设备以及素材内容活动性等前提条件的制约。不同应用场合对帧率大小有不同的期望。如在标准电视应用场合,通常帧率要求至少25帧(PAL)/30帧(NTSC)以上;而在一些监测应用场合,其对帧率的要求则相对宽松。其次,人眼感受的闪烁临界频率会随显示设备的亮度增高而提高。较低显示亮度的显示设备(如手机、PDA等),其对帧率大小的期望往往低于CRT显示器等其它显示终端。最后不同节目内容的空域和时域运动程度都不一样。空域或时域运动较剧烈的素材常会使视频的“可接受最低压缩码率”(即低于这个压缩码率,经压缩或传输的质量常难以被主观感受接受)的门限上升,从而导致丢帧或误码的出现。因此,式(6)中加权修正系数λ的选择需根据上述前提通过事先的分类训练获得。
5 实验及讨论
5.1 测试方案设计
实验目的是验证本算法对以PSNR为代表的传统算法的性能提升能力。测试分两大部分,其一是视频文件,其二是静止图片。对每部分都分别测试PSNR值和改进PSNR值,并结合主观感受进行对比。素材的误码形态分三类:第一类劣化形态是由Matlab函数生成高斯、椒盐、泊松等误码噪声;第二类劣化形态是诸如DPSK、QPSK等调制后在不同误码等级下的劣化失真;第三类则使用诸如WCDMA、CDMA2000等完整协议栈和空中接口的综合业务仿真,本研究中采用3GPP/3GPP2的3G视频流媒体和RTP传输测试环境[9],其模版和参数如表1,其中H1和H2模式针对的是视频流媒体业务,H3-H6针对会话类业务。主观评分采用5分损伤制,并将结果转换到(0~1)区间,分值越靠近1则质量越好。
此外,为便于与主观分值进行对比,利用转换公式(7)分别将式(1)和式(6)得到的分贝单位值转换到线性单位值。其中ScoreLinear表示线性单位的分值(0~1之间,越靠近1质量越好);ScoreLog表示分贝单位值。
5.2 结果及讨论
视频和图像均采用标准测试素材,受篇幅所限取表2所示的客观结果进行分析,其中黑体部分的主观效果在图1∼图3中给出。表2中前四个劣化视频的源文件分别为carphone.qcif,container.qcif,Claire.qcif,Suzie.qcif;后三个劣化的原图片为256×256格式lena.bmp和mom&baby.bmp。
从实验数据中,可得出以下结论:一方面,本算法与PSNR算法固定数据级差问题,即本算法结果与PSNR具可比性。如图1的Suzie(H2)主观分为0.9,其PSNR结果(33.196d B/0.8939)与本算法结果(32.925d B/0.8894)基本可认为等同。另一方面,在出现方块模糊的场合,本算法具有比PSNR更敏感的捕获能力。如图2的Claire(H2),其模糊出现在非兴趣区但可明显感觉。本算法(24.51d B/0.66)相对PSNR(28.70d B/0.8)更能准确体现主观的感受效果(0.70分)。此外,在较严重的误码出现ROI区域时,本算法能敏锐地进行适当的值修正,如图3的mom&babby(DPSK平坦衰落,10^-2)仿真中,本算法(13.281d B/0.2216)比PSNR(21.323db/0.5278)更好地近似主观感受(0.2分)。
6 结论
实验表明本算法具有以下优点:首先,算法融合了视频的空域处理和时域处理,突破了传统PSNR方法只能针对静止图像检测的局限。其对视频序列的检测并不是机械地将对各帧图像的测试结果求平均,而是结合时域特性进行修正。因此,相对PSNR算法而言本算法结果充分利用了视频的时域信息。其次,算法主要的计算量在先期检测索引图像构造和后期时域信息加权修正,算法计算量并不大,因此便于实现和系统集成。此外,相关实验表明本算法比PSNR具有更好的主观相关性;且当PSNR算法与主观感受具有较好相似性时,本算法亦可得到与PSNR算法相近的数值结果。因此本算法对PSNR算法具有较好的兼容性和数值可比性,可作为PSNR方法的改进乃至替代算法加以推广和应用。
参考文献
[1]佟雨兵,胡薇薇.视频质量评价方法综述[J].计算机辅助设计与图形学学报,2006,18(5):735-741.TONG Yu-bing,HU Wei-wei.A Review on Video Quality Assessment Methods[J].Journal of Computer-Aided Design&Computer Graphics,2006,18(5):735-741.
[2]VQEG.Final report from VQEG on the validation of objective models of video quality assessment[EB/OL].http://vqeg.its.bldrdoc.gov,2000.
[3]VQEG.Final report from VQEG on the validation of objective models of video quality assessment II[EB/OL].http://vqeg.its.bldrdoc.gov,2003.
[4]ITU-T.Objective perceptual assessment of video quality:Full reference television[EB/OL].Switzerland:ITU-T Telecommunication Standardization Bureau(TSB),http://vqeg.its.bldrdoc.gov,2004.
[5]Weisi Lin,Li Dong,Ping Xue.Visual distortion gauge baseds on discrimination of noticeable contrast changes[J].IEEE Transations on Circuits and Systems for Video Technology,2005,15(7):900-908.
[6]ITU-T.Recommendation J.144(Rev.1)-Objective perceptual video quality measurement techniques for digital cable television in the presence of a full reference[EB/OL].http://www.itu.int/itudoc/itu-t/aap/sg9aap/history/j144/index.html,2004.
[7]邢昕,沈兰荪,汪孔桥.一种基于视觉兴趣性的图像质量评价方法[J].中国图象图形学报,2000,5(4):300-303.XING Xin,SHEN Lan-sun,WANG Kong-qiao.A Quality Assessment Method of Image Based on Visual Interests[J].Journal of Image and Graphics,2000,5(4):300-303.
[8]S.Wolf and M.Pinson.Video quality measurement techniques[EB/OL].www.its.bldrdoc.gov/n3/video/documents.htm,2002.
国外人口普查质量评估方法综述 篇10
关键词:人口普查,人口普查误差,人口普查误差评估方法
一、引言
人口普查无法正确计数目标总体的每一个人及其人口统计特征。于是,各国政府统计机构设法使用各种方法评估普查质量,即估计普查误差,包括覆盖误差和内容误差。覆盖误差进一步分为遗漏和错误计数。覆盖误差直接影响人口总数的精度,内容误差虽然不影响人口总数的精度,但却影响普查各个类别人口数的精度。世界大多数进行人口普查质量评估的国家主要关注的是普查覆盖误差。
评估人口普查质量的方法很多,例如,逆记录检查、人口统计分析模型和事后计数调查。逆记录检查主要用来估计普查遗漏误差。这里的逆记录是指本次普查之前的记录,包括上次普查被计数人口记录、上次普查与本次普查标准日之间出生人口及迁入人口记录等。其样本从多个彼此独立的抽样框抽取。它通过对比样本与本次普查数据库以及计算样本个人抽样权数的方法来确定被本次普查遗漏的人口数。
人口统计分析模型利用人口出生、死亡、迁移、医疗保险等有关的行政记录资料和其他估算资料来获得总体真实人口数估计值,然后在此基础上估计普查净误差率,即(估计的真实人口数-普查人口数)/估计的真实人口数。
事后计数调查目的是估计普查覆盖误差。它由抽样设计、调查和比较样本、事后分层和估计构成。其核心是构造用来估计总体真实人口数目的双系统估计量。该估计量有两个基本假设条件:一是等概率,即要求估计区域内(事后层)的每一个人在普查中有相同或相似的被登记概率;二是事后计数调查与普查独立。
二、部分国家的实践
1. 美国。
美国普查局每次人口普查后都进行质量评估。先后采用的评估方法有逆记录检查、行政记录检查、与当前人口调查比较、人口统计分析和事后计数调查。
1950年人口普查后,美国开始研究基于出生、死亡、迁移及其他资料的人口统计分析模型。该模型能够提供独立的不同年龄、不同性别和黑人-非黑人的真实人口数估计值及其普查净遗漏率估计值。1970年美国首次使用这个模型估计全国真实人口数及其普查净误差率。其模型表达式为。其中,Pt=估计的第t时点真实人口数,P0=第0时点人口数,Bi=第i时点全部出生人口数,Di=第i时点全部死亡人口数,Ii=第i时点全部迁入人口数,Ei=第时点全部迁出人口数。
人口统计分析模型优势有二:一是独立于人口普查,因而能够避免可能与事后计数调查存在某种程度的不独立而引起的交互作用偏差;二是无须采集另外资料,因而节约评估成本和评估时间。但它有不足之处:一是缺少独立估计拉美血统人口、亚裔人口、美洲印第安人口,其他人口数目的资料;二是无法估计各个州的人口数目,因为难以获得国内州与州之间人口迁移的准确数据;三是其重要构成部分,即国际净迁移的准确数据不存在,因而只能估计,并且估计方法很多,而究竟哪种估计方法最为准确至今还是一个未知数。
1970年人口普查后,美国开始积极研究事后计数调查评估方法,并将它应用于1980年人口普查质量评估。事后计数调查优势有二:一是它的核心部分,即估计真实人口数的双系统估计量(Dual System Estimator, DSE)建立在捕获-再捕获模型基础上;二是它充分利用了两套资料,即普查资料和事后计数调查资料,因而估计的真实人口数比只依据一套资料估计的结果准确。事后计数调查缺陷主要是其双系统估计量可能存在交互作用偏差,即被普查遗漏的人口更容易被事后计数调查遗漏。换句话说,该估计量没有包括这类人口,因而估计的真实人口数目偏低。其表达式为DSE=(CE×P)÷(M)。其中,CE为根据E样本(下有说明)估计的普查正确计数人口数,P为根据P样本(下有说明)估计的事后计数调查人口数,M为根据P样本估计的同时被普查和事后计数调查登记的人口数。
美国在1980年事后计数调查中首次提出了三个重要概念:一是P样本和E样本。P样本由事后计数调查时的当前人口组成,用来估计普查遗漏人口数,E样本由事后计数调查样本小区的普查个人组成,用来估计普查错误计数人口数。二是足够比较信息。它意味着,一个P样本或E样本个人记录包含足够多的用于比较所需要的信息,其中最重要的是姓名。对信息不足个人,剔除比较程序;三是搜索区域。为提高P样本匹配率和E样本匹配率,如果在本样本小区无法找到相应的匹配者,就在其周围区域寻找,这个区域称为搜索区域。
美国1990年事后计数调查主要改进在两个方面:一是事后层范围不再局限于一个州,而是可以跨越州的边界线;二是创建了小区域合成估计模型,因而解决了由于区域规模小、分配的样本量少而导致的估计人口数目有较大抽样误差的问题。
美国2000年事后计数调查改进集中在四个方面:一是抽样单位由街区变为街区群;二是样本量由1990年的17万住房单元扩大到30万住房单元;三是为提高匹配率而进行的搜索集中在住房单元地址误差严重的街区群;四是事后计数调查人口包括无移动者(普查日和事后计数调查日均在本样本街区群)和向外移动者(普查日在本样本街区群,普查日后迁移到其他街区群)。
美国2010年事后计数调查实行了若干重大改进,其中最主要的有三项:第一,美国2010年除了提供普查净误差之外,还提供净误差的两个组成部分,即遗漏和错误计数。第二,修改了普查正确计数定义。所谓普查正确计数,是指个人计数须同时满足五个条件:完整性(姓名、年龄等记录完整);适当性(属于普查范围);唯一性(必须且只记录一次);总体性(属于居住在住房单元的人口);位置正确性(计数在常住地或普查日所在地)。这里对正确计数定义修改主要是针对上述第五个条件,即位置正确性来说的。第三,首次构造了基于罗吉斯蒂回归模型的用来估计总体真实人口数目的双系统估计量。具体做法是:首先分别以个人在普查中正确登记的概率和匹配概率为因变量,以事后分层标志为自变量建立两个罗吉斯蒂回归模型;然后依据样本数据获得这两个模型参数的估计,从而得到两个预测模型;再后把样本中某人的诸自变量取值代入预测模型,计算出样本中每个人在普查中正确登记概率的模型预测值和匹配概率的模型预测值;最后用这两个模型预测值构造总体真实人口数的估计量。
美国1980、1990、2000年和2010年均使用人口统计分析模型估计全国真实人口数,并且作为双系统估计量估计的真实人口数目的佐证数据。
2. 南非。
南非普查局2001年组织事后计数调查的目的是估计该年人口普查的覆盖误差和内容误差。事后计数调查目标总体包括居住在非季节性住房单元的人口和宾馆的工作人员,而不包括居住在集体宿舍和非生活区的人口。
受操作和经费预算的限制,事后计数调查全国样本量为600个普查计数区(大约为全国普查计数区的1%,每个普查计数区含100个家庭),按各个省的人口数比例分配。为避免有的省因人口数少而分配的样本量不足,规定了最低样本量,例如,每个省不得少于40个样本计数区。
以省为范围,普查计数区为抽样单位,采取单阶段分层整群抽样方式抽取普查计数区样本,一旦抽取了计数区,对样本计数区中的全部家庭和旅馆100%调查。固然,从统计效率观点来看,如果进一步做次级抽样,即,从每个抽取的计数区抽取家庭子样本能减少群效应,但这会使比较工作难以进行,所以还是放弃了次级抽样的考虑。
样本抽取后,使用问卷采集事后计数调查所需要的信息。这些信息包括:事后计数调查时居住在本样本计数区的家庭人口数及其每个人的姓名和人口统计特征(性别、年龄、婚姻状况、最高文化程度等);事后计数调查时没有居住在本样本计数区,但人口普查时居住在这里的个人姓名及其人口统计特征。
样本数据采集后,进行比较。比较就是对比同一样本计数区的事后计数调查问卷和普查问卷的个人记录。通过初始比较、现场确认和最终比较,个人分为三类:同时被普查和事后计数调查计数(匹配);只被普查计数但未被事后计数调查计数;只被事后计数调查计数但未被普查计数。
比较工作结束后,进行估计:首先是计算个人抽样权数。每个样本计数区的抽样权数为那个层的计数区总数与从那个层抽取的计数区的比值。每个抽取的计数区的抽样权数等于其中每个家庭和个人的抽样权数。为便于计算,南非对同一样本计数区的事后计数调查人口、普查人口均使用相同的个人抽样权数。
然后是使用双系统估计量估计全国真实人口数。双系统估计量=(估计的事后计数调查人口数)×(估计的普查人口数-估计的普查错误计数人口数)×(估计的匹配人口数)。其中,估计的事后计数调查人口数=所有样本计数区事后计数调查个人抽样权数总和;估计的普查人口数=所有样本计数区人口普查个人抽样权数总和;估计的普查错误计数人口数=所有样本计数区人口普查中错误计数的个人抽样权数总和;估计的匹配人口数=所有样本计数区同时被普查和事后计数调查计数的个人抽样权数总和。
最后是估计普查净遗漏人口数及其净遗漏率。其中,估计的普查净遗漏人口数=估计的真实人口数-估计的普查人口数;估计的普查净遗漏率=估计的普查净遗漏人口数÷估计的真实人口数。
此外,南非使用一致性率、总差异率、净差异率、不一致性指数和不一致性总指数估计性别、年龄、与户主关系、婚姻状况等内容误差。
3. 加拿大。
加拿大每隔5年进行一次人口普查。自1961年人口普查起,加拿大使用逆记录检查估计普查遗漏人口数。
逆记录检查属于抽样检查。其样本从五个抽样层分别独立抽取。这五个抽样层分别是:上次普查计数人口数据库;上次逆记录检查遗漏人口数据库;上次普查到本次普查出生人口登记册;上次普查到本次普查从国外迁入本国人口登记册;本次普查日的本国非永久性居民登记册。除第二层100%抽取外,其他抽样层均是概率抽取。在这4个抽样层,以个人为单位,采取分层(第一层)或简单随机(其他层)方式抽取逆记录检查个人样本。每个抽取的个人均有一个设计抽样比例,即样本人口数/抽样层人口数,其倒数为设计抽样权数。如果逆记录检查样本不存在无答复,那么设计权数就是其最终抽样权数。如果存在无答复,则需要把抽样层无答复者的设计抽样权数分配给同一抽样层的答复者。
逆记录检查样本抽取后,首先在全国(地区)本次普查数据库进行搜索。如果找到了逆记录检查样本个人,就称该样本个人为普查计数。如果没有找到,就收集相关信息以证实逆记录检查样本个人是否属于普查目标总体。在收集数据之前,通过跟踪获取样逆记录检查样本个人最新地址及其电话号码,并发送问卷请其填写。逆记录检查问卷一般包括上次普查后是否更改了姓名、本次普查日常住地及其居住的人口数、姓名和人口统计特征,等等。利用采集的数据确定样本个人是否属于普查目标总体。如果属于,就再次在普查数据库搜索,以确定是否为普查计数。
通过搜索、采集数据和再次搜索,逆记录检查样本个人分为四类:普查计数;普查遗漏;在普查目标总体外;无答复。逆记录检查所有普查遗漏样本个人最终抽样权数之和即为全国普查遗漏人口总数。
为了估计全国普查错误计数(重复、普查日后出生人口数、宠物等)人口数,逆记录检查增加了一个单独的普查计数样本。该样本从本次普查数据库抽取。为了保证样本代表性,抽样前,按年龄、性别和婚姻状况对普查数据库分层。在每一层,以人为抽样单位,采取简单随机方式抽取逆记录检查的单独样本。每个单独样本个人有一个设计权数。如果样本不存在无答复,设计权数即为最终抽样权数,否则对设计权数进行修正。对单独计数样本,逐一详细检查其中的每一个人,看是否为重复计数、宠物、普查日前死亡者、普查日后出生者。检查后,得到了单独普查计数样本的普查错误计数人口数。这些样本普查错误计数人口数的最终抽样权数之和即为全国普查错误计数人口数。
逆记录检查提供下列人口数:估计的全国普查遗漏人口数;估计的全国普查错误计数人口数;估计的全国普查净误差人口数,即估计的全国普查遗漏人口数与估计的全国普查错误计数人口数之差;估计的全国真实人口数,即估计的全国普查净误差人口数与全国普查人口数之和;估计的全国普查遗漏率=估计的全国普查遗漏人口数/估计的全国真实人口数;估计的全国普查错误计数率=估计的全国普查错误计数人口数/估计的全国真实人口数;估计的全国普查净遗漏率=估计的全国普查净误差人口数/估计的全国真实人口数。
逆记录检查的优点是:样本代表性强,既包括了难以计数人口又包括了容易计数人口;成本低廉,不用编制抽样框,抽样框直接来自人口登记册;确保了普查和逆记录检查之间的独立性。不足之处是:五个抽样框之间可能有重复人口;需要有健全的行政记录,换句话说,逆记录检查只适合行政记录健全的国家,对大多数发展中国家基本不适用,因为缺少这方面健全的行政记录资料。
加拿大也使用人口统计分析模型估计真实人口数,其目的是提供年龄-性别人口数目估计值。值得注意的是,加拿大已经使用人口统计分析模型对逆记录检查的某个年龄-性别组的净遗漏结果进行修正。例如,1991年逆记录检查结果表明,在0~4岁孩子中,女孩净遗漏率(3.75%)显著高于男孩(2.26%),这很可能源于逆记录检查的抽样误差。人口统计分析利用精确的出生性别比率和死亡率信息对0~4岁的女性人口数目进行了修正。
三、结论与建议
由于各个国家人口普查模式不尽相同,现存的统计资料来源及其质量差异也比较大,同时也由于各个国家行政管理方式不同,所以没有适合于所有国家的人口普查评估方法。一般来说,逆记录检查和人口统计分析模型适合于行政记录健全的国家,而事后计数调查适合于所有国家。
为了成功使用这些评估方法,提出几点建议:首先,使用人口统计分析模型前必须建立准确完整的人口出生、死亡、迁移登记册,否则估计的真实人口数目有比较大的误差;其次,使用逆记录检查估计普查遗漏人口数要注意减少非抽样误差和对其效果进行敏感性分析;使用事后计数调查需要准备大笔调查经费、培训调查员和比较员,以及确保与普查独立,否则产生比较大的交互作用偏差,从而导致估计的真实人口数目偏低。
参考文献
[1]Mary H.Mulr.Census Coverage MeasurementMethodology Research:Past and Present[J].U.S.Bureau of the Census Washington, D.C.20233-0001, 2002 (4) :617-622.
[2]Robinson, J.G., and Ahmed, B.Estimation of PopulationCoverage in the 1990 United States Census Basedon Demographic Analysis[J].Journal of the AmericianStatistical Association, 1993, 88 (423) :1061-1071.
[3]U.S.Bureau of the Census.Accuracy and CoverageEvaluatio of Census 2000:Design and Methodology[R].DSSD 03-DM.2004.
[4]Mary H.Mulry and Donna K.Kostanich.Frameworkfor Census Coverage Error Components[J].ASASection on Survey Research Methods.U.S.CensusBureau, Washington, DC 20233, 2006 (6) :3461-3467.
[5]Statistics South Africa.Census 2001 Post-EnumerationSurvey:Results and Methods[R].Statistics SouthAfrica, 2004.