视频分析

2024-11-03

视频分析(精选12篇)

视频分析 篇1

智能视频分析技术起源于计算机视觉技术。美国9·11事件发生后, 智能视频分析技术在国内外均得到了很大发展。随着相关软、硬件技术的不断发展, 智能视频分析技术已在军事重地, 文博、高风险单位以及重要区域、重要交通枢纽、要道、通道等的控制 (门禁) 方面有了实际应用。

1 视频报警与智能视频分析

笔者将智能视频监控从功能、发展趋势上划分为视频报警和智能视频分析。

相对于利用主、被动红外和微波、振动、张力、压力、电子声学等原理的报警 (均基于模拟信号) , 视频报警是最近几年报警领域新的发展成果, 优势明显——直观、现场感强、令人一目了然, 因而便于值班人员判断、处警、决策。早期的视频报警只能做到将画面的某个部位设为禁区 (设置虚拟红线) , 一旦有人进入即报警。目前视频报警的功能和应用已得到很大的扩展, 入侵检测报警 (翻越、穿越报警) 可以做到多目标报警、多目标跟踪;非法停车、滞留检查报警 (车辆停入或滞留禁停区即报警) 、徘徊检测报警;遗弃物 (故意将物体遗弃在公共场合或设定区域的行为) 检测报警、物品搬移 (在原现场内存在的物体被搬移、丢失) 检测报警、游泳溺水检测报警 (利用水下、水上摄像机覆盖游泳池水面、水下全景, 一旦发现泳者沉于池底或在水中挣扎, 立即报警) , 以及攀爬检测报警、人员聚集检测报警 (用于预防群体事件) 、流量 (车流量、人流量) 统计等也都得以实现。

2 智能视频分析模式

目前智能视频分析有两种模式:一是基于前端DSP的嵌入式, 二是后台服务器处理式。两种模式都在发展。早期的智能视频分析应用基本上都采用基于前端DSP的嵌入式模式, 该模式在局部、重要点位的应用对人们认识智能视频分析有启蒙、宣传的作用。该模式的优点是仅当有报警触发时才上传信息, 无需将画面实时上传至监控中心, 因而可以大幅降低对传输带宽的占用, 并可大幅节省录像空间, 使得同样的存储容量可以支撑更长时间;直接接收模拟图像, 因此不存在用于分析的源信号断开及延时的问题。其缺点是单点式工作, 系统架构不灵活。

为满足应急联动防控的需要, 智能视频分析正在由前端DSP嵌入式向后端服务器架构或两者相结合的方向发展。后端处理模式对网络传输要求较高, 其分析会在遇到网络信号不连续时出现误差, 也会受到网络信号传输延时的影响。但这种模式强大的源信号处理功能、灵活的信号切换功能、规模和功能扩展的方便性等都促进了其发展, 而相关技术的发展以及需求, 尤其是大规模、大系统、大范围布局的需求的增长, 也使这种模式有了较快的发展。

无论哪种模式, 智能视频监控与传统视频监控相比都有着明显的优势:有助于解决保安人员因长时间观看屏幕而疲劳、注意力降低的问题;能真正做到7×24小时全天候监控;能自动进行监控, 使值班人员只需对告警图像进行确认和处理, 无需时时紧盯多个监控屏幕, 提高了监控效率;可以在远距离、光线不足、低对比度、环境伪装等挑战下识别人眼无法分辨的细微变化, 从而发现入侵行为;能自动报警, 并可自动跟踪、跟踪交接, 形成联防, 更可贵的是可以起到预防、预警的作用, 改变只能在事后分析查证的被动局面。

3 智能视频分析技术原理

按照技术原理划分, 智能视频分析 (行为分析) 可分为基于背景建模技术和基于图像光流判断技术的两种。

(1) 基于背景建模技术的智能视频分析

基于背景建模技术的智能视频分析, 即建立监控区域的静态背景模型;在该模型的基础上检测监控区域内的动态目标, 并记录该动态目标的行动轨迹;当该轨迹达到设定报警规则要求时发出相应警报。该技术主要用于对特定区域或特定时间内的入侵事件的监控。

背景建模技术是智能视频分析应用最为成熟, 运用历史最长的一种技术, 已在国内外得到广泛应用。该技术抓捕目标的灵敏度高, 触警规则的设量自由多样, 对摄像机架设的要求相对较低。上文所述的视频报警大都运用了该技术。背景模型与真实模型的匹配程度决定着此类检测报警的准确度。偶然的外界影响, 如光线变化 (如驶过汽车车灯的照射) 、飘动的树叶以及突然的天气变化会导致误报。通过引入一些新的提高报警准确率的技术, 诸如在原有背景模型基础上加入运动目标轨迹约束, 设置景深信息, 自学习重复运动物体轨迹等方法, 可以滤除车灯照射、树叶摇动、小动物活动等偶然事件的干扰, 已取得了较为理想的应用效果。

需要指出的是, 由于此类检测报警的准确度取决于静态背景的完整性。故其应用场景应是目标稀少, 或是监视时段内目标稀少的场合, 例如周界围墙、下班后的工作大楼、重要物资仓库、金库、文博馆、设定的重点区域或高速公路路肩 (监控违章停车) 、禁区等。而诸如人员拥挤的道路、广场等场景, 由于动态目标图像所占面积几乎覆盖了背景面积, 计算机无法准确定位静态背景, 容易给出错误结果。

(2) 基于光流变化的异常事件监测

光流即视频图像的像素运动的瞬时速度。利用图像序列中像素强度数据的时域变化和相关性来确定各像素位置的“运动”, 即研究图像灰度在时间上的变化与景象中的物体结构及其运动的关系。比如, 斗殴动作会使图像中的光流激烈且杂乱无序地变化;如果系统能够识别这种变化, 并在其达到一定阀值时发出相应的警报, 即可实现对斗殴行为的报警。奔跑事件与聚集事件报警也是基于对光流异常变化的识别而实现的。

该技术也可运用于公共治安管理中的群体性事件报警;但在舞厅等场合, 由于其光流变化与斗殴的表现相似, 该技术并不适用。

4 典型应用

4.1 基于人头特征检测的饱有量计算

由于人脸特征统计对摄像机安装角度要求较高, 且难以解决人员相互遮挡的问题, 因此利用人体特征识别统计场馆各出入口人流数量的应用, 在实际工作中主要采用人头特征检测。

人头特征检测有三种检测方法。

(1) 基于颜色分割的方法

此方法针对人头颜色特征进行图像分割, 算法简单, 准确性较低, 易受光线变化影响。

(2) 基于运动分割和边缘检测的方法

此方法通过在前景或边缘图像上搜索圆弧顶点来寻找人头, 结合标定信息对前景进行人头分割。其缺点是运行复杂, 不能处理遮挡。

(3) 基于样本训练的方法

此方法提取人头共有特征——颜色分布、边缘纹理等, 采集大量人头样本进行训练, 从而得到人头识别器 (识别器的训练方法有基于神经网络、Boosting以及SVM的方法等) ;用人头识别器在图像中搜索人头, 将人头目标检测出来后, 结合其他特征, 如运动、领域边缘分布等进行后期处理, 而后再除去一些误检, 最终得到较准确的结果。此方法是目前最常用的客流量统计方法。其优点是:受多人同时通过的影响较小, 适用于人流量大的公共场馆;可同时统计双向流量;在固定的出入口使用时, 能取得很高的统计准确率;可根据光照情况自动控制补光。

4.2 人脸识别

人脸识别涉及人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等一系列相关技术。

目前人脸识别有基于可见光、近红外与三维人脸的三种实现途径, 三者的采集手段和优缺点如表1所示。

红外光和三维识别技术都有专门的采集条件;对于大规模应用而言, 采用可见光人脸识别技术较为理想。

人脸识别之所以被普遍看好且已在不同领域 (如追逃、门禁以及重点部位、取款机的监控等) 运用, 主要是因为其具有自然性, 不易为被测个体察觉。

(1) 自然性

所谓自然性, 是指人脸识别所利用的生物特征同人类 (甚至其他生物) 进行个体识别时所利用的生物特征相同——人类可以通过人脸、语言、体形等进行识别 (指纹识别与虹膜识别等不具有自然性, 因为人类或者其他生物并不通过此类生物特征区别个体) , 人脸识别也是通过观察比较人脸来区分和确认身份的。

(2) 不被察觉

人脸识别不令人反感, 不容易引起被识别人的注意, 不容易被伪装欺骗;这与需要利用电子压力传感器采集指纹的指纹识别, 以及利用红外线采集虹膜图像的虹膜识别大有不同。

人脸识别被认为是生物特征识别领域, 甚至人工智能领域最困难的研究课题, 其主要困难来源于人脸的相识性和易变性。

(1) 相识性

就人脸而言, 人与人之间的区别不大——人脸的结构, 甚至各人脸器官的外形都很相似。此特点对于利用人脸进行定位是有利的, 但对于利用人脸区分人类个体是不利的。

(2) 易变性

人脸的外形很不稳定:人在做出不同表情时, 脸部的外形会出现变化;在不同的观察角度上, 人脸的视觉图像相差很大;光照条件 (如白天、夜晚、室内、室外等) 、人脸上的各种遮盖物 (如口罩、墨镜、头发、胡须等) 以及年龄等多方面因素都增加了人脸区分与识别的困难, 提高了产生误报的几率;如果人脸经过整型, 就更加难以识别了。

人脸识别需要有一个比较稳定的成像机制。图像中人脸的大小、光照、摄像机与人脸的角度等, 都要符合一定的要求。只有这些前提条件得到满足, 一个良好的人脸识别系统才有可能实现。

在光线较好的监控环境下, 如人脸姿态偏转保持在左右60度, 上下30度范围内, 人脸抓拍率可以达到95%左右。在人脸部区域的分辨率不低于120×120像素 (对于性能较强的系统, 此要求可降低至80×80像素) 的前提下, 人脸建模的成功率在65%左右 (建模时必须对抓拍到的人脸进行筛选, 建模成功后还应与黑名单中的图像进行比对、识别。成功率的高低与需比对识别的黑名单中存留的人脸图像清晰与否有直接的关系, 能达到60%已是较好的结果) 。

需说明的是, 人脸识别对成像角度、像素数、清晰度、无遮挡等的要求较高, 传统的监控摄像机一般不能满足人脸识别系统的成像要求。目前用于工程的人脸抓拍摄像机为高清摄像机, 可根据监控范围 (监控区域宽度) 选用100万像素高清、200万像素高清或500万像素高清摄像机。

5 结束语

智能视频分析正在蓬勃发展, 其扩展应用已深入到许多行业和领域。让我们共同期待着高成功率实战应用的不断涌现, 让刑侦技术更完备、更神奇!

视频分析 篇2

一、概述:

近年来,随着经济的不断深入发展,人民生活水平显著提高,乘坐飞机商务出行、旅游的人数屡创新高,使得机场的客流不断增加。在国内民航新建、迁建、扩建机场项目猛增的同时,也需同步配备相应的安防及智能视频分析系统,以满足民航机场安全管理要求和机场运营业务的高速发展。同时随着国内外恐怖事件的不断发生,也给传统的机场安防带来了严峻的考验,这实际上也为机场安防及智能视频分析系统的建设、升级和改造带来了契机。

由于机场监控设备数量庞大、监控对象日趋复杂,在传统的视频监控模式下,机场安保人员需要监视太多的视频画面,远远超出承受能力,导致实际监控效果降低。及时协助发现异常行为并进行处理、消除安全隐患、保证人身财产安全等,对机场安全管理工作具有极其重要的意义。机场视频智能分析技术,旨在利用当今最先进的人脸识别技术,加强对机场的智能监控,乘客运动轨迹查询,通过智能分析处理技术及时发现机场内部及周界的异常行为并自动报警,从而减轻监管工作人员的负担,提升工作效率,提高监测准确度,使机场管理工作更加有效。同时,结合机场安防预案,对突发事件实现快速响应,保障机场安全。

二、需求描述

XXXXXXXX机场是XXXXXXXXXXXXXXXX的国家门户枢纽机场,占地面积大,共有XX、XX、XX三个航站楼,总面积XX万平方米,货运库XX万平方米,停机位XXX个,值机柜台XX个,自助值机XX台,安检通道XX个,出港行李转盘XX个,进港行李转盘X个,可满足年旅客吞吐量XXXX万人次。因此会存在候机楼里乘客数量多,乘客误机,区域人员密度聚集以及机场周界过长管理起来比较困难等问题。为了机场更好的人性化、智能化管理,更优质的乘客服务,故利用目前比较先进的人脸识别技术、智能视频分析技术,形成大数据智能整合、分析,更好的解决以上的问题。

三、系统功能

1、候机楼人数统计

XXX机场旅客年吞吐量达到XXXX多万人次,三个航站楼,旅客数量非常大,为了保证机场管理人员能及时获得每个候机楼里的具体乘客人数,故通过智能视频分析技术在XX个安检通道进行进入候机楼的人数统计,然后在各个登机口进行出候机楼(登机)人数统计,从而得到比较准确的候机楼人数统计。

(1)、统计进入候机楼旅客数量

(2)、统计登机旅客数量

(3)、统计每个安检口的进入乘客数量(4)、统计每个登机口的登机乘客数量

(5)、大数据分析:通过对每个出入口的人流量统计从而以柱形图、波线图等更直观的 方式把数据进行展现,已达到用数据说明情况,用数据解决问题的效果。

2、密度聚集检测

对机场重点区域进行视频监控,并利用智能视频分析技术来对重点区域进行人员密度聚集检测、报警。

(1)、重点区域设臵:可利用现有的高清视频监控系统,在需要监测的重点区域进行自定义区域、时间段、密集程度报警值等设臵。

(2)、提前预警:密集程度有低、中、高、较高四种级别,建议报警值设臵在“中”级,这样就可以在事件发生前预警并通过调取该区域的实时视频监控对报警区域进行查看,根据实际情况做出相对应的处理。

3、智能周界

机场周界通过智能生物科技感应人体电流来判断是否有入侵物体,一旦报警就发送一个信号至智能视频分析系统,调动摄像头自动监控报警区域,并记录报警事件的一段视频资料。

(1)、接收周界设备发出的报警信号:一旦周界设备检测到有入侵事件,就向系统发送信号,系统对信号进行接收。

(2)、报警视频存储:系统接收到信号后,就自动调用摄像头对报警区域进行实时监测

和视频录像,并保存该事件发生前后的一段视频录像,便于后续取证和处理。

(3)、报警记录查询:系统会自动记录并保存所有的报警记录,可通过时间、地点等多种组合条件放进行查询。

4、VIP乘客管理

机场和航空公司为了给VIP乘客提供更优质和精细的服务,可利用人脸识别技术第一时间识别到乘客身份并及时通知相关工作人员,为VIP乘客提供相应的服务。

(1)、VIP乘客信息注册:各航空公司提供本公司的VIP乘客相关资料在系统中进行注册。

(2)、人脸识别:在机场安检口抓拍到一张清晰的人脸照片后,与各航空公司VIP客户事前注册的人脸信息进行对比,对比成功后把该信息推送至相关人员。

5、乘客运动轨迹及乘客搜索

由于机场候机楼乘客数量众多,登机口分布比较广,当需要对某些特定乘客进行查找,并确定其位臵时,可通过人脸识别技术、智能视频分析技术、大数据处理等对进入安检口后的乘客进行运动轨迹生成,从而及时有效的对该乘客的运动轨迹进行分析并做出有效的相应提示。

(1)、未登机人员查找: 在机场安检口登记进入候机楼的乘客信息,并抓拍一张清晰的人脸照片。进入候机楼后,候机楼中的所有符合人脸识别要求的摄像头一旦抓取到照片并比对成功后,就进行轨迹记录。后续通过输入未登机人员的身份信息就可迅速查找到此人的运动轨迹,在距离此人最近的区域进行广播,以提高机场寻找人员的效率。

(2)、人脸检索:在系统中输入待查询的人脸照片,系统自动检测出照片中的人脸信息,选择需要检索的人脸后进行相似度、时间段等参数设臵后开始检索,最后检索出的结果会在界面上显示出来。

(3)、记录查询:人脸系统查询包括黑名单报警查询和人脸抓拍查询,可以通过时间、通道等相关参数快速查询信息。黑名单报警查询可以查询某个时间段、某个通道的所有报警事件,并可查看报警详细信息;人脸抓拍查询则可查询某个时间段、某个通道的所有抓拍人脸事件,并可详细查看图片、具体抓拍时间点等信息。

四、总结

精品视频公开课程摄制实践分析 篇3

摘 要:开放教育资源的发展,推动了国内外公开课的发展。本文通过对几十门精品视频公开课的统计分析,并以重庆师范大学“幼儿文学与幼儿成长”公开课为例,从视音频的角度分析重庆师范大学公开课的拍摄与制作技术,为国内高校在精品视频公开课的拍摄与制作提供参考。

关键词:视频;公开课;实践;拍摄

中图分类号:G642 文献标识码:B 文章编号:1002-7661(2014)23-001-01

互联网和教育资源的发展,推动了国内外公开课的发展。2010 年初,“一股开放课热潮在中国蔓延开来。”[1]教育部、财政部实施的“高等学校本科教学质量与教学改革工程”中将立项建设1000门精品视频公开课”,[2]这对我国的高校来说既是机遇也是挑战,如何使中国的精品视频公开课变成学生追捧的对象,如何以此为契机,推动教育教学改革?这是我们在精品视频公开课建设中需要思考和努力的方向。本文在概述国内外高校视频公开课现状的基础上,以重庆师范大学为例,探讨我国高校精品视频公开课的拍摄与制作技术。

一、精品视频公开课程的涵义

公开课是指由学校组织教师在指定的拍摄环境下完成相关的教学任务。高等教育领域的视频公开课属于开放课程资源的一部分,是教师在指定的教学环境下授课,与真实的学生展开互动,用视频加字幕的形式如实记录完整的课程教学过程,并通过网络传播来满足学习者的需求。

二、国外研究现状

美国麻省理工学院是2001年率先实施MIT OCW( MIT Open Course Ware),准备用十年的时间将2000多门课程的资料制作成网络课件分享到互联网上,供全球学习者免费使用,麻省理工学院的这一工程,开启了知识公开与共享的发展方向,大大降低了资源获取的门槛。”[3]

三、国内精品视频公开课程建设现状和存在的问题

受MIT OCW 模式的启示,2011年,教育部采取政府主导、学校自主建设、专家和社会公众评价遴选等方式,制定了《精品视频公开课拍摄制作技术标准》。

现在,首批国家精品视频公开课程的103门课程已经全部上线,笔者通过对其中65门课程的拍摄与制作技术进行分析,总结出其中主要问题:(1)画面构图的唯美性;(2)图像色彩还原性;(3)音频信噪比。

下面以重庆师范大学的《幼儿文学与幼儿成长》课程拍摄与制作的相关流程为例介绍精品视频公开课程的拍摄与制作技术。

四、前期准备工作

前期主要工作是拍摄场地的选择与装修、拍摄设备的选取、现场灯光的布置。

1、拍摄场地的选取

根据教育部的《视频公开课拍摄制作技术标准》,录制场地选取可以为教室、礼堂、演播室等,且在50平米以上。我校在场地的选取上充分的考虑到了场地的大小、现场灯光对画面色彩的还原性、场地的吸音效果等因素,选择了演播室为录制现场

2、拍摄设备的选取

《视频公开课拍摄制作技术标准》明确要求:在录像设备上采用不低于专业级的拍摄设备。在重庆师范大学《幼儿文学与幼儿成长》的课程拍摄中,均采用了广播级的Sony Z1C,摄像机镜头的变焦倍数都是24倍以上的专业变焦镜头。在声音的录制上,采用了专业级的录音机和四只无线话筒,采样频率都为96KHz,量化位数为16bit。

3、现场灯光的布置

灯光主要由主光、辅助光和轮廓光源构成,灯光的照度都接近光布图。主光在前侧45°,主光的照度达到1200lux以上。主光与辅助光的光比不小于2:1。轮廓光与主光的光比一般在1:1或2:1左右,轮廓光的照度也在1100lux以上。

五、教师的准备工作

在拍摄前对于教师的要求是:在课程方面,必须熟悉整个课程的设计。

在拍摄过程中教师普通话标准,声音清晰;教师不宜大幅度频繁走动,须在一定的范围内走动;讲课PPT在制作时题目和内容采用较大号的黑色字体,文字和背景要对比明显。

六、前期拍摄工作

1、多机位进行同步拍摄

在整个拍摄过程中,采用了四台广播级的Sony Z1C进行拍摄,观察四台摄像机的拍摄动态以及图像构图色彩。在图像画面上,采用的是4:3的宽高比。根据现场的布局,1号机(主机)架在主讲教师的正前方;2号机(辅机1)主要用来拍摄主讲教师的中景;3号机(辅机2)主要拍摄开头和结尾处,以大全景为主,中间以中景为主与2号机形成互于的角度进行拍摄;4号机(游机)主要以近景、特写为主,兼顾中景和大全景。

2、现场声音的同步拾取

根据《视频公开课拍摄制作技术标准》中音频技术指标,我校是利用专业的744t录音机进行录制。声音拾取的话筒,教师采用移动的黑色微型无线话筒,学生使用3只手持式无线话筒。四路声音信号通过监控室的调音台进行混合,最终输入到两台录音机进行同步的录取。

七、后期制作和人员要求

后期制作人员在前期准备阶段,与摄像人员一起进行课程的熟悉并参与相关的教学活动,与授课教师进行沟通;在摄录阶段,全部亲临拍摄现场熟悉主讲教师的授课过程,并对现场发生的情况及时做好场记,为后期能够顺利的编辑做好准备。

后期制作设备我们使用了CPU加硬件构架的经典非编系统,在后期剪辑时对于断开点衔接的地方通过机位的切换来达到过度,在无法衔接的地方则采用学生画面或PPt画面进行覆盖,使整个片子的画面自然流畅。在音频的处理方面,利用Peremiere Pro CS5软件自带的EQ效果进行处理。

本文重点针对课程的拍摄与制作技术过程进行了分析,在实践中思考总结,提出相应的建议,为后续建设完善的精品课程提供借鉴经验。

参考文献:

[1] 张 权.谢晓霞.精品视频公开课建设中的思考与建议[J].时代教育.2012,9(5):142-143.

[2] 教育部.关于开展2012年度精品视频公开课推荐工作的通知.[eb\ol].http://gkk.zlgc.edu.cn/,2012.

智能视频分析概观 篇4

新技术、新产品的出现, 总是要以现实的需要、独特的功能为基础;而其为市场所认可、接受的过程, 却总是同自身缺陷的“斗争”、同市场需求的磨合伴随始终。智能视频分析, 也是如此。目前, 国内的智能视频分析技术与产品早已突破了诞生之初的种种困境, 几乎人人都不再对智能视频分析在视频监控领域的重要地位抱有怀疑。然而在近几年突飞猛进式的发展、相关企业如雨后春笋般的涌现背后, 却有着不容忽视的问题——产品的同质化、早期不成熟的宣传对用户的误导, 以及其技术或市场应用角度上的某些短板等等。

难道很多曾经很有发展潜力的技术, 最终却因未能克服自身的缺陷, 不适应市场需要而衰亡的阴影, 也在笼罩着智能视频分析吗?

所幸有许多有识之士已经意识到了这些问题的存在, 并开始尝试采用各种各样的方法来解决这些问题, 深入地思考智能视频分析技术及产品未来的发展方向。本期通过《智能视频分析概观》、《理性与务实——点评智能视频分析行业发展现状》、《智能视频分析技术的发展现状与趋势分析》三篇文章, 为读者介绍智能视频分析技术、产品、市场的概况, 以及现阶段存在的问题和解决之道。

1 智能视频分析发展状况及产品特点

视频监控系统根据视频源信号的不同, 可以分为纯模拟、模数混合、纯数字三种类型。从第一代的VCR, 到第二代的DVR, 再到第三代的NVR, 视频监控系统经历了三个阶段的发展演变。第二阶段的DVR也包含既可以接入本地模拟视频, 也可以接入数字视频的混合式DVR;第三阶段的NVR, 则以接入IPC网络摄像机为主, 同时也支持模拟摄像机加网络视频编码器的方式。在这一过程中, 视频监控系统在技术、方案和应用上均已经形成了比较完善的模式, 已经广泛应用于各个行业。

近年来, 在“平安城市”工程、技术和成本的改善, 以及奥运会、世博会、广州亚运会等的推动下, 中国视频监控市场快速发展, 网络化、个人化和智能化将是中国视频监控市场重要的发展趋势, 这也说明智能视频监控已经发展到了不可替代的阶段。作为未来监控发展方向的智能视频分析技术, 行业称之为第四代视频监控技术, 是视频监控技术一个里程碑式的创新, 是视频监控领域最前沿的应用模式之一。目前, 国外市场正大量涌出新生的智能视频监控系统, 而中国也慢慢出现了各类智能视频监控品牌, 掀开了中国智能视频监控发展的热潮。

智能视频分析产品从实现方式上区分主要有两种类型:一种是基于硬件的, 主要放置在前端, 与模拟摄像机一起使用, 也可以使用提供智能分析模块的芯片, 与前端的摄像机做成一体化产品, 直接传送报警事件、经过叠加和处理后的智能视频图像;另一种是纯软件的, 基于PC X86平台, 大都是在Windows/Linux操作系统下开发, 应用于后端平台管理系统中。目前在智能视频的应用中, 这两种类型产品的使用都比较广泛。

从国外智能视频的发展过程来看, 国外对智能分析功能的要求简单, 设置也简单, 比较适合前端智能应用模式 (比如博物馆物品被盗检测, 就是一种非常简单的智能应用) , 总体来说前端智能性能单一, 价格昂贵。国内智能分析应用就比较复杂, 国内的客户对前端功能要求较多, 设置繁琐;而嵌入式DSP在前端频繁设置是很困难的, 并且其内存缓存也小, 逐级缓存间交换数据需要很长时间优化, 因此不适合频繁设置参数的方式, 适合固化一种或几种固定算法的方式。所以国内应用比较适合后端模式, 因为基于X86的Windows/Linux平台在频繁设置上没有困难, 并且价格相对较低。因此, 从中国用户的需求来看, 前端智能应用起来困难, 后端实现方式比较灵活。

但是, 后端做智能分析同样存在一定的弊病。基于X86平台的智能分析服务器需要占用单独的机房空间, 而且在功耗、散热稳定性上也不如前端智能。解决这个问题有两个思路, 一是发展运算速度更快、成本更低、功耗更低的CPU处理芯片, 从而降低成本和功耗;一是基于嵌入式处理器做多功能的开发。后者并非没有可能, 目前一些专注于智能分析的公司正在多媒体处理系列芯片 (如Davinci6467、华为海思Hi3520等) 上面做多路智能的开发, 并且Intel正全力研发运算速度更快、成本更低、功耗更小的嵌入式微处理器, 如果这些微处理器研发成功并能在行业上大规模应用的话, 则基于嵌入式的后端智能分析将迎来更大的发展。总之, 前端智能和后端智能各有其应用场合, 但是随着嵌入式设备性能的提高, 成本的下降, 前端智能将得到更广阔的市场空间。

2 智能视频技术概述

智能视频技术源自对计算机视觉与人工智能的研究, 其发展目标是在图像与事件描述之间建立一种映射关系, 使计算机从纷繁的视频图像中分辩、识别出关键目标物体。这一研究应用于安防视频监控系统, 将能借助计算机强大的数据处理能力过滤掉图像中无用的或干扰信息, 自动分析、抽取视频源中的关键有用信息, 从而使传统监控系统中的摄像机成为人的眼睛, 使“智能视频分析”计算机成为人的大脑, 并具有更为“聪明”的学习思考方式。这一根本性的改变, 可极大地发挥与拓展视频监控系统的作用与能力, 使监控系统具有更高的智能, 大幅度节省资源与人员配置, 同时必将全面提升安全防范工作的效率。因此, 智能视频监控不仅仅是一种图像数字化监控分析技术, 而是代表着一种更为高端的数字视频网络监控应用。

智能视频分析包含视频诊断、视频分析和视频增强等, 它们各自又包含了大量的功能算法, 比如清晰度检测、视频干扰检测、亮度色度检测、PTZ (云台) 控制功能检测, 以及视频丢失、镜头遮挡、镜头喷涂、非正常抖动等检测都属于视频诊断, 而视频分析算法则包含区域入侵、绊线检测、遗留遗失检测、方向检测、人群计数、徘徊检测、流量统计、区域稠密度统计、人脸识别、车牌识别、烟火烟雾检测、自动PTZ跟踪等功能, 视频图像增强则包括稳像、去雾、去噪、全景拼接等算法。由此组合衍生出的算法种类又有很多, 应用方式也千变万化, 所以智能视频分析的应用范围很广。

3 视频诊断算法的特点及应用

随着平安城市工程在全国范围内的迅速推进, 视频监控系统的基础建设已经初具规模。视频监控系统的规模迅速扩大, 摄像头的数量也达到了几万个, 甚至几十万个之多。这么多摄像头的日常维护是一项非常艰巨的任务, 因而视频诊断应运而生, 担负起了大量摄像机的自动检测和诊断的工作。视频诊断可以对视频图像出现的噪声 (对图像起干扰作用的亮度分布称为图像噪声) 、雪花、模糊、偏色、亮度失衡、非正常抖动, 以及云台控制故障、恶意遮挡摄像头做出准确判断并发出报警信息。在视频摄像头日益增多的今天, 视频诊断的应用有利于帮助用户快速掌控前端设备运行情况, 轻松维护大型的视频监控系统。下面对视频诊断所包含的主要内容的原理、功能和应用逐一进行介绍。

(1) 清晰度检测

自动检测视频中由于聚焦不当、镜头损坏或异物遮蔽引起的视野主体部分的图像模糊;自动检测镜头对准无意义物体的情况。该功能对实时视频的画面清晰程度和信息含量做出评价, 从而及时发现故障 (如偶然的异物遮挡、人为的遮蔽等) 。“骤变”作为此功能在周界防范技术领域的应用延伸, 目前已得到人们普遍的认可。

(2) 视频噪声检测

自动检测视频图像中图像模糊、扭曲、雪花或滚屏等噪声现象, 主要的监测对象是由于线路老化、传输故障、接触不良或受到电磁干扰而在视频画面上出现的点状、刺状、带状的干扰。在视频质量诊断系统中, 呈带状、网状的、周期性的干扰一般交由“雪花”检测项监测;而点状、刺状的随机干扰则交由“噪声”检测项监测, 从而提高诊断的准确性。

(3) 锐度检测

检测由于聚焦不当、镜头损坏或灰尘引起的视野主体部分的图像模糊, 或者镜头对准无意义物体 (白墙等) 的情况。

(4) 亮度异常检测

自动检测视频中由于摄像头故障、增益控制紊乱、照明条件异常或人为恶意遮挡等原因引起的画面过暗、过亮或黑屏现象。该功能对视频的明暗程度进行诊断, 由于可在不同时段改变诊断计划和监测阈值, 在昼夜都能发挥作用。

(5) 偏色检测

自动检测由于线路接触不良、外部干扰、AWB失效或摄像头故障等原因造成的画面偏色现象, 主要包括全屏单一偏色或多种颜色混杂的带状偏色。该功能对视频的颜色信息进行分析, 其特点是当视频中出现丰富色彩时, 能够区分它们是由自然场景带来的, 还是由于摄像头自身故障产生的。

(6) PTZ (云台) 控制功能诊断

自动检测前端云台和镜头是否能够按用户指令正确运动, 如有无左转失灵、上下倒序等故障。该功能能够自动对PTZ的各指令进行测试, 使管理人员准确及时地掌握系统内PTZ的运行情况。不过, 此功能需要系统拥有控制前端PTZ的权限。

(7) 视频冻结检测

自动检测由于视频传输调度系统故障引起的视频画面冻结现象, 可避免错失真实的现场视频图像。

(8) 视频抖动检测

检测因摄像头长期在室外工作, 固定支架松动造成的图像受到严重干扰, 画面抖动的情况。

(9) 人为遮挡画面

检测因摄像头长期在室外工作引起的灰尘遮挡的情况, 检测人为恶意遮挡或图像被替换的情况 (可以进行报警) 。

(10) 视频缺失检测

自动检测因前端云台、摄像机工作异常、损坏、遭人为恶意破坏, 或是视频传输环节故障而引起的间发性或持续性的视频缺失现象 (当视频丢失时, 一般采取人工补假图的方法来处理) 。

4 智能视频分析算法特点及应用

视频分析方法主要有背景模型法和时间差分法两类。背景模型法是利用当前图像和背景图像的差分 (SAD) 来检测出运动区域, 可以提供比较完整的运动目标特征数据, 精确度和灵敏度比较高, 具有良好的性能表现。背景的建模和自适应是背景模型法的关键, 一般在系统设置时期设置系统自适应学习时间来建模, 根据背景实际“热闹程度”选取3~5分钟的学习时间。系统建模完成后, 随着时间的变化, 背景会有相应的改变, 而系统具有“背景维护”能力, 可以将一些后来融入背景的图像, 如云等自动加为背景。时间差分法就是高级的VMD, 又称相邻帧差法, 即利用视频图像特征, 从连续得到的视频流中提取所需要的动态目标信息。时间差分法的实质就是将相邻帧图像相减来提取前景目标移动的信息。此方法不能完全提取所有相关特征像素点, 只能检测出目标的边缘, 在其提取的运动实体内部可能出现空洞。

视频分析的过程 (背景模型法) 是:首先, 系统进行背景学习, 学习时间因背景热闹程度不同而有所不同, 期间系统自动建立背景模型;之后, 系统进入“分析”状态, 如果前景出现移动物体, 且处在设置的范围区域内、大小满足设置, 系统将会对该目标进行提取和跟踪, 并根据预设的算法 (入侵、遗留、盗窃等) 触发报警 (期间如果背景中出现雨雪、中云、波浪、摇摆的柳树等物体, 或发生摄像机抖动的情况, 系统将启动预处理功能来加以过滤) 。在触发报警之前, 系统能够进行目标识别, 即将提取的目标与已经建立的模型进行比对, 并选择最佳的匹配。

下面以北京东方网力科技有限公司的智能分析算法为例, 介绍智能视频分析算法的具体应用。

北京东方网力科技有限公司的智能分析算法主要由核心基本智能分析算法模块和特殊应用领域的智能分析算法构成。核心基本智能分析算法模块共有7种, 分别为区域入侵监测、绊线检测、遗失检测、遗留检测、方向检测、徘徊检测、人群流量统计 (计数) 。这些智能应用可以不受行业和领域的限制, 在任意项目上通用。特殊应用领域的智能分析算法则以插件的方式, 针对不用行业领域定制开发, 并采用组合的方式, 灵活应对不同项目的需求。这些特殊应用领域的智能分析算法共有8种, 分别为对象识别 (人、车辆和物区分) 与轨迹识别、PTZ动态跟踪、人脸识别、车牌识别、图像增强 (水雾、雨雾、烟雾、沙尘或干扰过滤) 、图像稳像 (防震动、抖动、晃动) 、数字全景拼接和烟火监测。

(1) 区域入侵监测

识别出目标沿一定轨迹进入/离开标定区域的事件、目标在标定区域内的出现或消失, 以及目标在标定区域内存在与否。

(2) 绊线检测

识别出单方向、双方向穿越警戒线的行为;识别出逆行、转向等行为;识别物体运行方向, 对逆行等行为进行报警。

(3) 物体遗失检测

在指定区域内的物品被偷盗、搬移、取走时发出声光报警信息。

(4) 物体遗留检测

识别出在标定区域内出现的, 遗留、遗弃的单件、多件物品, 可设定遗留报警时间。

(5) 方向检测

识别物体运行方向, 对逆行等行为进行报警。

(6) 徘徊检测

识别出人员或车辆在标定区域内长时间徘徊与滞留的可疑情况, 可设定徘徊报警的时间和人数。

(7) 人群流量统计 (计数)

单向、双向累计人流统计, 包含人群稠密度检测。

(8) 对象识别 (人、车辆和物区分) 与轨迹识别

对视场内的人员、车辆、物品、动物等目标进行分类判别, 对视场内已识别目标的行动轨迹、速度、方向、距离进行跟踪。

(9) PTZ动态跟踪

通过智能视觉技术锁定目标后 (支持自动、手动、接力三种锁定模式) , 自动控制PTZ摄像机的云台旋转以跟踪目标, 确保可疑目标的放大画面特写始终保持在视频画面中央, 并在目标离开视场后自动回到预置位。其开发难点是出现目标交叉、被遮挡等干扰后如何识别并成功地继续跟踪。

(10) 人脸识别

根据人的脸部特征进行采集和抓拍, 并能进行比对分析, 在发现可疑人员时给予报警提示。

(11) 车牌识别

能够做到自动记录并分析判断车辆的身份, 对于有不良身份记录的车辆进行提前预警。

(12) 图像增强

改善雾、雨、雪环境下的视频效果, 提高画面的能见度。

(13) 图像稳像

消除位于铁路边、公路边的摄像机所拍摄图像的震动、抖动、晃动。

(14) 数字全景拼接

对监控系统获得的多个相关联的分散场景画面进行无缝拼接, 在不降低视频帧率的情况下实现全景监控。

(15) 烟火监测

能够自动监测防区内突发的火情, 发出报警并触发其他动作。

5 智能视频分析系统设计架构及典型应用

接下来以北京东方网力科技有限公司的智能视频分析系统为例, 介绍智能视频分析系统的设计架构与典型应用。

北京东方网力科技有限公司的智能视频分析系统可分为三部分, 即配置管理中心服务器、智能分析服务器和数据中心。配置管理中心服务器是对多个分析服务器进行集中式管理的, 独立的管理软件系统, 用来管理摄像机, 摄像机的规则配置, 各分析服务器的状态查询、监控、任务分配和负载均衡等。智能分析服务器基于智能算法, 通过网络从视频监控平台获取实时视频和回放视频流, 然后进行智能分析处理。它可以对分析结果进行存储, 也可以将结果通过网络发送到指定的数据库系统。数据中心用于存储智能分析的结果, 可使用多种文件系统或数据库来存储, 同时提供数据的查询功能。系统架构如图1所示。

北京东方网力科技有限公司的智能分析产品在无锡惠山区社会治安监控项目中得到了成功应用, 构建了智能抽减帧分析系统。该系统在物理上有派出所和分局两级结构, 在派出所配有智能分析服务器及Web访问客户端, 在分局配有智能分析管理服务器、存储服务器、Web访问客户端及管理客户端 (如图2所示) 。智能分析服务器负责从派出所本地的NVR及DVR上获取视频录像, 将录像的码流解码成YUV原始视频流, 使用用户设定的智能分析算法对YUV图像进行智能分析, 将分析后的图片数据上传给分局存储设备, 将智能分析的结果输出至分局数据库 (智能分析管理服务器) 。

从图2中可以看出, 将智能分析服务器放置在各派出所可使其在获取视频录像时, 只需从本地的NVR或DVR中调用即可, 不需要占用派出所至分局的网络资源, 同时可以有效地规避网络带来的不稳定因素, 降低系统误报率。

5.1 系统工作流程

系统工作流程如图3所示。

5.1.1 视频录像获取

该系统进行智能分析的视频源是存储在NVR中的高清图像和存储在DVR中的标清图像。部署在派出所的智能分析服务器直接从本地派出所的NVR中获取到高清视频录像, 从DVR中获取到标清视频录像, 然后按照智能分析规则进行智能分析。

5.1.2 视频智能分析

智能分析服务器在获取到视频录像后, 将录像的码流解码成YUV原始视频流, 使用用户设定的智能分析算法对YUV图像进行智能分析。具体的智能分析功能包括车牌识别、运动目标检测、虚拟墙和区域警戒功能。

(1) 车牌识别功能

车牌识别要求摄像机正对道路, 偏移角度不宜太大;道路的宽度应控制在3.6m以内;视频录像中车牌的大小为图像宽度的1/6~1/4, 横向像素在100~150像素左右。

(1) 视频触发车辆抓拍

智能分析服务器采用目前已经非常成熟的视频车辆检测的方法来检测车辆。当视频录像中有车辆经过设定区域时, 系统自动捕获一幅经过车辆的图像 (图像中车辆的颜色、特征和车牌的号码、颜色可以用肉眼清楚地分辨) , 白天能清晰识别车辆牌照及整个车身的特征情况, 晚上能克服迎头拍摄时车辆的前大灯眩光问题看清车牌。

(2) 自动车牌识别

视频分析服务器对捕获的图片进行智能分析, 可以获得车牌号码、车辆经过的时间和地点等信息;所保存的图像为24位真彩色图像, 采用JPEG压缩格式;采用循环覆盖方式保存图像;车牌号码为系统自动识别的结果, 所有车辆的信息, 包括图像路径均保存在XML文件中, 以保证能够与其他应用系统实现联动与对接。

(3) 黑名单车辆报警记录

对于肇事逃逸、未年检、报废、有违规记录的车辆进行实时报警, 并且可以单独录制该车辆经过卡口前后的视频流, 可以根据车牌号码进行车辆行驶历史记录查询, 给出其轨迹信息。

(2) 运动目标检测功能

智能分析服务器对视频区域内出现的车辆 (包括机动车和摩托车等) 和行人等目标进行检测, 并定位抓拍图像, 对目标进行颜色和大小等的分类识别。

为了保证运动目标检测的准确性, 用于视频分析的录像需符合下列要求:

◆环境照度不低于100Lux, 背景前景环境光照度差不高于150Lux;

◆运动目标大于40×40个像素。

(3) 虚拟墙和区域警戒功能

智能分析服务器对翻越围栏、进入禁区等事件进行报警。此功能一般应用于重要的视频监控点位, 目前主要包括周界安防、运动目标轨迹指示等功能, 具体内容如下:

◆对设防区域设定周界, 检测试图闯入的行为, 提供报警信息;

◆对进入划定区域内的物体进行目标跟踪, 标识其运动轨迹。

为了保证智能分析的准确性, 用于智能分析的录像需符合下列要求:

◆环境照度不低于100Lux;

◆监控目标大于40个像素;

◆监控目标在摄像机视场清晰可见, 不存在明显的遮挡, 其成像应尽量避免受到逆光和灯光直射等的干扰;

◆目标在监控场景中至少存在2~3秒。

5.1.3 数据存储

在分局配置存储设备用来存储智能分析服务器上传的图片数据, 图片分析的结果存储在智能分析管理服务器中。

在实际应用中, 标清图像如果是CIF分辨率, 单张图片的大小是20K, 如果是D1分辨率, 单张图片的大小是40~50K。高清图像采用1600×1200分辨率, 单张图片的大小是200K。

根据存储需求在分局配置大容量存储服务器来完成海量图片的长时间存储, 具体容量根据用户的实际使用情况确定。

5.1.4 用户检索

用户在Web访问客户端上通过IE浏览器访问智能分析管理服务器, 搜索、查看录像视频、图片等信息。比如, 用户输入时间及车牌号码, 可以查出当时相应车辆的图片信息及视频录像。

另外, 派出所用户可以通过Web访问客户端手动修订图片识别信息, 比如对系统不能识别的图片, 用户可以进行人工识别并手动添加识别结果。

5.2 主要设备介绍

本系统主要由智能分析服务器、智能分析管理服务器、存储设备、Web访问客户端、管理客户端等设备组成。

(1) 智能分析服务器

智能分析服务器主要负责智能视频分析算法的运行等任务, 其硬件为标准服务器。智能分析服务器只需通过网络接入需要分析的视频码流, 根据设置的规则和任务运行智能视频分析算法, 将视频中有价值的图片单独打标签保存, 从而完成智能抽帧减帧的功能, 并把报警记录图片统一上传到存储设备中, 把分析结果上传到智能分析管理服务器中。

单台智能分析服务器在IBM3650的硬件支持下, 可以实现16路CIF分辨率或10路D1分辨率, 又或是4路高清1600×1200分辨率的视频录像分析。

(2) 智能视频分析管理服务器

智能分析管理服务器是整个系统的核心, 运行着智能分析管理软件、数据库软件及Web服务, 主要完成用户登录管理、报警信号管理、事件图片的搜索管理、系统工作时间设置管理、报警联动管理等, 主要功能如下:

◆借助配置的数据库存储各个智能分析服务器上传的图片和管理客户端设置的报警规则;

◆实时将所检测到的报警事件转发给客户端;

◆支持对报警事件Web方式快速联网数据库的智能检索、查询, 如根据关键线索快速搜索相关视频、图片信息;

◆进行矩阵、报警终端的联动等;

◆系统用户权限、时间同步设置, 设备工作状态管理, 软件授权认证管理。

(3) 管理客户端

用户通过管理客户端设置报警规则、报警任务, 调节精度等相关参数。管理客户端实时显示报警信息, 并支持用户对报警实时视频的浏览和对事件的分布式快速检索、比对、查询。

(4) Web访问客户端

用户可以在Web访问客户端上通过IE浏览器访问报警记录, 搜索、查看录像视频、图片等信息。另外, 用户可以通过Web访问客户端手动修订图片识别信息, 比如对系统不能识别的图片, 用户可以进行人工识别并手动添加识别结果。

摘要:本文通过对智能视频架构、各种算法及其在不同场景中应用的分析, 系统地阐明了智能视频技术的应用特点和应用前景, 并结合北京东方网力科技有限公司的视频管理平台软件, 提出了基于视频分析技术和视频管理软件一体化的解决方案。

视频播放器设计分析 篇5

由于计算机的普及,极大地改变了人们的生活。随之带来了开发各种软件的需 求。家用型计算机主要用于家用软件、学习软件、游戏软件和多媒体和多媒体软件,以及播放CD、VCD、DVD、MP3等多媒体信息。然而多媒体播放器的开发仍然不能满足人们的需求,多媒体文件格式多样,但却没有一款播放器能够满足所有格式的解码。人们渴望解码能力更强大,功能更完备的多媒体播放器。

“多媒体”是一种新型的信息处理与传播技术。有人认为它是信息及其传输媒介方面的一场根本革命。人们对新技术的渴望和欢迎、新奇感和占有欲、宣传热情和赞美态度,是发自内心的。特别是计算机多媒体技术的功能,令人大开眼界,惊叹不已。它在商业、信息检索、文化娱乐和教育等方面的应用效果明显,前景广阔。

由多媒体播放器的开发现状看来,并没有哪一款播放器能适应所有多媒体文件的解读,随着视频、音频的迅猛发展,媒体文件的格式层出不穷,由过往美国在线(AOL)公司的Nullsoft部门开发的Winamp独占鳌头,到Real Networks公司的Real Player和微软公司的Windows Media Player风靡全球,再到如今播放器开发的百花齐放的竞争时代,多媒体播放器的开发经历了许多风浪和变化,但是,仍然没有出现全能的播放器,始终没有跨越编码格式的局限,随着多媒体技术的不断发展,人们对多媒体软件的要求也不断高涨,所以对多媒体软件的开发也成为当今计算机开发的重要课题。目前的音频、视频格式繁多,研制格式覆盖面广的多媒体播放器前景非常广泛。

随着计算机、家电、通信等技术的不断发展,多媒体技术有着广泛的开发前景,尤其是多媒体播放器的开发,开发格式覆盖面更广,兼容性更好,功能更完备的播放器势在必行。本文主要采用C++ Builder2009作为开发工具,设计并实现一个多媒体播放器。可播放MP3,AVI,WMV,WMA,RM,RMVB,SWF等多种格式的多媒体文件,并且能够控制播放,暂停,停止,快进,后退,音量控制的调节,选择上一曲,选择下一曲,图像的显示,文件的计时,列表文件的添减操作等多种播放控制功能,界面简明,操作简单。系统总体设计

2.1DirectShow概述

DirectShow是一种通过自定义或内置的大量的Filter(过滤器)来处理多媒体数据的体系结构。这些Filter大致分三类:Source Filter(源过滤器)、Transform Filter(转换过滤器)、Render Filter(呈现过滤器)。源过滤器主要负责获取数据,数据源可以是文件、网络、计算机采集卡或数字摄像机里的,然后数据向下传输到Transform Filter,它主要负责数据的格式转换,然后继续向下传输到Render Filter,它主要负责数据的最终去向,将数据送给显卡声卡进行播放或输出变成文件存储起来,见图2-1。

应用程序命令DirectShow过滤器图表管理器Filters Graph Manager应用程序源过滤器SourceFilters转换过滤器TransformFilters呈现过滤器RenderFilters应用程序事件音视频采集设备各种软硬件解码器声卡显卡

图2-1 DirectShow开发应用程序原理图

过滤器Filter是建立在COM技术基础上的,每个Filter本身就是一个COM组件,各个Filter集合组成过滤器图(Filter.Graph),DirectShow提供Filter Graph Manager组件来管理整个过滤器图,比如Filter间的连接和数据流动。Filter之间通过Pin(针脚)连接。

更多感性认识DirectShow,可以DirectX SDK中的自带的实用的程序GraphEdit,位于安装目录BinDXUtilsgraphedt.exe。GraphEdit是构造Filter Graph Manager的可视化工具,在GraphEdit中可以很方便地设计出过滤器图,并验证其可行性。比如:播放一个典型的Demo1.mpg文件(将文件拖动到GraphEdit窗口)所自动构建的Filter Graph。见图2-2。

MPEG Audio DecoderDemo.mpgMPEG-1 Stream SplitterMPEG Video DecoderVideo RendererDefault DirectSound Device图2-2 MPEG文件播放的Filter Graph 如图2所示,箭头方向即是数据的流动,可以看到:MPEG-1 Stream Splitter属于Source Filters,负责接收源文件数据;MPEG Audio Decoder、MPEG Video Decoder属于Transform Filters;分别负责视频、音频的解码;Default DirectSound Device、Video Renderer属于Render Filters,分别负责对视频显示和音频播放。执行菜单Graph->Play,可以看到播放的影音文件。在Graph->Insert Filters可以看到DirectShow提供的大量的支持基本应用的Filter。2.2软件的总体架构

AVI视频RMVB视频 视频指针解码主界面用户 图2-3 软件架构

2.3 详细设计与实现

下面在C++ Builder中,利用DirectShow技术设计媒体播放器,介绍了DirectShow程序的一般编写方法。以两种方法实现:一种是直接用DirectX SDK;另一种是用基于DirectShow技术的第三方控件包DsPack。

2.3.1 直接用Direct X SDK中的DirectShow技术的媒体播放器。

用DirectShow编写播放器,可以说主要包括三步: ①创建一个Filter Graph Manager组件。

②根据实际的应用,创建一条完整的链路。比如播放一个本地文件:m_FilterGraph->RenderFile(“Demo1.mpg”,NULL);

③调用Filter Graph Manager(或某个Filter)上的各个接口方法进行控制。并完成Filter Gramph Manager与应用程序的事件交互。比如IMediaControl接口方法Run()、Stop()来控制媒体的播放与停止。

在本实例中,第一步创建一个Filter Graph Manager组件,由自定义的封装类CDXGraph来完成,它的实现文件是CDXGraph.cpp和CDXGraph.h。第二三步要实现与CDXGraph之问的事件交互。由主窗口MainForm(MainUnit.cpp和MainUnit.h)完成。

该程序部分主要代码如下:

//定义基本接口。IGraphBuilder是最重要的接口,用于构造Filter graph;IMediaControl播放控制接口,控制播放、停止、暂停等;IMediaEventEx:应用程序通过此接口获得播放过程中发生的事件,如播放完毕等。IBasicVideo、IBasicAudio分别是图像和声音控制接口;IVideoWindow视频窗口控制接口;IMediaSeeking用于媒体数据流的定位,提供对播放的精确控制,如获得当前播放位置等。

IGraphBuilder *mGraph;

IMediaControl *mMediaControl; IMediaEVentEx *mEvent;

IBasicVideo *mBasicVideo; IBasicAudio *mBasicAudio; IVideoWindow *mVideoWindow; IMediaSeeking *mSeeking;

//用API函数初始化COM组件库CoInitialize(NULL);

//创建Filter graph对象,得到IGraphBuilder接口的接口指针mGrph HRESULT hr=CoCreateInstance(CLSID_FilteGraph,NULL,CLSCTX_INPROC_SERVER,IID_IGraphBuilder,(void * *)&mGraph);

//用QueryInterface()函数获取接口指针

hr = mGraph-> QueryInterface(IID_IMediaControl,(void * *)&mMediaControl);

hr = mGraph-> QueryInterface(IID_IMediaEventEx,(void * *)&mEvent);

hr = mGraph-> QueryInterface(IID_IBasicVideo,(void * *)&mBasicVideo);

hr = mGraph-> QueryInterface(IID_IBasicAudio,(void * *)&mBasicAudio);

hr = mGraph-> QueryInterface(IID_Ⅳideowindow,(void * *)&mVideowindow);

hf = mGraph-> QueryInterface(IID_lMediaSeeking,(void * *)&mseeking);

//连接输入输出Pin针脚,连接各个Filter hr=mGraph-> ConnectDirect(inOutputPin,inInputPin,inMediaTyp); //IGraphBuilder接口的方法RenderFile来连接给定的媒体文件,完成Filter Graph的构建。

m_FilterGraph-> RenderFile(m_SourceFile.c_str()); //设置视频窗口并设置消息通知窗口

m_FilteGraph-> SetDisplaywindow(Panell->Handle); m_FilteGraph-> SetNotifyWindow(this->Handle); //开始播放

m_FilteGraph->Run(); „„

//关闭COM组件库,释放资源 CoUtlinitialize();

2.3.2 基于DirectShow技术的第三方控件包DSPack的媒体播放器

Dspack2.34是C++ Builder中用于做DirectShow开发的免费VCL控件。下载地址:http:///。DSPack的安装可以参考相关文档。

图2-4组件面板上的DSPack2.34 Dspack2.34中有七个组件:FilterGraph、VideoWindow、SampleGrabber、Filter、ASFWriter、DSTrackBar、DSVideoWindowEx2。见图5-1。

FilterGraph组件基本对应于DirectShow中的Filter Graph Manager,Filter Graph的创建和控制由它完成。Filter组件可以充当DirectShow中的各种Filter,VideoWindow组件相当于是一个RenderingFilter,用来显示采集到的视频图像。其它各组件的详细说明可以参照DSPack安装目录下的帮助文档help.chm[2-3]。

程序由一个主窗体MainForm组成。MainForm窗体上放置FilterGraph组件,属性Name命名为FilterGraph,Mode属性为gmNormal;放置VideoWindow组件,FilterGraph属性设置为FilterGraph;放置DSTrackBar组件,用于显示播放进度;其它放置0penDialog、MainMenu、四个Button组件,Caption分别设置为打开、播放、暂停、停止。

MainForm中主要代码如下:

Buttonl的0nclick事件添加如下代码: if(0penDialog-> Execute())|FilterGraph-> Active = TRUE;//初始化各个Filter,并建立FilterGraph FilterGraph-> RenderFile(OpenDialog->FileNalm);

//播放文件名给FilterGraph

} Button2的OnClick事件添加如下代码:

FilterGraph-> Play(); //控制FilterGraph的播放 Button3、Button4的0nclick事件分别添加如下代码: FilterGraph-> Paus(); //播放暂停 FilterGraph-> Stop(); //播放停止 VideoWindw的OnDblClick双击事件添加代码:

VideoWindow-> FullScreen =!VideoWindow->FullScreen;//全屏播放 MainForm的OnCloseQuery事件添加如下代码:

FiherGraph-> Active = FALsE;//释放各个Filter 本程序开发环境WindowsXP + DirectX9.O + DSPack2.34。本程序编译后成功运行。测试与维护

3.1 创建和测试应用程序

为了确保本系统能够正常运行,需要在开发完成之后做一次较全面的测试。现将具体操作及过程举例说明如下:

创建和测试应用程序应是交替进行的,既要注意开发的效率也要注意它的稳定性。每编写一个模块,就要对这个模块进行测试,看它能否根据特定的要求工作。及早发现问题,及早解决,否则到最后再来测试的话,难度会大大增加。3.2 程序改进

本软件没有考虑到删除播放列表中文件在ListBox中的索引号小于当前值的时候,删除之后不能把光标移动到当前播放文件。

本软件没有提供解码更新,这是本软件以后要着重改的地方。3.3测试方法

一般来说,对程序测试有两种测试方法:如果已经知道了软件系统应具有的功能,可通过测试来对每个功能是否都能正常使用;如果知道程序的内部工作过程,可以通过测试来检测程序内部是否按照规格说明书的规定正常进行。前一种方法称为黑盒测试,后一种方法称为白盒子测试。黑盒测试又称为功能测试,白盒子测试又称为结构测试。[4] 本系统采用黑盒测试,以下以播放WMV文件为例子。界面如下: 总结

基于两种不同方法实现媒体播放器程序时的代码比较,我们采用了C++ Bui-ldel2009 + Direct X SDK9.O + DSPack2.34编写该播放器。因为用c++ Buildel2009 + Directx SDK9.0编写时,代码行约为400行,并需要深入的DirectShow和COM组件知识;而采用C++ Buildel2009 + Direct X SDK9.O + DSPack2.34编写时,代码行约为20行,仅需要少量的DirectShow和COM知识。根据比较用第二种方法实现Dir-ectShow程序时,所需要知识少,开发程序快速高效。目前DirectShow广泛应用于开发多媒体程序。

在该软件的制作实现过程中,给人最大的启发的一点是系统架构和设计模式非常重要。代码的组织都是非常重要的,因为这关系到日后的维护以及扩展。编写代码更加有条理,更加符合软件工程的标准,这才是最重要的。

刚接触视频播放器编程的时候,我们认为其中最重要的是解码算法。但是头几天编写程序的时候却发现程序越写越不容易维护,可见是我们走错了方向。后来我们向老师讨教,他告诉我们:“我们的先人早已为我们准备好了各种精良可用的现成算法,我们所要做的就是直接“拿来主义”罢了;但是对于代码的组织(也就是软件的架构)才是真正软件工业的核心部分,因为软件事实上是直接和经济挂钩的,因此我们必须在编写代码之前选择一种最为合适的方法来组织这些代码,否则我们将会失去更多的时间和金钱。”。

无线视频编码技术的发展分析 篇6

关键词:无线视频;编码技术;发展

中图分类号:TN919.81 文献标识码:A 文章编号:1674-7712 (2014) 04-0000-01

随着现代信息技术的不断发展,我国与移动相关的一些技术都取得了突出的成绩。尤其是在网络技术不断发展的影响下,将信息技术与网络技术有机的融合已经成为技术发展必然的趋势。就目前而言,信息技术与网络技术结合的产物已经在现实生活中被广泛的应用,通过移动终端作为媒介可以更加高效便捷的为用户提供更多优质的服务。除此之外,3G以及4G业务也在进行着蓬勃的发展,其通过对于无线技术的应用将视频进行有效的传输,这对于无线视频传输编码技术的发展以及推广都有着重要的帮助作用。

一、无线视频传输编码技术发展现状

(一)服务质量难以保障。对于无线视频编码技术而言实效性是其发展的主要的基础之一,只有保障视频播放的快速与及时才能有效的满足人们对无线技术的需要。因此在对无线视频编码技术进行发展的过程中,提高无线网络传输的速度是关键。但是就目前无线视频编码技术的发展来看其仍在传播速度上存在着一定的缺陷,造成用户在使用过程中的障碍,很容易造成用户对无线技术的失望。而造成这一现象的原因主要就是目前无线视频播放技术中缺乏可靠的服务质量。

(二)无线技术应用过程中的不稳定性。网络技术的发展速度随着科技的不断革新而不断加快,但是就目前来看,虽然现代网络技术与传统的网络技术已经有了很大的区别,在网络宽带推广后其信息传播的速度也得到了进一步的提高,但是其仍难以满足人们对无线技术服务的需要。在实际的应用过程中无线信号在传输的过程经常会出现严重的不稳定性,造成传输的延误,影响传输的质量。

(三)用户的差异性。无线视频传播技术服务的人群相对比较广泛,可以为社会中不同阶层不同群体的人提供多样性的服务。因此无线视频传播技术的应用人群凸显了一定的差异性,这些差异性对于无线视频传播技术的应用有着一定的反作用,需要其针对不同用户群的需要,进行有针对性的调整。例如,在实际的生活中,由于受到工作,生活条件等方面的限制,不同的人群其上网工具也有所不同,针对笔记本,台式机,手机等上网工具,无线视频传输技术也要有所调整。同时,为了保证无线信道在时变、宽带信号和误码率极高的状态喜爱进行海量信息的传输应该做好以下几方面的工作:首先,保证传输系统具有极高的压缩能力。其次,保证系统具有较强的误码容忍能力。

二、无线视频的编码技术应用

(一)描述编码的多样性。描述编码是无线视频传播技术应用过程中不可缺少的条件之一,这些描述编码在实际的应用过程中具有一定的多样性,首先来讲其描述编码的数量大,信息量丰富,一般而言一个视频就可以产生多条描述编码,这些描述编码通过无线技术的应用,进行有效的传播并且进行进一步的分流与处理。值得注意的是对描述编码进行处理与视频质量的好坏有着密切的关系,因此有效的处理好描述编码,提高描述编码传输过程中的正确率对无线视频传播技术至关重要。这也就意味着编码方案的效率仍然需要进行有效的提高。具体而言,对于误码率很高的环境单方面的描述方案应该具有较强的纠错机制,所以系统的出错几率就大大降低。对于网络宽带有限的无线网络来说,多描述编码会降低网络的传输效率。

(二)容错性编码。容错性编码的主要目的就是通过设计编码来压缩编码流从而提高系统的容错能力。如果系统中的网络容易发生误码则编码结构就应该相应的提高。根据我国现有的相关规定,实际中进行应用的各类容错编码在结构上都存在着一定的共通性,具有系统预测误差的能力。系统中预测模块就会对信息变换的预测残差进行精确的编码,这样的编码结构对传输中的误差比较敏感如果某个环节出现差错不仅会牺牲系统中编码的同步性,还会造成误码扩散。现有的编码系统充分考虑了视频传输中的鲁莽性,可以进行同步标记、可逆变长编码,之所以进行这样的处理,其主要是为了对现有无线通信技术以及网络技术进行有效的编码管理以及促进容错编码的发展,对视频的高效播放提高有利的保障。于此同时,在描述编码传输过程中,出现的一些失误问题也可以得到一定的缓解,使其可以重新发挥出作用。因为对描述编码进行重传不仅可以反馈信道而且能够弥补视频传输中的不足。

(三)编码的可扩展性。编码在进行无线传输的过程中具有可扩展性,这种可扩展性一般体现在无线网络、因特网的环境中进行视频传输。可进行扩展的编码在进行视频传输的过程中肩负着重要的任务,其可以有效的对视频进行整理分流,让视频中的各项信息进行有效的传播,并通过一系列的特殊处理,让视频在播放效果,以及传播速度等方面都得到相应的提升。

编码在进行扩展的过程中基本上是以层为基本,通过自调功能的应用,突出其自身的扩展性,这是其与其他编码的不同之处。可以接收一个活多个分层,从而将系统的视频信号恢复到高水平的状态。系统可以满足不同处理能力的客户需求。可扩展的编码非常适合不同等级的编码方案的需要,在保证传输质量的同时提高传输速率。

(四)小波压缩技术。视频在进行播放的过程中经常会出现一些播放质量问题,这包括了音效,画面等多方面的问题。造成这一现象的原因有很多种,要想对其解决应从多方面进行分析,其中最普遍的一种解决办法就是,在进行视频传播的过程中进行小波压缩技术的应用,使得视频信息在传播的过程中保持较高的质量。这种方法不仅可以提高编码速度,还可以对残差信号进行统计。基于此学者们对各项技术进行了一定的升级与发展,尤其侧重对其中的一些主要补偿技术进行了提高。另一种手段则是直接利用小波压缩技术,对传输过程中一些编码本身具有的问题进行有效的过滤,并在技术范围内进行适当的补偿这样可以大大提高编码的效率。第三种方法就是三维小波编码。其可以进行精确度的过滤,然后再采用三维编码对时间因素进行过滤,使得效率的编码速率大大提高。

无线视频技术在生活中得到了广泛的应用,人们只用一种手持移动终端就可以查询各种音频和视频,从而进行各种电子商务活动。所以,提高编码技术可以使无线视频技术更好地位人们的日常生活服务。

参考文献:

[1]樊晓平.无线多媒体传感器网络视频编码研究[J].通信学报,2011(09).

[2]赵华军,方钰.无线移动视频监控原型研究[J].计算机工程,2011(06).

视频分析 篇7

另外, 基于内容的视频分析技术, 一直处于科研最前沿, 虽然没有达到十分成熟的阶段, 但是经过多年来科研人员的不断努力, 已经沉淀下来许多可以实用的成果。

本文将以网络视频行业在不同应用场合的各种需求为基础, 结合各种相对成熟的视频分析技术, 探讨各种新技术在行业内应用的可用性。

一行业技术背景

网络视频行业在最近几年迎来了高速发展期, 据中国互联网络信息中心 (CNNIC) 最新发布的《第29次中国互联网络发展状况统计报告》显示, 网络视频行业的用户规模达到3.25亿人, 使用率提升至63.4%, 网民已经习惯了通过网络收看自己喜爱的节目。随着宽带的进一步普及, 以及用户习惯的形成, 在线视频将成为网民的基础性应用。

视频网站在建设过程中, 面临着很多新出现的需求, 包括来自视频网站的内部需求和来自于广大网友的外部需求。对于视频网站, 每天都有大量视频上线, 需要不断提高生产编目与搜索的效率, 对于广大网友, 在正常观看视频的同时, 还希望有一些新颖的应用和更好的体验。这些需求, 除了产品设计外, 更多的是新技术的支持, 特别是视频内容分析技术。

视频内容分析这个领域的技术并不是十分成熟, 很多方向仍然处于科研前沿, 甚至某些方向仍处于科研起步阶段或者科研瓶颈阶段, 整体上来说有很大的应用局限性。尽管如此, 这个领域毕竟有过多年的科研沉淀, 在满足一定应用条件的情况下, 对现有的技术成果进行合理的整合与利用, 可以在特定应用场合研发出实用的新产品。下面, 本文将以具体应用场合为基础, 分析在每一个应用场合中可以采用的技术与产品。

二视频内容分析技术应用分析

1. 视频生产

对于视频网站, 尤其是网络电视台, 电视节目生产是一项庞大的工作, 公司需要大量的编辑人员来保证每天的正常工作运营, 遇到重大赛事等特殊情况, 还需要临时雇用一些编辑。编辑们最大的工作量之一, 是在实时录制的视频流上切割视频, 找到节目的起始位置和结束位置, 切除广告和没用的镜头, 然后将保留的内容合成一个完整的视频。切割视频的过程中, 编辑们需要在视频上一帧一帧地寻找镜头切割的时间点, 这是个非常耗时耗神的工作。

视频切割的时间点, 基本都是落在镜头变化的视频帧上, 可以通过镜头检测技术来完成镜头切点自动检测。镜头检测是指在视频中找到每一个镜头变化的视频帧, 而镜头检测包括两种情况, 一种是切变镜头, 这种镜头是最常见的镜头变换, 另一种是渐变镜头, 这种镜头会通过各种渐变特效来完成镜头变换, 一般出现在节目内部, 特别是影视类节目。编辑们需要切割的镜头基本都是切变镜头, 而切变镜头检测的技术已经非常成熟, 准确率很高。

视频先经过镜头检测算法, 自动找到所有的镜头切点, 然后送给编辑们编辑。编辑们以这些镜头切点作为参考, 不再需要逐帧去寻找镜头切点, 节省了寻找镜头切点的大部分工作量。

很多电视节目的格式比较稳定, 有固定的片头和片尾。通过视频匹配技术, 可以直接将这些电视节目的片头和片尾自动检测出来, 编辑只要看一下确认一下就可以了, 进一步节省了更多的工作量。这里用到的视频匹配技术不需要考虑缩放剪切旋转等高难度变换, 需要匹配的视频内容完全一样, 只是经过了转码, 因此, 匹配的准确率很高, 完全达到了可用级别。

2. 新闻类节目

新闻类节目的生产有所不同, 不仅制作完整的节目, 还需要对完整节目中的每一条新闻进行切割, 制作成独立的新闻条视频。新闻条目一般都比较短, 而需要编目的内容却特别多, 随着直播的进行, 编辑们要快速地切割并编目每一条新闻, 时间很紧张。

同样, 通过镜头检测的预处理, 可以帮助编辑们快速找到镜头切点, 进一步, 还可以利用声音分析、人脸检测、字幕检测识别分类等技术来加快编辑们生产视频的速度。

新闻条目变换的切点有一定的特点, 它是一个切变镜头点, 这个位置一般有短暂的静音时间, 正好是上一条新闻的波音结束, 下一条新闻波音还没开始的空隙。静音检测是一个比较简单的技术, 因此可以很容易找到出现静音的镜头切点, 而那些声音较大的镜头切点, 一般不会是新闻条目的切点, 这样进一步缩小了编辑们定位新闻条目切点的范围。

很多新闻条目的起始镜头都是主持人在演播间的画面, 有单个主持人, 也有两个主持人。通过人脸检测与识别, 可以找到主持人出现的镜头, 这个镜头一般都是一条新闻的开始。主持人都是正脸出现, 因此人脸检测很容易。主持人的数量有限, 预先配置好人脸模板, 可以较好地识别出来主持人。

每一条新闻都会有一个标题, 以字幕的形式显示在屏幕下方。检测并识别出新闻标题, 对于编辑非常有帮助。字幕检测的结果中, 不免会有很多错误干扰, 比如树枝窗格等背景, 很容易被误检成文字, 另外对白讲稿等其他字幕也会被一起检测到。每一种新闻节目的字幕都有自己的特点, 包括颜色大小位置背景等, 通过配置文件为每一种节目配置字幕特点, 可以去除掉绝大部分的无关干扰, 保留下来的基本都是新闻标题了。

新闻标题的识别需要先切割每一个字符, 然后使用OCR软件识别文字。同样, 如果预先配置好字幕的特点, 就可以大大提高字幕识别的准确率。以目前的技术, 很难做到百分百识别正确, 而对于编辑来说, 如果识别的标题中有错字, 需要找到错字并修改, 工作量不见得比直接输入完整标题小, 因此, 目前来说找到新闻标题即可, 不见得非要识别出来。

3. 体育类节目

体育视频在网上直播和点播已经非常普遍, 人们对体育视频也从直接观看和简单浏览转向多元化的需求, 如精彩片断摘要、特定事件检测与搜索、节目定制服务等。

在广播视频中, 体育赛事的空隙时间一般都会播放精彩回放镜头, 这些镜头从多个角度播放之前发生的精彩事件, 因此, 它们对于精彩事件检测非常有帮助。绝大部分回放都会伴随着logo的过渡, 即在回放镜头的起始处和结束处各有一个直播镜头与回放镜头的过渡转换, 这个转换通常会出现一个赛事logo, 比如奥运会的徽标、中超联赛的徽标等。检测到这些logo, 就可以找到这些精彩回放镜头。由于同一赛季的logo图案是固定的, 可以预先对不同的比赛建立模板, 存入模板库中, 然后在视频中检测模板, 算法实现的复杂度不高, 但是效果比较好。

在足球篮球等体育赛事视频中, 一般都会叠加一个比分牌, 上面记录当前的比赛时间, 以及两个队实时变化的比赛得分。比分牌上的信息十分有用, 但如果人工去标注识别, 工作量非常大, 几乎是不可能的, 借助于算法可以实现自动识别。

比分牌的识别分为两种, 一种是通用的算法识别, 另一种是模板识别。通用的算法识别, 预先不知道比分牌的样子和位置, 利用比分牌位置固定的特点, 在视频中寻找静止的区域, 然后版面分析找数字区域, 相对比较复杂, 准确率也不能保证。模板识别对每一种比分牌都预先建立模板, 然后在视频中匹配, 相对算法比较容易, 准确率也可以保证。

比分数字和比赛时间的数字可以使用OCR软件或者神经网络等方式识别, 利用它们的变化规则, 还可以进一步优化识别结果。还可以利用已有的识别数字动态建立模板, 进一步提高识别准确率。

足球篮球等赛事在直播同时, 网络上都有同步的直播稿实时更新。直播稿的形式是若干个条目, 每一个条目对应一个赛事事件, 例如:得分、犯规、换人等。每一个条目都包含若干项属性, 包括事件发生事件、球员名字、事件描述、当前比分等。通过识别出来的比分和时间, 可以将直播稿的每一个条目都同步到比赛视频中的精确时间点, 相当于对视频上每一个赛事事件都进行了详细编目。

基于同步的直播稿, 可以开发出很多智能应用, 下面简单描述几个。一是精彩热点展示。在播放一个赛事的同时, 将所有事件以热点的形式标注在播放器的时间轴上, 用户可以通过热点快速浏览所有赛事事件, 也可以选择自己感兴趣的事件直接观看。二是赛事事件搜索。同步后的直播稿可以建立索引, 与赛事视频结合, 制作一个赛事搜索引擎, 直接搜索视频内的事件。例如, 搜索姚明在2010年的所有盖帽镜头, 通过这样的搜索引擎就可以实现, 并且直接定位到事件发生的时间点, 这是传统搜索方式无法做到的。三是精彩集锦制作。通过直播稿的搜索, 可以定制精彩集锦, 比如制作姚明2010年的十大盖帽镜头, 可以通过直播稿搜索快速制作。

4. 广告检测

在电视节目的网络直播中, 不免会播放很多电视广告, 对于视频网站, 这些广告本身并没有得到广告收益, 也没有要求一定要播出来, 只是它们是嵌在直播信号一起的, 是顺便播出来的。因此, 如果在播放这些电视广告的时间里, 播放视频网站自己定制的广告, 不仅不会影响直播, 而且会带来很多广告收益。

想要达到上述目的, 需要实时检测出电视信号中广告的位置, 有两种可行的途径。一是通过实时的视频匹配来检测已知的广告, 二是结合EPG和片头片尾检测, 估计广告的位置。

广告实时检测需要用到视频实时匹配技术, 视频匹配本身并不难, 将所有需要匹配的镜头放到库中, 提取特征, 然后在视频流上顺序匹配即可。如果要做到实时检测, 难度会增大一些。所谓的实时检测其实是准实时, 在延迟几秒后检测到广告的出现。延迟的时间越小, 检测的准确率越低, 实际应用的时候, 延迟两秒之内相对比较合适, 也可以考虑牺牲一下查全率来保证准确率。实时检测出广告后, 根据广告的时间来选择代替广告的时间, 要保证在代替广告只覆盖电视广告的时间, 而不会覆盖到正常节目。

EPG和片头片尾检测也可以用来辅助广告替换。根据节目预告, 可以大概估计出各个节目的开始结束时间。利用广告实时检测相同方法, 可以检测到节目的结尾, 在还未检测到节目开始的这段时间里, 播放的一般都是电视广告, 可以有选择性地将其替换成目标广告。

5. 语音搜索

视频在生产出来的时候, 编辑们会对它添加一些编目信息, 这些信息用于浏览或者检索视频用。视频本身的信息量是十分丰富的, 只用这些编目信息远远无法描述视频中的信息, 并且编目信息受编辑们的影响, 人工主观性很大。在视频搜索的时候, 用编目信息可以搜索到视频, 但是想要搜索到视频的内容, 就非常困难了。

视频中很多重要的信息来自于语音, 例如新闻中的主持人的讲话, 访谈节目中嘉宾的对话等。如果能将视频中的讲话内容全部识别出来, 对视频的编目和搜索将会帮助很大, 可以直接挖掘到视频内部的信息, 并且能够精确地搜到具体的时间点。比如, 搜索“武汉樱花”, 就能搜到视频中说到这两个关键词的视频以及说话的时间, 十分方便。

语音识别技术并不是十分成熟, 识别的效果受很多因素影响, 对于新闻主持人的讲话, 识别率一般比较高, 但对于一般的对话来说, 识别率会明显下降, 而对于方言等特殊情况, 识别结果很差。如果对特定情况进行训练, 算法的准确率会提高很多, 但是这样很影响算法的通用性。有些公司开发的编目系统会把语音识别结果列出来, 然后让编辑修改, 这样其实编辑的工作量很庞大, 限制了应用的范围。

有的视频是可以得到讲稿的, 例如有的新闻视频会配有讲稿, 讲稿虽然和视频上的讲话内容不是完全一样, 但基本相似。通过语音匹配将视频讲稿与视频内容进行匹配, 难度比语音识别要低很多, 错误率很低, 可以达到语音搜索的实用级别。但是并不是所有视频都是有讲稿的, 所以应用范围还是受到限制。

语音识别的算法中, 从语音到文字这一步的难度很大, 很多情况下是发音识别对了, 但是识别到文字却识别错了。对于语音搜索来说, 一般的思路是先将视频中的语音识别成文字, 然后对文本建立索引, 用文本搜索。为了提高准确率, 可以用另一种搜索方式, 绕过识别中最难的环节, 语音识别到发音都不需要将发音翻译成文字, 而是直接对发音建立索引。在搜索的时候, 将关键词转化为发音, 用发音去搜索发音。这样省掉了一个最难的识别环节, 准确率提高很多, 代价是搜索的时候无法看到文本简介, 有时候同音词也会搜到。

6. 版权

版权问题一直是网络视频行业尚未解决的一个关键问题, 很多视频网站使用了没有版权的视频, 获得了非法收益, 但是版权的查找取证并不容易。

为了保护自己的版权, 视频网站最常用办法就是在视频的右上角叠加上一个自己网站的logo, 表示该视频在自己的网站是有版权的, 别的网站如果直接下载使用这些视频, 原始的logo也会一起播放出来。这种叠加的logo虽然简单, 但可靠度并不高, 可以利用图像生成技术去除掉。这种算法首先把logo的像素全部删除, 然后根据周围的视频像素和概率分布来生成新的像素, 把删除掉像素的区域填满, 视觉上并不明显。

一种比较前沿的技术是数字水印技术, 这种技术将一些标示信息 (数字水印) 直接插入到视频中, 但是在画面上看不出来, 即将标示信息隐藏到视频载体中。水印信息是可以重新被提取出来的, 具有一定的抗干扰性。当视频经过转码、缩放、简单的剪切、小角度旋转等变化后, 水印仍然可以被提取出来。通过这些隐藏在视频中的信息, 可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。

三应用展望

浅谈智能视频分析技术 篇8

视频分析产生的背景很简单,其一为安防应用,即当值班人员面对数十、成百上千的摄像机,无法真正在风险产生前预防或干预,多数靠事后回放相关的影音;其二为非安防应用,如商业上流量统计、预防盗窃等。其理念是将风险的分析和判断识别转交给计算机或者芯片,使值班人员从盯守监视器中解脱出来,当系统发现问题的时候,产生报警,此时值班人员进行响应。

智能视频分析监控技术是指采用智能化的视频分析算法,利用计算机对视野范围内目标的特定行为进行分析和提取,当发现存在符合某种规则的行为(如定向运动、越界、游荡、遗留等)发生时,自动向监控系统发出提示信号,采取某种对应措施(如声光报警器报警)或通知监控人员进行人工干预等。

近年来,具备“基础智能”功能的人员卡口、车辆卡口、特征分析前端摄像机大放异彩,它的核心使命是把监控画面中的有用信息尽可能多的进行识别和描述,如人、车、颜色、状态等。而普通的智能产品(如拌线、区域安防等),是安防告警的辅助手段,以提供告警信号为主,多用在无人或者少人的场合。

2 智能视频分析应用场景及分类

2.1 智能视频分析应用场景

与安全相关的应用场景是目前市场上主要的智能视频应用场合,特别是在各类恐怖袭击、爆炸案之后,特殊场合对于此类应用的需求不断增长。这些应用主要作用是协助政府或相关机构的安全部门提高室外大地域公共环境的安全防护,这些场合主要包括:军事重地、营区、仓库等重要目标周界的警戒和入侵检测,安全部门门禁的人脸识别与黑白名单、车辆识别与黑白名单,政府单位的执勤岗哨侦测,机场、火车站等地敏感地区的非法滞留等。

2.2 智能视频分析分类

从广义上来说,智能视频分析技术主要包括视频分析类、视频识别类和视频改善类三类。

(1)视频分析类。该类主要是在监控图像中找出目标,并检测目标的运动特征属性(如目标相对的像素点位置,目标的移动方向及相对像素点移动速度,目标本身在画面中的形状及其改变),根据以上的基本功能,视频分析主要分为以下功能模块:周界入侵检测、目标移动方向检测、目标运动、停止状态改变检测、目标出现与消失检测、人流量、车流量统计、PTZ自动追踪系统、系统智能自检功能等。

(2)视频识别类。该类包括人脸识别、步态识别与车牌识别,其主要技术是在视频图像中找出局部中一些画面的共性,如人脸必然有两个眼睛,如果可以找到双目的位置,那么就可以定性人脸的位置及尺寸。

(3)视频改善类。该类主要是针对某些不可视、模糊不清,或者是对振动的图像进行部分优化处理,以增加视频的可监控性能。具体包括:红外夜视图像增强处理、车牌识别影像消模糊处理、光变与阴影抑制处理、潮汐与物体尺寸过滤处理、视频图像稳定系统等。

3 智能视频分析实现方式

智能视频分析技术目前有两种常用方式:一种是基于智能视频处理器的前端解决方案,另一种是基于监控的后端智能视频分析解决方案。

3.1 后端智能

基于监控的后端智能视频分析解决方案是所有的前端摄像机仅仅具备基本的视频采集功能,所有的视频分析都必须汇集到后端或者关键节点处由计算机或者监控平台统一处理。其优点是:对前端设备要求低、可有效与现有监控系统融合,可扩展性强;缺点是只能控制若干关键的监控点,并且对计算机性能和网络带宽要求比较高。

3.2 前端智能

基于视频处理器的前端解决方案可以使得视频分析技术采用分布式的架构方式,在此方式下,所有的目标跟踪、行为判断、报警触发都是由前端智能分析设备完成,视频分析单元一般位于视频采集设备附近(或内置于摄像机),这样可以有选择地设置系统,让系统只有当报警发生的时候才传输视频到控制中心或存储中心,相对于服务器方式,大大节省的网络负担及存储空间。

3.2.1 前端智能,便于大规模部署

目前广泛使用的摘要系统多以后端摘要为主,存在录像摘要时间较长,服务器性能有限等问题。在平安城市等具有海量监控点的情况下,基于“特征分析摄像机+后端智能管理”的模式,可有效分摊系统各部分的工作负荷,高效实现监控目标摘要,便于大规模部署。

3.2.2 语义搜索,海量数据快速定位

基于特征分析摄像机输出的结构化数据,后端业务系统可通过语义信息,例如:时间、颜色、类型等信息,对海量数据进行快速检索,快速找到监控目标。

3.2.3 以图搜图,模仿人脑分析目标

基于特征分析摄像机输出的最佳抓拍图片,后端业务系统可采用以图搜图的方式,对海量图片信息进行快速检索,实现如人脸以图搜图、车辆以图搜图、人脸比对、车辆比对等深度应用。

3.2.4 二次挖掘,人工智能深度应用

基于特征分析摄像机提供的视频、图片、结构化数据等信息,业务系统可进行二次数据挖掘,对车辆、人员等进行更多信息提取,例如车标、车型、车速、人员年龄、性别等信息,为深度应用提供数据支撑。

4 智能视频分析的应用场景

4.1 周界警戒及入侵检测

采用视频监控加智能分析报警的方法对外围周界进行无缝覆盖,发现有目标侵入立即发出报警。设备采用低照度及感知型摄像机,并安装声光报警器,报警发生时声光报警器响起,同时后端机房也能准确显示报警位置。可以感知设定区域内突然出现和入侵的物体并及时报警,比如在军事禁区等重要场所出现可疑人物等。

4.2 人脸识别与黑白名单

(1)关卡信息视频监控。在海关、机场、火车站、企业、园区等出入口场合,或者城市重点路段,使用具备人脸识别的人员卡口前端智能摄像机,对于过往人群,既可以抓拍最佳人脸也可以抓拍最佳人身像。光线良好的情况下,人脸与人员抓拍率均在95%以上。

(2)人员目标特征分析。人员抓拍次数可控,可选取单个人员的多张抓拍照片中最优的一张进行存储,节省存储空间。根据环境自动调整算法,选取最优人脸,并自动识别人员行进的方向、速度等信息,方便后期进行结构化数据生成。

(3)人员实时计数。具备人脸识别的前端智能摄像机还可以对双向通行的人员进行计数,在光线良好充足的情况下,全天候统计准确率大于80%。在商场、博物馆等场所可以用来进行客流统计,为管理者提供决策依据。

4.3 车辆识别与黑白名单

具备车辆识别的前端智能摄像机一般分为卡口、电警、违停和出入口多种类型。车辆关卡摄像机部署在车头方向,可识别车牌、车型和车身颜色等信息。即使在逆光环境下,车辆内的人脸也可以抓拍得十分清楚。800万像素的单车道卡口,抓拍到的车内人脸可达智能识别的标准,包括年检标准都可以清晰辨识。可以自动检测与取证禁止停车区域内的车辆违法停车行为,从全景到车辆特征再到车牌细节,都清晰呈现。

4.4 目标统计与拥挤探测

用于在高速公路或环线公路上监视交通情况,例如统计通过的车辆数、平均车速、是否有非法停靠、是否有故障车辆等。统计穿越入口或指定区域的人或物体的数量,例如为业主计算某天光顾其店铺的顾客数量,从而深度挖掘该地区的消费能力。探测某个区域人群过于拥挤,此技术基于“人数统计”,如某个区域人数超过30人将触发报警。

4.5 重要目标涉密物体移动侦测

当设定的监控区域内目标物(枪等)被移走、替代或恶意遮挡时发出报警,用来保护财产安全。

4.6 执勤岗哨侦测

在哨位管理的区域安装固定摄像机,智能视觉服务器启用哨位侦测模式。当被监控哨位出现脱岗或有众多人员集聚时报警,提示管理人员进行处理,交接岗时记录抓拍。哨兵在岗哨内执勤,姿势正确且在规定的区域内活动,属于正常状态,不会触发报警。而哨兵在岗哨内执勤过程中,出现靠墙、弯腰、坐下、倒地、脱岗或聚众时,系统识别为哨位异常触发报警。

4.7 非法滞留侦测

当一个物体(如箱子、包裹、车辆、人物等)在营区的敏感区域停留的时间过长,或超过了预定义的时间长度就产生报警。检测物体被移动或出现可疑物体,车辆或其他目标物停靠或滞留超过一定的时间,对被蓄意放在设定区域的物品进行探测并报警,比如有人遗留包裹或爆炸物等。

5 结束语

不同行业对于视频监控的需求有着非常明显的差异,特别是对于智能视频分析技术的应用需求,由此也决定了不同行业间检测行为类型与异常事件的特殊性。随着各行业应用不断深入,安全级别防范控制要求进一步提升,安防领域将面临越来越多不同的挑战,其对视频监控的需求也日益多样化和复杂化。

如何能够在海量视频数据中识别与挖掘更多有价值的信息,已成为了智能视频分析技术在深化行业应用过程中共同面临的问题。只有结合行业应用实际,深入了解各不同行业的具体要求,才能更好地抓住用户的需求,使智能视频分析得到深入的应用。

摘要:本文从视频应用的一些特殊场合出发,浅析智能视频的应用价值。

关键词:视频分析,前端智能,后端智能,应用场景

参考文献

[1]西刹子.安防天下-智能网络视频监控技术详解与实践.北京:清华大学出版社,2010,2

[2]卢选民,张原,史浩山.分布式智能监控系统视频多画面显示的设计与实现.计算机应用研究,2000,3

[3]杨磊,李峰,付龙,杨娟编.电视监控实用技术.北京:机械工业出版社,2003

[4]王绍棣,张莉等.基于内容特征分析的图像和视频检索系统.计算机工程与应用,2001,7

[5]张兆杨,杨高波,刘志.视频对象分割提取的原理与应用.北京:科学出版社,2009,3

[6]谭铁牛.智能视频监控技术概述[C].第一届全国智能视觉监控学术会议,2002

[7]徐璐.基于直方图和混合高斯模型的摄像头移动监测.上海交通大学电子信息与电气工程学院,2009,1

[8]高俊祥,杜海清.智能视频监控系统的关键技术[J].中国多媒体通信,2008,13

[9]安博会上看智能监控市场的发展.安全防范.十一届安博会,2007,11

[10]李庆斌,李众立.基于ARM9的智能视频入侵物识别系统设计[J].微计算机信息,2011,03

[11]张毅,张烁,罗元,徐晓东.基于Kinect深度图像信息的手势轨迹识别及应用[J].计算机应用研究,2012,09

基于视频分析的行人检测 篇9

随着安防行业的发展,视频监控越来越智能化,图像处理、模式识别以及人工智能等技术在安防视频监控领域的应用越来越广泛。日益繁荣的监控行业在为安全带来保障的同时,也带来了海量的视频信息数据,如何在如此巨大的数据量中检索出包含特定行人运动的视频片段,逐渐成为备受关注的热点。

目前,行人检测和检索的方法主要是采用人体的外形轮廓特征,即梯度直方图特征(Histograms of Oriented Gradient,简称HOG),然后对图像进行尺度变换,提取不同尺度下的HOG特征,最后采用支持向量机(Support Vector Machine,简称SVM)进行特征训练和分类[1]。但是以上这种常规方案中,图像的尺度变换,比如小波变换、金字塔变换等,都需要大量的时间和空间开销[2],HOG特征提取本身也需要很多的时间和空间开销,如果在每个尺度等级上都进行HOG特征提取,就会使复杂度更高[3]。该方案在视频监控中使用时,如果要实时的分析监控视频画面,则会出现严重的视频延时现象。基于此,本文在兼顾视频监控实时性和行人检测的准确性基础上进行了改进,提出了基于运动特征分析的行人检测。实验证明改进之后的方案,不仅能够准确的检测到视频中的行人,而且能够极大的提高检测的效率,很好的满足了视频监控的实时性要求。

1 基于视频分析的行人检测系统框架

在智能视频监控行业产品中,行人检测是视频检索的必要方法,有着广阔的应用前景,而实时性是对智能视频监控的一个很大约束,很多已经成熟的图像检测算法和图像识别算法,在实时视频监控中都会遇到效率的瓶颈问题。本系统主要包括三大部分:首先对实时的视频流进行运动目标检测,在每帧图像中分割出运动目标,然后对分割出的运动目标进行归一化,并提取归一化之后图像的HOG特征,形成特征向量,最后把提取的特征向量输入SVM特征分类器,判断该运动目标是否是行人,并输出最终结果。如果指定条件的行人检索还需要对检测到的行人进行外表衣着颜色的提取。具体框架结构如图1所示。

2 系统的主要模块设计

2.1 运动目标检测介绍

运动目标检测的方法通常是背景提取,然后对背景进行差分。其中背景建模比较常用的有camshift、混合高斯(Mixture of Gaussian, 简称MOG)以及codebook等。camshift算法适用于彩色的视频图像,但是在夜晚的监控录像,几乎都是灰度图像,不适宜采用该方法。MOG和codebook两者的效果没有明显的差别,原理上二者都是在RGB颜色空间中的背景提取[4],但是在树叶摆动、水波荡漾等干扰环境下,MOG的稳定性更好一些,因此本文中采取MOG进行背景建模。对视频中的每一帧图像分别与建模的背景图像进行差分,即可得到含有运动物体的图像团块[5]。在后续的行人检测步骤中,只需要对这些图像团块进行定性分析,就能够判断出图像中是否包含有行人,避免了对整帧图像进行尺度变换、逐行扫描等高复杂度操作。

2.2 HOG特征提取算法介绍

HOG是一种用于描述目标外围轮廓的特征描述子,是法国国家计算机技术和控制研究所 (INRIA)的研究员Dalal 和Triggs在2005 年提出来的[6]。

首先对分割出来的运动目标图像团块进行归一化,归一化的大小应该与SVM的训练样本同样大小,本文中样本的大小为64×128像素。

然后计算图像的梯度,采用的梯度算子为:(-1,0,1),该算子计算简单,实用性强,能够有效的节省检测时间。

对图像划分单元格(也叫细胞单元),将图像的梯度分别投影到各个单元格上,得到一系列的直方图。在把图像安装单元格划分成小块,每个块包含若干个单元格,把每个单元格里面的直方图以块为单位进行归一化,然后把每一个块的归一化向量连接起来,形成一个大的向量,就是该目标图像的HOG特征向量。

2.3 SVM特征训练和分类算法介绍

SVM是V. N.Vapnik在20世纪60年代为了解决非线性问题而提出的一种解决方案,在90年代形成完整的理论,并在模式识别和人工智能领域成功应用,其强大的泛化能力和推广能力受到广泛关注。

本文采用该方法对样本进行特征训练。手动截取正负样本图像各1 000副,分别把其归一化到64×128像素大小。正负样本各取800副进行训练,剩余的样本进行测试。为保证样本的多样性,正样本中的行人包括各种颜色服装,各种身材等。负样本从各种环境背景下随机截取。经过SVM训练之后形成稳定的特征权值保存在本地文件,在后续分类中使用[7]。

把前面提取的HOG特征向量输入分类器,系统加载保存在本地的特征权值文件,即可快速的对输入向量做出判断。视频图像中行人检测结果如图2所示。

3 系统的性能测试和实验结果分析

本系统在不影响行人检测算法准确性的基础上,对视频处理算法进行了改进和优化,主要是为了满足智能视频监控的实时性。图2中,(a)为视频的初始帧图像,(b)为视频中第129帧图像,与(a)相比,图像中多了一个行人和一辆车;(c)是系统对视频运动检测的结果图像,可以看出分割出了行人和车辆两个运动目标团块;(d)是根据团块位置对原始图像提取HOG特征并进行SVM分类的结果,行人目标用白色方框标识,非行人目标用黑色方框标识。

其次,分别对不同分辨率的图像进行改进前和改进后的测试,发现每帧数据的处理速度有明显的提高,表1显示了改进前和改进后数据处理时间。

4 结束语

本文通过引入运动检测信息,结合原有的HOG特征提取,省去了常规静态图像人体检测方法中的尺度变换等高复杂度的处理,极大的提高了智能视频监控中行人检测的效率,真正做到了快速、有效,很好的满足了视频监控的实时性要求。目前该方法已经在实际产品中投入使用,从长远看,智能视频分析有着巨大的市场空间和发展前景。

参考文献

[1]曲永宇,刘清,郭建明,等.基于HOG和颜色特征的行人检测[J].武汉理工大学学报,2011,33(4):137-141.

[2]贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J].自动化学报,2007,33(1):84-90.

[3]黄茜,顾杰峰,杨文亮.基于梯度向量直方图的行人检测[J].科学技术与工程,2009,9(13):3446-3451.

[4]霍东海,杨丹,张小洪,等.一种基于主成分分析的Codebook背景建模算法[J].自动化学报,2012,38(4):591-600.

[5]黄永丽,曹丹华,吴裕斌.实时监控系统中运动人体图像分割[J].光电工程,2002,39(1):69-72.

[6]NAVNEET DALAL,BILL TRIGGS.Histograms of Orien-ted Gradients for Human Detection[C]//Proceedings of the2005IEEE Computer Society Conference on Computer Visionand Pattern Recognition(CVPR’05),2005:886-893.

视频自媒体盈利模式分析 篇10

关键词:视频自媒体,盈利模式,利益分成

1 视频自媒体及盈利模式的定义

自媒体是指私人化、平民化、普泛化、自主化的传播者,主要以互联网信息技术手段向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。视频自媒体是指采用视频媒介传播技术的一种自媒体形式。盈利模式是指企业通过自身以及相关利益者资源的整合并形成的一种实现价值创造、价值获取、利益分配的组织机制及商业架构。经济收入与视频自媒体的发展是相辅相承、相互促进的,唯有如此才会构成一个持续长久、健康发展的行业生态系统。

2 视频自媒体爆发式发展的原因

2.1 移动互联网技术快速发展

移动互联网时代,基本人手一部智能手机。快速的4G网络传输技术,无处不在的WIFI网络,这些客观条件都利于视频行业的快速发展。

2.2 内容制作门槛进一步降低

利用数码相机甚至手机、视频编辑软件等工具,个人就可以完成一部视频,傻瓜式的操作方式,降低了内容制作的门槛。优质内容的稀缺,使个人内容提供商成为视频网站平台重要的补充力量。

2.3 满足了受众的多元化需求

视频融合了文本、音频、图像等媒介形式,表达信息更直接、呈现内容更丰富。消费者的使用习惯在转移,而年轻一代是伴随互联网成长的一代,他们更喜爱通过视频的形式接触信息。

3 视频自媒体的盈利模式分析

3.1 利益分成的盈利模式

优酷的视频创收平台通过广告分成、粉丝赞助等多种收入方式,帮助自媒体赚取更多的收益,还通过频道定制、推广支持等增值服务,帮助自媒体获得更高的播放量和人气。视频自媒体弥补了平台自制内容、购买内容方面的缺失,两者的利益也紧密地绑定在一起。

2015年9月28号查询的数据显示,优酷最近30天TOP收入会员排名情况,从高到低依次为暴走漫画、罗辑思维、淘梦网-Tmeng、大邹哥说新闻、big笑工坊。其中暴走漫画最近一个月收入54.7万,big笑工坊月收入25.9万。视频自媒体的收入看似不错,实则该行业竞争惨烈,只有为数不多的自媒体才会站到市场的金字塔顶端,大多数视频自媒体生存状况堪忧。

3.2 内容制作的盈利模式

好的内容是自媒体传播的重要基础,自媒体从业者借助自媒体平台制作各类视频内容,赢得用户的喜爱,视频播放中可以弹出打赏广告,本着公平自愿的原则,不限用户打赏额度。视频平台成为连接自媒体与用户之间的通道,但是长期以来形式的免费的互联网文化以及操作不便的打赏程序,靠打赏盈利基本走不通。逻辑思维及晓说都选择将视频节目的优质内容精选出来,编辑成册出书,其既可以享受到版权收益还可以通过自己的销售渠道获取高差额的书籍销售毛利回报。

3.3 商业合作的盈利模式

视频自媒体可以自己寻找广告投放商,在节目中以冠名的形式或者软广植入等方式对产品进行宣传。比如,罗辑思维在一次为会员争取福利的活动中得到乐视TV的大力支持,罗振宇在节目中公开表达了对乐视的感谢,这本身就是一次双方共赢的公关行为。更高级的玩法是在内容制作中植入软性广告,用户在观看节目的过程中会潜在受到影响。广告与视频是把双刃剑,视频内容不能因为广告而损害了用户的观看体验,有些广告内容明显与视频内容的气质、风格不对路,这时应该以坚持用户体验为第一出发点。

3.4 流量转化的盈利模式

视频只是吸引用户的窗口,通过优质的视频内容,快速地聚集起大量粉丝,但是视频并不直接与用户发生经济关系,而是通过视频将对自己感兴趣的用户引流到自媒体可管可控的用户关系管理平台中来,一般是微信订阅号平台。比如,罗辑思维每期都会插播关注罗辑思维微信号的广告,其目的是建立自己的社群平台,加强用户与自媒体、用户与用户之间的互动交流,激活用户资源,针对“鱼塘”中的目标用户开展商业变现活动。

4 总结

这4种盈利模式实则相互交叉,只是以其中一种盈利模式为主。重要的是视频自媒体的长期健康发展不能仅仅依靠制作者的个人魅力、品格感召力来维护和扩大,这种盈利模式很难持久。即便像罗辑思维宣传的每期节目内容都无规律可循,可主持人的思维逻辑、语言表达习惯、表演风格等都是不变的,这必将会引起用户的审美疲劳,难逃视频节目固有的生命周期宿命。因此自媒体应该在“自”与“不自”、个性化与品牌化间寻找平衡,打造子节目品牌形象、不断创新内容形式、引入用户参与节目制作等才能保持视频自媒体的长久活力。

参考文献

[1]范钦儒.自媒体盈利模式的可持续发展研究[D].北京:北京印刷学院.2015.

[2]彭巍然,解迎春.微信自媒体盈利模式研究[J].当代传播,2014(6).

[3]邸亚峥.自媒体平台的盈利策略研究[D].北京:北京邮电大学,2014.

中国大学视频公开课问题分析 篇11

关键词:视频公开课;武汉大学;问题

中图分类号:G434 文献标识码:A 文章编号:1673-8454(2014)15-0044-03

随着时代的发展,网络技术越来越发达,网络技术的发展使人们学习的方式和途径都发生了改变,同时教师教学的方式和模式也跟传统的课堂不一样了。终身学习也被大众接受了,但是教师资源和网络学习资源缺乏却是一个很现实的问题。怎样利用有限的师资和学习资源,使之发挥更大的效果,使更多的人享受到更好的学习资源。美国麻省理工学院最早提出视频公开课来解决这个问题,将学院的全部课程资源都在互联网上共享。耶鲁、哈佛、牛津、剑桥等世界知名大学也先后在网上对外公开校内课程。我国的视频公开课是指于2011年11月正式上线的中国高水平大学建设的20门“中国大学视频公开课”,[1]由教育部建设的“爱课程网站”作为课程的发布平台向公众免费开放,这些课程重点是传播中国传统文化。到目前为止爱课程网站上的视频公开课有原来的20门课程增加到现在405门课程,现在课题的选择也变得更加丰富,不光有人文社科类的,也有了自然科学和工程技术类的课题。武汉大学从12年起开始制作视频公开课,目前有10门上线。

到目前为止,武汉大学上线的视频公开课总共有十门:赵林教授的《古希腊文明的兴衰》、郭齐勇教授的《中国古代思想智慧》、潘迎春教授的《西方历史的源头》、李工真教授的《德国大学现代化》、尚永亮教授的《唐诗艺术》、李建中教授的《中国文论经典的诗性魅力》以及孟勤国教授的《生活中的物权》、汪小凡教授的《校园中的植物世界》、陈向东教授的《微生物的世界》、测绘学院的院士及知名教授讲解的《走进测绘殿堂》。在爱课程网站上,这几门课程里面,尚永亮教授的《唐诗艺术》点击率是最高的,达到四万多人。笔者作为视频公开课制作的一份子,在制作的过程中发现,公开课要顺利通过教育部的审核,需注意以下一些问题。

一、主讲教师方面

视频公开课,主讲教师要把知识点用自己的言语和肢体语言透过摄像机镜头传递给观众,那么教师就不能只是扮演知识传授者的角色。教师在在讲台上要积极调动学生的积极性和主动性,改变学生的被动地位。[2]因此主讲教师本身要有扎实的学术功底,事前要做好准备,分配好时间,把知识点讲清讲透彻。武汉大学的赵林老师在他的论文中说由于讲完希腊悲剧还要讲希腊的喜剧,占用了希腊哲学的课时,希腊科学的发展史更是由于时间限制没有讲。因此在视频公开课之前教师要做好准备,知识点怎么讲,花费多少时间都要心中有数。借助现代教育技术的手段,适应教学方式的转变。[3]

中国视频公开课是给电脑面前的学生学习的,因此教师与学生的互动会比较少,这跟传统的课堂中教师与学生是面对面交流的方式不同,怎么样吸引学生的注意力和求知欲望,使学生学完整个课程,这就需要教师方面要运用生动幽默的语言、表情或肢体动作结合起来。而且教师在讲堂上要放松,事先和拍摄人员沟通好,不要有紧张的情绪,这样可能会影响公开课的制作效果。教师讲解的内容要与社会实践相结合,把枯燥无味的知识用现实生活中的实例来讲解,激发学生的好奇心和求知欲,使学生有兴趣学下去。如武汉大学汪小凡教授的《校园中的植物世界》,以校园作为天然的课堂,采用课堂教学与户外考察相结合,带领学生领略武汉大学的美丽风景,认识校园中的植物,学习鉴别植物的方法,了解武汉大学百年校园的植被变迁。这样的课程会使很多人有兴趣,一方面可以学到知识,一方面可以了解武汉大学,领略武汉大学的风景。并且这门课不仅有课堂内的理论知识讲解,也走出校园,走进大自然。

从武汉大学的十门公开课来看,中国高校的视频公开课还存在以下问题:

1.教学形式单一

目前国内建设的四百多门的视频公开课,教师传授知识的形式大部分依然是师讲生听,教学的形式相对比较刻板。教师比较依赖于PPT,与学生的互动比较少,学生的参与度不够。著名的教育家陶行知先生曾说:“教学艺术就在于设法引起学生的兴趣,有了兴趣就肯用全副的精力去做事情。”因此教师要改变传统的教学观念。国外的公开课在世界流行的一个重要原因就是他们的视频公开课采用的事开放而思辨的教学方式,启迪学生去思考。比如哈佛大学的《公正》,教师不断的给学生选择,引导学生独立思考,积极探索,调动学生思维的积极性,有利于学生对知识的吸收。[4]武汉大学目前的十门公开课有九门是采用传统的这种教学方式,只有汪小凡老师的《校园中的植物世界》里面的三讲是在户外拍摄,带领学生走出教室,在大自然的环境下学习校园中的植物。因此在摄像机前面怎么样让自己的课能够吸引观众受到大家的欢迎这是需要考虑的问题。在教学方式上要有创新,不能仍然停滞在传统的师讲生听的状态。这是笔者认为目前视频公开课的核心问题,解决好这个问题,视频公开课的利用率将会得到很大的提高。

2.交互性差

这里的交互性包括课堂上生生交互、师生交互以及学生与平台之间的交互。课堂上学生与学生之间以及学生与老师之间的交互式教学的重要环节,缺少交互形式使得教学过程不完整,是对视频公开课的一大诟病[5]。视频公开课的受众是全社会大众,而社会大众的差异是很大的,从而使师生交互以及交互环节的设置都很困难。学生与平台建设之间的交互是从课后教师答疑这部分来说,学生在网上提出的问题大部分并没有及时的就学生的提问做出回答。因此想要视频公开课的利用率提高,课程的交互性就要提高,要从这三个方面来提高交互性。

二、公开课视频的制作过程及存在的问题

1.视频的制作过程

武汉大学视频公开课的拍摄是由教育技术工作室完成的,场地选在一个小型的报告厅里面,报告厅里有设置好的灯光,光线充足,环境安静整洁,讲课的背景是有武汉大学特色的巨大的图画,背景能够跟灯光很好的配合。在拍摄前会跟讲课的老师讲解一下录制的流程,一方面使老师放轻松,克服面对镜头的紧张感与焦虑感;另一方面使我们拍摄人员了解教师的上课安排,提前做好准备。同时也要提醒下面听课的学生,关闭手机或静音,认真听课,积极回答老师提出的问题,精神面貌要饱满。endprint

拍摄的器材选用的松下的P2高清摄像机,有五个机位。全景、右机位、左机位、学生场景以及主场景。全景是作为交代镜头,并且作为备用镜头,右机位、左机位以及主场景的摄像机是从不同的角度来记录老师的上课过程,学生镜头是捕捉学生上课时的状态以及学生 回答老师问题时的状况。这时总共有六路信号,还有一路专门记录教师的PPT,在多机位视频拍摄的时候,镜头需要切换最终输入到一路视频信号中。我们采用的是ESP的多机位现场切换,这样就大大减轻了后期视频的编辑。在拍摄的过程中最好对教师的口误或学生回答问题的状况进行记录,便于后期的剪辑。在教师准备好以及摄像机开始工作后就可以开始进行摄像,一位工作人员在切换台进行视频信号的切换,根据教师讲课的内容选取六路信号中合适的信号作为最终的视频信号,并对不同的教师角度进行切换,以免显得画面内容单一呆板。工作人员再对录好的视频进行剪切,对不好的或出错的镜头进行后期编辑。

视频制作完成以后交由教育部,教育部组织专家对视频公开课的内容进行审查,主要是审查教学内容的正确性、科学性、逻辑性等方面,特别是版权方面。如《走进测绘世界》里面涉及到的每一张地图都要标明出处。审查合格以后上传到爱课程等网络平台上。

2.视频公开课的制作过程中存在的问题

笔者发现在视频制作完成送到教育部审核,之后会有很多的问题,有很多要改掉的小细节,现总结如下:

(1)版权的问题

视频公开课的成片的版权归属应该很清晰,在录像中所使用的图片及视音频等素材要避免版权风险,要在片中明确注明出处。在视频公开课视频的制作过程中,为了增加视频的丰富性和生动性,需要在视频中插入一些跟教学内容有关的图片,这些图片都需要注明来源和出处。如《走进测绘殿堂》里面的每一张地图都要很清楚的标明出去,在后期修改的时候很多有一大部分就是要在图片中添加图片的出去,因此在前期准备PPT的时候要注意明确标明PPT中所用图片的来源。

(2)准确性的问题

在后期修改的时候,有部分错误是上课时老师没注意有讲错的地方或者是所准备的PPT中或者是唱词中有很明显的错误,如错字或用词不当等等。在前期制作PPT时没有认真检查PPT中的文字,导致送上去审查以后才发现有很多的低级错误。PPT如果出现错误修改会很麻烦,因此主讲教师在拍摄之前一定要对PPT进行认真的检查,以确保其准确性。图片与真实的情况不符,如国家地图的比例不能随意更改,因为正确的国家版图是国家主权和领土完整的象征。所用的图片要慎重考虑国家统一、主权和领土完整,民族、宗教及对外关系等问题,地图上涉及到的领地一定要标明的很清楚,避免产生政治误会。

(3)涉及机密问题

由于公开课是开放的,任何想看的人基本上都看得到,涉及到国家安全和不宜公开的地理坐标数据被标注在地图上,不适合在公开课上对外发布的,这些是不能在课上讲的,即使拍成了录像,后期也要减掉。因此在拍摄之前,主讲教师要搞清楚哪些是涉密的,不适合对外公开,则将此知识点不录像或者不讲,以减轻后期的剪辑工作。

要解决上述问题,一是教师在前期的准备工作要仔细,仔细检查看看有没有不科学的地方,对于所用的PPT里面的科学性和准确性要检查。二是在拍摄时要与拍摄人员及时沟通自己的想法,如什么时候学生回答问题,这样好让拍摄人员把镜头切换到学生。三是在教育部的修改意见下来以后主讲教师应及时与后期的编辑人员沟通,哪里需要修改,该如何修改,这些沟通以后后期的编辑人员对视频进行修改。

视频公开课是中国教育改革和发展中面临的现实问题,想要有效地推进视频公开课的建设需要多方的努力,做大量的工作,因此中国高校视频公开课的发展任重而道远。

参考文献:

[1]闫艳凤.中国大学视频公开课建设的现状分析及思考[J].软件导刊,2013(3):43-44.

[2]李益,范雅琳.对中国视频公开课的几点建议——基于逃课族的视角[J].软件导刊,2012(2):79.

[3]赵林.视频公开课“古希腊文明的兴衰”建设浅谈[J].中国大学教育,2012(3):17.

[4]傅吉艳,陈仕品.哈佛大学视频公开课《公正》设计分析及其启示[J].中国教育信息化,2013(11):18-21.

[5]刘颖,王向军,嵇斗,单朝龙.国内高校视频公开课建设现状研究与思考[J].西北工业大学学报,2013,33(2):104-105.

视频分析 篇12

现阶段视频会议系统应用环境的瓶颈主要有以下几点:

(1)网络服务质量(QoS)保障的欠缺,视频会议系统的实时交互性对网络提出了QoS的要求,包括基本带宽、丢包率、延迟(时延)及抖动等。没有这些量化的QoS指标的保障,我们的实时音视频交流就会出现如下障碍:连接丢失、图像不能分辨、声音中断、信号明显滞后、画面不连续等现象。视频会议系统发展到今天,其底层支撑网络主要是IP网络,这也是通信网络的发展趋势。然而,传统的IP网络并没有提供QoS保障。它最初是为简单数据通信而设计的,是开放、共享的,它的特点就是“尽力而为”。要在这样的网络环境上提供大量的实时多媒体通信服务,必须要有一些附加的措施。

(2)接入网的带宽问题,视频会议系统所需通信网络的带宽资源在接入网处存在瓶颈。主干传送网的带宽一般都是Gb/s、Tb/s的数量级,相当丰富了,而用户终端处的接入网相对而言就显得比较紧张。目前,网络用户的接入方式主要有拨号上网、xDSL(数字用户线路)、光纤接入或者HFC(光纤同轴电缆混合)接入以及无线接入等。光纤或HFC接入的数据传送率较高(10Mb/s左右),但价格偏贵,应用还不是很广泛;比较流行的是xDSL,如ADSL(上行为128~768Kb/s,下行为2~8Mb/s);拨号则逐渐淡出市场,毕竟能力有限(56Kb/s以内)。再看看视频会议系统对带宽的需求。数据的占用忽略不计,一路语音信号需6Kb/s (参考ITU-T的G.723规范),一路图像信号需64Kb/s (参考MPEG-4标准),视频会议系统终端需要80Kb/s左右的上行带宽、N×80Kb/s的下行带宽,其中N为参与交流用户的数量。依此看来,ADSL虽然能支持视频会议系统的应用,但是参与交互用户的数量被限制在个人以内。

(3)网络访问障碍,视频会议系统需要传输语音、图像、数据、控制等各种信息,需要使用大量网络资源,如需建立连接、获取真实IP地址、使用多个端口,而实际网络中的防火墙、代理服务器、路由器等设施对网络资源的操作进行了重重限制。

1 视频会议技术发展走向

视频会议自诞生以来,以其便利性、高效性帮助人们全面提升会议效率,从而获得良好的商业应用。而视频会议技术的不断升级,也是其广泛普及的重要动力,从视频会议结合协同办公促使商务升级,到高清视频技术应用带动会议质量快速提升,视频会议市场全面扩大。随着三网融合时代的来临,3D技术的运用,将彻底激发用户使用热情,或许将替代实体会议,为视频会议行业带来巨大的发展空间。

首先是用户体验会越来越好,包括视音频效果好、产品形态多样、管理维护使用操作简单等几个方面。视频效果将从720P过渡到1080P,近两年内将出现能够实现4K图像的视频会议系统。图像的压缩比也会增加,特别是H.265新技术的应用,能够实现很低带宽传输高清图像。比如可以在384K的码率下实现1080P高清图像传输。视频通信系统的形态也会发生变化,比如结合不同行业应用的产品形态、一些可穿戴的视频通信系统等。

第二个发展趋势是系统的开放性会越来越好。这不仅表现在不同厂家设备互联互通的开放性上,更多的体现为视频通信系统和周边系统之间的结合。比如视频通信系统和UC系统融合,建立统一通信系统;与监控系统、eLTE系统融合,打造一体化的融合指挥解决方案。这些互联互通的特性离不开整体的能力接口开放。通信场景聚焦硬件设备生产,而上层应用和下层数据的拾取则由合作伙伴来完成。

第三个趋势是云化的步伐。视频会议系统建设的整个商业模式将发生变化。企业为了进一步降低成本,提出了租赁的需求。因此将催生出满足不同领域的视频会议系统运营机构。对于视频通信而言这是一种新的业务模式。然而视讯设备商和用户则面临着巨大的挑战:产品架构和解决方案模式需要重新规划和调整;用户的习惯需要重新建立和培养。但是这些都不是阻挡云化的理由。必然会有更多的云视频业务进入企业中去。

2 网真视频会议技术发展

网真是一种新技术,它为人们和各个场所以及工作生活各个方面的交互创造了一种独特的面对面体验,通过结合创新的视频、音频和交互式组件(软件和硬件)在网络上实现了这种体验。

网真系统基于全新的远程呈现技术,综合集成了IP网络通信、超高清视频编解码、空间IP语音、建筑声学、空间照明以及人体工程学等领域的一系列技术创新,从而实现了网络与空间的真实转换,为远在异地的人们营造出一种跨越时空的真实面对面体验。

网真产品因其出色的音视频效果、独特的真实体验和感受,并且能够融合统一通信,实现与行业应用的无缝集成,从而具有极大的市场潜力和广阔发展前景。更多国内视频会议厂家的加入必将带动构建成本的降低,从而推动应用市场发展。另外,技术的成熟使得网真视频会议应用范围不断拓宽,在医疗、教育、军事等领域均有涉足,行业已经由单纯的产品模式转向产品与服务融合的模式。传统厂商将不再是简单的产品提供者,而是成为以产品为载体的服务者。

3 视频会议系统发展新常态

3.1 超高清

目前视频会议系统应用大多数是720P及1080P两种高清格式,随着编码技术H.265的应用普及,在视频监控行业逐步体现超高清技术的应用,随着网络带宽的普及以及费用的下调,超高清的视频会议不久应出现在市场上,同时,在一些特殊行业重要部门也会普及应用,例如部队、银行等行业,高清已经成为视频会议当前新常态,标清逐渐淡出市场。

视频会议无论发展到如何高清,都会兼容不同码流传送,在目前高清1080P的视频会议时代,同样可以随意调整码流,变成标清传送,同时要求视频会议系统具备自动根据网络环境自动调节,适应网络要求,满足会议顺畅、无拖尾等功能需求。

3.2 跨界发展

视频会议系统的发展在不同国家呈现的需求与发展不尽相同,在中国,随着兼容、定制化的流行,视频会议必须迎接上定制化的潮流,跨界整合,在不同行业的应用方式不同,名称不同,所以就出现“教育云视讯平台”、“远程医疗示教”等多种应用名称。

由于视频会议在国内发展迅速,因此在发展中视频会议厂商的协议标准不统一,所以目前国内市场存在不同品牌视频会议不能兼容的问题。但如视频监控行业的发展一样,在迅速的发展期中,行业一定会形成标准,因此,目前部分知名度较高的厂家率先公开自己的通信协议,品牌之间可以使用H.323协议建立相互兼容,市场的开放度越高,这样的趋势也会越明显,只有走出去,才能更好更快地得到用户的认可,赢得市场。

在国内市场,随着用户对计算机网络技术的提高,同时对系统的要求也越发清晰细致。用户不喜欢操作多个系统,这就要求视频会议系统必须跨界植入用户本身使用的系统或整合兼容。这样的要求需要强大的研发团队,同时加大服务要求,对国内的厂商来说利大于弊,因为通常情况,国内的品牌在品牌选择上优势比不过国外知名品牌,但是国外品牌在国内只有代理商,基本不具备再修改,定制化等服务要求,出厂标准化,随着户的需求改变,这是国内品牌厂商的一个非常好的时机,发挥自身优势,对不同行业定制不同服务标准,不同功能应用。

3.3 常态化应用

从1994年中国电信建成国内第一个会议电视党政专网,到2002年后我国政府和企业对于视频会议系统的市场需求剧增,国内市场的巨大发展潜力和可扩展空间“诱惑”国内外众多知名IT、安防厂商纷纷注目,如IT巨头微软、惠普、思科等纷纷加入市场并大展身手,引领视频会议行业多元化融合发展。

三网融合方案的重磅推出将为视频会议行业的融合发展再加一把火。“三网融合”即将电信网、广播电视网和互联网三网融合,这就意味着将广播电视技术的应用推送到移动互联网上,实现网络的高数据流低成本,视频会议将突破网络带宽的限制。

同时,“三网融合”直接催生“三屏融合”,即电视屏、电脑屏和手机屏的统一,视频会议将不再局限在会议室内,它将走出会议室。目前,视频会议应用虽然做出了相应延伸,被广泛应用在远程教育、电子商务、远程医疗、视频监控等多个领域,而且可视电话、软终端等低端产品逐步进入普通用户等新应用,但其现实应用依旧是脱离大众市场的。而未来的融合化发展将使视频会议被广泛应用于人们日常生活的方方面面,视频会议将不再是一个专业的概念,而是人们生活中不可或缺的一部分。

常态化应用的原因有如下几点:

(1)投入成本的降低。随着视频会议系统厂商不断加入、不断竞争,视频会议系统的价格也逐渐理性、标准。同时网络费用的投入成本降低,大多数企业单位都能够支付得了一个系统的费用。甚至视频会议将逐步走入家庭的远程视频沟通的行业。

(2)提高办事效益,创造更多价值。机关企业通过计算会发现,投入视频会议系统能够带来更高的办事效率,节省人力、差旅多种沟通成本,这让机关企业很乐意为此买单。

(3)降低沟通障碍,提供会议舒适性。目前大多数企业都发展到多分公司管理架构,多地客户业务架构,视频会议系统的沟通,通过良好的音视频交互,能够深刻模拟面对面交流,降低各种电话、邮件等沟通带来的障碍,同时配合图像、数据交互,提高会议舒适度,至少让人不再那么讨厌开会。

3.4 云服务

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面进行简单易用的操作,便可快速、高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SAAS (软件及服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,如好视通云会议、佐都云会议,基于云计算的视频会议就叫云会议。

在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问,视频会议运用云计算以后,在方便性、快捷性、易用性上具有更强的吸引力,必将激发视频会议应用新高潮的到来。云会议是视频会议与云计算的完美结合,带来了最便捷的远程会议体验。

4 视频会议云视讯的倡导者

上一篇:抚顺经济开发区下一篇:海藻酸钠疏水改性研究