音视频网页识别算法

2024-05-09

音视频网页识别算法（共4篇）

音视频网页识别算法篇1

1 引言

命名实体识别(NER)技术在信息检索、信息抽取以及问卷系统等多个领域都是非常关键的技术。随着互联网的发展,互联网所包含的海量数据越来越成为信息抽取的重要来源。目前,命名实体识别研究往往集中在自由文本领域,对于互联网环境下,如何结合网页结构特征,提高识别和关联精度等研究问题,尚处于起步阶段。本文提出了基于网页结构特征的中文命名实体识别[1]和关联算法。中文命名实体将主要考虑两种典型的实体类型:组织机构名和组织机构地址名。本文提出的算法流程可以简单描述为如下三个步骤[2]:

●候选实体产生步骤:将输入的网页进行解析,根据它的HTML结构转化为树状结构(DOM树)。DOM树的内部节点是HTML标l签,而其叶节点是内容文本。每一个叶节点所包含的文本被认为是一个候选实体。

●候选实体识别步骤:在此步骤中,设计了一系列在候选实体上进行中文组织结构名称和地址识别算法。

●实体关联步骤:在前面两步的基础上,识别出的组织结构名和地址将通过关联算法,利用D O M树的结构和其他特征进行关联。

2 实体候选项生成算法

网页是通过HTML结构创建的。而HTML结构是由很多不同的标签组成的,H T M L标签可以用作实体间的自然分隔符,用于确定实体边界有用的特征。即使无法识别出一个网页中的所有实体,但是考虑到实体在网站级别和互联网级别[3]的重复性,也可以达到相当好的召回率。识别结果的交叉验证是有可能的,而且在识别过程中非常关键。通过结果的交叉验证,错误的识别结果可以通过在同一页面或者不同页面上的正确识别结果来校正。本文提出的候选生成算法通过两步描述:

●将网页通过HTML解析转化为DOM树结构,在D O M树中,叶子节点只保存文本内容信息。

●对每一个叶子节点,将其包含的文本进一步通过标点符号进行分割,得到一个短语序列。每个短语会被考虑成一个候选实体,并由识别算法进一步处理。

经过候选实体生成阶段,网页被转化为D O M树形式,其叶节点只包含被分隔的短语。

3 中文组织机构名和地址识别算法

中文组织结构名称[4](Chinese Organization Name:CON),类似于人名,是一种无法用词典来列举的特殊实体。但通过对大量实例的观察,可以总结出一些规律:

●中文组织结构往往使用地理词作为其名称的前缀。比如说,“烟台大酒店”的前缀:

“烟台”,就是一个典型的地理词,暗示着这个机构的所在地。

●中文组织结构名称往往以类型词作为名词的结尾。再以“烟台大酒店”为例,其后缀“大饭店”指明了它的类型。

●有些词几乎不可能在机构名l称中出现。有些词比如“失败”,“邪恶”等等,根据中文命名习惯,一般不会出现在中文名称里。

中文组织结构地址(Chinese Organization Address:COA)的识别相对于名称的识别更为困难,因为中文地址命名规则复杂,并且在网页中,存在大量的缩写情况。网页中出现的地址类型主要包括完整的常规地址(A)、使用建筑物作为地址简称(B)和相对地址类型(C)三种。对不同的类型有不同的识别算法。对第一种地址A采用分类标注的方法,将地址识别问题转化为文本分类问题,利用分类工具将候选实体区分为地址类型和非地址类型。地址类型B和C的识别相对更为困难。考虑到这两种类型的地址里,总是会出现建筑,公司等组织机构名称,因此在处理过程中,本文提出首先利用组织结构名称识别算法队候选地址进行识别,以发现候选地址中出现的组织结构名。同时检查在这些识别出的机构名前后是否出现指示性的词语和位置补语。其中一些预定义的提示性词和位置补语列在表1中。

4 命名实体关联算法

一个网页可以通过一颗DOM树表示。命名实体识别算法就是在DOM树的叶节点上进行的。在识别算法完成之后,叶节点所包含的命名实体类型都已经被确定。由于命名实体识别算法往往只针对单个实体进行分析,而忽略实体间的关系。我们考虑命名实体关联算法。实体关联算法[5]总结为如下三个步骤:

●第一步:对于每个叶节点(Leaf Node)中的文本,对其中包含的每一个COA(地址类型),向前查找(从右自左)CON,直到找到第一个满足不冲突原则的CON实例。如果在一个叶节点中完成了一轮匹配,仍然还有没能匹配到的实体(不论是COA还是CON),将它们按序上传到此叶节点的父节点。

●第二步:对于一个中间节点(Internal Node),从其子节点中接受未在第一轮匹配的实体,并将它们按子节点的顺序排列。按照第一步的方法对这些汇总的实体再次分配。如果有剩余未匹配的实体,就将它们上传到上一层节点。

●第三步:如果已经到了根节点,算法停止,并输出所有匹配的实体对。否则转到第二步。

5 实验

本实验下载了400篇中文网页,每个网页至少包含一个中文组织结构名或者地址,这些网页将作为测试集合。经过人工标注,测试集总共包含了2 5 1 0个地址和4616个公司名字,但包含完整地址和名字的组织实体只有2081个。

本实验采用了精度(Precision),召回率[6](Recall)以及F-measure衡量和评价实验结果。这三个标准的定义如下:

其中,β是准确率和召回率的相对权重。在本实验中,取β=1。

在衡量实验结果时,只有当抽取的实体(组织机构名或地址)能完全的和标注的数据相匹配的时候,才会被认为是正确的抽取。对本文提出的算法而言,测试集中的每个网页将被解析成DOM树结构[7,8],并将其作为实体识别以及实体关联算法的输入。在本系统的识别过程中,不仅被H T M L标签分隔的短语会被为候选实体,同时包含在文本内容中的短语也会同样被当做候选实体处理。中文组织结构名的识别结果如表2所示。从中可以看出,本系统在F-measure衡量指标中比基准系统提高了14.3%。可以看出,本系统的精度(Precision)并不是很高,主要是由于有很多的实体出现在文本中,并没有被HTML标签分离出来。但是,同一个实体,往往会出现在同一个页面的不同位置。在实验的测试数据中随机选出了一个页面,有一个机构名在不同的位置,总共出现了十四次:标题中出现了一次,元数据中出现了六次等等。在这十四次中,有九次的位置刚好位于HTML标签或者标点符号之间,处于这些位置的实体可以成功被本系统识别。因此本系统的召回率仍然是可以接受的。

在地址识别中,本系统采用了支持向量机(SVM)作为地址分类的工具。本实验采用不同核(Kernel)方法以及相关参数做了细致的对比实验,不同核函数在地址测试数据上的实验效果如表3所示。

最后,将训练而得的分类器应用于400个HTML测试页面,结果如表4所示。

结果显示,本系统对网页中地址的分类具有非常好的效果。

在实体关联实验中,选取了页面级别的实体关联以及语料级别的实体关联[9]。在页面级别的实体关联实验中,如果两个实体被系统认为是关联实体,仅当这两个实体在同一页面中被标注为关联实体,才会认为是一次正确的识别。在语料级别的关联实验中,如果两个实体被系统识别为关联实体,当这两个实体在语料中任意一个页面中被标注过,就会被当做一次成功的标注。本文采用权重比较的方法进行交叉实验[10],每个被关联实体对的权重是根据其共同出现次数来决定的。实验结果如表5所示。

6 结束语

本实验提出实体候选项生成过程,通过将网页解析成DOM-Tree结构,从中识别候选项。实体识别算法将候选实体进行分类,获得其最终类型。实体关联算法根据网页的结构和实体之间的关联度,对实体进行匹配实验结果说明本系统是非常有效的。

参考文献

[1]周俊生,戴新宇,尹存燕,陈家俊.2006.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,345(5):804-809.

[2]AUER S,BIZER C,KOBILAROV G,et al.Dbpedia:A Nucleus for a Web of Open Data[M].ISWC/ASWC 2007.

[3]BUITELAAR P,RAMAKA S.Unsupervised ontol-ogy-based semantic tagging for knowledge markup[M].Workshop on Learning in Web Search,2005.

[4]CHEN F,DOAN A H,YANG J,et al.2008.EfficientInformation Extraction over Evolving Text Data[M].ICDE2008.

[5]赵欣欣,索红光,刘玉树等.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145.

[6]殷贤亮,李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报(自然科学版),2007,35(10):39-41.

[7]李向阳,苗壮,肖江.无结构文本信息抽取综述[J].军事通信技术,2004,(2):31-36.

[8]王琦,唐世渭,杨冬青.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792.

[9]吴鹏飞,孟祥增,刘俊晓.基于结构与内容的网页主题信息提取研究[J].山东大学学报(理学版),2006,41(3):131-134.

[10]YAN LIU,QIANG WANG.A Heuristic Approachfor Topical Information Extraction from News Pages[J].Lecture Notes in Computer Science:Spring,2006:357-362.

基于视频图像的火焰识别算法篇2

火灾严重危害人类生命财产安全,火灾发生的突发性和随机性,加大了火灾的预警与监测难度。传统的火灾报警平台主要是以烟雾传感器、温度传感器等判断烟雾浓度、温度高低,其缺点是并看不到火焰本身,会将没有烟雾的火灾忽略掉,误判率高并且识别时间是在火灾发生很久之后,不能起到很好的预报作用。

针对传统火灾报警平台的以上缺点,近几年来,以视频图像为研究基础的火焰识别技术得到广泛关注与研究,国内外很多学者在该领域内做出了杰出的贡献,提出了很多有指导意义的研究方法。吴龙标等人提出了通过尖角判据识别火焰的方法[1],Yamagishi等人使用HSV颜色空间模型,依据火焰颜色的色度和饱和度的变化来提取火焰区域,通过边缘算子来提取火焰轮廓,并且利用极坐标变换将提取出的火焰轮廓转换为极坐标形式,然后利用傅里叶变换提取轮廓的频域特征[2],冯春环等人提出了一种基于离散余弦变

换的红外目标特征描述方法[3],袁非牛等人提出了一种基于规格化傅里叶描述子的轮廓波动距离模型来度量火焰轮廓的时间变化特征[4]。本文在总结前人研究成果的基础上,通过分析红外图像的亮度特征,面积增长特性,利用基于离散余弦变换的火焰轮廓跳动特性以及基于彩色图像的RGB空间颜色模型的色彩分析等为判断依据,提出了一种基于视频图像的火焰识别算法。

1 疑似火焰区域提取

1.1 基于红外图像的温度阈值分割

红外线辐射是自然界存在的一种最为广泛的电磁波辐射,它是基于任何物体在常规环境下都会产生自身的分子和原子无规则的运动,并不停地辐射出热红外能量,分子和原子的运动愈剧烈,辐射的能量愈大,反之,辐射的能量愈小。温度在绝对零度以上的物体,都会因自身的分子运动而辐射出红外线。红外热像仪就是利用红外探测器和光学成像物镜接受被测目标的红外辐射能量分布,将其反映到红外探测器的光敏元件上,从而获得红外热像图,这种热像图与物体表面的热分布场相对应。通俗地讲红外热像仪就是利用热像仪固有的颜色查找表将物体发出的不可见红外能量转变为可见的热图像,热图像的上面的不同颜色代表被测物体的不同温度。本文采用的是非制冷长波红外热像探测器,利用的是白热模式的颜色查找表,热像仪显示的图像是灰度图像,即温度越高的物体对应的热图像亮度越大。

火焰发生的过程伴随着发光、发热的现象,火焰发生区域的温度要明显高于周围环境的温度。鉴于其热相图的亮度分布是与温度高低成正比的,可以通过对采集得到的红外图像进行亮度阈值分割,从而初步提取出高温物体区域,即高温疑似火焰区域。假设采集得到的热相图灰度级别为0~255,设亮度阈值为TD,则可用如下公式1提取高温疑似火焰区域,即温度阈值分割的输出图像:

红外热像仪采集得到的原始图像及温度阈值分割后得到的二值化图像如图1所示。

1.2 彩色空间色彩分析

由于火焰的颜色与温度具有相关关系,随着火焰由焰心到火焰外表面温度的升高,其颜色依次为暗红色、红色、橙色、黄色、蓝白色和白色[5],也就是说火焰具有一定的颜色特征,因此在图像处理中,可以通过图像像素颜色来判断是否出现实际火灾火焰[6]。并且由于颜色特征具有与图像中所包含的物体或场景强相关,而对图像本身的尺寸、方向、视角的依赖性小等特点而被广泛采用。假设采集得到的彩色图像大小为Weight×Height,摄像头输出的原始图像数据格式为YUYV[4∶2∶2],则可以通过一定的转换关系得到RGB空间的图像数据。进而利用计算机三维重建技术对红外热像仪和彩色摄像机进行双目摄像机标定,从而由红外图像上高温疑似火焰区域匹配到彩色图像上对应的高温疑似火焰区域。与此同时将彩色图像的图像数据格式转换到RGB空间,分析彩色图像上的高温疑似火焰区域对应的RGB空间的图像数据关系,用于排除干扰得到疑似火焰区域,并且RGB空间图像数据模型可以直观的在显示器上显示。YUYV[4∶2∶2]格式为每个像素保留Y分量,而UV分量在水平方向上每两个像素采样一次。一个宏像素为4 B,实际表示2个像素(4∶2∶2的意思即在图像数据存储形式上,每4个Y分量、对应2个U分量和2个V分量)。图像数据中Y,U,V分量排列顺序如下:Y0U0Y1V0Y2U2Y3V2…,则YUYV[4∶2∶2]可用如下转换公式得到RGB空间数据,以后像素点的RGB值以此类推:

第一个像素点的RGB数据:

R=1.164 f(Y0-16)+1.159 f(V0-128),

G=1.164 f(Y0-16)-0.38 f(U0-128)-0.813 f(V0-128),

B=1.164 f(Y0-16)+2.018 f(U0-128);

第二个像素点的RGB数据:

R=1.164 f(Y1-16)+1.159 f(V0-128),

G=1.164 f(Y1-16)-0.38 f(U0-128)-0.813 f(V0-128),

B=1.164 f(Y1-16)+2.018 f(U0-128);

火焰的色彩学特征主要有以下两条:

(1)颜色各分量的关系[7]:R≥G≥B。

(2)颜色各分量取值范围[6]:255≥R≥117255≥G≥88,255≥B≥44。

由于火焰中心偏白的缘故,以上第一条对火焰中心可能并不适用。满足以上两个条件的疑似火焰区域,可能是真实的火焰区域,但也有可能是偏红色或者橘色的高温物体点,所以要确认其火灾的真实性,仍需通过下一步继续判定。

经过以上2个步骤的分析与提取后,实验结果如图2所示。

2 火焰动态特征分析

2.1 基于红外图像的区域变化特性

火焰在燃烧初期,具有很明显的增长膨胀趋势,因此可以在通过温度阈值分割、颜色分析提取出疑似火焰区域之后,通过计算疑似火焰区域的面积的变化情况来进一步考察是否有真实火灾火焰发生。因为红外热像仪的采样频率最大为9 Hz,即1 s最多拍摄9帧图像,故本文采用比较间隔为5帧的2幅图像的疑似火焰区域的面积变化情况,来判断火灾发生的可能性。如果前后两幅图像的疑似火焰区域的面积一直相等,则说明该疑似火焰区域可能是一些高温物体,如电烙铁、高压线、白炽灯等,并不是真实的火焰,不具有灾难性的损害。若面积一直在增长,则需要通过进一步分析来判断,其是否是火焰在燃烧。因为面积增长的原因,可能是由于高温物体如电烙铁相对热像仪由远及近的运动,导致成像区域面积一直在增加。

2.2 闪动特性

随着火焰燃烧过程的持续,空气气流的流动导致火焰呈现一定程度的无序闪动,它是一种持续高频的随机变化,被叫做火焰的闪动特性。它不同于一般的刚体运动,火焰的闪动具有随机性、时频性,并且具有与材料和燃器无关的动态频率范围(10 Hz左右)[8]。程鑫等人根据香农定理和PAL-D标准电视制式,同一像素点每秒采样25次,可以准确的分辨出小于12 Hz的像素亮度变化周期的原理,提出了利用逻辑0-1比较法技术的方法进行火焰亮度变化周期的计算,即得到火焰闪烁频率的周期[5]。由于本文采用的红外热像仪的采样频率最大为9 Hz,故该计算火焰闪烁频率的方法并不适用。B.Uur Treyin等人在提取运动的火焰颜色区域的基础上,利用小波变换来分析该区域运动的时频特性,并由此估计火苗闪动的存在[9]。冯春环等人提出了一种基于离散余弦变换的红外目标特征描述方法,并且其验证了和傅里叶描述子相比,在保证识别率不变的情况下,采用余弦变换描述法可以减少数据计算量和运算时间[3]。又由于同傅立叶描述子一样,离散余弦变换描述子对目标具有平移、旋转和比例不变性,因此本文采用基于离散余弦变换描述法来描述火焰的时频特性。

对于给定的序列x(n),n=0,1,2,…,N-1,其离散余弦变换(DCT)定义[3]为:

式中:k=1,2,…,N-1。

显然,其变换的核函数Ck,n是实数,Ck,n可表示为:

这样若x(n)是实数,那么它的DCT也是实数。对离散傅里叶变换(DFT),若x(n)是实数,其傅里叶变换X(k)一般为复数,由此可见,DCT避免了复数运算。

提取疑似火焰区域轮廓,设Zm表示轮廓上第m个坐标点(xm,ym),且定义Zm为复数,即Zm=xm+jym,对其做离散余弦变换得:

由于常规离散余弦变换不具备仿射变换不变性,而这种不变性对于识别具有重要意义。因此,需要对离散余弦变换系数进行规格化,使其具有平移、旋转和尺度不变性。由于|F(0)|是直流分量,仅表示图像所处的平移位置,应舍弃,C(1)≡1故舍弃,C(k≥2)即为离散余弦变换描述子[3]。由于其低频部分反映了图像的整体轮廓,高频部分仅刻画了外形的细节,因此这里取前10个系数用于描述图像整体轮廓,并由此得到具有平移、旋转和尺度不变性的离散余弦变换描述子DC,其表示为DC=(C(2),C(3),…,C(9)),它是一个8维的向量,可近似表征轮廓特征。

假设DCt与DCt-1分别表示第t帧和第t-1帧图像的离散余弦变换描述子,则相邻2帧中同一目标的轮廓变化程度可以用如下距离模型来表示:

图3给出了蜡烛火焰、烙铁图像及提取出的目标轮廓,表1给出了图3中目标轮廓的8维离散余弦变换描述子DC。

采用阈值分割法,假设给定阈值为DD,则利用式(10)提取真实火焰:

相邻两帧图像目标轮廓变化的距离大于阈值DD的,视为其轮廓变化明显,闪动频率较高,具有真实火焰的闪动特性。

3 识别算法

本火焰识别算法的基本步骤如下:首先进行基于红外图像的温度阈值分割得到高温疑似火焰区域,然后分析对应彩色区域的RGB数值关系,排除干扰,得到疑似火焰区域。紧接着计算疑似火焰区域的面积增长情况,提取疑似火焰区域轮廓,对其进行离散余弦变换,提取其离散余弦变换描述子,计算前后2帧图像目标轮廓对应的离散余弦变换描述子的变化情况。整个流程如图4所示。

4 实验结果与分析

实验平台为PC104单板计算机,采用Celeron-M600 MHz CPU,512 MB DDR内存,典型功耗12 W,带有一个CF卡接口,外接一个8 GB容量大小的CF卡。算法实现采用(Open Source Computer Vision,OpenCV)与C语言编程实现。为减少计算量,视频图像序列分辨率为320×240,以蜡烛火焰与烙铁作为测试对象在室内环境下做相应实验。

首先对红外热像仪采集得到的红外图像进行温度阈值分割处理,因为蜡烛火焰和烙铁的温度相对背景环境高出很多,同时由于室内地板反射到烙铁的亮度的原因,因此得到的图像如图1所示,阈值分割出蜡烛火焰、烙铁及其地面的反光。与此同时,彩色摄像机采集图像并进行格式转换工作,将其格式转换到RGB空间,接着利用三维重建技术匹配蜡烛火焰、烙铁及其反光区域到彩色图像中,对其进行RGB空间色彩分析,得到图2(b)中用红色圆圈标记的蜡烛火焰区域。然后使用面积判定方法,但由于室内蜡烛火焰是较稳定的火焰,所以其面积增长特性并不明显。

紧接提取相邻两帧图像的目标轮廓,对其进行离散余弦变换,可以得到蜡烛火焰的轮廓变化距离要远大于烙铁,这说明即使是稳定的蜡烛火焰,也呈现出一定程度上的闪动特性,并且利用轮廓的离散余弦变换具有非常敏感的计算精度。

5 结语

音视频网页识别算法篇3

当今社会已进入信息时代,网络应用蓬勃发展,人们日常工作生活对计算机信息系统的依赖性很强,当泄漏电磁波携带有用信息时,就有可能造成信息泄漏。针对信息处理设备泄漏发射导致的信息泄漏问题(被截获与重建)的技术,在国际上被称为TEMPEST。进行TEMPEST的研究,不仅有利于相关技术和学科的发展及应用,更重要的是,有利于建设完备可靠的信息安全体系,并占据信息对抗的主动权,保障信息安全和国家安全。

红信号指的是经调制后承载了有用的信号,黑信号不携带有用信息,视频红信号指的是能够还原出原始视频信息的信号[1]。本文通过天线接收平台接收到计算机视频辐射的射频信号,通过对视频信号的频谱进行分析,得到了视频信号的独特的特征,视频信号频谱中的每个波瓣都是由行频与其谐波的等间隔谱线族构成,行频谱线则由场频及其谐波的等间隔的谱线族构成[1]。通过采用基于最小二乘法曲线拟合的波峰搜索算法来进行视频信号识别,我们可以获得视频信号的中心频点及行频等信息,最后根据行频信息和点频信息来复现原始视频图像[6]。

1 理论分析

1.1 计算机视频辐射的截获原理

视频信号其实是一个周期信号,由于视频信号中包含了规律变化的行、场同步信息,又包括随机的视频信息成分,这就使视频信号的分析变得复杂,它的频谱既包含周期信号产生的离散频谱,又包含了随机成分产生的连续的宽带成分[2]。

视频的时域表达式为,也就是说视频信号可用点频信号、行同步、场同步信号的乘积得到的。我们可以理解为场频信号被行频信号调制,而行频信号被点频信号调制。所以可以在行频的谱线中发现场频信息,而在点频频谱的波瓣中可以发现行频信息。(如图1)

我们搭建一个用于获取计算机视频泄露信号的硬件接收平台,泄漏发射计算机的实际行频:31325.997Hz,场频:59.670Hz,计算机辐射视频信号通过天线接收,经过接收机后,使用频谱仪截取的32ms的采样率为250MHz的视频信号的频域数据。根据前面对视频信号的理论分析,我们对视频信号频谱的进行频谱分析,识别出220MHz-280MHz范围有明显的视频信号特征。(如图2)

我们对视频信号进行数字带通滤波,滤出220MHz-280MHz频谱成分,就得到了中频的视频信号,根据前面的分析,可知视频信号的表示可以理解为场频信号被行频信号调制,而行频信号被点频信号调制。我们可以在行频的谱线中发现场频信息,在点频频谱的波瓣中发现行频的信息,我们采用图3中所示的算法流程,来进行视频红信号的识别。

上述算法流程的核心在于分别在1KHz和10Hz的频谱分辨率下进行峰值搜索以及等间隔谱线存在性的判定,从而获得中心频点等信息。如何能够在各种噪声干扰混叠的视频信号频谱中找到真正有用的红信号呢?下面将采用一种二次线性拟合的平滑化波峰搜索算法来搜索波峰,从而获得视频信号中心频点及行频信息,最终通过行同步信息与场同步信息来实现视频泄露信号的图像复现[4]。

2 红信号识别中的波峰搜索

2.1 视频信号频谱的三角窗平滑化处理

视频红信号识别很重要的一环在于对波峰的搜索,而波峰在数学定义上指的是峰值点处的一阶导数为零的地方,这里我们称之为过零点。但是在真实的实验场景下由于各类噪声的干扰,会导致频谱上出现许多无效的过零点,如图4所示。

根据对图中频谱形状分析,采用基于三角窗的平滑算法进行优化,其基本原理是在频谱的幅度值的一维数组上,选择一个固定的宽度的三角窗,三角度依次滑动,在滑动过程中,逐步对三角窗内的数组进行类似求平均值的平滑处理,具体函数如下:

Y表示一维的幅度数组,W表示三角窗窗口的宽度,P表示平滑处理后返回的一维幅度值数组,这里我们三角窗窗口宽度设置为5个频率采样点,通过matlab仿真后,得到如图5所示的频谱曲线。

根据图4与图5在250MHz频点附近的波形,我们可以发现,经过三角窗平滑处理后的频谱曲线的无效过零点明显减少,波峰特性更加清晰,说明经过三角窗平滑处理后的频谱数据能够较好的减少由各类噪声产生的无效过零点的干扰。

2.2 最小二乘法曲线拟合搜索波峰

最小二乘法曲线拟合的基本原理是对给定数据点,在取定的函数类φ中,求使误差的平方和E2最小。

从几何意义上讲,就是寻求与给定点的距离平方和为最小的曲线。函数p(x)称为拟合函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。

根据第一章节中的描述,我们可以得到一个大致频谱波峰搜索的流程,如图6所示。

通过在2.1节中的三角窗的处理,我们得到了经过平滑后的220MHz-280MHz范围内的视频频谱数据,接下来我们继续采用最小二乘法进行分段曲线拟合,我们设置幅度阀值,斜率阀值,曲线拟合宽度阀值来对搜索算法进行调优[5],具体函数如下:

X:平滑后的频谱图的横坐标。

Y:平滑后频谱图的纵坐标。

S:斜率阀值,任何斜率大于该值的波峰被忽略。

A:幅度阀值,任何幅度小于该值的峰值被忽略。

F:一次曲线拟合的宽度(采样点个数)。

按照图3所述的算法流程以及视频电子标准协会发布不同分辨率的视频参数标准,我们在10KHz的频谱分辨率和搜索半径为1MHz的条件下对频谱进行一轮波峰搜索,通过发现存在间隔范围在30KHz-120KHz之间的等间隔波峰谱线来确定可能的中心频点,在第二轮搜索中在10Hz的频谱分辨率和搜索半径为1KHz条件下对频谱进行波峰搜索,通过发现存在频谱间隔范围在40Hz-90Hz之间的等间隔波峰谱线,我们最终确定所有找到的符合要求的最大峰值点,也就是视频信号的中心频点。

另外由于三角窗平滑处理,以及最小二乘法曲线拟合带来了波峰位置,高度,宽度上的误差,所以我们需要在斜率阀值,幅度阀值,曲线拟合的宽度等参数进行调优,从而找到最准确的中心频点。

3 实验仿真

根据上两个章节的描述,我们按照图3与图6所示的算法流程,在matlab上进行中心频点搜索算法的仿真,经过参数调优,在波峰斜率阀值等于0.05,波峰幅度阀值等于1.76,曲线拟合宽度等于13个采样点的时候,得到如图7所示的仿真结果。

各中心频点的具体结果信息如表1:

注:视频红信号算法搜索出的中心频点的序号,波峰位置,波峰高度,波峰宽度

我们采用第三个峰值点250.5834MHz为视频信号的中心频点,认为以250.5834Mhz为中心,5M为半径的区间频谱数据可以还原出原始视频信息,区间以外的频谱数据全部置零,对得到的频谱进行IFFT变换,最后根据计算机的实际行频,场频信息,复现了原视频信号图像[4],如图6所示:

本文在计算机视频泄露红信号识别的理论基础上,详细研究了一种采用最小二乘曲线拟合的平滑化波峰搜索算法。通过对视频信号频谱加三角窗进行平滑化处理,有效的抑制了各类噪声的干扰,同时采用最小二乘法进行曲线拟合,配合幅度阀值,斜率阀值,波峰宽度阀值动态调优,获得了视频信号的中心频点以及行频信息,最后通过点频信息、行频等信息,复现了泄露视频信号的原始图像。

参考文献

[1]杨文翰.实用化的计算机辐射信息截获技术研究[D].北京:北京邮电大学,2011.

[2]张洪欣,吕英华,邱玉春,等.计算机视频电磁信息泄漏效应研究[J].通信学报,2004,25(4).

[3]吕英华,贺鹏飞,张洪欣.多导体连接器孔隙电磁辐射信息泄漏效应研究[J].哈尔滨工程大学学报,2004,(04):517～520

[4]张洪欣,吕英华,贺鹏飞,等.计算机电磁信息泄漏文字再现[J].西南交通大学学报,2007,42(6):653～658.

[5]张洪欣,吕英华,邱玉春,等.计算机电磁信息泄漏阈值效应研究[J].通信学报,2004,25(10):87～92

[6]刘振东,计算机视频泄漏信息截获系统设计.[J]2007,西安电子科技大学.

音视频网页识别算法篇4

智能视频分析的算法已出现许久, 但是大都基于理论的研究, 很少能正确稳定地运行。基于泉州供电公司六井孔1号开闭所的将近2年的智能视频分析应用效果, 介绍如何将视频分析算法实用化。

目前计算机的处理能力已经成指数级的飞跃, 借助智能视频分析服务器对实时监控视频的图像分析, 能有效地识别出出入人员的安全帽佩戴及红马甲等, 进而排除干扰物及环境噪点, 从而高效正确地分析出人员的着装规范。

1 方案设计

开闭所具有旧的模拟监控系统, 为节约成本, 将由不同的模块组成基于分析引擎的视频监测系统, 每个模块都有其特定的功能。网络和模拟共存的配置结构如图1所示, 包括运行在视频监测设备上的视频源和分析引擎、运行在中央服务器上的智能报警服务器和策略管理器、运行在不同计算机上的智能报警浏览器系统 (既可以是只包含处理单路视频的单个服务器, 也可以是包含大量摄像机的大型网络) 。即使这些模块分布在不同的计算机上, 系统结构保持不变。

实践证明, 该结构可以有效地利用原有视频系统, 并且在增加网络视频监控时也能应对自如。

软件结构如图2所示。

智能分析引擎是系统的核心, 使用监控的规则文件来对每个摄像机图像设定报警规则, 以判断和分析从视频源中接收到的视频是否符合设定的报警条件。分析引擎是分析和处理视频数据的视频图像分析程序, 对来自实时视频源或文件的视频进行分析, 监测与加载的规则集相匹配的事件。

2 安全帽识别算法

安全帽视频分析算法是基于背景减除方法衍生出的高级算法, 区别于普通图像识别, 其最大的特点是运动性及环境的多变性。安全帽的识别是在移动视频分析的基础上对颜色位置更为具体的一种识别方式, 首先需要对移动物体进行判断, 然后定位移动物体的头部, 对头部颜色及大小进行分析判断, 再通过比较判断是否为安全帽。

2.1 运动物体分析

背景减除法是利用当前图像和背景图像的差分, 并通过特有的抗干扰算法 (算法下述) 来检测出运动区域的一种方法。此算法可以提供完整的运动目标特征数据, 具有良好的精确度、灵敏度和性能表现。背景的建模是背景减除法的技术关键, 在系统初始化时, 系统能自动适应环境来建模, 根据背景实际的“复杂程度”选取一定的学习时间。一般在系统建模完成后, 随着环境因素的变化, 背景会有一些改变, 系统具有“背景自维护”能力, 即可以将一些后来融入背景的物体 (如云、光影、雨雪、波浪等) 自动加为背景。

系统分析过程:首先系统进行背景学习, 学习时间根据背景复杂程度有所不同, 在学习期间系统自动建立背景模型;之后系统进入“分析”状态, 如果前景出现移动物体, 并在设置的敏感区域内, 且目标物体大小满足设置, 系统将会对该目标进行跟踪, 并根据预先设置的规则 (入侵、遗留、徘徊等) 触发报警。跟踪目标过程中, 几种决策算法同时分析数据, 提高了检测的可靠性, 降低了误报率。系统可以在各种不同的复杂环境下正常工作。

背景减除法的物体运动分割流程如图3所示。

2.2 目标物体识别

背景减除法采用的是当前帧与背景帧的差分, 这样可以进一步得到动目标的位置信息, 以便确定目标的运动方向, 并且为下一步的辨识工作提供可靠的数据信息。背景帧的选择是一个关键问题, 每一路视频都要有一个没有目标的原始图像性质的背景图像, 此背景图像相对稳定, 开闭所平常的环境就是无运动物体, 所以适合此算法。不能直接用系统启动时的原始图像进行背景初始化, 因为此原始图像为系统启动时第一次采集的图像, 不能保证图像中没有运动目标。如果有运动目标存在, 则会做出相反的判断, 把没有目标的地方误认为有目标出现, 相反, 有目标的地方则认为是背景了。因此作为背景的图像, 要求其中不允许有运动目标出现。

2.3 过滤干扰算法

树枝摆动、背景中相对不动的物体的微小移动, 及天空中的雨点或雪花, 都会影响到背景的更新, 如果背景更新不当, 相当于人为加入干扰噪声, 系统的检测就会很难正确实现。实际场景中的背景很复杂, 存在各种各样的干扰, 且背景是随时间不断变化的, 过滤干扰算法能处理这些干扰和变化。该算法的特点:

(1) 能适应背景随时间的缓慢变化, 如一天中不同时间段的光照变化。

(2) 能适应背景物体的变化, 如场景中移入新的物体, 背景中的物体移出场景等。

(3) 背景模型能描述背景中的一些较大扰动, 如树叶晃动、显示器屏幕闪烁等。

(4) 能检测出光照的突然变化, 并能在尽量短的时间内适应这种变化。

该算法充分利用多帧的累计效应, 通过一个增益因子, 适当调节帧间的信号差, 然后累加在背景帧中, 通过调节增益因子的大小, 获得最佳的背景图像。

该增益因子的计算公式:

其中, α为渐消因子, 决定增益因子k (i) 的大小, 取值范围为α∈ (0, 1) ;φ軍 (i+1) 是当前背景的估计, φ軍 (i) 是前一帧背景的估计。

最后加入颜色识别和头部识别算法即可完成一次识别过程。目前国家电网公司主要以蓝色及红色安全帽为主, 因此颜色的识别并无难度。而头部的识别可根据场景的比例定义, 如安全帽占人物比率的20%等, 系统提供三角形区域定义用以识别头部。

3 结语

该系统于开闭所运行2年来, 误报率为7%~11%, 已经完全可以满足开闭所无人值守的要求, 随着对现场环境的不断自我学习, 调整算法参数, 误报率会越来越低。