多尺度特征(共8篇)
多尺度特征 篇1
0 引言
阴影是许多图像的组成部分,有时候反映了物体形状、大小等重要信息,然而图像中的阴影会对图像的后续处理造成不利的影响。例如:在智能视频监控中,阴影会严重影响目标的跟踪。阴影检测率会直接影响阴影消除的效果,因此阴影检测也是近些年的研究热点之一。
目前阴影检测方法大体可以分为两类:基于模型[1,2,3]的方法和基于特征[4,5,6]的方法。基于模型的方法利用一定的先验信息建立光照模型来检测阴影;基于特征的方法根据阴影的色度、亮度等特征来识别和检测阴影。基于模型的方法通常需要利用多幅图像的先验信息进行建模,该类方法有一定的局限性,只适合于特定的场景。基于特征的方法不需要场景的先验知识,仅仅通过图像的特征检测阴影,时间复杂度较小。当阴影区被覆盖时,虽然亮度变低却仍然保留着一定的色度信息,依据这一特点,在阴影检测时往往将图像转换为亮度与色度相互独立的颜色空间[7,8]。基于色度的阴影检测方法计算量小,但是对噪声和光照比较敏感。近几年来,基于统计属性[9,10,11,12]的阴影检测方法受到了更高的关注。Zhu等[9]基于图像的可变特征和不可变特征、Lalonde等[10]基于图像的色彩特征和纹理属性、Jiang等[11]基于图像的色彩分割与照明估计、Guo等[12]基于成对区域,这类方法都采用条件随机场标识阴影区域。该类方法对不同的场景与不同光照条件具有较强的适应性,代表了当前的研究水平与未来的发展方向。但是该类方法都需要花费大量精力小心的设计这些特征。Zhu等[9]提取可变特征与不可变特征,这些特征用来训练一个分类器,该方法消耗资源大训练时间长。Lalonde等[10]使用了48维的特征向量,虽然增加特征维数能够达到很好的效果,但是阴影检测的时间大大的增长了。Jiang等[11]对Lalonde等[10]方法进行了改进,取得了更好的效果,却花费了更长的时间。Guo等[12]首先采用均值漂移的方法对图像进行分割,把提取的特征作为支持向量机(SVM)的输入建立分类模型。该方法对局部细节噪声较为敏感并且当场景比较复杂时大大增加了SVM的测试时间。
针对上述方法的缺点,本文提出一种新的多尺度特征学习的阴影检测方法。与上述基于统计属性的方法相比,本文方法是一种在场景中,通过特征学习的方法学习大部分相关特征,这些特征用来进行阴影检测。卷积神经网络CNNs(Convolutional Deep Neural Networks)[13]是人工神经网络的一种,已成为当前图像处理领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。它模拟人脑进人脑的机制来解释、处理图像等。因此,本文采用卷积神经网络进行特征学习。一个像素是否属于阴影区像素,不仅与像素自身的亮度、色度等特征有关,还与其周围相邻区域与不相邻区域有紧密的关系,多尺度(图像的拉普拉斯金字塔)的特征学习很好地解决了这个问题。条件随机场CRF(Conditional Random Fields)[14]是一种基于统计的模型。2001年,由John等人首次提出,可在给定全局条件的前提下,计算全局最优输出标记的条件概率。它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料。卷积神经网络特征学习之后的后验分布反馈给条件随机场,条件随机场对图像进行标注达到阴影检测的目的。
1 自学习阴影检测框架
给定一副图像,本文在像素级别下检测和定位阴影。对于一个像素来说,不能简单地根据与周围相邻像素之间的关系来判断它是否属于阴影区像素。一个像素与其周围较远处不相邻的像素也有较为密切的关系。人眼能够根据图像中阴影区与其周围非阴影区的不同快速定位阴影。本文对输入的图像经过拉普拉斯金字塔变换,分别以确定的聚类中心为中心进行窗口提取达到考虑像素周围较远处区域的目的。合成训练样本后在卷积神经网络中进行训练,用小的测试集进行测试,最后产生的后验分布反馈给条件随机场,不同标签集合的交集形成阴影检测的结果。本文方法流程如图1所示。
1.1 确定聚类中心
超像素是指许多相似的像素点组合在一起,作为一个整体来处理,这个整体就称之为超像素。近年来,超像素已经被越来越多地应用于图像预处理过程中。超像素利用像素与像素之间特征的相似程度对像素进行分组,从而获取图像的冗余信息,在很大程度上降低了后续图像处理任务的复杂程度。SLIC算法[15]是一种思想简单、效率很高并且运行速度快的算法,通常只需迭代10次就完成聚类。该方法将彩色图像转换为CIELAB颜色空间和XY坐标下的五维特征向量,然后对五维特征向量构造度量标准,对图像像素进行局部聚类的过程。假设图像有N个像素,预分割为K个超像素,则每个超像素的平均像素数目为N/K,聚类中心间的近似距离为。该聚类方法是对k-means聚类算法的一种改进,为提高k-means算法的运算速度,在进行聚类时是以聚类中心的2S×2S正方形区域内搜索相似的像素,而不是在整张图像搜索。本文进行聚类时在聚类中心周围半径为S的区域内进行搜索,如图2所示。
在聚类中心点数目相同时,该方法能够减少重复计算的时间,因为圆形具有严格的几何不变性[16],确定的聚类中心为:
其中,lk、ak与bk表示坐标为(xk,yk)的像素点在CIELAB颜色空间下各通道的值,k∈[1,K]。
1.2 窗口提取与特征学习
输入图像经过拉普拉斯金字塔变换,以每个聚类中心为中心进行窗口提取,则对于坐标为(xk,yk)的像素点,此操作可以描述为:
其中,Ωk为所提取的图像块Ωk∈Ω,W(·)为窗口操作,t为提取窗口的大小,由于所选图像集阴影区域的不平衡性,采用合成少数类过取样算法[17]合成训练样本:
其中,Λ(·)为合成样本操作,Ο为样本集,样本集在卷积神经网络中进行特征学习。本文卷积神经网络结构如图3所示。
对于卷积层来说,上一层的特征图被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出特征图。每一个输出特征图可能是组合卷积多个输入的特征图:
其中,xjl和xil-1分别为当前层l和上一层l-1的特征图(下同),k是卷积核,f(·)是非线性激活函数,b为偏置,Mj代表输入特征图的一个选择。对于降采样层来说,有多少个输入特征图,就有多少个输出特征图,只是每个输出特征图都变小了:
其中,down(·)表示降采样函数,kjl为权值,神经元的非线性作用函数为f(x)=(1+e-x)-1。神经元的输出层:
对于式(6)j∈[shadow,n-shadow],卷积神经网络以一个图像块作为输入,经过训练之后得到一个后验分布。在本文中,池操作的步幅等于池邻域的均值,通过降采样层执行池操作有助于学习不变性的特征描述。全连接层工作原理是有一层隐藏层的多层传感器,这个隐藏层后边跟着一个逻辑回归的输出层,逻辑回归的输出层提供类的分布。图像转化为二值图像,二值输出变量的后验分布:
图像块训练之前先进行预处理,采用卷积神经网络可以把概率分布的模型PCNNs(Yi|Οk)定义为:
其中,θ(·)是预处理,F(·)是有5层隐藏层的卷积神经网络。预处理之后,通过在线学习(随机梯度下降),卷积神经网络进行有监督的训练。在训练过程中,梯度通过反向传播的方式计算,交叉熵损失函数被最小化[17]。采用交叉验证的方法确定训练参数,训练样本在训练之前被打乱,这是因为卷积神经网络对未知样本学习得更快。卷积神经网络的初值是从0均值的高斯分布中随机取样来初始化的。
卷积神经网络在训练过程的每个阶段用一个小的验证集来评估正在训练的网络,一旦验证集在执行时不能达到κ步,训练过程就停止(本文κ=5)。在验证集上表现好的网络被用来在图像库上进行测试,最初的学习率是试探性的选择能使误差收敛的最大学习率。
1.3 条件随机场
给定输入图像,阴影检测的任务实际上就是把整幅图像的像素分为了两类,也是对每一个像素进行标签的过程,一个像素要么被标记为阴影像素要么被标记为非阴影像素。这种二分类问题从有监督的特征学习中建立概率估计并提供给条件随机场。条件随机场定义在网格拓扑结构图上,图的节点对应于图像的像素,如式(9),条件随机场是对像素标签最常用的方法之一。由于训练空间(标签图像)的大小增加了计算似然函数梯度的难度,因此条件随机场的参数不能被简单的手工标签阴影区的最大似然估计来得到,采用一种最大化利润学习方法[18]来学习条件随机场的参数。把阴影检测定义为条件概率分布:
其中,ω是该模型的权值,Z(ω)是归一化函数,ν表示节点(比如单个像素),ε表示边(比如相邻像素),X表示整幅图像的像素。对吉布斯能量函数而言,上述分布形式为:
由式(7)与式(8)可知,存在两个隐函数:一元隐函数和二元隐函数。一元函数从卷积神经网络的概率估计得到:
二元函数由类转移隐函数和空间转移隐函数结合得到:
当Yi≠Yj时,否则如下:
其中,α和β通过在每个数据集上交叉验证得到,对随机变量Y∈ΓN,通过采用最大后验估计Y'来确定像素的标签,由于归一化函数Z(ω)不依赖与Y',这种估计转化为能量最小化问题:
根据Y'求标签集合SJ最后求交集:
2 结果与讨论
2.1 实验方案
为了验证提出方法的有效性和高效性,本文实验方案如下:
(1)图像库:本文实验图像库来源于文献[9]图像库(大部分阴影图像背景复杂,多为硬阴影,阴影面积小)和文献[12]图像库(大大部分阴影图像背景简单,多为软阴影,阴影面积大)。
(2)实验参数:本文聚类数目K取150,拉普拉斯金字塔J取5。实验条件为Intel(R)Core(TM)i3-2370@2.40 GHz处理器,2 GB内存,32位操作系统,Visual Studio2012开发平台编程实现。
K的值小于图像大小与样本大小的商,这样能够保证在窗口提取时能够提取每个超像素的大部分像素,从而能够得到更可靠的样本。而当K等于150时,对于图像库中的所有图像,窗口提取都能够满足条件。对于一些特定的实时领域,K的值需要简单的计算与测试确定。实验的精度并不随J的增大而增大,当J=5时,阴影的检出率最高,而当J>5时,阴影的检出率反而下降,因此J取5。
(3)实验方法:宏观上交叉训练,交叉测试;微观上选取9幅场景复杂度不同的图像进行测试。
(4)计算方法:
对于一副有阴影标签的图像来说,假设A表示阴影区像素的集合,B表示非阴影区像素的集合,A'、B'分别表示经过实验得到的阴影区与非阴影区像素的集合。阴影检测效果采用阴影检出率SD、阴影误检率SE来评价,TP计算方法如下(其中N(·)表示计算像素的数目):
2.2 实验结果
(1)宏观测试
本文采用在其中一个图像库上训练然后在另一图像库进行测试的方法,然后比较本文在不同图像集上所能达到的最高精度(阴影检出率SD)。在文献[9]图像库上进行训练,在文献[12]图像库测试的精度达到81.9%;而在文献[12]图像库上训练,在文献[9]图像库上测试的精度为79.8%。这是因为文献[9]图像库的图像场景比较复杂能够训练得到一个更好的网络。本文方法在文献[9]图像库与文献[12]图像库上测试达到的最高精度分别为90.71%与93.37%。由阴影检测计算公式可知:在相同条件下误检率相同时,阴影区的面积越大阴影的检出率相对较高,而文献[12]图像库的阴影区面积较大,因此本文方法在文献[12]图像库上取得较高的精度。
(2)微观测试
为了验证本文方法的场景适应性,选取了9幅场景复杂度不同的图像作为本位阴影检测结果的实例,如图4所示。其中第一排、第三排和第五排为源图像,第二排、第四排和第六排为阴影检测效果图。
定性上,从阴影检测的效果来看,本文方法能够很好地检测软阴影、硬阴影、自阴影以及场景非常复杂的阴影。(a)、(b)、(d)与(f)场景较为简单且无自阴影,但是(a)与(b)阴影多为软阴影,(d)与(f)阴影接近硬阴影;(c)、(d)、(g)、(h)与(i)都包含自阴影,其中(c)与(d)场景较为简单,(g)、(h)与(i)场景较为复杂,(g)与(h)为遥感图像,(i)为复杂的室外自然场景。实验表明,本文提出方法在各种不同场景下的图像的阴影检测效果较好,能够准确检测出由于遮挡产生的自阴影。
定量上,本文对选取的图像进行测试并将本文方法的阴影检出率与误检率和传统的方法进行比较,如表1、表2所示。
从表1与表2可以看出,本文方法阴影检出率较传统的方法高,阴影误检率较传统方法低。而SD与SE并没有完全的相关性,这与SD与SE的计算方法有关。传统方法阴影的检出率随场景的变化变化较大且检出率较低,而本文方法相对较为稳定且能够达到更高的检出率。
在训练资源的消耗上,文献[9]所采用的方法需要更大的内存(9 GB)和更大的时间消耗(大约10小时训练125幅图像)。本文的多尺度特征学习方法只需要2 GB内存,训练时间也更短(大约4小时能训练两个图像库全部的图像)。在实验中当用网络i的权值初始化网络i+1时(1<=i,i+1<=5),本文方法的训练时间能够缩短到2.5小时左右。文献[12]采用的支持向量机方法只适合小数据,卷积神经网络模拟人的可视域可以用多个卷积核映射出多个特征图,更适合图像像素的分类。当图像扩展到三维,或图像场景非常复杂,卷积神经网络的优势就体现出来了。就目前来说,图像越来越复杂,卷积神经网络的适应性越强。
3 结语
本文主要阐述了一种新的阴影检测方法,利用卷积神经网络进行特征学习,结合条件随机场对图像进行标签。该方法场景适应性强,在阴影面积较大、软阴影较多的图像中也取得了很好的效果,而且训练的时间也比现有的基于统计属性的方法大大缩短,阴影检出率也较现有传统的算法高。
本文方法虽然在当前图像库和一些采样的图像上取得了较好的效果,而一些参数仍需简单的计算与测试得到。如何自适应的确定参数、减少网络训练时间以及三维图像的阴影检测是以后研究的重点。
多尺度特征 篇2
[摘要]西方学者在对全球城市、世界城市网络及巨型城市区域的研究中,提出利用高端生产者服务业的空间分布来研究城市群体区域空间联系格局的理论和方法。立足生产者服务业布局数据,根据咨询管理、会计、律师、保险、银行、物流等六个高端生产者服务业的公司及分支机构在山东省沿海城市带9个城市和73个区(县)级空间单元的业务联系建寺量化矩阵,研究山东沿海城市带区域空间联系格局的特征。研究表明,在城市和功能区尺度上,山东沿海城市带区域空间联系格局具有层级性、尺度敏感性、跳跃性、距离衰减性、方向性、选择性和双中心空间格局特征;在不同行业上,高端生产者服务企业构筑了特征各异的联系网络格局。这—研究对于解析城市群体区域空间联系内在机理有着重大意义。
[关键词城市群体区域;多尺度;高端生产者服务业;空间联系格局;山东沿海城市带
[中图分类号] F129.9 [文献标识码]A [文章编号]1671-8372(2015)04-0001-06
一、引言
20世纪90年代,美国著名社会学家Sassen(1991)提冉了关于世界城市是生产者服务企业(尤其是金融业)重要聚集地和重要市场的假设,在此基础之上,英国著名城市研究学者Taylor(2004)指导下的“全球化与世界城市”网络研究小组(GJaWC)基于“中心流动理论”和关系型数据的创造,详细阐述了世界城市网络的理论与分析方法,并且进行了大量世界城市联系的实证研究。Hall和Pain(2006)应用了GJaWC的城市联系分析方法,剖析了欧洲八个巨型城市区域的内部联系,产生了巨大的学术影响和政策影响。其中,以高端生产者服务业(Advanced Producer Service,下文简称APS)为基本数据指标的城市网络研究方法被广泛应用,APS开始成为解释城市间联系的有效工具,其研究方法不断走向成熟。中国学者基于APS对城市网络结构进行的研究也在日益推进。较早见于郑红伯(2005)实证性地推演了全球城市网络的计算过程和结果;张晓明和汪淳(2008)从网络性、功能性、多中心性三个角度分析了长三角巨型城市的城镇分布格局;唐子来和赵渺希(2010)采取关联网络和价值区段的分析方法,以地域间企业分支机构数据为基础,探讨了长三角区域多中心化的城市体系演化趋势;尹俊等(2011)通过金融服务业企业的布局对中国城市网络进行了定量分析;谭一洺等(2011)基于服务值、连通性和网络性研究了成渝地区城市网络体系结构及其特征;路旭等(2012)基于国际APS布局信息对珠三角城市网络格局以及世界城市对珠三角城市群发展的影响进行了实证研究;赵渺希等(2014)基于跨年度总部一分支机构企业数据,从生产性服务业、一般服务业、制造业等三个产业部类度量城市间的功能联系变化,并运用复杂网络方法分析了京津冀城市群空间网络的连接效率、出入点度、规模匹配性;王娟等(2015)基于国际酒店集团布局对中国城市网络连接度进行了研究;邹小华等(2015)基于律师事务所的空间分布格局对中国城市体系进行了等级化、网络化和区域化的研究。
此外,学者们还通过交通网络联系定量化地测度城市群体区域内部空间联系的基本格局。比如,罗震东(2010)利用长三角高速铁路(动车组)每日的发车班次作为商务旅行交通流的替代数据,定量测度并比较长三角的功能多中心强度;罗震东等(2011)以城市间客运交通流的替代数据,从联系强度和节点关系两个方面对长三角城市区域功能多中心结构的特征及演变趋势进行解析;陈伟劲等(2013)利用长途客运交通流,分析了珠三角城际功能联系的空间格局;蔡莉丽等(2013)运用社会网络测度方法对珠三角功能多中心性进行定量测度与比较分析;冯长春等(2014)基于城际轨道交通流,对珠三角的功能多中心性进行探讨,发现珠三角地区具有较高的功能多中心性,功能多中心度进入离心发展阶段。此外,还可以用航空乘客流、铁路(地铁)乘客流、港口货物流以及基于大数据的电信流(手机,宽带等)等进行分析,但因数据获取难度较大,相关研究正在渐次展开。
总之,国内学者借助于单个或多个APS行业企业布局信息来探讨城市群体区域内部构成的方法已较为通行,实证地域主要基于全国性或区域性尺度,聚焦于城市群体区域的总体格局及其内部联系。本文借鉴世界城市网络的研究经验,采用APS公司办公网络分布数据,以城市服务值和连通性为衡量指数,分析山东沿海城市带区域空间联系格局的多尺度空间特征,为探讨区域空间形态与区域协调发展提供新的视角。
二、研究设计
从APS视角人手分析城市群体区域的方法主要是通过测度APS公司在各空间分析单元(即功能性城市区,Functional Urhan Region,简称FUR)中的分支机构等级规模,建立其在各FUR间的等级联系网络,反映该城市在此APS公司联系中的地位。将多个APS公司耦合起来统一考虑,以得出基于APS公司的城市群体区域空间联系格局,以此来反映城市与城市之间的功能分工、信息传递等空间联系。这种通过将城市作为网络中节点来研究的方法的优势是易于获取数据,用办公机构的地理分布来印证城市之间是否存在持续性的功能互动,即使在不能准确获得公司业务量数据的情况下,也可以揭示出城市之间功能联系的强度和基本格局。该方法的关键在于将APS公司的空间分布信息转化为城市间的连通关系。
(一)研究区域与研究单元
本文研究区域为山东沿海城市带,包括山东省的青岛、烟台、潍坊、威海、东营、滨州、日照、淄博和济南等9个城市,以及该区域范围内73个县(市、区)空间单元(即FUR)。
(二)研究对象选择
本文通过测量APS公司的地址信息及业务联系来分析城镇网络空间结构。APS是广义中介经济的一部分,主要组成部分包括保险、银行、金融服务、房地产、法律服务、会计和专业协会等。本文选择在山东沿海城市带设有总部或分支机构的咨询管理公司、银行、会计事务所、保险公司、物流公司、律师事务所等六个行业的60家APS公司作为研究对象。通过访问APS公司的网站获取其分支机构的分布地点和规模信息,并基于此种信息收集方式进行企业选择。在研究区各城市中设有两个以上(含两个)分支机构的,纳入研究对象名单中。共选取了10所银行、10家会计师事务所、10家保险公司、10家律师事务所、10家物流公司和10家咨询管理公司,共计60家APS公司。在对公司进行择取后,进一步对已选取公司在各个城市的分支机构等级和规模进行量化,获取服务值信息。最终,全部FUR中的APS公司服务值数据可以量化为一个73个FUR×60家公司的矩阵。
(三)连通度分析方法
借鉴世界城市网络研究的计算方法,将企业地址信息转化为m个APS公司在n个城市分布的数据库,然后将世界城市网络量化定义为一个关于V的矩阵X,Vij是这个矩阵X的初始数据,表示公司j在城市i提供的“业务量”。在本研究中,采用公司j在城市i的办公室数量和规模(包括总部与分公司)来衡量Vij。主要包括以下4个指标:
公司j在城市a与城市h之间的连通值Rab,j
Rab,j=Vaj·Vbj (j=1,2,…m)
(1)
城市a与城市h之间的总体连通值Rab
Rab=∑Rab,j (j=1,2,…m)
(2)
城市a在网络中的总体连通值Na(每个城市都连接n-1个城市)
Na=∑Rai (i=1,2,…n;且i≠a)
(3)
城市a在网络中的连通度La
La=(N/∑Ni)(i=1,2,-n)
(4)
(四)研究单元的量化赋值
参考国内外相关文献,将各空间分析单元分支机构的等级规模量化赋值为0~4之间的整数,即服务值。其中,0表示该APS公司未在此FUR设立分支机构;1表示分支机构规模明显偏小或需要依赖其他FUR分支机构才能实现其功能;2表示一般分支机构的功能;3表示分支机构为区域性总部或规模数倍于其他一般分支机构;4表示该公司的总部设在此地。这样的量化方法只需在取值1和2之间、2和3之间进行判别,可以最大限度避免主观判断的误差。
三、山东沿海城市带区域空间联系格局的特征
对APS企业网络的分析包括两个方面:单一城市研究单元的连通度分析和城市研究单元之间的连通度分析,从“点”和“线”两个角度归纳网络的基本特征。通过划分各城镇研究单元的连通度等级,分析城市空间联系格局的连通度特征。主要结论如下:
(一)山东沿海城市带区域空间联系格局具有明显的层级性和尺度敏感性特征
通过对各区域服务值、城镇节点连通度、城市连通度这些量的数据的分析,研究发现,在城市尺度和功能区尺度上,山东沿海城市带区域空间联系均有着明显的层级性。
首先,在城市尺度上,各城市之间的区域空间联系格局的层级分布较为明显。山东沿海城市带区域空间联系格局呈现出如下特征(见图1):(1)可以划分为三个层级,各层级之间的等级分布特征较为明显;(2)呈现出济南一青岛双中心的空间联系结构特征;(3)中心城市及其周边地区呈现出核心一边缘式空间分异结构特征。山东沿海城市带区域空间联系格局的中心节点在东部地区比较集中,在其他地区较为分散,主要围绕青岛与济南两个节点扩展。淄博、东营和潍坊位于青岛和济南之间,而烟台紧邻青岛。第三等级包括威海、日照和滨州,这3个城市位于青岛沿海城市带的最西端、最南端和最北端。从空间分布来看,山东沿海城市带第一与第二等级城市服务值较大且差距较小,集中在山东沿海城市带中西部地区且连接成片;在鲁东威海、鲁南日照和鲁北滨州FUR服务值较小,差异不明显。因此山东沿海城市带各城市服务值分级现象明显,地理位置及行政重心导致的地理空间差异明显,围绕青岛市与济南市向外扩展,边缘地区缺乏次高等级的点来带动周边城市的发展。
其次,在功能区尺度上,各空间单元连通度具有显著的层级特征。山东沿海城市带区域空间联系格局呈现出如下层级发展特征(见图2):(1)各功能性城市区(FUR)组合形成多中心体系化的空间结构;(2)各FUR存在集中成片发展的态势;(3)以中心城区为核心的圈层一漫溢式空间分异结构。9个城市连通度最高的城镇节点均是该城市行政中心。城市中心区有良好的交通条件和服务设施优势,容易吸引APS公司集聚。
山东沿海城市带各功能性城市区的连通度具有显著的层级特征:青岛市南区和济南历下区属于最高层级,是山东省城市网络的中心节点,集中了较多数量和类型的高端生产者服务业公司,服务网络较为健全。烟台芝罘区、济南市市中区、淄博张店区、东营东营区共4个内陆市辖区的FUR处于次高等级,属于次中心节点,集中了一定数量、多种类型的高端生产者服务业公司。荣成市、即墨市、诸城市、东港区等部分县市以及龙口区、崂山区、福山区等部分市辖区共23个FUR属于第三等级,集中了类型和数量相对较多的生产者服务业,其中主要是银行业和保险以及物流分公司。环翠区、黄岛区、奎文区、市北区、历城区等5个FUR处于第四等级,生产者服务业的类型和数量偏少,仅有保险公司和银行的低等级分支机构的分布。文登区、昌邑区、蓬莱区、河口区、莱西市、邹平县、长清区、博山区、莒县等39个FUR属于第五等级。这些FUR中的县市大部分位于鲁西地区,位于内陆,比较闭塞,导致连通度较低,而少量的市辖区连通度低的原因是其周围的其他市辖区连通度较高,取代了该地区的部分服务功能,例如潍坊奎文区连通度很高,导致其周围的坊子区、寒亭区与潍城区连通度处于较低等级。
其中,日照岚山区、烟台长岛县和滨州无棣县连通度等值最低,与其他区域差异明显,究其原因,主要是由其地理位置决定的。长岛县位于烟台北部的一个海岛上,与其他地区联系不便,导致其连通度很低。岚山区与无棣县因位于研究区边缘,与研究区内部地区关系松弛,其连通度在本研究区内最低。总体来看,山东省的各个县市区均分布有APS公司,服务网络已相对较为健全,但是区域差异明显,尤其是鲁西部分县市区连通度较低,与服务值分布相比,连通度缩小了区域差异。.
(二)山东沿海城市带区域空间联系格局具有双核心特征
基于多尺度特征的行人检测系统 篇3
1 行人检测系统
本系统主要由三个模块组成:图像的预处理, 行人检测的分析, 快照浏览。
1.1 图像的预处理
由于摄像头在录制视频的过程中会有大量的噪声, 所以对于帧图像做行人检测之前要进行预处理, 减少噪声的干扰。本系统采用数学形态学对图像区域进行预处理, 提取对于表示和描述有用的图像分量。包括膨胀、腐蚀、开操作以及闭操作。
1.2 行人的检测
传统的行人检测是基于学习体征的, 使用大量的训练样本, 并从大量的样本中选择出判别能力较强的特征, 但是特征的选择与训练样本密切相关, 若样本集不具有代表性, 很难选择出好的特征。本文采用多尺度特征算法进行行人的检测。可有效的提高检测率和缩短检测时间。算法具体描述如下:
使用积分图像进行特征提取, 积分检测器及其尺度梯度金字塔如图所示:
对20类物体进行精确PDM和该算法进行对比, 发现该算法与其他算法相比性能只降低了2%左右, 但是所需的样本和时间则大幅度减低了。
1.3 快照浏览
对检测出来的含有任务的帧图像, 通过opencv对目标进行标注, 点击相应的按键, 含任务的图片按时间顺序以快照的方式呈现出来。
2 结论
随着高清摄像头的普及和天网工程的建设, 视频成为了公安人员破案的重要来源, 为了从海量视频中快速找到犯罪嫌疑人, 本系统通过图像形态学处理技术和多尺度特征的行人检测算法完成了行人检测和追踪展示的设计和实现。该系统在雨雪天气和光线变化有干扰及图像信息有噪声的情况下均表现了良好的性能, 快速帮助公安人员快速获得犯罪嫌疑人。
摘要:为能快速在海量视频中快速找到犯罪嫌疑人, 行人的检测和跟踪是一个至关重要的问题。介绍了一种多尺度特征的行人检测系统。通过Vibe算法将运动对象进行分离。对单个运动对象使用多梯度计算特征, 之后对梯度之间的尺度特征进行推算, 节省了多尺度特征计算的时间。最后行人检测系统在复杂环境中的人的检测取得了较好的效果, 为民警快速获取嫌疑人提供了帮助。
关键词:行人检测系统,摄像头,视频
参考文献
[1]M.Van Droogenbroeck, O.Barnich.A Disruptive Method for Background Subtraction[J].In Change Detection Workshop (CDW) , 2012, 20 (6) .
[2]Piotr Dollar, Ron Appel.Fast Feature Pyramids for Object Detection[J].IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2014, 36 (8) :1132-1146.
[3]和青芳.计算机图形学原理及算法教程[M].北京:清华大学出版社, 2006.
[4]Gary Bradski, Adrian Kaebler.学习Opencv[M].南京:东南大学出版社, 2009.
[5]苗盼盼.基于内容的视频检索若干技术研究[D].南京:南京理工大学, 2010.
[6]弓洪伟.视频检索综述[J].工程技术研究, 2009.
[7]田杰, 吕建新.位图的图像处理技术[J].现代电子技术, 2001 (9) :28-30.
[8]王毅, 彭天强.视频摘要技术[J].信息工程大学学报, 2009, 10 (4) :493-499.
[9]陈宏, 基于图像聚类与挖掘的视频摘要方法[J].视频应用与工程, 2011, 35 (11) :115-117.
多尺度特征 篇4
关键词:深度信念网络,多尺度主线方向特征,图像分类,正确识别率,分类性能
图像分类是根据图像具有的某种属性将其划分到预先设定的不同类别中[1]。如何能提高图像分类的准确性,最核心的问题是对图像的有效表达。因此,特征的构建和提取一直受到广泛关注。近些年来常用的特征提取方法有SIFT[2]、HOG、LBP[3]、Gabor[4]等,但不能反映图像最本质的特征。深度学习能通过无监督的方式让机器自动地从样本中提取到表征这些样本的低层、高层特征,从而使学习到的特征更具有推广性和表达力。
深度信念网络( Deep Belief Network,DBN) 作为深度学习的一种模型。自从Hinton等人[5]提出基于DBN的贪婪逐层训练算法之后,DBN作为一种无监督特征学习复杂层次概率模型的方法,已成功应用于语音识别[6]、手写字体识别[7]、人脸识别[8]、遥感图像分类[9]和垃圾邮件过滤[10]等领域中。然而,进一步提升DBN模型的分类性能,提高算法的正确识别率仍是需要解决的根本问题。提升性能最简单和直接的方法就是通过增加DBN网络的隐含层数或每个隐含层神经元数来实现。但文献[11-12]研究发现当DBN中的隐含层数和神经元数目达到一定峰值后,再增加数目并不会提升识别性能,反而导致整个DBN网络训练时间过长。文献[13]从DBN网络结构着手,提出一种由DBN串联而成的层次结构深度信念网络方法,进而提升DBN的性能。文献[14]通过把卷积神经网络的局部感受野引入到DBN的单层中,把DBN的单层分成多个子RBM,提出一种改进的深度信念网络,用于有效提高识别率。文献[15]提出了基于Gabor小波和RBM的二次特征提取,来获取具有更好分类性质的特征。文献[16]通过将瓶颈结构与DBN结合实现了有效提高语音识别率的目的。
因此,DBN的性能仍有进一步提升的空间。鉴于DBN的可视层输入是将一个图像矩阵一维向量化,输入信息仅包含幅度信息,没有充分考虑到图像的二维结构信息。本文通过在DBN可视层输入端加入多尺度主线方向( Multi-Scale Main Direction,MSMD) 信息的方法( 简称MSMD-DBN) ,增加有效信息的维度,进而提升DBN的性能。实验结果表明,该算法可以有效提高图像分类的正确识别率。
1 深度信念网络
DBN是一种概率生成模型,由多层受限玻尔兹曼机( Restricted Boltzmann Machine,RBM) 单元组成。 DBN的结构如图1所示。
1. 1受限玻尔兹曼机
一个典型的RBM子模块结构图是由可视层和隐含层两层神经元构成的,每层有若干个节点,层内节点无连接,不同层之间的节点依靠权值系数矩阵来连接。各层之间的权重值是采用无监督的贪心算法获取的。
RBM是一种能量模型,其可视层和隐含层的联合组态能量表示为
式中: θ = ( W,a,b) ,为RBM模型中的3个参数; wij是可视层节点i与隐含层节点j之间的连接权重值; ai和bj分别是可视层第i个节点、隐含层第j个节点的偏置值; vi和hj分别是可视层第i个节点、隐含层第j个节点的状态值。对应于可视层神经元和隐含层神经元的相应映射概率分布为
式中: σ 是Sigmoid函数。RBM采用迭代的方式进行训练,训练的目标在于学习出参数 θ = ( W,a,b) 的值,以拟合给定的训练数据。参数 θ 可以通过最大化对数似然函数得到,最大化似然函数常用的数值方法是梯度上升。参数 θ = ( W,a,b)的迭代公式为
式中: η 为预训练的学习率,L为目标函数。采用Hinton提出的对比散度( CD) 算法对重构数据进行近似拟采样,可得各参数的更新规则为
式中: 〈·〉data为训练样本集所定义的分布之上的数学期望;〈·〉recon为重构后的模型所定义的分布上的期望。
1. 2DBN 算法的训练学习过程
通过式( 5) ~ 式( 7) 这样一个非监督的预训练过程就可以将一个RBM调整到合适的初始值,然后再将多个RBM自底向上组合建立DBN模型,最后通过使交叉熵最小,采用BP算法对整个网络进行监督式学习,最终建立DBN。
具体过程归纳为两步:
1) 无监督预训练。DBN模型采用无标签的数据,以重构误差为目标函数,基于CD-k的快速学习算法逐层地训练每个RBM来获得可视层和隐含层的偏置值,以及可视层和隐层间的权值。
2) 有监督微调。DBN模型采用带标签的数据,以交叉熵为目标函数,利用共轭梯度算法训练分类器,并实现整个DBN网络参数的优化调整。
2 MSMD-DBN 算法
DBN的输入端是将图像二维矩阵转化成一维向量输入到可视层中,然后通过逐层的学习训练提取特征。提取特征的精细程度直接影响后续图像分类识别的性能,甚至决定成败。本文正是从特征提取角度着手,在保证原有信息不丢失的情况下,通过增加多尺度主线方向( MSMD) 特征的方法,增加有用信息的维度,有效补偿DBN模型自身的缺点,提升DBN性能。简称这种算法为MSMD-DBN。
2. 1多尺度主线方向信息的特征提取
为了能提升DBN的性能,提高分类器的分类精度。提取特征的有效性非常关键。当用所有的特征进行分类训练时,会取得一个较高的错误识别率; 而仅使用关键特征变量,则得到的分类器性能较好[17]。本文的核心思想是在原有DBN输入信息的基础上,提取主线方向信息中的关键特征,即主线方向特征。并通过选择不同的尺度,获取更多的局部信息和全局信息。具体步骤如下:
1) 计算图像的方向投影值。 假设样本图像的大小是m × m,选取图像左上角的区域块,大小为d × d( d为奇数) ,以1个像素为步长,向右或向下平移,得到( m - d + 1) ×( m - d + 1) 个区域块。再对区域 块的像素 值进行归 一化处理。
以一个尺度为d的区域块为例,将经过区域块中心点的垂直方向的直线作为基准,以 π/dr的角度为间隔,逆时针旋转得到dr条直线,则每条直线与正方向的夹角分别为 π/dr,2π / dr,…,( dr - 1) π / dr,π。计算每一条直线所经过的区域块的像素值,并将这d个像素值累加求和作为该区域块在某个方向上的投影值Rθ。
改变角度 θ 就可以得到该区域块在dr个方向上的投影值。向右或向下移动区域块,就可以得到( m - d + 1) × ( m -d + 1) 个区域块在dr个方向上的投影值。
2) 根据不同方向上的投影值,计算线方向图和能量图。
将步骤1) 中得到的dr个投影值放在一个1行dr列的矩阵里,矩阵记为R1 × n; 选取矩阵R中的最小值,将该最小值记为r,并记录对应的列号( n) 。线方向图和能量图的计算规则如下
式中: D为线方向图; E为能量图; dr为选取方向的个数; x和y分别是尺度为d的某个区域块的中心点在原图像中对应的横、纵坐标。
移动区域块,利用式( 8) ~ 式( 9) 就可以计算出不同位置点( x,y) 对应的线方向值D( x,y) 和能量值E( x,y) ,进而得到整个线方向图D和能量图E。
3) 计算能量图E的二值图Eb。将能量图中的所有能量值按从大到小排序,并选取某个合适的能量值作为门限值M,对能量图进行二值化,规则如下
4) 计算能量二值图Eb的方向分离图EAb和EBb,规则如下
5) 以3 × 3区域为最小单位,删除EAb,EBb中连通区域的面积( Si,i = 1,2,…,n) 小于P的线条,将去掉杂线后的方向分离图( LA,LB) 合并为主线能量图。即
同理,计算得到LB
式中: PL为主线能量图。
6) 简化步骤2) 中的线方向图D,提取主线方向信息: 提取主线方向信息,即记录主线能量图PL像素值为1的位置,并保留线方向图D的此位置,其余位置置于0。即
式中: Ld( x,y) 为主线方向特征图。
采用以上步骤得到的多尺度主线方向信息,与传统DBN方法中输入的灰度信息,两两独立,互不相关,因此,能最大程度地反映原始训练样本图像所包含的信息[18]。
2. 2MSMD-DBN 算法及模型
增加DBN可视层输入端信息的维度有助于提高图像分类的正确识别率。借助此思想把第2. 1节提出的多尺度主线方向特征提取的方法与DBN模型结合,得到基于多尺度主线方向信息的DBN二次训练模型,即MSMD-DBN模型。其基本模型结构如图2所示。
根据图2的模型结构,该算法的训练学习过程如下:
1) 根据第2. 1节的多尺度主线方向信息特征提取方法,获得训练样本集的多尺度主线方向信息;
2) 将训练样本图像特征与1 ) 中得到的多尺度主线方向特征作为可视层的输入来训练第一个RBM,每个RBM的输出作为下一个RBM的输入数据,用来训练RBM,类似这样,利用无监督预训练算法逐层训练获得网络参数值;
3) 当逐层学习完成一组堆叠的RBM后,即将参数调整到一个比较合适的初始值后,再利用有监督微调方法对整个网络进行优化。
该算法在保证原有输入信息的前提下,通过添加多尺度主线方向信息的方法,增加输入端信息的维度,提升DBN的性能,使RBM更好地拟合数据,提取到更本质的特征,进而提高图像分类的有效正确识别率。
3基于MSMD-DBN算法的分类实验
为了验证本文提出的MSMD-DBN算法模型识别性能的有效性,实验选用CIFAR-10和MNIST数据库来进行测试,并与传统DBN算法以及文献[15]提出的Gabor小波与RBM二次特征提取方法进行对比。
3. 1CIFAR-10数据库上的实验
实验以CIFAR-10数据库为例,选取飞机、汽车和鸟三类图像,每类包括6 000幅,分辨率为32 × 32。从每类中随机抽取5 000幅图像作为训练样本集,另外1 000幅组成测试样本集。该实验中,主线方向信息特征提取方法中采用3 × 3和9 × 9这2个尺度空间,12个方向,门限值M = 280,DBN的结构设置为: 4028-300-300-800,RBM无监督预训练和DBN有监督微调中的迭代次数都设置为50次。
实验中用到的部分训练样本集和用3 × 3尺度空间提取到的对应的主线方向特征图分别如图3和图4所示。
为了验证本文算法的有效性,本实验采用3种算法在CIFAR-10数据库上进行测试,性能指标包括训练样本正确识别率和测试样本正确识别率。其中,文献[15]的算法采用4个方向的Gabor滤波器组。
实验1以飞机和鸟为实验对象进行分类,实验2以飞机、汽车以及鸟这3类图像为实验对象进行分类,3种算法的实验结果比较分别如表1、表2所示。
由表1和表2可知,相比于传统DBN算法,本文算法正确识别率有明显的提高,提高了11% 左右; 相比文献[15]也有一定的提高。这是因为本文的MSMD-DBN算法在输入端添加了更多的有效局部、全局主线方向信息,增加了输入信息的维度,使得提取到的特征更具有代表性。
为了进一步综合评价该算法,表3给出了不同算法在实验1中的耗时对比。
从运行结果可以看出,本文算法由于增加了信息的维度,相对于传统DBN算法,耗时较长,但相比于文献[15]的算法运行效率明显提高。综合考虑分类性能和耗时,本文算法相比于其他算法,既能保证一定的运行效率,又能提高识别性能。
3. 2MNIST数据库上的实验
实验以MNIST手写字体数据库为例,选取数字0,3和8等3类图像进行分类测试。从数字0中随机选取5 900幅图像作为训练样本集,900幅图像作为测试样本集; 从数字3中随机选取6 100幅图像作为训练样本集,1 000幅图像作为测试样本集; 从数字8中随机选取5 800幅图像作为训练样本集,900幅图像作为测试样本集。所有样本图像的分辨率为28 ×28。
该实验中,主线方向信息特征提取方法中采用3 × 3的尺度空间,12个方向,门限值M = 190,DBN的结构设置为:1568-500-300-800,RBM无监督预训练和DBN有监督微调中的迭代次数都设置为30次。
实验中用到的部分训练样本集和提取到的对应的主线方向特征图分别如图5和图6所示。
图7为本文算法的3层RBM得到的重构误差,从中可以看出重构误差在每一层RBM中呈下降趋势,且随着层数的递增,重构误差也呈下降趋势。
为了进一步比较和数据分析,本实验采用3种算法对MNIST数据库中的数字0 ,3 ,8进行分类测试,文献[15]的算法同样采用4个方向的Gabor滤波器组。实验结果比较如表4所示。
从表4的运行结果可以看出,本文算法相比传统DBN算法,正确识别率有一定的提高,而文献[15]的算法对手写字体分类性能不能起到改善作用。
4 小结
多尺度特征 篇5
音视频中暴力与色情内容的自动分析与检测已然成为近年来研究工作的新鲜热点之一, 而倍受各方广泛关注。尤其在网络发达的今天, 包含过多儿童不宜观看内容的音视频, 如果只是依靠人工审核, 即使耗费大量的人力及财力也难以即时发现不良信息。本文即针对电影中所包含的音频暴力片段进行研究, 提出了基于音频长短时特征与统计特征相融合的组合量特征, 由此而实现了一种基于音频的长短时特征与统计特征融合的暴力内容自动分析系统。
对于什么是暴力, 一直没有给出过权威的定义。目前以Media Eval竞赛为标准的暴力定义[1]是:“身体暴力或事故导致的人体伤害或疼痛。”鉴于视频数据的直观、特征可分性强等优势, 前期暴力检测工作的重点多是关注于视频数据的分析, Chen等就使用了平均运动强度等特征检测了打斗、流血等暴力镜头, 平均识别率达到了85%[2]。Zhang、Chen等则使用了基于内容的HOF特征进行打斗场景的识别, 也取得了86%的识别结果[3]。而基于暴力场景中经常采用特定音频事件来渲染气氛的特点分析, 随之即进一步展开了对基于音频特征暴力场景识别的有关分析与研究。其中, 由于能量熵可以反映短时间内的能量突变, Jeho和Ahmed就将其作为运动强度、火焰特征、流血特征等视频特征的辅助性能来完成基于事件的视频摘要提取工作[4]。为此, Theodoros等即使用了能量、过零率等八种音频特征对固定长度的音频段进行了暴力与非暴力的分类[5], 并且取得了90.5%的识别结果。时下大多数工作也只尝试对一种或少量几种暴力音频事件进行了检测。例如, Huang等使用能量和基频特征对尖叫事件所进行的检测, 最终取得了86%的识别结果[6]。Pikrakis等更使用了MFCC、能量熵、基频等在内的统计特征进行了枪击的检测, 相应地取得了90.6%的识别结果[7]。Penet又使用MFCC、能量等特征, 对枪击和爆炸产生的音响进行了识别, 分别取得了80%和72%的识别结果[8]。
在电影暴力内容的分析工作中, 基本单位多为镜头, 但每个镜头的持续时间却有所不同。因此, 除了镜头内的短时音频特征, 同时更要提取短时音频特征的长时统计特征, 如此才能进一步体现镜头内特征的变化。与其相应地, 本文即提出一种基于音频多尺度时长特征的暴力镜头中音频事件的自动分析与检测技术。
本文的主要结构安排如下:第一部分为基于长时特征以及统计特征的音频特征提取, 对暴力音频事件音频特征进行分析与提取;第二部分即对实验结果进行分析;最后进行总结以及给出对下一步工作的展望。
1 多尺度时长下暴力音频特征的定义与提取方法
电影中的声音对电影信息表达起着至关重要的作用, 尤其是在暴力镜头中, 声音的作用更是突出。若要对音频事件进行有效的识别, 就需要选择合适的特征。大多数音频场景分析通常采用短时特征, 且特征所对应的音频信号单元也多为定长[9,10,11], 如MFCC、短时过零率、LPC等特征都是研究过程的常见选择。
而电影中的镜头构成场景的声学事件多为不定长的音频片段。并且, 由于音频事件差异性较大, 使其持续的时长与特征也有本质不同。例如爆炸声和尖叫声、枪击声在子带能量、频谱质心和过零率等特征上均呈现不同的分布。本文中的长时特征, 即为体现出特征在一段时间内的变化, 可通过计算相应的统计信息而得到, 具体来说包括了子带能量的均值和方差、音频能量的均值和方差、帧间的一阶以及二阶差分等。
1.1 定时长短时音频特征的提取
定时长短时特征, 即通过对音频信息进行预处理、分帧之后提取的每帧的特征, 包括MFCC、基频、LPC、能量熵等。现在将各个特征的提取方式依次给出, 具体内容如下:
(1) MFCC是将人耳听觉感知特性和语音的产生机制相结合而来, 因此将更加接近人们的听觉认知习惯, 已经广泛用于音频信息分析。在此, 可划分26个mel频带, mel系数选取12, 这样本文共提取12维MFCC特征。
(2) 基频体现的是声音的知觉特性, 并且这种知觉特性在人们听闻和理解不同的声响中发挥着重要的作用。对于暴力声音, 如:尖叫、枪击等来说, 其音高均不相同, 因此可以采用音高特征作为本文音频事件的识别特征。
(3) LPC是根据理想的声道模型计算得到的, 为此根据爆炸、枪击和尖叫所发出声音的通道也是不同的, 可应用LPC及其倒谱系数LPCC特征来共同确定暴力音频的声源性质。
(4) 能量熵。能量熵是一帧信号中的能量变化程度。通过将每帧音频信号分为固定长度的K个大小相同的子窗口, 而对于每个子窗口i均要计算其经过标准化的能量σ2, 标准化过程就是将每个子窗口的能量除以整帧信号的能量, 具体计算如公式 (1) 所示。
本文中, K=5, 即每个子窗口长度为5ms, 在这个时间内的信号可定义为是稳定的。
1.2 变时长音频特征的提取
由于音频事件差异性较大, 且持续的时长与特征多有本质不同, 只是单纯提取短时特征即会造成大量信息丢失。因此本文工作中给出了根据暴力音频持续的时间差异, 分析获得不同时间长度内的统计特征, 包括能量谱质心和频谱质心特征、子带能量的均值和方差、音频能量的均值和方差、帧间的一阶及二阶差分等。下面将逐一分列其对应的计算模型, 详情如下。
(1) 能量谱质心和频谱质心特征
频谱质心是功率谱分布的重心位置, 能够作为度量音频亮度的近似指标, 并且不同暴力音频场景 (尖叫、爆炸、枪击) 会有不同音频亮度。因此频谱质心即是一种检测音频事件的有效特征。同时, 不同音频事件的音频信号频谱在其频谱质心周围的分布情况也是不同的。本文计算信号在经过傅里叶变换后将统计前256个频带的μ (μ=1, 2) , 也就是频谱质心和能量谱质心计算如公式 (2) 所示。
相应地, 当μ=1时, 计算可得频谱质心, 当μ=2时, 计算得到的则是能量谱质心。
在本文中, 还将计算语音信号频谱在其频谱质心周围的分布情况, 即频谱散度 (Spectral Spread, SS) , 其计算可见公式 (3) 。
(2) 归一化子带能量的均值和方差
子带的能量可以反映信号的不同声学特性。不失一般性, 本文应用数据的采样率为8k Hz。在此采样率下, 划分了十六个频率子带, 分别为[0-500 Hz], [500-1 000Hz], ..., [7 500-8 000Hz], 统计计算不同暴力音频事件在每个子带能量的均值和方差, 再将相同子带上的能量取均值并归一化, 使得各子带上的能量累加和为1, 从而得到能量在不同子带上的分布。
(3) 能量均值和方差
在不同的电影中, 整体的能量可能偏大或偏小。因此, 为了能够使相应的识别效果具有一定的鲁棒性, 即提取了一个镜头内音频能量的均值和方差。
(4) 帧间差分
通过帧间差分提取一个镜头内的特征的差异程度, 体现镜头内的一个长时的变化, 本文则采用HTK中计算差分的方法, 对文中提取的特征计算其一阶差分和二阶差分。其中, 一阶差分的具体计算公式如下:
式中, ct表示当前帧, Θ取2。
得到一帧信号的一阶差分后, 在一阶差分的基础上再进行一重差分, 就得到信号的二阶差分at, 其计算公式可表述如下。
综上所述, 本文中所提取特征及维数则如表1所示。
2 实验结果及分析
Media Eval 2012 Workshop[1]是目前公开的、较权威的暴力检测竞赛, 该竞赛所使用的视频数据主要选自Hollywood电影。本文即采用Media Eval 2012 Workshop所提供的数据库, 具体可称作VSD (Video Scenes Dataset) 。
数据的预处理, 主要对音频信号进行预加重, 并加汉明窗。本文中数据采用帧长为25ms, 帧移10ms。本文所使用数据库中包含的电影名称以及每个电影中包含特定暴力音频事件的镜头数目统计如表2所示。对于每一种音频事件皆选取4/5的镜头特征作为训练, 剩余的1/5作为测试集。
评测指标采用经典AED (Audio Event Detect) 中获得广泛采用的评价指标, 也就是Precision、Recall、F1, 其计算即如公式 (6) 所示。
其中, β表示Precision和Recall之间的平衡因子, 本文中β=1。
本文主要设计三组实验, 分别针对三种暴力音频事件和正常音频场景的识别、三种暴力音频事件之间的识别以及三种暴力音频事件和正常音频的四类问题。其中分类器采用的则是SVM[12]。
实验一:针对三种暴力音频事件和非暴力音频的识别, 即爆炸和非爆炸, 枪击和非枪击, 尖叫和非尖叫。其中设定了5折实验, 而且分别使用短时特征以及长短时特征的结合来进行实验, 具体识别结果如表3、表4所示。
通过表3, 表4可以看出, 仅仅使用短时特征虽然能够取得较好的结果, 但如果能够加入长时特征, 整体的识别结果仍会得到更为显著的提升。同时, 由上述实验结果也可以看出, Precision普遍较低。这一结果则与选取数据库中的暴力镜头和非暴力镜头的数量差异直接相关。
实验二:主要针对三种暴力音频事件的两两组合间的识别, 以此来验证本文所提取的特征在不同暴力音频事件上的各自识别效果。此处, 只是选取爆炸、枪击和尖叫的镜头进行实验。同样, 本实验也是使用短时特征以及长短时特征的结合而设定了两组实验, 实验结果则如表5、表6所示。
通过表5和表6可以看出, 整体来说爆炸和枪击对尖叫的区分效果较好, 但爆炸和枪击二者的区分却要差上一些。这可能是由二者的特性所导致, 毕竟二者在发声上有较大的近似。只是进一步地, 通过加入长时特征, 就可以将三种暴力音频事件实现有效的区分。
实验三:四类识别。实验数据包括三种暴力音频事件镜头的特征, 以及所有不包含三种音频事件镜头的特征。共四类数据。与上述实验一样, 采用了5折验证, 并且也使用了短时特征以及长短时特征进行实验, 实验结果分别如表7、表8所示。
由表7和表8可知, 在进行多类的识别时, 加入长时特征, 也可以提高实验的识别效果。总体来说, 对于当前所使用的数据库, 加以客观条件所限, 本文取得的结果已是较为理想。而且, 对于处理不定长的音频段, 利用长短时特征的融合, 亦可以有效地提高相应的识别效果。
3 结束语
现阶段对于电影中的暴力检测研究仍属稀少, 而且已有研究基本都采用视频数据进行对暴力镜头的检测。使用音频进行检测仍尚属罕见, 尤其是暴力电影中的音频事件 (爆炸、枪击、尖叫等) 检测。本文使用上述所介绍的音频特征同时对爆炸、枪击、尖叫等三种具有代表性的暴力音频事件进行了检测。取得了较好的结果:最高的为爆炸, 达到了93.3%;最低的为尖叫, 也达到了81%。总体来讲, 本文提取的特征是有效的, 而且能够产生较好的识别结果。大部分的暴力音频检测在较短的音频段进行和实现, 而对电影中以镜头为检测粒度的工作及文献还较少见到, 因此, 对于一个镜头中的音频特征的提取和使用则是后续需要进一步深度研究的工作内容之一。与此同时, 在后续的工作中还要考虑使用其他的分类算法, 以在更大程度上提高研究的识别结果。另一方面, 暴力音频事件的检测更是对电影中暴力镜头检测工作的一部分。因此, 未来应该可以与视频特征相结合进行暴力镜头检测。
摘要:暴力镜头检测是近年来的研究热点之一。早期的暴力镜头检测主要依赖视频特征, 由于音频信息具有良好的稳定性和在不同文化和人群之间的一致性, 现在人们越来越多地关注音频信息的使用。为此研究使用音频特征对电影镜头中的暴力音频事件进行检测。为此提出了一种基于多尺度时长的特征提取方法。提取了除MFCC、LPC、能量等短时特征以外, 还提取了能量均值方差、子带能量均值和方差、帧间差分等长时特征。暴力镜头中出现较多且具有代表性的音频事件有爆炸、尖叫、枪击三种。本文以电影的镜头为识别单位, 使用支持向量机分类算法实现了一个检测系统。通过在15部好莱坞电影上的实验, 表明本文基于多尺度时长的音频特征在暴力音频事件检测工作中, 能够取得较好的结果。
关键词:暴力镜头检测,多尺度时长特征,音频事件检测,支持向量机
参考文献
[1]DEMARTY C H, PENET C, GRAVIER G, et al.The mediaeval2012 affect task:violent scenes detection in hollywood movies.MediaEval 2012 Workshop, Pisa, Italy, October 2012:4–5.
[2]CHEN L H, HSU H W, WANG L Y, et al.Violence detection in movies[C]//Computer Graphics, Imaging and Visualization (CGIV) , 2011 Eighth International Conference on.IEEE, 2011:119-124.
[3]CHEN Y, ZHANG L, LIN B, et al.Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications (IBICA) , 2011 Second International Conference on.IEEE, 2011:95-98.
[4]NAM J, TEWFIK A H.Event-driven video abstraction and visualization[J].Multimedia Tools Appl, 2002, 16 (1-2) :55–77.
[5]GIANNAKOPOULOS T, KOSMOPOULOS D, ANDREASARISTIDOU, et al.Violence content classification using audio features[C]//SETN, 2006:502–507.
[6]HUANG Weimin, et al.Scream detection for home applications[C]//Industrial Electronics and Applications (ICIEA) , 2010 the5thIEEE Conference on.IEEE, 2010.
[7]PIKRAKIS, AGGELOS, GIANNAKOPOULOS T, et al.Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics, Speech and Signal Processing, 2008.ICASSP 2008.IEEE International Conference on.IEEE, 2008.
[8]PENET, CDRIC, et al.Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]//Content-Based Multimedia Indexing (CBMI) , 2013 11thInternational Workshop on.IEEE, 2013.
[9]CHENG W, CHU W, WU J.Semantic context detection based on hierarchical audio models[C]//Proceedings of the 5thACM SIGMM international Workshop on Multimedia in-formation Retrieval, 2003:109–115.
[10]NAM J, ALGHONIEMY M, TEWFIK A H.Audio-visual content-based violent scene characterization[C]//IEEE International Conference on Image Processing, 1998:353–357.
[11]Temko A, Nadeu C, Biel J I.Acoustic event detection:SVMbased system and evaluation setup in CLEAR’07[M].Multimodal Technologies for Perception of Humans.Springer Berlin Heidelberg, 2008:354-363.
多尺度特征 篇6
由于三维影像可以带给受众更加逼真的临场感,在各领域中都得到了广泛的应用[1],市场潜力巨大。然而,三维视频制作成本高、技术难度大、现实周期长等问题,则限制了资源的供应,无法满足市场需求。为了解决这一矛盾,通过获取二维影像的深度信息,并利用该信息将现有二维影像三维化处理获得三维影像,即已成为解决三维显示内容不足的一个重要手段。该方案不但可以降低制作成本,缩短制作周期,还能够充分利用现有的影像资源避免资源浪费。自2003年,德国Christoph Fehn提出了基于深度图绘制DIBR( Depth - Image - based Rendering)[2]的三维图像生成方式后,深度信息提取已然成为实现二维影像三维化的关键技术之一。
场景深度信息是指在空间上场景对象与图像物理成像焦平面的实际距离。二维场景图像的纹理变化、纹理梯度、 颜色都能给人们提供良好的深度感知。通过比较一纹理区域在不同尺度下的位置、大小、方向,估算出纹理区域的相对位置关系,进而得到相应纹理区域的场景深度。Knorr等提出了利用图像纹理梯度线索来提取深度的方法[3]实现深度估计。对于室外场景的转换得到了较好的重建质量,但由于线索单一,对室内场景图像效果较差。Malic,Saxena[4,5]等人,根据景物对象在不同深度上存在着纹理及阴影差异,通过建立马尔科夫随机场模型,监督学习方法训练参数,从而估计图片场景深度。Derpanis等人则从时空方向能量对动态纹理进行描述[6],提出利用方向滤波器的能量响应对视频进行处理,按照不同的等级对运动的形式进行定向分析。
基于对纹理特征的研究及优化算法的总结,提出了一种基于多尺度纹理特征的最小二乘深度估计方法。该方法采用了纹理滤波器分别对图像的纹理梯度、纹理渐变、颜色进行滤波,用以捕捉图像不同尺度的纹理能量作为特征,通过训练得到纹理线索与场景深度间的关系参量,并利用该关系参量来估计待测样本的深度。
1多尺度纹理特征提取
二维图像是三维场景在二维平面上的投影。在投影过程中丢失了大量的三维信息,其中不仅包括深度信息,还包括真实物体的形状等几何信息。只有充分挖掘二维图像中残留的信息,才能重构三维场景。因此,通过构建多尺度模型,捕捉多尺度纹理特征实现二维图像的深度信息估计。
在研究中,以宏块为基本处理单位,通过计算图像中的所有宏块的深度值,获得整幅图像的深度信息。首先,将图像划分成固定大小的宏块; 然后,对于任一宏块构建多尺度模型; 最后采用滤波器模板对该多尺度模型中的每个宏块进行卷积,进而求得该宏块的多尺度纹理特征。
1.1多尺度模型构建
单目二维场景图像的局部特征并不能够完全正确地反映场景对象中某一宏块的深度值,因此需要引入与之相邻的局部特征或全局特征才能正确估计图像的深度信息。因此, 为了获得更多图像本质特征,引入了尺度空间的思想[7,8]。 构建如图1所示的多尺度空间模型,采用多尺度分析法获得二维场景的本质特征。
在观察物体时,随着物体和观察者之间的距离不断地变化,视网膜感知到的图像信息也是不断变化的,通过综合分析这些不同的视觉信息可以获得被观察物体的本质特征。 多尺度空间分析思想是根据人眼观察事物的这一特点,在图像信息处理过程中引入一个尺度参数( 如物体和观察者之间的距离) ,通过不断变化尺度参数获得在不同尺度下的图像信息,然后综合分析这些信息深入地挖掘图像的本质特征。 多尺度空间分析方法对于深度特征提取具有重大意义。如图1中,A0、B0、C0分别是三个尺度下的图像宏块。对于宏块A0,仅通过其本身特征来推断其深度信息是不可能的。 而B0、C0提供了不同尺度下的图像特征,通过综合分析这些全局信息可以更好地推断出宏块A0的深度信息。
在对图像中景物深度信息判断过程中,发现相邻宏块的特征对目标宏块的深度估计也具有很大贡献,可以约束相邻宏块之间深度的依赖关系。因此,将宏块A0、B0、C0的上、 下、左、右四个相邻宏块包含在多尺度模型中。这样不仅可以将与目标宏块直接相邻的宏块的特征引入深度判断,而且还可以将较远的宏块的特征引入深度判断。
最终构建了宏块A0的多尺度模型,共计5宏块/尺度 × 3尺度 = 15个宏块。
1.2纹理特征提取
纹理是一种反映图像中同质现象的视觉特征,体现了物体表面共有的内在属性,包含了物体表面结构组织排列的重要信息以及其与周围的联系[9]。在图像的分析中将描述这种灰度变化规律的数字特征称为图像的纹理特征。
纹理的变化在人眼视觉感知深度的过程中扮演着重要的角色[10]。图像纹理线索作为深度提取的主要因子之一, 在人眼视觉深度感知过程中发挥着关键性的功能主导作用。 随着深度的变化,图像纹理在视觉中的变化是很明显的。纹理分析方法广泛应用于视频图像恢复、图像增强、三维立体视频制作等。因此,采用Laws滤波器以及纹理梯度滤波器滤波的方式获得纹理特征。
由于Laws滤波器[11]检测均值( Level) 、边缘( Edge) 、斑点( Spot) 等诸多信息简单有效,至今为止仍被广泛用于分割与模式识别等领域。本文采用3阶Laws模板( 如图2所示) 对图像的灰度通道进行滤波,以获得图像的灰度纹理变化信息; 采用图2中第一个模板对图像的两个色度通道滤波,以获得色度通道的纹理变化信息。
纹理梯度侦测器是用于检测图像纹理方向的一组滤波器模板。图3中给出的是间隔为30°方向侦测器,将0 ~ 180° 的空间划分成6个方向,考虑到纹理方向不存在正向与反向之分,可以通过这组侦测器将纹理梯度具体归结到6个方向上来处理。
将上述9 + 2 + 6 = 17个滤波器Fn( x,y) ( n = 1,……, 17) 与图像宏块I( x,y) 卷积并求其能量。式( 1) 中,k = 1时为绝对能量,k = 2时为平方能量和。这样,每一个宏块获得34维特征向量。
再将多尺度空间模型与纹理特征提取方法相结合。即采用式( 1) 所示的方法,对于每个目标宏块i所建立的多尺度模型中的15个宏块,进行纹理变化、纹理梯度等特征的提取,最终获得34 ×15 =510维可以反映其深度信息的特征。利用这些特征,采用模式识别的概率模型来估计场景对象深度。
2基本算法模型
模式识别起源于二十世纪二十年代,随着计算机的出现和人工智能的兴起,在六十年代发展成为一门重要的学科, 并广泛应用于代数、矩阵论、概率论等其他领域。模式识别是研究图像或各种物理对象的分类与描述的实用性科学,是将每一具体事物正确地归入某一类别。可以说,模式识别是模式空间经过特征空间变换到类别空间的一个实现过程。
将深度估计引入模式识别,即把深度估计问题归为模式识别问题,深度即是离散的拟要识别的模式类。对训练样本集和待估计的测试样本集内图像分别进行特征的提取; 以贝叶斯原理为基础建立分类器进行分类决策模型; 然后,根据最小二乘方法训练模型参数,使得基于这种分类决策对被识别对象进行分类所造成的误差要尽量趋小; 最后,利用所得模型参数完成深度估计,生成待估计测试样本的深度图。
2.1基于模式识别方法的深度模型
利用模式识别分类方法,对已有的真实深度图像和二维场景图像进行监督训练,在本实验中参考Saxena的数学模型方法,将训练样本图像分成M × N个宏块单元,选取三个尺度的纹理能量作为训练样本集的纹理特征,并将训练样本同一行的纹理特征进行相关组合,构成特征矢量,研究样本集中场景图像深度与纹理能量之间的关系模型,模型数学表达如式( 2) 所示[12]:
这种算法是针对宏块的深度值属于每一类进行决策。 式中Z是归一化常数; xi是宏块i的特征矢量; di是宏块i的真实深度值。σr表示真实深度的方差,用来衡量深度对于纹理能量特征的不确定性。大多相片是由水平安装的相机拍摄,每行具有不同的布局。因此,对不同行r采用不同的参数( θr,σr) 。针对同一图像中不同行场景布局的不同,所需训练的行参数也不尽相同,并用 θr来表示每一行的参数矩阵,θr的估计是通过l( d) = logP( d | X; θr)的极大似然函数来获得。将其他参数看成已知,则 θr的最大似然估计即为求解线性最小二乘问题的真实结果。
2.2基于最小二乘的参量估计
最小二乘法是一种数学优化技术,通过最小化误差的平方和来寻找数据的最佳匹配函数,进而简便求得未知数据, 并使得这些计算数据与实际数据之间的误差平方和达到最小值。
利用最小二乘法的思想,根据估计深度值与真实深度值之差的平方最小来估计最优参数矢量 θr,满足式( 2) 中概率最大的估计深度值即为二维场景图像在三维场景中的最适深度。式( 2) 中,P表示满足二维图像宏块的深度值取值概率,因此通过确定式中P的最大值,就可确定该宏块最有可能的深度值。同时,又根据指数基本性质,可知若使得P取最大值,则需要满足式( 2) 中的取值为最小,并且式中,因此,就要使其中取值达到最小,此处可令:
那么满足关系式取值为最小,即需使:
根据矩阵的基本性质,利用最小二乘方法,对式( 4) 求导可得:
为满足式( 4) 中I取最小值,令,则:
从而得出二维场景图像的纹理特征与深度之间的关系参量:
2.3深度估计
由式( 7) 得知,参数矩阵 θr与纹理特征xi有着直接的关系。如前所述,每个宏块的纹理特征xi都是510 × 1维特征向量,参数矩阵 θr则为1 × 510的特征矩阵。在进行深度估计时,可以认为深度di是宏块i的纹理特征矩阵的非线性组合。这样,参数矩阵 θr就是不同的权值组合,每一权值就是其相应的纹理特征对深度的影响程度,进而得到深度值如式 ( 8) 所示:
3实验结果与分析
在Matlab2011b环境下通过仿真验证方法的有效性。选取400幅1 704* 2 272像素的二维图像及其真实深度图为训练集,133幅1 704* 2 272像素的二维图像及其真实深度图作为测试样本集。场景中包括人造环境( 楼房,街道等) , 自然环境( 森林,灌木丛等) 。
试验中,为了权衡由宏块大小所带来的训练速度与深度的统计特性的显著性之间的矛盾,将图像分成17 × 32像素的宏块。实验结果如图4所示,其中( a) 为原始图像、( b) 为本方法得到的二维场景图像深度估计结果、( c) 组图像是激光扫描设备得到的二维场景图像的真实深度图像,深度范围是在0 ~ 81m,对于超过81m的深度都将记为81m。
4结束语
本文中,提出了一种基于多尺度纹理特征的最小二乘深度信息估计方法。该方法通过建立多尺度模型、采用了纹理滤波器对图像的纹理梯度、纹理渐变、颜色进行滤波,捕捉图像不同尺度的纹理能量作为特征,并通过训练得到纹理线索与场景深度间的关系参量,该关系参量可用来估计待测样本的深度。
多尺度特征 篇7
遥感影像分类是处理遥感影像过程中非常重要的一步, 一直受到科研人员的高度重视。胡自申等[1]基于支持向量机方法对遥感影像进行分类。陈波等[2]结合了纹理特征, 用支持向量机方法对遥感影像进行分类。黄昕等[3]融合形状和光谱的高空间分辨率遥感影像进行分类。Gao等[4]提出一种基于核的块阵分解方法来对遥感影像进行分类。
但是, 随着遥感影像分辨率的提高, 遥感影像中含有丰富的纹理特征, 加之“同物异谱”和“异物同谱”现象存在, 利用光谱特征简单地提取地物信息, 会导致分类精度较低等问题。利用多尺度纹理特征进行特征提取能够有效地融入高分辨率遥感影像的空间分布信息。KPCA算法把数据通过非线性变换映射到高维核空间, 在核空间中, 运用PCA技术对地物特征提取, 相比于PCA技术, KPCA能够很好地处理非线性数据。同时, 支持向量机方法是一种不通过概率密度估计直接构造分类面的全新的模式识别方法, 具有突出的遥感图像分类性能, 相比较与其他分类方法, 它能够很好地提高遥感影像的分类精度。
文中首先对高分辨率遥感影像进行核主成分分析, 利用灰度共生矩阵法对核主成分分析的第一主成分进行纹理特征提取, 然后选择最佳的多尺度纹理组合对高分辨率遥感影像进行支持向量机分类。
1 理论基础!
1.1 支持向量机
支持向量机是由Vapnic等人在1992年提出的计算学习理论, 此后得到了广泛的关注和深入的发展。它是在VC维理论和结构风险最小化的基础上发展而来的一种高效的机器学习方法。VC维可以理解为对函数复杂度的一种度量, 也正是因为SVM关注的是VC维, 所以SVM在解决问题的时候, 和样本的维数无关。样本数据在低维空间向量集中通常难于划分, SVM方法通过将它们映射到高维空间里来划分。很明显这样会增加问题计算的复杂度, 核函数解决了这个难题, 因此核函数也是SVM方法的关键。在实际应用中, 只要选用合适的核函数, 就可以得到高维空间的分类函数, 当然采用不同的核函数就会产生不同的SVM算法。
支持向量机方法已经在小样本、非线性和高维模式识别问题中展现出独特的优势。基于SVM在收敛性、训练速度以及分类精度上具有较高的性能。
1.2 核主成分分析 (KPCA)
主成分分析法 (Principal Component Analysis, PCA) 是一种经典的降维方法[5], 能够有效地处理线性关系数据, 但是PCA的降维是通过线性投影变换实现的, 它忽略了数据之间经常存在的非线性关系, 降维所得到的特征并不太理想, PCA方法具有很大的局限性。为了从根本上解决非线性数据的特征提取问题, 在主成分分析法的基础上, 采用核主成分分析[6,7] (Kernel Principal Component A-nalysis, KPCA) 对融合后的遥感影像进行降维, 将低维的线性不可分数据映射到高维核空间, 然后在高维核空间中利用PCA提取非线性特征。该方法使基于线性特征提取的PCA得到了非线性推广, 在提取非线性特征时具有较好的效果。大部分KPCA都是利用径向基函数, 径向基函数是基于欧式距离的核函数。基于欧式距离的径向基函数没有考虑遥感影像的光谱特征信息, 而光谱角核函数则考虑了这一点。
KPCA基本的流程可以总结为:首先利用核函数高效地将数据从低维映射到高维以消除数据的非线性特性, 然后在高维空间中进行PCA线性变换, 最后再映射回归到原始低维空间, 其中核空间和核函数是算法实现的关键。通过上述过程获得的新数据具有高可分性、低相关度等特点, 并保留了原始空间中的非线性特征、信息损失率和失真度小。
2 本文所提方法 (KPCA-MSVM)
图像预处理阶段, 对图像进行辐射校正和几何校正, 对预处理结果进行剪裁得到实验区影像。对实验区影像进行KPCA变换。将高分辨率遥感影像的样本映射到高维空间, 协方差矩阵为:
其中, N为样本的个数, f (xi) 为非线性变换, 求出特征值λ和特征向量α, 存在αi使得:
特征值和特征向量满足:
由 (1) 和 (2) 可得:
式中, K为核矩阵, Nλ为核矩阵的特征值, α为核矩阵特征向量。选取大于零的特征值β, 求出特征向量, 满足Mλ<β, β>=1, 样本在α上投影, 投影所得的值可以组成特征向量, 这就是样本的新的特征向量。
然后对KPCA变换后的第一主成分进行纹理特征提取。灰度共生矩阵法[8]是一种常用的效果较好的纹理特征提取方法, 灰度共生矩阵是由图像灰度值之间二阶联合条件概率密度所构成的矩阵, 反映了图像中任意两点间灰度的空间相关性。灰度共生矩阵常用的特征参数主要有四种:角二阶矩, 对比度, 逆差分矩和熵。
为了得到多尺度纹理, 选择窗口大小为3×3、5×5、7×7、9×9、11×11、13×13、15×15、17×17、25×25, 步长取值为1, 对图像进行KPCA变换后的第一主成分分别进行纹理提取。纹理特征量之间存在着一定的相关性, 对不同尺度的相同纹理量进行KPCA变换, 进行信息压缩以及提取非线性信息。
提取各地物信息特征后, 将所有特征运用支持向量机分类方法来提取地物类型。支持向量机法是一种基于结构风险最小化准则的学习方法, 其分类能力优于一些传统的学习方法。由于SVM的求解最后转化成二次规划问题的求解, 因此SVM的解是全局唯一的最优解。通过求解约束条件下的极值, 将其转化成为对偶问题, 转化为求解不等式约束极值问题, 可以得到最优分类函数:
式中, sgn{}为符号函数;ai为Lagrange乘子;b为分类的域值;x、y为样本向量。ai不为零的样本点就称作支持向量。这些向量充分描述了整个训练样本集数据的特征, 使得对支持向量集的线性划分等价于对整个数据集的分类。对于非线性可分样本, 支持向量机构造分类决策函数的方法是, 首先将训练数据从原始模式空间经过特定核函数的非线性变换, 映射到高维特征空间。然后, 在特征空间中, 寻求最优分类超平面, 该超平面实际上对应着原始模式空间中的非线性分类面。因此, 支持向量机在处理非线性情况时, 仅比线性情况多了一个非线性映射环节。其对偶形式变为:
其中, K (xi×xj) 为满足Mercer条件的核函数。目前, 应用较多的核函数有3种, 即多项式核函数、径向基核函数和Sigmoid核函数。在本文中, 采用径向基核函数来进行遥感影像分类。KPCA-MSVM算法的具体实现步骤如表1所示。
3 实验结果与分析
本次实验区数据为河海大学江宁校区在2012年12月获得的三波段遥感影像如图1所示。本文选择该图中的7类地物作为研究对象, 分别为建筑物、水体、阴影、草地、树木、道路、其他。在选取训练样本, 测试样本阶段, 选取训练样本360个, 测试样本700个, 具体如表2所示。
本文训练样本数据包括基于主成分分析的多尺度纹理特征数据, 采用SVM算法对训练样本数据进行训练。对700个测试样本进行分类, 对分类结果进行精度的评价, 如表3所示。
由表3可以看出, 道路得到了较好的提取, 生产精度达到88.97%, 其中一部分被误分为建筑物;基于KPCA的多尺度纹理特征之后, 相比较一般分类, 道路的纹理特征得到应用, 使其分类精度得到提高。草地和林地混合分布比较严重, 部分草地被误认为树木, 部分树木也被误认为草地。水体的分类效果较好, 但阴影和水体的光谱特征相似, 一些水体被误分为阴影。其他用地类主要是运动场地, 部分被误分为建筑物。阴影很容易被误分为水体。
为了进一步比较分析, 分别利用原始数据结合PCA进行SVM分类 (PCA-SVM) 、原始数据结合KP-CA进行SVM分类 (KPCA-SVM) 以及结合多尺度纹理特征进行SVM分类 (M-SVM) , 分类精度如表4所示。
从表4可以看出, 结合KPCA和多尺度纹理的分类方法精度最高, 分类精度达到81.7%, Kappa系数为0.807。基于核的多尺度纹理特征SVM分类方法, 在一定程度上更好地提取出地物类别, 提高了分类精度。
4 结束语
本文提出一种KPCA-MSVM分类方法, 该方法是结合核主成分分析, 多尺度纹理特征提取, 支持向量机方法对遥感影像进行有效分类。该方法的具体实现步骤是:通过KPCA将非线性可分的遥感影像映射到高位空间, 转化为线性可分遥感影像, 在高维空间进行遥感影像的分类。并且结合多尺度纹理特征提取, 更好地提取地物特征。同时, 采用SVM分类方法, 相较于传统分类方法而言, 分类精度进一步提高。实验表明, 结合KPCA和多尺度纹理的支持向量机分类方法能够将分类精度提高到81.7%。
由于遥感图像中“同物异谱, 异物同谱”的现象存在, 混合像元的存在一直是分类的难点问题, 很大程度上影响分类的精度。同时, 如何选择高效的核函数也是应该进一步探讨的问题。
摘要:遥感影像的分类精度受到多方面的影响, 如遥感影像的质量, 所选的分类方法和有效的辅助数据等。为了得到更好的分类结果, 很多科研人员提出了各种各样的方法。文中针对遥感影像分类问题, 提出一种结合核主成分分析和多尺度纹理的高分辨率遥感影像支持向量机分类方法。实验结果表明, 该方法能有效地提取地物类型, 提高分类精度。
关键词:核主成分分析,多尺度纹理,支持向量机,遥感影像分类
参考文献
[1]胡自申, 张迁.基于SVM的遥感影像的分类[J].遥感信息, 2003 (2) :14-18.
[2]陈波, 张友静, 陈亮.结合纹理的SVM遥感影像分类研究[J].测绘工程, 2007, 16 (5) :23-27.
[3]黄昕, 张良培, 李平湘.融合形状和光谱的高空间分辨率遥感影像分类[J].遥感学报, 2007, 11 (2) :193-200.
[4]Gao J, Xu L, Shi A, et al.A kernel-based block matrix decomposition approach for the classification of remotely sensed images[J].Applied Mathematics and Computation, 2014, 228:531-545.
[5]Jolliffe I.Principal component analysis[M].John Wiley&Sons, Ltd, 2005.
[6]Scholkopf B, Smola A, Müller K R.Kernel principal component analysis[C]∥Advances in kernel methods-support vector learning.1999.
[7]Gao J, Fan L, Li L, et al.A practical application of kernel-based fuzzy discriminant analysis[J].Int.J.Appl.Math.Comput.Sci, 2013, 23 (4) :887-903.
多尺度特征 篇8
随着黄河流域社会经济的快速发展,沿黄地区工农业用水量日趋增长,加之自然气候变迁的影响,黄河流域水沙情况发生了显著变化,而黄河下游来水来沙条件也出现了变异现象。对于黄河下游的这种水沙变化的偶然性及趋势性,已引起有关方面的极大关注。因而,分析黄河下游水沙变化的原因,阐明水沙变化的规律,这成为关系黄河下游河床演变趋势、防洪和河道治理、水资源利用、水库运用等流域治理开发与管理的各个方面的先决条件和基础问题。
年水沙量时间序列本质上是一个由实际观测资料得到的信号,其具有非线性和非平稳的特征。以往采用常规统计方法,虽然能大体判断出变化的主要周期和大致突变点位置,却不能揭示出水文泥沙变化的多尺度[1]和多层次结构。近年来,经验模态分解方法已在气象、水文等方面开展应用探索[2,3,4],但一般关于流量和径流量序列的研究较多[5,6,7],而对输沙量序列的分析研究很少。本文运用EMD方法,对近60年来黄河下游利津站实测年水量及年沙量进行多时间尺度的周期波动与趋势的分析,并探讨了年水沙量变化过程中蕴含的多时间尺度振荡结构和特征。
1 方法理论与数据资料
1.1 EMD方法简介
在时间序列的多时间尺度分析方面,1998年,美籍华人黄鍔(N.E.Huang)[8,9]等提出了一种可以将不同时间尺度的波动,即本征模态函数(Intrinsic Mode Function, IMF)逐级分离出来的经验模态分解(Empirical Mode Decomposition, EMD)方法。
EMD方法的大体思路是利用时间序列上下包络的平均值确定“瞬时平衡位置”,进而提取本征模态函数(IMF)。本征模态函数必须满足以下2个条件:
(1)在整个数据段内,极值点的数目和过零点的数目必须相等或最多相差1个;
(2)在任意点,由局部极大值点形成的包络线和由局部极小值点形成的包络线的平均值为0。
EMD方法分解过程为:
(1)确定原始信号数据序列X(t)所有的局部极值点,用3次样条曲线插值将所有的局部极大值点连接起来形成上包络线emax(t);同样,用3次样条曲线插值将所有的局部极小值点连接起来形成下包络线emin(t),上下包络线应该可以包络所有的数据点。
(2)求出上下包络线的平均值,记为m1(t),则有m1(t)=[emax(t)+ emin(t)]/2。
将原数据序列X(t)减去该平均值后得到新数据序列h1(t)。
一般情况下,h1(t)并不满足IMF的条件。需将h1(t)作为原始数据,再重复上述处理过程,直到新的数据序列
能够满足IMF的条件为止,这样就得到了第1个IMF分量c1(t),即
(3)从X(t)中分离出c1(t),得到剩余序列r1(t)
将r1(t)作为一个新的数据序列,按照以上步骤,依次提取第2、3、…,直至第n个本征模态函数cn(t)。
当残余量rn(t)成为一个单调函数或常量,不能再从中提取满足条件的IMF分量时,分解即结束,此处理过程被黄鍔形象地比喻为“筛”过程。分解出的n个本征模态函数c1(t)、c2(t)、…、cn(t)分别包含了原信号从高到低不同频率段的成分,并且在每一频率段内所包含的频率成分都是变化不同的,它是随信号本身的变化而变化。而最终的残余量代表了整个序列的趋势。如果把分离出来的IMF分量与最终的残余量加起来,则可得到原始数据序列,即:
由于每一个cj(t)分量是代表一组特征尺度(频率)的数据序列,因此EMD分解实际上就是把原始数据序列分解为各种不同特征波动的叠加,每一个分量既可以是线性的也可以是非线性的,且提取出的每一个分量都对应有实际的物理背景过程。
EMD方法不可避免地存在着边界效应问题,本文采用镜像对称延伸方法对边界效应进行了处理[10]。
1.2 数据资料
利用1952-2009年黄河下游利津站共计58年的年水量和年沙量的实测水文泥沙资料(资料来源于黄河水文年鉴及黄河泥沙公报),整理得到近60年来黄河下游利津站实测年水沙量变化过程,如图1所示。通过图1只能直观发现近60年利津站年水沙量变化的趋势,而并不能深入而细致地分析、揭示水沙变化的演变周期及多时间尺度特征,因此有必要运用EMD方法对其进行多时间尺度分析,在有限的数据序列中挖掘获取更加丰富而全面的有用信息,从而更深刻认识水沙变化的内在规律和特征。
2 利津站年水沙量变化的EMD分析
运用EMD方法对利津站1952-2009年的年水量和年沙量时间序列进行多时间尺度分解,各自得到3个本征模态函数(c1~c3分量)和一个残余趋势项(Res分量),如图2所示。
由图2可以看出,(1)利津站实测年水量和年沙量变化过程是非线性和非平稳的,各自都是分别由多种波动成分共同作用的结果,其都可以分解为3个具有不同波动周期的振荡分量和1个趋势分量,反映出利津站年水量和年沙量变化具有复杂得多时间尺度特性。
(2)年水量c1分量具有准2~4年的波动周期,其中20世纪70年代之前,振幅较以后其他时段为大,平均为150~200亿m3左右,而进入20世纪70年代直至1990年以前,波动幅度较之前有所降低,平均为100亿m3左右,而1990年以后直至近年,波动幅度持续减小,一般不超过50亿m3。
年沙量c1分量具有准2~4年的波动周期,其中1964以前,振幅一般为6~10亿t,而1964~1990年期间,波动幅度较之前有较大程度的减少,降为3.5~4.5亿t左右;1990年之后,波动幅度一般已不超过2亿t,尤其是2003年以后,波动幅度更趋减小至0.5亿t左右。
(3)年水量c2分量大致具有准8~10年波动周期,其中自20世纪50年代直至1986年左右,波动周期以6~8年为主,1986年之后,波动周期有所加大,以9~10年周期为主。自20世纪50年代直至1986年左右,振幅呈缓慢衰减的态势,由20世纪50年代的约130亿m3左右降至1986年约60~70亿m3,1986年至近年,振幅一般稳定保持在30~50亿m3。年沙量c2分量具有准5~7年的波动周期,自20世纪50年代直至1973年左右,波动周期以7~10年为主,波动振幅大体约4~5亿t,而后至1999年左右,波动周期有所减小,以5~7年为主,波动幅度有较大的减少,约为1.5亿t左右。1999年以后,波动周期又有所加大,波动幅度保持相对稳定,约为1亿t。
(4)年水量c3分量在1970年左右之前其波动周期以15年左右为主,之后波动周期增大至20~23年左右,总体来讲在整个时段内以准20年为主。其波动幅度在1970年之前呈缓慢衰减的趋势,由1950年的190亿m3降至1970年约150亿m3左右,1970~1980期间波动幅度急剧减少至65亿m3,1980年后波动幅度稳定维持在30~50亿m3左右。
年沙量c3分量在1970年左右之前其波动周期以10~12年左右为主,之后波动周期增大至17~18年左右,总体来讲在整个时段内以准15年为主。其波动幅度在1980年之前衰减非常缓慢,由1950年的约2.6亿t降至1980年约2.3亿t左右,1980年后波动幅度稳定维持在1.1~1.5亿t左右。
(5)年水量Res分量反映出利津站年水量的整体变化趋势,大致自20世纪60年代末至1999年左右,该站年径流量整体上呈急剧衰减的趋势,减幅达到72.3%,最大年减少量达到近14亿m3。
年沙量Res分量反映出利津站年沙量的整体变化趋势,自20世纪60年代中后期至2000年期间,该站年沙量呈现明显下降减少的趋势,减幅达到93.1%。
(6)需要指出的是,利津站年水量和年沙量的变化趋势项可能仍含有属于更长周期(更小频率)波动的组成部分,而限于观测资料时段长度,这种波动的周期、频率和振幅尚不能从趋势项Res分量中有效分解出来。
(7)年水量和年沙量的变化在长周期波动中嵌套着短周期的波动,并且长周期变化在整个时段内要比短周期变化平稳得多,其具有一定的稳健性特点,即大尺度的周期波动比较缓慢、微小,其控制着整个年水沙量变化的全局,而中短尺度的周期波动在整个序列中的振荡比较剧烈。
3 年水沙量变化的多时间尺度特征及结构
由以上结果可以发现,年水量和年沙量经EMD分析后所得到的周期是大致相同或相近的,其振荡幅度及波形上也呈现出明显的关联性。由表1也可以看出,年水量与年沙量具有较好的响应关系。年水量的c1分量大致具有2~4 a的准周期,且其方差贡献率达到18.4%,说明年水量波动的18.4%是由准2~4 a周期波动造成的,与此对应,年沙量c1分量同样具有2~4 a的准周期,且其方差贡献率达到36.8%,说明年沙量波动的36.8%是由准2~4 a周期波动造成的。同样c2、c3分量及Res分量具有类似特性。年水量与年沙量的相同分解尺度
下的波动周期大致相同或相近。
年水量与年沙量的多时间尺度振荡结构具有一定相似性,无论年水量还是年沙量,Res分量的方差贡献率都是最大的,表明其对整体时序的波动趋势具有全局性的控制作用;3个分量的方差贡献率依次减小,表明其对整体时序的波动的重要性减弱。由表1不难看出,引起年水沙量波动主要原因是Res分量和c1分量,其方差贡献率之和分别达到66.1%左右和83.4%左右,而c2、c3分量对年水沙量波动的影响则相对较弱,更多的体现了年水沙量长时段内的变化趋势。考虑到年水量与年沙量之间的物理成因关系,正是由于年水量具有特定的波动周期及结构特征,从而导致其变化周期一定程度上“传递”给了年沙量的波动周期和结构特征。
进一步分析利津站1952-2009年的年水量和年沙量的相关性,其系数是0.854,说明黄河下游年水量与年沙量之间具有一定的相关性。为了深入探讨年水量与年沙量不同尺度下的相关性,将年水量与年沙量两个序列的经验模态分解后的各自对应的内在模态函数进行相关性分析。表2是年水量和年沙量的各自内在模态函数之间的相关系数。可以看出,在年沙量c1分量与年水量的3个分量的相关系数中,其与年水量c1分量的相关系数最大,达到0.753,表现出明显的正相关,而与年水量的c2、c3分量相关系数很小;年沙量c2分量与年水量3个分量的相关系数中,与年水量c2分量的相关系数最大,达到0.204,表明两者之间是具有一定正相关性的,但相关性并不明显;在EMD分解后的波形图上明显可看出,年沙量c3分量与年水量c3分量在前半时段内具有一定的同步性,而在后半时段内则呈明显的反相关,因而分别计算前后时段两者之间的相关系数为0.115和-0.871,由此全面比较年沙量c3分量与年水量3个分量的相关系数,可以认为年沙量c3分量与年水量c3分量在一定时段内呈现较强的反相关性。
显见,相同尺度下的水量和沙量其相关性较强,而不同尺度间的水量与沙量的相关性则很差,并且中短周期的水沙具有相对明显的正相关性,而长周期的水沙一定时期内具有明显的负相关性。将两者的趋势项也进行相关性分析,年水量的趋势项与年沙量的趋势项两者之间的相关系数达到0.972,说明年水量和年沙量在整体趋势上存在较强的相关性和确定性。
4 结 语
运用EMD方法分析黄河下游利津站1952-2009年的年水沙量变化,将年水沙量变化的各个尺度的变化特征分离出来,得到的各波动分量清楚表征了不同尺度的水沙变化波动特征。研究结果表明:
(1)利津站年水沙量变化过程具有复杂得多时间尺度特性,是各种波动成分共同作用的结果。其可以分解为3个具有不同波动周期的振荡分量和一个趋势分量。其中,年水量变化过程存在有准2~4年、准8~10年和准20年的波动周期成分,年沙量变化过程存在有准2~4年、准5~7年和准15年的波动周期成分,并且近60年来利津站年水量和年沙量都呈减少的趋势。
(2)利津站年水量和年沙量各IMF分量具有相近的波动周期,并且各波动分量对年水沙量原序列波动的影响作用也具有一定的相似性,短周期的波动是引起水沙波动振荡的主要原因,中长周期的波动对水沙波动振荡的影响较弱,其更多的反映的是长时期内水沙波动的趋势。
(3)对年水量和年沙量的各波动分量及趋势项进行相关分析,结果显示,相同尺度下的水量和沙量其相关性较强,而不同尺度间的水量与沙量的相关性则很差,并且短周期的水沙具有较强的正相关性,而长周期的水沙具有一定的负相关性。两者趋势项之间的相关系数达到0.972,表明两者在更长时间尺度上存在着很强的相关性和确定性。
参考文献
[1]张少文,丁晶,廖杰,等.基于小波变换的黄河上游天然径流变化特性分析[J].四川大学学报(工程科学版),2004,36(5):32-37.
[2]林振山,汪曙光.近四百年北半球气温变化的分析:EMD方法的应用[J].热带气象学报,2004,20(1):90-96.
[3]刘莉红,郑祖光,琚建华.基于EMD方法的我国年气温和东部年降水量序列的振荡模态分析[J].高原气象,2008,27(5):1 060-1 065.
[4]郑红星,刘昌明.黄河流域水资源演化模式分析[J].地理学报,2004,59(2):267-273.
[5]冯平,丁志宏,韩瑞光.基于EMD的洮河年径流量变化多时间尺度分析[J].干旱区资源与环境,2008,22(12):73-76.
[6]王义民,张钰.HHT在年最大洪峰流量规律分析中的应用[J].计算机工程与应用,2009,45(34):204-207.
[7]张永,丁志宏,何宏谋.黄河中游水沙变化关系不确定性的时间尺度特征研究[J].水利水电技术,2010,41(1):18-21.
[8]Norden E Huang,Zheng Shen,Steven R Long,et al.The empir-ical mode decomposition and the Hilbert spectrum for nonlinearand non-stationary time series analysis[J].Proc.R.Soc.Lond.A,1998,454:903-995.
[9]Norden E Huang,Zheng Shen,Steven R Long.A new view ofnonlinear water waves:the Hilbert spectrum[J].Ann Rev FluidMech,1999,31:417-457.