特征信息提取(共10篇)
特征信息提取 篇1
0 引言
在制造业蓬勃发展的今天, 越来越多的依赖于计算机软件技术的发展。计算机技术广泛应用于制造业, 不仅体现在制造领域应用制造自动化技术和数控加工技术, 而且还在设计领域应用计算机技术进行产品设计开发, 包括市场调研、辅助产品概念设计和详细设计、计算机辅助工艺规程、工程数据计算以及制造过程仿真等等。计算机辅助设计 (CAD) 自60年代出现以来得到了广泛应用, 已经能够较好地解决产品的应力分析、计算校核、绘制图纸等工作, 提高了设计效率和产品质量, 给社会带来了极大的效益。
那么, CAD的发展趋势是什么呢?其中之一就是CAD与CAM系统集成与一体化的研究。CAD/CAM集成取决于CAPP系统的发展与完善。CAPP系统是连接设计与制造的纽带, 它将设计阶段的几何模型自动转换为加工制造所需的程序代码, 并直接传送给CNC系统进行零件的加工。是否从CAD系统的零件模型中提取出足够的零件信息, 以驱动CAPP系统进行工艺规划决定了CAD与CAPP的信息集成度。目前已经有大量的研究时针对特征识别与提取, 而如何如何从零件的几何模型中自动提取出零件的制造特征信息则是这项研究的重点所在[1]。
1 基本概念
1.1 制造特征
制造特征是指通过一定的制造工艺流程可以加工出的工件特征, 具有一定的工程功能, 与单纯的几何拓扑信息有本质的不同。制造特征与制造和工艺规划相联系, 它关注产品的可制造性。例如, 孔是一种制造特征, 它可以通过一系列钻孔操作来产生。
可将制造特征分为一般特征、外形特征、曲面特征三大类。前两种特征可分为13种特征, 可从多个曲面片和单个曲面片来对曲面特征进行分类, 制造特征的分类如图1所示。制造特征的提取过程是, 在建立的集合模型的基础上, 经过某种推理, 将满足加工有关的特征信息从几何模型的点、线、面中提取出。
1.2 制造信息
包括与工艺过程设计相关的所有零件信息, 如材料、精度、形状、管理信息等在内的都属于零件制造信息。
功能形状、加工工艺形状、装配辅助形状等都属于形状信息, 它是指待加工表面的形状、尺寸、坐标及与其它表面的相互关系。
尺寸公差、形位公差和表面粗糙度都是精度信息, 它是描述零件几何形状、尺寸的许可变动量的信息集合。
材料类型、性能、热处理方式、硬度值等都是材料信息, 它是有关于零件材料和热处理的信息集合。
零件批量, 毛坯类型、名称等都属于管理信息。从零件零件层信息、特征层信息、特征面层和特征参数等方面可对零件制造信息进行分层次的描述。如图2所示这些信息除了获取自CAD系统以外, 还可由人机交互来进行修改和增加。
1.3 软件平台和开发环境
美国EDS公司开发的一套优秀的CAD/CAM/CAE一体化的高端软件Unigraphics (简称UG) , 它涵盖设计、分析、加工、产品数据和过程管理等各种功能。并且提供良好的二次开发环境, 用户可以通过二次开发接口UG/OPEN对UG软件进行开发、扩充使之更方便、更高效地满足于用户的特定需求。利用其独特的二次开发和特征建模功能, 以Visual C++6.0为开发环境进行软件开发, 赋予UG三维实体几何模型的制造特征信息, 使几何模型具有加工制造所需的制造信息, 以利于CAD/CAPP/CAM集成的发展。
2 制造特征信息的提取原理
制造特征信息的提取主要分为制造特征自动提取和人工提取两部分。特征几何体的拓扑关系是提取制造特征的基础。特征提取首先从几何模型的拓扑关系出发提取出每个特征的几何数据。根据零件的制造特征结构建立一个具有四层几何实体结构的特征数据库, 包括:零件、特征、面和与面相联系的几何公差信息。再将提取出的特征信息与特征数据库相比较符合的作为特征信息。这些信息只是加工所需的形状信息 (如盲孔、螺孔、椎孔和台阶孔等) , 而与其同等重要的精度信息、材料信息和管理信息并没有完全提取出来。这就需要设计人员将这些信息一一对应的映射到特征信息中。以此形成完备的可以完全应用于实际加工制造中的制造特征信息模型。
制造信息的提取步骤:确定几何模型所要拾取的部分, 将组成特征的相关信息提取出来与特征数据库中的数据相匹配, 零件的加工特征便得以确定。如图3所示, 采取的提取步骤如下: (1) 将设计图形调入, 对零件所要识别和提取的特征进行拾取。 (2) 相关信息的拾取要依据特征信息的数据结构进行。 (3) 将特征数据库打开并在其中搜寻已有特征然后进行匹配。 (4) 找到匹配的特征类型, 输出结果。 (5) 若没有找到可匹配的类型, 人工识别。
对UG软件而言, 它提供了内建的特征造型功能并维护着一个特征实例库, 因此利用UG/OPEN、UG/OPENPP编程接口可以直接获取零件特征实例信息, 而不必从底层的基本集合元素 (点、线、面) 出发, 从头开始“拼装”给定类型的特征实例。
为了完成上述特征实例的提取工作, 需要定义如下的数据结构:
提取的信息以一定的格式输出到文本文件中, 同时显示在屏幕上。
3 小结
本文针对CAD/CAPP集成系统中制造特征信息模型的定义和提取方法以及软件开发平台作了简要的论述。它是实现CAD/CAPP集成的基础, 是CAD/CAPP/CAM集成中信息集成的关键。对现有的三维软件 (如UG和PRO/E等) 进行二次开发, 完善三维软件的制造信息, 使三维模型能有效的应用于CAPP系统中, 行之有效的解决了CAD/CAPP的集成问题。
摘要:以产品特征建模作为CAD/CAPP集成的基础, 构建了基于特征的集成化产品信息模型。根据系统集成对于信息的需求, 从制造特征信息方面对于零件特征进行了深入的研究, 在此基础上构建特征信息模型。在以上研究的基础上, 以为UG平台, 利用UG的二次开发接口, 对制造特征进行提取。
关键词:CAD/CAPP/CAM,UG,制造特征,特征提取
参考文献
[1]孙正兴, 丁秋林.基于特征的零件信息模型研究[J].计算机辅助设计与制造, 1995, (7) :34-37.
[2]张凤军, 刘华明等.面向并行CAD/CAM集成的特征建模技术的研究[J].机械设计, 2000.
[3]J.J.ShahandM.T.Rogers“Functional requirements and conceptual designof the Feature_based Modelling System”ComPut.Aid.Eng.Des.February, 1988.
一种高效的虹膜特征提取算法 篇2
【摘 要】本文提出了一种高效的虹膜特征提取算法。首先,利用灰度直方图,实现了虹膜内边界的准确定位;随后,为了克服眼睫毛和下眼睑的遮挡影响,给出了一种虹膜外边界定位方法,能够准确获得虹膜的有效部分;最后,利用归一化算法,将环状的虹膜特征转化为矩形特征,便于虹膜的训练和识别。通过实验验证,该方法是准确的和有效的。
【关键词】虹膜;图像二值化;边缘检测
一、介绍
虹膜识别在当下备受推崇和关注,虹膜识别的研究和应用成为热门研究方向,这使得虹膜识别技术很快得到推广和应用。虹膜识别技术在很多领域得到了很好的应用,其优点如下:(1)唯一性高,(2)稳定性好,(3)具有防伪性,(4)准确性高,(5)速度快[1]。虹膜识别系统由三个基本单元组成:图像采集;特征提取;比对。虹膜包含纹理的部分是内外两个近似圆形边界之间的部分,虹膜内侧与瞳孔相邻,外侧与巩膜相邻。但是,这两个圆不是完全同心的[2]。需要分别对内外两个边界进行处理。虹膜定位的目的是要找出瞳孔与虹膜,虹膜与巩膜之间的两个边界。目前,具有代表性的方法是Daugman虹膜提取算法[3],但是,由于受到眼睫毛和下眼睑等遮挡因素的影响,虹膜特征往往不能被准确的提取,造成最终识别精确度低。
二、虹膜图像获取
在摄取图像时需要注意:(1)保证图像具有足够的分辨率和清晰度;(2)须保证摄取的虹膜图像有很好的对比度;(3)摄取的图像要限制在一定范围内;(4)人工因素应尽可能的消除。
三、虹膜定位
(一)虹膜内边界定位
与眼睛的其它部分相比,瞳孔的灰度值要小得多,因此采用二值化的方法分离出瞳孔,从而提取内虹膜边界。首先,通过灰度直方图,确定二值化方法的阈值。在直方图中有两个主要的峰值,其中的第一个峰值,对应的就是瞳孔区域灰度集中的范围,第二个峰值对应的是虹膜区域的灰度集中范围。显然,提取瞳孔的二值化阈值应该选择在第一个峰值的右侧。确定阈值后,虹膜内边界即可被定位。
(二) 虹膜外边界定位
在以往的方法中,通常采用最小二乘法拟合的方法提取外圆边界。由于上下下眼睑的遮挡,虹膜并不能被完整的定位和提取,导致虹膜识别精度降低。本文针对上述问题,提出了一种有效的虹膜外边界定位方法。首先,利用获得的虹膜内边界数据,拟合出虹膜内边界的圆心和半径。为了克服眼睫毛的影响,本文舍去虹膜的上半部分,同时为避免下眼睑被误检,虹膜的下半部分也只提取有限部分。如图3所示,红色边界内部即为检测获得的虹膜。
四、虹膜图像的归一化
五、结束语
本文提出一种新型的虹膜特征提取方法,避免了眼睫毛和下眼睑等遮挡因素对虹膜特征提取的影响。通过实验验证,该方法有较高的识别精度是准确的和有效的。
参考文献:
[1]黄惠芳,胡广书,虹膜识别算法的研究及实现 [J];红外与激光工程; 2002年05期.
[2]Mann I. The Development of the Human Eye. New York: Grune and Stratton,1950.
[3]J. G. Daugman. High confidence visual recognition of person by a test of statisticalindependence. IEEE Transactions on Pattern Analysis and Machine Intelligence.1993, 15(11): 1148~1161.
[4]R.P. Wildes. Iris Recognition: An Emerging Biometric Technology. Proceeding of the IEEE, 1997,85(9):1348~1363.
[5]王蕴红,朱勇,谭铁牛. 基于虹膜识别的身份鉴别[J]. 自动化学报,2002,28(1):1-10.
特征信息提取 篇3
数字高程模型(Digital Elevation Model,DEM)是用一组有序数值阵列形式表示地面高程的一种实体地面模型,是数字地形模型(Digital Terrain Model,简称DTM)的一个分支。DEM数据中包含了大量的地表形态和水文信息,能够反映各种分辨率的地形特征[1],是地理信息系统的基础数据,和流域地形分析的主要数据。通过DEM特征提取进行流域水文分析,地形特征和水系特征提取是最重要的两个部分。
ArcGIS 9.3是ESRI公司的产品,其集成的水文分析工具箱Hydrology对于提取地形水文信息并加以直观显示十分方便[2]。本文基于SRTM_DEM数据,在ArcGIS 9.3环境下,对泾河流域地形水系信息进行提取,并划分子流域,提取流域面积。
1 研究区概况
本文研究区为泾河流域,泾河是黄河的二级支流,也是渭河的最大支流。该流域位于东经106°14′~108° 42′,北纬34° 46′~37°19′之间,发源于宁夏六盘山东麓泾源县境,流经平凉、彬县,于陕西高陵县南入渭河,全长455.1 km,流域面积45 421 km2,占渭河流域面积的33.7%,多年平均年径流量24.4亿m3,流域年平均降水量550 mm。泾河水系呈树枝状,支流较多,集水面积大于1 000 km2的支流有左岸的洪河、蒲河、马莲河、三水河,右岸的汭河、黑河、泔河[3,4]。流域内水系较发达,集水面积大于1 000 km2的主要支流有13条,大于500 km2的支流有26条,长1~2 km2的冲刷沟系十分发育,多达上万条。
2 数据来源
本文以空间分辨率为90 m的SRTM_DEM为基础数据,版本SRTM3 V4.1。SRTM(Shuttle Radar Topography Mission),由美国太空总署(NASA)和国防部国家测绘局(NIMA)联合测量。2000年2月11日,美国发射的“奋进”号航天飞机上搭载SRTM系统,共计进行了222 h 23 min的数据采集工作,获取北纬60°至南纬60°之间总面积超过1.19亿km2的雷达影像数据,覆盖地球80%以上的陆地表面。SRTM系统获取的雷达影像的数据量约9.8万亿字节,经过两年多的数据处理,制成了数字地形高程模型(DEM),即现在的SRTM地形产品数据。此数据产品2003年开始公开发布,经历多修订,目前的数据修订版本为V4.1版本。该版本由CIAT(国际热带农业中心)利用新的插值算法得到的SRTM地形数据,此方法更好的填补了数据空洞[5]。插值算法来自于Reuter et al.(2007年)[6],数据来源于中国科学院计算机网络信息中心国际科学数据镜像网站(http://datamirror.csdb.cn)。
3 基于STRM_DEM的流域地形信息提取
地形因素对于流域地貌、水文、生物等具有重要影响,地形的空间分布特征是用于描述其空间过程变化的重要指标。DEM可派生出多种地形因子, 如坡度、坡向、剖面曲率、平面曲率、汇水面积等[7,8]。其中,坡度、坡向是表现地形特征最重要的2个因子,也是地形分析和各领域应用的基础。
3.1 坡度和坡度曲率
坡度指过地表面任一点切平面与水平地面的夹角,表示地表倾斜程度[9]。ArcGIS 9.3求解坡度运用拟合曲线面法,采用二次曲面,求解每点坡度的公式[2]如下:
式中:S为坡度;Sx为x方向上的坡度;Sy为y方向上的坡度。
地面坡度不仅能间接表现地形的起伏状况,同时也是衡量水土流失程度的主要指标,是土壤侵蚀、分布式水文模型和土地规划利用等分析的基础数据[10]。泾河流域水土流失情况最严重,80%以上的土地面临着水土流失问题,年平均土壤流失量为5 845 t/km2,河流最大含沙量高达1 570 kg/m3,因此地面坡度图对泾河流域的农业、林业和水利建设等方面均有重要实用价值。
坡度的等级划分采用原水电部制订的“不同水力侵蚀类型强度分级参考指标”中的坡度分级标准[11]。该标准分为六级,第Ⅵ级的上限为35°,考虑到坡度>35°时,对于土地利用方式和治理措施选择均具有重要意义,故增加一级,即第Ⅶ级>35°。坡度等级划分标准如下:Ⅰ级<3°;Ⅱ级3°~5°;Ⅲ级5°~8°;Ⅳ级8°~15°;Ⅴ级15°~25°;Ⅵ级25°~35°;Ⅶ级>35°。
地貌分析还可能需要使用二阶差分凹率和凸率。坡度变率是地面坡度在微分空间上的变化率,即依据坡度的求解原理,在所提取的坡度值基础上再计算一次坡度,其表征了地表面高程相对于水平面变化的二阶导数[12]。
由提取出的坡度图(图1)和坡度曲率图(图2)可知,泾河流域最大坡度为60.18°,最大坡度曲率为15.52。
3.2 坡向和坡向曲率
坡向(图3)是地表面一点的切平面法线矢量在水平面的投影与过该点正北方向的夹角,表征了该点高程值改变量的最大变化方向。坡向值有如下规定:正北方向为0°,按顺时针方向计算,取值范围为0°~360°。求每点坡向的公式[2]如下:
式中:A为坡向;Sx为x方向上的坡度;Sy为y方向上的坡度。
坡向对降水和山地生态等具有明显影响。同时,由于光照、温度、雨量、风速、土壤质地等因子的综合作用,坡向能够对植物产生影响,进而引起植物和环境的生态关系发生变化。
坡向变率(图4)是在提取的坡向基础上,提取坡向的变化率,可以很好地反映等高线弯曲程度。
4 基于STRM_DEM的流域水系信息提取
流域河网水系是重要的基础地理因素之一,也是描述地理地貌和水文特征的基本水文参数。快速有效地获取流域水系特征信息,对于水资源有效配置、流域整体规划、水电开发、防洪抗旱和灌溉等都具有十分重要的意义[13]。
随着空间和地理信息技术的广泛应用,数字高程模型作为存储和操作十分方便的地形信息表达方式,常应用于提取流域河网、分析地形对于径流响应的影响等,利用 DEM 生成的水系河网和集水流域,是大多数地表水文分析模型的主要输入数据。
4.1 洼地填充
在实际地形中洼地是真实存在的,但DEM数据因精度不足或数据异常也会产生洼地,即假洼地。假洼地可能导致生成河网时的不合理中断,降低河网生成的准确性,所以应先作填洼和平地抬升处理。填洼可简单表述为,若某一栅格的高程低于周围单元,则增加其高程,直到水流可流到相邻单元。
4.2 水流方向提取
预处理后得到有效SRTM_DEM数据,就可以进行各栅格流向的确定。流向的判断主要有单流向法和多流向法[14,15]。单流向法因其简单方便而被广泛应用,其中应用最多的是D8法。D8法假设单个网格中的水流只能流入与之相邻的8个网格中,即只有8种可能的流向。水流方向确定用最陡坡度法,即在3× 3的 DEM 网格上,计算中心网格与各相邻网格间的距离权落差(即网格中心点落差除以网格中心点之间的距离) ,取距离权落差最大的网格为中心网格的流出网格,该方向为中心网格的流向,也就是计算出每个栅格单元与相邻单元之间的坡度,选取最陡的坡度作为流向。
4.3 计算流水累积量
在地表径流模拟过程中,根据水流方向数据计算流水累积量。DEM是由规则网格表示的,其每点处有一个单位的水量,按照自然中水由高向低流的规律,根据水流方向数据计算每点处所流过的水量数值,便得到了该区域的流水累积量。对于单个栅格,其流水累积量的大小代表其上游有多少个栅格的水流方向最终汇流经过该栅格,数值越大,表示越易形成地表径流。
4.4 设置集水面积阈值
集水面积阈值(集流阈值)是河网提取的关键因子,用累积流量值作为河道确定的标准,直接影响到河网的提取结果。本文分别以集水面积阈值1 000(8.1 km2) 、5 000(40.5 km2) 和10 000(81 km2)提取的河网。
4.5 水系提取
以设定的集水面积阈值为标准,从流水累积量图层中提取水系河网。当汇流量达到一定值时,将产生地表径流,所有汇流量大于临界值的栅格都是潜在的水流路径,由此构成的网络就是河网,即凡是累积流量大于等于集流阈值的网格就被定义为河道。
对泾河流域以集水面积阈值分别为1 000(8.1 km2) 、5 000(40.5 km2) 和10 000(81 km2)提取的河网结果对比见图5,当集水面积阈值设置较小时,河网密度较大,分叉较多;反之,河网密度降低,河道数目变少。受DEM水平垂直分辨率、误差和空间均匀性的影响,生成的流域河网难免出现一些干扰和错误[16],与真实自然水系相比,描述的是一种概化现象,可能有一些伪特征。与泾河流域主要河网(图6)进行比较,SRTM_DEM数据提取出的河网精度较高,集水面积阈值设为5 000(40.5 km2)较为合理,能够较好地反映该地区水系。
4.6 流域分析
4.6.1 河网分级
河网分级是根据河流的流量、形态等因素对线性河网进行分级别的数字标识,具有水文意义。在 ArcGIS的水文分析中,提供两种常用的分级方法:Strahler[17]和Shreve分级。本文采用Strahler分级,它是将所有河网弧段中没有支流的分为第1级,两个1级弧段汇流成第2级,如此下去分别为第3级,第4级……直到河网出水口,也就是只有相同级别的两个弧段汇聚成一条时,级别才会增加,对于低级河网弧段汇入高级的情况,高级河网弧段的级别并不改变,这是一种比较常用的河网分级方法[12]。
4.6.2 低级集水区域生成
流域又称集水区域,任何一个天然的河网,都由大小不等的水道联合组成,而每一个水道都有各自的特征和集水区域,河流从这个集水区域获得水量的补给,因此,大流域往往是由若干较小的流域组成的。
低级集水区域的生成,可以使用 hydrology工具集中的 watershed 工具。其基本思想如下:确定一个出水点(该集水区的最低点),并根据水流方向,分析搜索该点上游所有流经的栅格,直到所有该集水区的栅格位置全部确定,也就是搜索到流域的边界(分水岭)。以streamlink工具得到的出水口数据为输入,生成每一条河网弧段(最小沟谷)的集水区域(图7)。
4.6.3 子流域划分和流域面积提取
提取河网后,为更好地研究面积较大流域的水文信息,需要划分子流域。本文利用提取的河网,根据Strahler河网分级、低级集水区域生成结果和流域地形特征,将泾河流域划分成32个子流域,并编码。图8为子流域划分结果,表1为提取的子流域面积。
SRTM_DEM数据提取的流域面积(45 428.50 km2)与泾河流域实际面积(45 421 km2)相比较,相对误差仅为0.017%,以及部分支流流域面积提取结果与实际面积的比较(表2),相
对误差介于-0.57%~0.51%,均较小,说明提取结果与实际非常接近。对于泾河流域,一般获得的实际测量面积由于条件所限,必然存在一定误差,且精度到平方千米,相比而言,SRTM_DEM数据精度和准确性较高,对于水文地理信息分析、模拟技术和水文模型建立等具有重要的意义。
5 结 语
SRTM_DEM数据精度较高, ArcGIS软件功能强大,两者结合能方便快捷地完成地形特征和水系河网提取等任务。坡度、坡向等信息是地形分析和应用的基础,可直接作为参数,用SRTM_DEM数据提取地形因子能够极大地提高效率。基于DEM数据提取流域河网过程中,集水阈值选取直接影响整个流域河网特征提取结果。分析表明,基于90 m DEM数据提取的泾河流域河网,当阈值取5 000(40.5 km2)时,生成的流域河网能够较好地反映该地区水系河网。利用提取的河网,根据Strahler河网分级、低级集水区域生成结果和流域地形特征,将泾河流域划为32个子流域,并编码、提取面积,为流域分布式水文模型的构建提供了基础地理信息。SRTM_DEM数据提取的流域面积(45 428.50 km2)与泾河流域实际面积(45 421 km2)相比较,相对误差仅为0.017%,提取的部分支流流域面积误差均较小,说明提取结果与实际非常接近,数据精度较高。结果表明,SRTM_DEM数据提取流域特征具有较高的精度和准确性,对于泾河流域的水文模拟及地理信息分析和规划具有十分重要的意义。
特征信息提取 篇4
关键词:Flash动画;内容分析;特征提取
中图分类号:TP317.4
Flash动画主要以矢量图形为主,并且具有强大的交互功能,简而言之,这就是一种多媒体动画形式,当前形式,计算机网络技术不断普及不断跟进,多媒体教学形势盛行,Flash动画显然成为多媒体教学的一种极其重要的方式。但是,由于现今阶段对于Flash动画做出检索命令的工具甚少,分析研究一种较为快速的进行Flash动画检索命令从而有效获得所需信息成为急需解决的问题。
1 Flash动画结构及形成原理解析
1.1 对Flash动画存储结构的研究分析。Flash动画由三部分内容构成,包括文件头、文件主体、文件结束标记。其中文件头一般定义了文件的标志、大小、版本,另外还包含了舞台的大小、帧率以及帧数等这些基本的信息;文件主体的主要内容就是指由顺序排列的定义型标签和控制性标签,这两类标签分别代表的含义为,定义其文件组成元素一些参数信息和基本属性,控制元素表现出来的动态效果、属性的变化以及人机交互等;文件结束标记顾名思义,标志着这一Flash文件的结束。
1.2 对Flash动画运行结构的研究分析。Flash动画的运行结构,简而言之,就是指Flash动画播放出来的效果,表示其播放结构。一个相对完整的Flash动画从时间观念来讲,以帧为基本单位;从空间范围角度来讲,其单位为基本单位对象。总结来讲,按照空间与时间概念对Flash动画进行划分,可以划分为顺序结构以及层叠结构。顺序结构的基本单位为帧,场景由许多连续播放的帧构成,Flash动画由许多场景构成,这就是Flash动画播放的基本构造。Flash动画中,所有的帧都是连续播放的,继而不难理解每一个场景也是连续的,而且这也不难想象所有时间点一致的帧会被同时播放出来,结束之后将会紧接着播放下一个场景,连续播放直到最后的一个帧结束。另外,在同一时间点上,Flash动画的层数也是极有深度的,这有深度的所有层次上每一层都有很大空间放置许多对象,这些对象由于所属层次的深度值也就形成了不同层之间所有对象的上下层叠的关系属性,深度小的对象位于深度大的对象之下,默认底层深度值为0。
2 Flash动画的特征分析
2.1 Flash动画的基本特征。Flash的基本特征基本包括文本、按钮、图像、视频等这些元素的属性以及特征值,因而,针对Flash动画的基本特征,想要检索出内容特征,就必须出示提取出内容特征。其特征包括内部特征及外部特征两部分,内部特征是指文本、图像等元素的参数及其属性值,外部特征是指文件名及创建日期等外部属性。文本的表示方式为关键词及其功能;按钮则由所在帧号、功能、位置等表示;图像基于位置、大小及其效果、视频则由像素点、类型等来表示。总之,Flash动画的媒体对象不同于以像素点为基础的视频及图像的对象,是矢量格式的,可运用各种分析方法,合理科学的进行特征提取。
2.2 swf文件内容特征提取平台。Swf文件格式是开源的,阅读说明书后我们可以建立Flash动画内容特征提取平台,然后对其进行文件格式转换,通常转换为xml文件格式,以此作为评估标准,其原则是swf文件的内容提取平台提供出来的信息要与xml格式的标签相一致,这样才被认定为试验成功,再进一步提取Flash动画中元素的内容特征参数,建立Flash动画内容特征的索引库。第一,提取swf的文件头、文件版本、长度及舞台大小、帧率、帧数等文件头信息;第二,提取文件主体所包含的标签。Swf文件的内容特征通常用这几个参数来描述:长度和编码,帧号,帧的位置以及标签的类型。长度和编码表示的内容即其所占的字节数,单位毋庸置疑为字节;帧号指的是在整个Flash动画里某一帧所处的位置继而对其进行的编号处理;帧的位置表示的是当前帧所处的字节位置,同样以字节为单位;标签的类型指的就是标签的名称,通常以编码值进行标识。通过分析这些文件内容,提取出参数,将其放进Flash动画的特征索引库中,继而自然提高了检索的准确性以及检索效率。
3 Swf文件相关特征提取的研究分析
3.1 图像的信息特征提取。Flash文件一般支持jpg、bmp、gif等多种图像格式,其嵌入的图像一般都是经过压缩的,以此来减小动画文件的大小,其中包括有损压缩和无损压缩两种压缩文件,不同的需求采用不同的图像形式,如果对于照片没有很高的精度要求,就可以采用jpg的压缩格式,若是需要对于图表,截图等需要精准的图象显示就采用zlib格式,同时两种压缩文件都可以选择包含alpha通道的相关信息。Jpeg格式被广泛地应用于多媒体及网络之中,可以分为有失真压缩及无失真压缩,按编码顺序则可分为顺序式编码及递增式编码两种类型,这两种类型的编码通常分别按照“由左及右,由上到下”和“从模糊到清晰”的原则分次进行处理。
3.2 按钮特征提取。按钮在外观上可以看作是一幅矢量图,或者叫做位图,一般是规则的图形,类似矩形,方形或是其他多边形,也可能是框框架架或者线条,甚至还可以是看不到的透明形状,总而言之,按钮外观不受拘泥。其状态严格的分为三类,分别是弹起、按下以及指针经过。鼠标移动、单击以及键盘操作等动作是构成swf动画文件的重要部分,动作不同便执行不同的命令。通常而言,动作包括原件动作以及时间轴动作,时间轴动作一般贯穿整个Flash动画,直接添加到关键帧上,元件动作控制某个元件的效果及响应属性,包含在按钮、影片等元件的描述标签之中,触发元件则响应动作,二者相互配合来执行动作,使得动作的实施准确、有效。
3.3 动画内部对象特征提。Swf文件的特征提取通常被分为四个层面,其中包含有低级别内容特征、高级别内容特征、元数据以及文本注释。低级别内容特征一般包含的内容为各媒体对象及其特征,各媒体对象之间的关系及其编组等,具有可以自动提取的优点;高级别内容特征的目的为了解识别出对象内容,但基于当前Flash发展水平,尚且存在较大的技术阻挠;元数据包括的对象比较广泛,类似于作者、文件名等基本属性,但对于对象本身不做出解释或说明;文本注释正好对于文本内容作出解释,包括关键词和自由文本描述等,但是其存在的不足之处在于,应该将文本注释与其他媒体特征相结合使用,不应独立出来。另外,由于flash动画本身其内部的媒体内容具有很多特有特征及表达方式,所以,应当针对不同对象采取不同的提取方式及提取内容,然后采用合理的方式加以表达,例如对于文件中的字符,可以通过其形状解析得出,而视频、音频、图像等则需要先把数据提出,存为硬盘文件,再利用内容分析法提取其特征。低级特征提取的步骤如下:读取第一个标签内容,判断标签类型,采取不同的特征提取方法提取特征,根据特征添加到数据库中,读下一标签,判断是否为结束标签,选择循环或者结束。最后,针对Flash动画的特征,在进行特征提取时,运用不同媒体之间的内在关联协助进行特征提取,因为,基于不同的格式,其他类型的媒体或许对这类型更加容易解释等。如此一来,特征的提取就变得简单起来了。
高效准确的Flash动画检索将进一步促进Flash动画的发展和应用,使人们能够更容易获取所需资源,更加方便地应用于教学、娱乐、科研等各个方面,为人们的学习和生活提供更大的方便。
参考文献:
[1]马书文.浅谈Flash中常见的几种动画类型及应用[J].黑龙江科技信息,2014(05):49-50.
[2]王文军.浅谈FLASH动画的应用与前景[J].机械管理开发,2011(01):37-38.
[3]杨羽.Flash软件中的动画运用浅析[J].科技广场,2013(05):36-37.
作者简介:王珣,女,讲师,硕士,研究方向:多媒体软件,信息技术教育。
作者单位:渤海大学,辽宁锦州 121000
特征信息提取 篇5
特征提取是通过线性或非线性变换提取研究对象的本质特征,是多媒体分析与机器视觉领域重点研究的内容。近年来,随着对哺乳动物视觉系统,尤其是初级视觉皮层(V1区)信息处理方式的深入研究,基于哺乳动物视觉信息认知计算理论的特征提取模型研究已经逐渐成为特征提取领域的研究热点。进化使视觉系统对外部环境具有自适应性;通过视觉系统,生物提取外部图像信息的视觉特征,并据此自适应地调整自身行为。因此,视觉信息加工过程与基于自然图像高阶统计量的特征提取过程,二者存在密切关系。基于自然图像高阶统计量的非高斯性统计生成特征提取模型能有效地模拟了V1区视觉信息加国过程。受V1区视觉细胞的信息加工过程的启发,该模型处理自然图像等观察信号,抽取自然图像有效特征向量或滤波器,获得图像自身包含的复杂视觉结构特征。该统计生成模型构造的关键是利用V1区复杂视觉细胞几个重要特征:稀疏性(非高斯性)、独立性、非线性依赖、几何不变性和超完备性。
研究表明V1区视神经细胞主要包括三类,神经节、简单细胞和复杂细胞[1]。Field和Daugman提出了自然图像的高阶统计特征满足非高斯分布[2,3](即V1区视觉细胞的稀疏性)。当生物视觉受到外部刺激时,大部分视神经元对外界刺激的响应较弱,仅有少部分视神经元对外界刺激相应较强。非高斯性表明:以高阶统计量提取自然图像视觉特征的方式可以实现生物视觉系统的有限神经元提取无限自然图像视觉特征的能力。非高斯性是生物视觉认知计算模型在特征提取方面应用的重要理论依据。因此,依据非高斯性原理构建的统计生成模型与V1区有限神经元提取无限自然图像视觉特征的信息处理过程相似,并使该特征提取模型具有计算有限性。文献[4,5]通过计算自然图像的稀疏性表示,得到类似于V1区简单细胞感受野形状的Gabor状基特征滤波器。文献[6,7]则对稀疏性进行了实际应用,取得较好效果;但是该类特征提取算法认为生成的基滤波器间独立,没有研究和利用细胞间的非线依赖性。非线性依赖性(即相关性)是指复杂视觉细胞之间彼此并非完全独立,而是存在非常强的非线性依赖关系[1,8]。事实上复杂视觉细胞间存在大量拓扑结构,近邻细胞间存在较强的高阶统计相关性;远离细胞间则存在近似独立性。在ICA算法的基础上,Hyvarinen[9]等人提出了独立子空间模型(ISA)和拓扑独立分量模型(TICA)来提取非线性依赖特征;模型通过空域汇聚操作和不同的拓扑构造方法度量独立成分间的高阶非线性依赖关系,揭示V1区复杂视觉神经细胞的拓扑结构。在TICA算法基础上,王哲等人在文献[10,11]中改进了该依赖性的定义方式,使复杂细胞间依赖关系度量方法更加接近于V1区复杂视觉神经细胞的拓扑结构;Zoran等人[12]提出构建了树状非线性依赖关系,以此关系度量V1区复杂视觉神经细胞的拓扑结构。文献[13,14,15,16]从不同角度,采用不同实现手段,证实树状非线性依赖关系与V1区复杂视觉神经细胞的拓扑结构的高度相似性。超完备性是V1区用于处理信息的神经元个数远远大于输入信息的维度,是算法具有完备性和超完备性的生物视觉依据。学生乘积模型(POT)通过超完备基方式扩展了TICA模型,提取了类似于V1区复杂细胞的超完备拓扑结构特征[17]。王哲等[10,11]人提出的基于成对累计量的自然图像拓扑表示模型,该模型利用成对累计量度量V1区视神经元的非线性依赖关系,并结合向量在高维空间的分布特点,给出准正交基的估算方法,实现了自然图像超完备拓扑表示。
但是,上述算法在特征提取上还存在三点缺欠。(1)采用对噪声敏感的高阶统计量峰度作为计算复杂细胞间依赖性的手段,算法鲁棒性差。(2)为降低计算复杂度,算法没有利用复杂细胞的超完备性特征,算法的特征提取能力低。(3)算法定义的复杂细胞拓扑关系简单,不能准确提取复杂视觉细胞间的邻域关系。基于此,本文提出基于自然图像复杂视觉信息的特征提取算法与应用。
本文算法分析传统生成模型中拓扑组织结构表示方法的缺欠,定义通用视觉细胞感受野模型和树状拓扑组织结构表示方法;以自然图像的慢变特征和通用感受野模型基础,改进了准证交超完备基预测算法,自适应的构造超完备基生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自认图像分类。实验表明:从自然图像集中,本文算法学习的滤波器集具有类似于V1区复杂视觉细胞的视觉特征;对输入图像的局部微小变化具有良好的几何不变性;在北卡莱罗那州立大学提供的自然图像图库上,进行基于内容的图像检索的比较实验,本文算法比传统视觉模型具有更好的检索效果和抗噪声能力。
1 相关工作
1.1 基本线性生成模型
独立分量分析算法(ICA)是基于有效编码理论中独立性假设的线性生成模型。模型受到简单视觉细胞信息处理过程启发,通过线性生成模型获取初级视觉皮层简单细胞感受野,提取自然图像包含的简单视觉信息特征。
在自然图像领域,Olshausen提出的稀疏性模型[18]认为,每一幅自然图像都可以看成若干个基函数或基向量的线性组合。因此,ICA模型通常可表示为:
式中,I为自然图像或自然图像上的局域窗口。bi表示自然图像的基向量,si为基向量的特征系数。根据矩阵分析性质,当B是满秩矩阵时,式(1)可以转化为:
式中,wiT是矩阵W的第i行,且W=B-1。滤波器wi模拟初级视觉皮层简单细胞的感受野,变量si表示感受野wi对图像I产生的响应。它可以模拟初级视觉皮层简单细胞的视觉选择性,并被视为ICA模型的独立分量。因此,自然图像基滤波器的估计就转化为依据一组给定的观测图像估计滤波器集W问题。
通过ICA模型获取的自然图像基向量或滤波器有类似于初级视觉皮层V1区简单细胞感受野的三个显著视觉选择性特征:局部位置的选择性,朝向选择性和带通选择性。
1.2 基于复杂视觉细胞邻域关系的生成模型改进
V1区复杂视神经元存在大量的拓扑组织结构,近邻神经元具有相近的视觉选择性,感受野间具有渐变性质,如频率、位置和朝向的渐变性;而远邻神经元之间具有近似独立性。
从自然图像或子然图像集中,ICA与Fast ICA[19,20]算法学习的基滤波器具有V1区简单视觉细胞的特征。基滤波器相互独立,忽视彼此间的非线性依赖关系。
受V1复杂视神经元拓扑组织结构启发,Hyvarinen等人在ICA算法的基础上提出独立子空间模型[21](ISA)和拓扑独立分量模型(TICA)模型,模型通过空域汇聚操作和不同的拓扑构造方法度量独立成分间的高阶非线性依赖关系,解释V1区复杂神经细胞的拓扑结构。
通过放松ICA方法中各分量间相互独立的约束条件,独立子空间模型(ISA)利用独立特征子空间和多维独立分量分析的方法,将各个分量分成若干组,实现组间分量相互独立,组内分量非线性依赖。在ISA模型基础上,拓扑独立分量分析模型(TICA)定义了一个二元拓扑结构,该结构实现在一个小的邻域内各个成分具有非线性依赖关系。与ISA不同的是,在TICA结构中,相邻的邻域之间可以相互重叠,而ISA的子空间彼此分离。上述两种方法均利用ICA成分间的非线性依赖关系,解决了ICA算法的第二个缺欠;在描述非线性依赖关系上,采取自定义拓扑结构的TICA算法比采用分组方法的ISA算法更有优势。
基于统计学理论,Zoran等人[12]提出自然图像基滤波器间的树状依赖性模型。该模型通过树状结构表达基滤波器间的非线性依赖关系,并最大化基滤波器间的非线性依赖程度。该模型学习的滤波器和树状结构非常适合于自然图像的边界特征表示,并且基滤波器的方向与相位特征非常类似于复杂细胞的视觉特征。因此,与TICA比较,树状结构的非线性依赖关系表示更适合自然图像复杂细胞拓扑结构表示。
综上分析,现阶段文献关于复杂视觉细胞邻域关系表示的研究进展如图1所示。
2 自然图像的复杂视觉细胞拓扑结构的邻域关系生成树表示法
实验表明,依据1.2节分析,树状邻域关系能够有效表示复杂视觉细胞的非线性依赖关系。而Gabor函数与V1区简单细胞视觉选择性相似,能够仿真简单视觉细胞的感受野。基于这两点,以Gabor函数为基础,提出通用感受野参数模型。在感受野参数模型中添加适当参数,描述复杂视觉细胞的拓扑结构。感受野的通用参数模型如式(3):
式中,Σ是线性或非线性生成模型,提取自然图像包含的视觉特征。I为自然图像或自然图像局域窗口集,w为自然图像I经过Σ变换提取的基滤波器集合,其中x,y表示基滤波器wi的空间位置,f是基滤波器wi的频率。o是基滤波器wi的空间朝向,p是基滤波器wi的相位,k是基滤波器wi的滤波器长宽比,该参数与频率有一定关系,但是为计算简单,作为单独参数提出。
受复杂视觉细胞方向选择性的启发,依据通用感受野参数模型,设计如下步骤生成复杂细胞间的邻域关系生成树。
1)生成数据集。在大小为L的自然图像集合上,每个图象任意提取N个大小为M×M局域窗口,组成大小为L×N的训练数据集D。
2)生成基滤波器集。受文献[10,11]的影响,用成对累计量替代峰度,改进的ICA算法,提高算法对噪声的鲁棒性;“固定点迭代算法”引入提取下降算法中,降低算法的计算复杂度,改进的ICA算法。在自然图象集训练数据集D上,利用本文改进的ICA模型学习出基滤波器集W。W的分量间相互独立;但不包含复杂视觉细胞间的拓扑关系。
3)生成邻域关系图。以自然图像的基滤波器集W为数据基础,以稀疏性为理论依据,构造复杂视觉细胞邻域关系图G。无向图G=(V,E),其中V是G的顶点集合,V=W。并按如下方法生成图G的边集E。
首先在训练集D中任取一个元素split_w(i),,利用式(4)计算基滤波器集W中每个元素对split_w(i)的响应系数集合S。
其中,是卷积运算。
其次在系数集S上,利用式(5)计算图中每个节点的出度。
如果式(5)成立,wi和wj间存在边eij。其中σ是邻域关系图G的顶点出度控制量,控制图的复杂程度。受稀疏性启发,用式(6)计算σ值。
最后,重复执行前两步,直到D中一半元素被无重复的访问,至此邻域关系图被确定。
4)建立八叉邻域关系生成树。依据稀疏性原理,构造的邻域关系图G定义基滤波器集对自然图像的复杂视觉结构的综合视觉响应。按通用感受野模型中参数划分,图G有多棵生成树。受复杂视觉细胞方向选择性启发,以基滤波器wi的方向相似性为依据,在图G上构造邻域关系生成树T,该树以方向为依据,描述了复杂视觉细胞的的非线性依赖关系。邻域关系生成树T的构造步骤为:
首先,定义T=(D,R),其中D是T的节点集合。初始化时,D中仅有根节点,该节点为算法指定的,不存在实际意义。R为空关系集。
其次,以基滤波器方向为约束条件,层次优先遍历无向图G,生成邻域关系生成树T。
5)超完备邻域关系生成树TC。在ICA算法中,观测数据集I的随机性决定基滤波器集的不完备。受文献[10,11]的启发,采用准正交超完备基预测算法生成超完备基邻域关系生成树。生成过程为:按层次遍历算法遍历生成树T,并按如下超完备基拟合方法预测丢失的基滤波器w*ij,将预测滤波器插入生成树T的适当位置,生成超完备利于关系生成树。
超完备基拟合算法:
step1按滤波器方向角对基滤波器集合W的元素升序排列,得到序列{θ1,θ2,…,θn},在区间[min(θi),max(θi)]上,采用灰度直方图均衡化方法计算各区间内的基滤波器分布密度Pi,当时,取相邻的两个基滤波器wi和wj,通过公式:w*ij=F(wi,wj)计算出两个字节点间的丢失基滤波器w*ij,函数F表示一种线性拟合方法,本文采用加权算术平均值拟合法。ω0和ω1为超完备基控制因子,决定生成树的超完备性。
step2将w*ij代入式(7)中,判别W准正交性。当wi与wj在生成树同一层上,则生成w*ij插入同一父节点的这两个子节点间;当不同层上,插入到wi层的第一子节点。并将wij添加到集合D中。
step3层次遍历生成树T,对每个分支节点执行step1,step2,构造超完备邻域关系生成树TC。具体构造过程如图2所示。
基于图像复杂视觉信息的超完备基生成树特征提取与匹配算法:以视觉方向选择性为依据,建立的超完备生成树有效描述复杂视觉细胞的拓扑结构特征;遍历该树,提取自然图像复杂视觉拓扑特征步骤为:
1)在输入自然图像X上,随机提取K个大小为M×M不完全重合的局域图像窗口window(i),组成特征生成数据集D_char={window(i)i=1,2,…,K}。
2)window(i)∈D_char,计算window(i)与超完备生成树TC的结点wi,wi∈D的响应系数si,生成该窗口的响应集合
3)利用公式Si=max{sj},计算响应集合si的最大响应系数,找到与si对应的基滤波器wi;在生成树TR上,以层次遍历方式检索wi,确定该节点的高度hi和该节点是父节点的第几个孩子节点li。从左到右顺次连接h1、h2和wi方向角θi的二进制编码生成图像的复杂信息特征编码,作为本文算法编码,该编码既通过wi表示方向信息,也通过h1、h2表示该方向上的拓扑结构信息。
4)在特征数据集D_char={window(i)i=1,2,…,M}上循环执行2)、3)两步骤,生成自然图像的二进制拓扑特征编码集CS_window。
5)特征相似度计算。当两个特征编码长度(Len)相同时,采用海明距离法计算两个特征编码的相似程度,计算公式为:
当CS的值小于某一个阈值CS0时,则两个自然图像相似;否则,当特征编码长度不相等或CS大于阈值时,两个自然图像不相似。阈值CS0是通过ROC曲线方法得到。
特征提取与特征匹配的具体过程如图3所示。
3 实验结果与分析
3.1 自然图像基向量比较分析
从ICA算法和稀疏编码模型广泛使用的灰度图像数据库(来源于http://www.cis.hut.fi/projects/ica/data.images)上抽取50 000个16×16像素的局域图像窗口组成训练图集the_first_data。在the_first_data图集上,通过本文算法学习的自然图像基向量集如图4所示。
采用最小二乘拟合方法,将本文算法生成的基向量集W中的每个基向量wi与Gabor函数拟合生成基滤波器参数分布如图5所示。
图5表明:滤波器的频率与方向分布相对独立;位置分布接近均匀分布;相位具有明显的奇对称性;而且随着超完备性的增强,滤波器个数的增加;这些现象更加明显;上述特征与TICA算法、OPCICA算法具有相似性,类似于V1区细胞的特性。
通过本文算法构造的超完备生成树如图6所示。
图6既表明超完备基生成树分支节点与叶子结点的生成过程,又表明出同一父节点的叶子,具有方向、位置和频率的局部缓慢变化特征;而相位差异很大。该性质与V1区复杂细胞的信息处理方式类似。具体分析如图7所示。
图7表明:依据基滤波器的方向角生成的超完备生成树同一分支节点的子节点具有方向相关性,位置和频率的渐变性;不同分支的子节点方向不相关。该特征与生物复杂视觉细胞的非线性依赖关系相似。
3.2 复杂细胞不变性分析
以the_first_data中的自然图像flower为基础,按如下方法生成测试图像集D=D1∪D2∪D3,测试本文算法的几何不变性。测试集生成方法:1)以17个像素为平移步长,将flower图像分别水平,垂直平移四步长生成八个测试图片集D1;2)以19度为旋转步长,将flower图像旋转八个步长生成八个测试图片集D2;3)以1/2为伸缩率,将flower图像伸缩四次,生成四个测试图片集D3,以上三步的起始图像为原始图像flower。为有效度量同组测试图像的不变性,利用均方误差MSE(Mean Squared Error)计算用式(8)生成的同组图像的匹配系数。测试结果为表1所示。
表1表明,均方误差值MSE小,本文算法对自然图像的旋转、平移和伸缩具有较好的鲁棒性,尤其是对平移的鲁棒性更好。鲁棒性好的原因是,自然图像的旋转、平移和伸缩慢变地改变自然图像包含的复杂视觉信息。既不明显改变自然图像包含的基滤波器集,也不明显改变复杂细视觉胞的非线性依赖关系。本文算法依据基滤波器集和复杂细胞间的非线性依赖关系生成自然图像特征,算法具有较好的几何不变性。
3.3 基于内容的图像检索应用
从北卡莱罗那州立大学提供的自然图像图库随机选择的90幅图像,分别做随机旋转、平移八次和伸缩各四次生成大小256×256的归一化图片1800幅图片组成的检索图像数据库the_second_data,该图库分成两个部分:训练图像集和测试图像集。训练图像集由检索图像数据库中每组图像的四个旋转、四个平移和两个伸缩图像组成,剩余的图像组成测试集。首先在训练集上构建超完备生成树;再用测试集验证本文算法在基于内容的图像检索上的性能。试验环境为,软件环境:Windows7.0操作系统,matlab7.1.1仿真环境等。硬件环境:联想系列商用机,CPU为Intel(R)dual core4处理器,具有四核八进程功能,4 GB的内存容量,1 TB硬盘,为算法的并行化设计提供硬件基础。检索性能度量方法为查准率和查全率:查准率=(检索出的相关信息量/检索出的信息总量)×100%。查全率=(检索出的相关信息量/系统中的相关信息总量)×100%。添加噪声按添加噪声=λ1×Speckle+λ2×salt+λ3×Gauss,产成,通过参数λi改变噪声强度。
1)超完备基控制因子ω1和ω2对检索性能的影响
为摆脱以ICA类算法不能实现超完备基生成树预测与实现的缺欠,并受参与刺激响应的神经元个数应该尽量多余输入刺激的维数理论的启发,本文算法通过准正交超完备基预测算法自适应的生成了基于自然图像复杂视觉结构的超完备基集W。而超完备基控制因子ω1和ω2决定超完备生成树繁茂度。因此,超完备基集的元素个数对基于内容的图像检索算法有较大影响。以64、96、128、192、256、384、512、768、1024为基滤波器个数,在the_second_data图库上,运行本文算法,超完备基数目与算法检索性能关系如图8所示。
图8表明随基滤波器个数的增加,本文算法的检索性能在逐渐增加后趋于稳定;在滤波器个数为阈值512时,算法具有最佳检索性能。原因在于,当滤波器个数小于阈值时,随基滤波器个数的增加,算法提取自然图像的统计性能增强,算法性能增加快;当基滤波器个数大于阈值时,算法提取自然图像的统计性能趋于饱和,算法性能趋于稳定,增加滤波器个数来提高算法性能意义不大。
2)与其他生物视觉模型在基于内容的图像检索上的比较
在the_second_data图库上,在不同强度的噪声环境下,通过与ICA算法[18]、TICA算法[8]、OPCICA算法[2]和简单细胞特征(Gabor)算法[9]的特征提取与检索性能比较,证实本文算法的优势如图9所示。
试验结果表明,在基于内容的图像检索领域,在不同噪声环境下,与ICA算法[18]、TICA算法[8]、OPCICA算法[2]和简单细胞特征(Gabor)算法[9]的检索性能比较,本文算法具有更好的查准率与查全率,算法对噪声的鲁棒性更强。这说明采用类似于复杂视觉细胞信息处理方式的特征提取方法,能有效地提取自然图像的慢变的复杂视觉特征。ICA算法提取自然图像所包含的简单视觉信息,因为该算法并没有考虑自然图像复杂视觉细胞的非线性依赖关系;通过多尺度多方向Gabor算法,简单细胞特征(Gabor)算法提取自然图像的简单视觉细胞特征,并依据此特征自适应的设置PCNN的窗口参数,自适应提取自然图像的不变性特征。在结合PCNN算法和最好的初级视觉特征模拟函数Gabor,简单细胞特征(Gabor)算法取得了比ICA和TICA更好的检索效果与抗噪声能力。TICA算法[8]、OPCICA算法均改进了ICA算法,为描述考虑复杂视觉细胞的非线性依赖关系,两个算法定义了自己的非线性依赖关系。但是OPCICA算法采用成对累计量替代峰度计算两个量的相关性,因此,该算法对噪声具有较好的鲁棒性。本文算法定义了更能够表示复杂细胞邻域拓扑关系的非线性依赖关系,采用成对累计量替代峰度和准正交超完备基预测算法,因此算法具有其他比较算法更高的检索性能和算法鲁棒性。
4 结语
受V1区复杂视觉细胞信息分层处理方式的启发,本文分析了自然图像复杂视觉拓扑组织结构的邻域关系生成树表示方法的缺欠,提出了基于图像自身复杂视觉信息的特征提取算法。本文算法定义通用视觉细胞感受野模型,提出自然图像复杂视觉结构信息的超完备基邻域关系生成树表示方法;并以自然图像的慢变特征和中心极限定理为理论基础,改进了准正交超完备基预测算法,自适应的构造自然图像超完备基邻域关系生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自然图像分类。实验表明,本文算提取的基滤波器集具有类似于V1区复杂视觉细胞的重要特征;能够提取自然图像的包含的不变性特征。在基于内容的图像检索上,与ICA算法,TICA算法、OPCICA算法和简单细胞特征(Gabor)算法比较,本文算法检索性能和对噪声的鲁棒性更好。
今后将在两个方面改进本文算法:1)在图G构造过程和超完备基生成树构造过程中,引入概率模型(如隐马尔科夫链等)优化连接权。2)在二维超完备基生成树的基础上,依据频率或相位等其他视觉细胞感受野通用模型参数,构建多维层次并行视觉信息处理过程。此外算法缺乏生物神经处理的反馈能力,能否将反馈能力加入到多维层次并行视觉信息处理过程中也是自适应特征提取研究重点。
摘要:分析自然图像复杂视觉拓扑组织结构的邻域关系生成树表示方法的缺欠,提出基于自然图像复杂视觉信息的特征提取算法与应用。算法定义通用视觉细胞感受野模型,提出自然图像复杂视觉结构信息的超完备基邻域关系生成树表示方法;并以自然图像的慢变特征和中心极限定理为理论基础,改进准正交超完备基预测算法,自适应地构造自然图像超完备基邻域关系生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自然图像分类。实验表明:自然图像集中,该算法学习的基滤波器集具有类似于V1区复杂视觉细胞的视觉特征;对输入图像的局部变化具有良好的几何不变性;在北卡莱罗那州立大学提供的自然图像图库上,进行基于内容的图像检索比较实验,该算法比传统视觉模型具有更好的检索效果和抗噪声能力。
特征信息提取 篇6
在现实工作中经常会遇到将文件 (如纸质文件) 转换为数字信息并存储在计算机中的情况。传统方法是通过人工整理, 将这类文件中所需要的信息提取出来, 并通过相应软件存储在计算机中。若仅需处理少量文件则这种方法还可以接受, 但在现实工作中经常需要频繁地从海量文件中提取所需信息, 而该信息往往只是整个文件信息的一小部分, 如每个文件的下发时间值等, 采用传统方法会造成极大的时间和人力浪费, 因此不可取。针对此类情况, 可先将待处理文件制作成扫描件图像, 再利用计算机图像处理技术提取文件特征信息。
随着计算机技术的发展, 数字图像处理进入高速发展时期, 对海量图像进行特征信息的识别与提取已成为国内外科研人员的研究热点。当前国内外对图像特征信息识别与提取的应用领域研究主要集中在目标检测与识别、图像纹理分析、图像内容检索等。
在“信息大爆炸”的当今世界, 图像信息的获取和使用越来越便捷, 图像文件的交换和传输也越来越频繁, 特别是Web技术和图像数据库的应用使得高效地从海量图像文件中提取感兴趣的信息成为一个困扰人们的难题。在这种情况下, 如何选择合适的图像处理方法并借助计算机软件准确快速地提取图像特征信息, 具有重要的研究价值和意义。
最大熵模型[1]的一个重要优点是将各种不同来源的信息和知识聚集到一个框架下, 用于解决一些较复杂的问题。最大熵模型可以结合丰富的特征, 同时体现出每个特征的重要性。因此, 很多学者已应用最大熵模型来解决模式分类、特征识别等问题, 并取得了令人满意的结果。
1 AMEFE系统功能介绍
将最大熵原理[2,3]应用于扫描件图像特征信息识别分类器设计中, 利用最大熵原理动态地为源特征信息设定分类阈值[4,5], 以提高图像特征信息的识别率。提出了一种图像区域最大熵特征信息提取系统 (Area Maximum Entropy Feature Information Extraction System) , 简称AMEFE系统。本系统从扫描仪生成的位图文件中提取特征信息, 然后把特征信息存储于相应数据库中, 用户则通过建立在此数据库上的各种Web应用了解相关纸质文件信息。AMEFE系统工作方式如图1所示。
2 AMEFE系统工作过程
基于图像区域最大熵的特征信息提取系统 (AMEFE) 主要由文件获取、文件预处理、特征信息提取、文件批处理和特征信息导入5个部分组成, 整个系统的运行流程如图2所示。
2.1 文件获取
利用扫描仪将纸质文件转换为计算机能够直接处理的数字图像文件, 生成的图像文件大都以位图形式存储在计算机中, 由于扫描设备和环境的差异, 生成位图文件的位数也不相同。
2.2 文件预处理
文件预处理质量直接影响后续识别结果, 将待处理的图像文件 (通常是24位位图文件) 先转换为8位的位图文件, 然后采用中值滤波对图像进行平滑处理。中值滤波是一种局部平滑技术, 是一种非线性的滤波方法, 由于它在实际运算过程中不需要图像的统计特征, 所以使用比较方便。中值滤波可以克服线性滤波器所带来的图像细节模糊问题, 而且对滤除脉冲干扰及颗粒噪声最为有效。但对一些细节多, 特别是点、线、尖顶细节多的图像不宜采用中值滤波方法, 因为本系统处理的对象是纸质文件的扫描图像, 图像特征比较明显, 对纹理细节信息不关心, 所以采用此方法进行平滑处理。
对图像特征信息的提取需要解决两个关键问题, 一是选用什么特征来描述提取目标, 二是如何精确地度量这些特征。特征描述是用于区分特征信息的最基本属性, 特征信息的识别要依据特征描述才能正确进行。出于特征信息识别鲁棒性的要求, 设定的描述必须尽可能地保证特征信息不受噪声影响, 同时必须满足平移、缩放、旋转的不变性。图像的复杂背景不但影响对特征信息的描述, 而且还影响对特征信息的识别和其它处理。通过图像进行预处理的方法将识别目标集中在一个特定的较小区域中, 从而减小了目标检测时图像背景的影响。
2.3 特征信息提取
首先进行区域锁定, 将待提取的特征信息所在区域包含在所选取的窗口中, 此窗口的最初选取需要进行尝试性试探, 然后再对窗口图像进行二值化处理。在二值化处理过程中采用窗口图像灰度直方图的阈值法, 即将图像灰度直方图两峰之间的谷底灰度值作为图像二值化处理的阈值。最后依据AMEFE特征信息识别器提取特征信息。
AMEFE特征信息识别器的设计以对被识别特征进行分类所造成的错误识别率最小或引起的损失最小为识别决策, 并建立在对源特征信息识别库的学习训练基础上。AMEFE特征信息识别器的设计流程如图3所示。各个单元之间的任务是相互依赖、相互反馈的。
识别器的设计建立在图像最大熵原理和结构风险最小原理基础之上, 通过适当选择最大熵阈值函数使对训练样本的实际学习风险最小, 保证了通过有限训练样本得到的小误差识别器及对独立测试集的测试误差仍然最小, 进而得到一个具有最优识别能力和推广泛化能力的特征信息识别器, 较好地解决了小样本、非线性和局部极小值等实际问题。
2.4 文件批处理
对同一批次文件进行集中处理, 不仅可以提高特征信息提取效率, 而且可以减少对数据库的操作, 有助于提高数据安全性。批处理的直接结果将生成一个数据列表文件, 包含本次批处理的各个文件名称和其相对应的每个特征信息, 这个数据列表文件可以是Excel文件也可以是txt文本文件。
2.5 特征信息导入
将文件批处理得到数据列表文件中的数据一次性导入到相应数据库中, 此后对数据的所有操作都交给相应的DBMS完成。工作人员或用户即可通过Web页面或各种客户端应用程序完成相应操作, 完全摆脱了对实体文件的依赖, 提高了信息化管理应用水平。
3 结语
当今社会对于信息公开的呼声越来越高, 但有些部门文件具有低度的私密性, 完全以私密性为由拒绝公开全部内容又不太合适, 在这种情况下可采用AMEFE系统将文件中的非私密性信息提取出来, 以Web等形式进行公开。这样既满足了公众对信息公开的诉求, 又保证了原始文件的绝对私密性。
参考文献
[1]胡琛, 王彬.基于最大熵原理的分布模型[J].山东理工大学学报:自然科学版, 2007, 21 (6) :87-90.
[2]曲英杰, 孙光亮, 李志敏.最大熵原理及应用[J].青岛建筑工程学院学报, 1996, 17 (2) :94-100.
[3]杨杰, 胡德秀, 吴中如.基于最大熵原理的贝叶斯不确定性反分析方法[J].浙江大学学报, 2006, 40 (5) :810-815.
[4]史玉峰, 靳奉祥, 王健.基于信息熵的测量数据粗差识别法[J].测绘通报, 2002 (2) :38-41.
特征信息提取 篇7
关键词:遥感,震害,纹理特征,主成分分析
地震灾害是人类面临的最重大自然灾害之一, 严重威胁着人民的生命和财产安全, 近年来, 我国地震灾害频发, 2008年汶川地震、2010年玉树地震及2013年雅安地震, 都造成了重大人员伤亡和财产损失。由于地震的产生机制复杂, 以目前的科学水平还不能准确预测, 因此, 震后快速获取灾情信息, 制定合理救援策略成为减轻地震灾害的最有效方法。遥感具有综合性、可比性、时效性等特点, 能够快速获取大范围内的相关信息, 受人为干扰小, 能大大节省人力和物力。而且随着遥感技术的发展及一批高分辨率卫星的成功发射, 遥感影像分辨率越来越高, 回访周期越来越短, 在防灾减灾中的应用也越来越广泛。
遥感图像已成为救灾人员的“眼睛”, 在震后救灾中发挥着越来越重要的作用。国内外学者也纷纷利用遥感图像进行震害信息的提取。1998年Masashi Matsuoka等利用Landsat和SPOT数据提取了1995年神户地震震情;2002年Hajime Mitomi等利用MSS影像提取了1995年阪神地震的震后建筑物破坏信息;2002年张景发等对张北震区地震前后的SAR图像进行了变化检测处理, 提取了村庄建筑物的破坏信息;2003年柳稼航等利用区域结构与纹理统计特性相结合的方法提取了印度库奇地震和唐山地震的损坏房屋信息;这些成果为遥感技术在防灾减灾中的应用奠定了坚实基础。
1 现行震害信息提取方法分析
根据采用影像不同, 传统震害信息获取方法分为多时相震害提取方法和单时相震害提取方法。
1.1 单时相技术
单时相技术是利用震后某一期影像来进行震害识别。目前, 单时相震害信息提取主要依靠计算机辅助人工目视解译的方法, 完好建筑和损坏建筑在影像呈现不同的特征, 技术人员可以凭借经验通过肉眼识别的方法将震害信息提取出来。但是此方法受影像空间分辨率制约较大, 高分辨率影像 (分辨率1m左右) 才能完全识别出房屋信息, 但是由于地震造成的灾害波及范围广, 单纯靠人工获取工作量大, 效率低, 成本高, 而且难以满足在救灾时效上的要求。所以, 一种快速、高效的震害信息提取方法成为基于遥感技术进行震害信息提取的重要发展方向和趋势。
1.2 多时相技术
多时相技术主要利用变化检测的方法来实现震害信息的提取, 即根据地震前后同一区域的两幅图象, 通过检测它们之间的变化来提取震害信息。目前, 常用的变化检测方法有图像差值法、图像比值法、主成分分析法、植被指数差值法、分类后比较法等。多时相技术主要靠计算机进行信息提取, 速度快, 成本低, 具有很好的应用前景。但是变化检测技术对图像的差异非常敏感, 图像的质量对检测的精度影响很大, 由于地震发生地点很难确定, 很多都在偏远地区, 很难做到同时具有相关性好的震前震后影像, 所以在实际工作中, 此种方法的应用受到很大的限制。
2 数据源分析
一直以来, 由于影像分辨率的制约, 遥感未能在各行业中发挥更重要的作用。近些年来, 一系列高分辨率卫星的成功发射使遥感在各行业中的应用越来越广泛, 同时, 也成功应用于防灾减灾事业中。表1给出了目前在轨民用高分辨率遥感卫星及其相关参数。
表1中卫星的空间分辨率均在1m或者1m以下, 可以将房屋等建筑物清晰的分辨出来, 而且回访周期很短, 大部分在1~3d, 几乎可以实时获取数据, 能够很好地满足救灾的时效要求。此外, 对于某些特殊情况, 例如阴雨天气或雾气很大时, 一般可见光遥感不能穿透云雾拍摄到地面信息, 可以采用雷达卫星或机载雷达获取雷达影像。
3 建筑物震害信息提取
3.1 建筑物纹理特征及统计方法
高分辨率遥感影像中, 倒塌房屋和完好房屋在纹理特征和结构上明显不同, 完好房屋个体及其组合形式比较规则, 纹理结构具有明显的规律性。倒塌房屋或半倒塌房屋, 其形状和布局会发生改变, 由于破坏截面比较粗糙、破碎, 在图像上表现为轮廓模糊不清, 组合图案凌乱, 纹理结构不规则等特征。通过提取这些不同的纹理特征及结构信息, 就能够区分倒塌房屋和基本完好的房屋, 从而实现对震害信息的识别和分类。
纹理统计分析方法种类很多, 本文采用灰度共生矩阵分析方法, 灰度共生矩阵是对目标影像区域内所有像元进行统计来描述其灰度空间分布的一种方法, 主要研究沿某一方向 (0°, 45°, 90°, 135°) 相隔特定距离的像元之间的相互关系。灰度共生矩阵元素 (i, j) 的值等于沿θ方向, 间距为δ时, 灰度为i和j的像元对出现的频率, 常用p (i, j, θ, δ) 表示。以不同的权矩阵对灰度共生矩阵进行加权计算可以得到一系列的纹理特征统计量, 常用的特征参数如表2所示。
随着房屋损坏程度的增加, 纹理特征参数会呈现特定的变化。通过分析, 相关性、均质性、对比度、相异性都能够较好地反映震害信息。
3.2 主成分分析法
主成分分析法 (Principal component analysis) 是一种常用的统计分析方法, 广泛应用于遥感影像分析处理中, 主要进行数据压缩或减少数据的维数。它是对一组相关的变量进行线性变换, 得到一组维数不变但彼此互不相关的变量, 即一组主成分。由于各主成分是不相关的, 因此, 可以认为它们是一组独立变量。主成分分析法把大部分信息集中在第一主成分, 部分信息集中在第二主成分, 少量信息保留在第三主成分和以后各成分的图像上, 在接下来的分析中可以只用前几个主成分而不会导致主要信息的损失。
主成分分析的优点是很好地消除图像内部各通道间的相关性, 减少了各部分提供信息的交叉和冗余, 抑制了图像内部相关性引起的噪声, 有利于分析。同时, 将众多的信息压缩到较少的某几个特征向量上, 在保证主要信息不损失的同时大大减少了数据处理的复杂度, 减少了计算量。主成分分析法的主要步骤如下:
1) 根据原图像数据矩阵A, 求出它的协方差矩阵B, 以矩阵的方式表示图像的原数据为
式中:m, n分别为波段数和每幅图像中的像元数;矩阵中的每一行矢量表示一个波段的图像。
矩阵A的协方差矩阵B为
2) 求协方差矩阵B的特征值λi和特征向量μi, 组成变换矩阵T, 求解特征方程 (λi-B) μ=0;然后将特征值λi由小到大排列, 求出对应特征值的单位特征向量μi, 以μi为列构成矩阵μ, μ矩阵的转置矩阵μT即为所求的变换矩阵T。
3.3 建筑物震害信息提取
基于纹理特征主成分震害提取主要步骤如图1所示。
为了客观的分析基于纹理特征主成分震害提取方法的提取效果, 本文利用2010年玉树结古镇震后影像进行实验, 分别利用直接分类法和基于纹理特征主成分震害提取方法进行分类。图2为玉树结古镇震后影像图, 图3为利用直接分类方法得到的分类效果图, 图4为利用本文方法所得的分类效果图。
图3、图4中白色为完好建筑物, 灰色为损坏倒塌建筑物。
3.4 精度比较
本文利用以下公式来评定分类结果
式中:μ为精度系数, Si为样本中提取出的基本完好建筑物面积, Si为震后影像手工矢量化所得基本完好建筑物面积。
直接分类法和本文方法分类系数分别是0.84和0.91。通过对比分析可知, 基于纹理特征的主成分震害提取方法能够更好地提取震害信息, 比直接分类方法的效果好。但在实验中发现, 基于纹理特征的主成分震害提取方法计算时间比直接分类方法要长, 在震后应急工作中时间就是生命, 直接关系着灾区群众的生命安全。由于基于纹理特征主成分震害提取是通过求纹理描述符共生矩阵获得的, 通过试验可知在时间紧迫的情况下, 可以只计算一种特种描述符, 并且可以通过AOI圈画出居民地和需特殊关注的区域, 处理时只计算画出的区域, 会大大减少运算时间。
4 结束语
图像自动分类技术是遥感图像处理方面的经典难题, 传感器、拍摄时间的不同都会对图像有很大影响, 很难找到一个普适性的方法。特别是在震害图像中地物更加复杂, 震害信息的提取难度非常大。追踪相关行业中的最新研究方法研究震害信息提取, 如人工神经网络法、支撑向量机、决策树、模糊集等方法, 提高震害信息提取精度及计算速度, 这是遥感震害评估工作中下一步重点研究内容。
参考文献
[1]MASASHI MATSUOKA, FUMIO YAMAZAKI.Identification of Dam-aged areas Due to the 1995HyogokenNanbu Earthquake U-sing Satellite Optical Images[A]∥Proceedings of the 19th A-sian Conference on Remote Sensing, Q9[C].Philippines:Trad-ers Holel, Manila.1998:1-6.
[2]MITOMI HAJIME, MATSUOKA MASASHI, YAMAZAKI FUMIO, et al.Determination of the areas with building damage due to the 1995Kobe earthquake using airborne MSS images[A].Proc International Geoscience and Remote Sensing Symposium[C].IEEE, 2002.
[3]张景发, 谢礼立, 陶夏新.典型震害遥感图像的模型分析[J].自然灾害学报, 2001, 10 (2) :89-95.
[4]柳稼航, 单新建, 尹京苑.遥感图象自动识别城市震害房屋—以2001年印度库奇地震和1976年唐山地震为例[J].地震学报, 2004, 26 (6) :623-633.
[5]吴芳, 刘荣, 田维春, 等.遥感变化检测技术及其应用综述[J].地理空间信息, 2007, 5 (4) :57-59.
[6]曹代勇, 施先忠, 张景发.遥感图像中建筑物震害信息统计特征研究[J].国土资源遥感, 2001, 47 (1) :42-44.
[7]黎小东.面向对象的高空间分辨率遥感影像城市建筑物震害信息提取—以汶川县城为例[D].成都, 成都理工大学, 2009.
[8]陈文凯.面向震害评估的遥感应用技术研究[D].兰州:中国地震局兰州地震研究所, 2007.
特征信息提取 篇8
同时定位和地图创建( Simultaneous Localization and Mapping,SLAM) 是实现机器人自主导航的一个关键技术[1]。SLAM技术主要采用视觉[2]、激光[3]等传感器以实现环境感知,尤其是基于视觉的SLAM技术( v SLAM) 具有的对环境无侵性、获取环境信息的丰富性、以及成本低廉等显著优势,使其受到研究学界的广泛关注和高度重视。
v SLAM主要采用路标方法,路标的自动提取与快速匹配即是其中的基础性问题。基于特征点的路标的表示方法主要分为两类。在此,可做如下具体分析:
一类以提取出的特征点直接作为路标,这类方法构建的地图路标的特征点数量较多,进行场景匹配的运算量也随之较大。重点成果则有: 文献[2]基于SIFT算法对环境图象进行特征提取,形成路标并构建分层地图。文献[4]也提出一种基于显著场景Bayesian Surprise的自然路标检测方法。并且,文献[5]又使用关键帧Harris角点作为自然路标,实现了机器人的实时全局定位与导航。相应地,文献[6]亦同样使用环境图像的SIFT特征点作为自然路标,利用特征点信息建立自然路标数据库,实现了环境地图创建。针对特征点的提取也进行了大量的研究,文献[7]即提出了基于图像二阶多项扩展式局部方向张量的兴趣点检测PLOT算子,并利用双目视觉实现了机器人的SLAM过程。继而,文献[8]提出一种利用双目视觉有效提取特征点的无监督算法,该算法使用SOM对SIFT特征点进行快速匹配以获得稳定的特征点。还有文献[9]通过应用Harris算法来提取角点。而文献[10]则针对单目视觉提取的特征点给出了统一逆深度参数方法来准确表达其不确定性。
另一类路标表示法是通过对提取的特征点进一步聚类,再将获得的聚类整体作为一个路标。相应成果有,文献[11]提出了一种基于角点聚类的自然路标局部特征提取其匹配算法。本文则基于对特征点聚类的思路,进一步提出了一种基于三维信息对特征点进行聚类分析形成路标、对路标进行局部特征描述与快速匹配的方法。
1 特征点及其三维信息的获取与预处理
机器人使用参数相同的两个摄像机获取环境图像,对图像进行特征点选取与过滤,又采用双目视觉原理获得特征点对应空间点的三维信息。
1. 1 特征点的选取
本文采用SURF算法对左右目摄像机获得的图像分别进行特征点提取,基本可以达到实时处理的要求[12]。令由左目获取的图像标记为IL,由IL的特征点组成集合FL,同理右目图像IR的特征点组成集合FR,因为两摄像机是对同一场景进行拍摄,这就使得提取的特征点大致相同。为了计算特征点对应空间点的三维信息,需要找到左目图像的特征点在右目图像中的对应点以获得该点在双目中的视差,即某一点在两幅图像中相应点的位置差。
1. 2 特征点对应空间点的三维信息的获取
特征点对flr对应的空间点记为Sf,由所有空间点组成的集合记为S。摄像机坐标系的原点在摄像机镜头的光心处。为简化计算,令左右镜头的参数相同,两摄像机光心在同一个平面上,Sf∈S在左摄像机坐标系下的三维坐标信息可以利用视差原理获得:
其中,( xc,yc,zc) 是空间点P在左摄像机坐标系下的三维坐标,b为左右摄像机的基线距,d为视差,f为焦距,u1、v1为特征点在左右视觉中的图像坐标。点的三维坐标在聚类过程中将会用到。而提取路标后、进行存储时,应将所有空间点在摄像机坐标系下的坐标转换为世界坐标系下的坐标。
2 自然路标的提取与描述
2. 1 基于改进 Mean Shift 算法的特征点聚类提取路标
已建立S在摄像机坐标系下的坐标,根据这些点的相对空间位置进行聚类分析以提取路标。Mean Shift算法因为运算量小,计算速度快,且有一定的鲁棒性,更为适合进行特征点聚类。但却需要对该算法加以改进,就使得算法可以根据不同特征点的聚合情况,相应产生不同数量的聚类。
Mean Shift可以理解为一个核密度估计的过程,即将空间点Sf∈S看作采样得到的数据点,并将单位体积内的空间点数看作概率密度,由此求取概率密度最大的点集合就完成了聚类。每个点X的概率密度可以表示为:
其中,K( X - Xi) 为核密度函数,k可取高斯函数,Xi是以点为X圆心,r为半径的球型区域内的点,r即为聚类半径,可以看作Parzen窗口尺寸,n则为半径r内的空间点的个数。
欲求概率密度最大的点,可先对P( X) 求导,使P( X)= 0则可求得极值点,令g( x) = - k'( x) ,有:
当m( X) ≤M,即可近似求得点概率密度的极值点,而以其为中心点,半径r的区域内的点将形成一个聚类。其中,M为阈值。
考虑到自然路标有大有小,应保证聚类内最少 包含PNmin个特征点数,否则形成的聚类特征点太少,将导致路标不稳定且不利于路标之间的区分,而且更不利于定位。此后,在聚类过程中将自动调整半径r。如果以点X为圆心,半径r内特征点数nf≤PNmin,则以步长δr增加半径,直至r≥Rmax,可称δr为增长半径。其中,PNmin为聚类中最少特征点数,Rmax为聚类最大半径。
一般情况下,聚类半径长度未增长到最大半径Rmax时,特征点数PN与m( X) 已经满足要求了,此时聚类已经形成,但存在半径再适当扩大仍然可能有特征点的情况,为此提出聚类进行小幅度扩张的应对策略。如果有距离聚类较近的点与聚类的距离小于r + δrexpand,可将聚类半径增加δrexpand以包括该点,并重复该过程。扩张幅度δrexpand≤δr,即可取δrexpand=δr/2。如果在下一步扩张了的聚类范围内没有更多的点或者超过了最大聚类半径限制Rmax,则随即停止该扩张过程。
组成路标的特征点分布范围半径r也应该控制在一定范围内,这与自然环境中作为物体多会有一定尺寸限制现象相吻合。本文取
其中,roriginal为聚类初始半径。
确定一个聚类后,从未访问过的特征点中随机选择一点作为中心,继续寻找下一聚类,直至未访问过的点的数量
2. 2 聚类描述符
考虑使用一个快速索引匹配路标的方法,问题可以描述为已知一组形成聚类的点的三维坐标,设计一个具有唯一性和旋转不变性的描述符,并且该描述符应在两个聚类匹配过程中有充分的区分度。
本文基于空间点的分布来表征描述符。由聚类中心X指向组成聚类的各个特征点形成了一组向量,向量数学原理如式( 6) 所示,三维空间实现则如图1所示。
将聚类的区域平分若干份,依次统计各个区域内向量,得到一个特征向量。
预先使用公式( 7) 计算各个向量与xoz平面的夹角,以加快聚类主方向及之后描述符的计算。
其中,α取值范围为( 0,π]。
对向量的模进行归一化处理:
以聚类中心为圆心,半径为聚类半径的半圆,以坐标轴x正方向为起始,围绕球心的y轴逆时针旋转π/3,形成一个1/6球体区域作为窗口,具体如图2所示。而且,使用公式( 9) 基于高斯核函数对窗口内的向量的模进行卷积运算。
其中,KN为高斯核函数。
在图2中,以步长0. 5滑动窗口,取绝对值最大的窗口方向为主方向。以聚类的主方向为基准方向,围绕聚类中心的x轴,再取逆时针为正方向,而将整个聚类按π/12为跨度划分作24个区域,并且分别重新计算各个区域的向量的模与高斯核函数的卷积,将其组成一个24维的向量,该向量即为该聚类的描述符。
3 路标匹配过程
机器人在环境中移动时,对获取的图像先进行预处理,估计自己的位姿,并根据当前位姿到地图数据库查询之前机器人以该位姿观察到的路标。令当前位姿为( xr,yr,θr) ,为保证找到路标,可查询符合如下条件的路标,具体是: xrδx≤x≤xr+ δx,yr- δy≤y≤y + δy,θr- δθ≤θ≤θr+ δθ。
对当前提取的环境的特征点进行聚类,计算该聚类描述符,并与数据库中对应路标的描述符进行匹配,在误差允许的范围内如果实现了匹配,说明找到了路标,则取出每个点的信息,对已然匹配的两个聚类中的各点进行二次匹配,对获得匹配的点的世界坐标即可认定为一致,并且是以数据库中的坐标为基准。
4 实验结果及分析
本文使配有双目视觉的移动机器人在实验室环境中运行而实现自然路标的提取。图3为左右目特征点提取与匹配结果,可以看到在初步的匹配后,有许多误匹配的点,需要对其进行高质量过滤。
应用视差约束,视场约束等规则过滤后的结果,剔除了大多数明显错误的匹配点,如图4所示。
对过滤后的特征点进行聚类,设定初始半径为25cm,半径增长步长为10cm,聚类结果如图5所示。为了直观起见,将聚类得到的特征点对应的图像中的点标出,如图6所示。
需要注意的是,由于机器人位姿不同,导致对同一个物体的观察角度出现差别,当观察角度差别较大时,会出现聚类结果不同的现象,因为物体的不同侧面的特征点不可能完全相同。如果在匹配过程中,使用原有路标的靠近聚类中心的特征点进行引导聚类,无法聚类成功或者无法匹配成功,说明需要建立新的路标,并更新路标库。
5 结束语
特征信息提取 篇9
关键词:自然语言处理;特征提取;语法;语义;语用
中图分类号:TP391.4 文献标识码:A文章编号:1009-3044(2007)16-31112-03
Feature Selection Research of the Chinese Technology Text based on Natural Language Processing
CHEN Pin
(Automation Department, Xiamen University,Xiamen 316005,China)
Abstract:With the development of China’s technology and economy, Chinese technology texts are full of the whole Net in the form of electronic text. So, Chinese technology text classification research has become a hot theme in the information domain. This paper set up a new feature selection model based on natural language processing. And based on this model, analyses in terms of syntax , semantics and pragmatics .
Key words:Natural Language Processing; Feature Selection; Syntax; Semantics; Pragmatics
1 引言
从50年代的机器翻译和人工智能研究开始,自然语言处理(Natural Language Processing,简称NLP)已有长达半个多世纪的历史。自然语言处理是研究如何让计算机理解和生成人们日常所使用的语言(如汉语,英语等)。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。[1]
本文基于自然语言处理理论及方法[1][2],以及中文科技论文文本其自身较强的领域特征,建立了文本特征提取模型,并从语法、语义和语用三个层面来分析处理,同时也用于解决自然语言中的多义、同义和相关性问题。
2 基于自然语言处理的特征提取模型
本文研究的对象是中文科技论文文本,很自然会遇到自然语言的各种问题。因此构建一个优秀的自然语言处理模型[3],是我们有效处理自然语言的关键所在,具有深刻的意义。基于自然语言处理的特征提取模型由词汇层特征向量输入、语法分析、语义分析、语用分析和概念层特征向量输出等部分组成。模型结构如图1所示。
基于自然语言处理的特征提取模型过程如下:首先输入词汇层特征是已经经过预处理后的词汇,包括词性标注、句子编号等等。然后对相同句子编号的词汇采用分而治之的方法进行语法分析,即组块分析。再是利用已经经过处理的语料库中的词汇建立领域概念树,并基于领域概念树进行概念语义分析。最后是语用分析,利用词间相似度和关联度进行语境分析。整个模型中,随着语法层面到语义层面再到语用层面,语言的处理程度逐步趋于细化,其精度也随之提高。
图1 基于自然语言处理的特征提取模型
3 语法分析
语法分析虽然经过几十年的研究和发展,但仍然是一个瓶颈问题。因此目前通常采用“分而治之”的原则,来降低完全句法分析的难度,进行部分的句法分析,我们也称之为组块分析。因此,本文结合Abney组块描述体系[4],定义汉语语法基本成分为各组块形式。并在此基础上提出了一种基于词性判断规则的组块分析策略,用于解决中文科技论文文本分类过程中的自然语言问题。
其中,组块标记集如表1所示。
表1 组块标记集
词性标记集如表2所示。
表2 词性标记集
在本论文中,我们分析组块的方法主要是采用基于词性判断规则的组块分析策略(Chunk Analysis base on Part of speech Rule,简称CABPos):
设组块标记(Chunk Sign)记为CS;词性标记(Pos Sign)记为PS;->表示前后标记符,如s->p表示主语组块在谓语组块前;每一个进行语法分析的句子(即词串),记为Seni=ti1ti2…tim,其中seni为第i个句子,tij为第i个句子中的第j个词汇;把每个句子等分为前、中、后三部分,分别记为Ti1,Ti2,Ti3;关联词表为RT。
判断规则如下:
4 语义分析
目前,比较成熟的语义分析手段主要有格语法,语义网络,义素分析法,优选语义学和蒙塔格语法等等[6]。本文将结合中文科技论文文本的强领域特征在原有概念树模型的基础上创建一个领域概念树模型,并在此基础上进行概念语义分析。从而很大程度上解决了自然语言的同义现象和相关性问题,提高了文本分类的准确率。
4.1 领域概念树
从语义角度上分析,中文科技论文文本往往具有强的领域特征。比如说,“禅宗”、“僧人”等词汇就明显地带有强烈的“人文科学-宗教-佛教”领域的词汇色彩;而“中超”、“切尔西”、“角球”等词汇就明显地带有浓郁的“人文科学-体育-足球”领域的词汇色彩。因此,本文在传统概念树基础上结合中文科技论文文本强领域特征构建一个新的语义模型——领域概念树。如图2所示。
图2 领域概念树
4.2 基于领域概念树模型的概念语义分析算法
向量空间模型是文本分类特征提取中用得最多的特征模型,因为它够简单,而且特征提取的效果也不错。那么在VSM中,如何才能把领域概念树中的概念反映到特征项中,我们是这样处理的。
在数学上,词汇层映射到概念层,可用下式表示:
(8)
式中,T0为词汇层特征向量,Ts为概念特征向量,T可以用标题名B、作者情况Z、中文摘要W、关键词G、正文ZW和参考文献CK等替代。
基于领域概念树的概念语义分析算法主要包括下列操作:
设概念领域树中各概念词汇集,标记为CDS。
Step1 输入词汇层特征向量:
(9)
式中Fi表示特征向量中的第i个特征项。该特征项函数主要变量是ti、wi和CS(ti),也可以包含其他特征项信息;其中ti是特征词汇;wi是特征词汇的权重,CS(ti)是词汇ti的组块标注。
Step2 对词汇层特征向量中各特征词汇,通过领域概念路径以及组块标注归并属于同一概念层次的特征词汇。
式中T′i表示属于同一概念层次的词汇;ci表示归并后Ti概念层次代码标记。
Step3 计算属于同一概念层次的特征词汇T′i所对应的概念权重。
式中ρi表示同一概念层特征词汇T′i的概念权重。
Step4 输出基于领域概念树的概念层特征向量:
由此可见,基于领域概念树模型的概念语义分析,如果特征项中参数词汇属于领域概念树中的某领域层的概念词汇,那么该词汇就能增强它在该领域层的权重系数,极大地解决了同义词等语义问题,提高了分类的精确度。
5 语用分析
语用分析可以理解为词汇的上下文语境的分析。本文中,自然语言处理在语义、语用层面上所描述的词汇是基于领域概念树中的概念词汇。因此,本文基于词汇间相似度和关联度,提出了一种语境分析方法。
从数学角度上来分析,基于词汇间相似度和关联度的语境语用分析过程,可以用下式来表示:
式中Ts是概念语义分析后的特征向量,Tr是语境语用分析后的特征向量,T可以用标题名B、作者情况Z、中文摘要W、关键词G、正文ZW和参考文献CK等替代;ξ是词汇间相似度的阈值;η是词汇间关联度的阈值。
基于词汇间相似度和关联度的语境分析算法主要包括下列操作:
Step1输入概念语义分析后的特征向量:
Step2对概念层中的词汇进行词间相似度计算,如公式(16)和(17):
Step3对概念层中的词汇进行词间关联度计算,如公式(18)-(20):
Step4通过实验获得词汇间相似度的阈值ξ和词汇间关联度的阈值η,取词汇间相似度Simlexical(ti,tj)>ξ和关联度Relaxical(ti,tj)>η的词作为新的特征项。
Step5 输出经过语境语用分析后的特征向量:
此算法主要是通过词间相似度和关联度来判断同一概念层次上词汇间的相关性,从而进一步改善了自然语言处理过程的性能,来提高文本分类的准确率。
6 举例
为了具体说明该方法,以某标题名来举例说明,如下所示:
标题名:计算机病毒防治的协同理论与法律对策
设t1="计算机",t2="病毒",t3="防治",t4="协同",t5="理论",t6="法律",t7="对策"。B0表示标题名原始特征向量;Bs表示标题名经过语义分析后的特征向量;Br表示标题名经过语境分析后的特征向量。
首先语法分析(组块分析):
表3 组块分析结果
然后语义分析:
标题中词汇在领域概念树模型中所对应的概念,如表4所示。
表4
所以该标题名的原始特征向量B0为:
最后语用分析:
词间相似度关系(a=2),如表5所示。
表5 词间相似度
词间关联度关系(K=4),如表6所示。
7 结论
本文利用自然语言处理的理论与技术,构建了基于自然语言处理的文本特征提取模型,并从语法、语义和语用三个层面分析,使自然语言的处理程度逐步深化。语法层面上,我们利用了基于词性判断规则进行组块分析;语义层面上,则结合中文科技论文文本的强领域特征创建了领域概念树模型,并在此基础上进行了概念语义分析;语用层面上,基于概念层上词汇间的相似度和关联度,进行了语境语用分析。
参考文献:
[1]刘颖.计算语言学[M].北京:清华大学出版社,2002.
[2]张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005(17),1:138-145.
[3]Mladenic D, Grobelnik M.Feature selection for unbalanced class distribution and Na?ve Bayes [A].Proc of 16th Inter Conf on Machine Learning ICML-99[C].San Francisco, CA: Morgan Kaufmann Publishers, 1999:258-267.
[4]王怡,盖杰,武港山等.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,8:151-154.
[5]姚天顺.自然语言理解[M].北京:清华大学出版社,1995.
[6]王晓龙.自然语言处理的若干问题研究.哈尔滨工业大学,2004
[7]刘挺.语言模型.哈工大信息检索研究室,2004
[8]Abney Steven, Parsing by Chunks, In: Robert Berwick, Steven Abney and Carol Tenny (eds.), Principle-Based Parsing, Kluwer Academic Publishers, 1991:257-278.
特征信息提取 篇10
随着因特网及其相关技术的发展, WWW已经成为了世界上最大、最丰富的信息资源, Web作为一个庞大的资源库, 给我们的学习和生活带来了巨大的便利。但如何快速、准确地从海量信息中提取出用户感兴趣的事件, 就是信息提取IE所要解决的问题。
现有的Web网页大部分还是由超文本标记语言描述的, 这种语言被设计用来显示而不是存储信息, 没有严格的语法限制, 也没有清晰的语义, 再加上人们为了显示效果而采用的javascript等脚本, 使得HTML网页代码冗长、混乱, 几乎淹没了有用信息。XML的出现一定程度上解决了部分问题。但Web上已有的海量信息不可能在短时间内都转化为XML格式。Web信息提取技术正是在这种背景下兴起的, Web信息提取的过程可以理解为从Web字符串 (提取对象) 获取抽象结构的过程, 这一过程可以用图1来描述。
通过图1所示的过程, 我们可以得到提取对象的结构信息, 并根据结构信息将数据进行结构化存储, 从而为后期的数据应用 (如查询、统计) 奠定基础[1]。
目前信息提取模型主要有基于词典的抽取模型[2]、基于规则的抽取模型[3]和基于隐马尔可夫模型HMM (Hidden Markov Model) 的抽取模型[4,5,6,7,8]。
利用HMM进行文本信息抽取是一种基于统计机器学习的信息抽取方法。HMM易于建立, 具有不需要大规模的词典集与规则集、适应性好和抽取精度较高等优点, 因而得到研究者的关注。文献[4]利用文本排版格式和分隔符等信息, 对文本进行分块, 在分块的基础上结合隐马尔可夫模型进行文本信息抽取;文献[5]使用一种“收缩”的技术改进HMM信息抽取模型概率的估计;文献[6]使用随机优化技术动态选择最适合的HMM模型结构进行信息抽取;文献[7]将自然语言处理中的短语结构分析技术应用到HMM文本信息抽取中来;文献[8]利用主动学习技术来减少训练HMM信息抽取模型时所需的标记数据。
简单的HMM将训练样本中的所有词元作为观察集里唯一的输出符号, 但是样本中不同的词元数目众多, 势必会造成模型的膨胀, 给训练也带来很大的困难。本文利用词元的结构特征对词元进行归类, 并将符号描述的结构特征作为HMM的观察集, 提出了基于符号特征的HMM。该方法首先借助文本推断算法提取已标注训练样本的符号特征, 用这些样本和符号特征进行HMM概率学习。信息提取时首先提取信息的符号特征作为HMM待识别的观察序列, 利用Veterbi算法求得对应的抽象结构信息。
1HMM模型
HMM提供了一种基于训练数据的概率自动构造识别系统的技术[9]。一个HMM包含两层:一个可观察层 (待识别的观察序列) 和一个隐藏层 (一个有限状态机, 其中每个状态转移都带有转移概率) 。它可以定义为一个五元组:
λ= (X, O, Π, A, B)
X={S1, S2, …, SN}
O={V1, V2, …, VM}
A={aij=P (qt+1=Sjqt=Si) , 1≤i, j≤N}
B={bj (k) =P (Ot=Vkqt=Sj) , 1≤j≤N, 1≤k≤M}
Π={πi=P (q1=Si) , 1≤i≤N}
其中, X是状态集, 状态数为N;O是一组可观察符号的集合, M是从每一状态可能输出的不同的观察值的数目;A是状态转移概率矩阵, aij是从状态Si转换到Sj的概率;B是观察概率分布矩阵, 表示状态Sj输出相应观察值Vk的概率;Π是初始化状态分布。
HMM在语音识别、疾病分析、词性标注等模式识别领域取得了较为显著的效果, 近几年, 开始了将隐马尔可夫模型应用于信息提取的研究和实验[10,11]。我们注意到, 现有的HMM结构学习算法虽然取得了一定的效果, 但是并没有考虑文本结构的特征。本文以网络中科研人员的成果列表为例, 提出一种基于符号特征的HMM结构学习方法。
2基于符号特征的HMM进行Web信息提取的系统模型
图2给出了Web信息提取的系统模型示意。
3基于符号特征的HMM构造
3.1数据获取和预处理
我们从网络中抽取了100个科研人员的个人主页作为试验样本, 并利用tidy对网页进行了规范化处理。
为了对论述方法的适用性进行验证, 把样本分为两类, 一类样本经过程序和手工结合的预处理, 删除了大部分与目的无关的信息, 比如科研人员的简历、求学经历、职务等信息, 余下比较纯粹的科研信息, 称为“信息集中型样本”;另一类未做预处理, 称为“信息疏散型样本”。
3.2信息提取的HMM描述
(1) HMM状态集X的选择
状态集即需要提取的抽象结构信息的集合, 根据科研人员主页中科研成果包含的内容, 作为实验, 定义了以下状态:
Auther:作者 Title:题目
Journal:刊物名称 Issue:期刊期号
Volume:期刊卷号 Year:年份
Page:页码
//以下为辅助状态信息
Start:开始状态 End:结束状态
Tag:网页中的HTML标记
Delimiter:分隔符 Others:其他状态
辅助状态中的Start状态和End状态不对应样本中对应的词汇, 仅仅表示状态转移的开始和结束, 而Tag作为网页文件的特殊信息, Delimiter作为文本分隔符, 对信息分析和分隔起到很好的辅助作用。
(2) HMM可观察符号集O的构造
如果把样本中的每一个不同的词元 (如单词、标点等) 都当作观察集里唯一的输出符号, 必然会造成模型的膨胀, 给训练也带来很大的困难。现实中, 各个词元除了表现为字符的组合之外, 同属于特定类型的词元具有一定的结构特征, 而这种结构特征表示了它的信息特性。比如“1998”和“2005”虽然是不同的词元, 但是它们共同的结构特征是四位阿拉伯字母, 所以它们很可能都是表示年份的;再比如K.Seymore, A.McCallum, R.Rosenfeld一般可以肯定是英文人名, 这个结论并不是基于单词的含义, 而是基于它们“字母+.+字符串”这一共同的结构特征, 由此可见, 利用词元的结构特征, 我们可以将样本的输出符号集合归结为数目更小的符号特征集合[12], 从而有效地减小可观察符号集的大小, 同时能够体现信息提取过程中根据词义进行信息分类的要求。为了构造HMM的可观察符号集, 需要分为两个步骤:
1) 定义输出符号集 输出符号集的定义是对词元的一次抽象归类过程, 针对科研人员个人主页这一数据提取对象, 本文定义了以下输出符号集:
All={words, numbers, delimiters, tags}
Words={titlekeywords, characters, otherwords}
Numbers={4digits, 3digits, 2digits, othernumbers}//4位数字常表示年份, 3位和2位数字常出现在文献页码、卷号、期号中
Titlekeywords={″the″, ″based″, ″using″, ″for″, ……} //科研标题中经常出现的词汇
……
2) 构造符号特征库 符号特征即HMM状态集中每种状态的抽象文法, 比如状态集中的状态“Year”的可以用自然语言描述为“介于1990与2050之间的自然数”。符号特征的准确提取是信息提取中自动识别信息属性和含义的前提。
我们采取了人工定义和计算机自动提取相结合的方法来定义和提取符号特征。
方法1 利用正则表达式表示符号特征
正则表达式是用来描述字符串模式匹配规则的一种工具, 它能够很好地把具有某种共同特征的字符串描述出来, 对于一些显而易见或容易归纳的特征, 我们采取了人工定义正则表达式的方法加以描述, 比如状态“Year”可以用表达式“ (19|20) d{2}”加以描述, 状态“ISSN”可以用表达式“d{4}-d{4}”加以描述。
采用正则表达式的另一个优点是后期的匹配非常简单, 几乎所有的主流发工具都提供了对正则表达是的良好支持, 编码迅捷、高效。
方法2 符号特征的自动提取
并不是所有的状态都可以通过简单的正则表达式描述出来, 因此大量的符号特征要借助计算机进行自动提取。
本文采用Freitag提出的文本推断算法进行符号特征的提取[13], 该算法的输入是一个已经经过人工标注的训练样本和预定义的特征。
本文采用XML作为样本标注格式, 并且用HMM状态集作为XML标签集合, 文件格式如图3所示。并采用前文定义的输出符号集作为预定义特征。
算法的输出是以输出符号集为基础的、为HMM状态集中的每一个状态定义的符号特征列表, 比如状态“Year”的特征列表是:
4digits 2digits+2digits
3digits+otherdigits
2digits+otherdigits
……
状态“Page”的特征列表是:
3digits 2digits
2digits+otherdigits
……
所有符号特征构成的符号特征库就是HMM可观察符号集.
3.3HMM概率学习
确定了HMM结构之后, 我们需要构造状态转移概率矩阵A和观察概率分布矩阵B[14]。
状态转移概率矩阵A中aij是从状态Si转换到Sj的概率, 实验中只需要对经过人工标注的训练样本中XML标签的先后次序以及标签个数进行统计即可。可以根据以下公式计算:
其中, t (i, j) 是状态Si转换到Sj的次数 (即标签Si后紧跟标签的Sj次数) ,
观察概率分布矩阵B中bj (k) 表示状态Sj输出相应观察值Vk的概率 (即状态Sj对应的符号特征为Vk的概率) , 因此可以根据以下公式计算:
其中, e (j, k) 是状态Sj输出观察值Vk的的次数,
根据以上公式, 实验得到一个N×N的转移概率矩阵A和N×M的观察概率分布矩阵B (N为HMM状态集中元素的个数, 本文N=12, M为可观察符号集中元素的个数, 即符号特征库大小, 本文M=146) , 限于篇幅, 本文仅列举矩阵的一部分, 如表1所示。
4信息提取及结果分析
对应到HMM, WEB信息提取的过程等价于:给定HMM结构和观察值序列 (待提取的字符串) , 寻找最有可能 (概率最大) 产生该观察值序列的状态序列, 即HMM中的解码问题, 该问题的经典算法是Viterbi算法, 该算法的实现可参考文献[14]。在本文的HMM结构中, 概率学习并不是基于可见字符串, 而是由字符串构造的符号特征库, 因此Viterbi算法的输入是待提取字符串的符号特征序列。
本文使用100个科研人员的个人主页、共1374条科研成果信息作为实验样本, 其中“信息集中型样本”为50人共627条, “信息疏散型样本”为50人共747条, 每一类样本均取其中400条作为训练样本, 其余作为测试样本, 使用Viterbi算法进行识别, 结果如表2、表3所示。
从实验结果可以看出, 算法对信息集中型的样本具有较好的效果。究其原因, 是因为信息疏散的样本中夹杂了较多学习简历、作者简介等冗余信息, 而且这些信息中往往会包含一些年份、学校机构等信息, 因此对提取造成了较大的干扰, 对这一类页面信息的提取, 必须进行较为复杂的前期预处理, 或在提取过程中进行重点信息的定位, 甚至需要另辟蹊径。另外我们发现对于特征比较明显的信息比如作者、年份提取的准确率比较高, 表明符号结构特征在提取过程中起到了良好的作用。
此外实验中发现, 预定义符号集的定义也对结果产生较大的影响。以500个样本为例, 预定义符号集的大小和提取精确度之间的关系如图4所示。
由此可见, 符号集的定义过于细化, 往往会导致概括能力降低, 表现为一个状态的特征列表过长, 反过来, 会造成符号特征过于宽泛, 无法体现“特征”的抽象本质, 这两个极端都会导致提取精度的下降, 一般而言, 符号集的大小控制在该应用领域内常见单词数目的20%左右是比较合适的。
5小结
本文提出了一个基于符号特征的隐马尔可夫模型 (HMM) , 并用于科研人员个人主页的信息提取。用正则表达式和通过文本推断算法提取的规则对符号特征进行描述, 并在此基础上构造HMM转移概率矩阵和观察概率分布矩阵, 利用Veterbi算法进行信息提取。
实验结果表明, 该模型对于信息集中的页面具有较好的效果, 因此, 对一些数据疏散的页面必须进行有效的数据定位和冗余信息预处理才能得到较好的效果。同时, 本文仅针对英文页面, 而中英文的信息特征有较大的区别, 因此必须对符号特征的描述和提取方法进行较大的改动, 这也是我们下一步的努力方向。
【特征信息提取】推荐阅读:
特征信息序列10-21
图像特征信息05-29
信息及其特征09-27
1信息与信息的特征07-03
财务信息质量特征07-01
信息及其特征教案08-23
《信息及其特征》教案11-08
《信息及其特征》导学案06-09
高中信息及其特征教案07-29
信息的特征教案设计09-02