数据识别(精选11篇)
数据识别 篇1
一、引言
近年来, 对植物的分类和识别研究已成为模式识别领域的一个研究热点。传统的叶片识别, 一般由知识储备和实践经验丰富的研究人员进行。但这种人工操作, 识别的过程依然相当繁琐, 工作量大, 并且工作效率不高, 识别的正确性也很难得到保证。随着计算机技术的发展, 研究通过计算机来进行高精度的叶片识别是一个非常具有可行性的新途径。
国外学者在对于植物叶片分类识别的研究上, 获得了良好的成果, 他们大多采用判别式分析法、匹配法、机器学习法对植物进行分类识别。国内对于叶片识别技术的研究比较少, 而且开始时间也比国外的要迟一些。祁亨年等提出了叶形识别概念, 并讨论其发展前景, 虽然并未进行系统的开发, 但他们最先推动了国内对于植物叶片识别研究的发展。黄德双等对于叶片识别技术进行了大量的研究, 并开发出了具体的识别系统.近年, 合肥植物园与中科院合肥智能机械研究所智能计算实验室进行了合作, 他们借助数字图像处理和模式识别技术, 成功开发了一款植物叶片图像识别系统。
本文建立了一个基于数据库的叶片种类识别系统。通过对叶片图像的处理, 叶形的分析与特征值的计算, 并且应用数据库技术存储数据资料, 实现对叶片图像的识别功能。
二、叶片的识别
本系统识别叶片的流程如图1所示。
(一) 图片的预处理。直接的图像文件是不能完成最后需要的特征值提取的, 因此需要对图像文件进行预处理操作。图像在进行了一系列处理后, 计算机才能够对图像中某些区域进行计算和统计。在预处理过程中, 为了使图像与图像背景分离开来, 尽量减小背景的影响, 一是要增强对比度。二是利用阈值分割将图像转换成二进制图, 方便后续的边界提取和统计某些数值, 如面积和周长等的计算更加精确。三是为了最大程度地去除图像中的噪声, 空隙等对计算的影响, 要对图像进行滤波处理和膨胀、腐蚀等平滑操作。
其算法流程下:
Step 1:读入RGB格式的图像文件, 用二维数组A变量存储图像;
Step 2:增强图像的对比度, 得到数组变量I;
Step 3:将图像格式转换为灰度图像, 得到数组变量I2;
Step 4:计算分割所需的阈值大小level;
Step 5:利用阈值分割法, 将灰度图像转换为二值图像, 得到数组变量BW;
Step 6:对二值图像进行medfilt (中值滤波) 处理, 存储在BW中;
Step 7:对图像进行erode (腐蚀) 操作, 得到数组变量BW1;
Step 8:对腐蚀后的图像BW1进行dilate (膨胀) 操作, 得到变量BW2。
(二) 特征提取。特征值提取是计算出图像中叶片的某些典型的数据, 用以区分不同的图像, 是为后续的识别工作做准备。本系统采用2个特征值, 分别为叶片图像的圆形度和长宽比, 其中圆形度通过图像的面积和周长得出, 长宽比通过叶片图像的最小邻接矩形得出。采用这两个特征值的原因, 是因为它们可以避免图像放缩和图像位置的影响, 无论图像放大还是缩小, 无论摆放位置怎么样, 它们的计算结果都只和图像本身的形状有关。其算法实现具体如表1所示。
(三) 识别算法。识别算法的思想是判断根据用户上传的图片文件计算出的特征值和数据库中的文件经过同样处理后得出的值之间的差距是否在预先设定的一个范围内。具体的匹配算法如表2所示。
匹配算法中采用2个数值之间的差的绝对值与二者之和的比值作为判断参数, 同时设置长宽比的误差区间为15%, 圆形度的误差区间为3.5%, 这样使得判断较为准确合理。
三、系统的设计与实现
系统在Windows XP操作系统下采用Matlab语言进行开发, 数据库设计使用Sql sever 2008工具完成。数据库中保存的是图片在本地电脑中的绝对路径以及相关图片的描述信息。系统的功能结构如图2所示。本系统中主要有前台用户界面 (图3) 和后台管理员界面 (图4) 。
用户在使用本系统时, 先在用户界面中点击“浏览”按钮, 选择待识别的植物叶片。在完成待识别文件的上传后, 点击“识别”按钮, 识别结果如图5所示。图5中左边显示存储在数据库中的标准图片, 界面右下角显示识别结果, 主要为相应叶片的文字信息, 有关其叶片特征, 产地, 用处等等。
四、结语
本文开发了一个具有较高识别能力的叶片识别和分类系统。深入介绍了系统实现中的核心技术、系统界面和系统运行的结果。实验证明, 本系统可以识别出不同种类的叶片。但本文仅仅实现系统原型, 未来还有许多问题需要深入研究和完善, 比如系统的界面、算法的效率、对复叶的识别等等。
参考文献
[1]朱静, 田兴军, 陈彬, 吕劲紫.植物叶形的计算机识别系统[J].植物学通报, 2005
[2]杜吉祥.植物物种机器识别技术的研究[D].中国科学技术大学, 2005
[3]Yvonne Power, Parisa A.Bahri.Integration techniques in intelligent operational management[OL].School of Engineering Science and A.J.Parker Cooperative Centre for Hydrometallurgy, Murdoch University (Rockingham Campus) , Dixon Road, Rockingham, WA 6168, Australia, 2004, 19(3) :613 ~620
数据识别 篇2
针对算子识别反问题,分析了解的不适定性与模型误差、数据误差的关系,建立了基于模型优化和数据优化的联合反演技术,提出了适合同时处理数字式数据与非数字式数据的量化单调消噪方法.建立了数值反演可靠性概念,包括正演算子可靠性、正演计算可靠性、测量设计可靠性、反演算法可靠性、反演计算可靠性、测量数据可靠性,并建立了相应的可靠性定量评估方法.通过一个岩土工程的算子识别反问题的`工程应用与数值试验说明:其一,这一联合反演技术实质是一门系统性的优化技术,能够显著提高数值反演的可靠性和准确度;其二,应用可靠性定量评估方法,能够客观地、定量地获得反问题解估计的质量评定.
作 者:吴立军 刘迎曦 韩国城 作者单位:吴立军,刘迎曦(大连理工大学工业装备结构分析国家重点实验室,辽宁大连,116024)
韩国城(大连理工大学土木工程系,辽宁大连,116024)
刊 名:岩土工程学报 ISTIC EI PKU英文刊名:CHINESE JOURNAL OF GEOTECHNICAL ENGINEERING 年,卷(期): 24(6) 分类号:O302 O241.1 TU196 TU452 关键词:算子识别 反问题 不适定性 可靠性 模型优化 数据优化
数据识别 篇3
【关键词】棒材区限超声识别;数据融合技术;分析研究
数据融合是按照一定的规则,利用多传感技术,把得到的信息进行综合和判断的技术。因为在这个过程中融合的信息量较大,所以得出的数据结果也会比较的准确。大型的棒材由于其截面的尺寸太大,导致锻造的难度及程序都非常复杂,极易在生产的过程中发生各种的缺陷问题,因此我们必须要对其加强检查,以便有效的提高棒材的质量。
一、数据融合技术的概念及特点
数据融合技术就是指按照一定的规则要求,利用多水浸超声探头的技术方式,从而把得到的信息进行综合和判断,以得出具体、可靠的分析数据,进而进一步进行缺陷识别。根据水浸超声探头结构形式的不同,数据融合技术具体可以分为串行融合、并行融合和混合融合三种方式。其特点主要表现为以下几个方面:
1、自动化水平高。数据融合技术可以实现棒材缺陷超声检测全过程自动化的數据处理程序,能够有效的以计算机技术取代人工作,降低了对人的工作强度,实现整个变电运行检测工作的高效自动化。
2、检测水平高效率。数据融合技术运作的一个重要的特征就是应用机器生产降低人的工作强度,实现自动化的操作流程,极大的减少人的工作步骤,同时全过程的机器操作也可以极大的减少之间的反应时间,提高整体的工作效率,实现检测过程的高效化运行。
3、检测结果可靠性高。由于棒材的截面的尺寸太大,锻造的难度和工序都比较的复杂,因此极易的产生各种的缺陷问题,通过数据融合技术的超声识别方式就可以有效的降低工作的误差,减少一些人为失误的发生,提高检测结果的可靠性。
二、数据融合技术在棒材缺陷超声识别分析中的应用思路
到目前为止,数据融合技术还没有形成一套完整的通用理论,对待具体问题我们要进行具体的分析,其研究的方式主要有基于D-S的证据理论和Bayes的决策方法的数据融合技术,及与模糊逻辑结合在一起的数据融合技术。一般来说,现在材缺陷超声识别分析中的数据融合技术的超声识别分析思路是采用效率比较高的并行多水浸超声探头的数据融合技术,就是指要首先利用我们所熟悉的先验知识,在根据后验概率的数据融合方法的基础上,使用3组水浸超声探头,通过建立大型的棒材锻件水浸超声自动扫查系统,在决策级上来开始进行数据融合分析,从而实现对棒材缺陷的准确高度识别。在数据融合分析的过程中我们使用的是局部决策和基于后验概率的数据融合方式,其主要是根据局部的或者是分水浸超声探头的信息做出局部判断,在棒材缺陷局部决策分析方式中采用的是人工神经网络理论中的感知器的算法。
三、数据融合技术在棒材缺陷超声识别中的具体应用
棒材缺陷超声识别方式是目前棒材行业的主要检测方式,为了能够提高检测的效率及有效性,我们又在这个检测之中融入了数据融合技术,以提高棒材检测的准确度。下面我们主要介绍一下关于行多水浸超声探头的数据融合技术在棒材缺陷检测中的具体应用:
棒材的加工工艺复杂多变,其缺陷也会存在着不同的分布和取向,有的一些缺陷是靠近棒材的近表层面的,而有的却存在棒材的横断截面取向上。根据缺陷分布的不同及对缺陷敏感度的不同,我们现在会采用三组形式、姿态各异的水浸超声探头,具体分布如下图1:
在这三个水浸超声探头中,T1是轴线对角式的水浸超声探头,T2是骑跨式的水浸超声探头、T3是直发式的水浸超声探头。其中上图中的左侧的图中未画出的水浸超声探头T2、T3是在其投影位置的双点画虚线的位置上,而右侧未画出的T1水浸超声探头也是在其投影位置的双点画虚线的位置上。
我们利用这种并行的多水浸超声探头方式对常见的棒材缺陷(主要包括夹渣、裂纹及气泡等缺陷)进行检测,以便能够有效的分析出5种棒材的缺陷,其具体的操作方式是根据5种缺陷类型的划分,按照其不同的时域和频域特征在水浸扫描系统中进行探测识别,水浸超声探头组是T1、T2、T3,不同的缺陷类型分为F1(夹渣)、F2(气泡)、F3(裂纹)、F4(其他缺陷)、F5(正常)。然后我们就开始对三组水浸超声探头各自进行相关信息的处理、提取和识别,根据线性分布的前提条件,我们对三个水浸超声探头在不同时段不同区域获得的超声信息分别进行不同的函数计算,同时由于训练样本存在自身不完备性的问题,我们又引入了水浸超声探头对棒材不同缺陷敏感程度的系数表,然后根据训练样本及检测样本的数据进行后验概率计算分析,从而得出正确的监测数据。在此的基础上各自进行局部的决策,根据局部决策的结果我们再在数据融合中心中进行数据判定,并得出最终的判定结果,从而得到最终的棒材缺陷识别结果。
我们的试验结果是,根据水浸超声探头的敏感系数表1数据,经过数据融合分析得出5组缺陷棒材的敏感系数分别是如图2所示:
表1:给定训练样本和验证样本情况下的敏感度系数表
由图2我们就可以明显的看出,融合后的敏感度系数是融合前的敏感度系数的最高值,就可以有效的提高缺陷的类型识别的准确性和可靠性,同时使用基于后验概率的数据融合计算方式可以有效的减小整体的误判概率,我们在试验的过程中可以加强多水浸超声探头信息融合技术的超声缺陷识别方式的应用。
结语:
大型的棒材由于其截面的尺寸太大,导致锻造的难度及程序都非常复杂,极易在生产的过程中发生各种的缺陷问题,因此我们必须要对其加强检查,以便有效的提高棒材的质量。数据融合技术是现代棒材缺陷识别的重要技术手段,基于数据融合的棒材缺陷类型超声识别方式可以有效的提高棒材缺陷类型的判断与识别。在今后的实践过程中我们一定要加强棒材缺陷超声识别应用中的数据融合技术的使用,以便能够更加准确的判断棒材缺陷类型。
参考文献:
[1]刘继忠,周晓军,蒋志峰.数据融合技术在棒材缺陷超声识别中的应用[J].农业机械学报,2006,01:160-162.
[2]胡文刚.基于多值域特征及数据融合的焊缝缺陷超声检测与识别[D].哈尔滨工业大学,2012.
数据识别 篇4
道路网络数据是进行交通分析研究、规划设计的基础。通过对道路网络进行更新维护,以保证路网数据的现时性,是交通研究领域工作中基础工作之关键,而这项重复性很高的工作往往需花费了大量的时间与人力,还难以保证数据的时间性、版本继承性,给需要大量时间前后对比分析的交通研究工作带来了效率障碍。因此,一套能满足交通行业应用需求的道路网络自动更新技术方法与机制,对于节省时间与人力的投入、提高路网数据的质量,具有很强的实用意义。
1 路网更新现状
基础路网的实地勘测数据,通常由2个机构采集并产生:测绘院与专门的电子地图厂商。而交通、环境等行业分析与应用,则是从上述2个部门获取新数据从而对自身的行业数据库进行更新。以交通行业为例,目前用于交通研究领域的道路网络数据在传统城市交通道路网络数据更新与维护作业流程中,通常以上述2个机构的新采集数据为参考依据:测绘院小比例尺地形图(一般为1∶2 000比例尺)中的道路层数据,或者目前越来越广泛使用的导航电子地图数据。由于测绘院地形图数据更新周期较长,一般为2~5 a,而目前用于导航的电子地图生产厂商生产的路网地图一般更新周期为1 a 2次,数据现时性要好很多,因此交通领域的路网数据越来越多的以导航电子地图作为更新的数据依据。但无论参照哪种数据,每年交通部门对基础路网数据的实际更新工作都可概括为:对照新采集的GIS路网地图,对旧版本道路交通网络数据进行更新。
道路网络数据属于空间数据中的线要素矢量数据。目前对空间矢量数据的更新主要有2种方式:基于完全版本的全部更新与增量式更新。基于完全版本的全部更新是指通过时间戳对每一个版本的数据进行管理,需要对数据更新时,不依靠历史数据,而是直接对新来源数据进行专业加工、处理后即作为新数据版本。而增量式更新是指在原有路网数据的基础上,只对变化的部分进行相应的更新处理[1]。增量式更新的数据存储结构更为科学合理,防止冗余性也更好。
由于用于导航的电子地图不关心基于路网的历史数据分析、对比,只关心当前的路网形态,因此目前导航电子地图几乎都采用的是全版本更新法[2]。但是对各个路段的沿时间轴的前后交通数据对比分析研究是交通行业的一项重要工作,因此对于行业分析与应用来说,必须要求各个版本的基础路网数据之间具有良好的继承对应关系,一般通过永久以惟一ID标识实现,这就进一步提出了对路网数据进行增量式更新的要求。
2 自动增量识别与更新算法
2.1 增量更新技术分析
进行高效增量式更新的技术关键是增量部分信息的自动识别。增量识别是指针对不同版本的数据文件,识别出旧版本到新版本的变化部分的内容,以备旧版本数据更新的需要[3]。目前用于矢量空间数据自动增量识别的方法有3种:
1) 在数据生产与编辑环境平台的基础上,开发专门的编辑记录反应器,将数据更新过程中添加、修改和删除的对象及操作都自动记录到日志文件,地图用户在更新地图数据时,即可按照该日志文件进行增量更新。
2) 对新、旧版本数据的自动完全增量识别,以线形矢量空间数据为例,线要素由一串拐点组成,通过2个版本数据所有拐点及连接关系的对比分析,认为只要发生了一定变化(不管这种变化是位移、缩放、合并、断开等任何操作引起的结果)的线要素都归为被修改要素,将会处理为增量内容。
3) 基于线模式匹配等更复杂的模式匹配算法来对新、旧版本路网数据进行增量信息的自动识别,可用于实践的算法包括参照线与样本线间平均距离判别法、参照线与样本线围合面积判别法等模式判别算法。
但是这3种算法在应用于交通行业道路网络增量信息自动识别时,实用性都不理想。算法1主要应用于数据生产厂商端,需要将此编辑记录反应器嵌入到测绘院或地图厂商的数据生产环节中,才能对数据更新信息进行有效记录;算法2虽然适合在数据使用方进行操作,但由于导航电子地图等路网数据都是每年重新进行数字化,且数据使用方每年的更新参考数据源也可能来自于不同生产单位,线形几何不可能完全一致,因此基于拐点对比的完全变化识别显然会高估增量数据信息量;算法3能从一定程度上解决算法2的问题,但针对道路网络数据,不同来源的路段数字化过程会带来不同的路段表现形式,如图1所示,粗直线L1线要素为旧版本路网中的一个路段要素,细折线L2与L3分别为更新参考路网中可能出现的2种路段要素情况,线中的小方块显示的是构成该线段的拐点。事实上L2表述的是该路段未发生变更,只是新参考数据中数字化的线型不太一致而已,而L3表示该路段发生了延伸性修建。如果采用平均距离的算法进行自动识别,L2与L1的平均距离Δ1=(l11+l12+l13)/n1拐点数,而L3与L1的平均距离Δ2=l2/n2拐点数,在n2拐点数比n1拐点数多的情况下,会出现Δ1>Δ2,即L2比L3是增量数据的可能性更大,计算机自动判断错误;如果采用围合面积的算法,则L2与L1的围合面积更是大于L3与L1的围合面积,同样难以正确判别。
2.2 基于缓冲区分析的高效增量更新算法为了解决2.1中所述目前已有矢量空间数据
自动增量识别的3种方法在交通行业应用中所不能适应的技术问题,本文提出了1种基于缓冲区分析的高效增量更新算法,技术流程如图2所示。
该算法分为3个步骤:道路增量信息自动识别、人机交互方式生成增量数据包、对道路网进行增量更新。
1) 道路网络数据增量信息的自动识别,即道路网中新建、改建或消除路段的自动识别,具体步骤包括:遍历新采集路网(更新参考路网)中的路段元素;对每1个路段L生成路段缓冲区LB;将缓冲区LB与旧版本路网路段求交,得到旧版本路网中的路段交集S;对此路段集作合并的缓冲区SB;分析L与SB的空间包含关系,若L被包含于SB,则L为几何非增量数据,继续下步骤,若L不被包含于SB,则L为几何增量数据;对比L与S中元素的目标属性关系,若属性一致,L为非增量数据,若属性不一致,L为属性增量数据;遍历旧版本路网中的路段要素;将每一个路段l与更新参考路网路段求交,得到更新参考路网中的路段交集s;对此路段集作合并的缓冲区sb;分析l与sb的空间包含关系,若l不被包含于sb,则l为消除或部分消除路段;将所有增量数据拷贝至增量集合。
2) 在拓扑规则程序(主要用于保证路网的连通性与方向性)的辅助下,以人机交互的方式编辑完成增量数据集,增量数据集包含3类数据:在更新参考路网中被标识为新建道路的路段要素;同时在更新参考路网及旧版本路网中标识为改建道路的路段要素;旧版本路网中被消除的原有道路路段要素。
3) 根据增量数据集对原道路网络数据自动进行增量更新,具体包括:完全复制旧版本路网数据到新建新版本路网数据;将增量数据集中标识为新建与改建道路的路段要素复制到新版本路网数据;删除对应于改建道路与消除道路的原有道路路段要素。
3 实用分析
为测试本文所提算法的实用效果,以北京市交通基础数据库中某旧版本矢量路网数据为例,以某厂商2007年导航电子地图为更新路网参考数据,采用本算法对该旧版路网数据进行自动增量识别与增量更新。
上述算法通过通用地理信息系统开发平台ArcGIS Desktop 9 SDK的程序开发得以实现,运行程序主体为通用GIS软件ArcMap,编写的程序以插件的形式插入到ArcMap中。程序显示该算法的自动增量识别结果如图3所示,右侧图形显示区加载了旧版本路网矢量数据(实线)和2007年新导航电子地图参考路网数据,点击嵌入式“计算参考路线图层(新采集)对于标准路线的增量”按钮后,即执行本路网增量信息自动识别算法进行计算机自动识别判断,最后将所有增量路段要素以虚线表示。从图3可见,该路网增量自动识别算法能达到较理想的准确度。
将上述程序识别的增量路段信息加载到增量信息包后,即可在图3所示编辑环境中进行人机交互的增量包编辑工作,生成增量信息包中的增量要素以及如表1所示的增量信息表:
最后将增量包中新参考路网的变更类型编号为1、2、3的路段要素拷贝至目标路网数据层,然后将旧版本路网的变更类型编号为2、3、4的路段要素进行删除,即完成道路网络数据的增量更新工作。
注:变更类型编号:1-新修建道路;2-改建道路(地理位置变动);3-改建道路(车道数等道路属性变动);4-消除。
4 结束语
提供1种以各种来源新采集路网矢量数据为参考,进行快速、准确增量识别及增量更新的技术方法,对于交通等非基础数据采集制作机构,以及对基础路网的现时性和历史继承性要求很高的行业来说,能够大大减轻路网数据每年更新维护的时间与人力投入,并保证现状数据与历史数据良好的继承相关性。本文提出的基于缓冲区分析的路网自动增量识别与更新技术方法,从北京市交通基础道路网络的实际增量更新操作来看,整套算法利用通用的地理信息软件平台即可实现,更新操作简单,更新结果较为理想,具有很强的行业实用性。
参考文献
[1]宋莺.导航电子地图动态更新核心技术研究[J].计算机系统应用,2008(5):69-72
[2]胡钱钱,李莉.导航电子地图的更新机制与技术方法[J].地理信息世界,2008(1):77-82
数据识别 篇5
通过地表露头与钻井剖面的观测分析综合研究,证实陕北东部地区长2+3油层组属于在泛滥平原下游发育的远源砂质辫状河沉积.沉积类型可划分出河道亚相与泛滥平原亚相等两个亚相以及河床滞留、河道砂坝、天然堤、决口扇、泛滥平原等5个可识别的`微相.河道砂坝为其沉积的主体.长3到长2期,远源砂质辫状河沉积在平面展布和剖面组合上均表现出向三角洲相区持续推进和逐步超覆的特点.远源砂质辫状河沉积在其平面相区内一般无明显的、限制性的河道表现,河道砂坝复合连片,形成大规模的砂坪或广泛分布的“叠覆泛砂体”沉积,泛滥平原发育区仅在局部有所残留;剖面组合上河道砂坝极为发育,复合迭加程度高,形成连续性和连通性良好的宽厚的复合河道砂坝砂体以及“砂包泥”的沉积组合.同时,远源砂质辫状河流的发育使得与其相邻的三角洲沉积具有了类似“辫状河三角洲”的性质和特点.
作 者:刘春慧 金振奎 刘家铎 王铮 朱桂芳 LIU Chun-hui JIN Zhen-kui LIU Jia-duo WANG Zheng ZHU Gui-fang 作者单位:刘春慧,金振奎,LIU Chun-hui,JIN Zhen-kui(中国石油大学资源与信息学院,北京,102249)
刘家铎,LIU Jia-duo(成都理工大学,四川,成都,610059)
王铮,WANG Zheng(新疆石油管理局井下作业公司研究所,新疆,克拉玛依,834000)
朱桂芳,ZHU Gui-fang(新疆油田分公司勘探开发研究院,新疆,克拉玛依,834000)
数据识别 篇6
[关键词] 数据挖掘 舞弊性财务报告 识别
一、问题的提出
自从财务报告作为传递经济信息的媒介以来,舞弊就与之形影相随,尽管各国监管机构等相关部门多次出台各种政策、不断完善会计及审计准则,财务报告舞弊仍屡禁不止。因此,最有效的治理财务报告舞弊的方法就是提高各方的识别能力。但是,识别虚假财务报告是一个很专业、很复杂的问题,不仅要从大量的公司年报、中报等财务数据中提取信息,还要从企业本身的组织结构特征、行业特征、经营决策特征等相关非财务信息中寻找线索,仅仅根据审计人员的知识和经验,其识别效果和效率都不够理想。数据挖掘技术作为一种决策支持技术,能够从大量的、不完全的、模糊的、随机的实际数据中,挖掘出隐含在其中的、有用的信息和知识,帮助财务报告的关注各方提高识别舞弊的质量和效率。在当今信息时代背景下,随着数据挖掘算法的不断改进、应用领域的不断拓展,将其应用到舞弊财务报告的识别中既有可能也有必要。
二、运用数据挖掘技术的必要性
随着数据库技术的迅速发展及数据管理系统的广泛应用,大部分企业已经引入人工智能对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录,因此企业积累的数据越来越多,形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围的数据支持,但同时也带来了一些问题:一是数据过量,难以及时发现有用信息;二是数据形式不一致,难以统一处理;三是数据是不断发展的,识别舞弊的经验相对于数据往往是滞后的,这种不同步性给舞弊识别带来了巨大的潜在风险,KPMG(1998)调查发现超过三分之一的舞弊事件是在偶然的情况下被发现的,只有4%的舞弊事件是由独立审计人员发现的;四是传统的数据分析方法无法处理庞大的数据库系统,技术工具的落后性势必影响舞弊识别的广度和深度;五是新的数据处理技术为舞弊提供了越发隐蔽的新手段,电子化和网络化的数据环境也使得舞弊隐藏的更深,使识别难以下手。
数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排出人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于舞弊财务报告的识别很有必要也非常紧迫。
三、运用数据挖掘技术的可行性
数据挖掘是一些功能强大的数据分析技术的集合,这些技术用于帮助我们分析极其巨大的数据集。经过正确地应用,数据挖掘可以揭示出埋藏在企业数据库中的隐藏关系和信息。尽管数据挖掘看上去像是出现不久,但其实对这种方法的研究和实践已有很长时间了,早在20世纪60年代早期,数据挖掘被称为统计分析,在这段时间内产生了一些饱受赞誉的古典统计例程,如相关和回归。20世纪80年代后期,一些更强大的技术(如模糊逻辑、启发式推理和神经网络)加入到古典统计分析中来,这段时期是人工智能的全盛时期,数据挖掘的研究取得了长足的进展并被应用于各个领域,包括经济管理、金融、保险等。
在会计领域利用数据挖掘技术识别虚假财务报告的研究目的是确定数据挖掘的方法论,建立相应的规则和算法。具体而言,需要运用数据挖掘技术整合上市公司财务数据、经营管理、证券市场交易及宏观经济环境等多方面的非财务信息,然后在大量数据模拟和试验的基础上,给出识别各种类型的财务造假模式的数据挖掘解决方案、规则、算法等。在确定规则时,我们可以利用专家系统,将经验丰富的专家智囊輸入计算机,构建知识数据库,从而产生一定的规则名。数据挖掘技术可以处理大量的复杂关联数据,可以将在会计人员眼中不显著的虚假财务报告与自然形成财务报告之间的内在差异放大到存在某种数据结构和统计显著性差异,在一定程度上提高了舞弊性财务报告的识别效率和效果。
四、运用数据挖掘技术的优势
与正常的财务报告相比,舞弊性的财务报告具有某种结构上的特征,这些特征可以通过数据形式表现出来,也可以通过文本信息等非财务数据形式表现出来,但是传统的技术分析方法在量化非财务数据时有很大困难,导致一些重要的信息被忽略,而数据挖掘的对象不仅是数据库,也可以是文件系统,或其他任何数据集合,提高了信息的利用率。
传统的技术分析方法往往是单一的技术,而数据挖掘是一种集成的技术,融合了三个学科的技术,即数理统计、人工智能和计算机,使它具有单一技术所无法比拟的优势。传统的技术方法多是先从经济含义上去构造指标或者是构造模型,然后再代入数据得出结果,这是从一般到特殊的演绎过程,需要许多前提假设并且受诸多主观因素的影响。数据挖掘是用数据来产生模型,再用数据去检验模型,模型的构造是从特殊到一般的归纳过程,这就摆脱了前提假设的束缚和主观因素的干扰,其结果更加真实、客观。对于质量上存在缺陷的数据,传统的技术分析方法往往一筹莫展,而数据挖掘技术由于包含数据的预处理过程,而能够将有缺陷的数据补全、清洗、消声和归纳,从而提高了数据的可用性和可靠性。数据挖掘技术能够将数据从执行系统中筛选出来,减少冗余,完成一系列的转换、结构改变以及聚集处理,从庞大的信息流中分辨、析取、整理、挖掘出对识别舞弊财务报告有用的信息,减少信息噪音的影响,为识别舞弊性财务报告提供科学的依据。
五、数据挖掘技术在识别舞弊中的应用过程模型
如何把数据挖掘技术有效的应用到舞弊的识别过程中是首先要解决的问题。美国SAS研究所总结了数据挖掘的一套行之有效的方法(SEMMA),斯坦福大学的约翰1997年在其博士论文中也给出了一种数据挖掘处理模型,该模型强调由领域专家和数据挖掘人员共同参与数据挖掘的全过程、及时沟通。本文根据上述思路,给出了数据挖掘在舞弊识别中应用的处理过程模型。
数据挖掘在舞弊识别中的应用模型
①数据取样(Sample)。会计领域专家根据积累的经验从数据库中提炼出与舞弊识别相关的样本数据子集,而不是动用全部企业数据,这样可以减少数据处理量,节省系统资源;②数据探索(Explore)、③数据调整(Modify)。数据挖掘人员通过与专家的沟通,对所提炼数据进一步理解,在此基础上对其进行逐步分类、筛选,按照对整个数据挖掘过程的认识组合或生成新的变量,以体现对状态的有效描述;④模型的选择和建立(Model)。数据挖掘人员建立挖掘模型,会计专家通过与数据挖掘人员的沟通来了解模型并加以确认;⑤模型的综合分析与评价(Assess)。会计领域专家在理解挖掘模型的基础上,对模型的识别效果进行分析评价。在整个应用过程模型中专家与数据挖掘人员之间的沟通是很重要的,会计领域专家向数据挖掘人员提出和解释需求,数据挖掘人员据此构建识别模型并与专家分析评价模型的识别效果,以此循环反复,直至制定出有效的挖掘方案。
六、结束语
识别舞弊性财务报告需要从大量相关信息中寻找线索,建立一个基于数据挖掘技术的舞弊财务报告识别流程,充分利用经验丰富的专家智囊及数据挖掘的技术优势,提高舞弊财务报告的识别效率和效果,尽量降低其给利益相关者造成的损失。
参考文献:
[1]曲吉林:数据挖掘在财务领域中的应用[J].山东财政学院学报,2006,(1):14~17
[2]徐锡意盛国辉:数据挖掘在审计中的应用[J].审计理论与实践,2003,(8):20~21
[3]朱建平张润楚:数据挖掘的发展及其特点[J].统计与决策,2002,(7):71~72
数据识别 篇7
关键词:人脸识别,线性,非线性,人数
随着社会安全系统要求的不断提高,生物特征识别技术满足安全系统身份认证的需要。人脸识别方法属于一种生物识别手段,该方法主要应用计算机对人脸的图像进行分析,进而能够准确地识别人的身份。随着技术水平的不断提高,人脸识别手段逐步地被应用于各个领域,例如,驾驶执照持有者的身份识别、罪犯的身份识别以及护照持有者的身份识别、金融机构的监控系统等。
目前,非线性人脸识别技术已经取得了重大突破,数据集大小对识别方法的影响成为研究热点[1,2]。以相同的数据集为研究对象进行相应的实验时,利用核技术的非线性识别技术相对于基于核技术的线性识别技术能够获得非常好识别效果,识别准确率非常高。然而,以上的研究所选择的数据集不具备较大的规模,基本上数据集都是在100人以下。随着数据集的增多,基于核技术的线性以及非线性识别技术是否有类似的影响呢?非线性识别技术能不能应用于规模更大的数据集中呢?本文就这一问题进行了一系列的实验和讨论,认为当数据集的规模不断增大时,基于核技术的线性技术的错判率也会以线性的方式不断增加,当数据集规模达到1 000人时,相应的错判率是数据集规模为50人时的2倍,对于基于核技术的非线性技术错误识别率没有较大的变化,当数据集规模增大时,错误识别率却有所降低。
1人脸特征提取方法
本文中线性人脸识别方法和非线性人脸识别技术主要目的是能够提取出人脸的特征,有的是线性手段,有的是非线性的手段,也就是说在提取人脸特征时,所应用的人脸空间的投影轴是线性的或者是非线性的[3,4]。
线性识别方法有主成分分析法、线性判别分析和直接线性判别分析法等。主成分分析法(PCA)也可以被称为特征脸技术,主要的思路是采取逐行的方式扫描一幅B×B的标准人脸图像,同时把扫描结果按顺序组合成一个P2维矢量,可以被看作P2维空间的一个点。线性识别方法是依据主成分分析技术形成的一个扩展技术,主要思路是把初始的高维模式样本向最优识别向量空间投影,为了能够确保投影后的模式样本在新生成的子空间中包括最大和最小的类间距离,进而可以使最大和最小的类间距离的比值最高。直接线性判别分析(DDA)是在线性判别法基础上改进而得到的,其直接在原始的高维输入空间进行数据处理,能够较好地处理线性识别方法中存在的“小样本”缺陷。
非线性识别方法有核主成分分析、核线性判别分析和核函数直接判别式分析。核主成分分析(KPCA),又称核特征脸,主成分分析PCA反映了图像的二阶相关性,而KPCA能够有效地体现出图像的高阶相关性。核线性判别分析(KLDA)主要依据fisher判别法的基本原理,并且结合核技术而提出的一种新方法。基于核函数直接判别式法把数据以非线性的方式向一个高维空间映射,接着,在高维空间中通过DDA分析输入数据。
2类内变化对识别方法影响研究
在人脸识别技术首先需要进行原型集以及训练集的设计,应该为不同的用户收集各种不同姿态的人脸图片。Juwei Lu等人指出当类的图片增加,人脸空间并不具有凸分布的规律,在这种情况下有些过去的线性识别技术有可能无法获得较为准确的识别结果[5,6]。笔者通过分析提出产生不好识别效果的主要原因不只是由于类内变动提高而导致的,同时,相同样本集的数据规模也有一定的影响。在数据集规模较小的情况下,尽管类内变化在增多,然而仍然能够使类间保持比较大的距离;而在数据集规模比较大的情况下,人脸样本的分布非常紧密,一旦类内产生变动,样本的混叠就很容易出现。
在人脸识别实验中,从CAS-PEAL人脸数据库中提取表情子集,利用集合Ⅰ来表示,选取的数据集总共包括300人,分别选取160、200、250、300人的人脸图片进行人脸识别实验,集合I的图片如图1所示。
此外,将所选取的表情集中被测对象的姿势子集利用集合Ⅱ来表示,总共选取1 000人,通过对集合Ⅱ中图片的选取来增加类内的多样性,相应的人脸图片如图2所示。在表情集中,不用的人分别选取了4张人脸表情图片,训练样本选择图1中左侧的2张,识别验证样本选取图形中右侧的2张人脸图片。同时,为了能够使不同类中的图片数量增加,选取了和表情集中的300人相应的四张姿势照片来使训练集得以丰富,按照从左至右的顺序把四张人脸图片加入到训练集中,训练集规模增加后可以获得3到9张不等的训练人脸图片,然后进行相应的人脸识别实验。
本文采用直接线性识别分析(DDA)和非线性核直接线性识别分析(KDDA)进行人脸识别实验。希望提高人脸识别的正确率,采取了实验原型集和训练集规模大小一致的方式,如果和不同类图片中的随意一张图片一致,就可以认为得到了正确的识别结果。同时,实验选择了闭集识别的方式,就是说所有测试集的人脸图片均从原型集中的人的其他人脸图片选取的,实验的判断依据就是人脸识别技术的闭集识别正确率。闭集识别正确率为可以利用如下的公式进行计算:
式(1)中,R表示闭集人脸识别正确率,Fc识别正确的人脸图片总数;Ft表示测试集人脸图片总数。综上得到基于数据集的人脸识别算法的主要计算机过程为:
(1)集合的选取:从CAS-PEAL人脸数据库中提取300人的表情子集记为集合Ⅰ,同时选择被测对象相应的姿势图作为子集1 000张构成集合Ⅱ:
(2)选择实验的判断依据为闭集识别方式;
(3)分别选取160、200、250、300人的人脸图片构成人脸数据集合作为输入数据集,在原始的高维输入空间进行数据处理,利用直接线性识别分析(DDA)对数据集合Ⅰ和集合Ⅱ进行人脸识别实验,并计算机识别正确率:
(4)分别选取160、200、250、300人的人脸图片构成人脸数据集合作为输入数据集,采用fisher判别法的基本原理,并且结合核技术构成的核线性判别分析(KLDA)对数据集合Ⅰ和集合Ⅱ进行人脸识别实验,并计算机识别正确率。
通过利用以上的算法对采集的人脸数据进行实际训练和计算得到相应的识别结果如图3和图4所示。
从图3和图4的数据结果可知,当数据集人数从160人提高至300人的过程中,可以获得比较近似的变化曲线。无论是线性识别技术DDA和PCA还是非线性识别技术KDDA,在不同类中的变动增多时,人脸识别正确率不但不会降低,相反会有所增加。当类内包含四张人脸图片时,可以得到最高的人脸识别准确率。通过以上分析可以看出,如果数据集的规模小于300人,使类内的变动增多,对于线性人脸识别方法不会造成识别准确率的变化,在这种情况下无法反映非线性人脸识别的有效性。总而言之,根据人脸识别实验的数据结果分析可:当数据集规模小于300人时,线性识别技术DDA以及非线性识别技术KDDA均可以发出较好的识别效果。同时,尽管类内图片的数量变多,然而对于和DDA以及KDDA相似的人脸识别技术,相应地提取的特征维数并没有因此而增多,仅仅是和类的总数有一定的联系。
3人数变化对识别方法影响研究
根据Fisher人脸识别的基本原理可得,如果类间距比较大,但是类内距又很小,在这种前提下可以提高分类的准确性,所以应该尽可能地使类内不要产生过多的变动,也就是说使类内距尽量恒定不变;此外,使类具有更好的多样性能够获得更为宽松的人脸识别条件,并且可以有效地识别被测试对象的不同表情、各种姿势,并且能够不受外界的光照等因素的干扰,有必要使类内的变化更多一些。以上两种情况是彼此冲突的,为了能够获得最佳的人脸识别效果,应该在上述两种情况中寻求一个最佳的处理方式。从类内变化对识别技术的研究结果可知,当数据集规模小于300人时,人脸识别的准确率不会有所改变,这一结论和第一个情况是相符的,但与第二个情况是冲突的。笔者认为,当数据集的人数处于一定的范围时,使类中的图片数量增加可以提高人脸识别的准确性,然而,当数据规模不断增加时,人脸图片样本的密集度不断增加,在这种情况下,类内距越小越好,反之将引起混叠现象。
笔者认为如果数据集规模变大,样本的密度变大,将产生类似的情况,在这种情况下可以利用非线性的人脸识别技术,并且针对该问题进行了相应的实验。对于训练集规模在改变,但是不同类图片的数量没有变化的条件下进行了人脸识别实验。
人脸识别实验选取的表情集和姿态集同上,分别利用集合Ⅰ和集合Ⅱ表示,在实验过程中,集合Ⅰ的规模由50人逐渐提高到330人,集合Ⅱ的规模从50人逐渐地提高到1 000人。人脸识别技术利用直接线性识别技术DDA以及核直接线性识别技术KDDA。
集合Ⅰ的人脸识别实验结果如图5所示。根据图5的识别结果曲线可得,DDA人脸识别技术在数据集规模为50—200人之间的情况下,识别错误率几乎不变,当数据集规模超过250人时,呈迅速增长趋势;而KDDA方法,从50—330人,曲线一直保持相对平稳。对集合Ⅱ采用了姿势集的50—1 000人不等进行实验,结果如图6所示。从图6可以看出,当数据集规模增高时,DDA识别技术的错误识别率有线性增加的趋势,当数据集规模超过1 000人时错误识别率是数据集规模为50人时2倍。但是KDDA人脸识别技术的错误识别率几乎不变,在数据集规模增大时,错误识别率却不断减小。当人数增加时,反而有下降的趋势。
根据图5以及图6的分析结果可得,训练集的扩大可以利用提高数据集规模的方式来实现,DDA技术的人脸识别错误率有比较明显的增加趋势,然而KDDA技术能够维持不变。可以得出如下结论,当数据集规模扩大时,线性识别技术和非线性识别技术对分析结果的影响各有不同。根据分析结果可知,随着数据集规模达到一定程度时,非线性识别技术相对于线性识别技术具有更好的适应性。笔者认为因为数据集规模的扩大,形成了过密集的类间分布,因此,不利于分类,在这种情况下最好不利用线性识别技术,必须采取非线性识别技术,从而能够获得最佳的分类。
4结论
主要探究了样本集类内变化程度和类总数规模对线性识别技术以及非线性识别技术的影响。
通过在类内利用直接线性识别分析(DDA)和非线性核直接线性识别分析(KDDA)针对不同数量的人脸数据集合进行人脸识别实验所得的仿真图图3和图4的对比分析得到的结论为,类内的图片数量和类的总数是彼此影响的,如果类的总数控制在一定的范围内,提高类内的图片数量能够提高识别的正确率。在人数变化对识别方法对比分析过程中,主要分析了直接线性识别分析与非线性核直接线性识别分析对人脸数据集数量多少的敏感程度,在逐步提高被测人脸数量的时候,通过对利用两种方法得到的人脸识别分析仿真图图5和图6的对比分析结果可知,可以依据类内距以及类间距确定识别技术,当类内距比较小但类间距比较大时应该选用线性技术;当数据集规模变化较大时,应该选用基于核技术的非线性方法,可以获得非常可靠的识别效果。通过以上研究,为人脸识别技术系统的设计提供了有利的理论依据。
参考文献
[1]沈谦,李树涛,伍君.基于主分量分析和支持向量机的人脸检测.计算机与数字工程,2005;33(4):56—58
[2]朱麾,郭立.结合肤色分割的支持向量机人脸检测方法.电路与系统学报,2005;10(1):140—143
[3] Song Limei,Huang Jinghuan.3D visualiz-ation technique of humanorgans.Journal of Computational Information Systems,2008;5(2):481—488
[4] Song Limei,Wang Mingping.A simple but high precision registrationmethod in 3D vision measurement.ISICT 2006:1—6
[5] Juwei Lu,Plataniotis,K.N.Boosting face recognition on a large-scale database.Image Processing 2002 International Conference2002:109—112
数据识别 篇8
基于静力试验的数据, 利用参数识别技术对结构的损伤进行研究。
1 识别参数的选择
基于参数识别的桥梁损伤检测一般采用参数化的有限单元模型代替实际结构, 采用残余力或者残余位移的最小二乘法来估算系统参数的值。在结构损伤的系统参数识别中, 通常用结构参数的减小来反映结构的损伤。
以弹性模量取为恒值, 以杆单元的应变和惯性矩作为结构的待识别参数Q0, 这样就能通过结果Qd和Q0的比较来实现损伤的位置和程度的判别。
2 结构刚度矩阵的参数化
为利用最优化技术从测试数据中识别出待定参数, 就必须计算目标函数的梯度矢量, 这需要将刚度矩阵对参数进行微分, 就涉及到对刚度矩阵的参数化。
本文以三维杆单元建模, 其中每个杆单元的节点具有六个自由度, 单元刚度矩阵Ke (xe) (12×12) 能够分解为刚度参数xe与内核矩阵ge (12×12) 的线性组合Á。于是, 可得刚度矩阵的参数分解形式为:
从结构的损伤识别的角度上讲, 对于每一个单元, 我们只需能够判别出单元是否损伤及损伤的程度如何.因此, 只需一个参数就可以达到上述目的。于是, 我们可以进一步认为, 在单元发生损伤时, 其单元刚度矩阵的元素都按同一参数递减, 即:
式中:Κ0e为单元未发生损伤时的单元刚度矩阵;θe为单元损伤时的刚度折减系数, 即单元的损伤参数 (待识别参数) 。
3 静力位移相对残差矢量及其对参数的灵敏度矩阵
在结构的损伤识别中, 对象与模型间的距离体现为现场实测位移{uam}与由结构模型而得的计算位移{uac}之间的差异, 它是带识别参数{θ}的函数。为进行参数{θ}的识别, 现定义误差列阵{e (θ) }如下:
其灵敏度矩阵:
S (θ) 称为误差列阵e (θ) 对参数列阵{θ}的灵敏度矩阵。为计算式 (5) 中的灵敏度矩阵S (θ) , 所表示的误差矩阵{e (θ) }需对所有的识别参数进行遍历微分运算:
4 综合残差灵敏度矩阵
在静力测试试验中, 一般都进行nloc次独立的荷载试验, 即nloc个荷载工况。于是就得到与nloc次荷载试验相关的nloc次静力测试位移。nloc个荷载工况测试位移误差列阵可表示为:
同时就可以求出第r个荷载工况下的{re (θ) }对待识别参数{θ}的灵敏度矩阵r[S (θ) ]和r[S (θi) ]。同理, 可得[S (θi) ]表示为与式相应的形式:
5 定义问题的准则函数
以使准则函数值为最小, 则将其转化为无约束最优化问题的求解:minf (θ) θ∈En, 其中函数f (θ) 具有一阶连续偏导数。
如果考虑待识别参数的取值范围的限制条件, 可将 (9) 的无约束极值问题转化为有约束的非线性极值问题。本文采用内部惩罚函数法求解有约束最优化问题, 约束最优化问题的标准形式为:
其中, f (x) 是目标优化函数, gk (x) 为约束函数。于是可构筑如下增光目标函数为:
其中r为惩罚因子。
增广目标矩阵F (θ, r) 的梯度矩阵GF (θ) :
于是, 增广目标矩阵F (θ, r) 的梯度矩阵GF (θ) 可表示为:
6 算例
桥梁概况:主桥为35m+50m+35m的三跨钢筋混凝土桁架连拱桥, 中、边跨矢跨比为1/7。该桥简化模型如下图:
试验荷载采用4辆300KN载重汽车和八辆200KN载重汽车作为试验用车。根据桁架的受力特点, 试验均在最不利荷载工况下, 由于对称性, 只记录半跨的。其各截面的内力如下表:
7 结束语
7.1 该方法能够基于静载试验实现结构参数的有效识别, 总体识别效果良好。
7.2 编制的程序成功的在实际的工程中的得以应用, 但编制程序与试验结果的最大识别误差达到14.1%, 在F-F截面。有待进一步的改进, 使其识别误差最小。
7.3 在损伤程度小于5%时, 仍能精确识别。可用于更多的实际工程。
7.4 该方法能够对各杆件的准确识别及定位, 也可为结构进一步状态评估提供最基本的信息。该算法不仅有准确性, 还在运行时有良好的稳定性, 所以在应用上有着广阔的前景。
参考文献
[1]Sanayei M, Salentnik M J.Parameter Estimation of Structure from static strain Measurements I:Formuation[J].Journal of Stuctural Engineer-ing, ASCE, 1996, 122 (5) :555-562.
[2]蒋华.基于静力测试数据的桥梁结构损伤识别与评定理论研究[D].2005:34-56.
[3]崔飞, 袁万城, 史家钧.基于静态应变及位移测量的结构损伤识别法[J].同济大学学报[J], 2000, 28 (1) :5-8.
[4]周廷藩, 杨国贤.杆系结构程序设计[M].人民交通出版社, 1990, 7.
数据识别 篇9
关键词:入侵检测数据挖掘,应用频繁模式挖掘算法
0 引言
通常情况下入侵检测系统(IDS)会在较短时间内产生成千上万条的报警日志信息,其中有超过90%的属于误报或低等级的报警信息,系统安全分析人员不得不花费大量的时间精力从数量众多的IDS报警日志中区分重要的系统入侵警报信息。使用本文提出的基于数据挖掘的系统入侵报警识别技术可以从大量无序的报警信息中筛选出重要的报警信息。
1 数据挖据概念
数据挖掘就是在一些没有规律、异构结构并且熟练庞大的数据中,通过相关的计算机方法及算法,提炼出具有不确定和未知性的信息的一种方法。数据挖掘的数据源应该是大量且真实的,所寻找出的信息应该是对我们有用的、具有价值的。理论上来说,数据量越大、越随机,数据挖掘所得到的结果就越准确、越具有代表性、越有价值,这就对数据挖掘的相关算法与技术的效率提出了很高的要求。数据挖掘是一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。数据挖掘是将一些离散的、底层的、无序的大规模数据利用相关的技术手段提升到有序的、可接受的、有价值的知识,从而为决策提供帮助的一个过程。具体的说,数据挖掘是通过对大规模的海量数据进行分析,从中找出一些数据间的内在规律与联系。具体过程包括了数据准备、信息挖掘和结果表达三个阶段。
在软件工程中数据挖掘的工作一般可以分为3个层面,即交互式可视数据探查、自动模式提取及模型建构,这3个层面相互关联,其中可视数据探查为提取模式及模型的建构提供基础,模型的建构又为数据探查和模式提取提供了指导。软件工程中常用的数据挖掘技术主要是通过分析、聚类、预测及统计分析等技术众多资源中找出潜在的、对人们有用的信息并反馈给软件系统。
2 挖掘频繁模式
从数据库中挖掘频繁项目集目前已有很多的关联规则算法,常见的有频繁模式树生长算法和Apriori挖掘频繁项目集算法等。但是这些挖掘技术都不具备为应用程序的事物处理生成频繁模式的能力。
表1中的报警记录数据集是由入侵检测系统(IDS)产生的,记录数据表中包括:项目集{1、3、4、10、18}和警报信息{告警1、告警2、告警3}。挖掘所有的报警信息,需要生成类似格式为[<项目集>告警列表]的项集从而支持至少50%的频繁项集。
本文提出了应用频繁模式挖掘算法(Tocsin Fp),用于入侵报警的挖掘频繁模式,本算法的主要目标是在IDS系统的log日志中挖据报警信息的频繁模式并将所有的频繁模式关联到告警事物处理模块,然后计算每个事务处理的频繁模式数量,最后按照关系频繁模式的数量将所有的事务处理的数据集进行重新排序。Tocsin Fp算法通过模型<fk1、tocsin1k1、tocsin2k1、…、tocsin Nk1>来描述每个频繁k-pattern,其中fk1代表第一个频繁k-pattern,tocsin Nk1表示第N个警报最频繁的k-pattern。因此通过Tocsin Fp技术对告警信息的数据集进行扫描后得到了候选项集。对每个候选的警报模式执行后计算每个报警的候选模式等于所有支撑模式。应用频繁模式挖掘算法(Tocsin Fp)去分析IDS报警日志会发现许多无用的告警信息,报警日志的重要程度是通过计算每个警报事务的频繁模式异常要素(FPTE)获得。
通过上述公式可得出,当事务处理t包含更多频繁模式,其FPTE的值较大,则表明可能是无关信息。相反,如果某事务的FPTE值较小则可能代表它是个异常或需要引起系统安全人员的高度关注。利用FPTE的计算结果和IDS告警信息重新排序功能,我们将重要的告警信息置于IDS日志文件的顶部,同时将一些无关的告警日志信息放于日志文件的尾部,具体Tocsin Fp算法如下:
3 案例分析
Snort是一个开源的轻量级网络入侵检测系统,被喻为安全从业者的瑞士军刀,Snort具有实时数据流量分析和日志IP网络数据包的能力,能够进行协议分析,对内容进行搜索、匹配,检测各种不同的攻击方式,并对攻击进行实时报警,本文将使用Snort生成的告警日志进行实例分析,Snort告警示例如图1所示。
根据美国国防部高级研究计划署(DARPA)公布的数据显示,网络流量中95%以上的数据都属于正常数据,故将网络流量数据分为正常数据、已知攻击数据和未知攻击数据三类,这三类数据在经过Snort入侵检测系统检测时将分别产生正常警报(不包含任何攻击的警报)、异常警报(包含真正攻击的警报)和未知警报(暂时无法确定是否包含真正攻击的警报),应用频繁模式挖掘算法(Tocsin Fp),建立正常警报行为模式和异常警报行为模式,这样不但可以快速过滤掉Snort产生的正常警报,提取出包含真正攻击的异常警报,而且还可以在一定程度上提高系统检测未知攻击的能力。分析Snort告警日志信息可从中获得频繁警报模式数据,如图2所示。
根据FPTE计算的数据并按照升序的原则将高等级的警报信息写入警报日志中,如图3所示。
4 仿真实验
在本节中,通过基于数据挖掘的系统入侵报警识别技术对警报日志进行分类实验。利用分类器将Snort产生的报警信息进行分类后放入新的独立的日志文件中等待进一步的审查,在待审查的日志中一旦发现频繁模式,将用于进一步的报警分类。通过一定时间的自主学习,警报分类器将适应新的事物报警模式,对每个事务进行异常因素的计算,并根据计算结果对事务进行重新排列。在实验中,通过特定的IP地址模拟5名黑客对系统进行攻击,通过6个小时的实验共得到27510条日志记录信息,其中通过分类器降低误报率的结果如表2所示。
在实验中通过不同的最小支持度,测量了系统的准确性和可靠性(图4),同时基于数据挖掘的系统入侵报警识别技术还会将攻击者信息及所攻击位置输出到日志文件中。
5 结束语
数据识别 篇10
随着中国智能电网的建设,智能变电站技术得到迅速发展[1,2,3,4]。与传统变电站相比,智能变电站中信息交换的主要介质由电缆变为光纤,其中传递的信号也由模拟量变为数字量。电子式互感器和合并单元在智能变电站中得到大量应用,一次电压和电流信号被电子式互感器采集并转换为数字信号,经合并单元汇集、同步后传递给后续的测量和保护装置进行处理[5,6]。在此过程中,由于外界电磁环境的干扰以及电子设备本身的不稳定,传递的电气量信号可能会失真,表现为一个或多个数据点的突变,这些数据点被称为异常数据点。异常数据不是一次电气信号的正确反映,但其数据帧中的品质因数位是正常的,测量和保护装置视其为正常数据进行处理,会给结果造成较大影响,严重时会造成保护的误动。所以,二次设备在对接收到的采样值信号进行处理之前,需要对数据点是否异常进行判断,并在必要时对异常数据进行修复,以保证二次数据的可靠性。
关于变电站中异常数据的识别与恢复方法,国内外从业者已经做过一些研究。文献[7]提出了“采样值的3点连续有效判别法”,分析了电力系统正常运行及故障下电流、电压波形的特点,指出波形除若干间断点外在其他任意点处连续可导且导数同样分段连续,并利用这一特性判断采样值是否异常。文献[8]提出了一种基于幅值比较的采样值检测抗异常数据方法,通过对电流信号单个采样值与计算出的电流幅值的比较来进行判断。文献[9]通过比较目标采样点数据与相邻2采样点数据的绝对值大小来判断其是否异常,并用曲线拟合的方法恢复异常数据。文献[10]提出通过连续3点采样值来计算基波分量电流量的快速幅值,通过不同采样点计算处的快速幅值的互相比较以及此幅值与固定门槛值的比较来判断数据是否异常。以上异常数据识别方法普遍使用采样值的绝对值比较、连续采样点一阶或者二阶差分值的比较来判断数据是否异常,存在着门槛值难以选取、异常数据点数值较小时无法识别、连续多点异常数据识别困难以及影响快速保护动作时间等问题。
本文提出一种智能变电站异常数据识别及恢复方法,对一段时间内实际采样值的拟合信号与理想状态下电力系统电气量信号进行比较,根据其一致程度来判断采样值数据是否异常,并按照理想信号所应遵循的规律对异常数据进行恢复。
1 正常采样值数据的特征
在电力系统稳态过程中,电网内流过稳定的工频电流;在由线路故障等原因引起的暂态过程中,除了工频分量,电网电流中还会含有衰减的直流分量。因此,电网电流的一般表达式可由式(1)表示。
式中:A为工频电流的幅值;φ为其初相角;B为衰减直流分量的初值;τ为其衰减时间常数。
式(1)中共有4个未知量,通过4个采样点的数据就可求解此电流表达式。所以,连续5点的采样值必将满足一约束条件。设连续5点的采样值数据为yk~yk+4,根据式(1)写出其表达式并进行泰勒展开,可得式(2)。
式中:Ts为采样周期。
对式(2)中的5个表达式进行整理,得到连续5点采样值数据应满足的约束条件:
2 基本原理
式(3)描述了变电站二次系统中连续5点电流采样值数据应满足的约束条件。本文算法的思路就是判断当前采样点数据是否满足此约束条件,将不满足的采样点列为异常数据,并根据其周围的正常采样点对其进行恢复。本节依次介绍算法中的启动元件、判定算法和恢复算法。
2.1 启动元件
设当前时刻的电流采样值数据为yk,同时,可利用之前连续4点的采样值数据按照式(3)对yk进行预测,记预测值为,可得:
通过对yk和进行比较,即可得到启动元件的动作条件:
式中:Im为系统额定电流幅值;ε1为启动元件门槛值。
ε1可根据不同系统能容忍的异常数据值偏移程度自适应地更改。若二次系统所处电磁环境较为恶劣,出现的异常数据种类繁多,ε1可设为1个较小值,例如0.5,即预测值与实际值的偏差大于额定电流幅值的0.5倍时启动元件就将动作,启动后续处理流程。当环境较为理想时,偶尔出现异常数据不会给保护系统的判断造成太大影响,此时ε1可设为1个较大值,当采样值偏移程度较小时启动元件不动作。
使启动元件动作的采样值数据对应2种情况:1)采样值本身为本文算法所关注的异常数据,需要被识别并恢复;2)此采样点对应了1次系统由稳态过程进入暂态过程(例如线路发生故障)的临界点,此时刻的电流采样值与在它之前的采样值并不满足式(3)所示条件。所以,启动元件动作时的采样值数据并不一定是异常数据,需要由后续判定算法做进一步的判断。
2.2 判定算法
文献[11,12,13]讨论了波形系数的概念和应用,用以衡量电流或者电压波形偏离正弦波形的程度。本文在此基础上对其概念进行扩展,重新定义波形系数,用以衡量电流波形偏离正弦量与衰减直流分量相叠加的复合波形的程度。设每个数据窗内采样点的个数为N,其波形系数R的定义如下:
将式(3)等号2边的内容挪到等号同一边即得到波形系数R分子部分的内容,其分母则为数据窗内采样值绝对值的累加。理想状态下,电流采样值满足表达式(3),故波形系数R的分子为零,其值也为零;若采样值中存在异常数据,R的值将不为零。据此,可对数据窗中的异常数据进行判定,判定条件为:
式中:ε2为判定条件的门槛值。
若R大于此门槛值,则说明数据窗内有异常数据,需考虑闭锁保护或者对异常数据进行恢复。
一次系统由稳态进入暂态的临界点对应的电流采样值可能引起启动元件的动作,而根据波形系数进行的判定算法则能够将它与异常数据进行区分。原因是临界点与其后采样点构成的数据窗内的采样值依然满足式(3)约束条件,将此点作为计算波形系数的数据窗中的第一个点时,计算得到的波形系数R仍然为零,不满足判定条件。而含有异常数据的数据窗的波形系数R必然大于零。
式(6)中N和式(7)中ε2的取值遵循以下规则:波形系数R的计算至少需要5个采样点,即N最小值取5。为满足保护的速动性要求,算法所需数据的时间窗不应大于10 ms。所以,当采样率为4 kHz时,N可取5到41之间的整数。ε2的取值由N和ε1共同决定:选取一段标准工频信号中连续的N个采样点,将其中第一个采样值替换为异常数据,异常数据的偏移程度由ε1决定,由式(6)计算此段采样值数据的波形系数R。在同一段标准工频信号中改变选取的N个采样点的位置重复计算,使第一个采样点的位置遍历整个信号周期,计算出不同的R值,取其中最小的R赋值给ε2。
2.3 恢复算法
在系统发生故障的情况下,对异常数据进行恢复而非简单剔除,可有效缩短保护的动作时间。
通过启动元件与判定算法的配合可判断出异常数据点的位置,对于连续出现的异常数据,则可判断出异常数据区间的位置。根据异常数据区间之后的正常采样值数据可对这些异常数据进行恢复,记恢复后采样值为,由式(3)可得:
定义式(8)为逆向恢复公式,即从时间顺序上看,先恢复最后一个出现的异常数据点,再依次恢复之前出现的异常数据点。
启动元件、判定算法和恢复算法中的各项公式均是根据式(1)所表示的理想电流表达式推导得到的,灵敏度较高,一旦电流中含有谐波分量,将对各公式的准确性造成影响。启动元件和判定算法可通过设定的门槛值ε1和ε2避谐波的影响。对于恢复算法,谐波的存在会使得逆向恢复式(8)在计算过程中产生偏差,若异常数据区间内连续出现的异常采样点较少(不多于3个),则偏差较小,恢复出来的波形较为理想;若异常数据区间内连续出现的异常采样点较多(多于3个),计算偏差会累计,使得最后几个被恢复出来的点(异常数据区间中排在前面的点)偏差较大,造成波形的畸变。为此,当异常数据区间内连续出现的异常采样点多于3个时,在逆向恢复数据的同时,根据异常数据区间之前的正常采样值数据进行正向恢复,得到正向恢复后采样值,其计算公式与式(4)计算预测值的公式相同。记最终的恢复后采样值为,它由正向恢复后采样值和逆向恢复后采样值按照采样点所处位置与异常数据区间起始点和结束点位置的距离加权平均而来,计算公式如下:
式中:Pstart为异常数据区间起始点位置序号;Pend为异常数据区间结束点位置序号;m为要恢复的采样点位置序号,各位置序号与相应采样点出现的时刻一一对应。
大多数情况下,二次系统采样值中连续出现的异常采样数据个数较少,使用逆向恢复式(8)进行恢复即可;对于偶然出现的大量连续异常数据,需同时进行正向和逆向恢复,然后按照式(9)计算得到最终结果。
3 算法实现
本文所介绍算法的流程图如图1所示。首先,根据式(4)对采样值进行预测,根据式(5)决定启动元件是否动作。启动元件动作后,将当前时刻采样点序号k赋值给异常数据起始点位置序号Pstart,延时N-1个采样点的时长并根据式(6)计算此前N个采样值数据的波形系数,由此判断这N个采样值中的第一个数据是否异常。更新采样值数据并重复计算波形系数,直到式(7)判定条件不满足,说明此时N个采样值中的第一个数据是正常数据,k-N也就是异常数据区间的最后一个采样点的序号,将其赋值给异常数据结束点位置序号pend。比较Pend和Pstart,若前者小于后者,则说明引起启动元件动作的是一次系统由稳态进入暂态的临界点,无需特别处理;若前者不小于后者,则2个位置序号标定出了一段异常数据,需要根据其数据长度按照式(8)或者式(9)对其进行恢复。
4 仿真验证
在Power Systems Computer Aided Design(PSCAD)平台下建立仿真模型,模拟输电线路单相接地故障时的暂态过程,并得到故障相电流波形。用4 kHz的采样频率对故障前后共0.1 s的电流进行采样,得到401个采样值数据。改变某些采样值数据使其成为异常数据,共有7处,每处异常数据的位置序号与异常类型如表1所示。
包含异常采样值数据的电流波形如图2(a)所示。使用本文算法对其中的异常数据进行识别和恢复,各参数取值如下:Im=1 kA,ε1=0.5,N=21,按照2.2节的规则计算得到ε2=0.026。图2(b)表示本方法对(a)中异常数据的识别情况,“1”代表对应位置的采样点为异常数据,“0”代表无异常。图2(c)为本方法对异常数据点的恢复情况。
第100号采样点为异常数据点,但由图2(b)可知,此点并没有被正确识别,原因是此点采样值偏移程度小于ε1。从对异常数据点的识别和恢复效果来看,本文方法可对异常数据进行有效识别,同时,故障时刻的采样值并未被识别为异常数据;除了单点异常数据,对连续3点和连续10点的异常数据也能有效识别和恢复;可有效识别偏移程度大于门槛值的异常数据,同时规避掉偏移程度小于门槛值的异常数据。除此之外,本文方法所需要的数据窗长度可调,例如仿真实验中选择的N=21,对应时长为5 ms,即异常数据结束5 ms后可对异常数据进行恢复并开放保护,此数据窗与保护算法用到的数据窗重叠,不会额外增加保护动作时间。极端情况下可取N=5,对应时长为1 ms,以满足快速保护的动作时间要求。
5 结论
数据识别 篇11
随着科学技术的发展进步, 智能手机也进入了高度集成和快速研发。时下, 在某种意义上来讲, 智能手机就是一台便于携带使用的电脑, 其在人们日常生活中的重要性正与日俱增[1,2,3]。虽然说智能手机相当于便携式电脑, 但是却有着个人电脑所不具备的优点, 不仅表现在智能手机的便于携带使用, 更突显于其比个人电脑更多地集成了数类新式传感器模块, 这都是个人电脑所没有的。
而相较于其他的可穿戴设备来讲, 智能手机又是使用方便, 对用户友好的普适设备, 毕竟可穿戴设备普遍要求用户学习掌握特定的操作, 而智能手机则不需要用户花费额外的金钱、时间和精力来操控其使用, 只需要安装本研究编写的采集数据的应用, 在用户运动的同时, 借助该应用来采集用户的运动数据。
本文正是基于智能手机相比个人电脑和可穿戴设备的优点, 研究采用智能手机来作为数据采集设备, 并通过智能手机中的传感器模块来记录用户的运动数据, 进而分析用户的运动数据, 以最终识别用户的运动状态。
1 数据的采集与存储
本文所采集的数据是智能手机的传感器数据, 而智能手机是伴身跟随用户的, 所以收集到的手机的运动数据也就相当于用户的运动数据[4]。
Android手机上传感器采集运动数据的程序流程图如图1所示。图1中新建的线程为采集程序的子线程, 可用其将传感器数据写入到文本文件中, 存储在手机的本地。
2 运动状态识别
这个部分需要将上一部分采集到的数据进行分类, 识别用户的运动状态, 研究中使用了SVM多分类方法来进行分类识别[5]。
2.1 数据格式
本文所采集的数据按照“时间戳, x轴加速度, y轴加速度, z轴加速度”格式写入到文本文件中。数据格式如图2所示。
图2中为某一段采集到的数据, 每一个数据点为一行。
2.2 特征提取
本研究提出的特征有:平均值、方差、最大值、最小值、振幅 (极大值和极小值的平均值, 极大值和极小值的方差) 、频率 (极大值和极小值的平均距离) 总共10个特征, 下面将针对各个特征展开具体分析。
平均值:取样本的各轴加速度数据, 分别求平均值作为特征, 描述样本数据的总体趋势。
方差:对样本的各轴数据分别求取方差, 方差能够体现样本的变化波动。
最大最小值:对样本的各轴数据分别求其最大最小值, 能够描述数据的变化范围。
振幅:包含4个特征值—极大值极小值的平均值, 极大值和极小值的方差, 描述了样本的波动的变化范围。
频率:包含2个特征值—极大值和极小值的平均距离, 实际上是用波长来刻画频率, 描述了样本的波动的快慢。
其中, 振幅和频率都用到了极大值和极小值。下面给出本文中求得极大极小值的算法, 算法流程如下:
算法———对给定的数值数组求极大极小值
输入:数值型数组z, 长度为m;
输出:极大值数组, 极小值数组和极大值极小值在原数组中的时间戳。
(1) 首先判断的数组z的第一个值z[1]和第二个值z[2], 如果z[1]≤z[2], 则令flag=0, 表示首先查找极大值, z[1]>z[2], 则令flag=1, 表示首先查找极小值;
(2) for i从1到m遍历数组z;
(3) 如果flag=0, 则转 (4) , flag=1, 则转 (5) ;
(4) 比较z[i]和z[i+1], 如果z[i]≤z[i+1], 则继续比较直到z[i]>z[i+1], 记录z[i]为极大值, 存入极大值数组, 并且记下z[i]的时间戳, 转 (5) ;
(5) 比较z[i]和z[i+1], 如果z[i]≥z[i+1], 则继续比较直到z[i]<z[i+1], 记录z[i]为极小值, 存入极小值数组, 并且记下z[i]的时间戳, 转 (4) ;
(6) 遍历整个数组z, 输出极大值数组, 极小值数组和相应的时间戳。
本算法的优点在于只需要遍历一次就可以找到所有的极大值和极小值, 时间复杂度为O (n) 。
分别求极大值和极小值的平均值, 方差作为振幅。其中, 平均值描述了极大值和极小值的平均水平, 方差体现了极大极小值的波动性。
分别求极大值和极小值的时间戳差值的平均值, 体现了相邻的极值间的时间长度, 也就是波长, 用波长来刻画频率。
而在描述振幅和频率的常规方法中, 可以用离散傅里叶变换来得到采样点中占若干个最大的采样点对应的点, 但是该方法并不适合本研究, 因为采集到的样本数据长度的不一致, 即使得离散傅里叶变换的点也各不相同, 进而导致无法统一刻画离散傅里叶变换得到的结果, 为此研究使用本文已提出的求极值算法、得到极值, 再使用极值来刻画振幅和频率。
3 实验结果与结论分析
本文使用Google Nexus S手机来采集实验数据, 每隔0.05秒采集一次三轴的加速度传感器数据, 并写入到文本文件中, 存储在手机本地。
数据集由4位志愿者通过携带的Android手机进行采集, 共采集样本600个, 其中包含了静止、行走、奔跑、跳跃、上楼梯、下楼梯共6个运动状态。每个运动状态100个样本, 每个样本文件长度在15秒~50秒之间不等。
实验采用交叉验证, 把样本分成5等分, 使用其中的4份作为训练集, 第5份作为测试集, 再使用不同的4份做训练集, 第5份做测试集, 共循环5次, 使每份样本都能够独立作为测试集使用, 而后综合5次的对应结果, 从而得到整个样本的实验结果, 5次实验结果如图3所示。
由图3可以看出5次交叉实验结果的正确率分别为80%, 100%, 93.333 3%, 92.5%, 95.833 3%, 取其平均值可得92.333 3%, 故该样本的识别准确率为92.333 3%。
4 结束语
本文使用SVM多分类方法对智能手机传感器采集的运动状态数据进行运动状态的分类。用到的采集分类的特征值有平均值、方差、最大最小值、振幅 (极大极小值的平均值和方差) 、频率 (极大极小值之间的平均距离) 共10个。其中方差、振幅、频率均能有效地区分各个类别, 而最大最小值则由于数据采集上的误差和干扰而对分类结果的影响较小。另据分析可知, 平均值因为加速和减速的抵销, 在样本量较多时将会趋于0, 从而对分类结果的影响较小。
本文后续的研究方向是使用已经得到的运动状态识别模型, 结合MYO手环的手部识别来识别更多的运动行为, 从而实现对用户行为习惯的高效且良好的监督。
参考文献
[1]ROY N, WANG H, Roy C R.I am a smartphone and i can tell my user's walking direction[C]//Proceedings of the 12thAnnual International Conference on Mobile Systems, Applications, and Services, [S.l.]:ACM, 2014:329-342.
[2]LINK J A B, SMITH P, VIOL N, et al.Footpath:Accurate mapbased indoor navigation using smartphones[C]//Indoor Positioning and Indoor Navigation (IPIN) , 2011 International Conference on, [S.l.]:IEEE, 2011:1-8.
[3]SUSI M, RENAUDIN V, LACHAPELLE G.Motion mode recognition and step detection algorithms for mobile phone users[J].Sensors, 2013, 13 (2) :1539-1562.
[4]MEDNIS A, STRAZDINS G, ZVIEDIRIS R, et al.Real time pothole detection using android smartphones with accelerometers[C]//Distributed Computing in Sensor Systems and Workshops (DCOSS) , 2011 International Conference on, [S.l.]:IEEE, 2011:1-6.