识别数据流论文

2024-07-14

识别数据流论文（共11篇）

识别数据流论文篇1

0.引言

如图1所示的网络拓扑中，如果网络通讯设备能够识别数据流所属的应用程序和应用分类，那么就能达到如下目的：第一，根据网络应用分类，合理进行网络带宽分配，如保证重要应用的带宽、限制其它应用带宽。第二，阻断特定的网络应用数据流，如企业为了保证员工的工作效率，禁止员工使用QQ、MSN等即时通讯软件。因此，本文阐述一种网络应用数据流识别和分类系统的设计方法。

1. 名词解释

网络应用信息：即PC上运行的网络应用程序信息，每条记录包括网络应用软件执行文件名、网络应用软件产品名、版本号、执行文件校验和、应用分类等信息。执行文件名是网络应用软件的执行文件名称，如微软MSN的执行文件名为msmsgs.exe；软件产品名是网络应用软件名称，如微软MSN的软件产品名为messenger；版本号，为执行文件版本号；这三个信息都可以通过查看Windows的文件属性获得。执行文件校验和是为了精确区分两个执行文件名相同的文件而引入的，可以为CRC32校验和或其他任何适当的校验和，比如HMAC-MD5校验和、HMAC-SHA校验和，如MSN 4.7.0.3001版本执行文件msmsgs.exe的CRC32校验和为EA23069B (16进制）。应用分类根据网络通讯设备需要实现的应用控制功能来确定分类规则，比如分为WEB浏览、即时通讯、P2P、股票、IP电话、邮件等。在本技术方案中，PC通过查询本地的网络应用信息库获得网络应用所属的应用分类。

网络连接信息：PC上的网络应用程序发起的网络连接信息，包括网络连接五元组（即源IP、源端口、目的IP、目的端口、协议号）、网络应用信息、报文通过时间戳等信息。其中，报文通过时间戳记录的是该网络连接最近有报文收发的时间点，用于网络应用数据流识别和分类器进行拦截报文处理时判断是否须重发网络连接信息通告；所有的网络连接信息以五元组作为关键字进行索引。在本技术方案中，PC向网络通讯设备发送网络连接信息，网络通讯设备进行保存，以在进行应用数据流识别和分类时可供查询。

2. 技术方案

本方案的基本技术原理是：在PC端建立网络应用信息库，在网络应用程序建立、断开网络连接及收发报文时，利用Windows操作系统扩展组件LSP SPI DLL进行拦截和分析，查询网络应用信息库，进而获得完整的网络连接信息，并发送给网络通讯设备。网络通讯设备实时获得并记录来自PC的网络连接信息后，就能对后续的网络通讯报文进行应用识别和分类。

PC端网络应用信息库和获得网络连接信息的工作须开发PC客户端软件完成。PC客户端软件以DLL的形式实现，该DLL为Windows操作系统扩展组件LSP SPI DLL。根据Windows的Socket体系，只要应用程序需要通过winsock来访问网络，LSP SPI DLL就会被加载到该应用程序进程的地址空间中，该应用程序对winsock的调用比如WSPSend、WSPRecv时就会执行到LSP SPI DLL的代码，因此，我们可以在自行设计的LSP SPI DLL代码中实施对报文的拦截和分析。具体处理过程如下：在网络应用程序发送报文时拦截该报文，从报文中提取网络连接五元组，判断网络连接信息库中是否已经存在相应记录，若已存在，则不采取动作，若不存在，则进行应用识别和分类操作，即分析报文发送者是哪个网络应用进程及其对应的执行文件名、软件产品名、执行文件校验和，并据此查询网络应用信息库中的记录，获取所需的应用分类，然后，再将获取的各种信息组成网络连接信息，记录到网络连接信息库中，并发给网络通讯设备。

网络通讯设备将来自PC的网络连接信息组成网络连接信息库。对于收发的网络应用数据量流，均可以五元组为关键字查询网络连接信息库，获得其网络应用具体信息及其分类。

为便于集中管理，在网络通讯设备上保存应用信息库文件的最新版本，各内网PC在客户端启动时从网络通讯设备自动下载，解析为网络应用信息库。网络应用信息库文件由网络产品开发商随产品发布并定期更新，同时，允许用户在标准网络应用信息库文件基础上修订和添加以适应各种用户自身的特殊要求。网络应用信息收集方案如下：

方案一：在PC端人工进行网络应用信息收集后，在网络通讯设备的管理平台逐条添加。此方法不适合批量信息的收集，一般用于少量的用户自定义网络应用信息的收集。

方案二：网络产品开发商选择典型用户部署网络通讯设备、安装PC客户端。PC客户端软件检测到新应用信息后，发给网络通讯设备进行临时记录；网络产品开发商在网络通讯设备管理平台进行信息确认，而后通过管理平台提供的自动添加功能添加到网络应用信息库文件。网络产品开发商根据产品的目标市场，进行一定数量典型网络应用信息的收集后，形成标准网络应用信息库文件随网络通讯设备发布。此方法也可以提供给网络通讯设备用户，方便其进行新应用信息的添加。

此外，为防止大量网络连接信息导致内存空间不足，必须对过期的连接信息进行老化处理。老化机制是：当一个网络连接在规定的连续老化超时时间内没有任何报文通过时，则将连接信息记录删除。该机制要求PC客户端和网络通讯设备收发报文时必须刷新网络连接信息记录中的报文通过时间戳。

3. 有益效果

本设计采用网络应用信息库静态定义了应用数据流的发起者（网络应用）及其应用分类，因此大大提高应用数据流识别的准确率，理论上可达到100%。这可以改进基于（下转第157页）应用数据流识别的网络通讯设备的应用控制功能的实现效果。

本设计采用的应用识别方法，不需要对网络应用数据流的内容进行特征分析，因此简单方便，可以降低产品的开发和维护工作量。

根据本设计开发的产品，由于采用的应用识别和分类方法简单，可以由具备基本技术水平的一般产品用户进行新应用的扩展识别。这就使产品的用户能够根据自身需要进行产品的自我定制和扩展，更好地满足用户的特定需求，促进产品的推广和应用。

本设计中，网络通讯设备不需要进行复杂的应用数据流三层头、四层头或者应用载荷数据的特征匹配，只要根据报文五元组进行网络连接信息库的查询，因此，性能消耗比较小，可以降低成本，促进产品的推广和应用。

摘要：阐述一种通过PC客户端和网络通讯设备联动实现网络应用数据流识别和分类的方法, 满足基于网络应用类型进行网络出口线路带宽分配、网络应用阻断等应用需求。

关键词：应用识别,应用分类,联动,网络通讯设备

参考文献

[1]暴励.P2P技术的应用与研究[J].电脑开发与应用, 2009年2期

[2]董振江.P2P发展现状与运营方案[J].中兴通讯技术, 2008年2期

[3]周豐谷.P2P flow identidication[D].台湾科技大学, 2006

[4]黄淑华.计算机网络技术教程.北京:机械工业出版社, 2004

[5]甘利杰, 丁明勇, 杨永斌.基于WinSock SPI技术的包过滤研究[J].计算机科学, 2007年8期

[6]陈永辉, 向科峰, 吕琳.基于WinSock2 SPI的网络封包截获[J].兵工自动化, 2006年3期

识别数据流论文篇2

针对算子识别反问题,分析了解的不适定性与模型误差、数据误差的关系,建立了基于模型优化和数据优化的联合反演技术,提出了适合同时处理数字式数据与非数字式数据的量化单调消噪方法.建立了数值反演可靠性概念,包括正演算子可靠性、正演计算可靠性、测量设计可靠性、反演算法可靠性、反演计算可靠性、测量数据可靠性,并建立了相应的可靠性定量评估方法.通过一个岩土工程的算子识别反问题的`工程应用与数值试验说明:其一,这一联合反演技术实质是一门系统性的优化技术,能够显著提高数值反演的可靠性和准确度;其二,应用可靠性定量评估方法,能够客观地、定量地获得反问题解估计的质量评定.

作者：吴立军刘迎曦韩国城作者单位：吴立军,刘迎曦(大连理工大学工业装备结构分析国家重点实验室,辽宁大连,116024)

韩国城(大连理工大学土木工程系,辽宁大连,116024)

刊名：岩土工程学报 ISTIC EI PKU英文刊名：CHINESE JOURNAL OF GEOTECHNICAL ENGINEERING 年，卷(期)： 24(6) 分类号：O302 O241.1 TU196 TU452 关键词：算子识别反问题不适定性可靠性模型优化数据优化

识别数据流论文篇3

【关键词】棒材区限超声识别；数据融合技术；分析研究

数据融合是按照一定的规则，利用多传感技术，把得到的信息进行综合和判断的技术。因为在这个过程中融合的信息量较大，所以得出的数据结果也会比较的准确。大型的棒材由于其截面的尺寸太大，导致锻造的难度及程序都非常复杂，极易在生产的过程中发生各种的缺陷问题，因此我们必须要对其加强检查，以便有效的提高棒材的质量。

一、数据融合技术的概念及特点

数据融合技术就是指按照一定的规则要求，利用多水浸超声探头的技术方式，从而把得到的信息进行综合和判断，以得出具体、可靠的分析数据，进而进一步进行缺陷识别。根据水浸超声探头结构形式的不同，数据融合技术具体可以分为串行融合、并行融合和混合融合三种方式。其特点主要表现为以下几个方面：

1、自动化水平高。数据融合技术可以实现棒材缺陷超声检测全过程自动化的數据处理程序，能够有效的以计算机技术取代人工作，降低了对人的工作强度，实现整个变电运行检测工作的高效自动化。

2、检测水平高效率。数据融合技术运作的一个重要的特征就是应用机器生产降低人的工作强度，实现自动化的操作流程，极大的减少人的工作步骤，同时全过程的机器操作也可以极大的减少之间的反应时间，提高整体的工作效率，实现检测过程的高效化运行。

3、检测结果可靠性高。由于棒材的截面的尺寸太大，锻造的难度和工序都比较的复杂，因此极易的产生各种的缺陷问题，通过数据融合技术的超声识别方式就可以有效的降低工作的误差，减少一些人为失误的发生，提高检测结果的可靠性。

二、数据融合技术在棒材缺陷超声识别分析中的应用思路

到目前为止，数据融合技术还没有形成一套完整的通用理论，对待具体问题我们要进行具体的分析，其研究的方式主要有基于D-S的证据理论和Bayes的决策方法的数据融合技术，及与模糊逻辑结合在一起的数据融合技术。一般来说，现在材缺陷超声识别分析中的数据融合技术的超声识别分析思路是采用效率比较高的并行多水浸超声探头的数据融合技术，就是指要首先利用我们所熟悉的先验知识，在根据后验概率的数据融合方法的基础上，使用3组水浸超声探头，通过建立大型的棒材锻件水浸超声自动扫查系统，在决策级上来开始进行数据融合分析，从而实现对棒材缺陷的准确高度识别。在数据融合分析的过程中我们使用的是局部决策和基于后验概率的数据融合方式，其主要是根据局部的或者是分水浸超声探头的信息做出局部判断，在棒材缺陷局部决策分析方式中采用的是人工神经网络理论中的感知器的算法。

三、数据融合技术在棒材缺陷超声识别中的具体应用

棒材缺陷超声识别方式是目前棒材行业的主要检测方式，为了能够提高检测的效率及有效性，我们又在这个检测之中融入了数据融合技术，以提高棒材检测的准确度。下面我们主要介绍一下关于行多水浸超声探头的数据融合技术在棒材缺陷检测中的具体应用：

棒材的加工工艺复杂多变，其缺陷也会存在着不同的分布和取向，有的一些缺陷是靠近棒材的近表层面的，而有的却存在棒材的横断截面取向上。根据缺陷分布的不同及对缺陷敏感度的不同，我们现在会采用三组形式、姿态各异的水浸超声探头，具体分布如下图1：

在这三个水浸超声探头中，T1是轴线对角式的水浸超声探头，T2是骑跨式的水浸超声探头、T3是直发式的水浸超声探头。其中上图中的左侧的图中未画出的水浸超声探头T2、T3是在其投影位置的双点画虚线的位置上，而右侧未画出的T1水浸超声探头也是在其投影位置的双点画虚线的位置上。

我们利用这种并行的多水浸超声探头方式对常见的棒材缺陷（主要包括夹渣、裂纹及气泡等缺陷）进行检测，以便能够有效的分析出5种棒材的缺陷，其具体的操作方式是根据5种缺陷类型的划分，按照其不同的时域和频域特征在水浸扫描系统中进行探测识别，水浸超声探头组是T1、T2、T3，不同的缺陷类型分为F1（夹渣）、F2（气泡）、F3（裂纹）、F4（其他缺陷）、F5（正常）。然后我们就开始对三组水浸超声探头各自进行相关信息的处理、提取和识别，根据线性分布的前提条件，我们对三个水浸超声探头在不同时段不同区域获得的超声信息分别进行不同的函数计算，同时由于训练样本存在自身不完备性的问题，我们又引入了水浸超声探头对棒材不同缺陷敏感程度的系数表，然后根据训练样本及检测样本的数据进行后验概率计算分析，从而得出正确的监测数据。在此的基础上各自进行局部的决策，根据局部决策的结果我们再在数据融合中心中进行数据判定，并得出最终的判定结果，从而得到最终的棒材缺陷识别结果。

我们的试验结果是，根据水浸超声探头的敏感系数表1数据，经过数据融合分析得出5组缺陷棒材的敏感系数分别是如图2所示：

表1：给定训练样本和验证样本情况下的敏感度系数表

由图2我们就可以明显的看出，融合后的敏感度系数是融合前的敏感度系数的最高值，就可以有效的提高缺陷的类型识别的准确性和可靠性，同时使用基于后验概率的数据融合计算方式可以有效的减小整体的误判概率，我们在试验的过程中可以加强多水浸超声探头信息融合技术的超声缺陷识别方式的应用。

结语：

大型的棒材由于其截面的尺寸太大，导致锻造的难度及程序都非常复杂，极易在生产的过程中发生各种的缺陷问题，因此我们必须要对其加强检查，以便有效的提高棒材的质量。数据融合技术是现代棒材缺陷识别的重要技术手段，基于数据融合的棒材缺陷类型超声识别方式可以有效的提高棒材缺陷类型的判断与识别。在今后的实践过程中我们一定要加强棒材缺陷超声识别应用中的数据融合技术的使用，以便能够更加准确的判断棒材缺陷类型。

参考文献：

[1]刘继忠，周晓军，蒋志峰.数据融合技术在棒材缺陷超声识别中的应用[J].农业机械学报，2006，01：160-162.

[2]胡文刚.基于多值域特征及数据融合的焊缝缺陷超声检测与识别[D].哈尔滨工业大学，2012.

识别数据流论文篇4

桥梁结构健康监测系统通过多传感器网络采集桥梁重要部位数据,对桥梁健康进行智能评估[1]。多传感器网络采集的流式数据连续到达、频繁随时间变化、数据量并不确定[2],根据数据的变化来判断桥梁运营情况,是桥梁健康监测中的一项重要研究内容。当桥梁结构出现损伤或产生其他干扰时,如传感器损坏、监测系统不完善或测试环境发生变化等,便会引起数据流分布不平稳,数据的走向和分布随时间不断变化,产生概念漂移现象[3]。因此,在复杂多变的环境中提高异常数据流的识别精度,正确判断桥梁健康状况,尽可能避免漏检和误检成为桥梁监测中研究的关键问题。

针对数据流异常检测问题,国内外学者做了大量的研究。Muthllkrishnan等人把离群点定义为异常,解决了基于时间序列的特殊数据流模型的异常检测问题[4];Park等人建立了用户活动的数据流,对用户正常行为模式建模,采用基于数据流的聚类方法对用户异常行为实现异常检测[5];文献[6]中利用K-means算法对大量原始数据进行聚类分析,对处理后得到的簇再用ID3决策树进行训练以消除因阈值带来的问题,最后综合两种算法的权值实现分类,提高了预测的准确度。这些方法都能有效地处理海量数据,不需要使用训练数据线下训练,空间复杂度较低。针对传感器网络中的数据,许多学者也提出了相应的算法。Song等人为了把属性集对聚类算法的影响降至最低,利用Apriori算法先计算属性的频繁项集,然后作为K-means聚类算法的属性集合进行聚类,取得了较好的效果[7];李娜等基于信息熵理论提出了一种基于层次聚类的无监督异常检测算法[8]。肖政宏等人利用K邻近算法对传感器网络节点进行分簇,簇内节点的异常检测采用贝叶斯分类算法,簇头节点的异常检测则采用平均概率方法,该方案有较高的检测率及较低的误检率[9];文献[10]中研究了时间检测的覆盖空洞问题,设计了精确可认证的分布式覆盖方案保证事件检测的准确性。

以上聚类算法部分基于单传感器,部分不需要离线训练模型阶段。由于正常数据和异常数据特征差异较大,很容易就能将所有未知异常划为一个簇,忽略了数据中的概念漂移。多传感器网络中,异常数据的评价不能以单个传感器瞬时异常为标准进行处理,需要综合评价;数据流分布随时间不断变化,要求算法能对数据进行增量式聚类及自适应识别。针对这些问题,本文在现有工作基础上,提出一种把主成分分析与微簇思想相结合的数据流异常检测框架:利用主成分分析法提取桥梁主要特征,对高维空间的属性进行降维;对数据流用密度算法聚类时,引入微簇模型,把数据流转化为微簇,提高处理效率,自适应分类。真实数据集上的实验表明,该算法对传感器数据流有较好的支持,能有效应对概念漂移,提高异常检测的准确率。

1 桥梁监测数据流分析

多传感器网络采集的数据不再像以前是静态的、有限的、平稳的、低速的数据,而是无限产生的、类分布随时间变化的、高速的、动态的、海量的数据[11],这种像水流一样按顺序产生的数据,就叫数据流。在桥梁健康监测数据流中,数据会随着季节更替、桥梁行车环境、监测系统自身因素(如传感器温漂)而发生改变,异常数据会因异常种类不同,如传感器损坏、船撞等,包含的类标签并不一样,从而产生概念漂移。

概念漂移就是数据流的走向和分布随时间不断变化,数据隐含内容改变而导致目标概念的改变[12],形式主要包括渐进式漂移和突变式漂移。如网络入侵检测中,会因入侵行为发生改变,而产生突变式的概念漂移;顾客的购物偏好会随着季节的变化,产生渐进式的概念漂移。桥梁健康监测中的多传感器网络数据流,既存在渐进式概念漂移,也存在突变式概念漂移[13]。

假设有数据流模型S={s1,s2,…,sn,…},其中每段都由若干个连续的数据点组成。再设数据段Sm={sm,…,sp-t}是分布平稳的,类标签是m,表示概念M;数据段Sn={sp+t,…,sn}分布亦平稳,类标签为n,表示概念N。

如图1所示,数据流S隐含的概念从M变化到N,在时间2 t内进行,说明发生了概念漂移。当时间t取值较小时,可认为发生了突变式概念漂移,发生了很快的数据分布变化;反之,t较大时,概念漂移的发生是缓慢的,概念为N的数据组慢慢“渗透”到概念为M的数据组中,直至分布平稳[14]。

图1 概念漂移示意图

实际应用中,引起概念漂移的因素是多种多样的。人们并不关心到底发生了哪种漂移、概念漂移对数据流造成的影像有多大,而更加注重于漂移何时发生,如何对当前学习模型进行修正,使更新后的数据模型能够适应新的数据分布。

2 基于微簇的数据流异常检测

对于刚采集来的桥梁监测数据,采集初始时刻不同、不同属性传感器采集频率不一样,包含噪声多,需要对数据进行缺失值填补、时间同步等预处理操作;根据胡顺仁等人在分析桥梁监测系统中各传感器之间关联度提出的观点,不同传感器采集的数据间存在千丝万缕的联系[15],反映信息时有一定重叠,需要把桥梁主要属性提取出来以简化和精炼数据;对提取出来的桥梁主要特征数据用基于微簇的聚类算法对数据进行进一步分析,来判断桥梁健康状况,如图2所示。

图2 桥梁监测数据流异常识别流程

2.1 桥梁数据特征提取

主成分分析PCA是一种有效的特征提取方法,其基本思想是把原来多个变量通过线性变换得到一组正交基,从而产生新的综合变量,这些新变量的正交性为零[16]。该方法对相关性大的数据进行过滤,在保证原有数据信息丢失最少的情况下选择有代表性的指标,尽量消除属性间的相互影响,对多维空间变量进行降唯处理,达到压缩和简化数据的目的。

已知有p维随机变量X={x1,x2,…,xp},它们的线性组合构成新的综合变量。设F1表示原变量的第一个线性组合所形成的主成分指标,即:

每一个主成分所提取的信息量可以用方差来表示,为了让每一个综合变量尽可能多地包含原有变量的信息,主成分的方差应该越大越好,即Var(F1)达到最大。通常第一主成分F1是所有主成分中包含信息量最大的,若第一主成分不足以表达原来p个变量的信息,再考虑选取第二、第三主成分,并且F1与F2之间要保持互相独立,即两者的协方差:

以此类推,可以构造出F1,F2,…,Fm为原变量指标的第一、第二、…、第m个主成分。如式(3)所示:

对于每个系数a,均应满足规范化条件:

需要计算原变量xi与xj的相关系数矩阵:

其中,rij(i,j=1,2,…,p)为原变量xi与xj相关系数且rij=rji,计算公式为:

计算相关矩阵R的特征值与特征向量。相关矩阵的特征方程为:|R-λ·I|=0,求出特征值并按大小顺序排列λ1≥λ2≥…≥λp≥0。再由多项式求出对应于特征值的特征向量ei,且‖ei‖=1。

接下来计算主成分的方差贡献率和累计贡献率。各主成分的方差D(Fi)又称为该主成分的方差贡献,为它的方差贡献率,公式为:

前p个主成分的方差贡献率之和为方差累计贡献率,计算公式为:

根据前n个主成分的累计贡献率之和超过某一阈值(如90%)来选取主成分的个数。

2.2 基于微簇的异常识别分析

常规的K-means算法、密度聚类等算法都是针对静态数据库一次性完成聚类。然而桥梁监测数据是以数据流的方式不断到达的,这就要求聚类算法必须以增量的方式对数据进行聚类,而不是每当数据到达时都需要扫描数据库来确定数据的标签。本文引入基于微簇的数据流处理方法来提高检测的精度。

定义1微簇一组数据点的集合,这个集合由一个中心点与其半径为ε邻域中的数据组成。设一个微簇由多维数据流x1,x2,…,xn和时间戳T1,T2,…,Tn组成,时间戳即为数据点到达的时间。微簇可记为这样一个三元组(c,ε,ω)。其中c为微簇中心点,;ε为微簇半径,,dist(xi,c)为数据点xi到微簇中心点c的欧氏距离,;ω为权重,ωi是微簇中数据点xi的时间权重。在二维平面上面,微簇实际上就是以中心点为圆心,以ε微半径的圆所包含的数据点的集合。

传统聚类算法中,经过对数据集一次性扫描后数据集被分为不同的类别,这些类形状任意,包含的数据点任意,如图3所示。在基于微簇的聚类算法中,数据集合均以微簇的形式存在,并且微簇能够覆盖数据流中随时到达的数据,完成聚类。

图3 传统聚类算法

时间窗口分析和K-means密度聚类算法将会被用于其中。时间窗口分析就是对某一时刻开始到另一时刻结束时这一段时间内的所有数据进行分析,目的是为了确定需要处理的目标数据流。算法开始工作时,数据集进入内存,当第一个时间窗口数据到达时,微簇并没有形成,需要调用K-means密度聚类算法对数据流进行聚类,以形成新的微簇;随着数据流的不断到达,潜在概念漂移可能发生,微簇随着数据流的演化而变化,不断产生新的微簇或者核心微簇组逐渐退化为孤立微簇,即离群点,此时也需要调用密度聚类算法定期更新核心微簇和孤立微簇的集合。核心微簇和孤立微簇定义如下:

定义2核心微簇对于数据流pi1,pi2,…,pin,核心微簇定义为这样一个元组为核心微簇的权值,其中ω≥βμ,0<β≤1,β为决定孤立点相对于核心微簇的阈值。为数据点的加权线性和,其中为数据点的加权平方和。核心微簇的中心点为,半径为。Ts、Te分别表示微簇建立的起始时间和结

根据核心微簇的定义,核心簇中所包含的数据均为正常数据,最理想的状况就是核心微簇集能覆盖所有的正常数据,且任何一个核心微簇都必不可少。

定义3孤立微簇对于数据流pi1,pi2,…,pin,孤立微簇定义为元组。N表示簇内数据点个数,微簇中心点,半径以及的定义都与核心微簇相同,需要注意的是孤立微簇的权值限制为ω<βμ。孤立微簇对应的是孤立点的集合,即异常数据。

桥梁数据流异常检测的目的就是通过训练数据集建立一个模型,然后监视微簇群的吸收和记录情况并不断更新模型,识别隐含概念漂移的数据流类标签,达到提升识别精度的目的。基于异常数据在数据流中所占比例较少以及数据特征与正常数据流差别较大的事实[17],可得出:正常数据流产生大量微簇,且不断有新的记录加入而表现活跃;异常数据流产生少量微簇,这些微簇中数据点不如正常微簇群中的数据多,表现较不活跃,且由于产生异常的原因不同,异常微簇之间、异常微簇与正常微簇之间的微簇间距较大[17]。微簇生成步骤如下:

(1)对训练集x采用K-means聚类算法;

(2)设训练集中第一个点生成微簇C1,并加入微簇队列;

(3)取训练集x中的点xi,计算xi到微簇队列中所有点的欧式距离,若该距离小于微簇半径,则xi加入并更新该微簇;若该距离大于微簇半径,则生成新的核心微簇或孤立微簇;

(4)重复步骤(2)、步骤(3),直至扫描完训练集中所有点。

根据训练集建立的初始模型,微簇队列包含核心微簇和孤立微簇,接下来对于数据流中新到达的对于数据流中新到达的数据点p,有如下步骤:

(1)当该点与核心微簇中心点c的欧氏距离满足dist(c,p)≤ε时,p被核心微簇吸收。如图4所示,实线部分的圆表示核心微簇,虚线部分的圆表示孤立微簇,数据点P1落在核心微簇中直接被吸收,更新核心微簇。

(2)当该点与孤立微簇中心点c的欧氏距离满足dist(c,p)≤ε时,p被孤立微簇吸收,同时计算微簇的权值ω,若ω≥βμ,达到核心微簇的条件,则把该微簇从孤立微簇队列中删除,加入到核心微簇中;ω<βμ,更新该孤立微簇。如图4中的P2。

(3)当该点到所有微簇(核心微簇和孤立微簇)中心点c的欧式距离满足dist(c,p)>ε时,该点不属于任何类,以该点为中心构造孤立微簇,同时加入孤立微簇队列。如图4中的点P3。

(4)重复步骤(1)至步骤(3)。

图4 微簇进化示意图

3 实验结果及评价

3.1 实验数据采集及预处理

本文采用湖北省某长江公路大桥的监测数据作为实验数据。该桥作为沪蓉高速公路主干线湖北省东段和国家高速公路网规划中的大庆至广州高速公路湖北段的共用过江通道,是跨径组合为(3×67.5+72.5+926+72.5+3×67.5)m的9跨半漂浮体系双塔混合梁斜拉桥。主桥桥面最大纵坡2.0%,双向6车道;钢箱梁外形与混凝土箱梁一致,均为分离式双箱单室结构,主梁全宽为38 m,梁高3.8 m。根据桥梁的力学特性分析,大桥监控的主要参数为结构温度、环境温湿、斜拉索索力、主梁挠度和振动、结构应变等。每种传感器均主要安装在大桥斜拉索、主梁及主塔上。

实际桥梁监测中,相对来说比较容易获得大量的正常数据样本,结构损伤样本不太容易获取。由于传感器数量较多,本文主要选取4号墩到5号墩的部分传感器数据作为样本,包括:4个索力传感器、2个挠度仪、2个应变计、2个加速度传感器及2个温湿度传感器,并把它们重新编号。有选择性地选取了不同时间段的桥梁监测数据样本,共50 000条数据,人工为其标记,正常数据45 920条,传感器损坏异常样本集1980条、因大风引起的信号异常样本850条、因船撞引起的结构异常样本集320条和疲劳损伤样本集930条。图5是索力监测数据的采集界面。

图5 大桥索力监测界面

传感器采集数据时,不同类型的传感器采集的初始时间不同,采集频率不一样,采集时间间隔不同,还会有缺失值,因而需要对数据进行预处理。对于频率不同的数据,把时间最接近的各个参数记录合并到一起,使之在相同的时间段内。当出现单点缺失值时,用该时刻前序2个数据和后续2个数据的平均值代替;当出现连续缺失值时,很大可能是传感器出现异常,直接归为异常数据样本集即可。表1是对某一时间段内的数据进行采集,然后经过预处理后得到的值。

表1 某段时间段内数据统计

3.2 评价方法

本文采用查全率(recall)和精度率(precision)对实验结果进行评价。

算法判断数据流X是否属于类C时,输出的结果集可以分为C0、C1和C2三种情况。其中C0表示分类正确的数据集,即识别出数据流P属于类C,并且被验证确实属于类C的数据集合;C1表示这些数据不属于类C但算法把它识别错误识别为类C的数据;C2表示这些数据属于类C但算法却没有识别出来的数据集合。因此查全率公式定义为:

式(8)用来度量算法发生数据漏检的情况。精度率定义为:

式(9)用来度量算法发生数据误判的情况。

3.3 实验结果

首先利用主成分分析方法对收集的数据进行特征提取与降维,由于收集的数据集中湿度变化不大,排除湿度对结果的影响。在此P=9,x={x1,…,x9}。通过Matlab计算得到前5个主成分的贡献率分别为:per=[49.90,15.35,13.52,10.85,4.77],所对应的特征值为egenvalue=[4.49,1.38,1.21,0.98,0.43]。前5个主成分的累计贡献率已达到94%,若按90%以上的信息量来设定阈值,则可以选取前5个新的特征元素,其中第一个新因子F1所含信息量最大。

式(10)给出了前5个主成分的系数矩阵,则之前的9个属性{x1,…,x9}可以用5个新的变量F1、F2、F3、F4、F5表示,其各属性之前的系数就对应着矩阵里面的列值。

新得到的变量也是数据流形式,用基于微簇的数据流异常检测算法对其进行分类,选取50%的数据样本作为训练数据集,剩下的数据作为测试集。需要设定的实验参数主要包括微簇半径r,孤立点相对于核心微簇的阈值β,衰减因子λ。微簇半径r应大小适中,太大则同一个簇中会出现不同标签的数据点,太小则增加了算法空间复杂度,达不到聚类效果,该数据需要在实验中凭经验控制;衰减因子决定了历史数据对当前数据流影响的重要程度,可根据实际需要进行设定;阈值β则按照桥梁监测数据流的特性来判定。根据文献[18],初始化参数进行如下设置,Init N=1000,数据流速V=1000,衰减因子λ=0.25,阈值β=0.01。

图6中左边的柱形代表查全率,右边柱形代表精度率。可以看出算法对每一类异常的识别效果,包括查全率和精度率。算法对四种异常情况的分类结果准确率大多都在80%以上,船撞事件的精度识别率在75%以上,精度略有降低。因桥梁传感器系统使用环境复杂并且多变,并且往往包含许多噪声数据,易引起数据流的分布不平稳,即发生概念漂移现象,需要测试在发生概念漂移时算法能否自适应处理这些数据流。用精度表示识别正确的数据流与总数据流的比值,建立了精度随数据流的变化曲线坐标轴,如图7所示。

图6分类查全率及精度率

图7 算法识别精度变化

从图7中可以看出,算法识别精度主要保持在80%~90%之间,在第32 130条数据流出现时识别精度开始呈下降趋势,第34 870条流到达后识别精度达到最低。通过对数据流标签的监测,发现出现概念漂移的数据流是传感器异常数据流,传感器出现异常时,连续缺失值和无效值明显增多,造成数据分布紊乱,算法识别精度明显下降。随着数据流的继续达到,识别精度逐渐升高,证明了该算法的有效性。

4 结语

识别数据流论文篇5

通过地表露头与钻井剖面的观测分析综合研究,证实陕北东部地区长2+3油层组属于在泛滥平原下游发育的远源砂质辫状河沉积.沉积类型可划分出河道亚相与泛滥平原亚相等两个亚相以及河床滞留、河道砂坝、天然堤、决口扇、泛滥平原等5个可识别的`微相.河道砂坝为其沉积的主体.长3到长2期,远源砂质辫状河沉积在平面展布和剖面组合上均表现出向三角洲相区持续推进和逐步超覆的特点.远源砂质辫状河沉积在其平面相区内一般无明显的、限制性的河道表现,河道砂坝复合连片,形成大规模的砂坪或广泛分布的“叠覆泛砂体”沉积,泛滥平原发育区仅在局部有所残留;剖面组合上河道砂坝极为发育,复合迭加程度高,形成连续性和连通性良好的宽厚的复合河道砂坝砂体以及“砂包泥”的沉积组合.同时,远源砂质辫状河流的发育使得与其相邻的三角洲沉积具有了类似“辫状河三角洲”的性质和特点.

作者：刘春慧金振奎刘家铎王铮朱桂芳 LIU Chun-hui JIN Zhen-kui LIU Jia-duo WANG Zheng ZHU Gui-fang 作者单位：刘春慧,金振奎,LIU Chun-hui,JIN Zhen-kui(中国石油大学资源与信息学院,北京,102249)

刘家铎,LIU Jia-duo(成都理工大学,四川,成都,610059)

王铮,WANG Zheng(新疆石油管理局井下作业公司研究所,新疆,克拉玛依,834000)

朱桂芳,ZHU Gui-fang(新疆油田分公司勘探开发研究院,新疆,克拉玛依,834000)

识别数据流论文篇6

[关键词] 数据挖掘舞弊性财务报告识别

一、问题的提出

自从财务报告作为传递经济信息的媒介以来，舞弊就与之形影相随，尽管各国监管机构等相关部门多次出台各种政策、不断完善会计及审计准则，财务报告舞弊仍屡禁不止。因此，最有效的治理财务报告舞弊的方法就是提高各方的识别能力。但是，识别虚假财务报告是一个很专业、很复杂的问题，不仅要从大量的公司年报、中报等财务数据中提取信息，还要从企业本身的组织结构特征、行业特征、经营决策特征等相关非财务信息中寻找线索，仅仅根据审计人员的知识和经验，其识别效果和效率都不够理想。数据挖掘技术作为一种决策支持技术，能够从大量的、不完全的、模糊的、随机的实际数据中，挖掘出隐含在其中的、有用的信息和知识，帮助财务报告的关注各方提高识别舞弊的质量和效率。在当今信息时代背景下，随着数据挖掘算法的不断改进、应用领域的不断拓展，将其应用到舞弊财务报告的识别中既有可能也有必要。

二、运用数据挖掘技术的必要性

随着数据库技术的迅速发展及数据管理系统的广泛应用，大部分企业已经引入人工智能对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录，因此企业积累的数据越来越多，形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围的数据支持，但同时也带来了一些问题：一是数据过量，难以及时发现有用信息；二是数据形式不一致，难以统一处理；三是数据是不断发展的，识别舞弊的经验相对于数据往往是滞后的，这种不同步性给舞弊识别带来了巨大的潜在风险，KPMG（1998）调查发现超过三分之一的舞弊事件是在偶然的情况下被发现的，只有4%的舞弊事件是由独立审计人员发现的；四是传统的数据分析方法无法处理庞大的数据库系统，技术工具的落后性势必影响舞弊识别的广度和深度；五是新的数据处理技术为舞弊提供了越发隐蔽的新手段，电子化和网络化的数据环境也使得舞弊隐藏的更深，使识别难以下手。

数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排出人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上，对数据内在和本质的高度抽象与概括，也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于舞弊财务报告的识别很有必要也非常紧迫。

三、运用数据挖掘技术的可行性

数据挖掘是一些功能强大的数据分析技术的集合，这些技术用于帮助我们分析极其巨大的数据集。经过正确地应用，数据挖掘可以揭示出埋藏在企业数据库中的隐藏关系和信息。尽管数据挖掘看上去像是出现不久，但其实对这种方法的研究和实践已有很长时间了，早在20世纪60年代早期，数据挖掘被称为统计分析，在这段时间内产生了一些饱受赞誉的古典统计例程，如相关和回归。20世纪80年代后期，一些更强大的技术（如模糊逻辑、启发式推理和神经网络）加入到古典统计分析中来，这段时期是人工智能的全盛时期，数据挖掘的研究取得了长足的进展并被应用于各个领域，包括经济管理、金融、保险等。

在会计领域利用数据挖掘技术识别虚假财务报告的研究目的是确定数据挖掘的方法论，建立相应的规则和算法。具体而言，需要运用数据挖掘技术整合上市公司财务数据、经营管理、证券市场交易及宏观经济环境等多方面的非财务信息，然后在大量数据模拟和试验的基础上，给出识别各种类型的财务造假模式的数据挖掘解决方案、规则、算法等。在确定规则时，我们可以利用专家系统，将经验丰富的专家智囊輸入计算机，构建知识数据库，从而产生一定的规则名。数据挖掘技术可以处理大量的复杂关联数据，可以将在会计人员眼中不显著的虚假财务报告与自然形成财务报告之间的内在差异放大到存在某种数据结构和统计显著性差异，在一定程度上提高了舞弊性财务报告的识别效率和效果。

四、运用数据挖掘技术的优势

与正常的财务报告相比，舞弊性的财务报告具有某种结构上的特征，这些特征可以通过数据形式表现出来，也可以通过文本信息等非财务数据形式表现出来，但是传统的技术分析方法在量化非财务数据时有很大困难，导致一些重要的信息被忽略，而数据挖掘的对象不仅是数据库,也可以是文件系统，或其他任何数据集合，提高了信息的利用率。

传统的技术分析方法往往是单一的技术，而数据挖掘是一种集成的技术，融合了三个学科的技术，即数理统计、人工智能和计算机，使它具有单一技术所无法比拟的优势。传统的技术方法多是先从经济含义上去构造指标或者是构造模型，然后再代入数据得出结果，这是从一般到特殊的演绎过程，需要许多前提假设并且受诸多主观因素的影响。数据挖掘是用数据来产生模型，再用数据去检验模型，模型的构造是从特殊到一般的归纳过程，这就摆脱了前提假设的束缚和主观因素的干扰，其结果更加真实、客观。对于质量上存在缺陷的数据，传统的技术分析方法往往一筹莫展，而数据挖掘技术由于包含数据的预处理过程，而能够将有缺陷的数据补全、清洗、消声和归纳，从而提高了数据的可用性和可靠性。数据挖掘技术能够将数据从执行系统中筛选出来，减少冗余，完成一系列的转换、结构改变以及聚集处理，从庞大的信息流中分辨、析取、整理、挖掘出对识别舞弊财务报告有用的信息，减少信息噪音的影响，为识别舞弊性财务报告提供科学的依据。

五、数据挖掘技术在识别舞弊中的应用过程模型

如何把数据挖掘技术有效的应用到舞弊的识别过程中是首先要解决的问题。美国SAS研究所总结了数据挖掘的一套行之有效的方法（SEMMA），斯坦福大学的约翰1997年在其博士论文中也给出了一种数据挖掘处理模型，该模型强调由领域专家和数据挖掘人员共同参与数据挖掘的全过程、及时沟通。本文根据上述思路，给出了数据挖掘在舞弊识别中应用的处理过程模型。

数据挖掘在舞弊识别中的应用模型

①数据取样(Sample)。会计领域专家根据积累的经验从数据库中提炼出与舞弊识别相关的样本数据子集，而不是动用全部企业数据，这样可以减少数据处理量，节省系统资源；②数据探索(Explore)、③数据调整(Modify)。数据挖掘人员通过与专家的沟通，对所提炼数据进一步理解，在此基础上对其进行逐步分类、筛选，按照对整个数据挖掘过程的认识组合或生成新的变量，以体现对状态的有效描述；④模型的选择和建立（Model）。数据挖掘人员建立挖掘模型，会计专家通过与数据挖掘人员的沟通来了解模型并加以确认；⑤模型的综合分析与评价（Assess）。会计领域专家在理解挖掘模型的基础上，对模型的识别效果进行分析评价。在整个应用过程模型中专家与数据挖掘人员之间的沟通是很重要的，会计领域专家向数据挖掘人员提出和解释需求，数据挖掘人员据此构建识别模型并与专家分析评价模型的识别效果，以此循环反复，直至制定出有效的挖掘方案。

六、结束语

识别舞弊性财务报告需要从大量相关信息中寻找线索，建立一个基于数据挖掘技术的舞弊财务报告识别流程，充分利用经验丰富的专家智囊及数据挖掘的技术优势，提高舞弊财务报告的识别效率和效果，尽量降低其给利益相关者造成的损失。

参考文献:

[1]曲吉林:数据挖掘在财务领域中的应用[J].山东财政学院学报，2006，（1）:14～17

[2]徐锡意盛国辉:数据挖掘在审计中的应用[J].审计理论与实践，2003，（8）：20～21

[3]朱建平张润楚:数据挖掘的发展及其特点[J].统计与决策，2002，（7）:71～72

基于数据库的叶片识别系统篇7

近年来, 对植物的分类和识别研究已成为模式识别领域的一个研究热点。传统的叶片识别, 一般由知识储备和实践经验丰富的研究人员进行。但这种人工操作, 识别的过程依然相当繁琐, 工作量大, 并且工作效率不高, 识别的正确性也很难得到保证。随着计算机技术的发展, 研究通过计算机来进行高精度的叶片识别是一个非常具有可行性的新途径。

国外学者在对于植物叶片分类识别的研究上, 获得了良好的成果, 他们大多采用判别式分析法、匹配法、机器学习法对植物进行分类识别。国内对于叶片识别技术的研究比较少, 而且开始时间也比国外的要迟一些。祁亨年等提出了叶形识别概念, 并讨论其发展前景, 虽然并未进行系统的开发, 但他们最先推动了国内对于植物叶片识别研究的发展。黄德双等对于叶片识别技术进行了大量的研究, 并开发出了具体的识别系统.近年, 合肥植物园与中科院合肥智能机械研究所智能计算实验室进行了合作, 他们借助数字图像处理和模式识别技术, 成功开发了一款植物叶片图像识别系统。

本文建立了一个基于数据库的叶片种类识别系统。通过对叶片图像的处理, 叶形的分析与特征值的计算, 并且应用数据库技术存储数据资料, 实现对叶片图像的识别功能。

二、叶片的识别

本系统识别叶片的流程如图1所示。

(一) 图片的预处理。直接的图像文件是不能完成最后需要的特征值提取的, 因此需要对图像文件进行预处理操作。图像在进行了一系列处理后, 计算机才能够对图像中某些区域进行计算和统计。在预处理过程中, 为了使图像与图像背景分离开来, 尽量减小背景的影响, 一是要增强对比度。二是利用阈值分割将图像转换成二进制图, 方便后续的边界提取和统计某些数值, 如面积和周长等的计算更加精确。三是为了最大程度地去除图像中的噪声, 空隙等对计算的影响, 要对图像进行滤波处理和膨胀、腐蚀等平滑操作。

其算法流程下:

Step 1:读入RGB格式的图像文件, 用二维数组A变量存储图像;

Step 2:增强图像的对比度, 得到数组变量I;

Step 3:将图像格式转换为灰度图像, 得到数组变量I2;

Step 4:计算分割所需的阈值大小level;

Step 5:利用阈值分割法, 将灰度图像转换为二值图像, 得到数组变量BW;

Step 6:对二值图像进行medfilt (中值滤波) 处理, 存储在BW中;

Step 7:对图像进行erode (腐蚀) 操作, 得到数组变量BW1;

Step 8:对腐蚀后的图像BW1进行dilate (膨胀) 操作, 得到变量BW2。

(二) 特征提取。特征值提取是计算出图像中叶片的某些典型的数据, 用以区分不同的图像, 是为后续的识别工作做准备。本系统采用2个特征值, 分别为叶片图像的圆形度和长宽比, 其中圆形度通过图像的面积和周长得出, 长宽比通过叶片图像的最小邻接矩形得出。采用这两个特征值的原因, 是因为它们可以避免图像放缩和图像位置的影响, 无论图像放大还是缩小, 无论摆放位置怎么样, 它们的计算结果都只和图像本身的形状有关。其算法实现具体如表1所示。

(三) 识别算法。识别算法的思想是判断根据用户上传的图片文件计算出的特征值和数据库中的文件经过同样处理后得出的值之间的差距是否在预先设定的一个范围内。具体的匹配算法如表2所示。

匹配算法中采用2个数值之间的差的绝对值与二者之和的比值作为判断参数, 同时设置长宽比的误差区间为15%, 圆形度的误差区间为3.5%, 这样使得判断较为准确合理。

三、系统的设计与实现

系统在Windows XP操作系统下采用Matlab语言进行开发, 数据库设计使用Sql sever 2008工具完成。数据库中保存的是图片在本地电脑中的绝对路径以及相关图片的描述信息。系统的功能结构如图2所示。本系统中主要有前台用户界面 (图3) 和后台管理员界面 (图4) 。

用户在使用本系统时, 先在用户界面中点击“浏览”按钮, 选择待识别的植物叶片。在完成待识别文件的上传后, 点击“识别”按钮, 识别结果如图5所示。图5中左边显示存储在数据库中的标准图片, 界面右下角显示识别结果, 主要为相应叶片的文字信息, 有关其叶片特征, 产地, 用处等等。

四、结语

本文开发了一个具有较高识别能力的叶片识别和分类系统。深入介绍了系统实现中的核心技术、系统界面和系统运行的结果。实验证明, 本系统可以识别出不同种类的叶片。但本文仅仅实现系统原型, 未来还有许多问题需要深入研究和完善, 比如系统的界面、算法的效率、对复叶的识别等等。

参考文献

[1]朱静, 田兴军, 陈彬, 吕劲紫.植物叶形的计算机识别系统[J].植物学通报, 2005

[2]杜吉祥.植物物种机器识别技术的研究[D].中国科学技术大学, 2005

识别数据流论文篇8

道路网络数据是进行交通分析研究、规划设计的基础。通过对道路网络进行更新维护,以保证路网数据的现时性,是交通研究领域工作中基础工作之关键,而这项重复性很高的工作往往需花费了大量的时间与人力,还难以保证数据的时间性、版本继承性,给需要大量时间前后对比分析的交通研究工作带来了效率障碍。因此,一套能满足交通行业应用需求的道路网络自动更新技术方法与机制,对于节省时间与人力的投入、提高路网数据的质量,具有很强的实用意义。

1 路网更新现状

基础路网的实地勘测数据,通常由2个机构采集并产生:测绘院与专门的电子地图厂商。而交通、环境等行业分析与应用,则是从上述2个部门获取新数据从而对自身的行业数据库进行更新。以交通行业为例,目前用于交通研究领域的道路网络数据在传统城市交通道路网络数据更新与维护作业流程中,通常以上述2个机构的新采集数据为参考依据:测绘院小比例尺地形图(一般为1∶2 000比例尺)中的道路层数据,或者目前越来越广泛使用的导航电子地图数据。由于测绘院地形图数据更新周期较长,一般为2～5 a,而目前用于导航的电子地图生产厂商生产的路网地图一般更新周期为1 a 2次,数据现时性要好很多,因此交通领域的路网数据越来越多的以导航电子地图作为更新的数据依据。但无论参照哪种数据,每年交通部门对基础路网数据的实际更新工作都可概括为:对照新采集的GIS路网地图,对旧版本道路交通网络数据进行更新。

道路网络数据属于空间数据中的线要素矢量数据。目前对空间矢量数据的更新主要有2种方式:基于完全版本的全部更新与增量式更新。基于完全版本的全部更新是指通过时间戳对每一个版本的数据进行管理,需要对数据更新时,不依靠历史数据,而是直接对新来源数据进行专业加工、处理后即作为新数据版本。而增量式更新是指在原有路网数据的基础上,只对变化的部分进行相应的更新处理[1]。增量式更新的数据存储结构更为科学合理,防止冗余性也更好。

由于用于导航的电子地图不关心基于路网的历史数据分析、对比,只关心当前的路网形态,因此目前导航电子地图几乎都采用的是全版本更新法[2]。但是对各个路段的沿时间轴的前后交通数据对比分析研究是交通行业的一项重要工作,因此对于行业分析与应用来说,必须要求各个版本的基础路网数据之间具有良好的继承对应关系,一般通过永久以惟一ID标识实现,这就进一步提出了对路网数据进行增量式更新的要求。

2 自动增量识别与更新算法

2.1 增量更新技术分析

进行高效增量式更新的技术关键是增量部分信息的自动识别。增量识别是指针对不同版本的数据文件,识别出旧版本到新版本的变化部分的内容,以备旧版本数据更新的需要[3]。目前用于矢量空间数据自动增量识别的方法有3种:

1) 在数据生产与编辑环境平台的基础上,开发专门的编辑记录反应器,将数据更新过程中添加、修改和删除的对象及操作都自动记录到日志文件,地图用户在更新地图数据时,即可按照该日志文件进行增量更新。

2) 对新、旧版本数据的自动完全增量识别,以线形矢量空间数据为例,线要素由一串拐点组成,通过2个版本数据所有拐点及连接关系的对比分析,认为只要发生了一定变化(不管这种变化是位移、缩放、合并、断开等任何操作引起的结果)的线要素都归为被修改要素,将会处理为增量内容。

3) 基于线模式匹配等更复杂的模式匹配算法来对新、旧版本路网数据进行增量信息的自动识别,可用于实践的算法包括参照线与样本线间平均距离判别法、参照线与样本线围合面积判别法等模式判别算法。

但是这3种算法在应用于交通行业道路网络增量信息自动识别时,实用性都不理想。算法1主要应用于数据生产厂商端,需要将此编辑记录反应器嵌入到测绘院或地图厂商的数据生产环节中,才能对数据更新信息进行有效记录;算法2虽然适合在数据使用方进行操作,但由于导航电子地图等路网数据都是每年重新进行数字化,且数据使用方每年的更新参考数据源也可能来自于不同生产单位,线形几何不可能完全一致,因此基于拐点对比的完全变化识别显然会高估增量数据信息量;算法3能从一定程度上解决算法2的问题,但针对道路网络数据,不同来源的路段数字化过程会带来不同的路段表现形式,如图1所示,粗直线L1线要素为旧版本路网中的一个路段要素,细折线L2与L3分别为更新参考路网中可能出现的2种路段要素情况,线中的小方块显示的是构成该线段的拐点。事实上L2表述的是该路段未发生变更,只是新参考数据中数字化的线型不太一致而已,而L3表示该路段发生了延伸性修建。如果采用平均距离的算法进行自动识别,L2与L1的平均距离Δ1=(l11+l12+l13)/n1拐点数,而L3与L1的平均距离Δ2=l2/n2拐点数,在n2拐点数比n1拐点数多的情况下,会出现Δ1>Δ2,即L2比L3是增量数据的可能性更大,计算机自动判断错误;如果采用围合面积的算法,则L2与L1的围合面积更是大于L3与L1的围合面积,同样难以正确判别。

2.2 基于缓冲区分析的高效增量更新算法为了解决2.1中所述目前已有矢量空间数据

自动增量识别的3种方法在交通行业应用中所不能适应的技术问题,本文提出了1种基于缓冲区分析的高效增量更新算法,技术流程如图2所示。

该算法分为3个步骤:道路增量信息自动识别、人机交互方式生成增量数据包、对道路网进行增量更新。

1) 道路网络数据增量信息的自动识别,即道路网中新建、改建或消除路段的自动识别,具体步骤包括:遍历新采集路网(更新参考路网)中的路段元素;对每1个路段L生成路段缓冲区LB;将缓冲区LB与旧版本路网路段求交,得到旧版本路网中的路段交集S;对此路段集作合并的缓冲区SB;分析L与SB的空间包含关系,若L被包含于SB,则L为几何非增量数据,继续下步骤,若L不被包含于SB,则L为几何增量数据;对比L与S中元素的目标属性关系,若属性一致,L为非增量数据,若属性不一致,L为属性增量数据;遍历旧版本路网中的路段要素;将每一个路段l与更新参考路网路段求交,得到更新参考路网中的路段交集s;对此路段集作合并的缓冲区sb;分析l与sb的空间包含关系,若l不被包含于sb,则l为消除或部分消除路段;将所有增量数据拷贝至增量集合。

2) 在拓扑规则程序(主要用于保证路网的连通性与方向性)的辅助下,以人机交互的方式编辑完成增量数据集,增量数据集包含3类数据:在更新参考路网中被标识为新建道路的路段要素;同时在更新参考路网及旧版本路网中标识为改建道路的路段要素;旧版本路网中被消除的原有道路路段要素。

3) 根据增量数据集对原道路网络数据自动进行增量更新,具体包括:完全复制旧版本路网数据到新建新版本路网数据;将增量数据集中标识为新建与改建道路的路段要素复制到新版本路网数据;删除对应于改建道路与消除道路的原有道路路段要素。

3 实用分析

为测试本文所提算法的实用效果,以北京市交通基础数据库中某旧版本矢量路网数据为例,以某厂商2007年导航电子地图为更新路网参考数据,采用本算法对该旧版路网数据进行自动增量识别与增量更新。

上述算法通过通用地理信息系统开发平台ArcGIS Desktop 9 SDK的程序开发得以实现,运行程序主体为通用GIS软件ArcMap,编写的程序以插件的形式插入到ArcMap中。程序显示该算法的自动增量识别结果如图3所示,右侧图形显示区加载了旧版本路网矢量数据(实线)和2007年新导航电子地图参考路网数据,点击嵌入式“计算参考路线图层(新采集)对于标准路线的增量”按钮后,即执行本路网增量信息自动识别算法进行计算机自动识别判断,最后将所有增量路段要素以虚线表示。从图3可见,该路网增量自动识别算法能达到较理想的准确度。

将上述程序识别的增量路段信息加载到增量信息包后,即可在图3所示编辑环境中进行人机交互的增量包编辑工作,生成增量信息包中的增量要素以及如表1所示的增量信息表:

最后将增量包中新参考路网的变更类型编号为1、2、3的路段要素拷贝至目标路网数据层,然后将旧版本路网的变更类型编号为2、3、4的路段要素进行删除,即完成道路网络数据的增量更新工作。

注:变更类型编号:1-新修建道路;2-改建道路(地理位置变动);3-改建道路(车道数等道路属性变动);4-消除。

4 结束语

提供1种以各种来源新采集路网矢量数据为参考,进行快速、准确增量识别及增量更新的技术方法,对于交通等非基础数据采集制作机构,以及对基础路网的现时性和历史继承性要求很高的行业来说,能够大大减轻路网数据每年更新维护的时间与人力投入,并保证现状数据与历史数据良好的继承相关性。本文提出的基于缓冲区分析的路网自动增量识别与更新技术方法,从北京市交通基础道路网络的实际增量更新操作来看,整套算法利用通用的地理信息软件平台即可实现,更新操作简单,更新结果较为理想,具有很强的行业实用性。

参考文献

[1]宋莺.导航电子地图动态更新核心技术研究[J].计算机系统应用,2008(5):69-72

[2]胡钱钱,李莉.导航电子地图的更新机制与技术方法[J].地理信息世界,2008(1):77-82

识别数据流论文篇9

关键词：人脸识别,线性,非线性,人数

随着社会安全系统要求的不断提高,生物特征识别技术满足安全系统身份认证的需要。人脸识别方法属于一种生物识别手段,该方法主要应用计算机对人脸的图像进行分析,进而能够准确地识别人的身份。随着技术水平的不断提高,人脸识别手段逐步地被应用于各个领域,例如,驾驶执照持有者的身份识别、罪犯的身份识别以及护照持有者的身份识别、金融机构的监控系统等。

目前,非线性人脸识别技术已经取得了重大突破,数据集大小对识别方法的影响成为研究热点[1,2]。以相同的数据集为研究对象进行相应的实验时,利用核技术的非线性识别技术相对于基于核技术的线性识别技术能够获得非常好识别效果,识别准确率非常高。然而,以上的研究所选择的数据集不具备较大的规模,基本上数据集都是在100人以下。随着数据集的增多,基于核技术的线性以及非线性识别技术是否有类似的影响呢?非线性识别技术能不能应用于规模更大的数据集中呢?本文就这一问题进行了一系列的实验和讨论,认为当数据集的规模不断增大时,基于核技术的线性技术的错判率也会以线性的方式不断增加,当数据集规模达到1 000人时,相应的错判率是数据集规模为50人时的2倍,对于基于核技术的非线性技术错误识别率没有较大的变化,当数据集规模增大时,错误识别率却有所降低。

1人脸特征提取方法

本文中线性人脸识别方法和非线性人脸识别技术主要目的是能够提取出人脸的特征,有的是线性手段,有的是非线性的手段,也就是说在提取人脸特征时,所应用的人脸空间的投影轴是线性的或者是非线性的[3,4]。

线性识别方法有主成分分析法、线性判别分析和直接线性判别分析法等。主成分分析法(PCA)也可以被称为特征脸技术,主要的思路是采取逐行的方式扫描一幅B×B的标准人脸图像,同时把扫描结果按顺序组合成一个P2维矢量,可以被看作P2维空间的一个点。线性识别方法是依据主成分分析技术形成的一个扩展技术,主要思路是把初始的高维模式样本向最优识别向量空间投影,为了能够确保投影后的模式样本在新生成的子空间中包括最大和最小的类间距离,进而可以使最大和最小的类间距离的比值最高。直接线性判别分析(DDA)是在线性判别法基础上改进而得到的,其直接在原始的高维输入空间进行数据处理,能够较好地处理线性识别方法中存在的“小样本”缺陷。

非线性识别方法有核主成分分析、核线性判别分析和核函数直接判别式分析。核主成分分析(KPCA),又称核特征脸,主成分分析PCA反映了图像的二阶相关性,而KPCA能够有效地体现出图像的高阶相关性。核线性判别分析(KLDA)主要依据fisher判别法的基本原理,并且结合核技术而提出的一种新方法。基于核函数直接判别式法把数据以非线性的方式向一个高维空间映射,接着,在高维空间中通过DDA分析输入数据。

2类内变化对识别方法影响研究

在人脸识别技术首先需要进行原型集以及训练集的设计,应该为不同的用户收集各种不同姿态的人脸图片。Juwei Lu等人指出当类的图片增加,人脸空间并不具有凸分布的规律,在这种情况下有些过去的线性识别技术有可能无法获得较为准确的识别结果[5,6]。笔者通过分析提出产生不好识别效果的主要原因不只是由于类内变动提高而导致的,同时,相同样本集的数据规模也有一定的影响。在数据集规模较小的情况下,尽管类内变化在增多,然而仍然能够使类间保持比较大的距离;而在数据集规模比较大的情况下,人脸样本的分布非常紧密,一旦类内产生变动,样本的混叠就很容易出现。

在人脸识别实验中,从CAS-PEAL人脸数据库中提取表情子集,利用集合Ⅰ来表示,选取的数据集总共包括300人,分别选取160、200、250、300人的人脸图片进行人脸识别实验,集合I的图片如图1所示。

此外,将所选取的表情集中被测对象的姿势子集利用集合Ⅱ来表示,总共选取1 000人,通过对集合Ⅱ中图片的选取来增加类内的多样性,相应的人脸图片如图2所示。在表情集中,不用的人分别选取了4张人脸表情图片,训练样本选择图1中左侧的2张,识别验证样本选取图形中右侧的2张人脸图片。同时,为了能够使不同类中的图片数量增加,选取了和表情集中的300人相应的四张姿势照片来使训练集得以丰富,按照从左至右的顺序把四张人脸图片加入到训练集中,训练集规模增加后可以获得3到9张不等的训练人脸图片,然后进行相应的人脸识别实验。

本文采用直接线性识别分析(DDA)和非线性核直接线性识别分析(KDDA)进行人脸识别实验。希望提高人脸识别的正确率,采取了实验原型集和训练集规模大小一致的方式,如果和不同类图片中的随意一张图片一致,就可以认为得到了正确的识别结果。同时,实验选择了闭集识别的方式,就是说所有测试集的人脸图片均从原型集中的人的其他人脸图片选取的,实验的判断依据就是人脸识别技术的闭集识别正确率。闭集识别正确率为可以利用如下的公式进行计算:

$R = \frac{F_{c}}{F_{t}} (1)$

式(1)中,R表示闭集人脸识别正确率,Fc识别正确的人脸图片总数;Ft表示测试集人脸图片总数。综上得到基于数据集的人脸识别算法的主要计算机过程为:

(1)集合的选取:从CAS-PEAL人脸数据库中提取300人的表情子集记为集合Ⅰ,同时选择被测对象相应的姿势图作为子集1 000张构成集合Ⅱ:

(2)选择实验的判断依据为闭集识别方式;

(3)分别选取160、200、250、300人的人脸图片构成人脸数据集合作为输入数据集,在原始的高维输入空间进行数据处理,利用直接线性识别分析(DDA)对数据集合Ⅰ和集合Ⅱ进行人脸识别实验,并计算机识别正确率:

(4)分别选取160、200、250、300人的人脸图片构成人脸数据集合作为输入数据集,采用fisher判别法的基本原理,并且结合核技术构成的核线性判别分析(KLDA)对数据集合Ⅰ和集合Ⅱ进行人脸识别实验,并计算机识别正确率。

通过利用以上的算法对采集的人脸数据进行实际训练和计算得到相应的识别结果如图3和图4所示。

从图3和图4的数据结果可知,当数据集人数从160人提高至300人的过程中,可以获得比较近似的变化曲线。无论是线性识别技术DDA和PCA还是非线性识别技术KDDA,在不同类中的变动增多时,人脸识别正确率不但不会降低,相反会有所增加。当类内包含四张人脸图片时,可以得到最高的人脸识别准确率。通过以上分析可以看出,如果数据集的规模小于300人,使类内的变动增多,对于线性人脸识别方法不会造成识别准确率的变化,在这种情况下无法反映非线性人脸识别的有效性。总而言之,根据人脸识别实验的数据结果分析可:当数据集规模小于300人时,线性识别技术DDA以及非线性识别技术KDDA均可以发出较好的识别效果。同时,尽管类内图片的数量变多,然而对于和DDA以及KDDA相似的人脸识别技术,相应地提取的特征维数并没有因此而增多,仅仅是和类的总数有一定的联系。

3人数变化对识别方法影响研究

根据Fisher人脸识别的基本原理可得,如果类间距比较大,但是类内距又很小,在这种前提下可以提高分类的准确性,所以应该尽可能地使类内不要产生过多的变动,也就是说使类内距尽量恒定不变;此外,使类具有更好的多样性能够获得更为宽松的人脸识别条件,并且可以有效地识别被测试对象的不同表情、各种姿势,并且能够不受外界的光照等因素的干扰,有必要使类内的变化更多一些。以上两种情况是彼此冲突的,为了能够获得最佳的人脸识别效果,应该在上述两种情况中寻求一个最佳的处理方式。从类内变化对识别技术的研究结果可知,当数据集规模小于300人时,人脸识别的准确率不会有所改变,这一结论和第一个情况是相符的,但与第二个情况是冲突的。笔者认为,当数据集的人数处于一定的范围时,使类中的图片数量增加可以提高人脸识别的准确性,然而,当数据规模不断增加时,人脸图片样本的密集度不断增加,在这种情况下,类内距越小越好,反之将引起混叠现象。

笔者认为如果数据集规模变大,样本的密度变大,将产生类似的情况,在这种情况下可以利用非线性的人脸识别技术,并且针对该问题进行了相应的实验。对于训练集规模在改变,但是不同类图片的数量没有变化的条件下进行了人脸识别实验。

人脸识别实验选取的表情集和姿态集同上,分别利用集合Ⅰ和集合Ⅱ表示,在实验过程中,集合Ⅰ的规模由50人逐渐提高到330人,集合Ⅱ的规模从50人逐渐地提高到1 000人。人脸识别技术利用直接线性识别技术DDA以及核直接线性识别技术KDDA。

集合Ⅰ的人脸识别实验结果如图5所示。根据图5的识别结果曲线可得,DDA人脸识别技术在数据集规模为50—200人之间的情况下,识别错误率几乎不变,当数据集规模超过250人时,呈迅速增长趋势;而KDDA方法,从50—330人,曲线一直保持相对平稳。对集合Ⅱ采用了姿势集的50—1 000人不等进行实验,结果如图6所示。从图6可以看出,当数据集规模增高时,DDA识别技术的错误识别率有线性增加的趋势,当数据集规模超过1 000人时错误识别率是数据集规模为50人时2倍。但是KDDA人脸识别技术的错误识别率几乎不变,在数据集规模增大时,错误识别率却不断减小。当人数增加时,反而有下降的趋势。

根据图5以及图6的分析结果可得,训练集的扩大可以利用提高数据集规模的方式来实现,DDA技术的人脸识别错误率有比较明显的增加趋势,然而KDDA技术能够维持不变。可以得出如下结论,当数据集规模扩大时,线性识别技术和非线性识别技术对分析结果的影响各有不同。根据分析结果可知,随着数据集规模达到一定程度时,非线性识别技术相对于线性识别技术具有更好的适应性。笔者认为因为数据集规模的扩大,形成了过密集的类间分布,因此,不利于分类,在这种情况下最好不利用线性识别技术,必须采取非线性识别技术,从而能够获得最佳的分类。

4结论

主要探究了样本集类内变化程度和类总数规模对线性识别技术以及非线性识别技术的影响。

通过在类内利用直接线性识别分析(DDA)和非线性核直接线性识别分析(KDDA)针对不同数量的人脸数据集合进行人脸识别实验所得的仿真图图3和图4的对比分析得到的结论为,类内的图片数量和类的总数是彼此影响的,如果类的总数控制在一定的范围内,提高类内的图片数量能够提高识别的正确率。在人数变化对识别方法对比分析过程中,主要分析了直接线性识别分析与非线性核直接线性识别分析对人脸数据集数量多少的敏感程度,在逐步提高被测人脸数量的时候,通过对利用两种方法得到的人脸识别分析仿真图图5和图6的对比分析结果可知,可以依据类内距以及类间距确定识别技术,当类内距比较小但类间距比较大时应该选用线性技术;当数据集规模变化较大时,应该选用基于核技术的非线性方法,可以获得非常可靠的识别效果。通过以上研究,为人脸识别技术系统的设计提供了有利的理论依据。

参考文献

[1]沈谦,李树涛,伍君.基于主分量分析和支持向量机的人脸检测.计算机与数字工程,2005;33(4):56—58

[2]朱麾,郭立.结合肤色分割的支持向量机人脸检测方法.电路与系统学报,2005;10(1):140—143

[3] Song Limei,Huang Jinghuan.3D visualiz-ation technique of humanorgans.Journal of Computational Information Systems,2008;5(2):481—488

[4] Song Limei,Wang Mingping.A simple but high precision registrationmethod in 3D vision measurement.ISICT 2006:1—6

[5] Juwei Lu,Plataniotis,K.N.Boosting face recognition on a large-scale database.Image Processing 2002 International Conference2002:109—112

识别数据流论文篇10

基于静力试验的数据, 利用参数识别技术对结构的损伤进行研究。

1 识别参数的选择

基于参数识别的桥梁损伤检测一般采用参数化的有限单元模型代替实际结构, 采用残余力或者残余位移的最小二乘法来估算系统参数的值。在结构损伤的系统参数识别中, 通常用结构参数的减小来反映结构的损伤。

以弹性模量取为恒值, 以杆单元的应变和惯性矩作为结构的待识别参数Q0, 这样就能通过结果Qd和Q0的比较来实现损伤的位置和程度的判别。

2 结构刚度矩阵的参数化

为利用最优化技术从测试数据中识别出待定参数, 就必须计算目标函数的梯度矢量, 这需要将刚度矩阵对参数进行微分, 就涉及到对刚度矩阵的参数化。

本文以三维杆单元建模, 其中每个杆单元的节点具有六个自由度, 单元刚度矩阵Ke (xe) (12×12) 能够分解为刚度参数xe与内核矩阵ge (12×12) 的线性组合Á。于是, 可得刚度矩阵的参数分解形式为:

从结构的损伤识别的角度上讲, 对于每一个单元, 我们只需能够判别出单元是否损伤及损伤的程度如何.因此, 只需一个参数就可以达到上述目的。于是, 我们可以进一步认为, 在单元发生损伤时, 其单元刚度矩阵的元素都按同一参数递减, 即:

式中:Κ0e为单元未发生损伤时的单元刚度矩阵;θe为单元损伤时的刚度折减系数, 即单元的损伤参数 (待识别参数) 。

3 静力位移相对残差矢量及其对参数的灵敏度矩阵

在结构的损伤识别中, 对象与模型间的距离体现为现场实测位移{uam}与由结构模型而得的计算位移{uac}之间的差异, 它是带识别参数{θ}的函数。为进行参数{θ}的识别, 现定义误差列阵{e (θ) }如下:

其灵敏度矩阵:

S (θ) 称为误差列阵e (θ) 对参数列阵{θ}的灵敏度矩阵。为计算式 (5) 中的灵敏度矩阵S (θ) , 所表示的误差矩阵{e (θ) }需对所有的识别参数进行遍历微分运算:

4 综合残差灵敏度矩阵

在静力测试试验中, 一般都进行nloc次独立的荷载试验, 即nloc个荷载工况。于是就得到与nloc次荷载试验相关的nloc次静力测试位移。nloc个荷载工况测试位移误差列阵可表示为:

同时就可以求出第r个荷载工况下的{re (θ) }对待识别参数{θ}的灵敏度矩阵r[S (θ) ]和r[S (θi) ]。同理, 可得[S (θi) ]表示为与式相应的形式:

5 定义问题的准则函数

以使准则函数值为最小, 则将其转化为无约束最优化问题的求解:minf (θ) θ∈En, 其中函数f (θ) 具有一阶连续偏导数。

如果考虑待识别参数的取值范围的限制条件, 可将 (9) 的无约束极值问题转化为有约束的非线性极值问题。本文采用内部惩罚函数法求解有约束最优化问题, 约束最优化问题的标准形式为:

其中, f (x) 是目标优化函数, gk (x) 为约束函数。于是可构筑如下增光目标函数为:

其中r为惩罚因子。

增广目标矩阵F (θ, r) 的梯度矩阵GF (θ) :

于是, 增广目标矩阵F (θ, r) 的梯度矩阵GF (θ) 可表示为:

6 算例

桥梁概况:主桥为35m+50m+35m的三跨钢筋混凝土桁架连拱桥, 中、边跨矢跨比为1/7。该桥简化模型如下图:

试验荷载采用4辆300KN载重汽车和八辆200KN载重汽车作为试验用车。根据桁架的受力特点, 试验均在最不利荷载工况下, 由于对称性, 只记录半跨的。其各截面的内力如下表:

7 结束语

7.1 该方法能够基于静载试验实现结构参数的有效识别, 总体识别效果良好。

7.2 编制的程序成功的在实际的工程中的得以应用, 但编制程序与试验结果的最大识别误差达到14.1%, 在F-F截面。有待进一步的改进, 使其识别误差最小。

7.3 在损伤程度小于5%时, 仍能精确识别。可用于更多的实际工程。

7.4 该方法能够对各杆件的准确识别及定位, 也可为结构进一步状态评估提供最基本的信息。该算法不仅有准确性, 还在运行时有良好的稳定性, 所以在应用上有着广阔的前景。

参考文献

[1]Sanayei M, Salentnik M J.Parameter Estimation of Structure from static strain Measurements I:Formuation[J].Journal of Stuctural Engineer-ing, ASCE, 1996, 122 (5) :555-562.

[2]蒋华.基于静力测试数据的桥梁结构损伤识别与评定理论研究[D].2005:34-56.

[3]崔飞, 袁万城, 史家钧.基于静态应变及位移测量的结构损伤识别法[J].同济大学学报[J], 2000, 28 (1) :5-8.

[4]周廷藩, 杨国贤.杆系结构程序设计[M].人民交通出版社, 1990, 7.

识别数据流论文篇11

关键词：入侵检测数据挖掘,应用频繁模式挖掘算法

0 引言

通常情况下入侵检测系统(IDS)会在较短时间内产生成千上万条的报警日志信息,其中有超过90%的属于误报或低等级的报警信息,系统安全分析人员不得不花费大量的时间精力从数量众多的IDS报警日志中区分重要的系统入侵警报信息。使用本文提出的基于数据挖掘的系统入侵报警识别技术可以从大量无序的报警信息中筛选出重要的报警信息。

1 数据挖据概念

数据挖掘就是在一些没有规律、异构结构并且熟练庞大的数据中,通过相关的计算机方法及算法,提炼出具有不确定和未知性的信息的一种方法。数据挖掘的数据源应该是大量且真实的,所寻找出的信息应该是对我们有用的、具有价值的。理论上来说,数据量越大、越随机,数据挖掘所得到的结果就越准确、越具有代表性、越有价值,这就对数据挖掘的相关算法与技术的效率提出了很高的要求。数据挖掘是一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。数据挖掘是将一些离散的、底层的、无序的大规模数据利用相关的技术手段提升到有序的、可接受的、有价值的知识,从而为决策提供帮助的一个过程。具体的说,数据挖掘是通过对大规模的海量数据进行分析,从中找出一些数据间的内在规律与联系。具体过程包括了数据准备、信息挖掘和结果表达三个阶段。

在软件工程中数据挖掘的工作一般可以分为3个层面,即交互式可视数据探查、自动模式提取及模型建构,这3个层面相互关联,其中可视数据探查为提取模式及模型的建构提供基础,模型的建构又为数据探查和模式提取提供了指导。软件工程中常用的数据挖掘技术主要是通过分析、聚类、预测及统计分析等技术众多资源中找出潜在的、对人们有用的信息并反馈给软件系统。

2 挖掘频繁模式

从数据库中挖掘频繁项目集目前已有很多的关联规则算法,常见的有频繁模式树生长算法和Apriori挖掘频繁项目集算法等。但是这些挖掘技术都不具备为应用程序的事物处理生成频繁模式的能力。

表1中的报警记录数据集是由入侵检测系统(IDS)产生的,记录数据表中包括:项目集{1、3、4、10、18}和警报信息{告警1、告警2、告警3}。挖掘所有的报警信息,需要生成类似格式为[<项目集>告警列表]的项集从而支持至少50%的频繁项集。

本文提出了应用频繁模式挖掘算法(Tocsin Fp),用于入侵报警的挖掘频繁模式,本算法的主要目标是在IDS系统的log日志中挖据报警信息的频繁模式并将所有的频繁模式关联到告警事物处理模块,然后计算每个事务处理的频繁模式数量,最后按照关系频繁模式的数量将所有的事务处理的数据集进行重新排序。Tocsin Fp算法通过模型<fk1、tocsin1k1、tocsin2k1、…、tocsin Nk1>来描述每个频繁k-pattern,其中fk1代表第一个频繁k-pattern,tocsin Nk1表示第N个警报最频繁的k-pattern。因此通过Tocsin Fp技术对告警信息的数据集进行扫描后得到了候选项集。对每个候选的警报模式执行后计算每个报警的候选模式等于所有支撑模式。应用频繁模式挖掘算法(Tocsin Fp)去分析IDS报警日志会发现许多无用的告警信息,报警日志的重要程度是通过计算每个警报事务的频繁模式异常要素(FPTE)获得。

通过上述公式可得出,当事务处理t包含更多频繁模式,其FPTE的值较大,则表明可能是无关信息。相反,如果某事务的FPTE值较小则可能代表它是个异常或需要引起系统安全人员的高度关注。利用FPTE的计算结果和IDS告警信息重新排序功能,我们将重要的告警信息置于IDS日志文件的顶部,同时将一些无关的告警日志信息放于日志文件的尾部,具体Tocsin Fp算法如下:

3 案例分析

Snort是一个开源的轻量级网络入侵检测系统,被喻为安全从业者的瑞士军刀,Snort具有实时数据流量分析和日志IP网络数据包的能力,能够进行协议分析,对内容进行搜索、匹配,检测各种不同的攻击方式,并对攻击进行实时报警,本文将使用Snort生成的告警日志进行实例分析,Snort告警示例如图1所示。

根据美国国防部高级研究计划署(DARPA)公布的数据显示,网络流量中95%以上的数据都属于正常数据,故将网络流量数据分为正常数据、已知攻击数据和未知攻击数据三类,这三类数据在经过Snort入侵检测系统检测时将分别产生正常警报(不包含任何攻击的警报)、异常警报(包含真正攻击的警报)和未知警报(暂时无法确定是否包含真正攻击的警报),应用频繁模式挖掘算法(Tocsin Fp),建立正常警报行为模式和异常警报行为模式,这样不但可以快速过滤掉Snort产生的正常警报,提取出包含真正攻击的异常警报,而且还可以在一定程度上提高系统检测未知攻击的能力。分析Snort告警日志信息可从中获得频繁警报模式数据,如图2所示。

根据FPTE计算的数据并按照升序的原则将高等级的警报信息写入警报日志中,如图3所示。

4 仿真实验

在本节中,通过基于数据挖掘的系统入侵报警识别技术对警报日志进行分类实验。利用分类器将Snort产生的报警信息进行分类后放入新的独立的日志文件中等待进一步的审查,在待审查的日志中一旦发现频繁模式,将用于进一步的报警分类。通过一定时间的自主学习,警报分类器将适应新的事物报警模式,对每个事务进行异常因素的计算,并根据计算结果对事务进行重新排列。在实验中,通过特定的IP地址模拟5名黑客对系统进行攻击,通过6个小时的实验共得到27510条日志记录信息,其中通过分类器降低误报率的结果如表2所示。

在实验中通过不同的最小支持度,测量了系统的准确性和可靠性(图4),同时基于数据挖掘的系统入侵报警识别技术还会将攻击者信息及所攻击位置输出到日志文件中。

5 结束语

【识别数据流论文】推荐阅读：

识别诊断论文09-07

文字识别：在线OCR识别更轻松！05-14