数据校验与修复(精选7篇)
数据校验与修复 篇1
摘要:介绍了在VB 6.0软件开发环境下设计海洋实时数据的采集与处理系统的方法, 串行通信采用MSComm控件实现, 将实地测量得到的温度和电导率值依次通过串口传输到软件中, 该后台软件以实时曲线绘制的方式形象、直观地显示了采集的数据, 结果证实该系统运行稳定。
关键词:VB6.0,MSComm控件,实时曲线
海洋环境监测及数据采集仪器, 用于采集不同区域、不同深度海洋环境要素的各种数据, 要求大量的存储容量及数据的实时传输。在海洋仪器回收到地面后, 需要方便的将采集数据传输到通用计算机上, 以便作进一步的数据处理和分析。相较于数据显示, 经后台拟合、处理后形成的曲线给人更直观的印象。VB是一种简单易学, 功能强大的面向对象的可视化编程语言, 以其友好的界面设计和方便的编程实现, 广泛应用于工程实践中。本系统在VB环境下针对海洋数据测量系统进行软件设计。
1 系统概述
该软件在windows操作系统下以VB为开发平台, 应用于测量系统的实时数据的采集校验与处理, 主要包括与下位机的通信, 实时曲线的绘制和显示等。本软件以RS232方式与下位机进行通信, 绘制温度电导率曲线后在每次测量后将所有数据存储到Realtime Data文本文件中。
2 串口通信
2.1 MSComm控件
首先我们要使用MSComm控件对外进行串行通信, 因此在工具箱中选择了MSComm控件的图标后, 便可在窗体安置一个MSComm控件, 如同在界面上安装一个和串行通信的渠道。接下来就是属性的设置, MSComm控件有很多属性, 如Comm Port属性用于设置或返回通信连接端口号码, 通信端口号可以设置为1~16之间的任意值, 本软件采用缺省值3;Setting属性用于设置初始化参数。以字符串形式设置或返回联机速率、奇偶校验、数据位、停止位等四个参数, 本软件采用缺省值“9600, n, 8, 1”;Port Open属性用于设置或返回通信连接端口的状态。MSComm控件提供了两种方式来处理信息的流动: (1) 事件驱动方式, 事件驱动是处理连接端口通信的一种有效方法。当事件发生时, 程序会希望被告知, 不管是发生通信事件或错误, 程序都可以利用MSComm控件来检测并处理这些通信事件及通信错误。我们预先将程序输入控件的事件程序区块中, 一旦事件发生即可自动执行该程序。 (2) 查询方式, 程序通过检查Comm Event属性的值来轮询事件和错误。本软件采用事件驱动方式。
2.2 串口通信实现
在添加了MSComm控件后, 还要对串口进行必要的初始化工作。在PC机与数据接收装置之间建立起一个共同遵守的协议, 串口初始化部分代码如下:
本软件采用事件驱动法处理通信问题, 主要是考虑MSComm控件在接收数据事件发生时能及时响应并获取缓冲区中的数据, 不需要一直让程序处于检测的状态下, 可靠性高, 如图1。
3 实时曲线的绘制
本软件采用Line方法绘制曲线, 横坐标为时间, 纵坐标分别为温度, 电导率, 分别画两条不同的曲线, 串口每读入一个数都与前一个数之间画一个线段, 以此类推画出曲线。两条不同的曲线分别用不同颜色标识。实时曲线和坐标轴通过Line方法来实现;坐标轴刻度、标签、图标等的标注使用Print方法实现。图2为曲线绘制图, 从图中可以看到曲线的形状, 并可从左边列表框中分别找到对应的纵坐标值, 可对任意时刻的变量值进行查询。
4 结论
此软件利用采集现场数据通过串口传输到PC机, 本软件对接收到的数据进行处理。可以看到采集值更新及时、准确性高且绘图线条较为平滑。可以很直观的对数据进行分析, 具有在测量现场应用的可行性。
参考文献
[1]刘天惠.Visual Basic程序设计教程[M].北京:清华大学出版社, 2006.
[2]胡亚琦, 夏宝华.数据采集在VB编程中的实现[J].甘肃联合大学学报, 2004, 18 (4) .
[3]李鸿吉1Visual Basic610中文版编程方法详解[M].北京:科学出版社, 2001.
[4]范逸之1Visual Basic与分布式监控系统---RS-232/485串行通信[M].北京:清华大学出版社, 2002.
[5]马明建, 周长城.数据采集与处理技术[M].西安:西安交通大学出版社, 1998.
数据校验与修复 篇2
一、硬盘出现坏道的先兆
硬盘坏道分为逻辑坏道和物理坏道两种,前者为软坏道,通常为软件操作或使用不当造成的,可用软件修复;后者为真正的物理性坏道,它表明你的硬盘磁道上产生了物理损伤,只能通过更改硬盘分区或扇区的使用情况来解决。出现下列情况也许你的硬盘有坏道了:
首先,你在打开、运行或拷贝某个文件时硬盘出现操作速度变慢,且有可能长时间操作还不成功或表现为长时间死“啃”某一区域或同时出现硬盘读盘异响,或干脆Windows系统提示“无法读取或写入该文件”,这些都可表明你的硬盘某部分出现了坏道。
其次,每次开机时,Scandisk磁盘程序自动运行,肯定表明你的硬盘上有需要修复的重要错误,比如坏道。你在运行该程序时如不能顺利通过,表明硬盘肯定有坏道。当然,扫描虽然也可通过,但出现红色的“B”标记,表明其也有坏道。
第三,电脑启动时硬盘无法引导,用软盘或光盘启动后可看见硬盘盘符但无法对该区进行操作或操作有误或干脆就看不见盘符,都表明硬盘上可能出现了坏道。具体表现如开机自检过程中,屏幕提示“Hard disk drive failure”“Hard drive controller failure”或类似信息,则可以判断为硬盘驱动器或硬盘控制器硬件故障;读写硬盘时提示“Sectornot found”或“General error in reading drive C”等类似错误信息,则表明硬盘磁道出现了物理损伤。
最后,电脑在正常运行中出现死机或“该文件损坏”等问题,也可能和硬盘坏道有关。
二、硬盘坏道的维修
Scandisk磁盘扫描程序是解决硬盘逻辑坏道最常用的工具,而我们常见的Format命令不能对任何硬盘坏道起到修补作用,这点大家需明白。如果硬盘出现了坏道,我们
谈谈硬盘数据丢失与修复 篇3
现在人类的生产生活已离不开计算机, 电子格式的数据显得极其重要。硬盘是电脑中存储数据的主要场所, 因此数据安全性不可忽略。数据丢失的原因各种各样, 最大因素是硬件或系统故障, 再加人为误操作;其它还包括计算机病毒和自然灾害。通常情况下, 数据恢复的成功率在80%以上。当遇到永久性数据受损时, 数据修复则是徒劳, 但这种情况极罕见。遇到数据丢失该怎么办?在本文中, 将向大家介绍硬盘数据丢失的各种成因及相应的解决方法, 当不幸发生时, 希望读者能够快速找到对应的解决方案, 保护自己的劳动成果。
二、数据损坏的各种原因
1、人为误操作
作为电脑使用者, 日常使用中难免会犯一些操作上的错误。一般可分为二类:误删文件导致重要数据丢失;没有备份就格式化硬盘导致数据大面积丢失。
2、硬盘故障
此类故障大致可分三类:
⑴硬盘分区表损坏:病毒通过攻击并破坏硬盘主引导扇区中的分区表 (DPT:Disk Partition Table) , 表中数据被破坏导致记录被损毁, 就可以毁掉硬盘分区信息, 从而达到破坏数据的目的。
⑵硬盘磁道损坏:可分为“0”磁道损坏和“非0”磁道损坏。“0”磁道处于硬盘上一个重要位置, 主引导记录区 (MBR:Main Boot Record) 就在该位置上。MBR位于硬盘的0磁道0柱面1扇区, 其中存放着分区表与主引导程序。MBR扇区的总容量为512个字节, 其中446个字节划给硬盘主引导程序, 64个字节分给硬盘分区表 (DPT) , 两个字节 (55和AA) 为分区结束标志。“0”磁道一旦遭到破坏, 硬盘的主引导程序和分区表信息将丢失, 直接导致硬盘无法引导。“非0”磁道是相对“0”磁道而言的。这些故障一般都由非法操作、电脑USB口供电不足及硬件老化所引起。
⑶其他故障:硬盘磁头损坏、电路板故障、微型马达失灵、芯片信息丢失等。
三、数据恢复的各种方案
1、人为误操作的数据恢复方案
针对这类数据恢复一般用反删除软件即可。但不能再向该分区写入任何信息, 只有这样被删除的文件被恢复的可能性才最大。FDISK (DOS和Windows系统自带的分区软件) 删除了硬盘分区之后, 表面上看硬盘中的数据已完全消失, 实际上FDISK只是改写了硬盘主引导扇区 (0面0道1扇区) 中的内容。具体来说, 虽然删除了DPT信息, 但是硬盘中的任何分区数据均没改变。删除与格式化操作对文件本身的数据部分并未发生任何影响, 因此给文件恢复创造了可能性。所谓的反删除软件其工作原理是通过对照分区表来恢复数据, 如“易我数据恢复”和Easy Recovery等。
2、硬盘故障的数据恢复方案
⑴硬盘分区表损坏数据恢复方案:一般情况下, 使用软件来修复此类故障。大部分修复软件可通过寻找未被破坏的分区引导记录信息来重建DPT。软件修复过程中, 将先寻找“0”柱面“0”磁头从“2”扇区开始的隐含扇区, 寻找被病毒挪动过的DPT, 接着寻找每个磁头的第一个扇区。整个寻找过程分为“自动”或“交互”两种方式。自动方式保留发现的每一个分区。交互方式对发现的每一个分区都会给出提示, 让用户选择是否保留。当采用自动方式重建的分区表一旦出现不正确的故障时, 我们可以采用交互方式重新进行搜索。但重建DPT功能也不能保证百分百修复好DPT。因此平时一定要备份好DPT。修复软件推荐DISKMAN和KV3000。
⑵硬盘磁道损坏的数据恢复方案:可分为“0”磁道损坏和“非0”磁道损坏。通常“0”磁道损坏的硬盘, 可以通过特殊软件来修复。修复原理:让“0”磁道偏转一个扇区, 使用“1“磁道来作为“0”磁道, 来进行使用。然后使用反删除软件对硬盘数据进行恢复。修复软件推荐DISKMAN和PCTOOLS磁盘编辑器等。“非0”磁道损坏可分为逻辑损坏和物理损坏两类, 逻辑损坏一般由非正常关机引起, 通过常规格式化操作即可修复;物理损坏则是无法彻底修复的, 但可用专业软件暂时修复。具体原理是通过屏蔽和隐藏受损的磁道达到暂时修复。修复软件推荐MHDD、FB等。
⑶其他故障的数据恢复方案:解决这类故障最直接方法就是找经销商, 现在的硬盘至少提供一年质保, 但厂商只负责修复硬盘本身, 而不管数据恢复。所以还需找专业的数据恢复公司帮用户解决。当然, 专业数据恢复费用也相当高。笔者的一些经验或许可以帮你:一般硬盘故障是由驱动芯片引起的。具体数据恢复方法:找一块正常工作的硬盘, 接好数据线, 此硬盘作为主盘 (master) 装个操作系统。然后找个CPU散热器和风扇紧贴在坏硬盘 (设为从盘slave) 的驱动芯片上进行散热。利用那块好的硬盘做引导, 加电自检通过后, 马上把电源线连到坏硬盘上, 进入系统后, 双击“我的电脑”, 如进展顺利, 应可以进入坏硬盘, 然后迅速将数据拷贝到好硬盘上。
结束语
数据校验与修复 篇4
车检器是1种交通流数据检测设备,它能检测高速公路过往车辆的车型、车速、车流量、道路占有率等参数,可以实时获取各路段交通流信息,便于高速公路运营与管理部门分析各路段运行状况,及时采取控制管理措施,并有效地利用实时的交通数据预测未来的交通状况,是实现有效的交通控制和交通诱导的关键所在[1]。
车检器还能与限速标志、情报板、摄像机等设备配合,协调全局或局部交通的控制和诱导,从而改善交通秩序、增加现有交通设施的通行能力、减少交通事故,对交通控制、事件检测、交通规划及交通安全等方面具有重要意义,最终可获得可观的社会经济效益。车检器的流量检测数据是进行交通状态估计、预测及评价的重要数据基础,也是交通管理和公众出行信息服务等的重要数据来源[2]。但是,由于设备故障、通信系统故障、环境因素异常等原因,流量检测数据存在着错误、缺失等问题,影响了车检器检测数据的精度及稳定性。这些问题的存在一定程度上影响了车辆检测数据的管理和有效应用。因此,对车辆检测数据进行修正及对车检器稳定性的评估是十分必要的。
国外特别是美国的高速公路交通流数据的校验方法发展较为成熟。比较典型的是Turochy等及美国德克萨斯交通研究所(Texas Transportation Institute)提出的基于交通参数阈值检测和基于交通流理论检测的ITS数据有效性检验规则,并将二者结合起来对数据进行判断[3,4]。该方法具有简单实用、可实时实施等优点,在美国的高速公路交通流数据有效性检验中已经得到了广泛应用。
我国在交通流数据有效性检验方面也有一定的研究。与国外主要针对高速公路交通流数据不同,我国当前的交通流数据有效性检验规则研究主要基于城市道路交通流数据[5,6,7,8],对高速公路上的交通流数据有效性研究还不够。笔者结合国内外研究成果,探究出1套判断高速公路车检器的流量检测数据的有效性并对其进行修正的方法。与传统方法不同的是,采用的方法不是针对单点数据的判别和修正,而是以天为单位进行整体的数据修正,这种微观转宏观的方法实现,大大减少了工作的复杂性,并在对研究时间跨度较长的情况下,算法优越性更突出。将分车型和总自然量的车检器断面流量检测数据分别与OD数据得出的断面流量数据[9]进行比较分析,得到相应车型的对比系数,然后通过对对比系数的处理与分析,修正各车型的流量检测数据,并对高速公路车检器的稳定性进行评估。
1 研究思路
1.1 研究思路概要
假设某车检器某车型的日流量检测数据为A,通过OD数据得出的断面流量数据为A′,则它们之间的对比系数为
将若干天数的对比系数ki进行分析,选取对比系数的平均水平k′来修正车检器未来的流量检测数据。k′的值可表示为
假设未来某天(为了消除车检器的检测精度随时间和外界环境的影响而改变较大的情况、加强k′的可用性,未来的某天应取距离k′的分析日期较近且环境因素较类似的天数)车检器此车型的日检测数据B已知,则修正后的数值^B(准确的流量检测数据的估计值)为
在修正方法和修正值确定后,对方法的有效性进行验证:将估计值^B与断面流量的实际值B′进行相对误差分析,则可验证此修正方法的有效性。绝对误差可表示为
当相对误差e小于某值时,则可认为此方法有效。
引入标准差的概念,计算修正系数k′与对比系数ki的差异程度来对车检器的稳定性进行判断,并通过同型号不同车检器的稳定性计算,得到此类车检器的稳定性总体水平。
1.2 研究步骤
包括对流量检测数据的修正及车检器稳定性的评估2方面,具体实现步骤如图1所示。
图1 车检器检测数据的处理过程Fig.1 Process of vehicle detectors′detection data
1)将车检器检测数据(包括流量、占有率、速度等)中的流量检测数据抽取出来,以天为单位进行整合,得到车检器每天的流量检测数据。
2)由于车检器某天的有效工作时间没有覆盖全天的所有时段,此情况导致日流量检测数据的不准确(检测值偏小)。为了解数据的缺失程度,需要得到车检器每天有效工作时长,并经过数据清洗过滤掉有效工作时间低的检测数据,保留有效工作时间高的检测数据。
3)设计算法将有效工作时间较高的流量检测数据经过修补得到全天的流量检测数据。
4)将全天的流量检测数据与断面流量数据进行对比,得到对比系数,将车检器不同天数的对比系数进行计算,得出车检器的修正系数,实现对车检器流量检测数据的修正,并对此修正方法的有效性进行验证。
5)设计算法求出对比系数与修正系数的差异程度,完成对车检器流量检测数据稳定性的评估,并通过对同型号不同车检器稳定性的比较,分析某一型号车检器稳定性的平均水平。
2 车检器流量检测数据的修正方法
车检器由于自身或外界(环境因素异常、交通状况变化特征明显)因素的影响,造成检测精度普遍不高的问题。为了清楚了解到某厂家某型号车检器流量检测数据与实际断面流量的差异,并将其还原到最接近实际流量的状态,本研究提供了以OD历史数据为基础来推导出修正车检器流量检测数据的方法。运用此方法,可以保证车检器检测数据的准确性和有效性。
2.1 车检器数据预处理
1)车检器流量检测数据抽取。用穷举法,将某车检器全年的检测数据进行数据抽取和计算,得到以天为单位的流量检测数据。本研究需要的数据种类有车检器编号、所处路段名称、车检器位置桩号、日期、小型车检测数、中型车检测数、大型车检测数、自然量总数、每日工作时长等。
2)车检器流量检测数据清洗规则。由于车检器自身故障或通信故障等问题,1d中某时段的检测数据存在上传失败或上传错误的情况[10],导致车检器某天的工作时长一般小于24h,检测数据的覆盖时间范围由此也低于24h。由于车检器一般具有固定的数据采集周期,将车检器某天的记录条数进行统计,即可得到车检器检测数据的覆盖时间,即车检器的有效工作时长(假设某车检器的数据采集周期为5min,某天有效记录数共有200条,则有效工作时长为1 000min即16.7h)。根据每天的有效工作时长,筛选出有效工作时间比例(1d工作时长占1d总时长的百分比)高的天数作为研究对象。有效工作时间比例可表示为:
式中:n为天数的编号,n=1~365;t(n)为车检器在第n天的有效工作时长,h;d(n)为车检器在第n天工作的有效工作时间比例。
当某车检器某天的有效工作时间比例d(n)≥D%(D取有效工作时间比例的众数)时,此条记录保留,可作为研究对象继续研究;否则,此天数据的缺失度过大,数据还原后的可靠性及真实性较低,影响后续分析结果的真实性,此条数据不作为研究对象[11]。
3)补齐成全天的检测数据。将保留下来的车检器流量检测数据(包括小、中、大型车和总流量的检测数据)根据有效工作时间,补齐成整天工作时的数值,作为车检器全天正常工作时检测到的数据。本研究将车检器1d中缺失数据的时段对应的每类车型的前15d的有效检测数据与后15d有效检测数据(有效检测数据是指完整可用的检测数据,如果遇到数据不完整的天数,跳过此天,日期向前或向后顺延,直到取到30条数据为止)求平均值作为相应车型的流量填补值,补充到当天缺失数据的时段中。按照此方法,将车检器流量检测数据补齐成全天的检测数据。
2.2 对比系数的计算
对比系数表示车检器流量检测数据与实际的断面流量数据的比值,即车检器流量检测数据的准确度。对比系数与1越接近,则准确度越高。假定车检器所在桩号位置的分车型日断面流量已知,将车检器全天检测数据与对应日期的日断面流量数据进行比例计算,得出每个车检器每天的对比系数。
对比系数可表示为:
式中:j为区分小、中、大型车及总自然量的标号,j=1~4;m为天的标号,由于部分天数的记录被清洗,m一般小于365;fj(m)为车检器第m天第j型车的对比系数;Qj(m)为车检器第m天第j型车的全天检测数据;Sj(m)为车检器第m天第j型车的断面流量。
2.3 修正系数的确定
代表某车检器对比系数的平均水平的值即为修正系数。设某车检器每天分车型的对比系数为fj(m)(j=1,2,3,4),则每类车型的修正系数为每类车型对比系数的平均值,由公式(7)得出:
式中:珚Fj表示车检器第j型车的修正系数。
2.4 车检器数据修正
车检器分车型的修正系数已通过上述步骤算出,通过修正系数可以将车检器数据修正到与实际情况相符的值。假设某路段有X厂家XX型号的车检器a,某天的检测数据、有效工作时间比例d(d≥众数D)、数据丢失的时段已知,则流量检测数据的修正方法为:将车检器检测数据缺失时段的数据根据2.1节中数据还原的方法补齐,还原成全天的检测数据,然后根据公式(8),将全天的检测数据修正到最符合实际的值:
式中:Dj为车检器第j型车的日流量修正值,j=1~4;为车检器第j型车的修正系数;qj为车检器第j型车某天的检测数据。
2.5 修正方法有效性检验
按车检器检测数据修正的方法,将某月的分车型流量检测数据修正结果与实际的断面流量数据进行相对误差的计算,然后对相对误差进行分析,验证此方法的有效性。相对误差可表示为:
式中:t为代表天数的标号,一般t≤31;ej(t)为车检器第t天第j型车的相对误差;Dj(t)为车检器第t天第j型车的日流量修正值;Sj(t)为车检器第t天第j型车的断面流量。
当某类车型的相对误差ej(t)均小于±5%时,说明修正结果与实际流量值之间的相对误差较小,证明此修正方法有效。
3 车检器稳定性分析
车检器稳定性表示车检器的实际检测结果与修正后的结果相符和的程度。车检器稳定性取值在0~1之间,值越大,则每个对比数据与修正系数的差异越小且趋于稳定。通过对比某型号不同车检器的稳定性,可得出此型号车检器个体精度的差异程度及该类车检器对抗外界因素的能力。车检器对比系数的标准差如式(10)所示,车检器的稳定性计算如式(11)所示:
式中:fj(m)为车检器第m天第j型车的对比系数;珚Fj为车检器第j型车的修正系数;Sj为车检器第j型车的对比系数的标准差;Kj(j=1,2,3,4)表示车检器检测第j型车对应的稳定性。
4 实例分析
本研究以某路段同一型号的车检器作为实例测试对象,对车检器的对比系数、稳定性和修正结果的误差进行分析,论证理论研究的可行性和有效性。下文为实例验证的结果。
4.1 车检器流量检测对比系数分析
本研究中,对比系数值为1,则与实际断面流量相符程度为100%,与值1差别越大则检测误差越大。同一型号不同车检器流量检测数据的对比系数有可能不同,本例选取同一路段上布设的均为×厂××型号的车检器9月份的对比系数进行对比分析,对比结果如图2、3所示,其中f1,f2,f3,f4分别表示小、中、大型车及总自然量的对比系数。
由图2可以看出001号车检器的总自然量与中型车的对比系数与1最接近,因此检测结果准确度较高,其次是小型车与大型车的检测结果准确度。大型车的对比系数普遍高于1,说明检测值比实际的断面流量值普遍偏大。
由图3可以看出004号车检器的中型车、大型车和总自然量的对比系数与1差距较大,检测结果准确度都比较低,而小型车的对比系数与1接近,检测结果准确度相对较高。
将图2与图3对比得001号车检器的中型车和总自然量的对比系数平均水平均达到0.9,而004号车检器的中型车和总自然量的对比系数平均水平只达到0.6,所以对此2种车型而言,001号车检器的检测结果准确度高于004号车检器。此外,001号车检器的小型车和004号车检器小型车的对比系数的平均水平均为0.8,说明二者的小型车检测结果准确度大致相等;而001号和004号车检器的大型车检测结果准确度均较低。
图2××路段001号车检器分车型对比系数Fig.2 Contrast coefficient of different models of 001vehicle detector
图3××路段004号车检器分车型对比系数Fig.3 Contrast coefficient of different models of 004vehicle detector
4.2 车检器稳定性分析
选取陕西省某3条路段上均为×厂××型号的12个车检器2013年9月的日检测流量数据进行分析,得出各车检器稳定性分布规律如图4所示,其中w1,w2,w3,w4分别为小、中、大型车及总自然量的车检器稳定性。
图4 9月份各车检器稳定性对比分布图Fig.4 Stability contrast distribution of each vehicle device in September
由图4可见,前10个车检器和第12个车检器分车型稳定性均在0.98左右,说明这11个车检器较稳定。第11个车检器中型车稳定性在0.88左右,稳定性较差,应及时对该车检器及其相关设备进行检修或提高检修频率,以保证车检器的稳定工作。
4.3 流量检测数据修正方法有效性验证
本例中,对某路段001号车检器2013年11月的日流量检测数据进行修正,修正方法采用的基础数据为2013年001号车检器全年的车检器检测数据。修正步骤为:(1)将全年的001号车检器基础数据以天为单位进行整合,并根据每天的记录条数计算有效工作时长;(2)计算每天的有效工作时间比例,并求出众数(本例中求得的众数为0.8),将有效工作时间比例大于0.8的天数进行数据补齐,剩余天数被清洗掉;(3)将补齐的数据与断面流量数据进行对比,求得对比系数;(4)对比系数求平均值得到修正系数;(5)用修正系数将11月不同天数的车检器数据进行修正。由于11月大部分天数的有效工作时间比例均在0.8以上,而有5d的数据缺失较多,均在0.8以下,因此这5d的数据不予修正;(6)修正完毕,得出修正结果的相对误差。相对误差分布范围如图5所示,其中e1,e2,e3,e4分别表示小、中、大型车和总自然量检测数据的修正结果的相对误差。
图5 11月份流量检测数据修正结果相对误差分布图Fig.5 Relative error distribution map of correction results of flow test data in Nov.
由图5可以看出,小型车和总流量的误差均在±4%之内,且大部分分布在±2%之内,说明通过修正系数对车检器流量检测数据的修正方法可行,误差较小。而中型车误差大部分在±5%之内且为负值,说明修正结果较实际断面流量普遍偏小;大型车误差在10%之内且为正值,说明误差较大且修正结果较实际断面流量偏大,这种现象可能是由于车检器将一部分中型车判定为大型车而导致的。
5 结束语
笔者提出了修正车检器流量检测数据与评估其稳定性的方法,并通过实例分析对修正方法的有效性进行了验证,对同型号不同车检器的稳定性进行了对比分析。研究结果表明不同车检器的检测结果与实际的断面流量之间存在不同的稳定的差异,而修正方法对小型车及总流量的流量检测数据有效。本研究对中型车与大型车检测数据的修正结果还不够精确,需要对其余型号的车检器再进行试验分析,总结规律,探究原因,对算法进行进一步改进。本研究提出的方法对修正车检器流量检测数据具有现实意义,为车检器的稳定性评估方法提供了新的思路。
参考文献
[1]彭春华,刘建业.车辆检测传感器综述[J].传感器与微系统,2007,26(6):4-7.PENG Chunhua,LIU Jianye.Review of Vehicle Detection Sensors[J].Transducer and Microsystem Technologies,2007,26(6):4-7.(in Chinese)
[2]秦玲,齐彤岩,吴鹏.断面交通检测数据清洗技术及其应用研究[J].公路交通科技,2007(1):159-161.QIN Ling,QI Tongyan,WU Peng,Technology and Application of Traffic Detection section data cleaning[J].Journal of Highway and Transportation Research and Development,2007(1):159-161.(in Chinese)
[3]AlDeek H Chandra.New algorithms for filtering and imputation of real-time and archived Dual-Loop detector data in I-4data warehouse[J].Transportation Re-search Record,2004(1867):116-126.
[4]LOMAX T,TURNER S,MARGIOTTA R.Monitoring urban roadways in 2002:using archived operations data for reliability and mobility measurement[R].Washington D.C.:Federal Highway Administration,2002.
[5]秦玲,郭艳梅,吴鹏,等.断面交通检测数据检验及预处理关键技术研究[J].公路交通科技,2006(11):39-41.QIN Ling,GUO Yanmei,WU Peng,et al.Key techniques research for station traffic data screening and pre-processing[J].Journal of Highway And transportation Research and Development,2006(11):39-41.(in Chinese)
[6]姜桂艳,江龙晖,张晓东,等.动态交通数据故障识别与修复方法[J].交通运输工程学报,2004,4(1):121-125.JIANG Guiyan,JIANG Longhui,ZHANG Xiaodong,et al.Approach to dynamic traffic data identification and imputation[J].Journal of Traffic and Transportation Engineering,2004,4(1):121-125.(in Chinese)
[7]朱雷雷,张韦华,聂庆慧.干线公路交通流数据有效性检验规则[J].东南大学学报:自然科学版,2011,41(1):184-198.ZHU Leilei,ZHANG Weihua,NIE Qinghui.Traffic data screening rules for highways[J].Journal of Southeast University:Natural Science Edition,2011,41(1):184-198.(in Chinese)
[8]陈大山,孙剑,李克平,张瑜.基于van Aerde模型的快速路交通流特征参数辨识[J].武汉理工大学学报:交通科学与工程版,2013(37)6:1251-1254.CHEN Dashan,SUN Jian,LI Keping,ZHANG Yu.Recognition of expressway traffic flow characteristic parameter based on the van Aerde model[J].Journal of Wuhan University of Technology:Transportation Science&Engineering,2013(37)6:1251-1254.(in Chinese)
[9]靳引利,张英,韩雪婷.基于OD的高速公路断面交通流量推算方法[J].交通信息与安全,2015,33(1):47-52.JIN Yinli,ZHANG Ying,HAN Xueting.Estimation Method of Expressway Section Traffic Flow Based on OD Data[J].Joarnal of Transport Information and Safety 2015,33(1):47-52.(in Chinese)
[10]范兆军,郑海起,戚洪海.基于信息融合技术的机械系统故障诊断框架研究[J].科学技术与工程,2006,6(23):4709-4713.FAN Zhaojun,ZHENG Haiqi,QI Honghai.Fault diagnosis system based on data fusion algorithm[J].Science Technology and Engineering,2006,6(23):4709-4713.(in Chinese)
数据校验与修复 篇5
关键词:XML,元数据,Excel,报表,XPath
0 引言
为进一步提高地质工作服务国民经济和社会发展的能力, 充分发挥地质资料信息的服务功能, 国土资源部决定推进地质资料信息服务集群化产业化工作, 从而解决地质资料管理方面长期存在资料信息分散、综合研究不够、数字化信息化程度不高等问题[1]。长期以来, 国内各地质单位所管理的地质调查数据资料以各种形式存储, 常见的有Excel报表形式。为了能够将各种样式的报表数据导入统一的数据库中, 方便地质资料的共享, 需要开展对复杂格式Excel报表导入数据库的研究。由于报表的形式过于灵活, 通用的方法是将其中的信息提取出来并存储至数据库或者其他文件中, 以便于储量评价系统能够方便的使用。本文介绍了Excel报表信息转储的元数据模型, 该模型使用XML来描述。利用该元数据模型, 能够通过通用的导入程序实现Excel数据到数据库或者文件的转储。并且通过结合XPath技术, 该元数据模型能够支持对Excel报表中数据正确性和一致性的校验。
1 基于元数据的解决方案
1.1 传统的Excel转储方案
对于大批量的Excel报表数据的转储方案, 如果采用人工逐个录入的方式无疑既费时又费力, 而且又难保证正确性, 这对一个完整的软件系统来说是无法接受的。另一个方案是可以采用批量导入的方式, 即编写程序读取Excel中的信息并将其存储为指定格式。但是由于报表的种类繁多、变化性比较大, 如果将报表的逻辑都固化在应用程序中会使得应用程序难以维护、扩展性差, 无法适应用户不断变化的要求。有一些较为成熟的数据库系统如Oracle、SQL Server等有自带的数据导入程序能够自动导入Excel数据。但是该方法同样存在很多缺点, 比如:导入程序对Excel数据的存储格式要求得比较严格, 无法适应较为复杂的报表;只能作为Excel同指定数据库之间的转储中介, 而无法将Excel数据存储为文本或者其他格式;不支持数据校验, 无法保证数据逻辑上的完整性。
1.2 元数据方案
1) 元数据
鉴于传统的Excel转储方案有种种缺点, 无法适用于灵活的报表信息提取, 本文提出了基于元数据的Excel报表信息转储策略。元数据是对数据资源的描述, 也可被解释为data about data, 即关于数据的数据。元数据是信息共享和交换的基础和前提, 用于描述数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征[2]。在软件构造领域, 元数据在程序中通常不是被加工的对象, 而是通过其值的改变来改变程序的行为的数据。
因此, 本文利用元数据来描述Excel报表的特征, 使得报表转储程序能够根据元数据的变化动态的适应于不同的报表文件, 达到以不变应万变的目的, 使得系统能从报表的逻辑中分离出来, 做到了高内聚、低耦合的设计, 最大限度地达到了软件复用的目的。
2) XML
XML是一种可以用来创建标记, 并给标记赋予语义的元语言。随着XML技术及相关标准的成熟, 其很快就成为了信息交换的标准, XML用于信息交换主要有以下几个方面的优势: (1) 可扩展性:允许根据需要定义新的标记的能力, 使其能够以意义明确的方式将不同数据结构保存在一起; (2) 自我描述性:支持丰富的数据类型, 能够很好地表现许多复杂的数据关系, 使得基于XML的应用程序可以准确高效地搜索相关的数据内容; (3) 简单性:XML文档是能进行文件结构合法性验证的纯文本文档, 易于传输和操作[3]。因此, 本文利用XML作为元数据的描述语言, 结合了XML自身的特点以及元数据的重要意义, 其优越性和作用十分显著。
3) 数据校验
地质资料数据的共享, 首先必须保证所共享数据的正确性和有效性。由于参与Excel报表数据编写的人员众多、使用习惯差异较大, 再加上数据误差等因素, 难免造成数据缺失、不一致甚至出错等情况。如果等到数据存入数据库后再进行数据校验, 那么校验和数据修订的难度将大大增加, 并且也无法做到从数据源头来控制数据的正确性。为了能及时发现数据中的错误, 最大程度上保证所要转储数据的完整性、合理性, 需要在数据转储过程中加入对数据的校验。系统还可以通过数据校验来锁定数据错误, 并生成错误报告返回给数据提供人员, 以便及时修正。引入元数据和数据校验的报表转储流程如图1所示。
2 XML元数据模型设计
2.1 分块模型
每个Excel文件都是由多个工作表 (Worksheet) 组成, 每个工作表包含了许许多多的单元格并且都可以存储独立的数据, 并且一个报表对应一个工作表。因此, 用来描述Excel报表信息的元数据被看作是和工作表一个级别的, 也就是说每一个工作表 (报表) 对应一个元数据文件。这样, 首先解决了元数据文件的描述粒度问题。
对于工作表中的报表而言, 因其应用不同导致格式千差万别。总体上来说, 报表的格式设计是偏向于用户使用习惯的, 首要目的是考虑到用户输入数据的便捷性。而目的数据源, 如数据库的逻辑结构设计是从业务逻辑和软件系统设计的常理进行抽象的, 其设计的目的是在保证业务逻辑不变的前提下, 高效的存取数据。因此, 当报表中的数据映射到目的数据源时, 有可能出现一对多的情况, 即同一张报表的数据有可能将转储至数据库的多张表或者多个目的文件。本文采用了分块处理报表的方式, 每一块对应一个目的数据文件或者数据库中的一张表, 一个报表至少由一个分块组成, 示意如图2所示。
在XML元数据中, 用节点
分块对应的目的数据源描述信息记录在
2.2 单元格模型
组成Excel报表的最基本数据存储单元就是Excel单元格。单元格模型就是对单元格的属性和行为进行抽象来描述单元格。在报表中, 单元格通常具有如下属性:
a) 以行列的形式分布, 行用“A、B、C、D、E、…”编号, 列用阿拉伯数字编号, 因此报表中的每个单元格都有一个唯一位置码类似于:A3、B10等;
b) 一个单元格只能记录一个数据, 多个同一类型的数据通常被记录在一行或一列单元格中, 因此单元格有三种数据延伸方式:列延伸、行延伸和单格方式;
c) 单元格中数据表示的意义;
d) 单元格对应的目的数据源表格的列名称, 对于数据库来说就是数据表的字段名, 对于文件就是列号或者列名称。
在单元格模型中, 用
2.3 数据校验模型
1) 校验类型划分
数据校验是基于单元格数据的校验。校验模型处理两种类型的校验:数据物理校验和上下文校验。所谓数据物理校验就是对单元格数据本身格式的校验, 包括数据类型校验、非空校验等, 该校验不关心数据的真实含义;上下文校验是对报表内部数据逻辑一致性的校验, 校验数据的合理性。
数据校验在元数据中的根节点为
2) 数据物理校验
节点
数据类型校验用节点
3) 上下文校验
通常情况下, Excel报表中各单元格数据并非是相互独立的, 而是彼此之间存在关联, 或者同外部数据存在关联, 如表2所示。
物理校验用于校验单元格自身数据的合法性, 而对于存在关联的单元格之间的一致性则需要通过上下文校验来实现。
节点
XPath是W3C制定的一个标准, 其目标是定义一种定位XML文档各个部分的语言[4]。在XPath中, 用 (/) 连接符连接分开的单步构成位置路径表达式, 它指向一个节点或者一组节点。如果XPath的开头是一个斜线 (/) 就代表这是绝对路径。如果开头是两个斜线 (//) 就表示文件中所有符合模式的元素都会被选出来, 即使是处于树中不同的层级也会被选出来。除了选择元素以外, 也可以选择属性。属性都是以@开头。在本文中,
以地层描述数据报表为例, 相邻地层中, 上面地层的底板深度应该等于下面地层的顶板深度, 描述上地层底板深度的上下文校验节点记为:
2.4 应用现状
在为全国地质资料馆建设地质资料数字资源仓储系统过程中, 各地质资料持有单位共提交了1百多种格式的Excel报表共计1万余份, 其中90%的报表都是不规则格式报表。按照本文中的方法给每一种报表格式编写与其对应的元数据模板, 然后采用统一的导入模块即可将各种格式的Excel报表导入数据库, 表3是该方法同其他两种报表转储方法效果对比表。
采用上述元数据模型的报表转储系统作为全国地质资料馆地质资料数字仓储系统核心模块的一部分, 如图5所示, 用户既可以利用Web提交报表远端数据库, 也可在本地将报表转为指定格式的文件。二者都会生成校验信息返回给用户以方便用户及时修正数据。
3 结语
该元数据模型的可行性已经在实践中得到了很好的验证。原始数据对信息系统的重要性决定了该模型具有很强的通用性。目前, 该模型在数据校验方面尚不能引入外部数据文件作为校验约束, 有待在今后的研究工作中进一步完善。
参考文献
[1]姚华军, 贺冰清, 曹献珍.推进地质资料信息服务集群化和产业化的研究[J].中国国土资源经济, 2009, 22 (9) :4-7.
[2]金均强, 王艳东, 龚健雅.基于元数据的空间数据管理分发系统的设计与实现[J].测绘信息与工程, 2005, 30 (5) :26-28.
[3]张德华.基于XML信息交换系统的设计与实现[J].计算机与网络, 2011 (1) :57-59.
[4]王宗杰, 侯贵法, 王成耀, 等.基于元数据的分布异构数据集成研究[J].软件时空, 2007 (23) :211-213.
[5]孙志东, 潘懋, 吴自兴, 等.基于XML的地理信息元数据及空间数据安全[J].测绘通报, 2007 (9) :61-63.
数据校验与修复 篇6
关键词:控制设备,模拟器,检验,超时
1 概述
某控制设备用于向执行设备装订数据和控制执行设备运行流程, 分别由后端控制计算机 (主控计算机) 和三台前端控制计算机组成, 如图1所示。在正式工作前, 需对系统进行通电自检, 即数据文件通过后端控制计算机、前端控制计算机向模拟器进行数据装订, 检查流程与设备工作的正确性和协调性。
在一次试验前, 系统对3个工位模拟器进行通电, 当流程运行至“数据装订”时, 后端控制计算机显示界面上提示1号工位“数据装订校验超时”, 流程中止。系统断电后, 重新加电运行相同工作流程, 问题复现。
2 工作原理
按照系统通讯协议的要求, 数据文件装订过程如下:
设备加电自检初始化完成后, 后端控制计算机通过网络接收数据文件 (该数据文件中包括初始化参数、数据包1、数据包2和基准数据等) , 并将该数据文件通过网络发送给前端控制计算机;前端控制计算机按照预定算法对数据文件中的相关数据进行校验, 并校验结果反馈给后端控制计算机, 后端控制卡片机判断数据检验正确后, 提示操作员允许开始执行设备的运行流程。
流程开始后, 前端控制计算机按照预定流程控制执行设备 (或模拟器) 完成上电初始化、自检等流程。当流程运行到“数据包1装订”时, 前端控制计算机按规定格式将数据包1中的数据拆分成多个小数据包, 并通过1553B总线按顺序向执行设备 (或模拟器) 进行装订 (不同执行设备装订的数据文件可能存在差异) 。
当一个数据文件所有的数据包装订完毕后, 向执行设备 (或模拟器) 发送数据包1校验指令, 然后以一定时间周期为矢量字查询周期, 接收执行设备 (或模拟器) 返回的校验结果;若在发送数据包1校验指令后40ms仍未收到校验结果, 则重发数据包1校验指令;若连续三次均未收到校验结果, 则向后端控制计算机报告“数据包1校验超时”, 并结束装订流程;若收到校验结果并且校验错误, 则向后端控制计算机报告“数据包1校验错误”, 并结束装订流程;若收到校验结果并且校验正确, 则继续后续流程。
在“数据包1装订”过程中, 执行设备 (或模拟器) 接收装订的数据, 并在收到数据包1校验指令后, 对接收到的数据包1进行校验, 并向前端控制计算机返回校验结果。
根据协议, 若数据包1校验正确, 需要将数据包1写入Flash中进行记录, 以便事后分析, 然后才向前端控制计算机返回校验结果。
3 问题分析与定位
模拟器在接收到数据后, 如果校验正确, 则需要将数据存储到FLASH中, 以便事后分析使用。由于模拟器主板用于存储数据的FLASH芯片具有写入数据需要较长时间的固有特性, 在模拟器软件设计中, 为了避免影响后续流程的响应时间, 将软件设计成完成数据存储后才向前端控制计算机返回校验结果。因此, 随着装订数据文件数据量的增加, 写入FLASH所需的时间也相应增加, 模拟器向前端控制计算机返回校验结果的时间也增加, 最终导致出现“数据装订校验超时”的问题。
查阅模拟器主板技术说明书, 其主频为200MHz。用于数据存储的FLASH芯片型号为S29GL256P (32M×16位) , 是采用90nm工艺技术制造的Mirrorbit闪存产品, 根据S29GL256P的技术手册, 该芯片写入一个字 (16 bits) 所需时间的Typical Value为60μs。根据分析, 实际上在向Flash写入数据时还包括寻址等其它复杂过程, 考虑这些因素的话, 一个完整的写周期 (写一个字) 所用的时间的Typical Value为60.155μs。
使用出现问题的数据文件1和文件2 (文件大小分别为7958字节和6262字节) 在1号、2号工位上运行数据装订流程, 并在DSP调试环境下对数据写入时间进行监测, 结果如表1。
上述试验数据表明, 向不同的FLASH芯片中写入相同字节数的数据所需时间有一定的差异;多次向同一FLASH芯片中写入相同字节数的数据所需时间也有一定的差异, 这种差异应该是由FALSH芯片本身的特性造成的。但就目前的试验数据来看, 实际测量的写入时间都没有超过相应的理论计算最大值, 符合FLASH芯片技术手册。
分析数据文件装订软件时序流程, 按照40ms超时时间计算, 考虑数据文件装订软件任务调度 (5ms周期) 和语句执行时间, 报出“数据装订校验超时”的理论总时间 (即两次重发后仍超时的总时间) 在120ms~135ms区间。结合试验数据, 使用数据文件1时数据文件写入时间随FLASH芯片个体差异而有所不同, 实际所需时间在116ms~135ms区间;使用数据文件2时实际所需时间在72ms~84ms区间。因此, 使用数据文件1时会出现“数据装订校验超时”问题, 使用数据文件2时不会出现“数据装订校验超时”问题, 排查结果与试验现象一致。
将试验现场数据文件在内场进行多次复现试验, 同样出现了“数据装订校验超时”问题。
4 采取措施
更改数据文件装订软件, 将数据文件装订校验指令的超时时间加大 (目前协议中规定为10~30ms, 数据文件装订软件实现为10~40ms) 。数据文件装订协议中规定数据文件包中单个数据包的理论最大数据量为8744字, 若按照芯片手册的典型值计算, 则写Flash用的时间为60.155μs×8744字=525.995ms, 考虑各项因素, 将数据文件装订单次校验超时时间改为200ms, 结合三次重发机制, 总的超时时间判断值设为600ms。
利用数据文件1、数据文件2在更改后的模拟器软件中进行数据装订验证, 问题得到有效解决。
5 结论
数据校验与修复 篇7
数据库的入侵检测是通过相应的措施对数据库中的异常信息采取实时有效的控制,可以及时发现并处理相应的异常入侵程序,从而保证了数据库的安全准确性。当代计算机技术不断发展完善,给人们的生产和生活都带来了长足有效的发展。人们通过互联网可以有效获取相关信息,大部分的工业控制行业、水利水电、工业自动化控制行业都通过互联网实现相关的控制操作[1]。为了更好地满足更多行业对互联网的及时有效访问,需要构建更加完善大型网络数据库的安全性。因此对网络数据库的异常入侵程序进行实时有效的检测是网络数据库安全防御的关键。
由于现在的大型数据库具有弱抗干扰性以及不能准确检测潜在风险的缺陷,因此可以通过相应的网络数据库入侵检测优化算法解决这些缺陷[2]。一般常用的数据库入侵检测算法是近乎穷举算法。由于现代大型数据仓库、决策支持系统的入侵检测都具有相当大的连接数目,导致近乎穷举算法无法高效率检测,并获取最优化结果[3]。为此现在常通过启发式搜索算法完善多连接查询,主要有遗传算法、粒子群优化算法、模拟退火算法以及遗传模拟退火组合算法,这些算法比近乎穷举算法能够更好地检测入侵程序[4,5]。同样启发式搜索算法也有相应的弊端,如GA算法具有较强的全局搜索功能却有薄弱的局部搜索功能;SA算法具有较好的局部搜索功能却有薄弱的全局搜索功能;PSO算法虽具有较强局部搜索功能但收敛速度十分慢。为此,急需新一代的算法保证数据库的安全性。
1 虚构区域多重校验的数据库入侵检测 模型
1.1 基于数据属性距离的二维区域划分
基于虚构区域多重校验的数据库入侵检测模型能够解决传统方法的相关弊端。首先通过数据库的数据属性构建用于运算校验的区域。通过Delaunay三角剖分算法对相关的虚拟属性区域进行二维划分,此方法能够使入侵检测的效率增加。Delaunay三角划分算法能够避免出现无效三角区域,因此通过这种方法对数据库中的小入侵检测区域进行相应的划分。Delaunay三角划分对相应的数据要求为:
(1)运算网络数据库里相邻的三个数据结构点间的间距,连接这些间距获取二维区域的三角形区域划分;
(2)除病态以外的数据属性三角区域将其映射到中心部分;
(3)当前区间内的数据变化避免影响相邻或相隔区域内的相关点。
一旦被划分的区域满足以上准则,就可以对网络数据库中的入侵检测进行三角划分。
1.2 数据多重校验入侵判别
数据库中的虚拟区域通过实时准确的划分,并且划分是按照数据的属性进行,从而产生了拥有同质特征的相关数据。通过以上划分方法,即使数据数量增大,也不会影响算法的检测功能。这里通过以数据入侵为基础的区域多重校验算法提高了相应的检测功能,具体方法为:
对数据属性区域进行有效划分,数据用二维坐标:(x,y)描述。如果有入侵发生,同时入侵点存在于上述通过三角划分以后的区域中,就可以得到入侵点的二维坐标。通过迭代对大规模的入侵数据进行检测。假设三角形ΔAkBkCk以及ΔDk+1EkFk是要进行入侵检测的虚拟区域。
ΔAkBkCk以及ΔDk+1EkFk是两种入侵检测区域。如果Dk为ΔDk+1EkFk映射后的二维坐标的中位点,则这个中位点通过的一条中线要通过被监测区域ΔAkBkCk。因此数据入侵就会发生于以上描述的区域内,如果分析对比
和
在上述公式里,
1.3 误差校对
如果对数据库中的数据进行入侵计算获取的结果通过相应的误差校对,就会增加结果的有效性。如果不存在误差,获取的相关结果在数学模型上通过空间的投影转换成二维的坐标下时,是一条直线。因此介于以上现象能够对运算得到的结果进行误差校对。如果平面的直线方程是x'=ky'+b,(x',y')是零误差时一个点位于虚拟坐标系下的坐标投影。由于误差导致结果不准确,可以用如下方法校正:
x=x'+Δx;y=y'+Δy。
不存在数据入侵时,平面下的坐标用(x,y)描述,通过上式与x'=ky'+b得出:
x-Δx=k(y-Δy)+b。
带入误差矫正公式:
x-(x-x0)(k1r2+k2r4)=k[y-(y-y0)(k1r2+k2r4)]+b。
运算取得的结果在虚拟平面下的坐标用公式(x0,y0)描述:
整理上式可得:
F方程是一个非线性化多参数的方程,对其 k1,k2,x0,y0,k,b求偏导数并且线性化方程。线性变换时结果不变最终带有误差的结果就不会变。将获取的入侵结果量化同时对其进行无穷大变化,就可以固定入侵结果,并且选择中心入侵点作为主定值。固定这个值,取F的一系列参数k1,k2,k,b的偏导数:
误差方程是:V=AX-L。
上式里,A=[a1,a2,a3,a4],X=[Δk1,Δk2,Δk,Δb]T,L=y-F0k1,k2的初始化以后的值是0,(x0,y0)是结果主点初值,通过数学计算进行直线拟合后得到k,b,初始化获取F0。上述的线性化方程通过最小二乘法:
X=(ATA)-1ATL。
一旦相关的直线有N个点,每一个点的坐标都能推导出一个误差方程,就会得出N个误差方程,一个入侵计算结果就会产生M条直线那么相应的误差方程数是:V(M×N)×1=A(M×N)×4X4×1-L(M×N)×1。
1.4 误差融合
经过上述方法可以实现数据的入侵检测和误差计算。但是因为不同的虚拟区域里也会有相同的数据属性点,因此也可以获得不同区域内的不同的入侵检测结果。将这些检测结果进行融合就会提高对数据的入侵检测质量。通过最小差异数据融合的方法处理各种检测结果,从而实现了判断的准确性。
通过获取的各种区间的入侵结果,得出不同区域的频率。不同区域之间的差异由数据所处的区间类型决定,数据之间的兼容性计算公式为:
式中,p为p∈r
d
对数据的有效融合,能够最大限度优化数据间的入侵,可以使传感网络在低错状态下通信。
2 仿真实验及结果分析
为验证提出方法的有效性,选取了一个大型网络公司数据库进行相关实验,构建数据的入侵属性,通过计算机仿真进行相关的对比实验。
(1)通过实测得到数据以及其属性作为实验样本,将灰色预测模型以及基于虚构区域多重校验的数据库入侵检测模型进行对比试验。同时预测样本的入侵检测误差,得到传统灰色预测模型和基于虚构区域多重校验的数据库入侵检测模型的入侵检测误差值,分别如图1和图2所示。
(2)通过单一入侵检测模型和基于虚构区域多重校验的数据库入侵检测模型本之间的对比。运用最小二乘支持向量机对得到的结果建立单一模型权重系数确定模型,根据模型得到入侵检测误差估计值,如图3所示。
通过对图1、图2与图3相对比可以得出本文模型获取的入侵检测误差值与实际测得的误差值相匹配。该模型比传统的单一模型更为有效的预测了入侵检测中数据属性变化趋势,因此增强了大型数据库中入侵检测的准确度。
通过运算三种模型的平均检测误差精度可以证明本文选取模型的入侵检测的精准性,通过图4对比结果可得,同条件时,该入侵检测模型的平均误差预测精度比传统单一预测模型和灰色模型更为有效。其原因是,该入侵检测模型是基于虚构区域多重校验,比传统方法更能高效完成对网络数据属性的检测。
通过上述实验可得知,本文描述的基于虚构区域多重校验的数据库入侵检测模型的平均检测误差较小,克服了传统方法存在搜索能力不强的缺陷,能对潜在的数据入侵风险进行有效的检测,增强了数据库入侵检测的准确度,可以广泛应用到实际操作中。
3 结束语
提出了一种基于虚构区域多重校验的数据库入侵检测模型。通过运用数据的风险属性组成一个虚拟的小型风险区域,运用多重校验的方法,计算区域中风险最大的数据属性。通过细化虚拟区域,避免传统穷举算法中,存在搜索能力不强的缺陷,对潜在的数据入侵风险进行有效的检测。实验表明,该算法提高了一些大型网络数据库入侵检测的准确率,取得了不错的效果。有很大的发展前景和实用价值。
摘要:当前的大型数据库中,广泛存在着抗干扰性差,主要是由于检测数据量的巨大使得传统的算法陷入了局部搜索效率低的缺陷当中,造成对潜在风险检测效果不明显等弊端。提出了一种基于虚构数据区域多重校验的数据库入侵检测模型。通过运用数据的相似风险属性组成一个虚拟的小型风险区域,运用多重校验的方法,计算区域中风险最大的数据属性。通过细化虚拟区域,避免传统穷举算法中存在搜索能力不强的缺陷。对潜在的数据入侵风险进行有效的检测。实验表明,该算法提高了一些大型网络数据库入侵检测的准确率,取得了不错的效果。
关键词:入侵检测,多层网络,特征参数
参考文献
[1] Ambwani T.Multi class support vector machine Implementation to in-trusion detection.In:2003 International Joint Conference on NeuralNetwork,2003:2300—2305
[2]杨义先.入侵检测理论与技术.北京:高等教育出版社,2006
[3]郑洪英,侯梅菊,王渝.入侵检测中的快速特征选择方法.计算机工程,2010;36(6):262—264
[4]张晓芬,杨义先.入侵检测系统的发展.信息安全与通信保密,2002;1(3A):76—82