多数据源

2024-08-20

多数据源（通用12篇）

多数据源篇1

对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。随着信息技术的快速发展和普及,各行各业都越来越依赖于各种各样的信息系统。对于企业而言,企业的管理和运作依赖于各种信息系统。以企业决策为例,正所谓“Garbage In,Garbage Out”,可以想象,如果作为决策支持依据的数据仓库中所存放的基础数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想。对于政府而言,许多日常政务都将通过各种信息系统来实行,因此信息的质量将极大的影响政府工作的质量和效率。数据是各种信息系统提供信息服务的基石,如果数据质量不符合要求,那么很难指望信息服务的质量能够满足人们的要求。数据清洗的最终目的是为了提高数据质量,使之符合要求,从而提高基于这些数据的信息服务的质量和效率。在分析研究了数据质量和数据清洗的研究现状后,该文重点研究了面向多数据源的数据清洗框架。

1 数据质量问题

数据质量问题,是创建数据仓库以及进行数据集成工作中的致命性问题。如果没有很深刻的分析数据中存在的问题,就盲目进行开发、集成,造成的后果不仅是数据仓库创建失败的经济损失,更有可能造成严重的决策失误。

在多数据源的集成过程中,每个数据源往往由特定的应用程序创建、配置和维护,以满足特定的服务需求。因此和这些数据源相关的数据管理系统、采用的数据模型、数据模式的设计和实际数据等各个方面都存在很大程度的异构性。此外,每个数据源中都可能包含脏数据,不同数据源对同一数据可能存在不同的表示形式、数据重复或者数据冲突。因此相同的数据质量问题在多数据源集成之后会比在单数据源的情形下表现的更为复杂和严重。除此之外,在多数据源情形下,数据清洗将面临许多新的问题,比如结构冲突、命名冲突、重复记录等。

1.1 数据清洗技术的现状

针对数据质量的现状,很多学者提出了数据清洗的框架。但是数据清洗是一个领域相关性非常强的工作,而且数据质量问题非常零散,复杂,不一致,到目前为止没有形成通用的国际标准,只能根据不同的领域制定不同的清洗算法。目前的清洗算法的优良性衡量标准有以下几个方面:返回率(Recall):重复数据被正确识别的百分率;False-positive Error:错误地作为重复数据的记录的百分比;精确度(Precision)算法识别的重复记录中的正确的重复记录的百分比;计算公式:Precision=100%-False-Positive Error。

数据清洗主要分为检测和清洗两个步骤。国内外的相关研究主要有以下几个方面:(1)提出高效的数据异常检测算法,来避免扫描整个庞大的数据集;(2)在自动检测数据异常和进行清洗处理的步骤间增加人工判断处理,来防止对正确数据的错误处理;(3)数据清洗时对数据集文件的处理;(4)如何消除合并后数据集中的重复数据;(5)建立一个通用的领域无关的数据清洗框架;(6)关于模式集成的问题。

解决数据异常检测的方法主要有:基于契比雪夫定理的统计学方法,这种方法可以随机的选取样本数据进行分析,加快了检测速度但是这是以牺牲准确性作为代价;模式识别法,基于数据挖掘和机器学习算法来查找异常数据,用到关联规则算法;基于距离的聚类方法,重点在于它的类的评测标准为欧几里德距离或Edit距离,以此发现数据集中的重复记录;增量式的方法:如果数据源允许,可以随机的方法获取元组,输入一个随机的元组流。

2 几种数据清洗工具的比较及其存在的问题

目前,有多种数据清洗的商业工具用来支持数据检测和数据清洗转换,尤其是针对数据仓库方向的。同样,它们主要有两种形式:检测异常数据的工具;数据转换工具(针对异常数据的清洗)。其中数据分析工具可以分为提取轮廓和数据挖掘两种。

MIGRATIONARCHITECT Cevoke software是一种数据轮廓分析工具,对于每个属性,产生下列实际的元数据:数据类型、长度、离散的值以及它们的比例、最小值最大值、以及唯一性。同时它也为数据转换提供目标图表。数据挖掘工具,比如WIZRULE可以展现三种规则:算法模式、if-then规则、基于拼写规则标志的错误姓名。INTEGRITY(vality)使用某些模式和规则来定义和完成数据清洗转换。它进行一些语法分析、数据类型模式和出现频率分析。其中还有一些语言规则,包括一些列操作(比如:移动、拆分、删除)和行操作(比如合并、拆分)还有一些特殊的清洗工具和ETL工具。比如较为成功SAS,它基于DBMS来建立一个存储区,用统一的方式管理元数据。这些元数据关系着源数据、目标表、映射、描述语言等等。

这些数据清洗工具普遍存在的问题是随着数据源特性和实际数据的不同,各种元数据也可能完全不同,因此对数据清洗过程的具体要求会不一样。因此数据清洗工具应该具有足够的灵活性,从而对特定的数据质量问题能够处理各种不同的数据源。

3 数据清洗的发展趋势

数据清洗是一个非常复杂的任务,并且包含着一些互相关联的问题。一方面转换必须尽可能的通用性,而且不依赖大量的编程工作,也就是支持在多领域内的多种错误检测算法;另一方面,系统需要支持一种简单的接口定义来进行错误检测和数据转换。

因此,需要在现有的算法和功能基础上,设计相应的数据清洗系统,使他具有相对的通用性、和可交互性。通用性主要的实现技术有数据的标准化、术语话,通用的接口标准,即通用的过程描述语言,通用的数据结构以支持用户进行扩展。可交互性支持用户通过系统反馈的检测统计图表,实时的修改转换过程,避免用户与系统的隔离。同时,国外的数据清洗工具价格较高,这为我们国内的企业创建数据决策支持系统带来很大的困难。因此,当前我们研究的重点是如何实现面向多数据源的数据清洗框架,并将其应用于通用的数据集成平台中。

4 面向多数据源的数据清洗系统概要

经过对数据质量的分析,数据清洗技术的现状和常用的工具的分析后,我们提出了一种面向多数据源的数据清洗系统。在此做简要的概述,将在另外的文章里做详细的系统构造,系统算法,系统语言介绍。

4.1 系统设计思想

首先,将非标准数据统一化成结构数据;根据数据字典消除不一致的数据(比如缩写),将元素标准化;对标准化的元素进行一致性校验,将内容上的一些错误进行修改;在其它记录中寻找相似重复记录,也就是进行匹配(matching);根据匹配的结果进行处理,删除部分记录或者多个记录合并为一个更完整信息的记录;同时将这些步骤中的处理过程和结果写入元数据存储中心,以便进行后续清洗过程,避免重复清洗;也便于用户理解数据库,以及更好的进行切片、切块等操作。其中增添辅助的知识库功能,主要用于下列方面:辅助进行数据类型检查、数据格式规范化、不一致的缩写等处理过程;将预处理后的数据通过知识库引擎和一系列的规则进行处理;以及处理一些规则处理无法完成的重复记录。

在这些处理过程中需要大量的元数据,象实例层数据转换定义、匹配、工作流定义等,这些元数据被保存于基于DBMS的存储库中,以记录源数据的更新过程,相应的源数据、目标数据记录等。

4.2 系统初步设计图

由图1可知,系统能够满足不同应用和用户的需要,处理的数据可以是文本数据,包括数据文件和描述数据文件格式的格式描述文件;也可以是数据库中的数据。

该系统根据用户提供的资源的名称来定义和执行相应的功能,这些名称称为术语,通过术语来命名资源和功能的方法称为术语模型。这是该系统的基础。该系统处理和产生的数据都是结构化的。它包含存放数据的数据文件和描述数据存放格式的格式描述文件两部分。而数据文件中存放着一系列记录,每条记录占一行,每条记录包含多个数据,这些数据由列分隔符分隔;格式文件就存储这些分隔符,以及每列对应的术语。

4.3 系统功能

系统的功能包括数据分析、数据标准化、数据增强、记录匹配/合并、规则和字典管理器。各个功能模块通过通用的过程描述语言来接口,而且数据具有相同的数据结构。同时该系统可以用相应的语言来定义五种逻辑操作。包括映射操作、视图操作、匹配操作、聚类操作、溶合操作。具体详细的定义、算法我们将在另外的文章里做更为详细的介绍。

数据分析,根据用户定义的模式对异构的数据进行分析,使之具有良好的通用的结构。

数据标准化,通过用户定义的规则或者字典将原始数据中的特定属性的数据转变为统一的标准形式,使得数据规范化。

记录和匹配,合并两个数据集中的记录,或者检测并合并同一个数据集中的重复记录。解决这类问题需要的技术有:记录匹配算法、重复检测算法、合并过程中的冲突解决算法。

数据增强,补充原始数据中不完整及遗漏的字段。数据增强通常有三种方式:(1)对数据中不完整的字段,补充必要的信息,使之完整。例如,给电话号码加上区号;(2)为空值字段设置合适的值(3)增加字段的方式添加额外的信息。

用规则字典管理器模块来管理外部字典、用户定义规则和模式的定义。

4.4 系统模型

在这个系统中,我们将两种行为分开来,分为物理层和逻辑层。其中逻辑层用sql扩展支持的语句来定义数据转换的模式,物理层选择最佳的算法来完成转换。系统的基本思想是通过与用户之间的交互,来定义相应的转换规则和任务描述,以尽可能少的依赖特定的应用。通过术语模型来实现对字典、规则等资源的描述和管理;通过过程描述语言(PDF)实现模块之间的良好的交互性,用户可以通过定义新的转换功能来完善和改进转换系统。

逻辑层中,首先为每条输入记录增加关键字;然后从每条记录中提取不同的数据流中;用辅助字典来保存从每个记录中提取出来的相关的内容,在每个数据流中消除冗余信息。将去处冗余信息的数据流集成起来。在这一层中,主要是定义数据转换流图,其中数据清洗操作具有以下几种类型:映射、视图、匹配、聚类和溶合。其中输入输出的数据流是以关系数据库为逻辑模式的,逻辑层操作的设计用SQL语句来初步设计定义。

物理层,选择一些最优算法来完成数据清洗程序的执行速度。该系统将多个最优的算法联系在一起,并且使得用户在给出的匹配操作的逻辑定义中根据一些参数来进行最优化定义。例如,我们用到的一些算法有:nested loop(NL);multi-pass neighborhood method(MPN)以及neighborhood join(NJ)。通过一个衡量标准:recall(返回率:重复数据被正确识别的百分率),来比较几种算法的优良性。系统能够接受并处理这些信息,来选择算法来完成相应的匹配。其中用户可以控制最优化算法的使用,用户来决定在逻辑层中匹配的标准,然后提供必要的信息来完成最优化的执行。

目前,该系统解决的问题有以下几点:(1)将逻辑层的转换定义与物理层的转换实现分开来。(2)清洗结果的分析与反馈。(3)用可交互的功能来改进数据清洗程序。(4)实现面向多数据源的数据清洗功能。

5 结语和展望

数据清洗在很多领域,包括数据仓库、数据集成都是非常重要的任务。如果没有很好的分析数据中存在的质量问题,并且很好的设计集成的数据框架与图表,而是盲目的将海量的数据集成,以供分析决策,势必造成严重的后果。因此,提出一种面向多数据源的数据清洗框架是非常及时的。它将数据分析和设计清洗转换图与选择算法进行数据转换独立开来,同时允许用户经常通过错误的检测的反馈来定义新的转换。因此,它具有较强的面向多数据源的特性。总之,良好的数据清洗是构建数据仓库和进行数据集成的关键前提,越来越多的学者致力于此,并且将重点放在了数据清洗框架的研究上。将来,商业的通用的数据清洗平台将为数据集成提供越来越方便的使用。

参考文献

[1]H.Galhardas,D.Florescu,D.Shasha,and E.Simon.AJAX:An Extensible Data Cleaning Tool[J].In SIGMOD(demonstration paper),2000.

[2]H.Galhardas,D.Florescu,D.Shasha,E.Simon,and CA.Saita.Declarative Data Cleaning:Language,Model,and Algorithms.Extended version of the VLDB[J].01paper,2001.

[3]V.Raman and J.M.Hellerstein.Potter's wheel:An Interactive Data Cleaning System[J].In Proc.Of VLDB,Rome,2001.

[4]L.V.S.Lakshmanan,F.Sadri,and I.N.Subramanian.Schem-ma SQL-A Language for Interoperability in Rela-tional Multi-database Systems[J].In Proc.Of VLDB,Mumbai,1999.

[5]M.L.Lee,T.W.Ling,W.L.Low.A Knowledge-Based Framework for In-telligent Data Cleaning.Information Systems[J].Journal-Special Issue on Data Extractiong and cleaning,2001.

[6]Object Management Group(OMG).CWM Meta Store Creation Script.Zip[S].http://www.wiley.com/legacy/c o m p b o o k s/p o o l e/C W M G u i d e/software.htmo,2002-10-25.

[7]E.Rahm,H.H.Do.Data cleaning:Problems and current approaches[J].IEEE Data Engineering Bulletin,2000,23(4):3～13.

[8]Xi nwen Z hang,Sehong Oh,Ravi Sandhu.PBDM:A flexible delegation model in RBAC[J].The8th ACM Symp on Aess Control Models and Technologis.(SACMAT2003),Villa Gallia,Como,Italy,2003.

[9]Object Management Group(OMG).Com-mon Warehouse Metamodel(CWM)[S].ht tp://www.omg.or g/cgi-bin/doc?Ad/2001,02,01.

[10]H.H.Do,E.Rahm.On Mtada Interoperability in Data Warehouses[J].Tech.Report1-2000,Department of Comouter Science,University of Leipzig.http://dol.uni-leipzig.de/pub/2000,13.

多数据源篇2

1、 SGSN主要提供的功能为(BCD)，

A、提供分组数据网的路由选择，协议转换 B、负责GPRS移动性管理，接入控制 C、执行数据压缩，加密和计费 D、通过Gn接口连接GGSN

2、局数据的修改应掌握三性,他们是(ABC)。

A、数据修改的可信性B、数据修改的及时性C、数据修改的准确性D、数据修改的标准性E、数据修改的完整性

3、 GPRS手机Attachment过程需要参与的网元有(ABD)。

A、MS B、SGSN C、GGSN D、HLR E、MSC

4、下面(ABCDF)关于关系型数据库的描述是正确的。

A、系型数据库将数据简单地表示为一个或多个表格的内容。

B、关系型数据库的表中的每一行称为记录，每个记录由若干字段组成，一个记录描述一个事物。

C、表的各字段是该事物各种性质的.描述，在关系数据库中这些字段称为属性。

D、关系系统的一个重要优点，是容易支持由计算机程序或直接由人访问数据的能力，非常适宜作查询语言，

E、关系系统的一个重要缺点，是数据索引关系复杂，查询等操作系统开销大，不适用于大型数据库系统。

F、最典型的关系系统产品是DB2, DBASE，Foxpro，SYBASE，ORACLE系列。

5、层次数据库中的实体被形象的命名为(ACD)。

A、根 B、枝 C、中间节点 D、叶

6、作为路由器，必须具备的功能包括(ABC)。

A、两个或两个以上的接口 B、协议至少实现到网络层 C、具有存储、转发、寻径功能 D、支持HTTP方式管理

7、我省二次拨号系统由(ABD)部分组成。

A、SC2200信令服务器 B、AS5300话路网关 C、C7Server信令服务器 D、SLT2600信令路由器

8、配置一个路由器，可以通过以下(ABC)方式。

A、Console B、AUX C、TELNET D、FTP

9、数据库的操作状态包括(AD)。

A、open B、normal C、immediate D、mount

10、 APN由(AB)组成。

汽车企业该多重视大数据才好？篇3

当时，采访的话题是中国汽车企业是如何在海外扩张，福田汽车的海外发展之路非常有特色。我们知道，很多中国车企走出去，只是采用外贸的方式。最多是SKD、CKD件往外走，但是福田不一样，是直接开工厂，这个玩法是真正接地气的做法，也是考验能力的做法。

当时采访过程中，我对王总有一个观点印象特别深，他说，在商用车领域，我们是不害怕外国人的，因为谈性价比，没有哪个国家的产品比中国产品好，所以，在市场份额上，我们可以远远超过国外竞争对手。

这个观点，的确有数据支撑。在卡车或者大巴的市场上，特别在国内，中国产品占着90%以上的市场份额，这是了不起的数字。而在乘用车市场上，就没有这么乐观。

我们发现，一旦我们需要品牌让消费者有归属感，不单单考虑性价比的时候，中国品牌就不行了。或者说，中国汽车品牌就不行了。

那么，未来这个情况会改变吗？估计很难改变，因为2B的生意和2C的生意差别很大，我们希望2C，没有品牌是玩不转的。

所以，中国汽车企业，特别是2C的汽车企业，我们原来一直说面临着两场仗要打。其实，现在看来是三场仗要打，有一场仗是一直在打的，就是品牌塑造之仗。你如何成为一个消费者认可的品牌，有溢价的品牌。

另外两场仗是什么呢？一个是，汽车企业要从制造企业，向服务企业转变。第二是，从非互联网企业向互联网企业转变。

我先说第一个转变，第一个转变不容易。举个例子，发生在我自己身上。我2013年的9月订了一台车，在2014年1月份提车。中间有5个月时间。除了我自己主动联系4S店外，我没有接到任何4S店主动知会的信息。

大家都有网购的经历，比如说双十一，如果我们买的产品因为物流、断货，或其他原因慢了。我们隔三差五都要收到卖家的短信：“主人啊，你买的篮球鞋正在向你飞奔而来，现在路途遥远、拥堵不堪，我来晚了，你要想着我，原谅我啊！”

我原来想发火，但是看到短信，一笑，算了吧，都不容易啊。所以，转变思维是从设身处地为消费者着想开始的。

汽车企业如果丧失了2C的能力，就无法接触到一个个普通的消费者。整个产业链分工更细了，汽车企业在整个产业链条上被往后挤了。汽车企业前面，可能是一个互联网企业来接触C端，它们更专业，更懂营销，更理解消费者，更能服务好。

所以，汽车企业如果不想丢失C端，那么转型为一个服务为核心的企业是必须的。至于制造，的确重要，但没有那么重要了。

最后一个转变就是非互联网企业向互联网企业转变，其实刚刚已经谈到一点互联网企业的特点。因为今天是谈数据的主题，我从数据的角度去谈向互联网企业的转型。

我再举个例子，是关于农夫山泉。农夫山泉负责查店的员工，每天要看15个店，每个店拍10张照片，拍摄超市里面的矿泉水货架。一张照片1M，一人一天拍摄150M的照片。农夫山泉有10000个这样的员工，一天就产生1500GB，一个月是45TB的照片。这些照片是一座金山。

图片、影像，是非关系型数据，它的统计、分析一直是难点。但是如果突破之后会出现什么情况呢？什么样的堆法，消费者更在意;堆在什么位置，更方便拿;竞争对手的堆头变化，对我们产生了什么影响;各种颜色的包装，会不会产生影响。

中国最大的汽车企业上汽集团，它现在大约卖出去各种车辆近4000万台。如果上汽能够真实、有效的捕捉这些数据，那么它产生的效用是非常巨大的。但实际上呢？可能10%的车主资料为整车厂所掌握就了不起了。

因为，厂商与经销商之间，信息有损失;经销商与客户之间信息有损失;客户在出保之后，根本就不在厂家信息捕捉范围内了。

如果，我们把“造车”这件这么重的、价值这么大的事情都做了;如果这件物品是除了手机以外随身性最好的产品;如果这件物品意味着巨大的ARPU值（平均购买力）。那么，我可以说，厂家是守着一座金山，在干苦逼的事情，以福田为例，它的利润率仅为5%左右。

我们希望用户画像前所未有的清晰，而不是现在“85后的城市白领”之类笼统的概念，那么整个基于数据挖掘、洞察、行动的组织架构，将是努力的方向。

最近有一个新闻，李克强总理视察深圳前海微众银行，有一个演示，一个搞物流的兄弟，对着镜头扫了一下自己的头像，征信系统就认定可以放给它3.5万元贷款。这是基于他国外交易信息的大数据分析。李总理敲了“回车键”，批准了这笔贷款。

未来，也许已经近在咫尺了。

基于多数据源的全文检索设计方案篇4

某公司具有良好的信息化建设基础, 内部运行着大量的业务系统, 信息丰富, 但是数据资源相对分散, 缺乏一个集中展现和服务的入口, 没有提供准确高效的检索手段。经过调研了解到, 在内网环境中, 需要进行全文检索的资源主要有四种:

1) 各种关系型数据库。

2) NOTES数据库。

3) 外购的万方数据等资源。

4) 以WEB形式发布的信息服务网站。

以上各种数据资源, 需要面向公司内部用户实现集中、统一的搜索服务。新建的搜索服务, 需要与内网统一身份管理系统IBM PORTAL集成, 文档的查询和阅读权限, 需要继承文档源系统的读权限。要求读权限一致, 即如果某条信息 (数据或文档) 对当前检索用户来说在业务系统不可读, 则该信息 (数据或文档) 在检索结果不显示 (不可读) 。

二、设计方案

根据项目需求, 我们采用XXX全文检索数据库 (简称XXX Server, 后同) 作为各种应用系统的全文索引中心和检索引擎。采用搜索引擎的机制, 通过“监控”和“抓取”各个原有内部信息系统中的信息资源, 建立集中的信息资源库和有效专业的索引机制, 实现统一跨源检索, 为内部工作人员提供统一、便捷的内部信息搜索服务。

技术实现逻辑结构如图1所示。

一) 、多数据源采集

对于后台为关系型数据库的应用系统, 利用X X X G A T E W A Y (f o r RDBMS) 把需要参与全文检索的数据同步到X XX S e rv er中。目前, 主流的RDBMS例如Oracle, SQL SERVER, S Y S BAS E等, XX X S er v e r都可以支持。在关系数据库中, 需要同步移植的数据记录, 可以是一张或者几张表, 也可以是视图。关系数据库的数据同步和权限控制的机制比较灵活, 往往都要结合原系统的业务逻辑, 在这一方面, 可以根据具体权限逻辑进行详细设计并实施。

对于N o t e s系统, 利用X X X GATEWAY (for Notes) 可以实现数据从Notes系统向XXX Server的迁移和同步。数据迁移以系统“任务”的方式进行配置和管理, “任务”可以设置自动执行的时间计划, 以满足用户对数据搜索和原系统数据之间实时性的要求。

外购的万方数据等资源, 由于加密和版权保护等原因, 没法直接把数据导入到XXX Server, 这一部分数据, 需要利用AJAX等技术, 在向XXX Server提交检索请求的同时, 异步地向万方的数据应用请求检索, 把来自不同系统的检索结果, 在WEB表现层进行整合。

对于信息服务网站, 比如竞争情报系统等等, 在项目中通过XXX网络信息雷达对网站数据进行抓取, 保存在X X X S e r v e r中。

二) 、权限一致的实现思路

基于关系数据库或者Notes开发的业务系统和XXX Server采用的权限模型和接口方式是不一样的, 也就是说因为没有共同的标准可遵循, 所以采取在应用层集成的方式实现数据检索的权限一致, 应用层负责这两种权限模型的转换和处理, 可以分为两种情况:

1. 检索前置处理。

通过X X X GATEWAY把RDBMS或者Notes中的权限数据同步到XXX全文检索数据库中, 然后XXX Server中构造检索表达式的时候“与”上权限条件, 以此来模拟在业务系统中的读权限;

2. 检索后置处理。

对于不能按照方法1处理的情况, 只能考虑先从XXX全文检索数据库中检索出文档的主键值, 然后在Notes系统中的权限判断。这种方式缺点是性能比较有影响, 另外难以解决翻页问题, 也无法报告命中数 (除非取完结果集) 。如果应用允许加上一个条件, 只限制细览, 对概览不限制, 则只需要在细览中进行权限判断, 这些缺点可以很好消除。

当接收到用户发送的检索请求时, 不考虑业务系统权限逻辑, 按最大权限检索, 得到所有符合的数据集后, 与业务系统权限逻辑进行映射, 过滤为正确数据。

权限一致发生在全文检索之后, 称之为后置处理。

三) 、综合检索应用模型

搜索系统的WEB发布, 利用XXX S erv er开发接口, 在项目中开发搜索发布系统。在用户通过对XXX Server的搜索操作得到文档记录后, 文档对象的获取可以直接从XXX Server获取, 也可以以文档ID从源系统中获取, 具体实现方式可以根据具体数据库的情况, 项目实施过程中进行选择。

三、结束语

基于多种数据源的检索方案, 像搜索互联网一样搜索内部信息, 有效解决了“多个信息系统”和“统一检索入口”的矛盾, 使得信息的全面性和精准度得到很大程度的提高。此外, 统一搜索服务的建设没有破坏原有各个系统的权限, 搜索系统用户和原有各个系统权限保持一致, 继承原有系统权限, 没有权限的检索不到, 有权限的可以检索到, 保证了搜索的安全性。

摘要：该文以某公司的全文检索项目为背景, 介绍了基于多数据源的全文检索设计方案, 能够实现对多个信息系统进行统一检索的功能, 并继承原系统的权限, 极大地方便了用户的使用, 提高了检索的效率。

多数据源篇5

importjava.io.*;

import java.sql.*;

public class ToOracle {

public static void main(String[] args) {

int n = 10;//每个线程执行的个数

//System.out.println(“start action!!!!!!”);

ToOracle ac = new ToOracle();

ThreadRun[] testrun = new ThreadRun[21];

for (int i = 1; i <= 21; i++) {

testrun[i] = ac.new ThreadRun();

testrun[i].TRun(n);

System.out.println(“线程” + i + “已经启动”);

}

//testrun[1] = ac.new ThreadRun();

//testrun[1].TRun(10);

for (int i = 1; i <= 21; i++) {

testrun[i].TExit();

}

class ThreadRun {

String blobname = “D:eclipsetesttest1.txt”; //blob文件名

String clobname = “D:eclipsetesttest2.txt”; //clob文件名

String in = “insert into ”;

String in1 = “(order_id,ric_code,siz,price,trade_datetime,status,testblob,testclob) values(9,´asdfjkl´,21,123.34567,sysdate,´nill逆耳´,?,?)”;

String tablename = “orders1”;

String sqlstr = “”; // sql 语句

ThreadUseExtends thread = new ThreadUseExtends(blobname, clobname,

sqlstr);

public void TRun(int n) {

sqlstr = in + tablename + in1;

thread = new ThreadUseExtends(blobname, clobname, sqlstr);

//thread.start();

thread.run(n);

* int n=10; for (int i = 1; i <= 21; i++) { while(0

* in + tablename + in1; thread[i] = new ThreadUseExtends(blobname,

* clobname, sqlstr[i]); thread[i].start(); n--; }

* System.out.println(“线程” + i + “已经启动”); }

//System.out.println(“线程1已经启动”);

}

public void TExit() {

thread.interrupt();

}

class ThreadUseExtends extends Thread {

String filename1;//blob filename

String filename2;//clob filename

String str;

//构造函数要有(blob文件名,clob文件名,sql语句)

public ThreadUseExtends(String name1, String name2, String sqlstr) {

filename1 = name1;

filename2 = name2;

str = sqlstr;

}

ReadFiles r1 = new ReadFiles();

public void run(int n) {

while (n > 0) {

try {

String url = “jdbc:oracle:thin:@193.9.200.111:1521:ora9i”;

String login = “system”; // use your login here

String password = “ti”; // use your password here

Class.forName(“oracle.jdbc.driver.OracleDriver”);

Connection con = DriverManager.getConnection(url,

String testLong = r1.ReadFile(filename1);

String testLong1 = r1.ReadFile(filename2);

byte[] ba = testLong.getBytes();

System.out.println(“str=” + str);

//String strSql = str; //“insert into

// orders(order_id,ric_code,siz,price,trade_datetime,status,testblob,testclob)

// values(8,´asdfjkl´,21,123.34567,sysdate,´nill逆耳´,?,?)”;

PreparedStatement stm = con.prepareStatement(str);

stm.setBytes(1, ba);

StringReader test = new StringReader(testLong1);

stm.setCharacterStream(2, test, testLong.length());

stm.execute();

stm.close();

con.close();

} catch (Exception e) {

e.printStackTrace();

}

n--;

}//while

}//run

}//ThreadUseExtends class

// ReadFiles class for read text!!

class ReadFiles {

public ReadFiles() {

}

//ReadFile method,read file

public String ReadFile(String FileName) {

String Name = FileName;

String File = “”;

try {

FileReader ReadF = new FileReader(Name);//读文件

BufferedReader HuanChong = new BufferedReader(ReadF);//文件读缓冲.

try {

File = HuanChong.readLine();

} catch (IOException e1) {

// TODO 自动生成 catch 块

e1.printStackTrace();

}

} catch (FileNotFoundException e) {

// TODO 自动生成 catch 块

e.printStackTrace();

}

//System.out.println(“文件：”+File);

return File;

}

}//ReadFiles class

}//ThreadRun class

}//ToOracle class

多数据源篇6

关键词：音频；数据采集；监测

中图分类号：TH814文献标识码：A文章编号：1007-9599 (2011) 08-0000-01

Multichannel Data Acquisition and Monitoring System Based on FPGA

Liu Jianxing

(Chongqing CISDI Engineering Co., Ltd.,Chongqing401122,China)

Abstract:This research proposes a hardware reconfigurable system for audio acquisition,processing,storing and monitoring.This proposed system is capable of collecting and processing multi-channel audio sources.The design uses system-on-chip technology and hardware-software co-design to integrate all functions needed by this application into a single Field Programmable Gate Array.

Keywords:Audio;Data Acquisition;Monitoring

一、引言

数据采集系统主要分为三大类。第一类是基于计算机完成的。主要缺点是：高成本，便携性差，高能耗，硬件架构固定，不适合扩展等。第二类是基于MCU的嵌入式数据采集系统。具有一定的优势：成本低，体积小，低功耗等。然而，由于它固定的硬件结构，不可以重构设置，在很多领域限制它的应用范围。在一些危险的环境中，或者是在孤立的区域作业，基于硬件可重构的系统就显得意义非凡。我们可以遥控他的硬件，对结构实现重构达到实时功能使用的目的。因此，我们将采用第三类音频数据采集系统，基于硬件可重构现场可编程门阵列（FPGA）来完成整个系统设计。

二、方案设计

本研究提出一个独立的硬件可重构数据采集和监控系统。该系统可以从多通道中采集并行数据，并将数据储存在SD卡中。FPGA作为片上系统SOC（System On Chip）的核心部分，主要包括数据采集和特征量的提取。另外，IO装置的驱动（即Flash存储控制器）是通过FPGA的嵌入式设计实现的。该系统同时具有网络接口单元，可以远程数据传输，通过有线或无线的方式连接到网络。由于主要功能单元集成在一个芯片上，所以实现了低成本，小体积的优点。同时借助FPGA所具有的硬件动态可重构性，将很好的实现鲁棒性和容错性。

图1.系统框图

三、系统设计

将该系统从功能上划分为两个子系统：1.嵌入式数据采集系统，2.嵌入式flash存储器驱动。

（一）嵌入式数据采集系统。如图1，n路音频信号连接在复用器上。FPGA的同步模块可以保证进入信号的模数转换同步。运算单元可以完成很多初始化操作。I/O接口主要实现外设（如显示器）的工作。Flash存储器驱动是完成存储子系统的工作。A/D转换器参照使用WOFSON WM8731，同时与之比较。WM8731可以支持从8KHz到96KHz的采样频率。内含的数字滤波器可以保证音频的输出质量，音频数据被连续的送到FPGA中进行处理。

（二）嵌入式flash存储器驱动。该系统对输入音频信号采用Wav格式的脉冲编码调制方式。音频文件以16bit，50KHz频率存储。该子系统采用了多块写入方式。

四、实验装置和结果

响应时间主要是复用器的多路选择时间和信号的建立时间。对WOFSON WM8731进行响应时间测量，结果如图2所示。通过对WOFSON WM8731A/D转化器的初步测量，他的响应时间大约是300毫秒。对于频率50KHz的信号，响应时间大约等效于15000个样值点。图2展示了快速多通道TDX系统，响应时间缩短至5毫秒。

图2.多路复用响应时间

五、结论

本文讨论了设计、实现与测试高速低成本多通道的数据采集系统。采样数据被存储到SD卡中作进一步分析，或用于归档。该系统的优势主要体现在：低功耗，体积小同时不依赖计算机完成整个系统功能。该设计成功的关键，在于FPGA芯片可以将不同的功能的模块映射到一个单一芯片中。

实验数据表明，该系统有效降低了响应时间和建立时间，提高了系统精度。采样数据是使用多块写入方式存储到SD卡中。

参考文献：

[1]吴豫,孟宪元.Flash编程器的FPGA实现[J].半导体技术,2003,5

[2]贺知明,黄巍,向敬成.宽带雷达中消除“盲速”的动显方法研究[J].电子科技大学学报,2003,6

[3]吴彪,陈娟.雷达信号处理MTI/MTD的性能分析和仿真研究[J].航天电子对抗,2006,3

[4]陈方晖.分布式算法FIR滤波器在FPGA上的实现[J].科技信息（学术研究）,2007,10

[5]唐素霞.PCB板的设计要析[J].凯里学院学报,2009,3

多数据源篇7

近年来, 水利信息化建设围绕着力解决水资源的建设也在逐步开展。水利信息化建设主要包括防汛抗旱、水利电子政务、水土保持监测与管理信息系统等一系列水利业务应用系统建设, 保证信息资源在采集、处理、交换、传输过程中有统一的规范, 最大限度地实现信息资源共享, 使水利业务信息系统得到协同发展, 为水利信息化建设提供保障。但各种信息化系统不断的升级改造, 忽略了新老信息化系统的兼容整合、新旧采集设备的联合使用。在资源上造成浪费, 导致成本提高。

就以上问题, 本系统按照以下的设计要求进行开发实现:

整个系统的建设前期应以设备可靠、技术先进、实用为主。

系统应考虑可扩充性、可升级性、开放性以及数据库的兼容性, 保证用户有广泛的选择软硬件平台的自由, 使用户的投资得到长期保护。

系统设备的选择应以结构简单、技术先进、可靠性高、便于维护、以国内外运行成熟的定型产品为主。

传输体制及组网方式应力求简单, 便于用户后期的维护、检修。

系统应考虑到工程的防洪及水调联网运行, 以及今后系统开展的预留接口。

因此, 整个系统分为两部分:负责数据采集的数据交换系统 (Data Exchange) 部分;

负责数据整合管理的信息管理平台。

2 数据交换系统 (Data Exchange)

2.1 多种硬件设备接入

水利信息化管理系统一般都要接入多种硬件设备, 每一种设备的解析协议各不相同。整个系统平台要承载多种业务类型, 必须对业务类型进行分类, 以便对不同的业务采用不同的技术和协议。

数据解析入库要求进行统一处理, 设备的安装调试等需进行专门的配置。数据交换系统除基本的数据采集功能外, 还应提供远程控制的功能、远程唤醒、远程历史数据召录等。

本文就多种设备协议解析平台的功能, 主要是对不同的多种采集数据RTU或数据终端通过多种通讯方式进行统一的数据接收、解析、入库等。

2.2 多种通讯方式接入

通讯方式选择受影响的因素很多, 如距离、障碍物、干扰、磁场、地势、信息中心先决条件等等。因此, 数据交换系统的通讯方式就要求具有多样化的特点, 以满足不同条件下的数据通信。依据以往的项目经验, 数据交换系统必须具有接入以下通讯方式的能力:Socket方式、CDMA方式、GPRS方式、超短波方式、微波通讯、北斗卫星通讯、Mobus通讯协议等。图1为多种通讯方式的接入图。

2.3 多种协议数据解析

多种设备或者数据采集终端接入系统平台, 协议解析转换是技术难点, 本系统平台采用一种设备一个对应协议转换驱动的方式。设备协议驱动采用外挂式, 需要时选择后直接调用DLL驱动即可。

DLL协议动态库主要的功能为将新注册的设备发送的数据进行提取分解, 再封装成统一的协议发送到数据交换单元进行解析入库。

数据交换单元主要有数据处理解析入库, 新注册设备管理和DLL协议动态库管理。

图2为多种协议数据解析结构图, 图3为设备串口参数配置图

3 水情中心监控系统

目前常见的水情信息监控平台都要求能够同时接入多个子系统, 而且整个中心监控平台还必须具有新旧系统的联合使用、其他子系统的数据交叉查询的能力。水情中心监控系统主要负责接收和处理各个分站点 (各新旧子系统) 上传的数据信息、数据共享, 并出具相应的数据报表, 其工作过程如图4、图5所示。

3.1 数据库规范要求

本系统数据库表结构、标识符、字段类型及长度设计, 是水利行业信息系统及数据资源建设的基本规定, 根据水利部水利行业标准制定计划, 按照《标准化工作导则第一部分:标准的结构和编写》 (GB/T1.1-2009) 、《水利信息数据库表结构及标识符编制规范》 (SL 478-2010) 的要求进行编制。

3.2 基于WEB技术的系统实现

过去的水利工程建设过程中, 通常采用基于C/S架构的三层分布式系统, 相比早期集中式结构而言, 其系统易扩展性也有一定的提高, 但当需要对系统进行扩展时, 其工作量仍然很大。因为客户机需要运行专用的监控软件来显示和管理监控参数及响应控制命令, 当系统扩展时, 所有客户机上运行的监控软件均需要作相应的修改。此外, 现有的水情自动测报系统建成后一般是独立运行的, 这种方式不能充分发挥作用。在水管单位中, 例如隶属的水电厂, 上下游关系密切, 若能实现水文信息共享, 将能获得更大的收益。

B/S结构是一种典型的分布式应用结构。与传统的C/S模式相比具有如下的一些优势:数据安全性比较高;数据一致性比较强;网络应用限制比较小;投入成本低;系统可扩展性强、可维护性好、数据的传输方式多样等。

综合上述因素, 在中心监控部分我们采用了现今流行的B/S架构来进行系统的开发。

4 结束语

长期以来, 水利数据信息的采集系统主要都使用C/S模式进行开发, 能够接入的设备和能够解析的数据传输协议也比较单一, 数据的共享性和安全性都不高, 而且投入成本也比较大, 新旧系统兼容性不友好。

本文所开发的系统的则针对性的避免了上述问题, 将数据的采集和处理分开, 终端设备只负责数据采集, 然后通过我们定义的统一接口将数据传输到中心系统, 中心系统再进行数据的加工和共享等, 目前已经部署到了多个现场并稳定运行。

摘要：该文针对目前使用的传统水情数据采集系统中存在的弊端, 设计开发一套基于多协议多设备水情数据采集系统, 使数据采集采集终端和数据处理中心系统相互独立出来, 达到了采集设备和中心监控系统分量, 新旧系统协同工作的目的, 提高了采集设备的独立性, 降低了系统维修成本。

关键词：数据交换,多协议解析,多系统接入,C/S模式,B/S模式

参考文献

多数据源篇8

最近的研究表明Surface Web已经链接到了数十亿的静态页面,然而Web上有部分内容不能通过超链接直接访问到。这部分页面仅当用户填充表单并提交查询后才可以访问。这部分页面被称为是Hidden Web或者Deep Web[1,2]。根据Bright Plant公司的调查[3]已知:在内容上,Deep Web网站比Surface Web网站更专、更深,Deep Web提供的内容主要是后台的网络数据库[4],每个信息都可以通过一个或多个HTML表单查询到;在质量上,来源于这些网站的信息是高质量的,对于用户来说具有更高的价值。一方面考虑到Web的动态特性,即新资源的上载和旧资源的删除或者修改。能够通过简单使用HTML表单接口来自动发现这种Deep Web网站极其重要[5]。另一方面,由于网络数据库的领域特性,用户一般只对其中特定的领域感兴趣。有效地利用这些网络数据库中的信息,需要将其按领域进行分类。

为了定位Deep Web数据源,对一个比较好的定位机制的需求也迫在眉睫。文献[6]中提出的使用机器学习中C4.5决策树的方法来实现Web上查询接口的判别,其主要分两个步骤:首先是查询接口特征的自动生成,其次是以这些特征为依据,利用C4.5算法得到一棵决策树,通过这棵决策树来进行查询接口的判定。实验结果表明:从Web中随机查询的数据集准确性达到了87%,显然还有很大的提升空间,其实还有一些有用的信息可以利用,如HTML表单中,控制组件之间的文档内容,控制组件的数量和布局,页面中的频繁词汇等等。文献[7]提出了一种利用朴素贝叶斯分类算法的自动判定网页表单是否是Deep Web查询接口的方法,文章提取了HTML表单标签的属性值和控件类型以及控制标签之间的词汇信息等作为贝叶斯分类的特征集,实验结果表明在查询接口的查全率和查准率方面都有提高,但是忽略了整个页面的信息和数据源的领域相关性。文献[8]使用强化学习来建立一个聚焦爬虫,其对于分散的概念比较有效,并且其设计是用来搜索非Hidden Web数据库的内容。文献[9]提出了一种使用强化学习的基于Agent的Hidden Web爬虫(ALAC)来实现Deep Web数据源的判别。

本文描述了一种多分类器来实现对Deep Web数据源的分类和判别的方法,首先使用聚焦表单的爬虫实现对页面表单的抓取,然后利用朴素贝叶斯分类器对文档页面领域性分类的优势,对于抓取到的表单页面进行领域相关性分类,获取所需的领域信息,过滤非领域相关性的页面信息,最后依据C4.5决策树分类器对于查询接口判别错误率低的特点,对抓取到的领域表单页面进行查询接口的判别。

1 数据源的分类和判别框架

数据源分类的目标是在聚焦爬虫检索到的异构的表单中只选择领域相关和作为查询接口的表单。过程如下:给定一个Web表单的集合F和网络数据库领域D,这里F是通过聚焦爬虫自动搜集到的。目标是从集合F中选出那些仅作为D中某一特定领域的可查询的表单,过滤掉与特定领域不相关的可查询表单和非查询功能表单。

定义1

可查询表单作为网络数据库的查询接口,通常是以HTML中的表单的形式表示,当用户提交要查询的信息时,网络数据库会返回其查询结果的那些表单。

定义2

非查询表单主要包括两部分的信息。其一,只是作为信息的提交功能,虽与网络数据库进行交互,但是不会返回查询结果的表单;其二,作为搜索引擎或者元搜索引擎的表单,虽然返回查询结果,但结果一般是非结构化或者半结构化链接信息。

HTML表示的网页中包含有大量复杂的信息,可以从中获取大量有用的信息集合。网页特征的选择对于网页分类的速度和精度都至关重要。因此,如何有效地选择合适的网页特征对网页进行描述,是进行网页表单分类和判别的首要问题。

传统的查询接口分类与判别方法,如决策树和贝叶斯,其原理是对于提取到的表单页面,使用单一分类器分析表单文本与结构特征来实现查询接口的分类和判别,这样用于分类的特征就局限到表单内的特征,而忽略了整个页面的文本信息,而且单一分类器只对于某一功能有优势(贝叶斯对于接口分类有优势,决策树对于判定查询接口有较小的出错率)。故这里提出了一种分层的思想,即使用不同分类器分别对Deep Web数据源进行分类和判定。在这里,关注于提取整个页面的文本信息(用于表单网页的分类)和表单包含的全部信息(作为查询接口判别的特征)。

本文通过三个基本组件来实现上面的功能:基于表单的聚焦爬虫(FFC)、表单页面分类器(FPC)和表单分类器(FC)。图1显示了其结构框架。

聚焦爬虫工作原理

首先给定一个主题相关页面作为种子,然后宽度搜索其中静态连接,将链接到的包含HTML表单的页面抓取下来。在爬虫的抓取过程中,本文用到了一种有效的爬虫终止策略:1)当爬虫检索到一个给定的表单个数的时候,爬虫就离开此网站;2)当爬虫在一个网站上爬过的超链接超过提前预定的个数的话,爬虫也终止此网站的爬行。聚焦爬虫功能是根据页面之间的特征,将爬行的主题集中到含有表单信息的页面,从而避免了在非表单页面上的消耗。

表单页面分类器

将由爬虫获取到的表单页面,使用改进过的朴素贝叶斯分类器将包含表单的页面根据其领域相关性自动识别其领域,过滤掉不相关领域内的表单。

表单分类器

表单分类器将使用改进的C4.5决策树算法对相关领域的表单进行查询接口的判别,将其分为可查询的和非查询的表单,其细节将在下面内容讨论。

2 数据源的分类和判定

2.1 表单页面的分类器

表单页面分类可作为文本分类技术的一种扩展,但表单网页的特征比较复杂,网页格式灵活,而且同一格式的网页也存在多个标准,因此对其分类相比较于文档分类要难于处理,这里引入了朴素贝叶斯文档分类器。根据贝叶斯学习框架对于文档分类的处理过程,这里首先对特征进行标准化以提高分类的准确性。假设文档数据是通过参数模型产生的,使用训练数据来计算模型参数的最大后延估计。根据这个估计,来对新的测试文档所生成的模型使用贝叶斯规则计算其所属类别的后延概率来对其进行分类。分类过程就是将文档归类到有最大概率的类别里面。

贝叶斯分类器使用文档频率和词频对文档类别参数化。每个类别cj有一个和其它类别相关的先验概率P(cj),通过包含不同词汇的多项式模型来表示文档类别。也就是说,对于词汇表V中的每个词wt,P(wtcj)表示分类器在给定具体的类别cj时此词wt发生的概率。下面用di表示一个文档,它是一个无序的词的集合。为了使用此分类模型对其分类,首先假设对于每一个给定的类别,每个文档中出现的单词是相互独立的。利用此假设,分类问题就显得比较直接了。计算此文档di相对于文档类别cj的概率P(cjdi)并将其归类到P(cjdi)值最大的类别cj中。然后用wdik表示在文档di中的第k个词。根据前面的假设,使用贝叶斯规则可将P(cjdi)扩展为:

通过训练集合来学习到P(cj)和P(wtcj)这些参数值。与传统的贝叶斯分类不同的是,为了避免零概率可能会消除乘积中涉及的所有其他(后验)概率的影响,将拉普拉斯校准分别用于计算先验概率P(cj)和条件概率P(wtcj)。

算法1朴素贝叶斯分类器学习算法

其中,Examples为一组页面及其目标值,C为所有可能的目标值的集合。此函数作用是学习概率项P(wtcj),它描述了从类别cj中的一个页面文档中随机抽取的一个词为wt的概率。该函数也学习类别的先验概率P(cj)。

1)网页文本处理

(1)页面预处理。

(1)HTML去噪,删除HTML标签;

(2)Anchor Text提取,提取文档的In-link和Out-link Anchor Text;

(3)中文分词。

(2)特征选词

(1)禁用词表,预定义禁用词表,将禁用词表中出现的词从文档的特征向量中删去;

(2)词性选择,基于ICTCLAS的分词结果,只特定词性标注的词作为特征项;

(3)信息增益,对数据集进行特征降维,压缩特征空间;

(4)存放处理结果到DOC文档中。

(3)集Examples处理后的DOC文档中所有词以及其它信息:

V←将处理后的文本信息出现的所有词和记号的集合。

2)计算所需要的概率项P(cj)和P(wtcj)

根据上面贝叶斯文本分类器对于文档分类的知识分可知:

对C中的每个目标值cj

(1)docj←文档DOC中目标值为cj的文档子集;

其中di∈DOC,|C|表示目标值个数;

对V中每个词wt

(1)N(wt,di)表示为单词wt出现在文档di中的次数,并且P(cjdi)∈{0,1},作为表示文档的类别标签;

算法2贝叶斯分类算法

对待分析页面进行预处理,处理结果存入文档Doc中,文档Doc返回其估计的目标值。ai代表在Doc中的第i个位置上出现的词。

1)positions←在Doc中的所有词的位置,它包含能在V中找到的记号;

2)返回vNB:

对于给定的大量的训练文档,朴素贝叶斯分类器在文本文档分类方面表现良好[10],关于贝叶斯文本分类的细节在文献[11]有详细的描述。对于这里的分类只关心是否是用户关心的领域页面表单。

2.2 查询表单的判别分类器

在2.1节中,使用朴素贝叶斯对包含表单的页面进行领域分类,提取出感兴趣的页面,然后对固定领域的表单进行查询接口的判定。HTML表单包含有复杂的结构,通过它可以得到一个特征丰富的集合。事实上,表单结构化的特征就可以作为判断此表单是否是查询接口的一个指示器。此部分描述了一个自动产生HTML表单特征的方法作为有效进行查询接口探测的标准。

图2显示了统计得来的一些数据信息。由图2知:可查询的表单有比较多的Selection List和Check Box,而非查询表单有比较多的Text Box。其它的一些结构信息也被用来作为C4.5决策树的特征,如:hidden标签的个数,Radio标签的个数,Submit标签的个数,Password标签的个数,Text Box的个数,Submit的方法,还有一个很有用的是“查询”“搜索”此类别的关键字。事实上,表单中查询关键字和提交按钮的出现在特征集中拥有最高的权值。上面提到的特征信息都是可以从Web表单中自动提取的,不需要手工的预处理。在文献[6]提出使用决策树来对查询表单进行分类,此分类器使用的特征是其自动从表单提取出来的。因为此策略同时也考虑到表单标签内部的文本信息,使得策略最后要考虑的特征个数多于550个。而这里只用到了17个特征,这样极大地压缩了分类的特征空间。

这里用机器学习中的C4.5决策树算法进行判定。因为它有比较小的错误率,而且可以根据产生的特征类型对算法进行修改,更重要的是此算法会生成一个规则树,可以描述成简单的分类规则:IF条件成立,THEN判断是/否查询接口。而规则树的生成过程就是将分类能力最好的属性作为树的根节点进行测试,然后为根节点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支之下。然后重复整个过程,用各个分支节点关联的训练样例来选取在该点被测试的最佳属性。一旦规则树生成后,查询接口的判定问题就简化为规则树的条件逻辑问题。

3 实验结果与分析

为了验证使用多分类器进行查询接口分类和判定的有效性,实验中从对于表单的网络爬虫随机抓取的网页中抽取大量的网页表单,然后手工对其进行分类,选取了65个Deep Web查询接口和130个非查询接口组成的训练集,140个Deep web查询接口和160个非查询接口组成的测试集,测试其与单一使用C4.5决策树分类器或贝叶斯分类器比较结果如图3所示。

实验表明,和单一使用C4.5决策树或贝叶斯分类器相比,此方法在精度和召回率方面都有所改善,特别是精度。召回率实验结果中,多分类器和C4.5决策树和单一贝叶斯方法相比效果虽有改进但不是很明显,它是使用贝叶斯分类器对页面进行分类时产生的误差引起,在图书领域有显著增强。分析原因,图书页面中含有丰富的文本信息,经过分词处理,与图书相关的关键词的出现以及词频,使得在使用朴素贝叶斯分类时,能更准确的将其进行分类;精度实验结果与C4.5和贝叶斯方法相比有较大提高,工作、图书、租赁领域,其精度都在90%以上,特别是工作领域其精度达94.4%。分析原因是,对于同一领域的页面表单,HTML表单的结构和特征有大的相似性,其中用到的Check Box和Select List比较多,Text Box比较少,而且对于特殊的领域,为了方便用户进行查询,网络查询接口提供给用户的选择控件的功能是一致的,这样多分类器中的决策树分类器更能将查询接口从中正确判别出来。

4 结束语

随着Deep Web数据库数量和其蕴含数据量的增长,对Deep Web数据的集成越来越成为研究领域关注的问题,而Deep Web数据源的分类和判别是进行Deep Web数据集成的基础,其二者的结合不仅保证了更高的准确性和效率,而且更有其实际应用意义。本文在研究以往判别查询接口方法的基础上,针对其提取特征方式不同和精度低以及忽略领域相关性的问题,提出了一种结合多分类器的方式来对Deep Web数据源进行分类和判别。实验结果比较于使用单一决策树分类器,在召回率和精度方面都有提高。以后的工作是对此种方法中的领域分类结果进行分析,分析出不同领域的查询接口的特征,缩小贝叶斯分类器在进行网页分类的错误率,根据提取不同领域的特征信息来提高查询接口的召回率和精度。

参考文献

[1]Bergman M K.The deep web:surfacing the hidden value[J/OL].The Journal of Electronic Publishing,2001,7(1).http://www.press.mich.edu/jep/07-01/bergman.html.

[2]Chang K C C,He B Li.CStructured databases on the Web:Observa-tions and Implications[R].Technical Report,UIUC,2004.

[3]Bergman M K.Deep Web Whitepaper[EB/OL].2004.http://briight-planet.com.

[4]Fllorescu D Levyay,Mendel A Zon.Database techniques for the world-wide web:A survey[J].SIGMOD Record,1998,27(3):5974.

[5]He B,Pater M,Zhang Z.Accessing the Deep Web:A Survey[C]//Communications of the ACM(CACM),2007.

[6]Cope J,Craswell N,Hawking D.Automated Discovery of Search Inter-faces on the Web[C]//Proceeding of ADC2003,2003.

[7]高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):14815.

[8]Rennie J,McCallum A.Using Reinforcement Learning to Spider the web Efficiently[C]//Proceeding of ICML,1999.

[9]Akilandeswari J,Gopalan N P.A Novel Design of Hidden Web crawler Using Reinforcement Learning[C]//APPT2007.Based Agents.Berlin Heidelberg,c2007.

[10]David D Lewis.Naive(Bayes)at forty:The independence assumption in information retrieval[C]//ECML-98.1998.

多数据源篇9

1.1 定义与作用

智能分析决策系统是从智能预警、发现故障、解决故障三个部分对电网系统提供分析辅助决策, 是基于一种自动化系统的有效拓展, 根据设备信号, 系统会自动的采取相应的解决措施。第一个部分是对设备信号展开分类, 利用相关技术解决信号波动问题;发现故障则是建立一个诊断的模型, 引入可信度指标, 多个模式同时进行, 分析得到的不同数据, 结合每个结果对故障部分提出质疑, 解决实际问题, 提高诊断的实用性;故障恢复即最后一个部分则是提供一个快速恢复供电技术, 其原理基于广播的原理。这三个部分也是紧密的联系在一起, 有机组合, 达到良好的实施效果。

1.2 系统特点

1) 告警系统部分:报警系统采取智能化, 其中包括信息的分类、误警信息处理以及显示部分。前者是根据警告信息的提示内容, 把警告信号分为不同的严重等级, 各个等级之间是一个单独的部分, 不会出现信号的重叠以及交叉, 实现信号的分流。一般包括状态、定义、自定义等分类方法。误警信号一般来源于抖动或者误发, 面对这种情况的处理方法则是采取无效信号的过滤网以及重复信号的压缩技术。在这种情况下, 系统可以自动识别电网运行下的错误或者无效信号, 一般包括:保护性动作复归信号抖动、设备检修时误发信号以及越限抖动信号。2) 诊断故障部分:这个一般分为模型部分以及描述。前者又可以分为分层诊断以及统一的信号描述模式。第一个诊断模型是把电网设备信号分为开关信号、SOE信号、保护信号三个部分, 综合三层信号并进行综合处理, 以避免复杂的诊断过程造成的麻烦。第二个诊断模型则是统一信号描述。这是根据SCADA系统和故障管理系统对信号进行统一的描述以及定义, 来达到智能诊断的要求。3) 恢复故障:如何恢复故障是关键部分, 在这里, 采用了广播原理以及拓扑结构模型。充分利用EMS的基础之上, 结合拓扑结构的需要, 在点与线之间设计数据关系, 可以大大提高搜索的效率。通过脉冲信号的广播传送, 来确定各个设备之间的开关、感知方位等, 充分、有效。电网信号分析辅助决策系统更大可能的在短时间内分析了解信号内容, 解决故障, 效率高、作用明显。

2 基于多数据源的新的分析辅助决策系统

2.1 新系统的原理以及作用

这里所讲到的决策系统指的是基于D—S理论的多数据源信号融合方法。运用此类原理, 可以成功解决各个数据源之间存在的冲突引起的融合分析结果不精确问题, 然后将不同的数据体进行信号的融合最后得到一个确切的诊断结果。此类方法是对多个信号源即数据源展开分析, 这样可以在原有的决策系统基础上更好地解决故障这一部分的问题, 从之前不确定的故障信号的融合分析中得到更加正确的结果, 并根据这一结果进行故障恢复。

2.2 结构组成部分

多数据源的分析辅助决策系统对于系统前两个部分没有多大的改动, 最大的不同来自于最后的故障处理部分, 这就包括信号预处理、IMFD信号融合以及决策模型。1) 预处理部分又可以分为预处理、小波故障。前者是对多数据源信号进行处理的基础, 通过处理, 可以将其转换为各个元件之间的故障表征, 再转换为数据体来满足融合的条件。小波故障则是对故障产生前后电气量的不同比对进行处理后的表征, 除此之外, 小波在内的奇异度还可以进一步的确认故障产生的元件, 并对数据进行一定的处理。2) IMFD信号融合:对于一致性的数据部分采用传统的合成方法进行融合, 对于冲突的则采用改进的数据规则, 以提高原始数据体的可信度。这也是在原有的D—S理论的基础之上进行的改进, 以解决在数据冲突比较严重的时候可以提高数据的融合度, 目的是以求达到更好的诊断分析结果。3) 决策诊断模型:如果融合之后的结果不能判断出哪个才是有故障的元件, 这个时候就需要进行诊断分析, 结合上面提到的概率表征 (包括小波故障、IMFD数据信号等) 对结果进行一定的数学处理, 使数据值更加符合电网设备的要求, 结果更准备, 可以解决更加复杂的信号故障问题。这三个部分是在原有的理论基础上进行一定的改进, 可以有效地提高诊断的效率, 更加充分的利用电网设备信号, 是结果更加准确。

下面的就是具体的流程图:包括了智能告警、故障诊断、故障恢复三个主要部分。

3 新方法的优点及总结

3.1 优点

基于数据源的电网设备信号分析辅助决策系统是对原系统的改进, 其优点多体现在故障诊断方面。充分利用多个数据源信号对故障部分进行定位, 这样可以在诊断过程中根据需求在各个数据源中查询需要的信号数据, 高效的利用故障信号提供的信息, 对可疑的故障进行诊断以及排除, 并对更加复杂的电网设备信号进行更加详细的处理, 运用已有的数据处理方则, 结合新的数据源对信号深层次的分析处理, 这样能够比以前更加准确的定位, 可以得到一个完整的诊断结果, 其中包括一些可疑的和一些确定的故障信号, 在信号的处理方面也可以做到更加高效以及充分。

3.2 总结

多数据源篇10

1 Web数据挖掘技术及其在电子商务中的应用

Web数据挖掘[1], 即Web挖掘, 它是指从Web资源上抽取信息或知识的过程, 它将传统的数据挖掘思想和方法应用于Web之上, 从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上, 采Web数据挖掘用相应的数据挖掘算法, 在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析, 最后做出归纳性的推理、预测客户的个性化行为以及用户习惯, 从而帮助进行对网站以及网页的改进。

Web挖掘是数据挖掘技术在Web环境下的应用, 是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前, 随着电子商务网站的兴起, 经过分析一定时期内站点上的用户的访问信息, 发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息, 对各种商业领域具有重要的实用价值, 因而, 电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面: (1) 寻找潜在客户; (2) 留住访问客户; (3) 提供营销策略参考; (4) 完善商务网站设计。

2 Web数据挖掘的过程和方法

根据Web数据挖掘的方法, Web数据挖掘的一般流程[3]分为:数据收集 (采集) 、数据预处理、模式发现、模式分析四个步骤。

Step1:数据收集 (采集) , 从客户端、服务端或者是代理网站端获取数据。数据收集的对象以文本形式存在的, 数据是粗糙、未经处理的, 比如Web日志;

Step2:数据预处理, 通过数据清洗, 数据格式化对收集海量数据中的有用数据进行筛选, 供下一步数据挖掘和分析;

Step3:模式发现, 对预处理后的数据进行分析和挖掘, 发现数据中存在的模式。

Step4:模式分析, 针对发现的模式进行分析, 提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。

3 数据收集和预处理模式的改进

3.1 传统的数据收集和预处理模式

传统的数据收集模式, 获取的日志格式取决于各网站所使用的服务器日志格式, 或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性, 即记录的格式不同, 内容排版也不同, 无形中增加了数据收集的难度。

传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个, 不同网站的网站路径结构都不一样, 这导致大多数数据挖掘系统预处理后的信息只局限于来源url, 访问url, 访问的文档列表, 流量等信息, 无法得到定制化的信息, 如用户点击了哪个商品类别等。

3.2 基于数据中心的数据收集和预处理模式

数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统, 客户端只需要调用统一的数据中心接口, 即可传递必需的数据, 由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的, 这样做就屏蔽了传统数据收集模式中, 由于各个网站的日志记录格式不同, 需要区别对待区别处理的问题。

在数据中心, 将所有的网站的路径结构都抽象成了三层的目录结构, 即应用系统层 (例如淘宝) 、模块层 (例如数码这个类别) 和资源层 (例如iphone这个商品) 。对每一层的目录, 都使用一张表来进行维护。

比如对淘宝商城的路径结构进行抽象, 应用系统层对应淘宝, code是taobao, 数码这个类别对应模块层, code是digital, 具体的产品, 比如“iphone”, 对应资源层, code是“iphone”。假设淘宝原来的商品“iphone”的查看页面路径是A, 在数据中心配置该路径的映射路径B, 也就是将上面的code组合起来, 即三层目录结构taobao/digital/iphone。通过抽取每层的code和数据中心表中记录的应用程序、模块和资源进行对比, 网站就可以得到用户访问了哪个模块或资源, 解决了传统的数据预处理过程无法得到定制化信息的问题。

4 用户兴趣度算法

用户兴趣度算法[5,6]主要用来计算用户某段时间对于某个模块的兴趣度。该算法的基本思想是先使用统计方法统计出用户对于每个模块的访问次数, 以此为基础计算出用户对模块大概的兴趣度, 再根据用户访问模块的多少对结果进行修正。该算法可分为三个阶段:

Step1:获取用户访问矩阵

从日志文件中运用分类、过滤等方法统计出某个用户在某一段时间对于每个模块的访问次数, 得到一个1*n的矩阵。

Step2:计算用户对于每个模块的兴趣度

访问次数可以最直接的反映出用户的访问兴趣, 用户对某个模块的访问次数和他的兴趣度成正比, 设Ai, j表示用户i对模块j的访问次数, Si, j表示他对这个模块的兴趣度, 可知Si, j=βAi, j (一般取β=1) 。

本文采用ri, j表示用户i对模块j的评价值。考虑有些用户兴趣的多样性会对评价结果造成影响, 在量化评分时按照用户访问的商品类别数量做适当的修正。用户评价值ri, j=α*Si, j/CIi, 其中Si, j为用户i对模块j的兴趣值;α为调节参数, 可根据需要调整, 一般取1;CIi表示访问的商品类别的数量。据以上的方法统计用户i对某个商品类型的评分值。

Step3:构建用户兴趣矩阵。

5 电子商务网站日志挖掘系统的设计与实现

5.1 电子商务网站中的Web数据挖掘对象

在电子商务网站中, Web数据挖掘的对象一般有用户的访问日志、用户的查询信息以及查询记录的数据。在本次的系统实现中, 主要是对用户的访问日志进行挖掘。

5.2 Web挖掘系统的实现

1) 数据收集模块Web

以Web服务器的日志文件作为电子商务数据挖掘的数据源。其中, Web服务器的日志文件使用Web服务器自身提供的记录功能及规则, 按照约定的或者自定义的格式进行数据收集。

2) 数据预处理模块

系统通过将收集到的日志进行数据清理、数据识别两个步骤对原有的Web日志文件进行预处理工作。

Step1:数据清理, 根据挖掘的需要, 去掉日志中无关的信息。

Step2:数据识别, 根据服务端数据库存储的用户信息、应用信息、商品类别和商品信息, 来对Web服务器日志中记录的信息进行匹配, 将日志中的信息转换成可理解的, 可被分析的数据。例如, 在数据库中存储的商品类别表有一个类别“衣服”, 它的url标识是“cloth”, 所以系统会在访问信息的url查找cloth这个字串, 找到了则会将此条信息和“衣服”类别进行联系, 如此对所有的访问信息进行处理。最系统后会将这些信息处理成可被数据库识别的sql语句。

3) 数据分析模块

系统从多个角度分别对网站、商品类别、商品、用户、广告进行全面的数据分析, 得出有价值的信息, 比如网站全年的访问人数、商品的访问量排名、广告的点击率等等, 并将这些分析的结果以图表的方式显示在页面上, 方便查看。同时为后面的模式发现模块提供更多的挖掘维度和分析数据, 更快的进行模式发现过程, 如图1所示。

分析:这张图反映了各个网站在最近一年 (2012.6.1~2012.5.31) 每月的访问人数的变化情况。

4) 模式发现

系统根据用户兴趣度的算法, 计算用户的兴趣矩阵, 并展示到页面上, 如图2所示。

分析:由图中可以看出该用户对服装的兴趣度最大, 兴趣度分值为17.44。

6 结论

Web数据挖掘是数据挖掘中很重要的一个领域, 在电子商务中应用Web数据挖掘技术, 可以为商务网站更准确、更有效的确认目标市场、制定商业决策、提高企业竞争力提供帮助, 通过数据挖掘, 商家还可以得到用于特定的消费群体进行定向营销的决策信息。论文研究并实现了一个电子商务网站日志挖掘系统, 通过对传统的数据收集和预处理过程进行改进, 对Web服务器日志进行了多角度的数据分析, 对网站、商品类别、商品、用户、广告进行全面的数据分析, 得出有价值的信息。

摘要：随着互联网的快速发展, Web上的数据飞速增长。面对海量的数据, 如何从中找出有价值的信息, 运用到商业决策的制定中, 已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类, 论述了在电子商务中web挖掘的过程和方法, 揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统, 系统面对多电子商务平台, 实现了统一的数据收集和预处理过程, 对用户的访问日志进行分析, 从网站、商品类别、商品等角度进行数据分析, 并又对用户的访问数据进行挖掘, 从这些数据中发现潜在的规律, 把握用户动态, 帮助企业制定商业决策, 使电子商务更具个性化和针对性。

关键词：数据挖掘,Web挖掘,电子商务系统,用户兴趣分析

参考文献

[1]涂承胜, 陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统, 2004, 25 (7) :1177-1184.

[2]Chen M S, Park J S, Yu P S.Data Mining for Path Traversal Patterns in a Web Environment[C]MIn:Proceedings of the 16th International Conference on Distr ibuted Computing Systems.Hong Kong:[s.n.], 2006:385-392.

[3]Borges J, Levene M.Data Mining of User Navigation Patterns[C]MIn:Proceedings of the WEBKDD.99 Workshop on Web Usage Analysis and User Profiling.San Diego, CA, USA:[s.n.], 2008:31-39.

[4]朱志国, 邓贵仕.Web使用挖掘技术的分析与研究[J].计算机应用研究, 2008, 25 (1) :29-32.

[5]陶俊, 张宁.基于用户兴趣分类的协同过滤推荐算法[J].上海:上海理工大学, 2011, 30 (2) :34-38.

多数据源篇11

关键词:数据简化矢量曲线多波束测深

中图分类号:TB565文献标识码:A文章编号:1674-098X(2011)05(c)-0079-02

1 簡介

多波束测深仪具有几百到上千个波束,一次扇区(ping)扫描能获得成百上千个测深数据,可对水下地形地貌进行大范围、全覆盖的测量,极大地提高了测量的精度和效率,现已广泛应用于河道测量、港湾测量、浅海测量、深海测量等领域[1]。如此巨大的数据在实际应用中,存在很大的冗余性,也为数据的后处理和存储带来庞大负担[3]。因此,在进行数据存储、应用前,有必要在保持测区地形特征的前提下,对数据进行一定的精简。

2 基于ping的简化方法

2.1 ping数据抽取

多波束测深数据是沿测线逐ping记录和存储的部分有序、均匀分布数据,因此其数据后处理可以ping为单位进行。每ping中的数据邻点相连,就形成了一条三维曲线段,然后采用基于矢量曲线的简化方法进行简化处理。

ping数据的抽取方法有两种:(1)曲率判定法,根据当前点与前后数据点在x,y平面上相连接的直线曲率差值来确定;(2)距离确定法,通过计算当前点与前一点的平面距离来确定。

2.2 常用的矢量简化方法

常用的曲线简化方法有以下几种:步长法、线段过滤法、垂距限值法、道格拉斯-普克法(Douglas-Peucker,简称DP)等等[4]。在实际的数据简化应用中,使用较为广泛的是垂距限值法和道格拉斯-普克法。

2.2.1 垂距限值法

从第一点开始逐点筛选特征点。首先以第一点为起点,计算第二点到第一、第三点所构直线的距离,若大于某一阈值,则保留第二点,并以该点作为新起点,计算第三点到第二、第四点所构直线的距离;否则,去掉第二点,仍以第一点为起点,计算第三点到第一、第四点所构直线的距离。依此类推,直至曲线上最后一点。该方法的阈值一般取相应地物最大允许误差或更小。

垂距限值法简化结果具有较好的精度、算法简单、易于编程和计算机处理,所以在曲线简化中应用较广。缺点是它没有考虑到曲线各点的斜率,即不能完全保证特征点不被删减。

2.2.2 道格拉斯-普克法

DP算法是一次对整条曲线段进行考虑。首先连接曲线段两端点,计算线段内各点(称中间点)到两端点所构直线的距离。若最大距离值小于某一阈值,则保留两端点,舍去所有中间点;若大于阈值,则保留对应中间点,并以此点将线段分为前后两段,再分别对这两段重复上述过程,直到没有点需要被舍去为止。

DP法在简化精度方面较垂距限值法有显著的提高。但由于DP算法中用到了较多的循环和递归,在编程的难易程度和计算机处理速度方面逊于垂距限值法。

2.3 简化性能评价

数据简化算法的效果可以从三个方面来度量[5]:(1)精度,即利用简化后数据重构的曲面与由原始数据所构曲面之间的误差;(2)简度,也称简化率,即简化前后数据点个数的比值;(3)速度,即计算机进行简化处理的时间。实际上,任何一种简化算法要想同时在以上三个方面都具有优秀的表现是很困难的,很多算法只能达到其中一个或两个要求,对于海量的多波束测深数据来说更是如此。

3 简化实例

对某实测多波束测深数据分别采用垂距限值法和DP法进行简化处理(原始测深数据见图1),垂距限值均选取0.05m。精度评定采用反距离平方加权内插法。两种方法简化效果见图2、图3、图4、图5(图中五角星标定点为简化后保留点),简化性能情况见表1。

由图2、图3、图4、图5及表1可见,经过简化后的数据均较好地保留了原始数据的地形特征点,且数据量得到了较大地减少。从精度上讲,两种算法的简化精度均远小于0.1m,满足《水道观测规范》要求;从简度上看,两种方法在满足精度要求的前提下,都达到了50%以上的简化率,大大地减小了原始数据量;从速度上比较,垂距限值法比DP法快,这是由于DP法的迭代循环增加了处理时间。

4 结语

从文中实例应用分析可得,虽然垂距限值法和DP法在矢量曲线数据简化中均具有较好的简化效果,但因为DP法在编程中采用迭代计算,增加了编程的难度及数据处理时间,因此,综合算法的精度、简度、速度及算法实现难易度,垂距限值法在海量多波束测深数据的简化处理中更具适用性。

参考文献

[1]郑庆涛.多波束与单频测深技术应用比较[J].水利水文自动化,2007,(1):25～29.

[2]Kammerer E.Charlot D.,Guillaudeux S.Michaux P.Comparative study of shallow water multibeam imagery for cleaning bathymetry sounding errors[C].Oceans Conference Record (IEEE), v4,2001:2124～2128.

[3]周绿,林亨,钟约先,等．曲面重构中测量点云的精简方法的研究[J]．中国制造业信息化,2004,33(5):102～104．

[4]刘彦花,叶国华.矢量曲线抽稀算法分析[J].城市勘测,2001,(4):1～4.

多数据源篇12

关键词：多传感器,分批估计融合,分组自适应加权融合,权值最优分配

0 引言

多传感器数据融合利用多元信息的互补性来提高信息的品质, 因此常使用多个传感器在不同位置对同一目标参数进行测量。由于单一的数据融合算法具有一定的局限性, 由2种或2种以上的数据融合算法进行优势集成可以有效降低系统的不确定性、环境干扰及失效数据对状态估计带来的影响。同时, 多传感器数据融合还能在一定程度上抑制传感器的漂移和噪声带来的影响[2]。因此, 由2种或2种以上的数据融合算法进行优势集合已经成为数据融合领域的研究热点[3]。

文献[4]提出两次利用偏度分析建立动态检测门限判别并剔除粗差, 然后将单传感器分批估计与多传感器分批估计相结合, 虽然融合精度较算术平均值法提高, 但是当检测系统中的传感器数量较大时, 该方法计算量较大、使用繁琐。而采用的分批估计融合方法忽略了传感器间的精度差异性。文献[5]提出了一种将算术平均值算法与分批估计相结合的融合算法, 虽然实验结果证明该方法具有较高的准确性, 但是该方法只适用于等精度检测, 没有考虑到检测系统中各个传感器检测精度的差异性。文献[6]提出了单传感器分批估计与自适应加权平均法相结合的数据融合方法, 实验结果表明, 该方法比直接利用分组估计理论和最优融合原则下加权自适应融合方法更准确。但是, 根据权的最优分配原则[1]可知, 该组传感器数据融合后的标准差与传感器数量成反比, 传感器数量越大, 融合后的传感器组的标准差越小, 融合后的数据精度越高。因此, 该算法仅适用于传感器数量较大的检测场合。文献[7]提出了算术平均值算法与传感器分组加权融合相结合的算法, 虽然该算法通过仿真证明具有运算简单、实时性好的优点, 但是算术平均值法需要建立在可靠测量的基础上, 并要求每组传感器所测得的数据要足够多, 且具有同分布, 否则往往得不到满意的结果[8,9]。

针对这些存在的问题, 本文在目前已有的数据融合算法的基础上, 通过多次数值试验, 提出了一种将单传感器分批估计融合与传感器分组自适应加权融合相结合的方法。首先使用单传感器分批估计融合求出单个传感器的估计值和方差, 然后对传感器进行分组, 依据权值最优分配原则[2]求出传感器在各自组内的权值, 然后在各组内使用自适应加权融合算法得到该组传感器的估计值和方差。此时, 得到一组由各组传感器的融合值和方差所组成的数据。最后, 依据权值最优分配原则对该组数据进行自适应加权融合, 得到最终的估计值和方差, 并通过对实验数值的计算, 验证了本方法的有效性和优越性。

1 单传感器分批估计融合

在相同环境、相同检测条件下, 单个传感器所测得的数据可认为是等精度的, 将它们分为两组 (按照先后或者奇偶分组) , 根据分批估计理论可以得到一组测量数据的融合值[6]。将单个传感器所测得的数据分为两组:

两组数据融合之后的可得单个传感器采集数据的最优方差可由以下公式求得:

2 传感器分组自适应加权融合

在分布式检测系统中, 检测节点通过由n个传感器组成的传感器阵列来检测信号, 按照各传感器融合方差的大小把传感器分为m组。依据权值最优分配原则对每组数据进行组内自适应加权融合处理, 可以得到各组传感器的融合值Yi和方差σi2 (i=1, 2, …m) 。此时, 得到一个由各组传感器融合值和方差所组成的数组。根据权值最优分配原则求得各融合值在该数组内的最优权数W'i, 然后对各传感器组的融合值Yi作自适应加权融合处理, 最终得到最接近真值的估计值Y。多传感器分组自适应加权融合算法的原理如图1所示。

假设通过单传感器分批估计融合后所得的n个传感器的方差分别为, 各传感器采集数据现对真值的最优估计值为X1, X2.......Xn。将n个传感器分成m组, 依据权值最优分配原则分别对各组进行组内自适应加权融合处理。W1, W2…Wn/m为第一组内各传感器的权值, σ12为第一组传感器融合处理后的总方差, σ12越小, 表明该组数据融合之后的精度越高。各传感器的权值可以用以下公式[5]求得:

此时, 第一组数据的总方差可由以下公式[14]求得:

融合后的第一组传感器的估计值Y1可由以下公式求得:

加权因子应该满足以下条件:

同理, 可得剩余各组传感器数据的估计值、方差以及加权因子。

通过将传感器分组, 使n个传感器的数据融合问题转化成为一个对含有m组数据的数组进行融合的问题 (m

由此可知, 该组数据的自适应加权融合估计值可由下式求得:

依据权值最优分配原则进行传感器组内融合与传感器组间融合时, 能够降低精度较差的传感器带来的影响, 提高估计精度[1]。

3 数据分析实例

使用本文提出的算法对文献[4]中的数据进行分析。文献[4]中使用8个热电偶对1 200℃的恒温槽进行测量, 每个传感器测量8组数据, 测量数据记录如表1所示。

首先, 使用单传感器分批估计融合的方法对8个传感器各自所测得的数据进行处理, 可以得到各个传感器的融合值和方差, 如表2所示。

经分析, 按照方差的大小将8个传感器分为两组, 方差较大的1号、2号、3号和6号传感器分为第一组, 4号、5号、7号和8号传感器分为第二组, 然后对两组传感器进行传感器分组自适应加权融合, 最终得到的融合结果为Y=1 199.78℃, 绝对误差为0.22℃, 相对误差为0.018%。采用传统的算术平均值法处理各传感器的实测数据, 得到的融合结果为1 203.74℃, 绝对误差为3.74℃, 相对误差为0.312%。若不考虑传感器间精度的差异, 将单传感器分批估计与多传感器分批估计相结合, 对各个传感器的测量数据进行处理, 融合结果为1 201.447℃, 绝对误差为1.447℃, 相对误差为0.12%。文献[6]提出了单传感器分批估计与自适应加权平均法相结合的数据融合方法对各个热电偶的分批估计融合值进行融合处理, 融合结果为1 201.5℃, 绝对误差为1.5℃, 相对误差为0.125%。文献[4]中将8个热电偶作为等精度传感器, 不考虑传感器之间的精度差异, 将单传感器分批估计与多传感器分批估计相结合, 对热电偶实测数据进行处理, 融合后的温度值为1 200.5℃, 绝对误差为0.5℃, 相对误差为0.041 6%。虽然文献[4]提出的算法最终融合结果具有较高的精度, 但与本文中提出的算法相比, 该算法需要2次利用偏度分析建立动态检测门限判别并剔除粗差, 计算量大, 使用繁琐。

因此, 本文提出的融合算法与传统的算术平均值法和将单传感器分批估计与自适应加权融合相结合的算法相比, 绝对误差分别降低3.52℃和1.28℃, 相对误差分别降低0.294%和0.107%。同时, 由于考虑到了传感器的精度差异, 与单传感器分批估计和多传感器分批估计相结合的算法相比, 本文提出的算法精度更高, 绝对误差降低1.227℃, 相对误差降低0.102%, 估计值更接近真值。

4 结论

在目前已有的多传感器数据融合算法的基础上, 提出了一种将单传感器分批估计融合与传感器分组自适应加权融合相结合的传感器阵列数据融合算法, 并将该方法与传统的算术平均值法、单传感器分批估计与自适应加权相结合的算法, 以及单传感器分批估计与多传感器分批估计相结合的算法做对比。通过对8个热电偶实测数据进行分析可知, 该算法能够有效降低环境干扰、失效数据及传感器精度差异所带来的影响, 融合结果最接近真值, 绝对误差最低。此外, 使用该算法无需对测量数据进行粗差预判断, 计算量小, 使用简便。该方法不仅可用于对温度信号进行分析处理, 也可用于气体检测、压力检测等应用下的数据处理。

参考文献

[1]凌林本, 李滋刚, 陈超英, 等.多传感器数据融合时权的最优分配原则[J].中国惯性技术学报, 2000, 8 (2) :36-39.

[2]孔凡天, 陈幼平, 谢经明, 等.基于多传感器信息融合的分布式气体检测系统[J].计算机测量与控制2006, 14 (4) :421-424.

[3]黄漫国, 樊尚春, 郑德智, 等.多传感器数据融合技术研究进展[J].传感器与微系统, 2010, 29 (3) :5-12.

[4]吴文全, 席泽敏, 郭加宁.多传感器测量数据预处理[J].海军工程大学学报, 2005, 17 (4) :80-96.

[5]滕召胜.基于多传感器数据融合的热处理炉温度测量方法[J].计量学报, 2000, 21 (2) :148-152.

[6]张捍东, 孙成慧, 岑豫皖.分布式多传感器结构中的数据融合方法[J].华中科技大学学报:自然科学版, 2008, 36 (6) :37-39.

[7]仲崇权, 张立勇, 杨素英, 等.多传感器分组加权融合算法研究[J].大连理工大学学报, 2002, 42 (2) :242-245.

[8]蔡菲娜, 刘勤贤.单传感器的数据融合及有效性分析[J].传感器技术, 2005, 24 (2) :73-74.

[9]孙克雷, 秦汝祥.基于自适应分批估计的瓦斯监测多传感器数据融合研究[J].传感器与微系统, 2011, 30 (10) :47-49.

[10]陈希孺.高等数理统计学[M].合肥:中国科学技术大学出版社, 1999:78-92.

【多数据源】推荐阅读：