数据库集成技术

2024-07-14

数据库集成技术(精选12篇)

数据库集成技术 篇1

1 引言

随着信息技术飞速发展和应用领域不断拓宽,信息技术极大地提高了人们的工作效率,给人们的生活带来了诸多便利。然而在信息化建设初期,由于缺乏有效的和合理的规划和协作,造成信息化建设的大量重复和“信息孤岛”现象,随着信息量的爆炸式增长,信息化建设遭遇到巨大的浪费。针对目前情况,迫切需要一种技术用于将之前的各个独立的信息化系统集合起来,给各个“孤岛”架起沟通的桥梁,为将来各种各样的信息化建设服务。随着互联网技术的诞生,在一定的程度上可以很好的支持信息发布和信息收集,但对于之前的信息化资源的重用需求,对于日益迫切的分散数据访问和分析需求——跨地区的连锁经营销售商要求对其每天总的销售状况进行分析等,对于越来越复杂的应用环境——在线分析处理(OLAP)、决策支持系统(DSS)、数据挖掘(DM)等,人们迫切需要形成跨组织、跨领域、多应用的信息交换和共享。在这种背景下,数据集成技术应运而生。

数据集成技术是将分布的、异步的,甚至异构的独立信息源中的有用数据集成在一起,使得用户能够以透明的方式访问这些数据源,以供将来信息检索、分析处理等等应用的技术。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据,图1显示了数据集成系统模型。[1,2]

数据集成是信息系统集成的基础和关键,好的数据集成系统可以保证用户以低代价、高效率使用异构的数据。现在,越来越多的现代企业已经意识到商业数据集成在企业日常运作和管理中的重要性,全球著名的IT企业如Oracle、IBM,数据开发环境单一,工具环境无关性差等缺点。而且随着应用的不断深入,对Microsoft和Sybase等都针对自己的产品提出了数据仓库的数据集成解决方案,这些解决方案提供了方便了数据集成方法,但它们都或多或少地存在这样或那样的缺陷,比如兼容性数据集成提出更新更高的要求———任意订制需要抽取的数据、灵活而高效的数据抽取方式(实时或周期性抽取等)、数据抽取的一致性、异构信息源(包括半结构化和非结构化数据)集成和系统平台无关性等。数据集成的研究与设计必须深入,解决以前方法的局限性,提供更高的实用性,找到一种更优的维护方法等等任务。[3]

2 传统的异构数据集成方法

传统的数据集成所采用的方法基本可以分为两大类:数据复制方法和模式映射方法。

2.1 数据复制方法

数据复制方法将各个数据源的数据复制到与其相关的其他数据源上,并维护数据源整体上的一致性,提高信息共享和利用的效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可减少用户使用数据集成系统时对异构数据源的数据访问量,提高数据集成系统的性能。最常见的数据复制方法就是数据仓库方法。该方法将各个数据源的数据复制到同一处——数据仓库,用户则直接访问数据仓库获取数据。这种方法既可用于数据集成,亦可用于决策支持查询。但是,这种对数据仓库的间接访问方式带来的问题就是数据更新不及时、数据重复存储。斯坦福大学DB Group的数据集成方案是数据复制方式数据集成方法的代表性方案。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表。[4]

2.2 模式映射方法:即虚拟视图的方法

模式集成(Schema Integration)是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是,在构建集成系统时,将各数据源共享的数据视图集成为全局模式(Global Schema),供用户按照全局模式透明地访问各数据源的数据。该方法不需要重复存储大量数据,能保证查询到最新的数据,比较适合于集成数据多、且更新变化快的异构数据源集成。

模式集成要解决的两个基本问题是:构建全局模式与数据源共享数据视图间的映射关系;处理用户在全局模式基础上的查询请求。模式集成过程需要将原来异构的数据视图作适当的转换,消除数据源间的异构性,映射成全局模式。全局模式与数据源数据视图间映射的构建方法有两种:全局视图法和局部视图法。全局视图法中的全局模式是在数据源数据视图基础上建立的,它由一系列元素组成,每个元素对应数据源的一个查询,表示相应数据源的数据结构和操作;局部视图法先构建全局模式,数据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推理得到。

2.2.1 联邦数据库

联邦数据库是早期人们采用的一种模式集成方法。联邦数据库中数据源之间共享自己的一部分数据模式,形成一个联邦模式。联邦数据库系统按集成度可分为两类:采用紧密耦合联邦数据库系统和采用松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用统一的全局模式,将各数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这种方法集成度较高,用户参与少;缺点是构建一个全局数据模式的算法复杂,扩展性差。松散耦合联邦数据库系统比较特殊,没有全局模式,而是提供统一的查询语言,将很多异构性问题交给用户自己去解决。松散耦合方法对数据的集成度不高,但其数据源的自治性强、动态性能好。

2.2.2 中间件集成方法

中间件集成方法是另一种典型的模式集成方法,它使用全局数据模式。与联邦数据库不同,中间件系统不仅能够集成结构化的数据源信息,还可以集成半结构化或非结构化数据源中的信息,如Web信息。基于中间件的数据集成系统主要包括中间件和包装器,其中每个数据源对应一个包装器,中间件通过包装器和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发性,减少响应时间。包装器是对特定数据源进行封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给包装器,由包装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中间件。中间件注重于全局查询的处理和优化,相对于联邦数据库系统的优势在于:它能够集成非数据库形式的数据源,有很好的查询性能,自治性强;中间件集成的缺点在于它通常是只读的,而联邦数据库对读写都支持。

2.2.3 peer-to-peer数据集成方法

peer-to-peer(P2P)[6]数据集成方法是在新兴的P2P计算技术的基础上,对原有的模式集成方法的扩展。P2P是一种基于对等网络的架构,是计算机系统的结构从传统的集中式发展为松散耦合分布式的新模式。在P2P数据集成方法中,参与集成的各个数据源节点分别被视作一端,每个节点可以将自己的一部分本地数据模式映射成为端共享模式,向其他节点共享自己的数据。纯粹的P2P数据集成方法没有全局数据模式,各节点可以直接通过P2P映射使用其他节点共享的数据模式,从而形成各节点之间对等的数据共享与访问机制。P2P数据集成方法已成为当前数据集成研究的一个热点。

3 异构数据集成的新技术

虽然数据集成技术已经取得了很多应用成果。但由于应用和需求的不断拓展变化。数据集成迄今仍是困扰企事业单位信息系统建设、维护和发展的难题。还远未得到很好解决。已有的数据集成方案普遍存在难以适应数据源的动态变化、难以完成动态集成以及传输成本高等缺陷。而且很多系统中的数据是从数据源向集成模式单向流动的,不能支持局部数据源之间的数据交换和共享。也不能在集成数据上进行新型跨部门综合业务的开发针对以往数据集成方案的不足,人们不断探索,新的数据集成技术也不断涌现。其中包括网格技术和本体集成技术。

3.1 网格技术

网格技术提出目的就是实现分布式环境下的资源共享和协同计算。网格(Grid)又称为虚拟计算环境。是近年来兴起的一种重要的网络信息技术网格利用计算机网络把地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源、知识资源等连成—个逻辑整体,然后像一台超级计算机一样为用户提供—体化的信息应用服务。实现互联网上所有资源的全面连通、全面共享。以消除信息孤岛和资源孤岛。

3.2 本体技术

数据的异构性分为两个方面:一是结构性异构,即不同数据源数据的结构不同:二是语义性异构,即不同数据源的数据项在内容和含义上有所不同或有冲突。目前,XML已经成为异构系统间数据交换的公认标准,所以,语义异构成为数据集成技术的难点。已有的各数据集成方法也都面临如何更好的解决语义异构的问题。

本体是对某一领域中的概念及其之间关系的显式描述。是语义网络的—项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理,为语义异构性问题的解决提供了新的思路,对异构数据集成来说应该有很大的意义。但本体技术也存在一定的问题:已有关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处于探索阶段,本体技术还没有真正发挥应有的作用。

因此,可以采取本体技术和中间件相结合的方法[5]:采用中间件架构,支持虚拟视图或视图集合,且不存储任何异构数据库中的实际数据。为了更好地解决语义异构,在中间件中引入了一个本体库。

整个系统架构如图2所示,包括如下3个层次:

1)应用层

应用层为终端用户提供访问中间件层的查询接口,用户可以通过应用层的浏览器调用中间层。系统提供统一的查询检索平台,它能够显示用户可以查询的集成信息,而底层集成的数据源对用户是透明的。

2)中间件层

中间件层从更高层次上屏蔽了数据源的分布性和异构性。用户认为所有的数据都是本地的,处于同一服务域中,而具体的查询请求的处理、结果的返回都由中间层负责。中间件主要由中介器、包装器和本体库3个部分组成,其中,中介器又包括查询生成器、查询分解引擎、查询执行引擎和结果处理4个功能组件。

3)数据源层

数据源层是由分布式异构数据源组成,数据源可以是关系数据库、Excel表格,也可以是半结构化的XML文档。每一个数据源都可以位于Web上不同的服务站点,采用本地的方式对数据进行管理。

4 数据集成技术展望

鉴于异构数据集成所固有的难点。可以相信,异构数据集成技术会随着各个难题的解决而得到越来越广泛的应用。今后,数据集成的研究方向应该包括:(1)基于网格、本体语义的数据集成方案的研究;(2)多种技术相结合的数据集成方案;(3)集成数据的完整性、一致性,实时性。

5 结束语

本文从对数据集成技术需求出发,说明了数据集成技术对当前信息系统的重要性。对传统的几种数据集成技术进行了概括,并对数据集成的两种新技术进行了研究,给出了数据集成技术发展的方向

摘要:从现行信息需求出发,介绍了数据集成技术发展的必要性,讨论了已有的数据集成技术,分析了这些技术的优缺点,介绍了网格技术、本体技术两个新的异构数据集成技术。在此基础上给出了本体技术和中间件相结合数据集成解决方案。最后,提出了数据集成方法的发展方向。

关键词:数据集成,数据复制,模式集成,本体

参考文献

[1]Widom J.,"Research Problems in Data WareHousing",In Proceedings of the4th,Int'L Conference on Information and Knowledge Management(CIKM),November1995.

[2]薛惠忠,庄晓青,董逸生.数据仓库中的数据集成转换[J].现代计算机,2003.12:78-82.

[3]Ullman J D.Information integration using logical views[c]//proceeding of ICDT97,Volume1186of LNCS,1997:19-40

[4]Hammer J.,Garcia-Molina H.,Widom J.,Labio W.,Zhuge Y."The Stanford Data Warehousing Project",In IEEE Data Engineering Bulletin,1995,18(2):41-48.

[5]周刚,郭建胜.基于本体的异构数据源集成系统分析与设计[J].北京:北京联合大学学报,2007.10:45-48.

[6]周傲英,凌波.Peer-to-peer系统及其应用[J].计算机科学,2001,29(8):200-202.

[7]徐立臻,谢鸿强.数据仓库系统中源数据的提取与集成[J].小型微型计算机系统,2003,24(5):869-873.

[8]都志辉,陈渝,刘鹏.网格计算[M].北京:清华大学出版社,2002.

数据库集成技术 篇2

陈挺,张乾亮

浙江中控技术股份有限公司,浙江杭州,310053

摘 要:本文详细分析了造纸QCS系统的数据特点,提出了一种基于OPC及WebService技术的QCS数据集成方案,并介绍了基于该方案的系统架构及实现。基于该方案可与第三方系统无缝集成,降低系统集成投入,避免信息孤岛,提高用户对QCS信息系统的投资回报。关键词:造纸,QCS,WebService,OPC;DCS

An Integration Solution for QCS Data Based on

OPC and WebService

Ting Chen, Qianliang Zhang Zhejiang SUPCON Technology Co., Ltd., Hangzhou, Zhejiang, 310053

Abstract: By analyzing the characteristics of the QCS data of papermaking system in detail, an integration solution for QCS system based on OPC and WebService is proposed, including the architecture and implementation.In view of the feasibility to seamlessly integrate this solution with the third part system, the proposed solution would be able to reduce the investment of the system integration and avoid information isolation, and thus ultimately improve the user’s ROI on the QCS information system.Keywords: Papermaking;QCS;WebService;OPC;DCS 引言

随着造纸过程自动化的迅速发展,造纸系统从最初的单参数基地式仪表发展到后来的气动、电动单元组合式仪表,直到现在的结合计算机控制技术的智能控制系统[1]。目前,造纸系统主要包括以下几个组成部分:过程控制系统(PCS)、质量控制系统(QCS)、纸机控制系统(MCS)、纸机传动系统、断纸监测系统(WMS)、纸页纸病检验系统(WIS)、纸机监视系统(MMS)[2]。

其中,QCS系统是主要针对造纸生产过程中的定量、水份等参数进行在线监测和控制的系统,此外,根据纸机和纸种的不同,还包括对灰份、厚度、白度、匀度、色度、平滑度、涂布量等参数的测量和控制[3]。该系统不仅可以提高产品质量、节约原材料、降低成本,更是提高自动化程度和企业经济效益的重要手段和措施,是造纸系统的核心组成部分之一。

QCS系统主要由计算机控制工作站、智能扫描架、传感器、执行机构和控制算法软件等部分组成[4]。计算机控制工作站根据采集的现场信息,通过控制算法指导执行机构进行实时的反馈调节,同时,组合成各种形式的显示图表,实时、动态、直观的显示,以供工艺人员分析。QCS数据对造纸生产过程非常关键,工程应用中往往需要将QCS数据集成到DCS系统软件以及上层信息管理系统中,以消除信息孤岛,提升管理和控制水平,实现管控一体化。

本文将以在中控WebField ECS-700系统及过程信息管理系统软件平台PIMS中集成澳大利亚S-Tec公司QCS数据为例,提出了一种不同于传统实现的QCS数据系统集成设计开发方案。系统分析

要实现QCS系统与DCS系统软件、过程信息管理等系统的数据集成,需要QCS系统以某种方式开放其数据。OPC(OLE for Process Control)是基于微软公司的DNA(Distributed Internet Application)架构和COM(Component Object Model)技术的一个工业标准,是一种客户/服务器模式,具有语言无关性、易于集成性等优点[5]。因此OPC接口是工业控制领域不同供应商之间开放数据的应用非常广泛的标准接口,S-Tec公司的QCS系统就是采用这种技术来开放数据。

传统上工业控制信息系统大多采用C/S架构,在客户端与服务端之间通过TCP/UDP实现数据交互,进而需要定义一套私有数据通信协议,同时出于数据安全需要,在客户端与服务端通信需要再实现一套私有数据加解密算法。如此势必构成一套相对封闭的通信系统。而第三方系统需要接入该数据也势必需要在此基础上进行二次开发。该方案因其封闭性导致系统难以被其他异构系统集成。

现实中需要QCS系统能够与生产管理信息系统等其他第三方进行数据集成。而在物理上QCS一般和生产管理信息系统部署在不同的网络,它们之间往往会有防火墙隔离;且生产管理信息系统一般是基于Web软件系统,中控的PIMS软件即是如此。考虑到各应用的跨平台异构性,这种技术应该具备跨平台能力,并具有异构系统集成能力。WebService作为一项新的技术,以其跨平台、开放、简单、分布式等特点得到越来越广泛的应用[6]。它是一个平台独立的,松耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML标准来描述、发布、发现、协调和配置这些应用程序,是用于开发分布式的互操作的应用程序。并且提供了平台和语言无关性,可以轻松穿越防火墙,使得各个应用之间具有高度的低耦合性,易于集成。因此本设计采用WebService技术作为通讯中间件为整套解决方案的数据通信提供服务。系统架构及实现

基于以上分析,本文提出了一种基于OPC及WebService技术的QCS数据集成方案,其总体架构如图3.1所示。

图3.1 QCS数据集成系统架构图

本系统由三个组件构成,分别是QC数据采集器、QCS数据服务以及QCS数据展现控件。

QCS数据采集器(QCSDataCollector)作为OPC客户端,远程连接QCS系统的OPC服务器,从OPC服务器采集造纸生产过程中各参数的实时数据,并将采集到的数据转储到关系数据库当中。

QCS数据服务组件(QCSWebService)通过ADO技术访问关系数据库,并通过WebService标准通讯格式对外以SOAP协议提供数据服务,通过该服务可 3 以将QCS以开放的姿态为各异构系统提供数据支撑。基于该协议可为不同客户端提供数据服务,不论该系统采用何种语言和架构,只需支持SOAP协议即可通过QCS数据服务组件获取相应QCS实时/历史数据。

QCS数据展现控件(QCSDataView)作为一个标准的ActiveX控件,既可用于桌面应用程序,也可用于Web页面。组态期可以通过其属性页的配置对其数据组名、位号名、Web服务器地址、端口、显示形式等各项属性进行配置;运行期控件会根据其属性配置建立相应数据的查询请求,通过WebService提供的读取远程数据库数据服务,获取对应位号的实时及历史数据进行显示。显示效果如图3.2所示。为了便于操作与观察,该组件还实现了一系列对该控件操作的辅助功能,如:按下鼠标左键会显示距离鼠标所在位置最近的一个数据点对应的横、纵坐标值;在数据区按下鼠标右键并拖动会放大鼠标选中区域内的部分数据;在非数据区按下鼠标右键可以修改控件纵坐标跨度值等。

图3.2 QCS数据展现控件显示界面

该方案采用OPC技术,借助其规范统一的接口函数,可以实现QCS数据采集器与不同厂商、不同型号的造纸扫描架进行集成,进而实现远程读取扫描架各位号实时数据的功能,不仅易于系统的集成,而且提高了代码的可重用性,无需重复开发即可实现QCS系统的数据采集。

QCS数据服务采用WebService技术实现了跨平台、跨语言QCS数据提供服务,不仅降低了系统的复杂度及耦合度,而且提高了系统的稳定性及可重用性。可方便的被第三方异构系统无缝集成。

该方案通过采用OPC、WebService以及ADO等多项技术,成功实现了QCS数据接入DCS系统,实现了QCS数据在DCS的监控中以曲线或柱状图的形式动态的、直观的展示。如图3.3所示,即QCSDataView控件在DCS流程图中应用并实时显示QCS数据的监控画面。

图3.3 QCS数据展现控件在DCS中显示QCS数据 结语

综上所述,本文提出了一种基于OPC及WebService技术的QCS数据集成技术方案。该方案具有易于集成性、高稳定性、低耦合度及代码重用性等优点,成功实现了DCS与生产管理信息系统PIMS等异构系统的无缝集成,为造纸行业的用户提供了更加高效、可靠的解决方案,降低系统集成投入,避免信息孤岛,提高用户对QCS信息系统的投资回报,真正实现造纸行业的管控一体化。

参考文献

[1] 胡松,潘力,QCS技术综述[J].浙江造纸,2004(1):20-23.[2] 钟益联,造纸机控制系统及QCS、DCS的选择[J].中国造纸,2002(3):65-67.[3] 王秀清,李金山,造纸过程QCS系统的应用和研究[J].自动化与仪表,2001.16(4):41-43.[4] 戚凤雷,宋文勇,造纸生产自动控制系统的应用[J].轻工机械,2004(1):111-114.[5] 谢永平,盛晋生,OPC软件技术在QCS生料质量控制系统中的应用[J].建材技术与应用,2010(8):9-11.[6] 胡泽,廖闻剑,彭艳兵,WebService技术研究及应用[J].2009(31):48-49.作者简介:

陈挺,1981年出生,男,浙江温州人,2003年毕业于浙江大学电气工程及其自动化专业,获学士学位;2011年毕业于浙江大学工商管理专业,获硕士学位。从事自动化及信息化软件研发工作。

数据库集成技术 篇3

[关键词]DOMINOWEB服务器自动化办公Oracle数据库集成物联网

[中图分类号]TP311.13 [文献标识码]A [文章编号]1672-5158(2013)06-0028-01

随着信息化的蓬勃发展,国内大量企事业单位信息业务系统得到了快速的增长,作为大型的关系型数据库管理系统,Oracle数据库在信息系统、企事业数据处理、电子商务等业务运营中,因其具有卓越的数据安全性和完整性得到了广泛的使用。在实际生产环境中,在物联网技术可以涉及到计算机、半导体、网络、通信、光学等众多学科领域,所以发展物联网将对相关学科发展起到极强的带动作用,其各种应用将快速渗透到各个方面,极大地提高信息交互的效率。随着数据量的激增,Domino提供了许多产品与技术实现Domino文档型数据库或Domino应用系统的信息与企业其他数据资源的集成其中主要的手段是LEI Lotus Enterprise Integrator和ESB(Enterprise SolutionBuilder)其中所采用的连接方法不局限于ODBCXCq:Oracle,DB2、Sybase等数据库可以直接通过专用驱动进行访问保证对后台数据库的高效可靠的访问机制此外,Domino所能连接的数据资源不局限于关系数据库而是可以访问ERP、MQ series等企业级应用与中间件事务处理系统如SAP、Peoplesoft等。灵活多样的企业集成手段可以使办公协作系统和业务系统有效地集成在一起为企业建立EIP(企业级信息门户)和EKP(企业级知识门户)打下坚实的基础。

一、Domino Web服务器的介绍

Domino Web服务器是一个Lotus Domino服务器任务,它使LotusDomino服务器能够同时作为HTTP服务器。而物联网可以渗透范围广将物理基础设施和IT基础设施整合为一体,其大大加快信息化进程,拓展信息化领域。Domino服务器的设计就源自于物联网,其利用了物联网的技术自动将所有的Notes设计元素和文档转换为Web页面,使用户既可以通过Notes客户机,也可以使用Web浏览器访问Notes数据库。不用付出任何额外的工作,Notea视图,表单,导航器,链接和文档被解释成可以显示在任意一种Web客户机上的HTML。

Domino OA系统特点,具有完全的浏览器架构,可支持页面的多样性,并且可以自行维护定义菜单功能,还可以按个人角色组来控制菜单的显示,文件格式自定义。图形化的工作流程自定义功能还可以方便的定制出用户所需的各种管理流程,方便的流程环节自定义,简洁的文件流转方向条件设置,使每一个环节设定审批人以及表单内容的权限,图形化的流程跟踪,与office软件的无缝集成,文件修改痕迹的保留,还支持电子印章,实时的文件提示功能,支持全文检索和条件检索,方便的发布信息,实现邮件功能,支持内外邮箱的收发,多种方式实现与其他系统的集成,支持手机短信的提示及回复功能,还支持即时信息和网络视频会议。

二、Domino Web开发规则

“物联网是互联网”的基础上,将其用户端延伸和扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。其定义是:通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络概念。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通讯。在以互联网为基础渐渐发展起来的物联网在对于Domino服务器的开发研究也有不少的贡献。

在所有的设计元素的命名都分成两部分,名称和别名,规定名称用中文命名,别名用英文,别名尽量使用简写,以WEB开发时不会产生较长的URL为前提,提高HTTP Request的响应速度。

应用系统的框架提供给应用模块开发使用,主要有以下功能:管理和存放产品类模块(包括核心和标准应用)所需要的HTML模板/JS/CSS/XML/XSL/图片/控件等。

1 存放公共子表单/Web公共组件/WEB应用接口/公共LS类库,如:公用子表单、组织机构选择人员对话框以及核心LS类库或JAVA类库等;

2 管理数据字典,统一维护,减化重复开发工作;如:下拉列表框中值的选择;基于此方法管理,能够?有助于开发团队间共享项目成果;

3 有助于从各个项目积累/封装出优秀代码或组件提供以后项目使用,Web元素管理使用文档管NWEB元素如:HTML模板/JS/CSS/XML/XSL/图片/控件,在产品开发或项目实施时调用。这样有助于应用开发时的变更/维护。

由于每个应用模块都使用在资源库的WEB组件,当WEB组件功能修改或升级时,只需要修改资源库中的WEB组件,而不需要对每个库进行修改。这样有利于版本的维护和功能的更新,有助于团队提高开发效率。

三、DOMINO WEB服务器与Oracle数据库集成

DOMINO WEB服务器对工作流机制的完美支持办公自动化电子协作系统的实现需要大范围的数据和众人的协商也就是说办理一件事需要多个部门参与协作才能完成。而物联网的RFID即射频识别,是一种非接触式的自动识别技术,它通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,作为条形码的无线版本,RHD技术具有条形码所不具备很多优点。特别是电子标签与产品电子编码EPC、互联网技术的融合。物联网在被应用中要求将数据发出功能更强的Web应用程序的同时,也导致这样的库技术很好地与web结合起来。例如发一个文件,包括了文件的起草、审核、会签、批准、发布等程序这就存在一个工作流程,Domino提供了强有力的工作流机制它根据路由将信息从一个环节传到下一个环节帮助使用者形成数据,并且根据处理过程调整工作流向。它包括了路由、规则、任务三个原则。Domino为开发人员提供了强大的集成开发环境可以快速、容易、可视化地开发动态、交互式的办公自动化应用开发出来的应用直接面向Web浏览器。

目前,随着信息技术的不断发展,我国的各大单位2.R用Web服务器扩展API来访问远端数据库纷纷开始组建自己的办公自动化信息系统。基于DominoNotes建立的办公自动化系统大多不是Netscape的NSAPI,NSAPI和SAPI均允许附加应采用Internet模式构建起来的。随着Web服务器和用程序作为Web服务器软件的扩充部分一一例如动应用的不断增长,人们对Web应用的要求也在不断提态链接库(DLL)一一来执行,因此能得到更紧密的集高。如:通过Web完成基于客户机/服务器模式的,能成和更好的性能。

四、总结

数据库集成技术 篇4

1 测绘数据库

1.1 测绘数据库的相关概念

随着计算机技术和网络技术的发展, 计算机不仅可以进行科学运算, 同时也能够对大量数据进行有效分析。这也增强了计算机技术的实用性, 计算机处理数据的能力推动了很多领域的发展, 计算机的应用从科学研究部分逐渐扩展到企业和行政部门, 在其广泛运用的过程中也产生了数据库技术。数据库技术的核心任务是进行数据管理。经过几代数据库的发展, 数据库技术已经发展非常成熟, 应用范围越来越广, 发挥的作用越来越大。测绘数据库也取得了快速的发展, 并且从不同的类别建立起了类数据库。测绘数据库数据具有以下几个特征, 首先是具有选择性, 数据是从某一侧面描述事物本身;另外数据还具有可靠性, 数据的获取、存储、传播等都会对数据的可靠性受到影响, 因此应该采取一定的措施避免数据的可靠性受到影响。另外数据还有完备性、时间性、详细性和综合性的特征。

1.2 测绘数据库的必要性

在当今社会测绘数据库的建立有很大的必要性, 因为现在测绘技术获得了快速的发展, 测绘数据的获得也愈来愈迅速, 如果对这些测绘数据不能进行有效的处理会造成数据资源的极大浪费。要想充分利用测绘数据和相关信息资源, 测绘数据库系统是一个最有效的途径, 通过测绘数据库可以对所掌握的数据进行有效整合和合理利用。另外测绘数据库可以快速过滤出有用的信息, 因为在大量的原始信息中, 只有部分信息是适用的, 测绘数据库可以把这些信息加以有效组织, 通过直观的形式表现出来。

1.3 测绘数据库系统的设计与实现

测绘数据库在设计的过程中需要遵循一定的原则, 这样测绘数据库在投入使用后才能起到良好的作用。首先是实用性的原则, 测绘数据库的建设是为了满足实际业务工作需要, 所以必须遵循实用性的原则。另外还需要遵循可靠性原则, 数据库中的资料应该是准确的, 系统应该具有良好的容错能力和处理突发事件的能力。另外一个原则是完备性原则, 这样可以保证数据的全面与完整。科学性原则也必须遵守, 建立测绘数据库时应该以软件工程的思想和方法来建立, 力求测绘数据库系统的科学合理。除了以上这些原则外还应当遵循规范性原则、经济性原则、可扩展性原则和开放性原则[2]。只有遵循这些原则建立起来的测绘数据库才更加科学合理。

测绘数据库系统的实现首先需要将测绘数据入库, 测试数据入库时先需要把数据进行转换, 可以通过CAD数据到SDE数据的转换的功能来实行全是数据到空间数据库的自动转换[3]。之后需要根据系统提示填写相关数据。数据转换完成之后需要对数据进行一次检查, 如果数据存在问题则需要及时进行改正, 数据的完整性也要得到保障。另外系统功能实现方面需要先进入登陆模块, 将用户名和密码输入, 登陆进去后打开地图操作, 根据地图操作上的一些指示进行地图的基本操作。运用地图操作可以进行地图距离量算、地图距离标注等操作。根据系统中的一些提示实现系统功能。

2 数据无缝集成技术

2.1 数据无缝集成技术概述

数据无缝集合技术也经过了很长时间的发展。集成的意思主要是指把分散的部分结合成一个有机的整体, 现在对于空间数据库集成有多种说法, 不同的说法侧重点各不相同。从形式上来说, 数据集成是不同格式、不同来源和不同特点的的空间数据逻辑或者物理上的集中。数据在集成的过程中充分考虑到了数据的时间、属性和空间特征。数据无缝集成在未来的发展方向是朝着网络化、集成机理、规范标准研究、知识规则的专家系统化。这些发展方向可以使数据无缝集成的总体水平获得提高, 整体性能更加优化。

2.2 数据无缝集成系统的发展特点

数据无缝集成系统的基础是数据无缝集成技术, 数据无缝集成系统具有一系列特点, 首先是异构系统能够实现统一访问。一般情况下一个信息系统都是跨品台、跨系统、跨地域的一个结构体系, 数据无缝集成使用了试配层技术, 针对不同的数据源开发出了相应的适配器[1], 这就可以实现不同平台、不同系统和不同地域的数据存取, 使数据库系统的访问性能得以提高。另外数据还可以实现实时访问, 数据无缝集成系统可以直接和数据源相联系, 可以让使用者迅速了解系统的实时情况。这也就克服了以往的查询数据滞后的弊端。此外数据采集整合也能快速实现。测绘数据库在有的应用领域有大量的数据需要进行处理, 系统任务比较繁多, 同时一些数据比较分散, 这也影响到了数据处理的效率。数据集成处理系统可以把一些数据进行及时整合, 提高数据处理的效率。

数据无缝集成系统的结构有时选用的是分布式的结构, 分布式的结构系统更有利于实现数据的整合和汇总, 可以轻松实现数据的跨地区交换。数据无缝处理系统具有良好的扩展性, 系统良好的扩展性可以更好处理系统以后遇到的新问题, 一些扩展性差的系统在后期的使用中会遇到很多困难。数据无缝集成技术的配置的实现方法与一般软件实现方法存在一定差别, 数据无缝集成技术的构筑是逐渐积累起来的, 具有较大的扩展性和灵活性。数据无缝集成系统还良好的安全性能。数据无缝集成系统采用了较为先进的ACL技术, 对系统中的对象能够进行有效控制。不同级别的用户只能看到本级别的内容, 其他级别的内容则无法或者, 这也就有效提高了系统的安全性能。系统对客户的一些不安全行为可以加以控制, 这样既保证了自身信息的安全, 也保障了其他用户信息的安全。

3 结束语

测绘数据库和数据无缝集成技术在数据处理方面发挥出了重要的作用, 提高了数据处理的效率, 为很多领域的发展作出了贡献。测绘数据库和数据无缝集成技术还需要不断进行完善, 使其作用得到最大限度的发挥。

摘要:测绘数据库已经得到了广泛的应用, 其优越性也得到了充分的体现。本文对测绘数据库和数据无缝集成技术分别进行了分析, 介绍了测绘数据库的相关概念以及测绘数据库建立的必要性, 以及测绘数据库的设计和实现。对数据无缝集成技术的相关概念也进行了分析, 介绍了数据无缝集成系统的特点。通过这些介绍可以对两者有更深入和更全面的认识。

关键词:测绘数据库,数据无缝集成技术,特点

参考文献

[1]严岩, 刘晓燕, 孟宪锋.测绘数据库与数据无缝集成的必要性[J].中国新技术新产品, 2011, (02) :58.

[2]浦晓东.测绘数据库及数据无缝集成管理[D].吉林大学, 2005∶47

数据库集成技术 篇5

1.8 数据挖掘系统与数据库系统或数据仓库系统的集成

1.2节勾画了典型的数据挖掘系统结构的主要成分(见图1-5)。一个好的系统结构将有利于数据挖掘系统更好地利用软件环境,有效、及时地完成数据挖掘任务,与其他信息系统协同和交换信息,适应用户的种种需求,并随时间进化。

数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。如果DM系统作为一个孤立的系统或嵌入应用程序中,则不存在DB或DW系统与它通信。这种简单的方案称为不耦合,其中DM设计所关注的主要问题停留在开发挖掘可用数据集的有效算法。然而,当DM系统工作在一个需要与其他信息系统成分(如DB和DW系统)通信的环境下,可能的集成方案包括不耦合、松散耦合、半紧密耦合和紧密耦合。我们逐一考察这些方案如下:

. 不耦合(no coupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。

尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。在DB和/或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。

此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。

. 松散耦合(loose coupling):松散耦合意味着DM系统将使用DB或DW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置,

松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。

然而,许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松散耦合系统很难获得高度可伸缩性和良好的性能。

. 半紧密耦合(semitight coupling):半紧密耦合意味除了将DM系统连接到一个DB/DW 系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量(如求和、计数、最大值、最小值、标准差等)的预计算。

此外,一些频繁使用的中间挖掘结果也可以预计算,并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算,或者可以有效地计算,这种设计将提高DM系统的性能。

. 紧密耦合(tight coupling):紧密耦合意味DM系统平滑地集成到DB/DW系统中。数据挖掘子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。随着技术进步,DM、DB和DW系统将进化和集成在一起,成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。

这种方法是高度期望的,因为它有利于数据挖掘功能、高系统性能和集成的信息处理环境的有效实现。

有了这些分析,可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效,也比不耦合好,因为它可以使用DB/DW的数据和系统设施。紧密耦合是高度期望的,但其实现并非易事,在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。

重要的是识别常用的数据挖掘原语,提供这些原语在DB/DW系统中的有效实现。

【责任编辑:铭铭 TEL:(010)68476606-8008】

回书目上一节下一节

数据库集成技术 篇6

关键词:潜力评价;集成数据库;建库流程;湖南

0 前言

2013年夏,湖南省矿产资源潜力评价成果集成数据库(以下简称“集成数据库”)完成且验收通过。它是以湖南省矿产资源潜力评价专题属性数据库(以下简称“专题属性数据库”)和省级专题汇总综合研究成果为基础建立的关系型数据库,该数据库涵盖湖南省22个重要矿种(煤炭、铀、铁、锰、钨、锡、钼、铜、铅、锌、锑、镍、金、银、稀土、锂、磷、硫、萤石、重晶石、硼、铝)在地质背景、成矿规律、矿产预测、重力、磁测、化探、重砂、遥感8个地质专业领域的最新研究成果。集成数据库的建成实现了对已有成果的科学管理和高效利用,开辟了GIS技术服务地学领域的新途径,为湖南省乃至全国的地质工作提供了坚实的信息支撑。

1 数据基础

1.1 建库软件(GeoPEX)简介

GeoPEX(省级矿产资源潜力评价资料性成果汇总建库管理系统软件)主要应用于省级集成数据库的建设。该系统支持基于本地、局域网、广域网的分布式管理,提供省级潜力评价图件、报告、编图说明书、元数据等一体化管理功能。

主要功能包括:

(1)数据库注册、查询方案配置、环境设置 ;

(2)用户管理、权限分配;

(3)投影转换(批量转换等);

(4)图件入库;

(5)图件、图层、图元及属性浏览、查询、检索;

(6)检索结果导出;

(7)数据维护(包括编图说明书、元数据、质量检查文档、栅格图像、遥感图像、汇报材料、表、其他等文档);

(8)数据库备份、数据库恢复、数据库迁移等。

1.2 数据整理

集成数据库的数据整理按三部分分别实施。

1.2.1 第一类资料的整理

即属于全国矿产资源潜力评价数据模型(以下简称数据模型)规定的成果[1](包括规定要提交的图件及其属性库、遥感影像、各类辅助文档等)。这类资料以专题属性数据库为主,在整理时应严格依照数据模型要求,运用GEOMAG、GEOTOK等各类GIS软件检查数据,制定统一的错误处理方案(见表1),确保数据质量。

1.2.2 第二类资料整理

不属于数据模型规定但属于各专业需要提交的成果(包括各专业汇总组规定需要提交的资料、各种过渡性图件、各类辅助文档等)。这类资料的整理应首先检查种类是否齐全,同时还须检查其内容是否符合汇总工作技术规范。

1.2.3 其他资料整理

这类资料应检查是否符合汇总工作技术规范。对于建有数据库的部分,还应检查是否符合全国矿产资源潜力评价项目办2010年35号文规定(以下简称“全国项目办2010年35号文”)。

2 集成数据库组织模式

2.1 数据库分组

根据《省级矿产资源潜力评价资料性成果集成建库实施技术指南》,统一规范MS SQL SERVER2008软件数据库文件命名(见表2)。

3 集成数据库系统实施方案

3.1 编订建库流程

依照技术规范并遵循数据库原理[2],编订统一的数据建库流程(见图1)。

3.2 配置查询方案

湖南省集成数据库还配置了五类基本查询方案(见表4)。方案是检索数据的空间约束条件,同时,还可以作为检索结构信息的底图使用。查询方案中,图层采用MapGIS6.7文件格式,选择北京54地理坐标系(单位为度),并建立有空间拓扑。

3.3 数据转换

3.3.1转换前检查

在导入数据库之前,运用MapGIS平台认真检查图件投影正确性、图形参数正确性,尤其需要统一工程自身与各图元文件的投影参数。

3.3.2投影转换

根据技术规范,数据必须用GeoPEX软件从投影平面直角坐标转换到地理经纬坐标。对于大多数按数据模型规范后的MapGIS工程,可采取GeoPEX批量导入方式。但对于遥感影像图等未规范的工程,则须逐一手动设置当前投影参数。

3.3.3 转换后检查

可以通过GeoPEX软件投影转换模块中“查询投影参数”和导入模中“预览选中图件”功能检查数据投影参数正确性。导致投影参数不正确原因及处理方法如下:

(1)操作失误。没勾选“自动获取当前投影参数”或目标投影参数错误所致。

(2)工程投影参数不统一。这种情况导致预览数据显示不正常。导入前须统一工程投影参数。

(3)未压缩数据存盘。这种情况能查询到正确投影参数,预览图件却显示不正常。导入前应压缩数据存盘。

(4)投影带号错。这种情况能查询到投影参数,也能预览,但数据空间位置显示不正常。导入前应修正投影带号。

(5)TIC点错误。这种情况和上一情况表现一致,但投影带号正确。导入前应修正TIC点。

3.4 数据导入

3.4.1 图件导入

对已按数据模型规范的工程,在“图件导入”模块中,须手动设置“数据库”、“成果类型”、“矿种”、“所属专题”、“图件种类”,其他入库信息可自动获取。核实信息后,选择“批量检查”、“批量导入”即可。对于如遥感影像图这类未按数据模型规范的工程,所有入库信息须人工输入,点击“导入当前图件”后入库。

nlc202309012232

3.4.2 附件导入

按要求,专题属性数据库已做到“一图、一库、一说明”的数据完整性[1]。集成数据库也应保持数据完整,所以每类图件对应的编图说明书、元数据、质量检查文档须在“附件导入”模块中,批量导入。

3.4.3 其他文档导入

在专题属性数据库中还存在大量报告、报表、统计数据、扫描件等文档,它们不属于附件,此类数据在“报告导入”模块中实现入库。

3.4.4 数据导入出错处理

(1)图件导入出错处理:

在导入过程中,如果是图元文件存在严重错误,可能会提示出错而中断入库。须根据前叙表1修改,再通过GEOMAG、GEOTOK软件检查后,重新投影导入。如果是工程名、图层名称等入库信息错误,则可以在“图件维护”模块中快速修改。

(2)文档导入出错处理

在导入文档时报错,则一般是文件名过长所致。改短文件名后即可顺利入库。此外,对高版本OFFICE文件,须另存为OFFICE2003及其以前的版本格式后导入。如果是导入后发现附件错误,则可以利用GeoPEX“附件导入”模块中“更新附件”功能实现纠错;但对于通过“报告导入”模块导入的数据,因不提供更新功能,所以需删除已入库的数据后,再重新导入正确的文档。

3.5 数据备份

为便于管理,建成的集成数据库按表2分组备份数据。各工作平台先本地完整备份,而后统一归档后再采用异地完整备份。集成数据库备份过程分三步:首先在MS SQL SERVER2008中,将对应数据库脱机;而后同时拷贝数据库主文件“*.mdf”和日志文件“*.ldf”到备份文件夹下;最后回到SQL窗口,将备份的数据库重新联机[4]。

4 数据库质量检查

依循相关数据库验收规范[5],集成数据库质量检查内容分两部分,首先是作为关系型数据库本身所应确保的质量,其次是集成数据库查询结果的质量。

4.1 数据库自身质量检查

利用已有网络资源,对集成数据库本身做了下述检查工作(见表5)。

4.2查询结果质量检查

利用查询方案,对集成数据库进行大批量的空间查询,并通过GEOMAG、GEOTOK等软件对查询结果进行质量检查(见表6)。

通过上述两方面质量检查,集成数据库质量符合技术要求。虽存在不适用其他非Windows系统的瑕疵,但达到了既能对省级潜力评价资料性成果入库,又能分专业、分矿种、根据空间范围和属性条件检索入库数据,并辅助相关专业开展综合编图的建库目标。

5 结论

随着近年来地质事业发展,地学领域积累了相当丰富的研究成果。如何通过信息工具实现对已有成果的跨专业综合利用,是我国当前地质工作面临的一个新课题。湖南省矿产资源潜力评价成果集成数据库的建成——这种利用数据库管理系统建库,管理海量地学信息的方式——开拓出信息技术为地质学科服务的新途径。

参考文献:

[1]左群超,杨东来.全国矿产资源潜力评价技术要求矿产资源潜力评价数据模型丛书[M] .北京:地质出版社,2012.

[2]雷景生等.数据库原理及应用[M].北京:清华大学出版社,2012.

[3]王珊.数据库系统概论[M].北京:高等教育出版社,2006.

[4]刘智勇,刘径舟等.SQL Server 2008宝典[M].北京:电子工业出版社.2011.

[5]国土资源部信息中心.国土资源数据库数据质量检查验收规范.2009.

数据库集成技术 篇7

电力企业经过多年的信息化建设,积累了大量的相对独立的应用系统,大量业务系统的投入运行,加强了信息管理手段,提高了企业的管理水平。随着电力体制改革的不断深入,在电力行业完成组织机构重组和区域重新划分之后,“厂网分开、竞价上网”的经营模式已现实。不同的应用系统由于缺少相互集成的技术,造成信息资源共享差、数据管理分散复杂,应用系统对业务处理的支撑能力难以转换为对管理决策的支撑能力,部门间难以协同工作或重复冗余的工作,直接导致了电力企业工作效率的降低和运营成本的上升。为了实现整个电力运营的全过程管理和控制,就必须及时真实地了解、分析各方面的信息,从而提高判断与决策的及时性和准确度。电力数据集成的应用将为实现以上目标提供有力的技术手段和保障,并进一步加强已有应用系统的应用深度和广度。

1 数据挖掘的概念

数据挖掘就是从海量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。也就是根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效的技术过程。数据挖掘是数据库研究中1个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1]。1个典型的数据挖掘过程一般包括数据选择、数据预处理、数据变换、数据挖掘和解释/评价等步骤。数据仓库是商务智能的基础,数据仓库是1个用以更好地支持企业或组织决策分析处理的数据集合,它有面向主题、集成、相对稳定、随时间不断变化4个特性,这些特性将数据仓库与传统的面向事务处理的数据库区分开来。

2 数据挖掘的主要方法

数据挖掘的主要方法有统计方法,关联规则、聚类分析及决策树方法[2]。

(1)统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题;回归分析用来找到1个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述1个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模、预测变量集的对数回归;统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中的工具之一。

(2)关联规则。关联规则是1种简单,实用的分析规则,关联规则描述了1个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域中应用很广泛,原因之1是不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则进行有效的评价,筛选有意义的关联规则。

(3)聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法、凝聚算法、划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类方法对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

(4)决策树方法。决策树是1种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每1个后继分支对应于该属性的1个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法只能应用于数据挖掘的分类方面。

3 数据挖掘和集成的发展和应用

3.1 企业应用数据挖掘和集成的思路[3]

在电力企业中,集团公司如何评价1个分公司的业绩,一直是1件很难的事,如果只用利润来分析有失公平,因为地区有先进落后之分,况且对电力行业来说,安全比利润更为重要。

数据挖掘技术能够最大程度地综合考虑到各方面因素,由利润、利润增长率、同行对比、投诉举报、生产成本等数据组成的主题仓库对某一地区或分公司的经营状况进行分析,同时用最直观的方式(如图表)来表示,方便上级做出最终的评价。如在电力设备的更新中,有2种更新方式:1)电力设备意外损坏,需要即时更新,这种更新通过电力设备监控系统即可发现,然后予以维修更换;2)对老化设备的更新,方法是通过经验来判断,比如说通过使用年限等,这样存在很多问题,有的设备已经到期了,但是保养得好,仍然可用,却要更换,造成浪费;有的设备虽然没到期,但是各种使用参数已经不符合要求了,却没有更换,导致电力的较大损耗。通过数据挖掘技术即可解决后一种方式存在的问题。可通过挖掘由故障报修、电力损耗、各种电力参数等数据组成的主题仓库来分析电力设备的故障和老化情况,最终决定设备是否需要更新。

3.2 应用目标

数据挖掘和集成的应用目标主要包括数据中心、数据交换、集成展现和应用集成4部分,它们相互协调、配合来实现混合应用,相互之间也进行功能上的支持和辅助,具体见图1[2]。

3.3 数据挖掘和集成的发展和应用前景

企业应用集成技术是伴随着企业信息系统的发展而产生和演变的。企业的价值取向是推动应用集成技术发展的原动力,而通过应用集成技术所实现的价值反过来也驱动着企业竞争优势的提升。企业应用集成技术的发展企业应用集成(Enterprise Application Integration,EAI)萌芽于20世纪80年代后期,发展于20世纪90年代,在21世纪初逐渐成熟并进入大规模应用。总体上其发展可分为3个阶段。

(1) EAI的发展初期,采用点对点的方式开发接口程序,把需要进行信息交换的系统一对一地集成起来,从而实现整合应用的目标。这一方式适用于少量系统间简单业务的集成,具有开发周期短、技术难度低的优势。但是,当需要整合的应用系统越来越多时,点对点集成方式将把整个企业信息系统变成无法管理的“混乱的线团”。此外,点对点的集成是紧耦合的,当一个应用系统变化时,所有与其相关的接口程序都需要重新开发或调试。

(2) EAI发展的第二阶段是依托中间件技术的应用集成。所谓中间件,是指位于平台(硬件和操作系统)和应用之间的通用软件,这一阶段的集成采用中间件的接口,集成的规则在中间件上进行定义和执行,其拓扑结构不再是点对点集成形成的无规则网状,而主要是集线器型或总线型。根据集成内容及所用中间件的不同,主要可分为用户界面集成、数据集成和业务流程集成3类。当中间件技术应用于EAI时,集成的应用系统之间的耦合度以及多系统间集成的复杂度降低。许多大型企业均开始实施EAI项目,从而逐步推动EAI进入成熟期。如果把中间件看成是技术集成平台,面向中间件平台,可以对接口以及数据进行专用或个性化的原模型或原数据管理,有别于企业应用集成平台。由于标准的匮乏,这一类EAI的缺陷逐渐暴露出来。各厂商的中间件多采用其专有协议或接口规范,开放程度非常低,一经采用,信息系统升级、完善的成本很高,周期很长,直接导致了企业管理流程受到系统固化,出现企业管理随着信息化应用的深化反而管理流程被动僵化。这是由于多个异构系统通过EAI相互关联,单个系统的完善或升级受到关联系统的牵制,可预见的结果是信息集成度越高,系统升级和数据维护越困难,从而直接导致管理改进的困难、运营效率降低和成本的上升,企业信息化的自由度就大大受限,同时也会付出更高的技术成本;由于受中间件具体产品功能的限制,在开展业务流程集成时,由于集成逻辑需要在中间件上通过变化完成定义与执行,所以具有较高的技术难度和复杂度,很难实现较复杂的流程集成,因而也就不能迅速满足业务变化提出的信息系统调整的需求。

(3)随着Web服务规范的日渐成熟,Web技术被应用于企业内部的应用集成,从而使EAI步入了第3个阶段,即面向服务的集成(SOI),开放的基于标准的Web服务被用于传统的集成对象间的交互。其主要特征是基于一系列Web标准或规范来开发接口程序,包括UDDI (通用描述发现和集成协议)、SOAP(简单对象访问协议)、WSDL (Web Services Description Language)、XML(可扩展标记语言),并采用支持这些规范的中间件产品作为集成平台,从而实现了1种开放而富有弹性的应用集成方式。从技术角度看,这种方式的应用集成与面向服务架构(SOA)的企业信息化解决方案非常相似,近年来,通常所说的EAI主要是指基于中间件技术的集成,也包括面向服务的集成[4]。

4 结语

数据挖掘技术是充满希望的研究领域,目前,数据挖掘技术仍然面临着许多问题和挑战,数据挖掘方法的效率亟待提高,尤其是超大规模数据集的挖掘效率、动态数据和知识数据的挖掘、网络与分布式环境下的数据挖掘等,都需要通过进一步的研究得到解决,数据挖掘技术必将在更加广泛的领域得到应用,并取得显著的效果。

摘要:介绍了数据挖掘技术在电力信息化建设发展和一体化集成的前景、数据挖掘的体系结构、集成应用的目标及数据挖掘技术和常用方法,分析了将数据挖掘技术应用于电力系统的可能性与必要性。最后根据电力系统的特点、结合电力市场的发展趋势,探讨了数据挖掘技术在电力企业集成应用中的前景。

关键词:数据挖掘技术,数据挖掘方法,集成应用

参考文献

[1]于之虹,郭志忠.数据挖掘与电力系统[J].电网技术,2001, 15(8):22-23.

[2]苏新宁,杨建林,邓三鸿.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.

[3]国家电网公司应用集成典型设计组.国家电网公司“SG186”工程一体化平台应用集成典型设计[R].北京:国家电网公司,2007.

数据库集成技术 篇8

Crystal Xcelsius是商务智能平台SAP Business Objects的一个水晶易表设计工具,它独立应用于Windows系统,可以将传统的电子表格转变为动态的交互式可视化分析,它和Microsof Office产品紧密整合在一起,其交互式和可视的模型能快速将数据模型转换成业务图标呈现出来,其动态的图标、生动的曲线图和交互式可视化分析,使分析更清晰和容易理解。

随着信息技术的发展和应用的逐步深入,孤立的应用已不能满足业务的需要,只有在集成相关业务系统的基础上,开发契合实际业务、操作简便友好的应用系统,使系统管用、好用、用户爱用,领导受用,这样的系统才会有生命力。如何才能简便地将各个系统的数据集成起来,开发满足业务需要的应用系统呢?Xcelsius+.NET开发可以实现。

2 Xcelsius数据源XML连接方式研究

Crystal Xcelsius提供多种数据源连接方式,如图1所示,在实际应用中的具体配置,如图2所示。

Xcelsius提供了最常用的数据连接方式XML数据。其支持多数据区域,Xcelsius基于XML作为数据源取数和获取参数的标准结构如下:

如果能够读取不同系统的数据并生成Xcelsius认识的XML格式的数据,就能实现不同系统的数据在Xcelsius层面的集成应用。如何实现不同系统的数据生成同样格式的XML文件呢?经研究Xcelsius数据管理器的XML数据连接有发送和加载两个部分,如果能够通过编写应用服务,实现利用发送部分来传递要读取的数据库的相关参数,再从数据库获得的相应数据并生成Xcelsius所需格式的XML字符串,输出给Xcelsius,就可以实现从不同应用系统获取数据,在Xcelsius层面的集成应用。

3. NET C#数据源连接及生成XML的研发

如果能够通过.NET开发Web Service访问不同数据库、生成Xcelsius所需格式XML数据的应用服务,再在Xcelsius中进行调用,就可实现不同数据库基于Xcelsius的集成应用。

Web Service是基于网络的、分布式的模块化组件,它执行特定的任务,遵守具体的技术规范,这些规范使得Web Service能与其他兼容的组件进行相互操作。它可以使用标准的互联网协议,像超文本传输协议HTTP、XML、SOAP(简单对象访问协议)、WSDL等,将功能体现在互联网和企业内部网上。Web Service平台是一套标准,它定义了应用程序如何在Web上实现互操作性,可以在任何支持这些标准的环境(Windows、Linux等)中使用。这有助于大量异构程序和平台之间的互操作性,从而使存在的应用程序能够被广泛的用户访问。

用.NET开发实现Xcelsius与数据库间进行数据传递的Web Service,应完成的功能流程如图3所示。

3.1 读取Xcelsius“发送”信息,获得取数参数

.NET C#读取Xcelsius传入的XML格式的字符串的方式为:

将字符串赋给xml文档对象,再循环读取每个节点,获取参数数值。

3.2 读取源数据库数据,生成XML格式字符串

根据获得的取数参数,到后台配置表中获取相应的SQL语句、抽取条件和源系统数据库连接驱动等信息,从源系统中读取数据,生成Datatable,循环读取获得的数据,按Xcelsius所需XML格式生成字符串,最后输出给Xcelsius。

3.2.1 根据取数参数,获得配置信息,读取源数据库数据

3.2.2 根据源数据库数据生成的Data Table,生成Xcelsius格式的XML文件

3.2.3 XML格式文件输出

4 资金回笼系统应用

资金是企业经营的命脉,资金回笼的快慢,直接影响企业日常的生产经营活动,本公司资金回笼业务涉及部门多,销售出厂审核流程长,需集成应用系统多,如ERP、MES及综合展示系统的销售发货过账、销售开票、出厂审核、资金计划及出厂计划等多环节数据。为了加快资金回笼,优化销售审核流程,提高资金使用效率,开发了资金回笼系统,按业务流程实时监控各出厂环节实际的情况,当有需要处理的业务时及时发送短信,进行提醒,如图4所示。

系统实现时,为了和多个系统的集成,设计了源系统连接配置数据表,具体表结构如表1、表2所示。

资金回笼系统实现了各出厂环节的跟踪监控、出厂计划完成情况、销售区域占比、实时短信提醒等多个功能,其主界面如图5所示。

5 结语

采用Xcelsius+.NET的方式进行系统开发,不仅界面美观、操作简便,而且灵活多变,数据集成可开发标准接口,适应不同的业务需求。在我公司物资动态跟踪、资金回笼、价格监控等的实际应用中取得了非常好的应用效果,也为将来商务智能的应用奠定了基础。

参考文献

[1]官方资料.SAP BusinessObjects XI3.1Service Pack4的新增功能.

[2]官方资料.SAP BusinessObjects Business Intelligence plat-form 4.0 API.

[3]官方资料.SAP BusinessObjects Xcelsius2008SP4用户指南.

[4]周鹏.基于.NET的Web Service技术在数据交换系统中的研究和应用.http://www.doc88.com/p-57466630211.html.

数据库集成技术 篇9

1 数字化校园的体系结构

数字化校园是指在网络的基础上, 利用信息化的手段和工具, 实现教学设备、图书、课件、讲义、教学办公、教学管理、公共服务的数字化, 提升教学学习效率, 扩展校园教学功能, 实现教育全程的信息化。

数字化校园包括信息管理、用户管理、信息服务、数字图书馆、网上教学、网上办公、电子商务、社区服务、宽带网络与安全管理等方面的功能。

1.1 网络基础

网络是数字化校园的基础设施和核心, 是信息数据流通的途径。

1.2 网络基础服务

网络基础服务是指电子邮件、信息发布、文件传输、计费管理和域名服务等数字流动的软件基础。

1.3 应用支撑系统

应用支撑系统直接对各种信息资源进行管理, 并有逻辑地为使用者提供数据, 是数字化校园的核心系统。

1.4 信息服务系统

信息服务系统是指高校内使用者通过截面, 按照使用者的需求, 为用户提供服务。

1.5 虚拟大学环境

通过网络, 突破校园围墙大门的局限, 形成覆盖整个网络的学习系统。

2 数字化校园数据库集成的内容

高校经过长时间的信息建设积累, 内部已形成多个分支业务管理系统, 包括教务系统、人事系统、科研系统、学生系统等。各分支业务系统之间的数据和应用彼此分离, 分别使用不同的应用开发技术和不同的数据库系统。这些系统的数据资源相互封闭、彼此独立, 数据资源之间难以交流共享和融合, 数字化校园数据集成就是要通过应用系统之间的数据资源共享交换从而实现数据库集成。

3 建设数字化校园的难点

高校的信息化校园建设本应是统一发展的有机整体, 但是由于高校各部门之间对信息化的认识过程存在差异, 对信息化的需求程度也有所不同。迫切需要管理部门首先引入信息技术, 以提高高校的管理工作效率。但是各个管理部门建立起来的信息系统是在不同的时期, 不同的人员开发而成的系统不同, 而且高校各个院系之间相对独立, 导致整个高校的信息系统建设缺少统一的规划, 各个信息系统之间数据格式各不相同, 没有统一的信息标准, 在网络环境下形成诸个信息孤岛。

4 数字化校园数据库集成办法

4.1 异构数据库的集成

如今高校的数字化建设进程中, 数字资源难以集成, 根本原因是缺少统一数据内容结构的标准和手段, 来进行数据资源的描述和整合。若要高效利用这些分散的数据资源就需要统一这些资源格式, 异构数据库的集成就可以实现相关多个数据库系统的集合, 可以实现这些数据资源的共享和访问。

异构数据库简单来说就是物理上分散, 但在逻辑上集中的数据库。异构数据库的各个系统组成部分具有相对自身的自治性, 在实现数据资源共享的同时, 各个分支数据库系统仍能保持自有的完整性和安全性控制以及自身的应用特性。伴随异构数据库里数据交换集成技术的不断发展和应用的不断深入, 存在于分布式环境中的异构数据库的集成和访问已成为重要的研究课题。

4.2 数据信息的同步和异构数据的互联

数据信息的同步是指把在当前状态下的最终数据结果回传至指定的相关节点, 并更新与之相对应的原始数据以维持数据的一致性, 并忽略执行过程的细节。数据同步有自身的特征:数据信息的松散保持一致性、实现高等级别的本地自治、不保存数据事物的状态、能够提供冲突检测并提出解决机制、数据信息支持异构环境。与此同时, 异构数据库的互联问题也并不简单, 计算机硬件、网络通信和协议、操作系统、数据模型等因素都能都使数据库系统产生差异性。

建设数字化校园必须解决应用异构数据库系统的过程中实现数据同步这个关键问题。数据传输问题和数据格式转换是数据同步过程中存在的两个主要问题, 要解决格式映射规则的定义、数据传输的灵活性、异构数据库的支持、数据请求的自动响应几个问题以实现数据同步。

5 数据库集成技术的作用

数据库集成技术通过对数据的共享、数据的交换、高校的深化教学改革、各个分支管理系统间的业务处理、加强教学管理和建设都起到促进作用。

(1) 减小因为数据在存储位置的散落分布造成的数据资源浪费和数据存取开销;

(2) 向高校提供统一的数据资源管理界面;

(3) 数据资源存放更为精简;

(4) 避免数据因为结构和语义差异造成在数据转换时引起的错误;

(5) 数据资源及时更新, 全校的信息管理系统保持一致, 给各管理部门顺利工作提供保证;

(6) 数据之间交换频度高, 数据资源更新及时准确, 学校管理更加便捷;

(7) 数据资源交换过程中的人为操作较少, 保证在交换过程中的数据安全性。

6 数字化校园建设对高校信息化管理的作用

各个分支业务系统的数据共享访问、数据交换等数据量不断增大, 数据集成技术为高校信息化管理发展提供很多帮助:具有强大的故障恢复能力, 有很强的数据传输能力和恢复能力, 提供了稳固的系统运行环境;数据系统的管理内容包括数据操作系统的进程和线程、应用服务器管理、数据库连接和网络会话, 数据集成系统能实现多方面的有效管理;数据集成系统可提供数据的动态部署能力, 其中涉及应用程序配置、交易方式、嵌入对象的服务等;包括节点连接的安全认证、最终用户身份认证、程序的安全认证、数据加密解密功能、访问权限的设置、安全时间报警等方面, 通过这些方面的综合管理, 切实提高了数据集成系统应用的安全性。

7 结语

数字化校园的建设是国家信息化的重要方面, 已成为衡量高校信息化建设的显著标志。目前, 科研部门正在逐步加强数据库的数据同步机制的研究, 尽管现在已能够实现在不同的数据库系统之间进行数据同步和更新, 但并没有仔细考虑系统处理事务时的并发控制和故障恢复等关键部分。尽管如此, 随着人们不断深入研究数据库, 会进一步提高数据集成技术的实用性。

参考文献

[1]孙俊丽.网格数据库访问与集成研究[J].办公自动化, 2016, 21 (19) :29-30.

[2]张鹏.基于多数据库环境数据集成技术的研究[J].电脑知识与技术, 2015 (36) :141-142, 144.

[3]李薇.分布式多空间数据库系统的集成技术[J].电子测试, 2016 (10) .

数据库集成技术 篇10

近几年来,随着计算机技术的迅猛发展,全国各高校都加快了自身的信息化建设进程,但是,随着校园网中运行的应用系统的数量逐渐增多,由于各个应用系统的数据资源存储平台,以及数据资源的存在形式都不尽相同,从而使得这些应用系统之间的异构数据在长期积累的过程中彼此间互相孤立,逐渐形成了“信息孤岛”,严重制约校园网的高效运行,以及学校各个部门的工作效率。

为了有效解决这一问题,基于XML的数据集成中间件被引入到了数字化校园建设当中,通过数据集成中间件可以将不同数据源中的异构数据集成到统一的平台下,并且不需要改变各个异构数据库的物理位置、体系结构,各个数据库之间仍独立运行,投资少,开发周期短,查询时为用户提供统一的访问界面,使用户感觉到分布到多个数据源中的查询内容,都具有单一的模式,且存储在单一的数据源当中,使用户只关注查询的内容,而不是得到数据的方法,不仅方便了用户查询,而且节省了用户的操作时间,提高了工作效率。

1 数据集成体系结构设计

基于XML数据集成,其工作流程及体系结构如图1所示。该体系结构由三部分组成,表示层、业务层、数据源层。

1.1 表示层:

这一层为系统与用户的交互界面,能为用户所直观的看到,响应用户的全局查询请求,向用户返回查询结果,一般分为基于Web的和非基于Web的,本文所研究的为基于Web的,所以表示层为Web浏览器。

1.2 业务层:

业务层主要包括数据集成中间件,数据集成中间件封装了系统所有业务功能模块,用来完成整个系统业务逻辑,它包括查询分配器、元数据库、包装器、结果集成器四个部分,它向上提供数据查询接口,响应表示层的查询请求,向下接收数据源返回的查询结果,是整个体系结构中的核心部分。数据集成中间件对表示层请求的处理流程一般为:Web浏览器向数据集成中间件提交全局查询请求,查询分配器根据元数据库中全局数据库到局部数据源的映射关系,将全局查询请求分解为相应的针对局部数据库子查询,并将这些子查询存入查询队列中。调度线程针对查询队列,根据先进先出的策略,将队列中的子查询请求依次出队,并将子查询请求发送到相应数据源的包装器。包装器将收到SQL查询请求发送到对应的数据源,并接受查询返回结果,并将其转化为XML文档,结果集成器将来自于各个数据源的XML文档,统一合成一个完整结果的XML文档,并返回Web浏览器。

1.3 数据源层:

数据源层是系统数据的提供者,即校园网中需要集成的各个应用系统的异构数据库。

2 中间件的设计

数据集成中间件的设计采用VisualStudio2010作为开发平台,C#.NET作为开发语言,Framework版本为.NET Framework 2.0。数据集成中间主要分为元数据库、查询分配器、包装器、结果集成器四个部分,其功能介绍如下:

2.1 元数据库

元数据库是一个全局公共数据库,它不存储局部数据库中的数据信息,它除了存储本身的全局数据字典外,还存储了局部数据源的链接信息,如数据库名、数据库类型、IP地址、用户名、密码等,以及全局数据库与局部数据库之间的映射关系字典。具体实现可以采用XML Schema作为数据集成中间件的全局模式,每添加一个数据源,系统将会生成一个针对此局部数据源的XML Schema,最后系统将会根据所有数据源的XML Schema动态生成全局的XML Schema。

2.3 查询分配器

查询分配器响应Web浏览器的全局查询请求,通过访问元数据库,获取全局数据库到局部数据库的映射关系,将Web浏览器提交的全局查询请求分解为一个或多个针对局部异构数据库的SQL子查询,并且获取相应局部数据库的链接信息,同时查询分配器通过System.Co-llections.Queue类生成查询队列SQLQueue,最后根据SQL子查询和局部数据库链接信息为每个局部数据库生成SQL子查询对象SQLObject。SQLObject对象定义如下:

当一个SQLObject子查询对象生成后,查询分配器通过SQLQueue的Enqueue方法将子查询对象插入到SQL子查询队列SQLQueue的尾端。当所有子查询对象入队完毕后,查询分配器调用调度线程,将子查询对象逐一出队,并发送到相应的包装器当中。

2.3 包装器

包装器的主要作用是接收查询分配器发送过来的SQLObject子查询对象,从中提取SQL子查询请求语句和数据库链接信息,并查询向对应的底层数据库,最后将查询所得的结果数据封装成XML文档的形式提交到结果集成器。

2.4 结果集成器

结果集成器的作用是接收各个包装器提交的查询结果XML文档,并将这些结果文档整合成为一个全局查询结果XML文档,最后这个整合完毕的XML文档经处理后返回给Web浏览器,从而实现了异构数据源之间的数据集成。

3 结语

本文通过XML技术设计的数据集成中间件,实现了异构数据源之间数据的无缝集成,是一种简单、可行、有效的方式,XML作为异构数据源之间的数据交换中介,极大的提高了系统的适应性和兼容性。

参考文献

[1]孙友仓, 宋彩利, 李润洲.一种基于Web Service的异构数据集成中间件[J].西安科技大学学报, 2007, 27 (2) :284-287.

[2]谢宝智, 王刘凯.基于XML和Web Service的数据集成中间件[J].信息技术, 2010, (1) :90-94.

数据库集成技术 篇11

关键词:元数据;数据集成;中间件;元数据字典

中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)15-30609-02

Design and Realization of Metadata Management in Database Integration Middleware System

JIANG Wei-wei, ZHAO Zhen-nan

(Engineering Institute of Engineering Corps,PLA University of Sci. & Tech.,Nanjing 210007, China)

Abstract:This paper introduce the concept of metadata and analysis the needs of heterogeneous data sources integration then puts forward the necessity of using metadata in Database Integration Middleware System, Set forth the design and realization process of metadata management.

Key words:metadata; data Integration; middleware; metadata dictionary

1 数据集成的相关概念

随着信息化建设发展,各类企业数据标准也在完善,而在各类旧系统多年的使用中,数据库中积累了大量的宝贵数据。因此,我们将面临着如何将原有的各类已趋于成熟的数据库系统纳入到新系统中的问题。如何有效地利用旧系统中存储的大量的宝贵数据和实现各个子系统之间数据的透明访问,成为我们开发数据集成系统必须解决的重要课题。

数据集成是为各种异构数据提供统一的表示、存储和管理,屏蔽各种异构数据间的差异,为用户提供一个访问异构数据源的统一接口,使用户不必考虑数据模型异构、数据抽取以及数据合成等问题。典型的数据集成技术有:

联邦数据库:是最简单的一种异构数据库集成方式,各个数据源是相互独立的,通过数据源之间的数据交换格式进行一一映射,这种方法的优点是容易实现,尤其是在集成的数据源种类和个数限定的情况下,缺点则是工作量极大,扩展性差,如果有n个异构数据源需要互连,那么我们就要去构造n*(n-1)个映射程序来支持这n个异构数据源之间的互相访问。

数据仓库集成异构数据源的策略是将来自几个异构数据源的数据副本,按照一个集中、统一的视图要求,进行预处理、转换,以符合数据仓库的模式,并存储到数据仓库中。数据仓库模式的异构数据库数据共享集成的优点是便于进行联机分析和数据挖掘,缺点是数据重复存储、难以及时更新。

中间件模式(Mediator/Wrapper模式)通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等,如图1所示。中间件位于异构数据源系统(数据层)和应用程序(应用层)之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要为异构数据源提供一个高层次检索服务。

图1 中间件集成模式

如果系统已经按照用户的要求建立了各种数据,但是用户却没有办法知道这些数据代表了什么,如何表示才是符合要求的,它们从哪里来,经过了怎样的变换等等,将会增加用户使用系统的难度。元数据实现了业务模型到数据模型的映射,把数据以用户需要的方式“翻译”过来,从而帮助用户理解和使用数据。数据集成系统中的底层数据对用户来说是“不透明”的,用户很自然会对集成结果产生怀疑。元数据记录了数据的来源和目标,记录了转换的规则,从而使得最终用户能够很容易的了解数据产生的全过程,这对于最终用户发现数据中存在的质量问题是非常有帮助的,从而增加数据可信度,减少数据仓库中蜘蛛网现象所造成的不利影响。中间件模式中的元数据管理作为各异构数据源的“翻译”和“协调者”,考虑到最终用户的非专业性,向中间层提供了一个源数据的“介绍”和获取方式,这既避免了数据源间的直接接触又避免了对源数据的复制,简化了数据的管理过程。

2 元数据

元数据(Metadata):“关于数据的数据”,为各层次信息内容提供规范的定义、标记、解析和利用机制。元数据的精神应该是用尽可能少而精的数据反映对象尽可能多而全的信息。

元数据的产生源于网络信息资源的快速增长,信息资源的组织与利用出现了巨大的困难,传统的信息组织方法不仅在数据加工和数据标引上费时费力,而且需要大量经过特殊培训的专业人员来操作。同时由于网络环境下的一些其他问题,如内容加密、资源庞大或资源收费等,造成资源不能被每个人直接使用,人们无法看到电子文档的实际内容。因而不可能使用传统的信息管理方法组织网上的信息。元数据是一个有效的解决方案。基于元数据的信息组织主要用于实现两个功能:一是较为准确地描述信息资源的原始数据或主题内容;二是能够实现网络信息资源的发现,即实现计算机网络定位、自动辨析、分解、提取等功能,将网络信息资源的无序状态变为有序状态。

在数据集成中间件中,元数据包含数据从哪里来,什么时间传输和传输到哪里去的一系列信息,提供给数据管理者一种追踪数据的方法。元数据被存储到服务器端,被数据库或XML文档管理,可以方便的展现给数据管理者。

3 元数据管理策略

从元数据的发展历史不难看出,元数据管理主要有两种方法:

(1)对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

(2)对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。元数据管理策略通常都包含一些基本特征:

(1)一个元数据的全局安全策略;

(2)对所有元数据源和目标以及元数据元素的确认机制;

(3)对每个元数据元素语义的一致理解;

(4)每个元数据元素的所有权;

(5)共享、修改和重新发布元数据元素的规则;

(6)元数据元素的重用目标。

4 元数据管理的实现

数据集成中间件中的元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据集成中间件中检索工具、数据访问接口模块、接收查询结果模块等之间的消息传递,协调各模块和工具之间的工作。本文元数据管理系统的实现过程有如下步骤:

(1)分析数据源,确定元数据映射范围;

(2)从实际系统中抽象元数据描述,加入语义层的对应,存人一个数据库中。本文采用一般的关系型数据库;

(3)确定元数据管理范围;

(4)确定元数据管理的工具。

举一个简单的例子,现有两数据库如图2所示:

图2 异构数据库示例

根据对数据源的分析,由于他们都表示了一个共同的关于企业编制的信息,因此元数据字典中可以抽象出一个全局的类“企业编制”,代表公有的领域概念。并分别用企业名称,企业编号,企业标识,企业地址,编制人数,实有人数等几个全局概念来表示“企业编制”类的属性。

本文使用元数据字典表示:各局部数据库的模式信息、集成系统的全局视图信息以及异构模式间的转换规则等。它是整个系统解决语义异构问题的核心,可确定来自不同数据库的相关数据,并将相关数据整合在全局视图上。

元数据字典通过精确表达领域内使用的公有概念以及概念的属性和它们之间的关系,能够对用户屏蔽这些异构数据的不同,使得用户的查询只根据这个元数据视图的概念进行描述。这个元数据字典描述文件如下所示。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<metadata>

<class name="企业编制" description="">

<object name="企业A编制" id="001001" address="D1" database="sqlserver" table="bdbzwj" key="企业编号"/>

<property name="企业编号" type="varchar" length="10" precision="50"/>

<property name="企业名称" type=" varchar " length="50" precision="50"/>

<property name="企业标识" type="varchar" length="10" precision="10"/>

……

<property name="企业驻地" type="varchar" length="50" precision="50"/>

<property name="编制人数" type="int" length="4" precision="10"/>

<property name="实有人数" type="int" length="4" precision="10"/>

</object>

<object name="企业B编制" id="001002" address="D1" database="oracle" table="bdbzmj" key="企业编号">

<property name="企业编号" type="varchar" length="10" precision="50"/>

<property name="企业名称" type=" varchar " length="50" precision="50"/>

<property name="企业标识" type="varchar" length="10" precision="10"/>

……

<property name="企业驻地" type="varchar" length="50" precision="50"/>

<property name="编制人数" type="int" length="4" precision="10"/>

<property name="实有人数" type="int" length="4" precision="10"/>

</object>

</class>

</metadata>

元数据的建立,一方面,采用XML进行描述、保存与交换,保证了系统的开放性与灵活性;另一方面,采用数据库表实现基于内容与集成的检索服务,保证了系统面对大容量的数据依然能够保证优秀的查准率、查全率和快速响应,数据客户端发送来查询字符串提供给服务端的功能模块解析,解析时需要查询元数据信息。因此把元数据信息从XML文档转换并导入到数据库中。本文用SQLServer 2000来存储元数据数据库。关系数据库中建立的对象表和属性表,如图3所示:

图3 元数据数据库

对元数据数据库的管理:建立友好的用户界面,用户无需了解元数据在数据库中的具体结构就能完成元数据维护工作。本文以树控件显示元数据机构,实现了元数据的添加、修改、删除,元数据数据表的维护等操作。

5 结束语

元数据是数据之数据,因此方便用户对资源的发现和辨识,大大提高了资源被利用程度,元数据的应用领域越来越广泛和深人,元数据的格式也进一步多元化,体系更加复杂,功能更加完善,元数据格式的标准化和格式之间的整合、可互操作将是一个严峻的问题。

参考文献:

[1] Maraco Bellinaso,等. C#入门经典[M]. 清华大学出版社,2002.

[2] 刘强. 基于中间件技术的异构数据集成[M]. 郑州:河南大学, 2003.5.

[3] 王真. 数据仓库中的元数据管理[M]. 福建教育学院学报, 2004.4.

数据库集成技术 篇12

为了更好提高提高学校信息化建设化水平, 避免数据的不一致, 可以通过数据集成技术来解决, 数据集成技术主要是ETL技术, 一种是借助ETL工具, 一种是SQL方式实现。SQL的方法优点是灵活, 提高ETL运行效率, 但是编码复杂, 对技术要求比较高。目前市场上ETL工具计较多, 有IBM的Data Stage、Informatica的Power Center, Oracle的OWB和ODI、SQLServer2005的SSIS, 开源的Kettle, 国内的有北京灵蜂的Beeload。

1 ETL技术

1.1 ETL技术介绍

ETL即数据抽取 (Extract) 、转换 (Transform) 、装载 (Load) 的过程, 它是用来构建数据仓库, 用户首先抽取数据, 然后经过清洗和转换, 最后加载到数据仓库中去。在技术上, ETL主要涉及到关联、转换、增量、调度和监控等几个方面。

1.2 ETL技术过程

1.2.1 数据抽取

首先, 做好准备工作。弄清校园里面有多少业务管理系统, 各个管理系统的DBMS类型。然后, 可以用数据库链接或ODBC的方式建立链接。从数据库中抽取数据一般有全量抽取和增量抽取。

1.2.2 数据转换

这个过程包括了数据清洗和数据转换两个步骤。数据清洗包括检查数据一致性, 处理无效值和缺失值等。对于过滤掉的数据, 写入Excel文件或者将过滤数据写入数据表, 发给客户, 修改以后再进行数据转换。数据转换将不同业务系统的相同类型的数据统一, 用一个相同的编码表示。

1.2.3 数据装载

数据装载是指将数据放到数据仓库中去。数据装载有四种装载模式:完全刷新, 镜像增量, 事件增量, 镜像比较。

2 ETL工具介绍

2.1 Kettle

Kettle是国外开源的ETL工具, 可以在Window、Unix等系统下运行, 目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON允许你通过图形界面来设计转换过程, PAN允许你批量运行转换, CHEF允许你创建任务, KITCHEN允许你批量设计的任务。

2.2 Data Stage

Data Stage能自动对多种数据源的数据抽取、转换和维护, 并将数据仓库集成的工具。是一个基于C/S的软件, 必须安装服务器和客户端软件, 它的所有开发工作都是在一个工程中。在Data Stage工具面板上有很多组件。Datastage包含四大部件:Administrator、Manager、Designer、Director。

2.3 Power Center

Power Center是Informatica公司开发的ETL工具。此产品可以提供企业部门如XML、网站日志、关系型数据集成。Power Center在内存中执行所有的数据抽取转换、整合、装载的功能。

2.4 OWB和ODI

OWB是Oracle的一个综合工具, 它提供对ETL、数据质量、数据审计, 以及数据和元数据的整个生命周期的管理, 适用于Oracle数据库的ETL工具, OWB 11g版包含在每个Oracle数据库11g版安装中。ODI和OWB一样, 都是ETL工具, 和OWB相比, 它支持异构数据, 可以和SOA集成。

2.5 SSIS

SSIS是Microsoft SQL Server 2005 Integration Services的简称。SSIS的体系结构主要由四部分组成:Integration Services服务、Integration Services对象模型、Integration Services运行时和运行时可执行文件以及封装数据流引擎和数据流组件的数据流任务。

2.6 Bee Load

Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具, 可以通过简单直观的图形操作界面, 帮助使用者快速定义ETL规则, 使数据处理工作变得简单方便。

参考文献

[1]王要.BI项目中ETL设计与思考[OB/DL].http://www.cnblogs.com/mybi/archive/2010/09/11/1823819.html, 2010-09-11.

上一篇:提高企业执行力的对策下一篇:高中立体几何的学习