数据挖掘网格

2024-09-16

数据挖掘网格(精选10篇)

数据挖掘网格 篇1

网格是继万维网之后出现的一种新型的网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施。可以用于共享的资源多种多样,包括计算机、集群、计算机池、仪器、设备、传感器、存储设施、数据、软件等。数据作为一种重要的网格资源,在网格计算中占有重要的地位,因此,如何能方便的访问网格中的各种数据就成为网格研究领域一个重要的研究课题。数据库是保存管理数据的一种重要手段,在各种应用系统中得到了广泛的应用。

网格数据库是对现有数据库的网格化,其目的都是为了实现高效的数据管理功能,为广域范围内的数据资源共享提供支持,它基于开放网格服务体系机构提供网格数据库服务,使网格用户或其它网格服务可通过网格数据库服务访问网格中的各种异构数据库[1]。本文主要对网格数据库技术进行综述,并综合分析国内外在网格数据库方面的研究,结合实际,对其应用领域及其发展趋势提出本人的一些观点。

1 网格数据库技术

数据库技术和其他计算机技术相结合,能够产生新的研究领域。不管是在科学研究、商业应用,还是对网格本身的运行和管理,都需要使用大量结构化的数据。因此,数据库技术和网格技术相结合产生的一个新的研究内容———网格数据库技术。

1.1 研究现状

在网格数据库技术研究领域,美国和欧洲的研究范围和规模都比较大,处于领先地位。而Globus系统则顺应网格中数据管理的迫切需求,在最初面向计算网格的基础上,对数据管理的功能进行研究和实现,成为最著名的网格数据管理系统开发平台。

我国也在这方面做了大量的研究工作,推动数据网格技术的应用,面向多个应用领域所遇到的海量数据存储、管理、处理和联合服务等问题提出解决方案。

1.2 研究内容

网格数据库研究内容主要包括3个方面:网格数据库管理系统、网格数据库集成和支持新的网格应用。

1.2.1 网格数据库管理系统

网格提供了一个多功能平台,这个平台支持系统化的身份鉴别和授权、资源发现、数据传输、进程创建和调度,以及跨异构平台的动态绑定。在此基础上就可以构造一个安全可靠、具有自主计算能力的高性能网格数据库管理系统。网格数据库管理系统最终将成为网格上的一种重要资源,提供数据管理服务[2]。

构建网格数据库管理系统可分为两步,第一步是提供一个中间件,将数据库管理系统包装成为网格服务,以便网格应用存取网格数据库。第二步扩展已有的数据库管理系统,让它直接利用网格提供的功能来实现分布式的数据库和相关的网格服务。

1.2.2 网格数据库集成

网格数据库集成就是使用两个或多个网格数据库中的信息,并使用这些信息构建一个大的数据库。它成为目前网格数据管理的研究热点,主要有三种网格数据库集成策略[3]:

虚拟数据库。虚拟数据库是一个联邦数据库,它只有一个联邦模式,所有的用户都无法觉察到多个独立的数据库存在的事实。虚拟数据库在概念上是受欢迎的,但是很难实现。在构造虚拟数据库时,需要考虑其异构透明性、命名透明性、属主和费用透明性、并行透明性和分布透明性。

定制集成。这种方式是指由开发人员自己开发应用程序完成数据库集成。开发人员自己找到熟悉领域的相关数据源,然后将集成任务划分为查询、要执行的程序、中间数据源的构建、显式的数据传输和数据变换,以及存储结果等。网格数据库管理系统应该提供对这种集成方式的支持,使之降低成本、减少时间耗费和错误的发生。

增量集成。虚拟数据库是一个理想目标,定制集成又过于注重细节,增量集成居于二者之间。在增量集成中,开发人员无须完成集成的每一个细节,高级的数据存取和集成组件可以自动完成一些后期的集成步骤。

1.2.3 支持新的网格应用

数据流处理、信息检索和科学数据分析等都是网格应用;其他的网格应用还有网格数据挖掘、网格计算机集成制造系统、网格数字图书馆等。应用能有力地推动技术的发展,而相对比较新的网格应用则可以有力地推动数据库技术的发展,同时也会给传统的数据库技术带来一些新的问题。

1.3 面临的问题

基于开放网格服务体系结构,将现有数据库网格化,主要面临以下4个问题[4]:

(1)数据库应该作为网格中的一种资源并且提供相应的服务,同时必须符合网格相应的标准。

(2)在集成各种数据库系统到网格中时,要考虑到数据库有不同的种类,不同种类的数据库产品在功能和接口上也有很大的不同,如何做到尽可能保留这些系统的全部功能。

(3)数据来自不同的研究者和组织机构,有着各自的数据库模式和数据库设计,网格要共享这些数据,需要中间件来完成异构数据的集成。

(4)网格需要处理三种数据信息:结构化数据、半结构化数据和非结构化数据。

针对上述问题,使用较少的集中控制,同时又要用最高质量的服务来实现跨众多虚拟组织共享的资源之间的高度交互,这是一项技术挑战。

2 网格数据库研究方向

针对上述网格数据库研究内容及面临的问题,主要集中在科学研究上,其研究方向有:

2.1 科学数据分析

网格技术是为了满足科学研究活动的需要而发展起来的,因此在科学研究活动的数据管理方面有它自己的特色,例如:有的数据是从其他数据派生而来,在进行数据分析时需要能够追溯这些数据的来源。从其他数据派生而来的数据称为虚拟数据。

2.2 数据库访问与集成

OGSA-DAI是一个在网格环境下访问和操作数据的中间件库。这个中间件有助于在网格环境中进行数据的存取和集成,它是DAIS工作组制定的网格数据库服务标准草案的一个参考实现[5]。OGSA-DAI的主要目的是在开放网格服务结构的基础上,以网格服务的形式为用户提供数据访问和管理服务。

2.3 数据库查询

随着符合GGF标准的Globus工具包闭以及网格数据库接口标准OGSA-DAI中间件的发展,越来越多的研究关注网格数据库的查询处理,如Polar*和OGSA-DQP是采用网格技术提供数据库查询的两个研究项目。

2.4 数据库性能监控

网格数据库的网格特性主要体现在虚拟化(virtualization)和供应(provisioning)。研究者通过研究使用网格资源监控方法,对其进行了必要的扩展,增加了信息持久化功能,提出了结构清晰可扩展的监控信息模型,实现了网格数据库的性能监控系统DBMg[6]。该系统已经成功地应用于实际生产系统Oracle 10g的性能监控。而如何将监控系统方便地移植到其他类型网格数据库,则是下一步研究的主要内容。

2.5 事务处理

事务处理是数据库管理系统的一个基本功能,主要用于动态访问各种数据库资源时维护数据的一致性,支持多用户的并发访问使用户可以可靠地查询和更新数据库。数据库的事务处理具有长事务、自治、松耦合、动态、潜在失败五项特性,前三项特性使网格数据库事务不同于传统的数据库事务,第四项特性是网格事务有别于Web服务事务的特殊性。而传统的分布式处理模型和Web服务事务处理模型要么不能有效支持长事务,要么不能满足网格的动态性,因此都不能直接用于网格环境中[7]。目前,已有不少研究针对网格的特性提出有效的事务处理模型。

3 网格数据库的应用及分析

随着网格技术的不断发展,网格数据库不仅仅希望应用于科学研究领域,而且应该在金融、商业、交通、预报系统等方面予以环境支持,实现更方便的信息共享和互操作,从而对人们的工作和生活模式产生深远影响。

3.1 金融领域

网格环境下的金融方面的应用包括网络技术和分析能力的优化与提升,需要解决安全问题、数据和存储的虚拟化、有效的数据库系统等典型问题。例如研究实现了在已有的网格技术的基础上研究了构建金融网格中的数据管理策略,设计一种二层分布式的副本管理结构,旨在能提供金融网格中的数据访问效力和改善单点实效等问题;设计出金融网格控制安全模型和金融数据访问系统的实现方法[8]。

3.2 洪水预报领域

在洪水预报领域中存在着许多数据库,这些数据库是进行洪水预报的基础,它们大多数都分布在各地的水库管理部门,在进行联合调度时,必须实时访问各地的水库管理部门的数据库。以网格数据库为基础构建洪水预报系统,为用户提供各种功能和访问相关数据库的途径。基于网格数据库技术的方案,将基于网格服务组件的开发方法和面向服务的体系结构合理结合起来,采用多层体系结构,有效解决了洪水预报应用中存在的数据库访问困难问题[9]。

3.3 电子商务领域

随着电子商务和网格技术的迅速发展,在硬件发展速度跟不上电子商务发展步伐的前提下,对电子商务交易网站的访问及响应速度势必会成为一个难题。在网格环境下,可以结合电子商务网站的数据库技术的现状和应用,对网格数据库在电子商务中的发展前景进行初步的设想及分析,从完善现有数据库和重新建立数据库两种情况讨论实现网格数据库的应用。在网格数据库环境下,每个企业通过一个标准接口就可以将数据库建在自身服务器硬盘上的电子商务网站连入网格中。只要在网上,不管是管理者对网站数据进行查、添、删、改等操作,还是用户要对数据进行查询,都能通过接口访问网格数据库,而且速度更快,效果更好,就像访问本地网络资源一样。这样,企业不需要非常昂贵的服务器,只需要一台普通服务器和一个应用软件或者是网站,就可以实现电子商务交易[10]。

3.4 交通领域

交通数据处理在国内外已经有一定的研究[11]:美国的项目iFloird、欧洲的项目TRIDENT、新加坡的I_Transport平台;国内也有多个院校和研究机构,如北方交通大学、清华大学、同济大学和国家ITS中心等,面对交通数据管理的实施开展了许多有意义的研究工作。从国内外的智能交通的发展现状来看,交通数据(信息)共享对于智能交通发展及其重要,而网格数据库能够较好地实现交通数据的共享,恰好满足了交通数据共享的要求,从而可以在此基础上建立高效、完备的智能交通系统。

除此之外,笔者作为一名教师,认为随着研究的进一步深入,应该在校园网环境下建立网格数据库,实现校园网内资源共享资源复用。校园网既是高校管理工作的平台,又是一个重要的教学及科研工作平台。通过相应的网格数据库技术,开发网格服务,搭建网格平台上的数字化校园,方便广大师生通过统一的服务接口直接访问得到各种校园网资源,实现较好的为教学、管理、科研服务。

4 网格数据库的研究趋势

随着人们将网格技术越来越广泛的应用于数据库中,网格数据库将会得到快速稳步的发展.综合分析国内外在网格数据库方面的研究,普遍认为网格数据库的发展趋势主要有以下几个方面[12]:

(1)将更多地研究网格数据库管理系统。中间件是目前实现网格数据库存取和集成常用的方法,可以预计,未来数据库将会朝着更直接地支持网格技术的方向发展。

(2)将会注重数据库存取与集成的标准。目前尽管网格数据库集成所涉及的问题尚未完全解决,但已经有了网格数据库存取与集成的标准草案,而且根据这个草案可用实际的软件系统实现。

(3)将继续发掘网格应用的新需求。网格上的科学研究有很多数据管理问题需要解决,其中有的问题并非简单地将数据装入数据库就能解决,它们是能够推动数据库技术发展的新问题。

(4)将开展在网格环境下的数据库新技术的研究.这些研究如果放到网格环境下来做,将会收到意想不到的效果。

笔者认为在这些研究基础上,将网格数据库推进向前发展的过程中,以下问题也是值得研讨的:

(1)注重网格数据库的安全问题。数据库系统的安全问题来源于其数据共享问题,而网格数据库则实现了对网格中那些具有分布性、异构性、自治性、海量性等特征的数据资源进行统一的访问与集成,实现互联网上各种数据资源在广域网范围内的共享与协同,这都将增加安全风险。因此,除研究一般的网格安全外,必须特别注意数据保存和数据传输过程中的用户认证、授权和访问控制以及审计和数据完整性等问题,制定网格数据库的安全标准。另外,确保采取充分的措施来应对蠕虫和病毒的影响在网格数据库中也至关重要,因为蠕虫和病毒的影响在网格环境中会得到放大。

(2)增加对网格数据库性能监控的研究。随着网格数据库技术从科学研究领域逐步转向贴近人们生活的新应用,加上传统数据库监控系统不能很好地适应网格数据库的性能监控,因此,增强对网格数据库性能监控系统的研究有利于网格数据库新应用的实施与拓展。

(3)开展网格数据库在人工智能领域的研究。建立在网格数据库平台上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,以期将其应用到专家系统等人工智能领域。

5 结束语

在本文中,笔者介绍了网格数据库相关的一些研究工作,总结了当前网格数据库的研究内容、方向及应用,并分析了网格数据库研究趋势。网格数据库系统具有很好的发展前景,但它面临一些新的问题需要解决。相信随着网格技术的日臻成熟和完善,以及数据库访问与集成的技术进一步成熟,网格数据库技术必然跟随着网格技术一同发展和进步。

参考文献

[1]赵红灼,谭国真.网格数据库的改进及在智能交通系统中的应用.2006.

[2]胡国生.基于网格的数据库研究[J].科学技术与工程,2006,6(12):1644-1647.

[3]刘艳玉,吴雅琴.网格数据库访问与集成的研究[J].福建电脑,2007,7:34-35.

[4]张凌,王康,冯欣.网格数据库服务中的需求和解决方案[J].计算机科学,2006.33(12):75-77.

[5]Mario Antonioletti,Malcolm Atkinson,Rob Baxter,Andrew Borley,Neil P ChueHong,Brian Collins,Neil Hardman,Ally Hume,Al Knox,Mike Jackson,Amy Krause,Simon Laws,James Magowan,Norman W Paton,Dave Pearson,Tom Sugden,Paul Watson6and Mar Westhead.The Design and Implementation of Grid Database Services in OGSA-DAI。http://aspen.ucs.indiana.edu/CCPEwebresourc c815watson/c815OGSA-DAI-6.pdf.

[6]翟岩龙,宿红毅,战守义.网格数据库性能监控研究与设计[J].计算机工程,2007,33(20):64-66,69.

[7]梁钰,李陶深.基于移动Agent的网格数据库事务处理架构[J].广西科学院学报,2007,23(4):362-364.

[8]胡蓉,傅明.构建金融网格的若干技术研究.2006.

[9]史涯晴,乔正洪,葛武滇.基于网格数据库的应用系统[J].无锡南洋学院学报,2008,7(1):39-43.

[10]吴翠红.网格数据库的发展及在电子商务中的应用前景[J].上海第二工业大学学报,2006,23(4):328-332.

[11]李瑞敏,陆化普,史其信.交通综合信息平台及其关键技术研究[J].综合运输,2004,8:62-64.

[12]夏玉萍,赵焕平,张莉,李敬文.网格数据库技术的分析及应用[J].重庆工学院学报(自然科学),2007,21(12):98-101.

数据挖掘网格 篇2

空间数据库网格体系构造研究

本文基于笔者多年从事地理信息系统的相关研究,以空间数据库为研究对象,深度探讨了网格空间数据库的体系架构,文章首先时空间数据网格产生的`背景进行了简要的阐述,向后分析了网格系统体系结构的组成,最后笔者结合空间数据库的特点,重点探讨了网格空间数据库系统的构建,全文既是笔者长期工作实践的技术总结,同时也是在实践基础上的理论升华成果,相信对从事相关工作的同行有着重要的参考价值和借鉴意义.

作 者:王斌 作者单位:四川大学,四川成都,610065刊 名:科技资讯英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(9)分类号:P2关键词:空间数据库 网格 体系

网格系统中的数据备份技术探讨 篇3

关键词 数据网格;数据备份;地震减灾

中图分类号 TP30 文献标识码 A 文章编号 1673-9671-(2012)052-0146-01

目前我国已经形成了地震预报、防御以及紧急救援的三大地震减灾体系,在一定程度上提高了社会抗灾减灾的能力,但是在实际工作中仍然存在很多技术性的问题需要解决,如何更加迅速地进行震情分析,就需要对数据进行实时、准实时地处理,以下通过对数据备份策略的分析,来具体阐述网格系统中的数据备份技术。

1 备份需求

在地震应用中产生的各种源数据,都是各个地区的地震台网监测站的测量仪器监测产生的,每天产生的这些数据都要进行规范处理之后存储入各地区的数据库当中,由于工作量大,利用远程数据访问处理降低效率,同时如果监测数据库出现了故障,将带来很大的影响,这就要求注重整个地震应用网的服务质量以及可靠性,其中一个有效途径就是建立数据故障发生之后的最快速恢复机制,即利用网格资源备份技术。因此,网格中资源进行备份能够提高系统的可靠程度。

2 备份策略

数据资源备份的备份策略一般是按照网格内数据资源的具体访问情况来记录某一时间段内数据访问的请求者分别是来自哪里,当数据资源的访问量达到一个阈值的时候,开始进行备份系统的备份处理。

2.1 资源定义

为了能够正确选定备份资源,在这里运用了量化资源属性的方式,从而使问题更加简化。

定义一:假设资源r1=,式中,Id是资源标志,

A ttrs是资源属性组{A ttr1,A ttr2,A ttr3},那么称r1具备A ttrs属性值的可量化资源。

定义二:假设资源r1与r2具有相同的A ttrs定义,那么r1和r2是对等资源。

定义三:假设资源r1与r2是对等资源,那么资源r2可以替代资

源r1。

2.2 备份资源的可靠性量化

确定备份策略的其中一个指标就是利用资源的可靠性,这需要首先确定量化备份资源的可靠性的方法。要想得到资源的故障率,需利用故障检测系统经过测试得到,一个资源的故障率越低,其可靠性就越高,因此这里将资源的故障率看作是测量系统的可靠性的根据。在某个系统中,假如包括资源集合R{r1,r2,…,rn},那么系统的故障率则是由R中的r1,r2,…,rn的光障率所共同决定的。根据集合论理论,备份资源集合的故障率是按照资源集合中的所有资源元素故障率的交集所得的。如下图所示,资源集合{r1,r2}的故障率是f(r1)f(r2)。

2.3 备份资源的选择

在进行备份处理的时候,首先应该明确选定候选备份资源;在选择的过程中,出于简化问题的目的,主要依照以上对于资源的定义,设定资源r1和资源r2对等,那么r1与r2可互为备份。

图1 地震数据源分布

图2 多个备份资源故障率集合

定义四 如果在资源集合里,资源r1与资源r2是对等资源,那么r1与r2是互为备份资源。

依照定义四,设计出算法一,对于候选备份资源集合,应该选择同源资源对等的资源,最终进行确定候选备份资源集合。

算法一:

输入参数:注册而得的资源集合和源资源r

输出参数:候选的备份资源集合Rt

2.4 备份资源的数量

这里主要研究根据系统的可靠性的指标进行确定备份资源数量。当预先设定的指标大于网格系统的可靠性指标的时候,备份系统就会利用增加备份资源这种方式进行提高网格系统的可靠性。根据以上的设定,设计出算法二,确定备份的数量。

算法二:

输入参数:资源的故障率需求为Fn,资源r当前的故障率为F,候选的备份资源集合Rt;

输出参数:备份资源的数量为Nr。

2.5 备份策略

1)根据算法一确定候选备份资源集合Rt°;2)根据资源的故障率的指标进行升序排列资源集合Rt°;3)根据算法二计算出备份资源的数量Nr°;4)将排序之后的资源集合Rt当中的前Nr个资源选取为备份资源集合;5)返回到备份资源集合。

3 备份管理系统

3.1 备份资源目录的管理

备份目录的作用是存储和记录源备份资源信息和目标备份资源信息,而要想获得这些资源的详细信息,就要进行网格的元数据目录的检索。对备份资源目录的管理可以对备份目录的信息进行维护,例如添加、删除和更新操作等。

对备份资源目录的管理还可以实现维护备份资源的目的,当用户在读取源文件的时候,备份资源目录的管理会依照备份目录内的记录去获取一个最佳的资源备份进行服务用户的访问。

3.2 备份处理器

作为备份管理系统中枢的备份处理器,对哪些资源是需要备份的,备份到哪些资源中等内容起了决定性的作用。备份处理器最初由系统监视器内获得系统的可靠性参数,之后对需要进行触发资源备份操作的数据进行判断;每当需要备份处理操作的时候,备份处理器可以对备份资源进行选取以及备份资源的数量进行确定,并能够利用资源传输协议进行实际资源备份。

3.3 系统监控器

如果网格环境下的网格资源出现故障,可以利用系统监控器来进行监控,主要利用其相应的监控系统来收集和分析网格资源信息。

4 应用

在实际的地震的监测应用中,地震监测台中的大量观测数据均分布于异构的网络环境下,这就需要对这些数据实行有效管理,这是目前面临的问题。所以,可以在地震减灾仿真网格系统中利用备份管理的模型来管理网格数据资源。

5 总结

以上内容主要论述了利用资源的性能来为数据备份策略提供根据的设想,通过对备份管理系统的研究,指出了网格系统中的数据备份技术,虽然我们的地震应用领域已经初步建立了减灾灭灾体系,但在实际工作中还存在着许多机构性的问题,所以本文分析了具体了网格系统的数据备份技术,这项技术接下来会在此研究基础上对系统进行完善,为我国地震领域提供参考。

参考文献

[1]苑宁萍.网络环境下企业信息系统数据备份技术研究[J].内蒙古科技与经济,2010,16.

[2]申新鹏,李战怀,赵晓南.基于日志的数据热备份的实现[J].微电子学与计算机,2011,04.

网格环境下数据集成模型研究 篇4

英国e-science核心项目OGSA-DAI[2,3]是数据库网格研究领域的代表作,OGSA-DAI是一种数据访问和集成的中间件平台,它主要实现了对多种数据库的服务化访问,使得数据库能够用网格服务的形式对外共享数据。利用这些服务,虽然可以使客户端通过统一接口对不同的数据资源进行访问,但没有真正实现对异构数据源的数据集成[4]。另外,在网格环境下,如何对分布异构的数据资源动态的组成一个虚拟数据库以完成一个特定任务、如何解决虚拟数据库对分布异构的数据资源信息了解匮乏的问题,这些都需要做进一步研究。本文在详细分析了基于Web Service的OGSA架构[5]和OGSA-DAI的构架、内部流程的基础上,给出一个基于OGSA-DAI的数据集成模型,该模型用于解决网格环境下异构数据源数据集成和分布式查询处理的问题,并且在此基础上利用元数据管理来解决客户端对异构分布的数据资源信息了解匮乏的问题,从而在网格环境下为用户提供一种直观的、可视化的虚拟数据库视图环境以及高度透明的分布式查询环境,以便于上层用户透明地使用。

1 网格环境下数据集成的关键技术研究

1.1 网格环境下数据源的访问和集成

图1给出了OGSA-DAI对数据源访问的执行流程。

OGSA-DAI提供了数据存取和集成的基本的接口,还提供了扩展性机制,从而可以向OGSA-DAI添加更多的用户定义的服务。客户端发送执行文档给数据服务,执行文档中描述了需要数据服务资源执行的活动,这些活动可以包括对数据源的查询、更新、数据转换、数据传递操作。然后,数据服务把执行文档转交给代表实际数据源的数据服务资源。数据服务资源对执行文档进行解析并执行指定的活动。当活动是对数据源执行一个SQL查询语句时,数据服务资源创建描述请求结果的响应文档,其中包含了执行本次查询的结果集。最后,把响应文档通过数据服务返回给客户端[2]。

目前,数据集成方法主要分为模式集成方法、数据复制方法以及综合型集成方法。模式集成的基本思想是在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据源的数据。联邦数据库和中间件集成方法是两种比较典型的模式集成方法。数据复制方法是将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的一致性。比较常见的数据复制方法是数据仓库方法。综合型集成方法是把上述两种方法综合起来使用,以突破两种方法的局限性[6]。在本文中使用综合型集成方法来完成数据集成,由于各个异构数据源的元数据相对比较稳定,同时客户端对各个异构数据源的访问比较频繁,故客户端元数据库采用数据复制方法把各个异构数据源的元数据进行集成。客户端对异构数据源数据的访问,考虑到被集成的系统规模可能比较庞大且数据更新频繁,所以可采用中间件集成方法在全局模式下进行集成。

1.2 利用元数据对数据进行管理

元数据是关于数据的数据。在OGSA-DAI提供的查询服务中,对描述数据资源的元数据信息进行了内省,这样虽然不必专门对元数据进行管理,却使得描述数据资源的信息匮乏。用户在事先不知道数据源的情况下,需要多次与数据源进行交互才能得到数据内容。所以我们在模型的用户应用层和数据集成层之间建立了一个元数据库,该数据库中存放了所有已注册数据库的基本信息、数据库中的所有表信息和字段信息。同时,我们在用户应用层也建立了一个元数据管理模块来负责对各个分布、异构的数据源的元数据信息进行收集、发布和维护。有了这种配套机制,用户可以很方便地了解到各个数据库的信息以及表的结构、字段的类型、表间的关系等信息,并给分布式查询优化带来很大的方便。

1.3 分布式查询处理的设计、分解和优化

网格环境下分布式查询处理最大的特点是自适应性,它必须能充分利用并行计算能力和网格资源动态演化的特性[7]。在OGSA-DAI中,提供了基本服务接口,实现与存储资源之间的交互,对物理数据资源进行统一访问。对于用户来讲,关心的是通过一种简单、方便的机制去得到他想要的数据,不关心网格环境下分布式查询的复杂性,更不会主动地把分布式查询人工的分解为多个对单库的查询。所以在网格应用中,分布式查询操作应该在动态组成的虚拟数据库中进行,从而屏蔽不同关系数据库及其运行结点的异构性[8]。本文中采用网格服务和元数据服务来为客户端用户提供SQL查询服务,用户对虚拟数据库的操作可以像操作一个真实的数据库一样来进行。

2 网格环境下数据集成模型设计

本模型是基于OGSA-DAI中间件进行设计的,是建立在OGSA-DAI对网格环境下异构数据源的访问能力之上的。为了实现用户透明的访问网格环境下的异构数据源,可通过查询客户端本地元数据库中存储的异构数据源的元数据信息,把客户端的查询请求分解、优化为多个对单数据源的子查询请求。然后把各个优化后的子查询分派给OGSA-DAI执行,待OGSA-DAI执行完后,由数据合成模块接收OGSA-DAI执行的各个查询的结果,并利用本地临时数据库作为缓存,按照查询计划合成结果,并把合成结果返回给客户端,客户端利用本地元数据库和查询计划构建出虚拟数据库视图供客户端用户使用。图2是基于本模型设计的体系结构图。

2.1 数据层

通过OGSA-DAI访问的各种数据资源,本模型中主要包括了各种关系型数据库,例如:My Sql、IBM DB2、Microsoft SQL Server、Oracle、PostgreSQL。

2.2 支撑环境层

该层是本模型的网格支撑环境,提供的网格接口包括资源发现与管理、通知机制和网格服务生命周期管理、用户认证和授权、容错、安全等,由Globus Toolkit实现。OGSA-DAI模块负责以网格服务的形式对各种不同数据库的访问,这些服务包括GDSR(网格数据服务注册)、GDSF(网格数据服务工厂)、GDS(网格数据服务),利用这些服务实现数据源的注册、发现、定位、访问及结果的返回。

2.3 数据集成层

该层是本模型的核心层,集成了下述多个核心功能模块。

(1)分布式查询分解、优化模块对用户提出的SQL查询语句进行分析、分解、优化以形成一个或多个对单库的SQL查询语句。在此通过对本地元数据库的交互来完成查询计划的生成,并利用优化算法决定那些查询应该先做,那些应该后做。

(2)子查询分派模块把当前分解出的子查询分派给OGSA-DAI执行,并提供当前各个子查询执行状态的查看接口。子查询的执行和状态查看是间接地通过OGSA-DAI提供的服务来完成。例如:GDSR服务可使应用程序动态找到欲访问数据库,通过GDS服务的相应活动可以得到当前的执行情况。

(3)数据合成模块负责接收OGSA-DAI执行的各个查询结果,并利用本地临时数据库作为缓存,按照查询计划和所涉及的元数据库信息来进行结果的合成。

(4)元数据抽取模块负责从指定数据库中提取元数据,该功能的实现是通过扩展GDS服务来实现,提取之后,进行格式转换并由元数据管理模块完成对元数据库的更新。

(5)数据格式转换模块OGSA-DAI执行查询后,返回包含了查询结果的响应文档。该文档中的结果集是以XML格式来进行描述的,需要在本模块完成XML格式到行集的转换。

(6)数据库自动发现和注册实现局域网内或域内带有某些特征或授权的数据库的自动发现和注册。但一般使用手动注册的方式完成数据库注册和元数据的提取工作。

(7)数据集成总控制器负责与用户应用层的交互,如:接收SQL查询、发送结果集,并协调各个组件的交流和执行过程。

2.4 用户应用层

完成虚拟数据库视图环境的构建,查询结果的显示、元数据的管理。

(1)数据显示模块负责虚拟数据库视图的建立,以及用户结果的显示与转存,还包括用户SQL查询的保存与传递。结果的显示分为两种,一种是Table格式,另一种是XML格式

(2)元数据管理模块负责建立和维护元数据。包括元数据格式定义和表示、插入新注册数据库的元数据、更新元数据、删除元数据,以及向GDSR订阅元数据变动通知。通知是OGSA-DAI提供的一个服务,当数据库元数据有变动时,该模块能够及时得到消息并做出相应处理。

(3)本地SQL查询语句解析器位于数据显示模块和元数据库之间的一个中介模块,负责解析构建用户视图时的SQL语句。SQL查询语句往往涉及到多个数据库的查询,此处利用本地元数据库来实现SQL语句的解析,避免了访问远程数据库所造成的耗时。

3 工作流程

分布式查询和数据集成的工作流程如图3所示:

(1)从数据显示模块接收用户的SQL查询命令,分布式查询分解、优化模块与元数据库交互,确定要访问的数据库及其对象是否可用,然后,对查询任务进行分解、优化以形成高效的一个或多个子任务。最后把子任务提交给子查询分派模块。

(2)子查询分派模块按照子任务的接收顺序依次进行执行。期间,可以通过指定的服务查询各个子任务的执行情况。

(3)子查询分派模块现在充当了OGSA-DAI的客户端。客户端与GDSR通信,查找满足需求的服务工厂。

(4)把满足要求的服务工厂的GSH(网格服务句柄)返回给客户端。

(5)客服端可以查询GDSF的配置信息,调用Create Service()方法来创建GDS实例。

(6)GDSF创建GDS实例,并把该实例的GSH返回给客服端。

(7)用户把客户端生成的执行文档(其中包含了要执行的SQL语句,格式为XML)交付给GDS实例。

(8)连接数据库Database1,并将查询结果返回给GDS实例

(9)把处理结果以响应文档的形式发送给数据合成模块。

(10)同样的过程,可以访问Database2,并把结果也返回给数据合成模块。

(11)把XML文档转换成行集(或表的形式),并在数据合成模块合成数据,期间,可能需要暂存数据。

(12)把合成的结果传递给显示模块显示或转存。

4 结束语

本文介绍了网格环境下数据集成的关键技术,详细论述了如何在网格环境下利用OGSA-DAI进行数据集成,给出了模型的体系结构和实现方法,阐述了其工作流程,并利用与客户端元数据库交互的方式解决了用户对目标数据库信息了解匮乏的问题。

摘要:基于OGSA-DAI给出了一个用于解决网格环境下异构数据源数据集成和分布式查询处理的数据集成模型,在此基础上利用客户端元数据库解决了用户对目标数据库信息了解匮乏的问题,从而为用户的分布式查询处理提供了一种直观透明的、可视化的虚拟数据库视图环境。

关键词:数据集成,OGSA-DAI,元数据,网格计算

参考文献

[1]Foster I,Kesselman C.The grid2:blueprint for a new computing infras-tructure[M].Morgan Kaufmann,2004.

[2]OGSA-DAI WSRF2.2User Guide[EB/OL].http://www.ogsadai.org.uk/documentation/ogsadai-wsrf-2.2/doc/

[3]Atkinson,M.,Karasavvas,K.,Antonioletti,M.,Baxter,R.,Borley,A.,Chue Hong,N.,Hume,A.,Jackson,M.,Krause,A.,Laws,S.,Paton,N.,Schopf,J.M.,Sudgen,T.,Tourlas,K.and Watson,P.A new Architecturefor OGSA-DAI[EB/OL].http://www.ogsadai.org.uk/documentation/presentations/NewArchitecturePresentationAHMSep05MPA.pdf,2005-09-27.

[4]蒋明亮,傅秀芬,侯文国,肖树腾,李志清.基于OGSA—DAI的数据集成模型研究[J].微计算机信息,2006(11X):204-206,214.

[5]I.Foster,H.Kishimoto,A.Savva,D.Berry,A.Grimshaw,B.Horn,F.Maciel,F.Siebenlist,R.Subramaniam,J.Treadwell,J.Von Reich.The Open Grid Services Architecture,Version1.5[EB/OL].http://www.ogf.org/documents/GFD.80.pdf,2006-09-05.

[6]陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51.

[7]M.R.Martinez,N.RoussPoulos.MOCHA:A Self-extensible Database Middleware System for Distributed Data Sources.Porceedings of the ACM SIGMOD International Coneference on Management of Data[C].IEEE Press,2000(3):213-214.

数据挖掘网格 篇5

一种流体-结构耦合计算问题的网格数据交换方法

气动/结构耦合数值模拟是研究非线性气动弹性的`基础.数据交换和插值是非线性气动弹性仿真问题的关键.目前的插值方法不能满足非线性气动弹性问题.本文提出了一种有限元四节点(FEFN)插值方法.该方法是一种局部插值方法,并不依赖于结构模型带来的整体信息.以圆柱体为具体算例,插值结果与有限平板插值方法 (IPS)进行了算例对比,表明FEFN方法更能代表计算物体的表面,且计算简单、计算量小、误差小,是一种适合计算流体力学(CFD)/计算结构动力学(CSD)耦合仿真的界面数据交换工具.

作 者:徐敏 史忠军 陈士橹  作者单位:西北工业大学,航天工程学院,陕西,西安,710072 刊 名:西北工业大学学报  ISTIC EI PKU英文刊名:JOURNAL OF NORTHWESTERN POLYTECHNICAL UNIVERSITY 年,卷(期): 21(5) 分类号:O343.5 O342 O368 关键词:流固耦合   非线性气动弹性   耦合CFD/CSD界面算法  

网格数据库事务管理策略 篇6

事务管理是传统数据库的关键技术之一[3],同样网格数据库要能充分发挥其协同处理能力,它也离不开事务管理。在相关的研究中人们已经对多数据库系统的事务管理进行了系统的研究[6,7],虽然网格数据库与多数据库在某些方面有类似之处,但是网格数据库的分布地域以及节点数据库的协同处理能力是多数据库系统无法比拟的,也正是由于网格数据库的特殊运行环境网格平台,使得网格数据库的事务管理与其他数据库的事务管理有着不同。本文对网格数据库的事务管理进行了深入研究,给出了网格数据库全局事务与局部事务的概念,并作了相关形式化定义,为了保证全局事务的正确执行,网格数据库全局事务必须串行化,我们给出了网格数据库全局事务串行化的条件,并进行了相关证明。

1网格数据库的事务形式化模型

1.1网格数据库中的全局事务与局部事务

网格数据库由运行于网格平台上的节点数据库和网格平台一起组成,这些节点s1,s2,…,sn上的数据库独立且具有自治功能。网格数据库将在网格环境中所有节点数据库提供的功能服务化,充分利用网格的优势,提供多个数据资源协同工作。一个应用发出请求的时候,网格平台管理系统根据整个网格环境的运行状况,选择合适的一个或多个节点数据库提供的一个服务或多个服务来完成该项请求任务,并返回结果。假设现有一个服务请求Ti,就某一个节点数据库无法来完成或者是为了提高执行这个服务请求的速度,需要网格环境中的多个节点数据库共同完成该项请求(在网格环境中,只要有空闲的服务就提倡充分使用该服务),可将这个服务请求分解成Ti1,Ti2,…,Tin,让网格环境中的所有服务一起来共同完成某个或者某些服务请求。我们称Ti1,Ti2,…,Tin为网格数据库的全局事务,且Ti1,Ti2,…,Tin称为事务Ti的子事务。如果服务请求Ti在网格数据库中由某个节点数据库所提供的服务就能完成,称Ti为局部事务。网格数据库的全局事务与局部事务的关系如图1所示。

1.2网格数据库事务形式化模型

为了给出网格数据库的事务形式化模型,先引入几个操作符:

Ω:事务所有读、写操作的集合。Ω(Ti)表示事务Ti中所有读、写操作的集合;

Θ:完成事务操作所需数据库服务的集合。Θ(Ω(Ti))表示事务Ti中所有读、写操作完成所需要的数据库服务的集合;

Ψ:事务所有读、写、提交、回退操作的集合。Ψ(Ti)表示事务Ti中所有读、写、提交、回退操作的集合。

根据网格数据库中全局事务和局部事务的说明,下面给出与网格数据库事务形式化模型有关的形式化定义。

定义1 节点数据库组成网格数据库的每一个自治的数据库均被称为一个节点数据库。存放在场地i的DBMS中的节点数据库的数据集记为LDBi,网格数据库的数据集用GDB表示。

定义2 局部事务提交给场地j中DBMS(记为DBMSj)的事务Ti是一个局部事务,如果Θ(Ω(Ti))⊆LDBi。在DBMSj上所有局部事务记为undefined,GDBS中所有局部事务记为:

undefined

定义3 一个事务是全局事务(GTi),当且仅当

(i)Θ(Ω(GTi))⊆GDB;

(ii)∀LDBkΘ(GTi)⊄LDBk。

定义3表明全局事务所完成的任务请求,不是由一个节点数据库所提供的服务能完成的。全局事务是所有节点数据库上子服务对应的子事务的并集。

2网格数据库全局事务的串行化

由前面的内容可知,网格数据库中的一个事务操作同样是由一组读写操作组成,事务的结束同样也是以提交或放弃为标志,这些读写操作分别用ri、wi来表示。在某个节点sk上的局部调度用Sk来表示,这个局部调度是由一组在节点sk上执行的局部和全局事务组成。

定义4 如果局部调度Sk包含一个wi操作,在它之后执行的是rj操作,并且在rj执行之前Ti不放弃,我们称事务Ti关于操作wr与事务Tj冲突。如果事务Ti关于操作rw、wr、或者ww与事务Tj冲突,我们说事务Ti与事务Tj冲突。

定义5 对于事务Ti、Tj∈Sk,如果Ti、Tj在调度Sk中冲突,且Ti在调度Sk中提交,那么在Ti提交前Tj不提交,则称调度Sk是严格可恢复调度。它们的调度次序是Ti先于Tj。

对每一个全局事务,全局事务管理器(GTM)首先选择一个能够执行相关局部事务的节点数据库,然后根据这些局部事务执行时是否有冲突来决定该事务是接受、延时还是放弃。由于节点数据库的自治性,可能会出现有的局部事务提交,而有点的局部事务回滚,使得全局事务执行无法得到正确的结果。为了保证结果的正确性,一个比较通用的方法就是实现局部事务的全局可串行化调度。

下面来考虑一个网格数据库系统。如图2所示根据网格数据库全局事务和局部事务的定义,我们知道,这里的事务T1、T2是全局事务,T3、T4是局部事务。在节点s1上的数据库中有数据项a和b,节点s2上的数据库中有数据项c和d。全局事务T1、T2分别定义如下:T1:r1(a)r1(c);T2:r2(b)r2(d)。

节点上的局部事务T3、T4分别定义如下:T3:w3(a)w3(c);T4:w4(b)w4(d)。

假定事务T1在事务T2执行和提交之后执行和提交,那么在两个节点上将产生两个局部调度S1和S2,调度次序分别如下:

S1:r1(a)c1w3(a)w3(b)c3r2(b)c2

S2:w4(c)r1(c)c1r2(d)c2w4(d)c4

最后的结果是,在节点s1上事务T1发生在事务T2之前,节点s2上事务T1发生在事务T2之后,因此事务的全局串行化得不到保证。

为了能够维持网格数据库中事务的全局串行化,我们给出下面的定理。

定理1 对一个网格数据库系统,假设每一个节点数据库上的局部调度都是严格可恢复调度,那么如果网格数据库的全局服务请求(全局事务)所产生的全部子服务(局部事务)像在节点sk上的局部调度Sk一样,存在一个全局的调度次序,那么这些全局事务是可串行化的。

证明 假设这些全局事务不可串行化,并且在每个节点上存在一个全局的调度次序,那么对将在节点sk上执行的全局事务Ti、Tj来说,事务Ti在事务Tj前提交,那么事务根据定义6知,Ti的调度次序先于Tj。又因为每一个节点上局部调度是严格可恢复调度,所以所有的全局事务T1,T2,T3,…,Tr一定存在这样的一个环,事务T1在节点si1上的调度次序先于T2,事务T2在节点si2上的调度次序先于T3,等等,事务Tr在节点sir上的调度次序先于T1。现研究节点sij上的事务Tj和Tk,如果事务Tj先于Tk,则在总的调度次序中Tj先于Tk。因为节点sij上的事务Tj先于Tk,根据定义5知,节点sij上的调度是严格可恢复调度,所以在节点sij上Tj在Tk执行前提交,那么它们在总的事务调度次序中Tj先于Tk。同理可得在总的事务调度次序中T1先于T2,T2先于T3,…,Tr先于T1。这说明全局事务T1,T2,T3,…,Tr是全局可串行化的。

下面我们用一个有向图来表示网格数据库中的全局事务执行过程。

定义6 网格数据库中任意一个全局事务执行过程用一个有向图来表示,它是一个四元组,G=(GT,LT,E),其中:

1) GT是全局事务的集合;

2) LT是局部事务的集合;

3) E是符合下列条件的边的集合:

i) 连接GT中全局事务顶点的边集。对于任意的两冲突的全局事务GTi,GTj∈GT,如果GTundefined,GTundefined分别为全局事务GTi,GTj在节点sk上的局部子事务,那么存在一条从GTi到GTj的E边;

ii) 如果E是连接GT和LT中顶点的边集。对于任意的两提交给节点数据库DBMSk的冲突事务Tki和Tkj,那么边集E中可以包括全局事务顶点间、局部事务顶点间、全局事务顶点与局部事务顶点间的边集。

定理2 网格数据库的事务是可串行化的,当且仅当它的全局事务和局部事务所构成的事务图中无环存在。

证明 1)先证明充分性。即网格数据库的事务图边集E没有环存在,网格数据库事务是可串行化的。因为事务图没有环存在,则由定义可得,对局部事务一定是可串行化的。对事务图中与全局事务相关的点也无环存在,不失一般性,假设全局事务集GT={GT1,GT2,…,GTn},因为无环存在,可对GT1,GT2,…,GTn进行拓扑排序,现假设拓扑排序结果为GTi1,GTi2,…,GTin(i1,i2,…,in是1,2,…,n的一个排列),根据前面的假设,可得网格数据库事务执行过程(GP’)是GTi1,GTi2,…,GTin的一个串行执行的事务经历。将事实上的网格数据库事务执行过程设为GP,下面我们来证明GP≡GP'。设任意两冲突操作p,q,如果p∈GTi,q∈GTj,且p

2) 再证明必要性。即网格数据库事务执行过程是可串行化的,证明事务图中边集无环存在。假设事务图中边集存在全局事务环,设为GTi1,GTi2,…,GTin,…,GTi1,设事务串行执行过程为GP,则由定义可得,∃p∈GTi1,∃q∈GTi2,p在q之前执行,由串行执行的定义得,在GP中,GTi1中所有操作均在GTi2之前执行,以此类推有GTi1的所有操作均在GTin之前执行,同时GTin的所有操作均在GTi1之前执行,这是不符合事实的,因此事务图中无环存在。下面来讨论事务图中边集仅存在局部事务环的情况,设为LT1,LT2,…,LTi,…,LT1,这个环说明存在事务LTi,事务LTi-1有操作在LTi之前执行,且事务LTi也有操作在LTi-1之前执行。而每一个局部事务执行过程均认为是可串行化的,那么LTi和LTi-1应该是全局事务,如果不是这样,那么局部事务执行过程是不可串行化,这与局部事务执行过程串行化矛盾。当LTi和LTi-1为全局事务时,那么又回到刚刚的证明上去了。所以事务图中也应该无局部事务环存在。

3结束语

网格数据库作为一个新兴的研究方向刚刚起步,需要研究和解决的问题还很多,本文主要是从事务管理的角度出发,将网格数据库中的服务事务化,当作事务来进行管理,并对网格数据库中的全局事务和子事务进行了定义,并给出了有关事务的形式化定义。为了保证事务执行结果的正确性,提出了保证事务正确执行的相关定理,并加以证明。今后我们的研究工作是进一步改进和完善网格数据库系统的事务管理理论体系,提高事务管理的效率,研究网格数据库事务管理的算法实现,并在实际系统的开发中加以实现。

参考文献

[1] Foster I,Kesselman C,Tuecke S.The anatomy of the grid.International Journal of Supercomputer Applications,2001,5(3):200-222.

[2]Fedak G,Germain C,Neri V,et al.XtremWeb:Ageneric global compu-ting system.In:Proceedings of the 1st IEEE/ACMInternational Sympo-sium on Cluster Computing and the Grid,2001:582-587.

[3]Breitbart Y,Silberschatz A,Thompson G R.Reliable transaction man-agement in a database system.In Proceedings of ACM-SIGMOD 1999International Conference on Management of Data,Atlantic City,NewJersey,1999:215-224.

[4]Breitbart Y,Georgakopolous D,Rusinkiewicz M,et al.On rigorous trans-action scheduling.IEEE Transaction on Software Engineering,1991.

[5]Elmagarmid A K,Du W.A paradigm for concurrency control in hetero-geneous distributed database systems.In Proceedings of the Sixth In-ternational Conference on Data Engineering,1998.

[6]Lu Zhengding,Yang Yuping,Li Changlei,et al.Maintaining consistencyin multidatabase systems[J].Journal of Computer Research&Develop-ment,2001,38(2):157-162.

网格环境下教学资源元数据管理 篇7

“网格”(Grid)一词来源于人们熟悉的电力网(PowerGrid)。[1]网格是利用互联网将地理上广泛分布的各种资源连成一个逻辑整体[2],就像一台超级计算机一样为用户提供一体化信息和应用服务,最终实现在这个虚拟环境上进行资源共享和协同工作,彻底消除资源孤岛,让人们使用网格上的资源像用电一样简单。基于对网格重要性的认识,2003年4月,教育部启动了中国教育网格计划(China Grid),中国教育科研网格是迄今为止由政府推出的最宏大的网格工程[3],该项目由12所大学联合推出。教育部希望利用网格技术将网上的教学资源有效地聚合起来,实现网上教学资源的广泛共享,为中国高等院校(特别是部分研究型大学)的科学研究提供先进的计算手段。

目前,教育网格研究方向和任务主要集中在提供一种通信管理的网格平台或架构,重点在网格计算能力上。[4,5,6,7]而对于教学与研究人员关注使用的基于网格的教学资源管理及其在网格环境中的深层次应用方面没有太多的研究。为屏蔽不同课程内容上的多样性和差异性,将知识点作为原子资源,并采用元数据进行描述,原子资源间的结构和逻辑规律遵循人的认识规律和教学规律,采用统一的模式进行结构化存储和管理。在此基础上,可以开发教学资源库,提供资源搜索、资源共享、资源组织管理等功能。

教学资源库建设规划

教学资源主要是指教学过程中教师和学生使用的课程资源,可以理解为教学过程中的软资源。教学资源的元数据可分为两个层次:直接对教学资源进行描述的元数据,称为教学资源信息ERI(Education ResourcesInformation);对教学资源的组织目录进行描述的元数据,称为教学资源目录信息ERII(Education ResourcesIndex Information)。其中ERII根据资源规模可抽象为多个层次。元数据是指描述数据的数据,是指与业务技术过程及企业使用数据有关的所有物理数据以及包含知识的信息,是指来自企业内外所有(软件或其他介质含有的)物理数据和(员工和各种媒介中含有的)知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及企业使用数据的结构。教学资源中的元数据是指描述教学资源的类型、规格、属性、联系、约束等信息的数据。教学资源库建设规划如下。

(1)提取教学资源知识单元,结合教学资源本身及其应用的特点,确定元数据的基本数据结构。知识单元是教学资源中可应用于交流使用并能完整描述一个知识点的最小单元。目前在知识单元划分上还没有具体的规范标准。一般由课程专家和教学专家参照教育部课程建设规范中的要求对教学资源进行三级划分,将划分得到的第三级资源作为知识单元进行管理,并向上逐层扩展,得到相应层次的粗粒度资源。

(2)构建教学资源目录树。目录树从根节点开始,包含一个对其所有数据的层次视图,并提供基于树形的搜索系统。教学资源目录信息ERII根据资源规模可抽象为多个层次。按照目前的惯例和一般使用情况,将课程资源按内容及其关系,划分成大的章,章内再划分小节,小节中又可包含若干更细分的知识单元。这种结构可以看作是教学资源目录信息ERII的外在显现,即教学资源目录树。

(3)教学资源服务。在教学资源使用过程中,系统存在三种角色:资源提供者、资源管理者、资源消费者。资源消费者是指教师或学生,他们提出资源消费请求,包括对资源质和量上的要求;资源管理者即资源中介,是系统管理中心,主要管理ERI或ERII,并根据资源消费者提出的请求进行必要的计算,反馈消费者信息,满足其需求;资源提供者是教学资源存储中心,主要负责资源的存储,并按接收到的指令为消费者提供相关资源。按照信息流动的不同方式,分析他们之间的工作模式,相应地设置层次代理结构。将资源与其元数据适当分隔存储管理,在资源服务时采取资源信息处理和资源实体传递两条线的方式,减轻资源代理的负担,平衡网格环境的负载,有利于提高系统的整体性能。

关键技术

1.元数据结构设计

本文拟采用的元数据基本结构如右表所示。

需要说明的是,该元数据结构根据教育部课程教学及大纲规范要求,结合本学科方向课程及教学实践,以及资源管理和软件开发的需要,并综合其他相关因素形成。

2.教学资源目录树构建

目录树是指存储有关网络资源信息的特殊数据库,把网络环境中的各种资源都作为目录信息,在目录树结构中分层存储、访问、管理和使用。目录树将分布式系统中的用户和资源,以及其他对象统一组织起来,提供一个单一逻辑视图,允许用户透明地访问网络上的资源。一个由目录树支持的网络系统是一个集成、网络化、统一的系统,而不是各个独立功能部分的简单聚合。

目录的内容称为对象类(ObjectClass)和项(Entry)。对象类描述什么信息可存储在目录中,而项把相关信息组合在一起,也可以理解为对象为抽象约束,项为信息内容。ERI之上的ERII逐层抽象或封装生成,下层的ERII是上次ERII的一个项,这是逐层递归或递推的过程,因此它们采用一致的管理操作方式,软件算法具有可复用性。元数据信息采用数据库方式存储,方便检索管理,而资源本身仍以文件方式存储于磁盘。为了管理的方便和统一,资源库的物理存储与资源管理的目录树结构基本保持一致。通过目录树方式记录存储教学资源数据信息,与资源库本身的层次结构(树型结构)相统一,同时也与Internet及各种管理中的层次结构相一致,为教学资源管理提供方便,易于使用现有技术手段进行管理。

3.教学资源服务

在教学资源库中,资源建设是基础,资源管理是关键,要对资源进行深层次的应用,就需要对资源进行规范化建设和管理。资源提供者对资源进行存储、传输等控制管理,资源的搜索、协调传输等任务主要由资源管理者完成。网格资源管理的目的是有效调度、管理、配置可利用资源,将实际上的异构环境转换成一个虚拟的同构环境。基于网格的教学资源管理是网格资源管理的进一步延伸,需要完成资源寻址和定位,找到特定的教学资源。教学资源本身也属于网格资源的一部分,教学资源节点与网格节点也是统一的。在基于网格的教学资源管理中,选择基于代理的网格资源管理方法,满足教学资源访问中的结构关系,能够方便地搜索到资源及资源信息所在的服务器,与Internet和网格层次管理结构一致,而且层次化的代理体系也有利于系统的维护和管理。代理系统在用户和资源之间架起了一座桥梁。基于网格的教学资源体系,通过代理的方式将异构、分布的大型教学资源库中的资源进行提取共享。通常一个资源请求任务被派分给一组Agent,这些Agent根据被请求资源特征,在构造层各计算节点间自主地移动,寻找资源信息,获得资源服务,完成自身的任务,满足用户在广域范围内对教学资源的个性化请求。代理结构由三部分组成,如下图所示。

上面是用户(消费者),提供资源服务请求;下面是资源提供者,提供教学资源;中间是代理服务系统。消费者通过就近代理(或网格结点)提出资源服务请求,代理通过当前获得的资源信息ERI以及资源目录信息ERII,进行分析计算,并根据结果将请求任务分发到相关的代理,进一步处理;最后根据获得的教学资源分布信息,按照一定的模式交付给用户。

结束语

浅析网格数据库的访问与查询技术 篇8

网格是继传统互联网、Web之后第三个大浪潮,可以称之为第三代互联网应用。而数据库在网格环境下的应用,必定带来数据的大量传输、某些数据操作只能在特定节点执行等问题,还有网格环境本身固有的高度异构性(节点执行的快慢不同、网络连接速率不同等,此外对数据库来说,很可能没有一个统一的逻辑视图),这都给数据库的查询带来了新的问题。

目前有很多关于数据库查询方法的研究,一般情况下很多都是针对同构的网络结构。本文就是针对高度异构的网格环境,提出一种数据库系统的查询原型。

2. 网格数据库访问与查询的设计思想

数据库网格查询系统体系结构采用网格组件构架的方式进行设计,参照开发网格服务体系结构OGSA的思想,将元数据管理、分布式查询都抽象为服务,在OGSA-DAI的基础服务和组件的基础上对原有的系统功能进行扩展和完善,提出网格数据库访问与查询系统的原型。网格数据库访问与查询系统功能服务结构表示如图1所示:

本系统由以下几个部分组成:

(l)资源层。资源层包括广域分布的计算资源、存储资源、网络、程序、数据库、仪器设备等[1]。本文中的资源层只涉及网内的多个异构数据库。

(2)网格基础接口和数据集成接口层。网格基础接口包括元数据管理、资源发现与管理、通知机制和网格服务生命周期管理等;数据集成接口层包括数据发送、数据格式转换、数据存储、数据库查询等,这些数据集成接口实现数据库的连接和数据的具体集成过程。

(3)OGSA-DAI基础服务层。这层包括服务组注册器GSR、网格数据服务工厂GDSF、网格数据服务GDS。

(4)用户服务层。是指用户根据自身系统的特性和要求,利用OGSA-DAI提供的接口构建的自定义的服务,实现对异构数据库的管理。

3. 网格数据库访问与查询的实现

3.1 访问与查询内部表达的实现

因为原型基于的OGSA-DAI是用Java语言实现的,所以为了方便调用其功能和便于移植,把SQL查询语句转化为内部表达,我们用类来表达查询语句:

因为查询命令中的列名数量和条件等都不是固定的,所以用Vector来存放,上面的数据targetColumnList、tableList、columnList的元素都可以直接用Java里面的String来表示,布尔变量isNested指出是否是一个嵌套查询;int变量nested Condition指出查询中所用的嵌套表达式的编号。

有了这个内部表达之后,就很容易检查用户输入的表名的合法性了,这个可以通过MDS得到相应的信息。完成分析之后,为了便于下一步的处理,要对表名、属性做一个简单的变换,因为用户给出的表名和属性可能是建立在真实表名之上的虚拟表名。这个变换比较简单,只要查询相应的MDS元数据就可以了。

3.2 分配访问与查询的实现

得到访问与查询的内部表达式之后,就可以把它们分配到访问与查询执行模块执行。有两种情况比较简单:第一,如果访问与查询中涉及的所有表都只是属于一个真实数据库,那么,只要把这个查询直接发到这个此数据库对应的查询执行模块就完成了,不需要作查询的分解;第二,如果访问与查询中的一般条件表达式里面都没有涉及到表与表的连接操作,那么只要分别把每个嵌套子查询依次发到相应的真实数据库对应的查询执行模块,上层查询接受返回结果继续完成这一层的查询,如此反复直到最上层的查询得到完成为止。后面的这种情况比较复杂,涉及访问与查询的数据库是多个,而且表与表之间有连接操作,这时就不能简单地把访问与查询分配到相应的真实数据库就行了,因为这时查询执行模块之间一定要有数据的交换以完成连接操作,这时分配程序要提供给查询执行模块足够的信息,让其可以配合完成连接操作。

访问与查询执行模块负责执行从查询任务分解模块发过来的查询子命令,然后通过CDSF创建CDS访问真实的数据库。因为查询操作是嵌套的,父查询只能在子查询层查询完成之后才可以开始执行,所以在这里,接到父查询的查询执行模块或者在连接操作中负责合并结果的主控模块。分配子查询的过程如下:

把nestedQuery的结果返回地址设成当前模块;

检查tableList,从MDS得到信息,取出每个表名发到对应的执行模块;

把当前节点设为主控模块;//等待子查询结果返回才能开始执行;

3.3 访问与查询执行的实现

访问与查询执行模块负责执行从查询计划生成模块发过来的查询子命令,然后通过GDSF创建GDS访问真实的数据库。在这里,GDS负责提供一个标准的访问真实数据库的接口,并且它对返回的数据做必要的格式转换,转化为标准形式(通常采用XML格式)[2]。以服务的观点来看,GDS提供的是一个数据库服务,但它怎么实现的,那不是上层调用者所关心的,它可能是通过一个关系数据库提供的,或者一个只是通过一个简单的表式的文本文件提供的,甚至是通过一个程序动态产生的,只要它已提供标准的接口和返回符合格式的结果就可以了。

访问与查询执行过程根据查询原型接到查询子命令,可以分为两种情况:

(l)查询命令只涉及到单个数据库,那只要简单地把查询命令转化为符合GDS调用规范的形式,并向GDS发出请求,然后等待返回结果,并把结果送回上层节点。

(2)查询命令涉及到多个数据库,负责这多个数据库查询的查询执行模块中有一个被称为主控执行模块,它负责这组查询执行模块的同步工作,并且它负责接受这组模块的结果,把结果汇总并返回。

当操作涉及到多个数据库时,如何选择传输的策略是一个非常重要的问题,因为网络的传输开销可能是很高的。降低传输开销的一个有效方法是采用半连接技术。

连接操作的重要性在于关系数据库是由许多关系组成的,关系与关系之间的联系是现实世界的抽象。这种联系主要通过连接操作表现出来,因而在二元操作中,连接操作远比其它操作使用得更多,而且是不可避免的。对于网格下动态组成的虚拟数据库更是如此。在这些虚拟数据库中,连接操作的大量数据会引起场地间的传输,它直接影响整个系统。当前对连接操作的优化有两种方法,一种是采用一种半连接技术来减少连接操作的数据传输量,以降低通讯费用;另一种是直接进行连接操作的代价计算,不采用半连接技术。

4. 小结

总之,网格数据库访问与查询系统在网格环境下为用户提供了对地理分布、异构数据库资源的透明访问,为用户提供了单一的逻辑数据库视图和统一的数据库服务接口,使用户可以更方便、更高效地使用网格中的数据库资源。也正因为网格数据库访问与查询系统的分布透明性和异构透明性、命名透明性以及可扩展性等优点,使之得到了广泛的研究与应用。

参考文献

[1]张非,阎保平.一种基于网格服务的数据库元数据管理框架[J].计算机工程与应用,2007(29):209-212.

数据挖掘网格 篇9

伴随科学技术的发展, 人们对计算机计算能力、存储能力的要求越来越高。网格 (Grid) 正是伴随着互联网技术而迅速发展起来的, 产生于科学研究与合作中的新一代计算基础设施, 专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个s“虚拟的超级计算机”, 这样组织起来的“虚拟的超级计算机”有两个优势, 一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。简单地讲, 网格是把整个网络整合成一台巨大的超级计算机, 利用互联网把广泛分布的各种资源, 包括计算资源、软件资源、存储资源、数据资源、信息资源等连成一个逻辑整体, 在动态变化的广域分布的异构虚拟组织间实现资源共享和协同工作。

网格的五个主要应用领域:分布式超级计算、分布式仪器系统、数据密集型计算、远程沉浸和信息集成。

网格最早以集成异构计算平台的身份出现, 接着跨入多个领域, 逐步形成多种类型的网格, 包括数据网格 (Data Grid) 、信息网格 (Information Grid) 、知识网格 (Knowledge Grid) 等。数据网格负责容纳和提供对跨组织数据的协作访问能力。

信息网格是在计算网格的基础上, 利用数据挖掘、信息融合和搜索引擎等技术构建的。主要研制一体化的智能信息处理平台, 消除信息孤岛, 方便用户分布、处理和获取信息, 向用户提供“信息随手可得”式的服务。知识网格研究的侧重点是智能信息处理, 目标是如何消除信息孤岛和知识孤岛, 实现信息资源和知识资源的智能共享。

空间信息网格是当前空间信息科学研究的主要内容, 而空间数据网格作为空间信息网格的重要组成部分和虚拟系统的中间层, 在整个网格系统中起桥梁和纽带的作用。在科学研究领域和商业应用领域也越来越受到重视。

2 网格系统体系结构分析

网格技术代表一种先进的技术和基础设施, 它基于现有因特网技术、Web技术和高性能计算技术, 能够充分吸纳各种计算资源, 并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力, 从而实现网络资源的共享和协同工作。

网格所关心的问题是直接访问随时间动态变化计算机、软件、数据和其他资源, 因此它具备解决资源与任务的分配和调度、安全传输与通信保障、人与系统以及人与人之间的交互等能力。经典的网格体系结构是五层沙漏结构, 它是一种抽象层次结构, 以“协议”为中心, 强调协议在网格的资源共享和互操作中的地位。通过协议实现一种机制, 使得虚拟组织的用户与资源之间可以进行资源使用的协商、建立共享关系, 并且可以进一步管理和开发新的共享关系。这一标准化的开放结构对网格的扩展性、互操作性、一致性以及代码共享都很有好处。

五层沙漏模型将网格划分为五层, 分别是构造层 (fabric) , 连接层 (connectivity) , 资源层 (resource) , 聚合层 (collective) 和应用层 (application) 。

五层沙漏模型中各层协议的数量是不同的, 对于最核心的部分, 由于要能够既实现上层各种协议向自身协议的映射, 同时实现自身协议向下层其它各种协议的映射, 使得核心协议在所有支持网格计算的地点都得到支持, 所以核心协议的数量不应该太多, 这样核心协议就形成了协议层次结构中的一个瓶颈, 使得模型结构呈现沙漏形状。在五层结构中, 资源层和连接层共同组成这一核心的瓶颈部分。

3 网格空间数据库系统的构建

空间数据网格作为空间数据共享与应用的技术体系, 空间数据库系统是它的一个重要组成部分。本节主要讨论网格数据库系统的基本概念、网格数据库的体系结构以及数据访问与集成服务。

3.1 基本概念

网格空间数据库系统实质上是在网格环境下的分布式的空间数据库系统, 研究网格环境下分布式的空间数据库系统的管理、协同和数据访问与共享。

Web环境下的分布式的数据库系统一般分为分布式数据库系统和联邦数据库系统。

分布式数据库系统是在分布式环境下实现一个经典的集成库, 它有一个全局概念模式, 各个节点只能通过这个全局模式访问其它节点的数据库。分布式数据库系统为用户提供了对多个数据库的透明访问, 即用户不用指明所要访问的数据库即可获取目标数据。但在很大情况下, 由于节点的异构性, 想要构造一个全局的数据库模式是不容易的。

3.2 网格数据库体系结构

建立网格数据库系统的基本原则是:以基于服务的方式访问已有的数据库;独立于各种数据库:与其他的Web服务和网格服务共存:与网格认证与授权机制相衔接。

网格数据库是网格技术与数据库技术的结合产物, 它的体系结构也必然遵循网格的五层沙漏模型:构造层、连接层、资源层、聚合层和应用层。

在构造层和连接层, 网格数据库的功能与一般的网格应用没有特别的区别。

在资源层, 网格数据库通过信息协议管理资源的结构和状态信息, 包括数据库的配置 (类型、性能) 、负载和使用策略等;通过管理协议磋商对资源的访问, 包括分配、预留、监视和控制。

聚合层的功能包括:协同分配、调度及代理服务, 比如一个数据库建立多个副本, O L T P在正本中执行, O L A P在副本中执行, 提高性能, 平衡负载;数据库复制服务, 优化数据库的访问性能, 以及用于负载平衡、灾难恢复;监视和诊断、故障恢复服务;元目录服务GUS, 由多个GRIS构成。

在应用层, 通过API/SDK访问汇聚层和资源层的服务, 调用Grid Database Service执行交易或查询、报表、数据抽取、装载等。

空间数据网格体系结构中对网格数据库的访问属于网格数据库应用层的服务。

3.3 数据访问与集成服务

客户端Client指一个网格服务或应用程序, 在空间数据网格中指数据的请求者。客户端从网格服务注册中心获取网格数据服务工厂的GSH (Grid Service Handle) , 并向网格数据服务工厂请求网格数据服务, 网格数据服务根据客户端的数据请求从数据库中获取数据, 并将数据返回客户端。

网格数据库服务注册 (Grid Database Service Registry, GDSR) 是一个永久服务, 为网格环境下的多个用户所共享。GDSR提供GDS (Grid Database Service) 和GDSF (Grid Database Service Factory) 的专门注册服务, 属于GRIS的一个接口, 通过查询GDSR, 可发现提供特定服务或功能或数据源的G D S F和GDS。

参考文献

[1]边馥苓, 朱国宾, 余洁.等地理信息系统原理和方法[M].北京:测绘出版社, 1996.

[2]李德仁, 关泽群.空间信息系统的集成与实现[J].武汉:武汉测绘科技大学出版社, 2001.

基于网格服务技术的异构数据库 篇10

关键词:网格服务,异构数据库,集成与转换,XML

0、引言

随着计算机网络和数据库系统的迅速发展, 企业竞争与兼并的加剧, 多样化新技术的采用, 使得信息资源的异构性在企业中无处不在:计算机体系结构的异构、操作系统的异构、各数据库DBMS本身的异构及不同数据模型的异构……异构数据库系统的目标在于实现不同数据库之间的信息资源、硬件资源和人力资源等的合并和共享, 其中关键的一点就是以局部数据库模式为基础, 建立全局的数据模式或全局外视图, 这种全局模式对于建立高级的决策支持系统尤为重要。

每个数据库系统在加入异构数据库系统都拥有自己的DMBS, 它们各个组成部分具有自身的自治性, 实现数据共享的同时, 每个数据库系统仍需保有自己的应用特性、完整性控制和安全性控制。任何企业为了实现异构数据的共享和透明访问, 必须首先解决数据源集成和一致化处理, 即异构数据源的集成与转换的问题。

利用网格服务 (Grid Service) 技术和现有开发体系的中间件, 可以从异构数据库系统中的多个数据库中收集信息。一方面, 建立统一的全局模式, 对各异构数据源时进行无缝连接, 为用户提供一个统一透明的访问接口和数据接口, 对各个节点提供数据注册功能, 集成中心协调管理各个节点数据源。另一方面, 网格开发工具经过封装, 从而屏蔽网格理论和工具的复杂性, 将若干个分布的、独立的异构数据源集成到一个特定的环境中, 实现对这些多数据库系统的统一查询, 屏蔽各个业务节点数据库的结构、运行环境上的差异、网络分布状况和具体的物理位置, 保证各个节点数据库的独立性和数据的安全。

1、建立异构数据库集成转换平台

1.1 网格服务原理

Grid Service技术是在开放网格体系结构OGSA中提出来的, 它能够统一地封装信息、行为数据表现以及流程, 而无需考虑应用所在的环境是使用何种系统和设备, 最大优势就是提供了异构平台无缝衔接的技术手段, 实现异构平台间的互通。在异构数据源集成中使用Grid Service的目的就是将服务功能以接口的方式提供给用户, 数据库访问操作则通过中间件平台完成。用户不需要了解后台的实现过程, 而仅需调用功能接口就可以完成对数据库的操作。Grid Service将客户对数据库的操作目的封装成SOAP对象, 通过HTTP传送到Web服务器, Web服务器将接受的SOAP对象转发给Grid Service请求服务器;Grid Service请求服务器解析收到的SOAP请求, 调用Grid Service, 对数据库进行操作, 然后将返回结果生成相应的SOAP应答。Web服务器收到SOAP应答后, 再通过HTTP应答的方式将结果返回到客户端, 过程如图1所示。

1.2 异构数据库集成

各层功能主要有:一、应用层通过客户端运行资源浏览器提供给网格服务接口, 通过客户端能看到统一的数据视图、能对数据进行访问和操作、能调用系统提供的网格服务等。中间件利用应用层分析的数据与网格服务器之间的通信调用, 使用SOAP传输协议, 通过XML语言统一描述交互数据于系统的理解, 这样, 客户端就可用浏览器对返回的数据进行解释和显示;二、中间件层是数据集成的核心, 主要包括查询分析, 查询结果重组, 定时查收及元数据流量、格式、类型的转换等。目前, 基于GT4开发的OGSA-DAI (开放网格服务体系框架数据访问和集成open grid services architecture data access and integration) 为数据访问中间件可为异构数据源提供数据访问服务, 能很好地利用网格数据服务;三、数据层中各个节点数据源以Grid Service的方式对外发布, WEB应用客户端或者其它应用程序客户端从不同的平台、不同的软件开发环境调用该中间件的Grid Service接口, 从而获得来自不同节点数据源的数据, 实现数据的透明访问。网格服务接口负责通过标准的Grid Service接口向用户提供访问整个网格环境内已经发布的数据源, 每个业务节点都拥有一个Tomcat/Apache服务器, 以作为Grid Service的运行平台, 从而能够与上层的网格服务 (Grid Service) 管理与发现层进行交互, 数据集成如图2所示。

图2中, 各个异构数据源所提供的数据并不需要先复制到系统的中心数据库中, 而是以Grid Service的形式发布出来, 只有当应用层发出服务请求的时候, 数据才从节点系统经过数据集成平台直接传递到用户, 这样, 用户得到才是同步最新的信息。

2、实现异构数据的集成转换的关键技术

异构数据的集成转换主要技术就是实现将一种数据库系统中定义的模型转化为另一种数据库中的模型, 然后根据需要再装入数据, 这时用户就可以利用自己熟悉的数据库系统和熟悉的查询语言, 实现数据共享。过程是首先转换类型, 访问源数据库系统, 将源数据库的数据定义模型转换为目标数据库的数据定义模型, 然后进行数据重组, 即将源数据库系统中的数据装入到目的数据库中。

关键技术之一:在实现严格的等价转换过程中, 必须要解决不同模型中所存在的各种语法和语义上的冲突有: (1) 命名冲突, 即源模型中的标识符可能是目的模型中的保留字, 这时就需要重新命名; (2) 格式冲突, 同一种数据类型可能有不同的表示方法和语义差异, 这时需要定义两种模型之间的变换函数; (3) 结构冲突, 如果两种数据库系统之间的数据定义模型不同, 如分别为关系模型和层次模型, 那么需要重新定义实体属性和联系, 以防止属性或联系信息的丢失。解决方法是首先通过建立公共模型, 实现各异构数据到XML模式的转换。其输入是在数据库注册流程结束时, 中间件层所接收到局部数据库连接信息 (数据库名称、数据库用户名、密码以及主机地址) 和数据库类型, 输出是数据库关系模式的列表表示集, 结果可采用一个一维数组和多个一维数组分别存储注册异构数据库中的关系表表名和每个表的属性字段名称、字段类型、可否空、主键和外键属性等信息。由于XML schema的语法结构比DTD更具有表现力, 更适应于各领域应用的使用, 所以各异构数据库模式转换都用到XML schema转换算法来实现。

关键技术之二:利用网格服务集成的中间OGSA-DAI访问数据库, 实现对多种数据库资源的查询、更新、传输和交付, 同时为数据库资源生成配置文件 (数据库的类型、JDBC驱动名、URL、用户名和口令等) , 并根据配置文件自动部署GDSF服务, 为用户提供数据库的查询和访问服务。目前主要使用Java主机框架结构, 其数据集成、存取及转换都是基于XML格式文件, 同时该架构隐藏数据库的驱动程序、数据转换格式与来自用户发送机制等细节。一旦OGSA-DAI工厂启动, 注册器将对数据源注册, 并能通过预先配置文件中的静态信息和配置文件中提供的MetaDataExtractor类访问服务器, 客户机也在服务列表中列出, 当选定合适Data Service Resources, 客户机就请求工厂创建一个GDS实例, 从而访问数据资源并接收执行文档、运行数据库查询、传输查询结果和传送数据等。OGSA-DAI访问DBMS类主要有DataResource Implementate类、活动类、MetaDataExtractor类、DataResourceImplementation类等。

3、实验原型及核心算法

实验原型主要实现两个分布异构的数据库中的表连接查询操作:有甲数据库oracle8i表tab1, 乙数据库mysql表tab2, 甲乙数据库间通过150M bps Internet互联, 现在要实现两个表的连接查询操作, 并返回结果。

配置好实验环境:在乙地的计算机安装了Globus Toolkit 4 WS-Java Core, 然后将OGSA-DAI WSRF 1.0中间件开发的网格数据服务部署在GT4上, 并为数据服务增加两地数据库访问的数据资源配置文件, 以实现对两地数据库访问。

算法的描述及实现:

(1) 为网格数据服务配置数据资源A, 并查询数据库甲, 返回查询结果;

(2) 将查询结果转换成XML中间数据格式;

(3) 为网格数据服务配置数据资源B, 传送结果给数据库乙, 并在数据库乙中创建临时表, 把中间查询结果插入临时表;

(4) 连接临时表和已经存在的表, 查询并返回最终结果。

4、结束语

目前, 开放式数据库互连ODBC (Open DataBase Connectivity) 和Java与数据库接口规范JDBC是支持基本SQL功能的一个通用的应用程序编程接口API, 它们在不同的数据库功能模块的层次上提供了一个统一的用户界面, 为对异构数据库进行直接的Web访问提供了较好的解决方案。

基于网格的异构数据源集成与转换, 从访问数据库的角度看, 与网格环境之外访问数据库的方式相似, 但是利用网格开发工具可以屏蔽各个业务节点数据库的结构、运行环境上的差异、网络分布状况和具体的物理位置, 从而保证各个节点数据库的独立性和数据的安全性。这是它相比较其它异构数据源的集成和转换的优势所在, 随着网格技术和异构数据库访问和集成服务进一步完善与规范, 将会有访问异构数据库系统的一致的规范、网格框架中数据库系统的协同机制等。网格的应用会越来越普遍, 基于网格服务的异构数据库集成与互访也极具潜力。

参考文献

[1]何凤英.网格环境中异构数据库访问和集成技术的研究[A], 软件, 2010, 38 (4) :52-54

[2]胡春明, 怀进鹏, 孙海龙.基于网络服务的网格体系结构及其支撑环境的研究.软件学报, 2011, 15 (7) :20-22

[3]Foster I, Kesselman C.网格计算 (第2版) [M].金海译.北京:电子工业出版社, 2008, 10

[4]马淑娇, 李晓, 周俊林.异构数据库集成中的XML技术探讨[J].计算机应用研究, 2011, 21 (1) :28-31

[5]熊辉.异构数据连接平台的分析与设计[J].科技信息IT论坛版, 2011, 28 (21) :73-79

[6]林伟伟, 齐德昱, 李拥军.基于网格的分布式异构数据集成模型[J].计算机工程.2012, 32 (24) :48-52

上一篇:心电图低电压下一篇:孕中期引产