数据网格论文

2024-10-23

数据网格论文(共10篇)

数据网格论文 篇1

网格是继万维网之后出现的一种新型的网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施。可以用于共享的资源多种多样,包括计算机、集群、计算机池、仪器、设备、传感器、存储设施、数据、软件等。数据作为一种重要的网格资源,在网格计算中占有重要的地位,因此,如何能方便的访问网格中的各种数据就成为网格研究领域一个重要的研究课题。数据库是保存管理数据的一种重要手段,在各种应用系统中得到了广泛的应用。

网格数据库是对现有数据库的网格化,其目的都是为了实现高效的数据管理功能,为广域范围内的数据资源共享提供支持,它基于开放网格服务体系机构提供网格数据库服务,使网格用户或其它网格服务可通过网格数据库服务访问网格中的各种异构数据库[1]。本文主要对网格数据库技术进行综述,并综合分析国内外在网格数据库方面的研究,结合实际,对其应用领域及其发展趋势提出本人的一些观点。

1 网格数据库技术

数据库技术和其他计算机技术相结合,能够产生新的研究领域。不管是在科学研究、商业应用,还是对网格本身的运行和管理,都需要使用大量结构化的数据。因此,数据库技术和网格技术相结合产生的一个新的研究内容———网格数据库技术。

1.1 研究现状

在网格数据库技术研究领域,美国和欧洲的研究范围和规模都比较大,处于领先地位。而Globus系统则顺应网格中数据管理的迫切需求,在最初面向计算网格的基础上,对数据管理的功能进行研究和实现,成为最著名的网格数据管理系统开发平台。

我国也在这方面做了大量的研究工作,推动数据网格技术的应用,面向多个应用领域所遇到的海量数据存储、管理、处理和联合服务等问题提出解决方案。

1.2 研究内容

网格数据库研究内容主要包括3个方面:网格数据库管理系统、网格数据库集成和支持新的网格应用。

1.2.1 网格数据库管理系统

网格提供了一个多功能平台,这个平台支持系统化的身份鉴别和授权、资源发现、数据传输、进程创建和调度,以及跨异构平台的动态绑定。在此基础上就可以构造一个安全可靠、具有自主计算能力的高性能网格数据库管理系统。网格数据库管理系统最终将成为网格上的一种重要资源,提供数据管理服务[2]。

构建网格数据库管理系统可分为两步,第一步是提供一个中间件,将数据库管理系统包装成为网格服务,以便网格应用存取网格数据库。第二步扩展已有的数据库管理系统,让它直接利用网格提供的功能来实现分布式的数据库和相关的网格服务。

1.2.2 网格数据库集成

网格数据库集成就是使用两个或多个网格数据库中的信息,并使用这些信息构建一个大的数据库。它成为目前网格数据管理的研究热点,主要有三种网格数据库集成策略[3]:

虚拟数据库。虚拟数据库是一个联邦数据库,它只有一个联邦模式,所有的用户都无法觉察到多个独立的数据库存在的事实。虚拟数据库在概念上是受欢迎的,但是很难实现。在构造虚拟数据库时,需要考虑其异构透明性、命名透明性、属主和费用透明性、并行透明性和分布透明性。

定制集成。这种方式是指由开发人员自己开发应用程序完成数据库集成。开发人员自己找到熟悉领域的相关数据源,然后将集成任务划分为查询、要执行的程序、中间数据源的构建、显式的数据传输和数据变换,以及存储结果等。网格数据库管理系统应该提供对这种集成方式的支持,使之降低成本、减少时间耗费和错误的发生。

增量集成。虚拟数据库是一个理想目标,定制集成又过于注重细节,增量集成居于二者之间。在增量集成中,开发人员无须完成集成的每一个细节,高级的数据存取和集成组件可以自动完成一些后期的集成步骤。

1.2.3 支持新的网格应用

数据流处理、信息检索和科学数据分析等都是网格应用;其他的网格应用还有网格数据挖掘、网格计算机集成制造系统、网格数字图书馆等。应用能有力地推动技术的发展,而相对比较新的网格应用则可以有力地推动数据库技术的发展,同时也会给传统的数据库技术带来一些新的问题。

1.3 面临的问题

基于开放网格服务体系结构,将现有数据库网格化,主要面临以下4个问题[4]:

(1)数据库应该作为网格中的一种资源并且提供相应的服务,同时必须符合网格相应的标准。

(2)在集成各种数据库系统到网格中时,要考虑到数据库有不同的种类,不同种类的数据库产品在功能和接口上也有很大的不同,如何做到尽可能保留这些系统的全部功能。

(3)数据来自不同的研究者和组织机构,有着各自的数据库模式和数据库设计,网格要共享这些数据,需要中间件来完成异构数据的集成。

(4)网格需要处理三种数据信息:结构化数据、半结构化数据和非结构化数据。

针对上述问题,使用较少的集中控制,同时又要用最高质量的服务来实现跨众多虚拟组织共享的资源之间的高度交互,这是一项技术挑战。

2 网格数据库研究方向

针对上述网格数据库研究内容及面临的问题,主要集中在科学研究上,其研究方向有:

2.1 科学数据分析

网格技术是为了满足科学研究活动的需要而发展起来的,因此在科学研究活动的数据管理方面有它自己的特色,例如:有的数据是从其他数据派生而来,在进行数据分析时需要能够追溯这些数据的来源。从其他数据派生而来的数据称为虚拟数据。

2.2 数据库访问与集成

OGSA-DAI是一个在网格环境下访问和操作数据的中间件库。这个中间件有助于在网格环境中进行数据的存取和集成,它是DAIS工作组制定的网格数据库服务标准草案的一个参考实现[5]。OGSA-DAI的主要目的是在开放网格服务结构的基础上,以网格服务的形式为用户提供数据访问和管理服务。

2.3 数据库查询

随着符合GGF标准的Globus工具包闭以及网格数据库接口标准OGSA-DAI中间件的发展,越来越多的研究关注网格数据库的查询处理,如Polar*和OGSA-DQP是采用网格技术提供数据库查询的两个研究项目。

2.4 数据库性能监控

网格数据库的网格特性主要体现在虚拟化(virtualization)和供应(provisioning)。研究者通过研究使用网格资源监控方法,对其进行了必要的扩展,增加了信息持久化功能,提出了结构清晰可扩展的监控信息模型,实现了网格数据库的性能监控系统DBMg[6]。该系统已经成功地应用于实际生产系统Oracle 10g的性能监控。而如何将监控系统方便地移植到其他类型网格数据库,则是下一步研究的主要内容。

2.5 事务处理

事务处理是数据库管理系统的一个基本功能,主要用于动态访问各种数据库资源时维护数据的一致性,支持多用户的并发访问使用户可以可靠地查询和更新数据库。数据库的事务处理具有长事务、自治、松耦合、动态、潜在失败五项特性,前三项特性使网格数据库事务不同于传统的数据库事务,第四项特性是网格事务有别于Web服务事务的特殊性。而传统的分布式处理模型和Web服务事务处理模型要么不能有效支持长事务,要么不能满足网格的动态性,因此都不能直接用于网格环境中[7]。目前,已有不少研究针对网格的特性提出有效的事务处理模型。

3 网格数据库的应用及分析

随着网格技术的不断发展,网格数据库不仅仅希望应用于科学研究领域,而且应该在金融、商业、交通、预报系统等方面予以环境支持,实现更方便的信息共享和互操作,从而对人们的工作和生活模式产生深远影响。

3.1 金融领域

网格环境下的金融方面的应用包括网络技术和分析能力的优化与提升,需要解决安全问题、数据和存储的虚拟化、有效的数据库系统等典型问题。例如研究实现了在已有的网格技术的基础上研究了构建金融网格中的数据管理策略,设计一种二层分布式的副本管理结构,旨在能提供金融网格中的数据访问效力和改善单点实效等问题;设计出金融网格控制安全模型和金融数据访问系统的实现方法[8]。

3.2 洪水预报领域

在洪水预报领域中存在着许多数据库,这些数据库是进行洪水预报的基础,它们大多数都分布在各地的水库管理部门,在进行联合调度时,必须实时访问各地的水库管理部门的数据库。以网格数据库为基础构建洪水预报系统,为用户提供各种功能和访问相关数据库的途径。基于网格数据库技术的方案,将基于网格服务组件的开发方法和面向服务的体系结构合理结合起来,采用多层体系结构,有效解决了洪水预报应用中存在的数据库访问困难问题[9]。

3.3 电子商务领域

随着电子商务和网格技术的迅速发展,在硬件发展速度跟不上电子商务发展步伐的前提下,对电子商务交易网站的访问及响应速度势必会成为一个难题。在网格环境下,可以结合电子商务网站的数据库技术的现状和应用,对网格数据库在电子商务中的发展前景进行初步的设想及分析,从完善现有数据库和重新建立数据库两种情况讨论实现网格数据库的应用。在网格数据库环境下,每个企业通过一个标准接口就可以将数据库建在自身服务器硬盘上的电子商务网站连入网格中。只要在网上,不管是管理者对网站数据进行查、添、删、改等操作,还是用户要对数据进行查询,都能通过接口访问网格数据库,而且速度更快,效果更好,就像访问本地网络资源一样。这样,企业不需要非常昂贵的服务器,只需要一台普通服务器和一个应用软件或者是网站,就可以实现电子商务交易[10]。

3.4 交通领域

交通数据处理在国内外已经有一定的研究[11]:美国的项目iFloird、欧洲的项目TRIDENT、新加坡的I_Transport平台;国内也有多个院校和研究机构,如北方交通大学、清华大学、同济大学和国家ITS中心等,面对交通数据管理的实施开展了许多有意义的研究工作。从国内外的智能交通的发展现状来看,交通数据(信息)共享对于智能交通发展及其重要,而网格数据库能够较好地实现交通数据的共享,恰好满足了交通数据共享的要求,从而可以在此基础上建立高效、完备的智能交通系统。

除此之外,笔者作为一名教师,认为随着研究的进一步深入,应该在校园网环境下建立网格数据库,实现校园网内资源共享资源复用。校园网既是高校管理工作的平台,又是一个重要的教学及科研工作平台。通过相应的网格数据库技术,开发网格服务,搭建网格平台上的数字化校园,方便广大师生通过统一的服务接口直接访问得到各种校园网资源,实现较好的为教学、管理、科研服务。

4 网格数据库的研究趋势

随着人们将网格技术越来越广泛的应用于数据库中,网格数据库将会得到快速稳步的发展.综合分析国内外在网格数据库方面的研究,普遍认为网格数据库的发展趋势主要有以下几个方面[12]:

(1)将更多地研究网格数据库管理系统。中间件是目前实现网格数据库存取和集成常用的方法,可以预计,未来数据库将会朝着更直接地支持网格技术的方向发展。

(2)将会注重数据库存取与集成的标准。目前尽管网格数据库集成所涉及的问题尚未完全解决,但已经有了网格数据库存取与集成的标准草案,而且根据这个草案可用实际的软件系统实现。

(3)将继续发掘网格应用的新需求。网格上的科学研究有很多数据管理问题需要解决,其中有的问题并非简单地将数据装入数据库就能解决,它们是能够推动数据库技术发展的新问题。

(4)将开展在网格环境下的数据库新技术的研究.这些研究如果放到网格环境下来做,将会收到意想不到的效果。

笔者认为在这些研究基础上,将网格数据库推进向前发展的过程中,以下问题也是值得研讨的:

(1)注重网格数据库的安全问题。数据库系统的安全问题来源于其数据共享问题,而网格数据库则实现了对网格中那些具有分布性、异构性、自治性、海量性等特征的数据资源进行统一的访问与集成,实现互联网上各种数据资源在广域网范围内的共享与协同,这都将增加安全风险。因此,除研究一般的网格安全外,必须特别注意数据保存和数据传输过程中的用户认证、授权和访问控制以及审计和数据完整性等问题,制定网格数据库的安全标准。另外,确保采取充分的措施来应对蠕虫和病毒的影响在网格数据库中也至关重要,因为蠕虫和病毒的影响在网格环境中会得到放大。

(2)增加对网格数据库性能监控的研究。随着网格数据库技术从科学研究领域逐步转向贴近人们生活的新应用,加上传统数据库监控系统不能很好地适应网格数据库的性能监控,因此,增强对网格数据库性能监控系统的研究有利于网格数据库新应用的实施与拓展。

(3)开展网格数据库在人工智能领域的研究。建立在网格数据库平台上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,以期将其应用到专家系统等人工智能领域。

5 结束语

在本文中,笔者介绍了网格数据库相关的一些研究工作,总结了当前网格数据库的研究内容、方向及应用,并分析了网格数据库研究趋势。网格数据库系统具有很好的发展前景,但它面临一些新的问题需要解决。相信随着网格技术的日臻成熟和完善,以及数据库访问与集成的技术进一步成熟,网格数据库技术必然跟随着网格技术一同发展和进步。

参考文献

[1]赵红灼,谭国真.网格数据库的改进及在智能交通系统中的应用.2006.

[2]胡国生.基于网格的数据库研究[J].科学技术与工程,2006,6(12):1644-1647.

[3]刘艳玉,吴雅琴.网格数据库访问与集成的研究[J].福建电脑,2007,7:34-35.

[4]张凌,王康,冯欣.网格数据库服务中的需求和解决方案[J].计算机科学,2006.33(12):75-77.

[5]Mario Antonioletti,Malcolm Atkinson,Rob Baxter,Andrew Borley,Neil P ChueHong,Brian Collins,Neil Hardman,Ally Hume,Al Knox,Mike Jackson,Amy Krause,Simon Laws,James Magowan,Norman W Paton,Dave Pearson,Tom Sugden,Paul Watson6and Mar Westhead.The Design and Implementation of Grid Database Services in OGSA-DAI。http://aspen.ucs.indiana.edu/CCPEwebresourc c815watson/c815OGSA-DAI-6.pdf.

[6]翟岩龙,宿红毅,战守义.网格数据库性能监控研究与设计[J].计算机工程,2007,33(20):64-66,69.

[7]梁钰,李陶深.基于移动Agent的网格数据库事务处理架构[J].广西科学院学报,2007,23(4):362-364.

[8]胡蓉,傅明.构建金融网格的若干技术研究.2006.

[9]史涯晴,乔正洪,葛武滇.基于网格数据库的应用系统[J].无锡南洋学院学报,2008,7(1):39-43.

[10]吴翠红.网格数据库的发展及在电子商务中的应用前景[J].上海第二工业大学学报,2006,23(4):328-332.

[11]李瑞敏,陆化普,史其信.交通综合信息平台及其关键技术研究[J].综合运输,2004,8:62-64.

[12]夏玉萍,赵焕平,张莉,李敬文.网格数据库技术的分析及应用[J].重庆工学院学报(自然科学),2007,21(12):98-101.

数据网格论文 篇2

简单来说,网格化监测网具有以下几个特点:一是网格化监测网是基于智能化管控系统平台的;二是网格化监测网是以监测数据库为核心,以任务管理为中心的;三是网格化监测网基于多重叠覆盖原则细分监测区域,联网构成一个分布于各区域的网格化监测系统;四是网格化监测系统具有与无线电管理紧密相关的明显特点和丰富的应用功能,其中涉及时差测量技术、网格化配置技术、信号分类与比对技术、联合定位技术等。

网格监测数据库系统的概念和特点

监测数据库是监测网系统中的核心部分,所有后期的数据分析和应用扩展都是基于监测数据库来进行的。如何使频段占用度统计数据更接近于真实情况?如何开展电磁环境自动监测和评估分析工作?这些都是需要深入探讨的现实课题,而这些工作除了具备良好的监测模式外,还必须依托准确和全面的监测数据库。目前主流监测测向系统虽都具有了数据的采集和简单的分析处理功能,但没有形成完善的监测数据库,在监测数据的加工和再利用方面存在严重的缺失。很多监测任务形成监测报告或存档就结束了,没有对监测数据进行更深入的挖掘和利用。而本文所阐述的网格监测数据库系统基于地理信息系统,以实时采集节点数据为依据,按照网络计算架构设计,通过对海量的多维数据进行过滤、比对、相关性分析,通过数据挖掘整合成为动态数据库集合,其具有分布、异构、动态和自主等相关特性,是网格化无线电监测网的核心。

网格系统中的数据备份技术探讨 篇3

关键词 数据网格;数据备份;地震减灾

中图分类号 TP30 文献标识码 A 文章编号 1673-9671-(2012)052-0146-01

目前我国已经形成了地震预报、防御以及紧急救援的三大地震减灾体系,在一定程度上提高了社会抗灾减灾的能力,但是在实际工作中仍然存在很多技术性的问题需要解决,如何更加迅速地进行震情分析,就需要对数据进行实时、准实时地处理,以下通过对数据备份策略的分析,来具体阐述网格系统中的数据备份技术。

1 备份需求

在地震应用中产生的各种源数据,都是各个地区的地震台网监测站的测量仪器监测产生的,每天产生的这些数据都要进行规范处理之后存储入各地区的数据库当中,由于工作量大,利用远程数据访问处理降低效率,同时如果监测数据库出现了故障,将带来很大的影响,这就要求注重整个地震应用网的服务质量以及可靠性,其中一个有效途径就是建立数据故障发生之后的最快速恢复机制,即利用网格资源备份技术。因此,网格中资源进行备份能够提高系统的可靠程度。

2 备份策略

数据资源备份的备份策略一般是按照网格内数据资源的具体访问情况来记录某一时间段内数据访问的请求者分别是来自哪里,当数据资源的访问量达到一个阈值的时候,开始进行备份系统的备份处理。

2.1 资源定义

为了能够正确选定备份资源,在这里运用了量化资源属性的方式,从而使问题更加简化。

定义一:假设资源r1=,式中,Id是资源标志,

A ttrs是资源属性组{A ttr1,A ttr2,A ttr3},那么称r1具备A ttrs属性值的可量化资源。

定义二:假设资源r1与r2具有相同的A ttrs定义,那么r1和r2是对等资源。

定义三:假设资源r1与r2是对等资源,那么资源r2可以替代资

源r1。

2.2 备份资源的可靠性量化

确定备份策略的其中一个指标就是利用资源的可靠性,这需要首先确定量化备份资源的可靠性的方法。要想得到资源的故障率,需利用故障检测系统经过测试得到,一个资源的故障率越低,其可靠性就越高,因此这里将资源的故障率看作是测量系统的可靠性的根据。在某个系统中,假如包括资源集合R{r1,r2,…,rn},那么系统的故障率则是由R中的r1,r2,…,rn的光障率所共同决定的。根据集合论理论,备份资源集合的故障率是按照资源集合中的所有资源元素故障率的交集所得的。如下图所示,资源集合{r1,r2}的故障率是f(r1)f(r2)。

2.3 备份资源的选择

在进行备份处理的时候,首先应该明确选定候选备份资源;在选择的过程中,出于简化问题的目的,主要依照以上对于资源的定义,设定资源r1和资源r2对等,那么r1与r2可互为备份。

图1 地震数据源分布

图2 多个备份资源故障率集合

定义四 如果在资源集合里,资源r1与资源r2是对等资源,那么r1与r2是互为备份资源。

依照定义四,设计出算法一,对于候选备份资源集合,应该选择同源资源对等的资源,最终进行确定候选备份资源集合。

算法一:

输入参数:注册而得的资源集合和源资源r

输出参数:候选的备份资源集合Rt

2.4 备份资源的数量

这里主要研究根据系统的可靠性的指标进行确定备份资源数量。当预先设定的指标大于网格系统的可靠性指标的时候,备份系统就会利用增加备份资源这种方式进行提高网格系统的可靠性。根据以上的设定,设计出算法二,确定备份的数量。

算法二:

输入参数:资源的故障率需求为Fn,资源r当前的故障率为F,候选的备份资源集合Rt;

输出参数:备份资源的数量为Nr。

2.5 备份策略

1)根据算法一确定候选备份资源集合Rt°;2)根据资源的故障率的指标进行升序排列资源集合Rt°;3)根据算法二计算出备份资源的数量Nr°;4)将排序之后的资源集合Rt当中的前Nr个资源选取为备份资源集合;5)返回到备份资源集合。

3 备份管理系统

3.1 备份资源目录的管理

备份目录的作用是存储和记录源备份资源信息和目标备份资源信息,而要想获得这些资源的详细信息,就要进行网格的元数据目录的检索。对备份资源目录的管理可以对备份目录的信息进行维护,例如添加、删除和更新操作等。

对备份资源目录的管理还可以实现维护备份资源的目的,当用户在读取源文件的时候,备份资源目录的管理会依照备份目录内的记录去获取一个最佳的资源备份进行服务用户的访问。

3.2 备份处理器

作为备份管理系统中枢的备份处理器,对哪些资源是需要备份的,备份到哪些资源中等内容起了决定性的作用。备份处理器最初由系统监视器内获得系统的可靠性参数,之后对需要进行触发资源备份操作的数据进行判断;每当需要备份处理操作的时候,备份处理器可以对备份资源进行选取以及备份资源的数量进行确定,并能够利用资源传输协议进行实际资源备份。

3.3 系统监控器

如果网格环境下的网格资源出现故障,可以利用系统监控器来进行监控,主要利用其相应的监控系统来收集和分析网格资源信息。

4 应用

在实际的地震的监测应用中,地震监测台中的大量观测数据均分布于异构的网络环境下,这就需要对这些数据实行有效管理,这是目前面临的问题。所以,可以在地震减灾仿真网格系统中利用备份管理的模型来管理网格数据资源。

5 总结

以上内容主要论述了利用资源的性能来为数据备份策略提供根据的设想,通过对备份管理系统的研究,指出了网格系统中的数据备份技术,虽然我们的地震应用领域已经初步建立了减灾灭灾体系,但在实际工作中还存在着许多机构性的问题,所以本文分析了具体了网格系统的数据备份技术,这项技术接下来会在此研究基础上对系统进行完善,为我国地震领域提供参考。

参考文献

[1]苑宁萍.网络环境下企业信息系统数据备份技术研究[J].内蒙古科技与经济,2010,16.

[2]申新鹏,李战怀,赵晓南.基于日志的数据热备份的实现[J].微电子学与计算机,2011,04.

网格环境下数据集成模型研究 篇4

英国e-science核心项目OGSA-DAI[2,3]是数据库网格研究领域的代表作,OGSA-DAI是一种数据访问和集成的中间件平台,它主要实现了对多种数据库的服务化访问,使得数据库能够用网格服务的形式对外共享数据。利用这些服务,虽然可以使客户端通过统一接口对不同的数据资源进行访问,但没有真正实现对异构数据源的数据集成[4]。另外,在网格环境下,如何对分布异构的数据资源动态的组成一个虚拟数据库以完成一个特定任务、如何解决虚拟数据库对分布异构的数据资源信息了解匮乏的问题,这些都需要做进一步研究。本文在详细分析了基于Web Service的OGSA架构[5]和OGSA-DAI的构架、内部流程的基础上,给出一个基于OGSA-DAI的数据集成模型,该模型用于解决网格环境下异构数据源数据集成和分布式查询处理的问题,并且在此基础上利用元数据管理来解决客户端对异构分布的数据资源信息了解匮乏的问题,从而在网格环境下为用户提供一种直观的、可视化的虚拟数据库视图环境以及高度透明的分布式查询环境,以便于上层用户透明地使用。

1 网格环境下数据集成的关键技术研究

1.1 网格环境下数据源的访问和集成

图1给出了OGSA-DAI对数据源访问的执行流程。

OGSA-DAI提供了数据存取和集成的基本的接口,还提供了扩展性机制,从而可以向OGSA-DAI添加更多的用户定义的服务。客户端发送执行文档给数据服务,执行文档中描述了需要数据服务资源执行的活动,这些活动可以包括对数据源的查询、更新、数据转换、数据传递操作。然后,数据服务把执行文档转交给代表实际数据源的数据服务资源。数据服务资源对执行文档进行解析并执行指定的活动。当活动是对数据源执行一个SQL查询语句时,数据服务资源创建描述请求结果的响应文档,其中包含了执行本次查询的结果集。最后,把响应文档通过数据服务返回给客户端[2]。

目前,数据集成方法主要分为模式集成方法、数据复制方法以及综合型集成方法。模式集成的基本思想是在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据源的数据。联邦数据库和中间件集成方法是两种比较典型的模式集成方法。数据复制方法是将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的一致性。比较常见的数据复制方法是数据仓库方法。综合型集成方法是把上述两种方法综合起来使用,以突破两种方法的局限性[6]。在本文中使用综合型集成方法来完成数据集成,由于各个异构数据源的元数据相对比较稳定,同时客户端对各个异构数据源的访问比较频繁,故客户端元数据库采用数据复制方法把各个异构数据源的元数据进行集成。客户端对异构数据源数据的访问,考虑到被集成的系统规模可能比较庞大且数据更新频繁,所以可采用中间件集成方法在全局模式下进行集成。

1.2 利用元数据对数据进行管理

元数据是关于数据的数据。在OGSA-DAI提供的查询服务中,对描述数据资源的元数据信息进行了内省,这样虽然不必专门对元数据进行管理,却使得描述数据资源的信息匮乏。用户在事先不知道数据源的情况下,需要多次与数据源进行交互才能得到数据内容。所以我们在模型的用户应用层和数据集成层之间建立了一个元数据库,该数据库中存放了所有已注册数据库的基本信息、数据库中的所有表信息和字段信息。同时,我们在用户应用层也建立了一个元数据管理模块来负责对各个分布、异构的数据源的元数据信息进行收集、发布和维护。有了这种配套机制,用户可以很方便地了解到各个数据库的信息以及表的结构、字段的类型、表间的关系等信息,并给分布式查询优化带来很大的方便。

1.3 分布式查询处理的设计、分解和优化

网格环境下分布式查询处理最大的特点是自适应性,它必须能充分利用并行计算能力和网格资源动态演化的特性[7]。在OGSA-DAI中,提供了基本服务接口,实现与存储资源之间的交互,对物理数据资源进行统一访问。对于用户来讲,关心的是通过一种简单、方便的机制去得到他想要的数据,不关心网格环境下分布式查询的复杂性,更不会主动地把分布式查询人工的分解为多个对单库的查询。所以在网格应用中,分布式查询操作应该在动态组成的虚拟数据库中进行,从而屏蔽不同关系数据库及其运行结点的异构性[8]。本文中采用网格服务和元数据服务来为客户端用户提供SQL查询服务,用户对虚拟数据库的操作可以像操作一个真实的数据库一样来进行。

2 网格环境下数据集成模型设计

本模型是基于OGSA-DAI中间件进行设计的,是建立在OGSA-DAI对网格环境下异构数据源的访问能力之上的。为了实现用户透明的访问网格环境下的异构数据源,可通过查询客户端本地元数据库中存储的异构数据源的元数据信息,把客户端的查询请求分解、优化为多个对单数据源的子查询请求。然后把各个优化后的子查询分派给OGSA-DAI执行,待OGSA-DAI执行完后,由数据合成模块接收OGSA-DAI执行的各个查询的结果,并利用本地临时数据库作为缓存,按照查询计划合成结果,并把合成结果返回给客户端,客户端利用本地元数据库和查询计划构建出虚拟数据库视图供客户端用户使用。图2是基于本模型设计的体系结构图。

2.1 数据层

通过OGSA-DAI访问的各种数据资源,本模型中主要包括了各种关系型数据库,例如:My Sql、IBM DB2、Microsoft SQL Server、Oracle、PostgreSQL。

2.2 支撑环境层

该层是本模型的网格支撑环境,提供的网格接口包括资源发现与管理、通知机制和网格服务生命周期管理、用户认证和授权、容错、安全等,由Globus Toolkit实现。OGSA-DAI模块负责以网格服务的形式对各种不同数据库的访问,这些服务包括GDSR(网格数据服务注册)、GDSF(网格数据服务工厂)、GDS(网格数据服务),利用这些服务实现数据源的注册、发现、定位、访问及结果的返回。

2.3 数据集成层

该层是本模型的核心层,集成了下述多个核心功能模块。

(1)分布式查询分解、优化模块对用户提出的SQL查询语句进行分析、分解、优化以形成一个或多个对单库的SQL查询语句。在此通过对本地元数据库的交互来完成查询计划的生成,并利用优化算法决定那些查询应该先做,那些应该后做。

(2)子查询分派模块把当前分解出的子查询分派给OGSA-DAI执行,并提供当前各个子查询执行状态的查看接口。子查询的执行和状态查看是间接地通过OGSA-DAI提供的服务来完成。例如:GDSR服务可使应用程序动态找到欲访问数据库,通过GDS服务的相应活动可以得到当前的执行情况。

(3)数据合成模块负责接收OGSA-DAI执行的各个查询结果,并利用本地临时数据库作为缓存,按照查询计划和所涉及的元数据库信息来进行结果的合成。

(4)元数据抽取模块负责从指定数据库中提取元数据,该功能的实现是通过扩展GDS服务来实现,提取之后,进行格式转换并由元数据管理模块完成对元数据库的更新。

(5)数据格式转换模块OGSA-DAI执行查询后,返回包含了查询结果的响应文档。该文档中的结果集是以XML格式来进行描述的,需要在本模块完成XML格式到行集的转换。

(6)数据库自动发现和注册实现局域网内或域内带有某些特征或授权的数据库的自动发现和注册。但一般使用手动注册的方式完成数据库注册和元数据的提取工作。

(7)数据集成总控制器负责与用户应用层的交互,如:接收SQL查询、发送结果集,并协调各个组件的交流和执行过程。

2.4 用户应用层

完成虚拟数据库视图环境的构建,查询结果的显示、元数据的管理。

(1)数据显示模块负责虚拟数据库视图的建立,以及用户结果的显示与转存,还包括用户SQL查询的保存与传递。结果的显示分为两种,一种是Table格式,另一种是XML格式

(2)元数据管理模块负责建立和维护元数据。包括元数据格式定义和表示、插入新注册数据库的元数据、更新元数据、删除元数据,以及向GDSR订阅元数据变动通知。通知是OGSA-DAI提供的一个服务,当数据库元数据有变动时,该模块能够及时得到消息并做出相应处理。

(3)本地SQL查询语句解析器位于数据显示模块和元数据库之间的一个中介模块,负责解析构建用户视图时的SQL语句。SQL查询语句往往涉及到多个数据库的查询,此处利用本地元数据库来实现SQL语句的解析,避免了访问远程数据库所造成的耗时。

3 工作流程

分布式查询和数据集成的工作流程如图3所示:

(1)从数据显示模块接收用户的SQL查询命令,分布式查询分解、优化模块与元数据库交互,确定要访问的数据库及其对象是否可用,然后,对查询任务进行分解、优化以形成高效的一个或多个子任务。最后把子任务提交给子查询分派模块。

(2)子查询分派模块按照子任务的接收顺序依次进行执行。期间,可以通过指定的服务查询各个子任务的执行情况。

(3)子查询分派模块现在充当了OGSA-DAI的客户端。客户端与GDSR通信,查找满足需求的服务工厂。

(4)把满足要求的服务工厂的GSH(网格服务句柄)返回给客户端。

(5)客服端可以查询GDSF的配置信息,调用Create Service()方法来创建GDS实例。

(6)GDSF创建GDS实例,并把该实例的GSH返回给客服端。

(7)用户把客户端生成的执行文档(其中包含了要执行的SQL语句,格式为XML)交付给GDS实例。

(8)连接数据库Database1,并将查询结果返回给GDS实例

(9)把处理结果以响应文档的形式发送给数据合成模块。

(10)同样的过程,可以访问Database2,并把结果也返回给数据合成模块。

(11)把XML文档转换成行集(或表的形式),并在数据合成模块合成数据,期间,可能需要暂存数据。

(12)把合成的结果传递给显示模块显示或转存。

4 结束语

本文介绍了网格环境下数据集成的关键技术,详细论述了如何在网格环境下利用OGSA-DAI进行数据集成,给出了模型的体系结构和实现方法,阐述了其工作流程,并利用与客户端元数据库交互的方式解决了用户对目标数据库信息了解匮乏的问题。

摘要:基于OGSA-DAI给出了一个用于解决网格环境下异构数据源数据集成和分布式查询处理的数据集成模型,在此基础上利用客户端元数据库解决了用户对目标数据库信息了解匮乏的问题,从而为用户的分布式查询处理提供了一种直观透明的、可视化的虚拟数据库视图环境。

关键词:数据集成,OGSA-DAI,元数据,网格计算

参考文献

[1]Foster I,Kesselman C.The grid2:blueprint for a new computing infras-tructure[M].Morgan Kaufmann,2004.

[2]OGSA-DAI WSRF2.2User Guide[EB/OL].http://www.ogsadai.org.uk/documentation/ogsadai-wsrf-2.2/doc/

[3]Atkinson,M.,Karasavvas,K.,Antonioletti,M.,Baxter,R.,Borley,A.,Chue Hong,N.,Hume,A.,Jackson,M.,Krause,A.,Laws,S.,Paton,N.,Schopf,J.M.,Sudgen,T.,Tourlas,K.and Watson,P.A new Architecturefor OGSA-DAI[EB/OL].http://www.ogsadai.org.uk/documentation/presentations/NewArchitecturePresentationAHMSep05MPA.pdf,2005-09-27.

[4]蒋明亮,傅秀芬,侯文国,肖树腾,李志清.基于OGSA—DAI的数据集成模型研究[J].微计算机信息,2006(11X):204-206,214.

[5]I.Foster,H.Kishimoto,A.Savva,D.Berry,A.Grimshaw,B.Horn,F.Maciel,F.Siebenlist,R.Subramaniam,J.Treadwell,J.Von Reich.The Open Grid Services Architecture,Version1.5[EB/OL].http://www.ogf.org/documents/GFD.80.pdf,2006-09-05.

[6]陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51.

[7]M.R.Martinez,N.RoussPoulos.MOCHA:A Self-extensible Database Middleware System for Distributed Data Sources.Porceedings of the ACM SIGMOD International Coneference on Management of Data[C].IEEE Press,2000(3):213-214.

数据网格论文 篇5

一种流体-结构耦合计算问题的网格数据交换方法

气动/结构耦合数值模拟是研究非线性气动弹性的`基础.数据交换和插值是非线性气动弹性仿真问题的关键.目前的插值方法不能满足非线性气动弹性问题.本文提出了一种有限元四节点(FEFN)插值方法.该方法是一种局部插值方法,并不依赖于结构模型带来的整体信息.以圆柱体为具体算例,插值结果与有限平板插值方法 (IPS)进行了算例对比,表明FEFN方法更能代表计算物体的表面,且计算简单、计算量小、误差小,是一种适合计算流体力学(CFD)/计算结构动力学(CSD)耦合仿真的界面数据交换工具.

作 者:徐敏 史忠军 陈士橹  作者单位:西北工业大学,航天工程学院,陕西,西安,710072 刊 名:西北工业大学学报  ISTIC EI PKU英文刊名:JOURNAL OF NORTHWESTERN POLYTECHNICAL UNIVERSITY 年,卷(期): 21(5) 分类号:O343.5 O342 O368 关键词:流固耦合   非线性气动弹性   耦合CFD/CSD界面算法  

网格环境下教学资源元数据管理 篇6

“网格”(Grid)一词来源于人们熟悉的电力网(PowerGrid)。[1]网格是利用互联网将地理上广泛分布的各种资源连成一个逻辑整体[2],就像一台超级计算机一样为用户提供一体化信息和应用服务,最终实现在这个虚拟环境上进行资源共享和协同工作,彻底消除资源孤岛,让人们使用网格上的资源像用电一样简单。基于对网格重要性的认识,2003年4月,教育部启动了中国教育网格计划(China Grid),中国教育科研网格是迄今为止由政府推出的最宏大的网格工程[3],该项目由12所大学联合推出。教育部希望利用网格技术将网上的教学资源有效地聚合起来,实现网上教学资源的广泛共享,为中国高等院校(特别是部分研究型大学)的科学研究提供先进的计算手段。

目前,教育网格研究方向和任务主要集中在提供一种通信管理的网格平台或架构,重点在网格计算能力上。[4,5,6,7]而对于教学与研究人员关注使用的基于网格的教学资源管理及其在网格环境中的深层次应用方面没有太多的研究。为屏蔽不同课程内容上的多样性和差异性,将知识点作为原子资源,并采用元数据进行描述,原子资源间的结构和逻辑规律遵循人的认识规律和教学规律,采用统一的模式进行结构化存储和管理。在此基础上,可以开发教学资源库,提供资源搜索、资源共享、资源组织管理等功能。

教学资源库建设规划

教学资源主要是指教学过程中教师和学生使用的课程资源,可以理解为教学过程中的软资源。教学资源的元数据可分为两个层次:直接对教学资源进行描述的元数据,称为教学资源信息ERI(Education ResourcesInformation);对教学资源的组织目录进行描述的元数据,称为教学资源目录信息ERII(Education ResourcesIndex Information)。其中ERII根据资源规模可抽象为多个层次。元数据是指描述数据的数据,是指与业务技术过程及企业使用数据有关的所有物理数据以及包含知识的信息,是指来自企业内外所有(软件或其他介质含有的)物理数据和(员工和各种媒介中含有的)知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及企业使用数据的结构。教学资源中的元数据是指描述教学资源的类型、规格、属性、联系、约束等信息的数据。教学资源库建设规划如下。

(1)提取教学资源知识单元,结合教学资源本身及其应用的特点,确定元数据的基本数据结构。知识单元是教学资源中可应用于交流使用并能完整描述一个知识点的最小单元。目前在知识单元划分上还没有具体的规范标准。一般由课程专家和教学专家参照教育部课程建设规范中的要求对教学资源进行三级划分,将划分得到的第三级资源作为知识单元进行管理,并向上逐层扩展,得到相应层次的粗粒度资源。

(2)构建教学资源目录树。目录树从根节点开始,包含一个对其所有数据的层次视图,并提供基于树形的搜索系统。教学资源目录信息ERII根据资源规模可抽象为多个层次。按照目前的惯例和一般使用情况,将课程资源按内容及其关系,划分成大的章,章内再划分小节,小节中又可包含若干更细分的知识单元。这种结构可以看作是教学资源目录信息ERII的外在显现,即教学资源目录树。

(3)教学资源服务。在教学资源使用过程中,系统存在三种角色:资源提供者、资源管理者、资源消费者。资源消费者是指教师或学生,他们提出资源消费请求,包括对资源质和量上的要求;资源管理者即资源中介,是系统管理中心,主要管理ERI或ERII,并根据资源消费者提出的请求进行必要的计算,反馈消费者信息,满足其需求;资源提供者是教学资源存储中心,主要负责资源的存储,并按接收到的指令为消费者提供相关资源。按照信息流动的不同方式,分析他们之间的工作模式,相应地设置层次代理结构。将资源与其元数据适当分隔存储管理,在资源服务时采取资源信息处理和资源实体传递两条线的方式,减轻资源代理的负担,平衡网格环境的负载,有利于提高系统的整体性能。

关键技术

1.元数据结构设计

本文拟采用的元数据基本结构如右表所示。

需要说明的是,该元数据结构根据教育部课程教学及大纲规范要求,结合本学科方向课程及教学实践,以及资源管理和软件开发的需要,并综合其他相关因素形成。

2.教学资源目录树构建

目录树是指存储有关网络资源信息的特殊数据库,把网络环境中的各种资源都作为目录信息,在目录树结构中分层存储、访问、管理和使用。目录树将分布式系统中的用户和资源,以及其他对象统一组织起来,提供一个单一逻辑视图,允许用户透明地访问网络上的资源。一个由目录树支持的网络系统是一个集成、网络化、统一的系统,而不是各个独立功能部分的简单聚合。

目录的内容称为对象类(ObjectClass)和项(Entry)。对象类描述什么信息可存储在目录中,而项把相关信息组合在一起,也可以理解为对象为抽象约束,项为信息内容。ERI之上的ERII逐层抽象或封装生成,下层的ERII是上次ERII的一个项,这是逐层递归或递推的过程,因此它们采用一致的管理操作方式,软件算法具有可复用性。元数据信息采用数据库方式存储,方便检索管理,而资源本身仍以文件方式存储于磁盘。为了管理的方便和统一,资源库的物理存储与资源管理的目录树结构基本保持一致。通过目录树方式记录存储教学资源数据信息,与资源库本身的层次结构(树型结构)相统一,同时也与Internet及各种管理中的层次结构相一致,为教学资源管理提供方便,易于使用现有技术手段进行管理。

3.教学资源服务

在教学资源库中,资源建设是基础,资源管理是关键,要对资源进行深层次的应用,就需要对资源进行规范化建设和管理。资源提供者对资源进行存储、传输等控制管理,资源的搜索、协调传输等任务主要由资源管理者完成。网格资源管理的目的是有效调度、管理、配置可利用资源,将实际上的异构环境转换成一个虚拟的同构环境。基于网格的教学资源管理是网格资源管理的进一步延伸,需要完成资源寻址和定位,找到特定的教学资源。教学资源本身也属于网格资源的一部分,教学资源节点与网格节点也是统一的。在基于网格的教学资源管理中,选择基于代理的网格资源管理方法,满足教学资源访问中的结构关系,能够方便地搜索到资源及资源信息所在的服务器,与Internet和网格层次管理结构一致,而且层次化的代理体系也有利于系统的维护和管理。代理系统在用户和资源之间架起了一座桥梁。基于网格的教学资源体系,通过代理的方式将异构、分布的大型教学资源库中的资源进行提取共享。通常一个资源请求任务被派分给一组Agent,这些Agent根据被请求资源特征,在构造层各计算节点间自主地移动,寻找资源信息,获得资源服务,完成自身的任务,满足用户在广域范围内对教学资源的个性化请求。代理结构由三部分组成,如下图所示。

上面是用户(消费者),提供资源服务请求;下面是资源提供者,提供教学资源;中间是代理服务系统。消费者通过就近代理(或网格结点)提出资源服务请求,代理通过当前获得的资源信息ERI以及资源目录信息ERII,进行分析计算,并根据结果将请求任务分发到相关的代理,进一步处理;最后根据获得的教学资源分布信息,按照一定的模式交付给用户。

结束语

基于网格的多数据库系统研究 篇7

1 统一的数据模式和数据操作语言

在网络数据库建立的过程中, 需要采用统一的语言规范格式进行, 根据具体的需求, 采用自下而上的形式建立统一的数据库操作语言, 由于网格数据库的规模是动态可变化的, 需要同时支持各种不同的数据格式, 因此, 网格数据库的建立需要采用统一的数据模式与数据库操作语言进行操作与管理。虽然在网格数据库范围内, 建立统一的数据操作语言比较困难, 但是, 网格数据库的建立需要有统一的基础框架, 为网格的应用建立数据库网格环境是完全可以的, 这就需要在网格数据库的虚拟组织中定义基于网格标准语言应用的语义标准, 就能够在整个网格数据库内制定统一的资源描述标准与统一的访问机制, 实现不同数据之间的调用, 在此基础上可以实现更为高级的数据模式标准与操作语言规范, 然后在统一的数据规范基础上, 实现全局的模式实现对系统数据库的访问。

2 网格数据库系统主要采用的视图管理

网格数据库系统主要是为顶层用户提供了完整的数据全局视图, 能够有效的消解各个局面数据库的数据异构模式, 完成数据之间的共享与调用, 这种全局视图是在系统的全局数据库的基础上进行定义的。由于对全局视图的存取操作要分解为对多个操作过程与操作步骤以及LDB的子操作过程, 而且在操作的过程中还需要对不同的数据模式与查询语言进行转化与调用, 这就需要在网格数据库系统中对物理的全局视图进行保存, 可以加大系统数据库的访问速度, 而物理视图在网格数据库的快速反应中能够快速对数据调用进行响应, 在网格数据库的系统中, 数据库底层关系的修改会导致全局视图的改变, 进而会影响整个系统数据库的数据发生变化, 因此, 保留系统的物理全局视图, 能够方便的对网格数据库进行修改, 保证其底层关系发生变化时, 通过物理全局视图, 能够快速的保证网格数据库与底层关系保持一致。在一般情况下, 全局视图的修改是由底层LDB的结构与关系的修改而造成的, 通过物理全局视图可以快速的把底层LDB的结构变化反应到网格数据库的全局视图中, 如果在数据库的外部数据与内部数据传输的结构不一致的情况下, 通过物理全局视图能够方便、快速的对其进行调整, 满足网格数据库变化的要求。同样的, 在虚拟组织的框架下, 可以通过物理全局视图, 可以有效的对数据库结构的变化进行维护, 提高网格数据库数据调用的稳定性与可靠性。

3 数据的查询和搜索技术分析

分布式查询处理是建立网格数据库的主要目标, 而数据的查询与搜索是数据库网格研究的主要关键技术, 查询优化是分布式查询的关键技术, 数据库的优化器要对若干个等价的查询计划进行分析, 并选择一个比较优化的执行计划进行实际查询, 使得数据库的数据响应能够在最短的时间内完成。在网格数据库中, 动态性是网格数据库的最主要的特征之一, 它将系统数据库的资源进行分配, 但这样会使得网格数据服务的稳定性较差。在出现不稳定的情况时, 可以强制的退出网格数据库, 终止为用户提供服务。网格资源的完全自治性带有很大的随意性, 造成分布式查询优化器在网格中不能快速的获得网格数据资源, 这样也导致了网格数据查询优化的困难, 即使有一些数据资源的统计信息, 在搜索的过程中表现出不完整性, 需要对系统数据库查询方式进行修正, 在网格数据库中采用的是自适应查询技术, 它可以就用户所在的环境中获取相关的信息, 采用迭代的方式进行信息的查询。在网格中, 有时候会出现资源与服务不可以访问的情况, 而且根据网络的需要, 就需要网络根据用户的需求, 采取有选择性的获取信息并反馈给用户。由于网格资源比较丰富, 用户不可能全面了解网格数据库的具体工作过程, 就需要数据库网格采取开放的方式, 在网格资源注册和资源发现的统一框架下, 实现网格数据库的搜索功能。因此, 网格数据库的搜索技术不仅要支持关键字的搜索, 还要支持内容搜索的功能, 包括图书、图像、视频等功能的查询。

4 数据管理中事务的处理方式

在网格的数据管理中, 如何一个资源都是自治的, 网格数据库的服务提供者可以按照自己的意愿, 自由的进入或者退出网格, 形成一个网格的节点失效, 形成网络不稳定的现象, 所以在网格数据库中, 事务处理过程极为复杂, 需要采用专门的数据处理方式, 主要是通过把数据库包装成服务的形式, 通过封装之后, 实现对数据库的实施与共享。这样, 网格数据库对事务问题的考虑只需要针对多个涉及局部事务的LBD服务, 采用相关处理技术将这些事务进行局部合成, 在网格数据库事务管理的过程中, 采用上下文表示和服务的协调与管理的方式进行集中处理, 采用一种松散耦合的、非集中式的数据处理方式来实现事务的处理。

5结语

网格技术与数据库技术的结合, 为分布式数据库的数据搜索等方面的内容提供了全新的研究视角, 通过对网格数据相关技术进行分析, 通过对与多种数据库技术进行对比, 为网格技术与数据库技术相结合的关键技术提供了完善的解决思路。同时, 数据网格技术的快速发展, 对于处在不同地域的数据技术提供了新的信息搜索方式, 也为广域分布环境下的海量数据的共享、搜索、查询等提供了强有力的支持。

参考文献

[1]王家兵, 王能超, 徐正权, 等.一个带有相似性关系的模糊逻辑[J].计算机研究与发展, 2012 (4) .

[2]刘叙华.广义模糊逻辑和锁语义归结原理[J].计算机学报, 2009 (12) .

[3]应明生.模糊逻辑的再扩充[J].计算机学报, 2011 (9) .

数据网格论文 篇8

伴随科学技术的发展, 人们对计算机计算能力、存储能力的要求越来越高。网格 (Grid) 正是伴随着互联网技术而迅速发展起来的, 产生于科学研究与合作中的新一代计算基础设施, 专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个s“虚拟的超级计算机”, 这样组织起来的“虚拟的超级计算机”有两个优势, 一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。简单地讲, 网格是把整个网络整合成一台巨大的超级计算机, 利用互联网把广泛分布的各种资源, 包括计算资源、软件资源、存储资源、数据资源、信息资源等连成一个逻辑整体, 在动态变化的广域分布的异构虚拟组织间实现资源共享和协同工作。

网格的五个主要应用领域:分布式超级计算、分布式仪器系统、数据密集型计算、远程沉浸和信息集成。

网格最早以集成异构计算平台的身份出现, 接着跨入多个领域, 逐步形成多种类型的网格, 包括数据网格 (Data Grid) 、信息网格 (Information Grid) 、知识网格 (Knowledge Grid) 等。数据网格负责容纳和提供对跨组织数据的协作访问能力。

信息网格是在计算网格的基础上, 利用数据挖掘、信息融合和搜索引擎等技术构建的。主要研制一体化的智能信息处理平台, 消除信息孤岛, 方便用户分布、处理和获取信息, 向用户提供“信息随手可得”式的服务。知识网格研究的侧重点是智能信息处理, 目标是如何消除信息孤岛和知识孤岛, 实现信息资源和知识资源的智能共享。

空间信息网格是当前空间信息科学研究的主要内容, 而空间数据网格作为空间信息网格的重要组成部分和虚拟系统的中间层, 在整个网格系统中起桥梁和纽带的作用。在科学研究领域和商业应用领域也越来越受到重视。

2 网格系统体系结构分析

网格技术代表一种先进的技术和基础设施, 它基于现有因特网技术、Web技术和高性能计算技术, 能够充分吸纳各种计算资源, 并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力, 从而实现网络资源的共享和协同工作。

网格所关心的问题是直接访问随时间动态变化计算机、软件、数据和其他资源, 因此它具备解决资源与任务的分配和调度、安全传输与通信保障、人与系统以及人与人之间的交互等能力。经典的网格体系结构是五层沙漏结构, 它是一种抽象层次结构, 以“协议”为中心, 强调协议在网格的资源共享和互操作中的地位。通过协议实现一种机制, 使得虚拟组织的用户与资源之间可以进行资源使用的协商、建立共享关系, 并且可以进一步管理和开发新的共享关系。这一标准化的开放结构对网格的扩展性、互操作性、一致性以及代码共享都很有好处。

五层沙漏模型将网格划分为五层, 分别是构造层 (fabric) , 连接层 (connectivity) , 资源层 (resource) , 聚合层 (collective) 和应用层 (application) 。

五层沙漏模型中各层协议的数量是不同的, 对于最核心的部分, 由于要能够既实现上层各种协议向自身协议的映射, 同时实现自身协议向下层其它各种协议的映射, 使得核心协议在所有支持网格计算的地点都得到支持, 所以核心协议的数量不应该太多, 这样核心协议就形成了协议层次结构中的一个瓶颈, 使得模型结构呈现沙漏形状。在五层结构中, 资源层和连接层共同组成这一核心的瓶颈部分。

3 网格空间数据库系统的构建

空间数据网格作为空间数据共享与应用的技术体系, 空间数据库系统是它的一个重要组成部分。本节主要讨论网格数据库系统的基本概念、网格数据库的体系结构以及数据访问与集成服务。

3.1 基本概念

网格空间数据库系统实质上是在网格环境下的分布式的空间数据库系统, 研究网格环境下分布式的空间数据库系统的管理、协同和数据访问与共享。

Web环境下的分布式的数据库系统一般分为分布式数据库系统和联邦数据库系统。

分布式数据库系统是在分布式环境下实现一个经典的集成库, 它有一个全局概念模式, 各个节点只能通过这个全局模式访问其它节点的数据库。分布式数据库系统为用户提供了对多个数据库的透明访问, 即用户不用指明所要访问的数据库即可获取目标数据。但在很大情况下, 由于节点的异构性, 想要构造一个全局的数据库模式是不容易的。

3.2 网格数据库体系结构

建立网格数据库系统的基本原则是:以基于服务的方式访问已有的数据库;独立于各种数据库:与其他的Web服务和网格服务共存:与网格认证与授权机制相衔接。

网格数据库是网格技术与数据库技术的结合产物, 它的体系结构也必然遵循网格的五层沙漏模型:构造层、连接层、资源层、聚合层和应用层。

在构造层和连接层, 网格数据库的功能与一般的网格应用没有特别的区别。

在资源层, 网格数据库通过信息协议管理资源的结构和状态信息, 包括数据库的配置 (类型、性能) 、负载和使用策略等;通过管理协议磋商对资源的访问, 包括分配、预留、监视和控制。

聚合层的功能包括:协同分配、调度及代理服务, 比如一个数据库建立多个副本, O L T P在正本中执行, O L A P在副本中执行, 提高性能, 平衡负载;数据库复制服务, 优化数据库的访问性能, 以及用于负载平衡、灾难恢复;监视和诊断、故障恢复服务;元目录服务GUS, 由多个GRIS构成。

在应用层, 通过API/SDK访问汇聚层和资源层的服务, 调用Grid Database Service执行交易或查询、报表、数据抽取、装载等。

空间数据网格体系结构中对网格数据库的访问属于网格数据库应用层的服务。

3.3 数据访问与集成服务

客户端Client指一个网格服务或应用程序, 在空间数据网格中指数据的请求者。客户端从网格服务注册中心获取网格数据服务工厂的GSH (Grid Service Handle) , 并向网格数据服务工厂请求网格数据服务, 网格数据服务根据客户端的数据请求从数据库中获取数据, 并将数据返回客户端。

网格数据库服务注册 (Grid Database Service Registry, GDSR) 是一个永久服务, 为网格环境下的多个用户所共享。GDSR提供GDS (Grid Database Service) 和GDSF (Grid Database Service Factory) 的专门注册服务, 属于GRIS的一个接口, 通过查询GDSR, 可发现提供特定服务或功能或数据源的G D S F和GDS。

参考文献

[1]边馥苓, 朱国宾, 余洁.等地理信息系统原理和方法[M].北京:测绘出版社, 1996.

[2]李德仁, 关泽群.空间信息系统的集成与实现[J].武汉:武汉测绘科技大学出版社, 2001.

数据网格论文 篇9

大数据的处理定义为对广泛异构的数据进行抽象的提取和集成,按照一定的标准进行存储,利用数据分析技术对存储的数据进行分析处理,从中提取有用的数据并利用适当的方式将结果提供给用户。可见大数据是有多样性的,也就是大数据的来源非常宽泛,数据类型多种多样,异构性的数据,给大数据的运行和处理带来较多的困难。

由于大数据下的网格环境和位置分布,网格数据资源的异构,以及数据的动态变化,集成了多个不同域的网格资源[1],这些资源为网格应用提供大量的计算。也就是通过网格的计算执行着数量巨大且复杂的应用程序;在不同地域和管理当中,使用着不同的网格资源,其使用机制和安全方法是各异的。多个应用若同时汇集在多个结点资源上,故障有可能会出现在汇集的结点上,因此网格系统较传统的计算平台出错机率更大。

虽然学术界和工程界对网格动态容错做了大量的研究,但在通用的错误检测机制、多样错误的处理策略与应用程序代码相分离机制等方面的研究尚存在问题,没有解决或没有较好的解决方案。因此,在某些专家对网格动态容错机制进行研究的基础上,对网格动态故障检测机制及模型进行了研究,在充分识别网格动态容错技术,依据“灰色预测”的理论,建立一种能有效预测网格资源需求量的模型,作为对已有网格资源的有效补充。在此基础上,对预测模型做了改进,提高了预测模型的预测精度,提出了动态故障检测方法。本方法与Stelling、Abawajy等人的静态层次结构的故障检测方法相比较,解决了网格故障检测的技术难点。提出网格动态故障检测技术。通过实验室进行实验以及实验结果与前人已用静态方法相比较,表明本文提出的方法是有效的、正确的,可以将提出的方法应用于大数据环境下网格的动态故障检测服务。

1 固定心跳的故障检测原理

在大数据环境下的网格资源中,一般情况下都采用了“心跳”(Heartbeat)机制作为监测方法。也就是每一个进程p固定时间向故障检测器发送心跳信源,以说明进程是在正常运行的。在设定的时间间隔te内,如果检测器没有收到其监视进程p的心跳信源,就要怀疑进程p故障了。经过一定的超时时限,还是没有收到进程p的心跳信源,那么进程p可能发生故障(failure)了。

Stelling等人曾采用层次结构的故障检测方法,提出层次结构的网格故障检测架构,如图1所示。检测为两层方式,一是数据监视层,二是数据收集层。监视层的工作主要是监视网格主机上的程序,为数据收集层提供心跳的信源;数据收集层一旦接收到信源后,要判定有无故障发生且是哪些部件发生故障,然后告诉主机有发生故障的部件。因为这是简单的两层结构,监视层向所有的数据层收集器发布心跳信息,可能会引起系统流量增加;另外,Stelling等人的故障检测是在静止状态下进行的,不能适应网格动态的变化[2]。针对上述不足,Abawajy补充了故障检测方法,弥补Stelling等人方法的缺陷[3]。故障检测工作交由系列故障监视器去进行,将故障监视器按照三层以上的结构方式进行排列,故障监视器的主要任务就是监视对应的节点,分别在不同的级别实现对应用程序状态的监控,Abawajy这种方法虽然解决了Stelling方法的不足,由于Abawajy结构方式受到静态性质的限制,该方法还是不能够解决网格的动态性故障检测问题。

由于Stelling等人的故障检测方法只能满足扩展性、低流量问题,不能够解决动态性需求。因此,对网格故障的检测,需要系统地设计出网格动态故障检测方法,既满足扩展性和低流量需求,还能满足动态性的要求,也就是能够随网格环境的变化和需要而动态性地改变网格故障检测方法[4]。

2 动态故障检测架构原理

根据动态心跳机制的原理[5~7],提出一种基于灰色理论的故障检测方法,建立了动态心跳信息到达时间的预测模型,并作出了检测算法。提出三层动态故障检测架构见图2所示。

消息收集层:将被监视进程的心跳信息到达时间提交至消息判定层,按信息到达顺序进行排序,提供于动态预计层进行动态性预测,供消息判定层决策。

动态预计层:将来自消息收集层的结果提供消息判定层,并预计被监视进程下一次的心跳消息到达时间,将预计情况一并上交。

消息判定层:根据消息收集层和动态预计层提供的信息,对被监视进程的心跳消息进行监控,并以此判定被监视进程有否故障。

3 动态故障检测模型

以心跳信息到达时间建立预测模型[8]。根据当前心跳信息的到达时间,预计下一次心跳信息到达的时间[9]如下:

1)设立心跳信息到达时间序列

为被监视节点每一次出现的心跳信息增加一个序列号。n次连续心跳信息到达的时间原始序列t(0),即:

2)对原始序列t(0)作累加处理(AGO)

得到累加生成序列t(1)为:

其中:

3)建立GM(1,1)模型

对累加生成序列t(1)立一阶微分方程得如式(4)所示:

则为信息模型,其中a和b为灰作用量参数。

对信息模型采用最小二阶乘法求解,可得:

其中:

并且:

通过式(5)可计算出,设为合适的预测序列,则有:

4)下一次心跳信息的到达时间。

对作累减生成(IAGO),可得回还原数据:

其中:即为下一次心跳信息到达的时间。

对一阶微分方程GM(1,1)的灰色模型进行修正,补充条件来提高预测精度,建立动态的网格预测模型:

1)对t(0)序列进行AGO后生成t(1),由t(1)(1)=t(0)(1),可得到K+1时的^t(0)(K+1)。

2)K+1时心跳到达后,将序列t(0)中去掉t(0)(1),加入t(0)(K+1),构成新动态预测序列:

建立了新陈代谢的GM(1,1)模型,因此预测为最近一次心跳消息,能够表明故障检测的动态变化情况。

4 网格故障检测算法描述

为便于描述算法,在此给出进程p和q的算法原理过程。p定时向q发送心跳信息,算法如下:

在时刻,如果q没有收到p已经发送的心跳信息,则q怀疑p发生故障。

对给出的算法说明如下:

Task 1:被监视进程上pj的故障检测组件向监视进程qi上的故障检测组件发送心跳信息。

Task 2:pj向qi发送心跳信息,按顺序排列存放在t(0)中,预测第K+1次消息到达的时刻。第K+1次心跳消息一旦到达,将t(0)中的首个心跳信息去掉,构建序列t1(0),然后开始预测第K+2次心跳信息到达时刻。

Task 3:qi没有接收pj所发送的信息,就认为pj故障了;若qi收到了pj发送出的信息,qi就会将pj消除。

5 实验结果及分析

5.1 实验条件

动态故障检测实验由两台异地计算机构成,其配置为:P IV2.4 GHz处理器,1 GHz内存,操作系统为Linux 9。所有消息均采用User Datagram Protocol协议传送,实验时间为36小时。

5.2 实验结果

Chen[10]等人依据质量标准(Qo S),与Keceive算法为对比,其动态故障检测算法评价标准为:

1)故障检测时间:pj发生故障开始到qi已经认为pj故障发生这一时段。

2)故障出错率:故障检测过程所产生出的误判断出错的多少。

实验一:以心跳消息量数为100,本文算法(Ours)与Chen[9]算法(基于层次结构的静态心跳算法)的故障检测时间比较,结果见图3所示。

实验二:以心跳信息到达时间大小相比较。通过心跳信息量的变化,对故障出错率的影响,结果见图4。

5.3 实验解析

由图4可见,故障检测在时间耗费方面,比Chen所消耗的时长要低,解决了流量较低问题。

图4表明,随n值的增加故障检测出错率呈下降低的趋势,曲线逐渐趋于直线,故障检测的出错率没有较大的变化,出错率低而平稳,动态地扩展了网格资源。

综上所述,本文提出的网格动态故障检测的方法最终是符合要求的,在心跳消息处理上,也就是发送的消息都是可以收到的。因此以上实验充分证明了大数据环境下网格的动态故障检测方法是有效的和正确的,解决了前述的难点,证实了网格动态故障检测方法满足扩展性、低流量和动态性的要求。

6 结语

大数据下的网格系统复杂环境以及广阔地理分布,使得网格应用中故障的发生影响了网格的发展和应用,因此本文根据动态心跳原理,给出动态故障检测基本算法,进行了广域网的实验,验证算法的准确性。实验确定的心跳消息到达时间和平均误差率上,与Stelling、Abawajy等人的故障检测方法作对照,本文实验的心跳消息到达时间方面要少些、误差率小些,解决了扩展性、动态性和低流量问题,可以用于大数据环境下网格的动态故障检测服务。

参考文献

[1]王涛.基于语义网格的税务信息系统研究[J].计算机应用与软件,2012,29(1):125-127.

[2]Che J W,Toug S,Aguilera M K.On the quaility Of service offailure detectors[J].IEEE On Computers,2008:13-33.

[3]Chen W,Toueg S.On the quality of service of failure detectors[J].IEEE Transactions on Computers,2008 51(1):61-80.

[4]李景林.网格环境下的故障检测服务研究[J].计算机应用与软件,2010,27(6):120-122,131.

[5]Joerg Decker,Joerg Schneider.Heuristic Scheduling of Grid Workflows Supporting Co-Allocation and Advance Reservation[C]//Proc.of the7thCCGrid,2007:335-343

[6]Stelling P,Dematteis C,Foster I,et al.A fault detection service for wide area distributed computations[J].Cluster Computing,2009(2):107-118.

[7]Lanier Watkin,William H Robinson,Raheem Beyah.A Passive Solution to the CPU Resource Discovery Problem in Cluster Grid Networks[J].IEEE Transa-ctions on Parallel And Distriduled Systems,2011(3):1-5.

[8]刘思峰,党耀国,方志耕.灰色系统理论及其应用(第五版)[M].北京:科学出版社,2010.

[9]吴东波,吕君文.一种改进的二次失效检测算法[J].计算机工程与应用,2014,50(14):96-99.

数据网格论文 篇10

1 软件专业网格数据库管理系统

网格提供一个平台,这个平台支持系统化的身份鉴别和授权、资源发现、数据传输、进程创建和调度,以及跨异构平台的动态绑定。在网格提供的这些功能的基础上,可以构造一个安全可靠、具有自主计算能力的高性能网格数据库管理系统。网格数据库管理系统最终将成为网格上的一种重要资源,提供数据管理服务。

软件专业Web服务作为一组面向Internet的共亨功能与数据、支持互操作机制的开放协议和方法.木文以软件专业Web服务为基础,构造了具有四层结构的软件专业网格体系平台。分别为:软件专业资源层、软件专业驱动中间件层、软件专业网格平台中间件展和软件专业Web应用层。

在构建网格数据库管理系统方面,第一步的工作是提供一个中间件,将数据库管理系统包装成为网格服务,以便网格应用存取网格数据库。这种做法的好处是,对已有的数据库管理系统基本上不需要做什么改动。进一步的工作是扩展已有的数据库管理系统,让它直接利用网格提供的功能来实现分布式的数据库和相关的网格服务。图1是一些扩展已有数据库管理系统时可做的工作:

在网格上,用户只需要登录一次,就可以使用网格上所有可用的资源。网格数据库管理系统需要支持网格中这种一致性的身份鉴别和授权机制。很多网格应用程序在提交任务给数据库管理系统后,需要收到一个任务完成的通知,解决这种订阅/发布问题需要结合网格数据库管理系统的触发器机制和网格中的通知服务。

在网格中,查询结果可以被缓存以便传送给第三方,这意味着,在一个不确定的时间内,网格数据库管理系统必须保留结果,然后利用网格数据传输机制传送查询结果到第三方。

在网格中,分布式查询处理可以利用网格的资源发现机制了解网络的状态、获得合适的资源来运行分布式查询或存储中间结果。网格数据库管理系统应提供资源预留功能,以便参与网格中的进程调度。网格数据库管理系统应该能为网格记账和支付标准提供必要的信息,以便用户为资源的使用付费。有些网格问题不是通过简单地扩展已有的数据库管理系统就能够解决的。下面举例子来说明这一点:

“形成性测评系统”是在学习过程中单元的综合性评价系统,教师在系统组织测评试题,学生通过网络随时访问系统,进行测评,测评结果由教师远程通过网络进行评价,同时系统给教师反馈学生学习统计数据,指导教师教学。“网络考试系统”是课程的综合性评价,系统分为中央模块和考点模块,中央模块制作考试题库,各考点模块通过网络获取题库,考点模块按照题库中的抽题策略,自动给每个考生生成一份试卷,考生在线作答,考试结果数据通过网络回收,系统自动进行判分,生成考试成绩和统计数据。“网络考试系统”是集合现代考试理论、方法和现代信息技术手段的智能化网上考试系统,为学生个性化学习提供“灵活、方便、科学、公平”的“个别化考试服务”,是终结性评价系统。学生可以随时、随地的进行课程结业考试。

2 软件专业网格数据库集成

因为网格的主要目标是支持在共享资源上的协同工作,所以网格数据库集成是目前网格数据管理的研究热点。网格数据库集成就是使用两个或多个网格数据库中的信息,并使用这些信息构建一个大的数据库。

目前有三种网格数据库集成策略:

虚拟数据库虚拟数据库是一个联邦数据库,它只有一个联邦模式,所有的用户都无法觉察到多个独立的数据库存在的事实。虚拟数据库在概念上是受欢迎的,但是难以实现。在构造虚拟数据库时,需要考虑以下几种透明性:异构透明性、命名透明性、属主和费用透明性、并行透明性和分布透明性。

定制集成这种方式是指由应用程序自己完成数据库集成。例如,在有的科学应用程序中,开发人员自己找到相关的数据源,然后将集成任务划分为查询、要执行的程序、中间数据源的构建、显式的数据传输和数据变换,以及存储结果等等。网格数据库管理系统应该提供对这种集成方式的支持,使之降低成本、减少时间耗费和错误的发生。

增量集成虚拟数据库是一个理想目标,定制集成又过于注重细节,增量集成居于两者之间。在增量集成中,开发人员无须完成集成的每一个细节,高级的数据存取和集成组件可以自动完成一些后期的集成步骤。

软件专业网格平台中“在线自测系统”“形成性测评系统”“网络考试系统”是相互关联、相互补充、不可或缺的三个系统:“在线自测系统”是自我测试和评价,“形成性测评系统”是在学习过程中单元的综合性评价,“网络考试”是课程的综合性评价。

3 支持新的网格应用

应用能有力地推动技术的发展。研究对于数据库领域来说相对比较新的网格应用可以有力地推动数据库技术的发展。数据流处理、信息检索和科学数据分析等都是网格应用。其他的网格应用还有网格数据挖掘、网格计算机集成制造系统、网格数字图书馆等。目前国内外开展的大部分的网格项目都是网格应用项目,而且多数是服务于科学研究的需要。网格应用会给传统的数据库技术带来一些新的问题,下面以网格上的科学研究(也被称为e-Science)来说明这一点。

在网格上的科学研究中,对数据的使用有两个重要的方面:一方面,数据是数据挖掘和假设检验的信息源;另一方面,共享数据是科学家们协作的基础。网格环境下的数据库管理系统要想成功地服务于科学研究,就必须充分考虑科学研究活动中数据管理的特殊需求。

归档科学研究中的研究结论是在特定时间、特定状态的科学数据库的基础上得到的。如果要验证一个科学结论,就需要将科学数据库的状态恢复到得出结论时的特定状态。因此,需要研究支持快速恢复所有先前状态的归档方法。

注解注解关联新的数据和已有的数据,它可以自动产生,例如自动记录数据的派生关系,也可以由科研人员手工添加以记载他们对数据的理解。无论以哪种方式生成注解,带来的问题都是注解需要以合适的方式进行管理以便共享。

新的存储结构和索引科学研究中要处理海量的科学数据,而且在检索数据时多使用近似匹配,需要研究能够充分利用网格优点的新的科学数据存储和索引方法。一个简单的例子是,在计算能力大的网格结点上构造索引,然后将这些索引分发到计算能力较小的网格结点上以便做并行分布式数据查询。

软件专业网格平台考核贯穿整个学习过程,表现为边学习边考核,全部采用形成性考核。在传统考核中,形成性考核和终结性考核成绩所占的比例是20%:80%,改革后将形成性考核成绩提高到100%。与传统的形成性考核相比,实施全面的形成性考核,可以强化学生的实践能力,促进学生平时学习,推进对学生综合素质的训练和提高,更好地实现课程的考核目标。

摘要:结合网格技术提出了数据库的通用网格平台模型,将数据库系统的资源整合起木:形成一个功能强大的数据库系统,从而方便数据库用户使用和提高数据库系统资源的科用率。

关键词:网格,模型

参考文献

[1]周全,杨庚.网格计算—下一代Internet计算模式江苏[J].江苏通信技术,2004(1).

上一篇:信用证诈骗罪下一篇:音频技术发展