空间数据

2024-09-29

空间数据(精选12篇)

空间数据 篇1

0 引言

农业信息空间是描述全球信息化未来的新词汇,随着近年来世界范围的新技术革命的开展,农业科学研究人员开始利用计算机网络获得信息,帮助分析农业领域财务或市场供求状况,提出可选择的决策模式[1],科技信息已经成为农业发展和支撑的动力。当前,农业信息空间里的海量数据每日均呈爆炸性增长,为了更好地提高农业信息服务功能,农业信息空间里的显性知识和隐性知识的传播与利用,成为当前一个亟待解决的热点问题。

1 农业信息空间概述

数字信息资源作为现代农业资源的主要形式和种类,从记录载体、表达方式及传播手段等各个方面代表着农业信息交流的最新水平和发展方向。农业信息空间作为一种开放动态的服务模式,其主要功能是为农业知识工作者提供一种协同交流的环境,通过农业信息空间的数据资源和信息服务促进农业知识群体的交流与合作。随着网络技术和信息环境的发展,农业信息空间已经成为农业知识创新的主流模式。在此模式下,农业信息组织者已经转变为农业知识管理者,以此提供农业信息资源和知识问题的相关服务,并且通过引入新的技术工具平台和信息组织检索方式来帮助知识传递和研究,并将其作为农业知识工作者的伙伴,与农业知识团体一起改进知识的生产、获取和保存,创造灵活的基于数字资源的学习模式来促进革命性的思考。因此,农业信息空间不仅是农业知识学习和使用信息技术以及使用和检索信息的场所,更是一个促进农业知识发展和创造知识合作机会以及支持交叉学科知识研究的场所[2]。

2 农业信息空间数据组织国内外研究现状

农业信息空间可看作是一种开放动态的服务模式,为农业知识人员和科研人员提供一个交流平台,其核心功能是通过提供资源和服务来促进农业知识交流与知识合作。在世界农业信息化发展进程中,美国、德国、澳大利亚和日本等国处于领先地位,这些国家都根据本国的实际情况,因地制宜地开展农业信息数据服务建设,并形成了自己特色的农业信息空间。美国政府以其雄厚的经济实力,从农业信息技术应用、农业信息网络建设和农业信息资源开发利用等方面全方位推进农业信息化建设,构建了以政府为主体,以国家农业统计局、经济研究局、世界农业展望委员会、农业市场服务局和外国农业局等5大信息机构为主线的国家、地区与州三级农业信息空间,形成了完整、健全和规范的农业信息服务体系。德国作为欧洲信息化发展的成功典型,从建立村庄道路的信息系统入手,逐步发展成为目前较为完善的农业信息处理系统空间。澳大利亚政府与各类涉农组织都注重农业信息资源的挖掘和加工整理,形成了丰富的农业信息资源空间。

国外的信息空间建设主要是通过构建虚拟网络平台的方式实现,具体包括建设农业资源知识库、农业知识过程协助、农业主题资源共享以及农业知识数据共享等。其农业知识数据组织方式也有一定的特点,例如一个设计咨询和技术研究实验室MAYA (http://www.maya.com/infocommons/ research.html)提供农业信息空间,让农业知识工作者更容易探索出新的思路、问题和联系,不必花费大量的时间去下载输入和格式化数据[3]。在农业信息空间里面,数据已经可以获取和重复使用[4],其优势在于能够获取已经规范一致的各种数据,将数据融合成为最终确定的概念,扩展单一和多元领域的搜索能力,使用农业信息空间的灵活数据格式,使农业知识工作者的数据随着研究的进行而不断提炼以及通过数字签名保持其对数据的所有权。

进入 20世纪90 年代以来,我国加快了网络化和数字化技术的发展,加强了分散在各个地区的农业研究分支机构与中央管理机构之间的网络化联系和协作,加强了农业信息资源的共建共享,也正在走向分布式网络化的管理体制。国内农业信息空间的知识组织方式主要采用的是导航目录的方式。导航目录实际上是对农业信息空间基本数据和知识的分类及授权服务进行控制的机制[5]。导航目录是一个有架构的组织系统,在一个广泛的农业信息空间范围内,导航目录的工作挑战是如何确定和定位数据资源,因此导航目录是一个在农业信息空间提供定位和确定系统中数据资源的一种方法。当前,导航目录成为扩展农业信息空间最重要的部件之一,未来发展将表现在如何提升简化管理、加强安全性和扩展互操作等方面。在我国农业信息基础设施建设中,最薄弱的环节是农业信息资源的开发与利用。目前,普遍存在着农业数据库建设缺乏统一规划、农业信息数据组织结构不合理、农业信息资源商业化程度低、标准不统一、规范性差以及服务能力不强等问题。

3 关联数据

3.1 关联数据简介

当前,Web农业信息空间已经从对互联网设备的松散集成发展成为由相互依存资源所组成的复杂生态系统,因此农业信息空间的海量数据服务需要一种良好的分布式数据资源的关系组织和管理。现有的Web空间数据资源组织方式是建立在Internet的基础上,通过链接来实现数据或文档的关系。此种农业信息空间的数据组织在应用过程中还是存在很大的局限性,网页文件内容松散。从信息构建理论上得知,用户关心的是主题事务而非文本信息,以HIML书写的网页语言并不包含可视化信息,知识工作者难以立刻从文档数据中提取主题,因此需要提升农业信息空间数据组织的结构化程度。

2006年,Web的发明人Berners - Lee提出了一种URL规范,使得人们可以通过HTTP UR L机制直接获得数字资源( Thing)[6]。Berners-Lee曾提出关联数据的4个原则,维基百科对其进行了阐述:

1)通过URI(统一资源标识符)识别用户在网上发现的东西,并把其当作资源;

2)使用HTTP URI,就可以定位并查找(解引用)这些东西;

3)当URI被解引用时,提供资源相关的有用信息;

4)在发现的数据中,包括链向其它相关URI的链接,是一种提高发现网络信息能力的手段。

简而言之,关联数据允许用户发现、关联和描述,并再利用各种数据。用户与数据的关系就好比万维网和文件的关系。

3.2 关联数据的应用研究现状

数据集内的知识库都可以被访问,并和其它数据集的内容连接在一起,如图1所示。

LOD遵循了万维网的基本设计原则,即简单、兼容、模块化设计以及去中心化。目前,该计划含有20多亿个RDF三元组 (triple),其中包含了大量知识。此外,参加该计划的数据集还在不断增加。目前,这些数据集可以通过非均匀方式(heterogeneous)访问。比如,通过语义网页浏览器或者通过语义搜索引擎爬虫收录,如Falcons( http://iws.seu.edu.cn/services/falcons/),Sindice (http://sindice.com),SWSE(http://www.swse.org)和Watson (http://watson.kmi.open.ac.uk)等均能搜索基于网络的数据提供关键字,由此寻找不同主题的数据集。目前,已经有数十亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。

从2007 年起,关联数据发展很快。W3C的关联开放数据运动(LOD ,Linking Open Data)正式启动,一些新的和期待已久的W3C标准也发布了,如SPARAL,GRDDL和RDFa等。大型媒体公司(如BBC,纽约时报)已经把他们的海量数据转换成了关联数据。英国和美国等国家也开始了政府信息语义网的相关工作,英国政府已在2011年6月把主要的政府信息发布成可以重用的关联数据,并且建立起重用数据的通用协议[7,7]。

随着关联数据相关研究的不断深入,不但减轻了整合农业信息空间分布式异构数据源的复杂性,而且推动了基于关联数据的新应用。目前,国内外围绕关联数据进行了一系列的理论研究和应用开发,相关的研究项目主要涉及利用关联数据实现数据网络和合作、基于关联数据构建Mashup服务、基于关联数据实现本体的再利用、关联数据的语义Web搜索引擎以及利用关联数据实现自动语义问答等。

4 基于关联数据的农业数据组织方式

4.1 RDF简介

资源描述框架RDF(Resource Description Framework)是一个语法独立的数据模型,也是描述关联数据的数据模型。RDF从本质上可以认为是XML处理元数据的一个应用。同XML一样,RDF也由是W3C组织主导而形成的一个架构,它在语法上完全遵从XML。在RDF里,基本模型包括了资源、特性和声明。它与元数据的主要不同之处在于:元数据一般是用比较简单的资料来描述资源的内容;而RDF可以同时定义多个元数据,再用定义的多个元数据来描述资源的状况。

4.2 关联数据的知识组织机制

关联数据是数据的一种发布方式,以URL的方式链接到一个数据对象,而不是一个文档。这个URL通常就是这个数据的URI,并且这个数据对象基本上是由RDF来描述的(这样才能保证数据具有语义),而且RDF文件中应该包含更多的由URI所标识的其它资源。RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系,如图2所示。

从图2可以看出,任何人都可以在农业信息空间发布数据,实体之间都是通过链接来关联,数据都可以按照RDF和OWL实现自定义。更为重要的是,数据发布是开放的,每天都有大量的数据源实时发布。

4.3 基于关联数据的农业数据组织应用

由于关联数据的简单、可靠、灵活、松散耦合、丰富语义以及自定义等特征,在农业信息空间范围内实现新的数据组织方式是十分必要和可行的。数据资源发现对于农业知识服务是非常重要的,关联数据为农业知识的资源发现服务提供了良好的途径。关联数据创造了显性知识的资源和外部世界隐性知识资源相互连接起来的机会,可以增强和扩展知识发现与知识挖掘的平台。目前,农业信息空间领域展开的或者是可以运用到的基于关联数据的数据组织应用可以考虑集中在以下几个方面。

1)将农业信息空间的知识资源发布成为关联数据。

目前,已经有一些农业信息空间开始采用RDF和关联数据,如瑞典国家图书馆、美国国会图书馆、OCLC和德国国家经济图书馆等。以RDF的格式标准发布农业信息空间内的数据资源,实现所有主题资源的关联数据化,不仅能降低服务器的负载,而且能增加规范格式文档的利用率。

2)扩展农业信息空间知识资源发现服务。

许多的农业信息空间通过实施资源发现服务,扩展其目录检索和导航界面。资源发现服务可以浏览动态更新的结果,展示更多的知识信息,但在浏览和精练结果的深度方面还具有一定的局限性,因为主要是通过主题标目和MARC记录里的其他数据来实现的。关联数据可以通过提供结构化的数据以此扩展知识信息,为知识工作者提供新的资源发现和访问服务。关联数据允许用户关联到更广泛的信息资源,并不局限于知识资源本身的信息(如图2所示)。

3)利用关联数据实现数据融合与语义检索服务。

CultureSampo[8,8]是博物馆使用开放数据的例子,是芬兰文化记忆的语义Web门户。关联数据的最大优势是可以提供多个分布式异构数据源整合的关联的访问,将来自不同数据源的同一个对象进行整合,返回给用户关于该对象的所有相关信息的统一视图。在未来,越来越多的农业信息空间将在数据融合方面发挥更大的作用。伴随语义网的发展,农业信息空间下的各个知识机构同其他组织进行数据的识别和交换的方法越来越容易,数据可以重新使用和组织的方法也越来越多。

5 结语

将不同的数据源整合在一起,可以比在任何一个组织中获取的数据更能提供背景和深入的洞察力。建立基于关联数据的农业信息空间数据组织方式,不仅能更好地扩展知识资源的内容,提升知识资源的发现服务,而且还有助于推动和构建大规模的分布式服务,帮助建立一个更为开放的网络,促使新的农业信息空间信息生产模式的生产,并结合新的语义技术实现增值性的信息组织。

参考文献

[1]李思经.试论国外农业研究信息体系的管理[J].情报海外,2005(5):92-93.

[2]邬宁芬.信息共享空间:大学图书馆的机遇与挑战[J].图书馆杂志,2005(11):30–33.

[3]Dr D Russell BA ILEY.Information commons services forlearners and researchers:evolution in patron needs digitalresources and scholarly publishing[EB/OL].[2007-11-30].Http://librar2y.uncc edu/info commons/confer-ence/p rague2005/bailey2inforum2005.Doc.

[4]鄢小燕,李娜.科研协同信息空间[J].图书馆杂志,2008(11):49-50.

[5]王德禄.知识管理的IT实现[M].北京:电子工业出版社,2003:93-94.

[6]Berners-Lee T.Linked Data[EB/OL].[2010-02-11].http://www.w3.org/Design Issues/Linked Data.html.

[7]HM Government.Putting the frontline first:smarter govern-ment[EB/OL].[2009-12-01].Http://www.hmg.gov.uk/media/52788/smarter-government-final.Pdf.

[8]Hyvonen E,Makela E,Kaupp inen T,et al.CultureSampo-finnish culture on the semantic Web 2.0:thematic per-spectives for the end-user[EB/OL].[2010-01-20].http://www.arch muse.com/mw2009/papers/hyvonen/hyvonen.html.

[7]姚宗路,王晓燕,李洪文,等.2BMD-12型小麦对行免耕施肥播种机改进与试验研究[J].干旱地区农业研究,2005,23(5):46-51.

[8]张波屏.现代种植机械工程[M].北京:机械工业出版社,1997:190-203.

空间数据 篇2

多源数据更新空间数据库的方法研究

对如何利用各种来源的地理信息数据,更新城市基础空间数据库的`方法进行了研究.在方法中,通过对各种数据源的分析,大体将数据源分为CAD及文本两大类,利用FME技术,分别实现对CAD及文本两大类数据的读取和转换,并结合dwg和xls两个示例,详细介绍了数据处理过程.本方法呈现出开放性、自动化程度高的特点,减少了人工劳动强度,极大地提高了数据库的更新质量及稳定性.

作 者:高翔 袁超 瞿晓雯 张红文 Gao Xiang Yuan Chao Qu XiaoWen Zhang HongWen 作者单位:重庆市地理信息中心,重庆,401121刊 名:城市勘测英文刊名:URBAN GEOTECHNICAL INVESTIGATION & SURVEYING年,卷(期):“”(4)分类号:P208关键词:多源 空间数据库 更新 方法

空间数据 篇3

关键词数据流空间连续查询LBS

1数据流系统

数据流(data stream)应用的出现引起了国内外专家和学者的关注,数据流管理技术作为一种新兴的技术已经被广泛的研究,目前通用的DSMS(data stream management system)包括TelegraphCQ[1],Aurora[2]和STREAM[3]。

数据流的查询过程是持续的查询(continuous query)[4],持续查询所关心的并不是全部的数据,而是近期最近到达的部分数据,所以数据流中的持续查询采用滑动窗口(moving window)机制,基于滑动窗口的查询。

本文基于通用流数据库[5][6],构建一个空间数据流系统模型。在此过程中,借鉴交通导航应用开展工作。这里的空间流数据库模型系统的主要的工作仅包括增加空间数据类型、空间滑动窗口和空间谓词,为了实现简单易懂的空间连续查询语言,本文在设计时,尽量和原有的空间数据库查询语言和连续查询语言做到统一。本文依据标准SQL和CQL设计空间数据类型和空间谓词,并参考OGIS标准,尽量不修改原有查询语言的结构,采用通用的空间数据类型表示方法,通过增加通用的关键词的方式,扩展连续查询查询语言。

2空间数据类型扩展

我们考虑交通导航LBS(Location Based Service)应用,在这种应用中,需要知道移动对象前方道路的交通状况,根据交通状况选择合适的运行路线。假定每个移动对象每隔30秒向导航服务中心报告移动对象当前的速度和位置信息。前方的交通状况由运行在前方的一定范围的移动对象数量和这些移动对象的平均速度来决定,数量多并且平均速度小于40km/h就表示交通状况差,否则交通状况良好。随着移动汽车位置的改变,其维持的空间查询窗口也在不断的改变位置,如果设计一种空间滑动窗口,使之能够随着移动对象的改变而改变,就可以解决这个问题。

根据例子应用的需要,拟增加的空间数据类型有Point和SSwin两种。Point用来表示一个移动对象,而SSwin用来表示一个空间滑动窗口。

(1)Point[x:float, y:float],在这里Point表示某个移动对象,它的值为移动对象的二维空间坐标;

(2)SSwin [Point1, Point2],表示某一空间滑动窗口,为了简化问题,此处的SSwin,仅表示一个矩形的空间滑动窗口,由两个Point标识。

3增加空间滑动窗口查询函数

为了支持空间查询,需要增加空间谓词和空间函数,本文需要增加空间函数Inside,用来判断空间移动物体是否在空间滑动窗口内。

(1)Inside(Obj,SSwin)

这里的SSwin表示空间滑动窗口,Obj表示移动对象位置,此运算符的结果为整型,当Obj在SSwin 的内部时,其值为0,否则,返回值为1。

(2)空间滑动窗口的连续查询

通过以上增加了空间数据类型和空间谓词以后,流数据库可以支持空间滑动窗口的连续查询。粗体字部分表示本文增加的空间谓词:

:

……

:

|

:

INSIDE ( , )

……

4空间滑动窗口查询的实现

本文的空间流数据库模型的实现工作是基于STREAM流数据库管理系统,通过修改此系统的代码,实现空间流数据库系统。此系统是斯坦福大学开发的一个的通用的流数据管理模型。此数据库管理系统模型是开放源代码的。它能够处理对多个连续的数据流和存储关系的连续查询。它提供大量的复杂流查询,用来处理高容量和高突发性的数据流。它提供丰富的连续查询语言,有良好的交互操作界面。

本文的实现是要在流数据库管理系统的基础上进行扩展,虽然仅是对原有系统的扩展,但是需要做的工作仍然涉及到整个数据库管理设计的全过程。一个数据库管理系统的设计包括一系列的阶段,一般遵循以下的顺序。同时以下这些步骤也是实现此空间流数据库的过程中,主要的工作:

(1)生成词法分析树:由抽象的查询语言生成词法分析树,这个过程是数据流管理系统实现的最初阶段。根据上节定义的空间连续查询语法,在本文的空间数据流系统中,用Yacc[7]生成查询语言的语法分析树。

(2)语义分析:对词法分析树进行语义分析,将词法分析树转换为系统能够识别的内部表示。这一步生成的语义表示仍然不是一个操作符树。这个过程的设计主要是将空间数据类型和空间谓词转换为系统能够识别的形式,具体的实现类似于算术表达式的语义转换。

(3)生成逻辑计划:将查询的内部表示转换为逻辑查询计划。逻辑查询计划由逻辑操作符组成。逻辑操作符大多是关系代数操作符(比如:选择,投影,连接等),当然也有一些连续查询特有的操作符(比如滑动窗口操作符)。逻辑操作符不需要和查询执行中的操作符有关,它仅仅是一种关系代数的抽象表示。

(4)生成物理计划:将逻辑查询计划转换为物理查询计划。物理查询计划中的操作符是直接和在查询执行期间执行的操作符相关的。之所以要生成一个单独的逻辑查询计划,是因为逻辑查询计划更加容易生成,而物理查询计划涉及到底层细节。

(5)查询执行:组织存储空间的分配,物理操作符的执行等。

5实验

5.1LBS运动模型

构造如图1所示的导航应用,移动汽车每30秒向导航中心报告当前位置信息和行驶速度并且进行空间滑动窗口的聚集查询,这里我们主要涉及count和avg聚集查询,分别计算滑动窗口内汽车数量和平均速度。移动汽车根据查询结果了解前方路况,以起到交通导航的作用。

5.2输入设计

(1)MovCar

MovCar的结构如下表所示:

(2)SpaSliWindow

空间滑动窗口(SpaSliWindow)数据流,该数据流包含空间滑动窗口标志信息和空间滑动窗口位置信息:

5.3空间滑动窗口查询设计

上一节中构造了两个输入数据流,分别模拟移动汽车信息数据流和空间滑动窗口数据流,下面编写空间滑动窗口查询的脚本语言,该查询脚本基于前面分析的简单的交通导航应用以CQL(持续查询语言)编写,脚本文件如图2所示。

5.4结果输出

注册了输入数据流,并且定义了空间滑动窗口查询之后,经过我们设计的空间流数据库模型的处理得出图3和图4所示的结果。图3所示为导航查询结果,可以看出,在61时刻的滑动窗口3内有6辆移动汽车,汽车平均速度为34.1667km/h,小于40km/h,满足查询条件,由此汽车A得知此刻前方路段交通状况差,可以采取积极的应对措施,绕过此拥挤的路段。图4所示为每个查询时刻对应空间滑动窗口内的汽车信息,可以看出,1时刻的空间滑动窗口内有移动汽车A、B、C、D、E,31时刻的空间滑动窗口内有移动汽车A、B、C、D,61时刻的空间滑动窗口内有移动汽车A、B、C、D、E、F,91时刻的空间滑动窗口内有移动汽车A、B、C,121时刻的空间滑动窗口内有移动汽车A、C。

6小结

本文结合交通导航应用对数据流系统进行空间扩展,扩展了空间点和空间滑动窗口,及基于空间滑动窗口的查询操作,并依据数据库的设计步骤,实现了空间数据流系统。以导航应用为例,构造了一个基于空间滑动窗口的运动模型,通过试验分析,输出的结果均符合我们设计的运动模型。

参考文献

[1] Sirish C, Owen C, Amol D, Michael JF, Joseph MH, Wei H, Sailesh K, Samuel RM, Fred R, Mehul AS. TelegraphCQ: Continuous dataflow processing[R]. In: Alon YH, ed. Proc. of the 2003 ACM SIGMOD Int’l Conf. on Management of Data. New York: ACM Press, 2003. 668—668.

[2] Daniel JA, Don C, Ugur C, Mitch C, Christian C, Sangdon L, Michael S, Nestime T, Stan Z. Aurora: A new model and architecture for data stream management[J]. The Int’l Journal on Very Large Data Bases, 2003,12(2):120—139.

[3] A. Arasu, B. Babcock, S. Babu, M. Datar, K. Ito, I. Nishizawa, J. Rosenstein, and J.

Widom. STREAM: The stanford stream data manager[J]. IEEE Data Engineering Bulletin, 2003,26(1):19—26.

[4] Shivanath B, Jennifer W. Continuous queries over data streams[J]. SIGMOD Record,2001,

30(3):109—120.

[5] 姜芳艽.DBMS与DSMS的比较研究.微计算机信息,2007.2,3:33-36.

[6] 金澈清,钱卫宁,周傲英.流数据分析与管理综述.软件学报,2004,15(8):1172-1181

A Model of Spatial Data Stream Systembased on Data Stream System

Gong Piqiang,Jiang Jie

(Jiangsu Provincial Posts and Telecommunications Planning and design institute limited liability company,Nanjing 210003,China)

AbstractThe data stream system has the characteristic of continuous query which can provide real-time data processing. The existing general data stream system does not support spatial data processing, but location based service appearntly require spatial data processing.This paper proposed the method which implements LBS applications by stream database based on data stream system from the data processing view. Futhermore, this paper expands the stream database to support spatial operation which can provide data processing for LBS applications and satisfy the requirement of LBS applications and finally proposed a model of spatial data stream system.

Key wordsdata stream,Spatial Continuous Query,LBS

浅析空间数据挖掘技术 篇4

空间数据库是一类特殊的数据库,地理信息系统(GIS)是空间数据库发展的基础,因此,对空间数据库[1]的研究是随着地理信息系统的发展而不断深入的。目前空间数据库及其挖掘的研究的重点主要集中在空间数据建模、空间数据存储与管理、空间查询与优化、空间关系分析、空间数据挖掘方法等方面。

2、空间数据挖掘的知识种类

从空间数据库中挖掘的知识种类主要有:概念描述、分类知识、聚类知识、偏差型知识、空间分布规律、空间关联规则[2]、空间区分规则、空间演变规则等。

(1)概念描述,从数据库中挖掘出数据的一些描述性的特征,例如数据的平均、最大值、总和、百分比等。一般地,这些知识从不同的层次和角度以统计曲线图的形式来表示。

(2)分类知识,给定训练数据集的特征和一些初始的分类结果,通过某种模型为每一类找到一个合理的判别规则,再利用这些分类判别规则对未知的、新的数据集进行分类。一般地,可以用产生式规则来表示分类的结果。

(3)聚类知识,也称无监督分类,其主要目的是客观地对处理对象的特征进行分类,将具有相同特征的对象归为一类。它与分类最大的区别在于分类是基于训练数据集的,并且事先对分类结果做了一些初始的主观假定。

(4)偏差型知识,从数据库中找出异常数据。例如,金融欺诈,洗黑钱等。

(5)空间分布规律,是指目标在地理空间的分布规律,可分成垂直向分布规律、水平向分布规律、垂直向和水平向的联合分布规律。

(6)空间关联规则,是指空间目标间相邻、相连、包含等空间关联规则。例如村落与道路相连、道路与河流的交叉处是桥梁等,从GIS的图形和属性库中,不难发现目标间的相连(如火车站与铁路相连)、相邻、加油站通常离高速公路很近等关系。

(7)空间区分规则,指两类或多类目标间几何的或属性的不同特征,即可以区分不同类目标的特征。

(8)空间演变规则,如果空间数据库是时空数据库或者空间数据库中存有同一地区多个时间数据的快照(Snapshot),则可以发现空间演变规则。空间演变规则是指空间目标依时间的变化规则,即哪些地区易变或不易变,哪些目标易变及怎么变,哪些目标固定不变。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

3、空间数据挖掘的处理过程

空间数据挖掘是空间数据库中知识发现过程的一个基本步骤。数据挖掘步骤是通过将有趣的模式提供给用户,或作为新的知识存放在知识库中这种与用户或知识库交互的方式来进行的知识发现过程的其中最重要的一步,因为它可发现隐藏的不为人知的模式。它由以下步骤组成:

(l)数据清理:通过填写空缺的值,平滑噪声数据,识别、删除孤立点,并"清理"不一致数据

(2)数据集成:对多种数据源进行集成

(3)数据选择:从数据库中检索与任务相关的数据

(4)数据变换:通过汇总或聚集等操作将数据变换成适合数据挖掘的形式

(5)数据挖掘:使用智能的方法来提取数据模式。先对数据挖掘的目标和知识类型进行确定,然后根据所需要的知识类型选择合适的挖掘算法,最后从数据库中按照选定的挖掘算法获得所需的知识

(6)模式评估:通过某种兴趣度量来评估真正有趣的知识模式

(7)知识表示:通过知识可视化表示技术向用户展示挖掘的知识

通过对以上过程不断地循环操作,可以对所挖掘出来的知识进行不断求精和深化。

4、空间数据清理

空间数据清理,又称空间数据净化、空间数据清洗等,是多元空间数据挖掘和知识发现,以及异种空间数据集成无法回避的问题。从广义上讲,凡是有助于提高空间数据质量的过程都是空间数据清理。狭义而言,空间数据清理是指了解空间数据库中字段的含义及其与其它字段的关系,检查空间数据的完整性和一致性,根据实际的任务确定清理规则,利用查询工具、统计方法和人工智能工具等填补丢失的空间数据,处理其中的噪声数据,校正空间数据,提高空间数据的准确性和整体的可用性,以保证空间数据整洁性,使其适于后续的空间数据处理。数据清理方法包括空缺值清理,噪声数据清理和不一致数据清理[3]:

4.1 空缺值

(1)忽略元组。在分类挖掘任务中,当类标号缺少时可忽略元组。如果元组的属性有多个缺值,那么该方法的效果不佳。

(2)人工填写空缺值。由于是人工操作,并且在数据集大,缺值多的情况下,该方法很费时,有时可能行不通。

(3)使用全局常量填充空缺值。用同一个常数替换空缺的属性值。但会给挖掘任务以误导,根据所填常数认为得到了一个有趣的概念。

(4)利用属性的平均值来进行空缺值填充。

(5)利用与给定元组属于相同类的所有样本平均值进行空缺值填充。

(6)使用最可能的值填充空缺值。

4.2 噪声数据

噪声表示了测量变量中的随机错误或偏差。因此,对于所给定的一个数值属性,需要进行数据平滑和去噪处理。常用的去噪方法有:分箱,通过考察存储数据周围的值来对其进行平滑;聚类,对散落在聚类集合之外的孤立点进行检测。人机结合,可以通过人工和计算机检查相结合的方法对孤立点进行检测。

4.3 不一致数据

对于有些事务,所记录的数据可能存在不一致现象,可以通过人工地进行加以更正,但要考虑参照材料的完备性。例如可以利用知识工程工具来检测违反限制的数据等。在数据集成过程中可能会产生不一致数据,比如当一个给定的属性在不同的数据库中可能具有不同的名字时,就会发生冗余现象。因此需要进行数据变换和数据归约。

空间数据清理是空间数据挖掘和知识发现的空间数据准备阶段必不可少的内容,主要有:确认输入空间数据,消除错误的空值,保证空间数据值落入定义的范围,消除冗余空间数据,解决空间数据中的冲突,保证空间数据值的合理定义和使用,建立并采用标准。现有的工具可分为三类:(1)空间数据迁移,允许指定简单的转换规则。(2)空间数据清洗,使用领域特有的知识对空间数据作清洗,采用语法分析和模糊匹配技术完成对多源空间数据的清理。(3)空间数据审计,通过统计分析空间数据发现规律和联系。

5、结束语

空间现实世界是一个多参数、非线形、时变的不稳定系统,从中采集到的空间数据多种多样,与一般数据相比,空间数据还具有空间性、时间性、多维性、海量性、复杂性、不确定性等特点。目前,虽然对空间数据挖掘的研究和应用取得了一定的成果,但是仍然存在诸多期待解决的技术难点和瓶颈问题。

参考文献

[1] (美) 沙克哈 (Shekhar, 5.) 等著;谢昆青等译.空间数据库[M].北京:机械工业出版社, 2004.

[2]涂建东, 陈崇成, 樊明辉等.基于Java3D的空间关联规则可视化原理与实现[J].高技术通讯, 2004, 36 (6) :98一102.

[3]范明, 孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社, 2001, 8.

地球空间数据集成研究概况 篇5

数字地球空间数据的`集成研究及应用始于本世纪60年代,地理信息系统的出现及应用、多元数据的使用推动了地球空间数据集成研究及其应用.本文首先对地球空间数据概念进行描述,然后对地球空间数据集成研究状况及存在的问题进行了详细的分析.结合数据集成需求及存在的问题,论文分析了数据集成的发展方向.

作 者:李军 费川云 LI Jun FEI Chuan-yun 作者单位:李军,LI Jun(中国科学院遥感应用研究所,北京,100083;中国科学院地理科学与资源研究所,北京,100101)

费川云,FEI Chuan-yun(中国科学院地理科学与资源研究所,北京,100101)

空间数据 篇6

聚焦智能安防,分享行业成长红利。智慧城市建设加速为智能安防行业带来新一轮景气周期。公司重点布局公安、交通、金融领域,凭借技术实力和市场开拓能力在华南地区安防市场处于领导地位,将充分享受行业成长红利。尤其是当前安防行业洗牌加速,公司作为业内领先的平安城市解决方案与智能监控系统提供商,有望在行业变革中脱颖而出。

人脸识别风起,产学研结合占据技术优势,卡位关键入口。当前人脸识别技术上的障碍已经消除,达到广泛应用临界点,市场空间巨大。公司通过战略合作中大信科院、参股云从等一系列举措积极开展产学研合作,智能化技术和产品处于国内领先水平。同时公司深耕轨交、安防、金融领域多年,直接卡位人脸识别关键应用入口,市场优势明显。

操作策略:二级市场上公司股价虽然在低位波动,但近期随市场破位下跌,均线处于发散状态,建议走稳后再介入。

空间数据 篇7

随着地理信息系统的不断发展, 空间实体几何数据和属性数据越来越多。特别是现代测绘技术和计算机技术的广泛应用, 使得人们可以对地球实施近乎实时的监测, 这个过程更是产生了海量的数据。但由于应用环境、应用部门不同, 空间数据采集各自为阵, 空间数据具有异地性、异构性特点, 形成数据孤岛, 使空间数据的共享带来极大困难, 严重影响了空间数据的进一步应用。

本文针对空间数据异地分散性的特点, 采用元数据的方式对空间数据进行描述, 研究并设计了一种分布式空间数据共享模型, 并在某省环境科学研究院进行了应用。

1 分布式空间数据的共享模式研究

数据共享有以下三种形态:

复制赠与式:数据所有者将数据发送给需要数据的使用者, 使用者自行保管和维护。

集中共有式:所有可以共享的数据集中保存在公共数据库中, 使用者根据需要自行取用。

分散共享式:数据仍保存在数据所有者的服务器中, 授权给一定范围的用户在需要时提取使用。

针对某省环境科学研究院空间数据的应用具有分散和异构的特点, 数据分布于各业务部门各自的计算机上, 对应各自的应用和管理系统具有不同的结构。既有以数据库方式进行结构化管理的地理信息数据, 也有大量以非结构化文件方式管理的地理信息数据。地理信息数据类型多种多样, 包括图形文档资料、图形表格资料、图形数字照片、GIS数字地图、遥感影像、CAD设计图纸、以及各类图形数据库等。不同部门和不同业务常常采用不同的地理信息系统和数据库管理系统 (如ArcInfo、MapInfo、GeoMedia等, Oracle、SQLServer、DB2等) , 运行于不同的计算机操作系统 (Windows、Unix、Linux等) 。分散异构的数据资源和多样性应用特性, 决定了任何单一的集成或应用系统都难以满足信息共享和集成要求。“分散共享式”可以保留原始数据结构, 在数据所有者的控制和授权下, 进行灵活的数据共享应用。这种方式可以保障数据所有者的权益, 使数据所有者可以放心地将数据提交共享;同时数据所有者有可以负担对数据维护和更新的责任。从资源应用的角度来说, 各数据服务器相当于一个计算机数据网格, 通过计算机网络相连, 形成可以无限扩展的数据资源平台。

2 分布式空间数据共享体系结构

图1显示了在一个多部门机构中采用分布式来进行数据共享的典型框架。每个部门有一台数据服务器来存储本部门的业务数据, 信息中心有一台元数据服务器存储关于机构中所有共享数据的元数据。数据仍然由各个主管部门维护和更新。内部用户能通过局域网访问, 同时外部用户能通过因特网访问。不同部门或不同业务的数据可以由各自的专用服务器存储管理, 通过公共的元数据服务器查询使用, 完美地实现办公数据的交换和信息共享。通过一个集中的元数据服务器, 可以快速地从整个元数据库中查询可用的数据, 数据服务器不必为数据检索服务, 仅需提供数据访问的服务。

针对不同的数据类型, 建立不同的元数据标准数据库, 将相关数据信息存储于分布式数据服务器上, 实现分散异构的数据资源共享管理和流通, 在数据共享平台上搭载现有业务应用和开发新的业务应用系统。

系统的概念结构分为三层:

(1) 数据层

由分布式数据服务器存储管理的各种类型的数据。包括以SDE形式进行存储的空间信息数据库、非空间信息的结构化数据库、非结构化的以文件形式进行存储的数据信息 (包括空间数据和其他业务过程中所产生的各种类型的办公文档、电子报表、数字照片、多媒体文件、GIS数值地图、遥感影像、设计图纸等) 。特别地, 对于空间信息数据, 可以采用ArcSDE进行存储和管理。

(2) 共享管理层

通过对集中元数据和分散数据资源一体化管理、对所有分布式服务器上的数据提供一站式查询检索服务, 在确认用户对特定数据使用授权的条件下, 支持对数据进行远程存取。对GIS地图和影像数据可进行在线格式和投影转换, 用户可以按需要的格式远程取得空间数据。图2为空间数据共享管理系统结构示意图。

(3) 应用层

环境科学的各类应用系统, 在数据提交者对数据已作出授权的情况下, 另一部门数据可共享使用整个系统数据层的全部或部分数据资源。用户既可使用客户端软件 (或者基于IE浏览器) 远程查询并下载所需数据到本地机后, 再通过专业系统进行显示和处理分析;也可以将各应用系统通过应用程序接口, 与共享管理层进行集成, 直接远程共享使用数据层的分布式数据资源。

3 元数据的设计与应用

3.1 元数据的概念与作用

元数据即“说明数据的数据”, 是关于数据和信息资源的描述性信息。它不仅具有按一定标准、格式组织数据, 便于管理、查询、检索的功能, 而且保存了数据的获取时间、更新日期、质量、格式等等信息, 使人们能有效地评价、比较和操作数据, 为数据共享、异构数据的远程访问提供了基础。它屏蔽了数据存储与管理的细节, 数据的使用者只需了解元数据库中的信息就可以完全掌握数据库中的数据情况。随着Internet和Web的迅速发展, 元数据技术逐渐成为异构信息共享与互操作的核心与基础, 成为分布式信息计算的核心技术之一[2]。

信息元数据是信息数据的相关数据的描述性信息。用于描述数据集的内容、质量、表示方式、空间参照系、管理方式以及数据集的其它特征, 是实现空间数据集共享的核心内容之一。

空间元数据的主要作用有[4]:

(1) 确定一套空间数据的存在性及其位置。

(2) 确定一套空间数据的质量、对某种应用的适应性。

(3) 确定获取一套空间数据的手段。

(4) 确定成功地转换一套空间数据的方法和途径。

(5) 确定一套空间数据的存储与表达方法。

(6) 确定一套空间数据的使用方法等。

3.2 元数据的标准

信息元数据必须标准化, 才能真正发挥其支持数据检索、共享与互操作的功能。目前世界上己有一些元数据标准, 其中最主要的有美国联邦数据委员会 (FGDC) 的数字地理空间元数据内容标准 (CSDGM) , 欧洲标准化组织 (CEN/TC287) 的元数据标准和国际标准化组织 (ISO/TC211) 的元数据标准。

3.3 元数据的设计

信息元数据的设计包含两方面的内容:一是纵向描述数据的组织结构;二是横向描述数据的内容。设计的目标是简洁、准确、完备地描述地理信息数据库中的数据, 提供高效的管理和查询机制, 根据要求设计以下元数据库。

信息数据的内容、数据中所包含的信息决定着数据的描述方式, 信息数据按格式与显示表现形式可分为文档数据、遥感影像、矢量地图、栅格地图。它们所包含的信息是不同的。所以, 可将元数据分成影像元数据。矢量信息元数据、栅格信息元数据不同元数据的格式是不同的, 应分别设计。

参考国际上己有的元数据标准, 并结合我国信息数据的特点和己制定的格式标准, 确定元数据的描述内容应包括[3]:

(1) 标识信息 (类型标识、内容摘要) 。

(2) 精度信息 (精度等级、比例尺、分辨率等) 。

(3) 空间参照系信息 (坐标系类型) 。

(4) 范围信息 (大地坐标范围、经纬度范围)

(5) 数据存储信息 (数据量、存储路径) 。

(6) 其它信息六类。

根据某省环境科学研究院的具体要求, 和本文对研究院内部的数据调查的结果, 本文对元数据库的建设做了如下的分类:

(1) 研究报告元数据库。

(2) 政府公文元数据库。

(3) 档案元数据库。

(4) 法律法规元数据库。

(5) 一般文档元数据库。

(6) GIS数据元数据库。

(7) 遥感影像元数据库。

(8) 栅格影像元数据库。

(9) CAD数据元数据库。

文档数据 ( (1) - (5) ) 的元数据项 (条目) 一般应包括: 文档代号, 文挡名称, 主题词 (关键词) , 文档类别, 项目名称, 作者姓名, 作者部门或单位, 联络方法, 保密级别, 发布时间, 最后修改时间, 版本号, 内容摘要, 注释或注意事项等。

GIS元数据应为: 地图代号, 地图名称, 主题词 (关键词) , 地图类别, 项目名称, 制作部门或单位, 联络方法, 数字化员姓名, 数字化部门或单位, 保密级别, 制作时间, 最后修改时间, 数字化时间, 版本号, 内容摘要, 注释或注意事项等。还应参考FGDC元数据标准, 增加空间元数据内容, 例如: 位置, 范围, 投影坐标系, 比例尺, 精度等条目。

遥感元数据应为: 影像代号, 影像名称, 主题词 (关键词) , 影像类别, 遥感平台类别, 卫星名称, 传感器名称, 光谱类型, 通道号, 像元分辨率, 影像尺寸, 项目名称, 订购者姓名, 订购者部门或单位, 联络方法, 数据获取部门或单位, 联络方法, 保密级别, 数据获取时间, 内容摘要, 注释或注意事项等。也应包含空间元数据内容, 如: 位置, 范围, 投影坐标系等条目。

3.4 元数据的组织

上文所述是任一站点上地理信息元数据的组织与设计。地理信息是分散分布在各地的, 它们的元数据库相应地分散分布在各个站点上。必须把这些分散分布的元数据库组起来, 才能提供一个完整的、全局的查询[1]。信息元数据库就是信息元数据的总和。其元数据项是按上节的元数据设计方案设计的信息元数据。区域元数据库是该区域范围内所有元数据库的总结。其中的元数据项就是该区域范围内的某个元数据库的地理位置、网络地址、内容摘要。全局元数据库是一批区域级元数据库的总结。其元数据项是区域级元数据库的地理位置、网络地址、内容摘要信息。它是基于元数据的地理信息查询的最高级索引, 是地理信息查找的总入口点。

所以在这个项目中首先把数据进行调查, 建立相映的元数据库, 在把数据统一的组织起来, 进行统一的上载, 组建起信息快速查询检索网络系统。

4 结束语

针对空间数据的分散性特点, 通过元数据服务器对分散的空间数据进行集中描述, 通过共享管理层对分散数据资源一体化管理、对所有分布式服务器上的数据提供一站式查询检索服务, 本文提出的分布式空间数据共享模型解决了异地空间数据的共享问题, 在此基础上今后将对空间数据异构性进一步进行研究应用。

参考文献

[1]王卷乐.地学数据共享中的元数据标准结构分析与设计[J].地理与地理信息科学, 2005, 25 (1) :16-21.

[2]常原飞, 王伟.城市基础地理信息集成的元数据平台开发[J].遥感学报, 2003 (6) :1-3.

[3]温永宁.基于Web服务的分布式空间数据共享模型[J].计算机工程, 2005, 31 (6) :25-26.

空间数据 篇8

数据流 (data stream) 应用的出现引起了国内外专家和学者的关注, 数据流管理技术作为一种新兴的技术已经被广泛的研究, 目前通用的DSMS (data stream management system) 包括Telegraph CQ[1], Aurora[2]和STREAM[3]。

数据流的查询过程是持续的查询 (continuous query) [4], 持续查询所关心的并不是全部的数据, 而是近期最近到达的部分数据, 所以数据流中的持续查询采用滑动窗口 (moving window) 机制, 基于滑动窗口的查询。

本文基于通用流数据库[5,6], 构建一个空间数据流系统模型。在此过程中, 借鉴交通导航应用开展工作。这里的空间流数据库模型系统的主要工作仅包括增加空间数据类型、空间滑动窗口和空间谓词, 为了实现简单易懂的空间连续查询语言, 本文在设计时, 尽量和原有的空间数据库查询语言和连续查询语言做到统一。本文依据标准SQL和CQL设计空间数据类型和空间谓词, 并参考OGIS标准, 尽量不修改原有查询语言的结构, 采用通用的空间数据类型表示方法, 通过增加通用的关键词的方式, 扩展连续查询查询语言。

2 空间数据类型扩展

我们考虑交通导航LBS (Location Based Service) 应用, 在这种应用中, 需要知道移动对象前方道路的交通状况, 根据交通状况选择合适的运行路线。假定每个移动对象每隔30秒向导航服务中心报告移动对象当前的速度和位置信息。前方的交通状况由运行在前方的一定范围的移动对象数量和这些移动对象的平均速度来决定, 数量多并且平均速度小于40km/h就表示交通状况差, 否则交通状况良好。随着移动汽车位置的改变, 其维持的空间查询窗口也在不断的改变位置, 如果设计一种空间滑动窗口, 使之能够随着移动对象的改变而改变, 就可以解决这个问题。

根据例子应用的需要, 拟增加的空间数据类型有Poin和SSwin两种。Point用来表示一个移动对象, 而SSwin用来表示一个空间滑动窗口。

(1) Point[x:float, y:float], 在这里Point表示某个移动对象, 它的值为移动对象的二维空间坐标;

(2) SSwin[Point1, Point2], 表示某一空间滑动窗口, 为了简化问题, 此处的SSwin, 仅表示一个矩形的空间滑动窗口, 由两个Point标识。

3 增加空间滑动窗口查询函数

为了支持空间查询, 需要增加空间谓词和空间函数, 本文需要增加空间函数Inside, 用来判断空间移动物体是否在空间滑动窗口内。

(1) Inside (Obj, SSwin)

这里的SSwin表示空间滑动窗口, Obj表示移动对象位置, 此运算符的结果为整型, 当Obj在SSwin的内部时, 其值为0, 否则, 返回值为1。

(2) 空间滑动窗口的连续查询

通过以上增加了空间数据类型和空间谓词以后, 流数据库可以支持空间滑动窗口的连续查询。粗体字部分表示本文增加的空间谓词:

4 空间滑动窗口查询的实现

本文的空间流数据库模型的实现工作是基于STREAM流数据库管理系统, 通过修改此系统的代码, 实现空间流数据库系统。此系统是斯坦福大学开发的一个的通用的流数据管理模型。此数据库管理系统模型是开放源代码的。它能够处理对多个连续的数据流和存储关系的连续查询。它提供大量的复杂流查询, 用来处理高容量和高突发性的数据流。它提供丰富的连续查询语言, 有良好的交互操作界面。

本文的实现是要在流数据库管理系统的基础上进行扩展, 虽然仅是对原有系统的扩展, 但是需要做的工作仍然涉及到整个数据库管理设计的全过程。一个数据库管理系统的设计包括一系列的阶段, 一般遵循以下的顺序。同时以下这些步骤也是实现此空间流数据库的过程中, 主要的工作:

(1) 生成词法分析树:由抽象的查询语言生成词法分析树, 这个过程是数据流管理系统实现的最初阶段。根据上节定义的空间连续查询语法, 在本文的空间数据流系统中, 用Yacc生成查询语言的语法分析树。

(2) 语义分析:对词法分析树进行语义分析, 将词法分析树转换为系统能够识别的内部表示。这一步生成的语义表示仍然不是一个操作符树。这个过程的设计主要是将空间数据类型和空间谓词转换为系统能够识别的形式, 具体的实现类似于算术表达式的语义转换。

(3) 生成逻辑计划:将查询的内部表示转换为逻辑查询计划。逻辑查询计划由逻辑操作符组成。逻辑操作符大多是关系代数操作符 (比如选择、投影、连接等) , 当然也有一些连续查询特有的操作符 (比如滑动窗口操作符) 。逻辑操作符不需要和查询执行中的操作符有关, 它仅仅是一种关系代数的抽象表示。

(4) 生成物理计划:将逻辑查询计划转换为物理查询计划。物理查询计划中的操作符是直接和在查询执行期间执行的操作符相关的。之所以要生成一个单独的逻辑查询计划, 是因为逻辑查询计划更加容易生成, 而物理查询计划涉及到底层细节。

(5) 查询执行:组织存储空间的分配, 物理操作符的执行等。

5 实验

5.1 LBS运动模型

构造如图1所示的导航应用, 移动汽车每30秒向导航中心报告当前位置信息和行驶速度并且进行空间滑动窗口的聚集查询, 这里我们主要涉及count和avg聚集查询, 分别计算滑动窗口内汽车数量和平均速度。移动汽车根据查询结果了解前方路况, 以起到交通导航的作用。

5.2 输入设计

(1) Mov Car

Mov Car的结构如表1所示。

(2) Spa Sli Window

空间滑动窗口 (Spa Sli Window) 数据流, 该数据流包含空间滑动窗口标志信息和空间滑动窗口位置信息如表2所示。

5.3 空间滑动窗口查询设计

上一节中构造了两个输入数据流, 分别模拟移动汽车信息数据流和空间滑动窗口数据流, 下面编写空间滑动窗口查询的脚本语言, 该查询脚本基于前面分析的简单的交通导航应用以CQL (持续查询语言) 编写, 脚本文件如图2所示。

5.4 结果输出

注册了输入数据流, 并且定义了空间滑动窗口查询之后, 经过我们设计的空间流数据库模型的处理得出图3和图4所示的结果。图3所示导航查询结果, 可以看出, 在61时刻的滑动窗口3内有6辆移动汽车, 汽车平均速度为34.1667km/h, 小于40km/h, 满足查询条件, 由此汽车A得知此刻前方路段交通状况差, 可以采取积极的应对措施, 绕过此拥挤的路段。图4所示每个查询时刻对应空间滑动窗口内的汽车信息, 可以看出, 1时刻的空间滑动窗口内有移动汽车A、B、C、D、E, 31时刻的空间滑动窗口内有移动汽车A、B、C、D, 61时刻的空间滑动窗口内有移动汽车A、B、C、D、E、F, 91时刻的空间滑动窗口内有移动汽车A、B、C, 121时刻的空间滑动窗口内有移动汽车A、C。

6 小结

本文结合交通导航应用对数据流系统进行空间扩展, 扩展了空间点和空间滑动窗口, 及基于空间滑动窗口的查询操作, 并依据数据库的设计步骤, 实现了空间数据流系统。以导航应用为例, 构造了一个基于空间滑动窗口的运动模型, 通过试验分析, 输出的结果均符合我们设计的运动模型。

摘要:数据流系统以连续查询为特点, 连续查询的处理机制能够保证数据处理做到实时处理。但是现有的通用的数据流系统没有对空间数据处理的支持, 而基于位置服务显然是一种需要空间数据处理的应用。本文从支持位置服务的后台数据处理出发, 提出用基于数据流系统的流数据库来支持基于位置服务的数据处理的思想, 并结合当今数据流系统的发展和基于位置的服务的需求, 对数据流系统进行空间扩展, 提出一种空间数据流系统的模型。

关键词:数据流,空间连续查询,LBS

参考文献

[1]Sirish C, Owen C, Amol D, Michael JF, Joseph MH, Wei H, Sailesh K, Samuel RM, Fred R, Mehul AS.TelegraphCQ:Continuous dataflow processing[R].In:Alon YH, ed.Proc.of the2003ACM SIGMOD Int’l Conf.on Management of Data.New York:ACM Press, 2003.668—668.

[2]Daniel JA, Don C, Ugur C, Mitch C, Christian C, Sangdon L, Michael S, Nestime T, Stan Z.Aurora:A new model and architecture for data stream management[J].The Int’l Journal on Very Large Data Bases, 2003, 12 (2) :120—139.

[3]A.Arasu, B.Babcock, S.Babu, M.Datar, K.Ito, I.Nishizawa, J.Rosenstein, and J.Widom.STREAM:The stanford stream data manager[J].IEEE Data Engineering Bulletin, 2003, 26 (1) :19—26.

[4]Shivanath B, Jennifer W.Continuous queries over data streams[J].SIGMOD Record, 2001, 30 (3) :109—120.

[5]姜芳艽.DBMS与DSMS的比较研究.微计算机信息, 2007.2, 3:33-36.

基于栅格数据的空间聚类 篇9

空间聚类是GIS空间分析的主要内容之一,近几年来,随着空间数据挖掘研究的发展,空间聚类对于海量数据处理、大型空间数据库中有用信息和知识的提取等方面具有十分重要的意义。传统观念上,由于矢量数据模型对于现实世界中的抽象描述与表达更符合人的思维习惯,其分析方法自然采用了矢量途径,而对于栅格途径相应的研究及成果却少见;所见的国外文献中,大多限于栅格途径“可行性”的研究,没有对其进行系统、深入的探讨。

传统的空间聚类算法都是基于矢量数据的,矢量空间分析方法具有简单、易操作的特点,但同时存在数据冗余、难以向高维和全形态扩展的缺点,为此本文着重于介绍基于栅格距离变换的空间聚类算法及其在各个领域的应用。

2 基于栅格的空间聚类算法

从空间聚类的算法过程来看,可以分为系统聚类、逐步分解和判别聚类。系统聚类由各点自成一类开始,逐步合并至一个适当的分类数目。与此相反,则为逐步分解。判别聚类是先确定若干聚类中心,然后逐点比较以确定各离散点的归属。从一般聚类的算法特征上看,目前主要有划分法(如K-means、K-medoids等)、层次法(如AGNES、BIRCH_l等)、基于密度的方法(如DBSCAN、DENCLUE等)和基于网格的方法(如STING等)。常用的空间聚类分析统计量有分布密度、相关系数、夹角余弦、指数相似系数、欧氏距离、绝对值距离、切比雪夫距离、兰氏距离、马氏距离、斜交空间距离、非参数方法等l0余种,尤以最短欧氏距离最为常用。本文就简单介绍基于最短欧式聚类的空间聚类栅格算法。

地图代数以栅格点集严密的量度作为其理论和方法论述的起点,来度量空间距离。其距离变换的核心是建立栅格平方平面,坐标值在栅格平面上均为整数,距离值与横纵坐标的平方和为一一映射关系,由于欧式距离需要开平方,为了增加计算精度,用距离平方值代替距离值参与运算。设距离平方值记为Sq D,每个栅格单元的Sq D值需要根据周同的8领域栅格单元的Sq D来判断。这8个栅格单元的Sq D值按图3依次标记为Sq D1,Sq D:,…,Sq D8。

据此其变换的步骤为:

(1)赋所有实体点为0值,并赋所有非实体空间点为一足够大的正数M;(2)顺序访问,即行号由0,l,2,…递增,列号由0,l,2,…递增,按下式改写各点平方值:Sq D(0,0)=0,Sq D(i,j)=MIN(Sq Dl(i,J),Sq D2(i,j),Sq D3(i,j),Sq D4(i,j),Sq D(i,j));(3)逆序访问并改写各点平方值:Sq D(i,j)=MIN(Sqi)5(i,j),Sq D6(i,j),Sq D7(i,j),Sq D8(i,j),Sq D(i,j));(4)改写各点距离平方值为距离值:c(i,j)=INT{[Sq D(i,j)]+0.5}。

经过地图代数栅格距离变换后的整个栅格空间被颜色不同的象素所填充,我们将其称为距离波,用黑线将那些色度值相同的栅格连接起来就构成了等距线。这些等距线与空间点集之间的关系就可以揭示空间聚类过程。经计算过后,各计算点被从最小距离到最大距离之间的间隔为1的等距线包围,然后就可以根据不同的条件(等距线数值)聚类。

3 与其他算法的结合

空间聚类(Spatial Clustering)是空间数据挖掘的重要组成部分,是聚类研究在空间数据分析中的应用.空间聚类应用广泛,如地理信息系统、生态环境、军事、市场分析等领域。通过空间聚类可以从空间数据集中发现隐含的信息或知识,包括空间实体聚集趋势、分布规律和发展变化趋势等。

3.1 研究现状

目前国内外对聚类挖掘算法的研究众多,其中基于网格的聚类算法和基于密度的聚类算法成为聚类算法中最重要的两种方法。

基于网格的聚类方法主要采用网格技术对空间进行划分,以单一的网格对象作为聚类处理目标,忽略其内部的所有数据属性。这样处理的一个突出优点就是速度快、聚类效率高。但是利用网格技术存在的最大问题是没有涉及聚类边界点的处理,可能造成聚类边界对象的丢失,导致聚类精度的降低。

而基于密度的聚类方法是将簇视为对象空间中被低密度区域分割开的高密度对象区域。此方法主要的优点就是可以发现任意形状的类簇,但是对主存要求较高,主要由于在密度聚类过程中对每一个对象必须与其他对象求解其距离。因此,合理地设计出质量精确和时间效率高的聚类算法,成为数据挖掘领域迫切需要解决的问题,也是一个难点问题。

3.2 算法结合

虽然基于栅格的本身隐含了拓扑关系这种特性,避免了很多情况下矢量数据初始化大量的工作,但是现在处理数据还是以矢量较多。我们可以将栅格聚类融于网格聚类和密度聚类中,进一步简化算法。

以密度聚类为例,栅格单元进行局部密度聚类后,生成的局部聚簇,需将原本属于一类的两个不同分区局部聚簇进行聚簇合并。该算法将对每一个栅格单位进行密度聚类,这样对栅格单元中的小数据集进行聚类,大大提高了聚类效率。如果每个栅格单元都进行密度聚类,那么将大大增加聚类时间。因此,引入概念密度阈值DT来计算栅格空间中的密度大小,并衡量是否需要进一步DBSCAN密度聚类。设d维空间的点集P={p1,p2,…,pn},当数据对象pi划分到栅格单元G时,设置一个阈值minpts,若划分到某一栅格单元中的数据量大于或等于minpts,则是高密度栅格单元;反之,则是低密度栅格单元。这个minpts称为密度阈值DT。如果栅格单元中的数据量小于密度阈值时,那么将不进行DBSCAN聚类分析,并将数据对象标记为全局噪声点,这样无须对小数据集进行密度聚类,大大减少了聚类时间,从而降低时间复杂度;反之,若栅格单元中的数据量大于密度阈值时,那么将用DBSCAN对栅格空间进行聚类分析。而实验结果也表明融入栅格技术可以使密度聚类算法获得更高的聚类效率,保留DBSCAN密度聚类算法,可以保证聚类结果的一致性。

4 结束语

空间聚类分析是从总体、全局的角度来描述空间变量和空间物体的特性,在空间数据量日益海量化的现代GIS中,简单、直观进行空间聚类分析具有重要的意义。地图代数以点集变换与运算的代数观念来全面而本质地阐述图形符号的可视化及空间分析。本文只是对栅格数据的空间聚类算法进行初步的介绍,提出将栅格聚类与其他聚类方法融合的思路,寻求优势互补,提高计算的精确度和成功率。

密度聚类的网格聚类的基本单元都可视为点,这为算法互补提供了基础,而栅格距离变换后的特征点、线蕴藏着更深的空间关系,有待进一步地发掘。

参考文献

[1]耿协鹏,胡鹏.基于最短欧式距离的空间点集聚类的栅格算法[J].测绘科学,2008,33(3):35-37.

[2]柳盛,吉根林.空间聚类技术研究综述[J].南京师范大学学报(工程技术版),2010,10(2):57-62.

[3]郭金来,胡鹏.网络最短路径的地图代数栅格算法[J].测绘科学,2007,32(1):109-111.

[4]熊仕勇.一种新型的基于密度和栅格的聚类算法[J].计算机应用研究,2011,28(5):1721-1724.

[5]胡鹏,游涟,杨传勇.地图代数[M].武汉:武汉大学出版社,2001:117—136.

[6]杨帆,米红.一种基于网格的空间聚类方法在区域划分中的应用[J].测绘科学,2007,suppl:66-69.

[4]丁丽萍.Android操作系统的安全性分析[J].信息网络安全,2012,(03):23-26.

基于多源空间数据融合技术分析 篇10

随着社会经济的快速发展以及现代科学技术的不断进步,遥感技术、地理信息系统和卫星定位技术因其数据检测精度高、更新速度快等优势,被广泛应用于现代工业、建筑工程、城市规划等领域。由于不同部门涉及的地理信息以及相关数据种类不同,其数据信息处理的方式亦不同。比如卫星图像、海图以及其他各种类型的地图采集的数据几何位置不同、数据模型标准不同,这就需要探索一项可以跨越时间领域和空间领域的数据融合技术,结合来自不同空间数据模型处理的数据的差异性,达到加快信息更新速度和提高信息处理效率的目的[1]。

1 空间数据融合的概念

数据融合的概念产生于20世纪70年代,但是直接促使其发展是进入20世纪90年代以后。就数据融合的概念界定还没有达成统一的看法。数据融合技术最初被应用于军事,为军事活动所服务。但是随着社会经济的快速发展以及现代科学技术的进步,数据融合技术逐渐被广泛运用于农业、工业、地质分析、城市规划等各个领域。

数据融合作为一种数据综合和处理技术,是建立在各种传统学科和技术基础之上,是一种集成技术[2]。从广义角度看,数据融合技术包括通信技术、决策论、计算机科学、神经网络等。由此可见,数据融合涵盖的内容较多,无法对其进行一个统一的定义。一些权威部门是这样进行界定的:美国国防部认为数据融合的过程就是各种学科、各种技术相互融合的过程,从而实现数据技术的现代化、自动化。在相互融合过程中,数据融合技术可以对各个领域的信息进行有效处理、检测。Mandolins则认为数据融合只是作为一门简单的技术,作为处理庞大数据的工具,从而达到提高数据处理的效率这一目的。有些部门则把数据融合称之为信息融合。信息融合是指对以计算机作为主要工具,将来自传感器的探测信息按照一定的时序和准则进行分析与处理。这是一种对多种信息进行不断融合、协调的过程。数据融合技术的实质就是对各种信息进行综合处理。Wald在1998年采用了一个更加普遍的定义,即数据融合是形式上的框架。在框架下,要想在规定时间内将各种数据信息进行综合处理,就需要借助现代化、自动化的工具,采用科学有效的融合方式,实现提升数据融合效率和数据处理结果的精确性[3,4]。这一界定的优点在于:一是它强调了数据融合技术不再是一个简单的工具或者处理信息的方法,而是一个框架结构。二是这个界定注重强调数据融合效率和结果的精确性。

结合空间数据的特点,可以认为空间数据融合实际上是指:将不同来源的数据信息,对其进行归类处理。根据数据的类型选择合适的处理方式,进而达到改善物体几何精度这一效果,促使提高数据质量的实现。

2 多源空间数据融合技术

2.1 数据融合的层次

空间数据的来源不同,其融合方式不同。这就决定了融合层次的多样性和层次性。融合层次主要包括象素融合、决策融合和特征融合三层次。象素融合可以采取图像分析以及多源图象符合技术实现数据的融合。特征融合可以直接反映出数据的综合特征,为决策者提供科学化、专业化的决策信息。决策融合是一种相对高级的融合方式,它不仅可以帮助决策者提供完整的图象信息,还可以对来源不同的数据进行识别、分类和检测[5,6]。三者之间的差异性如表1所示。

2.2 矢量数据融合技术

矢量数据融合是采用地理数据转换方法,构建科学化、专业化的数据模型,在这个模型中对来源不同的数据进行分类分级,实现几何位置的融合,达到丰富数据属性的目的。换而言之,这是一种去伪求真、去粗求精的数据处理过程。

矢量数据融合的最终目的是消除以下差异:

第一,数据模型的构建是将不同来源的数据进行综合处理、几何位置的融合。但是采用不同的融合方法其产生的要素属性会存在差异性。

第二,来自不同空间数据模型处理的数据会存在描述上的差异。

第三,来自不同空间数据模型处理的数据会存在几何位置上的差异。

矢量数据融合的研究内容主要包括:融合规则、数据模型的构建、分类不同来源的空间数据、融合方法分析。

首先,融合规定的制定。分析数据和处理数据的前提条件是提取数据,提取数据之后才可以从模型中得出要素。比如行政区划可以从比例为1 250 000的图中提取,道路可以从比例为110 000的图中提取。对于相同比例尺的地形图和海图而言,需要对沿海地带的陆、海部分进行表示。地形图和海图的结合部是岸线和滩涂。需要在模型中注重表示这两种图。但是由于这两种图获取的数据几何位置不同,在不同空间数据模型处理中会存在很大的差异性。相对而言,地形图要更加详细。因此在融合数据时,注重提取地形图数据。

其次,制定具有层次化的矛盾处理原则。可以参考精度高精度航片和卫片,从而提高几何位置的精确性。在没有参考资料可以参考时,可以制定移动原则。属性数据可以通过网上查找方式提取。

2.3 栅格数据融合技术

栅格数据融合的表现形式有:地图图象、遥感影像数据。其融合阶段可以分为以下几个阶段:

第一阶段,图象融合。主要是针对图象通道,利用算术方法实现。比如色彩变换法(主要针对象素级融合)、调制法、统计法、代数法、分辨法等。这些方法较为简单,操作起来较为容易,因此被广泛运用于工业、制造业等各个领域。

第二阶段,20世纪80年代,模型的构建。塔式算法的基本思路是:分解原始图像—融合图像—通过塔式反变换获得融合图像。

第三阶段,90年代以后,小波变换应用到图像融合领域。在这一时期,塔式算法逐渐被小波多尺度分析法代替。多尺度分析法是一种介于函数和频率之间的数据融合结果的表达方式。无论是在时间领域还是在空间领域,都具有良好的局部化性质。能够同时将不同数据层分解成多个独立的空间信号,同时又不与时间部分重叠,又可以帮助决策者及时找到原信息的几何位置,从而找到正交基。

3 多元空间数据融合应用

3.1 遥感图形

遥感图像之间的融合包括传感器数据融合、不同时相遥感数据融合。来源于不同遥感器的数据特点不同,其几何位置不同,这样借助数据的多样性和差异性提高图像分析的分辨率。比如将TM与SPOT遥感数据进行有机结合,不仅可以提高图像信息的处理效率,还可以促使光谱信息的多元化发展。而不同时相的遥感数据融合对于提高工程实时监控效率具有重要的推动作用。比如洪水检测、气象检测等等。

3.2 地图图像

地图图像具有精度高、更新速度快等特点,但是也存在更新费用高的弊端。专题地图是指在一个模型中构建一个以“地图”为主体的地图内容。比如有关于城市旅游的“专题地图”、城市规划“专题地图”等。但是专题地图相较于地形地图而言,其精度不高。这就需要将两者进行有机融合,达到提高数据精确度和降低地形图更新费用的目的。

3.3 遥感图像与地形图像

遥感技术可以快速在不同数据模型中提取需要的数据信息,其数据检测的准确度高、定位较为准确。地形图虽然精度高,但是数据更新的费用较多、数据更新的速度快。将遥感图像与地形图象进行有机结合,可以有效避免两者的缺陷,实现优势互补。可以利用同一地区的地形图将遥感图像纠正为正射影像,再用以更新地形图。

4 结语

多源数据融合技术的发展与进步需要以现代科学技术、数据标准化作为基石,以计算机作为数据处理的主要工具,达到逐渐消除来自不同空间数据模型处理的数据差异性目的。当然,数据共享的标准化推广、数据模型的构建、地形图像与遥感图像之间的有机融合,都需要数据操作技术的支撑,将数据操作技术的原理和方法引进多源空间数据融合技术领域,进一步推动我国数据融合技术的发展与进步。所以,对于相关工作者而言,必须要认清这些技术的关键所在,在日常的工作中加强研究,推动多源数据融合发展。

摘要:文章主要以空间数据融合概念作为出发点,分析了多源空间数据融合技术,并探讨了空间数据融合技术的具体应用,以期为降低处理数据成本、提高数据处理效率提供一些参考和意见。

关键词:多源数据,空间数据,融合技术

参考文献

[1]刁明光,薛涛,李建存,等.基于地质信息元数据标准的多源空间数据管理系统[J].国土资源遥感,2013(1):165-170.

[2]朱蕊,邱茂,胡英男.面向空间数据更新的多源数据融合关键技术研究[J].测绘工程,2013(4):22-25.

[3]陈换新,孙群,肖计划.空间数据融合技术在空间数据生产及更新中的应用[J].武汉大学学报(信息科学版),2014(1):117-122.

[4]朱靖,栾学晨.面向导航电子地图制作的多源地理空间数据融合技术[J].地理空间信息,2014(4):147-149.

[5]缪彩练,南建设,郭娜.基于多源数据融合技术的情报侦察系统效能评估体系[J].电讯技术,2012(4):429-434.

空间数据 篇11

关键词空间数据库;数据库设计;空间数据库优化;ArcSDE;GIS;供水管网

中图分类号TP3文献标识码A文章编号1673-9671-(2011)042-0111-02

空间数据库在GIS项目中发挥着核心的作用,集中表现在:用户在决策过程中,通过访问空间数据库获得空间数据,在决策过程完成后再将决策结果存储到空间数据库中。可见,空间数据库的布局和存储能力对GIS功能的实现和工作的效率影响极大。如何有效地组织并管理空间数据,建立更有效的空间数据模型,一直是GIS领域的主要研究方向。本文针对ArcSDE for Oracle的供水管网空间数据库的设计进行了论述,说明如何设计空间数据库及如何优化空间数据库。

1ArcSDE的空间数据模型

1)地理数据库(Geodatabase)。ArcGIS地理数据库(Geodatabase)是ESRI公司在ArcGIS 8版本引入的一个全新的空间数据模型,是建立在关系型数据库管理信息系统之上的统一的、智能化的空间数据库。它是在新的一体化数据存储技术的基础上发展起来的新数据模型。实现了Geodatabase之前所有空间数据模型都无法完成的数据统一管理,即在一个公共模型框架下对GIS通常所处理和表达的地理空间特征如矢量、栅格、TIN、网络、地址进行同一描述。同时,Geodatabase是面向对象的地理数据模型,其地理空间特征的表达较之以往的模型更接近我们对现实事物对象的认识和表达。

2)Geodatabase的空间数据模型。Geodatabase事实上是很多Geographic Dataset的集合,最基本的Dataset的类型包括Feature Classes、Raster Dataset、Attribute Tables。在以上基本要素的基础上,还能定义Geodatabase的Schema、数据的完整性、规则和行为,包括Spatial Reference、Spatial Resolution、Topology、Network、Domain等等。在创建Geodatabase时,首先生成不同的Dataset类型,然后添加或者扩展Geodatabase基本要素的能力,例如添加拓扑、网络、子类以实现GIS行为建模、维护数据完整性以及建立空间关系。

2基于ArcSDE的空间数据库设计

2.1空间数据库的逻辑设计

1)空间数据逻辑划分。空间数据涉及到基础地理数据和专题数据及元数据,结合应用数据状态及业务功能,经过综合分析,将空间数据按照数据类型分为几大类型数据库,每一大类型数据库按照数据内容和数据特点组织成不同的要素集及图层,空间数据库的划分如下:①基础地形数据库。基础地形数据是本系统非常重要的基础数据,是整个系统数据的基础空间位置参照。包括居民地、工矿及附属设施、交通及附属设施、水系及附属设施、地质地貌、植被、境界七大类等。②专题数据库。专题数据是整个应用系统的核心数据图层。在不同的应用中现体的内容各不相同,在供水管网应用上,专题数据体现为:管道、阀门、消火栓、水表、流量计、水质点、排水阀、排气阀、测压点、测流点、堵头、变径、泵站、节点等。③栅格影像数据库。影像数据主要包括:各类现状专题扫描图、航空影像与卫星影像数据等。④元数据库。元数据是用来描述数据的数据,它主要包括对数据集的描述,对各项数据来源、数据所有者以及数据序代(数据生产历史)等的说明。通过元数据可以检索访问数据库,可以有效的利用计算机的系统资源,提高系统的效率。因此,建立有效的元数据储存体系在整个数据库建设中占有重要的位置。

2)逻辑子库的设计。结合业务需求,将空间数据按照数据类型分为四大类型空间数据库,每一大类型空间数据库按照数据内容和数据特点组织成不同的要素集及图层,空间数据库的划分如图1所示。

图1空间数据库的逻辑划分

2.2空间数据库物理设计

数据库的物理设计主要说明空间数据库的存储机制,根据数据格式的不同,具体分为矢量数据的存储和栅格数据的存储。

1)矢量数据的存储。数据库的设计包括物理设计和逻辑设计两个部分。物理层主要是空间数据在存储介质里的储存方式,逻辑层是空间数据在用户或应用中的表现形式。可以说逻辑层是物理层的表现而物理层是逻辑层的基础。对于矢量数据从逻辑的角度来看,数据库的逻辑层次是:数据库→子库→图层→空间实体,而最终反映在SDE中是GEODATABASE→FEATUREDATASET → FEATURECLASS → FEATURE。矢量数据的存储结构如图2所示。

2)栅格数据存储。栅格数据的存储采用影像金字塔存储的机制,对于一个栅格数据子库建立多个栅格目录(Raster Catalog),在每个栅格目录下存储相同格式及相同比例尺的影像数据。栅格数据的存储结构如图3所示。

3空间数据库的优化

系统的性能直接影响到最终用户使用的舒适程度,它主要从两个方面进行调节,即应用软件的运行性能和数据库的性能。对于运行软件的性能优化主要是通过合理的软硬件配置实现的,那么另一方面数据库的性能优化就是本节主要讨论的问题。

影响数据库性能的方面很多,但是归根到底包括两个方面,后台的Oracle和ArcSDE的配置。Oracle方面,不仅包含数据库组件大小定义、存储参数等内容,还包括Oracle实例的初始化参数、Oracle统计信息分析等内容。ArcSDE方面包括DBTUNE存储参数、空间索引、以及统计信息更新等方面。作为建立在后台数据库系统之上的空间数据库引擎,ArcSDE的性能很大程度上取决于Oracle的性能状况,结合我们长期的数据建库经验,归纳为以下几个方面:

1)降低Oracle磁盘I/O。在Oracle系统中,磁盘I/O冲突导致了大多数明显的性能上的瓶颈。除了通过硬件的优化外,问题的解决方法在于平衡文件系统中的磁盘I/O,尽可能将其降至最低,减少进程间I/O等待发生的可能性。

2)ArcSDE的表空间优化。缺省ArcSDE将空间数据和空间索引统一存储在一个表空间中,这样,用户所有的操作将集中在一个表空间上。所以,可以在建库的时候将空间数据和空间所以分离,针对这两个数据库对象(表与索引)建立不同的表空间,并且将这两个表空间分别存储在不同的物理硬盘上,从而降低了数据访问的瓶颈。具体可以通过修ArcSDE所提供的dbtune配制文件完成。

3)ArcSDE的索引优化。为了提高空间查询的性能,ArcSDE采用空间索引的机制,它是一个覆盖整个要素类的两维索引。ArcSDE可以赋予三层空间索引网格,每个网格层都具有自己的格网大小。第一层网格为必需,它的格网尺寸最小;而第二和第三层可选,它们的网格可以通过设置为0使之无效。如果有效,第二层网格大小必须至少比第一层网格大三倍,而第三层网格大小也必须至少比第二层网格大三倍。适当调整空间索引的大小,并定期重建索引对空间查询性能的提高会有很大的帮助。

4结论

由于ArcSDE本身具有海量数据存储、多用户并发访问、版本管理、长事务处理等强大优势,ORACLE是成熟的关系数据库,基于ArcSDE、ORACLE的空间数据库建库技术是实现GIS和DBMS的完美结合。

参考文献

[1]熊丽华,杨峰.基于ArcSDE的空间数据库技术的应用研究.

[2]刘让国,蒲宝明,杜圣东,王守能.基于海量空间数据库的高可用性研究与应用[J].计算机工程.2008,3.

[3]杨熙.供水管网地理信息系统的设计与实现[D].武汉:武汉大学,2008.

作者简介

空间数据库引擎技术研究 篇12

关键词:空间数据库,空间数据库引擎,分布式对象组件

0 引言

伴随着GIS的发展, 用于存储和管理GIS中的空间数据的数据库, 也经历了从文件系统到关系数据库扩展、到面向对象数据库、到对象-关系数据库的演变。在数据库领域, 它也从传统的集中式数据库, 发展到分布式数据库。并且, 异构数据库之间的数据共享也变得非常重要。

空间数据库技术研究是GIS这一跨学科技术的研究热点, 是GIS的底层支撑技术。空间数据库技术的发展, 将极大地推进GIS的向前发展。空间数据库不仅可以应用于GIS领域, 同时还可以用于CAD、超大规模集成电路 (VLSI) 、多媒体、生物学等多个领域。空间数据库同时也是数据库领域的一个研究热点。

1 空间数据库引擎的体系结构

1.1 体系结构现状

空间数据库引擎已经成为GIS中的底层支撑技术, 它是GIS前端访问空间数据库的必经桥梁。随着GIS的发展, 已经出现了多种类型的空间数据引擎。从体系结构上来看, 空间数据库引擎可以分3种体系:两层体系结构、三层体系结构、两层与三层混合结构。而用的最多的是两层结构。

两层结构的SDE将服务端的部分功能转移到客户端上, 使客户端直接与空间数据库交互, 这样结构简单, 减轻了服务器端的负载。但是, 多个客户端同时访问同一空间数据库服务器, 有可能会增加网络拥塞。在两层结构的情况下, 大都需要配置专用数据库的客户端, 安装数据库的客户端会增加客户端的负担, 不适合于瘦客户端的应用, 因而两层结构的SDE从应用角度来讲不是很灵活。

三层结构的SDE将客户端应用和空间数据库隔离开来, 用户访问数据完全通过SDE来访问, 访问过程是透明的。这时, SDE服务完全独立, 可以同时服务多个客户端, 也可以为多个数据库提供连接的入口。目前, ESRI的Arc SDE引擎虽然做到了逻辑上的三层结构, 但是只做到了物理上的两层。它要求SDE服务器与数据库服务器必须位于同一台主机上。因此从物理上看, Arc SDE还是两层结构。

1.2 SDE的工作原理

SDE的工作原理是:SDE客户端发出请求, 由SDE服务器端处理这个请求, 转换成为DBMS能处理的请求事务, 由DBMS处理完相应的请求, SDE服务器端再将处理的结果实时反馈给GIS的客户端。

SDE服务器端同时可以为多个SDE客户端提供并发服务, 关键在于客户端发出的请求的多样性, 可以是读取数据、插入数据、更新数据、删除数据。从功能上看, SDE最常用的功能就是提供空间数据访问和空间查询。

1.3 SDE的发展现状

目前, 国内外大型GIS的空间数据引擎产品的设计和实现各有千秋。主要有下述3种。

(1) ESRI公司的Arc SDE。

目前ESRI公司的Arc SDE已经发展到了9.0版, 它支持目前大多数大型商用数据库, 包含Oracle, IBM的DB2、Informix, 微软的SQL Server。同时还支持个人数据库MDB, 如微软的Access数据库。

在体系结构上, Arc SDE采用了两层与三层相结合的体系, 但是它采用物理上的两层结构, 将SDE服务器与空间数据库服务器绑定在一起, 形成一对一的配置, 一个SDE服务器只能管理与一种关系数据库相联系, 灵活性不够, 不适合SDE服务器管理多个空间数据库的情形, 也不适合多个SDE服务器访问同一个空间数据库的情形。

(2) Map Info公司的Spatial Ware。

目前Spatial Ware可以支持微软的SQL Server以及IBM的Informix数据库, 主要通过ODBC来访问这两种数据库。还支持Oracle数据库, 可以与Oracle数据库集成在一起, 通过Oracle Spatial完成所有的空间分析功能。现在它还没有提供对DB2数据库的支持。在体系机构上, Spatial Ware采用的仍然是两层结构, 将Spatial Ware与数据库绑定在一起。

(3) 国内Super Map公司的XSDE。

目前超图 (Super Map) 的XSDE产品, 提供对Microsoft Access, SQL Server, Oracle等DBMS的支持。XSDE是一个总称, 分别为:SDE引擎、MDB引擎、Oracle引擎。

XSDE目前只支持Windows操作系统, 比较单一。XSDE的体系结构仍然是物理上的两层结构, 服务器端直接与数据库绑定在一起。在空间数据的存储方法上, 除使用Oracle外, XSDE大都采用二进制对象类型来存储空间数据。使用Oracle数据库时, 直接使用Oracle中的空间对象类型来存储空间数据。

2 一种基于Ice的空间数据库引擎体系

采用分布式组件Ice来架构支持异构数据库访问的空间数据库引擎, 可以创建平台无关的空间数据库应用。同时, 因为支持多种编程语言, 并且面向Slice接口, 因而可以大大提高异构系统的互操作能力。

GIS应用按照数据量大小和用户数来分, 可以有简单的小数据量的单机桌面应用, 也可以有局域网内大数据量的甚至海量数据的多用户应用, 还可以有广域网内的多用户海量数据的应用, 针对这些不同层次的应用, 我们提出了一种基于Ice混合层次的空间数据库引擎体系结构。

在图1中, 我们将SDE分为3类, 分别是Personal SDE、Local SDE和Remote SDE。它们一起构成空间数据库引擎的客户端。其中, Personal SDE直接管理本地的Access数据库, 适用于小数量的空间数据库应用;Local SDE则是一种两层的空间数据库引擎, 它支持客户端到Oracle、SQLServer、My SQL以及Access的直接访问, 不需要应用服务器来控制, 适用于局域网内部的GIS应用;Local SDE上直接配置了Oracle、My SQL数据库的客户端库, 基于这几种数据库的底层API实现了一个数据库访问的抽象层, 所有客户端调用都通过这个抽象层的接口来访问后台的几种异构数据库;Remote SDE则是一种三层结构的空间数据库引擎, 它基于Ice总线实现SDE客户端和服务器端之间的通信。Remote SDE客户端提供统一的数据库访问接口, 并对这些接口进行包装, 形成SDE客户端组件, 而SDE服务器则提供具体的远程Ice组件, 实现上述接口, 屏蔽各数据库之间的差异。

Remote SDE采取的是三层的分布式体系结构, 完全基于Ice分布式组件模型来实现。

整个系统由SDE客户端、SDE应用服务器以及后台的各种异构的数据库服务器构成, 是一种分布式服务体系。SDE应用服务器主要负责响应来自SDE客户端的请求。而空间数据管理层则基于统一访问接口实现, 用于空间数据库管理, 包括空间数据的存储、获取、查询和维护等功能。

SDE应用服务器同时也是数据库服务器的客户端, 它通过统一访问接口来访问各异构数据库。统一访问接口则对Oracle的C调用接口OCI、My SQL的底层接口C-API、Oracle的ADO接口、SQLServer的ADO接口、Access的ADO接口进行了统一抽象和封装, 它完全屏蔽了个数据库间的差异, 为空间数据管理层提供了一致的访问。

从系统分层的角度来说, SDE客户端属于系统的应用层, GIS前端应用大多处于这一层, 我们可以将Ice的Slice接口定义生成多种语言的客户端版本。SDE应用服务器属于系统的数据访问服务层, 它的最主要的功能就是为客户端提供空间数据库服务, 支持多个异构数据库的一致访问。而底层的异构数据库, 则联合构成数据库底层, 为系统提供海量的数据服务。

3 结束语

本文首先分析了当前SDE的各种体系结构, 然后重点介绍了一种基于轻量级分布式组件Ice的多层混合的SDE的体系结构, 与其它SDE相比, 这种体系结构具有如下优势:异构数据库支持、跨语言、跨平台以及可扩展性。

参考文献

[1]何雄.空间数据库引擎关键技术研究[D].中国科学院计算技术研究所, 2005.

[2]Michi Henning.Mark Spruiell, Distributed Programming with Ice[2.1.2], 2005.

上一篇:数据集中管理下一篇:移民扶持资金