科学数据共享平台(共10篇)
科学数据共享平台 篇1
0引言
随着计算机和通信技术的发展,计算机网络随之产生, 对数据的需求量日益增长。作为信息时代最基本的科技资源———科学数据,一般指各种社会科技活动中所产生的原始性、基础性数据,以及按照不同需求系统加工后的数据产品和相关信息,它涉及的学科比较广泛,既包括观测、探测、 调查和试验工作中长期积累、经整理编制的海量科学数据, 也包括科技工作者长期研究工作中所产生的大量科学数据[1、2]。然而,这些重要的数据资源散落在不同领域、学科、单位或个人手中,不能实现共享,对地区基础科学的研究和发展形成了严重的制约,并且还存在数据资源重复建设现象,产生了大量的数据冗余。目前,国家数据共享工程建设正如火如荼进行,山西省各地区正在建立自己的科学数据共享机制,在这种大形势下,为了提高现有数据的利用效率,充分发挥其作用,使数据产生者和数据使用者相互合作,进一步提升科学数据的价值尤为必要。
本文科学数据共享平台建设结合山西省大同市实际情况,面向全市需求,统筹规划科学数据库建设,对分散在不同领域的科学数据进行有效管理,实现资源共享,使科学数据在全社会得到广泛传播和应用,进而对科技创新、 经济发展和社会进步起到推动作用。参照中华人民共和国科技部发布的科学数据共享工程技术标准,采用Win- dows2003网络操作系统、SQL Server 2005数据库、J2EE及元数据相关技术[4、5],设计并实现了大同市科学数据共享平台系统。
1系统分析
根据与用户的不断沟通,同时分析系统用例和角色关系,得出系统主用例图关系,如图1所示。系统管理员主要负责用户管理、新闻管理、统计管理等;领域管理员主要负责目录管理、元数据管理;数据管理员主要负责审核、发布数据;普通用户可以进行元数据检索、浏览等。
平台主要分为前台和后台两部分,具体分为元数据汇交、发布数据服务、元数据检索、元数据浏览、用户管理、 目录管理、元数据管理、新闻管理、统计管理等功能模块。
2系统设计
2.1功能模块设计
大同地区科学数据库共享平台分为三大功能模块:数据服务模块、管理模块、其它服务模块。其中,数据服务模块又可以分为数据上传模块、数据检索模块、数据更新模块、数据汇交模块;管理模块分为用户管理权限模块、数据审核模块;其它服务模块分为互动交流模块、通告发布模块。系统功能结构如图2所示。
系统主要功能模块描述如下:
(1)数据服务模块:包括数据上传模块、数据检索模块、数据更新模块、数据汇交模块4个部分。
(2)通告发布模块:用于发布公共新闻信息,便于使用者及时了解平台动态信息。
(3)数据汇交模块:主要用于对已经审核通过的元数据进行汇交,以便统一管理。
(4)数据审核模块:对数据提供者上传的数据进行审核,审核通过数据才能展示给用户,主要考虑信息安全。
本系统采用B/S架构进行系统开发。客户端主要完成目录更新、元数据操作、数据发布、新闻发布等;数据库服务器和备份服务器用来存储用户信息、经过审核确定发布的数据等;整个系统在开放的万维网上运行。
2.2元数据设计
依据数据分类编码及元数据标准[3],制定了大同地区元数据目录。该目录包含一级目录、二级目录和三级目录。其中一级目录有8个,对应大同地区科学数据八大领域。每个领域按数据的类别又划分为若干个子目录。由于篇幅有限,仅以煤炭领域为例展示部分目录和编码。
将煤炭领域分为1个一级类目,16个二级类目,若干个三级类目。一级类目煤炭代码为C,二级类目煤炭科学代码为S,三级类目煤炭资源代码为11,其下属煤炭资源储量代码为11,其又下属煤炭资源储量概况代码为11,南郊区储量代码为12,这样就形成了两个总代码分别为: CS111111和CS111112。其余以此类推进行编码。
2.3数据库设计
系统涉及的数据表主要有Metadata(元数据)、Do- main(领域)、New(新闻)、Admin(管理员)、ContactInfo (联系信息)、MetaDataState (元数据状态)、Ftp(ftp服务)、Http(http服务)、UploadFile(文件服务)、FileState (文件服务状态)、PlatformUser (注册用户)、MetaData- Auditing(元数据审核)等,限于篇幅,只列出管理员表、元数据表如表1、表2所示。
3系统实现
3.1系统前台
系统网站首页如图3所示,主要由用户模块、八大领域数据资源浏览模块和新闻浏览模块组成。数据浏览部分主要包括摘要列表浏览、元数据详细内容浏览两部分。 其中元数据基本信息部分获取的代码如下:
此外,前台所实现的功能还有数据提交、数据检索、新闻浏览等。
3.2系统后台
后台主要由系统管理员和领域管理员来操作,系统管理员登录平台后可以增加、删除领域,同时还进行新闻发布和统计管理;领域管理员主要进行各自领域目录的管理和数据审核工作。其中元数据审核部分代码如下:
系统管理员增加领域部分代码如下:
4结语
平台系统在大同大学图书馆网站进行了链接试运行, 课题组人员收集、整理并录入了数万条数据信息。此外, 与以大同市科技局牵头的多家单位建立了协作关系,以便后期数据的不断更新。
参考文献
[1]科学数据共享工程调研组.实施科学数据共享工程[M].北京:科学出版社,2001:195-322.
[2]程津培.科学数据的共享管理一创建共享新秩序[J].中国基础科学,2003,20(1):156-160..
[3]肖珑等.中文元数据标准框架及其应用[J].大学图书馆学报,2001:967-969.
[4]李峰,刘彦隆.基于SSH框架与jquery技术的Java Web开发应用[J].科技情报开发与经济,2010,20(6):106-109.
[5]赵洋等.基于Structs+Spring+Hibernate的J2EE的架构研究[J].现代电子技术,2009,2(289):107-110.
科学数据共享平台 篇2
陕西省级气象科学数据共享数据库设计与实现
介绍陕西省级气象科学数据共享数据库建设的内容、技术方案、设计参考标准、结构、信息流程等.元数据的基本概念、作用和使用方法.介绍了元数据库的表名,表结构及基于元数据导航的`数据发布;数据实体库设计的基本原则,数据集及数据库表;数据库管理系统的设计及维护.
作 者:夏巧利 陈高峰 邸永强 高宇 作者单位:陕西省气象信息中心,西安,710014刊 名:陕西气象英文刊名:JOURNAL OF SHAANXI METEOROLOGY年,卷(期):“”(2)分类号:P409关键词:气象科学数据 共享数据库 设计开发
共享 体现科学数据价值 篇3
孙九林是我国农业与资源环境信息工程学术带头人之一,一直十分重视地学领域科学数据的开发和共享,长期从事信息科学与国土资源以及农业交叉领域的研究,开拓了“国土资源及农业”信息科学管理应用新领域,主持完成多项国家级重大项目并解决一系列关键技术,为信息科学在资源环境中的应用作出了开拓性贡献,是国家级有突出贡献专家。
共享的意义
自21世纪以来,信息本身也被当作一种资源,甚至是一种比物质资源和能量资源更为重要的战略资源,而数据就是信息的基础。2002年底,在孙九林的倡导和亲自主持下,我国正式启动了“地球系统科学数据共享服务网”的建设。2004年,该网作为国家“科学数据共享工程”首批 9个试点之一被纳入国家科技基础条件平台,属于科学数据共享工程规划中的“基础科学与前沿研究”领域,主要是为地球系统科学的基础研究和学科前沿创新提供科学数据支撑和数据服务,同时也是目前科学数据共享工程中唯一以整合、集成科研院所、高等院校和科学家个人,通过科研活动所产生的分散科学数据和科研项目产生的数据为重点的建设项目。
据了解,国家投资产生的科学数据主要包括两种类型,一是行业部门长期采集和管理的科学数据;二是各类科技计划项目产生的研究型数据。从事科学研究是数据密集型的活动,离不开这些科学数据的支持,它对海量的、多样化的观测、探测、调查和试验数据具有很强的依赖性,对相关领域科学数据的共享有着强烈的需求。
但孙九林介绍,许多非常规的监测、观测数据,特别是研究过程中产生的数据,以及地球系统科学研究所需要的专业数据产品,是不能全部从专业部门获得的,它们还分布在从事地球学科研究的机构和组织、高校、科研院所以及科学家手中。长期以来,获取科研数据难一直是科技工作者反应比较集中的问题之一,很多科学家一直呼吁由国家财政支持的科研项目产生的数据能够实现共享。
“科学数据既是项目研究成果的组成部分,又是科技创新的重要基础,如果不把它们交汇、管理起来,不仅不能充分在共享和流通中发挥其使用价值,也会使一些研究结果无法进行追溯检查和验证,从而削弱国家对科技投入的效益。”孙九林表示。为此,2002年我国实施了“科学数据共享工程”,其目的就在于将这些观测、监测、探测、试验、实验等获得的数据、研究项目的过程与成果数据,以及在这些数据的基础上加工融合产生的多学科、系列化的数据产品进行整合、集成和分享,从而发挥它们的最大价值和效能。
共享的发展
孙九林介绍,发达国家很早就开始注重数据的开放和流动,甚至斥巨资建立许多部门和行业数据中心,为社会公众提供数据共享服务,而且为了满足科学技术发展和国家经济建设的需要,国家不断增加投入获取更多新的数据资源扩大共享活动,促进科技创新和增强国力,而美国就是最好的代表之一。美国政府建设的国家级科学数据中心群和国家级数据信息共享服务网,不但实现了公益性科学数据资源的长期积累,也实现了数据的高效管理与广泛应用。
近年来,倡导数据共享的国际组织也越来越为活跃。例如,国际科学联合会(ICSU)在一系列全球性研究计划的推动下,将原来专门设立的“世界数据中心”(World Data Center,WDC),改名为“世界数据系统”(World Data System,WDS)和“国际科技数据委员会”(Committee on DATA for Science and Technology,CODATA)两大数据组织,主要负责开展科学数据的收集、交换和服务等活动。
国内近几年也加大了数据共享的力度,越来越多的学科和单位都开始注重和开展数据交换及共享的相关工作。更为重要的是,由于我国数据共享工程的建设,给大量依托于行业部门的地学数据的流通和共享提出了“为科学研究服务”的数据产品要求和发展规划。在此背景下,孙九林等科研人员开展了“地球系统科学数据共享网”的研究,“我们希望通过这项研究不仅能够充分利用和分享国内的资源,还能通过镜像、交换、导航等多种手段将国外资源充分利用起来。”孙九林说,通过“地球系统科学数据共享网”的研究,目前我国已同“世界数据系统”(WDS)建立了数据交换和镜像合作。
此外,2002年,我国实施了“科学数据共享工程”,气象、地震、农业、林业、医药卫生等领域的数据已经实现了共享。另外,根据《科学数据共享工程发展规划》,到2020年,科学数据共享工程将实现80%以上公益性、基础性数据资源面向全社会共享,使科学数据资源的积累与共享达到基本满足科技创新和国家发展的需求,提高国家创新能力和竞争力,最大限度地满足国家对科技投入的效益。
孙九林说:“数据共享工程是国家科技基础条件平台建设的主要内容之一,在财政部和科技部的领导和支持下,我国数据共享的状况已经得到了很大改善,同时也得到了社会各界的认可。该工程在讨论立项的最初就得到了众多知名专家的好评和赞同,并一致认为这是一件有百利而无一害的事情。”尽管最初数据共享的理念并不能被大多数人接受,但是经过这几年的发展,现在理解和支持数据共享工程工作的人越来越多。未来虽然还有很长的路要走,但数据共享工程的明天是光明的。
流通才有价值
国家各类科技计划项目每年都会产生大量的研究型科学数据,这些数据既是项目研究成果的组成部分,也是科技创新的重要基础。长期以来,我国科学家在科研中大量依赖国外科学数据,而国内各类科研活动中产生的大量科学数据,由于缺乏数据共享的机制,无法发挥其应有的作用,数据的潜力得不到充分挖掘和利用。孙九林说:“科学数据不仅有科研价值,还有社会价值和经济价值,只有在共享平台上实现数据的共享和流动,数据才能不断升值。”
从2007年开始,科技部在推动气象、地震、医学与健康等行业科研数据共享的同时,开始尝试对科研项目产生的数据进行汇交管理共享的工作,根据“地球系统科学数据共享网”建设的经验,选择973计划资源环境领域项目产生的科学数据进行汇交和共享试点工作,试图把分散在科研人员手中的基础研究项目数据集中起来,通过长期积累建立数据共享中心,目的是让更多的科研人员能够发掘和利用这些科学数据的价值,从而促进我国科学研究水平的提高,使得科研活动的价值得到进一步提升。
孙九林认为:“数据汇交是手段而不是目的,在汇交相关数据的基础上,推动科技创新,提高综合研究的能力才是数据汇交的真正目标。”高质量的数据是保障高质量共享服务的基础,数据汇交中心通过对元数据、数据说明文档和数据实体的审查来保障数据的可靠性;还通过同行专家对项目组预先制定的数据汇交计划进行审核,以此来保障数据的准确性、系统性和科学性。孙九林说:“这是为了提高数据质量而不得以采取的约束性制度。”
据悉,经过一年的调查研究,科技部形成了《国家重点基础研究发展计划(973)资源环境领域项目数据汇交暂行办法》,2008年科技部正式启动了“973计划资源环境领域项目数据交汇工作”,下发了《关于开展国家重点基础研究发展计划资源环境领域项目数据汇交工作的通知》,颁布了形成的“汇交暂行办法”,并在资源环境信息系统国家重点实验室成立“973计划资源环境领域项目数据汇交管理中心”,由孙九林院士担任中心主任。2009年10月,科技部又规定2009年(含)以后参加验收的项目必须先完成数据汇交工作,才能进行项目验收。973计划资源环境领域项目从1998年开始启动,2010年以前结题的29个项目均已完成数据汇交,绝大部分数据提供完全开放共享;2010年以前启动但尚未结题的32个项目均已完成了数据汇交计划的编制。希望在不久的将来,科学家能够把数据汇交与共享视为一种自觉行为,这样才能更好地挖掘科学数据的价值。
保护知识产权
数据一汇交便涉及到科学家的知识产权保护问题,这是数据共享工程中非常重要的一个问题,那么怎样才能既实现科学数据的共享,又能保护科学家的知识产权呢?谈及工作多年对此最深的体会,孙九林表示:“其实科学数据的汇交工作并没有想象中的难以实现,最早我们很担心科学家们不配合工作,但是经过几年的发展,很大一部分科学家都明确支持数据汇交,也愿意将自己的研究数据上交到数据管理中心。”
据了解,科学家们的担心主要有两个方面:首先,文章没发表前,关键数据如何保密?其次,如何保证引用者在引用时都会注明出处?孙九林介绍,他们剖析了NIH数据共享政策和共享规范,同时深入研究了“世界数据系统”的科研项目数据管理,科技部基础司在此基础上结合我国项目数据交汇的现实状况,制定了非常详尽的细则即上述的“汇交暂行办法”,以确保科学家的知识产权得到保护。比如,他们规定数据汇交管理中心工作人员不得从事所负责领域的科学研究。
此外,数据还可以设置保护期,保护期内的项目数据仅供项目和课题承担单位及其授权范围内的用户访问和使用。过保护期后,数据汇交中心以在线、离线等方式分期、分批向全社会提供数据共享服务,用户利用汇交数据所产生的成果需要注明数据来源。另外,有的科学家也提出,最初产生数据的科学家利用这些数据发表了很多文章,之后再利用这些数据的科研人员,不仅要标明数据来源,也要标注已经利用这些数据发表的文章。“标示清楚了就解除了后顾之忧,而标注的形式也都是科学家自己提出的方式。”孙九林说。
记者了解到,虽然数据是免费提供的,但并不是任何人随时随地都可以获得数据。首先使用者要向管理部门提出申请,其次必须写明从事研究的领域和课题,需要的数据类型等,经过审核才能提供相关数据。孙九林坦言:“经过几年的实践,我们已经具备了较完整的技术平台开发和建设能力,而且,我们开发的所有平台软件和工具都具备可移植性和扩展性,在功能体系上,能够满足项目数据汇交用户、数据使用者、数据汇交管理机构三方的要求,在其他领域应用也很方便。”
未来的展望
科学数据共享通过前期的试点,后期在科技部条件平台项目中建设,目前共享的科学数据资源基本涵盖了我国三分之一左右的公益性、基础性科学数据类型,内容涉及自然科学、社会科学与人文科学等学科,它们都是行业部门及科研领域通过巨资投入而产生的。据不完全统计,科学数据共享工程的实施,已经整合盘活共享了超过250亿元的国家投入产生的科学数据资源,并建立了若干数据库,积极开展数据共享服务,为科学研究、政府决策提供了坚实的支撑,效果显著。科学数据共享工程先后为若干 “973”项目、“863”项目、科技支撑项目,以及自然科学基金等重大项目和工程提供基础数据支撑,有力地促进了我国科技创新和社会发展。
自第一个试点——气象科学数据共享工程试点以来,在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作,迄今为止已初具规模。如今,科学数据共享的概念已经在科技界得到广泛认可,形成了良好的共享氛围和服务意识。我国科学数据封闭独享的局面也得到了有效改善,该工程不仅带动了跨行业数据交换工作的发展,也在科技界乃至全国产生了深远的影响。
谈到未来的发展和目标,孙九林表示:“希望能够将科学数据共享工程所形成的管理办法、标准规范、技术平台,包括一些经验和体会,更好地推广到更广泛的领域中去。这也是我们研究这项事业的初衷。”交通部门、人口与健康等领域都想开展科研项目产生的数据汇交管理工作,就目前的形势看,数据共享工程很有发展前景。我们也希望科研项目数据的汇交工作不仅局限于资源环境领域的项目,至少能够逐步使国家财政支持的科学研究项目,都能采取数据汇交的管理办法,使国家投资所产生的数据,能对我国的科学创新作出更多贡献。
科学数据共享平台 篇4
交通运输业是我国国民经济的重要支柱,建国几十年来,我国积累的丰富的交通运输科学数据分散在不同行业、部门、单位甚至个人手中,难以共享,这在相当大程度上制约了科研与生产水平的提高。随着Internet迅猛发展和信息一体化的深入,交通科学数据共享的需求愈来愈强烈,而网络信息无序、多元、异构等特点,给资源的共享和利用带来困难。因此,需要制定和实施一系列准确、规范并且可操作的网络信息资源描述格式及应用系统,改善网络科学数据组织的状况,提高对资源的存取和利用效率。作为“关于数据的数据”,元数据具有良好的层次结构,可以简洁、清晰地描述数据的特征与属性,是网络科学数据资源组织的基础。因此元数据在交通科学数据共享中的应用成为新的研究课题。
1 元数据及其标准
1.1 元数据的涵义
元数据(metadata)一词最早出现于NASA的《目录交换格式》(DIF)手册中。迄今为止,元数据还没有一个公认的定义,学术界比较公认的定义是:元数据是关于数据的数据( data about data)或“描述数据的数据”( data that describes data) 。其主要目的是:为数据生产者提供有效的数据管理和维护的手段,通过元数据提供网上数据查询、检索与交换;使数据的使用者快速、全面、有效地获取数据资源,实现异地、异构数据库系统的数据共享。
1.2 元数据标准
元数据标准的发展情况在国外主要有都柏林核心(DC)、ISO19115、E-GIF、GILS等几个主要标准;国内主要有中国可持续发展信息元数据、NREDIS信息共享元数据内容标准草案、NSII空间元数据标准、国土资源信息核心元数据标准、地质调查元数据内容与格式标准、国家气象局气象数据元数据标准和数据图书馆元数据标准等。国内、外较为成熟的是:
1) 美国都柏林核心元数据标准。最早产生于1995年召开的元数据研讨会上,由OCLC和NCSA联合发起。其最初目的是为了网络资源的著录与挖掘,描述的对象是网络资源,目前已经被翻译成20种语言在各国使用,并于2003年正式被国际认可,发布为ISO15836。它包括15个基本元素,大致可分为3部分:数据资源内容、知识产权与外部属性。
2) 《地理信息元数据》国家标准。《地理信息元数据》国家标准由全国地理信息标准化技术委员会提出,经过国家技术质量监督局批准,1999年底开始由国家基础地理信息中心负责起草。它以ISO19115草案为基础,参考美国FGDC的CSDGM标准,结合中国具体国情制定。此标准定义描述地理信息及其服务所需要的模式,提供有关数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系和分发等信息。
1.3 交通运输科学数据共享元数据内容
《交通运输科学数据共享元数据内容》是在采用或参考国际标准、国外先进和国内的元数据内容标准的基础上,结合本领域科学数据的特点而制定的。其中主要借鉴了ISO19115《地理信息——元数据》和《都柏林核心元数据集》,ISO19115为制定交通运输科学数据共享元数据内容框架提供了重要参考,帮助确定了元数据子集、元数据实体、元数据元素3个元数据层次关系;都柏林核心元数据集提供了制定交通运输科学数据共享核心元数据的思想。将这些成熟思想与交通运输领域科学数据共享的实际情况融合,使得制定的共享元数据标准既具有先进性,又为与国外交通运输领域进行信息、服务交流奠定了元数据内容标准一致性的基础。
交通运输科学数据共享元数据内容包含3个元数据集合:科学数据共享核心元数据、部分科学数据共享公共元数据以及部分科学数据共享参考元数据,这3个元数据集合在内容上有密切的关系,即:共享参考元数据包含共享公共元数据的元数据实体和元素,共享公共元数据包含共享核心元数据的元数据实体和元素。在元数据的内容层次上,共享参考元数据和共享公共元数据有共同的层次结构,而共享核心元数据有自己的内容层级结构。图1表示的是3个元数据集合之间的关系。
共享核心元数据借鉴都柏林核心元数据集思想,由17项最为简洁的元数据实体/元素组成,涵盖了数据集标识、语种、字符集、联系方、创建日期、标准名称、标准版本、数据集标识、数据集内容、分发、质量、参照系、图示表达、扩展、数据模式、限制、维护方面的信息。这17项元数据实体/元素描述了交通运输科学数据资源最一般的信息,具有高度的概括性,构成了交通领域数据集元数据的根实体,即元数据实体集信息。
共享公共元数据包含共享核心元数据的全部内容,分别与元数据实体集中的标识信息、内容信息、分发信息、数据质量信息、图示表达目录信息、元数据扩展信息、数据模式信息、限制信息、维护信息9个元数据实体相关联,由相应的9个元数据子集、共89项元数据元素/实体组成。其中依据交通运输领域的自身特色,对内容信息子集进行扩展,从数据产生方式、描述对象、服务范围方面进一步明确了数据资源的内容。
共享参考元数据是公共元数据的扩展与细化,比公共元数据拥有更多的元数据子集、更为丰富的元数据实体和元素。具体而言,在共享公共元数据的基础上,与元数据实体集中的参照系信息相关联,即包含10个元数据子集,共136项元数据元素/实体。
上述3个层次的元数据集合构成了交通科学数据共享元数据内容的整体框架,如图2所示。该框架包括3部分:元数据实体集信息、10个元数据子集、2个元数据类型实体。
2 基于元数据的交通运输科学数据共享平台设计
2.1 交通运输科学数据资源体系
应用《交通运输科学数据共享元数据内容》共享数据资源,首先要对数据资源分类、分层。分类、分层是为确定数据资源的著录范围,便于元数据的管理、检索与交换。为此,在调研本领域现有科学数据分布、科学技术发展和趋势的基础上,参考学科分类与代码表、国民经济行业分类与代码、中国图书馆图书分类法、交通汉语主题词表、中国铁路叙词表等资料,提出了交通运输科学数据资源体系。
该体系分为公路、铁路、水路运输、民航、综合运输、其他6个方面,每一个方面为一大类,在大类下设中类、小类及数据集3层,形成逐级细分的3层的体系框架,以公路运输为例,图3说明了体系框架的层次关系。
2.2 交通运输科学数据资源数据集元数据表
数据集位于交通运输科学数据资源体系框架的底层,是可以标识的数据集合。它由具有相同属性的数据资源聚集而成,不仅显现了某一类资源的特点,而且划分的资源范围恰到好处,不会因为过粗或过细而影响元数据的检索和使用效果,因此对数据集进行著录是最为适当的。根据上述共享元数据内容,对9个元数据子集、共89项元数据元素/实体进行选择,形成必选的7个元数据子集、共31项元数据元素/实体,这就是对交通运输科学数据资源数据集著录元数据的必选内容,其余为可选内容。在实际著录中,依据数据集本身的特点,可在必选基础上有所增加。表1为交通事故统计数据集元数据列表。
2.3 基于元数据的交通运输科学数据共享平台
交通运输科学数据共享平台是基于元数据设计构建的,它采用分布存储、集中管理的策略,分为数据加工、数据汇交、数据管理、数据服务和门户网站5个部分。平台总体架构如图4所示。以下具体论述元数据在5个部分中的应用。
1) 元数据著录。
元数据著录是通过元数据编辑器在数据加工子系统中完成的。元数据编辑器可以按照标准所定义的处理逻辑,根据当前编辑状态动态地规范用户操作,引导著录人员编辑生成正确的元数据。根据以上元数据标准要求,编辑组件动态生成功能根据元素数据类型和取值方式动态地确定界面编辑组件的形式,使用户易于理解、操作;元素关系自动关联保证元素之间的约束关系能够被自动处理,减少著录人员因对标准理解的误差而产生元数据结构错误的可能;元素值域检查对著录的数据值的有效性进行判断,确保著录内容的正确性。著录并检查后的元数据以XML文档格式输出,并且把元数据结构定义信息和元数据相应的元素信息分别输出,为元数据的存储与检索做准备。
2) 元数据汇交。
各数据生产单位将著录后的元数据通过数据汇交系统汇交到交通科学数据中心,该过程分为2个步骤:首先数据生产单位通过网络在线或客户端软件离线提交元数据,然后是元数据的质量审查、访问权限控制与发布。通过审查并实施了权限控制后的元数据存储在元数据库及元数据关系数据库中。
3) 元数据存储管理。
元数据管理是数据管理系统中存储管理的一部分。在元数据库中,元数据以关系化的方式进行存储,即以独立的存储表记录元数据的结构定义信息。在元数据关系数据库中不仅存储结构信息,而且存储元数据内容信息,即以元素为单位,将元数据XML文本分解,逐个存储元素的相应信息,同时以整个元数据XML文本为单位存储,将XML文本存放于一个字段中。在检索元数据时,根据请求将元素信息与结构信息相关联,检索到符合的元数据后,通过存放XML文本的字段直接提取元数据全文,避免重新组合元数据元素,提高存取速度。
4) 元数据检索。
元数据检索分为一般检索与高级检索,是数据服务系统的组成部分。标准规范的元数据格式给用户提供了统一的接口,用户只需要使用通用规范的检索词就可以与标引的元数据相匹配,准确定位。用户通过得到的元数据,直接链接到相应数据资源,或与资源生产单位联系,索取相应数据。对于一些具有较完善的元数据著录、管理系统的数据生产单位,按照标准要求,可通过交通科学数据资源信息整合接口实现元数据的检索与共享,而不需将元数据汇交到数据中心。整合接口的检索请求是由一个前缀加后缀组成的符合RFC2396格式要求的URL,例如:http://www.XXX.cn/resource?sort=01&key word=值&page=1&pagesize=15,通过此接口可在交通科学数据中心跨平台检索到元数据,用户无需考虑元数据存放位置,直接定位相关目标数据源。
5)元数据组织与浏览。
元数据以树型目录的格式通过共享网门户展现给用户,它以交通运输科学数据资源体系为基础,将各数据集的元数据以树型结构展示。熟悉交通科学数据资源分类的用户可以从树干进入,逐层展开,直至定位到树枝部的数据集,通过元数据定位到数据资源。用户还可以通过检索,先浏览相应的元数据,再由树枝部逐层折叠,由细到粗浏览某一小类、中类或整棵树的元数据。这样的元数据组织形式,使得没有具体实体存在的网络数据资源有机联结在一起,便于用户的定位与选择。
3 结束语
交通科学数据共享平台设计采用TBS Search(数据库全文检索系统)、TBS RPS(资源发布服务系统)和SQL Server(数据库管理系统),既能支持大规模、快速的全文检索服务,又能发挥SQL大型数据库存储数据量大、效率高、安全性好的性能,满足交通运输领域积累的海量科学数据资源的整合、优化与共享。目前,交通科学数据共享平台初步搭建完成(www.transdata.cn),现已共享元数据842个,共享数据资源3G。平台实际运行表明:通过元数据已实现分散、无序、多元、异构的数据资源的有机整合,提高了对资源的存取和利用效率。但同时发现:一些数据生产单位早已制定元数据标准、建立元数据系统,但其元数据格式与《交通运输科学数据共享元数据内容》存在差异,如果推翻已有而新建并不现实,因此问题的关键在于如何进行不同格式元数据之间的转化。常用的元数据格式有DC、XML、RDF以及MARC 4种,交通运输科学数据共享元数据采用XML格式,实现这4种格式的元数据之间的任意转换,不仅需要技术的深入研究,还需依靠标准化步伐的推进,这也是基于元数据的共享平台进一步的研究方向。
参考文献
[1]叶鹰,潘有能,潘卫.情报学基础教程[M].北京:科学出版社,2006
[2]黄鼎成,郭增艳.科学数据共享管理研究[M].北京:中国科学技术出版社,2002
[3]陈燕,吕晓春,孙静涛.焊接科学数据共享体系设计与元数据研究[J].焊接,2006(6):56-60
[4]石镇山,宋彦彦.基于元数据的仪器仪表科学数据共享平台设计[J].仪器仪表标准化计量,2007,33(3):7-10
[5]谢斌红,张英俊,陈立潮.太原地区科学数据共享平台设计与实现[J].太原理工大学学报,2008(1):52-56
[6]URL:http://dublincore.org/(访问时间:2008-2-1)
[7]URL:http://dublincore.org/documents/dces/(访问时间:2008-2-1)
科学数据共享平台 篇5
关键词:大数据时代;档案信息资源;共享平台;性能优化;数据库优化
Abstract:Internet and archival information resources sharing platform is being integrated deeply.It is need to process data between server, Web client, mobile client and other platforms. With the increase of the number of users, the performance requirements of the system should be improved with the use of the file information resources sharing platform.Not only should the platform be able to adapt to the existing network environment, but also to make the data processing response to favorably control, the platform's concurrent service processing ability has been enhanced.Therefore,we can optimize the performance of the shared platform from three aspects of the function of the file information resources sharing platform, the data network transmission level, the database level, the platform service architecture level and so on, Optimized platform can meet the performance requirements of the era of big data and promote the use of the system fluency, and to maximize the user experience in the use of the platform.
Keywords:Big data era; archives information resources; sharing platform; performance optimization; database optimization
档案信息作为一种重要的信息资源,其有效开发和合理利用,不仅是社会技术进步的需要,更重要的是关系到档案信息创新成果能否充分运用到社会生产和各项活动中。档案信息资源共享平台的构建便于档案机构向外部提供公开的各种档案信息资源[1],而大数据具有大量、高速、多样、价值等特征,它正在以一种独特的方式和手段对海量数据集进行深入挖掘和分析[2],将互联网技术与档案信息进行创新融合将成为未来发展的必然趋势。当前互联网技术,尤其是移动互联网技术的发展,为档案信息资源共享平台的实现提供了新的实现,其中将传统的Web平台上的资源共享于移动平台的性能瓶颈成为打通平台互联互通的难点。在大数据时代,针对档案信息资源共享平台,从实际使用平台用户的体验方面入手,在数据传输、后台数据处理方式和应用服务架构等三个方面对档案信息资源共享平台进行优化,为档案信息资源共享平台的性能优化提供了综合的解决方案参考。
1 大数据时代档案信息资源共享平台性能需求
大数据时代来临之前,档案信息一般采用档案网站进行发布,用户群体也仅限于普通的计算机用户,这种方式存在档案信息资源匮乏,服务方式单一,资源利用效率不高[3]。大数据时代背景下,随着移动互联网技术的发展,用户除了可以通过电脑进行档案信息的检索利用外,还能够随时随地通过移动设备接入档案信息资源共享平台进行检索利用,这就对档案信息资源共享平台提出了性能需求,在现有的网络条件与设备配置条件下,能够运用移动设备进行档案信息的检索、上传、下载及评论等相关操作,在实际的操作过程中由于各种限制,应用会出现卡顿现象,这就对档案信息资源共享平台在性能方面提出更高的要求。
1.1 平台能够适应现有的网络环境。档案信息资源共享平台在大数据时代应用的最大的特点是支持移动客户端,移动设备可以支持的网络已发展到今天的3G、4G,但仍存在大量的只支持2G的移动设备,这就限制了使用移动客户端进行检索利用的效果,主要表现为数据传输速度慢。另一方面,4G网络虽然网络速度可以满足要求,但是使用现有的平台进行检索利用,需要耗费大量的流量,由于目前流量资费的限制,会使用户转向采用移动互联网进行学术研究的习惯转变带来障碍。由于以上用户实际体验及网络环境实际的限制,就需要对档案信息资源共享平台做实质性的优化,目标是优化数据网络传输及提升后端处理的效率。
1.2 平台的数据处理响应有效控制。档案信息资源共享平台是面向终端用户的应用,平台上线应用后随着用户量的增长,档案信息的利用量也会快速增长。用户使用档案信息资源共享平台最多的是档案信息的检索与档案信息的处理,在实际的档案信息处理中需要一体化、便捷化、知识化的数字化融合服务[4],这就要求平台的检索效率有较大提升。现实情况是对于数据量非常大的表,其检索效率随着数量的增长会变得越来越低。同时,平台对于档案信息的操作比较频繁,比如上传、审核、编辑数字化的档案信息等操作,在实际的档案信息处理过程中会出现数据丢失的情况。因此,平台在数据处理响应方面要求系统能够满足高效检索、实时处理信息的能力。
1.3 平台的并发服务处理能力增强。随着移动互联网技术的发展,大数据档案信息资源共享平台会出现终端用户同时对平台进行操作,这就会产生很多的并发数据请求, 遇到该情况系统的服务会出现死锁现象,同时会影响后继用户正常使用系统。档案信息资源共享平台的优化后需要能够有效提升用户体验,做到用户同时使用平台不会出现请求得不到有效处理,进一步改变用户使用该平台进行检索利用的方式,做到随时随地采用移动客户端进行档案信息的实时交互。
2 数据网络传输层面优化
数据网络传输层面的优化目标主要有最大限度减少档案信息数据中间传输过程中的数据量,另外对于档案信息资源共享平台,对超长信息上传与浏览操作产生的传输数据量压缩至最低,并使系统能够适应用户实际的网络环境。
2.1 采用JSON提升数据传输效率。对于档案信息资源共享平台首先要解决的是传输效率问题,使用户在操作的过程中能够正常使用系统,从系统开发与实践的角度看,主要是减少平台在数据交互中的传输的数据量。档案信息资源共享平台在数据传输前会将需要传输的数据转换成JSON(JavaScript Object Notation),它是一种轻量级独立于编程语言的文本型数据传输格式[5],相对于传统的XML格式数据传输,JSON数据格式比较简单,易于读写,格式都是压缩的,占用带宽小[6],实际的平台中会将需要传输的原始信息转换为JSON格式,到达目标后将JSON数据再次转换成需要操作的数据类型,具体的方式如图1所示:
通过JSON方式进行数据压缩后,由于传输的档案信息数据量的减少而提升了系统的传输效率,用户在实际的档案信息检索过程中可以大大加快档案信息数据中间传输的时间,从而使用户的系统使用体验得到有效改善。
2.2 采用GZIP进行传输数据压缩。档案信息资源共享平台上传与下载的档案信息量,在传输过程中需要占用大量的网络资源,因此系统操作员在实际的浏览与上传档案信息过程中会出现卡顿现象。针对大信息容量的数据传输,可以采用GZIP压缩的方式进行优化。该方式最早由Jean-loup Gailly和Mark Adler创建,一般对纯文本内容可压缩到原大小的40%[7],这样文件的体积就缩减很多,传输速度相应提高,采用gzip虽然可以取得较好的压缩比,但它在分析和压缩编码的过程需要进行大量的计算[8],档案信息资源共享平台采用.NET提供的GZipStream类进行压缩与解压处理,此类在 .NET Framework 2.0 版中是新增的,提供用于压缩和解压缩流的方法和属性,用户完成档案信息资源的上传下载压缩解压过程如图2:
采用GZIP压缩可以大大节省服务器的网络带宽,内容压缩后可以大大提升用户使用平台的体验。
2.3 采用CDN解决相关传输问题。我国目前档案信息资源共享平台用户使用的网络环境包括电信、移动、联通等网络,如果档案信息资源共享平台仅部署在某个网络环境下,其它网络环境的用户使用平台由于跨运营商的原因访问平台就会比较慢,这样很容易造成不同网络环境的用户使用系统的体验不同,从而最终导致部分非平台部署网络环境用户的流失。另外,当系统在某个瞬间有大量用户同时使用系统时,仅靠一台服务器来提供服务也会出现传输性能问题。针对以上性能问题,可以采用CDN技术来解决相关传输问题。CDN的全称是Content Delivery Network,即内容分发网络[9],它是一种基于Web的网络体系结构,能够更加快速有效地传送Web内容。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定[10]。使用CDN技术后档案信息资源共享平台数据访问与传输的方式如图3所示:
通过以上方式对数据传输方面进行优化,数据中间传输过程可以有效减少传输的信息量,有效减少无效的数据传输,同时在另网络层面减轻带宽压力。
3 数据库层面优化
数据库层面优化主要处理档案信息资源共享平台数据操作指令到达数据库服务器后进行的优化,主要目的是让数据层面的检索与操作均在数据库上进行处理,仅传入数据处理需要的信息,在处理后也仅输出用户需要的数据信息,包括采用存储过程、检索服务加索引,大表数据采用分离加分区的处理方式。
3.1 采用存储过程技术减少网络流量。档案信息资源共享平台用户在实际的系统使用过程中,数据操作是最频繁的动作,在实际的网络中进行数据交互时如果采用大量的SQL语句,主要存在如下问题:一是随着用户量的增长,数据的频繁操作会使数据库的执行效率变差;二是复杂的SQL的传输会使网络的通信量增加,通信速率会降低。
为了避免以上面临的性能瓶颈,档案信息资源共享平台在实际的数据操作过程中采用存储过程技术,在使用存储过程时只需用提供存储过程名和必要的参数信息,这样在一定程度上也可以减少网络流量、减轻网络负担。由于存储过程在创建时即在数据库服务器上进行了编译并存储在数据库中,所以档案信息资源共享平台数据处理采用存储过程运行要比单个的SQL语句块要快。
3.2 采用索引技术提升数据检索效率。快速检索档案信息是平台用户最基本的需求,平台上线之初,由于用户数据量有限,档案信息检索效率较高,随着用户数据量的增长,用户需求的档案信息也会出现爆炸式增长,信息检索的效率会随着数据量的增长而降低。针对检索效率性能瓶颈,档案信息资源共享平台采用了索引技术来提升数据检索效率。索引分为聚簇索引和非聚簇索引两种,聚簇索引是按照数据存放的物理位置为顺序的,而非聚簇索引就不一样了;聚簇索引能提高多行检索的速度,而非聚簇索引对于单行的检索很快,根据数据库的功能有唯一索引、主键索引和聚集索引。档案信息资源共享平台在实际的应用中将表的主键作为惟一索引,对于索引列是选择数据类型较小且常作为检索条件的字段作为索引字段。
3.3 采用分区表技术提高访问速度。档案信息资源共享平台存储档案信息的表随着用户新增信息的增加会变得十分庞大,此时需要将大型表拆分为多个较小的表,表数据会按指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个CPU进行处理。通过使用数据分区技术可以大大提高访问速度,分区可以显著提高访问大表时的性能,并且分区的存在对应用系统是透明的[11]。对于档案信息资源共享平台大数据量的数据表进行分区后,除了可以提高查询效率,还可以对历史数据进行区分存档。
4 平台服务架构层面优化
平台服务架构层面优化主要解决多用户及并发用户使用平台时调用服务的瓶颈问题,档案信息资源共享平台终端用户使用客户端进行数据操作都离不开对服务的调用,如何使用户的体验达到最佳,即用户使用系统过程中能够使用最快的方式完成一次服务调用,这部分优化具体思路为采用WCF架构,并对WCF进行优化,同时对于档案信息的存储与转发采用MSMQ(微软Message Queue)技术,数据库服务与应用服务采用独立布置的方式。
4.1 采用数据库连接池规避平台崩溃。档案信息资源共享平台终端用户的包括传统的个人计算机、平板及移动终端,从系统开发与实现角度,这部分的优化需要将数据操作部分进行集中管理,所有平台涉及到的基础操作均采用调用一个集中服务集群,可以采用WCF(Windows Communication Foundation)技术作为系统的整体架构。WCF是由微软开发的一系列支持数据通信的应用程序框架, 在具体使用过程中,WCF自身最频繁的操作为数据库的访问与操作,传统的WCF的数据处理方式是调用数据库操作类,每次调用服务需要进行一次数据库连接操作,数据库连接操作是比较耗费网络的操作,采用该方式影响了整个应用程序的伸缩性和健壮性,当同时有大量用户使用平台并进行数据库操作时,就会出现平台卡死直至退出的现象,因此需要对该模块进行优化。现有数据库连接池的参数配置都是在初始化时一次设定,连接池在运行过程中其值不会改变[12]。本系统采用的方式为将数据库连接部分用连接池技术解决,数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个。连接池初始化后,档案信息资源共享平台终端用户在实际调用WCF进行数据操作时,并非建立一个新的连接,而是从连接池中取出一个已建立的空闲连接对象,使用完毕后,用户也并非将连接关闭,而是将连接放回连接池中,以供下一个请求访问使用。采用该技术后,平台在涉及到数据库操作部分不会因为数据连接资源紧张而导致平台崩溃的情况出现。
4.2 采用MSMQ减少用户等待时间。随着档案信息资源共享平台用户数量的增长,其并发请求会越来越多。如果采用传统的同步技术,同一操作的下一个请求的开始需要等待上一个请求的结束,现有的平台用户真实的需求是对系统性能的体验,同步方式需要长时间的等待,从而影响了系统的用户体验过程。对于档案信息资源共享平台,采用MSMQ技术(MSMQ全称是Microsoft Message Queue,即微软消息队列)是一种利用队列机制实现部件间或者是应用程序间通信的技术,其工作原理如下图所示:
由图4可以看出,消息的发送者把自己想要发送的信息放入一个容器,然后把它保存到一个系统公用空间的消息队列中,采用消息队列机制,发送方不必要担心接收方是否启动,是否发生故障等因素,只要消息成功发送出去,就可以认为处理完成,本地或异地的消息接收程序再从该队列中取出发给它的消息进行处理。采用该技术可以大大减少用户的等待时间,由于采用了异步通信,无论是发送方还是接收方都不同等待对方返回成功消息,就可以执行余下的代码,大大提高了处理的能力,在信息传递过程中,具有故障恢复能力,MSMQ的消息传递机制使得通信的双方具有不同的物理平台成为可能。
4.3 采用服务集群来提升平台的整体服务能力。随着移动互联网应用的广泛普及以及档案信息资源共享平台用户数量的增长,完成应用程序自身与数据库方面的优化后,需要从硬件部署方面来提升档案信息资源共享平台的性能。该部分的优化思路为采用WCF服务集群来提升平台的整体服务能力,同时在数据处理上采用主备数据库的架构来完善数据库服务能力以及确保数据库服务的稳定性,具体的部署方式如下图所示:
如图5所示,在软件优化完成后,通过增加硬件资源的方式来优化平台是最有效的性能优化方式之一,该方式可以有效提升服务的分布式处理与并发处理能力。
经过对档案信息资源共享平台架构层面的优化,采用WCF技术集中处理数据[13],在服务器层面优化了服务的处理效率,在数据传输过程中,采用JSON方式进行数据传输,对于文件资料的传输经过gzip压缩后进行传输方式,大大减少了传输过程中的信息量,所有的应用在实际的操作过程中均采用存储过程的方式,既减少了调用服务传输的信息量,又加快了数据处理的效率。在经常使用的平台档案信息检索方面,数据库层面关键字段加上了索引,从而大大提升了信息检索的效率。多层面、全方位的平台优化使系统满足了大数据时代的信息系统对性能的需求,在此基础上更是满足了终端用户对平台体验的需求,从而使平台能够真正满足用户对于档案信息资源共享平台的性能需求,真正实现档案信息资源整合、信息发布、数据加工和提供档案信息的检索利用的一体化建设[14]。
*本文系2016年度教育部人文社会科学研究规划基金项目《大数据时代档案信息资源共享平台构建的研究》(项目编号:16YJA870001)阶段性成果。
参考文献:
[1]黄小忠.建设区域性高校档案信息资源共享平台的机制和途径研究 [J].山西档案,2015(4):77~80
[2]维克托·迈尔-舍恩伯格,肯尼斯·库克耶合.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛译,杭州:浙江人民出版社,2013:4
[3]王运彬,王小云,陈燕.档案信息资源配置的目标定位研究[J].档案学研究,2012(6):36~38
[4]王萍,王毅,赵红颖.图书档案数字化融合服务评价模型研究[J].图书情报工作,2013,57(12):34~40
[5]孙光明,王硕.基于JSON的Ajax数据通信快速算法 [J]. 计算机应用与软件.2015, 32(1):263~266
[6]卞咸杰.基于WCF技术的档案信息共享平台数据传输模型设计与实现[J].档案管理,2016 (2):25~28
[7]Qingting Wei, Jihong Guan, Shuigeng Zhou, Xin Wang.A New and Effective Approach to GML Documents Compression[J].Computer Journal.2014, 57:1727~1740
[8]宋刚,蒋孟奇,张云泉,刘胜飞.基于共享存储和Gzip的并行压缩算法研究[J].计算机工程与设计.2009, 30(4):781~784
[9]Pallis G,Vakali A.Insight and perspectives for content delivery networks[J].Commun ACM,2006,49(1):101~106.
[10]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDM Jacobus.A Practical Architecture for an Anycast CDN[J].Acm Transactions on the Web.2011, 5(4):2209~2220
[11]唐世伟,许璟龙,刘万伟,荣海亮. 基于分区表的RAC优化技术应用[J].计算机系统应用.2012, 21(3):190~192
[12]孟培超,胡圣波,舒恒,鄢富玉.基于ADO数据库连接池优化策略[J].计算机工程与设计.2013, 34(5):1706~1710
[13]卞咸杰.基于WCF技术的跨平台档案信息资源共享平台建设的研究 [J].档案管理.2016(4):37~41
[14]吴加琪.构建区域档案信息资源共建共享平台的思考[J].北京档案.2014(8):24~27
有关共享数据服务平台的研究 篇6
1 共享数据服务平台建设目标分为以下几个方面
1.1 建设全局数据中心实现数据的集中
针对学校长期建设的各种业务系统无法形成全局数据视图的问题, 共享数据服务平台实现数据的集中, 将校内现有的人事、科研、财务、教务、研究生、学工、办公自动化系统等信息系统中的全部数据或部分数据以实时复制的方式集中到中心数据库来。
1.2 实现跨系统、跨平台的高性能的数据交换
为实现未来数据仓库建设奠定基础。在数据交换与规整的过程中要考虑到数据统计分析和展示, 考虑对未来建立数据仓库的支撑, 数据的复制、保存、变更等均有时间戳记录。
1.3 建立面向全局的共享数据库实现数据的共享
对集中后的数据按照信息标准和一定主题进行清洗、按照一定规则, 通过反向复制或者SOA等接口方式共享给所有需要的信息系统使用。
1.4 实现数据的准确与权威管理
遵循“谁产生、谁维护”的原则, 所有的数据都有特定的产生者和维护者。在技术上, 由授权体系控制数据维护的权限, 使无权限的人员不能对数据进行生产和维护;同时, 在管理上, 通过制定相应的应用规范迫使数据生产者/维护者及时更新自己负责的数据, 保证系统中数据的准确性和可跟踪性。系统提供安全审计功能, 保证对业务操作的严格监督。
1.5 提供多角度、多层次的数据服务
共享数据服务平台基于开放的标准与规范, 通过OLTP、OLAP数据处理相结合的手段实现用户的各种数据服务需要, 使学校业务和管理系统在战略层面、战术层面、操作层面、运营层面都能为相关各类用户提供更好的支持和服务。
2 业务架构
高校统一公共数据与交换平台针对学校的具体需要构建, 对学校的报表查询展示、信息共享、决策支持等数据服务提供支持。
统一公共数据与交换平台建设根据国家和教育部信息标准, 接合学校的实际需要, 制定学校的信息标准, 依据信息标准构建由共享数据库和操作数据库组成的主题数据区。
操作数据库是数据展现的逻辑层, 包含由学校相关信息子集形成的全局元数据模型和作为全局报表和查询支撑的数据模型。全局元数据模型、报表模型、查询模型为数据展示和进一步的综合分析提供数据基础。操作数据库包含历史数据, 历史数据作为学校历史信息的归档和备份, 包含学校各个应用系统的历史信息。
共享数据库作为学校的数据交换中心, 处理学校各个应用系统间的信息同步和共享, 共享数据库提供了数据导入导出和标准的Web Services数据服务接口。
统一公共数据与交换平台的数据来源包括通过各个应用系统数据交换的数据和通过数据采集手段获得的数据, 系统对目前市场上应用广泛的业务系统提供智能配置支持。
统一公共数据与交换平台为通用查询、通用报表和综合分析提供数据层支持, 通过查询和报表的关联和配置, 逐步完善操作数据库层的数据模型。通过对共享数据库进一步抽取, 形成数据仓库。建立数据仓库的目的是为了更好的数据利用, 它的特长是在数据的检索、统计、分析、预测等方面。
在数据仓库上, 构建BI分析模型, 提供复杂报表、关联查询、切片、钻取的多角色、多角度数据展现体系和决策支持服务。
门户平台为学校各级用户提供多种信息服务, 包括应用集成服务、数据信息服务等, 应用集成服务包括学生服务、教务服务、人事服务、网络用户服务、财务服务、图书服务、科研服务、学籍服务、设备服务、办公服务、外事服务等。数据信息服务包括对外数据服务、一卡通服务、共享数据的统计查询及报表服务和没有业务系统对应的共享数据管理服务等。技术架构本部分内容描述高校统一公共数据与交换平台系统技术解决方案的逻辑架构, 分析并描述了高校统一公共数据与交换平台的系统组成及其相互关系。如下图所示。
高校统一公共数据与交换平台系统技术解决方案的逻辑架构划分为如下功能层次, 包括:系统涉众层、门户系统层、分析应用层、数据仓库层、主题数据库层、数据集成层、外部数据源层、基础设施层和系统综合管理层。其中分析应用层、数据仓库层、共享数据库层和数据集成层为统一公共数据与交换平台的核心层。
3 中心数据库
中心数据库建设是校园信息化建设的重点、基础和前提, 实现原有系统数据整合、历史数据库建设、操作数据库建设、公共代码库建设等, 它为信息标准集提供公共数据库服务, 为校内人事信息、学籍信息、学科信息、课程信息等基本共享信息建设公共数据库服务。只有全面完成中心数据库建设, 才能完成才能为学校进一步提供完善的数据查询和统计服务, 并在此基础上构建综合分析服务。中心数据库采用一个数据库实例, 多用户建表的方式构建中心数据库。
共享数据服务平台是通过构建一个完整统一、高效稳定、易管理易维护的数据集成平台, 以提供校内各业务系统之间的数据交换、共享和集成服务, 以及跨业务的数据综合查询和数据挖掘服务。包括数据存储、数据交换、数据服务、数据处理, 主要为学校的数据集成与应用提供一个综合性的支撑平台, 共享数据服务平台基于学校的具体需求建设, 强调形成学校的信息服务, 为未来构建新的业务应用提供强大的数据平台和服务平台。
摘要:共享数据服务平台是支撑数据集成和交换的平台, 现对其建设目标、业务架构等相关问题进行了研究探讨。
电磁脉冲实验数据共享平台的研究 篇7
电磁脉冲EMP (Electromagnetic Pulse) 是短暂瞬变的电磁现象, 透过电磁波, 可对电子、信息、电力、光电、微波等设施造成破坏。电磁脉冲实验研究是指导电子系统正确设计和检验电磁脉冲防护理论正确与否的关键, 许多军方单位在这方面开展了工作, 并且积累了很多相关数据, 但是这些数据还处于分散状态, 储存格式和方法也大不相同, 因此利用率很低。为了满足国防事业发展的需要, 必须采用先进、可靠的技术对它们进行收集、存储、加工、分类和统计等, 把这些数据整理到一起, 建立相应的电磁脉冲实验数据共享平台, 来用于指导电子系统的正确设计。
在电磁脉冲实验数据共享平台的开发过程中, 课题立项的根本在于希望能充分利用军内、军外网络资源, 在安全要求之下最大化实现信息共享, 以达到电磁脉冲实验数据信息化管理的目的。
2 分析电磁脉冲实验数据共享平台
2.1 功能分析:
电磁脉冲实验数据共享平台是用来在军队的各个单位之间进行实验数据资源的共享和交换的。作为共享平台, 应该具备实验数据的查询、增加、修改、删除等功能, 而作为交换平台, 它应该具备实验数据的导入、导出、上传、下载等功能。
2.2 需求分析:对实验数据交换的需求, 对数据信息目录的需求, 对实验数据共享的需求, 对资源管理的需求, 对数据信息整合的需求。
2.3 共享平台用户分析:平台参建部门操作员, 基层部队使用人员, 平台管理员。
3 电磁脉冲实验数据共享平台功能
3.1 实验数据传输:数据的接收与发送, 交换共享平台的合法性验证等。
3.2 实验数据转换:
数据交换双方的数据可能是异型异构, 要使交换双方能够识别彼此的信息, 必须依据相关的标准和协议对数据的格式进行转换, 以实现信息的透明传输。
3.3 实验数据检查:
包括逻辑关系、完整性和错误信息检查, 认证数据来源的合法性、检查数据包的格式是否符合标准、检查数据的时效性、延续性、检查数据项是否符合标准, 将错误数据返回数据交换部门进行校正后重新进行传输。
3.4 实验数据加载:加载检查合格的数据、过滤并记录重复记录、记录重号数据、记录重号信息处理结果。
3.5 实验数据反馈:将数据维护过程中发现的错误信息进行反馈。
3.6 异常处理:
对数据接收、数据加载、导入、导出过程中, 出现的异常情况, 例如在数据接收的过程中出现网络中断、在数据加载或导入导出的过程中出现数据库异常等情况时, 应采取报警、重做、异常日志记录等处理工作。
3.7 业务协同:
通过设置相应规则, 系统可以将共享平台中信息的变化自动地通知相关单位, 帮助各业务单位之间建立业务协同关系, 进行相关数据信息传递。业务协同的流程可以定制。业务协同采用Web Services技术, 通过自定义请求服务方式生成系统间服务。具体业务办理时依据定义的服务格式进行服务。
3.8 信息发布:可将信息发布给信息总线上的所有接入节点。
3.9 信息订阅:用户可以在接入节点上订阅自己需要的信息, 电磁脉冲实验数据共享平台将其订阅的信息推送给该节点。
3.1 0 接口调用:
建设电磁脉冲实验数据信息管理系统同参与共享系统建设的军队各单位部门, 进行数据交换的接口, 实现对各单位部门数据的抽取, 以及各单位对数据的接受和加载。
4 实验数据传输、交换业务流程分析
4.1 参与数据交换的各单位从各自的业务系统中提取数据, 按照
各自的接口xml规范文档要求, 生成xml文件格式数据, 存储到数据交换前置机上。
4.2 电磁脉冲实验数据共享平台军队内网利用电磁脉冲实验数据
共享平台把数据加载到周转库中, 然后通过身份核查程序把加载到周转库中的数据进行身份核查, 把通过身份核查的数据维护到正式库 (电磁脉冲实验数据信息库) 中, 没有通过身份核查的数据存储到不匹配库中。把经过身份核查程序处理过的数据从周转库中删除。对于产生的异常库中的数据信息, 进行数据交换的单位可以通过浏览器方式来查询这些信息。同时, 数据信息交换中心的交换平台会自动将正式库中各部门匹配和不匹配的数据信息发送到数据交换与共享平台上, 再由单位门的数据交换前置机系统上的交换系统将反馈数据信息接收下来, 保存到交换前置机上, 再由进行数据交换单位的操作员重新对这些反馈的数据进行处理。
4.3 平台同时会向各单位提供查询服务, 主要是把电磁脉冲实验
数据库中的数据通过查询平台向军械工程学院、科研单位2, 科研单位3, 科研单位4提供信息查询服务。
5 共享平台的设计
基于Struts架构的共享平台的工作流程:客户点击菜单请求一个JSP页面, 在JSP页面上填写业务数据后提交请求到Action对象, Action对象将用户的数据及其它数据作为参数调用业务代理对象, 业务代理对象负责执行业务逻辑, 将数据保存到数据库或者从数据库查询数据, 并将执行结果反馈给Action对象, Action对象根据其返回值决定下一步向用户返回哪个JSP页面。至此一次用户交互流程结束。
6 基于S truts框架的共享平台的实现
6.1 表示层。
表示层主要是用来显示共享平台与用户交流的界面, 收集用户和系统的交互信息, 接收用户的请求, 并将业务逻辑层处理的结果显示给用户。JSP页面用于数据的显示和录入。Action Form类用于存储JSP页面的数据, 从而实现了程序和界面的分离, 简化了JSP的页面设计, 使页面设计人员和程序开发人员能各司其职, 达到表示层与业务层分离的目的。
6.2 控制层。
控制层的作用是实现对业务逻辑层的控制, 接收表示层的请求, 将数据转入相应的业务模块, 再将业务模块处理的数据结果传回表示层。
7 结论
7.1 基于Struts框架技术开发设计和实现, 实现了业务逻辑和业务
数据的分离, 提高了系统的稳定性和可扩展性, 应用程序具有层次结构清晰, 易于分工协作, 代码重用率高, 维护扩展性好等优点。
7.2 研究XML技术。
并根据它们的特性提出基于XML的异构数据共享模型;研究J2EE架构及其相关技术, 并在此基础上设计了异构数据共享和集成环境;
7.3 在共享平台实现的方法上, 把Internet技术和Web服务理念
市县地震数据共享平台的架构设计 篇8
自2007年以来, 我国一步步完成了地震科学数据共享平台系统地建设, 形成了一个由国家地震科学数据共享中心、十个专业共享分中心和十五个省级共享节点构成的地震科学数据共享系统, 但受限于我国现今的网络技术以及共享平台的开发力度薄弱, 我国现今地震方面的信息服务还不能准确的做到实时灾情发布和震前预警。
正是因为地震信息数据的综合性、空间性、时间性、采集多源、信息海量等特点, 长久以来, 市县一级的地震数据共享平台的建设始终凝滞不前。如果能更大程度地发挥地震数据的作用, 不仅能让地震信息数据更便利、直观地提供信息服务, 达到效益最大化从而提高科技创新能力, 也能为市县级政府管理工作的决策提供更快捷可靠的支持。
1 市县地震监测仪器现状
现如今市面上的地震监测仪器五花八门, 各个市县的采购也没有一个统一的标准, 所以测得的地震数据也很难在全省范围内达到标准化, 所以, 先要对市县地震部门安装的地震监测仪器的种类, 名称, 型号, 出产厂家, 数据格式等内容进行收集, 才能对这些数据进行整合归类;然后, 如果有部分市县地震部门已经开发了相关客户端或者建立了网站, 那我们就需要去详细了解其内部结构, 在此基础上最终遴选出最适合进行数据共享的监测仪器。
2 软件设计
2.1 实现功能
(1) 基础数据录入。根据中国地震前兆数据库结构规范, 将涉及的市县地震台站名称、代码, 经纬度以及非标准仪器的名称、型号、代码等信息录入数据库, 对数据库中没有的测项名称以及代码进行增加。 (2) 数据采集。以镇江市为例, 在京口区、润州区、丹徒区, 句容市、丹阳市、扬中市等地方安置地震监测仪器, 将收集到的数据汇集到镇江市地震局的某一台服务器, 客户端定期在数据库中提取数据, 并存入各自地震局的数据库。 (3) 采集日志。客户端每一次的数据采集都会将采集记录和结果保存到数据库日志表。 (4) 数据展示。能实现任意时间点的数据和任意时间段的数据曲线的查阅。
2.2 软硬件架构
(1) 硬件架构。一台数据库服务器, 用于市县地震数据的存储与共享。一台计算机, 用于处理非标准地震监测仪器的数据格式的转换、存入以及备份。 (2) 软件架构。由市县客户端和省地震局市县数据库组成。
2.3 数据库结构设计
市县地震共享平台数据库严格按照中国地震前兆数据库结构规范进行设计, 已有的数据库结构保持原样, 在此基础上再增加两张表格, 分别是客户端连接用户管理表以及采集日志的表格
3 软件实现
3.1 近震数据实时显示
一般将震中距大于100千米并小于1000千米的地震称为近震, 本平台实现了实时动态链接江苏省的近震数据库直接读取地震数据, 实现了地震数据的实时同步, 极大提高了地震信息发布的速度。
首页显示近一个月的地震信息, 最多十条, 提供震级、发震时刻、震源经纬度及深度以及发震参考位置等参数。并能够手动输入搜索地震信息以及点击查看更多历史地震目录。
3.2 远震数据实时显示
一般在发生地震时, 将震中距大于1000千米或者烈度为10°的地震称为远震。本平台同样利用实时动态的链接方式链接数据库来读取中国地震台网的地震数据, 实现远震数据实时更新。
3.3 数据采集
可以分为自动采集和手动采集。自动采集为设定特定的时间, 软件能在此时刻自动采集数据, 采集到的数据和采集日志都会自动保存到特定文件夹下;手动采集则是设置起始时间和结束时间, 然后选择某个市县监测仪器, 点击采集即可采集这一时间段此仪器的数据。
3.4 数据浏览
在数据浏览界面, 可以选择时间段或者自己输入起讫时间, 然后选择某一项目点击, 即可出现相关数据以及采集数据的日志。
3.5 软件配置
进入软件配置一栏, 当参数发生变化, 可进入参数配置进行设置;而仪器测项对比参数需要更改时, 在软件配置界面测点编码下可修改选中的测点编码。
4 结束语
市县地震数据共享平台的架构是在地震前兆数据库结构规范的基础上进行设计的, 所以软件具有优良的兼容能力, 在现行主流操作系统上均能正常运行, 界面友好、操作简便, 尽管如此, 区域性的地震数据共享平台的建设必然是一个长期的, 细致的过程, 本文只是结合了江苏省的实际情况, 在这方面做了初步的探索, 在将来的不断发展建设中, 结构将被优化, 问题也将被解决。
摘要:依据现有的省级区域中心的数据平台, 以实现江苏省内市、县数据共享为目的, 设计一套软件系统, 将市、县级地震信息数据标准化, 汇总到江苏省地震前兆信息数据库系统服务器, 并可供下载订阅, 从而实现数据利用的最大化, 为江苏省各个市县级别地震局提供全面而又精确的地震数据共享服务。
关键词:数据库结构,地震数据,数据共享,市县级
参考文献
[1]胡玉良, 闫民正, 程冬焱, 庞云峰.山西市县地震前兆数据共享软件设计, 2015 (01) :024.
[2]曹蓓蓓.面向服务的区域性地震数据共享平台研究[J].2012 (10) .
[3]李倩, 牛从达, 武孔春, 吕后华, 粟毅, 吴培熠, 安小伟.市县地震数据共享平台构架设计与实现[J].2013 (04) .
[4]李爱勤.省市县地理空间数据交换和共享平台一体化建设模式及试点思考[J].2015 (07) .
科学数据共享平台 篇9
关键词:XML,共享,资源目录
为了管理黄委大量的数据信息, 保证数据资源在各个系统之间进行畅通无阻的共享与交换及对数据资源的快速检索和查询, 通过利用分布式数据库技术、元数据技术和网络技术, 建立以分布式为主、集成式为辅的黄河数据中心和各分中心的元数据管理系统, 开展元数据汇交、数据资源目录建设与管理, 实现对数据资源的有效管理。在系统中采用了Tamino XML Server进行系统的数据资源目录体系管理 (图1) 。
1 元数据库
元数据库主要是对数据中心数据库资源目录体系进行描述, 通过元数据库的建设, 将数据中心资源目录体系中具有的数据库、表、数据项、各种属性等进行描述, 元数据库按照资源目录体系的类别分为共享存储数据元数据库、交换数据元数据库和分布数据元数据库, 分别描述存储在数据中心核心库中的数据、用于交换的数据和目前仍分布存储的数据。元数据库采用XML格式在数据库中存储, 便于资源目录体系与元数据之间的转换。
资源目录体系包括两部分内容:资源结构和资源属性。资源结构通过树装的目录结构, 展现了资源之间的相互关系;资源属性则描述了资源的管理属性 (包括来源、去向、版本等) , 用于控制和管理资源。资源目录体系用元数据库描述的, 主要分为共享存储资源目录体系、交换数据资源目录体系和分布数据资源目录体系。
2 元数据系统设计
元数据的描述主要包括数据中心存储的数据表名、数据来源、数据去向、数据大小、存储位置、交换路径、共享范围、组成结构、各种属性等。同时, 对于各表中包含的基本数据项字段, 类型、长度、代码、取值范围等也需要通过元数据对其进行描述。
元数据主要是对数据中心的资源目录体系进行描述, 因此, 根据其用途可将其分为共享存储目录体系、交换目录体系和分布数据目录体系。其中, 共享存储目录体系主要是针对数据共享存储情况进行描述, 如数据的内容、来源、存储位置等;换目录体系是对数据的交换情况进行描述, 如交换数据的内容、来源, 交换的去向等;分布数据目录体系主要是对分布在黄河水利数据中心的数据进行描述, 如数据的种类、内容、所属单位、共享的程度等。
元数据的重用和各种元数据的互换已成为元数据应用的重要领域, 这样就要求在基于元数据标准的数据整理、结构设计、相关应用等方面有一个详细、全面的规划及设计, 主要包含以下几个方面:基于元数据的专业数据整理;元数据的结构设计;基于元数据的资源目录体系的设计和应用。
3 应用服务平台
应用服务平台是系统建设的软件技术支撑平台, 是支撑系统开发与运行的重要基础设施, 为系统提供统一标准的开发运行环境, 并为应用系统提供数据访问、流程控制和公共信息等功能服务。
数据访问方式主要有通过ODBC、JDBC等数据库接口直接访问数据库;通过应用服务平台的数据库中间件访问数据;以及通过数据资源目录体系管理服务器为应用系统提供通过网络对数据进行查询检索的方法或途径, 以及与数据交换和传输有关信息。
4 结语
科学数据共享平台 篇10
关键词:共享交换,多线程,消息队列,数据库技术
随着信息化的快速发展,现有各类应用系统在应用范围、构建方式、系统结构、数据资源等方面存在一定的差异,为了满足相互间数据共享需求,各单位根据需要建立了统一的数据共享交换平台。从功能上看,数据共享交换平台能够解决不同系统、异构数据间的信息交换,但对于一些系统要求实时性高、数据量大的业务系统间数据共享,往往存在着数据积压,数据延迟等性能问题。本文提出的性能优化技术,从多个方面分析和研究了数据共享交换平台的优化方法,能够指导和辅助系统设计人员进行软件的设计和优化,提高数据共享交换效率,满足对实时性要求高的业务数据交换需求。
1数据共享交换平台体系架构
数据共享交换平台旨在建立以各类数据交换为核心的交换与共享平台,联系横贯单位或部门间的异构系统、数据库资源等,支持不同处理业务、不同软硬平台对不同结构数据交互的共享要求,从而打破存在的“信息孤岛”,实现了应用系统之间的无缝共享和数据交换[1]。基于保持现有业务系统基本不变、建立统一的信息标准、保证数据的可靠传输和数据交换准确等要求,数据共享交换平台的体系架构如图1所示。
数据共享交换平台采用基于消息中间件的异步同步技术,减少由于网络通信中断、数据库连接错误等造成的数据异常,从而提高数据共享交换的可靠准确性,平台组成主要包括如下三个部分:数据采集处理,部署在源端业务系统,根据数据采集任务,负责抽取、转换、分发源端数据库捕获产生的增加、更新和删除
等变化数据,将处理的结果数据存储至对应的消息队列。数据共享管理,部署在数据中心,负责对消息队列的统一配置管理、监控数据采集、数据入库等工程的运行状态,提供数据交换的日志记录和查询功能等,从多个层面保证数据共享交换平台的稳定运行。数据解析入库,部署在目标端业务系统,负责从指定的消息队列读取数据,按照数据的操作次序,解析并加载入库到目标库。上述三个组成部分分工协作,共同完成不同业务信息系统间数据的共享交换工作。
从图1可以看出,数据共享交换平台的体系架构和逻辑功能设计,能够较好的满足一般要求的业务数据共享交换需要,对于实时性要求高的系统数据共享,在性能设计和优化方面需要深入研究。本文基于上述体系架构和逻辑功能,从多线程技术处理、消息队列选择优化、数据库操作应用等三方面进行分析研究,综合优化提升数据共享交换的性能。
2采用多线程技术的数据采集处理
2.1问题分析
数据共享交换平台1个采集处理任务通常负责N个数据表或数据文件的数据抓取和转换处理,当源端业务系统需要抽取的数据表多、业务操作造成的数据变化量大时,往往出现采集处理程序来不及处理的情况,造成记录数据变化的日志表数据增长迅速,在日志表积压大量数据。同时,由于要保证数据变化的顺序性操作,抽取时需要对数据变化记录进行排序查询,日志表记录越多,进行数据抽取时速度就会越慢,这样就形成了影响数据采集处理性能的恶性循环。
2.2数据采集处理的性能优化研究
在负责多个数据表采集处理的任务中,只要对一个数据表按照变更顺序操作,就能保证同步数据的准确性,各个表之间可以独立并行进行数据的采集处理和变更消息发送。基于上述数据共享交换数据表的数据变更特点分析,可以采取多线程技术进行性能优化。首先,一个主线程根据采集任务抽取表配置加载要采集的数据表,然后将数据表提交到抽取数据表记录的线程池,线程池中每个线程对一个表独立的按照顺序进行批量抽取转换操作,线程池中多个线程并行运行,加快数据的抽取转换速度,提升数据采集处理效率,主要实现伪代码如下。
加载任务配置中要抽取的数据表:
3消息队列的选择和优化
3.1问题分析
现在比较流行的消息队列产品有Active MQ、Zero MQ、Open MQ等消息队列,上述产品均是基于JMS协议的开源消息软件。在数据共享交换平台实践过程中,发现当消息队列中积压的数据量少时,软件间性能差异不大,没有发现问题。但有时由于目标端数据入库软件运行停止或网络异常,造成消息队列积压数据量超过百万数据量时,上述消息队列存取性能明显下降,存在消息服务器宕机或无法启动的情况。
3.2使用Kestrel队列实现异步数据传输
Kestrel是twitter的开发团队用scala语言写的开源消息中间件,运行在JVM上,队列是存储在内存中,但是同时在硬盘上保留了日志,支持集群、自动分发和灵活配置,目前支持memcache协议、text协议和thrift协议三种协议[2]。
由于数据共享交换平台通过消息中间件实现异步传输,采集处理和解析入库都属于平台内部软件模块,没有协议方面的限制,所以可以采用Kestrel队列memcache协议进行异步消息传输。在内存32G Cpu:Intel(R) Xeon(R) CPU ,E5645 @ 2.40GHz * 24环境下,每条数据1kb大小,服务器启动参数Xmx=1GB,性能测试结果见表1。
根据测试的Kestrel的结果来看,单线程处理大概3MB/s ,而在多线程的测试情况下达到约20MB/s ,通过服务器调优,可以进一步提升消息处理的性能,同时减少消息服务器异常等情况,所以采用Kestrel队列进行异步传输可以提升数据共享交换平台性能。
4数据库操作优化技术的应用
4.1问题分析
本文中数据优化技术应用是指在数据共享交换平台设计方面进行的优化处理应用,并不包括对源端和目标端数据库创建索引、调整参数等常用的数据库本身优化技术手段。在数据批量抽取、逐条数据转换处理完成后,需要把处理后的数据在日志表删除,防止重复处理,如果逐条将处理后的数据删除,会造成数据批量抽取快,数据日志删除慢的现象,降低数据处理速度。此外,在目标端解析数据入库过程中,需要将XML消息转换成数据库SQL语句进行操作,运用通常的数据操作技术方法,往往存在数据入库速度慢于抽取速度,会造成消息队列积压,影响了数据共享交换的实时性。
4.2使用数据库优化技术加快数据处理
数据库操作优化的技术很多,本文数据共享交换平台主要从批量处理和预编译语句两方面分析研究,进行数据操作性能的优化,从而提升数据共享交换效率。一是引入数据的批量处理技术,可以减少与数据库的多次连接,实现一次连接,批量数据处理,减少了数据连接的次数,降低数据库内存消耗,在数据量越大的时候越能体现批量处理的优势。采取在对日志表进行删除时,引入数据批量删除技术,批量抽取的数据实现一次批量删除,主要实现伪代码如下。
二是在数据进行插入、更新和删除等解析入库操作时使用预编译语句。在预编译语句中,变量用问号来指定,预编译语句可以包含无限数目的变量,一旦创建了预编译语句,就可以像常规语句一样来执行。预编译语句实现在执行前进行解析和编译[3],减少数据库语句的编译次数和时间,尤其当数据量大时,能够显著提升数据库入库效率。如使用预编译语句插入操作主要实现伪代码如下。
更新与删除操作与插入操作实现类似,只是SQL语句不同。
4结束语
【科学数据共享平台】推荐阅读:
构建共享数据库平台06-27
地震科学信息共享平台05-12
科学数据服务06-21
农业科学数据中心09-20
未来属于数据科学家论文06-21
小学科学实验数据分析论文08-19
小学科学实验数据的呈现与论证论文10-04
美国留学数据科学(Data Science)专业院校排名05-12
数据共享06-21