数据标准体系

2024-07-03

数据标准体系(精选10篇)

数据标准体系 篇1

7月1日, 国务院办公厅《关于运用大数据加强对市场主体服务和监管的若干意见》 (以下简称《意见》) 正式出炉, 提出要建立大数据标准体系, 加强和改进质量监管。在26项重点任务及分工中, 质检总局作为负责单位之一的有4项。

《意见》分为8大方面共36条, 其中多个方面与质量监管相关。具体而言, 在运用大数据提高为市场主体服务水平方面, 要求充分运用大数据技术, 积极掌握不同地区、不同行业、不同类型企业的共性、个性化需求, 在检验检测、认证认可、进出口、技术改造、知识产权等方面主动提供更具针对性的服务, 推动企业可持续发展;加快建立公民、法人和其他组织统一社会信用代码制度以及全面实行工商营业执照、组织机构代码证和税务登记证“三证合一”“一照一码”登记制度改革, 运用大数据推动行政管理流程优化再造;根据宏观经济数据、产业发展动态、市场供需状况、质量管理状况等信息, 充分运用大数据技术, 改进经济运行监测预测和风险预警, 并及时向社会发布相关信息, 合理引导市场预期。

在运用大数据加强和改进市场监管方面, 《意见》提出, 要以社会信用信息系统先导工程为基础, 充分发挥国家人口基础信息库、法人单位信息资源库的基础作用和企业信用信息公示系统的依托作用, 建立国家统一的信用信息共享交换平台, 整合金融、质量监管、统计调查等领域信用信息, 实现各地区、各部门信用信息共建共享;充分发挥行政、司法、金融、社会等领域的综合监管效能, 在产品质量、食品药品安全、消费品安全等方面, 建立跨部门联动响应和失信约束机制, 对违法失信主体依法予以限制或禁入;对食品、药品、农产品、日用消费品、特种设备、地理标志保护产品等关系人民群众生命财产安全的重要产品加强监督管理, 利用物联网、射频识别等信息技术, 建立产品质量追溯体系, 形成来源可查、去向可追、责任可究的信息链条, 方便监管部门监管和社会公众查询。

在健全保障措施和加强组织领导方面, 《意见》重点提出要完善标准规范。建立大数据标准体系, 研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等。加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准。引导建立企业间信息共享交换的标准规范, 促进信息资源开发利用。另外, 《意见》还提出在工商登记、统计调查、质量监管、竞争执法、消费维权等领域率先开展大数据示范应用工程, 实现大数据汇聚整合。

在《意见》公布的“重点任务分工及进度安排表”中, 加快建立公民、法人和其他组织统一社会信用代码制度;全面实行工商营业执照、组织机构代码证和税务登记证“三证合一”、“一照一码”登记制度改革;建立产品信息溯源制度以及建立大数据标准体系4项重点任务有质检总局参与, 其中前3项的时间进度都是今年年底, 标准体系建设的时间进度是2020年前分步出台并实施。

数据标准体系 篇2

应当关注的生产数据:

 流产率:按照月计算,此月能繁母猪出现返情和流产的比率  返情率:  配种率  出生重  产仔数  产健仔数  产房存活率  断奶体重  保育舍猪存活率  育肥舍猪存活率  出栏天数  出栏体重  料肉比  猪粮比  药物成本  日增重  日采食量  存栏量

 PSY(每头母猪一年提供上市商品猪的数目)技术人员和猪场交流最关键的指标是:

1.母猪年提供的上市商品猪数:

·中国平均水平:14头 ·中国优秀水平:18头以上

2.能繁母猪存栏数/存栏数

·正常水平:1:10

·优秀水平:1:12 注:存栏数指的是保育、产房、育肥所有商品猪。

对于连续性生产的猪场。小于1:10的猪群不正常,如果大于1:12有可能肥猪没有卖。3.肥猪上市的天数及体重

·正常水平:110公斤 150-160d 140公斤左右的要到180多d(一天长1kg)4.产胎率

·正常水平:85%

·优秀水平:95%(温氏正常考核水平是87%)5.日采食量 母

猪:

 后备猪:(选做后备种猪的最佳体重150斤)限饲2.5公斤左右/天。考虑营养浓度问题。

 待配母猪:(待配种猪最佳体重230斤以上)长大(二元杂)最佳配种条件:7-8月龄,体重在230斤以上,两到三次以上发情期以后,而且发情规律。

 怀孕前期(一个月内):限饲1.8-2.2公斤/天  怀孕中期(30-80天):2.5-2.8公斤/天  怀孕后期(81-107天):3.0-3.5公斤/天  84-90天开始换用哺乳料。

 怀孕后期(108-114天):逐渐减至1.5-2.0公斤/天,逐步过渡在哺乳料,分娩当天不喂料。哺乳母猪料蛋白比率在18%。 分娩当天:麸皮+安特宝  分娩第二天:不少于1.5公斤/天

 分娩五天:采食达到正常水平2.5公斤/天(8头猪计算)超过8头,多一头增加1公斤。不限食不剩料的原则。 分娩25天:不限料。仔猪采食量:

 产房:7-10天开始诱食。饲料用教槽料,母猪用哺乳母猪料。 断奶后2周左右从教槽料换成保育料。1:

2、1:

基于标准DLG入库数据加工处理 篇3

关键词:DLG 地形图 数据检查

一、引言

目前,有些地区是1:1万无图覆盖区,在基础测绘地形数据生产的时候,既要生产纸质地形图满足用图需求,又要生产DLG的GIS入库数据以满足应用需求。这两种数据前期均在GeoWay3.6平台上加工生产。

二、基本思路

紧密结合生产实际在现有生产的基础上,对DLG数据生产技术工艺流程进行改进,开发标准DLG入库数据批量处理及重点内容检查系统软件,使生产得DLG入库数据统一规范,进一步保证数据质量,提升地理信息数据库建设生产效率,加快基础地理信息数据库建设进程。

三、技术路线及实现方法

系统整体技术路线如下:(图一)

1. 在Geoway下导出E00格式数据之前,对Geoway数据进行整理。

(1) 图层属性整理

由于在图形处理的过程中由于多次拷贝、删除,可能会造成图形与数据库中的属性不一致,通过图层属性整理,可以去掉属性数据库中的冗余,实现图属的一致性。

(2) 方案整理

方案整理是对历史数据进行整理或对现有数据进行整理输出不同数据结果,并且能批处理多个工程。

(3) 固有属性转出

导出GIS数据前,一般需要将对象的某些固有属性值转出到指定的属性字段中,这样既免去手工对字段赋值的麻烦,又可与导出数据格式的属性处理机制相对应。其中字段名称为方案中已有的字段,且该字段必须在图层上。如果符合操作条件的对象上缺少相应字段、字段类型不符合要求、或获得的值超出字段设定范围,则程序不做处理且给出错误报告提醒用户。

(4)固有属性整理

固有属性转出后,可能需要对部分属性值进行整理和修改,如编码修改、有向点方向调整等。整理时取值方式有按实体值和按属性值两种,按实体值整理时,将取实体值按规则处理后存在指定字段中;按属性值整理,则取指定字段中的值,处理后替换原来的属性值。按实体值方式可以避免因属性值被修改或属性值没有及时更新等问题造成结果错误现象。

2. 设置好各项符合入库需求的参数,如地物类及高程等字段输出类型及宽度,然后用Geoway导出E00格式数据。

3. 在ARCGIS环境下用AML语言开发批量处理及重点内容检查系统软件。重点对DLG的数学基础、数据完整性、逻辑一致性、数据接边等做全面检查处理并重新拓扑要素关系,完全满足基础地理信息数据库建库要求。

数学基础检查包括数据的大地基准、高程基准、地图投影方式、分带情况是否符合数字线划图产品标准的要求。数据完整性检查包括数据分层的正确和完整性、属性项定义的正确和完备性,检查数据范围的正确性,检查要素属性项是否完整、顺序是否正确。逻辑一致性检查包括各层层名是否正确;检查属性项定义、属性项之间关系;检查拓扑关系是否正确,编辑完后是否重建拓扑关系。检查DLG数据与相邻图幅的图形和属性接边是否正确。数据接边为了能够满足接边要求在ARCGIS平台下利用相邻对象橡胶耦合功能对所有数据进行接边处理,对于图内的悬挂点、伪结点等进行处理。数据批量处理及重点内容检查系统具备如下的基本功能:

(1) 数据转换,包括E00转换批量转换成Coverage和 Coverage批量转换成E00,以便提高转换效率及避免人工操作造成的错误。

(2) 投影定义,Geoway导出E00后原投影信息丢失,需要重新定义。可根据不同比例尺数据重新定义。

(3) 数据自动接边,提供相邻图幅自动接边功能。只需输入图号,批量将两个Coverage数据层在0.02米范围之内进行自动接边,如果接边要素偏差较大,需人工干预处理。

(4) 换带接边,如果图幅跨带,将需要换带接边的数据进行转换后接边,自动进行接边。自动接边后,将数据再转回。

(5) 数据整理,将Geoway導出的数据剔除多余的特征,符合ARCGIS数据标准要求。之后对点、线、面要素进行重新拓扑,从而建立正确的拓扑关系。

(6) 必要的重点内容批量数据检查,包括图层名及图层数检查、接边情况、属性数据完整性及逻辑一致性等内容检查。接边检查,将要进行接边的数据拼接合并,检查接边情况和面层合并后产生不必要的破碎面等。利用code码为0功能进行非正常属性值检查。查找作业过程中产生的破碎小短线并删除。对数据的悬挂点进行检查是否正常,同时对不必要的伪节点查询修改。

四、结束语

通过一系列的数据批量整理与检查,使得基础测绘在同时生产两种数据的情况下,既能满足地形图数据规范要求,又能保证生产的DLG数据规范统一,确保DLG数据成果质量同时极大地提高生产效率。

参考文献:

数据标准体系 篇4

1) 交通科学数据整合集成离不开标准。

交通领域科学数据分布广泛,类型多样,采集手段各异,并且综合了公路、水运、铁路、民航等多种运输方式,使数据共享工作的展开面临极大的挑战。数据资源如何分类,如何描述其内容、结构,如何规范数据单元,如何定义数据的特征等问题是在交通科学数据共享工作开展前就应解决的首要问题[1]。

2) 交通科学数据共享工程的管理和建设需要标准。

交通科学数据共享工程庞大、复杂,需要投入很多的人力、物力、财力来确保整个工程的合理、有序、高效运行,包括对数据共享的管理,共享系统运行管理,规范系统建设和数据中心建设的程序和方法。所有这些规章及规范构成了交通科学数据共享工程运行管理机制的重要环节。

3) 交通科学数据共享的服务依赖标准。

交通科学数据共享的最终目标是将整合加工的数据资源,通过现代信息技术手段,向社会提供服务。标准化程度的高低直接决定服务质量的好坏,从数据的采集、加工、存储到数据的汇交、分发、应用,都必须依据标准,自上而下使整个交通行业的数据共享服务规范化,推动和促进科学数据共享的广度和深度。

2 交通科学数据共享标准规范体系框架

交通科学数据共享标准规范体系是在国家及交通领域相关政策法规的支撑下,在科学数据共享运行管理机制的保障下,依据国家科学数据共享工程颁布的一系列指导性标准[2,3],同时考虑公路、铁路、水运、民航等领域在数据描述、共享系统建设与管理、共享服务等方面的标准化需求综合研究制定的。

标准规范体系框架总体分3个层次,即指导类标准、通用类标准和领域专用标准。其中通用类标准又分为数据类、管理与建设类和服务类3个类别的标准。

交通科学数据共享标准规范体系建立原则如下:

1) 科学性。标准化的最基本原则,是采用所述标准的有关应用系统和技术系统安全、可靠、稳定运行的根本保障。

2) 系统性。是标准体系中各个标准之间内部联系和区别的体现,应做到内容全面和层次合理。

3) 先进性。充分利用现有先进技术,积极等同或等效采用国家标准、国际标准。

4) 可扩充性。既要考虑目前的技术和应用发展水平,也要对未来的发展趋势有所预见。

3 标准规范体系主要内容

3.1 指导类标准

国家科学数据共享工程中给出的定义是指与标准的制定、应用和理解等方面相关的标准。在本体系中,它应能阐述交通科学数据共享标准化的总体需求、概念、组成和相互关系,以及使用的基本原则和方法等。除包括国家科学数据共享工程中颁布的系列指导类标准之外,还包括《交通科学数据共享概念与术语》等交通领域指导类标准。

3.2 通用类标准

通用类标准是指交通行业在公路、铁路、水运、民航等领域具有共性的标准。遵循这些标准,能够实现交通各领域数据规范化的定义、描述、加工、整合、存储及交换无歧义理解。主要通用类标准有:

1) 数据类标准。如《交通运输科学数据共享元数据内容》、《交通运输科学数据共享数据元目录》、《交通运输科学数据分类与编码》、《交通运输科学数据共享数据模式》、《交通运输科学数据图式表达目录》、《交通运输科学数据共享数据交换格式》等。

2) 管理与建设类标准。如《交通运输科学数据共享管理办法》、《交通运输科学数据汇交管理办法》、《交通科学数据共享网建设规范》、《交通科学数据共享数据中心建设规范》、《交通科学数据共享网运行管理规定》等。

3) 服务类标准。如《数据加工规范》、《元数据检索和提取协议》、《交通运输科学数据质量控制》等。

3.3 领域专用标准

领域专用标准即根据通用标准制定的、满足特定领域数据共享需求的标准,具体反映某领域数据特征的数据类标准,如《公路水运领域共享元数据内容标准》,即可在《交通运输科学数据共享元数据内容》标准的基础上,结合公路水运所拥有的数据资源特征,进行扩展和细化。

4 体系中重点标准的剖析

交通科学数据共享标准体系中的各专项标准,以国家科学数据共享工程颁布的系列指导性标准为依据,在深入学习数据共享理论和广泛调研行业资源需求的前提下,借鉴科学数据共享工程中其他试点单位的先进标准编制经验,结合交通领域资源特色,遵循急用先行的原则,研究制定。从数据分类编码、元数据内容、数据元、数据汇交管理、数据质量控制等方面入手,逐步丰富、完善,满足交通科学数据共享的需要。

4.1 数据分类与编码标准

数据分类与编码标准编制目的在于准确地识别和有效地管理交通运输科学数据,保证其在科学数据共享工程范围内组织、存储及交换的一致性。交通行业已存在各种各样的分类对象和分类习惯,如何最大程度的统一分类思想,既尊重现有的应用系统和信息系统对交通资源的分类方式和用户的检索习惯,又要兼顾科学数据共享对资源分类的各种要求,最终保证交通领域产生的各种科学数据资源有类可归,是该标准在研究制定过程中面临的一大难题。

交通科学数据资源分类采用线分类法,其中,大类划分为公路、铁路、水运、民航和综合运输。在每一大类之下划分若干中类,每一中类下划分若干小类,共计43个中类和247个小类,按照国家科学数据共享工程统一的编码规则对各类逐级进行编码。

交通运输科学数据中类的划分主要参考GB/T 13745—92《学科分类与代码表》中有关交通运输行业的类目设置,以及《中国图书资料分类法》中类目的设置,对较成熟的类目基本沿用,其他中类类目则根据科学数据的内容特征、行业特点等确定。而小类的划分以学科分类体系为主要依据,兼顾行业数据的来源、存在形式、形成过程、未来需求和方便检索的原则,力求类目设置完整、数量均衡。

4.2 元数据内容标准

元数据是关于数据的数据,是对数据和数据集合的规范化描述。交通科学数据共享元数据内容标准定义了完整描述交通领域具体数据或数据集时需要的数据项集合、各数据项语义定义等[3]。它提供了有关交通运输科学数据的标识、内容、分发、数据质量、参照、数据模式、图式表达、扩展、限制和维护等信息。

交通科学数据共享元数据内容标准在科技部颁布的《科学数据共享工程元数据内容》标准的基础上,在包含其核心元数据的前提下,裁减参考元数据并新建凸显交通资源特征的实体和元素编制而成。在定义和描述元数据时采用3种方式:摘要表示、数据字典描述和UML 图描述[4]。

依据本标准,交通行业各数据资源拥有单位对各自的在线或离线资源进行标引并著录,提交元数据至交通科学数据共享网(以下简称“共享网”)数据管理后台,管理员审核相关元数据内容的真实性、可靠性、安全性,经审核合格的元数据给予发布。目前,交通科学数据共享网已著录元数据2 000余条,并将核心元数据提交国家科技基础条件平台,通过资源整合接口,在平台门户上即可跨平台检索到交通科学数据元数据。

4.3 数据元目录标准

数据元是用来描述数据的最基本单元,是数据建模的基本元素,更微观的保障了“共享网”数据资源的共享与交换。《交通科学数据共享数据元目录标准》解决了“共享网”科学数据资源生产、管理、服务中,相同概念的数据元,由于命名、定义、分类标识、表达格式、数据类型、表示方法等不一致造成的混乱,对内,可作为交通科学数据资源采集、加工、处理环节工作人员的操作规范;对外,可使参与到交通科学数据共建共享的相关责任方,根据本标准对交通科技信息资源进行汇交、分发、服务和应用。

《交通运输科学数据共享数据元目录》在公路水运领域参考行业基础数据元集标准,从中选取部分科学数据共享所需的数据元,但描述方式仍然遵守科技部颁布的《数据元标准化原则与方法》的要求。铁路、民航领域、部分公路和水运领域的数据元无正式行业标准可依,因此按照自下而上的方法,提取行业现有业务系统、应用系统中的数据元,并梳理领域数据资源,兼顾未来资源整合需求进行数据元目录的编制,最终形成总的交通科学数据共享数据元目录。

总之,《交通科学数据共享数据元目录》的制定,为交通运输科学数据共享工程中涉及的数据元提供了统一标准,保证了相同概念的数据元在语义上的无歧义理解,提高建库质量,促进数据加工的规范化、标准化,推动了交通领域科学数据在各个层面上的集成与共享。

5 结 论

1) 交通科学数据共享标准规范体系是一个开放的体系,在科学数据共享活动进行过程中,可以根据具体的应用情况,随时补充制定对数据共享的建设、管理、服务等方面有价值的标准或规范。

2) 交通科学数据共享标准规范体系是一个动态稳定的体系,它所包含的某些专项标准正处于动态稳定的状态中,需要根据其在共享工程中的应用效果,结合行业技术专家和国家科学数据共享工程标准规范编制专家的意见,不断的进行修改完善,最终达到稳定成熟。

3) 构成交通科学数据共享标准规范体系的每项标准,都具有重要的作用和价值。

4) 交通科学数据共享标准规范体系建设是一个复杂而漫长的过程。我国新组建的交通运输部整合了原交通部、原中国民用航空总局的职责以及原建设部的指导城市客运职责,并负责管理国家邮政局和新组建的国家民用航空局。目前,交通科学数据共享资源对象仅包含公路、铁路、水运、民航4个交通运输领域,今后,交通邮政运输也必将纳入到交通科学数据共享工程范围中。因此,现有的交通科学数据共享标准规范体系的具体内容,还有待进一步的研究和深化[5],相信随着交通科学数据共享工程的不断推进,必将使交通科学数据共享标准规范体系建设逐步走向成熟。

参考文献

[1]徐枫.科学数据共享标准体系框架[J].中国基础科学,2003(1):44-48

[2]国家信息中心.科学数据共享工程动技术标准.SD/T1003—2004科学数据共享概念与术语———第1部分:概念(征求意见稿)[S].北京:国家科技部,2005

[3]国家信息中心.科学数据工程共享技术标准.SDS/T2112—2004科学技术共享工程技术标准(征求意见稿)[S].北京:国家科技部,2005

[4]王辉,林垚.周紫君.基于元数据的交通运输科学数据共享平台设计[J].交通与计算机,2008,26(2):87

数据标准体系 篇5

标准化被普遍认为是保证信息更有效处理、交换、管理以及消除技术壁垒的最有效手段.信息共享标准是为规范信息共享的行为而制订的,是实现信息共享的“软”环境.通过对地震现场信息共享标准化研究,概述了这一标准制定的.过程、总体内容框架安排的一些考虑以及存在问题,讨论了地震现场信息共享标准分类与编码体系、数据交换格式、元数据、数据字典及数据质量控制等与信息共享标准相关的一些问题.

作 者:黄宏生 王晓青 孙柏涛 丁香 王东明 Huang Hongsheng Wang Xiaoqing Sun Baitao Ding Xiang Wang Dongming 作者单位:黄宏生,Huang Hongsheng(福建省地震局,福建,福州,350003)

王晓青,丁香,Wang Xiaoqing,Ding Xiang(中国地震局,地震预测研究所,北京,100036)

孙柏涛,Sun Baitao(中国地震局,工程力学研究所,黑龙江,哈尔滨,150080)

王东明,Wang Dongming(中国地震局,搜救中心,北京,100049)

数据标准体系 篇6

2004年以来, 国家工商总局开始大力推动我国工商系统信息化标准建设工作, 先后制定了30多部工商信息化标准, 初步形成了较为完备的工商系统信息化标准体系。2010、2011年总局先后印发《关于在全国工商行政管理系统开展“数据质量建设年”活动的通知》 (工商办字[2010]80号) 、《统一信息化标准工作实施方案》 (工商办字[2011]76号) 等多个文件, 要求地方工商行政管理部门加强数据标准建设, 提升系统数据质量, 促进业务规范和联网应用。统一信息化数据标准是一项全局性的基础工作, 涉及工商行政管理各项业务, 是实现信息共享、推进信息化一体化的基本前提, 是发挥信息化整体效能、提高工商监管执法水平的基础保障。几年来, 全市工商系统为提高数据质量, 采取升级业务软件、建立问题追溯系统等措施, 做了大量的工作, 也取得了一定的成效。但在整改过程中也发现, 与总局要求相比, 天津市工商局数据标准化建设仍然存在着信息分类编码不一致、数据分类缺失等漏洞, 给数据管理带来诸多混乱, 严重影响数据质量。因此, 加强天津工商系统信息化符合性数据标准体系研究, 是贯彻落实总局统一信息标准、提高工商系统数据质量、实现总局与市局、分局和所信息系统互联互通、信息化数据有效对接的重要组成部分。是建立规范的、统一的、完备的《天津市工商行政数据标准体系》, 进一步推动天津市工商行政管理系统信息标准建设的重要举措。是提升天津市工商行政管理系统业务水平、促进全市工商系统信息资源整合力度, 推进信息化与工商业务融合的重要支撑。

二、全市工商行政管理信息化数据体系现状分析

经过多年信息化建设, 全市逐步建立了20余套基于工商业务的管理信息系统, 全市工商系统的主要业务均在网上进行, 基本实现了工商业务网络化, 建成了天津市工商行政管理数据中心, 实现了工商应用平台全市大统一、数据存储全市大集中, 数据之间初步达到关联共享, 数据结构的基本情况是:

(一) 信息分类编码

全市工商的各个业务系统都涉及到信息分类编码。由于这些系统建成年代较早, 很多系统在建立之初没有可参考的数据标准, 导致信息分类编码没有统一规划, 编码缺乏规范。经过近几年的系统规划与整合, 对应国家工商总局相应的信息分类编码标准进行了多次升级改造, 如根据《GS 15-2006-工商行政管理注册号编制规则》, 完成了市场主体注册号的升级改造工作, 使之完全符合总局的规定, 保证了各类市场主体所拥有的工商注册号是一个全国唯一、终身不变的号码, 促进了工商行政管理机关对市场主体的有效监管和信息化建设。经过多年的努力, 信息分类编码逐步向总局标准靠拢, 天津市工商局现共有566个标准统一的业务数据编码集, 已经基本形成了一套有天津特色, 适应天津工商行政管理业务的信息分类编码体系。

(二) 基础数据

由于天津市工商局信息化工作开展较早, 部分系统建设甚至早于国家工商总局, 很多系统在建立之初没有可参照的依据, 因此没有建立相应的文档和规范, 所以目前全市还没有形成统一规范的基础数据集。

(三) 应用数据

在应用数据层面, 市局现行的数据结构主要涉及名称核准、内外资登记、行政执法、年检验照、12315、网格化监管等九大系统, 涉及330余张数据库主表、2000余张附属表和过程表等。现行数据指标体系是多年以来结合天津市工商系统业务实际逐渐形成的。

下面仅以内资登记系统中涉及的数据结构为例进行分析

内资登记管理系统是工商行政管理局对其所管辖的区域内进行内资市场主体准入与退出登记管理的业务操作系统。其中内资市场主体准入模块主要实现内资市场主体的注册登记、变更登记、迁出登记、迁入登记、转制登记、证照管理及相应的查询和统计等功能;内资市场主体退出模块主要实现内资市场主体的注销登记、吊销登记及相应的查询和统计等功能。内资登记管理系统数据结构示意图如下:

内资登记管理系统包括内资营业, 内资公司, 内资企业法人, 内资分公司, 内资集团, 个体工商户, 私营公司, 私营分公司、合伙企业分支、个人独资分支、私营企业分支、农民专业合作社分支, 私营企业, 农民专业合作社, 私营集团, 个人独资企业, 合伙企业共13种企业主体, 涉及企业基本信息、住所及经营场所信息、负责人信息、法定代表人信息、投资情况、投资人信息、许可信息、变更信息、清算情况、注销登记与恢复信息、吊销登记与恢复信息等。其中内资公司下含有内资公司分支机构信息, 内资企业法人下含有法人投资方信息、自然人投资方信息, 私营企业下含有投资者信息、企业货币出资信息、企业非货币出资信息、私营企业分支机构, 合伙企业下含有合伙人信息、执行事务合伙人信息, 农民专业合作社下含有成员信息、理事信息, 个体工商户下含有个体工商户经营者信息。内资登记管理系统共计45张数据库表。

三、天津市工商系统业务数据体系与总局信息化数据标准体系对比分析

(一) 信息分类编码的差别

近几年天津市工商系统做了大量数据标准化工作, 编码表已经较为规范, 但同总局标准比较, 部分编码表的编码仍有一些出入, 这是目前天津工商现有业务数据体系信息分类编码中最为突出的问题。

在2011年数据质量自检中, 通过与总局基础编码集103个编码表的对比, 其中与总局标准完全一致的有36个表, 在67个编码表中共发现与总局标准不一致的编码或名称4391项次, 结果如下表:

对比差异集中在几个编码表, 主要表现在以下几个方面:

1. 部分编码方式与总局标准不一致

如企业性质编码表, 该表中的编码与总局现行标准编码有一定的出入, 但经过转换可以满足总局数据上报的要求。

2. 部分编码表更新不及时

如国民经济编码表, 国家标准在2008年进行过修订, 但市局部分业务系统中未进行及时地更新, 造成部分编码项缺失。

3. 业务差异化造成编码的不一致

如年检状态编码表, 总局标准中没有“参检不符合规定”这个编码, 但这个编码是我市实际业务工作中存在而且不可缺少的, 所以此部分与总局不一致编码的存在还是有其存在价值和合理性的。

4. 名称表述的不规范

有部分编码项在我市编码表和总局编码表中具有相同含义, 编码一致, 但名称不一致;或名称一致, 编码不一致。如荣誉等级编码表、组成形式编码表都属于这种情况。

5. 编码定义不完整

在天津市的部分编码表中, 由于一些客观原因, 只列出了天津市业务经常使用的编码, 而没有设置业务涉及较少的编码。如果以后业务操作过程中使用到这些编码, 还需在系统中添加。如许可文件类型编码表, 与总局标准相比, 天津市的编码设置不完整, 不能覆盖全部种类的文件类型。

6. 字符不规范

在天津市编码表中, 有部分编码的名称包含半角括号、空格等字符, 对应于总局编码表, 所有的括号均为全角字符, 而且没有编码存在空格符。由于与总局标准有出入, 这些半角字符和空格在数据上报转换过程会一定的隐患。

另外, 总局今年新增编码表16个, 主要涉及食品流通许可监管、网络交易市场监管等方面, 这些内容也要添加进对应的业务管理系统。

(二) 基础数据的差别

对比总局的《工商行政管理基础数据元》, 绝大部分内容在全市工商的各个业务系统共享和互动中可以体现, 但由于历史原因, 没有像总局一样统一归纳总结, 提出一份完整的基础数据元, 没有形成标准化文档。

(三) 应用数据的差别

通过与总局各业务系统数据规范的对比, 市局九大业务系统现行的数据指标主要存在以下几方面的问题:

问题一:部分信息的数据标准缺失。

通过与总局各业务体系数据规范对比, 我们发现由于各种原因, 有部分信息的数据标准天津市未设置。其中名称预核准、内外资登记系统的数据标准缺失较少, 行政执法、12315等部分缺失内容较多。

问题二:部分总局标准中设置的非空字段, 天津市未设置非空属性。

在总局制订发布的各业务体系数据规范中, 有部分表的部分字段属于基础信息或比较重要的信息, 总局标准设置为非空字段, 即在前台业务系统中该项必须输入, 不能为空。同时在总局数据质量检查中也要求这部分字段不能为空, 以满足数据完整性的要求。

由于这些非空字段都是基础数据或较为重要的数据, 并且数据完整性是总局数据质量检查的重要内容, 所占比重最大, 所以对这类问题必须加以重视和解决。这其中包括数据库的修改和业务系统的修改。数据库的修改是指把表中字段的属性设置为非空, 同时在通过业务系统中要添加这些字段必须录入不可为空的判断条件, 从源头上保证数据的完整性。

问题三:部分数据标准符合性修订有延迟。

为了适应不断发展的业务需要, 总局会不定时修订已发布的种业务体系数据规范。由于数据标准的修订, 必然涉及业务系统软件的修改, 而数据库的变化对业务系统软件的影响往往是比较大的, 修改过的业务系统会面临一定的运行风险, 因此必须要经过严格的系统测试才能上线运行, 这都需要一定的时间。由于这些原因, 对于总局各业务规范小规模小范围的变化, 天津市相应的数据标准符合性往往不能及时修订。

目前天津市现行各业务系统的数据结构及其划分方式与总局数据规范的范围和划分方式有一定的差别, 造成这些差别的主要原因有以下几个方面:

一是从部门职能和工作范围上, 总局与市局有差别。在业务上, 总局各司局与市局各处室在业务上不能完全对应, 有的业务在总局和市局管理部门不同。业务职责的不同造成了在数据体系上的差别。

二是天津市工商系统信息化起步早。由于市局很多系统的建设时间早, 在系统建设之初缺乏可供参考的数据规范, 所以市局一直沿用多年以来已形成的一套数据体系。

三是总局与市局制订数据标准体系所处的角度不同。总局制订全国工商系统的数据标准体系, 是站在统筹全局的角度来考虑, 要充分考虑各地方的实际业务需要和不同的需求, 要考虑标准的通用性, 而市局在制订数据标准时也考虑天津市的实际情况。市局现行的数据结构及系统划分充分结合了天津市工商系统的各项具体业务实际。现行各系统的划分及其数据结都是在调研市局各业务处室、各分局、工商所的基础上, 统筹规划, 逐步形成的。经过多年的实践运行检验, 可以满足天津市工商系统实际业务工作需要。

四、对天津市工商系统信息化数据体系整改的建议

为从根本上解决数据质量问题, 必须以总局标准为依托, 尽快建立健全具有天津工商特色的信息化体系。

1.用总局标准统一信息分类编码

在确保编码完全一致、名称含义相同的前提下, 尽量满足天津市工商系统的特色需要。在信息分类编码统一的过程中, 应着重注意在编码表变更后, 同时根据新编码变更已有数据中的相应编码值。

2.建立天津市工商行政管理基础数据集

对比总局的《工商行政管理基础数据元》, 从市局现有各个业务系统的共享方式和互动模块中提取出可复用的共性数据, 加以归纳总结, 提出一份完整的天津市工商系统基础数据集, 并制成标准化文档, 作为我市工商业务各系统数据库设计的参照依据, 为实现天津工商信息数据标准化奠定坚实基础。

3.应用数据向总局标准靠拢

数据标准体系 篇7

自2004年中石油勘探与生产技术数据管理系统 (A1) 项目在大庆油田实施以来, 大庆油田逐步实现了地震勘探解释成果等数据的集中统一管理, 但由于数据来源繁多、格式复杂、管理技术难度大, 一直以来只能依靠相关专业软件进行较为粗放的管理, 存在以下四个方面的问题:一是底层数据模型的局限性导致了数据属性信息的缺失以及附属文档图件等数据内容的管理空白, 数据的完整性无法保证;二是管理方式与A1主库的异构性导致了数据之间的不连通, 数据的综合检索功能难以实现, 影响数据的使用;三是大块成果类数据存储格式的封闭性导致数据加工处理模块的开发存在技术壁垒, 数据的深化应用功能无法实现;四是基于该管理模式的数据标准体系及流程规范等配套技术无法满足当前日益提高的数据管理与应用需求。

针对上述问题, 我们开展了地震勘探解释成果标准化数据管理体系研究, 建立了自主化、标准化的地震勘探解释成果数据质量管理体系, 实现了A1主库成果类数据的规范化管理, 进一步提升数据管理水平, 增强数据服务能力, 为油田勘探开发主营业务提供更高效、更友好的数据保障。

一、理论依据及实施过程

1.1数据管理标准制定。数据管理技术体系的实施离不开相关数据管理标准的支撑。为了更规范的完成地震勘探解释成果管理与数据库建设, 我们先后起草制定了《石油天然气物探工程数据格式规范》和《地震解释归档数据命名规范》等3项股份公司、油田公司数据管理规范, 建立了中石油统一的石油物探成果数据归档标准, 定义了地震、非地震等地震勘探解释成果归档数据的内容、格式、命名及存储介质, 为地震勘探解释成果管理与数据库建设提供了标准保障。

1.2核心关键技术研究。地震勘探解释成果标准化数据管理体系的技术核心是数据模型的设计与实现。针对地震勘探解释数据模型设计中存在的技术难点, 开展了大块数据标准化存储技术及EPDM数据模型设计技术研究, 实现了油田地震勘探解释成果在A1主库中的一体化管理, 建立了油田地震勘探解释成果相关数据间的有机关联。

1.2.1大块数据标准化存储技术。空间数据库是一套支持在Oracle内进行空间数据存储的技术, 能够正确、恰当地存储具有空间属性的主库大块成果类数据, 具有良好的技术应用前景。通过数据存储技术研究, 在业内首次利用空间数据库技术实现了层位、断层等“线”、“面”类型大块成果类数据的标准化存储, 全面覆盖了A1主库地震勘探解释成果类数据内容, 改变了地震勘探成果数据基于文件形式的落后存储模式, 实现了A1主库大块成果类数据的标准化管理。

1.2.2 EPDM数据模型设计技术。在梳理地震勘探解释工作的业务流、数据流和软件流, 进一步理清数据关系的基础上, 设计完成了基于项目、解释成果的地震勘探解释成果数据模型, 模型由地震解释子模型、项目成果子模型组成, 其中地震勘探解释子模型涉及数据表18张, 字段182项, 实现了对工区基本信息、工区导航数据、地震解释层位数据、地震解释断层数据、地震解释断层多边形数据、速度场数据等地震解释成果数据内容的全覆盖;项目成果子模型设计数据表6张, 字段56项, 实现了对于项目基本信息、项目文档图件等数据内容的全覆盖。应用该技术完成了地震解释数据库的建设工作, 数据模型的可行性、稳定性得到了充分的验证。

1.3归档流程建立与执行。新数据入库是数据库生命力的重要的保障。在新数据入库过程中, 数据的完整性、准确性是数据归档最核心的内容。在之前的归档流程中, 有两个问题需要解决, 一是解决归档数据收集无据可依的问题, 转“给什么要什么”为“要什么给什么”, 提高入库数据的完整性;二是解决数据质量控制责任不清的问题, 建立“查一项, 签一项”的责任机制, 以提高入库数据的准确性。我们完善地震勘探解释成果数据归档流程, 体现在以下三个方面:

一是增加了应归档数据确认节点, 实现了数据收集有据可依。在接收到归档任务后, 首先通过梳理项目合同、项目技术总结报告及项目汇报多媒体三份文档, 从中确定出应归档数据内容清单, 详细列明应归档数据内容、数据量及数据格式, 并由专业人员签字确认, 形成归档成果主要依据。

二是完善了数据接收节点, 确保入库数据完整无缺。依据应归档数据清单, 数据管理人员逐项接收相关数据内容, 编写数据完整性检查反馈意见单;归档人员对照该意见单补录数据或说明, 并由专业人员签字确认。

三是完善了数据质量检查节点, 保障归档数据准确无误。明确区分质控责任, 数据完整性检查后, 由专业人员对数据质量逐项检查签字确认。

1.4全新管理架构搭建。基于上述研究成果与管理体系, 我们搭建了全新的地震勘探解释成果数据管理架构。该架构由数据归档、数据管理和数据服务接口三部分组成, 其中数据汇交部分由数据预处理、属性录入、文档加载及专业软件ETL四个模块组成, 实现原始数据向地震勘探解释成果库的高效加载功能;数据管理部分由数据维护模块、数据质控模块等5个部分组成, 实现日常数据管理功能;数据服务接口由数据查询、数据下载等4个模块组成, 用于向用户提供数据应用支持。该架构一方面与当前A1项目主库数据管理架构兼容, 另一方面改变了之前“条带装”的地震勘探解释成果数据管理模式, 实现了地震勘探解释成果数据的一体化管理, 建立了大块成果类数据与井筒类等其它数据的有机关联, 数据管理水平进一步提高。

二、实施效果及结论

通过技术研究与管理创新, 建立了大庆油田全新的地震勘探解释成果数据质量管理体系, 实现了地震勘探解释成果数据的标准化、规范化管理, 同之前相比, 有以下几个方面的改进:

一是建立了全新的技术架构, 实现了基于Oracle的主库数据一体化管理, 解决了之前大块成果类数据无法管理, 只能依靠文档形式打包存储的问题。

二是起草制定了一系列数据管理标准, 解决了之前地震勘探解释成果数据管理无据可依的问题, 数据管理进一步标准化、规范化。《石油天然气物探工程数据格式规范》等3项标准已全面应用到数据管理过程中。

三是完善了数据维护流程, 规范了归档过程中的关键节点, 进一步提高了入库数据质量。相关流程已在日常数据维护中全面贯彻执行, 有效的保障了入库数据的完整性、准确性。

总体来说, 通过建立标准化的地震勘探解释成果数据管理体系, A1项目主库数据质量管理内容进一步扩展, 数据管理技术进一步加强, 数据管理水平进一步提高, 数据应用水平进一步提升。

摘要:本文分析了中石油地震勘探解释成果数据管理及应用方面存在的问题, 依据《石油天然气物探工程数据格式规范》等企业标准规范, 建立了地震勘探解释成果数据标准化管理体系, 使A1项目主库大块数据管理与应用进一步向标准化、规范化的方向迈进。

关键词:标准化质量管理,地震勘探解释成果,EPDM数据模型

参考文献

[1]李伟, 刘瑞超.石油天然气物探工程数据格式规范 (Q/SY1749—2014) [J].中国石油天然气集团公司企业标准, 2013.

[2]王洪礼, 陈卫军, 李伟.地震解释归档数据命名规范 (Q/SY DQ1441-2010) [J].大庆油田有限责任公司企业标准, 2010.

大数据标准化现状及标准研制 篇8

大数据是新一轮信息技术革命与人类经济社会活动交汇融合的必然产物,大数据的应用将成为未来提升生产力、竞争力、创新能力的关键要素,也是目前全球产业转型必须面对的重要课题。推动大数据的发展,是提升运营效率,优化供应链,提升竞争力和创新商业模式的重要抓手,对推动产业转型升级,具有十分重要的战略意义和现实意义。

大数据领域的标准化工作是支撑大数据产业发展和应用的重要基础。加快大数据关键技术和标准的研发创新,促进大数据的发展和应用,推动我国大数据产业转型升级,是我国科技发展重大战略需求。大数据领域的标准化工作定会对未来的产业、 生活起着不可估量的作用。

2 大数据标准化现状

随着大数据技术的发展与应用,大数据标准研制已成为国际各标准化组织共同关注的热点,然而尚处于起步阶段。

2.1 国外大数据标准化组织

(1) ISO/IEC JTC1 WG9

ISO/IEC JTC1于2013年11月全会上成立负责大数据国际标准化的大数据研究组 (ISO/IEC JTC1SG2),并由美国国家标准与技术研究院 (NIST) 专家Wo Chang担任召集人。其工作重点包括:调研ISO、IEC、ISO/IEC JTC1等在大数据领域的关键技术、 参考模型以及用例等标准基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序。

2014年11月,ISO/IEC JCT1 SG2向ISO/IEC JTC1全会提交了研究组的研究报告,其中包括建议成立独立的JTC1大数据工作组,需要标准化的大数据技术点。根据SG2的建议,ISO/IEC JTC1于此次会上成立了负责大数据国际标准化的大数据工作组 (ISO/IEC JTC1 WG9),由Wo Chang担任召集人。

WG9的工作重点包括:开发大数据基础性标准,包括参考架构和术语;识别大数据标准化需求; 同大数据相关的JTC1其他工作组保持联络关系; 同JTC1外其他大数据相关标准组织保持联络关系。 目前,WG9正在研制“Information technology - Big Data- Overview and Vocabulary”(《信息技术大数据概述和术语》) 和“Information Technology - Big Data - Reference Architecture”(《信息技术大数据参考架构》) 两项国际标准。

(2) ISO/IEC JTC1/SC32

ISO/IEC JTC1/SC32数据管理和交换分技术委员会致力于研制信息系统环境内及之间的数据管理和交换标准,为跨行业领域协调数据管理能力提供技术性支持 , 其标准化内容涵盖 : 协调现有和新生数据标准化领域的参考模型和框架;负责数据域定义、数据类型和数据结构以及相关的语义等标准; 负责用于持久存储、并发访问、并发更新和交换数据的语言、服务和协议等标准;负责用于构造、组织和注册元数据及共享和互操作相关的其他信息资源 ( 电子商务等 ) 的方法、语言服务和协议等标准。 在2012年成立下一代分析技术与大数据研究组, 并于2014年6月,启动四项为大数据提供标准化支持的新工作项目:SQL对多维数组的支持、SQL对JSON的支持、数据集注册元模型和数据源注册元模型。

(3) ITU-T

ITU-T也开展了大数据领域相关标准化工作, 重点研究了基于大数据的云计算相关技术,2013年11月发布《大数据:今天巨大,明天平常》的技术观察报告,该报告分析了大数据相关的应用实例, 指出大数据的基本特征、促进大数据发展的技术, 同时还分析了大数据面临的挑战和ITU-T可能开展的标准化工作。ITU-T的大数据标准化工作主要在SG13 ( 第13研究组 ) 开展,具体包括该研究组下设的Q2 ( 第2课题组 ) 涉及的研究课题“针对大数据的物联网具体需求和能力要求”、Q17 ( 第17课题组 ) 涉及的研究课题“基于云计算的大数据需求和能力”以及Q18 ( 第18课题组 ) 涉及的研究课题“大数据即业务的功能 架构”, 并由Q17牵头开展ITU-T大数据标准化路标的制定工作并负责向TSAG( 电信标准化咨询委员会 ) 汇报。

(4) NIST

NIST于2013年6月成立了大数据公共工作组 (NBD-PWG),其工作范围是建立来自于产业界、学术界和政府的公共环境,共同形成达成共识的定义、 术语、安全参考体系结构和技术路线图,提出数据分析技术应满足的互操作、可移植性、可用性和扩展性需求和安全有效地支持大数据应用的技术基础设施,用于为大数据相关方选择最佳的方案。NBD PWG下设术语和定义、用例和需求、安全和隐私、 参考体系结构和技术路线图五个分组,目前已经完成了《大数据定义》、《大数据分类》、《大数据用例和需求》、《大数据安全和隐私需求》、《大数据参考架构调研白皮书》、《大数据参考架构》 和《大数据技术路线图》等V1.0版本,已于2015年5月21日完成征求意见,并同时进行V2.0的工作。

2.2 国内大数据标准化组织

全国信息技术标准化技术委员会 (TC28, 以下简称“全国信标委”) 持续开展数据标准化工作 , 在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。

为了推动和规范我国大数据产业的快速发展, 建立大数据产业链,与国际标准接轨,全国信标委于2014年12月2日正式成立大数据标准工作组。

工作组主要负责制定和完善我国大数据领域标准体系,组织开展大数据相关技术和标准的研究, 申报国家、行业标准,承担国家、行业标准制修订计划任务,宣传、推广标准实施,组织推动国际标准化活动。对口ISO/IEC JTC1 WG9大数据工作组。

工作组组织机构如图1所示。

大数据总体专题组,负责工作组基础技术和标准化保障规范研究,包括大数据术语、参考架构、 用户需求研究和共性、基础标准的研制。该专题组近期将加强基础数据、大数据交易方面的研究,积极推动相关标准的研制,建立元数据仓库,并进一步完善我国大数据标准体系,完善并发布《大数据标准化白皮书V2.0》。

大数据国际专题组,负责支撑国际标准的研制工作,跟踪国际标准化活动。专题组将积极参与大数据国际标准的编制,目前专题组成员已担任国际标准《信息技术大数据概述和术语》的联合编辑。 未来专题组将积极推进我国大数据领域的国际标准提案,提高我国在大数据领域的国际话语权。

大数据技术专题组,主要研究与制定大数据领域的相关技术标准,深入研究大数据的收集、预处理、 分析、可视化以及数据质量等相关技术。技术专题组将全面调研,重点关注国内最新研究成果;针对需求, 优先应对需求最为迫切的领域与问题;面向实用,与实际应用结合,通过典型领域宣贯推广获得反馈,持续改进;密切合作,与总体、国际、领域等其他相关小组密切合作,形成合力,积极推动数据描述、评估、 采集、集成等关键基础性标准预研与制定。

大数据产品和平台专题组,负责大数据产品和平台相关标准化保障规范研究,包括用户需求的研究和各种技术的应用解决方案。本专题组将持续致力于协 调组织各 大数据平台和产品的相关企业,对具有明显大数据特征的处理平台和相关产品及其管理、验证等系列标准进行研制,为提升跨行业领域协调数据管理能力提供技术性支持。

大数据安全专题组, 负责大数据安全标准化保障规范研究,包括数据开放共享中涉及的安全、隐私保护等。安全专题组将积极开展基础安全及监管政策类、大数据安全技术类、大数据产品和平台安全类、大数据业务安全及安全业务类、大数据安全管理及业务连续性类等方面的大数据安全标准。

工业大数据专题组,负责工业领域的大数据标准化保障规范研究,包括工业大数据在工业产品、 研发设计、生产过程、生产性服务等方面相关标准研制,推动制造业向智能化方向转型。近期将重点完善工业大数据标准体系,确定工业大数据参考架构,开展工业领域元数据、标识等相关标准的研制。

电子商务大数据专题组,将深入研究大数据在电子商务领域的应用,包括精准营销、物流与仓储优化、 用户体验、市场预测等,并将积极开展在电子商务大数据采集标准、电子商务大数据仓库建设模型标准、 电子商务大数据标准化指标体系等标准的研制。

3 大数据标准体系框架

2014年7月,中国电子技术标准化研究院发布《大数据标准化白皮书》,公布了大数据标准体系框架。 随着大数据的发展,大数据标准体系框架也在不断发生着变化。近期,全国信标委大数据标准工作组对大数据标准体系框架进行修订,形成大数据标准体系框架2.0版本征求意见稿 ( 如图2所示 )。

大数据标准体系由五个类别的标准组成,分别为:基础标准、技术标准、产品和平台标准、大数据安全标准及应用和服务标准。

(1) 基础标准

为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。

(2) 技术标准

该类标准主要针对大数据相关技术进行规范。 包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、 访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。

(3) 产品和平台标准

该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中,关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、 技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、 OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需要用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、 平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。

(4) 大数据安全标准

数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。

(5) 应用和服务标准

应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中,开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准, 包括工业、电子商务等领域。

4 标准研制

2014年国家立项大数据领域10项国家标准:《多媒体数据语义描述要求》、《数据能力成熟度评价模型》、《信息技术大数据技术参考模型》、《信息技术大数据术语》、《信息技术科学数据引用》、 《信息技术数据交易服务平台交易数据描述》、《信息技术数据交易服务平台通用功能要求》、《信息技术数据溯源描述模型》、《信息技术数据质量评价指标》、《信息技术通用数据导入接口规范》, 该10项标准正在研制中,部分标准已经形成草案。

为了推动大数据的发展,大数据标准工作组将加强元数据、工业大数据、数据分类、数据开放共享、 安全与隐私等方面的研究与应用,着力开展相关标准体系架构搭建和重点标准研制工作。并通过标准符合性测试以及相应的评价、认证等工作,全面提高数据质量,提升数据服务能力,推动产业发展。

摘要:介绍了ISO/IEC JTC1 WG9、ISO/IEC JTC1SC32、ITU-T、NIST国际标准化组织在大数据领域的标准化工作,国内全国信标委大数据标准工作组的工作范围、组织机构及在大数据领域的标准化工作,概述了国内大数据标准体系及标准研制情况。

探究人口基础数据库数据结构标准 篇9

1 研究概况

1.1 研究进展

随着人口数据库建设工作的不断深入开展。我国的人口基础数据库数据结构标准也在不断向前发展。人口基础数据库数据结构标准大致可以分为几个主要的发展阶段。在上世纪末,我国出台了《全国干部、人事管理信息系统数据结构》,这份文件对国家的干部以及人事管理的相关的数据信息进行了规定,为人口基础信息管理提供强有力的制度保障和标准,同一时间段内,国家的《常住人口信息管理系统数据结构》又得以出台,这项规定对我国的常住人口进行了统一的规范与管理,使得全国各地每一级别的人口管理工作都变得相对简单、快捷。

随着流动人口的逐渐增多,进入新世纪以来,人口管理工作变得相对复杂。因此,在2004年,我国又制定并出台了关于人口管理的一系列规范和标准,将人口管理工作进一步进行加强。这期间的人口管理主要对居民的身份证、户籍等进行了严格的规范和统一,使人口信息管理进一步规范。在新的人口管理规定中,对育龄妇女信息进行了相应的完善,使得我国的计划生育工作能够进一步发展,深入落实了计划生育政策,推进了计划生育工作的顺利进行。其中,北京市还制定了人口信息共享的相关协议,实现了信息交流与共享,使得北京市的人口基础数据库建设工作变得更加完善和成熟,为全国其他国家和地区的人口基础数据库机构标准工作的深入发展提供了很好的借鉴。

1.2 人口基础数据库数据结构的对比

现阶段我国的人口数据库数据结构标准中的数据元的类型、代码等元素都存在一定程度的异构现象,这种异构现象的出现就使得人口的基础信息系统之间的数据信息也出现了相应的异构现象,这就导致了人口的一些基础信息产生了信息孤岛现象,而孤岛现象的产生又使得人口的一些数据信息之间的共享度受到了一定程度的限制,例如:在《全国干部、人事管理信息系统数据结构》中,整个规定中显示出来的虽然都是统一的字符类型,但是这项规定中的数据元却并不是统一的,数据元的不统一也就导致了整个数据库系统之间无法完全统一,进而导致了信息孤岛现象的产生。

现阶段,国家各个部门对于人口数据信息的要求相对较为广泛,而我国现有的数据库建设结构已经远远不能够适应各级单位对人口数据库建设的迫切需求。我国现有的人口基础数据库数据结构标准以GA214管理结构标准为准,这项数据结构标准共涵盖了41个相关的数据项,由于数据项较多,使得一些数据项在使用了一段时间之后,原有的作用已经消失,而这部分消失作用的数据项也就成了占用资源的多余信息,根本不具备任何的现实意义。例如:每个人都填过自己的籍贯,但是籍贯却不是固定不变的。一方面,现如今人口的流动使得人们的籍贯随着落户地址的改变,而原有的籍贯当然也就变成了不具有实际意义的多余信息。另一方面,随着我国现代化进程的不断发展,一些原有的老城区、老乡镇经过城市化改造之后早已不是原来的名字,人口的籍贯也就理所当然地不具备任何现实意义。

2 数据结构特点

2.1 数据信息量巨大

由于人口问题涉及到社会生活的方方面面,因此,社会上的人事工作安排、公共卫生安全、民政建设以及基础教育等都会对人口基础数据库建设提出相应的要求。这也就决定了人口基础数据库具备了其他数据库所不具备的特点,那就是信息量巨大的特点,人口基础数据库所涉及的数据面相对较为广泛,数据库的数据结构较之其他数据库而言也要复杂。

2.2 人口基础数据库建设分阶段进行

我国幅员辽阔且人口众多,我国地域之间的发展极不平衡,这就造成了人口基础数据库建设的地域发展的不平衡,每一个地方每一个部门的人口信息化程度都不尽相同,这也就意味着我国人口基础数据库建设要分阶段进行。全国范围内的各个地方的数据库建设要适应当地各部门的生产发展的需要,并将每个地方的数据库建设工作进行统一,实现全国范围内的人口基础数据库建设。

2.3 服务功能多变

现阶段,我国的人口改革正在不断地深入发展。这使得人口管理的相关部门的业务也在不断地发生着变化。业务种类的变化使得人口基础数据库的数据结构以及数据库相应的服务功能也有所变化,这也是人口基础数据库相对于其他数据库而言所具备的特点,那就是人口基础数据库的数据服务功能多变。

2.4 人口基础数据库系统应用种类较多

人口基础数据库是一项十分重要的社会服务类的资源,它为社会生活提供了多种多样的服务信息,因此,在人口基础数据库系统相对的应用系统中对原有的数据信息进行开发,就能够开发出更多不同种类的系统类型,有利于促进人口基础数据库数据结构的标准化进程。

2.5 人口基础数据库维护压力太大

人口基础数据库的数据建设过程中,由于数据库业务的变化多端,使得进行数据库维护的压力相对较大。关于数据库的维护是在数据库最初的设计阶段就将维护概念引入其中。鉴于人口基础数据库结构的特殊性,对人口基础数据库需要进行动态维护,动态维护能够将数据库维护的灵活性进行强有力的提高,进而有效提高了数据库维护的效率,也就降低了开发商进行数据维护所耗费的资金,不仅有效提高了经济效益,还大大节约了社会资源。

3 建立人口基础数据库数据结构标准

3.1 分类代码

随着科学技术的不断发展和信息技术在数据库建设中的广泛应用,人口基础数据库的建设主要是要建立起相对规范和标准的数据结构。在不耗费大量的人力和财力的前提下对人口基础数据库进行建设,就需要制定相应的数据结构标准。因此,分类代码标准应时而生。我国的人口基础数据库中的人口数据信息相对复杂,信息量巨大,信息所涵盖的内容又相对较为丰富。因此,相关部门在对我国的人口数据信息进行分类和编码时,要对人口的信息管理之间的关系进行综合考虑,分类的方法和原则要按照《全员人口个案管理信息系统基础数据结构与分类代码》的相关规定。首先,要针对不同地区或者不同部门对于人口管理的相关的要求进行分类,分类标准要应用国家已有的相关标准进行;其次,在对人口数据信息进行分类时所需要采用的方法是线分类法,利用这种方法对我国的人口信息进行相应的分类,能够最大限度的保障分类的合理性和清晰度;最后,对于人口基础数据库数局结构进行代码时所采用的代码应该是数字型、字母型以及数字和字母的混合型。

3.2 命名原则

在对人口基础数据库数据结构中的结构表和数据字段的名称进行命名时,需要遵循相应的命名原则。我国目前所采用的命名原则主要是中文字符和英文字符两种形式,即每一个中文名称都会对应相应的英文名称,例如“人口基本情况表”的英文名称为“tableo”;而字段的中文名称直接用项的名称进行命名,字段的英文名称的格式则是类别加代码,且应为名称的长度通常占11个字符。

3.3 人口基础数据库数据结构的确定标准

在对人口基础数据库数据结构的类型进行确定时,往往需要遵循一定的确定标准。英文字母“C”“D”“N”分别代表字符型、日期型和数字型;在人口基础数据库数据结构标准中,还要对数据项长度进行相应的标准规范,数据项的单位是字节,另外,数据项代码通常会采用三位数进行表示,其中表示类别的代码放在数据项代码的第一位,其余两位则分别表示数据项的名称和长度。以人口基本情况数据结构表为例,对结构类型进行理解,如表1所示。

4 功能模块

4.1 元数据管理

作为一项复杂的、信息量巨大的数据库管理系统,人口基础数据库的管理需要进行几个模块的管理,元数据管理模块是对人口基础数据库中的元数据进行维护管理的模块。人口基础数据库中的元数据对数据库中一些相应的数据信息以及数据项的结构和属性等进行了详细的描述,并对于人口基础数据库的动态维护,首先要对已有的数据信息进行必要的分析,并将其中的数据进行适当地抽离,以便能够实现对数据库系统中的元数据进行综合管理。

4.2 数据加载

在对人口基础数据库进行建设的过程中,针对相应的数据结构标准对数据进行比对是数据加载模块中的一个重要的组成部分。例如:每个人的身份证都有18位身份证号码,在这18位身份证号码中我们能够准确地找出每个人的出生时间。在实际的人口基础数据库数据结构的管理中,可以对数据比对进行相应的规范处理,在比对过程进行必要的规范,最重要的就是要对比对的目标进行相应地判断,判断比对目标是否合理或者是否符合相应的标准。

4.3 调度管理

人口基础数据库的建设主要是为了实现对人口的综合动态管理,使得各个地区、各个部门都能够对其想要了解的人口信息进行必要深入地了解。而在人口基础数据库中的一个重要的管理模块就是调度管理模块,这个模块能够将人口的相应数据信息和服务器查询信息保持一致,从而确保各部门在进行人口基础信息查询时能够更加准确和清晰。

5 结语

人口基础数据库数据标准的建立,能够对我国的人口数据库建设工作提供相应的建立标准,从而能够使得国家各阶级、各部门的人口基础数据库建设工作变得更加的完善,发展得更加健全。在对人口基础数据库的建设过程中,为了达到对人口数据库更全面地建设和管理,在进行数据化建设时,不仅要对人口基础数据库数据结构的标准问题进行必要的考虑,还要对人口基础数据库所涵盖的信息内容进行相对综合地考虑,以便能够实现我国的人口基础数据库数据结构的标准化,使人口基础数据库建设变得更加完善和成熟。

参考文献

[1]张钧.全国残疾人人口基础数据库数据分析[J].残疾人研究,2013,(03).

[2]孙艳彬.机电产品全生命周期评价基础数据库设计[D].大连理工大学,2013.

[3]丁文雯.面向水路基础数据库平台的Lucene全文检索技术研究[D].大连海事大学,2013.

[4]刘瑞.区域政务信息资源数据交换系统的设计与实现[D].电子科技大学,2013.

[5]Thomas Weise,Raymond Chiong.Evolutionary Optimization:Pitfalls and Booby Traps[J].Journal of Computer Science&Technology,2012,(OS).

[6]廖运宝.访问控制模型在电子政务数据库中的应用研究[D].电子科技大学,2012.

[7]高瑞.山西省临县残疾人社会保障制度的实施分新研究[D].山西财经大学,2014.

[8]李嘉.城市流动人口信息化管理研究[D].云南财经大学,2013.

[9]陈迪.行政区域集成化电子政务系统的设计与实现[D].厦门大学,2014.

[10]张瑞.达梦数据库在人口基础信息和防汛管理中的应用研究[D].天津大学,2013.

[11]Najwa Altwaijry,Mohamed El Bachir Menai.Data Structures in Multi-Objective Evolutionary Algorithms[J].Journal of Computer Science&Technology,2012,(06).

数据标准体系 篇10

为全面推进我国电子政务健康、快速、有序的发展,国家信息化领导小组于2002年印发了《国家信息化领导小组关于电子政务建设指导意见》[2002]17号文件。文件指出:“十五”期间,电子政务建设的主要任务之一是规划和开发重要政务信息资源,启动人口基础信息库、法人单位基础信息库、自然资源和空间地理基础信息库、宏观经济数据库四大基础数据库的建设。

近年来,在党和国家的高度重视下,各级政府部门和企业的共同努力下,我国电子政务建设发展迅速,金财、金盾、金审、金质、金宏等十多项重要业务信息系统被纷纷被建立起来,宏观经济、财税、国土资源、企业信用等信息资源得到进一步开发和利用,政府信息资源目录体系和交换体系建设也取得初步成效,这都为政务信息资源共享奠定了良好的基础。但由于历史和技术等因素,人口、法人、宏观经济等四大基础信息库建设进度缓慢,这将影响政府信息资源的整合和业务协同工作的开展。从全国来看,四大基础数据库建设,除了自然资源和空间地理基础数据库基本建成外,其余三个都遇到了很多现实困难。不仅包括每个数据库特有的建设阻碍,还有从整体角度考虑现有基础数据库存在诸多共性问题。

(1) 数据格式的多元性

随着电子政务的快速发展,目前各部门已经基本建立起部门内的信息化系统,但是由于多年来,我国政府的管理一直处于一种纵强横弱的状况,各部门信息化系统建设完全是根据本部门需要自上而下开发,很少考虑到各部门间综合利用信息。因此,各部门在建立本部门的业务系统时,数据格式的设计上往往存在很大差异,如字段长度、字段类型等,各部门都根据自己的理解和需要进行设计,设计出的数据格式千差万别,造成即使物理上实现了 数据共享,但仍因数据格式不统一,无法真正实现数据的共享和整合。

(2) 信息分类多样性

由于各部门数据库中采集的人口、法人等基础信息的定义与分类标准不同,造成数据项难以对应,共享困难。首先各部门定义的数据项名称不同,相同的数据项指标之间无法建立对应关系,无法准确的共享和对比所需的信息;另一方面,各部门对相同数据项的分类方法和标准不同,致使即便数据项可以对应,但是由于信息分类不同,仍然难以实现共享。

(3) 数据结构的异构性

由于缺乏信息资源的总体规划、基础数据库建设的总体设计和统一的信息分类和编码标准,各市依据本部门和本单位的需求独自开发业务应用系统,各开发商之间缺乏沟通,自成数据结构体系,造成各业务应用系统之间的数据不能共享。例如,公安的常住人口管理信息系统与计划生育委员会的育龄妇女管理信息系统之间没有统一的数据结构,相关的人口基础信息无法共享。

随着我国人口、法人、宏观经济等基础数据库建设的不断深入,如何使不同应用系统的信息得以共享,如何使不同应用系统的数据得以整合,从而有效地避免信息化建设中“信息孤岛”的出现就显得尤为重要。因此,必须要制定一套统一的数据标准,建设共享数据库,以确保不同应用系统不同数据库所提供数据的完整性、准确性和权威性。

2 数据标准化的作用

数据标准化就是按照预定规程对共享数据实施规范化管理的过程。数据标准化可以统一业务中含义、用法不一致的术语、概念等。在人口、法人、地理信息等业务信息管理系统中需要使用很多术语和概念。由于各种原因,各部门的业务人员对这些术语和概念的含义和用法等存在不同的理解,由此造成沟通问题,也带来数据口径的不一致。

在不同的信息系统中,如果数据的名称、定义、长度、表示等不一致或相互矛盾,就会使信息系统之间难以协同工作。数据标准可用于规范基础数据库的设计,在使用中,可以根据需要作为表名、字段名以及字段的取值范围。有了数据标准作为依据,系统设计就可以遵循一致的数据标准,不同的系统就可以做到数据含义和格式的一致性,从而真正实现信息交换和共享。

3 数据标准体系框架

四大基础数据库的数据标准体系的建设应以面向应用集成和数据交换为目标,实现对业务、数据的全面梳理,建设达到指导应用集成、数据交换中心建设和提高政府部门信息规划、实施的目标。

数据标准体系,为业务运作和信息化建设提供所需要的技术基础。包括术语标准、数据元标准、信息分类编码标准、数据模型标准、数据交换标准。

3.1 术语标准

术语是指在专业领域中特定概念的词语指称。术语标准化实际上是一种对术语的质量控制与规范的过程,它包含着术语的使用者能够就某一个已知的术语或者尚未确定的术语在特定情景中或者在特定领域中的使用,达成权威的、公认的统一看法。为了使基础数据库信息系统的数据不产生歧义,数据的使用者必须从数据元登记系统中获得关于数据的描述从而理解数据的含义,这就要求数据必须得到充分的、唯一的描述术语标准。

四大基础数据库的术语标准是对基础数据库信息系统中涉及的词条或字段进行明确的定义和确切的解释,其内容包括规范的字段名称、文字定义及一些必要的说明。它保证了整个系统及不同的系统之间使用共同的语言实现信息交流。如人口健康状况登记过程中,首先要明确定义健康状况是指个人在健康登记时所表现的身体状态,然后对健康良好、一般、较弱和有病的具体内涵给出确切解释。这样就可以避免由于数据录入人员对同一词条产生不同理解而导致的信息交流和共享的障碍。因此,四大基础数据库建设过程中,应根据涉及业务对象,对相关术语进行规范,确保用语的一致性和准确性,避免歧义、多义或矛盾。例如,制定《法人单位基础信息术语》,用于描述法人单位基础信息的设计、开发、应用等过程,用以规范法人单位基础信息项目用语的行为,将对法人库项目实施的标准化具有重要的基础性作用。

3.2 数据元标准

数据元是数据的基本单元,数据元标准就是对对象的属性进行一致性和精确性规范,既不允许有同名异义的数据元素,也不允许有同义异名的数据元素,以便在跨系统过程中,通过定位、获取和交换,增加其可用性和共享性。信息共享的关键要素就是数据元,有了数据元就为数据交换和共享提供了数据层面上统一的数据交换规范。无论各系统的业务数据如何处理,只要按照数据元规范统一映射,即可确保数据语义、类型和格式的一致。因此,数据元的标准化是解决四大基础数据库中基础信息的定义、格式不统一的根本方法。

四大基础数据库数据元素指关于人口、法人、地理信息、宏观经济等业务活动中涉及的所有数据元素,要实现人口基础信息、法人基础信息、基础地理信息有机统一、整体协调,建立科学、可信、符合信息处理规范的数据元素很重要。因此,四大基础数据建设过程中,应制定人口、法人、宏观经济等的数据元标准,以保障四大基础数据库的规范性和统一性。例如制定《法人单位基础信息 数据元规范》,则可从基础信息元的层次进行描述,以便指导、促进、保障和深化各级政府的跨部门法人单位信息交换和法人基础信息资源共享,指导和规范各级政府部门当前正在大力开展的法人基础信息库的建设,推动法人基础库的建设。

3.3 信息分类编码标准

信息分类编码标准将信息按照一定的原则和方法进行分类,然后一一赋予代码,使每一项具体信息与代码形成唯一的对应关系,为数据记录、存取、检索提供一种简短、方便的符号结构,从而便于实现信息处理和信息交换,提高数据处理的效率和准确性,且增强信息的保密性。在四大基础数据库信息系统中,对信息进行分类同样是数据资源表达和分析利用的必然要求。信息分类编码标准可以规定了基础数据库信息系统中分类型词条的分类方法及其代码值,使相关的人口、法人、地理信息基础信息系统中同一字段有相同的分类和代码,从而为信息的采集和分析利用提供了基础。如现在通用的组织机构编码,就为法人单位提供了统一的分类与代码规范,解决了直接使用单位名称可能产生的表达不准确、含义不明确、无法实现计算机自动处理等问题。

四大基础数据库信息系统中有大量需要分类编码的信息,包括基础地理信息、图层信息、组织机构信息、统计经济信息等各个方面,并按照国际标准、国家标准、相关行业标准的先后顺序,制定出信息分类编码标准体系,便于系统的处理和传输。

3.4 数据交换标准

数据交换标准是为了实现不同系统之间的信息共享和沟通而建立的一套通用的数据文件的格式规范,以保证交换的数据在各个系统之间的准确路由,同时对于各数据源中数据采集和输出提出统一的消息模型,确保采集和输出的数据准确的表达和理解。基础数据库的数据共享和交换标准,主要对进行技术约束,定义数据交换组件的模型和框架,描述数据交换文档的XML模式,对根结构、控制信息元素、业务数据元素、安全策略等进行详细说明。

例如制定《人口基础信息交换规范》,形成常住人口信息管理系统与计划生育管理系统、育龄妇女信息系统、劳动社保系统、教育系统之间进行交换数据的内容和格式的一致性;为数据交换组件、各个业务系统之间进行数据传输的接口提供了开发标准和依据。

4 结束语

本文结合基础数据库涉及的相关业务,从术语标准、分类编码标准、数据元标准等方面探讨了数据标准化在四大基础数据库建设中的作用。在四大基础数据库建设的过程中实施数据标准化,可以有效保证数据自产生便格式一致、内容可理解,有效节省数据转换的时间,避免错误,提高效率和质量。通过减少数据转换的需求,从而加强信息系统的互操作性;降低开发、实施、维护系统的成本和时间;为广泛使用共享的数据提供统一的描述和表示;提高数据的完整性和准确性;控制数据冗余。

参考文献

[1]沈晔.四大基础数据库建设瓶颈分析[J].合作经济与科技,2008(7):68-69.

[2]吴志刚,林宁.信息共享、业务协同的前提——数据标准化[J].信息技术与标准化,2003:43-44.

[3]王斌君,孙丕龙.数据元标准在信息化中作用的再认识[J].中国公安大学学报,2005(3):75-78.

[4]韩颖,李文峰.基于电子政务的术语标准化研究[J].术语标准化与信息技术,2008(2):41-43.

上一篇:投资缅甸下一篇:农田灌溉节水改进