数据组织管理

2024-09-10

数据组织管理(共11篇)

数据组织管理 篇1

摘要:国家电子政务建设的重要组成部分的“金质工程”, 是我国电子政务建设的重点应用系统之一。它促进了质检机关向管理服务型转变, 提高执法的透明度, 加大了打击假冒伪劣的力度;促进了社会主义市场经济的发展;建立了健全认证、认可、标准、计量检测体系和质量管理体系;充分发挥了质检工作在国民经济中的重要技术基础作用。

关键词:组织机构代码,数据库,信息管理系统

国家电子政务建设的重要组成部分的“金质工程”, 是我国电子政务建设的重点应用系统之一。它促进质检机关向管理服务型转变, 提高执法的透明度, 加大打击假冒伪劣的力度;促进社会主义市场经济的发展;建立健全认证、认可、标准、计量检测体系和质量管理体系;充分发挥质检工作在国民经济中的重要技术基础作用。

1 建设信息管理系统的目的

1) 全面进行标准化的信息需求分析, 规范表达领导层、管理层和运作层的信息需求, 建设标准统一、功能完善、安全可靠的信息化网络平台, 建立质检业务数据仓库, 提高信息资源共享程度, 为有计划、有步骤地进行全面的政务信息资源开发利用做好准备。

2) 通过系统数据标准化建模, 理清现有数据库资源的不一致、冗余和复杂接口等问题, 建立基于组织机构代码为检索项、以代码数据为基础的、适应新的信息需求的标准化、规范化数据结构, 为解决领导层实时掌握、宏观调控、打破“信息孤岛”等问题, 改造和建立高档次的数据环境打下坚实的基础。

3) 探索积累实施电子政务信息资源规划的经验, 采用科学实用的规划软件工具, 建立信息资源元库 (IRR) , 从根本上改变以往分散开发、不统一管理信息资源的局面。

4) 利用先进可靠的网络技术、数据库技术、信息安全技术, 构建完成“信息管理系统”平台。以基础信息共享与应用为切入点, 建立相应的网络与硬件环境, 开发出适应数据交换与共享需要的软件体系。具体可概括为“五个一”:一套机制, 即建立基础信息交换的系统工作机制, 指导目前和将来的交换工作;一套制度, 即建立长期的数据交换制度, 明确交换内容、交换方式、交换周期和交换数据的管理办法等内容;一套标准, 即建立基础信息交换的业务标准和技术标准。业务标准包括基础信息的定义、数据项分类、数据项描述方法、数据标准和业务流程等;一个信息库, 基础信息仓库;一个平台, 即数据交换平台, 在统一的数据交换平台上进行数据交换、比对和分发。

2 信息管理系统的功能

2.1 解决现有数据库资源的不一致、冗余问题

目前各处室和技术机构都有一个或多个业务数据库, 各数据库问 (甚至同一数据库中) 对同一企业基础数据的记录并不完全一致, 造成数据库资源的不一致、冗余等问题。在信息管理系统中为了保证信息管理系统能够将各部门独立的信息顺利地进行交换、共享和比对, 将采用国家统一的全国组织机构代码作为系统的唯一标识 (检索项) , 建立基础信息交换的业务标准和技术标准。业务标准包括基础信息的定义、数据项分类、数据项描述方法、数据标准和业务流程等。

2.2 解决复杂接口问题。

建设信息管理系统的基础与核心任务是数据集成, 是标准化、规范化的信息资源规划, 只有在这个基础上才能建立和运行集成化的信息管理系统。例如:在管理工作中, 当代码系统和稽查对系统需要进行数据查询、比对时, 就需要编制数据抽取和格式转换的接口软件 (需要两个接口) 。随着系统的整合, 现在要加入计量、质量系统, 这样, 四个应用相互使用数据, 就需要12个接口。我们假定每个单位有一个数据存储 (实际情况是每个单位可能使用多个数据存储) , 逐渐增加的应用项目要做到信息互用, 额外的接口数目和复杂性, 随着新的应用增加按几何级数增加。最终, 增加新应用的花费和现有系统的集成, 靠增加接口的方法, 变得可望而不可及了。

做好信息资源规划和协调, 可以最大程度地提高数据的共享, 而使数据冗余度最低。应用的信息如果组织成共享数据库, 就可简单、可靠、高效率地实现了应用的集成, 把多个应用所涉及的用户视图, 按新系统的信息需求重新改造, 构建“共享数据库”, 是集成化的信息系统的基础与核心, 要改造以数据文件和应用数据库为主的、混乱的、低档次的凑数据环境。

2.3 解决信息分散, 无法向决策者提供综合性信息问题

作为决策层的信息来源, 信息系统应全面掌握决策层需要哪些方面的信息, 并从运作机制上保证决策者能够及时地获取、理解和应用这些信息。信息化建设不仅仅是需要决策者支持什么、解决什么, 关键是信息化系统能为决策者做什么。许多人对“信息化”, 有一个相当大的误解:那就是把“自动化”, 当作“信息化”, 认为只要把内部的工作利用科技手段来完成, 便可以达到信息化的目标。

将办公自动化从单纯的数据录入、存储、流转上升到数据分析、数据提取的层面, 从而实现决策支持系统的功能。形象地说, 就是改以往的从下而上的汇总分析为从上而下的分解、细化分析。

通过构建一个统一的平台, 它可以按决策者的信息需求, 抽取由分布在不同地点、不同系统数据信息集成的“共享数据元库”信息, 整合分散的信息;将我们所关心事件的多维信息互相关联起来的, 以我们需要的形式与角度呈现给我们 (报表、视图、图表等) , 向决策者提供综合的、实时的、直观的信息。

2.4 充分发挥组织机构代码的桥梁作用

扩大代码的深层次应用代码是对其所代表事物最基本、最准确、最精炼的描述。使用代码作为系统的唯一标识 (信息检索标识) , 就能很好地取得检全率与检准率之间的平衡, 达到最优的检索效果;由于代码用一组数字来表示信息, 在计算机中占用的字节相当少, 检索速度就相应地快许多。所以说, 使用代码查询信息, 查询速度是最快的, 查询的准确率也是最高的, 为了保证信息管理系统能够将各部门独立的信息顺利地进行交换、共享和比对, 必须搭建信息流通的桥梁, 采用国家统一的全国组织机构代码作为系统的唯一标识, 是确保系统建设成功的关键。

3 建设信息管理系统应采取的技术和安全策略

1) 采用B/S软件结构;

2) 利用XML技术;

3) 基于数据仓库的决策支持技术 (DSS) ;

4) 信息安全策略 (安全套接字层SSL) 。

在市质监局系统与县区局及外部应用部门进行数据交换的时, 采用了SSL技术实现信息在通信过程中的信息安全。SSL允许客户/服务器应用以一种不能被偷听的方式通讯, 使用通讯双方的证书在通讯双方间建立一条安全的、可信任的通讯。

数据组织管理 篇2

1、参加教育实践活动的基层党组织共5个,已召开专题组织生活会的基层党组织3个;应参加民主评议的党员61名,实际参加的党员53名。

2、民主评议党员中,18名党员评定为“好”、35名党员评定为“一般”、0名党员评定为“差”。

3、参与指导专题组织生活会和民主评议党员工作的市县两级领导干部3名,共选择3个基层党组织开展试点,培训基层党组织书记5人次。

数据组织管理 篇3

【关键词】组织机构代码;数据库;完整性;安全机制

组织机构代码数据的功能十分强大,我国几乎所有的机关企业事业单位以及相应的团体中的信息都在此保存,其是我国信息标准化发展的重要举措,其中使用最为广泛的是银行、法院以及人事管理等。组织机构代码数据库是信息化时代,我国的各个部门提高管理水平,使其能够更加规范的主要方法,这种方法既利于各个部门之间实现信息共享,同时也利于各个部门之间的业务联动,也正是如此,组织机构代码数据库更显重要。

1.组织机构代码数据库的完整性

组织机构中,代码数据库完整性以及安全性都是比较重要的问题,只有处理好这个问题,才能组织机构可以顺利的执行功能。而代码数据完整性只要包括两方面内容,一是指数据的正确性,二是指数据的相容性。组织机构数据库质量优劣,有很多评判标准,而代码完整性无疑是其中最重要的标准。数据库完整性需要进行时常的维护,这就需要相关人员能够对数据语义约束条件进行必要的规定,有很多内容都需要制定约束条件,比如数据关系模型、储存过程触发器等。一般而言,数据完整性约束应该具备以下条件:

首先,数据值不能有任何的失误,换言之,数据类型要准确无误,即将其划归到制定的范围之间;其次,数据存储既要满足相同数据之间的自洽关系,同时还应该满足不同表格数据所具有的关系;最后,组织机构代码数据库约束,主要包括两种类型,一是静态约束,主要是指当数据库保持在稳定状态时,所有的数据对象都应该达到约束要求,其主要涵盖了静态元组约束等,而所谓的静态元组,主要是指给机构类型、法人姓名等各个数据的列值关系;二是动态约束,其主要是指当数据库转变状态时,所要达到的要求,其主要涵盖了动态列级约束以及动态元组等。

2.组织机构代码数据的安全性

组织机构代码数据的安全性与数据库的完整性同等重要,因此重视数据库的完整性的同时,还应该注重数据的安全性。所谓代码数据库的安全性主要是指数据库在使用期间,合法有效,不会被窃取、不会被破坏,也不会被更改等,以便数据库中的数据全部都处于安全的状态。这就需要组织机构中既要做到工作环境以及人员安全,同时还应该保证操作系统以及网络系统安全性。在网络层面上,组织机构代码开始运用CA认证技术,这对保证数据库安全意义重大,但是这种技术方法,也只是针对管理系统,还需要进一步采取措施。

代码数据库的安全措施主要是分为两种,一种是授权登录,就是利用控制服务器来登录相应的账号以及密码等,此时无论是账号,还是密码都应该保留在CA证书中,待用户登录时,网络管理系统需要对其进行判断,以便核实用户是否具有访问权限。而另一种主要是指授权访问,数据库将对象访问权限划分为很多级别,针对用户的类型,数据库会应该不同的权限来进行限制,包括如下:首先,只读权限,也就是只允许用户对数据进行读取,而不能进行其他方面的操作,其次,修改权限,即允许用户修改数据;再次,插人权限,即允许用户插入数据;最后,删除权限。即允许用户删除数据。

3.代码数据库的安全机制

3.1客户机操作系统的安全性

用户使用客户机通过网络对SQL数据库服务器进行访问的时候,用户首先要获得客户机的操作系统使用权,即首先要能够录到客户机上。其安全访问。

3.2 SQLServer登录的安全性

首先确定采刚何种登录验证方式,确定登录验证方式后把WindowsNT/2000川户添加到SQLSevrer系统中。其次,决定哪些用户将执行管理SQLServer服务器系统的任务,并为这些用户分配适当的服务器角色。冉次,决定哪些用户存取代码数据库,并为这些刚户添加适当的数据库角色。最后,给适当的用户或角色授予适当的权限.以便用户能够操作相应的数据库对象。

Windows验证方式:采用Windows服务器的验证,只要可以登录到Windows的川户,就可以登录到代码SQL数据库系统;Windows与SQLServer混合验证方式:不能登录到Windows的用户,只要是SQLServer的用户就可以瞀录到代码数据库系统。

3.3数据库使用的安全性

在代码数据库中。使用权限是访问数据库的最后一道关卡。在SQL中,每一个数据库对象都为该数据库的一个用户所拥有。拥有者以数据库赋予的用户名作为标识.只有数据库拥有者才可以规范数据库对象。其他用户要访问数据库对象首先要获得拥有者的授权。拥有者可以授予数据库用户权限,主要是访问权限和管理权限:访问权限又分为语句权限和对象权限。

语句权限,即决定用户能否操作数据库的创建数据库对象,如创建表、视图、存储过程等等,或执行Createtable、Createview、Backupdatabase等语句的权限;对象权限,即对象权限决定用户对数据库对象执行的操作。它控制用户在表和视网上执行Selecte、Insert、Update、Delete等语句以及执行存储过程的功能管理权限有两种方式:一种是使SQL语句管理权限,如用Grant、Deny、Revoke语句赋予和撤销权限:另一种是使用企业管理器赋予和撤销权限。

3.4数据库对象使用的安全性

要保证数据库对象使用的安全。就要授予用戶对代码数据库巾具体对象的操作权限和对SQL语句的使用权限。对于代码数据库对象(如数据表、视图、存储过程等),普通用户都具有埘代码数据表或视网数据的读取(Select)权限,但对于插入(Insert)、更新(Update)和删除(Delete)权限则需经数据库拥有者授权。

4.结语

综上所述,可知对组织机构代码数据库数据完整性和安全机制进行概述十分重要,这不仅利于人们对组织机构代码数据库更加的了解,同时也利于各个机关企业正确的应用此种数据库。各个机关单位通过应用代码数据库,不仅达到了社会化管理的方式,同时也实现了统一监管,这对我国企事业单位发展起到了非常重要的作用,尤其为数据的应用提供了条件。 [科]

【参考文献】

[1]张劲男,王霁阳,贺佳.省级组织机构代码监控体系平台分析与设计[J].信息技术与标准化,2014(Z1).

[2]黄文平,高茂庭.Microsoft SQL Server数据完整性实现策略[J].计算机时代,2002(12).

[3]陈灿,李娜.浅析SQL SERVER 2005数据完整性技术控制与实现[J].信息与电脑(理论版),2010(03).

[4]童争雄,刘特.数据完整性检验策略的构建[J].江西科学,2004(03).

数据组织管理 篇4

大型活动在城市局部空间短时间内集中大量客流、车流, 在工作日晚间举办大型活动晚高峰叠加, 对局部交通有严重影响。结束时间过晚, 公共交通服务能力不足, 私人车辆局部大量集中, 造成严重拥堵。崔洪军[1]研究表明大型活动观众出行非常规, 交通需求和交通流具有临时性、非平衡性、“多源单汇”、潮汐现象突出、不均匀系数大、时空分布不均、需求量大等不同于城市正常交通的特点。

传统情况下, 利用交通规划的四阶段模型对大型公共活动期间的交通状况进行研究。王晓光等[2]利用交通仿真软件建立公共交通需求模型, 得到路网上交通分配情况。分析路网上交通负荷, 根据疏散特征采取交通管制措施, 指导交通管理。这种方法在大型活动的交通组织中有一定作用, 但其对需求预测的准确性、交通分配的合理性都有待提高。随着信息通讯技术发展, 智能手机普及, 可采集的信息越来越多样化。现有的信息通过一定整合可应用于大型活动的管理和交通组织。

2 大数据基础设施与挖掘技术

2.1 大数据基础设施

1) 研究用地数据。遥感数据包括高分辨率航空遥感数据、卫星遥感影像、全市分类土地利用数据库。房屋建筑量统计数据包括单体建筑名称、占地面积、层数、坐落地址、房屋类型等建筑属性信息。这些数据主要支撑城市土地利用性质、开发强度分析等多种应用。

2) 移动通信数据。移动手机用户 (包括本地及漫游) 信令数据, 包括短信、通话、LAC区 (位置区, 通常包含多个基站蜂窝小区) 切换或每隔1~2 h定时与基站通讯记录。

3) 车牌识别数据。道路路段和交叉口的摄像头采集车辆牌照数据, 数据内容包括车辆号牌编码、牌照类型、途经时间、途经车速、车辆属地及设备断面编号等。

4) 轨道交通自动售检票系统和交通卡自动刷卡计费系统数据。

覆盖轨道交通全网进站、出站闸机的刷卡数据, 数据内容包括进站和出站的车站名称、时间、乘客数量等, 支撑对轨道交通系统客流分析等多种应用。公交一卡通数据内容包括刷卡线路、刷卡时间、刷卡金额等。

5) 网络数据。在线地图, 社交网络, 搜索引擎, 点评应用的数据。这一类互联网公司都有应用开发接口, 通过合作方式获得数据。

2.2 大数据挖掘技术

数据挖掘 (Data mining) 是计算机科学重要的研究领域。数据挖掘被称为数据库知识发现 (Knowledge-Discovery in Database, KDD) , 是指从大量数据中通过算法建模揭示隐藏其中的信息。数据挖掘过程包括定义挖掘目标、数据取样、数据探索、数据预处理、挖掘建模及模型评价6个重要环节。

在大型组织活动中应用数据挖掘技术实现客流热点预测, 利用手机基站、社交网络以及票务数据预测客户到达时间和大体位置, 结合区域热点, 利用趋势拟合算法动态预测场所内大量客流集中的区域和时间点。利用客户手机应用数据结合商户数据, 通过关联分析法为客户推荐搜索排名。利用定位数据、热点预测数据, 通过路径查找算法为客户推荐最优到达路径。基于用户历史选择数据, 利用决策树算法, 为客户制订游览计划等。具体实现需要结合场景设计最优解决方案。

3 大数据技术在上海体育场体育运动公园概念设计中的应用

3.1 数据源

本研究利用多源数据, 搭建上海体育场体育运动公园的大数据监管环境。徐家汇体育公园大数据环境的数据来源、用途及采集方式见表1。

移动互联网的广泛覆盖, 智能手机的普及, 智慧城市建设使得目前数据的来源非常广泛。与政府数据平台对接, 与互联网公司合作采集小范围数据非常方便。

3.2 利用价值

1) 客流来源分析。传统模式下, 利用交通规划四步骤模型, 在交通生成预测阶段, 人流量只能根据既有小区人口数据等资料进行推测, 网络票务平台已记录票务的寄送地址, 通过网络数据可准确预知人流来源地。

2) 交通方式推荐。当前, 互联网公司提供地图数据已经比较准确, 人们在出行时基于时间和价格因素, 选择最有利的出行方式。采集上海体育场内部及周围停车场信息, 实现网上车位时段预约, 客流将在公共交通和私人小汽车出行间有更明确的倾向, 提高客流出行方式的可预测性。结合上海体育场体育运动公园周边的常规公交、地铁的服务能力, 为观众推荐合理抵达、离开的交通方式。

3) 人流量热力图。目前手机信令数据在城市规划、旅游热点预警等领域大量应用。与电信运营商开展合作, 采集上海体育场体育运动公园及周围手机基站数据, 描绘人流聚集情况的热力图 (见图2) 。对大型活动的客流引导、安全管理都有极大的意义。

4) 周围路网流量状态。上海市交叉口普遍设置检测车流量的线圈、车牌拍摄摄像头, 与交警部门合作, 获得现场数据。实时监控周围路网交通流量状态。对可能拥堵点提前预警, 加强管理;对出现的事故, 及时排查消除, 保障道路顺畅。

3.3 应用场景设计

1) 面向管理部门。管理部门既包括上海体育场体育运动公园的管理机构, 也涉及到政府相关部门。数据源准确性、安全性至关重要。面向管理部门的应用要实现客流量预测、交通状态监控、信息发布的基本功能, 除此以外, 扩展到体育设施使用状态、区域环境质量监控等非交通性功能。面向监管机构的大数据平台应用场景设计见图3。

2) 面向使用者。面向使用者的应用要兼顾大型活动和平时娱乐休闲。可以设计为手机应用, 方便市民使用。实现出行方式推荐、赛事活动信息推送、个人锻炼方式推荐、周边娱乐休闲设施推荐等功能。附加即时通讯功能, 满足沟通需求。基于大数据平台面向个人用户的手机应用场景设计见图4。

3) 面向服务机构。基于大数据平台面向服务机构的客户端应用场景设计见图5。

服务机构包括政府部门、周边商户、出租车司机、非营利性组织以及科研机构。部分数据与互联网公司展开合作。实现商户信息的实时更新、客流预测、打车需求、信息发布等功能。随着数据的积累, 对历史数据进行挖掘分析, 调整经营策略, 改善服务方式, 提高盈利空间。

4 结语

数据采集与大数据分析技术可以预测实际需求, 检测实时情况, 进一步提高管理有效性。大数据技术为大型活动的交通组织带来变革, 主要体现在以下几方面。

1) 信息实现动态感知和实时获取。随着信息通讯技术与各行各业的深度融合, “互联网+交通”, “互联网+城市”的发展, 使得数据源越来越多。举办大型活动的场馆周围采集这些数据支撑场地、赛事的管理。动态实时数据打破信息不对称, 使得管理更有针对性, 效果更好。

2) 无处不在和随需而动的信息服务。移动互联网已经全面覆盖城市各个角落, 智能手机功能越来越强大, 网络带宽越来越通畅。市民可以获得实时信息, 满足出行者观众需要及时间、费用、舒适、低碳等不同价值取向, 随时随地提供个性化、多样化的信息服务。

3) 主动预警和快速响应的安全保障。基于基站提取大型活动举办地周围人流量热力图, 辅以视频监控设备, 可准确判断各处情况, 实现主动预警, 并结合现场情况, 实现快速响应。为大型活动的举办提供安全保障。

4) 信息共享和业务协同服务体系。基于大数据平台, 建立面向服务机构客户端, 保障数据获得及时更新, 实现信息共享与动态维护。商户积累下来的历史数据也可进行数据挖掘, 改善服务水平, 营造良好的商业氛围。

5) 绿色环保和可持续的发展理念。鼓励观众在赛时乘坐公共交通抵达、离开, 信息公开与透明, 减少市民忧虑, 辅以交通管理措施, 引导市民绿色出行。大数据是实现管理精确化、定量化最适宜的手段。

参考文献

[1]崔洪军.大型活动交通组织管理关键技术研究[D].南京:东南大学, 2006.

数据组织管理 篇5

提出了一种基于图层-地图-图集层次结构的电子地图数据组织方法 , 系统地介绍了基于该结构的数据组织管理在电子地图制作与浏览软件EA 中的实现。

作 者:邵全琴 周成虎 张明金 李民 Shao Quanqin ZHOU Chenghu Zhang Mingjin Ji Min 作者单位:邵全琴,周成虎,Shao Quanqin,ZHOU Chenghu(中国科学院地理科学与资源研究所)

张明金,李民,Zhang Mingjin,Ji Min(山东科技大学北方地理信息技术发展中心)

数据组织管理 篇6

关键词:知识服务 引文索引 数据组织 编码设计

中图分类号: G254 文献标识码: A 文章编号: 1003-6938(2013)05-0007-05

1 引言

文献通过引用建立关联,这种关联蕴含着丰富的知识,对引用关系进行分析可以揭示知识的关联,帮助发现隐藏的知识与科学规律。信息技术的发展推动了引文数据的开发利用,早从20世纪60年代开始,就研制出了以SCI为代表的一系列引文索引系统。当前人们对知识服务的需求不断提升,引文索引已不再是简单的检索工具,人们希望能从中获取更多的知识。如何借助引文索引实现知识服务?如何从引文索引中发现科学研究规律和和潜在学术价值?这就需要我们对引文索引结构与组织进行深入探讨,使之充分体现引文索引价值,满足知识服务对引文索引的要求。

2 研究背景

文献间的引证关系始于19世纪西方科学界形成的严格科学传统[1],引文索引正是利用这种引证关系创建而成。国外最早出现的是1961年计算机编制的《遗传学引文索引》,其后在尤金·加菲尔德的带领下,先后诞生了SCI、SSCI、A&HCI等一批优秀的引文索引。国内对引文索引的研究始于80年代末期,陆续诞生了CSCD、CSTPC、CSSCI等一批引文索引系统。郭丽芳[2]、王婧[3]对中外引文索引的功能进行了比较研究。从大量文献可以看到,国内对于引用关系的研究多集中于引文数据的分析利用,而对于引文索引及其数据组织关系的研究则凤毛麟角。南京大学苏新宁教授撰写多篇文章详细介绍了CSSCI的数据组织结构与应用价值[4-5],为国内引文索引的设计与研究工作奠定了良好的基础。在此基础之上,也陆续产生了一些针对专业领域的引文索引系统[6-7]。

传统的引文索引以文献为单位,强调的是文献的检索,对于文献内部蕴含的知识以及知识间的关联不能全面、深刻的进行反映,从而不能满足广大用户的知识获取需求。本文以知识服务为视角,阐述了新型引文索引的构建思路,并在此基础上对面向知识服务的引文索引的架构设计、数据库结构以及索引编码设计进行了详细的介绍。

3 面向知识服务的引文索引构建思考

文献之间的引用本质上是知识间的关联,这些关联知识也正是提供知识服务的前提与基础。引文索引是一种典型的关系类知识工具,在文献引用过程中,各類实体间的关联是广泛而复杂的。知识服务是一种用户目标驱动的服务,是面向知识内容、面向解决方案的服务,贯穿于用户进行知识析取、集成、创新全过程的服务[8],因此引文索引的数据组织也应当以科学研究的需要、学者的需求为目标。

3.1 引文索引的知识服务类型

科学、有效的数据组织是提供知识服务的有利保证,知识服务是数据组织的最终目的。为了更深刻的理解引文索引功效,发挥引文索引在知识服务中的重要作用,我们归纳了引文索引能提供的知识服务类型(见表1)。

传统的引文索引以检索型服务为主,以文献作为信息传递单元。虽然大多索引都具有分类统计功能,也提供了较多的检索途径,但知识服务功能相对较弱,对于更宏观、更全面的分析、评价和预测功能则却鲜见。

根据上述五种知识服务类型,我们按照知识需求的层次从低到高进行划分:检索统计型提供最低级的知识服务,其次是特征分析型和资源评价型,知识发现型和学术预测型是最高层次的知识服务类型。不同类型的知识服务对引文索引的设计要求也不同,层次高的知识服务需要有更大规模的数据和更先进的分析技术作为支撑,同时也希望基础的数据组织架构能够表达实体间更多的关联,为知识服务提供更好的数据基础。根据对不同类型知识服务的需求分析,我们对新型引文索引系统的设计目标总结为:①结构科学合理,发挥各数据属性功用,增加检索途径;②科学组织数据,呈现科学特征、规律,为数据挖掘和知识发现打下基础;③实现数据代码化,为科学地、多角度地统计分析提供精准数据;④注重数据间的关联,为展现对象间的多重关联提供途径和实现手段;⑤数据的组织能够易于系统功能的扩展。

3.2 知识服务引文索引系统模型

为达到上述系统目标,按照数据工作流程,我们将整个引文索引系统组织分为五大层次,依次为基本业务层、基础数据层、数据模式层、知识服务层和用户层(见图1)。

基本业务层的主要工作是相关数据的采集。包括:资源的选定(如期刊引文索引中的来源期刊的选定),对采集的数据输入、整理、清洗、标引和分类工作等。

基础数据层是引文索引的实体部分,主要提供文献检索和一般性知识查询服务。这一层重点关注数据库的架构、细节化的库结构设计以及元数据的表达等,它是整个索引系统提升知识服务的基础数据来源,也是一般性统计分析的重要基础。

在数据模式层中,主要建立数据中各类关联,为知识服务奠定基础。该层的数据组织主要依据用户需求,建立面向主题域的知识仓库。知识仓库的数据来自于基础数据库,其数据关联来自于用户需求和科研领域的需要,并能够充分体现对象间的多维关联。

知识服务层由是完成知识服务功能的系统组成,它根据用户需求,并对基础数据层和数据模式层提供的数据进行统计、分析、挖掘等工作,并提供用户知识服务。在这一层面,要求功能模块可以根据需要扩展,系统功能的开发可以完全独立于数据库的物理存储结构,提升系统的逻辑独立性。

用户层的作用是对用户的信息需求进行分析,将用户的需求分解成对应的知识服务功能模块,由知识服务层启动相关功能模块为用户提供知识服务。

数据组织管理 篇7

一、菱形格网

现如今全球离散格网主要有三角形格网, 菱形格网, 六边形格网等。菱形网格具有几何结构简单、方向一致、空间对称易搜索的优点, 它类似于正方形网格, 具备嵌套的特性, 支持有限元和有限差分, 支持大规模全球尺度的模拟。格网是采用每个单元的地址编码代替地理坐标在球面上进行各种操作。对于菱形单元位置信息的存储, 采用Morton码, 使用Morton码便于快速定位到菱形块的位置。先将地球等经度线分成四份, 用0、1、2、3分别代表四个区域, 对于每个子区域, 左下上右分别取0、1、2、3进行编码, 每个菱形单元的Morton码就是以这几个数字排列组成的字符串。

二、海量菱形格网数据的组织

采用文件系统管理数据库能将整个数据库的内容保存在单个索引文件中, 便于数据的查询和定位。棱形格网数据并不需要用到关系数据库的并发操作等功能, 并且对于海量的数据, 文件数据库的搜索和更新速度比其他数据库要快。

2.1瓦片金子塔数据模型

海量菱形格网数据的组织, 参考Google Earth所用的影像金字塔塔模型, 它是将参考椭球面按一定原则递归剖分成多层次、多分辨率的格网单元, 同时采用每个单元对应的地址码代替地理坐标在球面上进行各种操作, 这和菱形格网对Morton码的操作所实现的功能是一样的。

Google Earth中所有的影像数据都是256X256像素的瓦片数据, 并且它按照了四叉树的方式对每一层的每一个瓦片的索引字段信息进行了编码。菱形格网虽然不是正方形格网, 但它是类似于正方形的格网, 菱形格网具有可嵌套性, 因此可以套用正方形格网的存储和索引方法。瓦片金子塔模型是一种多分辨率层次模型。把原始的数据放在金字塔的最底层, 在这一层进行分块处理, 每次分块都是分成上下左右四块菱形块, 组成一个倾斜的似正方形矩阵, 以一分为四的原则划分到最细最为金字塔的最底层。在此基础上, 倒数第二层按照最底层划分出来的基菱形进行合并的操作, 也就是将相邻的上下左右四个菱形合并成一个基菱形作为最小的存储单元。以此类推, 根据数据精度的需求划分若干层, 相邻两层的数据块是4的倍数。

2.2瓦片数据的大小和索引

瓦片数据块的大小和数据库的访问次数和检索次数是密切相关的。如果数据分块太小, 数据库的访问次数就多, 相反则每次数据库的写入和输出的数据量就很大, 因此要权衡数据块大小的利弊。邓雪清对数据块大小的选取做了相关的实验, 实验主要是针对数据块大小对磁盘读性能、网格传输性能及对磁盘读和网格传输综合性能的影像做了分析。最终结果是:数据块大小最优值大概是在32KB左右, 对应的数据量大小的菱形格网的数量为256X256或者是128X128, 由于现阶段菱形格网所包含的属性数据比较少, 采用256X256作为一个瓦片单元。金字塔模型会增加大约1/3的数据存储空间, 但是对于海量数据量, 数据的读取效率会有显著的提高。

数据块的索引按照数据在文件数据库中的存储路径来命名, 金子塔数据模型中每一层的数据分别存储在一个文件夹中。对于该层数据的子块再进行分类存储, 分类的方法是:将所有菱形块按相邻关系分成16个相等的块, 然后对这16等块按相同的方法继续划分, 由于文件的分块方法也是按照类似于Morton编码的方式进行的, 因此通过其中任意一个子文件夹的文件名可以得到父文件夹的文件名, 他们的关系是:该父文件的文件名是其中任意一个子文件夹文件名的上2级的Morton码。由于菱形网格剖分的最大层次是26, 因此文件路径的深度最多是8, 通过路径名称很快就能找到需要的数据块。

三、结论与展望

数据仓库中多维元数据的组织研究 篇8

数据模型是对现实事物的反映和抽象, 它可以帮助我们更加清晰地了解客观世界。多维元数据是任何数据仓库应用的必要组成部分。它用来描述应用的许多方面, 包括等级之间的关系, 存储的公式, 数据在聚合前还是聚合后被存储, 经常改变的信息, 时间系列的信息, 项的描述和报表的注释, 安全性和访问控制, 数据更新状态, 格式信息, 数据来源, 预计算表的可用性, 以及数据存储的参数等[1]。缺乏这些信息, 实际的多维元数据将是不可理解的, 并且不能灵活地查看和更新。

近年来, 多维数据的相关技术引起了学术界的关注。目前为止, 国外学者们研究成果中比较有代表性的多维元数据组织模型考虑了如何表示多维元数据集合的维层次结构的问题, 提出的多维元数据组织模型只是部分的间接支持维层次结构的表示, 而不能直接地表示多维元数据集合的完整维层次结构[2]。国内对多维元数据组织的形式化等研究工作才刚刚起步, 陈微、李琪等人在这个领域进行了一些有益的探索。陈微等提出了一种对多维元数据和在多维数据库上进行的查询/统计模型化的方法, 给出了模型化的形式定义。着重讨论了多维元数据库维的划分问题, 以函数依赖为主要依据, 提出各维应满足正交限制条件, 并给出了维的划分算法。李琪、白英彩等提出了一种基于关系数据库的SQL的多维元数据组织概念模型, 该模型的层次链、层次树、维的定义支持不平衡、异构的维层次结构, 并在此基础上对SQL作了相应的扩充以支持多维的定义、多维层次比较、多维的引用和多维聚集层次的指定[3]。

本文就是主要研究数据仓库中的多维元数据, 提出了一种数据仓库的多维元数据组织模型, 提供了复杂多维层次结构表达机制, 能够很好地表达数据仓库的各种复杂层次数据结构和语义。

2. 数据仓库中多维元数据的设计

2.1 多维元数据的结构设计

多维元数据作为数据的数据, 可对数据仓库中的各种数据进行详细的描述, 说明每个数据的上文关系, 使每个数据具有符合现实的真实含义, 使最终用户了解这些数据之间的关系。数据仓库中多维元数据的主要工作是把所需的数据仓库工具集成在一起, 完成数据的抽取、转换和加载, OLAP分析和数据挖掘等[4]。如图1所示, 它的典型结构由操作环境层、数据仓库层和业务层等组成。

其中, 第一层 (操作环境层) 是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关多维元数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务多维元数据的分析而由各种工具组成的业务层。图1中左边的部分是元数据管理, 它起到了承上启下的作用, 具体体现在多维元数据是进行数据集成所必需的;多维元数据定义的语义层可以帮助最终用户理解数据仓库中的数据;多维元数据是保证数据质量的关键;多维元数据可以支持需求。

在数据仓库环境中的多维元数据所扮演的角色和在操作型环境中数据所扮演的角色是不同的。在操作型环境中, 元数据几乎被当成文档来处理并且降低到同样的重要性级别。然而, 在数据仓库环境中, 多维元数据的重要性提高了。因为数据仓库多维元数据是给DSS分析者用的, 在DSS分析者计划该怎样去做信息型/分析型处理时, 他们要首先去看多维元数据。

2.2 多维元数据的维度建模

在数据仓库的整个设计过程中, 始终围绕的概念是元数据的维度。一般地, 元数据的维是关于一个组织想要纪录或透视的实体, 每一个维都有一个表与之相关联, 该表称为元数据的维表, 它进一步描述维。维度建模用于数据仓库数据库的设计中, 其目的是组织元数据以提高在分析和汇总大量元数据的查询效率。

元数据的维度建模针对零散的业务进程创建个别的模型。例如, 销售信息可以创建为一个模型, 库存可以创建为另一个模型, 而客户也可以创建为另一个模型。每个模型捕获事实数据表中的事实, 以及那些事实在链接到事实数据表元数据的维度表中的特性。元数据的维度建模将信息组织到结构中, 这些结构通常对应于分析者希望对数据仓库数据使用的查询方法。

元数据的维度表包含描述事实数据表中的事实记录的特性。元数据的维度表包含帮助汇总数据的特性的层次结构。例如, 包含产品信息的维度通常包含将产品分为食品、饮料、非消耗品等若干类的层次结构, 这些产品类中的每一类进一步多次细分, 直到各产品达到最低级别[5]。元数据的维度建模产生维度表, 在元数据的维度表中, 每个表都包含独立于其它维度的事实特性。例如, 客户维度表包含有关客户的数据, 产品维度表包含有关产品的信息, 而商店维度表包含有关商店的信息。查询使用元数据维度中的特性来指定对事实信息的查看。

3. 数据仓库中多维元数据的操作

与关系数据库不同, 数据仓库并没有严格的数学理论基础, 它更偏向于工程。由于数据仓库

的这种工程性, 因而可以根据它的工作过程分为:多维元数据的抽取、转换、存储和管理三个方面。建立好数据仓库之后, 还应该通过OLAP (联机分析处理) 建立起多维数据集, 然后通过一定的分析工具, 得出最后的分析结果, 整个设计如图2所示:

3.1 多维元数据的抽取

多维元数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。多维元数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步, 因此多维元数据抽取可以定时进行, 但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

3.2 多维元数据的转换

针对多维元数据的转换操作, 本文以SQL Server为例进行研究。SQL Server数据库可以有6种多维元数据转换的方法:通过DTS设计器、利用Bcp工具、利用备份和恢复、直接拷贝数据文件、在应用程序中定制和通过SQL Server的复制功能。我们采用DTS设计器对多维元数据进行转换。

多维元数据转换服务 (DTS) 通过提供一组工具, 将来自完全不同的源的数据抽取、转换和合并到DTS连通性所支持的单个或多个目的, 以满足需求。通过使用SQL Server可以创建数据转换服务 (DTS) 包。具体步骤

分为:

(l) 选择源、选择目的;

(2) 在源和目的之间建立连接;

(3) 指定要移动的多维元数据以及希望使用的转换方法;

(4) 保存包、执行包。

在具体的应用中, 可以将需要的多维元数据从不同的数据库中提取并转移到指定的数据库, 以建立数据仓库。其具体是事实表和维度表的建立和转换。

3.3 多维元数据的存储和管理

数据仓库遇到的第一个问题是对大量多维元数据的存储和管理。这里所涉及的多维元数据量比传统事务处理大得多, 且随时间的推截而累积。从现有技术和产品来看, 只有关系数据库系统能够担当此任。关系数据库经过近30年的发展, 在数据存储和管理方面已经非常成熟, 非其他数据管理系统可比。目前不少关系数据库系统已支持多维元数据分割技术, 能够将一个大的数据库表分散在多个物理存储设备中, 进一步增强了系统管理大量多维元数据的扩展能力。

4. 结语

将数据仓库中的海量数据引入到多维元数据模型中, 并对其进行OLAP操作面临着巨大的技术挑战, 同时也是非常有意义的。目前, 面对数据膨胀和信息相对贫乏的局面, 多维元数据模型的引入使得从大量空间数据中获得信息变得更快捷, 同时也为进一步挖掘空间知识提供了坚实的基础。

参考文献

[1]王奕, 范通让.多级元数据查询系统体系架构的设计与优化[J].现代图书情报技术, 2007, (12) .

[2]L.Cabibbo, R.Torlone.Querying Multidimensional Databases.In:S.Cluet, R.Hull, eds.Database Proceeding Language, 6th International Workshop.Estes Park, Colorado, USA:Springer, 2007, 319-335.

[3]Coliat G.OLAP, Relational, and multidimensional database system.SIGMOD Record, 2006, 25 (3) :64-69.

[4]曾瑞, 陶跃华.数据仓库中多维数据模型的设计[J].云南师范大学学报 (自然科学版) , 2006, (06) .

数据组织管理 篇9

农业信息空间是描述全球信息化未来的新词汇,随着近年来世界范围的新技术革命的开展,农业科学研究人员开始利用计算机网络获得信息,帮助分析农业领域财务或市场供求状况,提出可选择的决策模式[1],科技信息已经成为农业发展和支撑的动力。当前,农业信息空间里的海量数据每日均呈爆炸性增长,为了更好地提高农业信息服务功能,农业信息空间里的显性知识和隐性知识的传播与利用,成为当前一个亟待解决的热点问题。

1 农业信息空间概述

数字信息资源作为现代农业资源的主要形式和种类,从记录载体、表达方式及传播手段等各个方面代表着农业信息交流的最新水平和发展方向。农业信息空间作为一种开放动态的服务模式,其主要功能是为农业知识工作者提供一种协同交流的环境,通过农业信息空间的数据资源和信息服务促进农业知识群体的交流与合作。随着网络技术和信息环境的发展,农业信息空间已经成为农业知识创新的主流模式。在此模式下,农业信息组织者已经转变为农业知识管理者,以此提供农业信息资源和知识问题的相关服务,并且通过引入新的技术工具平台和信息组织检索方式来帮助知识传递和研究,并将其作为农业知识工作者的伙伴,与农业知识团体一起改进知识的生产、获取和保存,创造灵活的基于数字资源的学习模式来促进革命性的思考。因此,农业信息空间不仅是农业知识学习和使用信息技术以及使用和检索信息的场所,更是一个促进农业知识发展和创造知识合作机会以及支持交叉学科知识研究的场所[2]。

2 农业信息空间数据组织国内外研究现状

农业信息空间可看作是一种开放动态的服务模式,为农业知识人员和科研人员提供一个交流平台,其核心功能是通过提供资源和服务来促进农业知识交流与知识合作。在世界农业信息化发展进程中,美国、德国、澳大利亚和日本等国处于领先地位,这些国家都根据本国的实际情况,因地制宜地开展农业信息数据服务建设,并形成了自己特色的农业信息空间。美国政府以其雄厚的经济实力,从农业信息技术应用、农业信息网络建设和农业信息资源开发利用等方面全方位推进农业信息化建设,构建了以政府为主体,以国家农业统计局、经济研究局、世界农业展望委员会、农业市场服务局和外国农业局等5大信息机构为主线的国家、地区与州三级农业信息空间,形成了完整、健全和规范的农业信息服务体系。德国作为欧洲信息化发展的成功典型,从建立村庄道路的信息系统入手,逐步发展成为目前较为完善的农业信息处理系统空间。澳大利亚政府与各类涉农组织都注重农业信息资源的挖掘和加工整理,形成了丰富的农业信息资源空间。

国外的信息空间建设主要是通过构建虚拟网络平台的方式实现,具体包括建设农业资源知识库、农业知识过程协助、农业主题资源共享以及农业知识数据共享等。其农业知识数据组织方式也有一定的特点,例如一个设计咨询和技术研究实验室MAYA (http://www.maya.com/infocommons/ research.html)提供农业信息空间,让农业知识工作者更容易探索出新的思路、问题和联系,不必花费大量的时间去下载输入和格式化数据[3]。在农业信息空间里面,数据已经可以获取和重复使用[4],其优势在于能够获取已经规范一致的各种数据,将数据融合成为最终确定的概念,扩展单一和多元领域的搜索能力,使用农业信息空间的灵活数据格式,使农业知识工作者的数据随着研究的进行而不断提炼以及通过数字签名保持其对数据的所有权。

进入 20世纪90 年代以来,我国加快了网络化和数字化技术的发展,加强了分散在各个地区的农业研究分支机构与中央管理机构之间的网络化联系和协作,加强了农业信息资源的共建共享,也正在走向分布式网络化的管理体制。国内农业信息空间的知识组织方式主要采用的是导航目录的方式。导航目录实际上是对农业信息空间基本数据和知识的分类及授权服务进行控制的机制[5]。导航目录是一个有架构的组织系统,在一个广泛的农业信息空间范围内,导航目录的工作挑战是如何确定和定位数据资源,因此导航目录是一个在农业信息空间提供定位和确定系统中数据资源的一种方法。当前,导航目录成为扩展农业信息空间最重要的部件之一,未来发展将表现在如何提升简化管理、加强安全性和扩展互操作等方面。在我国农业信息基础设施建设中,最薄弱的环节是农业信息资源的开发与利用。目前,普遍存在着农业数据库建设缺乏统一规划、农业信息数据组织结构不合理、农业信息资源商业化程度低、标准不统一、规范性差以及服务能力不强等问题。

3 关联数据

3.1 关联数据简介

当前,Web农业信息空间已经从对互联网设备的松散集成发展成为由相互依存资源所组成的复杂生态系统,因此农业信息空间的海量数据服务需要一种良好的分布式数据资源的关系组织和管理。现有的Web空间数据资源组织方式是建立在Internet的基础上,通过链接来实现数据或文档的关系。此种农业信息空间的数据组织在应用过程中还是存在很大的局限性,网页文件内容松散。从信息构建理论上得知,用户关心的是主题事务而非文本信息,以HIML书写的网页语言并不包含可视化信息,知识工作者难以立刻从文档数据中提取主题,因此需要提升农业信息空间数据组织的结构化程度。

2006年,Web的发明人Berners - Lee提出了一种URL规范,使得人们可以通过HTTP UR L机制直接获得数字资源( Thing)[6]。Berners-Lee曾提出关联数据的4个原则,维基百科对其进行了阐述:

1)通过URI(统一资源标识符)识别用户在网上发现的东西,并把其当作资源;

2)使用HTTP URI,就可以定位并查找(解引用)这些东西;

3)当URI被解引用时,提供资源相关的有用信息;

4)在发现的数据中,包括链向其它相关URI的链接,是一种提高发现网络信息能力的手段。

简而言之,关联数据允许用户发现、关联和描述,并再利用各种数据。用户与数据的关系就好比万维网和文件的关系。

3.2 关联数据的应用研究现状

数据集内的知识库都可以被访问,并和其它数据集的内容连接在一起,如图1所示。

LOD遵循了万维网的基本设计原则,即简单、兼容、模块化设计以及去中心化。目前,该计划含有20多亿个RDF三元组 (triple),其中包含了大量知识。此外,参加该计划的数据集还在不断增加。目前,这些数据集可以通过非均匀方式(heterogeneous)访问。比如,通过语义网页浏览器或者通过语义搜索引擎爬虫收录,如Falcons( http://iws.seu.edu.cn/services/falcons/),Sindice (http://sindice.com),SWSE(http://www.swse.org)和Watson (http://watson.kmi.open.ac.uk)等均能搜索基于网络的数据提供关键字,由此寻找不同主题的数据集。目前,已经有数十亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。

从2007 年起,关联数据发展很快。W3C的关联开放数据运动(LOD ,Linking Open Data)正式启动,一些新的和期待已久的W3C标准也发布了,如SPARAL,GRDDL和RDFa等。大型媒体公司(如BBC,纽约时报)已经把他们的海量数据转换成了关联数据。英国和美国等国家也开始了政府信息语义网的相关工作,英国政府已在2011年6月把主要的政府信息发布成可以重用的关联数据,并且建立起重用数据的通用协议[7,7]。

随着关联数据相关研究的不断深入,不但减轻了整合农业信息空间分布式异构数据源的复杂性,而且推动了基于关联数据的新应用。目前,国内外围绕关联数据进行了一系列的理论研究和应用开发,相关的研究项目主要涉及利用关联数据实现数据网络和合作、基于关联数据构建Mashup服务、基于关联数据实现本体的再利用、关联数据的语义Web搜索引擎以及利用关联数据实现自动语义问答等。

4 基于关联数据的农业数据组织方式

4.1 RDF简介

资源描述框架RDF(Resource Description Framework)是一个语法独立的数据模型,也是描述关联数据的数据模型。RDF从本质上可以认为是XML处理元数据的一个应用。同XML一样,RDF也由是W3C组织主导而形成的一个架构,它在语法上完全遵从XML。在RDF里,基本模型包括了资源、特性和声明。它与元数据的主要不同之处在于:元数据一般是用比较简单的资料来描述资源的内容;而RDF可以同时定义多个元数据,再用定义的多个元数据来描述资源的状况。

4.2 关联数据的知识组织机制

关联数据是数据的一种发布方式,以URL的方式链接到一个数据对象,而不是一个文档。这个URL通常就是这个数据的URI,并且这个数据对象基本上是由RDF来描述的(这样才能保证数据具有语义),而且RDF文件中应该包含更多的由URI所标识的其它资源。RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系,如图2所示。

从图2可以看出,任何人都可以在农业信息空间发布数据,实体之间都是通过链接来关联,数据都可以按照RDF和OWL实现自定义。更为重要的是,数据发布是开放的,每天都有大量的数据源实时发布。

4.3 基于关联数据的农业数据组织应用

由于关联数据的简单、可靠、灵活、松散耦合、丰富语义以及自定义等特征,在农业信息空间范围内实现新的数据组织方式是十分必要和可行的。数据资源发现对于农业知识服务是非常重要的,关联数据为农业知识的资源发现服务提供了良好的途径。关联数据创造了显性知识的资源和外部世界隐性知识资源相互连接起来的机会,可以增强和扩展知识发现与知识挖掘的平台。目前,农业信息空间领域展开的或者是可以运用到的基于关联数据的数据组织应用可以考虑集中在以下几个方面。

1)将农业信息空间的知识资源发布成为关联数据。

目前,已经有一些农业信息空间开始采用RDF和关联数据,如瑞典国家图书馆、美国国会图书馆、OCLC和德国国家经济图书馆等。以RDF的格式标准发布农业信息空间内的数据资源,实现所有主题资源的关联数据化,不仅能降低服务器的负载,而且能增加规范格式文档的利用率。

2)扩展农业信息空间知识资源发现服务。

许多的农业信息空间通过实施资源发现服务,扩展其目录检索和导航界面。资源发现服务可以浏览动态更新的结果,展示更多的知识信息,但在浏览和精练结果的深度方面还具有一定的局限性,因为主要是通过主题标目和MARC记录里的其他数据来实现的。关联数据可以通过提供结构化的数据以此扩展知识信息,为知识工作者提供新的资源发现和访问服务。关联数据允许用户关联到更广泛的信息资源,并不局限于知识资源本身的信息(如图2所示)。

3)利用关联数据实现数据融合与语义检索服务。

CultureSampo[8,8]是博物馆使用开放数据的例子,是芬兰文化记忆的语义Web门户。关联数据的最大优势是可以提供多个分布式异构数据源整合的关联的访问,将来自不同数据源的同一个对象进行整合,返回给用户关于该对象的所有相关信息的统一视图。在未来,越来越多的农业信息空间将在数据融合方面发挥更大的作用。伴随语义网的发展,农业信息空间下的各个知识机构同其他组织进行数据的识别和交换的方法越来越容易,数据可以重新使用和组织的方法也越来越多。

5 结语

将不同的数据源整合在一起,可以比在任何一个组织中获取的数据更能提供背景和深入的洞察力。建立基于关联数据的农业信息空间数据组织方式,不仅能更好地扩展知识资源的内容,提升知识资源的发现服务,而且还有助于推动和构建大规模的分布式服务,帮助建立一个更为开放的网络,促使新的农业信息空间信息生产模式的生产,并结合新的语义技术实现增值性的信息组织。

参考文献

[1]李思经.试论国外农业研究信息体系的管理[J].情报海外,2005(5):92-93.

[2]邬宁芬.信息共享空间:大学图书馆的机遇与挑战[J].图书馆杂志,2005(11):30–33.

[3]Dr D Russell BA ILEY.Information commons services forlearners and researchers:evolution in patron needs digitalresources and scholarly publishing[EB/OL].[2007-11-30].Http://librar2y.uncc edu/info commons/confer-ence/p rague2005/bailey2inforum2005.Doc.

[4]鄢小燕,李娜.科研协同信息空间[J].图书馆杂志,2008(11):49-50.

[5]王德禄.知识管理的IT实现[M].北京:电子工业出版社,2003:93-94.

[6]Berners-Lee T.Linked Data[EB/OL].[2010-02-11].http://www.w3.org/Design Issues/Linked Data.html.

[7]HM Government.Putting the frontline first:smarter govern-ment[EB/OL].[2009-12-01].Http://www.hmg.gov.uk/media/52788/smarter-government-final.Pdf.

[8]Hyvonen E,Makela E,Kaupp inen T,et al.CultureSampo-finnish culture on the semantic Web 2.0:thematic per-spectives for the end-user[EB/OL].[2010-01-20].http://www.arch muse.com/mw2009/papers/hyvonen/hyvonen.html.

[7]姚宗路,王晓燕,李洪文,等.2BMD-12型小麦对行免耕施肥播种机改进与试验研究[J].干旱地区农业研究,2005,23(5):46-51.

数据组织管理 篇10

随着经济社会的发展, 社会信用体系建设已成为维系市场健康发展、制约交易主体违规行为、强化信用主体履行责任与承诺的重要管理手段。而社会信用体系初步建成后必然需要一套客观可靠的评价指标体系。社会信用的复杂性决定了社会信用评价必然是多层级多指标的综合分析过程, 在对某个信用主体进行信用评价时, 在海量数据中保证其数据的唯一性和可追溯性尤为重要。第十二届全国人民代表大会第一次会议通过的《国务院机构改革和职能转变方案》中明确提出要“建立以公民身份证号码和组织机构代码为基础的统一社会信用代码制度”, 因此我们尝试构建以组织机构代码为唯一标识的信用数据库, 为社会总体信用评价奠定数据基础。

2 信用数据库的设计原则

社会信用评价是一个涉及到价值评判的问题, 这就要求信用数据库的设立, 必须建立在公正、科学、有效的基础上。在公正的前提下, 对指标的选取的科学原则来源于两点:一是指标要能全面反映社会信用的状况, 因此指标要具有完整性;二是要保证根据指标收集的数据能与评价主体准确对应, 因此要数据具有关联性。有效是我们建设信用数据库的最终目的, 一方面我们可以采用多级别综合评价的指标设立方式, 数据采集细化到每个可量化指标;另一方面要求所选取数据能够便捷快速采集, 以确保数据的时效性。

四川省组织机构代码数据总量已达157万条, 其中有效数据87万条, 数据包含了我省行政区域范围内所有依法注册、登记的组织机构。广泛应用于统计、公检法、财税金融、社会保障以及文化等二十余个部门, 为反腐倡廉、税收征管、打击金融犯罪、统计年报和普查等工作提供了有力的数据支撑。现有的组织机构数据库在惟一性、完整性、动态性上具备其他数据库无法比拟的优势, 但也存在一定技术缺陷, 主要体现在:

1) 由于其省级数据库设计思路主要是为业务办理服务, 其数据每次修改后均会覆盖历史内容, 追溯源仅限于操作记录和电子档案, 操作记录信息有限, 而电子档案自动识别技术尚不成熟。若采用定期备份的方式对历史数据进行保存, 虽然所有历史数据得以留存, 但在数据使用上又极为不便, 对特定时间段内进行数据追溯的能力有所欠缺。

2) 目前, 数据库可伸缩性、并行性较差, 若对数据进行增量存储的同时, 再进行时间节点存储, 其数据量将达到TB级别, SQL server并行实施和共存模型并不成熟, 很难处理日益增多的用户数和数据卷。而Oracle并行服务器能通过使一组结点共享同一簇中的工作来扩展其能力, 提供高可用性和高伸缩性的簇解决方案, 对各种UNIX平台的集群机制都有着相当高的集成度。

3) 信用数据库涉及到多应用部门之间高密度的海量数据交互, SQL Server多用户时性能不佳, 且只支持windows客户连接, 而Oracle利用多层次网络计算, 支持多种工业标准, 可以用ODBC、JDBC、OCI等方式支持多操作系统、多数据库之间的网络互联和数据共享, 完全能满足所归集信用数据的整合和扩容增项。

3 信用数据库的构建方法

社会信用评价的特殊之处在于, 它力图反映客观的真实社会状况, 因此, 必须从客观事实出发, 但另一方面, 评价本身又是带有主观色彩的行动, 尽管指标设立时我们尽可能按照公正、科学、有效的原则, 但为了降低因数据原因对评价结果所产生的影响, 必须尽可能保证信用数据库所采集数据的客观有效。要处理好主观观念与客观数据、定性研究与定量分析、动态变化与静态数据的平衡, 一定要做好以下两点。

3.1 从多层面归集客观数据

选取社会信用评价的指标时, 要充分考虑客观数据的完整性对评价结果的影响, 对此我们必须尽可能齐全的归集各职能部门相关数据, 并根据一定的标准, 折合成数值, 再进行量化计算。目前, 我省各职能部门和各级政府纷纷建立了地区性或局部性的社会信用体系信息化技术平台, 但“信用信息不规范”“信息孤岛”现象成为实现全省范围内信用主体“一处失信, 处处制约”最为关键的技术障碍。此外, 无论由任何一个职能部门牵头, 都很难准确提出本部门以外所需采集的其他信用数据, 更加无法整合形成完整的数据库。因此, 确定好信用信息的分类, 必然成为信用数据库建设的关键环节, 而利用好信用主体统一标识代码对数据进行归集, 则是建设信用数据库的必要技术手段。如图1所示, 以公民身份证号码和组织机构代码为索引, 分别对公民、法人和其他组织建立基础数据库, 进一步归集工商、税务、银行、建设等部门的相关信用数据后, 以之作为公共载体, 实现更多应用部门信用数据的获取、存储、调用及交换功能, 最终通过多平台、多渠道进行信用信息发布, 实现信用数据库共建共享。

3.2 从多维度进行数据比对

社会信用既不断发展变化同时也保持一定的稳定性, 因此, 对信用数据库的建设必须坚持动态与静态相结合的方法。动态性有助于我们以发展的眼光考察信用变化的原因, 以便采取有效的对策;而静态性保证了我们针对时间节点进行比对和定量分析的可能性。

1) 与应用部门比对, 实现信用信息动态可交互。考虑到信用体系建设必然是一个漫长的过程, 以现有组织机构代码数据库为基础, 以组织机构代码号为唯一标识, 可实现与各部门现有系统之间多方式多渠道的数据比对, 不仅可将各独立数据库的数据进行归集, 还能通过反馈表、数据接口等多种方式对各数据库进行补全, 具体的数据归集和发布流程如图2所示。

正在进行的第三次经济普查, 其实质就是以组织机构代码数据库为基础, 通过与各部门数据进行比对建立“机构实名制”, 而实名制则是建立和完善我国信用体系最重要的基础和前提。

2) 与历史数据比对, 确保信用记录静态可追溯。四川省目前已经开展了对代码数据进行深层次挖掘和研究工作, 结合经济社会发展状况, 探寻代码数据与区域经济社会发展的内在联系, 所形成的《组织机构动态分析报告》为经济发展、结构调整、招商引资、公共服务等诸多方面提供决策参考。在此项工作基础上, 我们拟利用动态交互所形成的信用数据库搭建四川组织机构信用追溯平台。该平台不仅可完整的展现某信用主体现阶段的信用状况, 还可追溯该信用主体通过一定规则筛选后的所有历史信用记录, 实现公民、法人和其他组织信用数据的逻辑关联, 在信用市场培育成熟后, 还可通过该平台提供信用报告服务, 详情如图3所示。

摘要:以社会信用的内涵为核心, 围绕社会信用的唯一主体标识、信用数据交换归集、信用行为信息完整与可追溯等内容, 构建作为社会信用评价指标体系基础的信用数据库, 最终目的是在全省范围内实现信用信息快速交换, 为我省社会信用体系建设打下坚实基础。

数据组织管理 篇11

存储系统的设计和运行中,经常涉及各种数据组织策略选择,包括数据在设备上的放置、布局、冗余、定位等。 不同的数据组织策略对存储系统的可靠性、I/O性能、可用性、安全性等产生不同的影响,一直是评估存储系统的重要指标。随着信息资源的爆炸性增长,存储系统规模日益庞大,在可靠性、存储容量、可用性、I/O速率等方面的需求越来越复杂。传统的基于块的存储系统采用的数据组织策略,大多是静态的、固定不变的,或是针对特定应用环境的,已经越来越不适应大规模存储系统的发展要求。 以磁盘阵列子系统(RAID)为例:系统初始化阶段需选择几个物理磁盘构成RAID组,再将RAID组划分为若干slice,每个slice对应映射为一个主机可见的逻辑单元(LUN)。通常的做法是为不同的slice设置不同的RAID级别、数据块/分条单元大小、读写/访问模式、Cache大小、预取方式等数据组织策略。这样的数据组织方式缺陷十分明显:1每个slice的配置都是固定的,使用一种配置服务多种应用,难以应对大规模存储系统各种变化的负载;2随着系统规模的增大,slice数目越来越多,配置管理任务越来越繁重;3当系统需要扩展时,为充分利用新增设备的优势,需要进行重建slice、重新分布数据等高风险高代价操作。

本文针对静态数据组织存在的问题,提出了一种基于属性管理的动态数据组织方法[1]。首先定义一组“属性”用来描述系统应用负载的特征,通过对这些属性的分类, 将某类属性对应于特定的数据组织策略;然后设计属性管理存储系统,以SCSI-OSD标准为基础,这些属性信息通过存储对象传递给最底层的存储设备,为相应属性的存储对象选择合适的数据组织策略,实现存储系统的动态数据组织。

1相关研究

属性管理是按一定的属性规则将系统组件分类,为每一类组件赋予不同的属性值,根据属性和属性值对系统进行管理。1995年,R.Golding提出了 “属性管理存储系统”(Attribute-managed storage)[2],在存储系统中加入属性管理,基本原理是:利用属性来描述存储系统的负载和设备信息,其中负载行为包括读写方式、速率、可靠性等信息。系统通过属性映射引擎,将属性信息映射到存储系统,满足对应的需求目标,实现复杂存储系统的自管理。 Borowsky研究了在存储系统中利用属性管理获得高可靠性的技术;Shriver研究了属性的映射问题[3],并利用属性管理“解决器”,将应用负载信息赋给合适的设备。由于当时存储系统使用块接口,无法在系统中动态传递属性,所以上述研究都没有真正实现属性管理存储系统。

SNIA OSD工作组和INCITS下属的T10技术委员会共同制定了对象存储技术———ANSI X3T10标准,该标准定义了支持对象操作的扩展SCSI命令集,包含了基于对象的属性扩展机制和属性的设置接口,并为对象提供了相应的访问方法。该标准定义了存储系统中属性和对象操作的基本方法,但没有对影响存储系统数据组织策略的属性加以研究和规定。

2动态数据组织策略

基于属性管理的动态数据组织策略,是用一组属性描述存储系统中应用负载特征,然后对这些属性分类,为带有某一类属性的存储对象选择合适的数据组织策略,以满足系统性能、可靠性、可用性等方面的需求。

2.1属性

不同的数据组织策略,为应用负载提供相应的性能需求(如响应时间、高可用性、IOPS、安全性等)。要实现动态选择对应的数据组织策略,首先要用一组属性来描述对象的负载特征,为某些同类负载特征的对象匹配相应的数据组织策略。从负载属性集中满足应用服务质量的静态属性和表示应用行为的动态属性,对存储对象的负载特征进行描述,将这些属性划归为5种类型,使每种类型对应于最合适数据组织策略(Type0-Type4)。属性描述及分类见图1,属性类别与数据组织策略的对应关系见表1。

2.2基于属性的存储系统

为了实现属性信息的传递和数据组织策略的动态选择,设计了属性管理存储系统模型,由网络传输层、应用层、设备层和元数据管理层4部分组成。网络传输层定义系统的数据格式和传输方式,并提供面向属性和对象的操作接口。请求从应用层发出,经由对象文件系统xaFS进入网络。设备层截获网络传输层解释的请求命令,并分配和管理基于对象的存储空间。请求经由系统中各子系统的驱动程序到达物理设备。属性管理存储系统总体结构见图2。

3原型系统

为验证上述设计思想,结合SCSI-OSD标准设计了自定义负载属性和另外4个扩展属性:访问模式、请求大小、可靠性级别、读写模式,实现了属性管理存储系统原型系统AmSS(Attribute-managed Storage System)[4-5]。 应用层设计为发起请求的客户端;设备层设计为提供服务的服务器,包括存储对象管理和底层RAID子系统,它们共同构成了对象存储设备(OSD)。网络传输层则设计支持iSCSI协议和SCSI-OSD标准的驱动程序。客户端的OSD启动器移植于IBM的源代码osd_initiator-3.1.1,为xaFS提供对象属性操作(SCSI-OSD命令)接口,底层iSCSI启动器使用Linux内核集成的版本Linux-iscsi-4.0.2。服务器中的iSCSI目标器基于UNH实现的版本unh_iscsi-1. 6.00,并在unh_iscsi-1.6.00的基础上实现了iSCSI协议的AHS(Additional Head Segment)机制,以支持SCSI- OSD命令的扩展CDB及其双向传输(AHS Type1/Type2 。最初基于块操作的SCSI命令最大传输16字节的CDB, 而SCSI-OSD的CDB长度最大要求200字节。此外,一些与属性相关的SCSI-OSD命令还要求双向传输);OSD目标器和OSD对象存储设备则基于Linux2.6.10自主设计,前者解析SCSI-OSD命令(原型系统目前支持的命令包括CREATE、FORMAT、GET/SET ATTRIBUTES、 LIST、READ/WRITE和REMOVE),并根据命令中包含的负载属性信息将存储对象放置于后者合适的Section中。规定每个Section所包含的数据块个数为8KB,则每种类型Section的容量是固定的。此外,系统采用元数据带内传送方式(数据和元数据在同一I/O路径上传送),未开发专门的元数据服务器是为了快速实现原型系统。软件中所有功能模块在Linux2.6.10下以内核态驱动程序的形式实现,原型系统软件结构见图3。

4性能测试及评价

对原型系统在不同负载情况下进行性能测试,测试的目的是在没有文件系统和客户端cache影响的情况下,评估具备动态数据组织策略的原型系统与传统的块存储系统在不同负载情况下的性能表现。为了能在驱动层反映出相应的负载,采用通用的负载合成工具Iometer仿真了4种典型负载以注入系统。

4.1原型系统硬件平台

表2为AmSS客户端、服务器(RAID子系统)的硬件配置。服务器、客户端通过各自的千兆网卡连接到Cisco Catalyst4500交换机上。

4.2测试评估

用Iometer软件调整不同的访问模式、读写、请求大小,模拟仿真出4种典型的应用负载环境,测试AmSS在不同应用负载环境下的I/O性能,见表3。初始加载各种类型的Section,一共划分出4912MB的磁盘空间,写请求选择空间覆盖的策略,即目标器按照写请求创建对象信息,只写相同的磁盘空间而不为请求分配新的空间,每一种负载测试时间为5分钟。 同时,对RAID子系统和AmSS目标器做一些小的调整,另外搭建一个基于块接口和支持SCSI命令的iSCSI-RAID存储系统,同样使用上述4种方式进行仿真负载,基于不同的组织策略进行对比测试。如图4、图5所示,iSCSI-RAID使用的前3种数据组织策略都不能优化所有仿真负载性能,只有AmSS的性能相对于其它3种策略,在不同负载环境下都可以保持最好的成绩。

5结语

基于存储对象的属性管理方法,分别从动态和静态对存储系统的负载属性特征进行了处理,使存储系统可以根据这些属性信息进行动态配置管理,自动满足不同的可靠性、I/O性能、安全性、可用性等需求,最大程度地减轻了存储系统日益增加的管理难度,是实现存储系统智能化、 自管理的基础。本文设计了属性管理原型系统,根据负载的属性信息选择最适合的对象数据组织策略,以达到最优的I/O性能。实验表明,原型系统能根据不同的负载条件自动选择合适的数据组织策略,使I/O性能始终处于优化状态。下一步将研究xaFS的并发控制功能,并为原型系统开发元数据服务器,使原型系统支持文件系统层的多客户端访问。另外,实验中发现原型系统长时间运行后的磁盘利用率较低,基于Section的对象碎片管理以及空间回收算法将是进一步的研究目标。

参考文献

[1]R.GOLDING.Attribute-managed storage[J].San Antonio,TX,1995.

[2]E BOROWSKY,R GOLDING.Using attribute-managed storage to achieve QoS[C].In:5th International Workshop on Quality of Service,Columbia Univ,New York,1997.

[3]E SHRIVER.A formalization of the attribute mapping problem[C].In:Technical Report HPL-SSP-95-10,HP Labs,1996.

[4]MIKE MESNIER,GREGORY R GANGER,ERIK RIEDEL.Object-based storage[J].IEEE Communications Magazine,2003,41(8):84-90.

上一篇:访问的方法与技巧下一篇:慢性原发性肾小球疾病