研究数据制表模型

2025-02-02

研究数据制表模型(精选10篇)

研究数据制表模型 篇1

随着市场经济的发展和人民生活水平的提高, 购物环境舒适的超级市场正在得到越来越多消费者的青睐, 连锁超市已经成为我国商业零售业的发展主流。加入W T O后, 我国商业零售业在应对国内竞争的同时, 将面临来自沃尔玛、家乐福、麦德龙等国际零售巨头激烈的国际竞争。因而我们不仅要密切跟踪行业发展趋势, 同时要借鉴吸收国内外先进的管理模式, 坚持本土化和国际化相结合, 在营销和管理工作上走出自己的经营特色之路, 最终在竞争中求得生存与发展。

在信息时代, 谁能在信息的海洋中获取更多的知识, 谁就能取得成功的主动权。信息技术在企业的决策和商业活动中起着重要的支持作用。

信息技术的迅速发展和企业管理决策的迫切需要, 使数据仓库理论应运而生, 并成为决策支持领域中实用性极强的技术。

一、数据仓库和数据集市

数据仓库技术是当前用于企业决策支持的、先进的有效方法。

1993年, W.H.lnmon在其所著《Building the Data Warehouse》中对数据仓库进行了完整的界定。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性的数据集合, 用以支持管理层的决策”。这一界定被学术界广泛认同。W.H.lnmon关于数据仓库的定义, 可以从几方面来理解:

1. 数据仓库是一种数据资源集成与整合的具体方法。

数据仓库不同于一般的数据库。它是按照一定的要求、围绕明确的主题, 对原有分散的、相互独立, 异构的操作型数据进行有效集成。

2. 数据仓库存储的数据具有相对的稳定性。

3. 数据仓库的数据主要用于对管理决策过程的支持。

数据仓库的鲜明特点, 使数据仓库技术具有广泛的应用前景。目前, 已有不少行业把数据仓库技术用于数据管理和决策支持, 取得了经验, 产生了效益。

数据集市是数据仓库的一个子集, 它面向部门级业务, 面向某个特定的主题。是一种简化的小型数据仓库。实际上, 多个相互联系的、围绕一个宏观大主题的多个数据集市的集成, 就构成了数据仓库。数据集市和数据仓库在其实现过程和数据模式方面, 没有根本的差异。而数据集市比数据仓库更为简洁、方便, 易于快速实施并应用。因此, 在建立企业级的数据仓库前, 可规划建立多个部门级的数据集市, 在此基础上, 集成实现企业级的数据仓库。

二、数据仓库的“星型模型”

“星型模型”是数据仓库广泛采用的数据模型。它能准确、简洁地描述出实体之间的逻辑关系。数据仓库的其他数据模型, 一般是在“星型模型”的基础上的变形与扩充。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。如图1所示:

事实表是星型模型的核心。用于存放大量的具有业务性质的事实数据。事实表由主键和事实的度量数据两部分组成。事实表通过主键, 把各维度表链接在一起, 形成一个相互关联的整体, 共同描述主题。事实表中存放的大量数据, 是同主题密切相关的、用户最关心的、对象的度量数据。

维度是观察事实、分析主题的角度。维度表的集合是数据仓库数据模式的关键。维度表通过主关键字与事实表相连。用户依赖于维度表中的维度属性, 对事实表中的事实数据进行查询、分析, 从而得到支持决策的数据。

因此, 对事实表和维表的分析设计, 是数据仓库数据模型设计的关键。

三、连锁超市数据集市的数据模型

数据模型是建立数据仓库的基础。业务需求是进行数据仓库数据模型设计的驱动力。连锁超市商品销售情况可以看作超市管理数据仓库的一个子集, 即数据集市。适宜选用以“星型模型”为基础, 建立能满足需求的连锁超市数据集市的数据模型。

1. 事实表的设计

如前所述, 事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。针对本文的研究主题, 最需要关注的是连锁超市商品销售情况。因此, 在事实表中, 要准确记载各连锁超市所畅销的商品、销售数量、营业额、利润等度量数据。

事实表中数据的细节程度或综合程度的级别称为数据“粒度”。粒度是数据仓库事实表的重要的特征。粒度的级别依赖于维表的属性。不同的需求, 对数据仓库的粒度要求不同。

连锁超市数据集市需要保留最低层次的细节数据, 以满足数据集市的信息查询要求。很多数据挖掘的应用程序也需要最低层次的数据颗粒。再者, 低粒度的事实表便于从操作型系统中抽取源数据。此外, 最低层次的细节数据是聚集事实表的基础。

另一方面, 为提供决策支持, 需要多方面的高粒度的汇总数据。

因此, 连锁超市数据集市的数据模型设计, 要能方便获取从最低层次的细节数据到高度概括的汇总数据。这不仅需要设计好事实表, 同时依赖于维度表属性的设计。

2. 维度表的设计

维度表的集合是建立数据仓库数据模型的关键。

建立连锁超市数据集市的目的是要从各个角度, 分析对商品销售情况的影响, 为管理者在研究超市发展策略等方面, 提供决策支持。

针对连锁超市需要掌握的基础信息和决策的需求, 在连锁超市数据集市中, 设计了以下维度及其主要属性。

客户维:这是最重要的一个维度, 在商界, “客户就产上帝”。在客户维中, 建立了客户的基本信息、是否为会员客户、客户居住地域等, 以便掌握客户个人细节数据。从数据粒度的需要, 客户维还建立了客户的会员关系和属地等。为建立聚集事实表作好准备。

商品维:商品维也是一个重要的维度。商品不仅决定了超市的经营范围, 商品的结构、品牌、质量直接影响营业额。在商品维中, 设计了商品代码、商品名称、商品类别、品牌名称、包装类别等维度属性。

时间维:在数据仓库的多维数据结构中, 时间维往往是不可少的一个维度。因为每项“销售事实”都是在一定的时间或者时间段内发生。针对需求, 时间维采用日、月、季、年四个属性。

连锁店维:各连锁店承担了全部商品的销售业务。连锁店的服务质量直接影响企业的竞争力、销售业绩和企业利润。连锁店维中建立了连锁店名、销售经理、规模、所在地域等维度属性。

根据上述分析, 建立连锁超市数据集市的星型数据模型, 如图2所示:

3. 处理好大维度问题

在上列各个维度中, 客户维和商品维都是典型的大维度。这是因为:大的连锁超市, 客户维和商品维很深, 累计可能有数以万计的客户和上万种商品;客户维和商品维很宽, 根据需要, 这两种维可以有多个维度属性。

数据仓库的大维度, 会给数据仓库的操作应用带来一些问题。大维度中的长文本字段不仅占用存储空间, 而且维度数据不易更新和维护;向大维度表填充数据难度增大;对事实表的查询涉及大维度表时, 会影响效率。解决数据仓库“大维度”问题较好的办法是采用“雪花模型”。

“雪花模型”是在星型模型的基础上拓展而来的。将“星型模型”中的大维度表进分解, 通过增加详细类别表, 形成一些局部的层次区域, 就演变成为“雪花模型”。将连锁超市数据集市中的两个大维度表——客户维和商品维进行“雪花化”。分解出相应的类别表, 既解决了大维度表带来的问题, 也为建立“聚集事实表”作好了准备。

基于上述分析, 设计出低保基础信息数据集市的雪花模型构架。如图3所示:

四、连锁超市数据集市聚集模型设计

“聚集”是从最低粒度的事实表中衍生出来的的预先计算的汇总数据。这些汇总数据形成了一组独立的聚集事实表。实际应用中, 可以根据需要用跨越任何维度的特定的汇总数据构建为一个聚集事实表。

1. 建立数据集市聚集事实表的必要性

建立低保基础信息数据集市的主要目的, 是要为管理者提供具有决策价值的汇总数据。因此, 把使用频率高的汇总数据存放在聚集事实表中, 对提高数据集市的的使用性能, 为管理者提供决策支持, 使用户获得更好、更快的查询结果, 是非常必要的。数据集市聚集模型的好坏将在很大程度上影响到数据集市的使用效果。

2. 怎样建立聚集事实表

在数据集市中建立聚集事实表, 要注意以下原则:

⑴每一个不同的聚集必须使用单独的事实表存储聚集数据, 成为相对独立的聚集事实表。

⑵聚集事实表中的维表必须是基本事实表中的维表的压缩。

⑶基本事实表中的度量数据加载后, 才能作聚集处理。

3. 连锁超市数据集市常用的聚集事实表

每一个数据仓库 (数据集市) , 都可能有多个维度表。因此, 一个数据仓库 (数据集市) 会有很多个聚集事实表。究竟需要那些聚集, 要针对用户需求和决策需要。例如, 连锁超市数据集市中可建立以下常用聚集事实表:

⑴单路聚集:在有多个维度的数据模型中, 如果只有一个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为单路聚集事实表。在连锁超市数据集市中, 把时间维度的属性层次升高到月、季或年, 其他维度层次保持不变, 就生成一个单路时间聚集事实表。

⑵二路聚集:在多维数据模型中, 如果有二个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为二路聚集事实表。在连锁超市数据集市中, 如果需要掌握在某年对会员客户的销售情况, 可以生成时间维属性为年, 客户维属性为会员, 其他维保持不变的二路聚集事实表。如图4所示。

⑶三路聚集:在多维数据模型中, 如果有三个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为三路聚集事实表。例如:在连锁超市数据集市中, 需要掌握在某年会员客户对某个品牌商品的购买情况, 就需要对销售事实表进行三路聚集, 如图5所示。

按照上述方法, 可以根据需要灵活方便地生成多个聚集事实表。

五、结束语

能否满足需求, 是衡量一个应用软件质量的重要依据。利用本文提出的连锁超市数据集市的数据模型架构, 不仅为建立连锁超市数据集市奠定了基础;而且为数据集市的发展利用创造了条件。通过数据挖掘技术, 能够从多方面获取连锁超市经营管理中的重要信息, 为企业在竞争中取得主动权, 促进企业的进一步发展, 提供决策支持。

参考文献

[1]王志海:数据仓库[M].机械工业出版社, 2003

[2]邵红全 赵 茜:运用多维数据模型实现数据集市[J].河北省科学院学报, 2003 (2) :99~102

[3]段云峰:数据仓库基础[M].电子工业出版社, 2004

[4]李姗姗 宁 洪 陈 波:通用数据仓库元数据模型的研究[J].计算机工程与应用, 2004, 26 (5) :52~55

[5]刘中蔚 陈 红:用基于元数据库的工作流调度数据仓库的更新[]].计算机应用研究, 2006, 23 (3) :178~180

[6]范 明:数据挖掘概念与技术[M].机械工业出版社, 2004

[7]平 静 林平瑞:元数据管理及其在数据仓库中的应用[J].平原大学学报, 2006 (8) :130~132

[8]彭晓东:基于数据仓库的综合决策支持系统的设计研究[j], 电脑开发与应用, 2003 (6) :11~20

研究数据制表模型 篇2

关键词:高校数据中心;流程再造;模型

中图分类号:TP302文献标识码:B文章编号:1673—8454(2012)17—0009—05

一、引言

信息化建设是高校内涵建设的重要组成部分。在信息技术飞速发展的今天,越来越多的国际名校选择通过信息技术手段重新思考和彻底地重新设计学校的核心业务流程,从而更好地服务自己的用户,应需而变,迎合市场适应社会,获得更强的竞争力。那么在我国高校纷纷建设自己的数据中心、提供各种应用和服务时,是否应冷静思考高校的信息化建设应如何为学校未来的可持续发展提供更多的战略帮助?高校要转型,高校要发展,高校要国际化,这些目标的实现都离不

开信息技术支撑平台。本文拟通过调研上海高校数据中心建设现状,围绕高校核心业务流程再造的命题,基于高校数据中心物理层、数据层架构,设计出适合中小型高校流程再造的模型并加以分析论证。

二、高校数据中心

数据中心的概念很宽广,从体系架构的角度来看,分为物理层、数据层、应用层或服务层,各层之间并非独立,而是相辅相成,融为一体。普通用户只能感受到服务层或应用层的变化,作为信息技术人员,从不同角度谈论数据中心,将会呈现出不同的维度效果。

高校数据中心指在数字化校园的建设过程中,以电信级机房设备向校园各用户提供专业化和标准化的数据存放业务和相关服务的统一支持环境[1]。高校数据中心主要是为数字化校园建设的公共基础服务、各类应用服务提供全方位的运行和管理功能。高校数据中心主要定位于服务数字化校园建设。建设内容主要包括:物理层、数据层、应用层以及三者的集成。

(1)物理层建设:包括机房、系统、网络以及网络安全等底层建设。

(2)数据层建设:通过采取一定策略,使不同业务部门的数据实现集中与共享,实现数据备份与恢复,保障数据安全。

(3)应用层建设:开发和集成高校各应用系统,提供面向用户(教师、学生、员工等)业务流程实现和各类服务。

三、上海高校数据中心建设现状

从2009年开始,作者先后走访了十几所高校信息技术部门,全面了解各所高校信息化建设特别是数据中心的建设情况。围绕数据中心硬件架构、公共数据库、数据交换、数据安全、挖掘分析等问题和这些高校信息技术人员进行访谈。并与多家软件服务类公司技术或研发人员进行技术交流和探讨。访谈同时作者检索阅读了大量企业、高校数据中心建设,企业、高校流程再造等方面的文献、书籍并查阅了各大高校包括国外高校信息化建设专题网站,运用多学科理论、方法拓宽研究思路和研究方法。作者经过几年调研、思考和项目建设经验梳理和概括出上海高校数据中心建设四点现状:规划先行分步实施、硬件支撑全面保障、数据集成数据共享、挖掘分析决策支持。接下来的章节将围绕这四点现状以个案分析的形式展开。

1.教育部直属高校个案分析

以复旦大学为首,上海高校几乎都是在许多应用系统“信息孤岛”的现状中通过数据整合工具,在硬件条件不断完善的基础上经过若干年的信息化建设才将数据中心IDC(Information Data Center)从体系架构和实际应用中凸显出来的。高校数据中心的建设不是一个项目一次投入就完成的。像复旦这样的一流大学也是分阶段分期实施,第一阶段基础建设,第二阶段应用系统建设,第三阶段信息资源整合及服务集成。目前复旦处于建设的第三阶段。在数据集成方面复旦选用Oracle ODI中间件,前期由公司根据交换需求进行二次开发,2009年底开始由学校信息技术部门专人根据流程变化需要调整交换策略。在实施数据交换的过程中,他们发现交换难不在技术而在协调。要在全校范围内确定“标准”,应用系统往这个“标准”进行整改,才能确保交换顺利推进。复旦共享数据库先后经历三次改进,数据仍处于积累阶段,还未达到学校决策支持的最终目标。

调研过程中,我们也看到高校数据中心不同的应用场景。比如华东师范大学选择东软作为长期合作开发伙伴,坚持“一个库”工程。全校建立统一的公共数据库,分部门更新和管理生产数据。统一的公共数据库和统一的权限管理使得全校基础数据来源唯一,避免大量分置的重复数据,也避免了人工干预同步数据。但由于华东师范大学办学规模大,就平台使用人员来看,2012年在校用户(本专科生、研究生、教职工、教师及科研人员)就有近35000人,这还不包括校友、社会人员。公共数据库膨胀很快,曾出现过核心业务流程因并发用户的激增而宕机现象。笔者认为华东师范大学“一个库”工程打造数据中心战略并未失误。暴露问题并非坏事,摆在技术人员面前的是在高校公共数据库急速膨胀状况下如何从根源上优化基础架构、数据库性能或业务流程,这将是一个非常棘手的复合难题。

2.上海市属高校个案分析

上海大学数据中心2006年创建,基础架构投入力度大,超过许多教育部直属高校。数据中心机房无论网络布线、精密空调还是备用电源设备都按电信级标准建设。他们在数据中心高性能高可用的物理层架构基础上分步建立了比较完善的信息服务体系,形成了以教职工、学生生命周期管理的信息化初步模型。上海大学信息办徐主任认为,“应该尽量减少数据集成,因为有了交换,就会有数据的不一致。上海大学没有概念中的公共数据库,我们不提数字化校园,只提数字化和共享。”

在调研上海理工大学信息办过程中,我们了解到他们在搭建公共数据库过程中,数据来源相对单一,从而减少了数据清洗和人力协调的成本。上海理工大学在前几年应用系统数据积累基础上选择商用BI工具,用三至四月做了关于教职工人事、科研方面的主题分析,并尝试在数据挖掘方面深入下去,为学校领导层提供决策支持。

3.上海体育学院个案分析

上海体育学院是国家体育总局和上海市共建共管的体育高校。该校信息技术部门在上海体育学院信息化建设“十一.五”规划指导下,连续投入上千万,搭建了合理的硬件基础架构,完成了信息基础平台,人事、科研、学工等十几个应用系统建设任务,并利用整合工具逐步实现数据整合和共享,实现统一身份认证和单点登录,目前学校已进入信息化建设二期项目建设阶段。

上海体育学院信息化建设起步虽晚但起点较高。经过近五年的建设,数据中心IDC初具规模。其中物理基础体系架构已趋于完备,IDC防火墙,网络、光纤交换机,Web应用防火墙等硬件设备保障IDC机房网络、数据畅通以及关键应用服务的访问安全。三套存储设备、不间断备份、异地容灾的数据层架构全方位保障了数据中心的数据安全(如图1所示)。近50多台服务器,虚拟化实验、HA实施,不断提高其关键设备及关键应用的高可用。通过虚拟化技术的应用最大程度保障学院信息化建设过程对服务器等设备的需求,也使学校硬件经费投入产出利益最大化。学院IDC机房实行7*24小时不间断环境和系统监控,最大程度上保障数据中心应用服务稳定可靠。数据中心核心数据库有Oracle RAC、MSSQL Server、PostgreSQL,集中存放学校基础数据、共享数据,并根据建设项目的推进不断整合和优化。随着现代信息技术和高校数据中心的发展趋势,上海体育学院数据中心在机房建设、资源整合、数据整合、应用与服务上都有待进一步提高和完善。

四、高校流程再造

1.高校流程再造

高校流程再造是从企业流程再造BPR(Business Process Reengineering)衍生出来的。高校流程再造UPR(University Process Reengineering)是以高校用户需求为导向,以管理流程为核心,通过对高校业务流程进行根本性的再思考和彻底性的再设计,从而实现高校整体管理水平和办学效益的显著提高[2]。UPR是一项战略性的进行高校重构的系统工程。实施UPR成功的根本动力是高校长期可持续发展的战略需要。UPR借助工业工程技术、运筹学方法、管理科学、信息技术等多项现代社会人文科技手段,从业务流程、组织结构、高校文化等方面对高校进行系统重构。概括而言,UPR由以下要素构成[3]:

(1)从满足高校用户需求出发。高校用户有学生、教师、科研人员、员工、校友以及社会人员等。高校一方面要以市场为驱动,培养社会需要的人才;另一方面要对组织机构进行改革,提升学生、教职工满意度。

(2)以管理流程为中心。高校要将以任务为核心再设计为以过程为中心。要结合高校“服务驱动”的管理模式,对其核心业务流程进行分析改造。具体而言,就是分别对学生事务、教学、科研等核心流程进行跨部门的流程再造,这就是UPR的工作重点。

(3)要充分运用信息技术和人两个主要手段。没有深入地应用现代科学技术特别是信息技术,没有变革组织,严格地说不能算再造。信息技术已经改变传统教育理念和模式。高校应该充分发挥其作用,利用它改变高校业务流程,简化或优化流程。另外教职工管理队伍建设也是深化改革的关键,再造主要问题就在于人员组织与管理,充分调动员工在核心业务流程中的作用。

2.高校流程再造设想

以上海体育学院为例,实施高校流程再造将提高其综合竞争力,与国际接轨,是实现世界一流体育大学战略目的观念改变、流程改变和组织改变。根据高校流程再造基本原理,我们大胆设想高校UPR系统工程涵盖以下内容[4]:

(1)观念再造——树立现代高校办学理念。

(2)制度再造——构建现代高校制度。

(3)组织再造——建立以高校用户为中心的管理组织体制。

(4)高校流程再造——建立科学化的高校业务流程。

(5)办学策略再造——实行多元化、差别化的办学模式。

(6)技术再造——运用信息技术提高国际竞争力。

(7)高校文化再造——适应高校国际化文化管理趋势。

根据上海体育学院目前的办学理念和办学思路,已在观念、制度、组织、办学、文化等方面进行着改革和完善。无论是BPR还是UPR,都要靠信息技术手段来实现。鉴于当前高校信息化建设水平,在现有数据中心基础上进行流程再造是一个科学的选择。

五、构建基于高校数据中心的流程再造模型

本文研究的高校流程再造模型是从信息技术和流程管理角度切入,根据中小型高校人力资源、组织结构、管理思路、信息化建设基础等方面着手设计和建构的。设计不是照搬其他综合高校的成功案例,也不是目前高校的主流模型,是以中小型高校创建具有世界竞争力的一流大学为目的,基于中小型高校数据中心建设现状,面向流程再造,对高校信息化建设模型的重新思考和重新设计,对高校信息管理决策者、战略决策者而言既是挑战也充满机会。

1.构建目的

模型以中小型高校创建世界一流大学信息平台为目的。主要体现在以下几个方面[5]:

(1)适应性。更高的灵活性,无需昂贵的定制就能满足不同部门的独特需求;具备更多自动服务功能;在如何管理高校业务流程方面能提供更多选择。

(2)创新。让学生和老师可以更好地互动,以加速产生学术成果;能满足高校用户不断变化或独特需求的能力;总体成本随着时间推移不断降低。

(3)信息驱动。把信息更紧密地集成到协作过程中,改善沟通效果,实现领导层基于信息决策并采取行动。

2.构建背景

虽然中小型高校、特色专科高校办学规模,教职工、学生人数远远少于综合大学,但是其组织机构、信息管理应用系统数量却与综合大学相当,只是职能部门人数,使用应用系统并发用户数远远小于综合大学。通过前期对兄弟院校信息化的调研,我们发现高校应用系统硬件的平均利用率都很低,对未采取虚拟化技术的高校而言不仅浪费能源、设备,还消耗了对应的人力投入成本。以行政职能划分的金字塔型的各职能部门几乎都有自己的应用系统,如人事、科研、学工、教务等大大小小几十个甚至上百个信息管理系统。由于各种历史原因,这些应用系统都是从部门自身的管理角度出发,面向部门内部任务将手工处理流程自动化,更多地是从满足部门管理需求出发。在今天面向“服务”的新型办学管理理念的冲击下,这些应用系统无法或难以根据跨部门业务流程应需而动,已经无法支撑高校服务师生、员工、校友、社会的目标。流程再造势在必行,基于高校数据中心的流程模型构建势在必行。

3.建构思路

模型的建构思路来源于前提高校数据中心现状调研。绝大多数高校在打造数据中心的过程中,几乎都是采用数据交换工具整合各个应用系统异构数据。历经数年,标准制定,数据交换工具选型,数据分析,详细的数据抽取策略制定,数据交换过程不间断地监控等等。由于种种原因,这项整合工作周期长见效慢,对于信息技术部门人员而言,几乎要与高校每个职能部门、每个应用系统公司商务和技术人员协商沟通,整合工作推动效果差,不断反复,工作量大见效却小。以上海体育学院为例,全校六百多在岗教职工,信息技术部门专职人员六名,职能部门未设信息管理人员岗位,因此完成全院三十多个应用系统的数据整合工作难度较大。

2012年3月教育部发布《教育管理信息教育管理基础代码》、《教育管理基础信息》、《高等学校管理信息》等七个教育信息化行业标准[6],这为高校数据整合和公共数据库的设计提供了统一的标准。这时我们不能再将思路始终局限于整合、整合、再整合。消除“信息孤岛”,整合只是一定历史时期做的事,随着时间的推移,应该在一定的时间点结束“信息孤岛”生命周期。我们中小型高校可以创建适合自身办学规模的、覆盖全校基础数据的生产数据库,在统一的、单点的数据库上选择合适的技术工具、平台和手段再造学生核心业务流程,教师教学、科研业务流程等,突破职能部门界限,通过流程再造更好地为学生、教师、校友和社会服务,突破时空局限全方位体现高校办学竞争力。

4.模型分析

基于高校数据中心的流程再造模型并不是摒弃前期的信息化建设投入,而是从学院可持续发展的角度,调整和优化信息化建设思路,通过模型图(如图2所示),我们做一个简要的分析。

模型中未出现职能部门现有的应用系统,这说明需要减少或停止面向职能部门应用系统开发或维护投入。模型中未出现原来应用系统数据交换图示,这表明中小型高校在信息技术人员不足的情况下尽量减少数据整合成本,目的是消减信息孤岛。统一身份认证统一权限分配,减少单点集成和单点登录风险。模型中需要决策者痛下决心的是重新创建基于标准覆盖全校基础数据的生产数据库,后期的核心业务流程设计基于统一生产数据库实现。模型需选择新平台新工具再造高校核心业务流程。另外利用生产数据库空闲时间完成数据抽取,创建面向主题的数据仓库,让综合查询、统计与分析、决策支持、关联规则挖掘等大数据量计算操作与业务流程操作物理分隔。

5.模型的创新点

本文研究的基于高校数据中心的流程再造模型不是对其他高校信息化建设模式的复制,创新之处在于:它是面向中小型高校信息化建设情况量身定做的模型。模型根据新公布的七个教育信息化行业标准打造全校的“生产数据库”,提供唯一的数据入口,从而减少应用系统与“公共数据库”或应用系统之间数据交换和同步。模型不再希望今后信息化建设经费投入到职能部门内部的应用系统,而是要求在新构的生产数据库和新的统一的平台上重新设计和改造高校核心业务流程,让“服务驱动”的办学理念落到实处。

6.模型应用的关键点

本文研究的基于高校数据中心流程再造模型在实际中应用和验证,必须注意以下几点:(1)高校至上而下的观念重建;(2)科学有效的流程设计与重建;(3)流程再造工具、平台(基于统一的应用构建平台快速配置业务系统)的选型;(4)能提供整体校园解决方案,长期技术合作伙伴的选择;(5)持续投入与持续回报。以上几个构成模型成功应用的关键点,缺一不可,任何一点的失误都将导致整个流程重构的失败,因此要将基于高校数据中心的系统重构作为高校全局的系统工程来看待,否则将使前期投入得不到很好的回报,从而无法达到预期目标。

六、结束语

为了让上海体育学院早日成为国际化体育大学,学院信息技术中心需要转变自己的职能,从只关注开发和维护转变为信息战略决策者。职能转变后,更多的资源得以释放,才能集中精力搭建更加合理的数据中心,以实现一个更加灵活更加强大的系统应用平台,从而才能够更加充分支持学校、部门不同的需求。本文根据上海高校特别是上海体育学院数据中心现状研究基于高校数据中心的流程再造模型,突破了僵固的信息化建设模式。虽然前期投入比传统方式多,但由于运维效率提高会节省大量IT管理成本。更重要的是,基于标准、面向服务的业务流程和功能能帮助像上海体育学院这样的中小型高校迅速地与全球发展保持同步,加速学校的国际化进程。

本文的模型研究还处于论证阶段,作者希望能够将这种适合中小型高校信息化建设的模型不断深入研究下去,并以此得到同行专家的批评和指正。

参考文献:

[1]巫莉莉,黄志宏.高校云计算数据中心的构建解析[J].中国教育信息化,2011(19):11—13.

[2]杜栋.大学过程再工程探讨[J].黑龙江高教研究,2001(2).

[3]杜栋,童伟.大学流程再造(UPR)的研究与实施[J].黑龙江教育(高教研究与评估),2009(3):73—74.

[4]田苗.工商银行数据中心问题管理流程再造研究[J].东北财经大学硕士学位论文,2006(12).

[5]中兴大学应用Oracle PeopleSoft校园解决方案[EB/OL].http://www.soft6.com/trade/17/171920.html,2009—12—7.

[6]教育部发布《教育管理信息教育管理基础代码》等七个教育信息化行业标准[EB/OL].http://www.e—chinaedu.cn/ReadNews.asp?NewsId=4288,2012—3—26.

[7]刘丹阳.高校数据中心数据集成方案设计的方法研究[J].实验技术与管理,2011(4):256—258.

[8]童伟.基于大学资源规划(URP)的大学流程再造(UPR)[J].财会通讯,2009(11):149—151.

[9]何文华,李学俭.基于共享数据中心的高校学生事务业务流程再造研究[J].计算机应用与软件,2011(7):216—218,272.

[10]王迎霞.基于数据中心的决策支持系统在高校管理中的应用[J].中国教育信息化,2010(15):33—34.

[11]王德才.高校数据中心建设方案与体会[J].中国教育信息化,2008(13):42—43.

[12]唐蓉君,熊忠阳.高校数据中心建设探索与实践[J].中山大学学报(自然科学版),2009(3):244—247.

[13]叶建华,邓世昆,杨勇.高校数据中心存储系统的规划与构建[J].中山大学学报(自然科学版),2009(3):229—231.

[14]苏林忠.基于Oracle的高校数据中心建设方案的研究[J].河南师范大学学报(自然科学版),2011(7):138—141.

[15]黄蕾,刘浪.顾客满意的高校流程再造内涵研究[J].生产力研究,2008(19):91—93.

[16]王强.简析高校数据中心建设中的几个问题[J].中国教育信息化,2008(7):13—14.

[17]周轶.高校数据中心建设中的信息整合[J].中国教育信息化,2008(7):11—12.

[18]李富宇.高校数据中心建设中的规范遵循[J].高新技术,2011(9):16.

多媒体数据库的数据模型研究 篇3

关键词:多媒体,数据库,数据模型

在当前的多媒体数据中,既有字符、数值、文本、图形、图像等静态数据;也出现了声音、视频、动画等基于时间的时基类型数据。这些多媒体数据不规则,没有固定的格式和一致的取值范围,也不具备相似的属性值。那么当前如何用数据库系统来存储和组织这些数据呢?传统的基于关键字检索只适合于静态性数据,那图像、声音,甚至视频数据,又将如何在数据库中存储,如何检索呢?

1 面临的问题

建立多媒体数据库是解决上述问题的必经之路。而要建立多媒体数据库就需要分析多媒体数据特征,根据特征确定存储方法。多媒体数据的特征:(1)多样性:指信息媒体种类的多样化和计算机处理多媒体数据技术的多样化。(2)集成性:指多种信息媒体的集成和处理这些信息媒体软硬件技术的集成。(3)交互性:指通过各种手段,有效控制和使用信息,使参与双方均可以进行编辑、控制和传递。(4)实时性:指音频和视频信息都是和时间有关的连续媒体,处理这些信息不保证实时性,就没有任何价值。(5)数字化:指计算机只认识二进制数据,处理多媒体数据时这些数据必须能数字化为二进制数据。

由此可见多媒体数据与传统媒体的有如下区别:传统传媒基本是模拟信号,而多媒体数据是数字化信息;传统传媒让人们被动接受,而多媒体让人主动与信息交互;传统传媒一般形式单一,而多媒体则是两种以上媒体的有机集成。

2 多媒体数据库的数据模型分类

根据多媒体数据的特点,多媒体数据库在传统数据库基础上还必须能对具有时空关系的数据进行同步和管理。目前多媒体数据库的功能以及实现方法还是一个较热门的前沿课题,多媒体数据库的数据模型大致可分为以下几类:(1)扩充关系数据模型,打破数据库的1NF,实现对非格式化数据的管理。(2)面向对象数据模型,通过对象模型描述对象和对象语义信息。(3)超文本/超媒体模型(4)信息元数据模型(5)表现和同步模型。

3 多媒体数据库数据模型的实现方式

当前多媒体数据库应用程序开发者面临的最大挑战是,要把文本、声音、图像和视频等不同形式的信息,组合在他们的应用程序中。因此多媒体数据库数据模型的实现主要采用以下几种方式:

3.1 扩展关系数据库

(1)引进大二进制对象(BLOB–Binary Large Object)扩展现有的数据类型。在常规数据类型的基础上,增加图像、图形、声音、视频等数据类型。关系数据表中只存放BLOB的位置路径信息,而相应的多媒体数据实际仍存于数据库外部的独立的图像、视频服务器中。

(2)扩充用户自定义的数据类型。通过抽象数据类型的定义,将数据与操作数据的程序进行封装,方便地实现组合信息的存储与查询。

(3)引入NF2模型,结合层次模型和面向对象模型层次结构的优点,打破了数据库中的关系必须满足第一范式的要求,允许表中可以有表,如图1所示。

采用扩充关系数据库模型继承了关系数据库的许多成果和方法,但只是对多媒体数据的存取有效,而对多媒体数据的空间关系、时间关系和语义关系不作模拟,因而不能满足对多媒体数据库语义、时空上的处理。

3.2 面向对象的多媒体数据库

随着面向对象技术的发展,面向对象方法在数据库领域也日益强大。利用对象模型描述对象和表达对象语义信息,使不同媒体的用户界面得以统一。

面向对象的多媒体数据库系统是根据面向对象的特点,用全新的技术和方法去设计和实现数据库系统。把面向对象的对象、属性、、方法、消息、类、继承、封装等概念引入数据库中,来表达和管理复杂嵌套对象。在多媒体数据库中媒体之间的关系即实体之间的语义关联。主要的关联有概括关联、聚聚关联、相互作用关联、has-method和has-rule关联、实例关联。同时在多媒体数据库中,数据的运算即对类和对象进行查询、操作等运算。

由于面向对象方法接近人的思维方式,对多媒体数据的管理具有许多好处。继承性降低了媒体数据冗余存储;封装性实现了通过公共接口对对象进行访问和操纵;对方法的管理,实现对多种媒体存储管理;对象类和实例概念的引入有效地维护了媒体数据的语义,实现媒体聚集关联。因此面向对象数据模型是解决多媒体数据库较为科学的方法和工具。

3.3 超媒体数据库

超媒体模型的基本结构是网状的,在超媒体模型中引进了节点和链两个主要概念。节点是信息单位,链用来组织信息,表达信息间的关系。节点可以是不同媒体,链可以表达媒体的时空关系,所以超媒体模型成为现在很普遍的一种多媒体数据模型,如图2所示。

由上可知,内容方面,多个多媒体数据元组成超媒体节点,多个超媒体节点组成信息网络;表现方面,操作系统内部完成低层同步;节点内各元素的时空安排是中层同步解决的问题;上层同步解决如何转化为系统的问题。

3.4 信息元数据模型的数据库

信息元模型打破超文本模型的从上层“应用级”入手研究上层组织,而是通过“信息元”的概念从中层入手来研究中层组织。多媒体信息元是具有一定语义并组成信息系统应用的信息子块。该模型通过制定一个标准,是“信息元”公共化和通用化,成为上层各类媒体或各类模型都可调用的信息元。同时把面向对象的一些特点如封装、继承等也引入进来,提供了强有力的抽象机制。

4 结语

目前多媒体数据库技术的研究仍是多媒体技术的一个热点。专家们提出的扩展关系数据库有其自身的局限性,只是现阶段对多媒体数据库管理系统的过渡技术。面向对象模型和超文本/超媒体在表示多媒体对象之间的语义关系、实现多媒体时空同步等方面有着独特的优点,将成为多媒体数据库的发展主流。另外现在跨媒体技术也逐渐成为专家学者们研究热点之一。

参考文献

[1]钟玉琢,等.多媒体计算机技术基础及其应用[M].北京:高等教育出版社,1999.

研究数据制表模型 篇4

随着云计算、移动互联网以及物联网等新技术的不断成熟,信息技术在教育教学过程中发挥着越来越重要的作用。根据《教育信息化十年发展规划(2011—2020年)》[1]的文件精神,各工科院校的计算机专业纷纷利用最新的信息技术,建立以学生自主学习为主,教师辅助学习的教学模式,通过使用启发式、讨论式、探究式等教学手段,开展发展性评价体系,从而提高教学质量的方式方法。翻转课堂的教学模式恰到好处的将信息技术与传统授课融合成一体,实现了发展规划的要求。

网络数据库系统是一门面向实际应用的课程,它具有很强的理论性和技术实践性。将“翻转课堂”的教学模式应用到传统的网络数据库系统教学过程中,不仅可以提高教学效率,而且还可以提高学生的自学能力。通过这种教学方式,学生可在授课前自主学习相关理论,在课中教师的指导下研讨并实现真实的网络数据库开发项目,这将大幅度提高他们的技能水平和创新能力,从而无缝的实现工科院校培养适合社会需求的网络数据库方向人才的目标。

一 翻转课堂

1 翻转课堂的内涵

翻转课堂(Flipped Classroom)就是教师借助网络平台上传教学视频等学习资源,学生需在课前自行下载并观看该教学资源,通过查找相关资料完成并提交对知识点的理解,在课堂上教师将通过启发式、讨论式和探究式等教学活动,完成与学生的互动交流和协作探究从而强化知识和技能的训练,部分文献[2]又将该教学模式称为“颠倒课堂”。翻转课堂通过将知识,传授与知识内化的颠倒,将知识传授移到课前完成,知识内化则安排在课堂中完成。[3]

翻转课堂具有学生自主学习且为教学主体、教师成为导师、师生互动交流、学生不会因为缺席而导致知识点遗漏、教学资源及知识点永久保留、学生全部参与教学且可获得活动个性化训练等主要特点[4]。

2 翻转课堂的研究现状

翻转课堂最早是由美国“林地公园”高中的化学教师Aaron Sams和Jon Bergmann提出[5]并应用的,随后他们发现该教学模式比传统授课效果要好很多。这种教学模式很快在美国甚至各发达国家的教育界中流行起来,并于2011年被加拿大《环球邮报》杂志评为影响课堂教学的重大技术变革[6]。

目前,我国教育界学者在这种教学模式方面的研究也越来越多。2012年杨刚等人详细阐述了十大“翻转课堂”精彩案例[7];张金磊等人在研究国外教学案例的基础上,提出了翻转课堂常见的几种教学模型[8];曾贞等人讨论了翻转课堂的特征和常见的问题,给出了个别教学成功的典型案例[9];马秀麟等人将翻转课堂应用到大学信息技术公共课的教学过程中,得出该教学模式对知识点的内化和提高学生技能水平确有帮助的结论[10];2014年周霞、金鑫、申华等人[11-13]将翻转课堂应用到各自院校的数据库课程的教学活动中,初步完成了教学案例和架构的设计工作,但他们仍存在翻转课堂进一步应用和教学案例不够细化等具体问题,需要更为细致的研究。总之,从目前的文献表明,我国翻转课堂的研究和应用主要集中在中小学教育,而在工科院校尤其是针对计算机专业具体课程的教育教学活动中应用的成果较少,需要广大教育工作者的研究和教学方法的补充。

二传统网络数据库系统教学的现状

1 教学方式的问题

网络数据库技术是计算机编程人员所具备的一项基本技能。目前,我国各工科院校的计算机专业均普遍开设了网络数据库系统课程[14]。通过走访和问卷调查发现,传统“网络数据库系统”教学主要存在以下几方面的问题。

(1)教学内容不够新颖,缺乏对实际动手能力方面的培养。

(2)教学手段和形式不够生动、过于陈旧,不能激发学生主动参与学习的兴趣。

(3)教学实践和实验学时不够,无法对每个学生进行个性化教育。

(4)现有教学资源的利用不够彻底,新的信息技术没有应用到教学中来。

2 学生学习的特点

由于网络数据库系统是专业基础课程,因此选修这门课程的学生通常为大二学生。通过问卷调查及谈话等方法发现,这一时期的学生在学习网络数据库系统课程时存在如下特点[15]。

(1)计算机专业技能水平差异巨大。大二的学生在计算机专业技能方面有了一定的基础,但在总体上还存在技能水平的巨大差异。少数学生可以熟练使用计算机的办公软件、网络环境甚至进行软件开发;绝大多数学生计算机技能水平只局限于网络操作,不能进行更深一步的软件开发;少数学生由于家庭等经济方面的原因,很少或从未操作过计算机。

(2)技能知识学习兴趣参差不齐。与其他专业的学生相比,计算机专业的学生对计算机技能水平的学习兴趣差异较为明显。有些学生已经意识到了计算机技术尤其是数据库技术对他们的专业、生活和未来的就业所起到的作用。因此,他们具有很浓厚的学习兴趣,能够做到积极主动且举一反三最终达到融会贯通。

三 翻转课堂的网络数据库系统教学模型

1 模型设计

当前,支持翻转课堂的模型众多,笔者根据文献[15]所提供的模型并结合网络数据库系统课程及本专业学生的特点,确定了本门课程改革的教学模型如图1所示。

图1网络数据库系统教学模型

图1将课程的教学活动分为课前、课中和课后三个部分。课前,师生各自具有不同的教学任务,教师主要负责归纳教学资料,重点录制教学视频,通过网络教学平台上传至网络环境中,学生则登录网络教学平台,下载并自学相关的学习资料,总结汇总问题,及时与教师在线交流,消化理解网络数据库技术的相关理论知识;课中,教师辅导学生完成具体网络数据库系统开发案例的创建过程,为每个学生确定具体问题并创建独立探究、交流学习和程序展示的机会,方便学生更加深入的理解和掌握网络数据库开发的相关技术;课后,教师利用网络教学平台完成对学生的评价点拨,学生则及时给出意见反馈,教师进一步督促学生复习,巩固知识点的掌握。

2 网络平台构建

网络数据库系统课程教学改革所采用的网络教学平台结构如图2所示。该结构是一个B/S模式下的三层结构,分别对应着表示层、功能层和数据层。其中功能层是由教师功能界面和学生功能界面组成,是教学平台的核心,也是翻转课堂得以成功实施的技术保障,用于完成师生信息传递的功能;数据层为功能层服务,是存放翻转课堂所用到各类教学资源的所在地,包括学生基本信息、学生学习记录、师生在线交流记录、教学资源视频信息和习题答案等;表示层则是师生登录教学平台的方式,主要是通过WEB浏览器进行登录。

图2网络教学平台结构

3 教学过程设计

从图1可知,网络数据库系统课程实施“翻转课堂”的授课方式,其过程设计主要分成三个方面,分别是课前设计、课中设计和课后设计。

(1)课前设计。课前设计是本课程教学改革实施的前提保障,因此这一阶段要求教师和学生都利用业余时间进行必要的课前预备。教师应提前归纳下次课所需要的教学资料,提供一些视频资料、PPT课件、知识点明细表和必要的参考书等资源,通过网络教学平台上传至网络环境中,并给出必要的自学说明。教师为学生提供的教学资源一般分为两个级别,分别是基础类级别和扩展类级别,以满足不同素质学生的学习要求。在上传的教学资料中,视频资料为核心,要求教师根据每次课的教学目标制定1至3个视频资料,每个视频资料介绍一个网络数据库开发技术的知识点或介绍一个数据库开发案例,并配置一个关键点说明文档,以方便学生自学。笔者使用的视频资料制作软件为“屏幕录制专家”,因为该软件具有免费、制作简单、录制的图像声音清晰等优点。当教学资源上传完毕后,教师利用QQ群向学生发布通知,让他们及时登录网络教学平台下载自学。学生根据视频资料所配置的关键点说明文档,结合教师发布的其它辅助的学习资料进行自学。学生总结学习到的知识点,记录发现的问题,并将这些自学记录及时汇总至小组长。小组长于开课前一天将这些记录反馈给教师,接受教师的考核和分析,以便确定课程讲授中的案例和重点。

(2)课中设计。课中设计是本课程教学改革实施的关键,要求学生和教师密切配合,充分发挥“学生主导、教师辅助”的新型教学思想。因此,该阶段分成以下四个步骤进行,本文假设每次课程进行90分钟。

教师先用15分钟归纳总结本次课程的教学重点和难点,对学生自学情况的考核分进行通报,展示评分细则,布置本次课程的教学案例,给出案例实现的最终目标。

学生自主完成教师布置好的案例任务,预计需要50分钟。期间,学生可向教师提出某些数据库开发的具体问题,由教师指导学生独立完成。

学生展示程序作品,预计需要15分钟。由学生主讲,全面展示其开发的程序作品,介绍关键命令或技术的实现过程,教师和其他学生参与评价和讨论相关技术,确定作品是否可进行优化以及如何优化等问题,从而更进一步让学生理解网络数据库开发技术和其自身所存在的不足,课下加以完善。

教师总结本次课程的开展情况,预计需要10分钟。教师根据课程的开展和学生的表现情况对课程进行全面总结,进一步提升本次课程的授课重点,对优秀学生进行表扬,对怠课学生进行批评,给出本次课程的考核结果和下次课程的时间规划。

(3)课后设计

课后设计阶段是学生在理解和掌握网络数据库开发相关技术后的一个固化过程,也是十分重要的一个环节。因此,该阶段的设计主要分为意见反馈、评价点拨和巩固练习三个方面。

意见反馈。由学生完成对本次课程的意见评价,给出优点和不足以及改进建议,将这些意见通过网络教学平台上传给教师,教师汇总后进行分析,完成对今后课程开展的优化工作。

评价点拨。学生将课中未完成或需优化的程序作品课下完成,上传至网络环境中。教师下载点评,将评价上传给学生,学生在教师的点拨下进一步理解网络数据库开发的相关技术和知识点。

巩固练习。由教师上传本次课程全部知识点的习题,由学生下载练习,进一步加强和巩固所理解的知识点。

四 教学模型实施效果分析

1 实验过程

本课程的教学改革是采用传统班和实验班同步进行的授课方式,其对象是计算机专业大二学生,每班学生人数为30人。在授课前分别对学生进行了问卷调查,其调查结果如表1所示。

表1学生计算机基本素质统计表

表1的内容显示,传统班和实验班的学生在网络数据库系统的相关理论和技能水平方面基本相同,几乎都刚刚接触网络数据库。

在近四个月的教学过程中,笔者对传统班采用“教师授课为主,学生练习为辅”的教学方法,对实验班则采用本文所用的“翻转课堂”教学方法。期末考试成绩、问卷调查和教师自身感受等方面显示,采用“翻转课堂”的授课方式,其学生在掌握理论知识、技能技术及学习兴趣等方面都明显优于传统的授课方式。

2 成绩对比分析

将传统班和实验班的学生期末考试成绩由高至低进行比较,得出成绩对比图如图3所示。经计算,传统班的平均成绩为71.6,实验班的平均成绩为75.23。实验班的平均成绩比传统班的平均成绩高出3.63分。

图3 传统班与实验班成绩对比图

若将传统班与实验班学生期末成绩按分数段人数百分比进行统计对比,则其对比图如图4所示。由图可知,传统班五个分数段人数百分比分别为:0%、36.67%、23.33%、30%、10%;实验班五个分数段人数百分比分别为:10%、33.33%、36.67%、10%、10%。实验班的优秀率高于传统班10%,良好率几乎相当,中等率高于传统班13.34%,而及格率降低20%,实验班的总体成绩明显优于传统班。

图4 成绩分数段人数百分比对比图

成绩对比分析结果显示,基于翻转课堂的授课方式更有利于学生掌握网络数据库系统的理论知识和提高其解决具体问题的技能水平。

3 问卷调查分析

期末考试结束后,笔者分别向传统班和实验班发放了30份问卷调查,其目的是想通过调查了解学生学习本门课程的满意度及意见建议。通过汇总调查表,发现传统班的学生大多数希望采用“翻转课堂”的授课方式,而实验班的学生则几乎完全认可了这种授课方式。实验班的学生普遍认为,采用这种授课方式可以充分调动他们的学习积极性,增加了与教师交流的机会,学到了许多网络数据库开发的实用技术,增强了开发程序的信心,体会到了技术交流的快乐。在调查问卷中,部分学生也对“翻转课堂”的授课方式提出了三点建议。其一是希望教师及时上传教学资料,以便学生能更早的安排业余时间进行自学。其二是希望教师延长学生程序作品的展示时间,增加学生之间的课堂交流,教师多给予学生程序作品正面的点评和鼓励。其三是进一步改进网络教学平台,增大其带宽,减少网络延长。

参考文献

[1]教育部. 教育信息化十年发展规划(2011-2020年)[EB/OI.].[2012-05-06].http://www.edu.cn/zong_he_870/20120330/

t20120330_760603_3.shtml.

[2]林青松.基于翻转课堂的“现代教育技术”实验课程设计[J].实验室研究与探索,2014(1):194-198.

[3]朱敏.教师教育“翻转”模式的构建研究[J].继续教育研究,2014(2).

[4]曾明星,周清平,王晓波,等.软件开发类课程翻转课堂教学模式研究[J].实验室研究与探索,2014(2):203-209.

[5][6][16]张金磊,王颖,张宝辉. 翻转课堂教学模式研究[J].远程教育杂志,2012(4):46-51.

[7]杨刚,杨文正,陈立. 十大“翻转课堂”精彩案例[J]. 中小学信息技术教育,2012(3):12-14.

[8]张金磊,王颖,张宝辉. 翻转课堂教学模式研究[J]. 远程教育杂志,2012(4):46-51.

[9]曾贞.反转教学的特征、实践及问题[J]. 中国电化教育,2012(7):114-117.

[10]马秀麟,赵国庆,邬彤. 大学信息技术公共课翻转课堂教学的实证研究[J]. 远程教育杂志,2013(1):79-85.

[11]周霞.《数据库技术》翻转课堂实践[J]. 电脑知识与技术,2014(9):6642-6643.

[12]金鑫.基于“翻转课堂”的《数据库应用技术》课程教学方法研究[J].长沙民政职业技术学院学报,2014(6):98-99.

[13]申华.翻转课堂在项目驱动式教学中的应用——以

《数据库原理与应用》教学为例[J]. 计算机光盘软件与应用,2014(9):197-199.

[14]罗智勇,乔佩利,秦兆伟. 工科大学网络数据库教学体系改革研究[J]. 科技与管理, 2011(1): 127-129,135.

海量数据存储模型的研究 篇5

随着全球信息技术的迅猛发展, 计算机网络技术越来越成熟, 网络上信息的规模正在以指数趋势上升。整个互联网每天都会产生海量的网页数据, 所以怎样高效地对海量网页数据进行存储已经成为人们越来越关注的问题。

传统的网页数据存储模型, 基于单机的或者集中式的存储方式已经不再适合于大规模网页数据存储[4]。最近几年, 云计算的概念越来越流行。云计算作为一种新的商业模式, 是由分布式处理, 并行处理和网格计算发展形成的。目前, 谷歌, 亚马逊, IBM, 微软, Sun等IT巨头都在寻求开发云计算的技术和产品[5]。例如, 谷歌一直 致力于推 动基于GFS[1]、MapReduce[2]和Bigtable[3]等的应用。

传统的集中式的存储方法由于每个存储节点的缺陷, 在存储和管理海量网页数据 ( TB级甚至是PB级) 的时候会出现很多的限制。比如用户会经常发现, 网页数据请求是很耗时的, 网页数据存储能力是有限的, 网页数据读取过程是低效率的。

为此, 本文设计并实现了一种基于云计算的存储模型, 该存储模型主要采用的技术有: Zookeeper[8]开源的同步协同系统确保文件数据写入的一致性、基于hadoop的HDFS文件系统以及基于HDFS文件系统的HBase等技术[8~10]确保实时、高效、稳定、可靠地读写和访问网页数据, 此外由于本文设计的存储模型是利用大量廉价的计算机组成的, 所以存储模型的成本较低。

2 相关的研究工作

文献[4]对海量视频网页数据的存储问题进行了研究, 提出了基于HDFS的HBase的存储框架, 也介绍了HDFS、hbase等技术的基本工作原理和工作特点; 文献[5]提出了一个基于开源的分布式网页数据库服务系统的云存储解决方案 , 它遵循一个阶层设计, 包括Web服务前端, 变换处理层和网页数据存储层; 文献[6]介绍了云计算和云存储的概念以及云存储的架构。然后, 分析了云网页数据存储技术 - GFS ( 谷歌文件系统) / HDFS ( Hadoop分布式文件系统) 应用于具体企业的例子; 文献[7]提出了一种高效的云存储模式, 用于异构云基础设施的存储; 文献[14]介绍了一个基于开源数据库的云存储系统, 阐述了相关技术和原理, 最终页实现了原型系统的架构; 文献[15]针对海量电网数据进行分析和设计出了基于hadoop的云存储模型架构; 文献[11]对Hadoop的基本原理和工作过程做了研究, 使用Hadoop分布式集群技术对分布式海量网页数据存储系统进行了相关的研究与设计, 作了一些有益的尝试和探索; 文献[12]也分析了海量网页数据存储问题, 怎样在电子商务环境下存储海量网页数据, 他们的想法是使用开源的基于Hadoop的分布式存储系统, 并在此基础上提出一种网页数据存储模型, 实现了电子商务海量网页数据的存储; 文献[13]研究并设计了海洋数据存储的一个管理系统, 使用了Hadoop技术, 同时也引入了HBase分布式网页数据库对海洋数据进行存储。

以上的这些研究者研究和分析了怎么存储海量网页数据, 并提出了一些适合各自领域的存储方法, 也对海量数据的计算问题进行了研究, 通过研究对比, 发现他们的研究中存在着一些不足:

( 1) 很多的研究者没有使用Hbase数据库, 读写效率低, 在扩展性、稳定性和可靠性方面都有所不足。

HBase是一个在HDFS文件系统之上运行的开源网页数据库, 它的优势就是能够支持海量网页数据实时高效地对其进行访问与存储, 此外它还是一个面向列的网页数据库, 具有很好的可扩展性、稳定性与可靠性。

( 2) 缺少Zookeeper同步协调工作系统, 不能保持存储节点中的数据写入的一致性。

Zookeeper是Google的Chubby一个开源的实现, 是高有效和可靠的协同工作系统, Zookeeper能够用来leader选举, 配置信息维护等, 在一个分布式的环境中, 需要一个Master实例或存储一些配置信息, 确保文件写入的一致性等。

( 3) 没有针对特定领域的海量数据进行存储的模型。

一般的存储模型都不是通用的, 设计应用到特定领域的模型才更加具有专业性和实用性。

为此, 本文在设计海量网页的云存储模型时, 引入基于HDFS的HBase数据库实现底层的存储架构, 达到高效实时有效的读写海量网页数据, 最后本文实现了一种基于云计算技术的海量网页数据存储模型。

3 存储模型的设计

海量网页数据有很多种形式, 有结构化的网页数据, 比如海量的文本数据, 还有非结构化的网页数据, 比如图片、视频、超媒体数据等等。由于HBase数据库存储的网页数据在默认的情况下都是字符串类型的, 所以对于海量结构化的文本数据, 我们就可以直接存储其对应的字符串, 以文件形式直接存储在HDFS中, 然后在Hbase中建立相应的元数据信息表和地址信息表, 这样做也是因为这样做更有利于表述内容信息和便于查询。

在此基础上, 针对不同类型的网页数据信息, 还可以对他们进行划分不同的次服务器进行存储, 例如建立专门的图片和视频次服务器、文本次服务器等。本文设计的存储模型如图1所示。

本文设计的存储模型最主要的组成部分是HDFS和HBase。

本文设计的针对海量网页数据的存储模型有一张网页数据表需要存储: 它所存储的内容包括crawldb: Nutch爬行的网页数据库, 用来存储爬虫需要爬行的URL地址、linkdb: URL超链接网页数据库, 它是用来存储每个URL超链接的链接地址, 包括初始的源地址和链接地址、segments: 被Nutch爬虫爬取的URL地址被称为一个独立的单元, 而一个segment就是一个独立的单元、indexs: 采用Lucene建立的索引、index: 建立的索引片段。

在如图2的存储模型的实现过程中, 关键的问题是如何对Nutch爬取到的网页数据进行存储、读写以及最后用户的查询。因为HDFS是擅长存储大型文件的, 所以对大量的小文件进行处理、索引和存储的效率是不高的。造成这一现象的原因是HDFS将文件系统全部存入Namenode结点的内存中, 因为每个集群中的Namenode结点只有一个, 它的内存容量是有限的, 所以如果存入的文件数目过多的话, HDFS很难及时的处理和存储。另一个问题是HDFS不允许修改文件的内容, 只能在文件中添加新的内容。

我们知道基于HDFS的HBase数据库是基于列的, 其中存储的网页数据表是由一个KEY/VALUE键值对和无限数量的列族组成的。这样的话, 在Nutch搜索引擎使用的过程中我们可以随时添加新的列, 这样就避免了修改表的结构。

综上所述, 如果我们将Nutch爬虫爬取回来的海量网页数据存入到HBase数据库中, 这样就能够有效地解决这个问题。

4 存储模型的实现

在实验室搭建了由三台相同配置的普通计算机服务器组成的Hadoop分布式集群, 经过多次实验比较了一台服务器节点组成的单机环境下运行和由三台服务器组成的三个节点hadoop分布式运行环境下写入网页数据和读取网页数据所用的时间关系。

图3显示了分别在单机运行的环境下和在三台服务器组成的hadoop集群环境下运行与不同线程个数的写入网页数据的时间关系。从图中可以看出, 集群中同时运行的线程越多, 写入网页数据所需要的时间明显低于单机情况下写入网页数据所需要的时间, 由此可见该存储模型具有高效的写入性。

图4显示了分别在单机和集群环境下同时运行的线程个数不同的情况下读取网页数据的时间关系。从图中可以看出, 随着集群中同时运行的线程数的增加, 集群的读取网页数据时间明显低于单机情况下读取网页数据的时间。由此可以发现本文设计的存储模型具有高效的读取性。

如图5所示, 读取网页数据所花的时间与集群中的节点数成反比, 计算机节点数增加, 读取网页数据的耗时减少, 由此验证了集群的扩展性比较好。

5 结束语与展望

本文设计的海量网页数据存储模型是建立在大量廉价的计算机之上的, 所以只要花很小的成本可以有效地存储海量的网页数据, 同时本文设计的存储模型有较强的扩展性, 通过增加机器节点, 可以在更大网页数据量的环境下运行。

面向对象数据库模型研究 篇6

面向对象的数据库经过十几年的发展, 已经日趋成熟, 有关的国际标准相继出台。ODMG (OMG所属的对象数据库管理组) 分别于1993, 1997, 2000年提出了对象数据库标准O D M G 1.0, O D M G 2.0, O D M G 3.0, 制定ODMG标准的目的是为了让ODBMS的用户编写的可移植的应用, 能运行在多个OODBMS的产品上。本课题的接口实现部分就是参照ODMG标准来实现。

ODMG对象模型主要包括以下基本概念。

(1) 数据建模的基本原语是对象 (Object) 和文字 (Literal) , 每个对象有一个唯一的标识符, 文字没有标识符。

(2) 对象和文字都可以划分为类型 (Type) , 同一类型的对象或文字具有相同的行为和状态, 对象可以称为类型的实例。

(3) 通过一组性质 (Property) 来定义对象的状态, 性质可以分为两种:对象的属性 (Attribute) 和对象之间的关系 (Relationship) 。

1 对象与对象标识

1.1 对象结构

对象是由一组数据结构和在这组数据结构上的操作的程序代码封装起来的基本单位。对象之间的界面由一组消息定义。一个对象包括以下几个部分。

(1) 属性集合:所有属性合起来构成了对象数据的数据结构。属性描述对象的状态、组成合特性。对象的某一属性可以是单值的或值的集合, 进一步地, 一个对象的属性也可以是一个对象, 即对象可以嵌套, 从而组成各种复杂对象。

(2) 方法集合:方法描述了对象的行为特征。方法的定义包括两部分, 一是方法的接口, 二是方法的实现。方法的接口用以说明方法的名称、参数和结果返回值的类型, 也称之为调用说明。方法的实现是一段程序代码, 用以实现方法的功能。

(3) 消息集合:消息是对象向外提供的界面, 消息由对象接收和响应。面向对象数据模型中的“消息”与计算机网络中传输的消息含义不同。它是指对象之间操作请求的传递, 而不考虑操作实现细节。

1.2 对象标识

面向对象数据库中的每个对象都有一个唯一的不变的标识称为对象标识 (OID) 。对象通常与实际领域的实体对应。现实世界中, 实体的属性值可能随着时间的推移会发生改变, 但是每个实体的标识始终保持不变。相应的, 对象的部分 (或全部) 属性、对象的方法会随着时间的推移发生变化, 但对象标识不会改变。

1.3 封装

OO模型的一个关键概念就是封装。每一个对象是其状态与行为的封装。

封装的意义在于将对象的实现与对象的应用互相隔离, 从而允许对操作的实现算法和数据结构进行修改, 而不影响接口, 不必修改使用它们的应用, 这有利于提高数据独立性。

2 类和类层次

在OO数据库中相似对象的集合称为类。每个对象称为它所在类的一个实例。一个类中所有对象共享一个定义, 它们的区别仅在于属性取值不同。可以看到, 类的概念类似关系模式, 类的属性类似关系模式中的属性:对象类似元组的概念, 类的一个实例对象类似关系中的一个元组。可以把类本身也看作一个对象, 称为类对象 (Class Object) 。

3 面向对象数据库的模式演进

面向对象数据库模式是类的集合。模式为适应需求的变化而随时间变化称为模式演进。模式演进包括创建新的类、删除旧的类、修改类的属性和操作等。在关系数据库系统中, 模式的修改比较简单, 主要有如下的模式修改操作。

(1) 创建或删除一个关系。

(2) 在关系模式中增加或删除一个属性。

(3) 在关系模式中修改完整性约束条件。

OODB应用环境对OODB模式演进提出了许多新的要求, 使得面向对象数据库模式的修改要比关系模式的修改复杂得多, 其主要原因有以下几点。

(1) 模式改变频繁。

使用O O D B系统的应用通常需要频繁地改变O O D B数据库模式。例如O O D B经常运用于工程设计环境中, 设计环境特征之一就是不断变化.设计自身在不断变化, 以纠正错误或修改设计使之更完美、更适合于实际:而当设计者对问题及其解决有更深刻理解时也会修改模式。

(2) 模式修改复杂。

从上面讲解的OO模型特征可以看到OO模型具有很强的建模能力和丰富的语义, 包括类本身的语义、类属性之间和类之间丰富的语义联系, 这使得模式修改操作的类型复杂多样。此外, OODB中模式演进往往是动态的, 动态模式演进的实现技术更加复杂。

3.1 模式的一致性

模式的演进必须要保持模式的一致性。模式的一致性是指模式自身内部不能出现矛盾和错误, 它由模式一致性约束来刻画。模式一致性约束可分为唯一性约束、存在性约束和子类型约束等, 满足所有这些一致性约束的模式则称为是一致的。

(1) 唯一性约束, 这一类约束条件要求名字的唯一性。

(2) 存在性约束, 存在性约束是指显式引用的某些成分必须存在。

(3) 子类型约束。

3.2 模式演进操作

下面给出一些主要的模式演进操作, OODBMS应该支持这些模式演进。

(1) 类集的改变; (2) 己有类的成分的改变; (3) 子势超类联系的改变。

3.3 模式演进的实现

模式演进主要的困难是模式演进操作可能影响模式一致性。面向对象数据库中类集的改变比关系数据库中关系模式的改变要复杂得多。因为类的修改操作可能会影响到其它类的定义。例如, 改变了一个类的属性名, 这需要所有使用该属性的地方都要改名。

因此, 在OODB模式演进的实现中必须具有模式一致性验证功能, 这部分的功能类似编译器的语义分析。进一步, 任何面向对象数据库模式修改操作不仅要改变有关类的定义, 而且要修改相关类的所有对象, 使之与修改后的类定义一致。所谓转换的方法是指在OODB中, 己有的对象将根据新的模式结构进行转换以适应新的模式。例如, 在某类中增加一属性时, 所有的实例都将增加该属性。这时还要处理新属性的初值, 例如给定一缺省初值, 或提供一算法来自动计算新属性初值, 还可以让用户设定初值。删除某类中一属性时只需要从该类的所有实例中删除相应属性值即可。

参考文献

[1]数据库系统基础Ramez Elmasri[M].人民邮电出版社.

数据仓库模糊粒度模型的研究 篇7

模糊粒度模型在决策支持及信息管理系统的局势分析中发挥着重要作用。人们在解决问题时, 能从几个不同的粒度世界去分析和观察同一个问题, 并且很容易从一个粒度世界转到另一个粒度世界。为了描述这个现象, 建立了一种商结构的形式化体系, 给出了一套解决信息综合、启发式搜索、路径规划和推理等领域问题的理论和算法, 并已有一些研究和应用。目前, 关于模糊粒度模型的研究有Pawlak的“粗糙集理论”、Zadeh的“模糊集理论”和张铃等提出的基于上空间粒度计算, 有许多学者在模糊粒度计算领域进行了研究、以不同粒度求解问题的商空间模型已在模糊粒度领域引起了同行的关注, 其着重点是研究不同粒度世界之间相互转换、相互依存的关系, 及研究不同粒度问题之间的转换以及确定粒度模型与模糊粒度模型之间的关系。

本文提出利用学籍管理系统中的有关数据基本表, 进行分析、综合, 先建立确定粒度模型;再将确定粒度模型转换成模糊粒度模型, 利用模糊粒度模型对信息管理系统中的信息进行分析、研究, 实现数据仓库联机分析处理。

2. 定义和符号

Zadeh于1979年在文献中提出了模糊粒度的概念, 文中定义信息粒度为一个命题:X的值程度A隶属于模糊子集G包含于U, 其中X是U上的变量, X的值是U上的一个实体, 写成:g=X is G is A, 形式上被记成:g={∈U:X的值 (V (x) , V是U上的赋值符号) 是以程度A隶属于模糊子集G包含于U}, 很显然A∈【0, 1】。以模糊集的观点, 此处的A是模糊隶属度函数U|G;而以辑学观点, 此处的A是所建立的命题的模糊针织或概率。

通过二元关系定义子粒。设S= (U, A, V, f) 是信息系统, B:V→U二元关系, 其中U是所讨论对象的全集, A是属性集, V是属性值集, f是信息函数。用B定义粒是如下形式:g={u∈U:uBp, p∈V}显然g是清晰还是模糊完全取决于B的特性。设有两个关系B和D, 如果B包含于D, 则按B将全域划分的粒比按D将全域划分的粒更细, 在这种情况下, 也可以将不同大小的粒度分成不同粒度层, 并在不同层上进行各自分别处理。

在实际应用中, 如果粒度太细, 搜索空间庞大, 容易陷入组合

爆炸的情况;如果粒度太粗, 又会失去一些有用的信息, 因此需要从已知知识合成不同粒度知识。

设 (X1, P1, f1) 、 (X2, P2, f2) 是 (X, P, f) 的商空间, X1, X2对应的等价关系分别为R1, R2。

定义1:X1, X2的合成空间X3, 其对应的等价关系为R3。X3是X1、X2的细粒度合成空间, 满足R (x, y) ≡ (R1∩R2) (x●y) .

用划分来表示合成;设划分X1={a1}、X2={b1}, 则X1和X2的合成X3={a1∩b1|a1∈X1, b1∈X2}.X1和X2的积X3=X1●X2对应于等价关系R1∩R2的划分, 可以证明R1∩R2是一个等价关系。

定义2:X1, X2的合成空间X1, 对应的等价关系为R1, X1是X1、X2的粗粒度合成空间, 满足R1 (x, y) ≡ (R1∩R2) ● (x, y) 。其中 (R1∪R2) ●是 (R1∪R2) 的传递闭包, 用划分便是合成设x1和x2的和对应于传递闭包 (R1∪R2) ●的划分, 记x1=x1+x2可以证明 (R1∪R2) 是一个等价关系。

粒度和等价关系有着密切的关系。本节主要是对粒度合成技术在实际应用中的推广和补充, 即如何从已知知识合成粒度知识, 并能方便地从几个不同粒度世界去分析和观察同一个问题, 从而降低问题求解的复杂性。

3. 模糊粒度模型的建立方法

以高校学籍管理系统为例, 在学籍管理系统基础上建立数据库, 并利用高校学籍管理系统中的信息数据导出数据库中低粒度表;再导出数据仓库中的高粒度表;最后根据隶属度函数分析, 得出模糊粒度表;将高校学籍管理系统中的关系表中大量的数据进行分析、综合, 并且对导出的模糊粒度表进行分析、综合, 从而建立一个科学的数据仓库模糊粒度模型。

模型建立过程如下图所示:

注:该成绩表中有30条记录, 分别是该班级30名学生数据仓库这门课程的成绩。下面由数据库中的学生成绩表 (低粒度表) 导出对应的确定粒度表 (高粒度表) 。

注:按照上面学生成绩表中的学生成绩将其成绩划分成优、良、中、及、不及五个等级, 五个等级对应的成绩分布如上表中成绩分布所示, 其对应的人数如上表所示, 总人数30人。

下面由确定粒度表 (高粒度表) 导出模糊粒度表, 如下表所示:

注:上面模糊粒度表的人数比例是从我自己观点出发, 根据隶属度函数计算所得, 该人数分布成正态分布。考虑到管理层不同的管理人员或决策者出发点不同, 可能会出现不同的人数比例计算结果, 但是有一点肯定不会改变, 即就是他们计算得出的人数比例分布一定成正态分布, 并且他们大多数人计算出得人数比例基本相同, 出入不大。这就突出了模糊粒度模型在信息管理系统应用中有很大的弹性, 比较灵活, 有利于数据仓库联机分析处理更好地进行, 从而大大地减轻了管理人员的负担。尤其在Oracle数据库中, 由于数据信息量大, 记录条数比较多, 通常会出现数据繁杂, 信息爆炸现象。但是将模糊粒度模型应用到大型信息系统中去, 会有效地避免信息爆炸现象。

模糊粒度模型的建立过程:

Ⅰ用适当的数学方法对问题进行描述

在数据仓库模糊粒度模型的建立过程中, 引用概率论和统计学对信息管理系统中的信息数据进行计算、分析, 由于该模型是模糊的、不确定的, 因而使用隶属度函数对模糊粒度表中数据进行计算, 得出结果后检验其是否符合正态分布规律 (一般分布规律) 。

Ⅱ采用各种数学方法和计算机工具求解模型

本文在信息管理数据模糊粒度模型的基础上, 设立了辅助决策数学模型和相关指标临界值, 使系统自动报警, 充分发挥了决策作用, 同时也对模型进行了求解。

Ⅲ模型建立步骤和方法

本文在学籍管理系统的基础上, 由系统中的基本表导出确定粒度表, 进而得出模糊粒度表;利用隶属度函数对模糊粒度表中的信息数据进行计算、分析, 检验检验其是否符合正态分布规律, 再将各模糊粒度表进行分析、综合, 从而建立一个科学的数据仓库模糊粒度模型。

4. 应用和分析

在信息管理系统和智能辅助决策IDSS中, 根据粒度化历史数据变动情况和查询统计要求, 可使业务流程数据与决策信息形成有效流转, 在信息管理数据模糊粒度模型基础上, 设立辅助决策数学模型和相关指标临界值, 使系统自动报警, 充分发挥辅助决策作用。假设某粒度级因素项的数据量为X, 关联因素项数据量为Y, 数据挖掘分析结果项为Z, 那么建立辅助决策数学模型, 假若, X与Y的增长量分别为dx、dy, 就对应一个分析结果项变化量dz, 其关系为积分方程:

在上式中, 把指标临界值分别设为x=x0, y=y0, z=z0, 各粒度级因素项的数据量分别设为x1, x2, ……xn;各关联因素项数据量分别为y1, y2, ……yn;各数据挖掘所获得的分析结果项分别为z1, z2, ……zn。这些值, 有的情况是离散值, 但大多数情况是连续值或分段连续值, Z为积分曲线。

上面辅助决策数学模型是建立在模糊粒度模型的基础上, 它可以有效地自动对信息管理系统中的数据信息进行处理、衡量, 从而大大地减轻了管理人员和决策者的负担。

数据仓库模糊粒度模型应用到信息管理系统中, 它可以对现实中一些模糊的问题或者决策者难以驾驭的问题进行处理。由于实际应用中信息往往是不完全、不精确或不确定的, 有时很难对粒度粗细进行划分。在现实生活中, 比如天气情况“晴”、“多云”、“阴”等都很难有个“界限分明”的不相交的分类, 有时甚至连相交与否都说不清, 只能模糊地进行分类。从上述分析可知, 现在的数据仓库联机分析处理大多是基于静态、确定、有限、历史的数据仓库集进行研究的, 而对当今信息系统中数据信息的流动性、快读变化性、无限性和不确定性的特点, 目前的联机分析处理技术需要重新考虑、选择, 甚至再研发。而数据仓库模糊粒度模型完善了这一方面的缺陷, 使得数据仓库联机分析处理能够很好地对信息管理系统中的信息数据进行处理, 给决策者大大地提供了方便。

5. 结束语

本文提出数据仓库模糊粒度模型, 并将其应用于学籍管理系统。针对实际问题, 将数据仓库模糊粒度模型进行了推广和应用。首先提出了粒度的概念, 并介绍了粒度的等级划分, 阐述了粒度和等价关系之间的紧密联系, 将粒度合成技术在实际应用中进行了推广和补充, 引入确定粒度模型的概念, 在此基础上, 建立了数据仓库模糊粒度模型。将确定粒度模型与模糊粒度模型进行了比较, 充分体现了模糊粒度模型的实用性和优越性。

通过本文的讨论, 基于模糊粒度模型理论方法是采用概率统计方法研究粒度的计算方法, 那么它就可以有效地应用于信息管理系统中进行统计和分析, 既可以使得数据仓库联机分析处理更好的进行处理, 又可以大大地降低问题的复杂性, 从而减轻决策者和管理人员的负担。

参考文献

[1]W.H.Inmon, building The Data Warehouse Third Edition[M]John Wiley﹠sons, Inc.2002

[2]Zhang L.Zhang B.The Quotient Space Theory Of Problem Solving Fundemental Information.2003.59 (2-3) .287-298

[3]W.H.Inmon, building The Data Warehouse.Practice Hall, 1992

[4]W.H.Inmon, R.D.Hackathorn《Using The Data Warehouse》[M].John Wiley﹠sons.Inc, 1994

网格环境下数据集成模型研究 篇8

英国e-science核心项目OGSA-DAI[2,3]是数据库网格研究领域的代表作,OGSA-DAI是一种数据访问和集成的中间件平台,它主要实现了对多种数据库的服务化访问,使得数据库能够用网格服务的形式对外共享数据。利用这些服务,虽然可以使客户端通过统一接口对不同的数据资源进行访问,但没有真正实现对异构数据源的数据集成[4]。另外,在网格环境下,如何对分布异构的数据资源动态的组成一个虚拟数据库以完成一个特定任务、如何解决虚拟数据库对分布异构的数据资源信息了解匮乏的问题,这些都需要做进一步研究。本文在详细分析了基于Web Service的OGSA架构[5]和OGSA-DAI的构架、内部流程的基础上,给出一个基于OGSA-DAI的数据集成模型,该模型用于解决网格环境下异构数据源数据集成和分布式查询处理的问题,并且在此基础上利用元数据管理来解决客户端对异构分布的数据资源信息了解匮乏的问题,从而在网格环境下为用户提供一种直观的、可视化的虚拟数据库视图环境以及高度透明的分布式查询环境,以便于上层用户透明地使用。

1 网格环境下数据集成的关键技术研究

1.1 网格环境下数据源的访问和集成

图1给出了OGSA-DAI对数据源访问的执行流程。

OGSA-DAI提供了数据存取和集成的基本的接口,还提供了扩展性机制,从而可以向OGSA-DAI添加更多的用户定义的服务。客户端发送执行文档给数据服务,执行文档中描述了需要数据服务资源执行的活动,这些活动可以包括对数据源的查询、更新、数据转换、数据传递操作。然后,数据服务把执行文档转交给代表实际数据源的数据服务资源。数据服务资源对执行文档进行解析并执行指定的活动。当活动是对数据源执行一个SQL查询语句时,数据服务资源创建描述请求结果的响应文档,其中包含了执行本次查询的结果集。最后,把响应文档通过数据服务返回给客户端[2]。

目前,数据集成方法主要分为模式集成方法、数据复制方法以及综合型集成方法。模式集成的基本思想是在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据源的数据。联邦数据库和中间件集成方法是两种比较典型的模式集成方法。数据复制方法是将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的一致性。比较常见的数据复制方法是数据仓库方法。综合型集成方法是把上述两种方法综合起来使用,以突破两种方法的局限性[6]。在本文中使用综合型集成方法来完成数据集成,由于各个异构数据源的元数据相对比较稳定,同时客户端对各个异构数据源的访问比较频繁,故客户端元数据库采用数据复制方法把各个异构数据源的元数据进行集成。客户端对异构数据源数据的访问,考虑到被集成的系统规模可能比较庞大且数据更新频繁,所以可采用中间件集成方法在全局模式下进行集成。

1.2 利用元数据对数据进行管理

元数据是关于数据的数据。在OGSA-DAI提供的查询服务中,对描述数据资源的元数据信息进行了内省,这样虽然不必专门对元数据进行管理,却使得描述数据资源的信息匮乏。用户在事先不知道数据源的情况下,需要多次与数据源进行交互才能得到数据内容。所以我们在模型的用户应用层和数据集成层之间建立了一个元数据库,该数据库中存放了所有已注册数据库的基本信息、数据库中的所有表信息和字段信息。同时,我们在用户应用层也建立了一个元数据管理模块来负责对各个分布、异构的数据源的元数据信息进行收集、发布和维护。有了这种配套机制,用户可以很方便地了解到各个数据库的信息以及表的结构、字段的类型、表间的关系等信息,并给分布式查询优化带来很大的方便。

1.3 分布式查询处理的设计、分解和优化

网格环境下分布式查询处理最大的特点是自适应性,它必须能充分利用并行计算能力和网格资源动态演化的特性[7]。在OGSA-DAI中,提供了基本服务接口,实现与存储资源之间的交互,对物理数据资源进行统一访问。对于用户来讲,关心的是通过一种简单、方便的机制去得到他想要的数据,不关心网格环境下分布式查询的复杂性,更不会主动地把分布式查询人工的分解为多个对单库的查询。所以在网格应用中,分布式查询操作应该在动态组成的虚拟数据库中进行,从而屏蔽不同关系数据库及其运行结点的异构性[8]。本文中采用网格服务和元数据服务来为客户端用户提供SQL查询服务,用户对虚拟数据库的操作可以像操作一个真实的数据库一样来进行。

2 网格环境下数据集成模型设计

本模型是基于OGSA-DAI中间件进行设计的,是建立在OGSA-DAI对网格环境下异构数据源的访问能力之上的。为了实现用户透明的访问网格环境下的异构数据源,可通过查询客户端本地元数据库中存储的异构数据源的元数据信息,把客户端的查询请求分解、优化为多个对单数据源的子查询请求。然后把各个优化后的子查询分派给OGSA-DAI执行,待OGSA-DAI执行完后,由数据合成模块接收OGSA-DAI执行的各个查询的结果,并利用本地临时数据库作为缓存,按照查询计划合成结果,并把合成结果返回给客户端,客户端利用本地元数据库和查询计划构建出虚拟数据库视图供客户端用户使用。图2是基于本模型设计的体系结构图。

2.1 数据层

通过OGSA-DAI访问的各种数据资源,本模型中主要包括了各种关系型数据库,例如:My Sql、IBM DB2、Microsoft SQL Server、Oracle、PostgreSQL。

2.2 支撑环境层

该层是本模型的网格支撑环境,提供的网格接口包括资源发现与管理、通知机制和网格服务生命周期管理、用户认证和授权、容错、安全等,由Globus Toolkit实现。OGSA-DAI模块负责以网格服务的形式对各种不同数据库的访问,这些服务包括GDSR(网格数据服务注册)、GDSF(网格数据服务工厂)、GDS(网格数据服务),利用这些服务实现数据源的注册、发现、定位、访问及结果的返回。

2.3 数据集成层

该层是本模型的核心层,集成了下述多个核心功能模块。

(1)分布式查询分解、优化模块对用户提出的SQL查询语句进行分析、分解、优化以形成一个或多个对单库的SQL查询语句。在此通过对本地元数据库的交互来完成查询计划的生成,并利用优化算法决定那些查询应该先做,那些应该后做。

(2)子查询分派模块把当前分解出的子查询分派给OGSA-DAI执行,并提供当前各个子查询执行状态的查看接口。子查询的执行和状态查看是间接地通过OGSA-DAI提供的服务来完成。例如:GDSR服务可使应用程序动态找到欲访问数据库,通过GDS服务的相应活动可以得到当前的执行情况。

(3)数据合成模块负责接收OGSA-DAI执行的各个查询结果,并利用本地临时数据库作为缓存,按照查询计划和所涉及的元数据库信息来进行结果的合成。

(4)元数据抽取模块负责从指定数据库中提取元数据,该功能的实现是通过扩展GDS服务来实现,提取之后,进行格式转换并由元数据管理模块完成对元数据库的更新。

(5)数据格式转换模块OGSA-DAI执行查询后,返回包含了查询结果的响应文档。该文档中的结果集是以XML格式来进行描述的,需要在本模块完成XML格式到行集的转换。

(6)数据库自动发现和注册实现局域网内或域内带有某些特征或授权的数据库的自动发现和注册。但一般使用手动注册的方式完成数据库注册和元数据的提取工作。

(7)数据集成总控制器负责与用户应用层的交互,如:接收SQL查询、发送结果集,并协调各个组件的交流和执行过程。

2.4 用户应用层

完成虚拟数据库视图环境的构建,查询结果的显示、元数据的管理。

(1)数据显示模块负责虚拟数据库视图的建立,以及用户结果的显示与转存,还包括用户SQL查询的保存与传递。结果的显示分为两种,一种是Table格式,另一种是XML格式

(2)元数据管理模块负责建立和维护元数据。包括元数据格式定义和表示、插入新注册数据库的元数据、更新元数据、删除元数据,以及向GDSR订阅元数据变动通知。通知是OGSA-DAI提供的一个服务,当数据库元数据有变动时,该模块能够及时得到消息并做出相应处理。

(3)本地SQL查询语句解析器位于数据显示模块和元数据库之间的一个中介模块,负责解析构建用户视图时的SQL语句。SQL查询语句往往涉及到多个数据库的查询,此处利用本地元数据库来实现SQL语句的解析,避免了访问远程数据库所造成的耗时。

3 工作流程

分布式查询和数据集成的工作流程如图3所示:

(1)从数据显示模块接收用户的SQL查询命令,分布式查询分解、优化模块与元数据库交互,确定要访问的数据库及其对象是否可用,然后,对查询任务进行分解、优化以形成高效的一个或多个子任务。最后把子任务提交给子查询分派模块。

(2)子查询分派模块按照子任务的接收顺序依次进行执行。期间,可以通过指定的服务查询各个子任务的执行情况。

(3)子查询分派模块现在充当了OGSA-DAI的客户端。客户端与GDSR通信,查找满足需求的服务工厂。

(4)把满足要求的服务工厂的GSH(网格服务句柄)返回给客户端。

(5)客服端可以查询GDSF的配置信息,调用Create Service()方法来创建GDS实例。

(6)GDSF创建GDS实例,并把该实例的GSH返回给客服端。

(7)用户把客户端生成的执行文档(其中包含了要执行的SQL语句,格式为XML)交付给GDS实例。

(8)连接数据库Database1,并将查询结果返回给GDS实例

(9)把处理结果以响应文档的形式发送给数据合成模块。

(10)同样的过程,可以访问Database2,并把结果也返回给数据合成模块。

(11)把XML文档转换成行集(或表的形式),并在数据合成模块合成数据,期间,可能需要暂存数据。

(12)把合成的结果传递给显示模块显示或转存。

4 结束语

本文介绍了网格环境下数据集成的关键技术,详细论述了如何在网格环境下利用OGSA-DAI进行数据集成,给出了模型的体系结构和实现方法,阐述了其工作流程,并利用与客户端元数据库交互的方式解决了用户对目标数据库信息了解匮乏的问题。

摘要:基于OGSA-DAI给出了一个用于解决网格环境下异构数据源数据集成和分布式查询处理的数据集成模型,在此基础上利用客户端元数据库解决了用户对目标数据库信息了解匮乏的问题,从而为用户的分布式查询处理提供了一种直观透明的、可视化的虚拟数据库视图环境。

关键词:数据集成,OGSA-DAI,元数据,网格计算

参考文献

[1]Foster I,Kesselman C.The grid2:blueprint for a new computing infras-tructure[M].Morgan Kaufmann,2004.

[2]OGSA-DAI WSRF2.2User Guide[EB/OL].http://www.ogsadai.org.uk/documentation/ogsadai-wsrf-2.2/doc/

[3]Atkinson,M.,Karasavvas,K.,Antonioletti,M.,Baxter,R.,Borley,A.,Chue Hong,N.,Hume,A.,Jackson,M.,Krause,A.,Laws,S.,Paton,N.,Schopf,J.M.,Sudgen,T.,Tourlas,K.and Watson,P.A new Architecturefor OGSA-DAI[EB/OL].http://www.ogsadai.org.uk/documentation/presentations/NewArchitecturePresentationAHMSep05MPA.pdf,2005-09-27.

[4]蒋明亮,傅秀芬,侯文国,肖树腾,李志清.基于OGSA—DAI的数据集成模型研究[J].微计算机信息,2006(11X):204-206,214.

[5]I.Foster,H.Kishimoto,A.Savva,D.Berry,A.Grimshaw,B.Horn,F.Maciel,F.Siebenlist,R.Subramaniam,J.Treadwell,J.Von Reich.The Open Grid Services Architecture,Version1.5[EB/OL].http://www.ogf.org/documents/GFD.80.pdf,2006-09-05.

[6]陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51.

[7]M.R.Martinez,N.RoussPoulos.MOCHA:A Self-extensible Database Middleware System for Distributed Data Sources.Porceedings of the ACM SIGMOD International Coneference on Management of Data[C].IEEE Press,2000(3):213-214.

制表“建筑师” 篇9

221年历史的瑞士钟表品牌

拥有两百多年历史的GP芝柏表自1791年创立以来,既尊重传统又坚持创新,奠定了独有的制表艺术,一些革命性设计和机芯,至今仍然发光发热。

精益求精、尊重历史、不懈创新、从不粗制滥造是GP芝柏表之本。Stefano Macaluso自信地说“今年全球宣传年轻制表师的活动并不仅仅是市场推广策略,也反映了我们的作品以专业和原创著称,并贯注丰富的想象力和激情。所以,每一枚GP芝柏表,都是传统制表工艺和现代尖端科技的艺术结晶品,已经超越了腕表的境界。”

Stefano Macaluso说,“GP芝柏表制表师平均年龄是37岁,参加今年全球宣传的年轻制表师也是我们公司制表师的缩影。他们当中大多数有超过15年的制表经验,既年轻又拥有高端制表技术。在过去的10年来,GP芝柏表一直致力于让老一代的制表师把经验和自强传授给年轻一代的制表师。现在GP芝柏表的制表师虽然年龄不大,却很有经验,具有高超的工艺技术水平。”

低调在中国

GP芝柏表是瑞士少数几家能设计生产机芯的厂家之一,一直致力于制表技艺的突破,而不是华丽的宣传。对此,Stefano Macaluso说“芝柏卖的是高超的制表技艺,而不是不华丽的包装和宣传。今后我们会继续发掘品牌背后的故事,并将精力集中在制表技术上的突破。”

GP芝柏表有两百年的历史,精于制造高端的手表。GP芝柏表善于设计,以其超凡的美感设计而闻名于世,善于制造机芯,也善于推广营销,在各方面都有所长。

GP芝柏表是全球化的品牌,谨慎地选择在全球各地经销商。目前大概有560个经销商,平均分配在全球市场,亚洲三分之一,欧洲三分之一,美洲三分之一,同时在中东地区销量也非常好。GP芝柏表希望在市场拓展上保证在全球市场上做到平均分配。

谈及中国消费者最喜欢的GP芝柏表,Stefano Macaluso介绍说,“Vintage 1945在全球卖得都很好,而在中国,GP 1966非常畅销。”此外,他也表示,钻石女表在中国也很受欢迎。

最爱产品本身

Stefano Macaluso十几岁时候的梦想是成为汽车设计师或者工业方面的设计师。而大学学习建筑专业的他,认为设计制作腕表与设计搭建建筑有异曲同工之妙。“意大利有建筑和艺术相结合的传统。我从建筑专业的学习中,获得了高雅的品味的同时,能参与到设计中。建筑这个行业涵盖很多种不一样的技术——砌墙、搭房顶、窗户等等,实际上做表也是一样,设计师要把所有部件和各种技术结合起来。”

说起现在这份工作,Stefano Macaluso的脸上绽放了无比幸福的笑容。刚开始接手时,他负责产品开发,后来做产品设计。他说“我最爱的是产品本身,核心归根到底还是生产。”他认为最幸福的事就是与不同的人合作创造出新的腕表设计。他表示“GP芝柏表每年的每一个系列都有不一样的风格、不一样的设计。每一个人都会努力把一切做到最好,保证把GP芝柏表的DNA传承下去。在每次出差时,每每看到有人戴着GP芝柏表,我就很高兴。”

谈到最喜欢的GP芝柏表,Stefano Macaluso说这是一个很好却又很难回答的问题。他说“经典的三金桥表我很喜欢,同时,现在戴的这款WW.TC腕表可以很清晰地显示各地的时间,很方便出差的时候佩戴。”

基于本体的通用数据交换模型研究 篇10

以此为背景, 本文提出了一种通用的基于本体技术的数据交换模型, 来解决数据交换中数据源之间的结构、语义异构, 并且提出了基于Web Service的数据交换组件驱动ETL引擎[2,3], 完成数据源之间的数据抽取、转换、加载, 实现了不同平台数据源的交换和集成。

1 关键技术分析

1.1 本体技术

本体 (ontology) 最早是在哲学领域“形而上学”分支中的一个概念[4]。伴随着信息技术的不断发展, 本体的概念被引入信息技术、人工智能等领域, 并被赋予了不同的定义。基于不同定义的理解、分析, Studer等概括了本体的下面四层含义[5]:概念化模型 (conceptualization) 、明确 (explicit) 、形式化 (formal) 及共享 (share) 。

本文采用多本体方法[6], 为每个数据源构建对应的局部本体, 通过局部本体之间的映射关系来实现底层数据源的数据交换、共享。

1.2 Web Service技术

Web Service[7]是一种开放式的跨平台分布式应用, 通过发布一系列的Web接口, 来封装具体的功能实现, 屏蔽了系统平台的差异性, 可以方便、快速部署自己的应用系统。

通过Web Service组件的方式对ETL的具体实现进行封装, 就可以屏蔽不同平台、不同数据源之间的差异性, 实现异构系统、数据源之间的数据交换、集成。

2 设计方案

2.1 体系结构

基于本体的数据交换体系结构见图1, 包括如下几个部分。

2.1.1 数据层

包括了不同的数据源, 如oracle、Sql Server等关系型数据库、文本、Excel等非结构数据以及自己定义的文件等。不同数据源之间存在着语义和结构上各的异构, 要想实现不同数据源之间的数据交换和数据共享, 就必须解决这些数据源之间语义和结构上存在的异构问题。

2.1.2 逻辑功能层

该部分主要包括了基于本体的数据交换模型以及基于Web Service的数据交换服务组件。

基于本体的数据交换模型主要用于不同数据源之间的映射关系。根据数据源的关系模型信息构建相应的O-Graph图, 通过O-Graph中衍生出的语义信息构建不同数据源的局部本体。然后, 通过建立局部本体之间表和字段之间的映射关系。

基于Web Service的数据交换组件主要用于提供数据交换服务, 基于ETL技术, 分为数据访问、数据抽取、数据转换和数据加载服务组件。

2.1.3 应用层

主要包括了各个业务部门的应用系统, 他们之间的数据交换和共享主要基于数据层数据源的交换和共享, 通过调用该体系结构中的逻辑功能层, 来实现相应的数据交换和共享。

2.2 本体数据交换模型

本体数据交换模型主要基于图模型O-Graph, 用于发现关系模型语义, 通过发现的关系模型语义信息通过O-Graph自动实现数据源和局部本体之间的创建。

将基于本体的数据交换模型定义为:P= (O, M) 。

O代表从数据源构建的局部本体的集合, 包括了数据交换双方源和目的局部本体, 用公式表示为O={Os, Ot}, 其中, Os代表源数据源对应的局部本体, Ot代表目标数据源对应的局部本体, Os、Ot分别包含了不同数据源对应的模式语义信息, 包括数据源信息、数据源中表结构信息以及表之间的约束关系信息 (如主键、外键、非空、唯一性等约束) 。

3 实现与应用

3.1 数据交换组件

数据交换组件的时序图如图2所示, 该时序图介绍了整个数据交换的流程:首先, 源数据发出请求, 对该请求进行权限验证, 如果符合系统配置的权限, 则将封装好的请求提交到本体数据交换模型, 进行相应的数据源到局部本体以及局部本体之间映射关系的构建, 其次, 根据对应的映射关系将数据转换成目标数据格式文件, 最后, 通过数据加载程序把生成的目标数据文件加载到目标数据库中。

3.2 系统应用

基于此模型开发的通用数据迁移工具采用.NET平台, 使用C#语言编程实现。下图3为数据交换主界面。

4 结语

本文提出一种基于本体的通用数据交换模型, 给出了本体数据交换模型的相关定义, 基于Web Service组件实现了数据源之间的提取、转换、加载。基于本体提出的模型构建的应用系统已经应用到中石油某项目中, 对于企业数据集成、数据交换, 尤其是中石油数据集成、交换问题可以提供一个很好的解决方案, 具有现实意义。

摘要:为解决企业异构数据模型之间数据交换问题, 通过对国内外数据交换技术进行研究, 结合企业数据交换的实际需求, 引入了本体和Web Service技术, 定义了一种基于本体的通用数据交换模型, 给出了本体数据交换模型定义。通过基于Web Service的数据交换组件驱动ETL引擎, 实现了数据交换中的数据处理功能。该交换模型已在中国石油数据交换项目中得到应用, 应用效果良好。

关键词:数据交换,本体,ETL,Web Service

参考文献

[1]肖媛媛.浅谈企业信息孤岛化问题[J].企业导报, 2012 (6) .

[2]康峰峰.基于本体的油田开发领域数据交换模型研究[D].大庆:东北石油大学, 2013.

[3]宋杰, 王大玲, 鲍玉斌.一种元数据驱动的ETL方法的研究[J].小型微型计算机系统, 2007, 28 (12) .

[4]Ansgar Scherp, Carsten Saathoff, Thomas Franz, et al.Designing core ontologies[J]Applied Ontology, 2010, 6 (3) .

[5]Gruber T R.Towards Principles for the Design of Ontogies Used for Knowledge Sharing[J].International Journal of Human&Computer Studies, 1995, 43 (5) .

[6]Natalya F.Noy.Semantic Integration:A Survey of Ontology Based Approaches[J].SIGMOD Record, 2004, 33 (4) .

上一篇:本量利分析论文下一篇:外部效益