数据仓库模型构建

2024-10-11

数据仓库模型构建(精选7篇)

数据仓库模型构建 篇1

随着信息技术的飞速发展, 电信行业经营分析数据越来越庞大, 伴随着数据的急剧增加, 人们对数据处理的要求也在不断的提高, 数据仓库的构建在企业运营的过程中正越来越受到重视。由于电信行业中各企业的非常业务复杂, 数据也非常庞大, 所以在构建电信行业企业级数据仓库的过程中就必须要注意在满足不同用户需求的同时也定要兼顾系统运行的效率以及后期的可扩展性。这样构建的数据仓库才能更加适应企业的需要以及时代的发展, 而要想构建一个令人满意的数据仓库, 数据仓库逻辑建模就起到了非常重要的作用。

1、数据仓库逻辑建模的原则

模型可以帮助我们更加明白的了解业务需求, 是在企业分析完业务需求之后所做的第一步工作, 也是数据仓库中非常重要的一个环节。由于电信行业业务复杂, 数据庞大, 所以数据仓库的逻辑建模显得尤为重要, 在进行数据仓库逻辑建模的过程中, 必须要以以下几点为原则:

1.1 操作的简单性

由于数据仓库最终的用户不一定具有较高的计算机操作能力, 因此数据仓库创建后对于使用过程应该具有直观, 简单的特点, 使得非计算机专业的人员也应该很容易的来获取自己想要的数据。

1.2 业务的全面性

业务应该能够满足不同用户的不同需求。对于同一类用户, 应该能够提供全面的业务分析展现, 使用户能够自由的访问自己需要的数据。

1.3 高效率原则

对于数据获取的过程, 应该尽可能的缩短访问的时间, 在短时间内将用户需要的数据展现给用户, 提高用户的感受度。所以在逻辑建模的过程中应该注意以下几点:

(1) 增加适当的冗余来提高系统的响应速度。

(2) 尽量避免多个大数据量的表间连接。

(3) 尽量避免大范围的数据扫描。

(4) 充分考虑可扩展性。

由于电信行业业务的复杂多变, 在数据仓库逻辑建模的过程中要充分的考虑电信业务后期的变化, 即逻辑建模时要充分考虑系统的可扩展性。

2、电信行业企业级数据仓库模型的构建

常用的数据仓库逻辑建模主要包括三范式建模和维度建模, 三范式建模偏向于数据的存储, 是围绕主键与于其它属性之间的关系而作出的建模。维度建模偏向于数据的分析, 如常见的星型模型建模, 它是以事实表为中心, 周围关联很多维表。三范式建模和维度建模各有优缺点, 根据电信行业业务的复杂性和庞大性, 为提高企业数据的处理效率和数据分析的灵活性, 以及后期数据仓库的可扩展性, 本文采用维度建模的方式进行分析, 系统部分模块的模型如图1所示。

系统数据仓库的逻辑建模可分为以下几个步骤来执行。

2.1 确定主题

从大的模块上来说, 系统分析的主题包括业务主题, 客户主题, 其中业务主题包括企业提供的各种复杂的业务, 业务的开通取消情况, 业务的生效情况, 业务的收费情况等, 客户主题主要包括客户的基本情况, 客户订购的业务信息, 客户订购业务产生的费用信息, 以及企业为客户提供的服务信息等。图2列出了系统主题间的关系。

2.2 确定度量

度量即分析的指标, 是数据仓库中数据分析结果的直接体现, 它决定着数据分析的结果是否符合业务需要, 对企业的决策支持起着非常重要的作用, 因此度量的确定也是非常重要的。

以客户基本信息为例, 包含的度量值主要为客户id, 客户姓名, 客户年龄, 客户电话, 所在区域, 所在行业, 客户类别等信息。通过这些信息能够为客户的流失分析及客户营销分析提供基本的资料, 当然还有一些度量是需要通过计算得到的, 如客户的平均收入, 客户的平均消费等, 这些需要计算的度量在数据仓库的分析中也是非常常用的。

2.3 确定粒度

粒度是数据仓库中保存数据的细化程度, 并与细化程度成反比, 细化程度越高, 粒度级别就越低;反之越高。粒度的划分将影响数据仓库中的数据分析操作, 例如以区域为例, 如果区域的划分只到省的级别, 那么我们就无法分析省中各地市的数据信息。但如果把所有要分析的信息都使用低粒度进行保存, 将浪费很大的空间, 并影响分析的效率, 所以, 在系统粒度的设计中, 使用多重粒度设计, 即按照实际分析的需要划分不同的粒度级别。图3为系统粒度的部分实例。

2.4 确定维度

维度是描述数据仓库中事实数据的一种层次性结构, 是分析数据的角度。维度的合理定义对数据的灵活展现起着至关重要的作用。

在电信行业中, 维度的选取大同小异, 例如, 若以客户分析为主题, 那么维度常划分为区域维、时间维、行业维等, 每一维上又细分成具体的维, 如时间维上可划分为年、季度、月、日, 区域维上可划分为南北方, 省, 市等。

3、总结与展望

数据仓库建模在企业数据仓库的构建过程中起着非常重要的作用, 通过建模, 能够使企业的分析面向业务主题, 使得分析出来的数据更加贴合实际;通过建模, 能够简化后期的统计分析工作, 提高开发的效率。本文以数据仓库建模的原则为基础, 分析了电信业企业级数据仓库模型的构建的过程中需要做的工作, 并对所做的工作进行了简单的描述, 能够提高后期数据仓库的开发效率, 增强数据仓库系统的可用性, 为电信业企业的决策支持提供帮助。

摘要:近些年, 我国电信行业数据仓库的发展迅速, 作为数据仓库中的一个关键的环节, 数据仓库逻辑建模就显得越来越重要。文章以我国电信行业数据仓库发展的背景为基础, 依据数据仓库逻辑建模的原则, 探讨了我国电信行业企业级数据仓库模型构建中的几个关键的部分, 并结合事例对各部分进行了描述, 为数据仓库工作者重构了一个数据仓库逻辑建模的过程。

关键词:数据仓库,逻辑模型,维度建模

参考文献

[1]米波.基于数据仓库技术的银行数据系统的研究[J].电脑知识与技术, 2010 (06) .

[2]周冬婉, 周伟, 叶涛.企业数据仓库多维数据模型的建立[J].微机发展, 2005 (06) .

[3]Anand S Kamble.A Conceptual Model for MultidimensionalData[C].Proceedings of the Fifth on Asia-Pacific Conference onConceptual Modelling, 2008.

[4]徐琴, 彭宇扬, 彭自成.电子商城的数据仓库建模研究[J].计算机与现代化, 2010 (07) .

[5]高翔, 刘峰, 张殿东.商业银行数据仓库建模研究与设计[J].计算机与数字工程.2010 (08) .

[6]高翔.数据仓库中多维元数据的组织研究[J].信息与电脑, 2010 (06) .

数据仓库模型构建 篇2

由于企业应用系统日益复杂,系统的运行和维护效率也日益变低,企业陆续出现数据分散、重复存放、不可用、垃圾数据等情况,不仅导致企业的事务数据越来越多,更是使得管理决策人员却无法从庞大的数据库系统中及时准确的获得所需数据信息。而ERP系统作为典型的事务型信息系统,更是如此,其数据库已收集海量财务数据信息,且其信息量还在以指数级速度增长,但其中有价值的数据信息又比较分散,不利于使用,因此如何将ERP系统中的事务型数据进行某种方式的转化,从而满足决策需求,已经成为企业经营管理的首要问题[1]。目前主要的数据解决方案多是将ERP中的数据经过清洗、整合转入数据仓库,再在数据仓库的基础上建立分析型系统,这样ERP可以处理企业的事务,而数据仓库可以利用ERP数据库中存储的数据信息辅助企业做出及时、精确的管理决策。数据仓库技术在20世纪90年代已开始发展,前后经历了报表、分析、预测、营运导向、动态数据仓库五个发展阶段,目前数据仓库技术在企业决策支持领域开始广泛应用[2]。因此本文主要依据数据仓库技术,通过分析ERP系统中的财务模块中数据的特点和类型,以财务指标为侧重点,研究如何针对ERP财务模块中的海量财务数据建立数据仓库模型,从而将其中的事务型数据转化成分析型数据,进而满足决策需求。

2 数据仓库的含义及其模型设计的主要内容

2.1 数据仓库的含义

数据仓库的概念最早是在20世纪80年代出现的,但到1993年,才有了系统的定义,是由被称为“数据仓库之父”的William H.Inmon首次系统阐述的,即一个面向主题的、集成的、不可修改的且随时间变化的数据集合,以支持管理人员的决策[3]。

面向主题是考虑在数据模型中已定义业务的一个个问题域,对分析数据所采用的功能和问题域涉及的数据同等重视。集成则是因为数据仓库中的数据来自不同的数据源,数据源具有多样性的特点,其组织结构往往不尽相同,因此要将这些异构的数据导入数据仓库,必须经过集成。不可修改是指在数据仓库中数据的操作仅限于数据的初始导入和记录查询,而不能修改,但这并不是说数据仓库是始终是只读的,如果客户需求改变,也是可以修订索引数据的,即数据仓库是可以持续更新的,还可能增加新的分析主题,从而满足客户新的管理决策的需求。随时间变化指的是数据仓库以维的形式对数据进行组织,其中时间维是很重要的维度之一,且数据仓库中的数据时间跨度比较大,故一般称之为历史数据。

2.2 数据仓库模型设计的主要内容

数据仓库模型设计是构建数据仓库的关键,它主要包括概念模型、逻辑模型以及物理模型设计3个环节。

概念模型设计环节主要解决两个问题,即划定主题边界和确定主题。划定主题边界是指,对现有数据库中的数据要有一个完整而清晰的认识,有一个整体上的把握。所谓确定主题,是指通过分析和理解企业现有数据库系统的数据,得知系统中的数据类型、组织结构以及分布方式等,然后由最终用户和数据仓库设计人员共同确定主题,并对每一主题域的公共码键、主题域间的联系、充分代表主题的属性进行较为明确的描述。

逻辑模型设计描述了数据仓库主题的逻辑实现过程,可以说是数据仓库使用者和开发者之间就数据仓库的开发进行交流和讨论的平台,同时对系统的物理实施还具有重要的指导作用,通过实体和关系勾勒出整个企业的数据蓝图。

物理模型的设计是建立在逻辑模型基础上的,它运用数据库管理系统(database management system,DBMS)对逻辑模型进行物理优化,也就是说根据数据仓库的特点和性能要求,将逻辑模型转化为数据在物理设备上的存储结构与存取方法的过程。

3 基于ERP财务模块的数据仓库模型构建方案

3.1 基于ERP财务模块的数据仓库概念模型

(1)划定主题边界。ERP财务模块的数据仓库是面向决策分析的数据库,它是着眼于通过有效抽取、转换、重组和综合现有的数据库中的财务数据信息,来分析企业的财务状况,预测企业的经营前景,最终为企业管理者提供决策支持,因此其设计方法是数据驱动的,主要思路则是从已有数据库系统中的数据信息出发,按照分析领域对数据和数据之间的联系重新组织数据仓库的主题,本文在设计数据仓库模型时,只涉及狭义的财务分析,即根据企业的财务报表及相关材料对企业的经营财务和经营状况进行分析。常用的有偿债能力分析、营运能力分析、获利能力分析、发展能力分析和综合能力分析等,均采用比率分析法来分析。

在数据仓库设计之初,我们能得到的只是数据,而非具体而确定的需求,但通过环境评估、需求收集和上面的分析,我们可以得到一些方向性的需求,来确定数据仓库主题的边界:(1)确定决策分析类型。决策分析类型应能实现对企业经营发展状况的财务分析评价。(2)确定关键问题。决策者感兴趣的关键问题应是能够方便、快捷、灵活地获得用于分析评价企业财务状况和经营成果的各种信息。(3)确定所需数据信息。要做出最佳决策,就必须了解包括企业、行业、各时间段的各种数据信息,以及各会计科目数据经计算后得到的指标数据和综合数据。(4)确定所需原数据库系统中的数据类型。进行财务分析时,本文采用比率分析法,通过计算各种指标来进行分析,这就需要三大报表中的各项数据,即要从原有数据库中得到三表中包含的数据项,例如证券代码、会计期间、年度标识、报表类型以及各报表会计项目数据等。

(2)确定主题。确定主题时,首先要进行需求调查,而后总结需求的集中结果,最终根据这些结果来确定主题。假如某公司的财务信息需求者做了完整调查,最终得到以下集中几种需求:希望能针对企业本身进行财务分析,评价企业的财务状况,并预测企业的经营前景;希望针对某一时间段的经营状况进行财务分析,如某一年度、季度或月份;希望能针对企业所在的行业进行财务分析,预测此行业的经营前景;希望能够针对某一指标体系来进行财务分析,比如针对企业的偿债能力指标体系进行财务分析。根据以上的分析和理解,并和数据仓库最终用户确定了财务分析的主题域分别为:企业、时间、行业、指标。

财务分析主要通过时间、行业、指标计算的角度对企业的财务状况和经营成果进行分析,涉及的指标包括速动比率、现金流量比率、资产负债率、流动资产周转率、市盈率、资本积累率、总资产增长率等等,这里只列出了其中的一部分,详细的各项指标会在后面详述。

概念模型常用E-R法,即实体-关系法作为描述工具[4]。E-R图中的长方体代表实体,即数据仓库的主题域,椭圆表示主题域的属性,主题域与其属性间以无向边连接。有向边表示各主题域之间的联系,单向边表示1:n的关系,双向边表示m:n的关系;无向边表示主题域之间1:1的关系。那么通过E-R图,可以将财务分析的概念模型描述,如图1所示。

3.2 基于ERP财务模块的数据仓库逻辑模型

(1)选择数据源。构建基于ERP财务模块的数据仓库,其数据源主要来自于ERP原有数据库中的凭证、账簿和报表数据。

(2)确定数据粒度。首先是选择数据粒度。数据粒度指的是数据仓库中保存数据的细化或综合程度的级别,细化或综合程度越高,粒度则越大,反之,则粒度越小[5]。数据粒度的选择有两种,分为单一粒度和多重粒度,单一粒度是指数据进入数据仓库时,先保存为细节数据,待保留周期到时,则汇总成为综合数据,同时将细节数据导出到其他慢速存储设备;多重粒度是指数据进入数据仓库前,以细节数据和综合数据两种形式同时存在,待保留周期到时,将细节数据导出,综合数据保留不变。对于细节数据量较大的情况,若以单一粒度存储,则对近期数据的查询效率较低,故这类情况多选择多重粒度。对于ERP财务模块,其细节数据量非常大,因每发生一笔经济业务,都会产生一张会计凭证,在财务上反映出来,因此采用双重粒度存储。本文以3个月为细节数据保留周期,即细节数据进入数据仓库后会同时被汇总成综合数据的形式,以细节和综合两种形式保存,待3个月后,综合数据继续保留,细节数据将被导出到慢速设备中。下面以往来总账字段表为例来分析双重粒度的原理,如图2所示。

其次是确定粒度级别和汇总方式。确定粒度级别主要根据用户的分析需求和各个表的数据量大小来决定,针对不同的数据层次选择三层粒度级别分别为:(1)当前细节级:保存财务模块最详细的数据,对应日常经济业务中的各类会计凭证,这样的数据量大并且繁杂,不进行数据汇总;(2)轻度综合级:按照月份汇总数据,对应汇总后的记账凭证,记入会计科目体系的各级科目中;(3)高度综合级:按照年度汇总数据,则可在每个月份的汇总表的基础上汇总生成年度汇总表,生成能够反映企业偿债能力、营运能力、获利能力、发展能力等高度综合的数据,提高查询分析的效率。此部分的数据模型通过对用户已有报表的指标分析和用户提出的分析需求确定。

(3)建立逻辑模型。目前数据仓库逻辑模型设计方法主要有第三范式和维度建模两种方法[6]。本文采用Kimball提出的多维模型建立逻辑模型,因为它是一种面向需求、容易理解、访问效率高的设计方法,与其他数据组织形式相比,对数据进行了大量的预先汇总操作,因此数据查询速度相对较快。每个多维模型都是由一个事实表和一个维表组成的,每个维表都有一个维作为主键连接到事实表,而所有的这些维将组合成事实表的主键。维是用户观察数据的角度,事实是相关数据项的集合,每个事实一般代表在分析过程中使用的事件。除了维和事实,多维模型中还有一个重要概念,那就是度量,度量是从现实系统中抽象出来描述数据的实际含义,一般为数据类型,通过使用聚集函数得到。多维模型常用的模式有星型和雪花型,星型模式中,所有维表都是直接关联到事实表上的,而雪花型模式中,部分维表不直接关联到事实表,而是通过中间表关联的。

进行财务分析时,可分别从企业、时间、行业、指标的角度来看,因此主要包括4个维表,企业维、时间维、行业维、指标维,其中指标维还包括一个父指标维。企业维包含企业ID,企业全称,所属行业,还有企业的一些基本信息,例如企业所有制类型、企业法人、公司地址等。时间维包括时间ID和单位,分别以年度、季度或月份为单位进行财务分析。行业维包括行业ID,行业名称和行业类型。指标维包括指标ID、指标名称、指标描述和父指标ID,财务分析的4个方面都分别对应多个指标,他们之间是父类和子类的关系,故指标维设计为父子维,父指标维包括父指标ID,父指标名称,父指标类型,父指标描述。事实表包括企业ID、时间ID、行业ID、指标ID、指标分子、指标分母、指标值等。由于指标维还涉及了父指标维,因此财务分析的逻辑模型采用雪花型,如图3所示。

3.3 基于ERP财务模块的数据仓库物理模型

(1)数据文件的存储分配。该数据仓库中,多维数据的存储选择混合联机处理(hybrid online analytical processing,HOLAP)方式,这样可以避免数据重复存放,节省存储空间,提高系统效率[7]。另外由于数据仓库中当前细节级、轻度综合级、高度综合级以及维表的数据量与数据的增长方式不同,可将其划分成多个数据文件进行存储,同时会计凭证的数量巨大而且增加速度很快,因此在轻度综合级、高度综合级对应的数据文件中都指定几个文件作为会计凭证专用的数据文件。

(2)表的索引。因财务分析重在宏观上的分析,对细节级的数据分析需求并不多,因此当前细节级中的各表无需加入过多主键索引,对使用频率较高的表加入即可。对于其他表,可根据用户经常查询的方式及字段本身的特性加入索引。

(3)表的物理分割。对当前细节级的凭证数据按时间进行物理分割,使得对一天或者一个月的查询不受数据逐渐增加的影响。表的物理分割依赖于DBMS系统的功能。

(4)禁止外键关联。将数据模型中的外键约束禁止变为人工约束,从而保证数据抽取的效率。

4 结论

财务决策作为企业经营决策的核心部分,在企业经济活动中起着至关重要的作用,因此通过建立数据仓库,从海量的财务数据中提炼出有用的信息,帮助决策者及时、高效、客观地做出决策,是重中之重。而数据仓库模型的构建是建立数据仓库的关键,正确且完备的数据模型是用户需求的体现,是数据仓库成功与否最重要的因素,本文通过ERP财务模块中数据的分析,根据财务决策工作者的需求,运用实体关系法和多维模型法建立了数据仓库概念模型和逻辑模型,同时说明了物理模型的构建,最终构建了基于ERP财务模块的数据仓库三层模型。当然,虽说数据仓库模型的构建是关键性的一步,但数据装载接口的设计方法以及元数据的管理方法的研究也是建立数据仓库不可缺少的部分,还有待进一步地研究。

摘要:在财务决策中,需对ERP财务模块中海量财务数据信息进行整合以做出最佳决策,因此如何对其构建数据仓库模型,成为财务决策需求的关键。以ERP财务模块为基础,结合数据仓库技术的应用,构建了ERP财务模块的数据仓库模型,为建立整个数据仓库系统并进而提高企业财务决策能力奠定了坚实的基础。

关键词:ERP财务模块,数据仓库,数据仓库模型构建

参考文献

[1]董筱青.对企业成功实施ERP前提条件的要素分析[J].财经界,2010(9):75-77.

[2]HAMMER J,GAREIA M H,WIDOM J,et al.Speeial issueon materialized views and data warehousing[J].IEEE DataEngineering Bulletin,1995,18(2):41-48.

[3]HUANG Y F,CHEN J H.Fragmental location in distributeddatabase design[J].Journal of Information Science andEngineering,2001,17(3):491-506.

[4]黄辉,于爱军,李永生,等.黄金地质勘察项目数据仓库模型数据完整性的实现[J].黄金,2011,32(9):36-37.

[5]张天西,黄长胤,吴忠生.XBRL中的财务信息元素的粒度研究[J].XBRL研究,2011(7):23-24.

[6]王毅.数据仓库建模和设计的最新进展[J].电脑开发与应用,2010(3):34-36.

教学管理数据仓库模型设计 篇3

随着计算机应用技术的普及和高校教务管理信息化程度的提高,学校在进行日常的教学管理的过程中积累了大量的数据,如何从大量的信息中找出有用的知识为教学服务,提高教学管理水平成为当前必须考虑的问题。因此,建立合理、有效运行的数据模型在教学管理中中起着越来越重要的作用。数据仓库(Data Warehouse)是进行数据分析和联机分析处理的重要平台,数据仓库之父William.H.Inmon在1993年所写的论著《Building the Data Warehouse》中将数据仓库定义为:“一个面向主题的、集成的随时间变化的非易失性数据的集合,用于支持管理层的决策过程。”

2 教学管理据仓库模型的建立

联机分析处理(Online Analytical Processing,简称OLAP)的概念是由E.F.Codd于1993年首次提出的。当时,他认为联机事务处理(OLTP)已不能满足终端用户对数据库的分析式查询需求,因此提出了多维数据库和多维分析的概念,即O L A P,并将O L A P定义为共享多维信息的、针对特定问题的联机数据访问和分析技术。OLAP将分析结果存储在信息库中,便于决策者通过对比多种分析结果作出更好的决策。基于数据仓库的教学管理数据仓库设计步骤如下:

2.1 数据仓库模块

根据决策主题设计数据仓库结构。本例采用星型模式设计其数据模型,在设计过程中保证了数据仓库的规范化和体系各元素的必要联系。

2.2 数据抽取模块

该模块是根据元数据库中的主题表定义、数据源定义、数据抽取及分类和聚类规则定义对异地异构数据源进行清理、转换,并对数据进行重新组织和加工,装载到数据仓库的目标库中。加工数据的目的是保证目标数据库中数据的完整性、一致性。

2.3 数据维护模块

该模块分为目标数据维护和元数据维护两方面。目标数据维护是指根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。基于上述的数据仓库建立过程,设计了如图1的教学管理数据仓库模型。

3 建立数据环境模型中的关键技术和解决方案

3.1 数据抽取

并不是源数据库的所有细节数据对于数据仓库的主题域都是有用的,必须根据已确定的主题的需要,从原有操作型数据库中抽取相关的数据到数据仓库。本次设计数据仓库的主题有两个:根据已有的数据对学生的统考课程(高等数学、计算机文化基础、英语)成绩进行分析;根据教学量化分析老师的教学效果。使用的数据有青果教务软件数据库中的数据,也有教务部门提供的考核教师的EXCEL表数据,还有北京典成公司发来的ACCESS格式《计算机文化基础》课程成绩,这些部门提供的原始信息中有一些信息是本系统所不关心的,所以从中抽取有用数据,可以减少大量数据存储给系统带来的压力。

3.2 数据转换

数据转换主要考虑的是一个或多个异构的数据源的数据不一致性,本课题研究的数据源有SQLSERVER数据库、Access数据库、EXCEL表,必须将多个相关的表的字段名、类型、宽度进行转换,使它们保持一致,如每个维表与事实表关联的维度的名字、类型、宽度须保持一致。

3.3 数据清洗

数据仓库是决策支持的基础,所以数据仓库中数据的准确性是非常重要的,但是传统的数据库中可能存在一些错误,数据清晰的任务就是对数据进行检查,使得它们尽可能无差错。

3.4 数据装载

这个步骤将各种数据装载到数据库,本例选用的数据库是SQL SERVER2000,采用S QL SERVER提供的DTS(数据转换服务)工具,可以实现异构数据源之间的转换。

4 应用实例

在设计我校教学管理数据仓库系统的过程中,该模型得到了应用。在详细分析教学管理数据的基础上,根据我校具体的管理需求,设计了如图2的我校教学管理数据仓库模型。

5 结论

随着信息技术的发展和教学管理软件的应用,教学管理数据量将日益增长。因而迫切需要建立合理、有效的数据库模型。本模型能有效地组织教学管理数据,为解决教学决策提供了基础和技术支撑。

摘要:随着计算机应用的展开与深入,大量数据存储在计算机中,人们迫切需要将这些数据转换成有用的知识,并将获取的知识广泛用于各行各业。数据仓库技术的出现为解决这个问题提供了技术支持。本次设计在教学管理数据库的基础上,建立教学管理数据仓库,能为教务管理部门对教学中的成绩等分析提供依据。

关键词:数据仓库,OLAP,MDX,教务管理

参考文献

[1]W.H.Inmon.Building the Data Warehouse.NewYork:JohnWiley&Sons.1996.

[2]王珊等.数据仓库技术与联机分析处理.科学出版社.1999.

[3]MichaelCorey等.SQLS erver7Data Warehousing.北京希望电子出版社.2000.

基于数据仓库模型的运营分析系统 篇4

进入21世纪,信息科技迅猛发展,市场瞬息万变,企业要想在激烈的市场竞争中立于不败之地,就需要对客户和市场的信息做出快速、及时地搜集与响应,同时对自身的运营状况也要做出全面的预测与分析。企业要想通过信息化的手段,按照自身的需求以全方位、精确的粒度来分析自身生产、经营的情况,使用数据仓库是一个行之有效的方法。

本系统的设计完成了从类似于ERP等相关的联机业务系统(OLTP)到联机分析系统(OLAP)的数据抽取与清洗(ETL)过程、运营分析系统基础数据的定义过程、数据仓库模型的建立过程以及分析指标的多维度查询与分析过程四个步骤。四个步骤紧密相连、相互支撑、缺一不可,共同构建起基于数据仓库模型的运营分析系统。

1 基本概念

1.1 运营分析系统

本系统为企业的中高层管理者提供及时、全面、详细的综合数据分析。为企业的决策层分析企业经营状况,制定战略计划,以及考核体系提供最全面的分析结果。

1.2 数据仓库

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

面向主题:操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

集成:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

相对稳定:数据仓库所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

2 系统软件平台及构造

2.1 软件平台

软件主要包括前台展现页面、WEB应用程序服务器、后台数据库系统。其中前台展现页面是基于B/S架构的JSP页面;WEB应用服务器使用IBM公司的WebSpere Application Server 6.0;后台数据库使用Oracle 10g 10.2.0。

2.2 系统结构

图1展示了基于数据仓库模型的运营分析系统的体系结构:其中ETL包括:数据抽取、转换、清洗、过滤、装载这几个步骤;业务数据经过ETL的过程,以另一种方式存入一个逻辑上独立于业务系统的新数据库中。这个数据库对业务系统是完全封闭的,并且是按照待分析的指标存放在多个类似于“数据集市”的多个表中。基于海量的分析数据,我们按之前设定好的参数来进行数据仓库模型的建立,也就是所谓的“多维度”的数据模型,模型建立好以后,就可以在模型框架的基础上进行多角度的海量数据的查询分析。

结构特点:

1)独立性

本系统和外界的业务系统是完全独立的、不依赖于某种特定的业务系统而存在的。数据的抽取实际上是实现和外部业务系统的数据接口,而接口是可以由多种方式来实现的,如数据库后台的存储过程、JAVA程序等。

外界业务系统数据的变化也不会实时的、直接的影响到分析系统的数据,分析系统反应的只是某一个时点上业务数据的情况。

2)安全性

由于系统数据存放在独立于外部业务系统的数据库中,拥有外部业务系统访问权限的用户不一定可以访问分析系统。本系统通过基础数据定义中角色的授权来控制访问、查询分析分析数据的权限。对于后台存储的数据也进行了加密的处理。

3 系统的多维度数据模型

多维度结构模型是基于多张维度表和一张事实表的星型模型结构,如图2所示。每个维度表存放的是按属性分类的维成员。如时间维度表中的时间维成员有:2009年、2008年、2007年...组织维度表中的组织维成员有:销售部、国际业务部...往来单位维度表中的维成员有:客户A、客户B、客户C...那么在指标事实表中的数据就可以查询到如“2008年国际业务部与客户A所签的订单额度”、“2009年销售部与客户C所签的订单额度”、“2009年所有部门与所有客户所签的订单额度”...

可见每个维度表的主键构成了事实表的外键,这样的结构保证事实表中存在每个维度的每个维成员组合的数据。我们可以把事实看成是各个维交叉点上的值。

我们把业务系统中待分析的数据归类,每一类称为一个“指标”。如销售收入、成本总额、应收账款都是指标,指标之间大多数没有彼此的关联,但有一类指标是需要通过其它指标的公式计算得到数据值的,如主营业务利润率=主营业务利润/主营业务收入×100%。所以我们把指标分为非计算类指标和计算类指标两大类。而非计算类指标的数据值来源于业务系统。

4 运营分析系统的设计

4.1 ETL数据抽取、转换、装载模块的设计

系统设置自动的数据库任务,定时地执行存储过程(或者通过定时启用JAVA的线程)将外部业务系统中的数据写入到每个指标的中间表中。

4.2 基础数据定义模块的设计

基础数据定义的步骤:

1)定义分析指标及相关属性

2)定义统一的维度与维成员

3)定义与每个指标相关联的维度与维成员

4)定义系统角色,为角色指定有权限的指标与维成员

5)定义登录系统的用户分配角色

4.3 数据仓库建模的设计

1)生成每个指标的维度表

2)生成每个指标的事实表

数据仓库的建模需要根据基础数据的定义模块的相关数据,由指标与维度的关联可以动态生成每个指标的维度表;由指标与维成员的关联可以生成每个指标维度表中的数据;由每个指标的维度表可以动态生成其事实表。

4.4 数据查询与分析的设计

数据的查询与分析其实是对所有指标在多维度模型上的一个展示。包括某个指标在同一个维度的不同层次的维成员上做“上卷”、“下钻”的查询操作、某个指标在某年度的指标值进行“同比”、“环比”的查询操作。此外,针对分析查询的结果,系统支持多维度报表的生成、打印等功能。

5 结论

本系统将企业的联机业务系统与联机分析系统很好的联系起来,定义灵活、人机交互界面友好。解决了企业管理者以灵活的方式从各个角度全方面的了解企业生产运营状况的需求。提高了其决策的效率,降低了分析的成本,反应了企业存在的问题。为今后企业的发展方向与领导的决策提供了准确的数据依据。

摘要:本文介绍了运营分析系统及数据仓库的基本概念,系统软件平台的结构特点,特别重点阐述了数据仓库的多维度结构的模型,又简要描述了系统整体的设计思路。将整个系统从模型的建立到系统设计的实现有机地结合了起来。

关键词:数据分析系统,多维度模型,多维度查询与分析

参考文献

维吾尔药材数据仓库模型的研究 篇5

关键词:维吾尔药材,数据仓库设计,Microsoft SQL Server 2005

维吾尔族传统医药历史悠久,有独特而完整的传统理论,在治疗白癜风、牛皮癣、糖尿病、心血管病、骨伤科疾病等方面具有显著的疗效[1]。维吾尔医药材达1000多种,常用的800余种,制剂400余种[2]但与西方医药学、传统中医药学相比,维吾尔医药发展还存在着许多亟待解决的问题,如目前还没有依靠现代信息技术建立维吾尔医药数据库的描述,更加缺少利用计算机的分析功能来揭示维吾尔医药中存在的联系和规律。

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。目前,数据仓库技术已经广泛应用于各个领域,并已经进入中医药研究领域,取得了一定的研究效果[3],所以提出将数据仓库技术运用于维吾尔药研究,给出维吾尔药(以下简称维药)数据仓库模型的构建方法。尽管数据仓库的设计与数据库系统的设计相互区别,但考虑到它的设计过程仍然是需求驱动的,因此维药数据仓库的模型构建采用三层模型的结构。通过对需求的分析逐步建立概念模型、逻辑模型和物理模型,在这些模型建立的基础上,将维药数据通过抽取转换之后,导入到维药数据仓库之中,来分析其内在的联系和规律。

1 数据模型设计

1.1 概念模型设计

由于数据仓库的多维性,利用传统的数据流程图进行需求分析已不能满足需要[4]。采用在信息包图的平面上展开超立方体,信息包图的建立即为实现指标、维度和类别这三个对象的过程。

通过对维药数据仓库的分析,确定信息包图的三个对象分别为:(1)维度为药名维、药性维、矫正药维、药味维、性级维、功能维。(2)在每一个维度内定义类别,类别的详细定义如图1所示。(3)在维药数据仓库的概念设计中,指标为维吾尔药材。

1.2 逻辑模型设计

逻辑模型的实现即为按照上节所建立的信息包图,建立三个逻辑实体:维度实体、详细类别实体和指标实体的过程。首先定义指标实体,由信息包图中的指标对象转换生成,它位于星型图的中间,与每个相关维度的点对应。在星型图中,用矩形表示指标实体,维药数据仓库的指标实体是维吾尔药材。其次,定义维度实体,它是位于星型图星角上的实体,对应信息包图中的维度对象,作用是限制用户的查询结果,将数据过滤使其从指标实体返回较少的行,同时将主要指标数据进行聚合,从而缩小访问范围。在星型图中,用菱形表示维度实体。维药数据仓库中维度实体有药名、药性、矫正药、药味、性级、功能。最后,定义详细类别实体,对应信息包图中的详细类别对象。一个维度内的每个单元就是一个类别,代表该维度内的一个单独层次。在星型模型中,用结束符号表示详细类别实体。

建立的维药数据仓库的逻辑模型,如图2所示:

1.3 物理模型设计

物理模型是设计的逻辑模型在物理设备中的具体表现形式。首先把指标实体转换成事实表,其次包括星型图角上的维度实体中层次最低单位的主码。维度实体也转化维度表,包括其每一层次的主码和对应的值。维表和事实表通过维表的关键字相关联。视图的创建能够提高查询速度、方便用户理解数据,所以在维药数据仓库中创建的视图能够展示各个维度表中的属性,这样可以方便用户理解数据,因为这些数据不是单一存在的。按各个维度表的关键字和大多数外部关键字建立索引,维药数据仓库的索引采用主键索引。

1.4 数据仓库的粒度设计

如果粒度设计恰当,则数据仓库其他方面的设计和实现就较容易,它是体系结构设计环境成功的关键[4]。数据越详细,粒度越小,级别就越低;粒度越大,数据汇总级别就高。维药数据仓库的粒度设计,考虑到数据源的数据相对稳定,增长率很低,记录数基本上已经确定,所以应采用最小粒度原则。而且单粒度设计能够基本满足用户的决策,这也体现了数据仓库设计的一个重要原则。

2 数据立方体的建立

在建立的三级模型的基础上,利用Microsoft SQL Server 2005中的SQL Server Business Intelligence Development Studio组件建立六个维度表和一个立方体[5],六个维度表分别是药名维度、药味维度、性级维度、矫正药维度、药性维度、功能维度,药名维度是在药名维表的基础上建立的常规类型维度,分为中文名、维吾尔名、别名三个维度级别。药味维度是在药味维表的基础上建立的常规性维度,分为药味编号,药味两个维度级别。性级维度是在性级维表的基础上建立的常规性维度,分为性级编号,性级两个维度级别。药性维度是在药性维表的基础上建立的常规性维度,分为药性编号,药性两个维度级别。功能维度是在功能维表的基础上建立的常规性维度,分为药功能编号,(下转第43页)(上接第40页)

功能两个维度级别。矫正药维度是在药矫正药维表的基础上建立的常规性维度,分为矫正药编号,矫正药两个维度级别。最后在这六个维度建好的基础上,引入数据仓库的事实表维吾尔药材(Fact Uigur Medicine),构建维吾尔药材立方体,处理该立方体后得的立方体数据,如图3所示:

3 结束语

为了弘扬维吾尔医药的发展,不断扩大其影响,提高其防病治病能力,走向世界,造福于人类健康。使用数据仓库技术来分析维药,构建维药数据仓库体系结构,为数据挖掘应用于维药研究奠定基础。数据挖掘技术作为知识发现的强有力的工具,在中医药研究领域已经有了较好的应用[3]。维药数据仓库的构建为全面系统研究维药提供了强大的分析能力和智能化手段,为研究维药提供了科学依据,使维药管理更加系统化、规范化和科学化,为推动维吾尔医药发展的现代化、国际化奠定了基础,促进新疆民族医药研究的提升。

参考文献

[1]艾合买提,欧吾丽汗,斯拉甫,等.维吾尔药剂型研究进展[J].中国民族民间医药杂志,2000,47:325-326.

[2]裴凌鹏,赵军,黄秀兰.我国维吾尔族传统医药现状与知识产权保护途径思考[J].亚太传统医药,2009,5(1):1-4.

[3]吴荣,王阶.数据挖掘在中医药领域中的应用进展[J].辽宁中医杂志,2009,36(2):314-315.

[4]于戈,鲍玉斌,王大玲.数据仓库设计.机械工业出版社,2004.

数据仓库模型构建 篇6

要实现水利事业的可持续发展,建立国家级的水文数据中心就是其中的一个重要方面,做到水文数据的采集单位和科研单位等各方面的水文数据的规范化和一体化,成为水文信息共享的迫切需求[1]。但是,当前由于水文数据主要是为了各个部门的业务运营服务,来源不同,采集方法和加工方法也有别,缺乏统一的分类标准和信息编码方案,而且现在的信息处理主要以业务为主,数据使用完就会被丢弃,由于现在决策分析的需要,对历史数据的需求与日俱增,因此历史数据的存储和处理是目前研究的重点和难点[2]。

业务目标单一,数据源的异构,无法实现水文信息的共享,不能很好地支持综合决策分析,“数据丰富而知识贫乏”的局面已经出现[3]。然而激增的水文数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为了达到以上要求,需合并不同类型的水文数据,建立一体化的水文数据体系,为用户提供统一的数据视图。面向分析和决策支持的新一代水利业务应用的数据仓库技术已经兴起,并开始在水文领域得到广泛运用。在水文信息数据仓库的建设中,只有在成功实现水文信息的组织和抽取之后,水文在线分析处理(OLAP)和数据挖掘(DM)才能很好地发挥作用,从而建立水文领域行之有效的分析决策环境。

1 信息组织和水文信息组织

根据一定的原则和方法,对信息进行序化和优化,实现信息从散乱到有序的改变,以此来保证用户可以对信息的高效获取和应用的过程就是信息组织。信息组织属于管理的范畴,是信息资源管理的一个组成部分和特殊形式,是在漫长的信息化过程中诞生的。在人类社会的发展过程中,信息也逐步的积累起来,随着信息量的巨增,自然而然地出现了专门研究怎么来组织信息的学科,而这门学科主要的研究目的就是运用一定的方法和手段组织这些海量信息,方便用户能够按照自己的需求快速地获得所需的信息。

根据信息组织的定义,水文信息组织即对采集的水文信息进行分类,序化和优化的过程。目前水文信息组织主要有两种不同的方式,一种是国内为方便面向特定应用的系统开发依据《水文年鉴》进行组织的,另一种是美国的“原始化”数据存储,即采集到的什么数据就存贮什么样的数据。两种方式有各自的优势,也有不足。国内的这种从工程视角进行的信息组织能很好地适应特定应用系统,但是这样的信息组织方式不可避免地会造成信息的损失,且水文数据分散于各个部门中,没有形成完整的数据体系,不利于面向多种主题的在线分析和数据挖掘应用。美国的 “原始化”的数据存储的好处是能最大限度地保留采集到的数据中所包含的水文信息[4],但是,这样的存储方式带来的弊端就是它不针对具体的主题分析组织数据,这样的数据很难适用于特定的业务分析,往往要花很大的代价提取应用分析所需的数据。近些年来,欧洲的对水文信息组织就相对合理,兼顾了两种不同的组织方式,一方面它发布类似美国的统一的数字化水文数据产品,另一方面它也提供不同主题的水文数据产品,能较好地满足特定应用分析的需求,但面对主题化的分析型应用时,仍存在信息组织比较复杂的问题。长江水利委员会水文局采用“虚拟化”技术,以支持水文信息的综合性、主题化应用为目的,设计并开发了水文信息资源统一组织平台[5]。随着水文主题化业务的增加,越来越多的水文工作者提出了面向主题的水文信息组织。李剑锋[6]对多源水文信息组织进行了研究,对水文信息的组织同样采取了面向主题的策略;牟萍[7]从水文循环过程的角度出发,研究了水文信息的组织模式。陈德清[8]利用数据仓库技术,设计了水文数据仓库的总体结构。

2 数据仓库技术

2.1 数据仓库的定义

在数据仓库的发展过程中,许多人对此做出了贡献,虽然有许多不同的说法,但公认的数据仓库之父W.H.Inmon给数据仓库下的定义为:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2.2 数据仓库的特点

(1)面向主题的;(2)集成的;(3)相对稳定性;(4)反映历史变化的。

2.3 数据仓库的体系结构

从数据仓库的概念结构看,数据仓库可以分为以下几个层次:数据源、数据准备区、数据仓库数据库、数据集市、数据访问和知识决策分析。数据仓库在创建以后,首先要从数据源中抽取所需要的数据,经过抽取、清洗、转换和装载之后,再加载到数据仓库数据库中,最后根据用户的需求发布到数据集市/知识挖掘中。当用户使用数据仓库时,可以通过在线分析处理等数据仓库应用工具向数据集市、知识挖掘进行决策查询分析和知识挖掘。如图1所示。

3 水文信息组织数据仓库模型的构建

3.1 构建目标

由于面向的是水利系统用户, 除了要向单位管理者提供各部门业务流程和运营状况等需求信息外,还应该将洪水演进、水利资源配置以及各相关设备的运行状况信息提供给管理者, 以帮助他们在关键时刻能迅速做出正确决策。

数据仓库不同于以往的数据库,它是在数据库的基础上发展而来的,但是两者在许多方面都存在着相当大的差异。数据库中数据的目标是面向业务操作人员,提供事物处理的支持,而数据仓库则是面向中高层管理人员,提供决策支持。因此,支持水文信息组织的数据仓库模型必须具备以下特征:(1)水文信息数据的主题性;(2)水文信息数据的集成性;(3)水文信息数据的不可更新性;(4)水文信息数据的时变性。

3.2 水文信息数据组织模型

如图2所示,水文信息数据仓库中的数据分为四个等级:早期细节级,当前细节级,轻度综合级,高度综合级。早期的数据进入数据仓库后经过抽取,筛选和清理,使之成为高度综合级的数据。

3.2.1 概念设计

在概念上建立数据模型,确定如何组建数据及数据之间的相互关系,以满足业务应用的需要。作为建立模型的初级阶段,概念模型主要描述与业务有关的重要实体以及相互之间的关系,本文采用信息包图来设计概念模型。信息包图由粒度,维度,事实组成,采用二维表的形式反应用户使用数据仓库进行多维分析处理的需求,涉及到所要回答的基本决策问题。如图3所示,信息包图主要提供了用户要求的一下相关联的数据。

(1)不同流域,不同时间的水位,流量,降水量,含沙量大小的分析与比较。

(2)分析不同维度的最大,最小以及平均值。

(3)预测将来同一时刻的该维度的大小。

3.2.2 逻辑模型设计

逻辑模型是通用的数据模型,它的典型产品是实体关系图,用于描述现实世界中的实体和实体间的关系,在建立了完整的信息包图表后,接下来要将信息包表转换成星形图,根据转换的原则,星型图主要包括以下的三个主要实体。

(1)指标实体:

即指明用户查询活动的主题内容,它代表一系列相关的事实。

(2)维度实体:

通常把一系列相关事实的多个属性定义为多个维,使用户能对不同维上的数据进行比较。

(3)类别实体:

类别实体通常可以转化为一个数据库表,与现实世界的实体对应,图4即为转换相对应的星型图。

水文信息主要包括:

水文要素维={水文要素值,水文要素值的取值范围,水文要素维的描述}

空间维={维度、经度、海拔和地区区域}

时间维={年、月、日、时、分}

度量属性={汇总、合计、均值、方差}

经上述方法组织的水文数据是动态可变的,根据不同预报模型的分析需求,采取不同的数据分析方式。例如要做中长期水文预报,就要将数据在不同层次的时间维度上作深入分析,寻找相关的合适因子,建立相应的回归分析方程并进行分析;如果要预报河道洪水,就应对水位、流量等在空间维度上的变化情况,以及河流上下游间的水位、流量相关关系等分析;如果是预报径流过程则更为复杂,需要全面分析流域的属性等情况,并得到相关的模型计算参数,从而代入模型进行计算和验证。

4 实验验证

经过上述的主题建模分析,得到了基于星型模型的数据组织模式。本实验以“石羊河”流域为例进行说明,如表1和图5所示。在原有的水文数据库中根据水文预报的主题抽取出分析数据,以证明本文提出的数据抽取方案切实可行。

通过以上星型模型的建立,水文预报主题数据得到了很好地组织。该数据组织模式可以方便地进行各种分析和处理,在此星型数据组织结构基础上,通过Microsoft SQL Server 2005和Office Web组件可以很方便地实现水文预报主题数据的上卷、下钻、切片和数据的插补等分析应用,并为预报人员和决策者提供多角度和全方位的信息。

5 结束语

本文提出一种新的支持水文信息组织的数据模式,经过结构设计、模型构造后,初步得到了支持水文信息组织数据仓库的数据仓库模型。在建立初步的模型之后,就可以进入开发以及试运行数据仓库的阶段。在以后的工作中,会对现有的模型进行完善和修改,并尽可能地符合实际,为水利运营者提供综合的决策服务。

摘要:分散的水文数据之间交互性差的缺点造成各独立数据源成为“信息孤岛”问题,文中就水文信息本身固有的特性进行组织,探讨建立支持水文信息组织数据仓库的模型,最后以“石羊河”流域为例,验证了模型的可用性。为数据仓库的联机分析处理和数据挖掘奠定了基础。

关键词:水文信息组织,数据仓库,模型

参考文献

[1]寇继红.水利网络信息资源组织模式研究[D].武汉大学,2005.

[2]杨明.水文信息共享的应用研究[J].东北水利水电,2009(11):41-43.

[3]范敏,岳延兵.浅析水文信息孤岛及对策[J].水利发展研究,2010(4):57-60.

[4]牛玉国,寇怀忠.美加澳法——水文信息如何共享[N].地质勘察导报,2007-01-18.

[5]陈雅莉,马勤,陈春华.虚拟化自治多源异构水文信息资源组织研究[J].水文,2010,10(5):12-15.

[6]李剑锋.多源水文信息的组织及应用研究[D].南京:河海大学,2010.

[7]牟萍.基于水文循环过程的信息特征及组织模式研究[D].南京:河海大学,2012.

数据仓库模型构建 篇7

21世纪是国家全面推进学生素质培养的时期, 计算机专业课既具有较强的理论性, 又具有较深的实践性。目前, 计算机专业的教学过程中往往理论教育与实际脱节, 很多学生通过了专业理论课的考试, 却不能将理论付诸于实践, 学生对课程知识并没有深刻的理解和消化, 对课程理论的实际应用没有感观上的体验。经调查显示, 60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大, 这给学生学习计算机理论的积极性带来了消极的影响, 更有很多学生热衷于参加社会上的计算机培训机构, 放弃在高校的课程学习。因此, 在培养学生的理论创新能力的同时, 提高学生的动手操作能力, 加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。

随着信息技术和网络技术的快速发展, 在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识, 对其进行自动分析和汇总, 是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要, 进入到高校计算机教育的专业课课程列表中。

本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上, 采用B/S (Browser/Server) 架构, 即浏览器/服务器架构, 开发了web课程教学实验平台。

二、数据仓库与数据挖掘学科教学现状

随着数据仓库与数据挖掘课程在各大高校成功试教后, 近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程, 时至今日, 其课堂理论教学已经比较成熟。然而, 绝大多数学生在经过该课程的学习后, 普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识, 却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展, 缺乏一个符合以下特点的教学实验平台。

市场中通用数据仓库和数据挖掘软件昂贵且难以使用, 大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台, 并非大型企业应用软件, 只要学生能通过它更简易地完成该课程的实验环节即可。

1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣, 让学生更直观的参与到教学活动中来, 而不是苦恼于如何使用该平台完成实验。

2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台, 还应该是一个可以和学生及老师有交互性的平台, 并且使学生和学生有交互性, 老师和学生有交互性[2]。

3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件, 而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重, 这才是计算机专业教育的核心。

4.拥有合理和充足的实验数据。对于一个实验平台来说, 数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域, 数据不仅要足够的多而且要合理, 否则会严重影响实验结果和教学效果。

三、数据仓库与数据挖掘学科教学实验平台的构建

为适应教育发展需要, 秉承深化教学改革的方针, 改革数据仓库和数据挖掘课程原有的普通教学模式, 启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境, 由远程开放实验平台服务器和终端PC机组成, 其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地, 具有操作稳定性、鲁棒性和容错性。通过该实验教学平台, 学生对该课程的学习过程将不受场地限制, 只要通过网络就可以登录该平台。该平台主要框架如图1所示。

1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能, 超级管理员可以为普通学生用户分配权限。

2.实验平台模块给学生提供了算法模拟和试验的平台, 主要分为以下两个部分。

(1) 数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。

(2) 数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。

维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。

3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务, 也包含数据仓库环境的具体安装和配置视频演示。

4.作业提交模块更是改变了传统的提交纸质作业的模式, 让学生将动手完成的实验和相关作业通过该平台提交, 一个学生一个账户, 避免了作业抄袭和拷贝。学生提交的作业只要运行正确, 按题目要求编程, 不论采用何种语言或者何种算法都是可以的, 并没有唯一性的标准答案。当实验课程考核的时候, 学生能够通过作业提交系统向服务器提交指定课程内容的作业, 供教师在线评阅和打分。

5.教学资源下载提供给学生自学的资料, 给感兴趣的学生提供了进一步学习的捷径。

6.当有学生对实验环节和该课程有任何疑问, 都可以登录在线答疑系统, 给授课老师留言, 这些信息都会以邮件的形式发送到授课老师的收件箱, 从而实现即时的答复, 让学生在第一时间接受老师的指导。当有问题重复出现三次以上, 系统就会自动识别, 将问题和答复展示在FAQ中, 提供给更多的学生共享该问题和该问题的解答, 避免重复提问, 也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。

7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器, 能够对学生提交的各种代码进行实时编译, 给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等, 给学生提供多样化的语言实现方式, 体现了非机械化的计算机应试理念。

四、数据仓库与数据挖掘学科教学实验平台的教学效果

在数据仓库和数据挖掘课程中使用该教学实验平台, 具有教育的先进性和优越性。

(一) 建设了数据仓库和数据挖掘课程的实验教学体系

1. 数据仓库和数据挖掘模型。

本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等, 还可以增加学生对各类重要挖掘算法的特点和应用场景的理解, 让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。

2. 模型评估。

当学生创建完毕自己的数据仓库和数据挖掘模型后, 可以通过调整不同的参数值和更改数据集来检验算法的输出结果, 并通过记录在不同的应用场景下的参数值和结果值得到最优值。

3. 优化创建模型和算法的性能。

学生通过使用计算机领域中的一些经典优化技术, 如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能, 并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。

4. 定期对学生所学实验内容进行测试, 根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。

(二) 部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境

本项目通过构建基于网络技术的远程实验教学平台, 不仅给学生和教师提供这样一个教学实验平台, 而且还实现了实验教学的网上开放式管理, 改革原有相对封闭的实验教学模式为开放的实验教学模式, 构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。

(三) 基于采样评估证明了远程网络实验教学的可行性和优越性

根据采样评估结果, 该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前, 我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习, A组学生使用现有的课程教学方法, 而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后, 对他们进行了问卷调查和统计, 结果如图2所示。

从图2的数据结果可以看到, 无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估, 使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体, 用所学知识发挥创造性思维进行实践。当实验取得结果时, 不论结果成功与否, 都能带给学生一定的鼓励, 从而在某种程度上激发学生的创造力和积极性, 真正加速问题解决和理论创新。因此, 我们有理由相信该平台的使用可以极大地提高学生的学习兴趣, 促进教学目标的实现。

五、结论

在计算机专业的教学中, 如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构, 展示了该平台的优点, 证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合, 为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性, 更有效地利用现有的社会资源和计算机技术为我们的教育服务, 专业学科教学模式和方法才能不断推陈出新, 不断进步和发展。

参考文献

[1]Jiawei Han, Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press, 2007:10-12

上一篇:移情教学法下一篇:供应链需求不确定性