高校档案数据仓库设计

2024-07-31

高校档案数据仓库设计（共6篇）

高校档案数据仓库设计篇1

摘要：利用数据仓库技术对高校长期积累的教学管理数据进行存储, 并运用OLAP技术对学生成绩数据和学生就业数据采样分析, 帮助管理者了解影响学生成绩的原因, 了解用人单位需要什么样素质的学生, 以便及时发现教学中存在的问题, 调整教学计划, 提高教学质量。

关键词：数据仓库,教学管理,OLAP

目前高校学生成绩管理系统多使用的是传统的数据库系统, 即联机事务处理系统。能够对学生各类课程成绩进行有效的管理。系统实现了数据信息化管理, 数据查询和简单的统计功能。随着高校招生规模的扩大, 以及教学管理要求的提高, 教学管理者对教学工作趋势的预测以及教学管理方针制定方面越来越依赖于对大量信息分析的结果。原来的联机事物处理系统已经不能满足工作需要。例如相同课程采用不同的考核方式, 对学生的成绩有什么影响;同一课程不同班级的成绩有多少差距;什么样素质的学生就业前景好等等。这些问题都是现有系统不能很好问答的。而基于数据仓库技术的高校OLAP (On Line Analytical Procoss) 分析系统将来自相关数据库的信息进行集成, 从事务的历史和发展的角度组织和存储数据, 供管理人员进行数据分析, 提供定量的和准确的数据, 更好地辅助决策。

1 数据仓库和联机分析处理 (OLAP)

1.1 数据仓库的概念

20世纪80年代中期, W·H·Inmon在其所著的《Building the Data Warehouse》一书中是这样定义数据仓库的:数据仓库是面向主题的、集成的、相对稳定的、时变的、用于支持决策过程的数据集合。数据仓库是把所获数据进行有效的集成, 服务于决策。数据仓库中数据以三种状态存在, 即数据源数据、数据仓库维数据和用户端数据三种状态, 其逻辑关系为:源数据经ETL (数据抽取、清洗、转换和加载) 工具进入数据仓库物理地址中, 并以数据维的形式存在, 然后经OLAP工具转换为用户端数据, 供用户决策分析使用。

1.2 OLAP

联机分析处理 (Online Analytical Proce ssing, 简称OLAP) 的概念是由E.F.Codd于1993年首次提出的。当时, 他认为联机事务处理 (OLTP) 已不能满足终端用户对数据库的分析式查询需求, 因此提出了多维数据库和多维分析的概念, 即OLAP, 并将OLAP定义为针对特定问题的联机数据访问和分析。通过对信息 (这些信息已经从原始的数据进行了转换, 以反映用户所能理解的企业的真实的“维”) 的很多种可能的观察形式进行快速、稳定、一致和交互性的存取, 允许管理决策人员对数据进行深入观察。

2 高校OLAP系统的建立

2.1 OLAP系统的体系结构

OLAP的体系结构采用3层体系结构, 即数据仓库服务器、应用服务器 (OLAP) 、客户查询分析 (前端工具) 。体系结构如图1所示。体系结构图底层是数据仓库服务器。它使用网间连接程序由操作数据库和外部数据源提取数据, 允许客户程序产生SQL代码, 在服务器上执行。网间连接程序包括ODBC (开放数据库连接) OLE-DB (数据库开放链接和嵌入) 、JDBC (Java数据库连接) 。中间层是OLAP服务器。对分析需要的数据进行有效集成, 按多维模型予以阻止, 一边进行多角度、多层次的分析, 并发现趋势。顶层是面向用户的前端界面, 采用M S的Pivot2Table作为数据调用的管道。通过Pivo t Table接口技术可以链接其他分析工具、图形工具、报表生成器、挖掘工具等, 更好地将分析结果展现给用户。

2.2 维度设计

维度表和事实表的设计是数据仓库构建的关键问题, 维表和事实表设计的好坏直接影响到数据仓库的响应时间和分析效果。维是决策者观察分析对象的角度, 所以维的设计最能反映决策者的分析意图和角度。他必须体现出数据仓库中数据的不同级别, 也就是数据的粒度。

教学管理系统中对于教学管理人员最主要的需求在于提高教学质量。主要是教师的教学效果情况和学生的学习成绩和毕业生的就业情况。根据对教学管理的业务分析, 主题基本定为学生成绩和就业情况。系统按不同的分析主题组织事实表和维度表, 采用星型模式来链接维度表和事实表。

(1) 分析学生成绩。学生成绩管理是教学管理中最重要的部分, 管理人员期望在数据仓库中通过对学生成绩分析, 了解什么样的学生成绩好、什么样的教师教学质量高, 哪个班或是哪个专业的学生学习好, 什么样的教学安排有利于学习, 以及学生同往界相比趋势如何等。

成绩分析的事实表和维表的属性如下。

学生成绩事实表:学号, 课程编号, 教师编号, 考试时间, 考试性质, 成绩。

学生维表:学号, 学生姓名, 性别, 出生年月, 专业, 班级, 生源地。

教师维表:编号, 姓名, 性别, 出生年月, 职称, 所属部门, 最高学历。

课程信息维表:课程编号, 课程名称, 课程性质。

时间维表:学年, 学期。

(2) 分析学生就业情况。当今高校毕业生就业形势严峻, 了解本校学生的就业情况成了教学管理的很重要的一环。通过分析学生就业情况, 可以了解学院院系专业的设置是否符合社会的需求, 了解学生哪些素质能够找到好工作, 学生的学习成绩、工作经验对就业率的影响, 据此可对专业以及培养计划做适当的调整。

事实表和维表属性如下。

就业事实表:学号, 就业时间, 专业代号, 工作地, 单位代号。

学生素质维表:学号, 姓名, 外语水平, 计算机等级, 社会实践, 表达能力, 组织能力, 创新能力, 大学生竞赛, 体质状况, 体育状况, 学位证。

学生维表:学号, 姓名, 性别, 出生日期, 籍贯, 生源地, 外语语种, 学院, 专业, 班级。

单位维表:单位代号, 单位名称, 单位性质, 主要业务, 固定资产, 平均工资。

地区维表:地点, 省, 市, 县, 乡, 村。

学生成绩维表:学号, 姓名, 课程, 成绩。

2.3 创建多维数据集

在Analysis Manager中按照学生信息的星形模型, 创建多维数据集ROLAP, 数据源是OLAP将要分析的数据来源。在这里, 指定的数据源是前面创建数据仓库时创建的数据库。本多维数据集的度量值取学生平均成绩和平均工资。存储并处理多维数据集, 然后可以对多维数据集的数据切片、切块、钻探查询、分析。这样, 领导可以快速、全方位掌握本校学生的全面信息, 从而为制定教学计划提供决策支持。

2.4 数据展现

经过OLAP系统分析得到的结果展现给用户的方式很多。第一, 数据处理后形成的多维立方体可以用SQLServer中的A nalysis M anager的工具显示。其次, 也可通过Excel的数据透视表把多维数据集的数据直接展现到前端, 并制作报表以及图表。同时也可以将数据透视表添加到网页当中, 然后以交互的方式浏览, 实现Web下的数据仓库浏览。其他的前端分析工具包括:BO (Business Object) 、Brio Query和Cognos Impromptu等前端在线分析工具。另外, 还可根据用户要求编程定制客户界面, 通过数据接口链接到数据仓库中, 实现更加灵活的数据展现方式。

3 结语

目前各高校基本都有自己的教学管理业务系统, 但是把数据仓库和OLAP技术引入到教育领域的先例还不多。数据仓库构建是一个复杂的过程, 高校可以根据自己的实际情况, 选择合适的数据仓库解决方案, 按计划实施建立自己的数据仓库和OLAP系统, 分析长期积累的教学数据, 为教学管理提供决策支持, 提高教学质量。

参考文献

[1]张旭波, 屈展, 李小刚.高校图书馆管理的数据仓库技术研究[J].西安石油大学学报, 2004, 19 (2) :71～73.

[2]张小平, 马垣, 于淼.数据仓库在高校教务系统的应用研究[J].鞍山师范学院学报, 2003, 5 (2) :83, 841.

[3]王柏林.数据仓库技术在教育领域中的应用[J].电脑开发与应用, 2003 (4) :50, 631.

[4]杨晓文, 韩燮.学生成绩分析数据仓库的模型设计及实现[J].山西电子技术, 2005 (1) .

高校档案数据仓库设计篇2

1.1 数据仓库

数据仓库是一个用以更好地支持企业或组织决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。

数据仓库系统是一个信息提供平台, 他从业务处理系统获得数据, 主要以星型模型和雪花模型进行数据组织, 并为用户提供各种手段从数据中获取信息和知识。整个数据仓库系统是一个包含4个层次的体系结构, 具体由图1所示:

1.2 联机分析处理 (OLAP)

联机分析处理是针对特定问题的联机数据访问和分析。可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理, 并且以直观易懂的形式允许决策者对数据进行深入观察。OLAP采用一种多用户的3层客户机/服务器结构, 如图2所示。第1层为客户机, 实现最终用户功能, 能够方便地浏览数据仓库中的数据, 能够生成立方体, 为决策者实施决策提供决策支持。第2层为OLAP服务器, 集中存放应用逻辑和综合数据, 提供高效的数据存取。第3层是企业服务器, 存储数据仓库中的细节数据。

2 基于高校就业信息OLAP系统设计

2.1 多维数据模型的建立

高校就业信息主要包括学生基本信息、专业信息、地区信息、单位信息4个多维数据和就业信息事实表组成。事实表和维表属性如图3所示:

在就业信息管理数据仓库中的事实表和维度表的数据仍然是以二维表的形式存储, 要想对大量的数据从各个角度进行综合分析, 就必须利用OLAP工具对这些数据进行多维分析, 建立多维数据模型, 可以更加直观的表示现实中的复杂关系。

2.2 多维数据模型上的OLAP操作

OLAP是利用存储在数据仓库中的数据, 根据用户提出的问题或假设, 去进行各种分析操作, 并以较为直观易懂的形式将结果返回给用户。OLAP要求在逻辑上采用多维的方式来组织和处理数据, 以多维方式显示和分析数据。

OLAP基本分析方法是:切片、切块、钻取和旋转。其中在多维数据结构中, 按二维进行切片, 切出一“平面”, 按三维进行切块, 切出一“立方体”, 可得到所需要的数据。钻取包含向下钻取和向上钻取操作, 钻取的深度与维所划分的层次相对应。而旋转则是通过旋转得到不同视角的数据。

在就业数据分析、决策过程中, 决策者需要的数据往往不是某一指标的单一值, 他们希望能从多个角度观察某一指标或多个指标的值, 并且找出这些指标之间的联系, 比如, 决策者想知道“A学院 (系) 所属专业就业情况 (使用率、完好率、故障率、维修率等) 和B学院所属专业就业情况的对比”, 这就需要对某一院系在“专业”维度上分析数据, 通过比较不同专业就业情况, 及时掌握整个学校的就业情况, 适当调整专业设置 (专业培养方向、目标) , 并对学院的就业情况做出科学预测, 制定正确方案, 推动学校教学发展。

为了具体了解多维数据集中的详细数据, 方便决策者灵活方便的分析, 决策者可向OLAP服务器提交对数据的各种多维分析请求, 如上卷、下钻、旋转等操作, 以获得从不同侧面、不同层次获取有用信息, 从而作出相应的决策。比如, 在已知现有各个专业年就业率的情况下, 决策者需要了解每月个院系的就业率, 就需要采取在“时间”维度上的下钻操作, 反之, 进行逆操作就是上卷的操作。

学校决策者通过OLAP服务器, 将这些数据抽取和转换为多维数据结构, 以反映用户所能理解的就业数据的真实的维。通过多维分析工具对信息的多个角度、多个侧面进行快速、一致和交互的存取, 从而使就业指导人员、个院系领导和学校领导能够对数据进行深入地分析和观察。

3 结束语

通过对高校就业信息管理系统产生数据建立数据仓库, 分析了面向高校就业信息管理的数据仓库, 描述了高校就业信息管理数据仓库的建模方法, 根据决策需要, 构建了多维数据集, 用户最终通过OLAP前端工具对数据进行OLAP分析, 使决策者能以一致的界面快速地从各个角度观察, 分析数据。从而使高校就业管理部门全面掌握毕业生就业信息, 为学校发展做出科学决策。

摘要：结合数据仓库的相关概念进行了分析、介绍高校就业管理OLAP系统设计, 通过OLAP工具分析了其多维数据, 使决策者能以快速地从各个角度分析数据, 为学校作出科学的决策提供了辅助支持。

关键词：高校就业,数据仓库,OLAP

参考文献

[1]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社, 2002.

[2]张小平, 马垣, 于淼.数据仓库在高校教务系统的应用研究[J].鞍山师范学院学报, 2003 (2) .

[3]雷松泽, 李文轩.基于数据仓库的高校OLAP系统设计[J].现代电子技术, 2005 (20) .

[4]颜石专, 李战怀.基于数据仓库和OLAP的商务决策系统[J].微电子学与计算机, 2006 (2) .

数据仓库在档案信息化中的应用篇3

1.1档案信息化简介。随着近年来信息化技术的突飞猛进, 利用信息化的方式的管理成千上万的纸质档案已成为未来档案管理发展的趋势。想要最大程度的发挥档案的价值与作用, 只有通过信息化手段, 将纸质档案转化为档案信息, 并将这些档案信息储存在数据库中进行利用。

1.2数据仓库简介。数据仓库, 英文名称为Data Warehouse, 数据仓库技术源自于1980 年代中期, 它是单个数据存储, 出于分析性报告和决策支持目的而创建的, 是为企业所有级别的决策制定过程, 提供所有类型数据支持的战略集合, 提供指导业务流程改进、监视时间、成本、质量以及控制[1,2]。

1.3 数据仓库与数据库的区别。数据仓库与数据库都是用来管理数据, 于他们所服务的目标不同, 所以存在一定的区别:

1.3.1在数据库的大小上, 因为数据仓库中的数据通常包含一些历史的数据信息, 数据仓库相比于数据库的容量, 要大的多。

1.3.2 数据库的作用是用来存储数据, 通常表现如软件系统, 其面向事务, 不利于分析和挖掘;而数据仓库却是面向主题、面向事务处理任务的, 利于挖掘和分析。

1.3.3从存储内容上来看, 数据库只存储临时性或者说短期的杂乱的数据;而数据仓库中存放的是历史的、集成的、有主题的、有规章的、易于计算的数据。

1.3.4从访问频率上来看, 数据仓库的访问频率较低, 但访问数据量大;而数据库的访问频率高, 然而访问数据量却很少。

1.3.5从响应时间上来看, 数据库的要求很高, 一般以秒为计量单位;而数据仓库的响应时间则很长, 有可能会达到几小时之久[3,4]。

二、档案信息数据仓库的建立和应用

2.1档案信息数据仓库建立流程

2.1.1 档案应用需求分析。在档案利用的过程中, 如果决策人的要求比较复杂, 需要对大量数据进行综合处理才能获得, 或者难以由现有的数据库系统分析获得所需信息, 那就有需要采用数据仓库技术来进行管理分析。

2.1.2 档案数据采集。在档案信息化的过程中, 档案中存有着大量的、各种类型的数据信息, 这些数据因为构造不同, 难以进行统一的管理。这时需要通过数据采集技术来将这些数据进行汇总、转换、整理, 进而可以统一地存储到数据仓库中。

2.2 档案信息数据仓库系统。档案信息数据仓库系统的核心是档案数据仓库, 通过查询和分析工具完成对信息的调阅并分析, 以满足用户的需求。档案信息数据仓库系统可以分为三个部门, 其一是档案数据仓库、其二是仓库管理工具、其三是查询分析工具。

2.2.1数据源档案数据的数据源一般由多种形式和格式组成, 如图片格式 (JPG、JPGE、GIF等格式) 、文本格式 (TXT、DOCX、DOC、等格式) 、压缩格式 (ZIP、RAR等格式) 此外还有音频、视频等格式的数据, 这些文件是档案信息数据的基础。

2.2.2仓库管理。在数据仓库已经确定好其作用和需求之后, 第一步是进行数据的建模, 将数据进行整理和转换;第二步是划定维数及确定档案信息存储结构[5]。

仓库管理就是对这些数据进行备份、归档、恢复、维护等工作, 保障数据的安全, 而这些工作需要用到的就是数据库管理系统。

2.2.3分析工具。数据分析工具包括优化查询工具、OLAP查询分析工具、C./S工具、数据开采工具等。只有使用这些分析工具, 才能更好地利用档案信息, 实现管理和决策支持的功能。

三、结论

随着档案信息化的不断发展, 如何有效的存储管理呈几何倍数递增的档案数据, 成为了档案信息管理发展过的瓶颈。利用数据仓库技术进行档案信息管理, 是档案信息化领域中一个全新的方式, 利用好该技术来整合数据、管理数据。

参考文献

[1]钱毅.数据仓库在档案信息管理中的应用[J].北京档案, 2006 (4) .

[2]李晓蓉, 张玉青.数据仓库技术在供水档案信息管理中的应用[J].云南档案, 2009 (9) .

[3]卞昭玲, 赵文博, 谢海洋.数据仓库技术与数字档案馆建设[J].兰台世界, 2010 (10) .

[4]北京市丰台区档案局 (馆) 课题组, 档案馆馆藏资料的科学管理[J].北京档案, 2006.

高校档案数据仓库设计篇4

一、高校数字档案馆的资源现状

高校建立数字档案馆的目标是提高档案馆工作效率和现代化水平, 确保数字档案永久存储与安全保管, 促进高校档案服务能力拓展和实现高校档案信息资源的共享。高校档案资源的内涵相当丰富, 大致分类有行政管理类、教学类、科研类、基本建设类、财会类和出版物类。虽然高校的档案管理部门已经建立了较为完备的档案管理系统, 但是面对大量的内容丰富的档案资源如何进行有效整合和利用则成为档案工作者面临的难题。目前很多高校的档案部门所处理的档案资源还停留在行政办公类的文件上, 即将学校各部门在行政办公中形成的纸质文件通过档案管理系统进行数字化录入, 形成相应的文献类数据库, 而学校的教学科研类资源则分散在学校的有关部门和院系中, 而且许多职能部门和院系都会或多或少地建有不同标准不同类型的资源管理数据库。比如教务处可能为了方便管理多媒体教学课件而建立了相应的课件资源管理数据库;教育技术中心则针对大量的声像档案资源而建立了专门的声像档案管理数据库;科研处建立了科研成果档案数据库等。这些数据库彼此标准不统一, 数据结构封闭, 形成了档案资源的“信息孤岛”, 降低了档案资源的利用率, 违背了建设数字档案馆的目标。随着数字档案馆的建设以及不同标准不同种类的档案资源数据库的建立, 为了消除不同档案资源系统自身的分布性和异构性, 实现异构档案子系统间的信息共享, 必须对已有的档案数据进行整合。数据整合就是对异构资源系统 (各部门的自有数据库) 中的异质、异类的数据在逻辑和物理上进行收集、整理、清洗, 转换后按照一个统一的标准加载到一个新的数据源, 为数据消费者提供统一数据视图的数据集成方式, 以解决多种异构数据资源的互联和共享。数据整合的方式有两种, 即采用数据仓库技术的整合和基于中介模式的整合。下面将着重阐述数据仓库技术在档案资源整合中的应用。

二、数据仓库的含义和体系结构

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合, 用于支持管理决策。数据仓库的定义揭示了三层含义:首先, 数据仓库是一种数据资源集合与整合的工具与方法;其次, 数据仓库不是一般意义上的数据库, 它是对各种异构数据库中数据源的集成和整合, 数据仓库的数据源来自于各个专业数据库, 是在原有数据库的基础上对数据进行加工和集成;最后, 数据仓库的目的是面向决策支持, 保证查询和分析的实时性。

数据仓库的体系结构由不同的层次构成, 一个完整的数据仓库体系结构通常由五个层次构成, 各层的基本功能如下: (1) 数据源层, 就是数据仓库的数据来源。一个数据仓库可以有多个数据源, 这些数据源来自于不同的异构数据库, 有着不同的数据结构类型, 可以是关系数据库, 如DB2、Oracle等, 也可以是各种数据文件, 如Excel、Word、Lotus以及HTML、XML等文件格式, 这些异构数据库通常分布在网络中, 数据仓库通过彼此相连的网络接口获取到这些数据库中的数据。 (2) 数据源处理层, 也称为元数据抽取创建层, 它是对来自于各个异构数据库中的数据源按照一定的标准和格式进行提取、清洗、转换, 最终构建成数据仓库所需的数据。 (3) 数据仓库管理层, 该层主要是对数据仓库的管理和支持, 进行数据管理和元数据管理。数据仓库的数据管理包括负责存储分析、决策数据, 元数据管理负责对元数据进行管理。元数据描述了数据仓库的数据和存储环境, 数据仓库设计运行、维护与使用的基本参数, 是整个数据仓库的核心。 (4) 数据仓库的构建层, 这层里主要将来自异构数据源的数据经过转换与进化后向元数据库进行转移和加载, 创建数据仓库。 (5) 应用层, 该层是基于数据仓库的应用, 包括分析、决策应用, 如OLAP、数据挖掘等。

三、数据仓库在档案资源中的整合

通过对高校档案信息资源的分析, 我们知道要想实现档案资源合理化和高效化, 首先得对档案数据资源进行数据整合, 而档案馆的数据资源往往存在于各个不同结构甚至是不同地点的数据库中, 如人事档案数据库、论文档案数据库以及各种专业数据库, 从上一节介绍的数据仓库的含义和体系结构中, 我们不难发现数据仓库技术是一种可以用来针对档案馆的资源现状而采用的数据整合方式, 它通过对异地、异构的数据源或者数据库的信息进行抽取、解析、净化、转换、过滤、整合, 使分散的、不一致的数据转换成公共数据模型集成到数据仓库中, 用户通过对本地数据库的访问实现多个异构数据库的一次性检索。档案馆数据整合后的数据库通常是建在档案馆内, 由于学校档案馆面临着学校各部门不同门类不同专业的档案管理数据库, 这些数据库通常是分散的, 档案数据整合的目的是要求整合后的数据库既可以提供一个单一、透明的档案数据使用环境, 查询快, 效率高, 同时又要保证各部门的自身档案数据库彼此独立地为各部门的日常档案管理服务, 而数据仓库的特点是数据物理的集成于本地, 集成数据和操作型数据相分离, 原来分散的数据库系统仍然独立提供服务, 所以数据仓库技术可以用来实现档案馆的数据资源整合。

数字档案馆的数据资料来源通常分为馆内和馆外两种:馆内数据资源指的是档案馆的工作人员将归档的文件材料录入到档案管理系统中, 构建成本馆自有的档案数据库;馆外数据资源指的是学校各部门和院系在行政、教学、科研工作中建立的各种特色档案数据库, 如人事档案数据库、论文档案数据库、科研成果数据库、多媒体资料数据库等。对于馆内数据资源, 由于档案数据库是档案馆自建的, 所以可以进行数据整合;馆外数据库通常是各部门根据自身特点所自建的特色档案管理数据库, 虽然数据标准与馆内数据库不一致, 但是由于标准公开、代码透明, 所以数据源也可以操作。

在分析了档案馆数据资源的类别以及数据仓库技术的特点后, 我们设计了引入数据仓库技术后的档案数据资源整合结构图。我们将档案馆的数据库资源大致分为两类, 即馆内自建档案数据库和馆外各部门自建档案数据库。这两类数据库组成了数据仓库整合的第一层, 即数据源层。

采用数据仓库技术使得档案馆可以构建一个统一的档案管理查询服务平台和决策服务平台, 统一查询服务平台涉及学校各部门各院系不同类别不同功能的档案资源, 用户可以在该平台下同时对学校的所有档案资源进行检索, 获取到想要的信息, 而且信息之间没有重复, 提高了服务效率。

将数据仓库技术应用到档案馆的数据整合中, 不仅可以实现异构数据源的有效集成, 而且也为数据的分析处理、深入挖掘提供了数据源, 将联机分析处理技术和数据挖掘技术应用到数据仓库的数据中, 使得数据仓库系统可以为档案馆的建设和发展提供相应的决策数据, 实现了决策服务平台的建立。

实现数据仓库技术在档案馆的应用, 必须实施三个步骤: (1) 数据抽取。由于档案馆的数据源是来自各个异构的数据库中, 这些数据通常运行在不同的硬件平台, 使用不同的操作系统和数据库管理系统, 因此数据仓库技术实现的首要步骤就是基于不同的数据环境进行有效的数据抽取, 这是数据仓库技术得以正常运行的关键。 (2) 数据规范。由于来源档案馆各个数据库的数据和数据仓库中的公共数据存在差异, 所以必须对数据源的数据进行规范, 通过清理与转换去除冗长数据、消除数据不一致性、保证数据的一致性与正确性, 也是实现数据仓库的一个重要步骤。 (3) 数据更新。由于学校各部门的会议文件、教学、科研档案资源是不断增加的, 因此为了保持数据的新颖性和时效性, 数据仓库的数据必须保持与数据源的数据更新同步, 也就是必须在各个部门档案数据源的数据更新时进行追加更新, 建立档案数据主动更新、自动转换和增量更新机制, 因此提高档案数据仓库集成效率也是一个关键步骤。只有在顺利实施以上三个步骤的前提下, 数据仓库技术才能在档案馆的资源整合中得到充分的实施, 才能为档案馆的档案资源收集、整合、档案信息查询以及档案馆的发展提供技术支持和决策支持。

随着数字档案馆的建设和档案信息资源的不断丰富, 档案馆信息资源整合变得尤为重要, 数据仓库技术为档案馆提供了容纳大量数据资源的场所, 同时也对档案馆内各异构资源数据库进行了合理有效的集成, 为档案馆对数据资源进行深层次的分析和挖掘提供了支持, 数据仓库技术作为信息技术构架的新焦点, 虽然在档案馆的资源整合中的应用才处于初级阶段, 但是随着数据挖掘技术以及联机分析技术的不断发展和完善, 它将使档案馆的档案信息服务能力、决策支持能力得到进一步增强, 同时也可以为高校数字化档案馆的建设和发展奠定基础。

摘要：本文指出了数据整合在档案资源整合中的重要性, 通过对数据仓库概念的引入以及结构和特点的分析, 说明了数据仓库技术在档案信息整合中所起的作用, 提出了采用数据仓库技术对档案资源数据进行整合的结构和方法。

关键词：数字档案馆,资源整合,数据仓库

参考文献

[1]胡续亮.谈高校档案资源的整合[J].山西档案, 200 (36) .

[2]程有娥.高校档案信息管理系统的设计与实现[J].山西档案, 2006 (6) .

基于数据仓库的高校学籍管理系统篇5

教育现代化要求教育信息化, 教育信息化促进教育现代化。信息技术的迅速发展已经极大地改变了高校教学、管理的思想和手段。同时，信息共享的最大化和信息传输的快捷化又要求高校各部分间有着统一高效的资源管理系统，这种需要对高校管理系统提出了新的课题和挑战。对于高校学籍管理采用何种手段以达到有效的管理即为面临的课题之一，本文主要论述利用数据仓库技术进行高校文档管理的相关问题。

1 数据仓库 (Data Warehouse) 的概念

在信息处理过程中，相关数据会不停地上传信息化系统，比如ERP、CRM、Call Center、OA或者计费等，该操作后会产生大量数据。当进行数据查询或报表时，经常需要跨系统作业，这种情况不仅资源消耗大，而且可能影响各个系统的正常运行。签于这种状况，人们就提出专门建设一个数据库系统，把各个系统的数据拿到该数据库系统进行准确的查询和报表制作，这样既方便又准确，而且不会影响业务系统。这个数据库系统就是数据仓库，它是全数据的集合。一般说来，数据仓库主要由下几个部分组成。

(1）数据仓库数据库

它是整个数据仓库环境的核心，用于存放数据并提供对数据检索的支持。

(2）数据抽取工具

其功用为从不同的存储方式中得到数据，经必要的转化、整理后再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键，否则造成数据仓库数据缺乏。

(3）元数据

它是描述数据仓库内数据的结构和建立方法的数据。按用途可分为技术元数据和商业元数据。前者是数据仓库的设计和管理人员用于开发和日常管理数据仓库时所用的数据。后者从商业业务的角度描述了数据仓库中的数据。

(4）访问工具

它为用户访问数据仓库提供手段。主要有数据查询和报表工具、应用开发工具、管理信息系统（EIS）工具、在线分析（OLAP）工具和数据挖掘工具。

(5）数据集市（DataMarts）

它是为了满足特定的需要，而从数据仓库中独立出来的一部分数据。在数据仓库的实施过程中可以从一个部门的数据集市着手，再用几个数据集市组成一个完整的数据仓库。

(6）信息发布系

把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。其中，基于Web的信息发布系统是对付多用户访问的最有效方法。

数据仓库主要有以下特点：

(1）面向主题性

数据仓库中的数据是按照一定的主题域进行组织。

(2）集成性

数据仓库中的数据是在对原有分散的数据库数据抽取、整理得到的，处理后的信息是关于整个单位的全局信息。

(3）相对稳定性

数据仓库所涉及的数据操作主要是数据查询，并用于供决策分析，进入数据仓库中的数据一般情况下被长期保留，并且对其的修改和删除操作很少，通常只会定期加载和刷新。

(4）历史性

数据仓库中的数据一般只加不减，是一个从过去到现在的历史记录，反映了一个单位各个阶段的相关情况。

2 建立数据仓库系统的关键技术

经以上论述，建立数据仓库系统的关键技术就解决以下关键技术。

(1）数据抽取

数据抽取是从不同的存储方式中得到数据，经转换、整理后的数据再进入数据仓库。由此可见要解决三个方面的问题。一是被抽取数据的存储方式可能不同，那么怎样完整地得到不同存储方式中的数据。二是从不同存储方式中得到的数据的格式可能是不同的，那么采用怎样的方式进行转换成统一格式的数据。三是得到的数据可能部分是不需要的，那么又如何进行去除多余，保存精华。

(2）存储和管理

由于进入数据仓库中的数据一般情况下被长期保留，并且对其的修改和删除操作很少，这势必造成数据的大量递增，由此要解决海量数据的存储空间问题。

数据仓库中各数据表的数据量往往极不均匀，由此影响决策支持查询的优化。利用普通查询优化器获取查询路径时，都存在所获得的最佳查询路径并非最优的的路径的情况，因此将普通关系数据库改造成适合担当数据仓库的服务器更存在查询路径并非最优化的问题。

(3）数据呈现

数据仓库中的数据最终的目的是呈现给用户，便于用户决策。在这一过程中应尽量以最直观的、最简单的方式将数据呈现给用户。在此，要主要解决多维分析、数理统计和数据挖掘方面方面的技术问题，以便使多维分析更好地体现数据仓库，数理统计更好地验证对某些事物的假设并进行决策，数据挖掘更主动寻找出数据背后的规律。

3 高校学籍管理存在的一些不足

目前, 各大学各职能部门的业务管理信息化已初具规模, 但是仍存在以下不足。

(1）信息保存在单位内部, 其他部门获取某些公共信息较为困难, 不能快速、有效地共享相关信息，部门之间横向信息流通不畅。

(2）学校每年都要完成相关教育信息的汇总工作, 从基层部门经层层填表整理, 直到最终数据的收集统计, 需要耗费很多的人力、物力、时间。

(3）很多高校的信息系统是面向事务的, 而不具备决策支持能力, 系统缺乏进一步扩展应用的能力。

(4）学籍管理系统数据不断增加，机构内部可能存在的不同平台和不同结构会造成数据处理和查询的难度不断增大。

因此, 在高校内部建立一个统一的、高效的、充分信息共享的信息平台很有必要。

4 数据仓库技术在高校学籍管理中的应用

高校学籍管理系统存在缺乏整体统一规划、横向信息流通不畅、资源耗费大、扩展应用能力差和数据处理、查询难度不断增大等不足。而数据仓库是一个面向主题的、集成的及随时间变化的，但信息本身又相对稳定的历史的数据集合，它用于对管理决策过程的支持。所以，可以将数据仓库和高校学籍管理结合起来，用数据仓库具有的技术解决高校学籍管理中的不足。用它处理大量的数据资源，通过它的集成管理器将发展过程中离散的数据有效集中，以此不仅提高业务效率，而且保证机构历史的完整性，集中处理历史数据，获得对某一问题历史的完整认识。

5 如何建立高校学籍管理数据仓库

学籍信息数据仓库的建立过程是一个系统工程，需要参与各方协同工作，其中包括仓库系统选型、模型设计、数据转换等技术工作。一般说来，建立数据仓库的步骤如下：

收集和分析业务需求；建立数据模型和数据仓库的物理设计；定义数据源；选择数据仓库技术和平台；从操作型数据库中抽取、净化、和转换数据到数据仓库；选择访问和报表工具；选择数据库连接软件；选择数据分析和数据展示软件；更新数据仓库。

在此，就有关高校学籍数据库的以下几个方面进行叙述。

(1）文档应用需求分析

对于高校学籍而言，用户多为教职员工及学生，主要涉及到学生的相关信息。所以，要对这些因素进行综合的分析和考量，并以此反映正确的用户信息，为调整文档开放时间、确定文档编研产品等决策提供信息保证。

(2）文档数据采集

通过数据采集技术将不同来源、不同格式、不同构造的数据进行汇总，并经过数据清理转换后集成到统一的文档数据仓库中，共同构成原始信息来源。要着力破除文档信息孤岛的藩篱，沟通各数据单位，实现文档数据共享，同时需要由良好的文档质量保证体系来维护数据质量。

(3）文档数据转换

采集后的数据五花八门，必须对其进行数据转换，达到格式统一规范。在进行数据源特别是学籍数据库建设的同时，应建立健全文档数据质量控制体系，主要包括制定数据质量考核指标、校对制度、备份制度等，定期检查，责任到人，尽量将质量管理的要求嵌入软件功能之中，以期最大限度地保障学籍数据的质量。对于文档数据的逻辑结构，则应当加强依赖于著录标准的元数据库的建设，可以以著录标准为基础，建立一定范围内的元数据标准，并以此构成元数据字典。该字典提供数据项目的结构化信息，包括数据字段的名称、数据类型、长度、默认格式等规范，并说明字段之间的联系。在目前阶段，元数据字典的建设以二次文献信息项目为主，同时应加强文档全文和电子文件元数据规范研究，为文档数据仓库的整合和文档管理系统的深入设计提供规范标准。

6 结论

建立基于数据仓库的高校学籍管理系统是以信息化推动教育信息化的重要手段，高校通过建设基于数据仓库的高校学籍管理系统, 可以充分共享各类资源, 提高办公效率，提升学校的管理与决策水平, 促进学校信息化的发展, 推动学校的现代化水平，有着巨大的现实意义和实践意义。

参考文献

[1]陈涛、邓斌, 数据仓库技术在高等学校的应用研究, 山东农业大学学报 (自然科学版) , 第36卷 (4) 591-594.

高校档案数据仓库设计篇6

关键词：数据库的模型介绍,数据库的功能和结构总结,数据库的应用及开发过程

一所知名的大学无非是由好的指导老师、优秀的教学管理模式以及图书馆的管理设置等因素所组成和扬名的, 因此扩大图书馆的规模、增加图书科目的珍藏量是势在必行的。然而为了发挥图书馆的信息储存功能和传递的作用以及更好地服务于广大的学生们而进行的扩大图书馆规模、增加图书的馆藏量等工作却面临着管理方面的种种难题, 也是各大院校有待解决的问题。比如, 要通过对研究学生在借阅书目的时间需求上更好地摸索出一条变化规律, 掌握学生的学习动向, 才能更好地管理图书并且服务于学生。然而近些年来, 数据库技术的快速发展给网络管理提供了很多方便, 数据库技术同时有着时效性好、准确性大、综合性强和快速性好等特点, 从而也提高了图书馆管理的工作效率, 这无形中给学校师生对图书的借阅以及管理人员对图书的管理分类带来了极大的方便。图书管理从原先的纯人工操作过渡到计算机处理数据的不断完善, 对图书信息的精确掌握的过程更加要求数据库系统的逐渐完善和改革。下文将就数据库的模型、数据库在管理应用上的功能和今后的开发等一系列问题进行简单的探讨总结。

一、数据库模型的简介

1. 数据库技术。

数据库技术与计算机技术相结合使得计算机能够全面地分析、加工数据, 进而更易为管理人员所用的系统就是数据库系统。图书馆数据库系统内存储着大量数据信息, 我们必须以原有的数据系统为基础, 利用其进行下一步的数据综合, 从而进行全面的数据分析并加工已得的数据最终总结出一个潜在的变化规律来为我们所用。与曾经的数据库系统相比较而言它具有系统性好、准确性高、高合成性、不易丢失信息等安全可靠的特点, 因此被大量地应用到学校图书馆管理工作和一些大型企业的管理工作中来[1]90。

2. 数据库技术的特点和模型。

被广泛应用在图书馆管理和企业管理中的数据库技术不是一般意义上的数据库技术, 其高效性、综合性和分析数据后的准确的数据总结性是一般的数据库所不具备的。首先, 它可以按照用户的要求和规定对原有的凌乱的、随机的、分散的数据进行结构性的综合、有效的整理并输出;其次, 在数据库中保存的数据不会轻易随时间的变动或者新增加的数据而变动或丢失, 因此具有非常高的稳定性;再次, 数据库所分析总结出来的结果主要是被广大的管理人员所直接应用, 其综合得出的数据结果对于管理人员来说具有非常高的利用率和信任度, 并有益于管理者从中不断地获得丰富的经验, 进而提高自身的管理能力。另外, 许多高校为了更好地管理学校的图书馆, 采取了多元的概念来完善数据库模型的建立。比如, 要想严格地管理和控制图书馆内的书籍的借阅情况, 需要利用计算机建立以班级、姓名、学号、专业、图书名称为主的相关信息存放于数据库内, 以便日后管理人员更加方便地从不同角度和方面来查询数据以及了解书籍的借阅情况。图书馆内书目之多, 不同的管理人员要想方便地从不同角度来查询书目的借阅情况和所在的具体位置就必须利用数据库技术进行各个不同关键词的搜索, 不同的搜索信息会带来不同的搜索结果, 这也是数据库技术的模型特点, 因此面对不同的需求需要进行全面的考虑来处理问题。其次, 学生人数多、借阅书目的数量杂乱也给管理人员带来了不小的难题。那么数据库技术就会全方面地统计借阅者的姓名、班级、专业、学号以及借阅的图书名字和数目, 并精确地统计该生借阅图书的具体时间和还书时间, 方便图书管理员清晰地管理和检查书目的具体情况。再次, 高等学校图书馆的数据库系统还方便地设有查询功能, 查询系统能够使广大学生方便地进行书籍种类的查阅, 进而锁定书籍所在图书馆的具体位置或者书目在馆的情况及归还日期的了解[2]71。

二、数据库技术的功能概括总结

高等院校图书馆规模的扩大和改建有利于广大师生的进步学习, 也给图书管理员带来了不少的难题和困惑。然而数据库技术的广泛应用不仅给图书管理员提高了工作效率, 节省了不必要的时间浪费, 更大大地方便了广大师生对在馆书籍的浏览和书籍在馆内具体位置的查询, 这无疑是一项高效的计算机技术。接下来就简单地分析概括一下这一技术的功能特点和结构特点。

我国大学校园内图书馆的管理主要采用数据库技术管理的方式, 这一技术的优势也就无可厚非了。就拿图书馆在采购书籍方面的工作来说, 众所周知, 图书馆是潜藏众多学术信息的来源地, 当然在馆的书籍主要就包括书本式的和电子信息式的书目。如果采用原有的古老的采购书籍的方式, 就很难准确地了解图书馆内缺乏的书目名称以及数量, 给广大学生和老师的借阅合适的书籍带来很大的不便, 但数据库技术的应用改善了这一采购管理方面的弊端。采用数据库管理技术能够准确地分析、汇总图书馆现有书目在馆的情况和借阅的情况并且有效地防止和改善重复的采购已有的书籍, 从而也避免了人力和财力这两方面的浪费。另外一方面, 旧的管理方法总是要被新的、科学的管理方法所替代或者改善。原有的根据书目上的出版社名称, 出版日期来综合考虑对新的书目进行采购进而来扩充图书馆的藏书数目已经是一套落后的管理方式了, 其被动地了解市场动向以及缺乏科学的采购方向已经不能满足现在这日新月异的发展给学校的老师和同学们带来的对知识的渴求了, 因此必须采用数据库技术来全方位地、科学地利用联机分析功能和数据采购等技术的数据分析结果来综合管理在馆的书目和已经借阅的图书, 并且审时度势地采购一些新的书目进来。除了在采购新书目方面的应用, 数据库技术还有其他显著的优势。

第一, 数据库技术可以通过广大师生对书目的借阅情况以及还书情况来综合数据结果分析出对图书借还的一个内在规律, 还可以科学地、合理地安排图书的采购量以及图书在馆的具体位置, 一方面有利于广大老师和学生方便的参考、借阅和查询, 另一方面也能提供科学的数据信息分析结果来供图书馆的管理人员和工作人员及时的采购书籍以及合理的安排上班和值班的时间表。

第二, 数据仓库的技术应用能够为图书馆的管理人员及时、准确地分析出图书的在馆或者借阅情况, 并准确地了解到各个年级、各个班级的学习动向, 提供多元的技术支持。这就大大方便了对广大师生借阅或者查询书目的准确把握和管理, 能够根据分析广大师生在整个学期或者大学四年的借书情况而得出来科学的、精准的数据结果, 方便多方面地了解学生的学习方向和动态的转变情况, 也对于改善学校的教学方式方法提供了技术方面的支持。

第三, 科学技术的不断发展带来了数字信息化时代的到来, 顾名思义, 就是将生活、工作以及学习的各个方面都利用先进的计算机技术科学的分类管理起来, 这是一种不可逆转的必然趋势, 当然在许多高校的图书信息化的管理中就更加不容忽视了。由于现在这个科技知识高度集中的时代, 很多图书馆都面临着知识结构更新换代快、市面上的书目琳琅满目又良莠不齐等重重难题, 因此数据库技术的研发和引进就将这些问题迎刃而解了[3]179。数据库技术的广范围内的数据采集结构和高度集中的分析能力在面对海量的信息时能够进行高效的管理、存储和分析, 从而给图书管理人员以及全校师生提供可靠的、优质的服务。

三、数据库的开发过程及应用

1. 图书管理数据库对数据的分析。

对数据库的数据进行科学、全面的整体分析对整个图书馆的顺利运作和操控起着至关重要的作用。然而在分析数据的过程中, 也主要是依照管理员的各种管理需求来制定相应的数据库目标以及生成相关的管理科目来形成数据库的整体轮廓。

2. 数据库系统的设计分析。

在整个数据库的设计中, 首先应该描述出一个中心思想, 并在确定该中心思想的同时选出与其匹配的数据信息。在设计完这部分后在对所筛选的数据进行整体汇总分析, 得出一个多元的数据信息表以供后来者利用和管理。其次, 要设立与之相对应的分析设施以及查询工具, 以便于广大的图书管理员在日后可以及时查询新的数据并对更新图书管理的方案起到了技术支持的作用[4]45。

3. 数据库系统的维护及使用。

任何一个系统的寿命和持续性都不仅仅依靠设计技术上的完备, 更主要的是用户平日精心的维护和使用方法的得当, 在图书馆的数据库技术运用过程中亦是如此。只有在平时注意加强对系统的管理和及时的更新才能保障系统的顺利实施, 方便我们的工作。

言而总之, 数据库系统在各大高校的实际应用管理方面起着举足轻重的作用, 图书馆的管理人员唯有根据本校的实际情况和需求及时的设定并在日后的运行中很好地维护这一系统, 才能保证其为我们提供更为广泛的数据信息, 更好地服务于广大的师生朋友们。

参考文献

[1]王炬颖.高校图书馆管理的数据仓库技术分析[J].读与写:教育教学刊, 2011, 12 (10) .

[2]雷启明.数据仓库技术在高校图书馆管理中的应用研究[J].中国科技信息, 2008, 7 (16) .

[3]侯杰.基于数据挖掘技术在高校图书馆管理中的应用[J].沿海企业与科技, 2010, 4 (6) .

【高校档案数据仓库设计】推荐阅读：

高校财务数据仓库研究09-15

高校学籍档案07-16

高校学生档案05-09

高校会计档案05-20