OLAP技术

2024-06-29

OLAP技术(精选7篇)

OLAP技术 篇1

随着企业管理技术的不断提升和信息系统的广泛应用和逐趋完善, 企业相应的信息数据量也得到了极速增长。同时, 随着数据库技术应用的发展, 企业决策人对于数据的应用提出了更高的要求, 己不仅仅满足于对事务处理的电子化与自动化, 还希望能够提供更多的对于数据进行分析、统计、趋势预测, 从而对于管理决策提供支持。由此, 数据仓库及相关技术应运而生。

1 数据仓库与OLAP技术概念

1.1 数据仓库 (Data Warehouse, DW)

数据仓库是一个面向主题的、集成的、时变的和非易失数据集合, 支持管理部门的决策过程。数据仓库的构建是一个处理过程, 数据仓库是一个从多个数据源收集的信息存储库, 存放在一个一致的模式下并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库系统由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成。在整个系统中, DW居于核心地位, 是信息挖掘的基础;数据仓库管理系统负责管理整个系统的运作;数据仓库工具则是整个系统发挥作用的关键, 包含用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等, 以实现决策支持的各种要求。

1.2 联机分析处理 (Online Analytica l Processing, OLAP)

联机分析处理即OLAP是一种重要的数据分析工具, 它的概念最早是由关系数据库之父E.F.Codd于1993年提出的, 他认为联机事务处理OLTP (Online Transactional Processing) 己不能满足终端用户对数据库查询分析的需要, 因此他提出了多维数据库和多维分析的概念, 即OLAP的概念。OLAP是针对特定问题的联机数据访问和分析技术。通过对信息的多种可能观察形式进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察和分析。OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的并能够真实反映企业情况的信息进行快速、一致、交互式访问, 从而获得对数据的更深入了解的一类软件技术。OLAP的目标是为管理决策提供支持, 因此可以说OLAP是多维数据分析工具的集合, 使最终用户可以在多个角度、多侧面观察分析数据, 从而深入了解数据中信息或内涵。

2 数据仓库与OLAP的关系

随着数据仓库的发展, OLAP也得到了迅猛的发展。建立数据仓库的目的是为了支持管理中的决策制定过程, 而OLAP作为一种多维查询和分析工具, 是数据仓库功能的自然扩展, 也是数据仓库中的大容量数据得以有效利用的重要保障。OLAP和数据仓库是密不可分的, 但是两者具有不同的概念。数据仓库是一个包含企业历史数据的大规模数据库, 这些历史数据主要用于对企业的经营决策提供分析和支持。而OLAP技术则是利用数据仓库中的数据进行联机分析, 它利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总, 用联机分析和可视化工具对这些数据迅速进行评价, 将复杂的分析查询结果快速地返回用户。由此可以看出, 数据仓库侧重于存储和管理面向决策主题的数据, 而OLAP主要是进行多维数据分析, 这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此, OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题, 进而满足决策支持或多维环境特定的查询和报表需求。

3 多维模型以及多维数据模型中的OLAP操作

数据仓库和OLAP工具都基于多维数据模型。在多维数据库中, 数据以多维方式组织, 经综合汇总后, 存放在多位数组中, 以提高系统响应速度;在前端展现工具中, 用表或图的形式通过维展现度量的值, 并提供灵活的分析方式:

(1) 超立方结构 (Hypercube) :是指用三维或更多的维数来描述一个对象, 每个维彼此垂直, 数据的测量值发生在维的交叉点上, 数据空间的各个部分都有相同的维属性。这种结构可应用在多维数据库和面向关系数据库的OLAP系统中, 其主要特点是简化终端用户的操作。

(2) 多立方结构 (Multicube) :该结构是将大的数据结构分成多个多维结构, 这些多维结构是大数据维数的子集, 面向某一特定应用对维进行分割, 即将超立方结构变为子立方结构。它具有很强的灵活性, 提高了数据 (特别是稀疏数据) 的分析效率。多立方结构是存储稀疏矩阵的一个有效方法, 并能减少计算量。复杂的系统和预先建立的通用应用倾向于使用多立方结构, 以使数据结构能更好地得到调整, 满足常用的应用需求。

许多产品结合了上述两种结构, 它们的数据物理结构是多立方结构, 但却利用超立方结构来进行计算, 结合了超立方结构的简化性和多立方结构的旋转存储特性。

另外, OLAP多维数据还提供了多种分析操作, 常用有以下操作。

(1) 上卷:上卷操作通过沿一个维的概念分层向上攀升或者通过维归约, 对数据立方进行聚集。当用维归约进行上卷时, 一个或多个维从给定的立方体中删除。

(2) 下钻:下钻是上卷的逆操作, 它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入附加的维来实现。由于下钻操作对给定数据添加更多细节, 也可通过添加新的维到立方体来实现。

(3) 切片和切块:切片操作对给定的立方体的一个维进行选择, 导致一个子立方体。切块操作通过对两个或多个维进行选择, 定义子立方体。

(4) 转轴:转轴是一种可视化操作, 它转动数据的视角, 提供数据的替代表示。

4 OLAP技术发展趋势

目前, OLAP技术广泛应用于商业、金融、制造业、零售业、电信等行业中, 有些企业也在迫不及待地建立自己的OLAP系统。由于OLAP技术的良好发展前景, 许多专家对OLAP技术的研究成果越来越多。目前对OLAP技术的研究呈以下趋势:

(1) OLAP技术与Data Mining (DM) 、Web集成

随着社会对增强OLAP系统的分析功能的需求和Internet/Intranet的发展, OLAP与DM、Web集成成为OLAP技术发展的一个新方向, 也称为基于Web的联机分析挖掘 (OLAM) 。DM也称为数据库中的知识发现 (KDD) 。DM技术是数据仓库的又一应用, 通过分析大量的原始数据, 作出归纳性的推理, 挖掘出潜在模式并预测客户的行为, 为企业的决策者提供决策支持。OLAP与DM虽同为数据仓库的分析工具, 但两者侧重点不同, 前者是分析型的, 后者是验证型的。数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了这两种技术的结合, 形成OLAM技术。OLAM技术兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性, 是数据仓库应用工具未来发展的方向。

(2) 分布式OLAP技术 (Distributed OLAP)

分布式OLAP技术是OLAP技术在分布式数据仓库上的应用。数据仓库是面向主题的、集成的、时变的、非易失的数据存储系统。它有3种体系结构—企业仓库型、数据集市型、分布型。①企业仓库型数据仓库就是通过企业数据仓库来为知识工程师提供信息服务;②数据集市型是企业数据仓库的子集, 其范围限定于特定的主题, 它可以在部门服务器上实现, 这大大降低了数据仓库建立所需的时间和费用;③分布型就是把各个部门所建立的数据集市有效地整合起来。

(3) OLAP与高级数据库技术相结合

近年来随着数据库技术的发展, 涌现出了一些不同数据类型的数据库系统, 如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库等, 与此同时出现的OLAP技术包括面向对象的联机分析处理 (Object-Oriented OLAP) 、对象关系的联机分析处理 (Object Relational OLAP) 、时序联机分析处理 (Temporal OLAP) 等新型的OLAP技术研究方向。

5 结束语

随着跨领域产业的出现, 企业决策所需要的信息量越来越大, 传统的数据库操作技术已不能满足企业决策的需求。而O-LAP技术具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点, 使用户对基于大量复杂数据的分析变得轻松而高效, 以利于迅速做出正确的判断, 从而为企业的决策支持提供服务。因此, 有效的构建和使用数据仓库能为企业做出科学决策提供更优越的平台。

参考文献

【1】JiaweiHan, Micheline Kamber.数据挖掘概念与技术 (第2版【) M】.北京:机械工业出版社, 2008.

【2】陈文伟, 黄金才.数据仓库与数据挖掘【M】.北京:人民邮电出版社, 2004.

【3】华冠萍.数据仓库、数据挖掘及OLAP之两两关系【J】.福建电脑, 2007, 8:48~49

【4】王付山.OLAP技术研究与发展述评【J】.软件导刊, 2007, 10:11~13.

OLAP技术 篇2

随着税务信息化建设的深入开展,特别是在国税系统内基本上已经以省级集中的模式完成了各个应用系统的数据集中工作,税务机关积累了大量的涉税信息,作为信息化高级阶段的数据分析利用已经渐渐成为税务信息化工作的重点。如何突破传统的统计报表模式,利用OLAP技术和丰富的数据资源进行税收数据深度分析,从而更好的为税收管理和辅助决策服务,是当前税收分析工作必须思考的问题。

2 数据分析

联机分析处理OLAP(On-Line Analytical Processing)是基于数据仓库的一种数据分析技术。它使分析人员、经理及管理人员通过对信息的多种可能的观察角度进行快速、一致和交互的存取获得对信息的深入理解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP技术在税收数据分析中可以应用于同行业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。根据这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

在具体实现时,使用星型架构进行建模。星型架构通过使用一个包含主题的事实表(用来存储数据和维关键字)和多个维度表(存放维的层次、成员类别等维的描述信息)来执行决策支持应用。在星形架构中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。

OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。钻取是改变维的层次,变换分析的粒度。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

当在OLAP服务器上建立好分析模型后,可以使用MDX多维查询语句进行查询,获取联机分析得出的多维数据集。MDX查询语句类似关系数据库中的SQL语句,也是通过SELECT语句获得查询结果。SELECT语句可指定一个结果集,其中包含从多维数据集中返回的多维数据子集。若要指定结果集,MDX查询必须包含以下信息:

1)层次结构的轴或集的数目。最多可在MDX查询中指定128个轴;

2)要包括在MDX查询的各个轴上的每个维度的成员;

3)用于设置MDX查询上下文的多维数据集的名称;

4)来自切片器轴的成员,将在该轴上对来自查询轴的成员进行数据切片。

3 结束语

如何从大量积累的历史数据中分析出有价值的信息,OLAP技术为此提供了一个有效的工具,通过建模后对数据切片旋转等操作,可以方便地对各项数据进行分析,从而为领导提供辅助决策功能。

参考文献

[1]宋潇潇.基于微软Analysis Services的OLAP解决方案[J].计算机应用与软件,2008,25(4):115-117.

OLAP技术 篇3

随着数据库技术的广泛应用,企业数据库中积累了大量的原始数据,面对如此巨量的数据,人们已经不满足于仅仅用计算机来实现业务的电子化,而希望从已有的数据中提炼出有价值的信息,为企业经营者作出正确的经营决策提供可靠的依据。联机分析处理 OLAP(online amalytical processing)技术正是在这种需求的驱动下,迅速发展起来,并得到广泛应用。

1 OLAP技术综述

长久以来,对数据库的操作都有两种不同的应用方式:一种是联机事务处理OLTP,它是传统的关系型数据库的主要应用;另一种则是联机分析处理OLAP,为数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持并且提供直观易懂的查询结果。它们的区别如表1所示

OLAP是针对特定问题的联机数据访问和分析,用以满足决策支持或多维环境特定的查询和报表需求。它的大部分策略都是将关系型的或普通的数据以用户容易理解的方式进行多维数据存贮,给分析人员提供一个多维数据超立方体,使分析人员在不需要了解数据库的物理结构的情况下根据他所关注的目的的不同,在与其习惯的企业逻辑结构相似的多维结构内进行多维操作,如上钻、下钻、旋转、切片和切块,使其能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这样高层管理人员就能通过浏览、分析数据去发现变化趋势、抽样特征及得到一些潜藏的细节信息,从而更好地掌握商务活动的变化。

很多企业都把自己的OLAP系统构建在一种C/S的构架上。尽管C/S结构对一般的业务系统而言是有效的,然而构建在这种结构上的OLAP系统在实际运用中也反映出其存在的部分问题和不足,如C/S结构的建立和维护成本都比较高,以及这种结构的OLAP系统只能应用在局域网内,它无法满足当前企业用户跨地区、跨平台对客户信息的访问及分析需要。随着对OLAP技术的深入研究及Web技术的飞速发展,将Web技术与OLAP技术进行结合成为解决上述问题的有效途径,用户只要通过Web浏览器便可实现对OLAP系统的访问,有效地降低了OLAP系统的维护成本及扩展了访问范围。

2 通过Web方式操作数据库方法

2.1 传统CGI方式

CGI是WWW服务器运行时外部程序的规范。按照CGI编写的程序可以扩展服务器的功能,完成服务器本身不能完成的工作, Web服务器和CGI程序实际起到了HTML和SQL转换的网关的作用。然而,使用这种方法的CGI应用程序每次运行都需打开和关闭数据库连接,效率低、操作费时;CGI应用程序不能由多个客户机请求共享,当多个用户同时发出请求时,必定启动多个CGI进程,这必然在Web服务器形成信息和发布瓶颈。

2.2 基于服务器扩展的专用API

为了克服CGI的局限性,出现的另一种中间件解决方案是基于服务器扩展API的结构。与CGI相比,API应用程序与Web服务器结合得更加紧密,占用的系统资源也少得多,而运行效率却大大提高,同时还提供更好的保护和安全性。但这种结构的缺陷也是明显的:①各种API之间兼容性很差,缺乏统一的标准来管理这些接口; ②开发API应用程序也要比开发CGI应用复杂得多; ③这些API只能工作在专用Web服务器和操作系统上。

2.3 通过页面中嵌入的控件

以上的两种方式都是将数据库操作放置在Server一端,客户端仅仅是显示由Server传送过来的HTML页面文件, 而没有使用客户端的计算能力。为了解决这个问题,不同厂商使用不同的技术,主要有Sun提出的Java技术和以Microsoft的DCOM技术为核心的ActiveX技术。

在本文的系统设计过程中,选择的是以Microsoft的DCOM技术为核心的ActiveX技术。这种方案里,客户端采用ASP+ActiveX控件来实现,以微软的MS Analysis Services为OLAP服务器。前端应用程序通过ADOMD调用OLE DB访问后台MS Analysis Services,并通过前端展现工具OWC 实现在 Web 上发布电子表格(spreadsheets)、数据透视表(pivot tables)和图表(charts)。在这种架构中,虽然具有较高的效率, ActiveX技术仅仅只能用于Windows平台上的IE浏览器中,只有Windows平台支持,具有一定的局限性。为解决跨平台问题,本文采用第三种解决方案中的Java技术,由于是纯Java实现的,可以摆脱对Windows平台的依赖。

3 系统体系结构

基于B/S架构的OLAP系统为三层结构。最低层为存储层,一般分为两个部分:(1)联机事务处理数据库,它是分析数据的来源;(2)储存分析所用数据的数据仓库,该数据是从OLTP数据库中提取和整理获得,通过这一层将OLAP数据和OLTP数据分离,这样就不会对原系统运行效率造成影响。第二层为应用层,它由OLAP服务器与Web服务器组成, OLAP服务器是支持和管理多维数据结构的数据处理引擎,由它执行MDX 语句,从关系型数据库中读取数据,实现从关系型数据库到多维逻辑模型的映射,使数据以多维格式展示。Web服务器是专门用于向OLTP服务器提交用户请求或向用户浏览器发送处理结果以供浏览。顶层为前端浏览工具,采用Web浏览页就可以实现对多维数据集的访问,并以表格或者图形的方式展现查询结果。架构如图1所示,其中表现层和应用层是关键的两层,决定了系统的易用性和性能。

4 系统实现中的关键技术

4.1 表现层

表现层指最终呈现在用户显示器上的,以及与用户之间的交互,用以展现多维数据。这里采用Jpivot作为表示层,Jpivot是JSP定制标志库,它呈现一个联机分析处理表格并让用户能够执行典型的联机分析处理导航操作,如上卷、下钻和旋转等。它使用Mondrian和XMLA作为OLAP引擎,使用WCF (Web Component Framework) 来支持使用XML和XSLT来创建UI。

4.2 应用层

本层中Web服务器采用Tomcat,由Mondrian作为 OLAP引擎,Mondrian是一个OpenSource的基于关系数据库的分析服务器,遵循MDX语言、XML/A和JOLAP标准。它自定义了一种使用MDX语言的客户端接口,通过执行MDX 语句,从关系型数据库中读取数据,实现从关系型数据库到多维逻辑模型的映射,使数据以多维格式展示。

Mondrian同时支持XML/A和JOLAP两种接口。 其中XML/A是一种基于简单对象访问协议SOAP(Simple Object Access Protocol) 的 XML API,按照设计,专门用于对在 Web 上工作的客户端应用程序和数据提供程序之间的数据访问交互进行标准化处理。JOLAP 则是一种基于 Java 的多厂商 OLAP API 计划(initiative),它基于 J2EE 平台下 Java® API 。这种 API 允许以一种厂商无关的方式操作 OLAP 数据和元数据,它负有两个主要的使命:通用 OLAP 查询和管理 OLAP 数据以及元数据,同时对两种接口的支持极大地满足了用户的不同需求。

Mondrian中定义了一个schema元模型,由立方体、层次、成员和逻辑模型到物理模型的映射构成。这些元数据使用物理的XML文件来存储,本文正是根据它来从关系数据库中聚合数据响应MDX语法的查询。其大体格式如下:

需要注意的是这里定义的schema元模型必须与存储层所采用的数据模型对应起来。

4.3 存储层

存储层提供数据,由于mondrian被设计运行在关系数据库上,因此这里采用关系数据库实现,指向数据源的连接字符串格式如下:

“Provider=mondrian;Jdbc=jdbc:mysql://localhost/database?user=xx;password=xxx;Catalog=/WEB-INF/queries/product.xml;JdbcDrivers=com.mysql.jdbc.Driver;”其中,Provider=mondrian定义了OLAP引擎,采用不同的存储数据库 jdbc与jdbcDriver的值也随之变化,这里采用了MYSQL数据库,Catalog指明了schema元模型的位置,mondrian根据它到数据仓库中提取数据。

数据的存储可以采用星型模型或雪花模型来构建。星型模型是以事实表为中心,一组维表围绕在事实表周围,事实表和每个维表通过键连接在一起。雪花模型是使用一个类似的结构,不同的是一个维度表能够引用或从属于其他维度表。这种模型解决了数据冗余问题,提高了处理的灵活性,然而增加了查询的复杂性。这两种模型中星型模型是主流,直观易操作,绝大多数存储层都采用这种方式。实际操作中需要根据主题的特点选择不同的模型。

5 结 语

在数据库技术己经日益成熟的今天,数据分析作为企业信息化建设的上层应用得到了越来越广泛的重视,同时各种OLAP系统的出现和技术应用,为实现企业有效管理和综合决策提供支持和便利。其中,基于B/ S结构的OLAP系统的设计和实现,能更好地普及和应用OLAP技术,极大地提高人们在Web上访问和管理数据的效率,帮助各级管理人员从大量的数据中提取有用的信息,具有十分重要的应用价值。

参考文献

[1]沈兆阳.SQL Server 2000 OLAP解决方案[M].北京:清华大学出版社,2001.

[2]徐江.一种基于J2EE的OLAP架构[J].计算机与数字工程,2006(10):96 -98.

[3]黄若波,左春,孙玉芳.基于Web环境下的OLAP技术的研究和实现[J].计算机工程,2000(10):7- 8.

OLAP技术 篇4

随着联机分析处理技术 (OLAP) 的诞生, 解决这些问题将不再是难题。本文以上海文化行政执法总队的统计分析系统为例, 针对传统的基于OLTP统计技术的不足, 设计了新的采用OLAP技术的统计分析系统。此新系统可根据各项行政执法数据、场所信息和历史积累数据, 进行统计分析处理, 形成定期规范的报告, 生成文化行政执法中相关情况的趋势分析, 形成有价值的情报和知识, 为行政执法的有效性和领导的科学决策提供支撑。

1 基本概念

OLAP (Online Analytical Processing) 即联机分析处理, 针对特定问题的联机数据访问和分析, 通过对信息 (多维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察。

联机分析处理[1] (OLAP) 的概念最早是由E.F.Codd于1993年提出的。当时, Codd认为联机事务处理 (OLTP) 已不能满足终端用户对数据库查询分析的需要, SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果, 而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念, 即OLAP。

OLAP是针对特定问题的联机数据访问和分析, 用以满足决策支持或多维环境特定的查询和报表需求, 它将关系型的数据以多维的数据形式进行存贮, 从而给分析人员提供一个容易理解的多维立方体, 使分析人员根据业务逻辑进行多角度的分析, 如上钻, 下钻, 旋转, 切片和切块等操作, 以达到深入理解数据的目的。这样高层管理人员就能通过浏览、分析数据去发现变化趋势、抽样特征及得到一些潜藏的细节信息, 从而更好的掌握他们商务活动的变化。

随着OLAP的诞生, 对数据库的操作的应用方式不再局限于传统的OLTP。OLAP与OLTP相比, 能支持更加复杂的分析查询, 侧重于决策支持, 并且提供直观易懂的查询结果。它们的区别如表1。

2 企业存在的问题及使用OLAP的优势

总队原有行政执法统计分析系统基于OLTP, 通过关系型数据库执行特定的查询产生固定的统计报表, 管理人员通过这些统计报表进行业务分析。随着实际业务数据的与日俱增, 当历史数据积累到一定程度以后, 管理部门希望从自己的管理需求出发提出特定主题的咨询问题, 而常规的统计报表体系无法完全涵盖这些查询主题。这就需要统计人员使用查询工具或临时编写的程序来进行专门的统计分析。

OLAP作为一种专用数据分析工具在各个领域正得到越来越广泛的应用, 它的自身特点使它能与传统的OLTP技术形成很好的互补, 在统计分析方面发挥重要的作用。

OLAP的优点在于: (1) 从决策分析者需要的角度 (即主题和维度) 出发进行数据分析, 以多视角, 多层次的方式展现汇总信息, 条理性和层次感强, 更符合人们的思维习惯。 (2) 响应速度快。由于OLAP的操作对象是经过预处理 (通过从原始数据库中提取数据并进行加载, 定期更新) , 所以它的响应速度比一般的统计子系统快。如果一个统计查询系统需要较长的响应时问, 必然给总队决策人员的工作带来许多不便。 (3) 数据的展示和操作非常灵活。OLAP的分析结果中展现了维度与子成员的父子关系, 用户可以通过展开或收缩维度结点来查看维度的汇总信息与成员的明细信息。由以上分析可见, OLAP非常适用于总队特定主题的执法统计分析。

3 OLAP系统的设计

3.1 OLAP系统架构

目前大多数企业的OLAP应用都是基于C/S (客户端浏览器) 结构的, 如微软 (Analysis Service) , Cognos (powerplay) , Hyperion (Essbase) 等一系列产品, 虽然C/S结构适用于一般的业务系统, 但将这种结构应用于OLAP系统仍然存在一些问题和不足, 主要体现在C/S结构的建立和维护成本高, 并且采用该结构的OLAP系统只能部署在局域网内, 不能满足文化总队跨地区、跨平台的分析需要。

随着对OLAP技术及Web技术的飞速发展, 将Web技术与OLAP技术进行结合成为解决上述问题的有效途径, 用户只要通过Web浏览器便可实现对OLAP系统的访问, 有效地降低了OLAP系统的维护成本及扩展了访问范围。

整个OLAP系统为三层结构, 由下至上分别为存储层, 应用层, 展现层。

存储层, 包括两个部分:联机事务处理数据库和数据仓库, 前者是分析数据的来源, 后者储存分析所用数据, 该数据是从OLTP数据库中提取和整理获得, 通过这一层实现OLAP与OLTP的数据分离。

应用层, 它由OLAP服务器与Web服务器组成, OLAP服务器是支持和管理多维数据结构的数据处理引擎, 由它执行MDX (Multidimensional Expressions) 语句, 从关系型数据库中读取数据, 实现从关系型数据库到多维逻辑模型的映射, 使数据以多维格式展示。

表现层, 顶层为前端浏览工具, 采用Web浏览页就可以实现对多维数据集的访问, 并以表格或者图形的方式展现查询结果。

3.2 多维数据模型的设计

通过对文化总队OLTP系统的数据库进行分析, 可知检查出动表 (Checkout) 中包含了所有的稽查情况, 对其处理得到事实表。根据需求, 选定场所、部门、区县和时间作为维度表 (Dimension Table) 。针对文化总队的实际需求, 将OLTP的数据模型进行了筛选和转换, 得到了基于星型结构的OLAP数据模型 (图1) 。

4 OLAP系统的技术实现

基于文化行政执法总队的跨平台等要求, OLAP系统采用现在流行并成熟的Mondrian[2]框架作为OLAP引擎。Mondrian框架基于java语言, 具有良好的跨平台性, 同时也利于与其子系统之间的集成。页面展示采用JSP与XSLT[3]技术相结合的方式, 将多维结果集动态的展现给客户端, 同时为了提高系统的易用性与灵活性。系统借鉴目前最流行的js框架Extjs[4]结合Ajax[5]技术为用户提供任意拖拽的操作方式, 增强用户体验, 让用户从传统的、固定的统计方式中解脱出来。数据库服务器采用成熟稳定的Oracle 10g[6]数据库服务器, 其良好的性能可以提供快速的查询响应。

Mondrian是一个用Java写成的OLAP引擎, 它提供了基于数据库的JAVA API (Java应用程序编程接口) 。API可以在应用程序中调用, 比如GUI (Graphical User Interface, 图形用户界面) , 以便浏览OLAP服务器。Mondrian实现了MDX[7]语言 (Multidimensional Expressions, 查询多维数据库语言) 、XML (可扩展标记语言) 解析、JOLAP (Java Online Analytical Processing, Java在线分析处理技术) 规范。

Mondrian的典型应用是四层结构, 即展现层 (JSP或者Swing开发的应用程序) , 计算层 (验证和执行MDX查询) , 聚合层 (控制缓存中的数据和请求的没有缓存的数据) 和存储层 (关系数据库) 。Mondrian负责计算层和聚合层, 存储层是通过JDBC接口来调用的。

4.1 维度指标树的实现

为了提高系统的易用性与灵活性, 让用户从传统的、固定的统计方式中解脱出来, 系统将维度与指标以树型结构进行展示, 通过这种方式用户不仅可以清楚的看到业务实体间的父子关系, 还可以任意拖拽维度、指标来满足灵活、多变的分析要求。

维度指标树的动态拖拽效果采用目前最流行的js框架Extjs结合Ajax, 程序通过解析Mondrian的立方体描述文件 (xml格式) , 将其转换成符合json (Java Script Object Notation) 定义的数组结构, 最后通过json工具类将数组转换成json字符串传到前台进行渲染, 解析xml生成json字符串的代码片段如下:

5 结束语

随着数据库技术日益成熟, 越来越多的企业把数据分析作为企业信息化建设的重要组成部分[8], 各种OLAP系统的出现和技术应用, 为实现企业有效管理和综合决策提供支持和便利。本文以行政执法总队统计分析系统为案例, 介绍了OLAP技术在行政执法行业中的应用, 并简要描述了关键技术的实现。OLAP在行政执法行业中的应用将更有利于抬高决策水平, 全面掌握企业的运作状况, 定期生成行政执法情况的趋势分析, 形成有价值的情报和知识, 为行政执法的有效性和领导的科学决策提供支撑, 具有十分重要的应用价值。

参考文献

[1]Codd E F, Codd S B, Salley CT.Providing OLAP (on-line analytical processing) to user-analysis:An it mandate[R].E.F.Codd and Associ-ates, 1993.

[2]李文静.基于XML/XSLT的MCV Web应用模型[J].微型机与应用, 2003 (4) .

[3]张洪斌.Java程序员的AJAX技术开发[M].北京:机械工业出版社, 2007 (7) .

OLAP技术 篇5

1 数据仓库

数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,支持管理部门的决策过程[3]。图书馆数据仓库同样应具有这四个方面的特征[4,5]。(1)面向主题:数据仓库中关注的是对决策有用的数据,是按照一定的主题域进行组织的。图书馆的数据仓库可以围绕读者、时间、借阅分类等主题组织高层次数据分析。(2)集成:图书馆数据仓库中的数据是在对原有分散的数据库数据抽取和清理的基础上,包括命名、编码、属性等数据转换,消除了源数据噪音和不一致性,并将原始数据结构做一个面向读者、时间、借阅分类等主题转变。(3)时变的:图书馆数据仓库结构将反映历史变化,包含时间元素,回溯从过去某一时间段的历史信息,如对年、季度、月、星期、每天的时段做出汇总分析,为未来趋势做出预测提供根据。(4)非易失的:图书馆数据仓库不需要事务处理、恢复和并发控制,要求的数据是相对稳定的,只需要数据的初始载入和数据访问。一旦对在数据仓库中装入数据后,将长期保存,只偶尔的定期更新,很少有修改和删除操作,通过大量的查询操作,就能为图书馆管理层决策提供数据支持。

2 OLAP

关系数据库之父E.F.Codd于1993年首次提出OLAP(联机分析处理)的概念,在业界引起了很大的反响[6]。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。”这些信息是从原始数据转换过来的,它们以用户容易理解的方式,反映企业的真实情况[7]。(1)OLAP技术核心是“维”(dimension)。维实际上是一种层次类型划分,是人们更高层次地观察和认识客观世界的角度。一个实体的多个重要属性定义为多维,维又包含多个子属性,属性间包含层次关系。OLAP对不同维上的数据进行比较,进行多维的数据分析[8]。(2)OLAP操作主要分为钻取、上卷(roll-up)和下钻(drill-down)、切片(slice)和切块(dice)、转轴(pivot)等[9]。(3)OLAP实现主要方 式分为ROLAP、MOLAP、HOLAP。ROLAP(Relational OLAP)以关系数据库为核心,以关系型结构进行多维数据的表示和存储,将多维数据结构划分为事实表和维表,事实表用来存储数据和维关键字,对每个维至少使用一个表来存放维的层次、成员类别等描述信息。维表和事实表通过主键和外键关联,形成了“星型模型”。如果维的层次比较复杂,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展称为“雪花模型”。MOLAP(Multidimensional OLAP)实现使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,可以对“立方块”进行旋转、切块、切片等操作。HOLAP(Hybrid OLAP)表示基于混合数据组织的OLAP实现,提供更好的灵活性,如将大量详细数据存在是关系型数据库中,而聚集数据存在MOLAP中[9]。

3 图书馆数据仓库系统

图书馆数据仓库系统对图书馆数据进行提取、清理、转换和载入,并对数据仓库中存储的数据进行更新、管理和使用,用以支持数据仓库的应用或决策服务。图书馆数据仓库系统如图1所示,包含数据源(图书馆数据库),数据提取、清理、转换和载入,数据存储与管理,OLAP服务器和前端数据查询和分析工具五部分组成[10,11]。

数据查询和分析可以挖掘出读者历史的借阅行为,从而分析出读者现在及未来的借阅需求。图书馆数据库是数据仓库系统的数据源基础。数据抽取、清理、转换和加载部分从数据源中抽取数据,对数据预处理、数据转换,并根据数据仓库的设计要求对数据进行重新组织和加工后将数据加载到数据仓库中。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织以便进行多角度、多层次的分析。前端数据访问和分析工具供图书馆管理人员和决策人员访问目标数据库中的数据,并做深入分析以实现决策支持系统的各种要求。

4 图书馆数据仓库系统的实现

图书馆数据仓库系统如图2所示,使用MicrosoftSQL Server Analysis Services2008,对阿坝师专图书馆数据库2010年、2011年、2012年学生流通历史数据,构建使用多维数据结构,分析生成大量快速、直观的数据视图。在多维数据集Borrow_Date.cube中进行OLAP操作。

4.1 维度建模

数据仓库和OLAP是基于多维数据数据模型的,即数据立方体形式。数据立方体Borrow_Date.cube从多维对数据建模和观察,它是由维和事实下定义,涉及三个维表和一个事实(BORROWFACT)。如图3所示,这三维度是:READER (读者维),TIME (时间维)和CLASSIFICATION(分类)。每个维提供不同的属性,并与一个维表关联。事实是数值度量的,是多维数据模型中心主题,与事实表对应。多维数据集或者说数据立方Borrow_Date.cube由单元组成,按单元按度量值组和维度进行组织。单元表示多维数据集中来自多维数据集内每个维度的一个成员的唯一逻辑交集,单元计算是对借阅事实计数。

4.2 数据模型

目前流行的数据仓库模型是关系型多维数据模型,主要分为星形模型、雪花模型或事实星座模型。关系型多维数据模型就是要把不同主题和维的信息映射到数据仓库中的具体表中。星型模型中仅使用事实、维、维属性、事实度量来描述,每维只用表一个表示,而每个表包含一组属性。雪花模型是星形模型的变形,在星型模型的基础上增加了对维度表的描述,进一步把数据分解到附加表,其形式类似于雪花的形状。事实星座模型需要多个事实表共享维表,可以看作是星形模型的汇集。雪花模型可以减少冗余,减少存储空间,但浏览的性能受限。基于数据仓库与OLAP技术的图书馆流通数据分析采用星形模型,如图4所示,包含三个维表和一个事实表。

事实表:BORROWFACT(TT_ID,TIME_ID,读者号)

维表:CLASSIFATION(TT_ID,题名,类号),下划线表示主键,其中类号经过处理,取两位。

维表:TIME(TIME_ID,年份,月份,季度,星期,某月的第几天,周几,时段)

维表:READER(读者号,性别,系部,专业,年级)表示事实表和维表间的主键和外键关系见表1:

4.3 概念分层

某些维的属性之间存在全序关系或偏序关系,在数据模式中表现为概念分层,即存在一个从低层概念到高层概念一个映射序列。如维READER由属性读者号、性别、系部、专业、年级组成,其中性别、系部、专业、年级属性全序相关:“专业<系部<年级<性别”。而维TIME(时间)属性月份,季度,星期,某月的第几天,周几,时段构成偏序关系:“时段<{每月的第几天<月份<季度;周几<星期}<年份”。如图5所示:

4.4 实现 OLAP 操作

Microsoft SQL Server Analysis Services2008提供丰富的多维数据集OLAP可视化操作,只需将属性或层次结构属性拖曳到汇总区域,就可以实现不同维度和粒度的汇总数据,从不同的概念分层角度是对所有借阅计数,如图6所示,是对2010年、2011年、2012年三年按分类号及男女分组的流通借阅计数汇总图。根据不同的需求,可对不同维、不同的粒度进行上卷、下钻、切片和切块操作。(1) 上卷。上卷操作(也称为上钻drill-up),即通过维的概念分层向上攀升,对数据立方体进行聚集。沿维READER分层“专业<系部<年级<性别”向上攀升,对立方体执行上卷操作,由低层向高层泛化。(2)下钻:下钻是上卷的相反操作,由高层到低层,由不太详细的数据向详细的数据聚集,如维TIME的分层,沿“年份>季度>月份>每月的第几天>时段”下钻,会得到更详细的信息。(3)切片和切块:切片操作是对立方体给定一个维选择,生成子立方体,如选择维TIME的“季度”;而切块选择两个以上的维,如(TIME.月份 =’02’)AND(READER.系部 =’人文社科系’)。

Microsoft SQL Server Analysis Services2008提供多维表达式MDX查询,是OLAP多维立方体查询语言,支持定义和操作多维对象和数据,在功能上类似于关系数据库查询语言SQL。多维表达式MDX是OLAP服务器与外界交互的专用语言,语法功能强大,执行效率高[12]。以下表示查询2012年所有专业分类借阅统计。

select [READER].[专业].members on columns,

[CLASSIFATION].[类号].members on rows

from [LIB_DB]

where [TIME].[年份].&[12]

5 结语

OLAP技术 篇6

早期高校每个部门有各自不同的管理系统,例如财务管理、网络计费、餐饮管理、图书借阅、学籍管理等系统。这些系统都是相互独立的,数据库和数据结构都不相同。有些数据是定期清除,很多数据都没有得到重视。校园实行一卡通后,学校很多信息汇集在一起。一般高校校园卡一年的使用记录约1亿条,几年下来数据库近百Gbit信息量。面对如此大的数据量,可以应用OLAP和数据挖掘技术对其分析和处理,挖掘海量信息中隐含的关系,得到对决策有益的信息。

2 校园一卡通

一卡通在校园数字信息化建设中发挥重要作用,由早期各个子系统分离变成一个汇集多子系统的大系统。该系统具有很强的适用性、安全性、可用性、可扩展性等特点。在高校管理领域使用的一卡通系统,目前已经覆盖了身份认证识别、门禁管理、考勤管理、无障碍通道管理、校园综合收费管理、无线校际班车收费、图书馆管理、网络计费、会议签到、校园餐饮收费管理、预付费水电管理、校园浴室和开水房管理等,真正实现了“一卡在手,走遍校园”。如图1为某高校数字化校园一卡通系统拓扑图。

3 OLAP 和数据挖掘技术

3.1 联机分析处理(OLAP)

联机分析处理(OLAP)技术是1993年由E.F.Codd提出的,它是以数据仓库或大型的数据库为基础,对海量信息进行复杂分析的一种技术,可以说是和数据库相联引伸出来的在线分析处理的程序。OLAP技术特点:快速性、数据多维性、可分析性、信息性和共享性。各级管理者或决策者可从各个方面,对数据仓库中的信息进行快速地多维分析、处理以及复杂的查询,同时可以为多维数据分析提供多维视图。其潜在的数据能为许多用户群共享。联机分析处理系统中数据是多维数据结构,也叫数据立方体。常用的数据立方体结构的分析操作有切片、坐标旋转、上钻、下钻、切块等。多维性是联机分析处理技术的核心灵魂。

OLAP是一个采 用多用户 的三层C/S结构 , 由OLAP服务器提供数据存取 ,报表的预处理及交付后台处理。OLAP数据结构包括三种:MOLAP(多维OLAP)、ROLAP(关系型OLAP)和HOLAP(混合型OLAP)。

3.2 数据仓库(DW)

数据仓库由比尔·恩门(Bill Inmon)于1990年提出,数据仓库是一个能够更好地为组织或企业决策分析处理提供支持的、面向主题的、不能更新的、不断变化和集成的数据集合。以前我们研究的是如何把数据写入数据库,现在我们要研究的是如何把数据从海里数据中挖掘出来有用的信息。数据仓库技术是在已有大量数据库基础上,为了决策需要从大量数据中对数据资源进一步挖掘而产生的,它和通常所说的“大型数据库”是有区别的。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部 分构成了OLAP与数据仓 库系统体系。如图2所示。

3.3 数据挖掘技术(DM)

一种较为公 认的说法 数据挖掘是 由G.Piatetsky-Shapiro等人提出的。数据挖掘是对数据库中隐含的知识发现过程,是从数据仓库或大型数据库中寻找隐蔽的、不可预计的、不寻常的、也许有用的信息的过程。数据挖掘的方法多样,常见的主要有聚类、趋势、预测、关联分析、检测离群点和演变分析等。挖掘的任务就是从数据仓库或大型数据库中获得隐含的、事先不知的有用知识。可以说数据挖掘技术是使数据仓库提升价值的一种技术,是研究数据库过程中非常有应用价值的新技术。数据挖掘技术涵盖了大型数据库、机器学习、智能技术、统计学等诸多方面的技术和理论。其主要研究集中在各种评价方法和挖掘算法上,包括基于约束的挖掘方法、可伸缩的数据挖掘方法、复杂数据类型的挖掘等。数据挖掘不仅能对数据库进行简单检索调用查询,从微宏观方面也可以对这些数据进行分析统计及推理,对实际问题起到指导性作用,发现事件之间存在的关联,根据得到的知识甚至可以对未来的活动进行预测,为各级管理者提供决策支持。数据挖掘的过程如图3所示。

3.4 OLAP 和数据挖掘的区别和联系

OLAP和数据挖掘是两种不同目标的数据分析技术,都是基于数据仓库基础上的技术。但是两者存在区别:联机分析处理用在验证假设,数据挖掘则用于产生假设。OLAP是由管理人员所主导,管理人员利用联机分析处理来验证假设成立与否, 通过这个方便地数据分析方法得到对决策有用的信息; 数据挖掘能够通过程序主动地去挖掘数据中隐藏的规律, 应用各种分析算法得到有用的知识 (假设)。人们可以用这些假设通过OLAP再做分析处理, 发现有用信息帮助人们更有效地进行决策。探索信息的方式不一样, OLAP是管理人员在做探索,而数据挖掘是用工具在帮助做探索。两种技术本身是相辅相成的, 两者相结合就能使得分析操作智能化和挖掘操作目标化。挖掘发现的知识可作为OLAP的假设条件, 为OLAP拓展分析深度提供了基础。这样就可以帮助OLAP更仔细的分析,可以发现更复杂的信息;OLAP分析得到的结果加入系统知识库中,作为数据挖掘的依据,对数据的进一步挖掘提供了分析信息。

以校园一卡通购物超市消费子系统为例,校园超市营销分析人员在为超市商品摆设做规划时,大都会认为方便面和矿泉水会是常被一起购买的商品,这就形成了一个假设。应用OLAP的工具可以对这个假设做验证此,判断假设是否为真,又可以知道事件成立的证据有多明显;但用数据挖掘技术就不相同,操作员只需要将海量的消费数据进行整理,不需要假设。通过挖掘技术可找出存在于数据中的潜在规则,得到的结果可能出乎预料的。于是我们可能得到例如方便面和牙膏被一起购买的概率更高, 这种意料外之发现是OLAP所做不到的。以数据仓库为基础的OLAP与数据挖掘技术相互融合,形成互补,是未来商务智能技术发展的趋势。

4 应用 OLAP 和数据挖掘为餐饮消费子系统做决策分析

我们把海量的食堂消费记录作为数据源,通过包装器把数据的格式转换为数据仓库使用的格式。由集成器对数据源中提取的数据进行过滤、转换、汇总等操作集成到数据仓库中。应用OLAP技术按照食堂经营者的思考方式组建多维数据立方体结构,每个多维数据组的子集都有一个分析主题。比例时间是一个维度,菜品名称、销售餐厅、客户群类、消费份量分别是一个维度。形成了具有不同主题的多维数据集,经营者可以从不同角度分析获取数据,还可以实现多角度综合分析或各个角度动态切换分析。同时结合数据挖掘技术对隐含信息进行深层挖掘,得到更多对决策支持有用的知识。比如可以了解学生的消费情况, 通过消费情况了解家庭经济条件。也能够了解学生什么季节喜好什么菜品, 有计划地多采购学生当季喜好的菜。男女生分别喜好什么菜品和不同菜品同时消费较多的等信息。学校管理者和食堂经营者利用这些信息可以做 决策 ,对学生饮食习惯做研究等等。

5 OLAP 和数据挖掘为图书借阅子系统提供决策支持

通过决策树的方法将学生的借阅信息分类综合,主要包括借阅时间、书籍名称、还书时间、图书门类、性别、年龄等。根据学生的借阅情况分析学生的阅读喜好和潜在的规律。图书管理人员可以根据学生喜欢阅读的书籍摆放在比较容易找到的地方,根据需求多采购学生偏好的书籍,可以分年龄段、性别、专业等了解不同的借阅信息。教育工作者可以对借阅信息做深层挖掘,了解学生知识的需求方向,为教育方向提供决策支持。

6 结束语

基于OLAP的高校财务决策研究 篇7

联机分析处理 (On-Line Analytical Processing, OLAP) 能对多维数据进行分析操作, 给用户提供一幅幅直观的视图, 从而对数据获得更深入的了解, 具有快速性、可分析性、多维性、一致性和交互性等特点[1]。OLAP服务器一般作为数据仓库系统的中间层, 是用户预定义的多维数据视图, 它对数据仓库的信息进行统计分析处理, 可为具有明确分析范围和分析要求的用户提供高性能的决策支持。

本文通过分析高校财务决策的若干需求, 应用数据仓库建模分析方法, 对财务决策数据仓库的主题域维度模型进行设计和实现, 并对基于OLAP的高校财务决策应用作了一些研究。Microsoft SQL Server 2005的Analysis Services多维数据集对数据仓库中的所有数据提供了统一和集成的视图, 可作为传统报表、OLAP分析和数据挖掘的基础, 本文的研究都是采用Analysis Services多维数据集完成的。

1 高校财务决策业务分析

1.1 高校财务信息化状况

目前高校的财务管理已基本实现了信息化, 并建立了相应的财务网络, 通过财务数据库来实现财务信息的管理。然而, 数据库中的财务信息相对孤立, 财务信息系统一般也只注重财务数据的汇总核算和自动生成财务报表等功能, 没有对各项指标进行多角度分析, 与其他相关的管理系统也没有良好的接口。高校的财务数据分布在各个部门, 财务数据往往来自多个数据源, 数据算法不同, 结果当然存在差异。财务信息系统中没有足够的历史数据, 不利于查询和分析[2]。高校财务决策数据仓库能高效地利用财务数据, 并产生相应的财务图表, 为各级部门提供有效财务数据信息, 帮助决策人员进行分析决策。

1.2 财务决策业务流程及数据

高校财务决策业务流程如图1所示。财务决策需要对学校的基本财务数据进行数据提取, 再分类实施财务历史数据比较和未来数据预测, 数据分析处理后输出决策数据信息。

高校财务决策数据仓库中的数据源来自能提供财务数据的计划财务处、人力资源处、科研管理处、资产设备处、基本建设处和后勤管理处等部门的管理信息系统。例如计划财务处提供历年的各部门的财务信息和职工的工资信息;人力资源处提供历年的人才培养和人才引进所发生的财务费用信息;科研管理处提供历年科研成果转化和项目开发所产生的费用信息;资产设备处提供历年设备购买和设备使用情况的详细信息;基本建设处提供学校的基建项目费用信息;后勤管理处提供高校历年进行的后勤建设详细信息。

财务决策数据仓库的数据采集是把各业务系统中的数据加载到数据仓库中, 它需要考虑采集的周期和时间, 以满足数据的及时性和实时性等特点, 通常分为面向数据的采集和面向报表的采集。面向数据的采集是从各业务系统的源数据库或某些文件中直接取得;面向报表的数据采集是将一些影响决策分析的信息从报表中读取或人工录入。对于决策的不同主题, 除了基本数据外还必须有汇总数据。汇总分财务科目汇总和项目汇总。在财务决策数据仓库中, 需要处理的数据都面向某一个主题, 如何分析和处理, 需要区别对待。

2 高校财务决策数据仓库的设计

2.1 高校财务决策的需求分析

高校的决策者, 必须经常关注很多问题, 并得出有价值的答案。如:学校的科研项目业绩怎样, 哪些项目处于稳定发展, 哪些项目需要继续扶持?学校职工工资待遇怎样, 哪些职工需要调整工资?学校需要引进哪些人才, 哪些是急需人才, 人才的专业方向怎样定位, 人才培养教育计划和目标怎样?学校的资产状况怎样, 当前需要更新哪些资产?而这一切都需要钱, 学校的财务状况怎样, 分别能投入多少钱?

2.2 财务决策数据仓库主题域的设计思路

面向主题是财务决策数据仓库的主要特征, 财务决策数据仓库的数据都围绕主题组织, 主题所包含的数据个体都是与高校决策有关的数据。财务决策就是资金管理决策。教学、科研、资产、职工工资、学生收费、后勤、基建等都离不开资金, 所以财务决策数据仓库的主题域归根到底就是资金管理。高校领导需要对整个学校和各部门、各项目所需资金做出总决策, 而各部门、各项目内部的资金, 也需要进一步做出决策, 为此有一个资金管理主主题域, 主主题域又分出若干子主题域, 如职工工资、学生收费、后勤信息、资产信息、科研信息、教学信息等子主题。

2.3 财务决策数据仓库的具体设计

2.3.1 财务决策数据仓库总体结构

财务决策数据仓库的总体结构如图2所示。它从多个数据源中获取数据, 经过ETL工具对数据进行清洗、分类后, 存储在数据仓库的内部数据库中。在具体决策主题下, 根据需要获取不同维度的数据, 分析维度数据的层次, 建立相应的事实表和维度表, 内部数据库中的数据再通过数据加载工具向数据仓库提供数据信息, 从而实现数据仓库。数据仓库建立并载入数据信息后就可对其中的数据进行查询和OLAP分析应用。

2.3.2 数据仓库的数据设计

财务决策数据仓库的数据可分为详细数据和综合数据。详细数据是每天发生的所有数据, 综合数据是汇总后的数据。数据仓库的数据量不断增加, 常用数据与不常用数据会自然分化, 不常用数据需要存储在备用存储器中。决策者可能会有各种决策需求, 因此应对数据进行相应的划分。按数据的使用频率不同将数据划分为:详细数据、轻度综合数据 (每月的汇总数据) 和高度综合数据 (每年的汇总数据) 。高校财务数据是必须长期连续存放的, 财务一般都是按月过账, 数据文件每月生成一次, 数据历史记录很多, 数据文件很大。汇总数据是综合数据, 数据量相对较小, 而各类决策的结果数据其数据量更小, 是高度综合数据。

在数据仓库中, 基础数据始终处于关键位置, 要保证在任何时候、任何过程都能选取, 以便以此为依据作出正确的决策。

3 数据仓库系统实现

财务决策数据仓库的逻辑模型采用星型模型与雪花模型相结合的方式, 根据决策要求, 按主题的需要, 建立事实表和维度表。然后, 从各数据源中抽取数据, 集成到数据仓库中。

事实表是数据仓库的核心, 包括键和可以用于汇总统计的详细指标, 是构成数据仓库的所有类型表中体积最大的, 它通过键将各维度表组织起来[3]。根据不同主题设定的逻辑模型, 有不同的事实表。为了将数据按内在的逻辑关系有序地存放在维度表中, 维度表提供了所描述对象的详细属性[4]。

财务决策数据仓库的主逻辑模型包括:资金明细事实表、经费类别维表、部门维表、科目维表、项目维表、负责人维表、时间维表等, 它以高校计划财务处的账务处理数据为主。采用星型结构, 其模型如图3所示。

对各部门、各项目的子主题域, 还建立了相应的逻辑模型。如职工工资、学生收费、后勤费用、资产信息、科研项目、教学信息、基建投资等逻辑模型。

4 财务决策数据分析

4.1 财务决策OLAP分析系统设计

高校财务决策数据仓库的重要功能是应用联机分析处理 (OLAP) 技术对高校的财务数据进行决策分析, 具有图表浏览功能, 能产生相应主题的数据图表[5]。

财务决策OLAP系统以学校的各种管理信息系统为基础, 将数据源中的数据经过清洗、转换和集成后加载[6]到财务决策数据仓库中。加载过程中要注意几点: (1) 由于外部数据来自不同的系统, 相同数据的代码和数据类型其表示可能有所不同, 为此必须统一, 不统一的和不利于分析的需要改变; (2) 往往要从数据源的几个相连接的表中抽取某几个字段的数据或只抽取某些符合条件的数据, 这时必须注意输入正确的命令, 以便得到所需的结果; (3) 对类似年龄这种随时间变化的数据需要随时间计算, 要先建立一个临时表, 在临时表中进行计算, 再将临时表的数据抽取到正式表中; (4) 为避免多重粒度数据在一个表中存在带来数据冗余及更新异常等多种问题, 必须采用基本表与视图相结合的方式; (5) 考虑到数据查询与分析主要是按项目进行, 本数据仓库中不再保存员工工资、学生交费和学生奖贷勤等个人信息, 只保存它们按项目的各种汇总信息, 这样不至于増加新的事实表和维度表。

财务决策数据仓库通过OLAP服务器、OLAP设计工具向客户机提供数据分析服务。复杂的数据逻辑都存储在学校各信息系统服务器上, 数据仓库的数据按主题组织, 使得财务决策多维分析设计避开了复杂的数据结构, 提高了分析处理的速度, 分析的设计与实现由一般的业务处理人员即可完成, 提高了系统的效率、可用性和可扩展性。

财务决策数据仓库OLAP, 能从不同角度、不同层次、不同时段来查询和分析数据。它的各种分析方法都以剖析数据为目标, 可以深入了解包含在数据中的规则信息。在取得决策财务信息数据后, 通过图表的方式将这些数据展现给用户。图表制作可以根据图表的主要内容进行定义, 按照不同项目、不同部门、不同职称以及各种明细生成相应的图表, 可以选择项目、设备、工资、人才等多个费用种类。灵活的设置可满足不同用户的需求, 能够随意确定维度及相应的值, 可以根据需要任意组合各种输出内容, 能进行纵向或横向分析, 使用户可以清晰、直观地看到分析结果。例如查看学校各个部门某一学期用于教学的费用情况、汇总教师的教学课酬、预测下一年度的教师教学费用, 分析各学院的经费收支组成、经费收支时间分布和所有经费的汇总等, 这些信息对学校的管理人员和决策者都极为有用。

数据展现方式有多种, 在实际使用中, 针对高校财务决策的业务特点, 面向财务管理人员和决策人员分别采用不同的展现方式, 对决策者展现的是高度综合的汇总数据, 对一般管理人员展现的则是相对详细的汇总数据。

实际设计时通过选择OLAP多维数据集, 建立OLAP服务器的连接, 生成各种数据透视表, 利用设置的报告格式或图形格式, 自动生成报告或图形;对多维数据进行各种复杂查询时则采用MDX语言设计。MDX语言是操纵数据仓库中多维数据集数据的强大工具, 它是OLAP的扩展, 类似SQL语言[7]。

4.2 财务数据OLAP分析决策典型实例

利用某大学的财务数据进行OLAP分析。如对3个学院的年人均科研费用进行钻取分析和结果展示, 可得到如图4所示结果。从图4中可以看出, 电气院的年人均科研费用是其他两个学院的数倍以上, 且呈明显扩大趋势, 电气院的科研项目很多, 科研经费充足, 数学院的科研经费很少, 几年来没有多大变化, 还呈下降趋势。数学院从事的是基础教育, 基础打不好, 培养的学生没有后劲。此分析结果显示, 学校应该加强数学院等学院的管理, 科研项目和经费要向这些院系倾斜, 通过増加应用课题, 与其他院系联合开展科学研究, 应该能走出科研项目过少和科研费用不足的困境。

当对上述3个学院的职工年平均收入进行钻取分析和结果展示时, 可得到如图5所示结果。从图5中可以看出, 3个学院职工的年平均收入几乎相同, 电气院的只稍高一点, 且无论那个学院, 3年来职工的年平均收入都很少增加。职工的年平均收入包括职工工资和科研提成, 职工的年平均工资各个学院都相差不大。比较图4可知, 科研项目多、科研费用收入高数倍的电气院职工, 他们的年平均收入并没有增加多少, 很显然, 这是极不合理的, 电气院职工投入科研的精力肯定也是其他院职工的数倍, 但多劳没有多得。因此, 要把学校办成研究型大学, 学校决策者除应加大科研投入, 培养、引进科研带头人外, 还必须彻底改变科研收入的分配政策, 不断提高职工的年平均收入水平。

进一步OLAP分析, 还可以得到如图6所示的2005-2007三年全校科研到账、新增资产设备和职工工资的3项经费汇总的直方图。

从图6中可以清晰地看到, 学校在这3年内的科研到账、新增资产设备和职工工资的3项经费的汇总情况。通过分析计算, 可以对下一年度的相关费用进行规划和分配。

由图6进一步可以得到如图7所示的2005-2007年3项经费汇总变化规律图。

图7反映了学校3年内科研到账、新增资产设备和职工工资3项费用汇总后的动态变化规律, 新增资产费用和职工工资近3年都是平稳增长, 而科研到账经费2007年则是大幅度增长, 据此可预测今后3项费用的变化趋势, 同时也提醒学校领导必须采取更加有力的措施才能保持科研到账经费的增长速度。

5 结束语

通过使用Microsoft SQL Server 2005的Analysis Services多维数据集, 应用OLAP, 为高校财务决策提供了直观的、有力的支持, 提高了学校办学经费和科研经费的利用率, 促进了高校各部门的协调和平衡发展。如提出更多的决策主题和深入进行数据挖掘, 决策OLAP的应用将使高校财务管理系统获得更高的实用价值。

参考文献

[1]刘翔.数据仓库与数据挖掘技术[M].上海:上海交通大学出版社, 2006.

[2]赵宝华, 阮文惠.高校财务数据仓库的设计与实现[J].计算机工程, 2008, 34 (17) :266-268.

[3][美]Paulraj Ponniah.数据仓库基础[M].段云峰, 译.北京:电子工业出版社, 2004.

[4][美]Erik Thomsen.OLAP解决方案:创建多维信息系统[M].第2版.北京:电子工业出版社, 2004.

[5]陈国旗.数据仓库在高校财务管理系统中的应用[J].中国计量学院学报, 2004 (4) :323-326.

[6]罗坤莉, 李志蜀.基于数据仓库构建性能综合分析系统[J].计算机应用, 2008, 28 (6) :166-168.

上一篇:服务校友下一篇:西方文论