数据仓库技术(精选12篇)
数据仓库技术 篇1
引言
随着因特网的飞速发展, 以及数据库技术与管理系统的不断完善和广泛应用, 数据库中积累的数据量越来越大, 但是“如何更好更有效地利用数据”这一问题却越来越困扰着人们。这是由于当前的数据库系统虽然可以很好地实现关于数据的“增删改查”等功能, 但却无法挖掘出隐藏在数据背后的知识。数据仓库就是一种新产生的数据存属地, 它的建立并非要取代数据库, 而是作为数据挖掘的新平台, 用来支持高层决策分析。我们可以看到, 数据仓库因为其强大的决策支持力, 即将发展为数据挖掘领域的新的主战场。
1. 数据仓库的定义
数据仓库之父W.H.Inmon是世界上首位给出数据仓库的定义的著名学者, 他给数据仓库定义如下:数据仓库是用于支持管理决策过程的、面向主题的、整合的、不同时间的、稳定的数据集合。主题是数据的归类标准, 每个主题基本地对应于一个客观的分析领域, 它可以帮助辅助决策系统来继承不同系统多个部门大量数据。这些数据在进入到数据仓库之前, 需要经过加工集成, 因为要将不同数据来源的数据统一结构和编码, 使原始数据从面向应用转变为面向主题。数据仓库里存储着大量历史数据, 这些数据在经过集成进入到数据仓库中之后是非常少甚至不更新的。数据仓库的数据时间大约在5年到10年, 而且它的数据量也很大, 通常在10GB级, 是一般等级数据库的数据量的约100倍, 更大型的数据仓库甚至达到一个TB级的数据量。由上述可以看出, 数据仓库的目标在于帮助相关部门作出更加明智的、符合规律的决策。截至目前, 很多公司都已经开发了相似的产品, 比如IBM、Oracle、Sybase、NCR和Informix等等。
2. 数据仓库的功能组成
数据仓库是数据仓库系统的核心, 它主要是通过对数据分析和报表模块查询以及相关分析工具 (比如:决策分析、OLAP、数据挖掘等) 来完成信息提取工作, 用于满足决策需要。
数据仓库的构成主要包括数据仓库、数据分析与报表、数据源、元数据管理、业务数据仓库、数据管理、传输和基础结构。相应的, 作为一个完备的系统, 数据仓库系统至少应该具备以下三个基本的功能:
(1) 获取数据
该功能部分主要负责由外部数据源获得数据。在数据被区分出后, 对其进行复制或定义新的格式等处理过程, 最后准备将其载入到数据仓库中。
(2) 存储管理数据
该功能部分主要负责数据仓库内部的维护和相关管理, 它要提供包括数据维护、数据存储组织、数据分发、数据仓库维护等在内的一系列服务。
(3) 信息访问
该功能部分面向数据仓库的最终用户, 在结构上属于数据仓库前端。最终用户可以利用这部分功能提取、分析信息以及实施决策, 从而提升自己的竞争优势。而用来进行数据访问动作的软件工具主要有多维分析工具、数据挖掘工具和查询生成工具。从目前来看, 这也是工具制造商竞争最为激烈的部分。
3. 数据仓库建设中需注意的要点
数据仓库是数据库领域内一种全新的应用, 它与以往的数据库应用有着比较大的差别, 所以需要要采用与以往几乎完全不一样的方式方法。前文已经说到数据仓库面向主题的特性, 由此我们知道, 数据仓库的核心就是主题, 所有的系统过程都必须围绕主题来开展。因此, 在数据仓库的建设中我们必须注意以下几点:
(1) 需求分析
在任何项目的开展中, 需求分析都占据着非常重要的地位。同样的, 数据仓库建设也需要从分析数据开始。所谓分析数据包括两个方面, 一是由数据来提取需求, 二是由需求来找数据。对于数据仓库来说, 它的开发过程也就是不断完善原型系统的过程。一般来说, 用户的全程参与对项目的成功必不可少, 但是对数据仓库却恰恰相反。因为原型系统需要满足的是企业的决策支持要求, 所以在需求分析阶段我们需要特别注意不要让太多的用户参与到其中来。
(2) 数据污染
很多旧数据经常夹杂着许多无效甚至可能有害的信息, 在数据移动到数据仓库和数据清理的过程中, 如果不加注意, 最终将很有可能危害建设的数据仓库。统计表明, 百分之八十甚至更多的查询工作是集中在数据库的某一段小部分进行的, 而这部分却也十分容易受到伤害。因此, 我们在数据入库的阶段一定要采取严格的措施以避免错误的、被污染的数据进入到数据仓库中。在实际过程中, 我们可以利用数据搬迁工具来在一定程度上防止这一问题的发生, 比如EXTRACT、Warehouse Manager、EDA/Copy Manager等。但是仅仅这些还不够, 我们还需要一些数据净化软件来帮助用户来对数据进行语法分析和语义分析, 利用神经网络方法、模糊逻辑方法或者机遇规则方法等找出数据间的关系, 从而实现数据净化。
(3) 评价指标
截止现在, 主要有两个专门关于数据仓库的评测指标:TPC-D和Data Challenge。TPC-D测试的结果主要是用于给用户提供一个选择数据仓库的软硬件平台的一个初步参考。而Data Challenge则比较注重系统动态查询能力的考察。所谓动态查询就是所有的查询全部不公开, 参加测试的厂商没有办法作出预先调整。
4. 小结
数据仓库技术是数据库领域新的研究范围, 由于应用需求、和方向的不同, 数据仓库的建设也不可避免的与以往的开发管理思路有所矛盾, 但总体而言, 建设数据仓库的社会大趋势已经不可否认。目前市场上已经开发了一些比较完善成熟的系统, 比如SKICAT, CASSIOPEE, LBS Capital Management等。随着信息时代的继续发展, 数据仓库一定会有更加广阔的前景, 数据仓库技术也将应用到更多更大的领域中去。
摘要:本文主要介绍了关于数据仓库技术的产生背景、概念, 阐述了数据仓库的功能组成, 以及建设数据仓库的过程中应当注意的问题, 并对数据仓库的评测标准进行了简单的说明。
关键词:数据库,数据仓库,数据挖掘
参考文献
[1]关俐, 梁洪峻.数据仓库与数据挖掘.微型电脑应用, 1999.
[2]樊玮.数据仓库与数据挖掘.中国民航学院学报, 1999.
[3]陈燕.数据仓库与数据挖掘.大连海事学院出版社, 2006.
[4]陈志泊.数据仓库与数据挖掘.清华大学出版社, 2009.
数据仓库技术 篇2
论文题目: ETL技术和数据仓库建设的研究
一、开题依据(研究目的、意义及国内外研究概况,附主要参考文献) 文献描述中人们对大数据时代下的定义中比较通俗一点是指“描述和定义信息爆炸时代产生的海量大数据时代”,何为大数据?大数据是从各种各样不同类型的数据中,快速获得有价值信息的一种前沿技术。大数据是指通过对海量的,种类和来源复杂的数据进行有效地捕捉,发现和挖掘分析,用经济的方法提取其数据价值的技术体系或者技术架构。所以,从广义上讲,大数据不仅仅是指大数据所涉及的数据,还包含对这些数据如何进行处理,存储和分析的理论,方法以及技术。 大数据在2000 年代初的数据热潮期间出现,软件和硬件功能是消费者产生大量信息,包括大量结构化和非结构化信息。在pc和移动智能终端迅速普及的当下社会,包括搜索引擎,移动设备和工业机械等新技术可提供持续增长并可处理的数据,每天都有数以亿计的海量数据产生,随着可收集数据量的几何倍增长,显而易见,传统数据技术(关系数据库)不适合与大量天文数据量的结构和非机构化数据一起使用。Apache软件基金会启动了第一个大数据创新项目,最重要的贡献来自于 谷歌,雅虎,ibm等。最常用的引擎是:ApacheHive / Hadoop 是复杂数据准备和ETL的标杆产品,使得海量的数据的存储和基于数据的分析变得更加便捷。 参考文献: Ralph Kimball.数据仓库工具箱(第三版) 王雪迎.Kettle 构建Hadoop ETL系统实践 占小忆.科技创新导报 |
二、主要研究内容(说明研究课题的具体内容及课题的新颖性,并明确重点解决的科学问题及预期结果) 随着行业数据量的爆炸性增长,由于数据量的大,复杂,快速变化的性质,传统的oltp系统,事务型数据库,如 mysql,oracle,sqlserver等已经不适用于对海量多元化数据进行统计分析挖掘,本文主要讨论和总结处理大数据的方法和现状,我们的目标就是探讨研究数据量大的情况如何有效处理数据(ETL)以及构建存储基础数据模型(数据仓库)便于数据能被更高效的使用挖掘分析。 “数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:“数据仓库是为支持企业决策而特别设计和建立的数据集合”。准确来说,数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策数据访问的各种技术和模型的总称。 打破数据孤岛的情况,对来源复杂的各个不同的业务系统的不同数据进行整合,建立一个大集合的数据仓库,构造正真意义傻姑娘的“客户同意试图”,让数据开发和数据分析人员能够切实掌握全面信息。为决策提供完备的数据依据。 “ETL”概念: (1)数据抽取(Extract),常规的数据抽取策略有:1)同步实现抽取;2)异步实现抽取 (2)数据清洗和转换(Transformation),数据转换工作进行的时机有:1)在抽取过程中进行数据处理;2)使用异步加载,以文件的方式处理;3)在数据加载过程中进行数据处理;4)进入数据仓库以后再进行处理 (3)数据装载(Load),数据的追加策略类型有:1)直接追加;2)全部覆盖;3)更新追加 预期结果:(1)选型部署一个ETL工具,完成数据的抽取,转换和装载,保证数据稳定持续,源源不断得从源系统进入数据仓库 (2)数据仓库的设计和模型建设,便于数据存储已经数据开发及分析人员便捷查询的分层模型构建 |
三、研究方案(研究方法、研究工作的总体安排和进度,理论分析、计算、实验方法和步骤及其可行性,可能遇到的问题及解决办法) 2021/1/14-2022/2/2 明确论文内容,进行相关论文资料的查找与翻译。 2022/2/2-2022/2/14 撰写开题报告 2022/2/14-2022/3/1 ETL常用应用研究 2022/3/1-2022/3/15 数据仓库构建研究 2022/3/15-2022/4/1 撰写论文 2022/4/1-2022/4/08 论文修改定稿 |
四、指导老师意见 指导教师签名: 数据仓库技术 篇3关键词:数据仓库;税务系统;数据应用;OLAP 中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 03-0072-03 The Construction of Revenue Data Application System Based on Datawarehouse Technology Yin Songtao1,Zhao Weiwei2 (1.Jiangsu Local Taxation Bureau,Nanjing 210024,China; 2.Jiangsu Entry-Exit Inspectin and Qunarantine Bureau,Nanjing 210001,China) Abstract: Based on the data warehouse technology, this article has designed the macrostructure of revenue data application system,and has researched its components ,including data processing platform, data storage platform, application services platform-OLAP engine, data presentation platform and metadata management platform, finally proposed the next step research direction. Keywords: Datawarehouse;Revenue System;Data Application;OLAP 一、引言 随着全国税务行业信息化建设的不断深化发展,各级税务机关通过开发各类税收业务系统,已基本完成各类税收业务数据的电子化采集工作,但这些系统很多是不同时期和不同渠道建设的,普遍缺少对这些宝贵数据系统、科学、灵活、有效的分析利用,无法将其从“数据”转化成为“信息”,从而真正体现信息化技术对税收管理工作的核心支撑和驱动作用,因此研究税务系统的数据应用系统建设,具有重要的理论意义和现实价值。 本文主要阐述如何借助业界成熟的数据仓库技术来构建一整套面向各级税务机关的税收数据应用系统。通过对各类现有数据进行归并整合,使之成为一个可扩展的综合数据应用平台,从而提高税收数据资源利用率,实现信息技术手段对税收日常管理工作的辅助决策支持作用。文章主要分析了“数据仓库”的基本概念和分层架构等,同时基于数据仓库技术,提出了税务数据应用系统的宏观架构,并对其中的数据加工平台、数据存储平台、应用服务平台-OLAP引擎、数据展现平台以及元数据管理平台等各组成平台进行了研究分析。 二、数据仓库概述 数据仓库概念始于20世纪80年代中期,首次出现在被称为“数据仓库之父”WiiliamH.Inmon编写的《建立数据仓库》一书中:“数据仓库是在企业管理和决策中面向主题的、集成的、不可更新的,随时间不断变化的数据集合”。换言之,数据仓库是数据积累、信息需求增长的产物,其目标是达到有效的决策支持,但它不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其按照管理目标的不同进行分类清理、转换、整合成为新的特殊存储格式,随着此过程的不断发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库。 数据仓库的最终目标是尽可能让决策者能够方便、有效和准确地使用数据仓库,但这仅靠数据仓库本身是难以实现的,必须再加上数据仓库前道的数据加工和后道的分析展现才能真正实现这一目的,而这一套完整的动态体系架构我们就称之为“数据仓库系统”。在Jiawei Han和Micheline Kmaber编著的《数据挖掘概念与技术》一书中,对于数据仓库系统划分了四个层次,具体由图1表示。 图1数据仓库系统体系结构 三、税收数据应用系统设计 宏观架构设计。鉴于税收数据应用系统的特殊性,与现有传统数据采集型生 产系统在体系架构、建模方式、应用重点等方面都有较大差异,可以看作是基于数据仓库技术的数据仓库系统的一类具体行业性应用,也应按照上述四层体系结构来建设,因此我们提出采用数据仓库的思想和体系架构来建设税收数据应用系统。根据税收数据应用系统建设的要求,税收数据应用系统的宏观架构见图2。 图2税收数据应用系统宏观架构 税收数据应用系统由从下自上的五大分层平台共同构成: (一)数据加工平台:实现不同数据之间的传递和加工,由一系列数据加工处理服务组成,包括数据交换/采集服务、数据审计(产生推送数据和预警数据,完成数据质量检查和校验)、ETL(实现不同数据模型之间的抽取、清洗、加工、转换、装载)、数据挖掘等。 (二)数据存储平台:保存税收数据应用系统中涉及的各种数据,并进行分类设计和存放。按照数据库存储数据的类型和作用分为:业务数据库、采集/交换数据库、ODS操作数据存储(主要是各类实时性比较高的明细型数据,例如一户式、一员式数据等,同时其中还包括数据审计产生的面向各级用户的各类预警/推送数据)、数据仓库/数据集市、元数据控制数据等数据库。通过这些不同类型的数据库划分,既满足不同类型应用程序的差异,又便于日常的管理维护。 (三)应用服务平台:以相对平台化的服务提供应用开发的基础平台和运行部署平台。具体包括业务处理、数据服务、采集交换、预警推送、实体查询、查询分析、报表加工、门户控制和元数据发布等主要功能。 (四)数据展现平台:将通过应用服务平台加工处理后的数据以丰富多样的形式展现给最终用户,就目前税务系统常见的展现需求而言,主要包括以下几种形式:明细查询、实体查询、多维分析、趋势分析、对比分析、排名分析、固定报表、MDX分析、图形展现等。 (五)元数据管理平台:提供应用开发人员和系统维护人员对各类元数据进行开发、维护和管理监控的平台。 在上述五项分层平台的基础上,即可搭建我们的各项应用系统,就税务行业而言,目前根据应用模式基本可以初步划分为:面向业务处理的征管信息系统、面向纳税人服务的电子申报系统和面向决策分析的税收数据应用系统,这三者通过门户手段整合到一个门户系统中。税收数据应用系统是比较全面的应用系统建设,由于篇幅所限,我们这里重点阐述整体系统架构中的数据加工平台、数据存储平台、应用服务平台中与OLAP相关的部分、数据展现平台以及元数据管理平台。 1.数据加工平台。 数据加工平台由数据加工服务器、管理监控平台、数据加工规则三部分组成,实现从源数据(一个或多个)到目标数据(一个或多个)的数据加工,系统的结构见图3。 图3数据加工平台总体结构 2.数据存储平台。 税收数据应用系统的核心在于数据的科学、合理的存储和管理,从数据类型划分、数据分布、数据用途、数据时效性等角度进行分类和设计,税收数据应用系统中包括以下类型的数据: (1)业务明细数据:由业务处理系统产生和管理,数据的组织以业务处理 (OLTP)为主,数据时效性要求比较高,通常只保存近期(二至三年内且处于活动状态)的数据,业务明细以满足业务处理的性能作为中心进行结构设计,通常基于ER模型(实体-关系模型)进行设计和存储。 (2)操作型数据存储(ODS):通过数据抽取从业务系统数据库获得的数据,或通过数据采集/交换系统直接录入的各种业务数据,可以直接提供各种明细数据的查询服务,数据的时效性为接近实时,数据结构组织上贴近于业务处理系统。 (3)历史明细数据:由业务处理系统和ODS数据库中迁移出来,通过一定的数据清洗和转换后形成的历史明细数据;历史明细数据通常为处于稳定(不再发生变化)的数据,对历史明细数据访问的时效性要求通常不高,历史明细数据即数据仓库中的细节数据,历史明细数据满足对业务历史数据的访问要求。 (4)主题分析数据:从历史明细数据基础上通过数据的加工和聚合产生的业务分析数据,业务分析数据通过以业务主题为中心,主题分析数据的数据时效性要求不高。 通过这种不同粒度和不同层次的标准划分,来满足各类用户的数据应用需求,结合税务系统而言:对于一线税管员而言,他关心的是所管辖的每户纳税人的当月申报明细数据,以便确认该纳税人是否按期、按项、足额纳税;对于中层科所长而言,他关心的是本单位的各类轻度汇总的统计报表,以便及时调整近期的管理重点和管理方式;对于局领导而言,他关心的则是所辖各单位的高度综合数据,以便确保宏观整体工作进度,例如省局局领导所关心的是各省辖市局的最新税收入库数和计划完成数,相反他不会去关心某个纳税人当月的纳税项目和纳税金额。 3.应用服务平台-OLAP。 目前市面上有很多OLAP引擎的第三方产品,虽然种类众多,但使用基本一致。例如:Mondrian是一个使用Java开发的开放源代码的ROLAP服务器[3]。它实现了XMLA(Xml For Analysis)和JOLAP(Java Online Analytical Processing)规范,而且自定义了一种使用MDX语言的客户端接口。在功能上,Mondrian支持共享维和成员计算,支持星型模型和雪花模型的功能。 4.数据展现平台。 数据仓库的数据以及分析结果需要用一种灵活的方式展现出来,其中包括报表、查询、多维分析等多种方式提供给最终用户使用。通过对税收管理决策业务的分析,我们认为数据展现平台重点不在于其实现了多少功能,而在于其是否支持灵活扩展性,我们需要的是对于大部分查询、统计、报表、分析而言都能够由操作人员根据实际需要动态配置后即可使用,而不能是固化在程序中无法修改调整,即大部分的应用功能应基于应用开发平台配置生成,无需编码。因此我们考虑数据展现平台应至少由以下三部分组成: (1)数据展现器:提供最终用户使用的数据展现器,实现数据的展现功能。其应能实现门户管理、通用查询、通用报表和通用分析等功能。 (2)数据展现设计器:提供开发人员使用的设计工具,完成数据展现功能的设计和开发。 (3)资料库和控制库:资料库和控制库中保存数据展现相关的各种元数据,包括用户、组、角色、功能定义、权限、数据源等,可以以XML文件形式进行保存。 5.元数据管理平台。 元数据管理是数据仓库系统中提出的概念,“元数据”即描述数据的数据,用来对数据的定义和内涵进行描述,便于使用人员(包括技术人员和业务人员)理解数据库和数据仓库保存的、及应用功能中展现的各种数据,包括数据的格式、含义、加工过程、业务算法等,形成对数据全方面的理解,并在此基础上形成对数据的分析和应用。根据上述对元数据的定义,元数据管理平台将元数据划分为以下几种: (1)业务元数据:即数据标准定义,主要实现税收数据应用系统中的涉及的税务术语的统一定义和管理。 (2)模型元数据:对保存在数据库、数据仓库、数据集市中的数据项的结构和含义进行描述。 (3)ETL元数据:对数据加工处理过程中的指标数据的加工过程和业务算法进行描述。 (4)应用元数据:对数据分析利用阶段的业务功能的内容、指标的口径和算法进行描述。 四、总结和展望 本文设计了税务数据仓库的宏观体系架构,并对其中的数据加工、数据存储、OLAP引擎、数据展现平台以及元数据管理等设计工作进行了研究。但还有如下几方面内容需要进一步考虑: (一)税务系统的数据仓库建成之后规模一般都很大,从建立之初就要保证它的可管理性,需要进一步解决如何使数据可用性和系统稳定性达到最大,并优化性能;在数据仓库的应用中迅速反映变化的业务环境;管理数据仓库应用程序的生命周期等。 (二)现有数据应用系统主要是针对关系型结构化数据的分析应用,随着税收信息化应用的不断深化,电子照片方式的档案资料将会更为增多,这些资料在提高数据的准确性方面和降低税务人员的录入工作量方面具有非常重要的现实意义,如何加强此类非结构化数据的应用将是下一步的一项重要工作内容。 (三)随着近几年DW2.0概念的提出,我们将结合DW2.0的思路,对现有的中心数据仓库进一步划分为:交互区、整合区、近线区和归档区[4],以进一步区分不同的数据类型,同时对VODS(虚拟操作数据存储)等新技术进行分析。 参考文献: [1]W.H.Inmon.Building the Data Warehouse[M].JohnWiley&Sons Inc,1993 [2]Jiawei Han,Micheline Kmaber.数据挖掘概念与技术[M].范明等.北京:机械工业出版社,2001:61-67 [3]Mondrian[EB/OL].Sourceforge网站Mondrian专题,2007,1,26 [4]W.H.Inmon.DW2.0 WHITE PAPER[EB/OL].Inmoncif网站DW2.0专题,2006 作者简介 殷松涛(1979-),男,软件工程硕士,研究方向:数据仓库、数据审计、数据库管理等; 数据仓库与数据技术的研究与应用 篇4数据仓库与数据挖掘技术 作为一种体现历史变化的数据集合, 集成性、主题性和稳定性是数据仓库的显著特征, 其突出作用主要表现在支持管理和决策等方面。对于数据仓库概念的理解, 具体包括两个方面:其一, 支持决策中数据仓库的应用着重表现在分析型数据处理方面, 在企业操作型数据库中较为常见;其二, 作为多个异构数据源的相互集成, 数据仓库的主题重组过程中通过对历史数据的分析促进数据仓库数据信息的更改。企业业务系统与业务数据构成了企业数据仓库建设的重要基础和前提。所谓的数据挖掘技术需要从各种模糊的、不完全的和有噪声的数据中提取有效信息, 这些随机数据是核心知识形成的潜在过程。在结构化的原始数据中, 关系型数据仓库的形成需要借助图像、文本及图形等方面得以体现, 这就使得异构型数据的处理更加便捷, 应用性成为了数据挖掘技术的核心特征。 数据仓库与数据技术的应用 1 查询支持 决策支持是数据仓库的技术核心, 这就需要从体系结构方面切实提高查询支持的实时性与准确性。通常联机事务处理系统的更新在查询性能方面显得较为薄弱, 只读方式是数据仓库设计的主要形式, 因此数据仓库更新过程并无显著效果。而数据仓库有着专门的机制保障, 在管理员控制和系统自动更新的共同配合下突出了数据挖掘技术在查询支持方面的技术优势, 在实时交互中提高决策者思维的连续性, 知识挖掘有着更加丰富的潜在价值。 2 数据集成 从企业内部数据综合处理角度分析, 结构关系更为复杂的全局模式是后期数据挖掘技术需要面对的问题, 这一方面建立在数据仓库基础之上的数据挖掘技术对于高层扎战略决策需求的满足有着积极的指导和促进意义。这不仅是对数据挖掘障碍问题的解决, 同时也使得准备阶段数据挖掘处理和收集工作的开展更加便捷, 通过整理和合并操作完成了对数据信息的处理和分析。在数据挖掘的核心处理时期, 数据仓库还能够根据不同类型的粒度集成来综合各项数据信息的内容, 这对于多层次知识挖掘是不可取少的技术支持。 3 数据执行 从数据库系统执行效率扩大角度分析, 往往采取对数据量进行控制的方式来达到预期目的, 在基于数据仓库的数据挖掘技术能够从庞大的数据量中实现对数据信息的组织与重构, 降低数据索引及数据监控中存在的困难。针对传统数据库系统存在的时间轴问题, 可通过对历史数据的挖掘来将其数据特征进行对比, 进而完成对数据趋势的全方位分析。对于决策者决策行为而言, 数据仓库是重要的动力支撑, 然而当前在数据挖掘技术应用方面还需要解决的问题还有时间轴方向上数据仓库的纵深性研究。 4 并行处理 短小、密集是传统联机事务处理系统在用户访问系统方面的主要特征, 而多处理机系统的技术关键则是在于对用户请求的均衡化处理, 也就是所谓的并发操作。这就使得数据仓库建设中更加重视并行处理的重要性, 这就涉及到数据库系统运行中的数据分割并行、分解并行以及跨平台下的多处理机并行处理等问题, 这显然是对各处理机硬件系统使用功能的更新与扩展。 数据仓库与数据挖掘结业论文 篇5参考题目: 1.数据挖掘技术在数据仓库中的应用 2.关联规则在数据仓库中的应用 3.Aproior算法及其改进 4.决策树算法综述 5.聚类技术在XXX中的应用 6.XXX分类算法在XXX中的应用 7.分类算法的比较 8.聚类算法的比较 9.…… 10.…… 要求如下: 1.最上面内容为:姓名、学号、专业和成绩,见模板。 2.题目居中,宋体4号字加粗。 3.正文:首行缩进2个汉字,宋体小四号,行间距为1.25,页面设置为:左-2 右-1.5 上-2 下-2.左侧装订。 4.若包含图或表,则居中。 5.至少4页,并在每页下面的中间加上页码。 模板如下: 姓名___________ 学号____________ 专业______________ 成绩_____________ 题目 1.引言 2.XXX 3.XXX 4.… 数据仓库技术 篇6关键词:数据仓库;数据挖掘;数字化校园 中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 04-0000-01 Digital Campus Application&Study against Data Warehouse and Data Mining Technology Wang Yanpin1g,Wang Xiaoting2,Chang Xianfa2 (1.Heyuan Technology College, Heyuan 517000,China;2.Kaifeng University,Kaifeng 475004,China) Abstract:Combine the data source of the digital campus, give an architecture map of digital campus which is based on data warehouse environment, focus on the digital campus data warehouse logical model design, And the data mining algorithm apply to the digital campus, provide the decision support information for university administrators Keywords:Data warehouse;Data mining;Digital campus 一、引言 高校数字化校园数据主要存储在关系型数据库中,这些系统中,大量的数据和数据模型,都是反映历届学生的学习成绩和教师的教学任务以及教学计划。随着高校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显。本文利用数据仓库和数据挖掘技术在数字化校园中应用进行了研究。 二、数字化校园数据仓库体系结构设计 在对数字化校园各个子系统进行深入调研和需求分析的基础上,针对数据仓库的三个基本功能,提出了一个集中式数据仓库(数字化校园数据仓库)、分布式数据库(各个部门数据库)等适合数字化校园的数据仓库体系结构,如图1所示。 该系统由五个部分组成: (一)数据源:来源于操作性数据库,其主要是完成日常业务处理,其数据将成为数据仓库的数据源。 (二)多数据源集成:将来自于不同数据源(SQL、Oracle等)的数据通过数据转换服务进行导入。 (三)中心数据仓库:在已有业务系统的基础上,通过数据的抽取、转换、加载,建立数字化校园数据仓库。 (四)OLAP分析服务器:通过建立OLAP分析服务器,从数据仓库中提取数据,完成数据的统计和分析。 (五)决策支持工具:是面向用户的数据需求的前端服务,支持各种OLAP和DM操作。 三、数字化校园数据仓库逻辑模型设计 在学生等级事实维表中存储七个维表,通过这几个维表的主键,将事实表和维表连接在一起,形成星型模式用二维关系表示数据的多维概念建立星型模型后,通过维表的主键,对事实表和每一个维作连接操作,其模型如图2如示。 四、数据挖掘算法在数字化校园中应用分析 针对学生等级多维数据集,把平均成绩、借书次数、平均消费、学生等级、家庭出身既作为输入列又作为可预测列,分析处理后可得到如图3所示学生等级一层决策树模型。 在学生等级表中,所有事例为4925,其中学生等级为C的事例最多,为1726例,可能性为35.04%;学生等级表现为A的有495例,可能性为10.05%;学生等级表现为B的有1478例,可能性为30.01%;学生等级表现为D的有983例,可能性为19.95%;还有学生等级表现为E的极差事例有243例,可能性为4.93%。在这一事例图中,我们可以看到PJCJ是决定XSDJ最重要的因素,在高校教育中,抓学生成绩才是教学的关键所在。 五、结束语 采用DW+DM框架结构的决策支持系统是一种比较理想和完善的架构,该系统功能齐全、性能稳定,能对数据进行快速和准确的分析,从而帮助高校管理者做出更好的决策,提高高校管理效率,对数字化校园的利用具有一定的实用性和参考价值。 参考文献: [1]Zhao Hui Tang,Jamie Maclennan.数据挖掘原理与应用[M].邝祝芳,焦贤龙,高升.北京:清华大学出版社,2007:25-26 [2]木根.数据仓库技术与实现[M].北京:电子工业出版社,2002 [3]王艳萍,常贤发.基于数据仓库的数字化校园的设计[J].电脑知识与技术,2009,12 [4]薛红,王敏.基于DW+OLAP+DM的超市销售决策支持系统[J].计算机工程,2007,33:14 [5]王成,李民赞.基于数据仓库和数据挖掘技术的温室决策支持系统[J].农业工程学报,2008,11 数据仓库技术 篇7因此,借助于数据仓库技术建立一个专用的银行数据系统是非常必要的。通过该数据系统可以集成银行不同业务系统的数据,提供分析统计,从而提高银行的经营水平和利润率。 1 数据仓库技术概述 数据仓库中的数据组织模式是根据主题而进行综合并归类抽象的,而且具有集成性、稳定性以及随时间变化等诸多特征。数据仓库中的数据需要不断进行累积,而且更偏向于工程,设计流程如图1所示。 首先,从逻辑意义进行分析,数据仓库中的主题对企业分析领域中的对象所对应;从组织角度进行分析,相关数据及数据项之间的关联描述必须是完整的、一致的,并应该完全满足分析需求。 其次,由于原数据库系统的相关记录只是业务流水帐的处理表述,存在诸多冗余数据,不适用分析,因此数据仓库中的数据不能直接从原有数据库中导入,而需要经过计算并过滤不需要的数据项。 另外,数据仓库中的数据还包括了大量的历史数据,这些数据是企业过去业务数据的重组集合,这是与传统操作型数据库的显著区别之一。针对于数据仓库的操作是以查询为主,只有在必要时才涉及到数据的更新操作,因此稳定性也是数据仓库所必须保障的特征。 2 银行数据系统的设计分析 2.1 需求分析及功能设计 为了有效展现银行机构和用户对数据仓库的需求,本文主要是通过业务主题的形式归类并整理各类需求。当然,想要穷举全部需求是不现实的,对于业务主题之外的需求,则主要是通过联机交易形式加以满足。通过与银行业务人员的沟通,银行数据库系统的功能(业务主题)主要涉及到如下几个方面: 1)业务分析。业务分析包括跨行业务(境内外)、传统金融业务、金融创新业务等。 2)经营管理。经营管理包括绩效考核管理方面的支持、财务管理方面的支持以及银行人力资源管理等。 3)营销服务。营销服务包括活动策划支持、营销活动评估及管理以及银行忠诚客户的服务支持。 4)风险管理。风险管理包括银行业务欺诈交易、异常交易的管理以及银行黑名单客户以及其他交易风险的监控统计等。 2.2 系统的总体结构设计 根据银行数据系统的需求分析及功能设计,本文借助于DB-ODS-DW对系统的体系结构进行构架,具体如图2所示。 其中,银行数据系统的最低层:操作环境层主要处理银行金融业务的OLTP以及外部数据信息;DW层则主要是将操作环境层的业务元数据进行抽取、过滤、重组,并归纳至银行的数据仓库中;银行业务层则主要是对银行业务元数据进行分析统计,并进行各种业务操作,比如:即时查询、OLAP分析以及数据挖掘等。 3 银行数据系统的实现分析 3.1 系统的维度建模 银行数据系统的维度建模主要以星型和雪花模式为主,是支持查询的建模方式。本文主要是通过星型模式进行建模操作。星型模式的原理就是以一个事实表为中心,该事实表的Main Key主要由系统维表的Main Key所组成,可见事实表的Main Key都是外键。以银行卡事实表为例进行研究说明。 银行卡事实表的字段包括:交易时间代码、受理机构代码、交易渠道代码、借记卡活动量、货记卡活动量等。而其相关维表包括:时间维表、机构维表以及交易渠道维表。其中,时间维表的字段包括:时间代码、年、季度、月、日等。机构维表的字段包括:机构代码、机构名称、上级机构、下级机构以及机构描述等。交易渠道维表的字段包括:渠道代码、渠道名称以及渠道描述等。根据星型维度建模原理,银行卡事实表的主键是由其周围的维度主键所组成,也就是银行卡事实表的主键共有三个,分别是:交易时间代码、受理机构代码、交易渠道代码。这些主键又同时作为外键,与另外三个维表建立关联。 总之,通过星型模式的建模,对各种维表进行了统计并排序预处理,提高了查询效率。但也有不足的地方,就是当银行业务发生变化时,需要对事实表的维表个数进行重改,这是一个相对复杂并耗时的操作。这个问题可以通过在数据库建立时引入三范式来解决,因为三范式可以引入较少冗余,具有良好扩展性。 3.2 数据粒度的选取 数据仓库的一个重要概念是数据粒度,用来表示数据的综合度,也决定了数据量的大小以及数据仓库能力。数据粒度的选取应该进行权衡考虑,如果粒度过大,数据综合度虽然有所提高,但针对细节的查询支持能力就会减弱;如果粒度过小,数据的细节描述更为详细,但存储开销增加,特别是综合查询时,因为数据量过大而必须进行汇总,显然对降低了查询效率。 本文研究的银行数据系统的数据粒度分了四大层次:ODS、SOR、DPA以及DM,如图3所示。 其中,ODS层存储银行业务数据粒度的级别,对银行业务数据进行定义,并保证银行业务数据的一致性,从而满足银行中高层的决策查询。SOR层是银行数据系统的核心层,通过对ODS层的抽取,将银行业务数据转换成符合维度模型的数据形式。DPA层主要是对银行业务数据进行汇总,该层的数据粒度又细分为:日。该层为DM层以及其他下层提供银行业务数据的应用服务。DM层是根据银行业务用户的需求,对不同粒度的数据(比如说:月、季度、年)进行汇集,并提供银行业务数据的调用服务。 3.3 系统的ETL逻辑流程 ETL能够保证在规定的时间内,完成银行业务数据的自动加载,这些数据可以是初始银行业务数据,也可以是历史银行业务数据,从而满足数据的扩充需求。银行数据系统的程序较复杂,但其程序结构应该尽可能的简洁,因此应该对银行数据系统中的数据抽取程序进行优化,ETL逻辑流程的设计可以很好的平衡银行数据系统开发管理性及程序性能之间的关系。 从宏观进行设计分析,ETL作为一个整体来支持银行数据系统加载银行业务初始数据和日常数据。从银行数据系统源数据中抽取完数据后,将其保存到ODS中,并且附上时间标签。银行业务数据经过清洗、转换后加载入SOR数据库。这包括三个过程:银行业务数据变换CV(convert/Clean)、数据转换TR(Transform)以及数据加载LD(Load)。CV阶段产生CIF文件,每个目标表的加载对应一组TR程序与LD程序。清洗过程中产生银行业务源数据拒绝文件,需要对有质量问题的银行业务数据进行处理以进入银行业务数据库或者直接拒绝入库。 3.4 系统的集成转换 在银行业务数据的清洗转换过程中由于ETL对业务转换规则的理解错误或者程序代码的问题都可能造成银行业务数据的质量问题,而且当ETL程序出现异常时也容易造成银行业务数据的质量问题,因此,银行业务数据进入数据仓库都是需要进行集成转换的。银行数据系统的集成转换必须进行银行业务数据的预检查。 首先,业务逻辑检查。其次,交叉验证。包括ODS、SOR、DPA、DM层交易笔数一致、SOR、DPA、DM交易金额一致等。此外,银行业务数据完整性检查。主要包括如下一些方面:银行机构在机构关系表而不在机构基本表的记录等。 银行业务数据集成转换时如果通过预检查处理发现数据质量问题时,逆向排查数据质量问题产生的原因,并做出修正然后重新对数据进行抽取加载即可。 4 总结 总之,银行数据系统通过利用数据仓库技术,整合了银行业务相关的内外数据源,有效得升了银行的数据支持服务能力,推动了银行业务市场。当然数据仓库的建设是一个长期而又复杂的过程,其涵盖的内容还包括有数据挖掘、元数据管理、系统维护等方面。因此,随着对银行数据仓库技术研究的深入,在未来的发展应用中要对以上几个方面做进一步的研究。 参考文献 [1]张晓东,王建民.浅谈商业银行建立数据仓库的必要性[J].金融与经济,2009,1:27-28. 浅谈数据仓库与OLAP技术 篇81 数据仓库与OLAP技术概念 1.1 数据仓库 (Data Warehouse, DW) 数据仓库是一个面向主题的、集成的、时变的和非易失数据集合, 支持管理部门的决策过程。数据仓库的构建是一个处理过程, 数据仓库是一个从多个数据源收集的信息存储库, 存放在一个一致的模式下并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库系统由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成。在整个系统中, DW居于核心地位, 是信息挖掘的基础;数据仓库管理系统负责管理整个系统的运作;数据仓库工具则是整个系统发挥作用的关键, 包含用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等, 以实现决策支持的各种要求。 1.2 联机分析处理 (Online Analytica l Processing, OLAP) 联机分析处理即OLAP是一种重要的数据分析工具, 它的概念最早是由关系数据库之父E.F.Codd于1993年提出的, 他认为联机事务处理OLTP (Online Transactional Processing) 己不能满足终端用户对数据库查询分析的需要, 因此他提出了多维数据库和多维分析的概念, 即OLAP的概念。OLAP是针对特定问题的联机数据访问和分析技术。通过对信息的多种可能观察形式进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察和分析。OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的并能够真实反映企业情况的信息进行快速、一致、交互式访问, 从而获得对数据的更深入了解的一类软件技术。OLAP的目标是为管理决策提供支持, 因此可以说OLAP是多维数据分析工具的集合, 使最终用户可以在多个角度、多侧面观察分析数据, 从而深入了解数据中信息或内涵。 2 数据仓库与OLAP的关系 随着数据仓库的发展, OLAP也得到了迅猛的发展。建立数据仓库的目的是为了支持管理中的决策制定过程, 而OLAP作为一种多维查询和分析工具, 是数据仓库功能的自然扩展, 也是数据仓库中的大容量数据得以有效利用的重要保障。OLAP和数据仓库是密不可分的, 但是两者具有不同的概念。数据仓库是一个包含企业历史数据的大规模数据库, 这些历史数据主要用于对企业的经营决策提供分析和支持。而OLAP技术则是利用数据仓库中的数据进行联机分析, 它利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总, 用联机分析和可视化工具对这些数据迅速进行评价, 将复杂的分析查询结果快速地返回用户。由此可以看出, 数据仓库侧重于存储和管理面向决策主题的数据, 而OLAP主要是进行多维数据分析, 这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此, OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题, 进而满足决策支持或多维环境特定的查询和报表需求。 3 多维模型以及多维数据模型中的OLAP操作 数据仓库和OLAP工具都基于多维数据模型。在多维数据库中, 数据以多维方式组织, 经综合汇总后, 存放在多位数组中, 以提高系统响应速度;在前端展现工具中, 用表或图的形式通过维展现度量的值, 并提供灵活的分析方式: (1) 超立方结构 (Hypercube) :是指用三维或更多的维数来描述一个对象, 每个维彼此垂直, 数据的测量值发生在维的交叉点上, 数据空间的各个部分都有相同的维属性。这种结构可应用在多维数据库和面向关系数据库的OLAP系统中, 其主要特点是简化终端用户的操作。 (2) 多立方结构 (Multicube) :该结构是将大的数据结构分成多个多维结构, 这些多维结构是大数据维数的子集, 面向某一特定应用对维进行分割, 即将超立方结构变为子立方结构。它具有很强的灵活性, 提高了数据 (特别是稀疏数据) 的分析效率。多立方结构是存储稀疏矩阵的一个有效方法, 并能减少计算量。复杂的系统和预先建立的通用应用倾向于使用多立方结构, 以使数据结构能更好地得到调整, 满足常用的应用需求。 许多产品结合了上述两种结构, 它们的数据物理结构是多立方结构, 但却利用超立方结构来进行计算, 结合了超立方结构的简化性和多立方结构的旋转存储特性。 另外, OLAP多维数据还提供了多种分析操作, 常用有以下操作。 (1) 上卷:上卷操作通过沿一个维的概念分层向上攀升或者通过维归约, 对数据立方进行聚集。当用维归约进行上卷时, 一个或多个维从给定的立方体中删除。 (2) 下钻:下钻是上卷的逆操作, 它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入附加的维来实现。由于下钻操作对给定数据添加更多细节, 也可通过添加新的维到立方体来实现。 (3) 切片和切块:切片操作对给定的立方体的一个维进行选择, 导致一个子立方体。切块操作通过对两个或多个维进行选择, 定义子立方体。 (4) 转轴:转轴是一种可视化操作, 它转动数据的视角, 提供数据的替代表示。 4 OLAP技术发展趋势 目前, OLAP技术广泛应用于商业、金融、制造业、零售业、电信等行业中, 有些企业也在迫不及待地建立自己的OLAP系统。由于OLAP技术的良好发展前景, 许多专家对OLAP技术的研究成果越来越多。目前对OLAP技术的研究呈以下趋势: (1) OLAP技术与Data Mining (DM) 、Web集成 随着社会对增强OLAP系统的分析功能的需求和Internet/Intranet的发展, OLAP与DM、Web集成成为OLAP技术发展的一个新方向, 也称为基于Web的联机分析挖掘 (OLAM) 。DM也称为数据库中的知识发现 (KDD) 。DM技术是数据仓库的又一应用, 通过分析大量的原始数据, 作出归纳性的推理, 挖掘出潜在模式并预测客户的行为, 为企业的决策者提供决策支持。OLAP与DM虽同为数据仓库的分析工具, 但两者侧重点不同, 前者是分析型的, 后者是验证型的。数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了这两种技术的结合, 形成OLAM技术。OLAM技术兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性, 是数据仓库应用工具未来发展的方向。 (2) 分布式OLAP技术 (Distributed OLAP) 分布式OLAP技术是OLAP技术在分布式数据仓库上的应用。数据仓库是面向主题的、集成的、时变的、非易失的数据存储系统。它有3种体系结构—企业仓库型、数据集市型、分布型。①企业仓库型数据仓库就是通过企业数据仓库来为知识工程师提供信息服务;②数据集市型是企业数据仓库的子集, 其范围限定于特定的主题, 它可以在部门服务器上实现, 这大大降低了数据仓库建立所需的时间和费用;③分布型就是把各个部门所建立的数据集市有效地整合起来。 (3) OLAP与高级数据库技术相结合 近年来随着数据库技术的发展, 涌现出了一些不同数据类型的数据库系统, 如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库等, 与此同时出现的OLAP技术包括面向对象的联机分析处理 (Object-Oriented OLAP) 、对象关系的联机分析处理 (Object Relational OLAP) 、时序联机分析处理 (Temporal OLAP) 等新型的OLAP技术研究方向。 5 结束语 随着跨领域产业的出现, 企业决策所需要的信息量越来越大, 传统的数据库操作技术已不能满足企业决策的需求。而O-LAP技术具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点, 使用户对基于大量复杂数据的分析变得轻松而高效, 以利于迅速做出正确的判断, 从而为企业的决策支持提供服务。因此, 有效的构建和使用数据仓库能为企业做出科学决策提供更优越的平台。 参考文献 【1】JiaweiHan, Micheline Kamber.数据挖掘概念与技术 (第2版【) M】.北京:机械工业出版社, 2008. 【2】陈文伟, 黄金才.数据仓库与数据挖掘【M】.北京:人民邮电出版社, 2004. 【3】华冠萍.数据仓库、数据挖掘及OLAP之两两关系【J】.福建电脑, 2007, 8:48~49 数据仓库技术及其设计与开发流程 篇9关键词:数据仓库,相关技术,开发流程,发展前景 数据仓库是一种基于信息管理和整合的技术, 是应人们对于海量信息有效归类整理和利用的需求而产生的, 允许图书管理、档案管理、企事业各个部门共享数据, 为其决策提供更加全面的信息。 一、数据仓库的相关技术 要想拥有一个高效、优良、安全、稳定的数据仓库, 必须要涉及以下技术: (1) 管理大量数据和多种存储介质。要求通过寻址、索引、数据的外延、有效的溢出管理等方法来有效管理数据。为了实现高效率和合理的费用, 数据仓库中的技术还要能够解决多种存储介质的问题。 (2) 索引和监视数据。该技术要求能够对数据进行快速和方便的访问, 也要求能够对数据仓库中的数据能随意的被监视, 从而更好地支持对数据进行快速高效的访问。 (3) 多种技术的接口, 尤其是语言接口。数据仓库非常重要的问题是要能够用各种不同的技术获得和传送数据, 必须提供多接口技术来保证数据仓库中数据的高效传输。数据仓库需要非常丰富的语言规定, 所以访问数据仓库的语言一定要是高效的, 这样才能比较容易地进入数据仓库的接口, 较好地进行数据访问。 (4) 对数据存放位置的控制。该技术是对数据的物理位置进行调整, 使其适应该数据仓库的用途, 也使得对数据的访问更加经济。 (5) 数据的并行存储/管理。数据仓库中数据管理的最重要的特征之一是数据的并行存储/管理。当数据被并行存储和管理时, 性能会提高很多。 (6) 元数据管理技术[1]。由于元数据与数据仓库相关的开发生命周期完全不同, 所以元数据显得至关重要。为了数据仓库的用户应该能够对准确和实时的元数据进行访问, 必须采用元数据管理技术。 (7) 数据的高效装入和索引的利用技术[2]。数据仓库的一个重要的技术特征就是要能够高效装入数据。有多种装入数据的方法:通过一个语言接口一次一条记录或者使用一个程序一次全部装入。在装入数据的同时, 索引也要高效地装入。 (8) 数据压缩技术。数据仓库的成功之处在于能够管理大量数据, 达到此目的的核心是数据的压缩。 (9) 复合键码技术。数据仓库环境中一种简单而又重要的技术需求是能够支持复合键码, 这种键码在数据仓库环境中随处可见, 它可以提供方便易用、功能强大的复合索引[2]。 (10) 变长数据。数据仓库环境需要有效管理变长数据的能力。变长数据若被经常更新和改变, 就会严重影响系统性能。由于数据仓库中数据的多样性, 对数据变长结构的支持是强制性的。 (11) 锁管理切换技术。数据库技术的一个基本特征是加锁管理, 加锁管理程序就是为了确保没有两个或两个以上的用户在同一时间对同一数据进行更新, 加强并发控制的管理。 (12) 数据更新。数据仓库中, 数据量的增长速度比预计得要快, 要经常对其进行更新。更新不仅是指对原有数据的刷新, 还包括定期向数据仓库追加数据。一种方法是直接读取源数据库, 对发生变化的数据加以更新:另一方法是仅当数据变化时才对数据更新, 即捕捉数据。 二、数据仓库的设计与开发流程分析 1. 数据仓库的设计。 设计和建立数据仓库是成功创建数据仓库的关键步骤, 也是企业实施信息化的基础。设计者必须在了解用户要求基础上, 仔细分析分散在各地的数据源的结构及数据本身, 并进行语义的同化、结构的集成等复杂处理, 最后确定所采用的模型。不像OLTP系统那样以高度正规化的形式存储数据, 数据仓库中存储的数据以一种非正规化的形式存储以便提高查询的性能, 常使用星型模式和雪花型模式来存储数据, 作为OLTP工具管理的合计的基础, 以便尽可能快地响应复杂查询。转换OLTP数据库模式到星型模式的步骤为:确定事实表和维度表;设计事实表;设计维度表;实现数据仓库设计。把操作系统中数据提取出来然后加载到数据仓库中的过程, 随着复杂性的变化而变化。如果在数据源中的数据和将要出现在数据仓库中的数据直接关联, 那么这个进程非常简单。这个进程也可能非常复杂, 例如数据源的数据驻留在多个异构系统中, 并且在加载数据之前需要大量格式转变和修改。 2. 数据仓库的开发流程。 开发数据仓库包括以下步骤: (1) 启动工程。建立开发数据仓库工程的目标及制定工程计划;计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度等。 (2) 建立技术环境。选择实现数据仓库的软硬件资源, 包括开发平台、DBMS、网络通信开发工具、终端访问工具及建立服务水平目标 (关于可用性、装载、维护反查询性能) 等。 (3) 确定主题。进行数据建模要根据决策需求确定主题, 选择数据源, 对数据仓库的数据组织进行逻辑结构设计。 (4) 设计数据仓库中的数据库。基于用户的需求, 着重于某个主题, 开发数据仓库中数据的物理存储结构, 即设计多维数据结构的事实表和维表。 (5) 数据转换程序实现。从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。 (6) 管理元数据。定义元数据, 即表示、定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省位、安全要求、变化及数据时限等。 (7) 开发用户决策的数据分析工具, 建立结构化的决策支持系统, 实现和使用数据仓库的数据分析工具, 包括优化查询工具、统计分析工具、C/S工具、OLAP及数据挖掘工具等, 通过分析工具实现决策支持需求。 (8) 管理数据仓库环境。数据仓库必须像其他系统一样进行管理, 包括质量检测、管理决策支持工具及应用程序[3], 并定期进行数据更新, 保证数据仓库正常运行。 三、数据仓库的发展前景 1. 数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等方面。 。在数据抽取方面, 未来的技术发展将集中在系统集成化。它将互联、转换、复制、调度、监控纳入标准化的统一管理, 以适应数据仓库本身或数据源可能的变化, 使系统更便于管理和维护。在数据管理方面, 未来的发展将使数据库厂商明确推出数据仓库引擎, 作为服务器产品与数据库服务器并驾齐驱, 特有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面, 数理统计的算法和功能将普遍集成到联机分析产品中, 同时与Internet/Web技术紧密结合, 推出适用于Internet和终端免维护的数据仓库访问前端。在此方面, 按行业应用特征细化的数据仓库用户的端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及, 将成为数据库设计的一个明确分支, 成为管理信息系统设计的必备。 2. 计算机应用发展的数据仓库倾向是数据仓库发展的推动力。 企业传统的联机事务处理系统并不单独考虑数据仓库, 实际应用对数据仓库所能提供的功能却早有需求。因此, 许多事务处理系统陷入一个两难的境地, 表现为在现有系统上增加有限的联机分析功能, 包括复杂的报表和数据汇总操作, 一方面严重影响了事务处理联机性能, 另一方面统计分析又因系统结构上的种种限制而不能充分体现[4]。其结果是应用技术朝着更细化、更专业化的方向发展。在新一代的企业应用系统中, 数据仓库在一开始便被纳入系统设计的考虑, 联机分析应用于普遍的企业事务处理系统之中。在数据管理上, 联机事务处理和数据仓库在应用中相对独立, 使联机事务处理系统本身更加简捷有效, 同时分析统计也更为便利。面向行业的数理统计学向更为普通的应用发展, 并集成到应用系统的数据仓库解决方案中, 更好地为业务决策服务。 3. 从企业在市场上的发展变化看数据仓库的发展。 在市场上, 我们要从企业和用户两方面看数据仓库的发展, 对提供数据仓库产品和解决方案的企业来说, 严酷的竞争是永恒主题。未来的发展将表现为不提供完整解决方案的企业可能被其他企业收购, 例如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商而去构建完整的信息化解决方案。能够持续发展的企业大致有两类:一是拥有强大的数据库或数据仓库、数据管理背景强大的公司;二是专门提供面向具体行业的, 关于数据仓库实施技术的咨询公司[5]。 4. 对非结构化数据的处理, 实现共享数据和对信息进行打包。 关于非结构化数据的处理, 首先要把非结构化数据作为一种新的数据类型对待, 并把它添加到现有的关系表格中, 以便数据仓库可以存放非结构化数据;其次, 处理非结构化数据需要专用的服务器;最后, 处理非结构化数据需要一个新的检索引擎。 随着企业信息化的全面展开, 数据仓库具有更广阔的发展前景。数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等;从用户的角度看, 数据管理在传统领域, 如金融、保险、电信、档案管理等行业有其特定应用, 如信用分析、风险分析、欺诈检测、档案信息检索等, 是数据仓库应用的主要市场。在未来大规模定制经济环境下, 数据仓库将成为企业实施信息化, 并获得行业竞争优势的关键武器。 参考文献 [1]陈京民.数据仓库与数据挖掘技术[M].北京电子工业出版社, 2002 (8) . [2]杨璨.数据仓库应具备决策支持能力[J].中国计算机用户, 2005 (4) . [3]张维群.数据挖掘研究和应用现状和前景[J].统计与信息论坛, 2004 (1) . [4]田艳.数据挖掘技术的应用及发展[J].统计与信息论坛, 2004 (4) . 数据仓库技术 篇10数据仓库正是随着关系数据库、并行处理和分布式技术的飞速发展而提出的解决使用数据的一种新技术、新概念, 它是目前已知的最为广泛采用的解决方案。它不是对传统数据库的替代, 而是在传统数据库的基础上对数据进行重新组织。利用数据仓库整和金融企业内部所有分散的原始的业务数据, 并通过便捷有效的数据访问手段, 可以支持企业内部不同部门, 不同需求, 不同层次的用户随时获得自己所需的信息, 并能将网络中分布的商业数据集成到一起, 为决策者提供各种类型的数据分析。 1 数据仓库的定义及特征 数据仓库之父W.H.Inmon在《建立数据仓库》一书中提出:数据仓库就是面向主题的、集成的、不可更新的 (稳定性) 、随时间不断变化 (不同时间) 的数据集合, 用以支持经营管理中的决策制定过程。 数据仓库将不同介质、不同组织方式的数据集成转换而成为一个一致的分析型数据环境, 为不同来源的数据提供了一致的数据视图。它的最大优点在于它能把企业网络中不同信息岛上的数据集中到一起, 存储在一个单一的集成的数据库中, 并提供各种手段对数据进行统计、分析, 并且允许企业的各个部门共享数据, 为企业更快、更好地做出决策提供更加准确、完整的信息。 2 数据仓库的体系结构 数据仓库系统主要包括数据源、数据的存储与管理、OLAP服务器、前端工具四部分组成。数据仓库系统的任务就是对进入数据仓库的原始数据进行抽取、转换、过滤、清洗等处理, 最终进入数据仓库, 以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件/工具进行集合, 用以支持数据仓库应用或管理决策。数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、生产系统数据库等。这些数据源可以是集中的或分布的、异构的。数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据, 进行抽取、清理, 并有效集成, 按照主题进行重新组织, 最终确定数据仓库的物理存储结构, 同时组织存储数据仓库元数据。OLAP服务器:对分析需要的数据进行有效集成, 按多维模型予以组织, 以便进行多角度、多层次的分析, 并发现数据趋势。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。 3 银联数据服务平台数据仓库 银联数据服务平台系统又称为基于数据仓库的统计分析系统。它是在整合深圳分公司所有数据包括交易日志、商户资料、ATM终端资料、POS终端资料等的基础上, 对数据资源进行充分挖掘、实现多维统计分析功能, 给服务对象提供一个开放式 (WEB) 的资料查询、统计分析、无纸化沟通的平台, 让数据真正成为分公司、专业化公司、银行、商户进行市场决策, 提高跨行交易质量的重要依据。 系统总体设计, 银联数据服务平台统计分析系统实现的是一个基于数据仓库多维数据模型J2EE架构的业务数据分析系统。它所提供的是基于海量历史数据的分析而实现的面向决策支持层、管理层和业务运行层3个层次的功能。根据银行业务功能需求, 提出了银联数据服务平台是一个具有三层体系结构的解决方案。 数据仓库模型建立与数据组织, 数据仓库的建模主要包括建立数据仓库的概念模型, 逻辑模型和物理模型。首先, 根据业务需求确定系统边界, 分析主题域, 确定当前需要装载的主题。主题是一个逻辑概念, 它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系, 它的确定限定了数据仓库的规模和应用范围。第二, 细化主题分析内容并进行数据组织, 确定粒度划分和层次划分以及分割策略。这些操作决定着系统的信息量和查询效率, 对系统有重要影响。最后, 生成数据仓库, 设计接口, 装入数据。 在后台数据库的设计中, 采用星型模型多维数据分析模型。利用这种模型可以很好地完成以主题分析为主的数据库设计, 从而理清金融行业数据库中纷繁杂乱的海量数据。为客户从各个维度观察数据打下坚实的后台数据基础。 数据的抽取、转换及装载, 数据仓库的数据源是来自OLTP (操作型环境) 中的操作数据。这些数据源都有不同的格式、标准和含义。物理点上, 他们分布于几台PC上, 分属于不同的操作系统与数据库管理系统上, 这对数据源的采集带来了困难。数据必须首先按一定的模式进行整理与过滤 (同一对象多个实例) , 最后转换成一个数据仓库接口需要的标准数据源。 本系统使用SQL Server 2000的数据转换服务DTS包及存储过程来实现数据的抽取、转换及装载。在数据仓库生成过程中, 数据变换与集成过程十分关键而复杂, 其过程如下。 DB1、DB2→数据读取→数据转换→质量保证→数据装载→目标数据库。 数据仓库的查询, 前台查询系统负责数据的展现, 它包括日志查询、MDX (多维语言) 查询以及可视化界面查询等。 系统的前端采用JSP技术实现报表的发布, 有效减弱了业务逻辑接口和数据接口之间的耦合。同时, 很好地分离了各模块的角色和责任, 有助于提高代码的可重用性和灵活性。系统提供了多种查询统计分析界面, 包括基本的查询统计、二维动态查询、多维展现、各种固定报表输出等。考虑到用户的需求, 利用J2EE技术开发的基于浏览器/服务器模式 (Browser/server, 简称B/S) 的数据服务平台系统, 实现了数据仓库中的数据在internet上的共享, 用户使用浏览器就可以方便快捷地查询、分析。 4 结语 综上所述, 数据仓库为解决目前数据分析中遇到的问题指明了方向, 为信息分析提供了良好的平台, 基于数据仓库的联机分析处理实现了在全局数据的基础上, 实时、动态地按照分析人员意愿展开信息分析的功能, 信息分析人员通过友好的交互界面可以方便地浏览数据仓库中存储的数据。因此, 数据仓库技术在国内银行业及金融业将有良好的应用前景。 摘要:本文介绍了数据仓库的定义、特征、结构及其相关技术。结合深圳银联数据服务平台, 提出了系统数据仓库的解决方案及其实现过程。文章还讨论了联机分析处理在数据仓库环境下针对信息分析的应用, 并进行了评价。 关键词:数据仓库,数据集成,联机分析处理,数据立方体 参考文献 [1]Inmon.W.H著.王志海, 等译.数据仓库.第三版[M].北京:机械工业出版社, 2003. 数据仓库技术 篇11关键词:校园网;综合事务处理;决策分析;数据仓库 中图分类号:G717 文献标识码:A 文章编号:1671-0568(2012)08-0130-02 随着计算机技术的迅猛发展及网络应用的普及,各学校的校园网不断增加新的管理系统,各部门累积的业务数据越来越多,为了更好地利用这些数据为学校的管理提供决策依据,我们引入数据仓库技术构建一个适合中职学校发展的综合事务统计分析系统。 1 构建中职学校综合事务统计分析系统的目标。①优化学校内部管理控制,如人力资源管理、教学质量管理、教学资源管理、日常行政管理、图书档案管理等;②为学校决策者提供各种辅助决策信息,如招生分配发展趋势分析、专业及课程开设合理性分析、教学质量及教科研能力的评估分析、人力资源的需求分析、学校教学资源成本分析等。 2 学校综合事务统计分析系统的体系结构,如图1。 3 学校综合事务统计分析系统模块设计,如图2。 4 数据仓库的设计过程。①选取待建模的事实:对学生有成绩、毕业分配、招生数、档案管理等;对教师有教科研情况、所教课程、工作量、日常考核情况等;对教学资源有分类、保管、使用等;②选取粒度:对于管理,该粒度是基本的,在事实表中是数据的原子级。如时间维可按日、周、学期、学年统计,学生维可从性别、年龄、专业、班级等来统计,教师维可从性别、年龄、专业、职称、授课科目等来统计;⑧选取用于每个事实表记录的维:维是事实信息的属性,典型的维是时间、学生、教师、教学资源、事务类型和状态等。包括学生的基本信息、专业、年级,教师的基本信息、教研室、专业、课程类别,教学资源的基本信息等。它们一般变化不大,数量也相对较小;④选取事实表中每条记录的度量:典型的度量是可加的数值量。 5 前端客户层的应用设计。校园网上存在着大量的用户,不同类型的用户对数据的需求也不相同,用户对数据仓库的访问方式包括即时查询、报表生成、联机分析处理及数据挖掘等,因此系统必须根据用户的特点提供不同的访问界面。用户可以通过浏览器或其它前端工具远程或本地访问基于数据仓库和综合数据库的应用服务器。 数据仓库的构造是一项困难、长期的任务,因此应当清楚地定义它的实现范围。数据仓库的最初部署包括初始安装、首次展示、培训和定位,平台的升级和维护也要考虑。数据仓库管理包括数据刷新、数据源同步、规划灾难恢复、管理存取控制和安全、管理数据增长、管理数据库性能,以及数据仓库的增强和扩充。范围管理包括控制查询、维、报告的数量和范围、限制数据仓库的大小或限制进度、预算或资源。 数据仓库技术 篇12数据仓库是近年来新兴起来的建立在原有数据库基础上的一门新的技术,传统的数据库技术是单一的数据资源,即以数据库为中心,进行从事务处理,批处理到决策分析的各种类型的数据处理工作。随着计算机技术的迅速发展,信息已经成为人类社会中除了物资,能量之外的第三大资源。社会的信息化,使信息量急剧增长,大量的信息来不及组织和处理,面对急剧增长的信息,对数据库系统的应用只停留在查询,检索,统计等几个方面,远远没有发挥数据库中的数据的作用和价值。而数据仓库和O-LAP技术的应用将会使问题得以解决。由模型库,数据仓库,OLAP技术及交互接集成在一起形成的决策支持系统是解决此问题的途径。其中数据仓库能够实现对决策主题的存储和综合,OLAP实现多维数据分析,而前台人性化的人机交互界面可以将分析结果一览无余,它们相互辅助,实现对企业管理人员的辅助决策。 1.1 数据仓库的提出 众所周知,如何有效的管理公司和企业在运营过程中产生的大量数据和信息一直是IT人员面临的重要问题。二十世纪七十年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了强有力的工具。然而,从二十世纪八十年代中期开始,随着市场竞争的加剧,我们更需要的是从这些数据中得到有用信息,以便进行决策支持,这种需求使得在二十世纪八十年代中后期出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打下了基础。1992年,W.H.Inmon在其里程碑式的《建立数据仓库》一书中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的关注。 1.2 数据仓库的发展 数据仓库是1995年开始盛行起来的。数据仓库做为数据库的高端扩展也一直是一大热点。当企业积累了大量的业务数据之后,要充分利用这些资源,根据它们作出决策,所依赖的基础技术就是数据仓库。从目前的形式看,数据仓库已经紧跟Internet而上,成为信息社会中获得企业竞争优势的关键。据美国Meta Group市场调查机构的资料表明,《幸福》杂志所列的全球2000家大公司中已经有90%将Internet网络和数据仓库这两项技术列入企业计划,而且有很多企业为自己在竞争中处于优势已经率先采用。 经过长期发展,联机事务处理系统的市场至二十世纪九十年代中期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻找新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它将成为21世纪初数据库市场的一个新的增长点。 2 数据仓库与OLAP技术 2.1 数据仓库的关键技术 数据仓库在技术上可以根据数据的工作过程分为:数据的抽取、存储和管理以及数据的表现三个方面。 2.1.1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取程序将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库要求输入必要而且正确的数据,在将数据由OLTP系统转入数据仓库之前,必须对数据仓库中的数据进行整理,以保证每一数据都有统一的格式,而不会生成数据不一致的问题。除了数据一致性之外,用户还要检查并更正错误的数据。程序员可以自行编写程序或是用现有的工具来进行数据检验工作,虽然这是一项繁琐的工作,但却是一项必要的工作,否则分析出来的结果将没有任何意义。数据仓库的数据不要求实时响应,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 2.1.2 数据的存储和管理 数据仓库的关键是数据的存储和管理。数据仓库的组织管理方式决了它有别于传统数据库的特性,同时也决定了它对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 2.1.3 数据的表现 它们主要集中在多维分析、数理统计和数据挖掘方面。多维分析是数据仓库的重要表现形式,由于MOLAP(多维OLAP)系统是专用的,因此,关于多维分析领域的工具和产品大多是ROLAP(关系OLAP)工具。在实际工作中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。 2.2 联机分析处理(OLAP)技术 联机分析处理(OLAP)与人们更为熟悉的联机事务处理(OLTP)相比较,OLAP描述了这样一类的技术,既专门为特殊的数据存取和分析而设计的技术,而OLTP仅仅依赖于关系型数据库,OLAP逐步成为事务型数据的多维视图的同义语,这些多维视图是由多维数据库技术所支持的,他们为数据仓库应用中所需的计算和分析提供了技术基础。 在实际应用中,OLAP常常包括对数据的相互查询,这项活动发生在通过多种途径的一系列分析之后,如对底层细节的进一步挖掘。 2.3 OLAP的结构 OLAP结构包括逻辑构件和物理构件。 2.3.1 逻辑结构 OLAP的功能结构由三个服务构件组成:数据存储服务、OLAP服务、用户描述服务。在这种情况下,功能结构是三层的客户机/服务器结构。 2.3.2 物理结构 物理结构包括基于数据存储技术的两种方式:多维数据存储和关系数据存储。 多维数据存储主要有两种选择,即多维数据存储于工作站客户端或是OLAP服务器上。 在第一种情况下,多维数据存储于客户端,它实施胖客户端,用户可以按范围来分析,这是一种漫游选择,只在数据加载至工作站时,网络才成为瓶颈。它可能存在的副作用是操作的安全性和数据的安全性。此选择具有交通形式,它将多维数据存储于数据站场一级,以便为每一个工作战配置本地存储和访问所选的多维数据的子集。 第二种情况,多维数据存储与OLAP服务组合在一起。工作站并不那么胖了,它抽取源于数据仓库的数据,然后将其转换为多维数据结构,存储于数据站场服务器。 3 数据仓库与OLAP 虽然数据仓库和联机分析处理(OLAP)这两个术语有时可互换使用,但它们却适用于通常称为决策支持系统或业务智能系统的不同组件。这些类型的系统的组件包括一些数据库和应用程序,用于为分析人员提供支持组织机构决策制定所需的工具。数据仓库是一个数据库解决方案,包含那些通常表示某个组织机构业务历史的数据。通过分析这些历史数据,可以支持对分散的组织单元进行从策略计划到性能评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不象在联机事务处理系统(OLTP)中那样是为处理实时事务。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。 4 数据仓库的总体设计 数据仓库的设计是一个商务分析的框架。首先,数据仓库可以提供竞争优势。通过提供相关信息,据此测量性能并做出重要调整,以帮助战胜其他竞争对手。其次,数据仓库可以加强生产能力,因为它能够快速有效的搜集准确描述组织机构的信息。再次,数据仓库促进了与顾客的联系,因为它跨越所有商务门类、所有部门、所有市场,提供了顾客和商品的一致视图。最后,通过一致、可靠的方式长期跟踪趋势、式样、异常,数据仓库可以降低成本。关于数据仓库的设计,四种不同的视图必须考虑:自顶向下视图、数据源视图、数据仓库视图和查询分析视图。自顶向下视图使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来的商务需求。 数据源视图揭示被操作数据库捕获、存储和管理的信息。这些信息可能以不同的详细程度和精度建档,存放在由个别数据源表到集成的数据源表中。 数据仓库视图包括事实表和维表。他们提供存放在数据仓库中内部的信息,包括预先计算的综合与计数,以及关于源、日期和原时间等的信息。商务分析视图是从最终用户的角度透视数据仓库中的数据。 数据仓库的设计是个反复的过程,需要仔细的规划和分析。而且数据仓库的设计决不同于操作型数据库的设计,数据仓库的最终目标是对大量数据进行快速访问。 5 联机分析处理(OLAP)子系统的设计 在OLAP中,多维数据集(cube)是分析的基本单位,一个多维数据集代表了一个特殊的查询区域,所以多维数据集的建立就显得尤为重要了,本文的多维数据集采用的是多维数据集建立的一般模式,即建立事实表、度量,确定维度、维度层次,建立计算成员等。 一个多维数据集是由一定数目的维度和度量结合而成的整体存储单位。在本系统中,销售分析包括: 度量:销售金额,销售数量,折扣,国内市场销售百分比(计算成员),国外市场销售百分比(计算成员)。 维度:时间_年季月日,客户_地理分布,员工_年龄分布,员工_年薪分布,产品_类别,产品_供应商。 运费分析包括: 度量:销售数量,运费,单位运费(计算成员)。 维度:货运公司,客户_地理分布,产品_供应商,产品_类别,时间_年季月日。 6 结论 随着信息产业的不断发展,各个行业对信息的应用也已经不在像从前只是在查询、检索上面做文章,而是要从大量的信息中找到一种适合发展的趋势,这为数据仓库的提出及其以后的发展打下了基础。实践也证明,在数据库技术发展的今天,数据仓库及其技术在商业中的重要性也是大势所趋,成为兵家必争之地。 摘要:随着社会的发展和进步,信息已经成为人类社会中除了物质、能量之外的第三大资源。与此同时,市场竞争的加剧和信息社会需求的发展,从大量数据中提取(检索、查询等)制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策支持的数据,而传统的数据库系统已经无法满足这种需求。这就需要新型的数据贮存与处理技术——数据仓库。 【数据仓库技术】推荐阅读: 数据仓库12-14 银行数据仓库06-06 数据仓库工具06-13 实时数据仓库06-30 外汇数据仓库07-01 财务数据仓库12-19 协同数据仓库01-04 数据仓库及数据挖掘论文02-18 Oracle数据仓库09-28 数据仓库模型构建10-11 |