数据仓库工具

2024-06-13

数据仓库工具(共8篇)

数据仓库工具 篇1

摘要:随着信息技术的发展和大量业务数据的积累, 数据仓库的开发建设受到越来越多的关注和重视。但是, 数据仓库涉及到很多计算机理论和技术, 而且在设计、规划和实施等阶段中, 也会遇到各种困难和风险。文章针对数据存储和处理这个关键环节, 来介绍构建完整的企业级数据仓库将面临的技术难点, 并根据实际项目经验, 给出如何利用ETL工具解决问题的实践思路和方法。

关键词:数据仓库,数据处理,ETL,ODI,接口

1 数据仓库的体系结构

数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。它通常是指一个数据环境, 通过提供当前和历史数据来辅助决策支持。数据仓库的组成部分有:数据仓库数据库、ETL工具、元数据、访问工具、数据集市、数据仓库管理等。通过对多个异构数据源进行有效的集成, 并按照应用主题进行数据重组和展示, 就形成了数据仓库系统。由此, 根据应用需求的不同, 数据仓库的体系结构可以分为以下四种:

(1) 两层结构:源数据系统经过处理直接加载到数据仓库; (2) 独立型数据集市:加工成多个独立的数据集市来满足多种应用需求; (3) 依赖型数据集市和操作型数据存储:完整的数据仓库, 多个源数据系统先集成到操作型数据存储 (ODS) , 再转换、加载到数据仓库, 最后形成部门级数据集市。文章描述的就是此体系结构的构建过程。它的特点是:整合多个复杂的源数据系统;实现各种复杂的数据转换处理;提供多层次的数据访问;满足多部门的即独立又交叉的应用需求; (4) 逻辑型数据集市和实时数据仓库:没有独立的数据集市, 体现数据加工的实时性。

2 数据仓库的ETL过程

ETL过程是数据加工处理过程的统称, 包括三个部分:抽取、转换和加载。它的目的是为决策支持应用提供一个单一的、权威的数据源。数据仓库的ETL过程是整个系统实施的关键环节, 关系到数据仓库的建设成效。无论从理论上还是从实践上来说, 运用ETL工具是一个必需的、明智的选择。文章以Oracle公司的软件产品ODI11g来讲解。

3 ETL的技术难点

数据仓库的数据存储有四个层次, 即源数据系统、ODS、企业级数据仓库和数据集市。运用ETL工具就是实现数据在这四个层次中逐层递进的三级加工处理过程。虽然每一级处理都具有抽取、转换、加载的处理, 但是它们的侧重点还是有区别的。

(1) 源数据系统到ODS过程:将多个异构数据源集成到统一的数据集结区ODS, 重点是抽取处理, 兼有字符集转换、数据类型转换等处理。 (2) ODS到企业级数据仓库过程:将操作型数据转换成事件型数据, 重点是转换处理, 包含清洗、调和、导出、匹配、合并等多种复杂处理。 (3) 企业级数据仓库到数据集市过程:将数据按照应用需求进行组合, 重点是加载处理, 还涉及到索引、更新等处理。

下面, 结合三级处理, 从四个方面描述常见的技术难点及应对。

3.1 数据抽取

(1) 静态抽取:为了保证源数据的一致性和完整性, 应该抽取操作型数据相关的代码数据和编码数据。这些数据特点是量小, 变化小, 可以采用全量刷新方法。ODI工具中, 编制一个接口, 指定源表和目标表, 确定LKM和IKM, 即可实现。此方法也适用于初次抽取操作型数据。 (2) 增量抽取:源数据系统包含大量的业务数据, 必须通过增量更新的方法才能做到有效的抽取。因此, 增量更新问题是一个最重要、最根本的技术问题。ODI工具内置的变化数据捕获机制 (CDC) 能有效地解决这个问题。实现思路如下:为源表指定日记知识模块JKM;将源表添加到CDC列表, 并启动日记;编制接口时, 勾选日记记录的数据, 并指定增量模式的IKM。此外, 还可以通过编制ODI过程代码来利用现有的物化视图实现增量更新。

3.2 数据转换

(1) 关键维度的统一:多个源数据系统集成后, 首先面临的问题就是关键维度的统一。不同的业务系统有各自不同的关键维度 (如纳税人识别号, 纳税人电子档案号) , 这就必须统一到唯一的维度。解决这个问题, 可以采用对照表的方法。实现思路如下:选定主要的、核心的业务系统的关键维度;以此维度为主, 建立其他业务系统的维度对照表;ODI工具中, 编写接口时, 增加连接维度对照表, 增加字段映射。

(2) 数据表的合并:业务系统中可能存在同一事件信息存储于不同的数据表中的情况。ETL过程需要将分散的数据转换到一个数据表。虽然可以编写多个ODI接口实现, 但是不可避免地存在数据完整性风险, 且编制繁琐、执行效率低下。建议采用多个源数据集来实现, 思路如下:在ODI接口中, 配置多个源数据集, 并设置数据集的顺序和关系;以第一顺序数据集为主, 分别设置目标数据项映射关系;指定带有多数据集功能的标准LKM和IKM。

(3) 数据表的拆分:业务系统的单一数据表中可能包含同一维度下的不同粒度的数据, 这时就需要将源表数据拆分成多个目标表。常见的情况是, 纳税人财务报表数据表中同时包含月报、季报和年报。由于ODI 11G版本中限定每一个接口只能有一个目标数据存储, 所以必须采用新的方法来处理。这里, 介绍两种方法来实现。a.编制多个接口, 封装在一个程序包中。步骤如下:分别编制多个接口对应多个目标表, 将最后一个接口的“清除日记表”选项设置为真, 其余接口该项为假;建立程序包, 按顺序导入这批接口。b.改造标准IKM, 添加插入数据步骤。步骤如下:编制普通的ODI接口, 实现一个目标表的加工;模拟执行接口, 并分析执行语句和顺序;获取与目标表相关的语句;复制IKM, 并编辑, 按照原目标表语句增加其余目标表的执行步骤;指定新的IKM。此方法优点是执行效率高, 缺点是改造IKM需要一定的技术储备, 且增加了项目的整体复杂度。

(4) 最新有效数据的问题:分析源数据系统的业务规则时, 会发现有多次记录业务操作数据的情况, 例如更正申报。这就要求在数据转换时, 应以操作时间最新或者操作序号最大的记录作为有效数据。解决的方法有两种:a.编写2个接口, 利用临时表存储最新操作时间或最大操作序号, 然后再关联源表数据, 最后将2个接口依次导入程序包。b.改造IKM接口, 增加2个新步骤, 修改1个原步骤, 具体如下:新增步骤-创建临时表;新增步骤-在临时表中插入满足业务逻辑的最新有效凭据 (时间或序号) ;修改步骤-在目标表中插入关联到临时表的源表数据。

3.3 数据加载

(1) 创建目标表主键:虽然在接口中可以指定目标表的主键, 但是标准的ODI处理并不能自动生成该主键。为此, 改造IKM来实现这个重要功能:选择适当的IKM, 为其增加一个选项, 并指定类型和默认值;在原IKM步骤中, 增加一个创建主键的新步骤, 并在此步骤的选项栏次中勾选新增选项。

此方法的原理是通过一个自定义选项来控制IKM的逻辑判断, 由用户通过配置来决定是否执行此步骤。

(2) 实现增量的全量加载在企业级数据仓库和数据集市中, 常常需要对不同粒度的数据进行加载, 例如将月度数据加载到年度分析中。为此, 文章提出以增量的全量方式加载数据, 提高效率。具体思路如下:获取增量中所有的月度;删除目标表中包含这些月度的年度数据;重新获取源表中包含这些月度的数据, 并加工成年度数据;加载年度数据到目标表。

数据仓库是包含一系列理论和技术的综合环境, 它的目的是为数据分析和决策支持提供历史的、丰富的、可用的数据。由此, 数据的存储和处理也紧紧围绕这一目的而展开。在这个过程中, 工具软件有着不可替代的重要作用。很多开发建设理念就集成在工具软件的应用中。只有充分理解其基础功能, 将其不断改造完善, 才能使这些理念和规则落地, 支撑起整个数据仓库。

最大数据仓库 篇2

实验室的工程师设计了新的硬件和软件技术,将20万块硬盘放进水平推拉的抽屉,然后放置到机架进行安装。为了能够给硬盘降温,IBM将抽屉设计的比我们平常见到的更宽以尽可能多的放进硬盘,并将配满硬盘的抽屉塞进一个液态循环水冷的垂直机架中。在软件方面,IBM精心设计了他们的磁盘奇偶校验和镜像算法,如果单块硬盘发生故障,系统会从其它硬盘读取备份数据并写入到替换后的硬盘中,这就使得这台超级计算机依然能够处理数据。算法会控制数据重建的速度,并能够处理多块硬盘同时损坏的情况。

IBM存储研究总监Bruce Hillsberg表示,他们的算法使存储系统中的数据能够做到“万年不朽”,同时还不会对性能造成影像。Hillsberg进一步认为,尽管这个120 PB的存储阵列上如今看起来有些“疯狂”,不过对于云计算来说,存储的作用正在愈发显得重要。

这一阵列目前正在搭建一个即将对外发布的客户端,其有可能用于高性能计算(HPC)项目,来存储大量的建模和仿真数据。包括全球气候模型,地震图形,大型强子对撞机(LHC)以及分子数据和模拟等项目将会从逐步增长的存储空间中受益。

点评:数据储存一直受到设备发热、数据错误、排列密度以及存储介质等方面的限制,一旦突破,将为资源整合化处理提供一个新的平台。

120PB有多大?

苹果公司最初推出的5GB iPod广告语“口袋里的1000首歌曲”,照此计算,120PB可以保存大约240亿首歌,平均3分钟一首也得听14万年。

水冷系统

使用流动液体作为散热的冷却系统,由散热器、水管及一个水泵组成。散热器内部有多条水道,通过循环流动排出带走CPU运行时产生的热量。

惠普数据中心

今年2月,惠普首座风冷数据中心在英格兰东北部小镇温雅德正式开张。惠普将利用该数据中心存储大量企业的数据,从而与IBM等IT服务公司展开竞争。

数据中心效率

数据仓库和数据挖掘 篇3

随着信息社会的发展,互联网的普及度越来越高,需要人们处理的数据数量随着时间的变化而急速增长。如何处理日益庞大的数据,就成了现代人必须要面对的问题。因此,开发一种可以处理大量信息、并且能够辨别真伪的技术势在必行。随着技术不断的发展与创新,人们在尝试各种方法,逐渐有了自己的一套模式,数据挖掘(Data Mining简称DM)技术便是最终的结果。

1 数据仓库

数据仓库的含义:“数据仓库是用于支持企业或组织的决策分析处理的,面向主题的、集成的、不可更新的、且随着时间不断变化的数据集合。”互联网中的数据浩如烟海,如果用户在其中搜寻的话,基本上是大海捞针。而数据仓库便解决了此类问题,它把庞大的数据及信息从互联网中收集起来,并进行适当的处理、加工和分类,把这些凌乱的数据转换成公共的数学模型,这样便能够解决数据与数据之间的冲突、表达不一致等问题,同时还方便用户查询自己所需要的信息,这样便使得数据和信息在决策查询上理便捷。

2 数据挖掘

互联网中,实际的应用操作数据往往都是数量很大,不完整且具有模糊性和随机性。而数据挖掘所要做的便是提取这类数据中隐含的、不为人知的,但对人们又有潜在用途的信息和知识。并把提取的知识和信息存放于数据仓库或其他信息库中,所以说,数据挖掘是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。另一个角度来讲,数据仓库中的数据,利用挖掘技术的算法,将源数据收集起来,并进行适当的筛选及过滤变成相应信息。数据挖掘基于的数据库类型有:关系、面向对象、事务、演绎、时间和时间序列、多媒体、空间、遗产、文本、Web型以及新兴的数据仓库等。对于数据库的描述,通常是指面向对象的数据库在面向对象的程序为规范的程序设计标准。其描述对象可以是一定时期的人口、流量等数据。而关于一个对象的代码在一个单元中的封装,对象可以与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫星图像数据库等,通过数据挖掘可以发现,描述各个地区的人口或者可以根据现有的关于某小区距离中心主要道路的距离的描述来表达这个小区低价的变化程度。通过纵轴和横轴的序列数据库我们可以看出,数据挖掘可以根据数据库中的数据的变化随时随地的进行调整,从而发现数据的变化特点和变化趋势,通过对这种变化的趋势和特点的变化,帮助人们处理计划,制定发展策略等。在文本数据库中大部分是高度化的长句和短文,数据挖掘的作用是发现、描述对象和类的特征,进行关键词和内容关联性分析以及文本对象的聚类。多媒体数据库存储的是图像、音频、视频数据,在其上进行数据挖掘,这是存储和搜索技术相结合的新兴技术,这种技术中,进行多媒体数据的特征的提取和基于相似性的模式匹配等。

数据库的建设是以程序设计为标准的。无论何种先进的技术都有它的局限性,数据挖掘也亦如此,它只能对信息进行初期处理,也就是说,如果收集的数据中出现丢失或冲突的现象,用数据挖掘的算法是不可行的。

3 数据挖掘技术

3.1 数据挖掘分析方法

数据挖掘的分析方法可分为两类:直接数据挖掘和间接数据挖掘。直接数据挖掘指:L在指定的数据中,按照某一法则,提取其中可用数据,建立一个数学模型,并用此模型对余下的数据,或是对有的数据进行描述。直接数据挖掘有:分类、估值、预言。间接数据挖掘指:目标中的数据都是没有规则的,因而不能确定某一具体的变量,所以不能用模型来对其进行系统上的描述,只能通过数据之间联系,将彼此组合起来。间接数据挖掘有:相关性分组或关联规则、聚集、描述和可视化。下面本文将对分类和预测、关联分析和聚类分析三种数据挖掘方法介绍。

3.1.1 分类和预测

数据分析一般分为分类和预测两种形式,如果想要知道某种数据未来的走向,或是提取某种模型中重要的数据,可以利用数据分析形式的属性对其进行描述,然后得到自己想要的模型,并把数据合理的分类,以便使用原有数据对新数据进行预测。数据分析的两种形式,在信誉证实、医疗诊断、性能预测和选择购物等方面的用途也十分广泛。如在金融证券领域,想要在银行贷款,必须要分析贷款是否有足够安全性,风险性是否很高,如此便要建立一个分类模型,对其进行预测,例如想要成功销售一批计算机设备,我们必须要预测、分析哪类人可能是潜在的用户。

3.1.2 关联分析

关联分析在交易数据、关系数据以及其他信息载体中应用较为广泛,可以查找有关于某一个项目集合或者对象集合之间存在的频繁模式、关联、相关性、或因果结构。当然这种关联分析也可以用最小置信度和支持度找出所选范围内所有感兴趣的规则。其中最为著名的关联规则发现方法常用的是Apriori算法。关联分析大多应用在消费者一次购物时同时购买锪商品购物分析、某些商品和另外一些物品次序推销或促销以及大型工厂、制造厂里生产的产品目录设计等。如某所大学,所有学生记录中,有2%的人专业是会计且选修了数据库且成绩为A;在专业是计算机科学CS且选修了数据库DB的学生中有75%的人成绩为A。

3.1.3 聚类分析

聚类分析的方式就按照某种程度的度量方式来进行度量方法,这种方法中将用户的数据根据需要分解成相应有意义子集合。通过能否用于大数据量和不同的数据类型,能够发现不同开关和类型的聚集;对领域知识的要求昼少;对噪声或数据不同的顺序不敏感,来判断优劣,根据模型可解释。如:(1)一些特定症状的聚集可能预示了一个特定的疾病。(2)租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。

3.2 数据挖掘的一般步骤

3.2.1 数据准备

在数据挖掘初期,我们的目的是要完成初始数据的项目。而建模人员的工作要务就是在这些收集的现有数据中,提取与客户提供的主题相关的数据项,然后初步分析数据,首选用已有的程序去提取收集好的数据,然后进一步收集好的数据。然后进一步衍生变量,重复进行若干次(直到我们所要的数据变量都变成合格。)最后把这些数据整理,分类成一个文件,存于数据集市中。

3.2.2 取样工作人员在上步的数据集中随机抽取样本。

3.2.3 建立模型

取样后,建模人员要对所取的样本进行逐个分析,并将数据分为两类:训练数据集体和验证数据集体,然后选用最佳方案来建立模型或规则集。一般来说,有多种方法来出库数据挖掘的问题的类型,而这些方法通常也是与数据在形式上一一压的。因此,在建立模型的工程中,经常需要返回到初级准备阶段。

3.2.4 验证模型

模型确立后,建设人员还应该根据验证前后模型的准确性。

3.2.5 模型评估

模型评估的标准是根据上面三个步骤的模型来作为评分的。挖掘主机评分的主程序中的数据都是由已建立的模型通过循环的方式获得的。

3.2.6 执行

如若要运用模型对新的数据进行处理,可以保留或改善模型。数据挖掘的步骤并不是一个流水线,所以它不可能一次性做完所有任务。过程中有许多乃至全部的步骤需要循环进行,所以每一个阶段不是一成不变的。

3.3 数据挖掘工具的新的技术和应用热点介绍文本挖掘、网络挖掘两种。

3.3.1 文本挖掘

文本挖掘,顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,是分词技术中的关键部分,词典的运行。只有让计算机依据词典完成正确之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。目前,像IBM、微软等主流挖掘工具以及google和SNS网站都已经在使用广西挖掘技术。但遗憾的是,目前这些工具大多只支持英文,还不支持中文挖掘。

3.3.2 网络挖掘

网络挖掘从主体上来看,可分为三种挖掘:文本挖掘、结构挖掘以及点击挖掘。

4 数据挖掘(DM)实际应用

DM工具和软件已经在各个领域中得到广泛的应用,收到的效益显著。

4.1 金融方面

为了让市场经理以及业务员能够更好的融入到公司活动和设计新的市场活动中,可以用DM对不同的业务,不同的信息走向,以及一些决策进行合理的划分。

4.2 客户关系管理方面

DM不仅可以协助了解客户的行为,还可以找出产品的使用模式,从而一定程度上改变通道管理的程序,就好比只有理解顾客的作息周期性规律,才能更好的进行销售。

4.3 在过程控制/质量监督保证方面

大量变量之间的相互作用是通过DM来协调的,某些异常数据,DM会自动识别,并进行相应的处理措施,从而让技术人员能够发现问题所在的范围,并及时处理。

4.4 远程通讯部门

基于DM的分析协助组织策略变更以适应外部世界的变化,根据市场要求进行模式化的该百年来知道市场行为。在网络容量利用方面,DM客户在服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。

4.5 使用DM进行军号事信息系统中的目标特征提取、态势关联规则挖掘等。

5 总结

发展数据仓库可以促进数据挖掘越来越成熟,但是数据挖掘并不一定要有数据仓库的支持。因为数据仓库并不是数据挖掘的必要条件,有很多数据挖掘可直接从操作数据源中挖掘信息,而且数据挖掘仍然经常被看做是数据的后期市场产品。数据仓库平台的数据挖掘的构造具有很强的实用性,效率很高,节省资源。

摘要:本文阐述了数据仓库及数据挖掘的有关概念,简述了数据仓库、数据挖掘的实施过程,介绍了如何应用数据挖掘。并对数据仓库与挖掘技术结合应用的发展做了展望。

关键词:数据仓库,数据挖掘,OLAP

参考文献

[1][加]Jiawei Han Micheline Kamber.数据挖掘概念与技术[M].北京:机械出版社,2001.

[2]黄晓斌.网络信息挖掘[M].北京:电子工业出版社,2005.

[3]张云涛,龚玲.数据挖掘原理与技术版本[M].北京:电子工业出版社,2004.

[4]陈代春.数据仓库技术及其应用研究[Z].中南大学硕士论文,2001.

大数据时代的数据仓库建设 篇4

按照百度百科的解释, 大数据技术 (Big Data) , 或称巨量资料, 指的是所涉及的资料量规模巨大到无法通过目前主流软件工具, 在合理时间内达到撷取、管理、处理, 并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) 。显然上述解释仅仅是描述了大数据的一些特征, 对于企业如何开发大数据、利用大数据进行运营管理, 并没有过过多的指导。

本文建议传统企业在建设大数据系统的过程中, 不仅要建设数据分析平台, 更要构建起一个数据分析的生态圈, 让人人都是分析师, 让数据分析渗透到企业运营的每个环节, 真正实现数据运营、科学决策的管理模式。构建数据分析生态圈, 可以概括为“两个市场, 一个平台”, 两个市场是指业务数据市场、分析工具市场, 一个平台是分析观点分享平台。

2 业务数据市场, 让业务数据变得开放透明

业务数据是分析的源泉, 没有数据就谈不上大数据。企业经过多年的信息化建设, 一般都会有多套业务系统在运行, 如办公自动化系统 (OA) 、财务管理系统、ERP系统等不一而足, 但这些业务系统都是孤岛式隔离, 数据缺乏整合, 而且底层数据库都是经过专业设计, 复杂度较高, 非厂家技术人员难以使用, 通常都是利用定制报表的方式进行分析和使用。因此, 在利用数据上存在着数据提取难度高、报表需求响应慢、数据准确性差等问题。

产生上述问题的原因在于, 传统数据结构复杂, 对业务人员不开放, 利用报表的方式提供数据时, 需求人员期望的数据与技术人员提供的报表之间存在着巨大的鸿沟。建设业务数据市场就是将各业务系统的数据进行抽取、清洗、整合之后, 按照业务过程重新进行整合, 封装为统一粒度、统一维度的数据库表。这些数据表的特点就是能被业务人员所理解并解读分析, 这样业务人员可以在较早期就发现数据中间存在的问题。在建设数据市场的过程中, 有几点需要特别注意。

(1) 采用维度建模方法, 以“易懂性、易用性”为原则

业务数据市场的数据是供企业分析人员使用, 他们更多的是不懂技术的业务人员, 数据结构应该符合多数人的直觉, 而非像传统“三范式”那样, 需要借助复杂的ER图才能表述清楚。对于专业的IT人员, 尤其是要抵制将维度模型设计成“雪花模型”以节省数据重复、增加灵活性的诱惑, 从而带来模型复杂性的代价。

(2) 全面梳理业务, 实现数据的互联互通

传统企业的业务系统, 多数是烟囱式的软件系统, 若不在企业层面进行业务梳理, 就不能很好地对数据进行整合, 提取有价值的信息。在整合数据的过程中, 必须要有统一的维度才能有效实现数据整合, 比如统一的客户编码、身份证号等, 所以梳理企业层面的统一维度是实现数据整合的关键步骤。

(3) 分主题、稳步推进

企业运营涉及的业务过程众多, 眉毛胡子一把抓是不可能的。在建设企业数据市场时, 要根据企业的特点, 优先建设对运营最重要的业务, 尽快投入使用, 逐步完善, 比如一个销售类的企业可以先将订单业务整合起来。

如图1所示, 采用维度建模方法构建中间层数据结构, 可以大大降低数据的使用难度。以事实表为中心的中间层模型, 可以让业务人员将主要精力放在理解数据和业务上, 避免过多的技术细节所带来的技术门槛和恐惧心理。

将生产库的交易数据转换为维度模型, 必然带来非常大的数据转换工作量, 因此ETL过程就成了整个项目成败的关键, 选择或打造一个性能优良的ETL框架是系统的核心。笔者建议可以从选择开源的ETL框架开始, 图形化的开发框架会给研发带来极大的便利, 降低学习成本。图2为图形化的ETL开发框架。

3 分析工具市场, 打造适合需要的分析框架

数据是一座金矿, 但还需要依赖好的工具才能将金子提炼出来。直接分析原始数据虽然灵活, 但更加适用于高水平的人员, 对于大多数的一线员工, 应该提供更加易用的分析工具, 如报表、图表、报告等, 将业务指标以形象的方式展现出来。分析工具市场就是企业内部汇集分析工具的地方, 提供给员工根据自身情况使用。

分析工具市场包含两部分功能, 一是制作分析工具的开发平台, 一是运行分析工具的门户平台。在建设分析工具市场的过程中, 有几点需要注意。

(1) 分析工具市场建设

从技术角度来看, 分析工具市场可以找到众多的软件系统满足需求, 企业可以根据实际情况, 或采购、或使用开源, 搭建这么一套软件系统, 既能让企业自己定制报表、分析图表, 也能将制作好的分析报表展现出来。

(2) 分析工具的开发以企业自身为主, 外购为辅

分析工具与业务特点、人员使用习惯等因素紧密关联, 其需求变化频率高, 全部依赖外部厂家开发, 一方面费用较高, 另一方面需求响应也不及时, 可能等开发出来, 分析的需求却没有了。因此企业要培养自己的开发队伍, 可以利用数据市场中的数据开发出各类查询报表、分析图表等。

分析工具是数据分析环节最成熟、也是选择性最多的环节, 有非常多优秀的BI工具可供选择, 商业中的有Cognos、SAP等, 开源的有Pentaho、BIRT等, 但数据可视化仅是数据分析的起点, 要想将数据价值挖掘出来, 还需要数据分析人员对分析工具进行深入分析, 提炼出知识并进行固化和传播, 才能让数据发挥价值, 形成从知识到洞察的转换。图3所示为数据可视化图标类型。

4 分析观点分享平台, 让数据分析社交化

大数据时代, 在数据充裕的同时, 带来了有价值分析结果的匮乏。数据分析, 绝对不是高高在上的阳春白雪, 而是需要人人参与、百家争鸣的氛围, 要在企业内部树立人人都是分析师的理念。

分析观点分享平台的建设, 采用类似于朋友圈、微博等社交媒体的机制, 让每个人都有机会表达对数据的分析观点, 通过转发、评论机制, 让有价值的观点浮上来。在这个过程中, 分享观点的个人可以获得成就感, 转发、评论的人有参与感, 企业从中获取到对运营决策有价值的想法, 基于数据分析过程实现了科学、民主的决策。在建设分享平台的过程中, 有几点需要注意。

(1) 人员关注机制

由于企业运营不同于互联网, 存在着一定的封闭特性, 不建议采用微博关注的开放性, 而应该采用朋友圈类似的“关注-同意”的朋友机制, 避免不适当的关注带来的信息泄露。

(2) 分享范围控制

由于企业数据的特殊性, 员工在分析观点的时候需要控制分享范围, 避免机密信息的泄露。控制分享范围, 既要有人工控制, 也要从平台层面通过权限控制, 如财务数据的分享范围仅限某几个部门或人员等。

(3) 分享观点排序算法

综合多种因素对发表出来的观点进行排序, 以便让展现到每个人眼前的都是最符合期望的内容, 营造一个良好的分享环境, 避免劣质内容驱逐优质观点给生态圈带来的毁灭性打击。

5 实践

根据上述思路, 我们规划了一个数据分析平台的产品, 分为三个阶段进行演进, 即智能报表阶段、企业内部数据整合和大数据分析三个阶段, 遵循“整体规划、分步实施”的路线。在实际推广中, 引导客户优先解决现阶段最迫切的问题, 比如统计报表, 通过经营分析平台的构建, 充分调动每个人的积极性和能动性, 减少定制化工作的数量及频率, 有效利用企业经营中产生的数据。图4是数据分析平台的技术架构图。

如图5所示, 数据分析平台的第一阶段是“智能报表”阶段, 其重点是建设数据中间层、提供灵活的分析工具, 让企业的每个人都能参与到数据分析的过程中。因此, 产品的技术架构也就围绕着这两个目标进行重点建设。

其中, 数据建模和数据集市所用到的方法论就是本文第一节所提到的“维度建模”, 将中间层数据通过上层的数据分析工具开放给用户进行分析, 最终通过报表、仪表盘等形式呈现给各级人员进行决策管理, 实现数据价值的体现。

6 结束语

数据挖掘及数据仓库综述 篇5

数据挖掘就是从大量存储的数据中, 利用模式识别、统计和数学的技术, 筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术, 对数据进行归纳推理, 从中挖掘出潜在的模式, 预测未来趋势, 为决策提供支持。起初, 各种商业数据仅仅存储在数据库中, 然后逐渐到对数据库中的商业数据进行查询, 进而发展到对数据的即时遍历。数据挖掘是一种崭新的商业信息处理技术, 其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理, 从中提取辅助商业决策的关键知识, 即从一个数据库中自动发现相关商业模式。数据挖掘的一般过程如图1所示, 主要分为五个基本步骤。本文的研究思路也将以此过程为基础, 研究医学数据挖掘的基本流程。

2 常用数据挖掘技术介绍

常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类型的数据挖掘技术三大类。

2.1 统计分析类。

统计分析 (或称数据分析) 技术中使用的数据挖掘模型有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。利用这些技术可以检查那些异常的数据, 然后利用各种统计模型和数学模型解释这些数据, 解释隐藏在这些数据背后的市场规律和商业机会。

2.2 知识发现类。

知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技术。它可以从数据仓库的大量数据中筛选信息, 寻找市场中可能出现的新的运营模式, 发掘出人们所不知道的事实。知识发现类数据挖掘技术包含人工神经网络、决策树、遗传算法、粗糙集、规则发现和关联顺序等。

2.3 其他数据挖掘技术。

其他数据挖掘技术中包含文本数据挖掘、Web数据挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘等。文本数据挖掘是为了进行非结构化信息的挖掘;Web数据挖掘是针对Internet技术所带来的大批量的网络信息的挖掘;可视化系统使数据挖掘以图形或图像的方式在屏幕上显示出来, 且能交互处理, 能直观地发现隐含有用的知识;空间数据挖掘是基于地理信息系统的数据挖掘技术, 可用于地图、预处理后的遥感数据、医学图像数据和芯片设计空间数据库中非显式的知识、空间关系和其他有意义的模式的提取;分布式数据挖掘更有利于对分布式数据库数据资源的利用。

3 数据仓库概念简介

数据仓库是以数据库作为存储数据和管理资源的基本手段, 以统计、分析技术作为分析数据和提取信息的有效方法, 以人工智能技术挖掘知识和发现规律的科学途径, 是多科学相互结合、综合应用的技术。数据仓库能充分利用已有的数据资源, 帮助用户更好地理解信息, 从新的角度看待它们, 以便获得更好的洞察力, 发现模式和趋势, 从中挖掘出信息和知识, 更好地进行辅助决策。

数据仓库的特点及其与传统数据库的区别:

3.1 数据仓库是面向主题的, 它是与传统数据库面向应用相对应的。

主题是一个较高层次将数据归类的标准, 每一个主题对应一个宏观的分析领域, 它可为辅助决策集成多个部门不同系统的大量数据。数据仓库的数据量很大, 一般为10GB左右, 大型数据仓库可达到TB级。基于主题组织的数据被划分为各自独立的领域, 每个领域有自己的逻辑内涵, 互不交叉。而基于应用的数据组织则完全不同, 它的数据是为处理具体应用而组织在一起的。应用是客观世界既定的, 它对于数据内容的划分未必适于分析所需。

3.2 数据仓库是随时间变化的。

它表现在以下几个方面:首先, 数据仓库的数据时限要远远长于传统数据库中的数据时限。前者, 一般在5至10年, 而后者只有3至6个月;其次, 传统数据库包含当前数据, 而数据仓库中的数据都是历史数据;最后, 数据仓库数据的码键都包含时间项, 从而标明了该数据的历史时期。

3.3 数据仓库是一致的和稳定的。

数据仓库所反映的是历史数据的内容, 而不是处理联机数据, 主要用于进行时间趋势分析, 经集成后进入数据仓库的数据不论源于何处, 均有统一的数据结构和编码规则, 是极少或根本不更新的。

3.4 数据仓库是一个集成的信息源。

原始数据与适合DSS分析的数据之间差别甚大。因此, 在数据进入数据仓库之前, 必然要经过综合加工与集成。这一步实际上是数据仓库建设中最关键、最复杂的一步。首先, 要统一原始数据中的所有矛盾之处, 如字段的同名异义、异名同义、单位不统一、字长不一致等, 还要将原始数据结构做一个从面向应用到面向主题的大转变。

3.5 数据仓库中存放的数据为信息数据, 而传统数据库中存放的数据为操作数据。

操作数据是那些在业务系统中经常收集和存储的信息, 它由联机事务处理系统 (OLTP) 产生和更新。操作数据通常存储在关系数据中, 也可以存储在一般线性文件或按照层次组织起来的文件系统中。信息数据一般按照便于分析整理的格式存放。信息数据是由操作数据产生的, 这个过程通常需要使用数据仓库概念。

4 技术路线

4.1 数据采集。

本文所采用的数据, 主要来源于医院信息系统中存储的临床信息数据以及标准电子病历。数据通常是来自于关系型数据库或关系型数据库文件, 目前几乎所有的数据库均支持ODBC (Open Database Connecti-vity) 接口, 可以通过ODBC接口方便地与数据库进行交互。若涉及到格式化文件如EXCEL、XML (Extensible Markup Language) 文件、或其他格式化文本文件, 则利用其他应用接口来进行交互处理。

4.2 数据预处理。

考虑到本文中许多数据都是结构化数据, 很少有有噪声、冲突或缺省值的数据, 所以本文数据预处理的重点主要放在数据的融合和转换上, 第四章将详细说明。

4.3 数据类型转换。

本文采用了一种新型数据仓库设计方法, 故在数据类型转换方面实现较为方便和容易, 仍在第四章详细说明。

4.4 数据挖掘。

对预处理后的数据进行数据挖掘。本文的数据挖掘研究主要涉及三方面, 分别是疾病诊断、疾病关联分析、疾病预测分析。本文结合实例应用, 针对具体目标和资料特点, 采用不同的数据挖掘算法进行分析。本文对乳腺癌良恶性的判别分类采用了决策树模型;对肺癌的发病率预测采用了时间序列分析的GM (1, 1) 模型;对糖尿病关联知识描述采用了Apriori关联分析模型。

4.5 知识评价。

从临床信息数据中挖掘出来的知识需要经过测试数据的检验, 目的是获得知识或规则的准确性、可靠性。

4.6 知识利用。

利用获得的知识或规则, 建立临床信息分析系统, 充分利用已有数据进行复杂查询, 提供更高层次的数据分析功能, 为医务人员、临床管理人员开展医学研究和临床诊断治疗提供辅助决策与综合分析和科学管理, 提供更好的决策支持。

摘要:介绍了数据挖掘的基本概念及常用数据挖掘技术, 叙述了数据仓库的概念, 最后结合上面提及的相关内容, 提出本文所采用的研究技术路线 (数据挖掘和数据仓库技术在临床信息分析系统中的应用) 。

数据仓库工具 篇6

随着社会经济的不断发展,企业已经无法依靠物质资源获得更多的竞争优势,而是依靠智力资源-知识来提高企业的竞争力,如何有效地对知识进行管理将是企业面临的一个新挑战。21世纪企业需要新一代的系统来获取、储存、组织和共享各种知识,来提高企业的知识管理水平和学习能力。传统的基于数据仓库的决策支持系统存在许多不足:(1)以单一的数据为中心的数据组织模式,由于其自身的局限性,无法满足决策者对决策问题的定性分析;(2)缺乏对知识资产的开发使用,对决策支持过程中显性知识和隐性知识之间的转换机制的认识没有明确和完整地阐述;(3)没有提供一个有利于知识获取、储存、组织和共享的决策支持系统体系结构。基于以上需求,学者们提出了基于知识仓库的决策支持系统。本文在前人的研究成果基础上,将基于知识仓库的决策支持系统和基于数据仓库的决策支持系统结合起来构建一个基于数据仓库和知识仓库的决策支持系统。

1 基于数据仓库的决策支持系统

数据仓库创始人W.H.I nmon认为数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程[1]。数据仓库具有很强的查询功能,支持报表查询和随机的、动态的查询,能集成用户所需要的各种信息、时间趋势分析等辅助高层决策信息来帮助决策者做出决策。基于数据仓库的决策支持系统可以分为5层[2]如图一所示。

(1)数据层:包括内部数据库、外部数据库和文档记录。该层为数据仓库提供相关的数据源。

(2)数据提取-转换-装载层(ETL):根据数据仓库的主题需求,从源数据库中提取数据,将数据转换成统一的格式并装载到数据仓库中。

(3)数据仓库层:存储面向主题的、集成的、稳定的、不同时间的数据。

(4)决策支持层:利用数据挖掘(DW)和联机分析处理(O-LAP)等工具获得决策支持信息。

(5)用户接口层:问题综合和人机交互系统,接受决策者的决策请求,进行业务逻辑处理,并将决策信息返回给决策者。

基于数据仓库的决策支持系统具有以下优点:(1)数据仓库中存储了面向主题的、集成化的数据,满足了决策支持系统(DSS)对数据集成化的要求;(2)数据仓库存储了海量数据,主要有3种存储方式:虚拟存储方式、基于关系表的存储方式和多维数据库存储方式,为DSS提供了统一的结构化数据环境;(3)数据仓库中存放了随时间变化的历史数据,能够有效满足DSS的预测需求;(4)数据仓库中存储的是只读历史数据,便于查询和分析,并能为OLTP和DW等工具提供支持。

2 基于知识仓库的决策支持系统

知识仓库是一种集知识生成、编码和转移的知识管理工具,是一个知识能动系统:负责获取、净化、存储、组织、分析、发布组织内外的数据、信息和知识[3]。基于知识仓库的决策支持系统是为了建立一个能够获取、存储和共享知识的决策支持环境,为决策者的决策活动提供有力的支持,促进显性知识和隐性知识之间的相互转化。

基于知识仓库的决策支持系统可以分为以下4层[3,4,5,6,7]如图二所示。

(1)信息层:包括外部数据与信息、内部文档、信息系统和员工所拥有的隐性知识。

(2)知识层:负责知识的获取、组织与存储,主体是知识仓库,包括知识装载代理、知识库和知识引擎。

(3)用户接口层:负责知识的展现,直接面向决策者。包括分析平台、检索平台、重组平台和展示平台。

(4)决策支持层:整个决策支持体系的核心部分,是知识支持企业决策发挥效用、创造价值的场所,也是知识仓库获得知识更新的来源[8]。

基于知识仓库的决策支持系统具有以下优点:(1)知识仓库为决策支持系统提供数据源和结构化的数据环境;(2)知识仓库有丰富的知识源,能够从决策者那获得新的知识,提高了DSS的决策支持质量;(3)知识仓库存储了知识条目和相应的语境信息,使决策者了解知识的来源和背景,并加深对知识的理解,更好地为决策者提供决策支持。

3 基于数据仓库和知识仓库的决策支持系统

从以上可以看出,数据仓库和知识仓库都有利于DSS辅助决策者做出决策,但数据仓库主要是为决策支持系统提供数据源和结构化的数据环境,而知识仓库为决策支持系统提供了一个对知识进行管理的平台,有利于知识的获取、存储和共享,同时能从决策者那不断获得新知识,使知识仓库具有学习能力,提高了企业的知识管理水平和学习能力,使DSS更好地为决策者提供决策方案。将数据仓库和知识仓库结合起来引入到决策支持系统中可以实现知识管理和决策支持的融合,全面提高企业的决策支持环境,为决策者提供更加有效的决策支持。本文提出的基于数据仓库和知识仓库的决策支持系统可以分为以下5层如图三所示。

(1)数据层:该层由企业各个部门日常产生的业务数据,从外部环境中调查所获得的数据,以及企业内员工与高层领导所拥有的隐性知识组成,为DW层提供知识源和数据源。

(2)数据提取-转换-装载(ETL)层:从数据库和文档记录中提取所需要的数据,将数据转换成统一的格式,装载到数据仓库中。除了将数据库和文档记录中所需要的数据提取出来,还需要将员工和高层领导头脑中所拥有的重要的隐性知识转换成显性知识,并将其提取和转换,装载到数据仓库中。

(3)数据仓库层(DW层):该层包括面向主题的、集成的、稳定的、不同时间的数据,同时还包括由员工和高层领导拥有的隐性知识转换而来的显性知识。该层为数据挖掘(DW)和联机分析处理(OLAP)提供知识和数据支持。

(4)决策支持层:利用DW和OLAP等工具从数据仓库中挖掘出决策所需要的数据信息和知识,并把挖掘出来的知识进行分类分别放到知识仓库中的模型库、知识库和方法库中。知识仓库由模型库、方法库、知识库和知识引擎组成,其中知识引擎根据决策者提出的问题在知识仓库中的模型库、方法库和知识库中寻找相应的匹配,以便为决策者提供决策知识。知识仓库使得存储的知识可以与最佳范例以及相关的模型和方法联系在一起,提高知识存储和共享的效率。

(5)交互层:该层是决策者与系统的交互模块,决策者提出问题,交互模块从知识仓库和决策支持信息中获取相应的知识和数据将结果返回给决策者。

本文提出的基于数据仓库和知识仓库的决策支持系统与单纯的基于数据仓库的决策支持系统和单纯的基于知识仓库的决策支持系统有更多的优点:

(1)能够为决策者提供各种形式的数据和知识,提高决策效率。在决策的过程中,决策者之间的交流本身就是知识传播的过程,交流的同时也会产生新的知识,决策者的认知能力和学习能力得到提高,最终使得组织的知识管理水平和学习能力得到提高,提高了企业的核心竞争力。

(2)知识仓库引入决策支持系统,将使得决策支持过程中的显性知识和隐性知识之间的转换机制也融合到新的决策支持系统中。Nonka和Takeuchi在1994年提出了知识的SECI模型[9],即显性知识和隐性知识之间的四种转化模式:社会化(Soci al i zat i on)、外化(Ext er nal i zat i on)、组合(Combi nat i on)和内化(I nt er nal i zat i on)。(1)知识的社会化:把隐性知识转化为隐性知识。决策者之间进行相互交流将提高决策者对问题的认识并产生新的想法(如头脑风暴)。(2)知识的外化:把隐性知识转化为显性知识。决策者将解决新问题过程中所创造的知识显性化,并通过知识反馈把显性化的知识放入知识仓库中,与其他决策者进行知识共享。(3)知识的组合:把不同的显性知识重新组合形成新的显性知识。决策者把单个的显性知识重新组合形成新的显性知识解决新的问题,自身对问题的认知水平也得到提高。(4)知识的内化:把显性知识转化为个人的隐性知识。决策者在解决问题过程中将知识仓库中相应的知识和模型转化为个人的隐性知识,也是一个学习的过程。

(3)提高了DSS的学习能力。一方面决策者把自己在解决新问题时所获得的隐性知识转化为显性知识反馈到知识仓库中,更新知识仓库中的内容。另一方面知识仓库可以利用决策支持信息得到新的知识存储在知识仓库中。该体系结构提高了DSS的学习能力,能够不断地学习新知识和新经验,有效提高决策质量。

(4)该体系结构利用DW、OLAP等技术实现了从数据到信息和知识的转换,提高了DSS的智能性。

4 结束语

数据仓库为决策支持系统提供数据源与结构化的数据环境,但是不能捕获复杂的语境和知识,无法有效支持知识管理,而知识仓库给企业提供了一个能够对知识进行管理的平台,通过知识仓库进行知识的获取、整理、共享和传播,大大提高了知识的利用率。将数据仓库和知识仓库结合起来并引入到决策支持系统中可以实现知识管理和决策支持的融合,为企业提供一个更加高效的决策支持环境。

摘要:数据仓库为决策支持系统提供数据源和结构化的数据环境,知识仓库为决策支持系统提供了一个知识平台,将数据仓库和知识仓库结合起来构建一个基于数据仓库和知识仓库的决策支持系统为决策者提供决策支持信息和知识,从而大大提高决策支持的质量。

关键词:数据仓库,知识仓库,决策支持系统

参考文献

[1]Hamid R.Nemati.Knowledge warehouse:an architectural integration of knowledge management,decision support,artificial intelligence and data warehousing[J].Decision Support Systems,2002,(3):143-161.

[2]高洪深.决策支持系统理论·方法·案例[M].北京:清华大学出版社,2005.

[3]顾忠伟,李小东,陈珊珊等.知识仓库与数据仓库对比分析[J].统计与决策,2003,(7):22-23.

[4]吴应良,吴海平.一种基于知识仓库的决策支持体系结构模型[J].软科学,2004,18(4):4-8.

[5]顾忠伟,陈珊珊.知识仓库及其在决策支持系统(DSS)中的应用研究[J].科技进步与对策,2003,(10):94-96.

[6]周军,苏新宁,孔敏等.知识管理系统下的知识仓库研究[J].情报学报,2002,21(5):542-546.

[7]高明,黄敏.知识管理与决策支持系统[J].计算机与现代化,2004,(10):37-40.

[8]陈晓红.决策支持系统理论与应用[M].北京:清华大学出版社,2000.

浅说数据仓库技术 篇7

随着因特网的飞速发展, 以及数据库技术与管理系统的不断完善和广泛应用, 数据库中积累的数据量越来越大, 但是“如何更好更有效地利用数据”这一问题却越来越困扰着人们。这是由于当前的数据库系统虽然可以很好地实现关于数据的“增删改查”等功能, 但却无法挖掘出隐藏在数据背后的知识。数据仓库就是一种新产生的数据存属地, 它的建立并非要取代数据库, 而是作为数据挖掘的新平台, 用来支持高层决策分析。我们可以看到, 数据仓库因为其强大的决策支持力, 即将发展为数据挖掘领域的新的主战场。

1. 数据仓库的定义

数据仓库之父W.H.Inmon是世界上首位给出数据仓库的定义的著名学者, 他给数据仓库定义如下:数据仓库是用于支持管理决策过程的、面向主题的、整合的、不同时间的、稳定的数据集合。主题是数据的归类标准, 每个主题基本地对应于一个客观的分析领域, 它可以帮助辅助决策系统来继承不同系统多个部门大量数据。这些数据在进入到数据仓库之前, 需要经过加工集成, 因为要将不同数据来源的数据统一结构和编码, 使原始数据从面向应用转变为面向主题。数据仓库里存储着大量历史数据, 这些数据在经过集成进入到数据仓库中之后是非常少甚至不更新的。数据仓库的数据时间大约在5年到10年, 而且它的数据量也很大, 通常在10GB级, 是一般等级数据库的数据量的约100倍, 更大型的数据仓库甚至达到一个TB级的数据量。由上述可以看出, 数据仓库的目标在于帮助相关部门作出更加明智的、符合规律的决策。截至目前, 很多公司都已经开发了相似的产品, 比如IBM、Oracle、Sybase、NCR和Informix等等。

2. 数据仓库的功能组成

数据仓库是数据仓库系统的核心, 它主要是通过对数据分析和报表模块查询以及相关分析工具 (比如:决策分析、OLAP、数据挖掘等) 来完成信息提取工作, 用于满足决策需要。

数据仓库的构成主要包括数据仓库、数据分析与报表、数据源、元数据管理、业务数据仓库、数据管理、传输和基础结构。相应的, 作为一个完备的系统, 数据仓库系统至少应该具备以下三个基本的功能:

(1) 获取数据

该功能部分主要负责由外部数据源获得数据。在数据被区分出后, 对其进行复制或定义新的格式等处理过程, 最后准备将其载入到数据仓库中。

(2) 存储管理数据

该功能部分主要负责数据仓库内部的维护和相关管理, 它要提供包括数据维护、数据存储组织、数据分发、数据仓库维护等在内的一系列服务。

(3) 信息访问

该功能部分面向数据仓库的最终用户, 在结构上属于数据仓库前端。最终用户可以利用这部分功能提取、分析信息以及实施决策, 从而提升自己的竞争优势。而用来进行数据访问动作的软件工具主要有多维分析工具、数据挖掘工具和查询生成工具。从目前来看, 这也是工具制造商竞争最为激烈的部分。

3. 数据仓库建设中需注意的要点

数据仓库是数据库领域内一种全新的应用, 它与以往的数据库应用有着比较大的差别, 所以需要要采用与以往几乎完全不一样的方式方法。前文已经说到数据仓库面向主题的特性, 由此我们知道, 数据仓库的核心就是主题, 所有的系统过程都必须围绕主题来开展。因此, 在数据仓库的建设中我们必须注意以下几点:

(1) 需求分析

在任何项目的开展中, 需求分析都占据着非常重要的地位。同样的, 数据仓库建设也需要从分析数据开始。所谓分析数据包括两个方面, 一是由数据来提取需求, 二是由需求来找数据。对于数据仓库来说, 它的开发过程也就是不断完善原型系统的过程。一般来说, 用户的全程参与对项目的成功必不可少, 但是对数据仓库却恰恰相反。因为原型系统需要满足的是企业的决策支持要求, 所以在需求分析阶段我们需要特别注意不要让太多的用户参与到其中来。

(2) 数据污染

很多旧数据经常夹杂着许多无效甚至可能有害的信息, 在数据移动到数据仓库和数据清理的过程中, 如果不加注意, 最终将很有可能危害建设的数据仓库。统计表明, 百分之八十甚至更多的查询工作是集中在数据库的某一段小部分进行的, 而这部分却也十分容易受到伤害。因此, 我们在数据入库的阶段一定要采取严格的措施以避免错误的、被污染的数据进入到数据仓库中。在实际过程中, 我们可以利用数据搬迁工具来在一定程度上防止这一问题的发生, 比如EXTRACT、Warehouse Manager、EDA/Copy Manager等。但是仅仅这些还不够, 我们还需要一些数据净化软件来帮助用户来对数据进行语法分析和语义分析, 利用神经网络方法、模糊逻辑方法或者机遇规则方法等找出数据间的关系, 从而实现数据净化。

(3) 评价指标

截止现在, 主要有两个专门关于数据仓库的评测指标:TPC-D和Data Challenge。TPC-D测试的结果主要是用于给用户提供一个选择数据仓库的软硬件平台的一个初步参考。而Data Challenge则比较注重系统动态查询能力的考察。所谓动态查询就是所有的查询全部不公开, 参加测试的厂商没有办法作出预先调整。

4. 小结

数据仓库技术是数据库领域新的研究范围, 由于应用需求、和方向的不同, 数据仓库的建设也不可避免的与以往的开发管理思路有所矛盾, 但总体而言, 建设数据仓库的社会大趋势已经不可否认。目前市场上已经开发了一些比较完善成熟的系统, 比如SKICAT, CASSIOPEE, LBS Capital Management等。随着信息时代的继续发展, 数据仓库一定会有更加广阔的前景, 数据仓库技术也将应用到更多更大的领域中去。

摘要:本文主要介绍了关于数据仓库技术的产生背景、概念, 阐述了数据仓库的功能组成, 以及建设数据仓库的过程中应当注意的问题, 并对数据仓库的评测标准进行了简单的说明。

关键词:数据库,数据仓库,数据挖掘

参考文献

[1]关俐, 梁洪峻.数据仓库与数据挖掘.微型电脑应用, 1999.

[2]樊玮.数据仓库与数据挖掘.中国民航学院学报, 1999.

[3]陈燕.数据仓库与数据挖掘.大连海事学院出版社, 2006.

数据仓库与数据技术的研究与应用 篇8

数据仓库与数据挖掘技术

作为一种体现历史变化的数据集合, 集成性、主题性和稳定性是数据仓库的显著特征, 其突出作用主要表现在支持管理和决策等方面。对于数据仓库概念的理解, 具体包括两个方面:其一, 支持决策中数据仓库的应用着重表现在分析型数据处理方面, 在企业操作型数据库中较为常见;其二, 作为多个异构数据源的相互集成, 数据仓库的主题重组过程中通过对历史数据的分析促进数据仓库数据信息的更改。企业业务系统与业务数据构成了企业数据仓库建设的重要基础和前提。所谓的数据挖掘技术需要从各种模糊的、不完全的和有噪声的数据中提取有效信息, 这些随机数据是核心知识形成的潜在过程。在结构化的原始数据中, 关系型数据仓库的形成需要借助图像、文本及图形等方面得以体现, 这就使得异构型数据的处理更加便捷, 应用性成为了数据挖掘技术的核心特征。

数据仓库与数据技术的应用

1 查询支持

决策支持是数据仓库的技术核心, 这就需要从体系结构方面切实提高查询支持的实时性与准确性。通常联机事务处理系统的更新在查询性能方面显得较为薄弱, 只读方式是数据仓库设计的主要形式, 因此数据仓库更新过程并无显著效果。而数据仓库有着专门的机制保障, 在管理员控制和系统自动更新的共同配合下突出了数据挖掘技术在查询支持方面的技术优势, 在实时交互中提高决策者思维的连续性, 知识挖掘有着更加丰富的潜在价值。

2 数据集成

从企业内部数据综合处理角度分析, 结构关系更为复杂的全局模式是后期数据挖掘技术需要面对的问题, 这一方面建立在数据仓库基础之上的数据挖掘技术对于高层扎战略决策需求的满足有着积极的指导和促进意义。这不仅是对数据挖掘障碍问题的解决, 同时也使得准备阶段数据挖掘处理和收集工作的开展更加便捷, 通过整理和合并操作完成了对数据信息的处理和分析。在数据挖掘的核心处理时期, 数据仓库还能够根据不同类型的粒度集成来综合各项数据信息的内容, 这对于多层次知识挖掘是不可取少的技术支持。

3 数据执行

从数据库系统执行效率扩大角度分析, 往往采取对数据量进行控制的方式来达到预期目的, 在基于数据仓库的数据挖掘技术能够从庞大的数据量中实现对数据信息的组织与重构, 降低数据索引及数据监控中存在的困难。针对传统数据库系统存在的时间轴问题, 可通过对历史数据的挖掘来将其数据特征进行对比, 进而完成对数据趋势的全方位分析。对于决策者决策行为而言, 数据仓库是重要的动力支撑, 然而当前在数据挖掘技术应用方面还需要解决的问题还有时间轴方向上数据仓库的纵深性研究。

4 并行处理

短小、密集是传统联机事务处理系统在用户访问系统方面的主要特征, 而多处理机系统的技术关键则是在于对用户请求的均衡化处理, 也就是所谓的并发操作。这就使得数据仓库建设中更加重视并行处理的重要性, 这就涉及到数据库系统运行中的数据分割并行、分解并行以及跨平台下的多处理机并行处理等问题, 这显然是对各处理机硬件系统使用功能的更新与扩展。

上一篇:控制冲突解决下一篇:课程教学质量论文