客户关系管理数据仓库

2024-10-30

客户关系管理数据仓库(精选8篇)

客户关系管理数据仓库 篇1

(2)数据字典

数据字典是对描述数据流程图中的数据项、数据流、数据存储、加工处理逻辑等组成部分的严格定义,下面是本系统的数据字典(由于篇幅原因,在此仅给出部分)。

① 数据项的定义 数据项编号:1-01 数据项名称:商品编号 别

名:无

简 述:某种商品的编号 类

型:字符型 长

度:8字节

取值范围:数字 + 英文字母

数据项编号:1-02 数据项名称:单价 别

名:购入单价

简 述:某种商品的购入单价 类

型:数值型

度:10位,小数位2位

取值范围:0.00-9999999.99

数据项编号:1-03 数据项名称:库存数量 别

名:实际库存数量

简 述:某种商品的库存数量 类

型:数值型 长

度:5位整数 取值范围:0-99999

② 数据流的定义 数据流名称:入库单 编

号:F1 简

述:采购人员填写的商品入库凭单 数据流来源:采购人员 数据流去向:登记库存台账

数据流组成:日期 + 入库单编号 + 商品编号 + 购入数量 流通量:25份/天 高峰流通量:50份/天

数据流名称:发货单 编

号:F2 简

述:供应商填写的商品发货凭单 数据流来源:供应商

数据流去向:登记合同台账

数据流组成:日期 + 发货单编号 + 供应商编号 + 商品编号 + 发货数量 流通量:25份/天 高峰流通量:50份/天

数据流名称:取货单 编

号:F3 简

述:库管员填写的要求车间取货凭单 数据流来源:库管员 数据流去向:车间

数据流组成:日期 + 车间编号 + 商品编号 + 数量 流通量:25份/天 高峰流通量:50份/天

③ 数据存储的定义

数据存储的名称:库存台账 数据存储编号:D1 简

述:记录商品的编号、名称、单价与库存数量等信息 数据存储组成:商品编号 + 购入单价 + 库存数量 关键字: 商品编号

数据存储的名称:合同台账 数据存储编号:D2 简

述:记录合同的编号、供应商编号、货物编号、单价与购入数量等信息 数据存储组成:合同编号 + 供应商编号 + 商品编号 + 单价 + 购入数量 + 日期 + 合同状态

关键字: 合同编号

数据存储的名称:计划台账 数据存储编号:D3 简

述:记录计划的编号、车间编号、商品编号、数量等信息

数据存储组成:计划编号 + 供应商编号 + 商品编号 + 数量 + 日期 + 计划状态 关键字: 计划编号

数据存储的名称:供应商信息 数据存储编号:D4 简

述:记录供应商的编号,名称,地址,电话,传真,银行帐号 数据存储组成:供应商编号 + 名称 + 地址 + 电话 + 传真 + 银行帐号 关键字: 供应商编号

数据存储的名称:商品信息 数据存储编号:D5 简

述:记录库存商品的编号,类别,名称,规格,单价,单位,存放位置,用途

数据存储组成:商品编号 + 名称 + 类别 + 规格 + 单价 + 单位 + 存放位置 + 用途 关键字: 商品编号

数据存储的名称:车间信息 数据存储编号:D6 简

述:记录车间的编号,名称,联系人,电话 数据存储组成:车间编号 + 名称 + 联系人 + 电话 关键字: 车间编号

数据存储的名称:用户信息 数据存储编号:D7 简

述:记录用户名称、密码和权限 数据存储组成:用户名 + 密码 + 权限 关键字: 用户名

④ 处理逻辑的定义 处理名:库存检查 编 号:P1 输 入:数据流F5 输 出:数据流F6 描 述:当车间将计划单发给库管员后,库管员要将计划单与库存台账进行比较,看是否需要订货。

处理名:验货处理 编 号:P2 输 入:数据流F2,数据流F5 输 出:数据流F1,数据流F4 描 述:采购员要检验货物的质量。

处理名:出入库检查 编 号:P3 输 入:数据流F1 输 出:数据流F3 描 述:当验货处理后,库管员将货物入库,并发取货单到订货单位。

客户关系管理数据仓库 篇2

客户数据的收集与存储是实施客户关系管理的根基。随着办公自动化的推广,数据库和网络技术的应用,各企业拥有的客户信息越来越多,增长迅速。在这海量的、异构的信息资源中,蕴含着具有巨大潜在价值的信息资源,比如客户的基本资料、产品交易信息及客户反馈信息等[1]。企业要想不陷入信息的沼泽中,必须拥有强有力的数据分析工具,用以实现客户关系管理的目标。而数据仓库和数据挖掘技术的发展可以很好地解决这个问题。

1 数据仓库与数据挖掘技术

1.1 数据仓库

数据仓库是一个在企业管理和决策中面向主题的(Subject-Oriented)、集成的(Integrated)、反映历史变化的(Time Variant)、相对稳定(Non-Volatile)的数据集合[2]。

数据仓库要求数据量大,数据正确全面,所以数据在进入数据仓库前必须经过提取、转换与集成,把数据按主题分类,形成多维数据模型。它以多维数据模型为基础,实现数据的分析处理,主要用于支持管理决策。数据进入数据仓库后,一般会被长期保存,基本不会进行修改和删除操作,主要实现数据的查询。

数据仓库与传统关系型数据库不同,主要区别在于数据仓库打破了关系数据库中数据的规范性,实现了数据的重组,增加了数据冗余度;其次传统关系型数据库为了实现数据处理的及时性,要求数据尽量少,而数据仓库为了更有效的实现数据查询,要求存储的数据尽量多,实现海量存储。

1.2 数据挖掘技术

数据挖掘技术,是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、统计学、人工智能与机器学习等多个领域,并在金融、商业零售、电信以及生物医学和基因分析等领域得到广泛应用。

1.2.1 数据挖掘的概念

数据挖掘(Data Ming),是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,提取的知识一般可表示为概念(Conce Pts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式[3]。

数据挖掘是知识发现的过程,是将未加工的数据转换为有用信息的整个过程。该过程包含一系列的步骤:确定业务对象、数据准备、数据挖掘、模式评估和知识表示[4]。

1.2.2 数据挖掘的技术与方法

数据挖掘方法是以数据库为对象,基于机器学习、科学计算、统计分析等技术,形成了数据挖掘方法和技术。一般,数据挖掘常用的技术与方法可以分为以下几个方面:

1)决策树方法

决策树方法是利用信息论的原理建立决策树,主要用于分类和预测。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则比较直观,易于理解,实用效果好,影响较大,因而得到广泛应用。决策树最早的算法是Quinlan提出的ID3算法,最流行的是其改进版的C4.5算法。

2)聚类方法

聚类分析是直接分析样本,按照各样本数据间的距离远近将样本数据分成若干个不同的类。一般,同一类中的对象相似度很高,不同类中的对象相似度很差。聚类分析属于无监督的分类方法。

3)统计分析方法

统计分析方法是通过统计学中的技术方法实现数据库的数据分析,发现数据间的关系和规律。常用的方法有:回归分析、相关分析、主成分分析等。

4)关联规则

关联规则通过对给定数据集中的数据进行关联分析,描述一个事物中某些属性频繁同时出现的条件,发现隐藏在其中的有趣的联系或规律。一旦建立起数据项间的关联规则,则其中某一项的属性值就可以依据其他属性值进行预测。

5)可视化技术

可视化数据分析技术在传统图表功能基础上进行了拓展,为用户提供交互式的数据浏览,帮助用户更清楚地剖析数据。当所要识别的不规则事物是一系列图形而不是数字表格时,人的识别速度是最快的。

2 数据仓库与数据挖掘技术在客户关系管理中的应用

2.1 客户关系管理

客户关系管理(CRM)关注的是企业与客户之间实时、方便的信息交互,通过与客户多渠道的接触、交流和沟通,实现从“接触管理”到“客户关怀”的角色转变,企业的经营中心也从产品或市场转变为客户。客户关系管理最核心的任务是对企业运营过程中所得到的各种数据进行分析,进而为企业经营决策提供支持和依据。

从功能上来看,CRM系统可分为三种类型[5]:

1)操作型CRM

操作型CRM也称为流程型CRM,主要用于客户信息的自动集成过程,实现企业各部门对客户信息的协同合作。

2)分析型CRM

分析型CRM用于分析操作型CRM中产生的各种数据,使用数据仓库和数据挖掘技术产生商务智能,为企业决策提供支持。

3)合作型CRM

合作型CRM用于企业与客户的合作服务系统,包括电话、呼叫系统、电子邮件等,它能实现客户信息的全面收集。

2.2 数据仓库的形成

数据仓库是CRM的中央存储系统。在这个信息爆炸的时代,各个企业经过长期经营,收集了大量的客户数据。而这些海量、异构的数据被分散在不同部门,没有得到充分合理的利用。因此,首先要做的是对这些海量分散的数据进行清洗、集成和转换,建立一个整合的、标准化、结构化的数据模型,形成全面、一致和面向决策的数据,即数据仓库。对已形成的数据仓库,按照不同的主题,产生多个对应的数据处理模块,如普通客户数据模块,Vip客户数据模块,团体客户数据模块等,这种多数据模块的建设有利于分析不同客户的行为特点。

2.3 数据挖掘技术的应用

使用数据挖掘技术对企业客户信息进行分析,从而挖掘出对企业发展有价值的信息,如:新客户开发、交叉销售及预测、客户信用分析、客户细分、客户类别分析等客户关系管理功能,为企业决策者提供更有效的的决策支持,最大程度地发挥企业CRM的作用。

近年来,随着市场竞争的加剧,企业要想获得一个新客户,所花费的开销往往是争取留住老客户的几倍。有统计数据表明:

1)公司一般每年平均流失10%的老客户;

2)企业留住5%的老客户,利润提升100%;

3)开发新客户的成本是留住老客户成本的5-8倍;

4)一个公司如果将其客户流失率降低5%,其利润就可能增加25-85%。

因此保持老客户就显得更有价值。那么,如何才能预防、减少客户的流失呢?一个非常重要的工作就是要找出顾客流失的原因。我们可以通过数据挖掘技术实现这一目标。

现以电信公司判断用户离网的可能性来做分析,首先进行数据准备,抽取一定量的用户信息,提取的信息主要包括:用户号码、用户类型、用户状态、话费性质(长话/市话)、欠费情况、投诉次数等,利用这些数据,我们来建立判断用户离网可能性的模型。

在数据准备和适当的预处理之后,我们采用决策树中的C4.5算法建立决策树模型。这里,我们引入了信息论中的信息增益率的概念并以此作为属性选择的标准,其核心是在决策树的各级节点上选择属性时用信息增益率作为属性选择标准。通过计算这些属性的信息增益率,找出“投诉次数”属性作为决策树的根节点。扩展决策树节点,进行分枝,其他中间节点也是选择各节点检测属性增益最大的属性,同级的预选属性的增益相同时,规定选择属性值个数较少的属性作为当前节点的分枝,最后,我们可以生成一棵决策树。

生成的决策树还需要进行进一步验证,才能最终得到可用的分类模型。选择一些具有共同特征的已离网用户作为测试数据,输入属性值进行离网判断,检验模型的正确性,生成最终的决策树模型。

使用生成的决策树模型,对比用户的信息是否贴近离网用户的特征属性值,能大致预测出该用户的离网可能性,对离网可能性高的用户,根据其特征属性进行挽留工作,从而预防、减少客户的流失。

3 结束语

在当前的技术形式下,将数据仓库和数据挖掘技术有效运用在CRM中,对企业收集的大量客户数据信息进行分析,挖掘出对企业发展有价值的客户信息,从而更有效地提升企业的竞争能力,树立企业的品牌形象,帮助企业实现有效的市场营销和客户服务,达到成功挽留客户的目的。相信未来会有更多的行业加入使用客户关系管理的行列中,通过数据仓库和数据挖掘技术挖掘出对自身发展有用的信息,也必使的目标得到更好的实现。

参考文献

[1]白雪.数据挖掘技术在客户关系管理中的应用研究[J].大众科技,2012(2).

[2]Han Jianwei,Micheline Kamber.Data Mining Concepts and Techniques[M].Morgan Kanfmann Publishing,2000.

[3]陈安.数据挖掘技术及应用[M].北京:科学出版社,2006.

[4]董宁.数据挖掘技术在CRM中的应用[J].计算机工程与设计,2007(6).

客户关系管理数据仓库 篇3

一、数据仓库是企业CRM的核心

面对日益激烈的市场竞争,客户越来越成为企业最重要的资源,企业要理解客户、影响客户就必须通过不断地获得与客户相关的信息,了解客户,进而为客户提供个性化服务,从而提高客户的满意度和持久度,为企业创造利润。然而在企业中客户数据可能存在于订单处理、客户支持、营销、销售、查询系统等各个环节或部门,产生这些数据的系统是专门为特定的业务设计的,并拥有关于客户的部分信息,因此企业要想成功实施CRM首先必须把这些分散的客户信息集成起来,这涉及到CRM如何与企业现有的系统进行连接,目前一种普遍的做法是将CRM与数据仓库相结合,建立时需要考虑以下几方面的因素:

1、CRM中数据仓库的是客户数据的集成。CRM数据仓库的建立需要把企业内外的客户数据集成起来。从这些不同信息源中对个别顾客进行分析、识别,并寻求这些顾客间的相互关系,如有一些顾客可能有亲属关系。就客户数据集成来讲,主要包括两个方面:其一,企业需具有对顾客进行匹配和合并的能力。其二,记录的匹配和合并的完整性和准确性是很重要的。此外,如果把本不应合并的记录合并了,这时对客户的看法也是歪曲的。这些不完整、不准确和不可靠的匹配都会导致不准确的分析结果和决策,导致企业费用的增加和利润的减少。因此,对于CRM客户匹配和建立完整准确的数据仓库来讲,姓名和地址这两个信息片断是很重要的,没有姓名和地址所进行的客户匹配是不充分的。

2、保持已有客户和添加新客户与别的类型的数据仓库有着诸多不同,CRM数据仓库的维护更具有挑战性。CRM中的数据仓库是逐渐更新的,而不是一次性完全更新的。这主要基于两个方面的原因:数据仓库所利用的信息源中的历史数据经过一段时间后可能被擦掉;在每次更新时,都重新进行客户记录匹配和重新建立数据仓库的做法工作量太大,不可行。比较合理的做法是,在保留已有数据的基础上,每次更新时都加入新的数据。首先识别新数据是关于新客户还是关于数据仓库中已有客户,如果是新的客户数据,就要给这个客户一个独立的标识,在数据仓库中插入一行,如果是关于已有客户的数据,就要对这些客户记录的相关信息片断进行更新。把客户数据仓库的更新与销售数据仓库的更新做一个比较。每个既定的时间点,新的销售数据被加入到销售数据库中。在此过程中,不需要把新数据与已有数据进行匹配,不会对已有的数据进行修改。这种更新是全新数据的载入,比上面所讨论的客户数据的更新要简单。

3、建设和维护企业CRM数据仓库的工具选择。建设和维护企业CRM数据仓库有两种类型的工具。其一是转换工具,其二是清理工具。前者满足了一般数据仓库的建设和维护需求,通常熟悉的数据仓库工具属于这个行列,它的主要功能是数据抽取、转移和数据载入。但它没有姓名和地址清理、模糊匹配和合并的功能,与已有的数据库的同步化能力比较弱,客户合并的能力也很弱。其主要目标是为OLAP服务,而不是详细的客户水平的数据。后者则可以满足一些特别的需求,但没有提供通常的建设和维护数据仓库的功能,即没有提供抽取、数据载入和更新、元数据管理的功能,其核心工作是清理和匹配。尽管转换工具和清理工具的功能在某些环节上有着交叉,但它们大部分功能是互补的。因此在建设CRM数据仓库的时候,对这两种工具都是需要的,以实现数据和元数据层次的集成,而这种集成常常很费时间,成本也较高。

二、数据仓库企业CRM系统的构建

数据仓库是CRM的灵魂,在CRM中充分发挥数据仓库的作用是CRM系统成败的关键之一,企业利用数据仓库和数据挖掘技术加强客户关系管理势在必行。通过企业CRM数据仓库的建立,实现全部客户数据的集中存储和管理,使不同部门接触客户后的经验能立即与其它部门分享,从而支持整个企业的相关数据分析,提供面向整个企业的决策功能。同时随着信息技术的不断发展,各企业通过建立多种与客户交流的渠道,将面对面、电话接洽、E-mail、Fax或信函以及Web访问协调为一体,以提供更快速和周到的优质服务吸引和保持更多的客户。

以数据仓库为基础的企业CRM系统构架如图所示:

从图中可以看出以数据仓库为基础的企业CRM系统包括三个层次:

1、信息采集系统。数据仓库是企业CRM的基础,可以满足系统对各方面数据的要求,包括客户基本信息、产品、交易信息、反馈信息等等。这些数据可以分为两部分:一是前台数据即来自企业外部的数据,包括客户基本信息(如客户姓名、年龄、性别、地址、联系电话等)、客户行为信息(如客户订货情况)等等,这些信息是海量的,而且是分散的,企业可以通过多种渠道(展销会、Web、电子邮件等)完成CRM数据收集。另一部分数据是来自于企业内部日常运作过程中所产生的信息流,称为后台数据,包括企业产品信息、服务信息、资产数量及其分布情况等等。它们可能分布在不同的硬件、数据库、网络环境中,为不同的业务部门服务。从结构上看,它们是相对独立的,这部分数据一般通过企业内部网络链实行信息的共享与集中。因此,与前台海量数据相比是比较集中的,也比较容易获得。通过信息采集系统企业前台与后台数据被抽取到CRM数据仓库中,利用数据仓库的星状资料模式(Star Schema)的思想,建立数据仓库模型,把数据集成一个统一的整体,得到提供面向全局的数据视图,再以此为基础进行抽取、集成与转换,并以客户信息数据仓库的形式存储。

2、客户服务支持系统。企业建立CRM系统的目标之一是要留住客户,在很多情况下,客户的保持和提高客户利润贡献度依赖于提供优质的服务。因此,客户服务和支持对企业来说是极为重要的。客户服务支持为客户提供了客户服务热线、服务网站等功能。它是企业提高客户满意度、忠诚度从而达到留住老客户、发展新客户的一个重要手段。从数据流向来看,此时的数据应该是双向的。从功能上来看,客户服务支持系统一般包括了客户账号管理、服务合约管理、服务请求管理、联系活动管理以及客户普查等功能。通过这些功能,服务人员能快速地查询客户的服务合约确定客户的服务级别,并创建、分配客户的服务请求。服务人员还可以随时查询与客户的联系记录以及服务请求的执行情况。此过程也将充分利用CRM数据仓库的信息,如客户呼叫中心在为客户提供服务时需要实时查询客户基本信息(信用情况、账户情况等)。客户服务系统为客户的服务过程包括用户的反馈信息也将被CRM数据仓库所记录,以作为今后提高服务响应速度、改善客户服务,提高客户满意度,对服务人员进行考核的依据。

3、信息分析系统。如果对于企业CRM系统而言信息采集是一个起点,那么对所获得的信息进行分析则是支持企业决策的依据。企业CRM系统除了将各个渠道得来的数据,整理成全面、完善的CRM数据仓库之外,还应具备对信息进行分析的能力。在这里的信息分析有两个方面的含义,一是对客户行为的分析,目的是发现客户的偏好,预测客户的个性化需求,以便于企业设计符合客户需求的产品或服务,协助企业制定针对性的营销策略;另一个是对客户反馈信息的分析,目的是通过对“过程”、“客户状态”、“客户满意度”和“客户成本”的评估、检测和分析,帮助企业及时、准确、全面地掌握自己的客户服务水平、销售服务机会等情况。

事实上企业在日常的营运过程中储存了大量详细的客户轮廓的信息和客户交易厅行为的历史数据,这些数据经过抽取、转换和装载过程,形成数据仓库,通过对这些数据的分析来发现隐藏在数据后面的真实情况,并将客户行为数据与其他相关的客户数据集中起来,对客户进行统一的规划,能帮助企业以科学的手段快速地分析、模拟和预测客户的个性化需求,进而设计符合客户需求的产品或服务,为市场分析提供依据。此外,借助于数据仓库的数据清洁与集中过程,将客户对市场反馈信息自动输入到数据仓库中,建立在数据仓库基础上的数据挖掘和多维数据分析,则能够提供强大的市场分析功能。数据仓库为企业提供了综合运行不同平台上的业务数据,能进行不同产品或服务的盈利性分析和风险性分析,以最大限度地增加企业利润和利润占有率。

数据仓库与数据挖掘期末试题 篇4

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream

市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。

3、请谈一下你对元数据管理在数据仓库中的运用的理解。

元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

4、数据挖掘对聚类的数据要求是什么?

(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感

(7)高维性(8)基于约束的聚类(9)可解释性和可利用性

5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。

思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。

在商务、金融、保险等领域皆有应用。

在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法

三、翻译分析题(30分)

1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。

分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机),后勤拉索等]有赖于敏锐地在该网

站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。

这是一个更丰富的信息来源,通过dictionary.com可以接入(他们只

知道这个词,有人期待在这次会议上,除非他们有库克-网页)。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。

2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。

随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。

由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。

在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。

在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。

四、编程题(20分)

基于数据挖掘技术的客户关系管理 篇5

一、基于数据挖掘技术的客户行为分析与重点客户发现

目前许多企业在为客户的服务过程中积累了大量的数据,通过这些数据可以分析企业的发展历程、竞争态势、发展趋势及客户资源,这些资源是企业普遍关注的重要资源,而对客户的分析是赢利竞争优势的重要方法,从销售自动化中,提供了记录和跟踪在客户的信息,提供了销售人员与潜在客户交流要点,以便有效地管理自己时间,安排与客户交流和沟通,

而在电子商务环境下,接触客户不仅是销售人员,通过Internet把获取客户信息进一步扩展到企业所有部门,与之所有能与客户接触的所有人员,包括各种销售渠道的人员。通过与客户的各种“接触点”对客户360度的认识。美国艾克通过长期以来总结的经验认为CRM应让客户更方便、对客户更亲切、个性化和立即反应,才能更好地维持客户关系。凡成功地企业CRM一定是“以人为本,以客户为中心”去分工,实现企业内部“一对一客户观念”的确认。企业内部与客户相关的部门应该保持不同部门与客户之间作业的连贯;实现各种管理信息与知识的共享,建立较为详细的客户联系库,共同遵守的互动规则。利用客户智能—通过分析来自营销、销售、服务和商务的信息,制定统一的关于客户需求服务的规则,以增加客户的满意程度和减少客户背离程度。数据挖掘成为识别好的客户,完成市场划分以及改进直销活动效果的关键工具。

图1 数据挖掘技术在CRM中的作用

IBM数据仓库解决方案 篇6

IBM 2000-09-23

数据仓库是汇总商用信息后,进而支持数据挖掘、多维数据分析等当今尖端技术和传统的查询及报表功能,这些对于企业在当今激烈的商业竞争中保持领先是至关重要的。那么怎样把这样大量的数据转换成可靠的、商用信息以便于决策支持呢?建立数据仓库正被广泛地公认为最好的转换手段。

根据IDC的调查,使用数据仓库的投资回报率平均超过400%,尤其是从小型数据仓库开始实施的平均超过500%。

IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了Star-Brust大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对数据仓库结构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构。它作为一种开发式结构,方便了用户的产品选择、实施和今后的扩展。

在数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,集成在一个产品中实现。例如,VisualWarehouse、DataJoiner、DataPropagator都跨越了这三个阶段。其中,DataJoiner和VisualWarehouse可以访问各种关系型和非关系型的数据,关系型数据库主要包括DB2数据库家族、Oracle、Sybase和Informix,非关系型数据有VSAM。VisualWarehouse还可以进行数据映射的定义,以定期地抽取、转换分布数据。DataPropagator采用数据复制的方式可避免对日常业务系统事物处理性能的影响。当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商(如ETI和ValityTechnology)的产品。

数据仓库的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整、准确的数据,以便于将来的升级和扩展。若希望使用多维数据库,则可选用第三方的产品,例如:Arbor软件公司、Pilot软件公司、PlanningSciences软件公司。如果既想拥有多维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DB2OLAPServer是用户的最佳选择。

DataGuide通过描述性数据帮助用户查找和理解数据仓库中的数据。

其中数据的呈现由不同产品完成不同层次的分析要求。其中,Approach可进行查询和统计分析,IntelligentDecisionServ С侄辔治觯琁ntelligentMiner用于数据挖掘。用户也可选择自己喜爱的第三方产品,这些第三方厂商包括:Andyne、Brio、BusinessObjects、Cognus、InformationAdvantage。

整个数据仓库的管理工作可交给VisualWarehouse,ADSM是大型磁盘阵列管理的得力助手,DB2ECCforTME10可从一点集中管理各种关系型数据(DB2、Oracle、Sybase、Informix)。

以上各个阶段的结构都是按照IBMInformationWarehouse和IBMOpen-Blueprint的架构统一设计的,因此相互之间结合得既紧密又非常开放,只要符合标准的软件就可结合在一起。

最后,为了帮助用户快速实施,IBM可由IBMGlobalServices或IBMGlobal-Solution提供可靠的咨询服务。这些服务也可从广泛的第三方获得。因此,在此架构下,IBM提供给用户的是一个完整的、灵活的、开放的解决方案。

IBMVisualWarehouse是IBM数据仓库解决方案的重要组成部分,它主要由以下几部分功能组成:数据访问;数据转换;数据分布;数据存储;靠元数据查找和理解数据;显示、分析和发掘数据;数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。

IBM的VisualWarehouse的数据源可以是DB2家庭中的任一数据库,也可以是Oracle、Sybase、Informix、SQLServer数据库和IMS、VSAM文件系统;存放数据仓库的数据库可以是DB2UDBforWindowsNT,OS/2,AIX/600,HP?UX,SunSolaris,SCO,SINIX和DB2/400,DB2forOS/390;VisualWarehouse的管理平台为WindowsNT和OS/2;而且以上适用的平台仍在不断地扩展。下面,我们将从几个用户关心的方面来分析一下VisualWarehouse。

(1)元数据的存储(MetaData)

VisualWarehouse建立在集成的元数据的仓库之上,该元数据的仓库提供了一个所有管理和操作功能的中心。数据仓库的模型以元数据的形式存储于该仓库中,它定义了数据仓库的结构和内容,用于对数据源进行抽取、过滤、转换、映射后放入数据仓库。这种元数据是以商业视图被定义的,而且商业视图可以在多个数据仓库间输入和输出,大大方便了具有相同结构数据仓库的建造。

(2)数据仓库的规模化扩展

VisualWarehouse很易于扩展,单个数据仓库可支持非常大量的数据,也可靠简单地增加内存、处理器升级和存储设备扩容来支持更多的升级和用户,访问更多数据源。另外,我们还可以不同的主题同时实施多个部门级数据仓库,最后再把它们整合到一起形成企业级的数据仓库。

(3)开放的系统环境

VisualWarehouse提供了一个真正开往的系统环境,它不仅提供了数据仓库的所有功能和组件,而且可以“即插即用”的方式与用户喜欢的第三方软件组合,以最少的费用快速开发出用户所需的数据仓库。

(4)规模化的体系结构

VisualWarehouse提供了完整的分布式客户机/服务器环境,它使得用户可充分享受到“网络计算”带来的便利,而且适用于多种平台。它包括四个组件:管理员、控制数据库、客户端管理员、代理。这些组件既可分布于几个不同的服务器,也可都安装在同一服务器上。

(5)VisualWarehouse的管理

VisualWarehouse的管理是由其客户端管理员实现的,它的管理得以集中于 isualWarehouse中的触发器、用户自定义程序,元数据等。

(6)高效装入

除了WindowsNT,VisualWarehouse的代理(Agent)现在可以运行于AIX和OS/2,这就带来了针对位于这些平台上数据中心的装入性能的改善,因为数据无需再通过WindowsNT上的代理。另外,除了现有的基于SQL的目标装载,VisualWarehouse现在还提供用于文件传输和装载过程管理的程序。

(7)处理OLAP

VisualWarehouse支持DB2OLAPServer上一种或多种星型图表的全部映射或装载。另外VisualWarehouse现在也支持指定和创建DB2OLAPServer以外生成的星型图表初始化或引入关键码。

(8)高端可升级性选项

现在,VisualWarehouse对抽取和转变程序具有更完善的支持。VisualWarehouse利用这种支持给IBM的战略基础伙伴提供数据加工后的管理:ARBOR软件公司和ETI。

(9)商务视图建模改善

VisualWarehouse图形查询编制器得以扩展,目前除了支持常用的SQL语句还支持JOIN和GROUPBY语句,简化了复杂的SQL声明。

VisualWarehouse基于久经考验的独创技术,可以支持复杂业务分析过程的每一步骤,同现有应用程序环境集成,转换数据,自动执行数据仓库处理,分析数据,并为决策人员提供信息。VisualWarehouse是一种简单易用、经济有效的数据中心和数据仓库产品,可以处理部门中设计、实现和应用方案时的相应任务。其较低的维护成本和迅速的实现过程将使工作组迅速提高工作效率。

VisualWarehouse提供了完整的Web支持功能,允许从任何Web浏览器访问任何数据。因为VisualWarehouse的信息目录完全支持Web,用户可以访问可用数据的详细信息,包括格式、通用性、拥有者和位置。

IBM的VisualWarehouse提供了强有力的工具以定义、建立、管理、监控和维护一个商用信息系统环境„„数据仓库。但是,IBM并不满足于此。为了更好地满足用户的需求,IBM设计了一个完整的解决方案。IBM将Dataguide和VisualWarehouse集成在一起并与Lotus、Approach和相应平台上的DB2UDB打包在一起,作为一个完整的解决方案提供给用户。其中,Dataguide靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息。Lotus、Approach可帮助用户分析信息并把它以图表的方式表示出来。

IBM的VisualWarehouse系列软件包用于帮助企业迅速建立、管理和分析数据仓库和数据中心。VisualWarehouse系列包括VisualWarehouse、VisualWarehouseOLAP(联机分析处理)、IBM及其贸易伙伴提供的补充产品。VisualWarehouse系列已得到扩展,通过与EvolutionaryTechnologiesInternational(ETI)和ValityTechnology的产品相结合,可以满足复杂的数据提炼、纯化和转换需求。VisualWarehouse的Cognos和BusinessObjects版本也已经分别集成于相应公司的前端工具之中。这些版本提供了完整的业务智能解决方案,包括从数据访问、分析到应用。

VisualWarehouse产品系列集成了数据仓库功能,单一软件包中的集成化工具可以简化数据仓库和决策支持的整个过程。它提供了迅速建立小型企业或工作组数据仓库并投入运行所需的一切。

现在,越来越多的用户受益于VisualWarehouse,例如:INGRAM公司依靠IBM可视数据仓库将原始数据转变为有价值的商用信息;RYDERSYSTEM、VOLTINFORMATIONSCIENCES和INTENTIA这三个可代表数据仓库客户群的系统集成商得出了一致结论:IBM的可视数据仓库是一个强有力的、经济的、易于安装和实施的数据仓库。它提供支持商业决策的、一致的和固有的数据。另外,国内用户也在不断增长,例如:上海庄臣有限公司等。

OLAP在IBM的商务智能中扮演着重要角色,IBM为此提供一个分析工具——DB2OLAPServer,深入最终用户的业务,对桌面上的数据进行实时操作。DB2OLAPServer是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。

IBMDB2OLAPServer是一种功能强大的工具,结合了业界领先的ARBORESSBASEOLAP功能以及DB2的可靠性、可管理性和访问能力。ARBORESSBASE是OLAP市场领先的厂商。同其它OLAPAPI相比,有更多的前端工具和应用程序利用了ESSBASEAPI,使其? 事实上的业界标准。由于DB2OLAPServer包含了完整的ARBORESSBASEOLAP引擎,所有支持ESSBASE的应用程序都可以同DB2OLAPServer协作,而不必加以修改。同大多数基于SQL的应用程序结合时,DB2OLAPServer和VisualWarehouse将为前端用户提供更多的前端工具和业务智能应用程序选择余地的优势,如今用户可以享受更多种OLAP应用程序的优势,如通过ARBOR的OLAP引擎集成预算功能,充分利用在相关技术上的投资,管理基本设施和DB2的数据。

通过集成IBM的VisualWarehouse和DB2OLAPServer(称之为VisualWarehouseOLAP版本),这套解决方案将具有三方面的重要价值:

(1)完全、自动地把OLAP集成到数据仓库,数据抽取和生成自动地由规则和数据源支持,直接进入DB2OLAPServer的立方体

(2)OLAP描述数据外部化

(3)一个中间数据存储库

DB2OLAPServer和ESSBASE产品最突出的方面在于它特别的分析能力和简便的分布。OLAP系统更倾向于把劳动集中于获得和清除数据,使用VisualWarehouseOLAP版本能够自动地创建和维护多维数据库,大量减少手工维护并确保数据稳定。

利用VisualWarehouseOLAP版本还有一项附加收益,就是在可视化数据仓库上创建了一个中间信息仓库。这个中间数据仓库包含干净、抽取的数据。用来在OLAP系统上装载多维数据。一旦OLAP系统装载并上线,或者作为干净数据源来进行OLAP以外的分析比如查询客房地址等,这些中间数据就可以废弃。

VisualWarehouseOLAP版对于分析业务需求来说是一套很好的商务智能解决方案,它利用自动维护仓库工具提供了强大的分析型数据的分析能力。

当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,我们可以使用数据发掘工具帮助发现这些有价值的数据,IBM在这方面的工具就是IntelligentMiner。IBMIntelligentMiner被选为业界最佳数据采集工具,赢得了DM读者奖。除了数据仓库和数据挖掘解决方案,IBM还在此基础上开发了一系列行业解决方案及应用程序。

1.IBM数据挖掘工具

IntelligentMiner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。

现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具IntelligentMinerforData和IBMIntelligentMinerForText,帮助企业选取以前未知的、有效的、可行的业务知识,如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。

(1)IntelligentMinerforData

IntelligentMinerforData可以包含传统文件、数据库、数据仓库和数据中心中的隐含信息。这一产品的最新版本拥有改进的用户界面,增强了并行性,提供新的平台支持、统计功能、一种新的中枢净价值预测技术以及优化的算法。

IntelligentMinerforData帮助用户充分利用传统数据库或普通文件中的结构化数据。其采集算法已成功应用于客户及贸易伙伴之中,满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。系统支持的服务器平台包括AIX和AIX/SP、OS/390、SUNSolaris、OS/400和WindowsNT,此外还将全面推出OS/2客户机版本。

(2)InteligentMinerforText

IBM还扩展了采集解决方案的范围,包含了文本数据源。IntelligentMinerforText允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、LotusNotes数据库、协定和专利库。

IntelligentMinerforText扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。数据源可以包括客户反馈、在线新闻服务、电子邮件和Web页面。其功能包括识别文档语言,建立?、用语或其它词汇的词典,提取文本的涵义,将类似的文档分组,并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索功能。系统支持的服务器平台包括AIX和WindowsNT、OS/390和SUNSolaris。

IBMIntelligentMiner系列可以充分发挥您寻找相关信息的潜力,并帮助您花费最少的时间来搜索和浏览结果信息。此外,文本采集技术还可以适用于多种需要查看或研究文档的用户,如专利代理人、企业图书管理员、公共关系人员、研究人员和学生。

2.行业解决方案

通过利用以上介绍的IBM数据仓库和数据挖掘技术,IBM为客户开发了一系列行业解决方案及应用程序,主要有以下几种:

(1)DecisionEdgeforFinance——专门为金融行业设计的综合解决方案。DecisionEdgeforFinance不仅仅是简单的报告工具,它提供了行销经理所需的全部技术,以制定战略业务决策并开展行销活动。

(2)DecisionEdgeforInsurance——端到端的解决方案,包括硬件、软件、顾问和服务,其设计目的是帮助保险业行销经理制定战略业务决策并开展行销活动。

(3)IBMDiscoverySeriesforBanking——为满足“客户至上”的银行业需求而设计的应用程序套件。

(4)IBMDiscoveryfortelecommunications——为电信行业提供完美的客户服务的应用程序套件。

(5)BusinessAnalysisSuiteforSAP——适用于下列公司:已经安装SAP事务处理系统,并需要建立数据仓库,以充分利用日常运作中收集的所有事务数据。

(6)Surf-Aid——数据采集应用程序,用于分析Web站点利用率。

(7)InfoPrintBusinessIntelligenceSolution——允许企业将自定义消息、姓名及地址同图形和条形码相结合,向客户提供有独特个性的行销资料。

(8)GlobalServicesBIOffering——包含不同角度(行业、业务功能、技术)的战略和规划功能,以及帮助客户理解和解决业务困难、管理数据仓库项目、开发和实现先进分析功能的方法。

教学管理数据仓库模型设计 篇7

随着计算机应用技术的普及和高校教务管理信息化程度的提高,学校在进行日常的教学管理的过程中积累了大量的数据,如何从大量的信息中找出有用的知识为教学服务,提高教学管理水平成为当前必须考虑的问题。因此,建立合理、有效运行的数据模型在教学管理中中起着越来越重要的作用。数据仓库(Data Warehouse)是进行数据分析和联机分析处理的重要平台,数据仓库之父William.H.Inmon在1993年所写的论著《Building the Data Warehouse》中将数据仓库定义为:“一个面向主题的、集成的随时间变化的非易失性数据的集合,用于支持管理层的决策过程。”

2 教学管理据仓库模型的建立

联机分析处理(Online Analytical Processing,简称OLAP)的概念是由E.F.Codd于1993年首次提出的。当时,他认为联机事务处理(OLTP)已不能满足终端用户对数据库的分析式查询需求,因此提出了多维数据库和多维分析的概念,即O L A P,并将O L A P定义为共享多维信息的、针对特定问题的联机数据访问和分析技术。OLAP将分析结果存储在信息库中,便于决策者通过对比多种分析结果作出更好的决策。基于数据仓库的教学管理数据仓库设计步骤如下:

2.1 数据仓库模块

根据决策主题设计数据仓库结构。本例采用星型模式设计其数据模型,在设计过程中保证了数据仓库的规范化和体系各元素的必要联系。

2.2 数据抽取模块

该模块是根据元数据库中的主题表定义、数据源定义、数据抽取及分类和聚类规则定义对异地异构数据源进行清理、转换,并对数据进行重新组织和加工,装载到数据仓库的目标库中。加工数据的目的是保证目标数据库中数据的完整性、一致性。

2.3 数据维护模块

该模块分为目标数据维护和元数据维护两方面。目标数据维护是指根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。基于上述的数据仓库建立过程,设计了如图1的教学管理数据仓库模型。

3 建立数据环境模型中的关键技术和解决方案

3.1 数据抽取

并不是源数据库的所有细节数据对于数据仓库的主题域都是有用的,必须根据已确定的主题的需要,从原有操作型数据库中抽取相关的数据到数据仓库。本次设计数据仓库的主题有两个:根据已有的数据对学生的统考课程(高等数学、计算机文化基础、英语)成绩进行分析;根据教学量化分析老师的教学效果。使用的数据有青果教务软件数据库中的数据,也有教务部门提供的考核教师的EXCEL表数据,还有北京典成公司发来的ACCESS格式《计算机文化基础》课程成绩,这些部门提供的原始信息中有一些信息是本系统所不关心的,所以从中抽取有用数据,可以减少大量数据存储给系统带来的压力。

3.2 数据转换

数据转换主要考虑的是一个或多个异构的数据源的数据不一致性,本课题研究的数据源有SQLSERVER数据库、Access数据库、EXCEL表,必须将多个相关的表的字段名、类型、宽度进行转换,使它们保持一致,如每个维表与事实表关联的维度的名字、类型、宽度须保持一致。

3.3 数据清洗

数据仓库是决策支持的基础,所以数据仓库中数据的准确性是非常重要的,但是传统的数据库中可能存在一些错误,数据清晰的任务就是对数据进行检查,使得它们尽可能无差错。

3.4 数据装载

这个步骤将各种数据装载到数据库,本例选用的数据库是SQL SERVER2000,采用S QL SERVER提供的DTS(数据转换服务)工具,可以实现异构数据源之间的转换。

4 应用实例

在设计我校教学管理数据仓库系统的过程中,该模型得到了应用。在详细分析教学管理数据的基础上,根据我校具体的管理需求,设计了如图2的我校教学管理数据仓库模型。

5 结论

随着信息技术的发展和教学管理软件的应用,教学管理数据量将日益增长。因而迫切需要建立合理、有效的数据库模型。本模型能有效地组织教学管理数据,为解决教学决策提供了基础和技术支撑。

摘要:随着计算机应用的展开与深入,大量数据存储在计算机中,人们迫切需要将这些数据转换成有用的知识,并将获取的知识广泛用于各行各业。数据仓库技术的出现为解决这个问题提供了技术支持。本次设计在教学管理数据库的基础上,建立教学管理数据仓库,能为教务管理部门对教学中的成绩等分析提供依据。

关键词:数据仓库,OLAP,MDX,教务管理

参考文献

[1]W.H.Inmon.Building the Data Warehouse.NewYork:JohnWiley&Sons.1996.

[2]王珊等.数据仓库技术与联机分析处理.科学出版社.1999.

[3]MichaelCorey等.SQLS erver7Data Warehousing.北京希望电子出版社.2000.

客户关系管理数据仓库 篇8

【关键词】企业管理;数据仓库;数据集市

1.引言

随着市场竞争的不断加剧,各个企业都在致力于采用信息化的管理方式来提高本企业的运行效率,从而增强核心竞争力,信息化管理系统的引入使得企业从以往粗放式的管理模式逐渐朝着精细化、快捷化方向发展,与此同时带来的是信息处理需求的不断上升;另一方面,由于各种商务行为无论从数量上还是从规模上都在日益增长,企业间的业务交流越来越广泛,导致数据源和数据种类日益复杂,迫使企业必须寻求更高集成度的信息处理方案,帮助企业在海量的数据中迅速搜寻到有价值的信息。在这种需求下,数据仓库技术得到了有利的推广和使用,成为了各个企业决策支持系统运行的主要平台,而其中最重要的应用就是实现跨平台联机分析处理(Online Analytieal Proeessing,OLAP)。

2.数据仓库技术特征

数据仓库的特征可以归纳为以下三个方面[1]:

(1)面向主题组织:与面向实体间逻辑关系的传统数据库不同的是,数据仓库是面向主题组织的。前者只能解决同一数据库内的不同数据之间的逻辑关系,并在有限的范围内完成数据分析、查询等操作,在这种情况下想要得到精确且全面的分析结论是非常困难的;而数据仓库面向主题组织,从根本上解决了这一问题,在对数据进行有效存储的时候就已经完成了数据分类的操作,并在多个数据库内形成了统一的分类索引,即不同的主题。通过对主题的操作,就可轻松的实现多个数据库的联立查询和分析,其結论的全面性得到了良好的保障。

(2)集成性:数据仓库以主题为数据存储的单位,而每个主题内的数据则分别从不同的数据源提取而来,从而在某一主题内形成了相关数据的高度集成性。为了解决多来源数据之间可能存在的数据矛盾与冲突的情况,因此在数据采集过程中必须经过相关的预处理,通过数据粒度的细化与综合,确保数据的正确性。

(3)时效性:由于企业数据的不断积累,系统分析与处理的数据对象日益增大,而大量的历史数据的有效性会逐渐消退,最终退化成影响分析结论客观性的不良信息,因此,对于数据时效性的研究一直是数据仓库领域研究的重点。目前最主流的解决方案是为不同时期的数据设定不同的权值,权值的高低由数据的类型和存在时间等多种因素综合判断,尽可能的保证被引用的数据都具有时效性。

3.数据仓库主要应用方案

目前数据仓库技术在现代企业信息化管理领域已逐渐形成共识,其解决方案也逐渐的实现的标准化,这对跨平台、跨地区的数据通信具有非常重要的促进作用。即先通过数据综合分析将数据有计划的放到数据仓库中对应的主题领域内,然后通过前台接口与用户进行交互,提供各种数据处理服务,甚至可实现一定程度的智能化分析。目前使用最多前台接口为联机分析处理(OLAP)和数据挖掘(DM)。

3.1联机分析处理OLAP

顾名思义,OLAP主要解决的是多系统连接与控制的问题,使得多个数据库形成有机整体,共同完成用户提出的商业信息的处理需求,其最大的功能在于对多维结构数据的处理上,它可对不同数据库内的数据进行分门别类的筛选与引用,同时根据预设的条件将权值赋给不同时期、不同类型的数据,在此基础上实现数据的分析与汇总,实现数据精炼的效果。同时根据用户提出的不同需求,采用不同的展示方式,将数据呈现给企业决策者,如常见的各类趋势图、指标图、各类账目分析表。

3.2数据挖掘

数据挖掘技术是近些年来发展较快的信息处理技术,其特点是利用分类、关联性分析、序列分析、群集分析、机器学习以及融合一些人工智能算法,来对庞大的海量数据进行处理,提取出有价值的信息[2]。在数据仓库平台中,数据挖掘技术往往用来对大量的历史数据进行快速的处理,尤其对于一些不易察觉的数据间存在的逻辑关系进行提炼,从而有效的减少系统的计算量,尽可能的消除冗余的无效数据,压缩计算对象的体积,在此技术上再通过OLAP完成跨平台的联机分析就可达到事半功倍的效果。

3.3数据集市

数据集市本质上也是数据仓库的一种,只不过它是某个部门或某个重要业务的具体应用,包括该部门或该项目在一定时期内的数据累积。若每个部门或每个项目都有属于自己的数据集市,那么将这些数据集市组合起来,就成为了该企业的数据仓库系统,因此,可以将数据集市看成是数据仓库的一部分,或者是一个小型的数据仓库。系统结构如图1所示。

4.结束语

数据仓库在企业中已经广泛应用,大量的使用经验证明,为企业建立符合自身经营特点的数据仓库,可以帮助企业决策层更全面的了解自身的经营状态,更深入的分析大量的业务数据所隐藏的指导意义,从而可以更有效的利用企业资源,更科学的进行管理决策,从而在竞争中挣得先机。随着大数据的逐渐兴起,数据仓库的发展必将迎来一个新的高峰。

参考文献

[1]夏火松.数据仓库与数据挖掘技术[M].第1版 北京:科学出版社,2004

上一篇:教学培训工作反思总结下一篇:质量员自我鉴定