数据分析和挖掘

2024-08-01

数据分析和挖掘(精选12篇)

数据分析和挖掘 篇1

0 引言

随着信息社会的发展,互联网的普及度越来越高,需要人们处理的数据数量随着时间的变化而急速增长。如何处理日益庞大的数据,就成了现代人必须要面对的问题。因此,开发一种可以处理大量信息、并且能够辨别真伪的技术势在必行。随着技术不断的发展与创新,人们在尝试各种方法,逐渐有了自己的一套模式,数据挖掘(Data Mining简称DM)技术便是最终的结果。

1 数据仓库

数据仓库的含义:“数据仓库是用于支持企业或组织的决策分析处理的,面向主题的、集成的、不可更新的、且随着时间不断变化的数据集合。”互联网中的数据浩如烟海,如果用户在其中搜寻的话,基本上是大海捞针。而数据仓库便解决了此类问题,它把庞大的数据及信息从互联网中收集起来,并进行适当的处理、加工和分类,把这些凌乱的数据转换成公共的数学模型,这样便能够解决数据与数据之间的冲突、表达不一致等问题,同时还方便用户查询自己所需要的信息,这样便使得数据和信息在决策查询上理便捷。

2 数据挖掘

互联网中,实际的应用操作数据往往都是数量很大,不完整且具有模糊性和随机性。而数据挖掘所要做的便是提取这类数据中隐含的、不为人知的,但对人们又有潜在用途的信息和知识。并把提取的知识和信息存放于数据仓库或其他信息库中,所以说,数据挖掘是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。另一个角度来讲,数据仓库中的数据,利用挖掘技术的算法,将源数据收集起来,并进行适当的筛选及过滤变成相应信息。数据挖掘基于的数据库类型有:关系、面向对象、事务、演绎、时间和时间序列、多媒体、空间、遗产、文本、Web型以及新兴的数据仓库等。对于数据库的描述,通常是指面向对象的数据库在面向对象的程序为规范的程序设计标准。其描述对象可以是一定时期的人口、流量等数据。而关于一个对象的代码在一个单元中的封装,对象可以与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫星图像数据库等,通过数据挖掘可以发现,描述各个地区的人口或者可以根据现有的关于某小区距离中心主要道路的距离的描述来表达这个小区低价的变化程度。通过纵轴和横轴的序列数据库我们可以看出,数据挖掘可以根据数据库中的数据的变化随时随地的进行调整,从而发现数据的变化特点和变化趋势,通过对这种变化的趋势和特点的变化,帮助人们处理计划,制定发展策略等。在文本数据库中大部分是高度化的长句和短文,数据挖掘的作用是发现、描述对象和类的特征,进行关键词和内容关联性分析以及文本对象的聚类。多媒体数据库存储的是图像、音频、视频数据,在其上进行数据挖掘,这是存储和搜索技术相结合的新兴技术,这种技术中,进行多媒体数据的特征的提取和基于相似性的模式匹配等。

数据库的建设是以程序设计为标准的。无论何种先进的技术都有它的局限性,数据挖掘也亦如此,它只能对信息进行初期处理,也就是说,如果收集的数据中出现丢失或冲突的现象,用数据挖掘的算法是不可行的。

3 数据挖掘技术

3.1 数据挖掘分析方法

数据挖掘的分析方法可分为两类:直接数据挖掘和间接数据挖掘。直接数据挖掘指:L在指定的数据中,按照某一法则,提取其中可用数据,建立一个数学模型,并用此模型对余下的数据,或是对有的数据进行描述。直接数据挖掘有:分类、估值、预言。间接数据挖掘指:目标中的数据都是没有规则的,因而不能确定某一具体的变量,所以不能用模型来对其进行系统上的描述,只能通过数据之间联系,将彼此组合起来。间接数据挖掘有:相关性分组或关联规则、聚集、描述和可视化。下面本文将对分类和预测、关联分析和聚类分析三种数据挖掘方法介绍。

3.1.1 分类和预测

数据分析一般分为分类和预测两种形式,如果想要知道某种数据未来的走向,或是提取某种模型中重要的数据,可以利用数据分析形式的属性对其进行描述,然后得到自己想要的模型,并把数据合理的分类,以便使用原有数据对新数据进行预测。数据分析的两种形式,在信誉证实、医疗诊断、性能预测和选择购物等方面的用途也十分广泛。如在金融证券领域,想要在银行贷款,必须要分析贷款是否有足够安全性,风险性是否很高,如此便要建立一个分类模型,对其进行预测,例如想要成功销售一批计算机设备,我们必须要预测、分析哪类人可能是潜在的用户。

3.1.2 关联分析

关联分析在交易数据、关系数据以及其他信息载体中应用较为广泛,可以查找有关于某一个项目集合或者对象集合之间存在的频繁模式、关联、相关性、或因果结构。当然这种关联分析也可以用最小置信度和支持度找出所选范围内所有感兴趣的规则。其中最为著名的关联规则发现方法常用的是Apriori算法。关联分析大多应用在消费者一次购物时同时购买锪商品购物分析、某些商品和另外一些物品次序推销或促销以及大型工厂、制造厂里生产的产品目录设计等。如某所大学,所有学生记录中,有2%的人专业是会计且选修了数据库且成绩为A;在专业是计算机科学CS且选修了数据库DB的学生中有75%的人成绩为A。

3.1.3 聚类分析

聚类分析的方式就按照某种程度的度量方式来进行度量方法,这种方法中将用户的数据根据需要分解成相应有意义子集合。通过能否用于大数据量和不同的数据类型,能够发现不同开关和类型的聚集;对领域知识的要求昼少;对噪声或数据不同的顺序不敏感,来判断优劣,根据模型可解释。如:(1)一些特定症状的聚集可能预示了一个特定的疾病。(2)租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。

3.2 数据挖掘的一般步骤

3.2.1 数据准备

在数据挖掘初期,我们的目的是要完成初始数据的项目。而建模人员的工作要务就是在这些收集的现有数据中,提取与客户提供的主题相关的数据项,然后初步分析数据,首选用已有的程序去提取收集好的数据,然后进一步收集好的数据。然后进一步衍生变量,重复进行若干次(直到我们所要的数据变量都变成合格。)最后把这些数据整理,分类成一个文件,存于数据集市中。

3.2.2 取样工作人员在上步的数据集中随机抽取样本。

3.2.3 建立模型

取样后,建模人员要对所取的样本进行逐个分析,并将数据分为两类:训练数据集体和验证数据集体,然后选用最佳方案来建立模型或规则集。一般来说,有多种方法来出库数据挖掘的问题的类型,而这些方法通常也是与数据在形式上一一压的。因此,在建立模型的工程中,经常需要返回到初级准备阶段。

3.2.4 验证模型

模型确立后,建设人员还应该根据验证前后模型的准确性。

3.2.5 模型评估

模型评估的标准是根据上面三个步骤的模型来作为评分的。挖掘主机评分的主程序中的数据都是由已建立的模型通过循环的方式获得的。

3.2.6 执行

如若要运用模型对新的数据进行处理,可以保留或改善模型。数据挖掘的步骤并不是一个流水线,所以它不可能一次性做完所有任务。过程中有许多乃至全部的步骤需要循环进行,所以每一个阶段不是一成不变的。

3.3 数据挖掘工具的新的技术和应用热点介绍文本挖掘、网络挖掘两种。

3.3.1 文本挖掘

文本挖掘,顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,是分词技术中的关键部分,词典的运行。只有让计算机依据词典完成正确之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。目前,像IBM、微软等主流挖掘工具以及google和SNS网站都已经在使用广西挖掘技术。但遗憾的是,目前这些工具大多只支持英文,还不支持中文挖掘。

3.3.2 网络挖掘

网络挖掘从主体上来看,可分为三种挖掘:文本挖掘、结构挖掘以及点击挖掘。

4 数据挖掘(DM)实际应用

DM工具和软件已经在各个领域中得到广泛的应用,收到的效益显著。

4.1 金融方面

为了让市场经理以及业务员能够更好的融入到公司活动和设计新的市场活动中,可以用DM对不同的业务,不同的信息走向,以及一些决策进行合理的划分。

4.2 客户关系管理方面

DM不仅可以协助了解客户的行为,还可以找出产品的使用模式,从而一定程度上改变通道管理的程序,就好比只有理解顾客的作息周期性规律,才能更好的进行销售。

4.3 在过程控制/质量监督保证方面

大量变量之间的相互作用是通过DM来协调的,某些异常数据,DM会自动识别,并进行相应的处理措施,从而让技术人员能够发现问题所在的范围,并及时处理。

4.4 远程通讯部门

基于DM的分析协助组织策略变更以适应外部世界的变化,根据市场要求进行模式化的该百年来知道市场行为。在网络容量利用方面,DM客户在服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。

4.5 使用DM进行军号事信息系统中的目标特征提取、态势关联规则挖掘等。

5 总结

发展数据仓库可以促进数据挖掘越来越成熟,但是数据挖掘并不一定要有数据仓库的支持。因为数据仓库并不是数据挖掘的必要条件,有很多数据挖掘可直接从操作数据源中挖掘信息,而且数据挖掘仍然经常被看做是数据的后期市场产品。数据仓库平台的数据挖掘的构造具有很强的实用性,效率很高,节省资源。

摘要:本文阐述了数据仓库及数据挖掘的有关概念,简述了数据仓库、数据挖掘的实施过程,介绍了如何应用数据挖掘。并对数据仓库与挖掘技术结合应用的发展做了展望。

关键词:数据仓库,数据挖掘,OLAP

参考文献

[1][加]Jiawei Han Micheline Kamber.数据挖掘概念与技术[M].北京:机械出版社,2001.

[2]黄晓斌.网络信息挖掘[M].北京:电子工业出版社,2005.

[3]张云涛,龚玲.数据挖掘原理与技术版本[M].北京:电子工业出版社,2004.

[4]陈代春.数据仓库技术及其应用研究[Z].中南大学硕士论文,2001.

[5]王丽珍.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.

数据分析和挖掘 篇2

电信企业参与竞争的利器-数据仓库和数据挖掘

基于Sybase的广东电信数据仓库解决方案

广东电信科学技术研究院

1 概述

随着电信市场的开放,竞争将越来越激烈,利润的降低使得必须从粗放的经营转变到集约的经营,同时经营决策需要尽可能多的定量的依据和尽可能快的速度。所有这些需要技术上的支持----数据仓库和数据挖掘广东省电信科学技术研究院是华南地区通信技术支持及科研开发的最高技术部门,围绕保障通信大网运行安全、高效和通信市场的需求而进行系统维护支持、网管系统开发、多媒体研究、网络技术与市场研究、计费系统研究与开发、人员培训和计量检测等七个方面的工作。研究院目前拥有一支900多人的年富力强、实力雄厚的研发队伍。

研究院开发的Thinker-BC多媒体网综合业务管理系统是一套统一的综合业务管理系统。它为电信运营商以及各级ISP提供一个稳定而灵活的业务支撑平台。该平台能够提供所有的多媒体数据通信基本业务及各种增值服务,该平台具备极强的可扩展性,具备快速的新业务生成、推广能力。系统能够灵活地定义各项服务的资费政策,及各项业务的捆绑销售优惠策略,并对各项服务提供准确、实时的计费功能。其中的数据仓库决策支持系统是基于Sybase的数据仓库解决方案开发的。业务经营决策者可以利用这个系统快速准确地了解到各项业务的发展情况、为进一步的决策支持工作提供坚实的基础。

2 需求主要特点

数据量庞大

目前,广东公众多媒体通信网拨号用户总数已达到70万。根据业务需求分析,广东省163/169网到底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。

业务结构复杂

系统的最终用户是电信内部的各个部门,因此最终用户的需求不尽相同。

经常变化

业务策略不断变化。表现为资费政策的不断变化。

3 方案介绍

Thinker-BC2000多媒体网综合业务管理系统的数据仓库系统模型如下图所示:

3.1 系统软件平台

数据仓库的实施是一个相当复杂的过程,主要包括五个部分的内容:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现和数据仓库的维护和管理。

Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:Warehouse Studio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。以下说明了我们是如何结合Sybase的产品来做数据仓库的设计与开发。

数据仓库的设计、建模

数据仓库的设计工作对于决策支持系统起着至关重要的作用,它需要根据决策需求确定主题,从数据源到数据提交,对数据仓库的数据组织进行逻辑结构的设计,还要按照业务用户最能理解的方式组织和提供信息。

在这个阶段,我们使用了PowerDesigner WarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,广泛用于数据源的逆向工程、建模、数据仓库方案设计,以适应每个业务需求。通过对逻辑设计、物理设计和应用建模进行集成,WarehouseArchitect方便了数据仓库的开发和实现。

数据转换与集成

在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为一致的格式,使之更好地为决策支持服务。这包括对已有数据的准确性和一致性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerMart作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以根据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。

PowerMart是一个集成的软件产品套件,用于建造和管理数据集市和分析应用。PowerMart交付了一个开放的可伸缩的解决方案,主要定位于数据集市完整的生命周期和分析应用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadata repository 能够协调并驱动一系列的核心功能,包括抽取、转换、加载和管理等。

PowerMart的图形化用户接口帮助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerMart强大的服务器来自动地执行,

数据存储与管理

数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复杂的分析查询的高效性。

我们选用了Sybase的数据仓库产品Adaptive Server IQ。Adaptive Server IQ是一个关系型数据库,为高性能决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引和数据压缩。

数据分析和展现

联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,形成图表或报表的形式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。

数据仓库的开发应用主要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问一般都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护工作的时间跨度要大,因为决策支持应用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。

BusinessObjects作为较早进入中国市场的业务智能提供商,其产品操作精简、功能丰富,并且有直观易懂的前端展现元数据管理部分,在这个解决方案中与IQ的高速查询效率相得益彰。

数据仓库的维护和管理

元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。

Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库解决方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览根据其需求而生成的元数据对象,甚至可以使用发布和登记性能请求或选择附加性能。

3.2 系统硬件平台

数据仓库服务器:

sunE5500 / 8 cpu/4G RAM/18G硬盘

运行Sybase IQ。 数据迁移服务器:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

运行PowerMart Server 管理Web服务器两台:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

分别运行BO Web Intelligence和Warehouse Control Center Server。 存储网络:

采用Veritas的SAN系统

3.3 系统主要功能

数据仓库与决策支持系统对在线事务处理应用和在线统计分析应用进行有效地隔离。保证了业务管理系统在线事物处理的安全、稳定、可靠、高效地运行,也确保了决策支持系统能够快速及时地获取统计数据。 省中心和地市业务管理人员能够每月按照要求生成预先定义好的标准统计报表。业务分析人员通过非常简单易用的图形界面,能够快速准确地进行语义层查询并把所需的业务数据、信息和分析结果以丰富的形式快速地展现出来,为领导的决策提供准确的依据。 提供数据挖掘功能,挖掘出潜在的影响业务发展的因素。

为客户管理系统提供服务,为客户提供快速的账单及各种服务清单查询。并提供挖掘大客户的手段。

4 结束语

我们已经在广东视聆通和福建163网上,使用Sybase的数据仓库解决方案,成功实施了数据仓库系统,并且基于BO(Business Object)开发了统计分析报表系统。

数据分析和挖掘 篇3

【关键词】Apriori算法;关联规则;weka;数据挖掘

1.关联规则

关联规则是数据中蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本任务,甚至可以说是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型[1]。简言之,关联规则挖掘是发现大量数据中项集之间的关系或相关联系[2]。这些关系往往是隐藏的,从大量商务数据中发些这些有趣的关系对交叉销售、配送服务、贱卖分析等是有价值的,这样也有利于商务决策的制定。

关联规则挖掘的经典应用是购物篮数据分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯,得出哪些商品频繁的被顾客同时购买,可以优化商品的分类陈列、改善商店的布局。以下是一个关联规则的简单例子:

计算机=>财务管理软件

[支持度=12%,置信度=60%]

这个规则表明12%的顾客同时购买电脑和财务管理软件,而在所有购买了电脑的顾客中有60%顾客也购买了财务管理软件。

2.关联规则相关概念

项目集合:I={i1,i2,i3,…,im}。

k-项集:项集中项目个数为k的项集。

事务集合:T=(t1,t2,t3,...,tm)。

关联规则表达模型:

XàY,其中X∈I,Y∈I,且X∩Y=ø。

这是一个蕴涵关系表达式,X称前件,Y称后件。

X覆盖ti:项集X是事务ti∈T的一个子集,则称ti包含X,也称X覆盖ti。

支持计数:是T中包含X的事务的数目,记做X.count。

支持度:规则XàY的支持度是T中包含X∪Y的事务的百分比,也可以看做是概率P(XUY)。支持度表示规则在事务集合T中使用的频繁程度。如果支持度的值太小,则表明这个规则可能是偶然发生的,研究它可能没什么价值。

置信度:规则XàY的置信度是既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比,也可看做是条件概率P(Y|X)。置信度决定了规则的可预测度,如果一条规则的置信度太低,那么从X就很难可靠地推断出Y。研究置信度太低的规则在实际应用中也不会有太大价值。

目标:关联规则挖掘就是要找出一个给定的事务T中所有满足用户指定的最小支持度(minsup)和最小置信度(mincof)的关联规则。如果一个关联规则满足最小支持度和最小置信度,那么就认为该关联规则是有意义的。

频繁项目集:一个支持度高于minsup的项集。

可信关联规则:置信度大于minconf的规则。

3.Apriori算法思想

Apriori算法是基于关联规则的经典挖掘算法,是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法分两步进行:

(1)生成所有频繁项目集。

(2)从频繁项目集中生成所有可信关联规则。

3.1 频繁项目集生成部分的算法

Apriori算法基于演绎原理(向下封闭属性)来高校的产生所有频繁项目集,其中向下封闭属性是指如果一个项集满足某个最小支持度要求,那么这个项集的任何非空子集必须都满足这个最小支持度。

Apriori使用一种逐层搜索的思想来生成频繁项目集。它采用多轮搜索的方法,每一轮搜索一遍整个数据集,并最终生成所有的频繁项目集。在第一轮搜索中,算法计算出所有只包含一个项目集的项集在事务集合中的支持度,并据此得到初始的单项目集(即1-频繁项目集)F1。随后的每一轮所搜都分为三步:

(1)将算法第(k-1)轮搜索生成的频繁项目集集合Fk-1作为种子集合产生候选的项集集合Ck,而Ck中的这些候选项集都是可能的频繁项目集,这个过程由candidate-gen()函数完成。

(2)随后算法对整个事务数据库进行扫描,计算Ck中的每个候选项集c的支持度,注意,在整个计算过程中并不需要将整个数据集加载入内存,事实上,在任何时候我们都只要在内存中保留一条事务记录,因此Apriori算法可以用于处理非常巨大的数据集。

(3)在本论搜索的最后,算法计算Ck中每个候选项集的支持度,并将符合最小支持度要求的候选项集加入Fk中。

算法最后输出的是所有频繁项目集的集合F。

3.2 候选项集集合Ck的生成函数

该函数分为两部分:合并和剪枝。

合并:将两个(k-1)-频繁项目集合并来产生一个可能的k-候选项集c。两个频繁项目集f1和f2的前k-2个项目都是相同的,只有最一个项目是不同的,随后,c被加入到候选项集集合Ck中。

剪枝:从合并步中得到的候选项集并不是最终的Ck。有一部分候选项集可以被剪枝。这一步判断c的所有(k-1)-子集是否都在Fk-1中。如果其中任何一个子集不在Fk-1中,则根据向下封闭原理,c必然不可能是频繁项目集,于是可将c从候选项集Ck中删除。

3.3 关联规则生成算法

给定一个频繁项目集f,如果一条关联规则的后件为a,那么所有以a的任意一个非空子集为后件的候选规则都是关联规则。基于此,得出了一个类似于频繁项目集生成的关联规则生成算法。首先,从频繁项目集f中生成只有一项的关联规则,然后利用所得到的关联规则和candidate-gen函数生成所有2-后件候选关联规则,依此类推。

3.4 缺点

在实践中,关联规则可能不像人们期望的那么有用。一个主要缺点是支持度、置信度框架常常产生过多的规则。另一个缺点是其中大部分规则是显而易见的。关联分析需要技巧,用严格的统计学知识处理规则增值将是有益的[4]。

3.5 提高Apriori的有效性

为提高Apriori算法的有效性,我们可以从以下几个方面考虑:

基于散列的方法:通过实验可以发现寻找频繁项集主要的计算是在生成频繁2-项集上,一种基于散列的技术可以用于压缩候选k-项集Ck(k>1)。例如,当扫描数据库中每个事务,由C1中的候选1-项集产生频繁1-项集L1时,可以对每个事务产生所有的2-项集,将它们散列(即映射)到散列表结构的不同桶中,并增加对应的桶计数,在散列表中对应的桶计数低于支持度阈值的2-项集不可能是频繁2-项集,因而应当由候选集中删除。这种基于散列的技术可以大大压缩要考察的k-项集,特别是利用这一技术来改进产生频繁2-项集。

事务压缩:减少用于未来扫描的事务集的大小。一个基本的原理就是不包含任何k-项集的事务不可能包含任何(k+1)-项集。从而就可以将这些事务在其后的考虑时加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们,这样在下一遍的扫描中就可以减少要进行扫描的事务集的个数。

基于划分的方法:为了降低算法对内存的需求同时提高并行性,基于划分的方法把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个块并对它生成所有的频繁项集,然后把产生的频繁项集合并,用来生成所有可能的频繁项集,最后计算这些频繁项集的支持度,这里每一个部分的大小和划分的数目确定,使得每一部分能够放入内存,这样每个阶段只需要被扫描一次,而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。此算法可以使高度并行的,可以把每一部分分配给某一个处理器生成频繁项集。

基于选样的方法:在给定数据的一个子集挖掘。选样的方法的基本思想是:选取给定数据库D的随机样本S,然后,在S而不是在D中搜索频繁项集,得到一些在整个数据库中可能成立的规则,然后对数据库剩余部分验证这个结果。用这种方法,牺牲了一些精度换取了有效性。样本S的大小这样选取,使得可以在内存搜索S中频繁项集;这样,总共只需要扫描一次S中的事务。由于搜索S中而不是D中的频繁项集,可能丢失一些全局频繁项集。为减少这种可能性,使用比最小支持度低的支持度阈值来找出局部于S的频繁项集(记作LS)。然后,数据库的其余部分用于计算LS中每个项集的实际频繁度。采用下列方法来确定是否所有的频繁项集都包含在LS中:如果LS实际包含了D中的所有频繁项集,只需要扫描一次D;否则,可以做第二次扫描,以找出在第一次扫描时遗漏的频繁项集。当效率最为重要时,如计算密集的应用必须在频繁度不同的数据上运行时,选择方法特别合适。

动态项集计数:动态项集计数技术将数据库划分为标记开始点的块在扫描的不同点添加候选项集,不像Apriori仅在每次完整的数据库扫描之前确定新的候选,在这种方法中,可以在任何开始点添加新的候选项集。该技术动态地评估已被计数的所有项集的支持度,如果一个项集的所有子集已被确定为频繁的,则添加它作为新的候选。结果算法需要的数据库扫描比Apriori少。

4.weka实现数据挖掘

Weka是一个功能全面的机器学习和数据挖掘应用程序平台[4]。Weka用Java编程,其中提供了优秀的学习算法,现在我们使用上面已经分析了的Apriori算法做一些机器学习工作。本文中,我们在windows xp下,使用的是weka3.6版以及Mysql5.0版本数据库,对深海油气田的数据库中的oilField表中的FieldLife和Total用Apriori进行分析。

4.1 weka连接数据库

在连接数据库之前我们需要下载安装了mysql-connector-java-3.1.14和Java的jdk,并将mysql-connector-java-3.1.14-bin.jar的路径配置到环境变量classpath中。接着打开weka的安装路径,例如:我的路径为:G:Program FilesWeka-3-6,找到weka.jar文件,将其解压到当前文件夹下。在解压后的文件夹中找到wekaexperiment这个目录下的DatabaseUtils.props与DatabaseUtils.props.mysql。然后使用UltraEdit打开这两个文件。在DatabaseUtils.props.mysql文件中,我们能看到以下配置项:

(1)驱动加载项

将jdbcDriver=后的内容mysql-connector-java-3.1.14-bin.jar里面的驱动,配置如下:

# JDBC driver(comma-separated list)

jdbcDriver=com.mysql.jdbc.Driver

数据库的URL,因为数据库装载在本地,所以配置为localhost# database URL

jdbcURL=jdbc:mysql://localhost:3306/database_name

(2)类型转换

找到# specific data types部分,在其下配置mysql中各种类型对应转换成weka的数据类型,我们使用从DatabaseUtils.props中的#mysql-conversion下的配置项。其余部分的配置不需要更改,保存文件。此时我们再将DatabaseUtils.props重命名为任意名字,将DatabaseUtils.props.mysql改成DatabaseUtils.props。

(3)将weka重新打包

在命令提示符下我们进入到刚解压的文件夹下,运行jar –cvf weka.jar *.*,此命令将当前目录下的任意文件压缩到weka.jar里,并且weka.jar文件就生成在当前目录下。

(4)覆盖原文件,运行weka

我们将重新打包的weka.jar拷贝到安装目录下(建议将原文件重命名),然后运行weka。

(5)点击Explorer-Open DB

在url栏的最后面修改要连接的数据库名,点击user输入用户名与密码,点击connect连接数据库。

4.2 weka进行关联规则挖掘

(1)导入数据

在Query栏输入sql语句,点execute执行,点ok将结果集导入weka。本文导入了深海油气田数据库中的oilField表中的FieldLife和Total:

FieldLife:油田寿命

Total:油田储量

(2)数据离散化

在weka的preprocess的filter中选择unsupervised/attribute/discretize。在choose右侧点击显示输入参数界面,将bin改成5。然后点击apply,这样就将fieldlife和total离散成了5类数据。

(3)度量标准

Weka中有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是:

Lift:P(L,R)/(P(L)P(R))。Lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。

Leverage:P(L,R)-P(L)P(R)。它和Lift的含义相近。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。

Conviction:P(L)P(!R)/P(L,!R)(!R表示R没有发生)。Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。

值得注意的是,用Lift和Leverage作标准时,L和R是对称的,Confidence和Conviction则不然。

(4)参数设置

现在计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前10位的那些关联规则。我们把"lowerBoundMinSupport"和"upperBoundMinSupport"分别设为0.1和1,"metricType"设为lift,"minMetric"设为1.5,"numRules"设为10。其他选项保持默认即可。"OK"之后在"Explorer"中点击"Start"开始运行算法,在右边窗口显示数据集摘要和挖掘结果。

(5)结果及分析

Apriori

=======

Minimum support:0.1(5 instances)

Minimum metric :1.5

Number of cycles performed:18

Generated sets of large itemsets:

Size of set of large itemsets L(1): 10

Size of set of large itemsets L(2):2

Best rules found:

1. FieldLife='(5.797968868E17-7.693786214E17]' 11 ==>

Total(TOE)='(7.87367106E17-inf)' 6 conf:(0.55) <

lift:(2.03)> lev:(0.06) [3] conv:(1.34)

2. Total(TOE)='(7.87367106E17-inf)' 14 ==>

FieldLife='(5.797968868E17-7.693786214E17]' 6 conf:(0.43) < lift:(2.03)> lev:(0.06) [3] conv:(1.23)

3. FieldLife='(3.902151522E17-5.797968868E17]' 13 ==>

Total(TOE)='(2.10176475E17-4.02573352E17]' 5 conf:(0.38) <

lift:(1.82)> lev:(0.04) [2] conv:(1.14)

4. Total(TOE)='(2.10176475E17-4.02573352E17]' 11 ==>

FieldLife='(3.902151522E17-5.797968868E17]' 5 conf:(0.45) <

lift:(1.82)> lev:(0.04) [2] conv:(1.18)

虽然设置的numRules为10,但是相关的关联项只有四项。对于挖掘出的每条规则,WEKA列出了它们关联程度的四项指标。第一条规则的意思是油田寿命在5.797968868E17-7.693786214E17范围内的油田的储量大于7.87367106E17的可信度为55%。第二条规则是说油田储量大于7.87367106E17的油田的寿命在5.797968868E17-7.693786214E17范围内的可信度为43%,依此类推。所以,总的来说油田寿命较长的油田,其储量最高的可能性最大。

参考文献

[1]Bing Lin.Web数据挖掘俞勇[M].薛贵荣,韩定一,译.北京:清华大学出版社.

[2]韩家炜.数据挖掘:概念与技术[M].机械工业出版社.

[3]Data Minng:Concepts and Techniques J.Han and M.Kamber Morgan Kaufman 2006 China Machine Press.

[4][印]K.P. Soman Shyam Diwakar V.Ajay.数据挖掘基础教程[M].范明,牛常勇,译.机械工业出版社.

文本观点挖掘和情感分析的研究 篇4

在过去的十五年里,作为情感计算和自然语言处理(NLP)的子任务,关于主观性和情感分析(SSA)的自动化处理研究已经有了蓬勃的发展。社交网络的诞生并飞速发展使得在世界各地的人们可以随时分享、评论或讨论任何话题成为了可能。在这种情况下,社会媒体文本中表达的意见、情绪和情感已被证明是有一个对全球社会和经济具有较高影响力的行为。SSA系统对许多现实世界的应用高度相关(如市场营销,电子管理,商业智能,社会分析),并在自然语言处理(NLP)的许多领域,例如信息抽取、问答、文本含义等。近十年来,已经有大量的相关研究方法和成果,以及由这项技术创建的应用,这些都足以证明这一领域的重要性。尽管已经有大量的资源和方法去处理情感分析[1],但SSA依然是一个亟待解决的问题。

2 情感分析研究的难点

情感分析文本可以看作是积极的,消极的或者其他客观的分类,因此它能够作为文本分类任务。由于文本有很多不同主题,因此它也可以被分为多种种类,但是情感分析只有三种分类。然而,有很多因素使得情感分析比传统的文本分类要难的多。

1)域依赖:观点挖掘和情感分析[2]面临的最大的挑战是情感词的从属域的性质。一个特征集可能在一个领域会有很好的性能,同时它在其他一些领域性能又非常差。

2)限制分类过滤:在决定最受欢迎的想法或概念时,分类过滤中有一个限制。为了得到更好的情感分类结果这个限制应该减少。这存在过滤器给无关的意见的风险并且它能够导致情感分类的判断错误。

3)观点挖掘软件可用性不对称:观点挖掘软件非常昂贵,并且当前只有大型企业和政府能够负担得起。它超出了普遍公民的预期,这本应该是所有小到中型企业都可以承受的价格,这样才能让每个人都能从中受益。

4)合并隐式观点和行为数据:对于成功的情感分析,观点词应该和隐式数据结合。隐式数据决定情感词的真实行为。

5)自然语言处理限制:自然语言处理技术在处理一些模棱两可的句子时结果往往不准确。这些也给情感分析造成阻碍。

3 情感分析技术研究

3.1 文章级别的情感分类

这种方法将整个文档作为一个单一的实体,将情感分为积极或消极的或中性的。文章级别的情感分类[3]假定文章对单一目标表达一个单一的情感,这个情感归属于某个人或某个产品或某个服务。很显然,这种假设在一个产品说明文档中才成立。但是在论坛或者博客等中,对比的语句就会出现,评论者对比两个产品有类似的特征。因此,文章级别的情感分析在论坛和博客中是不可取的。

文章级别的情感分类主要有两种分类技术:有监督学习和无监督学习。

3.1.1 有监督学习方法

情感分类作业可以被配置为有两个类别的有监督学习,积极的类别和消极的类别。产品评论大多被用作训练和测试数据。分别对每一条评论进行1 至5 分的评分,评分决定了他们是积极的类别还是消极的类别。例如,4 分或者5 分的评价就认定为一个积极的评价,1 分或2 分就认定为一个消极的评价。大多数研究论文为了简便没有使用中性分类,我们把3分的评价认定为一个中性的评价。

现有的一些有监督学习技术都可以用于情感分类,例如朴素贝叶斯和支持向量机(SVM)。在大多数情况下,支持向量机比朴素贝叶斯分类器有更好的边际改善。当训练数据集很小,朴素贝叶斯分类可能更合适,因为支持向量机需要大量的数据集才能建立高可靠的分类器。研究人员在机器学习中使用了许多技术和特征,在情感分类中最重要的步骤是选择一个适当的特征集,情感分类中最常用的特征有:

1)术语及其频率:单个的词被称为一元模型以及包含相应词频的多元模型。这些特征已经被证明对情感分类非常有效。

2)词性(POS):POS信息是情绪表达的一个非常重要的指标。例如形容词包含大量关于文章情感的信息。

3)情感词和短语:情感词和短语表达积极或消极的情感。例如优秀的、聪明的、出色的是积极情感词汇,糟糕的、枯燥的、不好的是消极情感词汇。虽然大多数情感词汇都是形容词或副词,但名词和动词同样也可以表达观点。例如在一些文章中垃圾、喜欢、讨厌等都可以表达观点。

4)否定词:显然,否定词是评价一个句子的极性非常重要,因为他们可以改变情感倾向。例如,“我不喜欢这辆车”就有消极的意思。

在此方法研究中,本文使用了三种机器学习技术,朴素贝叶斯、最大熵分类和SVM技术对影评文章进行分类。测试了多种特征(一元模型、二元模型、POS、词语的位置)去寻找最优特征集。结果表明,在SVM分类器中使用一元模型性能达到最佳。

有监督学习最大的限制在于训练数据的质量和数量,当训练数据存在偏颇或不充分结果可能会失败。基于有监督学习的子文档的情感分类难度更大,因为可用的信息量比较少。

3.1.2 无监督学习方法

显然,情感词和短语是情感分类的主要指标。一些研究已经实现了利用这些情感词和短语的无监督学习方法的情感分类。文章[4]提出了一个简单无监督学习算法对评论进行分类,通过计算词语的评分来判断词语是积极的还是消极的以及情感强度。这种方法扫描整个短文匹配POS模式,计算出这些短语的情感倾向,然后统计所有短语从而得出整体的倾向。

总之,文章级别的情感分类最大的好处在于提取一个主题或事件的主要观点。不过,他并不能提供人们的详细情感。

3.2 句子级别的情感分类

在这种方法中,每个句子的极性被确定。这种方法假设每个句子是由一个人写的,并表示一个单一的正面或负面的情绪。这种方法主要分为两个步骤。第一,判断哪些句子具有主观意见。第二,对每个句子进行分类,判断是积极的还是消极的。

这种方法存在的困难在于,一些客观语句隐含了情感,一些主题语句却不包含情感,或者一句话包含多种情感。

3.2.1 情感词库构建

情感词在许多情感分类任务中使用。根据他们的倾向,情感词通常被分为两类,积极的和消极的。构建情感词库主要有三种方法:手动构建、基于语料库[5]的构建方法和基于字典的构建方法。手动构建方法难度较大,并且耗时比较长,常常与其他两种方法结合起来使用。

3.2.2 基于语料库的方法

使用一个已知极性的情感词种子集合,利用语法模式或共生模式,以推断一个新的更大的情感词库。基于语料库的方法可以产生一个精度相对较高的语料库。大多数这些方法需要非常大的已标记的训练数据,以实现其完整的功能。

3.2.3 基于字典的方法

基于字典的方法,情感词汇建设不需要大型语料库或搜索引擎具有特殊功能。相反,可以利用可用资源Word Net词典。这个方法的主要策略是收集情感词汇的初始种子集,然后在字典中寻找近义词和反义词来扩展种子集,这个新的种子集再用来迭代生成新的种子集合。基于字典的方法主要缺点是在特殊领域很难找到相应的情感词汇,同一个情感词在某个领域可能表达积极情感,在另一个领域则表达消极情感。

4 情感分类评估

通常,我们评估情感分类的性能使用如下四个指标:准确度(A)、精度(P)、命中率(R)、最终得分(F)。这些指标的计算方法如表1的混淆矩阵所示。

这些指标的计算公式如下:

准确度是所有正确预测的实例和所有实例的比值,准确度为100%表示全部预测正确。精度是正确预测的积极实例和所有预测的积极实例的比值。命中率是正确预测的积极实例和所有积极实例的比值。最终得分是精度和命中率的调和平均数。

5 结语

本文对不同级别(如文章级别、句子级别)的情感分类问题进行了研究,并对现有的一些方法和技术做了分析和总结。目前一些观点挖掘技术已经被用于解决这类实际问题。例如,观点挖掘能够帮助企业了解用户对于他们产品的看法。公司可以基于用户对产品的反馈信息做决策。公司也能够修改他们产品的特性并且根据用户意见以更好更快的方式引出新的产品。公司通过更加准确提供用户想要的,而不是公司想出售的,以此提高用户体验。帮助公司发现,吸引和留住顾客,节省生产成本。

在今后的工作中,更多的研究将集中在改善方法和性能指标。

摘要:观点挖掘和情感分析是分析用户观点,反馈,情感,评估,态度和个人情感的一个研究领域。这是自然语言处理中最活跃的一个研究领域,在数据挖掘,Web挖掘和文本挖掘领域中同样也被广泛研究。随着社交媒体、Web2.0技术(如新闻、论坛、博客、微博和社交网络)的发展,情感分析的重要性相应增长。首次在人类历史上,我们有了大量的数字形式的观点意见需要进行分析。在本文中,我们对文本观点挖掘、情感分析以及相关技术进行了研究。

关键词:观点抽取,观点挖掘,情感分析,文本挖掘

参考文献

[1]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11):2725-2728.

[2]杨卉.Web文本观点挖掘及隐含情感倾向的研究[D].吉林大学,2011.

[3]张冬梅.文本情感分类及观点摘要关键问题研究[D].山东大学,2012.

[4]P.D.Turney,"Thumbs up or thumbs down:semantic orienta-tion applied to unsupervised classification of re-views,"pre-sented at the Proceedings of the 40th Annual Meeting on Asso-ciation for Computational Linguistics,Philadelphia,Pennsylva-nia,2002.

临时占用和挖掘道路行政许可审批 篇5

一、行政许可审批内容

因工程建设需要占用、挖掘道路,或者跨越、穿越道路架设、增设管线设施,影响交通安全的。

二、设定行政许可审批的法律依据

(一)《中华人民共和国道路交通安全法》(2003年10月28日第10届全国人民代表大会常务委员会第5次会议通过)第三十二条第一款;

(二)《公路法》(1997年7月3日第8届全国人民代表大会常务委员会第26次会议通过,1999年10月31日9届全国人大常委会第12次会议修订)第四十四、四十五条;

(三)《城市道路交通管理条例》(1996年6月4日国务院令198号)第三十三条。

(四)《深圳市人民政府第134号令》(深圳市政府三届一二四次常务会议审议通过)附件第六条第一款第二项。

三、行政许可审批数量及方式:

(一)数量:同一地点占用、挖掘道路,或者跨越、穿越道路架设、增设管线设施的项目,无数量限制;

(二)申请许可方式:申请该项行政许可应先经过道路主管部门审批同意,然后向公安机关交通管理部门申请审核;

四、行政许可审批条件

(一)申请该项行政许可应先经过道路主管部门的审批同意;

(二)因工程建设需要占用、挖掘、跨越、穿越道路架设、增设管线设施,影响交通安全的,还应当征得公安机关交通管理部门的同意;

(法律依据:《中华人民共和国道路交通安全法》第三十二条第一款规定;《公路法》第四十四条、四十五条规定;《城市道路管理条例》三十三条规定。)

五、申请材料

(一)《深圳市临时占用道路申请表》原件1份;《临时占用道路交通疏解方案征求意见表》原件1份;

(二)身份证明材料:

⑴属个人的,提供身份证(查验原件,留存复印件1份);

⑵属企业的,提供工商营业执照复印件(加盖工商部门复印件专用章)及法定代表人或负责人证明;

⑶事业单位或其它社团组织提供政府批准成立的批文复印件(查验原件,留存复印件1份)或核准登记证明、法定代表人或单位负责人证明;

⑷国家机关的,提供法定代表人或单位负责人证明(原件); ⑸单位授权他人代理的,提供委托书及委托代理人个人身份证明(原件); ⑹个人授权他人代理的,提供公正的授权委托代理人个人身份证明(原件); ⑺境外企业的、组织及个人提交的身份证明按规定须经过见证或认证,香港和澳门的须经司法部授权的律师见证(原件)。

(三)道路主管部门审批的同意意见(查验原件,留存复印件1份);

(四)施工方案,涉及公交线路改变的还须出具交通行政主管部门审批同意的意见(查验原件,留存复印件1份);

(五)《道路交通疏解方案》一式三份,方案内容包括:工程的项目名称;占用、挖掘道路的路段、面积、跨越、穿越道路的地点、工程期限;占用、挖掘道路的路段、面积、跨越、穿越道路施工时所采取的物理安全措施和维护交通秩序与安全的措施,以上内容需详细地标注在交通疏解图中。(方案及图纸须由建设单位盖章确认,附电子数据)注意:交通疏解图的绘制要求:

(1)交通疏解图必须根据实际地形特征绘制;

(2)交通疏解图中,需明确标注施工前、施工期间、施工结束后恢复的道路线形及附属交通设施(标志、标线、护栏、交通信号、监控设施等);

(六)对于片区域路网交通运行影响较大的项目,需提出相应的交通评估报告;

(七)涉及道路交通组织调整、道路封闭、对通行影响较大的情况,需提前进行公告。

(八)工程延期申请,须有市政道路管理部门同意的证明及施工延期申请报告。

(法律依据:本实施办法规定)

六、申请表格:

申请人需填写《深圳市临时占用道路申请表》、《临时占用道路交通疏解方案征求意见表》。上述表格可到交警局道管业务受理窗口免费领取,也可在深圳市公安局交警支队网页上免费下载。

七、行政许可审批受理机关 深圳市公安局交通警察局。

八、行政许可审批决定机关

深圳市公安局交通警察局。

九、行政许可审批程序

(一)受理申请资料;

(二)审批

1、受理申请材料;

2、派员到施工地点勘察,根据需施工现场的交通情况,按要求对施工单位所提供的资料可行性、完整性进行审查,并提出审核意见;

3、材料齐全,交通组织疏解方案、疏解图纸按要求无误后,逐级申报材料,按法定时间、承诺时限审核;

4、发放《深圳市临时占用道路许可证》。

十、行政许可审批时限

(一)受理时限:当场受理(资料完整,与审核意见核对无误);

(二)审批时限(承诺时限):自受理申请之日起15个工作日内。

十一、行政许可审批证件及有效期限

《深圳市临时占用道路许可证》,按实际需要占道施工的时间确认有效期。

十二、行政许可审批的法律效力

从同意行政许可即日起至有效之日止可以占道施工。

十三、收费

不收费。十四.年审 不需年审。

十五、法律救济

数据分析和挖掘 篇6

关键词:故障诊断;变压器;数据发掘

引言

变压器是电网安全运营的基本保证,尽管目前在变压器运行过程中已经提出了一系列保护措施如避雷针配置、接地保护、差动保护等,但从实际情况来看这些保护措施显然不能满足变压器的实际工作需求,由于变压器内部结构十分复杂,在长期负荷下必然会出现各种问题如老化、材质裂化等,这必然会带来一定程度的故障。而为了让这些故障得到有效的控制就需要对诊断工作以及预测工作进行深入完善,以此来维持其稳定状态。数据挖掘技术为变压器故障诊断以及故障预测提供了有力的技术基础,这对于变压器乃至整个电力系统的稳定运行均有着十分重要的意义。

1.数据发掘概述

数据发掘事实上是一个综合性的过程中,在这个过程中需要从大量数据当中进行“隐性数据”提取,这些数据无论是用于信息管理、查询优化还是过程控制等都有着十分重要的作用。当然数据发掘涉及范围十分广泛,它不单单涵盖了数据库内容,同时还承载了数理统计、计算等,对相关人员具有较高的专业性要求。近年来随着电力系统规模的不断扩大使得电力系统的数据承载量得到了极大的提升,这也使得电力行业对数据挖掘技术也越来越重视。例如在变压器测试过程中由于一些客观或主观因素影响会造成一系列的错误数据,再加上变压器复杂程度较高,使得它的故障呈现了不确定性,而基于数据发掘则能够将这些潜在因素解剖出来,这也使其在电力系统当中有了巨大的应用空间

2.基于数据挖掘的变压器故障诊断系统分析

对于数据发掘而言它是一个完整的规程,在此规程当中需要对大型数据库的有效实用信息进行发掘,使其成为决策信息。对于整个数据挖掘环境而言其中涉及到了变压器数据集市、数据集市服务器、数据发掘模块中以及可视化工具。变压器数据集市是最为主要的工作对象,服务器主要是针对数据发掘模块的要求对数据进行提取,而数据发掘模块是整个系统的核心构建,它可对变压器的DGA数据进行整合处理并进行迅速化的數据分类[1]。可视化工具则实现了人机交互,让用户可以更为清晰地观察的数据动向并进行分析。数据发掘主要遵循了以下流程:原始DGA数据→被选择数据→预处理后的数据→被抽取的知识→可视化状态结果。

数据发掘完成后则需要对条件属性、决策属性进行确定,换句话说故障诊断事实上就是由故障征兆至故障类型的映射,根据相关条件对其进行分类并整合,这就涉及到了分类模型的设计。尽管变压器的故障种类较为繁杂,但是故障的特征性也较多,那么分类器设计过程中就需要对典型代表的特征属性进行捕捉,使用较少量的特征性信息来反映出更多的需求信息。对于变压器而言绝缘油的状态是十分重要的参考,在变压器处于不同工作条件下时绝缘油当中溶解气体浓度及各种气体比例关系存在较为明显的差异,那么便可以根据这种差异化特则将变压器的故障清晰地反映出来,同时也可以将它视作绝缘老化判定的参考标准[2]。定义属性条件以及来匹配相应的数据类型并以此结构构建出数据库。

在上述基础上还要对数据进行离散化处理,这是数据预处理过程中的关键内容。从需求上来看连续性离散化的需求主要来自以下方面:由于在实际工作过程中数据集当中涵盖了大量数据,因此形成了大量的数据集,若直接对这些数据进行挖掘就需要耗费大量的时间,同时这些数据集也会占用大量的数据空间,那么采取连续离散化那么便可以让数据量得到有效压缩,让数据处理负荷得到控制。在本研究中采取了朴素贝叶斯分类器来进行数据分离,也就是说将相关属性值看成定性数据从而实现离散化。结合相关导则[3]得到离散化标准表,如下所示:

3.结语

由以上研究可知基于数据挖掘的变压器故障诊断过程中故障数据整合分类是十分关键的环节,它是确保故障诊断取得成效性的基础,利用朴素贝叶斯分类器来进行离散分离从而保证数据的有效性,同时构建对应的数据库为故障诊断提供良好的环境。

参考文献:

[1]张永宜,段志宏. 基于专家知识库的电力变压器故障诊断系统[J]. 西安工程大学学报. 2011(04)

[2]刘守明,胡志坤,王美玲. 基于知识库的电力变压器故障诊断专家系统[J]. 计算机测量与控制. 2011(07)

数据挖掘组件的设计和实现 篇7

最近几年,越来越多的应用程序使用了OLAP和数据挖掘技术,OLAP允许用户从各个不同角度来分析数据,数据挖掘技术则可以从海量数据中自动发现隐藏在其中的模式或知识。MS SQL SERVER 2005的ANALYSIS SERVICES则提供了大量的建立、管理OLAP和数据挖掘对象的工具。为了使用这些工具,没有任何数据挖掘领域知识的用户需要深刻理解SSAS的体系结构和很多专业特殊术语。正是技术方面的复杂性,使得用户望而生畏。本文将设计Data mining组件,用户可以利用它们开发自己的分析应用程序。

2 数据挖掘的API

SQLSERVER 2005提供的编程接口主要有以下几种:

2.1 AMO

在SQL Server 2005中,Analysis Management Object(AMO)是一种全新的编程对象模型。AMO对象模型是基于XML/A协议。XML/A是依据于XML协议的一个简单对象访问协议,主要用于客户端应用程序与Analysis Services进行数据交互。AMO使用XML/A与Analysis Services实现连接。AMO提交的所有操作命令都将转换成XML/A的格式。开发人员可以使用AMO自动地创建和处理Analysis Services对象模型。

2.2 ADO.NET

ADO.NET对Microsoft SQL Server和XML等数据源以及通过OLE DB和XML公开的数据源提供一致的访问。数据共享使用者应用程序可以使用ADO.NET来连接到这些数据源,并检索、处理和更新所包含的数据。ADO.NET通过数据处理将数据访问分解为多个可以单独使用或一前一后使用的不连续组件。ADO.NET包含用于连接到数据库、执行命令和检索结果的.NET Framework数据提供程序。

2.3 ADOMD.NET

ADOMD.NET是一个标准的.NET数据提供者,它主要用来与多维数据源进行通信。它使用支持XML for Analysis version 1.1标准的数据提供者连接数据源,使用TCP/IP或HTTP流传输和接受SOAP请求。使用ADOMD.NET可以获取和操作多维数据,KPI和挖掘模型。ADOMD.NET也可以通过两种方式浏览和操纵元数据:OLE DB schema rowsets或ADOMD.NET对象模型。

3 Data Mining Builder组件(简称DMB)的设计方案

我们通过Analysis Management Objects(AMO)可以建立管理数据挖掘对象。本文提出的DMB组件就是利用AMO实现的,该组件允许开发者将数据挖掘功能封装进自己的应用程序。DMB组件的结构及它和AMO之间的逻辑关系见图1。

下面我们给出用DMB组件进行数据挖掘时所经过的一系列操作步骤(见图2)。

1)连接到目标服务器并创建数据库

我们要在服务器上创建任何对象都必须遵循以下步骤:a)初始化对象;b)设置对象的NAME和ID属性值;c)根据需要设置对象的其他相关属性;d)将该对象添加到它的父容器对象中;e)更新该对象或它的父容器对象。

DMB组件能够通过ConnectToServer函数连接到目标服务器,并通过CreateDatabase函数来创建数据库。

2)创建数据源

当数据库对象创建完毕之后,下一步就是要创建数据源对象。数据源表示到数据源的连接,并包含定义Analysis Services如何使用托管Microsoft.NET Framework或本机OLE DB访问接口连接到物理数据存储区的连接字符串。连接字符串包含服务器名称、数据库、安全性、超时值以及其他与连接相关的信息。该对象的创建过程非常简单,DMB组件提供了CreateDataSource函数来实现该功能。

3)创建数据源视图

数据源视图是基础数据源的逻辑表示,数据源视图(DSV)的创建过程比较复杂。数据源视图的主要元素是SCHEMA,SHEMA是一个标准的DATASET对象。为了将SCHEMA对象装载到DSV中,我们需要为那些准备添加到DSV中的表创建DATA ADAPTER数据适配器,然后将各自的SCHEMA添加到DATASET中并且添加必要的关系,最后将DATASET添加到DSV中,DMB组件提供了CreateDataSourceView函数来完成这一过程。

4)创建挖掘结构

挖掘结构是一种数据结构,它定义生成挖掘模型的数据域。单个挖掘结构可包含多个共享相同域的挖掘模型。DMB组件提供了CreateMiningStructure函数来实现该功能。

5)创建挖掘模型

数据挖掘模型可向挖掘结构所代表的数据应用挖掘模型算法,数据挖掘模型在处理之前只是一个空对象。在处理模型时,通过算法传递由结构定义的数据。算法确定数据中的规则和模式,然后使用这些规则和模式填充模型。DMB组件提供了CreateMiningModel函数来实现该功能。

6)处理挖掘模型

DMB组件提供了ProcessMiningModel函数来实现该功能,由于此项操作处理时间长,我们利用AMO中的TRACE对象来和服务器进行交互,以及时了解进展情况。

这个分析服务组件DMB提供了一系列用于创建和管理数据挖掘对象的函数。由于和.net环境完全兼容,应用程序开发人员借助该组件很容易将挖掘代码进行封装。借助DMB用户可以充分利用SQL Server 2005 business intelligence,满足他们的日常数据分析和商业决策需求。

图2利用DMB进行数据挖掘步骤演示图

4 应用示例

我们将在MS SQL SERVER2005的环境下,将DMB组件用于研究movieclick数据库(该数据库可从微软网站获得)。

我们采用VB.NET来实现该组件,启动该程序,在主界面(见图3)单击按钮“利用AMO进行数据挖掘”,接着输入准备创建的数据库名称“movieclick”,然后单击创建右侧的数据库按钮,依次创建好数据源、DSV、挖掘结构和挖掘模型,当数据挖掘模型创建成功后,就可以单击处理挖掘模型按钮,最终结果见图4。

参考文献

[1]Data Mining with SQL Server 2005 ZhaoHui tang and Jamie MacLennan wiley publishing,2006.

[2]刘艺SQL SERVER2000数据挖掘技术指南[M]北京:机械工业出版社,2006.

数据分析和挖掘 篇8

春江水暖:统计推断

“竹外桃花三两枝,春江水暖鸭先知”出自北宋诗人苏轼著名的题画诗《惠崇春江晚景》,作者寥寥几句,勾勒出早春江景的优美画境。特别是“春江水暖鸭先知”,把水温冷暖描绘得富有情趣、美妙传神。由画中“桃花初放、江暖鸭嬉、芦芽短嫩”,推知画外“河豚欲上”的初春气息,我们除了从中欣赏画中有诗、诗中有画之外,还可以找到统计推断的影子。

统计推断是根据随机性的观测样本以及问题的条件和假定,对未知事物作出以概率形式表述的推断。概率论是统计推断的理论基础。统计推断问题常表述为:所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的随机观测样本作出与未知分布有关的某种结论。统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。如上述题画诗通过随机抽取一个“鸭嬉”画面,测得“江暖”,进而推断早春真的来了。如果研究的问题是“早春是否来临”,就需要通过样本“鸭子是否入水嬉戏”检验这个命题是否成立,这也是一种推断形式,即假设检验。由于统计推断是由样本推断总体,因此根据样本对总体所作的推断,并不能做到完全精确和可靠,其结论要以概率的形式表达。也许作为样本的江水受光照的影响有冷暖之别,并非春来;或者嬉水的鸭子并不惧寒冷,也未可知。统计推断的目的,本来就是利用问题的基本假定及包含在观测数据中的信息,作出尽量精确和可靠的结论。

常用的抽样方法有:简单随机抽样、周期系统抽样、分层抽样和整群抽样。采取适当的抽样方法确保抽样的代表性,可有效地控制和提高统计推断的可靠性和正确性。比如此诗中除了“江暖鸭嬉”,还有“桃花初放”、“芦芽短嫩”等抽样结果共同来支持早春来临的结论。

在水一方:数据挖掘

“所谓伊人,在水一方”出自诗经秦风《蒹葭》,抒发主人公河畔倘佯,凝望对岸日夜思念的意中人之情,虽望穿秋水、可望难即,但其孜孜以求、执着追寻之意,颇有数据挖掘的意思。

数据挖掘(Data mining)又称资料探勘、数据采矿,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的一种决策支持过程。主要基于人工智能、在线分析和处理、情报检索、机器学习、模式识别、专家系统、统计学、数据库、可视化技术等诸多理论和方法,高度自动化地分析相关数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。针对市场企业而言,数据挖掘是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。数据挖掘是知识发现过程的三个阶段(数据准备、数据挖掘、结果表达和解释)之一,主要是通过与用户或知识库交互分析每个数据,从中寻找规律,其任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。

生活中有很多数据挖掘的例子。比如在传统市场营销中,街上派送的宣传单、手机上的广告短信、推销电话等,都只是基于人群或者简单的用户、住户信息推送的,盲目且浪费。数据挖掘则以市场细分原理为基础,假定“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,并以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。又比如,当银行账户申请双人联合账户时,可通过联合账户的数据挖掘,分析推断该用户是抱得“伊人”归,还是仍然隔岸相望,来决定向用户定向推销用于房贷、教育投资等业务,还是转而推送婚庆商品和服务业务,或者推送特快专递鲜花、礼品等业务。

上善若水:大数据

“上善若水,水善利万物而不争。”语出《老子》,意为最高境界的善行就像水的品性一样,泽被万物而不争名利。水有滋养万物的德行,它使万物得其利,而不发生矛盾、冲突。海量的大数据,最终能不能成为这样一种水,值得期待。

1980年,未来学家阿尔文·托夫勒在《第三次浪潮》中,将大数据赞为“第三次浪潮的华彩乐章”。受技术所限,大数据时代并未随之到来。直到2009年前后,大数据才开始逐步受到信息技术行业的关注。在历经批判、质疑、讨论、炒作等种种之后,大数据终于迎来了2013年———媒体所称的大数据元年。大数据到底有多大?有资料预计,2013年世界上存储的数据能达到约1.2泽(12亿TB)字节,印刷成书可以覆盖整个美国52次,存于标准光盘则可以堆成五堆,每一堆都可以高达月球。专家预测到2020年,全球每年新创的数据容量将会达到40泽(400亿TB)字节,如果要用标准光盘储存互联网在一天里传送的数据,大约需要2.5亿张光盘。

大数据的原理在统计人的眼里并不复杂,从抽样调查的角度看,样本选取的越多,得到的统计结果就越接近真实的结果。从海量的、多样的、迅速更新的数据中实时“提纯”出有用信息,就是大数据的意义所在。越来越多的政府和企业,迅速涉足这些隐藏在数据汪洋中的大金矿。许多世界级的互联网企业、社交平台、电商,就连商场营销和影视制作都有大数据的身影。比如一举成名的美剧《纸牌屋》,就是源自美国视频网站Netflix对喜欢BBC剧、导演大卫·芬奇和演员凯文·史派西的用户数据中的交集数据分析,打造出的一部“大数据”剧集。

挖掘联系是分析问题的关键和基础 篇9

联系就是事物内部各个要素之间和事物之间相互影响, 相互制约和相互作用的关系. 事物的联系是普遍存在的, 多种多样的, 最关键的是发现和挖掘, 最有价值的是灵活利用. 如何发现和挖掘? 可以通过接近、相关、相似、联翩、环链、因果、辐射、借托等的想象, 归纳、演绎、辩证、求同、求异、类比、层进、比较、多向、反馈、发散、聚敛、抽象、形象、现象、灵感、变形、全息等的思维方法, 来认清事物的联系, 如现象和本质、形势和内容、原因和结果、普遍和特殊、偶然和必然 、可能与现实、假设和疑问等关系. 化学的教与学和解决其他学科问题一样都离不开发现和挖掘事物本身各个方面以及事物之间各个因素存在的普遍联系.

例1有机化合物A为一卤代有机酸, 仅含C、H、O、Cl元素, 与A相关的反应流程如图1.

( 1) 写出下列 反应的有 机反应类 型: A→C中1是_______反应, C→E是_______反应.

( 2) 写出F的结构简式:_______ .

( 3) 写出与C具有相同官能团的同分异构体的结构简式__________ .

( 4) 写出下列反应的化学方程式: A→B:_______ .

解析: 显然, 突破口是根据题给反应条件与反应机理的联系, 以及分子式不饱和度与分子结构的对应关系, 构建出各物质的结构简式来, 其他问题迎刃而解.

例2氯化亚铜 ( Cu Cl) 是重要的化工原料. 国家标准规定合格的Cu Cl产品的主要质量指标为Cu Cl的质量分数大于96. 50% . 工业上常用下列反应制备Cu Cl:

( 1) Cu Cl制备过程中需要配制质量分数为20. 0% 的Cu SO4溶液, 试计算配制该溶液所需的Cu SO4·5H2O与H2O的物质的量之比.

( 2) 准确称取所配制的0. 2500 g Cu Cl样品置于一定量的0. 5 mol·L- 1Fe Cl3溶液中, 待样品完全溶解后, 加水20 m L, 用0. 1000 mol·L- 1的Ce ( SO4) 2溶液滴定到终点, 消耗24. 00 m LCe ( SO4) 2溶液. 有关化学反应为:

通过计算说明上述样品中Cu Cl的质量分数是否符合标准.

解析: 显然, 关键是根据题给反应的化学方程式, 找到Cu Cl与Ce4 +的联系, 其余根据定义式计算便可.

例3大多金属碳化物能与水剧烈反应, 生成相应氢氧化物和气态烃, 如:

现有Ca C2与某常见金属碳化物A的混合物, 与足量盐酸反应, 得一澄清溶液, 并有大量气体产生, 将气体通过碱石灰干燥除杂后, 测其体积为V1, 将所得气体充分燃烧, 生成的CO2的体积为V2, 相同条件下, V1∶V2= 5∶7: 向澄清溶液中逐渐加入足量Na2CO3溶液后, 再继续加入Na OH溶液, 沉淀物质的量变化如图2所示, 试回答下列问题:

( 1) 已知A中的金属元素是短周期元素, 则该元素是:_______ ( 写元素符号) , 写出Ca C2与浓盐酸反应的化学方程式:_______ .

( 2) 根据V1∶V2= 5∶7, 可算出混合烃中平均每1 mol烃分子含有______mol C, 由此可知 气态混合 烃中含有 乙炔和________ .

( 3) A的化学式为_______ .

( 4) 原混合物中Ca C2的物质的量为_____mol, A的质量为________g.

解析: 一是确定具体地从定性定量确定金属碳化物中碳的化合价与烃分子结构的对应关系, 二是确定金属碳化物中碳个数、烃分子个数、CO2个数三者联系, 问题得到解决.

数据分析和挖掘 篇10

关键词:数据挖掘和分析,数据仓库,综合评价体系,关键指标绩效管理,多维分析

1引言

随着信息化时代的到来, 信息爆炸式增长。在过去的数十年里, 人们产生数据和收集数据的能力也迅速提高, 人们被各类数据-科学数据、医疗数据、人口统计数据、财经数据、市场数据等等包围着。但是过往我们并没能从海量数据中获得到清晰的、核心的、有价值的信息, 只是被数据海洋淹没。因此, 我们迫切需要统计工作者提供实时、高效、准确的统计服务信息, 辅助管理者更直接、有效、全面、系统地把握全局, 方便快捷地处理复杂事务, 从而达到科学的管理与决策的目的。这些需求的产生, 使得我们在实际工作中逐渐引入一个新的工作领域-数据挖掘和分析。

2数据挖掘与分析概念

什么是数据挖掘和分析?从技术的角度简单的说, 是指从大量的、不完全的、有噪声的、随机的实际应用数据中, 提取隐含在其中的人们实现不知道的, 但是又是潜在有用的信息和知识的过程, 并且, 对说提取的信息按多种方式进行分析。

在数据挖掘和分析中, 数据源必须是正式的、大量的、含噪声的, 发现的是用户感兴趣的知识, 发现的知识要求可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题。而数据挖掘和分析的应用是非常广泛的, 作为一种新的信息处理技术。目前在医院的应用将对医院的医疗质量管理、病种分析等临床应用以及医院市场定位、医院运营管理等有非常大的帮助和实际作用。

3医院进行数据挖掘和分析的必要性和适时性

3.1目前医院信息系统提供的报表和数据沿袭了手工操作方式, 无法体现各系统之间的内在关系。在整理资料的过程中, 由于医院统计指标体系框架、扩展机制研究滞后, 统计术语标准化滞后, 统计口径不统一, 数出多门, 结果歧义问题频繁出现, 综合、系统、规范的电子统计台账建设滞后。

3.2从横向层面来说, 各个部门或者不同系统的数据和信息无法有效的关联, 数据来源单一, 综合性信息系统和决策支持管理的功能较弱, 不能提供完整的系统数据分析和决策提示。

3.3统计工作作用力度不足目前医院统计人员日常所从事的主要工作多停留在简单、机械、被动地收集整理数据和完成统计报表上:进行资料分析、信息反馈的人员不到50%, 只有15%的人员对网络数据进行核查。由此可见网络条件下统计监督、信息服务预测预报、决策支持等统计工作的职能作用未得到充分的发挥。

4运用数据挖掘和分析技术的目标

4.1在发展方向上, 数据挖掘和分析将从最客观和深刻的角度为医院制定战略、支持决策和确定营销方式提供信息支持, 将医院未来的发展策略与实现的途径紧密结合。

4.2将数据仓库概念引入医院, 集合形成对疾病具有诊断和治疗价值的数据集, 分析病人的临床表现、实验室检查、医技检查等结果, 提高临床医生的医疗效率。

4.3医院将拥有一个综合客观评估体系, 用于对全院各科室、人员的工作效率、达标情况、考勤收益等进行综合的分析和了解, 并且形成一套行之有效的自上而下的管理和自下而上的自控措施。

5数据挖掘与分析的技术实现

主要通过以下步骤实现数据挖掘与分析:

第一步:使用ETL工具将数据从不同的系统抽取、清洗、整合和传送;

第二步:使用建模工具将清洗整合好的数据建立模型, 分成多维度可以分析的模型集合;

第三步:对模型进行必要的分割或关联整合, 设计模型的增量, 逐步完善模型集, 形成数据仓库;

第四步, 通过客户段的分析挖掘工具, 来分析挖掘数据, 并根据需求形成不同的报表和图表, 或者仪表盘等。

不同的用户通过权限和报表设计, 看到的截面和信息是不同的。如院长看到的多为大指标管理的仪表盘或平衡积分卡。

6数据挖掘和分析在医院的中实际应用

根据目前医院最核心的问题, 将以市场定位、综合评估系统和质量控制为主要应用点, 进行数据挖掘和分析, 在这三大个方面, 我们的主要目标是: (1) 通过对病种和病人来源的分析, 获知医院的主要市场在哪、医院的发展方向该如何、医院重点项目 (手术) 如何投入。帮助医院找准自己的市场定位。 (2) 建立医院的数据仓库, 实现信息关联共享, 并在该基础上建立一个综合的评估系统, 建立关键绩效指标的管理方式, 运用平衡积分卡对医院进行管理。 (3) 提高医疗质量控制, 实现一些实时监控和重要指标监控、分析。特别是对病种病例的管理。

6.1应用数据挖掘和分析帮助医院做好市场定位

通过建立维度对"病人来源"做分析, 分析及应用如下:

通过建立维度对"病种"做分析, 分析及应用如下:

数据挖掘和分析的另一个优势是不但从一个事物的不同的维度看问题, 还可以将不同的事物的维度再结合分析, 分成多维分析。多维分析对医院的决策是有强大帮助的, 它能客观的反映数据带来的信息, 符合多角度考虑事情的方式, 从而支持决策, 在我们对市场定位的过程中, 我们将"病人来源"与"病种"结合分析, 并且基于5年的数据, 让挖掘结果更加靠近事实。

6.2建立数据仓库, 实现信息关联共享, 并在该基础上建立一个综合的评估系统, 建立关键绩效指标的管理方式, 运用平衡积分卡对医院进行管理。

目前医院的系统如HIS、LIS、RIS、CIS、PACS等系统都是事务性数据库, 它们对于医院流程规范、工作效率的提高等起着不可替代的作用, 在医院建设数字化历程中, 当我们完成这些基础的数据性数据库的建立后, 必须着眼于建立一个综合的统计分析平台, 关联上各个事务性数据库, 用户可以在同一个平台上全面、客观的查询、分析到自己需要的信息, 这个就是我们项目中设计的"数据仓库", 数据集。它是我们实现数字化医院的一个数据基础。在该基础上面, 我们建立一个综合的评估系统, 主要是对全员人员和科室绩效考核管理的。

在设计方面, 我们将是以模型的形式保存下所有的数据, 数据间已经建立好关联。首先将目前医院目前主要的HIS, LIS, CIS, PASC系统, 通过ETL工具Integrator将数据从不同的数据来源中抽取, 整合为文件。

根据医院的工作重点, 我们将在这样的平台上建立一个综合评价的系统。将医院各科室和人员的工作行为和效果量化、可视化, 通过合理的归纳工作范围和职责, 量化工作行为, 定量定性的制定评价指标, 来实现医院人员的关键绩效指标管理, 实现领导对下属的科学合理的分析和评估, 形成各科室间的公平、良好的争竞氛围, 更好的制定激励机制, 为医院留住好的人力资源, 从而提高医院的收益和影响力。

7总结

通过对医院整体信息资源的整合, 在为信息建设的更高层面的建设, 医院收益颇多。

第一、更好的了解医院的现有资源情况, 特别是对病人与病种的分析, 实现医院以患者为核心的医疗管理和服务方式。

第二、在更好的了解医院的基本状况和优势下, 对医院的市场定位和实现该市场定位做了很多的决策支持作用。

第三、医院信息孤岛的消除, 管理者可以在一个平台看所有数据, 并且数据间相互关联, 相互为对方揭示原因与结果。实现真正的全局化管理和自上而下的监控。

第四、建立起医院的综合评价系统, 对人员、科室的绩效考核轻松而客观, 留住好的人力资源, 增加医院的竞争实力。

第五、提高医疗质量的监督和水平, 从而帮助提高医院知名度。还可以未雨绸缪地做一些管理的准备工作。

参考文献

[1]陈绍福.医院质量管理[M].现代医院管理丛书.2007, 2.

在教学中挖掘和探究数学之美 篇11

关键词:小学数学;美;挖掘

中图分类号:G622 文献标识码:B 文章编号:1002-7661(2014)18-209-01

数学之美充满了整个世界,它结构的完整、图形的对称、布局的合理、形式的简洁,无不体现出数学中的美的因素。在教学过程中,我们教师应通过生动的语言,优美的图形,严密的推理等审美示范,创设情境,培养情感,把数学美的简洁、对称、统一等特征融贯在整个教学中,让学生在美的数学世界里获得知识,理解知识,掌握知识。正如古代哲学家、数学家普洛克拉斯断言:"哪里有数,哪里就有美。"数学美的功能在我们的小学教育中占有很大的份量,是我们的文化中极为重要的组成部分,它不但有智育的功能,也有其美育的功能。数学美深深地感染着人们的心灵,激起人们对它的欣赏。因此,在小学数学教学中,我们要善于挖掘数学中蕴藏的美的因素,创设美的数学情景,激发学生学习兴趣,从而达到提高教学效率,完成教学目标。

一、挖掘数学中的简单美

简单就是美,数学的语言简洁明确本身就是美,数学语言的高度概括性,增一字嫌多,而减一字则感不足,这种洗练的简洁,真可与的诗句相媲美。数学的简单美具有形式简洁、秩序、规整和高度统一的特点,还具有数学规律的普遍性和应用的广泛性。它的妙处还在于用10个有限的数字能记出无限多的数,用加、减、乘、除4个运算符号,就能准确的描述客观世界中四大基本数量关系,是多么令人惊叹的简洁美!在我国春秋战国时代,就已经成为上口成诵的“九九”歌诀,语言的精炼,形式的整齐。再如,众所周知的三角形、平行四边形、梯形的面积公式,形式简洁应用广泛在梯形的面积公式。巧妙的解题思路,无疑是一种美的享受。另外在解答应用题时,当你在迷宫般的数量关系中独辟蹊径,找到一种构思巧妙的解法,你会感到豁然开朗,恰似文学中那种奇峰骤起的飞来之笔,使人领略到一种不期而遇的美感。

二、在活动中让学生体验数学之美

在“数学活动中感受美、欣赏美、体验美”是数学课程标准所积极倡导的重要理念。数学教学要在数学知识和师生之间架起一座桥梁,使数学中美的因素得以体现。大家都知道,仅仅凭借对美的事物的感知,所得的美感只停留在表面和潜层,是不深刻的,必须在感知美的过程中产生相应情绪体验,才能通过各种美的体验和品评鉴赏深化对美的形象认识与感知,获得丰富的审美体验。所以要精心的组织好真切的体验活动,使学生体验到数学的美。如在《认识物体》时,我设计了“摸一摸,说一说”的游戏。把操作活动和表达结合起来,让学生摸一个物体并说出它的名称,也可以先给名称再去摸出相应的物体。让学生在活动中,学会表达,学会倾听,发展他们的数学交流能力。通过这种有趣的数学游戏,激发学生的学习兴趣,使学生获得良好的情感体验。

三、挖掘数学中的奇异之美

奇异美是数学逻辑美的一种表现形式,它往往不只是一种形式,新颖的数学结论、出人意料的反例及巧妙的解题方法都表现了一种独特的令人惊讶的奇异美。例如:新教材中的生活中的数学等虽不是正文,却是教材正文的扩充,实际上是给学生一定的思考空间,让学生更好地自主学习,有助于扩大学生的知识面,开阔视野,发展心智,激发了学生的学习兴趣。让让学生把所学的知识支运用到实际生活中去体验了数学思想和方法的奇异和灵巧。诸如此类,好似天公巧设,出神入化,给人一种奇异的美感。

四、挖掘数学的和谐美

对称与和谐都是形式美的重要标志。它给人们一种圆满、匀称、协调、平衡的美感。数量的和谐,空间的协调是构成数学美的重要因素。学生从和谐关系中,真切地感受到数学知识的和谐美和结构美。正方形、等腰三角形、圆等,小学数学中的对称美不仅表现在几何图形中,还表现在一些运算和数表中。例如,加法和乘法就具有对称美, a+b与a×b是简单的对称式。正是这种对称美,揭示了加法和乘法的可交换性,从而归纳出重要的运算律——交换律。都是优美的图画。三角形是金字塔的缩影,圆是太阳的象征,圆柱是龙雕厅柱的简化,形象逼真的扇形,梅花瓣样的组合图形,铜钱式的圆中方,更显出几何图形的和谐美。

五、在教学评价中展现数学人文美

《数学课程标准》指出:“对数学学习的评价关注学生学习数学的结果,更要关注他们学习的过程;要关注学生数学学习的水平,更要关注学生在数学活动中所表现出来的情感与态度,帮助学生认识自我,建立信心。”这种以“人的发展”为目标评价方式,关注学生的个性差异,保护了学生的自尊心与自信心,是值得我们反思和研究的。例如,在平常的教学中,我们要以发展的眼光来评价学生,注意对学生平时表现记载,采用民主评议的方式,让学生评学生,学生评老师,老师评学生,让学生在民主评议的气氛中激励自己。对学生知识能力的检测,我们不光用一张试卷来考查学生,还应当增加一些面试、口试的过程,让学生动手操作,鼓励学生把自己最“得意”的技能表现出来,增强学生学习的信心,促进学生的全面提高。在学生出现错误时,教师不能急于指出错误,而要给学生以足够的时间和机会去发现错误、纠正错误,宽容学生的错误,给学生自我纠错的机会。在学生表达不清或者不能准确表达自己意思的时候,教师的话尽量让学生自觉纠错于无痕之间,凸现宽容,体现人文的关怀。

基于数据挖掘降雨量建模和预测 篇12

降雨量是影响一个地区水的质量的一个重要因素[1]。研究表明降雨量与水的浊度、悬浮颗粒的数量、微生物、营养物等存在密切关系。水中的氮化物和磷化物与降雨量也存在密切联系。在水文地理学中, SWAT (Soil and Water Assessment Tool) 是一种广泛采用的模型。将降雨量作为SWAT模型的输入能够进行水质的预测[2,3]。

在水文地理学和气象学中, 采用不同的方法进行降雨量的预测。文献[4]采用了一种2-D随机平流扩散模型进行实时的降雨量预测。文献[5]利用历史降雨量数据作为实践序列分析模型的唯一输入进行降雨量的预测。翻斗式雨量计通常被用来进行降雨量的估计。文献采用了一种基于物理现象的降雨径流模型来研究TB的随机和有规则的误差对径流量的准确预测的影响。然而基于TB的数据并不准确, 因为降雨量的预测是基于每一个点的测量。即使TB测量点彼此距离很近, 所得到的数据变化也很大。除此之外, 当降雨强度很大的时候, TB测量值变化也很大。

为了克服基于TB数据的模型的缺点, 学者们提出了一些基于雷达数据进行降雨量预测的模型[6,7]。雷达数据的空时高分辨特性会使得降雨量的预测非常准确。文献[8]采用了雷达数据进行降雨量的预测, 同时考虑了降雨过程的三维结构。其研究结果表明采用雷达数据进行降雨量的预测比采用其它模型准确率明显提高。

在采用雷达数据进行降雨量的预测中, 式 (1) 所示的ZR关系被广泛采用:

其中, Z为雷达反射率, R为降雨量, a、b为根据经验确定的常数。a、b的确定需要根据地区和时间的不同进行调整。事实上, 由于a、b需要根据经验来确定反而成为了这种基于物理的模型的一个缺陷。除此之外, 雷达反射率也可能会受到其它一些因素的影响, 比如地形地貌等。包含噪声的雷达数据可能会造成预测值存在较大的误差。

克服这种模型缺陷的可行的办法就是采用基于数据挖掘的方法建立一个合适的基于雷达数据的降雨量预测模型。基于数据挖掘的方法根据大量的数据得到一个合适的预测模型。数据挖掘方法从人工智能、机器学习、统计学、数据库系统等组件发展起来[9]。在过去几年, 基于数据挖掘的方法在许多领域得到了成功的应用, 比如:天气预报、制造等[10,11]。

本文采用数据挖掘的方法进行某一地区降雨量的建模和预测。由于基于TB数据和基于雷达数据的模型都存在各自的优点和缺点, 因此在本文中我们结合着两种模型的优点, 提出了一种基于TB数据和雷达数据的降雨量预测模型。为了验证这种模型的准确性和稳健性, 我们还考虑了两种其它的模型以便比较, 其中一种是基于历史雷达数据的模型, 另一种是;邻近TB数据的模型。通过三种模型的比较验证了采用本文的模型能够有效提高降雨量预测的准确性。

1 数据采集和预处理

用于降雨量预测的雷达系统通常包含数个分布在一定范围的雷达站。本文所用的数据来自于与TB数据采集点相距150km的雷达站。由于雷达图像覆盖了TB数据采集点, 因此可以提取雷达图像中以TB中心及其周围9个点的雷达反射数据并平均以后作为每一个TB点所需要的反射率值。在原始雷达数据中存在一些空值, 也就是说在这些点雷达没有接收到任何信号, 因此就没有包含任何有意义的信息。在计算过程中必须将这些空值去掉, 因为这会使模型发散, 降低预测的准确性。当TB中心点及其周围9个点都是空值时, 就采用这些空值点前面的点的平均值作为TB点的反射率值。本文所用雷达数据的记录时间为5分钟, 而TB数据的采集时间为15分钟。为了让二者记录的时间长度一致, 可以将雷达数据采用的平均的方法转化为15分钟的记录长度。

由于不同海拔的反射率数据包含了即将来临的风暴的信息, 因此在本文中我们采用海拔高度分别为1~4 km的反射率数据进行降雨量的预测。不同高度的反射率数据包含了足够多的关于风暴的信息, 因此避免了平面位置预测器所面临的问题, 这种预测器经常会受到高山、山谷地形等的影响。

本文中采用的数据的降雨量收集时间为15分钟。为了便于数据比对, 在每一个地方都放置了两个TB, 其记录精度为0.0001 mm/h。这对我们来说已经足够精确了, 因此在建立预测模型时采用的数据为0.01 mm/h左右的值。在本文中采用的时间序列数据记录的时间段为2007年4月27日到2008年4月30日。预处理的数据包含了35 523个数据点, 其中三分之二用于基于数据挖掘技术的预测模型训练, 其余三分之一用于评估模型的性能。表1所示为所用数据的信息。

本文中u用于评估模型的标准为平均绝对误差 (MAE) , 均方误差 (MSE) , 标准差 (SD) 。其定义分别如式 (2) -式 (4) 所示:

其中, fi表示的是模型得到的预测值, yi表示真实值, n表示所采用的数据的点数。式 (2) 定义的MAE是时间序列分析中经常采用的量, 用于衡量预测值与观测值的接近程度。式 (3) 定义的MSE衡量预测值与真实值之间的均方差, 包含了预测模型的方差和偏差。式 (4) 定义的SD预测值偏离平均值的程度, 预测模型统计特性的一致性。

2 本文数据挖掘算法

本文采用了五种数据挖掘算法用于建立预测模型。这五种数据挖掘算法分别为神经网络算法 (NN) , 随机森林算法, 分类和回归树方法 (C&RT) , 支持向量机 (SVM) , K-最近领域fa (kNN) 。NN是一种来源于大脑工作原理的计算模型。NN包含了相互连接的神经元, 在训练过程中能够根据外部或者内部的信息自适应地改变其结构。NN经常被用来建立具有复杂输入输出关系的模型。在本文中我们采用了一种多层感知 (MLP) 的NN模型。

随机森林法包含了一组决策树, 每一决策树依赖于独立采集的一个随机向量的值, 并且与森林中所有树的分布一样[12]。随机森林法包含了Bagging的思想, 并且随机的选择特征进行决策树的建立。这种算法在大数据量的时候非常有效, 并且在较大部分数据缺失的情况下仍然能够获得较高的准确率。

C&RT是一种非参数方法, 产生if-then的逻辑准则, 非常易于理解。

SVM是一种用于分类和回归分析的监督学习方法。SVM在高维空间或者无限空间建立一个或者多个超平面。基于所选择的核函数将特征空间的数据点映射到超平面。SVM的主要优点在于核函数的使用使得SVM非常适合复杂非线性领域的建模。

k-NN是一种基于实例的学习方法, 并且考虑了邻近值的贡献。最近的邻居对所计算的平均值的贡献大于相距较远的邻居。k-NN是一种非常容易实现的方法, 在一些分类应用中具有很好的性能。

3 预测模型建立与仿真实验

在建立预测模型之前我们先进行变量的选择, 这样有利于降低数据的维度和复杂度, 同时也有利于模型的精度和计算的效率。在我们的验证中所用的数据包含了36个雷达反射率变量, 同时包含了2个小时的TB数据, 对应于8个时间段的降雨量数据。除了本文所提出的基于雷达反射率数据和TB数据的模型外, 我们还考虑了其它两种模型。为了表述的方便, 我们将基于雷达数据的模型设为Model 1, 将基于同一地区雷达和TB数据的模型设为Model 2, 将基于不同地区雷达和TB数据的模型为Model 3。因此, Model 1-Model 3的输入变量分别为36、44、52。本文采用了文献[13]的增强树算法来计算所有特征的重要性。在建立模型的过程中只选择对输出具有重要作用的特征。

为了选择具有最好性能的数据挖掘算法, 首先我们采用五种数据挖掘算法进行基准模型———Model 1的建立。Model 1只采用了雷达反射率数据, 而其它两种模型都利用了雷达和TB数据。

表2为Model 1中五种数据挖掘算法的性能。我们采用MAE、MSE和SD作为选择最优数据挖掘算法的标准。表2的结果表明采用MLP NN算法建立的模型与采用其它算法建立的模型相比具有更好的性能。在采用五种数据挖掘算法建立Model 2和Model 3时能够得到相似的结论。MLP NN算法比其它算法具有更优的性能。因此, 在本文中我们现在MLP NN算法作为建立预测模型的算法。为了得到通用的NN结构, 本文采用不同的训练算法训练了100个NN。我们考虑的训练算法包括最陡梯度算法、共轭梯度算法、径向基函数、BFGS算法等。在每一种训练算法中, 隐藏神经元的数量由5变化到25, 考虑了五种神经元激活函数。采用均方误差和函数作为误差的衡量标准。建模结果表明结合BFGS算法的后向传播MLP NN算法性能最优。

BFGS包含如下的基本步骤:

1) 设置搜索方向;

2) 确定每一方向搜索方向的步长;

3) 更新Hessian矩阵;

4) 根据选择标准检测收敛性。

基于所测试的训练算法的性能, 本文选用BFGS作为建立预测模型的数据挖掘算法。比如, Model 1的最终MLP NN有20个神经元, 一个隐藏层, 在隐藏层和输出层都包含逻辑激活函数。

选择一小段包含100个数据点的数据来验证预测Model 1-Model 3在当前时刻t所得到的降雨量和实际观测的降雨量数据的差异。图1-图3为三种模型的结果。总体来说, 三种模型对当前降雨量预测的精度都较好。大多数空值, 也就是没有降雨的数值, 都能被准确预测。三种模型都能够准确得到降雨量趋势的预测。在Model 2中, 预测的大多数空值比观测得到的值略大, 而Model 1和Model 3的预测结果刚好相反, 预测的空值通常比实际值略小。

表3所示为三种模型的预测性能指标。从中我们可以看出, 三种模型的预测精度相当。然而, 本文所提出的Model 2对当前时刻t的降雨量的预测性能略好于Model 1和Model 3。这个结果是合理的, 并且证明采用雷达反射率数据和TB数据能够得到更好的预测精度。除了MAE稍大意外, Model 1和Model3的预测性能非常相近。这个结果并不出乎意料, 因为Model 3中采用的TB数据为两个邻近的TB采集点得到的数据。对于当前时刻, 邻近点的TB数据对于提高模型的预测精度的贡献非常有限。

接下来我们比较三种模型对于未来时间点的降雨量的预测性能, 所比较的时间点分别为t+15 min, t+30 min, t+60 min, t+90 min, t+120 min。图4-图6所示为Model 2在t+30 min, t+60 min, t+120 min的预测值与真实值的比较。从图中我们可以看出在t+30 min, Model 2预测的降雨趋势与真实降雨的趋势是一致的, 并且预测值与真实值也非常吻合。在t+60 min, 预测的降雨量与真实观测的降雨量是一致的, 但是预测值与真实值之间存在一个滞后效应。这种延后是由于在建立模型的过程中采用了历史数据造成的。预测值与真实值之间存在着一定的差异, 但是这种差异不明显。在t+120 min, 预测的降雨量与真实观测的降雨量之间存在一个滞后效应, 且预测值与真实值之间差异较大。在这个时间点的预测结果还是可以接受的, 但是预测值的滞后和差异会随着预测时间的延长而变大, 这是由于误差累积的结果。

表4所示为三种模型在不同时间点的预测性能。文中所提出的Model 2的性能优于Model 1和Model 3的性能。这再一次证明利用当地TB数据不仅能够提高当前点的预测精度, 还能够提高对未来时刻的预测精度。除此之外, Model 3的性能略差于Model 2, 但是明显优于Model 1, 其结果如图7所示。这同样是由于Model 3采用了邻近点的TB数据。这表明邻近点的TB数据对模型对未来时间点的预测精度具有重要作用。

基于以上的验证和分析, 为了得到较好的预测精度, 最好能够采用当地的TB数据和雷达反射率数据。如果当地TB数据不能获取, 采用邻近点的TB数据对模型的预测精度同样具有重要作用。如果数据采用的是雷达数据, 那么随着预测时间的延长, 预测精度会迅速下降。

4结语

本文提出了一种基于雷达反射率数据和TB数据建立降雨量预测模型的方法。在文中我们对比了建立预测模型的五种数据挖掘算法, 最后选择了MLP NN作为模型建立的数据挖掘方法。为了验证这种模型的准确性和稳健性, 我们还考虑了两种其它的模型以便比较, 其中一种是基于历史雷达数据的模型, 另一种是邻近TB数据的模型。最后的计算结果表明, 对当前时间点的预测, 三种模型的预测性能非常接近, 而对未来时间点的预测, Model的性能明显优于其它两种模型, 同时, Model 3的性能也明显优于Model 1。这一结果表明, TB数据对于提高模型预测精度具有非常好的效果。如果只采用雷达数据, 随着预测时间的延长, 预测精度会明显下降。

摘要:降雨量的大小会严重影响到一个地区水的质量。基于一个地区的雷达反射率数据和翻斗式雨量计 (TB) 数据, 采用数据挖掘的方法进行降雨量的建模和预测。结合基于TB和基于雷达的降雨量预测模型的优点, 提出一种充分利用TB数据和雷达数据进行降雨量预测的新模型。在这种预测模型中采用五种数据挖掘的方法:神经网络、随机森林、分类和回归树、支持向量机和K-最近领域法。为了分析模型的准确性和稳健性, 以一种基于历史数据的基准模型和一种基于临近区域TB数据的模型用于对比。通过与几种模型的比较验证了该模型的准确性和有效性。

上一篇:声乐的二度创作下一篇:风险概率模型