数据挖掘预处理技术

2024-05-19

数据挖掘预处理技术(共12篇)

数据挖掘预处理技术 篇1

随着信息技术的飞速发展,计算机的使用早已深入到人们的工作、生活的方方面面了,计算机中存储着海量的关于人类活动的数据。如何从这海量的数据中挖掘中有用的信息,已成为整个社会和信息产业界关注的问题,但现实世界中的数据库往往是不完整、易丢失数据或易出现数据的不一致性等问题。所以在利用这些数据进行数据挖掘之前要进行数据的预处理,让处理后的数据更加便于得到高质量的挖掘结果,把挖掘出来有用的信息和知识应用到预测、市场分析、欺诈检测等领域。

1 数据预处理概述

数据库中的数据有时是不完整、含有噪声、不一致的。数据的不完整主要是在数据采集时认为不重要而未采集,或者是设备故障原因导致数据丢失等造成的;数据在输入的过程中的输入不准确会产生噪声;不同数据源中相同属性字段格式可能不一致等这些数据的不正常现象都要进行修正。数据预处理包括数据清理、数据集成、数据转换、数据归约等技术。

2 数据预处理技术

2.1 数据清理技术

数据清理技术主要是填充缺失的值、光滑噪声、纠正数据中的不一致。

2.1.1 填充缺失的值

填充缺失的值可以使用属性的平均值来填充。比如用户在填写注册信息中的“年收入”时未填写,这时就可以用所有已填写“年收入”的平均值来填充缺失的值。

利用缺省值来填充,例如对未填写的“年收入”属性都用“未知”填充,但当某属性值缺失的较多时,采用这种方法可能会导致错误的挖掘结果。

根据其他用户填写的信息来推断该用户缺失的值,例如:寻找相似或相同职业和工龄的记录来推断这类人的“年收入”,并利用这些记录的“年收入”的均值进行缺失值的填充。

另外还要可以使用回归分析、贝叶斯计算公式或决策树技术预测最有可能值来填充缺失值。

2.1.2 光滑噪声

噪声是在测量一个变量时可能出现的测量值相对于真实值的偏差或错误。平滑噪声就是去除噪声,将连续的数据离散化,增加粒度。处理噪声常用的方法有分箱法、聚类法。

分箱法:先对记录集按目标属性值的大小进行排序,然后是把待处理的数据按照一定的规则(如采用统一权重、统一区间或用户自定义区间法)放进一些箱子中,考察每一个箱子中的数据。分箱后要对分箱中的数据进行平滑处理以便去除数据中的噪声。可以对同一箱中的数据求平均值,用平均值替代该箱中的所有数据;可以用距离较小的边值替代箱中间的每一个数据,即按边界值平滑;可以取箱子的中值来替代箱子中的所有数据,即按中值平滑。

聚类法:将数据对象分组成多个簇,分在同一个簇内的所有对象具有相似性,不同簇内的对象具有较大的差异性,落在簇之外的孤立点一般被视为噪声清除掉。k-Means是一种应用广泛的聚类算法,k-Means算法以k为参数,把n个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度低。相似度的计算根据簇内对象的平均值(簇的质心或重心)来进行。

2.1.3 纠正数据的不一致

输入过程中的输入错误、同一属性在不同的数据库中的命名不一致、数据本身的退化、数据表示的不一致等情况都会引起数据的不一致。对于数据不一致的处理可以利用它们与外部的关联手工修改,也可以利用一些例程帮助纠正使用编码时所产生的不一致问题,还可以使用知识工程工具帮助发现违反数据约束条件所产生的数据不一致问题。

2.2 数据集成

要进行数据挖掘的数据一般来自多个数据库、数据立方体、普通文件,要将这些数据源中的数据整合到一个一致的存储中,在合并多个数据源中的元数据时会涉及到这些数据源中可能包含属性相同但字段名不同的情况,每个属性的数据包括名字、含义、数据类型和允许取值范围,以及处理空白、零或null值的空值规则。数据集成一般要处理以下几个问题。

2.2.1 数据中的冗余

冗余是指如果某一属性能由另一个属性或另一组属性导出,或者相同的属性在不同的数据源中使用了不同的名字也会产生冗余,可以通过分析两个属性之间的相关系数来确定他们之间是否存在冗余。相关度可以通过以下公式求得:

其中分别是A和B的均值,σA和σB分别是A和B的标准差。若rA,B>0,说明A增加B也增加,rA,B越大,则A,B之间的关联就越紧密。若rA,B=0,则A和B是独立的。若rA,B<0,则A和B是负相关的,一个值随另一个值的减少而增加。

2.2.2 模式集成

模式集成即如何使来自多个数据源的现实世界的实体相互匹配。例如:如何辨别一个数据库中的“客户名”与另一个数据库中的“客户编号”是否表示同一个实体。模式集成可以看作一个组合优化问题、多标记图匹配问题。首先将模式表示为多标记图,然后提出多标记图的相似性度量方法,进而提出基于多标记图相似性的模式匹配目标优化函数。最后,在这个目标函数基础上设计实现一个匹配算法。

2.2.3 数据值冲突的检测与处理

对于来自同一个世界的某一实体,在不同的数据库中可能有不同的属性值,这样就会产生表示的差异、编码的差异、比例的差异等等。例如:某一表示长度的属性在一个数据库中用“厘米”表示,而另一个数据库中却使用“分米”表示。检测到这类的数据值冲突后,可以根据需要修改某一数据库的属性值以使来自不同的数据库中但为同一实体的属性值统一起来。

2.3 数据转换

所谓数据转换就是将数据转换或归并,构成一个适合数据挖掘的描述形式。

2.3.1 平滑处理

帮助除去数据中的噪声,主要技术方法有分箱法、聚类方法和回归方法。

2.3.2 聚集处理

数据汇总,对数据立方体的计算、物化。数据立方体的最底层叫基本方体,基本方体是已知的数据,对已有的数据进行不同维度的汇总,可以得到不同层次的方体,所有的方体联合起来叫做数据立方体。

2.3.3 数据概化处理

沿概念分层向上汇总,用更抽象的概念来取代低层次或数据层的数据对象。例如:把某一年龄段划分成少年、中年、老年。

3.3.4 规范化

将数据按比例缩放,使这些数据落入到一个较小的特定的区间之内。例如:将年收入属性值映射到0.0到1.0范围内。

2.3.5 属性的构造

根据已有属性集构造新的属性,并添加到属性集中,以帮助实现数据挖掘过程。

2.4 数据归约

我们在对大规模数据库内容进行复杂的数据分析时通常需要耗费大量的时间,由于软、硬件或时间的限制,有时也无法处理海量的数据。数据规约技术用于帮助从原有的庞大的数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,在这样的精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。

2.4.1 数据立方体聚集

数据立方体是数据的多维建模和表示,由维和事实组成。

2.4.2 属性子集选择

逐步向前选择。从一个空属性集(作为属性子集的初始值)开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值结束为止。

逐步向后删除。从一个全属性集(作为属性子集初始值)开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定阈值结束为止。

判定做(决策树)归纳。利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现这个决策树上的属性均认为是无关属性,因此将这些属性从初始属性集合删除掉,就可以获得一个较优的属性子集。

2.4.3 维度归约

去掉无关的属性,减少数据挖掘处理的数据量。

2.4.4 数值归约

数值归约指用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据,减少数据量。常用的方法有直方图,聚类,抽样。

直方图是利用分箱方法对数据分布情况进行近似。

聚类是指将数据集划分为聚类,然后通过聚类来表示数据集。

抽样是指允许用数据的较小随机样本(子集)表示大的数据集。

3 结束语

数据预处理是数据挖掘过程的一个非常重要的步骤,本文主要对数据预处理的基本步骤与方法做了系统性的研究,详细说明了每一个预处理过程所要涉及到的方法及实现算法。虽然数据挖掘技术是一个新新的研究领域,但数据挖掘却体现在我们的日常生活的许多方面,影响着我们的休闲、购物、工作、生活等等,数据挖掘有着非常广阔的发展前情。

摘要:数据预处理是数据挖掘中的一个重要步骤,只有把要进行挖掘的数据预处理成便于挖掘的形式,才能从海量的数据中得到高质量的挖掘结果。数据的预处理主要是进行数据清理、数据集成、数据转换、数据归约等操作。

关键词:数据清理,数据集成,数据转换,数据归约

参考文献

[1]Ian H,Witten Eibe Frank.数据挖掘实用机器学习技术[M].北京:机械工业出版社,2006.

[2]Jiawei Han.Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[3]孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395.

数据挖掘预处理技术 篇2

摘要:数据仓库是信息业界的明日之星,数据仓库与联机事务处理(OLAP)是过去十几年来最热门的信息领域,它们的目标是以计算机来取代许多当前的作业。文章首先介绍了数据仓库和联机分析处理技术的基本概念,比较并分析了它们同传统的数据库的差异,最后介绍并探讨了联机分析处理技术的发展领域。

关键词:关键词:数据仓库;联机分析处理;联机事务处理;传统数据库

中图分类号:TP392 文献标志码:A 文章编号:

引言:

随着市场竞争的日趋激烈,信息对于企业的生存和发展发挥着越来越重要的作用。与此同时,在各个领域产生了大量的数据,但是面对不断增加如潮水般的数据,传统的数据库管理系统已无法满足决策支持系统对数据的要求,因此人们提出了更深层次的问题:能不能从数据中 提取信息或者知识为决策服务。在这种情况下,一种适用于决策支持系统的数据组织与管理技术—数据仓库1技术应运而生。

1.数据仓库技术

1.1 数据库到数据仓库的演变

传统的数据库与OLTP(On-Line Transaction Process)平台并不是为了分析数据而设计的,用户可以在一个OLTP平台上安装数个应用系统,它在数据共享、数据与应用程序的独立性、维护数据的一致性和完整行及数据的安全保密性等方面提供了有效的手段。但是当它与分析型应用结合时,却出现了许多问题。

首先,利用传统的数据库进行数据分析,分析的结果缺乏可靠性。其次,利用传统的数据库进行数据处理,其效率很低。第三,传统的数据库难以将数据转化成信息。第四,传统的数据库系统主要用于事务处理,而在事务处理型的应用环境中直接构建分析决策型应用是不可能的。所以,为了提高分析和决策的效率和有效性,面向分析决策型应用的数据处理及其数据必须与事务处理型应用环境分离,建立单独的分析决策型应用环境。数据仓库正是为了解决这一问题而诞生的一种数据存储和组织技术。

数据仓库与传统的数据库的不同之处在于数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它可以支持企业或组织的决策分析处理2。

2. 联机分析处理技术

联机分析处理OLAP(On-Line Analytical Processing)技术3是基于数据仓库进行数据分析的一种技术。OLAP可使企业数据分析人员、企业经理及企业其他管理人员通过对企业信息的多种可能的观察角度进行快速、一致和交互性的存取,以获得对信息的深入理解。

2.1 OLAP的基本特性

OLAP是数据处理的一种技术概念,其定义简单的概括为:共享多维信息的快速分析。OLAP通过对多维信息以很多种可能的观察方式进行快速、稳定一致和交互性的存取,允许管理决策人对数据进行深入观察。其特点4有四个方面:

(1)快速性。用户对OLAP的快速反应能力有很高的要求。要求系统能在几秒钟内对用户的多数分析要求做出反应;

(2)可分析性。OLAP系统应能处理与应用有关的任何逻辑分析和统计分析;

(3)多维性。多维性是OLAP的关键属性和灵魂,系统能够提供对数据分析的多维视图和分析,包括层次维和多重层次维的支持。

(4)信息性。OLAP系统能够及时获得信息,并且管理大容量信息;

(5)共享性。共享性是在大量用户间实现潜在地共享秘密数据所必须的安全需求。

2.2 OLAP的基本分析操作

OLAP的基本操作是指通过对多维形式组织起来的数据进行切片、切块、聚合、钻取、旋转等分析动作,以求剖析数据使用户能够从多种维度、多个侧面、多种数据综合度查看数据,从而深入地了解包含在数据中的信息、内涵。

(1)切片(Slicing)。

切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员,或全部属性成员来观察数据的一种分析方式。

(2)切块(Dicing)。

切块就是在各个维上取一定区间的成员属性,或全部成员属性来观察数据的一种分析方式。从另一个角度讲,切块可以看成是在切片的基础上,进一步确定各个属性成员的区间得到的片段体,也即由多个切片叠合起来。

(3)钻取(Drilling)。

钻取包含向下钻(Drill-down)和向上钻(Drill-up) /上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维度所划分的层次相对应。

(4)旋转(Pivoting)。

旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列,或是把某一个行维移到列为中去,或包页面显示中的一个维和页面外的维进行交换。

3. OLAP与数据仓库

在数据仓库中 ,OLAP和数据仓库是密不可分的,但是两者是不同的概念。

数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据要用于对企业的经营决策提供分析和支持。数据仓库中的数据是不能用于OLTP的,而OLAP则利用数据仓库中的数据进行联机分析,将复杂的分析查询结果快速地返回用户。OLAP利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价。

OLAP可用多级结构表示数据仓库中的数据,创建组织和汇总数据的立方体,这样才能有效的提高用户复杂查询的要求。因此数据仓库的结构将直接影响立方体的设计和构造,也就影响了OLAP的工作效率。

从OLAP使用的效率角度考虑,在设计数据仓库时应该考虑一下几个因素:

(1)尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。

(2)为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户希望了解的信息。

(3)度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。

(4)事实表中不要包含汇总数据,事实表中包含的用户需要访问的数据应该具有必需的粒度,这些数据应该是同一层次的数据。

(5)对事实表和维度表中的关键字必须创建索引,同一中数据尽可能使用一个事实表。

(6)保证数据的参考完整性,使事实表中的所有数据都出现在所有的维度表中,避免事实表中的某些数据行在立方体进行聚集运算时没有参加过来。

4. OLAP的发展

OLAP技术5是在市场竞争日益激烈,决策人员迫切需要准确及时并且可以灵活访问的决策信息的背景下兴起的.。其主要的发展领域为:

(1)市场和销售分析

几乎每个商业公司都需要此类软件,但其大规模分布在:生活消费品行业、零售业、金融服务业。此类行业通常都需要用发哦OLAP能够对大量数据进行复杂的分析和统计功能。

(2)电子商务分析

电子商务网站记录了用户在网上的所有行为,为更精细的分析用户行为提供了可能。一个典型的商业网站每天都产生大量的数据,简单手工分析显然难以胜任,用多维、分层OLAP可以很好的把这些数据组织起来。

(3)基于历史数据的营销

通过各种不同的历史数据,用数据挖掘或统计的方法,找到针对某项服务或商品的销售对象。虽然传统上不是OLAP的范围,但是通过多维数据分析的引入,会取得更好的效果。

(4)预算

预算通常是从下到上提交和从上到下约束的反复过程,OLAP工具可以在这个过程中提供分析能力。预算制定者利用OLAP提供的工具浏览市场、销售、生成及合并计划等企业全方位的数据,得到一个较合理的方案,也可以利用这些数据自动制定出方案。

(5)财务报告与整合

早起的财务报告整合系统与现在OLAP相似,但是OLAP利用对多维数据的分析能够更好的对其进行管理。

(6)管理报告

(7)利益率分析

(8)质量分析

5. 小结

数据仓库和联机分析处理技术在市场竞争日益激烈的的背景下逐渐兴起,目前正处于快速发展的阶段。文章首先对数据仓库和联机分析处理技术做了详细介绍并将它们和传统的数据库做了对比,得出数据仓库和联机分析处理技术是在传统数据库无法到达设计者需求下产生的。文章最后对联机分析处理技术的发展领域做了介绍和分析。相信在不久的将来基于数据仓库的联机分析处理技术定会成为处理数据的主流技术。

参考文献:

HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年

数据挖掘预处理技术 篇3

关键词:摄影测量;空间数据;生产流程;关键技术

1 、产品模式

1.1 基本产品。(1)数字线划图,简称为DLG(Digital Line Graphic)。是地形图上基础要素信息的矢量格式数据集,其中保存着要素的空间关系和相关的属性信息。数字线划图可满足各种空间分析要求,与其他信息叠加,可进行空间分析和决策。(2)数字正射影像图,简称为DOM(Digital Orthophoto Map)。是利用数字高程模型对扫描处理后的数字化的航空像片或遥感影像,逐像元进行辐射纠正、微分纠正和镶嵌,按标准分幅的地形图范围进行裁切生成的影像数据,带有公里格网和内、外图廓整饰和注记的影像平面图,具有地图的几何精度和影像特征。DOM具有精度高、信息丰富、直观真实的特点,可作为背景控制信息、评价其它数据的精度、现势性和完整性;从中可提取自然资源和社会经济发展信息或派生出新的信息,可用于地形图的更新。(3)数字高程模型,简称为DEM(Digital Elevation Model)。是在高斯投影平面上规则或不规则格网点的平面坐标(X,Y)及其高程(Z)的数据集。为控制地表形态,可配套提供离散高程点数据。(4)数字栅格地图,简称为DRG(Digital Raster Graphic)。是以栅格数据格式存储和表示的地图图形数据文件。在内容、几何精度、规格和色彩等方面与地形图图形基本保持一致,可用于DLG数据的采集、评价和更新,也可与DOM,DEM等数据叠加使用,从而提取、更新地图数据和派生出新的信息。

1.2 复合产品。(1)数字影像地形图(Digital Orthophoto Topographic Map)。以数字正射影像图(单色或彩色)为基础,叠加相关的数字线划图而产生的复合数字地图产品。同时具有正射影像图的精度高、信息丰富、直观真实的特点和矢量数据保存着要素的空间关系和相关的属性信息的特点,可以为各种用户提供地形信息和最新空间实体信息,满足不同用户的需要。(2)数字影像地面模型(Digital Orthophoto Ground Model)。以数字正射影像图(单色或彩色)为基础,叠加相关的数字高程模型数据而产生的复合数字模型产品。具有正射影像图的基本特征和立体突出显示地表的起伏形态的特点,可为用户提供直观地表三维景观,可用于工程规划和优化设计。(3)数字影像专题图(Digital Orthophoto Thematic Map)。以数字正射影像图(单色或彩色)为基础,叠加相关的专题矢量数据而产生的复合数字地图产品。同时具有正射影像的基本特征和突出表达各种不同专题地图信息的特点,可以为各种用户提供直观信息和与之相关的丰富的背景信息,满足各专业部门对专题图的需要。

2 、基本特征

2.1 数据格式。基础地理空间数据的数据格式主要分为矢量和栅格二种:矢量数据能全面地描述地表目标,可随机的进行数据选取和显示,与其它信息叠加,可进行空间分析、决策。具有严密的数据结构,数据量小,可完整地描述数据的拓扑关系,便于深层次分析,输出质量好,数据精度高,但其数据结构复杂、技术要求高。栅格数据具有数据结构简单,空间数据的叠加简便,易于进行空间分析,相对来说图形数据量大,数据和信息量受像元大小的限制。

2.2 基本内容。考虑到基础地理空间数据采集时间和产品的提供周期,基础地理矢量数据可分为三个层次:第一层次分为核心地形要素;第二层次为在核心地形要素的基础上,根据各地不同的需要,选取更多的其它要素(可选要素);第三层次为全部地形图要素(全要素)。

矢量数据的基本内容:大地控制测量数据(包括平面控制点、高程控制点、天文点、重力点)、水系及附属设施、建筑物及附属设施、交通运输与管线设施、境界、地表覆盖、地貌。

栅格数据:DEM格网数据,格网间距5 m或12.5 m;DOM影像数据,地面分辨率为1 m;DRG图形数据,分辨率不低于250dpi.

文本数据:地名数据,含地名位置、类型、行政区划、经济信息等;元数据,说明数据内容、质量、状况和其他有关特征的背景信息,是数据自身的描述信息。

3 、基于全数字摄影测量法空间数据生产流程及关键技术研究

3.1 资料准备。航摄资料如航摄底片、控制点资料、相关的地形图、航摄机鉴定表、航摄验收报告等应收集齐全;对影像质量、飞行质量和控制点质量应进行分析,检查航摄仪参数是否完整等。

3.2 影像扫描。根据航摄底片的具体情况,设置与调整扫描參数,使反差适中、色调饱满、框标清晰,灰度直方图基本呈正态分布,扫描范围应在保证影像完整(包括框标影像)的前提下尽可能地小,以减少数据量。影像扫描分辨率根据下面公式确定:影像扫描分辨率R=地面分辨率/航摄比例尺分母。

3.3 定向建模。自动搜寻框标点,放大切准框标点进行内定向,对定向可由计算机自动完成,人机交互完成绝对定向如不符合要求,需重新定向,直至符合限差要求。检查定向精度,需满足要求;相,完成定向后需检查坐标残差。

3.4 数据采集。(1)立测判读采集,需严格切准目标点,要求按中心点、中心线采集的要素,其位置必须准确,点状要素准确采集其定位点,线状要素上点的密度以几何形状不失真为原则,密度应随着曲率的增大而增加。每个像对的数据必须接边,自动生成的匹配点、等视差曲线或大格网点、内插的小格网点均需漫游检查,保证其准确性,为提高DEM精度,需人工加测地形特征点、线和水域等边界线。(2)采集的数据应分层,进行图形和属性编辑,矢量数据线条要光滑,关系合理,拓扑关系正确,属性项、属性值正确;利用DEM数据,采用微分纠正法对影像重采样获得DOM数据。(3)DEM和DOM数据需进行单模型数据拼接,检查拼接处接边差是否符合要求;同样矢量数据接边应符合要求,各属性值要一致,任何不符合要求的数据均需重新采集,修改正确的数据按图幅裁切,生成最终的以幅为单位的数据,提供检查和验收。

3.5 元数据制作。可由相应的专业软件进行计算输入各属性项中,无法自动输入的内容由人工输入。

参考文献:

[1]樊鸿云.航测内业数据分析[J].遥感技术应用,2012(12).

[2]周泽清.用VC++6.0实现航测数据处理[J].科技资讯,2009(4).

数据挖掘预处理技术 篇4

空间数据挖掘是指从空间数据库中提取隐含的但为人所感兴趣的空间规则、概要关系或摘要数据特征等。其原始数据具有数据结构不一致、数据存在重复或冗余、部分数据属性的缺失或不确定、海量数据和高维度的特点。数据预处理是空间数据挖掘前的数据准备工作, 一方面保证挖掘数据的正确性和有效性, 另一方面通过对数据格式和内容的调整, 使数据更符合挖掘的需要。其目的在于把一些与数据分析、挖掘无关的项清除掉, 为了给挖掘算法提供更高质量的数据。目前进行的关于数据挖掘的研究工作, 大多着眼于数据挖掘算法的探讨, 而忽视了对数据预处理的研究。但是一些比较成熟的算法对要处理的数据集合一般都有一定的要求, 比如数据的完整性要好、数据的冗余少、属性之间的相关性小。然而, 实际系统中的数据一般都具有不完整、冗余性和模糊性, 很少能直接满足数据挖掘算法的要求。另外, 海量的实际数据中无意义的成分很多, 严重影响了数据挖掘算法的执行效率, 而且由于其中的噪声干扰还会造成挖掘结果的偏差。因此, 对不理想的原始数据进行有效的归纳分析和预处理, 已经成为空间数据挖掘系统实现过程中必须面对的问题。目前国内外数据挖掘系统, 都侧重于挖掘算法的实现, 数据的预处理软件相对较少, 功能有限, 更没有通用的软件。

1 空间数据挖掘的数据预处理工作流程

1.1 数据集成阶段

数据集成阶段主要以人机交互的方式进行。

1) 消除原始高维空间数据结构的不一致, 统一其数据结构;2) 将数据分为时间型数据、空间型数据和时空混合型数据三类;3) 将这三类数据导入数据库, 在数据库中分别管理。

1.2 数据清理阶段

对原始数据中的缺失数据、重复数据、异常数据进行处理, 提高数据质量。包括三个步骤:1) 填补空缺值纪录。以空缺值纪录所在纪录行的前一条纪录的该属性值和后一条纪录的该属性值的平均值来填补该空缺值。2) 去除重复纪录。在数据库中对同类别数据进行对比分析, 基于距离的识别算法, 即在误差一定的情况下研究两个字符串是否等值。3) 异常点检测。在大规模空间数据集中, 通常存在着不遵循空间数据模型的普遍行为的样本。这些样本和其他残余部分数据有很大不同或不一致, 叫作异常点 (Outlier) 。异常点可能是由测量误差造成的, 也可能是数据固有的可变性的结果。针对时间序列数据, 采取基于移动窗口和标准差理论的方法实现对异常点的检测;针对空间数据, 采取基于移动曲面拟合法的方法实现对异常点的检测;针对多维数据, 采取聚类分析法实现对异常点的检测。经验证, 当对检测出来的异常点判定为测量误差时, 剔除后确实能提高数据挖掘算法的效率和准确度。当对检测出来的异常点判定为正常点时, 重点分析该点确实能发现其隐含着重要的信息。

1.3 数据转换阶段

数据转换对数据挖掘模型和输入数据集的要求有较强的依赖, 针对不同的数据挖掘模型需要进行不同类型的数据转换。数据转换阶段主要包含两类数据转换工具:

1) 数据标准化。

数据标准化包含标准差标准化、极差标准化和极差正规化。

a.标准差标准化。所谓标准差标准化是将各个纪录值减去纪录值的平均值, 再除以纪录值的标准差, 即:

xij=xij-xiaSi (1)

其中, xia为平均值, 其表达式为:

xia=1nj=1nxij (2)

Si是标准差, 有:

Si=1nj=1n (xij-xia) 2 (3)

经过标准差标准化处理的所有纪录值的平均值为0, 标准差为1。

b.极差标准化。对纪录值进行极差标准化变换是将各个纪录值减去纪录值的平均值, 再除以纪录值的极差, 即:

xij=xij-xiamax (xij) -min (xij) (4)

经过极差标准化处理后的每个观测值的极差都等于1。

c.极差正规化。对纪录值进行极差正规化变换是将各个纪录值减去纪录值的极小值, 再除以纪录值的极差, 即:

xij=xij-min (xij) max (xij) -min (xij) (5)

经过极差正规化处理后的每个观测值都在0~1之间。

2) 数据差值。

针对时间序列数据, 采取s (t+1) -s (t) 的相对改动来优化s (t+1) 。

3) 数据比值。

针对时间序列数据, 采取s (t+1) /s (t) 的相对改动来优化s (t+1) 。

1.4 数据约简或分区阶段

数据约简或分区阶段主要包括维度约简、数值约简和数据分区三部分, 这三部分在这一阶段的实施不固定先后顺序, 相互间不具备依赖性。每个部分在实行前要先从数据库中提取要处理的数据集合。

1) 维度约简。

对于高维度的空间数据, 采用主成分分析法实现对数据集合的众多变量的约简。

2) 数值约简。

对于时序数据, 采用一种改进的快速傅立叶变换约简方法来实现对时序数据的有效约简。

3) 数据分区。

数据分区是以时间信息、空间信息为参考轴, 不仅实现了对包含时间数据、空间数据、时空混合型数据的大规模数据集的分块, 同时避免了空数据块的产生, 还能根据数据挖掘模型对输入数据集的要求, 分离出目标数据集。

2 工程实例应用

选取江苏省地区 (116°18′N~121°57′N, 30°45′E~35°20′E) , 根据江苏省地震前兆台网的观测信息, 选取地震台的数据和江苏省地区的地震目录 (见表1) 。

该工作流程实现了面向空间数据挖掘的数据预处理模块。结合该工程实例验证了:1) 上文中提到的三种异常点检测方法的有效性;2) 采用主成分分析法可以实现在对原始数据信息损失小于15%的前提下, 对数据集合的有效降维;3) 采用此种改进的快速傅立叶变换约简方法, 可以在原始信息损失小于5%的情况下, 约简后数据量可以不大于原始数据的10%, 实现了对时序数据的有效约简。

3 结语

由于高维空间数据的规模巨大、数据类型和存取方法复杂, 所以面向空间数据挖掘的数据预处理是一个很有挑战的课题。本文提出了一种面向空间数据挖掘的数据预处理工作流程, 结合具体的工程实例发现, 具有一定的推广价值。此外, 面向空间数据挖掘的数据预处理是空间数据挖掘众多研究问题之一。其中, 针对时空混合型数据的异常点检测来自多个数据源的数据的集成, 高维空间数据的可视化等专题还有待进一步的研究。

摘要:针对原始空间数据存在的问题及空间数据挖掘模型对输入数据集的要求和期望, 提出了一个面向空间数据挖掘的数据预处理工作流程, 结合具体工程实例证明该方法实现了面向空间数据挖掘的数据预处理模块, 具有一定的推广价值。

关键词:空间数据挖掘,数据预处理,异常点检测,数据约简

参考文献

[1]Mehmed Kantardzic.数据挖掘——概念、模型、方法和算法[M].闪四清, 译.北京:清华大学出版社, 2003:17-45.

[2]杨风召.高维数据挖掘技术研究[M].南京:东南大学出版社, 2007:1-7, 56-65.

[3]李德仁, 王树良, 史文中.论空间数据挖掘和知识发现[J].武汉大学学报 (信息科学版) , 2001, 26 (6) :491-499.

[4]李德仁, 王树良, 李德毅, 等.论空间数据挖掘和知识发现的理论和方法[J].武汉大学学报 (信息科学版) , 2002, 27 (3) :221-233.

[5]王新洲.论空间数据处理与空间数据挖掘[J].武汉大学学报 (信息科学版) , 2006, 31 (1) :1-8.

数据挖掘预处理技术 篇5

一、系统的特点和组成1.系统特点

本教学信息管理系统软件主要有以下特点。

(1)基于Web方式的远程数据查询、上报和管理功能,简单易用、操作方便。

(2)具有满足办学特点的全面教学信息化管理功能。系统包括了学籍管理、教学运行、教材管理、课时核算等四个模块。

(3)较强的数据检索和统计功能。系统可以根据用户的需要对教学信息数据进行检索和对有关数据进行统计。

(4)完善、安全的后台数据管理功能。整个系统主要由前台数据检索和后台数据管理组成,前台数据检索需要校本部授权(密码)方可进入,后台数据的管理有较为安全的用户登录设置,使得数据安全可靠。

2.系统组成系统体系结构采用B/S网络计算模式,采用3层体系结构,即包括数据库系统、应用服务器和客户浏览器三部分,客户浏览器(UI层)负责与用户交互,接收用户的输入并将服务器端传来的数据呈现给客户。应用服务器负责接收浏览器传来的请求并将请求传给数据库系统,同时将请求处理结果发给浏览器。数据库系统通过ADO操纵数据为事务逻辑层提供数据服务,例如返回数据检索结果等。

本系统主要由前台数据检索和后台数据管理组成,前台主要用来显示系统中的各类信息,通过导航栏可以进入到各子功能模块,并提供方便、强大的检索功能,便于及时找到所需的各类资料,模块之间的关系不是各自分离而是线性连接的,每个模块的功能和任务与其他模块是交叠在一起的,互相为基础,互相支撑,构成一个完整的教学管理系统。后台管理主要为各校区的教学信息上报处理使用,主要完成信息的维护管理,包括新增数据、修改数据、删除数据等。进入后台,必须输入用户名与密码,需要经过身份认证,并且不同的用户可以分配不同的权限,不同的权根对应其应有的功能,以实现多人分工合作。系统在主菜单中以菜单形式预留后台管理入口,方便数据维护。

二、系统的设计

系统的功能主要是通过四个功能模块来实现的,配合系统登录设置来实现数据修改与检索。具体的设计模块如下:

1.学籍管理

该模块主要负责对学生基本情况的数据进行管理

2.教学运行

该模块主要负责对管理基本概况、教学管理制度、管理机构职能、岗位职责等数据进行管理

3.教材管理

该模块主要负责对使用教材基本情况的数据进行管理

4.课时核算

该模块主要负责对教师上课时间的相关数据进行管理

三、数据库的设计

系统设计中采用面向对象模型来完成关系数据库设计,因为面向对象模型简洁且易于开发,并具有丰富的表达手段。由于系统采用的是基于关系数据库的实现方案,因此本阶段的一项重要内容是如何将面向对象模型映射到关系数据库结构并使其结果达到高性能。

系统数据库架构设计是本设计的技术核心,整个数据库中大量的表和视图,例如教师的数据表包含的字段有:教师姓名、性别、出生年月、职称、主要任教课程、技能等级证书等信息。

四、系统的安全性研究及解决策略

本系统设计时除考虑了以OSI安全体系结构作为参考,采用了服务器防御系统、检测系统、响应系统、恢复系统和维护系统,保障了服务器的自身及所提供的服务安全问题。同时在应用系统内部程序设计时采用了如下一系列举措,以避免由于应用程序自身不健全带来的安全问题。

1.远距离访问数据的安全隐患

主要解决方法是采用显式提交,数据库服务器在一定时间内如收到提交或回退的操作指令,应向客户端反馈成功信息;如未收到,数据库服务器应根据自身设置的超时判断,主动回退这一事务,并向客户端反馈,让其重新提交;如果回退的信息客户端未收到,用户仍不能知道提交结果,鉴于这种情况,可在客户端设置事务提交标志,收到反馈信息,改变标志;但如果反馈信息丢失,用户又重新提交,服务器就可能收到一个事务的两个提交,这时可以给提交的事务进行编号来解决这一问题。

2.数据库共享的安全隐患

数据库系统中的数据共享容易带来很大的安全性问题,程序设计时可以采用用户标识和鉴定,系统提供安全授权和检查机制来规定用户权限,严格要求对数据库操作进行显式的事务提交或回退,使用操作日志和审计技术来记录用户行为等方法加以解决。

3.用户角色权限管理中的安全隐患

解决方法是要求输入用户名和口令,但用户名和口令不能写在应用程序中,也不能存在数据库中,而是在Web服务器和数据库服务器上同时建立一个存放用户编号ID、用户名、口令、登录时间、权限和用户上网的IP地址,以及用这些参数经过一定算法得到的特别标识字的数据表,用户登录时先往服务器上写入相关数据,经过转换,再写入数据库服务器,避免了用户直接访问数据库服务器上的口令等数据。

4.应用程序和数据库接口的安全隐患

这一问题可以采用多级登录办法来解决,数据库管理员可以首先建立一个普通权限的数据库帐号,其中有一条记录,即帐号和密码,称它为第一级数据库帐号,然后再建立应用程序登录权限表和第二级数据库帐号表,通过两级数据库登录和一级系统登录,可以保证应用系统使用数据库的安全。

五、结束语

教学信息管理自动化系统,是人与人、人与部门、部门之间信息的共享、交换、组织、分类、传递及处理,活动的协调,从而达到自动化整体目标的过程。系统着重于提供信息的共享、交换、组织、传递、监控功能,提供协同的工作环境。采用ASP.NET技术,缩短了系统的开发周期,提高了开发者的效率,开发的教学管理信息系统,功能强大,方便灵活。系统同时考虑了网络系统和应用系统的安全问题,从多方面对信息系统安全予以保障。

参考文献:

数据挖掘预处理技术 篇6

关键词:大数据时代;信息处理技术;计算机系统

中图分类号: TP2 文献标识码: A 文章编号: 1673-1069(2016)111-153-2

0 引言

麦肯锡说过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”他是最早提出大数据时代的人,而实际上,大数据时代早已来临,只是随着互联网的普及度越来越高,才会在最近越来越被人所重视和关注,在这个巨大的浪潮冲击下,发展计算机信息处理技术,才能够在大数据时代下紧跟而上,不被时代的浪潮所淘汰。

1 什么是计算机信息处理技术

现代信息处理技术基本上是指用计算机技术处理信息,因为计算机运行速度极高,而且能在自动处理大量的信息同时确保很高的精确度,计算机信息处理技术伴随着计算机的诞生而诞生,而在这些年里,它所发挥的作用也越来越巨大,越来越明显。

信息处理技术本身经历了好几个时代,从最初的手工处理,到之后的机械信息处理时期,到如今在大数据时代之中的计算机信息处理,信息的处理方式越来越迅捷和快速,甚至在很多程度上完成了信息处理的自动化。

2 计算机信息处理技术在大数据时代的作用

大数据时代有着自己明显的特点,例如数据量大,快速,复查能力,种类繁多等,数据包含的内容繁多,种类也自然是不计其数,如果没有良好的信息处理能力,必然会造成信息紊乱,甚至会产生错误信息和虚假信息等现象,在数据的传递和运输过程之中,数据还面临着各种丢失的风险,如果不能够好好的管理信息,就会造成一些不必要的损失,甚至有些会伤及根本,所以,拥有良好的计算机信息处理技术是想要站在大数据时代前列的先决条件。

2.1 信息处理技术是信息作战的重要支柱

在现代,信息处理技术的主体——计算机技术和作为信息处理工具的电子计算机已经成为了信息作战之中的重要部分,信息处理技术的提高,可以让信息的各种处理对抗实现自动化,成为协调作战的诸军,以夺取信息作战的胜利,现如今信息处理技术成为了信息作战的重要支柱,信息处理技术的应用程度,标志着信息作战程度所达到的高度。

同时,信息处理技术,如同虚拟现实技术、计算技术、显示技术、数据库技术等等方面的技术处理,推动着信息作战指挥控制方式和训练方式的变革和手段的更新,日益显示出传统的指挥控制、训练方式和手段无法比拟的先进性,它是信息作战未来的发展方向,也是必须要提前做好准备的特殊技术,想要能够在信息作战之中占得先机,就必须要在这个方面下足够的苦功夫,避免到了关键的时候产生不必要的损失。

2.2 信息处理技术是追赶大数据时代的重要工具

在进入数据时代以来,信息技术的处理就显得格外重要,在计算机和互联网快速发展的今天,大量的信息涌入了人们的日常生产生活,如果没有用一个良好的信息处理系统,很容易就会导致信息的滞怠,也会让原本就有些落后的技术更难以追赶上其他国家。

良好的信息处理技术,不仅能够加快信息处理的速度,还可以在这个基础上保证信息安全,加强计算机网络的防范,例如增强防火墙技术和加密技术等,可以让整个信息网络环境更加的安全,保护计算机和内部的信息安全。

同时,信息处理技术的优秀意味着信息的传递和交流也会变得更加的迅速,有利于彼此之间的信息沟通,加速信息的流通,可以大幅度的节约时间,增加效率,让沟通和交流变得更加快捷和安全。

2.3 信息处理技术是计算机系统的根基

信息处理技术是计算机的基础,人们对于计算机系统的管理和利用,都是通过信息系统来完成的,信息处理技术就是对信息系统的处理,在这个系统的基础上,连带的构建其他的系统和体系,当各种系统集合在一起时,才能够发挥计算机的作用,可见计算机本身就是以数据库和通信网络技术为依托,想要提高计算机的性能,就需要从根本上强化信息处理技术。

而最基本的信息在未经处理的情况下是混乱无序的,只有将这些信息进行整理和分类之后,才能够发挥出信息应有的作用,实现信息的有效储存和利用,想要发展计算机系统,就必须要做好信息处理技术。

3 大数据时代下的信息处理技术

大数据时代下的信息处理技术就是计算机处理技术,而它同样有着自己的鲜明特征,例如高效性,安全性和稳定性,而如果从功能上进行分类,大致上可以分为信息的储存技术、信息采集技术、和信息传输技术,每一个步骤都是信息处理技术之中不可缺少的,也是计算机软件发展的过程之中必然要重视的部分。

3.1 信息储存技术

互联网在大数据时代之下,内部的内容也会越来越丰富,需要保存和处理的信息也会越来越多,大量的虚拟化信息不断的溢出,对于容量的追求也就在不断的扩大,多元化的信息同样意味着更加庞大的信息容量需求,想要解决这个困境,只有提高信息处理技术,不断的增加能够处理的信息的容量,完成更多的信息保存和处理,才能避免一些重要的信息资源流失,以防造成不可估量的损失。

3.2 信息采集技术

除了信息储存的技术之外,获取信息也是非常重要的,因为在数据量不断增加的今天,海量的信息浪潮袭来,想要在这巨大的信息数量之中找到自己想要的有用的信息无异于大海捞针,计算机的处理如果不能够基于正确有用的信息来进行,那么毫无疑问是会产生负面影响的,甚至会让信息处理本身陷入一个困境当中。

另外,单纯的采集也是远远不够的,在信息采集完成之后还需要对采集到的信息进行数据上的加工,分类,将处理完成的信息提供给使用者,只有这样,才能够算是完成信息的采集处理,这是一个相当复杂的过程,如果没有一个优秀的信息处理技术,那么采集的速度必然会大幅度降低,而且,还可以提高信息采集的正确率,提供更多正确有用的信息。

3.3 信息传输技术

信息的传输技术顾名思义就是信息在不同的计算机之间通过网络连接形成信息的传输,传输的效率和传输的安全性对于计算机自身而言相当的重要,提高信息处理技术,可以有效的提高信息的传输效率和安全性,保障信息在传输过程之中不会发生意外的同时加快传输的速度,节约时间和金钱。

在现代,虚拟产业已经成为了国家经济的重要组成部分,信息的传输技术的有效发展影响着整个虚拟产业的进程,也直接关系到我国现代化和经济改革的成效,拥有良好的信息传输技术,是发展现代的信息处理技术的核心。

4 信息处理技术在大数据时代下带来的效益

在大数据时代下,信息处理技术得到了长足的进步,并且在自身的进步的同时,信息处理技术同样带来了无可比拟的效益。

首先,因为它泛用性广,节约时间,而且还能够提高信息的准确性和安全性,让企业有更多更好的时间运用到决策之中,发展了企业,带动了经济的增长,从侧面提高了我国的经济发展。其次,它还促进了我国相关行业的发展,例如计算机行业,软件行业,轻工业以及电子商务行业,越来越多的虚拟商务的研发,就意味着信息处理技术发挥着越来越重要的作用,成为我国发展过程之中的一块重要的基石。

5 总结

在未来,数据时代的浪潮必然会越来越明显,计算机信息处理技术也将会被越来越多的人所重视,研究信息处理技术在各个方面,都可以对计算机的运用和处理产生增益,并且可以节约时间,保障信息的安全,提高工作和生产生活各个方面的效率,而我国想要在大数据时代之中走上时代的前沿,计算机信息处理技术的探索和研究就是必不可少的,发展计算机处理技术,是历史的必然趋势,也是众望所归。

参 考 文 献

[1] 赵英伟,郭凯.浅谈信息处理技术的发展[J].信息通信,2014(12).

[2] 吴恩生,王桂梅.大数据时代计算机信息处理技术分析[J].江苏科技信息,2015(12).

数据挖掘预处理技术 篇7

关键词:线损系统,电量预测,离群数据挖掘,聚类

序言

线路损耗自动生成系统 (以下简称为线损系统) 是运用现代数据通信技术和计算机网络技术, 延伸和扩展原有电力调度自动化系统和远程抄表系统的各项功能, 将电量控制功能、电量数据采集功能和营销自动化系统功能融为一体, 并将预测和区段控制引入系统中的一种统一的、标准化的数据管理和数据应用平台。它应用C/S、B/S、数据仓库和数据挖掘等许多现代流行的数据处理和应用技术, 对供电企业实现配电网运行数据采集及在线分析系统, 从而为实现降损规划、降损计划的制订提供坚实数据基础, 为配电网经济运行和科学规划提供了有力保障。为落实与推广线损多级管理考核提供强大的技术支持, 进而提高线损管理水平, 降损增效。

线损系统的数据预测和分析功能是其相对于以前各种电能计量系统的最大区别之处。然而不论是数据的预测还是分析大都是根据线损系统数据采集终端获得的历史数据进行的。历史数据的准确性则会大大影响预测、分析的精确度。但是, 现实情况是线损系统中各种数据存在着大量的随机性和不确定性因素, 有的时候还常常会出现部分时段的历史数据缺失。这些不确定因素对线损系统的正常、高效、优质运行产生困扰。为了保证预测和分析的精确度, 必须对历史数据中的异常数据进行辨别进而清除。离群数据挖掘 (outlier minmg, 简称离群挖掘) 是数据挖掘的重要内容。本文即针对电力系统的基本特征, 将离群数据挖掘算法应用到线损系统中, 采用基于聚类的离群数据挖掘算法来判断和修正离群数据。

一、离群数据挖掘算法概述

离群数据 (outliner) 通常的表现形式就是异常数据。一般由采集或记录误差产生的偏离正常值的少量数据常常被忽视, 被发现后往往就迅速地清除。实际上, 这种想法并不完全正确, 离群数据中也有可能包含一些十分有用的信息, 有的时候甚至能够从其中分析出重要的信息。所以, 对异常资料的处理应该采取辩证的态度, 进行有效的分析。

离群数据挖掘就是对海量的、复杂的、含有噪音的数据进行挖掘, 分析其中的有用信息。

常用的离群数据挖掘算法主要有基于聚类的方法和基于统计的方法。

基于统计的典型算法有鲁棒回归法、状态估计法等。基于统计的方法主要依赖于扫描数据的分布类型、分布参数及其异常数据的类型等, 而且极不适用于多维数据库。在实际工作中, 我们无法清楚地了解每个数据的分布情况, 这就需要我们通过多次试验来确定, 因此算法的效率将受到严重影响。因此我们在线损自动生成系统中一般不采用基于统计的算法。而基于聚类的算法, 不需要事先知道数据该分成几个已知的类型, 而可以依照资料间彼此的相关程度来完成分类分群的目的。聚类分析的方式有许多种, 我们通常使用分割聚类算法和层次聚类算法两种。

二、分割聚类算法

分割聚类算法通过对一个局部或全局的目标函数寻优, 把数据分割成若干部分, 如:k-means、k-medoids算法、CLARANS算法。

k-means算法是在获得的数据中, 根据聚类的均值进行聚类划分。将n个数据对象划分为可接受的k个聚类作为初始聚类中心, 以便使得所获得的聚类满足。其中同一聚类中的对象相似度较高, 而不同聚类中的物件相似度较小。然后利用各聚类中对象的均值所获得一个“中心”, 将剩下的资料根据与K个聚类中心的距离, 分别分配给与其最接近的聚类。然后计算每个聚类的新中心 (重新计算这个组资料的均值, 并且以新的均值作为聚类中心点进行下一次聚类) 。重复上述过程, 直到准则函数会聚。

k-medoids算法则是利用聚类代表 (medoid) 作为一个代表点来代替k-menas算法中的聚类的均值 (即聚类中心) , 其目标是寻找到k个满足准则函数的最佳聚类代表。它将k个代表点表示为节点形式, 如果两个节点有相同的k-1个代表点, 则这两个节点为相邻节点。在迭代过程中如果替换一个聚类代表能够改善所获聚类质量的话, 就可以用一个新聚类代表替换老聚类代表, 就这样反复继续进行直到获得最佳的聚类代表。

CLARANS算法, 实际上就是随机搜索聚类的一种算法。首先随机选择一个点作为聚类代表, 然后随机搜索周围的邻接点, 如果找到一个更好的点, 则把它移入作为新的聚类代表, 否则把该点作为局部最小。然后再随机选择一个点来寻找另一个局部最小量, 直至所找到的局部最小量数目达到用户要求为止。这个算法因为要进行多次扫描、比较、筛选, 所以对数据和硬件配置的要求都比较高。

分割聚类方法其实就是选择初始区域, 反复在聚类之间移动数据点, 使得聚类代表最优。K-means方法把聚类的中心作为聚类的代表, K-medoid方法把聚类的某一中心位置上的点作为代表点, CLARANS算法则是首先把一个随意点作为代表。三种算法都能够在局部内获得最优。但其还是存在异常数据点和初始划分的选择要求十分严格的问题。对线损自动生成系统采集数据的预处理阶段, 这种分割的聚类算法却十分适用, 尤其是kmedoids算法, 能够针对电力系统数据采集一般容易出现的数据缺失和数据失真问题, 对采集的资料进行预处理, 从而提高了系统数据的精确度。

三、层次聚类算法

层次聚类算法是对不同层次的分割聚类组成, 层次之间的分割一般具有嵌套关系, 如BIRCH、CURE算法。

BIRCH算法即平衡迭代削减聚类法, 是一种应用广泛的层次聚类算法。它在聚类过程中不需扫描数据集中的所有数据点, 采用将数据逐个读入的方式进行动态聚类以减小内存的占用量, 这使得BIRCH方法在进行增量和动态聚类时很有效。BIRCH算法首先扫描数据库以建立一个初始基于内存的CF树, 该树是一个具有两个参数分枝因子和类直径的高度平衡树。分枝因子规定了树的每个节点子女的最多个数, 而这些点在多大范围内可以聚为一类, 非叶子结点是它的子女的最大关键词, 可以根据关键词进行插入索引, 它总结了其子女的信息。新的数据项总是插入到树与该数据距离最近的叶子中。如果插入后使得该叶子的直径大于类直径, 则把该叶子节点分裂。而其它叶子结点也需要检查是否超过分枝因子来判断其分裂与否, 直至达到该数据插入到叶子中, 并且满足不超过类直径, 而每个非叶子节点的子女个数不大于分枝因子。BIRCH中数据点密集的区域被视作一个单一聚类, 而数据点稀疏的区域被视作异常数据而去掉。

CURE算法即使用代表点的聚类方法。该算法先把每个数据点看成一个类, 每次都按照规定的速率将距离最近的类合并, 直至类个数为所要求的个数为止。CURE算法将层次聚类方法和划分聚类方法结合到一起, 对传统的聚类算法进行了改进, 放弃了用所有点或用中心和半径来表示一个类的方式, 而是从以一个适当的收缩因子, 让抽取类的代表点合并, 使它们更靠近类的中心点。CURE算法采用随机抽取与分割聚类算法相结合的办法提高了算法的效率。

线损系统离群数据挖掘是对线损系统脏数据、不良数据进行识别和校正, 包括自然数据补足和失真数据清理。所以我们可以采用CURE算法对采集的历史数据进行预处理。基本步骤如下:

1) ) 将数据库中的数据集进行分割, 对分割的每一部分中的数据指定收缩因子, 并进行聚类操作;

2) 包含资料点较少的聚类被视为异常资料而清除;

4) 将各分割部分的聚类再次聚类, 合并为一个最终的目标聚类;

5) 聚类完成后, 用每个子聚类中的代表点标记数据集中的其余数据点的聚类号。

四、线损系统电量曲线修正法

线损系统根据各终端采集数据绘制的线损系统电量曲线一般平滑并具有明显的周期性。在这种情况下的电量曲线一般异常数据含量一般较少, 分布也较为分散, 体现的现实情况也相对正常。但是在实际工作中, 异常数据、数据缺失、周期不稳等情况常有发生, 导致电量曲线无法真实表现终端用户的用电情况。所以我们要对获得的线损系统电量曲线进行修正, 一般采用斜率修正法进行校正, 就是当发现斜率值出现巨大偏差时, 就进行修正。

方法如下:

若在离群数据挖掘中检测出某曲线Xd的t1点至t2点为异常数据, 假设其特征曲线为Xt, 修正后的曲线为Xr, 采用下列式子对坏数据进行调整:

根据公式调整后的电量曲线, 可以保持了曲线的原有特征, 而且能够很大程度上屏除噪声数据。但是这种方法有时对成片的脏数据并不灵敏, 处理时会有误判的现象, 并且在判断是否进行数据修正时必须添加各种约束条件。

五、小结

线损自动生成系统的数据预处理一直是该系统的一个难点, 如何确定采集到的历史数据的可用性与准确性, 以及如何修正补充数据成为线损系统正常运行的关键。将传统的各种聚类算法与电量曲线的曲线修正方法相结合, 则能够一定程度地修正坏数据, 为进一步的决策判断提供有用信息, 从而有利于实现供电公司线损计划的制订和考核, 以及各窃电终端的预测与判断。

参考文献

[1]何书元.应用时间序列分析[M].北京:北京大学出版社.2003

[2]SM潘迪特, 吴宪民.时间序列及系统分析与应用[M].机械工业出版社.1988

[3]陈玉祥.预测技术与应用[M].北京:机械工业出版社.1984

[4]张国江, 邱家驹, 李继红.基于入工神经网络的线损系统坏数据辨识与调整.中国电机工程学报.2001

[5]张有为.预测的数学方法[M].北京:国防工业出版社.1991

[6]杨位钦, 顾岚.时间序列分析与动态数据建模[M].北京工业学院出版社.1986

[7]安鸿志.时间序列的分析与应用[M].北京:科学出版社.1983

[8]韦博成, 鲁国斌.统计诊断引论[M].南京:东南大学出版社.1991

[9]IAN H.WITTEN EIBE FRANK.数据挖掘——实用机器学习技术.机械工业出版社.2005

数据挖掘预处理技术 篇8

1 数据挖掘的兴起

在过去的几十年中,计算机硬件得到了稳步、快速的发展,随着功能强大的计算机、数据收集设备和存储介质的大量供应,推动了数据库和信息产业的发展,使得人类拥有的数据量急剧增加,并且正以几何级数或指数级数增长。如今,如何分析这些海量的数据成为了各个领域的巨大挑战。

数据库系统只是对数据库中已有的数据进行存取、删除等简单操作,人们通过这些操作获得的信息量只是整个数据库中包含的信息量中一个很小的部分,没有强有力的工具,理解它们已经远远超出了人们的能力,发现隐藏在这些数据之后的关于这些数据的整体特征的描述或某些模式的发现,对决策制定过程具有重要的参考价值[1]。这一现象激发了数据挖掘的产生,可以说,数据挖掘是信息技术自然演化的结果。

数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。它是知识发现的关键步骤,数据挖掘不但能够学习已有的知识,而且能够发现未知的知识,从中得到的知识是“显式”的,既能为人所理解,又便于存储和应用。数据挖掘系统的结构见图1。

2 数据挖掘技术及应用

2.1 数据挖掘技术

数据挖掘技术以人工智能、数据库技术、概率与数理统计为三大支柱,在挖掘的过程中,通常不会只采用一种技术,而是采用几种工具或技术,这样使得数据结果的精确度较高。数据挖掘中常用的技术有4种。

1)关联分析。关联分析的目的是发现隐藏在数据间的相互关系。常用的关联分析技术是关联规则和序列模式。关联规则是寻找同一事物中不同项之间的相关性,例如,Confidence(面包圯牛奶)=90%,这个规则的含义是在购买面包的顾客中,有90%的人也买了牛奶,它反映了顾客的购买习惯。

序列模式是通过时间序列搜索出重复发生概率较高的模式,它强调时间。例如,在购买计算机的客户中,有70%的人会在一个月后购买音箱。

2)分类、聚类分析。分类是找出一个类别的概念描述,它代表了这类数据的整体特点。如银行贷款员需要分析数据,弄清哪些贷款申请者是“安全的”,银行的风险是什么?

聚类(Clustering)是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。在同一类别中,个体之间的距离较小,而不同类别的个体之间距离则偏大。聚类分析和分类分析的区别是:聚类分析前数据库中的数据不包含任何类别标记,将具有共同趋势和模式的数据元组聚集为一类,使类中各元组相似程度最高,类间差异最大。

3)神经网络。神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。神经网络常用于分类和回归,是建立在可以自学的数据模型的基础之上的。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。

4)决策树。决策树是一种树型结构的预测模型,其中树的非终端节点表示属性,叶子节点表示所属的不同类别。根据训练数据、集中数据的不同取值建立树的分支,形成决策树,对其进行反复修剪后转化为规则。决策树是通过一系列规则对数据进行分类的过程。

2.2 数据挖掘的应用

如今,数据挖掘的应用已涉及到银行、电信、医院、学校等领域,并促进了相关领域的发展。

1)市场营销数据挖掘。数据挖掘在市场营销中的应用相当普遍,通过对大量的消费信息进行加工处理,分析客户的购买行为,调整营销战略,进行个性化的商品推荐或促销活动,为营销人员提供决策支持,减少营销成本,增加企业利润。

2)电信业数据挖掘。通过对海量的数据进行分析,确定电信模式,进行异常模式识别,从而更好地预测盗用行为,提高服务质量。

3)生物医学数据挖掘。DNA和蛋白质序列是基本的生物学数据,而且数量很大,通过数据挖掘,可以有效比较和比对生物序列并发现生物序列模式,找出病人与正常人的基因的不同之处,对治疗和预防疾病有重大意义。

3 基于关联规则的购物篮分析

关联规则(Association Rules)挖掘是数据挖掘研究的重要内容之一,它是发现大量数据中项集之间有趣的关联的技术方法。

数据挖掘的重要应用领域是零售业和市场营销,通过关联规则挖掘发现顾客放入“购物篮”中的不同商品之间的关系,从而分析顾客的购物习惯,分析结果可以用于营销规划、广告策划或分类设计等[1]。

例如,通过分析,发现购买计算机的客户通常会同时购买杀毒软件,这就是一种关联,可以采取2种策略,一种是将同时购买的商品摆放近一些,以便进一步刺激这些商品一起销售;另一种策略是将两种关联的商品放在商店两端,可能诱发购买这些商品的顾客一路挑选其他产品。购物篮分析也可以帮助零售商规划什么商品可以降价出售,从而带动其他商品的销售。

1)关联规则。关联规则是形如X⇒Y的蕴涵式,其中X⊆I,Y⊆I,并且X∩Y=φ,其中X称为前项,Y称为后项。I={11,12,…,im},表示项的集合,项it是数据库中不可分割的最小单位信息。例如,在一个购物数据库系统中,顾客在商场里购买某种物品,该物品信息在数据库中的表示在这里则可称为该数据库系统中的一个项。

关联规则反映了X中的项目出现时,Y中的项目也与之同时出现。如“购买计算机的顾客也趋向于同时购买杀毒软件”的问题。

2)关联规则的支持度Support。设关联规则X⇒Y,有X={X1,X2,…,Xk}⊆I,Y={Y1,Y2,…,Yk)⊆I,且有X≠φ,Y≠φ,X∩Y=φ,则X⇒Y的支持度为

支持度Support反映了X和Y中的项目有多大可能同时出现,如Support(X圯Y)=30%,则表示有30%的顾客同时购买了计算机和杀毒软件。

3)关联规则的置信度Confidence。设关联规则X⇒Y,满足X={X1,X2,…,Xk}⊆I,Y={Y1,Y2,…,Yk}⊆I,且有X≠φ,Y≠φ,X∩Y=φ,则X⇒Y的置信度为

置信度反映了在包含X的事务中,出现Y的条件概率。例如Confidence(X⇒Y)=60%,则表明在所有购买计算机的顾客中有60%的顾客购买了杀毒软件。

基于这些基本的概念和特性,加上相应的关联规则算法,如Apriori算法,便可对大型的商业数据库进行分析,发现有用的模式,改进营销策略,为管理者提供决策支持。

4 结束语

数据挖掘作为一个新兴的数据分析手段,已广泛应用于社会的各个方面,并被越来越多的企事业单位重视,它的应用使得数据坟墓变成了知识“金块”,根据数据挖掘结果进行客户行为分析、市场预测等,为企业的战略决策提供了有效地支持。

目前,数据挖掘的开发工作仍在进行,新颖的数据挖掘技术和算法不断产生,而挖掘工具也越来越强大,这无疑给相关行业的发展带来更大的推动力。企业应该有效地利用数据挖掘技术和工具,从而带来更多更快的效益。

参考文献

数据挖掘预处理技术 篇9

数据挖掘技术在油田企业中的应用,让油田企业得到可持续的发展推动力。针对油田企业而言,想要做好信息的处理,利用数据挖掘技术可以轻松的达到目标,满足要求。所以,本文也将重点放置在数据挖掘技术的应用之上。

1 油田企业的数据挖掘系统

图1是油田企业的数据挖掘系统结构示意图。在数据挖掘中,主要包含了数据准备、数据挖掘以及结果的评估与解释。第一,准备阶段:是耗时最多的阶段,在这一个阶段中,需要将挖掘的数据建立一个数据的集合,这一个数据集合可以是数据仓库、数据库,甚至是一个数据表格。第二,数据挖掘阶段:明确数据的挖掘目的,如关联规则、分类、聚类等。在挖掘目标确定之后,就可以选择挖掘算法。等待挖掘结果得出后,可能会出现无关或冗余的情况,也可能无法与用户的要求相互匹配,那么不满足要求的结果就必须剔除掉。按照用户可视化的需求,所挖掘的结果应当通过转化,成为用户能够理解的方法。这一过程就是挖掘结果的评估与解释过程。

2 油田企业信息处理中数据挖掘技术的应用

第一,在建立油田数据挖掘仓库后,利用仓库平台,就可以开展数据的挖掘工作。在明确前提目标之后,才可以认识到数据挖掘对于整体的重要性。针对油田的数据应用平台,其目标包含:如果事物偏离的常规,同时还发生了异常情况,就需要加以揭示。其中,单量异常变化、含水异常变化和超注欠注是油田存在的主要异常情况,通过聚类分析或者是分类分析,就可以对此做出详细的分析。如此操作就可以发现泄漏、井号异常等问题,同时优化运行参数,减少盗油犯罪行为的发生率,提供一个安全的油田正常运行环境;将事物与事物之间都存在的相互联系与相互依赖的知识加以揭示。在油田数据应用平台当中,通过分析变量之间的联系密切程度,就可以揭示各个事物之间的联系,也可以分析数据之间的联系,同时,基于数据观测的基础,在变量间建立依赖关系,其中可以选择回归分析、相关分析以及时间序列分析三种分析法;按照之前测得的数据结果,也可以在一定程度上推测未来数据。

第二,数据挖掘技术的应用,应该将要达到的目标,需要解决的问题一一明确。针对目标,可以给出如下的定义:利用分类法或者是聚类法来分析异常现象;利用相关分析、时间序列分析和回归分析等挖掘数据之间的联系,以此来分析各个变量对于油田生产可能产生的影响,从而将分散的数据融合,以便指导后续的生产;在油田生产经营环节实现信息化建设,这样可以很好的积累历史数据和生产经营成果。在挖掘这一部分数据背后的知识,并做出提出的过程中可以使用兴趣模型,探索油田生产规律,从而预测油藏开发指标和未来的生产情况等,这样才可以提供依据,供后续生产方案的优化和调整。

第三,在完成数据应用平台的数据准备之后,就可以进行数据的探索与模型的应用等一系列的工作。建立数据模型是数据挖掘工作中的核心环节,在这一个模型中有效地集中了模糊聚类、统计分析、贝叶斯预测、关联规则等各种数据挖掘算法,再通过多种建模方式的比较与综合,就可以建立出数学模型。另外,数据分为校验和训练两方面的数据,在检验模型中需要使用校验数据,而模型参数求解则要利用训练数据。将检验数据带入已经建立的模型中,是模型检验的核心任务,需要观察模型的响应情况,准确的进行模型评估,则需要通过模型与真实数据的相互比较来实现。如果准确性比交叉,就需要通过新模型的建立,来重新探索数据,检验新模型。所以,检验模型、建立模型、探索数据就成为油田企业信息处理中数据挖掘技术实际应用需要反复操作的过程。

第四,针对油田的信息处理,在大量数据当中选择训练样本,极有可能出现数据方面的误差,部分明显的矛盾会对网络训练的准确性产生影响,降低识别网络的能力,所以,需要针对训练样本进行有效地筛选。筛选中可以利用剔除冗余和无关的方式,如果模式无法满足用户的需求,就需要重新的选取数据,换一种算法重新进行数据的挖掘,或者是重新的设定数据挖掘参数值,应用新数据变化方法。这样,才可以合理地利用数据挖掘技术进行油田企业的信息处理。

3 结语

总而言之,随着时代的发展,越来越多的科学技术被应用到各个行业的生产和日常的事物处理中。针对油田企业的信息处理,通过数据挖掘技术的合理应用,就可以很好地完善整体信息处理程序,让油田企业更好地发展下去。所以,在今后的油田企业信息处理中,还应该更进一步研究数据挖掘技术,认识到数据挖掘技术能够带来什么、推动什么。

摘要:随着科学技术的不断发展,在油田信息处理中也逐渐引入数据挖掘技术。数据挖掘技术作为现代化的产物,对于油田企业发展有着重要的推动作用。因此,本文在分析油田企业数据挖掘系统的基础上,对信息处理中数据挖掘技术的具体应用进行探讨。

关键词:油田,信息处理,数据挖掘技术

参考文献

[1]罗琳.数据挖掘在企业信息处理中的应用[J].大众科技,2009(7):65-66.

[2]于世春.数据挖掘技术在油水井工况系统应用探讨[J].化学工程与装备,2015(10):115-118.

数据挖掘预处理技术 篇10

关键词:信息,数据挖掘,情报技术

1 引言

随着计算机技术的发展, 计算机已经融入了现代社会的点点滴滴。计算机在社会领域的广泛深入应用, 数量日益增长的各种数据成为当今数字化社会的宝贵资源, 同时又对数据的处理与共享提出了一个极具挑战性的问题。

今天, WWW已成为了网络信息的基础平台, 它不但存放了大量的企业、政府机关的数据, 而且成为了个人信息系统 (Personal Information Sustem) 的平台, 这些都促使WWW中的数据量呈爆炸性增长, 面对大量的GB级、TB级甚至更多的数据, 如何有效地提取其中蕴含的有价值的知识和信息就变得具有重要意义。在这样的背景下, 产生了Web数据挖掘技术。利用Web数据挖掘技术可以从Web数据中发现用户感兴趣的信息。跟踪、分析用户的访问模式, 帮助用户更有效的浏览广阔的WWW。

目前, Web数据挖掘技术成了Web信息发现研究方面一个重要的课题, 是一个新兴的具有广泛应用前景的研究领域。它可以广泛的应用在搜索引擎、智能查询、个人网络助理等网络信息发现领域, 还可以帮助网站的管理员更好的管理自己的网站, 帮助用户更有效地浏览Web。Web数据挖掘被视为一项回报率极高的重要应用技术。学术界和产业界对其高度重视, 世界各国都投入了大量的人力物力进行研究、开发, 目前已取得了一定的进展, 其研究和应用前途不可限量。

2 从数据挖掘到Web挖掘

2.1 数据挖掘概述

数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在信息爆炸的当今时代, 信息过量几乎成为人人需要面对的问题。数据挖掘和知识发现是处理此类问题的有效手段。数据挖掘技术从一开始就是面向应用的, 其应用范围涉及社会的所有领域, 在商业上的应用尤其受到重视。典型的应用有:通过分析超市交易数据, 安排货架上的货物摆放及开展促销计划以提高销售;税务局分析不同团体交所得税的记录, 发现异常模型和趋势;信用卡共识分析信用卡历史数据, 进行风险判断等。在保险公司、汽车公司、人才中心、广告公司、统计局等部门, 数据挖掘都可以发挥重要的作用。因为其广泛的应用价值, 数据挖掘学科领域汇聚了不同领域的研究者, 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的大量学者和工程技术人员, 使得它在短短几年内, 就在理论上取得了重大进展。到目前为止, 针对不同的应用需求, 已研究出大量的算法、应用工具及相应的评价体系。数据挖掘技术已经进入了空前的发展阶段。

不同的应用背景所面对的挖掘任务不同, 采取的挖掘方法也有所不同。近年来, 不同领域研究者研究出的大量的算法, 从理论上保证了应用的实施。数据挖掘根据挖掘任务不同, 可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。挖掘方法一般可分为:机器学习方法、统计方法、神经网络方法和数据库方法等。机器学习方法包括归纳学习方法 (决策树、规则归纳等) 、基于范例学习、遗传算法等。统计方法中有:回归分析 (多元回归、自回归等) 、判别分析 (贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析 (系统聚类、动态聚类等) 、探索性分析 (主元分析法、相关分析法等) 等。神经网络方法又可细分为:前向神经网络 (BP算法等) 、自组织神经网络 (自组织特征映射、竞争学习等) 等。数据库方法主要是多维数据分析或OLAP方法, 另外还有面向属性的归纳方法等。

2.2 Web挖掘

Internet目前是一个巨大的、分布广泛的和全球性的信息服务中心, 它涉及新闻、广告、金融、教育、政府、电子商务和许多其他信息服务。Web还包括了丰富和动态超链接信息, 以及Web页面的访问和使用信息。面对Web丰富的内容, 巨大的数据量, 加之由于万维网分布、动态、海量、异质、复杂、开放性的特点, 人们如何从这海量的数据中, 查找自己想要的数据和有用信息, 迫切需要一种新的技术能自动的从Web上发现、抽取和过滤信息。因此出现了Web挖掘技术。

Web挖掘是一项综合技术, 涉及Web数据、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发, 对网络信息的含义有着不同的理解, 项目开发也各有其侧重点。例如, 国外有人认为:Web挖掘机是利用数据挖掘技术, 自动地从网络文档以及服务中发现和抽取信息的过程。国内说法也很多, 有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发。也有学者站在信息服务的角度上提出“Web挖掘”, 指出其有别于传统的信息检索, 能够在异构数据组成的分布式信息库中, 从概念及相关因素的延伸比较上找出用户需要的深层次的信息, 并提出Web挖掘将改变传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。Web数据挖掘是以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来的新型技术。

可以一般地将Web挖掘定义为:Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入, 将P看作输出, 那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→P。Web挖掘从数据挖掘发展而来, 因此其定义与我们熟知的数据挖掘定义相类似。但是, Web挖掘与传统的数据挖掘相比有许多独特之处。首先, Web挖掘的对象是大量、异质、分布的Web文档。我们认为, 以Web作为中间件对数据库进行挖掘, 以及对Web服务器上的日志、用户信息等数据所开展的挖掘工作, 仍属于传统的数据挖掘的范畴。其次, Web在逻辑上是一个由文档节点和超链接构成的图, 因此Web挖掘所得到的模式可能是关于Web内容的, 也可能是关于Web结构的。此外, 由于Web文档本身是半结构化或无结构的, 且缺乏机器可理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据, 并利用关系表格等存储结构来发现知识, 因此有些数据挖掘技术并不适用于Web挖掘, 即使可用也需要建立在对Web文档进行预处理的基础之上。这样, 开发新的Web挖掘技术, 以及对Web文档进行预处理以得到关于文档的特征表示, 便成为Web挖掘研究的重点。

Web挖掘可在多方面发挥作用, 如改进和提高搜索引擎的质量和效率、确定权威页面、Web文档分类、Web Log挖掘、智能查询、建立Meta-Web数据仓库等。WWW是一个巨大、分布广泛、全球性的信息服务中心, 涉及教育、新闻、广告、娱乐、金融、保险等信息服务, 内统计及其丰富。对Web进行有效的信息抽取和知识发现具有极大的挑战性, 会面临很多具体问题, 主要有:对感兴趣的信息仅限于利用各种搜索引擎进行查找, 但是搜索效果很差;Web页面结构复杂;Web 信息丰富, 难以搜索;Web 数据增长过快, 很难集成数据;如何实现个性化服务;信息利用率低。

这些问题推动了如何有效且高效地发现和充分利用Internet 上的资源的研究工作。万维网的分布、动态、海亮、异质、变化、开放性的特点, 网页内容的半结构化特征决定了Web 挖掘比传统的KDD和以关键字搜索为主的信息检索问题更为复杂和困难, 很多问题甚至是 NP- hard问题。解决Web挖掘问题需要有新的数据模型、体系结构和算法等, 在理论山上、方法上要有新的突破, 要求有更高级的Web信息处理技术。Web数据有三种类型:Web内容数据, 如HTML或XML标记的Web文档;Web结构数据, 如Web文档内的超链接;用户访问数据, 如服务器log日志信息。相应地, Web挖掘也分成三类:Web内容挖掘 (Web content mining) 、Web结构挖掘 (Web structure mining) 和Web日志挖掘 (Web log mining) , 如图1所示。

3 Web内容挖掘

Web内容挖掘是从Web页面内容及其描述信息中获取潜在的, 有价值的知识或模式的过程。主要的方法有IR (information retribe) 方法和数据库方法。Web内容挖掘主要是针对各种非结构化的数据, 如文本数据、音频数据、视频数据以及图形图像数据等各种数据相融合的多媒体数据。Web内容挖掘又可分为基于文本信息的挖掘和基于多媒体信息的挖掘两种数据挖掘方式:

(1) 基于文本信息的挖掘。

Web内容挖掘多为这种方式的挖掘, 它和文本挖掘功能及方法比较类似。因此, 文本挖掘的方法也可用于Web文本的挖掘。Web文档多为HTML、XML等语言, 故可用Web 文档中的标记, 如

(2) 基于多媒体信息的挖掘。

随着网络带宽的不断加大, 多媒体信息在网上迅速增加, 这对基于多媒体信息的挖掘提出了要求。基于多媒体信息的挖掘主要是指基于音频的挖掘、基于图片的静态图像挖掘和基于视频的动态图像的挖掘。

4 Web日志挖掘

Web日志挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式, 主要的方法有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络的交互过程中抽取出来的第二手数据。正如我们所知道的那样, 因特网上的用户一旦连接到一个服务器上, 就会在这个服务器上留下一个“脚印”, 这就是服务器上的日志文件, 它包括所请求的URL、发出请求的IP地址和时间戳, 这些日志记录提供了有关Web用户访问的丰富信息。因此, 可以通过对用户留正气这些日志文件进行挖掘, 提取有关用户访问的知识。对用户的访问行为、频度、内容等进行分析得到关于用户的行为和方式的模式, 从而改进站点的结构或为用户提供个性化服备用关这方面的研究方向有:一般的访问模式追踪, 它通过分析使用记录来了解用户的访问模式和倾向, 从而改进站点的组织结构;个性化的访问模式追踪, 它倾向于分析单个用户的偏好, 其目的的是根据不同用户的访问模式来为每个用户提供个性化的页面, 开展有针对性的服务以满足用户的需求。

5 结束语

Web数据挖掘是一个新兴的且具有巨大发展前景的研究领域, 经过众多研究者的努力, 已取得了一些进展。文中对Web数据挖掘中的一个方向——Web日志挖掘的方法进行了一些研究。Web日志挖掘可分为三个步骤:数据预处理、模式发现和模式分析。数据预处理是数据挖掘的前期工作, 这点与我们通常的数据仓库的数据挖掘预处理有些不同。日志挖掘最后还要进行用户的划分及最终会话的识别工作, 目的是将用户的访问序列划分成每个用户一次访问的序列的形式, 以便于不同的模式挖掘算法进行挖掘。

参考文献

[1]中国搜索[EB/OL].http://www.zhongsou.com, 2006.

[2]陈晓金.管理信息系统[M].兰州:兰州大学出版社.2005.

[3]GNU wget[EB/OL].http://www.gnu.org/soft-ware/wget.2006.

[4]Uschold, Mike and Michael Gruninger.Ontologiesprinciples, Methods and Applications.KnowledgeEngineering Review, 1996, 11 (2) .

数据挖掘预处理技术 篇11

【关键词】大数据时代;计算机技术;信息处理技术;未来发展

【中图分类号】TP274 【文献标识码】A 【文章编号】2095-3089(2016)28-0036-01

网络的不断普及直接导致的就是计算机用户增长,所以,如今计算机产生的数据量也是非常多,在如今这个大数据时代下,在这个全面网络的时代之下,我们需要对计算机处理技术的能力进行优化,并且将计算机技术也不断增强,我们要将自己的旧观念改变,不斷应用新技术,对如今不断增长的数据进行更好的处理。下文是对大数据的概念和其未来产生影响的简单介绍。

一、大数据的概念以及影响

如今计算机已经贯穿到社会的每一方面,与此同时也有海量数据在产生,这些数据之间有关联却不尽相同,并且各有各的特点,及其丰富,而大数据就是将这些数据群集量化。随着时代的不断进步,科技的不断发展,数据量在不断增多,硬盘和软盘这些计算机存储设备太小,无法满足日益增多的数据,面对这些相互关联,牵一发而动全身的数据,我们需要将数据存储设备的存储量不断提高,让它们承载更多的数据,同时这也满足了计算机用户对于存储数据的需求。信息数据的载体在具备了存储信息之后还需要对信息数据进行分析和解读。在我国,计算机从高端产品到大量普及,只不过用了十几年的世界而已,这是一个非常惊人的发展速度,所以,我们要想将这一行业不断发展,就需要我们将计算机处理技术不断提升,并且还需要对其相应的应用软件进行进一步的开发,让其对数据处理的准确性和高效性不断提高,将其操作便捷性提高。计算机是如今最具影响的电子设备,它与人类生活息息相关,我们只有不断优化其技术,才能让计算机信息处理技术更好的服务人类,更好的造福人类。

二、大数据时代下计算机技术的发展和方向

1.计算机云技术的诞生和发展

在大数据时代下,我们需要将软件和硬件设备的数量不断增多,并且与此同时计算机软件和硬件技术也成为了一门新的学科,二者相互渗透,使得高校的很多人才对其有了浓烈的兴趣。数据是十分庞大的,并且如今计算机用户在不断的增大,数据的增长速度也是十分惊人的,所以计算机硬件的发展已经到达了临界,新的技术已经在孕育。我们要根据人们对计算机的实际要求,更好的开发计算机软件,更好的满足信息数据处理的要求。如今对大量信息进行存储的技术是“云技术”,这一技术在存储和运行海量数据时避免了效率低和速度慢的问题,将数据计算的同时还能将结果更好的反馈给用户,并且这一技术将用户在数据处理方面的要求解决,并且保持着高效性,深受用户的喜爱,其中最为突出的就是企业。

2.大数据时代计算机信息处理技术的挑战和机遇

计算机信息处理技术在大数据时代下暴露出很多问题,也为其未来发展带来了很多的障碍,这就要求我们对新技术的研发脚步不断加快。内部机构和数据容量两方面的变化,使得大数据依旧存在很大的问题,我们需要在如今计算机信息处理技术的基础之上对大数据进行进一步的管理,并且在运行计算机软件时,我们会被互联网的病毒攻击,大数据数据结构的复杂使得其在运行和储存的时候容易使得数据遭到泄露,这也是如今这个大数据时代之下计算机信息处理技术所遭受的挑战,并且拥有一定技术手段的黑客很容易侵入电脑对个人或者集体的信息进行剽窃、盗取和恶意篡改。计算机技术的不断发展和人类生活水平的逐渐提升使得人们对于计算机信息处理技术也有了更高的要求,所以我们在优化计算机信息处理技术的同时也要将其安全性提高。计算机信息处理技术在大数据时代下依旧有很多的机遇,其中包括我们在对计算机信息处理技术进行优化时可以对计算机以及互联网进行判断和全方面监视,这对于用户的隐私和信息有了更好的安全保障。其次,我们也可以按照人们不同的要求对计算机技术进行优化,同时也存在针对性。这对于一些不法分子的恶意攻击有了很大的防御,让计算机用户在安全方面和技术使用方面更加有保障。

3.未来计算机处理技术的方向

每天每一个人都能在网络中得到自己想要的信息,这就证明网络环境十分开放,人们在这样一个开放性的平台之中可以轻而易举的了解到自己需要了解的事情。但是,网络环境开放也为不法分子提供了很多便利,为他们的犯罪提供了平台,让他们轻易侵入到人们的账户中,扰乱社会治安。针对这一问题,我们需要将网络环境的安全性不断提升,对这些海量数据进行不断的分析和归类,找出技术运行期间出现的领商业机密泄露、个人用户信息恶意篡改等漏洞和不足,将不法分子的犯罪平台扼杀,提高网络环境的安全性。计算机处理技术在大数据时代下针对网络漏洞提出了安全要求,并且网络的安全性也是计算机处理技术未来发展的主要方向,所有计算机安全体系的建立十分关键,并且也逐渐被提上日程。如今很多高校已经开设了关于计算机信息处理技术的课程,培养这方面的专业人才,这也是解决当下计算机问题的方法。在我们开发新的信息数据安全技术的同时,其开发过程也在不断减短,我们需要不断优化信息数据安全技术,以此来满足大数据时代之下计算机用户对海量数据进行管理的满足。

三、结束语

随着我国综合国力的不断提升,科技水平的发展和国民生活水平的上涨,计算机运算处理技术也在不断的提升,并且如今我们正处在大数据时代,计算机运算处理技术的应用也逐渐广泛起来。计算机信息处理是现代高科技产品,并且其在未来也有非一般的价值。如今计算机的不断普及,计算机用户也在随之增多,所以在未来社会的改革中也会有计算机信息处理技术的深入,我们应该在此基础下不断发展计算机信息处理技术,对其不断地优化,为我国实现强国梦献出一份力。

参考文献:

[1]袁满.大数据时代与信息技术发展探析[J].中小企业管理与科技,2014,(11):313-314

[2]黄俊俊.基于大数据背景下的计算机信息处理技术探析[J].大科技,2016,(3):256

[3]王恒晖.网络环境下会计信息系统安全性探析[D].江西财经大学,2010

大数据安全处理技术研究 篇12

关键词:大数据,数据处理,数据存储

1 引言

随着云计算、移动互联、物联网、新技术与应用的不断涌现,大数据的处理变得越来越重要。根据统计数据显示, 超过50%的企业目前每日生成的数据量在1TB以上,超过10TB的有10%,而更让人吃惊的是有5%的企业每日生成的数据量已经达到了50TB以上。特别是在金融、互联网、电信等行业,几乎已经到了“数据就是业务本身”的地步。随着大数据时代的到来,数据本身对于一个企业来说变得越来越有价值,如果企业不能有效利用数据挖掘商业价值,就不可能在现代商业中取得行业领先地位。

2 大数据处理难点

(1) 数据量大数据库每天处理的数据量达到TB级、PB级甚至EB级,不仅给数据处理带来了很大的难度,而且对数据存储、服务器性能以及安全等方面都带来了一系列问题。

(2) 结构化和非结构化大量并存存储的大数据中不仅仅包括结构化的数据, 也包括一些非结构化的数据,这些数据不仅通过数据库结合在一块,而且要并用一个统一平台来解决所有的数据问题。

(3) 数据的快速增长由于大数据的增长速度一般是PB级增长, 不仅要考虑到存储系统的吞吐量以及CPU的并发处理能力, 还要考虑到数据库高度可扩展、可伸缩等多方面的需求。比如:1扩展方式要简单,容量扩充必须通过简单易行的方式完成,维护升级的代价要低;2线性扩展,不是依靠增加每个单个服务器,或者单个集群的能力,而是依靠简单的添加服务器完成。

3 大数据处理技术方法

3.1 采用基于 Hadoop 架构的高性能体系结构计算机

3.1.1 Hadoop 架构简介

Hadoop是一个能够对大数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行处理的Hadoop主要由分 布式文件 系统HDFS和编程模 型Map Reduce两部分组成。HDFS提供了海量数据的存储,Map Reduce提供了对数据的计算。

3.1.2 搭建 Map Reduce 系统架构

高性能体系结构计算机具有非常强大的计算能力以及存储能力,因此可高效率地进行大数据处理。在高性能体系结构计算机上进行大数据处理,首先要兼容原有应用程序,还要支持Map Reduce的编程模式,不能使用传统的MPI编程模式, 而必须在高性能计算机上部署Map Reduce架构,如图1所示。

其次,要对高性能体系结构计算机存储系统的读写速度受限进行改进, 否则会成为整个系统性能的瓶颈。由于高并发带来的对集群文件系统的资源竞争和冲突,Lustre文件系统不能充分发挥并行I/O性能的优势。严重影响了高性能计算机进行海量数据处理的高效性,因此解决的主要方法就是缓解资源的竞争,增加集群文件系统的条带化块大小或直接去掉HDFS层,让Lustre文件系统直接为Map Reduce层服务。这两种方法都可以解决文件系统的资源竞争,最大限度的发挥存储系统的并行I/O性能。

3.2 数据结构处理

3.2.1 合理进行数据分区

存储大数据的数据仓库容量一般都会达到GB级别,甚至有的达到了TB级别。随着时间的增长,表中的数据量也会大规模的增长,不但影响着数据库的运行效率,也增大数据库的维护难度。对表不同的访问模式也可能会影响性能和可用性。通过合理的数据分区这些问题会得到较好的改善。数据分区可以使数据分的更小、更容易管理,减小磁盘I/O,系统负荷,从而提高系统的运行效率。除了合理进行数据分区外,建立索引也是一个非常必要的。建立良好的索引是进行数据优化的好帮手,但建立索引要考虑到具体情况,不管是组合索引、独立索引,索引的填充因子和聚集、非聚集索引都要考虑。例如如果是建立复合索引,应尽可能的让索引顺序与字段顺序相一致,而且要考虑只有用到复合索引中的第一个字段作为条件时,才能使用建立的复合索引,否则建立的复合索引将不会被使用, 特别是针对大表的分组、排序等字段。

3.2.2 优化查询 SQL 语句

大数据进行查询处理过程中, 优化查询的SQL语句对大数据查询效率的影响非常大。可以通过很多方法进行优化:(1)尽量避免在where子句中使用!= 或 <> 操作符 ,进行null值判断,使用or来连接条件,前置百分号%,对字段进行表达式操作,函数操作等情况;(2)把数据、日志、索引尽可能的放到不同的I/O设备上,这样可以增加读取速度;(3)根据查询条件,建立索引,并且要优化索引、优化访问方式,限制结果集的数据量,索引应该尽量小,建议使用字节数小的列建立索引;(4)尽量使用数值型字段,若字段存储数值型的字段尽量不要设计成字符型,否则会降低查询和连接的性能,并会增加存储开销。

3.2.3 优化分页处理

数据库查询数据经常会用到分页处理,常规处理通常采用两种方案:(1)使用内存,查询后在内存中进行分页,缺点是占用内存较大;(2)执行存储过程时在数据库中分页,缺点是依赖数据库,查询效率低。因此,分页处理优化也是对大数据处理的一个重要技术方法。

分页处理时,可以考虑在内存中预先加载进一定页数的数据来满足部分数据的需求,同时将所有列组合的数据进行记录。查询的时候,首先到内存中将查询的条件与列组合的数据进行比较,如果存在则在内存中查询需要的数据,查询结束后,删掉第一页最后的一个数据之前的所有数据,另起一个监控线程加载相应条数进内存,这样可以提高查询的效率。

3.2.4 设计良好的数据存储空间

对于大数据的处理,数据存储在使用和维护中占据了核心地位。在数据量每天增长相当大的情况下,如果采用传统的存储方式会占用相当大的存储空间。如何更快、更高效地获取历史快照数据也要依赖于优良的数据存储空间设计。因此,设计良好的数据存储空间是进行数据处理的基础。极限存储方案是当前进行大数据处理使用最多的数据存储方案,很好地解决了因为重复存储造成存储空间浪费的问题。极限存储原理就是给数据库中的记录加上一个生命期。这样数据库中的任意一条记录,由于存在确定的生命周期,一定对应唯一的一个数据标签,而一个数据标签对应符合该生命周期的记录集合,对于历史快照数据,就可以划分到不同的生命周期数据标签里去。在适当的场合下使用该方案,可以大大节约存储空间,减少 / 去除冗余数据,降低存储成本,提高历史快照数据的访问速度,表越大,极限存储带来的效果越是明显。

4 结束语

上一篇:静脉导管相关性感染下一篇:信托公司业务论文