电信业关联挖掘

2024-05-23

电信业关联挖掘(共7篇)

电信业关联挖掘 篇1

摘要:针对传统的关联挖掘算法无法结合时间属性把握电信业数据的变化趋势而出现关联误判,效率不高的问题,提出动态感知PSO的电信业数据关联规则挖掘方法,用时间点压缩法对连续数据进行离散化,使用包含趋势属性的三元素模式对粒子进行编码。粒子迭代的适应值做为动态感知变量改进粒子的更新规则。实验结果证明,这种方法能够有效地对客户消费趋势进行预测,大大提高了关联挖掘的效率与准确率,具有很强的实用价值。

关键词:电信业关联挖掘,变化趋势,三元素编码,PSO

0 引言

电信行业的竞争愈演愈烈使运营商面对着严重的客户流失的问题。如何将管理活动精确细分、重视营销的个性化来挽留客户防止客户流失成为各大运营商关注的焦点[1]。客户的日常通信行为为运营商积攒了大量的数据,这些数据蕴藏着丰富的客户消费行为习惯,对客户的消费行为、客户服务信息和缴费情况等数据进行分析挖掘可以对客户实施个性的客户业务推荐来挽留客户,提升客户价值[2,3]。通过关联规则进行客户的业务推荐是各大运营商常用的技术,伴随着各种改进的关联挖掘算法也出现了各种优秀的数据仓库与挖掘系统应用在电信业的客户消费行为数据挖掘中[4,5]。

客户在消费行为中常常存在着一定的趋势属性,传统的关联挖掘算法应用在电信业客户消费行为分析挖掘中仅仅将客户的消费记录数据进行单独的数据预处理,通过频繁项集的计算来进行支持度与置信度约束下的关联挖掘[6,7]。这种方法忽略了记录间存在的变化与联系,造成了关联挖掘的误判,挖掘的效果达不到要求。

为此提出了动态感知PSO关联的电信业客户消费行为分析方法。将群体智能的搜索优化技术通过目标函数的设计与关联规则挖掘进行联系。使用重要时间点压缩的方法对连续数据进行预处理与相似形度量,这种处理可以保留数据的趋势属性。通过包含时间变化的三元素微粒进行粒子的编码,并且通过目标函数的反馈来动态调整粒子的更新参数。实验证明,这种机制下的电信业客户消费行为关联挖掘准确率较高且挖掘的效率也大大提升,有很强的实用价值。

1 关联挖掘的数据预处理

电信业客户消费行为关联分析的数据源来自多个表或者系统,在客户的通信消费记录中大部分是连续型的数据,而关联规则处理的数据应该是离散型的数据。传统的离散方法是采用区间化的数据处理办法,将连续型的数据区间化分为不同的子区间,并且使用某一个数值代替该区间中的所有数据,设X代表客户消费行为的某一属性,且x∈(m,n),将x划分为x1∈(m,m+△x),x2∈(m+△x,m+2△x)...每一个区间分别使用一个值来代表。这种处理方法会丢失数据中蕴藏的很多信息,特别是无法将客户消费行为的变化趋势信息保留。本文使用时间压缩的方法来进行数据的离散化。对离散化的数据使用相似形度量的方法来进行频繁模式的获取。

设客户的某一属性的时间变化趋势如下图的曲线所示:

在图1中选取重要时间点作为区间的划分边界点,如上图横坐标的ti所示,设ti对应的属性数据值为si,如果存在m个子序列的划分,上述的曲线可以表示为:

为了描述上述的属性的趋势信息,使用最小二乘法的思想,将每一个序列分别拟合为直线,Li(t)=ait=bi(i=1,2,...,m)这样每一个区间就可以表示为一个元模式M,M=(ai,si-1,si),每一个元模式不但表述了该属性在区间的范围还相应提供了区间变化的趋势信息,这样时间序列X的模式表示为:

将关注属性的压缩时间点进行同步后,对每一个时间序列的属性进行上述的区间化,不但可以表征该数据的区间范围,还将该数据所属的区间变化趋势表现,实际证明这种区间化的方法能够更好地应用在电信业客户消费行为的关联分析中。

在一些变量中由于业务的原因,某些变量之间存在着巨大的相关性,比如客户的长途次数与长途时间这样的变量在建模的过程中同时使用是没有必要的,有时对模型的运行还会存在一定的副作用。数据预处理中关于变量的约简就是尽量地减少信息量情况下寻找更低维的变量。主成份分析法是统计中最主流的约简方法,但是本身的结果就是若干信息量的综合,即使经过了因子旋转处理后也难于优化[8]。本文选用下面的两种简单的步骤进行维数简约:

1)利用众数的分析方法找出微效变量,特别是众数表示值为0的一些变量,比如某客户的国际长途次数这样的变量,就可以在模型中去掉。

2)利用相关系数的分析方法解决变量间存在的线性冗余的问题:

两两变量经过相关系数公式的分析以后,选取|r|>0.85的高度相关组中的某一变量作为代表。如果0.5<|r|<0.85则要根据实际的模型情况对变量约简进行分析。

在数据挖掘的整个过程中,数据的预处理的工作量能占到80%。电信业的IT系统众多,其企业结构数据异常复杂,客户的数据分布在呼叫中心、渠道支撑、计费帐务、结算系统等数据结构可能不同的系统中,高质量的数据能够更加准确地表示关联模型挖掘。

3 动态感知PSO的消费关联分析

关联挖掘算法是采用频繁项集的计算来进行,这种计算方式主要读取某种交易数据在交易库中出现的次数,没有把握这些数据中存在着的变化信息。粒子群优化算法(PSO)是群体智能中经典的优化算法,本文将粒子进行三元素的模式编码,通过目标函数的反馈动态调整粒子的更新,实验结果证明这种方法能够更加快速准确地对电信业客户消费进行关联分析。

上式中

式(7)中,i=1,2,...,m,d=1,2,...n K为微粒群优

化迭代次数,r1和r2是在区间[0,1]上的随机数,这两个随机数能够有效保持微粒群优化的多样性。c1和c2是两个学习因子通常取值为2,这两个系数可以保证粒子对全局位置的学习能力。w可以有效维护全局与局部的搜索能力的平衡。一般的方法会将该值设为特定的经验值或者线性降低,这种方式经常会使函数极易收敛到局部的极值点。本文采用目标函数反馈的动态感知来调整w的数值。

式(8)中gbt(10)1与gbt分别代表种群在t+1与t次的全局最优适应值。指数可以代表两次迭代中适应度值的比较率,当比值小于1的时候,迭代趋向总体收敛,此时的搜索步长越大全局搜索能力越强;当比值大于1的时候迭代趋向总体发散,步长越小,局部的搜索能力越强,上述系数的更新充分使用了目标函数的信息,整个搜索的启发性大大加强。

4 实验结果分析

本文基于中国电信某市分公司的2011年的客户消费数据库数据为基础进行实验仿真,数据主要采集于中国电信的BOSS、DSMP等数据系统共600000条数据记录。这些记录来自2011年的全年,本文在数据预处理阶段的时间划分采用每一周的时间周期进行区间划分。在Windows XP系统下结合MATLAB的仿真平台进行算法的仿真训练。设定最小支持度与信任度s=0.05,conf=0.60下共进行了30条关联规则挖掘,以下部分规则及其支持度与置信度:

1)性别为女性—炫铃(s=3%,conf=70%)

2)性别为男性+手机报—掌中宽带(s=3%,conf=69%)

3)月消费金额大于600+掌中宽带—掌中股市(s=4%,conf=72%)

4)一周之内消费市话增长率大于1—家庭套餐(s=3%,conf=70%)

5)某段时间客户访问网站次数持续增加—掌中宽带(s=4%,conf=73%)

图2是对四种算法对不同支持度下某种规则挖掘的运行时间对比图:

从2图可以看出,经过群体智能的关联规则挖掘算法运行时间的性能有了很大的提高。

为了验证本文的关于时间趋势属性的编码与离散化对关联规则挖掘的准确度优势,引入了误荐率的评价指标,如果在关联中挖掘了某种客户消费的规则,可以采取对其推荐某项业务服务,如果不符合客户的需求则表现为一次错误推荐,误荐率用下式表示:

图3是对20个关联属性,300位客户进行了误荐率计算。采取传统的频繁项集获取方法与本文提出的时间趋势三元素编码的方法进行误荐率的对比:

图3可知在大部分的规则约束下,使用趋势属性的三元素编码以后进行PSO优化规则挖掘的误荐率小于传统的方法。这种算法能够切实反映客户的业务规则,提供更为高效的个性服务。

5 结束语

本文针对电信业中客户消费形式变化多样且数据量巨大的特点,结合传统的关联挖掘算法无法结合时间属性把握客户消费的变化趋势而出现关联误判,效率不高的问题。提出了动态感知PSO关联的电信业客户消费行为分析方法。在数据预处理的阶段使用时间点压缩法对连续数据进行离散化,粒子的编码使用包含趋势属性的三元素模式对粒子进行编码,为了保证粒子的更新能力与全局搜索能力的维持提出了两种粒子更新的动态感知变量。实验结果证明,这种方法在关联挖掘的过程中效率较高,误荐率得到了有效的控制具有很强的实用价值。

参考文献

[1]杜金刚.数据挖掘在电信客户关系管理及数据业务营销中的应用[D].北京邮电大学,2010

[2]林向阳.基于数据挖掘的电信客户流失研究综述[J].移动通信.2010(08):71-75

[3]张超.电信产业链整合与商业运营模式创新[D]西安邮电学院.2007

[4]章玥邱雪松孟洛明.面向电信运营商务过程的管理服务构建方法[J].计算机应用研究.2008(07):2124-2128

[5]王华秋曹长修何波.改进RPE算法的神经网络在客户欺诈预测中的应用[J],计算机工程,2006(18):25-27

[6]郭明.基于数据挖掘的电信客户流失分析[D]南京.南京邮电大学,2005

[7]夏国恩邵培基.改进的支持向量分类机在客户流失预测中的应用[J].计算机应用研究.2009(06):20442046

[8]余建英.何旭宏.数据统计分析与SPSS应用[M]北京:人民邮电出版社,2003

电信业关联挖掘 篇2

关键词:电信,关联规则,数据挖掘

宽带业务是电信公司目前的一项主推的业务, 如果能从现有用户中发现潜在的宽带用户, 进行针对性的营销, 将对业务的快速发展有极大的好处。针对用户使用来电显示、呼叫转移等新业务的情况和使用宽带业务的情况进行了关联规则挖掘, 发现了两者之间的联系, 可以清楚的知道该业务的主要消费群体的一些特征, 也对电信企业在作未来市场的决策中起非常重要的作用。

一、关联规则挖掘

1.1 关联规则概念描述

设I={i1, i2, □, im}为m个不同项的属性集, 事物T为I的子集, 不同事物的集合, 构成数据库D, 关联规则的形式为:

若干项的集合组成项集, 它有一个统计度量称为支持度, 对于项集, 支持度表示从D中任取一事物包含X的概率, 其定义如下:

其中, 表示集合中的元素个数。

规则的支持度与置信度分别定义如下:

对于一种产品的用户有如下的关联规则:

它表达了这样一个信息:在该产品的主体用户群中 (年龄在:25-49并且收入在:500-1999元之间并具有占到调查用户的20%) , 在购买前主要 (60%) 是通过报纸了解该产品的。

1.2 关联规则的挖掘步骤

已知数据库D, 关联规则的挖掘问题就是产生置信度与支持度分别大于用户给定的最小值的所有关联规则。该问题可分两步来解:

(1) 产生所有支持度大于最小支持度D的项集, 这些项集称为覆盖集。

(2) 对于每个覆盖集, 产生所有大于最小置信度的规则。

第二步相对而言较为容易, 重点在第一步即找出强项集。由于不同的项集数目可达2m个, 如所涉及的数据库规模巨大, 对所有的项集进行支持度的计算是不可能的。下面是一种具有代表性的求解算法Apriori。

首先介绍与算法有关的概念与符号:

项集的长度:项集中所有包含的项的个数。

k项集:长度为k的项集。

强k项集:支持度大于等于minsup的k项集。

候选k项集:支持度可能大于等于minsup的k项集。

L k:所有强k项集的集合。

Ck:所有候选k项集的集合。

Apriori算法经过多次扫描数据库, 依次生成L1, L2, □, Lp (p为强项集的最大可能长度) 第一遍扫描计算各个单项的支持度, 删除支持度小于minsup的项集, 进而得到L 1;在第k次扫描计算L k时, 并非计算所有k项集的支持度, 而是根据任何强项集的子集必是强项集的原则, 由前一次扫描得到的L k-1生成Ck, 然后计算Ck中各项集的支持度, 删除支持度小于minsup的项集, 进而得到L k;算法循环执行, 直到没有新的强项集产生为止。

二、电信经营分析系统中数据挖掘的过程

下面针对用户使用来电显示、呼叫转移等新业务的情况和使用宽带业务的情况进行了关联规则挖掘, 发现了两者之间的联系。

2.1 数据准备

本文得到的数据是从电信公司的数据仓库中直接导出的客户数据, 导出过程中已经删除了那些存有缺失值字段的记录, 在后面的分析中我们称之为原始数据集, 该数据中包含用户信息、充值信息、通话行为、咨询投诉信息等方面的内容, 以下描述了原始数据集中包含的字段信息:

1) 用户信息:客户标识, 客户类型, 套餐类型, 年龄, 性别, 本地/外地, 套餐变更次数, 职业类型, 入网时长 (月) , 是否吉祥号码等;

2) 充值信息:充值次数, 平均每次充值前的余额, 平均每次充值金额, 充值的变化幅度, 充值的变化趋势, 最新充值金额有效到期日, 平均每次间隔时间, 充值方式等;

3) 财务信息:平均语音消费额, 平均每月消费波动, 平均每月总消费额, 平均普通长话消费额, 平均附加业务消费额, 平均IP长话消费额, 平均区内消费额, 平均区间消费额, 欠费停机次数, 平均每次欠费停机时长, 平均每月基本月租费, 帐户月底余额等;

4) 通话行为:通话呼出总次数, 区内呼出总次数, 长途呼出总次数, 普通长途呼出总次数, IP长途呼出总次数, 短消息呼出次数, SP短信次数, 卡长途呼出总次数, 通话联系人地区, 时段通话比例, 通话联系人数量等;

5) 竞争行为:平均呼叫移动次数, 平均呼叫联通时长, 平均呼叫网通时长, 它网长途卡呼叫时长, 平均呼叫移动时长占总时长比例, 平均呼叫联通时长占总时长比例, 平均呼叫网通时长占总时长比例等;

6) 咨询投诉信息:10000业务受理次数, 10000投诉次数, 话费查询次数, 114查询次数等。

2.2 清理数据

在数据准备阶段得到的数据并不是都可以直接进入模型构造的, 需要在进行挖掘任务之前对数据进行清理工作, 包括对明显错误数据的处理以及与关联规则挖掘无关数据的处理。目的是降低数据的扭曲程度, 因为进行数据挖掘的目的是预测未发生的客户行为, 目标群体都应该是具有普遍行为特征的客户, 因此我们需要去除那些“异常点”, 以避免它们对预测结果造成大的偏差。下面以对字段“通话总时长”的分析为例加以说明, 如表1所示。表-1描述了原始数据集中“通话总时长”字段的分位数情况, 从表4-1中可以看出99%分位数和100%分位数 (最大值) 相差甚远, 这说明最大值3220是一个异常点, 为了降低数据的扭曲程度, 我们可以去掉大于652 (即99%分位数) 的数据。对其它变量进行同样的分析, 并最终得到用于数据挖掘任务的数据集。

2.3 分割数据集

模型开发的一个重要准则就是:“用模型开发过程中未使用过的数据来验证模型”。这条准则可以验证模型的健壮性。也就是说, 模型在建模数据集上总是运行良好的。如果模型在一个相似的数据集上同样也有良好的表现, 那么可以判定, 该模型不是针对个别数据集进行的建模。

这就进入了数据准备的下一个步骤——将文件分割成建模数据集和验证数据集两个部分。数据集在分割方式上可以采用“50/50”、“60/40”、“70/30”等方式, 可根据不同的挖掘方法选择不同的分割方式。

经过数据的清理以及数据集的分割, 最终形成了两个数据集:建模数据集和验证数据集。

2.4 变量的选择和转换

从上文中可以看到, 得到的数据中包括了电话号码、通话总次数等许多个变量, 而事实上并不是所有这些变量都可以进入或直接进入我们的模型, 有些变量与我们的响应变量之间并不具备很明显的关联, 这些变量便不应在我们的模型之中, 另外还有些变量需要一定形式的转换才能够进入我们的模型。

当考虑模型性能时, 有两个基本问题需要注意:

(1) 变量数目是否可以保证模型健壮性仍然具有一定的争议。现在并不清楚, 拥有大量变量的模型是否比拥有少量变量的模型更健壮, 这取决于市场需求。拥有大量变量的模型对输入中某个变量的变化可能不太敏感。如果市场稳定, 那么选择变量多的模型可能会好一点。反之, 如果市场行为反映变化的趋势, 那么可能需要的变量就少一些, 这样能更加动态地捕捉这些变化。

(2) 另一个需要考虑的因素是处理的简洁性。如果处理不是完全自动化的, 那么带有大量变量的模型更容易在评分过程中出错

在挖掘新业务和宽带之间的关联性之前, 需要对相关数据进行空缺值填充和平滑、不一致数据处理、数据集成和离散化处理。在对扬州电信大约100000条历史数据处理后得到下表2 (为保护客户隐私, 表中数据经过掩饰处理) :

关联规则挖掘的任务是:对该数据库求出所有满足最小支持度和最小置信度的关联规则。从市场分析的角度出发我们设定最小支持度为5%, 最小置信度为20%。关联规则挖掘的问题可分两步来解:

(1) 产生所有支持度大于最小支持度的项集, 这些项集称为覆盖集。

(2) 对于每个覆盖集, 产生所有大于最小置信度的规则。

根据上述求解算法和步骤, 编制了求解程序。

经过挖掘得到的结果见表3所示。

三、结果分析

可视化挖掘结果如图所示。

从上图可以看到, 虽然客户固话选择新业务的数量有限 (即支持度相对较低) , 但是随着新业务数量的增加, 客户装宽带的置信度也明显增大。针对这一情况, 发展业务时可对申请新业务较多的用户推销宽带产品, 对企业市场发展起到积极的指导作用。

参考文献

[1]蔡强、薛森.数据挖掘技术及其在经营分析系统中的应用.电信科学, 2005 (l) :56~6l.

[2]汤小文、蔡庆生.数据挖掘在电信业中的应用[J].计算机工程, 2004, 30 (6) :36-37.

[3]RiehardJ.Roiger, Miehaelw.Greatz.数据挖掘教程.北京:清华大学出版社, 2003.12~31

[4]徐洁磐.数据仓库与决策支持系统.北京:科学出版社, 2005

数据挖掘技术与关联规则挖掘算法 篇3

1 数据挖掘技术介绍

1.1 数据挖掘技术的概念

数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科, 这项技术能从大量含有噪声, 且模糊不确定的实际业务数据中进行计算, 在这些数据中对当前尚未发现, 或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的, 是复杂多样的, 所以数据挖掘得出的分析结果形式能以多种形式表现出来, 可以是具有较强逻辑性的数学表达式, 也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。

1.2 数据挖掘技术分类

数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的, 当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。

2 关联规则挖掘算法

2.1 关联规则种类介绍

关联规则按照不同的标准, 能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集, 是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则, 以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束, 是根据规则所挖掘的约束类型分类的。

2.2 关联规则挖掘算法分析

2.2.1 Apriori算法分析

关联规则算法中的挖掘完全频繁项集中, Apriori算法该类型中最具有应用价值, 影响力最大的算法。Apriori算法主要有两个步骤:

(1) 发现所有的频繁集;

(2) 生成强关联规则。

在Apriori算法中的第一步是最为重要的步骤, 该算法的核心思路是, 给定一个数据库, 在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1—项集, 也就是L1, 1—项集C1, 由L1进行连接得到;接着进行第二次数据库扫描, 将C1中所有支持度大于等于最小支持度的项集组成频繁2—项集, 也就是L2, 候选2—项集C2由L2连接得到。以此类推, 直到找出最大项频繁集。即在进行第N次数据库扫描时, 找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集, 即是LN, N—项集CN要由LN连接得出, 一直到找不出新的选集为止。在这里还要用到Apriori算法性质, 即是频繁项集是频繁项集的子集, 非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。

Apriori算法的操作具有两个明显的缺点。 (1) 该算法的使用需要对数据库进行多次扫描, 因此在读写操作上会花费很多的时间, 从而增加挖掘算法的时间成本, 这种成本的增加不可小觑, 因为它是有数据库存储数据的增加, 以几何级数上升的成本;

(2) Apriori算法会出现众多的候选频繁集, 频发集的产生量在每一步都很大, 这会使算法在广泛度和深入度上的适应性较差。

2.2.2 FP—growth算法分析

FP—growth算法是关联规则算法中属于深度优化的一种算法, 这种算法是深度优化算法中较新且具有较高成效的, 不同于Apriori算法本质的常用算法。FP¬—growth算法的基本基本步骤有两个:

(1) 先将频繁模式树FP—tree生成;

(2) 在生成的FP—tree频繁模式树中搜索频繁项集。

(1) 需要将项集关联信息保留住, 并采用一棵频繁模式树 (FP—tree) 用来容纳压缩后的数据库;

(2) 再将压缩后的FP—tree再分散为几个小的条件数据库, 再分别对这些数据库进行信息挖掘。FP—growth算法相较于Apriori算法, 只需要对数据库进行两次扫描, 不需要多次扫描, 大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集, 大幅度减少了频繁集的搜索空间。也就是说FP—growth算法能明显提高时间和空间效率。但是该算法也有缺点, 在对庞大且松散的数据库进行挖掘处理过程中, 不管是递归计算还是信息挖掘都需要占据大量的空间。

3 总结

综上所述, 本研究对对数据挖掘技术概念和分类进行了简单的介绍, 并对关联规则的种类进行了详细的分析, 对关联规则中常用的两种算法FP—growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点, 怎样在挖掘过程中提高挖掘效率, 满足人们对挖掘系统的需求, 这将是数据研究工作者仍然需要突破的重难点。

参考文献

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学, 2015.

[2]张弛, 王本德, 李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文, 2015, 27 (02) :74-77, 85.

[3]魏陵博, 付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志, 2014 (05) :517-518.

[4]付先军, 周永红, 王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志, 2015, 17 (09) :92-94.

兴趣关联规则的挖掘 篇4

1 关联规则问题的形式化定义

我们假设I={i1, i2, …, im}是由m个不同的项目组成的集合。给定一个事务数据库D, D中的每一个事务T都是由I中的一些项目组成的集合, 即T⊆I, T有一个唯一的标示符TID, 关联规则就是形如X⇒Y的蕴涵式, 其中X⊆I, Y⊆I, 且X∩Y=ф, X⇒Y的支持度和可信度分别大于用户指定的最小支持度 (minsupp) 和最小可信度 (minconf) 。支持度和可信度的定义如下: X 是I的一个子集, 其补集记为Xc。如果满足X⊆T, 则称事务T支持X。否则, 如果Xc⊆T, 称T支持Xc, 设X是I的一个子集, X的支持度是指数据库D中支持X的记录数与总记录数之比, 记为P (X) , 也可理解为X在D中发生的概率, 蕴涵式X⇒Y的支持度是指数据库中同时支持X和Y的记录数与总记录数之比, 记为SX⇒Y, 则SX⇒Y =P (XY) ;蕴涵式X⇒Y的可信度是指数据库中同时支持X和Y的记录数与支持X的记录数之比, 记为CX⇒Y, 即:

undefined

由此可见关联规则的支持度给出了该规则发生的频度, 其可信度给出了规则发生的强度。

从统计学的角度解释, 关联规则的开采问题就是在事务数据库D中找出具有用户给定的最小支持度和最小可信度的关联规则[6], 可以分解为以下两个问题。

(1) 找出事务数据库D中所有具有用户指定最小支持度的项目集。

(2) 利用频繁项目集生成规则。

2 支持度和可信度存在的问题的提出

已有的研究大多数是基于支持度和可信度框架的完善和改进[2,3,4,7], 在实际应用中, 发现用支持度和可信度为标准来产生关联规则, 会产生大量不相关、甚至是误导的关联规则, 有一些规则即使满足用户指定的最小支持度和可信度, 但仍没有给我们提供有用的信息, 这些规则是没有实际意义的。下面通过例子来说明。

例1:设事务数据库D由以下事务组成:

T1={i1, i2, i3, i4},

T2={i1, i4, i5, i7, i9},

T3={i1, i2, i3, i6, i9},

T4={i0, i1, i2, i3, i8},

T5={i0, i1, i4, i7, i8},

T6={i0, i1, i9},

T7={i0, i1, i2, i3, i6, i7, i9},

T8={i0, i1, i6, i7, i9},

T9={i1, i2, i3, i4, i5, i6, i7, i8},

T10={i1, i4, i5, i6}。

假如最小支持度和可信度分别为45%、90%, 通过计算我们可以得到以下两条规则:

i2 ⇒ i3, 其支持度为50%, 可信度为100%。

i0 ⇒ i1, 其支持度为50%, 可信度为100%。

观察数据库D我们可以发现, i2和i3总是同时出现, 因此i2和i3具有很强的关联性, 所以关联规则i2 ⇒ i3被挖掘出来;而对于i0和i1来说, 不管i0是否出现总有i1出现, 也就是说i0和i1之间没有关联性, 因此规则i0 ⇒ i1是错误的。但在现有的关联规则挖掘算法中, 它仍被挖掘了出来。

下面再来看一个关系数据库的例子。

例2:如下表:

其中im表示男性, iw 表示女性, ie表示工程师, iot表示工程师之外的其他职称。

通过计算支持度和可信度, 我们可以得到以下规则:i1 ⇒ i2, 其支持度为40%, 可信度为66%。然而, 挖掘出的这一条规则并没有提供给我们更多的信息, 因为事先我们从数据库中已经知道了男性职工中大部分是工程师。

从例1和例2中可看出, 一条即使可信度和支持度都很高的规则, 它的实际价值已经没有人们期望的那么高了, 更严重的话, 这条规则确实会是误导性的。因此, 人们引入了新的标准——兴趣度来加强对关联规则的判定[8]。

3 兴趣关联规则

通过上面的例子可以看出, 挖掘出的关联规则X⇒Y, 尽管满足用户指定的最小支持度和可信度, 但当Y与X不相关或先验知识知道较多的情况下, 这些关联规则是没有现实意义的, 或者说我们对这些关联规则并不感兴趣。为了克服这些问题, 引入关联规则的兴趣度概念。

规则X⇒Y的兴趣度为:

undefined

其中:

undefined

当规则X⇒Y的支持度和可信度分别大于用户指定的最小支持度minsupp和可信度minconf, 并且它的兴趣度大于用户指定的最小兴趣度minint时, 称规则X⇒Y为兴趣关联规则。

分析I的含义:

当I>0时有C-C’>0, 即P (XY) >P (X) P (Y) , 从而有:

undefined

说明X的发生对Y的发生起积极作用。特别当I=1时, 有P (XY) =P (X) 成立, 说明X发生时必然有Y发生。

当I<0时有C-C’<0, 即P (XY)

undefined

说明X的发生对Y的发生起抑制作用, 也可理解为Xc的发生对Y的发生起积极作用。特别I=-1时, 有 P (XcY) =P (Xc) 成立, 说明X不发生时必然有Y发生。

当I=0时有C-C’=0, 整理得P (XY) =P (X) P (Y) 。

说明X与Y没有关系, 即Y的发生独立于X的发生。

当I的值越接近1时, X与Y的关联性越强, 规则X⇒Y越具有现实意义。

当I的值越接近-1时, Xc 与Y的关联性越强, 规则Xc⇒Y越具有现实意义。

当I的值越接近0时, X与Y越不相关, 规则X⇒Y没有提供太多有用的信息, 这些规则没有实际的意义。

再来看上面的例子。对于例1来说, 由于I=0, 所以规则i1 ⇒ i2将不被发现。对于例2来说, 如果设最小兴趣度为30%, 由于I=-23.85%, 因此规则i1 ⇒ i2也不被发现。

4 关联规则挖掘算法的修改

下面将只考虑支持度和可信度的关联规则挖掘算法进行修改, 将它运用到引入兴趣度之后的情况。

由于关联规则的挖掘分为搜寻频繁项目集和产生关联规则两步。对于第一步, 我们可以采用现有的挖掘算法如Apriori等, 来产生频繁项目集。对于第二步, 找到的规则, 除了满足用户指定的支持度和可信度之外, 还要满足兴趣度阈值。

兴趣关联规则的挖掘算法描述如下:

(1) 利用Apriori等算法得到所有频繁项目集[9,10]L。

(2) 对L中的频繁项目集A和A的每一个非空子集B, 计算支持度P (A) 、P (B) 和P (A-B) 。

计算规则B⇒A-B的可信度C和兴趣度I的值。

undefined

其中:

undefined

(3) 根据C、I的值输出规则

如果C≤minconf, 说明规则B⇒A-B的可信度较低, 淘汰。

如果C> minconf, |I|

如果C>minconf, I>minint, 说明B对 (A-B) 具有积极作用, 规则B⇒ (A-B) 的兴趣度较高, 具有实际意义, 输出。

如果C>minconf, I<-minint, 说明B对 (A-B) 具有抑制作用, 此时我们对规则Bc ⇒ (A-B) 感兴趣, 输出此规则。

整个兴趣度关联挖掘算法描述如下:

输入: 最小支持度、最小可信度、有趣度阈值: minsupport、minconfidence、ri。

输出: 所有有趣的强关联规则。

首先利用经典 Apriori产生出大项目集:

再利用大项目集产生有兴趣度约束的关联规则:

5 应用结果说明

在用引入兴趣度的关联规则挖掘方法对局部的学生成绩数据库挖掘后, 得出了以下所示的兴趣度阈值和挖掘出的规则数目的关系如表1。

根据表1可以看出, 随着兴趣度阈值的提高, 挖掘出的规则的数量急剧减少, 成功的实现了无用规则的过滤。

6 结束语

文章对现有关联规则进行了分析, 指出了其不足之处:有些关联规则即使支持度和可信度都很高, 但仍没有实际意义。提出了一种度量关联规则兴趣度的方法, 并给出了兴趣关联规则的挖掘算法。通过对关联规则兴趣度的度量, 在挖掘关联规则时可以避免无意义规则的产生。

参考文献

[1]Agrawal R, Imielinski T, Swami A.Mining associationrules between sets of items in Large databases.[J].Pro-ceedings of the ACM SIGMOD Conference on Manage-ment of Data.Washington D.C, 1993, :207-216.

[2]Wu Xindong, Zhang Chengqi, Zhang Shichao.Miningboth positive and negative association rules[C]//Pro-ceedings of the 19th International conference on MachineLearning (ICML-2002) .San Francisco:Morgan Kauf-mann Publishers, 2002:658-665.

[3]张梅峰, 张建伟, 张新敬.基于Apriori的有效关联规则挖掘算法的研究[J].计算机工程与应用, 2003 (19) :196-198.

[4]宋海声.关联规则增量式更新算法[J].兰州大学学报 (自然科学版) , 2004 (2) :47-50.

[5]刘渊, 吴以才.基于效益度的高效关联规则挖掘算法[J].浙江大学学报 (工学版) , vol.41 No.6 Jun.2007:909-914.

[6]史忠植.知识发觋[M].北京:清华大学出版社, 2002.

[7]Han Jiawei, Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社, 2001.

[8]李伟东, 倪志伟, 刘晓.基于兴趣度的关联规则挖掘[J].计算机技术与发展, 2007 (6) :80-82.

[9]王珊等.数据仓库技术与联机分析处理[M].科学出版社, 1998.

正负关联规则挖掘的研究 篇5

关联规则 (association rule) 是数据挖掘 (data mining) 研究的主要领域之一, 其任务是发现大量数据中项集之间有趣的关联或相关关系。R.A-grawal等人于1993年首先提出关联规则[1]的有关概念, 此后许多的学者对关联规则的挖掘问题进行了大量的研究。传统的关联规则挖掘算法仅能挖掘正关联规则, 如“买了面包的顾客也可能买牛奶”这样的规则, 而忽略了形如“不买咖啡的顾客很可能买牛奶”这样的负规则。在投资分析和竞争分析等许多领域的决策制订过程中, 负关联规则的作用不可低估。从系统的完整性角度来看, 负关联规则与正关联规则一起为正确决策提供更加全面的信息, 正因为如此, 负关联规则的研究正受到越来越多的重视。

Brin等人于1997年首次在文献[2]中就指出了负规则的重要性, 阐述了强负关联规则问题[3], 这些规则告诉我们负关联规则同样包含了非常有价值的信息, 因而负关联规则挖掘具有十分重要的意义。笔者将兴趣度[4]进行了重新定义, 并进一步推广, 使其不仅能够适用于负关联规则, 而且还能够对关联规则的相关性进行判断, 并在此基础上提出一个能同时挖掘正、负关联规则的算法。

1 负关联规则挖掘

1.1 支持度-置信度框架

判断关联规则是否有用的框架中, 一般比较流行的是R.Agrawal提出的支持度-置信度框架 (support-confidence) [1]。设i={i1, i2, .., im}是项的集合。设任务相关的数据D是数据库事务的集合, 其中每个事务T是项的集合, 使得T I。每个事务有一个标识符, 称作TID。设A是一个项集, 事务T包含A当且仅当A T。关联规则是形如A=>B的形式, 其中A I, B I, 并且A∩B=。规则A=>B在事物D中成立, 具有支持度s, 其中s是D中事务包含A∪B的百分比。它的概率为P (A∪B) 。规则A=>B在事务集D中具有置信度c, 如果D中包含A的事务同时也包含B的百分比是c。这是条件概率P (B|A) , 即supp (A∪B) =P (A∪B) , conf (A=>B) =P (B|A) , 同时满足最小支持度 (min_supp) 和最小置信度 (min_conf) 的规则称为强规则。

1.2 支持度-置信度框架的缺陷

目前常用的关联规则衡量标准是支持度 (support) 和置信度 (confidence) 。如果按现有标准来生成关联规则, 可能会发现大量冗余的、虚假的关联规则。

让我们先来看表1的实例。事务数据库中有100条记录, 讨论这100条记录购买咖啡和牛奶的情况。设:

milk:代表购买牛奶的人数

coffee:代表购买咖啡的人数

milk:代表不购买牛奶的人数

coffice:代表不购买咖啡的人数

我们来研究关联规则咖啡=>牛奶, 支持度S=20/100=0.20;置信度C=20/25=0.8。当把置信度和支持度阈值定位低于0.8和0.2时, 很显然该规则将会作为强规则之一被挖掘出来, 。由此可得出结论, 将咖啡和牛奶放在一起将提高牛奶的销售量。

然而, 事实并非这样。原始事务库中有90%的顾客会购买牛奶, 而从上述挖掘出的关联规则可知, 买咖啡的顾客有80%的可能性购买牛奶。也就是说, 一个己知买了咖啡的顾客购买牛奶的可能性比一个我们不知道任何信息的顾客购买牛奶的可能性小。事实上, 不买咖啡会买牛奶的可能性更大, 其置信度=70/75=0.933。从上例可以看出, 满足置信度和支持度阈值的关联规则可能是无效的规则。

1.3 负关联规则

定义1对于给定的项集A、B, 其中A∩B=Φ, 共有8种形式的关联规则

其中 (5) ~ (8) 是和 (1) ~ (4) 相对应的, 将 (1) ~ (4) 中的字母A与B交换, 就得到 (5) ~ (8) .因此, 在下面的讨论中, 只考虑前4种形式的关联规则, 其中把 (2) ~ (4) 称为负关联规则, (1) 相应地称为正关联规则.

2 支持度-置信度-兴趣度框架

2.1 相关研究

早在1991年Piatetsky Shapiro[6]就指出当支持度满足式 (1) 时, A=>B没有意义。

在1997年, Brin[2]等人使用A和B的相关性的概念来剔除没有意义的挖掘结果和负相关结果, 但是他们没有注意到保留负相关规则。后面也有这方面的研究[3], 但大都基于式 (2) 相关性概念:

corr的取值范围是[0, ∞) 。当corrA, B<1时, A和B为负相关, 表示二者相互降低了对方出现的可能性;当corrA, B>1时, A和B是正相关, 表示二者相互提升了对方出现的可能性;当corrA, B=1时A和B相互独立, 表示A和B概率上没有关系。

2.2 兴趣度

corrA, B的一个缺点是取值在临界值1两侧不对称, 而且取值范围不确定, 这对于合理的设置门限值造成了困难。所以把corrA, B加以改造, 将其映射到[-1, 1]这个区间, 得到的新的评价标准称之为兴趣度。定义如下:

当Interest (A=>B) ∈[-1, 0) 时, A和B负相关, 当Interest (A=>B) ∈ (0, 1]时, A和B是正相关, 当Interest (A=>B) =0时, A和B相互独立。

2.3 正负关联规则的支持度、置信度和兴趣度间的关系

负关联规则的支持度和置信度的定义和正关联规则相似, 不过是用A和B分别代替原式中的A和B。它们的支持度可用如下方法计算:

它们的置信度可用如下方法计算:

它们的兴趣度可用如下计算方法:

并且正负关联规则间的兴趣度之间存在下面的内在联系:

定理1如果Interest (A=>B) >0, 那么

根据文献[6]的推论1及本文中计算兴趣度的方法给出结论的证明。

证明:Interest (A=>B) =P (B|A) -P (B|A) = (1-P (B|A) ) - (1-P (B|A) ) =P (B|A) -P (|A)

由条件可知Interest (A=>B) >0, 可知P (B|A) -P (B|A) >0, 即Interest (A=>B) >0

定理说明规则A=>B (或者 (A=>B) 和A=>B (或者A=>B) 不会同时作为有效的关联规则, 从而有效的防止了自相矛盾的规则产生。也就是说当Interest (A, B) >0时, 只考虑A和B, A和B之间的关联规则;Interest (A, B) <0时, 只考虑A和B, A和B之间的关联规则。

2.4 支持度-置信度-兴趣度框架

在生成相关规则时增加兴趣度衡量标准, 这就是支持度-置信度-兴趣度框架。首先计算支持度, 设置min_supp, 选出support≥min_sup p的频繁项集。然后在生成关联规则, 根据兴趣度的定义, 计算出兴趣度, 根据兴趣度的正负判断是正相关还是负相关。正相关考虑 (A, B) 和 (A, B) 的关联规则, 负相关考虑 (A, B) 和 (A, B) 的关联规则。

3 算法设计

根据上面的讨论, 给出一个增加兴趣度衡量标准的算法, 该算法能够判断项集间的相关性并能同时挖掘出频繁项集中的正、负关联规则。在算法中, 假定频繁项集L已求得。算法:PN-RI

输入:L:频繁项集;min-conf:最小置信度

输出:PAR:正关联规则集合;

NAR:负关联规则

(3) return PAR and NAR/*返回所有的有意义的正、负关联规则, 结束算法*/

算法同时生成了频繁项集L的正关联规则集 (PAR) 与负关联规则集 (NAR) 。第一步将PAR和NAR初始化为空集;第二步, 首先计算兴趣度, 然后根据I的值判断相关性, 并产生规则, 其中, 当I正相关时, 由步骤 (2) 产生形如A→B和‘A→‘B的规则, 当I负相关时步骤 (3) 产生形如A→‘B以及‘A→B的规则。第三步返回结果PAR和NAR, 结束整个算法。

4 实验

这里的样本数据取自一个客户交易数据库, 它有10个不同的项集和10条交易, 在每条交易中1代表项集的存在, 0代表项集的不存在。数据见表2所示。

设定最小支持度为0.5, 最小置信度为0.6, 表3为候选项的相关挖掘结果, 为了对比, 把满足最小支持度的所有结果列出, 分别用置信度和置信度-兴趣度对结果筛选得到的统计结果见表4

5 结论

传统的支持度-置信度框架得到的关联规则并不总是相关的、有价值的, 有时甚至是误导的, 同时不能明确区分正负关联规则;本文所提出来的支持度-置信度-兴趣度框架, 能适应正负关联规则挖掘, 通过增加兴趣度衡量标准, 能准确的挖掘出正负关联规则。

参考文献

[1]Agrawal R, Imielinski T, wami A.Mining associ-ation rules between sets of items in large database[C]Proceeding of the1993ACMSIG-MOD International conferenceon Management of Data.NewYork:ACM Press, 1993.

[2]Brin S, Motwani R, Silverstein C.Beyond mar-ket:Generalizing association rules to correlations[C]Processing of the ACMSIGMOD Confer-ence1997[C].NewYork:ACM Press, 1997.

[3]SavasereA, miecinskiE, NavatheS.Mining for strong negative associations in a large database of customer transaction[C]Proceedings of theIEEE14th International Conferenceon DataEngineering.LosAlamitos:IEEE-CS, 1998.

[4]周欣, 沙朝锋, 朱央勇, 等.兴趣度-关联规则的又一个阈值[J].计算机研究与发展, 2000, 37 (5) :627-633.

[5]Piatetsky-Shapiro G.Discovery, Analysis, and Presentation of StrongRules[C].Proceedings of Knowledge Discovery in Databases, MenloPark, Calif., USA:AAAI/MIT, 1991.

电信业关联挖掘 篇6

一、基于数据挖掘技术的电信业精准营销发展现状

(一) 国外发展现状

电信业在国外的发展比较早, 竞争也更加激烈, 基于数据挖掘技术的精准营销体系相对来说也更加成熟。他们采用这种营销方式来细分客户群体, 对客户服务项目进行详细的分析, 从这些分析中发现客户的需求与电信公司提供的产品和服务之间的关系。通过对这些关系进行分析, 可以有效的提高电信产品的销售量, 提高电信公司的利润水平, 扩大企业的市场占有率、培养忠实于企业的消费者。基于数据挖掘技术的精准营销在国外电信业中的运用已经相当普遍。

(二) 我国发展现状

基于数据挖掘技术的精准营销的方式和思路已经有很长的历史了, 但目前电信运营公司采用基于数据挖掘技术的精准营销时间还不长, 水平还比较低, 仍然处于起步阶段, 有许多问题等待解决。1) 我国电信公司的营销观念与国外公司比较起来仍然十分的落后。许多电信公司仍然处于传统的产品观念阶段或正处于向客户观念转变的过程中。许多电信企业在互相竞争的过程中仍然只关注产品本身, 对客户的关注不够, 这就导致各个电信公司提供的产品和服务实质内容十分相似, 没有特别的针对性。2) 对市场的细分及客户细分方面做得还不够, 没有充分的运用基于数据挖掘技术的精准营销的优势, 仅仅只是简单地依据客户的某些特点对客户进行划分。这导致电信运营商无法了解客户的真实需要, 无法对市场进行针对性的部署。运营商的营销人员也无法了解客户的消费心理, 只能对市场上的客户进行普通的营销方式。采用这种营销方式虽然争取到了一定的客户, 但客户的质量很难保证。3) 客户流失情况比较严重, 我国各电信公司之间进行价格竞争使得客户频繁地转换运营商, 这导致企业的利润下降, 提高了企业营销的成本。

二、基于数据挖掘技术的电信业精准营销的核心

(一) 分析客户消费模式

对客户消费进行分析时, 传统的分析方式仅仅对客户在使用过程中产生的长途电话费, 市话费, 信息费用, 结合客户的相关资料进行简单的分析。而基于数据挖掘技术的精准营销除了对这些进行分析之外, 还要根据客户的消费水平、消费能力、消费比重等方面, 对客户的消费进行综合的预测和分析。分析客户的消费模式, 为电信运营商的营销人员在进行营销活动时提供依据, 也有利于营销人员争取到更多优质客户资源。

(二) 客户细分

利用电信公司数据库中的客户数据, 借助数据挖掘技术, 对客户进行细分。具体的操作方式是:1) 精细到客户, 要在精准营销中做到以客户为关键点就必须改变以产品来细分客户的传统方法, 营销活动要精细到客户。2) 从多方面对客户进行分析, 客户细分的标准可以在原先考虑的基础上, 考虑客户的工作性质, 生活环境, 交友情况。把客户划分成不同的类别。根据不同类别的客户进行针对性的营销, 做到对客户进行全方位, 多角度的考虑。

(三) 市场细分

在进行精准营销的过程中, 开展市场细分的目的不应该仅仅只根据客户的消费习惯划分出市场, 还应该研究客户的消费行为、对服务的需求, 找到准确的目标市场, 为电信公司确定产品的定位和营销方式提供必要的依据。只有把握了市场的规律, 电信公司的产品才能够被消费者接受, 才能为公司带来更大的利润。

(四) 建立精准化的营销策略

利用数据挖掘技术的关联分析, 可以发现客户许多隐含的消费信息。关联分析的原理是在众多的事物中发现不同事物的关联。例如, 我们可以发现客户在使用一种电信产品的时候, 往往会定制其他的产品一起使用, 发现这些关联信息可以指导营销人员进行营销活动。建立精准化的营销策略可以大大节省企业营销的投入, 提高营销人员营销的效果。

(五) 精细产品和服务

基于数据挖掘技术的精准营销最主要的是要做到产品和服务的精细化, 只有这样才能为客户提供更好的用户体验。精细产品和服务要在市场细分的基础上进行, 确定产品设计的定位。针对不同的客户, 要提供不同的产品和服务。电信企业只有拥有更精细的产品和服务, 营销人员进行营销活动时才能吸引到更多的客户, 只有不断的对产品和服务进行改进, 企业才能留住那些优质客户。

三、结论

基于数据挖掘技术的精准营销是在传统营销基础上形成的一种全新的营销策略。近些年, 基于数据挖掘技术的精准营销在社会上应用越来越广, 对企业营销活动的帮助也越来越大。相信未来基于数据挖掘技术的精准营销会发展的更加迅速, 为企业创造更大的利润。

参考文献

[1]付峰, 何鸿凌.应用数据挖掘技术的精确化营销研究[J].移动通信, 2009.

[2]郑英, 王继成, 韩海斌.数据挖掘在电信业务精确营销中的应用[J].应用安全, 2008.

数据挖掘关联规则算法研究 篇7

Web服务器的日志文件通常都是简单的文本文件, 在长期的历史时期只是作为服务器管理员的参考使用, 利用率很低。但其中的信息涵盖丰富, 包含了了用户的上网时间、运行的程序、访问的页面等互联网的有用信息, 通过对这些海量信息的梳理, 只要运用的关联规则分析研究, 即可清晰地记录用户的程序使用习惯和网站访问偏好, 预测用户的喜好, 从而进行个性化推荐, 这在互联网+ 经济时代蕴藏着巨大的商业价值, 是还未充分挖掘的宝藏。

用户的对于兴趣内容的访问习惯和偏好, 下一步的行为可能就是购买等商业行为。因此, 利用Web日志挖掘的个性化推荐关联规则算法对用户关于兴趣内容的访问习惯和偏好挖掘是非常重要的。高效的Web日志挖掘[1], 可以很好地发掘出用户感兴趣的关键字和内容, 很好的预测商机, 为定向的个性化推荐服务打下良好的基础。Web日志挖掘的个性化推荐关联规则算法主要流程是从Web日志中筛选用户访问路径, 然后从梳理好的事务集中使用Apriori算法挖掘出高频访问集, 以此为依据进行个性化推荐服务。

一、Web日志挖掘中个性化推荐关联规则算法

个性化推荐关联规则算法可以分为两个主要步骤: 数据预处理步骤和高频访问模式发现步骤。其中数据预处理是从日志当中杂乱的结构化和非结构化数据进行分析和提取, 梳理出干净的数据, 作为实验中有效的备用访问事务集。通过高频访问模式和基于关联规则的改进Apriori算法挖掘用户的潜在访问路径, 通过从干净的事务集发掘高频访问集得到合适的个性化推荐关联规则算法。

1.1 Hadoop平台搭建。为了模拟云平台集群运行模式, 通过在局域网多台电脑上安装不同操作系统的方式组建计算机集群。在局域网中构建了8 个节点, 其中, 三台电脑为WIN7, 三台电脑为MAC, 两台电脑为Linux。包括三个Name Node节点和五个Data Node节点, 节点间通过局域网通信协议方式进行数据交换。

1.2 Web日志挖掘预处理。Web日志数据预处理本文数据来自某计算机图书在线网站, 选取网站2015 年4 月份的后台日志作为挖掘对象, 日志大小为12.6GB, 保存方式为log文本。

数据清理、用户识别、会话识别、路径补充和事务识别是Web日志数据预处理的主要步骤。

数据清理的主要工作是删除与访问兴趣无关的用户痕迹, 主要通过后缀名去除图片文件, 过滤掉由网络爬虫采集的页面记录, 本文实验过程中选取了htm、html、asp、aspx四种文件格式来保留页面访问记录。数据清理留存了有效数据, 数据存放在User Data表, 存放在Mysql数据库中。数据字段包括访问时间、访问IP地址、访问页面时间等, 为用户识别做好铺垫。

经过数据清理后的数据总共有100 多万条记录, 记录存入User Data数据表中, 再陆续经过用户识别、会话识别、路径补充和事务识别后, 数据预处理完毕, 干净的数据可以为关联规则的发现做好准备。

1.3 高频访问模式发现[2]。本文使用改进的Map Reduce化的Apriori算法发掘高频访问集, 通过给单独网页项目赋予权重值, 较好的衡量了网页的重要程度, 方便高效地挖掘出了关联访问路径, 共发掘出2943 条有效关联规则。置信度、支持度是评价关联规则的重要指标。最小置信度反映了算法挖掘关联规则的效率, 同时满足最小支持度阈值和最小置信度阈值的关联规是强规则。

二、结论

本文通过经典Apriori算法相关思想和理论介绍, 分析和研究了经典Apriori算法的缺陷。提出了改进的基于加权的多支持度的Map Reduce化的Apriori算法, 通过在高频访问模式发现阶段使用改进的Map Reduce化的Apriori算法挖掘频繁访问集, 用实例详细描述了改进的Map Reduce化的Apriori算法流程和手段。个性化推荐关联规则算法实现了通过从服务器日志中提取互联网用户频繁访问集, 然后把频繁访问集通过梳理、存储进本地的MYSQL数据库, 通过对数据库的操作、梳理和分析实现了个性化推荐关联规则算法。

参考文献

[1]陈文.基丁-Fp树的加权频繁模式挖掘算法[J].计算机工程, 2012, 38 (06) :63-65.

上一篇:环境监测走向社会化下一篇:实验探究课堂教学