关联规则论文

2024-08-25

关联规则论文(精选12篇)

关联规则论文 篇1

数据挖掘是一个飞速发展的领域, 不断有新的技术和系统出现。而如何将这一技术应用于实际工作中, 还需要作更深一步的开发与研究, 作为一个年轻的和很有希望的领域, 数据挖掘依然面临着很大挑战和许多等待解决的问题。

在数据挖掘的知识模式中, 关联规则模式是比较重要的一种, 也是最活跃的一个分支。

一、关联规则的基本概念

关联规则表示数据库中一组对象之间某种关联关系的规则。例如, 关联规则可以表示为“购买了项目A和B的顾客中有95%的人又买了C和D”。从这些规则可找出顾客购买行为模式, 可以应用于商品货架设计、生产安排、针对性的市场营销等。

采用关联模型比较典型的例子是“啤酒和尿布”的故事。关联规则问题由Agrawa1等人于1993年首先提出, 随即引起了广泛的关注。许多研究者 (包括R.Agrawal本人) 对关联规则挖掘问题进行深入的研究, 对最初的关联规则挖掘算法进行了改进和扩展。同时, 关联规则的挖掘被应用到许多其它领域的数据库, 取得了良好的挖掘效果。

为了准确地描述关联规则挖掘问题, 便于问题的讨论, 给出关联规则挖掘问题的正式定义[1]:

定义1关联规则挖掘的数据集记为D (D为事务数据库) , D={t1, t2, …, tk, …, tn}, tk={i1, i2, …, ij…, …ip} (k=1, 2, …, n) 为一条事务;tk中的元素ij (j=1, 2, …, P) 称为项目 (item) 。

定义2设I={i1, i2, …, in}是事务数据库D中全体项目组成的集合, I的任何子集X称为D中的项目集 (itemset) , |X|=k称集合X为k项目集。设tk和X分别为D中的事务和项目集, 如果X哿tk, 称事务tk包含项目集X。

事务和项目集虽然都是项目的集合, 但两者有不同的含义。事务是数据库D的组成元素 (类似于关系数据库中的记录或元组) , 而项目仅仅是为挖掘关联规则而规定的项目组合 (类似于关系数据库中的字段) 。事务与项目集的包含关系表明对该事务来说, 此项目集中的各个项目是相互关联的。

定义3数据集D中包含项目集X的事务数称为项目集X的支持数, 记为σx。项目集X的支持率, 记作即概率

其中, |D|是数据集D的事务数。若support (X) 不小于用户指定的最小支持率 (记作:minsupport) , 则称X为频繁项目集 (或大项目集) , 否则称X为非频繁项目集 (或小项目集) 。

定义4若X、Y为项目集, 且X∩Y=准, 蕴涵式X圯Y称为关联规则, X、Y分别称为关联规则X圯Y的前提和结论。项目集 (X圯Y) 的支持率称为关联规则X圯Y的支持率, 是D中事务包含 (X∪Y) 的百分比, 即概率P (X∪Y) , 记作:support (X圯Y) [2]。

关联规则X圯Y的置信度是D中事务包含X的同时也包含Y的百分比, 即条件概率

支持度和置信度是描述关联规则的两个重要概念, 前者用于衡量关联规则在整个数据集中的统计重要性, 后者用于衡量关联规则的可信程度。一般来说, 只有支持度和置信度均较高的关联规则才可能是用户感兴趣的、有用的关联规则。

通常, 用户根据挖掘需要指定最小支持度 (记为minsupport) 和最小置信度 (记为minconfidence) 。前者描述了关联规则的最低重要程度, 后者规定了关联规则必须满足的最低可靠性。

二、关联规则的分类

我们将关联规则按不同的情况进行分类:

1. 基于规则中处理的变量的类别, 关联规则可以分为布尔型和数值型。

布尔型关联规则处理的值都是离散的、种类化的, 它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来, 对数值型字段进行处理, 将其进行动态的分割, 或者直接对原始的数据进行处理。

2. 基于规则中数据的抽象层次, 可以分为单层关联规则和多层关联规则。

在单层的关联规则中, 所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中, 对数据的多层性已经进行了充分的考虑。

3. 基于规则中涉及到的数据的维数, 关联规则可以分为单维的和多维的。

在实际中, 用户往往并不是对所有的关联规则都感兴趣, 而只想知道关于某方面的关联规则, 如那些至少包含用户指定的项目集中一项的规则等。这时就需要定义约束条件, 进行约束性关联规则的挖掘。

三、挖掘关联规则的步骤

关联规则挖掘的任务就是要挖掘出数据库D中所有的强规则, 可以把关联规则挖掘划分为两个子问题[3]: (1) 根据最小支持率找出数据集D中的所有频繁项目集; (2) 根据频繁项目集和最小置信度产生关联规则。

第一个子问题的任务是迅速高效的找出D中全部频繁项目集, 是关联规则挖掘的中心问题, 是衡量关联规则挖掘算法的标准;第二个子问题求解是比较容易的、直接的, 目前所有的关联规则挖掘算法都是针对第一个子问题而提出的。关联规则挖掘的基本模型如图1。

图1中D为数据集, Algorithm-1为频繁项目集的搜索算法, Algorithm-2为关联规则的产生算法, R为挖出的关联规则集合。用户通过指定minsupport、minconfidence分别与算法Algorithm-1和Algorithm-2交互, 并通过与R的交互对挖掘结果进行解释和评价。

关联规则挖掘算法主要考虑的问题有两个[4]: (1) 减少操作。关联规则挖掘的数据集有时候可达GB甚至TB数量级, 频繁的I/O操作必将影响关联规则的挖掘效率, 减少I/O操作主要是减少扫描数据集D的次数; (2) 降低需要计算支持率的项目集 (常称之为候选项目集) 的数量, 使其与频繁项目集的数量接近, 候选项目集数量的降低可以节省为处理部分候选项目集所需的计算时间和存储空间。

到目前为止, 关联规则挖掘产生了大量的挖掘算法, 大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等等。国内外对这些算法的研究已经有很多, 层次算法有时也称为循环算法, 主要是按项目数自小而大的顺序寻找频繁项目集, 常见的算法有:Apriori、Apriori Tid、Aprio Hybro和DHA等等。

四、进一步研究的方向

目前, 数据库挖掘关联规则己经取得了令人瞩目的成绩, 但对下列问题进行研究也将是具有挑战性的工作。

1. 开发更高效的挖掘算法

数据库容量的日益增大, 不仅增大了挖掘算法的搜索空间, 而且也增加了盲目发现的可能性。因此我们必须利用领域知识去提取与我们发现任务有关的数据, 删除无用数据, 有效的降低问题的维数, 设计出更加有效的挖掘算法。

在这方面, 基于约束的关联规则挖掘具有广阔的前途。

2. 可视化挖掘

设计一个灵活方便的用户界面, 允许用户与挖掘系统进行交互, 并对所挖掘的结果进行很好的可视化表示, 使非领域专家也能够进行挖掘。

3. 基于不同媒体的挖掘

目前, 大多数据挖掘关联规则算法都是基于关系数据库或事务数据库的算法, 设计应用于其他类型数据库 (如面向对象数据库、多维数据库、数据仓库等) 关联规则挖掘算法也将是十分有意义的工作。

随着研究的进一步加强, 数据挖掘技术必将应用在更广阔的天地, 为更多的领域提供更多有价值的信息。

摘要:对关联规则挖掘技术进行了研究, 描述了关联规则的基本概念, 介绍了关联规则的分类;阐述了挖掘关联规则的步骤, 并展望了关联规则进一步的研究方向。关联规则挖掘作为数据挖掘领域的一个重要研究内容, 它揭示了项集之间有趣的相关关系, 可广泛应用于购物篮分析、数据分析、分类、网络个性化服务、企业电子商务中客户数据挖掘等广泛领域。

关键词:数据挖掘,关联规则,关联规则挖掘

参考文献

[1]徐军莉, 喻国平.关联规则挖掘算法的研究和应用[J].微计算机信息, 2009, (12) .

[2]孙年芳.关联规则挖掘研究[J].电脑学习, 2009, (1) .

[3]刘红梅.基于关联规则的分类方法初探[J].电脑知识与技术, 2009, (3) .

[4]廖伟国, 张宏书.关联规则挖掘研究综述[J].网络财富, 2009, (7) .

关联规则论文 篇2

财务制度与医院成本核算面临的问题与困惑

首先,医院管理者对于全成本核算的理念理解不够透彻。全成本核算就是对医院各种业务活动的的分类核算,是一个动态的、全方位的的核算过程。如果医院的管理者对这项工作理解不到位,那么医院的财务管理就不能对各项成本的核算工作做到位,就不能使成本核算起到应有的作用。加之医院管理者只是看重医院的规划建设,对成本核算不够重视,单纯的认为服务质量决定医院效益,和成本核算关系不大,甚至没有关系。这种认识直接导致了医院成本的无意义增加和重复消费。其次,医院职工对于医院全成本核算也不理解,他们错误地认为医院成本核算是财务会计的事情,导致医院成本核算的数据会有失真实,达不到应有的目的。第三,医院成本核算部门人员力量不足。因为对医院成本核算工作的不重视,导致对这项工作人员分配少,具有相关业务知识的人员严重欠缺,这些直接造成了成本核算工作的滞后。第四,成本核算的项目划分不够细致。众所周知,药品、医疗器械和各种化验试剂占据了成本核算的主要部分,对这些方面成本支出的核算和控制,直接影响着医院的收入。但是,部分医院的耗材并没有当期进行使用核算,这样使得某些科室的成本支出数据不真实。第五,成本核算和科室效益没有挂钩。医院成本核算虽然影响医院的效益,但是在进行科室绩效测算时,其经济收入是主要考核标准,并没有考虑成本支出,或者考虑较少,这种测算方法也使得基层科室对成本核算不重视。

财务会计制度对医院成本核算的指导作用

为医院的成本核算指明了方向和方法,使医院的成本核算更加合理。在新的医院会计制度中“医院会计采取权责发生制为基础”这个规定比原来的事业单位会计准则对于责权发生制规定更加明确。新的医院财务会计制度,新增加了一些会计项目,这部分项目的增加,明确了部分成本的.划定界限和归属,如新增了固定资产清理项目,使得医院因为报废、损坏等原因产生的固定资产的变化情况,以及在清理这些仪器设备过程中所产生的各种费用都能清楚明白的显示。取消了一些不符合现代要求的会计科目,降低了成本核算的劳动强度,也使得成本核算的准确率提高了,如药品差价按照实际发生的药品借贷关系进行核算,这部分变化的会计科目更能体现当今财务会计和成本核算的要求,如对外投资一项,就根据实际需要细化为长期股权和债券投资两部分,使得资金的使用方向更加明确。新的财务会计制度也使得医院成本核算的管理力度增强。强化了财务预算的功能,强调预算的执行情况要在医院的财务情况中进行说明。

关联规则挖掘算法的研究与应用 篇3

关键词:数据库;频集算法;关联规则;算法优化;并行规则

中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2014) 18-0000-01

一、关联规则简介

(一)产生与含义

关联规则的定义顾名思义,于万事万物中存在千丝万缕的关系。就如同我们所常说的蝴蝶挥翅效应一样。虽然有些事物看起来不存在必然的关联,但是由于某个事物的某种行为就会因为不断的关联而最终影响到那个看起来不关联的事物。关联规则在20世纪90年代,在研究不同商品在顾客购买时如何让顾客购买的商品更加便于管理便于数据应用进行了研究,从而提出了“关联规则”这个概念。也正因为如此,关联规则被迅速应用于超市物品购买和电子商务数据挖掘中。針对关联规则,优化关联规则从而达到数据高效挖掘管理的目的,产生了多种算法。比如Apriori算法、partition算法等等。

(二)典型算法定义与介绍

关联规则中最经典出现时间较早的算法莫过于Apriori算法、后期很多优化算法都是针对于原算法的改进。

算法大多数都是由一些数学的公式和表述方法来表示的,这样的做法主要是因为这种方式的表达更加严谨,经得住推敲。但是这种复杂的公式并不是利于人们理解的。这里以思想模式让大家了解Apriori算法。思想模式:从管理角度讲,在不断出现的各个数据中,最重要的当然是出现频率,或者简单说出现次数、管理次数最多的那个数据项。因为对这个数据项需要大量的操作,实现它的高效管理,就让数据挖掘管理更加科学更加方便。然后通过这个数据项,采用数学方法中的迭代算法,以层为概念进行搜索操作,找出与最多项频繁项的关联集合。不断的执行层面的迭代,建造多个频繁集合。这就是算法的作用。但是我们会发现,在不断的探索关联关系时候,数据项总会有某些关联。但是关联关系太远的,并不是我们提升效率的需要,也不是提升数据管理的方法,所以我们要根据一些要求与规则,去除一些关联集合,这个过程被形象的比喻成“剪枝”。就好像为了获得最美最能茁壮成长的植物,我们需要剪去一些不好的枝叶一样。至于数据定义的公式,数学方法表示,在各种参考资料中都可以方便的找到,这里就不再赘述。

二、关联规则数据挖掘

对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层次上发现一些强关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

三、此算法的应用方向与未来发展

(一)应用方向

从定义而来,我们都可预期关联算法的挖掘算法主要应用于电子商务、数据管理。所以针对方向从计算机角度来讲当然是数据库技术。对于商业购买(尤其是超市)具有重大作用,利用关联数据分析我们就知道了顾客最喜欢哪些商品,哪些商品是购买最多的、哪些商品销售是稳定的、哪些商品的销售不尽如人意。所以可以根据这些数据信息,可以对货品的进货频率、商品价格的提升与下降、某段时间段需要刺激客户的购买欲望等做出合理的评价与操作。同时目前比较流行的商业概念,交叉销售方法,也需要使用到关联规则挖掘算法。就是在销售给用户一种商品的时候,利用数据来分析顾客可能需要的其它商品,将这些商品合理的推荐给用户,增加销售量达到销售目的的过程。商业应用方向以为,这种数据库的分析方法还适合用于金融角度,如股票、期货等升降的趋势预测。用于医疗器材中,比如疾病基因预测。当然在其它行业如保险、通信、建筑等领域也有一定的应用空间。

(二)算法优化发展方向

挖掘算法效率的提高随着数据库尺寸的不断增大,不仅增大了采掘算法的搜索空间,而且也增加了盲目发现的可能。因此我们必须利用领域知识去提取与我们发现任务有关的数据,删除无用的数据,有效降低问题的维数,设计出更加有效的采掘算法。在这方面,基于约束的关联规则采掘具有广阔的前途。另外,数据库可能经常频繁的更新,一旦有新的数据集添加到旧的数据库后,原来的强关联规则可能不再是强关联规则了,而原来的弱关联规则也可能会变为强关联规则。所以,对数据库需要经常挖掘最新的关联规则,这时可以将现有的挖掘算法如Apriori重新运行来得到新的关联规则。这种方法虽然简单,但是有明显不足,因为在原有数据库中发现到的频繁项目集都被浪费掉了,所有的频繁项目集必须重新开始计算。因此有必要研究针对数据库变化时的挖掘算法。在这方面增量式更新算法大有前途。可视化采掘目前的关联规则挖掘过程一般是在用户规定最小支持度和最小置信度等参数之后,通过扫描数据库找出所有的频繁项目集生成关联规则最后将挖掘出的关联规则提交给用户。由于频繁项目集的寻找比较费时,用户在指定这些参数后等待较长时间才能获得挖掘结果。如果用户对所得到的挖掘结果不满意,则需要修改最小支持度、最小置信度等参数,并再次运行挖掘算法。用户要得到满意的结果可能需要多次反复上述的过程。虽然上述过程可以优化,但仍然难以达到理想的效果。增强关联规则挖掘算法与用户的交互性可以减小算法的搜索空间,提高挖掘效率挖掘出满足用户需求的关联规则。因此设计出灵活方便的交互用户界面并对所挖掘的结果进行很好的可视化表示,使非领域专家也能够挖掘是一个广阔的发展方向。

参考文献:

[1]何月顺,杜萍,丁秋林.基于数据挖掘思想的故障模式分析[J].计算机应用研究,2005(11).

[2]何月顺,丁秋林.计算机半结构化数据源的数据挖掘技术研究[J].哈尔滨工业大学学报,2005(10).

[3]彭仪普,熊拥军.关联规则挖掘AprioriTid算法的改进[J].计算机应用,2005(05).

[4]何月顺,汤彬,丁秋林.基于Web的数据挖掘技术的应用研究[J].计算机系统应用,2005(05).

[5]何月顺,刘光萍,丁秋林.XML与面向Web的数据挖掘技术的应用研究[J].江西农业大学学报,2004(06).

[6]马水山,王志旺,张漫.基于关联规则挖掘的滑坡监测资料分析[J].长江科学院院报,2004(05).

[作者简介]马峰柏(1983.09-),男 ,黑龙江人,黑龙江农业职业技术学院,教研室主任,讲师,硕士研究生,研究方向:网络、软件方向。

关联规则挖掘研究 篇4

关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其它商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。

关联规则是关联分析中的一种常用技术。关联规则是寻找在同一个事件中出现的不同项的相关性。其形式如下[1]。

设L=邀i1,i2,...im妖是所有项的集合。D是交易集合,其中每个交易T是一个项的集合并且T哿L。每一个交易T都有一个唯一的标识TID。如果项集合X哿L且X哿T,则交易T包含X。一个关联规则就是这样一种形式的关系:X==>Y,其中X奂L,Y奂L,并且X∪Y=φ。

另外两个和关联规则有关的概念是支持度和可信度。

根据文献[1]的定义,对于一个关联规则X==>Y,在交易集合D中,Txy=邀T|(X∪Y)哿T∩T∈D妖,Tx=邀T|X奂T∩T∈D妖,支持度为s,|Txy|/|D|=s%;可信度为c,|Txy|/|Tx|=c%。

举例说明,有一个特定的关联规则,锤子==>钉子,这个规则可能意味着买锤子的人也有倾向买钉子。有10000条交易记录的交易数据库中,若有300条记录既包含了锤子又包含了钉子,则关联规则的支持度为300/10000=3%,这个支持度是比较高的,但并不能就此作出这个关联有意义的结论。但是假如只有600人购买了锤子,则其中有一半的人又去购买了钉子,这个现象就值得关注了。

另一个更详细的例子来自于文献[2]:

总交易笔数:1000;

包含“锤子”:50;

包含“钉子”:80;

包含“钳子”:20;

包含“锤子”和“钉子”:15;

包含“钳子”和“钉子”:10;

包含“锤子”和“钳子”:10;

包含“锤子”,“钳子”和“钉子”:15。

则可以计算出:

“锤子和钉子”的支持度=1.5%(15/1000);

“锤子,钉子和钳子”的支持度=0.5(5/1000);

“锤子==>钉子”的可信度=30%(15/50);

“钉子==>锤子”的可信度=19%(15/80);

“锤子和钉子==>钳子”的可信度=33%(5/15);

“钳子==>锤子和钉子”的可信度=25%(5/20)。

数据挖掘得到的关联规则,只是对数据库中数据之间相关性的一种描述。还没有其它数据来验证规则的正确性。

除了支持度和可信度外关联规则评价标准还有改善度和兴趣度。

2 关联规则的种类

(1)基于规则中处理的变量的类别,分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,是一个数值型关联规则。

(2)基于规则中数据的抽象层次,分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

(3)基于规则中涉及到的数据维数,分为单维的和多维的。在单维的关联规则中,只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换句话说,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

给出了关联规则的分类之后,在分析过程中,就可以考虑某个具体的方法适用于哪一类规则的挖掘,某类规则又可以用哪些不同的方法进行处理。

3 关联规则挖掘的算法

3.1 经典频集方法

Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题[3],其核心方法是基于频集理论的递推方法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。其工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。

(1)核心算法Agrawal等设计了一个基本算法[3],提出了挖掘关联规则的一个重要方法,将关联规则挖掘算法的设计分解为两个子问题:(1)找到所有支持度大于最小支持度的项集,这些项集称为频集;(2)使用(1)找到的频集产生期望的规则。

(2)频集算法的几种优化方法:(1)基于划分的方法;(2)基于hash的方法;(3)基于采样的方法;(4)减少交易的个数。

3.2 其它的频集挖掘方法

前面介绍的都是基于Apriori的频集方法。即使进行了优化,Apriori方法一些固有的缺陷还是无法克服。

(1)可能产生大量的候选集。当长度为1的频集有1-0000个的时候,长度为2的候选集个数将会超过10M。当要生成一个很长的规则的时候,要产生的中间元素也是巨大量的。

(2)无法对稀有信息进行分析。由于频集使用了参数minsup,因此就无法对小于minsup的事件进行分析;如果将minsup设成一个很低的值,那么算法的效率将很难处理。

4 结束语

关联规则可以在下面一些方向上进行深入研究:在处理极大量的数据时,如何提高算法效率的问题;对于挖掘迅速更新数据的挖掘算法的进一步研究;在挖掘的过程中,提供一种与用户进行交互的方法,将用户的领域知识结合在其中;对于数值型字段在关联规则中的处理问题;生成结果的可视化方面等等。

参考文献

[1]Rakesh Agrawal,Ramakrjshnan Srjkant.Fast Algorithms for Mining Association Rules.[S.l].:Proceedings of the20th VLDB Conference,c19xx/20xx.

[2]朱扬勇.数据挖掘入门.http://datamining.126.com.

关联规则论文 篇5

【中文摘要】随着我国零售行业竞争日益激烈,尤其是大型超市越来越多,传统的营销模式已经不适应现代的新形势了。客户关系管理(CRM)作为一种“以客户为核心”的支持有效市场推广、营销和服务过程的重要经营策略,越来越受到企业重视,有效做好客户关系管理对于企业提升竞争力起着很重要的作用。而在客户关系管理系统的基础上加入数据挖掘技术,可以透过数理模式来分析商家在营销过程中产生的大量资料,划分出不同类型的客户或不同的市场,分析出消费者的爱好和行为的方法,帮助商家保住原有客户,开发新客户,进一步提升客户的满意度。本文在传统客户关系管理系统的基础上,整合了数据挖掘(关联规则)及手机平台的应用,使得系统能够更有效地完成数据分析,更深度地挖掘潜在客户,更及时地为使用者反馈信息。本论文从以下几个方面进行了研究:(1)针对大型超市的工作流程,设计开发了一个大型超市零售业务的CRM,包括客户管理和智能分析等子系统,包含有客户资料查询、商品销量分析、商品销售关联分析和客户消费关联分析等等功能。(2)在客户消费关联分析中,使用数据挖掘中的关联规则Apriori算法对客户消费的商品进行了挖掘,建立了客户消费方式模型,根据客户选择规...【英文摘要】With the increasingly fierce competition of China’s retail industry, especially the wide spread of large

supermarket, the traditional marketing mode cannot adapt to the new situation today.Customer Relationship Management(CRM), an important kind of management tactic, are now attached great importance to which means take the customer as the core to support effective market promotion, marketing and service process.Effecting the CRM effectively plays a very important role in enhancing enterprise’s competiti...【关键词】客户关系管理 零售业 数据挖掘 关联规则

【英文关键词】CRM Retail Industry Data mining Association rules 【索购全文】联系Q1:138113721 Q2:139938848 【目录】基于关联规则的零售业CRM的设计和实现6-71113-1614-16ABSTRACT7-8

第1章 绪论11-17

摘要1.1 引论1.2 系统开发背景11-131.3.1 国外现况13-14

1.3 国内外研究状况1.3.2 国内现况

第2章 客户1.4 本文的内容和组织结构16-17关系管理与数据挖掘理论17-2517-19

2.1 客户关系管理

2.1.2 2.1.1 客户关系管理的基本内涵17-18零售业客户关系管理的特点18-1919-212.2.1 数据挖掘的定义19

2.2 数据挖掘技术

2.2.2 数据挖掘与知

2.3 基于识发现19-202.2.3 数据挖掘的方法20-21关联规则的数据挖掘21-242.3.1 关联规则的概述

21-2224-252.3.2 关联规则挖掘22-242.4 本章小结

3.1 3.1.2 3.2.1 第3章 零售业CRM系统的分析与设计25-47

3.1.1 功能性需求分析25-26

3.2 总体设计27-36需求分析25-27非功能性需求分析26-27设计思想27-31框架结构33-35台的选择36-3936-37

3.2.2 算法模型31-333.2.4 业务数据流35-363.3.1 ADO.NET开发技术

3.2.3 系统的3.3 开发平3.3.2.NET Framework开发技术37-39

3.4.1 操作型数据与分析型数据

3.4 数据设计39-4539-413.4.2 数据库设计41-453.5 零售业CRM系统

第4章 零售

4.2 4.4 进4.6 系功能模块设计45-46业CRM系统的实现47-58短信平台模块49-50销存管理模块54-55统管理模块57望58-6059-60项目63-64

3.6 本章小结46-47

4.1 客户管理模块47-494.3 智能分析模块50-544.5 报表打印模块55-57

4.7 本章小结57-58第5章 总结与展5.1 总结58-59参考文献60-63

致谢64

关联规则在旅行社CRM中的应用 篇6

关键词:数据挖掘;关联规则;Apriori算法;CRM;旅行社;旅游产品

中图分类号:TP311 文献标识码:A文章编号:1009-3044(2007)12-21508-03

Application of Association Rules in CRM of Travel Agency

XU Hui-min

(College of Information Management of Chengdu University Of Technology,Chengdu 610059,China)

Abstract:For travel agents, CRM strategies may enhance their core competitiveness, to win their competition and the purpose of the rapid growth, How to use data mining technology from CRM data to identify the more valuable knowledge and rules, No doubt people are very concerned about one of the topics. This paper introduces Association Rules’ concepts and roles in Data Mining, and analyzes the key algorithm of Apriori, Combining characteristics of spending on tourism products by tourists in CRM of the travel agency, then expounds that CRM data mining based on Apriori algorithm has important significance for the travel agents to enhance their advantages under the new competitive environment.

Key words:Data Mining;Association Rules;Apriori algorithm;CRM;travel agency;tourism products

1 引言

面临残酷的市场竞争,所有的企业都在不遗余力地争取尽可能多的客户,与客户保持长期稳定地关系。客户关系管理(Customer Relationship Management 以下简称CRM)作为一种旨在改善企业与客户之间关系的新型管理理念应运而生,它的核心是“了解客户,倾听客户”,它的目标可以概括为“吸引潜在客户进入,提高现有客户满意度和忠诚度,降低客户流失”,总之一切的最终目的——提高收益与竞争力。作为旅游业三大支柱之一的旅行社要想从市场中胜出,实施CRM的重要性不言而喻。然而日积月累,CRM数据库中的数据日益增长,人们希望能够提供更高层次的数据分析功能,自动和智能地将待处理的数据转化为有用的信息和知识。数据挖掘正好为我们提供了解决上述问题的有效方法,它通过对客户需求进行深入地分析,发现数据之间的潜在联系,为我们提供自动决策支持。本文将就数据挖掘技术之一的关联规则在旅行社客户关系管理中的应用作一简浅讨论。

2 關联规则

随着数据库技术的飞速发展及人们获取数据手段的多样化,收集和存储在数据库的数据规模越来越大,人们对从这些数据寻找有价值的信息越来越有兴趣。关联规则作为数据挖掘的重要的研究方法之一,就是用于发现隐藏在这些大型数据集中有价值的数据间的相互联系的规则。它最早是由Agrawal等人于1993年提出的,最初是用来发现人们的购物篮中不同商品之间的联系,以期分析顾客的购买习惯。例如,我们对一个便民食品店Pos机及其后台数据库的联网分析发现,很多顾客在购买酱油、醋的同时,还同时购买料酒。除购物篮数据外,关联规则已广泛应用于其它领域,如生物信息学、医疗诊断、网页挖掘和科学数据分析等领域中。

2.1 基本概念

2.2 解决方法

一般地,给定一个数据集D,关联规则挖掘的任务,就是要通过用户指定最小支持度和最小置信度来寻找强规则的过程。因此,该任务又可以划分为以下两个子任务。

(1)寻找所有频集

通过用户给定的最小支持度,寻找所有频集。事实上,这些频集可能具有包含关系,一般地,我们只关心那些不被其它频集所包含的所谓最大频集的集合。寻找所有频集是形成关联规则的基础。

(2)生成关联规则

通过用户指定的最小置信度,在每个最大频集中,寻找置信度不小于最小置信度的关联规则。

2.3 Apriori算法与寻找频集

Apriori算法是挖掘产生布尔关联规则所需频集的基本算法,也是一个很有影响力的关联规则算法。该算法是根据有关频集特性的先验知识(prior knowledge)而命名的,它利用了一个层次顺序搜索的循环方法来完成频集的挖掘工作,即利用k-项集来产生(k+1)-集。具体做法:首先找出频1-项集,记为F1;然后利用F1来挖掘F2,即频2-项集;不断如此循环下去直到无法发现更多的频k-项集为止。每挖掘一层就需要扫描整个数据集一遍。为提高按层次搜索并产生相应频集的处理效率,Apriori算法利用了一个重要性质,即上述定理1所述,该性质可有效缩小频集的搜索空间。下面给出Apriori算法描述:

3 旅行社CRM简介

由于目前我国绝大多数旅行社提供的产品是预售游客进行旅游活动所需的各项综合性的服务或服务组合,而且是以包价形式出现的组合性旅游产品,其存在和发展总是离不开对客源市场和其他相关旅游企业的支持,由此决定了旅行社经营活动的重点是要积极主动的和客源市场和相关企业建立长期可靠的相互协作和信任关系,从而客户资源成为了旅行社生存发展的重要因素。而CRM将游客视为一种宝贵的资源,并纳入到旅行社的经营发展中来,旅行社的工作人员就可以对游客的兴趣、爱好、购买习惯的进行追踪服务,重视与游客的及时双向的沟通,围绕游客开展旅游产品的开发、推广,通过为游客提供全程服务提高顾客满意度和忠诚度,从而实现对游客服务的时间和空间的拓展和服务的增值,为旅行社带来盈利。

旅行社CRM采用B/S结构,多层软件架构确保了系统的扩展性和适用性:客户关系管理系统支持Microsoft SQL Server、Oracle等多种后台数据库系统;客户关系管理系统支持多种类型的客户端,如Web Browser、Wap Browser等;客户关系管理系统独立的应用层使得企业业务逻辑的更新和扩展更为方便和容易。同时,基于这种多层结构,应用智能负载均衡与集群等技术实现系统服务能力的扩展。模块设计如图1。

图1

4 关联规则在旅行社CRM中的应用

4.1 规则挖掘在这里将对游客消费项目(即旅行产品)的特征进行分析,判断出游客的行为方式和消费习惯,进而将游客分类,分析不同类型的游客的价值,确定旅行社的目标市场,制定出详细的计划。在旅行产品的众特征中,依据旅行社的自身经营特色,这里只抽取其最常见/重要的五种来刻画,并标记每种为——I1:体验性;I2:休闲化;I3:生活化;I4:娱乐化;I5:生态化。

采取VC编写程序进行实现,其中所用的数据如游客是否为重要客户是已经采集/分析过的,在此不累述。原始数据见表1,共取9条记录,假设最小支持度為2,最小置信度为60%。

在获得的候选3-项集C3时,首先假设C3=F2?茌F2,即为{{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4}, {I2,I3,I5},{I2,I4,I5}}。根据<定理1>所述的Apriori算法的“一个频集的所有子集也是频集”性质,可以确定后四个项集不可能是频集,因此将它们从 中除去,从而也就节约了扫描数据库D以统计项集支持度的时间。

虽然C4=F3?茌F3为{{I1,I2,I3,I5}},但由于其子集{I2,I3,I5} 是非频集,因此C4=?覫。Apriori算法因不能发现新的项集而结束。

此时我们再以频集{I1,I2,I5}为例,给出关联规则的生成过程。可知其非空子集为:{I1,I2},{I1,I5},{I2,I5},{I1},{I2},{I5},根据关联规则生成算法,有以下关联规则及其信任度:

因为最小置信度为60%,所以第(2)、(3)、(6)项将做为最后的规则被输出。

4.2 结果分析

从以上结果可以看出,该类型游客的消费项目的特征常是体验性、休闲化同时是生活化或者生态化的,在了解该类型游客的需求特点后,旅行社可对推出针对性强求的一对一的服务,为其设计相符的、个性化的旅游服务,才能让其深刻体会到旅行社让渡的顾客价值,最终实现旅行社的价值。

5 结论

关联规则中的Apriori算法能揭示大量数据间的关联关系,其在旅行社CRM中的应用的有效性和实用性就是一有力的证明。旅行社利用数据挖掘技术与CRM的有机结合,通过客户关系价值分类、有针对性的市场营销、高质量的游程管理和及时的游客跟踪服务,能够提供给游客更加个性化、人情化和标准化的旅游产品,从而提高游客对旅行社的满意度和忠诚度,相信未来旅行社的经营必将克服目前低赢利、低质量的问题,逐步进入低成本——高质量——高盈利的良性循环。

参考文献:

[1]R Agrawa,l T Imielinsk,i A Swam.i Mining association rules between sets of items in large database[M]. In: Proc 1993 ACM-SIGMOD IntConfManage-ment ofData (SIGMOD’93),Washington,DC, 1993

[2]Pan-Ning.Tan Michael Steinbach Vipin Kumar.Introduction to Data Mining[M].Posts & Telecom Press, 2006

[3]朱明.数据挖掘[M].安徽:中国科学技术大学出版社, 2002.

[4]毛国君 段立娟 王实 石云.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[5]杰姆G巴诺斯.客户关系管理成功奥秘[M]. 北京:机械工业出版社,2002.

[6]曹洪珍.旅行社如何在竞争中取胜[J].东北财经大学学报,2001,11.

[7]秦宇.对旅游产品优化问题的思考[J].旅游学刊,2003,5.

关联规则隐藏算法综述 篇7

关键词:数据挖掘,隐私保护,关联规则隐藏

0 引言

隐私保护数据挖掘在数据挖掘领域是一个富有成效的研究课题。PPDM的目的是通过各种方法转换现有的数据集,甚至在挖掘的过程中,一些数据在某种程度上的机密性依然保持不变。在数据挖掘中,用户给出数据并免费使用他们自己的工具。因此,数据挖掘之前的隐私保护要应用在用户自己的数据上。鉴于此,需要开发新的隐私保护控制系统,也即将这些数据集转换成一个新的数据集来保护原始数据。提出关联规则隐藏算法的目标是为了保护一些特别的数据,使其在关联规则隐藏算法的过程中不被发现。例如:政府想推出一些关于农村地区发展的新计划,农村部门有关于农民和劳动的数据库,他们想通过第三方分析这些数据,但是不能揭示农村劳动者的个人信息;又如:商店想要了解消费者的购物行为,该例中消费者的数据不是很重要,但是从数据所分析出的结果需要得到保护。

数据挖掘是一种从海量信息中挖掘出有用信息的技术。在当前社会,共享和发布信息已经成为常见现象。然而,数据的搜集和分析会暴露个人隐私。目前,隐私保护数据挖掘已经引起了广泛关注,许多关于隐私保护的技术因此被提出。本文将讨论不同的隐私保护技术及它们的优缺点,并重点讨论关联规则挖掘算法。

数据挖掘可以在很短时间内分析大量的信息,智能算法将一些敏感性和机密性的数据存储在大量分支数据中。各种各样的挖掘技术中也许包含很多关于个人和组织的敏感性信息。关联规则挖掘就是从给出的数据中发现一些能够满足预先定义好的最低值和机密度的关联规则。该问题通常被分解为两个子问题:一是找出该项目中谁的发生超出了预先定义的临界值,这些被称为频繁大项集;二是从这些大项集中产生关联规则。关联规则隐藏是指修改原始数据的过程,在该过程中,一些确定的敏感性关联规则消失,但是并不影响数据和一些不敏感规则。

通过转换将一些敏感性的数据隐藏起来的过程叫做数据清洗过程。为了进行转换,一个小数量的交易需要通过删除一个或多个项目而发生改变,或者一些交易是通过将错的改为对的来添加噪声数据集,发布的数据库称为清洁数据库。同时,该方法也稍微修改了一些数据,但是在实际应用中非常容易被接受。

1 关联规则隐藏算法相关技术

关联规则隐藏算法阻止敏感性规则被公开。其主要问题归纳如下:给定一个事务数据库X用最小机密度、最小支持度,以及一系列从数据库X中挖掘出来的规则。一个R的子集RH为敏感性关联规则,该子集不能被公开。关联关系隐藏的目的是将X转换为X′,通过这些方法任何人将不会挖掘出属于RH的规则,而且属于R的不敏感规则也不会受到影响。

1.1 启发式技术

启发式技术解决如何确定合适的数据集对数据进行转换。启发式技术的转变方法既包括扰动项,通过改变其属性值完成(例如改变属性值由1到0),还包括阻塞项,用“?”改变现存的属性值。

1.1.1 基于扰动的方法

基于数据扰动提出对数据的启发式修改,它将一个被选择的属性值由1改为0,因此敏感规则的支持度将会减少,发布数据的效应将会达到最大。其关键的一步是借助于启发式的思想如何将X变为X,。

Agrawal and Srikant使用数据扰动技术来改变数据,这样可以根据原始数据的相似值获得改变过的数据版本,同样挖掘规则也相应地改变为相似的挖掘规则。这个重建的分布用来构造一个新的模型。

本文提出了5种算法,所有这些算法都是基于扰动技术,其中3种是隐藏一些关联规则,剩下的两种是隐藏大项集。这5种算法都用到了参数,具有有效性。由于首先要根据它们的种类隐藏关联规则,因而副作用也很明显。

文献[1]力求在隐私数据和公开数据中达到平衡,即尽量减少关于消除事项的相互影响,并且尽量减少偶然和替代事项。其效应是测量隐藏在修改过程中产生副作用的无敏感规则的数量。

1.1.2 基于阻塞的方法

通过用一个问号或者一个真值替代一个确定的数据来减少敏感规则的支持度和置信度,该方法已经在实施。最小的支持度和最小的置信度相应地改变成一个最小的支持区间和最小的置信区间。如果一个敏感规则的支持度和/或者置信度在该区间,则并不违反数据的机密性。

Yucel Saygin使用一些分块来扰动关联规则。当一些原始数据的值被一些不知道的值替换之后,就难以界定敏感关联规则的支持度和置信度。Yucel Saygin在其论文中通过一些例子,在关联规则挖掘中使用不确定的符号,也即用支持区间和置信区间来代替支持度和置信度。

Xiao X[2]提出了一个新的个人匿名概念的概括性框架,该框架是为了确保普遍性来满足每个人的要求。它提供了关于隐私保护不同大小的数据表的记录。Liu Mingetal基于(I,k)匿名化模型提出了个人匿名模型。

1.2 基于重建的关键规则

最近提出的许多关于隐私保护的问题是通过在一个总体水平上来扰动数据和重建分支,也即该算法先用在扰动数据上,然后用在重建分支上。重建方法和数据类型不同,相应的算法也不同。

Agrawal用贝叶斯定义的算法进行分支重建。Agrawal对于重建关联规则提出了一个统一的随机选择的算法。本文在贝叶斯的基础上作了改进,在(期望最大化)EM算法的帮助下进行重建。

1.2.1 数据重建方法

另一个数据重组方法是将原始数据搁置一边,开始于消除所谓的“知识数据”。新的被公开的数据由经过消除的知识数据而重建。Chen首次提出了基于约束基础的转换项目,即Lattice Mining procedure(CIILM),用于隐藏经常性的敏感项目,它们的数据重建是基于子项目集。另一个隐私保护方法是与逆频繁项目集挖掘相关联,也即从给出的频繁数据中推出原始数据,这是由Mielikainen提出的。

1.2.2 FP树方法

FP方法在文献[3]中被提出,是基于重组技术的逆频繁项目集挖掘。有3个步骤:①用频繁项目挖掘算法产生从数据D形成的支持项;②将消除算法超过频繁项目从FS中得到FS,;③从FS中获得公开数据D。

1.3 基于密码基础的技术

不同的组织希望交换它们的数据,但是不能暴露其敏感信息。因此,在交换信息时使用一些保密规则。

1.3.1 垂直分区的分布式数据

该算法是根据“安全和”的概念而提出,安全和是指节点之间的安全计算,每个分项目的支持度之和将要被计算。

文献[4]讨论了各种各样的隐私保护的分解方法,包括安全和、安全联合、交集的安全大小以及数积等。文献[5]5]讨论了如何使用分级点来计算频繁项目,它使用线形的算法技术来计算两个向量的分节点。

1.3.2 水平分区的分布式数据

衡量全局频繁项集,确保不揭露网站信息,只找到在网站上支持度的安全值。支持度高过阈值就是全局频繁项集。

Shaofei Wu提出了一种算法来保持隐私保护和知识挖掘之间的平衡。该解决方法在挖掘阶段后使用了一个过滤器来隐藏一些被发现的规则。在使用该算法之前,要建立数据结构和敏感规则的有效模型。

Chirag N.Modi提出相应算法以阻止一些通过不安全的媒介来获得隐私的方法。

1.4 精确方法

这些方法跟随着隐藏进程,作为一个约束满意度问题已经被二进制整数程序设计(BIP)解决。它们给出了很好的解决方法,但遭受了从高时间复杂度到CSP。

Gkoulalas and Verykios针对找到一个隐藏规则问题的最佳解决方法提出了相应建议。该隐藏问题在尽量减少原始数据甚至是消除数据之间的距离。

文献[6]基于边界值的方法,提出了解决隐藏敏感频率项集问题的最佳方法。隐藏敏感频率项是通过综合扩展原始数据集生成数据集。扩展原始数据来隐藏数据敏感项被证明是对于解决扩展隐藏问题的最佳解决方法。

2 关联规则隐藏目的

2.1 隐藏目的

(1)如果预先定好了原始数据的支持度和置信度的阈值,则敏感性规则不能被挖掘出来,如果这些数据在同样或更高的阈值内被挖掘,那么它可以公布其转换过的数据。这要求转换过的数据不包含敏感性规则。

(2)在给定的支持度和置信度内如果能挖掘到原始数据不敏感的规则,那么对于转换过的数据在同样支持度和置信度或者更高的值内,也应该被挖掘出。另一个要求是在转换数据时不能丢失规则。

(3)不能有错误的规则,错误的规则指原始数据中不存在的规则。

2.2 挖据算法目标

隐私保护挖掘算法应该做到:①个人敏感信息需要被维护;②对于不敏感数据的使用不妥协;③没有一个指数计算的复杂性。

2.3 关联规则隐藏发展方向

关联规则隐藏有两个主要方向:①在原始数据中隐藏一些特别的关联规则;②从原始数据挖掘出一些频繁项,即隐藏这些特别的频繁项,即确保从敏感规则在公开的数据里变得无关紧要。

3 结语

在共享环境下,关联规则隐藏用处极大。本文提出了一种分类的隐私保护关联规则挖掘方法,并进行了详细分析。现有方法仅提供了隐藏敏感知识的近似解,如何找到数据库信息披露的精确解还有待进一步研究。

参考文献

[1]S R M OLIVEIRA,O R ZAIANE,Y SAYGIN.Secure association rule sharing,advances in knowledge discovery and data mining[C].Sydney:Proceedings of the 8th Pacific-Asia Conference(PAK-DD2004),2004:74-85.

[2]S OLIVEIRA,O ZAIANE.Algorithms for balancing privacy and knowledge discovery in association rule mining[C].Hong Kong:Proceedings of 7th international database engineering and applications symposium(IDEAS03),2003.

[3]YONGCHENG LUO,YAN ZHAO,JIAJIN LE.A Survey on the privacy preserving algorithm of association rule mining[C].International Society for Eighteenth-Century Studies,2009:241-245.

[4]CHRIS CLIFTON,MURAT KANTARCIOGLOU,XIADONG-LIN,et al.Tools for privacy preserving distributed data mining[J].SIGKDD Explorations,2002,4(2):1-7.

[5]IOANNIDIS I,GRAMA A,ATALLAH M.A secure protocol for computing dot-products in clustered and distributed environments[C].Proceedings of International Conference on Parallel Processing,2002:379-384.

兴趣关联规则的挖掘 篇8

1 关联规则问题的形式化定义

我们假设I={i1, i2, …, im}是由m个不同的项目组成的集合。给定一个事务数据库D, D中的每一个事务T都是由I中的一些项目组成的集合, 即T⊆I, T有一个唯一的标示符TID, 关联规则就是形如X⇒Y的蕴涵式, 其中X⊆I, Y⊆I, 且X∩Y=ф, X⇒Y的支持度和可信度分别大于用户指定的最小支持度 (minsupp) 和最小可信度 (minconf) 。支持度和可信度的定义如下: X 是I的一个子集, 其补集记为Xc。如果满足X⊆T, 则称事务T支持X。否则, 如果Xc⊆T, 称T支持Xc, 设X是I的一个子集, X的支持度是指数据库D中支持X的记录数与总记录数之比, 记为P (X) , 也可理解为X在D中发生的概率, 蕴涵式X⇒Y的支持度是指数据库中同时支持X和Y的记录数与总记录数之比, 记为SX⇒Y, 则SX⇒Y =P (XY) ;蕴涵式X⇒Y的可信度是指数据库中同时支持X和Y的记录数与支持X的记录数之比, 记为CX⇒Y, 即:

undefined

由此可见关联规则的支持度给出了该规则发生的频度, 其可信度给出了规则发生的强度。

从统计学的角度解释, 关联规则的开采问题就是在事务数据库D中找出具有用户给定的最小支持度和最小可信度的关联规则[6], 可以分解为以下两个问题。

(1) 找出事务数据库D中所有具有用户指定最小支持度的项目集。

(2) 利用频繁项目集生成规则。

2 支持度和可信度存在的问题的提出

已有的研究大多数是基于支持度和可信度框架的完善和改进[2,3,4,7], 在实际应用中, 发现用支持度和可信度为标准来产生关联规则, 会产生大量不相关、甚至是误导的关联规则, 有一些规则即使满足用户指定的最小支持度和可信度, 但仍没有给我们提供有用的信息, 这些规则是没有实际意义的。下面通过例子来说明。

例1:设事务数据库D由以下事务组成:

T1={i1, i2, i3, i4},

T2={i1, i4, i5, i7, i9},

T3={i1, i2, i3, i6, i9},

T4={i0, i1, i2, i3, i8},

T5={i0, i1, i4, i7, i8},

T6={i0, i1, i9},

T7={i0, i1, i2, i3, i6, i7, i9},

T8={i0, i1, i6, i7, i9},

T9={i1, i2, i3, i4, i5, i6, i7, i8},

T10={i1, i4, i5, i6}。

假如最小支持度和可信度分别为45%、90%, 通过计算我们可以得到以下两条规则:

i2 ⇒ i3, 其支持度为50%, 可信度为100%。

i0 ⇒ i1, 其支持度为50%, 可信度为100%。

观察数据库D我们可以发现, i2和i3总是同时出现, 因此i2和i3具有很强的关联性, 所以关联规则i2 ⇒ i3被挖掘出来;而对于i0和i1来说, 不管i0是否出现总有i1出现, 也就是说i0和i1之间没有关联性, 因此规则i0 ⇒ i1是错误的。但在现有的关联规则挖掘算法中, 它仍被挖掘了出来。

下面再来看一个关系数据库的例子。

例2:如下表:

其中im表示男性, iw 表示女性, ie表示工程师, iot表示工程师之外的其他职称。

通过计算支持度和可信度, 我们可以得到以下规则:i1 ⇒ i2, 其支持度为40%, 可信度为66%。然而, 挖掘出的这一条规则并没有提供给我们更多的信息, 因为事先我们从数据库中已经知道了男性职工中大部分是工程师。

从例1和例2中可看出, 一条即使可信度和支持度都很高的规则, 它的实际价值已经没有人们期望的那么高了, 更严重的话, 这条规则确实会是误导性的。因此, 人们引入了新的标准——兴趣度来加强对关联规则的判定[8]。

3 兴趣关联规则

通过上面的例子可以看出, 挖掘出的关联规则X⇒Y, 尽管满足用户指定的最小支持度和可信度, 但当Y与X不相关或先验知识知道较多的情况下, 这些关联规则是没有现实意义的, 或者说我们对这些关联规则并不感兴趣。为了克服这些问题, 引入关联规则的兴趣度概念。

规则X⇒Y的兴趣度为:

undefined

其中:

undefined

当规则X⇒Y的支持度和可信度分别大于用户指定的最小支持度minsupp和可信度minconf, 并且它的兴趣度大于用户指定的最小兴趣度minint时, 称规则X⇒Y为兴趣关联规则。

分析I的含义:

当I>0时有C-C’>0, 即P (XY) >P (X) P (Y) , 从而有:

undefined

说明X的发生对Y的发生起积极作用。特别当I=1时, 有P (XY) =P (X) 成立, 说明X发生时必然有Y发生。

当I<0时有C-C’<0, 即P (XY)

undefined

说明X的发生对Y的发生起抑制作用, 也可理解为Xc的发生对Y的发生起积极作用。特别I=-1时, 有 P (XcY) =P (Xc) 成立, 说明X不发生时必然有Y发生。

当I=0时有C-C’=0, 整理得P (XY) =P (X) P (Y) 。

说明X与Y没有关系, 即Y的发生独立于X的发生。

当I的值越接近1时, X与Y的关联性越强, 规则X⇒Y越具有现实意义。

当I的值越接近-1时, Xc 与Y的关联性越强, 规则Xc⇒Y越具有现实意义。

当I的值越接近0时, X与Y越不相关, 规则X⇒Y没有提供太多有用的信息, 这些规则没有实际的意义。

再来看上面的例子。对于例1来说, 由于I=0, 所以规则i1 ⇒ i2将不被发现。对于例2来说, 如果设最小兴趣度为30%, 由于I=-23.85%, 因此规则i1 ⇒ i2也不被发现。

4 关联规则挖掘算法的修改

下面将只考虑支持度和可信度的关联规则挖掘算法进行修改, 将它运用到引入兴趣度之后的情况。

由于关联规则的挖掘分为搜寻频繁项目集和产生关联规则两步。对于第一步, 我们可以采用现有的挖掘算法如Apriori等, 来产生频繁项目集。对于第二步, 找到的规则, 除了满足用户指定的支持度和可信度之外, 还要满足兴趣度阈值。

兴趣关联规则的挖掘算法描述如下:

(1) 利用Apriori等算法得到所有频繁项目集[9,10]L。

(2) 对L中的频繁项目集A和A的每一个非空子集B, 计算支持度P (A) 、P (B) 和P (A-B) 。

计算规则B⇒A-B的可信度C和兴趣度I的值。

undefined

其中:

undefined

(3) 根据C、I的值输出规则

如果C≤minconf, 说明规则B⇒A-B的可信度较低, 淘汰。

如果C> minconf, |I|

如果C>minconf, I>minint, 说明B对 (A-B) 具有积极作用, 规则B⇒ (A-B) 的兴趣度较高, 具有实际意义, 输出。

如果C>minconf, I<-minint, 说明B对 (A-B) 具有抑制作用, 此时我们对规则Bc ⇒ (A-B) 感兴趣, 输出此规则。

整个兴趣度关联挖掘算法描述如下:

输入: 最小支持度、最小可信度、有趣度阈值: minsupport、minconfidence、ri。

输出: 所有有趣的强关联规则。

首先利用经典 Apriori产生出大项目集:

再利用大项目集产生有兴趣度约束的关联规则:

5 应用结果说明

在用引入兴趣度的关联规则挖掘方法对局部的学生成绩数据库挖掘后, 得出了以下所示的兴趣度阈值和挖掘出的规则数目的关系如表1。

根据表1可以看出, 随着兴趣度阈值的提高, 挖掘出的规则的数量急剧减少, 成功的实现了无用规则的过滤。

6 结束语

文章对现有关联规则进行了分析, 指出了其不足之处:有些关联规则即使支持度和可信度都很高, 但仍没有实际意义。提出了一种度量关联规则兴趣度的方法, 并给出了兴趣关联规则的挖掘算法。通过对关联规则兴趣度的度量, 在挖掘关联规则时可以避免无意义规则的产生。

参考文献

[1]Agrawal R, Imielinski T, Swami A.Mining associationrules between sets of items in Large databases.[J].Pro-ceedings of the ACM SIGMOD Conference on Manage-ment of Data.Washington D.C, 1993, :207-216.

[2]Wu Xindong, Zhang Chengqi, Zhang Shichao.Miningboth positive and negative association rules[C]//Pro-ceedings of the 19th International conference on MachineLearning (ICML-2002) .San Francisco:Morgan Kauf-mann Publishers, 2002:658-665.

[3]张梅峰, 张建伟, 张新敬.基于Apriori的有效关联规则挖掘算法的研究[J].计算机工程与应用, 2003 (19) :196-198.

[4]宋海声.关联规则增量式更新算法[J].兰州大学学报 (自然科学版) , 2004 (2) :47-50.

[5]刘渊, 吴以才.基于效益度的高效关联规则挖掘算法[J].浙江大学学报 (工学版) , vol.41 No.6 Jun.2007:909-914.

[6]史忠植.知识发觋[M].北京:清华大学出版社, 2002.

[7]Han Jiawei, Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社, 2001.

[8]李伟东, 倪志伟, 刘晓.基于兴趣度的关联规则挖掘[J].计算机技术与发展, 2007 (6) :80-82.

[9]王珊等.数据仓库技术与联机分析处理[M].科学出版社, 1998.

经典关联规则挖掘算法 篇9

关键词:数据挖掘,关联规则,Apriori算法,FP-growth算法

1 数据挖掘的产生以及应用

浩瀚的知识海洋和纷繁复杂的传媒导向使人们逐渐意识到要适应紧张、高效的工作和生活, 就必须从中提取对我们有用的、隐藏的信息, 而且还要确保信息的安全性、准确性, 以提高我们的工作效率和信息利用率。面对这种实际情况, 数据开采和知识发现 (DMKD) 技术产生了。

数据挖掘是一门基于多种学科的交叉学科, 它综合了人工智能、数据仓库、数据库技术、机器学习、统计学、计算机网络、数据组织等许多学科的基础知识与重要技术, 其中最重要的两门学科是统计学和机器学习。数据挖掘技术是人们对数据库技术进行研究、开发和使用的结果, 最初数据挖掘技术运用在商业中, 从最初简单存储、查询和访问数据到找出各数据之间的潜在关系。主要用到了以下技术:海量数据的搜集和快速访问, 强大、先进的多处理器计算机。数据挖掘逐渐从电子数据处理初期、机器学习、神经网络技术、知识工程演变为现在所熟知的数据库中的知识发现 (Knowledge discovery in database, KDD) 。

2 经典关联规则挖掘算法

关联规则挖掘在国内得到了充分的研究:自1993年R.A grawal等人提出关联规则挖掘问题以后, 众多研究学者又相继提出了较有代表性的Apriori算法, CD (Count Distribution) 算法, 采用Hash技术的DHP算法、PDM (Parallel Data Mining) 算法、Sampling抽样算法、动态项集计数算法DIC、FP-Growth算法、FUP (Fast Update) 算法、Opportune Project算法以及基于云模型的关联规则算法等。关联规则挖掘算法中, 最为经典的是Apriori算法以及FP-Growth算法, 其他大部分算法都是基于以上两种算法的改进研究。以下, 我们先来看看关联分析的概念及基本实现思想。

数据挖掘用来预测未来, 发现潜在的、有用的信息和数据, 对现有的数据资料依照算法进行处理, 得到对我们有利的信息。典型的例子就是啤酒与尿布。可以说“啤酒与尿布”的故事是数据挖掘最经典、最具特色的故事。大致的意思是:美国的沃尔玛———世界著名商业零售连锁企业, 为了准确了解顾客的购买习惯, 对顾客的购物行为进行分析, 主要是想知道顾客常常一起购买的商品组合是什么。一个意外的发现竟是, “尿布与啤酒竟然是很好的组合”。这是数据挖掘对历史数据进行分析后得出的结果, 我们获取的是潜在的价值规律。

如果事务数据库中有s%的事务记录中包含X∪Y, 那么称规则X=>Y在事务集D中具有支持度s;如果事务数据库中包含X的c%的事务记录同时也包含Y, 那么称规则X=>Y在事物数据库中具有置信度c。

2.1 Apriori算法

Apriori算法的主要思想是通过迭代的方法产生频繁项集。如今的大部分关联规则算法都是经典算法Apriori的演绎和改进。在每次迭代过程中, 主要有如下关键步骤:产生候选集, 计算支持度, 根据最小支持度阈值筛选出频繁项集。在迭代产生候选集的过程中会出现大量的冗余, 包含所有满足最小支持度阈值及不满足的记录。候选集产生后, 再次扫描数据库, 以求得候选集中各子项的支持度。最后, 所有支持度s大于最小支持度阈值的项集, 我们称之为频繁项集。

在第一次迭代获得候选项集后, Apriori算法通过去除不满足最小支持度阈值的非频繁项集减少候选项集的数量。在使用Apriori算法时, 从候选项集中产生频繁项集时需要遍历数据库, 那么如何产生最少数目的候选项集同时也具有较好的正确率, 是个十分关键的问题。联合与剪枝是候选项集产生的过程, 使用这种方式, 可以使所有的频繁项集不会遗漏也不会重复。

Apriori算法的主要进程如下:

(1) 先对数据集进行彻底的扫描, 并根据扫描结果确定各1-项集的支持度, 然后将选出的这个满足最小支持度计数minsup的项作为频繁1-项集, 记作L1。

(2) 利用频繁1-项集来生成候选2-项集C2并计算各项集的支持度, 用最小支持度进行筛选, 得出频繁2-项集。

(3) 依照此种方法, 即采用迭代的方式依次生成频繁3-项集L3、4-项集L4…一直到最后所得的项无法满足最小的支持度也无法产生频繁项集, 计算结束。

Apriori算法由于遍历数据库次数过多, 在挖掘过程中生成大量的候选集, 因此这种算法的执行效率不高。

2.2 FP-growth算法

FP-growth算法常用在大型数据库中挖掘频繁项集。FP-Growth算法是一种基于FP树并采用自下向上方式发现频繁项集的数据挖掘算法, 先对数据库进行投影, 得到一个频繁项, 然后构造压缩的数据库结构。同Apriori算法相比, 总结来说, FP-Growth算法的特性如下:

先进行扫描, 将事务记录数据扫描并映射到FP树上, 利用这种方法很大程度地减少了因对数据库多次扫描而产生的I/O时间。因此FP-Growth算法能避免生成大量候选集, 也使数据挖掘的搜索空间在很大程度上降低了。

FP树依次读入每条事务记录, 接着按照事件发生频次将事务中的各项由高到低的排列映射到FP树上的路径。设定FP树的头结点为NULL, 各树中的各分支结点记录了每个结点的频度计数, 通过建立项头表实现前缀路径。然后, 对FP树采取分而治之的挖掘方法去实现频繁项集的挖掘过程:根据项头表和FP建立的路径关系, 找出各所包含的项集组合, 完成项集支持度计数;根据最小支持度对项集组合进行筛选, 并生成频繁项集。第一次扫描数据库D, 得到如下的频繁项列表L:

L={ (a, 4) , (p, 4) , (c, 3) , (b, 3) }。频繁项集在排序时是按照支持度计数递减顺序。

接下来的过程就是创建树的根部ROOT, 第二次扫描数据库。通过对第一个事务扫描得到树的第一个分枝:{ (a, 1) , (p, 1) , (c, 1) , (b, 1) }。通过上述, 我们可以得出, 在频繁项列表L中出现的项才会被选中。在这个分枝中出现的节点计数都是1, 它们表示该节点项出现的次数。对第二个事务进行扫描, 我们发现它有相同的项a, p和c, 它和第一个分枝有相同的前缀{a, p, c}, 并扩展到新的分枝{ (a, 2) , (p, 2) , (c, 2) , (b, 1) }。若有共同的分枝, 计数分别增加1, 两个事务加入到树中后, 依次类推, 最终生成的FP树。

除了以上所提及的关联规则挖掘算法外, 国内外研究学者在算法的优化升级以及更多的利用空间上也倾注了大量的心血, 由于数据库布局的不同以及应用领域的差异产生了各种各样关联规则挖掘算法, 诸如常用的并行挖掘算法、分布式挖掘算法、流数据挖掘算法以及负模式的挖掘等。大家在应用这些算法的时候, 应根据所处的环境有针对性地去选择适用的算法来解决问题。

参考文献

[1]翁光聪.数据挖掘技术在高校人力资源管理系统中的应用[D].同济大学, 2006.

[2]R.Agrawal and R.Srikant.Fast algorithms for mining association rules[A].Proc.1994 Int’l Conf.Very Large Data Bases (VLDB’94) .

[3]任小娟.数据挖掘技术在教学中的应用[J].电脑知识与技术, 2005:211-212.

[4]Mehmed Kantardzic:DATA MINING Concepts, Models, Methods, and Algorithms[M].清华大学出版社, 2003:1-10.

关联规则论文 篇10

1 概化处理

数据挖掘的目的是从大量日常业务数据中抽取一些有价值的知识或信息。原始业务数据是知识和信息提取的源泉,对于数据挖掘十分重要。数据挖掘算法中的数据往往受噪声数据、丢失数据和不一致数据的侵扰,一般都具有不完整性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。对财务报表来说,由于每个公司季度报表推出时间不一致,在行业内的公司没有全部推出季报时进行数据挖掘分析,就存在数据不完整的现象。所以对不理想的原始数据进行有效的归纳和预处理成为数据挖掘的关键问题。

数据预处理是数据挖掘前的准备工作,一方面保证挖掘数据的正确性与有效性;另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。对财务报表预处理包括对财务报表进行数据清理与数据变换。数据清理目的是填写缺失的报表数据,数据变换是对连续的财务指标数据进行离散化,进而进行概化处理。

概化处理完成数据预处理工作,其获取行业内个股财务信息,求取行业平均值,并存入数据库,利用行业均值,对个股财务记录信息做数值型数据转化处理,生成事务表。

1.1 数据清理

对于每一项财务报表指标,求取一个行业平均水平值,所有的财务指标均值,即统计中的算数平均值,组成的报表,也在此称为行业均值报表。

对每一个行业,查询行业内上市公司财务报表中的各指标值,统计和并计算均值,构成均值报表后写入数据库保存。例如:资产负债的行业均值表,如表1。

每项均值的计算为所统计的上市公司该项财务指标值的和除于参加统计公司数,例行业的流动比率均值为:

因为上市公司的财务报表公布不同步,对于未公布数据的空缺项,用均值来补充,即假定该公司在该项取得行业均值。这样处理后,为后续的处理过程准备完整的数据。

1.2 数据概化处理

由于财务报表指标数据为数值型数据,所以首先概化处理为布尔型,以便在后续的数据挖掘中用布尔型关联规则挖掘方法进行挖掘。进行布尔型转换的第一步是将数值型数据进行概念分层,将数值型财务指标概化为三个数值区间{Ei-K==Ei+K},其中FINi为第i项财务指标,Ei为FINi的期望值,即FINi的行业均值,K为行业分析师对该指标期望值得一个评估估算值,当FINi在(Ei-K,Ei+K)时行业分析师认为该指标处于行业的平均水平。每个区间映射成一个变量,上述三个区间映射为{FINi1,FINi2,FINi3}。公司的该项FINi数值落在哪个区间,则取值为1,否则为0。财务指标数据转化规则表,如下表2。

例如:取某个行业的某季度的主营业务收入增长率,流动比率,每股收益增长率构成数据挖掘前的事务表,该数据转化规则表如表3。

该行业内上市公司该季度的这三项实际数据表,如表4。

该行业内上市公司该季度的这三项转化后的财务指标的布尔数据表,如表5。

在表中如果有多个取值一样的行,则添加一个属性统计记录相同行数,而证劵代码的属性取值较多,由数据概化中基于属性的归纳法原理可知当一个属性的属性值有许多个不同的值,且没有合适的泛化操作,应该做删除该属性处理。如表6所示。

2 关联规则挖掘

对之前做的概化处理都是为关联规则的挖掘做准备工作的,关联规则的挖掘工作将在概化处理形成的事务表上进行。将前面的布尔数据表每行中列为1的项取出组成一个事务,如表5第一行{FIN11,FIN22,FIN32},下面对数据挖掘的基础知识做简要介绍。

2.1 关联规则理论概述

定义1关联规则挖掘的数据集记为D(D一般为事务数据库D={t1,t2,t3,t4,t5,…tn},tk(k=1,2,…,n)称为事务,im(m=1,2,…,p)称为项。

定义2 I={i1,i2,i3,…,ip}是D中全体数据项组成的集合,I的任何子集X称为D中的项集,若|X|=k,称集合X为k-项集。tK和X分别为D中的事务和项集,如果X t K,称事务tK包含项集X。

定义3数据集D中包含项集X的事务数称为项集X的支持数,记为σX。项集X的支持度记为support(X),

support(X)=σX/|D|×100%(1-1)

其中,|D|是数据集D中的事务数,若support(X)不小于用户指定的最小支持度阈值minsup,则称为X为频繁项集,否则成X为非频繁项集。

对于项集和其子集在支持度上的关系有定理如下:

定理1 X、Y是数据集D中的项集

(1)X Y,则support(X)≥support(Y)

(2)X Y,如果X是频繁项集,则Y也是频繁项集

(3)X Y,如果Y是频繁项集,则X也是频繁项集

频繁项集是进行关联规则挖掘的基础,找出频繁项集后,关联规则的定义如下:

定义4若X、Y为项集,且X∩Y=ø,蕴涵式X=>Y称为关联规则,X、Y分别称为关联规则X=>Y的前提与结论。项集X∪Y的支持度称为关联规则X=>Y的支持度,记为support(X=>Y)

support(X=>Y)=support(X∪Y)(1-2)

关联规则X=>Y的置信度记为:confi dence(X=>Y)

confidence(X=>Y)=support(X∪Y)/support(X)×100%(1-3)

最小置信度阈值记为minconf。

定义5若support(X=>Y)≥minsup且confi dence(X=>Y)≥minconf,称为关联规则X=>Y为强关联规则。

上述两个定义中的X、Y项集在应用中为频繁项集的子集。所以关联规则的挖掘分为两个问题:

(1)根据minsup找出数据集D中的所以频繁项集

(2)在频繁项集的子集中找出满足minconf的子集

对于第二步在实际应用中,对于每个找出的频繁项集S,输出所有的规则a=>S–a,其中a是S的一个子集,检验confi dence(a=>S–a)≥minconf成立,则a=>S–a为强关联规则。根据定理1,若果有a的子集ã,则ã的支持度不小于a的支持度,所以confi dence(ã=>S–ã)≥minconf如果成立,则confi dence(a=>S–a)≥minconf也成立,因为confi dence(a=>S–a)大于confi dence(ã=>S–ã)。

频繁项集的寻找采用算法Apriori,Apriori使用逐层搜索的迭代算法,利用k-项集来探索(k+1)-项集。

2.2 行业财务指标的关联规则挖掘

由上节中表6某行业的某季度财务指标转化后的布尔数据统计表,来说明采用算法Apriori寻找频繁项集。设最小支持度为20%,最小置信度阈值为60%。

首先由表6得到事务集表,如表7:

最小支持度minsup=(2+2+3+4+5+2+3)×20%=4.2

(1)所有的项构成候选1-项集,如表8。

构成频繁项集支持度个数要满足大于4.2,项集中的支持度计数大于4.2的项集构成频繁1-项集,如表9。

(2)对表9频繁1-项集中的项集做连接操作得到候选2-项集,在这里有一个数据类型约束条件,即同类型属性的不同取值的连接操作是无效的,如{FIN11,FIN12},或{FIN12,FIN13},因为FIN11,FIN12,FIN13是同一个财务指标的不同取值,一个财务指标不可能有两个值,所以他们的连接是无效的。候选2-项集如表10。

提取支持度个数满足大于4.2的项集构成频繁2-项集如表11。

(3)对表11频繁2-项集中的项集做连接操作得到候选3-项集,在连接时同理要考虑到数据类型约束条件,候选3-项集如表12。

提取支持度个数满足大于4.2的项集构成频繁3-项集如表13。

(4)因为事务表项中事务最大项集个数为3,不可能有包含频繁4-项集,即频繁4-项集为空。算法停止。

根据所得频繁3-项集生成关联规则如下:

FIN12=>FIN22∪FIN32置信度为:

满足最小置信度60%要求的规则有FIN12=>FIN22∪FIN32,

根据上述项集与其子集的关联规则关系,ã为a的子集,则confi dence(ã=>S–ã)≥minconf如果成立,则confi dence(a=>S–a)≥minconf也成立。所以可知,因为FIN12=>FIN22∪FIN32能满足最小置信度,所以其超集FIN12∪FIN22,FIN12∪FIN32构成的规则:

都能满足最小置信度,所以得到上述两个满足条件的关联规则。

对于不满足最小置信度的两条规则

FIN22的超集有FIN12∪FIN22和FIN2∪FIN32,FIN32∪FIN12,这里只有FIN2∪FIN32=>FIN12未知其置信度是否满足最小置信度。

FIN22∪FIN32=>FIN12的置信度为:

该规则不满足最小置信度,舍弃。最后得到的符合条件的关联规则有:

由FIN12,FIN22,FIN32的财务指标意义来看,FIN2是主营业务收入增长率的取值,FIN22是流动比率取值,FIN32是每股收益增长率取值。

规则(1)说明了当主营业务收入增长率取得平均水平时,该行业的流动比率或每股收益增长率取值也会取得平均水平。

规则(2)说明了当主营业务收入增长率或每股收益增长率取得平均水平时,该行业的流动比率或取值也会取得平均水平。

规则(3)说明了当主营业务收入增长率或流动比率取得平均水平时,该行业的流动比率或每股收益增长率取值也会取得平均水平。

在实际应用中,因为每股收益是企业经营成果的指标,是对某个季度结束后经营结果的综合体现。而主营业务收入增长率或流动比率是反映企业财务某一方面的指标,所以规则(1)和规则(3)更有应用意义。根据挖掘出来的关联规则在查询该行业时的上市公司财务是,就可以进行有目的选择主营业务收入增长率和流动比率进行查看,从而形成该企业经营成果是否有增长的佐证。

每次将挖掘出来的关联规则进行存储进数据库,以便查询时提供给用户参考。

摘要:在一个行业的财务报表中,蕴含着行业的经营规律,找出这些规律对投资者在做财务分析时有潜在的价值。本文介绍一种运用数据挖掘理论中的关联规则挖掘算法来发现这些行业经营规律的方法,文中重点讨论了如何在财务报表数据的支持下运用关联规则算法探寻这些规律。

关键词:数据挖掘算法,关联规则,概化处理事务表,频繁项集,置信度

参考文献

[1]lan H.Witten Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques with Java Implementations.China Machine Press.2003.9,57-116.

[2]朱济生,徐全智,朱宏.概率论与数理统计[M].成都:电子科技大学出版社,1995,155-156.

[3][美]Pang-Ning Tan,Michael Steinbach.,Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2006,53-83.

关联规则论文 篇11

(1.上海海事大学商船学院,上海 201306;2.上海市教育委员会,上海 200003)

0 引言

船舶交通是与国民经济密切相关的重要交通方式,为我国经济和社会发展作出巨大贡献,然而船舶交通事故屡见不鲜.[1]对船舶交通事故进行分析,挖掘事故潜在的致因关系,对预防和控制船舶交通事故的发生具有重要的意义.

国内外学者从不同的角度对事故的影响因素进行分析.张晓辉[2]利用数据挖掘方法对水上交通基础数据进行全因素挖掘实验.刘正江等[3]利用数据挖掘对人为失误与其影响因素之间的关系进行挖掘,初步确定船舶避碰过程中人为失误与引发因素之间的对应关系.牟军敏等[4]通过对重特大恶性碰撞事故的数据挖掘,量化提取事故特征,并利用广义线性模型对船舶碰桥事故建立概率预测模型.KOKOTOS等[5]用分类树方法对航运事故进行数据挖掘,认为引入国际安全管理(International Safety Management,ISM)规则以后,人的因素导致的事故减少.梁第等[6]结合基于属性频度的约简算法和改进的值约简算法对水上交通事故典型案例进行分析,并加入相关的支持度和置信度.贾爱鹏等[7]对80份船舶碰撞事故报告进行分析,提取导致事故的人的因素,用STATISTICA统计分析软件对其进行关联规则分析.然而,上述研究中较少涉及对船舶交通事故致因关系的研究,尤其是事故致因与事故属性的关联关系研究,同时缺少对基于数据挖掘结果的事故应对策略研究.本文在分析关联规则及Apriori算法的基础上,提出船舶交通事故关联规则挖掘基本流程.以某海事局辖区范围内连续10年的船舶交通事故数据为样本,按照船舶交通事故关联规则挖掘流程,运用Apriori算法对样本数据进行挖掘.深入分析所挖掘数据的强关联规则,探讨事故致因间的潜在关系,并提出防范船舶交通事故的应对策略.

1 关联规则及Apriori算法

给定一个含有m个事务的数据库D={t1,t2,…,tm},有n个属性,这n个属性组成的项集为I={i1,i2,…,in},那么其中的每个事务 t都是一个项集,且t⊆I.设A是一个项集,当A⊆t时称“事务t包含 A”.

关联规则是形如X⇒Y的蕴含式,其中X和Y是项集,且 X⊂I,Y⊂I,X∩Y=φ,X 称为规则前项(或前件,antecedent),Y称为规则后项(或后件,consequent).

关联规则X⇒Y的支持度s是数据库中包含support(X⇒Y)的事务占全部事务的百分比,它是概率 P(X∪Y),记作 support(X⇒Y)=P(X∪Y).

关联规则X⇒Y的置信度c是包含X∪Y的事务数与包含 X的事务数的比值,它是条件概率P(Y/X),记作 confidence(X⇒Y)=P(Y/X).[8]

提升是用规则的置信度除以规则后项的支持度所得的比值;部署能力是指支持规则前项但不支持规则后项的事务占全部事务的比例.[8]

在进行关联规则挖掘前,用户预定义最小支持度阈值min_sup和最小置信度阈值min_conf.如果某个项集的s≥min_sup,则称这个项集为“频繁项”(也称“大项集”,LargeItemsets),所有的“频繁 k-项集”组成的集合通常记作 Lk.[9-10]

关联规则挖掘过程主要包括两个阶段:第一阶段从数据集中找出所有的频繁项集,均满足s≥min_sup;第二阶段由这些频繁项集产生关联规则,计算这些关联规则的置信度c,然后保留那些满足c≥min_conf的关联规则.[11]

Apriori算法是一种挖掘关联规则频繁项集的的经典算法.该算法使用逐层搜索的迭代方法,频繁k-项集用于探索频繁(k+1)-项集.首先,找出频繁1-项集的集合,记作L1;然后利用L1找频繁2-项集的集合L2,利用L2找L3,如此下去,直到不能找到频繁k-项集为止.找每个Lk需要进行一次数据库扫描.Apriori具有一个重要性质:频繁项集的所有非空子集都必须是频繁的.Apriori算法主要由连接步和剪枝步组成,在这两步中采用Apriori的性质可以提高该算法的效率.

2 船舶交通事故关联规则挖掘流程

船舶交通事故关联规则挖掘流程包括准备数据,清理数据,建立模型,产生频繁项集,产生强关联规则,分析强关联规则等,见图1.

图1 船舶交通事故关联规则挖掘流程

2.1 数据准备

选择海事事故数据库中M海事局(简称)6个辖区内的894起船舶交通事故作为关联规则挖掘的原始数据信息.

随着我国发展水平的不断提高,人民群众对于生活环境要求也在不断的提高,居住环境干净整洁已经不能够满足当前的需要。现如今我国园林绿化还比较简单,不符合时代发展潮流,所以,我国必须要提高重视程度加大投入力度来开展园林绿化活动。

2.2 数据清理

海事事故数据库中数据量较大,为方便关联规则的挖掘,可去除船名、事故具体位置等信息,并修正带有缺省值的项,最终得到进行海事事故关联规则挖掘的样本数据.

2.3 建立关联规则模型

基于船舶交通事故的致因分析,建立船舶交通事故致因关系模型,其中事故致因主要包括意外原因、自然原因、航道码头原因、交通原因、船舶货物原因、船员原因及其他人员原因等.基于事故特征分析,建立船舶交通事故属性关系模型.

以船舶交通事故后果为后项,以事故致因、事故属性为前项,建立船舶交通事故关联规则分析模型,见图2.

图2 船舶交通事故关联规则分析模型

2.4 产生频繁项集

首先产生候选集Ck,所谓候选集就是可能成为频繁项集的项目集合.然后,基于候选集Ck计算支持度并确定频繁项集Lk.

2.5 产生强关联规则

从由频繁项集产生的所有的简单关联规则中选择置信度大于用户指定最小置信度阈值的关联规则,组成强关联规则集合.

2.6 强关联规则分析

对挖掘出来的强关联规则进行分析,解释其与海事事故之间的内在联系,剖析事故致因的关联关系.

3 船舶交通事故关联规则挖掘

3.1 船舶交通事故因素网络图

以船舶事故为导向生成的船舶交通事故与事故致因、事故属性的关系的网络图见图3,考虑到节点、链接较多以及图形尺寸的限制,链接显示阈值设置为50.以船舶交通事故后果为导向生成的事故后果程度与事故致因、事故属性的关系的网络图见图4,链接显示阈值设置为30.导向网络图可直观地表达因素之间关系的强弱程度.从图3和4可知:事故原因中的船员原因和自然原因与事故关联度大,尤其是船员原因与事故关联度大;其次是货船(船舶分类1)、乡镇个体船(船舶分类2)、雾季(季节特征)与事故关联度也较大.

图3 船舶交通事故因素网络(事故为导向)

图4 船舶交通事故因素网络(事故后果为导向)

3.2 船舶交通事故强关联规则挖掘

按照船舶交通事故关联规则挖掘流程,依次完成数据准备和数据清理后,产生频繁项集和强关联规则(见表1).在本次实验中,最小支持度取10%, 最小置信度取70%.

表1 船舶交通事故强关联规则

3.3 船舶交通事故强关联规则分析

应用关联规则方法对船舶交通事故统计数据进行挖掘,不仅可以对事故致因和事故属性进行其单一因素的定量分析,还可以解决常规数理分析方法难以实现的任务,即多因素关联关系挖掘.对强关联规则挖掘的结果如下:

(1)从事故后果统计可知,轻微事故在Q辖区内发生的船舶交通事故中占主要部分.

(2)港口泊位附近水域是事故的高发水域,该水域中货船发生的事故以及由船员原因导致的事故与轻微事故关联度高.

(3)雾季是Q辖区内船舶交通事故的高发期.

(4)Q辖区的进口船、货船、乡镇个体船与轻微事故关联度高,Q辖区货船中的乡镇个体船、航行中的货船、航行中的乡镇个体船与轻微事故关联度高.Q辖区涉及船员原因的轻微事故与货船、乡镇个体船关联度高.

4 船舶交通事故防范对策

船舶交通事故关联规则挖掘以客观事故统计资料为基础,可以科学、准确地挖掘事故致因与事故属性的关联关系.基于船舶交通事故强关联规则分析的结果,客观制定针对性的防范对策.

(1)加强对Q辖区船舶交通事故的防范,针对重点水域采取针对性安全管理措施,遏制特定水域的事故多发态势.

(2)雾季是全年中的事故多发期,需重点加强防范.督促航运公司在安全管理体系中建立有效可行的雾航制度,在雾季来临前做好雾航理论知识学习、设备检查和保养;督促船舶加强雾区瞭望和值班人员配备,认真执行交接班制度,采用安全航速;提高值班人员安全意识,保证雾航安全.

(3)加强管理力度,督促港航企业及个体从业者遵守相关法律法规,规范经营;禁止不合格的航运公司和低标准船舶进入航运市场,并加快对老旧船舶的淘汰步伐,通过实施严格的船舶检验提高船检质量.重点加强对乡镇个体船的监管,从船舶管理、船检、现场检查等方面,全面提升对乡镇个体船的安全管理,尤其是对Q辖区的乡镇个体船的管理.

(4)完善水上交通安全隐患举报机制,畅通投诉举报渠道,提高群众参与水上交通安全监督的积极性和主动性.注意对执法人员的监管.

(5)加强对港航从业人员的专业技能培训,完善培训网络和培训内容,提高培训质量.普及水上交通安全法规及常识,提高水上交通安全意识.加强对执法人员的业务培训.重视船员管理和教育,加强对船员的安全技能培训,提高船员的安全知识和安全操作技能,尤其注重针对乡镇个体船船员的培训,重点提升乡镇个体船船员的职业技能和安全意识,尽可能地防止人的因素导致的船舶交通事故的发生.

5 结束语

船舶交通事故案例数据是对船舶交通事故进行致因分析的重要资料.对船舶交通事故统计数据进行数据挖掘,分析事故致因的潜在关系,是预防船舶交通事故、促进船舶交通安全的重要手段.本文提出运用关联规则方法对船舶交通事故统计数据进行挖掘,构建船舶交通事故关联规则分析模型.对多因素关联关系挖掘的实现可弥补传统数理统计方法重在对单一因素致因程度进行分析的缺陷.

采用Apriori关联规则挖掘算法,在影响船舶交通安全的海量信息中,挖掘与船舶交通事故关联度高的因素,迅速发现船舶交通安全隐患问题并及时预警,避免或减少船舶交通事故的发生.对强关联规则进行剖析,提出防范船舶交通事故的应对策略,对船舶交通主管机关、航运公司、船舶值班人员具有重要参考意义.在后期研究中,可以通过增加事故属性、设立属性权值等方式进一步完善实验,提高所挖掘出的规则的准确度.

[1]胡甚平,黄常海,张浩.基于云模型的海上交通系统风险蒙特卡罗仿真[J].中国安全科学学报,2012,22(4):20-26.

[2]张晓辉.云理论和数据挖掘在水上安全分析中的应用[D].大连:大连海事大学,2011.

[3]刘正江,吴兆麟.基于船舶碰撞事故调查报告的人的因素数据挖掘[J].中国航海,2004(2):3-8,16.

[4]牟军敏,邹早建,黄立文,等.水上交通事故模式的研究[J].武汉理工大学学报:交通科学与工程版,2005,29(3):489-492.

[5]KOKOTOS D X,LINARDATOS D S.An application of data mining tools for the study of shipping safety in restricted waters[J].Safety Sci,2011,49(2):192-197.

[6]梁第,张铭丽.Rough Set理论研究及其在水上交通事故分析的应用[J].科学技术与工程,2009,9(13):3916-3919.

[7]贾爱鹏,王胜利.基于STATISTICA的人为失误与船舶碰撞之间关系的研究[J].浙江国际海运职业技术学院学报,2011,7(4):6-8.

[8]刘红,吴四.多维关联规则数据挖掘在船舶价格影响因素分析中的应用[J].上海海事大学学报,2013,34(4):31-37.

[9]宓为建,徐子奇,刘园.大型港机结构应力峰值与小车位置关联规则的数据挖掘[J].上海海事大学学报,2006,27(3):42-46.

[10]袁建中,蔡存强,胡志武.港口国监督(PSC)决策支持算法[J].上海海事大学学报,2013,34(2):30-34.

[11]张云涛,于治楼,张化祥.关联规则中频繁项集高效挖掘的研究[J].计算机工程与应用,2011,47(3):139-141.

关联规则的衡量标准研究 篇12

挖掘了关联规则之后,如何来判断所挖掘出来的规则是否是用户感兴趣的呢?现有的关联规则挖掘算法普遍采用支持度-置信度框架[1]。支持度和置信度度量是评价关联规则的两个常用客观性指标,支持度度量反映了规则的实用性,而置信度度量反映了规则的有效性。数据挖掘系统的输出结果是那些支持度和置信度分别是大于用户指定的最小支持度和最小置信度的规则,即强关联规则。然而,有时强关联规则却不一定是用户感兴趣的。因此如何评价强关联规则,以剪切没有应用价值的规则,引起了人们的关注。有些学者在"支持度-置信度"的框架下,引入"兴趣度"修剪无用的规则,即避免生成"干扰性"的关联规则[2,3,4,5,6]。本文首先对经典的支持度-置信度框架存在的不足进行分析,然后对现有的衡量标准进行综述,并阐述各自的优缺点,最后指出关联规则衡量标准的研究方向。

2、传统框架所存在的问题

关联规则挖掘最初应用于购物篮分析,目的是想发现所有大于用户指定的最小支持度和最小置信度的关联规则。然而根据支持度和置信度框架导出的规则并不都是有趣的,有些甚至还具有一定的欺骗性。另外,基于支持度-置信度框架的数据挖掘还存在一个缺陷,就是当把支持度和置信度的值设得过低时,可能会得到2条相互矛盾的规则;如果设得过高,又可能会漏掉很多有价值的规则。为避免传统方法的不足,研究者对衡量标准做了大量改进,这方面的研究主要是设法寻找置信度度量的替代物和扩展原有的固定支持度阈值限制的客观评价方法的改进。然后将各种新的规则评价标准加入到挖掘算法中,对关联规则的产生加以限制和约束,以得到更加新颖、更加有效的关联规则。下面分别介绍这些衡量标准的优缺点。

3、衡量标准的相关研究

衡量标准表示用户对规则关注程度的度量,是用户对挖掘出的知识的新颖性、可用性和可理解性的综合考虑。

3.1 相关度

计算关联规则感兴趣程度,常见的方法是分析规则的相关度[1],用相关度来表示兴趣度,其中相关度越高的规则,其兴趣度也就越高。相关度 (correlativity) 定义为:

规则A圯B的相关度描述了项目集A对项目集B的影响力的大小,当相关度等于1时,表明A对B没有影响,即A和B是独立的,称该规则为不相关规则;小于1时,表明A的出现降低了B出现的可能性,称该规则为负相关规则,说明对其反面规则感兴趣;大于1时,表明A的出现会增加B出现的可能性,称该规则为正相关规则。

优点:通过对相关度的分析,能有效地过滤掉误导的强关联规则。从概率的角度展现规则的前件和后件的独立性、相关性。它的定义比较简洁。

缺点: (1) 但没有考虑规则后件的概率,对前后件互换的一对关联规则,在兴趣度上未能区分。

(2) 容易过滤掉由出现频率高的项目集构成的规则。

(3) 相关度的取值范围不够规范,corr (A, B) 的一个缺点是取值在临界值1两侧不对称,而且取值范围不确定 (随频繁项的不同而不同) ,这对于合理的设置门限值造成了困难。为了有效地修正相关度的这个问题,文献[[2,3]]引入了有效度这个定量评价指标。其定义为:

有效度就是把corr (A, B) 加以改造,将其值映射到[-1, 1]区间上了。当crit (A, B) ∈[-1, 0) 时,A和B负相关;当crit (A, B) ∈ (0, 1]时,A和B正相关;当crit (A, B) =0时A和B相互独立。

3.2 兴趣度

文献[4,5,6]提出了一种兴趣度模型,用以指导关联规则的发现。兴趣度的定义为:

取值范围是[-1, 1],Int (A, B) <0时A与B负相关,In (A, B) =0时A与B独立,Int (A, B) >0时A与B正相关。

优点:该兴趣度的定义把规则的支持度与信任度联系起来,很好地反映了Y在X影响下发生的概率与自身发生的概率的差异,以此判断规则是否有意义。并且该定义对于由同一项集{A, B}挖掘不同规则 (A圯B和B圯A) 赋予不同的兴趣度,更符合实际。

缺点: (1) 兴趣度计算结果不对称。由兴趣度的定义来看,其取值范围是[-1, 1-P (B) ],取值为0时A, B互相独立。作为一个取值以0为中心的对称公式,如是其下限为-1,其上限就为+1。而兴趣度不具备这样的性质,故计算结果是不对称的。

(2) 得到的两个项集的相关程度大小可能相悖。

针对以上问题,文献[7]给出了提升率的概念对兴趣度进行修正。

3.3 提升率[7]

在提升率的定义中引入,即可保证其对称性和完备性,其物理意义也更加明确。提升率的定义如下:

取值范围是[0, ∞],Up (A, B) <1时A与B负相关,Up (A, B) =1时A与B独立,Up (A, B) >1时A与B正相关。

提升率计算结果的物理意义可以理解为由于A的出现导致B出现的概率的提高倍数。例如,若Up (A, B) =2,表示A出现时B出现的概率为A不出现时B出现的概率的2倍;若Up (A, B) =0.6,则表示A出现时B出现的概率为A不出现时B出现的概率的60%。文献中还对提升率进行标准化,将其取值映射到[-1, 1]区间上了。提升率的不足是:当使用低支持度阈值挖掘时,得到的两个项集的正负相关性可能相悖。

4、结论

本文对关联规则的衡量标准进行了研究。各种衡量标准旨在克服支持度-置信度框架的缺陷,各有优缺点。怎样找到一种综合有效的衡量标准,对这些方法克服其缺点,利用其优点,是以后我们研究的重点。

摘要:传统的关联规则有趣性大多是基于支持度和置信度的衡量标准。本文首先对经典的支持度-置信度框架存在的不足进行了分析, 然后对现有的衡量标准进行了综述, 并阐述了各自的优缺点, 最后指出了关联规则衡量标准的研究方向。

关键词:关联规则,负关联规则,衡量标准,相关度

参考文献

[1]Dunham M H.数据挖掘教程[M].郭崇慧, 译.北京:清华大学出版社, 2000.

[2]赵亮, 萧德云, 刘震涛.一种用于挖掘正负关联规则的可量化标准[J].计算机工程, 2007, 33 (2) :56-58.

[3]郑尚志, 梁宝华, 赵小龙, 蔡敏.正负关联规则量化方法[J].计算机工程, 2009, 35 (15) :74-78.

[4]周欣, 沙朝锋, 朱扬勇, 等.兴趣度--关联规则的又一个阈值[J].计算机研究与发展, 2000, 37 (5) :627-633.

[5]张玉芳, 熊忠阳, 彭燕, 刘君.基于兴趣度含正负项目的关联规则挖掘方法[J].电子科技大学学报, 2010, 39 (3) :407-411.

[6]周皓峰, 朱扬勇, 施伯乐.一个基于兴趣度的关联规则的采掘算法[J].计算机研究与发展, 2002, 39 (4) :450-457.

上一篇:高校辅导员的职责研究下一篇:时尚买手