关联规则中算法论文

2024-05-26

关联规则中算法论文(精选10篇)

关联规则中算法论文 篇1

教学评价是教学活动不可缺少的一个基本环节,它是了解教学状况、评价教学效果的有效手段之一;更是教师确定教学目标,选取教学方法、手段,把握教学重、难点,掌握学生学习状况,调整教学策略,改进教学措施,解决存在问题的有效途径;同时,也是教务管理部门考核师资业绩、调配师资资源、完善课程体系的重要依据。

如何有效的分析、使用教学评价的大量数据,从而获取有用信息,真正实现、达到评价的目的?这是一个很有应用价值的课题。本文借助数据挖掘中关联规则的算法,尝试找出一种分析教学评价数据的有效方法和途径。

1 关联规则的概念、特点及Apriori算法

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

关联规则作为数据挖掘的一个重要研究分支,其主要目的是从大量的数据中挖掘出有价值描述数据项之间相互联系,即关联规则。数据主要根据以下两个标准进行关联。

最小支持度——表示规则中的所有项在事务中出现的频度

最小可信度——表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度

关联规则的发现可以分成两个步骤:首先发现所有频繁项集(满足最小支持度的项集),再由频繁项集生成关联规则(保留满足最小可信度的规则),然后用这些频繁项集生成强关联规则。

Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。它的基本思想是利用一个层次顺序搜索的迭代方法来生成频繁项集,即利用K项集来生成(K+1)项集,用候选项集Ck找频繁项集Lk。这个方法要求多次扫描数据库,同时产生大量的候选集,系统的开销、负载相当大,效率就非常低。

使用Apriori算法,对教学评价数据进行分析

本文以惠山中专期中评教的原始记录作为挖掘的数据集,根据关联规则的数据挖掘过程,按照以下五个步骤来对数据进行分析,以期望发现教师个人因素与教学测评结果之间的内在关系。

数据的准备

只有准备了有效的数据,才能从根本上保证原始数据的真实性、严谨性,保证数据挖掘的实际效果。挖掘教学效果与教师特征的内在联系,所需数据主要是从教师基本信息数据库和学生评教结果记录数据库中获得。

2)数据的集成和清洗

先对这两个数据库中的数据进行简单的集成,再对数据进行仔细检查和清理,补齐丢失、遗漏的属性,去掉重复冗余的数据记录和属性,保留有效的属性,结果如表1。

3) 数据的转换和并归

数据的转换和并归,是指对数据进行一定的处理,从而构造出一个适合数据挖掘的描述形式。

将职称属性进行泛化处理如表2。

对年龄进行离散化处理,转换为年龄段区间。即AGE<30, 30

对得分进行离散化处理,转换为得分区间等级。即SCORE>4.5,优秀;SCORE>4,良好;SCORE>3.5,中等;SCORE>3,合格;SCORE<3, 不合格。

4)关联规则挖掘

下面分析学历与评价结果之间的关系:假设最小支持度为0.2最小置信度为:0.3

关联规则置信度

[学历=硕士]à[总评成绩=优]0.8

[学历=本科]à[总评成绩=中]0.667

下面分析年龄与评价结果之间的关系:设最小支持度为0.1,最小置信度为:0.3

关联规则置信度

[年龄∈ (>=35) ]à[总评成绩=优]0.750

[年龄∈[30, 35) ]à[总评成绩=中]0.667

[年龄∈ (<=30) ]à[总评成绩=良]0.400

5)表示和使用结果

计算结果可以用交叉表或条型图的形式表示, 也可以用饼分图等表示。

根据数据挖掘的结果,学历与得分存在着较高的关联性,为了提高学校整体的教学水平,引进高学历人才是一项快捷的、有效的解决措施;得分高的教龄段则说明该教龄段教师的教学经验越丰富、授课方法适合学生、受学生的肯定程度较高,教务管理部门可以依据这一结果有针对性地制定青年教师培养机制,利用“传、帮、带”的方式,“传”即授之以渔,“帮”即助之以需,“带”即率之以行,使年青教师在老教师的言传身教的影响下,不断积累教学经验,提高教学质量。

3 结束语

通过以上五个环节的数据处理,我们能充分利用评价所得的数据,较好的发挥教学评价对教学的调节、控制、指导和推动作用,有效的提高教学质量。同样基于关联规则的数据挖掘方法还可用于挖掘其它类型的教学评价, 如教学督导组对教师的评价, 同行、专家对教师的评价等。另外, 对于不同类型、不同层次的学校, 这种数据挖掘方法也基本能适用, 因此, 数据挖掘技术的使用能够充分挖掘教学评价数据的价值是提高学校教学管理水平和教学质量的有益探索方法。

参考文献

[1]魏红.我国高校教师教学评价发展的回顾与展望[J].高等师范教育研究, 2001, 13 (3) .

[2]魏红, 胡祖莹.影响学生评价教师教学效果的因素分析[J].中国高等教育评估.1994 (1) .

[3]宋映泉, 田勇强.评价课程还是评价教师——关于影响学生评教结果的若干因素的实证研究[J].中国高等教育评估, 2000 (3) .

[4]吕锋华.数据挖掘处理在教学中的应用[J].金华职业技术学院学报, 2003 (3) .

[5]马希荣, 孙华.数据挖掘技术在教学评价中的应用[J].计算机工程与应用, 2003 (19) .

关联规则中算法论文 篇2

利用遗传算法的优化搜索能力获得描述飞行状态知识的`产生式表达,并在此基础上提出了一种知识维护的算法,为专家系统中知识库的自动建立及维护提供了一种可行的方法,该算法在实践中有较好的应用前景并已在飞行动作的知识发现方面获得了成功的验证.

作 者:胡飞 徐浩军 曹登高 HU Fei XU Hao-jun CAO Deng-gao  作者单位:空军工程大学工程学院,西安,710038 刊 名:电光与控制  ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL 年,卷(期):2006 13(3) 分类号:V249 关键词:知识发现   遗传算法   飞行动作  

★ 编写寓言故事300字

★ 高中生编写寓言故事

★ 编写可行性报告

★ 编写一个寓言故事

★ 怎样编写个人简历

★ 命题故事编写范文

★ 教案编写如何创新

★ 编写童话故事作文

★ 小学教学计划如何编写

关联规则挖掘算法的研究与应用 篇3

关键词:数据库;频集算法;关联规则;算法优化;并行规则

中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2014) 18-0000-01

一、关联规则简介

(一)产生与含义

关联规则的定义顾名思义,于万事万物中存在千丝万缕的关系。就如同我们所常说的蝴蝶挥翅效应一样。虽然有些事物看起来不存在必然的关联,但是由于某个事物的某种行为就会因为不断的关联而最终影响到那个看起来不关联的事物。关联规则在20世纪90年代,在研究不同商品在顾客购买时如何让顾客购买的商品更加便于管理便于数据应用进行了研究,从而提出了“关联规则”这个概念。也正因为如此,关联规则被迅速应用于超市物品购买和电子商务数据挖掘中。針对关联规则,优化关联规则从而达到数据高效挖掘管理的目的,产生了多种算法。比如Apriori算法、partition算法等等。

(二)典型算法定义与介绍

关联规则中最经典出现时间较早的算法莫过于Apriori算法、后期很多优化算法都是针对于原算法的改进。

算法大多数都是由一些数学的公式和表述方法来表示的,这样的做法主要是因为这种方式的表达更加严谨,经得住推敲。但是这种复杂的公式并不是利于人们理解的。这里以思想模式让大家了解Apriori算法。思想模式:从管理角度讲,在不断出现的各个数据中,最重要的当然是出现频率,或者简单说出现次数、管理次数最多的那个数据项。因为对这个数据项需要大量的操作,实现它的高效管理,就让数据挖掘管理更加科学更加方便。然后通过这个数据项,采用数学方法中的迭代算法,以层为概念进行搜索操作,找出与最多项频繁项的关联集合。不断的执行层面的迭代,建造多个频繁集合。这就是算法的作用。但是我们会发现,在不断的探索关联关系时候,数据项总会有某些关联。但是关联关系太远的,并不是我们提升效率的需要,也不是提升数据管理的方法,所以我们要根据一些要求与规则,去除一些关联集合,这个过程被形象的比喻成“剪枝”。就好像为了获得最美最能茁壮成长的植物,我们需要剪去一些不好的枝叶一样。至于数据定义的公式,数学方法表示,在各种参考资料中都可以方便的找到,这里就不再赘述。

二、关联规则数据挖掘

对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层次上发现一些强关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

三、此算法的应用方向与未来发展

(一)应用方向

从定义而来,我们都可预期关联算法的挖掘算法主要应用于电子商务、数据管理。所以针对方向从计算机角度来讲当然是数据库技术。对于商业购买(尤其是超市)具有重大作用,利用关联数据分析我们就知道了顾客最喜欢哪些商品,哪些商品是购买最多的、哪些商品销售是稳定的、哪些商品的销售不尽如人意。所以可以根据这些数据信息,可以对货品的进货频率、商品价格的提升与下降、某段时间段需要刺激客户的购买欲望等做出合理的评价与操作。同时目前比较流行的商业概念,交叉销售方法,也需要使用到关联规则挖掘算法。就是在销售给用户一种商品的时候,利用数据来分析顾客可能需要的其它商品,将这些商品合理的推荐给用户,增加销售量达到销售目的的过程。商业应用方向以为,这种数据库的分析方法还适合用于金融角度,如股票、期货等升降的趋势预测。用于医疗器材中,比如疾病基因预测。当然在其它行业如保险、通信、建筑等领域也有一定的应用空间。

(二)算法优化发展方向

挖掘算法效率的提高随着数据库尺寸的不断增大,不仅增大了采掘算法的搜索空间,而且也增加了盲目发现的可能。因此我们必须利用领域知识去提取与我们发现任务有关的数据,删除无用的数据,有效降低问题的维数,设计出更加有效的采掘算法。在这方面,基于约束的关联规则采掘具有广阔的前途。另外,数据库可能经常频繁的更新,一旦有新的数据集添加到旧的数据库后,原来的强关联规则可能不再是强关联规则了,而原来的弱关联规则也可能会变为强关联规则。所以,对数据库需要经常挖掘最新的关联规则,这时可以将现有的挖掘算法如Apriori重新运行来得到新的关联规则。这种方法虽然简单,但是有明显不足,因为在原有数据库中发现到的频繁项目集都被浪费掉了,所有的频繁项目集必须重新开始计算。因此有必要研究针对数据库变化时的挖掘算法。在这方面增量式更新算法大有前途。可视化采掘目前的关联规则挖掘过程一般是在用户规定最小支持度和最小置信度等参数之后,通过扫描数据库找出所有的频繁项目集生成关联规则最后将挖掘出的关联规则提交给用户。由于频繁项目集的寻找比较费时,用户在指定这些参数后等待较长时间才能获得挖掘结果。如果用户对所得到的挖掘结果不满意,则需要修改最小支持度、最小置信度等参数,并再次运行挖掘算法。用户要得到满意的结果可能需要多次反复上述的过程。虽然上述过程可以优化,但仍然难以达到理想的效果。增强关联规则挖掘算法与用户的交互性可以减小算法的搜索空间,提高挖掘效率挖掘出满足用户需求的关联规则。因此设计出灵活方便的交互用户界面并对所挖掘的结果进行很好的可视化表示,使非领域专家也能够挖掘是一个广阔的发展方向。

参考文献:

[1]何月顺,杜萍,丁秋林.基于数据挖掘思想的故障模式分析[J].计算机应用研究,2005(11).

[2]何月顺,丁秋林.计算机半结构化数据源的数据挖掘技术研究[J].哈尔滨工业大学学报,2005(10).

[3]彭仪普,熊拥军.关联规则挖掘AprioriTid算法的改进[J].计算机应用,2005(05).

[4]何月顺,汤彬,丁秋林.基于Web的数据挖掘技术的应用研究[J].计算机系统应用,2005(05).

[5]何月顺,刘光萍,丁秋林.XML与面向Web的数据挖掘技术的应用研究[J].江西农业大学学报,2004(06).

[6]马水山,王志旺,张漫.基于关联规则挖掘的滑坡监测资料分析[J].长江科学院院报,2004(05).

[作者简介]马峰柏(1983.09-),男 ,黑龙江人,黑龙江农业职业技术学院,教研室主任,讲师,硕士研究生,研究方向:网络、软件方向。

关联规则中算法论文 篇4

关键词:数据挖掘,Apriori算法,关联规则,高等数学,考试

从高等教育发展的综合性和终身性趋势来讲, 高等数学不仅是学生学习相关课程的基础, 也是培养学生理性思维的一个重要载体, 更是学生终身接受学习的基础, 数学已不仅仅是一门独立的数学学科, 更是成为现代科学和社会发展的一个极其重要的科学思想[1]。高等数学的重要性是不言而喻的, 一个适应知识经济时代发展要求的高素质的人才必须是文理并蓄的全面发展的人才。通过数学方法的培养和训练, 能够使学生的逻辑推理和抽象思维能力得到明显提高。因此在高等教育中加强数学素质教育是十分必要的[2], 正因数如此, 各高校中不管是理式工科专业还是文科专业, 都广泛地开设了高等数学课程。

近几年来, 随着高等院校扩大招生, 不同学业水平的学生大量涌入大学, 使得高等数学学习困难的学生更是越来越多, 这门课的补考率在各个高校中更是名列前茅[3], 以致于很多学生提到高等数学就害怕。学生普遍反应高等教学内容太抽象, 难以理, 因为听不懂、不会做题, 从而对高等数学不感兴趣, 这种现象迟迟没有改善, 高等数学已经教学成为了各高校非常头疼的一个问题。

为了提高学生学习高等数学的积极性, 教师和管理人员希望通过考试来了解学生的学习状况和学习质量, 进而改进教学方法, 考试主要的作用就是对考生在某一阶段学习的数学知识的一个检验。但是由于考生的人数多, 试卷中的题目繁杂, 就产生了大量的数据, 大量的数据对教师进行数据分析造成了很多麻烦, 他们很难以从中获得隐藏的信息, 教师们基本上是通过直观的判断, 同时使用一些简单的数理统计知识进行决策, 但这样做一方面缺少理论依据, 另一方面得取的结论也不尽人如意, 因此利用数据挖掘技术对高等数学考试中海量的数据进行分析处理, 挖掘其内含的、未知的却又实际存在的数据关系, 才能了解学生的对高等数学知识的掌握程度, 才能促进教师的教学, 以提高教学质量。

1 关联规则及Apriori算法

数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等, 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;其次发现的是用户感兴趣的知识;更重要的是发现的知识要可接受、可理解、可运用[4]。

数据挖掘的分类方式很多, 根据数据挖掘的任务分为如下几种:分类或预测模型数据挖掘、数据总结、数据频繁类分析、关联规则分析、序列模式发现、依赖关系或依赖模型发现、异常趋势发现等;根据数据挖掘的对象有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产数据库、以及Web数据源等。关联规则分析是使用最频繁的一种行之有效的方法。

如果一个事务中含有X, 则该事务中很可能含有Y, 具体形式为{X}→{Y}, 这就是关联规则。关联规则的挖掘问题可形式化描述如下:设I={i1, i2, i3, …im}是m个不同的项目的集合, 给定一个事务数据库D, 其中的每一个事务T是I中一组项目的集合, 即T∈I, T有唯一的标识符TID。关联规则是形如X→Y的蕴含式, 其中X∈I, Y∈I, X∩Y=Φ, 关联规则成立的条件是:

1) 它具有支持度S, 其中D中至少有S%事务事务包含X∪Y, 即Support (X→Y) =P (X∪Y) ;

2) 它具有置信度C, 也就是在D所包含X的事务中至少有C%的事务同时也包含Y, 即Confidence (X→Y) =P (Y|X) 。

关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足最小支持度和最小置信度的关联规则 (置信度表示规则的强度, 支持度表示在规则中出现的频度) 。在关联规则挖掘中, Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法[5]。该关联规则在分类上属于单维、单层、布尔关联规则, 所有支持度大于最小支持度的项集称为频繁项集, 简称频集, 具体算法如下:

上面算法中函数apriori_gen是产生候选集, 并剪枝, 具体算法下:

在函数apriori_gen中用到了函数has_infrequent_subset, 其功能是判断是否非频繁候选项, 具体算法下:

Apriori算法广泛应用于各种领域, 通过对数据的关联性进行了分析和挖掘, 挖掘出的这些信息在决策制定过程中具有重要的参考价值。

2 改进的Apriori算法

通过分析Apriori算法, 发现其可能产生大量的候选集, 同时需要重复扫描数据库, 从而造成工作量大, 效率低, 这是Apriori算法的不足之处。进一步分析研究Apriori算法得知, 该算法的结束标志是当经过最后一次连接后, 不再产生新的候选项集。因此寻找候选项集可以从事务数据库中项数最多的事务开始, 将其对应的项集作为候选项集, 于是我们得到改进的Apriori算法, 改进的Apriori算法具体如下:

在同的最小支持度和数据库的条件下, 修正后的算法得到的结果与Apriori算法得到的结果是相同的, 在执行时间上, 修正后的算法比Apriori算法小一个数量级[6]。在最小支持度一定的条件下, 随着数据量增大, 改进后算法的效率高于Apriori算法越明显, 因此, 改进后的算法优势明显高于Apriori算法。

3 修正Apriori算法在高等数学考试中的应用

我校每学期参加高等数学考试的学生有2000多人, 我们从理工科类高等数学A上学期的高等数学成绩作为研究对象, 试卷共780份, 随机抽取150份进行分析。试题共分四大题, 总分为100分, 其中第1大题为判断题, 标记为La, 共12分;第二大题为选择题, 标记为Lb, 共12分;第三大题为填空题, 标记为Lc, 共12分, 第四大题为计算题, 共8小题, 每题8分, 分别标记为L13, L14, L15, …, L19, L20, 共64分, 150个学生分别标记为U1, U2, U3, …, U150, 我们先整理数据, 在二维关系数据表中, 各考生每道计算题的得分情况如表1所示:

利用关联规则中的Apriori算法, 数据的输入为考生考试数据汇总表及最小支持度;输出为频繁项集, 我们先得到单项置信度数据表, 如表2所示:

为了使研究更合理, 我们根据经验, 每小题得分超过该题分值的70%表示为通过 (即做对) , 同时设定最小置信度为25%, 进一步得到多项统计表, 如表3所示:

我们用关联规则改进的Apriori算法挖掘出频繁项集进行分析, 以找出教师感兴趣的模式和规则, 根据给定的最小置信度min_conf求出强关联规则, 得到表4的计算结果, 表中给定了min_sup和min_conf情况, 为了强调关联规则, 我们用小写l字母替代上面的大写L字母, 表明学生高等数学考试中试卷各题得分情况的关联性。

根据知识点与题号之间的关联关系, 我们得到了教师感兴趣的关联规则, 例如:最小支持度min_sup=40%, 最小置信度min_conf=90%, 表示在全部考生事务中, 有40%的考生第13道计算题和选择题做对;如果第13道计算题做对, 那么选择题做对的可能性有90%, 更进一步, 第13道计算题的知识点或相关内容掌握好, 那么选择题的所对应的知识点或相关内容掌握情况就会比较理想, 可以得出这几道题之间在知识点上具有较强的关联关系。

4 结论

在本次高等数学考试中, 判断题, 选择题, 填空题是对微分、积分、极限基础知识的检测, 计算题第13, 14, 15, 16题是为了检测学生对微分知识的运用能力, 计算题第17, 18, 19题是为了检测学生对积分知识的运用能力, 计算题第20题是为了检测学生对极限知识的综合运用能力。

从单项统计表中, 得知判断题, 选择题和填空题得分率比较高, 从中可以说明考生对这阶段所学到的知识点基础比较扎实。在计算题中第18, 19, 20题得分率很低, 小于百分之20%, 也就是说150名考生中做对的不超过30人。第17题的得分率也只有29%。由于第17, 18, 19题是有关于积分知识的运用, 第20题是有关于极限知识的运用, 从表中结论得出考生对积分知识和极限知识只有初步的了解, 但缺乏深度的运用。

从多项统计表可以看出, 判断题, 选择题, 填空题与计算题第13题的关联度最强, 由此可以表明考生对微分知识掌握的最好。

数据中最小支持度min_sup=40%, 最小置信度min_conf=80%时, 计算题第13题和第15题最对的可能性有40%;当考生第15题做对的同时第13题也最对的可能性有80%。从单项统计表中可以看出, 第18、19、20题考生得分率很低, 说明这些试题对于学生较难, 教师可适当调整难度, 从而降低学生补考率。

从多项统计表与强关联规则表可以看出, 第13, 15题考生得分率较高, 而且关联度在90%以上, 又因为13, 15题都是关于微分知识的题目, 由此可以得出题目内容可能重复的现象, 教师可适当进行删减, 这梓更有利于教师了解学生掌握知识的程度。

参考文献

[1]田家伦.浅议文科专业中的高等数学教育[J].曲靖师专学报, 2000 (11) :62-63.

[2]赵乃虎, 高书敏.对大学生高等数学学习困难的思考[J].西安航空技术高等专科学校学报, 2004 (5) :62-63.

[3]黄永平, 王健.Web数据挖掘在高校教务考试中的应用[J].现代电子技术, 2009 (6) :68-69.

[4]刘美玲, 李熹, 李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计, 2010 (3) :83-84.

[5]刘林东, 曾小宁.Apriori算法在网上考试系统中的应用[J].广东教育学院学报, 2005 (5) :104-105.

关联规则中算法论文 篇5

(上海海事大学 交通运输学院,上海 201306)

0 引 言

研究船舶价格的影响因素、掌握船价波动规律对航运企业的船队更新和船舶投资有重要的理论和现实意义.对船舶价格的研究,国外起步较早[1-5],我国近年来也取得一些可喜的研究成果[6-9].BEENSTOCK[1]首次提出利用传统的供需理论对船舶市场进行分析并不适用,并基于资本组合理论构造相应的模型.随后BEENSTOCK等[2]扩展上述研究,提出运价市场与船舶市场相互关联的理论模型,对世界干散货市场与油船市场分别进行预测.KAVUSSANOS[3]和TSOLAKIS等[4]分别对干散货市场和油船市场的动态性和二手散货船价格采用时间序列模型、非理论自回归条件异变模型及计量经济模型进行研究.LUN等[5]针对贸易、航运与船舶市场建立经验模型,指出船价与运价有直接相关性,而与船队规模和贸易没有直接相关性.李升江[6]认为影响新造船价格的因素主要包括:船用钢板价格、手持订单量、成交量、完工量、拆解量、航运指数、海运量、世界宏观环境、国家宏观政策等,研究结果显示:综合考虑影响供需变化的手持订单量和影响造船成本的船用钢板价格能够较好地反映船价的变化.蔡立明[7]基于计量经济学理论对新造油船和散货船价格进行研究,指出影响新造船价格的主要因素有:与资产定价法相关的变量,即二手船价格、期租费率;与基于成本法相关的.变量,即造船成本、汇率;与供应-需求法相关的变量,即供应量占船队的比例、造船厂生产量.王建华等[8]研究巴拿马型船舶航运市场的期租水平与其他相关市场的相互影响.朱墨等[9]则运用双对数回归模型研究新造好望角型散货船价格的影响因素,结果表明:二手船价格、新造船成本以及手持订单量与船队规模的比值对新造船价格影响显著.以上文献对船价影响因素的研究,从单一的新造船市场、航运市场入手分析的较多,从综合新造船市场、二手船市场及拆船市场入手研究船价之间相互联系的较少.

数据挖掘中的多维关联规则相对于数理统计方法更适用于船价诱因的分析.关联规则的概念首先由AGRAWAL等[10]提出.BHANDARI[11]采用数据挖掘技术对NBA数据进行处理,成功挖掘出有价值的商业情报.寇宇[12]利用关联规则数据挖掘对电信客户数据进行分析.王宏雁等[13]将多层多维关联规则应用在交通事故的研究中.郑滨等[14]、宓为建等[15]及甘辉兵等[16]分别将数据挖掘技术应用于海事人为失误致因分析、港口机械结构应力分析及船舶机舱监控系统中.本文尝试运用多维关联规则的数据挖掘技术,对1980—2011年的二手船价格、新造船价格、拆船价格等数据进行深度挖掘,分析3种市场下船舶价格影响因素间的内在联系.

1 多维关联规则数据挖掘理论

1.1 关联规则的含义

关联规则[10]的实质是分析数据项集在事务集合中出现的频度关系,一般定义如下:设I={i1,i2,…,im}是一项目集,D是一事务数据库,其中每个事务T⊆I.每个事务都有一个标志符,称之为TID.若A是一项目集,当且仅当A⊆T时,称事务T包含A.一条关联规则就是形如A⟹B的蕴含关系,其中A⊂I,B⊂I且A∩B=φ.简单地说,数据挖掘中的关联规则技术能推导出一种A⟹B的模式,即当A事件发生时,B事件会伴随发生,称为一种A与B的关联关系.

1.2 多维关联规则

单维关联规则只涉及数据的一个维度(蕴含式中的每个不同的谓词都称作维).如对某商场的事务数据库,buys(X,“IBM desktop computer”) ⟹buys(X,“Sony printer”),表示客户购买IBM笔记本电脑与购买Sony打印机之间的关系,只涉及客户X的一个维度,若引进新的谓词age和occupation,并使用age(X,“20,…,29”)^occupation(X,“student”) ⟹buys(X,“laptop”)(其中X是变量,其后跟的引号部分内容为其值,含义为年龄在20至29岁的学生倾向于买笔记本电脑),则涉及客户的多个维度,即为多维关联规则.

1.3 支持度和置信度

关联规则设定两项约束,最小支持度(Minsup)和最小可信度(Minconf).

对于A⊆I,如果D中包含A的事务数为s,则称s为A的支持度.若用S(A)表示A的支持度,则S(A)=s.

关联规则A⟹B在D中具有大小为s的支持度,定义为事物集中包含A和B的事物数与所有事物数之比,记为S(A⟹B),S(A⟹B)=S(A∪B)=P(A∪B).

关联规则A⟹B在事物集中的置信度(Confidence)指包含A和B的事物数与包含A的事物数之比.如果D中支持项集A的事务中有C%的事务同时也支持项集B,则称关联规则A⟹B在事务数据库D中具有大小为C的置信度,记为C(A⟹B),C(A⟹B)=P(B|A)=S(A∪B)/S(A).

关联规则的挖掘就是发现数据库中支持度和可信度大于最小支持度和最小可信度的全部规则.

2 船舶价格多维数据模型的建立

以Clarksons发布的1980—2011年数据为基础,分别建立新造船价格、二手船价格、拆船价格及船舶市场综合价格多维数据模型.

2.1 船舶价格综合数据属性的定义

价格属性指一条船舶价格记录所包含的基本信息以及影响价格的主要因素,这些属性可以通过定性和定量分析得出.

2.1.1 新造船价格属性

考虑到新造船市场、二手船市场和拆船市场数据的可得性及一致性,选择世界GDP、海运贸易量、运价(或期租费率)、主要造船国汇率、世界钢材价格、船型、载质量和船舶价格因素,对1980—2011年的上述属性数据进行相关性检验,结果显示:在上述影响因素中,世界GDP与新造船价格的相关性最弱,海运贸易量、钢材价格和运价与新造船价格有强相关性,说明世界GDP的变化对新造船价格的影响不如海运贸易量明显;汇率与新造船价格呈负相关性,说明汇率对船价有反作用.因此,新造船价格属性定义为:世界海运贸易量、运价(或期租费率)、钢材价格、船型、载质量、新造船价格和汇率.

2.1.2 二手船价格属性

影响二手船价格的主要因素:从船舶自身看有船龄、船舶设备、技术性能;从二手船市场看主要有GDP、世界海运贸易量、运价、新造船价格等.选取GDP、世界海运贸易量、运价、船型、船龄、载质量、新造船价格、二手船价格等8种可量化因素,对1980—2011年数据进行相关性检验,结果显示:GDP与二手船价格弱相关,应剔除;世界海运贸易量、运价和新造船价格与二手船价格有强相关性.因此,二手船价格属性可定义为:船型、船龄、载质量、世界海运贸易量、运价、新造船价格和二手船价格.

2.1.3 拆船价格属性

与二手船一样,拆船价格主要受船舶自身状况及外部市场两大因素影响.船舶自身状况包括船舶种类及其老旧程度、船舶技术状态等;外部市场包括船舶市场拆船数量、钢铁行业对拆船钢铁的需求、航运市场需求状况(如运价)等因素.因此,从定性角度分析选取GDP、世界海运贸易量、运价、船型、船龄、拆船价格和钢材价格因素作为拆船价格属性,对1980—2011年数据进行相关性检验,结果显示:GDP与拆船价格呈弱相关性,其他属性均与拆船价格呈强相关性.因此,建模时拆船价格属性选为:船型、船龄、运价、钢材价格、世界海运贸易量和拆船价格.

2.1.4 船舶价格综合数据属性

将船舶市场看成一个包含二手船市场、新造船市场以及拆船市场的综合船舶价格系统.船舶价格综合数据模型的属性选取主要考虑3种船舶价格影响因素的共性.从宏观市场看,运价和世界海运贸易量这2个属性对3种船舶市场的船价都有影响,钢材价格属性对新造船价格和拆船价格都有一定的影响.从船舶自身情况看,3种船舶市场的船舶价格都受船型属性影响,载货量属性对新造船价格和二手船价格都有影响,船龄属性也与二手船价格和拆船价格息息相关.因此,船舶价格综合数据模型的属性选取为:船型、船龄、载质量、世界海运贸易量、运价、钢材价格、拆船价格、新造船价格和二手船价格.

2.2 新造船、二手船、拆船及船舶综合市场价格多维数据模型的建立

2.2.1 概念分层

多维模型中的概念分层定义一个映射序列,将低层概念映射到高层概念上,这样,数据挖掘系统在多个抽象层挖掘关联规则,且容易在不同的抽象空间转换.

概念分层通常采用概念层次树方法.概念层次树是数据库中各属性值及其概念依据抽象程度不同而构成的层次结构.新造船价格属性PONB(Property Of NewBuilding Ship Price)、二手船价格属性POSH(Property Of SecondHand Ship Price)、拆船价格属性POSC(Property Of SCrap Ship Price)及船舶价格综合数据属性POSP(Property Of Ship Price)的概念层次树分别见图1~4.

图1 新造船价格属性概念层次树

图2 二手船价格属性概念层次树

图3 拆船价格属性概念层次树

图4 船舶价格综合数据属性概念层次树

图1~4中概念层次树分两层.第一层中:ShipType为船型属性、Load Capacity 为载质量属性、FreightRate为运价属性、Seaborne Trade 为世界海运贸易量属性、SteelPrice为钢材价格属性、ExRate为主要造船国汇率属性、NBPrice为新造船价格属性、ShipAge为船龄属性、SHPrice为二手船价格属性、SCPrice为拆船价格属性.第二层中:船舶类型属性分为TK(油船),BK(散货船),CT(集装箱船);载质量属性,其中油船分为T1,T2,T3,T4,散货船分为B1,B2,B3,B4,集装箱船分为C1,C2,…,C6;运价属性,其中油船分为TFR1,TFR2,…,TFR9,散货船分为BFR1,BFR2,…,BFR9,集装箱船分为CFR1,CFR2,…,CFR8;世界海运贸易量属性,其中石油贸易分为OSBT1,OSBT2,…,OSBT9,干散货贸易分为DSBT1,DSBT2,…,DSBT9,集装箱贸易分为CSBT1,CSBT2,…,CSBT9;钢材价格属性分为ST1,ST2,…,ST8;主要造船国汇率属性分为ER1,ER2,…,ER6;新造船价格属性分为NBP1,NBP2,…,NBP9;船龄属性分为AG1,AG2,…,AG6;二手船价格属性分为SHP1,SHP2,…,SHP9;拆船价格属性分为SCP1,SCP2,…,SCP9.

2.2.2 多维数据模型

采用大多数数据仓库都采用的“星型模型”进行建模,它由事实表和维表组成.事实表中存放大量关于事务的事实数据,维度表是围绕事实表建立的存放描述性数据的表.基于对新造船、二手船、拆船价格属性数据的分析,建立全星型连接结构的数据模型见图5.

(a)新造船价格属性

(b)二手船价格属性

(c)拆船价格属性 (d)船舶价格综合数据属性

图5全星型连接结构的数据模型

图5(a)中以新造船价格本身属性为事实表,维度表有运价、世界海运贸易量、主要造船国汇率、钢材价格、船型、载质量和新造船价格属性维度.图5(b)中以二手船价格本身属性为事实表,维度表有世界海运贸易量、运价、船龄、船型、载质量、二手船价格和新造船价格属性维度.图5(c)中以拆船价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型和拆船价格属性维度.图5(d)以船舶综合价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型、载质量、拆船价格、新造船价格和二手船价格属性维度.

3 基于多维关联规则的船舶价格数据挖掘

3.1 数据准备

选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘,其中运价数据为油船一年期期租费率,海运贸易量数据为世界历年原油贸易量.数据来源为Clarksons和世界银行网站,时间跨度为1980—2011年的月度船舶价格数据,总记录为384条.为防止数据过于离散化而影响挖掘结果,对多维船舶价格数据模型的具体数据进行分类处理,得到的部分结果见表1.

3.2 船舶价格影响因素数据挖掘

运用SQL Server 2005提供的数据挖掘工具实现关联规则挖掘,系统默认的挖掘参数最小支持度为3%,但在数据量较大、关联性较高时,此值偏小,为此,设置挖掘参数最小支持度为5%,最小置信度为40%.选取世界海运贸易量、钢材价格、运价、新造船价格、二手船价格和拆船价格等维度进行初步挖掘,见图6.其中挖掘参数概率即为置信度,重要性指标定义如下:Importance(X⟹Y)=lg(P(XY)/P(X)P(Y)),其中P(X)表示事务中X发生的概率,P(Y)表示事务中Y发生的概率,P(XY)表示事务中X和Y同时发生的概率.由此可知,重要性为正值表示一旦拥有X则再拥有Y的概率会增长,负值表示一旦拥有X则再拥有Y的概率会降低.

图6 挖掘结果示意图

3.3 关联规则解释与分析

数据挖掘得出的结果为大量的关联规则,本文主要利用关联规则的解释与依赖关系网络相结合的方法对挖掘结果进行解释和分析.由于实验挖掘生成的关联规则较多,为便于分析,以下从二手船价格影响因素、新造船价格影响因素与拆船价格影响因素等3方面对挖掘的关联规则进行解释和分析.

表1 油船价格分类数据

3.3.1 二手船价格影响因素分析

由二手船价格影响因素的依赖关系网络(见图7),得到载质量为120 000~199 999 t的二手油船价格影响因素由强到弱排列为:期租费率、船龄、拆船价格、石油海运贸易量和新造船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表2.

图7 船舶价格依赖关系网络图例

规则1,2,3分别表示:当船龄为26~30年时,二手船价格为(0,2 000)万美元的概率为100%;当船龄为16~25年时,二手船价格为[2 000,4 000)万美元的概率为100%;当船龄为11~15年时,二手船价格为[4 000,6 000)万美元的概率为65%.对比这3条规则可知,船龄与二手船价格呈负相关性,船龄越大,二手船价格越低.从重要性指标看,二手船价格对船龄大的船的重要性较高(为1.26).这说明二手船价格虽与船龄呈负相关性,却对船龄越大的船舶越敏感,显示船龄与二手船价格之间的复杂关系.

表2 二手船价格影响因素的关联规则

规则4,5,6分别表示:当期租费率为[4 000,10 000)美元/d时,二手船价格为(0,2 000)万美元的概率为96%;当期租费率为[10 000,20 000)美元/d时,二手船价格为[2 000,4 000)万美元的概率为77%;当期租费率为[20 000,30 000)美元/d时,二手船价格为[4 000,6 000)万美元的概率为82%.由这3条规则可知,期租费率与二手船价格呈正相关性.

规则7和8反映石油海运贸易量对油船价格的影响:当世界石油海运贸易量为[1.4,1.6)亿t时,二手船价格为(0,2 000)万美元的概率为44%;当世界石油海运贸易量为[2.0,2.2)亿t时,二手船价格为[2 000,4 000)万美元的概率为42%.概率不高说明:石油海运贸易量对二手油船价格有一定的影响,但影响没有其他几个因素明显.

规则9,10,11反映油船市场中新造船价格对二手船价格的影响:当新造船价格为[2 000,4 000)万美元时,二手船价格为(0,2 000)万美元的概率为42%;当新造船价格为[4 000,6 000)万美元时,二手船价格为[4 000,6 000)万美元的概率为45%;当新造船价格为[6 000,8 000)万美元时,二手船价格为[6 000,8 000)万美元的概率为50%.规则9,10,11出现的概率均小于规则1~6出现的概率,说明新造船价格对二手船价格的影响比船龄和运价小.

规则12和13描述油船市场中拆船价格对二手船价格的影响:当拆船价格为(0,200)万美元时,二手船价格为(0,2 000)万美元的概率为47%;当拆船价格为[200,400)万美元时,二手船价格为[2 000,4 000)万美元的概率为47%.由规则出现的概率可知,拆船价格对二手船价格的影响程度小于船龄和运价.

3.3.2 新造船价格影响因素分析

由新造油船价格影响因素的依赖关系网络可得,对载质量120 000~199 999 t的油船,钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量.具体的量化影响通过关联规则数据挖掘得出,结果见表3.

规则1和2分别表示:当钢材价格指数为(150,200]时,新造船价格为[4 000,6 000)万美元的概率为96%;钢材价格指数为(50,100]时,新造船价格为[2 000,4 000)万美元的概率为87%.钢材价格与新造船价格呈正相关性.

规则3表示:当石油海运贸易量为(1.2,1.4]亿t时,新造船价格为[4 000,6 000)万美元的概率为55%.石油海运贸易量对新造船价格的影响程度小于钢材价格的影响.

表3 新造油船价格影响因素的关联规则

规则4和5反映拆船价格对二手船价格的影响:当拆船价格为[400,600)万美元时,新造船价格为[4 000,6 000)万美元的概率为66%;当拆船价格为[200,400)万美元时,新造船价格为[2 000,4 000)万美元的概率为83%.拆船价格与新造船价格呈现一定程度的正相关性.

规则6,7,8反映期租费率对新造油船价格的影响:当期租费率为[40 000,50 000)美元/d时,新造船价格为[6 000,8 000)万美元的概率为68%;当期租费率为[10 000,20 000)美元/d时,新造船价格为[4 000,6 000)万美元的概率为51%;当运价期租费率为[4 000,10 000)美元/d时,新造船价格为[2 000,4 000)万美元的概率为68%.对比这3条规则,期租费率与新造油船价格呈正相关性.

3.3.3 拆船价格影响因素分析

由拆船价格各影响因素与拆船价格的依赖关系网络可得:与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、世界海运贸易量和拆船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表4.

表4 油船拆船价格影响因素的关联规则

规则1和2反映期租费率对拆船价格的影响:当期租费率为[4 000,10 000)美元/d时,拆船价格为[200,400)万美元的概率为99%;当期租费率为[10 000,20 000)美元/d时,拆船价格为[400,600)万美元的概率为48%.期租费率的上升会促进拆船价格的提高,但是当运价由TFR1上升到TFR2时,拆船价格从SCP2上升到SCP3的概率反而从99%下降到48%,说明期租费率并不是拆船价格的主要影响因素.

规则3表示:当石油海运贸易量为(2.2,2.4]亿t时,拆船价格为[200,400)万美元的概率为41%.海运贸易量处于高位时,拆船价格并没有很大的提高,说明石油海运贸易量的变化对拆船价格的影响不大.

规则4和5分别表示:当船龄为16~25年时,拆船船价格为[400,600)万美元的概率为50%;当船龄为26~30年时,拆船船价格为[200,400)万美元的概率为79%.对比这两条规则,船龄与拆船价格呈负相关性,船龄越大,拆船价格越低.

规则6和7反映钢材价格对拆船价格的影响:当钢材价格指数为(50,100]时,拆船价格为[200,400)万美元的概率为79%;钢材价格指数为(100,150]时,拆船价格为[400,600)万美元的概率为89%.这说明拆船价格受钢材价格的影响较大,钢材价格与拆船价格呈正相关性.

4 结论与展望

以Clarksons发布的1980—2011年船舶价格月度数据为基础,运用多维关联规则,分别建立新造船价格、二手船价格、拆船价格及船舶综合价格多维数据模型,选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘分析,得出以下结论:(1)影响二手油船价格的因素由强到弱分别为:期租费率、船龄、拆船价格、石油海运贸易量及新造船价格;(2)钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量;(3)与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、海运贸易量和拆船价格.

从挖掘出的船舶价格关联规则可以看出,将多维关联规则数据挖掘模型应用于船舶价格影响因素的分析是可行的,研究得到的关联规则对航运企业的船队更新和船舶投资有一定的参考价值.

参考文献:

[1] BEENSTOCK M. A theory of ship prices[J]. Maritime Policy & Management, 1985, 12(3): 215-225.

[2] BEENSTOCK M, VERGOTTIS A. An econometric model of the world shipping market for dry cargo, freight and shipping[J]. Applied Economics, 1989(21): 339-356.

[3] KAVUSSANOS M G. The dynamics of time-varying volatilities in different size second-hand ship prices of the dry cargo sector[J]. Applied Economics, 1997(29): 433-443.

[4] TSOLAKIS S D, CRIDLAND C, HARALAMBIDE H E. Econometric modelling of second-hand ship prices[J]. Maritime Economics & Logistics, 2003(5): 347-377.

[5] LUN Y H V, LAI K H, CHENG T C E. Shipping and logistics management[M]. London, Dordrecht, Heidelberg, New York: Springer, 2010: 33-48.

[6] 李升江. 船用钢板价格与手持订单量同船价指数的定量关系[J]. 船舶经济贸易, 2006(2): 13-14.

[7] 蔡立明. 基于计量经济理论的新造油船与散货船价格研究[D]. 上海: 上海交通大学, 2009.

[8] 王建华, 吕靖, 谭威, 等. 巴拿马型船舶航运市场价格波动的VAR模型分析[J].上海海事大学学报, 2009, 30(2): 78-83.

[9] 朱墨, 章强. 基于双对数回归模型的新造船船价影响因素研究[J]. 重庆交通大学学报:自然科学版, 2012, 31(3): 506-511.

[11] BHANDARI I. Data mining and knowledge discovery[M]. Boston: Kluwer Academic Publishers, 1997(1): 121-125.

[12] 寇宇. 关联规则挖掘在电信产品交叉销售中的应用研究[D]. 哈尔滨: 哈尔滨工业大学, 2010.

[13] 王宏雁, 王琪. 多层多维关联规则在交通事故研究中的应用[J]. 交通科学与工程, 2009, 25(1): 72-76.

[14] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94.

[15] 宓为建, 徐子奇, 刘园. 大型港机结构应力峰值与小车位置关联规则的数据挖掘[J]. 上海海事大学学报, 2006, 27(3): 42-46.

关联规则中算法论文 篇6

关键词:数据挖掘,关联规则,算法

1 概述

1.1 课题的研究背景

现代计算机科学技术发展的历史, 同时也是数据和信息加工手段不断更新和改善的历史。随着计算机硬件和软件不断的发展, 尤其是数据库技术与应用的广泛推广, 摆在人们面前的问题出现了, 这些急剧膨胀的信息数据, 如何有效利用这一丰富数据海洋的宝藏为人类服务, 也已成为广大信息技术工作者所重点关注的焦点之一。

传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析, 能够获得一定的数据价值, 这种传统的收集数据技术具有一定的效果, 但当这种方法在面对海量的数据并从中进行数据分析时, 却没有一个比较好的解决方案。无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理, 而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。在这些大量数据的背后隐藏了很多具有决策意义的信息, 如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。

1.2 研究目的和意义

数据挖掘技术是面向应用型的。目前, 在很多重要的领域, 数据挖掘都可以发挥积极促进的作用, 尤其是在如保险、交通、零售、银行、电信等商业应用领域。数据挖掘能够帮助用户解决许多典型的商业性的问题, 其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为, 以及客户流失性分析、客户信用评分、欺诈发现等等。

数据挖掘技术已经广泛的在企业市场的营销中得到了应用, 它以市场营销学的市场细分原理为基础, 通过对涉及到消费者消费行为的信息进行收集、加工和处理, 得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求, 从而能够推出目标消费者下一步的消费方向, 然后以得出来的结论为基础, 对目标消费者和消费群体进行定向的营销, 这与传统的盲目营销的方式相比, 可以在很大程度上节省因营销而产生的开支, 能够提高营销的成功率, 从而可以为企业带来更大的利润, 也能够帮助企业树立起好的口碑。

2 数据挖掘技术的理论基础

2.1 数据挖掘技术概述

数据挖掘的定义是能够从大量、有噪声、模糊、随机、不完全、实际应用数据中提取出隐含在其中的, 又不为人们所知的, 同时具有潜在价值的知识和信息的过程, 又被称为从数据库中的知识发现。数据挖掘不同于传统的数据分析, 二者有着本质的区别, 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。通过挖掘所得到的信息应该具有未知、有效和实用等3个特征。整个KDD通常会有若干个挖掘的步骤组成, 通常, 数据挖掘是其中最重要的一个步骤。

通常情况来讲, 数据挖掘与知识发现这两个概念很容易被人们所混淆, 其主要原因是它们有相似性以及共同点, 并且究其表面信息来讲, 似乎如出一辙。但是就其实质来讲, 两者是有显著不同的[1]。

2.2 数据挖掘的任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、偏差分析和时序模式。

2.2.1 关联分析

关联规则挖掘是由2个或2个以上变量来取值的。这些变量之间假如存在着某种关系, 就可以称这些变量之间相互关联。数据的关联在数据库中可以把分为简单、时序和因果的关联, 同时也是目前对数据关联的一个热门的研究方向。

2.2.2 聚类分析

聚类分析就是把数据按其相似性进行分类, 分为不同的类别, 同一类别中的数据是相似的, 不同类中的数据是不相同的。通过聚类分析我们可以发现数据的分布模式, 通过数据的分布模式找出可能的数据属性之间的关系。

2.2.3 分类

分类就是在数据的分析过程中找到一个分类的概念, 然后对这个分类的概念进行详细的概述, 不同的分类代表不同类别数据的信息, 并用对这种分类的详细定义来构造相应的模型, 这种构造的模型一般用决策树的模式或者规则模式进行详细的描述。

2.2.4 预测分析

预测就是希望通过对数据的系统分析, 以找到数据变化的趋势和发展的规律, 并依照这种趋势和发展的规律建立对应的数学模型, 然后用这种数学模型对数据的未来走势和发展进行对应的预测。对预测结果关心的是预测的准确度, 这个准确度通常可以用预测的方差进行度量。

2.2.5 偏差分析

在对偏差的分析过程中能够用到很多的知识, 而数据库中的数据多多少少有着异常的情况, 通过对数据使用偏差分析来发现数据库中数据存在的异常状况, 这对对于数据挖掘来说是非常重要的。

2.2.6 时序模式

时序模式是指通过时间序列的方法来找出的发生概率比较高的数据模式。这种数据模式与回归模式是一样的, 也就是通过使用己知的数据来对数据未来的值进行预测。

2.3 数据挖掘的方法

数据挖掘的方法包括:神经网络方法、统计分析方法、模糊集方法、遗传算法、决策树方法、覆盖正例排斥反例方法等等。

2.4 数据挖掘的对象和流程

根据信息存储格式, 用于挖掘的对象有关系数据库、文本数据源、多媒体数据库、空间数据库、时态数据库、面向对象数据库、数据仓库、异质数据库以及Internet等。

数据挖掘的流程包括:定义问题、数据准备、数据挖掘、结果分析和知识运用等。如下图所示:

2.5 数据挖掘的应用

数据挖掘在各领域的应用还是比较广泛的, 只要该产业的数据具有分析价值并且需要利用数据仓库和数据库, 皆可利用数据挖掘工具来进行有目的的挖掘分析与评估。通常情况来讲, 较为常见的数据挖掘应用多发生在制造业、零售业、财务金融保险、直效行销界、通讯业以及医疗服务等。

3 关联规则的理论基础和算法研究

3.1 关联规则概述

如果假设I是项的集合。那么给定一个交易数据库, 交易数据库中每个事务是I的一个非空子集, 即, 每一个交易都与一个唯一的标识符TID对应。关联规则在D中的支持度是D中事务同时包含X、Y的百分比, 即概率;置信度是包含X的事务中同时又包含Y的百分比, 即条件概率。关联规则是有趣的, 如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

关联规则的数据挖掘过程大体的可以分成2个过程:

1) 首先从数据资料的集合中找出所有相关的高频数据项目组;

2) 接下来对这些高频数据项目组生成相应的关联规则。

3.2 Apriori算法的基本思想

Apriori算法是一种基于数据挖掘的布尔关联规则频繁项集算法, 这种算法具有一定的学术界影响力。这种算法首先需要找出所有的与数据相关联的频集, 频集中包含的项集出现的频率需要和事先定义的最小支持度至少保持一样。接下来由频集产生相应的数据的强关联规则, 这些数据的强关联规则需要满足最小的可信度和最小的支持度。最后使用一开始找到的频集, 利用频集产生期望的数据规则, 产生的数据规则包含集合的项中所有的数据关联规则, 其中每一个数据规则的右部有且只有一项, 在Apriori算法中我们使用的是中规则的相关概念。

3.3 Apriori算法的不足

由频繁k-1项集进行自连接生成的候选频繁k项集的数量是非常巨大的。在验证候选频繁k项集的时候需要对整个数据库进行扫描, 这个扫描的过程是非常耗费时间的。

3.4 Apriori算法的改进

Apriori算法为了减少因自身原有的缺陷, 而带来的消极影响, 以提高Apriori算法在执行方面的效率, 针对Apriori算法本身的缺陷, 并在Apriori算法的基础上提出了几个基于Apriori算法改进的算法。在此介绍几种典型的改进的算法:

1) 基于散列的优化方法

基于散列的优化方法的典型算法就是DHP算法。这种算法利用散列表来产生候选集, 可以用于压缩侯选k-项集的集合q (k>-2) 的大小。基于散列的优化方法算法能够有效地减少了2维和3维的候选项目集的数量, 是对Apriori算法的直接改进。

2) 基于事务压缩的优化方法

AprioriTid和APriorHybrid算法是基于事务压缩的优化方法的典型算法。这种算法的主旨思想是通过减少不必要的事务的个数来达到减少扫描数据库数量的目的。

3) 基于划分的优化方法

基于划分的优化方法的典型改进算法-Partition算法。这种优化方法最大的优势就是扫描数据库的次数较少, 只需对原事务数据库D两遍扫描。

3.5 FP-growth算法的基本思想

FP-growth算法的基本思想是采用分而治之的方法。这种思想需要首先在对数据库进行第一次扫描时导出相应的和Apriori算法相同的频集项的集合与相应的频集项的支持度。

然后可以根据导出的频集项的支持度的大小来对频繁项集进行一个大小的排序, 利用这种方法可以构造一个FP树, 在构造FP-growth树的时候, 可以将数据库中的频集项压缩到一棵频繁模式的树中去, 在压缩的过程中需要保留各频集项的基本相关信息, 根据频集项的FP树中的关联信息, 再将频繁模式的树分化成一些条件库, 之后采用不同的数据挖掘方法对这些条件库进行相应的数据挖掘, 实行数据挖掘的目的是得到生成长度为2的频集项。

3.6 FP-growth算法的优缺点

FP-growth增长算法有着很明显的优点, 主要的优点是:

1) 能够将原来的数据库能够有效地压缩成比较小存储空间;

2) 不会产生候选项集, 所以这种FP-growth增长算法在执行的效率方面会比其他的算法要高很多;

3) 数据挖掘的数据与要远远的小于原数据库。

4 结论

数据挖掘可以应用在很多行业, 目前主要应用在农业、电信、银行、生物、天体、电力、化工、零售、医药等方面。从表面上看, 数据挖掘的应用范围是非常的广泛, 但是在实际应用当中却没有达到很深的程度。根据2010年度的Gartner报告, 数据挖掘技术将会成为未来40年内一项最重要的技术之一。

基于关联规则的数据挖掘技术的发展应是挖掘工具在先进理论指导下的一种改进, 而就目前的情况来看, 数据挖掘技术还有很大的发展空间。虽然数据挖掘是一个过程, 但是与此过程相关联的是以前数据挖掘之前的结果和数据, 那些已获得的数据正是我们想要的, 可以不断的分析和产看, 因为如果没有进行相应的数据挖掘, 是不可能得到有价值的数据。就实际情况来看, 只有那些可以依据过去经验形成的合理的解释才是有价值的。

参考文献

[1]张凤荔.基于关联规则的数据挖掘算法研究[D].电子科技大学, 2010.

[2]梅俊.数据挖掘中关联规则算法的研究与应用[D].安徽工程大学, 2010.

[3]百度百科.http://baike.baidu.com/view/1076817.htm

[4]钱志忠.偏差检测的相关研究[J].计算机工程与应用, 2007, 36 (1) :60-63.

[5]范明, 刘艳波, 尹军.数据挖掘:概念与技术[M].北京:机械工业出版社, 2001.

[6]廖波, 王天明.新型数据挖掘算法[J].计算机学报, 2003, 18 (3) :364-368.

关联规则中算法论文 篇7

数据挖掘(data mining,DM)是指从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程[1]。它是数据库知识发现(Knowledge Discovery in Database,KDD)过程中对数据真正应用算法抽取知识的那一步骤,是KDD过程中的重要环节[2]。数据挖掘的方法主要包括:分类、回归分析、聚类、关联分析等。其中,关联规则挖掘是数据挖掘研究的一个重要分支,是众多知识类型中最为典型的一种。

2 关联规则

关联规则挖掘最早是由Agrawal等人于1993年提出的[3],其形式化的描述如下:设I={i1,i2,…,im}是m个不同项的集合,事务T为I的子集,不同的事务的集合构成事务集D。关联规则就是形如X->Y的蕴涵式,其中X奂I,Y奂I,且X∩Y=覫。

关联规则的实用性由支持度衡量,描述了X和Y两个项集同时出现的概率,定义为:

Support(X->Y)=|{T:X∪Y哿T,T∈D}|/|D|。关联规则的准确性由可信度衡量,描述了出现X的事务集D同时也出现Y的概率,定义为:Confidence(X->Y)=|{T:X∪Y哿T,T∈D}|/|{T:X哿T,T∈D}|。

关联规则挖掘就是在事务集D中找到满足最小支持度minsup和最小可信度minconf的关联规则。该问题一般分为两步骤完成:

1)找出满足最小支持度minsup的所有频繁集;

2)根据找到的频繁集,产生所有可信度大于minconf的规则。其中,步骤1是制约Apriori算法运行效率的关键所在,因为它需要多次扫描数据集,这需要消耗大量的时间和空间,众多文献中都对Apriori算法的改进进行了多种研究[4,5,6,7]。

3 Apriori算法

在众多关联规则的算法中,Apriori是其中最有影响的挖掘布尔关联规则频繁项目集的算法,同时也是其他大部分关联规则算法的基础。Apriori算法的最主要的概念,就是从候选项目集合Ck-1中通过扫描事务集D,找出大于或者等于最小支持度的项目集,称为频繁项目集Lk-1;再以频繁项目集Lk-1通过自连接和剪枝操作产生候选项目集Ck,候选项目集Ck再通过扫描事务集找出频繁项目集Lk,如此重复直到无法找到频繁项目集为止。

3.1 算法描述

该算法首先产生频繁集L1,然后产生L2,如此重复直到Lk为空为止。其中,候选集Ck的生成是通过Apriori_Gen()算法的调用。

该算法通过对Lk-1频繁集的自连接产生候选集。通过方法Has_Infrequent_Subset()进行判断来减少候选集Ck的大小。因为,按照Agrawal的项目集理论,含有非频繁项目子集的元素不可能是频繁项目集。

算法三:Has_Infrequent_Subset(c,Lk-1)//判断是否包含非频繁子集

由以上可见,Apriori算法的两个关键步骤分别是连接和剪枝步骤。连接步骤主要通过Lk-1与自身的连接产生候选集Ck。其连接规则是:假设Lk-1中有两个项集l1和l2,它们的前k-2项相同,l2的最后一项大于l1的最后一项,则l1和l2可以连接到一起。剪枝步骤主要用于对连接步骤产生的候选集Ck,重新扫描一次事务集,以便确定Ck中的每一个项目的最小支持度,删除那些不满足条件的项目即得到频繁项集Lk。

4 算法的实现

4.1 事务集和项集的初始化

该步骤主要用于从数据库、文件或者其他方式读入事务集和项集,读入之后将数据保存在C#的ArrayList变量中。其中,事务集数据和项集数据的初始化分别如下所示:

4.2 Apriori算法调用

Apriori算法主要通过递归的调用找出所有的频繁子集,其中又用到了包括频繁集Lk的生成,候选项集Ck的生成。

4.3 频繁项集Lk的生成

频繁项集L1、L2直至Lk的生成方式都是类似,针对给出的候选项集进行事务集的扫描,并且对候选项集根据扫描情况进行计数操作,如果支持度大于最小支持度,则即为频繁项集。

4.4 候选项集Ck的生成

4.5 关联规则生成

关联规则生成主要依据通过Apriori算法生成的最大频繁集Lk,然后对最大频繁集Lk的所有的非空子集s,计算support(s)/support(Lk)的值,如果计算得到的结果大于minconf,则输出强关联规则“sà(Lk-s)”。

5 算法在购物篮中规则的发现

如果事务集采用文献[8]中All Electronics某分店的事务数据如表1所示,共有9条交易记录数据,即|D|=9。

另外,预定义最小支持数minSup=0.2,最小置信度为0.5,则利用Apriori算法运行后得到的频繁结果集和关联规则如图1所示,这一结果与文献[8]计算所得到的结果是一致的。

6 总结

Apriori算法是关联规则中的经典算法,文中主要对Apriori算法进行研究分析之后,采用C#对算法进行了实现,为进一步的关联规则改进等方面的实现都奠定了一个良好的基础。

参考文献

[1]陈京民.数据仓库与数抓挖掘技术[M].北京:电子工业出版社,2002.

[2]王丽珍,周丽华,陈红梅,等.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.

[3]Agrawal R,Imilienski T,Swami A.Mining association rules between sets of items in large datasets[C].GIGMOD,1993:207-216.

[4]柴华昕,王勇.Apriori挖掘频繁项目集的算法的改进[J].计算机工程与应用,2007(43):24.

[5]钱少华.基于数组的Apriori算法的改进[J].计算机应用与软件,2006,23(2).

[6]谢宗毅.关联规则挖掘Apriori算法的研究与改进[J].杭州电子科技大学学报,2006,23(3).

[7]程玉胜.Apriori算法中频繁项集挖掘实现研究[J].计算机技术与发展,2006,16(3).

关联规则中算法论文 篇8

在我国, 国家和地方权力机关依法享有一定范围的立法权, 各种法律规范的效力呈现层级化。如何使效力不同的各种规范性法律文件衔接协调、和谐统一, 避免相同层次法律规范之间以及与上一层次法律规范产生矛盾和冲突, 需要加强对规范性文件的备案审查, 从而保障社会主义法制的统一。建立法规备案审查管理系统可以实现对目标法规进行上下位法一致性比对、审查比较等, 对法规进行备案审查。

根据《宪法》和《立法法》的要求, 全国人大常委会承担了对国务院行政法规, 各省、自治区、直辖市、经济特区等地方性法规、自治区条例、单行条例, 最高人民法院、最高人民检察院的司法解释的备案审查工作。法规备案、审查工作为健全国家法制体系, 维护国家法律的统一, 纠正与宪法、现行法律相抵触的条款, 起到了重要的作用。备案审查的主要内容包括:备案报告、国务院令或公告、法规文本、草案说明、相关的修改、废止或批准的决定;司法解释备案的主要内容包括:备案报告、公告、司法解释文本。

数据挖掘作为一个新兴的、多学科交叉的应用领域, 正在各行各业的以信息分析为基础的决策支持系统活动中扮演着越来越重要的角色。关联规则挖掘作为数据挖掘的一个重要研究分支, 其主要目的是用于发现数据集中项之间的相关联系, 即关联规则。由于形式简单、易于理解, 且是从大型数据库中提取知识的主要手段, 因此, 关联规则已广泛应用各个领域, 用来检验行业内长期形成的知识模式, 或发现隐藏的新规律, 但在法律法规分析中的应用却并不广泛。

1 法规备案流程分析

由国务院、地方人大以及高检高法等报备机关将需要报备的法规、条例、司法解释等整理登记后, 提交报备到全国人大。如经格式审查后, 需要继续补充完善的, 应根据审查意见, 补充完善后再次上报。如经全国人大有关委员会或法工委审查后, 有需要纠正的, 应根据纠正意见按程序进行处理。报备机关应根据全国人大秘书局发函的报备文件目录, 确认当前的报备情况。

全国人大秘书局收到报备文件后, 进行格式审查, 审查没有问题的, 进行分类、备案, 并分送到有关专委会、法工委和信息中心。在分送到有关专委会时, 如经专委会确认不属于其职责的, 需重新分送。秘书局根据当年的报备情况, 每年会定期生成报备文件目录, 向报备机关发函核实报备情况;还会统计编写相关的备案工作简报, 并在每年统计出各省的文件报备情况目录, 移交档案部门归档。

有关专门委员会法案室和法制工作委员会的法规备案审查室负责, 对已备案的法规进行审查, 形成审查意见报告, 如存在与上位法有相抵触的情况, 需报领导审批后, 提出纠正意见, 交由报备机关纠正。

2 关联分析算法

Apriori算法是现今研究关联规则中最具代表性的方法, 虽然之后有许多算法被提出, 但皆是依据此架构做改进或延伸。Apriori算法的基本思想是生成特定规模的侯选项目集, 然后扫描数据库并进行计数, 以确定这些侯选项目集是否频繁。具体实现过程是首先扫描数据库的所有事务, 计算每个项目的发生次数, 产生1候选集C1, 再根据预先给定的最小支持度确定1频繁集L1。然后由L1*L1进行连接运算生成2候选集C2, 再次扫描数据库中的所有事务, 计算出C2中每个元素的出现次数, 并根据预先给定的最小支持度确定2-频繁集L2。这一过程反复进行直到生成k频繁集Lk, 并且不可能再生成满足最小支持度的k+1项目集。

改进Apriori算法的实现是系统设计时考虑的重点问题。根据需求描述, 系统要求为某一生成的数据集运行数据关联规则挖掘 (数据集已被转化为布尔数据集) , 并将数据关联规则打印出来。此任务可以描述为:给定任意的布尔数据集、最小置信支持度和最低置信度, 以某一算法 (本系统使用改进Apriori算法) 遍历挖掘其频繁项, 并列出满足最低置信度数据关联规则的过程。

由于Apriori算法要求项目集的所有非空子集都必须是频繁的, 因此在数据库中D的事务中寻找频繁项目集时, 需要进行连接和剪枝, 才能挖掘强关联规则。

如果在数据库D中的事务找出所有的频繁项目集以后, 由他们产生满足最小支持度和最小的可信度的强关联规则就很容易了, 可用如下式的条件概率计算出可信度

其中support_count (A∪B) 是包含项目集A∪B的事务数, support_count (A) 是包含项目集A的事务数。根据该式, 关联规则的可以产生如下:

对于每个频繁项目集L, 产生L的所有非空子集。

对于L的所有非空子集S, 如果, 则输出关联规则其中min_confidence是最小可信度阈值。

由于规则由频繁项目集产生, 每个规则都满足大于最小支持度, 频繁项目与他们的支持度可预先存放在散列表中, 以加快访问速度。

假定数据包含频繁项目集L={ I1, I2, I5}, 可以由L产生的关联规则, L的非空子集由{ I1, I2}, { I1, I5}, { I2, I5}, { I1}, { I2}和{ I5}, 其支持度分别是4, 2, 2, 6, 7, 2。

得出的关联规则如下: (每个都列出其可信度)

如果最小的可信度阈值是70?, 则只有第2、3和最后一个规则可以输出, 因为这些产生的是强规则。

下面是部分伪代码:

3 实际系统应用效果

勾选需要审查的备案文件, 单击“法规审查”, 进入法规页面。如图:

选择法规后, 点击关联分析, 系统会自动与现有法律库的法律内容作关联分析, 最后可进入如下图关联分析结果页面:

如图, 分析结果是关联度比较高的法律。显示顺序由相似度的高低顺序排列。显示结果可以通过设置相似度来控制。

4 结束语

采用数据挖掘关联分析算法进行法规审查, 极大提高了法规审查的效率, 减少了人为的失误, 在一定程度上帮助法规审查人员提高了工作质量和满意度。随着法律法规库数据的逐渐增大, 其应用效果会更加明显。当然算法本身也还可以进一步优化和改进, 更好地服务于法规审查工作。

摘要:根据宪法和有关法律规定, 全国人大常委会监督宪法和法律实施可以采取多种形式, 法规备案审查正是其中一个重要的监督方式。我国的法规备案审查制度包含着违宪性审查和违法性审查两个层次的内容, 其最高层次的法律渊源是宪法。现行宪法规定, 全国人大常委会有权撤销国务院制定的同宪法、法律相抵触的行政法规、决定和命令, 撤销省、自治区、直辖市国家权力机关制定的同宪法、法律和行政法规相抵触的地方性法规和决议。法规审查是一个复杂的过程, 对具体负责审查工作的人员有极高的法律法规知识要求。因此, 提高法规审查的科学性、客观性和准确性, 是当前法规审查工作重要的课题。本文结合当前法规备案审查的实际, 提出了法规关联分析评价指标体系, 应用于法规审查工作中, 并在此基础上设计并实现了法规备案审查系统。

关键词:数据挖掘,关联规则算法,备案审查

参考文献

[1][美]Jiawei Han, [美]Micheling Kamber, [美]Jian Pei等著;范明, 孟小峰译数据挖掘:概念与技术 (原书第3版) [Data Mining]北京:机械工业出版社, 2012.08.

[2][新西兰]威滕, Witten (I.H.) , [新西兰]弗兰克, Frank (E.) , [新西兰]霍尔, Hall (M.A.) 著;李川, 张永辉译数据挖掘:实用机器学习工具与技术 (原书第3版) 北京:机械工业出版社, 2014.05.

[3][美]吴信东 (Xindong Wu) , [美]库玛尔 (Vipin Kumar) 著;李文波, 吴素研译数据挖掘十大算法[The Top the Algorithms in Data Mining]北京:出版社:清华大学出版社, 2013.05.

[4]卢辉著数据挖掘与数据化运营实战:思路、方法、技巧与应用北京:机械工业出版社, 2013.06.

关联规则中算法论文 篇9

随着科技的飞速发展,智能手机、数码相机、平板电脑等电子产品的普及率大大提高,使得图像的获取和传播变得非常简单、迅速。因此,如何有效地检索和管理海量的图像数据集成为人们面临的难题。

目前,图像检索主要分为两种方式:基于文本的图像检索(Text-based Image Retrieval,TBIR)和基于内容的图像检索(Content-based Image Retrieval,CBIR)。TBIR要求被查找的图像具有与其视觉内容相匹配的文字描述,从而将图像检索问题转换成文本检索问题。这种检索方法虽然简便直观,但在实际生活中,大部分图像是不具有标签的,少量带有标签的图像也可能没有被完整标注,不满足基于文本检索的前提条件,通常并不可行;CBIR利用计算机自动提取图像的颜色、纹理、形状、空间位置等低层视觉特征,创建特征索引,储存在特征库里。然而基于内容的图像检索在查找过程中仅依靠图像的视觉特征,并没有深入分析和理解图像内容。由于图像的低层视觉特征与高层语义之间存在“语义鸿沟”问题,导致输出的图像往往与用户的输入图像不相关,检索结果不能令人满意。针对以上问题,对图像建立基于语义的表示和检索机制势在必行。语义标注实质是提取能反映其内容的语义关键词,解决图像低级视觉特征与高级语义之间的“鸿沟”问题。

目前,人们在图像语义标注方面的研究已取得了一定成果,这些成果都是针对不同出发点提出的不同解决方案。本文主要针对由于标签之间隐含的内在关联被忽略而导致用户进行不完整标注或错误标注,使经典的关联规则挖掘算法(Apriori)变得不再可行的问题,提出了适用于图像语义标注任务的加权关联规则挖掘算法。

1 图像标注中标注词之间的关联关系问题

在现实世界中,利用Instagram、Flickr、Photobucket、TinyPic等图片分享网站,可以收集大量带有用户手动标注的图片。但由于用户关注的角度与理解不同,或用户的错误标记,导致手动标注的图片中有很大一部分都是不完整标注的,或是带有噪声的。通常存在这样的现象,如果一个用户为一幅图片添加标签“笔记本”,那么该用户几乎不会再为这幅图片添加“电脑”标签,在这种情况下,隐含的、潜在有意义的标签则不能被完全包含在用户手动标注的标签集中,从而产生不完整标注。产生上述现象的原因是因为标签之间隐含的内在关联被忽略了。

本文提出一种适用于图像语义标注任务的加权关联规则挖掘算法(Weighted Association Rule Mining for Image Auto-annotation,简称WARMFIA),用于挖掘标注词之间的关联关系,并利用挖掘出来的规则和语义概念层次关系对标注词进行扩展,形成候选标签集。WARMFIA通过为每个标签及标签集合赋予一定权重,保留那些出现次数少但具有重要意义的标签,以更好地挖掘语义标签之间潜在的有价值的规则。

2 加权关联规则挖掘算法

在一个大规模标注的图像数据集中,如果两个或两个以上的语义标签经常一起出现,这些标签可以被认为高度相关。这种现象被称为标签共现,标签共现是语义标签相关性度量的关键。

在实际中,一组共现的标签集合通常在语义概念上存在关联。例如,当用户在标注一幅联想笔记本的图片时,他们更有可能标注“laptop”、“ThinkPad”或”notebook”,而不是标注”computer”、”Lenovo”。用户对该图片和与其相似图片标注的标签如表1所示,其中TID表示图片编号,每行对应一个事物,即一幅图片,每列对应一个项,即语义标签。标签可以用二元变量表示,如果图像具有这个标签,则它的值为1,否则为0。

考虑规则{laptop,ThinkPad}→{computer},通常computer与标签集{laptop,ThinkPad}之间的相关性比laptop与computer或ThinkPad与computer之间的相关性更强。在经典的Apriori算法中,项集{laptop,ThinkPad,computer}的支持度计数等于1,项集{laptop,ThinkPad}的支持度计数等于2,而事物总数等于5,所以规则的支持度和置信度分别为0.2和0.5。如果设最小支持度minsup=0.25,最小置信度minconf=0.5,则规则{laptop,ThinkPad}→{computer}由于不满足最小支持度而被舍弃。出现此问题的原因是由于经典的关联规则发现算法Apriori认为每一项的重要程度相同,而忽略了不同项之间的差异性,使得在预先设置了最小支持度阈值的情况下,一些含有重要信息但出现次数较少的项集在频繁项集挖掘阶段即被过滤掉,从而导致一些重要的、潜在的、有意义的关联关系缺失。为了解决该问题,本文将WARMFIA算法推广到标签共现问题上,以挖掘多标签之间的关联关系[7]。

2.1 问题定义

令X={x1,x2,…xn}表示一个图像数据集,考虑将每幅图像看成一个节点,可以构建一个图,连接两节点之间的边所对应的权重反映了两幅图像之间的视觉相似性。利用图像挖掘算法可以获得与图像Xi在视觉上相似的一组图像,称其为Xi的近似图像簇,用X={x1,x2,…xm}(m<n)表示,统计出现在Xi和^X中所有图像的标签,形成标签集合,用L={l1∶n1,l2∶n2,…lq∶nq}表示。其中li,i∈(1,2,3…q)表示语义标签,ni,i∈(1,2,3…q)表示标签li出现的次数。

2.2 算法流程

2.2.1 权重计算

(1)计算每个标签出现的概率:

其中|li|代表与标签li存在关联的图片数目,N表示xi及其近似图像簇中的图像总数,p(li)表示在图像xi和其近似图像簇中,具有标签li的图像比率。

(2)计算每个标签的信息量:

利用信息量衡量语义标签携带的信息大小。

(3)为标签集合L中每个标签初始化权值:

其中0≤wi≤1,i=1,2…,q,∑qj=1I(Lj)代表标签集合L的信息量。

(4)项集A的权值wA计算公式为:

其中n(li,A)表示项集A是否包含标签li,如果包含,则n(li,A)=1,否则N(li,A)=0。

2.2.2 规则产生

(1)项集A的加权支持度:

其中T是由Xi和其近似图像簇组成的图像集(即事物数据集),Ti(i=1,2,…|T|)表示T中每一幅图像包含的标签集,|T|表示T中的图像总数,WTi表示标签集Ti的权值,表示项集A是标签集Ti的子集。

(2)关联规则A→B的加权支持度:

(3)关联规则A→B的加权置信度:

如步骤(1)所述,表2中列出了表1中图像标签的权值,表3列出了表1中图像的项集权值。

将加权的关联规则挖掘算法挖掘出的规则在加权支持度和加权置信度上与原始算法的支持度和置信度进行比较,结果如表4所示。从结果可以看出,新算法与原始算法的支持度和置信度相比均有所提高。

2.2.3 原因分析

分析以上结果产生的原因,主要有以下3点:

(1)经典的关联规则挖掘算法Apriori具有一个重要性质,即频繁项集的所有非空子集必须也是频繁项集。但是在加权关联规则中,频繁项集的所有非空子集并不需要都是频繁项集。

(2)由于加权的关联规则挖掘算法认为每个项在事物中的重要程度有差别,应该加以区分,所以为每个项和项集分别赋予了不同权值。有些标签虽然很少出现,但其中蕴含着大量有价值的信息。为这些标签及包含这些标签的标签集赋予较大权值,提高它们在语义标签集合中的重要程度,使它们在规则挖掘阶段可以更好地发挥作用。

(3)语义概念层次的划分可能导致冗余规则产生。已知规则A→B是冗余的,如果还发现了一条更普遍的规则^A,其中A是^A的后代,B是^B的后代,且这两条规则的加权置信度基本一致。例如,假如规则{奶牛}→{草地},{黄牛}→{草地},{牛群}→{草地}具有非常相似的加权置信度,则涉及较低层语义概念中的规则是冗余的,因为它们都可以用涉及其祖先的规则{牛}→{草地}概括。

3 实验验证

为了验证本文提出的方法是否有效,在经典的Flickr图像数据集上进行了实验。该数据集由25 000幅图片组成,内容涉及动物、人物、风景、城市和现代生活等多个方面,其标签由Flickr用户产生,总共有1 386个,涵盖29个语义主题,如表5所示。

该数据集中每个标签至少出现20次,平均每幅图像包含8.94个标签。图1中列出了出现频率由高到低排列的前34个语义标签,其中有些标签语义相同,比如tree和trees、city和urban等,这种情况的产生原因是由于用户的标注习惯不同。

在不同的支持度阈值条件下,从发现的规则数量上,将本文提出的适用于图像标注的加权关联规则挖掘算法(WARMFIA)与经典的关联规则发现算法Apriori进行比较,结果如表6所示。表7显示了应用WARMFIA算法发现的一小部分关联规则。

从表6中可以看出,不管在哪个支持度阈值条件下,本文算法都比Apriori算法发现的关联规则数量多,说明本文算法可以从标签和标签集合中获取更多信息。从表7中可以看出,规则car,street=>city的支持度阈值并不高,这是因为人工标注过程中存在遗漏,导致标注不完整造成的。在经典的Apriori算法中,标签city可能因为支持度计数不满足要求而被删除,但是在本文算法中,由于对标签和标签集合赋予了权重,出现次数少的标签获得的权重大,因而可以将这些有价值的信息保留下来,挖掘出更多潜在的令人感兴趣的规则。

利用挖掘出来的规则对未标注图像的初始标签集合进行扩展,结果如图2所示。可以看出大部分未标注的图像可以扩展出4~10个潜在、有意义的语义标签,反映了本文方法(WARMFIA)在发现关联规则的数量和扩展标签的质量上,性能都优于经典的Apriori算法,证明了本文算法的有效性。

4 结语

本文针对用户在标注过程中标注不完整,导致出现次数较少但有意义的标签因不满足支持度计数而无法利用挖掘算法进行挖掘的问题,提出了一种适用于图像语义标注任务的加权关联规则挖掘算法。为每个标签和标签集合赋予一定权值,保留那些出现次数少却具有价值的标签,提取满足加权支持度和置信度阈值的规则,挖掘出难以察觉且具有较高兴趣度的规则。另外,本文研究了语义概念之间的层次关系,利用高层语义概念对语义标签集合进行扩展,避免了人工标注过程中的不完整标注和遗漏标注问题。

摘要:将关联规则挖掘算法推广到图像标注领域,提出了适用于图像语义标注任务的加权关联规则挖掘算法。通过为每个标签及标签集合赋予一定权重,可以保留出现次数少却具有重要意义的标签,以更好地挖掘语义标签之间潜在的有价值的规则。对语义概念之间的层次关系进行了研究,利用高层语义概念对图像标签的结果集合进行扩展,以避免人工标注过程中的不完整标注和遗漏标注问题。实验验证表明,该算法在发现关联规则的数量和扩展标签的质量上性能都优于经典的Apriori算法,证明了该算法的有效性。

关键词:语义标签关联关系,图像标注,加权支持度,加权置信度,语义概念分层

参考文献

[1]SINGHAI N,SHANDILYA SK.A survey on:'content based image retrieval systems'[J].International Journal of Computer Applications,2010,4(2):22-6.

[2]Rehman M,Iqbal M,Sharif M,et al.Content based image retrieval:survey[J].World Applied Sciences Journal,2012,19(3):404-12.

[3]YUE J,LI Z,LIU L,et al.Content-based image retrieval using color and texture fused features[J].Mathematical and Computer Modelling,2011,54(3):1121-1127.

[4]ZHONG Y P,PENG B,LI J,et al.Semantic mapping of color feature and its application in content based image retrieval[J].Applied Mechanics and Materials,2013(263):2488-2492.

[5]SMEULDERS AWM,WORRING M,SANTINI S,et al.Contentbased image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380.

[6]MAKADIA A,PAVLOVIC V,KUMAR S.Baselines for image annotation[J].International Journal of Computer Vision,2010,90(1):88-105.

[7]YANG Y,HUANG Z,SHEN H T,et al.Mining multi-tag association for image tagging[J].World Wide Web-internet&Web Information Systems,2011,14(2):133-156.

[8]周晓云,孙志挥,倪巍伟.一种基于加权的高效关联规则挖掘算法的设计与实现[J].计算机工程与应用,2004,40(20):17-19.

关联规则中算法论文 篇10

数据挖掘是数据库中的知识发现,是指从存放在数据库、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程,从CRM的角度,数据挖掘应用就是从大量数据中挖掘出隐含的、对决策有潜在价值的知识和规则,能够根据已有的信息对未来发生行为做出结果预测,为企业经营决策、市场策划提供依据。CRM中的应用中比较典型的数据挖掘方法有关联分析、序列模式分析、分类和预测分析、聚类分析、演变分析等。

1 关联规则挖掘的一般步骤

关联规则挖掘的步骤为:

1)预处理与挖掘任务有关的数据。根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。

2)根据D,通过迭代检索出事务数据库中的频繁项目集L,即支持度不低于用户设定的最小支持度的项目集,即频繁项目集。

3)利用频繁项目集L构造出满足用户最小可信度的规则,形成规则集并用可视化方法进行输出。

2 算法改进——改进的频繁项目集算法

在本文中,引入参数c,在旧数据集中发现频繁项目集的过程中,保留那些支持度大于或等于minsup/c(minsup为最小支持度)的频繁项目集,每次数据库中增加新的数据集时,只考虑以前产生的支持度大于或等于minsup/c的频繁项目集和当前增加的数据集,扫描支持度大于或等于minsup/c的频繁项目集的时间比扫描整个旧数据集的时间要短得多。设原有交易数据库中的数据集记为D,新增加的数据集记为d,则整个交易数据库为(D+d),它的基本思想是:

假设已经采用Apriori算法获得数据集D的支持度大于或等于minsup/c的频繁项目集L'(D),L'(D)中的各个项目集的支持数count及用于计算这个项目集的交易总数countall(如有两个交易集D1和D2,对于某个项目集L1,它在D1是频繁项目集,而在D2不是频繁项目集,则L.countall=D1,如果L1在D1及(D1+D2)中都是频繁项目集,则Ll.countall=|D1|+|D2|,以下是在增加新的数据集d后的算法的基本思想:

1)根据新数据集d和L'(D)得到支持度大于或等于(minsup/c)的频繁项目集,加入到(D+d)的支持度大于或等于(minsup/c)的频繁项目集L'(D+d)中。对于项目集L1,Ll L'(D),则Ll.support=(Ll.count(d)+Ll.count(D))/(Ll.countall(D)+|d|),把支持度I.support≥minsup/c)的项目集Ll加入(D+d)的频繁项目集L'(D+d)。

2)遍历新数据集d,用Apriori算法计算新数据集d中的支持度大于或等于(minsup/c)的频繁项目集L'(d),这一步中项目集的支持度的计算方法不同于(1),d中的项目集L1的计算方法为Ll.support=Ll.count(d)/|d|。

3)对于项目集Ll,Ll L'(d)且Ll L'(D十d),则把L1加入到L'(D+d)中。

4)用Apriori算法在得到的支持度大于或等于(minsup/c)的频繁项目集L'(D十d)中找出支持度大于或等于minsup的频繁项目集,即L(D+d)。

3 改进的关联规则算法在数据挖掘中的实际应用

我们选取某钢铁公司的销售数据作为我们的研究对象,来分析关联规则应用于该系统的过程:

3.1 定义问题

根据CRM的具体目标来设置数据挖掘的目标。我们设置要挖掘的目标是通过对交易数据库的分析,来发现哪些产品商品被客户一起购买,利用该结果来制定相应的策略,从而提高厂家的销售收入。

3.2 建立销售数据仓库

我们取“交易”作为主题,而对于其他的主题这里不作考虑,接下去就围绕交易数据来建立数据仓库。

3.3 数据挖掘过程

3.3.1 设置目标数据

我们用Num来表示交易的序号,具有相同的Customer ID和Date Id,那么它们将属于一个单一的购买订单的交易,在客户用户购买一个项目的每条记录都有的交易货物product ID,这对应于交易数据库中的销售合同Contract ID。产品编号product ID对应于交易数据库中的货物。我们根据客户购买的时间Date ID,把它分为不同的时间段,如取定某个日期,对于date小于该日期的数据作为旧数据,用Flag=1来表示,date大于该日期的数据作为新数据,用Flag=2来表示。按这样的标准转换后,我们就得到了可用关联规则挖掘算法进行挖掘的数据。

3.3.2 决定最小支持度和最小可信度

这一步是为特定的数据挖掘过程决定最小支持度和可信度,这两个因素一般由用户决定。数据挖掘应用过程中,用户选择不同的最小支持度和可信度来得到的关联规则,然后比较不同的挖掘结果,从而选择合适的最小支持度和最小可信度。在本例支持度为0.002,可信度为0.15。

3.3.3 执行关联规则挖掘算法

1)用Apriori算法生成旧数据集D的频繁项目集

(1)产生支持度大于或等于(minsup/c)的频繁项目集,

(2)产生支持度大于或等于(minsup/c)的频繁k(k≥2)项集。在第k-1遍遍历的过程中,Ck是所有频繁k项集的一个超集,它是由第k-1遍的频繁项目集Lk产生在以上过程中,完成了q的联合和剪枝两个步骤,例如,L3={{001,002,003),(001,002,004),{001,003,004),{001,003,005),{002,003,004)),那么联合后得到的候选集的集合C4就是{{1,2,3,4},{1,3,4,5}}。

(3)紧接对得到的候选集的集合Ck进行剪枝,如果有任何一个Ck中元素的(k-I)项子集不在Lk-1中,那么我们就必须从Ck中删除这个元素。在以上的例子中,虽然{1,3,4,5}是C4的一个元素,但因为它的一个3项子集{3,4,5}不在L3,所以必须把{1,3,4,5}从C4删除。

通过以上步骤后,我们得到了支持度大于或等于(minsup/c)的频繁项目集L'(D),如果我们要获得支持度大于或等于minsup,那么就可以在以上得到的支持度大于或等于(minsup/c)的频繁项H集基础上,再次利用Apriori算法就可获得支持度大于或等于minsup的频繁项目集L(D)。

2)根据L(D)遍历新数据集d生成频繁项目集

在我们得到旧数据集的支持度大于或等于(minsup/c)的频繁项目集后,我们以它和新数据集d作为新的挖掘对象,采用Apriori算法进行挖掘,这个过程我们也分成频繁1项集和频繁k(k≥2)项集的生成两个部分:

(1)支持度大于或等于(minsup/c)频繁1项集的生成。

计算新数据集d的各个1项集的在d中的出现次数和支持度,放在表中,如下所示:

insert into ttransact(product IDl,product IDnum,seltrannum,alltrannum,support)

select distinct product ID,l,icount=count(*),|d|,count(*)|d|

from d

group by product ID

having count(*)/|d|>=(minsup/c)

(2)支持度大于或等于(minsup/c)频繁k(k≥2)项集的生成。

用Apriori中产生候选集的方法,根据频繁(k-1)项集产生Ck,然后采用频繁1项集的产生方法生成频繁k项集。

3)新数据集d的频繁项目集的生成

新数据集d的支持度大于或等于(minsuplc)的频繁项目集L'(d)的生成过程和旧数据集D的一样,这里就不再介绍。

4)把d中不同于频繁项目集加入L'(D+d)

在得到d的频繁项目集L'(d)之后,把项目集1,1EL'(d)且1e L'(D+d)插入到L'(D+d)中,这一步实现比较简单,这里也不作介绍。

5)根据L'(D+d)求出L(D+d)

通过以上几个步骤我们就得到了支持度大于等于(minsup(c)的频繁项目集,在这个频繁项目集的基础上我们再次采用Apriori算法得到支持度大于或等于minsup的频繁项目集。

对于每个频繁项目集,我们要找到所有的关联规则,如对于频繁项目集{004,005,006},可能的关联规则为{004}=:>{005,006},{005}=>{005,006},{006}=>{004,005},{004,005}=>{006},{004,006}=>{005},{005,006}=>{004},并且删除可信度小于最小可信度的关联规则,如关联规则{004,005}=>{006}的可信度为confidence({004,005}=>{006})=support({004,005,007})/support({004,005})=0.002/0.028=0.071。在这个例子中,我们取最小可信度minconf=0.15,则我们就得到关联规则存储表如表2所示。

将产品代号用产品名称替换后得到表3。

我们可得到规则:

高速线材8.0(35#)=>光圆钢筋18(Q235B)可信度为:0.1513,支持度为:0.024

盘螺5.5(HRB335)=>光圆钢筋20(Q235B)可信度为:0.3118,支持度为:0.032

4 关联规则的表示和评价

关联规则可以用关联表来表示,也可以用形象的二维或三维的图来表示。如其中的一条关联规则表示如下:

规则1:钢锭15吨(m45锰钢)=>钢锭30吨((ti13钛钢),可信度为0.1513,支持度为0.024。该规则可以这样理解:在交易数据库中,每1000笔交易中有24笔的交易,客户同时订购了钢锭15吨(m45锰钢)和钢锭30吨((ti13钛钢),并且每1000笔订购钢锭15吨(m45锰钢)的交易中,有151笔交易同时订购了钢锭30吨((ti13钛钢)。

以上的改进的关联规则算法能够在实际中建议生产部门,销售部门相应改变政策,进行合理的客户决策,以增加产品收入。能够留住老客户,从客户赚取更多的利润,并且对客户的反馈数据进行跟踪,从而产生具有竞争性的市场策略。

摘要:数据挖掘技术在客户关系管理(CRM)中的有效运用可以从与客户有关的大量数据中挖掘出对企业经营决策有价值的知识和规则。本文根据数据挖掘中关联规则的性质以及钢铁企业的自身特点,在经典关联规则算法APriori算法的基础上提出了一种改进的算法,并利用该算法对数据库进行了关联规则挖掘,得到了隐含在数据库中的有用信息。

关键词:客户关系管理,数据挖掘,关联规则算法

参考文献

[1]AlexBerson构建面向CRM的数据挖掘应用[M].北京:人民邮电出版社,2001.

[2]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报(自然科学版),2006,28.

[3]吕美,姬浩.数据挖掘技术在ERP风险防范中的应用研究[J].商场现代化,2006,12.

[4]曾玲,熊才权,胡恬.关联规则在空间数据挖掘中的研究[J].计算机与数字工程,2005,33(6).

[5]侯伟,杨炳儒.多关系关联规则算法综述[J].计算机工程与应用,2007,43(23).

[6]张毅驰,朱巧明.改进的关联规则算法及其应用[J].计算机系统应用,2007,10.

[7]周艳山.数据挖掘中关联规则界法的研究及应用[J],2005,3:28.

[8]彭仪普,熊拥军.关联规则挖掘Apnd算法优化研究[J].计算机工程,2006,32(05).

上一篇:信托模式下一篇:耦合磁共振电能传输