数据挖掘关联技术(精选10篇)
数据挖掘关联技术 篇1
数据挖掘是对数据进行理解分析, 对数据中隐藏的知识进行挖掘发现的技术, 所以也称为数据库中的知识发现 (KDD) 。数据挖掘技术在近几年来的研究越来越深入, 这是数据研究工作者经过长期在大量的应用过程中探索研究的成果。在数据挖掘技术中的关联规则是应用较为广泛的一种算法, 数据研究工作者在大量数据中获取微量信息时, 关联规则能发挥其重要的价值。本研究在对数据挖掘技术相关概念进行分析的基础上, 对关联规则中的集中常用算法进行探讨, 以期为数据研究工作这提供可靠参考。
1 数据挖掘技术介绍
1.1 数据挖掘技术的概念
数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科, 这项技术能从大量含有噪声, 且模糊不确定的实际业务数据中进行计算, 在这些数据中对当前尚未发现, 或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的, 是复杂多样的, 所以数据挖掘得出的分析结果形式能以多种形式表现出来, 可以是具有较强逻辑性的数学表达式, 也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。
1.2 数据挖掘技术分类
数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的, 当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。
2 关联规则挖掘算法
2.1 关联规则种类介绍
关联规则按照不同的标准, 能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集, 是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则, 以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束, 是根据规则所挖掘的约束类型分类的。
2.2 关联规则挖掘算法分析
2.2.1 Apriori算法分析
关联规则算法中的挖掘完全频繁项集中, Apriori算法该类型中最具有应用价值, 影响力最大的算法。Apriori算法主要有两个步骤:
(1) 发现所有的频繁集;
(2) 生成强关联规则。
在Apriori算法中的第一步是最为重要的步骤, 该算法的核心思路是, 给定一个数据库, 在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1—项集, 也就是L1, 1—项集C1, 由L1进行连接得到;接着进行第二次数据库扫描, 将C1中所有支持度大于等于最小支持度的项集组成频繁2—项集, 也就是L2, 候选2—项集C2由L2连接得到。以此类推, 直到找出最大项频繁集。即在进行第N次数据库扫描时, 找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集, 即是LN, N—项集CN要由LN连接得出, 一直到找不出新的选集为止。在这里还要用到Apriori算法性质, 即是频繁项集是频繁项集的子集, 非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。
Apriori算法的操作具有两个明显的缺点。 (1) 该算法的使用需要对数据库进行多次扫描, 因此在读写操作上会花费很多的时间, 从而增加挖掘算法的时间成本, 这种成本的增加不可小觑, 因为它是有数据库存储数据的增加, 以几何级数上升的成本;
(2) Apriori算法会出现众多的候选频繁集, 频发集的产生量在每一步都很大, 这会使算法在广泛度和深入度上的适应性较差。
2.2.2 FP—growth算法分析
FP—growth算法是关联规则算法中属于深度优化的一种算法, 这种算法是深度优化算法中较新且具有较高成效的, 不同于Apriori算法本质的常用算法。FP¬—growth算法的基本基本步骤有两个:
(1) 先将频繁模式树FP—tree生成;
(2) 在生成的FP—tree频繁模式树中搜索频繁项集。
(1) 需要将项集关联信息保留住, 并采用一棵频繁模式树 (FP—tree) 用来容纳压缩后的数据库;
(2) 再将压缩后的FP—tree再分散为几个小的条件数据库, 再分别对这些数据库进行信息挖掘。FP—growth算法相较于Apriori算法, 只需要对数据库进行两次扫描, 不需要多次扫描, 大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集, 大幅度减少了频繁集的搜索空间。也就是说FP—growth算法能明显提高时间和空间效率。但是该算法也有缺点, 在对庞大且松散的数据库进行挖掘处理过程中, 不管是递归计算还是信息挖掘都需要占据大量的空间。
3 总结
综上所述, 本研究对对数据挖掘技术概念和分类进行了简单的介绍, 并对关联规则的种类进行了详细的分析, 对关联规则中常用的两种算法FP—growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点, 怎样在挖掘过程中提高挖掘效率, 满足人们对挖掘系统的需求, 这将是数据研究工作者仍然需要突破的重难点。
参考文献
[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学, 2015.
[2]张弛, 王本德, 李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文, 2015, 27 (02) :74-77, 85.
[3]魏陵博, 付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志, 2014 (05) :517-518.
[4]付先军, 周永红, 王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志, 2015, 17 (09) :92-94.
[5]郭涛, 门瑞.关于数据挖掘技术与关联规则挖掘算法的研究[J].无线互联科技, 2014 (10) :150-150, 264.
数据关联、数据废气和黑暗数据 篇2
很多机构都有数据废气(Data Exhaust),数据不是用完就是被舍弃,它的再利用价值也许你现在不清楚,但在未来的某一刻,它会迸发出来,可以化废为宝。比如,按照工作性质和绩效表现对员工进行更加精细区分,通过合理的编组,既能提高员工满意度有能提高劳动生产力。
黑暗数据(dark data)就是那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。如果黑暗数据用在恰当的地方,也能公司的事业变得光明。
35.数据关联分析
【某公司团队曾经使用来自手机的位置数据,来推测美国圣诞节购物季开始那一天有多少人在梅西百货公司(Mact's)的停车场停车,进而可以预测其当天的销售额,这远早于梅西百货自己统计出的销售记录。无论是华尔街的分析师或者传统产业的高管,都会因这种敏锐的洞察力获得极大的竞争优势。
对于税务部门来说,税务欺骗正在日益的被关注,这时大数据可以用于增加政府识别诈骗的流程。在隐私允许的地方,政府部门可以综合各个方面的数据比如车辆的登记,海外旅游的数据来发现个人的花费模式,使税务贡献不被叠加。同时一个可疑的问题出现了,这并没有直接的证据指向诈骗,这些结论并不能用来去控告个人。但是他可以帮助政府部门去明确他们的审计和其他的审核以及一些流程。】
36.数据废气(Data Exhaust)
【
物流公司的数据原来只服务于运营需要(例如内部车队的优化调度),但一经再利用,物流公司就华丽转身为金融公司,数据用以评估客户的信用,提供无抵押贷款,或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。
有公司已经在大数据中有接近“上帝俯视”的感觉,美国洛杉矶的一家企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。麦当劳则通过外送服务,在售卖汉堡的同时获得了用户的精准地址,这些地址数据汇集之后,就变成了一份绝妙的房地产业的内部数据。】
37.黑暗数据(Dark Data)
【 在特定情况下,黑暗数据可以用作其他用途。Infinity Property & Casualty公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。一家电气销售公司,通过积累10年ERP销售数据分析,按照电气设备的生命周期,给5年前的老客户逐一拜访,获得了1000万元以上电气设备维修订单,顺利地进入MRO市场。】
38.客户流失分析
【美国运通 (American Express,AmEx)以前只能实现事后诸葛亮式的报告和滞后的预测,传统的BI已经无法满足其业务发展的需要。于是,AmEx开始构建真正能够预测客户忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后4个月中流失的客户,已经能够识别出其中的24%。这样的客户流失分析,当然可以用于挽留客户。酒店业可以为消费者定制相应的独特的个性房间,甚至可以在墙纸上放上消费者的微博的旅游心情等等。旅游业可以根据大数据为消费者提供其可能会喜好的本地特色产品、活动、小而美的小众景点等等来挽回游客的心。】
39.快餐业的视频分析
【快餐业的公司可以通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。】
40.大数据竞选
【 2012年,参与竞选的奥巴马团队确定了三个最根本的目标:让更多的人掏更多的钱,让更多的选民投票给奥巴马,让更多的人参与进来! 这需要“微观”层面的认知:每个选民最有可能被什么因素说服?每个选民在什么情况下最有可能掏腰包?什么样的广告投放渠道能够最高效获取目标选民? 如竞选总指挥吉姆·梅西纳(Jim Messina)所说,在整个竞选活中,没有数据做支撑的假设不能存在。
为了筹到 10 亿美元的竞选款,奥巴马的数据挖掘团队在过去两年搜集、存储和分析了大量数据。他们注意到,影星乔治·克鲁尼(George Clooney)对美国西海岸40岁至49岁的女性具有非常大的吸引力:她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。此后,当奥巴马团队决定在东海岸物色一位对于这个女性群体具有相同号召力的影星时,数据团队发现莎拉·杰西卡·帕克(Sarah Jessica Parker,《欲望都市》的女主角)的粉丝们也同样喜欢竞赛、小型宴会和名人。“克鲁尼效应”被成功地复制到了东海岸。
在整个的竞选中,奥巴马团队的广告费用花了不到3亿美元,而罗姆尼团队则花了近 4 亿美元却落败,其中一个重要的原因在于,奥巴马的数据团队对于广告购买的决策,是经过缜密的数据分析之后才制定的。一项民调显示,80%的美国选民认为奥巴马比罗姆尼让他们感觉更加重视自己。结果是,奥巴马团队筹得的第一个1亿美元中,98%来自于小于250美元的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下,这一比例仅为31%。】
41.监控非法改建
【“私搭乱建”在哪个国家都是一件闹心的事,而且容易引起火灾。 非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2.5万宗有关房屋住得过于拥挤的投诉,但市里只有200名处理投诉的巡视员。市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库,并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉等等。接下来,他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希望找出相关性。果然,建筑物类型和建造年份是与火灾相关的因素。不过,一个没怎么预料到的结果是,获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。
nlc202309021312
利用所有这些数据,该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因,但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%,在采用新办法之后,这个比例上升到了70%。】
42.榨菜指数
【负责起草《全国促进城镇化健康发展规划(2011-2020年)》(以下简称“城镇化规划”)的国家发改委规划司官员需要精确知道人口的流动,怎么统计出这些流动人口成为难题。
榨菜,属于低质易耗品,收入增长对于榨菜的消费几乎没有影响。一般情况下,城市常住人口对于方便面和榨菜等方便食品的消费量,基本上是恒定的。销量的变化,主要由流动人口造成。
据国家发改委官员的说法,涪陵榨菜这几年在全国各地区销售份额变化,能够反映人口流动趋势,一个被称为“榨菜指数”的宏观经济指标就诞生了。国家发改委规划司官员发现,涪陵榨菜在华南地区销售份额由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。这个数据表明,华南地区人口流出速度非常快。他们依据“榨菜指标”,将全国分为人口流入区和人口流出区两部分,针对两个区的不同人口结构,在政策制定上将会有所不同。】
43.天气账单
【常言道,“天有不测之风云”,遇到过出门旅游、重要户外路演、举办婚礼等重要时刻却被糟糕的天气弄坏心情甚至造成经济损失的情况吗?全球第一家气象保险公司“天气账单”能为用户提供各类气候担保。客户登录“天气账单”公司网站,然后给出在某个特定时间段里不希望遇到的温度或雨量范围。“天气账单”网站会在100毫秒内查询出客户指定地区的天气预报,以及美国国家气象局记载的该地区以往30 年的天气数据。通过计算分析天气数据,网站会以承保人的身份给出保单的价格。这项服务不仅个人用户需要,一些公司,比如旅行社也很乐意参与。
一家全球性饮料企业将外部合作伙伴的每日天气预报信息集成,录入其需求和存货规划流程。通过分析特定日子的温度、降水和日照时间等3个数据点,该公司减少了在欧洲一个关键市场的存货量,同时使预测准确度提高了大约5%。】
44.历史情景再现
【微软和以色列理工学院的研究人员已开发出一款软件,能根据过去20年《纽约时报》的文章以及其他在线数据预测传染病或者其他社会问题可能会于何时何地爆发。
在利用历史数据进行测试时,该系统的表现十分惊人。例如,根据2006年对安哥拉干旱的报道,该系统预测安哥拉很可能发生霍乱。这是由于,通过此前发生的多起事件,该系统了解到在干旱出现的几年后霍乱爆发的可能性将上升。此外,该系统根据对2007年初非洲大型飓风的报道,再次对安哥拉发生霍乱做出预警。而在不到一周之后,报道显示安哥拉确实发生了霍乱。在其他测试,例如对疾病、暴力事件及伤亡人数的预测中,该系统的准确率达到70%至90%。
该系统的信息来自过去22年中《纽约时报》的报道存档,具体时间为1986年至2007年。不过,该系统也利用了网络上的其他一些数据,了解什么样的事件会带来特定的社会问题。这些信息来源提供了不存在于新闻文章但却有价值的内容,有助于确定不同事件之间的因果关系或前后关系。例如,该系统能够推断卢旺达和安哥拉城市之间所发生事件的关系,因为这两个国家都位于非洲,有着类似的GDP,其他一些因素也很相似。根据这种方法,该系统认为,在预测霍乱爆发方面,应当考虑国家或城市的位置,国土面积有多少是水域,人口密度和GDP是多少,以及近几年是否发生过干旱。
负责此项研发工作的Horvitz表示,近几十年来,世界的许多方面都发生了改变,不过人类的本性和环境的许多方面仍然未变,因此软件可以从以往的数据中了解事情发生的模式,从而预测未来会发生什么。他表示:“对于回溯更久之前的数据,我个人很感兴趣。”
此类预测工具的市场正在形成。例如,一家名为Recorded Future的创业公司根据网上的前瞻性报道和其他信息来源预测未来事件,该公司的客户包括政府情报部门。该公司CEO Christopher Ahlberg表示,利用“硬数据”来进行预测是可行的,但从原型系统到商用产品还有很长的路要走。】
45.Nike+传感鞋
【耐克凭借一种名为Nike+的新产品变身为大数据营销的创新公司。所谓Nike+,是一种以“Nike跑鞋或腕带+传感器”的产品,只要运动者穿着Nike+的跑鞋运动,iPod就可以存储并显示运动日期,时间、距离、热量消耗值等数据。用户上传数据到耐克社区,就能和同好分享讨论。耐克和Facebook达成协议,用户上传的跑步状态会实时更新到账户里,朋友可以评论并点击一个“鼓掌”按钮——神奇的是,这样你在跑步的时候便能够在音乐中听到朋友们的鼓掌声。随着跑步者不断上传自己的跑步路线,耐克由此掌握了主要城市里最佳跑步路线的数据库。有了Nike+,耐克组织的城市跑步活动效果更好。参赛者在规定时间内将自己的跑步数据上传,看哪个城市累积的距离长。凭借运动者上传的数据,耐克公司已经成功建立了全球最大的运动网上社区,超过500万活跃的用户,每天不停地上传数据,耐克借此与消费者建立前所未有的牢固关系。海量的数据对于耐克了解用户习惯、改进产品、精准投放和精准营销又起到了不可替代的作用。】
46.沃尔沃的工业互联网
【在沃尔沃集团,通过在卡车产品中安装传感器和嵌入式CPU,从刹车到中央门锁系统等形形色色的车辆使用信息,正源源不断地传输到沃尔沃集团总部。“对这些数据进行分析,不仅可以帮助我们制造更好的汽车,还可以帮助客户们获取更好体验。”沃尔沃集团CIO Rich Strader说。这些数据正在被用来优化生产流程,以提升客户体验和提升安全性。将来自不同客户的使用数据进行分析,可以让产品部门提早发现产品潜在的问题,并在这些问题发生之前提前向客户预警。“产品设计方面的缺陷,此前可能需要有50万台销量的时候才能暴露出来,而现在只需要1000台,我们就能发现潜在的缺陷。”】
47.McKesson的动态供应链
【在美国最大的医药贸易商McKesson公司,对大数据的应用也已经远远领先于大多数企业,将先进的分析能力融合到每天处理200万个订单的供应链业务中,并且监督超过80亿美元的存货。对于在途存货的管理,McKesson开发了一种供应链模型,它根据产品线、运输费用甚至碳排放量而提供了极为准确的维护成本视图。据公司流程改造副总裁Robert Gooby说,这些详细信息使公司能够更加真实地了解任意时间点的运营情况。McKesson利用先进分析技术的另一个领域是对配送中心内的物理存货配置进行模拟和自动化处理。评估政策和供应链变化的能力帮助公司增强了对客户的响应能力,同时减少了流动资金。总体来讲,McKesson的供应链转型使公司节省了超过1亿美元的流动资金。】
48.纸牌屋与电影业
【《纸牌屋》最大的特点在于,与以往电视剧的制作流程不同,这是一部“网络剧”。简而言之,不仅传播渠道是互联网观看,这部剧从诞生之初就是一部根据“大数据”,即互联网观众欣赏口味来设计的产品。Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。 为此他们开设了年Netflix大奖(点击查看获奖算法),用百万美元悬赏,奖励能够将其电影推荐算法准确性提高至少10%的人。
未来的电影制作成本将大幅降低,一千粉丝足以使电影成功。还是像《技术元素》里说:“目光聚集的地方,金钱必将追随。”】
49.点评与餐饮业
【美国很多州政府在与餐饮点评网lep展开合作,监督餐饮行业的卫生情况,效果非常好。人们不再像以前那样从窗口去看餐馆里的情况,而是从手机APP里的评论!在中国的本地化O2O点评比如大众点评、番茄点等等,消费者可以对任何商家进行评判,同时商家也可以通过这些评判来提升自己的服务能力,在环节上进行更大力度的效率优化。
未来的餐饮行业将会由互联网和社会化媒体上所产生和承载的数据彻底带动起来,会有越来越多的人加入点评中,餐馆优胜劣汰的速度将会大幅加快。】
数据挖掘关联技术 篇3
关键词:数据挖掘,关联规则,算法
1 概述
1.1 课题的研究背景
现代计算机科学技术发展的历史, 同时也是数据和信息加工手段不断更新和改善的历史。随着计算机硬件和软件不断的发展, 尤其是数据库技术与应用的广泛推广, 摆在人们面前的问题出现了, 这些急剧膨胀的信息数据, 如何有效利用这一丰富数据海洋的宝藏为人类服务, 也已成为广大信息技术工作者所重点关注的焦点之一。
传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析, 能够获得一定的数据价值, 这种传统的收集数据技术具有一定的效果, 但当这种方法在面对海量的数据并从中进行数据分析时, 却没有一个比较好的解决方案。无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理, 而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。在这些大量数据的背后隐藏了很多具有决策意义的信息, 如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。
1.2 研究目的和意义
数据挖掘技术是面向应用型的。目前, 在很多重要的领域, 数据挖掘都可以发挥积极促进的作用, 尤其是在如保险、交通、零售、银行、电信等商业应用领域。数据挖掘能够帮助用户解决许多典型的商业性的问题, 其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为, 以及客户流失性分析、客户信用评分、欺诈发现等等。
数据挖掘技术已经广泛的在企业市场的营销中得到了应用, 它以市场营销学的市场细分原理为基础, 通过对涉及到消费者消费行为的信息进行收集、加工和处理, 得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求, 从而能够推出目标消费者下一步的消费方向, 然后以得出来的结论为基础, 对目标消费者和消费群体进行定向的营销, 这与传统的盲目营销的方式相比, 可以在很大程度上节省因营销而产生的开支, 能够提高营销的成功率, 从而可以为企业带来更大的利润, 也能够帮助企业树立起好的口碑。
2 数据挖掘技术的理论基础
2.1 数据挖掘技术概述
数据挖掘的定义是能够从大量、有噪声、模糊、随机、不完全、实际应用数据中提取出隐含在其中的, 又不为人们所知的, 同时具有潜在价值的知识和信息的过程, 又被称为从数据库中的知识发现。数据挖掘不同于传统的数据分析, 二者有着本质的区别, 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。通过挖掘所得到的信息应该具有未知、有效和实用等3个特征。整个KDD通常会有若干个挖掘的步骤组成, 通常, 数据挖掘是其中最重要的一个步骤。
通常情况来讲, 数据挖掘与知识发现这两个概念很容易被人们所混淆, 其主要原因是它们有相似性以及共同点, 并且究其表面信息来讲, 似乎如出一辙。但是就其实质来讲, 两者是有显著不同的[1]。
2.2 数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、偏差分析和时序模式。
2.2.1 关联分析
关联规则挖掘是由2个或2个以上变量来取值的。这些变量之间假如存在着某种关系, 就可以称这些变量之间相互关联。数据的关联在数据库中可以把分为简单、时序和因果的关联, 同时也是目前对数据关联的一个热门的研究方向。
2.2.2 聚类分析
聚类分析就是把数据按其相似性进行分类, 分为不同的类别, 同一类别中的数据是相似的, 不同类中的数据是不相同的。通过聚类分析我们可以发现数据的分布模式, 通过数据的分布模式找出可能的数据属性之间的关系。
2.2.3 分类
分类就是在数据的分析过程中找到一个分类的概念, 然后对这个分类的概念进行详细的概述, 不同的分类代表不同类别数据的信息, 并用对这种分类的详细定义来构造相应的模型, 这种构造的模型一般用决策树的模式或者规则模式进行详细的描述。
2.2.4 预测分析
预测就是希望通过对数据的系统分析, 以找到数据变化的趋势和发展的规律, 并依照这种趋势和发展的规律建立对应的数学模型, 然后用这种数学模型对数据的未来走势和发展进行对应的预测。对预测结果关心的是预测的准确度, 这个准确度通常可以用预测的方差进行度量。
2.2.5 偏差分析
在对偏差的分析过程中能够用到很多的知识, 而数据库中的数据多多少少有着异常的情况, 通过对数据使用偏差分析来发现数据库中数据存在的异常状况, 这对对于数据挖掘来说是非常重要的。
2.2.6 时序模式
时序模式是指通过时间序列的方法来找出的发生概率比较高的数据模式。这种数据模式与回归模式是一样的, 也就是通过使用己知的数据来对数据未来的值进行预测。
2.3 数据挖掘的方法
数据挖掘的方法包括:神经网络方法、统计分析方法、模糊集方法、遗传算法、决策树方法、覆盖正例排斥反例方法等等。
2.4 数据挖掘的对象和流程
根据信息存储格式, 用于挖掘的对象有关系数据库、文本数据源、多媒体数据库、空间数据库、时态数据库、面向对象数据库、数据仓库、异质数据库以及Internet等。
数据挖掘的流程包括:定义问题、数据准备、数据挖掘、结果分析和知识运用等。如下图所示:
2.5 数据挖掘的应用
数据挖掘在各领域的应用还是比较广泛的, 只要该产业的数据具有分析价值并且需要利用数据仓库和数据库, 皆可利用数据挖掘工具来进行有目的的挖掘分析与评估。通常情况来讲, 较为常见的数据挖掘应用多发生在制造业、零售业、财务金融保险、直效行销界、通讯业以及医疗服务等。
3 关联规则的理论基础和算法研究
3.1 关联规则概述
如果假设I是项的集合。那么给定一个交易数据库, 交易数据库中每个事务是I的一个非空子集, 即, 每一个交易都与一个唯一的标识符TID对应。关联规则在D中的支持度是D中事务同时包含X、Y的百分比, 即概率;置信度是包含X的事务中同时又包含Y的百分比, 即条件概率。关联规则是有趣的, 如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
关联规则的数据挖掘过程大体的可以分成2个过程:
1) 首先从数据资料的集合中找出所有相关的高频数据项目组;
2) 接下来对这些高频数据项目组生成相应的关联规则。
3.2 Apriori算法的基本思想
Apriori算法是一种基于数据挖掘的布尔关联规则频繁项集算法, 这种算法具有一定的学术界影响力。这种算法首先需要找出所有的与数据相关联的频集, 频集中包含的项集出现的频率需要和事先定义的最小支持度至少保持一样。接下来由频集产生相应的数据的强关联规则, 这些数据的强关联规则需要满足最小的可信度和最小的支持度。最后使用一开始找到的频集, 利用频集产生期望的数据规则, 产生的数据规则包含集合的项中所有的数据关联规则, 其中每一个数据规则的右部有且只有一项, 在Apriori算法中我们使用的是中规则的相关概念。
3.3 Apriori算法的不足
由频繁k-1项集进行自连接生成的候选频繁k项集的数量是非常巨大的。在验证候选频繁k项集的时候需要对整个数据库进行扫描, 这个扫描的过程是非常耗费时间的。
3.4 Apriori算法的改进
Apriori算法为了减少因自身原有的缺陷, 而带来的消极影响, 以提高Apriori算法在执行方面的效率, 针对Apriori算法本身的缺陷, 并在Apriori算法的基础上提出了几个基于Apriori算法改进的算法。在此介绍几种典型的改进的算法:
1) 基于散列的优化方法
基于散列的优化方法的典型算法就是DHP算法。这种算法利用散列表来产生候选集, 可以用于压缩侯选k-项集的集合q (k>-2) 的大小。基于散列的优化方法算法能够有效地减少了2维和3维的候选项目集的数量, 是对Apriori算法的直接改进。
2) 基于事务压缩的优化方法
AprioriTid和APriorHybrid算法是基于事务压缩的优化方法的典型算法。这种算法的主旨思想是通过减少不必要的事务的个数来达到减少扫描数据库数量的目的。
3) 基于划分的优化方法
基于划分的优化方法的典型改进算法-Partition算法。这种优化方法最大的优势就是扫描数据库的次数较少, 只需对原事务数据库D两遍扫描。
3.5 FP-growth算法的基本思想
FP-growth算法的基本思想是采用分而治之的方法。这种思想需要首先在对数据库进行第一次扫描时导出相应的和Apriori算法相同的频集项的集合与相应的频集项的支持度。
然后可以根据导出的频集项的支持度的大小来对频繁项集进行一个大小的排序, 利用这种方法可以构造一个FP树, 在构造FP-growth树的时候, 可以将数据库中的频集项压缩到一棵频繁模式的树中去, 在压缩的过程中需要保留各频集项的基本相关信息, 根据频集项的FP树中的关联信息, 再将频繁模式的树分化成一些条件库, 之后采用不同的数据挖掘方法对这些条件库进行相应的数据挖掘, 实行数据挖掘的目的是得到生成长度为2的频集项。
3.6 FP-growth算法的优缺点
FP-growth增长算法有着很明显的优点, 主要的优点是:
1) 能够将原来的数据库能够有效地压缩成比较小存储空间;
2) 不会产生候选项集, 所以这种FP-growth增长算法在执行的效率方面会比其他的算法要高很多;
3) 数据挖掘的数据与要远远的小于原数据库。
4 结论
数据挖掘可以应用在很多行业, 目前主要应用在农业、电信、银行、生物、天体、电力、化工、零售、医药等方面。从表面上看, 数据挖掘的应用范围是非常的广泛, 但是在实际应用当中却没有达到很深的程度。根据2010年度的Gartner报告, 数据挖掘技术将会成为未来40年内一项最重要的技术之一。
基于关联规则的数据挖掘技术的发展应是挖掘工具在先进理论指导下的一种改进, 而就目前的情况来看, 数据挖掘技术还有很大的发展空间。虽然数据挖掘是一个过程, 但是与此过程相关联的是以前数据挖掘之前的结果和数据, 那些已获得的数据正是我们想要的, 可以不断的分析和产看, 因为如果没有进行相应的数据挖掘, 是不可能得到有价值的数据。就实际情况来看, 只有那些可以依据过去经验形成的合理的解释才是有价值的。
参考文献
[1]张凤荔.基于关联规则的数据挖掘算法研究[D].电子科技大学, 2010.
[2]梅俊.数据挖掘中关联规则算法的研究与应用[D].安徽工程大学, 2010.
[3]百度百科.http://baike.baidu.com/view/1076817.htm
[4]钱志忠.偏差检测的相关研究[J].计算机工程与应用, 2007, 36 (1) :60-63.
[5]范明, 刘艳波, 尹军.数据挖掘:概念与技术[M].北京:机械工业出版社, 2001.
[6]廖波, 王天明.新型数据挖掘算法[J].计算机学报, 2003, 18 (3) :364-368.
数据挖掘关联技术 篇4
[关键词] 关联规则 图书借阅数据 SAS/EM 数据挖掘
随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,图书馆积累了大量的读者图书借阅历史数据。这些数据背后隐藏着许多重要的信息,但是图书馆的图书管理系统无法发现这些数据中存在的关系和规则,无法预测读者的信息需求,缺乏挖掘数据背后隐藏知识的手段,很难帮助读者找到所需要的信息资源。本文通过SAS/EM(SAS enterprise miner)数据挖掘工具对图书借阅数据进行相关的关联数据挖掘,发现读者的图书借阅数据间的关联关系,并将这些隐藏在数据背后的重要信息形成知识,以指导图书馆的借阅和采购工作。
1 SAS/EM数据挖掘工具
美国SAS研究所于1976年推出的大型国际统计分析系统SAS(statisticalanalysissystem)是一个用来整理数据、对数据进行统计分析和打印报告的大型组合式软件包。1985年SAS研究所推出微机版,此后该软件一直在不断更新版本,本次数据挖掘采用SAS 9.1.3版本。
SAS对数据进行关联规则分析是通过SAS/EM模块中的Association节点实现的。SAS/EM是一个界面图形化、由菜单驱动的、对用户非常友好且功能强大的SAS数据挖掘集成软件。
SAS/EM采用Apriori算法,利用k项集来探索k+1项集,再根据按照目标数据的性质、特点而设定的最小支持度(min_sup)和最小可信度(min_conf)产生规则。所以,利用SAS/EM进行关联规则分析的关键就是确定三个参数,即产生规则的项集最大数目(items)、最小支持度和最小可信度[1]。
在SAS/EM关联规则分析结果中包含满足要求的所有规则(rules)以及每条规则的支持度(support(%))、可信度(confidence(%))、作用度(lift,可信度与期望可信度的比值)等一些信息。在分析结果中,每条规则的支持度表示同时满足规则前件和规则后件的例数占总例数的比例,每条规则的可信度表示在所有满足规则前件的例数中满足规则后件所占的比例。
利用SAS/EM模块中的Association 节点对图书借阅数据进行相关的关联数据挖掘,希望通过SAS数据挖掘模式来发现、认识图书借阅数据间的相关性,提高图书资源的利用率,为读者提供一定的个性化服务。
2 SAS/EM图书借阅数据关联规则数据挖掘过程
2.1 图书借阅数据的获取及数据预处理
数据挖掘的实现是以大容量数据库为前提的。因此数据的可靠性、完整性、有效性就显得至关重要,这是数据挖掘成功的最基本保障[2]。数据准备是否做好也将影响到数据挖掘的效率、准确度以及最终模式的有效性[3]。这些数据一般存储在数据库系统中,是长期积累的结果,往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作。数据准备一般包括数据的选择、净化、推测、转换(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)、数据缩减(减少数据量),减少数据冗余、噪声等因素对数据挖掘项目的影响。数据预处理是提高挖掘效率的重要步骤之一,大约占到整个数据挖掘过程的60%—80%时间[4]。
2.1.1 图书借阅数据的获取 进行图书借阅数据关联规则数据挖掘所使用的数据来自湖南师范大学图书馆图书管理系统ILASII系统数据库,取2006年10月至2007年10月共12个月的湖南师范大学商学院2006级研究生的借阅数据共2 112条。笔者将从图书管理系统中导出的数据以文本方式保存后导入到SQL Server 2000中,通过SQL查询语句进行数据转换、合并、筛选,去除图书馆业务数据中与数据挖掘不相关的冗余项,保存与数据挖掘相关的如操作日期、读者证号、索取号、文献条码号等重要属性,如表1所示。
2.1.2 图书借阅数据预处理对于图书借阅数据挖掘来说,读者借阅历史基本数据中只有读者证号、索取号数据对图书借阅数据挖掘有用,因此在对所获得的数据进行关联规则挖掘之前,需要利用SQL语言对读者证号、索书号数据进行预处理。
将SQL Server 提取的数据以文本方式保存并取名为JYZHSQH52,然后导入Excel表以JYZHSQH52.xsl保存到读者借阅数据预处理文件夹中。运用SQL对读者证号、索书号数据进行预处理,SQL程序如下:
建表Sheet1$:
CREATE TABLE [master].[dbo].[Sheet1$] ([suoqu] varchar (255) NULL, [reader_no] bigint NULL)
由于在SAS/ EM数据挖掘工具中只能够使用事务格式数据进行关联规则数据挖掘,因此利用SQL语言对读者证号、索书号数据进行预处理。SQL程序如下:
Select 读者证号,索取号 from sheet1$
Order by 读者证号
运行后得到预处理后的读者证号、索书号数据表,如表2所示。
由此形成的预处理后的读者证号、索书号数据就可以运用SAS/EM进行关联规则数据挖掘了。
2.2 SAS图书借阅数据关联规则挖掘
只有将经过预处理的图书借阅数据导入SAS的数据库,才能进行有关的关联规则挖掘,从而得到关联规则挖掘结果。进入SAS系统后,导入JYZHSQH52.xsl,保存到sheet1$中。程序如下:
Proc import out=work.jyzhsqh52
datefile= "E:硕士论文.数据读者数据挖掘图书借阅数据预处理结果
zzhsqh.xls"
dbms=excel replace;
sheet="Sheet1$";
getnames=yes;
mixed=no;
scantext=yes;
usedate=yes;
scantime=yes;
run;
在SAS中,因为要经常使用图书借阅数据,为了避免重复导入数据的步骤,就要选择SASUSER作为永久性的Library(库),建立Member(成员名称)为JYZHSQH52的文件夹以存放将要进行数据挖掘的数据。并在C盘中建立名称为JYZHSQH52.sas的文件夹,以保存可以在SAS系统运行的相关数据,供在以后的相关数据挖掘过程中重复调用。最后将在SAS系统中建立名称为SASUSER.JYZHSQH52的数据库。打开SASUSER.JYZHSQH52数据库,可以看到一个由读者证号和索取号组成的表,如图1所示。
2.3 SAS/EM关联规则数据挖掘结果分析
运用SAS/EM模块的Association节点对图书借阅数据进行关联规则数据挖掘的过程是:在SASUSER.JYZHSQH52数据库建立后,要对数据集中的索取号进行抽样,抽样方式为聚类并指定聚类数为13,运行后生成66个样本数据;进行关联规则分析前,要在General中的Analysis mode中选择Association为分析模式,Minimum Transaction Frequency to Support Associations是要设置规则最小支持度(有三种方法),在此特别指定10%为最小支持度;Maximum number of items in an association设置一条关联规则中包含的最大项数,特别指定规则的最大项数为4;Minimum confidence for rule generation 是要设置规则的最小置信度,特别指定规则的最小置信度为10%。最后,对样本数据进行关联规则分析并获得关联规则28条,如图2所示。
对于运用SAS/EM数据挖掘工具对图书借阅数据进行关联规则数据挖掘所产生的规则,可以看到按照预先设定的最大项集数为4时Relations所包括的2个数据间关系、3个数据间关系及4个数据间关系。从分析结果中的第1条规则来看,F279.241是管理类书籍,规则的前项,F127是人力资源方面的书籍,规则的后项,其支持度为10.53%、置信度为100%,其意义为借阅管理类方面书籍的学生100%会借阅人力资源管理方面的书籍。从产生的规则来看,只有那些支持度≥10%和置信度≥60%的规则才具有实际意义,对于那些支持度和置信度不符合数据挖掘要求的规则要删除掉。
3 结束语
运用SAS/EM数据挖掘工具对图书借阅数据进行挖掘所得到的规则,与图书借阅的实际情况比较相近,说明关联挖掘结果是有效的。因此,所形成的知识对图书馆管理工作起到以下指导作用:
对于图书借阅工作来说,可以提供图书个性化借阅服务,提高图书资源的利用率。如学生借阅了管理类方面的书籍,就可以向他推荐人力资源方面的书籍,因为从关联规则挖掘的结果来看这两类书的关联性很强。
对于图书采购工作来说,可以加强图书采购的目的性,优化图书资源结构。如管理类的图书和人力资源类的图书的关联性很强,因此定购管理类的图书数量要和人力资源类的图书相匹配。
参考文献:
[1] 段鲲,武建虎,贺佳.关联规则在小样本临床资料中的应用.深圳中西医结合杂志,2007(2):91-94.
[2] 朱静.成功实施数据挖掘的因素分析.[2010-10-20].http://portal.vsharing.com/ShowArticle.aspx?id=471027.
[3] 赖娟.数据挖掘技术及其应用分析.现代商贸工业,2009(14):283-284.
[4] 和春慧.数据仓库中数据预处理的研究与算法实现[学位论文].吉林:吉林大学,2004.
数据挖掘关联技术 篇5
在竞争日趋激烈的商品销售中, 促销活动正扮演着越来越重要的角色。促销活动一直贯穿于商品销售过程之中。合理的促销活动曾经帮助商家创下了辉煌的销售成绩, 但同时不合理的促销活动也屡见不鲜。一些花样百出的促销活动, 往往对于商品的宣传或销售业绩的提升并没有起到实质性的作用, 并且还造成了促销成本的极大浪费。而随着时代的不断发展和消费群体及消费习惯的变化, 促销活动也出现了新的特点:
(一) 消费人群精确化
现在的促销对象不再是针对整个大众化的人群, 而是把消费对象进行进一步的细化。根据不同的消费群体的消费特征和消费习惯, 设计特定促销方案, 做到了精确化促销;使促销活动的宣传费用、组织实施费用发挥得更加有效, 促销活动的效果也大大增强。
(二) 产品销售关联化
通过对消费者需求的不断分析和研究, 发现越来越多的商品之间呈现较强的关联性。同时, 随着互联网络的不断发展和通信平台的升级完善, 即使是不相关的商品之间都能够通过庞大的信息平台实现联盟。通过厂商之间以及品牌之间的联合促销代替原来的单独促销比较, 能够对市场产生更大的合力。联合促销可以对各个单独的商品资源进行重新整合, 打造多赢的市场格局。
(三) 促销活动战略化
随着市场经济的不断发展, 市场竞争日趋激烈, 商家必须思考如何更合理有效地运用促销:既要对抗竞争对手, 争夺市场分额, 又要保证利润空间;既要有效吸引消费者, 又要维护和提升品牌形象;既要保证短期局部利益, 又要考虑长期整体利益。从一开始就应该制定出促销活动的整体规划。
(四) 促销宣传多样化
在促销方法日趋多样的同时, 消费者对促销活动也会有更多的选择, 这就需要商家在进行促销活动前进行充分的宣传, 更需要多个部门配合进行。同时, 还要根据消费者的新变化, 对新的宣传媒体, 比如手机短信、电子邮箱、广播电视、现场广告等综合利用, 从而达到多渠道促销宣传。
面对促销活动的新特点, 我们需要对促销的各个方面进行详细的分析, 并从整体对促销活动进行规划。面对竞争激烈的市场和日趋理性的消费者, 商家应该更详细和精确化的处理促销活动的每一方面, 这就要求商家用更科学的方法来获取促销信息并制定促销策略。面对收集的海量客户信息, 数据挖掘技术给我们提供了发现促销关联和规则的方法, 从而帮助我们进行促销策略的分析和制定。
二、数据挖掘技术的功能
所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程。通过数据挖掘技术, 能够找出已有数据之间的潜在联系, 从而促进信息的传递, 对将来的趋势和行为进行预测, 从而很好地支持人们的决策。随着数据处理工具、先进数据库技术及万维网技术的迅速发展, 不断涌现出大量的形式各异、类型复杂的数据, 要处理此类数据以使价值最大化, 引入了Web数据挖掘。
数据挖掘系统需要能够挖掘多种类型的模式, 以满足不同用户的需求和应用。其中的频繁模式在商业统计分析中起到了巨大的作用。频繁模式是在数据中频繁出现的模式, 包括项集、子序列和子结构三种类型。挖掘频繁模式能发现数据中的有趣的关联和相关, 其常用的分析方法有以下几种:
第一, 关联规则挖掘技术。Web数据挖掘中数据关联规则的发现是找到客户对网站上各种文件之间访问的相互联系。比如用户之间、页面之间以及用户浏览页面和网上行为之间的潜在关系, 通过关联挖掘可以从杂乱无规则的客户信息中挖掘出隐含的有用信息, 有利于企业更好地组织站点。
第二, 聚类分析技术。在电子商务中, 聚类多指客户群体聚类和Web网页聚类, Web网页聚类提供有针对性的网络服务应用, 它主要帮助是市场分析人员从客户数据仓库中发现不同购买模式的客户群, 通过聚类分析可以使电子商务组织者更好的了解客户。
第三, 分类分析技术。分类时建立模型的数据对象的类别是已知的, 可挖掘出某些共同的特性, 而这一特性可对新添加到数据库里的数据项进行分类。在Web数据挖掘中, 分类技术可以得到用户个人信息、共同的访问模式以及访问某一服务器文件的用户特征。
第四, 统计分析方法。通过对Session文件的分析, 可以对感兴趣的信息进行统计, 一般包括各种统计数据, 如最频繁访问的N个页面、每页平均浏览时间、网址路径平均访问长度等, 也可能涉及一些关于限制的错误分析, 如统计非法IP、无效URI和未授权访问等, 这些信息对于提高系统性能, 加强网站安全起到辅助决策作用。
三、使用数据挖掘技术进行促销决策
根据上面介绍的数据挖掘技术, 现提出一种基于关联分析挖掘频繁模式的促销策划方案。其具体步骤如下:
(一) 明确促销目的
常见的促销目的有:增加铺货量;扩大销量;新品上市;处理库存;对抗竞争。概括起来促销的目的就是增加销量和推荐产品。在明确了促销目的后, 待销售的商品也就随之确定。
(二) 锁定目标人群
由于每一类人群的购物喜好和消费习惯都不相同, 商家就必须针对不同的商品锁定相应的目标人群。当明确了待促销的商品后, 我们可以通过数据挖掘技术对以往的销售记录进行挖掘, 找出该类商品的销售规则, 从而锁定目标人群。
在挖掘目标人群时, 首先要根据该商品的特性设定需达到的参数, 如支持度support、置信度confidence等。再由销售记录中顾客的详细信息中选取感兴趣的若干属性进行挖掘, 找出与该商品相关的多维频繁项集。从得到的频繁项集中的顾客属性锁定消费人群。例如, 当确定要对商品A进行促销, 而感兴趣的顾客属性是顾客的年龄段age和收入income (也可根据需要选取或添加其他属性) , 则可把待挖掘模式设定为:
其中, X表示顾客的姓名或ID号;value表示该属性的值;buy属性指明的是所购买的商品, 这里都选定为A商品;Support为支持度, 表示满足该模式的事务在所有参与挖掘的事务中所占的百分比, 如上式support=10%表示100个事务中有10个满足上述条件;confi-dence为置信度, 表示该规则的强度, 如上式confidence=50%, 表示满足规则左端条件时有50%的可能会同时满足规则的右端条件。
根据挖掘模式中的属性项构造销售事务的数据立方体。由于选取了age和income两个属性, 所以要构造2-维立方体如图1所示 (如果选取属性较多要构造相应的多维立方体) 。
对每个由这两个属性划分的小立方体进行赋值, 该值达到预先设定的参数的小立方体将被进行标识, 根据标识的立方体的位置先进行合, 简化挖掘出的规则, 最终锁定对商品A满足要求的人群。锁定目标人群完成。
(三) 确定促销时间
促销时间可根据两种规则模式进行挖掘, 一种模式是针对待销商品A进行挖掘, 找出该商品的销售旺季, 如季度quarter、月份month等。其挖掘模式可设定为:
另一种模式是针对上面挖掘出的目标人群, 挖掘其习惯的消费发生时间, 如周中还是周末weekend (值yes/no) , 白天还是夜晚night (值yes/no) , 商场还是网络以及哪一个时间段time等。其挖掘模式可设定为:
根据模式中的属性构造数据立方体, 挖掘确定促销进行的时间。
(四) 选取促销策略
具体的促销策略可谓五花八门, 层出不穷, 常用的促销策略有:打折、赠品、积分、抽奖、联合销售。总之, 所有的促销策略都是变向的增加商品的附加价值。这里主要讨论赠品和联合销售。这两种促销策略都是靠除本商品外的附加商品来吸引消费者, 那么赠品和搭配商品的选取就显得尤为重要。我们可以通过数据挖掘的单维关联规则模式进行挖掘。
其挖掘模式可设为:
其挖掘结果可能为:buy (X, A) →buy (X, B) ∧buy (X, C) , 此规则说明购买商品A的顾客很可能同时购买商品B和C。那么如果促销目的是为了提高待销商品的销量, 则可以选取商品B或C作为商品A的赠品;或者对商品A、B、C进行联合销售。通过商品B、C提高商品A的销量。如果促销的目的是推荐新产品D与A属于同一类商品, 也可以根据该规则, 将其作为商品B或C的赠品等方法。
(五) 促销策略检验
对挖掘出来的关联规则进行相关分析, 通过计算各商品之间的提升度lift来判断设计出来的策略是否合理。如果购买商品A和购买商品B这两个事件是互不影响的, 则称商品A和B不依赖, 即P (AUB) =P (A) P (B) ;否则就称A和B是依赖的, 我们用提升度lift来度量其依赖关系:
若lift (A, B) =1时, 说明商品A和B的销售相互之间没有影响;若lift (A, B) >1, 说明商品A和B的销售是正相关, 可以相互促进;而当lift (A, B) <1, 说明商品A和B的销售是负相关, 一种商品的销售会引起另一种销量的降低。并且, 当一个商家针对多个商品进行促销时, 还可通过该检验分析各促销活动之间是否会发生冲突而引起销量的降低。
四、总结
数据挖掘技术能通过挖掘各种频繁模式找到各种销售事务之间的关联, 从而商家从海量数据中识别客户的购买行为特征, 发现客户购买模式和趋势。它基本可以满足新形势下促销活动精确化、数据化以及战略化的要求。数据挖掘丰富的挖掘模式以及多样的分析方法还可以从另外的角度对促销活动提供帮助, 甚至挖掘并延伸出更新颖的促销形式, 还有待于进一步的研究和发现。
摘要:促销活动在现今的商品销售中发挥着巨大的作用。随着时代的发展, 促销活动也展示出了新的趋势, 这就要求商家必须对促销活动进行科学和量化的分析, 制定出更精确和具有针对性的策略。文章通过对数据挖掘技术的研究, 提出一种基于关联规则发现频繁模式的方法, 进行促销决策。
关键词:促销,数据挖掘,关联规则
参考文献
[1].夏火松, 蔡淑琴.知识管理与市场营销专家知识的分形特征[J].武汉科技学院学报, 2001 (1) .
[2].陈京民.数据仓库与数据挖掘技术[M].电子工业出版社, 2002.
数据挖掘关联技术 篇6
移动学习即M—learning,是由E—learning延续发展而来,借助于网络和现代先进的通讯设备,使学习不再受时间、地域或者教师的限制,这是移动学习最大的优点。但作为一种全新的学习方式,对于移动学习的概念界定,目前仍没有一个统一的认识。一般认为国外学者Alexzander Dye等人对M-learning的定义较为具体:移动学习是一种在移动计算设备帮助下的能够在任何时间、任何地点发生的学习,移动学习所使用的移动计算设备必须能够有效地呈现学习内容并且提供教师与学习者之间的双向交流。
数据挖掘(Data Mining)就是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘利用了如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论[1]。
建在网站上的移动学习平台,可通过数据挖掘技术对网站客观数据进行分析研究,比如移动学习使用者的特征、对知识资源个性化推荐、知识资源需求趋势等数据,以便更好的开展移动学习。
1 移动学习网站数据挖掘的研究分析
1.1 移动学习的应用模式
由于移动学习理论的不完善和移动技术的限制,国内外有关移动学习应用模式的研究还处在发展期。根据无线通信技术的现状,目前可以实施的移动学习基本上有基于短消息的移动学习、基于连接浏览的移动学习和基于校园无线网络的准移动学习三种形式[2]:
1.1.1基于短消息的(SMS-MMS)移动学习学习者通过手机等学习终端,将短信息发送到位于互联网教学服务器,教学服务器分析用户的短信息后转化成数据请求,并进行数据分析、处理,再发送给学习者手机。利用这一特点,可实现学生通过无线移动网络与互联网之间的通信来完成一定的教学活动。
1.1.2基于连接浏览的(B/S)移动学习对于基于短消息的移动学习来说,其数据通信呈间断的,不能实时连接,因而不能利用该种方式实现移动学习终端对学习网站的浏览,也就很难实现多媒体教学资源的传输和显示。随着通信芯片的DSP性能的提高以及3G通信协议的推出,移动通信协议将得到很大改进,通信的速度也会大大提高,基于连接浏览方式的移动学习将会得到广泛的应用。该方式是学习者利用移动学习学习终端经过电信的网关后接入互联网,通过wAP协议访问教学服务器,进行浏览、查询和实时交互,类似于普通的互联网用户。
1.1.3基于校园无线网络的(C/S)移动学习所谓准移动学习是指可以在局部范围内(如一个校园、一栋楼、一片户外学习区或一个教室)实现移动学习。从3G技术不同标准之间的争论和产品开发进展来看,在全球或全国范围内完全实现连接浏览的移动学习估计还需要一段时间,但无线局域网络(WLAN)技术相对比较成熟了,可以作为准移动学习的实现技术,这也是当前作为校园面授教育的补充移动学习最现实可行的方式。
移动学习正日益成为教育技术研究的热点领域,在这一学习方式下,学习能够紧随着学习者的需要而发生,满足学习者随时、随地、按需的学习需求,并为新技术融合、改进、优化传统教学流程注入了新的元素。随着全球教育信息化基础设施的广泛普及及网络化学习相关技术的突破,传统教育观念、理论和模式正在发生转变,与此同时,无线和移动技术的发展正使得信息成为一种随处可得的环境,这些技术的教育应用加速着信息时代的教育变革进程,移动学习正是这一变革进程中出现的融合了新技术、新理论的新型数字化学习方式。
1.2 Web数据挖掘的研究分析
数据挖掘技术在各行各业的使用都是较为突出的,而基于Web的数据挖掘正是当前热门研究方向之一,而且其应用范围广阔,潜力巨大。Web挖掘技术也在不断提出和改进之中,一般地Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。目前Web挖掘研究的主要方向包括:Web文本的自动分类、多层次Web信息库的建立、Web log挖掘,以及其它涉及信息安全、搜索的效率、查询结果的质量、搜索工具的可伸缩性等方面的问题研究。可以预见,随着XML的兴起,Web页面会蕴涵更多的结构化和语义信息,这会使Web挖掘变得更有效。Web通过数据挖掘技术,可以使我们得到相关的信息数据:(1)内容数据,即用户在网页上看到的信息,主要是文本与图像等;(2)结构数据,描述网页内容的组织方式的数据,其中,页内结构以HTML和XML表示成树形结构,页间结构以连接不同网页的超链接结构表示;(3)访问特征数据,主要指与用户访问相关的IP地址、URL、访问日期、访问时间长度等数据;(4)用户背景数据,包括用户的注册信息,如姓名、年龄、籍贯、收入、职业、学历、专业、需求重点、个人爱好等,典型的数据挖掘系统如图1所示。
2 移动学习关联规则Apriori算法
关联规则挖掘一直是数据挖掘中最经典的研究方向,每一个Data Miner的入门内容多多少少都与之有关。关联规则反映的是一个事物与其他事物之间的相依性或相联性。如果两个乃至多个事物之间存在一定得关联关系,那么其中某个事物之出现就可以通过其他事物之出现而被预料到。关联规则概念与相关性的区别是相关程度仅仅流于表象,而关联规则往往是具有内在的联系。
Agrawal和Srikant于1994年提出了基本算法Apriori,提出了挖掘关联规则的一个重要方法。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是经典且很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识(prior knowledge)而命名的。Apriori算法使用了一种逐层搜索的迭代方法,首先找出所有频繁1项目集L1,L1用于找频繁2项目集L2,L2用于找频繁3项目集L3,如此下去,直到不能找到频繁项目集为止。具体来讲,Apriori算法的第一步是简单统计所有含一个元素的项目集出现的频率,来决定频繁1项目集;在第k步,分两个阶段,首先调用函数Apriori-Gen,通过第(k-1)步中生成的频繁(k-1)项目集来生成候选频繁k项目集;其次扫描数据集计算候选频繁k项目集中各元素在的支持度。算法中的k表示候选频繁k项目集,所谓候选是指候选中的项目集有可能成为频繁项目集,而不属于候选的项目集均不可能成为频繁项目集。为了提高逐层搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,又称为Apriori性质来帮助有效缩小频繁项集的搜索空间。Apriori性质:频繁项集的所有非空子集也必须是频繁的。根据定义:如果一个项集I不满足最小支持度阈值min_sup,那么该项集I就不是频繁项集,即p(I)<min_sup。若增加一个项A到项集I中,新项集(I∪A)在整个数据集上所出现的次数也不可能多于原项集I出现的次数,(I∪A)不可能是频繁的,即P(I∪A)<min_sup。根据反单调性:即若一个集合不能通过测试,该集合所有超集也不能通过同样的测试[3]。
3 数据挖掘技术在移动学习中的应用
3.1 数据挖掘的一般流程如下[4]:
3.1.1定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
3.1.2数据准备:数据准备包括:选择数据—在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理—进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
3.1.3数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
3.1.4结果分析对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
3.1.5知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。
3.2 数据挖掘在移动学习中应用的功能分析
3.2.1 用户:
主要目的是实现系统与用户的交互,给用户提供方便简洁的交互界面。用户可以按照自己的需求向系统输入数据挖掘要求,在经过系统任务处理之后,用户可以向用户展示挖掘的结果。在数据挖掘的过程中,用户代表用户对为自己提供服务的其它用户进行控制,同时用户与挖掘系统的交互信息及将挖掘的结果保存到用户知识库中。由于用户知识库的存在,在用户与系统长期交往后,用户能够自发的快速定位用户的兴趣点。
3.2.2 用户知识库:
用户知识库主要存放使用系统的用户信息和用户与系统的交互信息,交互信息包括用户请求与系统数据挖掘结果,主要目标是用于收集用户的兴趣点,以提高系统效率及服务质量。对于形式各异的挖掘知识表示,可在存储上可为每一种挖掘算法设立一个独立的格式表来存储。
3.2.3 数据预处理:
集成在数据挖掘模块上,有时候为了提高挖掘效率也可以把它用一个独立的预处理来实现。主要工作为:从本站点中寻找与挖掘任务有关的数据,然后进行数据的清理,集成和转换等工作,向数据挖掘提供适合挖掘的数据。
3.2.4 数据挖掘:
主要工作是按照用户的要求对指定的数据进行挖掘,完成系统的挖掘功能。
3.2.5 全局数据挖掘及联盟:
全局数据挖掘负责控制其所管辖的联盟协作交互及分配挖掘任务和接收他们的挖掘结果,它主要用于两方面的协调:对内用于协调和控制联盟中各个用户之间的协作交互,对外通过全局数据挖掘实现同层间的协作交互。处于不同联盟中的用户之间的信息通过联盟进行交互。
4 结束语
M—learning带来信息量的急剧增长,对信息提取提出更高要求,很难再依照传统方法在海量数据中寻找教育决策的依据。因此有必要借助数据挖掘对M-learning的应用进行挖掘,发现其中隐藏的规律,为信息技术与教育整合提供依据。
参考文献
[1]武书彦.数据挖掘的探索性研究[J].制造业自动化,2010,(33):98-99.
[2]钟志强.基于Java技术手机移动学习开发研究[D].沈阳:沈阳师范大学,2008:7-8.
[3]王宇.基于多Agent协作交互的数据挖掘[D].广东:广东工业大学,2011:27-28.
关联规则挖掘技术在商场中的应用 篇7
随着商场信息化的建设, 商场积累了大量的销售数据。面对海量销售数据和大量繁杂信息, 如何从数据海洋中提取有价值的知识, 为商场的管理提供决策支持, 提高商场的竞争力, 已经成为商场管理者关注的热点。要解决这一问题, 传统的数据库技术已经很难满足商场管理者的需求。在这一背景下, 数据挖掘技术应运而生。数据挖掘技术就是从大量的数据中挖掘出有效的、新颖的和潜在有用的知识, 目的是为企业的管理决策提供支持。
在数据挖掘的知识模式中, 关联规则挖掘是非常重要的一种, 也是非常活跃的一个分支。关联规则挖掘能发现大量数据中项集之间有趣的关联或相关关系。随着大量数据不断地收集和存储, 许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系, 可以帮助许多商务决策的制定, 如分类设计、交叉购物和促销分析。关联规则可以广泛应用到商场、金融、政府、通信等各个领域。
二、关联规则数据挖掘技术
1.关联规则的定义及问题的描述
假设是项的集合。设任务相关的数据D是数据库事务的集合, 其中每个事务T是项的集合, 使得。每一个事务有一个标识符, 称作TID。设A是一个项集, 若事务T包含A, 则一定有。这里用下面的表格来说明:
定义1 关联规则采掘的数据集记为D (D为事务数据库) , , 为一个事务;tk中的元素称为项目 (Item) 。
定义2 设是D中全体项目组成的集合, I的任何子集A称为D中的项目集 (itemset) , 称集合A为k项目集。设tk和A分别为D中的事务和项目集, 如果, 称事务tk包含项目集A。
定义3 数据集D中包含项目集A的事务数称为项目集A的支持数, 记作。D中事务总数记作|D|, 项目集A的支持度, 记作:
若support (A) 大于或等于用户指定的最小支持度minsupport, 则称A为频繁项目集, 否则称A为非频繁项目集。
定义4 关联规则是形如的蕴涵式, 其中, 并且。规则在事务集D中出现, 具有支持度s, 其中s是D中事务包含 (即A和B二者) 的百分比, 其是概率。规则在事务集D中具有置信度c, 如果D中包含A的事务的同时也包含B的百分比是c, 这是条件概率P (B|A) , 即:
支持度和置信度是描述关联规则的两个重要概念, 前者用于衡量关联规则在整个数据集中的统计重要性, 后者用于衡量关联规则的可信程度。一般来说, 只有支持度和置信度均较高的关联规则才可能是用户感兴趣的、有用的关联规则。
通常用户根据采掘需要指定最小支持度 (记为minsupport) 和最小置信度 (记为minconfidence) 。前者描述了关联规则的最低重要程度, 后者规定了关联规则必须满足的最低可靠性。
定义5 如果supportminsupport且confidenceminconfidence, 称关联规则为强规则, 否则称关联规则为弱规则。
关联规则的挖掘问题就是在D中求解所有支持度和置信度均分别超过minsupport和minconfidence的强关联规则。
2.关联规则问题的挖掘过程
关联规则挖掘在需要挖掘的源数据准备好的基础上, 需要以下过程完成挖掘任务:
(1) 找出所有频繁项集:
即所有支持度不低于用户给定的最小支持度的项目集。
(2) 由频繁项集产生强关联规则:
即从⑴得到的频繁项集中开采置信度不小于用户规定的最小置信度的规则。
(3) 结果评价和解释:
根据用户需求, 对挖掘的结果进行评价, 选择满足要求的模型, 结合实际问题, 做出评价和解释。
其中⑴是关联规则挖掘算法的核心, 挖掘关联规则的总体性能由第一步决定。要求解第一个子问题, 往往需要多次扫描数据库D, 这意味着大量的时间将花在数据库扫描和I/O操作上。现有的各种关联规则采掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等。
三、关联规则挖掘在商场中的应用
由于商场行业的特殊性, 销售管理信息系统的成熟和普及, 商场积累了大量的销售数据。通过关联规则挖掘技术, 从销售数据中, 我们可以根据商场管理者关心的问题 (如每种商品的最佳订货量、商品的最佳组合摆放方式、顾客需求等) 挖掘出商品的关联性、顾客的购物行为规则、市场开拓和趋势分析、促销活动分析、销售人员业绩评价等知识。下面, 以商品关联规则分析和销售人员业绩评价分析为例说明关联规则挖掘在商场中的应用。
1. 商品关联规则挖掘分析
下面以一个例子说明, 设I={milk, bread, orange, banana}, 共四种商品属性, 在某个商场中, 存在表2所示的销售记录。其中的每条记录的含义是一次购买行为所购买的商品。
根据销售记录, 我们将所有属性项为1个, 2个和3个的属性集合以及相应的支持度列举在表3中。
假设minsupport=35%, minconfidence=50%, 则频繁项目集包括{{bread}, {milk}, {orange}, {banana}, {bread, milk}, {bread, orange}, {bread, banana}, {orange, banana}}, 可以得到表4所示的规则。
根据上述关联规则, 可以发现超市顾客的购买习惯和偏好, 销售管理人员可采取如下措施:如商场市中60%的客户在购买商品bread的同时, 有75%会购买milk, 这样可以将商品bread、milk放置在一起, 便于顾客购买, 或者说顾客买了bread后, 销售人员向顾客推荐milk, 尤其是新的产品促销;另外, 还可以根据bread和milk购买量和比例, 来确定进货的情况。这样商场可以扩大销售额, 提高了服务水平。
2. 关联规则挖掘在评价销售人员能力方面的应用
一个商场的销售增长率, 赢利能力, 除了与产品质量, 市场供求有直接联系外, 与公司销售人员的能力也有密切关系。如某公司对50名销售人员进行测试, 得到他们各方面的测试成绩, 有创造力成绩 (用X1表示) , 客观推理成绩 (用X2表示) , 想象力成绩 (用X3表示) , 以及每个销售人员的销售增长率 (用X4表示) , 数据格式如下: (只写出了部分数据)
根据X1、X2、X3、X4的关联分析, 我们得到以下规则:
(1) 的support=8%, confidence=89.6%
(2) 的support=4%, confidence=95.3%
规则 (1) 说明销售人员的创造力成绩为14至18, 客观推理成绩为18至20时, 其销售增长率大于等于105的可能性是89.6%, 支持度为8%;规则 (2) 说明销售人员的创造力成绩为14至18, 客观推理成绩为18至20, 抽象推理成绩为10至12时, 其销售增长率大于等于105的可能性是95.3%, 支持度为4%。
这样, 在选择销售人员时, 可以他们的这三种成绩作为依据, 从而科学地决定人选。销售人员的能力还要从多方面综合考虑, 我们仅就获得的这几种成绩来挖掘它们与销售增长率之间的关联规则, 随着多方面大量数据的获得, 数据挖掘工具必将带来更准确有价值的信息。
四、结束语
数据挖掘是一个飞速发展的领域, 不断有新的技术和系统出现。而如何将这一技术应用于实际工作中, 还需要做更深一步的开发与研究, 作为一个年轻的和很有希望的领域, 数据挖掘依然面临着很大挑战和许多亟待解决的问题, 本文仅对关联规则挖掘技术进行了讨论, 并研究了在商场中的应用。随着关联规则数据挖掘技的研, 其必将有更广阔的应用领域。
摘要:在关联规则数据挖掘概念的基础上, 分析了关联规则挖掘技术实施的步骤, 并从商品关联挖掘分析、销售营业员评价挖掘分析两个方面提出了关联规则数据挖掘技术在商场中的应用。
关键词:数据挖掘,关联规则,商场,应用
参考文献
[1]毛国君段立娟:数据挖掘原理与算法[M].北京:清华大学出版社, 2005
[2]高洪深:决策支持系统 (DSS) :理论·方法·案例[M], 北京:清华大学出版社, 2000
[3]王珊:数据仓库技术与联机分析处理[M].科学出版社, 1998
数据挖掘关联技术 篇8
一、关联规则的定义
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品 (项) 之间的联系, 找出顾客购买行为模式, 如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
二、关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:关联规则挖掘的第一阶段必须从原始资料集合中, 找出所有高频项目组 (Large Itemsets) 。高频的意思是指某一项目组出现的频率相对于所有记录而言, 必须达到某一水平。关联规则挖掘的第二阶段是要产生关联规则 (Association Rules) 。根据定义, 这些规则必须满足最小支持度和最小可信度。
三、关联规则分类
1. 基于规则中处理的变量的类别, 关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的, 它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来, 对数值型字段进行处理, 将其进行动态的分割, 或者直接对原始的数据进行处理。
2. 基于规则中数据的抽象层次, 可以分为单层关联规则和多层关联规则。在单层的关联规则中, 所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中, 对数据的多层性已经进行了充分的考虑。
3. 基于规则中涉及到的数据的维数, 关联规则可以分为单维的和多维的。在单维的关联规则中, 我们只涉及到数据的一个维;而在多维的关联规则中, 要处理的数据将会涉及多个维。
四、关联规则挖掘相关算法
1. Apriori算法:
使用候选项集找频繁项集。Aprior算法是关联规则挖掘的基本算法, 是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。首先找出所有的频集, 这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则, 这些规则必须满足最小支持度和最小可信度。
2. 基于划分的算法。
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块, 每次单独考虑一个分块并对它生成所有的频集, 然后把产生的频集合并, 用来生成所有可能的频集, 最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存, 每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的, 可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后, 处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面, 每个独立的处理器生成频集的时间也是一个瓶颈。
3. FP-树频集算法。
针对Apriori算法的固有缺陷, J Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略, 在经过第一遍扫描之后, 把数据库中的频集压缩进一棵频繁模式树 (FP-tree) , 同时依然保留其中的关联信息, 随后再将FP-tree分化成一些条件库, 每个库和一个长度为1的频集相关, 然后再对这些条件库分别进行挖掘。当原始数据量很大的时候, 也可以结合划分的方法, 使得一个FP-tree可以放入主存中。实验表明, FP-growth对不同长度的规则都有很好的适应性, 同时在效率上较之Apriori算法有巨大的提高。
五、关联规则应用领域
关联技术不但在商业分析中得到了广泛的应用, 在其它领域也得到了应用, 包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。它的主要挖掘对象是事务数据库。关联挖掘技术在西方主要应用于金融行业企业中, 可以成功预测银行客户需求。一旦获得了这些信息, 银行就可以改善自身营销。另外, 关联规则也可以服务于cross-sale (交叉销售) 。交叉销售是一种行销技巧, 它是指向顾客推销与其已有消费有关的产品与服务。通过分析老顾客的购买记录, 了解他们的产品消费偏好, 给他们提供其它产品的优惠及服务, 这样不但能留住他们还可以使他们逐渐熟悉另外的产品, 公司从而以尽快的速度获得利润。
摘要:数据挖掘技术是日前广泛研究的数据库技术, 关联规则是表示数据库中一组对象之间某种关联关系的规则。本文简要介绍了关联规则挖掘的相关理论和概念、Apriori算法, 最后介绍了关联规则数据挖掘的应用情况。
关键词:关联规则,数据挖掘,Apriori算法,应用
参考文献
[1]David Hand, Padhraic Smyth.张银奎, 廖丽, 宋俊等译.数据挖掘原理[M].北京:机械工业出版社.2003 (4) .
[2]秦亮曦, 史忠植.关联规则研究综述[J].广西大学学报:自然科学版.2005 (4) .
数据挖掘关联技术 篇9
(上海海事大学 交通运输学院,上海 201306)
0 引 言
研究船舶价格的影响因素、掌握船价波动规律对航运企业的船队更新和船舶投资有重要的理论和现实意义.对船舶价格的研究,国外起步较早[1-5],我国近年来也取得一些可喜的研究成果[6-9].BEENSTOCK[1]首次提出利用传统的供需理论对船舶市场进行分析并不适用,并基于资本组合理论构造相应的模型.随后BEENSTOCK等[2]扩展上述研究,提出运价市场与船舶市场相互关联的理论模型,对世界干散货市场与油船市场分别进行预测.KAVUSSANOS[3]和TSOLAKIS等[4]分别对干散货市场和油船市场的动态性和二手散货船价格采用时间序列模型、非理论自回归条件异变模型及计量经济模型进行研究.LUN等[5]针对贸易、航运与船舶市场建立经验模型,指出船价与运价有直接相关性,而与船队规模和贸易没有直接相关性.李升江[6]认为影响新造船价格的因素主要包括:船用钢板价格、手持订单量、成交量、完工量、拆解量、航运指数、海运量、世界宏观环境、国家宏观政策等,研究结果显示:综合考虑影响供需变化的手持订单量和影响造船成本的船用钢板价格能够较好地反映船价的变化.蔡立明[7]基于计量经济学理论对新造油船和散货船价格进行研究,指出影响新造船价格的主要因素有:与资产定价法相关的变量,即二手船价格、期租费率;与基于成本法相关的.变量,即造船成本、汇率;与供应-需求法相关的变量,即供应量占船队的比例、造船厂生产量.王建华等[8]研究巴拿马型船舶航运市场的期租水平与其他相关市场的相互影响.朱墨等[9]则运用双对数回归模型研究新造好望角型散货船价格的影响因素,结果表明:二手船价格、新造船成本以及手持订单量与船队规模的比值对新造船价格影响显著.以上文献对船价影响因素的研究,从单一的新造船市场、航运市场入手分析的较多,从综合新造船市场、二手船市场及拆船市场入手研究船价之间相互联系的较少.
数据挖掘中的多维关联规则相对于数理统计方法更适用于船价诱因的分析.关联规则的概念首先由AGRAWAL等[10]提出.BHANDARI[11]采用数据挖掘技术对NBA数据进行处理,成功挖掘出有价值的商业情报.寇宇[12]利用关联规则数据挖掘对电信客户数据进行分析.王宏雁等[13]将多层多维关联规则应用在交通事故的研究中.郑滨等[14]、宓为建等[15]及甘辉兵等[16]分别将数据挖掘技术应用于海事人为失误致因分析、港口机械结构应力分析及船舶机舱监控系统中.本文尝试运用多维关联规则的数据挖掘技术,对1980—2011年的二手船价格、新造船价格、拆船价格等数据进行深度挖掘,分析3种市场下船舶价格影响因素间的内在联系.
1 多维关联规则数据挖掘理论
1.1 关联规则的含义
关联规则[10]的实质是分析数据项集在事务集合中出现的频度关系,一般定义如下:设I={i1,i2,…,im}是一项目集,D是一事务数据库,其中每个事务T⊆I.每个事务都有一个标志符,称之为TID.若A是一项目集,当且仅当A⊆T时,称事务T包含A.一条关联规则就是形如A⟹B的蕴含关系,其中A⊂I,B⊂I且A∩B=φ.简单地说,数据挖掘中的关联规则技术能推导出一种A⟹B的模式,即当A事件发生时,B事件会伴随发生,称为一种A与B的关联关系.
1.2 多维关联规则
单维关联规则只涉及数据的一个维度(蕴含式中的每个不同的谓词都称作维).如对某商场的事务数据库,buys(X,“IBM desktop computer”) ⟹buys(X,“Sony printer”),表示客户购买IBM笔记本电脑与购买Sony打印机之间的关系,只涉及客户X的一个维度,若引进新的谓词age和occupation,并使用age(X,“20,…,29”)^occupation(X,“student”) ⟹buys(X,“laptop”)(其中X是变量,其后跟的引号部分内容为其值,含义为年龄在20至29岁的学生倾向于买笔记本电脑),则涉及客户的多个维度,即为多维关联规则.
1.3 支持度和置信度
关联规则设定两项约束,最小支持度(Minsup)和最小可信度(Minconf).
对于A⊆I,如果D中包含A的事务数为s,则称s为A的支持度.若用S(A)表示A的支持度,则S(A)=s.
关联规则A⟹B在D中具有大小为s的支持度,定义为事物集中包含A和B的事物数与所有事物数之比,记为S(A⟹B),S(A⟹B)=S(A∪B)=P(A∪B).
关联规则A⟹B在事物集中的置信度(Confidence)指包含A和B的事物数与包含A的事物数之比.如果D中支持项集A的事务中有C%的事务同时也支持项集B,则称关联规则A⟹B在事务数据库D中具有大小为C的置信度,记为C(A⟹B),C(A⟹B)=P(B|A)=S(A∪B)/S(A).
关联规则的挖掘就是发现数据库中支持度和可信度大于最小支持度和最小可信度的全部规则.
2 船舶价格多维数据模型的建立
以Clarksons发布的1980—2011年数据为基础,分别建立新造船价格、二手船价格、拆船价格及船舶市场综合价格多维数据模型.
2.1 船舶价格综合数据属性的定义
价格属性指一条船舶价格记录所包含的基本信息以及影响价格的主要因素,这些属性可以通过定性和定量分析得出.
2.1.1 新造船价格属性
考虑到新造船市场、二手船市场和拆船市场数据的可得性及一致性,选择世界GDP、海运贸易量、运价(或期租费率)、主要造船国汇率、世界钢材价格、船型、载质量和船舶价格因素,对1980—2011年的上述属性数据进行相关性检验,结果显示:在上述影响因素中,世界GDP与新造船价格的相关性最弱,海运贸易量、钢材价格和运价与新造船价格有强相关性,说明世界GDP的变化对新造船价格的影响不如海运贸易量明显;汇率与新造船价格呈负相关性,说明汇率对船价有反作用.因此,新造船价格属性定义为:世界海运贸易量、运价(或期租费率)、钢材价格、船型、载质量、新造船价格和汇率.
2.1.2 二手船价格属性
影响二手船价格的主要因素:从船舶自身看有船龄、船舶设备、技术性能;从二手船市场看主要有GDP、世界海运贸易量、运价、新造船价格等.选取GDP、世界海运贸易量、运价、船型、船龄、载质量、新造船价格、二手船价格等8种可量化因素,对1980—2011年数据进行相关性检验,结果显示:GDP与二手船价格弱相关,应剔除;世界海运贸易量、运价和新造船价格与二手船价格有强相关性.因此,二手船价格属性可定义为:船型、船龄、载质量、世界海运贸易量、运价、新造船价格和二手船价格.
2.1.3 拆船价格属性
与二手船一样,拆船价格主要受船舶自身状况及外部市场两大因素影响.船舶自身状况包括船舶种类及其老旧程度、船舶技术状态等;外部市场包括船舶市场拆船数量、钢铁行业对拆船钢铁的需求、航运市场需求状况(如运价)等因素.因此,从定性角度分析选取GDP、世界海运贸易量、运价、船型、船龄、拆船价格和钢材价格因素作为拆船价格属性,对1980—2011年数据进行相关性检验,结果显示:GDP与拆船价格呈弱相关性,其他属性均与拆船价格呈强相关性.因此,建模时拆船价格属性选为:船型、船龄、运价、钢材价格、世界海运贸易量和拆船价格.
2.1.4 船舶价格综合数据属性
将船舶市场看成一个包含二手船市场、新造船市场以及拆船市场的综合船舶价格系统.船舶价格综合数据模型的属性选取主要考虑3种船舶价格影响因素的共性.从宏观市场看,运价和世界海运贸易量这2个属性对3种船舶市场的船价都有影响,钢材价格属性对新造船价格和拆船价格都有一定的影响.从船舶自身情况看,3种船舶市场的船舶价格都受船型属性影响,载货量属性对新造船价格和二手船价格都有影响,船龄属性也与二手船价格和拆船价格息息相关.因此,船舶价格综合数据模型的属性选取为:船型、船龄、载质量、世界海运贸易量、运价、钢材价格、拆船价格、新造船价格和二手船价格.
2.2 新造船、二手船、拆船及船舶综合市场价格多维数据模型的建立
2.2.1 概念分层
多维模型中的概念分层定义一个映射序列,将低层概念映射到高层概念上,这样,数据挖掘系统在多个抽象层挖掘关联规则,且容易在不同的抽象空间转换.
概念分层通常采用概念层次树方法.概念层次树是数据库中各属性值及其概念依据抽象程度不同而构成的层次结构.新造船价格属性PONB(Property Of NewBuilding Ship Price)、二手船价格属性POSH(Property Of SecondHand Ship Price)、拆船价格属性POSC(Property Of SCrap Ship Price)及船舶价格综合数据属性POSP(Property Of Ship Price)的概念层次树分别见图1~4.
图1 新造船价格属性概念层次树
图2 二手船价格属性概念层次树
图3 拆船价格属性概念层次树
图4 船舶价格综合数据属性概念层次树
图1~4中概念层次树分两层.第一层中:ShipType为船型属性、Load Capacity 为载质量属性、FreightRate为运价属性、Seaborne Trade 为世界海运贸易量属性、SteelPrice为钢材价格属性、ExRate为主要造船国汇率属性、NBPrice为新造船价格属性、ShipAge为船龄属性、SHPrice为二手船价格属性、SCPrice为拆船价格属性.第二层中:船舶类型属性分为TK(油船),BK(散货船),CT(集装箱船);载质量属性,其中油船分为T1,T2,T3,T4,散货船分为B1,B2,B3,B4,集装箱船分为C1,C2,…,C6;运价属性,其中油船分为TFR1,TFR2,…,TFR9,散货船分为BFR1,BFR2,…,BFR9,集装箱船分为CFR1,CFR2,…,CFR8;世界海运贸易量属性,其中石油贸易分为OSBT1,OSBT2,…,OSBT9,干散货贸易分为DSBT1,DSBT2,…,DSBT9,集装箱贸易分为CSBT1,CSBT2,…,CSBT9;钢材价格属性分为ST1,ST2,…,ST8;主要造船国汇率属性分为ER1,ER2,…,ER6;新造船价格属性分为NBP1,NBP2,…,NBP9;船龄属性分为AG1,AG2,…,AG6;二手船价格属性分为SHP1,SHP2,…,SHP9;拆船价格属性分为SCP1,SCP2,…,SCP9.
2.2.2 多维数据模型
采用大多数数据仓库都采用的“星型模型”进行建模,它由事实表和维表组成.事实表中存放大量关于事务的事实数据,维度表是围绕事实表建立的存放描述性数据的表.基于对新造船、二手船、拆船价格属性数据的分析,建立全星型连接结构的数据模型见图5.
(a)新造船价格属性
(b)二手船价格属性
(c)拆船价格属性 (d)船舶价格综合数据属性
图5全星型连接结构的数据模型
图5(a)中以新造船价格本身属性为事实表,维度表有运价、世界海运贸易量、主要造船国汇率、钢材价格、船型、载质量和新造船价格属性维度.图5(b)中以二手船价格本身属性为事实表,维度表有世界海运贸易量、运价、船龄、船型、载质量、二手船价格和新造船价格属性维度.图5(c)中以拆船价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型和拆船价格属性维度.图5(d)以船舶综合价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型、载质量、拆船价格、新造船价格和二手船价格属性维度.
3 基于多维关联规则的船舶价格数据挖掘
3.1 数据准备
选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘,其中运价数据为油船一年期期租费率,海运贸易量数据为世界历年原油贸易量.数据来源为Clarksons和世界银行网站,时间跨度为1980—2011年的月度船舶价格数据,总记录为384条.为防止数据过于离散化而影响挖掘结果,对多维船舶价格数据模型的具体数据进行分类处理,得到的部分结果见表1.
3.2 船舶价格影响因素数据挖掘
运用SQL Server 2005提供的数据挖掘工具实现关联规则挖掘,系统默认的挖掘参数最小支持度为3%,但在数据量较大、关联性较高时,此值偏小,为此,设置挖掘参数最小支持度为5%,最小置信度为40%.选取世界海运贸易量、钢材价格、运价、新造船价格、二手船价格和拆船价格等维度进行初步挖掘,见图6.其中挖掘参数概率即为置信度,重要性指标定义如下:Importance(X⟹Y)=lg(P(XY)/P(X)P(Y)),其中P(X)表示事务中X发生的概率,P(Y)表示事务中Y发生的概率,P(XY)表示事务中X和Y同时发生的概率.由此可知,重要性为正值表示一旦拥有X则再拥有Y的概率会增长,负值表示一旦拥有X则再拥有Y的概率会降低.
图6 挖掘结果示意图
3.3 关联规则解释与分析
数据挖掘得出的结果为大量的关联规则,本文主要利用关联规则的解释与依赖关系网络相结合的方法对挖掘结果进行解释和分析.由于实验挖掘生成的关联规则较多,为便于分析,以下从二手船价格影响因素、新造船价格影响因素与拆船价格影响因素等3方面对挖掘的关联规则进行解释和分析.
表1 油船价格分类数据
3.3.1 二手船价格影响因素分析
由二手船价格影响因素的依赖关系网络(见图7),得到载质量为120 000~199 999 t的二手油船价格影响因素由强到弱排列为:期租费率、船龄、拆船价格、石油海运贸易量和新造船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表2.
图7 船舶价格依赖关系网络图例
规则1,2,3分别表示:当船龄为26~30年时,二手船价格为(0,2 000)万美元的概率为100%;当船龄为16~25年时,二手船价格为[2 000,4 000)万美元的概率为100%;当船龄为11~15年时,二手船价格为[4 000,6 000)万美元的概率为65%.对比这3条规则可知,船龄与二手船价格呈负相关性,船龄越大,二手船价格越低.从重要性指标看,二手船价格对船龄大的船的重要性较高(为1.26).这说明二手船价格虽与船龄呈负相关性,却对船龄越大的船舶越敏感,显示船龄与二手船价格之间的复杂关系.
表2 二手船价格影响因素的关联规则
规则4,5,6分别表示:当期租费率为[4 000,10 000)美元/d时,二手船价格为(0,2 000)万美元的概率为96%;当期租费率为[10 000,20 000)美元/d时,二手船价格为[2 000,4 000)万美元的概率为77%;当期租费率为[20 000,30 000)美元/d时,二手船价格为[4 000,6 000)万美元的概率为82%.由这3条规则可知,期租费率与二手船价格呈正相关性.
规则7和8反映石油海运贸易量对油船价格的影响:当世界石油海运贸易量为[1.4,1.6)亿t时,二手船价格为(0,2 000)万美元的概率为44%;当世界石油海运贸易量为[2.0,2.2)亿t时,二手船价格为[2 000,4 000)万美元的概率为42%.概率不高说明:石油海运贸易量对二手油船价格有一定的影响,但影响没有其他几个因素明显.
规则9,10,11反映油船市场中新造船价格对二手船价格的影响:当新造船价格为[2 000,4 000)万美元时,二手船价格为(0,2 000)万美元的概率为42%;当新造船价格为[4 000,6 000)万美元时,二手船价格为[4 000,6 000)万美元的概率为45%;当新造船价格为[6 000,8 000)万美元时,二手船价格为[6 000,8 000)万美元的概率为50%.规则9,10,11出现的概率均小于规则1~6出现的概率,说明新造船价格对二手船价格的影响比船龄和运价小.
规则12和13描述油船市场中拆船价格对二手船价格的影响:当拆船价格为(0,200)万美元时,二手船价格为(0,2 000)万美元的概率为47%;当拆船价格为[200,400)万美元时,二手船价格为[2 000,4 000)万美元的概率为47%.由规则出现的概率可知,拆船价格对二手船价格的影响程度小于船龄和运价.
3.3.2 新造船价格影响因素分析
由新造油船价格影响因素的依赖关系网络可得,对载质量120 000~199 999 t的油船,钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量.具体的量化影响通过关联规则数据挖掘得出,结果见表3.
规则1和2分别表示:当钢材价格指数为(150,200]时,新造船价格为[4 000,6 000)万美元的概率为96%;钢材价格指数为(50,100]时,新造船价格为[2 000,4 000)万美元的概率为87%.钢材价格与新造船价格呈正相关性.
规则3表示:当石油海运贸易量为(1.2,1.4]亿t时,新造船价格为[4 000,6 000)万美元的概率为55%.石油海运贸易量对新造船价格的影响程度小于钢材价格的影响.
表3 新造油船价格影响因素的关联规则
规则4和5反映拆船价格对二手船价格的影响:当拆船价格为[400,600)万美元时,新造船价格为[4 000,6 000)万美元的概率为66%;当拆船价格为[200,400)万美元时,新造船价格为[2 000,4 000)万美元的概率为83%.拆船价格与新造船价格呈现一定程度的正相关性.
规则6,7,8反映期租费率对新造油船价格的影响:当期租费率为[40 000,50 000)美元/d时,新造船价格为[6 000,8 000)万美元的概率为68%;当期租费率为[10 000,20 000)美元/d时,新造船价格为[4 000,6 000)万美元的概率为51%;当运价期租费率为[4 000,10 000)美元/d时,新造船价格为[2 000,4 000)万美元的概率为68%.对比这3条规则,期租费率与新造油船价格呈正相关性.
3.3.3 拆船价格影响因素分析
由拆船价格各影响因素与拆船价格的依赖关系网络可得:与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、世界海运贸易量和拆船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表4.
表4 油船拆船价格影响因素的关联规则
规则1和2反映期租费率对拆船价格的影响:当期租费率为[4 000,10 000)美元/d时,拆船价格为[200,400)万美元的概率为99%;当期租费率为[10 000,20 000)美元/d时,拆船价格为[400,600)万美元的概率为48%.期租费率的上升会促进拆船价格的提高,但是当运价由TFR1上升到TFR2时,拆船价格从SCP2上升到SCP3的概率反而从99%下降到48%,说明期租费率并不是拆船价格的主要影响因素.
规则3表示:当石油海运贸易量为(2.2,2.4]亿t时,拆船价格为[200,400)万美元的概率为41%.海运贸易量处于高位时,拆船价格并没有很大的提高,说明石油海运贸易量的变化对拆船价格的影响不大.
规则4和5分别表示:当船龄为16~25年时,拆船船价格为[400,600)万美元的概率为50%;当船龄为26~30年时,拆船船价格为[200,400)万美元的概率为79%.对比这两条规则,船龄与拆船价格呈负相关性,船龄越大,拆船价格越低.
规则6和7反映钢材价格对拆船价格的影响:当钢材价格指数为(50,100]时,拆船价格为[200,400)万美元的概率为79%;钢材价格指数为(100,150]时,拆船价格为[400,600)万美元的概率为89%.这说明拆船价格受钢材价格的影响较大,钢材价格与拆船价格呈正相关性.
4 结论与展望
以Clarksons发布的1980—2011年船舶价格月度数据为基础,运用多维关联规则,分别建立新造船价格、二手船价格、拆船价格及船舶综合价格多维数据模型,选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘分析,得出以下结论:(1)影响二手油船价格的因素由强到弱分别为:期租费率、船龄、拆船价格、石油海运贸易量及新造船价格;(2)钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量;(3)与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、海运贸易量和拆船价格.
从挖掘出的船舶价格关联规则可以看出,将多维关联规则数据挖掘模型应用于船舶价格影响因素的分析是可行的,研究得到的关联规则对航运企业的船队更新和船舶投资有一定的参考价值.
参考文献:
[1] BEENSTOCK M. A theory of ship prices[J]. Maritime Policy & Management, 1985, 12(3): 215-225.
[2] BEENSTOCK M, VERGOTTIS A. An econometric model of the world shipping market for dry cargo, freight and shipping[J]. Applied Economics, 1989(21): 339-356.
[3] KAVUSSANOS M G. The dynamics of time-varying volatilities in different size second-hand ship prices of the dry cargo sector[J]. Applied Economics, 1997(29): 433-443.
[4] TSOLAKIS S D, CRIDLAND C, HARALAMBIDE H E. Econometric modelling of second-hand ship prices[J]. Maritime Economics & Logistics, 2003(5): 347-377.
[5] LUN Y H V, LAI K H, CHENG T C E. Shipping and logistics management[M]. London, Dordrecht, Heidelberg, New York: Springer, 2010: 33-48.
[6] 李升江. 船用钢板价格与手持订单量同船价指数的定量关系[J]. 船舶经济贸易, 2006(2): 13-14.
[7] 蔡立明. 基于计量经济理论的新造油船与散货船价格研究[D]. 上海: 上海交通大学, 2009.
[8] 王建华, 吕靖, 谭威, 等. 巴拿马型船舶航运市场价格波动的VAR模型分析[J].上海海事大学学报, 2009, 30(2): 78-83.
[9] 朱墨, 章强. 基于双对数回归模型的新造船船价影响因素研究[J]. 重庆交通大学学报:自然科学版, 2012, 31(3): 506-511.
[11] BHANDARI I. Data mining and knowledge discovery[M]. Boston: Kluwer Academic Publishers, 1997(1): 121-125.
[12] 寇宇. 关联规则挖掘在电信产品交叉销售中的应用研究[D]. 哈尔滨: 哈尔滨工业大学, 2010.
[13] 王宏雁, 王琪. 多层多维关联规则在交通事故研究中的应用[J]. 交通科学与工程, 2009, 25(1): 72-76.
[14] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94.
[15] 宓为建, 徐子奇, 刘园. 大型港机结构应力峰值与小车位置关联规则的数据挖掘[J]. 上海海事大学学报, 2006, 27(3): 42-46.
数据挖掘关联技术 篇10
关键词:数据挖掘,模糊关联规则,个性化推荐
1绪论
1. 1研究背景及意义
网站的个性化推荐系统是数据挖掘中很重要的一个领域。 随着个性化推荐系统的快速发展, 保存在数据库中的数据量也在快速增长, 数据库中自然保存了大量数据。分析这些数据的是为了可以探索出之前不知道的并且有价值的内容。这些有用的内容不仅能指导商家开发客户购买潜力, 同时提高客户群数量, 也能更好服务客户。最实际的一个例子就是在大型的购物网站中, 获取用户有用的信息。包括: 用户的爱好、页面访问情况、广告点击情况等, 优势在于帮助商家对客户进行分类, 发现和进一步吸引潜在的客户, 使市场销售策略更有效, 获得更大的利润[1]。
1. 2模糊关联规则的概念
模糊关联规则的定义是将模糊理念和数据挖掘技术相结合, 将Apriori算法和包含模糊属性的事务相结合, 制定事务的每个模糊属性分配的数目, 之后将每个属性的数值对应到相关模糊集合中, 目的是找出支持度大于最小支持度的频繁项目集, 通过研究出现的频繁项目集, 得到模糊关联规则, 从而找到用户感兴趣的规则形式。
1. 3模糊关联规则挖掘过程
挖掘过程表示如下: 先进行模糊化处理保存在数据库的数据, 也就是说先设定好每个数量型属性的隶属函数, 再利用模糊集合划分数据属性成为多个语义项, 同时获得每条事务的隶属度取值; 最后挖掘模糊化后的数据库, 找出有意义的规则, 最终展现给用户[2]。
与关联规则类似, 将挖掘过程划分为两个部分: 1利用用户事先设定好最小支持度阈值, 去找到最多的模糊频繁项目集合。2对于每个模糊频繁项目集来说, 都要尽可能找到最多的模糊关联规则, 然后从获得的规则里面筛选出所有支持度和置信度都大于给定值的关联规则, 给用户最大的价值, 呈现更多有用信息。
2推荐系统与模糊关联规则挖掘算法应用
在推荐系统中使用模糊关联规则的原因如下: 可以更直接地展示推荐结果, 而且会以比较容易的方式让用户接受, 另外, 可以轻松发现新的兴趣点, 而且不需知道过多的专业知识。
2. 1挖掘系统框架
本文模糊关联规则框架表示如下。
1) 用户提交挖掘请求。
2) 预处理模块根据提交的请求将数据进行转换。
3) 转换后的数据, 通过模糊关联规则, 建立频繁项目集。 根据设定的置信度, 最后得到关联的内容, 将挖掘结果反馈给用户。
2. 2模糊关联挖掘在推荐系统中的应用
模糊关联规则推荐系统的实现过程如下。
1) 个性化推荐系统将网站数据库中的某段时间内的历史订单数据库导出。
2) 转换导出的数据为模糊关联规则可以进行挖掘的格式。
3) 通过NFAR算法对已经处理好的数据进行挖掘, 生产相应的规则, 导入到网站数据库的关联规则表中。
4) 推荐系统模块按要求从关联规则表中得到相应的商品推荐结果, 从而使用户能看到自己需要的推荐商品。
实验数据是来自大型购物网站的订单表, 数据库中有15 480种库存商品, 数据库中包括100万条以上的记录, 删除事务数据库中一些不相关的数据, 统计了商品销售情况、商品浏览记录、推荐商品浏览和销售情况, 将与订单表相关联的书籍类型表中商品种类属性定义为A、B、C、D 4种, 通过实验分析出4种商品类型之间的关联。这里A为军事类, B为天文学类, C为数理化类, D为社会科学类。
根据以上的实现过程得到第一条模糊关联规则是: 天文学类 ( 大量) = > 军事类 ( 大量) 模糊规则, 全部事务中有33. 0% 的设置值是满足这个规则的, 并且有94. 0 % 的情况是可信的。 意味着天文学和军事类书籍同时出现的概率是33% , 并且用户在购买大量文学类书籍的情况下, 有94% 的情况下会购买大量军事类书籍。为了简化, 本文将这条模糊关联规则输入到推荐系统中, 测试会不会得到合适的推荐。当输入用户购买的天文学类书籍为4时, 提示给用户的信息是: “无推荐建议”; 当输入的天文学类书籍数量为8时, 提示的信息是: “推荐用户购买16本军事类书籍” ( 已经对数字做了四舍五入) 。
这里研究的算法获得了想要的结果, 而且完整性也比较好, 可以证明算法是合理有效的。将模糊关联规则应用于个性化推荐系统是可以使用户得到合适的推荐信息。但是仍然可以更优化关联规则的数量。
2. 3算法的推荐性能分析
本文用查全率 ( Recall) 和准确率 ( Precision) 公式分析推荐结果性能, 查全率定义是推荐信息在用户真正购买中的比重, 准确率定义是推荐产品中用户成交的比重。公式表示如下。
Recall = PReci / N ( PRec为推荐后购买的商品种数, N为商品种类数) 。
Precision = PReci / Reci ( Rec为推荐商品种类数) 。
结合网站数据库中的数据和以上的公式, 论文将数据转换为图表形式分析Fuzzy FP-tree算法和NFAR算法推荐性能比较。如图1性能分析图所示。
实验做了10组, 每组400用户, 从分析图中可以看出, 随着用户数量的增多, 改进后的算法的查全率和准确率均比之前的算法有了很大的增加, 说明了改进后的算法性能有明显提高, 主要是因为新的算法能得到更加合适的固定聚类数目, 推荐精度更高。
参考文献
[1]郑庆华, 刘均, 田锋, 等.Web知识挖掘:理论、方法与应用[M].北京:科学出版社.2010:20.