数据关联算法研究

2024-10-11

数据关联算法研究(通用10篇)

数据关联算法研究 篇1

引言

Web服务器的日志文件通常都是简单的文本文件, 在长期的历史时期只是作为服务器管理员的参考使用, 利用率很低。但其中的信息涵盖丰富, 包含了了用户的上网时间、运行的程序、访问的页面等互联网的有用信息, 通过对这些海量信息的梳理, 只要运用的关联规则分析研究, 即可清晰地记录用户的程序使用习惯和网站访问偏好, 预测用户的喜好, 从而进行个性化推荐, 这在互联网+ 经济时代蕴藏着巨大的商业价值, 是还未充分挖掘的宝藏。

用户的对于兴趣内容的访问习惯和偏好, 下一步的行为可能就是购买等商业行为。因此, 利用Web日志挖掘的个性化推荐关联规则算法对用户关于兴趣内容的访问习惯和偏好挖掘是非常重要的。高效的Web日志挖掘[1], 可以很好地发掘出用户感兴趣的关键字和内容, 很好的预测商机, 为定向的个性化推荐服务打下良好的基础。Web日志挖掘的个性化推荐关联规则算法主要流程是从Web日志中筛选用户访问路径, 然后从梳理好的事务集中使用Apriori算法挖掘出高频访问集, 以此为依据进行个性化推荐服务。

一、Web日志挖掘中个性化推荐关联规则算法

个性化推荐关联规则算法可以分为两个主要步骤: 数据预处理步骤和高频访问模式发现步骤。其中数据预处理是从日志当中杂乱的结构化和非结构化数据进行分析和提取, 梳理出干净的数据, 作为实验中有效的备用访问事务集。通过高频访问模式和基于关联规则的改进Apriori算法挖掘用户的潜在访问路径, 通过从干净的事务集发掘高频访问集得到合适的个性化推荐关联规则算法。

1.1 Hadoop平台搭建。为了模拟云平台集群运行模式, 通过在局域网多台电脑上安装不同操作系统的方式组建计算机集群。在局域网中构建了8 个节点, 其中, 三台电脑为WIN7, 三台电脑为MAC, 两台电脑为Linux。包括三个Name Node节点和五个Data Node节点, 节点间通过局域网通信协议方式进行数据交换。

1.2 Web日志挖掘预处理。Web日志数据预处理本文数据来自某计算机图书在线网站, 选取网站2015 年4 月份的后台日志作为挖掘对象, 日志大小为12.6GB, 保存方式为log文本。

数据清理、用户识别、会话识别、路径补充和事务识别是Web日志数据预处理的主要步骤。

数据清理的主要工作是删除与访问兴趣无关的用户痕迹, 主要通过后缀名去除图片文件, 过滤掉由网络爬虫采集的页面记录, 本文实验过程中选取了htm、html、asp、aspx四种文件格式来保留页面访问记录。数据清理留存了有效数据, 数据存放在User Data表, 存放在Mysql数据库中。数据字段包括访问时间、访问IP地址、访问页面时间等, 为用户识别做好铺垫。

经过数据清理后的数据总共有100 多万条记录, 记录存入User Data数据表中, 再陆续经过用户识别、会话识别、路径补充和事务识别后, 数据预处理完毕, 干净的数据可以为关联规则的发现做好准备。

1.3 高频访问模式发现[2]。本文使用改进的Map Reduce化的Apriori算法发掘高频访问集, 通过给单独网页项目赋予权重值, 较好的衡量了网页的重要程度, 方便高效地挖掘出了关联访问路径, 共发掘出2943 条有效关联规则。置信度、支持度是评价关联规则的重要指标。最小置信度反映了算法挖掘关联规则的效率, 同时满足最小支持度阈值和最小置信度阈值的关联规是强规则。

二、结论

本文通过经典Apriori算法相关思想和理论介绍, 分析和研究了经典Apriori算法的缺陷。提出了改进的基于加权的多支持度的Map Reduce化的Apriori算法, 通过在高频访问模式发现阶段使用改进的Map Reduce化的Apriori算法挖掘频繁访问集, 用实例详细描述了改进的Map Reduce化的Apriori算法流程和手段。个性化推荐关联规则算法实现了通过从服务器日志中提取互联网用户频繁访问集, 然后把频繁访问集通过梳理、存储进本地的MYSQL数据库, 通过对数据库的操作、梳理和分析实现了个性化推荐关联规则算法。

参考文献

[1]陈文.基丁-Fp树的加权频繁模式挖掘算法[J].计算机工程, 2012, 38 (06) :63-65.

[2]田晓珍, 尚冬娟.Web的个性化服务[J].重庆工学院学报:自然科学版, 2008, 22 (7) :76-95.

数据关联算法研究 篇2

摘 要:目前检察机关的信息化建设进入快车道,各级检察机关基本上都已经完成了基础网络的建设,并在其之上建立了大量的应用系统。随着检察机关统一业务运营系统的上线,所有的办案流程都在网上流转,应用系统的稳定性越来越重要,对检察机关的网络与应用的实时监控和故障排查成为研究的重点。本文提出检察机关建立省级集中信息网络及应用智能动态监测平台的总体思路,并详述其中的技术难点关联分析算法如何实现。

关键词:智能监测;数据建模;关联分析;预警式服务

中图分类号:TP312 文献标识码:A

1 引 言

21世纪以来,信息化技术的飞速革新为科技发展提供了巨大的助推力,尤其是在最近一个十年,web2.0和互联网思维深入人心,计算机和网络不但成为了人们不可缺少的手段,更加深刻的改变了人类生产生活的方式[1]。如何在剧烈的社会变革中保持先进的生产力,利用信息化的手段提升战斗力,是检察机关面临的巨大挑战。最近五年来,检察机关的信息化建设进入快车道,网络建设和系统建设相较于上一个十年取得了巨大的成就,尤其是检察机关的统一业务应用系统在全国检察机关全面铺开上线后[2],该系统成为检察机关最核心的业务应用系统,承载了检察机关所有的办案业务。该系统上线之后,实现了信息跨区域共享,提高了办案效率、规范了执法行为、强化了内部监督制约,为检察权的依法正确行使提供了有效的信息化支撑和机制保障。但是由于全国检察机关信息化建设工作建设晚、底子薄、资金有限,对应用系统的监控、保障、维护具有相当大的难度。本文提出了检察机关建立省级集中信息网络及应用智能动态监测平台的总体思路,并详述了其中的技术难点——关联分析算法如何实现。

1.1 基本情况

目前,各级检察机关已建成覆盖从最高检到全部基层检察院的检察系统专线网络,各级检察院都将本院的局域网接入专线网上,并建立了大量多种多样的应用系统,如电子邮件、内网网站、网上办公、网上办案等。由于检察院信息化平台架构比较早,业务系统比较分散、数据和管理应用较复杂,对检察业务的连续性存在潜在威胁、管理复杂、相应速度滞后等问题。2014年,检察系统统一业务软件正式运行后,大部分的检察业务均需网上办理,这就对网络的稳定性提出了很高的要求。因此,对网络实施不间断的智能监控,实时监测网络上各类设备的运行状态,对可能影响网络稳定的隐患提早发现、提早解决变得尤为重要。

随着检察机关各类应用软件不断增加,也迫切的需要对正在运行的业务系统进行实时监管,一旦发现问题,主动报警,方便管理人员在第一时间发现问题和解决问题。

1.2 相关系统研究现状

信息网络智能监测系统是进行网络监测和管理最有效的手段,该类系统主要有两大类别,一是设备厂商针对各自设备开发的智能监测管理系统,如Cisco、3Com、华为、锐捷等;二是第三方开发的IT运维智能管理系统,如HP、ENOC、东华网智、ServiceWise IT服务管理软件等。这两类系统在一定程度上解决了网络上各类设备监测和管理问题,但不足之处也很明显的,设备厂商的智能监测管理系统只支持单一公司产品,不支持其他公司的产品,扩展性不够,功能性也比较单一。第三方运维的检测系统虽然对第三方产品进行支持,但一般是着重于解决某一方面的问题,如有的注重于对客户端软件的管理,有的注重于对各类服务器性能的监测,有的则着重对网络带宽及网络设备的监测。以上这些系统在运营商或企业平台中有一定程度的应用,但由于检察专网属于保密网络,同时还应符合国家保密局对于保密网络的网络智能监测系统的要求。因此这些系统不能满足检察机关全方位监控解决方案的需要。

要实现对检察机关的信息网络进行全方位的智能监控、做到统一管理、调度,就必须对检察专线网的现状进行全面分析,尝试将各类产品进行整合,互相开放接口程序,使之形成统一、有效的监管平台。

1.3 检察机关运维存在的弊端

从自身角度来说,检察机关的网络运维存在以下弊端:

1.运维力量偏弱,尤其是在基层院,往往一人身兼数职;

2.应用系统多且杂,没有有效的监控手段;

3.运维人员比较杂,响应慢,运维机制不完善;

4.人员、设备调度不及时,工作保障不及时。

为解决以上问题,有必要以省级为单位调研检察机关专线网的现状,全面、系统地对检察机关专线网管理与维护遇到的难题提出解决方案。

1.4 研究目标

本论文研究的总体目标是建立检察机关的信息网络智能监测系统,可在大屏幕界面和终端上实时观测服务器运行状态、应用程序运行状态和数据保障情况,实现网络上的各类设备及其应用集中监测、报警、应急处置和远程处理,保障人员统一调度,提高网络、应用和数据运行的稳定性,变被动响应式的管理为主动预警式的管理。

依托该系统,集中监控和发现故障,同时整合该省各级检察院的IT运维人员,对所有的运维人员进行统一管理、统一调度,建立健全统一的运维、应急处理机制,为下级院的IT运维人员提供坚实的技术支撑,解决目前各级院运维力量薄弱、相应速度慢、排除故障不及时的顽症。

2 总体架构

2.1 总体模块架构

我们设计的检察机关智能动态监测系统总体架构图如图1所示。图中,信息系统智能动态监测平台分为监控中心、运维中心、应急中心、和指挥调度中心四个大的功能模块。各类服务器、网络设备、应用系统、视频设备通过南向接口总线监控中心接入告警数据和性能数据,在监控中心进行汇总,根据预先设置的IT资源信息进行关联分析。分析后产生的故障数据通过运维中心触发综合作业计划或单项作业计划,产生作业计划调度数据。在应急中心中依据业务影响的级别程度触发各类应急响应预案,产生应急调度数据。各类调度数据通过指挥调度中心生成任务工单,下发给IT运维人员进行调度操作,并进行自动短信通知或邮件通知。当调度需要其他业务系统流程配合时,通过北向接口总线上传到其他业务系统接口中,在相关业务系统中完成调度并回馈闭环数据给指挥调度中心。该平台应当有完善的检察机关IT运维人员管理机制和运维保障机制作为支撑,并建立系统自身的安全策略,将相关的故障处理流程存入知识库中,提供给IT运维人员查阅使用。endprint

2.2 数据流图架构

从监控系统的数据流的角度来看,如图2所示,该系统通过标准接口方式综合采集设备层的各类告警、性能和网络参数数据,通过统一的接口层进行数据清洗和数据转换,在数据模型层转化为标准的资源模型数据和动态告警、性能数据,并在关联分析层自动进行数据挖掘和数据关联,讲动态数据与资源数据进行关联,确定告警、性能数据可能影响到的业务资源,最后将分析结果提交给调度处理层进行业务影响判断、故障处理和工单调度处理。

3 关键技术点

3.1 多种数据采集

目前,架设在检察专线网上的设备有网络设备、安全设备、服务器、存储设备、视频设备等,设备类型多种多样、设备品牌型号均不一致。智能动态监测系统应该能监测到各类设备的以下信息,以保证基本全面地获取系统管理所需的数据。

1.网络设备:设备告警信息、性能状态信息(如CPU状态信息、内存状态信息)、网络拓扑信息、设备运行日志信息、设备所有者信息、路由信息、配置文件信息、链路管理信息、IP地址、接口状态等;

2.服务器、存储设备:设备告警信息、性能状态信息(如CPU状态信息、内存状态信息)、网络拓扑信息、硬盘Smart信息、设备运行日志信息、IP地址、设备所有者信息等;

3.安全设备:设备告警信息、性能状态信息(如CPU状态信息、内存状态信息)、网络拓扑信息、设备运行日志信息、设备所有者信息、配置文件信息、安全防护日志信息、IP地址、接口状态等;

4.视频设备:设备告警信息、性能状态信息(如CPU状态信息、内存状态信息)、网络拓扑信息、设备运行日志信息、IP地址、设备所有者信息、接口状态等。

5.系统应用:系统相关进程的正常运行情况、与外部接口的联通情况、关键数据的存储情况等。

3.2 多接口接入

智能动态监测系统需要支持对以下各类接口方式接入方式。3.3 运维智能知识库建立

知识库就是对信息网络及应用智能监测系统中涉及到的软硬件信息和知识进行收集和整理,按照一定的方法进行分类保存,并提供相应的检索手段,同时通过建立的知识库,将知识库与事件监控中心进行关联,在发生事件时,可以为事件处理人员提供大量的相关信息,例如事件相关的配置信息、关联业务,该事件的最佳处理方式等。这样为事件处理人员提供决策支持信息,同时提供相应事件进行处理的标准流程,大大减少对事件进行处理所需要的事件。减少事件处理的出错概率。通过对普遍性事件的标准流程处理过程可以采用事件预案处理方式实现信息网络及应用智能监测系统自动处理,提高事件处理的效率,减少事件处理人员的工作量和出错概率。

3.4 运维流程调度

调度中心根据监测中心的数据,对系统的运行情况进行全面分析,在发生故障的情况下,根据故障的严重程度、紧急性要求向运维中心或应急中心发送指令,启动运维流程或应急流程。

运维中心既可以接收调度中心的工作任务,也可以接收系统维护人员自发提起的工作任务。如果是其他机关部门个人进行故障报修,还需要先经过故障等级评定才发起工作任务。对于提起的工单,如果是紧急或严重的故障处理,系统会提交给应急中心。应急中心有一套完整的应急预案,包括:故障通报机制,运维处理权限提升机制,从而有效的整合各种人员、设备、资金、资源,实现故障迅速排除。

对于普通的故障处理,运维中心要综合调度运维人员、备用设备和管理软件,对故障进行处理。故障处理完毕后,判断处理结果是否需要升级上报,升级上报的任务如果不能彻底解决,将向调度中心报告。如果不需升级上报的任务或彻底处理完成的任务,将生成处理方案进行审批,并关闭事件工单。并将处理的信息同步到知识库。

4 核心算法分析

从监测的数据来看,各类网络设备、操作系统、应用系统产生的告警数据、性能数据应当是相互关联的。某个网络节点、某台服务器性能或某个应用系统故障有可能影响到的是同一个检察业务。智能动态监测平台应当能够根据预先建立的网络拓扑结构和各个层级之间的依赖关系建立起关联分析和故障根源性分析的手段,从某个告警或性能数据出发,层层溯源,寻找其影响的检察业务,发出通知信息,提供给IT管理人员主动发现故障和解决故障,将业务中断的影响时间缩短到最短,影响降低到最低。

以下给出了对资源关系进行抽象数据建模和进行关联分析的基本算法思路。

4.1 支持关联分析的全网资源数据建模

检察机关网络错综复杂,多个专业之间存在着承载和转接的关系,各网络设备、硬件设备和应用系统之间类型复杂,告警也相互影响。为支持告警关联分析,必须针对全网进行跨资源数据建模,以模型进行关联分析的支撑[3]。

图3为全网资源数据模型,该模型力求屏蔽资源支撑网络错综复杂的专业性差异,将各专业资源数据以及数据之间的物理、逻缉关联用简洁明了的数据结构进行存储,以之支撑告警和性能数据的关联分析[4]。

从逻缉视角可将上述模型分为4个层次:应用、业务、链路、节点,其中的链路是广义上的和跨软硬件的,泛指所有的能够承载业务的物理或者逻缉连接,节点同样是广义上和跨专业的,泛指所有能够发生告警的端点[5]。

结合以上释义来看图4中关系,T_Customer为第一层的应用数据,记录了所有应用数据;T_Service为第二层的业务数据,记录了承载在检察专线网上的所有业务;T_Path和T_Link为第三层,是支持关联分析核心数据,记录了广义的链路信息,其中T_Path表专用于记录所有的物理连接,例如从交换机到路由器之间的物理连接,网络线路对服务器、存储的承接关系等;T_Link记录了所有的逻缉连接,如某几台存储和服务器支撑起了统一业务软件系统,系统中包涵了检察机关侦查、公诉等相关的业务;T_TermPoints为第四层逻缉数据,记录所有的节点信息,无论该节点是物理链路的端口还是逻辑链路的端口,都记录其中,与之相关的是T_Equipment,用来记录节点所属的网元信息,以及T_TermSubTerm,用于记录各节点之间的父子关系。endprint

建立以上跨专业的模型之后,就可以将复杂的资源数据采用倒入或录入的方式存入该统一模型之中,提供给关联分析作为数据支撑。

4.2 基于资源模型的关联分析算法

基于资源模型进行关联分析算法的过程,目的是发现根源故障,排除衍生故障。该算法运行的过程就是通过资源模型将告警进行分组,并在组内通过时间以及告警位置发现告警之间的关系[6]。

以下将各资源之间的物理关系称为Path关系,各资源之间的逻缉关系称为Link关系,所有发生告警的节点称为TP,一组相关的节点称为TPs,各节点之间的父子关系称为SubTerm关系。具体的关联分析算法运行步骤如下:

1.析告警信息,合理抽取关联算法涉及的关键告警信息;

2.从该条告警数据的TP出发,参照SubTerm关系中记录的节点父子关系,拓展出所有的父TP;

3.参照Link关系,拓展出一个Link中所有对应的A端TP和Z端TP;

4.参照Path关系,拓展出指定深度或者指定最大个数的TP。应该确保一个网元内的与当前TP有Path关系的高层TP都能被拓展到。建议拓展深度为3;

5.以上三步拓展获取的TP集合组成一个相关的TPs;

6.获取该TPs在一个特定时间窗口上发生的所有告警Alarms,对TPs组进行裁减;

7.将TPs中每个TP与Service关系进行关联,查看每个TP的告警影响到多少个Service,记为associateNum;

8.统计TPs组内所有的TP的associateNum,选取其中最大的作为该组的根源告警。

以上步骤中,1.为预处理,2~5为抽取组合TPs,6~8为进行根源判断。

算法中,基于资源模型对告警进行了分组,分组中加入了时间窗口的考虑,并对各告警的跨专业关联进行了分析,分组完成后,基于告警影响的程度大小,判定了根源告警,抑制了衍生告警[7]。

4.3 告警处理流程描述

按照以上算法,告警在本系统中的处理基本流程如图5所示。在预处理、数据清洗之后,进行告警分类组合、根源判断、影响性判断,最终形成结论推送给运维人员,帮助定位故障和处理故障[8]。

5 小 结

对于省级集中管理的单位来说,如何在网络和应用系统飞速发展、不断膨胀的信息化时代,对全网进行管理,是当前IT管理的重点和难点。本文提出了检察机关建立省级集中信息网络及应用智能动态监测平台的总体思路,并详述了其中的技术难点——关联分析算法如何实现。从经济效益来说,检察机关省级集中的智能动态监测系统实现以后,能够有效的解决检察机关运维力量不足、故障处理响应慢的弊端,集中调度全省IT运维人员,有利于节约运维方面的人力。而且,在预警式的故障监管得以实现后,有利于检察机关及时了解网络设备和硬件设备的运行情况,发现性能瓶颈,有针对性的采购相关软硬件,做到有的放矢,有利于节约IT运维成本。另外,该系统经论证和实现后,具有在全国检察机关及其它有类似的涉密网、非涉密网复杂网络环境的省级单位进行推广的价值。

党的十八届四中全会为我国司法改革制定了宏伟蓝图,检察机关在司法改革的大潮中担负着无比重要的攻坚战任务,信息化的手段无疑将会是未来改革中强有力的助推器,如何利用信息化的手段支持检察业务、保障司法改革,成为检察机关信息化人员面临的重要课题。本文提出的思路,能够为检察机关信息化提供进一步的保障和促进,具有积极意义。当然,对该思路还必要进行深入思考和反复论证,更有待于实务的检验和各级检察机关不断努力尝试。

参考文献

[1] 国家电子政务十二五规划[R].

[2] 最高人民检察院.《“十二五”时期科技强检规划纲要》[R].

[3] 王洋,李国才,徐亚昆. 信息通信网络告警分类、关联性与管理方法研究[J].电信科学,2013,(8):132-135.

[4] 陆振锋.基于Web服务的集中告警系统建设探讨[J]. 江西通信科技,2008(03): 42-45.

[5] 丁志平,杨季文,吕强. 网络管理系统中资源模型的设计与应用[J]. 计算机工程,2007,(6):173-175.

[6] 闫生超,唐云善,张春平,等.基于网络和时间关联关系的告警相关性分析[J]. 电力系统自动化,2011,(9):78-81.

[7] 刘冬生,曾小荟,唐卫东,等. 一种新的告警关联聚类算法.计算机应用研究,2013,(12):3786-3789.

数据关联算法研究 篇3

最早提出关联规则数据挖掘的概念雏形的是IBM的R·Agrawal等人, 他们是在对超市顾客购买商品的数据分析中发现, 有些商品经常被一起购买。他们的分析数据显示, 有八成的顾客如果购买了面包和黄油, 那么他们一定会购买牛奶。而有近六成的顾客会在购买电脑之后, 一定会购买打印机等设备, 这种关联性的购买例子很多。数据关联规则挖掘理论自从被提出以来, 在数据研究学术界和产业界得到了广泛关注和学术价值的认可。很多的数据研究机构和数据研究人员已经对数据关联规则挖掘理论进行了研究和开发工作。根据使用环境的不同需要, 数据关联规则挖掘理论又衍生出许多分支和领域。

2 关联规则的相关概念

2.1 关联规则 (Association Rules)

设所有项目的集合为I={i1, i2, …, im}, 定义I是项目集, 项目集I中元素ip (p=1, 2, …, m) 称为项目。设事务所构成的集合为T={t1, t2, …, tn}, 定义T是事务数据库。事务数据库中的元素tp={Tidp, ISp} (p=1, 2, …, n) 称为一个记录或事务, 其中Tidp表示事务编号, 此编号为一个事务的唯一标识是某些项目的集合。

2.2 支持度 (Support)

设X是某些项目的非空集合, 即为某个事务。如果满足则我们称事务tp支持X, 即事务数据库T支持X。记事务数据库T对X的支持程度为Sr (X) , 即在事务数据库T中X的支持度为Sr (X) 。它的形式定义表示为:

表示X在T中出现的次数。

2.3 频繁项 (Frequent Item Sets)

设某些项目的非空集合为X, 即且X≠φ。Min Sup为给定最小支持度, 即支持度阈值。若S (X) ≥Min Sup, 则称X为频繁项。所有频繁项构成的集合为频繁项集。如果X由K个项目构成, 则X又称为K-维频繁项。所有K-维频繁项构成的集合称为K-频繁项集。

3 关联规则算法描述

从给定的事务数据库中挖掘产生关联规则的过程就是关联规则挖掘算法。关联规则算法的应用很广泛, Apriori算法就是经典的关联规则挖掘算法之—。

3.1 Apriori算法的基本思路

在算法中寻找频繁项集的基本思想是: (1) 挖掘产生1-频繁项集L1, 通过计算出单个项目元素的支持度, 找出大于最小支持度Min Sup的所有项目, 构成一维频繁项集。 (2) 进行循环, 挖掘产生K-频繁项集LK, (k∈[2, m]) , 直至不再出现频繁项集。

3.2 关联规则算法实例

设有事务数据库T, 假定Min Sup=2, 则Apriori算法执行过程如下:

4 关联规则数据挖掘算法在现实中的应用

随着对关联规则数据挖掘理论的深入研究, 依据该理论产生的应用成果不断涌现。在大型超市商品管理、商品需求分析、市场营销预测、股票分析等领域得到了普遍的认可。在生物信息学、医学、灾害预测、信息检索等领域也正在逐步的推广中。在今后的研究和开发工作中, 在提高算法效率、优化算法和建立良好的人机沟通渠道方面仍有突破点。

参考文献

[1]李楠, 宁燕子, 杨存志.Apriori关联规则算法的C语言实现[J].2011, 12 (1) .

[2]吴佳楠.基因表达数据分析方法及其应用研究[D].吉林大学, 2012.

数据关联算法研究 篇4

摘 要:关联数据是W3C推荐的一种用来发布和联接各类数据、信息和知识的标准,基于关联数据的信息聚合可以把图书馆的资源和外部数据网络链接起来,扩展资源范围,改进用户服务。文章首先对关联数据和信息聚合进行了介绍,讨论了当前关联数据在图书馆中的主要应用,在此基础上构建了基于关联数据的图书馆信息聚合模型,从数据层、聚合层和应用层三个层次进行研究。

关键词:关联数据 图书馆 聚合 本体映射

中图分类号: G202 文献标识码: A 文章编号: 1003-6938(2011)06-0050-04

The Libraries Information Mashup Based on Linked Data

Ding Nan (Zhejiang University Library, Hangzhou, Zhejiang, 310028)

Pan Youneng (Department of Information Resources Management, College of Public Administration, Zhejiang University, Hangzhou, Zhejiang, 310028)

Abstract: Linked data is a W3C recommendation standard to publish and link all kinds data, information and knowledge. The mashup based on linked data can connect the resources in libraries with the Web of data to enlarge the scale of resources and improve the user service. The authors introduce linked data and mashup, and discuss the main application of linked data in libraries. Then the authors build the library information mashup model based on linked data, discuss deeply from three layers: the data layer, the mashup layer and the application layer.

Key words:linked data; library; mashup; ontology matching

CLC number: G202 Document code: A Article ID: 1003-6938(2011)06-0050-04

1 引言

关联数据可被视为语义网的一种实现方式,它使得来自于不同来源的数据相互关联,从而促进了万维网的发展。关联数据的出现不仅对当前的超文本网络进行了扩展,同时也对当前网络上纷繁混乱的信息资源进行甄别、选择和定位。[1]随着大量的数据集被转换为关联数据,建构在其基础上的应用技术也随之出现,聚合技术(Mashup)就是其中最为重要的一种。目前已有的信息聚合技术主要面向传统的万维网,而基于关联数据的信息聚合技术主要面向语义网,关注的焦点在信息本身而不是承载信息的页面或是信息的访问接口API,聚合的对象直接深入到细粒度级的具有语义信息的实体。

图书馆拥有多年累积的高质量数据,包含大量值得揭示和参照复用的有价值的内容实体,但是这些内容实体都隐藏在书目记录内部,缺乏独立标识和结构化描述,挖掘其相互之间的隐含关系需要大量的人力,[2]更难以和外部数据源建立实体级别的链接。基于关联数据的信息聚合技术可以帮助图书馆和全球数据网络建立链接,拓展图书馆的资源和服务,使图书馆和其它相关领域的数据和应用进行协同,从而提升图书馆的价值。

2 概述

2.1 关联数据概述

关联数据是国际互联网协会(W3C)推荐的一种用来发布和联接各类数据、信息和知识的标准,它希望在现有的万维网基础上,建立一个映射所有自然、社会和精神世界的数据网络,通过对事物及其相互关系进行机器可读的描述,使互联网进化为一个富含语义的、互联互通的知识海洋,从而使任何人都能够借助整个互联网在更大范围内,准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识。[3]

关联数据采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)命名数据实体,并在网络上发布,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互联系以及有助于人和计算机理解数据的语境信息。[4]

关联数据可以在不同来源的数据之间创建链接。这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统。关联数据可链接至其它外部数据集,同样也可被来自外部数据集的数据所链接,从而形成关联数据网络。

关联数据网络和当前的超文本网络有所不同,超文本网络是通过超链接将HTML文件连接起来,但关联数据并非是简单地连接这些文件,而是使用RDF形成链接世界上任何事物的网络,也即数据网络,数据网络可被定义为由网上数据描述世界上所有实体的网络。

2.2 关联数据在图书馆中的应用

作为信息收集、组织与处理的专门机构,图书馆的MARC数据,规范记录,主题标目等资源都可以发布为关联数据。在国外,瑞典国家图书馆早在2008年便将瑞典联合目录(LIBRIS)发布为关联数据。LIBRIS共包含约600万条书目记录,2000万条馆藏记录及20万条规范记录,为超过170家大学图书馆、公共图书馆、博物馆和档案馆提供编目服务。LIBRIS是世界上第一个被整体发布为关联数据的联合目录或国家图书馆目录,在发布关联数据的过程中,LIBRIS使用的词汇表并没有仅限于图书馆学领域,而是一个包含了DC、SKOS、FOAF和Bibliontology的一个混合体。[5]此外,美国国会图书馆、德国国家图书馆、法国国家图书馆、OCLC等国际、国家级的书目数据或规范数据也纷纷开放了关联数据服务。

关联数据也为图书馆的资源发现服务提供了一种新的途径,通过将图书馆的资源和外部信息源连接起来,可以增强和扩展图书馆的资源发现平台。近年来,Library Thing、Syndetic Solutions等系统已能为图书馆提供图书的目次、封面和评论的外部链接,但仍局限于书目层次上的信息,且需事先指定外部信息源并了解其接口以便编程访问,对大部分图书馆来说技术实现上存在一定的难度。而关联数据允许图书馆关联到外部海量的结构化数据中,并不局限于资源本身,还可以扩充地点、人员等信息。[6]

2.3 信息聚合

信息聚合是指将来自于多个分布的、异构的信息源中的内容整合在一起,以便于用户浏览、检索及利用。早期,一个网站或网络应用中的信息通常只来自于本地存储,而聚合是从多个分散的源获取信息。目前信息聚合的方法主要有两种:

(1)网页层面的简单聚合。即通过RSS把来自于不同站点的网页信息聚合在一起,从而实现在一个网站或应用系统中可以同时看到多个网站的内容,常见的RSS阅读器就是这种形式的聚合。

(2)Web API层面的信息聚合。其信息源不仅限于RSS,也可以通过各种Web API(网络应用程序接口)来获取,如通过Google Maps API获取地图信息通过YouTube API获取视频信息、通过Amazon API获取商品信息等。目前,大部分的聚合应用都是基于Web API的,每天都有新的聚合应用被开发出来,又有新的API随时发布到网上,为用户提供各式各样的应用。但在另一方面,无论是API的创建还是使用都不是一件容易的事情,需要花费大量的时间。

3 基于关联数据的图书馆信息聚合

和传统的信息聚合方法相比,关联数据技术提供了一种灵活且易实现的聚合方法,用户只需要关心信息本身,而不需要担心各个数据源的API如何使用。对图书馆来说,通过信息聚合将外部资源和本馆资源整合到一起,为用户提供多角度、全方位、可视化的访问和了解信息的途径,可以扩展资源范围,改进用户服务,从而提升图书馆的价值(见图1)。

3.1 数据层

数据层可分为本地数据源和外部数据源两大部分,其中本地数据源是指图书馆自身所拥有的书目、词表和数字资源等,外地数据源即链接到关联数据网络中的各种数据集,这些数据集原先可能以关系型数据库、电子表格、Web网站等多种形式存放,因此必须采取不同的方法转换成关联数据。

(1)关系型数据库。目前已有很多开放的工具用于将关系型数据库发布为关联数据,如D2RServer、Triplify等,用于表达关联数据中的实体的词汇表可以自行构建,也可以使用目前已有的本体或词汇表中的词汇,例如用于表述人名的foaf:name,用于表述资源标题的dc:title,用于表述经纬度的geo:lat和geo:long等等,这些本体或词汇表可以通过Swoogle和Sindice等工具来查找。

(2)电子表格。在许多组织中,大量的数据以电子表格的形式通过Email进行传递。甚至连美国政府早期的开放数据网站recovery.gov中的数据都是以电子表格的形式发布的。目前已有不少工具可将电子表格形式的数据转换成RDF,例如Anzo for Excel和Topbraid Composer能将Excel表格转换为RDF数据,而XLWrap除了Excel,还能转换OpenDocument和CSV格式的文档。

(3)XML。XML文档可以直接发布到Web上,为了便于他人使用,最好简要说明一下XML文档的内容以及文档之间的关系。当然,也可以用XSLT或ASP、JSP等脚本语言编写一个简单的脚本,将XML文档转换为RDF。

(4)Web网站。对于Web网站的页面,可以采用RDFa技术改变产生页面的脚本语言,使得这些页面所含的数据可以被其他人重新抽取并发布为关联数据。另外一种可选的方法就是为每个Web页面都编写一个平行的包含RDF/XML格式数据的页面。[7]

3.2 聚合层

在聚合层中,图书馆通过统一的规范访问关联数据网络,并将其和本馆资源进行词表或本体上的映射,自动或半自动地进行实体识别,最终形成集成数据以便下一步应用。

(1)数据访问。数据访问的基本方法是解析关联数据集提供的HTTP URI,获取以RDF模型描述的对象信息。也有一些数据集提供RDF包供下载,或支持SPARQL远程查询,SPARQL是一种用于RDF的查询语言,2008年成为W3C推荐标准。此外,Sindice、Falcons等关联数据搜索引擎也提供了访问他们从网络上获取到的数据的接口。

(2)本体映射。基于关联数据的信息聚合是指将来自于多个不同的关联数据集中的信息集成起来并进行整合,这些数据集经常使用不同的本体来描述同一领域的信息。虽然FOAF、SKOS、Dublin Core等通用本体在一些数据集中也得到了应用,但出于种种原因,大部分的数据集还是在使用自行设计的领域本体或应用本体,甚至根本就没有使用本体,而只是附加了一个简单的数据说明。因此,不同数据集之间的本体映射成为信息聚合的主要研究内容之一。

通用本体之间的映射比较容易实现,只需比较用于表示本体概念的字符串是否相同即可。领域本体或应用本体之间的映射是当前本体与语义网领域的研究热点之一,主要方法包括基于名称的技术、基于结构的技术和基于语义的技术等。引入外部知识也是一种值得关注的方法,因为和传统的本体匹配环境不同,关联数据环境天然具有链接到外部知识库并将其作为参照或背景知识的能力。外部知识库可分为通用知识库(或称为世界知识,如Wordnet等)和领域知识库(如UMLS等),这些知识库一般将其所有概念组织为树状结构,可通过计算一个概念到另一个概念的距离,结合概念所处层次和概念的疏密程度来计算概念间的相似度。

对于没有使用本体的数据集,可考虑对其所含的实例数据进行统计分析,找出可能指向同一实体的数据记录并聚类,从而将其隐含的语义信息显性化,实现数据集之间的映射。

(3)实体识别。关联数据集之间的本体映射为信息聚合打下了基础,而在不同的数据集中指向同一实体的实例数据之间建立关联则是信息聚合的重点。本体映射在概念之间建立了关联,相同的概念一定拥有相似的实例,但具体哪些实例描述的是同一个实体依然未知。单纯的基于实例名称的比较将产生较多的误匹配,例如人名、地名等。数据关联的核心在于为每个实例产生一个唯一的标识,这些标识可能本身就存在,例如用于标识图书的ISBN号,用于标识期刊的ISSN号等。也可以将该实例的多个属性值相结合以生成唯一标识,如姓名加籍贯加出生日期,论文题名加作者加期刊名等。在无法生成唯一标识的情况下,则可通过属性值之间相似度的计算在实例之间建立关联,同时,为了提高关联的准确度,可以采用一些属性来排除关联,例如性别属性:即使姓名和机构名称相同,但性别不同的个体之间不能建立关联。

本体映射与实体识别之间存在互补关系,本体映射是实体识别的基础,同时实体识别的结果又可用于本体映射的评价与改进,二者的迭代使用可提高信息聚合的质量。

3.3 应用层

在信息聚合的基础上,图书馆可以对原有的应用进行拓展,或是开发新的应用。目前,许多图书馆通过实施资源发现服务扩展其目录检索界面,展示更多的馆藏信息,使用户可以浏览动态更新的结果,但由于它主要是通过主题标目和MARC记录里的数据来实现,具有一定的局限性。而关联数据可以为扩展书目信息提供结构化的集成数据,为用户提供新的资源发现和访问服务。

随着数据的保存、交换和再利用受到越来越多的重视,并从最初的科学实验数据扩大到地理数据、统计数据等,图书馆开始帮助研究者保存、管理他们创建的数据,并提供给社会使用。关联数据可以使图书馆在数据融合方面发挥更大的作用,通过对地点、名词、题名和概念等的匹配和映射,在数据对象之间建立语义链接,从而为用户提供更有意义的检索结果。

此外,图书馆越来越多地参与了学术交流过程中不同阶段的活动,例如提供研究资料、帮助研究者发现其研究成果的引文影响力等。在此过程中,图书馆需要考虑系统的互操作性,而关联数据能在这方面提供很好的支持。[8]

4 结语

虽然关联数据概念的提出至今不过5年时间,但由于其本身所具有的开放、易用和可扩展特点,使其得到了迅速的发展。目前,仅LOD中的数据就已经超过了250亿条,并正以指数速度增长,构建了庞大的数据网络。基于关联数据的信息聚合可以把图书馆的资源和外部的数据网络相互连接起来,增强和扩展其资源发现平台,更好的保存、管理和利用研究者创建的数据,促进学术交流。当然,本文仅提出了一个在理论上可行的基于关联数据的图书馆信息聚合模型,可能会有新的问题在系统实施过程中出现并得到解决,从而积累更多的经验,提升图书馆在关联数据研究、应用中的地位和作用。

参考文献:

[1]Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data-the story so far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22.

[2][3]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,29(2):5-12

[4]Structured Dynamics LLC. Linked Data FAQ[EB/OL].[2010-03-06]. http://structureddynamics.com/linked_da

ta.html.

[5]Anders S?觟derb?覿ck, Martin Malmsten.LIBRIS - Linked Library Data[J]. Nodalities, 2008,(5): 19-20.

[6][8]黄永文.关联数据在图书馆中的应用研究综述[J]. 现代图书情报技术, 2010, 29(5):1-7.

[7]Tim Berners-Lee. Putting Government Data online[EB/OL].[2010-12-06].http://www.w3.org/DesignIssues/Gov

Data.html.

数据关联算法研究 篇5

数据关联是建立某时刻传感器探测数据和其他时刻探测数据(或航迹)的关联,以确定这些探测数据是否来自同一个目标的处理过程,它是雷达数据处理的关键技术之一。常用的数据关联算法有最优邻近 (NN)、概率数据关联(PDA)和多假设(MHT)等等。 其中,最优邻近和概率数据关联算法只对最新的探测点迹集合进行研究,是一种次优贝叶斯算法;多假设关联[1]算法对当前时刻以前的所有确认点迹集合进行研究,是一种最优贝叶斯算法。理想条件下波门内出现的雷达探测点迹稀疏,NN算法和PDA算法可以正确关联点迹。然而在雷达实际探测过程中,由于受天气、海况、杂波和目标密集等因素影响,波门内的点迹变多增加了关联的不确定性,NN和PDA关联算法性能下降,导致目标跟踪不稳定。为改善目标在杂波区、目标密集区时的跟踪稳定性,采用MHT算法解决复杂环境下数据关联的模糊性问题。但MHT算法需要合理设计假设航迹分支的产生、删减和合并,否则算法的计算量和存储量会呈现爆炸性增长,这点限制了MHT的工程实现。文献[2]介绍了一种基于检测前跟踪技术的MHT工程优化方法。近些年,许多研究学者利用目标的不同特征信息进行数据关联。虽然目标的特征信息参数不能直接用于航迹更新,但是在有效区别目标和杂波方面起到了重要作用,提高了目标的数据关联正确率[3,4,5]。本文针对慢起伏目标回波,在杂波区、目标密集区等复杂环境下引入证据理论思想,充分利用目标点迹方位变化率特征、能量和特征以及位置特征等多特征信息综合判断点迹是否为目标的正确关联点迹。通过雷达实测数据验证,多特征联合数据关联可以改善目标在复杂环境下的跟踪稳定性,具有一定的工程应用意义。

1基于证据理论的多特征联合数据关联算法

1.1点迹特征提取技术

传统的点迹提取技术利用目标形状模板匹配检测到目标回波起始和目标回波结束位置,最终计算得到目标回波点迹的中心位置。这种处理方法对目标回波形状的依赖性较强,不规则回波形状容易造成目标点迹的不稳定性,增加了目标稳定跟踪的难度。为增强目标点迹的稳定性和提取目标点迹更多的特征信息,采用新技术实现目标点迹提取。其基本原理是利用目标回波在方位距离上的连续性对雷达测量的回波方位距离数据进行凝聚。假设目标回波形状如图1所示。

目标回波在距离上连续占据n至m个距离单元, 方位连续占据i到j个方位,A(i)为每个方位距离单元对应的能量信息,则雷达探测到的目标回波数据ESi可表示为(Azi,Dis Head,Dis Tail,Energy),其中Azi是目标回波方位数据,Dis Head是方位的距离起始数据,Dis Tail是方位的距离结束数据,Energy是目标回波能量的量化值。若目标两组回波数据ESi和ESj满足式(1)条件则凝聚ESi和ESj,同时更新方位起始、 方位结束、距离起始和距离结束数据,否则回波数据ESi和ESj来源于不同回波。式(1)中Gzai为方位凝聚门限参数,ɸ表示回波数据ESi和ESj在距离有重合非空集。

重复以上处理过程直至所有回波数据凝聚完毕, 按式(2)和(3)能量加权法计算点迹质心距离rk和点迹质心方位 οk:

目标点迹能量和为所有满足凝聚条件的回波数据能量总和,如式(4)表达。

经过点迹提取处理后可获得回波轮廓的Azi方位起始 、Dis Head方位结束 、Dis Tail距离起始 、 Energy距离结束以及回波点迹能量和信息 。

1.2基于证据理论的多特征联合数据关联算法

杂波区、目标密集区等复杂环境下的目标跟踪, 由于点迹密集导致基于位置信息的单一数据关联算法不确定性增加。1967年Dempster提出了证据理论,后由Shafer加以扩充和发展[6]。证据理论能把握问题的不确定性,为不确定性信息的表示、测量和组合提供了一种解决方案。基于证据理论思想的多特征联合数据关联算法,首先计算出点迹各个参数的特征统计概率值,并对各个特征值进行加权组合,将最优加权组合值作为目标关联结果,具体步骤如下。设目标运动模型和测量模型如下:

其中,X(k)为目标状态变量,F(k)为状态转移矩阵,Z(k)为雷达测量值,H(k)为观测矩阵,V(k)和W(k)分别是过程噪声和测量噪声。假设在k时刻目标预测状态波门范围内存在N个不同回波,通过点迹特征提取技术获得回波点迹的特征信息,定义特征集合A={A1,A2,A3}。其中,A1表示目标滤波信息特征, A2为点迹能量和特征,A3为点迹回波方位变化率特征。各个特征概率值计算步骤如下:

(1)滤波特征。根据目标运动模型对目标采用卡尔曼滤波处理,当k时刻目标预测范围内存在N个点迹,假设每个点迹为目标的正确关联点迹,则可能形成N个航迹分支,根据式(6)计算每个航迹分支的概率[7]:

其中Ck为常数,Vi对应测量值Zi的新息,Si协方差矩阵。

(2)回波点迹的能量和特征。设第k次扫描得到的目标关联点回波信号为Ek={E1,E2,…Ai,i=1,2,3…k},对Ek利用式(7)(8)进行统计量检验判断点迹回波能量和是否存在起伏现象。

则k+1时刻的目标关联点迹的能量和概率为 :

ΨE=1表示该点迹回波稳定,反之ΨE=0表示该点迹回波存在起伏现象。

(3)点迹回波方位变化率特征。设第k时刻雷达扫描得到的目标关联点迹方位数据集合为{(Azi-Head,Azi Tail,)1,(Azi Head,Azi Tail,)2…(Azi Head,Azi Tail,)k},其中Azi Head表示回波点迹的方位起始信息,Azi Tail表示回波点迹的方位结束信息。雷达在探测目标过程中,目标回波存在一定的起伏性。但在杂波区、目标密集区情况下,受杂波干扰和目标回波重合等因素影响导致回波点迹在方位上有明显变化。利用点迹在方位起始或者方位结束的变化率特征可推测出该点迹是否为目标的关联点迹。处理步骤,首先统计计算k个时刻目标方位起始、方位结束变化率的均值 ΔEˉHEAD和 ΔEˉTail。

则k+1时刻的目标回波方位变化率的概率值ΨA如式(12)表示。其中 ΔA1为目标回波起始变化率, ΔA2为目标回波结束变化率

(4)多特征联合关联度。上述点迹特征概率求出后,第个点迹跟目标的关联度可按式(13)求得,具体为:

式中 α1+ α2+ α3= 1。算法处理流程如图2所示。

1.3算法验证

算法采用VC2010开发,记录目标预测范围3公里以内点迹数据和AIS数据,将最优邻近和基于证据理论的多特征联合关联两种数据关联算法的结果进行对比。图3为跟踪目标穿越6批停航目标密集区场景,红色为停航目标的AIS信息。图4为目标穿越目标密集区时点迹各个特征的变化示意图。目标在穿越目标密集区过程中,目标回波重叠导致滤波协方差特征残差信息增大,目标点迹能量和表现为多个目标的能量总和,目标点迹的方位变化率突变。这些点迹特征变化在图5第120个探测周期和第160个探测周期内尤其明显。根据统计分析方法计算得出滤波协方差概率 Λ 较小,回波点迹的能量和 ΨE= 0 ,点迹回波方位变化率 ΨA= 0 ,组合加权后计算关联度小,判断该点迹不是目标关联点迹。相反,依据单一位置信息的最优邻近算法造成目标关联错误。图5和图6为目标在杂波区跟踪示意图和点迹特征变化示意图。 通过两种算法对比,多特征联合数据关联算法可以改善目标在杂波区、目标密集区等环境异常复杂下的稳定跟踪能力,具有一定的实际工程应用价值。

2结论

数据关联算法研究 篇6

云时代来临,大数据也引起了越来越多的关注。 大数据具有Volume(大量 )、Variety(多样 )、Velocity(高速 )、Value(价值 )的特征, 如何从这些海量的数据中挖掘出有用的信息以指导决策显得至关重要。 目前,我国各高校普遍采用教务管理系统对学生成绩等信息进行管理。 对于动辄上万人的高等院校来说,随着时间的积累,教务管理系统中必然存在着大量的数据,遗憾的是,这些数据目前只是一条条被搁置的记录,鲜少有人问津,更何谈从中发现规律并应用到教学实践中去。 我们知道,大学基础课程的学习对于后续专业课程的学习有影响,但这种影响是确实存在, 还是无端臆测,需要科学的理论予以支撑,需要严谨的方法予以检验。本文将关联规则挖掘中最经典的算法Apriori进行改进,并应用到高校学生成绩管理中,以发现某些学科间的关联关系,旨在为高校广大师生及教学科目的设置和教学计划的制订提供参考。

1理论综述

信息时代,数据无处不在,数据挖掘作为一种数据处理的手段,也在飞速地发展。数据挖掘(Data Mining,DM)就是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但有时潜在有用的信息和知识的过程。 数据挖掘的产生可以追溯到20世纪80年代末,它是多学科交叉的产物,早期的理论基础主要源于统计、机器学习和数据库系统。 经过近20年的发展,已逐步形成一套独有的理论和方法,包括聚类、神经网络、关联规则等。

关联规则是数据挖掘领域的热点之一, 其概念由Agrawal、 Imielinski、Swami提出 。 关联规则的典型问题是对超市中的购物篮进行分析,即通过分析顾客购物篮中的商品组合,发现商品间的关联关系,沃尔玛超市“啤酒+尿布”的故事,可以说是对关联规则最成功的运用。

关联规则挖掘算法有很多,大致可以分为3类:1Apriori算法 ; 2频繁模式 增长算法 (FP -growth); 3垂直数据 格式 (ECLAT)。

(1)Apriori算法是关联规则挖掘中的典型算法 , 其思想简明、实现方便,由Agrawal和Srikant于1994年提出,它利用先验性质(频繁项集的所有非空子集也一定是频繁的),采用逐层迭代的方法进行挖掘。 该算法对数据集进行多次遍历,其中k项集用于搜索(k+1)项集,直至不能发现新的频繁项集。

(2)FP-growth由Han提出 , 它通过构 造一个高 度压缩的FP-tree, 生产频繁模式集 , 而不用生成候选项集 , 可以说是对Apriori算法最出色的改进算法 。

(3)ECLAT由Zaki提出, 它将Apriori算法中所使用的水平数据格式变换成可对TID集合进行求交集运算的垂直数据格式。

2理论基础

2.1关联规则挖掘

关联规则是在数据集中找出项与项之间的关系, 也被称为购物篮分析(Market Basket Analysis)。 其定义为:假设I={i1,i2, …,im}表示一个项集,D表示事务集,其中每一个事务t是一个项集,即t⊆I。 每一个事物都有唯一表示TID。 若X⊆t,则称事务t包括I的一个子集X。 关联规则是一种蕴含形式X⇒Y,其中X⊂I、 Y⊂I且X ∩ Y = φ。 在事务集D中 , 规则X⇒Y的支持度s ( support)是D中事务同时包含X、Y的百分比 ,即 :support(X⇒Y)=P(X∪U);规则X⇒Y的置信度c(confidence)是D中事务已经包含X的情况下 ,包含Y的百分比 ,即confidence(X⇒Y)= P(X|U)。 关联规则的任务是产生所有不小于用户给定的最小支持度阈值(minsup)和最小置信度阈值(minconf)的关联规则。

关联规则挖掘过程大致可以分为两个阶段:

(1)找出所有的频繁项集 ,即找出所有支持度大于最小支持度阈值(minsup)的项集。

(2)由频繁项集产生强关联规则 ,即产生支持度和置信度分别大于或等于最小支持度阈值和最小置信度阈值的关联规则。

Apriori算法是发现频繁项集的基本算法 , 它使用支持度 — 置信度构架, 但二者不足以过滤掉无趣的规则, 可引入提升度 (lift)来过滤掉无趣的关联规则 。

X和Y出现之间的提升度可表示为 :

若其值小于1,则X的出现与Y的出现是负相关的;若其值大于1,则X和Y是正相关的;若其值等于1,则X和Y之间没有相关性。

在Apriori算法的基础上,可以引入很多技术来提高其效率, 包括哈希、划分、采样等。 哈希技术通过哈希函数将每个项集散列到相应的桶中; 划分是将一个大的挖掘问题转化为多个更小的问题,进而对每部分数据分别进行挖掘;采样简而言之是指从完整的数据集中随机挑选数据子集进行挖掘。

在对数据进行挖掘前,要对数据进行预处理,以使数据满足准确性、 完整性和一致性的要求。 数据预处理主要包括数据清理、数据集成、数据变换、数据消减等。 在数据清理时若数据记录中存在缺失值,通常采用以下几种方法进行填补:1忽略元组; 2人工填写缺失值;3使用一个全局常量填充缺失值;4使用属性的中心度量(如均值或中位数)填充缺失值;5使用与给定元组属同一类的所有样本的属性均值或中位数; 6使用最有可能的值进行填充。

2.2改进后的关联规则数据挖掘流程

传统的关联规则进行数据挖掘,一般包括数据准备、数据预处理、应用关联规则模型挖掘、生成频繁项集、产生关联规则、分析并得出结论。 本研究中对生成的关联规则进行模式评估,并在原有的“支持度—置信度”框架之外,加入提升度,通过提升度来过滤掉用户不感兴趣的关联规则, 从而对有意义的规则进行分析。

3关联规则在成绩分析中的应用

3.1数据准备

本文选择安徽省某高校商学系教务管理系统中学生成绩作为研究对象,时间跨度为2012年9月-2014年6月。 从中选取概率论与数理统计、线性代数、运筹学、统计学原理、计量经济学、财务管理、投资学原理等经管类核心课程成绩,将该系102名学生上述7门成绩作为关联规则挖掘的原始数据信息。

3.2数据预处理

数据预处理包括数据清理、数据集成、数据变换、数据消减等过程。 教务管理系统中成绩数据主要问题在于存在缺失值,以及补考成绩只记为通过或者不通过,针对上述情况,采用忽略元组的方法进行数据预处理。

同时出于方便数据挖掘之目的, 对学生成绩和课程名称进行转换,课程名称由中文名称转换为英文替换代码(如运筹学转化为Course3),学生成绩由百分制转换为等级制,[100,90]转化为A,[90,80]转化为B,以此类推,60分以下记为E。 特别地,补考通过记为D,补考未通过记为E。

3.3应用Apriori算法及生成关联规则

依据改进后的数据挖掘流程, 对经过预处理的 数据应用Apriori算法生成侯选集 ,然后基于侯选集 ,根据给定的最小支持度判断并确定频繁项集。 同时从频繁项集产生简单关联规则,然后根据指定的最小置信度阈值选出强关联规则, 对这些关联规则只选取提升度大于1的规则,进而对过滤出的规则进行分析。 本文中最小支持度为0.1,最小置信度定为0.8。

本例中,所得结果见表1。

3.4数据挖掘结果分析

依据数据挖掘产生的结果, 结合选定各门课程的性质进行分析,可以得到如下结论:

(1)数学基础课程成绩关联密切 ,可以根据规则8看出 ,“概率论与数理统计”成绩为“优”与“线性代数”成绩为“优”关系支持度和置信度高,且提升度也较高,因此根据数据挖掘结果可以得出数学基础课程关联较为紧密。

(2)数学基础课程成绩优异是统计学和投资学成绩优异的基础。 根据规则2、规则5可以得出,对于统计学、投资学这两门需要较多数学运算的学科, 数学基础课程的学习和运算能力对学习这两门专业课产生重要影响。

(3)运筹学和财务管理这两门管理类学科需要较好的数学基础。 从规则4中,可以看出基础课程较好的学生在这两门课中表现优异,反之亦然。

3.5数据挖掘结果启示

(1)从学生角度 ,商学系学生如果希望能够在专业课程中有较为出色的表现,必须掌握数学基础课程,夯实数学基础,进而具备在专业课表现优秀乃至继续深造的可能性。

(2)从教师角度 ,数学基础教师应该在严格要求学生学好基础课程的同时,将专业课中案例等与基础课程相结合,使其认识到基础课程的重要性并感受到基础课程的魅力。 而专业课老师则应该在教学过程中适当补充相应的数学基础知识, 而不是默认学生们都已学过相关课程而不再讲解。

(3)从教务管理部门角度 ,教务管理部门应该合理控制 、 安排基础课程和专业课程的开课顺序、间隔时间等,同时不能够一味压缩专业课程或基础课程的课时量,致使课堂教学学时不足、 学生掌握知识深度不够,给后续学习造成不便。

4结束语

本文由当前高校教务管理中广泛遇到的数据得不到有效利用,无法为师生、教学管理服务的问题出发,建立关联规则数据挖掘流程,对选定的数据进行关联规则挖掘,并对结果进行分析及提出相应的对策。

本文主要完善了关联规则数据挖掘流程, 特别是将提升度加入模式识别, 使其区别于以往Apriori算法中 “支持度—置信度”的框架,剔除无趣的关联规则,使结果更为可靠。 最后根据挖掘结果从不同角度提出相应的建议和对策。

摘要:当今时代,数据已经渗透到各行各业,是真正有价值的资产。如何从海量的数据中提取有用信息,成为人们关注的焦点。数据挖掘为人们提供了一种处理数据的智能技术。本文简述了关联规则挖掘的发展历程,并对数据挖掘中经典的Apriori算法进行改进,来分析某些大学课程间的关联关系,旨在帮助高校更好地安排教学课程和计划。

数据关联算法研究 篇7

1 资料与方法

1.1 处方来源与筛选

本研究以巢崇山等著, 鲁瑛等校注的《孟河四家医案医话集》 (山西科学技术出版社) 和朱雄华编著的《孟河四家医集》为处方主要来源, 筛选泄泻处方15首。

1.2 分析软件

“中医传承辅助系统 (V1.1) ”软件, 由中国中医科学院中药研究所提供。

1.3 处方的录入和核对

将上述筛选后的处方录入“中医传承辅助系 (V1.1) ”。录入完成后, 由双人负责数据的审核, 以确保数据的准确性。通过“中医传承辅助系统 (V1.1) ”软件中“数据分析”模块中的“方剂分析”功能, 进行用药规律挖掘[1,2,3]。

1.4 数据分析

1.4.1 提取数据源

在“中医疾病”项中输入“泄泻”, 提取出治疗泄泻的全部方剂。

1.4.2 频次统计分析

将泄泻方剂中每味药的出现频次从大到小排序, 并将“频次统计”结果导出。

1.4.3 组方规律分析

“支持度个数” (表示在所有药物中同时出现的次数) 分别设为5, “置信度”设为0.9, 按药物组合出现频次从大到小的顺序进行排序;“规则分析”分析所得的规则[4,5]。

2 结果

2.1 用药频次

对马培之先生15首泄泻处方中的药物频次进行统计, 常用药物包括茯苓、山药、炙甘草、白芍、於术、陈皮等。具体见表1。

2.2 基于关联规则分析的组方规律分析

按照药物组合出现频次由高到低排序, 前三位分别是“山药、白芍”, “山药、炙甘草”, “山药、陈皮”。前50位药物组合情况具体见表2。置信度为1条件下得出的关联规则有多条:“黑料豆->山药”, “於术->山药”, “黑料豆->於术”, “炙甘草, 於术->山药”, “山药, 党参->白芍”, “山药, 党参->白芍”, “白芍, 於术->山药”, “黑料豆, 於术->山药”, “山药, 黑料豆->於术”, “黑料豆->山药, 於术”, “炙甘草, 白芍, 於术->山药”。置信度为0.9条件下的关联规则网络图见图1。

3 讨论

本研究应用数据挖掘关联规则Apriori算法对孟河先贤马培之先生治疗泄泻用药规律进行分析。研究结果显示, 常用药物包括茯苓、山药、白术、甘草、白芍等;常用药物组合包括“山药、白芍”, “山药、甘草”, “山药、陈皮”等;置信度为1条件下的关联规则有3条:“沙苑子->山药”、“女贞子, 牡蛎->山药”、“黑料豆, 龙齿->山药”。

泄泻是指排便次数增多, 粪便稀薄或泻出如水样为主要特征的病证。古人将大便溏薄者称为“泄”, 大便如水注者称为“泻”。泄泻病变脏腑主要在脾、胃和大小肠。其致病原因有感受外邪、饮食不节、情志所伤及脏腑虚弱等。脾虚、湿盛是导致本病发生的重要因素。泄泻的分型治疗原则包括: (1) 外感寒湿或风寒:治以解表散寒, 芳香化湿止泻, 用滑石藿香汤加减; (2) 外感湿热或暑湿:治以清热化湿止泻, 用三仁汤加减; (3) 食滞肠胃:治以消食导滞, 和胃止泻, 用保和丸; (4) 肝气乘脾:治以抑肝扶脾止泻, 用痛泻药方加减; (5) 脾胃虚弱:治以健脾益气, 实肠止泻, 用参苓白术散; (6) 肾阳虚衰:治以温肾健脾, 涩肠止泻, 用四神丸。

下面结合本研究分析结果, 对马培之先生治疗泄泻的常用药物进行分析。茯苓是处方中最常用药物, 其性平、味甘淡, 入心、肺、脾经, 具有渗湿利水, 健脾和胃, 宁心安神的功效, 可治脾虚湿蕴之小便不利, 水肿胀满, 痰饮咳逆, 呕逆, 泄泻, 遗精, 淋浊, 惊悸, 健忘等症。此处取其健脾止泻之功, 用于脾虚泄泻。山药为出现频次第二位的药物, 可补脾养胃, 生津益肺, 补肾涩精, 用于脾虚食少, 久泻不止, 肺虚喘咳, 肾虚遗精, 带下, 尿频, 虚热消渴。炙甘草亦为常用药物, 其补脾益气, 多用于脾胃虚弱, 倦怠乏力, 心动悸, 脉结代等。此处取其补中益气之功, 治疗脾胃虚弱之泄泻。山药、炙甘草合用增强了益气和中, 固厚脾胃的作用, 从而达到了止泻的目的。白芍养血柔肝, 缓中止痛, 敛阴止汗, 治血虚肝旺之胸腹胁肋疼痛, 脘腹四肢拘挛和自汗盗汗, 阴虚发热, 月经不调等。白芍与甘草合用即著名古方芍药甘草汤, 主治脘腹四肢拘挛疼痛, 可缓解剧烈泄泻引起的肠痉挛等症。於术为白术的道地药材之一, 具有补脾益气, 化湿利水, 消积止泻, 固表止汗之功效, 长于治疗脾虚泄泻等病证。陈皮理气健脾, 调中, 燥湿, 化痰。主治脾胃气滞之脘腹胀满或疼痛和湿浊阻中之胸闷腹胀、纳呆便溏, 以及痰湿壅肺之咳嗽气喘。党参补中益气, 健脾益肺, 用于中气不足的体虚倦怠, 食少便溏等症。

综上, 本研究应用数据挖掘方法开展马培之先生诊疗泄泻用药规律研究, 获得了既往传统医案整理和统计学研究未获得的新知识、新信息。当然, 应用关联规则研究得到的组方规律还需进一步临床验证, 数据挖掘方法亦有其局限性, 需结合中医药理论与实践综合分析、评价。同时, 本研究过程亦表明, 中医传承辅助系统为深入分析、挖掘名老中医经验提供了良好的平台, 值得进一步推广和应用。

参考文献

[1]巢崇山著, 鲁瑛等校注.孟河四家医案医话集[M].太原:山西科学技术出版社, 2009.

[2]唐仕欢, 陈建新, 杨洪军, 等.基于复杂熵聚类方法的中药新药处方发现研究思路[J].世界科学技术-中医药现代化, 2009, 11 (2) :225.

[3]李健, 卢朋, 唐仕欢, 等.基于中医传承辅助系统的治疗肺痈方剂用药规律分析[J].中国实验方剂学杂志, 2012, 18 (2) :254-257.

[4]李健, 卢朋, 张瑞贤, 等.中医方剂大辞典中治疗肺痿方剂用药规律分析[J].中国实验方剂学杂志, 2012, 18 (10) :1-4.

数据关联算法研究 篇8

1 资料与方法

1.1 处方来源与筛选

本研究以巢崇山等著, 鲁瑛等校注的《孟河四家医案医话集》 (山西科学技术出版社) 和朱雄华编著的《孟河四家医集》为处方主要来源, 筛选中风处方35首。

1.2 分析软件

“中医传承辅助系统 (V1.1) ”软件, 由中国中医科学院中药研究所提供。

1.3 处方的录入和核对

将上述筛选后的处方录入“中医传承辅助系 (V1.1) ”。录入完成后, 由双人负责数据的审核, 以确保数据的准确性。通过“中医传承辅助系统 (V1.1) ”软件中“数据分析”模块中的“方剂分析”功能, 进行用药规律挖掘[1,2,3]。

1.4 数据分析

1.4.1 提取数据源

在“中医疾病”项中输入“中风”, 提取出治疗中风的全部方剂。

1.4.2 频次统计分析

将中风方剂中每味药的出现频次从大到小排序, 并将“频次统计”结果导出。

1.4.3 组方规律分析

“支持度个数” (表示在所有药物中同时出现的次数) 分别设为10, “置信度”设为0.9, 按药物组合出现频次从大到小的顺序进行排序;“规则分析”分析所得的规则[4,5]。

2 结果

2.1 用药频次

对马培之先生中风处方中的药物频次进行统计, 常用药物包括当归、白芍、天麻、续断、丹参等。使用频次前45位的中药见表1。

2.2 基于关联规则分析的组方规律分析

按照药物组合出现频次由高到低排序, 前四位分别是“天麻、白芍”, “天麻、当归”, “天麻、桑枝”, “天麻、续断”。前53位药物组合情况具体见表2。置信度为1条件下得出的关联规则有多条:“天麻->当归”、“续断->当归”、“红枣->当归”、“陈皮->当归”、“黑料豆->当归”、“白蒺藜->当归”、“天麻, 白芍->当归”、“天麻, 桑枝->当归”、“白芍, 续断->当归”、“白芍, 红枣->当归”、“续断, 红枣->当归”、“牛膝, 续断->当归”、“牛膝, 当归->续断”。置信度为0.9条件下的关联规则网络图见图1。

3 讨论

本研究应用数据挖掘关联规则Apriori算法对孟河先贤马培之先生治疗中风用药规律进行分析。研究结果显示, 常用药物包括当归、白芍、天麻、续断、丹参等;常用药物组合包括“天麻、白芍”, “天麻、当归”, “天麻、桑枝”, “天麻、续断”等;置信度为1条件下的关联规则有多条:“天麻->当归”、“续断->当归”、“红枣->当归”、“陈皮->当归”、“黑料豆->当归”、“白蒺藜->当归”、“天麻, 白芍->当归”、“天麻, 桑枝->当归”、“白芍, 续断->当归”、“白芍, 红枣->当归”、“续断, 红枣->当归”、“牛膝, 续断->当归”、“牛膝, 当归->续断”。

中风为本虚标实之证, 在本为阴阳偏胜, 气机逆乱;在标为风火相煽, 痰浊壅塞, 瘀血内阻。常见的病因有忧思恼怒, 饮酒无度, 恣食肥甘, 纵欲劳累, 起居不慎等。中风以突然昏扑, 半身不遂, 语言謇涩或失语, 口舌歪斜, 偏身麻木为主要表现, 并具有起病急, 变化快。中风的分型治疗原则包括: (1) 风痰瘀阻型:治以搜风化痰, 行瘀通络, 用半夏白术天麻汤加减; (2) 气虚络瘀型:治以益气养血, 化瘀通络, 用补阳还五汤加减; (3) 肝肾亏虚型:治以滋养肝肾, 用地黄饮子加减。

本研究显示, 马培之先生治疗中风处方中的常用药可以分为三类: (1) 行气活血类, 如当归、丹参、陈皮、黄芪皮等; (2) 疏肝解郁类, 如白芍, 蒺藜, 白蒺藜; (3) 强筋壮骨类, 如五加皮、牛膝、续断等。下面结合本研究分析结果, 对马培之先生治疗中风的几味最常用药物进行分析。当归是出现频次最高的药物, 其甘、辛, 温, 归肝、心、脾经。补血活血, 调经止痛, 润肠通便。此处用当归取其益气养血、化瘀通络之效。又, 当归是中医治疗中风名方补阳还五汤的核心药物。故出现频次较高。白芍养血柔肝, 缓中止痛, 敛阴收汗, 用其疏肝解郁以通络。天麻润而不燥, 主入肝经, 长于平肝息风, 祛风止痛。用于风痰引起的眩晕、偏正头痛、肢体麻木、半身不遂。续断补肝肾, 强筋骨, 调血脉, 续折伤, 止崩漏, 用于腰背酸痛;肢节痿痹;跌扑创伤、损筋折骨、胎动漏红、血崩、遗精、带下、痈疽疮肿。其甘温助阳, 辛以散瘀, 兼有补益肝肾, 强健壮骨, 通利血脉之功, 配伍天麻滋养肝肾而散瘀通络。

综上所述, 本研究应用数据挖掘方法开展马培之先生诊疗中风用药规律研究, 获得了既往传统医案整理和统计学研究未获得的新知识、新信息。当然, 应用关联规则研究得到的组方规律还需进一步临床验证, 数据挖掘方法亦有其局限性, 需结合中医药理论与实践综合分析、评价。同时, 本研究过程亦表明, 中医传承辅助系统为深入分析、挖掘名老中医经验提供了良好的平台, 值得进一步推广和应用。

摘要:目的 基于中医传承辅助系统软件, 分析马培之治疗中风的用药规律。方法 收集马培之治疗中风的病案, 采用关联规则Apriori算法, 确定处方中各种药物的使用频次及药物之间的关联规则, 分析马培之治疗中风的用药经验。结果 常用药物包括当归、白芍、天麻、续断、丹参等;常用药物组合包括“天麻、白芍”, “天麻、当归”, “天麻、桑枝”, “天麻、续断”;置信度为1条件下的关联规则有多条:“天麻->当归”、“续断->当归”、“红枣->当归”、“陈皮->当归”、“黑料豆->当归”、“白蒺藜->当归”、“天麻, 白芍->当归”、“天麻, 桑枝->当归”、“白芍, 续断->当归”、“白芍, 红枣->当归”、“续断, 红枣->当归”、“牛膝, 续断->当归”、“牛膝, 当归->续断”。结论 马培之先生治疗中风经验丰富, 多用行气活血、强筋健骨之品。

关键词:马培之,中风,关联规则,数据挖掘

参考文献

[1]巢崇山 (著) , 鲁瑛 (校) .孟河四家医案医话集[M].太原:山西科学技术出版社, 2009.

[2]唐仕欢, 陈建新, 杨洪军, 等.基于复杂熵聚类方法的中药新药处方发现研究思路[J].世界科学技术-中医药现代化, 2009, 11 (2) :225.

[3]李健, 卢朋, 唐仕欢, 等.基于中医传承辅助系统的治疗肺痈方剂用药规律分析[J].中国实验方剂学杂志, 2012, 18 (2) :254-257.

[4]李健, 卢朋, 张瑞贤, 等.中医方剂大辞典中治疗肺痿方剂用药规律分析[J].中国实验方剂学杂志, 2012, 18 (10) :1-4.

数据关联算法研究 篇9

在信息社会的大背景下,档案馆社会化也将随之而发展,数字档案馆访问者将具有来源广泛性、背景多样性的特征,信息需求的个性化发展也会随之而增强,数据挖掘将会成为档案工作者全面掌握和准确理解档案用户的信息需求和心理行为最为便捷的方式。关联规则作为数据挖掘的主要技术之一,也是在无指导学习系统中挖掘本地模式的最普遍形式。可使我们获得一些存在于数据库中的关联模式,为数字档案馆的建设提供科学依据。来档案馆查资料的人有不同目的,当第一次通过数字档案馆阅览时,可使用关联规则由其注册信息将他划分为相关联的用户群。使用登录账号登录数据库阅览时,数字档案馆数据库已根据其个人关联进行相对应检索,显现在用户面前网页就有可能是其最需要的资料,从而减少访问者检索所需时间。即是根据各位访问者经常使用的信息进行一定的关联分析,就可整理出数据库中不同种类用户群。

2 数据挖掘技术流程

2.1 确定对象。明确给出服务对象的业务需求,认清进行数据挖掘达到的目的是数据挖掘的重要一步,进行挖掘技术的最后结果是不可预知的,但要探索的问题却是可以预见的,为了数据挖掘而进行数据挖掘则带有一定的盲目性,成功率必然偏低。

2.2 前期准备。一是数据的选择:搜索数据库中与业务对象有关的各种数据信息,并从中挑选出适用于开展数据挖掘应用的数据。二是数据的预处理:通过研究数据的质量,为下一步的数据分析做准备,并选定将要进行的数据挖掘操作类型。三是数据转换:将搜集的数据转换成一个分析模型,是针对采用的挖掘算法而建立的。而建立一个真正与挖掘算法匹配的分析模型则是进行数据挖掘成功的重要环节。

2.3 开始挖掘。对前期经过筛选所得并经过转换的数据进行挖掘。在选择合适的挖掘算法后,剩下的所有工作都能自动地完成。

2.4 挖掘分析。对挖掘结果进行解释并作出评估,在此过程中使用的分析方法应根据数据挖掘操作而定,一般采用可视化技术。

2.5 进行知识同化。将挖掘结果分析所得到知识进行集成,并以此建立完善业务信息系统的组织结构。

3 基于关联规则的数据挖掘方法

关联分析(Association analysis)就是通过对数据库中的各数据项之间存在的相关特性按照一定规则进行比对分析,寻找出隐藏在数据项之间的相互联系,如果数据库中有两项或以上数据存在着某种联系,就能根据这种联系通过其相关联数据对某一数据

进行预测。关联分析就能通过访问用户查阅各种档案信息间存在的关联性,进而分析发现用户使用模式。关联规则分析就是通过寻找数据库中数据之间相关性。如果两项或以上属性之间存在有此关联性的话,通过这种方式就可依据其他属性值预测其中某项的属性值。即通过数据挖掘技术就可找出数据库中藏匿的关联网,进而对下一步的决策提供指导。

一方面,对原有的档案数据库中的显性知识和隐性知识进行搜集和整理,根据其概念描述归纳出便于提取的相关特征,通过基于布尔关联规则的分析,按照相似性与差异性构建不同的需求分析模型,然后利用Apriori算法进行迭代分析,将数据放入不同的分类中,便于提取。另一方面,要对用户确定的主题进行定义,明确挖掘要求和目的。通过需求分析模型与用户指定信息进行结合,进行差异分析和偏差检测,排除其他不相关数据,得到挖掘结果。最后要对挖掘结果开展评价,得到的挖掘结果可能有没有关联的数据,也可能没有达到需求,如果出现这种情况,整个数据挖掘过程就要返回到数据收集阶段,并重新开始挖掘过程,这可以用“if not…then”规则来描述,反之即满足数据挖掘要求,可为数字档案馆所用,并就将其充实到原有数据库中,进行档案馆知识创新。

4 存在问题及对策

基于布尔关联规则的数据挖掘技术使数字档案馆从理论走向实践成为可能,它主要提供技术支撑,而数据挖掘的基础是对各种数据的识别,也就是针对不同的数据库都要能够识别,就需要数据标准统一起来。当前我国档案信息化工作在标准体系建设方面相对延后,各种档案管理软件与档案信息管理平台尤其是档案信息元数据、档案数据库结构存在着无法兼容的情况,并且数据质量标准多样,无法满足数据挖掘所需要的高质量数据库要求。需要对档案信息整理统一标准体系,按照标准清理优化数据,完善数据库结构。需要借鉴数据挖掘在其他行业取得的成功做法,在数字档案馆建设中扩大数据挖掘在各个环节的应用,进一步推动数字档案馆建设和发展。数据挖掘技术的精度仍需提高,即如何使得迭代算法能够在进行关联规则分析时稳定收敛是仍需要进一步深入探讨的问题,建议采用数理分析方法,提出一种基于参数的优化模型,以此进一步优化提高算法性能。

*本文为2013年河南省档案局科技项目,编号:13-X-18

数据挖掘技术与关联规则挖掘算法 篇10

1 数据挖掘技术介绍

1.1 数据挖掘技术的概念

数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科, 这项技术能从大量含有噪声, 且模糊不确定的实际业务数据中进行计算, 在这些数据中对当前尚未发现, 或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的, 是复杂多样的, 所以数据挖掘得出的分析结果形式能以多种形式表现出来, 可以是具有较强逻辑性的数学表达式, 也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。

1.2 数据挖掘技术分类

数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的, 当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。

2 关联规则挖掘算法

2.1 关联规则种类介绍

关联规则按照不同的标准, 能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集, 是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则, 以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束, 是根据规则所挖掘的约束类型分类的。

2.2 关联规则挖掘算法分析

2.2.1 Apriori算法分析

关联规则算法中的挖掘完全频繁项集中, Apriori算法该类型中最具有应用价值, 影响力最大的算法。Apriori算法主要有两个步骤:

(1) 发现所有的频繁集;

(2) 生成强关联规则。

在Apriori算法中的第一步是最为重要的步骤, 该算法的核心思路是, 给定一个数据库, 在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1—项集, 也就是L1, 1—项集C1, 由L1进行连接得到;接着进行第二次数据库扫描, 将C1中所有支持度大于等于最小支持度的项集组成频繁2—项集, 也就是L2, 候选2—项集C2由L2连接得到。以此类推, 直到找出最大项频繁集。即在进行第N次数据库扫描时, 找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集, 即是LN, N—项集CN要由LN连接得出, 一直到找不出新的选集为止。在这里还要用到Apriori算法性质, 即是频繁项集是频繁项集的子集, 非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。

Apriori算法的操作具有两个明显的缺点。 (1) 该算法的使用需要对数据库进行多次扫描, 因此在读写操作上会花费很多的时间, 从而增加挖掘算法的时间成本, 这种成本的增加不可小觑, 因为它是有数据库存储数据的增加, 以几何级数上升的成本;

(2) Apriori算法会出现众多的候选频繁集, 频发集的产生量在每一步都很大, 这会使算法在广泛度和深入度上的适应性较差。

2.2.2 FP—growth算法分析

FP—growth算法是关联规则算法中属于深度优化的一种算法, 这种算法是深度优化算法中较新且具有较高成效的, 不同于Apriori算法本质的常用算法。FP¬—growth算法的基本基本步骤有两个:

(1) 先将频繁模式树FP—tree生成;

(2) 在生成的FP—tree频繁模式树中搜索频繁项集。

(1) 需要将项集关联信息保留住, 并采用一棵频繁模式树 (FP—tree) 用来容纳压缩后的数据库;

(2) 再将压缩后的FP—tree再分散为几个小的条件数据库, 再分别对这些数据库进行信息挖掘。FP—growth算法相较于Apriori算法, 只需要对数据库进行两次扫描, 不需要多次扫描, 大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集, 大幅度减少了频繁集的搜索空间。也就是说FP—growth算法能明显提高时间和空间效率。但是该算法也有缺点, 在对庞大且松散的数据库进行挖掘处理过程中, 不管是递归计算还是信息挖掘都需要占据大量的空间。

3 总结

综上所述, 本研究对对数据挖掘技术概念和分类进行了简单的介绍, 并对关联规则的种类进行了详细的分析, 对关联规则中常用的两种算法FP—growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点, 怎样在挖掘过程中提高挖掘效率, 满足人们对挖掘系统的需求, 这将是数据研究工作者仍然需要突破的重难点。

参考文献

[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学, 2015.

[2]张弛, 王本德, 李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文, 2015, 27 (02) :74-77, 85.

[3]魏陵博, 付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志, 2014 (05) :517-518.

[4]付先军, 周永红, 王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志, 2015, 17 (09) :92-94.

上一篇:发现新问题下一篇:实践工作创新