多维关联规则(精选7篇)
多维关联规则 篇1
摘要:现代信息技术在审计中的广泛应用导致审计数据量的快速增长, 能否对这些审计数据作出正确的分析将直接影响到能否对可能出现的问题进行及时预测和调整。提出一个基于多维关联规则分析审计数据的挖掘算法, 通过找出可能出现问题的频繁因素组合来发现这些问题发生的规律, 并将此规律作为现实中预防举措的依据。
关键词:数据挖掘,多维关联规则,审计
0 引 言
现代信息技术在财政、金融及企事业单位的广泛应用, 审计数据量随之快速增长, 传统的手工审计手段已不能适应审计工作的需求, 迫切需要采用先进的现代化审计方式和手段, 以提高审计质量, 降低审计风险。如何在大规模的审计数据中分析规律, 成为审计中遇到的难题。以往对审计数据进行分析, 大多使用数理统计方法, 数据挖掘技术是在大规模数据中寻找其规律的技术, 这些有价值的规律帮助相关人员制定相应的决策。它是一个多学科交叉领域, 涉及数据库技术、机器学习、统计学、高性能计算等诸多领域, 并在工业、商务、财经、通信等众多行业得到了广泛的应用。审计信息数据挖掘的应用实现了由单一的事后审计转变为事后审计与事中审计相结合, 并使得静态审计转变为静态审计与动态审计相结合, 还能做到现场审计与远程审计相结合。对大规模的审计数据采用数据挖掘技术将推动审计方法的改变, 实现了对被审计单位的账目逐笔审计, 最终提高审计质量, 降低审计风险。
1 审计多维关联规则挖掘需求
1.1 审计数据的特点
作为经济责任审计中原始审计数据信息表如下所示:
从表1的数据可以发现, 经济责任审计项目中所涉及的属性众多, 具有多维特性。因此, 在审计需求中, 需要挖掘多维属性之间的关联关系, 例如, 要寻找年龄、职务对于审计问题出现与否的影响, 这涉及到三个维度上的属性间的关系。然而一般意义的单维关联规则仅仅考虑一维上的值的关系, 忽视了其他维度的潜在影响, 难以满足这种需求, 而多维关联规则正是考虑了其他多个维的影响, 因此在具有多维特性的审计数据中, 应用多维关联规则挖掘算法并发现隐藏在审计数据中的规律是一种非常必要的手段。
1.2 多维关联规则挖掘的应用意义
本文设计的多维关联规则挖掘算法已经在上海市嘉定区审计项目中使用, 主要针对嘉定区审计系统中的审计数据进行关联分析, 从多种因素结合出发, 推导出有价值的关联规则供审计人员采取必要的预防措施降低财产损失。嘉定区审计信息管理系统加入了数据挖掘技术以后, 建立一个对镇 (街道、新区、工业开发区) 、委办局、事业单位、区管企业、政府投融资项目的真实、合法、效益进行全方位的业务信息监控系统。有效地分析资金使用的合法性和真实性, 进一步提高资金使用效益。
2 多维关联规则的简介
2.1 关联规则
设I={i1, i2, …, im}是项的集合。每个交易T是项的集合, T⫅I, 每个交易有一个标识符tid, D是交易集数据库, A是一个项集, 交易T包含X, 当且仅当A⫅T。
定义1 (关联规则) 关联规则是形如X⇒Y的蕴涵式, 其中X⊂I, Y⊂I, 并且X∩Y=Φ, (X称为输入或左部, Y称为输出或右部) 。即当X事件发生的时候, Y事件会伴随发生, 称为一种X与Y的关联关系。例如, 可以将X事件定义为“管理不规范金额>100000”, 而将Y定义为“经济责任有疑点”, 那么X⇒Y不难理解为当金额>100000时, 该负责人经济责任存在异常。
关联关系是在一定概率约束下才有意义的。一般用支持度和置信度作为关联规则的兴趣度度量 (除此之外的兴趣度度量还有提升度、期望可信度等等) 。
定义2 (支持度Support) 关联规则X⇒Y在交易数据集D中的支持度是指交易数据集中包含X和Y的交易数与所有交易数之比, 记为support (X⇒Y) 。它是对关联规则重要性的衡量。计算方法:
support (X⇒Y) =P (X∪Y)
定义3 (置信度Confidence) 关联规则X⇒Y在交易数据集D中的置信度是指交易数据集中包含X和Y的交易数与包含X的交易数之比, 记为confidence (X⇒Y) 。它是对关联规则准确度的衡量。计算方法:
confidence (X⇒Y) =P (Y∣X)
为了发现符合特定应用和用户感兴趣的关联规则, 需要给每个度量指定一个可以由用户控制的阈值。常用的是最小置信度阈值 (min_conf) 和最小支持度阈值 (min_supp) 。阈值的设置常常根据领域专家的建议和实际情况来综合决定。
定义4 (强关联规则) 是指同时满足用户定义的最小支持度阈值和最小置信度阈值的关联规则。
给定一个交易数据集D, 挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度阈值和最小置信度阈值的强关联规则。
2.2 多维关联规则
按照多维数据库的术语, 蕴涵式中的每个不同的谓词都称作维。
3 多维关联规则挖掘算法
使用多维关联规则来分析审计记录需要首先清理数据, 例如, 在经济责任审计类型中, 每一条审计记录都包含表2中的各字段, 将每条记录中那些导致问题发生的字段和问题类别字段保留, 去除其他字段, 减少每一条记录的字段数, 生成新的审计记录数据表。然后扫描该表, 寻找出现频繁的字段值组合。最后由频繁的字段值组合推导出多维关联规则。
3.1 审计数据清理
这一步工作的主要任务是针对表2中的各字段, 选择保留那些可能导致问题发生的字段和问题类别的字段。
在经济责任审计类型中, 经过分析, 表2中的字段“性别”、“主要领导人”、“所属单位”与该审计项目分析“经济责任是否有疑点”无关。这里应选择保留的字段为“管理不规范金额”、“任期”、“年龄”、“行政级别”、“经济责任是否有疑点”。
将这些字段所组成的记录放入一个新的审计记录表 (表3) 中。由此, 针对原数据表中的记录的分析已经转化为对新产生的较小的审计记录表的分析。
3.2 算 法
审计数据的多维关联规则挖掘过程分为两个步骤:
第一步:所有频繁项集的生成 (这个步骤需借助最小支持度阈值) ;
第二步:由频繁项集到强关联规则的生成 (这个步骤需要借助最小置信度阈值) 。
3.3 系统实现
框架图 (图1) 是根据第3节中的关联规则在审计业务中的使用设计得到, 具体执行过程即是第3节中叙述的过程。
4 应用和效果分析
多维关联规则挖掘算法应用在审计系统中产生图2所示的规则结果, 用户可从该集合中看到哪些因素组合更容易导致哪类审计问题。
经济责任审计类型中, 由审计专家给出最小支持度阈值min_sup = 85%, 最小置信度阈值 = 80%。
由3.2节给出的多维关联规则挖掘算法, 得到如下多维关联规则集, 如图2所示。
点数据分析, 得到分析结果, 如图3所示。集合中, 每一个元素代表一个多维关联规则, 并用支持度和置信度表征规则的兴趣度。
因为“审计疑点”是作为审计问题结果出现的, 而其他四个字段是作为客观因素或条件出现的, 所以我们的方向是产生由 “管理不规范金额”、“任期”、“年龄”、“行政级别”四个字段推导出“审计疑点”的关联规则。现以一例为代表, 假设经过连接和剪枝步骤得出一个频繁5项集: (管理不规范金额>145, 3200, 任期<4年, 年龄>52, 行政级别=正处级, 存在审计疑点) , 它的出现频率高于根据审计方面的专家给出的“支持度”阈值。然后计算在审计记录表中包含该5项集的前四项的审计记录数, 计为X, 同时计算该5项集的审计记录数, 计为Y。如果Y/X的值大于根据审计方面的专家给出的“置信度”阈值, 则说明由前四项可以推导出后四项。即产生一个反映审计问题的关联规则。
又如在固定资产投资审计类型中, 相关字段如表4所示。由审计专家给出最小支持度阈值min_sup = 70%, 最小置信度阈值 = 70%。
投资项目字段与分析无关, 经过预处理后, 得到一个新字段:投资完成比, 它的值为投资预算总金额与竣工决算总金额之比。使用多维关联规则挖掘算法, 得到多维关联规则集, 如图4所示。
点数据分析得到分析结果, 如图5所示。
这些多维关联规则让审计人员更及时、更高效地发现在项目投资中的审计疑点。
通过使用多维关联规则挖掘算法对审计数据进行挖掘, 在2005年嘉定审计局重点审计的五十多个项目、数百亿审计资金中, 查出审计疑点三百多个, 查实管理不规范金额一百多万, 收缴投资金额三千多万元。审计人员在嘉定区审计系统中运用这些多维关联规则预测可能出现问题的审计数据, 采取相应措施, 达到事前监督与事后审计有机结合的目标。
5 总结和进一步工作
多维关联规则发现的数据挖掘技术应用到具有多属性特征的审计数据分析中, 不仅减轻审计人员的负担, 而且提高了审计管理的质量, 并具有一定的预测功能。对审计数据的分类、聚类以及演变分析、异常检测等数据挖掘技术都能为审计工作提供有用信息、提高审计效率, 我们将进一步研究适合本系统审计数据的挖掘算法。
参考文献
[1] Han J, Kamber M.Data mining: Concepts and Techniques.New York: Morgan-Kaufman, 2000.
[2] Micheline Kamber, Jiawei Han, Jenny Y Chiang.Metarule-Guided Mining of Multi-Dimensional Association Rules using data cubes.In Proc.1997 Int.Conf.Knowledge Discovery and Data Mining, 1997:207-210.
[3] Agrawal R, Srikant R.Fast algorithms for mining association rules.In Proc.1994 Int.Conf.Very Large Data Bases, 1994:487-499.
[4]Zhou Aoying, Zhou Shuigeng, et al.Generalized Multidimensional Asso-ciation Rules.Journal of Computer Science and Technology, 2000, 15 (4) .
数据挖掘关联规则的研究 篇2
【关键词】数据挖掘;关联规则
1.数据挖掘
从信息处理的角度,人们更希望计算机帮助我们分析数据、理解数据,帮助我们基于丰富的数据作出决策,做人力所不能及的事情。于是,数据挖掘——从大量数据中用非平凡的方法发现有用的知识——就成了一种自然的需求,它的主要目的便是从庞大的数据库中寻找出有价值的隐藏事件,找出其中的知识,并根据不同的问题建立不同的模型,以提供决策时的依据,数据挖掘对组织及决策行为将有相当大的帮助。
数据挖掘又称数据库中的知识发现(Knowledge Discovery in Databases),知识发现的一般步骤为:数据抽取,数据清理,数据设计,算法设计,算法运行,结果分析。
数据挖掘的核心步骤是算法的设计阶段,一个好的算法(速度快、伸缩性好、结果容易使用且符合用户的特定需求)是影响数据挖掘效率的最重要因素。数据挖掘是一个循环过程,如果用户对结果不满意,可对数据库进行重新挖掘。
从数据库中发掘的规则可以有以下几种:特征规则、区分规则、聚类规则、关联规则和进化规则等。关联规则是比较新的一种,它的形式简洁,易于解释和理解并可有效捕捉数据间的重要关系。
2.关联规则
关联规则挖掘最相关的三个重要的研究领域是:统计学(Statistics),机器学习(Machine Learning)(或称人工智能,Artificial Intelligent)及数据库(Database)。关联规则挖掘与统计学和机器学习的共同特点是:都是从数据集中发现知识。
2.1 基本概念
Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,是数据挖掘的一个重要研究领域。它反映出一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其它事物预测到。具体描述为:
设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。记任务相关的数据D为交易T(transaction)的集合,这里交易T是项的集合,并且T⊆I。每个交易都有一个唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果X⊆T,那么称交易T包含X。
2.2 关联规则挖掘的算法
Agrawal等人在1993年设计了一个基本算法,提出了挖掘关联规则的一个重要方法—这是一个基于两阶段频繁项集思想的方法,将关联规则挖掘算法的设计可以分解为两个子问题:
1)找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频繁项集(Frequent Itemset)。
2)使用第1步找到的频繁项集产生期望的规则。
第一个问题是算法设计的核心问题,它的效率高低是影响算法的关键,从庞大的数据库中找出所有符合大于或等于最小支持度的频繁项集,往往是相当艰巨且耗时的过程,但频繁项集被确定以后,要产生相对应的关联规则就容易且直接了,第2步只在生成的频繁项集中创建相应规则的枚举过程,无需复杂的计算,目前所谓的算法设计问题主要是围绕如何生成频繁集展开的。
2.2.1 经典频集方法
为了生成所有频繁项集,Agrawal等人在1993年设计了Apriori算法,使用了递推的方法。
首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁项集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频繁项集的候选集,最后的频繁项集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频繁项集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。
2.2.2 FP-tree算法
Han等人提出FP-tree算法[32],此算法是不产生候选项集作法的代表,因为不用产生候选项集,只需扫描数据库两次,因此节省了大量I/O的时间,整体的效能大幅提升,而且已运用在实际的产品中。
FP-tree算法和上述算法最主要的差别在于:FP-tree算法不用产生候选项集,且将数据库压缩在FP-tree的结构中,改进了扫描多次数据库的高成本。我们利用表2-1中的例子来说明FP-tree算法。它的最小支持度设为2,其作法可分为两个阶段。
第一个阶段为构建FP-tree结构,需扫描数据库两次,第一次扫描数据库将每个支持度大于或等于最小支持度的项目(频繁1-项集)找出,并根据其支持度值大小和在数据库出现的先后次序作排序。并使得每一项通过一个节点链指向它在树中的出现。第二次扫描过滤掉数据库中不足最小支持度的项目并依据排序表的频繁1-项集的次序得到每笔记录中包含频繁项的模式,同时构建FP-tree结构。
FP-tree构造如下:首先,创建树的根节点,用“root”标记,读入经过排序处理的每笔记录的第一个项时,检查root下的子树是否存在此项目节点,若此项目不存在,则在root下新增此项目节点(Ni);如果此项目存在,则将此节Nj支持度加l。之后的项目读入时,检查Nk(Nk为Ni或Nj)下的子树是否存在此项目节点,如果不存在,就在Nk下新增一个项目节点,如果存在,则将此节点支持度加1,以此类推做完每笔频繁项集中的所有项目。
2.2.3 FPL算法
E C.Tseng及Hsu Tseng提出FPL(Frequent Pattern List)算法以改进FP-tree算法,FPL主要是将数据库中的交易数据做适当的处理后储存在一线性串行数据结构中,并在此线性串行结构上执行简单的运算,即可有效找出所有频繁项集模式,因为FPL算法利用简单的线性串行数据结构,不需产生候选项集,只需扫描数据库两次,且不管是稀疏数据库或是密集数据库均能有效找出所有的频繁项集模式,因此克服了FP-tree的缺点。
FPL算法扫描数据库两次,第一次扫描数据库将每个支持度值大于或等于最小支持度的频繁1-项集找出,并依照支持度大小和在数据库出现的先后次序作排序,第二次扫描以过滤掉记录中不足最小支持度的项目并根据己排序好的项目次序得到每笔记录的包含频繁项的模式,这一步与FP-tree算法一致。
此后FPL执行以下两个阶段。第一个阶段是构建频繁项目线性串行。根据表2-5将频繁项依支持大小建立成FPL串行,并将表2-3中的每笔记录建构成0、1二元数据表(DB-BIT),作法是根据FPL串行节点顺序与表2-3的数据做比较即可得到每笔记录,记录Ti之某位数据若为0(1)表示相对的频繁数据项目未出现(出现)在此记录中,最后将DB-BIT中的所有记录挂至适当的FPL串行节点上。
第二个阶段是从此串行结构中挖掘所有的频繁项集模式。首先检查串行最右边节点(Ni),这也与FP-tree算法相似,从支持度最小的项开始挖掘。在此要找出所有包含Ni项目的频繁项集模式,计算出现在Ni节点上的其它各项出现次数(Bit count),接着忽略Ni以及所有Bit count小于最小支持度的项产生Ni项目的频繁1-项集模式:I5:2(代表项目I5在数据库中出现二次),接下来处理Bit count值大于或等于最小支持度的节点(Nb(b=l,2,…n)),产生频繁模式为Nb和Ni组合,其出现次数皆为Nb支持度值(I2,I5:2),(I1,I5:2),再将Nb重新建立一子串行,并且将Ni所属的所有记录挂至适当的节点上,依据上面的方法,再挖掘新的频繁模式:(I2,I1,I5:2),直到串行中只剩下一个节点I2。接着考虑移走Ni所属的记录及DB-BIT最后一位,找出下一个Ni=1的所有记录并挂至此串行下。重复上述方法寻找频繁项集模式,直至串形结构上只有一个最大节点存在为止。
3.总结
总之,Apriori、FP-tree等现有关联规则挖掘算法都是在单维、单层、布尔关联规则下讨论的,是最简单形式的关联规则,它是解决其它问题的基础。
参考文献:
[1]朱扬勇,周欣,施伯乐.规则型数据采掘工具集AMINER[J].高技术通讯,2000,10.
[2]胡侃,夏绍伟.基于大型数据库的数据采掘:研究综述[J].软件学报,1998,3.
[3]王曙光,施英.一种改进的相联规则提取算法.计算机工程与应用[J].2002,15.
[4]颜雪松,蔡之华.一种基于Apriori的高效关联规则的挖掘[J].计算机工程与应用,2002,10.
作者简介:赵超(1983—),陕西西安人,硕士研究生,渭南师范学院教师,研究方向:计算机技术与应用。
多维关联规则在心理测量中的应用 篇3
大学生群体,承担着来自学业、生活、情感、就业等多重压力,其心理健康状况越来越得到社会各界的关注。为了更好地对大学生的心理健康状况进行全面了解,及时应对各种可能发生的情况,各个高校都会在新生入学时对学生进行各种心理测量,通常包括明尼苏达多项人格测验( MMPI) 、症状自评量表( SCL - 90) 、卡特尔十六种个性因素测试( 16PF) 等。其中MMPI在人格失常测量方面具有高稳定性[1],主要用于确定被试者的心理健康水平并根据不同临床量表的得分高低,辅助临床诊断[2],包含566个自我描述项目,一般测试前399道[3]。16PF主要用于测量十六种主要的人格特征,包含187道题目[4]。SCL - 90包含90项题目[5],能较好地反映被试的病情及其严重程度和变化。由于测量题目繁多,时间长,不仅使一些学生难以坚持认真完成测试,从而导致测量结果无效,同时更给施测老师带来巨大的工作量。因此,如果可以挖掘出量表之间存在哪些关联或者规则,对于研究者来说就可以通过一种量表的测量来预测另一种量表的结果,此时则可通过数据挖掘中的一些方法来实现这些需要。
近年来,国内学者越来越多地将数据挖掘技术应用于心理测量。余嘉元研究表明[6],粗糙集和神经网络可以有效地对心理测量数据进行因素提取和分类。肖新攀等[7]提出采用二次学习风范的规则生成算法,从心理学数据中提取规则。吴小刚等人[8]对通过症状自评量表测试,利用C4. 5算法构造决策树并提取预测大学生心理健康状况的规则。任丽君[9]则将多种数据挖掘方法应用于分析学生症状自评量表的测量结果,发现了心理问题与学生属性之间的内在关系。钟镜平[10]利用改进频繁项集挖掘算法对大学生团体心理健康进行评估。
从以往研究发现,数据挖掘方法确实可以有效地应用于心理测量数据的分析,但是基本上是对某一种心理测验内部的分析,而未能对量表之间的关联程度进行考察。本文则通过多维关联规则的方法对不同心理测量量表属性之间的关系进行挖掘。分析过程中使用基于Apriori算法的维间频繁属性集生成算法,将数据立方体技术运用到Apriori算法中, 提高了挖掘效率。
1多维关联规则
1. 1多维关联规则概述
多维关联规则是相对于单维数据库内的关联规则而言的,是从多维的数据库中挖掘规则的方法[13],即处理各个属性之间的某些关系。多维关联规则目前还没有被应用于心理测量的数据处理方面。本文根据数据属性特点,采用维间关联规则挖掘。
具体在分析中,可以分为两步: 首先扫描经过预处理后得到的数据,在所有记录中寻找出现频繁的字段值组合; 再由频繁字段值组合推导出关联关系。从记录数据表中产生频繁属性集采用经过改进的基于Apriori算法的维间频繁属性集生成算法实现,由各频繁属性集进一步产生关联规则可通过对置信度的考查较容易地完成。
1. 2数据立方体
在数据仓库中,多维数据模型将数据按数据立方体( data cube) 的形式进行组织与构造。数据立方体由维和事实定义。给定一个关联规则挖掘任务,其内容涉及d1,. . . ,dn个维,并根据用户挖掘需求确定各维的维层次,然后从数据仓库中生成数据立方体。其中每一维包含| di| + 1个数值, | di| 是第i维包含的互不相同的维成员个数。在di维中,前| di| 行各代表di中一个互不相同的维成员。最后一行存储了一个称之为SUM! 的维成员,其中记录了该成员所对应的维的合计值,这种合计值极大地方便了关联规则的挖掘中支持度的计算。立方体的方格中记录的是对应维成员的频繁度量值,记为count。这样涉及d1,. . . ,dn维数据的一个关联规则挖掘任务就对应一个n维的数据立方体Cube ( d1,. . . , dn∣ count) ,其中d1,. . . ,dn是立方体的维,count是立方体的事实度量[14]。
1. 3多维关联规则算法
2数据准备
2. 1数据属性
本文的数据来源于南京中医药大学心理咨询中心对2010级2 554名新生在入校后所做的大学生心理健康量表, 主要采用的是MMPI和16PF测量。MMPI的前399道题目主要包括4个效度量表: 疑问量表、说谎量表、诈病量表、校正量表; 10个临床量表: 疑病、抑郁、癔病、精神病态、男性化- 女性化、妄想狂、精神衰弱、精神分裂、轻躁狂、社会内向。 16PF是卡特尔在其人格的解释性理论构想的基础上编制的16种人格因素问卷,共187道题目,从16个方面描述个体的人格特征,分别是: 乐群性、聪慧性、稳定性、恃强性、兴奋性、 有恒性、敢为性、敏感性、怀疑性、幻想性、世故性、忧虑性、实验性、独立性、自律性、紧张性。
2. 2数据清洗
在本研究中,由于被试是分开进行MMPI和16PF的测量,因此测试后需要将两份数据统一到同一数据库中。首先是对缺失值的处理,在本研究中,被试人数为2 554人,相对整体来说,存在缺值的被试不算太多,因此就采用了直接删除法。多维数据异常点处理是将在每个维度内的均值左右3个标准差区间外的数据可以看作是异常点,将其删去[15]。 本研究采用k均值聚类方法,取k等于2 ~ 11类,进行了10次试验,结果表明,没有发现多维异常数据。另外,本研究参考MMPI量表的4个效度量表,也可以对效度较低的个案数据删除。根据MMPI疑问量表Q,高分者有回避问题的倾向, 即对问题毫无反应或对“是”、“否”都进行反应的项目总数, 称“无回答”的项目,将得分超过22分的被试数据删除; 根据说谎量表L的结果,高分者总想让别人将其看得要比实际情况更好。而且,连每个人都具有的嬉笑短处也不承认。L量表共15个题目,如果原始分超过10分,即标准分超过70分,则不能信任MMPI的结果,因此将这些数据的个案删除。
通过数据清洗,最终共获得1 958份有效数据。本研究采用的是静态数值关联规则法,将数值数据离散化。对于MMPI量表,具有中国自己的常模和标准分[16],因此以标准分60分为分界线,大于60分的设置为1,为人格正常组,不大于60分的设置为2,为人格异常组; 但其中有5个量表Hs、Pd、Pt、Sc和Ma的标准分要经过K分校正,则以70分为标准分,大于70分设置为1,不大于70分设置为2; 对于16PF量表,标准分1 ~ 4分的,设置为1,为人格特征偏低组, 标准分5 ~ 6分的,设置为2,为人格特征居中组,标准分7 ~ 10分的,设置为3,为人格特征偏高组。
3多维关联规则提取
3. 1相关系数分析
通过数据预处理过程,获得要分析的数据属性。主要包括MMPI和16PF两份量表,共25个维度的属性,MMPI中效度量表要考察的属性是F,临床量表要排除Mf和Si两个属性,这两个属性仅作为临床诊断的参考。整理后,所有属性如表1所示。
在做多维关联分析之前,先对两份量表的维间属性进行相关系数的检验,查看是否适合做关联分析。由于已将原数值数据进行了离散处理,可将离散后的属性值看作是等级变量,由此展开Spearman相关分析( 见表2) ,从分析结果可以看出,两份量表各个属性间也基本存在显著相关性,因此可以进行关联分析。
在表2中,**在置信度( 双测) 为0. 01时,相关性是显著的。* 在置信度( 双测) 为0. 05时,相关性是显著的。
3. 2维间多维关联规则提取
通过基于Apriori算法的维间频繁属性集生成算法得到各频繁项集后,针对每一个频繁项集L,根据置信度的定义, 可按照以下方法产生关联规则:
( 1) 对于每个频繁项集L,产生L的所有非空子集。
( 2) 对于L的每个非空子集,若s - count ( L) /s - count ( s) ≥ Cmin,则输出规则“s→( L - s) ”。由于规则由频繁项集产生,因此都自动满足最小支持度。
本研究采用Java语言实现基于Apriori的多维关联规则算法。取最小支持度为0. 1,最小置信度为0. 7。由于本研究需要着重了解两份量表之间的关系,因此在得出的规则中筛选出60条相对符合条件的关联规则,列举若干条( 以置信度降序排列) 如表3所示。
从所筛选出来的关联规则来看,确实能给研究者带来一定的启发。在MMPI量表中主要集中在F、D和Hy属性上; 而16PF量表则在各种人格特征上都存在相关,且多数存在低分相关。例如规则D = 1 Hy = 1l = 1显示,当MMPI中疑病量表和抑郁量表分数偏高时,会伴随16PF中怀疑性人格的低分; 而规则q4 = 3F = 1 D = 1则表明16PF中紧张性的高分表现会带来MMPI中诈病量表的高分和抑郁量表的高分。另外,在规则中的频繁两项集在一定程度上验证了相关分析的结果,例如c = 1F = 1,可验证c和F的spearman相关关系。由此可证明多维关联规则在考察属性相关性方面是有效的。
4结束语
基于关联规则的术语自动抽取研究 篇4
关键词:大数据 术语自动抽取 关联规则
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0020-06
Research of Automatic Term Extraction based on Association Rules
Abstract On the basis of sufficient literature review, the rationality and availability of automatic term extraction based on association rules are discussed by the theoretical and experimental methods. Theoretically, the basic principle of association rule, under the condition of full solution of the "sequence", can solve the problem of identification and extraction of the term. Practically, association rules method can extract correct terminology, and by comparing with the existing algorithm, association rules algorithm has more obvious advantages in difficulty of realization and occupied resources.
Key words big data; automatic term extraction; association rules
术语自动抽取是自然语言信息处理中的一项重要课题,在机器翻译、信息检索、词典编纂、文本分类和自动文摘等领域中有重要的作用。目前,人们已经从多个方面提出了各种方法,并且不断有新的方法出现。本文的目的是研究关联规则算法抽取术语的可行性及优势。
1 相关研究
国内外研究人员已经通过大量的研究工作取得了一系列的成果。归纳起来,术语自动提取的方法可以分为基于语言学知识的方法、基于统计学原理的方法以及基于语言学知识和统计学原理结合的方法。
1.1 基于语言学知识的自动抽取方法
基于语言学知识的方法,又称为基于规则的方法。所谓的“规则”指的是术语的词法模式、词形特征、语义信息等,利用这些知识可以从语料中抽取出术语或者识别术语在语料中的位置。基于语言学知识的术语自动抽取研究主要集中在上个世纪90年代,以Justeson & Katz 算法[1]为代表,该算法首先确定一系列语言性质的规则,然后用这些规则来识别文本中的术语。较为成熟的自动术语抽取系统有FASTR系统[2]、Termight系统[3]、Termino系统[4]、Nodalida系统[5]、Clarit系统[6]、Heid -96系统[7]、Lexter系统[8]和Naulleau-98系统[9]等。
1.2 统计学原理的抽取方法
基于统计学原理的抽取方法,主要利用统计学的原理计算出文本的各种统计信息,并利用统计结果选取术语。在线系统Term Extraction[10]通过简单统计基本词频来实现术语识别。Termextractor系统[11]也是如此,通过统计选取高频词为术语。RIDF算法[12]则不同,该算法关注低频词,在逆文档频率(IDF)的基础上,利用Poisson检验来确定术语;互信息方法[13]也是一种比较常用的术语抽取算法,它利用两个或两个以上的词之间的互信息度,来决定这些词汇是否组成一个复合词,即它们是否组成了一个术语。
1.3 基于语言学知识与统计学原理结合的抽取方法
目前,单纯运用语言学知识或者统计学原理的抽取方法并不多见,因为,基于语言学知识的方法和基于统计学的方法虽各有优势,但也有明显缺点。因此,有很多研究将基于语言学知识的方法与统计学原理的方法结合起来,力争扬长避短。例如,将统计学的策略融入到基于语言知识的抽取方法中去,将二者有效地结合,可以显著改善术语抽取系统的性能。这方面的代表方法是C-value/NC-value方法[14],该方法综合运用结合语言知识和统计信息来提取由多个词汇组成的术语。C-value/NC-value方法包括了两个步骤,首先,用C-value方法计算词汇的出现频率测量,找出多词候选术语,然后利用NC-value方法根据词的上下文信息,最终确定要抽取的术语。近年来,机器学习的方法[15]是这类基于语言学知识与统计学原理结合的抽取方法的一个重要发展方向,并取得了较好的抽取效果,它主要通过利用计算机对先前知识进行学习(训练),利用这些训练的经验来对后续的文本进行相应的抽取,得出准确术语。
2 关联规则方法及其抽取术语的可行性分析
2.1 关联规则的基本原理
韩家炜在《数据挖掘概念与技术》一书中给出了关联规则的确切定义[16]:
项的集合I={I1,I2,I3,…,Im },数据库中事务的集合T={t1,t2,t3,…,tn },每个事务ti则是项的集合,即 ti?哿I。若X→Y,满足X?奂I,Y?奂I,且X∩Y=?准,则X→Y为T中的关联规则。
关联规则中,支持度(Support)是指T中的事务同时包含X、Y的百分比:
Support(X→Y)=P(XY)
置信度(Confidence)是指T中事务已经包含X的情况下,包含Y的百分比:
Confidence(X→Y)=P(Y│X)=P(XY)/P(X)
若关联规则X→Y,同时满足支持度大于最小支持度Support(X→Y)>minSupport和置信度大于最小置信度Confidence(X→Y)>minConfidence,则认为关联规则X→Y是有趣的,即为强关联规则,其中,最小支持度和最小置信度的阈值均人为设定。关联规则挖掘就是在事务集合中挖掘强关联规则。
关联规则关注两个事项的共同出现,或者说在前驱出现的条件下,后继也出现,其经典应用是发现顾客的购买规律(如沃尔玛超市发现的“啤酒和纸尿裤”的购买规律),在图书馆中进行书目推荐[17]以及火灾分析[18]、交通事故处理[19]、森林病害虫预测[20]和肺肠合病医案用药规律研究[21]等。
2.2 术语构成基本原理
术语是特定领域中概念的语言表示,它可以是字、词语或者字母与数码符号。按照术语的构成,可将术语分为简单术语和复杂术语。简单术语,就是指仅由一个单词构成的术语。例如:“信息(information)”、“天(sky)”、“雨(rain)”等。这样的简单术语不能再分解为更小的具有独立含义的单元。复杂术语,则是指由两个或更多单词或语素按照一定的语法或语义结构组成的术语。例如:“信息检索(information retrieval)”、“复杂系统(complex system)”、“计算机系统理论(computer system theory)”等,其中“信息检索(information retrieval)”是由“信息(information)”和“检索(retrieval)”构成,“复杂系统(complex system)”是由“复杂(complex)”和“系统(system)”构成。
2.3 关联规则抽取术语的适用性
从以上关联规则的定义可以看出,事务组合(X→Y)满足最小的支持度和置信度,就可以称之为“规则”,这就说明关联规则中强调的是事项(即上述定义中的“项”In)的共同出现,或者说在前驱出现的条件下后继出现。
术语的基本构成方式与关联规则方法关注的内容具有一定的契合点,例如,如果我们把构成复杂术语的每个单词或语素(以下简称词汇)看作是“项”,那么,能共同构成一个复杂术语的若干个词汇(项)必定会同时出现,因而可以根据词汇之间的关联程度来达到提取复杂术语的目的。不过,与一般的关联规则发现中仅强调“共现”有所不同,构成复杂术语的词汇之间必须具备位置相邻性,而不是单纯的“共现”,也就是说,在经典的关联规则方法中引入项之间的邻接性限定,是关联规则应用于术语抽取的关键。
由此,术语抽取中的关联规则可以表述为:若词汇X与词汇Y依次邻接出现,且满足最小的支持度和最小的置信度,则可以认为词汇X和词汇Y按照XY的次序,组成复杂术语。其中,关键的两个参数即支持度和置信度可以这样理解,支持度体现了词汇邻接出现的频率,支持度高,说明词汇邻接组合出现的次数多,这样邻接出现的词汇往往就会组成一个术语。置信度是指在词汇X出现的条件下,词汇Y紧跟其后出现的概率,或者在词汇Y出现的条件下,词汇X恰好出现它前面的概率,置信度越高,说明词汇X和词汇Y的组成一个复杂术语的可能性越大。所以,可以这样给支持度和置信度下定义:
支持度为词汇X和词汇Y依次邻接出现的概率,即:
support=P(XY)=count(XY)/N
其中,N为用于术语抽取的文本的句数。
置信度为在词汇X出现的条件下,词汇Y紧跟X后出现的概率或词汇Y出现的条件下,词汇X和词汇Y依次邻接出现的概率,即
confidence1=P(Y│X)=P(XY)/P(X)
或
confidence2=P(X│Y)=P(XY)/P(Y)
如此,一个复杂术语的抽取将涉及到一个置信度的集合C,如果抽取者更重视召回率(Recall),置信度可取集合中的最大值(confidence=max(C)),并将它与预定的最小置信度比较,这样的取值强调在置信度集合C中“存在”比最小置信度大的值,能够保证召回率。
如果抽取者更重视准确率(Precision),置信度可取集合中的最小值(confidence=min(C)),并将它与预定的最小置信度比较,这样的取值强调在置信度集合C中的“所有”值均比最小置信度大,能够保证准确率。
如果抽取者的要求比较苛刻,需要召回率和准确率均较高,但由于召回率和准确率呈反比例关系,取最大值和最小值的方法均不可取,必须选取最大值和最小值之间的合理的数值,这个值可以为置信度集合的算数平均数、几何平均数以及中位数等。
这里给出的置信度的定义,与经典的关联规则不同,它不涉及“前驱”和“后继”的概念,在术语抽取中区分词汇的“前驱”和“后继”的意义不大。这里的置信度是指多个词汇组成新的复杂术语的可能性的大小。
3 实验结果及分析
3.1 实验基本条件与内容
实验的基本条件如表1所示。
3.2 用关联规则方法进行术语抽取的实验过程及结果
(1)基本结果展示
表2是利用关联规则FT-tree算法,对图书馆学情报学领域中英文文摘进行术语抽取所得到的部分术语。
(2)中英文对照实验
从理论上讲,中英文在利用关联规则进行抽取时仅有预处理部分有所不同。中文不像英文那样词与词之间存在着空格,因此在预处理时需要对中文进行分词。在中英文对照实验中,对图书馆与情报学领域的全部中英文数据进行了抽取,实验使用了49种最小支持度和最小置信度组合,得到了49种抽取结果,表3列出了这49种抽取结果中最高的F-measure值、召回率值或准确率值(最高项用阴影标识)及它们对应的支持度与置信度取值。
从表3中可以看出,在应用关联规则进行术语抽取时,可以通过合理配置参数(最小支持度和最小置信度)而得到满意的效果,而且,无论是对于中文文本,还是英文文本,都可以通过配置不同的最小支持度和最小置信度来获得较好的抽取效果。这说明,用关联规则方法进行术语抽取不存在语言依赖,如果不考虑不同语言在预处理阶段有较大的差别,关联规则方法可以用于抽取任何一种语言中的术语。
(3)数据量大小对照实验
分别以10条、100条、1000条图书馆学与情报学的英文数据作为抽取对象,每一种数据量都可以得到49种抽取结果,表4列出了这些结果中最高F-measure值、召回率值或准确率值(最高项用阴影标识)及它们对应的支持度与置信度取值。
从表4中可以看出,关联规则方法不适用对数据量过小的数据集进行抽取,相反,数据量越大,抽取效果越好,而且,对于不同数量的数据集,同样可以通过配置不同的参数来达到用户最满意的效果。
(4)不同学科数据对照实验
实验过程中,除图书馆与情报学数据之外,还增加了数学和地球科学的数据,分别对这三种学科的数据进行术语抽取,对每一个学科的抽取结果,做与表3或表4相同的统计分析,得到表5的结果。
从表5可以看出,用关联规则方法对各个学科的文本进行抽取,均能得到较好的结果,这说明,关联规则应用于术语抽取不存在学科依赖,即使用关联规则进行术语抽取不存在学科限制。在本实验中,由于不同的学科具有不同的数据量,同时,各个学科的术语结构、已知术语等有所区别,因而达到最佳抽取结果的参数配置(最小支持度和最小置信度)也有所不同,这再次证明,合理的参数配置是将关联规则应用于术语抽取的关键问题之一。
3.3 关联规则方法与其他方法的对比实验及结果
以图书馆学与情报学领域1000条英文文摘数据为处理对象,分别用互信息(基于统计学原理方法)、Justeson & Katz 算法(基于语言学知识方法)、C-value算法(基于语言学和统计学结合方法)以及关联规则的FT-tree算法进行术语抽取,以下是实验过程中算法的实现难度、算法所需资源以及算法抽取效果等三方面比较结果。
(1)算法实现难度比较
算法实现难度是算法实用性的标志之一。表6列出了实验中使用的四种算法的核心代码量、核心内容和人为参与情况。
从表6可以看出,关联规则有着较小的代码量,但各个算法的核心代码量不存在数量级上的明显差别。在需要加载的内容方面,C-value/NC-value和Justeson & Katz算法需要加载规则,这类算法需要很强的先验知识,关联规则和互信息方法则不需要过多的规则,仅在在预处理部分做停用词拆分和已知术语切分即可。值得一提的是,四种算法均必须人为控制参数,而且这些参数都是至关重要的。从总体上看,关联规则方法拥有较小的代码量,较简单的抽取步骤和少量必须的人为参与,因此,关联规则应用于术语抽取有着易于实现的优势。
(2)算法所需资源比较
运行算法时所需计算机资源的多少,是算法可用性的重要表现。计算机资源最重要的是时间和空间资源。以1000条图书馆学与情报学英文数据(大小为1028kb)为处理对象,统计各算法在术语抽取时的时间消耗以及最大内存占用量,结果如表7所示。
从表7中可以看出,FT-tree(关联规则)和互信息算法具有明显的运行时间优势,C-value/NC-value和Justeson & Katz算法除进行基本词频统计和参数控制外还需要进行规则的加载和筛选,因而时间消耗较大。在占用内存方面,FT-tree(关联规则)和互信息算法同样有明显优势,C-value/NC-value和Justeson & Katz算法所使用的规则库必需常驻内存,同时,为了满足规则匹配的需要,这两种算法还要求对每个词进行词性的标注等,所以其所需内存较大。这一结果表明,关联规则算法在算法的可用性即占用计算机资源方面具有一定优势。
(3)算法抽取效果比较
算法的抽取效果是评价算法优劣的重要方面。此部分实验,是中英文对照实验中的运行结果。算法的参数配置,关联规则选取本节数据量大小对照实验运行结果F-measure值最高的一组支持度和置信度,其他算法的参数配置来源于相应的参考文献[1,13,14]。算法的抽取效果从准确率、召回率和F-measure三个指标进行评价,结果如表8所示。
从表8中可以看出, Justeson & Katz算法的准确率要高于其他算法,C-value/NC-value算法和关联规则算法的准确率次之,互信息方法的准确率最低。而实验结果的召回率与准确率结果相反,Justeson & Katz算法的召回率最低,互信息方法的召回率达到了1。F-measure是综合评价准确率和召回率的指标,C-value/NC-value算法的F-measure值最高,其次为关联规则算法以及Justeson & Katz算法,互信息算法的F-measure值最低。综合来看,就1000条的数据量来讲,关联规则算法取得了不错的抽取效果,但还有一定的进步空间。
4 结语
本文讨论了基于关联规则的复杂术语抽取方法,从理论上看,关联规则的基本原理决定了它在充分解决“序”的条件下,可以很好的完成术语的识别和抽取问题。从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和占用资源方面具有非常明显的优势。而且,关联规则在术语抽取时没有学科和语言的依赖性,这一点,是基于规则的方法所不能比拟的。我们的下一步工作将进一步分析如何合理配置参数以及各种关联规则算法用于术语抽取时的特点,包括效率、效果和限制条件。
参考文献:
[1]Justeson J, Katz S. Technical Terminology: some Linguistic Properties and an Algorithm for Identification in Text [J].Natural Language Engineering,1995,1(1):9-27.
[2]Jacquemin C. Recycling Terms into a Partial Parser[C].Proceedings of NALP’94,1994:113-118.
[3]Dagan I, Church K. Termight: Identifying and Translating Technical Terminology[C]. 4th Conference on Applied Natural Language Processing,1994:34-40.
[4]Andy L. Automatic Recognition of Complex Terms: Problems and the TERMINO Solution [J]. In Terminology: Applications in Interdisciplinary Communication, 1994,1(1):147-170.
[5]Arppe A.Term Extraction from Unrestricted Text [C].10th Nordic Conference of Computational Linguistics,1995.
[6]Chengxiang Z, Xiang T, Frayling MN. Evaluation of Syntactic Phrase Index CLARIT[C].Proceedings of TREC
-5,1996.
[7]Ulrich H, Jauss S, Katja K. Term Extration with Standard Tools for Corpus Exploration: Experience from German[C].4th International Congress on Terminology and Knowledge Engieering,1996:139-150.
[8]Bourigault D, Mullier GI, Gros C. Lexter, A Natural Language Processing Tool for Terminology Extraction[C].7th EUEALEX International Congress on Lexicography,1996:771-779.
[9]Naulleau E. Profile-guided Terminology Extraction[C].the TKE’99: Terminology and Knowledge Engineering,1999:222-240.
[10]Herman E, Chomsky N. Term Extraction[EB/OL].[2014-07-02]. http://fivefilters.org/term-extraction/.
[11]Sclano F, Velardi P. Termextractor: a web application to learnthe shared terminology of emergentweb communities[C].the 3rd International Coference on Interoperability for Enterprise Software and Applications,2007.
[12]Church K,Gale W.Inverse Document Frequency (IDF): A Measure of Deviations from Poisson[C].the 3rd Workshop on Very Large Corpora. Cambridge, Massachusetts, USA,1995:121-130.
[13]Frantzi K, Ananiadou S. Extracting Nested Collocations[C]. Proceedings of the 16thinternational conference on computational linguistics,Coling 96,1996:41-46.
[14]Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms: the C-value/NC-value method [J].Internation Journal on Digital Libraries,2000,
3(2):115-130.
[15]辛欣,李涓子. 文本信息抽取平台的设计与实现——基于机器学习[A].第七届中文信息处理国际会议论文集[C].中国中文信息学会,2007:7.
[16]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2013.
[17]陈定权,朱维凤. 关联规则与图书馆书目推荐[J]. 情报理论与实践,2009,(6):81-84.
[18]徐晓楠,张晓珺,张伟等. 北京市火灾关联规则分析[J]. 安全与环境学报,2010,(3):151-156.
[19]罗五明,韩平阳. 车辆事故关联规则的提取[J]. 交通与计算机,2003,(2):17-19.
[20]任长伟,尚艳英,曹彦荣. 基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探[A].中国地理信息系统协会.第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C],2006:6.
[21]林炜烁,纪立金, 高思华. 基于关联规则的肺肠合病医案用药规律探索[J]. 世界中医药,2014,(4):401-404.
[22]Zhang Z, Iria J, Brewster C, Ciravegna F.Java Automatic Term Extraction toolkit[EB/OL]. [2017-07-02].https://jatetoolkit.googlecode.com/svn/trunk/2.0Alpha.
多维关联规则 篇5
数据仓库以及其上进行的联机分析处理(OLAP)、数据挖掘共同构建了现代决策支持系统的核心框架,已成为数据库领域的热点问题[1]。在当前,大多数的数据仓库的应用都是进行统计、建立多维模型以及OLAP的分析工作。关联规则挖掘以其从大量商务数据库记录中发现有趣的相关联系进而帮助制定商务决策的特征成为数据挖掘研究关注的主题之一。在现今的关联规则挖掘应用领域[2],特别是电子商务的应用中,源于商品项目的多样化,数据项目属性概念集之间存在层次之分的现状,在低层或原始数据层的数据项之间往往很难找出强关联规则和有趣的购买模式,有时会将一些具有高价值性的信息丢失;相反,在多个概念层的项之间找有趣的关联比仅在原始层数据之间更容易,在较高的抽象层发现的强关联规则可能提供常识性知识,因此,数据挖掘系统应当提供一种在多维以及维上多个抽象层挖掘关联规则的能力。同时,激烈的商业竞争要求决策支持系统不仅具有优良的查询及挖掘性能而且要求具备快速的反应能力[3,4]。鉴于商空间粒度理论在实现粗细粒度层次间的灵活转换功能时具有不俗表现能力,以及OLAP提供的在不同数据集、不同细节上进行的切片、切块、展开、过滤等各种操作的规范流程,可以考虑将商空间粒度计算理论、OLAP和关联规则挖掘相结合,一方面,基于OLAP的关联规则挖掘就可以提供在不同数据集、不同的细节上的挖掘,是实现良好挖掘效能的保证。另一方面,采用商空间理论指导下的关联规则挖掘可以实现在不同的抽象层次空间自由转换,大大的提高了数据挖掘的灵活性和快速反应能力。因此为了满足决策支持系统在挖掘效能及响应速度上的应用要求,如何构建运算策略以实现多维多层次规则挖掘及加速OLAP中Cube算子的计算速度是数据挖掘的核心问题,值得探索研究。
1 相关知识及OLAP关联规则挖掘的结构
1.1 商空间理论粒度模型
以三元组(X,f,T)描述一个问题,其中X是论域,f(*)表示论域上(元素)的属性,f:X→Y,Y可以是n维空间,也可以是一般的集合,T是论域的结构,它表示论域中各元素之间的关系。求解问题(X,f,T)就是对论域X及其相关的结构、属性进行分析研究。当较细粒度X很复杂时,人们常用较粗等价关系将X提升划分成比较“粗”的粒度来考察问题,这里所谓粒度,就是将论域中的子集当作新的元素进行研究,即对X进行划分得到商集[X],然后对[X]进行研究[5]。
1.2 关联规则挖掘的结构
因其交易事务数据库表中事务项记录不能显示出商品项集之间的层次关系,若用OLAP中聚集操作每个Cuboid表示任意项目商品项集,则用Cuboid构建的Cube代数格可表示体现其层次感的项目商品项集。一个Cube里所有Cuboid就存在着依赖关系。其依赖关系数学定义如下:
定义1.1(Cube代数格)设L(28){c 1,c2,…,cm}是对数据集合P(D1,D2,…,Dn,M)实施Cube操作的Cuboid集合。对于∀ci、cj∈L,如果下面两个条件成立,我们说ci和cj满足直接计算关系(即cj可以由ci直接计算出来,表示为ci→cj):
(i)ci⊇cj
(ii)|ci|=cj+1其中,|c|表示节点Cuboid维属性的个数.
如果ci→cj,我们称ci是cj的直接前辈或cj是ci的直接后裔.
例如事务数据库中某事务T1,其购买的商品项集为:
那么.其中ALL表示空商品项目集合。各商品属性项逐层向上泛化后得出如图1所示的Cube概念分层。
定义1.2维内关联规则、多维关联规则
(i)维内关联规则:所有的项目都在同一维内,因此也称为单维关联规则。
如buys(X,“digital camera”)=>buys(X,“HP printer”);
(ii)多维关联规则:涉及两个或多个维的关联规则称为多维关联规则,多维关联规则中因其是否存在重复谓词又可分为维间关联规则和混合维关联规则。
维间关联规则如:age(X,“20…35”)occupation(X,“student”)=>buys(X,“laptop”)
混合维关联规则如:age(X,“20…35”)buys(X,“HPprinter”)=>buys(X,“laptop”)
对于关联规则的挖掘由单层扩展为多层时,必须考虑的一个问题是最小支持度的选择,通常有两种支持度策略可以采用,即所有层使用统一最小支持度或递减的最小支持度。因其两种策略的弊端比较显然。本文提出基于分组的支持度。
定义1.3基于分组的支持度。
由于用户或专家通常清楚哪些分组比其他分组更重要,在挖掘多层规则时,有时更希望建立用户指定的基于项或分组的最小支持度阀值。例如,用户可以根据产品价格或根据感兴趣的商品设置最小支持度阀值。
从上面讨论得知,OLAP关联规则挖掘的结构由三部分组成,数据仓库,OLAP引擎和关联规则挖掘引擎。确定了关联规则挖掘的结构后,则OLAP多维多层次关联规则挖掘方法是以Cube概念分层的数据结构为基础,把OLAP技术,FP改进频繁项集挖掘算法和关联规则挖掘合成起来的方法,下面重点讨论用户给定关注商品项集序列后,其对应基于商空间理论Cube概念分层的构建。以带维层次结构三个属性数据集合为例介绍基于商空间粒度理论的Cube分层结构简称商立方体概念分层QCCH(Quotient Cube Concept Hierarchies)结构,其构建方法参照文献[6]HQCL结构的构建。
2 基于商空间理论的OLAP多维多层次关联规则挖掘算法
将前面讨论的OLAP多维多层次关联规则挖掘方法明确后其步骤如下:
(i)预处理,对用户关心的商品序列项目集进行基于商空间理论的Cube概念分层的构建;
(ii)在已构建的概念分层上,执行QCHFP-growth算法,以等价关系R为层次游标因子,分别找出各个层次的频繁项集;
(iii)以各层次频繁项集为基础进行多维及多层关联规则的挖掘
2.1 预处理
1)按照用户所感兴趣指定的商品序列项集指导从销售事务数据库表中过滤出相关的信息,得出经过清洗后的事务数据库D;
2)对D序列项集自底向上构建基于商空间理论Cube概念层次树。按照自底向上顺序逐层扫描概念层次树,将各层的序列分项集分别用矩阵序列Q={Q1,Q2,……}存储。
2.2 执行Algorithm of Quotient Concept Hierarchies Based on FP-growth(QCHFP-growth)算法
QCHFP-growth算法思想:自顶向下,逐层寻找每层的频繁项集,QCHFP-growth首先根据用户关注的实际商品序列项集,查询各商品维及维上层次集合,依据中各成员粒度由细到粗构建QCCH结构;然后结合节点缓存集从QCCH结构的最粗粒度节点(即各商品成员均由最粗等价关系Rn所对应的粒度数据)开始,结合各层指定的最小支持度阀值,按照层次先深度、后广度的原则沿粒度由粗到细逐层执行FP-growth算法,直到每层产生出用户所要求的满足指定支持度的频繁项集为止;最后依据E{}(E{}为计算路径集)中提供的路径由商空间理论预算出所需的I-SET(I为商品序列目标节点项集),最终输出R级对应层次的商品序列的频繁项集iR,记IR={iR}。
QCHFP-growth算法:
输入:itemsetn,R,min_supR,。itemsetn为最高层(L=n)上对应的最粗节点,L为QCCH总的层数;R为概念分层中用户关注的商品序列项集层次对应的等价关系。min_supR为与R对应用户指定的最小支持度阀值。
输出:I-SET,IR。I-SET为商品序列目标节点项集,IR为与R对应商品序列层次的频繁项集。
算法步骤如下:
1)取L层上itemseti=itemsetn,按从左向右方向依次选择itemseti上的项(如果同一节点内某个项已经选择过,则不再选择)设为Di;
2)对itemseti的项Di由Ri对应的属性粒度成员下钻到Ri-1对应的粒度,设其生成的项记为Dj,若Dj在S_result{}中,则转至1),否则转至3);
3)添加Dj到S_result{},边(Di,Dj)到E{},变量Intitemseti减1;
4)对项Dj重复1)-3),直到itemseti中项Di粒度层次达到R为止;
5)对itemseti中剩余项,重复2)-4)直到Intitemset=0,此时itemseti中所有项Di粒度层次均达到R。
6)由E{}协助结合S_result{}得出R对应层所有项集I-SET,依据min_supR对I-SET执行FP-Growth算法[7](此时FP-growth算法中输入元素为QR,min_supR),获得对应于R粒度层的频繁项集IR。
其中:Intitemseti为用户关注节点itemseti从itemsetn开始到R对应层的层次个数;Intitemset为用户关注节点itemseti涉及到的商品项个数。
2.3 多维及多层次关联规则的挖掘
在3.2节找出所有各层的频繁项集后,接下来自然是由频繁项集产生各种类型的强关联规则,由于篇幅的原因,这里只分析维间关联规则,维间关联规则就是存在于两个或两个以上维之间的相关规则。
基本思想:自底向上,从R层的频繁项集开始,因为项目存在于不同的维中,这里通过利用商立方体的概念分层结构来获取每个项目集的关联规则。关联规则步骤如下:
1)对于每个频繁项集IR,产生IR的所有非空子集。
2)对于IR的每个非空子集s,如果,则输出强规则“s⇒(IR-s)”,其中min_confR为与R对应用户指定的最小置信度阀值。
3 实验分析
本文验证了算法QCHFP-growth的有效性,并和FP-growth算法进行了比较。实验在一台CPU为Intel(R)Core(TM)i3 M350 2.27GHz,内存1.92 GB,操作系统为Windows XP的PC机上进行,算法采用Microsoft Visual C++6.0编写。实验数据为人工合成的数据集T10I4D100K。T10I4D100K可由IBM提供的标准数据生成器获得。表1列举了本数据集的一些参数,AvgTlen表示的是平均事务长度,MaxTlen表示的是最大事务长度,T10I4D100K表示的是数据集中事务(T)的平均长度为10,频繁项集(I)的平均长度为4,数据库(D)中事务的总数目为100K。
QCHFP-growth算法只需要扫描数据库一次,之后将排列好的对应于R级的商品属性泛化项集存储到矩阵QR中,在构造DFP-Tree过程中,矩阵也只需要被扫描一次,在挖掘过程中,不产生候选项集,大大的减少了内存的需要,使算法的性能有了明显的提高。图2表示的是QCHFP-growth和FP-growth算法在T10I4D100K各层次数据集中随着不同支持度而显示的运行时间。从图中可以看出,相同支持度下,QCHFP-growth算法的运行时间要明显少于FP-growth算法的运行时间。说明了QCHFP-growth算法挖掘多维多层次频繁项集较FP-growth算法有较高的挖掘效率。
4 总结
针对电子商务关联规则挖掘领域的数据稀疏性,本文提出基于商空间理论的OLAP多维多层次的关联规则挖掘QCH-FP-growth算法,在继承FP-growth算法思想的基础上,利用商空间理论层次间灵活转换的特征对用户指定的商品序列项目集进行Cube概念分层的构建,同时利用OLAP的不同数据集、不同的细节上的规范技术在Cube概念分层结构上以R为游标因子进行灵活的多维多层次关联规则挖掘。实验结果表明,该算法较FP-growth算法在多维多层次规则挖掘效率方面有显著提高。
参考文献
[1]H.F.Li,S.Y.Lee.Mining frequent itemsets over data streams using efficient window sliding techniques[J].Expert Systems with Applications,2009,36(2):1466-1477.
[2]杨泽民,王文军,郭显娥.基于协同微粒群的股票数据关联规则挖掘[J].吉林师范大学学报(自然科学版),2012,33(3):31-34.YANG Z M,WANG W J,GUO X E.Stock Data Mining of Association Rules Based on Synergy of Particle Swarm[J].Jilin Normal University Journal(Natural Science Edition)2012,33(3):31-34.(in Chinese)
[3]Wuzhou Dong,Juan Yi,Haitao He,Jiadong Ren,“An incremental algorithm for frequent pattern mining based on bit-sequence”,IJACT:International Journal of Advancements in Computing Technology,Vol.3,No.9,pp.25-32,2011.
[4]J.Han,J.Pei,“Mining frequent patterns without candidate generation”,In Proceedings of the SIGMOD International Conference on Management of Data,pp.1-12,2000.
[5]张钹,张铃著.问题求解理论及应用[M].北京:清华大学出版社,1990.12.ZHANG B,ZHANG L.Problem Solving Theory and Application[M].Beijing:Tsinghua University Press,1990.12
[6]郭显娥,王文军.基于商空间理论层次Cube操作的聚集算法研究[J].宁夏大学学报(自然科学版),2009,30(2),128~131.GUO X E,WANG W J.Research of Aggregate Algorithm of Hierarchical Cube Operation Base on Theory of Quotient Space[J].Journal of Ningxia University(Natural Science Edi-tion),2009,30(2),128~131.
多维关联规则 篇6
关键词:关联规则,映射,生物信息网络,数据挖掘算法
数据挖掘实际上是通过算法对隐藏的数据信息进行挖掘与寻找的过程, 数据挖掘过程需要使用模拟识别、人工智能等技术, 这样能够更快速地找到数据排列规律。随着多媒体技术的进步, 音频、视频、图像等对数据查询与管理出现不足, 而使用具有学习功能的数据挖掘技术则能够实现数据聚类, 能够对大量信息进行管理与收集。生物信息网络就是使用数学算法与图形理论, 借助网络拓扑等方法对生物信息系统网络进行研究, 生物科学、计算机科学以及数学模型的运行使结构更为合理, 数据挖掘处理更加高效。
1 概述
在不确定性数据流上对有效算法进行频繁挖掘, 这种算法能够对有效的数据结构中的事物流项进行存储, 并在此基础上设计出一种SRUF-mine数据挖掘算法, 使用全局树能够有效地对数据流进行挖掘与构思。还有学者提出了一种非常有效的数据流频繁项目算法, 这种方法是在近似值方法基础上对数据流中的频发项进行挖掘, 用户能够通过这种方式进行查询。其优点是能减少算法存在的空间复杂性, 还能够使平均处理时间缩短, 降低频率误差。本文提出一种基于环路紧密型的复杂网络社区挖掘算法, 这种算法能够依靠紧密值对网络社区进行有效聚类, 遍历全图使用的是优先遍历算法, 归属值是核心中最紧密的值, 在每组实验当中, 应用真实性网络数据集能够实现对算法的有效挖掘, 得到有效验证。并提出一种关系矩阵融合多媒体聚类方法, 能够对图像、视频、数据等进行矩阵相关性统计, 通过融合相关性的方式对数据集进行挖掘而生成一种语义。
2 数据集关联规则映射
通常, 在一个完整的生物信息网络当中, 能够实现对网络结构中的拓扑结构图进行映射与挖掘, 而要想实现这种处理, 就要将生物信息网络中具有特征性的数据复杂性降低。本文在数据关联映射基础上将网络数据集关联规则确定下来, 进而提升数据挖掘效率, 还能够使用数据概率估算的方法将数据频率挖掘出来, 要引入相对误差提高数据挖掘精度。图1是关联规则映射法结构[1]。
为了更好地表现数据关联映射过程, 在生物信息网络结构拓扑图中, 可以先定义一个拓扑结构图, 本文将其定义为R= (A, C) 。其中, A表示网络结构部分, C表示结构组织边际。在A= (A1, A2.........An) 中, 数据集表示为:Ai (0≤i≤n) , Ai= (x1i, x2i.......xmi) , 其中, xmi (0≤j≤m) , 代表着一个数据集中包含一个有效的集合。可以使用表示数据集A1与Ak之间的关联程度, 数据间的大小由表示, 而语义关联由表示出来, 最后, 代表数据集之间的所属关联类型。由此, 对数据集的关联映射, 其定义有以下几种:
定义一:由A1与Ak之间的关联属性组表示任意2个数据集合之间的关联程度[2]。
定义二:使用关联矩阵法将关联属性表示出来, 并且任意2个关联系数矩阵之间存在平均值。关联矩阵如下:
定义三:数据之间不仅存在关联, 其差异性也非常显著。可使用差异性系数矩阵关联倒数表示出来。矩阵如下:
按照系数关联矩阵, 可以对数据集A1与Ak进行映射, 两者关联映射表示为:
在使用了关联映射对数据集进行描述以后, 能够最终得到A1与Ak之间的关联映射效果, 并且使用矩阵法能够将关联规则的数据集表示出来, 能够在2个数据集中区分A1与Ak。从众多数据集中将A1与Ak区分出来以后, 还要再使用关联映射方法对两者进行区分[3]。本文将使用数据估算方法对数据频率进行挖掘, 应用到的数据概率估算公式为:
在公式中, 挖掘因子由表示, 取值范围是 (0, 5) 表示预期数据挖掘概率以及数据间存在的相对误差。为了与的取值范围相对应, 就要将数据挖掘的概率提升到最大。
3 多维数据集特性挖掘
本文将作出一个多维空间分布假设, 假设中以样本为依据, 如果2个样本间有着非常强的相关性, 则表示2个数据样本存在的关联程度高, 反之, 如果相关性较差, 就表示样本间的关联性低。要想在同一个空间中对不同的样本进行区分, 则要按照样本关联性强弱与分布规则进行。如果在同一个空间内分布着众多小的下属空间, 则不能按照大空间的分布规律, 而是要按照小空间的关联性区分[4]。
将空间维度设为d, 要想获得不同数据集就要对不同数据集的关联性进行挖掘, 将子空间的矩阵设为E, 将产生如下定义:
如果在2个不同的子空间内同时具有A1与Ak, 并且, 通过计算, 最终得出的欧几里得距离为D (i, k) , 2个不同数据集欧几里得表示的距离为d (i, k) 。
4 实验分析
本文以实验方式提出关联规则映射生物信息网络多维数据挖掘算法, 实验操作使用的平台为IBM与PC, 2.5GHz CPU为主频, Windows XP是使用的操作系统, 系统内存为5GB。使用的软件平台为MATLAB8.5, 随机数据集是其中准确的内容, 比如, 金融数据集、天气预报数据集等, 可以在每集中使用1200个数据包。以对比的方式进行实验, 将实验算法分为2组, 一种算法是异构数据挖掘分析, 一种是应用粗糙集理论进行的数据挖掘。结合不同数据集所占内存大小情况, 将实验分为3个部分, 分别是算法挖掘精度、数据集容量、算法运行频率等[5]。
针对不同数据集数量所占内存情况, 如果内存占的比重小, 则表示数据挖掘算法性能越优越, 算法结果越精确, 对真实性、大型数据集进行挖掘较为适合。通常情况下, 如果关联规则下所占的挖掘算法占较少内存, 则粗糙集理论与异构信息挖掘量将增加, 将占更多内存。由此, 在对数据进行挖掘过程中, 多维度数据挖掘算法更有优势。
在不同数据集数量算法挖掘精度下, 需要结合精度情况, 如果数据集涵盖的内容较广、数量越多却还能保持较好的挖掘精确度, 则表示挖掘算法在实际运用中有效性强。多维度数据挖掘具有明显的挖掘精度高的优势, 如果数据集合量为1100, 挖掘精度将能达到78.9%, 但Sun算法挖掘精度则较低, 仅为67.4%, Bal算法仅为77.8%, 并且随着数据集不断增加的, 挖掘精度变化幅度将非常大, 但是生物信息网络多维度数据挖掘算法变化则较小[6]。
不同数据集数量下, 算法运行时间与算法数量呈正相关, 如果数据集数量增多, 则算法运行时间也将延长, 如果数据集量达到1500, 生物信息网络多维度数据挖掘算法下的运行时间为15.9s, Sun算法运行时间为20.6s, Bal算法运行时间是23.9s, 如果运行时间短, 则表示算法越具有优势, 就越容易进行大规模的数据挖掘[7]。
5 结语
本文主要分析了一种基于关联规则映射的生物信息网络多维数据算法, 通过本文的分析可以看出, 使用这种算法能够对大规模、大范围的生物信息进行处理与挖掘, 此过程应用到了数据关联规则映射与多维度数据特征挖掘, 通过使用数据关联规则映射方法能够提高数据挖掘的频率与精确度, 而使用多维度数据精度法则能够在不同空间内对数据集特征进行区分, 进而增强数据挖掘效果。本文主要以实验方式将挖掘算法划分为3组进行分析, 最终表现出在精确度、内存占用空间以及运行时间上算法所具有的优势。
参考文献
[1]唐晓东.基于关联规则映射的生物信息网络多维数据挖掘算法[J].计算机应用研究, 2015 (6) :1614-1616, 1620.
[2]杨加, 马皓, 张蓓, 等.基于信息度量和多维数据挖掘算法的网络异常检测系统[J].中国教育网络, 2011 (1) :90-92.
[3]李光昱, 嵇晓平.基于网络异常流量分析及数据挖掘算法的主动网络安全多维模型应用[J].电力信息化, 2011 (9) :66-69.
[4]郭浩.多维数据挖掘处理对层次分析法构建挖掘模型的应用[J].计算机光盘软件与应用, 2013 (21) :108, 110.
[5]王成, 李民赞, 王丽丽, 等.基于数据仓库和数据挖掘技术的温室决策支持系统[J].农业工程学报, 2010 (11) :169-171.
[6]张群洪, 刘震宇, 许红, 等.基于映射关联规则算法的业务流程重组关键成功因素识别[J].系统工程理论与实践, 2011 (6) :1077-1085.
多维度关联维数的电梯故障诊断 篇7
研究资料表明, 关联维数可以反映机械设备的运行状态[1,2,3]。因此, 借助这一特征量, 将有助于机械设备运行状态的识别。譬如, 姜万录等通过计算液压泵在不同状态下的压力信号的关联维数, 成功地识别其工作状态[2];邵辉等人将关联维分析方法应用于轴承的故障诊断, 计算轴承在四种状态下振动信号的关联维数, 证明了轴承在四种状态下具有明显区别的关联维数[4]。梁平等人运用关联维分析汽轮机转子的振动故障, 结果表明各种故障对应的关联维数并不相同, 关联维数可以作为一种振动故障的征兆加以提取[5]。
电梯故障可分为机械故障与电气故障两大类[6]。虽然机械故障发生的频率较低, 但危害较大。本文以多维度关联维数联合判据为研究方法, 并结合最小二乘支持向量机对电梯的运行状态进行识别。
1 理论分析
1.1 关联维[7,8]
设一维时间序列为{xk, k=1, 2, …, N}, 经相空间重构得到一组空间向量为:
其中t=1, 2, ⋯, M, M=N- (m-1) τ, τ为嵌入延迟, m为嵌入维数。对于这M个点, 计算有关联的向量对数, 它在一切可能的配对中所占的比例称为关联积分:
其中:θ () ∙-Heaviside函数;r-测度;||Xi-Xj||-两个矢量之间的距离;恰当的选取测度r, 关联维数为:
实际应用中, 通常是在一个给定的嵌入维数m下绘制 (ln r, ln C (r) ) 曲线, 然后判定无标度区间的范围, 并对区间内的点进行最小二乘拟合, 斜率即为关联维数D2 (m) 。
1.2 相空间重构参数的选择
(1) 延迟时间
如果延迟时间τ选择过小, 则相空间矢量X (i) ={x (i) , x (i+τ) , ⋯, x (i+ (m-1) τ) }中任意两分量x (i+jτ) 与x (i+ (j+1) τ) 在数值上非常接近, 以至于无法区分, 从而无法提供两个独立的坐标分量;如果延迟时间τ选择过大, 则两坐标在统计意义上又是完全独立的, 混沌吸引自的轨迹在这两个方向上的投影毫无相关性可言[9]。常用的方法有自相关函数法[10]、复自相关函数法[11]、互信息法[12]。采用互信息法计算延迟时间, 得τ=2。
(2) 嵌入维数
如果嵌入维数选取过小, 吸引子会发生折叠甚至自相交。如果嵌入维数选取过大, 吸引子的集合结构被完全打开。常用的方法有几何不变量法[13]、虚假最邻近法点[14]、伪最邻近法点[15]。采用伪最邻近点法计算嵌入维数, 得m=4。
2 实验过程
实验时, 将三个加速度传感器安装在电梯的三个方向测试位置上, 如图1所示。电梯运行时, 传感器就会接收到电梯的振动加速度信号;通过信号放大器对原始信号进行放大处理;将放大后的信号输PCI-6014数据采集卡, 并通过LabVIEW信号采集程序将数据保存, 如图2所示。最后通过MATLAB程序对信号进行相应的分析与处理。
3数据分析
3.1关联维分析
在对低信噪比的实测数据的研究过程中发现, 如果采用与前言中几位学者相同的方法对电梯的运行状态进行研究则会出现较大的误差。这些误差可能是低信噪比引起的。
电梯振动是指电梯轿厢在运行过程中, 水平方向和垂直方向产生的振动。水平方向振动又可以分为前后和左右方向振动。水平方向振动主要由导轨与导靴的制造与安装精度引起;垂直方向, 电梯系统自身可以简化为弹簧-振子模型, 轿厢为振子, 钢丝绳为弹簧。当钢丝绳放松时, 弹簧的弹性模量降低, 导致振子的振动幅度增大。
在充分分析电梯振动的产生机理与故障原因, 以及大量的实验验证之后发现, 仅仅通过单一的关联维数难以从低信噪比的实测数据中识别电梯的运行状态。通过大量的实验与计算, 得出不同运行状态三维方向的关联维数表 (见表1) 。
观察表1可得:
(1) 垂直方向, 正常工况的关联维数在2.5左右、钢丝绳放松和导靴夹紧两种故障状态下的关联维数大体都在2.6以上。正常与故障工况的区分度较好, 但难以判定处于何种故障;
(2) 左右方向, 三种工况的关联维数分别在2.5、3.0、2.8左右, 具有较好的区分度, 但由于信噪比不高, 导致关联维数存在一定的波动, 仅以此方向作为判据, 易出现误判;
(3) 前后方向, 三种工况的关联维数分别在2.7、2.6、2.75左右, 能够通过该方向的关联维数识别出钢丝绳放松工况;
(4) 关联维数作为识别电梯运行状态的依据是可行的, 单一方向的关联维数判据虽然具有一定的效能, 但不够全面, 多方向的关联维数联合判据为识别电梯的工作状态提供了可能。
3.2 最小二乘支持向量机分类
通过前面的分析可知, 多维度关联维数联合判据可以作为识别电梯系统运行状态的依据, 但它是多维的, 依靠人的主观分析和判断是难以保证获得准确和客观的结论的。本文引入最小二乘支持向量机作为进一步识别电梯运行状态的方法。应用计算机智能系统, 采用统计分析和学习的方法, 以统一的准则进行分类识别, 其准确性和客观性都远远优于人工识别。
在采集的三种运行状态三个方向的数据中, 各选取50组数据, 每组至少1 024个数据点。应用GP算法计算关联维数。二分类时, 从100组数据中, 随机选取60组作为训练样本, 余下的作测试样本, 识别正确率如表2。多分类时, 从150组数据中选取90组作为训练数据, 其余的作测试数据, 识别结果如表3。
由表2、3可以得出:
(1) 二分类与多分类的正确率分别达到95%、85%以上, 具有较好的实用性, 基本能够满足实际应用的需求;
(2) 多维度关联维数联合判据与最小二乘支持向量机结合的方法不仅能够识别电梯的工作状态, 而且能够识别故障的类型, 表明多测度关联维数联合判据作为识别电梯运行状态的依据是可行的;
(3) 多维度关联维数联合判据与最小二乘支持向量机结合能够在信噪比不高的情况下识别出电梯的运行状态, 表现出较好的抗噪能力;
(4) 最小二乘支持向量机的使用消除了因研究者的主观因素对识别结果的影响, 提高了结论的科学性、客观性和准确性。
4 结语
运用关联维数对信噪比不高的实测电梯振动信号进行分析。结果表明, 电梯在不同运行状态不同方向具有不同的关联维数, 反映了在三种工况下电梯的动力学特性发生了变化。
单一方向的关联维数作为判据, 不够全面, 具有一定的误判几率。多维度关联维数联合判据降低了噪声的干扰, 提高了识别准确率, 显示出多维度关联维数联合判据包含的动力学特性更加丰富。
摘要:研究发现, 通过低信噪比的实测数据得到的单一关联维数识别电梯的运行状态, 是不全面的, 易出现误判。这里提出以多维度关联维数联合判据作为识别依据, 并以最小二乘支持向量机为识别方法。结果表明:多维度关联维数联合判据能够反映更加丰富的电梯动力学特性, 识别准确度较高。