矩阵加权模式

2024-08-09

矩阵加权模式（精选5篇）

矩阵加权模式篇1

摘要：提出一种新的基于PR (Probability Ratio, 简称PR) 模型的教育信息化数据矩阵加权正负关联模式挖掘算法。算法从教育信息化数据中挖掘矩阵加权频繁项集和负项集, 采用PR模型作为正负关联模式评价标准, 对频繁项集和负项集挖掘教育数据矩阵加权正负关联模式, 发现有趣的教育信息矩阵加权正负关联模式。通过模式分析, 发现教育领域信息化数据中潜在的、有用的教育信息、教学规律和教育发展趋势。以真实的教育信息化数据作为实验数据, 实验结果表明, 该算法更有效、合理。

关键词：教育信息化,关联模式,PR模型,矩阵加权模式

0 引言

信息技术对教育领域产生巨大的影响, 加速了教育信息化的进程, 由此产生大量的、复杂的教育信息化数据。如何更充分、更有效地利用如此巨大的教育信息化资源, 一直是很多学者研究的热点。将数据挖掘技术应用于教育信息化数据处理是解决上述问题的有效途径, 教育数据挖掘应运而生, 指的是从大量的教育信息数据中发现事先不知道的、有用的教育模式和知识, 利用这些模式和知识指导教育、发展教育和改善教学效果, 从而提高教学质量和水平。在教育信息挖掘过程中, 频繁项集、负项集以及正负关联规则等模式统称为教育信息化数据正负关联模式。近年来, 不同的学者从不同的角度和方法对教育信息数据挖掘进行研究, 取得了丰硕的成果, 归纳起来主要表现在如下两个方面:

一是基于传统关联模式挖掘的教育数据关联模式挖掘。该方法主要是将传统的无加权关联模式挖掘技术 (例如Apriori挖掘算法[1]) 应用到教育数据关联模式挖掘。采用Apriori算法及其改进算法对考试成绩数据进行挖掘, 得出课程设置体系的数据相关性和考试科目成绩之间的内在联系[2,3,4], 以帮助教师在指导学生时做出正确的决策, 并为课程体系设置提供有效的决策支持。采用关联规则挖掘技术对教学环境数据挖掘学生行为模式和教师教学模式, 能够预测和评价学生学业成绩[5,6], 对于成绩差的学生给予专门的指导和帮助, 有助于减少学生的辍学率[7], 通过教师教学模式分析, 可以发现优秀教师的教学素养能力[8]。数据挖掘技术在教育信息化数据中的应用可以有助于提高教育信息化数据的数学分析能力[9]。这些研究成果为教务管理和教学模式的改革提供了强有力的科学依据, 取得了良好的效果。基于传统关联模式挖掘的教育数据关联模式挖掘存在的缺陷是:只考虑课程项目频度, 没有考虑课程项目之间存在不同重要性的情况。

二是基于加权关联规则挖掘的教育数据关联模式挖掘[10,11]。该方法克服了传统关联模式挖掘方法的缺陷, 考虑了课程项目在其专业中具有不同的重要性, 赋予不同的权值。文献[10]提出了一种新的基于加权关联规则算法的学生成绩数据挖掘, 文献[11]将加权关联规则挖掘技术应用高试卷评估中, 提出了基于加权关联规则算法的学生成绩数据挖掘算法, 都取得了良好的效果。该方法还存在如下的缺陷:只考虑项目在各个项目中具有不同的权值, 并没有考虑项目在各个学生学习中具有不同的教学效果。

针对现有的教育数据关联模式挖掘的不足, 本文将PR (Probability Ratio, 简称PR) 模型引入教育信息化数据矩阵加权正负关联模式发现与分析, 提出一种新颖的基于PR模型的教育信息化数据矩阵加权正负关联模式挖掘算法。

1 基本概念

教育信息化数据中课程成绩随着学生记录不同而变化, 因而课程成绩数据属于矩阵加权数据。把课程当作项目, 课程成绩当作项目的权值。设SD={s1, s2, …, sn}是学生记录数据库 (SD:Students Database) , si (1≤i≤n) 表示SD中的第i个学生 (student) 记录, course={c1, c2, …, cm}表示SD中学生所选修的课程 (course) 集合, cj (1≤j≤m) 表示SD中第j门课程, r[si][cj] (1≤i≤n, 1≤j≤m) ) 表示SD中第j门课程cj在学生记录si中的考试成绩, 如果cj没有被选修, 即cjsi, 则r[si][cj]=0。

对于学生记录数据库 (SD) , 设I1, I2是其课程集合course的两个子项集, I1course, I2course, 且I1∩I2=Ø, 给出如下基本定义。

定义1 (教育信息化数据矩阵加权支持度:Matrix-weighted education patterns support, 简称mwepsup) :参考文献[12], 给出教育信息化数据矩阵加权正负项集和关联模式的支持度计算公式如式 (1) -式 (6) :

其中, k为项集I的项目个数, n是SD的事务记录总数, 是项集I在SD中各个学生成绩权值总和。

定义2 (教育信息化数据矩阵加权PR值:Matrix-weighted probability ratio, 简称mw PR) :PR模型[13] (probability ratio) 是用条件概率和先验概率的比值来表达p (I2|I1) 相对p (I2) 的递增程度, 即:

根据公式 (7) , 给出教育信息化数据矩阵加权正负关联模式的mw PR的计算公式如下:

定义3 (教育信息化数据矩阵加权强正负关联模式) :教育信息化矩阵加权数据强正负关联模式 (I1→I2, I1→﹁I2, ﹁I1→I2, ﹁I1→﹁I2) 是指I1和I2的支持度不小于最小支持度阈值minmwepsup, I1→I2, I1→﹁I2, ﹁I1→I2, ﹁I1→﹁I2的支持度和PR值都不小于minmwepsup和最小PR阈值minmwPR。

2 基于PR模型的教育数据矩阵加权模式挖掘算法

2.1 基本思想

基于PR模型的矩阵加权关联模式挖掘算法分为三个阶段, ①预处理和挖掘频繁1_项集和负1_项集阶段:预处理教育信息化数据, 构建教育信息化矩阵加权学生记录数据库和课程项目库, 并从中挖掘教育信息化数据矩阵加权课程频繁1_项集和负1_项集。②产生矩阵加权频繁i-项集和负i-项集 (i≥2) 阶段:从2-项集起, 课程项目候选i-项集 (i≥2) 通过候选 (i-1) -项集通过Apriori连接[1]得到, 通过候选i-项集的i-支持期望[12]进行剪枝, 计算候选i-项集的矩阵加权支持度, 通过逐层搜索的方法产生矩阵加权频繁i-项集和负i-项集。③产生教育信息化矩阵加权数据强正负关联模式阶段:计算矩阵加权频繁i-项集和负i-项集的mw PR值, 根据PR值从频繁项集和负项集中挖掘教育信息化矩阵加权数据强正负关联模式。

2.2 算法描述

输入:SD学生记录数据库, minmwepsup最小支持度阈值, minmw PR最小PR阈值,

输出:教育信息化矩阵加权正负关联模式。

算法:

Begin

①预处理和挖掘频繁1_项集和负1_项集:将课程成绩除以100, 以保证项目权值在0至1之间, 建立教育信息化矩阵加权学生记录数据库和课程项目库, 并从中挖掘矩阵加权课程频繁1_项集和负1_项集, 计算2_项集的2-支持期望。

②产生教育信息化数据矩阵加权频繁i-项集和负i-项集 (i≥2) :

一是生成矩阵加权候选i-项集

候选 (i-1) -项集通过Apriori连接得到矩阵加权候选i-项集 (i≥2) ;然后, 将矩阵加权候选i-项集中含有i-支持期望的 (i-1) -项集的并且其支持度不为0的候选i-项集作为矩阵加权负i-项集。

二是剪枝

删除矩阵加权候选i-项集中含有i-支持期望的 (i-1) -项集的所有候选i-项集, 得到新的矩阵加权候选i-项集, 如果新的矩阵加权候选i-项集不空, 计算其支持度及其候选i-项集的i-支持期望, 同时删除其支持数为0的候选i-项集, 得到最新的矩阵加权候选i-项集。

三是生成矩阵加权频繁i-项集和负i-项集

剪枝后如果最新的矩阵加权候选i-项集为空集, 则直接转入第③步, 否则, 计算剪枝后的候选i-项集中每个候选i-项集支持度和矩阵加权 (i+1) -项集的 (i+1) -支持期望, 比较候选i-项集的支持度和minmwepsup, 得到矩阵加权频繁i-项集和负i-项集。

四是i=i+1后循环步骤一到步骤三。

③从矩阵加权课程频繁i-项集挖掘强正负关联模式。

任何一个频繁i-项集中课程项集 (I1, I2) , 计算I1→I2, I1→﹁I2, ﹁I1→I2, ﹁I1→﹁I2的PR值。将其支持度和PR值分别与minmwepsup和minmwPR比较, 得出教育信息化矩阵加权课程强正负关联模式。

④从矩阵加权课程负i-项集挖掘强负关联模式。

任何一个负i-项集中课程项集 (I1, I2) , 计算I1→﹁I2, ﹁I1→I2, ﹁I1→﹁I2的PR值。将其支持度和PR值分别与minmwepsup和minmw PR比较, 得出教育信息化矩阵加权课程强负关联模式。

⑤输出强正负关联模式。

End.

3 实验设计及结果分析

3.1 数据来源

为了验证本文算法的有效性, 将某校教务部门真实课程考试成绩数据作为本文实验数据, 选择历届毕业生在校学习成绩为实验数据测试集。对实验数据测试集进行预处理, 构建学生信息数据库和课程项目库。数据测试集参数如下:课程项目总个数是121, 学生总数为500人, 即事务记录数为500。

3.2 实验结果及分析

将本文算法与现有无加权正负关联规则挖掘算法[14]进行性能比较, 在测试集上, 分PR阈值或者置信度阈值变化和支持度阈值变化2种情况对两种算法进行挖掘性能实验和分析 (以正关联模式I1→I2和负关联模式﹁I1→﹁I2结果为例) 。

①PR阈值或者置信度阈值变化的情况下, 本文算法和对比算法在数据测试集上运行后得到的教育数据正负关联规则模式 (I1→I2和﹁I1→﹁I2) 数量比较如图1和图2所示。

(minmwepsup=0.3)

图1和图2表明, 当支持度和兴趣度不变时, 在不同的PR值阈值或者置信度阈值下, 本文算法得到的正关联规则模式I1→I2数量和对比算法的差别不大, 仅仅减少7.86%, 而负关联模式﹁I1→﹁I2数量比对比算法的减少幅度较大, 达到66.72%。

②支持度阈值变化情况下, 两种算法在数据测试集上运行得到的教育信息化数据正负关联模式 (I1→I2和﹁I1→﹁I2) 数量比较结果如图3和图4所示。

图3和图4表明, 当PR值和兴趣度不变时, 随着支持度阈值的增大, 两种算法在数据测试集上运行得到的教育数据正负关联模式数量大幅度下降, 而本文算法的正关联规则模式I1→I2数量比对比算法的下降49.09%, 负关联规则模式﹁I1→﹁I2数量比对比算法的下降幅度更大, 达到74.44%。

(minmw PR=0.5或者minconf=0.5)

实验结果表明, 本文算法是有效的, 与对比算法比较, 本文算法挖掘得到的正负关联规则模式数量少得多, 表明其无效的和虚假的关联模式更少, 说明本文算法的挖掘效果更有效、更合理。其主要原因分析如下:本文算法采用PR模型衡量教育信息化矩阵加权数据正负关联规则模式, 不仅考虑模式之间存在的重要性, 重点考虑了各种模式在不同的学生信息记录中具有不同的学习效果, 即具有不同的成绩权值, 挖掘出来的教育数据正负关联模式更能反映课程学习效果的课程关联, 避免了那些无效的、无趣的关联模式出现, 模式数量减少了;而对比算法是无加权正负关联模式挖掘算法, 只考虑课程项目被学生选修的频度, 并不考虑课程项目之间存在不同的重要性, 更没有重视课程项目在学生选修学习中具有不同的学习效果。由于学生选修的课程频度都比较高, 而且分布比较均匀, 挖掘出来的正负关联模式数量就比较多。

3.3 关联模式实例分析

本文算法挖掘出来的教育信息化数据矩阵加权正负关联模式实例及其对应的支持度和PR阈值如表1所示。

对表1的实例分析可以知道, 本文算法发现的各个课程之间反映各种学习效果的正负关联模式与现实是接近的, 通过这些模式分析可以获得各种潜在有用的教育信息。例如, 选修《英汉翻译》课程的同时也选修《英文报刊阅读》课程的概率有68.54%, 学好《英汉翻译》课程就能学好《英文报刊阅读》课程的PR阈值是很高的, 达到1.1644, 说明这条模式的可信度是很高的。学不好《旅游英语》就不会学好《商务英语听力》的概率有63.79%, 其PR值高达1.0192, 这是一条可信度较高的负关联模式。

4 结束语

教育信息化进程的加快和普及, 对教育系统的变革和发展产生了深远的影响, 其中其产生的海量教育信息化数据资源会产生不可估量的价值。针对现有教育信息化数据关联模式挖掘的缺陷, 提出了一种新颖的基于PR模型的教育信息化数据矩阵加权正负关联模式挖掘算法, 利用PR模型评价教育信息化数据矩阵加权正负关联模式, 充分考虑课程项目在各个学生数据库中具有不同的重要性。在真实的教育信息化数据实验环境中, 与现有的关联模式发现算法进行挖掘性能实验比较和分析。实验结果表明, 本文算法更有效、更合理。

科技孵化器的矩阵式运营模式研究篇2

【关键词】社会网络资本化；孵化矩阵；自治

Topic： A study on the matrix mode of a science incubator

Abstract： An incubator is the terminal for social networks of entrepreneurship， and also platform organizer for its stakeholders. A new operation mode is necessary. As a networked platform for cooperation， capitalizing social networks determines entrepreneurs leveraging resources. As a tool for bilateral governance of stakeholders， the paper provides a matrix mode for incubation. By the mode， it makes it possible to realize capitalizing of platform networks and self-governance for incubation process. The paper provides a new perspective for incubation mode study.

Key words： Network Capitalizing；incubation matrix； self-governance

引言

产业孵化是为促进创业，而由孵化器、天使和风险投资等组织共同推动的一个过程（Hankett&Dilts，2004）。Smilor（1987）认为孵化器是一种由企业、政府机构和科研机构相互整合的新机制，入孵企业能够从提高企业信誉、缩短学习曲线、加快问题解决和共享网络资源四个方面受益，其核心功能是帮助内部企业有效地整合各类创业资源，更快融入当地的创业网络。

新创企业往往面临资源瓶颈和高度的环境不确定性，需要在财力有限的情况下聚集不同的资源（Brushetal，2001），显然凭一己之力获得这些资源非常不易。杠杆资源（Hamel&Pralahad，1993）理论指出初创企业面临资源瓶颈，拥有和控制的资源有限，更需要获取外部资源服务于企业发展。杠杆资源是企业的外部资源，也就是企业能够链接到的社会资本，需要企业有意愿和能力去撬动。很多学者都认为撬动资源的能力是创业的关键，有效利用社会资本是初创企业取得成功的关键（Beckman，1999；Hansen，Nohria和Tierney，1999；Zack，1999）。

孵化器具有丰富的社会网络，由于治理问题长期未得到解决，其中枢功能没有得到有效利用。多数孵化器孵化器文献暗含一个假设，孵化器是政府或大学的派生机构，不可能市场化经营。这种观念阻碍了孵化器社会网络作用的发挥。孵化器的特殊性在于其平台属性，是各利益相关者的合作网络中枢。

1、孵化器相关文献综述

1.1孵化器的共同生产特征

孵化器的主要职能是解决初创期的资源短板，保证入孵企业创业的稳定性，解决长期生存和可持续发展问题（Schwartz，2011）。Bruneeletal（2012）认为入孵企业可以从孵化器的规模效应中获益，如降低成本，共享空间和服务等。新创企业在与供应商、客户和金融机构打交道时存在信用短板，在品牌形象和合法性方面毫无积累（Schwartz，2011），加盟孵化器可能获得形象和信任度的提升，孵化器的支持功能有可能成为新创企业品质的符号（Ferguson&Olofsson，2004；Mcadam&Marlow，2007）。如果孵化器能成为新创企业的背书者，这无疑对成员企业极其重要。

孵化器的一个主要角色是创业人和相关创新系统的媒介（Petersetal.，2004），在创业人和环境之间牵线搭桥（Merrifield，1987）。BollingtoftandUlhoi（2005）认为孵化器提供了共同创业的环境，为新创企业提供了获取合法性、社会投入和心理支援的可能。Tommy（2001）研究了美国的孵化器对于在孵企业创新绩效的作用，发现得分最高的并不是孵化器提供的特定的服务或资源，而是孵化器所能带来的象征性价值。

上述研究显示，孵化器具有多重生产关系，是围绕产业孵化的合作平台。其信用强化和背书功能、关系连结功能、组织创新功能已经成为重中之重，目的只有一个，帮助中小企业撬动资源。Rice（2002）的共同生产模型指出在孵企业与孵化器是一种由孵化器扮演生产者，在孵企业扮演消费者相互依赖的“共生关系”，将生产与消费的关系扩展为能量循环网络。孵化器对于在孵企业有三种影响方式：咨询、环境干预、网络支持。孵化器无法直接向在孵企业提供的创业所需的全部资源，可以通过外部建立起的网络获取。

既然是共同生产关系，所有职能最终表现为平台网络特征。平台位于各种合作网络的中枢，各参与者基于各自利益的契约组合关系，通过输出资源获取经济租金，远非目前孵化器的一纸租约这么简单。

1.2孵化器的网络平台特征

MichaelSchwartz（2010）以德国26家孵化器及150家在孵企业为对象，研究了孵化器内部网络和外部网络，证明了网络关系，尤其是非正式关系对于孵化器发展的重要作用。Oneal（2005）的实证研究结果显示，通过孵化网络提供的孵化服务是在孵企业成长的关键因素，孵化器和在孵企业作为两个互动的主体，其组织特性也是影响孵化成功的关键因素。

Todorovic&Meyer（2010）认为网络化可以解决四个问题：（1）提供新思维和新资源支持创业过程，（2）通过与名企（人）的合作获取信任和声誉，（3）共享知识和促进学习，（4）从同阶段的创业者处获得支持。Rice（2002）对欧美18个孵化器中在孵企业进行实证研究发现，业务合作网络是在孵企业的首要选择。孵化器本质上是一个网络平台，将初创企业和各种社会资源链接起来，网络（Networking）成为解释孵化器效应的理论视角之一。中佛罗里达大学孵化器是NBIA2004年度选出的优胜者，根据Oneal（2005）对该孵化器进行了案例分析。作者总结出孵化器的三个关键成功要素：将客户整合进更大的技术开发系统，促进入园企业之间、与孵化器管理者之间以及与外部顾问等广泛互动，提供与基金公司、大学资源、政府或社区经济开发机构、创业支持组织之间的沟通渠道。以上文献突出了合作网络的重要性，对于网络的组织形式和运行机制研究不足。Hansenetal（2000）认为，孵化器应该构造成网络结构，生成社会资本，才能创造价值，这为下一步的研究指出了方向。

1.3社会网络资本化与治理

科尔曼（1990）认为社会资本就是个人所拥有的社会结构资源，它们由构成社会结构的各个要素组成，并为社会结构内部的个人行动提供便利。社会资本的形式包括义务与期望、信息网络、规范和有效惩罚、权威关系（某些关系的控制权）、多功能社会组织（行会）、有意创造的组织（商会）等6种。社会资本是加强对资源的控制与防止可能的资源损失的一种手段（林南，1986）。

Adler & Kwon（2002）提出了社会关系转化为社会资本的三个必然要件，除了机会和能力之外，能动性是关键。社会资本的互动都包含目的性和能动性，能动性提供了行动的动力。台湾的实证研究显示，仅仅是网络嵌入不一定改进孵化绩效（Li&Chen，2009）。利益关系的安排是一个不可回避的基础性因素，这恰恰是当前绝大多数孵化器的短板。孵化器中社会资本的本质特征是互动，没有互动关系的资源在孵化网络中不是社会资本（Markmana，2005；林南，2001）。由于资源在社会网络中分布的不平等和存在位置差异，林南认为需要社会资本的动员，包括表达性互动和工具性互动（林南，2001），可以实现内部相似资源的共享或交换，获取异质性资源。林南提出了社会位置互动概念，认为与一个控制更多资源的行动者互动，意味着与一个拥有更多资源的社会位置的互动。等级制结构中的一个更高的社会位置，不仅控制和操纵更多的资源，而且对结构中的其他位置拥有更大的控制和更好的视野。

成员企业加入孵化器的初衷，除了要降低租金等成本外，更希望与孵化器这个更高位置的行动者互动，从而获得更多的资源和更好的视野。获取社会资本的两类行动都包含目的和能动因素，因为动机提供了行动的动力。因此，并不是社会关系的数量或结构，而是资本化率的高低决定着孵化器的绩效，决定孵化器社会关系资本化率的关键因素是治理结构。

孵化器是众多利益相关者的集合体.是一个典型的平台组织，对孵化器平台的治理应跳出单边治理或内部治理的模式，从利益相关者共同治理的角度，找到协调孵化过程中各利益相关者之间权力和利益分配的机制。

传统经济学将企业视为投入产出的函数，因此股东作为企业的投入者，也应当是企业唯一的所有者和剩余索取者，然而现代企业理论突破了企业为股东而经营的局限。Blair（1995）首先将员工、债权人界定为企业剩余索取者，而Freeman（1984）强调企业不断地平衡和整合多方关系和多重目标，追求的应当是企业各利益相关者的整体利益，而不是某些主体的利益。利益相关者理论正是现代企业理论的延伸和发展。企业的众多利益相关者并不是同质的，他们存在着多维度的差异，特别是资源差异，这也为企业带来除股东外更多样、稀缺的资源渠道（Mitchell and Wood，1997）。

资本与治理向来具有共生关系。仔细观察孵化器的社会资本节点，我们会发现，其与孵化器的利益相关者节点高度重合，这为后续研究打开了一扇门。

2、孵化矩阵的构建

前文忆述孵化器是一个合作创业网络中枢，蕴含着丰富的社会关系，其能否资本化成为可利用的社会资本直接影响孵化器平台的综合绩效。治理是激活Adler&Kwon（2002）所提出的社会关系转变为社会资本的三个元素（能力、动机和机会）的关键。治理理论从单边治理的一元、强制、垄断，走向多边治理的多元、民主和合作，参与者最终将形成一个自主的网络（Stoker，1998）。建立一套用于平衡和激励参与孵化过程各类利益相关者的共同治理机制，成为影响社会关系资本化这一过程的关键。基于以上内容，本文提出如下理论模型（图2）。

由于孵化器的社会关系不能自动资本化，需要一种利益机制来调动各利益相关者主体的积极性。因此，在该模型中共同治理为自变量，该自变量通过作用于社会网络资本化对孵化器综合绩效有间接影响。孵化器社会网络资本化为作为中间变量直接影响孵化器的综合绩效。孵化器绩效是该模型的因变量。

在这种状态下，共同治理行为是通过平台网络节点主体之间的交互治理实现的，可以是两两之间的契约，也可以是一组主体之间的契约，各种主体之间围绕交易高度自治。由此生成一个孵化器（或平台）治理的工作模型，即孵化矩阵（见图3）。

孵化矩阵是由网络节点主体交互治理形成的矩阵，矩阵的各个元素形成交互治理的契约关系。矩阵中的网络节点包括但不限于政府部门、孵化器股东、经理团队、员工、入园企业、科研机构、风险投资、行业协会、中介机构、社区等等。矩阵与孵化器的网络结构是一致的，体现了关键利益相关者共同治理关系，孵化器（或园区平台）不仅属于入园企业，也是各利益相关者共享的平台组织。这有利于从更真实广泛的角度研究孵化器的生态体系。

我们可以发现，除了平台基础治理以外，其他治理关系不是预先设计的，而是动态发展的自组织过程。当孵化器平台的中心组织者率先与各利益相关者形成合理约定时，共同治理更加充分。孵化器（或平台）的治理是一个多层次的、契约化的、网络状的治理结构。由于社会资本的异质性，借助平台背书或相互背书，通过工具性互动可能实现弱连接，获得平时难以达到的位置资源。同时，对于创业者来说，孵化器就是他们要寻找的杠杆性资源（Praharad，1990）。

孵化矩阵是一个开放的系统，是利益相关者按照一定的产业关系组织起来的，交互治理或共同治理的网络结构。孵化矩阵摆脱了特定的空间约束，它可以只是个产业园区或产业集群，它也可以是个虚拟孵化器。其关键利益相关者存在动态优化的过程，随着平台发展和入园企业的需要而调整。这个矩阵的对角线就是由孵化器（或平台）组织起来的关键利益相关者中心轴，该轴是一条资源杠杆，是平台联盟主体轴。在缺少有效的共同治理基础的情况下，各网络节点是散落的，不能连接成一条杠杆。借助平台组织者的中心组织，和密切的共同治理基础，这些网络节点具备自我治理、自我激励的条件，有可能连接成为一条强有力的资源杠杆。治理水平越高，资源杠杆的撬动力越强，对新创企业、风险投资，以及其他利益相关者的吸引力越大。各利益相关者只要沿着该轴游动，就形成不同的合作网络，就可以利用平台资源。同时，各平台参与者都可能是这个轴上的弱连接点（结构洞），通过双方利益机制安排和工具性互动，可以获得异质性资源。

3、结论与理论探讨

孵化器平台上聚集了众多的利益相关者，只有充分调动各利益主体的积极性和能动性，才可能促进彼此的合作，也才能是潜伏在网络中的资源资本化。按照组织理论的成果，矩阵式组织结构恰恰适合主体多元的组织。本文提出的孵化矩阵概念模型是基于文献研究的理论探索结果，为孵化运营模式的创新提供了一条路径。事实上，孵化矩阵在每一个孵化器或园区平台都隐性存在，要让该矩阵显性化并发挥作用，还需要系统的治理基础。

（1）科学的顶层设计：去行政化，企业化运作，首先要调动孵化器核心团队的积极性和能动性。适度的股权分散、充分授权、允许持股孵化等制度化设计要到位。

（2）充分发挥企业家的中心作用：企业家是承担不确定性和组织资源的核心，在孵化器或园区平台上扮演发起者和中心组织者角色。

（3）动态组合关键利益相关者：实践中关键利益相关者的界定并非理论上那么复杂，真正的难点在于利益相关者合作关系的定义，这有利于组织中心能量轴上的各种合作和互动。同时，根据市场的变化和各利益相关者的需要动态组合平台参与者。

（4）平台民主：放弃单边思维，构建民主合作的文化氛围，吸引平台参与者广泛参与，是孵化器或园区平台组织的重心，这和传统思维有较大差异。通过理事会等形式对孵化矩阵中心轴的组织，调动参与者积极性，充分发挥资源杠杆的作用。

参考文献

[1]Allen， D.N.， McCluskey， R.，1990.Structure， policy， services， and performance in the business incubator industry. [J].Entrepreneurship Theory and Practice， Winter 1990， 61-77.

[2]Bergek， A.， Norrman， C.， 2008. Incubator best practice： a framework. [J].Technovation 28 （1-2）， 20-28.

[3]Bruneel， J.，Ratinho，T.，Clarysse，B.，Groen，A.，2012.The evolution of business incubators： comparing demand and supply of business incubation services across different incubator generations.[J].Technovation 31，110-121.

[4]Chan， K.F.， Lau， T.， 2005. Assessing technology incubator programs in the science park： the good， the bad and the ugly. [J].Technovation 25 （10）， 1215-1228.

[5]Hackett， S.M.， Dilts， D.M.， 2004. A systematic review of business incubation literature. [J].Journal of Technology Transfer 29 （1）， 55-82.

[6]McAdam， M.， McAdam， R.， 2006. The networked incubator： the role and operation of entrepreneurial networking with the university science park incubator [J].. International Journal of Entrepreneurship and Innovation 7 （2）， 87-97.

[7] O.Neal， T. Evolving a successful university-based incubator： Lessons learned from the UCF technology incubator[J]. Engineering Management Journal， 2005， 17（3）： 11-25.

[8] Paul S. Adler Seok-Woo Kwon，Social capital： prospects for a new concept，Academy oi Management Beview [J].，2002， Vol. 27， No. 1，17-40. [10]

加权共协矩阵聚类融合研究篇3

融合方法将不同算法或者同一算法下使用不同参数得到的结果进行合并,从而得到比单一算法更为优越的结果。在分类算法和回归模型中,融合方法的使用已经比较成熟。但在聚类分析领域,聚类融合方法的研究在近几年才开始出现[4]。

当前的聚类融合算法大多不考虑进行融合的成员的质量,当聚类成员存在聚类质量差或者有噪声干扰时,融合结果将受到影响。针对此种情况,本文根据簇内方差对生成的H个聚类成员划分成五类,再根据划分结果确定成员的权重,然后使用基于加权共协矩阵的方法得到更好的融合结果。

1 聚类融合方法概述

聚类融合(Clustering Ensemble/Clustering Combination)的概念是A.Strehl[5]提出:将多个对一组对象进行划分的不同结果进行合并,而不使用对象原有的特征。它的具体表达如下[4]:

假设有n个数据点undefined,对数据集X用H次聚类算法得到H个聚类结果,undefined(以下称之为聚类成员),其中πk(k=1,2,3,…,H)为对第k次算法得到的聚类结果。设计一种共识函数Γ,对这H个聚类成员的聚类结果进行合并,得到一个最终的聚类结果π′,如图1所示

在聚类融合中,先要产生对数据集X的h个聚类成员,然后对这h个聚类成员的聚类结果进行合并。目前研究主要集中在两个方面:

一是如何产生有效的聚类成员;

二是如何设计共识函数对聚类成员进行融合。

2 加权共协矩阵聚类融合算法

2.1 基于共协矩阵的算法

基于共协矩阵(co-association matrix based method)方法的基本思想是把每一次聚类的结果看成是数据重新组织的新模式(pattern),在这个基础之上,数据对象之间的近似度可以由新的特征模式之间的近似度代替。Co-association矩阵用于衡量数据点之间的相似度,其中第i个数据点与第j个数据点之间的相似度为:

undefined

用数学方式表达为:

undefined

其中u、v为任意两个数据点,Ci(u)和Ci(v)表示点u、v在聚类成员Ci中所属的类别。

基于共协矩阵聚类融合算法的空间复杂度为O(n2),时间复杂度为O(kn2),其中n表示数据个数,k表示运行k-means算法的次数。算法的优点是无需对标签向量进行重新标定。缺点是存储空间和计算时间,可以看出算法对于海量数据是不太适合的。

此外,可以看出,基于共协矩阵的融合算法并没有考虑到聚类成员的质量和噪声的影响,因此,本文下面提出了权重的设计,对每个聚类成员赋予权重。

2.2 权重的设计

当前的聚类融合算法大多不考虑聚类成员的质量,而对所有的聚类成员同等看待。本文通过对聚类成员进行简单的有效性评价,进而设计每个成员的权重。

一般来说,评价聚类和选择最优聚类模式的原则有两个:紧密度,即簇中的成员必须尽可能地相互靠近;分离度,簇与簇之间的距离尽可能地远。大多数评价聚类质量的方法都是基于这两个原则。如果处理的数据集结构未知,聚类结果的评价就只能依赖数据集自身的特征和量值。在这种情况下,聚类分析的度量追求两个目标:紧密度和分离度。此外,还要考虑单个簇的大小,以达到均衡较好的解[6]。

本文应用簇内方差对聚类成员进行评价设计权重。

簇内方差即误差平方和最小方差标准,寻求簇内距离最小化。K均值算法的局部最优度量首先基于此概念,定义为[5]:

undefined

C是所有的簇,μk是簇Ck的质心,δ(i,μk)是距离函数,计算数据项i与其对应的簇的中心的距离。簇内方差最小值取决于数据和簇的数目,最优划分得到的簇期望其值尽可能接近零。

按照公式(3)求得各个聚类成员的簇内方差undefined,其中Vi为第i个聚类成员的簇内方差。根据簇内方差的性质,V值越小说明聚类成员的质量越好,因此我们需要对其赋予较高的权重,加大其对融合结果的贡献。具体算法如下:

对得到的簇内方差进行简单聚类成五类,按照值从小到大分别赋予权值w={5,4,3,2,1}。

2.3 算法描述

算法流程如下所示:

第1步选用某种聚类算法生产H个聚类成员;

第2步对每个聚类成员ck,k=1,2,…,H,计算它的簇内方差Vk;

第3步把簇内方差按照某种聚类方法将聚类成员分成五类,按照簇内方差从小到大的顺序分别赋予每类里的聚类成员权值undefined,得到每个聚类成员的权重wk;

第4步根据计算的权值生成加权共协矩阵;

第5步使用基于共协矩阵的融合算法得到融合结果。

2.4 与基于共协矩阵的算法的比较

本文提出的算法与现有的基于共协矩阵的聚类融合算法相比,加入了权重的设计,重视到了聚类成员的质量,可以得到更好的融合结果。本文提出的权重的设计方法是根据计算簇内方差对聚类成员进行评价,根据其质量进行划分再赋予相应的权重。

当前的聚类融合算法大多不考虑进行融合的成员的质量,当聚类成员存在聚类质量差或者有噪声干扰时,融合结果将受到影响。权重的设计考虑到了融合成员的质量,可以减少当聚类质量差或者噪声干扰对融合结果的影响。

3 结束语

聚类融合算法对多个聚类结果进行融合,从而得到比单一算法更为优越的聚类结果。然而当存在聚类成员质量和噪声是会产生不良的融合结果。本文对现有的基于共协矩阵的聚类融合算法进行了尝试性的改进,用簇内方差对各个聚类成员进行质量的简单评价,并据此对其赋予权重,生成加权共协矩阵,进而得到融合结果。本文提出的改进算法能较好的处理聚类成员间的质量差异,并能有效的消除噪声对融合的影响,能够得到更好的融合结果。本文主要针对共协矩阵进行了加权设计,此种加权方法能扩展到其他融合算法,但是其最优性有待于进一步研究。

参考文献

[1]PANG-NI NG TAN,MICHAEL STEI NBACH,VIPI N KU-MAR.数据挖掘导论[M].范明,范红建,等,译.北京:人民邮电出版社,2005.

[2]JAI N A K,FLYNN P J.Data Clustering,A Review[J].ACM Computing Surveys,1999,31(3):264-323.

[3]邵良杉,王鹤.蚁群组合算法在证券行业客户细分中的应用[J].计算机系统应用,2008(3):84-86.

[4]阳琳赟,王文渊.聚类融合方法综述[J].计算机应用研究,2005(12):8-14.

[5]STREHL A,GHOSHJ.Cluster ensembles a knowledge reuse frame work for combining multiple partitions[J].Journal of Machine Learning Research,2003,3(3):583-617.

矩阵加权模式篇4

集成学习通过集成多个不同的学习器来解决同一个问题,提高系统的学习能力,被广泛用于机器学习、神经网络、统计学等领域[2]。近年来,集成技术用于聚类分析,提高了聚类效果。聚类集成(Clustering Ensemble)是将不同算法得到的结果进行合并,得到比单一算法更为优越的结果。聚类集成的目的是集成来自多个划分的结果以得到更高质量和鲁棒性的聚类结果。很多研究已经证明聚类集成对任意形状和规模的数据聚类时,其性能优于单一的聚类算法。

凌光等人提出了一种基于 co-occurrence 相似度的聚类集成算法(CSCE)[3]。文中沿用CSCE算法的思想,并提出一种基于加权co-occurrence矩阵的聚类集成算法(WCSCE)。该方法首先计算出聚类成员基于属性值的co-occurrence矩阵,然后根据聚类成员对集成的重要性赋予其权重生成加权co-occurrence矩阵。由于对聚类成员进行加权能更好地突出对集成贡献大的成员,因此通过该算法可以得到一个准确率较高的聚类结果。

1 聚类集成问题描述

文献[4]给出了聚类集成的具体定义:将多个对一组对象进行划分的不同结果进行集成,而不使用对象原有的特征。聚类集成过程为:假设数据集X有n个数据对象,X={x1,x2,…,xn},首先对数据集X使用N次聚类算法,得到N个聚类,P={P1,P2,…,PN},其中Pi,i=1,2,3,…,N为第i次聚类算法得到的聚类结果。然后一致性函数Г对P中的聚类结果进行集成得到一个新的数据划分P′,如图1所示。

聚类集成的研究主要集中在以下两方面:如何产生有效的聚类成员,不同的聚类成员之间需要有什么样的差异度;如何设计融合函数以便对聚类成员进行合并,包括对聚类成员结果标志的匹配等。产生个体成员的方法主要包括:(1)基于特征的聚类。(2)基于不同算法的聚类。(3)基于随机参数的聚类:例如使用k-means时,随机初始化参数K,或者产生L个随机的映射,将这些高维数据映射到低维空间中,然后对每个映射运行k-means。(4)基于随机抽样技术的聚类:例如放回或无放回抽样技术。融合方法主要有:(1)直接方法。如多数投票法、基于特征的方法、超曲线图方法。(2)成对方法。利用两个对象间的关系得到一个划分的协矩阵,采用某种聚类算法集成所有划分的协矩阵得到最后的划分。

2 加权co-occurrence矩阵聚类集成算法

2.1 基于co-occurrence 矩阵的算法

利用co-occurrence相似度在计算某个初始聚类结果中数据对象间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果间的相互影响和联系。在聚类集成时,为体现初始聚类结果间的相互影响和联系,先要根据所有的初始聚类结果来构造一个信息表。其中,进行聚类的数据对象用U={u1,u2,…,uN}表示,所有L次初始聚类结果表示为属性A={a1,a2,…,aL},那么属性值 vij表示对象i在第j次初始聚类结果中被划分到的簇的标识。

为聚类集成,需要得到一个聚类结果中不同数据对象之间关于其他聚类结果的co-occurrence相似度。根据初始聚类结果得到的信息表,则第s次聚类中对象(up,uq)关于第i次聚类结果的相似度为

$δ_{s | i} (u_{p}, u_{q}) = \sum_{ω \in φ s \to i (f_{s} (u_{p})) \cap φ s \to i (f_{s} (u_{q}))} \min {Ρ_{i | s} ({ω | f_{s} (u_{p})}), Ρ_{i | s} ({ω | f_{s} (u_{q})})} (1)$

其中,p,q=1,…,N;i,s=1,…,L;fs(up)代表在第s次初始聚类结果中对象up对应簇的标识。这只考虑了其他一次聚类结果,综合其他所有聚类结果,得到第s次聚类下对象(up,uq)的 co-occurrence 相似度为

$δ_{s} (u_{p}, u_{q}) = \frac{1}{L - 1} \sum_{i = 1, i \neq s}^{Ν} δ_{s | i} (u_{p}, u_{q})$ (2)

根据上述分析可得第s次聚类结果中不同数据对象之间关于其他聚类结果的 co-occurrence 矩阵M(s)={δ $_{p q}^{(s)}$ }={δs(up,uq)}N×N。

基于co-occurrence矩阵的聚类集成算法过程:首先对聚类对象集合U进行L次初始聚类,每次聚类为k簇。根据所有的初始聚类结果构造一个信息表。然后计算初始聚类结果s中对象(up,uq)在另一个聚类结果i,i=1,2,…,L;i≠s影响下的相似度 $δ_{s | i} (u_{p}, u_{q})$ 。对初始聚类结果s,综合所有其他初始聚类结果的影响,得到co-occurrence相似度矩阵M(s)。最后对M(s),s=1,2,…,L求平均即可得到一致相似度矩阵 $Μ = \frac{1}{L} (Μ^{(1)} + Μ^{(2)} + \dots + Μ^{(L)})$ 。M就是一个关于聚类对象集合U中所有对象的相似度矩阵,然后可以利用任意基于相似度矩阵的聚类算法得到最终的聚类集成结果。

2.2 权重计算

当前的聚类集成算法大多不考虑聚类成员的质量,而对所有的聚类成员同等看待。文中通过对聚类成员进行有效性评价,进而设计每个成员的权重。通过加权的方式来改变各个聚类成员对集成结果的作用,加强有利因素影响,减少不利因素的干扰。文中提到的算法是基于聚类成员的质量度量和差异度度量的。

聚类分析的目标是最大化簇内相似性和最小化簇间相似性。采用聚类结果的分布情况来评价簇内的同一性和簇间的分离性与这个目标相符。把簇密集性和簇邻近性组合成为聚类综合质量来评价一个聚类分析的综合质量Ocq(ξ)

Ocq(ξ)=1-[ξ×Cmp+(1-ξ)×Sep] (3)

其中,Cmp是簇密集性度量[6];Sep是邻近性度量[6];ξ∈[0,1]是一个权值,用来平衡簇密集性与簇邻近性。当ξ=0.5表示两种评价方式有相等的权值。文中取ξ=0.5,赋予两种评价方式相等的权值。可以看出,聚类综合质量越大越好,说明聚类分析越接近于目标。

聚类密集性是一种有关聚类内方差的测量,方差越小说明数据集的同一性越高。给定一个数据集X,其簇内方差被定义为

$var (x) = \sqrt{\frac{1}{Ν} \sum_{i = 1}^{Ν} d^{2} (x_{i}, \bar{x})}$ (4)

其中,d(xi,x)是矢量xi与x之间的距离;N是X的总个数;x是X的均值 $\bar{x} = \frac{1}{Ν} \sum_{i = 1}^{Ν} x_{i}$ 。

对聚类输出结果c1,c2,…,cC,聚类密集性被定义为

$C m p = \frac{1}{C} \sum_{i = 1}^{C} \frac{var (c_{)}}{var (X)}$ (5)

其中,C为聚类个数,var(ci)是簇ci的方差。因为每个聚类内的成员应尽可能地接近,所以聚类密集性越小越好。当簇密集性最小值为 0 时,则表示每个数据对象被分为单独的簇。

聚类分离性被定义为

$S e p = \frac{1}{C (C - 1)} \sum_{i = 1}^{C} \sum_{j = 1, j \neq 1}^{C} \exp (\frac{d^{2} (x_{c_{1}}, x_{c_{j}}}{2 σ^{2})})$ (6)

其中,σ为高斯常数,一般情况下为简化计算,取 2σ2=1。xci是聚类ci的中心,d(xci,xcj)为聚类ci中心与cj中心之间的距离。因为各聚类应有效地分开,且聚类分离性反比于聚类间距离,所以聚类邻近性越小越好。簇邻近性有最小值 0,表示所有数据对象被聚为一个簇。

聚类集成算法首先是通过多次聚类算法得到多个聚类成员,文中对聚类成员进行加权的方法分为两个步骤,首先是对每个聚类成员进行综合质量评估,然后分析成员两两之间的 Jaccard差异度[5],最后根据这些信息得出权重,主要过程为:

(1)对L个初始聚类成员∏={π1,π2,π3,…,πL},评估每个聚类成员的聚类综合质量Ocq(ξ)。通过比较去掉一个质量最差的成员,即Ocq(ξ)值最小的一个成员。

(2)对剩下L-1个聚类成员计算两两之间的Jaccard系数,形成差异度矩阵J。

(3)将L-1个聚类成员看成数据对象,聚类成员的差异度矩阵J看成距离矩阵。但是与距离相反,Jaccard 系数越大表示越相似,所以需要对差异度矩阵进行转换d=1-J。

(4)对生成的聚类成员之间的距离矩阵d应用聚类准确度高的聚类算法如层次法,划分得到k个簇,每个聚类成员都被划分到这k个簇中。

(5)假设πi 被划分为第h个簇中,则聚类成员πi的权重 $w_{i} = \frac{m_{h}}{L - 1}$ 。

其中,mh为第h个簇中聚类成员的数量。最后生成聚类成员的权重W={w1,w2,…,wL-1}。

2.3 算法过程描述

(1)具有n个数据对象的数据集X={x1,x2,…,xn},对数据集X执行L次k-means算法得到L个聚类成员的集合∏,∏={π1,π2,…,πL}。

(2)利用上述方法计算出一致co-occurrence 相似度矩阵M。

(3)比较L个聚类结果∏的聚类综合质量Ocq(ξ)值,去掉一个质量最差的,即Ocq(0.5)值最小的。

(4)对剩下的H-1个聚类成员根据上述提到的方法进行权重计算,得到它们的权重W,W={w1,w2,…,wH-1}。

(5)根据计算的权值生成加权co-occurrence相似度矩阵。

(6)利用任意基于相似度矩阵的聚类算法可得到最终的聚类集成结果。文中应用凝聚层次average-link方法来进行聚类集成。

3 实验结果与分析

使用3组数据集作为实验:第一组是按照模型生成的数据,也可以称为人工模拟数据。第二组选用UCI 的数据,从UCI机器学习库http://www.ics.uci.edu/mlearn/MLRepository.html中下载获取的Iris数据集和Wine数据集。第三组是两个Web数据集由雅虎网站(英文)上采用RSS方式下载的新闻经预处理后得到,如表1所示。

聚类质量的评测有外部和内部质量评测两种方式。外部质量评测通过将聚类结果与已分好类别的数据集比较来衡量聚类算法的优劣,主要包括F-measure、纯度和熵评估。文中采用F-measure评测。当数据有分类信息时,可认为该分类信息在一定程度上表达了数据的一些内部分布特性。如果该分类信息没有被聚类过程所利用,则可以用以评价聚类效果。使用常用的F-measure准则[7]对结果进行评价,F-measure值在0～1之间,越接近1,表明融合结果质量越好。

分别选用单一k-means算法、基于co-association的average-link聚类集成算法、基于CSCE的average-link聚类集成算法以及文中提出的基于WCSCE的average-link聚类集成算法进行实验。

由表2的实验结果可知,3种聚类集成方法的结果普遍优于单次融合的结果。CSCE和基于co-association的average-link 聚类集成的正确率高低会偶有交替,但是 CSCE 聚类集成的效果总体优于基于co-association的average-link方法的聚类集成。而文中提出的加权集成算法的集成结果普遍优于不加权集成的集成结果。

4 结束语

聚类集成算法由于其实用性、鲁棒性和较好的性能成为数据挖掘的一个研究热点。文中提出了一种基于权重设计的聚类集成算法,并验证了算法的可行性和优越性。实验结果表明,文中提出的权重设计能够很好地改善聚类集成算法中不考虑成员质量而对融合结果造成的不良影响,通过加权使得集成算法得到更优的结果。与现有的基于co-occurrence矩阵的聚类集成算法相比,加入了权重的设计,重视到了聚类成员的质量,可以得到更好的集成结果。

参考文献

[1]HAN Jiawei,KAMBER M.Data mining concepts and techniques[M].范明,孟小峰,译.北京:机械工业出版社,2001.

[2]唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502.

[3]凌光,王明春,冯嘉毅.基于co-occurrence相似度的聚类集成方法[J].计算机应用,2011,31(2):441-445.

[4]STREHL A,GHOSH J.Cluster ensembles:a knowledge reuseframework for combining multiple partitions[C].In:ProcConference on Artificial Intelligence,2003:583-617.

[5]KUNCHEVA L I,HADJITODOROV S T.Using diversity incluster ensembles[C].Proceedings of the IEEE Internation-al Conference on Systems,Man and Cybernetics,2004:1214-1219.

[6]杨燕,靳蕃,KAMEL M.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1638.

矩阵加权模式篇5

近年来,信息过量问题越来越受关注,如何从海量信息中准确高效地搜索到有价值的信息成为信息检索领域的研究热点。传统信息检索算法主要基于布尔查询和关键字查询,存在信息过载、信息迷向和不匹配等缺陷。将基于关联规则的数据挖掘技术应用于信息检索倍受关注,可以从根本上提高和优化信息检索性能。

文献[1]首次提出了一种基于关联规则的个性化信息检索模型,该模型主要通过用户访问日志挖掘出个性化信息之间的关联规则,帮助用户优化查询请求并提供具有个性化的搜索结果。文献[2]提出了一种基于正负关联规则的信息检索模型,采用正负关联规则的挖掘算法、两次检索技术和查询扩展优化等核心技术,达到区分和删除虚假扩展词的目的,从而得到比原查询更优的扩展查询结果。文献[3]融合了词语抽取、负关联规则挖掘算法和查询扩展三大关键技术,提出了基于词语抽取和负关联规则挖掘的信息检索算法,很大程度上改善了检索性能。文献[4]将负关联规则挖掘技术、频繁项集挖掘技术和查询优化扩展等技术进行融合,并且应用于信息检索,提出了基于频繁项集的挖掘算法和负关联规则挖掘的信息检索系统模型,实验结果验证了算法的有效性。文献[5]提出了一种新的基于完全加权关联规则挖掘与查询扩展技术的信息检索系统模型,该模型利用传统的向量空间算法进行初检,在第二次检索中则采用上述检索模型算法,显著提高了信息检索性能,实验结果表明结果是有效的。

本文在深入研究矩阵加权(完全加权)关联规则挖掘的基础上,提出基于项权值变化的矩阵加权关联规则挖掘算法,并将其应用于信息检索,采用一种新的模式支持度计算方法和项集剪枝技术,这样既避免出现无效的关联模式,又提高了挖掘效率。为测试该信息检索模型的检索性能,以1080篇论文作为原始测试文档集进行实验,实验结果表明本文算法能有效提高检索性能(MAP)。

1基于项权值变化的矩阵加权关联规则挖掘和查询扩展技术的信息检索模型

1.1主要设计思想

该检索模型基本思想为:整个检索过程中进行两次检索,第一次检索的主要目的是提取初检的前N篇排序文档作为初检局部文档集,主要利用搜索引擎对原查询进行初检和对局部文档集进行预处理;第二次检索采用上述关联规则挖掘和查询扩展技术优化原查询,得到扩展优化后的新查询,将最终检索结果返给用户。

1.2模型图及其模块功能

根据该模型设计思想,提出信息检索模型结构,如图1所示。该模型包括4个数据库和6个主要功能模块[5]。

1.3基于项权值变化的矩阵加权关联规则挖掘的关键技术

1.3.1矩阵加权项集剪枝策略

矩阵加权数据模型的固有特点是其项目权值随事务记录变化而变化,项目权值是项集支持度计算的主要依据。矩阵加权关联规则挖掘算法中频繁项集的任意非空子集不一定都是频繁的,不适用Apriori算法的剪枝性质。

经过对矩阵加权数据的深入分析研究,给出如下矩阵加权项集剪枝策略:生成矩阵加权候选k-项集CK前,将那些权值wK-1小于其包含 (K-1)-项集的K-项集权值频繁期望IWFE(CK-1,K)的候选 (K-1)-项集CK-1剪枝,候选 (K-1)-项集CK-1的后续K-项集一定是非频繁的;生成矩阵加权候选K-项集CK后,考察每个CK,只要存在某个 (K-1)-子集的权值为0或者小于其包含 (K1)-子集的K-项集权值频繁期望IWFE(CK-1,K),该候选K-项集CK一定是非频繁的,可以剪枝;最后,将权值为0的候选K-项集CK剪枝。

1.3.2挖掘算法

基于项权值变化的矩阵加权关联规则挖掘的基本思想为:

(1)对矩阵加权数据进行预处理,构建基于向量空间模型的矩阵加权数据库和特征词项目库。

(2)从项目库中挖掘矩阵加权频繁1-项集,计算出矩阵加权1-项集权值频繁期望IWFE(C1,2)。

(3)从K-项集 (K≥2)起,候选 (K-1)-项集CK-1进行Apriori连接生成候选K-项集CK,根据上述矩阵加权项集剪枝策略,从候选K-项集CK挖掘出矩阵加权频繁K-项集LK,直到候选K-项集CK为空为止。

(4)从频繁项集中挖掘矩阵加权强关联规则。

2实验设计及结果分析

编写实验源程序,以1080篇论文作为原始测试文档集,设计10个实际查询 (Q1,Q2,...,Q10)作为查询集。采用MAP(MeanofAveragePrecision)为主要评测指标,将本文信息检索算法(简写为A算法)、基于完全加权的关联规则算法(简写为B算法)、基于局部上下文分析的扩展查询技术(简写为C算法)和传统的向量空间模型算法(简写为D算法)进行检索性能比较,分别统计4种算法中10个查询的平均准确率,实验结果如表1所示。

可以看出,本文算法准确率有显著提高,该模型能有效地优化扩充原查询,检索出更加满意的文档。

3结语

本文在信息检索系统中首次将项权值变化的矩阵加权关联规则挖掘技术应用于查询扩展,将二者融合后应用于信息检索系统,提出基于项权值变化的矩阵加权关联规则挖掘的信息检索模型及算法,取得了非常显著的效果。该模型采用两次检索机制,先对全部文档集进行初检,采用基于项权值变化的矩阵加权关联规则挖掘算法对提取的局部初检文档进行关联挖掘分析,经查询优化扩展后,组成更佳的新查询来弥补原查询信息的不足,并将最终检索结果返回给用户。实验结果证明了该模型的有效性。

摘要：将项权值变化的矩阵加权关联规则挖掘技术应用于信息检索,提出一种基于项权值变化的矩阵加权关联规则挖掘的信息检索模型及其算法,采用新的剪枝策略和模式支持度计算方法。实验结果表明,新模型检索性能得到改善和提高。

关键词：文本信息检索,矩阵加权,查询扩展,关联规则

参考文献

[1]陈小华,赵捧未.基于关联规则的个性化信息检索系统研究[J].情报科学,2006,24(6):915-918.

[2]黄名选,朱豪安,冯平.基于正负关联规则融合的信息检索模型[J].信息系统,2011,34(7),116-119.

[3]黄名选,冯平,谢统义.基于词语抽取与负关联规则挖掘的信息检索[J].计算机技术与发展,2012,22(5),157-160.

[4]黄名选,余如.基于负关联规则与频繁项集挖掘的信息检索系统[J].知识组织与知识管理,2011,22(8),91-96.

[5]黄名选,严小卫,张师超.基于完全加权关联规则挖掘和查询扩展的信息检索[J].计算机应用与软件,2009,26(8):26-28.

【矩阵加权模式】推荐阅读：

加权矩阵聚类08-11

关联加权05-28

模糊加权06-10