多维识别(精选3篇)
多维识别 篇1
一、引言
创业研究的理论文献可追溯至Knight (1921) 等学者的经典研究 (Stevenson&Jarillo, 1990) , 迄今已经历了从经济学理论到心理特质、社会文化观, 再到创业机会观与社会资本观的演变过程。过去的研究主要集中在对创业者个性特征的研究上, 包括成就需要、承担风险的意愿、创造力、自由、自信、决断力以及内部控制幻想等, 这些都以机会已被识别为假设。近些年, 研究人员意识到创业机会识别的研究是创业研究的关键问题之一。各国学者从经济学、社会学、管理学、心理学等角度对创业机会的识别进行了深入探讨, 试图归纳影响创业机会识别的各主要因素并构建创业机会识别的一般模型, 但至今仍未能全面解释机会识别过程。深入研究创业机会识别的影响因素及各因素之间的关系是创业管理有关的热点之一。本文拟在对创业研究总体回顾的基础上, 对创业机会识别的代表性理论模型做重点总结并进行一定的修正与拓展。
二、创业研究总体回顾
自20世纪80年代以来, 创业研究受到强烈关注, 产生了一大批较具影响力的研究成果, 总体上呈以下特点。
研究者从各自的研究角度得出结论, 仍缺少公认的理论基础。笔者通过对1982—2006年创业研究成果进行整理, 发现相关的期刊论文从1982年的299篇增加到2006年的1700多篇。由于创业活动的复杂性和特殊性, 各研究者一般基于各自的学科背景做出不同假设, 采用不同方式独自开展研究。
同时, 创业机会识别已被公认为是创业研究的关键领域之一。笔者通过对ABI/INFORM Global-Pro Quest数据库1988—2009年相关文献及创业研究主流期刊《Journal of business venturing》和《Entrepreneurship Theory andPractice》于1996—2009年间的数据库进行检索, 获得相关文献433篇, 其中, 关于创业机会识别的研究有244篇, 占总数的56%以上。比如, Shane与Venkataraman (2000) 指出, 创业机会识别与开发是创业研究领域的核心。Busenitz (2003) 发现1985—1999年间的相关文献研究主要集中在机会、创业者、组织模式、环境四个领域, 未来创业研究需要在机会及相关领域进行拓展, 研究的关键领域应该关注个体差异如何影响创业机会识别过程、如何整合资源来开发机会等方面。Sarason (2006) 等指出, 以往的创业研究更多关注创业者的个性特征或机会的自然属性, 忽略了创业过程是个人与机会的结合。
不少研究人员对机会识别的一些影响要素进行了理论和实证研究, 如弱关系 (Granovetter, 1974) 、创造力 (Hill et al., 1998) 、警觉 (Gaglio, 1992) 、认知结构 (Krueger, 2000) 、个体知识 (Ardichvili et al., 2003) 、意图 (SHEPHERD D., 2004) 、认知机制 (Baron, 2006) 等。其中, 一些最为重要的实证工作有:机会与知识的关系 (Shane, 2000) 、机会与人力资本 (Davidsson and Honig, 2003) 、机会与学习的关系 (Dimov, 2003) 等。这些因素有助于我们增加创业机会识别的知识, 但仍不能提供对识别过程的全方位理解, 需要进一步构建出一般分析模型来深入考察个性、先前知识、创业警觉性、社会网络等因素对创业机会识别的影响。
关于创业机会与机会识别内涵, 部分学者是从机会的产出角度出发, 另外一些学者则是从机会的来源这一角度入手。比如, Kirzner (1973) 认为, 机会代表着一种通过资源整合、满足市场需求以实现市场价值的可能性。Bygrave (1991) 等对于机会识别的定义是, “感受机会并创造组织来开发机会”。Herron Sapienza (1992) 则将创业机会定义为作为创业者进行积极搜索的结果。Hills与lumpkin (1997) 认为, “机会识别包含了随时间而发生的几个步骤, 而不是一次性的存在”等等。Shane&Venkataraman (2000) 认为创业机会实际上是新的产品或服务、原材料, 甚至是一种新的组织方式, 能够以高于生产成本的价格被引进和出售。Ardichvili, et al. (2003) 认为, 从获取预期消费者的角度来看, 机会事实上意味着创业者探寻到的潜在价值。Sarasvathy等人 (2008) 提议, 为了深入地全方位掌握创业机会的概念, 需要超越单纯的从主观或者客观方面去理解。虽然创业机会与机会识别的定义不尽相同, 但有一点是一致的:无论机会是被发现的或是创造的, 都需要创业者自身在专业知识、工作经验、社会关系网络等方面具备一定的基础, 否则创业者个体无法识别创业机会。为了全面解释机会识别过程, 加深对创业机会识别过程的理解, 对于知识、认知、网络、学习等影响因素的拓展及其相互关系与深入研究极为必要。
三、创业机会识别模型
创业机会识别是一个复杂过程, 相关研究正从对创业者个性差异的关注转到对整合模型的关注上, 因为机会识别模型包括创业者或企业的特定行为以及其他不同事项, 体现的是人与环境的交互结果。已有不少学者在现有研究的基础上构建出创业机会识别的分析模型, 试图将社会网络、先前知识、创造性和以自我效能为基础的乐观主义整合起来。
1、代表性机会识别分析模型
Kirzner (1979) 通过创业警觉性来研究机会识别, 所构建的模型中, 洞察力帮助个体发现创意中的商业价值, 通过一定的认知过程来提供对形势的精确评估, 创业者突破现有手段—目的分析框架, 直到机会被识别。
Long与Mc Mullan (1984) 提出了一个机会识别的四阶段模型, 包括:准备、孵化、知晓、评估。其中, 准备阶段是个人、社会与技术力量混合的结果, 导致了对创业机会的感知;孵化阶段代表了创业可能是也可能不是创业机会;到了知晓阶段, 对创意进行提炼与评估, 以确定是否为创业机会;之后即为机会的评估阶段。总体上看, 该模型由于难以解释寻找机会的动机与成为创业者动机之间的区别而受到了批评。此外, 模型将创造力视为框架的一部分, 但并没有展示创造力产生了何种态度。第三, 这一模型并未表明所识别机会的类型, 或者创业者为何选择一个机会而不是另外一个。
Kaish与Gilad (1991) 验证了三个源自Kirzner (1979) 理论的假设, 通过对51位创业者与来自大公司的36位高管人员进行比较后发现, 创业者比高管花更多的个人时间用来搜寻信息, 并且特别关注新机会的潜在风险。这一发现增强了创业者是机会学习者的观点。
Christensen (1994) 开发的模型强调了机会识别过程中可行性与意愿的重要性, 模型关注个人可控因素如战略思维与管理行为等, 同时也考虑了环境因素。Timmons (1994) 所开发的模型认为, 只有当创业者、机会识别以及所需资源等要素协调一致时创业才能导致成功。Bhave (1994) 的模型对27家样本企业进行了访谈, 样本公司涉及四类行业:贸易分销、金融与管理咨询、计算机服务、设计与制造技术。除了描述内外部刺激的不同特征外, 模型还注意到商业概念识别后创业者经常进行的过滤与提炼。Bhave (1994) 认为, 商业概念是已经过提炼的机会。该模型还表明, 机会识别并不是一种线性过程, 相反, 当选中一个正式商业概念前, 对不同机会进行检查是一种混沌状态。机会选定前随时间变化而对不同机会进行考虑概念, 是该模型的重要特点。将创意转化为机会步骤所要求的时间跟机会类型、创业者等有关。对某些创业者, 创意与机会的识别也许同时发生, 而其他的则在新创意中识别出机会前需要花几周、几天, 甚至几年 (Bhave, 1994) 。Bhave (1994) 经过实证研究, 创建了一个两条路径的过程模型:第一条为外部刺激机会识别, 即创业决策早于机会识别;第二条则是内部刺激机会识别, 即仅仅由于创业者发现了需要解决的问题或是待满足的需求之后才决定创业。
多数研究认为, 创业者拥有的一些特殊属性如创造性 (Singh, R.P.;Hills, G.E.;Lumpkin, G.T., 1999) 、想象力 (Shackle, 1982) 、信息处理能力、搜索技术及行为 (Kaish&Gilad, 1987) 等, 导致他们能发现别人所未能发现的机会。
Hills (1999) 等人提出了一个五阶段的机会识别模型, 与之前有关研究 (Csikszentmihalyi, 1996;Wallas, 1926) 是一致的, 这五个阶段包括准备、孵化、洞察、评估、精加工。Lumpkin, Shrader&Hills (2004) 将Hills (1999) 等人提出的模型分为两部分——发现和形成。准备、孵化和洞察三个阶段构成了发现部分, 评估和细化则代表了形成阶段。可见, 该模型是一个进程模型, 其中包含了一个个关键的过渡。针对该模型, Davidsson (2004) 认为该模型的缺点在于假设了机会识别仅仅是一个内生的创造性过程, 建议用更多的定性和纵向数据去检验。
Singh (2000) 创建了一个机会识别的概念模型, 模型方程是:O=f{P, I, E};其中, O=创业机会, P=创业者的个人知识、能力与背景, I=新创意, E=环境变量。Singh (2000) 指出, 只有三类因素协调一致才能成功创业。
Ardichvili (2003) 等人基于Dubin (1978) 理论模型及其实证研究, 创建了一个机会识别的过程模型, 包含了创业机会的识别、开发以及评价等过程。模型中的主要因素包括:个性特征、社会网络、先前知识/经验、机会类型。该模型强调个性特征、创业警觉性、社会网络与先前知识的重要性, 将机会识别看作是一个创业者积极参与的多阶段过程, 个体差异 (个性特征、先前知识等) 及环境差异 (社会网络) 等重要因素的融合导致了创业机会被识别和开发。这一模型有待于进一步通过实证来验证和拓展, 需要更多的研究来考察个性、先前知识、创业警觉性、社会网络如何影响创业机会识别, 以回答为什么是一些人而不是另一些人发现了创业机会。该模型将创业者的机会识别理解为创业者与机会及环境之间的有效互动, 视角全面, 是目前公认能较好解释创业机会识别的模型之一。
可见, 机会识别是一个受多重因素影响的复杂过程, 跟创业者、机会类型、环境资源等都有关系。现有研究已经取得了大量成果, 但是仍需继续深入地研究各因素对创业机会识别的影响, 发现和整合各因素之间的协调机制。
2、创业机会识别分析模型的拓展
迄今为止, 一流期刊还少有登载关于创业机会识别的权威实证研究。较具代表性的是Ardichvili等人 (2003) 提出的机会识别分析模型, 它将创业者的机会识别理解为创业者与机会及环境之间的有效互动, 视角全面, 但至今仍缺乏相关的实证数据检验。此外, 现有机会识别的文献涉及到了经验、运气、技能、知识与认知等方面, 忽略了对机会识别中的学习和社会网络的调查。特别是多数研究都在一定程度上提供了对潜在创业者所需要具有的素质 (先前的知识、认知机制、启发或创造力等) 的理解, 然而, 很少谈到取得这些素质的过程, 即学习过程在创业机会识别与开发中所起的作用。而对于知识、认知、网络、学习等方面影响因素及其相互关系的拓展与深入研究有助于全面解释机会识别过程, 加深对创业机会识别过程的理解。
“经验学习理论之父”库伯 (Kolb) 认为, 学习的过程是一个连续反复的过程。库伯强调重视学习风格并根据不同的学习风格来进行培养和管理。库伯还认为由于学习者的不同学习风格, 在集体学习中能更有利于不同思想的碰撞和交流, 所以集体学习比个体学习的效率高。库伯对学习风格的研究是立足“学习”本身, 围绕“经验”和“变化”两个方面来展开的。经验学习理论由于对学习过程的理解包含了先前知识、感受、认知与经验的整合视角 (kolb, 1984) , 为我们提供了这样一个视角:在机会识别与开发的进程中, 由于个体获取和转换信息的方式 (学习风格) 不同, 导致个体识别机会能力的差异。
本文认为, 要更好地理解机会识别、开发与创业过程, 应该研究学习过程, 研究不同创业者的学习风格。同时, 应整合现有各学者基于各自视角的研究, 将各主要影响因素整合在一个较为统一的框架下。为此, 本文提出以下分析框架 (见图1) 。后续的研究, 应该在此基础上从理论和实证两方面进行深入地探讨和验证, 将有助于全面认识创业机会识别和最终形成创业研究领域的独特研究范式。
四、结语
创业机会识别作为创业研究的核心领域之一, 深入研究各主要影响因素及其相互关系, 对于最终形成创业管理研究领域的独特范式和分析框架, 意义重大。现有研究已经产生了大量的成果, 但是至今尚未形成统一的理论研究模型, 本文在总结现有代表性研究的基础上, 对Ardichvili (2003) 等人提出的机会识别模型进行了一定的拓展, 提出了一个综合性的创业机会识别理论分析框架, 希望对后续的理论和实证研究提供一定的借鉴和参考。此外, 值得一提的是, 现有大量关于创业领域的理论研究主要来源于国外学者, 对于中国语境下的创业机会识别影响因素的深入研究, 无论是理论模型的构建还是实证方面的研究, 都显得尤为迫切而重要。
摘要:机会识别是一个受多重因素影响的复杂过程, 跟创业者、机会类型、环境资源等都有关系。对各影响因素及其相互关系的拓展与深入研究, 有助于全面解释机会识别过程, 加深对创业机会识别过程的理解, 也对最终形成创业领域的研究范式起着重要作用。
关键词:创业,机会识别,影响因素,分析框架
多维识别 篇2
如今电力系统不断地向大规模集成化、智能化趋势靠拢,在提供稳定、清洁、高效的电力资源同时,日益庞大的维护信息量也伴随产生。这些不稳定因素产生的数据既为电网故障分析创造了实际条件,也给电力监测、调度部门管理工作带来了巨大挑战。面对着多维数据“灾难”的今天,如何从海量线路故障信息中快速筛选出有效的规则;如何更好地挖掘出各故障信息之间的潜在联系,从而实现对线路故障发生的原因、位置、影响大小做出准确判断及定位,将损失降至可控的范围,为电力人员的决策提供可靠的支撑条件。因此对电网脆弱环节进行有效分析、识别、判断仍具有重要的研究意义与价值。
目前,国内外学者提出了一系列电网故障诊断及识别的方法,主要有模糊理论[1]、专家系统[2]、信息理论[3]、人工智能[4,5]等。其中基于规则推理的专家系统应用颇为广泛,但其在规则变化、推理的速度和准确度仍然有很大的提升空间。文献[6]提出了基于决策树的产生式稳定判别规则提取方法,从规则自身获得有关在线监测重点和电网稳定增强措施的参考信息。但其模式发现算法对训练样本空间分布要求过高,且只针对单重故障进行了分析。文献[7]提出了不产生候选频繁项集的FP-Growth算法,该算法较Apriori算法有着独到的优势:不产生候选集且只需扫描两次数据库,极大提高了工作效率,但涉及项目过多时直接构造和遍历FP-tree仍然具有耗时量大,规则筛过于复杂的特征。目前大部分方法能对事务进行多层次关联分析,但这些方法大多数只适用于布尔型数据集,并不能直观处理多属性数据,无法满足用户的兴趣需求。
考虑大多数电网故障诊断的方法从电力系统本身单一或局部因素展开,而对同时顾及自身和外界因素共同作用的研究工作并不多。针对上述问题,本文首次尝试将基于OFI的FP-Growth多维关联规则挖掘技术应用于电网故障诊断及脆弱环节的识别中。本文首先介绍了关联规则的基本概念;其次阐述了事务多维属性架构的建立方法,并根据电网线路故障的显著特征提炼出具有研究意义和价值的属性字段,形成新的事务数据表;再通过将数据立方体技术和FP-Growth算法有效地结合[8],同时依据用户的兴趣改进了最大频繁项集的生成数目以获得更合适的规则;最后以某省电网近六年实际的历史线路故障数据进行算例分析,证明了该方法用于预测的可行性和有效性。
1 相关理论
1.1 关联规则定义
关联规则是反映事物间相互依存和关联的一种关系。一般关联规则就是描述数据库中数据的属性、变量之间所存的潜在关系规则。设I={i1,i2,…,im}是项Item的集合,D为一个事务集合,T是项集I的一个子集,其中D={T1,T2,…,Tn},若X、Y都是T中的项或集且,则有关联规则。其中根据文献[9]S、C分别定义为:
支持度(Support)
置信度(Confidence)
若生成的某一规则同时大于设定的支持度Smin与置信度Cmin阈值,则称之为强关联规则。
1.2 数据立方体
根据关联规则挖掘任务,其内容涉及T1,T2,…,Tn个维,由用户挖掘需求确定各维的维层次,然后从数据仓库中通过OLAP操作生成数据立方体[10]。|Ti|是第i维包含的互不相同的维成员个数,前|Ti|行各代表Ti中一个互不相同的维成员,其中每一维包含|Ti|+1个数值。最后一行存储了一个称之为“Sum”的维成员,“Sum”中记录了它所对应的维的合计值,这种合计值极大地方便了关联规则的挖掘中支持度的计算,立方体的方格中记录了对应维成员的频繁度量值,记为count。这样涉及T1,T2,…,Tn维数据的一个关联规则挖掘任务就对应一个N维的数据立方体[11]Cube(T1,T2,…,Tn∣count),其中T1,T2,…,Tn是立方体的维度,count是立方体的事实度量[12]。
1.3 多维关联规则
基于关联规则中涉及到的数据维数,可以将关联规则分为单维关联规则和多维关联规则[13,14]。其中单维关联规则只涉及一个关键字段(谓词),例如:“500 KV≥雷击”,该规则仅涉及一种故障原因。而规则“500 KV≥雷击≥地点≥时间”或者规则“220 KV/地点/时间≥故障类型/影响大小”则包含了时间、地点、原因多个谓词,并且不同的谓词间组合可以得到更多的有效规则,这样的规则称之为多维关联规则。
2 预警系统实现
2.1 电网线路故障数据预处理
常用的数据挖掘[15,16]算法不足之处有:对大样本的处理,可能忽略不常见、稀缺的但又重要的因素,在小样本的情况下,可能考虑问题不具体[17]。针对以上不足,本文通过对近6年某省电网大量的线路故障历史事务数据进行分析并筛选出直接有效、频发的故障类型、特征,提取出对研究有价值的字段,将记录的故障样本按时间、电压等级、设备、类型、自处理措施、影响大小等分组,形成新的数据表。如表1所示。其中表中的每一个谓词属性包含多个特征。
2.2 故障线路多维模型与数据表的建立
通过对预处理后具有连续性和模糊性的数据字段进行概化处理,以更好地挖掘规律。其中概化处理如下:
1)时间T(1-4):由于故障发生的时间具有不确定性,但在某个季度仍是相对稳定的,故将发生故障的时间属性按照季度划分,如春(2~4月)、夏(5~7月)、秋(8~10月),冬(11~1月)四个季度,便于对故障发生高峰期的月份进行统计。
2)地点P(1-5):对故障发生地点位置的确认及时与否,决定了后续开展维护修理措施是否有效。本文根据某省主要变电站分布位置对变电站及线路进行了适当的划分。分别为:东部地区P1、南部地区P2、西部地区P3、北部地区P4、中部地区P5。通过针对某个地区的某个变电站发生故障或线路故障进行快速定位,来预测电力线路故障的可能性,从而达到预测目的。
3)电压V:本文主要探讨500 KV及以下线路状况,综合常见的线路故障电压等级,通常以110、220和500 KV为主,故按此分为三个等级。
4)故障类型K(1-7):整合历史故障数据将故障类型划分为7大类,分别是:雷害、导线及地线、绝缘子、大风(损坏)、外力破坏(设备损坏)、杆塔及金具,覆冰等。
5)故障原因C(1-9):统计故障历史数据信息,可将故障原因划分为主要9大类:外力破坏、碰线或施工、大风及风偏、覆冰、舞动、质量不佳、鸟害,污闪。
6)合闸:线路间的自保护装置可有力地保障高低压电网及厂用电系统的安全稳定运行,能否在发生故障时重合闸成功,也是衡量电网安全性、稳定性、脆弱强度的一个重要指标。通常合闸成功造成的损失较小,合闸失败极有可能导致一系列连锁故障,造成经济严重损失等影响。
7)影响R(1-3):根据实际情况主分为:较小(发生故障不波及其他)、一般(经济损失较小)、严重(经济损失严重,区域性停电)三个等级。
概化处理[18]后的多维度数据属性分层结构图及属性符号命名如图1所示。
根据线路故障多维度属性架构,对各谓词集进行编号、排序、分类,依据某省电网部门提供的故障线路信息,经过预处理后形成故障事务样本数据库。其中样本事务数据表如表2和表3所示。
2.3 基于OFI的FP-Growth多维关联规则算法
2.3.1 算法概述
本算法基于经典FP-tree算法之上,并根据电网故障线路的实际需要,分别对各谓词生成的频繁项来进行最优频繁项集的选取,即基于OFI的FP-Growth多维关联规则算法。在电网应用中,仅依靠支持度进行剪枝的FP-Growth算法,往往会因为减枝的不恰当导致对严重故障小概率事件的忽视,但正是这些“小概率”让安全隐患成为了可能,不足以满足实际需求。因此在考虑支持度计数的同时,结合每一个谓词(维)所产生的频繁项集,通过设定合适的置信度能最大程度的减少价值不高的频繁集及冗余的关联规则[19],在全面考虑影响因子、生成有效规则的同时,极大地缩短了判断时间,提高了效率及准确率。
2.3.2 优化策略
FP-Tree算法的优点体现在两个方面:1)不需要产生候选项集,通过构造FP-Tree再递归式进行访问来生成频繁模式集。2)仅需两次遍历事务数据库,极大地降低了数据库的访问次数。该算法的缺点在于:当数据库中单个事务所含有的项目属性过多,以Null为根节点的FP-Tree深度和宽度便会过于复杂和庞大,导致算法工作效率不高,生成的规则繁杂以致难以筛选获取有效的规则。
本算法的改进主要适用于电网线路故障的预警研究。在继承了FP-Growth算法不产生候选项优点的基础上,将多维属性中的每一维分解成若干子集,再分别对各维子集使用FP-Tree算法生成频繁项集。这样可以大大地提高树的构造效率,且其所有生成的频繁模式并集仍为整个数据库的频繁模式集。最后通过实际经验设定合适的支持度及可靠性高的置信度达到目的。
2.3.3 算法步骤描述
1)第一次遍历整理好的历史线路故障数据库,记录各维单独及维与维间两两组合出现的支持度计数。如线路故障事务{T、P、V、C、K},则分别统计{T}、{P}、{C}、{K}、{T、P}、{T、V}、{P、V}等支持度计数。
2)第二次遍历条件模式基后,利用递归方式分别创建以“各事务属性”为根节点的FP-tree,这样每一维属性都有了相应的支持度计数和FP树,避免了生成以Null为根结点所有繁杂分枝,不利于频繁项集的删减和规则的提炼。
3)根据各维子集生成的FP树,依经验设定合适的支持度和最佳置信度来获取最优频繁项集(最佳置信度=各维不同深度的频繁集计数/该维属性或属性间组合的支持度计数)。
2.3.4 电网脆弱性识别流程及实现
系统算法流程如图2所示。
3 多维关联规则挖掘案例
3.1 算例分析
针对本文所采用的方法,编写了基于Windows平台下C++高级编程语言开发出来的应用程序,用于对数据进行仿真处理。考虑到线路故障数据信息量巨大的特点,同时为了便于分析FP-tree的建立和OFI的生成过程,本文将选取某省电力公司的部分线路数据(表2、表3)进行算例分析。首先对表2、表3中线路典型故障事务数据先进行概化,再阐述基OFI的FP-Growth多维关联规则算法具体挖掘过程。得到电网线路故障信息如表4所示。
1)根据概化处理后的表4生成频繁1-项集,设定最小支持度为1。得到各项集支持度技术,如表5所示。
2)设定最小支持度为Min_sup为4,将项集按照支持度计数降序排列后,分别对各子集运用FP-Tree算法构造FP-Tree。
3)运用基于最优频繁项集的FP-Growth挖掘方法对其进行模式挖掘,生成电网可能发生的线路故障事件频繁模式,具体见表6(部分结果)所示。
3.2 挖掘测试实验与结果分析
本文针对某省近6年的电网线路故障统计数据,经过预处理后得到692条有效数据,将有效数据存于DAT文件,设定程序最小支持度阈值S为2,最佳置信度为75%并运行基于OF的FP-Growth算法,最终分别从每一维属性生成的FP-Tree树上可以得到最合适且有效的强关联规则,并以此作为线路故障预警的判定依据,如表7所示。
1)从规则2中{T1、P5、V2、R3}=>{K2}可得到:中部某地区220 KV线路在2-4月份因为导线及地线舞动直接导致严重的经济损失,支持度为Support=0.03,置信度为Confidence=100%。根据该关联规则,相关电力部门应及时做好春季线路舞动预防措施,减小线路间连锁跳闸故障的可能性,以致将损失程度降到最低。
2)从规则5中{T2、P2、C1}=>{K2}可得到:该省南部某地区在5-7月份因违规施工、外力破坏导致导线及地线的损坏事故较多,支持度为Support=0.09,置信度为Confidence=90%。根据该关联规则,相关政府部门应采取适当措施对施工单位严格要求,杜绝违规施工。
3)从规则9中{V3、K4}=>{T1、P5}可得到:在550 KV线路故障中,绝缘子由于覆冰而影响最大,这些故障主要集中在该省中部地区,11-1月份为多发阶段,其支持度为Support=0.36,置信度为Confidence=86%。根据该规则,电力检修部门在冬季需要有针对性的对该地区500KV线路进行巡检查视。
4)从规则8中{P1、V1}=>{K2}可得到:该省东部地区110 KV线路极易受到导线及地线的影响而导致发生故障,其支持度为Support=0.21,置信度为Confidence=91%。根据该规则,电力部门需要采取措施优化线路布局,强化脆弱区巡视工作。
5)从规则12中{C4}=>{T1、P5、V3}可得到:该省因覆冰导致的线路故障,主要集中在2-4月份,并以中部地区550 KV线路为首要,其支持度为Support=0.42,置信度为Confidence=84%。根据该规则,中部地区相关部门需要加强在当月份对550 KV线路的监测,并运用可靠的设备对覆冰进行融化处理,以防重大电力事故的发生。
6)从规则12中{K5、C6}=>{P5}可得知:该省中部地区的电力线路故障主要来自于外力破坏,其中以违规施工,塔吊碰线,房屋拆卸形式为主,导致一些区域性断电事故时有发生,其支持度为Support=0.42,置信度Confidence高达100%。根据该规则,当地政府部门需要出台相关施工、拆建工作的规定,对违规施工的加大处罚力度,减少电网维护成本,另责令开发商严格遵守规章,监督施工、拆卸流程。
4 结语
本文首次提出了基于OFI的FP-Growth多维关联规则算法在电网线路故障预测中的应用。介绍了一种关于线路故障快速预警的办法,提出了一种从多维角度分析故障的模式,最后算法生成的规则能及时可视化输出,便于工作人员后续操作。
其次以实际电网线路故障为背景,通过对近六年的历史线路故障数据进行整理与分类,构造了线路故障事务模型,建立了故障线路历史数据库头表。采用优化后的FP-Growth算法对故障属性分别进行单一属性、属性与属性组合间的数据挖掘,根据最佳置信度的设定来对每一维属性生成的子树进行剪枝操作,将最终得到的规则作为防范和预警机制制定的依据。
最后通过实例分析表明:由该方法生成的规则与实际线路故障历史事务有较高的匹配度,因此对故障的原因、类型、地点以及发生的时间域进行预警和预测有可靠的效果,能在一定程度上为电力调度决策人员提供更多的参考。在实际应用中,面对着由高度集成化的庞大电力网络,瞬息多变的恶劣气候所带来地实时更新的数据,如何迅速全面考虑影响线路故障的因子并建立能被高效利用的事务数据库,快速、精准地定位故障目标值得进一步研究。
摘要:随着电网线路故障多样性、多重性、不确定性等因素的积累导致大面积停电事故时有发生,能否挖掘出潜在的线路隐患并制定相关的应对措施,对政府部门和电力企业进行决策起着重要作用。针对传统关联规则挖掘表示形式单一、多维度展现的不足、效率不高的缺点,介绍一种有效地将数据立方体技术和FP-Growth算法相结合的线路故障快速预警方法,提出一种从多维角度分析故障的模式,通过可视化输出的判别规则来为电力系统故障预测和预警提供可靠的决策依据。最后以某省电网线路故障数据为例,验证了方法的有效性和实用性。
多维识别 篇3
MSVM模型由MSVM数学模型、MSVM训练过程和MSVM多维支持向量库3个部分构成,如图1所示。
1.1 MSVM的决策函数
定义1:多维向量。由7个向量构成的多维向量组Φ=(xi,c,si,di,ξi,yi,Ψ)。样本xi∈Rn,i∈1,…,l;c为分类样本的惩罚因子;si为各样本的加权系数,用于对每个样本赋权值;di为xi的重复因子(di≥1);ξi为非负松弛变量;yi用于存储源ip、目的ip、协议、端口、数据包等信息,Ψ由N维空间向量构成,用于存储流量的特征向量。
定义2:最优超平面。所谓最优超平面就是要求分类面不但能将两类正确分开,而且使分类间隔最大,超平面上的训练样本点称为支持向量。
定义3:加权向量。若存在未知真值m维向的独立观测向量组,相应的权阵分别为则该观测向量组的加权向量值为:
L=(P1+P2+…+Pn)-1(P1L1+P2L2+…+PnLn)
式中:Li=(l1,l2,…,lm)T,i∈1,2,…n,各权矩阵Pi不一定是对角阵,由于Pi是权矩阵,因此可以认为向量的加权平均值是一般的加权平均值概念的推广。
根据定义3,寻找能够将两类数据正确分开并且使两类的间隔最大的分类超平面,这个超平面就是最优超平面。为了使多维支持向量接近真实值,根据向量加权平均值[8]的定义,首先对误差向量作加权平均求值;然后求最小平均误差,再得出最优超平面的初始问题,接着算出初始问题的最优化二次规划问题并进行求解,最终得出多维支持向量的决策函数:
式中:ai为拉格朗日乘子。核函数采用高斯核函数:
1.2 MSVM的训练过程
多维支持向量机也是一个二分模式的分类器,对MSVM的训练是在训练样本中寻找支持向量。根据MSVM的定义,引入如下规则区分。
规则1:设置支持向量判决函数的阈值为λ=1或λ=-1,设检测过程中判决函数为妖则f(x)≠1或f(x)≠-1,该向量x不属于支持向量,否则,x属于支持向量。
1.3 MSVM支持向量库的形成过程
初始MSVM支持向量库是由各已知P2P流量经过训练得到的MSVM支持向量库。当已知的P2P流量经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块训练后,生成多维支持向量,并对多维支持向量进行特征分析,将其特征字信息加入MSVM支持向量库,各种已知的P2P流量经过上述流程最终形成多维支持向量群,一并组组建建一一个个已已知知的的MMSSVVMM支支持持向向量量库库,,为为即即将将到到来来的的PP22PP流流量量的的检检测测做做好好准准备备工工作作。。最最后后,,确确定定MMSSVVMM的的阈阈值值,,如如果果阈阈值等于1(或-1),则所检测的网络流量为已知(或未知)的P2P流量;反之,所检测到的网络流量为Non-P2P流量。
2 基于MSVM的P2P流量识别模型
本文建立数据捕获模块、特征提取模块、数据预处理模块、MSVM训练模块、MSVM支持向量库,阈值计算和具体P2P流量的识别将参照采集的训练样本的特征参数向量,其中上述模块中待识别数据特征函数提取模块包括流量的时间特性、流量速率和流长度的分布特点等,基于MSVM的P2P流量识别模型总体方案如图2所示。具体流程如下:
(1)经数据捕获模块,采集到的数据为原始数据。
(2)将原始数据经过数据特征提取模块,提取特征函数参数。
(3)由于提取到的参数数据为原始数据的特征值,这些数据中存在连续特征和离散特征,对这些异构数据集通过数据预处理模块翻译成机器可识别的数值。
(4)数据经过MSVM训练模块训练后生成多维支持向量,同时使用不同的P2P流量数据经过上述流程最终形成多维支持向量,一并组建一个MSVM支持向量库,为流量检测做好准备工作。
(5)确定MSVM阈值,如果阈值不等于1(或-1),则所检测的分支流量为Non-P2P;反之,所检测的流量为已知(或未知)的P2P流量。
(6)已知P2P流量可以通过MSVM库得到具体的P2P类型。未知的P2P流量将经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块,将提取的特征字信息加入MSVM支持向量库。通过网络途径获取该流量的具体名称,一并放入MSVM支持向量库,以便具体的P2P流量的识别。
3 实验验证
将本文提出的基于MSVM的P2P流量识别模型在实验室的数台机器上进行相关的实验验证。实验中,用Ethereal软件采集Vagaa、PPlive、Baizhao、BBsee等P2P软件和ftp非P2P流量数据,并对其进行分析。在不同的机器上进行3次数据采集,用于3种不同方法测量的数据训练。
从图3可以看出,基于MSVM的P2P流量识别模型可以识别出具体的P2P流量,同时能识别出UDP协议类型。图3(a)右边的曲线为P2P流速,图3(b)有未知的P2P流量(UNKNOW)和已知的P2P流量(QQLIVE),能显示序号、源端口:端口、目的地址:端口、协议类型、程序名称和DATA的长度。本文将基于应用层协议的内容分析方法的P2P流量识别、基于传输层流量特征的P2P流量识别、基于MSVM的P2P流量识别,分别应用于流量识别,得出的精确度结果如表1所示。
4 结束语
实验证明,此识别模型可以解决TCP协议和UDP协议的P2P流量的识别,同时能够对未知的和大流量的P2P类型进行识别,对加密的P2P流量的识别也有很好的效果。
参考文献
[1]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].北京:计算机学报,2006,29(3):400-406.
[2]Wang R,Liu Y,Yang Y X.Solving the app-level classification problem of P2P traffic via optimizedsupport vector machines[C]∥Proceedings of SixthInternational Conference on Intelligent S-ystems De-sign and Applications,Ji′nan,2006.
[3]Zhou Li-juan,Li Zhi-tang,Hao Tu.Proposition and provement of a TCP Feature of P2P traffic-an exam-ple of bittorrent a-nd emule[C]∥Communicationsand Networking in China,Seco-nd International Con-ference on CHINACOM,Shanghai,2007.
[4]Liu Yang,Wang Rui,Huang He-yun,et al.Applying support vec-tor machine to P2P traffic identificationwith smooth processing [C]∥Proceedings of the 8thInternational Conference on SignalProcessing,Guil-in,2006.
[5]Matsuda T,Nakamura F,Wakahara Y.Traffic fea-tures fit forP2P discrimination[DB/OL].[2008-12-13].http://ieeexplore.ieee.org/stampPDF/getP-DF.jsptp=&arnumber=01593469&isnumber=33534.
[6]Gonzai1ez-Castanio F J,Rodriguez-Hernandez P S,Martinez-Al-varez R P,et al.Support vector machinedetection of Peer-to-P-eer traffic[C]∥IEEE Interna-tional Conference on Computation-al Intelligence forMeasurement Systems and Applications La Co-runa,Spain,2006.
[7]Wang X,Wang Sheng,Bi Dao-wei,et al.Collabora-tive Peer-t-o-Peer training and targetclassification inwireless sensor netwo-rks[J].Future GenerationCommunication and Networking,2007,87:208-213.