模糊聚类分类法(精选12篇)
模糊聚类分类法 篇1
21世纪以来, 我国国民经济高速增长, 综合国力日益强盛, 大型与特大型工程数量与日俱增, 如为举办奥运会所建设的国家体育场和国家游泳中心;为推动长江三角洲地区合作与交流建设的杭州湾跨海大桥;为促进西部与中东部地区良性互动协调发展所建设的川气东输工程等。大型工程的建设在国民经济和社会发展中占有重要地位, 而物流管理又是大型工程建设中的关键环节。
近年来, 国内外学者对工程项目物流管理的研究主要有对物流过程的组织结构、物流成本效益分析和物流系统运行过程三方面的研究[1]。但在物资分类管理中还存在很多问题, 如大型工程项目在管理工程物资时眉毛胡子一把抓, 缺乏科学有效的管理方法, 不能实现良好的资源配置;本文通过建立大型工程项目物资分类指标体系, 对钢材, 混凝土等十四种主要工程物资采用模糊聚类法分类, 识别对物流管理影响大的关键物资和对物流管理影响小的次要物资并据此配置资源, 根据物资物流特点量体裁衣, 探索大型工程项目的物流管理方法, 为促进大型工程项目物流工作高效完成提供借鉴[2]。
1 大型工程主要物资的分类指标体系
1.1 大型工程物资分类指标体系的建立
大型工程项目的物流管理是指围绕大型工程项目的物资采购、运输、装卸、储存、现场搬运、生产加工、回收、废弃处理等具有综合型复杂内容的全过程物流组织[3], 物资类型主要有结构材料, 装饰材料, 专用材料, 周转材料, 构配件, 施工机械等[4]。大型工程项目物流的主要特点是物流流量大, 涉及高新技术和先进设备的探索性使用, 存在特殊物流单元—超限物资[5]和施工区域呈线性分布等[6]。本文依据影响工程项目物流管理的主要因素, 以科学性与实用性, 整体性与层次性, 通用性与可比性为原则建立大型工程项目的物资分类指标体系, 如图1所示。
1.2 指标权重赋值
采用G1法[7]依据15份专家所填权重调查表确定各指标权重, 权重确定过程如下:
1) 确定序关系。对于评价指标集{x1, x2, …, xm}专家对指标集中的指标进行重要性排序得出序关系:x1*>x2*>…>x*12>x*13。
2) 给出xk*-1与xk*相对重要程度的判断。
专家关于评价指标xk*-1与xk*的重要性程度之比ωk*-1/ωk*的理性判断为:
3) 通过相对重要程度调查表确定rk值, rk赋值表如表1所示。
4) 权重系数ωm*的计算:
5) 指标权重的确定:
取上述指标权重平均值, 得出各指标的最终权重值 (见表2) 。
2 大型工程主要物资的模糊聚类
2.1 模糊聚类简介
按确定的标准对客观事物进行分类的数学方法称为聚类分析, 它是数量统计中多元分析的一个分支, 是一种硬划分, 把每个待辨识的对象严格的划分到某个类中, 具有非此即彼的性质[9]。在大型工程物资分类中往往没有明显的分类界限, 模糊聚类分析的基本思想就是用相似性尺度来衡量事物之间的亲疏程度, 并以此为分类, 因此用模糊理论来进行的聚类分析会更符合客观实际。
2.2大型工程主要物资的模糊聚类过程
1) 原始矩阵的建立。
a.通过发放调查问卷统计分数, 计算各类物资各项分类指标综合得分。
b.指标预处理:将指标分为“成本型”指标和“效益型”指标, “成本型”指标是指指标取值越小越好的分类指标, “效益型”指标是指指标取值越大越好的指标[10]。文中将不可替代性、作用影响程度、需求量、生产周期、生产难度、使用覆盖周期、价格、缺货成本、运输成本、订购成本、储存成本划分为“成本型”指标, 此类指标取值越小越好。将市场流通量、有效使用期划分为“效益型”指标, 此类指标取值越大越好, 据此对指标进行预处理。
成本型指标计算公式:
效益型指标计算公式:
其中, xij为第i种物资的第j个指标的预处理结果;aij为第i种物资的第j个指标未经预处理的综合得分。amaxj, aminj分别代表第j个指标的最大值和最小值。
c.xij计算完成后乘以各指标的权重ωj, 得出原始数据X。
2) 模糊相似矩阵的建立。
对于待分类的工程物资X= (x1, x2, …, xn) 首先要鉴别元素xi与xj的相似程度, 用相似系数rij表示, 区间为[0, 1], 采用欧几里得距离法计算相似系数rij:
由此得到模糊相似矩阵:
3) 模糊等价矩阵的建立。
根据计算所得的模糊相似矩阵R, 不一定具有传递性, 还需要将R改造成具有传递性的模糊等价矩阵R*。用二次方法求R的传递闭包t (R) =R8, t (R) 就是所求的模糊等价矩阵R*。
4) 模糊聚类。
a.将λ取若干不同值 (0≤λ≤1) , 得若干λ截集, 得出物资分类。X1:木材, X2:混凝土, X3:水泥, X4:钢材, X5:砖石砌块, X6:玻璃陶瓷, X7:防水材料, X8:保温材料, X9:建筑门窗, X10:管材, X11:周转材料, X12:通用机械, X13:超限物资, X14:设备配件。
物资分类表见表3。
b.动态模糊聚类图见图2。
c.确定分类。
当λ=0.171 5时, 大型工程主要物资分为八类, 第一类物资包括混凝土, 超限物资, 水泥, 砖石砌块, 钢材, 周转材料, 保温材料, 此类物资在大型工程的物流工作中起着关键影响作用, 以物资在物流管理中的重要性、稀缺性、时效性、成本为依据识别此类物资为关键物资;第二类物资是玻璃陶瓷, 第三类物资是木材, 第四类物资是建筑门窗, 第五类物资是防水材料, 第六类物资是设备配件, 第七类物资是通用机械, 第八类物资是管材, 此七类物资在大型工程的物流工作中影响作用一般, 以物资在物流管理中的重要性、稀缺性、时效性、成本为依据来识别此七类物资为一般物资。
3 大型工程主要物资模糊聚类结果分析
3.1 各类物资物流特点
1) 关键物资。
混凝土, 超限物资, 水泥, 砖石砌块, 钢材, 周转材料和保温材料, 此类物资在大型工程物流管理中的重要性、稀缺性、时效性、物资成本四方面的特点突出。钢材和混凝土广泛应用于大型工程的建筑结构中, 钢材和混凝土共同组成的承重体系是影响建筑结构安全最关键的因素, 其他材料难以替代二者的特殊工程性质, 一旦缺货会使得施工进度瘫痪, 酿成巨大损失, 故在工程物流中钢材和混凝土十分重要。超限物资作为特殊物流单元往往超长超宽或超高超重, 如非标准化的特殊大型设备, 其生产周期长、生产难度大、市场流通量小, 具有一定稀缺性, 在工程建设中需求量少但拥有其他设备无法替代的专业功能, 在整个工程中起关键作用。超限物资的生产地往往距离工程建设地点较远, 运输路线长、难度大、成本高、影响因素多。水泥的运输和储存不能受潮且储存时间不宜过长, 一般情况下自出厂日期起, 超过三个月视为过期, 使用时必须重新检验, 故在工程物流中必须注意水泥的储存环境和时效性管理。砖石砌块和保温材料在施工物资中体积较大, 运输储存过程中需要合理的规划和管理, 在有限的施工场地, 砖石砌块的合理堆放可以避免因现场作业空间狭小和场地交通阻塞造成的施工不便。保温材料的运输不同于其他物资采用重量计算方式, 保温材料往往采用体积计算方式, 因此运输成本较高。周转材料相比其他施工物资, 多出一个逆向物流环节, 只有妥善的现场物流管理和逆向物流管理才能使周转材料在周转中充分发挥其使用价值, 降低工程成本。
2) 一般物资。
包括玻璃陶瓷, 木材, 建筑门窗, 防水材料, 设备配件, 通用机械, 管材, 此类物资在工程物流中市场流通量大, 不可替代性较小, 作用影响程度中等, 生产难度较小, 运输成本、订购成本、储存成本、缺货成本普遍比较小, 其物流管理对整个工程的影响程度偏小。
3.2 大型工程物流管理建议
1) 关键物资与一般物资的物流分类管理。
关键物资中钢材和超限物资等物资的采购需要与优秀的供应商保持长期的战略合作关系, 在降低订购成本的同时保证物资的供应质量, 采购前制定详细的采购计划精确所需物资的数量、规格、型号, 避免出现二次加工、材料退换、材料大量剩余或库存补充频繁等现象, 造成不必要的浪费。水泥的超期和受潮严重影响其材料性质, 应根据施工进度制定采购计划, 避免过早和过量的采购。砖石砌块, 应避免一次性的大批量采购, 尽量选择小批量的频繁采购方式, 在满足工程建设所需的前提下将砖石砌块对施工现场空间占用降至最低。关键物资的现场管理需注意水泥的储存应避免受潮和淋雨, 管理人员应密切关注水泥的存储情况并及时向采购人员反映以配合水泥采购计划的制定, 保证水泥在有效期内充分发挥其功能作用。砖石砌块在有限的施工场地中占用了大量的空间, 易引起施工现场交通阻塞和现场混乱等问题, 造成施工不便, 故施工人员在砖石砌块进场前应做好施工现场规划, 合理布局砖石砌块堆放位置, 使施工现场整洁, 交通流畅的同时方便砌筑工程的取材。钢材在进场前应做好质量、规格、数量的验收工作, 验收后的保管工作主要是为了避免钢材锈蚀和丢失现象。
一般物资种类多, 数量大, 易产生较多管理费用, 故主要以管理成本最小化为目的。基于一般物资可替代性较强, 市场流通量大, 供应商竞争激烈等特点, 采购时主要考虑成本因素。较低的缺货成本允许偶尔缺货, 故应将库存量压到最低水平, 以减少对资金和空间的占用, 降低成本。与供应商及第三方物流建立一般合作交易关系, 降低采购成本。现场物流中, 在保证物资质量的前提下设置合理的储存条件, 避免材料的丢失和破坏, 配合工程的正常施工。
2) 合理利用有效社会资源。
超限物资的运输往往涉及诸多专业难题, 相对于自行运输, 企业可充分利用有效社会资源将任务委托于富有经验和专业性较强的第三方物流, 有效降低物流成本和物流风险的同时集中资源发展核心竞争力。在保证材料供应品质的基础上充分利用当地资源, 就近选择供应商以降低成本, 带动当地经济发展。
3) 制定物流绩效评价机制。
大型工程项目的物流工作需要建立合理的绩效考核来评价物流工作的管理水平, 通过绩效考核寻找物流工作中效率低下的管理环节, 分析导致管理效率低下的主要原因, 针对主要原因进行改造, 不断完善物流管理体系。
4 结语
本文对钢材, 混凝土等十四种大型工程主要施工物资, 凭借分类指标体系运用模糊聚类法进行分类, 在数量庞大种类繁多的大型工程物资中识别对工程影响较大的关键物资和对工程影响较小的一般物资, 并据此对有限的资源进行合理的配置, 集中资源严格控制对工程物流影响较大的关键物资, 降低物流风险, 去繁从简轻巧管理对工程物流影响较小的次要物资降低物流成本, 探索与各类物资物流特性相适应的管理方法实施分类管理, 配合工程质量、成本、进度管理, 使得大型工程项目的物流工作在最短时间, 最低成本和最小风险的情况下顺利完成, 在大型工程的物流管理研究方面具有一定的前瞻性和借鉴性。本文在指标体系的建立和分类对象的选择上具有一定的局限性, 且基于物资分类所提出的管理方法需进一步研究, 提出更科学高效的大型工程物流分类管理方法。
摘要:依据影响工程项目物流管理的主要因素建立分类指标体系且对指标权重赋值, 运用模糊聚类法对钢材、混凝土等大型工程主要施工物资进行分类, 识别对物流管理影响大的关键物资和对物流管理影响小的次要物资, 最后提出了大型工程物流管理建议。
关键词:大型工程,物流管理,模糊聚类
参考文献
[1]吕雪峰.建筑业物流管理关键环节优化研究[D].哈尔滨:哈尔滨工业大学, 2007.
[2]都基娜.浅谈施工企业的物流成本管理[J].物流科技, 2008, 30 (12) :106-107.
[3]郑晓云, 王瑛.施工项目物流成本控制分析[J].低温建筑技术, 2005 (4) :117-118.
[4]马!.加强建筑施工过程中建筑材料管理的具体策略分析[J].科技与企业, 2014 (20) :52.
[5]陈思.大型土木工程项目物流运作管理研究[D].成都:西南交通大学硕士学位论文, 2007.
[6]刘玉明, 王耀球.大型工程建设项目的供应物流模式选择研究[J].物流技术, 2007, 26 (2) :76-78.
[7]乔洪波.应急物资需求分类及需求量研究[D].北京:北京交通大学硕士学位论文, 2009.
[8]张永领.基于模糊聚类的应急物资分类储备研究[J].灾害学, 2012, 27 (1) :130-134.
[9]刘合香.模糊数学理论及其应用[M].北京:科学出版社, 2012.
[10]薛会琴.多属性决策中指标权重确定方法的研究[D].兰州:西北师范大学, 2008.
模糊聚类分类法 篇2
遗传模糊聚类算法在数据关联中的应用
针对传统数据关联算法存在计算量偏大或关联精度不高的问题,提出了一种利用遗传模糊聚类策略来求解数据关联问题的.算法.该算法将多传感器多目标的数据关联问题看作是一类约束条件下的组合优化问题,先通过对同一时刻不同传感器提供的量测按照其相似性用遗传算法进行模糊聚类,再用聚类后的等效量测对各目标的状态进行估计.聚类方式的改进不仅增加了算法的局部寻优能力,有效地减少了计算的复杂度,而且还具备一定的野值剔除能力.仿真结果表明该算法关联精度较高,计算量适中,具有一定的工程应用价值.
作 者:胡傲 冯新喜 王冬旭 郭威武 HU Ao FENG Xinxi WANG Dongxu GUO Weiwu 作者单位:空军工程大学电讯工程学院,西安,710077刊 名:电光与控制 ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL年,卷(期):17(3)分类号:V271.4 TN953关键词:数据关联 多目标跟踪 模糊聚类 遗传算法
基于模糊聚类的网格信任模型研究 篇3
关键词:推荐信任;模糊聚类;蚁群算法;信任模型
中图分类号:TP393文献标识码:A文章编号:1007-9599 (2011) 03-0000-02
Research of Grid Trust Model Based on Fuzzy Clustering
Wang Lijing1,Dai Bo1,2,Tang Ziwei1,Yang Jilin1
(1.Electron&Information Engineering College,Liaoning University of Technology,Jinzhou121001,China;2.Information Science&Engineering College,Northeastern University,Shenyang110004,China)
Abstract:As the grid openness and complexity,a higher grid security requirements.Trust model in a grid,using the method of fuzzy clustering in the grid level of trust entities and recommended the adoption of the division coefficient;calculation recommended the introduction of ant colony algorithm trust more fully reflect the recommendation trust.The simulation results,the model can effectively contain malicious node mesh trust model the impact of improved trust model in grid security.
Keywords:Recommendation trust;Fuzzy clustering;Ant colony algorithm;Trust model
網格是一个开放性的环境,网格的目的是实现互联网上所有资源的全面连通和全面共享,为用户提供各种透明的服务。因此网格一般需要跨越多个虚拟组织,来实现资源的协同和共享。但由于网格本身的动态性、开放性、异构性、共享性等特点,资源提供者与资源使用者双方难以事先建立可靠的信任关系,在网格中如何建立可靠的信任关系成为目前网格信任模型研究的一个热点。
一、网格中的信任模型
信任的定义:D.Gambetta提出的信任定义为:信任是事先期望一个实体执行特定动作的主观可能性程度。信任通常分为直接信任和推荐(间接)信任。直接信任表示两个实体已经通过交易或服务建立的一种信任关系;推荐(间接)信任指两个实体间之前不存在直接交易或服务而通过第三方建立的一种信任关系。直接信任和推荐(间接)信任关系如图1所示:
M.Blaze等人在1996年第1次提出了信任管理的概念,Beth信任度评估模型把经验的概念引入进来,利用经验来对信任关系进行度量和表述。由于该模型在考虑信任时,只考虑到肯定经验和直接信任,无法避免恶意推荐,影响信任模型的安全箱。 信任度评估模型把事实空间和观念空间的引入到信任模型中,并用来度量和描述信任关系。尽管该模型引入了事实空间中的肯定和否定事件,对直接信任和推荐信任区分不明且计算信任时只考虑推荐因子,无法有效的消除恶意推荐给信任模型带来的影响。
二、基于模糊聚类的网格信任模型
本文中在对Beth和 两种模型研究分析的基础上,提出了把模糊数学中的聚类分析应用到网格中信任模型的研究中来。首先,引入模糊聚类对网格中的实体进行信任等级和推荐采纳系数的划分;对于网格中实体的信任值需考虑直接信任和推荐信任的合成运算;对于推荐信任,两交易实体之间的推荐路径存在不止一条时,引入了蚁群算法通过迭代求解最优推荐路径从而计算出推荐信任,使推荐信任的计算更加准确;使该信任模型的评估更加准确、有效、安全。
(一)模糊聚类分析
模糊聚类分析的主要步骤为:
1.获取原始数据矩阵
根据隶属度函数,获取特征向量组成的原始数据矩阵 。
2.矩阵 标准化,采用标准差变换将矩阵 标准化
3.建立模糊相似矩阵 。
4.聚类。选取合理的阈值,对信任等级进行划分。
(二)直接信任值的计算公式
公式(1)
(三)推荐信任值的计算
1.蚁群算法获取推荐信任路径
在参考文献[4]中,利用蚁群算法寻找存在多条最优的推荐信任路径。添加限制参数:搜索深度length。蚁群算法的初始化阶段所有解的信息量都是一样的,但随着算法的推进最优解上的信息量增加而使该算法逐渐收敛。在网格环境下,把网格中的信任关系抽象理解为网络拓扑结构图, ,其中 代表直接信任值 , 代表源实体, 代表目标实体, 表示信任路径的最大长度,信任路径 的长度为1,1<=max.通过公式(2.2)计算出这条信任路径上的推荐信任值。
公式(2)
2.推荐信任值的计算公式为。
公式(3)
(四)综合信任值的计算
在网格环境下,综合信任值是将直接信任和推荐信任进行合成计算。如下:
1.节点之间存在直接信任
综合信任值 采用公式计算:
公式(4)
2.不存在直接信任关系
在计算综合信任值只考虑推荐信任值。即综合信任值等于推荐信任值。综合信任值 采用公式计算:
公式(5)
三、仿真实验及结果分析
(一)仿真实验设计I
假设网格中存在八个主体 ,特征参数 ( 表示时间衰减因子, 表示奖惩因子, 表示交易因子)。数据矩阵 如下:
对于矩阵 进行标准化后,得到矩阵 。再通过模糊相似变话把矩阵 变化为 。选取合理的阈值 =0.72对信任等级进行划分,得到如图2所示的信任等级分类图。
(二)仿真实验设计II
实验环境:硬件为Intel(R)Core(TM)2Duo CPU T5870 2.00GHz,内存为2G;软件为开发工具eclipse3.2SDK,模拟实验用java语言编写。下面给出了网格信任模型安全性方面的模拟实验。
对网格中的节点分类:正常节点、恶意节点。实验结果如图3所示,信任模型中有效识别恶意节点。随着交易次数的增加,模型能够对计算结果进行预先判断,提高系统的整体性能和安全性。
(三)仿真实验设计III
蚁群算法ACA迭代求解最优推荐信任路径,在识别恶意节点及抵御协同作弊方面具有更好的识别性、安全性,下面给出了检验ACA算法有效性的实验。
模拟环境为:设置推荐信任值与直接关系的实体为800个依据随机函数而分布的。为使ACA算法发挥最好的效能,提前设置算法的参数。ant=50, =0.7, =7, =1。实验结果如图4所示:
从图4可以得到结论,该算法能能有效的获取最佳推荐信任路径。rdtvi1、rdtvi2、rdtvi3表示节点的3个随机推荐信任值。从图4中可以得出循环次数达到12次时推荐信任基本达到最优值。通过蚁群选择最优路径算法能够有有效避免恶意欺诈或协同作弊。
四、结束语
仿真实验表明,该信任模型采用模糊数学中的模糊聚类方法对网格中的节点进行信任等级划分并给出推荐采纳系数;通过改进的蚁群算法寻找最优推荐信任路径来计算推荐信任值,能够全面反应网格中节点的全局信任,有效防止了联合欺诈行为和协同作弊,提高了信任模型的安全性。
参考文献:
[1]Ian Foster.The grid:A new infrastructure for 21 century science[J].Physical today,2002,55,2:42-47
[2]L.A.扎德.模糊集合、语言变量及模糊逻辑[M].陈国权.北京:科学出版社,1982
[3]王涛,王艳平,唐剑涛.模糊数学及其应用[M].东北大学出版社,2000,5
[4]易磊.网格环境下信任模型研究及其应用[J].湖南:中南大学,2008
模糊聚类分类法 篇4
现代电力系统具有非线性、非自治性、动态性和广域性等特点,这些特点为其稳定分析和控制带来了困难。在多数情况下,描述系统的非线性微分方程组只有数值解,为降低数值积分过程工作量,对系统降阶成为分析问题的一种常用手段。降阶是对复杂多维空间的状态变量映射到一个维数较低的空间或平面上,从而减轻问题分析的复杂程度,例如扩展等面积准则(EEAC)就是这样一种用2机等值来降阶处理再进行暂态稳定分析的方法,它将受扰后的发电机组分为2群,进而进行局部惯量中心(PCOI)映射[1,2,3]。大量研究表明,系统在受扰后并不都是分解成2群,系统受扰以后多群模式失稳是存在的[4,5]。文献[6]指出,一般情况下系统是2群摇摆,但也存在一些3群甚至4群摇摆的情况。文献[7]指出虽然多群理论无损于EEAC理论,但多群的研究却是十分重要的,发电机组的准确分群对降阶暂态稳定分析具有重要意义。
相关理论法是电力系统故障机组分群的有效方法之一,但由于它只采用了一个指标分群,分群结果不够准确,于是便产生了采用3个分群指标的三取二分群法[8,9]。文献[8]中的三取二分群法考虑加速度的复合加速功角、同步速度偏差的复合功角、经典功角作为分群的指标。三取二分群法引进了多个分群指标,分群的准确性得到了提高,但多个指标可能造成多种分群指标得到的分群结果均不同,投票无法产生统一结果。另外,如果引进更多的分群指标,将三取二分群法改造为n取m分群法,便会使得分群投票过程更加复杂,可能会产生分歧。同时,这2种方法的难点是要事先确定合适的阈值。
本文研究的模糊聚类方法可以引入任意多个分群指标,而且在分群时考虑了所有引入的分群指标对分群结果的影响而不会产生分歧,不需要试凑确定阈值,能产生统一、可靠的分群结果,为以降阶的手段分析暂态稳定打下良好的基础。
1 模糊聚类方法的原理
模糊数学是研究和处理模糊现象的数学。其基本做法是把普通集合中的特征函数灵活化,使元素对“集合”的隶属度从只能取{0,1}中2个值中的1个扩充到可以取{0,1}中的任一数值[10,11,12]。
设对象集X=x1,x2,…,xnT,每一个样本xj有s个指标,结果分为c类(2≤c≤n),则论域为:
其划分矩阵为:
找出在一定条件下最佳的模糊分类矩阵R,则与R对应的模糊分类就是对象集X在该条件下最佳的模糊分类。为了求得最佳分类,需挑出最佳分类矩阵,因而引入聚类中心的概念。所谓某一类的聚类中心vi就是这一类所有样本元素的一个核心。
现在要将对象集X=x1,x2,…,xnT分成c类,则c个聚类中心向量构成的矩阵为:
vi(i=1,2,…,c)对应的s个指标是该类元素所对应指标的平均值,vi=(vi1,vi2,…,vis),则
式(4)的分母相当于第i类的元素个数,而分子为第i类的所有元素第k个指标和。为了获得一个最佳的模糊分类,可按照下列聚类准则从模糊分类空间中优选一个最好的模糊分类。
聚类准则如下:求出适当的模糊分类矩阵R及聚类中心矩阵V,使目标函数(式(5))达到极小值。
式中:q可取一定的值,一般取q=2;‖xj-vi‖表示对象xj与第i类聚类中心向量vi的距离。
由此看出,一个分类R0如果是最佳分类,应该使
式中:j=1,2,…,n;取q=2;‖xj-vi‖为Euclid距离。
2 模糊聚类方法的运用
2.1 模糊聚类方法运用于发电机分群
在发电机的分群问题上,将具有相近动态行为的机组划分为一组机群,需要处理的信息是发电机的转子角等指标在研究时间内的相互接近程度。运用模糊聚类方法分群在形成发电机分群的模糊矩阵前需要先确定分群指标。由于采用了模糊聚类算法,分群指标的数目可以任意多。设系统有n台发电机,每台发电机有s个指标,分群结果为c群,则形成的论域为n×s维,划分矩阵则为c×n维。
为了便于与三取二法分群结果相对比,并清晰展示模糊聚类的思想,分群指标采用文献[8]中三取二分群方法使用的3个指标,即复合加速功角δka、复合功角δcom、发电机转角δ:
式中:ka和kcom分别为复合加速系数、复合系数,算例中均取为3(该权值是根据实验得出的,取值较大是为了放大不平衡功率引起的转角差,达到快速分群的目的, 如果取值小于1相当于缩小了转角差,不利于分群);ωn和ωn-1分别为n,n-1时刻的角速度;ω0为n时刻的同步角速度。
式(7)反映了角速度的变化率,式(8)反映了角速度偏离同步角速度的差值,即为不平衡功率的累计效果。
因此,分群问题的论域X为:
式中:δnka为分群时刻的第n机复合加速转角;δncom为分群时刻的第n机复合转角;δn为分群时刻的第n机转角。
模糊聚类方法是一种逐步迭代的算法,每步迭代都沿着目标函数减小的方向进行。
具体用于发电机同调识别的算法步骤为:
步骤1:由发电机转角形成分群指标,构造发电机分群论域X,即X=x1,x2,…,xnT,n为发电机数目;每一台机有s个分群指标(这里s=3),因此X为n×s维。
步骤2:取定分类数c,取初始划分矩阵R0∈Mfc,逐步迭代(l=0,1,…)。
步骤3:对于R(l),计算聚类中心矩阵V(l)=(v
步骤4:修正模糊分类矩阵R(l),取
步骤5:用矩阵范数比较R(l)与R(l+1),若对取定的精度ε>0,有‖R(l)-R(l+1)‖≤ε,则R(l)与R(l+1)即为所求,停止迭代;否则,l=l+1,回到步骤3,重复进行。
得到最终划分矩阵R*后,在R*的第j列中,若
2.2 模糊聚类参数的确定
1)初始划分矩阵的确定
若初始划分矩阵满足xk≠vi,R(0)满足r
2)迭代参数ε的确定
在本文的模糊聚类算法中,控制迭代终止的是参数ε。实验表明,ε的值对于整个聚类统计结果影响不是很大。因此,为保证计算效率,ε一般取10-1~10-3,这样分群算法迭代低于10次就会达到要求,得到正确的分群结果。
3)分类数的确定
模糊聚类方法获得的模糊聚类结果是相对于分类数c(代表了发电机分群数目)、初始模糊分类矩阵R(0)、误差精度ε和q的局部最优解。结合实际电力系统,R(0)和误差精度ε对聚类结果影响不大,q常取值q=2,因此全局聚类结果的主要影响因素是分类数c,这正是需要确定的发电机分群数目,因此先将分类数c固定后给出的分群结果便失去了分群数目的灵活性。本文引进以下定义来对聚类效果进行检验,从而确定最优的分类数,保持发电机分群数目的灵活性。参照文献[13],模糊类间散布系数
式中:tr SB和tr SW为矩阵的迹。
由式(10)看出,对于固定的分类数c,若要F值大,就必须tr SB大和tr SW小,而此时正好反映了类间界限比较明显,而类内元素比较相近,即发电机群间间隙比较明显,群内差别很小,因此,采用F模糊统计进行聚类效果检验来确定分类数即分群数是合理的。F的最大值对应分类数认为是最合理的,即此时的发电机分群数是最合理的。
3 算例分析
下面通过算例来比较在不同线路端点发生故障后3种方法的分群结果。判断在一定切除时刻下系统的稳定性时,切除故障时刻的状态量已经积累了故障地点和网络结构的影响,此时选取切除故障时刻的状态量进行分群。
算例1为New England 10机39节点系统。线路21*-16在靠近21节点处三相短路,0.10 s切除故障时分群结果如表1所示,采用相关理论法(阈值取为2)、三取二分群法(阈值取为2)和模糊聚类方法对10机39节点的分群结果见表1。
在与表1相同的故障条件下,0.10 s切除故障,采用时域仿真法得到3 s内的发电机转角曲线如图1所示。按模糊聚类分群结果符合整个时间内各台发电机的转角曲线的走势。可以看出将10机系统分为5群,是比较符合系统实际运行状态的。
线路16*-15在靠近16节点处三相短路,0.15 s切除故障时分群结果如表2所示,相关理论法(阈值取为3.5)、三取二分群法(阈值取为3.5)、模糊聚类方法对10机系统的分群结果见表2。
此种故障条件下采用时域仿真法得到的10机系统3 s内的转角曲线如图2所示。可以看出,将10机系统分为5群符合系统发电机的转角轨迹趋势。
算例2为某省220 kV实际电网,该模型含37台发电机组、253个计算母线、124个负荷注入,取其冬季大负荷方式数据作为计算条件。发电机采用双轴5阶详细模型。假设零时刻220 kV方东甲线方正变侧发生三相金属性接地短路故障,0.1 s通过跳开该线路清除故障。故障仿真时间为3 s。采用相关理论法(阈值取为2)、三取二分群法(阈值取为2)和模糊聚类方法分群结果见表3。
此种条件下部分发电机转角曲线如图3所示,图3只画出了5号机和7号机所在组的转角曲线。
由表1~表3的分群结果对比及图1~图3转角轨迹可以看出,在判断系统稳定性的过程中用故障切除时刻的状态量进行分群,相关理论法、三取二分群方法在多次试验得到合适的阈值后的分群结果会比较理想,而且在不同的故障条件下该阈值大小设置不同才能得到较好的分群结果,因此该方法的实际使用存在困难。而模糊聚类方法在不同故障情况下分群时,并不需要确定阈值便能准确地将机组划分为不同的等值机,省去了试凑阈值的过程,结果准确度也较好,体现了分群的灵活性和自适应性。3种方法比较后,得出引入“F统计比率”的模糊聚类方法对不同故障条件的分群具有自适应性,分群结果准确,可信度高。
4 结语
通过相关理论法、三取二分群方法和模糊聚类方法对暂态稳定中的受扰发电机进行了分群。对模糊聚类的方法进行了参数分析,引入“F统计比率”保留了发电机分群数目的灵活性。通过算例分析可得:相关理论法和三取二分群方法具有对特定故障的特殊性,即需要根据不同的故障条件确定合适的阈值来分群。而模糊聚类方法则能够很好地对不同故障条件下的受扰发电机分群,具有很强的自适应性,结果表明模糊聚类方法在暂态稳定分析中对发电机分群是有效、可靠的。
摘要:暂态稳定分析多机等值时,受扰发电机的分群是需要解决的首要问题。文中用模糊聚类分析方法对受扰后的发电机进行分群研究,对模糊聚类方法的关键参数进行分析,引入F统计比率指标保证发电机分群数目的灵活性。通过NewEngland10机系统算例比较了相关理论法、三取二分群方法和模糊聚类法的分群效果,分析结果表明模糊聚类法在暂态稳定分析中对受扰发电机的分群有效、可靠。
模糊聚类分类法 篇5
聚类分析法作为水环境质量评价的新方法已引起人们越来越多的`关注.本文运用灰色聚类法对,舞水洪江段水环境质量进行了综合评价.
作 者:黄海燕 田子贵 作者单位:黄海燕(湖南省洪江市环境监测站,湖南洪江,418100)
田子贵(湖南省环境科学研究所,湖南长沙,410004)
模糊聚类分类法 篇6
关键词:专家赋权;模糊C均值聚类;类间距离权重;群决策
一、引言
随着社会的发展,决策问题变得越来越复杂,仅仅依靠单个决策者做出有效的决策越来越困难。为了提高决策的有效性、准确性和客观性,人们通常采用群决策的方法。多属性群决策是群决策中具有代表性的一类群决策,其中属性权重的确定是多属性群决策研究中的一个重要内容。
目前,在群决策研究中基于判断矩阵的专家赋权方法大致可以分为两类:第一类是根据专家所给的判断矩阵的一致性程度来赋权[1-5],判断矩阵的一致性越好,专家的权重就越大;第二类是利用系统聚类的思想对专家先分类、再赋权[6-13],同一类中专家越多,此类专家的权重就越大。总的来说,上述方法在专家赋权上取得了较好的效果,但是仍存在以下问题:(1)以往研究中的聚类分析都是关于硬性聚类,极少考虑模糊聚类的情况;(2)在类间权重确定时,专家数目相同的类别往往被赋予相同的类间权重,无法区分类间信息的差异。
针对上述问题,提出了基于模糊C均值聚类和距离的专家赋权方法,采用模糊C均值聚类进行聚类分析,并在计算过程中,对类间权重确定方法进行改进,最后通过算例说明了该方法的有效性。
五、结语
根据对现有的专家赋权的分析,提出了一种基于模糊聚类和距离的专家聚类赋权方法,对专家聚类赋权进行了改进,提高了多属性群决策时专家聚类赋权的合理性。
参考文献:
[1]王应明,徐南荣.群体判断矩阵及权向量的最优传递矩阵求法[J].系统工程理论与实践,1991,11(4):70-74
[2]王应明.群组判断矩阵排序中的广义最小偏差方法[J].系统工程理论与实践,1994,14(9):63-68
[3]徐泽水.群组决策中专家赋权方法研究[J].应用数学与计算数学学报,2001,15(1):19-22
[4]梁樑,熊立,王国华.一种群决策中确定专家判断可信度的改进方法[J].系统工程,2004,22(6):91-94
[5]梁樑,熊立,王国华.一种群决策中专家客观权重的确定方法[J].系统工程与电子技术,2005,27(4):652-655
[6]郭文明,相景丽,肖凯生.群组AHP权重系数的确定[J].华北工学院学报,2000,21(2):110-113
[7]刘万里.关于AHP中群体决策逆判问题的研究[J].模糊系统与数学,2000,14(3):106-110
[8]吴云燕,华中生,查勇.AHP群决策权重的确定与判断矩阵的合并[J].运筹与管理,2003,12(4):16-21
[9]曾雪兰,吉建华,吴小欢.基于相容性指标的聚类分析专家赋权法[J].广西大学学报,2005,30(4):337-340
[10]高阳,罗贤新,胡颖.基于判别矩阵的专家聚类赋权研究[J].系统工程与电子技术,2009,31(3):593-596
[11]李琳,刘雅奇,李双刚.一种群决策专家客观权重确定的改进方法[J].运筹与管理,2011,20(4):77-99
[12]周漩,张凤鸣,惠晓滨等.基于信息熵的专家聚类赋权方法[J].控制与决策,2011,26(1):153-156
模糊聚类分类法 篇7
灰色关联分析法[1]是一种多因素比较分析法,其实质是曲线发展变化态势的分析,它是以各因素的样本数据为依据用灰色关联度来描述因数间关系的强弱、大小和次序的。如果样本数据列反映出量因素变化的态势(方向、大小和速度等)基本一致,则它们的关联度越大;反之,关联度越小。与传统的多因素分析方法(相关、回归等)相比,灰色关联分析所需要的样本少、不要求待分析序列有某种特殊分布、计算简单,且计算量小,便于广泛应用[2,3,4,5,6]。在聚类分析中,人们往往采用模糊聚类方法,但模糊聚类法不能很好地对各待分析系统按某种性质进行排序和对不同重要性指标进行加权处理。本文将灰色关联度分析方法与模糊聚类方法结合起来,提出了一种灰色模糊聚类法。
1 灰色模糊聚类模型
1.1 方法与步骤[7,8,9]
设待分析系统Si(i=1,2,…,n),各系统指标为Xi:
设系统指标最优参考序列为X0
X0序列一般可取Xi序列中同一性质元素中的最优者构成。
1.2 指标值的规范化处理
由于各指标相互间具有不同的量纲和数量级,不能直接进行比较,因此,需要对原始指标直接按公式(1)进行规范化处理。
设第K个指标的变化区间为[Xi,Xk]。则
1.3 计算各系统的关联度
各待分析系统与系统指标最优参考序列间的关联系数和关联度由公式(2)和式(3)计算。
关联系数
式(2)中ρ∈[0,1],一般取ρ=0.5。则对Xi对X0关联度为:
pk为待分析系统第k个指标的权重。
1.4 构造灰色关系矩阵
由
得:
矩阵R显然满足:
1)自反性 dij=1; 2)对称性dij=dji。
1.5 建立等价关系矩阵
灰色相似关系矩阵R具有自反性和对称性,但一般不具有传递性,也即R2≠R,R4≠R2,R6≠R4,……;就是通过褶积将关系矩阵改成等价矩阵。所谓矩阵的褶积和矩阵的乘积类似,只不过是将数字运算的乘与加改为交∧与并∨。这样计算R2=R·R,R4=R2·R2,…… ,一直到R2n=R″为止。这时,矩阵具有传递性,符合等价关系,把等价矩阵记为R″。
1.6 聚类
将dij由大小依次排序,从1开始沿着dij自小到大依次取λ值,定义
这样就可以直接分类。其中为1的表示两个样本划分为同一类,因而可以得到聚类结果。
2 应用实例分析
断块油气藏是一类复杂的油气藏。与整装油气藏相比,其固有的特征有:(1)断层发育且互相切割,形成众多的含油气断块,单块的面积大小不一;(2)油藏类型多;(3)水驱控制储量小,采收率低;(4)驱动类型多为弹性溶解气驱。
断块油气藏在我国的中原、胜利、大港、新疆、江苏等5个油气区含油气田也有广泛的分布。本文在调研国内一些断块油气藏的地质特征开发模式的基础上,对某断块油田的开发模式进行预测。
在调研了国内一些油田的相关参数之后,模糊聚类评判的综合评价体系指标由下列指标构成:每个油藏含油面积A1,每个油藏的地质储量A2,每个油藏的平均厚度A3,每个油藏的埋藏深度A4,每个油藏的孔隙度A5,每个油藏的渗透率A6,每个油藏的原始地层压力A7,每个油藏的泡点压力A8,每个油藏的地层温度A9,每个油藏的原油密度A10,每个油藏的黏度A11,每个油藏的原始汽油比A12,每个油藏的体积系数A13。用上述指标来对某油藏的开发方式进行模糊聚类。各油藏的综合评价参数如表1。
由表1,选最优参考序列为:
X0=(30.1,3 938,16.8,1 460,30,4.5,14.2,10.4,55,0.812 6,9.5,44.98,1.053),原始指标由公式(1)规范化处理后,由公式(2)和式(3)求得各油藏对系统最优参考序列的关联度分别为:
r=(r1,r2,r3,r4,r5,r6,r7,r8)=(0.125,0.125,0.125,0.125,0.125,0.125,0.125,0.125),由公式(4)构造相似关系矩阵R为:
将R矩阵进行褶积运算,用Visual Basic编写程序,计算得到等价矩阵R″。
当λ分别取0.998,0.997,0.994, 0.636, 0.6,0.5,0.3,0时,利用MATLAB进行模糊聚类[10,11],可得到不同的聚类结果(图1)。
如聚类图所示,聚类的结果显示,某油田X与濮67最为接近,故油田X开发方式也可以类比濮67进行开发。
3 结论
(1)灰色关联分析方法不受数理统计方法对数据的限制,计算简单,结果可靠。是一种较为理想的评价方法;
(2)基于灰色关联分析的措施优选方法,其优点在于可使各方案多指标的不可比性转化为可比的量化指标,这种方法,无论各方案的指标多少,均能同样地分析,并且不存在任何技术上的困难;
(3)灰色关联方法引入模糊聚类中,使二者有机地结合起来,比较好地解决了复杂系统按照某种性质进行排序和聚类,为复杂系统的排序和聚类提供了一种新的方法;
(4)文中应用该方法,对已开发的断块油气田的开发方式进行了模糊分析,并对某断块油田X的开发方式提供了依据。
摘要:断块油气藏是一类特殊复杂的油气藏,对其开发而言,国内外所能借鉴的例子并不多;且大多是陆地油藏,对于海洋断块油藏国内外还没有可以借鉴的例子。针对某海洋断块油田,将灰色关联方法和模糊聚类方法结合起来,建立灰色模糊聚类法。通过实例分析,利用灰色模糊聚类法来对油藏进行聚类,从而为某海洋断块油藏的开发提供依据。
关键词:灰色系统,关联,模糊聚类,MATLAB
参考文献
[1]肖新平,宋中民,李峰.灰技术基础及其应用.北京:科学出版社出版,2005
[2]高凯,郭跃,姜瑞华.基于熵权灰度关联法的重庆市生态系统健康评价.广西师范学院学报(自然科学版),2009;26(1):72—77
[3]关文忠.森林工业灰度关联分析.森林工程,2007;23(3):81—85
[4]李立清,李燕凌.农村居民消费结构的多层次性灰度关联分析.农业经济技术,2003;(6):6—8
[5] Dyes A B,Caudle B H,Erichson R A.Oil production after break-throughas influnced by mobility ratio.Trans.AIME,1954;201:81
[6] Lasdon L,Coffman P E.Optimal making decision on the production ofpetroleum reserviors.Operations Research,1986;(1):
[7]冯国庆,张烈辉,等.应用模糊聚类分析方法评价油藏质量.西南石油大学学报,2004;26(3):33—37
[8]张祥忠,吴欣松,熊琦华.模糊聚类和模糊识别法的流动单元分类新方法.石油大学学报,2002;26(5):19—22
[9]韩侠,张鹏,等.石油企业用户需求的模糊聚类分析.石油工业技术监督,2007;24—28
[10]曹谢东.模糊信息处理及应用.北京:科学出版社出版社,2003
模糊聚类分类法 篇8
电力负荷预测是电力系统规划的重要工作之一,也是能量管理系统(EMS)的重要组成部分。准确的负荷预测,可以减少系统停机备用和旋转备用,增加系统安全稳定运行的水平,充分利用网间的错峰效益,从而降低电网运行的成本,提高电网运行的经济性和安全性并提高电能质量[1]。随着现代科学技术的不断进步和电力系统中负荷预测重要性的不断提高,负荷预测技术得到了很大发展。理论研究逐步深入,预测精度也有了很大的提升[2]。目前,负荷预测的方法主要分为经典预测方法和现代预测方法两类。经典预测方法主要包括趋势外推法、回归分析法、时间序列法等[3],但是这些方法都带有一定缺陷,例如趋势外推法若负荷本身无外推性质并且不能自解释时就会导致误预测[4];回归分析法无法解决负荷与天气等变量间非线性的、动态的关系,使得实际应用中效果不理想;时间序列法则未能考虑天气因素对负荷的影响[5]。
由于经典预测方法的缺陷导致预测精度无法满足电力工业对负荷预测的要求,因此诞生了现代负荷预测方法。现代负荷预测方法主要包括灰色预测法、人工神经网络法、专家系统法和组合预测法等。现代负荷预测方法无论是在预测精度还是可靠性上都达到了一个新的高度,标志着负荷预测进入了一个新的时期[6]。
但是通过对目前为止负荷预测方面的研究成果学习后发现,相对于中长期负荷预测,短期负荷预测由于受随机因素影响较大,负荷走势不稳定,仍然是负荷预测的重点和难点[7]。特别是负荷曲线对于负荷预测的作用没有引起足够的重视,导致这方面的研究成果很少。鉴于组合预测模型能够综合各种预测模型的优点,本文提出了一种将模糊聚类技术与人工神经网络中的BP网络相结合的模型。通过C均值模糊聚类方法实现不同用户日负荷曲线的分类,将每一类所有曲线在各点取平均值,按照平均值绘制出典型曲线。由于ANN用于短期负荷预测时主要采用BP算法,其缺点是需要大量的学习样本,训练速度慢[8]。因此采用典型曲线各点的数据作为BP网络学习样本的一部分,可以有效减少学习样本数量,提高收敛速度,实现短期负荷的快速预测。同时针对传统BP算法易陷入局部极小点的缺陷,利用变学习速率和附加动量的方法来改进BP算法,取得了令人满意的预测效果。
1 C均值模糊聚类算法
1.1 算法原理及流程
C均值算法和K均值算法是模糊聚类领域中常用的两种算法,它们的共同点都是在于通过反复的迭代计算来修正聚类中心,并以欧式距离作为判断样本隶属的依据。当达到某一个特定的条件或者阈值的时候,结束迭代过程并完成分类。但是K均值算法对于初始聚类中心的依赖性较大,分类结果缺乏稳定性,因此C均值算法目前依旧是主流使用的算法[9]。
假设给定样本A={x1,x2,…,x3},聚类数为c,则有式(1)的目标函数成立。
式(1)中,uik表示第k个样本在第i类中的隶属度,并且uik满足式(2)。
式中:zi为第i类的中心;dik为第k个样本到第i类的中心距离。
C均值算法的目的是要取得目标函数的最优解,有以下两个约束条件来进行限制:
式中,m为隶属度的加权系数。
该算法的基本流程如下:
a)给定初始参数m和c,m值一般都取为2,并且计算出初始聚类中心z。
b)利用式(3)和式(4)来计算修正后的z和u。
c)给定一个∈,如果找到一个较合适的范数矩阵,使得||U(l+1)-U(l)||<∈则停止,否则转向步骤b)[10]。
1.2 C均值算法在日负荷曲线分类中的应用
1.2.1 数据的归一化处理
在对日负荷曲线进行分类之前,必须对初始曲线数据进行归一化处理[11],原因主要有以下两点:一是不同用户的负荷曲线所处的数量级可能不同,必须进行归一化处理后,才能使得相同类型曲线的规律性呈现出来;二是由于BP网络的激活函数输出是0-1,通过归一化处理能够使输入层输入数据处于0-1之间,既能适应BP网络的输出,同时也可以减小权值幅度。
归一化处理的方式有多种,针对负荷曲线的数据特点,本文采用下列公式:设日负荷曲线各点初始数据为{y1,y2,…,y24},归一化处理后的数据为{z1,z2,…,z24},则处理过程为
对于其他的BP输入样本数据,也按同样的方式进行处理,只需要更改样本总值即可。
1.2.2 曲线的欧式距离
欧式距离一般用来计算两点之间的距离关系,在模糊聚类中通常作为分类的依据,其计算公式为[11]
欧式距离公式可以扩展到多维空间,但是在计算负荷曲线的欧式距离时,确不能单纯按照点的方式来扩展处理,因为曲线的隶属度判定是依靠形状走势的相似性而不仅仅是距离。具体处理方式是以曲线起点作为基准点,建立相对坐标系。设起点为y1,则曲线的相对坐标为y'1=y1-y1,y'2=y2-y1…y'n=yn-y1。利用相对坐标代入欧式距离公式计算即可分类出相似度最高的曲线。
2 改进的BP算法
BP神经网络可以有多种设计模式,经过反复测试,取如下模式的BP网络对负荷预测的效果相对较好,结构图如图1所示。
该BP网络的隐含层激励函数采用双曲正切型S函数,即tan-sigmoid函数时,运算结果的收敛性比使用单纯sigmoid函数更佳,输出层则采用线性函数purelin,两种函数表达式如式(7)和式(8)所示。
针对图1所示BP网络的传统算法过程参见文献[10]。传统BP算法实际上是一种快速下降静态寻优算法。在修正权值时,没有考虑以前的经验累积,而只是取k时刻的负梯度作为依据[13]。从而很容易出现收敛过慢或者发散的情况。针对这种情况,本文采取变学习速率和附加动量来弥补传统BP算法的缺陷。附加动量后公式变为
式中,mc表示动量因子。这种方法加入的动量项相当于阻尼,减少了学习过程的振荡趋势,改善收敛性并得到更优化的解。
学习速率变化规律如下:如果一次权值改变后误差递增超过3%,则权值改变被取消,学习速率乘以0.5,并且动量系数置0。如果权值改变后网络误差递减,则接受权值更新,学习速率乘以1.5,并把置0的动量系数恢复。如果误差不超过3%,则接受权值更新,但不改变学习速率和动量系数的值。
3 应用实例及结果
本文结合某地2010年4月20日(一般工作日)72个不同负荷用户的日负荷历史数据、当地的天气情况和日类型来作为算例分析。首先采用C均值算法对72个用户的负荷曲线进行分类,根据国家现有规定,电力负荷一般分为居民生活用电、大工业用电、一般工商业用电、非工业用电和农业生产用电五类。因此设置c=5,由于篇幅限制,仅给出居民生活用电分类的结果如图2所示。其中N表示归一化处理,由于归一化处理是将有量纲的数值变换为无量纲的过程,所以归一化后的曲线纵坐标没有量纲。图2中虚线为居民生活用电的典型曲线。
可以看到图2中的曲线走势都比较相近,其他几类曲线的分类图形也是如此,证明利用C均值进行负荷曲线分类的结果是比较理想的。通过对分类后的曲线取均值可以得到典型曲线的数据。随机选取一个用户,预测该用户在2010年4月21的负荷曲线走势。一般情况下利用BP算法预测短期负荷时,至少需要预测日前两周的数据才能保证预测精度。但是将待预测用户所属的负荷类型典型曲线数据作为样本后,则只需要前一周的数据即可。本文采用Matlab自带的神经网络工具箱nntool来进行神经网络计算,当预测日为一般工作日时,在选取样本时需要扣除周末和国家规定的重大节假日,若预测日为周末或节假日则按相同手段扣除工作日即可。由于该方法选取样本的日期离预测日较近,故不考虑天气的影响。因此扣除两个工作日后,共选取5个学习样本,每个样本由8个数据构成。数据1-3该日同预测日相对应的k-1,k,k+1 h的负荷值;数据4-7是该日的最高温度、最低温度、平均温度、湿度。数据8是典型曲线的k h负荷值。网络输入层节点数为8,输出层节点数为1。隐含层节点数由以下经验公式确定[14]:
式中:m为输入层节点数;n为输出层节点数,计算可得隐含层节点数为6。由此建立24个BP网络模型来预测待预测日各整点的负荷值。其中训练函数选择traingdx,增加模式选择learngdm,学习速率和动量初始值分别设置为0.1和0.95。作为对比,本文还采用待预测日前两周的样本数据的BP网络模型作为对比。其中数据1-8同前面相同,去掉数据9。网络预测结果如表1所示,其中预测值1是9输入层BP网络训练的结果,预测值2是去掉典型曲线样本数据后训练的结果。设置MPE为2,最大训练次数为10 000次,负荷预测结果单位为MW。
从表1可以看出,相对误差1始终控制在3%以内,MAPE为1.37%,MSE为0.12 MW,RMSE为0.35 MW,最大误差为-0.6 MW,最大相对误差为-2.71%,最小误差为0 MW,最小相对误差为0。相比之下,相对误差2有10个点的相对误差都超过了3%,MAPE为2.79%,MSE为0.48 MW,RMSE为0.69 MW,最大误差为1.1 MW,最大相对误差为-5.11%,最小误差为0.1 MW,最小相对误差为0.4%。从这些统计数据可以看出,误差2虽然有个别点小于误差1,但总体精确度远远不如预测值1,由此可见加入典型曲线作为学习样本的BP网络取得了较好的预测效果。
图3将实际值同两个预测值在同一坐标系作图对比,通过图形可以更加直观地观测到两种预测方法不同的精确程度。图中实线为实际值,虚线为预测值1,点线为预测值2。从图中可以看出,点线同实线的拟合程度明显小于虚线同实线的拟合程度,再次证实了前文误差分析的结果。
4 结论
本文提出了一种基于模糊聚类与改进BP算法的负荷特性曲线分类与预测的方法。在利用C均值聚类法分类负荷曲线求得典型曲线以后,综合考虑历史负荷、气候因素等一起作为BP网络学习样本。同无典型曲线样本的BP网络训练结果对比,证明该方法能够减少样本数量,提高预测精度,取得了令人满意的预测效果。
基于模糊商空间的模糊聚类研究 篇9
关键词:模糊商空间,归一化距离,分层递阶结构,模糊C均值聚类,聚类中心
1模糊商空间基础
定义1设R∈F (X×X) , ∀x, y, z∈X, 有
(1) 自反性:R (x, x) =1
(2) 对称性:R (x, y) =R (y, x)
(3) 传递性:R (x, z) ≥supy (min (R (x, y) , R (y, z) )
命题1设R是X上的一个模糊等价关系, 若定义∀x, y∈X, x~y⇔R (x, y) =1, 则关系“~”是X上的一个普通的等价关系, 令其对应的商空间为[X]。
定义2设R是X上的一个模糊相似关系, 对于∀λ∈[0, 1], Rλ为R的截关系。Dλ={ (x, y) |∃x=x1, x2, …, xm=y, (xi, xi+1) ∈R, i=1, 2, …m-1}则称Dλ是由X上的Rλ引导出来关系, 其中Dλ是一个等价关系。
定义3给定X上的一个距离d, 若满足:
(1) ∀x, y∈X, 0≤d (x, y) ≤1
(2) ∀x, y, z∈X, 在距离序列{d (x, y) , d (y, z) , d (z, x) }中, 任一个值不超过另外两个的最大值, 则称d为X上的一个等腰归一化距离。同时也称 (1) 为归一化条件, (2) 为等腰条件。若X上的距离d仅满足条件 (1) , 则称d为X上的归一化距离。
定义4给定X上的2个粒度X (λ1) 、X (λ2) , 若满足:
(1) 若∀x∈X, 都有[x]λ1⊆[x]λ2, 则称粒度X (λ2) 不比X (λ1) 细, 记为X (λ2) ≤X (λ1) ;
(2) 若X (λ2) ≤X (λ1) , 且存在x0∈X, 使得[x0]λ1⊆[x0]λ2, 则称X (λ1) 比X (λ2) 细或称X (λ2) 是X (λ1) 的商空间, 记为X (λ2)
引理1若d∈D (X) , 则相应的粒度空间d (X) 构成一个有序集, 且∀λ1λ2∈[0, 1], λ1≤λ2, 有X (λ2) ≤X (λ1) ) , 特别地, ∀λ1λ2∈D, λ1<λ2, 有X (λ2)
如果所有λ按照从小到大排列形成一个序列{Sk}为0≤λ1<λ2<…<λk≤1则对应形成一个分层递阶结构序列{X (λ1) , X (λ2) , …, X (λk) }, 即一个有序粒度空间。
2基于模糊商空间原型的分析
通过引入相似函数来构造出模糊商空间的归一化距离, 从而可以构造出一个有序粒度空间。我们的目标是为FCM聚类提供强有力的初始化方法, 克服FCM算法对初始化中心敏感, 而且要人为的指定聚类数目的缺点。我们通过分析模糊商空间的距离函数的鲁棒性, 并引入基于粒度分析的聚类准则, 计算出最佳的粒度即某一个X (λ) 的商空间最为初始化的中心和最终类的数目, 因此我们选择模糊商空间的X (λ) 仅仅是作为一个可能性的聚类结果, 最后的结果通过QFCM算法得出。
2.1粒度空间的选择与初始中心选择
设λ∈{Sk}, 其对应的商空间为X (λ) ={Cundefined, Cundefined, …, Cundefinedm}, 所以对于∀i, j∈{1, 2, …, n}, 则存在着以下两种情况:①如果i, j属于同一个类, 则R (i, j) 衡量的是类内的相似度;②如果i, j不属于同一个类, 则R (i, j) 衡量的是类间的相似度。
因此我们提出基于粒度思想的准则函数, Scat (λ) 衡量X (λ) 的类内紧凑度, Sep (λ) 衡量X (λ) 的类间分离度。分别如下:
undefined
undefined
其中R (Cundefined, Cundefined) =R (i, j) , i∈Cundefined, j∈Cundefined。
一个好的聚类层次应尽可能的反映数据集的内在结构, 使得类内的样本尽可能的相似即Scat (λ) 尽可能的大, 同时还要求类间的个体尽可能不相似即Sep (λ) 尽可能的小。综合这两个方面, 可定义如下的聚类有效性指标undefined, 可见H (λ) 越小, 说明类内相似度越高, 类间差异性越大, 聚类结果越合理。
通过上面的准则函数, 我们可以得到一个在最佳的粒度层次, 可知类内有很好的紧凑型, 类间有很好的分离性, 因此我们把该粒度层次产生的类数作为FCM的聚类数目。
当一个粒度层次确定后, 可以得到m个类, 为了更好的定义m初始中心点, 定义以下函数undefined其中i∈{1, 2, …, m}, 因此我们只要找到每个类中的能使f (x) 最大的样本点作为中心点就可以, 可知f (x) 越大, 越接近聚类中心并且周围被很多点包围。
2.2基于模糊商空间的FCM均值聚类算法
Wu和Yang在鲁棒统计观点和影响函数基础上提出了一种新的非欧式距离以代替FCM和PCM中的欧式距离。在此基础上, 提出了基于模糊商空间下的归一化距离, 以使得该方法更有普遍性。
设R (x, y) 是一个模糊相似关系, 因此可以得到归一化距离为d (x, y) =1-R (x, y) , 从而用归一化距离代替FCM算法目标函数的欧式距离度量。设原空间样本集为, X={x1, x2, …, xn}, xj∈Rd, j=1, 2, …, n, 模糊商空间映射为Φ:x→Φ (x) , 则QFCM聚类的目标函数为:
undefined
其中undefined。
用Lagrange乘法子可得JQFCM最小化的必要条件是:
undefined (2)
undefined (3)
从 (3) 中可以得出离中心点较近的给了较大的相似值, 离中心点较远的给了较小的权值, 可知归一化距离能更好的反映样本与聚类中心的远近。
在面对实际问题时, 只要通过模糊相似关系, 构造出归一化距离, 并用该距离函数来定义模糊商空间的距离函数来构造有序粒度空间。本文选择exp (-β||x-y||2) 为相似函数, d (x, y) =1-exp (-β||x-y||2) 为X上的归一化距离。
QFCM算法:
Step1针对实际问题选择出适当的归一化距离函数;
Step2设置目标函数精度ε, 模糊指数m, 最大迭代次数Tm;
Step3根据准则函数H (λ) , 选出适当的层次, 得出聚类数目和初始聚类中心;
Step4置迭代次数t=0, 以Step3的结果作为初始聚类中心V (0) ;
Step5根据V (t) 按式 (2) 计算U (t) ;
Step6按 (3) 进一步调整类别中心V (t+1) ;
Step7检验||U (t) -U (t-1) ||<ε或t≥Tm, 则输出聚类结果, 否则t=t+1, 转Step5。
3实验结果
为了验证算法的有效性, 首先采用图1所示的一个二维数据集DataSet, 它是一个模拟数据集, 包含37个数据点, 数据分布呈现3个不同大小、密度的聚类。首先我们在模糊商空间下计算聚类的最佳层次和初始聚类中心, 并跟传统的FCM算法和文献中的随机选取的初始中心点的AFCM算法进行比较。从图2中可以看出在模糊商空间下得到的最佳层次的个数为3, 得到的初始中心点为12、28和34 (1.25, 0.68;2.81, 0.52;2.70, -0.20) 。
在确定聚类个数下, 采用传统的欧式距离的FCM进行聚类, 聚类结果如图3所示, 从图中可以看出FCM算法把右下方的两个小类合并成一个类, 而且把第一个大类分成2个类, 无法得到正确的聚类结果。从而也反映出了FCM算法忽略小类, 聚焦于大类, 在各类的大小不均的情况下, 无法得到正确的结果。下面对随机聚类中心的AFCM算法和QFCM算法分别聚类10次, 用聚类的平均准确率评价聚类结果的优越性, 准确率越高, 聚类结果的质量越高, 对于采用随机聚类中心的AFCM算法, 虽然有时能够得到正确的分类, 但如果中心选取的不当, 常常得到如图3和FCM算法一样的聚类结果, 而且缺乏稳定性。由于QFCM算法是选取具有代表性的点作为初始聚类中心, 这样初始中心更能够接近最终的聚类中心, 由于每次都是采取相同的初始聚类中心, 因此结果是稳定的, 每次的准确率为100%, 而且迭代次数比起采用随机初始中心的平均迭代次数低, 聚类结果如图4所示, QFCM和AFCM算法整体的性能比较如表1所示:
下面采用UCI数据库上的IRIS作为样本数据集, 它有4个属性组成, 包含3种植物种类, 每种有50个样本。
对于IRIS数据集, 在模糊商空间下得到聚类数为3性能指标最小如图5所示, 该层次下选择8、127和118作为的初始聚类中心 (5.0, 3.4, 1.5, 0.2;6.2, 2.8, 4.8, 1.8;7.7, 3.8, 6.7, 2.2) 。通过具有代表性的样本作为初始聚类中心, 克服了AFCM算法初始中心随机选取, 导致聚类结果不稳定的确定, 而且选择出的初始中心点比较接近实际的聚类中心, 更能够有效的减少迭代的次数。对随机聚类中心的AFCM算法和QFCM算法分别聚类10次, 用聚类的准确率评价聚类结果的优越性, 准确率越高, 表示聚类结果的质量越高, 如图6所示。
从图6中可以看出, 对于初始中心是随机选取的AFCM算法, 由于每次选取不同的随机值, 聚类结果也发生改变, 导致聚类结果的不稳定性, 平均准确率为79.59%;而QFCM算法, 是在模糊商空间下得出的具有代表性的点, 选取的初始中心更能够接近最终的聚类中心, 由于每次都是采取相同的初始聚类中心, 因此结果是稳定的, 每次的准确率为93.33%, QFCM和AFCM算法整体的性能比较如表2所示:
4结束语
本文在模糊商空间的基础上, 通过粒度准则函数选出一个适当的层次, 进而选出一组优化的初始聚类中心, 在目标函数中充分考虑各个样本对不同聚类中心的隶属度, 使得算法更有鲁棒性。实验表明, QFCM算法可以发现不同大小的聚类结构, 而且稳定性和准确度得到了较大的提高, 同时降低了迭代次数。
参考文献
[1]DUDA R, HART P, STORK D.Pattern Classification (2nd Edi-tion) [M].New York, USA:John Wiley&Sons, 2001.
[2]张铃, 张钹.模糊商空间理论 (模糊粒度计算方法) [J].软件学报, 2003 (4) .
[3]毛军军, 张铃, 许义生.基于商空间和信息粒度的Fuzzy聚类分析[J].运筹与管理, 2004 (4) .
[4]唐旭清, 朱平, 程家兴.基于模糊商空间的聚类分析方法[J].软件学报, 2008 (4) .
[5]卜东波, 白硕, 李国杰.聚类/分类中的粒度原理[J].计算机学报, 2002 (8) .
[6]徐峰, 张铃.基于商空间的非均匀粒度聚类分析[J].计算机工程, 2005 (3) .
[7]王加阳, 彭岚琳.模糊λ商空间研究[J].计算机工程与应用, 2009 (6) .
[8]张新波.两阶段模糊C-均值聚类算法[J].电路与系统学报, 2005 (2) .
[9]WU KUOLONG, YANG MINSHENG.Alternative C-means clus-tering algorithms[J].Pattern Recognition, 2002 (10) .
模糊聚类及其实际应用 篇10
聚类分析显而易见就是把复杂没有分类的样本集按某种准则或属性进行聚类, 把具有相似属性的样本作为一类, 而不相似的样本尽量放到不同的类中[1]。聚类分析是一种无监督分类方法, 它被广泛地应用于人工智能[2]、模式识别、图像处理[3]、计算机视觉和模糊控制等领域。传统意义上的聚类分析是一种硬划分, 它并不能对实际大多数没有明显属性差别的对象进行划分, 模糊理论的提出为解决这种现实问题提供了有效途径, 人们开始用模糊的方法来处理聚类问题, 称之为模糊聚类分析[1,2], 它准确的反映了客观现实世界的诸多无法用精确聚类分析来描述的现象, 从而成为聚类分析发展的前沿。模糊聚类分析是建立在模糊数学的基础之上, 模糊数学[4]是伴随着上世纪五六十年代兴起的一种分析统计数据以及给出决策的方法。本文对模糊聚类的FCM算法和减法聚类算法进行介绍和分析, 重点介绍其数学模型和算法实现并利用matlab7.1的Fuzzy Logic Toolbox来对2005年度各行业废气排放和处理情况的数据进行模糊聚类分析。
2 聚类分析
2.1 聚类分析概况
聚类就是按照一定的规则来对事物进行区分和分类的过程, 在之中没有任何关于分类的先验知识的指导, 仅据事物属性的相似性作为类别划分的依据, 它属于无监督的范畴。聚类分析就是用数学的方法研究和处理给定对象的分类[1]。
聚类分析应用很广泛, 人们也投入了大量精力来研究它, 提出了许多效果很好的聚类方法, 归结出来可以大致分为4种[1]:谱系聚类法、基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法等。前3种方法是传统的聚类方法主要缺点是不适用于大量数据的情况, 难以满足一些要求性较高的场合, 例如实时性场合。第4种方法基于目标函数的方法则得到了相当的重视, 人们做出了大量卓有成效的工作。基于目标函数的聚类算法是把聚类归为一个带约束的非线性规划问题, 通过优化求解而获得数据集的模糊划分和聚类, 其中模糊c均值[1,5] (FCM, Fuzzy C-Means) 类型算法理论发展最为成熟, 应用最广泛。模糊c均值算法最早是从硬聚类目标函数的优化中导出的。这种方法提供了一种如何将多维空间分布的数据点分组成特定数目的途径。FCM算法是模糊聚类最流行和应用最广泛的一种算法, 在许多领域都取得了非常成功的效果, 并成为许多其它新的模糊聚类算法的基础, 这都推动了模糊聚类在现实中的应用[1]。
2.2 基于目标函数的数学模型[1,5]
设A%=X=12 (, , , ) nX X LX目标集合全体, 对它的每个对象Xk用向量来表示, 其中Xki是第i个特征上的赋值, P (x) 称为Xk的特征向量。我们按照样本的隶属程度 (隶属函数用表示) 把目标集合划分成c个子集, 其中表示样本Xk于子集Xi的关系, 则可用c个集合的特征函数值构成的矩阵来表示。矩阵U中的第i行为第i个子集的特征函数, 而第k列为样本Xk相对于c个子集的隶属函数。首先是传统的c划分又称硬划分即:
我们把隶属函数从二值扩展到[0, 1]区间, 从而把硬c划分推广到模糊c划分即
模糊划分确定样本归属于各个类别的不确定程度, 此就是我们要对样本进行聚类分析需要产生的c划分[1,3]。
对于硬c划分, 定义硬聚类分析的目标函数[1]为
, 式中dik表示第i类中的样本Xk与第i类的典型样本Pi之间的失真度, 我们一般用两个矢量间的距离来度量。j1 (U, P) 表示了各类中样本与其典型样本的误差平方和。当我们把它推广到模糊聚类的情况时, 为了避免产生平凡解, 得到目标函数为
进而推广到一般情况可以得到:
其中, m称为加权指数。dik定义为:
其中A为s×s阶的对称矩阵, 聚类的准则是取jm (U, P) 的极小值。若数据集X、聚类类别c和权重m值已知, 我们就能确定最佳模糊分类矩阵和聚类中心[1]。
3 FCM算法和减法聚类算法
为了使基于目标函数的聚类分析得到更广泛的应用, 人们提出了模糊c均值 (FCM) 聚类算法, 它广泛应用到图像处理、模糊控制等诸多领域, 并取得了很好的效果。但是FCM算法对初值的选取非常敏感, 初值选取不当可能导致它最终达不到预期的效果甚至导致错误, 于是人们应用它的过程中用多次随机赋初值或在多个结果中寻找到最优解, 现在有人运用两层甚至多层FCM来获得最优解, 但是这些方法也有许多弊端, 后来人们又利用遗传算法对FCM进行改进, 这些方法虽能避免产生局部最优解, 但还是没有解决需要事先给定聚类个数的问题。如果在使用模糊c均值之前先使用减法聚类算法找到它的聚类初始中心, 可以避免陷入局部最优解, 能提高聚类速度, 而且不必事先就要确定要聚类的个数[6]。FCM算法是从硬c均值 (HCM) 聚类算法发展而来的, 下面我们将介绍FCM方法及减法聚类算法。
3.1 FCM算法
jm (U, P) 模糊c均值聚类算法 (FCM) 就是用隶属度确定每个元素属于某个类别的程度的一种聚类算法[7], FCM把n个数据向量Xk分c个模糊组, 并求每组的聚类中心, 使得非相似性指标的价值函数达到最小。FCM与普通分类的区别就在于FCM用模糊划分, 使得每个给定数据点用值在0与1间的隶属函数确定其属于各个类的程度[6]。FCM算法中当加权指数M=1时, 模糊聚类就退化为HCM;有人研究表明M的最佳选择范围是[1.5, 2.5], 通常m=2是比较理想的取值[3]。FCM是通过反复迭代优化目标函数即执行下列步骤[1]:
初始化:设定聚类类别数c, 2≤c≤n, n是数据个数, 设定算法停止阈值, 初始化聚类中心 (原型模式) P (0) , 设置迭代计数器b=0;
步骤1:用下式计算或更新划分矩阵U (b) :对于∀i, k, 如果∃dik (b) >0, 则有:
如果∃i, r, 使得, 则有, 且对j≠r,
步骤2:用下式更新聚类原形模式矩阵P (b+1) :
步骤3:如果, 则算法停止并输出划分矩阵U和聚类原型P, 否则令b=b+1, 转向步骤1。
该FCM聚类算法能从任意给定初始点开始而收敛到其目标函数jm (U, P) 的局部极小点或鞍点。
3.2 减法聚类 (Subtractive Clustering) 算法[5,6]
减法聚类是一种用来估计一组数据中的聚类个数以及聚类中心位置的快速实用的单次算法。减法聚类方法将每个数据点都作为可能的聚类中心, 然后根据各个数据点周围的数据点密度来计算该点作为聚类中心的可能性。被选为聚类中心的数据点周围具有最高的数据点密度, 同时该数据点附近的数据点就被排除作为聚类中心的可能性;在选出第一个聚类中心后, 从剩余的可能作为聚类中心的数据点中, 继续用类似方法选择下一个中心。直至所有剩余的数据点作为聚类中心的可能性低于设定的阈值时[5]。
假设所有数据点位于一个单位超立方体内, 即各维的坐标都在0~1之间, 通常指定数据向量的每一维坐标上聚类中心的影响范围在0.2~0.5。定义数据点Xi的密度为:
半径定义了该点的密度范围, 范围外的数据点对密度影响很微小, 计算每个数据点密度后, 选取密度最高的数据点为第一个聚类中心, 计此数据点为Xx1, Dx1为其密度, 则其他数据点密度修正为:
常数定义了一个密度显著减小的范围, 通常大于ra。然后重复以上步骤, 直至所有剩余的数据点作为聚类中心的可能性低于某一阈值时[6]。
4 应用MATLAB的Fuzzy Logic Toolbox对工业污染进行分析
MATLAB模糊逻辑工具箱提供对两种聚类方法:一种是模糊c均值聚类方法即FCM命令行函数, 另一种是减法聚类分析方法, fuzzy工具箱中的函数subclust就是通过减法聚类算法来进行模糊聚类的。本文从国家统计局网站找到2005工业按行业分废气排放及处理情况的统计数据如表1所示:
首先我们对各行业二氧化硫、烟尘和粉尘的排放量进行聚类分析
这样我们就把这些企业的产污能力分为3类, 其中类一表示排污量较小的行业, 类二表示排污量较多的行业, 而类三就表示排污量最多的行业。得到分类结果见图1及表2:
我们得到的数据结果如表2所示:
第4列的数字1表示属于第一类, 2表示属于第2类, 3表示属于第3类。按产污能力聚类得到的结果见表3:
然后综合考虑排污量和处理情况进行聚类分析可得到结果见图2和表4为:
最终聚类结果如表4所示:
同理第7列的数字表示类别:1表示综合排污和处理情况较好, 2表示综合排污和处理情况尚需改进, 3表示综合排污和处理情况需要重点治理。分类结果如表5所示。
综合比较上面两组结果可以看出:当考虑一个行业的废物处理情况时, 有许多行业从第一类降为第2类, 从第2类降为第3类, 比如石油和天然气开采业、农副食品加工业等行业;并且属于第一类的行业数量明显减小, 而属于第2类的行业数却明显增多。可见许多企业对污染处理的力度较小, 归其原因一是处理污染投资较大, 有的企业单纯追求效益而不愿意投资排污处理;二是人们对污染造成的后果还没有得到较清晰的认识, 重视程度不够。
5 结束语
传统的聚类分析是一种硬划分, 每个对象都只能归于一类, 而现实的分类问题往往伴随着模糊性, 即每个对象属于某一类是程度问题。这时候单纯的严密的理论推导和数学计算往往达不到很好的效果, 相反, 模糊逻辑在这方面具有极大的优势, 因此用模糊理论和方法来描述和解决现实聚类问题更为自然和方便。随着模糊聚类研究的深入, 人们提出或正在努力研究一些新的算法和实现方法, 例如基于神经网络的模糊聚类新算法实现途径[8]等领域都对模糊聚类的应用产生了促进作用。
摘要:随着模糊数学的产生和发展, 模糊聚类分析也随之产生并得到广泛应用。本文主要介绍模糊聚类及其应用领域, 分析和探讨模糊聚类的基本原理、方法, 重点介绍C-均值聚类分析算法 (FCM) 以及减法聚类算法, 并结合中国统计局的2005年度各行业废气排放和处理情况的数据用matlab模糊逻辑工具箱对其进行模糊聚类分析, 所得结果可为各行业污染分类情况进行处理提供参考。
关键词:模糊聚类,目标函数,FCM算法,减法聚类算法
参考文献
[1]高新波.模糊聚类分析及其应用[M].西安电子科技大学出版社, 2004:1~65
[2]覃俊华, 张洪伟, 赵世政.基于遗传算法的模糊聚类研究及其应用[J].计算机应用, 2007.1, 27 (1)
[3]林开颜, 徐立鸿, 吴军辉.快速模糊C均值聚类彩色图像分割方法[J].中国图像图形学报, 2004.2, 9 (2)
[4]李洪兴, 汪培庄著.模糊数学[M].北京:国防工业出版社, 1994
[5]吴晓莉, 林哲辉等.Matlab辅助模糊系统设计[M].西安电子科技大学出版社, 2002
[6]肖春景, 张敏.基于减法聚类与模糊C均值的模糊聚类的研究[J].计算机工程增刊, 2005.7
[7]钱同惠, 沈其聪, 葛晓滨等.模糊逻辑及其工程应用[M].北京:电子工业出版社, 2001:303~325
模糊聚类分类法 篇11
摘 要:本文提出了基于改进遗传算法的特征加权模糊聚类算法(IG-WFCM),通过对样本数据集进行聚类划分,以此来确定数据所属的类别。并通过入侵检测仿真实验对该算法进行了测试,结果表明本文的算法是可行的,在一定程度上提高了入侵检测算法的性能和效率。
关键词:遗传算法;模糊聚类算法;入侵检测
中图分类号:TP393.08 文献标识码:A 文章编号:1007-9599 (2013) 09-0000-02
模糊C-均值聚类是利用模糊理论进行数据分析的经典聚类算法,由于其能比较客观地反映现实模型,所以在数据挖掘、入侵检测等很多领域都获得了有效的应用[1,2]。遗传算法(GA)是一种模拟自然进化过程来进行查找最优解的高效全局优化搜索算法[3],应用非常广泛。本文结合这两种算法的特点,提出了一种基于遗传算法的模糊聚类算法,并通过仿真实验对其在入侵检测中的表现进行研究。
1 模糊C-均值聚类算法基本原理
模糊C-均值聚类(FCM)算法基本原理:通过优化目标函数计算每个样本点对所有类别中心的隶属度,从而自动将样本分成c个模糊类别。
设样本集,X={X1,X2,…,Xn}则特征向量样本,Xi=(Xi1,Xi2,…,Xim),xik为样本xi的第k个属性值。样本集X的c个模糊子类别为X1,X2,…XC,V=(V1,V2,…VC),Vj为类别Xj的聚类中心,隶属度矩阵U=(uij),xi对于Xj的隶属关系为uij。
(1-1)
(1-2)
Jm为目标函数,表示样本到类别中心的距离平方和,dik=ㄧㄧXi-Vkㄧㄧ即样本xi到第k个类别中心Vk之间的欧式距离,模糊加权指数m∈(1,∞),其用来控制隶属度矩阵U的模糊程度,根据大量实验可知,m值一般取[1.5,2.5]。利用拉格朗日乘数法,结合条件∑ck=1Uik=1,Uik∈[0,1],i=1,2,∧,n,k=1,2,..,c
可得:
Uik=[∑cj=1(dik/dij)2/(m-1)]-1 (1-3)
Vk=∑ni=1(Uik)mxi/∑ni=1(Uik)m (1-4)
设置终止条件 ,通过式(1.3)和式(1.4)迭代计算,使目标函数Jm趋向最小,达到收敛的目的。
2 属性处理及初始化聚类中心
鉴于网络数据属性值之间的度量单位存在较大差异,为了减少对聚类结果的影响,需要对数据的属性进行预处理[5]。若X={x1,x2,...,xn}为样本集,则容量为n,维数为m,Xif表示第i个样本第f个属性值。xi包含r个连续型属性C1,C2,…,Cr和s个离散型属性T1,T2,…,Ts
本文对于离散型属性值采用基于不同状态的实数编码方式。N(tik)、N(tjk)分别表示属性Tk在样本集X中取值为tik和tjk的数量,dt(i,j)即样本xi和xj之间的离散型属性距离。
dt(i,j)=∑sk=1(N(tik))/N(tik)N(tjk)*λ(tik,tjk) (1-5)
λ(tik,tjk)={0(tik=tjk;)1(tik≠tjk) (1-6)
式(1-7)中Xif即为标准化后的连续型属性值,设R1,R2,…,Rr分别是连续型属性C1,C2,…,Cr的取值范围。mf=1/n∑ni=1xif,sf=1/n∑ni=1(Xif-mf)。
xif=xif-mf/sf (1-7)
dc(i,j)=ω1(x`i1-x`j1)2+ω2(x`i2-x`j2)2+∧+ωr(x`ir-x`jr)2 (1-8)
ωf=Rf/∑rk=1Rk,对连续型属性距离值dc(i,j)进行归一化处理如下:
d`c(i,j)=dc(i,j)/max{dc(i,j)} (1-9)
最后,样本xi和xj的混合属性距离即为DH(i,j)。
DH(i,j)=r/(r+s)*d`c(i,j)+s/(r+s)*dt(i,j) (1-10)
本文初始化聚类中心的确定采取文献5的方法,预先不设定聚类数目C,而是通过启发式聚类来自动确定聚类数目,从而划分聚类类别。网络数据样本集第一个聚类中心的计算可以采用属性算术平均值和属性最高频率取值的方法[5]。
令第一个聚类中心V1的连续型属性向量A=(a1,a2,…,ak,…,ar),离散型属性向量B=(b1,b2,...,bk,…,bs)。ak为连续型属性Ck的算术平均值,bk为离散型属性Tk的最高频率值。
ak=1/n∑nj=1xjk, k=1,2,…,r (1-11)
v1=A+B=(a1,a2,∧,ar,b1,b2,∧,bs) (1-12)
3 IG-WFCM算法在入侵检测中的应用
本文针对模糊聚类算法的特点,提出了基于改进遗传算法的特征加权模糊聚类(IG-WFCM)算法,并通过在入侵检测系统进行测试,对训练数据集划分聚类,计算待测数据与聚类中心Vi的最小距离di,若di大于聚类宽度阈值,则为异常数据。
Step1.对输入的训练数据集初始化;将原始样本集划分成Cmax-1种不同的聚类,聚类数目为Ck,并找出对应的Ck个初始聚类中心;
Step2.对Ck个初始聚类中心进行染色体编码,形成初始种群。
Step3.针对种群中的个体进行FCM聚类运算,计算UCk和VCk,由此迭代,最后得出目标函数Jm;
Step4.对第t-1代种群进行选择操作,形成种群P'(t-1);对于种群P'(t-1)进行交叉操作,形成种群P''(t-1);对种群P''(t-1)的个体进行变异操作,形成第t代种群P(t)。
Step5.根据其聚类中心矩阵计算出群体中个体的隶属度矩阵,再计算对应的目标函数Jm,求出目标函数的平均值Jm=1/n∑nk=1Jm(k),若t=0,则t=t+1且返回Step3,如果t≥Gmax或者︱Jm(t)-Jm(t-1)︳<ε,则转下一步Step6,否则t=t+1,返回Step3继续迭代。
Step6.选取最优个体,并对其进行聚类的评价。
Step7.如果Ck Step8.利用评价函数选取最优聚类数,输出训练数据集的最优聚类结果。 Step9.计算聚类的宽度阈值,对测试数据进行检测。 4 仿真实验 4.1 样本数据集的选取 本文实验选用的样本数据是KDD CUP 1999入侵数据集中的数据,它是目前入侵检测领域权威的测试数据[6]。数据集中的入侵类型可分为:R2L、DoS、U2R、Probing四类。本文训练数据集中的数据皆为正常数据,测试数据集通过随机无回放的方式采样得到。本文分别采用基于IG-WFCM算法与基于传统FCM算法的方法对表1中的5个测试数据集进行了仿真对比检测实验。 表1 测试数据集 4.2 实验结果 本文模糊加权系数m设置为2,FCM的目标函数收敛误差为10-5,遗传算法种群规模N=30,遗传迭代终止阈值为10-4,最大遗传代数Gmax=100,交叉概率Pc=0.8,变异概率Pm=0.01。图1为基于IG-WFCM算法和基于FCM算法的检测率(detection rate)和误警率(false Positive rate)的对比曲线图。 图1 算法检测率和误警率对比曲线 通过实验表明本文的IG-WFCM算法具有可行性,其平均检测率达到80.1%,平均误警率保持为1.605%左右,而FCM算法平均检测率为56.8%,平均误警率为2.32%。 5 结束语 本文提出了基于改进遗传算法的特征加权模糊聚类算法(IG-WFCM),通过仿真实验表明,基于IG-WFCM的入侵检测算法能够有效地降低误警率,提高检测率,对入侵检测系统性能的提高有一定的意义。 参考文献: [1]戴文华.基于遗传算法的文本分类及聚类研究[M].北京:科学出版社,2008. [2]周世兵,徐振源,唐旭清.新的K-均值算法最佳聚类数确定方法[J].计算机工程与应用,2010,46(16):27-31. [3]Maulik U,Bandyopadhyay S.Genetic algorithm-based clustering techn-ique[J].Pattern Recognition.2000,33(9):1455-1465. [4]黄敏明,林柏钢.基于遗传算法的模糊聚类入侵检测研究[J].通信学报,2009,30(11):140-145. [5]周铁军,李新宇.基于加权特征的无监督模糊聚类入侵检测研究[J],湘潭大学自然科学学报,2011,33:01,98-102. [6]胡昌振.网络入侵检测原理与技术[M].北京:北京理工大学出版社,2006. 作者简介:李新宇(1984-),男,湖南益阳人,湖南第一师范学院助教,硕士,主要从事网络与信息安全,数字图像处理研究。 关键词:模式识别,隶属函数,隶属度,神经网络 模糊数学被很多人认为是解决很多人工智能问题,尤其是常识性问题最合适的数学工具。而将模糊技术应用于不同的领域就会产生一些新的学科分支。模糊模式识别一开始就是一个模糊技术应用和研究的活跃领域,人们对传统的模式识别中的一些方法利用模糊数学的方法进行了许多改进。模糊模式识别的方法是利用模糊数学中的基本概念,原理,方法解决分类识别问题。 模糊模式识别问题大致可分为两种:一种是模糊库是模糊的,而待识别对象是分明的;另一种是模糊库和待识别对象都是模糊的模式识别问题。 1 模糊聚类法 所谓聚类分析是指按一定的要求和规律将事物进行分类的一种数学方法,它在天气预报,地震预测,地质勘探,环境保护以及图像语言识别等领域有着广泛的应用,是模糊理论应用最广泛的领域之一。其基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别。简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的。 1.1 模糊等价关系法 人们常常利用模糊等价关系(模糊矩阵)来进行模糊分类,若R为等价关系,则对于给定的λ∈[0,1]使可得到的普通等价关系Rλ,从而得到一个λ水平分类,若0≤λ≤μ≤1,则Rμ分的类是Rλ的某一类的子类,即Rμ的分类是Rλ的分类的加细。 1.2 传递闭包法 在很多应用中,模糊关系具有自反性和对称性,但不满足传递性,即仅是相似关系,此时可对模糊相似关系R进行改造,寻找一个包含R的传递闭包,将其转化为模糊等价关系,进而进行模式分类。这种方法称为传递闭包法。 根据标定所得的模糊相似矩阵,先求出传递闭包R,R为模糊等价矩阵,当λ从0到1取不同的值,即得截集矩阵Rλ,由于λ1刍λ2,所以,因而对任意对象元素(x1,x2),若(x1,x2),则Rλ2(x1,x2)∈Rλ1,即Rλ2(x1,x2)=1。 则Rλ1(x1,x2)=1. 1.3 最大树方法 由于利用模糊等价矩阵的聚类方法,因此,在n很大时,其工作量是成指数规律增加的,所以,此时可以应用在模糊相似矩阵上进行的聚类方法——最大树方法。 1.4 编网法 编网法实现了在R是、的a截矩阵所得到的布尔矩阵上直接进行聚类,此方法相对简单。 求出截矩阵,且空去布尔矩阵主对角线右上部分;将主对角线上的1对应的用其对象xi的标号i来代替;将剩下的0,1中的0去掉,拥*代替1;用竖线和横线将*与对角线上的序号连接,即编网,通过如此打结的对象连为一类。 1.5 模糊C均值法 在C均值法中,吧N个样本划分为C个子类,G1,G2,...,Gc,使得所有样本到聚类中心的距离平方和最小,即使准则函数 而模糊C均值算法设μj(xi)是第i个样本xi属于第j类Gj的隶属度。则聚类损失函数其中b>1是一个可以控制聚类结果的模糊程度常数。 2 模糊模式识别在自适应控制中的应用 一般的神经网络量化机制中,输入变量与个状态之间隶属关系都是简单的'0','1'关系,而将模糊模式识别的观念引入量化过程中,使得量化过程更加精确,以cmac网络来说,第一层将输入引入网络,第二层对对输入进行模糊量化,过程如下,对于输入(x1,x2…,xm)每个输入的区域上定义n个块(X1,X2,…,Xm),输入对于块的隶属关系采用高斯基函数关系,cj表示高斯隶属函数的中心值,σj表示高斯隶属函数的宽度。 假设第二层的第p个神经元是对第i个输入进行第j个块的模糊量化,则神经元的输入输出关系Op=Ip=μXj(xi),p=1,2,…,n,Op,Ip分别为第二层第P个神经元的输入输出。采用这种模糊化方法,即可克服CMAC的主要缺陷,即泛化能力与存储量之间的矛盾。 3 结束语 模糊聚类方法及其相关隶属度函数的确定方法是多种多样的,需要在实践中不断地学习,通过实践检验,利用信息反馈,不断进行调整,加以修改,使之逐步完善,从而达到优化算法,提高分类精确度的目的。 参考文献 [1]陈水利,李敬功.模糊及理论及其应用[M].科学出版社,2005. [2]刘普寅,吴孟达.模糊理论及其应用[M].长沙国防科技大学出版社,1998. [3]李程,邵美珍,黄洁.模式识别原理与应用[M].西安电子科技大学出版社,2008. [4]边肇祺,张学工.模式识别[M].清华大学出版社,2007. [5]吴士力.通俗模糊数学与程序设计[M].中国水利水电出版社,2008. 【模糊聚类分类法】推荐阅读: 模糊聚类11-05 核模糊聚类12-09 模糊数学聚类07-08 模糊聚类:遗传算法10-01 模糊聚类及其实际应用06-27 改进的最优模糊聚类01-11 模糊聚类的方法及应用01-31 分类聚类10-09 K均值聚类法06-30 K-Means聚类法09-25模糊聚类的方法及应用 篇12