自组织分类

2024-11-11

自组织分类(共9篇)

自组织分类 篇1

对各种体系例如煤炭生产数据参数组合取值分布进行客观分类的课题,相关研究已有不少报道。有采用神经网络技术的[1,2];有对烟叶、农作物、文本、图像等进行分类的[3,4,5];有借助遗传算法改进神经网络性能的[6]。但是,对煤炭生产数据的“参数组合取值分布”为分类对象,采用神经网络技术进行自组织分类,未见报道。这是一个有价值的课题,本文以我国2006各省区煤炭生产数据取值分布自组织分类为例进行研究。

1 材料与方法

1.1 材料和仪器

1.1.1 统计数据

采用中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计、取值分布数据为样本体系“参数组合取值分布”数据。

1.1.2 仪器和软件

软件运行环境:神经网络训练与检测是在Windows下使用MATLAB7.1开发的。运行环境推荐使用:WINDOWS XP系统,需安装有Office办公软件EXCEL2000及以上版本,压缩软件WINZIP或WINRAR。

计算机配置要求:内存512M以上;硬盘40 G以上;显示器和显卡支持1024×768、75Hz、24位真彩显示;10/100M网卡;打印机;

1.2 方法

(1)取中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计、取值分布数据作为训练和检测SOM神经网络的输入矩阵;

(2)在MATLAB7.1工作界面上输入神经网络相空间维数设置:net=newsom (minmax (P),[33]),训练步数设置:net.trainParam.epochs=1000;

(3)训练SOM神经网络:net=train(net,P);

(4)运行代码程序,输出对各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布的自组织分类结果;

(5)用训练完毕的SOM神经网络,检测中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布的自组织归类:y=sim(net,P);

(6)上述操作重复进行100次,比较每次结果的中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布数据归类一致率,以检验SOM神经网络矩阵映射的准确性和可靠性。

2 结果与讨论

运行结果的总分示例数据如表1,SOM神经网络对样品的自组织分类,重复100次,剔除这100次统计结果中的特异结果进行归类,SOM神经网络矩阵映射的准确率为90%以上。

注意:调试和运行MATLAB7.1时,要清空遗留信息;要对数据进行预处理。

说明:不同归类序列中各分类代码取不同的数值。这不同的数值是由于SOM神经网络每次运行进行矩阵映射是独立进行的。表1中是按第1列归类升序同步排序的。

3 结论

通过分析发现:采用神经网络技术,对中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布数据构建SOM神经网络进行矩阵映射实现自组织归类,具有较高的准确性和可靠性。这一方法可推广到一般情形:选择不同体系的不同参数组合数据,训练和检测SOM神经网络,能够实现对各种体系的多侧面的客观分类,为我国各省煤炭生产数据评级、预测、诊断、识别提供依据。

摘要:为实现煤炭生产数值分布的自组织分类,用SOM神经网络技术,以《中国工业统计年鉴》提供的我国各省区煤炭生产数据为学习和测试样本,训练和检测神经网络对我国各省区煤炭生产数值分布的自组织分类。实验显示:经过1000步的训练,SOM神经网络矩阵映射重复操作归类相同率,在剔除特异结果后达到90%以上。这一结果证实,利用SOM神经网络技术,可以对我国各省区煤炭生产数据参数组合取值分布进行客观分类。

关键词:各省区煤炭生产数值,自组织分类,SOM神经网络,煤炭生产数值分布

参考文献

[1]何术.SOM神经网络在树叶形状分类中的应用[J].电脑开发与应用,2004,02:132-136.

[2]陈伯成,梁冰,周越博,等.自组织映射神经网络(SOM)在客户分类中的一种应用[J].系统工程理论与实践,2004,24(03),8-15.

[3]阎瑞琼,韩力群,陈晋东.计算机技术在烟叶检测与分级领域的应用[J].烟草科技,2001,03,13-15.

[4]丁露,崔平.SOM聚类算法在文本分类上的应用[J].现代情报, 2007,27(09):162-164.

[5]韩力群.烤烟烟叶自动分级的智能技术[J].农业工程学报,2002, 06:191-193.

[6]覃晓,元昌安.基于遗传算法和自组织特征映射网络的文本聚类方法[J].计算机应用,2008,28(03):757-760.

自组织分类 篇2

根据xxxx公司党委《关于认真做好基层党组织分类定级工作的通知》的精神,在xxxx党委的统一安排下,我们xxx党支部紧密部署,积极配合,在全面开展自我批评与自我检查的基础上,我们党支部充分查找问题所在,分析形成原因,总结经验教训,制定整改方案,以实现将基层党组织建设工作科学化、规范化和制度化发展,不断增强基层党组织的凝聚力和战斗力,不断提高党建工作的整体水平,加强各项工作管理,全面促进xxx公司科学发展。现我支部根据《党组织分类定级参考标准》,仔细分解条目,召开专题党支部会议,深入群众听取意见,认真开展自评工作。形成我支部自评情况总结汇报如下:

一、基本组织建设好(满分5分,自评5分)

1、我xxx党支部组织健全,人员结构合理,支部委员会由支部书记、组织委员、宣传委员、支部干事组成,上级联系我xxx工作的xxx领导也隶属我支部,并指导开展工作。我支部现共有党员28名,其中正式党员28名。(满分3分,自评3分)

2、我支部每三年进行一次换届,换届过程中充分遵循民主投票和集中讨论相结合的组织原则,在xxx党总支的指导下开展支部换届工作。(满分2分,自评2分)

二、基本队伍建设好(满分20分,自评20分)

1、我支部书记熟悉基层组织的党建业务,具有较高的理论水平,党性强,工作能力强,既能积极配合xxx党总支开展各类党建活动,也能合理独立开展支部活动。(满分5分,自评5分)

2、我支部本届支部书记由xxx助理xxx同志兼任,该同志为我xxx专家,系我XXX培养的中青年骨干。(满分3分,自评3分)

3、我支部委员会成员岗位职责明确,分工具体,协调配合。在党支部书记的带领下,制定了明确的支部委员会成员职责划分方案。支部委员会凝聚力、向心力强,成员无违纪现象。(满分3分,自评3分)

4、我支部党员意识和宗旨意识强,积极参与公司的科研和管理工作,战斗在公司发展事业第一线。支部党员在公司的号召下,积极担任我公司机械专业“专业导师”的试点工作,积极带头参加产品质量评比、科研奖励评比等活动,其中涌现出了一批公司级“十大标兵”、校级“十大中青年岗位能手”、“优秀共产党员”、“优秀党务工作者”等先进代表。这些党员同志在我公司的各项科研、管理工作中起到了积极的带头作用。(满分3分,自评3分)

5、我党支部本着公平、公正、公开的原则,严格按照党员发展的标准,做到成熟一个发展一个,现我支部共有党员28

名。其中优秀青年技师、技术骨干中党员的比例达到90%以上。(满分3分,自评3分)

6、我支部全体党员及时缴纳足额党费,同时我支部定期公布党员们的缴纳党费情况,并在党员职级调动的情况下,及时修订了其党费的缴纳标准。(满分3分,自评3分)

三、基本活动开展好(满分15分,自评11分)

1、我支部委员会成员定期组织召开支部党员大会(每学期每月一次)、支部委员会(每学期每月一次)、民主党员评议评议会(每半年一次),及时学习并落实上级党组织的相关文件精神和任务,贯彻我支部党员的思想教育、理论学习。通过在民主生活会、民主党员评议会中,开展批评与自我批评,通过批评与自我批评、自我评价、民主评议和组织考核等系列活动,实现对每个党员监督与促进,达到激励党员、纯洁组织、整顿队伍的目的。(满分5分,自评5分)

2、我支部根据上级党组织的相关指示,及时制定了创先争优活动方案,以创建“五个好”先进基层党组织、争当“五带头”优秀共产党员为主要内容,开展创先争优活动并将此活动深入推进,做到支部每个党员都在该活动中有想法、有贡献、有进步。与此同时我支部也开展了支部及党员公开承诺的相关活动,并在群众的监督下扎实推进,逐一落实。但是限于公司现有条件和部分承诺的实现需要较长周期(如全面提升

公司整体技术水平)等原因,导致支部及党员的公开承诺还未能做到100%的落实。(满分5分,自评4分)

3、在创新活动形式和经常性开展群众文体活动方面是我支部做的不够好的地方。造成这种问题的原因:一方面,是由于受到经费开支方面的限制,无法经常性开展群众文体活动,但是每年至少两次的全体职工联欢活动是我公司所一直坚持开展的,但这与“经常性”这一要求还有一定差距;另一方面,我公司在管理工作当中,难以组织经常性全体群众参与的活动。(满分5分,自评2分)

四、基本制度建设好(满分10分,自评7分)

1、目前我公司还缺乏专门针对支部书记和支部委员的岗位目标责任的文件性制度,及专门就支部工作开展的述职制度,而是将之并入到公司岗位职责和公司年终个人述职报告当中。(满分2分,自评1分)

2、我支部坚持民主集中制,遇到重要问题召开支部大会讨论通过并形成决议后方可执行。(满分2分,自评2分)

3、我支部积极开展关注民生工程,以公司工会和各基层为依托,坚持开展困难教职工和需要帮助的教职工的帮扶与慰问工作,并在公司内部形成了惯例,如每年困难职工的年终专门慰问,教职工婚、育、病、丧的慰问,青年教职工的结对帮扶等。(满分2分,自评2分)

4、我公司领导定期开展与党员群众的谈话、交流,定期分析党员队伍思想政治状况,全体党员干部作风良好,无群众集中反映的重大作风问题,职工思想政治状况积极健康向上。(满分2分,自评2分)

5、我支部基础档案规范,工作记录真实,但还存在不够全面和完备的情况,档案工作需要进一步加强。(满分2分,自评0分)

五、基本保障落实好(满分10分,自评8分)

1、我支部有公司两个会议室和一个工会活动室作为固定的活动场所。(满分5分,自评5分)

2、我支部的党员活动经费得到了公司经费在力所能及范围内的大力支持,2011年本支部组织的活动经费达到了平均500元/人。但限于公司本身经费不足,因此此项开支没有列入经常性预算当中。就日常党支部工作经费而言,在公司的支持下,能够满足所需,但集体性活动经费则不能够逐年保证。(满分5分,自评3分)

六、工作业绩好(满分20分,自评15分)

1、我支部的党建工作计划都会并入公司党总支整体全盘考虑,因此未以独立的形式成文专门的支部计划。(满分3分,自评1分)

2、我支部认真落实上级党组织布置的各项工作任务,在各种学习活动和学院发展的重要工作当中支部做到了认真履

行工作职责,大部分党员发挥了先锋模范作用,协助公司完成了各项工作任务。(满分14分,自评14分)

3、具体到每一位党员的工作当中,有个别党员还存在一定的不足,在充分发挥模范作用方面还有待加强。(满分3分,自评0分)

七、群众反映好(满分20分,自评20分)

通过定期的民主生活会和民主评议会,以及领导分别访谈,职工群众评价,职工其他意见反馈,年终考核等多种方式相结合的群众满意率反馈情况来看。我支部,在1年的群众评价中满意率达90%,支部工作满意度反映出我支部前阶段的工作基本被广大群众认可。但离更高标准还是有一定差距,这将是我们以后努力的动力和目标。(满分20分,自评20分)

自评总分:86分

失分原因分析及整改办法:

在支部文体活动开展方面,我支部将增加文体活动开展次数,与此同时积极创新活动开展方式和形式,做到有新意、有实效、针对职工特点,但不过度依赖经费保障。

在支部基础档案建设方面,首先加强党员材料档案的规范性和完整性,而不依赖于公司人事处档案,并从公司人事档案中独立出来;其次加强支部活动的档案收集与整理工作的力

度,责成专人负责,做到每次活动“前期计划与动员,中期文字与图像,后期总结与宣传”的整套专项档案材料打包存档。在下一步工作当中,支部将针对工作绩效考核配套更加全面、科学、操作性强的考核体系,从而做到工作业绩数据化,工作成效指标化。

自组织分类 篇3

自组织特征映射网络也称为Kohonen网络,或者称为Self-Organizing Feature Map(SOM),是由芬兰学者Teuvo Kohonen于1981年提出的。该网络是一个由全连接的神经元阵列组成的无教师自组织与自学习网络。Kohonen认为:处于空间中不同区域的神经元有不同的分工,当一个神经网络接受外界输入模式时,将会分为不同的反应区域,各区域对输入模式具有不同的响应特性[1]。SOM网络的主要特性:一是自组织排序性质,即拓补保持能力;二是自组织概率分布性质[2]。SOM网络的主要功能是实现数据压缩、编码和聚类,实际应用包括模式识别、过程和系统分析、机器人、通信、数据挖掘以及知识发现等。本文利用SOM网络对常见的几类粮仓害虫进行了分类识别,并取得了较理想的识别效果。

1 自组织特征映射神经网络的结构

SOM网络结构(如图1所示)由输入层和竞争层组成。输入层由N个神经元组成,竞争层由M个输出神经元组成,且形成一个二维阵列。输入层与竞争层各神经元之间实现全互连接,竞争层之间实行侧向连接,从而形成输入信号的特征拓补分布。因此,SOM网络具有抽取输入信号模式特征的能力。

SOM网络的学习算法过程如下:

1) 初始化。对N个输入神经元到输出神经元的连接权值赋予较小的权值。选取输出神经元j个“邻接神经元”的集合Sj。其中,Sj(0)表示t=0的神经元j“邻接神经元”集合;Sj(t)表示时刻t的“邻接神经元”的集合。区域Sj(t)随着时间的增长而不断缩小。

2) 提供新的输入模式X。

3) 计算欧氏距离dj,即输入样本与每个输出神经元j之间的距离。

undefined

计算出一个具有最小距离的神经元j*,即确定出某个单元k,使得对于任意的j都有undefined。

4) 给出一个周围的领域Sk(t)。

5) 按照下式修正输出神经元j*及其“邻接神经元”的权值。

ωij(t+1)=ωij(t)+η(t)[xi(t)-ωij(t)] (2)

其中,η为一个增益项,并随时间变化逐渐下降到0,一般取 η(t)=1/t,或者undefined。

6) 计算输出Ok。

undefined

其中,f(.)一般为0-1函数或其他非线性函数。

7) 提供新的学习样本,来重复上述学习过程,直到网络收敛[3]。

2 图像获取和预处理

试验样品为4种主要储粮害虫,即长角扁谷盗、赤拟谷盗、书虱和玉米象。害虫被放置于白色样品台上,利用MTV-13V1 1 / 3 ″黑白高解析带OSD摄像机获取256级的灰度图像,所有的害虫图像均按相同的放大倍率归一化到460×320的图片上。害虫样品由华中农业大学植保系提供。

害虫图像获取以后,由于存在背景和光照不均匀等带来的噪声影响,还要进行去噪(害虫图像减去背景图像)、对比度增强、中值滤波、阈值分割和二值化处理,获取害虫的二值化图像[4]。

在图像识别的过程中,基于图像的几何形状特征往往是非常重要的。因此,本文主要提取了面积、周长、高度、宽度、占空比、延伸率、复杂度、等效圆和偏心率共9个几何特征参数。上面提取到的害虫原始特征不仅维数多,而且各个特征之间不可避免地存在相关性,需要进行特征选择来减少原始特征的数目。经过分析和对比研究,最终选取面积、周长、宽度、高度、复杂度和偏心率等6个几何特征作为害虫模式识别的特征参数。

由于各种特征值之间幅值有较大的差异,为提高神经网络识别的精度,对已有的实验数据进行了归一化处理,采用平移方法标准差变化公式为[5]

undefined

其中,x和x′分别为归一化前后的数据,而meanx和stdx为原始数据的均值和方差。

3 神经网络设计

本文以4类害虫的样本集训练由输入层和竞争层构成的SOM神经网络。由于选择的害虫种类和样本数量不多,所以竞争层神经元选择为4×4的二维阵列。

3.1 网络训练

实验采用了4类害虫各5个样本(共20个样本)对神经网络进行了训练。对于网络的学习误差精度,不能取得过小,否则不但会增加网络学习的难度,而且也会造成过拟合现象;同时也不能取得过大,否则达不到进行有效分类的效果[5]。

3.2 仿真结果及分析

实验抽取了训练样本以外的12幅害虫图片(每类害虫取了3个样本)进行预处理,提取了6个特征量,并输入神经网络进行识别。神经网络的输出结果如图2所示。其中,每个表分为4*4共16格区域,其中A,B,C,[D]为训练网络的分类结果,而1……12为12个样本仿真后的结果输出。

通过对不同训练次数的实验结果进行分析,可以看出:当误差较大、训练次数少时,不能对待测样本进行有效的分类,训练网络误将赤拟谷盗和玉米象两类害虫归为一类,如图2所示;在训练误差精度过小、训练次数太多时,造成了过拟合现象,将本来为同类的害虫分开了,如图3所示;在训练75次时,SOM网络能达到较快的识别速度和较高的识别率,本实验的有效识别率达到91.7%,如图4所示。

摘要:综合利用计算机视觉技术和自组织神经网络技术,实现了对粮仓害虫的无损检测。通过对粮仓害虫图像的CCD图像预处理,提取了近十个几何特征参数,并通过优化选取其中6个参数输入神经网络进行训练。仿真结果表明,训练网络对粮仓4类常见害虫的识别率达到了91.7%,得到了较好的识别结果。

关键词:自组织特征映射,神经网络,粮仓害虫,分类识别

参考文献

[1]闻新.MATLAB神经网络仿真与应用[M].北京:科学出版社,2003:258.281;300.319.

[2]李春华,李宁,史培军.自组织特征映射神经网络原理和应用研究[J].北京师范大学学报(自然科学版),2006,42(5):543.547.

[3](美)冈萨雷斯(Gonzalez,R.C.).数字图像处理(2版)[M].阮秋琦,译.北京:电子工业出版社,2003:70.81;93.108;460.463.

[4]飞思科技产品研发中心.神经网络理论与MATLAB7实现[M].北京:电子工业出版社,2005:44.58;100.108;165.173.

自组织分类 篇4

为认真落实好基层组织建设突破充实加强年的各项工作,全面扎实推进我乡基层党建工作,根据《转发区党委组织部<关于做好基层党组织分类定级工作的通知>的通知》(芒党组〔2012〕9号)文件精神及**乡党委关于开展本次基层党组织活动的实施方案,认真组织实施了对辖区基层党支部调查摸底、分类定级自评工作,现将开展工作情况汇报如下:

一、基本情况

**乡现有基层党支部5支,其中行政村党支部4支,机关党支部1支;有农牧民党员126人,其中正式党员106人,预备党员20人;有机关党员25名,其中正式党员14名,预备党员11名。

二、具体工作落实情况

(一)积极动员部署,营造良好氛围。

为切实做好基层党组织分类定级活动,我乡党委高度重视,及时组织召开专题会议,对全乡基层组织分类定级活动的相关工作作了全面的安排部署。同时,会后要求各党支部以专题座谈、交流讨论等方式,及时宣传基层党组织分类定级工作做法,广泛发动党员群众参与,让每个党支部和广大党员、干部群众把开展此项工作的目的、意义、方法、目标

弄清搞懂。通过宣传学习,全乡各基层党组织党员群众参与分类定级活动的意识得到强化,自觉性和主动性明显增强。

(二)认真调查摸底,全面掌握情况。

乡党委结合活动,抽调工作人员深各村党支部,对基层党组织的现状进行大调查。要求各党党支部在自查基础上,采取召开座谈会、发放测评表、个别访谈、群众调研等方式,重点调查基层党组织设置、领导班子、队伍素质、组织制度、经费场所保障、作用发挥等情况,切实摸清情况、找准问题。同时,对调查摸底结果进行及时分析,针对存在的问题,认真梳理、提出建议、监督整改。全乡共召开各类宣传学习会7场次,参与党员群众800余人/次。通过调查摸底,进一步吃透了全县基层党组织的底子,查对找准了存在问题,为推进基层党组织分类定级“打好了头阵”。

(三)抓好分类指导,认真组织实施。乡党委严格落实县委组织文件要求,按照分类指导的标准,针对各党组织设置是否合理、领导班子是否健全、组织制度是否完善、经费场所保障是否落实、作用发挥是否充分、党群关系是否和谐、党员党性修养高不高、模范带头作用是否明显等问题细化分类定级参考标准,明确了好、较好、一般、较差基层党组织标准。为切实做到底数清、情况明、问题准。以党支部自评、党员群众测评、乡党委验平的方式,做到相互兼顾、避免片面。

(四)强化督查指导,进行整改提高。为加强对活动的督促、指导和检查,乡党委主要领导亲自深入各党支部督促检查,对分类定级开展不到位的党支部,及时督促纠正,确保活动不走过场、不流于形式。坚持把“让基层党组织服气、让党员群众认可”做为标准,及时发现问题,指导改进提升。通过重点督查指导,真正找出在基层党组织分类定级工作中存在的突出问题,在认真统计分析和分类定级的基础上,针对存在突出问题,按照分类定级的要求,制定有针对性的整改措施,形成查找存在问题准确,分析问题成因透彻,努力方向明确,整改措施过硬的整改方案,用以指导下一步基层组织建设工作。

三、存在的问题

通过摸底调查、群众测评、征求意见、量化考评等环节,乡党委就基层党组织建设存在的问题进行了全面汇总,具体表现如下:

1、制度不够健全、工作力度有待提高。

2、党员的教育管理及培训力度不够,党员先锋模范作用发挥不够明显。

3、党建工作与生产经营活动联系不够紧密,存在相互脱节的现象。

4、党建活动载体不够丰富,创先争优缺乏展示平台。对于存在的问题。我们在以后的工作中将有针对性的加

以整改,努力实现“先进上水平、一般增活力、后进得转化”的目标,整体提升全乡党组织促进社会和谐、推动科学发展、服务人民群众的能力和水平。

三、分类定级汇总情况

本次评级活动做到了全乡4个村党支部和1个机关党支部全覆盖。评级结果分为“好”“较好”、“一般”、“较差”、四个等级。5个党支部中有7个党支部获得“好”评,其中评“好”比例为92%;较好党支部1个,其中评“较好”比例为88%;“一般”党支部1个,群众给予的 “一般”评级比例为77%。1个非公有制经济组织获得评级为“一般”,其中结果中“一般”的比例为76%。机关事业单位两个支部均获得“好”评,好评比例为93%。

中共**乡委员会

自组织分类 篇5

电力系统仿真已深入到电力系统规划、设计、运行和研究等领域, 其中负荷模型对电力系统仿真影响很大[1]。由于电力综合负荷具有时变性、分散性、多样性等特点, 建立完全精确的数学模型十分困难, 只能通过负荷分类与综合对其进行一定精确程度上的模拟, 其中对负荷特性的分类是负荷建模的基础工作。

负荷特性分类是指运用聚类算法将同一电网不同负荷中特征接近或相似的综合负荷归并为一类, 并用同一负荷模型描述该“分类”的负荷特性, 从而建立一定精度的负荷模型[2]。分类过程中要考虑分类结果的实用性与分类的准确性。对此国内外学者进行了很多研究, 取得了较多成果[3,4,5,6]。目前的负荷分类方法, 主要有基于模糊C均值、免疫网络理论及基于神经网络的聚类方法等, 其中应用最广泛的是模糊C均值聚类法 (FCM) , 而FCM算法存在计算过程中对初始条件过于敏感, 易陷入局部最优解的问题[7]。

遗传算法 (GA) 是一种有效的全局搜索方法, 具有鲁棒性高, 随机性好的特点, 是目前智能优化方法中应用最为成功的算法之一, 被广泛用于自动控制、数据挖掘、图像处理等领域[8]。在传统GA算法的基础上, 本文提出了一种自适应GA算法, 改进了交叉概率pc和遗传概率pm的取值方法, 使其随着进化过程自适应取值, 从而优化GA算法的性能, 增强其全局寻优能力, 避免pc和pm取固定值时可能出现的早熟和收敛过慢现象。将其应用于电力负荷特性分类, 解决了分类结果受初始聚类中心选择影响过大和易陷入局部最优解的问题, 仿真实例论证了该方法的有效性和准确性, 具有一定的工程实用价值。

2 自适应GA算法聚类

2.1 自适应GA算法

2.1.1 传统GA算法描述

GA算法是一种借鉴生物界自然选择和进化机制全局优化概率搜索方法, 利用遗传算子 (选择、交叉和变异算子) 促进解集合类似生物种群在自然界中自然选择、优胜劣汰、不断进化, 最终收敛于最优状态[9]。

GA算法的主要运算过程为:先把解空间的数据表示成遗传空间的基因型串结构数据;随机产生N个初始个体;求出每个个体的适应度值, 选择当前种群中的两个个体, 以一定的概率 (交叉概率pc) 进行交叉操作, 得到新一代种群的个体;在群体中随机选择一个个体, 以变异概率pm进行变异操作, 为产生新的个体提供了机会;从当前种群中选出优良个体遗传到下一代中, 依次迭代。当满足最大迭代次数或满足精度要求时, 停止迭代, 当前种群的最优个体为最优解。

2.1.2 自适应GA算法pc和pm的设计

pc和pm影响着算法的性能。pc越大, 群体引入新结构就越快, 但已获得优良基因丢失的速度也相应提高, pc太小则可能导致搜索阻滞。变异操作是保持群体多样性的手段, pm太小可能使个别基因过早丢失, pm太大则遗传算法将变成随机搜索。为避免传统GA算法中pc和pm采用固定值的不足, 本文提出的自适应GA算法, 使pc和pm随遗传进程自适应变化, 使得GA算法具有更高的鲁棒性、全局最优性和更快的收敛速度。

其中, k1~k4≤1.0, 且为常数;f为个体适应度值;f'为交叉互换双方中适应度值较大的个体的适应度值;fm ax为群体的最大适应度值;f为群体的平均适应度值。

2.2 遗传算法聚类

将遗传算法用于聚类分析的流程如图1所示。

具体实现步骤为:

(1) 编码

采用浮点法对染色体进行编码。对于样本空间Rd中样本集X={x1, x2, …, xm}, 要把样本聚类为c类。染色体结构为含有c×d个基因链的结构串S, 则S=g11g12…g1 dg21g22…g2 d…gc1gc2…gcd, 其中gij表示第i个样本的第j个数据。

(2) 适应度函数

GA算法中的适应度函数用来评价个体的适应度, 个体适应度越高, 其存活的概率就越大。以各聚类中样本与聚类中心欧氏距离之和为目标函数

其中, mj (j=1~c) 是聚类中心;xk是样本。

适应度函数fS取

fS越大表明聚类划分效果越好。

(3) 种群初始化

随机选出c个样本, 根据浮点数编码方式将这组个体编码成一个染色体。重复进行N次染色体初始化, 生成个体数为N的种群。

(4) 选择操作

用轮盘赌方法选出个体参加交叉、变异操作, 选择算子

式中, fSi (i=1~N) 表示第i个个体的适应度值; 表示所有个体适应度总和。

(5) 交叉操作

首先随机生成一个交叉点, 然后交换两个父个体中位于交叉点右侧的部分, 生成两个新的子代个体。

(6) 变异操作

本文采用单点变异, 对选中的基因进行非运算。

(7) 进化过程

对种群中染色体进行选择、交叉和变异操作, 计算出每个进化个体的适应度, 并找出其中适应度最大的个体来代替上一代种群中适应度最差的个体。

(8) 终止条件

算法终止条件一般用进化收敛程度或者控制进化代数来设定, 本文以设置进化代数来终止遗传操作。

3 适应GA算法在负荷分类中的应用

3.1 特征向量的选取

在对负荷进行聚类可以选择的特征向量有:①时间特征量。②参数特征量。③运行特征量。④动态特征量。⑤实测响应特征量。

采用负荷扰动数据的实测响应作为特征向量, 不涉及模型结构, 从而减少了模型结构确定过程中的误差, 有利于提高分类的准确性。故本文选取实测响应空间作为特征向量, 包括电压激励和有功无功响应。

3.2 样本数据的预处理

对于扰动强度不同的样本, 采取纵向伸缩的方法进行处理。在样本里选择一个接近标准扰动强度 (15%) 的样本, 在其暂态过程搜索出幅值最大数据点, 再使其他样本的暂态过程幅值最大数据点与之相等, 计算出这两者幅值的比值作为比例系数, 其他暂态数据点的幅值则按该比例系数伸缩。对于样本扰动持续时间长度不同的样本, 进行数据伸缩处理, 以使计算相关系数时各个负荷扰动数据的不同阶段能够对应[2]。

3.3 遗传操作

获取标准化处理后的样本空间后, 按照2.2节所述过程进行遗传操作。遗传操作终止后, 选取末代适应度最大的染色体解码出最终的聚类中心。然后计算各样本与所得各聚类中心的欧氏距离, 各样本被归入与其欧式距离最小的聚类中心。

4 应用实例

以某220k V变电站采集的110k V侧的负荷扰动数据为样本集合, 采用实测响应空间为特征向量, 各实测样本的直观特征值如表1所示, 采用遗传算法对负荷动特性进行聚类。

将样本分为4类, 既c取4。然后进行种群初始化, 每个个体随机选取4个样本作为聚类中心, 种群大小为100。进行选择、交叉、变异操作, k1=k2=1.0, k3=k4=0.5。根据适应度函数判断染色体优良与否, 选择优良个体进入下一代, 进化代数 (迭代次数) 取100, 运行10次。

将本文方法与FCM算法进行比较, 用FCM算法对数据进行分类时, 每次选取不同的初始聚类中心, 把样本分为4类, 进行10次运算。

不同算法得到的聚类结果如表2所示。

由表2可知, 用自适应GA算法进行分类运行结果有两种, 且绝大部分都收敛在同一解上。用FCM算法进行分类时, 当选用不同的初始聚类中心时, 聚类结果有多种, 且较发散。遗传算法具有良好的全局收敛性, 能够更加准确地收敛到全局最优解, 因此分类结果较为稳定。而FCM算法易受到初始聚类中心的影响, 从而陷入局部最优解, 所以当选取不同的初始聚类中心时, 就会出现不同的分类结果, 且发散性偏大, 因此取第2种分类结果为最终分类结果。

为检验分类结果准确性, 对第2类负荷进行参数辨识, 建立等效模型并与直接综合法 (DS) 进行比较。第2类负荷参数辨识结果见表3。

把第2类负荷各样本的电压激励分别作用于等效模型, 得到各模型响应与相应实测响应的拟合误差

其中, ym (k) 为模型响应;y (k) 为实测响应。

将其与基于实测响应空间直接综合法[10]得到的综合模型的拟合误差作比较, 如表4所示。可见, 用GA算法分类所得结果建立等效模型的拟合误差较DS法更小, 能够更好地拟合实测负荷样本, 从而证明了用GA算法对电力综合负荷进行分类精确性较高, 具有实用价值。

5 结论

在负荷建模时需要对电力负荷进行分类, 针对传统FCM算法往往存在对初始条件过于敏感和易陷入局部最优解的问题, 本文提出了一种改进的自适应遗传算法。实际算例表明, 用自适应遗传算法对电力综合负荷进行分类, 具有良好的随机性和全局性, 能够有效降低初始聚类中心选择对聚类结果的影响, 避免陷入局部最优解, 取得了更为理想的分类效果。

摘要:提出了运用一种改进的遗传算法对电力负荷特性进行分类的新方法。通过对样本进行遗传操作, 求出适应度最高的个体, 解码得到最优聚类中心, 再根据样本与各中心距离进行划分, 从而得到负荷样本的最优分类结果, 用获得分类的聚类中心对所属类别样本进行拟合以检验分类效果。改进后的遗传算法的交叉概率和变异概率随进化过程自适应变化, 在保证遗传算法良好的全局性和随机性的同时, 避免了早熟收敛和收敛过慢。实际算例表明, 用这种改进遗传算法对电力负荷特性进行分类, 能够有效避免初始条件对分类结果的过度影响, 取得了良好的分类效果。

关键词:负荷特性分类,聚类,遗传算法,自适应,实测响应空间

参考文献

[1]张红斌, 贺仁睦, 刘应梅 (Zhang Hongbin, He Renmu, Liu Yingmei) .基于KOHONEN神经网络的电力系统负荷动特性聚类与综合 (The characteristics clustering and synthesis of electric dynamic loads based on KOHO-NEN neural network) [J].中国电机工程学报 (Pro-ceeding of the CSEE) , 2003, 23 (5) :1-5, 43.

[2]林舜江, 李欣然, 刘杨华, 等 (Lin Shunjiang, Li Xin-ran, Liu Yanghua, et al.) .电力负荷动特性分类方法研究 (A classification method for aggregated load dynam-ic characteristics) [J].电力系统自动化 (Automation of Electric Power Systems) , 2005, 29 (22) :33-38.

[3]李小燕, 丁明, 徐宁舟 (Li Xiaoyan, Ding Ming, Xu Ningzhou) .面向运行规划可靠性的综合聚类负荷模型 (Integrative K-means clustering based load model for op-erational planning reliability evaluation) [J].电力系统自动化 (Automation of Electric Power Systems) , 2010, 34 (8) :56-60.

[4]顾丹珍, 艾芊, 陈陈 (Gu Danzhen, Ai Qian, Chen Chen) .一种基于免疫网络理论的负荷分类方法 (A load classification method based on artificial immune net-work) [J].电网技术 (Automation of Electric Power Sys-tems) , 2007, 31 (Suppl.1) :6-9.

[5]李培强, 李欣然, 陈辉华, 等 (Li Peiqiang, Li Xinran, Chen Huihua, et al.) .基于模糊聚类的电力负荷特性的分类和综合 (The characteristics classification and synthesis of power load based on fuzzy clustering) [J].中国电机工程学报 (Proceedings of the CSEE) , 2005, 25 (24) :73-78.

[6]杨浩, 张磊, 何潜, 等 (Yang Hao, Zhang Lei, He Qian, et al.) .基于自适应模糊C均值算法的电力负荷分类研究 (Study of power load classification based on adaptive fuzzy C means) [J].电力系统保护与控制 (Power System Protection and Control) , 2010, 38 (16) :111-115.

[7]曾博, 张建华, 丁蓝, 等 (Zeng Bo, Zhang Jianhua, Ding Lan, et al.) .改进自适应模糊C均值算法在负荷特性分类中的应用 (An improved adaptive fuzzy C-means algorithm for load characteristics classification) [J].电力系统自动化 (Automation of Electric Power Systems) , 2011, 35 (12) :42-46.

[8]舒祥波 (Shu Xiangbo) .一种自适应遗传算法的聚类分析及应用 (Analysis and application of adaptive genetic algorithm of clustering) [J].信息技术 (InformationTechnology) , 2011, (4) :190-192, 196.

[9]张伟, 廖晓峰, 吴中福 (Zhang Wei, Liao Xiaofeng, Wu Zhongfu) .一种基于遗传算法的聚类新方法 (A new algorithm for clustering analysis based on genetic algo-rithm) [J].计算机科学 (Computer Science) , 2002, 29 (6) :114-116.

自组织分类 篇6

视觉信息是人类获取外界信息的主要来源。近年来,随着多媒体技术的快速发展,视频图像的应用领域越来越广,例如安保监控、车场管理、医用、军事及民用等。而这些应用常常需要全天候运行,拍摄环境复杂多变,常常因各种因素导致视频图像质量不佳。特别是受噪声、雾霾、低照度等因素影响时,很容易覆盖视频图像蕴含的某些特征,造成对比度大幅下降,严重影响后续处理。而且长期观看低质量视频会加重人眼负担,造成视觉疲劳,甚至导致头晕眼花,因此视频增强技术应运而生。

自20世纪末以来,对于视频增强的需求越来越多,要求也越来越高,关于视频图像增强的算法也不断涌现,并且大部分算法针对某些特定环境具有良好的增强效果[1,2,3],但是缺少一种对各种环境增强效果都很好的算法。因此,针对视频图像的不同应用环境,需要选择不同算法对其进行处理。那么对于不同的视频环境,如何快速分类就显得尤为重要,然后根据视频不同类型给予相应的处理以达到自适应视频增强的目的。

本文以TI公司的一款高性能数字图像处理器TMS320DM642为核心构建系统的硬件平台。根据低亮度图像、噪声图像和雾霾图像的统计特性和特征,进行模式分类。通过分别计算图像的亮度均值、色饱和度均值、分块后总体的平均目标个数和每个块的目标个数标准差,从而实现了自动判断视频类型,自适应地将视频分为正常、低亮度、雾霾、噪声、低亮度加噪声这5种情况。

1 系统硬件设计

为了满足系统对实时性和复杂算法的要求,采用TI公司的高性能多媒体处理DSP 芯片TMS320DM642作为主处理器[4],Altera公司的Cyclone II FPGA芯片EP2C8Q208A做协处理器的主从架构。该平台处理器核心频率配置720 MHz,每个时钟周期可以同时处理8条指令,处理速度高达5 760 MInstruction/s(兆指令/s)[5]。在外部存储器总线接口(EMIF)上扩展了32 Mbyte的SDRAM和4 Mbyte的NOR Flash。除此之外,硬件平台还包括了电源模块、时钟模块、复位模块、JTAG模块、GPIO模块等。系统硬件结构框图如图1所示。

视频图像经过摄像头采集后,送到解码器SAA7113进行A/D转换,将摄像头采集的模拟信号转换为YCbCr为4∶2∶2格式的数字视频信号。再通过DM642的VP0输入口送到数据缓冲区,VP2口则配置为视频输出,与SAA7105编码芯片相连接,将数字视频信号进行D/A转换成模拟信号再送到LCD显示器进行显示。SDRAM作为片内存储器的扩展,主要用作图像处理前和处理后视频帧的存储,Flash则用于固化编译后生成的可执行文件,并引导系统的启动。

2 视频图像自适应分类算法

在实际应用中,视频图像的拍摄环境与场景时常变化,这导致视频图像的质量时好时坏。其中受噪声、雾霾、低照度等影响的视频图像,其质量一般比较差。现有的视频图像增强方法有很多,并且针对某些特定的视频背景采用相应的增强算法可以取得良好的增强效果。因此,针对不同的视频图像实际背景,首先需判定视频是否受某种或几种干扰因素影响,属于何种类型,然后进行相应的处理。

针对视频图像,通过DM642硬件平台采集后对需要进行判断的视频帧,先提取图像的平均亮度、分块后目标个数(二值图像中灰度值为255且连通的一个区域为一个目标)、各块总体平均目标个数和每块目标个数标准差、色饱和度均值这些特征,然后基于这些统计特性分析判断其降质的原因,最后进行模式分类,从而实现视频图像的自适应分类。判断过程主要需要3个模块:亮度判断模块、噪声判断模块、雾霾判断模块。由于实际运行平台的限制,过于复杂的算法将难以达到实时的要求,本文综合考虑到实时性和准确性的要求采用如下原理进行判断。

2.1 亮度判断原理

视频图像质量的好坏与其亮度值关系密切,过亮或者过暗都会损失图像的有用信息。本文通过计算亮度均值来反映视频图像的亮度情况,计算公式为

Avg=1Μ×Νi=0Ν-1j=0Μ-1Gray(i,j)(1)

式中:Gray(i,j)是图像的亮度信息(可直接读入视频图像的Y通道分量);M,N分别为图像的高度和宽度;Avg代表图像的亮度均值。

亮度判断的基本思想是根据输入视频图像的亮度均值Avg判断其类型。如果Avg小于某个阈值,则判为是曝光不足或低亮度类型,需要进行亮度增强处理。如果Avg大于某个阈值,则判为是曝光过度或高亮度类型,需要进行降低亮度处理;否则判为亮度正常情况,不做亮度处理。

2.2 噪声判断原理

数字视频图像的噪声主要来源于图像的获取和传输过程[6]。人们对于平坦区域噪声的敏感度要远远大于边缘区域的噪声。对于视频图像的平坦区域,如果引入了噪声,由噪声引起的目标个数将急剧增多。因此,可通过分析图像的目标个数来判断视频图像是否受噪声影响。

具体步骤如下:

1) 对灰度图像X进行Sobel边缘检测获得边缘梯度图像G,GxGy分别代表经横向及纵向边缘检测的图像,公式为

Gx=[-101-202-101]×X(2)

Gy=[121000-1-2-1]×X(3)

每个像素的边缘梯度为

G(i,j)=Gx(i,j)2+Gy(i,j)2(4)

2) 对边缘图像采用OTSU自适应阈值分割,将目标像素灰度值设为255,背景像素灰度值设为0,从而得到二值图像。

3) 将二值图像分为3×3即9个小块,统计每个块的目标个数(灰度值为255,且连通的为一个目标)记为Ni。计算总体平均目标个数ObjectMeanNum以及每个块的目标个数的标准差ObjectNumStdard,公式为

ΟbjectΜeanΝum=i=08Νi9(5)

ΟbjectΝumStdard=i=08|Νi-ΟbjectΜeanΝum|29(6)

4) 如果目标个数均值ObjectMeanNum大于某个阈值TNumMean,而且每个块的目标个数的标准差ObjectNumStdard小于某个阈值TNumStad,则将视频图像判定为存在噪声,需要进行降噪处理;否者视为无噪声,不需要进行噪声处理。

2.3 雾霾判断原理

雾霾天气的视频图像呈现出偏白色的现象,所以R,G,B这3个分量比较接近,也就是色饱和度比较小。因此本文提出一种基于视频图像色饱和度分量均值来判断视频是否受雾霾天气影响的方案。

HSI模型是1915年美国色彩学家孟塞尔提出的,以色调(H)、色饱和度(S)和亮度强度(I)这3种基本特征量来感知颜色,它反映了人的视觉系统感知彩色的方式。HSI模型可从彩色图像中提取出相互独立的亮度信息和彩色信息,而一般的图像或者视频都是基于RGB(红、绿、蓝)模型,因此需要先进行颜色空间的转换,公式为

Ι=13(R+G+B)(7)

S=1-3(R+G+B)[min(R,G,B)](8)

式中:IS分别为彩色图像的亮度分量和色饱和度分量。对于雾霾天气的视频图像,本文利用色饱和度均值对其进行判断。雾霾天视频图像的色饱和度普遍较小,如果色饱和度均值小于某个阈值,则可确认为雾霾天类型;否则为非雾霾类型。

3 系统软件设计

3.1 软件开发工具

Code Composer Studio(CCS)是一种针对TI的DSP、微控制器和应用处理器的集成开发环境,可完成软件的编辑、编译、调试、代码性能测试和项目管理等工作[7]。为了简化DSP软件的设计过程,提高DSP软件对复杂应用的任务支持,TI公司设计开发了一种尺寸可裁剪的实时多任务嵌入式操作系统内核即DSP/BIOS[8],它包含时钟模块、硬件中断模块、软件中断模块、任务模块、信号量模块、邮箱模块、数据管道模块、资源锁模块等。基于嵌入式操作系统DSP/BIOS的DSP程序,任务请求由DSP/BIOS通过线程和中断优先级来控制执行,从而大大简化了应用程序的前期设计过程。除了利用BIOS提供的模块进行复杂任务的软件开发,还可以借助CCS分析工具高效调试应用程序,了解程序代码的存储、开销及执行时间,或者图形化显示线程占用的CPU时间等。

3.2 基于DSP的软件设计

基于上述DSP/BIOS实时操作系统的多线程框架,结合本文工作需求,软件分两个线程来实现。软件设计结构如图2所示。系统上电工作后,应用程序被BOOT引导程序从Flash中拷贝到SDRAM中开始执行进行初始化。首先对内部执行环境初始化,包括DM642处理器相关模块进行初始化、DSP/BIOS模块的初始化、片级支持库CSL的初始化以及缓存的初始化。然后开始对设备驱动进行初始化,主要是视频采集设备,即DM642的VP口和SAA7113视频编码芯片,将VP0口配置为采集输入口,其他视频接口不用;将SAA7113的输出图像设置为8位YCbCr4∶2∶2格式。在完成初始化后,应用程序开始循环执行,采集线程和判断线程在DSP/BIOS实时操作系统的调度下协同工作。

3.2.1 采集线程

本文采集线程的驱动采用了FVID模块,FVID模块为DSP/BIOS程序提供API函数,以实现视频帧图像的获取和显示。其流程如图3所示。在线程初始化各参数后,调用FVID_create函数,创建采集通道;采集通道创建并初始化成功后,调用FVID_control发送命令使采集设备开始工作;利用FVID_alloc函数获得缓存区,调用FVID_exchange更新图像数据,并将更新的数据通过SCOM通信传递给判断线程。最后判断采集是否完成,并调用FVID_delete()释放帧缓存。

3.2.2 判断线程

在实际应用中,一般视频图像的场景都是运动可变的,其实际背景具有随机性,因此对视频图像分类的结果需要不断更新。如果更新时间过长,可能因为视频背景快速变换导致分类结果更新不及时,影响后面的增强效果;而过短的更新时间会造成算法复杂度较高,不利于视频实时处理。通过大量实验,结合本文采用的硬件平台的实际情况,本文采用每100帧判断1次的方式。

当系统每采集到100帧图像后,通过SCOM队列通信启动判断线程。对采集到的视频帧,先计算图像的亮度均值、色饱和分量的统计均值、分块后每个块的目标个数、总体平均目标个数以及每个块的目标个数标准差。得到这些统计特征后进入如图4所示的判断线程流程图,确定视频图像受到某种或某几种因素影响,属于那种类型。判定完成后,等待下一次判断线程的启动。

4 实验结果

针对不同实际背景的视频图像,结合本文算法得到如图5所示的结果。

表1给出了不同实际背景的视频图像的亮度均值、色饱和分量的统计均值、分块后每块的平均目标个数和目标个数标准差,结合预先设定的阈值(亮度均值Avg<60为低亮度图像,色饱和度均值S_mean<0.05为雾霾图像,平均目标个数ObjectMeanStdard>500且目标个数标准差ObjectNumStdard<80为噪声图像)做出了判断。

本文针对每个类型的不同场景进行了判断结果准确率的测试,测试结果如表2所示。从表2可以看出,除噪声判断准确率稍微偏低,只有76%左右,雾霾天及低照度类型的判断准确率都较高,分别达到了82%和96%。

最后,将编译好的可执行文件烧写到DSP的Flash中,通过上电自举模式,由摄像头采集的视频图像,经过本系统能够快速且较准确地自适应判断其类型,为后续的视频图像自适应增强打下坚实基础。分析实验结果表明,本文基于DSP的视频图像自适应分类系统具有一定的工程实用性。

5 小结

本文介绍了一种以高速定点DSP芯片DM642为核心的视频图像自适应分类的软硬件设计。实验结果表明该系统实现了对视频图像类型快速且自适应的分类判断,为下一步实现图像自适应增强打下了坚实基础。但是系统还存在不足,主要表现在对噪声的判断准确率较低,因此提高噪声判断准确率和实现图像自适应增强将是下一步工作目标。

参考文献

[1]郭蕾,田松,许悦雷,等.一种小波自适应比例萎缩去噪改进算法[J].电视技术,2012,36(11):27-29.

[2]郭珈,王孝通,胡程鹏,等.基于邻域相似性的暗原色先验图像去雾方法[J].计算机应用,2011,31(5):1224-1226.

[3]蔡利梅,钱建生,罗驱波,等.一种基于色彩保持的低照度图像增强算法[J].计算机应用与软件,2009,26(3):226-243.

[4]Texas Instruments.2008年第2季度DSP选择指南[M].[S.l.]:Texas Instrument Incorporated,2008.

[5]Texas Instruments.TMS320DM642video/imaging fixed point digital Sig-nal Processor[M].[S.l.]:Texas Instrument Incorporated,2007.

[6]武英,吴海勇.一种自适应图像去噪混合滤波方法[J].计算机工程与应用,2010,45(7):168-170.

[7]Texas Instruments.TMS320C6000code composer studio tutorial[M].[S.l.]:Texas Instrument Incorporated,2000.

自组织分类 篇7

目前,单标签分类已经无法满足日益增长的海量多标签数据分类的需求,传统的文本分类方法[1]无法简单有效地应用于多标签分类中,尤其是对中文文本的分类,已逐渐成为受到广泛关注的研究热点。在实际应用中,对日常新闻,各类文章的多标签分类更能反映文本的全面特性[2]。

文本训练向量[3]的表示方式为Xi= ( x1,x2,…,xn) ,xi∈Rn,其对应的标签集表示为Yi= ( y1,y2,…,ym) ,yi∈{ 0,1} 。当样本属于第J类时,yj= 1,不属于第j类时,yj= 0。单标签分类问题即为多标签分类的一个当Y向量的值中只有一个1时的特例。

多标签分类[4]指的是,由输入训练数据集定义相关多标签分类器后得到机器学习预测的标签集,使其与实际标签集更为接近。多标签自适应阈值调整[5]是指: 根据多标签阈值结果设定的测试迭代,当输入未分类样例数据De∈X时,对于任意的Yi∈Y,获得置信系数g( x,y) ,多次线性去随机化后得到置信系数使其总体结果与真实情况最为接近。目前,有已被广泛认可的衡量分类结果的正确性与精确度多标签测试指标,例如Hamming Loss、One-Error、Ranking Loss、Coverage、Average Precision等等[6]。

针对多标签分类大致有两大主要策略[7],基于问题转化的方法和基于算法转化的方法。前者是将一个多标签问题转化成一组单标签问题后运用已有的单标签分类方法解决,其最大的优势在于灵活性,通过从现有的单标签分类器直接抽象成一个特定的分类器来适应需求。常见的有BR( BinaryRelevance) 、基于标签对比PW( pairwise comparison) 、LP( Label Powerset) 等算法。BR算法的优势在于概念上的简单和相对快速,但却被认为其脱离了标签间的相关信息,PW算法的缺点在于其时间复杂度过大,LP算法的缺点在于其只能对新例子进行分类,而对训练集中的例子过度拟合。后者则是通过改变已有的单标签分类算法,从而使其能够处理多标签数据,如Ada Boost. MH算法,其对由简单决策树算法产生的弱规则进行加强,经若干次迭代后,得到一个准确度更高的规则,但训练速度慢,难以处理大文本量信息、ML-k NN算法、贝叶斯算法等等,它们训练速度快,但若原始语料出现较大的类别偏差,会降低效率[8]。

本文结合了问题转化和多标签算法改进的思想,提出的是一种在各类特征选择基准调整后,基于已有单标签分类结果进行加权、自适应阈值设定,不同权重投票相结合的方法,对待分类实例进行多标签分类,能提高多标签文本分类的准确度与精度。

1 文本分类的工作基础

1. 1 汉语文本自动分词

本文采用的是最大正向匹配的中文分词算法[9],相当于分词粒度等于零。若在分词词典中的最长词有k个汉字字符,将用被处理文本的目标字符串中的前i个字作为匹配字段查找字典。若字典中存在这样的一个K字词,即为匹配成功,作为一个词切分出来。如果词典中找不到这样的一个k字词,即为匹配失败,将匹配字段中的最后一个字去掉,对剩下的字符串重新进行匹配处理……如此迭代进行下去,直到匹配成功,切分出一个词或剩余字串的长度为零为止。然后取下一个K字字符串进行匹配处理,直到文本扫描完毕。

1. 2 特征选择

首先对文本粗降维,指的是训练文本经分词后首先去掉停用词,即一些没有实际分类意义的高频词、稀有词。高频词会多次出现在各种类别的文本中,稀有词属于偶尔出现在各个类别中,没有实际的分类检索意义,同时清除些多余的符号等冗余。本文中采用了经过各类别字词贝叶斯统计分析后,建立停用词表,通过词表法去掉高频词和稀有词[10]。

但是文本的向量空间表示初始维数依旧有可能太大,会导致维度爆炸,我们必须对向量空间进行降维。特征选择的目的就是从原有的特征中选择出与标签集有最大的依赖度的子集。根据TF-IDF公式[11]计算互信息量的方法选择最具有类别识别度的特征,从而选出对分类贡献重大的特征向量,与此同时也可以提高分类的精度和程序的运行速率及效率。

其中,w( t,d) 为词t在文本d中的权重,tf( t,d) 为词t在文本d中的词频,N为训练文本集的训练文本总数。ni为训练文本集中出词t的文本数。分母为归一化因子。我们需要对向量空间进行降维,保留那些对分类贡献重大的词,提高分类的精度。同时也可以提高程序的运行速率和效率。

1. 3 特征权重调整

为了更好地选取文本特征,我们必须尽可能选出在各个类别中具有代表性的词,为了达到其目的,采用了一种特征权重调整的策略,为每个前期特征选择后的特征赋予权值,设定为该特征在最大类别中的出现频率与所有类别出现频率的平均值的比值,,使得在文本中更能体现类别特点的词获得更大的权重。

2 相关信息加权的自适应多标签分类算法

2. 1 信息加权模型算法

信息相关模型加权的基本思想是从一个文本出发,随机找到其相邻文本,并计算出文本间的距离作为权重。遍历其在一定距离范围内的邻居文本,反复迭代后得到一个与初始文本相关度最大的各个文本并得到距离概率分布。

首先将训练集合D映射成模型图中的一个点集合V,对于待处理点计算其vi相邻点的欧氏距离并且将其相连,基于欧氏距离的相似概率可定义为:

模型图可表示为: 图G中有点集合V,其包含的边为距离在一定范围内的相邻点。

其权重值表示为Wij:

例如: 根据一个四类标签集合语料,Y = { y1,y2,y3,y4} ,训练数据集中包含四个文本实例,文本类标签为表1所示,模型计算的新加入实例与各个类标签间的权重为表2所示。

任意两个样例在特征集合表现出相似性时,那么它们在类标签集合上也会具有相似性。由于多类标数据集的类标维度大于1,有时甚至和特征集合的维度相当,上面的特性反过来也成立: 就是说任意两个样例在类标集合上具有相似性时,在特征集合也会表现出相似性。因此根据这个特性提出加权属性调节权值的方法: 分别对训练数据集特征空间的每个特征分量进行分析,计算每个样例在缺少这个特征分量时的多个近邻,得到的类标签集合与这个样例基于类标的多个近邻类标集合。

2. 2 WeightedL abel Power 投票预测

这个方法即将多标签问题转换为单标签多类分类问题,转换类的属性值与训练样本实例的标签集相关,基于投票机制,对所属文本进行类标签判断,如表3所示,总计大于阈值K×0. 5的即为预测标签,此例为K = 4。

2. 3 多标签分类算法的框架描述

对于训练集的样本特征进行统计后得到每个特征的权重调整,从而使特征更能反应其类别特性。为每个测试实例通过调整后的权重特征,找到其在训练集中相应的K个邻居实例,将它们与其K个邻居节点间的距离作为类别实例权重。通过WeightedL abel Power投票策略,预测出分类结果。对于总体结果进行统计性能测试,基于Hamming Loss、Ranking Loss、Coverage、Average Precision、One-Error的总体评价,调整邻居节点的数目,反复迭代得出结果。

3 实验结果及分析

3. 1多标签性能测量指标

本文选取的多标签性能指标为Hamming Loss、One-Error、Ranking Loss、Coverage、Average Precision,如表4所示。Hammingloss指的是实例真实结果与实例预测结果集间的异或,此评价代表了实例标签对错分类的次数; One-error是指该预测实例类别相关度最高的类与实际结果的异或,此评价代表了最高排名的标签不在例子实际分类中的次数; Coverage指的是正确结果的错误度,此评估代表了平均每个预测实例需要降低多少格才能找到精确的标签; Ranki-loss指的是评估了平均标签对的局部排序错误,该评估反应了预测结果在排名上的错误,Averagepercision评估了预测出的标签平均精确程度。前四个方面评估值越小越好,但最后的Average-percision值是越大表现越好。

注: ↑表示值越大效果越好,↓表示值越小效果越好。

注: ↑表示值越大效果越好,↓表示值越小效果越好。

3. 2 语料描述

本文采用的是酵母[12]、景象[13]和情感[14]英文数据集和一个来自同济大学卫志华老师提供的中文新闻文本语料库[15],其具体的信息包括训练样本数、测试样本数、样本特征数、标签数、及平均标签长度,如表5所示。酵母数据集是一个关于基因功能分类的数据集,其中每个样本代表一个基因,它的特征来自于基因的微阵列表示和系统发育谱; 景象数据集的每个样本代表一幅图像,样本的特征取自于图像的颜色信息和结构信息; 情感数据集的每个样本代表人们听到某种音乐所产生的情感,样本的特征取自于音乐的节奏和音色。中文文本语料库的样本是取自教育,经济,军事,科技,商务,社会,体育,娱乐,政治共九大类的中文文本新闻数据集。现实的新闻语料的多标签情况受到许多因素的影响,如在人工划分对内容理解的主观影响、概念区分不清晰、标签之间从属关系等。数据本身就存在大量噪声。此外,在多标签数据中各类样本分布很不均匀,所以要尽量选取较为平均分布的语料。

表5中的标签势是指训练数据集中实例的平均标签数目,而标签密度指的是标签势数除以标签数。

3. 3实验结果

本文实验环境为Intel( R) Xero CPU E5620@ 2. 40 GHz,15. 9 GB内存,1T硬盘的华为服务器,操作系统为Winserver2003,Java版本Sun JDK 1. 7. 0。采用10倍交叉验证( 10—foldCross—validation) 策略对四个数据集进行了仿真实验。根据自适应迭代测试,情感、景象和酵母数据集和同济新闻语料库的初始K值分别选定为10、10、10、15。实验中与IWLC算法采用的对比算法有MLk NN[16]( Multi-Label k-nearest neighbor ) 、BRk NN[6]( Binary Relevance k-nearest neighbor ) 、RAk EL[17]( Random k-Labelsets) 、NB[6]( Naive Bayes) 。在对比实验中,将原有数据集和测试集混合,随机平衡采样各类并排序。

从表6到表9中的5个评价指标中可以看出,在Emotions和Scene以及yeast的大部分 指标上IWLC均好于MLk NN、BRkN N、RAk EL、Naive Bayes方法,说明了在小数据集分类方面IWLC有着明显的分类准确性提高; 但在Scene上的Hammingloss分类效果上略逊于ML-kN N和BR-k NN,这很有可能是因为其语料为图像数据且特征选取代表性不均衡且标签势太小。在非海量数据实例集上测试,IWLC的Ranking Loss、Coverage、Average Precision、One-Error分类效率显著高于其余各种测试方法,说明了其总体实验结果较之于其他方法有排序较好、整体错分率降低、平均精度提高、最高排名分类准确度更高。在对同济大学提供的大信息新闻语料库的测试中,由于数据分布的复杂性和分类算法达到效果的侧重点不同,ML-kN N和BR-k NN在Hamming-loss分类效果上稍优于IWLC,但其他方面,IWLC方法例如Rankingloss、One-Error依旧尤为突出,在Coverage,AveragePercision上也优于其他方法,故综合比较还是一种较为可行且有效的多标签分类算法。

4 结 语

本文采用的一种相关信息加权的自适应多标签分类算法,相对于现有的一些多标签分类方法在大部分性能指标上有所提高。自适应选择的过程会帮助算法在针对不同领域的的语料库有更好的效果,将经典线性回归体系扩展到多标签分类。实验可见,IWLC算法提供了一种更为有效,分类可靠性更高的多标签分类算法,本文的后续工作是进一步改进其在分类精度上的进一步改善。

摘要:在文本分类中,传统单标签分类问题的解决方法无法简单地应用于多标签文本分类,现有的方法通常会通过单标签问题转化思想或者多标签自身算法改进实现对多标签的文本分类。提出一种相关信息加权的自适应多标签分类算法,该算法具有相关信息加权、自适应阈值调整、权重投票相结合的特点。实验结果表明,该算法的某些性能指标优于现有一些常用的多标签分类方法。

自组织分类 篇8

合成孔径雷达 (SAR) 是一种全天候、全天时的高分辨率微波遥感成像雷达。利用SAR可以获得同一场景不同波段的多幅图像, 但任一波段都不能综合反映某个场景的全面信息。图像融合能很好地解决这个问题, 并且像素级融合能尽可能多地保留场景的原始信息, 这里采用像素级图像融合, 并且假设待融合图像已经完成配准。

最简单的像素级图像融合算法就是简单平均法[1,2], 该算法会丢失很多细节信息, 得到的图像往往视觉对比度比较差, 而且带点模糊。多分辨分析是图像融合中常用的手段, 能够分离高频信息和低频信息, 提高图像融合效果。小波域绝对值最大法[3,4,5]是一种很常用的小波域图像融合算法, 它的依据是绝对值大的小波系数包含了更多的图像信息, 该算法取得了较好的融合效果;但是它的缺点也是很明显的, 主要是对噪声非常敏感, 并且从单个像素来考虑突出特征有明显局限性, 此外它没有考虑到小波系数之间存在一定的相关性。基于交叉极大的小波域图像融合算法可以看作是小波域绝对值最大法的扩展, 该算法的融合效果和小波域绝对值最大法相近。Shahid提出的基于冗余小波变换和投票的绝对值最大法利用了冗余小波变换的冗余性, 避免了重要特征的丢失, 并从局部窗口出发来考虑绝对值极大, 一定程度上吻合了特征往往超出一个像素这个事实, 但是最后的融合效果并不理想。此外, Peter J. Burt[6]提出了基于窗口匹配度的小波域图像融合, 蒲恬[7]提出了基于对比度的小波域图像融合, 这些算法由于自身的局限性, 融合效果都没有明显改进。

本研究提出一种基于像素分类的自适应SAR图像融合算法。为了更好地保护边缘, 算法中还介入了边缘分类增强。

1 基于像素分类的自适应SAR图像融合

1.1 边缘提取并分类

不同波段的SAR图像表达信息的侧重点不一样, 如高波段SAR图像善于表达地表特征和纹理信息, 而低波段SAR图像善于表达被遮蔽的隐蔽目标, 这就导致了它们的边缘信息存在着差别。基于这个事实, 通过canny算子对两幅待融合图像进行边缘检测, 可以把融合后的图像像素分成3类:在两幅待融合图像中均被检测为边缘信息的像素归为第1类, 认为是图像的主边缘;只在一幅待融合图像中被检测为边缘信息的像素归为第2类, 认为是隐蔽目标或细节纹理的边缘 (次边缘) ;在两幅待融合图像中均被检测为非边缘信息的像素归为第3类, 认为是一般的纹理信息。用数学公式表示:

undefined

其中, Edgea (i, j) =0和Edgea (i, j) =1分别表示待融合图像a的像素ima (i, j) 被检测为非边缘信息和边缘信息, Edgeb (i, j) =0和Edgeb (i, j) =1分别表示待融合图像b的像素ima (i, j) 被检测为非边缘信息和边缘信息。在后面的处理中, 根据Edge (i, j) 的不同值对融合图像的两类不同边缘进行不同程度的增强 (主边缘的增强力度稍大于次边缘的增强力度) , 这样做的目的是为了更好地修复边缘、保护边缘。

1.2 图像建模

SAR图像建模是在小波域进行的。小波域隐马尔可夫树模型[8,9,10]充分考虑了多分辨分析中各层小波系数之间的相关性和传递性。在小波彻底分解后, 用马尔可夫树模型把所有小波系数分成3棵四叉树, 最后一层的高频小波系数作为这3棵四叉树的根节点, 这种结构关系如图1 (a) 所示。顺着箭头方向, 上一层小波系数和下一层小波系数被称为父子节点, 一个父节点对应4个子节点。

在对图像的小波分解图建立树模型以后, 还需要对每个小波系数建立统计模型。两个零均值高斯分布函数 (混合高斯模型) 能够很好地表示图像小波系数的概率分布。这两个高斯分布代表了小波系数所对应的图像信息的两种不同属性:其中一个方差比较大, 对应变化比较尖锐的图像区域, 如边缘、目标等;而另一个方差比较小, 对应图像的平缓区域, 如平坦的地表等。为了体现这两个高斯分布各自的分量, 需要给每个小波系数wi分配一个隐状态变量Si, 以Si=L和Si=S分别表示小波系数服从大方差高斯分布和小方差高斯分布, 并且Si=L和Si=S的概率分别为:P (Si=L) =pundefined, P (Si=S) =pundefined=1-pundefined。由此, 可以得到小波系数的边缘概率密度:

f (wi) =pundefined×g (wi, μundefined, σundefined) +pundefined×g (wi, μundefined, σundefined) (2)

式中 g (w, μ, σ) —高斯分布的概率密度函数;μundefined和σundefined—大方差高斯分布的均值和标准差;μundefined和σundefined—小方差高斯分布的均值和标准差, 在计算过程中μundefined和μundefined可以保持为0。

在得到小波系数统计模型以后, 还需考虑到父子结点之间的关联性。小波系数的绝对值大小只和它的父节点有关, 马尔可夫一步转移模型能很好地实现这种关联性, 父子节点之间隐状态转移的概率矩阵为:

undefined

式中 pundefined—当父节点的隐状态为L时, 子结点的隐状态为S的概率, pundefined, pundefined, pundefined依次类推。

到此为止, 本研究已经完成了SAR图像建模, 决定该模型的参数为θ={μ, σ, pLroot, ε}, 其中pLroot为根节点的隐状态为L的概率。带隐状态的马尔可夫树模型 (HMT) 如图1 (b) 所示, 黑节点代表小波系数, 白节点代表隐状态, 连线表示状态转移。

由于该问题是一个不完全数据的参数估计问题, 用期望极大法 (EM算法) 来求解模型的参数θ。

在获得模型参数以后, 可以进一步求出后验概率:p (Si=L/w, θ) 和p (Si=S/w, θ) 。

1.3 图像融合

在得到图像的模型参数以后, 就可以根据待融合图像的像素所服从的不同高斯分布作出不同的融合决策。以Sa (i, j) 和Sb (i, j) 分别表示两幅待融合图像的小波系数wa (i, j) 和wb (i, j) 的隐状态变量。

(1) 当Sa (i, j) =L, Sb (i, j) =L时, 是尖锐变化区域的融合。梯度能够反映图像微小细节的反差、纹理变化特征以及图像的清晰度。因此, 从丰富图像的细节信息和提高图像清晰度的角度出发, 此时本研究选择梯度极大法进行融合比较合适。这里得到的融合小波系数记作w1 (i, j) 。

(2) 当Sa (i, j) =S, Sb (i, j) =S时, 是平缓区域的融合, 此时用梯度来进行融合明显不合适。考虑到这时候的小波系数包含的纹理信息比较简单, 本研究选择卓越性极大法。卓越性更大的小波系数所表示的信息更重要。卓越性的一种定义是局部能量:

undefined

式中 p—以当前小波系数为中心的3×3的窗口;p (m, n) —窗口内的小波系数。

这里得到的融合小波系数记作w2 (i, j) 。

(3) 当Sa (i, j) =L, Sb (i, j) =S或Sa (i, j) =S, Sb (i, j) =L时, 是两个不同属性的小波系数之间的融合, 并且其中一个对应着只包含于单幅待融合图像的特有信息, 往往是指隐蔽目标信息、被忽略的细节边缘信息等。此类信息应该受到格外重视, 因此笔者采用绝对值最大法并增强。增强系数k (1.2≤k≤1.8) 可根据具体情况进行适当调整, 在这里增强系数k取为1.5。这里得到的融合小波系数记作w3 (i, j) 。

考虑到每个小波系数的混合高斯模型, 融合以后的小波系数为:

w (i, j) =w1 (i, j) ×pundefined×pundefined+w2 (i, j) ×pundefined×pundefined+w3 (i, j) × (1-pundefined×pundefined-pundefined×pundefined)

式中 pundefined和pundefined—Sa (i, j) =L和Sa (i, j) =S的概率;pundefined和pundefined—Sb (i, j) =L和Sb (i, j) =S的概率。

对融合后的小波系数执行小波反变换就可以得到新图像imnew。现在根据Edge (i, j) 的不同值对新图像imnew的两类不同边缘进行不同程度的增强 (主边缘的增强力度稍大于次边缘的增强力度) , 以获得最终的融合图像。用公式表示为:

undefined

式中 im—最终获得的融合图像;α和β—边缘增强系数, α>β, 这里取α=1.2, β=1.1。

1.4 算法的流程图

算法的流程图如图2所示。

2 实验结果与分析比较

实验中本研究采用的是256×256的SAR图像, 如图3 (a) 、 (b) 所示, 图像由中电集团第38研究所提供, 是某型号合成孔径雷达在某地区拍摄的SAR图像。为了增强本研究算法的说服力, 特给出了不包含边缘分类增强的本研究算法的实验结果。实验结果如图3所示。

从图3可以看出, 新算法很好地融合了两幅待融合图像的信息, 融合图像纹理清晰, 边缘分明, 重点特征突出, 具有比传统融合算法更好的视觉效果。为了更客观地说明新算法的优越性, 本研究采用熵[11]和平均梯度这两种指标来衡量。熵的大小反映图像所包含的信息量的多少。熵的定义为:

undefined

式中 Pi=Ni/N;Ni—灰度值为i的像素数;N—像素总数;L—总灰度级数。

熵越大, 说明该图像的信息量越丰富。平均梯度能够反映出图像微小细节反差与纹理变化特征, 同时也表达了图像的清晰度。平均梯度的定义为:

undefined

式中 ᐁG—图像的平均梯度;Δxf (i, j) 和Δyf (i, j) —像素 (i, j) 在x方向和y方向的一阶差分;M, N—图像的尺寸。

平均梯度越大, 说明该图像越清晰。各种融合算法的客观衡量结果如表1所示[12]。

从表1可以看出, 和传统的SAR图像融合算法相比, 新算法得到的融合图像信息量更丰富, 图像更清晰。因此, 无论从视觉效果角度还是从客观指标角度看, 新算法确实实现了更好的融合效果。

3 结束语

基于像素分类的自适应SAR图像融合算法主要考虑到了SAR图像丰富的信息量和信息种类, 在小波域利用高斯混合模型和隐马尔可夫树模型对图像小波系数进行建模, 进一步通过模型参数对待融合像素进行分类, 并自动根据分类结果进行针对具体地物属性的自适应融合。此外, 算法还考虑了边缘分类增强。通过实验验证, 新算法实现了比传统SAR图像融合算法更好的融合效果。

由于隐马尔可夫树模型自身的局限性, 用EM算法求解模型参数会影响SAR图像处理的实时性。如果只用简化的参数取代, 又会影响参数的精度和融合的效果。因此, 根据SAR图像的先验信息自适应地确定一个合适的参数初值是一项值得开展进一步研究的课题。

摘要:提高纹理清晰度、保护边缘信息是合成孔径雷达 (SAR) 图像融合的重要目标。针对该问题, 提出了一种基于像素分类的自适应SAR图像融合算法。首先使用canny算子提取图像的边缘并分类, 然后利用混合高斯模型和隐马尔可夫树模型对小波系数进行建模;在此基础上使用EM算法求得模型参数, 并进一步得到隐状态的概率, 也就确定了小波系数的混合高斯分布;接着对两个待融合小波系数不同的类型组合采用不同的融合策略, 并以隐状态概率加权;最后通过小波反变换、边缘分类增强获得融合以后的图像。实验结果表明, 和传统的融合算法相比, 该算法取得了更好的融合效果。

关键词:像素分类,自适应图像融合,混合高斯模型,隐马尔可夫树模型,合成孔径雷达 (SAR)

参考文献

[1]SHAHID M, GUPTA S.Image Fusion across Bands[C]//Proceedings of the Eighth International Symposium on SignalProcessing and Its Applications.Sydney:[s.n.], 2005:811-814.

[2]CHIBANI Y, HOUACINE A.On the Use of the RedundantWavelet Transform for Multisensor Image Fusion[C]//The7th IEEE International Conference on Electronics, Circuitsand Systems.Jounith:[s.n.], 2000:442-445.

[3]LI H, MUNJANATH B, MITRA S.Multisensor image fu-sion using the wavelet transform[J].Graph.Models Im-age Process, 1995, 57 (3) :235-245.

[4]BURTP.The Pyramid as a Structure for Efficient Computa-tion, Multiresolution Image Processing and Analysis[M].London:Springer-Verlag, 1984.

[5]王宏, 敬忠良, 李建勋.多分辨率图像融合的研究与发展[J].控制理论与应用, 2004, 21 (1) :145-151.

[6]BURT P J, KOLCZYNSKI R J.Enhanced Image Capturethrough Fusion[C]//Proceedings of Fourth InternationalConference on Computer Vision.Berlin:[s.n.], 1993:173-182.

[7]蒲恬, 方庆喆, 倪国强.基于对比度的多分辨图像融合[J].电子学报, 2000, 28 (12) :116-118.

[8]CROUSE M S, NOWAK R D, BARANIUK R G.Wavelet-based statistical signal processing using hidden markov mod-els[J].IEEE Transactions on Signal Processing, 1998, 46 (4) :886-902.

[9]ROMBERG J K, CHOI H, BARANIUKR G.Bayesian tree-structured image modeling using wavelet-domain hiddenmarkov models[J].IEEE Transactions on Image Process-ing, 2001, 10 (7) :1056-1068.

[10]于秋则.合成孔径雷达 (SAR) 图像匹配导航技术研究[D].武汉:华中科技大学图像识别与人工智能研究所, 2004.

[11]覃征, 鲍复民, 李爱国, 等.多传感器图像融合及其应用综述[J].微电子学与计算机, 2004, 21 (2) :1-5.

自组织分类 篇9

1 入侵检测系统

入侵检测系统(Intrusion Detection System,IDS)是软件与硬件相结合的系统,它进行主动的安全防御,对系统和网络的状态进行监视,分析一些关键点的信息,发现外部攻击者的非法入侵行迹和系统内部用户的不合理使用。目前,按照检测方法的不同,可以分为异常检测(Anomaly Detection)与误用检测(Misuse Detection)。异常检测是总结用户正常情况下的操作特征和对资源的使用情况,将其提取为正常模式存储在知识库中,然后将待检查的行为与其比较,如偏差超过设定的阈值,说明出现了异常。误用检测是总结入侵攻击行为模式存储于特征库,然后用匹配的方法将待检测数据与特征库中的模式匹配,若有匹配的模式出现,则说明有入侵。前者可检测出各种攻击,包含从未出现的攻击,但是误报率高。后者虽有高的检测准确率,但漏报率较高,对识别新出现的攻击有欠缺。另外,按数据源不同,入侵检测系统分为基于主机的IDS,基于网络的IDS和混合型IDS。基于主机的IDS的数据来自本地主机的系统日志与审计数据;基于网络的IDS的数据来源于网段中的数据包;混合型IDS是将前两者相结合的检测系统。

2 IDS引入数据挖掘技术

一个好的入侵检测系统应该具有自适应性,准确性和可扩展性。但是常用的IDS的入侵检测规则是通过人工学习补充建立的,安全领域人员了解系统漏洞问题和网络上已经出现的攻击手段,经过学习总结,将其放入特征库,这样特征库的建立完善主要是依赖人的参与。但是,由于现在计算机网络的复杂性,网络攻击情况的多变性,还有网络安全人员对攻击的把握可能不完全准确,会导致IDS检测准确率的有限性。另外,网络数据流量非常大,建立一个完整的特征库要求安全人员的不断学习升级,这对IDS检测的准确性带来影响。将数据挖掘技术应用于入侵检测系统能有效地解决这些问题。

数据挖掘[1](DM,Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。它与人工智能、数理统计、并行计算、数据库等多学科交叉。数据挖掘的方法主要有关联分析、聚类分析、分类分析和序列模式等。本文的自适应入侵检测模型主要用到聚类分析和分类分析。

聚类分析:聚类是将一个数据集分成多个类的过程。聚类分析是一种没有训练数据集用来学习的无指导的学习,以一定的相似性度量方法将数据记录分成多个类,使得经过聚类后,同一个类中的数据有较高的相似度,不同类的数据没有相似性或相似性很低。在进行入侵检测时,一般认为那些包含着大量数据的聚类是正常行为特征的聚类,而包含数据较少的聚类是异常的,因为在实际网络中90%以上的流量都是正常的[2]。常用的聚类算法是K-均值聚类[3]。

分类分析:根据要分析的数据集的一些特征,发现某些数据的共同特性,将数据分成不同的类,得出类别的概念描述或分类规则,当新的数据需要检验时,根据分类规则,将其分到相应的类,常用的分类算法[1]有ID3、C4.5、CART等。

3 引入数据挖掘技术后的自适应入侵检测模型

数据挖掘技术用于入侵检测系统后,入侵检测系统可以自主的进行学习,从而将特征库中的规则不断自我完善,这样的入侵检测系统具有自适应性和可扩展性,检测的准确性也会得到提高。本文的入侵检测模型所用到的规则库不只是包含正常的模式或异常的模式,而是将两者结合起来,运用一定数据挖掘算法判断待检测数据为正常或异常的模型。

该入侵检测模型如图1,分为以下几个模块:

1)数据采集:负责对用户、系统、网络数据流等信息进行收集;

2)自适应模型:积累模式,用一定的数据挖掘算法产生的模式规则库(包含正常和异常);

3)入侵检测:将数据采集器采集到的待检测的数据进行分析,判断是否有异常发生;

4)入侵响应:当检测到异常时,采用一定措施进行响应的处理。

该自适应模型产生和补充完善算法如下,基础是K-均值聚类和决策树算法,将这两种算法进行结合、改进,形成该自适应模型的模式规则库产生与完善的算法。

算法:

1)在原始的网络环境中收集网络数据(包含正常的和异常的数据)

2)选择其中K条数据作为初始质心

3)repeat

4)将每条数据指派到最近的质心,使之形成K个簇

5)重新计算每个簇的质心(质心是簇中数据的均值)

6)until质心不发生变化

REPEAT

7)将聚好的类分配类标号(1,2...K),作为下面进行分类的训练数据集

8)用决策树进行归纳分类,产生分类规则

9)按产生的规则,对一条新的待检测的网络数据(data_x)进行分类(属于某个簇),判断该待检测数据为正常或异常

10)repeat重新计算每个簇的质心(加入了data_x,重新计算)

11)将每条网络数据指派到最近的质心,形成K个簇

12)until质心不发生变化

该算法中,通过该自适应入侵检测模型,正常模式和异常模式规则库会不断完善,因为每条检测过后的数据,不论其为正常或异常,它都会作为一种对判断标准的补充加入到规则库,完善自适应入侵检测模型中的规则库,这样对后来待检测数据的判断也会更加精准。同时,该模型对判断异常数据的不同类型也有一定的区分能力,因为在K个聚类中,异常的聚类中的数据虽然较少,但也会分散在1-N(N

4 结束语

由于传统的防火墙技术本身的缺陷和不足,使得保护计算机网络安全的入侵检测技术越来越为人所重视。为了克服传统入侵检测系统的局限性,将数据挖掘技术引入到入侵检测系统是一个好的选择,能有效提高入侵检测系统的自适应性和检测准确性。该文将聚类算法与分类算法相结合引入入侵检测模型,提出了一种基于聚类的分类分析自适应入侵检测模型。

参考文献

[1]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003,2:132-151.

[2]Ertoz L,Eilertson E,Lazarevic A,Tan P,Dokas P,Srivastava J,Kumar V.Detection and summarization of novel network attacks using data mining.Technical Report[R].University of Minnesota.2003.

上一篇:能源开发下一篇:产业经济理论视角