分类、分布

2025-02-02

分类、分布（通用6篇）

分类、分布篇1

物联网(Internet of Things)是继计算机、互联网和移动通信网后的又一次信息产业浪潮,它对促进互联网的发展发挥着重要的作用,将成为未来发展的一个热点。目前,美国、欧盟等发达国家和地区都在深入地研究和探索物联网。作为信息获取和处理的核心,无线传感器网络(Wireless Sensor Network,WSN)是其中的研究重点。

WSN的发展主要受到能量供应、数据传输速率等诸多条件的限制。其中,有效的、不可再生的能量供给是WSN的最大挑战。数据融合技术可以通过一定的算法将传感器节点采集到的大量原始数据进行各种网内处理,只将少量有意义的处理结果传输到汇聚节点。传统的数据融合方法包含了最短路径树(SPT)、分布式信源编码、基于小波变换的数据压缩等方法,但是他们还是不能有效的均衡负载和降低传输次数。

压缩感知(compressive sensing,CS)是近年来发展迅速的一个理论分支,是一种新的数据获取理论。该理论指出:对可压缩的信号可通过远低于Nyquist标准的方式进行数据采样,仍能够精确地恢复出原始信号。在CS理论框架下进行数据融合研究,能够显著降低数据传输量,大大提高网络感知效能。

然而,传统的应用于物联网中压缩感知方法是在汇聚节点得到所有节点的系数和,然后利用重构算法对整个网络中各节点的数据进行恢复,并没有考虑到网络节点的分布式的特性。因此,当网络拓扑较复杂时,应用压缩感知时数据需要传输的次数并不会低于利用SPT时数据需要传输的次数。在该文中,我们考构造了一种基于分类的分布式压缩感知算法,取得了理想的成果,并给出了具体的实验验证。

1 相关工作

压缩感知理论从2004年提出至今,得到了快速的发展。作为一个新生的理论,这方面的论文还主要侧重于理论上的证明和完善。经典的关于压缩感知方面的研究成果几乎都来自于欧美学者,但是他们对压缩感知的应用也仅限于图像处理等方面,并没有提出将其应用与物联网的完整构想。

2009年,随着压缩感知理论的完善,几位中国学者提出了一套将压缩感知应用于WSN的模型,揭开了压缩感知在物联网中应用的序幕。后来,随着研究的深入,又逐渐出现了分布式的压缩感知等对原有理论的改进。压缩感知在物联网中应用的研究已经越来越深入。

传统的WSN中压缩感知方法是在汇聚节点得到所有节点数据的加权和,然后利用重构算法对整个网络中各节点的数据进行恢复。但是当前的对压缩感知的研究仅限于数据仿真,并没有考虑到网络节点的分布式的特性。

当网络拓扑较复杂时,应用压缩感知时数据需要传输的次数并不会低于利用SPT时数据需要传输的次数。我们考虑如何将压缩感知技术更好的和网络节点的分布式结构相结合,使得该技术的更加符合物联网的需求。

2 分布式的压缩感知

考虑到WSN节点密集分布,以及节点有一定存储能力的特点,可进一步利用WSN中节点间感知数据的空间相关性研究分布式压缩感知DCS(Distributed Compressed Sensing)算法。该文所构造的,是一种运用于数据存在空间相关性的WSN中的基于分类的压缩感知。

2.1 分类思想的提出

我们知道,对于分布于室外环境中的无线传感器网络,在一定距离内的节点之间的数据具有一定的相关性,每个节点的数据都是由全局因素和局部因素的相互作用产生的。

如图1所示的网络中的传感器可能出于几个不同的局部环境中(如有的传感器可能在树林中,有的传感器可能在草地上),这样就造成了处于同一环境那个中的传感器节点的数据具有很大的相似度,而不同局部环境下的传感器节点数据则有一定的差距。但是,从整个网络来看,各局部环境的数据之间有存在某种关联。

因此,基于这样的事实,我们提出了基于分类的压缩感知。

2.2 基于分类的压缩感知

为了设计一个既体现空间相关性又体现空间局域性的分布式的测量算法,我们可以将网络内的邻近节点划分为一类,每一类分别进行测量,这就是我们的研究重点——基于分类的压缩感知。

在网络开始应用压缩感知算法之前,我们可以根据事先获得的一些先验知识(如空间上的相关性),将网络中的节点划分成为几类,每一类之间没有重叠。对于每一类,我们可以选取一个首节点,每一个类内部单独进行压缩感知过程的系数加权,加权和由该类的首节点传输给sink节点,sink节点在获得各加权和之后,分别对数据进行恢复,得到网络内所有节点的数据。

举一个简单的例子,如图2所示的树形拓扑结构中,我们把左边方框中的节点分为类1,把右边方框中的节点分为类2。节点1,2分别被选为这两类的首节点。在类一中,进行压缩感知,得到的加权和通过节点1传给sink节点,同样的,类2中的加权和通过节点2传给sink节点。最后,sink节点通过得到的两类的加权和恢复出这两类中各节点的数据,以获取整个网络的数据。

对于这一想法的细节的设计,我们先从如何设计各类的观测矩阵开始。首先,我们提出两种数据重构方式:独立重构和联合重构。假设我们构造了一系列的节点类,并且收集了每个类的局部数据。对于给定的分类方法,联合测量就是各类的数据重构采用相同的稀疏基,而独立重构是指各类采用不同的截取的稀疏基。

上式描述了一个分成两个大小相同的类的例子。当使用联合重构时,我们使用原始的稀疏基ψ,对两类的数据同时重构;但当使用独立重构时,第一类中的数据使用ψ1和ψ2进行重构,第二类中的数据使用ψ3和ψ4进行重构,这样各类数据分别重构,因此,当被分为C类时,就要进行C次重构。

由于我们对这一问题的研究也处于初始阶段,故当前对于较为复杂的拓扑结构,我们还无法设计一个较好的路由方式。因此,我们这一阶段的实验也还是对于问题的简化研究。

2.3 理论分析

在本小节,我们从理论上来说明基于分类的压缩感知能够减少网络中的数据传输次数。

假设网络中共有N各节点,将其分为C类,每一类包含的节点数分别为N1,N2,…,NC(其中N1+N2+…+NC)。当用传统的压缩感知时,汇聚节点共需得到M个加权和,总的数据传输次数是NM;当使用基于分类的压缩感知算法时,恢复每一类所需要的加权和的个数分别为M1,M2,…,MC,总的数据传输次数是N1M1+N2M2+…+NCMC。

由于分类以后,各类内部数据存在区域性,故稀疏度总和通常是低于原稀疏度,根据前面介绍的压缩感知的原理,我们可以得到M1+M2+…+MC

N1M1+N2M2+…+NCMC≤N(M1+M2+…+MC)

从上面的不等式我们容易看出,基于分类的压缩感知可以减少网络中的数据传输次数,从而降低网络的能耗,延长网络寿命。

然而基于分类的压缩感知效果是否会优于传统的压缩感知,我们无法直接做出理论上的判断,这就是我们下一步将要做的就是通过一些实验来验证我们的想法是否能够有更好的数据恢复效果。

2.4 实验分析

2.4.1 传统压缩感知和分类的压缩感知

实验是基于1024个节点数据的情况,我们的信号稀疏基采用FFT变换矩阵,传输矩阵采用高斯分布白噪声(后面的实验采用相同的节点数据等),测量次数为256。首先来看一下传统的压缩感知的数据恢复效果,如图3所示。

从图3中我们很清楚地看出,有些节点数据恢复效果并不好。

下面我们采用基于分类的压缩感知,将节点数据分为4类,并采用联合重构的方法,来对数据进行恢复,实验结果如图4所示。从图中我们可以看出,数据恢复的效果明显优于图3中的数据恢复效果。

通过这些对比,我们可以得出结论,基于分类的压缩感知在某些合理的分类以及测量方式的情况下,数据恢复的效果是优于传统的压缩感知的。在下面的进一步实验中,我们将探索何种的重构能够使效果达到最优。

2.4.2 联合重构和独立重构

我们的实验环境假设为一个有1024个节点的网络,并且数据传输都是无错传输的理想环境。为简化问题,我们的所有分类情况中,每个类中的节点数目是一样的。实验中节点分成相同数目的16类,分别采用联合重构和独立重构两种方法对数据进行恢复,并与原始的压缩感知方法做对比。我们以信噪比SNR作为衡量数据恢复精度的度量值,重复以上的实验多次,经过统计,我们可以得到如图5所示的实验结果。

图5中,横坐标是总的测量次数,纵坐标是恢复数据的信噪比。蓝色曲线是使用独立重构时的恢复效果,黑色曲线是使用联合重构时的效果,红色曲线是原始的压缩感知的恢复效果。我们可以看出使用联合重构的效果优于独立重构的效果,因此我们后面的实验一律采用联合重构的方法。同时,我们也可以看出来联合重构的恢复效果要优于原始的压缩感知,故我们的提出的基于分类的压缩感知是可行的。

数据的稀疏度决定于原始基。由于一个类的信息可影响其他类,从一个类中恢复出的信息有可能涵盖其他类的信息。当信息重叠越多时,由联合重构恢复出来的数据精确度就要高于独立重构。这就是产生上面的结果的原因。

2.4.3 分类数量的影响

确定了使用联合重构的方法,我们接下来要研究的事分类的数量对于恢复效果的影响。直观的来看,分类越多,我们的网络中所需要的传输次数就越少,但是恢复效果是否会更好呢?

我们的下面的实验仍然是基于256个节点的数据,考虑不同的分类数量时,对结果的影响。实验统计结果如图6所示。

图6中,黑色曲线代表分为4类时的数据恢复效果与测量次数的关系,红色曲线代表分为8类时的数据恢复效果与测量次数的关系,蓝色曲线代表分为16类时的数据恢复效果与测量次数的关系。从这些曲线我们可以看出并非分类越多,数据的恢复效果。相反地,当分类过多时,数据恢复效果反而变差。

这个结果并非是普适的情况,与网络所处的环境有很大的关系。当网络内数据联系非常紧密时,分类越多反而破坏了原有的一类数据的联系,这样我们在数据恢复时不能很好的利用原本属于一类的数据的稀疏性,造成了数据恢复的效果更差。

因此,我们在做节点分类时,一定要获取足够多的先验知识,在减少传输次数与数据恢复精确度之间做好权衡,这样才能更好的将其用于WSN中。

3 总结

由于WSN中的节点多是分布于室外环境中,无法为其提供不断的能源供给,节点的能源受限,因此数据融合具有重要的意义。现有的数据融合方法包括CNS、GIT等方法,然而这些方法大部分都无法同时做到节约能耗和均衡负载。压缩感知理论是近几年才被提出应用到WSN中的一种新兴的数据融合方法,具有很强的可靠性。然而,目前对于压缩感知方法的研究大多数都仅限于对真实数据处理上的仿真,并未考虑到在真实的拓扑结构当中,当拓扑结构较为复杂时,数据传输次数可能要高于SPT的传输次数。

因此,我们提出了一种基于分类的压缩感知。通过理论上的分析比较我们发现,采用基于分类的压缩感知,在很多拓扑结构下传输次数都要小于传统的压缩感知,也要低于SPT的传输次数。这种分类的压缩感知方法在进行数据重构时,可以采取联合重构和独立重构两种重构方案,我们通过数据仿真实验我们发现,采用联合重构比采用独立重构数据恢复效果更佳,与我们的猜测是一致的。单从表面上看,分类越多,我们的数据传输次数就越少,然而,通过进一步的实验,我们得知,并非分类越多,数据恢复效果越好。当分类增多时,原本应该归为一类的节点被分为多类,使得同类数据相关性被破坏,造成恢复效果变差。真正使用时,我们需要在传输次数和恢复效果之间权衡,以使得该数据融合方法的实时性和可靠性达到最好。

摘要：在无线传感器网络中,压缩感知是一种新兴的数据融合方法,能利用少量数据采样进行数据恢复。由于具有较好的节省能耗的性质,压缩感知受到研究人员越来越多的关注。然而,传统的应用于无线传感器网络中压缩感知方法是在汇聚节点得到所有节点的加权和,然后利用重构算法对整个网络中各节点的数据进行恢复,并没有考虑到网络节点的分布式的特性。因此,当网络拓扑较复杂时,应用压缩感知时数据需要传输的次数并不会低于利用最短路径树时数据需要传输的次数。在该文中,我们考虑如何将压缩感知技术更好的和网络节点的分布式结构相结合,使得该技术的更加符合无线传感器网络的需求。

关键词：无线传感器,压缩感知

分类、分布篇2

利用3S技术对图们江下游地区的湿地系统进行了分类.以Spot卫星影像为信息提取的`数据源,采用监督分类和人工分类相结合的方法,把该地区的湿地划分为5个系统、8个子系统和12个类型.通过对分类结果的比较分析发现,虽然图们江下游地区湿地的面积比较大,但是主要以人工湿地为主,自然湿地所占比重低且湿地景观比较破碎,湿地生态系统脆弱.

作者：朱卫红南颖刘志锋王琪程火生今西纯一森本幸裕 ZHU Wei-hong NAN Ying LIU Zhi-feng WANG Qi CHENG Huo-sheng JUNICHI Imanishi YUKIHIRO Morimoto 作者单位：朱卫红,ZHU Wei-hong(延边大学理学院地理系,吉林,延吉,133002;日本京都大学地球环境学堂,京都,6068052)

南颖,刘志锋,王琪,程火生,NAN Ying,LIU Zhi-feng,WANG Qi,CHENG Huo-sheng(延边大学理学院地理系,吉林,延吉,133002)

分类、分布篇3

1 材料与方法

1.1 材料和仪器

1.1.1 统计数据

采用中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计、取值分布数据为样本体系“参数组合取值分布”数据。

1.1.2 仪器和软件

软件运行环境:神经网络训练与检测是在Windows下使用MATLAB7.1开发的。运行环境推荐使用:WINDOWS XP系统,需安装有Office办公软件EXCEL2000及以上版本,压缩软件WINZIP或WINRAR。

计算机配置要求:内存512M以上;硬盘40 G以上;显示器和显卡支持1024×768、75Hz、24位真彩显示;10/100M网卡;打印机;

1.2 方法

(1)取中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计、取值分布数据作为训练和检测SOM神经网络的输入矩阵;

(2)在MATLAB7.1工作界面上输入神经网络相空间维数设置:net=newsom (minmax (P),[33]),训练步数设置:net.trainParam.epochs=1000;

(3)训练SOM神经网络:net=train(net,P);

(4)运行代码程序,输出对各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布的自组织分类结果;

(5)用训练完毕的SOM神经网络,检测中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布的自组织归类:y=sim(net,P);

(6)上述操作重复进行100次,比较每次结果的中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布数据归类一致率,以检验SOM神经网络矩阵映射的准确性和可靠性。

2 结果与讨论

运行结果的总分示例数据如表1,SOM神经网络对样品的自组织分类,重复100次,剔除这100次统计结果中的特异结果进行归类,SOM神经网络矩阵映射的准确率为90%以上。

注意:调试和运行MATLAB7.1时,要清空遗留信息;要对数据进行预处理。

说明:不同归类序列中各分类代码取不同的数值。这不同的数值是由于SOM神经网络每次运行进行矩阵映射是独立进行的。表1中是按第1列归类升序同步排序的。

3 结论

通过分析发现:采用神经网络技术,对中国工业统计年鉴提供的各省区煤炭生产数据:固定资产合计、固定资产原价、累计折旧、所有者权益合计取值分布数据构建SOM神经网络进行矩阵映射实现自组织归类,具有较高的准确性和可靠性。这一方法可推广到一般情形:选择不同体系的不同参数组合数据,训练和检测SOM神经网络,能够实现对各种体系的多侧面的客观分类,为我国各省煤炭生产数据评级、预测、诊断、识别提供依据。

摘要：为实现煤炭生产数值分布的自组织分类,用SOM神经网络技术,以《中国工业统计年鉴》提供的我国各省区煤炭生产数据为学习和测试样本,训练和检测神经网络对我国各省区煤炭生产数值分布的自组织分类。实验显示:经过1000步的训练,SOM神经网络矩阵映射重复操作归类相同率,在剔除特异结果后达到90%以上。这一结果证实,利用SOM神经网络技术,可以对我国各省区煤炭生产数据参数组合取值分布进行客观分类。

关键词：各省区煤炭生产数值,自组织分类,SOM神经网络,煤炭生产数值分布

参考文献

[1]何术.SOM神经网络在树叶形状分类中的应用[J].电脑开发与应用,2004,02:132-136.

[2]陈伯成,梁冰,周越博,等.自组织映射神经网络(SOM)在客户分类中的一种应用[J].系统工程理论与实践,2004,24(03),8-15.

[3]阎瑞琼,韩力群,陈晋东.计算机技术在烟叶检测与分级领域的应用[J].烟草科技,2001,03,13-15.

[4]丁露,崔平.SOM聚类算法在文本分类上的应用[J].现代情报, 2007,27(09):162-164.

[5]韩力群.烤烟烟叶自动分级的智能技术[J].农业工程学报,2002, 06:191-193.

分类、分布篇4

防火墙在设计实现过程中的失误可能会为产品带来巨大的安全漏洞，所以防火墙每一部分的模块的设计都必须经过周全的考虑。然而研究发现, 在定义防火墙最基础最根本的过滤规则时，产生策略异常的可能性相当大。如下表1、表2所示:

表1和表2分别从集中式防火墙和分布式防火墙的角度，对各级人员在定义防火墙规则时的出错率进行了统计。可见，即使是资深级的防火墙管理人员在定义时出错的可能性也非常大 (集中式防火墙错误率为8%，分布式防火墙错误率为18%) 。因此在下面的内容中提出一种基于策略异常的发现方法。首先对策略模型和异常类型进行定义, 然后对分布式防火墙系统中各过滤节点上的过滤规则之间可能出现的异常进行了分类，并提出一个基于典型的分布式防火墙系统的过滤策略检测模型-策略树，该模型以分布式防火墙系统过滤策略的全局一致性与完整性为出发点，能够有效地检测出分布式防火墙系统中各过滤节点上的过滤规则之间的冗余、冲突、不完整等异常。

1 分布式防火墙过滤策略模型

1.1 分布式防火墙过滤规则的形式化表示

防火墙是网络安全中一个核心元素，然而管理防火墙规则，尤其是在多防火墙的网络中，渐渐成为一种复杂、极易出错的工作。防火墙的过滤规则需要被定义，排序，小心的分发，避免因策略异常而导致的网络脆弱。因此，插入、修改过滤规则，需要对防火墙内外进行全面地分析，来决定规则摆放位置和在防火墙中的排序。

防火墙安全策略由一系列排序的过滤规则组成。它们对满足一定条件的数据包做出决策。一个规则由一组过滤域组成，如协议类型，源IP地址，目的IP地址，源端口，目的端口，以及决策。一个规则的过滤域体现了当网络中的报文符合这项规则时的相应处理。过滤结果可以是接收，即允许报文进入安全网络，或者是拒绝，将报文阻隔在安全网络之外。数据报能否通过防火墙，取决于它的包头是否满足防火墙定义的规则的过滤域。若是满足，则继续与下面的规则匹配，或者执行缺省的策略行为。

过滤规则格式:在过滤规则中可以使用IP, UDP, TCP报头，然而，实际上用得比较多的匹配域是:协议类型，源IP地址，源端口，目的IP地址和目的端口。以下是防火墙包过滤规则中最常用的格式:

1.2 防火墙规则策略树的表达法

用一棵单根节点树来表示防火墙策略，称之为策略树。策略树模型提供了一个过滤规则的简单表示法，便于发现这些规则之间的关系和可能出现异常。策略树的每一个节点代表一个过滤域，这些节点的每一个分支代表过滤域的域值。通过建立一个哈希表来为每个分枝存储域值。根节点是规则的协议域protocol，叶子代表过滤规则的决策action，中间的节点顺序表示各个过滤域。树的每一个分枝开始于根节点，终止于叶子节点，代表策略中的一个规则。拥有特定节点相同域值的规则分享同一个分枝代表的值。

图1给出了一个防火墙策略的规则集，图2表示了该策略的过滤树模型。树中的每个规则都有一个决策叶子节点，下面的虚线框表示它代表的规则。从规则树中可以看出，规则1到规则9拥有相同的协议域分枝，因为它们的协议域值都是“tcp”。协议1和5有不同的源地址分枝因此它们有不同的源地址域值。规则2, 4, 6, 7有相同的源地址所以它们共享相同的域值分枝。规则8有单独的分枝，但又和规则7出现在一起，这是因为规则8是规则7父集。规则4也有一个单独的分枝，它同样也出现在规则3的分枝上，在这里规则4是规则3的一个子集。

2 分布式防火墙规则异常的分类

(1)覆盖性异常 (Shadowing anomaly) 。所有符合规则Ry的数据包，都能与Ry的上一条规则Rx匹配，且它们的过滤决策不相同。由于Ry永远不会被执行，所以如果将覆盖性异常的规则删除，对整个安全策略没有丝毫影响。表示为:

(2)相关性异常 (Correlation anomaly) 。两个规则相互关联，与Ry匹配的部分数据包也能与Rx匹配，而能与Rx匹配的部分数据包也能与Ry匹配，但Ry和Rx却有不同的过滤决策。表示为

(3)广义性异常 (Generalization anomaly) 。所有与规则Rx匹配的数据包都与排在它后面的规则Ry匹配，且两条规则有不一样的过滤决策，那么Rx就是Ry的广义性异常。表示为:

(4)冗余异常 (Redundancy anomaly) 。一条冗余规则与另外一条规则匹配同样的数据包，拥有一样的过滤决策，所以如果将该规则删除，整个安全策略没有丝毫影响。表示为:

Ry是Rx的冗余:

(5)枝节异常 (Irrelevance anomaly) 。防火墙中的某一条规

则对任何一个可能经过的数据包都不进行过滤，那么这个规则就属于枝节异常。例如规则定义的从源地址到目的地址的路径并不通过防火墙。表示为:

3 防火墙策略的异常发现

过滤规则的排序在制定防火墙的策略中是非常关键的。这是因为过滤过程是一个顺序的规则匹配过程。如果过滤规则没有关联，规则的排序就不再重要。然而过滤规则通常都是相关的，如果规则的顺序不仔细设定，一些规则始终被其他规则覆盖，产生错误的策略。而且，当策略中包含很多过滤规则时，出现冲突和冗余的机率相对较大。

内部防火墙策略异常被定义为存在两个或多个过滤规则，同时匹配一个数据包或者存在一个规则，不能匹配网络中的任何数据包使之通过防火墙。

异常发现的基本思想是确定两个规则在决策树中是否有共同的路径。如果一个规则的路径与另一个规则的路径相同，则根据上文异常的定义，可以确定它们之间存在一个潜在的异常。如果规则路径不同，那么这些规则之间是不关联的，它们之间也没有异常。详细的防火墙规则异常状态转换流程如下图所示:

假设最初没有关联，Ry中每个域与Rx中相应域比较协议，源地址和端口，目的地址和端口。两个规则的关系是由这些比较决定的。如果Ry的每个域都是Rx的子集或者等价，而且两个规则的过滤决策是一样的，Ry就是Rx的冗余 (Redundancy) ;如果过滤决策不一样，那么Ry就被Rx屏蔽了。如果Ry的每个域是Rx对应域的父集或者等价，且它们有相同的过滤决策，则Rx是Ry的潜在冗余;如果它们的过滤决策不一样，那么助是Rx的概括异常 (Generalization) 。如果Rx中的一些域是Ry的子集或者等价，另一些域是Ry的父集，且它们的过滤决策不一样，则Rx与Ry相关联异常 (Correclation) 。状态的转换和异常的确定在流程图中可以很清楚的分析出来。

4 结束语

分布式防火墙的安全性极大地依赖于过滤规则的正确配置，如果过滤规则之间出现不一致，分布式防火墙体系结构的优势则体现不出来，整个系统也就成为多个过滤节点的松散集合，而不是作为一个整体保护整个网络。本文对分布式防火墙可能出现的异常情况进行了比较全面的分类, 同时提出分布式防火墙过滤策略异常检测模型-策略树，该模型能够检测出分布式防火墙系统中各过滤节点上的过滤规则之间的不一致，包括冗余、冲突、不完整等各种异常。根据该模型编写的工具可以部署在分布式防火墙的策略制定中心服务器上，对已制定的过滤策略进行检测后再将这些过滤规则分发到各个过滤节点上，从而保证整个分布式防火墙系统的一致性和完整性。本模型的不足之处是复杂度比较高，在分布式防火墙系统的过滤节点的数目比较多的情况下检测的时间会很长。因此今后的研究工作主要在简化模型以及改进效率方面，同时对分布式防火墙的过滤规则进行增、删、改等操作引起新的异常和网络结构的变动引发的异常如何检测等问题还需要进一步的研究。

摘要：在Internet高度发展的今天, 作为网络安全第一道防线的防火墙的地位日益重要。经研究发现, 过滤策略的异常可能导致分布式防火墙系统所保护的网络出现严重的访问漏洞。为了能够自动化地检测分布式防火墙过滤策略存在的异常, 对分布式防火墙系统中各过滤节点上的过滤规则之间可能出现的异常进行分类, 并提出了一种过滤策略异常检测的模型-策略树。该模型能够检测出分布式防火墙过滤规则之间的冗余、冲突、不完整等各种异常, 从而保证了分布式防火墙过滤策略的完整性和一致性。

关键词：分布式防火墙,过滤策略,异常检测,过滤结点,过滤规则

参考文献

[1]荀宝铖, 罗军勇.一种分布式防火墙过滤策略的异常检测模型[J].计算机工程与设计, 2006 (22) .

[2]张志云.分布式防火墙的策略分发与执行[M].大连:大连理工大学, 2004.

[3]何荣盛.分布式防火墙的策略表示与认证加密[M].大连:大连理工大学, 2004.

分类、分布篇5

自国家推进节能减排政策以来,分布式供能系统(distributed energy supply system,DESS)便以高效性、环保性、安全性等优势受到广泛关注[1,2]。

本文定义DESS的场景竞争力为:在保证投资主体获得安全、可靠供电的同时,DESS能够实现本地多样化能源形式的有效利用,发挥其经济潜在价值,推动投资主体优化其系统的运维方式,并为其他投资主体提供借鉴与参考的能力,包含软竞争力和硬竞争力。在DESS规模快速扩大、国家日益重视的形势下,科学评价场景竞争力具有重要的社会经济效益。

在DESS研究及其评价领域,已有国内外学者开展了相关的研究。文献[3-4]从DESS经济性、环保性或联供热力性等角度出发,建立DESS的评价指标;文献[5]将DESS指标分为技术性和经济性评价指标,分层建立指标体系;文献[6]以评价DESS的不确定性因素为目标,梳理其设计和运行中的不确定性因素,建立评价指标体系进行评价。国内外现有文献提出的指标体系或评价方法虽角度不同,但基本思想一致,即着眼于DESS某方面的发展优势或特点,立足某一角度建立指标进行评价,如经济性、环保性、热力学特性、联供运行[7,8,9,10,11,12]等。但该思路存在以下不足:①指标的选取对系统整体的关注不足,且缺乏实际数据的分析,降低了指标体系全面性及模型实用性;②由于不同类型DESS场景的特点各异,指标在使用时针对性低,且评价角度单一,无法体现评价差异化;③现有的评价目标一是比较DESS不同配置方案的优劣,用于决策,二是对DESS的各种效益进行宏观评价,指导其运行规划,缺少对DESS场景竞争力进行分类评价的研究。

随着DESS建设和研究工作的推进,亟须构建一套科学、合理、全面的DESS场景竞争力评价指标体系:在硬竞争力评价层面上,汇总DESS发展的客观条件,用于对DESS所带来的经济、环境等效益的分析,为DESS的投建规划提供科学指导;在软竞争力评价层面上,用于对DESS的运行状态和薄弱环节等进行分析、识别,为其运维管理提供决策参考。

针对上述问题,本文拟建立一种DESS场景竞争力的分类评价模型。建立DESS对应于其场景软硬资源条件的三级评价指标体系,考虑指标高贡献率及数据易获取性,筛选实用评价指标;根据现阶段国内DESS典型场景的应用领域及建设范围等特点,对DESS进行自上而下的全面分类;采用熵权法针对不同场景引入指标贡献系数,以基于贡献系数的实用评价指标为输入变量,以场景竞争力的分类评价值为输出变量,采用层次分析法进行DESS场景竞争力分类评价模型的求解,并以南方部分省区的实际场景的统计数据为例进行算例分析。

1 评价指标体系

1.1 场景竞争力

DESS场景竞争力分为两个层面:硬竞争力和软竞争力。具体构成体系如图1所示。

1.2 影响场景竞争力评价的因素

根据DESS场景竞争力的构成体系,本文将影响DESS场景竞争力评价的因素提炼为如下5 个方面。

1)经济效益。DESS的经济性在很大程度上影响业主投资积极性及场景的推广前景。经济效益一直是供电公司、投资企业、政府等相关部门的工作人员在进行投资建设、系统规划和项目运维等工作时重点关注的部分,集成场景竞争力所体现的资本、管理、信息的经济效益指标自然成为评价DESS场景竞争力不可缺少的指标分量,是评价场景竞争力的首要指标。

2)联供特性。DESS主要分布在楼宇、工业园区以及各种新能源丰富的海岛等区域,各种场景的负荷有电、冷电、热电、冷热电4 类,对应于冷电联供、热电联供及冷热电联供等供能方式。完整的、能实现冷热电联供的联供系统组成包括电源机组、制冷设备、供热装置和接网运行系统等。联供特性指标集成场景竞争力所体现的用户、设施和科技,用于衡量场景的硬竞争力。

3)能源利用。能源利用指标主要考察场景所在地的能源分布状况,评价场景在实现本地多样化能源形式的有效挖掘、能源的梯级利用、经济潜在价值的发挥等方面的能力,反映DESS是否通过能源梯级利用,实现更高能源利用率、更低能源成本、更优环保性能等目标。

4)运行方式。运行方式指标主要研究的是与场景并网运行相关的因素,包括并网特点、并网可靠性等,侧重于分析系统并网运行的安全性能,与联供特性指标息息相关。

5)环境效益。环境效益指标体现在DESS给电力系统提供的节能减排技术:应用可再生能源或燃料电池等替代传统的集中式化石燃料发电,大幅减少污染物的排放。例如:风力和太阳能发电可提供全绿色电力,以天然气为燃料的微型燃气轮机释放的SO2是许多燃煤发电厂释放量的25%,NOx释放量低于1%,而CO2释放量则低于40%。

将指标作为一级评价指标,自上而下地逐层构建合理客观且层次分明的DESS三级评价指标体系,详见附录A。

1.3 实用评价指标

以指标高贡献率、数据易获取性及可量化性为原则,本文在DESS场景竞争力三级评价指标体系的基础上,进行简化与筛选,获得实用评价指标。例如电压等级指标,该指标直接反映场景建设费用,但建设费用在单位千瓦投资等指标中已有所体现,具有重复性,其次是反映系统对分布式电源的消纳能力,但这主要取决于接入系统,故该指标对场景竞争力评价值的贡献率较低。又如运营模式指标,虽然运营模式的选择直接影响到场景的市场竞争力,但是由于该指标的不可量化性降低了其实用性。筛选出的实用评价指标如下。

1)单位千瓦投资X1:指场景每千瓦造价,即发电设备平均到每千瓦的投资,单位为元/kW。单位千瓦投资指标衡量场景的原材料成本及移动成本等,从侧面反映场景的投资可行性。

2)投资利润率X2:指项目的年利润总额与总投资的比例,单位为%。计算出的投资利润率与行业的标准投资利润率或行业的平均投资利润率进行比较时,若不小于标准投资利润率或平均投资利润率,则认为项目可接受,否则不可行。

3)投资回收期X3:指从场景项目的投建之日起,用项目所得的净收益偿还原始投资所需要的年限,单位为年。该指标在反映场景经济性的同时,也可作为投资业主接受度的参考依据,在一定程度上反映了场景的技术水平。

4)系统供电能力X4:指在以年为单位的报告期内,系统可用于供电生产活动的单位小时供应电量,单位为MW/h。该指标可反映系统载荷能力,体现系统规模,同时为同类型场景的DESS提供规划参考值。

5)能源利用率X5:指场景消耗的能源总量占供给系统的能源总量的比例,单位为%。该指标反映了DESS对能源的利用效率与程度。

6)新能源发电占比X6:指场景内参与系统供电的新能源出力指数,等于年新能源发电量占年总供电量的比例,单位为%。新能源发电占比指标从侧面反映场景的能源供应情况,以及新能源开发的技术水平,体现了DESS场景实现本地多样化能源有效利用的能力。

7)年运行小时X7:指DESS的年投入运行时间,以小时数表示,单位为h。年运行小时的多少反映了场景投运能力的高低,年运行小时数越高,设备的无故运维、折旧、亏损等问题越少,反映了系统可靠运行的能力。

8)总排污减少量X8:指当产生相同负荷供应量的情况下,相比于传统的负荷供应方式,DESS所减少的污染物排放总量,单位为万t。该指标顺应国家将节能减排作为重点推进工作的要求,用于衡量DESS的环保性能。

9)总排污减少率X9:指当产生相同负荷供应量的情况下,DESS场景内总排污减少量占传统负荷供应方式排污量的比例,单位为%。该指标更明显地体现了场景的环保价值。

2 场景分类体系

首先,根据现阶段中国DESS典型应用场景的发展现状,将DESS根据其规模和应用领域划分为三种场景类型:楼宇型、区域型、海岛型,并以其为二级分类对象,建立DESS场景分类体系,详见附录B;然后,分析不同类型场景内建筑物的负荷需求情况等概况,对体系进行自上而下的逐级划分。

1)楼宇型:包含酒店、医院、单一居民楼、办公楼、公用建筑等,容易实现能源的自求平衡,经济关系单纯,应用灵活。此类场景规模小,终端负荷品种少,设备和系统的能效均较低,加上年运行时间一般较长,故导致单位千瓦投资费用高,只有在特定的经济条件下才具有竞争力。场景主要联供冷热电或冷电两种情况,针对能源密集、负荷压力大的特点,进行冷热电或冷电联供以实现能源的自求平衡,不涉及公共空间资源。场景内的负荷和燃气内燃机的冷电/热电比基本吻合,可实现并网运行,能最大限度地进行能源梯级利用。

2)区域型:一般有大学校园、工业园区、大型商场、综合园区等。此类场景规模较大,终端负荷品种繁多,场景内有城市工业园区、旅游集中服务区、生态园区或大型商业设施等,负荷类型为民用热负荷、工业用热负荷、制冷负荷及热水负荷等。场景的年运行时间可根据实际需要灵活调整,单位千瓦投资费用明显较低,投资利润率高,经济效益显著,经济上极富竞争力[13]。联供方面,可采用燃气—蒸汽联合循环进行热电联供,热水型溴化锂冷水机组等作为制冷方案,机组可按“以热定电、以电定电,热电联供”的原则开启,满足“热、电、冷”各种能源需求。在满足区域供电需求的同时,能够以削峰填谷方式与大电网互补运行,既有助于减小大电网的电力负荷峰谷差,又有助于改善动态负荷变化对电压稳定性的影响,极大地提高发电厂大机组的发电效率和经济效益,能源利用效率非常高。广州大学城分布式供能系统,是目前国内最大的分布式能源项目[14],属于区域型场景。

3)海岛型:一般指含高渗透率分布式电源的独立海岛供电系统,主要发展形式是智能微电网。场景采用孤网运行,整个系统为“单机单网”,电网负荷波动较大[15]。在满足投资方内部收益率的情况下,海岛用户电价会有所降低,海岛用户的用电经济性有显著提高。海岛地区的可再生能源十分丰富,对其有效开发可极大地缓解海岛电力不足。开发利用近海风能以及太阳能资源,建设风力发电厂、光伏发电系统,有利于促进相关产业链的形成和发展,实现经济社会的可持续发展。在对海岛型DESS进行规划设计时,需要解决分布式能源输出功率预测、分布式能源容量优化配置、储能优化配置、构建综合能源网等问题,将进一步增加海岛型DESS的投资回收效益。

3 分类评价模型

3.1 评价思路

本文在进行DESS场景竞争力分类评价时的思路详见附录C。在纵向研究上,综合考虑DESS经济效益、联供特性、能源利用、运行方式、环境效益等方面的因素,为评价DESS设计纵向的指标体系;在横向研究上,依据场景的不同发展特点,为评价DESS建立横向的场景分类体系,用于对DESS进行规划时提供定位参考依据。

3.2 评价流程

DESS发展类型多样、影响因素纷繁复杂,本文在DESS的评价指标体系和场景分类体系的基础上,提取实用评价指标,采用熵权法引入实用指标的贡献系数。以实用评价指标及贡献系数为输入变量,以场景竞争力的分类评价值为输出变量,采用层次分析法进行求解,建立如图2所示的分类评价模型。模型致力于解决如何将数目众多的纵向评价指标,高效实用地应用于DESS各类型场景竞争力的分类评价工作中。

3.3 评价步骤

1)数据预处理

假设评价对象个数为m=mL+mQ+mH,其中mL,mQ,mH分别为楼宇型、区域型、海岛型场景个数;输入实用评价指标变量个数为n,则得到m ×n阶原始评价矩阵为:

为减低由于评价对象数目的限制所造成的评价结果的非典型性,本文充分利用正态分布的普遍性,对原始评价矩阵Xm×n按列进行第1步Z-score标准化变换,将各指标数据向标准正态分布的方向处理。标准化公式为:

式中:i=1,2,…,m;j=1,2,…,n;xjmean为元素所在列的平均值;xjstd为元素所在列的标准差。

由于不同指标数据间的数值偏差较大,为避免“数值较高的指标在综合分析中起突出作用,数值较低指标在综合分析中起削弱作用”这一情况,解决由于各评价指标性质不同而使其存在的不同量纲和数量级的问题,同时统一各指标的异号数据,提高评价结果的可靠性,需要对Z-score标准化变换后所得矩阵Xm×n′进行0-1标准化变换:

式中:xijmin′为经过Z-score标准化变换后所得矩阵Xm×n′的最小值;xijmax′为经过Z-score标准化变换后所得矩阵Xm×n′的最大值。

原始数据矩阵Xm×n经过两步标准化变换,得到数据预处理后的标准化矩阵Rm×n。

2)确定指标贡献系数

在评价DESS场景竞争力时,由于某类场景其自身某指标的数据差值相比于其他类型场景该指标的数据差值偏大(或偏小),而导致该类场景评价值总体偏大(或偏小),这将使得场景竞争力评价值过于按类型集中,评价结果将存在特有的档次分层。上述问题将会误导投资运维工作,极大地影响低层DESS场景业主的投资积极性。

为此,本文采用熵权法,引入不同类型场景同一实用评价指标对该类型场景竞争力的贡献系数这一概念,来解决由于不同场景同一指标数据差值不同而导致场景竞争力评价值不同的问题,充分利用实用评价指标对不同类型DESS场景竞争力的客观影响度对其进行评价。

熵权法是一种应用于多对象、多指标,依靠物理信息熵所表达的信息来确定指标对评价对象所作贡献的一种分析方法[16]。采用熵权法求解指标贡献系数的具体步骤如下。

首先,根据信息论中信息熵的定义对不同DESS场景的某实用评价指标的信息熵进行求解:

式中:下标α 取L,Q,H,分别表示楼宇型、区域型、海岛型场景。

如果pij=0,则定义:

然后,通过信息熵计算各类DESS场景某实用评价指标的贡献系数cαj:

由各类DESS场景的贡献系数cαj组成贡献系数矩阵C3×n= [CLCQCH]T,其中CL=[cL1cL2… cLn],CQ= [cQ1cQ2… cQn],CH=[cH1cH2… cHn]。矩阵C3×n在不同类型DESS场景的评价过程中,在各实用评价指标对不同类型场景贡献作用的竞争意义上的相对激烈程度、提供有效信息量的多寡程度的确定问题上,起关键作用。

3)求解评价值

层次分析法是一种将定性与定量相结合的权重赋值方法[17]。采用层次分析法求解DESS场景不同实用评价指标的权重,将专家意见融入不同类型DESS场景竞争力的评价值中,降低评价结果唯数据的客观局限性。其具体求解过程如下:首先,由两两指标之间的重要程度,结合评价结果的精度需求,得出n个输入变量的n阶判断矩阵D;然后,采用层次分析法计算判断矩阵D的最大特征根λmax及对应特征向量WAHP=[w1(AHP) w2(AHP) … wn(AHP)];最后,由于求解过程中产生估计误差,破坏判断矩阵的一致性,导致特征值和特征向量存在偏差,故利用一致性指标、随机一致性指标和一致性比例进行一致性检验,若检验通过,则偏差导致的不一致性可接受,特征向量WAHP(归一化后)即为权向量,否则需重新构造判断矩阵。其中,一致性检验步骤如下。

1)计算一致性指标:

2)找出相应的平均随机一致性指标λR.I.。

3)计算一致性比例:

当λC.R.<0.1时,可接受一致性检验,否则将对判断矩阵进行修正。

求得指标权重向量WAHP之后,若不引进贡献系数,则某DESS场景竞争力的求解将变为:

式中:Mi为任意类型DESS场景i的场景竞争力评价值;wj(AHP)为实用评价指标j采用层次分析法求得的指标权重。

引入贡献系数之后,由实用评价指标的贡献系数cαj和该权重进行DESS场景竞争力评价值的求解,即

式中:Wαj为楼宇型、区域型或海岛型DESS场景的实用评价指标j基于贡献系数的指标权重值;为楼宇型、区域型或海岛型DESS场景评价对象的所有评价值;Mαi为楼宇型、区域型或海岛型DESS场景某一对象i的评价值。

通过本文建立的DESS场景竞争力评价指标体系,结合指标基于层次分析法的权重,以及衡量同一指标对不同类型场景贡献度的贡献系数,将定性的场景竞争力最终量化为定量的评价值。通过比较求解输出的DESS各场景评价值的大小,得出各DESS场景竞争力的高低,即场景竞争力评价值越大,则该场景在保证投资主体获得安全、可靠供电的同时,能够实现本地多样化能源形式的有效利用,发挥其经济潜在价值,推动投资主体优化其系统的运维方式,并为其他投资主体提供借鉴与参考的能力越强;反之,将越弱。

4 实例分析

收集中国南方部分省区DESS实用评价指标的统计数据,包含广州超算数据中心、滨海医院等楼宇型场景,广州从化鳌头、广州大学城等区域型场景,珠海东澳岛等海岛型场景[18,19,20,21,22]。为方便分类评价结果的比较,增强比较效果,每种类型选取相同数目的场景,总计21个场景。

实例场景的指标统计数据详见附录D表D1。其中,X1~X9代表实用评价指标,L1~L7代表楼宇型场景,Q1~Q7代表区域型场景,H1~H7代表海岛型场景。

首先,将原始统计数据按照式(2)、式(3)进行数据标准化预处理。

然后,采用层次分析法求解实用评价指标的权重。在构造判断矩阵时,本文实例将两两指标之间重要性程度的衡量尺度设为:1,1.2,1.4,1.6,1.8,2.0,2.2,2.4,2.6,其中,1表示两指标重要性程度相同,2.6表示两指标重要性程度的差距最大,数字由小到大表示重要性程度的差距依次递进。经过式(8)、式(9)验证:λC.R.=0.001<0.1,指标判断矩阵的一致性可接受,判断矩阵有效,并由此求得的实用指标权重详见附录D表D2。依次采用式(4)至式(7),进行基于熵权法的各实用评价指标对不同类型场景的贡献系数矩阵C3×n求解,详见附录D表D3。

最后,当未引入指标贡献系数时,由式(10)求得如图3(a)所示的DESS场景竞争力评价结果雷达图,各场景竞争力评价值详见附录D表D4。引入指标贡献系数后,各类型的DESS场景竞争力评价值采用式(11)至式(13)求解,DESS场景竞争力评价结果雷达图示于图3(b),具体评价值详见附录D表D5。

分析附录D表D3、表D4的数据,一方面,实用评价指标X2权重值最高,其指标值约为0.18,且海岛型场景X2指标数据值远比楼宇型、区域型场景要大,其平均值水平甚至高于其他两类场景该指标数据各自平均值水平的两倍,其次对于权重值相对较大的实用评价指标X5和X8,指标值分别约为0.16和0.14,海岛型DESS场景两指标的平均值水平都分别不小于或仅略小于其他两类场景对应指标的平均值水平;另一方面,就楼宇型和区域型DESS场景而言,权重值相对较大的实用评价指标X4,区域型明显远大于楼宇型,两种类型场景指标X4的平均值比例甚至高达4倍以上。

综上得到图3(a)所示的未引入指标贡献系数的场景竞争力评价结果。该结果显示:仅通过场景各指标值与权重数据计算,得到的场景竞争力过于依靠场景类型而集中,评价值总是出现海岛型>区域型>楼宇型,甚至可能出现竞争力较弱的海岛型场景的竞争力评价值,高于其他类型场景中的较优发展场景,而这显然与事实不符,不利于不同类型DESS场景竞争力的直接比对,评价结果存在误导性。

为避免上述情况的发生,提高各类型场景竞争力的评价合理性,采用熵权法引入如附录D表D5所示的指标贡献系数。横向比对各指标贡献系数的大小可知,经熵权法的客观计算,指标X1和X4贡献系数较大,突出指标在场景投资经济性、系统载荷能力两方面的贡献作用。并且,指标X2和X5的客观贡献系数较指标X1和X4小,解决了海岛型场景因X2和X5两指标的权重及其原始数值较大,而导致场景竞争力评价值总是大于其他两类场景的问题。

基于熵权法的客观指标贡献系数的引入,降低了单纯主观权重的影响,场景竞争力评价值得到客观贡献系数的约束矫正,提高了评价结果的客观合理性。

最终,通过计算求得削弱“分档次突出”问题的评价结果,如图3(b)所示。比较评价结果可得以下结论。

1)微观分类角度:①楼宇型场景{L5,L7}、区域型场景{Q3,Q5,Q7}、海岛型场景{H5,H7}的竞争力评价值类内较高,对各类DESS场景的投资规划和运维等具有更高的参考价值;②楼宇型场景{L1,L4}、区域型场景{Q4,Q6}、海岛型场景{H1}的竞争力评价值类内较低,需要其投资业主及时发现问题,并且采取相应的措施进行运维整顿,提高其场景竞争力。

2)宏观总体角度:各类型场景的评价值分布均匀,实用评价指标贡献系数的引入,解决了评价值按类集中、存在误导性的问题。例如:Q1(广州从化鳌头)和H1(珠海东澳岛)两个场景,在引入贡献系数之前,场景竞争力H1>Q1;在考虑指标对各自场景竞争力贡献程度不同的现实问题而引入贡献系数之后,场景竞争力Q1>H1,出现明显不同的两个评价结果。而实际情况中,无论从场景的经济效益还是其运维可靠性、安全性等角度来看,场景Q1都比场景H1的竞争力要大[18]。

本文所建立的DESS场景竞争力的分类评价模型,通过实用评价指标及指标贡献系数,将定性的场景竞争力最终量化为定量的评价值,比较DESS各场景竞争力评价值的大小,评价其在保证投资主体获得安全、可靠供电的同时,实现本地多样化能源形式的有效利用,发挥其经济潜在价值,推动投资主体优化其系统的运维方式,并为其他投资主体提供借鉴与参考的能力的大小。由本文实例计算得到,模型的评价结果与实际能源站的运行情况及工程研究报告相符,模型的工程实用性及合理性得到验证。

5 结语

本文建立的DESS场景竞争力的分类评价模型旨在解决DESS规划与评价中的量化问题。

1)系统地建立DESS场景竞争力的三级评价指标体系,并在考虑指标高贡献率、数据易获取性及可量化性的基础上,筛选凝练出实用评价指标。依据DESS场景的不同发展特点,对其进行自上而下的全面逐级分类,建立多维分类体系。指标及分类体系可用于DESS场景竞争力的分类评价,为DESS提供规划参考依据。

2)首次建立DESS场景竞争力的分类评价模型,模型以基于贡献系数的实用评价指标为输入变量,以场景竞争力的分类评价值为输出变量,采用层次分析法进行求解。引入基于熵权法的实用评价指标的贡献系数,解决了场景竞争力评价值过于依靠类型而集中的问题,避免评价结果可能出现的误导性,增加场景竞争力评价值的合理性。为供电公司、投资企业、政府等相关部门的工作人员在进行投资建设、系统规划和项目运维等工作时提供参考依据。

综上所述,DESS场景竞争力的分类评价模型,一方面,分类评价做到充分考虑场景的差异性,另一方面,评价结果既可为投资规划提供高竞争力的参考场景,又可及时地对已建低竞争力场景采取措施,进行运维改造。以中国南方部分省区实际场景为例进行分析,验证了模型合理性和工程实用性。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

摘要：分布式供能系统影响因素纷繁复杂,发展场景类型多样,针对其投建规划与经济评价中缺乏量化方法的问题,文中建立一种分布式供能系统场景竞争力的分类评价模型。首先,考虑反映场景竞争力的软硬性条件,建立分布式供能系统场景竞争力的三级评价指标体系,并以指标高贡献率及数据易获取性为原则,筛选出场景竞争力的实用评价指标;然后,对分布式供能系统进行自上而下的全面逐级分类,系统分析各类型场景的发展特点;最后,以实用评价指标为输入变量,以场景竞争力的分类评价值为输出变量,在采用熵权法针对不同场景引入指标贡献系数的基础上,结合层次分析法进行场景竞争力评价值的求解。基于南方部分省区分布式供能系统的统计数据进行算例分析,验证了模型的有效性和适用性。

分类、分布篇6

机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其应用遍及人工智能的各个领域。机器学习通过一个给定的训练集找出规则,如给出一组训练集{(x1,y1),(x2,y2),…,(xn,yn)},即对向量X={x1,x2,…,xn }通过某个函数y=f(x),映射到向量Y={ y1,y2,…,yn },这个f就是个模式或者称为分类器。判定树、规则、神经网络、概率分布等都用来产生分类器,不同的表达式通常对应不同的抽取信息的算法。

然而随着数据集的增长或者有些数据分布在不同的地方,那么需要的机器资源也是要按比例增长的,但数据的增长往往快于机器资源和机器学习上的改进。如今大部分的学习算法在计算上都很复杂并且要求数据都常驻在内存中,但现实中很多数据都分布在不同的机器上,这样就可能无法用一个分类器来处理所有的数据。分类器的构造方法有统计方法,机器学习方法,神经网络方法等。

1现有主要分类算法优缺点

当前数据挖掘中常用的并且应用比较广泛的是决策树分类方法如ID3、C4.5、CART等,决策树是一棵有向无环树,常用的是二叉决策树。

决策树分类法的主要优点有:(1)可以生成可理解的规则;(2)计算量较小;(3)可以处理连续和集合属性;(4)决策树的输出包括属性重要性的排序。

决策树分类法的主要缺点有:(1)当类别较多时,通常将会增加误差;(2)对噪声敏感,往往不能很好地处理噪声数据;(3)通常仅根据单个属性来分类,而类的划分往往与属性集有关。

Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。经过长期的研究,Bayes分类方法在理论上论证得比较充分。Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

神经网络分类算法的重点是构造阈值逻辑单元。其主要特征是:大规模的并行处理和分布式的信息存储,良好的自适应、自组织性,以及很强的学习功能、联想功能和容错功能。它是基于经验风险最小化原则的学习算法,有固有的缺陷,如层数和神经元个数难以确定、容易陷入局部极小,还有过学习现象。

2元学习和元分类器度量标准

元学习(见图1)的基本思路就是在一系列子集上平行地执行一组机器学习进程,然后通过一个额外的学习阶段来组合这些分类器。每个机器学习任务即称之为基础学习者,运算得出一个基础分类器,然后一个单独的机器学习任务即称之为元学习者,将上述独立运算得出的基础分类器再次运算,得到一个更高层次的分类器即称之为元分类器。

通过在训练数据集的分离(不相交)子集上并行地运行基础学习过程(每个执行都像一个截然不同的串行程序)来改善效率,这个方法能够使用相同的串行代码从而无需花时间来并行,并且从装入到相同内存中的数据的小子集中学习。每个不同的学习算法都有归纳偏好如表达式、搜索空间、搜索启发体制等,元学习通过对这些算法的结合能够比某一个学习者更加精确,改进了精度。就这样,元学习改进了机器学习中存在的效率和精度问题。

精确度、相关性错误、覆盖度、相异性这些度量标准都被用来分析和评价分类器的表现,Ali and Pazzani把相关性错误定义为在这些实例片断上一对基础分类器作出相同的错误预测。Brodley和Lane通过计算实例片断上至少一个基础分类器作出的正确预测来度量覆盖度。Brodley通过评估一对分类器的分类重叠来定义相异性,如被两个分类器以相同方式分类的实例的百分比。而Chan则把它和基础分类器的预测中的熵联系起来,当分类器的预测均匀分布时,熵值就更高并且这组分类器的相异性就更大。我们这里更关注相异性这个度量标准,我们给出一组分类器S,计算这组分类器中所有两两组合的分类器的相异性,然后计算得出其平均相异性:

$D = \frac{\sum_{i = 1}^{| s | - 1} \sum_{j = i + 1}^{| S |} \sum_{k = 1}^{n} D i f (C_{i} (y_{k}), C_{j} (y_{k}))}{\frac{(| S | - 1) \cdot | S |}{2} \cdot n}$

Ci(yk)表示分类器Cj对实例yi进行的分类,当a=b时,Dif(a,b)返回0,当a≠b时,Dif(a,b)返回1。因此更直观地说,这个分类器集合的相异性越大,元分类器可以改进的空间就越大。

3裁剪算法

但随着数据子集的大小,数据站点的数目和采用的学习算法的数目的增长,每个站点上将会有更多的分类器,这样元分类器和元分类必然会使系统资源紧张。我们必须对分类器的特点和依赖关系以及如何选择和使用最合适的接口进程进行分析,只有对每个数据站点内的元分类器进行合理地控制,才能避免不必要的资源浪费。我们引入一个裁剪阶段来分析这些分类器,这个裁剪就是对那些分类器在它们被用在元分类器的训练前进行过滤,在这些分类器中选择出合格的包含在元分类器中(根据某个或多个预先设定的度量标准)。裁剪的目标就是为了建立部分增长的元分类器(经过裁剪的子树),取得比完全增长的元分类器相当的甚至更好的效率和表现。

不同的度量标准有不同的属性,仅仅依赖某一个度量标准所选出的最好分类器可能是不同的。将这些最好的分类器组合在一起成为一个元分类器,这样就不用搜索整个空间所有可能的元分类器了。而裁剪算法就能同时使用这些度量,也可以把其中几个度量跟基础分类器组合起来。裁剪就是在分类器被用来训练元分类器前的评估和选择过程。有一组分类器H(来自于多个数据库,通过多个机器学习算法产生)和一组验证集V(跟训练集和测试集不同,是一个不同的数据子集),如何将这组分类器C～H组合成一个最优的元分类器就是一个组合问题,所以我们将精确度、覆盖度和相异性等度量结合起来指导贪婪搜索,这就是基于相异性的裁剪算法。

首先这个算法计算一个相异性矩阵d,其中dij的值就是分类器Ci和Cj对验证集给出不同预测的实例数目,裁剪算法就开始重复迭代选择一个分类器,每次从最精确的基础分类器开始。每轮都将选出的相异性最大的分类器C′加入到一个分类器C列表中,直到选出N个相异性最大的分类器后,选择过程就结束了,N就是一个参数,它依赖于给定的一些因子,比如最小系统吞吐量、内存限制或者相异性阈值(临界值)。

基于相异性裁剪算法伪代码如下:

Let C:=0,N:=分类器的最大数目

For i:=1,2,…|H|-1 do

For j=i,i+1,…|H| do

Let dij=分类器Ci和Cj给出不同预测的实例数目

Let C′≡拥有最高精确度的分类器

C:≡C∪C′,H≡H-C′

For i:=1,2,…,N do

For j=1,2,…|H| do

Let Dj=∑ $_{k = 1}^{| c |}$ djk

Let C′=集合H中Dj值最大的分类器

C:=C∪C′,H:=H-C′

算法的复杂度与数据集的字段属性数目无关,其复杂度为O(n*/H/*/H/),其中n代表实例数目,/H/代表集合H的分类器的数目,实际情况下/H/要比n小很多。

4实验结果分析

数据集采用银行的年度信用卡交易的记录,这些记录中有20%的欺诈信息和80%的合法信息,这些交易记录是平均分布的。为了评估和比较这些构建的元分类器,我们采用总体精确度和成本模型两个度量,总体精确度就是一个分类器给出正确预测的能力,成本模型就是一个分类器在减少由欺诈造成的损失上的表现。信用卡公司判定每一个交易是否合法都有一个固定的成本Y,因此如果一个交易的金额低于Y这个下限值,就自动地默认为合法,否则即使我们能够精确地预测并且找出欺诈的交易值amt,这个低于Y的交易仍会产生(Y-amt)的损失。考虑到这一点,在产生分类器和元分类器时最多能节省S(Cj,Y):

S(Cj,Y)=∑ $_{i = 1}^{n}$ [F(Cj,xi)·(amt(xi)-Y)-L(Cj,xi)·Y]·I(xi,Y)|

当分类器Cj正确地找出一个欺诈交易xi时,F(Cj,xi)返回1,否则为0。

当分类器Cj错误地分类出一个合法交易xi时,L(Cj,xi)返回1,否则为0。

当交易xi金额f(xi)高于Y时,I(xi,Y)返回1,否则为0。

首先我们将整个数据集分到6个分布式数据站点,每个站点就有2个月的数据。每个站点有一半的数据(一个月)用来对基础分类器进行测试、裁剪和元学习。另外一半数据用来评估裁剪后的元分类器的表现,基础分类器受训练的数据子集其交易时间是不同的,训练集的大小和分布也是不同的。在12个月的数据上实施3种学习算法(决策树算法ID3,贝叶斯分类器Bayes,规则归约算法Ripper),这样我们就得到36个基础分类器,每个站点6个分类器。每个站点导入30个分布式分布的基础分类器,在裁剪和元学习阶段仅使用这些基础分类器。裁剪算法要在这些基础分类器组合中选出一个组合,在元学习阶段使用三个学习算法进行组合,下面对6个数据站点裁剪和元学习后得到的结果平均后进行分析。

在精确度、成本和效率(保留更少的基础分类器)等各个方面,裁剪的元分类器的表现比完整的未裁剪的元分类器的算法和非智能的裁剪算法都要好。在我们的实验中,使用20个基础分类器的表现和30个的表现几乎是一样的,所以使用更多的基础分类器(在这个实验中超过20个)并不会带来表现的额外改善。由元分类器组成的裁剪算法比单一的最佳分类器能节省18万元的成本,而且比起未裁剪的元分类器能节省10万元的成本并且提高30%的吞吐量。

元分类器的表现和组成其的基础分类器的属性和特点是直接相关的。基础分类器的组合相异性越大,元分类器可以改进的空间也就越大。我们实验中基础分类器的相异性是有保证的,我们使用了几种不同的学习算法且训练集也是不同的,这样裁剪算法就将这些相异性大的、最佳的基础分类器组合在一起取得更好的表现。

5总结

我们对分类器的特点进行深入分析并采纳那些最合适的分类器,目的是为了减少复杂冗余的元学习层次和降低费用。文中我们介绍了几种度量标准和裁剪算法。虽然有许多复杂的问题仍需解决,这个实验也表明了裁剪和元分类器相结合跟纯粹的元分类器的简单组合相比,能取得更好的表现。

摘要：数据经常分布在不同的地方,需要的机器资源也随着数据量的增长按比例增长,但数据的增长往往快于机器资源和机器学习上的改进。描述了元学习的基本过程和几种组合元分类器的度量尺度。元学习能够改进可观测性和精度,但同时过度强大的元学习技术也会导致冗余,低效甚至不精确的元分类器层次。分析这些方法的局限性并且提出了基于相异性的裁剪算法,证实了元学习和相关的裁剪方法的组合能取得相似的甚至更好的表现。

关键词：机器学习,元学习,基础学习者,裁剪算法

参考文献

[1]Elkan C.Boosting and naive Bayesian learning.[http://www.cse.ucsd.edu/~elkan/papers/bnb.ps].Dept of Computer Science,Univ.of California,San Diego,CA.2001.

[2]S Stolfo,W Lee,W Fan.JAM:Java agents for meta-learning over dis-tributed database.2003:7481.

[3]S Stolfo,W Lee,W Fan.Credit Card fraud detection using meta-learn-ing:Issues and initial results,2001.

[4]TEMA:The Evolutionary Meta-learning Agent.[http://www.it.usyd.edu.au/~netsys/research/current_tema.htm].2004.

【分类、分布】推荐阅读：

真菌分布07-17

污染分布10-14

强度分布10-20

病因分布01-16

基地分布01-17

分布不均01-19

菌种分布01-21

分布设计05-09