降维模型(通用7篇)
降维模型 篇1
1 引言
在以住关于钢铁行业生产调度的研究中,国内外学者主要关注提高钢铁产业的生产效率,而对其高能耗、高排放问题不够重视。从低碳发展的要求出发,钢铁生产调度应综合考虑钢铁生产实际,在构建模型的过程中加入相关的工艺约束,并将生产效率、碳排放、设备空转等目标加入目标函数中。
废钢铁再制造由于使用废钢铁为原料,以“废钢-电炉”生产工艺进行生产,体现了国家对于节能减排的要求,国内外学者对于此方面的研究日益增多。周永良等[1]不以最大完工时间最小和产量最大为调度目标,而以节能降耗、质量可靠、生产有序为优化目标,提出了三个目标的炼钢-连铸生产调度模型,并用邻域搜索算法和FCFS规则进行求解,但是文中以温降之和最小代替能耗最小并不能很好地反映钢铁行业实际生产过程中的碳排放和能耗问题;K.Fang等[2]针对以电力为能源的制造业生产调度问题,提出了以电力负荷峰值、能源消耗和碳排放为目标函数的生产调度模型,并以算例说明该方法可以显著降低碳排放;Bruzzone A A G等[3]提出了在不改变工件安排和序列的前提下,将原来的混合整数规划模型加入能源消耗的计量,在不改变工件安排和调度顺序的前提下提高了柔性车间调度的持续性,并用算例进行了验证;Yi Q等[4]提出了基于碳排放最低和makespan最小的二目标多机生产调度模型,通过算例仿真,在增加makespan的情况下使碳排放相对于以makespan为目标的多机生产调度模型降低了1.35%,但是该文没有考虑废钢铁再制造的特殊工艺,仅就一般的多机调度问题进行了仿真;侯玉梅等[5]对我国钢铁行业碳足迹及相关减排措施进行了研究,提出了由电力消耗产生的碳排放的计量方法;Tian Y等[6]讨论了中国钢铁工业与能源相关的温室气体排放轨迹和特征,指出了生产规模效应是中国钢铁工业与能源有关的温室气体排放量增加的主要驱动因素;Karali N等[7]提出了通过提高能源利用率和国际贸易减少能源消耗和CO2排放量的模型;Li C[8]等提出了与数控型加工系统相关的不同过程产生的碳排放量的计量方法,并分析了系统产生的碳排放量与切割速度的关系。Ali Hasanbeigi[9]等提出了一种可以精确比较中国和美国能源消耗强度的方法,分析了不同因素对于能源强度的影响,特别指出在比较中国和美国钢铁工业的结构时,电弧炉的比例应该考虑在内;Arens M[10]等分析了德国1991~2007年的钢铁行业的能耗和发展数据,指出提高能源效率是减少能耗和温室气体排放的关键;Porzio G F[11]等提出了一种在控制成本的前提下减少能源消耗和二氧化碳排放量的方法,通过案例分析,证明了该方法可以实现流程工业特别是高能耗的企业碳排放量最小、利润最大,在降低成本和减少环境影响方面显示了良好的改进潜力;Fanti M P[12]等构建了以最小化最大完工时间为目标的混合整数规划模型用来求解炼钢连铸生产调度问题,通过实例证明了算法的良好性能;Pan D[13]等构造了大型钢铁企业最优资源分配方案的数学模型,并用遗传算法进行模拟,结果表明该模型和算法可以在一定程度上达到节能减排的目的;Wang P[14]等提出了一种基于混合Petri网的以能源利用率和自制气体盈余为优化目标的模型,并用模糊线性规划进行求解,提出了一些改变这种低效率、高成本生产结构的措施。
当前对钢铁工业生产调度问题的研究主要分为两类:一是考虑钢铁行业在实际生产过程中的主要工艺约束,构建相应的模型并设计算法进行求解;二是忽略部分钢铁工艺约束,从流水作业车间调度的角度宏观地分析整个生产调度过程,并引入碳排放和能源消耗作为约束或者目标,体现节能减排的目的。很少有文献既考虑废钢铁再制造过程的特殊工艺,又考虑多目标的混合流程生产调度问题。基于此,本文将二者联系起来,在充分考虑废钢铁再制造特殊生产工艺的前提下,将碳排放、延期惩罚和设备利用率作为优化目标构建了多目标的废钢铁再制造生产调度模型,先通过仿真对原问题的模型进行了改造和优化,突出了废钢铁再制造生产调度的主要问题,并针对连铸工艺的特殊性提出了原问题的对称问题,证明了二者求解的一致性。最后结合算例分析了各个目标函数对于废钢铁再制造生产调度的影响。
2 问题描述
炼钢-连铸是废钢铁再制造的核心环节。在炼钢、精炼工序,工件(炉次)在两道工序之间的加工时间可以有间隔,但等待时间不能超过一定的数值以避免温度下降太多不满足工艺要求而导致的回炉生产的重调度问题,等待时间越少越满足柔性生产的需要;在连铸阶段要求连铸机连续浇注,炉次计划必须根据连铸工序的生产调度来确定;在某一段时间会接到n个工件(炉次)的订单,每个工件(炉次)需要加工m道工序,每道工序有多台并行机;生产调度需要综合考虑降低碳排放、减少设备空转时间和增加客户满意度。因此,废钢铁再制造生产调度问题可以看做等待时间受限、连铸机无等待的混合流水车间调度问题。
2.1 模型符号及含义
i:工件(炉次)的编号(i=1,2,…,n)
j:工序的编号(j=1,2,…,m)
Ji:第i个工件
Mj:工序j的机器总数
k:工序的机器编号
xij:工件Ji在工序j上的开始加工时间
tijk:工件Ji在工序j的第k台机器上的加工时间
α:工件等待时间受限的常数
β:碳排放约束常数
X:CO2排放当量,为264.5kg/kWh
P1ijk:编号为k的机器加工工件Ji的j工序时的功率
P2ijk:编号为k的机器不加工工件Ji的j工序时的空转功率
T1ijk:编号为k的机器加工工件Ji的j工序时需要的时间
T2ijk:编号为k的机器不加工工件Ji的j工序时的空转时间
D:交货期
3 废钢铁再制造生产调度模型
3.1 碳排放量的计量
废钢铁再制造生产过程产生的碳排放主要分为三部分:设备加工工件产生的碳排放、设备空转产生的碳排放、工件等待设备产生的碳排放。分别可以用公式表示为:
因此,CO2的总排放量为:
对于加工时间确定的废钢铁再制造生产调度问题,不同的生产调度方案只会影响式(2)和式(3)中的碳排放。考虑到工件等待时间受限的生产工艺约束,工件等待设备产生的碳排放不可能超过一定的数值,约束越苛刻工件等待设备产生的碳排放越小;特别地,当生产调度方案出现工件无等待的情况时,其对应的碳排放为零。为了尽快地响应客户的要求,钢铁企业需要牺牲一部分设备利用率,此时设备空转产生的碳排放将会增加,目标函数之间将会产生相互制约的作用。
3.2 生产调度模型
通过上面的分析,基于低碳排放和延期惩罚的废钢铁再制造多目标生产调度模型为:
该生产调度模型的目标函数(5)、(6)、(7)分别表示订单延期惩罚最小、二氧化碳排放最少、设备空转时间最少,依次对应最高的客户满意度、最低的碳排放和最小的能耗。约束(10)和约束(15)表示一个工件在一道工序只能由一台机器加工。约束(11)和约束(12)是指工件等待时间受限的约束。约束(13)是指同一台机器在一个时刻只能加工一个工件。约束(14)是指连铸作为最后一道工序,连铸机必须连续浇注,中间不能停顿。
在废钢铁再制造生产调度过程中,消耗的能源主要是电力,能耗的参数为加工时间和加工功率、空转时间和空转功率;碳排放的参数为能耗和碳排放系数;设备利用率的参数为空转时间。三个目标函数通过时间联系到一起,在一个生产调度方案中,三个目标函数彼此之间是非独立的,存在着相关关系。此生产调度问题属于NP难问题,目标函数彼此之间的相关系数无法通过推导的方法得到最终的简化表达式。但是可以用模拟的方法通过多次实验来刻画各目标函数、约束条件的相关关系。如果在散点图中两个变量呈显著正相关,即相关系数接近于1,则表示这两个变量对于生产调度模型的影响是近似的,体现在目标函数中,可以去掉其中一个目标函数。这样可以在几乎不影响生产调度结果的前提下简化求解过程,提高求解效率。如果在散点图中两个变量之间的关系相对离散,则变量对应的目标函数不可以合并、简化或者替代。同时,由于各变量的数量级和量纲不一致,在多次模拟得到多组实验数据之后,需要对实验数据进行标准化处理。通过以上分析,本文的求解思路分为以下几步:
①进行多次实验(本文为50次),得到不同生产调度方案的多组实验数据;
②对原始实验数据进行标准化处理,对影响生产调度的主要变量进行相关性分析从而简化模型;
③运用遗传算法对简化后的生产调度模型求解。
4 算例分析
废钢铁再制造生产调度问题没有标准的测试数据,各个钢铁企业在实际生产过程中的生产实际数据也会存在差别。本文以国内某钢铁厂的部分数据为参数,运用遗传算法进行测试,具体参数如表1、表2和表3所示,工件3、工件2、工件1在连铸机1上顺序加工,工件6、工件5、工件4在连铸机2上顺序加工,并将此问题记为问题(1)。
在本文的生产调度模型中,第一个目标函数考虑了交货期,是时间维度;第二个目标函数考虑了碳排放,是减排维度;第三个目标函数考虑了设备空转,是能耗维度。目标函数、约束条件和变量之间的关系非常复杂。此外,本文用遗传算法求解,在编码的过程中适应度只有一个,需要对三个目标函数进行标准化。基于此,本文先对原模型进行仿真和数理分析,抓住对生产调度问题产生本质影响的要素,而对影响作用微小的因素忽略或进行整合,再对简化的模型运用遗传算法进行求解。
(1)数据标准化,简化模型
对目标函数(5)进行推导。
由于λ和D均为常数,是事先给定的,因此影响该目标函数的因素就是最大完工时间,即目标函数(5)等价于式(18),相当于求最小化最大完工时间。
为了突出各个变量、各个目标函数之间的关系,首先对模型中的关于废钢铁再制造特征的约束条件进行松弛,对简化后的模型用遗传算法运行50次,可以得到相关变量的数值、均值和标准差,结果如表3所示。由于各个变量之间的数量级和量纲不同,采用式(19)的标准化方法对数据进行标准化。其中,Xi表示第i个变量的值、μi表示50次实验得到的变量Xi的均值、σi表示50次实验得到的变量Xi的标准差。
同样地,在遗传算法中,由于适应度只有一个,在编码过程中本文用式(20)对数据进行标准化,从而得到适应度的表达式(21),其中wi表示第i个目标函数的权重。
对于标准化之后的数据绘制部分散点图,如图1和图2所示。
在图1中碳排放量和设备空转时间具有显著的正相关关系。考虑到碳排放和设备空转时间均作为目标函数,图1中右上方的点在遗传过程中将会被排除,因此在实际情况中,碳排放和设备空转时间的线性关系要更强。基于此,目标函数(6)和(7)虽然分别代表碳排放和能耗目标,但是二者可以其中一个目标近似代替,作为节能减排的目标函数。假设在遗传算法的编码中,将目标函数(6)、(7)、(8)的权重分别设置为0.1、0.1和0.8,那么如果将原生产调度模型中的目标(7)去掉,而将(6)和(8)的权重分别设置为0.2和0.8将会得到相近的结果。
在图2中碳排放和设备空转时间呈负相关,但是并不显著。为了满足工件等待时间受限的约束条件,需要以设备利用率为代价。工件等待时间的限制越强,由机器空转导致的碳排放越大,从而使总的碳排放越大。即工件等待时间受限的约束与碳排放的目标函数互相制约。
如图3所示,同一生产调度问题不同调度方案结果差别很大。按碳排放升序排列,对应的最大完工时间在碳排放折线上下两侧震荡同时保持总体上升的趋势。以碳排放和最大完工时间为目标的废钢铁再制造生产调度的实质在于对两个目标不相一致的部分进行折中,以取得相对满意的方案。
(2)原问题的对称问题
在炼钢-连铸生产调度问题中,要求同一浇次的工件(炉次)必须按照顺序在给定的连铸机上进行连续加工,连铸工序是最后一道生产工序,如果采用顺序方式或者随机方式生成初始解会导致连铸工序不符合生产工艺。部分学者提出了采用倒序方式对初始解进行编码。基于此,本文提出了原始调度问题的对称问题。以算例为例,考虑以下问题:将原始的工序顺序和各工序并行机数量互换,并使变换之后的第一道工序满足连铸机对于连铸浇注的要求,得到原问题的对称问题,记为问题(2),参数见表5和表6。
对问题(2)进行求解,在顺序编码的过程中只需在第一道工序满足连铸工艺的特殊要求,避免了原始问题倒序编码的复杂性。同时,对称问题并没有改变原始问题的特征,不会引起碳排放、能源消耗的改变。在时间维度上,原始问题和对称问题是相同的,只是开始加工时间和完工时间发生了互换,二者属于镜像对称。因此,对称问题的解也是原始问题的解,二者在目标函数值上是相同的,区别在于两个问题的开始加工时间矩阵和完工时间矩阵,如图4和图5所示。
在图和图5中,工件J1在四道工序上的并行机编号分别为“3”“2”“1”“1”,其他工件与J1相同。绿色表示连铸工序对应的工件在连铸机1上加工,黄色表示连铸工序对应的工件在连铸机2上加工,连铸机加工的炉次事先给定。以算例为例,连铸机1加工的工件(炉次)顺序为工件“3”“2”“1”,连铸机2加工的工件(炉次)顺序为工件“6”“5”“4”。本文对原调度问题的加工顺序进行倒序产生对称问题,从而求得近似最优解,再将其还原为原始调度问题。从图4和图5可以看出,二者的最优解相同,并且符合镜像对称。
运用表4中相应变量的均值、方差和式(19)、式(20)、式(21)对简化后的生产调度问题目标函数进行标准化处理,并在遗传算法中整合成一个函数。将目标函数权重的步长设为0.1,得到表7中的数据。步长越小,得到的生产调度结果越精确,相应的运算时间也越长。
从表7和图6可以看出,首先,随着目标函数权重的增加,目标函数值有减少的趋势,最大完工时间和碳排放呈负相关;这一结果意味着在实际生产过程中,为了尽可能快地响应客户要求,实现客户满意度最大的目标要付出碳排放的代价。其次,当目标函数权重不同时,对应的部分目标函数值可能相同,权重的变化对这一阶段的适应度没有产生显著影响,如调度1、2、3、4、5、6。在单目标调度过程中,可以将其他的目标函数作为约束条件;例如,以最大完工时间为目标的生产调度中,通过添加碳排放约束在不改变目标函数值的前提下,使得碳排放降低。最后,对于给定的订单,在多个目标互相制约的情况下,企业可以通过适当的权重来影响目标函数值,综合权衡生产调度的各个方面,使得企业利益最大化。
5 结论及展望
本文综合考虑了废钢铁再制造生产过程中使用“废钢-电炉”生产工艺、工件等待时间受限、连铸工序特殊生产工艺等生产实际,构建了碳排放最小、设备利用率最高、客户满意度最优的废钢铁再制造多目标生产调度模型,并设计遗传算法进行了求解。在设计算法之前,首先分析了碳排放、最大完工时间、工件等待时间、设备空转时间等变量、约束和目标函数之间的关系,对于呈显著正相关的目标函数进行整合,从而突出了主要问题、简化了生产调度模型。在通过算例仿真的过程中,考虑到连铸工序的生产工艺,提出了原生产调度问题的对称问题,从而简化了求解过程。本文的主要结论为:①在废钢铁再制造多目标生产调度问题中,最大完工时间(或延期惩罚)与碳排放呈负相关;②在某些情况下,碳排放约束作为约束条件对于生产调度问题的影响更显著,可以在不改变最大完工时间(或延期惩罚)的前提下,减少碳排放;③企业可以通过不同权重值来控制生产调度结果,从而平衡生产调度的各个指标,实现企业利益的最大化。
摘要:针对废钢铁再制造生产调度问题,在考虑废钢铁再制造特殊生产工艺的前提下,构建了碳排放最小、设备利用率最高、客户满意度最优的废钢铁再制造多目标生产调度模型,并设计遗传算法进行了求解。在第一阶段对生产调度中部分变量、约束和目标函数之间的关系进行了分析,从而对模型进行简化,突出影响调度问题的主要因素,并构造了原调度问题的对称问题。第二阶段结合算例,计算了不同权重下的废钢铁再制造生产调度问题,比较分析了碳排放等目标函数对生产调度的影响,结论表明:设备利用率和碳排放在生产调度问题中具有显著的正相关关系,节能和减排具有一致性,可以其中之一作为节能减排的目标函数;为了尽快响应客户要求钢铁企业要付出更大的碳排放代价;碳排放作为目标函数并不总能显著影响生产调度问题,某些情况下,作为约束条件对生产调度的作用更显著。
关键词:碳排放,废钢铁再制造,生产调度,降维模型
基于LLE降维的图像检索 篇2
关键词:图像检索,LLE
基于内容的图像检索(content-based image retrieval,简称CBIR)已经成为信息检索领域的重要研究方向。CBIR系统利用图像的某些特征,如纹理、颜色、形状等,把需要查询的样本图像与数据库中的图像进行匹配,把与样本相似的图像向用户返回。颜色是图像的各个特征中最显著的视觉特征,也是被图像的主要感知特征,因此在图像检索中得到广泛的重视和研究[1]。CBIR由于其具有传统基于文本检索技术的优越性,近年来已经成为了图像检索领域的一个研究热点。一般常用的图像检索方法有累计直方图法、中心矩法和直方图法。但是存在着一个共性的问题就是维数过多,处理的数据量过大,例如一幅256*256的图像,则它的RGB颜色模型就有256*256*3的特征向量,过多的特征向量则导致了维数灾难问题。所以进行降维处理对图像的检索是比较重要的,常用的图像的降维方法有主成分分析算法、流形算法和投影算法等等。本文利用局部线性嵌入算法(locally linear embedding,LLE)对图像特征进行降维处理,然后对降维后所得到的特征向量直接进行检索匹配,争取可以减少处理数据量,降低处理时间,提高查准率。
1 HSI模型
在利用图像的颜色进行检索时,选择合适的颜色模型是检索中的关键部分。最常用的颜色空间是RGB色彩空间[2],原因在于大部分的数字图像都是采用这种颜色空间来表达的。但是RGB色彩空间在图像检索中存在着两个缺陷,其一就是RGB空间结构并不符合人眼对颜色相似性的主观判断,另外一个就是RGB空间结构的数据量特别大。所以在图像处理中不会用RGB空间结构,而是采用更加符合人的视觉感知的HSI颜色模型。HSI模型中,H(Hue)表示色调,S(Saturation)表示颜色的饱和度,I(Intensity)表示密度(对应亮度或灰度)。对任意3个【0,1】范围内的R、G、B值,可以通过下面公式得出对应的HSI模型[3]:
上面计算得出的I和S都处于【0,1】范围内,H值为【0,2pi】的范围内,为了使H在【0,1】之间,则可以令H=H/2PI.
2 LLE降维
局部线性嵌入(Locally Linear Embedding,LLE)[4]是流形学中的一种非线性降维方法,以解决维数灾难问题。其算法思想:如果原像能够表示成他邻域内点的线性组合,则像也应该用相同的组合系数表示成对应的线性组合,即确保原流形中的邻域关系,将流形上的邻近点映射到低维空间中邻近的点,保证局部邻域结构不变,从而逼近全局的非线性,保持整体的集合性质。利用这种算法进行降维将导致流形上的邻近点映射到低维空间中的相邻近的点,而流形上距离远的点映射到低维空间中距离较远的点。如图所示。
A代表的是降维前的原像,B为对A的量化,C为通过LLE降维后的像。B中的小孔降维后在C中同样出现,表明邻近点经过降维后仍然是相邻的点。从线性角度看,B图中的紫色区域离红色区域最远,而经过降维后的C图中紫色区域仍然离红色区域最远,则表明了原像中距离较远的点降维后距离也远。
例如,原始数据集X={x1,x2,…,xn},xi∈RD,输出数据集Y={y1,y2,…,yn},yi∈Rd,且d
(1)先计算原始数据集(高位空间)中各个样本之间的距离,初始化近邻个数K,根据K近邻准则确定各个样本的K近邻;
(2)计算每个点与其近邻点的权重wj(i),其中,使得重构误差最小,高位空间的重2构误差方程为:
,并且如果xj(j=1,2,…,n)不是xi(i=1,2,…,n)的K近邻中的一个,则w(i)j=0;
(3)计算低维嵌入值,即输出数据集Y。由于在低维空间中要求尽量保持高维空间中的局部线性结构,而wj(i)代表着高维空间中的局部信息,所以确保wj(i)不变,根据低维空间的重构误差最小化的宗旨得出输出数据集Y。重构误差方程如下:
3 特征提取及匹配
设M为样本图像,N为待匹配图像。提取出两幅图像中的颜色特征向量来描述图像,即RGB颜色模型。然后利用上述介绍的转换公式将RGB模型转换为HSI模型。然后对H,S,I分别进行LLE降维。降维前的H,S,I称为原像,假设降维后的特征维数为d,降维后图像M得到的特征向量为HM,SM,IM,图像N得到的特征向量为HN,SN,IN,图像M和N之间的距离就是特征向量之间的距离,用带权欧式距离度量,公式如下:
其中,WH,WI,WS是加权系数,为一组经验值,它们可以根据测试的效果进行调整。本文的实验中,设置WH=0.4,WI=0.4,WS=0.4,
之所以赋给H分量较大的权重就是因为H分量描述彩色的能力最与人的视觉接近,区分能力最强,其次为I分量,它能够体现图像的形状信息。
4 实验分析
为了验证该算法在图像检索中的有效性,本文设计了两组图像检索实验。第一组实验是珍珠检测实验,另一组是建筑物的检索实验。每组实验分别同时输入20幅图像,其中第一幅图像为带匹配图像,从其余的19幅图像中找出与第一幅图像最为相似的4幅图像,并且得出图像处理的运行时间。首先提取出这20幅图像的颜色特征向量,然后利用RGB到HSI的转换公式将他们转换为HSI模型,然后利用LLE降维将H,S,I分别降维到固有维数内,得出降维后的特征向量,最后利用欧氏距离匹配公式得出结果并输出图像。下图是利用该检索方法得出的结果。图一是珍珠检索效果图,处理时间256.463156s。
5 结束语
因为每一幅图像都有自己的固有维数,由这些固有维数组成的特征向量可以大致描述出一幅图像。所以本文利用LLE降维将图像的特征向量降低到固有维数范围内,然后直接对图像进行匹配。通过以上实验可以证明对图像LLE降维后然后直接进行特征向量匹配的方法在图像检索中是有效的。
参考文献
[1]Smith J R.Color for image retrieval[A].Castelli V,Bergman L D.Image Databases-Search and Retrieval for DigitalImagery[C].John Wiley&Sons,2002.
[2]Smith A R.Color gamut transform pairs[J].ComputerGraphics,1978,12:12-19.
[3]Sam T.Roweis and Lawrence K.Saul.Nonlinear DimensionalityReduction by Locally Linear Embedding[J].Science,2000,290:2323-2326.
基于流形学习的数据降维算法 篇3
所谓数据降维技术, 其实就是通过使用一个线性或者非线性的数学变换, 把数据的样本点从高维空间中映射到一个地位空间中, 这样我们就可以得到原始高维数据集的一个内在的紧致低维表示。流形学习给我们提供了这样一个很好的途径。近年来, 在前人的基础上, 国内外学者对基于流形学习的非线性的降维方法在理论基础和实际应用方面都做了很大的工作, 进一步完善了流形学习的理论, 扩展了流形学习方法的应用范围, 提高了流形学习方法的降维效果, 但是, 这些改进的流形学习算法在运用到现实中的高维数据集时还存在着一些问题, 其中一个最重要的问题就是, 不管是以前的流形学习算法还是改进的流形学习算法, 这些数据降维算法都是假设我们索要处理的高维数据来自于同一个数据流形, 并没有考虑到数据有可能采集于几个分散的不同的高维数据流形上, 然而, 我们在现实中所遇到的高维数据不仅仅都是在同一个高维数据流形上, 还有可能采样与多个不连续的低维非线性流形或者是采样于一个流形上的几个不连续的部分, 比如视频监控中多人脸多表情数据集。
为了学习高维多流形数据集的内在的低维几何结构, 国内外学者提出了相应的监督和无监督的多流形学习算法, 孟德宇等人提出了分解——整合算法, 提出了一种基于切空间扩展的算法, 但是它们在成功展现各个流形的内在几何结构、算法的鲁棒性、泛化能力、准确划分各流形进而有效的判定流形个数等方面的能力还比较欠缺。本文在孟德宇等人的基础上提出了等距离多流形学习的一般过程, 最后提出一种改进的多流形学习算法。
1 等距离多流形学习的一般步骤
多流形同单一的数据流形不一样, 更主要的关心同一数据流形上的信息, 受到分解——整合的算法启发, 本文提出了等距离多流形学习的一般步骤:
1.1 分解过程
对整个数据集进行聚类, 如果高维数据样本点分布在不同的流形上或者同一流形的不同区域, 这些情况都可以通过聚类方法判别出来。即使流形彼此重叠, 它们仍然可以被识别。通过此步骤, 数据集X被分成几个部分, 每个部分被人为是一个单独的数据流行。
估计流行的本征位数。
分别学习单独的数据流形
1.2 组合过程
在低维空间中保持整个数据流集的整体构架I, I可以表示全局结构, 让RY1低维嵌入到I。
通过参照I, 把YmS转换到一个单一的坐标系中, 为了忠实的保持多流行数据之间的关系, 这里可以用欧几里德变换, 最后输出低维嵌入结果。
2 改进的多流形学习算法
基于孟德宇等人提出的切空间扩展算法和等距离多流形学习的一般步骤, 本文提出了一种改进的多流形学习算法, 因为该算法实在Isomap的基础之上, 故本文算法称为M-Isomap算法, 按照我们所提出的等距离多流行学习的一般步骤, 本文算法也分了这两个步骤。
2.1 分解步骤
首先在给定的数据集X上运行基于采样密度和流形弯曲度的动态领域扩展切空间的方法, 这样就可以准确的获得数据集的各个子流行{Xm}=1, 2, …, M。
估计各个子流行的本征维数。假设Xm的本征维数为dm, 领域大小为km或者εm, 令d=max{dm}, 重构Xm的领域图, 新的领域图能够更好的近似整个流形的测地距离。
在各个子流形上分别运行古典的Isomap算法, 可以得到Xm相应的低维嵌入为Ym, 并记Ym=yim, i=1, 2, …, M。
2.2 整合步骤
保持数据集X的整体构架。首先计算不同子流形之间的距离矩阵, 假设∈Xm, ∈Xn, 则它们之间的距离为:
其中dm (, ) 是Xm的领域图中的最短距离, 尽管dm (, ) 有可能不是整个连通图上的最短路径, 上式依然是一种近似各个流形之间的距离的有效方法。
当Dmn被假定为流形Xm和流形Xn之间的距离矩阵, 则各个子流形间的最远距离可以表示为:
假设
其中A为一个正交矩阵, β为一个位移向量。则对于m个数据流形, 可以假设欧式转换为:
一般情况下, 可以写成矩阵的形式:
e为一个单位向量, 通过最小二乘法及正则化等一系列操作, 最终得到:
通过以上, 低维嵌入Ym就可以通过i欧几里德变换转化为全局坐标系统。
2.3 实验结果
通过对瑞士卷数据集进行采样100个样本在MATLAB7.0版本上进行实验其中Isomap领域半径k=4, 本文的=20, ε=0.5实验结果如图1所示。
通过实验能够看出本文算法的有效性及比传统的优越性。
3 总结
本文通过对传统算法的分析, 进行了一定的改进, 取得了较好的结果, 说明了本文算法的有效性, 当然本文算法也存在着不足之处, 如时间复杂度比较大, 怎样提高算法的时间复杂度需要进一步研究。
参考文献
[1]孟德宇.关于流形学习若干基础问题与核心算法的研究[J].2008.
[2]陈省身.微分几何学讲义[M].北京大学出版社, 1983.
文本分类中的两阶段特征降维 篇4
文本分类(Text Categorization)是指在给定的分类体系下,根据文本内容自动确定文本类别的过程[1,2,3,4]。它是文本挖掘的一个重要组成部分,在提高情报检索的速度和准确率方面有重要意义。在文本分类中,广泛使用向量空间模型(vector Space Model)来标引文本。即文本的特征直接采用文本中的词条.T(Token)作为特征项,文本可以表示为特征的向量(t1,t2,…tn),分量t2是词条对应的权值,利用训练好的分类器将文本自动分到类别集合(c1,c2,…,cn),n为类别数[5]。而这些高维的特征集对分类学习未必全是重要和有效的,同时高维特征集会加剧机器学习的负担。是否进行特征降维对文本分类的训练时间、分类准确性都有显著的影响,而且分类器的算法和实现的复杂度都随特征空间维数的增加而增加。所以,特征集的降维操作是文本分类准确率和效率的关键。特征选择和特征抽取是特征降维中的主要法。以下分别对特征选择和特征抽取中涉及的不同方法进行介绍。
2 特征选择
特征选择就是从特征集(t1,t2…,tn)中选择一个真子集T'=(t1,t2…,tm),满足m
2.1 文档频数(Document Frequency,DF)
文档频数的主要思想是:在训练文本集中对每个特征计算它的文档频数,若该项的DF值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2种极端的情况。DF特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。
2.2 信息增益(Information Gain,IG)
信息增益是一种基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征项为整个分类所能提供的信息量,不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据,计算出各个特征项的信息增益,删除信息增益很小的项,其余的按照信息增益从大到小排序。信息增益计算机公式(1)如下:
式中,t表示特征项;p(t)表示t发生的概率;p(ci)表示第i类发生的概率值;p (tlci)表示文本中出现t时,文本属于ci的概率。
2.3 期望交叉熵(Expected Cross Entropy)
期望交叉熵反映了文本类别的概率分布和在出现了某个特定词条的条件下文本类别的概率分布之间的距离,词条t的交叉熵越大,对文本类别分布的影响也就越大。期望交叉熵用公式(2)计算
它与信息增益惟一的不同之处在于没有考虑单词未发生的情况。如果特征项和类别强相关,p(tlci)就大,若p(ci)又很小的话,则说明该特征对分类的影响大。
2.4 互信息(MI)
互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。互信息用公式(3)计算:
式(3)中,p(tlci)不仅包含特征而t且属于类别ci的概率。
3 特征抽取
特征抽取也叫特征重参数化.由于自然语言中存在大量的多义词、同义词现象,特征集无法生成一个最优的特征空间对文本内容进行描述。特征抽取是将原始特征空间进行变换,重新生成一个维数更小、各维之间更独立的特征空间。常用的特征抽取方法可以分为3类:主成分分析、潜在语义标引、非负矩阵分解.
3.1 潜在语义索引
文本中存在的同义词和多义词现象,导致特征向量构造的空间存在“斜交”的特点。也就是说,特征向量的各个分量存在一定的相关性。潜在语义索引通过挖掘文本与特征之间潜在的高阶语义结构,将文本特征矩阵分解为一个低维的正交矩阵,实现特征空间的降维。文本和特征被转换到低阶语义空间上进行描述,它们之间的操作转化为语义操作。B(t×n)是一个词文档矩阵,B(t×n)可以被分解成三个矩阵,。通过奇异值分解,矩阵被分解为三个矩阵的积:
式(4)中U和V分别是与矩阵B的奇异值对应的左、右奇异向量矩阵,矩阵B的奇异值按递减排列构成对角阵∑。取U和V最前面的k个列构建B的k秩近似矩阵Bk:
U:词语矩阵,Uk:压缩至k维空间的词语矩阵;V:文档矩阵,Vk:压缩至k维空间的文档矩阵;∑、∑k:奇异值矩阵;k:因子数。经过奇异值分解即可得到降至维的文档矩阵。其中因子k的大小显然对结果有很大的影响,其过小会使一些有用的信息丢失,其过大则会使运算量增加。
通过控制语义空间的维数,LSI可以得到较大的降维度。LSI将原信息进行重新组合,很少丢失原特征空间中的信息。但是,LSI计算复杂度高,在大规模数据集上进行奇异值分解非常困难,而且降维后,分类效果下降。
3.2 主成分分析(PCA)
它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。PCA由于其处理方式的不同又分为数据方法和矩阵方法。矩阵方法中,所有的数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。在主成分方法中,由于矩阵方法的复杂度在n很大的情况以二次方增长,因此人们又开发使用了主要使用Hebbian学习规则的PCA神经网络方法。
4 特征降维方法性能比较
基于统计的特征提取方法,具有算法简单、易于实现、过滤速度快、不依赖具体领域和语言等优点。传统评估函数的特征提取方法独立地对每个特征评估打分,虽然可以选出各个类中的重要特征,但是却不能判断噪音特征和删除无效特征。向量空间模型最基本的假设是各个分量间正交,但作为分量的词汇间存在很大的相关性,无法满足模型的假设。作为上述方法处理的特征项字、词更多体现的是文档的词汇信息,而不是它的语义信息,因而无法准确表达文档的内容;大多数关于文本特征提取的研究方法只偏重考虑特征发生的概率和所处的位置,而缺乏语义方面的分析,不能深层次地理解文本所表达的主题思想,因而很难取得较好的选择效果和系统性能。
基于语义特征提取方法都处在理论研究和试验阶段,未能真正实现对文档语法语义和主题思想和分析,没有从根本上提高分类的精度和效率。如何选择基于文本语义的特征项研究还没有深入的开展,另外,在特征项抽取算法方面也缺少系统而深入的研究成果。目前尝试借鉴语言学技术进行的研究,有从手工输入的特征中学习特征信息及基于WordNet的特征提取等方法,但方法所产生的效果都不理想。未来的研究应更多地运用自然语言理解、人工智能,以及语言学等方面的知识和技术,更深入地分析文档语法语义和主题思想,充分考虑语言中大量存在的同义和多义现象,以及褒贬倾向等在特征提取中起关键作用的因素,提高特征提取和文本过滤的精度。
5 两阶段特征降维
考虑到特征选择的不足,只考虑到文本和词的关系,用词来代替文本,计算一定的阈值来判断文本的类别,具有不准确性。没有考虑词之间的关系,次之间存在语义关系,所以有特征提取算法。但是特征提取算法计算规模较大,对数据敏感。结合二者的不足,提出两阶段的特征降维方法。第一阶段,用特征选择方法选出重要的特征,对文分类比较重要的特征。第二阶段,使用特征选取算法,发现词之间的关系,发现文本之间的关系,进一步进行文本分类。
两阶段特征降维方法比传统的特征降维方法要好,分类的性能得到提高。文本分类过程中的计算量降低,文本分类的精度提高。
6 结语
文本数据挖掘是信息处理的一项重要而基本的研究方向。文本聚类作为文本数据挖掘的一种方式有着非常重要的作用。本文给出了常见的特征降维方法,并基于向量空间模型,构造教育文本的特征向量,然后利用潜在语义索引技术实现特征空间变换,去除了特征之间的相关性,在有效的进行了特征降维的同时,提高了聚类准确率。
文本分类将来的研究主要集中在对语义特征的表示和选择上,需要深入分析文档语义和主题思想,探索文本语义的表示模型,研究基于语义的特征选择算法,使分类充分反映样本相似性的本质,提高文本分类的准确性。到目前为止,文本分类技术的发展还有赖于基于语义文本表示和特征选择技术更进一步的发展。
摘要:文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围,提出了两阶段的特征降维方法框架。
关键词:文本分类,特征选择,特征提取
参考文献
[1]Y.Yng,and Pedersen,J1Q.A comparative Study on Feature Selection in Text Categ orization[C].In Proceeding of the 14th International Con ference on Machine Learning(ICML),1997:412-420.
[2]孙春明.高性能特征选择及文本分类算法研究[D].华北电力大学,2007.
[3]Forman.G."An extensive empirical study of feature selection metrics for text classification,"Journal of Machine Learning Research,vol.3,pp.1289-1305,2003.
[4]Jiana Meng and Hongfei Lin,"A Two-stage Feature Selection Method for Text Categorization",Seventh International Conference on Fuzzy Systems and Knowledge Discovery,IEEE press,pp.1492-1496,2010.
[5]陈涛,谢向阳.文本分类中的特征降维方法综述[J].情报学报,2005,12(24),690-695.
[6]李荣陆.文本分类及其相关技术研究[D].上海:复旦大学.2005.
[7]S.C.Deerwester,S.T.Dumais,T.K.Landauer,G.W.Furnas and R.A Harshman,"Indexing by latent semantic analysis",Journal of the American Society Information Science,vol.41,pp.391-407,1990.
[8]K.Shima*,M.Todoriki and A.Suzuki,"SVM-based feature selection of latent semantic features",Pattern Recognition Letters,vol.25,pp.1051-1057,2004.
[9]周茜,赵明生等:中文文本分类中的特征选择研究:中文信息学报,2004,18(3):17-23.
试议降维编程在数据验证中的应用 篇5
关键词:降维,数据表,验证
1 引言
在审计过程中, 审计人员需要采集被审计单位的各种电子数据, 包括各种电子表格、文本、数据库数据等, 由于被审计单位业务人员的不规范操作和信息系统的缺陷, 电子数据中往往会出现很多非法字符, 需要审计人员进行数据验证。例如, 某单位的人员信息表中可能出现一些非法字符, 如姓名出现非中文字符, 身份证出现数字和X以外字符等。如表1所示。
这些问题有些是人为疏忽造成的, 而有些却是重要的审计线索或审计疑点, 例如医疗保险系统的内部人员通过伪造人员姓名或身份证开设虚假账户, 达到诈骗资金的目的。审计人员在遇到这种问题时, 往往是先找出所有数据, 然后使用Where姓名like‘%非法字符%’语句找出姓名中包含非法字符的记录, 然后一条一条筛选、整改, 但是一些业务量比较大的单位的数据往往有几百万条甚至几千万条, 审计人员很难进行数据验证。使用的降维编程技术可以直接筛选出所有包含非法字符的记录。
2 分析思路
数学问题中, 遇到多维空间的问题往往是降低维度进行分析, 如对于四维空间 (时间+空间) , 往往是分析某一时段的三维空间;对于三维立体, 降到二维平面分析;对于二维平面, 降到一维直线;对于一维直线, 降到每个点去分析。
使用该思路, 那么表1就可抽象成二维平面, 表由多个行组合构成, 而行由多个字符组合构成。对表1进行降维分解, 由二维平面分解成一维直线的组合, 如表2所示。
该一维直线就是由字符“张”和字符“三”构成, 对表2进行降维分解, 由一维直线分解成点的组合, 如表3所示。
将二维平面分解成点后, 只要判断每个点是否为中文字符, 反推就可得出所有包含非中文字符的记录。
3 TL-SQL编程实现
在Ms SQL 2008R2下使用TL-SQL语言实现该思路, 具体步骤如下。
3.1 创建临时表
创建临时表用于存放查询的结果, 以便用于最终的分析, 代码如下。
以上代码首先判断当前数据库中是否已经有“临时”表, 如果有, 先删除然后创建, 这种写法利于脚本的反复使用。
3.2 将表分解为每一行 (由二维平面降维至一维直线)
如何将结果集分解成一行行记录?笔者采用的方法是游标技术, 游标提供了一种从表中检索数据并进行操作的灵活手段, 游标中的循环就可以实现对每一行记录的操作。代码如下:
3.3 抽取每行数据中的每个字符 (由一维直线降成0维点)
步骤1的游标技术实现了对每一行记录的遍历, 接下来就要抽取出该行记录的每一个字符进行判断, 采取的技术是循环遍历方法。代码如下:
---实现了抽取每一个字符
以上代码中的变量n表示改行总字符数, i表示当前字符位置, 通过循环获取了每个字符。
3.4 判断字符是否为中文字符
判断字符是否为汉字的方法有很多, 笔者介绍两种方法, 一是ASCII码值判断, 另一种是根据汉字编码的范围判断。
3.4.1 ASCII编码判断
在不考虑日文、韩文等其他象形文字的情况下, 可采取判断该字符的ASCII码值, 若符合范围则为非汉字字符。代码如下:
3.4.2 汉字编码范围判断
汉字‘吖’到‘座’基本上可以表示常用汉字的范围, 对于超过范围的可认为非中文字符, 该方法更精确。代码如下:
3.5 将结果插入临时表中
中间表用于存放每一个不符合中文的记录, 代码如下:
3.6 获取临时表结果
如表4所示。
3.7 获取最终结果
将临时表与源数据表关联, 获取源数据表中姓名字段中包含中文字符的详细记录。
3.8 完整脚本
select要分析的字段from源表---可以在此处替换相应的表名和字段名, 使得该脚本得到推广。
select a.*----最终获取源表中姓名包含非法字符的所有记录。
4 结语
降维编程是一种常见的编程思路, 用T-SQL语言实现该思路, 并用于数据表中数据的验证, 大大提高了审计人员在数据采集阶段数据验证的速度和准确性。
参考文献
[1]葛洪伟, 姜代红, 罗海驰, 等.数据库系统原理与应用[M].北京:中国电力出版社, 2008.
降维模型 篇6
网络入侵检测是信息安全领域的研究热点和难点。随着网络规模愈加庞大和复杂, 构建合适、高效的适用于分布式网络的入侵检测模型难度也越来越大。从使用的方法上看, 现有网络入侵检测技术大多通过统计学、机器学习或神经网络等方法训练检测模型, 然后将该模型用于实时的网络入侵检测。在这个过程中, 为了更为精准地描述网络状态, 科研及工程技术人员需要抽取更多能够表征网络真实状态的特征参数, 比如某个时间间隔内的协议分布比例, 某个分布节点出入的网络流量等。参数越多, 描述网络状态的能力就越强, 所代表的网络状态就越真实客观, 但也带来了一些新的问题, 比如用于表征网络状态的向量“高维化”。高维向量使得网络入侵模型训练及检测过程中的计算量大幅增加, 这对实时性和准确性要求较高的网络入侵检测技术来说是一项较大挑战。近些年来, 随着网络入侵检测技术的发展, 越来越有效的检测方法被提出[1,2], 当这些方法需要处理代表复杂网络状态的高维数据时, 需考虑实时性。维数越高, 实时性的问题就会越明显, 特别是在需要进行大量欧氏距离运算的检测模型中更是如此[3]。因此, 如何在网络入侵检测模型中有效降低维数非常重要。
1 相关研究工作
高维数据的降维问题是机器学习领域内的研究热点, 广泛地应用在诸如文本分类、人脸识别、图像分割等领域。降维技术分可为无监督降维、有监督降维和半监督降维三大类。无监督降维方法不需要标记数据的类别, 通过分析数据自身分布特点降低维数。比如近邻保持降维技术就采用了“假设近邻向量之间在高维空间中可以相互表示, 那么在降维后的低维空间中仍然可以互相表示”[4,5]的思路进行降维。无监督降维不需要使用标记的数据, 因此省去了标记数据的工作量, 工程实现代价较低, 但由于缺少标记数据的支撑, 理论上只是在降维过程中保持数据的分布特征, 没有考虑在降维过程中进行聚类, 以提升数据的可区分性;有监督降维方法则不同, 它需要大量标记的数据, 在标记数据的帮助下使得“降维后的低维空间中, 相似数据‘更为紧密地’聚在一起”, 进而建立降维模型[6], 提升聚类效果。由于需要对数据做大量的标记工作, 因此代价较高, 但理论上性能更好;半监督降维技术使用较少的标记数据和大量的非标记数据进行降维, 兼顾无监督降维和有监督降维的优点, 受到了科研人员的重视[7,8]。从国内近些年来的研究文献看, 虽然已有半监督技术的相关研究[9], 但鲜有将半监督应用于特征降维, 并在此基础上提出网络入侵检测方法的工作。本文基于此, 研究半监督降维技术在网络入侵检测中的应用, 提出了一种基于半监督降维 (SSDR) 技术和BP神经网络的入侵检测方法, 并基于公用数据集进行了仿真实验。对比实验表明:这是一种能够在降低维数的前提下, 保持合理的检测率和误报率的网络入侵检测方法, 具有较高的工程应用价值。
2 基于半监督降维机制的网络入侵检测方法
2.1 框架
采用半监督降维方法的网络入侵检测模型框架结构如图1所示。从图1中可以看出, 来自Internet的原始网络流量数据进入被保护网络之前, 需要经过三大模块的处理:数据采集与处理、高维数据的半监督降维、网络入侵检测。其中“数据采集与处理”是对最原始的网络数据包进行解析、统计, 得出能够代表网络特征的高维向量, 这是一个工程实现的问题。“半监督降维”则对此高维向量降低维数, 目的是提升后续模块“网络入侵检测模型”的实时性。图1的网络入侵检测模块, 采用的是基于BP神经网络的入侵检测模型。
2.2 半监督降维SSDR介绍
ZHANG[7]提出的SSDR (Semi-Supervised Dimension Reduction) 降维算法是一种基于最优化问题的半监督降维算法。算法的基本思想是利用少量标记样本和大量未标记样本, 构造一个变换矩阵W。该变换矩阵可以将高维向量x投射到低维空间 (y=WTx) , 并在此过程中尽量考虑: (1) 大量未标记数据降维后的主成分最大化 (即PCA) ; (2) 标记样本降维后所属类间距最大化; (3) 标记样本类内间距最小化, 即式 (1) 的最大值求解。
式中, W= (w1, w2, …, wd) 是由d个列向量组成的矩阵 (d是低维空间维数) , 用于将高维向量x映射到低维空间。式 (1) 中的3个部分分别表示未标记、类间和类内降维后向量之间的欧氏距离平方和的平均值。求式 (1) 的最大值得到的W即可被用于高维向量的降维, 因此式 (1) 的求解过程可看作降维模型的训练过程。训练过程输入的数据分为3部分:未标记样本对;不同类样本对和同类样本对。若输入的两个样本对属于未标记数据, 则代入式 (1) 的第一部分计算;如果输入的两个样本属于不同类 (Cannot-Link, (xi, xj) ∈C) 数据, 则代入式 (1) 的第二部分计算;若输入的样本对属于同一类的 (Must-Link, (xi, xj) ∈M) , 则代入式 (1) 的第三部分计算。在训练数据上表现最好的变换矩阵W可使得式 (1) 的值最大。
为了调整类内和类间样本由于绝对数值差异较大而对最终结果产生的影响, 分别引入了α和β两个系数进行二者之间的平衡。
2.3 适用性分析
由于网络自身的组成和应用特点, 在网络入侵检测领域, 大量未标记的样本获取是较为容易的, 可由分布在各节点的传感器采集, 但是, 带标记的正常或入侵样本的获取难度则相当大, 这是因为需要针对采集的样本进行分析, 归类 (正常或攻击) , 从而需要耗费大量时间。半监督降维技术由于只需少量标记样本, 能够使得入侵检测系统的工程实现、运行维护难度降低, 在保证性能的同时, 避免大量样本的标记工作, 具有明显的适用性。
3 实验及仿真
仿真实验分两部分进行: (1) 采用检测率和误报率两个指标, 在著名公用数据集KDD CUP99[11]上对比降维前后的网络入侵检测模型的检测性能。实验数据采用的攻击数据为多种攻击类型的混合。为了说明半监督降维技术的优势, 同时还对降维前后的算法运行时间进行了对比; (2) 针对DOS、PROBE和U2R等类型的攻击, 对比了不同攻击类型经过半监督降维后的检测效果。
3.1 实验数据与平台
第一部分实验采用美国国防部高级计划研究局 (DARPA) 用于入侵检测系统评估的KDD CUP99数据集。该数据集分为训练集和测试集两大部分。本文从kddcup.data_10_percent_corrected训练集中, 抽取了4 406条数据混合在一起, 用于模拟未标记数据;随机抽取其中10条正常数据和10条攻击数据模拟少量标记样本。为了检验降维的效果, 本文另从KDD CUP99的correct测试集中, 抽取了5 669条攻击数据和6 060条正常数据组合为测试数据集。KDD CUP99的原始数据为41维向量, 本文实验将其降维为3维向量。
第二部分实验测试数据主要有三部分:拒绝服务类 (DOS) 攻击测试数据、扫描类 (PROBE) 攻击测试数据、权限提升类 (U2R) 攻击测试数据。
半监督降维算法中的参数α和β分别设置为1和20。实验环境方面, 采用Matlab 7.1 for Windows XP。硬件方面的主要参数为:CPU-Intel酷睿2 T8100, 2.1GHz;内存2GB。
3.2 实验结果与对比
基于BP神经网络的网络入侵检测模型降维前后10组检测率、误报率实验数据对比结果如图2所示 (说明:实验选取的是三层BP神经网络, 降维前隐层网络的神经元节点个数为8, 降维后为4) 。
由图2可见, 降维后的检测性能 (检测率和误报率) 和降维前相差无几, 说明半监督降维可以在降维同时保持检测模型的检测性能。考虑到降维的主要目的是为了减少向量维数进而提升检测模型的实时性———缩短训练时间和检测时间。因此, 本文也对降维后的检测模型训练和检测时间进行了对比。
基于BP神经网络的网络入侵检测模型降维前后训练时间和检测时间对比结果如图3所示。
从图3可以看出:将KDDCUP99训练和测试数据从41维向量降为3维向量后, 单回合训练时间 (从2.0313降至1.2188, 降幅39.99%) 和检测时间 (从0.0781降至0.0625, 降幅19.97%) 有大幅下降。降维带来的实时性提升是明显的。
为了进一步验证算法的有效性, 本文分别针对不同攻击类型的检测效果进行测试, 得到如表1所示的结果。
从表1可以看出, 拒绝服务类 (DOS) 和扫描类 (PROBE) 攻击的检测效率较高, 而权限提升类攻击 (U2R) 的检测效率相对较低。这是因为DOS和PROBE两类攻击所引起的网络状态变化比正常状态较为明显 (比如大量的握手请求、频繁的端口扫描等) , 而U2R类攻击引起的网络状态变化和正常网络操作模式相比区别不大。因此, 为了能够更为有效地检测出这种类型的攻击, 现代入侵检测系统应考虑建立更为准确和全面的检测模型。
4 结语
本文针对网络入侵检测中高维数据带来的运行效率问题, 研究基于半监督学习的降维机制在网络入侵检测中的应用, 提出了基于半监督降维技术和BP神经网络的入侵检测方法。基于著名公用数据集的对比实验表明:本文提出的方法可以利用少量的标记样本和大量的未标记样本, 在保持检测性能的同时提升检测模型的运算速度, 进而提高入侵检测系统的实时性。半监督降维技术兼具有监督降维和无监督降维的优点, 省去了大量样本标记工作量, 且具有与降维前性能相当的检测率和误报率。展望以后的研究工作, 作者拟结合降维技术研究领域的最新研究成果, 研究网络入侵检测模型的特征降维方法, 进一步提升检测模型的实时性, 同时获得更好的检测性能。
参考文献
[1]Wang Wei, Zhang Pengtao, Tan Ying, et al.Animmune local concentration based virus detection approach[J].Journal of Zhejiang University:Science C, 2011, 12 (6) :251-266.
[2]Laurens Hellemons, Luuk Hendriks, Rick Hofstede, et al.SSHCure:A Flow-Based SSH Intrusion Detection System[C]//Lecture Notes in Computer Science, Dependable Networks and Services, 2012, 7279:8697.
[3]李洋, 方滨兴, 郭莉, 等.基于直推式方法的网络异常检测方法[J].软件学报, 2007, 18 (10) :2595-2604.
[4]Sam Roweis, Lawrence K Saul.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science, 2000, 290 (22) :2323-2326.
[5]He X, Cai D, Yan S, et al.Neighborhood preserving embedding[C]//Proceedings of the 10th IEEE International Conference on Computer Vision, 2005:1208-1213.
[6]Tang W, Zhong S.Pairwise Constraints-guided Dimensionality Reduction[C]//SDM’06-Workshop on Feature Selection for Data Mining, Bethesda, MD, 2006.
[7]Zhang D Q, Zhou Z H, Chen S C.Semi-Supervised Dimensionality Reduction[C]//Proceedings of the 7th SIAM International Conference on Data Mining (SDM’07) , Minneapolis, MN, 2007:629-634.
[8]Tong Bin, Einoshin Suzuki.Subclass-oriented Dimension Reduction with Constraint Transformation and Manifold Regularization[C]//Advances in Knowledge Discovery and Data Mining (PAKDD) , Part II, LNAI6119, Springer-Verlag, Hyderabad, India, 2010:1-13.
[9]肖宇, 于剑.基于近邻传播算法的半监督聚类[J].软件学报, 2008, 19 (11) :2803-2813.
[10]The Berkeley Segmentation Dataset and Benchmark[DB/OL].http://www.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/.
降维模型 篇7
Covering问题是许多问题的抽象模型, 具有广泛的应用背景和深刻的理论意义[1].例如如何布置机器人的位置, 使得已知位置的诸服务对象能得到充分的服务的问题, 就是一个Covering问题, 其中圆盘的半径R代表机器人的手臂长度[2].
所谓Covering问题, 即是给定一个由平面的点组成的有穷点集N和一定个数直径为D的圆盘, 问如何布置这些圆盘的位置, 才能将点集N中所有的点都覆盖住.进一步地, 如何用最少的圆盘将点集N中所有的点覆盖住, 即是Opt-Covering问题.显然, Opt-Covering问题比Covering问题更困难.
Covering问题是著名的NP难度问题之一, 不存在多项式时间复杂度的求解算法[2, 3].于是, 学者们设计了一些近似算法来求解Covering问题.文献[1]中提出的著名的多项式时间复杂度的Hochbanm-Maass算法, 其Shifting策略是一个既聪明又透彻的颇具理论意义的策略, 但由于多项式的次数太高, 计算时间增长太快, 不利于解决实际问题.文献[4]模拟万有引力和屏蔽现象所引起的力学过程, 给出了求解Covering问题的一个拟物方法.这一方法能较好地解决规模不算大的Covering问题 (点的个数不多于50时) , 但问题规模较大时点的个数多于100时, 这一方法就显得无能为力了.而且, 这一方法不利于解决Opt-Covering问题.
本文提出了一些解决大规模Opt-Covering问题的策略.核心思想是先将原问题转化为一个图论问题, 划分成若干子问题逐一解决, 从而达到降维的目的;解决子问题运用动态规划方法, 其策略是不断地搜索一些特殊的用且仅用一个圆盘覆盖的子点集, 逐一用一个圆盘来覆盖.
二、降维策略
1.分块算法
为了降低问题的规模, 我们设计了分块算法.分块算法的核心思想是把原问题不损伤最优解地分割成几个独立的子问题来解决.其几何思想是对点集中任意相邻的两个点进行连边, 使原点集中所有的点均包含在若干个连通图之中.搜索一个连通图的算法步骤如下:
每产生一个连通图及其对应的子点集, 我们都马上设法解决基于该子点集上的Covering问题.这样我们就可以把原Covering问题分成若干个不同且独立的子Covering问题来解决, 从而达到降维的目的.但这只是我们的降维策略中的一部分.在解决一个连通图上的点集的Covering问题时, 我们同样设计了降维算法.
2.子Covering问题上的降维策略
定理2N0是Covering问题的一个独立集, 用一个圆盘覆盖N0则该圆盘覆盖N0的方式是最优的.
摘要:本文是对模Opt-Covering问题的降维策略进行研究.通过分块算法将原问题划分成若干子问题, 然后逐一解决子问题, 这样就达到降维的目的.
关键词:Covering,Opt-Covering,连通图,降维算法
参考文献
[1]C.A.Rogers.Packing and Covering, Cambridge University Press.Cambridge 1964.
[2]Dorit S.Hochbaum, W.Maass.Approximation schemes for covering and packing problem in image processing and VLSI, Journal of the Association for Computing Machinery 32:1 (1985) , 130-136.