流量支持(精选4篇)
流量支持 篇1
0 引言
目前,HDTV、家庭网络,视频会议、视频聊天、网络游戏、P2P应用等新业务的繁荣使得用户对带宽的需求成爆发式的增长,为了满足日益增长的带宽需求,以太网无源光网络(EPON)技术[1]因为其带宽大、容量高、保密性好、独享性好以及低成本的技术优势成为网络建设的主要技术手段,服务等级协定(Service Level Agreement,SLA)是运营商与用户之间签订包含双方对服务、权利和责任共同约定的正式合同,通过SLA运营商和用户履行各自的权利和义务,笔者简要分析了EPON系统中支持SLA的必要性,并针对这样的应用需求,提出保障SLA实施的流量管理方案。
1 EPON系统结构概述
EPON标准IEEE802.3ah实际是TDM EPON,OLT与ONU之间采用树形结构,中间连接一个无源的1∶32分光器,上、下行采用的都是单波长,通过一根光纤传输,下行采用广播方式,上行采用基于统计复用的TDM方式共享物理信道,FTTH组网方案中的EPON系统结构如图1所示。
2 EPON系统中支持基于SLA的QoS必要性分析
目前,EPON系统的QoS技术主要有DBA算法[2]和多LLID技术[3]。
2.1 DBA算法
EPON DBA算法是用于解决在上行方向,对于所有ONU进行统计复用,并且尽可能地提高带宽利用率,提高QoS保障,保证公平性等问题,常见的DBA算法为适应性周期时间交叉轮询(Interleaved Pollingwith Adaptive Cycle Time,IPACT),IPACT算法根据ONU报告的队列信息作出带宽分配操作,ONU给OLT发送report帧后,直至ONU从OLT获得授权的时间段内的数据包需等到下一个周期发送,假设t1时刻ONU向OLT发送自己的带宽需求,t2时刻ONU获得OLT的授权,t3时刻是OLT给该ONU授权准许发送数据的起始时刻,在t1~t3时间段内,ONU新收到的数据包必须等到下一次授权时刻才发送。流程如图2所示。
在IPACT算法的设计下,ONU的平均队列时延会增加,另外,对于OLT来讲,每个ONU都是平等对待,无差别地进行调度,但是ONU所连接的用户却不一样,网络服务提供商按照提供给用户不同等级的服务收取相应等级的费用,IPACT算法仅仅考虑了ONU之间的公平性,但是忽略了用户之间的公平性[4]。购买服务等级高的用户可能与购买服务等级低的用户遭遇同样的时延甚至丢包,此时,高等级用户的利益就受到了严重损害,并且违反了运营商与用户签订的合约,阻碍了业务的进一步发展,所以在EPON系统中需要支持SLA。
2.2 多LLID技术
在传统的EPON系统中,每个ONU从OLT处获得1个LLID作为该ONU的唯一标识,LLID被添加在以太网包的前导码中,占据16 bit。图3为一个分组前导码添加1个LLID的示意图。
这样传统的单LLID ONU只是对ONU的带宽进行管理,无法精确地考虑ONU各种业务的服务质量,使用多LLID技术并且将每个ONU的每个LLID都单独绑定1个SLA则可以很容易地满足对用户多业务管理的需求。由图3可知,帧格式中LLID为15 bit,即可以有215=32 768个LLID编号,一般EPON系统中给每个ONU分配8个LLID,按照1∶32计算,一个OLT最多要给下挂的ONU分配256个LLID,因此完全可以为每个ONU分配多个LLID,通过管理这些逻辑链路,使得传输质量可以控制,当ONU注册时,根据配置注册多个LLID,由OLT端登记多个LLID,业务的SLA指配问题可以解决。综上所述,在EPON系统中基于SLA的要求进行网络上QoS保障具有重要意义。SLA主要是用保证带宽、最大带宽、时间延敏感性和突发字节数这4个参数来说明带宽使用情况,为了满足SLA的流量规范,EPON系统中需要支持对链路上的流量管理功能,笔者重点分析了在EPON系统中使用双速率三色标记来完成基于SLA的流量控制管理机制。
3 SLA流量管理方案研究
由于传统的EPON系统不支持SLA,但是在实际应用中需要这样的功能,所以笔者在此分析了双速率三色标记器的原理,提出了支持SLA进行流量管理的方案。
3.1 双速率三色标记算法
双速率三色标记(trTCM)原理如图4所示。
由图4可知,trTCM涉及4个参数:承诺突发尺寸(Committed Burst Size,CBS)、峰值突发尺寸(Peak Burst Size,PBS)、承诺信息速率(Committed Information Rate,CIR)和峰值信息速率(Peak Information Rate,PIR),使用Tc和Tp表示图中C桶和P桶的令牌数量,Tc和Tp初始化等于CBS和PBS,Tc和Tp在每秒钟内分别更新CIR和PIR次,每次更新增加一个令牌(除非桶满)。假设到达的报文大小为B byte,trTCM按照以下两种工作模式进行处理,具体算法为:
1)色盲模式
若Tp-B<0,则报文被标记为红色,Tc-B<0,将报文标记为黄色,且Tp减小B,否则报文被标记为绿色并且Tc和Tp都减小B,如图5所示。
2)感色模式
在感色模式下,在对到达报文(假设报文大小为B)进行评估时,遵循以下规则:如果报文已被标记为红色或者Tp-B<0,则报文被标记为红色,如果报文已被标记为黄色或者Tc-B<0,则报文被标记为黄色,且Tp降低B,否则报文被标记为绿色并且Tc和Tp都降低B。如图6所示。
3.2 SLA流量管理机制设计
如图7所示,当分组经过流分类处理后,不同的业务流经过不同的队列发送到链路上,这时系统使用标记器,根据用户绑定的SLA流量规范来计量业务流的流量特性。首先,对链路上的业务流流量进行度量,判断是否符合SLA的流量规范,同时标记该业务流的状态。假如流量特性遵循SLA的流量规范,则正常发送,若与SLA的流量规范不相符合,则采取惩罚措施,例如丢弃报文等。
然而trTCM算法是对每1个IP分组进行标计,在区分服务(DiffServ)中,红、黄、绿映射为不同的DSCP值,但是,EPON系统上传输的是以太网帧,不是IP分组,所以该算法并不能直接在EPON系统中使用,笔者提出了一种新的标记方式,即针对LLID进行着色标记,实现计量标记业务流的流量特性功能,由于EPON系统中采用支持区分服务的机制,对每个用户的不同业务流都有不同的优先级分类标记,业务流经过分类处理后映射到不同队列中,然后不同队列对应不同的逻辑链路,并且使用多LLID技术支持承载用户的多业务接入,所以在EPON系统中采用该算法时,可以将ONU的LLID作为操作对象。另外,为了满足SLA参数配置的需要,可将峰值信息速率配置为最大带宽,将承诺信息速率配置为保证带宽。
由上述可知,可将图3中所示的15 bit划分为用户LLID标识部分和保留部分,将其中第1~8位作为用户LLID标识使用,第9~15位作为保留部分,在保留部分中取最后2位作为着色标记使用,用这种方案即可实现在EPON系统中针对LLID进行着色标记的功能。如表1和表2所示,表1说明了图3中15 bit的分配方式,表2说明了如何利用2 bit定义的着色标记状态。
在分组经过标记后,系统将根据颜色标记的不同进行相应的处理,对于标记为红色的分组,即流量超过了SLA规定的最大值,将直接丢弃;对于标记为黄色的分组,即流量超过了SLA规定的保证带宽,但是小于最大值,仍然正常发送,但是将分组的优先级标记值减1;对于标记为绿色的分组,即流量小于SLA规定的保证带宽,系统将正常发送,不作其他处理。
4 实验验证
为了验证该机制是否能有效地支持SLA,实现对用户业务进行流量管理的功能,按照图8组网方式进行测试。
假设某个用户与ONU1连接,该用户有4种不同的业务流,对应的LLID号分别为1,2,3,4,与之相对应的业务优先级为7,5,3,1,优先级7最高,优先级1最低。对该用户的4个LLID使用同一SLA模板进行测试,假定用户每种业务的SLA参数是最大带宽15 Mbit/s和保证带宽10 Mbit/s。测试结果如表3所示。
由表3可知,在不使用标记器处理时,该用户的业务流量未受到限制,其使用的带宽超出了SLA的规定,在这种情况下,网络上的负载加大,增加了网络上发送拥塞的几率,同时由于业务突发流量的不确定性,给运营商进行网络运维管理增加了很大的难度,相反,在使用标记器处理的情况下,当发送的流量超过配置的最大带宽时,系统将流量限制为15 Mbit/s,超出的部分被丢弃,当发送的流量介于最大带宽和保证带宽之间,对端可以正常接收该业务流,但系统降低了业务流的优先级,通过测试仪表抓包分析得知,业务流的优先级标记值减1,从7,5,3,1重标记为6,4,2,0,给后续的调度处理提供依据,当发送的流量小于保证带宽时,正常发送和接收该业务流。这样,用户所使用的带宽遵循了SLA的规定,减小了网络上发送拥塞的几率,并且运营商可以按照用户与其签订的服务合同进行网络规划和布局,使得网络运维管理的难度大大降低。
5 小结
笔者分析了EPON系统中支持SLA的必要性,提出了一种SLA流量管理机制,通过实验验证,该方案可以成功进行流量控制,克服了传统EPON系统不支持SLA的问题,满足了运营商实施流量管理的需要,为提高网络服务质量提供了一种新的有效方法。
摘要:分析了在以太网无源光网络系统中支持服务等级协定的必要性,根据双速率三色标记器原理,提出了基于光网络单元的逻辑链路标识进行流量控制的方案,解决用户业务流量控制相关问题。
关键词:以太网无源光网络,逻辑链路标识,双速率三色标记,服务等级协定
参考文献
[1]莫禾胜,祝军生,贾磊.基于EPON的FTTH网络设计与实现[J].电视技术,2007,31(11):63-65.
[2]帅千钧,李鉴增.EPON宽带接入网DBA技术的研究[J].中国传媒大学学报:自然科学版,2010(1):23-30.
[3]何岩,杨宗凯.采用多LLID技术的EPON综合接入系统[J].光通信研究,2005(4):1-4.
[4]甘苹.高效公平的EPON DBA算法设计原则[J].上海应用技术学院学报:自然科学版,2008(4):284-289.
流量支持 篇2
在企业价值评估收益法中,中外评估界一致提倡采用自由现金流量作为预期收益额,自由现金流量预测的准确性直接决定了评估结果的科学合理。目前采用较多的自由现金流量预测方法有比例预测法、时间序列预测法和回归分析法等,每种方法都有其使用条件,各有优劣,其目的都是为了更加准确地预测企业未来的收益。各种预测方法都受人为主观因素的影响,而如果完全将主观因素剥离出评估,也是不科学的,关键就在于采取何种预测方法来引导这种主观成分,以期在评估企业价值时更加准确地预测企业未来自由现金流量。支持向量机在解决小样本、非线性问题较传统预测方法表现出许多特有的优势(Mallat等),在金融时序预测、时间序列预测等回归预测领域应用越来越广泛的情况下,本文首次引入支持向量机方法对企业未来自由现金流量进行预测,以期使评估结果更加科学准确。
二、支持向量机预测自由现金流量的可行性
支持向量机(SVM)可针对小样本情况,并且能够较好地处理非线性和高维数问题,有多种核函数进行分类或者回归,该方法可以得到全局最优解,克服了神经网络无法避免的过学习或欠学习、局部极小点等问题。
与其他传统预测方法相比,支持向量机的优点在于大体上能够保证其具有简单的建模过程、较好的推广能力和出色的小样本性能(梅建新等),因此在金融时序预测、时间序列预测、文字识别、图像处理、地震勘测等许多领域得到成功应用(Zou H.F.,2011;鲍漪澜,2013;彭丽芳等,2006)。
企业价值评估中,自由现金流量的表达公式为自由现金流量=净利润+折旧及摊销+税后利息支出-年营运资金增加额-年资本性支出。可见自由现金流量的影响因素很多,并且它与宏观经济的发展、行业发展、外部竞争、供给与需求关系、经营管理因素、政策因素等密不可分,而这些因素之间多呈非线性关系,并且对于成立时间较短的公司,取得其评估基准日前十几年甚至更多年份的财务数据是不现实的,这就对传统的预测方法提出了挑战,而支持向量机能较好地处理小样本、非线性问题,适合用于收益法中自由现金流量的预测。
三、支持向量机基本理论
支持向量机(SVM)方法的基本思想是通过非线性映射(核函数)将样本空间映射到一个高维特征空间,采用线性学习机的方法,在高维特征空间实现样本空间的高度非线性分类或回归。当支持向量机用于回归估计问题时称为支持向量回归机(SVR),SVR包括线性支持向量回归机和非线性支持向量回归机(高尚,2013)。
对于非线性支持向量回归机,样本集为(y1,x1),x∈Rn,y∈R,其是通过某一非线性函数ϕ(·),将训练样本xi映射到一个高维特征空间H,在这个高维空间构造线性回归估计函数,通过核函数K(xi,xj)实现这一非线性变换,其中K(xi,xj)=ϕ(xi)·ϕ(xj),这样就免去了在高维空间计算复杂的点积运算(苏高利和邓芳萍,2006),从而避免升维可能产生的维数灾,即通过运用一个非敏感性损耗函数,对于非线性支持向量回归机的决策函数为:
对上式进行简化可以得到最终的回归估计函数:
由此可知,通过求出支持向量,同时可得到原来样本空间非线性回归的最终输出值,这样非线性支持向量回归机便可以通过线性支持向量回归机和核函数方法求解得到。
四、基于支持向量机的自由现金流量预测方案设计
从自由现金流量的公式可知,自由现金流量由净利润、折旧及摊销、税后利息支出、年营运资金增加额及年资本性支出五个财务指标共同决定,若采用支持向量机方法只对每年的自由现金流量结果进行预测,则需要输入这五个财务指标的影响因素。其变量因素过多,而且仅就净利润而言,又包含营业收入、营业成本、期间费用、营业税金及附加等财务指标的影响因素,所以直接采用支持向量机对每年的自由现金流量的结果进行预测,会使预测结果较为粗略,不能较为准确地进行预测。反之,若采用支持向量机对自由现金流量公式中各项财务指标都进行预测,则需要分析确定各项财务指标的影响因素值,其工作量较大。
分析诸多学者如史静(2009)、丁晔(2012)、石伟(2008)等关于收益法评估企业价值时自由现金流量的研究,并分析大量实际评估案例,同时对影响自由现金流量的财务指标进行敏感性分析,可以看出营业成本、营业税金及附加、期间费用、营运资金一般占营业收入的一定比重,或者该比重的变化呈现一定趋势,评估人员一般根据该比重进行预测,而对于折旧及摊销则根据企业固定资产折旧摊销采用直线法进行预测,资本性支出按照企业现有账面固定资产在评估基准日的重置价值及其经济寿命预测。
由此可见,营业收入的准确性在很大程度上决定了企业的自由现金流量,因此本文采用支持向量机对营业收入进行预测,然后对其他财务指标通过其占营业收入的比重等方法进行预测,从而避免了直接预测自由现金流量结果的粗略性,也避免了对每项财务指标分别进行预测所带来的繁琐工作量。
收益法评估企业价值预测未来收益时,一般分为3~5年的详细预测期与永续经营期,我们采用MATLAB软件,应用支持向量机进行自由现金流量的预测,具体分为营业收入预测和自由现金流量预测两大步骤。
(一)营业收入预测
1. 获取被评企业评估基准日前n年的营业收入。根据收入=单价×销售量的计算式,将被评估企业的行业特征、企业模式、经济发展情况等列出单价和销售量的各影响因素,作为输入变量X,营业收入为输出变量Y,同时确定前m(m<n)年的数据为训练集,后n-m年的数据为测试集,并对各因素的数据值进行归一化处理。
2. 选择适当的核函数。
3. 通过训练样本,进行参数寻优,可得到最优的预测模型。
4. 应用训练好的SVM预测模型,对测试集进行预测,分析拟合效果。
5. 通过得到的SVM预测模型预测未来3~5年的营业收入,永续经营期营业收入根据实际情况,取预测期最后一期的数值或者取稳定期前各年的平均值。
(二)自由现金流量预测
1. 分析评估基准日前3年的财务数据,分析确定营业成本、营业税金及附加、期间费用、营运资金占营业收入的比重及趋势,并分别进行预测。
2. 折旧及摊销则根据企业各项资产账面净值及剩余摊销年限情况采用直线法预测,资本性支出按照企业现有账面固定资产在评估基准日的重置价值及其经济寿命进行预测。
3. 最终根据自由现金流量的公式预测未来每年的自由现金流量。
五、案例分析
本文以S水力发电站为例,评估基准日为2014年12月31日,采用支持向量机对其自由现金流量进行预测。
(一)营业收入预测
S水力发电站始建于2000年,其2005~2014年的营业收入如表1所示,其每年变动不呈现增长或者持平趋势,变化较为复杂,本文采用MATLAB,应用LIBSVM工具箱进行建模。
单位:万元
1. S水力发电站的营业收入主要由电量和电价决定。因为该案例中其电价为含税电价,则应考虑增值税。
根据电站人员及专业人员提供的资料,结合水力发电行业的特点,分析确定电量和电价的影响因素为年来水总量、发电水量、全社会用电量、输电设备平均利用小时、上网电价、增值税税率这六个因素,获取各相应因素的具体数据,将六个因素作为自变量X,即为SVM模型的输入变量,营业收入为因变量Y,即SVM模型的输出变量,将因变量与自变量进行归一化。同时确定2005~2011年的7年的数据为训练样本,2012~2014年的3年数据为测试样本。
2. 确定适当的核函数,因为RBF核函数能够反映两个数据间的距离,应用范围最为广泛,所以本案例采用RBF核函数。
3. 对训练样本进行参数寻优,确定最佳参数c和g,c=147.033 4,g=0.003 906 3,SVR参数选择结果的等高线图和3D视图如图1和图2所示。根据确定的最佳参数c和g构建SVM模型。
4. 利用训练好的SVM模型,对测试样本2012~2014年的营业收入进行预测,并与真实值进行对比。最终,实际值与预测值的图像如图3所示,其均方根误差(Mean squared error)为0.000 521 776,平方相关系数(Squared correlation coefficient)为99.693 8%,说明预测的拟合效果很好,构建的SVM模型能较好地预测S水力发电站的营业收入。
实际值与SVM模型的预测值的具体数值比较如表2所示,从中可以看出,其每年的相对误差均较小,拟合效果很好。而2014年的相对误差较大,是因为S水力发电站系在贵州注册的企业,公司为增值税一般纳税人,根据国务院常务会议决定,从2014年7月1日起,将自来水、小型水力发电等特定一般纳税人适用的增值税统一执行3%的征收率。而构建的模型是根据2005~2011年的数据,税率为6%,因而2014年的预测值就较真实值偏低一些,但其误差在可以接受的范围内。
5. 根据训练好的SVM模型,本文选取评估基准日后5年为详细预测期,预测2015~2019年的营业收入,并注意增值税税率由6%调整至3%,稳定期的营业收入采用2005~2019年营业收入的均值,S水力发电站营业收入预测值如表3所示(单位:万元,下同):
(二)自由现金流量预测
分析S水力发电站2012~2014年的财务报表,分别计算营业成本、营业税金及附加、管理费用、财务费用、营运资金占用占营业收入的比重,如表4所示。可见2012~2014年间各项指标占营业收入的比重均变化不大,本文选取三年的平均值作为未来各项指标占营业收入的比重。
折旧和摊销根据评估基准日各项资产的账面净值和剩余折旧年限采用直线法进行预测。
资本性支出根据企业现有账面固定资产在评估基准日的重置价值和经济寿命进行预测。对于正常固定资产的更新,用电计量设备的更新年限为15年,则2016年需要将2001年启用的设备更新,2017年则需要更新2002年启用的设备,由此类推。
据此,本文可以计算出S水力发电站未来自由现金流量,如表5所示:
(三)自由现金流量预测结果检验
采用支持向量机预测的S水力发电站的营业收入与其历史的平均水平较为相符,其水平是比较合理的。同时自由现金流量也同历史波动趋势较为一致,并未有明显不符,预测结果较为准确。
对影响自由现金流量的因素进行单因素与双因素敏感性分析,并对预测的收入与成本费用进行一致性检验,预测营业收入与历史平均水平较为一致,并且营业收入与成本费用变化方向一致。
综上所述,采用支持向量机预测的S水力发电站的自由现金流量符合其未来发展趋势,其评估结果较为合理。
六、结论
本文探讨了收益法进行企业价值评估时,采用支持向量机进行自由现金流量的预测。案例证明了采用支持向量机进行自由现金流量预测的科学性,预测结果较为准确。支持向量机对非线性、小样本数据进行准确的预测具有很好的拟合效果,该方法可以推广到企业自由现金流量的预测中,应用前景较为广阔。
当然,我们在应用支持向量机进行自由现金流量预测时,要注意根据其特点选择合适的核函数,同时我们还可以在必要的应用前提下进行算法的改进研究,以期支持向量机能更加科学准确地预测企业的自由现金流量,使评估结果更具有说服力。
摘要:本文运用收益法进行企业价值评估时,主要方法是采用支持向量机(SVM)进行自由现金流量预测,首先分析对应用支持向量机预测企业未来自由现金流量的合理性及可行性,然后根据支持向量机的相关理论,设计支持向量机预测自由现金流量的方案,继而结合S水力发电站案例,应用设计的方案对其自由现金流量进行预测,从理论与实践的结论上说明SVM预测自由现金流量的可行性。
关键词:自由现金流量,支持向量机,预测
参考文献
Mallat S.,Hwang W.L..Singularity Detection and Processing with Wavelets[J].IEEE Transaction on Information Theory,1992(2).
梅建新,段汕,潘继斌.支持向量机在小样本预测中的应用[J].武汉大学学报(理学版),2002(6).
Zou H.F.,Xia G.P.,Yang F.T.,Wang H.Y..An Investigation and Comparison of Artificial Neural Network and Time Series Models for Chinese Food Grain Price Forecasting[J].Neuro Computing,2007(70).
鲍漪澜.基于支持向量机的金融时间序列分析预测算法研究[D].大连:大连海事大学,2013.
彭丽芳,孟志青,姜华等.基于时间序列的支持向量机在股票预测中的应用[J].计算机技术与自动化,2006(3).
高尚.支持向量机及其个人信用评估[M].西安:西安电子科技大学出版社,2013.
苏高利,邓芳萍.关于支持向量回归机的模型选择[J].科技通报,2006(2).
史静.基于现金流量折现法的企业价值评估研究[D].北京:北京交通大学,2009.
流量支持 篇3
MSVM模型由MSVM数学模型、MSVM训练过程和MSVM多维支持向量库3个部分构成,如图1所示。
1.1 MSVM的决策函数
定义1:多维向量。由7个向量构成的多维向量组Φ=(xi,c,si,di,ξi,yi,Ψ)。样本xi∈Rn,i∈1,…,l;c为分类样本的惩罚因子;si为各样本的加权系数,用于对每个样本赋权值;di为xi的重复因子(di≥1);ξi为非负松弛变量;yi用于存储源ip、目的ip、协议、端口、数据包等信息,Ψ由N维空间向量构成,用于存储流量的特征向量。
定义2:最优超平面。所谓最优超平面就是要求分类面不但能将两类正确分开,而且使分类间隔最大,超平面上的训练样本点称为支持向量。
定义3:加权向量。若存在未知真值m维向的独立观测向量组,相应的权阵分别为则该观测向量组的加权向量值为:
L=(P1+P2+…+Pn)-1(P1L1+P2L2+…+PnLn)
式中:Li=(l1,l2,…,lm)T,i∈1,2,…n,各权矩阵Pi不一定是对角阵,由于Pi是权矩阵,因此可以认为向量的加权平均值是一般的加权平均值概念的推广。
根据定义3,寻找能够将两类数据正确分开并且使两类的间隔最大的分类超平面,这个超平面就是最优超平面。为了使多维支持向量接近真实值,根据向量加权平均值[8]的定义,首先对误差向量作加权平均求值;然后求最小平均误差,再得出最优超平面的初始问题,接着算出初始问题的最优化二次规划问题并进行求解,最终得出多维支持向量的决策函数:
式中:ai为拉格朗日乘子。核函数采用高斯核函数:
1.2 MSVM的训练过程
多维支持向量机也是一个二分模式的分类器,对MSVM的训练是在训练样本中寻找支持向量。根据MSVM的定义,引入如下规则区分。
规则1:设置支持向量判决函数的阈值为λ=1或λ=-1,设检测过程中判决函数为妖则f(x)≠1或f(x)≠-1,该向量x不属于支持向量,否则,x属于支持向量。
1.3 MSVM支持向量库的形成过程
初始MSVM支持向量库是由各已知P2P流量经过训练得到的MSVM支持向量库。当已知的P2P流量经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块训练后,生成多维支持向量,并对多维支持向量进行特征分析,将其特征字信息加入MSVM支持向量库,各种已知的P2P流量经过上述流程最终形成多维支持向量群,一并组组建建一一个个已已知知的的MMSSVVMM支支持持向向量量库库,,为为即即将将到到来来的的PP22PP流流量量的的检检测测做做好好准准备备工工作作。。最最后后,,确确定定MMSSVVMM的的阈阈值值,,如如果果阈阈值等于1(或-1),则所检测的网络流量为已知(或未知)的P2P流量;反之,所检测到的网络流量为Non-P2P流量。
2 基于MSVM的P2P流量识别模型
本文建立数据捕获模块、特征提取模块、数据预处理模块、MSVM训练模块、MSVM支持向量库,阈值计算和具体P2P流量的识别将参照采集的训练样本的特征参数向量,其中上述模块中待识别数据特征函数提取模块包括流量的时间特性、流量速率和流长度的分布特点等,基于MSVM的P2P流量识别模型总体方案如图2所示。具体流程如下:
(1)经数据捕获模块,采集到的数据为原始数据。
(2)将原始数据经过数据特征提取模块,提取特征函数参数。
(3)由于提取到的参数数据为原始数据的特征值,这些数据中存在连续特征和离散特征,对这些异构数据集通过数据预处理模块翻译成机器可识别的数值。
(4)数据经过MSVM训练模块训练后生成多维支持向量,同时使用不同的P2P流量数据经过上述流程最终形成多维支持向量,一并组建一个MSVM支持向量库,为流量检测做好准备工作。
(5)确定MSVM阈值,如果阈值不等于1(或-1),则所检测的分支流量为Non-P2P;反之,所检测的流量为已知(或未知)的P2P流量。
(6)已知P2P流量可以通过MSVM库得到具体的P2P类型。未知的P2P流量将经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块,将提取的特征字信息加入MSVM支持向量库。通过网络途径获取该流量的具体名称,一并放入MSVM支持向量库,以便具体的P2P流量的识别。
3 实验验证
将本文提出的基于MSVM的P2P流量识别模型在实验室的数台机器上进行相关的实验验证。实验中,用Ethereal软件采集Vagaa、PPlive、Baizhao、BBsee等P2P软件和ftp非P2P流量数据,并对其进行分析。在不同的机器上进行3次数据采集,用于3种不同方法测量的数据训练。
从图3可以看出,基于MSVM的P2P流量识别模型可以识别出具体的P2P流量,同时能识别出UDP协议类型。图3(a)右边的曲线为P2P流速,图3(b)有未知的P2P流量(UNKNOW)和已知的P2P流量(QQLIVE),能显示序号、源端口:端口、目的地址:端口、协议类型、程序名称和DATA的长度。本文将基于应用层协议的内容分析方法的P2P流量识别、基于传输层流量特征的P2P流量识别、基于MSVM的P2P流量识别,分别应用于流量识别,得出的精确度结果如表1所示。
4 结束语
实验证明,此识别模型可以解决TCP协议和UDP协议的P2P流量的识别,同时能够对未知的和大流量的P2P类型进行识别,对加密的P2P流量的识别也有很好的效果。
参考文献
[1]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].北京:计算机学报,2006,29(3):400-406.
[2]Wang R,Liu Y,Yang Y X.Solving the app-level classification problem of P2P traffic via optimizedsupport vector machines[C]∥Proceedings of SixthInternational Conference on Intelligent S-ystems De-sign and Applications,Ji′nan,2006.
[3]Zhou Li-juan,Li Zhi-tang,Hao Tu.Proposition and provement of a TCP Feature of P2P traffic-an exam-ple of bittorrent a-nd emule[C]∥Communicationsand Networking in China,Seco-nd International Con-ference on CHINACOM,Shanghai,2007.
[4]Liu Yang,Wang Rui,Huang He-yun,et al.Applying support vec-tor machine to P2P traffic identificationwith smooth processing [C]∥Proceedings of the 8thInternational Conference on SignalProcessing,Guil-in,2006.
[5]Matsuda T,Nakamura F,Wakahara Y.Traffic fea-tures fit forP2P discrimination[DB/OL].[2008-12-13].http://ieeexplore.ieee.org/stampPDF/getP-DF.jsptp=&arnumber=01593469&isnumber=33534.
[6]Gonzai1ez-Castanio F J,Rodriguez-Hernandez P S,Martinez-Al-varez R P,et al.Support vector machinedetection of Peer-to-P-eer traffic[C]∥IEEE Interna-tional Conference on Computation-al Intelligence forMeasurement Systems and Applications La Co-runa,Spain,2006.
[7]Wang X,Wang Sheng,Bi Dao-wei,et al.Collabora-tive Peer-t-o-Peer training and targetclassification inwireless sensor netwo-rks[J].Future GenerationCommunication and Networking,2007,87:208-213.
流量支持 篇4
近年来,随着对等网络P2P技术在互联网中广泛应用,其占据的网络流量比重越来越大。然而在丰富了网络应用的同时,也带来了如下问题,带宽的占用率过大、网络安全和相关法律社会等问题。因此,对P2P流量进行管理和控制具有重要的意义,其中P2P流量的识别是亟待解决的首要问题。围绕P2P流量识别的研究已经做了大量工作[1,2,3,4,5,6,7,8,9,10,11,12],常见的P2P流量识别技术主要有:基于端口号的检测方法,深层数据包检测方法,基于流特征的检测方法以及基于机器学习的流量识别技术[2]。可以把P2P流量识别问题归结为一个二类分类问题,故各种基于机器学习的分类方法被应用到P2P流量识别中。如文献[9,10,11]利用神经网络的方法进行P2P流量识别,文献[12]使用贝叶斯网络对P2P流量进行识别等等。但是由于BP神经网络方法训练时间过长、网络的学习和记忆的不稳定性以及贝叶斯网络方法训练过程计算复杂性较高,算法的许多假设在实际中无法满足等缺点,上述方法还需要进一步的完善。
支持向量机SVM作为目前较为常用的适用于小样本数据分类的方法,它有效地避免了机器学习中过学习现象。文献[13,14]利用支持向量机作为分类器对P2P流量进行识别并且取得了一定的成效。可是在利用支持向量机解决分类问题时,其分类准确率跟模型参数(惩罚因子C、核函数类型和核函数参数,即(C,σ))的选取有着非常大的关系。所以如何选取这两个参数获取SVM最优分类结果是目前研究的重点,一些常用的智能计算方法已经被用来解决上述问题,如遗传算法GA[15]、粒子群算法PSO[16]等。但是上面所提到的优化算法在优化过程中都存在着各自的缺陷,如遗传算法收敛速度慢,局部搜索能力很弱;粒子群优化算法的实现虽然很简单,但是易出现早熟现象、局部最优解等问题。基于PSO算法的缺点,文献[17]提出了一种混沌粒子群优化算法CPSO,通过引入混沌扰动,它能够有效避免陷入局部最优的缺陷。因此这里提出一种基于CPSO和SVM的P2P流量识别方法,利用CPSO获取SVM最优参数并将其应用于P2P流量识别问题之中。
1 支持向量机概述
SVM能够在小样本提供有限信息的情况下,获得较好的泛化能力。对于样本集(xi,yi),i=1,2,…,n;x∈Rd,yi∈{-1,1},分类平面方程可以表示为:
如果是线性可分的样本集,通过归一化处理,则满足:
上面的问题可以转换为凸二次规划优化偶问题:
其中:ai是lagrange乘子。
为了解决线性不可分问题,根据核函数转换的思想,通过求解二次规划问题,式(3)可以转变为:
其中:K(xi,xj)为核函数,本文采用径向基核函数作为支持向量机的核函数,如下式所示:
2 基于混沌粒子群算法的P2P流量识别方法
2.1 混沌粒子群算法概述
对于PSO容易出现早熟现象、陷入局部最优等不足,混沌粒子群优化算法(CPSO)才被提了出来[17]。它利用混沌思想,可以有效地避免粒子陷入局部最优的缺陷,同时可以加快算法收敛速度。
混沌粒子群优化算法主要从以下两个方面进行改进:
1)粒子的位置和速度通过加入混沌扰动进行初始化,这样整个粒子群体的全局搜索能力就可以得到改善,同时原有粒子在初始化时的随机性特性又不会被影响;
2)在原有粒子群算法的基础上加入混沌序列的搜索机制,对每次迭代中局部最优解进行混沌搜索,从而能够使群体最优解被快速搜寻到。
2.2 基于SVM的P2P流量识别方法
在解决样本数据的二分类问题方面,支持向量机具有非常好的分类性能,本文的主要工作是把P2P网络流量分为P2P流量和非P2P流量。其中利用支持向量进行P2P流量识别的方法流程如图1所示。
其中,预处理模块是归一化处理所提取的P2P特征向量,从而形成训练和测试的数据源;训练模块和分类模块是SVM的处理阶段,这里支持向量机的参数用CPSO训练优化。
2.3 基于CPSO的支持向量机参数优化方法
CPSO具有较强的全局搜索能力,利用CPSO优化SVM的参数的主要思想如下:
每个粒子的位置向量表示一个可能的支持向量机的参数组合(C,σ),设有一个d维搜索空间,群体由N个粒子组成,即N个初始解,用一个d维向量pt=(pi1,pi2,…,pid)来表示第i个粒子,本文设置d为2,即每个解代表2个优化参数(C,σ)。粒子的速度和位置可以用以下公式进行更新:
其中,粒子的速度用vi表示,w表示惯性权重,r1、r2是在(0,1)区间均匀分布的随机数,c1、c2表示学习因子,iter为当前迭代次数,itermax为最大迭代次数,vmax表示粒子的最大速度,wmax、wmin分别为最大、最小权重因子。
CPSO中的参数(C,σ)用交叉验证的方法选择最优组合,适应度值是使用此组参数的SVM在训练样本上的分类正确率,其中在训练样本上的分类正确率越高,相应的适应度值也越高,表明对P2P流量的识别效果就越好。
用混沌粒子群优化支持向量机参数的步骤如下:
1)初始化CPSO相关参数,如群体的规模、最大迭代次数、学习因子以及最大惯性权重、最小惯性权重等参数;
2)粒子初始化并且随机产生各个粒子初始位置和速度,记初始速度为vi=(v1,v2,…,vm);
3)设置当前位置为每个粒子的个体最优位置,并且对各个粒子的适应度进行计算,找出当前粒子的个体极值pbest和全局极值gbest;
4)按照式(8)-式(10)更新粒子的位置、速度;
5)对所有最优位置进行混沌扰动[17],并对其适应值进行计算,并得到全局极值gbest;
6)判断算法的终止条件,当达到最大迭代次数时算法终止,否则返回到步骤(3)。
2.4 算法的有效性及复杂度分析
在文献[14]和文献[18]中,利用GA、PSO算法优化SVM的参数并用于P2P流量识别,文献中的实验结果表明GA、PSO算法均可以用于基于SVM的P2P流量识别,并且它们具有较高的P2P流量分类识别率,说明使用GA和PSO优化SVM并用于P2P流量识别是有效的。然而由于GA、PSO两种算法容易陷入局部最优解,运算时间量过大,故提出CPSO算法优化SVM的参数并用于P2P流量识别,它可以PSO算法的不足。
在算法的复杂度分析方面,其复杂度的大小主要是支持向量机参数训练过程中用来寻找最优参数值组合所需要运行SVM评价函数的次数的多少来确定的,其中一个候选参数组合需要一次计算分类。对于网格搜索法,如果参数的最大值上限为L,搜索步长均为leg,那么它的时间复杂度是O(10(L/leg))2。假设两个参数的范围均是[0,1000],搜索步长为0.01,那么网格搜索算法需要完成105×105次SVM分类评价函数计算。对于GA,PSO和CPSO这3种算法,如果最大迭代次数为MaxIt,种群规模为Num,那么其复杂度是O(MaxIt×Num)。假设群体规模是50,最迭代次数为200次,那么GA、PSO和CPSO需要完成MaxIt×Num(104)次SVM分类评价函数计算,故可以看出网格搜索法的复杂性非常高,而其他的3种算法的复杂性远远低于网格搜索算法。
3 实验结果与分析
3.1 实验的方法
对于本文提出的基于CSPO的支持向量机进行P2P流量识别方法,需要对其有效性进行验证。这里采用真实的校园网P2P流量数据对所提出的方法的支持向量机的参数优化性能进行评价,进而对P2P流量进行识别;并与基于遗传算法、基本粒子群优化算法的基于支持向量机的P2P流量识别率进行比较分析。
3.2 实验的评价标准
分类准确率是分类器能够正确分类的测试集中元组所占的百分比,它可以由灵敏度(sensitivity)和特效性(specificity)来度量。其中灵敏度是真正(识别)率(即正确识别的P2P元组的百分比),特效性是真负率(即正确识别的非P2P元组的百分比)[19]:
式中,TP是正确分类的P2P元组数,pos是P2P元组数,TN是正确分类的非P2P元组数,neg是非P2P元组数,因此,分类器的分类正确率是跟灵敏性和特效性有关的函数[19]:
3.3 数据分析与结果验证
实验所用的P2P流量数据是从某大学大学网络路由端口收集来的,总共使用了近2000条样本数据,其中每一条样本数据流包含11个特征,如表1所示。
为了便于对比分析不同方法的流量识别性能,我们分别采用了遗传算法、基本粒子群优化算法和混沌粒子群优化算法优化SVM的P2P流量识别,然后比较它们的参数优化性能。其中支持向量机中的参数C和σ的搜索范围设置为[2,3,4,5,6,7,8,9,10],上述几种算法中主要使用的参数:算法的初始种群数都是50,最大运行次数设定为100代。其中GA的交叉因子为0.4,变异因子为0.01;对于基本PSO和CPSO,学习因子c1、c2都是2。由于遗传算法和粒子群优化算法都是随机概率搜索算法,因此当它们在同一数据集上重复试验时优化结果可能是不同的,所以重复20次实验并取它们的平均值。其中使用GA、PSO、CPSO三种优化算法获得SVM最优参数后,所得的各自的分类识别率结果如图2-图4所示。图中,x轴代表迭代次数,y轴代表适应度值,两条曲线分别是最好适应度值和平均适应度值。
图2-图4显示了部分基于GA、PSO、CPSO优化SVM进行P2P流量识别的运行过程。可以观察到:
(1)在最优解方面;遗传算法和基本粒子群算法的收敛速度很快,经过一个最优解上升阶段以后最优解就停止了进化;而混沌粒子群算法在最优解搜索方面经过了三个上升阶段,所得最优解也优于遗传算法和基本粒子群算法。
(2)在种群的平均适应度方面,基于混沌粒子群优化算法的支持向量机参数优化曲线基本是处于稳定上升,整个群体逐渐逼近最优解;基本粒子群算法整体参数优化曲线在搜索后半部分在最优解附近有跳跃,群体的解质量不稳定;遗传算法很早就整个群体收敛与局部最优解。究其原因是因为混沌粒子群加入的混沌搜索机制增强了离子的全局搜索能力,这样能够寻找到更优的支持向量机参数。这表明混沌粒子群优化算法整体优化能力高于遗传算法和基本粒子群算法,更加合适于P2P流量识别中支持向量机的参数优化问题。上述GA、PSO、CPSO这3种算法P2P流量识别结果的比较如表2、表3所示。
观察表2中3个算法对于支持向量机参数优化时间可知,GA的运行速度是三种算法中最慢的,其中CPSO的运行时间几乎比GA快了1倍,比基本PSO运行速度也快了40%左右,这说明CPSO提高了支持向量机参数训练的收敛速度。表3中的分类结果表明,3个算法中,基本PSO在最高准确率、最低准确率以及平均准确率方面都高于GA,且算法的运行速度也比遗传算法快,因此相对于GA算法,PSO的参数优化性能更能被接受。进一步观察,可以发现CPSO具有最高的正确识别率98.913%,其最低准确率95.53都不低于GA最高准确率,其平均正确率96.5259%也高于PSO算法平均正确率2个百分点左右,较之其他两种算法,利用CPSO优化的支持向量机进行P2P流量识别性能更为突出,是一种更加高效和鲁棒的P2P流量识别方法。
4 结语