P2P流量识别技术

2024-10-21

P2P流量识别技术(共8篇)

P2P流量识别技术 篇1

1 P2P的数据传输特点

P2P是一种新的资源交流的方式。传统的数据共享方式是以提供资源的服务器为中心, 每个需要资源的客户机都申请与资源服务器接入, 当申请通过验证时, 资源服务器就把资源传送到客户端, 如果一台资源服务器同时将资源传送给多个客户端时, 那么传送的速度就要受到资源服务器带宽的制约。就好比如果资源服务器的传送带宽极限为10M/s, 如果有10台客户端同时接入, 那它就要将带宽分给10台客户端, 每台客户端就不能得到10M/S的传送速度。而P2P的方式是每个客户端收到资源后, 它本身就成为一个资源提供端, 客户端和客户端能分别共享资源, 那么这意味着:资源服务器不再是交流的中心, 每台客户端都可以传送资源;客户端接收传送的资源不再受服务器的制约, 而只受自己带宽和网络实际情况的制约;只要一台客户端上还拥有资源, 它就能保证资源的共享, 服务器还是否存在该资源已经不再影响资源的完整性。

2 P2P流量识别难度大的原因

2.1 选择具体的对象为识别标准, 难以有效识别

该种方式是指选取一个具体的对象作为参考依据, 通过对一个具体的对象进行监测, 但是经过实践可以知道:“道高一尺, 魔高一丈”, 只要找出一个可以监测的对象, 那么P2P软件就能将这个对象进行隐藏, 使对P2P流量的识别变成捉迷藏。比如:假设监测端口的流量, 这是基于P2P的传输固定在一个端口上, 然后对该端口的流量进行识别, 但是该种方式的准确性只能存在于理论上, 一些比较了解计算机的人可以轻易更改P2P软件的端口躲过对固定端口的识别;假设监测特定数据包的流量, 这是指不同的数据传输协议会将数据用不同的方式传送数据包, P2P的数据包有自身的特点, 只要找出P2P数据包的特征报头就能对P2P流量进行识别。但是目前一些P2P软件已经使用加密的方式, 它们将P2P数据的报头经过一种加密映射, 如果针对P2P数据报头进行识别时, 往往不知道该识别哪种报头, 因此该种方式也不能对P2P有效识别。

2.2 选择一种传输模式进行识别, 难以准确识别

选择一种模式是指针对谋划种数据正在传输的一种特征, 通过对数据传输方式的监测进行识别, 分辩它是否P2P的数据。比如:以数据为对象, 监控它的流量传输模式, 在IP流量服务中可以了解到P2P的数据持续时间长、平均传输数据通常能保持近满速的流量、它的传输字节数极高, 而其它HTTP协议、FTP议议等等都不会同时出现这几种特征, 因此, 只要抓住某种数据正以这种特征进行传输, 它很可能就是P2P数据;以一种报头为对像, 监控时看它同时正在使用几种传输协议模式进行分析也能了解它是否P2P模式, 这种思路是将每种数据包的报文作为一个对象, 但是不对报文具体分析, 仅仅只分析它正在与几种传输模式交流, P2P的特点是它的资源来源广, 每个客户端都可能使用不同的模式, 如果对数据进行传送, 那么不同的该数据包是在不同的数据传输模式下进行资源交换, 如果有某个数据报文同时出现多种数据传输模式进行交流, 那么它有可能就是P2P的模式。用这种方式识别是抓住P2P数据交流的特质, 只看它的交流模式是否满足P2P数据传送的特征来进行识别, 它的准确率就远远高过对一种对象进行识别。但是依照一种传输模式进行识别属于一种模式的识别方式, 该种方式容易造成一些数据运行模式的错误识别, 怎样针对识别模式进行优化, 使识别的方式更精准是该种识别方法需要面对的问题。

3 P2P流量识别方式能被破析的途径

由于以上两种对P2P流量识别方法的比较, 可以了解到与其被动地对现有的一个对象进行识别, 不如主动地抓住P2P数据团输特征进行识别准确率会更高。虽然目前对P2P数据传送模式进行识别准确率比较高, 但是未来该种方式也面临着几个难题。

3.1 未来传输协议的方式会增多

目前由于数据传输的协议不太多, 所以对几种传输协议的数据流量模式进行监测有一定的准确性, 但是随着网络技术的发展, 将来开发出现多的协议模式, 如果它们的传输模式与P2P协议很近似, 那么意味着对数据流量的监测可能无效。

3.2 传输协议的隐藏

对P2P数据包监测时, 对它们的传输协议进行识别可以了解某种数据包头特色的数据就是P2P模式, 但是, 如果未来对传输协议有更好的掩盖方式, 那么该种监测方式也会失效。

3.3 数据包的加密

P2P数据的包加密是对P2P数据进行隐藏的一个好方式, 由于加密的技术, 使很多种数据识别方式无法展开, 因此, 数据的加密一直都是P2P杀手锏, 只要对加密的数据不能最有效的识别, 那么对P2P的识别技术就只能停留在模糊判断的阶段而不能准确的识别。

4 P2P流量识别未来发展的方向

4.1 挖掘更适合监控P2P流量的方式

比如P2P的流量有全程在线的特征, 只要开启P2P软件, 它的某种数据会在上行和下行线路不停地传输, 这种不间断的流量特征也是一种识别P2P数据的方法, 找到能更精准识别的模式就有可能提高P2P流量识别的精度。

4.2 通过多种模式综合监控

随着未来P2P软件的发展, 有可能P2P数据能逃过一种或者两种数据模式的监控, 但是如果对多种模式同时监控同时分析, P2P软件可以逃脱监控的可能性会低很多, 这意味着对多种模式进行分析的软件要有非常智能的识别技术。

4.3 破解P2P数据的特征

虽然就目前来说破解P2P数据的加密有些困难, 但是要准确地对P2P流量进行判断, 还是需要破解P2P的数据特征。

参考文献

[1]邓河, 阳爱民, 刘永定.一种基于SVM的P2P网络流量分类方法[J].计算机工程与应用, 2008 (4)

[2]石硕, 杨宝华.P2P技术的发展与探讨[J].网络通讯与安全, 2007 (4)

[3]蒋林涛.P2P技术的分析与研究[J].电信网技术, 2007 (3)

如何识别P2P陷阱? 篇2

从2011年开始,这个行业就没有安静过,质疑声、喧嚣声、倒闭声一直伴随着整个行业的发展。据网贷之家统计的数据,2011年有10家平台倒闭,其中有4家平台是涉及诈骗的,2012年有6家,2013年有76家,今年到目前为止有27家平台倒闭,预计后面还会不断的有平台淘汰,但是这些负面信息并没有阻止行业发展壮大,没有阻止新的投资人不断涌入。

有不少的投资者赔上了身家,原来的美好愿景也被打破,剩下的只有无尽的悔恨。所以,对于投资者来说,如何看待P2P行业,如何识别风险,是我们在投资之前必须要做的功课。作为普通投资者该如何识别P2P陷阱,如何理性投资呢?

看平台知名度和融资方式

上千家公司最先考虑的应该是该公司的品牌,这包含两个方面:已经处于P2P网贷平台前列的公司以及“出身”好的公司。目前,人人贷、拍拍贷、有利网等公司已经成为行业的领导者。“出身”好指股东背景和团队背景优秀,比如平安集团旗下的平安陆金所、招商银行小企业家e家等。

此外,选择知名度比较高的公司还有一个好处,那就是目前监管层关注比较多,平台更趋于正规化,行动也更加谨慎。

另外,在选择平台时,要特别当心自融平台。所谓“自融平台”,即网贷平台吸收到的投资者资金,投向了网贷平台老板或者控制人线下的公司。被查处的P2P平台中,八成都是自融平台,其起点是自融和拆标,实际上是一个伪P2P平台。其特点是借款人不多,单个借款人的金额非常高,一般是几个账号不断地循环。

而像拍拍贷公司则是通过外援获得融资。今年4月9日,拍拍贷完成B轮融资,其融资规模达到数千万美元。这也是国内P2P行业首个B轮融资的网贷平台。一般来说,像软银和红杉资本之类的大风投在进行投资时,都会进行全面系统调研、专业分析。一般来说极少有失误。可能有的公司需要融资,有的公司不需要融资。不管是哪种情况,都要对P2P公司资金来源有深入了解。

看回报率 超过16%都危险

网贷产品回报率超过16%,都会比较危险。目前投资者能够从实体经济借款者处稳定地获得20%的收益,都不是一件非常容易的事。其中,网贷平台还要分到3%-4%的收益率,给到投资者手中最高就16%到20%的回报率,就比较危险了。

高收益总是伴随着高风险。与银行理财产品依然实行刚性兑付,余额宝、理财宝等投资低风险的货币基金市场相比,P2P网贷倘若投资失当,不仅没有利息,连本金可能都拿不到。

看平台透明度和运营模式

好的P2P平台会较透明,如披露项目融资的用途、借款人的资产状况。是否有相关抵押等。如集利财富网就会将借款人的资产证明复印件披露在平台上,投资者可以上网查证。

而拍拍贷则是通过采集借款人各个维度的数据判定其违约成本,并给出可以贷款的额度和相应的风险定价。例如,客户的性别、婚姻状态、毕业院校、互联网使用痕迹等,都会是拍拍贷的信用风险识别模型中的参考因子。这也会导致拍拍贷对借款人的严格审核。

根据张俊提供的数据,到去年年底,拍拍贷注册用户超200万人,其中60万是投资者,140万为借款人,而有借出记录的用户为20万~30万人,意味着有超过100万的注册用户难以达到拍拍贷的借款标准。而对于违约客户,信息将通过网站公告,并联网影响其在银行贷款等。

另外,安心贷张辉从运营模式上来进行了分析,他说安心贷主要是以北京的房产做抵押,才会把钱贷出去。公司的风控做的非常好,通过超额抵押,即使房价下跌,也不会出现还不起钱的情况。因为在交易前已经对房产进行了公证并办理相关手续,一旦不能按期还钱,公司将有权不通过法院直接将房产出售。所以平台的运营模式比较成熟,风险相对要小很多。

亏损要在承受能力之内

对于普通投资者如何规避P2P陷阱这个问题,安心贷张辉认为,总体来说,投资应该在自己亏损承受能力范围内,做合格的投资人。一方面要对平台进行筛选,对平台周期、风控措施、资金去向、管理团队和市场定位等进行全面调查和对比;另外自己要有风险意识。很多时候,中国人的投资是有一万块钱,还要再借两千元,凑一万二去投资或者是借了几十万去投资。这个时候,万一出现亏损,哭爹喊娘去闹,那就是非常不理智的行为了。

所以投资必须要在自己亏损承受能力之内,一般来说,拿自己总资产的20%到30%做投资就可以了。

P2P网贷是一个高收益高风险的行业。收益越高伴随的风险就越大,所以在投资之前,我们要有个清醒的认识,要获得高的收益,就伴随着高的风险,我们不能用储户的心态来投资P2P。有些投资人看到P2P的网站上都写着保本保息,就认为投资是没有风险的,这是一个错误的认识,虽然网站上是这么写的,但很多只是个口号。

在选择好平台后,我们还要注意分散投资,所谓鸡蛋不要放一个篮子里面。要把资金做一些配置,比如先精选出几个收益档次的平台,年化收益在8%—15%的,陆金所、开鑫贷、人人贷、红岭创投、宜人贷、贷帮等;收益在15%—18%的,互利网、微贷网、投哪儿等。可以拿出投资额度的10%—20%投资收益较高的,当然也是伴随较高风险的,剩下资金的80%都投资稳健的平台,做到安全分散投资。

P2P流量识别技术研究 篇3

随着计算机网络技术的不断发展, 因特网应用也越来越丰富, 它给人们的生活提供了便利的同时, 也给计算机网络的管理增加了难度, 特别是当前应用比较广泛的P2P服务, 不但占用了绝大多数的带宽, 影响了企事业单位的正常办公, 还给一些不良信息的传播提供了便利, 因此针对P2P流量识别与过滤的研究已成为当前一项重要的研究, 本文研究了基于DPI (Deep Packet Inspection, 深度包检测) 的P2P流量识别技术。

2 P2P技术 (Peer-to-peer technology)

针对于传统的C/S结构, 有一个中心服务器 (Server) 为所有的用户 (Client) 提供服务, P2P结构的网络没有一个具体的中心服务器, 整个网络由所有连入P2P网络的终端组成, 不存在一个中心服务器为其他用户提供服务, 任意一个终端即可能是其他终端的服务器也可能是其他终端的客户机, 终端与终端之间是一个对等的关系。P2P网络将所有加入到该网络的终端都利用起来, 不但起到了负载均衡的功能, 也避免了单点故障的问题。因此, P2P被广泛的应用于资料共享、即时通信与流媒体播放中, 甚至还应用于网络攻击中。

2.1 P2P网络的拓扑结构

P2P网络在不断的发展过程中, 网络拓扑结构在也在不断的变化, 经历了中心式、分布式和混合式三个阶段。中心式P2P网络结构主要以Napster为代表, 该拓扑结构中存在一个中心服务器, 但服务器并不为Peer节点提供资源下载, 服务器上主要提供了资源索引、Peer管理等服务, 网络的运行需要中心服务器的支持, 因此存在单点故障问题。分布式拓扑结构取消了服务器的中心服务器, P2P网络由Peer结点组成, 这样避免了单点故障问题, 但产生了搜索资源慢的问题。目前被广泛使用是混合式拓扑结构, 该结构综合了中心式和分布式结构中优点, 网络中存在多个中心服务器为Peer结点提供资源索引的服务, 即提高了资源搜索的速度, 也避免了单点故障的问题。

2.2 P2P的通信原理

通过对P2P网络拓扑结构的分析, 针对当前基于混合式的P2P网络主要的连接有三种:普通节点与服务器之间、普通节点之间和服务器之间。而在网络中占总通信量比较多的是普通节点与服务器之间和普通节点之间, 这也是本文研究的重点。P2P协议运行于应用层, 并且在不同的应用环境中, 有些数据在传输层通过TCP协议封装, 有些通过UDP协议封装, 以TCP为例, P2P通信原理如表1所示。

3 P2P流量识别 (P2P traffic identification)

由上分析可知, 为了能够对P2P流量进行识别, 首先分析该通信的过程与原理, 找出其中一些可用于识别的数据包, 这些数据包所具有的特征即可成为DPI识别的流量特征。通过P2P数据的抓包并进行分析后发现, 当前的P2P通信数据包的特征主要有两类:特征字段和PDU格式。特征字段出现在数据包数据部分的开始位置, 例如Bit Torrent流量中特征为0×13Bit Torrent Protocol。PDU格式表示数据包的结构, 不同的P2P应用采用自己特有的结构。因此, 根据特征的不同, 可以将P2P应用分为基于特征字段的流量特征和基于PDU的流量特征, 如表2所示。

通过对大量P2P应用的研究, 绝大多数的P2P应用主要用于资源的分布式共享, 因此为了数据传输的快速与方便, 并没有对数据加密的处理, 例如:PPS、PPLive、迅雷、e Donkey、Bit Torrent等。对于这些P2P应用, 可以采用特征字段和PDU格式的方式进行流量的识别, 通过实验获取各P2P应用的对应的特征字段或PDU格式, 采用DPI方式去匹配通过的数据流的特征字段或PDU格式实现流量的识别。

对于部分对数据进行加密的P2P应用, 通信的Peer对等端在通信的过程中对数据进行了加解密处理, 使得通信的数据不存在具有标识特性的特征码或PDU格式, 因此无法通过DPI方式识别此种类型的流量。因此对于此种类型的P2P应用, 首先采用DPI方式检测出部分能够识别的流量, 找出此部分流量的流量特征并进行过滤。

4 结论 (Conclusion)

本文针对基于P2P技术的应用被广泛使用, 且流量如何有效识别的问题进行了深入的研究, 最后得出两种识别方法:基于特征字段和基于固定的PDU格式, 这两种方式能有效的识别大多的P2P应用, 但却无法识别对数据进行了加密处理的P2P应用, 针对进行了加密处理的P2P应用的流量识别问题将是本题课下一步所要做的工作。

摘要:随着P2P技术的广泛使用, P2P应用虽然丰富了人们的生活, 但部分P2P应用严重的影响了企事业单位的正常办公, 并且为不良信息的广泛传播提供了便利。如何有效的识别并控制P2P流量已成为当前Internet技术中越来越重要一项研究, 本文对P2P流量的识别进行了深入的研究, 并提出了字段特征与PDU格式两种有效的识别方法。

关键词:P2P,流量识别,字段特征

参考文献

[1]刘琼, 等.P2P流媒体网络电视通信机制研究[J].电信科学, 2009, (6) :61-64.

[2]赵瑞.基于特征串的P2P流量识别研究与实现[D].成都:电子科技大学, 2009.

P2P流量识别技术研究 篇4

关键词:P2P,流量识别,流量特征,加密,端口号

1 引言

被财富杂志列为影响Internet未来的四项科技之一的P2P技术, 即对等网络 (Peer to Peer, P2P) 技术, 是一种不同于客户端/服务器 (Client/Server) 结构的网络结构思想。在P2P网络中, 各个节点同时充当服务器和客户端的角色, 彼此之间处于一种平等、直接的网络关系。1999年一个名为Napster的公司将P2P带入了网络世界, 此后P2P以其独特的优势风靡整个Internet。刚开始P2P主要应用于文件共享领域, 由于其资源共享性高、容错性好、扩展性好和分布式网络结构等优势, P2P技术已经逐步深入语音、视频、分布式存储、分布式计算、个人即时通信和协同工作等领域[1, 2, 3]。

随着P2P技术的发展, Internet上涌现出很多新型的P2P协议及应用软件, 如国外的Bit Torrent, e Donkey, Fast Track, Gnutel a, Skype, 国内的Ku Goo, ez Peer、PP点通等。相应地, 各种P2P应用的流量在互联网总流量中的比重也不断增加, 1999年以前FTP和WEB流量占互联网总流量70%以上;2001年P2P流量占互联网总流量60%, 2003就达到了70%[4]。

2 P2P流量特征

P2P应用丰富了网络的应用形式, 提高了网络吞吐量和利用率, 极大地促进了网络的发展;但是同时这种应用会大量消耗运营网络的带宽资源, 严重影响到其他一些网络关键业务的正常开展。

相比其他传统互联网应用, P2P业务流量具有以下特征。

2.1 带宽侵略性

P2P应用与其他传统应用一样是基于TCP连接的, 不同的是P2P业务使用多个TCP连接同时和多个P2P节点进行双向数据传输。因此, P2P应用与传统TCP应用竞争时占据绝对优势, 当网络瓶颈点发生拥塞时, P2P应用能够抢占到大部分的带宽资源, 势必会使得基于单个TCP连接的传统业务受到很大影响。

2.2 上下行流量对称性

P2P应用上下行流量基本对称, 这个特点对于传统非对称、尽量支持下行业务的网络设备会造成综合性能影响, 容易产生上行链路拥塞现象。

2.3 永远在线

P2P应用基本上是永远在线的, 网络中每个时段都存在大量的P2P用户进行高速下载, 大大增加了网络设备的负荷;特别是在高峰时段, 极易造成链路拥塞。

2.4 业务点分布广泛性

P2P应用不同于C/S模型的应用, 其业务可能发生在任何两个普通节点之间, 业务流量具有很大的分散性和不确定性, 大大增加了中转链路的流量。

2.5 不安全性

P2P应用软件没有相关的安全机制来保障传输内容的安全性, 大多允许P2P用户未经检验分发任何内容;这就很容易带来病毒等恶意代码, 危害到网络安全。同时, P2P软件可以穿透现有防火墙和安全代理, 从内部打开一个局域网安全防护的漏洞, 使得病毒可以轻易进入局域网, 可能造成个人或者企业机密泄露。

3 常见P2P流量识别技术

从P2P业务流量特征可以看出, 各种P2P应用带来了巨大的商业价值, 同时也给运营商、教育网、城域网、企业网、政府、银行的出口链路带来巨大冲击, 严重影响到运营商、城域网、教育网的运营以及企业、政府、银行的关键网络应用的效率和质量。我们必须对P2P流量进行合理有效的监控, 促使P2P技术和其他网络应用共同繁荣发展。只有正确识别出感兴趣的或者异常的P2P流量才能有效地对P2P流量监控。为了应对迅猛发展的P2P技术, 近年来学者们提出了大量P2P流量识别方法。

3.1 基于端口的P2P流量识别技术

在TCP/IP模型中, 有一个传输层端口, 即TCP端口或者UDP端口。最初的P2P应用一般采用固定的端口号, 比较典型的P2P软件及其对应的端口号如表1。

基于端口的P2P流量识别技术就是通过识别数据流的源端口或者目的端口, 该端口号是否与常用P2P端口映射表中的端口号相匹配;如果找到匹配项就表示该流量属于P2P流量, 如果没找到匹配项就表示不是P2P流量。随着P2P技术的发展, P2P应用所采用的端口号不再是固定的;比如为了绕过操作系统的访问限制, 一些P2P应用软件采用非常见端口号;使用熟知应用的端口号来伪装自己的功能端口;允许用户使用自定义端口;使用随机的端口等。这些技术都使得P2P应用的端口号不再是固定;因而基于端口的P2P流量识别技术的精确度就变差很多, 现在一般作为辅助识别方法。

3.2 基于IP层特征的P2P流量识别技术

P2P流量具有不同于一般业务流量的特征, 如:长时间占用固定连接、上下行流量对称、多TCP连接等, 因而有人提出利用流量中的连接模式、上下行流量比例关系、数据包发包频率等指标来辨别P2P应用。基于IP层特征的P2P流量识别技术不需要检测数据包的净荷, 因而不受数据包是否加密限制;与此同时它也无法精确判断出流量所采用的P2P协议类型。这是一项仍需继续研究的方法。

3.3 基于传输层特征的P2P流量识别技术

在P2P网络中, 每个节点同时充当客户端和服务器的角色, 其在传输层表现出的流量特征也就不同于其他网络应用 (如HTTP/FTP/DNS/EMAIL等) 。基于传输层的P2P流量识别技术通过对传输层流量进行分析, 并结合P2P网络的流量特征来识别流量是否属于P2P流量;大致可以分为四种:连接模式识别法、网络直径分析法、 (IP, Port) 法和 (TCP/UDP, IP) 法。

3.3.1 连接模式识别法

连接模式识别法是利用P2P网络中各个节点同时担负客户端和服务器角色这一特点, 通过判断网络中具备双重角色的节点数来判断该网络是否属于P2P网络。文献[5]提出的方法就是通过计算网络中同时充当客户端和服务器角色的节点数并判断是否超过某个阈值;如果超过阈值那么该网络就是P2P网络, 反之亦然。该方法需要记录整个网络的连接状态, 存储和计算开销大, 实时性差。

3.3.2 网络直径分析法

相比于普通网络应用所形成的逻辑网络, P2P网络的逻辑网络直径要大的多。网络直径分析法就是利用P2P网络的这个特点, 通过判断一个网络的逻辑网络直径大小是否超过一定的阈值来判定该网络是否属于P2P网络。此方法和连接模式识别法一样需要记录整个网络的连接状态, 所以存在同样的弊病。

3.3.3 (IP, Port) 识别法

P2P发展过程中经历了三个阶段:集中式P2P、纯分布式P2P和混合式P2P, 现在使用比较多的是混合式P2P。其中, 集中式P2P和混合式P2P中, 一个节点要加入P2P网络时都要将IP地址和端口信息广播给超级节点;通过超级节点最后与目标节点的某一个端口建立连接, 在此过程中建立连接的IP地址数和端口数大体相当。 (IP, Port) 识别法就是根据这个特点来识别P2P流量的。很显然, 这个方法在纯分布式P2P中是不生效的。

3.3.4 (TCP/UDP, IP) 识别法

大多数P2P网络中使用UDP协议进行控制信息传输, 然后再使用TCP协议进行数据传输, 也就是同时使用TCP和UDP协议;而其他网络应用除了少数采用已知端口传输数据的应用如DNS、NETBIOS、NTP、ISAKMP、IRC和游戏等一般不具有该特征。 (TCP UDP, IP) 法就是利用这个特点, 识别出P2P网络流量。这个识别方法简单高效, 不过需要记录流信息因此存储开销大。此外, 并不是所有的P2P协议都具备这个特征, 所以会存在一定的失效率。

基于传输层的识别方法优点就在于它不需要利用流量中的具体数据而且也不受限于流量是否加密、是否为已知应用类型的P2P流量。但是, 无论是连接模式识别法、网络直径分析法、 (IP, Port) 识别法还是 (TCP/UDP, IP) 识别法都只能识别出P2P流不能识别出具体的P2P应用类型。

3.4 基于应用层特征的P2P流量识别技术

在TCP/IP协议中, 每一种协议的TCP数据包首部会带有特定的净荷特征信息串, 常见的协议特征信息串如表2。

基于应用层特征的P2P流量识别技术利用深层数据包检测技术 (DPI, Deep Packet Inspection) , 检测数据包在应用层上的有效载荷, 与特征库中的已知应用特征信息串进行匹配, 如果匹配就算是P2P业务数据包, 反之亦然。这种识别技术精确度很高, 基本不低于95%, 但是由于其需要检测应用层的特征信息和已知协议特征信息串相比较才能做出判断, 所以对于加密的数据包和新出现的P2P应用就束手无策。

3.5 跨层P2P流量识别技术

基于传输层的识别技术可以识别加密和未知类型P2P流量却无法识别出具体的P2P应用类型;基于应用层的识别技术可以识别出具体的P2P应用类型却无法识别出加密和未知的P2P流量。所谓跨层流量识别技术就是综合以上两种识别技术的优点而提出的一种新型识别技术。

3.6 其他P2P流量识别技术

除了上述常见的流量识别技术之外, 学术界又从不同角度提出了很多种不同的P2P流量识别技术。如:针对BT而提出的禁止扩展名为.torrent文件下载的统一资源定位符过滤方法;针对混合分布式结构的P2P网络而提出的基于UDP控制信息识别方法;基于智能计算的P2P流量识别方法:澳大利亚墨尔本Swinburne大学的CAIA研究中心提出的基于机器学习的流量识别方法、芬兰赫尔辛基理工大学的Anssi Tauriainen提出的基于神经网络的自学习方法、我国国防科技大学提出的基于支持向量机的流量识别方法等[6]。

4 P2P流量识别技术比较

以上列出了五种主要的P2P流量识别技术, 下面从精确性、实时性、复杂性、能否识别出具体P2P类型、能否识别加密流和能否识别未知P2P应用六个方面对几种技术进行比较, 详见表3。

从表3可以看出几种技术中基于端口的识别技术碍于现在不固定的端口特点已经不太适合单独使用了;基于IP层的识别技术还有待进一步研究, 具有广阔的研究前景;基于传输层和基于应用层的识别方法各有千秋, 两者结合在一起的识别方法在各方面都可以达到不错的效果, 是一种比较好的识别技术, 不过在复杂性和实时性上还是有待提高。

5 总结

随着P2P技术的高速发展及其流量对网络其他业务带来的越来越深的影响, 对P2P流量进行识别和监控成了势在必行的一步;因而研究出一种高效可靠的P2P流量识别技术就显得尤为重要。本文在阐述P2P流量特征的基础上, 分析了几种常见P2P流量识别技术并对这几种技术进行比较;跨层流量识别技术和基于IP层统计的流量识别技术将是未来研究的一大方向。

参考文献

[1]Park J S, An G, Chandra D.Trusted P2P computing environments with role-based access control[J].IET Information Security, 2007, 1 (1) :27-35.

[2]Datta A, Hauswirth M, Aberer K.Beyond"Web of trust":enabling P2P e-commerce[J].Newport Beach:IEEE Computer Society, 2003:303-312.

[3]Ji Lichun, Deters R.Coordination and enterprise wide P2P computing[C]//Services Computing.2005IEEE Internationa1Conference, 2005:141-148.

[4]蔡向峰.基于应用层的P2P流量识别技术研究[D].北京:北京邮电大学通信网络综合技术研究所, 2007.

[5]SENS, WANG J.Analyzing peer-to-peer traffic across large networks[J].IEEE/ACM Transactions on Networking, 2004, 12 (2) :219-232.

P2P流量识别技术 篇5

1 P2P流量识别技术

1.1 典型P2P流量识别技术

典型的P2P流量识别技术主要有:基于端口的识别技术、基于深层数据包的识别技术以及基于流量变化特征的识别技术。

基于端口的识别技术是一种应用最早的识别技术,其主要根据早期P2P应用的固定端口进行识别,具有算法简便,易于实现等优点,但是对于现如今复杂的网络环境,此种技术已经不再适用[6,7]。

基于深层数据包的识别技术往往因为存在识别滞后、隐私保护以及算法复杂等缺点而得不到广泛普及应用。

基于流量变化特征的识别技术通过对P2P流量数据进行采集,通过处理数据得到数据流的统计特征,使用统计特征作为机器学习的训练样本,得到经过训练的识别系统。此识别技术具有算法简便、效率高等优点[8,9]。

1.2 基于神经网络的P2P流量识别技术

BP神经网络是一种有督导的智能机器学习算法,已经在机械、计算机、通信等领域得到了广泛应用,其技术发展已经相对成熟。将BP神经网络用于对P2P流量的识别是一种可行有效的识别技术和手段。

然而将BP神经网络算法用于P2P流量识别虽然克服了传统识别方法存在的诸多问题,但是由于算法自身特性也随之带来了新的问题。

BP神经网络实际上是梯度下降算法的一种迭代学习方法。由于梯度下降算法要求具有较小的学习速度时才能进行稳定的学习,因此其收敛速度较慢。并且,由于BP神经网络在进行训练时,会在某点沿着误差斜面而渐进误差极值,不同的起点会得到不同的误差极值和不同的解。因此传统BP神经网络具有学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点[10,11]。

2 BP神经网络和遗传神经网络

2.1 BP神经网络

BP神经网络结构如图1所示。通常由输入层、输出层和隐含层组成。

图1中P为网络输出,R为网络维数,S1为隐层神经元数目,W1为隐层神经元权值,a1为隐层神经元输出,b1为隐层神经元阈值,n1为隐层节点的输入,S2为输出层神经元数目,W2为输出层神经元权值,a2为输出层神经元输出,b2为输出层神经元阈值,n2为输出层节点的输入,f1,f2为传递函数,通常,f2为purelin型,f1为:

则有BP神经网络的输出误差为:

BP神经网络算法的权值修正方法为:

式中η为网络的学习速度。

输出层的神经元为:

隐层的神经元为:

BP神经网络传播算法为反向传播,需要多次试算才能确定神经网络系统的连接权值和阈值。初始权值和阈值的选取对最终的连接权值和阈值有很大影响,同时对神经网络的收敛速度和精度影响很大。因此本文使用遗传算法对BP神经网络的权值和阈值进行优化处理[12]。

2.2 遗传神经网络

2.2.1 遗传算法

遗传算法是一种由Datwin进化论和Mendel遗传学思想提出的具有强鲁棒性能,强并行处理能力的全局优化搜索算法。遗传算法已经在计算机科学、机械科学、交通运输、物流分配、组合优化等领域得到了广泛的应用。

遗传算法可以表述为:

式中:O(0)是初始种群,O(0)=(a1(0),a2(0),...,aN(0))∈IN;I为L的全体二进制串,I=B1={0,1};N为在一个种群中,染色体的个数;L为二进制串的长度;s为选择策略,IN→IN;g为遗传算子,g包括繁殖算子Qr:I→I,杂交算子Qc:I×I→I×I以及变异算子Qm:I→I;p为遗传算子概率,p包括繁殖概率pr、杂交概率pc以及变异概率pm;f为适应函数,f:I→R+;t为终止准则[13],t:IN→{0,1}。

2.2.2 神经网络拓扑结构

通过数据样本对神经网络进行训练学习后,网络对测试数据样本能够做出准确识别的能力称为神经网络的泛化能力。神经网络拓扑结构、训练数据样本的初始处理以及网络中单元连接点的连接权值是影响神经网络泛化能力的重要因素。单隐含层的前馈式神经网络结构的隐含层神经元个数由VC维确定。神经网络泛化能力受到网络结构复杂程度的影响可以由VC维测试。VC维的维度表示为:

式中:M为神经网络输入层神经元个数;N为神经网络隐含层神经元个数;P为神经网络输出层神经元个数。

神经网络输入层神经元个数M和输出层神经元个数P为已知量,可以在允许范围内,调整训练样本数量m和隐含层神经元个数N的值,隐含层神经元个数N的取值为:

式中a为一常数,在1~20范围内。

神经网络经过m个训练数据样本训练后,网络的泛化误差不大于e,其中。对训练数据样本个数m和隐含层神经元个数N进行合理选取可以使e趋于最低值。因此可以得到最优的神经网络拓扑结构以及最优的训练数据样本个数m。

遗传算法的适应度函数表示为:

式中:SSE为神经网络输出与实际值的误差平方和[14]。

2.2.3 遗传神经网络算法

通过上述对BP神经网络和遗传算法的分析可以得到启示,由于初始权值和阈值的选取对最终的连接权值和阈值有很大影响,同时对神经网络的收敛速度和精度影响很大。因此使用遗传算法通过遗传和变异手段对BP神经网络的初始权值和阈值进行不断更新换代的优化处理,从而确保BP神经网络系统总误差SSE趋于最低值。使用遗传算法对BP神经网络的优化过程如图2所示。

优化过程可以表述为:

(1)生产一个随机的初始解群体X(t)={x}1(t),x2(t),...,xN(t)。2

(2)对群中个体神经网络使用训练数据样本进行网络训练,然后计算得到个体各自的学习误差,对初始解群体X(t)中的每个个体xi(t)的适应度使用适应函数求解。

(3)使用杂交概率pc以及变异概率pm完成交叉、变异操作,从而得到新的解群体X′(t)。

(4)对新的解群体X′(t)中每个个体进行计算得到各自适应度,由最优保留策略计算出下一代种群X(t+1)。

(5)当满足下面这两个条件之一时,所得个体即为所求个体:迭代次数大于限制代数T;使用解群体里某一个最优解使得个体建立的神经网络的学习输出误差满足要求。若不满足任何条件,跳到步骤(4),继续循环进化过程[15]。

3 P2P流量识别实验分析

3.1 实验数据采集

在实际复杂网络环境下,使用嗅探软件SRSniffer对P2P数据流量进行采集。用于输入向量的流量特征选取为:数据包总数;TCP流量比例;上行流量比例;平均数据包长度;连接数量与IP数量之比。数据包统计时间长度选取为30 s。

选取其中数据量较大,使用频率较高的Bitcomet流量14 320 MB,thunder流量12 650 MB,QQLIVE流量9 380 MB,以及PPStream流量8 640 MB,总计44 990 MB流量。通过数据处理和统计分析,将Bitcomet,thunder,QQLIVE和PPStream这四种应用的流量数据中各提取出300个样本。其中150个样本用于神经网络训练样本,另外150个样本用于对训练后的神经网络进行识别测试,这样共有600个样本用于训练,600个样本用于测试[16]。

3.2 神经网络训练过程

根据P2P流量识别系统的要求,在Matlab数值计算软件中建立BP神经网络模型和遗传神经网络模型。其中神经网络的输入层数由流量特征数量决定,由前文可将输入层数设定为5。输出层数由需要识别的P2P应用类型决定,由前文可将输出层数设定为4,神经元传递函数设定为purelin型。隐含层数根据输入、输出层神经元个数确定,根据经验公式可以确定隐含层神经元个数为18,并且使用tansig()型传递函数。设定神经网络的学习速率为10-2,最大训练次数为2 000次,训练精度为10-5。设定初始群体的大小为18,变异概率为0.25,交叉概率为0.75,终止代数[17]设定为600。

使用训练样本分别对BP神经网络和遗传神经网络进行训练,得到两个系统收敛曲线如图3,图4所示。

通过对比BP神经网络和遗传神经网络训练收敛曲线可以看出,BP神经网络训练达到设定精度需要进行1 700多次训练,而遗传神经网络仅需要1 000次训练,因此遗传神经网络具有较快的收敛速度和收敛精度。

3.3 P2P流量识别结果分析

使用采集处理好的600个测试数据对使用BP神经网络和遗传神经网络的识别模型进行性能测试,其测试结果见表1。

由测试数据可以看出,基于遗传神经网络的识别率平均值为94.9%,比基于BP神经网络的平均识别率高出6.5%,其识别性能明显优于基于BP神经网络的识别系统。

在实验过程中发现,Bitcomet和thunder这两个P2P应用的流量识别准确率比较高。而QQLIVE和PP Stream两个P2P应用的流量识别准确率相对较低,而且经常被互相识别,这主要是因为QQLIVE和PPStream两个P2P应用都属于P2P网络流媒体,由于两者协议比较相似,流量特性亦相似,因此经常被互相误识别[18]。

4 结论

P2P流量识别技术 篇6

MSVM模型由MSVM数学模型、MSVM训练过程和MSVM多维支持向量库3个部分构成,如图1所示。

1.1 MSVM的决策函数

定义1:多维向量。由7个向量构成的多维向量组Φ=(xi,c,si,di,ξi,yi,Ψ)。样本xi∈Rn,i∈1,…,l;c为分类样本的惩罚因子;si为各样本的加权系数,用于对每个样本赋权值;di为xi的重复因子(di≥1);ξi为非负松弛变量;yi用于存储源ip、目的ip、协议、端口、数据包等信息,Ψ由N维空间向量构成,用于存储流量的特征向量。

定义2:最优超平面。所谓最优超平面就是要求分类面不但能将两类正确分开,而且使分类间隔最大,超平面上的训练样本点称为支持向量。

定义3:加权向量。若存在未知真值m维向的独立观测向量组,相应的权阵分别为则该观测向量组的加权向量值为:

L=(P1+P2+…+Pn)-1(P1L1+P2L2+…+PnLn)

式中:Li=(l1,l2,…,lm)T,i∈1,2,…n,各权矩阵Pi不一定是对角阵,由于Pi是权矩阵,因此可以认为向量的加权平均值是一般的加权平均值概念的推广。

根据定义3,寻找能够将两类数据正确分开并且使两类的间隔最大的分类超平面,这个超平面就是最优超平面。为了使多维支持向量接近真实值,根据向量加权平均值[8]的定义,首先对误差向量作加权平均求值;然后求最小平均误差,再得出最优超平面的初始问题,接着算出初始问题的最优化二次规划问题并进行求解,最终得出多维支持向量的决策函数:

式中:ai为拉格朗日乘子。核函数采用高斯核函数:

1.2 MSVM的训练过程

多维支持向量机也是一个二分模式的分类器,对MSVM的训练是在训练样本中寻找支持向量。根据MSVM的定义,引入如下规则区分。

规则1:设置支持向量判决函数的阈值为λ=1或λ=-1,设检测过程中判决函数为妖则f(x)≠1或f(x)≠-1,该向量x不属于支持向量,否则,x属于支持向量。

1.3 MSVM支持向量库的形成过程

初始MSVM支持向量库是由各已知P2P流量经过训练得到的MSVM支持向量库。当已知的P2P流量经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块训练后,生成多维支持向量,并对多维支持向量进行特征分析,将其特征字信息加入MSVM支持向量库,各种已知的P2P流量经过上述流程最终形成多维支持向量群,一并组组建建一一个个已已知知的的MMSSVVMM支支持持向向量量库库,,为为即即将将到到来来的的PP22PP流流量量的的检检测测做做好好准准备备工工作作。。最最后后,,确确定定MMSSVVMM的的阈阈值值,,如如果果阈阈值等于1(或-1),则所检测的网络流量为已知(或未知)的P2P流量;反之,所检测到的网络流量为Non-P2P流量。

2 基于MSVM的P2P流量识别模型

本文建立数据捕获模块、特征提取模块、数据预处理模块、MSVM训练模块、MSVM支持向量库,阈值计算和具体P2P流量的识别将参照采集的训练样本的特征参数向量,其中上述模块中待识别数据特征函数提取模块包括流量的时间特性、流量速率和流长度的分布特点等,基于MSVM的P2P流量识别模型总体方案如图2所示。具体流程如下:

(1)经数据捕获模块,采集到的数据为原始数据。

(2)将原始数据经过数据特征提取模块,提取特征函数参数。

(3)由于提取到的参数数据为原始数据的特征值,这些数据中存在连续特征和离散特征,对这些异构数据集通过数据预处理模块翻译成机器可识别的数值。

(4)数据经过MSVM训练模块训练后生成多维支持向量,同时使用不同的P2P流量数据经过上述流程最终形成多维支持向量,一并组建一个MSVM支持向量库,为流量检测做好准备工作。

(5)确定MSVM阈值,如果阈值不等于1(或-1),则所检测的分支流量为Non-P2P;反之,所检测的流量为已知(或未知)的P2P流量。

(6)已知P2P流量可以通过MSVM库得到具体的P2P类型。未知的P2P流量将经过数据采集模块、特征提取模块、数据预处理模块以及MSVM训练模块,将提取的特征字信息加入MSVM支持向量库。通过网络途径获取该流量的具体名称,一并放入MSVM支持向量库,以便具体的P2P流量的识别。

3 实验验证

将本文提出的基于MSVM的P2P流量识别模型在实验室的数台机器上进行相关的实验验证。实验中,用Ethereal软件采集Vagaa、PPlive、Baizhao、BBsee等P2P软件和ftp非P2P流量数据,并对其进行分析。在不同的机器上进行3次数据采集,用于3种不同方法测量的数据训练。

从图3可以看出,基于MSVM的P2P流量识别模型可以识别出具体的P2P流量,同时能识别出UDP协议类型。图3(a)右边的曲线为P2P流速,图3(b)有未知的P2P流量(UNKNOW)和已知的P2P流量(QQLIVE),能显示序号、源端口:端口、目的地址:端口、协议类型、程序名称和DATA的长度。本文将基于应用层协议的内容分析方法的P2P流量识别、基于传输层流量特征的P2P流量识别、基于MSVM的P2P流量识别,分别应用于流量识别,得出的精确度结果如表1所示。

4 结束语

实验证明,此识别模型可以解决TCP协议和UDP协议的P2P流量的识别,同时能够对未知的和大流量的P2P类型进行识别,对加密的P2P流量的识别也有很好的效果。

参考文献

[1]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].北京:计算机学报,2006,29(3):400-406.

[2]Wang R,Liu Y,Yang Y X.Solving the app-level classification problem of P2P traffic via optimizedsupport vector machines[C]∥Proceedings of SixthInternational Conference on Intelligent S-ystems De-sign and Applications,Ji′nan,2006.

[3]Zhou Li-juan,Li Zhi-tang,Hao Tu.Proposition and provement of a TCP Feature of P2P traffic-an exam-ple of bittorrent a-nd emule[C]∥Communicationsand Networking in China,Seco-nd International Con-ference on CHINACOM,Shanghai,2007.

[4]Liu Yang,Wang Rui,Huang He-yun,et al.Applying support vec-tor machine to P2P traffic identificationwith smooth processing [C]∥Proceedings of the 8thInternational Conference on SignalProcessing,Guil-in,2006.

[5]Matsuda T,Nakamura F,Wakahara Y.Traffic fea-tures fit forP2P discrimination[DB/OL].[2008-12-13].http://ieeexplore.ieee.org/stampPDF/getP-DF.jsptp=&arnumber=01593469&isnumber=33534.

[6]Gonzai1ez-Castanio F J,Rodriguez-Hernandez P S,Martinez-Al-varez R P,et al.Support vector machinedetection of Peer-to-P-eer traffic[C]∥IEEE Interna-tional Conference on Computation-al Intelligence forMeasurement Systems and Applications La Co-runa,Spain,2006.

[7]Wang X,Wang Sheng,Bi Dao-wei,et al.Collabora-tive Peer-t-o-Peer training and targetclassification inwireless sensor netwo-rks[J].Future GenerationCommunication and Networking,2007,87:208-213.

P2P流量识别技术 篇7

1 P2P流媒体流量识别技术

当前,针对P2P流媒体的流量识别,虽然方法种类比较多,但是采用到的技术还只有基于应用层签名的识别技术、基于行为特征的识别技术和基于机器学习的识别技术三类。如下将对这三类技术进行简要的介绍,以期能够对P2P流媒体的流量识别技术有一个简单的认识。

1.1 基于应用层签名的P2P流媒体流量识别技术

基于应用层签名的流媒体流量识别技术,目前对于其研究主要是依据部分学者对PPLive、QQLive、UUSee、PPStream、Sop-Cas这几种主流的P2P流媒体平台的应用层签名特征进行分析,提出基于各自签名特征设计的专用识别技术,然后基于实践论证的方法对这种基于应用层签名的流量识别技术进行验证,进而确定这种方法有效。例如,有学者主要通过对IPTV的一些数据进行分析,对通信系统在运行时存在的地址、协议定义和数据传输三个方面的具体特征,然后提出一种基于对三种特征进行结合的识别方法,由于这种方法只能识别到应用层的信息流,因此这种方法只能适用于非加密的流量。其他学者研究的基于应用层签名的流媒体流量识别技术,能够识别的流量也只能是那些没有加密的流量。虽然这种方法简单可行,但是这种方法对于那些加密流量P2P流量的识别将会失效。

1.2 基于行为特征的P2P流媒体流量识别技术

目前,采用基于行为特征的流媒体流量识别技术,主要是PBS(Periodic Behavioral Spectrum,周期行为谱)方法。这种方法主要是对不同应用流量由自相关函数(ACF)和离散傅里叶变换(DFT)产生的频域结果周期特征,最终对周期特征进行解析,利用相关差异性来识别不同的应用。在实际的应用中,这种方法的识别精度较高,但同时也存在着不同应用具有相同周期特征的现象。因此,可能会对未来的有效正确识别带来一定的影响。

1.3 基于机器学习的P2P流媒体流量识别技术

近年来,在对P2P流媒体流量识别技术的研究中,基于机器学习的识别技术成为了主要的研究方向。有的学者提出一种Abucas方法,这种方法采用的原理是在短时间窗口内统计发送不同长度数据包的节点数量来构造Abucas特征,然后采用SVM(Support Vector Machine,支持向量机)训练出分类模型,然后借助分类模型,对流量进行分类然后识别。采用Abucas方法,提出的依据IP和Post进行分流的思想,对于P2P流媒体能够进行有效的精细识别,但是,如果P2P流媒体应用运行主机连接的节点较少时,采用这样的方法识别精度将会大大降低。

2 基于SVM增量学习的P2P流媒体流量识别策略分析

2.1 基于SVM的反馈学习机制

在网络数据流量的识别中,反馈学习是一种重要的提高识别效率的方法。反馈学习在P2P流媒体流量识别中占据有明显的优势,主要有两个方面:一方面是能够对因为初始训练样本集不完备导致的分类算法学习不充分的问题,另一方面是对P2P应用不断变化使得训练样本并不能立即得到调整改善优化的问题得到有效解决。在平常我们讨论的流媒体流量识别的训练过程,根本性的要点就是将分类算法应用于对训练样本进行学习,然后创立对应的支持向量库,这种操作是一次完成的,但是在实际的分类训练过程中,由于系统并没有对支持向量库进行改变,因此,这种形式的样子根部无法有效识别P2P。但是,在基于SVM的反馈学习中,这方面的问题都得到了有效的解决。在基于SVM的反馈学习中,主要进行了两个过程,一个过程是进行反馈判断,另一个过程是优化反馈样本。在其中的反馈判断阶段,其采用的的具体机制是:在识别系统运行一段时间后,采取进行人机交互的方法对相关信息进行反馈判断,然后再对识别的结果进行具体的衡量,如果识别出来的样本与用户判断的样本不一致,则表明这个过程中的有关样本信息已经包含在了支持向量库中,这个时候,就不需要进行反馈。

2.2 基于SVM的增量学习算法

将样本和SVM样本组合成新的训练集,然后对其加以训练,从而实现增量学习的方法就是基于SVM的增量学习法。由于在P2P流媒体流量识别的实际应用中,不仅需要保证识别的准确度还需要考虑识别的速度,因此,采用上述的增量学习算法的方法显然具有较高的优势。对于采用这种基于SVM增量学习算法的P2P流媒体流量识别技术,其算法的具体机制和步骤如下:

步骤一:采用初始的训练集进行训练,得到SVM的初始分类器A,对于A的支持向量,用Asv表示;

步骤二:将新增的样本集和Asv集构成新的训练样本集,进行继续训练,训练之后能够得到一个新的支持向量集,称为新的分类器B和新的支持向量Bsv。

步骤三:令,然后重复步骤二的工作。

2.3基于SVM的反馈增量学习算法

由前述基于SVM的反馈学习机制和基于SVM的增量学习算法的结合,便能够形成对P2P流媒体流量进行有效识别的基于SVM的反馈增量学习算法。在基于SVM增量学习的对P2P流媒体流量识别的系统中,其最终有效发挥作用的机制就是基于SVM的反馈增量学习算法。系统在运行时,需要进行反馈判断的样本就是自动保存的样本,在反馈判断过程中采用的方式为人机交互,然后采用支持向量机的增量学习算法来实现对反馈样本的优化。

2.4 基于SVM增量学习的P2P流媒体流量的有效识别

从前述对基于SVM增量学习的算法、反馈机制结合形成的基于SVM反馈增量学习算法,对于P2P流媒体的流量进行了有效的识别。在实际的应用中,由于需要新增P2P样本,而且这些新增的样本全部被加到已有的P2P样本中进行再次的重新训练,但是,由于在实际条件中,如果训练子集的P2P样本和增量P2P样本集存在较大的分布变化时,需要进行两类支持向量的转化,对此,为了更好的实现识别的效果,有学者采用基于多SVM分类器并行的学习方法,在实践中,这种方法不仅将学习问题的规模进行了大大的减小,而且也对增量学习的时间复杂度降低。因此,基于多SVM分类器的训练方法,有针对性的将每层的支持向量进行合并,然后重新加入到各组P2P训练样本的反馈增量进行重复的训练,大大的改善了SVM分类器的性能,对于复杂的P2P流媒体的流量识别起到了很好的识别效果。

3 总结

在P2P流媒体流量的识别中,采用基于SVM增量学习的系统进行识别,不仅对于识别的精度有着较大的提升,而且对识别的时间也大大缩短。在实际的应用中,这种方法取得了很好的效果,是当前对于P2P流媒体流量进行有效识别的主流方法。由于P2P流媒体流量的识别工作所面临的困难不断更新,因此,相关学习算法和机制仍需不断完善,以期能够有效促进P2P流媒体流量识别技术能够发挥真正的作用。

摘要:网络信息化时代,对于网络中的不良流量信息进行有效的监控,然后采取有效的措施对不良流量进行抑制,对于促进网络安全和网络服务水平具有重要的意义。当前的P2P流媒体流量是网络流量监控的重点和难点,需要进行广泛研究。该文首先对当前的P2P流媒体流量的识别技术进行一定的介绍,然后对基于SVM增量学习的P2P流媒体流量识别中涉及到的一些算法、机制等进行分析,希望相关论述能够促进人们对于P2P流媒体流量识别技术重要性的清晰认识,提升人们的网络安全意识。

P2P网络流量监控技术探讨 篇8

P2P网络实质上是建立在Internet网络(Overlay Network)节点之间对等、自组织构建的网络系统,能够提供丰富的资源,并且具有资源的冗余、容错性、负载均衡、避免单点瓶颈、高鲁棒性的Overlay路由查找等性能。与Ad hoc网络不同,Ad hoc网络主要关注于研究OSI参考模型网络层以及网络层以下的内容,而P2P网络的研究则主要关注传输层以及传输层以上直到应用层。另外一个与P2P网络具有一定相似性的研究领域是网格。网格主要致力于构建虚拟化的基础设施来提供高效率和高性能的服务和应用,在某种意义上还需要实现集中的管理和控制。与网格系统不同,P2P网络则是通过自组织的方式实现节点的自我管理来处理网络中节点的不稳定性。P2P系统参与者众多,要充分发挥P2P系统的作用,最理想的模式是所有参与者都最大限度地向P2P网络贡献出自己的资源和各种能力。而实际的P2P系统参与者很少能自觉地这样做,如对等系统中经常存在对等实体的欺诈行为、发送虚假信息、自私行为、只获取不付出、不负责任行为、用户随意地中止服务以及恶意破坏行为、传播不良信息、侵害他人利益等。对等实体的不良行为已经影响到P2P系统的健康发展,对等实体的安全问题就成为P2P系统中一个比较特殊的问题。P2P安全机制的重要性在P2P系统发展的早期并没有受到重视,但目前已经得到广泛认识。

1 P2P网络安全问题

由于P2P是开放的非中心控制的网络模型,其网络中的实体具有高度的自治性,实体可以随时加入网络或者离开网络,从而导致网络拓扑结构的高度动态性。在P2P网络模型中,信息的主要载体是网络中的对等实体,而不是某个或者某些固定的服务器,因此对等实体加入和离开网络将导致网络提供信息的容量和质量的不稳定性。P2P网络模型源自互联网,也因此继承了互联网中实体和网络之间、实体和实体之间相对松散灵活的关系,这必然影响到对实体身份的认证和实体行为的管理。从某种意义上说,P2P网络模型正是用牺牲网络的可管理性来换取其独特的优势。在集中控制的C/S网络模型业务环境中,服务器控制着一个相对封闭的实体集合,这意味着对实体身份的认证同时也是对实体行为的认证。而对基于P2P网络模型的开放式的业务环境来说,在很多业务中,对实体身份的认证并不意味着能够同时完成对实体行为的认证,因此还需要有对实体行为的认证机制。在P2P网络模型的业务环境中,与安全相关的信息是分布式存储在网络中,因此其安全信息的存取机制将比C/S网络模型更加复杂。因此必须研究自组织网络安全问题,使得P2P网络具有较高的安全性。

2 P2P流量检测技术

对P2P流量进行控制的前提是进行P2P流量的检测,即能够在纷繁复杂的网络流量中区分并识别出P2P应用。目前常用的P2P应用检测技术有:常用端口检测法、深度流检测法(DFI)、深度包检测法(DPI)。下面将对这三种常用的P2P流量检测方法进行分析、研究与比较。

2.1 常用端口检测法

(1)检测原理:P2P应用发展的初期使用一些固定端口进行控制和数据的通信,如早期Edonkey采用4661、4662端口,BT采用6881~6890端口等。监控系统通过检测网络流量所使用的端口是否属于典型P2P应用所采用的端口即可判断是否属于P2P数据包。

(2)优点:常用端口检测技术的优点为仅通过四层处理即可完成检测,逻辑简单、检测性能高。在P2P应用刚出现时检测效果非常好,方便控制,监控系统建设投资较少或无需投资。

(3)缺点:常用端口检测存在自身的局限性,基于端口的识别误报和漏报率偏高,无法检测在0~1024端口之间传输的P2P应用,不能准确判定在大于1024端口传输P2P应用。检测系统无法处理端口经常变换的情况,端口控制粒度太粗,控制容易出错。随着应用的发展,P2P应用的常用端口越来越不明显,部分P2P应用使用port80和port25等常用的合法端口来进行数据传输。因此通过端口方式能够识别的P2P协议类型非常有限。

2.2 深度流检测方法(DFI)

(1)检测原理:各种互联网应用数据包的自身特性及传输特性都有所区别,因此,基于流的行为特点,通过与已建立的各种应用数据流的数据模型的比对,可以判别出数据流所对应的应用业务类型。深度流检测法即是基于这种原理,根据各种应用的连接数、单IP地址的连接模式、上下行流量比例关系、数据包发送频率等数据流的行为特征指标的不同与DFI检测模型进行匹配,进而从中区分出P2P应用类型。

(2)优点:DFI检测存在的优点是能够发现未知P2P应用,具有对新P2P应用的感知能力。加密协议对检测算法影响较小。避免查看应用层协议内容,检测效率较高。

(3)缺点:检测准确度与DPI相比稍低,也有将非P2P应用误判为P2P应用的情况。

2.3 深度包检测法(DPI)

(1)检测原理:网络应用的数据包中,各种应用在不同的数据包位置都有一些特有的固定的特征字,如果在数据包的相应位置能够找到这些特征字就可以判断数据包属于哪种类型的网络应用。深度包检测即是基于这种原理,通过检测各种P2P应用协议使用的固定特征字来识别各种P2P应用。

(2)优点:检测准确率比基于端口和流量模式的方法高,端口的变化不会影响检测率。能够检测使用最广泛的P2P应用,适合流量的精确检测。

(3)缺点:无法识别新出现的、经加密的P2P应用,对无法识别的P2P应用会出现漏判。协议分析和特征搜寻需要投入大量人力及时间,难以获取加密协议的特征,特征的选择对检测性能有很大影响。系统检测模块需不定期地进行升级,查看应用层的内容涉及隐私的问题,对检测设备的处理能力要求较高。

3 结束语

随着互联网的不断发展,出现了越来越多的P2P应用。P2P应用占用了大量的网络带宽,使得网络变得越来越拥塞。本文在分析了与P2P安全相关问题的基础上,详细介绍P2P流量监控技术的基本原理,并对相关技术存在的优缺点进行了重点分析与探讨。由于P2P应用的流量占用网络带宽的比例较高,严重影响了其他互联网应用的访问质量,国内外电信运营商开始对P2P流量进行限制,P2P应用及协议也会针对所受到的限制进行改进及优化。对P2P应用的限制与反限制将是一个长期的过程,对P2P流量的监控技术也将随着P2P应用协议的改进而不断变化与发展。

参考文献

[1]Sen.S,Wang Jia.Analyzing Peer-to-Peer Traf-fic acrossLarge Networks[C].IEEE/ACM Transactions on Net2working.NJ:IEEE Press,2004:219-232.

[2]ElisaBertino,Elena Ferran and Allna Squieei-a rini,Trust Negotiations:Concepts,Systems,and Lan-guage[C],P27-34,July/August,2004,IEEE.

[3]HalldorM.Sigurdsson,UlfurR·Halldorsson and Gerhard Hasslinger.Potentials and Challenges of Peer-to-Peer based Content Distribution[C].Telemat-ics and hlformatics,24(2),November,2007.

上一篇:档案信息宣传下一篇:创新时政新闻