网络流量

2024-09-18

网络流量(共12篇)

网络流量 篇1

1 出现网络拥塞的原因

互联网作为计算机和通信技术融合的产物,近年来得到飞速的发展,尤其是硬件产品方面的发展。但硬件的飞速发展并未带来网络服务质量的飞速发展,网络拥塞、网络速度依然困扰着人们。导致网络带宽拥塞出现的原因,根据自有用户的使用情况和需求反映,及在网络和书籍上查找相关的情况,基本总结如下:

1.1 LAN/WAN的不匹配

高速LAN与低速WAN之间不匹配造成严重的带宽瓶颈,这将导致延迟与不一致的性能,我们学校从网络供应商接入校园的外网才几十M,而内网可达百M、千M。近十年来,LAN从10M、100M、千兆、到现在万兆的内部主干网络,而WAN也速率也从56k、128k、2M、10M、50M、100M、500M、千兆。虽然WAN速度增长倍数是大于LAN,但基数还是远小于LAN。

1.2 网络流量种类、数量不断增多

网络用户拥有多种不同的应用交叉连贯,从很重要的应用(如视频会议和Voice over IP(VoIP))到娱乐性的应用,如在线视频、在线游戏等。当关键性的应用与不紧急及娱乐性的程序共享相同的网络资源时,不级别用户争抢带宽,网络速度变慢,甚至有的工作站就会出现无法接收数据的现象。归根结底,是由于局域网带宽过度消耗的。对带宽需求较大而又非常重要的应用,需要在限制和允许之间做出平衡;对关键型的网络应用需要保障其有不受干扰的通道。

1.3 不预计的流量突发

蠕虫、病毒和与日俱增的Web流量都是当前网络的负担。以消耗网络资源为目的流量类攻击发展迅猛,却没有有效的防范控制手段,网络人员大量的恶意非法连接消耗带宽,淹没主机,造成拒绝服务(DoS)攻击;蠕虫病毒大量而快速的复制使得网络上的扫描包迅速增多,造成网络拥塞,占用大量带宽,从而使得网络瘫痪;网络内部操作失误等。

2 流量控制策略

2.1 建立VLAN

建立VLAN能有效遏制机构范围内的广播和组广播,进行跨园区的带宽和性能管理。我们学校使用的交换机型号是华为3026 EI系列,通过该交换机,可以有效地限制网络带宽资源过度消耗。在完成物理连接后,通过Console端口到交换机的后台配置界面,从中找到虚拟子网划分设置选项,并通过该功能将24口的交换机所连接的端口设置成几个不同的VLAN,通过VLAN中的IP地址段和职能部门的对应管理,我们可能直接就以职能部门的名称作为分类的名称,将网络流量的来源和实际用户联系起来。划分VLAN举例:

[H3C]VLAN1

[H3C-VLAN1]quit

[H3C]VLAN 3 to 9//创建了VLAN1

为了防止工作站随意使用BT之类的下载软件、在线影视等来过度消耗网络带宽资源,我们可以进入华为3026交换机的后台配置界面,从中找到"端口带宽控制"设置选项,通过这一功能选项将交换机所连接的带宽设置成合适的值。这样一来工作站即使使用了P2P等应用,我们也不担心整个局域网的出口带宽资源被耗尽。华为3026 EI系列交换机端口限速配置如下:

对该端口的出方向报文进行流量限速[**3026-e0/1]line-rate 50

对该端口接收方向报文进行流量限速[**3026-e0/1]traf-fic-linit inbound ip-agroup aaa 50

端口的出入口方向限速为50Mbps

2.2 负载均衡

随着大量数据在网络中传输,数据流量不断增大,网络核心部分的数据接口将面临瓶颈问题,这时可以考虑采用负载均衡。负载均衡建立在网络结构之上,它提供了一种廉价有效的方法扩展带宽和增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可能性。它主要完成以下任务:解决网络拥塞问题;为用户提供更好的访问质量;提高服务器响应速度及其资源的利用效率。学校校园网采用本地负载均衡,对本地的服务器群实现负载均衡。本地负载均衡能有效地解决数据流量过大,网络负荷过重的问题,充分利用现有设备,避免服务器单点故障造成数据流量的损失。均衡策略把数据流量合理地分配给服务器群内的服务器共同负担。原有的单一线路将很难满足需求,而且线路的升级又过于昂贵甚至难以实现,这时就可以考虑采用链路聚合(Trunking)技术。链路聚合技术(第二层负载均衡)将多条物理链路当作一条单一的聚合逻辑链路使用,网络数据流量由聚合逻辑链路中所有物理链路共同承担,由此在逻辑上增大了链路的容量,使其能满足带宽增加的需求。

2.3 使用监控网络流量的工具

网管员可以借助网络流量管理工具监控网络流量,从而控制网络带宽、发现网络中存在的问题,识别网络流量,辨别出这些网络流量是从哪里由什么程序,经由哪个用户产生的,通过用户身份对网络流量进行识别,网络管理员根据流量数据就可以对网络主要成分进行性能分析管理,发现性能变化趋势,并分析出影响网络性能的因素及问题所在。Mrtg(Multi Router Traffic Grapher,MRTG)是一个监控网络链路流量负载的工具软件,它是利用SNMP协议,去侦测指定的运行有SNMP协议的网络设备上抓取到信息,自动生成包含PNG格式的图形,并以HTML文档方式显示给用户。每隔几分钟采样并统计其设备流量,将统计结果绘成统计图,这样用户能很容易地从统计图上观察出实际网络的流量。

2.4 进行数据通讯优先级控制,限制或禁止在特定时间段内的流量占用

解决带宽拥塞的关键问题是如何能够将带宽合理的分配到每个桌面用户,当网络资源紧张的时候限制那些使用量大的用户,保障那些使用量小的用户,反之,当网络资源有较大空闲时,则取消这些限制,让每个用户都能有效利用资源。我们根据自己的实际需要选择开关的时间段以及不同时间下不同的参数值。校园网选用了黑盾防火墙FW2000+。黑盾防火墙有强大的流量控制功能,可以通过黑盾防火墙设置优先级和流量值的方式对主机的带宽和规则的带宽进行保证,提供QoS机制,保证带宽合理分配,充分利用资源。

3 结束语

网络的流量监控在日常的网络运行维护当中是一个非常重要的内容,流量控制策略的制定对网络带宽的合理分配起决定性的作用,通过合理的策略控制,有效抑制了P2P、迅雷及在线视频等占用带宽的现象,保障了关键业务以及时实性较强的业务优先使用,保障网络基础设施的健康运转,提高了校园网络的服务质量。

摘要:为了保证关键业务以及时实性较强的业务优先使用,保障网络基础设施的健康运转,就需要对校园网络进行流量控制。如何提高网络性能及重新拥有对网络的控制权,是校园网络管理中心要面对的重要问题

关键词:网络流量,网络拥塞,控制策略

参考文献

[1]黑盾防火墙产品使用手册.福建海峡信息技术有限公司.

网络流量 篇2

关键词: 流量控制 华宇

流量控制面临的挑战

在Internet飞速发展的今天,,点对点传输(P2P)与实时通讯(IM)已经成为上网的主要应用。一般人浏览网页外,越来越多人在线游戏、电影、炒股、P2P下载等等,没有节制的上网行为带来的组织效率流失,无序的网络行为带来的严重的安全威胁。

然而P2P耗损巨大带宽,在有多少带宽就用多少的情况下,使得内网带宽、外网链路都面临了严峻的挑战。外网带宽被占用,导致内网用户之间带宽分配不公平。

传统网络设备的局限性

我们可以想到传统的方法有:  增加网络带宽。

许多IT用户在遇到P2P带宽问题时,都采用这种方法,但这种方法显然效果有限。这是种消极、被动的解决方法,虽然能够解决一时问题,但不能彻底解决P2P、在线电影等新网络应用技术冲击; P2P等新的非关键应用会大量吞噬新购买的带宽,用不了多久,用户就会发现带宽会再次紧张,关键应用的带宽还是有问题。同时,无限制的扩展带宽又会增加大量的投资,IT的ROI(投资回报率)无法保证。

 利用传统网络设备进行控制。

这种方案是直接利用数据链路层、网络层(IP层)甚至会话层(TCP层)的一些技术措施,来实现网络管理。如可以利用L2交换机基于802.1Q 和VLAN的控制,L3/L4交换机的访问控制列表进行过滤、通过防火墙进行阻断和控制等等。但,这种方法既复杂,效果也有限,并且提供的管理手段非常少。现在大量的软件(包括P2P、即时通讯、网络游戏等)都具备了跳跃端口、随机端口、自定义端口甚至包伪装等等功能,规避IT管理员的管理与控制。这些软件的端口随时可变,甚至可以在web浏览必须的80端口上进行自己的活动。因此传统的交换机、路由器和防火墙对此则毫无办法,形同虚设。 最积极有效的方案:应用专业的流控设备 北京华宇讯通科技有限公司推出的流量控制管理系统(HY-FCS)(简称华宇流控)是在网络中部署专业的流量管理设备,这些流量管理设备必须能够有效的感知各种流量(尤其是P2P应用)、控制流量、提供应用差异化分级服务、有效抵抗各种网络威胁等。华宇流控(HY-FCS),是一款专业的流量管理设备,可以有效的针对带宽问题的挑战,特别是针对新型的P2P技术,(HY-FCS)的更具优秀的效果。

网络流量控制解决方案  流量限制

员工经常使用BT、迅雷等P2P软件,该类软件在使用过程中占用及其多的带宽,如果内网有大量用户使用BT之类的软件下载,大量的宝贵的带宽资源会被消耗,从而导致一些重要的正常应用,如视频会议系统,无法占用带宽,影响正常工作的开展。

解决方法:禁止P2P软件的流量,限制迅雷下载跟P2P流媒体的流量,这种做法是禁止P2P软件使用,同时常用的下载工具可以使用,但是限制它的使用的带宽,让它们占用尽可能小的带宽。 带宽保证

华宇流控提供了通道式的带宽管理策略,利用一种有别于传统采用固定带宽式的流量管理技术在流量较大时确保为指定的应用提供足够带宽,一旦这些应用停止或减少使用带宽,则自动把这些空闲带宽提供给其它有需要的应用,最大限度的保证了组织的网络利用率。

华宇流控产品的带宽策略非常丰富。例如组织的总出口带宽为100Mbps,可以将其中5Mbps的带宽以固定预留的方式分配给领导办公室,即使在其他95Mbps带宽非常紧张时仍然保证总裁办公室的带宽决不会低于5Mbps,此种方式我们称之为固定预留;也可以采取动态预留方式,如为财务部动态预留5Mbps的带宽,当财务部没有流量时,原本分配给财务部的5Mbps带宽将被其他应用占用,财务部有流量时会重新取得该5Mbps带宽的使用权,从而真正提升带宽使用价值。基于细化管理的需要,即便我们为某个用户组保留了足够的带宽,也有可能出现该组内个别用户占用了多大带宽而导致其他用户的不满,华宇流控产品能够对用户组内每用户进行带宽资源的分配策略,即能够平均分配也可以自由竞争,还能够控制单个用户的最大上下行带宽。我们通过对华宇流控产品在管理网络带宽这个方面来具体阐述其为用户带来的商用价值。

 管理网络带宽——网络流量管理

华宇流控产品通过审计、控制、优化和带宽叠加等功能,协助管理者全面分析和优化广域网带宽资源。

华宇流控产品对局域网发生的所有网络行为进行记录、分析和趋势报告。借助图形化的数据和报表,用户可以直观地了解到哪些服务占用了广域网宝贵的带宽资源,网页浏览,收发邮件,还是疯狂的P2P下载。同样,我们还可以了解到哪个员工在网上购物方面表现出了异于常人的活跃,哪些部门在上班时间观看了最多的在线影片。通过对网络使用情况的深入了解,管理者能够制定出最适合自身组织机构情况和的互联网访问策略。

由于华宇流控产品提供对各种网络服务的拦截和管理,以往的拔网线、通报点名的强制性手段将成为过去,如何发挥华宇流控产品的强大功能只取决于你的决心。如果你在“彻底封杀某个服务”,还是“完全放开这项服务”的决定中摇摆不定(例如P2P下载,其吞噬带宽的同时也带给了我们丰富的信息资源),你也可以选择对应用的流量进行调整。 管理网络带宽——P2P软件的控制

P2P技术使人们可以高速获取海量的网络资源,而P2P软件对带宽的占用也使其招致种种恶言。一个2M以太网出口的局域网,只要有2个以上的员工不限速地使用BT,所有人的正常网络浏览都将成为不可完成的任务。每天,互联网上都会有人发布最新的P2P软件,这让大多数的P2P控制工具望尘莫及,它们往往只能封堵“昨天的BT软件”。

华宇流控产品改变了这一切。通过对P2P下载软件的智能检测,管理员甚至可以彻底封锁所有的P2P流量。如果你不想做的太绝,你可以选择针对特定用户和相应的P2P工具进行流量控制,只要不超出网络使用者的容忍程度,大多数用户还是可以允许内网中存在P2P下载。 管理网络带宽——带宽优化和多线路策略

浅谈IP网络流量分析 篇3

随着网络的应用越来越广泛,网络中承载的业务也越来越丰富。企业需要及时了解到网络中承载的业务,及时掌握网络流量特征,及时解决网络性能问题。从这些企业管理网络中所经常遇到的问题来看,需要有一种解决方案能让网络管理人员及时了解到详细的网络使用情形,使网络管理人员及时洞察网络运行状况,及时了解网内应用的执行情况。

二、流量分析的应用

1.基于SNMP 的流量分析

SNMP(Simple Network Management Protocol,简单网络管理协议),是一种广为使用的网络协议,基于SNMP 的流量分析就是通过SNMP 协议访问设备获取MIB 库中的端口流量信息。典型工具有MRTG(Multi Router Traffic Grapher),MRTG 是一个实用的免费软件,MRTG 使用起来很方便,能够非常直观地显示端口流量负载。但MRTG 的功能比较单一,其收集到的流量信息仅是简单的端口出、入流量统计信息,不能用于深入的流量分析。

2.RMON

RMON(Remote Monitoring,远程监控),是由IETF定义的一种远程监控标准,RMON 是对SNMP 标准的扩展, 它定义了标准功能以及网管站和远程监控器之间的接口,实现对一个网段乃至整个网络的数据流量的监视功能。

RMON 监控器可用两种方法收集数据:一种是通过专用的RMON 探针(Probe),流量探针安装方便,但是流量探针价格昂贵, 不适合大面积部署。另一种方法是将RMON 代理直接植入网络设备(路由器、交换机等),但这种方式受网络设备资源限制,一般不能获取RMON MIB的所有数据,大多数只收集统计量、历史、告警、事件等四个组的信息。

3.NetStream技术

NetStream是H3C基于“流”的概念,定义的一种用于路由器/交换机输出网络流量的统计数据的方法。路由器/交换机对通过其的IP数据包进行统计和分析,并上报给数据采集机,采集机把搜集的数据包及统计数据传送到中心服务器,经合并处理后存入数据库,并进行进一步的分析处理。NetStream技术可利用网络中数据流创造价值,并可在最大限度减小对路由器/交换机性能的影响的前提下提供详细的数据流统计信息。

4.sFlow

sFlow(RFC3176)是2001 年由InMon 公司提出来的技术,sFlow(RFC3176)是IETF 的一个开放标准,可提供完整的第二层到第四层、全网络范围内的流量信息。

sFlow 监控系统包括sFlow 代理、sFlow 数据采集器或sFlow 分析器,sFlow 代理通常为硬件芯片内嵌到路由器或交换机中,通过统计采样技术获取流量信息形成sFlow 数据包, 并立即发送给sFlow 分析器进行流量分析。sFlow 可以直接内建在边缘的二层或三层交换设备上提供覆盖全网、实时网络监控的功能,是一种很有发展前景的技术。

三、流量分析的应用

NTE(NetTraffic Exporter)负责流量的采集和发送;NTC(NetTraffic Collector)设备负责收集和存储NTE发来的流量统计数据信息;NTP(NetTraffic Processor)从数据库中获取收集到的数据,经分析加工后以直观的图表、报表等方式为网络规划、网络优化、网络监控、流量趋势分析、异常检测等提供直接的数据依据。

各组成部分的关系如下图所示:

1.流量监控

网管人员可按照系统提供的参数来设定监控条件,系统根据设定的监控条件过滤得来流量记录(Flow Record)并将符合监控条件的统计资料存入系统数据库中。最后,系统便可以从数据库里读取数据做成各种图表(Report)。因此,网络管理员可针对网络的重要链路进行流量监控, 掌握不同链路的流量基线,及时了解链路的负载和发现问题。

2.流量分析

网管人员可以开启实时监控功能, 针对所设定的范围做流量数据的收集与分析。在同一时间里,可以开启多个实时监控窗口,每一窗口独立监控一项设定,并根据搜集得来的资料自动排序,做成各种报表。

例如:网络中近期BT 下载开使流行,这是一种多点下载的源码公开的P2P 软件, 它的特点是下载的人越多,下载速度越快,但网络资源占用大,目前网络中监控到的BT 下载流量加起来已超过流媒体应用, 给网络造成一定压力。通过定期对网络中一些重要的特定流量进行排名分析,将帮助网管管理员了解所辖网络中的流入流向信息,以及应用协议的分布状况,有助于网络管理员建立自己网络的流量模型,在网络维护或扩容决策时,提供重要的参考。

3.异常流量分析

现在随着IP 网络不断扩大, 网络中也经常会出现黑客攻击、病毒泛滥的情况,而这些网络突发事件从设备和网管的角度看却很难发现问题,经常也让网络管理员感到棘手,因此,针对网络中突发性的异常流量分析将有助于网络管理员发现和解决问题。(如下图例)

分析:

10.153.120.51:个人设备S05947,3月8日晚19:00左右开始,每10s向同网段多个IP地址发送UDP广播报文,长度为固定的65字节,源端口、目的端口均为7777,总流量不大,仅为0.25GB。进一步查看该IP地址流量发现大量25000以上连续动态端口,TCP协议流量,1小时内总流量达到1GB。从报文特征判断,初步怀疑该员工使用PPLive连接外网服务器下载观看网络电视,经联系信息安全部门人员查证核实,确知该员工非法安装PPLive软件,违反公司相关规定,及时对该员工进行了处理。

四、结束语

通过以上应用可以看出,IP 网络流量分析可以提供大量详尽的数据,供网管人员从多个方面更好地维护、优化IP 网络,提升IP 网络的性能;同时还能为业务应用层面提供数据依据,为特定客户提供流量分析服务,比如网站流量统计分析等;也可作为网络安全的辅助手段,处理网络病毒等异常事件。因此,可以预见,随着网络的发展,流量分析工作将在网络管理中起到越来越重要的作用。

参考文献

[1] 谢希仁.计算机网络(第4版).电子工业出版社,2003.

[2] W.Richard Stevens.任守奎,等,译.TCP/IP详解(第一卷 协议).北京大学出版社,1999.

[3]网络流量分析解决方案技术白皮书.2005.

高校网络流量管理初探 篇4

聊城大学是一所省属综合性大学。聊城大学于1997年组建了自己的校园网。现在聊城大学校园网已经完成“主干光纤万兆, 千兆到楼宇, 百兆到桌面”的建设目标。目前校园网覆盖全校所有院系、研究所、行政管理与教工宿舍、学生宿舍等100余栋楼宇。聊城大学校园网注册上网人数为6000多, 同时在线人数每天最高保持在2000至3000, 现在两个出口带宽总计555M (CERNET 155M, CNC 400M) 。由于聊城大学的网络收费政策是包月收费, 这就造成老师和学生大量使用BT、电驴、迅雷等p2p软件来“充分”利用网络资源下载电影、音乐或文字材料, 或在线看电影、使用视频直播等, 造成了带宽大量被抢占, 学校网络速度受到极大影响, 也让网络中心面临了很大的压力。而当学校要确保某些电脑上网能够顺畅、确保某些网络服务 (网络语音、网络视频会议、OA办公系统) 能够正常开展时, 就需要对整个网络进行有效的带宽分配和流量控制, 以确保正常业务能够顺利进行。如果不能有效控制学校网络实时流量, 100M甚至1000M的internet出口带宽也是微不足道的, 这是因为相对于网络建设的线性增长速度而言, P2P的带宽增长是指数形式的增长, 单纯的网络扩容永远跟不上P2P的增长速度。如何有效封堵此类p2p应用或限制此类应用的流量, 成为高校网络建设的一个明确的需求点。

2、聊城大学在网络流量管理方面做的探索

针对校园网络实际面临到的问题, 我认为追根究底是要做好流量控制, 使有限带宽资源得到有效应用。P2P的应用占用了大量的带宽是事实, 但是如果不影响关键业务的正常使用, 可以让师生使用。

2.1 聊城大学应用的网络流量整形设备ACE介绍

聊城大学购买的网络流量整形设备ACE可以提供网络流量监控和控制功能。锐捷网络ACE应用控制引擎采用了业界领先的DPI和DFI等技术, 能够准确的对用户网络中的BT、电驴、迅雷、PPlive、PPStream、Vo IP等协议进行精准识别和精细管理, 从而确保用户关键应用带宽, 保障用户网络正常运行。

DPI是深度报文检测 (Deep Packet Inspection) 的简称, 是一种典型的业务识别技术。DPI技术对传统的流量检测技术进行了“深度”扩展, 在获取数据包基本信息的同时, 对多个相关数据包的应用层协议头和协议负荷进行扫描, 获取寄存在应用层中的特征信息, 对网络流量进行精细的检查、监控和分析。

DFI是深度流行为检测 (Deep Flow Inspection) 的简称, 也是一种典型的业务识别技术。DFI技术是相对于DPl技术提出的, 为了解决DPI技术的执行效率、加密流量识别和频繁升级等问题而出现的。DFI更关注于网络流量特征的通用性, 因此, DFI技术并不对网络流量进行深度的报文检测, 而仅通过对网络流量的状态、网络层和传输层信息、业务流持续时间、平均流速率、字节长度分布等参数的统计分析, 来获取业务类型、业务状态。

2.2 聊城大学在ACE上做的控制策略

作为聊城大学网络流量方面的主要管理人员, 我提议并施行了在ACE上做的网络流量控制策略如下:

1) 、首先保证聊城大学的网站被访问, 设置单独的通道, 带宽保证20M而不超过50 M;

2) 、办公楼和网络信息中心上网优先保证, 设置单独的通道, 应用默认的不限制流量带宽策略;

3) 、GOPHER、HTTP-BROWSE和HTTPS应用设置单独的通道, 带宽保证100M而不超过150M;

4) 、工作时间p2p应用设置单独的通道, 带宽保证100M而不超过200M (根据聊城大学实际, p2p应用主要选择包括BT、电驴、迅雷、PPlive、PPStream、VoIP) ;

5) 、休闲时间p2p应用设置单独的通道, 带宽保证200M而不超过300M (根据聊城大学实际, p2p应用主要选择包括BT、电驴、迅雷、PPlive、PPStream、VoIP) ;

6、每个IP流量为保证1K而不超过1M。

2.3 聊城大学通过设置网络流量带宽控制策略, 取得的效果

现在由校外访问聊城大学网站比原来快了;办公楼和网络信息中心等关键业务应用网络更顺畅了;通过保证GOPHER、HTTP-BROWSE、HTTPS应用和通过工作时间、休闲时间采取不同的p2p带宽限制策略, HTTP应用占的流量带宽明显增大, 而p2p占的流量带宽明显减弱, 既保证了正常网页浏览的服务质量, 也满足了师生对P2P应用的部分需求;通过限制每个IP流量, 既保证一般业务公平共享带宽, 又对下载流量非常大的用户起到限制作用, 网络使用的不公平现象得到一定改善, 从而提高整个网络的运行质量。

3、结束语

伴随全球网络信息化浪潮, 网络在高校生活中的地位越来越重要。聊城大学随着网络规模不断扩大、网络用户不断增多、网络应用越来越广泛, 网络流量也变得越来越复杂。通过做对工作时间和休闲时间采取不同的p2p带宽限制、对不同的上网区域和不通的应用建立不同的通道并设置不同的带宽限制策略来进行优先级不等的服务、对每个IP做限流的解决策略, 聊城大学网络流量管理面临的p2p应用抢占带宽过大引发的网络速度很慢、网络正常应用得不到保证和网络使用不公平等问题得到了一定程度的解决, 既保证了关键业务的服务质量, 限制了非关键业务的带宽, 同时保证了一般业务公平共享带宽, 也给p2p应用用户提供了部分便利, 从而提高了整个网络的运行质量。

参考文献

[1]业务识别与管理系统和网络流量的管理.http://www.searchnetworking.com.cn/ShowContent_16867.htm.2009-1-5

[2]P2P在高校--安全问题决定成败, http://sj.media.edu.cn/index1.php?IDx=54,

微博将变革网络流量获取方式 篇5

据JiaThis发布的《7月国内社会化媒体分享数据排行报告》显示, 为分享增速最快的互联网应用,回流数据值达47.23%,为合作网站带来可观的用户和流量价值。数据显示,在过去的7月中,分享到 的数据量相当于上涨了一个人人网的分享数据,

据悉,社会化媒体除在分享增速上具有优势之外,在网站流量来源中也成为继搜索引擎之后的第二大方面,今年5月 占分享总量的2.68%,而6月分享总量已增至4.91%。据了解,在5月、6月、7月三个月中, 爆发式成长,一举进入三大社会化媒体之列。

负责人透露,使用一键转播的网站数量大幅增加,许多网站意识到这一工具无形中带来的巨大用户增长和访问流量增长,开始主动添加。包括 等第三方在内提供的一键转播工具,已经成为目前互联网最基础、最重要的分享工具之一,分布在各大网站的每个页面中。

基于长相关网络流量预测分析 篇6

关键词:长相关;小波;AR;预测

中图分类号:TN711文献标识码:A文章编号:1007-9599 (2010) 09-0000-01

Analysis of Network Traffic Based Long Range Dependence

Chen Bo,Cai Ranran

(Sichuan TOP Vocational Institute of Information Technology,ChengDu611743,China)

Abstract:Based on the fact that wavelet transform can remove its relevant characteristics,and the improvement for Linear Prediction Model,this paper will tell how to accurately predict the long range dependence traffic.

Keywords:Long Range Dependence(LRD);Wavelet;AR;Predict

一、引言

传统的认为网络流量是服从Possion分布或近似为Markov过程,所以大都是基于线性模型来近似处理流量的发展趋势,主要有基于自回归(AR)或自回归滑动平均(ARMA)的预测模型。但是近年来对网络流量研究发现,实际流量表现出明显的自相似、长相关[1][2]特性。实际流量的分形特性不仅具有统计意义,并且对网络性能与网络控制有重要影响,尤其在网络资源有限的情况下,建立一个有效的网络模型来预测网络负载,并及时做出处理,将会极大的提高网络的性能与服务质量。在时域不容易解决的问题可以转化到频域中来。对于某些非平稳时间序列,其小波分解后的流量可以平稳时间序列来处理,这样就可以采用传统的预测方法]对分解后的时间序列进行预测,从而为某些非平稳时间序列的预测提供了一种新的方法。

二、小波变换的流量分解与合成

本文利用离散小波变化进行,小波基采用db小波和墨西哥小波进行试验。

设 表示其在第j层的尺度系数、 表示第j层的小波系数,由小波变换的系数递推可以得出:

(1)

三、实际流量预测算法

假定研究的过程x(n)是由一个输入序列u(n)激励一个线性系统H(z)的输出,H(z)是一个因果的线性不变离散时间系统,其单位抽样响应h(z)是确定性的。输出序列x(n)可以是平稳的随即序列,也可以是确定性的时间序列。若x(n)是确定性的,那么u(n)是一个冲激序列,若x(n)是随机的,那么u(n)应是一个白噪声序列。不论x(n)是确定性信号还是随机信号,u(n)和x(n)之间总有如下的输入、输出关系:

(2)

(3)

上面两个公式有不同的应用场合,公式(2)主要应用于确定性信号,而公式(3)主要用于随机信号。

若 全为零,则(3)式变为:

(4)

经过Z变换之后可得:

(5)

(4)、(5)式给出的模型就是自回归AR模型,它的含义就是该模型的输出是现在的输入和过去p个输出的加权的和。

大量研究已经证明实际数据是具有分形特性,并且是长相关的,由于AR模型不适用于长期预测,对具有长相关的数据不能准确预测,而小波变换正好能够近似去除数据的长相关性,因此这里可以考虑首先利用小波变换对实际数据作出处理,然后再利用AR模型进行预测,以此提高预测的精度。其具体算法如下:(1)首先选取合适的小波基对实际数据进行分解,得到相应的小波系数和近似系数。(2)其次,对每一层小波系数作为AR模型的原始数据,分别进行参数估计,然后用小波系数来驱动一个正态分布的信号,得到预测后的小波系数。(3)最后采用逆小波变换合成预测之后的数据。

四、性能分析

前面一节中给出了对长相关流量的预测模型,改进的思想主要利用了小波变换能够近似去除网络流量的相关性,对实际流量进行处理之后再建立相应的预测模型。这里我们利用Matlab中自带的FBM模型来产生长相关数据,然后分别利用改进后的AR模型和FRAIMA模型进行预测。设FBM模型产生一组H=0.96的长相关流量LD_DATA,长度为1000。同时使用改进后的AR模型与FRAIMA模型进行预测。

为了进一步将预测结果数字化,这里将两组预测的结果进行残差分析,得到的结果如表1所示。

从预测结果和残差分析的结果可以清楚看出,改进后的AR模型和FARIMA模型对长相关数据的预测都具有一定的精度,由此可以看出改进后的模型是有效的。

五、结语

本文针对实际流量表现出的自相似、长相关特性,结合小波变换能够去除流量的相关性,对现有的AR模型进行改进,使其对长相关流量具有一定的預测精度。同时对比FRAIMA模型对长相关流量的预测结果,验证了改进之后模型的有效性。

在后续研究中,可以考虑利用小波技术对多重分形下实际网络流量的分析与建模进行研究,以此建立适合实际流量特性的网络模型。

参考文献:

[1]洪飞,吴志美.基于小波的多尺度网络流量预测模型.计算机学报,2006,1

[2]王伟,彭锡涛.基于mallat算法的自相似网络流量随机建模[J].计算机应用.2003:4-8

自相似网络流量模型研究 篇7

1994年Leland对Bellcore局域网的测试与分析成果问世以后,大量的业务流(如WAN、LAN、VBR及ISDN等)监测和分析相继表明,计算机网络上的各种业务,均呈现了统计自相似性(长相关性),即网络流量的时间序列存在着突发性。而作为计算机网络基础理论研究的前沿热点问题之一,网络流量统计分析、网络流量建模及网络性能评价也是现代通信网络规划与设计的基础。而与其相适应,基于自相似业务流的数学建模和排队分析已经成为当前网络性能评价和优化、流量控制和网络构建过程中不可或缺的方案实现要素,并且对网络规划、网络控制以及高质量的网络服务等方面的优势设置也有着重要的理论意义与现实应用价值。各种具有突发特性的业务源呈现出的自相似特性显著影响到网络的传输性能和流量控制策略,例如对时延、丢包率、吞吐量等网络性能指标的直接影响,正使得网络的设计、控制、分析和管理变得复杂。因而,只有对自相似流量下的网络性能进行正确的分析与评价,才能降低流量自相似性所带来的不利影响,使网络性能得到优化。另外,为了能够给丰富的新型业务提供强力支持,在对网络节点设备系统进行设计时,基于网络流量特性的有效性能评价将为整个系统性能指标的设计提供科学合理的计算方法。对自相似流量下的网络性能开展探索研究,则显得至关重要。而这也是本文的研究目标。下面将展开详细的分析与论述。

1 自相似基本理论

分形和自相似 (Self-Similar)[1]的概念最早形成于上世纪中期,源起于美籍法国数学家Mandelbrot对诸如海岸线长度,流体中的湍流、对流等非线性问题的研究。具有自相似规律的不规则事物称为分形(Fractals)。依据分形的自相似特性,分形主要有三类:由迭代函数系统定义出的精确自相似分形;由递推关系式定义出的半自相似分形;由不同尺度下保持统计测度的特性定义的统计自相似分形。三种分形约束依次递减。统计自相似最弱,是对自然分形对象进行定义分析的最基本约束。本文讨论的自相似就是统计自相似,又称为随机自相似。分形的度量称为分形维数D,主要有豪斯多夫维数(Hausdorff Dimension)、计盒维数(Box Dimension)和分配维数等定义方式,描述了分形空间特征。

作为分形的基本特性,自相似指的是复杂系统的整体与部分,一部分与其他部分之间在精细结构或性质上所具有的相似性。自相似具有伸缩对称性,即线性或非线性变换下的不变性,对分形对象进行放缩或者剪切等操作,只能改变其外部表现形式,而表征自相似特性的参数即分形维度则不会有任何变化。可以是在几何结构与形态、过程、信息、功能、属性和成分等表现形式上,可以是在时间、空间和数量等测度上,也可以是随机的、统计的、复杂的,但绝不仅仅是简单的按比例缩放后的重合。自相似随机过程是平稳过程。自相似性的数学表示为:

f (λr)= λαf(r)或者f(r)~ (1)

其中,λ称为标度因子(缩放因子),α称为标度指数(分形维数)。函数f(r)是面积、体积、质量、流等属性的一种可测测度。

时间序列在统计意义上的自相似(Self-Simalry,SS),可定义为:{X(t)}满足式(2),则称{X(t)}是统计自相似的过程。

X(t)~|λ|-HX(λt),t∈(-∞,+∞) (2)

其中,~表示统计意义上的同概率分布,λ是缩放比例,H 是赫斯特指数/系数(Hurst Exponent/ Coefficient)。

随机过程{X(t), t≥0}具有长相关性[2,3,4](Long Range Dependency,LRD) 或称长记忆性(Long Memory),如果满足:{X(t), t≥0}的自相关函数R(n)=E[X(t)X(t+n)]存在,且存在常数Cα,0<α<1,使得满足R(n)~Cnα,或者有limnR(n)Cn-α=1,同时有级数n=1R(n)发散,即n=1R(n)=。常常也可用n=1E[X(1)(X(n+1)-X(n))]=进行判定。

有些自相似过程具有长相关性,LRD反映了自相似过程中的持续现象,意味着未来的统计信息蕴含在过去和现在的信息之中,这种信息可以通过预测和估计实现和获得,实际网络流量业务的到达就是长相关的。在要求不是很严格的情况下(默认1/2<H<1),自相似和长相关可以用来描述同一个随机时间序列,只是两者的侧重点不同,SS侧重序列的数学相似性,LRD侧重序列的统计相关。LRD用来描述时空序列自相关函数的幂定律(Power Law)衰减特性,特性表现是慢于指数式衰减。其中,幂定律表征标度不变性(Scale Invariance),如给定函数f(x)=axk,对自变量的标度缩放常数因子λ,只是造成应变量按幂次比例λk缩放,即有f(λx)=a(λx)k=λkf(x)∝f(x)。与之相对,短相关(Short Range Dependency,SRD)或称无记忆性(Memoryless),描述的就是自相关函数的指数式衰减,意味着未来的统计信息只蕴含现在的信息之中,而和过去无关,实则就是马尔科夫性。一般情况下,采用自回归分数求和滑动平均过程离散式模型和分形布朗运动连续式模型来描述随机过程的长相关性。

赫斯特系数[5] 用于描述长相关时间序列的自相关性(Autocorrelation),用于表征时间序列是回归、平均还是聚集等相关趋势,而在分形理论中则表征分形的随机程度(Randomness)并直接依赖于分形维度,有H=2-DH的取值如下:

(1)0< H <1/2 表示负相关,表征时间序列中的一个高值之后是一个低值的可能性很高,低值之后又可能变为高值,这种高低值的交替的趋势很可能持续一段时间;

(2)1/2< H <1 为正相关,表征时间序列中的一个高值之后是另外一个高值的可能性很高,这种维持高值的趋势将很可能持续一段时间;

(3)H=1/2 表征没有相关性的时间序列,但是在很小的时间间隔中可以是正相关或者负相关,自相关数绝对值服从指数式衰减,不同于正负相关的幂定律衰减。

正相关时,H 越大,自相似程度越高。H越大,分形维度越小,曲线越粗糙;反之,H越小,分形维度越大,曲线越光滑。如图1所示。

在信号系统分析中,常常给出自相似的另外一种定义,是基于时间序列的。该定义在时间序列分析和预测中会经常用到。自相似的这一定义表述如下。

给定一个广义平稳随机过程(时间序列),X={Xn,n =1,2,…},对其进行非重叠的顺序分块,分块长度是m,得到Xn(m)=i=nm-m+1nmXi,n=1,2,3,,称为X的聚类(过程)。如果存在聚类使得,当m→∞,D[Xn(m)]=m2H-2D[Xn],1/2<H<1,则称X是自相似系数为H的严格二阶自相似过程。m称为聚类粒度,表征Xn(m)X的分辨率,m越大,分辨率越高,Xn(m)X越接近。如果随机时间序列聚类的统计特性不随聚类粒度的变化而有所变化,则称该序列是自相似的。

由定义可以看出,随机时间序列的聚类方差按照幂定律衰减,且衰减速率是-1<2H-2<0,将其称为聚类具有慢衰减方差(Slow Decaying Variance)。和泊松过程相比,该衰减较慢,泊松过程的聚类方差有D[Nn(m)]=m-1D[Nn]。现在已经知道方差可以描述时间序列的波动性,也就是可以粗略描述业务流的突发性。因此,可以断定自相似业务流的突发性比泊松过程突发性大。这就解释了为什么自相似过程即使在很大的时间单位下也会保持震荡,而泊松过程却趋于平滑,也从另一个角度展现了统计自相似不随时间尺度的变化而变化的独有特性。

2 网络流量模型

分析网络流量特征是探索网络的第一步,有助于根据网络特征设计合理的拥塞控制策略,也有利于完善进一步的网络仿真实验。

根据分析粒度不同,网络流量分析可分为以下几类[6]:

(1)位级(bit),主要分析网络流量的数据特征,如链路传输速率,吞吐量等;

(2)包级(packet),主要分析IP 分组的到达、延迟、乱序和丢包等;

(3)流级(traffic),主要分析流的到达过程、到达间隔及其统计特征;

(4)应用级(application),主要基于网络应用提供的服务使用情况,搜集和分析网民行为和网络经济收益,如网络视频收视、网络广告投放和网络搜索等信息,主要用于经济领域。

在科研领域,流级流量分析研究为主导。网络流量测量技术主要有两种:

(1)被动嗅探式,不注入数据包、精度高、耗费资源,诸如TcpDump、WinDump和WinPCap等;

(2)基于SNMP参数测量,主动发送数据包、精度低、且可扩展性高。

网络流量模型(Traffic Model)是网络流量统计特征的研究工具。通常,采用时间序列表示某个特定时间或时间间隔内到达的数据包数量,流量则为该时间段内的平均值。用数学语言来描述即可,在时间点上的一个观测值序列表示流量,这个观测值序列的时间尺度可以是毫秒、秒、分钟、小时等,流量的单位一般是字节每秒(B/s)。网络流量模型一直以来就倍受学者关注,各类相关模型都已很多。按照网络流量相关性特点可以分为短相关流量模型和长相关流量模型两大类。短相关流量模型的自相关函数随时间间隔的增加呈指数衰减。长相关流量模型的自相关函数则随时间间隔的增加呈幂定律收敛,而且比指数衰减要慢。

近年来,研究发现局域网和广域网的流量都呈现统计自相似特征。这种特性就决定了自相似业务流模型已经成为模拟实际网络流量的主要手段,有关这方面的研究较多,目前主要有两类[7]:物理模型和统计模型。物理模型的建立基于自相似过程的物理意义,对于自相似的成因和特点有较强的表现力,使用频度较高的物理模型是流叠加法的ON/OFF模型[8]、TES模型[9]、α-Stable业务流模型[10];统计模型的建立则基于长相关性随机过程,形式灵活,精度较高,常用的统计模型有FARIMA模型[11]、分形高斯噪声模型(Fractional Gaussian Noise FGN)[12]、基于小波变换或马拉特(Mallat)模型、基于混沌映射的确定性模型、散粒噪声模型等,甚至是多重分形[13]。这类模型能很好地说明网络通信量中出现的长相关和重尾等现象,但对于瞬时性能的评估却非常困难。除前面介绍的流量模型外,目前已在研究的模型还有,漏桶模型、瀑布模型[14]、季节性神经网络流量模型等。其中,漏桶模型比较适合于特定网络应用流量的分析。例如,VBR的多媒体模型[15]。但是,该模型难以反映网络流量实际变化中的突发特性,尤其是混合流的特性。

经过研究发现,有一随机过程BH(t),如果满足以下条件:

BH(0)=0,数学期望E[BH(t)]|T=0,协方差函数为Cov(t,s)=E[BH(t)BH(s)]=1/2(|t|2H+|s|2H-|t-s|2H),0<s<t<T,其中,T为考察周期。随机过程BH(t)为分形布朗运动(Fractional/Fractal Brownian Motion,FBM)。参数H(0,1),是赫斯特指数,用于描述分形布朗运动的分形特性,H越大,该运动轨迹越平滑。当0< H <1/2时,为负相关;1/2< H <1时,为正相关;H=1/2 时,退化为无自相似性的维纳过程。正相关时,表现出长相关性,且H越大,自相似程度越高,故H也称为自相似系数。

FBM具有自相似性,即BH (αt) ~ α2HBH (t),由于FBM的协方差函数是齐次的2H阶。

FBM具有平稳增量,即BH (t)-BH(s) ~ BH (t-s)。FBM是一个连续时间的高斯过程,且是唯一的一个具有自相似性的高斯过程。故增量过程X(t) =BH(t+1)-BH(t),t≥1可称为分形高斯噪声(Fractional Gaussian Noise,FGN)。其对应期望E[X(t)]=0,自相关函数R(n)=E[X(t) X(t+n)]=2-1[(n+1)2H-2n2H +|n-1|2H],n≥0,满足当n→∞,H≠1/2时,R(n)~H(2H-1)n2H-2,而当H=1/2时,则转化为白噪声(White Noise)。进一步可以得到,当1/2 <H<1时,分形高斯噪声X(t)正相关且具有长相关性。

通常情况下,FBM没有独立增量,故其不是Lévy和鞅的。并且,普通FBM也不是平稳过程,但标准FBM却是平稳过程。

FBM具有长相关性,这是因为,当1/2< H <1时,有n=1E[BΗ(1)BΗ(n+1)-BΗ(n)]=

FBM样本路径几乎处处均不可微(differentiable),然而基本上所有轨迹(Trajectory)都是少于H阶的任意霍尔德连续(Hölder continuous)。对于这样的轨迹, 存在一个常数c,使得任意ε>0,都有| BH (t)-BH(s)|≤c|t-s|H-εBH(t)曲线的Hausdorff维数和Box维数均为2-H

最为经典的FBM模型,当属由Norros提出的分形布朗运动模型[16]:

AΗ(t)=mt+maΖ(t),t(-+)(3)

其中,AH(t)表示t时间内到达的业务流,下文统一记为“A(t)”;Z(t)是标准的参数为H的分形布朗运动;分形布朗运动有3个参数,分别是:m>0表示平均发送速率;a>0表示偏差系数,H∈[0.5,1)为Z(t)的Hurst系数。Z(t)均值E[Z(t)]=0、方差D[Z(t)]=| t |2H,当H=0.5时,A(t)为无自相似性的布朗运动业务流。

3 网络自相似流量

因特网业务流量由响应业务流量(即TCP长流,Long Lived TCP Flows)和非响应业务流量(即UDP流和TCP短流,Short Lived TCP Flows)构成。有研究表明,Internet流量主要由TCP短流(如Web流量,HTTP应用)构成[17];TCP短流使得平均队列深度都表现出了类指数的特性。由此可知,应将短流的队列行为构设进入网络设计时的决策范畴[18]。2008年,IResearch咨询公司通过Cisco System 提供的数据统计结果表明, P2P和在线视频服务流量已经超过了网页浏览、电子邮件这些传统的网络服务, 正在占用越来越多的网络带宽。以2008年为例, 在线视频( 包括PC 和电视终端) 和P2P流媒体产生的数据流量已经占据全球互联网总流量的75. 9%,达到4 034 PB, 而当初预计到2012 年,这一数字将会继续上升至81.2%。另外,对等网(Peer-to-Peer,P2P)技术应用呈现了空前繁荣,如文件共享、协同计算、流媒体、IP-TV、VoIP语音视频通信及在线游戏等应用的陆续出现。基于实时性考虑,这些新兴应用协议多选择UDP作为其底层的传输协议,使得UDP流量呈上升趋势[19]。有研究分析可得,大概有30%-70%的网络流量产生于这种技术。而该技术又无疑带来日益增多的非响应业务流量(主要是UDP流)。因此则势必给网络流量的稳定性带来影响,而且也必将使路由器的排队性能面临严峻挑战。同时,文献[20]中基于对Internet 城域出口链路流量的准确测量,又一次提到了网络流量的短相关性不再明确,由此对于利用控制理论和排队理论开展AQM算法的性能分析制造了一定难度。

1994年,Leland等人发现了Bellcore的局域网网络流量具有自相似特性[21],开启了自相似网络流量的研究进程。此后,Paxson[22] , Crovella[28]等人分别验证了泊松采样测量的失效,表明网络流量具有广泛的统计自相似特性(Self-similar),从而诠释了马尔科夫链和泊松过程等短相关模型已不具说明功效的网络现象。其中的广泛性是指网络流量的时间序列在不同的时间尺度(毫秒~小时)上都存在着突发性。无论网络的规模、拓扑、应用、编码、传输介质如何变化,这种突发性始终存在。从某种意义来说,网络流量的突发性就是自相似特性的具体表现。而网络流量的自相似性质的发现,则成为网络测量领域和网络行为辨识方面的一个里程碑似的重大突破。其后,多种自相似模型相继引入,更新和拓展了人们有关网络流量特征的认识。自Taqqu等人提出实际网络流量呈现复杂的多重自相似[23]的理论后,基于网络多重自相似特征的研究已经日渐涌现[24,25,26],多重分形(Multifractal)业务流可以看成是多个基于不同网络应用的单分形业务流的合成和叠加。基于时间尺度对网络流量自相似的分析过程已变得越来越复杂,文献[27]就提出一种基于行为尺度的自相似,相关实验表明,在P2P业务流中存在时间尺度上的多重自相似,虽然简单的自相似无法描述,却存在较完美的行为自相似,即基于网络应用角度的网络行为(不同数据包收发粒度)的自相似。目前,已将基于多重分形的网络流量建模和网络性能评价确定为自相似网络的研究方向。

4 网络流量自相似性成因

关于网络流量自相似的成因,当前的解释很多。大致可以归纳为两个:网络文件的重尾分布[8,23,28,29] 和TCP的拥塞控制机制[30,31]。

Willinger等人认为计算机网络文件大小服从重尾分布是导致网络流量自相似性的主要原因。首先,可以把网络中端到端的链接看做是一个ON/OFF源,其中,ON对应有数据包发送,为链接忙时间,OFF对应无数据包发送,为链接闲时间,在网络流量足够大,网络链接足够多时,可认为这些ON/OFF源是独立同分布的;又由于忙时间和闲时间的持续都可能很长,且难以忽略,即呈现“Noah”效应,从而可以用重尾分布描述这些时间间隔。其次,Web文件(或者视频流文件)大小的分布(包括用户请求的文件、实际传输的文件、服务器端存储的文件等)服从重尾分布,使得网络传输时间具有无限方差,即服从重尾分布,从而导致整个链路层上的自相似;用户的想时间(think time)的重尾分布进一步导致了网络空闲时间服从重尾分布,并且ON状态比OFF状态还要重尾。大量重尾分布的ON/OFF源的聚合就产生了自相似性。最后,可靠的传输机制和流量控制机制又保留了由文件大小重尾分布所引发的长相关性——注意无流量控制和不可靠的UDP并未使得生成的流量具有长相关性。况且对流量自相似的估计并不因网络拓扑结构变化而改变,或者说自相似网络流量经过网关路由的转发处理并不能削弱自相似性。一个自相似过程的分支仍然是自相似的,若干个自相似过程的聚合也仍然是自相似的。网络业务流一直存在自相似性,不仅不会随着业务的聚合和分支而削弱,反而自相似系数还会增大,并使得自相似统计特征变得愈加复杂,由此产生了多重自相似。

Veres等人认为,TCP的拥塞控制机制亦是流量自相似特性的可能成因。文件的可靠性传输,也就是重传机制(Retransmission),即使改变其参数,如缓存大小、重传预定的次数和超时时限,也不能改变重传负载的自相似特性;同时,也并不随着网络源、拓扑、业务流汇聚和到达间隔时间分布的变化而变化;此外,还存在着传输层流量控制机制和可靠传输对网络流量的整形。当时间尺度超过10倍的数据包传输时间,重传数据包流量的方差将在总的流量(新数据包、重传数据包和丢失的数据包)中占据绝对优势成分,这就意味着极大的突发性,从而在某种程度上使得单个的TCP流量符合渐进自相似(H>0.5)。虽然在瓶颈缓存处堆叠的TCP流量是短时相关的(H≈0.5),但TCP拥塞控制可使瓶颈缓存占用率最大来平滑流量,堆叠的流量得到平滑,并在TCP拥塞控制和具有重尾特性的上层协议的共同作用下,使得堆叠的网络流量仍然显现了长相关性。TCP拥塞控制中包括着混沌特性,诸如:非线性(Nonlinearity)、确定性(Determinism)、混乱中的有序(Order in disorder)、对初始状态的敏感性(蝴蝶效应)(Sensitivity to initial conditions or the “butterfly effect”)、不可预见性(Unpredictability)。系统在特定的参数下产生自相似时间序列,从周期性到产生明显的混沌现象:对初值敏感,流量在广泛范围内具有自相似性,甚至是多重分形。周期性是由于流量数据的周期采集而引起,或者是由人们上网的行为习惯所引起。混沌性完全从网络流量自相似的频谱角度而进行更为完全的解释。由此得出,TCP本身就是一个产生自相似结果的确定性过程。

5 自相似网络流量的仿真和生成

5.1 赫斯特指数估计

Hurst指数估算有很多方法,可分为时域和频域两类,较为常用的有重标极差(Rescaled Range,R/S)分析法[32,33]、方差时间图(Variance Time Graph,VT-G)法[34]、留数法(Variance of Residuals,Res)[35]和绝对值法(Absolute Moment,Abs)[36]等时域算法;以及Whittle法[37]、小波基(Wavelet-transform Based,WB)法[38]和周期图法(Pariodogram Graph,PG)[39]等频域算法。其中,各算法的时间复杂度分别是: R/S法、Res法和Whittle法的结果为O(N2),WB法和PG法为O(Nlog(N)),而VT-G法和Abs法则为O(N2)[36]。文献[40]对这几种常见的算法进行了分析比较,并给出了各算法的时间复杂度;同时,进一步指出VT-G法、Abs法等聚类方差法(Aggregated Variance)[41],计算速度较快,结果相近;PG法在实现时可借助快速傅利叶变换来提高算法的速度;Res法和R/S法的速度相对较慢,但结果精度则相对较高;小波法虽然速度较快,实现过程却相当复杂。当H>0. 80以后,对FGN序列的时域方法估计值将失准且偏低,但频域方法估计值却仍能保持较高精度。文献[42]中,通过一系列实验也指出,时域类的方法性能全部都要低于频域类算法。而在频域类算法中,Whittle法的精度最高。文献[43]还指出,在人工合成数据序列下,各估算算法均表现良好,但在真实数据流的情况下,算法准确度却集体下降,这可能和真实数据的多重分形特性有关;另外,在突发噪声干扰下,对时域类算法的精度影响较大,而对频域类则具有较好的鲁棒性,加入现有滤波器技术也不能有效改进算法的精确度;建议研究者们避免采用单一算法,导出相应结论。目前,国内提出的最新计算方法主要有滑窗时变方差之差法[44]、局部Whittle法[45]、基于混合FBM的二次变差矩估计法,而国外提出的最新计算方法则有最大似然估计法(Maximum Likelihood)[46]、基于小波的变方差(Time-Varying)法[47]和基于FBM的锥多元自适应回归曲线法(Conic Multivariate Adaptive Regression Splines,CMARS)[48]。综上所述,时域算法大部分是通过作图估计H,精确度普遍不高,且需要较大样本空间(一般大于10 000);频域算法则只需要很小的采样序列即可,而且精度较高。

限于篇幅,此处仅粗略描述两个算法,以供诸位研究同仁参详与考量所用。具体内容如下。

首先,介绍一下最简单的算法VT-G法。给定一个时间序列X={Xn,n =1,2,…}, VT-G法主要是利用公式D[Xnm]~m-βD[Xn],m→∞计算聚类方差,以此描绘得到方差的log坐标系图线,其拟合直线斜率即为-β,0<β<1,进而求得H=1-β/2。有时候也可用β来描述自相似程度。

然后,是应用最为广泛的R/S法。给定一个时间序列X={Xn,n =1,2,…}计算重标极差序列如(4)所示,并计算重标极差期望E[R(n)/S(n)]。Wallis已证明当t趋于无穷大时,E[(R/S)t]~C*tH。依据幂定律拟合数据估算Hurst系数。实际操作时,可以在log-log象限中作出重标极差期望的时间曲线,其拟合直线的斜率即是H

R(n)S(n)=max{0,[i=1kXi-km}-min{0,[i=1kXi-km]}1ni=1n(Xi-m)2,m=1ni=1nXi(4)

5.2 分形高斯噪声

在已有的流量模型中,分形布朗运动(FBM)模型是最简单、最易于求解的自相似业务流模型。由于分形高斯噪声(FGN)是FBM的增量过程,故常常使用FGN生成FBM流量[49]。通过利用分形高斯噪声合成近似分形布朗运动网络业务流的快速技术主要有[50]:随机中点置位法(Random Midpoint Displacement),连续随机添加法(Successive Random Additions)和浮动比例法(Floating Proportionality)。更多关于分形的生成算法可参见文献[51]。近年来,还有一些其他生成自相似网络业务流的方法,诸如基于一般化柯西过程(Generalized Cauchy Process)的模型[52]。

当今,采用一种基于循环嵌入法(Circulant Embedding Approach,CEA)[53]的快速傅里叶变换(Fast Fourier Transform,FFT)[54]方法来生成FBM业务流,则是一种最快的算法。Perrin在文献[55]中已经验证了CEA算法生成分形高斯噪声是一种最优方案。考察不同的H生成的FBM,可知H越大,分形维度越小,生成曲线越光滑。生成曲线效果如图1所示。

6 展望

目前,自相似网络流量研究主要有三个方面:分析网络流量的统计特征并实现建模,包括“可信的”网络流量生成模型[56,57]和“可靠的”网络流量预测模型的构建[58,59]。其中,小波基(Wavelet Based)分形理论[60,61]和多重分形(Multifractal)模型[62,63]成为难点和趋势;基于自相似网络模型评估自相似流量对不同网络的各种性能影响[64,65];网络自相似或者长相关的成因[66,67]。自相似网络诸多问题还末得到彻底解决,很多问题尚处于讨论阶段,研究成果分散繁杂,也没有形成较为一致、清晰、且完整的体系,亟需进一步投入,加大研究发展力度。到目前为止,也还没有取得一个统一的、公认的数学模型来描述自相似网络流量。

7 结束语

本文从分形和自相似理论基础引入,主要介绍了网络流量的自相似特征以及形成原因;为了更深刻地认识网络流量特征,进一步介绍了常用的网络流量模型;最后对自相似业务流量的合成在Matlab中进行了仿真实现。借助本文,相信能对网络自相似形成了一个较为系统的认识。

网络应用流量模拟技术 篇8

近年来, 随着互联网用户的剧增及对网络带宽需求的不断增大, 网络互联设备的转发速率也越来越大, 网络安全事件和威胁层出不穷, 基于网络数据分析的网络防病毒[9,10]、网络数据内容审计[11,12]、入侵检测系统等网络数据处理系统面临着巨大挑战, 因而对这些网络安全数据处理系统的功能和性能测试具有十分重要的意义[13,14,15,16,17,18,19,20,21,22,23,24,25,26,27]。网络数据流量生成作为网络性能测试中的关键环节之一, 一直是网络测试中热点研究问题。

目前, 对于网络数据处理系统等安全产品的测试大都是采用背景流量与测试流量混合的方式[28,29]。背景流量生成主要采用真实流量回放或专业测试仪定制流量的方式。当采用真实流量作为测试流量时, 由于无法预知真实流量的构成, 无法判断对网络安全产品测试结果的影响;当采用专业硬件测试仪定制流量时, 例如Ixia公司的Breakingpoint或Spirent公司的Smartbits等主流专业硬件测试仪能够定制产生大流量高带宽的网络流量, 精确定制产生的带宽、数据报文长度和数量等恒定的网络数据流, 但很难构造出含不同定制内容的大流量网络数据以及很难反应真实网络数据协议的多样性。

当前国内外对网络数据流量生成系统进行的一些研究文献, 侧重点各不相同。廖有清等人[1]结合FPGA硬件逻辑实现网络流量生成与发送功能, 这类系统一般都是基于流的思想生成流量, 采用均匀流和线性突发流两种流模式生成网络数据流量。张铮等人[2]主要对流量生成方法进行了研究, 基于IXPBTG平台提出了3种不同的流量生成算法。另外, 网络流量速率的控制也是流量生成的重要组成部分, 吴长宇等人[3]对不同协议的流量设计了速率控制算法。

同时, 一些流量生成工具也相继出现, Danzig和Jamin曾经介绍过网络流量模拟工具Tcplib[4], 它可以产生真实的TCP/IP网络流量, Tcplib是一个应用层模型的流量生成器, 它能产生五种不同类型的网络流量, 包括FTP、SMTP、NNTP、TELNET以及RLOGI。Sommers和Barford设计了一个与应用无关的网络数据包产生工具Harpoon[5], Harpoon可以产生与真实网络流量在内容、长度、时间、空间上具有相同分布特征的TCP、UDP等协议类型的数据包。Harpoon的显著特征是可以自动地从真实网络流量中提取特征参数, 用于配置网络流量生成模型。此外, Barford和Crovella研制了针对Web服务器进行压力测试的工具SURGE[6], SURGE可以用来产生背景网络流量。Net IQ公司的CHARIOT软件工具是目前世界上比较认可的应用层IP网络及网络设备的测试软件, 可提供端到端、多操作系统、多协议测试和多应用模拟测试。其基本原理是通过产生模拟真实的流量和采用End to End的方法测试网络设备或网络系统在真实环境中的性能。CHARIOT能提供多达10000个并发连接, 能更好的模拟真实环境对设备及网络进行全面的测量, 被广泛应用在SWITCH, ROUTER, WIRELESS, Qo S, MULTICASTING及网络等方面的功能和性能测试。还有一些流量产生器是基于libnet编程实现的, libnet接口函数库提供了低层网络数据包的构造、处理和发送功能, 权东晓等人[7]通过实验结果表明基于libnet编程相比于利用socket编程可以产生更高效率的网络流量。

上述流量生成系统或流量生成工具无法具体到应用协议内容, 无法构造包含特定内容的网络数据流量。本文基于现有数据流量生成方面的研究, 设计并实现了典型网络应用流量生成系统, 该系统可产生含特定内容的HTTP、FTP、SMTP、POP3、IMAP、DNS等典型应用协议的完整数据流量, 可以模拟用户访问特定网络应用, 并且能够构造含有特定内容的网络数据。

1 系统总体设计

本文将详细介绍网络应用流量模拟系统的功能和组成结构, 以及通过系统功能组成模块实现各协议数据流量生成的工作流程。

1.1 系统功能介绍

本文的流量生成系统主要完成了常用应用层协议流量的模拟, 基于标准RFC2616、RFC959、RFC2821、RFC1939、RFC1034分别产生HTTP、FTP、SMTP、POP3/IMAP和DNS协议网络数据流量。对于HTTP协议, 系统可以通过构造并访问含特定内容的网页, 产生HTTP协议流量;对于邮件协议, 系统可以构造含特定内容的收发件人地址、邮件主题、邮件内容、邮件附件名、邮件附件内容, 产生SMTP、POP3、IMAP协议流量;对于FTP协议, 系统可以构造含特定内容的FTP文件名、FTP文件内容, 产生FTP协议流量;对于DNS协议, 系统可以对指定域名进行A类型、AAAA类型、PTR类型查询, 产生DNS协议流量。

相比于其他流量生成系统, 网络应用流量生成系统的主要特点为:可定制特定内容、产生IPv4/IPv6流量、多用户并发模拟。

首先, 一般网络安全设备的测试软件 (流量生成系统) 难以构造特定内容的数据报文, 对于基于内容的攻击, 不能满足网络安全设备的测试要求。相对于真实的网络流量内容的不可预知性, 本系统可以产生可定制内容的特定网络协议的网络数据流量。其次, 当前大部分流量生成系统是基于IPv4网络环境的, 由于IPv4和IPv6网络将会在相当长的一段时期内共存, IPv6环境下数据流量的生成显得尤为重要, 本系统能通过隧道 (TEREDO、ISATAP和6to4) 技术、地址翻译 (IVI、NAT64) 技术或代理技术实现IPv4和IPv6互访, 产生IPv4、IPv6混合流量。并实现了客户端可通过模拟用户上网的PPPo E或IPo E方式连接外网, 并可实现模拟多用户并发产生各应用协议数据流。另外, 通过修改程序配置文件, 系统能灵活生成各种协议测试流量, 如不同协议类型、不同应用层协议内容大小、不同的测试周期等, 从而能有效的模拟各种用户访问网络应用的场景。

本系统在功能实现方面, 完全可以对基于内容的常见网络应用协议数据流进行模拟, 从而更加有效的完成对网络数据处理系统功能和性能的测试。

1.2 系统工作流程

网络应用流量生成系统的操作用户可以在客户端上配置用户行为规则, 如图1客户端中有4大块服务种类:WEB页面访问、FTP文件传送、邮件收发、DNS查询。右侧服务器端提供HTTP、FTP、SMTP、POP3、IMAP、DNS服务。用户将不同协议规则下发到My Sql数据库中, 系统的功能组成模块 (1.3节详细说明) 查询数据库, 模拟用户访问右侧应用服务器, 产生含有特定内容的各协议网络应用流量, 并使之通过中间待测网络安全设备, 完成系统测试验证。程序运行结果文件会上传到指定日志服务器中, 用户可在服务器端的日志服务器中查看程序运行结果日志文件。

1.3 系统功能组成模块

网络应用流量模拟系统的主要功能组成模块包括数据库配置接口模块、特定内容配置解析模块、代理配置和网络接入模块、运行调度模块、用户模拟平台模块以及日志处理模块, 各功能模块之间协作关系如图2所示。

数据库配置接口模块从数据库的规则下发表中读取下发的任务需求, 并将规则中的各个特定内容进行拆分, 构建任务内容, 根据任务内容选择协议类型和IPv4/IPv6互访方式。

特定内容配置解析模块负责HTTP协议、邮件协议、FTP协议及DNS协议具体数据报文内容, HTTP协议:配置特定内容到网页内容中, FTP协议:配置特定内容到FTP文件名中或FTP文件内容中, 邮件协议 (SMTP、POP3、IMAP) :配置特定内容到邮件地址、邮件主题、邮件内容、邮件附件名、邮件附件内容中, DNS协议:配置特定的域名或IP。此模块明确了特定协议数据流量的内容, 生成特定应用数据, 是用户模拟平台模块正常运行的关键前提。

代理配置和网络接入模块实现IPv4和IPv6互访功能, 其中代理配置包括Socks代理、本地代理、网页代理, 都需要提供代理服务器的IP地址和端口号, 主要用于HTTP协议的测试;网络接入分为地址翻译 (IVI、NAT64) 和隧道 (6to4、TEREDO、ISATAP) 两部分, 主要用于FTP协议、邮件协议、DNS协议的测试。

运行调度模块根据选择的IPv4/IPv6互访方式, 接收数据库配置接口读取的规则任务, 开启相应的线程, 对于多任务可并发开启多线程, 根据读取的任务开辟新的线程并根据用户下发协议测试规则类型选择相应用户模拟平台, 产生相应的特定网络应用流量。

用户模拟平台是实现协议流量的主体功能部分[30,31,32,33,34,35]。对于HTTP协议, 系统调用HTTP协议实现模块, 向服务器端上的Apache服务软件发起请求, 然后模块封装HTTP请求报文, 发送请求并接受响应, 最后分析返回的数据报文, 判断是否完整接收到此网页。对于FTP协议, 用户可以定制下发规则, 指定特定内容存放在FTP传输文件的文件名中或者文件内容中, 然后系统调用FTP协议实现模块, 构造相应的txt类型的文档, 形成FTP协议数据流。同理, 对于邮件协议, 用户可以指定特定内容包含于邮件收发件人地址、邮件主题、邮件内容、邮件附件名或邮件附件内容中, 系统则会调用SMTP、POP3、IMAP协议实现模块按照标准邮件RFC协议构造相应的邮件, 完成邮件发送和接收, 从而形成这3种协议数据流。对于DNS协议, 用户可以指定需要解析的域名或IP地址, DNS协议实现模块会完成域名的A和AAAA记录查询以及IP地址的PTR记录查询, 进而生成DNS协议数据流。

日志处理模块将用户模拟平台模块的处理结果封装成UDP报文, 包含规则ID、规则类型、测试时间、结果判断、上传文件名等字段信息, 发送到日志接收方, 并将测试结果文件上传到FTP服务器。

2 实验测试

在构造的实验环境中, 对系统产生各协议流量的功能以及并发性能进行实验测试, 验证能够产生的特定网络应用协议报文符合标准RFC的规定, 同时验证能够生成特定内容的网络数据。

2.1 测试环境

网络应用流量模拟系统的客户端和服务器端采用相同配置的物理机:Redhat6.2操作系统, Linux2.6.32-220.el6.x86_64内核版本, Xeon E5645型号CPU, 2400MHz主频, 32GB内存, 千兆网卡。

系统协议验证图如图3所示, 系统部署在左侧客户端服务器上, 通过中间路由设备访问右侧服务器端, 可产生大量含特定内容的不同协议数据流量, 同时利用网络流量验证系统捕获协议数据包。其中, 右侧服务器端需事先安装APACHE、VSFTP、POSTFIX、DOVECOT以及BIND服务软件, 分别提供HTTP、FTP、SMTP、POP3、IMAP、DNS服务。

2.2 系统功能实测

真实网络中的流量环境非常复杂, 各种网络协议都有使用, 我们目前根据标准RFC实现常用网络应用协议流量的模拟, 我们首先验证系统能否产生标准的5种应用协议数据流, 然后验证构造的网络应用数据流中能否含有用户配置的特定内容。

2.2.1 协议测试

本文采用的网络流量验证工具是网络封包分析软件Wireshark, 它是目前世界范围内应用最广泛的网络协议解析软件之一, 其不修改网络封包内容, 仅反映出目前流通的数据包信息, Wireshark本身也不提交数据包至网络上, 所以借助Wireshark工具能够验证系统产生的协议数据流量的准确性[8]。

运行系统程序, 同时使用Wireshark对网络环境中系统产生的流量数据进行统计和分析, 监测结果如图4所示。

图4中的线是由点组成, 每个点表示在1s内抓到的所有数据包数目, 每个图形都可以应用一个应用协议过滤条件, 这里创建了5个过滤条件, 分别识别HTTP、SMTP、DNS、FTP、POP3五种协议, 不同的颜色区分不同协议图形, 实验证明系统完全能够正确模拟产生常用应用层协议流量。

2.2.2 特定内容测试

1) HTTP协议:用户配置HTTP协议特定内容为kkkkkkkkk, 利用Wireshark抓取的测试结果如图5所示, 可以清晰地看到网页BODY中红框标出的特定内容。

2) FTP协议:系统实现了FTP文件名和文件内容中特定内容的配置, 用户配置的FTP协议文件名中特定内容为pppppp, Wireshark抓取的测试结果如图6所示, 可看到txt文件名中红框标出的特定内容。

3) SMTP、POP3、IMAP协议:系统实现了邮件地址、邮件主题、邮件内容、邮件附件名、邮件附件中特定内容的配置, 用户配置邮件主题中特定内容为AAAAAA, Wireshark抓取的邮件协议测试结果如图7、图8、图9, 可以看到Subject中红框标出的特定内容。

4) DNS协议:系统实现了对特定域名的A记录、AAAA记录查询和特定IP的PTR查询, 图10是对指定域名www.google.com的A记录查询结果。

2.3 系统性能实测

当产生大流量的特定内容的网络流量时, CPU、内存等是制约系统性能的因素, 下表是在该系统模拟大流量网络数据时实际测试的各协议最大并发连接数和占用客户端机器的CPU、内存情况。

3 结束语

网络应用流量模拟系统能够模拟用户上网的PPPo E或IPo E方式连接互联网的接入方式、模拟IPv4和IPv6网络互访的应用场景, 构造产生IPv4、IPv6以及IPv4/v6混合流量的实验场景, 实现典型网络应用的流量模拟。

实验结果表明, 本文提出的网络应用流量模拟系统, 模拟产生的特定网络应用层数据流量符合标准RFC规定, 而且能够产生含特定内容的HTTP、FTP、SMTP、POP3、IMAP、DNS协议的数据流量, 能够实现基于内容的网络数据流模拟, 可用于网络流量处理系统的功能测试和验证。

摘要:当前网络安全设备的测试软件可以产生大流量的网络数据流, 但难以构造大流量特定内容的应用协议流量, 因而不能很好满足基于内容检测的网络安全设备的测试要求。本文所提出的网络应用流量模拟技术, 能够模拟用户上网的PPPo E或IPo E方式连接互联网的接入方式、模拟IPv4和IPv6网络互访的应用场景, 可以模拟用户访问特定网络应用, 产生HTTP、FTP、SMTP、POP3、IMAP、DNS等典型应用协议的大流量完整数据流量, 并且能够构造含有特定内容的网络数据。实现的系统还可以通过隧道、翻译或代理技术实现IPv4和IPv6互通, 产生IPv4和IPv6网络数据流量。通过大量实验验证, 系统能正确生成上述协议数据报文和含有特定内容的网络流量。

浅析如何应对网络爬虫流量 篇9

随着科技的发展,大众正面临着一种信息爆炸的局面。在巨量数据面前,大众面临着一种尴尬局面,那就是互联网中有大量的对自己有用的数据,但是怎样能正确和便捷的获取到这些数据存在着困难。搜索引擎的出现很好地解决了这种局面,让大众通过搜索引擎搜索自己想要的数据。在互联网的搜索引擎和网站中,目前最常用的是网络爬虫技术。任何事物都有正反两个面,网络爬虫的出现也印证了这个说法。网络爬虫在给人们提供搜索便利的同时也占用了大量的网络带宽,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级,因此应对网络爬虫是一个值得网站开发者长期探索和解决的问题。

2 网络爬虫概述

网络爬虫也被称为网络机器人,是一种能够“自动化浏览网络”的程序,通过它可以在互联网上自动抓取内容。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。早期的爬虫主要功能是索引网站中的文本内容,随着技术的发展,爬虫的功能也越来越强,例如对图片、视屏与内容的关联,对各种数据格式(如doc、xls、pdf)的解析等。

有关分析数据显示,网站流量中有高达60%可能是由网络爬虫产生的,而这些爬虫则是由用户或其他程序控制,并可能模拟人类的Web访问行为。几乎所有在线业务都可能受到各种类型的爬虫流量的影响。这可能包括抓取内容或价格信息的爬虫、购买限量供应商品及服务而使合法客户无法正常购买的“交易”爬虫、用欺骗手段增加广告收入的自动“点击”爬虫等。另外,因为搜索引擎的流行,网络爬虫实际已经成了应用很普及的网络技术,除了专门做搜索的Google、Yahoo、微软、百度等公司以外,几乎每个大型门户网站都有自己的搜索引擎,除此以外数量繁多的中小型网站也都有自己的搜索引擎,所以说对于处于互联网中的网站来说,受到网络爬虫的光顾是不可避免的。对于一些技术成熟且智能化水平高的搜索引擎来说,爬虫的爬取频率设置比较合理,对网站资源消耗比较少,但是很多设计水平差的网络爬虫,其对网页爬取能力很低,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站的影响往往是致命的,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强。

3 网络爬虫流量的应对措施

3.1 手工识别拒绝爬虫的访问

这种方法主要是针对爬虫的来源IP进行封堵,通过netstat检查网站主机的80端口,察看80端口的IP连接数量,通过连接数量的多少确认网络爬虫的来源IP,这种方法主要应用了网络爬虫并发连接数量非常高的特点。在确定来源IP后可以通过防火墙来拒绝网络爬虫对网站的访问。

3.2 通过User-Agent信息识别爬虫

网络爬虫并不是全部具备高并发连接的特点,有时候网络爬虫并不会采用高并发来进行网站内容的爬取,这样一般不容易通过手工方法识别;同时有些网络爬虫来源IP分布范围很大,很难采取封锁IP段的手段来解决问题。它们通常采用以爬虫数量取胜的方法,即通过大量爬虫分别有限爬取网页的办法,这些小爬虫单独爬取的量都不高,所以很难准确识别其IP。这种情况下我们可以通过User-Agent信息来识别爬虫。这是应用了爬虫在爬取网页时会声明自己的User-Agent信息,我们通过分析User-Agent信息来识别爬虫。这种方法实施简单效果也非常好,它可以对特定的爬虫进行封锁,也可以对编程语言中的HTTP类库进行封锁,这样可以避免无用爬虫对网站的影响。同时我们还可以采用一种更高级一点的方法在不封锁特定爬虫的情况下,通过降低爬虫的请求频率来减轻爬虫对网站性能的影响。

3.3 通过网站流量统计系统和日志分析来识别爬虫

有些爬虫会通过修改User-Agent信息来伪装自己,把自己伪装成一个真实浏览器的User-Agent信息。这种情况下我们就无法通过User-Agent信息识别爬虫了,但是我们可以通过网站流量系统记录的真实用户访问IP来进行识别。

当前主流的网站流量统计系统经常采用两种实现策略:一种策略是在网页里面嵌入一段JavaS cript代码,这段Java Script代码会向特定的统计服务器发送请求的方式记录访问量;另一种策略是直接分析服务器日志,来统计网站访问量。一般情况下,嵌入JavaS cript代码的方式统计的网站流量应该高于分析服务器日志统计的网站流量,这是因为用户浏览器会有缓存,不是每次真实用户访问都会触发服务器的处理。

在进行服务器日志分析时,我们可以采用服务器日志分析软件,好的分析软件可以使我们的分析工作进行的事半功倍。通过日志分析软件的分析和识别功能,可以对网站的IIS、Apache、Nginx等进行识别和分类分析并给出分析结果。

通过流量统计系统一般可以得到用户真实的访问IP。正常情况下爬虫是无法执行网页里面的Java Script代码片段的。所以我们可以用流量统计系统记录的IP与服务器程序日志记录的IP地址进行比对,如果服务器日志里面某个IP发起了大量的请求,在流量统计系统里面却根本找不到相关的记录,或者能找到访问量却与服务器日志里面的统计量出入很大,那么基本可以确定这就是网络爬虫。

3.4 通过设置网络策略实现网站实时反爬虫

通过分析日志的方式来识别网页爬虫只是一种被动的防爬虫方法,它永远滞后与爬虫带来的危害,通过防火墙可以实现一个实时的反爬虫策略。如果一个恶意爬虫非要针对某一网站进行蓄谋的爬取,那么它完全可能会采用分布式爬取的策略来进行,比如通过成百上千个代理服务器对目标网站进行大频率的爬取,从而导致目标网站无法相应正常访问,那么再进行日志分析解决问题就显得非常被动和应对滞后。所以必须采取实时反爬虫策略,要能够动态的实时识别和封锁爬虫的访问。

4 结论

科学技术总是在不停地往前发展,这些技术就像矛和盾,总是存在此消彼长的状态,随着技术的进步,攻与防的战斗也在向纵深发展。对于网络爬虫不能只是一味地封堵,比较可行的方法是进行疏堵结合,通过更全面的超越简单拦截的多样化策略,更好地控制爬虫流量,将其负面效应减到最低状态。

摘要:网络爬虫是搜索引擎和网站常用的搜索技术,它在为用户提高高效便利的搜索服务的同时也产生了大量的网络流量,这些大量的网络流量既占用了网络资源,又对网站性能产生了负面影响。对于内容驱动型网站而言,网络爬虫的造访是无法避免的,但可以通过分析网络爬虫的特点进而采取相应的应对措施。

关键词:网络爬虫,User-Agent,网络策略

参考文献

[1]詹恒飞,杨岳湘,方宏.Nutch分布式网络爬虫研究与优化[J],计算机科学与探索,2011(1).

基于网络流量的特征分析 篇10

1 多尺度下网络流量研究的必要性

由于网络系统的设计和网络流量的特征具有直接关联,那么对网络流量进行研究,其实质也是对网络系统构建的研究。但是,由于网络系统存在一定区别,在不同尺度下有着不同的要求和限制,这也就要求相关的研究工作应该在多尺度的环境中进行,从不同的角度对网络流量的特征进行研究,具有不同的作用。

研究网络流量,首先需要明确测量尺度的定义,由于流量特征研究的直接对象是数据包,那么其对应的测量尺度应该从数据包的层面进行制定。通过相关研究显示,数据包可以通过不同的表现形式达到序列,因此可以通过两种形式对网络特征分析的尺度进行界定,一种是数据包的个数,一般可以记为#pkt,另一种是数据包之间的时间间隔,一般记为#time。如果尺度标准是#pkt,在对连续的s个数据包进行汇聚之后,可以得到一个全新的序列,s就是相应的测量尺度。如果将时间间隔作为尺度标准,在固定的间隔t内可以获取一定的汇聚数据包,进而得到相关的新序列,这时t就是对应的尺度标准。

在小尺度条件下,对于全新的应用层业务,网络流量的特征分析时比较缺少的。尤其是相关研究证明在比较宽的时间尺度范围内网络流量特征具有很高的相似性之后,对小尺度下的网络流量特征研究就逐渐缩减了。但是,根据网络流量在网络设计不断发展中所表现出的实际情况看,在小尺度条件下对网络流量进行研究其实更具价值。

在大尺度条件下,网络流量的研究工作开展较多,但是结合网络发展的速度和规模而言,大尺度条件下的网络流量研究尚显不够,研究内容也不全面。在网络应用不断复杂化的情况下,大尺度条件的网络流量特征研究遭遇了更多的阻碍,更加难以得出具有代表性的研究结论,无法统一具体的研究成果。比如,高速链路的研究成果在低速链路中不一定适合,大规模网络的经验理论也未必符合小规模网络的实情,企业网的结论也不一定符合校园网。因此,需要在多尺度下对网络流量的特征展开更加全面的研究,以促进各方面的研究工作。

2 多尺度下的网络流量特征分析

2.1 多阶段应用层流量识别

各种新业务的出现对网络的发展起到了积极的促进作用,也对网络流量的变化和构成产生了不小的冲击。在多阶段应用层进行流量识别,其主要包括了4种技术手段,分别是静态端口识别、数据包载荷识别、主机连接识别以及统计模型流量识别。

静态端口识别主要是对发生数据传输通信的双方进行流量识别,如果发生通信的两方是通过缺省端口进行的,那么就可以认为其使用了应用连接,其对应的流量就是该应用的流量。

数据包载荷识别主要是对存在于数据包中的特殊字符串进行判定,以此识别对应的P2P(Peer to Peer)对等网络流量。在特殊字符串和P2P应用的某些特征能够形成匹配时,就可以判定该数据包是通过P2P应用形成的,其对应的连接也可以被认定为P2P连接。常用的P2P协议特殊字符串主要有5种,分别是Bit Torrent,Kazaa,Direct Connect,e Donkey以及Gnutella等。基于这5种常用的字符串形式,就可以对数据包载荷中的大部分特殊字符串进行识别,从而判定其性质。

主机连接识别主要是对流关系进行分析,以此对主机连接所表征出的具体协议类型进行判定。基于P2P应用的连接特点,主机连接识别被提出了两种启发方式,进而实现从3个层面对网络流量进行深度识别,即从应用层次、功能层次和社会层次这3个方面识别网络流量的具体特征。

统计模型流量识别是在Bayes理论基础上提出的,但是这种方法目前仅仅用在分类研究上,还没有在实际网络的监测工作中进行应用。根据相关实践证明,统计模型流量识别可以准确得到流级66%,字节级84%的准确度。如果对网络流量的属性进行预先处理,对部分低区分度的属性进行剔除,那么可以进一步将准确度提升到93%以上。值得注意的是,运用该方法时应该注意两个基本点,一是区分度之间必须具有良好的独立性,二是应该具有一个较大的trace数据。

2.2 小尺度下的Hurst指数叠加效应

在小尺度下对网络流量特征的研究,很长一段时间都处于空白状态,因此,需要加强小尺度下的网络流量特征分析,以便对不同应用层业务所产生的流量进行辨识。Hurst指数叠加效应就是在小尺度条件下研究网络流量特征的一种有效手段,其相关概念提出于20世纪60年代,具体内涵为在空间或者时间尺度上,对随机过程进行缩放,某些过程不会产生变化,其表现出了长相关的特点。从客观角度看,并不存在严格意义上的自相似,但是在通信领域对自相似存在多种不同的定义,这些定义在不同场合所表征的结果是不一样的。利用Hurst指数对网络流量特征进行分析,需要明确其基本的估计方式,严格说来,自相似是一种属于主观世界的产物,对客观世界的规律和认知不存在较大意义。所以,虽然Hurst指数具有数学上的定义和实际形式,但是想要通过它辨识网络流量的特征还具有一定的困难。基于Hurst指数的网络流量特征分析手段可以分为3种,一是时域分析,二是频域分析,三是小波域分析。

而对于Hurst指数估计手段的准确性和实用性,还需通过一定的手段进行验证,比如随机序列、模型自相似序列以及被破坏的自相似序列等。随机序列的基础是短相关,其对应的估计值为0.5,通过泊松分布、几何分布、指数分布等手段进行考察,明确估计手段的适用性。模型化自相似序列主要包括了分形高斯噪声(Fractal Gauss Noise,FGN),分数布朗运动(Fractional Brownian Motion,FBM)和自相似分模(Fractional Auto Regressive Integrated Moving,FARIM)等模型,其都属于长相关,具有对应的Hurst指数。其中FGN过程平稳,且长相关。FBM过程非平稳,属于自相似。被破坏的自相似序列是进行短相关加噪处理和周期化处理,这是因为网络流量表现出了短相关和周期性的特点,据此通过破坏性的自相似序列对Hurst指数的准确性和实用性进行判定。

2.3 大尺度条件下的网络流量特征

虽然大尺度条件下的网络流量特征研究工作展开较多,但是一直存在不全面的问题,部分研究也不够深入,因此,必须在大尺度环境下加强对网络流量特征的分析,以便促进相关工作。在大尺度环境下,网络流量表现出了一些具体的特征,比如普遍存在非对称性、出入境差异性、流量速率变化以及数据包大小等。

普遍存在非对称性的结论是在相关研究结果的基础上得出的,其具体表现在以下几个方面。一是数据包和字节在出入境方向上存在变化和分布不对称的特征,二是数据包的大小也表现出不对称的特点。这两个方面的不对称性,直接导致网络流量整体表现出不对称性。但是其并非完全不对称,也存在极少数对称的情况,因此只能判定其不对称性是普遍存在,而非绝对存在。

相对平稳区拉长是网络流量在大尺度环境下表现出的另一个特点,其相关协议在出入境方向上可以对比特率和数据包速率的变化趋势通过曲线表示出来,根据相关研究表明,虽然比特率和数据包速率在某种程度上表现出了整体相似的流量变化规律,但是出境方向却是明显小于入境方向的。不仅如此,在不同方向上还表现出了极为突出的特性趋势,即网络流量的变化情况每天基本上处于相同的情况,用户数据报协议(User Datagram Protocol,UDP)和传输控制协议(Transmission Control Protocol,TCP)也存在较为明显的天特性。

3 结语

对网络流量的特征进行研究,可以在网络发展中起到重要的推动效果。但是,当前的网络流量特征研究在不少方面都存在一定缺陷。因此,需要结合实际,从多阶段、小尺度和大尺度等方面对网络流量的特征作出深入分析,以便促进相关工作发展。

摘要:网络流量在互联网发展不断深化的背景下表现出了极为重要的意义,也是对网络体系进行切入理解的重要渠道,还是设计、规划和管理网络的直接凭据。在多尺度下对网络流量的特征进行了针对性探究,以期对相关工作起到一定参考作用。

关键词:网络流量,多尺度,特征

参考文献

[1]阳爱民,周咏梅,邓河.一种网络流量分类特征的产生及选择方法[J].山东大学学报(工学版),2010(5):1-7.

网络流量 篇11

关键词:城域网 远传仪表 远程抄表 接入网设备

一、系统需求与技术背景

中国是一个水资源相对匮乏的国家,尤其在西北和东北地区:现有水资源和日常生产、生活用水的矛盾更加突出。在这一背景下,水资源——尤其是自来水的合理开发和有效使用就成为一个非常重要的课题。在这一课题中,应首先掌握自来水的生产、使用各环节的原始数据。但是由于现在所使用的仪表的自身局限性和现有管理方法的约束,无法准确获取这些用户的实际用水情况,给进一步加强在用流量仪表的运行管理、提高自来水公司的对外服务质量和现代化管理水平带来了困难。

为了解决这一问题,国外同行业和国内其他行业多采用了仪表组网这一解决方案。自来水公司对在用仪表进行组网监控的主要目的是:对分散在营业区地域内的众多自来水用户的用水情况进行实时监测(包括该用户用水量和管网压力),并将该数据回送至管理中心——得到统计数据,以便掌握各自来水用户的用水量,再结合这些测量点所属管网的地理分布情况,测算出各营业区在不同时间段对供水量的要求和相应的管网负荷,为更有效地利用现有自来水生产能力和规划管网改造提供原始数据。

在技术上,随着传感器行业和计算机测控领域的高速发展,如今采用以先进传感器为前端,以计算机技术为核心的高性能价格比的远传型计量仪表业已成熟,只要通过合适的选型,就可以完成网络终端的功能;但采用何种方式进行基干网络的构架仍是一个值得探讨的问题。

二、通信组网方式的选择

在本系统中,基干网络主要提供现场监测点和中心控制室之间的数据传输通道。在网络方案选型时应主要考虑系统的可靠性、工程的可实现性和系统运行的经济性。

我们知道,通常的数据通信组网有两种方式,即无线方式和有线方式。其中:采用无线方式的系统一次性投入的建设费用(包括基建和设备费用)比较大;而且随着系统覆盖范围的增加,系统的复杂性和建设成本将呈平方级上升,同时可靠性降低。另一方面,无线系统的呼通率高,呼叫响应速度快,实时性好,运行费用不受通信数据量的影响。因此,无线系统适用于地理范围小,同时要求通信密度大的应用场合,如一般规模的厂区内的仪表实时监测。

有线方式又分为专线方式和公用线路方式。其中:专线方式要求在通信的各个端点之间铺设专用的通信线路,当通信线路较长时,其建设费用将升高而可靠性下降,其特点与无线方式相似,一般应用在小规模的场合。而公用线路方式是利用现有的通信线路如普通拨号电话线、窄带ISDN、ADSL等,其特点是不用铺设通信线路,只需交纳一定的租金和使用费,而由专业的通信商业运营公司(中国电信等)提供通信物理线路和日常维护服务。在一定规模内,该方式的运行费用与距离无关,而只与通信的时间和频度有关;一般适合于通信覆盖面较广而通信频度不高的场合。由于是使用公用的通信线路,因此通信的呼通率稍差,实时性较差。

在本应用中,监测点的位置多处于管网节点和用户入口端;这就导致网络中监测点必然地理分布较广、密度不均匀,同时现场条件也比较复杂、差异性较大。这样规模的网络若采用无线方式,从建成成本角度考虑是不经济的。另外,由于监测点分布在高层建筑较多的市区,若采用无线组网方式,需要考虑在天线之间避开高层建筑的遮挡;而且随着城市建设的发展,当在传输路径上出现新的高层建筑时,需要重新调整天线的架设。因此,本应用采用有线传输方式是比较合适的。

对于自来水营业公司来说,所关心的数据是用户和管网的流量、压力等数据,这些数据并没有必要进行实时监测,只要求:

1、在供水正常、仪表正常的情况下,所关心数据能够及时采集到;

2、在供水不正常(如管网故障或用户异常用水等)或仪表不正常的情况下,能够及时了解该异常情况。

所以说本应用所涉及的网络是一个城域范围内的流量仪表远程抄表和故障监测网络。由于网络所要求的通信数据量不大,通信密度也不高,因此没有必要架设专用通信线路,也不必选择适合大数据量的宽带网络。

综上所述,本应用选择基于普通拨号电话线路的有线网络通信方案是合适的。

三、通信网接入设备的选择

在确定了网络基本方案后,需要考虑的一个问题是仪表的接入网问题。对于基于普通拨号电话线路的网络通信来说,MODEM(调制解调器)是一种必需设备。但由于标准调制解调器只提供与计算机接口的RS-232C连接,这就要求接入网的仪表都具有该类型的接口。这对于新上的仪表是没有问题的,但大部分在用仪表不具备该接口,因此需要加装数据采集和转换模块。解决该问题可采用专用设备(如一些专业厂家的专用数据采集通信机),也可以采用通用工业现场设备(如PLC)加MODEM的方式。

在网络规模较大的情况下,单点的连接时间将成为网络系统性能的瓶颈。在大多数人的概念中,只要调制解调器速度足够快,就将缩短单点的通信时间,这种观念是对的,但有它的适用范围--在大数据量的通信中,传输速度起了决定性的作用;而在低数据量的通信中,瓶颈是调制解调器的连接时间。

图1列出了几种通信协议下调制解调器的接入网连接时间。

在本应用中,一次正常的通信需要传输仪表的状态、示数和部分参量信号,数据量在100~1000bytes之间,其连接和通信的累计时间见下图。

可见,针对城域范围内的流量仪表远程抄表和故障监测网络,选用V.22或V.22bis协议的调制解调器比较合适;而市场上的主流V.90协议的调制解调器是最"慢"的。另外,高等级协议(V.32以上)的调制解调器大多部分依赖计算机的CPU完成部分协议处理(随设备附带的驱动程序完成CPU接口),因此对于仪表应用来说经常会出现一些不兼容的情况,以至不能正常工作。而大多数计算机外设的生产厂家已停产V.22或V.22bis协议的调制解调器,所以在有可能的情况下可采用一些专业厂家的专用数据采集通信机。

在沈阳自来水公司铁西营业处的“流量测量网络管理系统”中,选用了新开发的专用数据采集通信机,可在4秒左右完成单测量点的数据通信。传输误码率和附加呼损都比较低,能够较好地完成仪表接入网的要求。

四、实际应用系统范例

沈阳市铁西区由于地域范围广、大型工业企业密集,给自来水公司的工作和管理带来了一定的难度。为了解决这一问题,沈阳自来水铁西营业处已对沈阳热电厂、化工厂等大的用水户供水情况进行实时监测,并将数据传送至管理中心,以便掌握各用水大户的用水量及各时间段的流量变化曲线。沈阳自来水铁西营业处“流量测量网络管理系统”的实施,实现大用户水表的智能化管理,为远程抄表收费系统的实施提供了理论模型和实践经验。

参考文献

[1]刘康,王宣衽,嵌入了TCP/IP协议的单板机数据通信系统的设计与实现。电测与仪表,2003.6

作者简介:隋世杰,男,1957年8月20日出生,学历:大学本科,职务:沈阳市自来水铁西营业处计量科科长,职称:高级工程师,从事专业仪器仪表及自动化技术的應用研究。

网络恶意流量检测技术研究 篇12

1 互联网恶意流量安全检测技术研究

1.1 高效“僵木蠕”流量高速识别技术

1.1.1 提取文件特征

分析的基本案例就是Android程序, 一般来说, 会对Android程序内部权限构成文件的特征向量进行提取, 如, 应用Android程序权限的时候, 主要就是依据Android程序提出了134个划分权限列表特征, 例如, 读取手机短信、手机状态、读取通讯录、读取地理位置、读取通话记录、拦截普通短信、发送短信、修改系统设置、访问网络、结束后台程序、获得IMEI密码等[1]。

1.1.2 构造特征向量空间

构造特征向量空间的时候, 可以把特征提出的Android程序描述串合理变为{0, 1}取值向量[2]。计算特征向量的时候, 因为会占据很大空间, 主要应用的形式是索引向量, 如, 依据特征索引方式来合理提取高危权限网络恶意程序特征。假设已知样本A, B以及病毒X提出特征数据结果分别是文件带有病毒X的提出特征描述串:

{READ_SMS, ACCESS_NETWORK_STATE, R EAD_CONTACTS, CALL_PHONE, WRITE_SMS}:

提出B文件样本特征描述串:

{WRITE_EXTERNAL_STORAGE, READ_MSM, ACCESS_NETWORK_STATE, READ_CONTACTS, CALL_PHONE, WRITE_SMS};

提出A文件样本特征描述串:

{READ_PHONE_STATE, SEND_SMS, WRITE_EXTERNAL_STORAGE, READ_MSM, , WRITE_SMS}。病毒X和样本A, B向量基本形式为X00011111, B00111111, A11110001。病毒X以及样本A, B索引基本形式是X{3, 4, 5, 6, 7}, B{2, 3, 4, 5, 6, 7}, A{0, 1, 2, 3, 7}。

1.1.3 快速聚类分析

最邻近样本特征向量以及每个样本特征向量之间具备比较大概率的同类文件, 所以, 需要在已知聚类样本中对新增样本邻近查询, 合理计算最近邻近样本和新增样本之间距离, 如果具备超过定阀值的最短距离会在邻近聚类中归纳新增样本, 反之就建立新聚类。构造特征向量空间的时候, 一般都是对原始向量取值为{0, 1}, 所以, 建立快速聚类分析的时候主要应用臭氧散列函数, 是随机选择的一组D维向量特征中K维自向量, 依据实际索引情况进行适当索引, 原始向量对应的结果中适当选取0或1, 形成子向量[3]。每次计算一种随机向量结果的时候, 就会出现与之对应的子向量K, 如果具备相同的2个向量结果, 属于同一聚类。依据上述实际情况对病毒X和样本A, B随机选择L为4的索引作为子向量, 索引{4, 5, 7, 8}, 可以得到向量子集X是1111, 向量子集B是1111, 向量子集A是1001, 可以发现X的最邻近是B, 而不是A。因此, 不再检测正常A文件, 二次确认检查疑似恶意程序的B样本。

1.2 自适应动态沙箱智能研判技术

国内外运行商首先提出处理网络疑似病毒的模型——基于平行沙箱的智能研判模型, 可以在一定程度上安全检测流量环境中的程序应用情况[4]。基于此模型, 建立了自然对数危险函数序列的深度等级量化智能研判技术, 也就是说可以对安全等级进行判断, 智能化分析未知恶意程序, 计算未知恶意程序等级基本公式为:

其中, α是多维度特征运算扫描结果, γ是自适应动态沙箱运算结果;β是是扫描未知病毒结果, ε是扫描敏感字结果, δ是动态沙箱Android运算结果。上述值都属于[0, 10], 四舍五入处理是Round{}, 保留1位小数。特征库映射以及计算恶意程危险函数序列之间关系如表1所示。

2 互联网恶意流量安全检测技术应用

2.1 系统设计架构

网络恶意流量检测系统包括集中管理模块、恶意程序处置模块、恶意程序分析模块、流量采集模块[5]。设计系统结构的基本理念就是依据监测恶意程序引擎的方式来适当监测网络恶意流量, 并以智能方式多重过滤和研究检测引擎依据上报恶意未知程序, 健全网络流量恶意程序特征库, 依据特征库实际情况建立恶意程序处理模块, CE路由器网络需要主动拦截以及预防恶意程序, 系统可以研制和捕获典型网络恶意程序, 统一发布和管理封堵, 集中角度封堵资源等。设计此系统的时候, 采集原始流量利用PI口, 访问镜像用户互联网和流量数据的还原文件、重组报文等, 检测恶意程序的时候合理应用恶意程序搜索引擎, 对集中管理模块提供检测结果, 系统核心就是集中管理模块, 可以达到运行管理、恶意URL管理、警告管理、报表展示、管理特征库等功能, 并且对处置模块输送合理的封堵策略。

2.2 流量采集模块

流量采集模块根本作用就是可以收集网络中类似恶意程序的软件样本、传播地址源、行为特征以及受害用户信息, 可以分析恶意软件。流量采集模块可以存在多种实现形式, 包括检测业务平台异动方式、检测蜜罐被动方式、光路器选择方式、镜像方式、分光方式等[6]。

2.3 恶意程序分析模块

恶意程序分析模块应用根本作用实际上就是可以对镜像用户网络流量进行流量分析, 获得RADIUS流量数据以及访问网络数据, 合理连接集中管理模块, 可以对结果进行上报, 并且集中分配管理配置策略[7]。

2.4 恶意程序处置模块

恶意程序处置模块根本作用就是能够达到处置恶意程序的目的, 依据查杀恶意执行程序的软件、阻断网络恶意软件传播源等方式阻断网络恶意传播行为和上下行流量网络恶意程序。处置恶意程序的时候需要单独应用物理接口, 可以对管理信息进行传递[8]。

2.5 集中管理模块

集中管理模块根本作用就是可以为集中数据和分析数据提供基础, 为系统运行提供分析和检测未知恶意程序基本功能, 对下发病毒数据库和病毒统计信息进行收集, 依据收集的实际信息来认定恶意软件, 以此发现新软件, 对恶意软件进行查杀, 并且提出同步特征信息, 为系统管理系统和分析报表等提供依据, 为进一步研究和管理网络流量提供基础和保证[9]。

3 结语

本文深入分析和研究了网络恶意流量检测系统实现机制、构架设计等, 把僵木蠕恶意流量监控技术合理应用在计算特征向量距离汇总, 达到精确阻断以及高速识别恶意流量的目的, 基于自适应动态砂箱技术来对其进行分析, 研究智能化云端系统, 进一步分析网络恶意流量检测技术, 对于整体提高网络安全具备很大作用。

摘要:随着社会的发展以及互联网技术的进步, 越来越重视网络安全问题。文章主要分析了网络中日渐明显的恶意流量安全检测问题, 着重研究了一些恶意流量安全检测技术, 如自适应动态沙箱智能研判技术、僵木蠕流量高速识别技术等, 最后依据集中管理全网监测, 协同发展控制策略的理念, 建立了云端一体化安全检测恶意流量技术体系。

关键词:互联网,恶意流量,安全检测

参考文献

[1]李军利, 卜晓燕, 张根耀, 等.恶意DNS流量攻击研究[J].计算机应用与软件, 2011 (9) :200-202.

[2]魏为, 李芝棠, 涂浩, 等.基于被动流量监控的恶意网站检测[A].中国教育和科研计算机网CERNET第十七届学术年会论文集[C].2010.

[3]柴智, 陈谦.移动互联网恶意程序监测系统的研究与应用[J].电信技术, 2014 (9) :115-120.

[4]冯薇薇.移动互联网恶意程序监控防治系统部署方案及关键技术[J].广东通信技术, 2013 (11) :18-21.

[5]林信达.一种移动互联网恶意程序监测分析与处置[J].江苏通信, 2014 (6) :57-58.

[6]陈耿, 林鹏, 胡先桃, 等.基于DNS的恶意软件追踪与监测[A].第二十二届全国信息保密学术会议 (IS2012) 论文集[C].2012.

[7]张俊权.移动互联网异常流量和恶意代码识别与管控研究[J].甘肃科技, 2015 (19) :15-18.

[8]张玉兰, 陆松, 陆玲, 等.移动互联网恶意程序分析与管控系统研究[J].网络安全技术与应用, 2015 (5) :114, 116.

上一篇:民办本科院校定位下一篇:OLSR