反垃圾邮件技术

2024-06-02

反垃圾邮件技术(精选11篇)

反垃圾邮件技术 篇1

1 垃圾邮件的特征和危害

垃圾邮件 (spam) , 又称UBE (Unsolicited Bulk E-mail) , 即未经接受者同意而大量散发的电子邮件。垃圾邮件主要具备以下一个或者多个特征:一是收件人无法拒绝收取的邮件;二是含有虚假的信息源、发件人、路由等信息;三是邮件内隐藏有病毒、木马等破坏性程序, 或者含有大量广告甚至色情图片、政治色彩的信息;四是隐藏发件人身份、地址等信息。

垃圾邮件具有以下五个明显的危害性:

(1) 占用网络带宽, 影响邮件服务器的正常工作, 降低网络的运行效率。

(2) 浪费用户的宝贵时间和上网费用。

(3) 收件人隐私遭到侵犯, 个人信息泄露。

(4) 对网络安全形成威胁, 邮箱遭受病毒或恶意攻击, 成为黑客攻击他人的工具。

(5) 不良信息泛滥, 造成政治危害和社会危害, 尤其对未成年人产生不良影响。

2 反垃圾邮件技术的发展历程

第一代反垃圾邮件技术以过滤技术为主, 包括了规则过滤、统计过滤和地址列表过滤等。这种技术应用最为广泛, 可以在不作任何协议修改的情况下直接使用。

第二代反垃圾邮件技术被称为行为识别模式, 对垃圾邮件的频次、时间、数据包头格式、IP地址、发送标识、协议类型等各类特征通过概率统计模型进行统计分析。这些特征能够针对带有诸如“同一时段频繁发送、动态IP地址”等特点来判断垃圾邮件。

第三代反垃圾邮件技术是电子邮件认证技术。该技术可以有效阻断垃圾邮件制造者利用漏洞伪造邮件发送地址的行为。但目前由于部署电子认证系统需要投入较高的软硬件成本, 并且受限于多种因素, 尚不能广泛应用。

第四代反垃圾邮件技术是多技术整合分层过滤。该技术是上述三代垃圾邮件处理技术的综合利用, 可以在最大程度上实现反垃圾邮件的最大威力。

3 反垃圾邮件的关键技术

3.1 过滤技术

如前文所述, 过滤技术基于邮件样本检测和规则匹配的原理, 可分为规则过滤、合作式过滤和地址列表过滤三类。规则过滤技术通过设定好规则的匹配来实现过滤, 虽然能有效阻止垃圾邮件, 但误判率较高、比较容易被干扰信息影响。统计过滤是规则过滤技术的升级, 通过使用统计规律计算垃圾邮件附加特征出现的可能性, 来区分邮件的合法性, 这种方法误判率较低。地址列表过滤技术是指根据建立的黑名单 (Black List) 和白名单 (White List) , 分别是已知的垃圾邮件发送者和可信任发送者IP地址或者邮件地址, 来判断是否接收电子邮件。

作为最有效的过滤技术, 这里我们着重介绍Bayesian (贝叶斯) 过滤技术。它首先对正常邮件和垃圾邮件进行分类学习, 分别提取它们的特征值, 对每个特征值进行赋分。在收到邮件时, 对其提取特征值 (比如标题、地址、附件、路径等信息) , 用之前学习到的特征值和分数对其进行赋分。在邮件中出现正常邮件的特征串, 就赋予一个正分数, 如果在邮件中检测到了垃圾邮件的特征串, 就赋予一个负分数, 最后根据总分来判断其是正常邮件还是垃圾邮件。Bayesian过滤器是用户根据所接收到所有邮件的统计数据来创建的, 这意味着垃圾邮件发送者无法猜测出过滤器的配置情况, 从而有效阻止垃圾邮件。

由于垃圾邮件数量庞大, 内容特征变化快, 过滤技术面临规则维护工作量大、误判率高、网络开销大的技术瓶颈。但是由于较为成熟, 且较易部署, 所以过滤技术是应用最为广泛的反垃圾邮件技术。

3.2 行为分析技术

行为分析主要在一定范围内对邮件流量进行监测并分析其变化规律, 进而为识别垃圾邮件提供依据。根据监测点所处的位置, 分别在邮件发送阶段和接受阶段对网络流量进行分析。如根据某邮件蠕虫爆发期局域网内域名解析流量和失败的SMTP连接数目急剧增加的情况, 可以判断出垃圾邮件的变化规律, 研究邮件病毒的扩散趋势。

3.3 逆向查询技术

如果能够更高效地区分伪造的邮件和合法的邮件, 那么就能从根本上解决垃圾邮件问题, 验证查询技术应运而生。为了限制发送者的虚假地址, 一些系统要求验证发送者邮件地址进行验证。上世纪九十年代初, 出现了邮件交换纪录 (MX) , 当发送邮件的时候, 邮件服务器通过查询DNS的MX纪录来找到接收者的域名。逆向查询解决方案就是定义逆向的MX纪录 (RMX) , 用来判断发送邮件的域名和IP地址是否对应。由于垃圾邮件的地址通常不会来自真实的RMX地址, 因此可以判断是否非法。

4 最新技术与展望

4.1 意图分析技术

许多垃圾邮件标题和信体都与合法邮件一样, 但是信体内有诱使接收者点击的URL地址, 而URL地址链接的内容是其真正意图。意图检测技术就是对URL进行检查, 根据链接的内容来判断是否为垃圾邮件, 从而识破发送者真实意图, 阻断邮件。

4.2 图片识别技术

针对图片垃圾邮件的技术有邮件指纹识别技术、ocr识别技术以及之后的第三代图像防御技术。图片垃圾邮件的发送者企图使用动态gif图像, 或者用横线、符号和其他图像模糊图片内的文字。Ocr引擎则具备动态gif文件分析功能和模糊文本识别技术。

4.3 发件人特征识别技术

鉴于垃圾邮件制造者的伪装术越来越高, 出现了针对“好人”身份欺骗的特征识别技术, 首先要验证发信者身份并预测其行为, 这其中包括列举垃圾邮件制造者的行为以及加强不依靠身份验证进行辨认的措施。

5 结语

当前, 垃圾邮件已成为全球各国和互联网业界共同面临的严重问题, 应当采用管理与技术并重方式, 以先进的技术手段为基础, 以完善的管理制度和法律法规为依托, 不断加强国际合作, 对垃圾邮件保持高压态势。未来反垃圾邮件的行动主要包括如下四个方面:

(1) 加强互联网立法, 制定严格法律严惩垃圾邮件制造者。

(2) 设计更为安全和完善的邮件体系。

(3) 加强技术研发和人才培养, 不断提升核心技术能力。

(4) 加强宣传和行业自律, 净化网络空间。

参考文献

[1]郑炜, 沈文, 张英鹏.基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J].西北工业大学学报, 2010 (03) .

[2]王斌.潘文锋, 基于内容的垃圾邮件过滤技术综述[J].北京:中文信息学报, 200519 (5) .

反垃圾邮件技术 篇2

学号:

姓名:

院系:

邮件:

电话:

垃圾邮件与反垃圾邮件技术浅析

摘要:最近几年,垃圾邮件肆虐横行,危害越来越大,严重影响了正常的网络运行。本文简单地介绍了垃圾邮件的定义及垃圾邮件泛滥的原因;重点论述了当前主要的反垃圾邮件技术,最后对未来反垃圾邮件技术提出了展望。

关键词:垃圾邮件;反垃圾邮件;邮件过滤

1引言

随着全球信息化的迅猛发展,互联网络已经成为人们工作、学习和生活中不可或缺的部分,而电子邮件又是人们进行信息交流的重要手段。可是,垃圾邮件又是困扰网络用户的难题。垃圾邮件不仅消耗网络频宽,而且浪费用户的存储空间,甚至有可能成为造成社会不稳定的因素,所以我们有必要采取技术措施控制垃圾邮件的肆意蔓延。2什么是垃圾邮件

某种程度上,对垃圾邮件的定义可以是:人们没有意愿去接收到的电子邮件都是垃圾邮件。比如:

(1)商业广告。很多公司为了宣传新的产品、新的活动等通过电子邮件的方式进行宣传。

(2)政治言论。目前会收到不少来自其他国家或者反动组织发送的这类电子邮件,这就跟垃圾的商业广告一样,销售和贩卖他们的所谓言论。

(3)蠕虫病毒邮件。越来越多的病毒通过电子邮件来迅速传播,这也的确是一条迅速而且有效的传播途径。

(4)恶意邮件。恐吓、欺骗性邮件。比如phishing,这是一种假冒网页的电子邮件,完全是一种诡计,来蒙骗用户的个人信息、账号甚至信用卡。

3垃圾邮件泛滥的原因

垃圾邮件的产生可以追溯到最开始的连锁信,随着邮件技术的发展,垃圾邮件技术也在逐步发展,要想找到彻底解决垃圾邮件问题的技术,必须从邮件传输的原理入手。目前邮件传递的主要协议是SMTP协议,该协议没有任何认证手段,因此缺省的SMTP邮件服务器是所谓的OpenRelay(开放转发器),无论邮件来自哪里或发到哪里,邮件服务器都会予以发送。

最常见的邮件发送过程是这样:邮件的客户端使用SMTP协议将邮件发送给一台SMTP发送服务器,然后SMTP发送服务器根据邮件的目的地址,使用SMTP协议将该邮件转发给目标SMTP服务器(接收服务器),接收服务器收到邮件后放入接收人的邮箱(Mailbox或Maildir,可能是单独的服务器,也可能是同一台机器上),最后另一个邮件客户端(接收方)使用POP3或IMAP协议从邮箱服务器上接收自己的邮件。整个过程中,发送方与发送服务器、发送服务器和接收服务器之间都不做认证,因此发送方可以使用互联网上任意一台SMTP服务器来发送邮件,这就是Open Relay。

近年来由于垃圾邮件的泛滥,大部分邮件服务器关闭了Open Relay,在发送方与发送服务器间需要认证,来保证发送服务器发送邮件的主机的合法性,这就是增强的ESMTP协议。但这并没有解决第二个环节:发送邮件器和接收邮件服务器间的合法性认证。因为不可能要求接收邮件服务器上保存所有发送邮件服务器的合法用户信息,因此发送邮件服务器无法向接收邮件服务器做认证。

目前的邮件服务器的处理方式是:如果目的地址是本邮件服务器的用户,则无需认证予以接收;如果目的地址不是本邮件服务器的用户,需要用本邮件服务器的合法用户的用户名和口令来认证(该用户可以不是该邮件的发件人)。这样,就给自动垃圾邮件发送程序提供了可能:它只要给邮件服务器发的邮件都是该邮件服务器的用户,即可发送进去。我们知道,可以随处得到一个数百万甚至上千万的Email列表,使用程序自动按照邮件服务器域名发送相应的用户是很容易的,这就导致了垃圾邮件的泛滥。

4垃圾邮件的危害

垃圾邮件可以说是互联网带给人类最具争议性的副产品,它的泛滥已经使整个互联网不堪重负,并造成以下一些危害:

——占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率。

——侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了他人的信誉。

——被黑客利用,成为助纣为虐的工具。如2003年2月份,黑客攻击雅虎等五大热门网站就是一个例子。黑客先是侵入并控制了一些高带宽的网站,集众多服务器的带宽能力,然后用数以亿万计的垃圾邮件猛烈袭击目标,造成被攻击网站网路堵塞,最终瘫痪。

——严重影响ISP的服务形象。在国际上,频繁转发垃圾邮件的主机会被上级国际互联网服务提供商列入国际垃圾邮件数据库,从而导致该主机不能访问国外许多网络,而且收到垃圾邮件的用户会因为ISP没有建立完善的垃圾邮件过滤机制,而转向其它ISP。

——妖言惑众,骗人钱财,传播色情等内容的垃圾邮件,已经对现实社会造成了危害。

5当前主要的反垃圾邮件技术

5.1贝叶斯算法

贝叶斯算法是一种比较智能的技术,用户通过培训让反垃圾邮件产品认识什么样的邮件是垃圾邮件,什么样的邮件是正常的邮件,然后形成一个贝叶斯库。根据分析以前发生的事情频率和概率来预测将发生事情的频率和概率,判断垃圾邮件的依据就是贝叶斯库。

贝叶斯算法的优点是,垃圾邮件的判断准确性大大提高;缺点是,需要用户进行干预,判别的速度较慢。

5.2指纹识别

所谓邮件的指纹,就是邮件内容中的一些字符串的组合,又称为快照。就是从类似、但不相同的信息中,识别已经被确认为垃圾邮件的信息。反垃圾邮件产品通过确认的指纹,完成对垃圾邮件的识别。

当然,指纹检查的准确性依赖于垃圾邮件的指纹库,反垃圾邮件产品先给邮件中出现的每一个字符赋予一个数值(这个数值的确是按照特定垃圾的用词规律特点进行分类),再利用统计方法给这封邮件计算出一个综合的数值。也可以根据是否与其他多次收到的邮件相似来判定。

指纹识别技术的缺点是,要经常维护指纹库。

5.3实时黑名单列表

为了有效地拒绝来自恶意的垃圾邮件来源站点和/或被利用的垃圾邮件来源站点所发来的垃圾邮件,最直接和有效的办法就是拒绝该来源的连接。通过将确认后的垃圾邮件来源站点(无论是否是恶意与否)放入一个黑名单,然后通过发布该名单来保护邮件服务器不受到黑名单中站点的侵扰确实是一个目前对抗日益严重的垃圾邮件的行之有效的方法。

目前在黑名单技术上最流行的是实时黑名单(RealtimeBlackhole List,简称RBL)技术。通常该技术是通过DNS方式(查询和区域传输)实现的。目前国外流行的几个主要的实时黑名单服务器都是通过DNS方式提供的,如Mail-Abuse的RBL、RBL+等。

实时黑名单技术的优点是,减少用户的工作量和设置难度,降低一定的误报率;缺点是,有的RBL提供方提供的黑名单过于强硬。

5.4防止字典攻击

在我们平时使用邮件系统给别人发信的时候遇到过这样的情况,一不小心将收件人的地址写错了,那么这样的邮件是不可能被正确地送到目的地的,将被退回来。一些垃圾邮件的发送者就利用了邮件系统这个特点,大量地向邮件系统发送信件,没有被退回来的信件就是邮件系统当前拥有的邮件地址,这样垃圾邮件的发送者就可以很轻松地得到发送垃圾邮件的对象了。采用防止字典攻击的技术就是让邮件系统在没有真实用户存在于系统当中时不退信,这样攻击者就不能够获得有效的用户列表。

5.5邮件域名过滤

IBM开发了代号为FairUCE的反垃圾邮件新技术。该技术使用网络领域的内置身份管理工具,通过分析电子邮件域名过滤并封锁垃圾邮件。FairUCE把收到的邮件同其源头的IP地址相连接,在电子邮件地址、电子邮件域和发送邮件的计算机之间建立起一种联系,以确定电子邮件的合法性。IP地址是固定不变的,因此FairUCE就能够识别信息是来自僵尸(Zombie)计算机、机器人Bot装置还是来自合法的电子邮件服务器。

6结束语

反垃圾邮件技术 篇3

【关键词】行为识别;反垃圾邮件技术;探讨

计算机是当前办公过程中非常常见的一种设备,同时电子邮件也逐渐成为人们工作生活中的一个重要的工具,它也成为了人们交流和沟通的载体,它给人们创造了一定的便利,同时它也给人们带来了一些烦恼,烦恼的主要来源就是垃圾邮件,而以行为识别为基础为基础的反垃圾邮件技术就成了当前比较重要的一项技术,其应用也越来越广泛。

1、垃圾邮件概述

1.1垃圾邮件的概念

Spam就是将内容完全相同的电子邮件在没有收到收信人同意的情况下就转发给很多人,这些邮件内容很多都是没有实际用途的商业广告,因为在一段时间之内转发了大量的邮件,系统本身就必须要承受非常大的负担,同时收信人还需要在收这些垃圾邮件的时候支付相应的费用。

通常互联网上的垃圾邮件主要分成两个大类,一个是合法的市场营销类商业信函,这样的邮件内容并不涉及非法问题,我们要做的就是要对其进行统一的规范,这样就可以很好的对其行为进行限制和束缚。另外一种是真正的垃圾邮件,这类邮件也被一些人叫做流氓邮件,所以发送这种邮件的人就叫做是违法人员或者是犯罪分子,这些邮件当中充斥着反社会、烦人轮、甚至是色情暴力活动等。

1.2垃圾邮件的危害

发送垃圾邮件的成本是非常低廉的,一般都是通过多种方式进行群发或者是转发,但是对E-mail運营商和使用用户而言,却会造成非常大的损失,其危害主要体现在以下几个方面。

首先是垃圾邮件会队互联网的健康发展起到严重的抑制作用。网络资源是相对有限的,如果网络资源上分布着大量的垃圾邮件的时候,网络的使用效率就受到了非常不利的影响。而对于邮件的服务器而言也如果收到了大量的垃圾邮件会占用服务器的大量空间,如果垃圾邮件得不到有效的控制,用户就会停止使用该邮箱,这样也就迫使服务的提供商必须要停止所有的服务项目,这样一来,企业不仅失去了大量的经济收益,同时也会在一定程度上影响到企业的社会效益。

其次是垃圾邮件影响到了用户自身的利益、如果网络用户每一天都要花费大量的时间去删除垃圾邮件,其有效使用的时间就会相应的减少,同时也严重影响到了人们正常的工作和生活。时间是非常宝贵的,所以浪费时间是十分不明智的,相关调查显示,网民们每天都需要花7分钟的时间对垃圾邮件进行处理,下载垃圾邮件所花费的费用就已经超过了94亿美元。

最后是垃圾邮件污染了社会环境。一些垃圾邮件内容充斥着色情和暴力等各种不利于社会和谐的信息,这样一来,社会环境就会变得更加的混乱。黑客们在使用电子邮件系统发送很多的垃圾邮件的时候会对攻击的目标进行破坏,这样也使得其逐渐处于瘫痪的状态,此外,它还能够成为传播病毒的一个非常重要的途径和载体。

2、基于行为识别的反垃圾邮件技术

2.1反垃圾邮件技术现状

当前比较主流的反垃圾邮件产品所采用的技术是过滤技术,这些技术在当前还是存在着一定的局限,同时在应用的过程中还是使用独立性过强的词语对其进行匹配,这样也使得语言的重要特征—连贯性受到了非常明显的破坏,这样也就无法对邮件的内容和类别进行判断,所以也出现了很多的失误。此外这些技术还是需要很多的匹配运算,其对CPU和内存的影响非常大,所以这也使得处理更加的困难,通过技术人员的分析和计算,对模型也进行了一定的归纳和总结。行为模式当中包含了很多的因素,这样就可以根据这些因素对邮件是否为垃圾邮件进行判别,不用对邮件所有的内容进行三秒,这样就使得邮件判别的效率得到了显著的提升,此外也使得整个过程的准确性有了十分显著的提高。

2.2反垃圾邮件行为的技术原理

SMTP可以有效的对网上的处理机之间的电子邮件进行传输,但是整个协议请求的关键字等都是可以通过一定的手段进行伪造,他们通常可以通过非法的形式传递一些垃圾邮件,这种行为和正常发送邮件的行为是有着明显的差异的。垃圾邮件行为模式识别模型在理论上有着较高的区分性,在实际的的分析中也有一定的道理。所以针对这样的情况,我们完全可以通过一定的方法对正常的邮件和垃圾邮件进行有效的辨别,这样就可以在垃圾邮件发送之前就对异常邮件形式发送拒收请求,这样也就使得邮件一直都能处在可以控制的状态当中,防止了垃圾邮件对网络环境的影响,使得网络邮件无法钻孔子,这样也就形成了反垃圾邮件的模型。

2.3反垃圾邮件系统模块的需求

1)实时性:分类器模块在对邮件处理时,应采取较为高效的算法,尽量使对邮件处理的时延足够小,而不至于出现邮件传输瓶颈,影响邮件系统的使用和功能的减弱。

2)正确率:这是邮件分类器最重要的衡量标准,主要体现在正确分类率和错误分类率。正确分类率是指把正常的邮件归类到正常邮件,Spam归类到Spam情况时占整个判别邮件总数的比率。而错误分类率则是指把正常的邮件归类到Spam,Spam归类到正常邮件情况时占整个判别邮件总数的比率。然而,把少量的Spam归类到正常邮件是可接受的,把正常邮件归类到Spam则是不容许的。

3)易用性:该模块应用在系统中时安装、配置、维护应该简单方便,具有良好的扩展接口。

4)可扩展性:当系统要求增加分类功能时,如对真伪的MAC判断时,该模块能添加相关功能。

5)稳定性:当系统功能的处理能力到达较大负荷时,仍能正常工作,而不会丢弃邮件或邮件正确分类率不会有明显下降。

3、结语

当前,反垃圾邮件的问题已经收到了相关人员的高度关注和重视,同时在国际上也开始以研讨会的形式去探讨这一问题,要想更加彻底的去解决这一问题,就必须要在实际的工作中必须从其产生的原理作为突破口,从而将垃圾邮件彻底的根除,降低垃圾邮件对网络资源的消耗。

参考文献

[1]阚晓初.电子商务安全中的数据加密技术[J].计算机教育,2007(18).

[2]何建昭,梁晓诚,郭红宾.基于行为模式识别的反垃圾邮件技术[J].电脑知识与技术(学术交流),2007(04).

反垃圾邮件技术及系统方案综述 篇4

1.1 基于关键字的反垃圾邮件技术

本技术也称为静态内容过滤, 它采用关键词匹配的方法, 对邮件进行检索, 根据关键词出现的频度来判定邮件是否是垃圾邮件。一些在垃圾邮件中出现的关键词, 在正常邮件中也可能出现;此外由于自然语言中词的多义性和同义性, 使它存在固有的局限性。该技术更适合某些需要严格控制邮件内容的场合, 如对付反动政治宣传等内容。

1.2 意图分析过滤技术

大部分垃圾邮件背后的动机是使邮件接受者接受某物, 例如登录某个站点等, 这些动机被称为邮件“意图”, 观察邮件的这些特点叫做“意图分析”。意图分析这项技术就是可以对URL进行检查, 看其链接的内容来判断此邮件是否为垃圾邮件。意图分析是阻断垃圾邮件非常有效的手段, 它的有效性随着黑名单有效性的相对减少而增加。其优点是大大提高了垃圾邮件的识别率。

1.3 黑白名单过滤技术

过滤系统在处理新到达的邮件时, 首先查看邮件头部的发送方地址, 对于处于黑名单中的邮件则直接拒收。该技术的优点是简单明确, 最大程度地减少了处理垃圾邮件所需的系统资源。但它的缺点也很明显, 在处理陌生人来信时无能为力、需要不断更新和维护、容易造成误判、效率不高。黑白名单可以由用户提供, 也可由相关组织机构进行统一管理, 通常是按照某个地址发送邮件的性质来判断。

1.4 实时黑名单列表

为了有效地拒绝来自恶意的垃圾邮件来源站点和被利用的垃圾邮件来源站点所发来的垃圾邮件, 最直接和有效的办法就是拒绝该来源的连接。通过将确认后的垃圾邮件来源站点 (无论是否是恶意与否) 放入一个黑名单, 然后通过发布该名单来保护邮件服务器不受到黑名单中站点的侵扰确实是一个目前对抗日益严重的垃圾邮件的行之有效的方法。目前在黑名单技术上最流行的是实时黑名单 (RBL) 技术。通常该技术是通过DNS方式 (查询和区域传输) 实现的。实时黑名单技术的优点是, 减少用户的工作量和设置难度, 降低一定的误报率;缺点是, 有的RBL提供方提供的黑名单过于强硬。

1.5 贝叶斯统计过滤技术

贝叶斯过滤器是用户根据自己所收到的垃圾邮件和非垃圾邮件的统计数据来创建的, 其基本思想是通过对邮件头部和邮件信体中的单词进行概率计算, 从整体上判断是否为垃圾邮件。工作流程包括:第一步, 学习。首先确定已知的垃圾邮件和正常邮件的集合, 然后根据每个单词分别在两个集合中出现的次数, 计算单词的垃圾概率;第二步, 计算和判断过程。当一封新邮件到达时, 系统需要对信件全部内容进行分词和选词, 得到一组单词流, 然后根据学习到的单词库中的信息, 计算整个单词流的概率, 并最终判断该信件是否为垃圾邮件。贝叶斯过滤器有较低的误判率, 并且不需要管理员更新过滤规则。过滤系统通过监视用户对垃圾邮件的分类判定, 能够学习分辨垃圾邮件与非邮件之间的差别, 并且自动应用到以后的检测中, 从而自动调整过滤规则。这意味着垃圾邮件发送者无法猜测出过滤器是如何配置的, 从而有效阻止垃圾邮件。

1.6 源头认证技术

DKIM技术基于雅虎的Domain Keys验证技术和思科的Internet Identified Mail。雅虎的Domain Keys利用公共密钥密码术验证电子邮件发件人。发送系统生成一个签名并把签名插入电子邮件标题, 而接收系统利用DNS发布的一个公共密钥验证这个签名。思科的验证技术也利用密码术, 但它把签名和电子邮件消息本身关联。发送服务器为电子邮件消息签名并把签名和用于生成签名的公共密钥插入一个新标题, 而接收系统验证这个用于为电子邮件消息签名的公共密钥是授权给这个发件地址使用的。DKIM将把这2个验证系统整合起来, 以和Domain Keys相同的方式用DNS发布的公共密钥验证签名, 同时将利用思科的标题签名技术确保一致性。

1.7 指纹分析技术

指纹分析技术是从邮件中抽取出可以代表不同内容的指纹数据 (一般是利用加密哈希算法或检查和的算法来产生) , 不同的内容会产生不同的指纹, 用这些指纹代表不同的邮件。全球的兼容用户会提交邮件的指纹, 从服务器得到响应, 以知道有多少封相同的邮件在全球传播, 这样来识别邮件。分布式哈希数据库将认为是垃圾邮件的指纹特征交给分析服务器, 由分析服务器确定它是垃圾邮件的可能性。

1.8 协议分析

协议分析是在协议层对TCP/IP连接、SMTP等进行合规性检查。比如, 是否符合RFC 821标准, 是否符合正常发件人的各种连接频率数量等等。一般是通过对正常邮件发送者TCP/IP连接频率、邮件同时发送数量、频率等特征进行一个合理的建模, 对于超出正常值的部分则被认为是异常或者群发行为;对于隐藏发件人真实地址、伪造发件人域名、邮件格式错误、认证信息不准等等都是针对邮件本身的标准合规性检查。协议分析技术, 对于明显的群发垃圾邮件行为有很好的阻挡作用;但对于小批量的、小范围的垃圾邮件发送却无能为力。

2 反垃圾邮件系统方案的设计实现

2.1 软件与硬件方案相互配合

(1) 软件方案:多年以来, 企业级的软件解决方案被用于对抗垃圾邮件和病毒。网络管理中心在邮件服务器上安装一个软件或者在一台隔离的机器上处理所有收到的邮件, 在邮件服务器上删除垃圾邮件或在垃圾邮件到达服务器之前就删除它。然而, 安装在电子邮件服务器上的软件会降低服务器的效率。每封通过它的邮件需要一定的处理时间, 会增加服务器崩溃的几率。因此, 要重视邮件服务器软件的采购, 调查和询问各企业或单位间对邮件服务器软件的选购经验以及邮件服务器软件运行情况。从而做出正确的判断, 选购一款高性能和高稳定性的软件。

(2) 硬件方案:在多数情况下, 硬件的最好解决方案是安装一个易于安装使用, 能够协助解决一些性能和安全问题的硬件设施。它除了阻隔病毒和垃圾邮件的进入外, 还让使用者处于熟悉的安全范围之内, 并且在使用者直接控制之下。硬件设备不需要复杂的安装过程和操作系统的维护。使用一些硬件产品, 能够明显的提高邮件的处理能力。硬件解决方案也包括一些防卫层, 为每一封试图通过系统的电子邮件提供附加安全措施。如果一份可疑的电子邮件不能通过一层或者多层防护, 它将被隔离在存储区域等待管理员或使用者的进一步检验。包含在每个解决方案中的数量和种类是可以改变的。

2.2 服务器端反垃圾邮件

(1) 精确的多层过滤反垃圾邮件技术:通过为网络管理中心设计智能、多层的混合型病毒和垃圾邮件防护架构, 可以优化系统内混合型病毒和垃圾邮件事件的监控, 以便及早发现、及时通报、快速处理, 缩短响应时间, 有效降低病毒可能造成的损失。建立多层、分布式的混合病毒和垃圾邮件防御架构, 能体现“统一规划, 分级管理”的思想。

(2) 用户身份认证:限制非权限用户利用邮件系统散发垃圾邮件或其他不当行为, 用户在发送邮件时需要提交自己的用户名和口令以进行身份验证, 验证成功才可以发送和邮件, 否则不能发送。从而减少了垃圾邮件的产生。

(3) 应用垃圾邮件的行为识别模型:基于“行为识别”的反垃圾系统设计思路, 从被动应付转变为对垃圾邮件发送行为的主动规范, 这就像进入大厦前, 必须经过各种严格的保安措施的检查一样, 必须符合主动要求的行为标准和规范。如果说传统的内容过滤反垃圾邮件是采用“堵”的方式, 反而导致垃圾邮件泛滥成灾。采用“行为识别”技术的反垃圾邮件系统的设计思想采用主动疏导的方式, 用行为规范去主动要求发信方。这种技术可以边接收边判断, 不需要把垃圾邮件全部收下来, 就可以直接拦截90%以上的垃圾邮件和病毒邮件, 并且极大提高了对垃圾邮件的处理速度, 并节省大量的系统资源和网络带宽。这样大大提供了反垃圾邮件的实际效果。

2.3 客户端反垃圾邮件

(1) 邮件内容过滤:当用户收下邮件后, 对邮件进行检查分类工作, 将识别出的垃圾邮件放到一个指定的邮件箱中。这样, 垃圾邮件和正常邮件就可以分隔开。如果用户担心识别错误, 只要进该邮件箱简单查看即可, 大大减轻了清理邮箱的负担。一般来说, 在一封电子邮件中会包含邮件头、发信人、收信人、邮件主题、正文内容这几个部分, 不少邮件还带有各种类型的附件, 而客户端软件可以根据上述5个组成部分对该邮件进行组合判定。首先, 客户端软件可对最先接收到的邮件头进行鉴别, 这些邮件头所包含的是邮件投递过程的原始信息, 而这些原始信息往往都具有共同的特征, 例如IP地址、主机名等, 客户端软件将这些信息同自己预存的垃圾邮件头信息进行比较。接下来, 客户端软件还会对发件人的地址进行检查, 如果该地址已经被用户事先加入拒收名单, 那么这个发件人发来的所有邮件都会被当作垃圾邮件处理。

(2) 保护好个人的邮件地址:通常采取的方法如下: (1) 不要把自己的私人邮件地址公布在网页或者新闻组里; (2) 不要响应不请自来的电子邮件或者垃圾邮件。有些垃圾邮件带有取消订阅的说明, 如点击某个链接或者按照他们的要求回复信件, 通常不要相信他们; (3) 不要订阅一些不健康的电子杂志, 以防止被垃圾邮件收集者收集; (4) 发现收集或出售电子邮件地址的网站或消息, 请告诉相应的主页提供商或主页管理员, 将你的邮件地址删除, 以避免被他们利用; (5) 用专门的邮箱进行私人通信, 而用其他的免费邮箱注册或订阅电子杂志。这样即使某个邮件被他人捕获, 也可以很容易的废弃该账户而不会造成太大的影响; (6) 使用好的邮件管理软件以及专业的垃圾邮件清除软件; (7) 邮件地址不要过于简单化, 应复杂一些, 以免被收集邮件地址的人以排列组合的方式猜测出来。

(3) 采用安全的文本方式阅读邮件:其实通过垃圾邮件传

基于GSI的网格安全改进授权模型设计与实现

赵丰

(福建经济管理干部学院, 福建福州350002)

摘要:一种面向数据库资源的网格安全基础架构:Database Grid Security Infrastructure (DGSI) 模型。这种模型是一个基于GSI验证机制前提, 针对数据库资源, 面向网格环境的信息保护与共享安全的基础架构。该模型可为解决网格环境下的数据库资源授权、验证、信任等问题的设计与实现提供参考。

关键词:DGSI;GSI;网格安全;授权模型

中图分类号:TP393.08文献标识码:A

0引言

数据库作为信息资源存贮的一般手段, 在以信息共享为目的的网格环境中占有重要地位。数据库网格也因此成为非常有发展潜力的网格环境。研究数据库网格的安全架构, 对数据库网格环境的安全使用, 有着重要的作用。

1继承GSI思想的DGSI技术

GSI是Globus的安全基础构件工具包, 为用户和应用程序提供安全访问网格资源的一组工具、类库和协议。由于目前的Globus是网格技术的典型代表, GSI被各种网格项目广泛应用, 成为事实上的安全规范。但由于GSI在功能上的局限, 不能成为数据库网格的安全基础架构。

笔者在设计DGSI时, 采用了GSI的一些设计思想与实现方法。GSI中的主要安全技术手段包括:认证证书、双向认证、保密通信、安全私钥、授权委托和用户单一登录。GSI对标准的SSL协议进行了扩展, 使得GSI具有授权委托能力, 减少用户必须输入口令来得到私钥的次数。GSI是通过使用用户代理来解决用户递恶意代码都隐藏在HTML脚本中, 只要我们在邮件客户端软件上进行一些小小的设置, 将HTML邮件使用纯文本模式查看, 即可防范大部分此类入侵的发生。由于Outlook是最主流的邮件客户端软件, 因此Outlook用户是恶意代码邮件的主要受害者。其实在Outlook2003中邮件查看模式的设置非常简单: (1) 启动Outlook2003, 选择菜单“工具-选项”, 在首选参数上单击“电子邮件选项”; (2) 勾选“以纯文本格式读取所有标准邮件”和“以纯文本格式读取所有数字签名邮件”, 然后单击“确定”按钮退出选项的设定。这样在使用Outlook2003查看邮件时, 则只会显示邮件的文本内容, 不会执行恶意代码了。

文章编号:1672-7800 (2009) 03-0149-03

单一登录问题。

DGSI在认证机制上基本采用了GSI的认证体系和WS-Security标准。在授权上, 借鉴了VOMS分布式的思想, 使虚拟组织和本地资源都参与授权, 增加了信任安全的内容。

2核心工作流程

2.1用户授权与验证过程

数据库资源授权所承担的工作是从整个虚拟组织角度管理组织内的数据库资源的权限。用户授权的完整过程: (1) 用户访问系统元目录Meta Catalog Service中获知虚拟组织内的服务和数据库资源情况, 向VO Authorization Service提交所需权限声明。 (2) VO Authorization Service返回满足所需权限的角色列表。若第一步没有提交所需权限, 则返回所有角色列表。 (3) 用户根据需要, 向VO Authorization Service申请某个角色。 (4) 检查用户是否己有此角色授权。 (5) 如果虚拟组织管理员拒绝请求, VO Authorization Service返回错误信息 (异步消息) 。 (6) 如果虚拟组织管理员通过请求, VO Authorization Service会根据角色信息, 发送信息给相关服务。 (7) VO Authorization Service发送授

参考文献

[1]陈勇, 李卓桓.反垃圾邮件完全手册[M].北京:清华大学出版社, 2007.

[2]李楠萼, 卢显良.分层垃圾邮件过滤器的设计与实现[J].计算机应用, 2006 (1) .

[3]白英彩.基于贝叶斯理论的反垃圾邮件技术[J].计算机应用与软件, 2007 (1) .

[4]周斌.反垃圾邮件六大方案[J].计算机系统应用, 2006 (2) .

反垃圾邮件的几种技术 篇5

这是最基本的反垃圾邮件手段,通过设置一个庞大的发件人地址黑名单来实现,不过现在很多垃圾邮件是通过本地smtp服务器发送的,不需要服务器认证,发件人地址本身可以随便伪造,所以这种过滤的效果不是很好。

2.关键词过滤

分为两种:

一种是对邮件主题进行过滤,当来信主题中含有特定关键词的时候即判为垃圾邮件。不过现在的垃圾邮件标题起得都很好,“看上去”都不像垃圾邮件,这个办法也就不太好用了。另一种是对邮件正文进行过滤,因为垃圾邮件的正文总要包含广告、色情等等垃圾信息,所以这种过滤方式比较有效,不过执行这种过滤方式就得把垃圾邮件收取下来,无法在远程管理的时候就把垃圾信件过滤掉。用becky的远程管理也是一样,双击邮件的时候其实已经把相应的信件收下来了。另外,某些垃圾邮件(例如法x功发来的邮件)对正文采用了特殊的处理(比如在关键词中间插入符号,像“政.府.”什么的),或者是在附件中放上宣传内容的zip包,这样就不好过滤了。

3.群发过滤

对于个人用户来说,就是扫描来信的邮件头,如果收件人/抄送人大于某个指定的数量,便判为垃圾邮件。

对于服务器而言,就是在一个相当短的时间里收到从同一个发送或回信地址发出的信件,或者在一个相当短的时间里收到从不同发送或回信地址发出的一定数量相同内容的信件,则该这些信件即被判为垃圾邮件。

4.域名反查

对比邮件头中的Helo字段和来信的IP地址,发现不一致即判为垃圾邮件。这个对于个人用户来说,是不好做到的。

5.地址校验

对来信人的发送地址和回信地址进行校验,如果这些地址根本不存在,即判为垃圾邮件。这个对于个人用户来说,也是不好做到的。

6.IP过滤

列出那些spammer经常使用的发信代理服务器,将从黑名单中的IP地址发出的信件判为垃圾邮件。

7.文件大小过滤

反垃圾邮件技术 篇6

12月22日,北京三家通信巨头、七家银行联合北京信用管理公司宣布组建信用联盟,对有欠费行为的用户实现信息共享,并对这些用户进行联合抵制。

此次加入信用联盟的七家银行和三家通信公司分别是:工行北京市分行、中行北京市分行、建行北京市分行、北京市商业银行、招行北京分行、交行北京分行、深圳发展银行北京分行,以及北京通信、北京联通和北京长宽。现阶段由三家通信公司依法向北京信用管理公司提供部分欠费用户信息;信用公司通过自身的信用信息公共平台对欠费信息进行收集、整理,录入北京市个人信用信息数据库,并依法为联盟所有单位提供信息查询服务。有欠费行为的用户在使用通信公司的业务时将受到影响;联盟各银行在办理贷款、信用卡等授信业务时,将对恶意欠费、欺诈的用户进行更为严格、细致、深入的审查。长期拖欠固定电话、手机和上网费用,很可能对个人贷款产生直接影响。联盟还将有步骤地依法将构成欺诈的用户信息向政府部门、媒体以及相关需求单位披露,使他们在社会更广泛的领域内受到更大程度的制约。(何佳艳)

国家五部委开始专项治理网游私服、外挂

针对当前互联网游戏“私服”“外挂”等违法行为蔓延的势头,新闻出版总署、信息产业部、国家工商行政管理总局、国家版权局、全国“扫黄打非”工作小组办公室等部门将于2004年1月1日起,在全国开展打击“私服”、“外挂”的专项治理行动。

今年以来网络游戏市场发展迅速,新闻出版总署、信息产业部2002年6月联合颁布的《互联网出版管理暂行规定》,已经相对滞后于游戏市场现状。治理网游私服、外挂,甚至动用“扫黄打非”办,也在一定程度上暴露了网络游戏产业“无法可依”的尴尬境地。网络游戏的发展,带动了很多相关的产业,IT、媒体出版、通信行业等都从这个市场得到了丰厚的回报,2004年会有更多行业和游戏业渗透,此前就有专家预测游戏业打入广电市场,运作于广电平台是大势所趋,广电总局也宣布2004年的中国国际广播电视信息网络展览会上将首次设立“中国国际数字娱乐与互动游戏”展览区。随着游戏和周边产业的融合,相关部门联手引导游戏行业良性发展,已是大势所趋。(江兰)

垃圾邮件:灾难还是机会?

垃圾邮件是继病毒之后又一个令人爱恨莫辨的互联网怪胎。与病毒泛滥不同的是,病毒的制造者只追求个人改变世界的快感,而很多垃圾邮件的发送者还有网络直销商的身份,具备自身的商业目的。民权和利益交织在一起,让美国总统布什12月16日签署通过的垃圾邮件管制法案变了味道。反而是垃圾邮件泛滥不是那么严重的澳大利亚出手更为严厉,12月19日,澳大利亚联邦政府宣布,澳大利亚的反垃圾邮件法案将在2004年4月11日成为法律。届时,坚持滥发垃圾邮件的企业每天最多将被罚款110万澳元(81.1万美元)。

在中国这个垃圾邮件第二大国里,12月25日,互联网协会反垃圾邮件协调小组第二次公布“垃圾邮件服务器和过滤名单”并予以封杀。令人质疑的是:作为一个组织松散的民间自律性组织,封杀IP地址的实施效果并不令人恭维,相关法律问题也一向为人所诟病。

反垃圾邮件技术 篇7

垃圾邮件目前己经成为世界各国共同面临的棘手问题。安全厂商Sophos发布了一份报告,列出了2006年的12个垃圾邮件大国。美国是垃圾邮件第一大国,是全球22%的垃圾邮件的发源地。中国的垃圾邮件问题同样不容乐观。根据中国互联网协会反垃圾邮件中心2006年第二次反垃圾邮件调查报告的统计,中国互联网用户平均每周收到垃圾邮件数量为17.43封,占了用户接收邮件的61.99%。

1 贝叶斯基本理论

贝叶斯统计源于英国学者贝叶斯撰写发表(1763年)的一篇具有哲学性的论文:An Essay Towards solving a problem in the doctrine of chances,后来发展形成了贝叶斯学派。Stanford大学的Sahami(1998)最早把Bayes方法用于垃圾邮件过滤,取得了较好的效果。

1.1 向量空间模型(Vector Space Model)

邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。一般采用向量空间模型来实现邮件向量化。

定义长度为l的词汇表V={w1,…,wj,…,wl),对于长度为m,由单词(称为一个Token)ωk顺序组成的邮件d{w1,…,wn)定义一个向量λ(x1,…,xi,…,xj),其中xi∈{0,1},当wi∈d时,xi=1,否则xi=0。即λ中的分量表示词汇表V的对应位置的单词是否在d中出现。

1.2 Naive Bayes公式

Naive Bayes邮件过滤算法是基于内容的垃圾邮件过滤方法中的一种简单有效的方法。它的原理是把一封邮件dx当作一份文本文件,来进行文本分类。

邮件dx属于邮件类别集合cj中的一种,这里C={Cspam,Clegit}

贝叶斯用于垃圾邮件过滤时,通过计算邮件dx属于某个类别cj的概率P(cj│dx),对该邮件进行分类。计算公式如下:

其中,P(cj)是类的先验概率,P(dx│cj)是类条件概率。对同一封邮件,P(dx)不变。根据全概率公式有:

朴素贝叶斯中假设dx表示为特征集合(t1,t2,…,tn),n为特征个数,各特征之间相互独立。则有:

式(1)重新表示为:

Naive Bayes文本分类存在多种变形模型,如二元独立模型(Binary Independence Model)、多项式模型(Multinomial Model)、泊松分布模型(Poisson Model)、负二元独立模型(Negative Binary Model),其中多项式模型具有最佳的效果。

在训练集上估计P(ti│cj)时,取训练样本中特征项ti的最大似然估计作为给定类别下的条件概率P(ti│cj),即:

其中,ncj是类别cj的样本中的特征项总出现次数,ntj_cj是类别cj的样本中特征项ti出现次数。为避免出现0概率,对其进行简单的平滑处理,其中m是训练样本中不重复的特征向量的总数,公式(5)可重新表示为:

贝叶斯分类方法的优势有:在效率上优于其他算法;占用的存储空间少;易于收集最新的垃圾邮件特征;适合于作为个性化的过滤器等。

2 隐马尔可夫模型及其改进

2.1 隐马尔可夫模型

一个隐马尔可夫模型是一组有限的状态,其中的某一个状态可以以一定的概率转移到另外的状态(终止状态除外),而且在转移时产生输出,能产生的输出是有限的,输出也是以一定的概率产生的。它的形式化描述是HMM=。应用在分词问题中的隐马尔可夫模型可以定义为:(1)S表示模型中的状态,N是其中的状态数。在分词中,状态就是统计得到的所有字,N为统计所得的总字数。所有独立的字都属于集合S,S={S1,S2,…,Sn}。(2)对于任何的句子都可以用集合S中的N个状态来表示,并定义qt为一个句子中第t个字,它可能是N个字中的任一个。对于具体的算法来说,要确切计算如下的概率,需要统计(q1=Si1,q2=Si2,…,qt=Sit),t词的最大长度。这在实际的应用中是不可行的,所以对条件概率的计算被缩短为只看当前的状态和其前一个状态(见公式7)。(3)状态转移概率矩阵A={aij}。此矩阵中的各元素在分词中表示为某一字向其它字转移的概率,即当字A出现时,其他的字出现在A之后的概率见公式8。(4)初始状态分布矢量∏={∏i},在分词中表示在t=1时刻字为状态Si的概率,即词的第一个字为Si的概率(见公式9)。(5)在给定的模型下,根据已经确定的需要结合的字来确定后一个相邻的字要不要结合到此新词中(见公式10)。公式如下:

2.2 改进的隐马尔可夫模型

由于在隐马尔可夫模型中,后一个字要不要与前面的字串组合成词,此条件概率最终转化为只与每个字的前一个字相关,在本文中把此链改进为与前两个字相关,这样准确性比HMM要高,但代价是在用n-gram算法的统计过程中,从原来的n=1,2变为n=1,2,3。后面将通过实验来确定用哪种方法更合理。

改进HMM中的公式(7)为:

改进公式(8),(9)为:

改进公式(10)为:

3 结束语

由于贝叶斯技术在英文邮件分类中已经取得了良好的效果,所以本文把研究的重点放在了贝叶斯技术应用研究上,目前还没有公开的、公认的最有效的反垃圾方法,因此在本文中研究比较了基于隐马尔可夫模型并进行了改进。

参考文献

[1]雷杰,王明哲,孙德宝.基于贝叶斯网络的特征分类器[J].情报指挥控制系统与仿真技术,2001,(9).

[2]余东峰,孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用,2004,(8).

[3]甘宏,潘丹.广域网环境下的空间模式库管理[J].广州大学学报,2008,(5).

[4]潘丹,甘宏.Floyd算法分析与演示系统设计[J].科技广场,2008,(7).

反垃圾邮件技术 篇8

关键词:垃圾邮件,反垃圾邮件技术,反垃圾邮件网关

在I n t e r n e t应用极其广泛的今天, 电子邮件在商业、管理、办公等方面都起到了越来越重要的作用。然而, 垃圾邮件的产生, 给Internet用户带来了巨大的损失和危害。大量的垃圾邮件在网络上传播, 不仅占用了宝贵的网络带宽, 而且还占用了大量的网络与存储资源。

根据CNNIC的统计, 2004年我国互联网用户平均每人每周收到的正常邮件和垃圾邮件数量分别为4.4封和7.9封, 2005年这两个数字则分别为27.8封和57.5封。垃圾邮件在我国日趋泛滥, 也进一步加剧了病毒的传播, 如何有效的控制垃圾邮件对于互联网的健康发展意义重大。

一、垃圾邮件定义及特征

垃圾邮件现在还没有一个非常严格的定义, 一般来说, 凡是未经用户许可就强行发送到用户邮箱中的任何电子邮件被称之为垃圾邮件。由于邮件内容的判定带有主观性, 目前的技术性定义:通过非标准的客户端, 在未经用户同意的情况下发送的大规模邮件。

垃圾邮件一般具有批量发送的特征, 其内容包括赚钱信息、成人广告、商业或个人网站广告、电子杂志等, 甚至含有破坏性 (含有病毒、木马等恶意代码) 的代码。

通过非标准的客户端发送, 是垃圾邮件的另一大特征。

二、垃圾邮件发送技术概述

垃圾邮件发送方式的演化分为三个时期, 在早期的时候, 利用Open-Proxy或Open-Relay发送。在发展阶段, 利用发件人地址随机变化、邮件主题随机变化等手段发送。现在垃圾邮件发送手段更加恶劣, 往往采用信件正文加入干扰内容识别算法的文字, 利用人的视觉反差来干扰内容分析, 或者结合动态IP技术的低速群发垃圾邮件等。

随着垃圾邮件过滤技术的发展以及人们对发送垃圾邮件者的谴责, 垃圾邮件的制造者不得不采取更为隐蔽的技术, 目前被利用最多的垃圾邮件发送技巧有:

1. 盗取身份, 来自“好人”的身份欺骗

垃圾邮件制造者使用的手段相当多样化, 他们收集全球范围的发信者IP地址, 使用新的垃圾邮件域名, 垃圾邮件或藏匿在其他“健康”U R L的后面以创建U R L好信誉, 或利用如博客、免费网站等这些免费场所来达到身份欺骗。在发送过程中, 它们用同样的技巧来隐藏发信者IP地址, 将URL重定向到已知垃圾邮件域名或IP地址, 或者使用许多免费的资源。

2. 图片垃圾邮件及多层图片垃圾邮件

在所有的垃圾邮件中, 图像垃圾邮件所占份额越来越大。垃圾邮件发送者越来越会隐蔽信息, 他们以图片的形式发送, 而不是用文本。这些图像所含的内容是生日聚会照片、或者内嵌某公司的股票信息, 能够蒙蔽一些过滤器而不被发现。图像垃圾邮件还会加重电子邮件系统的负担。

3. 躲避全球IP监控及信誉评分

信誉评分技术是指根据信誉 (Reputation) 筛检邮件的方法, 依照寄件行为接受评比。评比标准依据几项变数, 例如收件人的申诉率、发送邮件的数量, 以及对收件人取消订阅要求的回应。另外, IP地址黑名单也是垃圾邮件发送者要回避的, 为此, 他们必须不断寻找新的僵尸服务器代发垃圾邮件。

4. 躲避内容过滤, 夹带URL或者电话号码

越来越多的垃圾邮件发送者为躲避内容过滤引擎, 将邮件伪装得越来越像一封正常邮件, 而邮件中夹带的URL地址或者电话号码才是垃圾邮件发送者真正的意图所在。

三、反垃圾邮件技术

目前所有的反垃圾邮件技术都可被划分为基于内容解析的与基于行为解析的技术。

基于内容的反垃圾邮件技术的原理是:如果一封邮件被判定为垃圾, 则凡是与该邮件有相同校验的邮件, 都将被视作垃圾邮件而被丢弃或做其他处理。基于内容过滤的技术有很多, 包括关键字过滤、黑白名单、HASH技术、贝叶斯统计等。

内容过滤主要通过相关技术用于接收系统 (MUA, 如Outlook Express或者MTA, 如Send Mail) 来辨别和处理垃圾邮件。

基于行为解析的反垃圾邮件技术是从电子邮件发送和传输的行为出发, 根据邮件会话信息, 寻找垃圾邮件的来源, 提取邮件的行为特征, 进而加以判断识别。基于行为解析的反垃圾邮件技术有SMTP路径分析技术、Sender ID、灰名单等。常用的特征包括收件人个数、发送次数、发送频率、路由信息等。这个技术不必完整收下邮件即可完成“是否是垃圾邮件”的判断。

以下是常见的几种反垃圾邮件技术。

1. 关键字过滤规则制定问题

关键字的定义不是太严格就是有遗漏, 需要使用人员结合自己企业的具体使用情况、商业常用字样等因素, 总结制定出一套适合自己单位的关键字定义规则。

2. IP黑白名单技术

如果公司长时间、高频率地对外发送商业字样的邮件, 很容易会被判断为垃圾邮件。从设备操作人员来讲, 就需要根据实际情况适当调整邮件的发送频率和时间段, 尽量减少被误判为垃圾邮件的几率。

3. RBL列表

由于RBL列表大多由国外机构提供, 难免会出现水土不服的现象。实际的操作人员针对此问题应该选择权威性较强和列表比较完善的机构列表。同时, 为了第一时间避免自己公司的邮件被定义为垃圾邮件, 也可以事先向RBL组织提交自己公司的域名, 表明该域名的合法性。

4. SPF技术

该技术能够很好地解决身份伪装问题。设备的操作人员可以很好地利用该技术, 及时调整SPF记录。

5. 病毒过滤技术

当前的反垃圾邮件设备大多具有病毒扫描引擎, 而带有病毒的邮件是垃圾邮件的一种, 反垃圾邮件设备大多也会具备针对病毒邮件制定规则的项目。操作人员要详细了解主流病毒邮件特征, 包括附带的附件文件格式类型、正文的恶意代码等, 从而制定合理有效的反病毒邮件规则。

6. 单一技术的局限性

单一技术都有其自身的局限性, 合理搭配多种过滤技术是反垃圾邮件设备的发展趋势。作为企业反垃圾邮件的主要决策者和具体操作人员, 需要选择结合多种过滤技术的反垃圾邮件设备, 实现更好的过滤效果。

7. 过滤技术的发展性和先进性

传统的关键字过滤和RBL技术, 都存在较高的误判和漏报现象, 而且当今垃圾邮件的发送技巧越来越高明、越来越隐蔽。我们必然要不断研究流行的垃圾邮件发送技巧, 适时选择更新的反垃圾邮件技术, 来对付垃圾邮件。比如, 针对身份伪装选择SPF技术, 针对图片垃圾邮件选择图片分析和多重图片识别技术, 针对垃圾邮件的代理转发问题, 选择信誉评分技术等等。我们也应针对先进的过滤技术, 选择技术领先的反垃圾邮件设备。

四、反垃圾邮件网关部署方案

1. 校园网络反垃圾邮件的常见困扰集中体现在以下几方面:

(1) 现有的防火墙和病毒防火墙只能阻断来自网络的普通攻击, 不能有效防止Internet混合在垃圾邮件当中的病毒, 蠕虫, URL等威胁, 使得病毒能够躲避传统的防御方法, 且将其代理文件植入到校级邮件系统中。

(2) 现有垃圾邮件防护系统不能有效地过滤垃圾邮件, 导致系统内存在着大量的垃圾邮件, 占用了传输、存储和运算资源, 不但造成网络资源浪费, 降低了系统的使用率, 还造成邮件服务器拥塞, 降低了网络的运行效率, 严重影响正常的邮件服务, 对信息安全系统性能形成重大影响。

(3) 由于垃圾邮件具有反复性、强制性、欺骗性、不健康性和传播速度快等特点, 会对在校师生造成不良影响。并且部分含敏感政治内容的邮件, 打扰了工作人员正常的邮件通信。国家公安部已经下发了专门的通知, 要求各单位加强对邮件系统的过滤和管理。

(4) 容易吸引大量的攻击测试, 高校网络的邮件系统素来是黑客下手的主要攻击目标之一, 甚至易成为垃圾邮件的中转站, 这样不但严重影响校园内部正常的邮件交流, 而且很容易被国际反垃圾邮件组织列入黑名单, 从而造成该邮件服务器无法向外界正常的发送邮件。

2. 部署方案

以EQ Manager邮件安全网关为例, 校园网垃圾邮件网关有以下几种部署方式。

EQ Manager邮件安全网关属于应用代理型网关, 在部署方式上具有灵活、高速、无缝、高可靠性等优点, 从部署方式上区分, EQ Manager邮件安全网关可以分为与电子邮件系统“同台安装模式”以及“分台安装模式”两种。

(1) 同台安装模式部署步骤:

(1) 在电子邮件系统上安装EQ Manager邮件安全网关。

(2) 将原电子邮件服务25端口改为其他端口 (如8025端口) 。

(3) 启动EQ Manager邮件安全网关接管25端口, 使邮件系统得到防护。

同台安装模式中邮件安全网关, 将接管原邮件系统的25端口, 并把电子邮件系统移到其他服务端口 (如8025端口) 。电子邮件连接请求先与EQ Manager邮件安全网关所驻守的25端口通信, 邮件经过邮件安全网关处理后再投递给本机的电子邮件系统。

同台安装模式的优点是不需要改变原有电子邮件传输路径, 实现无缝切换。

(2) 分台安装模式

EQ Manager邮件安全网关采取与电子邮件系统分台安装模式时的部署方式较灵活, 基本上可以有三种方式实现EQ Manager邮件安全网关的部署。

(1) 重定向电子邮件系统的MX记录:

在一台独立服务器上安装EQ Manager邮件安全网关, 并分配一个合法的IP地址给这台服务器。

把原来指向电子邮件系统的M X记录, 重定向到E Q Manager邮件安全网关。

在EQ Manager邮件安全网关配置SMTP路由, 投递到电子邮件服务器。

(2) 通过防火墙或网关设备做地址映射:

在一台独立服务器上安装EQ Manager邮件安全网关, 并分配一个合法的IP地址给这台服务器。

从防火墙或网关设备上, 将原来指向电子邮件服务器的公网IP地址, 地址映射到EQ Manager邮件安全网关。

在EQ Manager邮件安全网关配置SMTP路由, 投递到电子邮件服务器。

(3) 接替电子邮件系统的IP地址:

在一台独立服务器上安装EQ Manager邮件安全网关, 并接替原电子邮件系统的IP地址。

给电子邮件服务器重新设置一个新的IP地址。

在EQ Manager邮件安全网关配置SMTP路由, 投递到电子邮件服务器。

上述是三种常用的部署方式, 虽然所修改的网络参数不同, 但最终实现的都是让EQ Manager邮件安全网关接管电子邮件系统的SMTP服务 (25端口) 。部署完成后, 外界无论是正常邮件、恶意攻击还是垃圾邮件, 均会由EQ Manager邮件安全网关进行智能判别和过滤, 然后再从邮件安全网关将正常邮件投递到下级电子邮件系统。这样, EQ Manager邮件安全网关就成为了外界电子邮件通向电子邮件系统的惟一通道, 为电子邮件系统提供了可靠的安全屏障。分台安装模式的优点是可以在不中断邮件服务的条件下进行有效切换, 由于DNS记录的缓冲刷新机制, 部署EQ Manager邮件安全网关对于用户来说属于无缝切换, 不会造成电子邮件服务的中断。

五、结束语

在校园网络环境中, 反垃圾邮件的难点在于垃圾邮件发送者经常变换发信地址、伪造发信地址、利用程序随机挑选变换邮件内容, 这些都给垃圾邮件的治理设置了技术障碍。根据校园网络的特点, 反垃圾邮件网关的过滤效率、可维护性、可扩展性和稳定性, 是部署反垃圾邮件网关应该考虑的主要因素。目前垃圾邮件呈现智能化 (多种技术综合应用) , 样本多样化、随机化、复杂图片合成、复杂附件技术被应用。反垃圾邮件网关的部署对垃圾邮件的防控不能尽善尽美, 对校园网来说, 不仅要防范, 而且还要保证自己网内不向外发垃圾邮件。

参考文献

[1]天融信公司.天融信网络卫士反垃圾邮件网关行为识别技术为防范垃圾邮件提速[J].计算机安全, 2006 (7) .

[2]垃圾邮件.h t t p://b a i k e.b a i d u.c o m/view/1522.html?wtp=tt.

[3]陈勇, 李卓桓.反垃圾邮件完全手册[M].北京:清华大学出版社, 2006

反垃圾邮件技术 篇9

梭子鱼网络宣布梭子鱼垃圾邮件防火墙 已在Amazon Web Services (AWS)的AWS Marketplace上市。梭子鱼垃圾邮件防火墙可为那些将电子邮件基础 设施迁移到AWS云中的用 户提供屡获殊荣的安全功能。

梭子鱼工 程副总裁Blair Hankins表示:“越来越多的企业机构希望将应用和基础设施迁移到云中,我们已经看到用户对我 们目前在AWS Marketplace中提供的安全技术产生了极大的兴趣。在AWS上提供梭子鱼垃圾邮件防火墙是梭子鱼安全套件扩展到云中的又一举措,这一举措也为我们在当今市面上所提供的网络安全和Web应用安全产品做了更全面的补充。”

Amazon Web Services公司云商 务副总裁Terry Hanold表示 :“我们很高 兴梭子鱼将其专业的反垃圾邮件解决方案带入AWS Marketplace。越来越多的用户将其电子邮件基础设施迁移到AWS, 在AWS中轻松发现、评估并部署安全解决方案的能力也变得愈发重要。”

垃圾邮件过滤技术分析 篇10

互联网发展迅猛, 已经渗透到人们工作和生活中。伴随着互联网的普及, 电子邮件已经成为人们日常工作和生活的重要的通信手段, 而且已经成为人们日常交流的一种重要途径。然而, 除了包含有用信息的电子邮件外, 互联网中还充斥着大量的垃圾邮件 (spare mail) 。当前, 大量垃圾邮件的出现已经成为互联网的一个相当严重的问题。数量巨大的、无用的, 甚至包含有害信息的电子邮件在互联网中传播。这不仅消耗了大量的网络资源, 而且威胁到邮件系统中用户的信息安全, 对邮件服务商也造成了严峻的挑战。人们研究、开发各种有效技术措施来阻止垃圾邮件的传播, 建设健康、和谐的互联网环境, 已经成为当前网络安全研究的重要内容之一。

1 垃圾邮件的分类

垃圾邮件种类非常多, 而且形式变化多端。可以按照内容分类, 也可按照发送及传播方式分类。

按照电子邮件内容主要可分为以下6类:

(1) 用于商品广告、促销的商业垃圾邮件;

(2) 包含非法、反动宣传内容的垃圾邮件;

(3) 包含暴力、色情等不良信息的垃圾邮件;

(4) 包含病毒信息的垃圾邮件;

(5) 包含诈骗、恐吓内容的垃圾邮件;

(6) 包含其他内容的垃圾垃圾。

按照发送及传播方式主要可分为以下4 类:

(1) 通过传播方自己购买或租用的邮件服务器, 直接利用端口25, 直接发送到用户邮箱的垃圾邮件;

(2) 利用非法手段, 通过合法的邮件服务器, 间接发送到用户邮箱的垃圾邮件;

(3) 利用伪造手段, 向服务器发送不可能投递成功的邮件, 造成邮件服务器自动产生“投递失败信件”, 从而将邮件返回发送给用户的垃圾邮件;

(4) 利用垃圾邮件传播前指定中继服务器等发送路径的手段, 造成垃圾邮件在发送路径的每一个中继服务器都会耗费巨大的网络资源, 从而将以消耗网络资源为目的的链式中继垃圾邮件发送给用户。

2 垃圾邮件的传播机理

随着互联网和电子邮件技术的发展, 垃圾邮件传播技术也在同步发展, 如果想彻底解决垃圾邮件问题, 就必须首先了解垃圾邮件的传播机理。一般的电子邮件传输协议均采用简单邮件传输协议, 即SMTP。因为SMTP不需要任何认证步骤, 所以无论电子邮件从哪里发出和发送目的地, 都会顺利地接收并发送。垃圾邮件传播可分为以下4 个主要步骤:

(1) 垃圾邮件制作者利用SMTP协议将垃圾邮件发送至邮件服务器;

(2) 邮件服务器根据接收到的电子邮件接收地址, 采用SMTP协议把邮件转发给邮件接收服务器;

(3) 邮件接收服务器将收到的垃圾邮件放到接收者的邮箱;

(4) 垃圾邮件接收者通过自己的邮箱接收邮件。

垃圾邮件发送和接收的整个过程均不需进行认证, 所以垃圾邮件制作者就可以选择互联网上每一台SMTP服务器发送垃圾邮件, 以达到传播垃圾邮件的目的。

垃圾邮件的出现和泛滥对人们的工作和生活造成了极大的不便和威胁, 因此, 部分邮件服务提供商为了验证邮件发送者的身份, 会要求对邮件发送者或邮件服务器进行认证。于是, 一种新的邮件传输协议, 即ESMTP协议就被提出来了, 它是在SMTP的基础上, 对其功能进行了一些改进。然而, ESMTP协议对邮件接收与发送邮件服务器间的合法性不进行确认, 漏洞仍然存在。

3 阻止垃圾邮件传播的过滤技术

当前, 国内外的反垃圾邮件技术和产品多种多样, 其中涉及的垃圾邮件过滤技术也不尽相同。通过总结市场上的反垃圾邮件技术和产品, 垃圾邮件过滤技术可大致分为3 种:IP地址过滤技术、SMTP协议过滤技术、内容过滤技术。其中, 内容过滤技术是当前和未来垃圾邮件过滤技术的主要研究方向。

正常的电子邮件一般由3 部分构成:邮件地址、邮件主题、 邮件内容。这3 部分内容所包含的信息正是垃圾邮件过滤技术分析、判断的依据。因为这3 部分内容均是以文本形式, 所以垃圾邮件的分析与判断, 其本质上是文本分类技术, 而文本分类技术的核心就是关键词的统计与提取。因此, 从理论上说, 内容过滤技术的核心是电子邮件中文本包含的关键词的统计与提取。

因为垃圾邮件的数量、种类越来越多, 过滤技术需要的计算量越来越大, 所以人们将机器学习方法应用到垃圾邮件内容过滤技术中, 主要包括2 种方法:基于规则方法;基于统计方法。基于规则方法:首先分析邮件内容中包含的特征, 然后将分析得到的特征与垃圾邮件的特征进行比较, 从而发现并判断出垃圾邮件。基于统计方法:分析得到电子邮件中某种信息的概率, 然后统计待判断电子邮件中该类信息的概率, 从而得出结论。下面将详细介绍以上2 种方法。

3.1 基于规则方法

基于规则方法首先分析电子邮件的标题、内容等信息, 然后将分析得到的特征与待判断的电子邮件中相关特征间的关联关系, 就可以得出邮件是否是垃圾邮件的判断。当新的电子邮件到达的时候, 通过计算、判断关联关系来判定它是否是垃圾邮件。基于规则方法中最具有代表性的是IBM公司的C-K系统, 通过模式匹配方法, 总结出相关特征, 从而用来判断、确定新邮件是否是垃圾邮件。

因为需要通过分析已有的垃圾邮件, 才能得到需要的关联关系, 而这些关联关系仅能反映出以前的垃圾邮件的相关特征。所以, 当新的垃圾邮件产生以后, 需要获取这些新的垃圾邮件, 再次分析、总结, 得到更新的关联关系。因此, 基于规则方法在实际使用中, 必须保证关联关系的实时、准确。随着垃圾邮件种类和数量的不断增长, 必然造成关联关系越来越多、 越来越复杂, 最终影响垃圾邮件分析、判断的效率。当前, 基于规则方法主要有4 种: (1) Boosting法; (2) SA评分系统; (3) 粗糙集法; (4) 决策树法。

3.2 基于统计方法

基于统计方法主要有5 种。

3.2.1 k-NN法

k-NN法, 即k邻近法, 该方法利用与待判断样本相近的几个样本, 判定新样本的类别。k邻近法的基本思想是:如果新样本与k个最相近样本中大多数样本属于相同的类别, 那么新样本也应该归类于这个类别。

3.2.2 Winnow法

Winnow法, 即线性分类器, 该方法利用样本训练, 找出某个类别中包含的特征权重向量w= (w1, w2, …, wn) , 然后设定阈值 θ。设新样本为x= (x1, x2, …, xn) , 如果wT·x>θ, 则判断新样本属于该类别;否则, 判断新样本不属于该类别。

3.2.3 SVM法

SVM法, 即支持向量机法, 该方法利用构造出来的最优线性分类面来进行分类。首先把样本空间线性映射到另一个空间, 然后在新空间中构造出最优线性分类面。

3.2.4 Rocchio法

Rocchio法, 即相关反馈法, 该方法利用训练集给各类别构造一个自己的原始向量, 然后将所有新样本向量化, 最后计算正例向量和反例向量的加权差作为类别向量。

3.2.5 Bayes法

Bayes法, 即贝叶斯法, 该方法利用对大量已知类别的邮件的分析, 统计、提取出最具代表性的关键词作为特征, 得到统计分布模型。当新邮件到来时, 分析它的特征, 从而推算出新邮件是垃圾邮件的概率。因为贝叶斯法过滤垃圾邮件所依赖的训练集中的垃圾邮件和非垃圾邮件是由垃圾邮件过滤者自己设定的, 所以垃圾邮件制造者无法判断出训练结果。而且贝叶斯法过滤垃圾邮件某种程度上具有自主学习能力, 所以目前贝叶斯法过滤垃圾邮件使用最为广泛。

参考文献

[1]罗倩, 秦玉平, 王春立.反垃圾邮件技术综述[J].渤海大学学报, 2008 (4) :385-389.

[2]潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所, 2004.

图像型垃圾邮件过滤技术研究进展 篇11

关键词:图像型垃圾邮件,垃圾邮件图像,特征抽取,邮件过滤,近似复制检测

0 引 言

如今,人们的交流已经进入电子时代。电子邮件因为具有高效、方便、快捷、且成本低廉的特点,而成为现代社会中不可或缺的通信工具。但是,正因为电子邮件具有的上述优点,使其在方便人们通信的同时,也逐渐成为怀有一定目的的各色人等用作广告发送、淫秽色情内容传播、恶意诈骗、反动思想及言论宣传的实施途径。这些不请自来,强行进入用户邮箱的邮件即称为垃圾邮件。

早期的垃圾邮件大多为文本型垃圾邮件。对于文本型垃圾邮件的过滤问题,学术界已经提出了很多解决方案,比如发信人认证、黑白名单、行为分析、内容分析、关键字过滤等[1,2]。2006年后,为逃避垃圾邮件文本过滤器的检测,垃圾邮件制造者开始大量地将原来以文本形式传播的垃圾邮件内容嵌入到图像中,并将这些图像作为垃圾邮件附件进行传播,使得传统的垃圾邮件过滤方法不再有效[3]。据二六三公司提供的数据显示,2006年图像型垃圾邮件每天数量可达150多亿封,占到垃圾邮件总量的25%~45%,2007年这一比例更高达52%[4]。赛门铁克公司2009年发布的垃圾邮件报告显示,全球垃圾邮件已占邮件总量的90%以上,其中图像型垃圾邮件虽不像2007年时占整个垃圾邮件大半江山,但仍占据约20%的比例[5]。2009年,中国图像型垃圾邮件已升至垃圾邮件总量的约50%[6],形式更加严重。

中国是垃圾邮件的受侵大国之一。为分析垃圾邮件特征,有效遏制垃圾邮件的滥发态势,中国互联网协会于2006年建设了反垃圾邮件综合处理平台,并依托国家计算机网络应急技术处理协调中心及二六三网络通信股份有限公司的技术力量联合建设了垃圾邮件分析系统,作为支撑中国反垃圾邮件工作的技术平台。这些系统的建设对有效控制中国垃圾邮件的发送总量起到了积极作用:2005年中国垃圾邮件发送总量占全球垃圾邮件发送总量的23.4%,居第2位;而2009年这一比例已降至4%,居第7位;2012年,进一步降至3.1%,位居第10位。然而,现有技术平台对图像型垃圾邮件的分析功能还十分欠缺。尤其值得关注的是,图像型垃圾邮件近来被境外敌对分子和反动势力大肆用于反动宣传和渗透。2009年,在中国新疆自治区发生的7.5事件中,图像型邮件、Web网页和手机短信共同扮演了动乱势力串联的技术推手角色。可以想象,如果在过滤技术上不能跟进强而有力的技术手段,图像型垃圾邮件必将成为敌对分子和反动势力进行串联、散布谣言和恐吓信息的重要手段,在某些重要时刻,有可能对国家安全造成严重威胁。

图1为利用反垃圾邮件综合处理平台捕获的部分垃圾邮件图像样本。具体来说,图1为受不同类型噪声干扰的图像样本,在这些垃圾邮件图像中使用了波动干扰、旋转干扰、背景图像干扰等多种干扰手段,给现有过滤系统制造了一定的困扰和防范阻碍。

图像型垃圾邮件的平均大小约是文本型垃圾邮件的10倍以上,对其进行传播和存储多会消耗更多的网络带宽、计算及存储资源。有效过滤图像型垃圾邮件,对于节约社会资源,维护网络安全,减少对邮件用户的侵害干扰则至关重要。对其开展深入、系统的研究亦将具有不可言喻的重要理论及现实意义。

1 图像型垃圾邮件过滤总体概述

1.1 常用概念

首先介绍几个常用概念。

图像型垃圾邮件:是指通过图像的方式传播垃圾内容的垃圾邮件,图像既可以包含在邮件附件中,也可以托管于其它网站。

垃圾邮件图像:是指图像型垃圾邮件中含有垃圾信息的图像,如具有特定企图的政治、宗教图像,具有商业目的的广告宣传图像、色情图像等。

CAPTCHA(Completely Automated Public Turing Test to Tell Computers and Humans Apart, 全自动区分计算机和人的图灵测试)[7]:由美国卡内基梅隆大学开发,这种程序可以生成并评价人类可很容易通过但计算机无法通过的测试。常被用于为垃圾邮件图像添加人为干扰,以降低OCR、分类器等的辨识能力。

1.2 垃圾邮件图像特征

垃圾邮件图像表现了许多有别于正常图像的特征。谷歌公司的Mehta等[8]对垃圾邮件图像的典型特征进行了详细分析。本文亦对其做以如下归纳总结:

(1)近似复制与批量发送特征。垃圾邮件发送者通常利用相同的模板或者称为近似复制的方法生成垃圾邮件图像,再进行批量发送。

(2)文本特征。为躲避传统垃圾邮件过滤器的检测,大量文字信息将转移至邮件图像中进行发送。

(3)干扰与噪声特征。为了降低OCR文本信息提取的准确性,垃圾邮件发送者通常借助CAPATCHA等技术在图像中加入大量人为干扰因素,以降低特征检测的有效性。美国普林斯顿大学的Wang等[9]总结了垃圾邮件图像中经常出现的波浪形文字、变形、旋转等21种干扰手段。

(4)人工生成图像。同自然图像相比,垃圾邮件图像多由计算机生成,并非自然场景图像,而且颜色通常较单调,纹理特征较简单,同时多包含有人工修改痕迹。

(5)其它特征。考虑时间以及带宽等因素,垃圾邮件发送者多采用图像压缩比较高的图像格式,如.jpg、.gif和.png等,并且图像的尺寸通常也不会过大。

1.3 国内外研究现状

根据垃圾邮件图像的特征,学者们提出了大量的过滤方法。目前,图像型垃圾邮件的过滤技术主要基于近似特征、图像中的文本特征、图像浅层特征等,并结合机器学习等相关方法进行判断。下面,对各种方法分专节展开详细的分析与论述。

1.3.1 基于近似特征的过滤方法

相同来源的垃圾邮件图像通常利用相同的模板生成,只是附加不同的随机干扰。对此,可以利用批量发送的垃圾邮件图像间的相似特征进行过滤。美国普林斯顿大学的Wang等[9]提出利用过滤器组进行近似特征图像检测,其中每个过滤器采用不同的特征,并分别进行分类器训练。北京邮电大学的He等[10,11]提出将图像的基本特征与阈值进行比较,并将图像分为垃圾邮件图像与可疑垃圾图像,对于可疑图像则进一步利用灰度和颜色直方图与样本图像进行相似性判断。

批量发送的图像型垃圾邮件具有在一定时间内于网络中大量、高密散发、且内容高度相似的特征。因此,可以在邮件服务器端对接收的邮件图像进行聚类分析,从而获取更多的有益信息。美国西北大学的Gao等[12,13]提出将图像型垃圾邮件的过滤分为服务器端和客户端两部分,并在邮件服务器端进行图像聚类,正常图像通常对应较小的图像聚类,而垃圾图像则对应较大规模的图像聚类。因此,可以对规模较大的聚类中的图像的来源展开进一步分析。这种方法可以提前放过部分正常图像,从而提高过滤效率。美国阿拉巴马大学伯明翰分校的Zhang等[14]和Chen等[15]提出利用聚类识别来自相同源的垃圾邮件图像的方法。相同聚类中的图像来自相同源地址的可能性较高,这样有利于对这些地址进行进一步的跟踪分析。此外,谷歌公司的Mehta等[8]提出利用高斯混合模型对图像进行描述,并利用Jensen-Shannon差异性判断进行相似性度量的方法完成图像聚类。

利用邮件批量发送的特征,可以通过聚类对来自相同源的批量图像型垃圾邮件进行监测,有利于实时发现可疑的发送者,聚类结果可以作为后续判断的基础依据。这种方式对于降低计算开销,提高系统吞吐量具有较好作用,但却很难避免对于正常图像的误判。

1.3.2 基于图像文本的过滤方法

(1)基于图像文本内容的过滤方法

图像型垃圾邮件的一个重要特征是垃圾邮件发送者常常会将本该通过文本方式发送的内容嵌入图像中进行发送。因此可以检测图像文本中是否包含特定的关键字,如:“Viagra”,“发票”,“贷款”等。意大利卡利亚里大学的Fumera等[16]、美国南加州大学洛杉矶分校的Youn等[17]都提出了利用OCR工具识别邮件图像中的文字,再将文字内容送入文本过滤器中判断这幅图像是否属于垃圾图像。但Fumera等[18]随后指出,这种方法的最重要缺陷是:文字识别部分所需计算量大,在时间上难以满足垃圾邮件过滤海量数据的实时处理要求;并且OCR仅对干净的图像具有较好的效果,为防止嵌入图像中的文本信息被提取出来,垃圾邮件制造者多会使用一些干扰技术为图像添加人为干扰,降低了OCR的识别准确率。

为了应对文本过滤器,垃圾邮件制造者还常采用错拼、误拼等方法混淆一些关键字,如:mortgage拼写为“mort gage”, “mo>rtglage”等。同时,对于添加噪声干扰的图像, OCR提取的文本信息还可能存在大量的错拼、误拼等现象。另外,OCR通常很难辨别‘u’和‘v’, ‘i’和‘I’, ‘l(el)’和‘1(one)’等字符。因此,为了进一步提高OCR应用的准确性,一些学者提出了改进方法。澳大利亚堪培拉大学的Ma等[19]提出为样本库中的每个关键字建立马尔科夫模型,由此对于OCR提取的未知字符序列,就可借助假设检验阈值依次判断该字符序列是否为某关键字的误拼。美国斯坦福大学的Lee等[20]利用字典树隐马尔科夫模型(LT-HMM)对邮件文本内容中的误拼、错拼等情况进行了详细分析,利用英文字典中常用的45 475个单词,以及ASCII码表中除控制符外的字符构建了一个更加鲁棒的隐马尔科夫模型,并通过统计常用的单词字符组合以及误拼、错拼情况构建了隐状态转换表和发射状态转换表。该方法可以对误拼、错拼、字符片段进行良好勘误,且具有较高的鲁棒性。但是LT-HMM具有大量的状态,内存开销较大。针对该问题,韩国浦项工科大学的Lee等[21]通过将具有相同发射概率的状态组合为超级状态,提出了一种利用动态加权隐马尔科夫模型降低HMM复杂度的方法,该方法则有效降低了HMM的状态数。上述这些手段均有利于提高利用图像文本内容实行过滤的各类方法的准确性。

(2)基于文本区域特征的过滤方法

基于文本内容识别的过滤方法除了受OCR识别准确性影响外,计算开销大也限制了其应用范围的扩展。因此,一些学者提出利用图像中的文字区域特征进行过滤的方法,从而避免进行文本内容识别。如美国SRI研究所的Aradhye等[22]提出定位图像中的文本区域,再将文字区域在整幅图像中所占的面积比值、颜色饱和度、颜色散度等特征送入支持向量机训练后用于判断垃圾邮件图像。美国加州大学的Wu等 [23]提出利用图像中内嵌的文字区域特征,标题或者计算机自动生成图像的特征,图像的位置信息特征则构成邮件的特征向量,再同样借助支持向量机进行分类判断。

与基于文本内容的过滤方法相比,该类判断方法的效率有较大提高。但由于文本信息也可能在正常图像中出现,因此这类方法容易误断一些含公文扫描图像以及包含文本信息的宣传图像的正常公务邮件。而实际环境中,对于正常邮件的误判可能会带来极严重的影响,因此这类方法的实际应用效果仍有待进一步研究。

1.3.3 基于图像浅层特征的过滤方法

为了提高图像型垃圾邮件的判断效率,很多研究者提出利用图像浅层视觉特征进行快速综合判断的方法。这种方法类似于图像分类,通过提取图像特征,并将其归类为正常图像和垃圾邮件图像。目前,这类方法的区别主要在于提取的图像特征和使用的分类器不同。

(1)浅层特征结合传统分类器

如美国宾夕法尼亚大学的Dredze等[24]提出利用图像类型、大小、图像高、宽、高宽比、颜色均值、色饱和度、边缘特征、主色调覆盖范围等特征构成图像属性,并利用最大熵和贝叶斯分类器进行判别。美国安全计算公司的Krasser等[25]提出利用图像像素位宽度、高度、图像类型、文件大小、图像面积、压缩比等九个特征用于描述图像的属性。又结合决策树和支持向量机来进行判断。电子科技大学的万明成等[26]提出利用垃圾邮件图像的颜色数量、方差、连续出现的颜色数、主色覆盖范围、色饱和度表示图像的颜色特征,再利用图像特征点的主方向分布特征表示文字分布特征,同时使用支持向量机进行判断。Wang等[27]提出利用图像基本特征、颜色和纹理等图像浅层特征表述图像。

这种直接使用浅层视觉特征的方法也存在一些缺点,比如所选择的特征和垃圾邮件图像本身不一定具有强相关性,因而必须对所使用的特征进行仔细选择,而且分类器的训练还会受到样本库的影响,使得在实验环境下效果很好的算法在实际网络环境中却未必能取得同样的过滤效果。

(2)分类器设计改进

这类方法大量借助分类器进行判别,但存在以下几点问题,而针对具体问题已然提出了一些改进方法:

①现在的分类器准确性受样本库规模影响。已有研究工作中使用的分类器大都为有监督学习方法,需要预知一个已标注的样本库,并以此为基础训练分类器。然而实际情况下,垃圾邮件图像复杂多变,为了保证较高识别率,就需要一个规模较大的样本库,但标注工作带来了很大的人工负担。

针对该问题,美国西北大学的Gao等[28]提出利用主动学习的方法,结合支持向量机和高斯分类器每次选择那些分类器判别最不确定的样本进行标注,并进行分类器训练,以达到使用最少的标注样本而获得最优分类效果的目的。

② 现在的分类器仅在静态的样本库上训练得到,不能实时反映网络中垃圾邮件图像的特征变化,即分类器不具有在线学习功能。

理想情况下的分类器应具有在线学习能力,能够根据图像的变化进行实时或者周期性地更新。浙江师范大学的张浩然等[29]通过分析回归最小二乘支持向量机的数学模型,设计了一种回归最小二乘支持向量机的增量和在线式学习算法。该方法具有较高的执行效率,同时具有一定的遗忘机制,减少了存储空间和分类器的更新时间,适用于图像型垃圾邮件的检测。

③ 现在的过滤方法大都使用单一的分类器,并试图获取较高的判别准确性。实际环境下,垃圾邮件图像经常变化,单一的分类器未必能满足应用要求。

由于垃圾邮件图像复杂多变,可以借助级联分类器对图像进行分层过滤,每层针对不同的图像特征可以构造或者使用不同的分类器,这样对于提高过滤效率及准确性具有更好的作用。

综上可知,基于浅层特征的过滤方法性能受提取的特征和分类器两方面的影响。所选特征应该能够有效反映垃圾邮件图像和正常图像之间的差异。对于分类器,实际应用中仍然存在诸如泛化问题、过滤准确性受样本库影响等一定的问题。

2 图像型垃圾邮件过滤相关产品及开源工具

目前,国际主流的反垃圾邮件服务商,如梭子鱼、IronPort、McAfee、卡巴斯基、Fortinet等都提供对图像型垃圾邮件过滤的功能支持。但其提供产品却普遍缺乏对图像内容的深层分析能力,对图像型垃圾邮件的过滤却主要依赖于行为分析和简单的图像指纹过滤,由此对图像型垃圾邮件的主动发现功能均十分薄弱。例如,梭子鱼通过维护基于OCR的模糊逻辑规则,实时更新垃圾邮件规则库。通过复合OCR 引擎处理已经确认的垃圾邮件图像,生成图像指纹并自动打包传给部署在世界各地的在线梭子鱼垃圾邮件防火墙以更新核心威胁数据库。IronPort提出了一种两层的图像垃圾邮件防护机制。第一层由上下文自适应扫描引擎对收到的邮件进行全面语境分析,以扩大传统的基于内容的方法的分析能力;第二层利用多维模式识别技术对邮件图像进行内层防护。McAfee则通过从邮件图像中提取内部属性,以此来判断该图像是否为垃圾邮件图像。同时,McAfee也使用了图像散列算法为图像创建数字签名,这种技术计算效率较高。卡巴斯基实验室提出了一种“光栅图像垃圾邮件识别技术”,其核心是一套基于概率研发的算法,能够利用数据分析计算的方法判断某幅图像中是否包含文字信息,再运用其它算法提取图像的特征,确定图像中包含可读文字信息的内容。这种方法能更加快速精准地定位包含于图像中的垃圾信息,并能轻易识别专用于干扰文字信息的图像,因而对变形文字同样有效,在较大程度上提高了对图像型垃圾邮件的检测水平。

此外,一些开源的垃圾邮件过滤器,如SpamAssassin、SpamBayes、Bogofilter等都提供了针对文本垃圾邮件的过滤功能,但是对于图像型垃圾邮件的过滤仍然欠佳。如SpamAssassin虽然提供了图像型垃圾邮件过滤功能,但是主要借助于一些开源的OCR工具(如:FuzzyOCR、BayesOCR等)进行图像文本内容提取,再对于提取的文本进行关键字判断或者进行文本内容语义分析。通常OCR分析模块计算复杂度较高,同时仅能够识别“干净”图像中的文本,准确性又易受图像噪声干扰的影响,因此难以在实际的大规模复杂网络环境中获得广泛应用。

3 公开的垃圾邮件图像数据库

用于测试的邮件图像应由垃圾邮件图像和正常图像两部分组成。由于垃圾邮件的特殊性,采集数据十分困难。图像型垃圾邮件的获取则更加困难,因此只有极少数研究机构或学者将其收集的垃圾邮件图像公开。大部分研究者使用的垃圾邮件图像多是从一些公开的垃圾邮件库中搜集[16],如SpamArchive (www.spamarchive.org)和TREC (http://trec.nist.gov)垃圾邮件语料库,或者从大量长期使用的个人邮箱中搜集而得[9,10,28]。需要指出的是,这些公开的垃圾邮件图像库都来自国外,图像中的文本内容多为英文,目前国内还没有公开的测试图像库。相对于垃圾邮件图像而言,正常图像的收集则相对简单。正常图像主要通过四类途径获取:

(1) 从个人邮箱中收集;

(2) 利用搜索引擎并使用如“photo” ,“baby”, “graphic”等关键词在网上搜索[22];

(3) 手工生成一些图像,如贺卡、公司图标、动画以及截屏等;

(4) 从一些公开的正常图像库中获取。表1给出了部分研究者公开的垃圾邮件图像和正常图像库。

4 垃圾邮件图像数据收集方法

垃圾邮件图像主体仍依赖从垃圾邮件中提取。由于邮件收集涉及隐私、信息内容安全等特殊性,使得垃圾邮件图像数据采集更见难度。一些研究者通过对大量长期使用的邮箱进行搜索以全面收集图像数据,但这种方法却受到邮箱使用时间以及邮箱是否被垃圾邮件发送者获知的影响。垃圾邮件发送者经常在网络上通过搜集大量公开的邮件地址,实施垃圾邮件发送。网络中可见大量公布的邮件地址将“@”符改写为“at”或“#”,或者将邮件地址利用图片方式公布,以此拒绝垃圾邮件。因此,可以通过在网络上公开发布大量邮箱地址的方式来长期收集图像型垃圾邮件。

蜜罐[30]是一种独特的安全资源,可以用于探测和诱骗各种网络行为以及攻击手段,因此可以通过蜜罐系统来诱骗各种垃圾邮件。蜜罐系统提供虚假邮件服务,以此诱骗垃圾邮件,进而提取实际网络环境中的图像型垃圾邮件以用于实验分析。这种方法与前者的区别是,通过个人邮箱进行收集的方式受邮件服务商的限制,因为邮件服务商可能会提前对垃圾邮件实行过滤,如此就降低了收集获得的垃圾邮件图像的数量。然而,蜜罐系统自身就可以是一个虚假的邮件服务商,因此具有更好的收集功能,但同时也需要更多的硬件和网络资源的更大开销。

5 讨论与展望

图像型垃圾邮件的频发消耗了大量的带宽、计算以及存储资源,给社会带来了不稳定因素,使得传统垃圾邮件过滤系统面临更为巨大的挑战。在众多研究者以及工业界的共同努力下,图像型垃圾邮件得到了一定限度的遏制。但为了躲避过滤系统,图像的特征则变得越来越复杂并呈现出新的变种,在垃圾邮件中所占比例仍比较高。现在的图像型垃圾邮件过滤系统主要依靠图像特征提取以及分类识别的方法,其性能则依赖于样本库特性、图像特征提取方法和分类器指标数据等。从本文的分析可知,如何从依靠图像型垃圾邮件样本转化到智能图像垃圾邮件识别,提高过滤速度以及识别准确率仍然是一项艰巨的任务。下一步的相关研究工作可以从如下方面开展:

(1)显著性特征提取。如何有效提取区别于正常图像的垃圾邮件图像特征将直接影响判断结果。

(2)复杂场景中的敏感关键字发现。垃圾邮件图像中经常包含大量文本,但是却混杂了噪声、背景干扰等。由于OCR处理效果不佳,因此需要研究复杂干扰场景中的敏感关键字的发现方法。

(3)垃圾邮件的发送途径控制。 卡巴斯基的调查报告指出,垃圾邮件多由垃圾邮件发送者控制的大量僵尸网络来实现发送。僵尸网络能够控制数以百万的计算机,用于发送大量的图像型垃圾邮件。这些垃圾邮件可能发送至不同的邮件服务商。 因此, 可以考虑联合多个邮件服务商, 通过结合僵尸网络的特征和网络安全两方面来严格控制其发送途径。

上一篇:中职学校小班化教学下一篇:数学新理念转变