垃圾邮件图像

2024-11-01

垃圾邮件图像(精选7篇)

垃圾邮件图像 篇1

摘要:电子邮件在给我们带来方便的同时, 也给我们带来了困扰。垃圾邮件的泛滥, 消耗了人们大量的时间和精力, 也给邮件拦截系统带来了巨大的挑战。面对邮件中大量的垃圾图像信息, 传统的文字拦截已无法满足反垃圾邮件系统的需求, 快速、有效的拦截垃圾图片邮件刻不容缓。本系统的主要目的是发现邮件中的垃圾图像信息, 使得用户不受垃圾邮件的困扰, 提升工作效率。系统采用Visual Studio 2010、SQL Server 2008以及Jmail组件, Visual Studio 2010负责系统搭建, SQL Server 2008负责后台数据管理, Jmail负责实现Web端发送、接收邮件, 最终系统实现拦截包含垃圾图像邮件的功能。拦截算法利用角点特征算法对图片进行匹配。实验证明, 角点特征算法具有计算量少、匹配速度快、不受光照等外界因素影响等优点, 适合快速匹配输入的图像。

关键词:垃圾邮件拦截,图像特征,角点特征,图像匹配

现在的邮箱系统虽然都带有拦截垃圾邮件功能, 但大多都基于文本。然而, 垃圾邮件中很大一部分是图像, 并不能被有效拦截[1, 2]。因此, 本文提出建立一个基于图像的垃圾邮件拦截系统。该系统使用Visual Studio 2010搭建系统, 使用SQL Server 2008管理后台数据, 使用Jmail组件实现Web端发送、接收邮件。该系统能够提供两种功能:1、在不改变现有邮件系统的基础上, 实现拦截包含垃圾图像邮件的功能。2、实现单个用户同时管理多个邮箱。

1 基于图像的垃圾邮件拦截系统的建立

1.1 后台数据库建立

整个系统的建立需要后台数据库的支持。SQL Server是一个关系数据库管理系统, 它为关系型数据和结构化数据提供了更安全可靠的存储功能, 使您可以构建和管理用于业务的高可用和高性能的数据应用程序。本系统选择的SQL Server 2008相对于以往的版本更加安全、可靠。

数据库中包含了多个相互关联的表格。用户表:存储用户信息, 字段包括用户名、密码、用户目录。用户邮件表:存储一个用户的邮件信息, 字段包括邮件收件人、邮件发件人、邮件主题、邮件发送时间、邮件是否已读、是否为垃圾邮件、邮件存储名称。垃圾图像表:存储垃圾图像信息, 字段包括垃圾图像ID号、图像名称、存储位置。垃圾图像特征表:存储垃圾图像特征信息, 包括垃圾图像ID号、特性信息。

1.2 邮件的发送和接收

原有的邮件系统不能提供垃圾图像拦截的功能, 本系统为了不改变原系统结构, 使用了Jmail组件。Jmail组件是Dimac公司的邮件收发组件, 它可以完成发邮件的工作, 也可以使用POP3协议收信。与其他邮件组件相比, Jmail可以称得上出色, 除了常见的抄送暗送等多收件人功能外, 它还支持添加嵌入式图片附件, 可以从URL读取文件作为附件, 支持收发邮件时的PGP加密, 另外, 它内置一个群发邮件的对象。世界上已经有超过40万程序员用过Jmail。Jmail基于COM技术, 可以被大多数的编程语言调用, 但主要还是用于ASP和ASP.net。Jmail安装及其简单, 把Jmail.dll文件拷贝到硬盘的某一目录下 (如C:JmailJmail.dll) , 然后执行命令Regsvr32C:JmailJmail.dll即可。

Web端发送邮件首先需要建立Message对象, Message jmessage=new Message () 。然后设置Message对象的相关属性, 包括From (发件人邮箱) , Subject (邮件主题) , Body (邮件内容) , Mail Server User Name (发件人用户名) , Mail Server Password (邮箱密码) 。若需要可设置附件, Add Attachment (“附件路径”, true, “”) 。最后是发信的函数, Send (“发信邮件服务器名称”, false) 。

Web端接收邮件同样需要建立一些对象, 如POP3Class对象用于连接邮件服务器, Message对象用于下载邮件信息, Attachment对象用于下载附件信息。首先是使用Connect (“用户名”, “密码”, “服务器邮件收信地址”, “服务器邮件收信端口”) 函数。然后下载邮件的相关信息, 如发件人, 时间, 主题, 内容, 附件等。

1.3 邮件拦截功能

1.3.1 垃圾图像添加模块

该模块的主要功能是为拦截提供模板。为此, 需要在网页中上传相应的图像, 如果并非整幅都是模板, 需要在图像上给出一个矩形区域。随后系统会自动计算下文提到的特征值。

1.3.2 图像获取模块

图像一般存储在附件中。即使使用MIME协议将图像插入正文中, 当邮件被收到本地后, 图像也被存储在邮件的附件中。

1.3.3 图像匹配模块

本文使用的是Harris角点检测算法, Harris算子是一种有效的点特征提取算子, 这种算子受到信号处理中自相关函数的启发, 给出像素点自相关函数的一阶曲率, 如果曲率值较大则认为该点是角点。由于噪声会造成角点检测的偏差, 为了消除噪声对于角点检测的影响, 使用了一个高斯低通滤波器平滑图像。Harris角点检测主要有以下优点:1、计算简单, Harris算子只用到灰度的一阶差分以及滤波, 操作简单。2、获得的特征均匀且合理, Harris算子对图像中的每个点都计算其兴趣值, 然后在该领域中选择最优点。3、不受摄像机姿态及光照的影响。

接收信件后, 需要查找该图片在数据库中是否有匹配, 若匹配成功, 则将该邮件标识为垃圾邮件。首先计算获得输入图像的角点, 记录角点位置, 计算角点的特征值。然后遍历数据库中每幅垃圾图像的特征值, 计算待匹配图像的角点的特征值和垃圾图像角点的特征值的相似性, 如果它们的差平方和小于等于1.0的话就代表这两个角点相似。当匹配的角点数量超过一定比例, 则认为这幅图像与垃圾图像类似, 即匹配成功, 反之匹配不成功。

2 结论

有效拦截包含垃圾图像的邮件是当前邮件系统仍然没有具备的功能。本文设计了一个基于图像的垃圾邮件拦截系统。该系统实现了邮件的发送、接收, 通过Harris角点特征的比较, 能够快速、准确地挑选出与图像库中相似的图像。整个系统在试验过程中有效地拦截了包含垃圾图像的邮件。

参考文献

[1]刘艳洋, 曹玉东, 贾旭.基于内容的图像型垃圾邮件过滤技术研究[J].辽宁工业大学学报 (自然科学版) , 2014, 34 (2) :86-90.

[2]秦伟.基于OCR的图像型垃圾邮件过滤系统研究[J].机械工程与自动化, 2013 (181) :184-185.

图像型垃圾邮件过滤技术研究进展 篇2

关键词:图像型垃圾邮件,垃圾邮件图像,特征抽取,邮件过滤,近似复制检测

0 引 言

如今,人们的交流已经进入电子时代。电子邮件因为具有高效、方便、快捷、且成本低廉的特点,而成为现代社会中不可或缺的通信工具。但是,正因为电子邮件具有的上述优点,使其在方便人们通信的同时,也逐渐成为怀有一定目的的各色人等用作广告发送、淫秽色情内容传播、恶意诈骗、反动思想及言论宣传的实施途径。这些不请自来,强行进入用户邮箱的邮件即称为垃圾邮件。

早期的垃圾邮件大多为文本型垃圾邮件。对于文本型垃圾邮件的过滤问题,学术界已经提出了很多解决方案,比如发信人认证、黑白名单、行为分析、内容分析、关键字过滤等[1,2]。2006年后,为逃避垃圾邮件文本过滤器的检测,垃圾邮件制造者开始大量地将原来以文本形式传播的垃圾邮件内容嵌入到图像中,并将这些图像作为垃圾邮件附件进行传播,使得传统的垃圾邮件过滤方法不再有效[3]。据二六三公司提供的数据显示,2006年图像型垃圾邮件每天数量可达150多亿封,占到垃圾邮件总量的25%~45%,2007年这一比例更高达52%[4]。赛门铁克公司2009年发布的垃圾邮件报告显示,全球垃圾邮件已占邮件总量的90%以上,其中图像型垃圾邮件虽不像2007年时占整个垃圾邮件大半江山,但仍占据约20%的比例[5]。2009年,中国图像型垃圾邮件已升至垃圾邮件总量的约50%[6],形式更加严重。

中国是垃圾邮件的受侵大国之一。为分析垃圾邮件特征,有效遏制垃圾邮件的滥发态势,中国互联网协会于2006年建设了反垃圾邮件综合处理平台,并依托国家计算机网络应急技术处理协调中心及二六三网络通信股份有限公司的技术力量联合建设了垃圾邮件分析系统,作为支撑中国反垃圾邮件工作的技术平台。这些系统的建设对有效控制中国垃圾邮件的发送总量起到了积极作用:2005年中国垃圾邮件发送总量占全球垃圾邮件发送总量的23.4%,居第2位;而2009年这一比例已降至4%,居第7位;2012年,进一步降至3.1%,位居第10位。然而,现有技术平台对图像型垃圾邮件的分析功能还十分欠缺。尤其值得关注的是,图像型垃圾邮件近来被境外敌对分子和反动势力大肆用于反动宣传和渗透。2009年,在中国新疆自治区发生的7.5事件中,图像型邮件、Web网页和手机短信共同扮演了动乱势力串联的技术推手角色。可以想象,如果在过滤技术上不能跟进强而有力的技术手段,图像型垃圾邮件必将成为敌对分子和反动势力进行串联、散布谣言和恐吓信息的重要手段,在某些重要时刻,有可能对国家安全造成严重威胁。

图1为利用反垃圾邮件综合处理平台捕获的部分垃圾邮件图像样本。具体来说,图1为受不同类型噪声干扰的图像样本,在这些垃圾邮件图像中使用了波动干扰、旋转干扰、背景图像干扰等多种干扰手段,给现有过滤系统制造了一定的困扰和防范阻碍。

图像型垃圾邮件的平均大小约是文本型垃圾邮件的10倍以上,对其进行传播和存储多会消耗更多的网络带宽、计算及存储资源。有效过滤图像型垃圾邮件,对于节约社会资源,维护网络安全,减少对邮件用户的侵害干扰则至关重要。对其开展深入、系统的研究亦将具有不可言喻的重要理论及现实意义。

1 图像型垃圾邮件过滤总体概述

1.1 常用概念

首先介绍几个常用概念。

图像型垃圾邮件:是指通过图像的方式传播垃圾内容的垃圾邮件,图像既可以包含在邮件附件中,也可以托管于其它网站。

垃圾邮件图像:是指图像型垃圾邮件中含有垃圾信息的图像,如具有特定企图的政治、宗教图像,具有商业目的的广告宣传图像、色情图像等。

CAPTCHA(Completely Automated Public Turing Test to Tell Computers and Humans Apart, 全自动区分计算机和人的图灵测试)[7]:由美国卡内基梅隆大学开发,这种程序可以生成并评价人类可很容易通过但计算机无法通过的测试。常被用于为垃圾邮件图像添加人为干扰,以降低OCR、分类器等的辨识能力。

1.2 垃圾邮件图像特征

垃圾邮件图像表现了许多有别于正常图像的特征。谷歌公司的Mehta等[8]对垃圾邮件图像的典型特征进行了详细分析。本文亦对其做以如下归纳总结:

(1)近似复制与批量发送特征。垃圾邮件发送者通常利用相同的模板或者称为近似复制的方法生成垃圾邮件图像,再进行批量发送。

(2)文本特征。为躲避传统垃圾邮件过滤器的检测,大量文字信息将转移至邮件图像中进行发送。

(3)干扰与噪声特征。为了降低OCR文本信息提取的准确性,垃圾邮件发送者通常借助CAPATCHA等技术在图像中加入大量人为干扰因素,以降低特征检测的有效性。美国普林斯顿大学的Wang等[9]总结了垃圾邮件图像中经常出现的波浪形文字、变形、旋转等21种干扰手段。

(4)人工生成图像。同自然图像相比,垃圾邮件图像多由计算机生成,并非自然场景图像,而且颜色通常较单调,纹理特征较简单,同时多包含有人工修改痕迹。

(5)其它特征。考虑时间以及带宽等因素,垃圾邮件发送者多采用图像压缩比较高的图像格式,如.jpg、.gif和.png等,并且图像的尺寸通常也不会过大。

1.3 国内外研究现状

根据垃圾邮件图像的特征,学者们提出了大量的过滤方法。目前,图像型垃圾邮件的过滤技术主要基于近似特征、图像中的文本特征、图像浅层特征等,并结合机器学习等相关方法进行判断。下面,对各种方法分专节展开详细的分析与论述。

1.3.1 基于近似特征的过滤方法

相同来源的垃圾邮件图像通常利用相同的模板生成,只是附加不同的随机干扰。对此,可以利用批量发送的垃圾邮件图像间的相似特征进行过滤。美国普林斯顿大学的Wang等[9]提出利用过滤器组进行近似特征图像检测,其中每个过滤器采用不同的特征,并分别进行分类器训练。北京邮电大学的He等[10,11]提出将图像的基本特征与阈值进行比较,并将图像分为垃圾邮件图像与可疑垃圾图像,对于可疑图像则进一步利用灰度和颜色直方图与样本图像进行相似性判断。

批量发送的图像型垃圾邮件具有在一定时间内于网络中大量、高密散发、且内容高度相似的特征。因此,可以在邮件服务器端对接收的邮件图像进行聚类分析,从而获取更多的有益信息。美国西北大学的Gao等[12,13]提出将图像型垃圾邮件的过滤分为服务器端和客户端两部分,并在邮件服务器端进行图像聚类,正常图像通常对应较小的图像聚类,而垃圾图像则对应较大规模的图像聚类。因此,可以对规模较大的聚类中的图像的来源展开进一步分析。这种方法可以提前放过部分正常图像,从而提高过滤效率。美国阿拉巴马大学伯明翰分校的Zhang等[14]和Chen等[15]提出利用聚类识别来自相同源的垃圾邮件图像的方法。相同聚类中的图像来自相同源地址的可能性较高,这样有利于对这些地址进行进一步的跟踪分析。此外,谷歌公司的Mehta等[8]提出利用高斯混合模型对图像进行描述,并利用Jensen-Shannon差异性判断进行相似性度量的方法完成图像聚类。

利用邮件批量发送的特征,可以通过聚类对来自相同源的批量图像型垃圾邮件进行监测,有利于实时发现可疑的发送者,聚类结果可以作为后续判断的基础依据。这种方式对于降低计算开销,提高系统吞吐量具有较好作用,但却很难避免对于正常图像的误判。

1.3.2 基于图像文本的过滤方法

(1)基于图像文本内容的过滤方法

图像型垃圾邮件的一个重要特征是垃圾邮件发送者常常会将本该通过文本方式发送的内容嵌入图像中进行发送。因此可以检测图像文本中是否包含特定的关键字,如:“Viagra”,“发票”,“贷款”等。意大利卡利亚里大学的Fumera等[16]、美国南加州大学洛杉矶分校的Youn等[17]都提出了利用OCR工具识别邮件图像中的文字,再将文字内容送入文本过滤器中判断这幅图像是否属于垃圾图像。但Fumera等[18]随后指出,这种方法的最重要缺陷是:文字识别部分所需计算量大,在时间上难以满足垃圾邮件过滤海量数据的实时处理要求;并且OCR仅对干净的图像具有较好的效果,为防止嵌入图像中的文本信息被提取出来,垃圾邮件制造者多会使用一些干扰技术为图像添加人为干扰,降低了OCR的识别准确率。

为了应对文本过滤器,垃圾邮件制造者还常采用错拼、误拼等方法混淆一些关键字,如:mortgage拼写为“mort gage”, “mo>rtglage”等。同时,对于添加噪声干扰的图像, OCR提取的文本信息还可能存在大量的错拼、误拼等现象。另外,OCR通常很难辨别‘u’和‘v’, ‘i’和‘I’, ‘l(el)’和‘1(one)’等字符。因此,为了进一步提高OCR应用的准确性,一些学者提出了改进方法。澳大利亚堪培拉大学的Ma等[19]提出为样本库中的每个关键字建立马尔科夫模型,由此对于OCR提取的未知字符序列,就可借助假设检验阈值依次判断该字符序列是否为某关键字的误拼。美国斯坦福大学的Lee等[20]利用字典树隐马尔科夫模型(LT-HMM)对邮件文本内容中的误拼、错拼等情况进行了详细分析,利用英文字典中常用的45 475个单词,以及ASCII码表中除控制符外的字符构建了一个更加鲁棒的隐马尔科夫模型,并通过统计常用的单词字符组合以及误拼、错拼情况构建了隐状态转换表和发射状态转换表。该方法可以对误拼、错拼、字符片段进行良好勘误,且具有较高的鲁棒性。但是LT-HMM具有大量的状态,内存开销较大。针对该问题,韩国浦项工科大学的Lee等[21]通过将具有相同发射概率的状态组合为超级状态,提出了一种利用动态加权隐马尔科夫模型降低HMM复杂度的方法,该方法则有效降低了HMM的状态数。上述这些手段均有利于提高利用图像文本内容实行过滤的各类方法的准确性。

(2)基于文本区域特征的过滤方法

基于文本内容识别的过滤方法除了受OCR识别准确性影响外,计算开销大也限制了其应用范围的扩展。因此,一些学者提出利用图像中的文字区域特征进行过滤的方法,从而避免进行文本内容识别。如美国SRI研究所的Aradhye等[22]提出定位图像中的文本区域,再将文字区域在整幅图像中所占的面积比值、颜色饱和度、颜色散度等特征送入支持向量机训练后用于判断垃圾邮件图像。美国加州大学的Wu等 [23]提出利用图像中内嵌的文字区域特征,标题或者计算机自动生成图像的特征,图像的位置信息特征则构成邮件的特征向量,再同样借助支持向量机进行分类判断。

与基于文本内容的过滤方法相比,该类判断方法的效率有较大提高。但由于文本信息也可能在正常图像中出现,因此这类方法容易误断一些含公文扫描图像以及包含文本信息的宣传图像的正常公务邮件。而实际环境中,对于正常邮件的误判可能会带来极严重的影响,因此这类方法的实际应用效果仍有待进一步研究。

1.3.3 基于图像浅层特征的过滤方法

为了提高图像型垃圾邮件的判断效率,很多研究者提出利用图像浅层视觉特征进行快速综合判断的方法。这种方法类似于图像分类,通过提取图像特征,并将其归类为正常图像和垃圾邮件图像。目前,这类方法的区别主要在于提取的图像特征和使用的分类器不同。

(1)浅层特征结合传统分类器

如美国宾夕法尼亚大学的Dredze等[24]提出利用图像类型、大小、图像高、宽、高宽比、颜色均值、色饱和度、边缘特征、主色调覆盖范围等特征构成图像属性,并利用最大熵和贝叶斯分类器进行判别。美国安全计算公司的Krasser等[25]提出利用图像像素位宽度、高度、图像类型、文件大小、图像面积、压缩比等九个特征用于描述图像的属性。又结合决策树和支持向量机来进行判断。电子科技大学的万明成等[26]提出利用垃圾邮件图像的颜色数量、方差、连续出现的颜色数、主色覆盖范围、色饱和度表示图像的颜色特征,再利用图像特征点的主方向分布特征表示文字分布特征,同时使用支持向量机进行判断。Wang等[27]提出利用图像基本特征、颜色和纹理等图像浅层特征表述图像。

这种直接使用浅层视觉特征的方法也存在一些缺点,比如所选择的特征和垃圾邮件图像本身不一定具有强相关性,因而必须对所使用的特征进行仔细选择,而且分类器的训练还会受到样本库的影响,使得在实验环境下效果很好的算法在实际网络环境中却未必能取得同样的过滤效果。

(2)分类器设计改进

这类方法大量借助分类器进行判别,但存在以下几点问题,而针对具体问题已然提出了一些改进方法:

①现在的分类器准确性受样本库规模影响。已有研究工作中使用的分类器大都为有监督学习方法,需要预知一个已标注的样本库,并以此为基础训练分类器。然而实际情况下,垃圾邮件图像复杂多变,为了保证较高识别率,就需要一个规模较大的样本库,但标注工作带来了很大的人工负担。

针对该问题,美国西北大学的Gao等[28]提出利用主动学习的方法,结合支持向量机和高斯分类器每次选择那些分类器判别最不确定的样本进行标注,并进行分类器训练,以达到使用最少的标注样本而获得最优分类效果的目的。

② 现在的分类器仅在静态的样本库上训练得到,不能实时反映网络中垃圾邮件图像的特征变化,即分类器不具有在线学习功能。

理想情况下的分类器应具有在线学习能力,能够根据图像的变化进行实时或者周期性地更新。浙江师范大学的张浩然等[29]通过分析回归最小二乘支持向量机的数学模型,设计了一种回归最小二乘支持向量机的增量和在线式学习算法。该方法具有较高的执行效率,同时具有一定的遗忘机制,减少了存储空间和分类器的更新时间,适用于图像型垃圾邮件的检测。

③ 现在的过滤方法大都使用单一的分类器,并试图获取较高的判别准确性。实际环境下,垃圾邮件图像经常变化,单一的分类器未必能满足应用要求。

由于垃圾邮件图像复杂多变,可以借助级联分类器对图像进行分层过滤,每层针对不同的图像特征可以构造或者使用不同的分类器,这样对于提高过滤效率及准确性具有更好的作用。

综上可知,基于浅层特征的过滤方法性能受提取的特征和分类器两方面的影响。所选特征应该能够有效反映垃圾邮件图像和正常图像之间的差异。对于分类器,实际应用中仍然存在诸如泛化问题、过滤准确性受样本库影响等一定的问题。

2 图像型垃圾邮件过滤相关产品及开源工具

目前,国际主流的反垃圾邮件服务商,如梭子鱼、IronPort、McAfee、卡巴斯基、Fortinet等都提供对图像型垃圾邮件过滤的功能支持。但其提供产品却普遍缺乏对图像内容的深层分析能力,对图像型垃圾邮件的过滤却主要依赖于行为分析和简单的图像指纹过滤,由此对图像型垃圾邮件的主动发现功能均十分薄弱。例如,梭子鱼通过维护基于OCR的模糊逻辑规则,实时更新垃圾邮件规则库。通过复合OCR 引擎处理已经确认的垃圾邮件图像,生成图像指纹并自动打包传给部署在世界各地的在线梭子鱼垃圾邮件防火墙以更新核心威胁数据库。IronPort提出了一种两层的图像垃圾邮件防护机制。第一层由上下文自适应扫描引擎对收到的邮件进行全面语境分析,以扩大传统的基于内容的方法的分析能力;第二层利用多维模式识别技术对邮件图像进行内层防护。McAfee则通过从邮件图像中提取内部属性,以此来判断该图像是否为垃圾邮件图像。同时,McAfee也使用了图像散列算法为图像创建数字签名,这种技术计算效率较高。卡巴斯基实验室提出了一种“光栅图像垃圾邮件识别技术”,其核心是一套基于概率研发的算法,能够利用数据分析计算的方法判断某幅图像中是否包含文字信息,再运用其它算法提取图像的特征,确定图像中包含可读文字信息的内容。这种方法能更加快速精准地定位包含于图像中的垃圾信息,并能轻易识别专用于干扰文字信息的图像,因而对变形文字同样有效,在较大程度上提高了对图像型垃圾邮件的检测水平。

此外,一些开源的垃圾邮件过滤器,如SpamAssassin、SpamBayes、Bogofilter等都提供了针对文本垃圾邮件的过滤功能,但是对于图像型垃圾邮件的过滤仍然欠佳。如SpamAssassin虽然提供了图像型垃圾邮件过滤功能,但是主要借助于一些开源的OCR工具(如:FuzzyOCR、BayesOCR等)进行图像文本内容提取,再对于提取的文本进行关键字判断或者进行文本内容语义分析。通常OCR分析模块计算复杂度较高,同时仅能够识别“干净”图像中的文本,准确性又易受图像噪声干扰的影响,因此难以在实际的大规模复杂网络环境中获得广泛应用。

3 公开的垃圾邮件图像数据库

用于测试的邮件图像应由垃圾邮件图像和正常图像两部分组成。由于垃圾邮件的特殊性,采集数据十分困难。图像型垃圾邮件的获取则更加困难,因此只有极少数研究机构或学者将其收集的垃圾邮件图像公开。大部分研究者使用的垃圾邮件图像多是从一些公开的垃圾邮件库中搜集[16],如SpamArchive (www.spamarchive.org)和TREC (http://trec.nist.gov)垃圾邮件语料库,或者从大量长期使用的个人邮箱中搜集而得[9,10,28]。需要指出的是,这些公开的垃圾邮件图像库都来自国外,图像中的文本内容多为英文,目前国内还没有公开的测试图像库。相对于垃圾邮件图像而言,正常图像的收集则相对简单。正常图像主要通过四类途径获取:

(1) 从个人邮箱中收集;

(2) 利用搜索引擎并使用如“photo” ,“baby”, “graphic”等关键词在网上搜索[22];

(3) 手工生成一些图像,如贺卡、公司图标、动画以及截屏等;

(4) 从一些公开的正常图像库中获取。表1给出了部分研究者公开的垃圾邮件图像和正常图像库。

4 垃圾邮件图像数据收集方法

垃圾邮件图像主体仍依赖从垃圾邮件中提取。由于邮件收集涉及隐私、信息内容安全等特殊性,使得垃圾邮件图像数据采集更见难度。一些研究者通过对大量长期使用的邮箱进行搜索以全面收集图像数据,但这种方法却受到邮箱使用时间以及邮箱是否被垃圾邮件发送者获知的影响。垃圾邮件发送者经常在网络上通过搜集大量公开的邮件地址,实施垃圾邮件发送。网络中可见大量公布的邮件地址将“@”符改写为“at”或“#”,或者将邮件地址利用图片方式公布,以此拒绝垃圾邮件。因此,可以通过在网络上公开发布大量邮箱地址的方式来长期收集图像型垃圾邮件。

蜜罐[30]是一种独特的安全资源,可以用于探测和诱骗各种网络行为以及攻击手段,因此可以通过蜜罐系统来诱骗各种垃圾邮件。蜜罐系统提供虚假邮件服务,以此诱骗垃圾邮件,进而提取实际网络环境中的图像型垃圾邮件以用于实验分析。这种方法与前者的区别是,通过个人邮箱进行收集的方式受邮件服务商的限制,因为邮件服务商可能会提前对垃圾邮件实行过滤,如此就降低了收集获得的垃圾邮件图像的数量。然而,蜜罐系统自身就可以是一个虚假的邮件服务商,因此具有更好的收集功能,但同时也需要更多的硬件和网络资源的更大开销。

5 讨论与展望

图像型垃圾邮件的频发消耗了大量的带宽、计算以及存储资源,给社会带来了不稳定因素,使得传统垃圾邮件过滤系统面临更为巨大的挑战。在众多研究者以及工业界的共同努力下,图像型垃圾邮件得到了一定限度的遏制。但为了躲避过滤系统,图像的特征则变得越来越复杂并呈现出新的变种,在垃圾邮件中所占比例仍比较高。现在的图像型垃圾邮件过滤系统主要依靠图像特征提取以及分类识别的方法,其性能则依赖于样本库特性、图像特征提取方法和分类器指标数据等。从本文的分析可知,如何从依靠图像型垃圾邮件样本转化到智能图像垃圾邮件识别,提高过滤速度以及识别准确率仍然是一项艰巨的任务。下一步的相关研究工作可以从如下方面开展:

(1)显著性特征提取。如何有效提取区别于正常图像的垃圾邮件图像特征将直接影响判断结果。

(2)复杂场景中的敏感关键字发现。垃圾邮件图像中经常包含大量文本,但是却混杂了噪声、背景干扰等。由于OCR处理效果不佳,因此需要研究复杂干扰场景中的敏感关键字的发现方法。

(3)垃圾邮件的发送途径控制。 卡巴斯基的调查报告指出,垃圾邮件多由垃圾邮件发送者控制的大量僵尸网络来实现发送。僵尸网络能够控制数以百万的计算机,用于发送大量的图像型垃圾邮件。这些垃圾邮件可能发送至不同的邮件服务商。 因此, 可以考虑联合多个邮件服务商, 通过结合僵尸网络的特征和网络安全两方面来严格控制其发送途径。

垃圾邮件过滤技术分析 篇3

互联网发展迅猛, 已经渗透到人们工作和生活中。伴随着互联网的普及, 电子邮件已经成为人们日常工作和生活的重要的通信手段, 而且已经成为人们日常交流的一种重要途径。然而, 除了包含有用信息的电子邮件外, 互联网中还充斥着大量的垃圾邮件 (spare mail) 。当前, 大量垃圾邮件的出现已经成为互联网的一个相当严重的问题。数量巨大的、无用的, 甚至包含有害信息的电子邮件在互联网中传播。这不仅消耗了大量的网络资源, 而且威胁到邮件系统中用户的信息安全, 对邮件服务商也造成了严峻的挑战。人们研究、开发各种有效技术措施来阻止垃圾邮件的传播, 建设健康、和谐的互联网环境, 已经成为当前网络安全研究的重要内容之一。

1 垃圾邮件的分类

垃圾邮件种类非常多, 而且形式变化多端。可以按照内容分类, 也可按照发送及传播方式分类。

按照电子邮件内容主要可分为以下6类:

(1) 用于商品广告、促销的商业垃圾邮件;

(2) 包含非法、反动宣传内容的垃圾邮件;

(3) 包含暴力、色情等不良信息的垃圾邮件;

(4) 包含病毒信息的垃圾邮件;

(5) 包含诈骗、恐吓内容的垃圾邮件;

(6) 包含其他内容的垃圾垃圾。

按照发送及传播方式主要可分为以下4 类:

(1) 通过传播方自己购买或租用的邮件服务器, 直接利用端口25, 直接发送到用户邮箱的垃圾邮件;

(2) 利用非法手段, 通过合法的邮件服务器, 间接发送到用户邮箱的垃圾邮件;

(3) 利用伪造手段, 向服务器发送不可能投递成功的邮件, 造成邮件服务器自动产生“投递失败信件”, 从而将邮件返回发送给用户的垃圾邮件;

(4) 利用垃圾邮件传播前指定中继服务器等发送路径的手段, 造成垃圾邮件在发送路径的每一个中继服务器都会耗费巨大的网络资源, 从而将以消耗网络资源为目的的链式中继垃圾邮件发送给用户。

2 垃圾邮件的传播机理

随着互联网和电子邮件技术的发展, 垃圾邮件传播技术也在同步发展, 如果想彻底解决垃圾邮件问题, 就必须首先了解垃圾邮件的传播机理。一般的电子邮件传输协议均采用简单邮件传输协议, 即SMTP。因为SMTP不需要任何认证步骤, 所以无论电子邮件从哪里发出和发送目的地, 都会顺利地接收并发送。垃圾邮件传播可分为以下4 个主要步骤:

(1) 垃圾邮件制作者利用SMTP协议将垃圾邮件发送至邮件服务器;

(2) 邮件服务器根据接收到的电子邮件接收地址, 采用SMTP协议把邮件转发给邮件接收服务器;

(3) 邮件接收服务器将收到的垃圾邮件放到接收者的邮箱;

(4) 垃圾邮件接收者通过自己的邮箱接收邮件。

垃圾邮件发送和接收的整个过程均不需进行认证, 所以垃圾邮件制作者就可以选择互联网上每一台SMTP服务器发送垃圾邮件, 以达到传播垃圾邮件的目的。

垃圾邮件的出现和泛滥对人们的工作和生活造成了极大的不便和威胁, 因此, 部分邮件服务提供商为了验证邮件发送者的身份, 会要求对邮件发送者或邮件服务器进行认证。于是, 一种新的邮件传输协议, 即ESMTP协议就被提出来了, 它是在SMTP的基础上, 对其功能进行了一些改进。然而, ESMTP协议对邮件接收与发送邮件服务器间的合法性不进行确认, 漏洞仍然存在。

3 阻止垃圾邮件传播的过滤技术

当前, 国内外的反垃圾邮件技术和产品多种多样, 其中涉及的垃圾邮件过滤技术也不尽相同。通过总结市场上的反垃圾邮件技术和产品, 垃圾邮件过滤技术可大致分为3 种:IP地址过滤技术、SMTP协议过滤技术、内容过滤技术。其中, 内容过滤技术是当前和未来垃圾邮件过滤技术的主要研究方向。

正常的电子邮件一般由3 部分构成:邮件地址、邮件主题、 邮件内容。这3 部分内容所包含的信息正是垃圾邮件过滤技术分析、判断的依据。因为这3 部分内容均是以文本形式, 所以垃圾邮件的分析与判断, 其本质上是文本分类技术, 而文本分类技术的核心就是关键词的统计与提取。因此, 从理论上说, 内容过滤技术的核心是电子邮件中文本包含的关键词的统计与提取。

因为垃圾邮件的数量、种类越来越多, 过滤技术需要的计算量越来越大, 所以人们将机器学习方法应用到垃圾邮件内容过滤技术中, 主要包括2 种方法:基于规则方法;基于统计方法。基于规则方法:首先分析邮件内容中包含的特征, 然后将分析得到的特征与垃圾邮件的特征进行比较, 从而发现并判断出垃圾邮件。基于统计方法:分析得到电子邮件中某种信息的概率, 然后统计待判断电子邮件中该类信息的概率, 从而得出结论。下面将详细介绍以上2 种方法。

3.1 基于规则方法

基于规则方法首先分析电子邮件的标题、内容等信息, 然后将分析得到的特征与待判断的电子邮件中相关特征间的关联关系, 就可以得出邮件是否是垃圾邮件的判断。当新的电子邮件到达的时候, 通过计算、判断关联关系来判定它是否是垃圾邮件。基于规则方法中最具有代表性的是IBM公司的C-K系统, 通过模式匹配方法, 总结出相关特征, 从而用来判断、确定新邮件是否是垃圾邮件。

因为需要通过分析已有的垃圾邮件, 才能得到需要的关联关系, 而这些关联关系仅能反映出以前的垃圾邮件的相关特征。所以, 当新的垃圾邮件产生以后, 需要获取这些新的垃圾邮件, 再次分析、总结, 得到更新的关联关系。因此, 基于规则方法在实际使用中, 必须保证关联关系的实时、准确。随着垃圾邮件种类和数量的不断增长, 必然造成关联关系越来越多、 越来越复杂, 最终影响垃圾邮件分析、判断的效率。当前, 基于规则方法主要有4 种: (1) Boosting法; (2) SA评分系统; (3) 粗糙集法; (4) 决策树法。

3.2 基于统计方法

基于统计方法主要有5 种。

3.2.1 k-NN法

k-NN法, 即k邻近法, 该方法利用与待判断样本相近的几个样本, 判定新样本的类别。k邻近法的基本思想是:如果新样本与k个最相近样本中大多数样本属于相同的类别, 那么新样本也应该归类于这个类别。

3.2.2 Winnow法

Winnow法, 即线性分类器, 该方法利用样本训练, 找出某个类别中包含的特征权重向量w= (w1, w2, …, wn) , 然后设定阈值 θ。设新样本为x= (x1, x2, …, xn) , 如果wT·x>θ, 则判断新样本属于该类别;否则, 判断新样本不属于该类别。

3.2.3 SVM法

SVM法, 即支持向量机法, 该方法利用构造出来的最优线性分类面来进行分类。首先把样本空间线性映射到另一个空间, 然后在新空间中构造出最优线性分类面。

3.2.4 Rocchio法

Rocchio法, 即相关反馈法, 该方法利用训练集给各类别构造一个自己的原始向量, 然后将所有新样本向量化, 最后计算正例向量和反例向量的加权差作为类别向量。

3.2.5 Bayes法

Bayes法, 即贝叶斯法, 该方法利用对大量已知类别的邮件的分析, 统计、提取出最具代表性的关键词作为特征, 得到统计分布模型。当新邮件到来时, 分析它的特征, 从而推算出新邮件是垃圾邮件的概率。因为贝叶斯法过滤垃圾邮件所依赖的训练集中的垃圾邮件和非垃圾邮件是由垃圾邮件过滤者自己设定的, 所以垃圾邮件制造者无法判断出训练结果。而且贝叶斯法过滤垃圾邮件某种程度上具有自主学习能力, 所以目前贝叶斯法过滤垃圾邮件使用最为广泛。

参考文献

[1]罗倩, 秦玉平, 王春立.反垃圾邮件技术综述[J].渤海大学学报, 2008 (4) :385-389.

[2]潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所, 2004.

垃圾邮件及其过滤技术概述 篇4

1.1 垃圾邮件定义

中国互联网协会公布以下四种“垃圾邮件”定义: (1) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性质的电子邮件; (2) 收件人无法拒收的电子邮件; (3) 隐藏发件人身份、地址、标题等信息的电子邮件; (4) 含有虚假的信息源、发件人、路由等信息的电子邮件[1]。

1.2 垃圾邮件的现状

据英国著名网络安全公司Sophos发布的最新数据显示, 2011年第三季度美国的垃圾邮件总体数量仍高居首位, 占全球垃圾电子邮件的11.3%, 其次是韩国 (占9.6%) 、印度 (8.8%) 、俄罗斯 (7.9%) 、巴西 (5.7%) 和中国台湾 (3.8%) , 而中国大陆垃圾邮件总量并未在12名之列。近几年国内的排名呈逐年下降趋势, 由最初的前几名, 跌出前十名, 这主要归功于国内企业, 增加了邮件系统设备的投入, 安装了反垃圾邮件网关设备, 加大对垃圾邮件行业的打击力度。2011年11月上旬我国垃圾邮件发送情况如图1所示。

从上图可知, 11月上旬, 国内垃圾邮件发送服务器IP地址主要集中在湖南、广东、北京等这几个地区。其中, 湖南位居十大垃圾邮件发送地榜首, 服务器IP地址数目高达208个。

从中国互联网反垃圾邮件协会11月上旬统计的各大邮件运营商对垃圾邮件举报处理来看, 谷歌、微软未对举报的垃圾邮件采取措施。而网易、新浪、搜狐、TOM、21cn、雅虎等几家邮件运营商都对举报的垃圾邮件账户做了相应的处理。

综合所述, 2011年第三季度我国垃圾邮件发送形势仍不容乐观, 虽然各大邮件运营商都能积极主动地及时处理被举报的垃圾邮件, 但垃圾邮件发送服务器IP地址数目却有增无减。可见, 在垃圾邮件治理工作依然紧迫。

1.3 垃圾邮件危害

垃圾邮件的危害主要体现在以下3个方面: (1) 垃圾邮件危害互联网发展。垃圾邮件占用大量的传输、存储和运算资源, 且一旦垃圾邮件占到互联网总数据流量三分之一, 将造成巨大的存储需求, 还损害了ISP的市场形象, 造成无形资产流失。据悉, 国外许多邮件服务商曾以垃圾邮件过多为由, 一度封杀了国内一些ISP的邮件服务器IP地址。 (2) 垃圾邮件损害用户利益。由于垃圾邮件具有反复性、强制性、欺骗性、不健康性和传播速度快等特点, 浪费用户的时间、精力和金钱。 (3) 垃圾邮件危害现实社会。少数别有用心者利用垃圾邮件散播各种虚假信息或有害信息, 严重危害社会稳定。

2、反垃圾邮件技术

目前, 一般采用在邮件传递过程中对垃圾邮件进行过滤的方法来反垃圾邮件。这个过滤过程包括SMTP配置、IP过滤规则设置、用户过滤规则设置以及邮件过滤规则设置等4种。其中邮件过滤规则可分为邮件内容的检查过滤以及接收邮件过滤。由于用户过滤规则设置是基于特定用户的过滤, 较简单, 这里就不介绍了。下面着重介绍另外3种过滤规则。

2.1 SMTP协议

简单邮件传输协议 (SMTP) 能够可靠高效地传送邮件。针对用户的邮件请求, 发送SMTP建立与接收SMTP之间建立一个双向传送通道。接收SMTP可以是最终接收者也可以是中间传送者。SMTP命令由发送SMTP发出, 由接收SMTP接收, 而应答则反方向传送。管理员可以通过web管理界面设置特定的过滤规则, 查看统计数据和监控smtpproxy的运行情况, 修改配置等。

SMTP使用模型参见图2。在SMTP发送操作中有三步, 操作由MAIL命令开始给出发送者标识。一系列或更多的RCPT命令紧跟其后, 给出了接收者信息, 然后是DATA命令列出发送的邮件内容, 最后邮件内容指示符确认操作。

发送信件时防范垃圾邮件可以通过以下9种方式进行:SMTP认证;限制第三方转发 (relay) 信件;收信人不能同时包括发信人;系统接收信件大小限制;单封信件的收件人数限制;HELO命令后的字符串限定;信头内容的限定;接收人限定;基于关键字查找的信件内容 (支持正则表达式) 和大小限定。

在SMTP的配置选项中提供了多达28种过滤规则, 来对垃圾邮件进行防范。如SMTP验证;允许收件人等于发件人;ACTION不为PASS的延迟;检查附件中的ZIP文件;禁止密送;ZIP文件递归检查的最大层数;MAIL递归检查的最大层数;信件允许中转的最大次数;旁路目录根路径;系统间隔时间单位;用户SMTP出错频率阀值;用户RCPT出错频率阀值;用户RCPT出错比率阀值;用户信件被拦截的频率阀值;用户信件被拦截的碧绿阀值;用户默认连接数限制;用户默认连接频率限制;用户默认流量限制;用户默认信件最大字节限制等。

2.2 基于IP的过滤方法

基于IP的过滤方法主要提供以下16种过滤规则:特定IP的Mailfrom出错频率阀值;特定IP的RCPT出错比率阀值;特定IP的信件被拦截的频率阀值;特定IP信件被拦截的比率阀值;IP默认拦截数限制;IP默认连接频率限制;IP默认RCPT数限制;IP默认流量限制;IP默认信件最大字节限制[2];IP黑名单/白名单 (禁止访问/允许访问) ;指定允许连接的I P范围;来自相同I P的客户端在smtpproxy服务器上的最大同时连接总数;来自相同IP的客户端的最大连接频率;来自相同IP的客户端的一次连接中执行RCPT命令的频率;来自相同IP的客户端一封信中执行RCPT命令的总数;来自相同IP的客户端的一次连接中最大的流量大小;可以对特定的IP范围做特定的最大同时连接数量, 最大连接频率, RCPT命令的频率和流量的限制。

通过IP过滤规则可以方便的达到垃圾邮件的过滤。对固定发送垃圾邮件的IP进行限制的主要出发点, 在于用户发送大量垃圾邮件后系统根据统计结果检测到发送垃圾邮件用户的IP地址会对其进行相关的限制和控制, 将其的IP地址进行特殊限制来达到控制发送垃圾邮件的目的, 在基于IP规则条件控制中提供了如下7种控制选项:适用IP范围;同时连接数限制;连接频率限制;RCPT数目限制;RCPT频率限制;流量限制;邮件最大限制。

用户在使用IP的限制功能时, 通过IP统计信息查询到IP后在IP配置规则中进行限定。263内部反垃圾系统为方便用户管理系统, 配备了统计功能, 在该统计功能中分别提供:每条规则的触发次数;某段IP的发信次数与流量大小:查询根据IP产生的记录;User的发信次数/流量大小统计:查询特定用户产生的记录;事件触发的统计:查询事件触发产生的记录。根据统计的结果可以方便的发现发送垃圾邮件的IP, 在适用IP或IP范围内添入已知的IP地址, 同时连接数限制处添入“0”将其设定为黑名单即可达到拒收的目的。

通过配置IP过滤规则来达到对某个特别IP段做特殊规则。设置IP/IP范围来实现过虑垃圾邮件, 是通过配置IP地址的过滤规则来实现, 通过IP的过滤设置可以实现:IP黑名单/用户禁止访问;限定允许连接的IP范围;限制限定的IP连接发送邮件;来自相同IP的客户端在服务器上的最大同时连接总数;来自相同IP的客户端的最大连接频率;来自相同IP的客户端的一次连接中执行RCPT命令的频率;来自相同IP的客户端的一次连接中最大的流量大小等。

263内部反垃圾系统配置基于IP过滤规则对以下6项按照需要进行设定:IP范围:被限制的IP地址和IP地址范围;连接数限制:系统在单位时间内尝试的连接次数其中同时连接数限制的设定值设定情况为 (-1表示不限;0表示黑名单, 以下项目无效) ;连接频率;RCPT限制;字节书数限制;大邮件限制等。

2.3 邮件内容过滤

邮件内容的检查过滤的限定主要是针对邮件的内容进行设定字符检查, 采用关键字查找信件内容和大小限定来限制邮件发送, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。

接收信件过滤器的主要功能是针对发信人为非本站用户而言的, 在该模块中提供了“信头内容限定”“收信人限定”“信件内容及大小限定”三种模式限制, 该三种模式主要实现方式是通过电子邮件信头和内容进行基于地址和特征字符串过滤, 从而达到控制垃圾邮件的目的, 同时对所过滤到的垃圾邮件提供转发、丢弃、或断开等处理操作。接收信件的功能模块在263反垃圾配置处的内容过滤规则中, 进入内容过滤配置规矩对需要进行控制的信息进行关键字设定, 从而达到特征字符串过滤, 有效的防范了垃圾邮件的过滤。

设置信件过滤规则的主要目的是通过信件的信头、信件收件人、信件发件人及信件内容特殊字符的过滤来实现对垃圾邮件的控制。内容过滤所提供的规则设置包括:邮件主题包含设定关键字;发件人字段包含设定关键字;收件人或抄送人字段包含设定关键字;邮件头包含设定关键字;信体包含设定关键字;全文 (包括信头和信体) 包含设定关键字;全文大小小于/大于设定值;信头大小小于/大于设定值;信体大小小于/大于设定值;客户端IP等于设定值或属于某连续IP段;信件所经过的服务器及源客户端IP是否属于某设定值或某连续IP段;附件的数量小于/大于设定值;存在文件名为指定字符的附件等。

邮件主题包含的关键字:主要针对邮件主题内容进行关键字的设定和过滤。

发件人字段包含的关键字:发信人限定主要是针对邮件发信人进行设定字符检查, 对于满足过滤规则的邮件发信人, 管理员根据设定的处理方法可使邮件拒收、转发有关部门、或直接断开。

收件人 (或抄送人) 字段包含的关键字:与发件人字段包含关键字的说明相同需要注意收信人与发件人包含的关键字在实际应用中有同关键自不同域的情况, 此处提供的匹配规则是精确匹配, 所以在对该处设置时, 发件人、收件人关键子设定书写必须完整, 关键字设定包括xxx@domain才可。

信头包含的关键字:主要针对信头内容的限定进行设定字符检查, 对于满足过滤规则的邮件信头, 管理员根据设定的处理方法可使邮件拒收、转发有关部门、或直接断开, 限制某些带有非法标题内容的垃圾邮件大量传播。

信体包含关键字:在邮件中通过设定信体关键字的做法来过滤邮件, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。根据全文包含的关键字的设定和过滤可相互组合的操作包括信头写入日志、信件内容写入日志。

全文 (包括信头和信体) 包含关键字:全文包含的关键字设定主要是针对邮件的内容进行设定字符检查, 采用关键字查找信件内容和大小限定来限制邮件发送, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。根据全文包含的关键字的设定和过滤可相互组合的操作包括信头写入日志、信件内容写入日志。[3]

3、结语

垃圾邮件过滤是一项长期的斗争。在我们对付垃圾邮件的同时, 垃圾邮件制造者也在不断制造更“合理”或者严重干扰过滤器的垃圾邮件。因此, 对垃圾邮件的预处理和垃圾邮件过滤器的不断更新显得越来越重要。另外, 在真正的实用垃圾邮件系统中, 综合各种方法 (包括各种机器学习方法、黑白名单人工规则方法甚至图片分析方法等) 和各种特征 (除正文内容外, 还包括群发特征、元信息特征等) 是垃圾邮件工具研制的趋势。

摘要:电子邮件已成为现代生活通信、交流的重要手段, 也是INTERNET服务的主要内容之一, 然而垃圾邮件问题日益严重, 给用户带来重大损失, 如何防范垃圾邮件已成为研究热点。本文主要讨论邮件传递过程的垃圾邮件过滤问题, 简单介绍SMTP配置、IP过滤规则设置、用户过滤规则设置以及邮件过滤规则设置等邮件过滤技术。

关键词:垃圾邮件,过滤,概述

参考文献

[1]曹麒麟, 张千里.垃圾邮件与反垃圾邮件技术.人民邮电出版社, 2002-2.

[2]唐靖飚等, 周良源著.Unix平台下的c语言高级编程指南.北京希望电子出版社, 2000-2.

反垃圾邮件技术分析和发展研究 篇5

垃圾邮件 (spam) , 又称UBE (Unsolicited Bulk E-mail) , 即未经接受者同意而大量散发的电子邮件。垃圾邮件主要具备以下一个或者多个特征:一是收件人无法拒绝收取的邮件;二是含有虚假的信息源、发件人、路由等信息;三是邮件内隐藏有病毒、木马等破坏性程序, 或者含有大量广告甚至色情图片、政治色彩的信息;四是隐藏发件人身份、地址等信息。

垃圾邮件具有以下五个明显的危害性:

(1) 占用网络带宽, 影响邮件服务器的正常工作, 降低网络的运行效率。

(2) 浪费用户的宝贵时间和上网费用。

(3) 收件人隐私遭到侵犯, 个人信息泄露。

(4) 对网络安全形成威胁, 邮箱遭受病毒或恶意攻击, 成为黑客攻击他人的工具。

(5) 不良信息泛滥, 造成政治危害和社会危害, 尤其对未成年人产生不良影响。

2 反垃圾邮件技术的发展历程

第一代反垃圾邮件技术以过滤技术为主, 包括了规则过滤、统计过滤和地址列表过滤等。这种技术应用最为广泛, 可以在不作任何协议修改的情况下直接使用。

第二代反垃圾邮件技术被称为行为识别模式, 对垃圾邮件的频次、时间、数据包头格式、IP地址、发送标识、协议类型等各类特征通过概率统计模型进行统计分析。这些特征能够针对带有诸如“同一时段频繁发送、动态IP地址”等特点来判断垃圾邮件。

第三代反垃圾邮件技术是电子邮件认证技术。该技术可以有效阻断垃圾邮件制造者利用漏洞伪造邮件发送地址的行为。但目前由于部署电子认证系统需要投入较高的软硬件成本, 并且受限于多种因素, 尚不能广泛应用。

第四代反垃圾邮件技术是多技术整合分层过滤。该技术是上述三代垃圾邮件处理技术的综合利用, 可以在最大程度上实现反垃圾邮件的最大威力。

3 反垃圾邮件的关键技术

3.1 过滤技术

如前文所述, 过滤技术基于邮件样本检测和规则匹配的原理, 可分为规则过滤、合作式过滤和地址列表过滤三类。规则过滤技术通过设定好规则的匹配来实现过滤, 虽然能有效阻止垃圾邮件, 但误判率较高、比较容易被干扰信息影响。统计过滤是规则过滤技术的升级, 通过使用统计规律计算垃圾邮件附加特征出现的可能性, 来区分邮件的合法性, 这种方法误判率较低。地址列表过滤技术是指根据建立的黑名单 (Black List) 和白名单 (White List) , 分别是已知的垃圾邮件发送者和可信任发送者IP地址或者邮件地址, 来判断是否接收电子邮件。

作为最有效的过滤技术, 这里我们着重介绍Bayesian (贝叶斯) 过滤技术。它首先对正常邮件和垃圾邮件进行分类学习, 分别提取它们的特征值, 对每个特征值进行赋分。在收到邮件时, 对其提取特征值 (比如标题、地址、附件、路径等信息) , 用之前学习到的特征值和分数对其进行赋分。在邮件中出现正常邮件的特征串, 就赋予一个正分数, 如果在邮件中检测到了垃圾邮件的特征串, 就赋予一个负分数, 最后根据总分来判断其是正常邮件还是垃圾邮件。Bayesian过滤器是用户根据所接收到所有邮件的统计数据来创建的, 这意味着垃圾邮件发送者无法猜测出过滤器的配置情况, 从而有效阻止垃圾邮件。

由于垃圾邮件数量庞大, 内容特征变化快, 过滤技术面临规则维护工作量大、误判率高、网络开销大的技术瓶颈。但是由于较为成熟, 且较易部署, 所以过滤技术是应用最为广泛的反垃圾邮件技术。

3.2 行为分析技术

行为分析主要在一定范围内对邮件流量进行监测并分析其变化规律, 进而为识别垃圾邮件提供依据。根据监测点所处的位置, 分别在邮件发送阶段和接受阶段对网络流量进行分析。如根据某邮件蠕虫爆发期局域网内域名解析流量和失败的SMTP连接数目急剧增加的情况, 可以判断出垃圾邮件的变化规律, 研究邮件病毒的扩散趋势。

3.3 逆向查询技术

如果能够更高效地区分伪造的邮件和合法的邮件, 那么就能从根本上解决垃圾邮件问题, 验证查询技术应运而生。为了限制发送者的虚假地址, 一些系统要求验证发送者邮件地址进行验证。上世纪九十年代初, 出现了邮件交换纪录 (MX) , 当发送邮件的时候, 邮件服务器通过查询DNS的MX纪录来找到接收者的域名。逆向查询解决方案就是定义逆向的MX纪录 (RMX) , 用来判断发送邮件的域名和IP地址是否对应。由于垃圾邮件的地址通常不会来自真实的RMX地址, 因此可以判断是否非法。

4 最新技术与展望

4.1 意图分析技术

许多垃圾邮件标题和信体都与合法邮件一样, 但是信体内有诱使接收者点击的URL地址, 而URL地址链接的内容是其真正意图。意图检测技术就是对URL进行检查, 根据链接的内容来判断是否为垃圾邮件, 从而识破发送者真实意图, 阻断邮件。

4.2 图片识别技术

针对图片垃圾邮件的技术有邮件指纹识别技术、ocr识别技术以及之后的第三代图像防御技术。图片垃圾邮件的发送者企图使用动态gif图像, 或者用横线、符号和其他图像模糊图片内的文字。Ocr引擎则具备动态gif文件分析功能和模糊文本识别技术。

4.3 发件人特征识别技术

鉴于垃圾邮件制造者的伪装术越来越高, 出现了针对“好人”身份欺骗的特征识别技术, 首先要验证发信者身份并预测其行为, 这其中包括列举垃圾邮件制造者的行为以及加强不依靠身份验证进行辨认的措施。

5 结语

当前, 垃圾邮件已成为全球各国和互联网业界共同面临的严重问题, 应当采用管理与技术并重方式, 以先进的技术手段为基础, 以完善的管理制度和法律法规为依托, 不断加强国际合作, 对垃圾邮件保持高压态势。未来反垃圾邮件的行动主要包括如下四个方面:

(1) 加强互联网立法, 制定严格法律严惩垃圾邮件制造者。

(2) 设计更为安全和完善的邮件体系。

(3) 加强技术研发和人才培养, 不断提升核心技术能力。

(4) 加强宣传和行业自律, 净化网络空间。

参考文献

[1]郑炜, 沈文, 张英鹏.基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J].西北工业大学学报, 2010 (03) .

智能垃圾邮件过滤系统研究与实现 篇6

随着计算机技术的快速发展, 特别是网络开放性、共享性、互联程度的扩大及计算机的普及, 互联网的影响已经渗透到社会生活的各个领域。基于Internet的电子邮件更是得到了广泛的应用, 已经成为人们日常交流、沟通的主要手段和企业运转不可或缺的重要组成部分。然而, 电子邮件在为人们服务的同时, 也不可避免地被另外一些人用作相反的目的。近年来, 一些公司、团体或个人为了商业利益或政治目的, 在未经邮件用户同意的情况下, 利用电子邮件发送大量商业广告及各种不良信息, 影响极坏、后果非常严重。

叶斯决策就是在不完全情报下, 对部分未知的状态用主观概率估计, 然后用贝叶斯公式对发生概率进行修正, 最后再利用期望值和修正概率做出最优决策。反垃圾邮件系统的设计思想, 就是通过贝叶斯算法, 对邮件内容中的关键字与系统中事先形成的字典中的对应词语进行概率计算, 通过分析最终得出概率辨别邮件的性质。本系统将贝叶斯理论应用于邮件过滤, 进行系统的详细设计并进行功能的实现。

1 贝叶斯理论

在过滤器中, 现在表现最好的应该是基于评分 (score) 的过滤器, 因为我们很容易就可以明白对付狡猾的垃圾邮件, 那些黑白名单、关键词库或者HASH等过滤器是多么的简单。评分系统过滤器是一种最基本的算法过滤器, 也是贝叶斯算法的基本雏形。它的原理就是检查垃圾邮件中的词或字符等, 将每个特征元素 (最简单的元素就是单词, 复杂点的元素就是短语) 都给出一个分数 (正分数) , 另一方面就是检查正常邮件的特征元素, 用来降低得分的负分数。最后邮件整体就得到一个垃圾邮件总分, 通过这个分数来判断是否spam。这种评分过滤器实现了自动识别垃圾邮件的功能, 但是依然存在一些不适应的问题。

特征元素列表通过垃圾邮件或者正常邮件获得。要提高识别垃圾邮件的效果, 就要从数百邮件中学习, 这降低了过滤器效率。对于不同人来说, 正常邮件的特征元素是不一样的。

获得特征元素分析的邮件数量多少是一个关键。如果垃圾邮件发送者也适应了这些特征, 就可能让垃圾邮件象正常邮件。这样的话, 过滤特征就要更改了。

每个词计算的分数应该基于一种很好的评价, 但是还是有随意性。比如, 特征就可能不会适应垃圾邮件的单词变化, 也不会适应某个用户的需要。

贝叶斯理论现在在计算机行业中应用相当广泛, 这是一种对事物的不确定性描述。贝叶斯算法的过滤器就是计算邮件内容中成为垃圾邮件的概率, 它首先从许多垃圾邮件和正常邮件中进行学习, 因此, 效果将比普通的内容过滤器更优秀, 错报就会更少。贝叶斯过滤器也是一种基于评分的过滤器。它不仅仅是一种简单的计算分数, 更从根本上来识别。它采用自动建立特征表的方式, 首先分析大量的垃圾邮件和大量的正常邮件, 算法分析邮件中多种特征出现概率。贝叶斯算法计算特征的来源通常是:邮件正文中的单词、邮件头 (发送者、传递路径等) 、其他表现。

2 反垃圾邮件过滤系统运行流程图

贝叶斯是基于概率统计的性质, 根据不断出现的新垃圾邮件和正常邮件来调整垃圾邮件集和正常邮件集的概率。反垃圾邮件系统的基本流程如图1所示, 通过这个过程可以比较准确的判断出垃圾邮件集和非垃圾邮件集。

邮件包含着大量的信息, 需要对邮件进行预处理。本系统采用正则表达式对邮件进行词抽取, 以利于系统进行判别。基于贝叶斯的反垃圾邮件系统过程简单描述如下: (1) 收集大量的垃圾邮件和非垃圾邮件, 建立垃圾邮件集和非垃圾邮件集; (2) 提取特征来源中的独立字符串, 例如AAA等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件; (3) 每一个邮件集对应一个哈希表, hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系; (4) 计算每个哈希表中TOKEN串出现的概率P= (某TOKEN串的字频) / (对应哈希表的长度) ; (5) 综合考虑hashtable_good和hashtable_bad, 推断出当新来的邮件中出现某个TOKEN串时, 该新邮件为垃圾邮件的概率; (6) 建立新的哈希表hashtable_probability存储TOKEN串ti到P (A|ti) 的映射; (7) 根据建立的哈希表hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时, 按照步骤 (2) , 生成TOKEN串。查询hashtable_probability得到该TOKEN串的键值。假设由该邮件共得到N个TOKEN串, t1, t2…tn, hashtable_probability中对应的值为P1、P2、…PN, P (t1、t2、t3…tn) 表示在邮件中同时出现多个TOKEN串t1、t2…tn时, 该邮件为垃圾邮件的概率可由复合概率公式计算而得。

3 系统详细设计

3.1 系统类图

本系统采用面向对象程序设计语言实现, 其核心类的类图如图2所示:

3.2 系统序列图

本系统主要功能分为词典载入, 邮件测试两大类, 下面通过序列图对着两大功能进行描述。

数据载入序列图如图3所示:

样本测试序列图如图4所示:

3.3 系统协作图

数据载入协作图如图5所示:

4 系统功能的实现

本系统最核心的功能就是能够对大量的邮件进行快速准确的分析和判断。系统中自定义的数据词典, 对于经常出现的部分词语都有很准确的概率计算, 并且基于贝叶斯理论这一优点, 系统有很强的自学功能, 能够随着邮件测试内容的变化, 随时添加新的信息。

4.1 数据载入

本系统在界面设计方面主要包括了3个方面的功能模块, 模块之一是数据载入界面, 如图6所示:

4.2 测试

第三个就是测试界面, 也就是判断的界面, 通过这个界面可以很清楚的得知邮件的性质是垃圾邮件还是非垃圾邮件。如图7所示:

5 结束语

对于这款基于贝叶斯理论的邮件过滤系统, 我们的设计前提是利用贝叶斯理论的计算公式, 分析计算大量的邮件, 形成一个数据库作为依据, 然后再用公式计算出邮件的概率, 通过分析概率来进一步判断邮件的性质。

通过设计, 已经基本实现了预先定义的功能, 并且能够过滤出垃圾邮件, 只是在预定义的数据库上信息量还不是十分强大, 这是本系统需要改进的地方, 在今后的设计过程中, 我们也会在这方面做进一步的加强。

参考文献

[1]落红卫, 刘建毅.智能邮件过滤系统的研究与实现[J].机电产品开发与创新, 2003 (1) .

[2]谭立球, 谷士文.个人化电子邮件自动过滤系统的设计[J].计算机应用, 2002 (6) .

[3]张长君.电子邮件的一种过滤方法[J].计算机安全, 2002 (12) .

[4]王庆波, 方滨兴.电子邮件过滤检测系统的设计与实现[J].计算机应用研究, 2000 (10) .

基于链接信息网络的垃圾邮件检测 篇7

目前垃圾邮件检测技术可以分为以下几种[2,3,4]:

1)基于黑/白名单的垃圾邮件检测技术。

2)基于规则的垃圾邮件检测技术。

3)基于内容的垃圾邮件检测技术。

这些技术能有效的探测垃圾邮件,但也存在一些不足之处。例如基于黑/白名单技术封杀IP地址,容易误杀正常用户的邮件,而发送者可以不断的更新地址,使得黑/白名单规模愈发庞大且经常失效[5]。而基于内容的垃圾邮件检测方法并不能减少垃圾邮件对网络资源的侵占[6,7],同时由于发送者可以很迅速修改发送内容,使得基于内容和规则的垃圾邮件检测技术也需要经常更新。

该文通过分析邮件交换日志,提出一种基于邮件链接网络的学习算法,它根据邮件交换日志构造的链接网络计算发送方的合法度,并以此当作垃圾邮件检测的重要指标。

1 邮件交换日志网络

简单邮件传输协议(SMTP)记录了邮件传输事件的日志,包括成功或者出错等等信息。该文分析所有成功发送的邮件日志信息。将所有邮件账号表示成集合A={a1,a2,…,an},其中存在一个子集S奂A成为发送集,表示至少成功发送一封邮件的账号集合,另外一个子集R奂A称为接收集,表示至少成功接受过一封邮件的账号。对发送集S,其中部分账号已经具有标号:

其中被标号的账号个数是t(t

1.1 网络构造

根据邮件交换日志可以构造一个有向图,图的顶点由发送和接受账号组成,而图的边由账号之间的交换信息构成。从邮件交换日志中,可以提取账号之间邮件交互的如下信息:

EmailCount(si,rj)=#(si→rj)si∈S,rj∈R,S∪R=A

EmailCount记录从发送账户si发送至接收账户rj的邮件数目。这个有向图G=(A,E)的顶点由所有的账户集合A构成,而边的集合E中的元素e(ai,aj)=EmailCount(ai,aj)构成。在有向图中,边的起点代表发送账户,边的终点代表接收账户,注意S∩R≠φ。如图1所示。

1.2 基于邮件网络的特征提取

正常的账户在网络中的通信大部分是双向的,这种邮件网络形式和社交网络非常相近。而非法用户的行为和正常用户的行为具有明显的区别,例如,垃圾邮件制造具有庞大的发送列表,几乎不接受邮件。因此,可以利用网络的链接信息提取关于垃圾邮件制造账户的特征。

入度与出度:图最大的特征是每个定点具有一定的出度和入度,对应于邮件网络既账户的发送列表和接收列表。合法账户的出度和入度不会相差不会太大,而非法帐户的出度要远远大于入度。但这个特征对于某些商业机构或者公司的账户并不适用,因为某些机构或者商业机构的联系账户可能只发不收。

相互通讯度:相互通讯度度量了一个账户的和邻居节点的交互活跃度。

其中OS(ai)是至少接收到ai一封信的账户集合,IS(aj)是至少发送给ai一封信的账户集合。

平均交互通信强度:合法用户与其他联系人之间的通信往往能得到回复或者反馈,因此交互的强度较高,而非法用户往往得不到相应。因此可以利用交互通信强度:

来对账户进行甄别,合法用户的CIA比较高。

聚类强度信息:正常用户的链接网络往往呈现聚集现象,联系人之间会组成一个小范围的互通网络,而垃圾邮件发送方则不存在这种性质。一个账户的k个联系人之间组成的最大连通子图的边的个数为k(k-1)/2,聚类强度定义:

其中n(ai)是实际的边的个数。正常用户的CI值应该较高。

2 垃圾邮件信度计算

上一节通过构造邮件链接网络,提取了若干侦测垃圾邮件发送账户的特征。利用这些特征,可以构造分类器进行垃圾邮件账户的检测。常用的分类器有KNN,朴素贝叶斯,SVM等等。该文利用KNN算法,根据已标注的账户子集对剩余账户进行分类。

当一个新的账号ai进来,根据提取的信息为每个账户建立特征向量p(ai)=(f1,f2,…,fn),计算ai到所有被标注的账号之间的距离,选择最近的k个账号,由这k个账号的属性加权决定。

其中wj是每个已知账号的权重,常用距离或者高斯距离来定义权重。最后当yi>0时,该账户被认为是正常账号,当yi<0时,被认为是垃圾邮件发送账户。

从实验的结果来看,最佳的结果可以达到正确率90%,误判率能够降低到1%以下。进一步的实验将该算法和基于内容的贝叶斯垃圾邮件检测算法结合,组成一个两阶段的垃圾邮件分类,可以进一步的提高效率。

3 结论

该文通过分析邮件交换日志,构造出邮件链接网络,并通过邮件链接网络特征来对邮件账户进行分类。实验证明,该算法的效果出色,同时能够与其他基于内容的邮件检测算法组合使用。并且本算法可以部署在邮件服务器端,阻止垃圾邮件发送账户进行发送,起到了减少垃圾邮件侵占网络资源的效果。

摘要:垃圾邮件不仅损害用户利益,侵占宝贵的网络资源,同时也具有强大的社会危害性。由于垃圾邮件形式变化迅速,伪装隐藏能力出众,因此垃圾邮件检测是一个较为困难的任务。该文通过对邮件日志进行分析,提出一种基于邮件交换日志链接网络的垃圾邮件检测算法,实验证明能够有效的侦测垃圾邮件。

关键词:垃圾邮件,邮件链接,网络特征提取,分类

参考文献

[1]崔霞,朱思峰.垃圾邮件及反垃圾邮件技术研究[J].信息安全與通信保密,2006(9):139-141.

[2]衣治安,毛岩.垃圾邮件过滤技术概述[J].长江大学学报,2010(1):256-258.

[3]李洋,方滨兴.基于用户反馈的反垃圾邮件技术[J].计算机工程,2007,33(8):130-132.

[4]徐洪伟,方勇,音春.垃圾邮件过滤技术分析[J].通信技术,2003(10):126-128.

[5]齐浩亮,程晓龙.高性能中文垃圾邮件过滤器[J].中文信息学报,2010,24(2):76-83.

[6]张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005(22):14-19.

上一篇:高校课堂的双语教学论文下一篇:发情特点