垃圾邮件的法律问题(共12篇)
垃圾邮件的法律问题 篇1
摘要:电子邮件在给我们带来方便的同时, 也给我们带来了困扰。垃圾邮件的泛滥, 消耗了人们大量的时间和精力, 也给邮件拦截系统带来了巨大的挑战。面对邮件中大量的垃圾图像信息, 传统的文字拦截已无法满足反垃圾邮件系统的需求, 快速、有效的拦截垃圾图片邮件刻不容缓。本系统的主要目的是发现邮件中的垃圾图像信息, 使得用户不受垃圾邮件的困扰, 提升工作效率。系统采用Visual Studio 2010、SQL Server 2008以及Jmail组件, Visual Studio 2010负责系统搭建, SQL Server 2008负责后台数据管理, Jmail负责实现Web端发送、接收邮件, 最终系统实现拦截包含垃圾图像邮件的功能。拦截算法利用角点特征算法对图片进行匹配。实验证明, 角点特征算法具有计算量少、匹配速度快、不受光照等外界因素影响等优点, 适合快速匹配输入的图像。
关键词:垃圾邮件拦截,图像特征,角点特征,图像匹配
现在的邮箱系统虽然都带有拦截垃圾邮件功能, 但大多都基于文本。然而, 垃圾邮件中很大一部分是图像, 并不能被有效拦截[1, 2]。因此, 本文提出建立一个基于图像的垃圾邮件拦截系统。该系统使用Visual Studio 2010搭建系统, 使用SQL Server 2008管理后台数据, 使用Jmail组件实现Web端发送、接收邮件。该系统能够提供两种功能:1、在不改变现有邮件系统的基础上, 实现拦截包含垃圾图像邮件的功能。2、实现单个用户同时管理多个邮箱。
1 基于图像的垃圾邮件拦截系统的建立
1.1 后台数据库建立
整个系统的建立需要后台数据库的支持。SQL Server是一个关系数据库管理系统, 它为关系型数据和结构化数据提供了更安全可靠的存储功能, 使您可以构建和管理用于业务的高可用和高性能的数据应用程序。本系统选择的SQL Server 2008相对于以往的版本更加安全、可靠。
数据库中包含了多个相互关联的表格。用户表:存储用户信息, 字段包括用户名、密码、用户目录。用户邮件表:存储一个用户的邮件信息, 字段包括邮件收件人、邮件发件人、邮件主题、邮件发送时间、邮件是否已读、是否为垃圾邮件、邮件存储名称。垃圾图像表:存储垃圾图像信息, 字段包括垃圾图像ID号、图像名称、存储位置。垃圾图像特征表:存储垃圾图像特征信息, 包括垃圾图像ID号、特性信息。
1.2 邮件的发送和接收
原有的邮件系统不能提供垃圾图像拦截的功能, 本系统为了不改变原系统结构, 使用了Jmail组件。Jmail组件是Dimac公司的邮件收发组件, 它可以完成发邮件的工作, 也可以使用POP3协议收信。与其他邮件组件相比, Jmail可以称得上出色, 除了常见的抄送暗送等多收件人功能外, 它还支持添加嵌入式图片附件, 可以从URL读取文件作为附件, 支持收发邮件时的PGP加密, 另外, 它内置一个群发邮件的对象。世界上已经有超过40万程序员用过Jmail。Jmail基于COM技术, 可以被大多数的编程语言调用, 但主要还是用于ASP和ASP.net。Jmail安装及其简单, 把Jmail.dll文件拷贝到硬盘的某一目录下 (如C:JmailJmail.dll) , 然后执行命令Regsvr32C:JmailJmail.dll即可。
Web端发送邮件首先需要建立Message对象, Message jmessage=new Message () 。然后设置Message对象的相关属性, 包括From (发件人邮箱) , Subject (邮件主题) , Body (邮件内容) , Mail Server User Name (发件人用户名) , Mail Server Password (邮箱密码) 。若需要可设置附件, Add Attachment (“附件路径”, true, “”) 。最后是发信的函数, Send (“发信邮件服务器名称”, false) 。
Web端接收邮件同样需要建立一些对象, 如POP3Class对象用于连接邮件服务器, Message对象用于下载邮件信息, Attachment对象用于下载附件信息。首先是使用Connect (“用户名”, “密码”, “服务器邮件收信地址”, “服务器邮件收信端口”) 函数。然后下载邮件的相关信息, 如发件人, 时间, 主题, 内容, 附件等。
1.3 邮件拦截功能
1.3.1 垃圾图像添加模块
该模块的主要功能是为拦截提供模板。为此, 需要在网页中上传相应的图像, 如果并非整幅都是模板, 需要在图像上给出一个矩形区域。随后系统会自动计算下文提到的特征值。
1.3.2 图像获取模块
图像一般存储在附件中。即使使用MIME协议将图像插入正文中, 当邮件被收到本地后, 图像也被存储在邮件的附件中。
1.3.3 图像匹配模块
本文使用的是Harris角点检测算法, Harris算子是一种有效的点特征提取算子, 这种算子受到信号处理中自相关函数的启发, 给出像素点自相关函数的一阶曲率, 如果曲率值较大则认为该点是角点。由于噪声会造成角点检测的偏差, 为了消除噪声对于角点检测的影响, 使用了一个高斯低通滤波器平滑图像。Harris角点检测主要有以下优点:1、计算简单, Harris算子只用到灰度的一阶差分以及滤波, 操作简单。2、获得的特征均匀且合理, Harris算子对图像中的每个点都计算其兴趣值, 然后在该领域中选择最优点。3、不受摄像机姿态及光照的影响。
接收信件后, 需要查找该图片在数据库中是否有匹配, 若匹配成功, 则将该邮件标识为垃圾邮件。首先计算获得输入图像的角点, 记录角点位置, 计算角点的特征值。然后遍历数据库中每幅垃圾图像的特征值, 计算待匹配图像的角点的特征值和垃圾图像角点的特征值的相似性, 如果它们的差平方和小于等于1.0的话就代表这两个角点相似。当匹配的角点数量超过一定比例, 则认为这幅图像与垃圾图像类似, 即匹配成功, 反之匹配不成功。
2 结论
有效拦截包含垃圾图像的邮件是当前邮件系统仍然没有具备的功能。本文设计了一个基于图像的垃圾邮件拦截系统。该系统实现了邮件的发送、接收, 通过Harris角点特征的比较, 能够快速、准确地挑选出与图像库中相似的图像。整个系统在试验过程中有效地拦截了包含垃圾图像的邮件。
参考文献
[1]刘艳洋, 曹玉东, 贾旭.基于内容的图像型垃圾邮件过滤技术研究[J].辽宁工业大学学报 (自然科学版) , 2014, 34 (2) :86-90.
[2]秦伟.基于OCR的图像型垃圾邮件过滤系统研究[J].机械工程与自动化, 2013 (181) :184-185.
垃圾邮件的法律问题 篇2
如果垃圾邮件数量很少,当然可以直接删除,如果数量很多,相信你会为删除操作而头疼,所以,我们应该建立有效的过滤规则,让邮件在进入本地硬盘之前自动消失或者干脆就让服务器拒绝接收,
一、巧用过滤规则,屏蔽垃圾邮件
目前的邮箱中几乎都有设置过滤器功能,因此只要将那些垃圾邮件的发送地址加入黑名单中,以后就不会受到骚扰。下面笔者用两个例子来说明设置方法:
1.一般邮箱
如进入中申请的免费邮箱 ,单击页面左侧的“垃圾邮件过滤器”,然后在右侧的“过滤器列表”下的文本框中完整地填写垃圾邮件发送者的email地址(多个地址之间用逗号分隔,) 然后单击“更新”按钮即可,以后这些发件人所发的邮件就不再进入收件箱, 而被直接拒收;此外,还可以单击下面的“新建”按钮,在接下来的页面中建立过滤规则即可,如图1。 在此过滤器中, 一共可以设置100条过滤规则。
图1设置过滤
2.hotmail邮箱
再如微软的hotmail信箱也是经常受到垃圾邮件的骚扰,如果你根本不希望用此信箱和外界联系,有一个一劳永逸的方法可以让她远离“信骚扰”:
首先,登录www.hotmail.com填入用户名和密码进入你的邮箱,单击页面上的“选项”打开“msn hotmail选项”页面,再单击其中的“垃圾邮件过滤器”文字链接,在新页面中的“选择你的‘垃圾邮件过滤器’级别”下面点选“专用”一项(注意:这是关键步骤!),如图2,然后单击下面的“保存更改”按钮。
图2设置过滤
之后,单击 “msn hotmail选项”页面中“安全列表”文字链接进入安全列表页面,将希望从对方收到邮件的发信人地址添加进去,单击“确定”返回上一画面。这样只有该安全列表中的人的邮件才会放入你的收件箱;
接下来,单击“msn hotmail选项”页面中的“邮件列表”,按如上方法添加希望收到邮件的发信人地址,存入该列表中的邮件地址所发来的邮件不会被过滤掉。
如果经常收到某个特定地址发来的垃圾邮件,还可以单击“阻止发件人”将其邮件地址添加进去。
综合设置项目后,就为hotmail信箱设置了多重过滤保护功能。笔者这样设置后,以前msn messenger提示收到新邮件的次数明显减少(现在只会收到安全列表中好友的来信和微软
同垃圾邮件的持久战 篇3
1978年的春天,DEC数字设备公司一位精力充沛的市场人员加里·图埃克(Gary Thuerk)雄心勃勃,想要在行业内人士中宣传公司将要引入的一种全新电脑系统。尽管DEC公司在美国马萨诸赛州已经颇有名气,但加里还想更进一步,让公司在加州的科技圈里也拥有影响力。
他觉得通过当时政府和太学问的计算机联网来进行推广可能是最佳方案,尽管当时这个专有网络的使用者不过数千,但他们的名字都被印在了同一本名册上,很容易就可以查到。加里辛辛苦苦地查出了600个位于西海岸的地址后,他终于意识到根本没有时间给每个人打电话,连向其中100人传递消息都做不到。他忽然想到,为什么不简单地使用网络,向每个人发送同一封电子邮件呢?那封电子邮件的内容是“我们邀请您来参观2020并且出席Decsystem-20成员的讲座”。
的确,从历史长河发展的角度来看,加里·图埃克的小聪明并不能和人类登月相提并论成为影响人类历史的重要事件,但是他的影响力绝对是不容小觑的。因为在他按下发送键时,便成为了“垃圾邮件之父”。
开放网络与垃圾邮件
加里很快就收到了大家的回音,或者说差不多立刻激起了众怒。“这是对互联网不可容忍的亵渎,”一位收信人写道。另一位说,应该禁止“对特定产品的广告”出现在网络上。DEC的管理人员保证立刻对这种情况做出处理,而加里·图埃克也被狠狠地训了一顿。可是不管怎么说,他的公司卖出了超过20套单价百万美元的电脑系统。加里觉得自己的行动没有任何的害处,他和其他人都籽网络视作信息自由的象征。即使未经许可便发送电子邮件的行为可能惹人生厌,但是如果限制这一新兴的广告工具可能会带来更大的危险。
“那些被称为‘不公正’的事情实际上给网络带来的危害很小,”互联网先驱理查德-斯多曼(Richard Stallman)在DEC“电子邮件门”几天后写到。斯多曼反对任何可能影响或干涉网络开放性的行为。他现在依然坚持这种态度。在他关于DEc垃圾邮件的评论中,斯多曼在同城交易网站和网上黄页出现的30年前就指出,网络为广告业带来了一个无与伦比的机会,也为产品销售提供了全新的方式。他甚至设想得更远,“有没有可能出现网上约会?我希望不要。但是即使真的出现,千万记得发封邮件提醒我注意。”
不知道当时网络上有没有人想替斯多曼安排一次相亲,但是现在数千人试图帮助我。在过去数周,我从成人交友网站上收到了不少封电子邮件,而一家成人交友网站甚至给我发了几十封邮件。不仅如此,还有很多化名为小丽、小红,海伦的人给我邮件,明显就是想暧昧地把我给拖到他们的网站上去。
这些约会网站发的垃圾邮件还是小意思,那些推销乱七八糟的药物和性产品的广告才让人头痛。我的邮箱里还经常被无息汽车贷款、安眠药、减肥药、手表、在线赌场、笔记本电脑、盗版软件和承诺让我在家什么都不用做就可以挣上百万的邮件给塞满。在上个月,我的三个主要邮箱的垃圾回收站里共收到了4321封垃圾邮件。
随着互联网在生活中发挥越来越核心的地位,垃圾邮件的数量也急速增长,而且垃圾邮件的发送手段也越来越复杂。每秒钟差不多有200万封邮件被拖进垃圾邮件回收站,也就是说每天有1710亿封垃圾邮件被处理。绝大多数邮件都是卖东西的。
即使最愚蠢的广告都能挣钱,部分原因是成功的门槛太低了。如果有人想通过传统模式给你发送直投广告,他就必须通过各国邮政系统服务,必须支付邮费。他发送的邮件越多,支付的成本就越高。但是有了电子垃圾邮件,一切都反了过来:不用多少钱就可以发出100万条信息,甚至10亿条信息,收件人永远比发件人用的钱要多。假设一个人使用每月收费120元的宽带账户可以发出1亿封电子邮件,按照这个比例,每发8300封邮件才用1分钱。
垃圾邮件的增长是双方面的,不仅数量有了巨大增长,在所有邮件中所占的比例也是如此。在2001年,垃圾邮件占整个互联网通讯数量的5%,而到了2004年,这个数字就飙升到了70%。去年。在有些地区这个数字已经达到了90%之多,这也说明每天数千亿封垃圾邮件堵塞着互联网的信息高速流动。
垃圾邮件的流量也有季节规律。在春天,一般垃圾邮件会较少。而在被科学技术人员称为“黑九月”的秋季,垃圾邮件会太大增多,据研究,这是因为每年9月会有大量学生回到学校,很多换上了新电脑或者使用了高速上网的服务。
像彩票一样——总有中奖的一张
监视管理网络的努力只获得了部分成功。去年5月23日,美国法院判决罗伯特·阿伦·索罗维(Robert Alan Soloway)触犯35项法律,其中包括信函诈骗、电汇诈骗、洗钱和身份盗窃。他申请无罪辩护。在控告中,公诉方提出罗伯特曾经在过去四年中发送了超过1000万封邮件,想要给他的在线市场公司带来生意。美国执法官员将这位27岁的西雅图商人称为“美国垃圾邮件大王”,并称逮捕罗伯特的行动将会在减少人们讨厌的垃圾邮件。旨在打击垃圾邮件的信息研究室的首席反垃圾邮件科学家马特警官说: “将罗伯特绳之于法真是大快人心。但是明天打开你的电脑,看看你是否觉得一切会有改变吧。这些家伙十分狡猾,而且他们到处都是。每次我们觉得解决了他们了,他们马上又使用新的伎俩来做怪了。”
1978年的DEC事件后,垃圾邮件貌似销声匿迹了一段时间。整个20世纪80年代,互联网绝大多数时间仍然被用作学术研究,几乎没有人愿意看到网络被当成进行虚拟物品交易和约会服务的平台。但是随着电子交易网站在上世纪90年代的崛起以及其他虚拟商业的出现,互联网的力量很快就超出了创造者的掌控。在万维网上,人们的身份原本从来未被怀疑过,而开放性在成为其巨大优势的同时,也是其最大的缺陷。互联网许可个人在未经监视、许可或控制的情况下行事。如果你拥有电子邮件地址,你可以直接给任何人写信。控制书面交流达数百年的准则与规矩忽然全无用武之地。绝对自由使得人们可以在网上发表激烈的政治观点、销售17世纪的古董或者在博客中提供音乐下载资源。想要用任何的秩序或守则来约束这些新生的自由几乎都是不可能的,而想要控制垃圾邮件爆炸式发展的行动也几乎没有可行之处。
所有电子邮件都包含简单的发件人与收件人信息。电子邮件是由连接网络的电子设备一路由器,来加以分拣传递的,而路由器没有方法确定你的真实身份。绝大多数的解决方案都会为自由交换信息带来极大限制。即使很多担心薄弱的安全防护将会让互
联网瘫痪的人也都不愿意支持限制自由言论。电子前线基金会的主席布莱德-坦布里顿(Brad Templeton)经常写一些关于垃圾邮件发展史的文章。正如他的基金会在最近的白皮书中公布的那样: “对一个人来说是垃圾的邮件,对于另一个人来说却可能提供了重要的政治视野。”
在这样的环境下,新时代的垃圾邮件有了它们的新特征:数量多、匿名和虚假信息多,这是不可避免的。1994年4月12日,律师劳伦斯·卡特(Laurence Canter)和他的妻子玛莎·西捷尔(Martha Siegel)在网上开始滥发邮件,宣传他们的移民服务如何帮助人们获得在美国的永久居留权。他们邮件的内容是: “1994年的摇号授予绿卡可能是最后一次了!截止日期业已宣布。”他们几个小时内发送了数百万条信息。他们受到了谴责,网络服务供应商立刻废除了他们的账户。这一制裁没有多大的效果,卡特和西捷尔如愿以偿地获得了他们想要的东西一数千个客户,很快他们也重新获得了上网服务,筹划下一轮广告邮件发送计划。这两1个人后来宣布他们从电子邮件广告中赚到了10万美元,这可在互联网上引起了轩然大波。这两位律师充分利用了他们的“恶名”,并且出版了一本相关书籍《如何在信息高速公路上大赚一笔》。很快他们就有了数千名效仿者。
同垃圾邮件的斗争
英语中,垃圾邮件这个词被称为“Spam”,这是切片火腿“Spiced Ham”的缩写。说来有趣,这个词是荷美尔公司的首创。这种切片火腿在二战期间被大量运送至海外成为了美国大兵的日常口粮。在20世纪70年代,该公司拍摄的让人印象深刻的一条广告中,一位厨师企图为一群戴着带角头盔的维京人提供晚餐,却没有准备Spare,维京人们开始不停高喊“Spam”几十遍,让人根本没有办法去进行理性的思考。这个词很快就被电脑程序员用作动词,去代指在聊天室或BBS论坛中使用过多数据刷屏,使得系统崩溃的行为。
尽管垃圾邮件的定义多种多样,人们也很难区分到底一条邮件是合法,是恼人的广告还是纯粹的垃圾邮件。但是,从电子垃圾邮件的简易和隐私性中获益颇多的行业可不少,色情图书类就是如此。几乎没有公司能够有效阻止垃圾邮件入侵他们雇员的收件箱。成本也很难估量,但美国每年有超过100亿美元的资金被花费在打击垃圾邮件上。阻止垃圾邮件的效果通常成功率在95%以上,但是垃圾邮件在互联网上的发展和病毒对人类的攻击很相像:可能有数百万次对免疫系统的攻击最终失败,但是只要有一个能够成功上垒,那就够了。电子邮件也是如此,越多的垃圾邮件被阻止,那么就需要发出更多的垃圾邮件来挣钱。 “如果你以前需要发出5万封邮件才能得到回应的话,现在你需要发出100万封了,”微软反垃圾邮件技术的总经理约翰·斯加诺(John Scarrow)说。
通常,垃圾邮件发送者发出l00万封电子邮件才能得到15个积极的回复,而直邮宣传则是每100万封信件会得到3000个回复。“但是垃圾邮件发送者只会耸耸肩,然后再发送100万封邮件。”这一数量的电子邮件会拖垮服务器,并浪费人们的时间,对于那些每天必须查上好几次邮箱的人来说,这更是煎熬。据调查,人们至少需要5秒钟才可以辨明一封邮件是否是垃圾邮件并将它删除。如果每天有10亿封垃圾邮件逃脱探测,也就是说1%的垃圾邮件蒙混过关的话,一个人需要花费159年时间去点击按钮才能删掉这些邮件。斯加诺告诉我每天Hotmail上会有40亿封来往电子邮件,但是他们只传递其中的6亿封。其余的邮件都是垃圾邮件。
Hotmall是世界上最大的电子邮件服务提供商之一,拥有来自超过200个国家的2.85亿注册用户。“我们将所有邮件都过滤一遍,这占用了巨大的电脑工作处理能力和网络带宽资源。这还要求我们不断工作来避免垃圾邮件的数字进一步增加,”斯加诺说。“我们这么做是想将对客户的影响最小化,但这可真不是个轻松的工作。”微软设有13万个特殊邮箱帐户来检查值得怀疑的邮件。它们可以诱使垃圾邮件发送者留下自己的网络地址。
2003年,美国政府通过了法律来要求电子邮件广告发送者为收件人提供机会退订广告信息。违反法律的人最高可以处以监禁。2004年初,比尔·盖茨由于受到这一立法的触动,在参加世界经挤论坛瑞士达沃兹年会时,做出了充满激情的宣言:“在两年的时间里,垃圾邮件问题将被解决。”他的评论引起了很多关注,至少在此后一段时间内,盖茨先生的乐观主义看上去不无道理,垃圾邮件的增长速度也看似有所减缓。新的法律对何种类型的广告宣传属于合法做出了明确规定,很多公司也做出了极大努力去寻找与起诉最为猖獗的罪犯。对于发送垃圾邮件的人来说,违法的成本提高了,这使得他们至少当时开始变得谨慎。这一法律并不想要完全取缔广告邮件,只是想为其发展提供准绳。尽管如此,这项法律还是让人普遍觉得比较失望。法律许可垃圾邮件发送者继续发送邮件,除非受到特别要求。
在该法律生效的当年,只有不到7%的广告邮件符合立法要求。到去年,符合要求的广告邮件比例甚至不足1%。公司的技术管理人员通过观察发现,在10月和11月,垃圾邮件的数量都有了巨大的增长。一家重要的网络安全公司珀斯蒂尼(Postini)在11月为3.6万名客户拦截了超过220亿封垃圾邮件。根据这家公司的统计,目前每监测12封邮件,才有1封邮件不是垃圾邮件,会被发送到客户邮箱中去。在2006年,也就是盖茨预测垃圾邮件将会被解决的那一年,垃圾邮件的数量与上一年相比翻了一番。
垃圾邮件的新形式
我们现在知道真正的原因了。尽管各国通过了相关立法来打击垃圾邮件,发送者们也跟着改变了他们的策略。在2003年以前,绝大多数广告邮件都作为常规大规模市场宣传的辅助跟进手段,为客户提供产品的书面信息等。电子邮件的发送地址很容易查明,也几乎没有发送者会伪造自己的身份。而到了2003年,垃圾邮件发送者开始雇佣一些程序员为他们编写病毒软件去控制别人的家用电脑。那些病毒软件实际上是一些可以利用网络或者操作系统漏洞的小程序。在2003年的夏天,一种叫Sobig的病毒就感染了全球数百万台电脑。微软在一天内截获了100万份含毒邮件,而美国在线截获了2500万封。
sobig是第一个垃圾邮件发送者创造出来的商业病毒,它可以感染机器,并利用那些机器发送出数百万封电子邮件。由于发送邮件者是那些无辜的电脑病毒感染者,几乎不可能去找到真正罪犯的踪迹。数百万台电脑可能会在用户不知情的情况下被控制,然后随即向数百万个邮箱地址组合发出邮件,尽管成功的机率并不大,但仍然有大量的垃圾邮件被发送出去。
垃圾邮件现在成为了全球化发展的成功案例之一。电脑黑客们会在网上到处兜售数百万个被控制的个人电脑名单,提供无法被追查的主站地址,或者是彼此间交流新的垃圾邮件发送技术。现在,世界上最负盛名和最有才华的垃圾邮件发送者在俄罗斯和东欧,尽管美国联邦调查局和其他国际组织都不断做出努力,但仍然对他们鞭长莫及。
去年,垃圾邮件发送者们开始利用电脑无法辨别图像的特点将自己的信息进行发送。绝大多数垃圾邮件过滤器是基于关键字或关键词组进行过滤的,对图片广告束手无策,而点击邮件的用户又无疑会看到内容。包含图片的垃圾邮件比普通文字垃圾邮件占用更多的带宽资源。他们还远远没有止步,现在还开始研究使用多种形式的垃圾邮件,同一封邮件可以发生数千种变化,这使得每封邮件看上去都十分特殊而难以分类。
基于链接信息网络的垃圾邮件检测 篇4
目前垃圾邮件检测技术可以分为以下几种[2,3,4]:
1)基于黑/白名单的垃圾邮件检测技术。
2)基于规则的垃圾邮件检测技术。
3)基于内容的垃圾邮件检测技术。
这些技术能有效的探测垃圾邮件,但也存在一些不足之处。例如基于黑/白名单技术封杀IP地址,容易误杀正常用户的邮件,而发送者可以不断的更新地址,使得黑/白名单规模愈发庞大且经常失效[5]。而基于内容的垃圾邮件检测方法并不能减少垃圾邮件对网络资源的侵占[6,7],同时由于发送者可以很迅速修改发送内容,使得基于内容和规则的垃圾邮件检测技术也需要经常更新。
该文通过分析邮件交换日志,提出一种基于邮件链接网络的学习算法,它根据邮件交换日志构造的链接网络计算发送方的合法度,并以此当作垃圾邮件检测的重要指标。
1 邮件交换日志网络
简单邮件传输协议(SMTP)记录了邮件传输事件的日志,包括成功或者出错等等信息。该文分析所有成功发送的邮件日志信息。将所有邮件账号表示成集合A={a1,a2,…,an},其中存在一个子集S奂A成为发送集,表示至少成功发送一封邮件的账号集合,另外一个子集R奂A称为接收集,表示至少成功接受过一封邮件的账号。对发送集S,其中部分账号已经具有标号:
其中被标号的账号个数是t(t
1.1 网络构造
根据邮件交换日志可以构造一个有向图,图的顶点由发送和接受账号组成,而图的边由账号之间的交换信息构成。从邮件交换日志中,可以提取账号之间邮件交互的如下信息:
EmailCount(si,rj)=#(si→rj)si∈S,rj∈R,S∪R=A
EmailCount记录从发送账户si发送至接收账户rj的邮件数目。这个有向图G=(A,E)的顶点由所有的账户集合A构成,而边的集合E中的元素e(ai,aj)=EmailCount(ai,aj)构成。在有向图中,边的起点代表发送账户,边的终点代表接收账户,注意S∩R≠φ。如图1所示。
1.2 基于邮件网络的特征提取
正常的账户在网络中的通信大部分是双向的,这种邮件网络形式和社交网络非常相近。而非法用户的行为和正常用户的行为具有明显的区别,例如,垃圾邮件制造具有庞大的发送列表,几乎不接受邮件。因此,可以利用网络的链接信息提取关于垃圾邮件制造账户的特征。
入度与出度:图最大的特征是每个定点具有一定的出度和入度,对应于邮件网络既账户的发送列表和接收列表。合法账户的出度和入度不会相差不会太大,而非法帐户的出度要远远大于入度。但这个特征对于某些商业机构或者公司的账户并不适用,因为某些机构或者商业机构的联系账户可能只发不收。
相互通讯度:相互通讯度度量了一个账户的和邻居节点的交互活跃度。
其中OS(ai)是至少接收到ai一封信的账户集合,IS(aj)是至少发送给ai一封信的账户集合。
平均交互通信强度:合法用户与其他联系人之间的通信往往能得到回复或者反馈,因此交互的强度较高,而非法用户往往得不到相应。因此可以利用交互通信强度:
来对账户进行甄别,合法用户的CIA比较高。
聚类强度信息:正常用户的链接网络往往呈现聚集现象,联系人之间会组成一个小范围的互通网络,而垃圾邮件发送方则不存在这种性质。一个账户的k个联系人之间组成的最大连通子图的边的个数为k(k-1)/2,聚类强度定义:
其中n(ai)是实际的边的个数。正常用户的CI值应该较高。
2 垃圾邮件信度计算
上一节通过构造邮件链接网络,提取了若干侦测垃圾邮件发送账户的特征。利用这些特征,可以构造分类器进行垃圾邮件账户的检测。常用的分类器有KNN,朴素贝叶斯,SVM等等。该文利用KNN算法,根据已标注的账户子集对剩余账户进行分类。
当一个新的账号ai进来,根据提取的信息为每个账户建立特征向量p(ai)=(f1,f2,…,fn),计算ai到所有被标注的账号之间的距离,选择最近的k个账号,由这k个账号的属性加权决定。
其中wj是每个已知账号的权重,常用距离或者高斯距离来定义权重。最后当yi>0时,该账户被认为是正常账号,当yi<0时,被认为是垃圾邮件发送账户。
从实验的结果来看,最佳的结果可以达到正确率90%,误判率能够降低到1%以下。进一步的实验将该算法和基于内容的贝叶斯垃圾邮件检测算法结合,组成一个两阶段的垃圾邮件分类,可以进一步的提高效率。
3 结论
该文通过分析邮件交换日志,构造出邮件链接网络,并通过邮件链接网络特征来对邮件账户进行分类。实验证明,该算法的效果出色,同时能够与其他基于内容的邮件检测算法组合使用。并且本算法可以部署在邮件服务器端,阻止垃圾邮件发送账户进行发送,起到了减少垃圾邮件侵占网络资源的效果。
摘要:垃圾邮件不仅损害用户利益,侵占宝贵的网络资源,同时也具有强大的社会危害性。由于垃圾邮件形式变化迅速,伪装隐藏能力出众,因此垃圾邮件检测是一个较为困难的任务。该文通过对邮件日志进行分析,提出一种基于邮件交换日志链接网络的垃圾邮件检测算法,实验证明能够有效的侦测垃圾邮件。
关键词:垃圾邮件,邮件链接,网络特征提取,分类
参考文献
[1]崔霞,朱思峰.垃圾邮件及反垃圾邮件技术研究[J].信息安全與通信保密,2006(9):139-141.
[2]衣治安,毛岩.垃圾邮件过滤技术概述[J].长江大学学报,2010(1):256-258.
[3]李洋,方滨兴.基于用户反馈的反垃圾邮件技术[J].计算机工程,2007,33(8):130-132.
[4]徐洪伟,方勇,音春.垃圾邮件过滤技术分析[J].通信技术,2003(10):126-128.
[5]齐浩亮,程晓龙.高性能中文垃圾邮件过滤器[J].中文信息学报,2010,24(2):76-83.
[6]张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005(22):14-19.
垃圾邮件的法律问题 篇5
扫除垃圾邮件的工具
信息产业部在2月份颁布了《互联网电子邮件服务管理办法》,尽管涵盖的内容还是挺丰富,但仍然被很多人视为一部专门用于扫除垃圾邮件的工具法规。因为,它在一定程度上,为我们专门界定了什么是垃圾邮件,大致有如下九条:
1、未经接收者明确同意而向其发送的包含商业广告内容的电子邮件。
2、没有在邮件标题前面标注“广告”或英文“ad”字样,以便于接收者区分鉴别的广告邮件。
3、接收者之前同意,但一段时间后表示拒绝继续接收,之后发送者继续向其发送的广告邮件。
4、故意伪造或隐匿发送者电子邮件地址等真实信息的电子邮件。
5、采用 、病毒、匿名转发等技术控制、利用他人的计算机系统所发送的电子邮件。
6、通过字母/数字随机组合等方式获得他人的邮件地址并向其发送电子邮件。
7、传播色情、恐怖、邪教、民族歧视等国家法律明令禁止的违法有害信息的电子邮件。
8、蓄意进行欺诈、窃取信息等违法活动的电子邮件。
9、故意传播计算机病毒或进行网络攻击等破坏他人电信网络或计算机系统的电子邮件。
“管理办法”针对这些垃圾邮件具体的管理手段又有以下一些方面:
一是对提供互联网电子邮件服务实行市场准入管理。
二是建立了电子邮件服务器ip地址登记制度。
三是要求互联网电子邮件服务提供者按照技术标准建设服务系统,采取安全防范措施。
四是对电子邮件服务进行了具体的规范。
另外,它的举报机制和高至三万元的罚款金额,也使得这部法规对发送垃圾邮件的企业有了一定的威慑性。
邮件管理办法对服务商的影响
这个管理办法如果严格执行的话,那么邮件服务商将承受一个较大的压力。众所周知,我们使用的电子邮箱绝大部分都是由服务商免费提供的,收费邮箱的数量还不及总量的5%。这样一个电子邮件服务对于很多服务商来说了,都是处于一种亏本运营状态。这种亏本赚流量的事情,本来就是已经很吃力了,现在的办法对他们做出了更为严格的管理要求无疑是一种雪上加霜的行为。
信产部首先明确指出各邮件服务商必需保证用户的个人注册信息和互联网电子邮件地址的安全性,这就对公司的内部管理和完全手段做出了更为严格的要求。而更让邮件服务商头痛的是他们若要保证邮件服务的安全性,在软、硬件方面需要做的大量投入。想必现在谁还想开发自己的邮件平台一定会再三斟酌自己的举动了,
当然,只要这个办法能够严格执行,对于那些提供邮件服务就是为了制造垃圾邮件的网站,想必也会造成重大的打击。他们的退出一定会将起到规范邮件服务提供者的作用。让那些更为专业的邮件服务企业得到进一步的。让不规范的退出,让专业的得以发展,邮件服务提供者由此走向规范,对于我们未尝不会是一件好事。
邮件管理办法对网络营销的影响
在各种广告宣传手段当中直邮是最有针对性的一种,可以说它是最为原始的分众传播方法。在国内把直邮广告发挥到极致的是当年的一些保健品企业,它们依靠派发产品传单,很快就走进了千家万户。它的传播成本低而传播效果则非常有效,这样原始的方式成就过几家帝国式的巨型企业。
而当e-mail出现的时候,这种原始的营销方式也插上了科技的翅膀,通过一些网络用户资料的获取,它的目标性更强,――几乎不亚于美国人的精确制导导弹。但是,随着邮件管理办法的推出,这种精确性就要消失了。而在标注“广告”或“ad”字样之后,还有谁愿意花费时间点开邮件内容就更值得我们怀疑了。这也就大大降低了电子邮件广告的可靠性和有效到达率。电子邮件广告的有效性降低之后,必将加大商家的营销费用。
狙击垃圾邮件 篇6
什么是垃圾邮件
垃圾邮件,通常指未经请求而发送的电子邮件,也可以是发送给与信件主题不相关的新闻组或者列表服务器的同一信件的重复邮件。这些电子邮件虽然每封的信息量不一定很大,但是邮件内容是大多数用户不需要,甚至是令大多数用户讨厌的。
中国互联网协会在《中国互联网协会反垃圾邮件规范》中给出了垃圾邮件的定义:本规范所称垃圾邮件,包括下述属性的电子邮件:(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。
垃圾邮件的危害
铺天盖地的垃圾邮件不仅侵犯了用户的私人空间,而且干扰了大多数用户正常使用电子邮件的功能,同时给用户带来了上网时间和资金上的浪费。
根据中国互联网协会的统计数据显示:2005年国内的邮件服务器共收到1980亿封垃圾邮件,中国互联网用户平均每人每周收到垃圾邮件数量为17.25封,为处理这些垃圾邮件,每个网民每天至少需要花费3.65分钟。这意味着,全国网民每年会浪费掉15亿小时的宝贵时间。
另据SBL著名垃圾邮件对比资料库提供的资料,全球十大垃圾邮件最严重的国家和地区大都在亚洲,而中国位居美国之后,是全球第二大垃圾邮件受害国,中国网民收到的垃圾邮件数量占全球的十分之一。
而且这些垃圾邮件也非常占用网络带宽,因为邮件的发送协议是从文件传输协议修改过来的,发送邮件其实也是发送文件,这样就会占用一定的带宽。当垃圾邮件在互联网上非常多的时候,对网络带宽的占用就非常可观了。根据一些反垃圾邮件组织的统计数据,在每天的网络上,垃圾邮件平均占到30%以上的带宽。所以垃圾邮件对网络资源的影响还是非常大的。
另外,很多垃圾邮件的内容还包含着黄色信息、暴力信息和病毒程序。黄色信息和暴力信息对社会的危害很大,病毒程序也会损害用户的电脑。如果用户的系统没有及时打上微软公司的补丁,那么就非常容易感染上病毒。目前又出现了一种新的垃圾邮件,这种邮件又被称之为钓鱼邮件。这种垃圾邮件伪装成某个网站发送给你,多半都是向你索要登录该网站的密码,如果用户没有看清楚来信的邮件地址,贸然地给这封信回邮件,并且附上自己的密码,那么最坏的情况是自己的信用卡会被盗用。因为黑客得到用户的密码之后会一点一点地渗透,最终获取信用卡的信息。当然并不是每封钓鱼邮件都会得手,但是这样的危险存在,需要我们提高防范意识。
垃圾邮件发送技术
那么垃圾邮件是怎样发出的呢?通常,垃圾邮件发送者会使用一个专门的程序,也就是一种称之为爬虫的软件去网络上搜索邮件地址,并对其进行重组分类,作为接收者的地址。接着垃圾邮件的发送者会把前面得到的邮件地址导入到专门的邮件发送程序,然后,把事先编写好的电子邮件按地址发送出去。
垃圾邮件一般都通过网上现有的邮件服务器发送。以前,垃圾邮件发送者往往随便在网上找一台邮件服务器就可以把大量邮件发出去。现在,各大网站都加强了对发送电子邮件的控制力度。比如263.net,如果是个人用户,那么每天发送的邮件数目是有规定的,超过规定的数目,当天就不能再发送邮件了。针对各大邮件服务器设定的限制,垃圾邮件发送程序也有了多种反限制手段。例如:针对某个邮件服务器,设置每分钟的连接数,把自己模拟成人工发送的方式,或者设置一个间隔时间,在间隔时间过了之后再发送第二批的垃圾邮件等等。
如果实在找不到可以很方便被利用的邮件服务器,垃圾邮件发送者还可以把自己的机器做成邮件服务器来实施垃圾邮件的发送。
根据试验,一台PIII800的机器,在1M带宽的情况下,一个晚上可以发送8~10万封邮件。如果有多台机器接入Internet,那么每晚发送的垃圾邮件数目是相当可观的。
反垃圾邮件技术的发展
面对垃圾邮件,人们是不是无计可施呢?实际上国际和国内的反垃圾邮件的专家们一直在不停地努力着,不断开发出新的技术和垃圾邮件做斗争。反垃圾邮件的技术主要集中在邮件服务器和接收的客户端两个方面。
在邮件服务器方面,可以根据邮件发送者的地址进行判别,如果接收邮件的地址反向解析DNS之后和发送地址不一致,那么就可以判定这样的邮件是垃圾邮件了。而且可以根据SMTP的命令来进行判别,如果发送端服务器没有送出“helo”命令(握手命令),那么多半也是垃圾邮件,因为按照一般的程序,发送端是要送出“helo”命令来表明自己来自何方的。另外也可以根据发送端的发送频率来判定,如果在一个时间段内,有很多的并发连接请求,那么这种行为一般就是垃圾邮件的发送程序做出来的,这样的邮件就可以判定为垃圾邮件直接拒收了。
但是在服务器端的判定也不是万能的,因为一旦条件设定得过于苛刻,那么就会有正常的信件被拒收,这样的事情对公司的业务影响往往是巨大的,所以一般的邮件服务器都不会设置极为苛刻的反垃圾邮件条件,这样就会使很多垃圾邮件成为漏网之鱼,进入到用户的邮箱里。这个时候,客户端的反垃圾邮件程序就显示出巨大的作用了。
接收邮件的客户端软件中,微软的Outlook和OutlookExpress占据着半壁江山。其中Outlook Exptess作为Outlook的简装版本,对反垃圾邮件的处理不是很好,或者说基本上就没有办法处理垃圾邮件,只能根据用户自己定义的规则去处理,这个处理的过程是非常的费时和耗费精力的。
而微软的Offiee套件中的Outlook 2003版本就有很好的表现。微软为Outlook 2003的反垃圾邮件修改了算法,让Outlook变得更加智能,并且Outlook 2003会不断自我学习(所谓学习其实就是使用一种数学上的算法来分析用户判定的垃圾邮件,从不同的垃圾邮件中寻找出相同特征,这样随着垃圾邮件数量的不断增加,垃圾邮件的特征就会越来越多,这样判断的准确率就会不断增加,但是无论如何都没有办法达到100%的准确),使用四周以上的Outlook2003就可以判别出99%的垃圾邮件了,并可根据用户定义的邮件规则进行处理。
另外,在免费软件中,俄罗斯人开发的K9软件判别的准确率也非常高,而且K9可以无缝地和Outlook、Outlook Express以及Foxmail等软件结合在一起。当然,K9也是需要时间去学习的。
所以,就目前的技术而言,一般的使用者要想完全清除垃圾邮件,还是有一定困难的。控制乃至最大程度地减少垃圾邮件,除了技术手段之外还应辅之以法律手段。让我们期待着有那么一天,早上打开邮箱,里面没有一封垃圾邮件,那样我们的生活中就会有更多的好心情。
垃圾邮件的法律问题 篇7
现今,网络技术日益发达,通信方式已由原始的信件收发等方式,转变为现在邮件发送。虽然,邮件的存在极大地方便了用户,但存在的大量垃圾邮件严重影响用户的日常生活,不仅占用大量的传输与存储资源,而且造成网络资源的浪费[1]。因此,垃圾邮件过滤技术的研究成为了网络安全技术领域研究的热点之一。
在垃圾邮件中存在的信息一般具有不易发现、变异能力强等特点。现有的垃圾邮件过滤方法,如朴素贝叶斯[2]、k邻近算法[3]、支持向量机( SVM)[4]和神经网络[5]等文本分类方法,可有效地实现垃圾邮件的检测和过滤功能,但对于邮件中变异的特征或新出现的特征则往往不能及时发现与提取邮件特征,信息交互不及时。近年来,人工免疫系统AIS( Artificial Immune System) 以生物免疫系统为原型进行模拟已被成功运用[6]。采用人工免疫技术构造效率高,信息交互性强的反垃圾邮件模型也逐渐成为研究的热点。
对于单一的邮件服务器收转发节点,发现新型垃圾邮件特征信息对整个邮件系统并不明显,且随着各种应用不断增加,网络终端负载日益加重,垃圾邮件数量越来越多。为解决终端服务器负载较大、特征不能提取或提取时延较长等问题,可将多Agent技术应用于垃圾邮件过滤模型。在模型中将邮件过滤模型中不同的单个联网转发节点看作不同的进程Agent,每个Agent都具有提取垃圾邮件特征的能力,且能单独完成各自的任务,然后将所有Agent组合起来组成一个多Agent系统。这既能够对单个Agent进行相对独立的检测,又可以互相交流信息,学习积累邮件特征信息,实现复杂环境下的问题求解。
结合人工免疫特性及多Agent原理,提出一种基于免疫多Agent的垃圾邮件过滤模型SF-MA。该模型通过对SMTP协议该进,可以在邮件的第一道防线,快速对垃圾邮件进行识别判断,并归类邮件信息特征; 设计抗原提呈算法,扩大自体库的规模; 并将疫苗概念引入模型,通过疫苗提取和疫苗接种保留优良基因,增强了整个模型“记忆”能力,以有效地提取垃圾邮件的信息和变异特征。通过对该模型训练和测试,结果表明该模型能够准确地判断垃圾邮件,有效地提高垃圾邮件的过滤效率。
1 免疫多Agent垃圾邮件模型
经过分析免疫细胞和Agent之间、人工免疫系统和邮件过滤模型之间在性质和行为上的相似性,建立了具有不同功能的免疫Agent组成具有垃圾邮件过滤模型( 如图1 所示) 。
IA = < ID,COD,REC,STA,APC,MEM,REA,KB,AB,VACC,COMM > ,式中,各字母代表的意义类似文献[7 ],除COD代表状态信息提取单元,处理模型采集到的邮件信息有所不同外。模型中引入疫苗库VACC可以获取新的抗体,增强免疫Agent的耐受性。
SF-MA模型主要借鉴免疫系统的学习、记忆等机制,把过滤过程中的待检测的邮件类比于生物免疫系统中的抗原; 类似于免疫系统中抗体识别抗原并做出反应的过程,该模型对待检邮件进行判断识别、分类。定义自体为合法邮件集合( Self ) ,非自体为垃圾邮件集合( Nonself ) 。抗原( Ag ) 定义为自体和非自体的并集( Ag = Self ∪ Nonself )[8]。邮件集合为P ,p为P的子集,定义正常邮件集合H,H∈P; 垃圾邮件集合S,S∈P,满足: H ∩ S = ,H ∪ S = P。
在免疫Agent中,根据免疫系统中抗体对抗原的记忆、防御和耐受以及抗体之间相互作用机制,实现自垃圾邮件的过滤和学习记忆。
1. 1 改进的IMTA
在模型中,除了引入Agent外,通过对邮件传输协议SMTP进行改进,类分非自体集合和自体集合,可更有效地对垃圾邮件判断,提取邮件信息特征。在邮件传输系统中,SMTP是过滤垃圾邮件的第一道防线,也是网络中传输电子邮件的标准协议[9]。在邮件传输过程中,每个节点间都可以看作一个代理Agent。在SMTP协议中存在接收方被动接收邮件等缺点,这是导致现今垃圾邮件泛滥原因之一,故在SMTP协议的基础上,提出了一种改进的IMTA( Improved mail transfer agent) 。改进型IMTA进一步细化了分类规则粒度,根据IMTA的IP地址和发送方的邮件地址两个分类条件确定发送方类别,判断是垃圾邮件还是合法邮件,如表1 所示。
改进型DMTP在DMTP基础上添加1 个返回码: 252,通过过滤合法的邮件被加入到自体集合,垃圾邮件加入到非自体集合,处理信息传输请求算法如下:
在模型中,SF-MA模型在基于SMTP的邮件过滤模型的基础上,进一步降低邮件处理时间。假定网络中邮件地址总数为N,每个邮件地址向用户发送一封邮件,合法邮件的概率为λ。其中,在SMTA中划分为BMTA(模型划分的黑名单的邮件数),WMAT(划分的白名单的邮件数)和GMTA(划分的灰名单的邮件数)3类,每个MTA(mail transfer agent)平均对应个邮件地址。在改进型IMTA中,SMTA被划分为BMTA和HMTA两类。其中,HMAT的邮件地址又可分为BA(接收方定义的黑名单地址数),HA(接收方定义的白名单地址数)和GA(接收方定义的灰名单地址数)3类:
T用来表示模型判断邮件的总时间,基于SMTP邮件过滤模型与改进协议IMTA的SF-MA模型邮件所需处理总时间T分别为:
式中表示模型判断合法邮件的平均时间,为模型判断垃圾邮件的平均时间,为模型判断处理信封内容的平均时间。式(1)中,。设定BMTA对应的邮件地址只发送垃圾邮件,故有TSMTP>TIMTP,改进型的模型可在SMTP的基础上进一步降低模型中接收方处理邮件时间。
通过对协议进行改进,可以减小用户处理时间,快速地判断垃圾邮件的产生。合法的邮件被加入到自体集合,垃圾邮件加入到非自体集合,以更好提取邮件特征信息。
1. 2 抗原提呈
要实现垃圾邮件过滤,需将待测邮件数据特征转变成计算机可识别的语言,再经过一定模式的过滤,实现邮件分类。在邮件样本中,数据经过抗原提呈APC( antigen presenting cells) ,形成抗原集合,由特定长度的抗原提呈基因库对邮件进行特征提取,从而得到邮件的特征,即抗原决定基,存储在邮件特征向量[10]。
抗原提呈基因定义为从邮件子集中提取的IM( Information Feature of Mail) 。定义长度为l的抗原提呈基因集合ag - l为:
其中: 函数fe执行从邮件中提取IM的操作,l为提取的IM的长度,单位为比特,H'、S' 为合法邮件和垃圾邮件的子集。即提取邮件子集中的所有长度为l的、不重复的IM,并将其添加到抗原提呈基因集合ag - l中。
定义邮件( 抗原) 特征集合为F :
其中: xi( i = 1,2,…,n) 为抗原提呈基因库中的基因; ag - li为提取到的邮件p ∈ P的特征信息; n代表邮件特征向量的维数,与抗原提呈基因库大小相等; l为抗原提呈基因库ag - l中基因片段的大小; 函数fc( p,ag - l,l) 为特征信息提取操作,如式( 6) ,即从p ∈ P邮件类型中提取长度为l的IM字符串,然后计算IM是否在对应的抗原提呈基因库中出现,获取邮件的特征信息。函数fe( p,j,l) 表示从邮件中提取长度为l的IM。用特定的抗原提呈基因库对邮件进行特征提取,从而组成了邮件特征向量如下:
在SF-MA模型中,根据邮件特征,对邮件进行分类。对于每一类邮件p ,从它的起始位置从i = 1 开始,每次滑动1 比特,直至邮件结尾( i = | p | - l) ,依次提取长度为l的IM。如果该IM不在基因长度为l的基因集合ag - l中,则把邮件新特征,添加到集合。抗原提呈的过程为依次从待提取特征的邮件p ∈ P中提取长度为l的IM字符串,然后通过计算提取的IM字符串在抗原提呈基因库ag - l中是否出现来获取。若出现,取值为1,若没有,取值为0。可得到邮件p ∈ P的邮件状态向量( x1,x2,…,xn) 中的每一维数值xi( xi∈ { 0,1} ,i = 1,2,…,n) 。经抗原提呈后,在模型记忆库中到的邮件特征是一个长度与基因库大小相同的计算机可识别的二进制串,这样就完成了程序的抗原提呈若的过程。满足条件的抗原对其进行体呈,符合条件的加入到自体库中,否则加入到非自体库中[11]。这样既保证了选择的特征向量对邮件内容的代表意义,同时又限制了特征向量长度的过度膨胀。
1. 3 疫苗提取与接种
在模型中,通过引入疫苗( 包含疫苗提取与疫苗接种两模块) ,用以提高抗体的适应度、稳定性、自学习性等特性,保存邮件种类中的优良基因。
在模型中,疫苗提取的过程即是对垃圾邮件特征信息的提取过程。检测模型中,设计了执行层Agent、检测层Agent 、通信层Agent、和决策层Agent。采用免疫多Agent结构,分别完成垃圾邮件模型的检测、通信、执行和决策等任务将不同的检测Agent联合起来,同时引入疫苗提取算法,可以快速地提取疫苗信息。模块图如图2 所示。
执行层Agent: 是指在服务器中正在发送或接收邮件状态的Agent模块。归类邮件信息,并实时与执行Agent和通信Agent保持通信。
检测层Agent: 检测层Agent在网络服务器各个节点之间监视检测,并与特定意图的设备通信。在模型中,用户层寻找异常用户行为模式; 监视并检测邮件的大小、数目以及所属的类型、源地址与目的地址,信封邮件主要内容等。若可疑,则上报给通信Agent,请求作出决策。
通信层Agent: 通信Agent充当其他Agent模块的通信网络的任务。
决策层Agent: 接收来自各个免疫检测Agent的模块检测结果,对是否为垃圾邮件或异常异常邮件结果做出判定。
如果在检测过程中,检测群中Agent检测到可疑的垃圾邮件抗原,则上报给通信Agent模块。若通信Agent确定其包含垃圾邮件信息特征的抗原D ,则从正在执行Agent中选取若干个Agent,将D所包含的信息共享给这些进程Agent并要求提取疫苗。当不同Agent接收到提取疫苗的信息指令后,从检测器中选取能与抗原D匹配的种群A( 个体数量为s) ,然后提取疫苗v。疫苗提取算法如下:
Step 1 依据邮件抗原特征,Agent首先初始化一条空白的疫苗v ;
Step 2 计算出在Agent检测器集合中能与D匹配的所有个体( s) ,记为A ;
Step 3 从A中的优良个体( a1,a2,…,as) 中提取一部分优良基因,再将其优良基因填入空白疫苗v中,当疫苗被完全填充后,则成功提取出一条抗原D的疫苗。
各个Agent提取到抗原疫苗后,将取得的疫苗回传至通信Agent,通信Agent接收到疫苗后,从接收到的疫苗群中选取优良个体,然后对模型的单个Agent进行免疫接种。
疫苗提取结束后,进行疫苗接种。疫苗接种是指用提取的疫苗用来修改抗体的某些基因位,将优良基因传递给下一代,以提高优良个体繁殖的概率。
假设a为抗体,va为疫苗,记疫苗接种操作为^a= aΘva,^a是抗体a接种疫苗后的编码形式,Vai表示va第i个基因位上的编码。假设抗体种群A的个体为a1,a2,…,am用aim表示第i个抗体第m个基因位上的编码。定义疫苗接种操作:
在模型中,采用每间隔一定时间随机从样本邮件中选取一定比例的抗体进行接种的方式进行疫苗接种,来对种群中的抗体和记忆细胞进行更新。利用多个Agent并行提取疫苗,可以加快疫苗的生成速度以及接种速度,使抗体快速的记忆邮件特征信息,提高模型检测效率。
2 实验与分析
2. 1 实验评测数据集
测试环境为: 内存2 GB,操作系统为Windows XP。在模型的邮件传输中,因为JAMES( Java apache mail enterprise server)性能较为稳定,可配置性强,能实现SMTP、POP3 和NNTP等多种邮件相关协议,选用JAMES开源邮件服务器。在测试中使用CCERT中文邮件2005 年7 月份的样本集,其中包含正常邮件( Ham) 9042 封,垃圾邮件( Spam) 20 308 封,数值实验环境为Matlab2014a。
通过对邮件样本集构建的过滤模型进行实时监控与检测,引入改进的SMTP协议。选取邮件IP数据信息构成的二进制串模拟免疫系统中的抗原,对抗原进行提呈,使其转化为计算机可识别的语言,模拟邮件收发功能,对模型进行效率测试。
将数据集分为训练集和测试集,选择3062 封邮件( 1024 封正常邮件和2038 垃圾邮件样本) 作为训练集。实验初期选取自体集合大小为50,每次训练生成10 个未成熟检测器。邮件过滤模型每次输入200 个抗原,其中自体与非自体比例为8∶ 2,即邮件过滤模型所发的10 个包中2 个非自体包,得到初始检测样本,保存在免疫记忆库中。然后将剩余的8000 封正常邮件和18 000 封垃圾邮件平均分为10 组,组成测试集进行测试。
实验结果取10 次的平均值作为评判该模型的最后实验数据,计算出来的平均值即为模型的效率结果。在仿真实验中,先比较SMTP和SF-MA模型的正确率与精准率,用来验证改进协议的有效性。然后仿真SF-MA模型与朴素贝叶斯、人工免疫模型的虚报率和召回率,验证模型的效率。
2. 2 性能评价指标
SF-MA垃圾邮件过滤模型,主要的评价标准: ( 1 ) 召回率:即垃圾邮件检出率; ( 2) 正确率: 反映过滤模型检测出垃圾邮件的能力; ( 3) 精确率: 模型对所有邮件的判断正确的概率; ( 4) 虚报率: 即系统将正常邮件判为垃圾邮件的概率。
设测试集合中共有N封邮件,先定义几个变量,N = CH→S+CH→H+ CS→S+ CS→H。其中,CS→S表示垃圾邮件判断为垃圾邮件的数目; CH→S表示正常邮件判断为垃圾邮件的数目; CS→H表示垃圾邮件判断为正常邮件的数目; CH→H表示正常邮件判断为正常邮件的数目。
召回率Recall = CS→S/ ( CS→S+ CS→L) ,在模型中,召回率越高,检测出的垃圾邮件越多; 正确率Precision = CS→S/ ( CS→S+CH→S) ,即判定邮件为垃圾邮件,正确的概率; 精准率Accuracy =( CS→S+ CH→H) / N ,即对所有邮件进行判断,并且判断正确的概率; 虚报率Fallout = CH→S/ ( CH→S+ CH→H) ,即模型将正常邮件判为垃圾邮件的概率。
2. 3 实验结果及分析
图3 是模型在仿真环境下进行垃圾邮件过滤实验所获得的SF-MA模型统计数据,主要为正确率、精确率、召回率、虚报率四个指标,横坐标( X轴) 为实验次数,纵坐标为( Y轴) 百分比指标值。
从图3 中可以看出,SF-MA模型的正确率比较稳定,正确率呈先呈上升趋势,后部分基本保持稳定,正确率都能达到90%以上,说明SF-MA模型可以很好地判别出垃圾邮件,稳定性较高; 精准率在检测过程亦呈上升趋势,说明随着模型中抗体的自我学习,模型能够正确判断垃圾邮件与合法邮件的能力在上升;在召回率方面,当邮件出现新的信息特征时,模型具有较好的学习和记忆识别能力,对于判断垃圾邮件的能力有所提升; 虚报率比较低较稳定,在这种情况下,由于具有Agent机制及免疫记忆库,信息之间可以及时交互,邮件很少被误删,SF-MA模型具有较高的可靠性。
相同条件下,为更好地比较引入改进协议的SF-MF模型与基于SMTP邮件过滤模型的效率,实验选用多组封邮件进行测试,横坐标表示测试邮件数量,纵坐标各表示召回率和虚报率的测试结果值。由图4 和图5 可知,利用改进协议的引入改进协议的SF-MF模型的精准率和正确率方面都高于基于SMTP协议模型。通过对协议进行改进,合法的邮件可更快地被加入到自体集合,垃圾邮件加入到非自体集合,以更好提取邮件特征信息。
2. 4 算法比较
2. 4. 1 算法的性能比较
为了更进一步验证模型的效率,本文在同等条件下用SF-MA模型与基于贝叶斯的垃圾邮件过滤模型[12]和基于AIS的垃圾过滤模型[13]进行对比试验。如图6 和图7 所示,横坐标表示测试邮件数量,纵坐标表示正确率与精准率的测试结果,模型选几组测试邮件集,进行测试。实验结果表明SF-MA模型较基于Bayesian方法的模型和AIS模型较召回率有大幅提高,虚报率降低且波动较小。
基于Bayesian的模型采用先验概率的规则来测试邮件,如果在检测阶段检测的邮件包含了很多在训练阶段邮件没有出现过的新词,即新特征信息,则该模型需要一段较长时间的学习适应,学习记忆能力较低,对邮件的召回能力不是很理想,在虚报率较高且不稳定; 基于AIS的模型则可以分布式方式识别垃圾邮件,并能学习和记忆邮件的特征,邮件召回能力有所提升,虚报率有所降低,但是存在检测器的灵活性较差,在测试阶段不能精确地对垃圾邮件进行分类,记忆抗体特征; 本文提出的模型SF-MA,能够对单个Agent进行相对独立的检测,又可以多Agent互相交流信息,检测能力较强,虚报率较低。除此之外,模型对SMTP协议进行了改进,能快速地判断垃圾邮件的产生,记忆并保存垃圾邮件特征,引入疫苗机制,保留优良基因,实现各个Agent的信息交互,增强了整个模型“记忆”机制,有效地提取垃圾邮件的信息和变异特征。
通过多组样本进行实验,可以表明: 该模型对垃圾邮件识别Recall、Fallout等指标均有提高,对新数据特征及原有类型特征的识别效率的可以很好地识别,反映出改进的模型比基于贝叶斯和基于AIS的垃圾过滤模型具有更稳定效率,且对垃圾邮件新型特征和新有数据特征均表现出较好的识别性。同时,将疫苗提取和疫苗接种等思想引入到模型中,使各类检测器中的抗体以疫苗作为媒介相互通信,保留优良基因,对垃圾邮件特征的变化做出及时的反应,比Bayesian和AIS分类算法有较好的自适应性能,提高了模型的正确检测率的稳定性。
2. 4. 2 算法时间复杂度比较
通过算法复杂度的分析,将改进的IMTA协议和Bayesian、AIS分别从两个方面对比: 训练时间复杂度和分类时间复杂度。
设N表示训练集中包含的样本数,而n为特征数量,比较改进算法与Bayesian、AIS算法的复杂度。训练时间复杂度方面: Bayesian算法是时间复杂度是O( n N) ,AIS算法是O( n2N2) ,改进算法是O( n2N2) ; 分类时间复杂度方面:Bayesian算法是时间复杂度是O( n N) ,AIS算法是O( n2N) ,改进算法是O( n N) 。由于改进IMTA协议设计了抗原提呈算法,扩大了自体库的规模,这样就可以加速检测器的进化过程,同时保留了原有特征的优势,大大减少了二次识别大量旧特征信息的时间消耗。可以看到和其他方法比起来,改进算法保证了在检测分类的过程有稳定的正确识别率,因而在分类环节改进算法的时间复杂性最优。
3 结语
垃圾邮件过滤技术分析 篇8
互联网发展迅猛, 已经渗透到人们工作和生活中。伴随着互联网的普及, 电子邮件已经成为人们日常工作和生活的重要的通信手段, 而且已经成为人们日常交流的一种重要途径。然而, 除了包含有用信息的电子邮件外, 互联网中还充斥着大量的垃圾邮件 (spare mail) 。当前, 大量垃圾邮件的出现已经成为互联网的一个相当严重的问题。数量巨大的、无用的, 甚至包含有害信息的电子邮件在互联网中传播。这不仅消耗了大量的网络资源, 而且威胁到邮件系统中用户的信息安全, 对邮件服务商也造成了严峻的挑战。人们研究、开发各种有效技术措施来阻止垃圾邮件的传播, 建设健康、和谐的互联网环境, 已经成为当前网络安全研究的重要内容之一。
1 垃圾邮件的分类
垃圾邮件种类非常多, 而且形式变化多端。可以按照内容分类, 也可按照发送及传播方式分类。
按照电子邮件内容主要可分为以下6类:
(1) 用于商品广告、促销的商业垃圾邮件;
(2) 包含非法、反动宣传内容的垃圾邮件;
(3) 包含暴力、色情等不良信息的垃圾邮件;
(4) 包含病毒信息的垃圾邮件;
(5) 包含诈骗、恐吓内容的垃圾邮件;
(6) 包含其他内容的垃圾垃圾。
按照发送及传播方式主要可分为以下4 类:
(1) 通过传播方自己购买或租用的邮件服务器, 直接利用端口25, 直接发送到用户邮箱的垃圾邮件;
(2) 利用非法手段, 通过合法的邮件服务器, 间接发送到用户邮箱的垃圾邮件;
(3) 利用伪造手段, 向服务器发送不可能投递成功的邮件, 造成邮件服务器自动产生“投递失败信件”, 从而将邮件返回发送给用户的垃圾邮件;
(4) 利用垃圾邮件传播前指定中继服务器等发送路径的手段, 造成垃圾邮件在发送路径的每一个中继服务器都会耗费巨大的网络资源, 从而将以消耗网络资源为目的的链式中继垃圾邮件发送给用户。
2 垃圾邮件的传播机理
随着互联网和电子邮件技术的发展, 垃圾邮件传播技术也在同步发展, 如果想彻底解决垃圾邮件问题, 就必须首先了解垃圾邮件的传播机理。一般的电子邮件传输协议均采用简单邮件传输协议, 即SMTP。因为SMTP不需要任何认证步骤, 所以无论电子邮件从哪里发出和发送目的地, 都会顺利地接收并发送。垃圾邮件传播可分为以下4 个主要步骤:
(1) 垃圾邮件制作者利用SMTP协议将垃圾邮件发送至邮件服务器;
(2) 邮件服务器根据接收到的电子邮件接收地址, 采用SMTP协议把邮件转发给邮件接收服务器;
(3) 邮件接收服务器将收到的垃圾邮件放到接收者的邮箱;
(4) 垃圾邮件接收者通过自己的邮箱接收邮件。
垃圾邮件发送和接收的整个过程均不需进行认证, 所以垃圾邮件制作者就可以选择互联网上每一台SMTP服务器发送垃圾邮件, 以达到传播垃圾邮件的目的。
垃圾邮件的出现和泛滥对人们的工作和生活造成了极大的不便和威胁, 因此, 部分邮件服务提供商为了验证邮件发送者的身份, 会要求对邮件发送者或邮件服务器进行认证。于是, 一种新的邮件传输协议, 即ESMTP协议就被提出来了, 它是在SMTP的基础上, 对其功能进行了一些改进。然而, ESMTP协议对邮件接收与发送邮件服务器间的合法性不进行确认, 漏洞仍然存在。
3 阻止垃圾邮件传播的过滤技术
当前, 国内外的反垃圾邮件技术和产品多种多样, 其中涉及的垃圾邮件过滤技术也不尽相同。通过总结市场上的反垃圾邮件技术和产品, 垃圾邮件过滤技术可大致分为3 种:IP地址过滤技术、SMTP协议过滤技术、内容过滤技术。其中, 内容过滤技术是当前和未来垃圾邮件过滤技术的主要研究方向。
正常的电子邮件一般由3 部分构成:邮件地址、邮件主题、 邮件内容。这3 部分内容所包含的信息正是垃圾邮件过滤技术分析、判断的依据。因为这3 部分内容均是以文本形式, 所以垃圾邮件的分析与判断, 其本质上是文本分类技术, 而文本分类技术的核心就是关键词的统计与提取。因此, 从理论上说, 内容过滤技术的核心是电子邮件中文本包含的关键词的统计与提取。
因为垃圾邮件的数量、种类越来越多, 过滤技术需要的计算量越来越大, 所以人们将机器学习方法应用到垃圾邮件内容过滤技术中, 主要包括2 种方法:基于规则方法;基于统计方法。基于规则方法:首先分析邮件内容中包含的特征, 然后将分析得到的特征与垃圾邮件的特征进行比较, 从而发现并判断出垃圾邮件。基于统计方法:分析得到电子邮件中某种信息的概率, 然后统计待判断电子邮件中该类信息的概率, 从而得出结论。下面将详细介绍以上2 种方法。
3.1 基于规则方法
基于规则方法首先分析电子邮件的标题、内容等信息, 然后将分析得到的特征与待判断的电子邮件中相关特征间的关联关系, 就可以得出邮件是否是垃圾邮件的判断。当新的电子邮件到达的时候, 通过计算、判断关联关系来判定它是否是垃圾邮件。基于规则方法中最具有代表性的是IBM公司的C-K系统, 通过模式匹配方法, 总结出相关特征, 从而用来判断、确定新邮件是否是垃圾邮件。
因为需要通过分析已有的垃圾邮件, 才能得到需要的关联关系, 而这些关联关系仅能反映出以前的垃圾邮件的相关特征。所以, 当新的垃圾邮件产生以后, 需要获取这些新的垃圾邮件, 再次分析、总结, 得到更新的关联关系。因此, 基于规则方法在实际使用中, 必须保证关联关系的实时、准确。随着垃圾邮件种类和数量的不断增长, 必然造成关联关系越来越多、 越来越复杂, 最终影响垃圾邮件分析、判断的效率。当前, 基于规则方法主要有4 种: (1) Boosting法; (2) SA评分系统; (3) 粗糙集法; (4) 决策树法。
3.2 基于统计方法
基于统计方法主要有5 种。
3.2.1 k-NN法
k-NN法, 即k邻近法, 该方法利用与待判断样本相近的几个样本, 判定新样本的类别。k邻近法的基本思想是:如果新样本与k个最相近样本中大多数样本属于相同的类别, 那么新样本也应该归类于这个类别。
3.2.2 Winnow法
Winnow法, 即线性分类器, 该方法利用样本训练, 找出某个类别中包含的特征权重向量w= (w1, w2, …, wn) , 然后设定阈值 θ。设新样本为x= (x1, x2, …, xn) , 如果wT·x>θ, 则判断新样本属于该类别;否则, 判断新样本不属于该类别。
3.2.3 SVM法
SVM法, 即支持向量机法, 该方法利用构造出来的最优线性分类面来进行分类。首先把样本空间线性映射到另一个空间, 然后在新空间中构造出最优线性分类面。
3.2.4 Rocchio法
Rocchio法, 即相关反馈法, 该方法利用训练集给各类别构造一个自己的原始向量, 然后将所有新样本向量化, 最后计算正例向量和反例向量的加权差作为类别向量。
3.2.5 Bayes法
Bayes法, 即贝叶斯法, 该方法利用对大量已知类别的邮件的分析, 统计、提取出最具代表性的关键词作为特征, 得到统计分布模型。当新邮件到来时, 分析它的特征, 从而推算出新邮件是垃圾邮件的概率。因为贝叶斯法过滤垃圾邮件所依赖的训练集中的垃圾邮件和非垃圾邮件是由垃圾邮件过滤者自己设定的, 所以垃圾邮件制造者无法判断出训练结果。而且贝叶斯法过滤垃圾邮件某种程度上具有自主学习能力, 所以目前贝叶斯法过滤垃圾邮件使用最为广泛。
参考文献
[1]罗倩, 秦玉平, 王春立.反垃圾邮件技术综述[J].渤海大学学报, 2008 (4) :385-389.
[2]潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所, 2004.
垃圾邮件及其过滤技术概述 篇9
1.1 垃圾邮件定义
中国互联网协会公布以下四种“垃圾邮件”定义: (1) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性质的电子邮件; (2) 收件人无法拒收的电子邮件; (3) 隐藏发件人身份、地址、标题等信息的电子邮件; (4) 含有虚假的信息源、发件人、路由等信息的电子邮件[1]。
1.2 垃圾邮件的现状
据英国著名网络安全公司Sophos发布的最新数据显示, 2011年第三季度美国的垃圾邮件总体数量仍高居首位, 占全球垃圾电子邮件的11.3%, 其次是韩国 (占9.6%) 、印度 (8.8%) 、俄罗斯 (7.9%) 、巴西 (5.7%) 和中国台湾 (3.8%) , 而中国大陆垃圾邮件总量并未在12名之列。近几年国内的排名呈逐年下降趋势, 由最初的前几名, 跌出前十名, 这主要归功于国内企业, 增加了邮件系统设备的投入, 安装了反垃圾邮件网关设备, 加大对垃圾邮件行业的打击力度。2011年11月上旬我国垃圾邮件发送情况如图1所示。
从上图可知, 11月上旬, 国内垃圾邮件发送服务器IP地址主要集中在湖南、广东、北京等这几个地区。其中, 湖南位居十大垃圾邮件发送地榜首, 服务器IP地址数目高达208个。
从中国互联网反垃圾邮件协会11月上旬统计的各大邮件运营商对垃圾邮件举报处理来看, 谷歌、微软未对举报的垃圾邮件采取措施。而网易、新浪、搜狐、TOM、21cn、雅虎等几家邮件运营商都对举报的垃圾邮件账户做了相应的处理。
综合所述, 2011年第三季度我国垃圾邮件发送形势仍不容乐观, 虽然各大邮件运营商都能积极主动地及时处理被举报的垃圾邮件, 但垃圾邮件发送服务器IP地址数目却有增无减。可见, 在垃圾邮件治理工作依然紧迫。
1.3 垃圾邮件危害
垃圾邮件的危害主要体现在以下3个方面: (1) 垃圾邮件危害互联网发展。垃圾邮件占用大量的传输、存储和运算资源, 且一旦垃圾邮件占到互联网总数据流量三分之一, 将造成巨大的存储需求, 还损害了ISP的市场形象, 造成无形资产流失。据悉, 国外许多邮件服务商曾以垃圾邮件过多为由, 一度封杀了国内一些ISP的邮件服务器IP地址。 (2) 垃圾邮件损害用户利益。由于垃圾邮件具有反复性、强制性、欺骗性、不健康性和传播速度快等特点, 浪费用户的时间、精力和金钱。 (3) 垃圾邮件危害现实社会。少数别有用心者利用垃圾邮件散播各种虚假信息或有害信息, 严重危害社会稳定。
2、反垃圾邮件技术
目前, 一般采用在邮件传递过程中对垃圾邮件进行过滤的方法来反垃圾邮件。这个过滤过程包括SMTP配置、IP过滤规则设置、用户过滤规则设置以及邮件过滤规则设置等4种。其中邮件过滤规则可分为邮件内容的检查过滤以及接收邮件过滤。由于用户过滤规则设置是基于特定用户的过滤, 较简单, 这里就不介绍了。下面着重介绍另外3种过滤规则。
2.1 SMTP协议
简单邮件传输协议 (SMTP) 能够可靠高效地传送邮件。针对用户的邮件请求, 发送SMTP建立与接收SMTP之间建立一个双向传送通道。接收SMTP可以是最终接收者也可以是中间传送者。SMTP命令由发送SMTP发出, 由接收SMTP接收, 而应答则反方向传送。管理员可以通过web管理界面设置特定的过滤规则, 查看统计数据和监控smtpproxy的运行情况, 修改配置等。
SMTP使用模型参见图2。在SMTP发送操作中有三步, 操作由MAIL命令开始给出发送者标识。一系列或更多的RCPT命令紧跟其后, 给出了接收者信息, 然后是DATA命令列出发送的邮件内容, 最后邮件内容指示符确认操作。
发送信件时防范垃圾邮件可以通过以下9种方式进行:SMTP认证;限制第三方转发 (relay) 信件;收信人不能同时包括发信人;系统接收信件大小限制;单封信件的收件人数限制;HELO命令后的字符串限定;信头内容的限定;接收人限定;基于关键字查找的信件内容 (支持正则表达式) 和大小限定。
在SMTP的配置选项中提供了多达28种过滤规则, 来对垃圾邮件进行防范。如SMTP验证;允许收件人等于发件人;ACTION不为PASS的延迟;检查附件中的ZIP文件;禁止密送;ZIP文件递归检查的最大层数;MAIL递归检查的最大层数;信件允许中转的最大次数;旁路目录根路径;系统间隔时间单位;用户SMTP出错频率阀值;用户RCPT出错频率阀值;用户RCPT出错比率阀值;用户信件被拦截的频率阀值;用户信件被拦截的碧绿阀值;用户默认连接数限制;用户默认连接频率限制;用户默认流量限制;用户默认信件最大字节限制等。
2.2 基于IP的过滤方法
基于IP的过滤方法主要提供以下16种过滤规则:特定IP的Mailfrom出错频率阀值;特定IP的RCPT出错比率阀值;特定IP的信件被拦截的频率阀值;特定IP信件被拦截的比率阀值;IP默认拦截数限制;IP默认连接频率限制;IP默认RCPT数限制;IP默认流量限制;IP默认信件最大字节限制[2];IP黑名单/白名单 (禁止访问/允许访问) ;指定允许连接的I P范围;来自相同I P的客户端在smtpproxy服务器上的最大同时连接总数;来自相同IP的客户端的最大连接频率;来自相同IP的客户端的一次连接中执行RCPT命令的频率;来自相同IP的客户端一封信中执行RCPT命令的总数;来自相同IP的客户端的一次连接中最大的流量大小;可以对特定的IP范围做特定的最大同时连接数量, 最大连接频率, RCPT命令的频率和流量的限制。
通过IP过滤规则可以方便的达到垃圾邮件的过滤。对固定发送垃圾邮件的IP进行限制的主要出发点, 在于用户发送大量垃圾邮件后系统根据统计结果检测到发送垃圾邮件用户的IP地址会对其进行相关的限制和控制, 将其的IP地址进行特殊限制来达到控制发送垃圾邮件的目的, 在基于IP规则条件控制中提供了如下7种控制选项:适用IP范围;同时连接数限制;连接频率限制;RCPT数目限制;RCPT频率限制;流量限制;邮件最大限制。
用户在使用IP的限制功能时, 通过IP统计信息查询到IP后在IP配置规则中进行限定。263内部反垃圾系统为方便用户管理系统, 配备了统计功能, 在该统计功能中分别提供:每条规则的触发次数;某段IP的发信次数与流量大小:查询根据IP产生的记录;User的发信次数/流量大小统计:查询特定用户产生的记录;事件触发的统计:查询事件触发产生的记录。根据统计的结果可以方便的发现发送垃圾邮件的IP, 在适用IP或IP范围内添入已知的IP地址, 同时连接数限制处添入“0”将其设定为黑名单即可达到拒收的目的。
通过配置IP过滤规则来达到对某个特别IP段做特殊规则。设置IP/IP范围来实现过虑垃圾邮件, 是通过配置IP地址的过滤规则来实现, 通过IP的过滤设置可以实现:IP黑名单/用户禁止访问;限定允许连接的IP范围;限制限定的IP连接发送邮件;来自相同IP的客户端在服务器上的最大同时连接总数;来自相同IP的客户端的最大连接频率;来自相同IP的客户端的一次连接中执行RCPT命令的频率;来自相同IP的客户端的一次连接中最大的流量大小等。
263内部反垃圾系统配置基于IP过滤规则对以下6项按照需要进行设定:IP范围:被限制的IP地址和IP地址范围;连接数限制:系统在单位时间内尝试的连接次数其中同时连接数限制的设定值设定情况为 (-1表示不限;0表示黑名单, 以下项目无效) ;连接频率;RCPT限制;字节书数限制;大邮件限制等。
2.3 邮件内容过滤
邮件内容的检查过滤的限定主要是针对邮件的内容进行设定字符检查, 采用关键字查找信件内容和大小限定来限制邮件发送, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。
接收信件过滤器的主要功能是针对发信人为非本站用户而言的, 在该模块中提供了“信头内容限定”“收信人限定”“信件内容及大小限定”三种模式限制, 该三种模式主要实现方式是通过电子邮件信头和内容进行基于地址和特征字符串过滤, 从而达到控制垃圾邮件的目的, 同时对所过滤到的垃圾邮件提供转发、丢弃、或断开等处理操作。接收信件的功能模块在263反垃圾配置处的内容过滤规则中, 进入内容过滤配置规矩对需要进行控制的信息进行关键字设定, 从而达到特征字符串过滤, 有效的防范了垃圾邮件的过滤。
设置信件过滤规则的主要目的是通过信件的信头、信件收件人、信件发件人及信件内容特殊字符的过滤来实现对垃圾邮件的控制。内容过滤所提供的规则设置包括:邮件主题包含设定关键字;发件人字段包含设定关键字;收件人或抄送人字段包含设定关键字;邮件头包含设定关键字;信体包含设定关键字;全文 (包括信头和信体) 包含设定关键字;全文大小小于/大于设定值;信头大小小于/大于设定值;信体大小小于/大于设定值;客户端IP等于设定值或属于某连续IP段;信件所经过的服务器及源客户端IP是否属于某设定值或某连续IP段;附件的数量小于/大于设定值;存在文件名为指定字符的附件等。
邮件主题包含的关键字:主要针对邮件主题内容进行关键字的设定和过滤。
发件人字段包含的关键字:发信人限定主要是针对邮件发信人进行设定字符检查, 对于满足过滤规则的邮件发信人, 管理员根据设定的处理方法可使邮件拒收、转发有关部门、或直接断开。
收件人 (或抄送人) 字段包含的关键字:与发件人字段包含关键字的说明相同需要注意收信人与发件人包含的关键字在实际应用中有同关键自不同域的情况, 此处提供的匹配规则是精确匹配, 所以在对该处设置时, 发件人、收件人关键子设定书写必须完整, 关键字设定包括xxx@domain才可。
信头包含的关键字:主要针对信头内容的限定进行设定字符检查, 对于满足过滤规则的邮件信头, 管理员根据设定的处理方法可使邮件拒收、转发有关部门、或直接断开, 限制某些带有非法标题内容的垃圾邮件大量传播。
信体包含关键字:在邮件中通过设定信体关键字的做法来过滤邮件, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。根据全文包含的关键字的设定和过滤可相互组合的操作包括信头写入日志、信件内容写入日志。
全文 (包括信头和信体) 包含关键字:全文包含的关键字设定主要是针对邮件的内容进行设定字符检查, 采用关键字查找信件内容和大小限定来限制邮件发送, 对于满足过滤规则的邮件管理员根据设定的处理方法使邮件拒收、转发有关部门、或直接断开, 以此达到限制垃圾邮件的传播。根据全文包含的关键字的设定和过滤可相互组合的操作包括信头写入日志、信件内容写入日志。[3]
3、结语
垃圾邮件过滤是一项长期的斗争。在我们对付垃圾邮件的同时, 垃圾邮件制造者也在不断制造更“合理”或者严重干扰过滤器的垃圾邮件。因此, 对垃圾邮件的预处理和垃圾邮件过滤器的不断更新显得越来越重要。另外, 在真正的实用垃圾邮件系统中, 综合各种方法 (包括各种机器学习方法、黑白名单人工规则方法甚至图片分析方法等) 和各种特征 (除正文内容外, 还包括群发特征、元信息特征等) 是垃圾邮件工具研制的趋势。
摘要:电子邮件已成为现代生活通信、交流的重要手段, 也是INTERNET服务的主要内容之一, 然而垃圾邮件问题日益严重, 给用户带来重大损失, 如何防范垃圾邮件已成为研究热点。本文主要讨论邮件传递过程的垃圾邮件过滤问题, 简单介绍SMTP配置、IP过滤规则设置、用户过滤规则设置以及邮件过滤规则设置等邮件过滤技术。
关键词:垃圾邮件,过滤,概述
参考文献
[1]曹麒麟, 张千里.垃圾邮件与反垃圾邮件技术.人民邮电出版社, 2002-2.
[2]唐靖飚等, 周良源著.Unix平台下的c语言高级编程指南.北京希望电子出版社, 2000-2.
制度经济学视野中的垃圾邮件治理 篇10
一、明晰产权:解决垃圾邮件问题的重要手段
造成垃圾邮件的最直接动因在于垃圾邮件发送者对其经济利益最大化的追求。下面我们将运用制度经济学产权理论的基本原理, 分析垃圾邮件产生的制度原因, 并提出相应的治理对策。
1. 垃圾邮件产生的原因
(1) 垃圾邮件是资源稀缺性的产物。资源稀缺性是相对于人类的无穷欲望程度和物品的有限性而言的。尽管网络软硬件的发展十分迅速, 因特网中的资源总量仍然是一定的:对于因特网服务商来说, 因特网的带宽具有稀缺性;对于电子邮件系统服务商来说, 邮件服务器的处理能力具有稀缺性;对于电子邮件接收者来说, 自己的邮箱容量与认知能力具有稀缺性。
因此, 如果在网络环境容量稀缺程度不断提高的情况下不能对电子邮件所涉及的环境容量进行产权界定, 就无法对环境容量实现合理定价和有偿使用, 其结局就是垃圾邮件的发送者无节制地争夺使用有限的网络信息环境容量。可以说, 垃圾邮件治理活动的根本动力, 在于网络环境容量稀缺度的提高, 相对价格上升, 加剧了对环境容量的竞争性使用, 从而产生了对环境容量进行排他性产权界定的需求。
(2) 垃圾邮件是负外部性的产物。外部性是企业或个人向市场之外的其他人所强加的收益或成本。当价格无法真实地反映用来发送和接收电子邮件的资源, 例如服务器、网路带宽、电子邮件阅读者的认知能力等的稀缺程度时, 部分电子邮件就表现出负外部性, 即对他人有害的外部性。随着电子邮件发送者、电子邮件服务商, 以及电子邮件数量的不断增加, 与电子邮件有关的信息环境中相关资源日益稀缺, 如果仍然允许电子邮件的发送者以零价格或接近零价格排污, 必然会导致网络资源的过度消费。通俗地说, 垃圾邮件将负外部性作用于网络服务商和电子邮件接收者, 从而降低了自己的发送成本, 使得垃圾邮件的大量发送成为可能。
(3) 垃圾邮件具有准公共产品的属性。从产权分类的角度看, 电子邮件所涉及的网络信息环境属于俱乐部产品, 同时具备排他性和非竞争性。电子邮件所涉及的网络信息环境具有“拥挤性”的特点, 即当消费者的数目增加到某一个值后, 就会出现边际成本递增的情况。作为一种准公共产品, 在电子邮件的发送能力或用户的接受能力到达“拥挤点”后, 每增加一份邮件, 将减少原有消费者的效用。在这样的产权安排下, 作为理性经济人的电子邮件发送者存在“免费搭车”的投机心理, 最终的结果就是垃圾邮件问题越来越严重。
二、垃圾邮件治理的制度安排
随着信息经济的发展和因特网的普及, 发送电子邮件的需求呈逐年快速增长的态势。那么, 如何切实平衡相关各方的权益?在这里, 制度安排扮演着至关重要的角色。
1. 利用环境税界定产权
环境税收可以分为三大类, 第一类是直接环境税, 也就是对某项生产、消费活动产生的单位排放物或单位危害课税, 以及为保护环境资源而对单位资源课税。在垃圾邮件的治理领域, 直接环境税的课征意味着直接对垃圾邮件征税, 这种征税行为受到垃圾邮件监测技术和管理费用的限制, 应当慎重选用。
第二类是间接环境税, 也就是对投入物和消费中有害于环境的货物课征税。换句话说, 间接环境税并不是直接对垃圾邮件课税, 因为直接测量垃圾邮件所造成的污染的数量会面临较大的成本, 而对垃圾邮件的发送成本、制作成本, 以及垃圾邮件发送者所获得的利润征税。对电子邮件的投入成本或电子邮件发送者获得的利润课税近似地代表对电子邮件发送量课税, 这同样可以减少垃圾邮件传播量。这样一来, 课税成本较低, 技术难度也较小。
第三类是环保税式支出, 也就是为保护环境而采取一系列的税收优惠措施, 向垃圾邮件的制造者和传播者提供补贴或税收抵免, 鼓励电子邮件的服务商采取措施, 减少垃圾邮件的传播。环保税是垃圾邮件治理相关各方都乐于接受的税收措施。一方面环保税不会使政府发生直接支出, 由于政策的导向作用, 垃圾邮件的制造者与传播者会积极采取防污治污措施。另一方面, 企业所享受的税收优惠, 使企业在治理信息污染方面的投资得到一定补偿, 避免其在市场竞争中处于劣势地位。
征税方法也存在不足之处:第一, 制作、传播垃圾邮件的行为数量较多, 彼此差别比较大, 这将给税率的确定带来很大影响。第二, 假设许多垃圾邮件所产生的信息污染从成本上看是合理的 (例如是企业经营活动所必然产生的) , 那么, 环保税的主要作用就不是减少信息污染而只是增加制造、传播垃圾邮件企业的税金支出了。
2. 利用排污权交易界定产权
电子邮件排污权交易是指由监管当局制定总排污上限, 按此上限发放排污许可, 并允许排污许可在供给者和需求者之间进行交易。网络信息环境的所有者可以采取适当的形式对本虚拟网络空间部分区域内的信息环境产权进行出让, 网络信息环境的使用者, 特别是企业, 也可以将自己申请的使用权在当地的交易所内进行交易, 以实现其经营权。
垃圾邮件排污权交易的制度设计应当包括如下内容:
(1) 制定和完善有关垃圾邮件制造、传播权交易的相关法律, 使得制造、传播垃圾邮件的权力由非竞争性、非排他性转化为具有竞争性、排他性的产品。这是实施制造、传播排污权制度的前提。
(2) 建立垃圾邮件排污权交易市场。科学合理的排污权交易市场体系的建立是排污权交易的保证。
(3) 确认某一段时期某一网络虚拟空间最大容许排污量。垃圾邮件排污权的多少取决于最大容许排污量的高低, 制定得过大, 不仅会恶化环境, 也会造成排污权价值降低, 使人无心购买;制定得过小, 会造成排污权价值太高, 让人无力购买。
(4) 监测企业实际排污量的成本费用。因为排污权被量化为一种有价资源, 科学合理检测邮件发布者是否在所取得的排污权的范围内活动便至关重要了, 如果缺乏对超额发布、传播电子邮件行为的有效制止, 排污权交易市场将会土崩瓦解。
(5) 各交易主体寻求排污权交易信息的成本费用。如果信息搜寻成本过高, 会妨碍市场的有效运行, 降低市场的运行效率。
排污权交易的特点是谋求充分利用市场机制的力量来治理垃圾邮件对于网络信息环境所造成的污染, 达到网络环境容量的优化配置, 其实质是一个网络环境容量产权明晰的制度变迁过程。通过明晰产权, 改变了环境容量的公共物品特性, 实现了网络环境容量的排他性消费, 从而使网络环境容量通过市场机制达到优化配置。
三、结论
环境税收属于刚性很强的政府行为, 而以自愿协调为主的排污权交易则是极具柔性的市场行为。环境税收需要更高的技术水平要求, 而排污权交易对技术水平的要求相对较低。因为环境税收标准的确定要受到技术条件的限制。如果技术过硬、标准科学, 那么, 环境税收可以获得良好的效果。排污权交易的运作则较为简便, 只要根据市场的价格信号进行调解即可, 即使排污许可证的初次价格的确定不合理, 也可以通过多次博弈来予以纠正。
应用环境税收与排污权交易获得的经济效率和环境效果都有可能令垃圾邮件的治理活动达到帕累托最优状态。从这点上讲, 两者没有差异。但目前的现实情况来看, 短期内环境税收的应用有可能多于后者, 不过, 随着市场化改革的不断深人和全面推行, 垃圾邮件排污权交易的应用前景更为广阔。
摘要:垃圾邮件已成为网络传播负效应的主要肇因。根据制度经济学的产权理论, 有效治理垃圾邮件所造成的信息污染和社会资源的浪费的方法就是明晰产权, 而产权界定可通过环境税和排污权交易来实现。
关键词:垃圾邮件,制度经济学,信息污染,治理
参考文献
[1]任正云:对垃圾邮件产生的原因及其防范措施研究[J].软件导刊, 2006, (11)
[2]李琪施安平:网络信息污染的经济学分析[J].中国流通经济, 2005, (8)
[3]汪苏明陈业奎:信息污染理论研究述评[J].信阳师范学院学报 (哲学社会科学版) , 2000, (2)
垃圾邮件的法律问题 篇11
[关键词]垃圾邮件;过滤;基于特征;基于内容
网络时代的发展,给人们的生活带来极大的便利,作为现在网络在人们生活中的最广泛的应用之一,电子邮件(E-mail)以其安全可靠,快速廉价的优势逐渐取代传统的邮件形式,成为获取网络信息,沟通交流的重要渠道。但是,在正常使用的邮件的同时,几乎每个人都接收过各种各样的商业广告、非法宣传甚至反动信息,这给社会和个人都带来极大的危害。因此,如何将这些垃圾邮件在互联网上尽可能的减少,成了学术界研究的课题。
按照中国电信《中国电信对边圾邮件处理暂行办法》的定义,垃圾邮件是指向未主动请求的用户发送的电子邮件广告、刊物或其他资料;有明确的退信方法、发信人、回信地址等的邮件;利用网络从事违反其他网络服务供应商的安全策略或服务条款的行为和其他预计会导致投诉的邮件。
垃圾邮件的危害很大,主要表现在以下几个方面:1、垃圾邮件的泛滥对计算机存储资源及网络带宽都造成极大的浪费,有可能危害到正常的互联网使用。2、垃圾邮件作为病毒传播、非法商业宣传、不良信息等的主要传播载体对社会及个人产生极大的安全隐患。由于垃圾邮件具有强制接收、反复复制发送、地址欺骗及快速传播等特点,严重干扰了互联网正常秩序及个人的正常生活,少数别有用心的人,将垃圾邮件作为一个宣传阵地,对社会稳定带来极大的威胁。
随着互联网的普及,越来越多的人在使用电子邮件,这也使得垃圾邮件的危害覆盖面更广。有研究表明,中国是世界上除了美国外垃圾邮件产生和接收最多的国家,形式迫使我们要对垃圾邮件进行围剿。
目前互联网上针对垃圾邮件的过滤所采取的主要措施有:邮件收发服务器端及客户端的过滤、白名单及黑名单的过滤、基于邮件特征的过滤、基于内容的邮件过滤。
邮件收发服务器端及客户端的过滤:用户的邮件收发的过程是:首先客户端经邮件用户代理(MUA,Mail User Agent)把报文送至服务器临时存储系统,并与服务器邮件传输代理(MTA,Mail Transfer Agent)建立连接,然后使用SMTP命令将报文传送过去(MTA过滤),邮件投递代理(MDA,Mail Delivery Agent)从MTA取得信件传送至最终服务器信箱(MDA过滤),最后MUA定期检查服务器信箱,并通知用户下载(MDA过滤)。
但是无论是客户端的过滤,还是服务器端的过滤,都需要对邮件的各部分结构进行分析,才能得出是否垃圾邮件。
白名单及黑名单过滤也是目前常用的一种垃圾邮件过滤方式。白名单中的地址所发的邮件,用户都认为是合法的邮件。用户可以根据需要来设置自己的白名单,这样可以防止有效邮件被误杀。黑名单则是最简单有效的垃圾邮件过滤技术,用户将黑名单地址所发的所有邮件认为是垃圾邮件不予接受。黑名单主要是对过邮件地址、所发送的服务器(IP)等相关信息进行识别。
黑名单技术和白名单技术在实际使用过程中,存在着诸多技术上的缺陷。比如在实时黑名单中的查詢中存在着较大的时间延迟问题,垃圾邮件及代理服务器ip地址欺骗等问题。使得过滤规则需要经常做出调整,既耗费大量时间,实际过滤效果又不足以令人满意,在使用中逐渐不能满足过滤要求.
基于邮件特征的垃圾邮件过滤:垃圾邮件在发送的过程中,为了防止互联网的抵制,往往在发送过程中会采取相应的措施。而基于邮件特征垃圾邮件的过滤技术就是利用垃圾邮件的反制特征进行过滤。垃圾邮件在发送的过程中,往往会利用伪造地址,即在经过中间服务器时,修改其地址信息。我们可以分析其接收和发送地址及签名来分辨是否垃圾邮件。
垃圾邮件为了其宣传效果最佳及利益最大化,往往会采取群发技术。通过监测是否大量的群发邮件可以进行垃圾邮件的过滤。如果一个邮件服务器在短时间内收到大量相同发件人的邮件,或者同一邮件服务器在短时间内收到内容相同的邮件,则基于特征的垃圾邮件过滤就会启动。
在基于特征的垃圾邮件过滤中,对关键词的匹配是技术简单且可行性比较高的一种方式。在邮件传送过程中,可对主题及正文内容进行扫描,如果出现大量具有垃圾邮件特征的关键词时,如赚钱、免费、淫荡等等,则判定其为垃圾邮件采取过滤。
基于邮件特征的垃圾邮件过滤,由于其技术相对简单,且行之有效,在实际应用中使用较多,但是这种过滤技术有时可能会造成误杀。
基于内容的垃圾邮件过滤技术。以上所有的垃圾邮件的过滤方法都有其缺陷,再加上垃圾邮件发送者也在不断伪装和变更发送技术,给垃圾邮件的过滤造成了不少困难。于是基于内容的垃圾邮件过滤技术便产生了,通过对垃圾邮件的内容进行分类,从而检查出垃圾邮件。此技术是将信息过滤及文本分类相结合,来实现垃圾邮件的检测及过滤效果。其突出特点在于能跟踪垃圾邮件特征变化,并且可以自动获得垃圾邮件的特征,从而可以大提高垃圾邮件的过滤效果。
综合以上种种情况,垃圾邮件处理是个长期的过程,在过滤技术上采取单一的过滤技术效果往往不好,而且可能造成误杀的情况。所以垃圾邮件的处理应该采取多种过滤技术相结合的情况进行处理,这样才能达到好的处理效果。
参考文献
[1]中国电信出台对垃圾邮件处理的暂行办法规范[EB/OL].http://www.people.com.cn/GB/paper39/1320/204610.html.
[2]潘文锋基于内容的垃圾邮件过滤研究.北京:中国科学院计算技术研究所,2004.
[3]王波,黄迪明.遗传神经网络在邮件过滤器中的应用电子科技大学学报,2005.
垃圾邮件的法律问题 篇12
随着Internet的飞速发展, 电子邮件凭借其廉价、方便等优势成为了人们最主要的交流手段之一, 但是同时大量的垃圾邮件也在逐渐充斥着网络, 不仅造成了严重的经济损耗, 更给人们的生活带来了很大的麻烦, 垃圾邮件过滤技术已成为互联网信息领域的一个研究热点。根据所采用的过滤方法或技术的不同, 可分为“基于邮件源地址过滤和基于邮件内容过滤两种类型。
基于邮件源地址过滤[1]是最早使用的垃圾邮件过滤技术, 其基本思想是邮件接收者主要通过分析邮件的源地址来判别垃圾邮件, 可以应用于各个层次并且简单易操作, 由于它只是简单地屏蔽掉可能产生垃圾邮件的源地址, 而很多垃圾邮件是借助别的服务器来转发的, 可能无法识别。基于内容的过滤是从邮件的主题和正文中分析理解邮件所表达的意思, 以此来判断邮件是否为垃圾邮件。
基于内容的过滤是对邮件主题和正文进行内容匹配, 分析理解其表达的意思来判别是否为垃圾邮件。在接收完新邮件之后, 再对其正文和邮件头中包含的信息进行智能的分析, 可以更精细地判别和过滤。基于内容的过滤技术包含有多种具体的方法, 还可以分为基于“特征词过滤”、基于“规则过滤”和基于“机器学习过滤”几种[2]。基于特征词的过滤技术, 主要是根据在邮件头、主题行或者正文中是否含有设定的特征词来判断邮件是否为垃圾邮件;基于规则的过滤方法, 通过人工搜集垃圾邮件中经常出现的词汇或短语, 称之为“模式”, 再根据经验或出现的频度赋予它们相应的分值, 然后把这些模式及其分值作为一条记录存入到一个规则库中。
由于基于特征和基于模式的过滤技术需要人工更新特征或模式, 因此并不能准确跟踪不断变化的垃圾邮件特征或模式, 时效性较差。基于机器学习的过滤技术所采用的基本模式是:先搜集大量的训练数据, 即垃圾邮件和合法邮件样本, 构成训练集合;再根据具体的过滤算法, 对训练集中的样本进行挖掘, 找出内在的分类规律或参数;以此为依据, 对新邮件进行判别。基于机器学习的垃圾邮件过滤技术可以适应不断出现的垃圾邮件, 是应用最广泛的技术。根据其方法的不同, 可分为统一过滤模式 (贝叶斯、支持向量机和神经网络等分类模型) [3]、集成模式[4]、过去相似模式等多个不同的类别。基于过去相似模式过滤技术, 主要是指基于案例推理CBR的学习方式[5]。
垃圾邮件不断演化的本质, 垃圾邮件蕴含的重要概念往往不是以可预见的、明确的特征直接定义, 而是依赖于隐含的环境, 隐含的环境的变化会引起目标概念的改变。在垃圾邮件过滤技术中, 垃圾邮件特征随时间的不断变化而变化, 使得概念漂移现象成为垃圾邮件过滤中不可避免的棘手问题。但是目前很多积极学习方法都无法适应局部概念漂移[7]问题, 而懒惰学习的局部特性, 恰好可以应对这种动态变化情况。基于这种情况, 本文选用懒惰学习方法———基于案例推理CBR技术对垃圾邮件进行过滤。基于CBR的垃圾邮件过滤本质是流文本的分类问题, 对于不断实时到达的新邮件, 系统将它与已有的邮件样本进行比较, 按最相似的邮件样本的类别来决定新邮件的类别。基于CBR过滤系统需要维护一个历史案例库, 为了保证过滤的准确性, 案例库必须不断更新, 适当删除旧的案例、增加新的案例, 以便能匹配新出现的垃圾邮件, 主要包括:特征提取、特征选择、案例检索及案例库管理等方面[6]。
在基于CBR的垃圾邮件过滤系统中, 解决概念漂移的关键就是案例库的管理, 即要求训练案例中需要不断增加新类型的正常邮件和垃圾邮件以适应概念漂移, 同时去除噪声案例和冗余案例。在CBR的应用过程中, 由于不断增加新的案例, 案例的数量会持续快速增长, 往往会形成案例冗余, 即重复案例和噪音案例, 影响系统运行的效率。
针对垃圾邮件过滤的实时性要求以及概念漂移问题, 本文从性能保存和性能增强两个方面进行案例库修正管理, 提出了基于惩罚降噪和等价除冗的案例库管理修正算法, 以提高垃圾邮件的过滤效果。
1 相关研究
案例库修正技术分为性能保存和性能增强技术, 性能保存技术相当于去除那些对分类性能不起作用的冗余案例 (除冗) ;性能增强技术是从训练样本集中去除噪声或者毁坏的案例 (降噪) 。
最早的除冗技术是由Hart提出的压缩的最近邻法CNN (Condensed Nearest Neighbour) [8]。CNN是一种增量式的方法, 目标是寻找训练样本集的最小的一致性子集。训练样本集T的一致性子集S是T的一个子集, 并且S能使T中所有案例都正确分类。CNN虽然能对训练样本集中的样本正确分类, 但无法找到满足条件的最小子集, 导致修剪集中含有较多冗余样本, 并且该方法对噪声以及训练样本集中案例的出现顺序非常敏感。Gates等[9]提出一个递减式方法约简的最近邻法RNN (Reduced Nearest Neighbor rule) 算法。RNN以全部训练样本集为起点, 缩减案例的这一完全集来形成一致性子集。后来, Ritter等人[10]提出了一种新的约简算法, 选择最近邻SNN (Selective Nearest Neighbor) 方法。SNN可以确保找到最小的一致性子集然而, SNN由于计算效率低且对噪声敏感, 没有得到广泛应用。
降噪技术始于递减式策略, Wilson[11]提出的修剪的最近邻ENN (Edited Nearest Neighbor) 算法。ENN算法通过扫描训练样本集中的所有案例来去除噪声案例。把被自身的最近邻案例误分的案例都看作是噪声案例, 这种案例往往与其邻居案例不同类, 属于出现在同一类案例群中的异常案例。Tomek[12]在ENN方法的基础上, 提出了重复修剪最邻近RENN (Repeat ENN) 算法以及“all k-NN”算法。二者都是重复扫描训练样本集, RENN重复ENN算法直到训练样本集中再也没有能淘汰的案例了, 它比ENN有更好的降噪效果;而“all k-NN”算法则使用k的增值, 每重复一次, k值就增加一次。总体来讲, 这些方法都有效地提高了修剪的能力, 但对存储的需求与单独去除噪声或者边缘案例时没有明显性能提高。
这些算法的问题在于当只存在少量噪声案例时方法有效, 而当噪声案例的比例较高时, 由于噪声案例是就会被其他的噪声“正确”分类, 而不会显现出异常案例的特性。值得注意的是, 在某些特定领域, 我们无法准确区分噪声案例和类中真正的异常案例。除冗的目标在于去除同类案例簇中内部的案例, 但把噪声看作是异常案例或者类边界案例而不对其进行删减。另一面, 降噪的目的是去除噪声案例或者被毁坏的案例, 但是可能把那些无法与真正噪声区别的异常或边界案例一同去除掉, 因此寻求二者之间的平衡非常有用。
将除冗和降噪技术的融合研究始于Aha等人[13]提出一系列的基于实例IBs (Instance-Based) 的增量式的懒惰学习算法:IB1、IB2、IB3和IB4来降低储存需求以及噪声实例。IB2和IB3, 对训练样本案例分类有重要功能。IB2算法的基本思想是:如果一个将要被添加的新案例能够被当前案例库正确分类的话, 则直接将其删除, 而仅仅添加那些不能被修剪集正确分类的案例。但是由于噪声案例都是异常的, 它们往往会因被误分而保留下来, IB2对噪声比较敏感。IB3在IB2基础上增加了一个“wait and see”策略来去除噪声案例, 最终仅仅保留那些统计意义上有正确分类能力的案例。
目前, 越来越多案例库修正方法使用建立训练数据的性能模型, 以及利用案例性能特征来决定哪些案例应该被删除。Smyth and Mc Kenna[14]针对案例库中的案例提出两个重要性能特征:覆盖集和可达集, 这两个特征反映了一个案例的内部性能特性, 并被作为基于性能的修剪技术的基础。根据这两个特征, Wilson和Martinez并提出了一系列缩减案例库尺寸的技术RT (Reduction Technique) 算法:RT1、RT2以及RT3[15]。RTN算法都使用了递减式策略, 它们定义了一个案例c的关联集, 这个关联集与上述的覆盖集类似, 只是覆盖集只包含与案例c同类的案例, 而关联集可能含有与案例c异类的案例。RT系列算法总体来说, 与IB3相比RT3有更高的准确性和更低的存储要求。Brighton等[16]在他们提出的重复的案例过滤ICF (Iterative Case Filtering) 算法中, 同样借助可达性和覆盖度的概念, 使用了与RTn类似的邻居集和关联集。其中, 一个很重要的不同之处是:ICF的可达集尺寸不是固定的, 而是由最近非邻居案例来限定。
2 适应概念漂移的垃圾邮件案例库修正
针对垃圾邮件案例库管理中的降噪和除冗算法在垃圾邮件处理中存在的性能和精度问题, 本文提出了“惩罚降噪”算法LBNR (Liability-Based Noise Reduction) 和基于性能“等价除冗法”EBRR (Equivalence-Based Redundancy Reduction) , 提高案例库的精确度。
2.1 基于惩罚的降噪算法
Smyth and Mc Kenna的性能模型中提出了可达集和覆盖集的概念, 描述了一个案例c对案例库中其他案例进行分类的效果有多好。这两个特征反映了一个案例的内部性能特性, 并被作为基于性能的修剪技术的基础。覆盖集和可达集是指建立案例局部性能模型的两个数据集:目标案例t的可达集是指那些能使案例t正确分类的所有案例的集合;目标案例t的覆盖集是指案例t能使之正确分类的所有案例的集合。用案例库本身作为目标问题空间的代表, 这些集合如式 (1) 和式 (2) 所示。
其中, Classifies (a, b) 表示案例b能够使案例a正确分类, 这意味着案例b是案例a的最近邻并且与案例a同类。
本文通过对“惩罚集”的定义描述了“一个案例c对其他案例进行分类的效果多差”特性来扩展这一性能模型:
定义1惩罚集对案例t, 能够引起或者加剧其误分类的所有案例的集合定义为案例t的惩罚集。
其中, Misclassifies (a, b) 表示案例b通过某种方法加剧了目标案例a的错误分类。实际上, 即当目标案例a被案例库错误分类时, 案例b作为a的邻居但与案例a不同类。就KNN来说, 当k=1时, 案例b导致案例a被错误分类, 而当k>1时, 案例b则是加剧了案例a被错误分类的案例。因此, 案例a是案例b的惩罚集中的一个案例。
降噪过程采用的技术是以ENN降噪策略为基础的。ENN的降噪技术是把被其他案例错误分类的案例从案例库中去除, 这就意味着这些案例被错误标记了并因此成了噪声案例。然而, 一个被误分的案例未必就是噪声案例, 它被误分可能归因于那些影响它分类的检索案例。目标案例的被误标的最近邻案例可能会影响目标案例的分类。因此, 仅仅因为一个案例被误分并不能说明它就是噪声而将其去除掉。
实际上, 不仅需要考虑如果一个案例被错误分类那么它一定被错误标记这样的推断, 而且还尝试着去分析案例被误分的原因。本文提出的降噪策略关注的不仅仅是那些被错误分类的案例, 更是能够引起其他案例误分的案例 (也就是, 那些惩罚集中至少包含一个元素的案例) 。因此去除那些能够引起误分的案例的意义更加重大, 降噪效果也将更加明显。
通过本文对惩罚集的定义不难看出, 一个案例的惩罚集越大, 表明它对案例库中其他案例的错误分类的影响越大。而根据覆盖集的定义可以得知, 根据案例的表现及其对正确分类的实际贡献来考虑降噪问题也是十分重要的。结合电子邮件的特点, 本文提出的降噪技术将覆盖集与惩罚集所体现的案例性能有效结合, 不仅关注案例对正确分类的实际贡献, 更关注它对其他案例误分的影响。算法具体思想为:分别计算并比较每个案例c的覆盖集和惩罚集的数量:如果c的覆盖集大于惩罚集, 表明c是正常案例, 其惩罚集中的案例就是噪声, 则将c的惩罚集中的案例去除掉;如果c的惩罚集大于覆盖集, 表明c是噪声, 则将c去除掉。
算法1基于惩罚集的降噪算法LBNR (Liability-Based Noise Reduction)
这种对噪声案例的定义原则在IB3算法中也提到过, IB3与本文的惩罚降噪技术有很多不同:
(1) IB3保存修剪过程中的分类记录, 而惩罚降噪技术运用性能模型, 使用全部训练样本集的性能;
(2) IB3是以可能的或者潜在的分类为基础来保存分类记录的, 而惩罚降噪技术则是以真实的分类为基础进行保存的;
(3) IB3更新所有潜在邻居案例的分类记录, 而惩罚降噪技术仅仅使用k个检索邻居案例来建立它的性能模型。
但是这两种算法最大的不同是它们如何利用案例的过失信息。虽然IB3确实收集了关于某些案例可能造成的损害的信息, 但是这些信息并没有被有效地运用来决定是否去除这些有破坏性的案例, IB3只是利用案例分类的准确性而不是失误来说明案例的表现, 并且一直等到案例不能达到满意的正确分类的水平才把它去除掉。相反, 惩罚降噪技术则是有效地利用案例库的性能模型, 将从中得到的覆盖信息和过失信息有效地结合, 来确定哪些是噪声案例, 并准确地将其去除掉。
2.2 基于性能的等价除冗算法
CBR的算法思想是将以往解决问题的经验存储到案例库中, 当新问题出现时, 检索案例库, 找到与新问题相似的案例作为参考。针对CBR的这一特点, 本文的除冗算法关注的是那些具有相同分类效果的案例, 并以确定离类边界近的案例为基础的。
根据可达集和覆盖集的定义可知, 如果案例c的可达集与覆盖集有交集的话 (含有相同的案例) , 则表明案例c与这些交集案例有很相近的分类能力, 因而可以把交集案例作为冗余案例去除掉。总体来说, 可以将那些既能使案例c正确分类又能被案例c正确分类的案例去除掉。并且, 一个庞大的覆盖集表明一个案例位于同类案例族中, 而一个小号的覆盖集则表明一个案例几乎没有同一类别的邻居。为了避免现有算法在除冗上的激进性, 选择从覆盖集小的案例开始追踪。由于离类边界近的案例往往有小的覆盖集, 因此本文的除冗算法是以确定离类边界近的案例为基础的。
本文提出的等价除冗算法具体描述如下:
(1) 首先, 计算每个案例的覆盖集数量, 并以升序排列;
(2) 然后, 从覆盖集数量最小的案例c开始, 分别扫描案例c的覆盖集与可达集, 将其中重合部分的案例 (称为等价案例) 去除掉;
(3) 每扫描一次训练样本集, 性能模型就会被更新, 一直到再也没有案例能够被去除为止。
算法2等价除冗算法EBRR (Equivalence-Based Redundancy Reduction)
3 实验分析
实验目的是在保证案例库准确性的同时, 寻找一个合适的案例库修正技术来缩减垃圾邮件和非垃圾邮件的案例库。
3.1 实验数据及预处理
实验使用的数据来自公共的lingspam语料库。从lemm_stop目录下的“part1-part5”五个文件夹中, 随机选取一定数量的邮件, 作为训练样本集和测试集。每个随机选取16封正常邮件和16封垃圾邮件, 共160封邮件, 每一封邮件ei被简化成一个向量特征ei=<x1, x2, …, xn>, 其中每个特征都是二进制的。如果邮件中出现了这个特征, 则xi=1或者xi=0。在文本分类中很常见的是用词汇特征来传达频率信息, 而不同的评价结果显示二进制表示法在这一领域起到更好的作用, 认为这归因于大部分电子邮件都很短的事实。使用一般化的词汇特征来定义邮件特征, 主要是用文字来标记邮件。特征选择是为了降低特征空间的维度。本文特征选择的评估函数选用信息增益方法。并且为了提高系统的效率, 本文选用KNN方法来进行案例检索。
3.2 实验环境
为验证缺失数据填补算法的有效性, 使用C++语言在Microsoft Visual C++2008 Express Edition环境下完成本算法编码, 选取lingspam语料库中的等量的正常邮件和垃圾邮件, 实验具体环境如下:
CPU:Intel Core2 Duo CPU E7400, 2.80GHz;主频内存:2G RAM;操作系统:Windows XP;开发环境:Microsoft Visual C++2008 Express Edition。
3.3 评价指标
本文选取以下指标对算法进行评价比较:
(1) 误报率 (FPs) :是指合法邮件被误判为垃圾邮件占所有合法邮件的比例。
(2) 漏报率 (FNs) :是指垃圾邮件被错判为合法邮件占所有垃圾邮件的比率。
(3) 错误率 (Err) :是指所有被错误分类的邮件占总邮件数的比率。
(4) 效率 (Speed) :过滤所有测试集邮件所用的时间。
3.4 实验结果及分析
(1) 降噪结果分析
选取160封邮件作为数据集, 分别随机选取20封正常邮件和20封垃圾邮件作为测试集。比较本文提出的“惩罚降噪”和RENN算法[12], 结果如图1所示。
图1给出了数据集上“惩罚降噪”和RENN对比的结果。条形图表示错误率、FP率和FN率以及算法效率。结果可归纳如下:
“惩罚降噪”的效果非常好, 错误率比RENN的低, 并且对FP率和FN率都有明显改善;用“惩罚降噪”的算法效率也优于RENN算法。实验表明, 本文提出的“惩罚降噪”算法具有高的性能和效率。
(2) 除冗结果分析
利用上文选取的数据同样作为除冗数据, 分别比较本文提出的“等价除冗”和RT3[15]、ICF[16]算法。其中本文的“等价除冗”是在“惩罚降噪”算法的降噪结果上进行的。结果如图2所示。
图2显示了“等价除冗”、ICF和RT3的实验结果。条形图表示错误率、FP率和FN率以及算法效率。
结果可归纳如下:“等价除冗”的错误率比ICF、RT3低, 并且对FP率和FN率都有明显改善。用“等价除冗”的算法效率也优于ICF、RT3算法。
4 结语
随着互联网的广泛应用, 不同目的垃圾邮件泛滥使网络用户在享受互联网便捷的同时受到严重的影响。本文针对垃圾邮件中的概念漂移现象, 总结分析了垃圾邮件CBR过滤中现有的案例库管理技术, 并进行了分析比较, 提出了改进的案例库管理算法:惩罚降噪LBNR算法和等价除冗EBRR算法, 有效地提高了垃圾邮件过滤性能。运用垃圾邮件公共数据集, 对算法进行了实验评价, 并根据实验结果对算法进行了分析和总结, 结果表明了本文提出算法的优势。
【垃圾邮件的法律问题】推荐阅读:
智能垃圾邮件05-16
反垃圾邮件07-11
垃圾邮件图像11-01
反垃圾邮件的几种技术10-08
反垃圾邮件技术06-02
反垃圾邮件网关08-28
反垃圾邮件防火墙案例05-27
让垃圾邮件远离你邮箱的几个高WEB安全05-29
电子邮件证据问题研究08-19
城市垃圾的问题09-22