基于贝叶斯的入侵检测

2024-05-30

基于贝叶斯的入侵检测(共3篇)

基于贝叶斯的入侵检测 篇1

贝叶斯分类算法由Maron提出, 主要思想就是将文章看成是独立单词集合, 进而通过训练集结合贝叶斯理论来得出各单词在不同类下的概率大小, 以构建出贝叶斯模型。而改进后的贝叶斯算法则是在贝叶斯与朴素贝叶斯的基础上而形成的, 主要是为解决误判问题, 以减小合法邮件被误认为垃圾邮件而给用户带来了损失。下面对基于贝叶斯算法垃圾邮件过滤算法的设计进行具体的分析。

1 对邮件样本的选择

在对邮件进行分类时, 分类器首先需掌握一个预先已经被人工进行了正确分类的邮件集, 从有效提取出垃圾邮件类与正常邮件类的具体特征。而这个邮件集也可被称为训练样本集。同时, 在对分类器性能进行测试是还需用到测试样本集, 即将测试集中的相关邮件信息输入分类器, 以获得分类器对于该邮件分类的结果, 然后将该结果同该邮件实际类类别实施比较, 进而通过统计分类器所得出的对所有邮件分类结果同人工的分类结果进行比较, 以评价出这个分类器性能的指标。在本次研究中, 基于贝叶斯垃圾邮件过滤算法系统中的训练样本集与测试样本集, 多选于CCERT所提供的20307封垃圾邮件与9043封正常邮件, 并从中抽取1000封最最有代表性的邮件作为系统的语料库, 其中, 600封训练样本集有正常邮件与垃圾邮件各300封, 而400封测试样本集中正常邮件与垃圾邮件各200封。

2 过滤模型设计

通过对贝叶斯算法的研究, 在结合中文邮件过滤相关特点基础形成了基于认知学习与最小风险的贝叶斯算法模型, 以有效提高系统对邮件的全查率。

首先, 合理选择中文分词方法。分词指的就是把连续字符串或是序列依照一定规范进行全新组合以形成词序列的一个过程, 分词方法的选择对后期分类算法识别率有着较大的影响, 但中文文本中切分精度对于邮件过滤系统来说并不是很重要, 在这里, 过滤准确率与效率才是系统的最关键性指标, 需优先考虑其实时性与准确率要求;其次, 特征提取, 即删除一些文本中时常出现的词汇, 如连词、助词与功能词等, 进而根据词频与词熵实施特征选择, 而特征选择则采取的是改进了的X2分布特征选择算法;最后, 模型的建立。由于邮件多是是Web的文档或文本形式出现的, 故对于如表述这种无结构与半结构化的文档数据类型以便于计算机的处理是电子邮件过滤系统中的关键环节。如今, Gerard Salton等人所提出“向量空间模型”因其具有较好的效应已被广泛的应用于文档分类中。

3 训练过程与分类过程

训练过程流程路具体如图1所示。其中, 垃圾邮件的类先验概率P (C2) =训练集职工的垃圾邮件类文本数/训练集中的文本总数量, 而正常邮件类先验概率P (C1) =训练集中的正常邮件类文本数/训练集中的文本总数。通常来说, 基于贝叶斯分类器对文本进行分类的时候, 所设定文本类别分为感兴趣和不感兴趣两种, 而基于贝叶斯分类器对电子邮件实施分类的过滤系统中, 则直接将其分成垃圾邮件与正常邮件两种, 极易造成一定的“误承认”与“误判断”问题, 因此, 为减少这种情况的出现, 本次研究将系统分成了垃圾邮件、正常邮件与疑似垃圾邮件三种类型, 若垃圾邮件类概率P (C2|dx) ≤0.5, 则表示邮件是“正常邮件”, 若0.5

 

4 实验结果

通过本次实验可知, 所选取的300封已知样本邮件中, 垃圾邮件有250封, 而合法邮件则由50封。而为了分析改进后的贝叶斯算法组所具有的自我学习能力高低, 研究中不采用训练样本, 而是直接将邮件用于相关的测试中, 发现改进后贝叶斯算法可从新邮件中不断学到新知识, 具有较强自我学习能力。同时, 本次研究还发现, 算法在邮件的过滤中表现出较好的查准率与查全率, 而这也就说明了该系统的邮件过滤性能是比较好的。

综上所述, 基于认知学习的贝叶斯算法作为一种新型的邮件过滤算法, 有着较好的自学能力与学习效果, 且在邮件过滤性能中表现出良好的动态调整能力, 查全率与查准率都较高, 以获得较好的邮件过滤效果。

参考文献

[1]梁志文, 杨金民, 李元旗等.基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法[J].中南大学学报 (自然科学版) , 2013, 44 (7) :2787-2792.

[2]李茹, 刘培玉, 朱振方等.基于AdaBoost的最小风险贝叶斯的垃圾邮件过滤算法[J].济南大学学报 (自然科学版) , 2011, 25 (1) :19-22.

基于贝叶斯的入侵检测 篇2

所谓垂直搜索引擎,是针对某一个行业或类别的专业搜索引擎,其特点是“专、精、深”,且具有行业色彩,相比传统通用搜索引擎的海量信息无序化, 垂直搜索引擎则更加专注、具体和深入[1]。

2006年以来,国内垂直搜索引擎与相关行业相结合,在IT信息、房地产、招聘、购物和医疗等方面发展迅速。但与国外相比,无论是在技术层面还是在行业经验上都还有很大差距,这大大限制了垂直搜索引擎的发展,使得专业化搜索服务还无法在社会的各个领域得到广泛发展[2]。因此,加大对垂直搜索引擎的研究有着重大的现实意义。

而网页分类是垂直搜索引擎的基础和难点,分类器的好坏直接决定了一个垂直搜索引擎系统的性能[3],进而决定了所占市场的比例。本文利用CHI算法进行特征提取,以朴素贝叶斯算法为基础,构建了一个以网页分类为目标的垂直搜索引擎分类器, 并对其准确率和招回率进行了详细的研究和分析。 结果证明基于朴素贝叶斯算法的分类器对网页文类有着良好的表现。最后,利用Java、JS等Web开发语言和开源的Luence搜索引擎工具包[4],构建简易的基于BS架构的垂直搜索引擎系统。

1关键技术

1.1 CHI特征选择法

利用CHI方法选择文本的特征是基于如下假设: 在指定类别文本中出现频率高的词条与在其他类别文本中出现频率高的词条,对判定文档是否属于该类别是有帮助的[5]。

单词term与类别class依赖关系的CHI统计公示如下:

CHI统计变量定义表如表1所示。

类别class越依赖于单词term,则CHI统计值越大。如果term和class是相互独立的,则该值接近于0。

1.2朴素贝叶斯模型

在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法。简单地说,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法[6]。

对朴素贝叶斯算法定义如下:

1设X = [a1,a2,…an] 为一个待分类项,每个ai都为X的一个特征属性,而且每个特征属性都是相互独立的;

2设C = [y1,y2,…yn] 为一个类别集合;

3计算P (y1| X) ,P (y2| X) ,P (y3| X) ,… P( yn| X) 。

2垂直搜索引擎分类器的构建

本文以从搜狐网爬取的IT、招聘、体育和军事类网页作为训练集和测试集,利用朴素贝叶斯方法构建垂直搜索引擎分类器,对网页进行分类。

2.1特征选取

首选通过CHI特征提取法获取每种类别的网页所具有的文本特征。设C、M、S和W分别代表IT类、招聘类、体育类和军事类。以体育类为例,特征选取流程如下:

1构建训练数据集: 从网上爬取此种类别的网页N篇作为训练数据集。此处的N应尽量大,使其能够充分挖掘该类别的内容特征[7]。选取权威网站上IT、招聘、体育和军事行业网页各100篇,作为网页的原始训练数据集。

2去噪处理: 将训练数据集中的网页进行去噪处理,即去除网页中与内容无关的Html标签和Java Script代码,获取代表实质内容的中文段落。

3分词处理: 将获取的中文段落划分成一个个分词,并且将其中无意义、明显不能作为特征的词去掉,如“的”,“是”,“或者”等等。

经过以上处理,数据集中包含大量文字的网页已经被用一个中文分词集合表示,如某体育类网页可以表示成Si=[体育、NBA、比赛、骑士、凯尔特人、 詹皇、速贷球馆……詹姆斯、季后赛、首发、投篮]。

将所有表示体育类网页的中文分词集合做合并运算,即SA= S1∪S2∪S3∪…Sn,则SA便是体育类网页的中文分词库。同理可以得到IT类、招聘类和军事类的中文分词库CA、MA和WA。设TA= SA∪CA∪ MA∪WA,则TA为候选分类特征集合。接下来通过CHI统计公式获得类别的真正分类特征。

4设TA= [t1,t2,t3,…tn] ,依次计算TA中每个候选特征与体育类别S的依赖关系值chi_dependency( ti,S) ,取使chi_dependency数值最大的n项候选特征词汇组成数组SR,即SR=[sm1,sm2, sm3…,smn],则SR即为体育类的真正分类特征集合。

通过以上方法,可以依次获取IT、招聘、体育和军事类网页的真正分类特征集合,分别设为CR、MR、 SR和WR。

2.2根据分类特征进行分类

根据前文介绍的朴素贝叶斯分类器分类原理, 需计算P( yi| X) ,以此来判断样本属于哪一个类别。 由于X = [a1,a2,…an] ,每个ai都为X的一个特征属性,因此需计算每个特征属性对于该类的影响力。

通过前文的特征选取方法已经得到的体育类的特征集合为SR= [sm1,sm2,sm3…,smn]。由于篇幅的限制,在这里选取n = 20即选取与类别最具有依赖关系的前20个中文分词作为类别的分类特征。通过计算,CR=[IT、互联网、网络、andoid、电商、虚拟、 阿里巴巴、云计算、支付、…],MR=[招聘、简历、职位、薪资、企业、经验、岗位、行业、技术、…],SR=[体育、比赛、NBA、CBA、中超、亚冠、赛季、对手、欧冠、 胜、…],WR=[军事、美国、武器、军方、导弹、战略、 南海、解放军、击败、…]。设CMSWR= CR∪ MR∪ SR∪CWR,CMSWR中的每个分类特征将作为文档属性参与到分类过程中。

以之前的100篇体育类文档作为训练集,来计算SR中每个分类特征对类别的影响力。以“体育” 为例,训练集中的100篇体育类文档中有89篇均包含“体育”,则包含“体育”的网页属于体育类的概率为89 /100;

假设每个分类特征都是独立的,即出现在网页中的分词都是随机出现的。因此,

即假设有待测文本X = [a1,a2,…an] ,属于yi的概率为训练数据中各属性值出现的概率之积[8]。

2.3分类示例

根据朴素贝叶斯算法定义,假设有类别C = [y1,y2,…yn] ,待测文本属于哪个类别的概率最高, 就将该文本划分为那一类。

假设有网页文本TXT =“马云和王健林关于O2O又展开了一轮对掐,因为涉及电商核心价值, 我认为两人在价值的判断上,是真掐,特别是马云, 刀刀见肉。特别值得传统企业借鉴。阿里巴巴马云表示,互联网经济不是虚拟经济,互联网经济是实体经济与虚拟经济的结合体。互联网企业要活得好, 就要提供普惠性技术。”

经统计,训练集与分类特征是否包含的数量关系如表2所示。

其中C、M、S、W分别代表IT类,招聘类、体育类和军事类。Ctermi、Mtermi、Stermi、Wtermi代表CMSWR中属于C、M、S、W的第i个分类特征。如第2行第2列的数字41代表IT类的第1个分类特征, 即“IT”这个分词在100篇IT类网页中的其中41篇都出现了。

下面根据朴素贝叶斯算法依次计算网页文本TXT属于C、M、S、W的概率。

将文本TXT表示成一个向量TXT_V,长度为集合CMSWR的大小。向量中的项代表TXT中是否包含CMSWR的分类特征。以IT类为例,由于TXT中包含了“互联网”、“电商”、“虚拟”、“阿里巴巴”4个IT类的分类特征词汇,所以TXT_V = ( 互联网: 1,电商: 1,虚拟: 1,阿里巴巴: 1,网络: 0,…,招聘: 0; 简历: 0; 公司: 1; …体育: 0; 比赛: 0; …军事: 0; 美国: 0; …) 。

将TXT_V中的每一项Ti作为文档的一个特征属性,指定一个类别,针对每一个特征属性Ti的属性值计算待测样本属于这个类别的概率Pi。Pi的计算方法为[9]:

设T的长度为len,则TXT属于某类别的概率为:

说明: 之所以在计算Pi时分子加1 /n,是为了防止某个属性值的概率出现0的情况。因为在计算belong( TXT,C) 的时候,其他的概率将与这个0相乘,因此不管其他属性的概率有多大,最终的结果都是0,因此根据频率来计算概率的方法,进行一些小的调整,这种方法被成为拉普拉斯估算器[10]。

根据以上公式,分别计算文档TXT属于IT类、 招聘类、体育类和军事类的概率,属于哪个类别的概率最高,就将TXT归为哪个类别。为了便于计算, 将计算结果取对数得:

由以上计算结果看出,TXT属于类别C的概率最大,因此将文本TXT归为IT类。

3分类结果与结论

3.1实验结果

以不同于训练集的IT类、招聘类、体育类和军事类各100篇作为测试集,来验证朴素贝叶斯模型的分类效果。

经分析可得,分类特征作为判定是否属于某个类别的主要依据,分类特征的选取对于网页分类的效果有着至关重要的影响[11]。与类别最具有依赖关系的前20个中文分词未必能够代表该类别的内容特征,因此在测试过程中,分别选取n = 20、n = 30和n = 50,来验证分类效果。

通过正确率和召回率来量化实验结果[12],具体数据如表3所示。

3.2实验结论

根据表数据,可得如下结论:

1当n = 50时,统计结果的准确率和召回率都在90%以上,足以说明利用朴素贝叶斯模型进行网页分类是可行的。

2当n = 20时,IT类统计结果的正确率只有66.7%,且返回样本数高达132,可知其他类别中往往包含IT类的特征词汇。选出的分类特征区分度不够。

3分类特征的选取对于统计结果有着至关重要的影响[10],n越大,分类特征越能代表整个类别的特征,统计结果越准确。

4构建简易垂直搜索引擎

有了以上的算法基础,便可以利用Java和JS等Web开发语言和开源的Luence搜索引擎工具包构建一个基于BS架构的简易垂直搜索引擎系统,过程如下:

1用Java编程语言编写网络爬虫,从互联网上抓取有效网页,并进行去重、去噪等处理。

2利用前文基于朴素贝叶斯算法的分类器对抓取到的网页按类别分类。

3利用Luence搜索引擎开源包,为分好类的网页建立索引,将其存储至数据库,并实现排序算法。

4 Tomcat服务器搭建B /S环境,利用js和HTML语言编写客户端界面,根据用户输入的类别和关键字展示搜索结果。

5结束语

基于贝叶斯的入侵检测 篇3

文本自动分类作为一项具有重大实用价值的关键技术,是信息检索、信息过滤、文本数据库、数字化图书馆等领域的技术基础。目前绝大多数搜索引擎及在线网络数据包甄别系统都是基于全文关键词检索的技术,尽管性能较高但准确度很低。

近年来,研究人员提出许多统计学习的方法和机器学习的方法进行文本分类,包括决策树、决策规则、最近邻方法、贝叶斯概率方法、感知机模型、神经网络、支持向童机方法等,并被广泛应用到许多领域中,比如专利的组织和归类、垃圾邮件的过滤、多义词的辨别、超文本分类等。基于自然语义分析的文本处理技术则不仅仅是一个全文检索的技术,还包括对构词、词法、语义的分析,这是文本分析甄别技术的发展方向。

本文在分析和总结文本分类中各个关键技术的基础上,着重研究了几个不同的特征选择方法,讨论了贝叶斯分类方法的原理、特点和性能后,根据文本分类的需要,提出了一个基于贝叶斯方法的层次自动文本分类方法,并与改进的特征选择方法相结合,用Java语言实现一个文本分类系统。

1 特征选择贝叶斯文本分类算法设计

该系统将文本分类的工作周期分为离线训练(offline training)和在线分类(online classification)两大部分,其系统工作原理如图1所示。

离线训练过程实际之给定一些已分类的文本,经过中文分词等预处理和特征选择处理后以特征向量形式表示,由多个特征向量组成的特征向量集;再由特征选择,将选取的特征输入训练器得到分类器的参数的过程。在线分类过程实际输入一个新的文本Doc,应用分类算法模式同训练过程(贝叶斯分类器)得到的类别模式逐一比较,输出该文本的分类结果。

2 特征选择及提取

2.1 预处理

为减少冗余数据和噪声,改善文本表示的质量,通常在把文本表示为向量之前,要做好一些必要的文本预处理工作,将文本进行结构化处理、分词处理以及去除停用词处理等。

(1)中文分词

首先处理文本中的标点符号、数字和大小,把文本转换为一个只由词条和空格组成的小写(或者大写)字符串,通过分词技术将文本分成便于进一步处理的基本分析单位。

(2)取词根

将文本(或文本表征词典)中具有相同或相近含义的词合并成一个语义单位。在英文中指有着公共的词根,中文中同义词或者近义词。通过把它们看成是同一个词的不同表示形式,就能够在很大程度上减少文本向量的维数。

通常取词根有两种实现途径:基于规则的方法和基于词典的方法。基于规则的方法按照一定的规则逐个剥离各个单词的后缀,直到得到表明其基本含义的词根;基于词典的方法则是将所有含义相同的单词归为一类,然后编制成专门的同义词词典,供取词根时使用。

(3)将样本存入词典

样本是指剔除Stop-words,即那些没有语意贡献的词。将每个文档以BoG格式存储(BoG即将词以一定顺序排列),并对文档中每个词的频率进行统计。

通过以上几项的预处理工作,我们就可以把文本集合中的文本表示成特征向量的形式,使文本数据结构化,从而满足各种文本分类方法在文本表示形式方面的需要。

2.2 初步特征选取

对文本进行预处理结束后会产生原始特征集合,我们需要从中获得对分类有用的特征,组成新的特征集合,同时滤掉对分类效果不大的特征。对词典和表示成Bag of Words的文档进行预处理,共有两种类似的预处理策略可供选择。

(1)策略一,将词典中仅在1~3个文档中出现的词删除。策略二,将所有样本中出现总次数为1~5次的词从词典中删除。

(2)将BoG表示中对应的词和词频删除。

2.3 特征选择

选择那些对分类最有帮助的最优特征(词),即按照每一个词在分类中的贡献大小排序,那些在正样本和负样本中分布差异较大的词排在前面。选择排序后前N个特征(词),其余的词在词典(Vocabulary)和BoG表达式中删除。

特征空间的高维性和稀疏性是文本分类面对的最大困难,通过该函数从原始特征集合中选出与类别相关性较大的一部分特征,降低文本特征向量空间的维数和稀疏度,同时过滤文本特征空间中的噪声,从而提升文本分类算法的准确率和运行速度。

3 贝叶斯文本分类模型

3.1 分类模型

如何根据文本集合构造一个分类模型(也称为分类器),并利用此分类模型将未知类别文本映射到指定的类别空间是文本分类研究的核心内容。目前常用的文本分类方法有kNN、朴素贝叶斯、支持向量机、最大熵模型、决策树、粗糙集和人工神经网络等分类方法。贝叶斯模型是一种基于概率统计的分类方法,Bayes概率是观察者根据先验知识和现有信息,用概率的方法预测未知事件发生的可能性。

3.2 算法设计

算法如图2、图3所示。

4 小结

本文介绍了特征选择贝叶斯文本分类系统设计,在分析和总结文本分类中文本表示模型、文本预处理、特征选择、分类方法和分类性能评价的基础上,从特征选择和分类方法两个途径出发,将朴素贝叶斯文本分类方法与改进的特征选择方法有效结合起来,建立了一个分类模型,实现了一个文本分类系统。着重体现了贝叶斯分类算法设计思想和特征选择设计思想,并给出了数据库表结构的设计格式和训练算法、特征选择算法以及分类算法。

随着科学技术的发展,文本信息的存储结构越来越丰富,对文本表示模型和分类性能评价标准等问题的深入研究,能够使文本分类的应用领域更加的广泛。

参考文献

[1]LARKEY,L.S,"A patent search and classification system",[A]In Proceedings of DL-99,4th ACM Conference on Digital Libraries,Berkeley,CA,1999,pp.179-187.

[2]Androutsopoulos,I.,Koutsias,J.,Chandrinos,K v,et al.,"An experimental comparison of nave Bayesian and keyword based anti-spam filtering with personal e-mail messages",[A]In Proceedings of SIGIR-00,23rd ACM International Conference on Research and Development In Information Retrieval,Athens,Greece,2000,pp.160-167.

[3]Escudem,G,M'arquez,L.,and Rigau,Q,"Boosting applied to word sense disambiguation"??[A]In Proceedings of ECML-00,11th Euorpean Conference on Machine Leanring,Barcelona,Spain,2000,pp.129-141.

[4]Yang,Y.,Slattery S.,AND Ghani,R."A study of approaches to hypertext categorization",[J]In-tell,Inform.Syst.2002,18,2/3(March-May),pp.219-241.

[5]T.R.Bayes.An essay toward solving a Problem in the doctrine of chances[M].PhilosoPhical Transactions of the Royal Society(London),1763,53:370-418.(Reprinted in Biometrika,1958,45:293-315).

上一篇:躯干控制能力训练下一篇:同步设计