日志挖掘技术及应用

2024-10-26

日志挖掘技术及应用(精选8篇)

日志挖掘技术及应用 篇1

0前言

随着Web站点规模的扩大和复杂程度的提高,访问者对Web站点的要求也越来越高,要求它具有个性化,智能性。因此,简单的统计访问者所在的地区,统计站点的访问次数已经不能满足。Web日志挖掘是对用户在访问网站时留下的访问记录进行数据挖掘,利用数据挖掘的方法可以在海量的日志数据中自动快速的发现用户的访问模式,其结果可以用于改善网站的拓扑结构,发现相似客户群体,开展个性化的信息服务和有针对性的电子商务活动。

1 数据预处理

从Web服务器收集到的日志不能直接用于数据挖掘,还必须进行预处理。数据预处理一般分为数据清理、用户识别、回话识别、路径补充这几个过程。

1.1 数据清理

数据清理的目的是清除从服务器得到的日志中的不相关的数据,缩小被挖掘的数据对象的范围。本文使用的日志数据集与以往的日志数据集有所有不同,如图1所示,数据集中的字段都是挖掘所需要的,但是每一个记录都含有若干条记录,其中是以“||”分割的,利用SQL语句可以把这些记录分离开,从而形成一条一条的记录,得到的数据集就可以用于下一步的数据挖掘。如图2所示。

数据清理的核心SQL语句:

1.2 用户识别

如果数据挖掘的目的是进行用户访问模式的挖掘或对用户进行聚类分析,那么用户识别这一步骤相当重要。通常我们用一下的方式来识别用户:不同的IP地址代表不同的用户;当IP地址相同时,默认不同的操作系统或浏览器代表不同的用户;当IP地址相同时,用户使用的操作系统和浏览器也相同的情况下,此时要根据网站的拓扑结构来识别用户,即用户要访问的页面不能从已访问的页面到达则为一个新用户。

1.3 用户会话识别

会话识别的目的就是将用户的所有访问序列分成多个单独的用户一次访问序列。一般的方法是利用超时,如果连续两个页面的请求时间间隔超过给定的阈值,则认为用户开始了一个新的会话。根据统计数据,时间阈值通常取25.5分钟。

1.4 路径补充

在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录。这就需要路径补充这一个步骤,解决的方法类似于用户识别中的方法。如果当前请求的页与用户上一次请求的页之间没有超文本链接,那么用户很可能使用了浏览器上的“后退”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话路径中。

2 Web日志挖掘算法研究

2.1 关联分析

关联分析用于发现关联规则,关联规则是形如X→Y即满足X中条件的数据库元组也满足Y条件。我们用支持度和置信度来作为关联规则兴趣度的客观度量。关联规则X→Y的支持度表示满足规则的样本的百分比,用概率P(X∪Y)表示,其中,X∪Y表示同时包含X和Y的事务,即项集X和Y的并。关联规则X→Y的置信度用条件概率P(X|Y)即包含X的事务也包含Y的概率来表示。

2.2 聚类分析

聚类分析是将物理或抽象的对象组成的集合分组成为由类似的对象组成的多个簇,使得处于相同簇中的对象具有最大的相似性,而处于不同簇的对象具有最大的差异性的方法及过程。通过聚类,能够找出数据属性之间潜在的相互关系。聚类分析的过程如图3所示。

2.3 遗传算法

遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。生物的进化是一个奇妙的优化过程,它通过选择淘汰,突然变异,基因遗传等规律产生适应环境变化的优良物种。遗传算法是根据生物进化思想而启发得出的一种全局优化算法。

3 Web日志挖掘的应用

Web日志挖掘的应用主要有以下几个方面:

(1)提供个性化服务:根据用户访问页面的模式,从中提炼出用户感兴趣的页面,针对特定的用户组放置不同的内容,向每位用户提供个性化界面。

(2)改进站点的拓扑结构:依据访问者的频繁访问路径,把访问者频繁访问的页面直接关联起来。

(3)推荐系统:这对于电子商务网站来说非常有帮助,通过挖掘日志数据集,分析访问者感兴趣的页面和商品,推荐相关页面和商品。

4 结束语

Web日志挖掘的应用越来越广,通过研究日志数据,可以得到很多潜在的有意义的信息,不论是对网站的访问者还是网站的经营者都有很大的帮助。本文阐述了Web日志挖掘的相关算法,今后的工作是努力改进算法,提高数据挖掘的效率和准确性。

参考文献

[1]杨怡玲,尤晋元.SWLMS:一个日志挖掘系统.上海交通大学学报.1999.

[2]吕佳.Web日志挖掘技术应用研究.重庆师范大学学报.(自然科学版).2006.

[3]陈新中,李岩,杨炳儒.Web日志挖掘技术进展.系统工程与电子技术.2003.

[4]韩家炜.Web数据挖掘研究.计算机研究与发展.2001.

[5]陈新中,李岩,杨炳儒.Web日志挖掘技术进展.系统工程与电子技术.2003.

日志挖掘技术及应用 篇2

随着信息技术的迅速发展,社会各个领域的运行、社会知识经济、社会成员的生活方式和教学方式都在随之发展。对人才的培养目标也提出了新的要求,所以作为教师我们要跟上时代发展的潮流,必须加强信息技术与学科课程的整合。

信息技术在语文教学中的应用就是根据教学目标和教学对象的特点,通过教学设计,选择和运用现代教学媒体,并与传统教学手段有机结合,共同参与教学全过程,以多种媒体信息作用学生,形成合理的教学过程结构,使学生在最佳的学习条件下进行学习。也就是说信息技术教学可以把符号、语言、文字、文章、图形、动画和视频图像等多种媒体信息集成于一体,进行最佳的课堂教学。这有利于调动学生学习的主动性和积极性,在一系列交互过程中,学生能自觉地参与进来,主动地将新旧知识联系起来,把学习语文课的积极性很好的调动起来,能够让学生的学习进入良好的循环系统,真正达到“轻负担,高质量”的教学目的。

中学语文是一门综合性极强的学科,很多学科的知识都涉及到语文,在学习语文的过程中同时也在学习其他的学科,语文学科本身在教学内容上的多样性、多元性的特点,加之教学方法的灵活性,所以,语文学科与信息技术教育的整合具有得天独厚的优势。语文教学就可以借助各种信息媒介提供的丰富的信息资源,把课本的知识向课外延伸,拓宽语文教学的空间。

信息技术为语文教学提供了更广阔的教与学的空间。爱因斯坦说过;“兴趣是最好的老师” 兴趣是人的一种带有趋向性的心理特征,是在一定的情境中产生的。一个人对某种事物产生兴趣,就会积极主动地探索,兴趣是由外界事物的刺激而引起的一种情绪状态,它是学生学习的主要动力。运用信息技术能创设情境,激发兴趣。

信息技术可以为学生提供生动的表象,以激发他们插上想象的翅膀,积极主动地去思索、去创造的热情。教学中,充分挖掘教材因素,经常进行想象训练,有利于培养学生思维的广远性、深刻性和创造性。

我认为,想象的对象可以是现实生活中已存的,也可以是现实生活中尚未有过的,还有待创造的事物的新形象,所以想象具有“创新”的特征和内涵,在课堂教学中,恰当运用电教媒体,结合教材内容,凭借想象因素,让学生展开想象的翅膀,翱翔于想象的王国,对培养学生的创新精神,发展创造力,其意义无疑是重大的。

信息技术促进了学生的学与教师的教互动的空间。教师在教学中只是起到了一个引导的作用,学生才是主角。社会在进步我们的教学也在进步,在这个信息化社会里,教师的教与学生的学应有机的结合,多让学生自己动手接触信息技术知识。

Web日志挖掘技术的研究与应用 篇3

随着互联网的广泛应用,电子商务、网络教育越来越普及,个性化服务的概念也应运而生。Web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件,以发现用户访问Web页面的模式,从中提炼出用户对页面的感兴趣程度、用户的访问习惯等,进而改进Web站点的性能和组织结构,提拱个性化服务。

1 Web日志格式

Web服务器日志是Web日志挖掘的主要数据来源,它记录了用户对该服务器的页面请求信息。W3C组织规定了服务器日志的两种格式:通用日志格式(Common Log Format)和扩展型日志格式(Extended Log Format)。本文实验分析数据采用了Extended Log Format日志格式,所分析日志存放路径为“WINDOWSsystem32LogfilesW3SVC1”,当中一笔记录的内容如下:

记录中的每项含义见表一。

用户访问服务器的信息按上述记录格式依时间顺序存放在文本文件中。可以将日志文件的内容导入关系数据库表中,表中各记录按时间升序排放,为数据预处理做好准备。

2 Web日志挖掘的一般流程

Web日志挖掘过程大体可分为数据预处理、模式发现和模式分析3个阶段,其过程如图一所示。

2.1 数据预处理

数据预处理就是要根据挖掘目的,对原始Web日志文件中的数据进行提取、分解、合并,最后转化为适合进行数据挖掘的数据格式,形成用户会话文件。这个环节是整个过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着非常重要的作用。这一过程主要包括数据净化、用户识别、会话识别、页面过滤、路径补充等步骤。

(1)数据净化

数据净化的主要任务是根据不同的应用需求来清除原始数据中不相关的数据项。例如:不代表用户兴趣的自动下载并记录在日志文件中与访问页面有关的图片、音频等信息,可通过识别日志文件中的请求页面URI(cs-uri)项的后缀名的方式来进行记录的清除。常用方式可通过配置一个删除列表,凡是后缀名在删除列表中的日志记录都进行清除,以及协议状态(sc-status)为404、301、500的传输错误的记录也应删除,经净化后的记录按时间升序排放。

本文实验分析已导入关系数据库中的原有日志如图二,运用删除列表如图三,经数据净化后只保留下date、time、c-ip、cs-uri-stem、cs(cookie)和cs(Referer)等对挖掘算法起作用的属性列,如图四所示。当然,若分析的是一个主要包含图形文档的站点,则不能将图形文件删除。

(2)用户识别

用户识别的主要工作是从经过数据净化的数据中识别出每一个用户。由于本地缓存、代理服务器和防火墙的存在,使得有效识别用户的任务变得十分复杂。技术上常采用如下两类方式:第一类,参考客户端Cookies[1]编写特定程序传送到客户端进行用户识别。此方法涉及隐私,容易引起用户的拒绝访问。第二类,参考网络拓扑结构进行用户识别。鉴于网站链接结构复杂,在进行用户识别时比较费时。本文实验分析使用了基于引用的方法完成用户识别[2],经用户识别后的记录,按用户ID与访问时间升序排放。识别规则可描述如下:

*如果IP地址不同则视为不同的用户;

*如果IP地址相同,但用户代理(cs(User-Agent))不同,则视为不同的用户;

*如果IP地址与用户代理都相同,那么根据引用信息(cs(Referer))进行进一步判断。检查记录的cs(Referer)字段属性,若cs(Referer)中记录的URI(cs-uri)没有被访问过,则认为该记录为一个新的用户。

(3)会话识别

会话识别的主要任务是将同一用户的访问记录分为单个会话。会话是用户对网站一次连续有效的访问,同一用户相邻两次访问的时间间隔比较大时,可认为同一用户分别开启过两次不同的会话。

完成用户识别的信息之后,本文实验分析根据如下规则进行会话识别,经会话识别后的记录,按会话ID、访问时间升序排放。描述如下:

*用户访问的是网站的主页,则认为是一个新的会话;

*用户当前所访问页面的引用页cs(Referer)为网站主页,而访问的上一个页面又不是网站主页,则认为这是一个新的会话;

*如果cs(Referer)为空,且该记录与上一条记录的访问时间间隔(10s[3])较大,也认为这是一个新的会话。

最后,采用基于页面访问时间的启发式方法对用户会话进行修正,得到用户会话集合。J.Pitkow的实验证明,比较合理的时间阈值应该是25.5 min。

(4)页面过滤

针对Web站点中的Frame页面,Frame页面与其Subframe页面总是一起出现在用户会话中,而Frame页面和Subframe页面的关系是已知的事实,因此需要进行页面过滤,尽量消除Frame页面对数据频繁访问页组的影响。

(5)路径补充

由于本地缓存的存在,用户可通过回退按钮访问前一页面,这些访问信息不会在访问日志中保存,从而导致日志中记录的用户路径信息不完整,这就是路径补充要做的工作。可以根据用户的引用信息进行路径补充,通过这种方法将遗漏的页面请求添加到用户的会话文件中。

2.2 模式发现

模式发现是使用各种数据挖掘算法发掘隐藏在数据背后的规律和模式。可以使用统计、数据挖掘、机器学习和模式识别等各学科领域中已开发的方法和算法,结合Web日志数据的特性进行Web日志挖掘。常用的技术手段有统计分析、关联规则、序列模式、分类和聚类等。本文进行实验分析时将主要采用序列模式,序列模式识别可用来寻找用户会话中在时间上有先后关系的页面请求,可以用来预测用户即将可能请求的页面,这样就可以针对特定的用户组放置不同的内容,实现站点结构的优化。

2.3 模式分析

模式分析是Web日志挖掘中最后一项重要步骤。通过选择和观察,把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。

3 Web日志挖掘的应用

Web日志挖掘在电子商务、网络教育等诸多领域都有实际应用。从功能上可以归纳为以下几个方面:

(1)系统改进:对Web系统的特性数据进行分析,得出结论以供Web系统性能改进。如:可以提供IP地址流、访问量、访问页组的分析。

(2)改善站点的设计结构:对所有用户的浏览路径进行挖掘,发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接,以改善站点的设计结构。

(3)商业智能:通过对用户行为和购买货物等关系的挖掘,发现其中的用户群购买特征和购买趋势等来进行商业智能,支持商业决策。

(4)提供个性化服务:发现用户访问Web页面的模式,从中提炼出用户对页面的感兴趣程度,针对特定的用户组放置不同的内容,向每位用户提供符合其兴趣要求的个性化界面。

4 结束语

Web日志挖掘是Web挖掘领域中一个重要的研究方向,它对于发现用户浏览网站的行为规律,改善页面之间的超链接结构,提高整个Web系统的性能等方面都有十分重要的意义。本文分析了Web日志的格式,对Web日志挖掘过程中数据预处理的方式方法进行了深入的阐述。序列模式识别将是下一步实验要进一步研究的方向。

参考文献

[1]Rutkowska J.Red Pill...or How to Detect VMM Using(Almost)One CPU Instruction[EB/OL].(2005-08-10).http://in-visiblethings.org/papers/redpill.html.

[2]李燕.Web日志挖掘中的数据预处理技术[J].计算机工程,2009,11.

[3]Rosenbium M,Garfinkel T.Virtual Machine Monitors:Current Technology and Future Trends[J].IEEE Computer Magazine,2005,38(5):39-47.

日志挖掘技术及应用 篇4

中小学教师信息技术应用能力提升工程培训研修日志

从2019年12月,我有幸参加了江西省中小学教师信息技术应用能力提升工程培训现将培训感受浅谈如下:

通过这次培训,使我对今后的教育教学方法产生极大影响,感受到教学工作的艰巨。同时对我各方面的能力有了很大提高,特别是对信息技术的综合运用能力,现在已不只停留在课件的制作上了。让我在培训中深深的体会到:

通过集中的理论学习,更新了教育教学观念,了解了先进的教育理论,现代教育观、学生观和学习观,在教学活动中遵循教育规律、调整自身的角色定位和教学方式,把素质教育贯彻到学科教学过程中。主要有以下收获:

1、掌握了教育技术的基本概念,理解其意义和作用。

2、懂得了媒体的特点,了解各类媒体对教与学的支持作用。

3、学会了运用技术进行教学形成性评价、总结性评价。

4、编写了学习笔记,准备上传到网校与学友和同事们共享学习成果。

5、掌握了分析演示型教学媒体特点的方法,提高了在实际教学中的应用能力。

6、学会了运用文字编辑软件编制常用教学文档,运用网络工具搜集教学资源,运用多媒体工具如电子白板的使用、微课的设计与制作、技术支持的课堂导入、技术支持的课堂讲授、格式化工厂等对文本、图片、声音、动画等资源进行简单的加工处理,学会了交互多媒体环境下的初中数学教学、简易多媒体环境下的初中数学教学、运用简单的课件制作工具或电子白板工具整合教学资源。

7、学会了使用常用的形成性评价、总结性评价的量规和方法设计课堂教学评价活动。

8、消除了教学中应用信息技术的畏惧心理,形成了对教育技术促进教学的认同。

9、形成了将教学技术与教学实践紧密联系的积极性和主动性。

10、了解了技术对社会、对学生发展的重要影响,树立了在教学中运用技术的紧迫感和使命感。

今后,我将积极开展学科教学活动,探讨新的教育理论,新的教学模式努力形成自己独特的教学风格和特色,以适应当今教育形势需要。“平时不学习,用时徒伤悲”我们要记住:学习,学习,再学习!还要记住:刀不磨要生锈,人不学要落后!为以后更好的搞好教学打下了基础。并且希望以后能多组织这样的培训。

江西省上饶市玉山县双明中学

日志挖掘技术及应用 篇5

关键词:Web日志挖掘,网站优化

1 We b日志挖掘技术及应用分析

Internet是信息社会的重要标志, 它的爆炸式的发展已经超出人们预期的想象, 为了更好的分析Web的使用和Web的结构, Web日志挖掘作为数据挖掘[1]的一个重要分支, 随着Web的发展而出现。1997年R.Cooley首先提出Web使用 (日志) 挖掘这个概念, 它通过挖掘Web站点的访问日志, 分析Web日志中存在的规律, 掌握用户访问站点的模式;从而帮助网站管理者识别潜在的客户、更好地开展电子商务、改善Internet的信息服务质量和提高Web服务器的系统性能。

Web日志挖掘[2]作为数据挖掘的一个重要分支, 已经成为国际上一个新兴的重要研究领域。其中最有代表性的是WEBKDD会议, 从1999年到现在, WEBKDD已经涌现了丰硕的成果。比较有代表性的研究成果有:Simon Fraser大学的Weblog Miner系统, 它将Web日志数据组织为数据立方体, 然后在其上进行联机分析处理和数据挖掘[3], 用于发现用户的访问模式。Minnesota大学的WEBMINER系统提出一种通用的Web日志挖掘的体系结构, 该系统能自动从Web日志中发现关联规则和序列模式等。

Web日志挖掘的研究主要应用于网站优化的以下几个领域。

1.1 频繁访问模式挖掘, 指的是从Web日志中找到频繁被访问的网页序列, 对被频繁访问的网页路径进行挖掘可以改进Web站点的结构设计, 也可以为网站经营者提供决策参考。

1.2 用户聚类, 指的是从Web日志中找到访问模式相似的网站用户群, 发现这些网站用户的共同特点。

1.3 用户访问预测的研究, 指的是根据用户当前的访问路径预测用户将来的访问页面。

1.4 优化客户访问体验和提高网站收益:通过对客户的访问模式进行挖掘, 可以发现潜在客户, 对于一个电子商务网站来说, 尽可能从众多的访问者中发现潜在客户群体, 就意味着交易可能性的大大增加;同时通过Web日志数据挖掘, 增加网站对客户的粘性, 延长客户在自己网站上的驻留时间, 就更容易掌握客户的浏览行为, 改进站点的设计, 提高电子商务的效益。

要在网站优化中具体应用Web日志挖掘技术, 有两个重点问题要解决, 一个是建立Web日志挖掘应用系统模型, 一个是采用适当的算法对海量数据进行精确分析。本文将对这两方面的问题做一个阐述。

2 面向电子商务的We b日志挖掘应用系统模型

面向电子商务的Web日志挖掘系统模型主要有三个部分:数据库、数据挖掘集成工具和图形用户界面 (GUI) 模块。整个系统的结构如图1所示。

在该模型下, 用相关的关系型数据源创建数据库, 并通过图形用户界面进行管理和维护, 在此基础之上支持各种数据挖掘任务、为数据挖掘提供数据平台。数据挖掘集成工具是一个挖掘驱动引擎, 它是一个规则集合, 能够集成多种数据挖掘算法, 到Web数据挖掘算法库中选择最有效的挖掘算法处理数据挖掘和决策推理工作, 完整的挖掘数据预处理过程包含:数据净化、用户识别、会话识别、路径补充、事务识别等几个步骤。图形用户界面 (GUI) 用于用户与系统的交互, 用户通过GUI建立和执行任务, 完成各项数据挖掘任务, 一般执行数据挖掘任务得到的结果往往是一些抽象的模型或者数据, 一般用户较难理解, GUI可以帮助用户直观明了地理解挖掘结果, 管理人员可以通过浏览器方式实现系统管理, 对数据挖掘发现的模式进行解释和评价, 过滤出有用的知识, 利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示。

在该模型下进一步拓展, 可以建立相关的专家方法驱动系统。其主要功能是利用挖掘出来的高价值信息去进行相应的应用。其中, 页面访问情况可以用来指导网页的重构, 分析出的客户消费行为模式可以作为反馈信息, 以客户关系管理的方式对客户进行直接的点到点促销;根据客户的访问模式, 还可以给出客户的定制化页面, 针对不同的消费需求制定不同的促销模式等。

3 应用于电子商务网站优化的频繁路径挖掘算法

对Web站点的优化可从两个方面来考虑:一是通过对Web日志的挖掘, 发现用户访问页面的相关性, 从而在密切联系的页面之间增加链接, 方便用户使用;二是通过对Web日志的挖掘, 发现用户的期望位置, 如果在期望位置的访问频率高于实际位置的访问频率, 可考虑在期望位置和实际位置之间建立导航链接, 从而实现对Web站点的优化。无论是出于哪方面的, 都要通过Web日志挖掘, 分析用户访问路径来获取用户的浏览模式, 这部分工作主要依靠频繁路径的挖掘来完成。可以说, 对网站频繁路径的挖掘是网站优化工作的基础。本文重点对网站频繁路径的挖掘算法做一分析。

挖掘频繁访问路径的主要步骤可以概括如下:

3.1 从原始日志文件中获得MFP

3.2 从MFP中获得频繁引用序列

3.3 从所有频繁引用序列中获得最大引用序列

其中MFP指的是最大前向路径。由于用户会话在遍历路径时存在两个移动方向, 一个是前进, 即请求页面是此前用户会话中从未访问过的页面, 另一个是后退, 即请求页面是用户会话中已经访问过的页面。最大前向路径是用户在会话的第一页到回退的前一页组成的路径。

我们首先要获得MFP, 获得MFP算法的主要思想是:

假设{x1, x2, …, xm}表示一个用户会话, {y1, y2, …, yj-1}表示一个潜在的MFP, 初始为空。Flag标识当前的访问方向是前进还是后退。每次检查用户会话中的xi, 试图将其扩充到潜在MFP中。

(1) 若则xi将作为yj加入潜在MFP中, 并且将flag标记为前进;

(2) 否则有xi=yk, 其中1≤k

若在此之前, Flag表明的移动方向是前进。则将{y1, y2, …, yj-1}作为一个MFP加入到结果集合。然后从潜在MFP中删除页面{yk+1, …, yj-1}。并设Flag为向后移动标志, 进入下一轮循环。

若Flag表明的移动方向是后退时, 则此时的{y1, y2, …, yj-1}不是MFP, 直接删除页面{yk+1, …, yj-1}, 进入下一轮循环。

3) 如果循环到用户会话中的最后一页, Flag标志仍表明向前, 则此时{y1, y2, …, yj-1}是一个MFP。

MFP算法的伪代码如下:

接下来我们需要从MFP中找出所有频繁遍历路径, 本文提供一种基于Apriori算法的改进方案, 具体描述如下:

其中:D表示事务数据库;min_sup表示给定的最小支持度;result表示所有的频繁引用集;c.count表示引用c在事务数据库D中被包含的次数。第一行#1是产生所有只含一个页面的引用出现的次数, 第二行#2通过C1和最小支持度min_sup产生频繁1引用集L1。#3-#13行通过一个大的循环完成频繁引用的生成, 直到某个频繁引用集合为空。

该算法非常有效而且快速, 整个过程只要遍历两次数据库。通过实际网站优化的案例来看, 其分析的聚类结果是比较符合客观事实的。

4 结束语

通过Web数据挖掘, 我们可以从数以亿计的存储大量多种多样信息的Web页面中提取出我们需要的有用的知识, 在对总的用户访问行为、频度、内容等的分析基础上, 可以得到关于群体用户访问行为和方式的普遍知识, 通过对这些用户特征的理解和分析, 可以有助于开展有针对性的电子商务活动, 给每个用户个性化的界面, 提供个性化的电子商务服务。

本文提出了一种有效算法, 该算法通过改进经典的关联规则中的Apriori算法, 实现了最大频繁引用序列的挖掘过程。在挖掘最大频繁引用序列的基础上进行电子商务网站优化, 不仅可以提高访问者的查询速度, 节省了不必要的网络开销, 而且对于提高网站自身的质量和声誉也是大有裨益的。

参考文献

[1]J.Han and M.Kamber, Data Mining:concepts and techniques, 2006.

[2]韩家炜, 孟小峰, 李盛思.WEB挖掘研究.计算机研究与发展, 2001, 38 (4) :405-414.

日志挖掘技术及应用 篇6

关键词:电子商务,数据挖掘,web日志

1 电子商务及电子商务网站

电子商务就是在网上开展的商务活动, 它作为一种新兴的经济形式随着网络的普及而得以迅速发展。电子商务网站则是电子商务进行网上交易活动的重要载体, 电子商务网站按交易模式可以分为B2C, B2B, C2C及B2G等几种类别, 而无论哪种类别的电子商务网站, 在网上运营过程中都会形成大量的web日志信息, 而对这些web日志信息进行数据挖掘, 将对商家运营好电子商务网站起着非常重要的作用。

2 数据挖掘及web日志挖掘

2.1 数据挖掘

数据挖掘指的是分析数据, 使用自动化或半自动化的工具来挖掘那些有用的、先前未知的或隐含的模式。数据挖掘模式主要运用的技术包括统计分析、关联规则、聚类、分类、序列模式等。通过运用这些数据挖掘手段, 能对很多行业的应用取得了非常好的分析效果, 这些行业主要包括电信业、金融业、生物医学、电子商务等, 而本课题就是基于电子商务行业中一个具体的方面进行研究, 这里指的是电子商务领域中的基于web日志数据挖掘进行研究。

2.2 web日志挖掘

Web日志挖掘指的是利用数据挖掘技术, 通过对系统web日志信息的提取, 发现web用户的行为模式。Web日志挖掘可以分为两种挖掘模式:共性模式挖掘和个性模式挖掘。共性模式挖掘指的是通过挖掘web日志用户信息获取用户群体的共同特征, 根据这些共同特征去对站点进行优化, 这其中包括对站点结构、功能及风格等各个方面进行合理的改进。个性模式挖掘指的是挖掘web日志的用户信息获取特定用户与特定区域、特定日期及特定页面等要素之间的关联, 以此来确定单个用户的访问特征, 为此定制个性化服务。Web日志挖掘工作流程共分为数据收集、数据清理与转换、模型构建及模式评估四个步骤, 具体如图1。

2.2.1 数据收集

这是数据挖掘的第一步, 这步是把收集而来的相关的数据放到一个数据库或数据集市中, 本文指的是web日志数据库。它即涵盖了一个站点、一个用户的访问模式, 也涵盖了多个用户、多个站点的用户访问模式。例如:从客户端获取一个用户的客户端日志, 而从服务器端获取多用户的服务器级日志, 或从代理服务器获取多用户、多站点的代理服务器日志等Log信息。

2.2.2 数据的清理与转换

数据清理的目的是去除数据中的“噪声”, 具体包括去除数据的冗余性、模糊性、不完整性及不一致性, 从而使源数据的数据类型与值转换为统一的格式。数据清理与转换的优劣将直接影响挖掘算法的产生结果对挖掘质量将会起到十分重要的作用。在web日志挖掘中, 数据清理与转换的任务是对用户访问的日志进行数据清理、用户识别、会话识别、路径补偿等, 最终形成用户会话文件。

2.2.3 模型构建

模型构建是数据挖掘技术的核心, 这一阶段我们要理解数据挖掘项目的目标及运用的数据挖掘模式, 然后根据不同的数据挖掘模式选择不同的算法。在对web日志信息的挖掘中, 由于面对的数据源对象和一般关系数据库不同, 因此挖掘中要考虑web的数据类型和特征, 这里运用的主要挖掘技术包括:统计分析、关联规则、聚类、分类及序列模式等。例如通过对web日志信息的分析, 对用户浏览页面的相似性行为进行分类与聚类, 分析出每类用户的共性。用户的分类与聚类有助于让网站拥有者或商家更好的了解用户的兴趣爱好, 从而动态的调整网站页面内容, 提供给用户更加优质的服务。再如通过对web日志信息的分析, 采用web日志的关联规则进行挖掘, 可以对站点内容进行重新组织, 动态的建立存在关联性物品之间的超链接, 或者直接把相关的物品放在同一页面, 使用户更容易的访问到自己想要购买的物品, 可以大大提高销售效果。

2.3 模式评估

模式评估就是对通过数据挖掘得出的所有模式就行分析、评价、解释, 保留那些有价值或有趣的模式, 并将其以直观理解的方式表示。如通过评估工具, 使用模型预测得到数据的值与概率, 以图表的方式显示评估结果。

3 web日志数据挖掘技术在电子商务网站中的应用研究

3.1 电子商务网站中进行web日志数据挖掘的缘由

3.1.1 电子商务网站运营中, 形成了海量的web日志信息

众所周知, 即使是一个小型的电子商务网站, 也会形成了数量惊人的web日志信息。比如, 某小型电子商务网站一个小时仅仅卖出一件物品, 那它一个月会有多少页面访问量呢?我们可以进行下面的计算:1件×24小时×30天/2% (转化率, 访问人数中购买物品人数所占的比率) ×9个页面 (据研究, 购买一件物品平均需要访问9个页面) =324000页面。由此可见, 即便一个小型的电子商务站点, 也能为数据挖掘提供海量的web日志信息, 为在电子商务中运用数据挖掘提供了最重要的条件。

3.1.2 数据干净, 研究成果容易转换

web日志信息直接从网站服务器中提取, 无需人为输入, 避免了人工输入的错误。而且在电子商务网站中, 数据挖掘的成果可以直接应用, 改变网站的布局及进行个性化设计等。

3.2 web日志记录的内容分析

web日志记录共包含7个字段, 下面我们通过一个典型的web日志记录对其进行说明。

例如一个典型的web日志记录如下:

具体分析如下:

字段一, 记录远程的主机地址或IP, 即标明浏览者的身份, 上例标识为“151.99.190.27”。

字段二, 记录浏览者的Email地址或其它唯一标识, Email地址一般显示为空, 上例标识为“-”。

字段三, 记录浏览者进行身份验证时提供的名字, 无需验证时显示为空, 上例标识也为“-”。

字段四, 记录请求的时间, 上例标识为“[01/Jan/2011:13:07:21-0600]”。

字段五, 记录服务器收到的是什么样的请求, 这是web日志信息中最有用的部分, 它的典型格式是“METHOD RESOURCE PROTOCOL”。METGHOD指的是GET;RESOURCE指的是浏览者向服务器请求的文档即URL;PROTOCOL通常指的是HTTP, 后面加版本号, 上例标识为“GET/~bacuslab/celsheet.html HTTP/1.0”。

字段六, 记录状态代码, 通常的值是200, 标明服务器成功响应浏览器请求, 一切正常。

字段七, 记录发送给客户端的总字节数, 上例标识为“12027”。

根据以上分析, 我们至少可以从web日志信息中知道五个字段的内容, 主机地址、访问时间、服务器收到的请求信息、记录状态及总字节数。而web日志中海量的记录信息, 就是由具备上述7个字段信息的一条条记录组成, 而我们要进行数据挖掘的电子商务网站的web日志信息, 一般也正是具备上述特点的一条条记录信息, 下面我们将具体对此进行研究。

3.3 电子商务网站中进行web日志数据挖掘技术中的应用

数据挖掘的方法就是利用各种数据挖掘的技术发掘隐藏在数据背后的规律及模式。这些数据挖掘技术包括统计分析、数据挖掘、机械学习和模式识别等各个领域已经开发的方法及其算法。在对电子商务网站web日志分析中, 对用户行为模式应用的挖掘方法包括:关联规则、分类和聚类、序列模式及统计模式。

3.3.1 关联规则

关联规则是通过分析页面之间的相互依赖关系而归纳出的一种规则。在电子商务网站中, 如果客户访问了Page1, 通过分析发现, 访问Page1的同时会有很大的概率访问Page2, 那这样就可以说明Page1与Page2之间存在关联规则。通过关联规则, 我们就可以知道一个特定的产品与另一个特定的产品被同时购买的可能性有多大。

关联规则算法主要目的是挖掘频繁项集, 最常用的算法是Microsoft关联规则算法, 它属于priori算法家族。在关联规则算法中共分为两个步骤:其一是挖掘频繁项集;其二是基于频繁项集生成关联规则。如图2所示的关联规则的两步算法。

由图2我们可以得到频繁项集 (支持度的集合) 分别为{beer、diaper}, {cake、Pepsi、milk}, {milk、bread}, 通过查找我们可以确定这些频繁项集中产品页面之间的相关性规则, 然后通过关联规则在电子商务中进行策划商品促销及根据这类信息重构电子商务的页面布局或组织结构等。

3.3.2 分类与聚类

分类是将一个对象分到事先定义好的类中, 在web日志挖掘中, 分类是抽取并选择最能描述这类特定用户的特征, 并为这一类特定用户建立用户简档, 常用的算法有判定归纳树、贝叶斯算法等。在电子商务网站中, 比如在具有下面图三页面结构的网站中根据web日志信息中代理 (浏览器与操作系统不同) 及浏览页面的不同, 我们就可以得到不同用户的访问模式。假如我们得到某类用户的访问路径为A-B-F-0-G-A-D, 另外一类用户的访问路径为A-B-C-J, 此外还有一类的访问路径为L-R。那么我们就可以根据用户对某类商品的页面的访问情况, 确定某类用户的购物情况, 然后对电子商务网站进行适当的改进或做出出售商品的促销及广告策略, 以更好的满足用户的访问需求, 促进电子商务网站的运营及销售 (见图3) 。

聚类是将对象的集合中具有相似特征的对象聚在一起, 形成一个簇, 常用的聚类算法有:划分方法、层次方法及基于密度的算法等。在web日志挖掘中, 有两类聚类:用户聚类和页面聚类。用户聚类可以把相似浏览模式的用户聚成一簇。用户聚类在电子商务市场决策中以及为用户提供个性化服务方面有重要意义, 比如可以动态定制用户的观看的内容及浏览建议。页面聚类是把内容相关的网页归在一个网页组中的, 对提供上网帮助和搜索引擎很有帮助。

3.3.3 序列模式

在时间戳有序的事务集中, 序列模式主要是用于发现页面依据时间顺序出现的内在模式。发现序列模式, 能够预测用户的将来访问模式, 有助于开展有针对性的广告服务或针对特别用户群安排特定内容。

3.3.4 统计分析

统计分析是通过对web日志文件的分析, 经过求出现率, 平均值及中值等, 统计最常访问的页面, 计算页面平均访问时间, 浏览路径长度等, 以获得用户访问站点的基本信息。另外还可以计算客户对某页面的访问次数, 停留时间, 并由此得到访问次数最多的页面或被访问的产品信息。

结束语

本篇论文立足于web日志的数据挖掘技术的视角, 对电子商务网站的web日志信息运用关联分析、分类与聚类、序列模式及统计模式进行挖掘, 然后根据其挖掘的内容进行模型构建及评估, 然后根据结果对电子商务网站进行相关的优化, 以达到吸引客户, 促进销售等目的。

参考文献

[1]孙义, 方真.电子商务[M].北京:北京大学出版社, 2010.

[2]郑庆华, 刘均, 田锋, 孙霞.Web知识挖掘理论、方法与应用[M].1版[M].北京:科学出版社, 2010.

[3]ZhaoHuiTang, Jamie MacLennan.数据挖掘原理与应用[M].北京:清华大学出版社, 2007.

[4]周琳.Web数据挖掘技术在电子商务中的应用[J].计算机光盘软件与应用, 2010, 12:55-57.

Web日志挖掘中的技术改进 篇7

一般而言, Web日志挖掘由3个阶段构成:数据预处理, 模式识别和模式分析。数据预处理阶段的工作是对原始日志数据进行整理的过程, 只有经过整理后得到了好的数据源, 才能从中发现高质量的用户模式, 因此这个阶段的工作是整个日志挖掘工作的基础和关键。本文着重介绍日志挖掘过程中预处理阶段的工作流程, 并对其中最关键的会话整理步骤给出优化的、专门的处理方法和思路。

1 工作流程

按照数据预处理阶段需要处理的问题, 我们可以把预处理过程分为数据整理、会话整理、路径整理等步骤。

1.1 数据整理

任何形式的web日志数据中, 都有很多的干扰数据存在, 比如访问过程中出现错误, 系统直接导向到错误页面了的;用户请求的HTTP指令不是GET的;用户访问一个页面, 中间需要下载这个页面上的图片、flash动画、activex控件的;用户通过Ajax技术直接访问站点上的程序的等等, 这些情况下产生的访问日志不能反映出用户的访问路径, 对后期的日志分析反而会带来不必要的干扰, 所以这样的数据是应该被清理掉的。在分析出了这些问题之后, 将不需要的数据删除掉, 然后将有效的数据按照利于分析的格式进行整理, 附带上站点各个功能模块的从属标记、上下级关系等结构性的信息, 导入到数据库中, 数据整理工作就算完成了。

1.2 会话整理

会话的整理工作包括两个方面的内容, 第一是识别用户, 这个主要就是识别用户的来源, 简单说也就是识别用户的IP, 根据用户的IP基本可以大致判断出用户所在的省份、地区。然而由于网络技术的飞快发展, 网络设备也层出不穷, 代理服务器、防火墙等等都已经广泛应用起来了, 而这些设备给服务端在识别用户来源方面带来了不小的干扰和困难。所以在用户来源识别方面, 除了基于日志记录了的用户IP信息之外, 还需要收集其他的用户端信息综合加以整理, 如代理信息、用户访问路径信息等都可以作为整理用户来源的重要信息。例如如果同一个IP在一段时间内的代理信息不同, 那么可能是同一防火墙后面不同的用户;同一个IP在一段时间内访问的页面没有链接关系, 那也可能是内网中的不同用户等。由于网络情况、设备情况、用户行为的复杂性, 所以识别用户来源的工作不一定能完全准确, 但是我们可以尽量多利用几个唯度的信息综合进行判定, 以期取得相对准确的数据。

会话整理第二个方面的工作就是http session的区分和整理工作。http session标示了用户一次访问站点的过程, 也就是用户从进入站点到离开站点所进行的一系列活动。由于一个用户可能在不同的时间不止一次的访问站点, 所以session的整理区分和整理工作就是需要把每个用户的每次访问区分出来, 为后继划定用户每次访问的路径提供数据基础。

1.3 路径整理

由于用户可能通过浏览器的回退按钮或者通过直接敲入URL等方式访问站点中的任何页面, 所以就可能存在日志数据反映出来的用户访问路径不全的情况, 这就需要对日志中的访问路径数据进行补全。比如:如果日志数据显示用户当前请求的页面与用户上次请求的页面之间没有链接关系, 那么用户可能是通过浏览器回退按钮或者直接键入URL进行页面访问的, 就需要对页面的引用信息进行检查以判断本次请求来自哪一页。如果站点的多个页面都存在对当前请求页的连接关系, 那就取与当前请求时间最靠近的那个页面作为请求的来源页面;如果采取了这些措施还不足以判断路径的话, 就需要采用站点的页面链接拓扑关系进行判定了。

2 会话整理的方法和技术改进思路

上文描述了web日志数据处理的普遍的工作过程, 能够适用于大部分的web日志分析的场景, 然而也有不足之处, 如并没有给出一个进行web日志处理的一般性的、指导性的思路和方法;没有对站点访问中的特殊情况给出对应的处理思路。而在实际的日志数据预处理的工作中, 我们往往会面临各类复杂、困难的情况、各种特殊的问题, 这些问题会直接影响到预处理的数据结果。

鉴于这种现状和情况, 下文针对预处理阶段最重要的session整理工作提出了专门的处理方法和思路, 该方法尽可能对初步整理后的日志数据进行进一步的筛选和优化, 能切实地提高预处理操作的效率和处理结果的准确度, 该方法的步骤为:

(1) 取得日志数据、去掉其中关于图片、Activex、Flash等的下载请求。

(2) 对含有frame、Iframe的页面, 由于其涉及到多个请求的情况而进行特殊处理。

(3) 指定一个阈值, 两个请求之间的操作时间超过这个阈值的, 初判为一个会话, 否则为两个不同的会话, 按照这个原则初定出一个会话集。

(4) 最后通过站点页面之间的直接、间接连接关系, 对初步的会话集做出拆分或者合并重组等优化。

2.1 去掉对分析无用的资源请求信息

Web开发技术日新月异, 现在站点可以通过各种技术提供出优秀的用户界面, 然而这其中有些内容对于web日志分析是不利的, 比如activex控件的下载, 各类图片、动画文件的下载等, 这类请求只能导致标志一个界面的请求被分解为了若干个, 使得预处理工作效率降低, 所以在预处理初期就去除掉这些信息是有利于提高工作效率的。

2.2 框架界面采用只取主框架请求的策略

Web页面中有很多框架界面, 有的甚至框架套框架, 这种情况下, 一个主页面的请求反映到日志中也可能变成了对各个框架内页面的请求了, 这也就使得请求数据增多了。然而实际上对于一个主界面, 不论其中有多少个框架, 用户访问的都是以主界面为整体的页面, 所以只需要标记主页面的访问请求就可以了, 所以这个步骤里面, 就可以在数据中去掉框架页面中除了主框架之外的子框架请求信息 (当然, 这里所说的去掉子框架请求信息, 务必要确定子框架中的界面在整个站点中只作为子框架出现, 而没有作为单独页面出现过, 否则的话, 那就不能把对子框架所展示页面的请求全部去掉, 必须按照具体情况具体分析了) , 进一步提高预处理工作效率。

2.3 指定阈值, 划分会话集

从web服务器来看, 网站技术人员往往会根据自己的经验或者网站的实际运行情况设定一个session超时的时间设置, 用户如果是在设定的时间内没有在站点上进行任何操作, 就算是会话超时;这时候如果用户还需要再进行系统操作, 那就要重新发起会话了, 那么对于日志分析来说, 可以考虑以技术人员设定的超时值为阈值, 比如10分钟, 如果用户的连续请求在阈值范围内, 则划分为一个会话, 否则划分为两个会话 (很显然, 划定的时间越长, 为了整理出指定session需要遍历的日志记录范围越大, 设定时间越短, 就越有利于提高日志数据的整理效率, ) 。经过这样的阈值划分, 我们就可以整理出一个会话集。

2.4 会话拆分和重组

基于阈值整理出的会话集有可能存在的问题, 比如可能会将同一个会话的多个请求划分成为了不同的会话, 同时也有可能将不同会话的请求划分到了一个会话, 这就需要我们根据实际站点的页面拓扑情况来决定对会话集进行会话拆分、重组等操作了。如在基于阈值的会话整理过程中, 可能存在实际会话[q1, q2….qn]被划分为了[q1, q2…qi]和[qj….qn], 而qi和qj之间存在直接或间接的链接关系, 所以用户的会话在这个时候应该是连续的, 也就是说用户在边界会话qi和qj之间是没有离开站点的。这样的两个会话集实际操作中就可以重组为一个会话集了。会话拆分的过程也一样, 如果被整理到一个会话中的前后两个请求不存在直接或者间接的链接关系, 那么就应该可以把这个会话集划分开为多个会话集了。

2.5 会话重组的算法简述

(1) 输入初始的会话集数据。

(2) 依次读入每条记录。

(3) 对于相邻两个会话集中的首位连接处的两个请求, 如果是存在直接或者间接访问路径, 或者是符合用户以往访问习惯的, 就将这两个会话集合并为一个。

(4) 如果会话集中相邻两个请求之间不存在直接或者间接的链接关系, 那么将这个会话集以这相邻的两个请求为边界分解为两个会话集。

(5) 重复上述过程, 直到没有需要调整的会话集为止。

(6) 输出这个优化后的会话集。

3 结语

本文介绍了web日志数据挖掘中数据预处理阶段的普遍性方法, 并且针对其不足之处提出了预处理阶段会话整理这个最重要阶段的一般性处理方法和思路, 该方法和思路能大幅提高数据预处理的工作效率, 并且能显著提高结果数据的质量。

参考文献

[1]毛国君, 段立娟, 王实, 等.数据挖掘原理与算法[M].北京:清华大学出版社, 2005.

日志挖掘技术及应用 篇8

关键词:数据挖掘,序列模式,类Aprior算法,Web服务器日志

0 引言

随着互联网的迅速普及和广泛应用, Web给人们带来丰富的信息和极大的便利的同时, 也产生了一些亟待解决的问题, 个性化的信息服务和构建智能化Web站点便是其中之一。解决这个问题的有效途径就是将数据挖掘技术运用到Web服务器日志的挖掘中, 通过Web日志挖掘, 可以帮助站点管理者优化Web站点的组织结构, 发现用户浏览站点的共同行为, 对不同的客户群进行分类以提供个性化服务等。本文在介绍序列模式挖掘的经典算法—类Apriori算法的基础上, 将其做适当修改并应用到Web日志挖掘中。

1 Web日志序列模式挖掘

1.1 相关定义

序列模式挖掘, 是指从序列数据库中发现相对时间或者其它顺序所出现的高频率子序列[1]。在Web日志中, 序列模式挖掘主要是通过挖掘频繁遍历路径来实现的。频繁遍历路径是最大向前引用路径 (简称MFP) 中满足一定支持度的连续页面序列, 包含频繁遍历路径的MFP的数目叫频繁遍历路径的支持度。遍历路径的长度为其包含的页面数。

为了便于讨论, 先给出一些主要术语的定义:

定义1 生成的最大向前引用路径MFP称为事务, 用T表示, 也就是一个页面引用序列, 事务T中页面引用的个数称为该引用的长度, 一个有k个页面引用的事务称为一个k引用。

定义2 n-引用序列s1, s2, …, sn包含k-引用序列r1, r2, …, rk, 如果存在i, 使得1≤j

定义3 如果一个k-引用序列r1, r2, …, rk满足以下条件:

(包含r1, r2, …, rk序列的MFP数/所有的MFP数) *100%>Smin, 则称为频繁k-引用。其中Smin为预先定义好的最小支持度。

定义4 Lk是所有频繁k-引用的集合, Lk中每个成员都有两个项: 〈k-引用, 支持度s〉。

定义5 Ck是候选频繁k-引用的集合, 候选频繁k-引用也就是潜在的频繁k-引用, 该集合中每个成员也有两个项:〈k-引用, 支持度s〉。

定义6 最大引用序列 (也称频繁遍历路径) 是指不被任何其它频繁引用路径包含的频繁k-引用路径, 如L2={AB, BE, AD, CG, GH, BG}, L3={ABE, CGH}, 那么最大引用序列是{AD, BG, ABE, CGH}, AB等由于被ABE包含, 因此不是最大引用序列[2]。

1.2 序列模式挖掘算法

本文主要采用的序列模式挖掘算法是类Apriori算法, 它是根据求取最大项目集的Apriori算法改造而来。类Apriori算法具体描述如下[3]

C1={所有的页面引用};

L1={c∈C1|c.count≥minsup}

for (k=2;Lk-1≠〉; k++) do begin

Ck=gen-candidate (Lk-1) ;

for all transactions t∈D

Ct=countsup (Ck, t) ;

for all candidate c∈Ct

c.count=c.count+1;

next

Lk={c∈Ck|c.count≥minsup};

next

resultset=resultset∪Lk;

next

其中, D为事务数据库, minsup表示给定的最小支持度, resultset表示所有的频繁引用集。

这个算法的前两步是简单统计所有含一个页面的引用出现的频率, 来决定频繁1-引用集L1。在第k个循环, 分两个阶段, 首先用一函数gen-candidate, 通过第k-1个循环中生成的频繁 (k-1) -引用集Lk-1来生成候选k-引用集Ck;然后搜索数据库计算候选k-引用集Ck中每一个引用的支持度, 算法中由函数countsup来完成。

上面的算法和Apriori算法表面上几乎一模一样, 但是求候选引用集的函数gen-candidate不一样。在关联规则时, 只要两个k-1维最大项集有k-2各元素相同就可以合并成一个k维候选项; 但在挖掘频繁路径时, 引用中的页面是有序的, 因此不能简单地只要k-2个元素相同就行了, 需要做如下的修改:

Lk-1中任意两个不同的 (k-1) -引用中一个去掉第一个元素后完全相等, 则这两个 (k-1) -引用可以合并成一个k-引用。

这样通过Lk-1求Ck的过程可以用如下的SQL语句描述:

函数gen-candidate (Lk-1) :

insert into Ck

select p.item1, p.item2, …p.itemk-1, q.itemk-1

from Lk-1p, Lk-1q

where p.item1=q.item2, p.item2=q.item3, …, p.itemk-2=q.itemk-1;

在Apriori算法中, 函数gen-candidate在从Lk-1中求出所有的候选k-维项目集后还要精心修剪, 但是在挖掘频繁k-引用时, 这里用修剪是没有意义的。

Countsup函数的参数是候选引用集Ck和某一事务t, 结果返回这一事务t中包含的候选引用集。即countsup (Ck, t) ={c|c∈Ck∩c⊆t}。

1.3 挖掘的基本步骤

在Web日志中挖掘序列模式, 也就是挖掘频繁遍历路径, 其过程可以分为以下三个步骤:

(1) 产生最大向前引用路径MFP。把原始浏览路径序列转换成浏览子序列集合, 每个子序列表示从用户访问起始点开始的最大向前引用, 这一步骤删除了由于访问失败或者未找到所需信息造成的向后引用。

(2) 产生大引用序列。从上一步得到的最大向前引用中获得大引用序列, 即在全部浏览过程中出现次数超过给定阈值的序列。

(3) 确定最大引用序列 (频繁遍历路径) 。即不包含在其他任何最大引用序列中的大引用序列。一个最大引用序列也就对应于Web访问用户的一条频繁出现的浏览路径, 即实现了用户浏览路径挖掘的任务[4]。

2 序列模式在Web日志挖掘中的应用

2.1 数据预处理

数据预处理主要是对Web服务器日志进行数据清理[5]。Web日志的数据形式不同于传统数据挖掘的数据源, Web日志通常是文本文件, 而不是关系型数据库, 所以对于Web日志挖掘的数据源进行数据预处理的工作将更加复杂和重要。Web日志预处理过程如下。

2.1.1 数据净化

滤掉多余的记录, 合并相关数据并将不恰当的或冗余的数据项从数据集里清除。将Web服务器日志文件中记录的网页请求按照IP地址和访问时间排列, 并过滤掉对图形、图像、声音文件的访问, 这可以通过判断文件的扩展名来实现, 其中要注意status域的值是200才表明访问成功, 可以只取这个值的记录。

2.1.2 用户识别

要识别每一个用户, 这一任务由于本地缓存、代理服务器和防火墙的存在变得很复杂。一般最常被Web日志挖掘工具使用的技术就是基于日志/站点的方法, 其中有一些启发式规则可以帮助识别用户。①不同的IP地址代表着不同的用户;②当IP地址相同时, 我们默认不同的操作系统或浏览器代表不同的用户;③在IP地址相同, 用户使用的操作系统和浏览器也相同的情况下, 则我们根据网站的拓扑结构图对用户进行识别:如果用户请求的某个页面不能从已访问的任何页面到达, 则判断这是又一个新的用户。

2.1.3 会话识别

在跨越时间区段较大的Web服务器日志中, 用户有可能多次访问了该站点。会话识别的目的就是将用户的访问记录分为单个的会话。最简单的方法是利用超时, 如果两页间请求时间的差值超过一定的界限就认为用户开始了一个新的会话。

2.1.4 事务识别

用户会话对数据挖掘而言仍不够精确, 需要把会话进一步分解为具有一定语义的事务。事务识别就是对用户会话进行语义分组。当前常用的事务定义方法是最大前向引用路径法。该方法从开始页面为起点, 每个最大前向引用路径规定为一个事务[6]。

本文截取贵州警官职业学院网站Web服务器2007年6月5日至6月12日的访问日志具体应用以上提到的日志预处理技术, 得出事务数据库D (因为数据太多, 为了便于举例本文只列出了部分数据) , 如表1所示。共有10个事务, 假设这10个事务中访问的页面是{a, b, c, d, e, f, g, h, i}。

2.2 Web日志挖掘

数据预处理后, 我们就可以基于类Apriori算法, 以事务数据库D为例进行Web日志挖掘了。

2.2.1 产生最大向前引用

2.2.2 产生大引用序列

根据类Apriori算法, 产生大引用序列如下 (这里设最小支持度计数为2) 。

(1) 扫描D, 对每个候选计数, 并比较候选支持度计数与最小支持度计数, 得到L1, 如表2所示。

(2) 由L1产生候选2项集, 扫描D对每个候选计数, 并比较候选支持度计数与最小支持度计数, 产生L2, 如表3所示。

(3) 由L2产生候选3项集, 扫描D对每个候选计数, 并比较候选支持度计数与最小支持度计数, 产生L3, 如表4所示。

(4) 由L3产生候选4项集, 扫描D对每个候选计数, 并比较候选支持度计数与最小支持度计数, 产生L4, 只有一项a, c, e, i, 支持度为2。

最终产生的大引用序列为:{e→g}, {e→i}, {a→c}, {c→e}, {a→c→e}, {c→e→i}, {a→c→e→i}

2.2.3 确定最大引用序列 (频繁遍历路径)

把不包含在其他任何最大引用序列中的大引用序列找出来是:

频繁遍历路径1:a→c→e→i

频繁遍历路径2:e→g

2.2.4 结果分析

通过序列模式挖掘算法来发现Web日志的用户访问行为, 得到有意义的用户访问模式, 让Web管理员充分了解到用户对站点的交互情况, 并利用挖掘出来的频繁遍历路径和用户访问信息对站点的结构作出改进, 从而有利于设计个性化的信息服务和构建智能化Web站点。

3 结束语

通过对序列模式挖掘算法的研究, 以及Web日志挖掘相关知识的了解将序列模式挖掘算法与Web挖掘相结合。针对Web日志数据源对其进行净化处理, 得到满足模式发现的数据库。采用类Apriori算法对用户访问行为进行分析, 提取有兴趣的用户的访问模式, 为优化网站建设提供了可靠数据。

参考文献

[1]毛国君, 等.数据挖掘原理与算法[M].北京:清华大学出版社, 2005 (7) .

[2]张波, 巫莉莉, 周敏.基于Web使用挖掘的用户行为分析[J].计算机科学, 2006, 33 (8) :213-214.

[3]徐承胜, 陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统, 2004 (7) :1177-1184.

[4]王新, 马万青, 潘文林.基于Web日志的用户访问模式挖掘[J].计算机工程与应用, 2006 (21) :156-157.

[5]姚洪波, 杨炳儒.Web日志挖掘数据预处理过程技术研究[J].微计算机信息, 2006, 22 (6) :234-235.

上一篇:大学招生整合营销传播下一篇:风险投资中小企业融资