Web日志挖掘

2024-05-09

Web日志挖掘(精选8篇)

Web日志挖掘 篇1

一、Web日志挖掘技术

Web日志中的网络挖掘方法主要分为两大类:第一类是基于Web事务的方法和基于数据立方体 (Data Club) 的方法。

1、基于Web事务的方法

基于Web事务的方法即将数据挖掘技术应用于Web服务器日志, 以期望找到用户的非预期的访问浏览模式。此方法主要是识别在Web中用户对各个网页的浏览情况:如页面单位浏览内容中的浏览时间 (浏览时间) 、页面的平均浏览次数、及用户的各种页面浏览行为 (保存、删除网页、加入收藏夹、复制、打印等行为) 等等。并且在此基础上提出了最大向前引用序列 (MFR) 的概念, 用它将用户会话分割成一系列的事务, 然后采用关联规则和聚类分析等方法挖掘频繁浏览路径。

2、基于数据立方体 (Data Club) 的方法

基于数据立方体 (Data Club) 的方法, 通过Web日志建立数据立方体, 然后对数据立方体进行数据挖掘和联机事务处理 (OLAP) 。

二、web日志挖掘流程

1、数据预处理

由于在现实Web服务器上的数据信息很多都是有缺失的、含有噪声的, 不一致的以及在服务器上的数据表现格式也是多种多样, 未经过标准化处理的非结构化的数据。这就要求挖掘者在对Web日志信息进行数据挖掘之前必须对数据进行预处理。主要包括以下四个阶段:数据清理 (data cleaning) 、用户识别 (user recognition) 、会话识别 (session recognition) 、事务识别 (transaction recognition) 等。

(1) 数据清理

海量的Web日志数据中存在大量的噪声数据、不完整数据及不一致的数据等特点, 为了提高数据的质量, 进行高质量的数据挖掘就用到数据预处理数据清理, 它能够填写空缺的值, 平滑噪声数据, 识别、删除孤立点, 解决不一致性。从而改善Web服务器日志记录中数据的质量, 为挖掘算法得到更准确的输入数据。

(2) 用户识别

用户识别就是识别出对站点访问的用户, 用户识别是数据预处理过程中最困难和复杂的, 由于代理服务器、缓存及用户和企业局域网中防火墙的设置, 很难找到真正的用户IP。一般在用户识别过程中会遇到一系列问题:一个IP地址可能有多个用户访问同一个网站;一个用户通过多个IP地址访问同一个Web服务器;一个用户使用多种浏览器有可能是多个不同的操作系统访问同一个站点;多个用户由同一个代理服务器访问同一个Web服务器。

针对以上4类用户识别问题, 许多参考文献都给出了不同的识别规则, 来识别用户。主要识别规则包括: (1) 用户IP作为识别准则, IP地址不同, 不是同一个用户。IP地址相同, 在用户访问的操作系统和浏览器中只要有一个是相同的, 则是同一个用户。 (2) 通过网站的拓扑结构对用户日志进行分析, 找出可能的潜在的用户, 但很多情况下用户识别还是很困难的。综合这两类用户识别规则, 第一类按照IP地址来识别用户, 相同的IP地址为同一个访问用户, 不同的IP代表不同的访问用户。这样的IP对应规则把用户识别更加简化了, 随着现在计算机的普及, 这类方法对用户识别有很大的实用性。

(3) 会话识别

用户会话指的是在一段时间内访问用户对Web服务器一次有效的访问, 通过上一步的用户识别后可以找出访问用户的访问浏览序列。会话是指用户进入网站访问到离开网站这段时间内留下来的系一列数据痕迹。由于会话识别是分析用户访问一段时间以内的数据, 在此期间该用户可能已经多次访问了该网站, 这就要求通过会话识别将用户这段时间内访问的序列分为单个用户一次访问的序列, 并且把属于一个用户对应的同一次请求识别出来。目前算法也逐渐成熟:包括Hpage算法 (连续请求时差与时间阈值比较) 、Hvisi算法 (整个站点定义时间阈值上限比较) 、HRef算法 (参引页分析用户访问历史, 判断会话差异) 、MF最大向前参引算法 (用户不会再次访问先前访问的页面) 等。

(4) 事务识别

事务识别又叫片段识别, 是指将用户访问序列划分成为用户会话或Web事务的逻辑单元, 通过用户会话以后, 能够挖掘出具有自然事务特征的数据, 但是划分出的会话粒度比较大、模糊等, 就要进一步将会话划分成含语义的事务。从而找出有意义的访问路径。

目前常用有最大向前路径、引用长度以及时间窗口等识别方法。其中最大前向路径是应用到事务识别上比较普遍和成功的, 其主要内容是一个会话里不会出现已经访问过的页面, 向前就是一个事务, 向后说明向前引用终止, 意味着用户再次请求已经浏览过的页面, 去掉此次用户访问 (认为用户不会再次访问已经访问过的页面) 。

2、模式发现与分析

模式发现主要目的是通过数据挖掘技术 (关联规则、统计分析、序列模式、分类和聚类等方法) 来发现潜在数据背后的知识, 模式发现是Web日志数据挖掘的核心。目前比较流行的模式发现规格主要有:双联规则、cookie信息、统计分析等。

模式分析是Web日志挖掘继模式发现的最后步骤, 最终目的是将模式发现的结果转换为有用的价值模式, 通过可视化技术以通俗易懂的图形界面方式提供给Web使用者。

三、结束语

现在web挖掘技术在网络研究、数据挖掘、知识发现、软件代理等相关领域都是热点问题。研究web日志挖掘对于优化web站点、电子商务、远程教育、信息搜索等领域有着十分重大意义。如何将这些技术应用时我们急需解决的问题。

摘要:用户借助搜索引擎获取有用信息, 输出的结果集是一样的, 忽略了用户自身的知识领域背景和兴趣度趋向, 使用户陷入了信息冗余的迷航状态。而通过web日志中大量的用户记录信息, 进行数据挖掘可以识别出单一用户, 通过分析用户浏览的信息记录抽取用户特性, 推建出用户的兴趣背景。进一步解决不同用户的不同需求结果集, 实现个性化搜索, 提高客户满意度。

关键词:数据挖掘,web日志,数据预处理

参考文献

[1]Cooley R, Mobasher B, SriVastava J.Data Preparation for mining word wide web browsing patterns[J].Knowledge and Information System, 1999 (1) :5-32.

[2]张治斌, 姜亚南.基于Web日志的数据挖掘研究[J].电脑与信息技术, 2009 (12) .

[3]张海玉, 刘晓霞.一种挖掘用户浏览模式的新方法[J].计算机应用与软件, 2007 (2) .

Web数据挖掘研究 篇2

关键词:数据挖掘;Web;Web内容挖掘;Web结构挖掘;Web使用挖掘

中图分类号:TP302文献标识码:A文章编号:1009-3044(2007)18-31502-01

The Rearch of Web Data Mining

LI Xue-zhu1, WANG Feng2

(1.Computer Department Suzhou College, Suzhou 234000, China;2. Computer Department Automobile Manage College, Bengbu 233011, China)

Abstract:The rapid development of network resources has made the research of Web mining so increasingly important. This dissertation introduces the concept,process and classification of Web mining and also expounds detailedly the mining of Web content, structure and usage from the perspective of the object and method of Web mining.

Key words:data mining; Web content mining; Web structure mining; Web usage mining

1 引言

随着数据库与网络技术的飞速发展,尤其是自从internet产生以来,WWW资源迅速增长。为使用者提供了一个极其巨大的信息源,由于Web缩具有的开放性、动态性和异构性,又让使用者很难快捷准确地获得所需要的信息。为适应网络的快速发展及人们对知识的需求,以网络数据为挖掘对象的Web挖掘(Web Data Mining)就应运而生并快速成为目前信息技术中的研究热点。

IBM,NEC等机构对Web数据挖掘进行了大量的研究并取得了一定的成果;S.Charkrabarti对超文本数据挖掘进行了研究并指出基于知识的算法将会在Web数据挖掘中扮演重要的角色;B.Pinkerton对信息的收集和评价方法进行了讨论并引入了解雇挖掘来评价查询结果。Osmar R.Zaiane等还对Web多媒体数据挖掘进行了研究,并提出了一个多媒体数据挖掘的系统原型。Sbrin和L.page提出了Pagerank算法并将其应用到google。与国外相比,国内对Web数据挖掘的研究起步较晚。

2 Web数据挖掘概念

Oren Etioni在1996年首次提出Web数据挖掘这一概念,Web挖掘就是运用数据挖掘技术在Web文档与服务器中自动发现并提取有用信息。Web数据挖掘是一项综合技术,涉及很多领域,是数据库、信息检索、人工智能、机器学习、自然语言处理

等几个相关研究领域的集合。

3 Web数据挖掘的流程

与传统的数据挖掘相比,面向Web的数据挖掘要复杂的多。Web上的信息是异构的、动态的,并容易造成混淆。所以很难直接对Web网页上的数据进行操作,而必须经过必要的数据处理。典型的Web挖掘的流程如图1所示:

图1 Web挖掘的原理流程

2.1 资源查找

任务是从目标Web文档中得到数据。值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。

2.2 预处理

任务是从取得的Web资源中剔除无用信息和讲将信息进行必要的处理。

2.3 模式发现

自动进行模式发现。可以在同一个网站内部或在多个站点之间进行。

2.4 模式分析

验证解释上一步骤的模式,可以是机器自动完成,也可以是与分析人员进行交互完成。

Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获取IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。

3 Web数据挖掘的分类

Web数据有三种类型:Web文档(主要是HTML、XML格式的)、Web结构数据(如Web文档中的超级链接)、用户访问数据(如服务器上的Web LOG日志信息)。相应地,Web挖掘也分为三类:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用模式的挖掘(Web usage mining)。如图2所示:

图2 Web数据挖掘分类

以下就从挖掘对象、主要过程、方法等几个方面分别对这三种类型进行阐述。

3.1 Web内容挖掘

Web上的信息包罗万象,Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其它各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本挖掘,是Web挖掘中比较重要的技术领域。Web内容挖掘就是针对这些大量的文档的集合进行总结、分类、聚类与关联分析来获取信息。其中多媒体数据的挖掘在近年来收到研究人员的关注。Web文本挖掘的基本过程如图3所示。

图3 Web文本挖掘的基本过程

3.2 Web结构挖掘

Web结构不仅含有不同页面之间的超链接,还包括以HTML或XML表示的树形结构、文档URL的目录路径结构。Web结构挖掘通过分析一个网页链接和被链接数量、对象,建立Web自身的链接结构模式。这方面研究工作的代表有pageRank和CLEVER,它们正是利用了文档间的链接信息,查找相关的Web页。有关方面研究的算法有:page-rank、HITS(Hyperlink-Included Topic Search)以及改进的HITS(将内容信息加入到链接结构中)、Hub/authourity。这些方法可以用来改进搜索引擎。

3.3 Web使用挖掘

Web使用挖掘又叫Web日志挖掘,是指从Web访问日志中发现用户的访问模式。运用Web使用挖掘技术能够从服务器浏览器端的日志记录和用户的个人信息中自动发现隐藏数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。Web使用挖掘结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术。Web使用挖掘基本过程可以分为四个阶段:数据采集、预处理、模式发现、模式分析。基本流程如图4所示:

图4 Web使用挖掘的基本过程

4 结束语

随着Web的迅猛发展,Web资源越来越丰富。如何更好的利用这些资源已成为大家关注的热点。Web站点设计、电子商务等工作变得更复杂、繁杂。由于Web数据挖掘在我国起步较晚,许多与之相关的技术都有待更新、提高和发掘。随着研究的进步,Web数据挖掘会变得更加轻松方便。

参考文献:

[1]马保国,候存军,王文丰,钱方正. Web数据挖掘及应用[J]. 计算机与数字工程, 2006,34(6):20-22.

[2]将座东, 黄发良. 基于Web的数据挖掘研究综述[J]. 湖南工程学院学报, 2007,(3):61-64.

[3]王焱梁. Web数据挖掘技术应用[J]. http://www.cnki.net.

[4]顾晓燕. 关于Web挖掘技术的研究[J]. 电脑知识与技术, 2005,2:70-72.

[5]李琳, 吴成东, 韩中华, 胡静. 基于Web的数据挖掘技术[J]. 计算机应用, 2007,(2):74-77.

[6]朱德利. Web结构挖掘的XML实现策略[J]. 计算机工程与设计, 2006,(12):4447-4449.

Web日志频繁访问路径挖掘算法 篇3

从海量日志中挖掘用户浏览网页的访问路径, 常见的方法有参考长度法等, 这些算法认为用户的浏览频度就反映了用户的访问兴趣。进一步的改进包括基于支持度-偏爱度的频繁路径挖掘算法, 但挖掘出的频繁模式不一定是用户浏览路径的子路径, 此外有些方法不能产生Web事物中连续的频繁访问路径。有些方法利用访问路径树挖掘频繁扩展子路径, 只需扫描一次数据库, 但存在不能挖掘出连续可重复的频繁访问路径的缺陷。

综述所述, 面对海量的Web日志, 如何快速准确地挖掘出日志中隐含的频繁访问路径是各类算法追求的目标。本文在研究访问路径树性质的基础上, 给出了高效精确的算法。

2、相关概念

则称路径p为频繁访问路径。其中是预先定义好的最小支持度。

定义2:若路径p=的前缀子路径q=是路径r=的后缀子路径, 则定义路径r与p之积r×p=, 否则r×p为空。一般而言r×p不等于p×r。路径集合与路径集合之积为中每条路径与中每条路径之积的结果集。

3、算法描述

3.1 构建访问路径树

Web日志事务数据库如表1所示, 对该数据库的记录逐条处理, 生成访问路径树, 如图1所示。

Web访问路径树除root节点外, 其余各节点均代表页面及该页面出现的次数, 分别用page和num表示。由Web访问事务数据库构建Web访问路径树的算法如下:

算法1:构建Web访问路径树

Web访问路径树有个性质, 既各条从树根到叶子节点的路径上各点的num值是递减的, 这是因为合成Web访问路径树的时候前缀相同的记录共享这些前缀节点。

3.2 生成最长前缀频繁子路径树

研究图1可以发现, 若将所有的最长频繁子路径合成为一个树, 则该树是图1的子图, 并且该图是原图的上半部分。例如, 若|D|*N=3, 那么图1所示的Web访问路径树的所有最长频繁子路径合成的图如图2所示, 不妨将该图称谓最长前缀频繁子路径树。先序遍历Web访问路径树, 删除num值少于|D|*N的节点所表示的子树, 即可生成最长前缀频繁子路径树, 如算法2所示。

算法2:构建最长前缀频繁子路径树

输入:Web访问路径树TP

输出:最长频繁子路径树fre TP

3.3 产生频繁访问路径集

先考虑单支最长频繁前缀子路径产生频繁访问路径集的过程, 例如图3中的路径P2P1P3P1, 频繁访问路径集合frequent PS初始值为空, 当前访问节点为P2, frequent PS1和frequent PS2为中间结果, 初始值均为空, frequent PS1i=frequent PS2i-1∪frequent PS3i-1表示第i步的frequent PS1等于第i-1步的frequent PS2并上第i-1步的frequent PS3。当某步骤中frequent PS2为空时程序结束。产生频繁访问路径集如算法3所示。

算法3:产生频繁访问路径集

输入:最长前缀频繁子路径树fre TP

输出:频繁访问路径集frequent PS

Web日志挖掘的研究与分析 篇4

关键词:Web,日志挖掘,个性化服务

0 引言

Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。根据所挖掘的Web数据的类型,可以将Web数据挖掘分为以下三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用挖掘(Web Usage Mining)。其中Web使用挖掘主要使用的是Web日志文件,故Web使用挖掘又常常叫做Web日志挖掘。web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。所以对其研究具有很大的重要意义。

1 Web日志挖掘概述

Web日志挖掘是指采用数据挖掘的技术,通过对Web服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。

Web挖掘过程一般分为4个阶段,即数据预处理阶段、日志挖掘算法实施阶段、模式分析阶段和可视化阶段,其流程如图1所示。

数据预处理阶段主要完成将原始的日志文件经过过滤、筛选以及重组后,将之转变为适合挖掘的数据格式。日志挖掘算法实施阶段是对数据预处理的结果施用挖掘算法产生规则与模式。数据预处理和日志挖掘算法是Web日志挖掘中的关键技术,数据预处理的结果作为挖掘算法的输入直接影响日志挖掘算法产生的规则与模式。模式分析阶段分析挖掘得到的规则和模式,提取有意义的、感兴趣的规则与模式作为挖掘结果。而所谓可视化,就是将发现的有价值的用户浏览模式以表格、拼图、曲线图、趋势图、直方图或者其它特殊表现形式显示出来。

2 Web日志挖掘的步骤

2.1 数据预处理

数据预处理是Web日志挖掘的首要环节,其任务是将原始日志数据转换成适合数据挖掘和模式发现所必需的格式,预处理可以直接简化数据挖掘过程,使结果更具客观性。数据预处理包括数据净化、用户识别、会话识别、路径补充四个步骤。

2.1.1 数据净化

数据净化,即(数据清洗)是指将待处理的日志数据导入到关系数据库,删除Web日志数据中的错误值、缺失值等,同时把与Web数据挖掘无关的变量或数据进行清理,已达到简便运算的目的。

2.1.2 用户识别

用户识别,是从Web日志数据中找出每个用户的访问地址,避免挖掘的重复性。目前,由于本地缓存、代理服务器和防火墙的存在,为用户动态的分配IP地址,想要识别出每一个用户变得很复杂。可以通过以下3种方法来识别用户:

1)如果Web服务器提供Cookie,则具有相同Cookie值的页面请求是来自同一个用户;

2)如果Web服务器没有提供Cookie,但每个网站用户都要一个登录标识符(用户ID)方可访问站点,则利用登录标识符识别用户;

3)如果Web服务器既没有Cookie也没有用户ID,最常用的方法就是采用启发式规则。根据我们的日志格式采用两条启发式规则:(1)不同的IP地址代表不同的用户;(2)如果IP地址相同,但是操作系统类型或者浏览器软件不同我们认为是不同的用户。

2.1.3 会话识别

会话,是指同一个用户连续请求的页面。在跨越时间区段较大的Web服务器日志中,用户可能多次访问该站点。会话识别的目的是将用户的所有访问序列分成单个的访问序列。常用的算法有以下几种:

1)对用户在整个网站的停留时间设一个阈值T。如果两个相邻的浏览页面之间的访问时间超过T,则认为用户又开始了一个新的会话。一般T取30min。

2)对用户在一个页面停留时间设一个域值△t。如果2个连续请求的时间间隔没有超过这个值△t,则属于同一会话。否则,分属于两个会话。Δt一般取10min。

3)利用用户的访问历史和引用页来划分。如果一个用户的请求不能通过引用页的链接进入,则属于另一个会话。

4)最大向前引用算法(MF)。设一个用户会话里不会出现用户以前已经访问过的页面,如果用户在向前浏览到一个网。

2.1.4 路径补充

用户会话对数据挖掘来讲,显得粗糙,仍不够精确,需把会话进一步分成具有一定语意的事务,如同篮子数据中顾客一次购买的商品。可以把Web页简单地分为两类:内容页和导航页。在编程中采用的区分导航页和内容页的方法是时间点法,即设定一时间值,实际中时间点的取值为3 0秒。当用户对该网页访问的时间小于时间点为导航页,大于时间点则为内容页。用户对网页的访问时间为用户前后两次访问该网页的时间差,通过调用SQL语句可以查找到用户访问网页的时间,进而区分出导航页和内容页。

2.2 模式发现

模式发现,是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关联规则、路径分析等多种方法。

1)统计。统计方法是从Web站点中抽取知识的最常用方法,它通过分析会话文件,对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度,但仍可用于改进网站结构,增强系统安全性,提高网站访问的效率等。

2)分类。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。

3)聚类。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k-means、DBSCAN等。

4)关联规则。关联分析的目的是挖掘隐藏在数据间的相互关系,自动探测以前未发现的隐藏着的模式,关联分析经常被表达为规则的形式。目前采用的主要关联规则挖掘算法有Apriori、FP-growth算法等。

5)路径分析。路径分析可以用来确定网站上的频繁访问路径,从而调整和优化网站结构,使得用户访问所需网页更加简单快捷,还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。

2.3 模式分析

基于以上的所有过程,对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:查询、OLAP技术和可视化技术等。

下面我们进行一个示例分析,图2是示例网站连接关系图,表1是经过数据预处理后的用户访问事务数据库。

注:A,B,C,D,E,F分别表示页面

我们用Apriori算法的思想在上述用户访问事务库中寻找关联规则:设定最小支持度为0.8,结果得到的大项集是{{BC}:进而用Aprior-all算法思想在上述事务数据库中寻找序列模式,仍然设最小支持度为0.8,结果得到的序列模式关系为B,D。

关联规则模式{{BC}表示至少有80%的用户访问是在一次访问中访问了B和C,据此推断,可能页面B中包含了引导用户访问页面C的信息,这样的话就应该把这个信息移到更高层的页面A。另外根据这些关联规则特征,可以帮助Web服务器确定预传给用户的页面,从而提高服务器的访问效率。

序列模式关系B,D显示,有80%的用户访问了页面B之后在1.5个小时之内又访问了页面D。在一个电子商务网站里,B和D分别代表用户的在线订购,也就是说80%以上的用户在订购了物品B以后的1.5}}时内同时在线订购了物品D。

关联规则和序列模式挖掘的区别在于,关联规则更关注事务内的关系,而序列模式更关注事务之间的关系。关联规则和序列模式挖掘都是从用户访问留下的日志中寻找用户普遍访问的规律。分类技术,主要是根据用户群的特征,寻找用户群的访问特征,比如有80%以上的来自教育机构的用户对产品F感兴趣。

聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘,比如说有80%以上的在线购买物品E的用户是在深圳,月收入在5 000元以上。

3 Web日志研究的重要性分析

1)发现用户访问模式。通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进Web服务器系统的性能。Web日志记录数据库提供了有关Web动态的,基于URL、时间、IP地址和Web页面内容的丰富信息,对它们进行分析,有助于发现潜在客户、用户和市场,有助于聚类用户并将用户分门别类,以实现个性化的市场服务。

2)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端所属域、信息访问路径,统计敏感信息访问率等方法识别竞争对手,保护企业敏感性信息。

4 结束语

Web日志挖掘作为Web数据挖掘的崭新研究方向,近年来一定进展,但是随着Web的不断壮大,依然还有很多问题亟待解决,有待于我们进一步去研究和探索。

参考文献

[1]李国慧.Web数据挖掘研究[J].数据库与信息管理本, 2008.

[2]苏晶.web数据挖掘的技术研究[J].中国新技术新产品, 2008.

[3]叶苗群.web日志挖掘研究[J].宁波工程学院学报,2005(6).

[4]王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4).

基于Web日志的数据挖掘研究 篇5

1 数据挖掘

1.1 系统结构

数据挖掘是一门交叉性和理论性很强的学科, 是从数据源的海量数据信息里发现知识的系统工程, 整个系统主要包括用户界面、模式评估、数据挖掘引擎、 数据库服务器、操作过程、数据源等组成, 其系统结构如图1所示。

其中数据挖掘引擎是最核心的部件, 用来执行相关的数据挖掘算法 (分类、聚类、相关分析等)。

1.2 数据挖掘过程

随着数据挖掘的潜力日益被发掘, 对于数据挖掘的相关研究越来越多, 数据挖掘技术在各个行业领域中被得到广泛的应用。当前, 数据挖掘的算法种类比较多, 但基本原理仍是相似的, 其算法的流程基本上差不多。其具体的工作流程如图2所示。

如图2所示, 数据挖掘的主要流程是: 从逻辑数据库中提取数据, 首先对其进行选择处理, 提取出被选择的数据, 然后对其进行预处理操作, 将处理后的数据进行转换, 利用数据挖掘技术对其进行处理, 抽取出合适的信息, 对其进行分析, 形成被同化的知识, 存放入知识库中。

2 Web 日志挖掘

2.1 挖掘理论

Web日志的挖掘主要是指对Web数据库中的数据进行提取, 从而得出使用者感兴趣的知识。当前的网络体系结构中的Web日志一般都存放在Web服务器的数据库日志文件里, Web日志主要是指用户访问Web页面时所进行的一系列的操作, 因此, 对于Web日志进行挖掘有其自身独有的特点。

(1) 操作对象关联性比较强

对于大部分数据挖掘所操作的对象, 彼此之间并没有结构上的关联, 对Web日志进行挖掘处理, 其操作的数据彼此之间关系比较紧密, 而这些关联信息之间还存在新的信息以供挖掘。

(2) 日志包含决策信息

在某个特定的时间段内对Web服务进行访问, 代表了某个用户群的特征, 这是一个共性的问题, 可以直接作为决策知识集, 能够从中找出相关用户的行为, 并对其进行操作上的预测。

(3) 数据量大

随着互联网规模的扩大, 对于日志文件来说, 可以说每时每刻都有新的数据信息补充进来。仅仅Google公布的数据显示, 每天其数据的索引量就超过了几百亿, 对于整个万维网来说, 其数据量更是一个无法估计的数字。

2.2 Web 日志挖掘过程

对于Web日志的挖掘, 与数据挖掘的过程略有所不同, 其原理是一致的。将Web日志的挖掘分为3部分, 分别是数据预处理、模式发现及模式识别。

由于Web日志的数据比较多, 一般都会存放在服务器的Web日志文件之中 , 这样对于日志信息的提取有了一个明确目标。经过数据预处理、模式发现和识别之后, 要将结果进行汇总, 并将以用户能够清晰地认知的形式展现出来, 从而可以与实际相结合, 需要注意的是, Web日志挖掘的最核心过程由专门的站点进行控制, 这样保证运行的效率。Web日志挖掘的过程如图3所示。

2.2.1 数据预处理

对于Web日志进行数据挖掘操作之所以比较困难, 其最主要原因是对于每一个网站系统来说, 其日志文件的存放格式都是不同的, 没有一个固定的结构模式, 由于每个系统所关注的焦点不同, 其记录的信息内容也存在着较大的差别, 因此, 无法对Web日志文件进行直接的挖掘处理操作, 需要进行数据的预处理, 对日志文件进行加工转换, 采用标准化的结构模式。

另外对Web日志文件, 其内部的数据信息可能存在着大量的冗余, 还有许多不相关的记录存在, 对这些数据进行删除处理, 可以有效地减少数据在处理时的时间, 从而提高数据挖掘的效率。

2.2.2 模式发现

对数据进行预处理之后, 系统就会以某种数据挖掘算法进行模式发现, 从而让用户需要的数据显示出来。当前最流行的模式发现是对用户的浏览方式的发现。不同类型的浏览 方式会有不同的特征。对浏览特征的描述主要有有序性、连续性、 重复性和极大性。对于Web日志挖掘的模式发现采用的主要方法主要有关联规则、序列模式发现及路径分析法等。

2.2.3 模式识别

模式的识别概括起来主要有对Web日志模式改进从而提高访问效率、发现导航模式、对用记进行建模等。

3 Web 日志挖掘算法

数据挖掘算法的种类比较多, 在本文根据Web日志的特点, 采用ID3决策树算法对其进行操作。

3.1 ID3 决策树算法

当前, 决策树算法已经在很多领域得到应用, 自从ID3决策树算法产生以后, 其应用的范围得到了进一步的扩大。对于决策树来说, 它的结构是树形结构, 每个结点作为一个类充当树的一个叶子。

当前ID3决策树的主要优点是分类的精确度高、噪声小、模式简单。其目标是通过数据中包含的某种规则, 以决策树的形式进行查找, 从而实现知识的发现。该算法的过程首先是生成决策树, 其次修订决策树, 直至得出最优的结果为止。

ID3决策树算法结束的条件是: 对所包含的样本数据都一一进行操作、对样本的操作其属性都无法再进行划分、或者 子集中无样本。

3.2 ID3 算法实现

利用ID3决策树算法进行Web日志的分析处理, 是一个比较不错的选择。整个系统的实现相对比较庞大, 在此给出其核心代码。

4 结语

对Web日志的数据挖掘进行了详细的研究分析, 当前的互联网中包含了海量的Web日志数据信息, 从中提取有用的知识对于网络使用者来说是迫切的要求。利用数据挖掘技术对其进行了分析。

摘要:针对当前Web日志数据信息越来越多的问题,传统的数据库管理系统无法对其进行有效的操作分析。采用数据挖掘技术对其进行研究,从数据挖掘的系统结构和数据挖掘的过程两个方面对数据挖掘进行描述;对Web日志挖掘的理论和过程进行了详细的分析;给出ID3算法的描述,并给出了部分核心的代码。

Web日志挖掘中的技术改进 篇6

一般而言, Web日志挖掘由3个阶段构成:数据预处理, 模式识别和模式分析。数据预处理阶段的工作是对原始日志数据进行整理的过程, 只有经过整理后得到了好的数据源, 才能从中发现高质量的用户模式, 因此这个阶段的工作是整个日志挖掘工作的基础和关键。本文着重介绍日志挖掘过程中预处理阶段的工作流程, 并对其中最关键的会话整理步骤给出优化的、专门的处理方法和思路。

1 工作流程

按照数据预处理阶段需要处理的问题, 我们可以把预处理过程分为数据整理、会话整理、路径整理等步骤。

1.1 数据整理

任何形式的web日志数据中, 都有很多的干扰数据存在, 比如访问过程中出现错误, 系统直接导向到错误页面了的;用户请求的HTTP指令不是GET的;用户访问一个页面, 中间需要下载这个页面上的图片、flash动画、activex控件的;用户通过Ajax技术直接访问站点上的程序的等等, 这些情况下产生的访问日志不能反映出用户的访问路径, 对后期的日志分析反而会带来不必要的干扰, 所以这样的数据是应该被清理掉的。在分析出了这些问题之后, 将不需要的数据删除掉, 然后将有效的数据按照利于分析的格式进行整理, 附带上站点各个功能模块的从属标记、上下级关系等结构性的信息, 导入到数据库中, 数据整理工作就算完成了。

1.2 会话整理

会话的整理工作包括两个方面的内容, 第一是识别用户, 这个主要就是识别用户的来源, 简单说也就是识别用户的IP, 根据用户的IP基本可以大致判断出用户所在的省份、地区。然而由于网络技术的飞快发展, 网络设备也层出不穷, 代理服务器、防火墙等等都已经广泛应用起来了, 而这些设备给服务端在识别用户来源方面带来了不小的干扰和困难。所以在用户来源识别方面, 除了基于日志记录了的用户IP信息之外, 还需要收集其他的用户端信息综合加以整理, 如代理信息、用户访问路径信息等都可以作为整理用户来源的重要信息。例如如果同一个IP在一段时间内的代理信息不同, 那么可能是同一防火墙后面不同的用户;同一个IP在一段时间内访问的页面没有链接关系, 那也可能是内网中的不同用户等。由于网络情况、设备情况、用户行为的复杂性, 所以识别用户来源的工作不一定能完全准确, 但是我们可以尽量多利用几个唯度的信息综合进行判定, 以期取得相对准确的数据。

会话整理第二个方面的工作就是http session的区分和整理工作。http session标示了用户一次访问站点的过程, 也就是用户从进入站点到离开站点所进行的一系列活动。由于一个用户可能在不同的时间不止一次的访问站点, 所以session的整理区分和整理工作就是需要把每个用户的每次访问区分出来, 为后继划定用户每次访问的路径提供数据基础。

1.3 路径整理

由于用户可能通过浏览器的回退按钮或者通过直接敲入URL等方式访问站点中的任何页面, 所以就可能存在日志数据反映出来的用户访问路径不全的情况, 这就需要对日志中的访问路径数据进行补全。比如:如果日志数据显示用户当前请求的页面与用户上次请求的页面之间没有链接关系, 那么用户可能是通过浏览器回退按钮或者直接键入URL进行页面访问的, 就需要对页面的引用信息进行检查以判断本次请求来自哪一页。如果站点的多个页面都存在对当前请求页的连接关系, 那就取与当前请求时间最靠近的那个页面作为请求的来源页面;如果采取了这些措施还不足以判断路径的话, 就需要采用站点的页面链接拓扑关系进行判定了。

2 会话整理的方法和技术改进思路

上文描述了web日志数据处理的普遍的工作过程, 能够适用于大部分的web日志分析的场景, 然而也有不足之处, 如并没有给出一个进行web日志处理的一般性的、指导性的思路和方法;没有对站点访问中的特殊情况给出对应的处理思路。而在实际的日志数据预处理的工作中, 我们往往会面临各类复杂、困难的情况、各种特殊的问题, 这些问题会直接影响到预处理的数据结果。

鉴于这种现状和情况, 下文针对预处理阶段最重要的session整理工作提出了专门的处理方法和思路, 该方法尽可能对初步整理后的日志数据进行进一步的筛选和优化, 能切实地提高预处理操作的效率和处理结果的准确度, 该方法的步骤为:

(1) 取得日志数据、去掉其中关于图片、Activex、Flash等的下载请求。

(2) 对含有frame、Iframe的页面, 由于其涉及到多个请求的情况而进行特殊处理。

(3) 指定一个阈值, 两个请求之间的操作时间超过这个阈值的, 初判为一个会话, 否则为两个不同的会话, 按照这个原则初定出一个会话集。

(4) 最后通过站点页面之间的直接、间接连接关系, 对初步的会话集做出拆分或者合并重组等优化。

2.1 去掉对分析无用的资源请求信息

Web开发技术日新月异, 现在站点可以通过各种技术提供出优秀的用户界面, 然而这其中有些内容对于web日志分析是不利的, 比如activex控件的下载, 各类图片、动画文件的下载等, 这类请求只能导致标志一个界面的请求被分解为了若干个, 使得预处理工作效率降低, 所以在预处理初期就去除掉这些信息是有利于提高工作效率的。

2.2 框架界面采用只取主框架请求的策略

Web页面中有很多框架界面, 有的甚至框架套框架, 这种情况下, 一个主页面的请求反映到日志中也可能变成了对各个框架内页面的请求了, 这也就使得请求数据增多了。然而实际上对于一个主界面, 不论其中有多少个框架, 用户访问的都是以主界面为整体的页面, 所以只需要标记主页面的访问请求就可以了, 所以这个步骤里面, 就可以在数据中去掉框架页面中除了主框架之外的子框架请求信息 (当然, 这里所说的去掉子框架请求信息, 务必要确定子框架中的界面在整个站点中只作为子框架出现, 而没有作为单独页面出现过, 否则的话, 那就不能把对子框架所展示页面的请求全部去掉, 必须按照具体情况具体分析了) , 进一步提高预处理工作效率。

2.3 指定阈值, 划分会话集

从web服务器来看, 网站技术人员往往会根据自己的经验或者网站的实际运行情况设定一个session超时的时间设置, 用户如果是在设定的时间内没有在站点上进行任何操作, 就算是会话超时;这时候如果用户还需要再进行系统操作, 那就要重新发起会话了, 那么对于日志分析来说, 可以考虑以技术人员设定的超时值为阈值, 比如10分钟, 如果用户的连续请求在阈值范围内, 则划分为一个会话, 否则划分为两个会话 (很显然, 划定的时间越长, 为了整理出指定session需要遍历的日志记录范围越大, 设定时间越短, 就越有利于提高日志数据的整理效率, ) 。经过这样的阈值划分, 我们就可以整理出一个会话集。

2.4 会话拆分和重组

基于阈值整理出的会话集有可能存在的问题, 比如可能会将同一个会话的多个请求划分成为了不同的会话, 同时也有可能将不同会话的请求划分到了一个会话, 这就需要我们根据实际站点的页面拓扑情况来决定对会话集进行会话拆分、重组等操作了。如在基于阈值的会话整理过程中, 可能存在实际会话[q1, q2….qn]被划分为了[q1, q2…qi]和[qj….qn], 而qi和qj之间存在直接或间接的链接关系, 所以用户的会话在这个时候应该是连续的, 也就是说用户在边界会话qi和qj之间是没有离开站点的。这样的两个会话集实际操作中就可以重组为一个会话集了。会话拆分的过程也一样, 如果被整理到一个会话中的前后两个请求不存在直接或者间接的链接关系, 那么就应该可以把这个会话集划分开为多个会话集了。

2.5 会话重组的算法简述

(1) 输入初始的会话集数据。

(2) 依次读入每条记录。

(3) 对于相邻两个会话集中的首位连接处的两个请求, 如果是存在直接或者间接访问路径, 或者是符合用户以往访问习惯的, 就将这两个会话集合并为一个。

(4) 如果会话集中相邻两个请求之间不存在直接或者间接的链接关系, 那么将这个会话集以这相邻的两个请求为边界分解为两个会话集。

(5) 重复上述过程, 直到没有需要调整的会话集为止。

(6) 输出这个优化后的会话集。

3 结语

本文介绍了web日志数据挖掘中数据预处理阶段的普遍性方法, 并且针对其不足之处提出了预处理阶段会话整理这个最重要阶段的一般性处理方法和思路, 该方法和思路能大幅提高数据预处理的工作效率, 并且能显著提高结果数据的质量。

参考文献

[1]毛国君, 段立娟, 王实, 等.数据挖掘原理与算法[M].北京:清华大学出版社, 2005.

Web日志挖掘 篇7

Web日志挖掘是通过分析Web服务器中的日志文件, 从而发现用户访问站点的浏览规律, 分析不同Web站点的访问日志可以帮助人们理解用户的行为和Web的结构, 给网站管理员提供各种有利于Web站点改进或能够带来经济效益的信息。

1 Web日志数据分布

Web日志挖掘的数据来源主要包括:Web日志、站点拓扑结构、站点文件、与站点服务相关的数据库数据以及其他一些信息等。目前, Web日志挖掘的主要数据来源是Web服务器日志, 它完整且详细地记录了网站访问者的浏览行为。

2 Web日志挖掘的处理过程

Web日志挖掘的处理过程可以分为四个阶段:数据预处理, 模式挖掘, 模式分析及应用。

(1) 数据预处理

对日志文件进行挖掘时, 首先要对日志文件数据进行预处理。因为日志文件记录的是系统在不同时间所发生的事件, 所以对日志文件进行预处理后得到事务数据库, 再对事物数据库进行数据挖掘[1]。

(2) 模式挖掘

这一阶段是Web日志挖掘的核心, 根据挖掘任务的不同, 采用不同的挖掘算法, 从数据预处理阶段产生的用户会话中挖掘出用户的浏览模式。发现的模式一般有关联规则、序列模式、用户聚类等。

(3) 模式分析

这一阶段是进行用户访问模式的分析, 从而将有价值的模式提取出来的过程。挖掘出来的用户模式, 需要合适的工具和技术对其进行分析、解释, 从中筛选出有用的、用户感兴趣的模式, 称之为人们可以理解的知识。

(4) 可视化

将发现的有价值的模式以用户能够浏览的形式显示出来, 为决策层的决策提供依据。

3 关联规则Apriori算法及改进

Apriori算法[2]是经典的关联规则算法, 其核心方法是基于频集理论的递推方法, 此方法简单直观, 容易实现, 但它需要多次扫描数据库, 而且生成的中间数据量极大。

基于实际关联规则挖掘中, 项的个数远小于事务个数这一事实, 我们提出了Imp_Apriori算法:将计算候选项集的支持度由扫描事务数据库改为扫描项数据库, 即将事务数据库转换成项数据库, 之后关联规则的挖掘就直接在转换后的项数据库上进行。

4 Web日志挖掘系统设计及应用

4.1 系统的设计思想

结合前文讨论的Web日志挖掘关键技术和方法, 应用改进的Imp_Apriori算法, 开发一个Web访问日志挖掘的测试系统:

(1) 项:网站中的每个页面为一项。

(2) 事务:每个客户端IP地址, 在会话持续时间的阈值 (设置为30分钟) 范围内访问的页面为一条事务。

(3) 事务数据库的定义:同一天所有客户端访问的页面的集合。

根据客户端IP地址对会话识别过的页面进行处理, 将IP地址和该IP地址对应的页面的集合作为一条事务, 根据用户输入的最小支持度和最小可信度, 构造频繁项集和产生规则并将所有的规则显示在表格中。

4.2 开发环境的选择

系统的开发语言采用微软公司推出的开发Win32应用程序的、面向对象的可视化集成工具Vi-sual C++6.0。

后台数据库使用微软公司推出的基于Windows的桌面关系数据库管理系统 (RDBMS) 的Access。

4.3 Web服务器日志处理

将Web日志挖掘系统应用于学院网络中心的“招生信息网”上, 对服务器日志文件数据的预处理主要做了如下工作:

数据清理阶段:将日志文件导入数据库后, 通过消减包含特定后缀的记录来实现无关项的消除。

用户识别阶段:IP优先考虑, 即IP不同代表不同的用户。

会话识别阶段:同一IP地址在一个时间段内可能会不只一次访问网站, 需要把同一IP地址用户的所有访问序列分割成多个单独的用户一次访问的序列, 本文采用通用的会话持续时间阈值 (=30分钟) 的启发式会话识别方法。

网站文件名称及地址对应关系见表1所示:

4.4 Web日志挖掘

在系统中进行不同支持度和可信度的设置, 挖掘出关联规则, 以参数设置3:最小支持度0.5, 最小可信度0.5为例, 挖掘出6条规则, 见图1所示:

以参数设置3中挖掘出的规则为例, 挖掘出符合条件的6条强关联规则:

结果分析:Web日志挖掘实验结果表明, 访问招生网主页的有六成访问者访问留言版信息, 有五成多的人员访问专业设置页面和招生信息, 依次类推。

5结束语

通过挖掘频繁访问路径, 可以从用户的访问模式中发现用户请求页面的相关性, 并依此来修改网页, 把用户想要的信息以更有效快捷的方式提供。网站设计者和维护者能够轻松的改变Web页面的链接结构, 增强Web服务器的性能, 并为用户提供个性化的服

参考文献

[1]李哲, 李先国.基于关联规则的日志分析系统的研究与设计[J].微型电脑应用.2009, 25 (3) :28-29.

Web日志挖掘 篇8

关键词:访问路径,PFS,消息路径优化

Web日志挖掘主要是针对用户浏览信息进行分析, 因此用户会话的提取是首要任务。所谓的用户会话就是某个用户在某个时间段内请求页面的集合[1]。在识别用户会话过程中存在的一个问题是确定访问日志中是否有重要的请求没有被记录。路径补充保证了用户访问日志的完整性, 从而保证Web日子挖掘的现实意义。

一、路径补充原理

路径补充就是将由于本地或代理服务器缓存的影响而没有产生日志记录的请求页增加到用户会话中[2]。

得到用户会话之后, 要根据用户会话得到访问路径。路径补充涉及定义如下:

定义:用户会话的路径集合PS=<Rid, <Url1, Refer Url1, Datetime1, Resident1>…<Urlk, Refer Urlk, Datetimek, Residentk>>, 其中, 1≦k≦n, Resident表示用户在该页面的停留时间[3]。算法输入为RS, RS中的记录是按Rid值分组按时间顺序排列的, 输出为PS, 得到路径PS后, 根据引用信息进行路径补充, 如果一条记录的Refer Url不是上一条记录的Url, 则认为该用户是点击“后退”按钮访问了缓存中的页面, 需要进行路径补充。

PS中的记录是按Rid值分组顺序排列的;输出为:PS’。

二、消息路径优化算法

2.1消息路径优化算法原理

结合本文的研究目的和Web日志数据源针对路径补充的问题提出利用网络拓扑结构从用户访问序列获得用户访问事务数据的算法PFS (Path For Session) 算法---消息路径优化, PFS算法是首先把网站的树形拓扑结构转换为二叉树的结构, 然后在二叉树结构上根据用户的会话序列得到用户访问事务序列, PFS算法认为当前用户的访问序列中出现不连续的节点时, 则用户可能点击了浏览器上的Back按钮或重复点击一个链接, 当出现这种情况时, 表明用户在点击Back按钮或重复点击链接时就结束了上次会话, 重新开始了新一轮的会话。

2.2消息路径优化算法的实现

当前会话页面分别为:A, C, D, I, 对应的请求页面分别为F, H, C, J。

这次会话的序列是:A--F--C--H--D--C--I--J使用路径补充技术:A--B--F--B--A--C--H--C--A--D--A--I--D--J再利用最大向前引用路径算法得出用户的访问事务为A--B--F, A--C--H, A--D--I--J, 三个事务。在此过程中, 必须对用户的访问序列进行补充得到完整的路径后再应用最大向前应用路径才能得到访问事务。利用PFS算法转换为二叉树。

由此, 不再需要对访问序列补充路径便可由用户访问序列直接获得用户的访问事务A--B--F, A--C--H, A--D--I--J。

三、算法改进对比

用户访问会话使用路径补充和PFS算法得到用户访问事务的时间进行对比, 此对比是假设网站的结点链接已经由图结构转换为树形结构, 且树形结构的拥有25个叶结点, 树的深度为分别为3, 4, 5, 6时进行的。

实验证明该算法在相同的路径深度前提下, 减少了Web日志数据预处理的时间, 提高了效率。

四、结论

PFS算法改进了数据预处理阶段的路径补充步骤, 从整体上提高了数据挖掘效率, 但是算法基于网络拓扑结构, 随着网站的页面大量增加, 网络拓扑结构也随之复杂, 算法的复杂度同时增大, 所以PFS算法对网络拓扑结构复杂的网站需要更多的研究, 以适应复杂的网络拓扑结构。

参考文献

[1]何坤鹏, 郭海波.Web日志挖掘技术及其应用研究[J], 中国科技信息, 2007-08-15:236-237.

[2]刘明吉, 王秀峰, 黄亚楼.数据挖掘中的数据预处理[J]计算机科学, 2000-04-15:3-9.

[3]E.F.Codd, S.B.Codd and C.T.Salley.Providing OLAP to User-Analysts:An IT Mandate.IBM Research Lab, Techni cal Report, 1993.

上一篇:企业财务资金预算管理下一篇:地标农产品