Web日志分析

2024-09-28

Web日志分析（共9篇）

Web日志分析篇1

摘要：随着互联网技术的快速发展,人们对互联网的依赖性也越来越大,其上的数据信息也愈加丰富,如何能更好的利用网络资源变得至关重要。本文通过对Web日志挖掘的了解研究,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,并提供个性化服务。

关键词：Web,日志挖掘,个性化服务

0 引言

Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。根据所挖掘的Web数据的类型,可以将Web数据挖掘分为以下三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用挖掘(Web Usage Mining)。其中Web使用挖掘主要使用的是Web日志文件,故Web使用挖掘又常常叫做Web日志挖掘。web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。所以对其研究具有很大的重要意义。

1 Web日志挖掘概述

Web日志挖掘是指采用数据挖掘的技术,通过对Web服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。

Web挖掘过程一般分为4个阶段,即数据预处理阶段、日志挖掘算法实施阶段、模式分析阶段和可视化阶段,其流程如图1所示。

数据预处理阶段主要完成将原始的日志文件经过过滤、筛选以及重组后,将之转变为适合挖掘的数据格式。日志挖掘算法实施阶段是对数据预处理的结果施用挖掘算法产生规则与模式。数据预处理和日志挖掘算法是Web日志挖掘中的关键技术,数据预处理的结果作为挖掘算法的输入直接影响日志挖掘算法产生的规则与模式。模式分析阶段分析挖掘得到的规则和模式,提取有意义的、感兴趣的规则与模式作为挖掘结果。而所谓可视化,就是将发现的有价值的用户浏览模式以表格、拼图、曲线图、趋势图、直方图或者其它特殊表现形式显示出来。

2 Web日志挖掘的步骤

2.1 数据预处理

数据预处理是Web日志挖掘的首要环节,其任务是将原始日志数据转换成适合数据挖掘和模式发现所必需的格式,预处理可以直接简化数据挖掘过程,使结果更具客观性。数据预处理包括数据净化、用户识别、会话识别、路径补充四个步骤。

2.1.1 数据净化

数据净化,即(数据清洗)是指将待处理的日志数据导入到关系数据库,删除Web日志数据中的错误值、缺失值等,同时把与Web数据挖掘无关的变量或数据进行清理,已达到简便运算的目的。

2.1.2 用户识别

用户识别,是从Web日志数据中找出每个用户的访问地址,避免挖掘的重复性。目前,由于本地缓存、代理服务器和防火墙的存在,为用户动态的分配IP地址,想要识别出每一个用户变得很复杂。可以通过以下3种方法来识别用户:

1)如果Web服务器提供Cookie,则具有相同Cookie值的页面请求是来自同一个用户;

2)如果Web服务器没有提供Cookie,但每个网站用户都要一个登录标识符(用户ID)方可访问站点,则利用登录标识符识别用户;

3)如果Web服务器既没有Cookie也没有用户ID,最常用的方法就是采用启发式规则。根据我们的日志格式采用两条启发式规则:(1)不同的IP地址代表不同的用户;(2)如果IP地址相同,但是操作系统类型或者浏览器软件不同我们认为是不同的用户。

2.1.3 会话识别

会话,是指同一个用户连续请求的页面。在跨越时间区段较大的Web服务器日志中,用户可能多次访问该站点。会话识别的目的是将用户的所有访问序列分成单个的访问序列。常用的算法有以下几种:

1)对用户在整个网站的停留时间设一个阈值T。如果两个相邻的浏览页面之间的访问时间超过T,则认为用户又开始了一个新的会话。一般T取30min。

2)对用户在一个页面停留时间设一个域值△t。如果2个连续请求的时间间隔没有超过这个值△t,则属于同一会话。否则,分属于两个会话。Δt一般取10min。

3)利用用户的访问历史和引用页来划分。如果一个用户的请求不能通过引用页的链接进入,则属于另一个会话。

4)最大向前引用算法(MF)。设一个用户会话里不会出现用户以前已经访问过的页面,如果用户在向前浏览到一个网。

2.1.4 路径补充

用户会话对数据挖掘来讲,显得粗糙,仍不够精确,需把会话进一步分成具有一定语意的事务,如同篮子数据中顾客一次购买的商品。可以把Web页简单地分为两类:内容页和导航页。在编程中采用的区分导航页和内容页的方法是时间点法,即设定一时间值,实际中时间点的取值为3 0秒。当用户对该网页访问的时间小于时间点为导航页,大于时间点则为内容页。用户对网页的访问时间为用户前后两次访问该网页的时间差,通过调用SQL语句可以查找到用户访问网页的时间,进而区分出导航页和内容页。

2.2 模式发现

模式发现,是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关联规则、路径分析等多种方法。

1)统计。统计方法是从Web站点中抽取知识的最常用方法,它通过分析会话文件,对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度,但仍可用于改进网站结构,增强系统安全性,提高网站访问的效率等。

2)分类。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。

3)聚类。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k-means、DBSCAN等。

4)关联规则。关联分析的目的是挖掘隐藏在数据间的相互关系,自动探测以前未发现的隐藏着的模式,关联分析经常被表达为规则的形式。目前采用的主要关联规则挖掘算法有Apriori、FP-growth算法等。

5)路径分析。路径分析可以用来确定网站上的频繁访问路径,从而调整和优化网站结构,使得用户访问所需网页更加简单快捷,还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。

2.3 模式分析

基于以上的所有过程,对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:查询、OLAP技术和可视化技术等。

下面我们进行一个示例分析,图2是示例网站连接关系图,表1是经过数据预处理后的用户访问事务数据库。

注:A,B,C,D,E,F分别表示页面

我们用Apriori算法的思想在上述用户访问事务库中寻找关联规则:设定最小支持度为0.8,结果得到的大项集是{{BC}:进而用Aprior-all算法思想在上述事务数据库中寻找序列模式,仍然设最小支持度为0.8,结果得到的序列模式关系为B,D。

关联规则模式{{BC}表示至少有80%的用户访问是在一次访问中访问了B和C,据此推断,可能页面B中包含了引导用户访问页面C的信息,这样的话就应该把这个信息移到更高层的页面A。另外根据这些关联规则特征,可以帮助Web服务器确定预传给用户的页面,从而提高服务器的访问效率。

序列模式关系B,D显示,有80%的用户访问了页面B之后在1.5个小时之内又访问了页面D。在一个电子商务网站里,B和D分别代表用户的在线订购,也就是说80%以上的用户在订购了物品B以后的1.5}}时内同时在线订购了物品D。

关联规则和序列模式挖掘的区别在于,关联规则更关注事务内的关系,而序列模式更关注事务之间的关系。关联规则和序列模式挖掘都是从用户访问留下的日志中寻找用户普遍访问的规律。分类技术,主要是根据用户群的特征,寻找用户群的访问特征,比如有80%以上的来自教育机构的用户对产品F感兴趣。

聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘,比如说有80%以上的在线购买物品E的用户是在深圳,月收入在5 000元以上。

3 Web日志研究的重要性分析

1)发现用户访问模式。通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进Web服务器系统的性能。Web日志记录数据库提供了有关Web动态的,基于URL、时间、IP地址和Web页面内容的丰富信息,对它们进行分析,有助于发现潜在客户、用户和市场,有助于聚类用户并将用户分门别类,以实现个性化的市场服务。

2)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端所属域、信息访问路径,统计敏感信息访问率等方法识别竞争对手,保护企业敏感性信息。

4 结束语

Web日志挖掘作为Web数据挖掘的崭新研究方向,近年来一定进展,但是随着Web的不断壮大,依然还有很多问题亟待解决,有待于我们进一步去研究和探索。

参考文献

[1]李国慧.Web数据挖掘研究[J].数据库与信息管理本, 2008.

[2]苏晶.web数据挖掘的技术研究[J].中国新技术新产品, 2008.

[3]叶苗群.web日志挖掘研究[J].宁波工程学院学报,2005(6).

[4]王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4).

[5]张健沛,刘建东,等.基于Web的日志挖掘数据预处理方法的研究[J].计算机工程与应用,2003,10.

Web日志分析篇2

图片旅行日志，生动有趣!而且这样的引人眼球图片日记，还是在“美图秀秀网页版”中完成的哦!相信你一定想知道是如何做到的，赶紧往下看吧：

第一步：在地址栏输入“美图秀秀网页版”链接(xiuxiu.web.meitu.com/)，上传一张图片，并进入“拼图”菜单下，选择“自由拼图”功能，将画布背景颜色设置为如图背景。

第二步：接着点击“上传多张图片”，将其他图片导入进来，并按照喜好进行排版。

点击阅读更多学院相关文章>>

分享到第三步：现在为出游日记添加文字描述，

进入“美化”菜单下，点击“饰品-可爱饰品”，选择如图的挂件，并调整大小和位置。

第四步：接着选择“其他饰品”中的埃菲尔铁塔，再调整大小及位置。

第五步：选择“文字”功能，在本文框中键入心情文字，当然别忘记挑个喜欢的网络字体和颜色哦。

第六步：旅行日志制作好后，当然要赶紧分享给朋友啦。“美图秀秀网页版”的分享功能非常出色，点击“保存与分享”，就可以选择你想要分享到的网络社区啦!

虽然国庆已经结束了，但是快乐却因为精彩的分享而继续延伸着，这就是“美图秀秀网页版” (xiuxiu.web.meitu.com/)所带来的分享精神。如果你也有这样的快乐，不要吝啬啦，制作一份这样的旅行日志与大家共享吧!

上一页 1 2

点击阅读更多学院相关文章>>

Web日志分析篇3

Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理, 解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果, 但如何将解决这些基本问题的方法有机地结合起来, 以实现Web个性化服务, 有必要继续研究。

1 Web日志挖掘技术

1.1 Web挖掘基本概念及应用

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域, 包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘, 可以发现潜在客户, 延长客户的驻留时间, 改进站点设计等。

1.2 Web日志的挖掘过程

Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。

2 基于用户浏览行为的挖掘实现

在目前已有的数据挖掘的实现方式中, 主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点: (1) 利用缓存进行的访问在服务器端不被记录;用户按后退键, 利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。 (2) 当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。 (3) 在代理中, 只能找到用户浏览了哪些网页, 不能准确地知道用户对其的浏览时长。 (4) 服务器负担重。如何将解决这些基本问题的方法有机地结合起来, 以实现Web个性化服务, 还较少提出过完整的解决方案, 有必要继续在这一方面进行研究。

3 利用线性回归预测方法预测页面浏览兴趣度

3.1 Web日志页面浏览兴趣度分析研究的“微差”

如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题, 目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度, 应用数据挖掘技术获得用户的兴趣模型, 但这些计算方法都存在不足。

基于以上分析, 提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数, 还能对回归的有效性 (显著性) 、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历史的样本数据, 建立多元线性回归的预测模型, 从而在不需要未来样本数据的情况下, 预测未来时刻多元线性回归模型中的回归参数, 以及主要的模型精度评估指标。

3.2 兴趣度线性回归方程设计

利用线性回归方程计算兴趣度关键是通过已有的兴趣度, 访问次数, 访问时间和接收字节数求出回归系数, 其中访问次数, 访问时间和接收字节数可通过Log得到。根据线性回归模型, 假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关, 线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε, 其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣, 一般感兴趣, 偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内, 对于一个页面, 若访问次数, 访问时间和接收字节数大于等于平均值的1.5, 则认为是很感兴趣的, 兴趣度最小值设为80;若访问次数, 访问时间和接收字节数大于等于平均值的0.8, 则认为是一般感兴趣的, 兴趣度最小值设为40;若访问次数, 访问时间和接收字节数大于等于平均值的0.4, 则认为是偶尔感兴趣的, 兴趣度最小值设为20;若访问次数, 访问时间和接收字节数小于平均值的0.4, 则认为是不感兴趣的, 兴趣度最小值设为10。

3.3 利用线性回归方程求解兴趣度

根据LINEST (known_y's, known_x's, const, stats) 函数要求, 把数据α=3.247829、β=0.228428、γ=0.194637、ε=11.39658带入到:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε中, 从而得出页面兴趣度回归方程:

兴趣度=11.39658+3.247829*访问次数+0.228428*访问时间+0.194637*接收字节数, 记为:兴趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。

3.4 实验结果分析

通过利用线性回归方程计算出的兴趣度值与设定的兴趣度值进行比较, 易发现兴趣度值几乎吻合, 误差很小, 而且数据计算精度高。

由表1数据偏差值的统计数据, 易初步判断本实验建立的线性模型“兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε”准确, 下面进行理论证明。证明方法:利用方程的显著性检验———F检验, 判定访问次数、访问时间和接收字节数与页面浏览兴趣度的相关性程度, 进而准确判定线性模型准确与否。证明:由回归系数不难看出回归平方和ESS=4981.081, 误差平方和RSS=1162.919。由Table1:原始数据表A, B页面, 易得出总记录数n=25, 自变量个数k=3。所以利用方程显著性检验———F检验公式:F= (ESS/k) / (RSS/ (n-k-1) ) 可求出统计量F的数值为F=29.9828。给定显著性水平α=0.05, 利用查F-分布表可得到临界值Fα (k, n-k-1) =F0.05 (3, 21) =3.07。显然F>Fα (k, n-k-1) , 所以可判定原方程兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε总体上的线性关系在95%的水平下显著成立, 模型准确。

实验和理论同时表明, 通过线性回归预测方法预测浏览兴趣度, 兴趣度由线性回归方程求出, 相对于“兴趣度= (访问次数*访问时间) /接收字节数”这个公式来说, 由于考虑的因素更多, 建立的线性回归模型更准确, 所以求得的结果更精确, 并且具有预见性。需要指出的是, 本实验所提出的利用线性回归模型预测页面浏览兴趣度的方法还有很大的理论探讨空间。此外, 本实现的设定兴趣度值是作者主观设定的, 是否具有说服力还需进一步探讨。改进的思想是:兴趣度设定为三类, 重新确定回归系数。

通过线性回归预测方法预测页面浏览兴趣度, 是可行的并且具有较好的效果。

4 结束语

本文研究的是Web日志挖掘, 希望通过Web日志分析研究浏览兴趣度。研究的主要工作是:建立兴趣度的线性回归方程, 求出线性回归系数α、β、γ、ε, 预测网站浏览兴趣度。随着互联网的发展, Web服务的个性化趋势已成必然, 对浏览兴趣度的分析势必将成为分析浏览路径的一个越来越重要的依据。以后的研究应综合考虑各种因素, 这样挖掘出的用户兴趣模型会更准确。

参考文献

[1]张娥, 冯秋红.Web使用模式研究中的数据挖掘[J].计算机应用, 2002 (3) .

[2]赵亚林.线性回归模型估计的一种简便方法[J].青海大学学报, 2004, 22 (3) .

Web日志分析篇4

项目中的 log4j.properties 配置信息如下：

01 log4j.rootLogger=DEBUG, ROLLING_FILE

02 log4j.additivity.org.apache=true

04 log4j.appender.ROLLING_FILE=org.apache.log4j.RollingFileAppender

05 log4j.appender.ROLLING_FILE.Threshold=INFO

06 log4j.appender.ROLLING_FILE.File=/home/logs/server.log

07 log4j.appender.ROLLING_FILE.Append=true

08 log4j.appender.ROLLING_FILE.MaxFileSize=100MB

Web日志挖掘技术研究篇5

Web日志中的网络挖掘方法主要分为两大类:第一类是基于Web事务的方法和基于数据立方体 (Data Club) 的方法。

1、基于Web事务的方法

基于Web事务的方法即将数据挖掘技术应用于Web服务器日志, 以期望找到用户的非预期的访问浏览模式。此方法主要是识别在Web中用户对各个网页的浏览情况:如页面单位浏览内容中的浏览时间 (浏览时间) 、页面的平均浏览次数、及用户的各种页面浏览行为 (保存、删除网页、加入收藏夹、复制、打印等行为) 等等。并且在此基础上提出了最大向前引用序列 (MFR) 的概念, 用它将用户会话分割成一系列的事务, 然后采用关联规则和聚类分析等方法挖掘频繁浏览路径。

2、基于数据立方体 (Data Club) 的方法

基于数据立方体 (Data Club) 的方法, 通过Web日志建立数据立方体, 然后对数据立方体进行数据挖掘和联机事务处理 (OLAP) 。

二、web日志挖掘流程

1、数据预处理

由于在现实Web服务器上的数据信息很多都是有缺失的、含有噪声的, 不一致的以及在服务器上的数据表现格式也是多种多样, 未经过标准化处理的非结构化的数据。这就要求挖掘者在对Web日志信息进行数据挖掘之前必须对数据进行预处理。主要包括以下四个阶段:数据清理 (data cleaning) 、用户识别 (user recognition) 、会话识别 (session recognition) 、事务识别 (transaction recognition) 等。

(1) 数据清理

海量的Web日志数据中存在大量的噪声数据、不完整数据及不一致的数据等特点, 为了提高数据的质量, 进行高质量的数据挖掘就用到数据预处理数据清理, 它能够填写空缺的值, 平滑噪声数据, 识别、删除孤立点, 解决不一致性。从而改善Web服务器日志记录中数据的质量, 为挖掘算法得到更准确的输入数据。

(2) 用户识别

用户识别就是识别出对站点访问的用户, 用户识别是数据预处理过程中最困难和复杂的, 由于代理服务器、缓存及用户和企业局域网中防火墙的设置, 很难找到真正的用户IP。一般在用户识别过程中会遇到一系列问题:一个IP地址可能有多个用户访问同一个网站;一个用户通过多个IP地址访问同一个Web服务器;一个用户使用多种浏览器有可能是多个不同的操作系统访问同一个站点;多个用户由同一个代理服务器访问同一个Web服务器。

针对以上4类用户识别问题, 许多参考文献都给出了不同的识别规则, 来识别用户。主要识别规则包括: (1) 用户IP作为识别准则, IP地址不同, 不是同一个用户。IP地址相同, 在用户访问的操作系统和浏览器中只要有一个是相同的, 则是同一个用户。 (2) 通过网站的拓扑结构对用户日志进行分析, 找出可能的潜在的用户, 但很多情况下用户识别还是很困难的。综合这两类用户识别规则, 第一类按照IP地址来识别用户, 相同的IP地址为同一个访问用户, 不同的IP代表不同的访问用户。这样的IP对应规则把用户识别更加简化了, 随着现在计算机的普及, 这类方法对用户识别有很大的实用性。

(3) 会话识别

用户会话指的是在一段时间内访问用户对Web服务器一次有效的访问, 通过上一步的用户识别后可以找出访问用户的访问浏览序列。会话是指用户进入网站访问到离开网站这段时间内留下来的系一列数据痕迹。由于会话识别是分析用户访问一段时间以内的数据, 在此期间该用户可能已经多次访问了该网站, 这就要求通过会话识别将用户这段时间内访问的序列分为单个用户一次访问的序列, 并且把属于一个用户对应的同一次请求识别出来。目前算法也逐渐成熟:包括Hpage算法 (连续请求时差与时间阈值比较) 、Hvisi算法 (整个站点定义时间阈值上限比较) 、HRef算法 (参引页分析用户访问历史, 判断会话差异) 、MF最大向前参引算法 (用户不会再次访问先前访问的页面) 等。

(4) 事务识别

事务识别又叫片段识别, 是指将用户访问序列划分成为用户会话或Web事务的逻辑单元, 通过用户会话以后, 能够挖掘出具有自然事务特征的数据, 但是划分出的会话粒度比较大、模糊等, 就要进一步将会话划分成含语义的事务。从而找出有意义的访问路径。

目前常用有最大向前路径、引用长度以及时间窗口等识别方法。其中最大前向路径是应用到事务识别上比较普遍和成功的, 其主要内容是一个会话里不会出现已经访问过的页面, 向前就是一个事务, 向后说明向前引用终止, 意味着用户再次请求已经浏览过的页面, 去掉此次用户访问 (认为用户不会再次访问已经访问过的页面) 。

2、模式发现与分析

模式发现主要目的是通过数据挖掘技术 (关联规则、统计分析、序列模式、分类和聚类等方法) 来发现潜在数据背后的知识, 模式发现是Web日志数据挖掘的核心。目前比较流行的模式发现规格主要有:双联规则、cookie信息、统计分析等。

模式分析是Web日志挖掘继模式发现的最后步骤, 最终目的是将模式发现的结果转换为有用的价值模式, 通过可视化技术以通俗易懂的图形界面方式提供给Web使用者。

三、结束语

现在web挖掘技术在网络研究、数据挖掘、知识发现、软件代理等相关领域都是热点问题。研究web日志挖掘对于优化web站点、电子商务、远程教育、信息搜索等领域有着十分重大意义。如何将这些技术应用时我们急需解决的问题。

摘要：用户借助搜索引擎获取有用信息, 输出的结果集是一样的, 忽略了用户自身的知识领域背景和兴趣度趋向, 使用户陷入了信息冗余的迷航状态。而通过web日志中大量的用户记录信息, 进行数据挖掘可以识别出单一用户, 通过分析用户浏览的信息记录抽取用户特性, 推建出用户的兴趣背景。进一步解决不同用户的不同需求结果集, 实现个性化搜索, 提高客户满意度。

关键词：数据挖掘,web日志,数据预处理

参考文献

[1]Cooley R, Mobasher B, SriVastava J.Data Preparation for mining word wide web browsing patterns[J].Knowledge and Information System, 1999 (1) :5-32.

[2]张治斌, 姜亚南.基于Web日志的数据挖掘研究[J].电脑与信息技术, 2009 (12) .

Web日志频繁访问路径挖掘算法篇6

从海量日志中挖掘用户浏览网页的访问路径, 常见的方法有参考长度法等, 这些算法认为用户的浏览频度就反映了用户的访问兴趣。进一步的改进包括基于支持度-偏爱度的频繁路径挖掘算法, 但挖掘出的频繁模式不一定是用户浏览路径的子路径, 此外有些方法不能产生Web事物中连续的频繁访问路径。有些方法利用访问路径树挖掘频繁扩展子路径, 只需扫描一次数据库, 但存在不能挖掘出连续可重复的频繁访问路径的缺陷。

综述所述, 面对海量的Web日志, 如何快速准确地挖掘出日志中隐含的频繁访问路径是各类算法追求的目标。本文在研究访问路径树性质的基础上, 给出了高效精确的算法。

2、相关概念

则称路径p为频繁访问路径。其中是预先定义好的最小支持度。

定义2:若路径p=的前缀子路径q=是路径r=的后缀子路径, 则定义路径r与p之积r×p=, 否则r×p为空。一般而言r×p不等于p×r。路径集合与路径集合之积为中每条路径与中每条路径之积的结果集。

3、算法描述

3.1 构建访问路径树

Web日志事务数据库如表1所示, 对该数据库的记录逐条处理, 生成访问路径树, 如图1所示。

Web访问路径树除root节点外, 其余各节点均代表页面及该页面出现的次数, 分别用page和num表示。由Web访问事务数据库构建Web访问路径树的算法如下:

算法1:构建Web访问路径树

Web访问路径树有个性质, 既各条从树根到叶子节点的路径上各点的num值是递减的, 这是因为合成Web访问路径树的时候前缀相同的记录共享这些前缀节点。

3.2 生成最长前缀频繁子路径树

研究图1可以发现, 若将所有的最长频繁子路径合成为一个树, 则该树是图1的子图, 并且该图是原图的上半部分。例如, 若|D|*N=3, 那么图1所示的Web访问路径树的所有最长频繁子路径合成的图如图2所示, 不妨将该图称谓最长前缀频繁子路径树。先序遍历Web访问路径树, 删除num值少于|D|*N的节点所表示的子树, 即可生成最长前缀频繁子路径树, 如算法2所示。

算法2:构建最长前缀频繁子路径树

输入:Web访问路径树TP

输出:最长频繁子路径树fre TP

3.3 产生频繁访问路径集

先考虑单支最长频繁前缀子路径产生频繁访问路径集的过程, 例如图3中的路径P2P1P3P1, 频繁访问路径集合frequent PS初始值为空, 当前访问节点为P2, frequent PS1和frequent PS2为中间结果, 初始值均为空, frequent PS1i=frequent PS2i-1∪frequent PS3i-1表示第i步的frequent PS1等于第i-1步的frequent PS2并上第i-1步的frequent PS3。当某步骤中frequent PS2为空时程序结束。产生频繁访问路径集如算法3所示。

算法3:产生频繁访问路径集

输入:最长前缀频繁子路径树fre TP

输出:频繁访问路径集frequent PS

Web日志挖掘技术的应用研究篇7

随着Web站点规模的扩大和复杂程度的提高,访问者对Web站点的要求也越来越高,要求它具有个性化,智能性。因此,简单的统计访问者所在的地区,统计站点的访问次数已经不能满足。Web日志挖掘是对用户在访问网站时留下的访问记录进行数据挖掘,利用数据挖掘的方法可以在海量的日志数据中自动快速的发现用户的访问模式,其结果可以用于改善网站的拓扑结构,发现相似客户群体,开展个性化的信息服务和有针对性的电子商务活动。

1 数据预处理

从Web服务器收集到的日志不能直接用于数据挖掘,还必须进行预处理。数据预处理一般分为数据清理、用户识别、回话识别、路径补充这几个过程。

1.1 数据清理

数据清理的目的是清除从服务器得到的日志中的不相关的数据,缩小被挖掘的数据对象的范围。本文使用的日志数据集与以往的日志数据集有所有不同,如图1所示,数据集中的字段都是挖掘所需要的,但是每一个记录都含有若干条记录,其中是以“||”分割的,利用SQL语句可以把这些记录分离开,从而形成一条一条的记录,得到的数据集就可以用于下一步的数据挖掘。如图2所示。

数据清理的核心SQL语句:

1.2 用户识别

如果数据挖掘的目的是进行用户访问模式的挖掘或对用户进行聚类分析,那么用户识别这一步骤相当重要。通常我们用一下的方式来识别用户:不同的IP地址代表不同的用户;当IP地址相同时,默认不同的操作系统或浏览器代表不同的用户;当IP地址相同时,用户使用的操作系统和浏览器也相同的情况下,此时要根据网站的拓扑结构来识别用户,即用户要访问的页面不能从已访问的页面到达则为一个新用户。

1.3 用户会话识别

会话识别的目的就是将用户的所有访问序列分成多个单独的用户一次访问序列。一般的方法是利用超时,如果连续两个页面的请求时间间隔超过给定的阈值,则认为用户开始了一个新的会话。根据统计数据,时间阈值通常取25.5分钟。

1.4 路径补充

在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录。这就需要路径补充这一个步骤,解决的方法类似于用户识别中的方法。如果当前请求的页与用户上一次请求的页之间没有超文本链接,那么用户很可能使用了浏览器上的“后退”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话路径中。

2 Web日志挖掘算法研究

2.1 关联分析

关联分析用于发现关联规则,关联规则是形如X→Y即满足X中条件的数据库元组也满足Y条件。我们用支持度和置信度来作为关联规则兴趣度的客观度量。关联规则X→Y的支持度表示满足规则的样本的百分比,用概率P(X∪Y)表示,其中,X∪Y表示同时包含X和Y的事务,即项集X和Y的并。关联规则X→Y的置信度用条件概率P(X|Y)即包含X的事务也包含Y的概率来表示。

2.2 聚类分析

聚类分析是将物理或抽象的对象组成的集合分组成为由类似的对象组成的多个簇,使得处于相同簇中的对象具有最大的相似性,而处于不同簇的对象具有最大的差异性的方法及过程。通过聚类,能够找出数据属性之间潜在的相互关系。聚类分析的过程如图3所示。

2.3 遗传算法

遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。生物的进化是一个奇妙的优化过程,它通过选择淘汰,突然变异,基因遗传等规律产生适应环境变化的优良物种。遗传算法是根据生物进化思想而启发得出的一种全局优化算法。

3 Web日志挖掘的应用

Web日志挖掘的应用主要有以下几个方面:

(1)提供个性化服务:根据用户访问页面的模式,从中提炼出用户感兴趣的页面,针对特定的用户组放置不同的内容,向每位用户提供个性化界面。

(2)改进站点的拓扑结构:依据访问者的频繁访问路径,把访问者频繁访问的页面直接关联起来。

(3)推荐系统:这对于电子商务网站来说非常有帮助,通过挖掘日志数据集,分析访问者感兴趣的页面和商品,推荐相关页面和商品。

4 结束语

Web日志挖掘的应用越来越广,通过研究日志数据,可以得到很多潜在的有意义的信息,不论是对网站的访问者还是网站的经营者都有很大的帮助。本文阐述了Web日志挖掘的相关算法,今后的工作是努力改进算法,提高数据挖掘的效率和准确性。

参考文献

[1]杨怡玲,尤晋元.SWLMS:一个日志挖掘系统.上海交通大学学报.1999.

[2]吕佳.Web日志挖掘技术应用研究.重庆师范大学学报.(自然科学版).2006.

[3]陈新中,李岩,杨炳儒.Web日志挖掘技术进展.系统工程与电子技术.2003.

[4]韩家炜.Web数据挖掘研究.计算机研究与发展.2001.

基于Web日志的数据挖掘研究篇8

1 数据挖掘

1.1 系统结构

数据挖掘是一门交叉性和理论性很强的学科, 是从数据源的海量数据信息里发现知识的系统工程, 整个系统主要包括用户界面、模式评估、数据挖掘引擎、数据库服务器、操作过程、数据源等组成, 其系统结构如图1所示。

其中数据挖掘引擎是最核心的部件, 用来执行相关的数据挖掘算法 (分类、聚类、相关分析等)。

1.2 数据挖掘过程

随着数据挖掘的潜力日益被发掘, 对于数据挖掘的相关研究越来越多, 数据挖掘技术在各个行业领域中被得到广泛的应用。当前, 数据挖掘的算法种类比较多, 但基本原理仍是相似的, 其算法的流程基本上差不多。其具体的工作流程如图2所示。

如图2所示, 数据挖掘的主要流程是: 从逻辑数据库中提取数据, 首先对其进行选择处理, 提取出被选择的数据, 然后对其进行预处理操作, 将处理后的数据进行转换, 利用数据挖掘技术对其进行处理, 抽取出合适的信息, 对其进行分析, 形成被同化的知识, 存放入知识库中。

2 Web 日志挖掘

2.1 挖掘理论

Web日志的挖掘主要是指对Web数据库中的数据进行提取, 从而得出使用者感兴趣的知识。当前的网络体系结构中的Web日志一般都存放在Web服务器的数据库日志文件里, Web日志主要是指用户访问Web页面时所进行的一系列的操作, 因此, 对于Web日志进行挖掘有其自身独有的特点。

(1) 操作对象关联性比较强

对于大部分数据挖掘所操作的对象, 彼此之间并没有结构上的关联, 对Web日志进行挖掘处理, 其操作的数据彼此之间关系比较紧密, 而这些关联信息之间还存在新的信息以供挖掘。

(2) 日志包含决策信息

在某个特定的时间段内对Web服务进行访问, 代表了某个用户群的特征, 这是一个共性的问题, 可以直接作为决策知识集, 能够从中找出相关用户的行为, 并对其进行操作上的预测。

(3) 数据量大

随着互联网规模的扩大, 对于日志文件来说, 可以说每时每刻都有新的数据信息补充进来。仅仅Google公布的数据显示, 每天其数据的索引量就超过了几百亿, 对于整个万维网来说, 其数据量更是一个无法估计的数字。

2.2 Web 日志挖掘过程

对于Web日志的挖掘, 与数据挖掘的过程略有所不同, 其原理是一致的。将Web日志的挖掘分为3部分, 分别是数据预处理、模式发现及模式识别。

由于Web日志的数据比较多, 一般都会存放在服务器的Web日志文件之中 , 这样对于日志信息的提取有了一个明确目标。经过数据预处理、模式发现和识别之后, 要将结果进行汇总, 并将以用户能够清晰地认知的形式展现出来, 从而可以与实际相结合, 需要注意的是, Web日志挖掘的最核心过程由专门的站点进行控制, 这样保证运行的效率。Web日志挖掘的过程如图3所示。

2.2.1 数据预处理

对于Web日志进行数据挖掘操作之所以比较困难, 其最主要原因是对于每一个网站系统来说, 其日志文件的存放格式都是不同的, 没有一个固定的结构模式, 由于每个系统所关注的焦点不同, 其记录的信息内容也存在着较大的差别, 因此, 无法对Web日志文件进行直接的挖掘处理操作, 需要进行数据的预处理, 对日志文件进行加工转换, 采用标准化的结构模式。

另外对Web日志文件, 其内部的数据信息可能存在着大量的冗余, 还有许多不相关的记录存在, 对这些数据进行删除处理, 可以有效地减少数据在处理时的时间, 从而提高数据挖掘的效率。

2.2.2 模式发现

对数据进行预处理之后, 系统就会以某种数据挖掘算法进行模式发现, 从而让用户需要的数据显示出来。当前最流行的模式发现是对用户的浏览方式的发现。不同类型的浏览方式会有不同的特征。对浏览特征的描述主要有有序性、连续性、重复性和极大性。对于Web日志挖掘的模式发现采用的主要方法主要有关联规则、序列模式发现及路径分析法等。

2.2.3 模式识别

模式的识别概括起来主要有对Web日志模式改进从而提高访问效率、发现导航模式、对用记进行建模等。

3 Web 日志挖掘算法

数据挖掘算法的种类比较多, 在本文根据Web日志的特点, 采用ID3决策树算法对其进行操作。

3.1 ID3 决策树算法

当前, 决策树算法已经在很多领域得到应用, 自从ID3决策树算法产生以后, 其应用的范围得到了进一步的扩大。对于决策树来说, 它的结构是树形结构, 每个结点作为一个类充当树的一个叶子。

当前ID3决策树的主要优点是分类的精确度高、噪声小、模式简单。其目标是通过数据中包含的某种规则, 以决策树的形式进行查找, 从而实现知识的发现。该算法的过程首先是生成决策树, 其次修订决策树, 直至得出最优的结果为止。

ID3决策树算法结束的条件是: 对所包含的样本数据都一一进行操作、对样本的操作其属性都无法再进行划分、或者子集中无样本。

3.2 ID3 算法实现

利用ID3决策树算法进行Web日志的分析处理, 是一个比较不错的选择。整个系统的实现相对比较庞大, 在此给出其核心代码。

4 结语

对Web日志的数据挖掘进行了详细的研究分析, 当前的互联网中包含了海量的Web日志数据信息, 从中提取有用的知识对于网络使用者来说是迫切的要求。利用数据挖掘技术对其进行了分析。

摘要：针对当前Web日志数据信息越来越多的问题,传统的数据库管理系统无法对其进行有效的操作分析。采用数据挖掘技术对其进行研究,从数据挖掘的系统结构和数据挖掘的过程两个方面对数据挖掘进行描述;对Web日志挖掘的理论和过程进行了详细的分析;给出ID3算法的描述,并给出了部分核心的代码。

Web日志挖掘中的技术改进篇9

一般而言, Web日志挖掘由3个阶段构成:数据预处理, 模式识别和模式分析。数据预处理阶段的工作是对原始日志数据进行整理的过程, 只有经过整理后得到了好的数据源, 才能从中发现高质量的用户模式, 因此这个阶段的工作是整个日志挖掘工作的基础和关键。本文着重介绍日志挖掘过程中预处理阶段的工作流程, 并对其中最关键的会话整理步骤给出优化的、专门的处理方法和思路。

1 工作流程

按照数据预处理阶段需要处理的问题, 我们可以把预处理过程分为数据整理、会话整理、路径整理等步骤。

1.1 数据整理

任何形式的web日志数据中, 都有很多的干扰数据存在, 比如访问过程中出现错误, 系统直接导向到错误页面了的;用户请求的HTTP指令不是GET的;用户访问一个页面, 中间需要下载这个页面上的图片、flash动画、activex控件的;用户通过Ajax技术直接访问站点上的程序的等等, 这些情况下产生的访问日志不能反映出用户的访问路径, 对后期的日志分析反而会带来不必要的干扰, 所以这样的数据是应该被清理掉的。在分析出了这些问题之后, 将不需要的数据删除掉, 然后将有效的数据按照利于分析的格式进行整理, 附带上站点各个功能模块的从属标记、上下级关系等结构性的信息, 导入到数据库中, 数据整理工作就算完成了。

1.2 会话整理

会话的整理工作包括两个方面的内容, 第一是识别用户, 这个主要就是识别用户的来源, 简单说也就是识别用户的IP, 根据用户的IP基本可以大致判断出用户所在的省份、地区。然而由于网络技术的飞快发展, 网络设备也层出不穷, 代理服务器、防火墙等等都已经广泛应用起来了, 而这些设备给服务端在识别用户来源方面带来了不小的干扰和困难。所以在用户来源识别方面, 除了基于日志记录了的用户IP信息之外, 还需要收集其他的用户端信息综合加以整理, 如代理信息、用户访问路径信息等都可以作为整理用户来源的重要信息。例如如果同一个IP在一段时间内的代理信息不同, 那么可能是同一防火墙后面不同的用户;同一个IP在一段时间内访问的页面没有链接关系, 那也可能是内网中的不同用户等。由于网络情况、设备情况、用户行为的复杂性, 所以识别用户来源的工作不一定能完全准确, 但是我们可以尽量多利用几个唯度的信息综合进行判定, 以期取得相对准确的数据。

会话整理第二个方面的工作就是http session的区分和整理工作。http session标示了用户一次访问站点的过程, 也就是用户从进入站点到离开站点所进行的一系列活动。由于一个用户可能在不同的时间不止一次的访问站点, 所以session的整理区分和整理工作就是需要把每个用户的每次访问区分出来, 为后继划定用户每次访问的路径提供数据基础。

1.3 路径整理

由于用户可能通过浏览器的回退按钮或者通过直接敲入URL等方式访问站点中的任何页面, 所以就可能存在日志数据反映出来的用户访问路径不全的情况, 这就需要对日志中的访问路径数据进行补全。比如:如果日志数据显示用户当前请求的页面与用户上次请求的页面之间没有链接关系, 那么用户可能是通过浏览器回退按钮或者直接键入URL进行页面访问的, 就需要对页面的引用信息进行检查以判断本次请求来自哪一页。如果站点的多个页面都存在对当前请求页的连接关系, 那就取与当前请求时间最靠近的那个页面作为请求的来源页面;如果采取了这些措施还不足以判断路径的话, 就需要采用站点的页面链接拓扑关系进行判定了。

2 会话整理的方法和技术改进思路

上文描述了web日志数据处理的普遍的工作过程, 能够适用于大部分的web日志分析的场景, 然而也有不足之处, 如并没有给出一个进行web日志处理的一般性的、指导性的思路和方法;没有对站点访问中的特殊情况给出对应的处理思路。而在实际的日志数据预处理的工作中, 我们往往会面临各类复杂、困难的情况、各种特殊的问题, 这些问题会直接影响到预处理的数据结果。

鉴于这种现状和情况, 下文针对预处理阶段最重要的session整理工作提出了专门的处理方法和思路, 该方法尽可能对初步整理后的日志数据进行进一步的筛选和优化, 能切实地提高预处理操作的效率和处理结果的准确度, 该方法的步骤为:

(1) 取得日志数据、去掉其中关于图片、Activex、Flash等的下载请求。

(2) 对含有frame、Iframe的页面, 由于其涉及到多个请求的情况而进行特殊处理。

(3) 指定一个阈值, 两个请求之间的操作时间超过这个阈值的, 初判为一个会话, 否则为两个不同的会话, 按照这个原则初定出一个会话集。

(4) 最后通过站点页面之间的直接、间接连接关系, 对初步的会话集做出拆分或者合并重组等优化。

2.1 去掉对分析无用的资源请求信息

Web开发技术日新月异, 现在站点可以通过各种技术提供出优秀的用户界面, 然而这其中有些内容对于web日志分析是不利的, 比如activex控件的下载, 各类图片、动画文件的下载等, 这类请求只能导致标志一个界面的请求被分解为了若干个, 使得预处理工作效率降低, 所以在预处理初期就去除掉这些信息是有利于提高工作效率的。

2.2 框架界面采用只取主框架请求的策略

Web页面中有很多框架界面, 有的甚至框架套框架, 这种情况下, 一个主页面的请求反映到日志中也可能变成了对各个框架内页面的请求了, 这也就使得请求数据增多了。然而实际上对于一个主界面, 不论其中有多少个框架, 用户访问的都是以主界面为整体的页面, 所以只需要标记主页面的访问请求就可以了, 所以这个步骤里面, 就可以在数据中去掉框架页面中除了主框架之外的子框架请求信息 (当然, 这里所说的去掉子框架请求信息, 务必要确定子框架中的界面在整个站点中只作为子框架出现, 而没有作为单独页面出现过, 否则的话, 那就不能把对子框架所展示页面的请求全部去掉, 必须按照具体情况具体分析了) , 进一步提高预处理工作效率。

2.3 指定阈值, 划分会话集

从web服务器来看, 网站技术人员往往会根据自己的经验或者网站的实际运行情况设定一个session超时的时间设置, 用户如果是在设定的时间内没有在站点上进行任何操作, 就算是会话超时;这时候如果用户还需要再进行系统操作, 那就要重新发起会话了, 那么对于日志分析来说, 可以考虑以技术人员设定的超时值为阈值, 比如10分钟, 如果用户的连续请求在阈值范围内, 则划分为一个会话, 否则划分为两个会话 (很显然, 划定的时间越长, 为了整理出指定session需要遍历的日志记录范围越大, 设定时间越短, 就越有利于提高日志数据的整理效率, ) 。经过这样的阈值划分, 我们就可以整理出一个会话集。

2.4 会话拆分和重组

基于阈值整理出的会话集有可能存在的问题, 比如可能会将同一个会话的多个请求划分成为了不同的会话, 同时也有可能将不同会话的请求划分到了一个会话, 这就需要我们根据实际站点的页面拓扑情况来决定对会话集进行会话拆分、重组等操作了。如在基于阈值的会话整理过程中, 可能存在实际会话[q1, q2….qn]被划分为了[q1, q2…qi]和[qj….qn], 而qi和qj之间存在直接或间接的链接关系, 所以用户的会话在这个时候应该是连续的, 也就是说用户在边界会话qi和qj之间是没有离开站点的。这样的两个会话集实际操作中就可以重组为一个会话集了。会话拆分的过程也一样, 如果被整理到一个会话中的前后两个请求不存在直接或者间接的链接关系, 那么就应该可以把这个会话集划分开为多个会话集了。

2.5 会话重组的算法简述

(1) 输入初始的会话集数据。

(2) 依次读入每条记录。

(3) 对于相邻两个会话集中的首位连接处的两个请求, 如果是存在直接或者间接访问路径, 或者是符合用户以往访问习惯的, 就将这两个会话集合并为一个。

(4) 如果会话集中相邻两个请求之间不存在直接或者间接的链接关系, 那么将这个会话集以这相邻的两个请求为边界分解为两个会话集。

(5) 重复上述过程, 直到没有需要调整的会话集为止。

(6) 输出这个优化后的会话集。

3 结语

本文介绍了web日志数据挖掘中数据预处理阶段的普遍性方法, 并且针对其不足之处提出了预处理阶段会话整理这个最重要阶段的一般性处理方法和思路, 该方法和思路能大幅提高数据预处理的工作效率, 并且能显著提高结果数据的质量。

参考文献

[1]毛国君, 段立娟, 王实, 等.数据挖掘原理与算法[M].北京:清华大学出版社, 2005.

【Web日志分析】推荐阅读：