浏览兴趣度

2024-10-29

浏览兴趣度（精选4篇）

浏览兴趣度篇1

0 引言

Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理, 解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果, 但如何将解决这些基本问题的方法有机地结合起来, 以实现Web个性化服务, 有必要继续研究。

1 Web日志挖掘技术

1.1 Web挖掘基本概念及应用

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域, 包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘, 可以发现潜在客户, 延长客户的驻留时间, 改进站点设计等。

1.2 Web日志的挖掘过程

Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。

2 基于用户浏览行为的挖掘实现

在目前已有的数据挖掘的实现方式中, 主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点: (1) 利用缓存进行的访问在服务器端不被记录;用户按后退键, 利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。 (2) 当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。 (3) 在代理中, 只能找到用户浏览了哪些网页, 不能准确地知道用户对其的浏览时长。 (4) 服务器负担重。如何将解决这些基本问题的方法有机地结合起来, 以实现Web个性化服务, 还较少提出过完整的解决方案, 有必要继续在这一方面进行研究。

3 利用线性回归预测方法预测页面浏览兴趣度

3.1 Web日志页面浏览兴趣度分析研究的“微差”

如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题, 目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度, 应用数据挖掘技术获得用户的兴趣模型, 但这些计算方法都存在不足。

基于以上分析, 提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数, 还能对回归的有效性 (显著性) 、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历史的样本数据, 建立多元线性回归的预测模型, 从而在不需要未来样本数据的情况下, 预测未来时刻多元线性回归模型中的回归参数, 以及主要的模型精度评估指标。

3.2 兴趣度线性回归方程设计

利用线性回归方程计算兴趣度关键是通过已有的兴趣度, 访问次数, 访问时间和接收字节数求出回归系数, 其中访问次数, 访问时间和接收字节数可通过Log得到。根据线性回归模型, 假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关, 线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε, 其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣, 一般感兴趣, 偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内, 对于一个页面, 若访问次数, 访问时间和接收字节数大于等于平均值的1.5, 则认为是很感兴趣的, 兴趣度最小值设为80;若访问次数, 访问时间和接收字节数大于等于平均值的0.8, 则认为是一般感兴趣的, 兴趣度最小值设为40;若访问次数, 访问时间和接收字节数大于等于平均值的0.4, 则认为是偶尔感兴趣的, 兴趣度最小值设为20;若访问次数, 访问时间和接收字节数小于平均值的0.4, 则认为是不感兴趣的, 兴趣度最小值设为10。

3.3 利用线性回归方程求解兴趣度

根据LINEST (known_y's, known_x's, const, stats) 函数要求, 把数据α=3.247829、β=0.228428、γ=0.194637、ε=11.39658带入到:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε中, 从而得出页面兴趣度回归方程:

兴趣度=11.39658+3.247829*访问次数+0.228428*访问时间+0.194637*接收字节数, 记为:兴趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。

3.4 实验结果分析

通过利用线性回归方程计算出的兴趣度值与设定的兴趣度值进行比较, 易发现兴趣度值几乎吻合, 误差很小, 而且数据计算精度高。

由表1数据偏差值的统计数据, 易初步判断本实验建立的线性模型“兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε”准确, 下面进行理论证明。证明方法:利用方程的显著性检验———F检验, 判定访问次数、访问时间和接收字节数与页面浏览兴趣度的相关性程度, 进而准确判定线性模型准确与否。证明:由回归系数不难看出回归平方和ESS=4981.081, 误差平方和RSS=1162.919。由Table1:原始数据表A, B页面, 易得出总记录数n=25, 自变量个数k=3。所以利用方程显著性检验———F检验公式:F= (ESS/k) / (RSS/ (n-k-1) ) 可求出统计量F的数值为F=29.9828。给定显著性水平α=0.05, 利用查F-分布表可得到临界值Fα (k, n-k-1) =F0.05 (3, 21) =3.07。显然F>Fα (k, n-k-1) , 所以可判定原方程兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε总体上的线性关系在95%的水平下显著成立, 模型准确。

实验和理论同时表明, 通过线性回归预测方法预测浏览兴趣度, 兴趣度由线性回归方程求出, 相对于“兴趣度= (访问次数*访问时间) /接收字节数”这个公式来说, 由于考虑的因素更多, 建立的线性回归模型更准确, 所以求得的结果更精确, 并且具有预见性。需要指出的是, 本实验所提出的利用线性回归模型预测页面浏览兴趣度的方法还有很大的理论探讨空间。此外, 本实现的设定兴趣度值是作者主观设定的, 是否具有说服力还需进一步探讨。改进的思想是:兴趣度设定为三类, 重新确定回归系数。

通过线性回归预测方法预测页面浏览兴趣度, 是可行的并且具有较好的效果。

4 结束语

本文研究的是Web日志挖掘, 希望通过Web日志分析研究浏览兴趣度。研究的主要工作是:建立兴趣度的线性回归方程, 求出线性回归系数α、β、γ、ε, 预测网站浏览兴趣度。随着互联网的发展, Web服务的个性化趋势已成必然, 对浏览兴趣度的分析势必将成为分析浏览路径的一个越来越重要的依据。以后的研究应综合考虑各种因素, 这样挖掘出的用户兴趣模型会更准确。

参考文献

[1]张娥, 冯秋红.Web使用模式研究中的数据挖掘[J].计算机应用, 2002 (3) .

[2]赵亚林.线性回归模型估计的一种简便方法[J].青海大学学报, 2004, 22 (3) .

[3]田昌鹏.基于Web日志分析的Web Qos研究[J].计算机科学, 2007, 34 (6) .

浏览兴趣度篇2

个性化服务是指针对不同用户提供不同服务策略和服务内容的服务模式, 为了提供高质量的个性化服务, 需要构建准确的用户兴趣模型, 这就需要了解用户对内容的感兴趣程度[1]。一种获得用户兴趣度的方法是让用户自己标注感兴趣的内容。但是用户自己标注的方法固然能够获得较为准确的用户模型, 但大多数用户并不愿意参与标注。另外一种获得用户兴趣度的方法是根据用户浏览网页行为来计算用户兴趣度。所以如何准确的估计用户的兴趣度是作为个性化服务研究的重要内容, 也是决定个性化服务质量的关键因素。

1 用户浏览行为分析

浏览行为大致可以分为以下几类[2,3,4]。

(1) 标记行为:增加书签、删除书签、保存页面、打印页面等。

(2) 操作行为:复制、粘贴、剪切、拉动滚动条、点击链接等。

(3) 重复行为:重复访问同一个页面等。

由于用户对网页的处理动作属于心理强烈的反应动作, 能更明显地反映用户兴趣, 用户如果对此页面非常感兴趣, 一般都会采取保存页面和收藏页面这些操作, 而打印页面操作并不一定会发生, 而拉动滚动条, 点击链接等操作行为在浏览网页的时候一般都使用的比较频繁, 并不能很准确的反映用户是否对网页感兴趣。此外, 由于用户浏览网页时, 浏览网页的时间取决于网页内容的大小, 所以不能单纯分析用户的浏览时间长短去获取用户感兴趣网页。综合考虑, 本文分析保存页面、收藏页面和网页浏览速度这三种最能体现用户兴趣的浏览行为, 基于这三种行为计算用户兴趣度。

用户兴趣度[5]是指用户对一个网页内容的感兴趣程度, 采用0-1间的实数示, 0表示无兴趣, 1表示最大兴趣。

当前, 计算用户兴趣度的方法主要分两类, 一是基于浏览内容的方式[6,7], 二是基于用户行为的方式。前者计算的对象完全来自于Web页面本身的内容, 一般采用关键词频率和权重计算[8]。通过这种方法, 可以得到对用户浏览内容的概括, 但它没有考虑用户浏览页面时能反馈心理的动作信息。所以本文分析浏览网页行为进行用户兴趣度计算。设定初始用户兴趣度为Interest×[0, 1]。对每个网页l采用三种浏览行为来计算用户兴趣度。这三种浏览行为表示为:保存页面save (li) 、收藏页面bookmark (li) 和在页面上的驻留时间time (li) , 由于考虑网页大小会对驻留网页的时间有影响[9], 故采用保存页面save (li) 、收藏页面bookmark (li) 和网页浏览速度speed (li) 来重新作为这新的三种浏览行为[10]。其中l表示页面, i表示网页数, li表示访问的第i个网页。本文在计算用户对页面的兴趣度时做了如下规定。

(1) 保存和收藏页面这两个行为比较特殊, 只要其中一个发生了, 就表明用户对这个页面的兴趣度很高, 此时浏览网页速度也不再作为计算因子。此时收藏和保存页面与用户兴趣度的关系为一个二值函数[11]。

此时, 用户兴趣度与式h (li) 存在如下关系:

(2) 当保存和收藏页面这两个行为均未发生时, 只计算浏览网页速度产生的兴趣度。

由于计算用户浏览网页速度speed (li) 取决于网页大小size (li) 和页面驻留时间time (li) , 然而当用户在页面的驻留时间太短少于5s, 则认为用户对此网页不感兴趣;当用户在页面的停留时间太长大于3min, 可能造成页面驻留时间异常。所以为避免这两种情况, 在5s<time (li) <3min时才考虑页面驻留时间[12]。而页面浏览速度speed (li) 是依据页面驻留时间time (li) 和网页大小size (li) 产生的兴趣度函数定义为:

由于浏览网页速度越快, 表明用户对此网页越不感兴趣, 为了避免值过度偏离1, 则用户兴趣度与浏览网页速度存在如下关系:

由以上理论, 可以得到每个网页的用户兴趣度计算公式如下:

2 用户兴趣的衰减

时间对用户兴趣有着深入而广泛的影响。用户兴趣是会随着时间而变化的。基于此, 一些国内学者就假设人对某一事物的兴趣如果在没有外界刺激去加强它的情况下会随时间而衰减, 如同艾宾浩斯提出的人在学习过程中存在遗忘规律一样, 他描述了人类大脑对新事物遗忘的规律。基于这个规律, 艾宾浩斯提出了这种记忆保存量与时间关系的函数[13] (即兴趣衰减因子) :

其中, K (x) 表示记忆保存量, T=cur-per (cur表示当前时间, per表示第一次浏览该网页的时间) 单位为分钟, c=1.25、k=1.84时公式 (6) 所代表的遗忘函数与人的遗忘规律比较匹配。那么, 如果要准确预测用户现在的兴趣, 就应该关注用户最近的行为, 但是, 考虑用户最近的兴趣只能针对渐变的用户兴趣, 而对突变的用户兴趣是很难起作用。根据以上的理论, 得到了随着时间的流逝用户兴趣变化的计算公式:

其中, Interest (li) 为用户原来对每个网页的兴趣度, Interest* (li) 为衰减后的兴趣度。

根据以上公式, 得出用户对每个网页的兴趣度公式如下:

其中, new Interest (li) 为用户浏览一个新的页面后对该页面对应的兴趣度的变化值, 也可当做用户对该文档的兴趣度。为了避免单一的方法所造成的局限性, 本文决定通过用户的浏览动作即收藏页面和保存页面、浏览速度两者来对它进行计算, 得到公式如下:

其中, ω1为收藏和保存页面对应的权重, ω2为浏览网页速度对应的权重。

最后利用K-means算法依据网页内容聚类成主题, 每个主题随机选取10篇用户感兴趣网页进行实验, 所以根据式 (7) 得到主题的的兴趣度函数:

其中, p表示主题, m表示主题数目, j表示第m个主题的总共网页数目。由于兴趣度的值的维持在0和1之间, 为了避免页面兴趣度值偏大, 所以的归一化处理, 得到归一化的主题兴趣度函数:

3 实验分析

本文选取浏览一周的新浪用户感兴趣网页作为处理数据, 利用K-means算法最终聚类成为5个主题并且包含其文本内容, 并随机选取每个主题10篇文章作为实验数据。然后采用dyna Trace AJAX Edition软件来得到用户的浏览行为和操作, 然后通过用户浏览行为采用前面介绍的方法获取用户对每个网页兴趣度, 从而得到每个主题兴趣度。一周后再通过对浏览这些网页的用户群进行统计调查, 让用户自己评价对每个主题的兴趣度, 将用户主观的评价结果与根据计算得到的网页兴趣度进行比较。

实验步骤: (1) 采用dyna Trace AJAX Edition软件获取用户浏览行为, 该软件是一个前端性能测试工具, 能够捕捉用户在某一站点下的浏览行为, 包括浏览的页面地址、鼠标的点击事件以及页面的驻留时间等。在本文中, 获取的是用户访问的网页链接、浏览时间、网页大小、保存和收藏页面操作。用户浏览行为的获取数据如图1所示。经整理后的用户浏览行为如图2所示。 (2) 利用Java程序计算用户兴趣度, 随机选取其中部分网页兴趣度经整理如表1所示。

图2包括本文前面提到所需的的浏览行为, 即用户浏览网页的字节数, 用户浏览网页的停留时间, 经计算得到的用户浏览网页的速度和用户浏览网页时保存和收藏页面的操作动作。

从表1可以看出, 根据前面提到的兴趣度计算方法计算得到的用户兴趣度与用户自评的兴趣度值用绝对误差值来验证其合理和有效性, 绝对误差值控制在11%以内, 由此可以验证本文的用户兴趣度的计算方法是合理和有效的。

4 结束语

本文主要对用户的浏览行为进行了分析, 并在此基础上, 提出了一种基于网页浏览行为的用户兴趣度计算方法, 并结合了兴趣会随时间衰减的规律更新这个计算方法, 然后通过K-means算法将所浏览的网页内容聚类成主题, 然后获取主题兴趣度为后续的用户兴趣模型的构建提供了更好的基础。通过实验验证了这种计算方法的有效性。然而计算用户兴趣度只是建立用户兴趣模型的第一步, 如何使用合适的数据结构来存储用户兴趣, 并建立和更新兴趣模型将是下一步的研究内容。

摘要：用户兴趣度的计算是个性化服务的核心, 而用户浏览网页时的行为能反映用户的兴趣。文中着重分析保存页面、收藏页面以及网页浏览速度这三种网页浏览行为, 且在此基础上结合用户兴趣衰减因子, 提出一种新的基于网页浏览行为的用户兴趣的计算方法, 并利用K-means算法将浏览的网页内容聚类成不同主题, 最后基于这三种网页浏览行为和用户兴趣衰减因子计算用户主题兴趣度。实验结果表明, 提出的用户兴趣度计算方法是有效的。

浏览兴趣度篇3

关键词：支持度阈值,路径选择兴趣度,页面浏览兴趣度,综合兴趣度

一、引言

数据挖掘是指从大量的数据中挖掘或发现隐藏在数据中的知识。随着WWW的快速发展, Web已经成为信息制造、发布、加工和处理的主要平台。通过对Web用户的浏览行为进行挖掘可以发现许多有价值的信息, 如用户喜欢通过哪种方式, 哪种链接进入想要的网页, 用户喜欢点击哪些类型的链接, 喜欢查阅哪些方面的信息等。挖掘出来的信息可以广泛应用Web个性化服务、系统改进和个性化推荐等方面。Web挖掘[1,2]是通过数据挖掘技术来分析与网站相关的信息, 从而从这些信息中发现有用的模式。模式发现的目的是利用各种挖掘方法[3]从Web日志中挖掘出数据背后的用户访问规律。每个人上网都有自己的习惯和方式, 因此Web挖掘需要深入分析研究用户浏览行为和浏览兴趣, 从中挖掘出有用的信息, 再建立用户浏览路径发现模型。网上的网页具有网络拓扑结构, 可以根据拓扑路径找出用户的兴趣浏览路径的规律。Apiori算法是Agrawal提出的用于发现频繁路径的算法, 很多学者也提出了很多用于从Web日志中挖掘浏览模式的挖掘算法。文献[4]提出了最大向前序列法, 根据用户折返的特性形成若干浏览子序列, 文献[5]提出了参考长度法, 根据用户在网页上停留的时间形成浏览子序列, 文献[6]根据用户的浏览频度和网站的结构提出了支持-偏爱度概念, 并应用支持-偏爱度挖掘用户浏览偏爱路径。这些算法主要是根据浏览频度或者浏览时间来分析用户的浏览行为来发现用户浏览模式, 没有完全考虑用户浏览的兴趣或目的。本文中将网站的结构和内容以及用户的浏览行为相结合来定义用户的访问兴趣, 然后根据用户的访问兴趣挖掘用户的兴趣浏览模式。

二、基于用户浏览兴趣的路径发现模型

首先找不同背景、不同年龄的人, 让他们浏览网页, 从所有的网页中选择比较有代表性的, 对其进行研究。在选定的站点中, 经过很多人的点击浏览, 会留下大量的日志文件。我们先通过日志文件中的信息, 整合网页被访问的次数, 也相当于路径选择, 用一个n*n的矩阵将这几个网页之间的访问路径和次数记录下来, 命名为wnn, n代表要用研究的网页数, w[i][j]代表从网站i到网站j的次数。

当然, 用户浏览兴趣支持度有个限度, 即用户浏览兴趣支持度阈值。当实际用户路径选择兴趣和页面浏览兴趣的综合小于这个阈值, 就要放弃这个路径。通过求出路径选择兴趣度和页面浏览兴趣度的乘积, 便可以和这个阈值比较, 决定路径是否属于用户浏览兴趣路径集Interestpath, 那么路径选择兴趣度用公式表示就是:

其中sk代表某网页x到本网页任一个连接所到达的网页k的访问次数, 分母表示网页x到所有连接的总次数的平均数, 充分体现了用户选择k连接的兴趣度。

对于页面浏览兴趣度, 需要知道页面浏览兴趣矩阵Inn, 且将页面浏览兴趣划分为几个等级, 用数字表示, 数字越大代表页面浏览兴趣越大。I[i][j]表示从i页面到j页面后, 在j页面的兴趣和。页面浏览兴趣度的公式可以表示为:

其中Ik表示从页面x到该网页上某个链接k上的浏览兴趣和, 而分母表示网页x上所有连接页面的浏览兴趣总和的平均数。

将用户路径选择兴趣度和页面浏览兴趣度之积为综合路径兴趣度:

先求出某个页面到其余所有页面的路径选择兴趣度和与页面浏览兴趣度和, 再单独求出这个页面与其他某个页面的综合兴趣度。若这个路径的综合兴趣度大于阈值, 说明这两个网页之间的路径是备选的用户兴趣路径, 并将这些符合条件的路径放入2项集中。因为有的用户路径不仅仅只有这么长, 需要尽可能找出最长的兴趣路径, 且这条最长路径中的每一段都满足条件。然后对二项集中的路径进行合并, 如:路径<1, 3>, <3, 5>满足条件, 这两条子路径就可以合并, 得到的三项集<1, 3, 5>也是满足条件的。根据二项集的顺序将所有路径逐个查找有无可以合并的路径, 如果有不能合并的路径, 就放入Interestpath中。虽然他们不能再合并, 但还是满足条件的用户需求路径。接着对三项集、四项集……进行合并, 两个k项集路径是否合并, 看一个路径的后k—1位是否等于另一个路径的前k—1位。若相等, 则可以合并, 若不等, 则不可合并。一直到最后只有一个最长需求路径, 不能再合并, 把他放入Interestpath中。

三、分析

实验数据是以调查10个网页为例, 找一定数目的实验主体, 在这10个网站之间按着自己的兴趣和习惯点击, 然后通过查看其Web浏览日志, 获取路径选择的次数和兴趣选择的程度。

设浏览兴趣支持度阈值为2。

第一行:对于路径<1, 2>, (7/ (41/4) ) * (10/ (79/4) ) =0.345<2所以<1, 2>不满足条件, 而路径<1, 3>, (20/ (41/4) ) * (50/ (79/4) ) =4.95>2, 所以路径<1, 3>是浏览兴趣字路径;

第二行:同上, 浏览兴趣子路径有<2, 4>, <2, 6>;

第三行:浏览兴趣子路径有<3, 6>;

第四行:浏览兴趣子路径有<4, 7>;

第五行:无浏览兴趣子路径;

第六行:浏览兴趣子路径有<6, 5>;

第七行:浏览兴趣子路径有<7, 8>;

第八行:浏览兴趣子路径有<8, 9>;

第九行:浏览兴趣子路径有<9, 6>;

第十行:无浏览兴趣子路径。

2项路径集包括<1, 3>, <2, 4>, <2, 6>, <3, 6>, <4, 7>, <6, 5>, <7, 8>, <8, 9>, <9, 6>。

将2项路径集合并为3项路径集。<1, 3>与<3, 6>合并为<1, 3, 6>, <2, 4>和<4, 7>合并为<2, 4, 7>, <2, 6>和<6, 5>合并为<2, 6, 5>, <3, 6>和<6, 5>合并为<3, 6, 5>, <4, 7>和<7, 8>合并为<4, 7, 8>, <7, 8>和<8, 9>合并为<7, 8, 9>, <8, 9>和<9, 6>合并为<8, 9, 6>。3项集有<1, 3, 6>, <2, 4, 7>, <2, 6, 5>, <3, 6, 5>, <4, 7, 8>, <7, 8, 9>, <8, 9, 6>, <9, 6, 5>。

将3项路径集合并为4项路径集<1, 3, 6, 5>, <2, 4, 7, 8>, <4, 7, 8, 9>, <7, 8, 9, 6>, <8, 9, 6, 5>, 而<2, 6, 5>和<3, 6, 5>不能和其他2项路径集合并, 放入Interestpath中。

将4项路径集合并为5项路径集<2, 4, 7, 8, 9>, <4, 7, 8, 9, 6>, <7, 8, 9, 6, 5>, 而<1, 3, 6, 5>不能和其他4项路径集合并, 放入Interestpath中。

将5项路径集合并为6项路径集<2, 4, 7, 8, 9, 6>, <4, 7, 8, 9, 6, 5>。

将6项路径集合并为7项路径集<2, 4, 7, 8, 9, 6, 5>, 最长兴趣路径放入Interestpath中。

最后得到的兴趣路径集Interestpath有元素<2, 6, 5>, <3, 6, 5>, <1, 3, 6, 5>, <2, 4, 7, 8, 9, 6, 5>。

四、结论

发现用户的浏览模式是现阶段Web日志挖掘的主要目标。利用Web日志挖掘结果, 企业可以更好地组织已有资源为用户提供个性化服务。本文使用一种用户兴趣行为获取机制来获取用户的访问日志。在分析用户行为的基础上, 根据用户的兴趣设计了基于路径选择兴趣和网页浏览兴趣的Web日志挖掘算法。实验结果表明, 该算法能够准确地反映用户的浏览兴趣。

参考文献

[1]涂承胜, 陆玉昌.WEB使用挖掘技术研究[J].小型微型计算机系统, 2004, 7 (25) :1177-1184.

[2]Margaret H.Dunham著.数据挖掘教程[M].北京:清华大学出版社, 2005.

[3]韩家炜, Kamber M.数据挖掘概念与技术[M].范明, 孟小峰, 等译.北京:机械工业出版社, 2001.

[4]M.Chen M.S, Park J.S.Data mining for Path traversal Pattems in a Web environment[C].Proceedings of the16th International Conference on Distributed ComPuting Systems.USA:IEEEComPuter Soeiety, 1996:385-392.

[5]B.Mobasher and J.Srivastava.Data preparation for mining World Wide Web browsing patterns[J].Journal of Knowledge Information Systems, l (l) (1999) :2-9.

浏览兴趣度篇4

目前,大量的学者和研究人员在通过浏览行为获取或判断用户兴趣网页的领域里取得了较多的成果,文献[3]将用户浏览行为分成生理行为、间接行为和显著行为3种,然后对这三种行为进行量化并计算每张网页的兴趣度。文献[4]则将分析的对象扩展到用户浏览行为、兴趣行为和用户访问活动系列等方面。而文献[5]仅将浏览时间和翻页与滚动条滑动次数作为分析对象。虽然现阶段对浏览行为进行分析的成果较多,但由于分析的方法和对象各有不同,因此最终获取兴趣网页的效果也有所区别,有的看重效率与实用性,有的则强调准确性。

1 基于改进浏览行为量化分析的兴趣网页获取方法

为了获取用户的兴趣网页,文献[1]利用BHO(Browser Helper Objects)与钩子技术相结合的方法捕获用户浏览的网页,并记录浏览行为,通过对浏览行为的量化分析BAQA(Browsing Action Quantitative Analysis)来识别浏览的网页是否是兴趣网页。在文献[1]中,主要分析的浏览行为有浏览时间、鼠标点击、页面滚动、以及菜单操作,最后再辅以用户主动判定兴趣网页的操作。而前四种行为的量化方法则是依据如公式1:

在公式1中,Vaction是某一行为的贡献值,而Anavigate则是在某一网页上的某一行为的统计值,如鼠标点击则是统计鼠标在该网页上的点击次数,Amean是用户在某一行为上的平均统计值,Baction是该行为的贡献基数,而Maction则是该行为的奖励因子。其中Anavigate和Amean可以通过统计得到而Baction和Maction则只能通过人为设定或自动优化得到。最后的用户主动判定行为由于是用户的主观意志,因此量化十分简单,其贡献值Vuser缺省值为0,如果用户点击了主动判定按钮,即认为该网页确为感兴趣的网页,那么Vuser将被赋予一个表示兴趣最大的常数MAX。因此用户对某一网页的兴趣度就被量化为:

其中Vaction代表浏览时间、鼠标点击、页面滚动及菜单操作四种浏览行为。由此可见,计算用户对某一网页的兴趣值,关键是计算四种行为的贡献值,而计算四种行为的贡献值则需要确定八个未知参数,虽然文献[1]中提出了两种自适应的优化方式来确定这八个参数,然而八个参数的确定依然会花费一定的时间,并且会对兴趣网页识别的准确度造成影响。因此本文针对这一问题提出了一种改进的浏览行为量化分析方法IBAQA(Improved Browsing Action Quantitative Analysis)。

事实上,文献[1]的浏览行为量化分析方法主要忽略了一个重要的问题,即各浏览行为的量纲不同,浏览时间以秒为单位,而鼠标点击、页面滚动和菜单操作都是以次为单位,那么几种量纲不同的数据要加到一起,自然需要通过因子来进行调整。如果能够在计算各行为的贡献值时,将原本有量纲的数据转换成无量纲的数据,那么几种行为的贡献值就可以顺利的加到一起作为最后的兴趣值。通常将有量纲的数据转换成无量纲的数据采用的方式是归一化。本文利用归一化的方式将四种行为的贡献值转换到0至1的区间上,去除其量纲,减少参数的设定。改进后的浏览行为贡献值计算方法如公式3:

由公式4可见,Taction是当前动作在所有网页里面的量化值之和,m是获取的用户浏览历史网页总数,因此公式3中的Aaction/Taction即反映在某一网页中,用户的浏览行为与该浏览行为的所有记录比,偏大还是偏小。将该行为的量化值归一化后,可以取消公式1中的参数Baction,这样在应用时,只需确定四个参数就行了。最终兴趣度的计算公式不变,沿用公式2。

关于Maction的确定以及异常网页和特殊网页的判定则沿用文献[1]的方法,在此不在赘述。最终兴趣网页的获取主要是依赖BHO与钩子技术共同抓取用户的浏览行为,并进行计算,然后将兴趣网页保存到指定的文件夹中,详细过程在文献[1]中有具体的阐述。

2 实验与分析

为了验证IBAQA的效果,本文在四位志愿者在一个月内根据自身兴趣浏览网页的所获取的浏览历史上同时使用IBAQA与BAQA进行实验分析,判定在所有的历史网页中,哪些是属于兴趣网页,参数的确定方式采用文献[1]提出的自适应调整方式,最大兴趣网页比例Nmax=70%,最小比例Nmin=15%。得到的实验结果如表1所示。

在表1中,用户兴趣网页列是用户后来自己确认的兴趣网页的数量,提取兴趣网页列则是分别由IBAQA与BAQA识别的兴趣网页数量,提取正确的兴趣网页列是在所识别出来的兴趣网页中,符合用户自己确认的兴趣网页的数量。从表1可以看出,IBAQA与BAQA相比,在获取兴趣网页的精确率和召回率上,差别并不大,并且有时还略优于BAQA,但是运行时间上,由于IBAQA的可变参数更少,因此在自适应调整参数时,拟合优化所花费的时间更少,因此通过用户浏览行为模型判断兴趣网页所需的时间就更少。

综上所述,使用IBAQA算法建立判断兴趣网页的用户浏览行为模型,可以保证较高的精确率和召回率,并且较大幅度的缩减所需时间。

3 总结与展望

本文在文献[1]的基础上提出一种改进的基于浏览行为量化分析方法,主要是将四种浏览行为的数据进行归一化,使其所表示的含义在一个层面上,最终减少需要确定的参数数量,减少运行所需时间,提高运行效率。在今后,针对用户兴趣网页的获取还应该进一步的提高兴趣网页的判定精确率和召回率,并且建立用户浏览行为的拟合机制,通过用户的长期浏览,不断更新用户的浏览行为模型,使兴趣网页获取系统具有自我更新功能。

参考文献

[1]朱征宇,周智,罗颖,等.基于浏览行为量化分析的兴趣网页提取.重庆工学院学报,2009,23(7):79-84.

[2]何颖.基于用户浏览行为挖掘的网站个性化推荐系统[J].电脑知识与技术,2007(12):528-529.

[3]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151.

[4]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与设计,2012,33(3):968-972.

[5]郑晓宇.基于用户兴趣挖掘的个性化信息推送服务[J].情报探索,2011,168:33-36.

[6]米雪,张宁.基于网页浏览的用户兴趣行为研究[J].电脑知识与技术,2010,6(34):9834-9836.

[7]陈永平.基于兴趣度的协作过滤技术研究[J].计算机技术与发展,2008(1):106-110.

[8]戎晓霞.基于BHO和协同技术的多级文语IE的实现[J].计算机工程,2004(2):42-44.

[9]赵银春.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005(12):93-94.

【浏览兴趣度】推荐阅读：

糖果浏览器之浏览网页降龙十八掌10-21