Web使用记录挖掘

2024-11-25

Web使用记录挖掘(共6篇)

Web使用记录挖掘 篇1

0.引言

目前, 电子商务已经相当普遍, 而且具有更加深入、广泛的发展前景。与此同时, 竞争也日趋激烈, 如何留住老客户并不断吸引新客户是每个电子商务网站所面临的挑战, 而取胜的关键就是发现客户的兴趣访问模式并在此基础上提供个性化服务, 利用Web使用记录挖掘可以实现该目标。Web使用记录挖掘通过对Web日志记录的挖掘, 发现用户访问Web页面的模式, 其主要目标是从Web的访问记录中抽取感兴趣的模式[1]。

早期的Web使用记录挖掘主要是利用用户访问Web时在Web日志里留下的信息来获取用户浏览路径, 这种方法比较适合静态页面, 不能很好地适用于当前的互联网动态应用, 而且, 这种方法主要集中在对用户浏览路径上的分析, 挖掘出来的访问模式没有充分考虑Web页面的内容和用户的自身特性, 很难体现用户的兴趣访问模式以及兴趣访问模式与用户自身特性之间的内在联系。文献[2]对动态网页环境下的Web使用记录挖掘进行了研究, 提出了一种在动态网页环境下进行数据采集的方法, 使用新的数据集代替Web日志作为待挖掘的数据。文献[2]可以有效地提高待挖掘数据的质量并解决了早期Web使用记录挖掘方法中的一些难点, 如用户识别等, 对于注册并登录的用户的访问行为可以实施有效地跟踪, 但是, 由于并不是所有的用户都愿意注册, 且每一次访问时都愿意登录, 因此, 这种解决方法存在一定的不足。本文提出了将传统的基于Web日志的Web使用记录挖掘与文献[2]中的Web使用记录挖掘相结合的新方案, 实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

1. 传统的Web使用记录挖掘

传统的Web使用记录挖掘的实现过程主要分三步:数据预处理, 模式发现和模式评估。

1.1 数据预处理

在传统的Web使用记录挖掘中, 挖掘所使用的数据集是用户访问日志, 分别存在于服务器、代理服务器和客户端。不同地方的访问日志数据集体现了用户使用网络资源的不同模式, Web服务器的日志体现了"多个用户/单个站点"的访问模式, 代理服务器日志体现了"多个用户/多个网站"的访问模式, 客户端浏览器日志体现了"单个用户/多个网站"的访问模式。数据预处理就是要把这些日志进行收集、清洗、处理, 形成多个用户一次次对同一服务器的会话, 主要涉及用户识别、会话识别、网页浏览识别和用户访问服务器会话期间网页浏览序列推断。

用户识别:要准确识别出每个用户是很困难的, 这主要是因为用户访问和服务器资源不是一对一的关系, Web服务器的日志可能记载了一个用户在多个客户端提交请求的情况, 也可能是多个用户在一个客户端提交请求的情况。另外, 缓存、防火墙和代理服务器等的存在也导致用户识别很困难。文献[3]总结了常用的确定用户及其行为的方法及其优缺点。

会话识别:由于Web服务器是并发处理多个用户的请求, 要想识别出所有用户访问会话期间也是比较难的, 一般是基于对用户浏览行为的假定。研究人员基于"用户访问过程中只有在改变访问主题时, 才会访问前面访问过的页面以跳转到另外的页面"提出了最大前向参引模型 (Maximal Forward Reference Model) , 基于"用户一次访问的时间都不会超过一个最大的限制, 即时间窗口 (Time Window) "提出了时间窗口模型 (Time WindowModel) 。文献[3]提出了把时间窗口模型和最大参引模型结合起来的方法。

网页浏览识别:指一个网页浏览包括哪些网页文件请求, 以及共同构成什么样的内容。用户操作请求所得到的内容通常可以由服务器日志中请求字段的内容获得。

网页浏览序列推断:客户端存在缓存, 用户访问过程中会不断访问到缓存中存在的页面, 例如, 利用"back"按钮进行后退, 点击一个已经点击过的连接, 直接从浏览器历史列表中点击一个连接。会话识别只是区分出了一个个用户访问服务器的会话期间, 但没有包含用户访问过的所有页面, 这是由于客户端存在缓存, 因此, 需要推断和完善用户访问服务器的会话期间, 即路径补全。

1.2 模式发现和模式评估

Web使用记录挖掘常用的方法包括:统计分析, 可以对会话文件进行分析以获得网页浏览、浏览时间和路径长度等方面的统计信息;关联规则挖掘, 可以发现一个会话中经常一起访问的网页, 为市场营销或重新组织网站内容提供决策支持;聚类分析, 可以做用户聚类进而为用户提供个性化服务, 也可以做网页聚类协助建立具有相关内容的网页组;序列模式分析, 可以发现一个会话内部的网页间的时间相关性进而帮助预测网页的访问情况等。

模式评估用于将所发现的模式转化为有用的知识, 一般是结合领域知识将无意义或无价值的模式去除。

2. 基于定制数据采集的Web使用记录挖掘

传统Web使用记录挖掘所使用的数据集主要是Web服务器的日志。然而, 目前绝大多数网站都使用动态页面, 这使得Web日志增大、与挖掘无关的数据项增多, 这些加大了数据预处理的难度, 因此, 动态网页环境下的数据预处理成为针对动态网站进行Web使用记录挖掘的关键。

文献[2]中针对电子商务应用提出了一种Web使用记录挖掘中数据采集的新方法, 该方法根据电子商务个性化服务的目标和Web使用记录挖掘的要求设计了"用户访问记录", 并以此代替Web服务器的日志。"用户访问记录"由服务器应用程序收集。"用户访问记录"将Web日志的内容和电子商务中的购物记录、查询记录有机结合, 可以有效反映用户的兴趣访问模式。用户访问记录的内容包括用户标识、用户的IP地址、使用代理、访问日期时间、页面请求的来源页面、对象URL、搜索的关键字、访问对象类型、用户动作 (查看、购买、放弃购买等) 及商品号。如果将"用户访问记录"、用户注册信息和交易信息再进行有机结合, 则可以发现兴趣访问模式与用户自身特性之间的内在联系, 则可以为电子商务的营销提供有力支持。文献[2]中的方法对于注册并进行登录访问的用户非常有效, 但对于初次访问、未注册用户的访问以及注册用户但不进行登录的访问, 处理的比较粗糙, 存在不足。另外, 服务器数据采集程序收集"用户访问记录"增加了服务器的负载, Web服务器的日志没有被加以利用。

3. 用户访问日志与定制数据采集相结合的Web使用记录挖掘

针对传统的Web使用记录挖掘和文献[2]的不足, 本文提出了将用户访问日志与定制数据采集相结合的新方案, 该方案实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

新方案的系统模型借鉴了文献[4]中的结构, 如图1所示:

在数据采集层, 对于初次访问、未注册用户的访问以及注册用户的不登录的访问, 数据来源为用户访问日志和交易数据库, 并且不进行定制数据采集以减轻服务器的负担, 经过数据清洗和用户识别后, 进一步进行会话识别、浏览序列识别和网页浏览序列推断, 从而完成数据预处理。对于注册用户的登录访问, 数据来源于定制数据采集产生的"用户访问记录"、交易数据库以及用户注册信息, 这些数据无需进行数据清洗和用户识别, 而是直接进行会话识别及其后的步骤即可实现数据预处理。

数据由数据存储层进行存储和管理, 主要有三类数据存储方式:关系数据库、数据仓库和事务数据库。关系数据库是数据挖掘最丰富的数据源之一;数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[5,6], 主要用于支持决策;事务数据库一般为一个文件组成, 其中每个记录代表一个事务, 事务数据库特别适合于"购物篮数据分析"。网站可以根据实际需求选择数据存储方式。

模式分析利用层由两部分组成:个性化网站及商业智能。其中, 个性化网站由Web服务器、推荐引擎和推荐集三部分组成, 目的是实现网页的内容从以"网站"为中心到以"用户"为中心的转变, 尽可能地自动调整以迎合每个用户的浏览兴趣与购买模式, 从而方便用户 (网站的访问者) , 促进采购量。

4. 结束语

本文研究了Web使用记录挖掘, 特别是针对数据采集和预处理, 进行了深入研究, 对比了已有方案的优缺点, 并在此基础上提出了新的解决方案。Web使用记录挖掘有广泛的应用领域, 其中, 电子商务是最为重要的领域之一, 面向电子商务的Web挖掘应用系统已经成为研究热点, 我们将继续进行更深入的研究。

参考文献

[1].Srivastava J.Web usage mining:Discovery and application of usage pat-terns from Web data[A].SIGKDD Explorations[C].New York:ACMPress, 2000.43-56.

[2].何典, 梁英, 动态网页环境下的Web使用记录挖掘研究, 《微计算机信息》 (测控自动化) 2006年第22卷第8-1期P122-124

[3].张娥, 郑斐峰, 冯耕中, Web日志数据挖掘的数据预处理方法研究, 《计算机应用研究》2004年第2期P58-60

[4].程筱胜, 廖文和, 田宏, 薛善良面向电子商务的Web挖掘系统模型研究与应用, 《南京航空航天大学学报》2004年第36卷第三期P322-326

[5].Kanm rani A, Rong W, Gonzalez R, A genetic algorithm methodologyfor data mining and intelligent knowledge acquisition[J], Computer&In-dustrial Engineering, 2001, 40 (2) :361~377

[6].Chen L D, Toru S, Data mining methods, applications, and tools[J], In-formation System Management, 2000, 17 (1) :65~70

Web使用挖掘及应用研究 篇2

近年来Internet的迅速发展,使得WWW已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为企业决策提供了丰富资源的同时也提出了新的挑战[1]:难以准确获得所需要的信息、难以获得信息之间潜在的知识和个性化的信息服务。无论个人还是企业,现实的竞争形势要求他们对互联网上大量出现和产生的信息进行实时和深层次的分析。因此人们迫切需要一种能够从Web上快速、有效地发现资源和知识的工具-Web数据挖掘。

Web挖掘是将Web技术与数据挖掘技术结合起来,来获取Web知识的过程。Web挖掘一般的定义为:从与www相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。Web挖掘可分为3类[2]:Web内容挖掘(web content mining)、Web结构挖掘(web structure mining)和Web使用挖掘(web usage mining)。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web 结构挖掘是从WWW 的组织结构和超链接关系中推导知识。Web使用挖掘主要是从Web 的访问记录中抽取感兴趣的模式。其主要特点是对用户信息数据进行抽取、转换、分析和其它模型化处理,从中提取辅助企业决策的关键性数据。

Web使用挖掘是目前信息技术中的研究热点之一,本文在介绍Web使用挖掘的基础上,从Web使用挖掘的数据类型、过程和实际应用三个方面详细地阐述了Web使用挖掘技术。

2 Web使用挖掘

Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。

2.1 Web使用挖掘的数据类型

Web使用挖掘的对象是存储在Web服务器上的日志文件上的数据项,在Web使用挖掘过程中, 有多种数据可作为Web挖掘的处理对象,包括:Server log,Proxy Server log,Client端的cookie log、用户简介、注册信息、用户对话或交易信息等,主要是Web服务器上的log 日志等。这些数据大致可分为以下几类[3]:

⑴内容数据:用户在网页上看到和使用的真实数据,主要是文本和图像。

⑵结构数据:描述网页内容如何组织的数据,页内的结构可用HTML、XML表示为树型结构,HTML标志成为树的根;页间结构可用连接不同网页的超链接来表示。

⑶使用数据:描述网页使用模式的数据,如IP地址、URL、网页引用、访问时间和日期等,表示了用户的行为模式。典型的使用数据来自服务器日志。

⑷用户资料:有关Web 站点用户的统计信息,包括用户注册信息和个人资料,如用户名、学历、职务、年龄、收入、个人爱好等。

2.2 Web使用挖掘的过程

虽然Web自身有着异质、分布、动态、无统一结构的特点,从局部来看在每个提供信息资源的Web服务器上都有一个结构比较完善的log 日志文件,对其进行挖掘是切实可行的且具有重要意义。Web使用挖掘过程一般分为三个阶段[4]:预处理、模式发现、模式分析。

2.2.1 数据预处理阶段

Web使用挖掘首先要对挖掘数据进行预处理, 其目标是将包含在多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象概念, 然后在事务数据库上实施挖掘算法,以期最终获得有价值的规律。这个阶段主要包括数据清洗和事务识别两个部分。数据清洗主要是对无关记录的删除、判断是否有重要的访问没有被记录、用户的识别等。事务识别是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。

2.2.2 模式识别阶段

这个阶段采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。实现算法可以是统计分析、聚类、分类、关联规则和序列模式识别等。对Web使用记录的挖掘,早期大多数统计的方法进行。当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问的模式进行多种简单的统计,如频繁访问页、单位时间访问数、访问数据量的时间分布图等。

2.2.3 模式分析阶段

挖掘出来的用户行为模式(集合),需要合适的工具和技术对其进行分析、解释和可视化, 从中筛选出有趣(有用) 的模式,使之成为人们可以理解的知识,否则挖掘出来的模式将得不到很好的应用。这个阶段的任务是采用合适的成熟的技术和工具,进行模式的分析,从而辅助分析人员的理解,使采用各种工具挖掘出的模式得到很好的利用。目前最常见的的模式分析方法有两种:一种是象SQL那样的知识查询机制,采用SQL 查询语句进行分析。另一种方法是将Web使用数据装入数据仓库,以便执行联机分析处理(OLAP)并提供可视化的输出结构。诸如图形化模式或为不同的值赋予不同颜色的可视化技术,可以使得数据中的总体模式或趋势变得很突出。

3 Web使用挖掘的应用

Web使用挖掘技术以用户的访问日志为源数据,可为企业或公司发现许多重要的信息。

3.1 Web使用挖掘在企业客户关系管理中的应用

随着科学技术的发展,许多行业的产品趋于成熟、同质化,产品不再是企业竞争力的唯一核心,尤其是电子商务的出现,使得客户有了更大的选择空间,如何搞好客户关系,满足客户的需要将是企业迫切需要解决的问题。

通过Web使用日志的挖掘了解客户访问模式,包括客户访问习惯、访问兴趣等,再结合对客户业务数据的挖掘,了解客户交易情况,从而来进行客户关系管理。

3.2 Web使用挖掘在企业网站建设中的应用

网站的吸引力取决于其内容和组织结构的合理设计。通过对网站访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务,如有些学者提出了可适应站点的概念,即通过用户访问模式改进Web站点内容。网站、网页的内容和结构不是一成不变,为吸引用户访问,提高知名度,网站、网页的设计必须考虑用户的需求。Web 使用挖掘能提供用户访问网站、网页行为的信息。网站的设计者可根据这些信息来对站点的结构和内容进行修改,以适应用户的需要。比如,可根据用户对某些页面访问的频度来决定页面的链接层次和深度。

3.3 Web使用挖掘在个性化服务中的应用

随着越来越多的人使用互联网,针对某类用户提供个性化服务是吸引用户访问站点的一个有效手段。通过对网站访问日志的挖掘,获取用户访问模式信息,了解用户的意图和行为。根据用户本身情况以及网站的使用情况,为用户提供动态建议是许多市场营销中及为重要的功能。

如通过对用户存取日志文件中的存取事务进行聚类分析,发现用户的个性化搜索兴趣模式,根据个人的喜好,为每个用户定制符合其个人特色的Web站点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等方面动态进行定制。

4 结束语

Web 使用挖掘已成为Web 数据挖掘的研究热点之一。Web使用挖掘是为了挖掘用户访问网站的行为模式,并将其应用于网站优化、企业决策支持等活动中,以提高企业的竞争力。本文主要介绍了Web使用挖掘过程及其应用,重点分析了Web 使用挖掘的技术,最后给出了Web使用挖掘的具体应用。

参考文献

[1]Raymond Kosala,hendrik Blockeel.Web Minning Re-search:Survey[J].SIGKDD Exllorations,2000,2.

[2]韩家炜,孟小峰.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-413.

[3]毛国君编著.数据挖掘原理与算法[M].北京:清华大学出版社,2005,7.

Web使用记录挖掘 篇3

Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[1], 从而可以为用户提供个性化服务, 改进系统, 优化站点。本文通过对网站服务器日志进行挖掘, 找出其中存在的频繁访问模式并提出网站改进意见。

2 Web使用挖掘日志预处理方法

2.1 数据源

Web使用挖掘主要的数据源有3种:Web服务器日志 (Web server log) 、代理服务器日志 (Proxy log) 和用户浏览网页所留下的Cookie文件。在这3种数据中, Web服务器日志是最常用也是最直接的数据源, 可以直接在Web服务器上生成;对于代理服务器日志文件来说, 由于用户分布很广泛, 网站用户可能通过大量的代理访问该网站的网页, 所以收集使用代理所留下的日志文件比较困难;而对于单个用户来说, 由于涉及隐私问题, 所以在用户机上收集信息也会存在问题。鉴于以上考虑, 一般的Web使用挖掘大多采用Web服务器日志, 所以Web使用挖掘通常也称为Web日志挖掘。

2.2 Web日志预处理过程

Web日志预处理是在Web日志挖掘前, 对Web日志数据进行清理、过滤以及重新组合的过程, 其目的是剔除日志中对挖掘过程无用的属性及数据, 并将Web日志数据转换为挖掘算法可识别的形式。通常, Web日志数据的预处理过程主要包括:数据清理、用户识别、会话识别、路径补充、事务识别5个过程[2]。预处理过程的输入数据有服务器日志、站点拓扑结构和其他可选择信息, 输出数据有用户会话文件和事务数据库。

数据清理指删除Web服务器日志中与挖掘算法无关的数据, 合并某些记录。Web日志记录中大部分是网页自动产生的图片记录, 用户访问网页的主要目的在于网页内容而非图片 (专门提供图片的网站除外) , 所以需要剔除这些记录。此外, 用户请求失败的记录和访问网站时自动生成的Java脚本记录也不是挖掘所需, 需要剔除。所以, 在数据清理中需要剔除图片记录、脚本记录和请求失败的记录以及其他需要剔除的记录。

用户识别就是区分不同的用户。由于防火墙和代理服务器的存在以及不同用户使用相同设备上网等原因, 可能造成用户的不一致, 一般采用基于启发式的规则[3]来识别用户:

(1) 不同的IP地址代表不同的用户;

(2) 当IP地址相同的时候, 以不同的浏览器或者操作系统来区分不同的用户;

(3) 在IP地址相同、用户使用的操作系统和浏览器也相同的情况下, 判断每一个请求访问的页面与访问过的页面之间是否有链接, 如果一个请求访问的页面与上一个已经访问过的所有页面之间并没有直接链接, 则假设在访问Web站点的机器上同时存在着多个用户。

会话识别的目的在于区分同一用户在不同的时间所进行的不同会话, 用户会话S是一个二元组, 其中Userid是用户标识, PS是用户在一段时间内请求的Web页面的集合。

PS包含用户请求页面的标识符Pid和请求时间, 则用户会话S可以表示为公式 (2.1) 所示的元组:

通常采用设定时间阈值的办法来确定不同的会话, 即当用户在某一会话中超过了设定的时间阈值, 就认定该用户进行了下一个会话。如设定整个会话的时间阈值为T, 则对于公式 (2.1) 中的会话必须满足公式 (2.2) 所示条件:

否则认为该用户进行了不少于一次的会话。一般的应用中将时间阈值设定为30分钟, 但是L.Catledge和J.Pikow[4]由经验数据得出时间阈值设为25.5分钟更好。本文中采用30分钟作为时间阈值。

由于本地缓存和代理服务器缓存的存在, 使得服务器日志会遗漏一些重要的页面请求。路径补充的任务就是将这些遗漏的请求补充到用户会话当中。如果两个页面之间没有直接的超链接关系, 则很可能用户采用了浏览器的“后退”功能, 而由于本地缓存的存在, 日志中没有记录相关的信息, 这时就需要进行路径补充。路径补充需要将日志记录与网页的拓扑结构相结合进行。

用户会话是Web使用挖掘中唯一具备自然事务特征的元素, 但是, 要想更好地进行有效的挖掘, 就必须将其分割为更小的事务, 这里只是借用了事务的“说法”, 也称作片段识别 (Episode Identification) 。常用的事务分割方法是最大向前引用路径 (Maximal Forward Reference Path) 方法[5], 该算法的主要思想是把一个最大向前引用路径看成一个片段:如果用户在浏览过程中再次浏览已经浏览过的页面 (即使用“后退”功能) , 则认为向前引用终止, 得到一个最大向前引用路径;如果用户浏览完成也得到一个最大向前引用路径。

2.3 数据采集及预处理

本文采用的数据是原版英语小说网[6]在2009年5月7日00:00~23:59的服务器日志, 日志以文本形式保存在TXT文件中, 共247M, 总记录条目约100万条。

为方便, 将Web日志导入My Sql数据库中, 采用前文所述的方法进行数据处理。首先将日志中不符合要求的记录清除, 清除的日志条目主要是以下几类:

(1) 图片记录, 即以jpg、jpeg、gif、JPG、GIF、JPEG、png等后缀名结尾的记录;

(2) 网站自动生成的Java脚本文件, 即以js、css等后缀名结尾的记录;

(3) 请求方法不是GET的记录;

(4) 响应值不等于200的不成功的请求记录;

(5) 广告条目记录, 即URL以/ad开头的记录。

使用Sql语句将数据中不需要的条目清除。在剩余的数据中, 有一部分是搜索网站的网络蜘蛛自动抓取时留下的记录, 这些记录对于研究用户浏览模式没有直接的联系, 可以将其删除, 整个数据清理过程结束之后得到430 865条记录。采用前文介绍的用户识别、会话识别方法进行识别, 总计得到5 693个独立用户, 6 298个独立会话, 最后进行事务识别, 得到7254条事务记录。

3 挖掘模型的建立

3.1 关联规则

关联规则是指大量数据中项集之间有趣的联系, Web日志挖掘的关联规则就是描述一个用户会话中用户的各浏览行为同时出现的规律, 其目的在于找出Web日志访问记录中隐含的联系。一般来讲, 关联规则的发现要经过以下4个步骤[7];

(1) 进行数据清理、集成、转换、聚集等数据准备。在Web使用挖掘中, 数据预处理工作完成了第一步——数据准备。

(2) 根据实际情况, 确定最小支持度和最小可信度。在Web使用挖掘中可以根据网站使用的实际情况, 如用户的点击量、点击率等确定。

(3) 利用数据挖掘工具提供的算法发现关联规则。

(4) 可视化显示、解释、评估关联规则, 即Web使用挖掘中的最后一步——模式分析。

在关联规则发现算法中, Apriori算法是一种最具有影响的挖掘布尔关联规则频繁项集的算法, 最早由Rakesh Agrawal等人[8]提出。

3.2 Web使用挖掘实验

实验采用的挖掘算法是关联规则中的Apriori算法, 使用的挖掘工具是马克威分析系统[9], 输入的数据是通过前文数据预处理之后的事务记录数据。首先, 将处理好的事务元组存入数据表中, 为了挖掘方便, 统一将浏览路径补全, 缺少项使用X代替, 得到事务文件。

数据输入后采用关联规则挖掘功能, 选择使用Apriori算法, 建立挖掘模型, 设置支持度、可信度等参数。考虑到浏览该网站固定用户较少, 且浏览内容分布广泛, 用户浏览的所有网页之间存在的关联性较小, 因此在设置参数时将最小支持度和最小置信度分别设为10%和15%。在实际应用中应该考虑具体的情况调整参数的设置, 进行总体挖掘。

在总体挖掘结束之后, 为了进一步了解网站各版块的具体情况, 基于网站的主要内容并结合网站管理员的意见, 根据网站主要版块的浏览情况进行再次挖掘。网站主要包括Article (文摘) 、fiction (小说) 和yingyu (英语学习) 3个版块。

在针对主要版块进行的再次挖掘中, 为了更好地挖掘出关联规则, 将挖掘参数中最小支持度调整为5%, 置信度不变, 仍旧为15%。

4 挖掘结果分析

4.1 总体挖掘结果分析

进行总体挖掘得到如表4.1所示的强关联规则。

从表中数据分析得知:

(1) 浏览了Article版块的用户中有12.81%的用户浏览了Psycology子版块, 置信度为24.75%。

(2) 浏览了fiction版块的用户中有23.80%的用户浏览了Fiction子版块, 置信度为95.83%。

在Psycology子版块中的主要内容是有关于健康、激励、成功等内容, 通过挖掘可以看出, 这部分内容比较受到读者的欢迎;而在Fiction子版块主要是在线小说和杂志, 包括《哈利·波特》、《时代》等内容, 通过挖掘发现在fiction板块中浏览在线小说的用户较多。

4.2 Article版块挖掘结果分析

Article版块的挖掘情况如表4.2所示。

结合网站内容和挖掘结果可知, 在Article这一板块中, 用户的主要兴趣点在Fashion、Employment、Motivation和Success 4个方面, 而编号为61210的内容页面在这一天的点击量最大。

4.3 Article版块挖掘结果分析

fiction版块的挖掘情况如表4.3所示。

总体而言, 在fiction版块, 用户的兴趣点集中在Fiction版块中的Erotic和romance两个子版块上, 编号为799、59037、59039和59064的内容页面点击量最大。

4.4 yingyu版块挖掘结果分析

yingyu版块的挖掘情况如表4.4所示。

从表4.4中数据可知:浏览了yingyu版块的用户中浏览category-catid-166.html页面的人为59.13%, 置信度为59.13%。通过查询网页, 页面category-catid-166.html为双语阅读的导航页, 由此可以看出, 用户主要对这一版块的双语阅读感兴趣。

4.5 主要版块挖掘结果综合分析

综合各版块挖掘结果可以看出, 在Article版块, 支持度最高的两个浏览模式是, 而置信度最高的两个浏览模式是。通过与网站管理员的沟通发现, Others版块并不是他们设计的主要内容, 但通过挖掘可知用户对该部分内容相对比较感兴趣, 访问量比其他版块高, 所以在今后的网站建设和维护过程中可以加强这部分内容的扩充, 同时可以将该部分的内容适当提前, 比如在主页可以适当增加这部分内容的链接;在fiction版块, 浏览模式的支持度和置信度远远高于其他种类, 该版块的主要内容中在线小说是用户主要的关注对象, 而在线小说中的romance分类相对受欢迎程度比较高;在yingyu板块, 导航页category-catid-166.html的点击量最大, 该页面是双语阅读的导航页, 点击此页之后可以浏览双语阅读的文章列表。通过与管理员的沟通了解到, 双语阅读是网站主要的特点之一, 这个版块主要为读者提供英汉对照的文章, 由于该部分内容丰富并且质量较高, 深受读者喜爱, 挖掘结果与实际情况符合。

5 结论

本文在研究Web使用挖掘的基础上, 采用关联规则挖掘中的Apriori算法对原版英语小说网的服务器日志进行使用挖掘, 对网站建设提出了改进建议。另外, 通过整个挖掘实验过程, 发现Web使用挖掘中的数据预处理是整个挖掘的重点, 而数据预处理中的会话识别和事务识别难度较大, 是决定整个挖掘成功与否的关键点。

参考文献

[1]Srivastava Jaideep, Cooley Robert, Deshpande Mukund, Tan Pang-Ning.Web Usage Mining:Discovery and Applications of Usage Patterns from WebData[J].SIGKDDExplorations, 2000, 1 (2) :12-23.

[2]Robert Cooley, Mobasher Bamshad, Srivastava Jaideep.Data Preparation for Mining World Wide Web Browsing Patterns[J].Knowledge and InformationSystems, 1999, 1 (1) :5-32.

[3]Pirolli Peter, Pitkow James, Rao Ramana.Silk from a Sow’s Ear:Extracting Usable Structures from the Web[C]//Proceedings of1996Conference on Human Factors in Computing Systems (CHI-96) , Vancouver, British Columbia, Canada, 1996:118-125.

[4]Catledge Lara, Pitkow James.Characterizing Browsing Behaviors on the World Wide Web[J].Computer Networks and ISDN Systems, 1995, 27 (6) :1065-1073.

[5]Chen Ming-Syan, Park Jong Soo, Yu Philip S.Data Mining for Path Traversal Patterns in a Web Environment[C]//Proceedings of the16th International Conference on Distributed Computing Systems, 1996:385-392.

[6]原版英语小说网.http://www.en8848.com.cn/, 2009.

[7]武森, 高学东, [德]Bastian M.数据仓库与数据挖掘[M].北京:冶金工业出版社, 2003.

[8]Agrawal Rakesh, Imielinski Tomasz, Swami Arun.Mining Association Rules between Sets of Items in Large Database[C]//Proceedings of1993ACM SIGMOD International Conference on Management of Data, 1993:207-216.

Web使用记录挖掘 篇4

随着Internet应用的快速发展,以及教育大众化和终身化的需求,通过网络向学生提供形式多样的学习模式,可以实现在不同地点实时地、交互地和有选择地进行学习,具有资源共享、系统开放等优点的在线教学系统就成为现代远程教育的重要研究课题之一。

在线教学系统的核心是开放、互动、智能和自适应。本文介绍的Web使用挖掘应用于在线教学系统,可以在海量的Web访问数据中发现学生站点浏览模式,不断完善知识点间的关联规则;可以结合学生特征库和学习行为记录挖掘学生对知识点的理解程度,以便智能推荐后继课程和学习资料;也可以及时反馈学生学习进度,使教师及时调整教学要点、教学内容和教学方法[1][2],是实现在线教学系统个性化、智能化的一种重要技术手段。

二、Web使用挖掘技术

数据挖掘应用于Internet时,常被称为“Web挖掘”,是一个从大型数据仓库中提取隐藏预测信息和发现有用模式、轮廓和趋势的过程。Etzioni将Web挖掘定义为“从Web文档和服务中自动发现和提取有用信息的一种数据挖掘使用技术”。[3]一般分为Web内容挖掘、Web结构挖掘和Web使用挖掘。在线教学系统中,Web使用挖掘的主要任务是通过对学生访问内容、访问频率、停留时间等进行分析,得出学生访问行为和方式的一般模式,并以此为依据向学生提供全面的个性化、智能化在线教学指导。和其它数据挖掘一样,Web使用挖掘也需要经过数据采集、数据预处理、模式发现和模式分析等过程,如图1所示。

(一)数据采集

数据采集就是要记录用户访问行为。一般包括服务器端的数据采集、客户端的数据采集和代理端的数据采集。原始数据需要经过处理后才能有效实施挖掘算法,所以需要进行数据预处理。

(二)数据预处理

数据预处理的质量与Web挖掘的效率和结果紧密相关,其内容包括:数据清洗、用户识别、会话识别、事务识别和路径补充等。

(三)模式识别

模式识别是对预处理后的数据实施挖掘算法。模式识别的基本方法有:统计分析、关联规则、序列模式、频繁访问组、依赖建模等。为了提高数据分析的有效性和准确性,通常会根据待分析数据的不同特征综合采用上述几种挖掘算法。

(四)模式分析

模式分析的目的是根据实际应用,利用可视化技术、联机分析技术和智能查询机制等方法和工具对挖掘出来的模式规则进行分析,找出我们感兴趣的模式和规则[4]。对于挖掘出的规则和模式的兴趣常采用兴趣函数来度量。

三、在线教学系统中Web使用挖掘技术的应用

在线教学系统中应用Web使用挖掘即在学生访问系统后留下的使用记录中实施数据挖掘,发现和提取有用的信息,其体系结构如图2所示。Web使用挖掘的主要数据源是学生访问记录即学生访问系统在服务器端存留的Web访问日志,包括学生个人的详细信息、访问的时间频率、访问的时间段、停留时间、访问行为等数据。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法来进行模式识别。数据挖掘的结果将存放在数据挖掘结果集中,由专门的模式分析模块对其进行筛选。

(一)数据预处理过程

这里的预处理过程主要是针对系统的Web访问日志,是Web使用挖掘过程中最关键的一环,预处理的质量直接关系到后面挖掘过程和模式分析过程的质量。

1.数据清洗。删除Web日志中与数据挖掘不相关的冗余项。Web日志记录学生IP地址、学生ID、学生请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数和错误代码等属性,而与数据挖掘相关的只有学生IP地址、学生ID、学生请求访问的URL页面及访问时间等,其它属性可以去掉。

2.用户识别。包括如何在海量数据中找出属于同一学生的记录;如何在学生访问时识别该学生,迅速找出对应该学生的挖掘结果和推荐集。由于本地缓存防火墙和代理的存在给用户识别带来了困难,常采用基于日志/站点的方法及其它一些启发性规则用于识别用户。

3.会话识别。将学生访问信息按照一定的时间段进行划分,每一时间段内的学生访问集合作为一个用户会话。会话识别的意义在于可以将不同时间段内的学生访问区分开,而不致于将时间间隔很长的两次访问看作一次。在时间区段较大的Web服务器日志中,用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别,如果用户请求的页面之间的时间超过一定间隔,则认为用户开始了一个新的会话。

4.事务识别。在进行挖掘之前必须把页面的访问序列分成表示Web事件或用户会话的逻辑单元,不像传统的事务数据库,Web挖掘中没有一些很方便的方法用于事件识别,现在主要有访问路径长度和最大向前访问路径两种方法。

5.路径补充。在访问日志中可能有一些重要的访问路径没有被记录下来,但是这些路径对用户会话的识别又是很重要的。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中,对于一些不完整的用户访问序列,我们可以采用一些启发性规则,结合网页拓扑进行推理,补全访问路径。

(二)建立学生访问数据超立方体

对已预处理的学生访问记录建立数据超立方体,这个超立方体负责提供一个良好的数据挖掘环境。超立方体HC=[A1, A2, A3,...,An],每个Ax表示一个m的维,如时间维、域名维、文件维和浏览工具维等。每个维的Ax=[ax1, ax2, ax3,...,axm],表示此维的m个属性,如时间维的属性可以表示为星期一、星期二……星期日等。

(三)模式发现及应用

在已建立的数据超立方体的基础上,我们可以使用统计分析、频繁访问、关联规则、聚类与分类分析和序列模式等挖掘技术进行在线教学系统的个性化、智能化应用。

1. 根据用户行为和路径分析改善站点结构。

统计分析是分析用户行为最常用的方法。在线教学系统中,我们可以用于分析该学生的访问次数、总停留时间、该学生访问的课程数、该学生对哪些课程停留时间较长等,还可以统计系统某个时间段内访问的次数,访问次数最多的URL等。此外还能提供有限的低层次错误分析,比如检测未授权入口点,找出最常见不变的URL等。频繁访问组可以用于判别在Web站点中频繁访问的路径集和其它一些通过路径分析得到的有关知识。结合这些用户行为和路径分析知识,我们就可以改善站点结构。例如,对某学生进行一段时间的访问路径跟踪后,将其访问模式存入应用服务器上的学生个性数据库,即可据此向其提供个性化学习界面。

2. 利用关联规则发现学生的某些知识兴趣点之间的相关性。

所谓关联规则就是描述数据库中数据项(属性、变量)之间所存在的(潜在)关系的规则,也就是说,当两个或多个数据项的取值之间反复出现且概率很高时,它们之间就存在某种关联,这时我们就可以为这些数据项建立关联规则。关联规则分析分为两步:找一个支持度大于给定值的大数据项集;用这个大数据项集产生关联规则。Web使用挖掘中的关联规则主要是通过分析学生访问网页间的潜在联系而归纳出的一种规则,即发现给定的数据集中项之间的有趣联系或相关联系。例如,发现访问A学习资源的学生有多大比例同时也访问了B学习资源,如果该比例超过给定值,就可以认为该关联规则是有趣的,下一次有学生访问A学习资源时,就可以将B学习资源推荐给他。在线教学系统中,关联规则可以发现用户会话中经常被学生一起访问的页面集,这些页面之间并没有顺序关系,我们可以根据这些学生群的相同兴趣进行教学安排。例如,关联规则作为启发规则为学生预取可能请求的页面,以减少等待时间,建立起一个方便有效的学习环境。

3. 利用聚类算法从Web访问数据中聚类出具有相似性的网页或学生。

聚类即将物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。属于同一个类的对象可以作为一个整体来对待。个性化在线教学中,主要有两类聚类,页面(资源)聚类和学生聚类。如果通过聚类发现若干个网页属于同一网页(资源)聚类,当学生访问其中一页(资源)时,可推荐类中其它页面(资源)。学生聚类中的学生具有相似的学习习惯或学习兴趣,可以据此对他们提供相同的个性化服务。比如,当我们发现学习《计算机网络》这门课的学生80%是二年级的学生后,我们就可以把这门课推荐给所有的二年级学生,而且可以定时发送一些课程信息邮件给这些学生。另外,我们可以根据对该课程的聚类结果来指导学生建立网上课程学习小组和学习网站等。

4. 通过分类算法分析学生知识水平,给予不同层次教学指导。

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,一般用规则或决策树模式表示。把学生按行为模式分类,以此划分教学目标群体,教师就可以进行教学规划,通过创造一系列的课程事件,帮助学生建立一个方便的学习环境,形成一个理想的、有效的学习过程。例如,可以把具有相似的知识背景和接受能力并且学习《计算机应用基础》课程的学生知识水平分成“初级”、“中级”和“高级”,并给予相应的教学指导。

5. 利用序列模式挖掘找出学生学习过程中的事件序列关系。

即发现学生在一定持续时间内的访问序列。例如,当发现有一定比例的学生学习甲课程后一个月又学习了乙课程,那么,当发现学习了甲课程的学生时,可以在一段时间后向他推荐乙课程。

四、Web使用挖掘技术在应用中存在的问题

尽管Web挖掘技术已经在个性化在线教学系统中得到了广泛的应用,但是还存在着以下几个方面的问题。

(一)性能问题

个性化在线教学系统都不同程度地扩展了传统的客户端/服务器体系结构,Web信息经过相应处理后才返回客户端,就必然会延长响应时间。实时个性化系统对响应时间要求比较高,特别是采用中间代理方式的系统,如果中间处理过程费时过多或用户数量过大,系统性能将是一个不可忽视的问题。而且针对个性化在线教学系统,无论是其用户量,还是系统维护的网页,通常都是海量的,目前的Web挖掘算法在处理这些数据时通常都采用离线方式,因此对于要求在线实时处理的情况还不能很好地解决。

(二)绩效评价问题

应用Web使用挖掘技术实现在线教学个性化、智能化服务,不同系统采用不同的Web挖掘技术,如何评价它们的建模效果和系统最终的服务绩效也是一个非常重要的问题。目前对个性化系统服务绩效的评价,不同系统采用不同的方式和测试数据,因此,无法评价多个不同个性化系统服务绩效的优劣,需要研究一种通用的性能指标和开发相应的Benchmark评价比较各种不同的Web挖掘技术。

五、结语

利用Web使用挖掘可以从学生访问记录中得到有用的知识来指导教学,进行资源推荐、改善网络服务,可以提高学习效率、增强教学效果,提高在线教学系统的个性化服务水平,为系统的决策分析提供了智能的辅助手段。在线教学系统能根据学生知识结构、学习风格等个性特征进行个性化教学,以提高学习者学习的积极性和主动性,增强学习者的内部动机,提高学习效率。数据挖掘技术在现代远程教育系统的应用还存在着很多问题,有待于进一步深入研究,但是随着Web挖掘技术的日渐成熟,对个性化服务更深入的研究,个性化学习系统将更加完善,在现代远程教育中有着广阔的发展前景,必将成为未来教育的一种重要的教学手段。

参考文献

[1]汪永好.设计模式在工作流管理系统实现中的应用[J].计算机工程与设计, 2006, 27, (6) :1096-1100.

[2]WfMC-TC00-1003, V1.1.Workflow reference model[S].

[3]Etzioni, O.The World Wide Web:Quagmire or Goldmine Communications of the ACM, 1996, vol39, (11) :6568.

Web使用记录挖掘 篇5

随着互联网应用的快速发展, 以及教育大众化和终身教育的需求, 以网络通讯技术、计算机多媒体技术为依托, 通过网络向学生提供形式多样的学习模式可以实现在不同地点实时地、交互地和有选择地进行学习, 具有时空自由、资源共享、系统开放等优点。向学生提供个性化的教学服务就成为其区别于传统教学模式的重要特征, 因此也成为现代远程教育的重要研究课题之一。

Web挖掘就是将传统的数据挖掘技术和Web结合起来, 进行Web知识的提取。一般Web挖掘可分为:Web结构挖掘、Web内容挖掘和Web使用挖掘。本文讨论的重点在于Web使用挖掘。

2. Web使用挖掘

2.1 处理模型

Web使用挖掘的主要任务是研究用户的浏览行为 (即对Web站点的使用) 。和其他数据挖掘一样, Web使用挖掘也需经过数据采集、数据预处理、模式发现和模式分析等过程。

2.1.1 数据预处理

对得到的原始用户浏览信息进行处理, 取出用户访问的URL、页面的大小、请求的时间、在页面上停留的时间、请求者的Internet域名、用户、服务器状态等变量。下面分析比较常见的从Web日志中获取的浏览信息的预处理过程。它包括如下几个方面。

2.1.1. 1 数据清洗。

删除Web日志中与数据挖掘不相关的冗余项。Web日志记录了用户IP地址、用户名、用户请求访问的URL页面、访问时间、传输协议、传输的字节数、访问出错信息等属性, 而与数据挖掘相关的只有用户IP地址、用户名、用户请求访问的URL页面与访问时间, 其他属性可以去掉。

2.1.1. 2 用户识别。

由于本地缓存、代理服务器和防火墙的存在, 识别用户的任务变得很复杂。只能尽可能地用比较合理的启发式规则来进行用户识别。如一旦发现用户端浏览器软件或操作系统发生改变, 则认为是新用户。

2.1.1. 3 事务识别。

会话是指同一个用户连续请求的页面, 不同用户访问的页面属于不同的会话。

2.1.2 模式发现

在对事务进行了划分后, 我们就可以根据具体的分析需求选择访问模式发现的技术, 如路径分析、关联规则挖掘、序列模式, 以及聚类和分类技术。这些对于Web站点的性能改进有重要的作用, 如路径分析可以用来发现Web站点中最经常被访问的路径, 从而可以调整站点的结构。

2.1.3 被发现的模式用于个性化处理

在模式抽取后进行分析和应用。挖掘结果可能会有大量的模式, 如关联规则可能会发现很多的规则。如果这些模式全部被采用, 人们就很难理解。模式分析忽略了一些不重要的模式, 而且允许人们将模式表示加上一些限制, 将抽取出的模式用容易理解的方式显示出来, 如可视化。然后应用这些模式改进站点的结构和帮助用户浏览。

2.2 Web使用挖掘在远程教育中的应用

Web使用挖掘在远程教育中主要应用于以下各个方面。

2.2.1 系统改进

对Web系统的特性数据进行分析, 如:可以提供Web流量行为的分析, 利用它来进行Web缓存、存取平衡等, 据此对远程教育系统性能进行改进。

2.2.2 站点修改

对所有学生的浏览路径进行挖掘, 发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接, 以改善远程教育站点结构。

2.2.3 智能服务

学生如何使用远程教育网站来进行学习对于远程教育提供者来说是很重要的。通过对学生行为和所选课程等关系的挖掘, 发现其中的学生群学习特征和趋势等来进行智能服务, 为远程教育提供者提供决策依据。

2.2.4 个性化

从单个学生的浏览信息发现学生的兴趣, 向每位学生提供符合其兴趣要求的个性化界面。

3. 个性化远程教学模型

Web服务器为客户端提供HTTP服务等功能, 应用服务器内存放学生的个人注册和相关课程等信息。

每个学生在开始使用网站时先在应用服务器上进行注册, 控制模块负责对采集的学生浏览路径进行预处理和相关的数据挖掘, 学生个性数据库用于存放挖掘出来的各种模式。

个性化远程教育主要由以下几部分组成。

3.1 浏览路径预处理

对学生的浏览路径信息进行一些预备处理, 包括数据清洗、用户识别、会话识别和路径补充等。数据清洗是指删除一些无用的或错误的数据。用户识别是指对路径信息通过一些启发式规则进行识别路径的用户归属。会话识别是指在用户识别的基础上辨认不同的会话。一般利用超时的方法决定用户是否都开始了一个新的会话。路径补充是在路径不完整的情况下利用站点的拓扑结构找出遗漏的页面。

3.2 建立学生个性数据仓库

对已预处理过的学生访问数据建立数据仓库, 这个数据库负责提供一个良好的数据挖掘环境。数据仓库可以设立多个维度, 如时间维、域名维、文件维和浏览工具维等。每个维设立多个属性值, 如时间维的属性可以表示为星期一、星期二、……星期日等。

3.3 被发现的模式用于个性化处理

在已建立的数据仓库的基础上, 我们可以用五种挖掘技术进行个性化教学支持服务。

3.3.1 根据路径分析改善站点结构。它可以用于辨别在Web站点中频繁访问的路径集和其他一些通过路径分析得到有关知识, 并利用这些知识来改善站点结构。

3.3.2 利用关联规则发现学生的某些知识兴趣点之间的相关性, 然后将它们之间的超链接动态地提供给学生, 使学生在网上学习更加方便。

3.3.3 通过分类算法对学生的知识水平进行分类, 给予不同级别的训练。

3.3.4 利用聚类算法从Web访问信息数据中聚类出具有相似性的那些学生。

3.3.5 利用序列模式的挖掘来找出学生学习过程中的事件序列关系。

本文对Web使用挖掘的过程、挖掘算法, 以及挖掘出来的模式和表示进行了分析, 构造了一个基于Web使用挖掘的个性化远程教育网站模型。进一步的工作是将模型细化、扩充, 使其在远程教育的实践中发挥作用。

Web挖掘技术在远程教育的教学支持服务中的应用是一个新的领域, 也是一个带有很大挑战性的课题。随着研究的进一步深入, 此项技术将为远程教育中个性化教学支持服务研究提供一条新的途径。

参考文献

[1]周蔚.现代远程教育学习支持服务现状研究[J].中国远程教育, 2005, (3) .

[2]冯建军.试论个性化教育的原则[J].江西教育科研, 2004, (5) .

[3]舒蓓, 申瑞民, 王加俊.个性化的远程学习模型[J].计算机工程与应用, 2001, (9) .

Web使用记录挖掘 篇6

关键词:Web使用挖掘,用户行为分析,客户分类,关联规则

随着网络技术和数据库技术的不断发展, 电子商务已经进入飞速发展阶段。电子商务是对传统商务的重大变革。在电子商务模式下, 顾客可以突破地域和品牌的限制, 有了更大的选择空间, 追求更好的购物体验。这对电子商务的经营者提出了更高的要求, 如何通过用户的行为和购买意向, 发现消费的爱好和消费趋势, 改善网站结构, 设计更好产品销售策略, 减少商业成本, 提升服务水平, 是目前电子商务急需解决的问题。

1 Web使用挖掘及其过程

1.1 Web使用挖掘

Web挖掘是数据挖掘技术在Web上的应用, 是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含信息的过程。目前Web挖掘的研究分为针对Web页面内容及后台交易数据库进行挖掘的Web内容挖掘 (Web content mining) 、以Web本身的超连接为对象的Web结构挖掘 (Web structure mining) 和Web使用挖掘 (Web usage mining) 三个方面[1]。其中, Web使用挖掘主要通过分析用户访问Web的记录, 了解用户的兴趣和习惯, 对用户的行为进行分析和预测。

Web使用挖掘在分析电子商务用户行为中有重要应用, 通过挖掘用户在Web上的访问记录, 寻找日志记录中的规律, 发现用户访问Web页面的模式, 识别用户的喜好度、满意度、忠诚度, 理解用户意图, 进而挖掘潜在用户。

1.2 Web使用挖掘过程

Web使用挖掘过程分为数据采集、数据预处理、模式发现和模式分析4个阶段如图1所示[2]。

1) 数据采集:数据采集是Web使用挖掘的第一步, 也是后续模式发现和模式分析的基础, 数据采集所获得源数据质量直接关系到最终挖掘结果的质量。目前, 主要的数据来源有3种:从服务器端数据、客户端数据、中间数据;

2) 数据处理:数据处理就是将那些大量的、杂乱的、不一致的源数据进行过滤、清理、变换、集成后转入到数据仓库中, 以备后用。数据预处理工作中, 主要包括:数据清理、用户识别、用户会话识别、数据格式化[3];

3) 模式发现:经过数据处理后存入到数据仓库中的数据量还是巨大的。模式发现就是利用挖掘算法从数据仓库中挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识[4];

4) 模式分析:使用Web使用挖掘技术挖掘出来的模式, 需要合适的工具和技术对其进行分析和解释, 从中筛选有用的模式, 使之成为人们可以理解的知识。模式分析的目的就是把发现的规则模式转化为知识。

2 电子商务用户行为分析中的Web使用挖掘技术

2.1 关联规则分析

关联规则分析的目的就是为了挖掘出隐藏在数据间的关联规则。在电子商务用户行为分析中关联规则分析主要用于两个方面:

1) 发现用户访问的页面之间的关联规则, 也就是挖掘群体用户访问页面之间的关联关系, 构建关联模型。利用关联模型可以更好地组织站点结构, 使网站的设计能方便用户浏览网站信息。另外, 利用关联模型可以提供用户导航, 比如网站服务导航, 网站信息导航, 企业商品导航等, 充分反映群体用户的需求[5〗;

2) 发现数据库中不同商品之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式, 如购买了某一商品对购买其他商品的影响。从而可以向客户提出推荐或者把相关的商品形成一个产品组合, 方便用户选购。

2.2 置信度和支持度

关联规则X→Y对事务集合D的置信度c定义为D中包含有X且同时包含Y的百分比。关联规则X→Y对事务集D的支持度定义为D中包含有事务X或Y的百分比。置信度和支持度均大于给定阈值 (即最小置信度阈值和最小支持度阈值) 的规则称为强规则。规则的支持度和置信度是规则兴趣度的两种度量, 它们分别反映所发现的规则的有用性和确定性。

例如, 一个零售业的数据挖掘系统可能发现如下形式的关联规则:

年龄 (X, 20~35岁) , 年薪 (X, 60000~80000元) → (购买 (X, 摄像机) ) ;

支持度=5%, 置信度=68%

其中X是变量, 表示顾客。该规则表明, 在该零售业数据库系统中, 年龄在20~35岁且年薪在60000~80000元之间的顾客中5%的人购买摄像机的可能性有68%。该关联规则的条件含有一个以上属性, 这种管理规则称为多维管理规则[6]。

2.3 分类分析

分类规则主要是根据用户群的特征挖掘用户群的访问特征。在电子商务中, 分类技术主要应用客户分类中。通过分析电子商务客户数据库中的数据, 得到客户分类模式后, 然后用这个分类规则对新的客户进行分析, 发现新的客户属于那一个类别, 就可以针对不同类客户的特点展开不同的商务活动, 提供有针对性的个性化的服务。

2.4 聚类分析

聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中, 聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括:自动给一个特定的顾客聚类发送销售邮件, 为一个顾客聚类动态地改变一个特殊的站点等[7]。

3 电子商务用户行为分析中Web使用挖掘技术的应用

3.1 制定网络营销计划

Web使用挖掘技术在制定网络营销计划中的应用, 要从时间和空间上进行Web挖掘。在时间上的挖掘就是通过对商品的访问和销售情况进行分析, 从而获得客户的访问规律, 确定顾客消费的生命周期, 根据市场的变化, 在特定的时间针对不同的产品制定相应的营销策略。在空间方面的挖掘就是可以对购买该商品的客户的进行域名分析, 挖掘出该商品在哪个地区的销售情况最好, 制定有关策略继续保持, 同时挖掘出销售情况不理想的可以拓展市场的地区[8〗。

3.2 对客户分类, 降低客户开发成本

电子商务环境下, 客户主要可分为3类:第一类是低价值或者无价值的客户;第二类是不会轻易走掉的有价值的客户;第三类是在网络上不断寻找更优惠的价格和更好的服务的客户, 这类客户是潜在的有价值的客户。统计数据表明, 开发一个新顾客的成本比保留一个老顾客的成本高5倍, 而流失一个老顾客, 其代价相当于开发10个新顾客。

通过Web使用挖掘, 对顾客的行为进行分析, 可以对客户进行分类, 帮助企业了解那些转向竞争对手的顾客在转向期间的行为, 并分析顾客流失的主要原因, 从而针对现有的客户采取必要的措施。另外, 通过挖掘客户在网站上驻留时期所采取的行为, 找到客户的兴趣和偏好, 从而动态地改变网站整体布局的设计, 以吸引住客户。

3.3 争取最高限度利用现有客户

通过Web使用挖掘, 可以从客户的购买行为中发现客户购买的影响因素, 进而建立预测模型来预测将来用户会对什么样的商品感兴趣、会对那些相关商品感兴趣、购买某种产品的可能性有多大。

3.4 改进网站结构设计, 为客户定制个性化界面

对客户进行分类和聚类分析, 根据用户的访问行为建立个性化的推荐系统, 向客户提供个性化的服务和商品介绍。通过关联规则分析客户的访问行为信息, 获取客户访问模式, 针对客户动态的调整站点的结构, 使客户访问的有关联的文件间的连接比较直接。主动向客户提供商品推荐, 帮助客户便捷地找到感兴趣的商品。可以根据客户当前购物车中的物品, 向客户推荐一些相关的物品。运用置信度和支持度的分析结果, 可以根据客户的注册信息和订单纪录, 挖掘客户在站点上导航的行为, 向客户显示那些可能引起客户兴趣的新商品。

参考文献

[1]涂承生, 鲁明羽, 陆玉昌.Web内容挖掘技术研究[J].计算机应用研究, 2003, 21 (11) :5-9.

[2]郭媛香.面向用户行为的Web使用挖掘技术[J].晋中学院学报, 2009, 26 (3) :81-84.

[3]张翠英, 蔡华利, 刘娜.电子商务个性化服务与Web使用挖掘技术[J].中国管理信息化, 2007, 10 (2) :56-58.

[4]唐晓琴, 屈正庚.Web使用挖掘技术在电子商务中的应用[J].和田师范专科学校学报, 2010, 29 (4) :183-184.

[5]严卉珍.基于Web使用挖掘的企业电子商务平台研究[J].现代商贸工业, 2009, 15 (7) :252-254.

[6]李兴国, 杨颖, 顾东晓.管理信息系统案例[M].北京:清华大学出版社, 2010.

[7]李晓辉.基于用户行为分析的数据挖掘系统研究与设计[D].北京:北京邮电大学, 2011.

上一篇:文学翻译形象思维下一篇:双向螺旋刀