WEB使用挖掘

2024-06-09

WEB使用挖掘（共12篇）

WEB使用挖掘篇1

1 引言

近年来Internet的迅速发展,使得WWW已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为企业决策提供了丰富资源的同时也提出了新的挑战[1]:难以准确获得所需要的信息、难以获得信息之间潜在的知识和个性化的信息服务。无论个人还是企业,现实的竞争形势要求他们对互联网上大量出现和产生的信息进行实时和深层次的分析。因此人们迫切需要一种能够从Web上快速、有效地发现资源和知识的工具-Web数据挖掘。

Web挖掘是将Web技术与数据挖掘技术结合起来,来获取Web知识的过程。Web挖掘一般的定义为:从与www相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。Web挖掘可分为3类[2]:Web内容挖掘(web content mining)、Web结构挖掘(web structure mining)和Web使用挖掘(web usage mining)。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web 结构挖掘是从WWW 的组织结构和超链接关系中推导知识。Web使用挖掘主要是从Web 的访问记录中抽取感兴趣的模式。其主要特点是对用户信息数据进行抽取、转换、分析和其它模型化处理,从中提取辅助企业决策的关键性数据。

Web使用挖掘是目前信息技术中的研究热点之一,本文在介绍Web使用挖掘的基础上,从Web使用挖掘的数据类型、过程和实际应用三个方面详细地阐述了Web使用挖掘技术。

2 Web使用挖掘

Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。

2.1 Web使用挖掘的数据类型

Web使用挖掘的对象是存储在Web服务器上的日志文件上的数据项,在Web使用挖掘过程中, 有多种数据可作为Web挖掘的处理对象,包括:Server log,Proxy Server log,Client端的cookie log、用户简介、注册信息、用户对话或交易信息等,主要是Web服务器上的log 日志等。这些数据大致可分为以下几类[3]:

⑴内容数据:用户在网页上看到和使用的真实数据,主要是文本和图像。

⑵结构数据:描述网页内容如何组织的数据,页内的结构可用HTML、XML表示为树型结构,HTML标志成为树的根;页间结构可用连接不同网页的超链接来表示。

⑶使用数据:描述网页使用模式的数据,如IP地址、URL、网页引用、访问时间和日期等,表示了用户的行为模式。典型的使用数据来自服务器日志。

⑷用户资料:有关Web 站点用户的统计信息,包括用户注册信息和个人资料,如用户名、学历、职务、年龄、收入、个人爱好等。

2.2 Web使用挖掘的过程

虽然Web自身有着异质、分布、动态、无统一结构的特点,从局部来看在每个提供信息资源的Web服务器上都有一个结构比较完善的log 日志文件,对其进行挖掘是切实可行的且具有重要意义。Web使用挖掘过程一般分为三个阶段[4]:预处理、模式发现、模式分析。

2.2.1 数据预处理阶段

Web使用挖掘首先要对挖掘数据进行预处理, 其目标是将包含在多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象概念, 然后在事务数据库上实施挖掘算法,以期最终获得有价值的规律。这个阶段主要包括数据清洗和事务识别两个部分。数据清洗主要是对无关记录的删除、判断是否有重要的访问没有被记录、用户的识别等。事务识别是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。

2.2.2 模式识别阶段

这个阶段采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。实现算法可以是统计分析、聚类、分类、关联规则和序列模式识别等。对Web使用记录的挖掘,早期大多数统计的方法进行。当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问的模式进行多种简单的统计,如频繁访问页、单位时间访问数、访问数据量的时间分布图等。

2.2.3 模式分析阶段

挖掘出来的用户行为模式(集合),需要合适的工具和技术对其进行分析、解释和可视化, 从中筛选出有趣(有用) 的模式,使之成为人们可以理解的知识,否则挖掘出来的模式将得不到很好的应用。这个阶段的任务是采用合适的成熟的技术和工具,进行模式的分析,从而辅助分析人员的理解,使采用各种工具挖掘出的模式得到很好的利用。目前最常见的的模式分析方法有两种:一种是象SQL那样的知识查询机制,采用SQL 查询语句进行分析。另一种方法是将Web使用数据装入数据仓库,以便执行联机分析处理(OLAP)并提供可视化的输出结构。诸如图形化模式或为不同的值赋予不同颜色的可视化技术,可以使得数据中的总体模式或趋势变得很突出。

3 Web使用挖掘的应用

Web使用挖掘技术以用户的访问日志为源数据,可为企业或公司发现许多重要的信息。

3.1 Web使用挖掘在企业客户关系管理中的应用

随着科学技术的发展,许多行业的产品趋于成熟、同质化,产品不再是企业竞争力的唯一核心,尤其是电子商务的出现,使得客户有了更大的选择空间,如何搞好客户关系,满足客户的需要将是企业迫切需要解决的问题。

通过Web使用日志的挖掘了解客户访问模式,包括客户访问习惯、访问兴趣等,再结合对客户业务数据的挖掘,了解客户交易情况,从而来进行客户关系管理。

3.2 Web使用挖掘在企业网站建设中的应用

网站的吸引力取决于其内容和组织结构的合理设计。通过对网站访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务,如有些学者提出了可适应站点的概念,即通过用户访问模式改进Web站点内容。网站、网页的内容和结构不是一成不变,为吸引用户访问,提高知名度,网站、网页的设计必须考虑用户的需求。Web 使用挖掘能提供用户访问网站、网页行为的信息。网站的设计者可根据这些信息来对站点的结构和内容进行修改,以适应用户的需要。比如,可根据用户对某些页面访问的频度来决定页面的链接层次和深度。

3.3 Web使用挖掘在个性化服务中的应用

随着越来越多的人使用互联网,针对某类用户提供个性化服务是吸引用户访问站点的一个有效手段。通过对网站访问日志的挖掘,获取用户访问模式信息,了解用户的意图和行为。根据用户本身情况以及网站的使用情况,为用户提供动态建议是许多市场营销中及为重要的功能。

如通过对用户存取日志文件中的存取事务进行聚类分析,发现用户的个性化搜索兴趣模式,根据个人的喜好,为每个用户定制符合其个人特色的Web站点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等方面动态进行定制。

4 结束语

Web 使用挖掘已成为Web 数据挖掘的研究热点之一。Web使用挖掘是为了挖掘用户访问网站的行为模式,并将其应用于网站优化、企业决策支持等活动中,以提高企业的竞争力。本文主要介绍了Web使用挖掘过程及其应用,重点分析了Web 使用挖掘的技术,最后给出了Web使用挖掘的具体应用。

参考文献

[1]Raymond Kosala,hendrik Blockeel.Web Minning Re-search:Survey[J].SIGKDD Exllorations,2000,2.

[2]韩家炜,孟小峰.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-413.

[3]毛国君编著.数据挖掘原理与算法[M].北京:清华大学出版社,2005,7.

[4]刘培刚.Web挖掘技术在电子商务中的应用研究[J].情报学报,2002,21(6):680-685.

WEB使用挖掘篇2

电子商务的迅猛发展产生了海量的Web数据，从电子商务的大数据中发现潜在的、有用的知识和信息，是电子商务健康发展的需要。在电子商务中应用Web数据挖掘技术，可实现从电子商务的Web文档和Web活动中抽取出隐藏的有用模式。本文通过介绍Web数据挖掘技术，分析其在电子商务中的挖掘流程，对其在电子商务中的具体应用进行了探讨。

0 引言

我国电子商务交易量增长迅猛，电子商务平台和网站越来越多，数据呈现爆炸式增长。面对海量的Web数据，对企业而言，构建良好的客户管理关系，吸引新客户留住老客户，发现顾客潜在的购买兴趣等都成为了企业要关注的问题。

对用户而言，如何从爆炸式的大数据中发现与自己相关的信息存在一定的难度。数据挖掘技术是一种从大量的、不完全的、有噪声的、随机的、模糊的数据中提取隐含在其中的人们事先不知道的，但又具有潜在价值的信息和知识的技术[1-2]。在电子商务中应用数据挖掘技术，从已有的信息数据中挖掘出潜在的有用的信息，已成为人们关注和研究的热点。

1 Web数据挖掘

Web数据挖掘是将传统的数据挖掘思想和技术应用于Web环境中，从Web文档集和Web活动中抽取出感兴趣、潜在的、有用的模式和知识的过程。Web数据挖掘根据Web信息不同可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。

Web内容挖掘是从文档内容或其描述中直接抽取有用信息的过程，通过对文本内容的检索，获取和提炼知识和信息。

用于Web内容挖掘的数据既有无结构的自由文本，也有网民留言、帖子、中文微博等半结构化的信息和来自于数据库的结构数据。所以Web内容挖掘需要从Web页面及后台数据库中开展挖掘任务，从大量元数据、文本、视频、音频等网络数据集中找到特定的信息[2]。

Web结构挖掘是从Web组织结构和链接中推导知识，对页面进行分类、聚类，提高检索效率和找出权威页面，目的是发现页面的内部结构和文档间的结构，利用这些结构蕴含的信息帮助发现有用的知识和模式。

超链接是Web页面的基本元素，经常可以利用超链接对Web结构进行挖掘。进行Web结构挖掘的常用算法有计算页面权威的PageRank算法、基于网页分析的HITS算法等。

Web使用挖掘是从服务器端记录的用户访问日志或用户的浏览信息中获取数据，通过分析这些数据抽取出隐藏在这些数据后面的用户模式，进行预测性分析。通过Web使用挖掘，可以发现隐藏的与用户访问行为相关的规律，如频繁访问路径、相似用户群和相似的Web页面等[3]。

2 面向电子商务的Web数据挖掘

2.1 Web数据挖掘过程

在电子商务环境下，Web数据挖掘过程要经历以下几步，它是不断反复修正的过程，直至得到准确的知识，如图1所示。

⑴ 确定挖掘任务，建立挖掘模型。构建模型的任务主要是将数据进行规格化处理，使用不同的算法、调整参数来优化挖掘任务，数据挖掘技术本身就是一个不断反复、不断迭代的过程，通过多次的循环构造才能得出更好的评估模型[2]。

⑵ 数据源：电子商务网站每天都会产生海量的交易数据和用户访问记录，收集的数据数量和质量都会影响到挖掘的结果。由于Web的结构大体为客户端→代理服务器→Web服务[4]，所以Web的数据源主要有Web服务器上的Web日志文件、从代理服务器端收集信息及其从Web页面中提取数据等。

⑶ 数据预处理：数据预处理的目的是提高挖掘效率，提供有效的挖掘数据，使得结果更合理。Web文档的数据很多都是半结构或非结构化的，很难对采集的Web数据直接进行处理。采集的Web数据需根据挖掘主题选择相关的数据项，经过初步的筛选，缩小数据处理范围。另外，Web数据具有不完全性、冗余性和模糊性等特性，通过补全不完全项、去除冗余项、处理模糊项等，去掉无用、不合理的数据，最后生成标准的数据集。

⑷ 模式发现：根据挖掘需求选择合适的Web挖掘算法和工具，实现从数据集发现潜在的、有用的知识和模型。常用的Web挖掘算法有：路径分析用来发现Web站点中最经常被访问的路径;关联规则用于关联知识的发现，了解网页之间的关系;序列模式可以挖掘出交易集之间有时间序列关系的模式;运用分类和聚类算法对数据进行分组等Web挖掘。

⑸ 模式分析：对于发现的.模式进行验证、解释、说明，获取对决策支持有用的信息。根据模式分析的反馈，如果没有得到合适的结果，重复上述步骤，重新挖掘知识，直至得到满意的结果。

⑹ 结果可视化：Web数据挖掘的意义不是获取庞大的数据信息，而是要将获取的知识或者模型采取用户可理解的方式展现给用户，这意味着要将分析结果可视化。数据可视化主要是借助于图形化手段，依据数据本身及其内在的模式和关系，清晰有效地传达与沟通信息。

2.2 Web数据挖掘在电子商务中的应用

将Web数据挖掘技术应用在电子商务中，从技术角度，可以提供优化网站结构和页面的策略;从商家角度，可以增加交叉销售量，尽可能将浏览者变为消费者;从用户角度，为用户提供了个性化服务。以下是Web数据挖掘在电子商务中的具体应用。

⑴ 改进站点的访问效率。通过对Web结构和Web日志的分析，对Web页面之间的组织关系、引用关系和超链接关系的分析，可以挖掘用户网页浏览行为模式、页面浏览情况等，对页面的重要性进行评估，有助于商家重新调整页面结构和页面布局，改进Web站点设计，提升访问效率，吸引更多用户。

⑵ 提供个性化服务。电子商务的快速发展，为用户提供了更多的选择，同时，面对电商网站众多的商品和越来越复杂的网站结构，如何能快速查找到自己感兴趣的商品是一个费时费力的问题。个性化服务是电子商务网站争取更多用户、防止用户流失以及实现市场目标的重要手段。协同过滤算法是目前使用最多、应用最成熟的一种推荐技术[5]。在电子商务中，运用协同过滤等推荐算法，构建基于Web电子商务的个性化推荐系统，可以制定不同的个性化营销策略。

⑶ 商品推荐服务。运用聚类、分类、关联规则等数据挖掘技术，可以从用户的访问数据中发现商品之间的联系，挖掘用户感兴趣的商品。比如通过用户购买商品A，推导出商品B也是用户感兴趣的商品。通过基于Web电子商务的智能推荐系统，客户可以在较短时间内购买到满意的商品，同时增加商家的交叉销售量。

⑷ 识别电子商务潜在客户。通过对Web已有的老客户数据的公共属性、类别关键属性及其属性间的相互关系进行分析，建立分类模型。对于一个新的用户，根据已建立的分类模型，对新用户进行正确的分类，根据类别判断用户是否潜在客户。

⑸ 理解客户意图。通过分析用户的浏览路径等多个数据源，运用路径游历模式等发现算法，发现被频繁访问的路径，从而发现用户的真实访问意图。

3 结束语

Web数据挖掘现状分析篇3

关键词:数据挖掘;Web挖掘

中图分类号:TP311.13文献标识码:A文章编号:1000-8136(2009)17-0131-02

数据挖掘(Data Mining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。

1 Web挖掘概述

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

2 Web挖掘流程

与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:

(1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。

(2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。

(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。

3 Web数据挖掘的分类

Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。

3.1 Web内容挖掘

Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。

目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。

另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。

3.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。

Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和Page Rank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。

3.3 Web使用记录挖掘

Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两种:①将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;②将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。

3.4 Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0出现的。基于RSS、Blog、SNS以及Wiki等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。

在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用户性质挖掘分为5类:

(1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯和个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。

(2)系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。

(3)站点修改。站点的结构和内容是吸引用户的关键。Web挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。

(4)智能商务。用户怎样使用Web站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开4个步骤,Web挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。

(5)Web特征描述。这类研究关注怎样通过用户对站点的访问情况,统计各个用户在页面上的交互情况,以及对用户访问情况进行特征描述。

4 结束语

Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统,下一步将会有更多的研究者把此作为研究方向。

Analysis of Web Data Mining Status Quo

Zhang Tao

Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to find useful information in the world's largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and development.

WEB使用挖掘篇4

随着互联网技术的快速普及与迅猛发展,Web数据挖掘技术已得到了广泛的研究和关注[1,2,3]。Web挖掘的目的是从Web的超链接结构、网页内容和使用日志中探寻有用的信息,包含内容挖掘、结构挖掘和使用挖掘等三个部分[4],三者的目的分别为提取内容相关信息、挖掘结构原形和对模式发现的分析。Web使用挖掘借助从Web日志文件得到的知识来检测用户在万维网(WWW) 的浏览模式,以用于Web个性化服务、增强系统系统性能、修改网站和商业智能等方面[5]。

数据预处理、模式发现和模式分析是Web使用挖掘的主要阶段[6]。模式发现的结果直接影响数据处理的质量,而良好的数据源不仅能提高数据挖掘模式质量还能改进Web使用挖掘算法,因此数据预处理是Web使用挖掘的关键步骤之一,在确定模式质量时是至关重要的。数据预处理过程中的各类数据收集在可用数据类型、数据源尺寸、数据源网站和实施方式上均可能不同[7]。

本文主要研究Web使用挖掘的数据处理过程。首先综述了本领域的相关工作,对本文提出的Web使用挖掘数据预处理方法进行了的简要描述,其次对本方法的实现过程进行了详细分析,最后进行了实验测试。结果验证了本方法的可行性和有效性。

1 相关工作

国内外学者对Web使用挖掘已经进行了大量的研究。文献[1]将改进的遗传算法应用于Web使用挖掘,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。文献[5]提出了Web使用挖掘的不同的数据处理算法,提高了处理效率。文献[6]研究了用户、会话、访问量和路径补充的识别方法,简化了数据处理过程中的复杂性。文献[7]对Web使用挖掘算法的预处理算法进行了改进,提高了数据挖掘的性能。然而,这些研究将更多的焦点放在模式发现上,而没有提出一种有效而通用的数据预处理方法。

2 数据预处理方法实现

作为数据准备过程的第一步,数据预处理旨在格式化用以识别用户会话的初始日志,因此是最耗时和最密集的步骤。作为Web使用挖掘过程的一个输入,用户会话给出了网站网页访问者、访问页面、访问页面的顺序及在每个页面花费的总时间等信息。当用户从网站请求资源时,Web服务器会记录日志信息。Web服务器通常会以服务器日志形式存储所有网站基于用户的活动。

服务器日志文件充当Web使用挖掘中的一个初始数据源,包括Web服务器的访问日志和服务器日志的应用。数据预处理阶段的重要任务是字段抽段,从日志文件的一行数据隔离不同字段的过程称为字段抽段。含有日志项的日志文件表示单一的点击流,日志项由几个需要为进一步的处理而隔离的字段组成。从数据源收集的所有日志文件被分类并添加到一个新的日志文件中。

由于不同服务器的参数设置不同,存在几种不同类型的Web日志,但这些日志文件通常共享相同的用户IP、请求时间、统一资源定位符(URL)、HTTP状态码和网站来路等基本信息。本文从某网站为2658 个用户收集具有Web日志记录的数据集。其中,Web日志包含17 个属性,每个属性代表一个以记录形式存在的数据值。如下是IIS服务器日志的某个片段:

#Fields: date time s-sitename s-ip cs-method csuri-stem cs-uri-query s-port cs-username c-ip cs( UserAgent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes

2013 - 05 - 11 15:44:21 W3SVC381 202. 199.120. 47 GET / news / news. asp id = 20080 - 203.208. 60. 169 Mozilla /5. 0 + ( compatible; + Googlebot /2. 1; + + http:∥www. google. com / bot. html) 200 0 029057 298

数据预处理通常包含数据清理、用户识别、会话识别和路径补充等步骤:

(1)数据清理

Web使用挖掘的目的是得到遍历模式,涉及消除不相关和多余的日志项的数据清理工作是至关重要的[8]。这项工作通常清理特定的网站的两种不相关数据:嵌入对象的无关引用和错误请求。

由于HTTP协议的无状态和无连接等特点且图形和其它脚本伴随HTML文件内容被下载,用户浏览网页的请求将产生几个日志项。因此,Web使用挖掘的主要目标是清楚描述Web用户的行为,需要清楚在cs_uri_stem字段的jpeg、gif、css及cgi等后缀。

对Web数据挖掘来讲,错误代码是不相关且无用的。如果发现不相关的错误代码,必须能检测到并能将之移除。状态码有四种不同的类型:成功、重定向、失败和服务器错误。所有错误码都能被消除,如代表代表身份验证失败的401 和代表文件未找到的404 错误码,这些错误码对分析过程是无关紧要的,因此要从日志中清除。

利用清理过程消除一些数据字段是很有必要的。完成数据预处理之后,来自于多重数据源的数据将被整合并被转化为一种可接受的数据格式,进而作为不同挖掘过程的输入。

(2)用户识别

用户识别过程的目的是从Web访问日志文件中发现不同的用户,借助IP地址来区分不同的用户。这是一种基于网站来路的用户区分方法。由于代理缓存、防火墙和代理服务器的存在,用户识别过程可能很复杂。为降低用户识别过程的复杂性,可采用依赖于用户协作的Web使用挖掘算法,但对用户信息的安全性和秘密性的要求使得这种方法很难实现。如下的启发式规则被用于测试本文提出的识别用户的方法:

每个IP地址代表一个用户。

若多数日志具有相同的IP地址,但代理日志在浏览器或操作系统中有变化,则IP地址代表多个不同的用户。

若IP地址、浏览器和操作系统均相同,则可考虑网络来路信息。若用户请求页面不能通过任意网页的链接直接访问,则另一个用户具有相同的IP地址。

(3)会话识别

用户会话识别的目的是从web访问日志文件中发现不同的用户会话,跨Web服务器被定义为一个用户会话。一组用户点击流通常作为一次点击。用户会话识别将用户访问的每个页面分为多个不同的会话。目前,用于识别用户会话的方法主要有时间机制和最大前向引用。本文采用如下规则来识别用户会话:

若有一个新的用户,则有一个新的会话。

若在用户会话中引用页为空,则有一个新的会话。

若页面请求间的时间帧超过阈值( 比如25 分钟),则用户开始一个新的会话。

(4)路径补充

由于代理服务器和本地缓存的存在,很多重要的用户访问没有在访问日志中被记录。路径补充的目的是通过补充丢失页面引用而得到完整的用户访问路径。基于用户会话识别的不完整访问路径是众所周知的,已有利用跟用户识别相同的方法来得到用户访问的完整路径。网站来路日志用于检测网页请求的来路。如果可在用户最近历史记录中得到访问的网页,则期望用户利用后退按钮回溯到之前的页面,直到一个新的页面请求才提出缓存版本。如果不确定网站来路的影响,可求助于网站拓扑。如果在用户会话开始时,网站来路和URI有一个数据值,则通过添加一个分节符‘- ’来删除来路的值。Web日志预处理有助于从日志文件中消除不必要的点击流而且将原始文件大小减小了50% ~ 55% 。

3 实验测试

为验证本文提出方法的有效性,将进行几个实验测试。数据源尺寸为42MB,实验时间为2013. 6.2 - 2013. 7. 5。实验采用2. 8GHz的Core2duo处理器、2GB主存、Windows 2003 操作系统、SQL 2000 数据库服务器和JDK 1. 6。表1 分别为初始Web日志的条目、清理后日志条目、用户访问的次数和会话记录次数。

从表1 可以看出,在对45692 个原始日志条目进行数据清理之后,仅留下5613 个日志条目。这表明,仅发现了12. 2% 的相关数据,别的数据已被本文提出的方法清除。在清除jpeg、gif、css和其它后缀的条目之后,数据清理结果如表2 所示。

表3 为用户细节信息和结果。

根据用户识别的结果,在25 分钟的阈值和路径补充上,共有3046 个会话被识别,显然减小了日志文件的尺寸而且提高了可用数据的质量。

4 结束语

数据挖掘是创建合适数据的一项重要工作。数据预处理过程是Web使用挖掘过程中最耗时和最密集的活动。为提高模式分析数据的质量,本文提出了各种关于数据预处理必须的细节问题。在数据预处理的每个过程中,为设计和实施简单高效的算法引入了一些用户识别和会话识别的过程。对本文提出的方法进行了实验测试,结果表明本文提出的方法不仅能有效减小日志文件的尺寸还能增加提高可用数据的质量。

摘要：大数据背景下,Web使用挖掘的目的是通过识别Web数据使用模式更好地为Web应用需求提供服务,高效地处理大数据并从中找到有用的信息,数据预处理是保证Web使用挖掘数据质量的必要阶段。首先,论述了Web使用挖掘数据预处理领域的相关工作;其次提出了在数据挖掘开始之前的接入流数据预处理技术,这项技术能通过识别单独用户和会话来提高数据预处理的性能;最后进行了实验验证。结果表明,文中方法有助于发现来自于用户数据流的有意义的模式和关系,因此具有可行性和有效性。

关键词：Web使用挖掘,大数据,数据预处理,数据清理

参考文献

[1]雷亮,李善君,彭军.改进的遗传算法在Web使用挖掘中的应用[J].计算机工程与应用,2009,45(8):135-137,171.

[2]Suneetha K P,Krishnamoorthi R.Identifying User Behavior by Analyzing Web Server Access Log File[J].International Journal of Computer Science and Network Security,2009,9(4):327-332.

[3]Mark E Snyder,Ravi Sundaram,Mayur Thakur.Preprocessing DNS Log Data for Effective Data Mining[C].Proceedings of IEEE International Conference on Communications,Dresden,Germany,2009:1-5.

[4]袁瑞红.基于语义相似度的Web结构挖掘研究及实现[M].南京:南京理工大学,2009.

[5]Li Chao-feng.Data Source Analysis on Web Usage Mining[J].Journal of south-central university for nationalities,2005(4):82-85.

[6]Varnagar C R,Madhak N N,Kodinariya T M,et al.Web usage mining:A review on process,methods and techniques[C].International Conference on Information Communication and Embedded Systems,Chennai,India,2013:40-46.

[7]Sudheer R K,Kantha R M,Sitaramulu V.An effective data preprocessing method for Web Usage Mining[C].International Conference on Information Communication and Embedded Systems,Chennai,India,2013:7-10.

WEB使用挖掘篇5

一种单页应用的页面结构

面向移动端的单页应用(Single Page Web Application)，从页面代码上来说，会使用较一般网页不同的结构，单页应用并不是说应用只需要一个视图，而是说可以将组成应用的多个视图集合在一个网页内呈现，且在视图之间能够自由切换(平滑的动画形式居多)。

我制作单页应用使用的是一种常见方法，像下面这样：

CSS Code复制内容到剪贴板

“view-pageview-current”>

“view-page”>

.view-page{

display:none;

position:absolute;

width:100%;

height:100%;

left:0;

top:0;

}

.view-current{

display:block;

}

可以看出，其原理是视图都由绝对定位的覆盖屏幕大小(可见视口)的元素构成，在某一时间点，只会显示一个视图。

固定页脚的问题

那么，固定页脚是一个什么问题呢?请看下图：

先说说什么是固定页脚吧。上图右可以看到，当页面内容较多，超出一屏的高度时，页脚是“自然地”紧跟在内容后边，滚动到底部时，才会看到位于最下方的页脚。同时，上图左可以看到，当页面内容较少时，页脚则直接位于屏幕最下方，剩余区域则是空白。这就是固定页脚，它可以算是一种比较理想的“总是在它应该在的位置”的页脚。

那么，问题来了。参考上图左，除了固定页脚的效果之外，现在还要求当页面内容较少时，页面内容(Content)可以水平垂直居中于剩余的空间(Container)。在上述单页应用的页面结构中，应该如何实现呢?

方法探讨

水平垂直居中与Flexbox

让我们一步一步来。先完成“水平垂直居中”。由于内容高度不确定，所以这里适合使用弹性盒模型(Flexbox)。

关于弹性盒模型的指南，推荐阅读A Complete Guide to Flexbox 和Dive into Flexbox 。

应用Flexbox实现水平垂直居中可以先得到这样的代码(由于其他视图不再需要，这里只保留一个视图)：

CSS Code复制内容到剪贴板

“view-pageview-current”>

“containerflex-containerjustify-content-centeralign-items-center”>

“content”>

上面的div.container对应前面图中的剩余空间(作为容器)，div.content则是需要水平垂直居中的内容。对应的css是：

CSS Code复制内容到剪贴板

.container{

min-height:100%;

}

flex-container、justify-content-center、align-items-center都是弹性盒模型的辅助class(熟悉了Flexbox就可以很快理解)。使用辅助class是因为弹性盒模型从前到后几经变化，兼容处理需要稍多代码，

这些辅助class的css是：

CSS Code复制内容到剪贴板

.flex-container{

display:-webkit-box;

display:-webkit-flexbox;

display:-ms-flexbox;

display:-webkit-flex;

display:flex;

}

.justify-content-center{

-webkit-box-pack:center;

-webkit-flex-pack:center;

-ms-flex-pack:center;

-webkit-justify-content:center;

justify-content:center;

}

.align-items-center{

-webkit-box-align:center;

-webkit-flex-align:center;

-ms-flex-align:center;

-webkit-align-items:center;

align-items:center;

}

到此，水平垂直居中就完成了。

实现固定页脚

现在加入页脚的部分。这时候html代码变成：

CSS Code复制内容到剪贴板

“view-pageview-current”>

“containerflex-containerjustify-content-centeralign-items-center”>

“content”>

“footer”>

注意，div.view-page是绝对定位，且定义了height: 100%;，而此时div.container也定义了min-height: 100%;。考虑到要“为页脚留空间”，结合传统网页中的固定页脚的做法，得到完整的css：

CSS Code复制内容到剪贴板

.container{

min-height:100%;

margin-bottom:-120px;

padding-bottom:120px;

-webkit-box-sizing:border-box;

box-sizing:border-box;

}

.footer{

height:120px;/*假定页脚的高度为120px*/

}

以上就是在这种条件下的固定页脚的实现方法。虽然最后看起来只是这样一小段代码，但我还是思考了相当一段时间加上试验才得到。其中padding-bottom和负值的margin-bottom的结合应用很关键。此外，作为移动端的网页，要想到使用box-sizing这个配合百分比会非常有用的CSS3属性。

其他形式的尝试?

我也试过使用主轴为垂直方向的Flexbox来实现，但可惜经过测试，flex-direction: column;还没有被现在的主流手机浏览器所支持。

传统网页的固定页脚

关于传统网页的固定页脚，有一个专门的站点HTML5 CSS Sticky Footer介绍了其实现方法和原理，你也可以阅读我以前写的简单实现固定在页面底部的页脚。

结语

移动Web单页应用的页面结构是比较特别，所以固定页脚这么有用的东西做起来又是一个新话题了。想到并试验成功后，我第一反应就是赶紧记下来，真是担心以后忘掉了还得费劲重想...

XML与Web数据挖掘技术篇6

由于Internet的发展，网上数据的不断激增，人们对网上信息的应用需求也不断提高，将这些数据进行复杂的应用成了现今数据库技术的研究热点。将传统数据库技术直接应用于网上数据的最大困难在于：传统的数据库中的数据结构性很强，即其中的数据为完全结构化的数据，而Web上的数据最大特点就是缺乏统一的、固定的模式，数据往往是不规则且经常变动的半结构化(即是相对于完全结构化的传统数据库的数据而言)。因此充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。所谓数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。

1.半结构化的数据结构

Web上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而Web上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据具有一定的结构性，但因自述层次的存在，从而是一种非完全结构化的数据，也被称为半结构化数据。

2.解决半结构化的数据源问题

Web上的每一个站点都是异构的数据源，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘，首先，必须将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Web上的数据查询问题，因为如果数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起。

解决Web上的异构数据的集成与查询问题，就必须要有一个模型来清晰地描述Web上的数据。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。针对Web上的数据半结构化的特点，寻找一个半结構化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。也就是说面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

二、XML与Web数据挖掘技术

XML可看作一种半结构化的数据模型，可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来，实施精确地查询与模型抽取。

1.XML简介

XML其特点可概括为简单、开放、高效可扩充、国际化等，是一种类似于HTML，被设计用来描述数据的语言。XML解决了HTML不能解决的两个Web问题，一是Internet发展速度快而接入速度慢的问题，二是可利用的信息多，但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息，可使计算机和服务器即时处理多种形式的信息。因此，运用XML的扩展功能不仅能从Web服务器下载大量的信息，还能大大减少网络业务量。

XML中的标志(TAG)是没有预先定义的，使用者必须要自定义需要的标志，XML是能够进行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型定义)来显示这些数据，XSL(eXtensible StyleSheet Language)是一种来描述这些文档如何显示的机制，它是XML的样式表描述语言。XSL包括两部分：一个用来转换XML文档的方法；另一个用来格式化XML文档的方法。XLL是XML连接语言，它提供XML中的连接，与HTML中的类似，但功能更强大。由于XML能够标记更多的信息，所以它就能使用户轻松地找到他们需要的信息。利用XML，Web设计人员不仅能创建文字和图形，而且还能构建文档类型定义的多层次、相互依存的系统、元数据、超链接结构和样式表等。

2.XML在Web数据挖掘中的应用

XML已经成为正式的规范，开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型，XML可以从存在的数据中产生出来，使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤(如下图)：

用标准的HTML无法完成的Web应用促进了XML应用。这些应用大体上可以被分成以下四类:

需要Web客户端在两个或更多异质数据库之间进行通信的应用；

将大部分处理负载从Web服务器转到Web客户端的应用；

需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;

需要智能Web代理根据个人用户的需要裁减信息内容的应用。

显而易见，这些应用和Web的数据挖掘技术有着重要的联系，基于Web的数据挖掘必须依靠它们来实现。

XML给基于Web的应用软件赋予了强大的功能和灵活性，因此它给开发者和用户带来了许多好处。由于基于XML的数据是自我描述的，数据不需要有内部描述就能被交换和处理。利用XML，用户可以方便地进行本地计算和处理，XML格式的数据发送给客户后，客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据，而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据，数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面，使用简单灵活开放的格式，可以给Web创建功能强大的应用软件。

XML还可以通过以简单开放扩展的方式描述结构化的数据，XML补充了HTML，被广泛地用来描述使用者界面。HTML描述数据的外观，而XML描述数据本身。由于数据显示与内容分开，XML定义的数据允许指定不同的显示方式，使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。

XML应用于将大量运算负荷分布在客户端，即客户可根据自己的需求选择和制作不同的应用程序以处理数据，而服务器只须发出同一个XML文件。如按传统的“Client/Server”工作方式，客户向服务器发出不同的请求，服务器分别予以响应，这不仅加重服务器本身的负荷，而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序。应用XML则将处理数据的主动权交给了客户，服务器所作的只是尽可能完善、准确地将数据封装进XML文件中，正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义，从而使广泛、通用的分布式计算成为可能。

XML还被应用于网络代理，以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。

三、结束语

WEB使用挖掘篇7

随着Internet应用的快速发展，以及教育大众化和终身化的需求，通过网络向学生提供形式多样的学习模式，可以实现在不同地点实时地、交互地和有选择地进行学习，具有资源共享、系统开放等优点的在线教学系统就成为现代远程教育的重要研究课题之一。

在线教学系统的核心是开放、互动、智能和自适应。本文介绍的Web使用挖掘应用于在线教学系统，可以在海量的Web访问数据中发现学生站点浏览模式，不断完善知识点间的关联规则;可以结合学生特征库和学习行为记录挖掘学生对知识点的理解程度，以便智能推荐后继课程和学习资料;也可以及时反馈学生学习进度，使教师及时调整教学要点、教学内容和教学方法[1][2]，是实现在线教学系统个性化、智能化的一种重要技术手段。

二、Web使用挖掘技术

数据挖掘应用于Internet时，常被称为“Web挖掘”，是一个从大型数据仓库中提取隐藏预测信息和发现有用模式、轮廓和趋势的过程。Etzioni将Web挖掘定义为“从Web文档和服务中自动发现和提取有用信息的一种数据挖掘使用技术”。[3]一般分为Web内容挖掘、Web结构挖掘和Web使用挖掘。在线教学系统中，Web使用挖掘的主要任务是通过对学生访问内容、访问频率、停留时间等进行分析，得出学生访问行为和方式的一般模式，并以此为依据向学生提供全面的个性化、智能化在线教学指导。和其它数据挖掘一样，Web使用挖掘也需要经过数据采集、数据预处理、模式发现和模式分析等过程，如图1所示。

（一）数据采集

数据采集就是要记录用户访问行为。一般包括服务器端的数据采集、客户端的数据采集和代理端的数据采集。原始数据需要经过处理后才能有效实施挖掘算法，所以需要进行数据预处理。

（二）数据预处理

数据预处理的质量与Web挖掘的效率和结果紧密相关，其内容包括：数据清洗、用户识别、会话识别、事务识别和路径补充等。

（三）模式识别

模式识别是对预处理后的数据实施挖掘算法。模式识别的基本方法有：统计分析、关联规则、序列模式、频繁访问组、依赖建模等。为了提高数据分析的有效性和准确性，通常会根据待分析数据的不同特征综合采用上述几种挖掘算法。

（四）模式分析

模式分析的目的是根据实际应用，利用可视化技术、联机分析技术和智能查询机制等方法和工具对挖掘出来的模式规则进行分析，找出我们感兴趣的模式和规则[4]。对于挖掘出的规则和模式的兴趣常采用兴趣函数来度量。

三、在线教学系统中Web使用挖掘技术的应用

在线教学系统中应用Web使用挖掘即在学生访问系统后留下的使用记录中实施数据挖掘，发现和提取有用的信息，其体系结构如图2所示。Web使用挖掘的主要数据源是学生访问记录即学生访问系统在服务器端存留的Web访问日志，包括学生个人的详细信息、访问的时间频率、访问的时间段、停留时间、访问行为等数据。这些数据将在经过预处理后，在专用的数据挖掘模块中，通过具体的挖掘算法来进行模式识别。数据挖掘的结果将存放在数据挖掘结果集中，由专门的模式分析模块对其进行筛选。

（一）数据预处理过程

这里的预处理过程主要是针对系统的Web访问日志，是Web使用挖掘过程中最关键的一环，预处理的质量直接关系到后面挖掘过程和模式分析过程的质量。

1.数据清洗。删除Web日志中与数据挖掘不相关的冗余项。Web日志记录学生IP地址、学生ID、学生请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数和错误代码等属性，而与数据挖掘相关的只有学生IP地址、学生ID、学生请求访问的URL页面及访问时间等，其它属性可以去掉。

2.用户识别。包括如何在海量数据中找出属于同一学生的记录;如何在学生访问时识别该学生，迅速找出对应该学生的挖掘结果和推荐集。由于本地缓存防火墙和代理的存在给用户识别带来了困难，常采用基于日志/站点的方法及其它一些启发性规则用于识别用户。

3.会话识别。将学生访问信息按照一定的时间段进行划分，每一时间段内的学生访问集合作为一个用户会话。会话识别的意义在于可以将不同时间段内的学生访问区分开，而不致于将时间间隔很长的两次访问看作一次。在时间区段较大的Web服务器日志中，用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别，如果用户请求的页面之间的时间超过一定间隔，则认为用户开始了一个新的会话。

4.事务识别。在进行挖掘之前必须把页面的访问序列分成表示Web事件或用户会话的逻辑单元，不像传统的事务数据库，Web挖掘中没有一些很方便的方法用于事件识别，现在主要有访问路径长度和最大向前访问路径两种方法。

5.路径补充。在访问日志中可能有一些重要的访问路径没有被记录下来，但是这些路径对用户会话的识别又是很重要的。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中，对于一些不完整的用户访问序列，我们可以采用一些启发性规则，结合网页拓扑进行推理，补全访问路径。

（二）建立学生访问数据超立方体

对已预处理的学生访问记录建立数据超立方体，这个超立方体负责提供一个良好的数据挖掘环境。超立方体HC=[A1, A2, A3，...，An]，每个Ax表示一个m的维，如时间维、域名维、文件维和浏览工具维等。每个维的Ax=[ax1, ax2, ax3，...，axm]，表示此维的m个属性，如时间维的属性可以表示为星期一、星期二……星期日等。

（三）模式发现及应用

在已建立的数据超立方体的基础上，我们可以使用统计分析、频繁访问、关联规则、聚类与分类分析和序列模式等挖掘技术进行在线教学系统的个性化、智能化应用。

1. 根据用户行为和路径分析改善站点结构。

统计分析是分析用户行为最常用的方法。在线教学系统中，我们可以用于分析该学生的访问次数、总停留时间、该学生访问的课程数、该学生对哪些课程停留时间较长等，还可以统计系统某个时间段内访问的次数，访问次数最多的URL等。此外还能提供有限的低层次错误分析，比如检测未授权入口点，找出最常见不变的URL等。频繁访问组可以用于判别在Web站点中频繁访问的路径集和其它一些通过路径分析得到的有关知识。结合这些用户行为和路径分析知识，我们就可以改善站点结构。例如，对某学生进行一段时间的访问路径跟踪后，将其访问模式存入应用服务器上的学生个性数据库，即可据此向其提供个性化学习界面。

2. 利用关联规则发现学生的某些知识兴趣点之间的相关性。

所谓关联规则就是描述数据库中数据项(属性、变量)之间所存在的(潜在)关系的规则，也就是说，当两个或多个数据项的取值之间反复出现且概率很高时，它们之间就存在某种关联，这时我们就可以为这些数据项建立关联规则。关联规则分析分为两步：找一个支持度大于给定值的大数据项集;用这个大数据项集产生关联规则。Web使用挖掘中的关联规则主要是通过分析学生访问网页间的潜在联系而归纳出的一种规则，即发现给定的数据集中项之间的有趣联系或相关联系。例如，发现访问A学习资源的学生有多大比例同时也访问了B学习资源，如果该比例超过给定值，就可以认为该关联规则是有趣的，下一次有学生访问A学习资源时，就可以将B学习资源推荐给他。在线教学系统中，关联规则可以发现用户会话中经常被学生一起访问的页面集，这些页面之间并没有顺序关系，我们可以根据这些学生群的相同兴趣进行教学安排。例如，关联规则作为启发规则为学生预取可能请求的页面，以减少等待时间，建立起一个方便有效的学习环境。

3. 利用聚类算法从Web访问数据中聚类出具有相似性的网页或学生。

聚类即将物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。属于同一个类的对象可以作为一个整体来对待。个性化在线教学中，主要有两类聚类，页面(资源)聚类和学生聚类。如果通过聚类发现若干个网页属于同一网页(资源)聚类，当学生访问其中一页(资源)时，可推荐类中其它页面(资源)。学生聚类中的学生具有相似的学习习惯或学习兴趣，可以据此对他们提供相同的个性化服务。比如，当我们发现学习《计算机网络》这门课的学生80%是二年级的学生后，我们就可以把这门课推荐给所有的二年级学生，而且可以定时发送一些课程信息邮件给这些学生。另外，我们可以根据对该课程的聚类结果来指导学生建立网上课程学习小组和学习网站等。

4. 通过分类算法分析学生知识水平，给予不同层次教学指导。

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，一般用规则或决策树模式表示。把学生按行为模式分类，以此划分教学目标群体，教师就可以进行教学规划，通过创造一系列的课程事件，帮助学生建立一个方便的学习环境，形成一个理想的、有效的学习过程。例如，可以把具有相似的知识背景和接受能力并且学习《计算机应用基础》课程的学生知识水平分成“初级”、“中级”和“高级”，并给予相应的教学指导。

5. 利用序列模式挖掘找出学生学习过程中的事件序列关系。

即发现学生在一定持续时间内的访问序列。例如，当发现有一定比例的学生学习甲课程后一个月又学习了乙课程，那么，当发现学习了甲课程的学生时，可以在一段时间后向他推荐乙课程。

四、Web使用挖掘技术在应用中存在的问题

尽管Web挖掘技术已经在个性化在线教学系统中得到了广泛的应用，但是还存在着以下几个方面的问题。

（一）性能问题

个性化在线教学系统都不同程度地扩展了传统的客户端/服务器体系结构，Web信息经过相应处理后才返回客户端，就必然会延长响应时间。实时个性化系统对响应时间要求比较高，特别是采用中间代理方式的系统，如果中间处理过程费时过多或用户数量过大，系统性能将是一个不可忽视的问题。而且针对个性化在线教学系统，无论是其用户量，还是系统维护的网页，通常都是海量的，目前的Web挖掘算法在处理这些数据时通常都采用离线方式，因此对于要求在线实时处理的情况还不能很好地解决。

（二）绩效评价问题

应用Web使用挖掘技术实现在线教学个性化、智能化服务，不同系统采用不同的Web挖掘技术，如何评价它们的建模效果和系统最终的服务绩效也是一个非常重要的问题。目前对个性化系统服务绩效的评价，不同系统采用不同的方式和测试数据，因此，无法评价多个不同个性化系统服务绩效的优劣，需要研究一种通用的性能指标和开发相应的Benchmark评价比较各种不同的Web挖掘技术。

五、结语

利用Web使用挖掘可以从学生访问记录中得到有用的知识来指导教学，进行资源推荐、改善网络服务，可以提高学习效率、增强教学效果，提高在线教学系统的个性化服务水平，为系统的决策分析提供了智能的辅助手段。在线教学系统能根据学生知识结构、学习风格等个性特征进行个性化教学，以提高学习者学习的积极性和主动性，增强学习者的内部动机，提高学习效率。数据挖掘技术在现代远程教育系统的应用还存在着很多问题，有待于进一步深入研究，但是随着Web挖掘技术的日渐成熟，对个性化服务更深入的研究，个性化学习系统将更加完善，在现代远程教育中有着广阔的发展前景，必将成为未来教育的一种重要的教学手段。

参考文献

[1]汪永好.设计模式在工作流管理系统实现中的应用[J].计算机工程与设计, 2006, 27, (6) :1096-1100.

[2]WfMC-TC00-1003, V1.1.Workflow reference model[S].

[3]Etzioni, O.The World Wide Web:Quagmire or Goldmine Communications of the ACM, 1996, vol39, (11) :6568.

WEB使用挖掘篇8

目前, 电子商务已经相当普遍, 而且具有更加深入、广泛的发展前景。与此同时, 竞争也日趋激烈, 如何留住老客户并不断吸引新客户是每个电子商务网站所面临的挑战, 而取胜的关键就是发现客户的兴趣访问模式并在此基础上提供个性化服务, 利用Web使用记录挖掘可以实现该目标。Web使用记录挖掘通过对Web日志记录的挖掘, 发现用户访问Web页面的模式, 其主要目标是从Web的访问记录中抽取感兴趣的模式[1]。

早期的Web使用记录挖掘主要是利用用户访问Web时在Web日志里留下的信息来获取用户浏览路径, 这种方法比较适合静态页面, 不能很好地适用于当前的互联网动态应用, 而且, 这种方法主要集中在对用户浏览路径上的分析, 挖掘出来的访问模式没有充分考虑Web页面的内容和用户的自身特性, 很难体现用户的兴趣访问模式以及兴趣访问模式与用户自身特性之间的内在联系。文献[2]对动态网页环境下的Web使用记录挖掘进行了研究, 提出了一种在动态网页环境下进行数据采集的方法, 使用新的数据集代替Web日志作为待挖掘的数据。文献[2]可以有效地提高待挖掘数据的质量并解决了早期Web使用记录挖掘方法中的一些难点, 如用户识别等, 对于注册并登录的用户的访问行为可以实施有效地跟踪, 但是, 由于并不是所有的用户都愿意注册, 且每一次访问时都愿意登录, 因此, 这种解决方法存在一定的不足。本文提出了将传统的基于Web日志的Web使用记录挖掘与文献[2]中的Web使用记录挖掘相结合的新方案, 实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

1. 传统的Web使用记录挖掘

传统的Web使用记录挖掘的实现过程主要分三步:数据预处理, 模式发现和模式评估。

1.1 数据预处理

在传统的Web使用记录挖掘中, 挖掘所使用的数据集是用户访问日志, 分别存在于服务器、代理服务器和客户端。不同地方的访问日志数据集体现了用户使用网络资源的不同模式, Web服务器的日志体现了"多个用户/单个站点"的访问模式, 代理服务器日志体现了"多个用户/多个网站"的访问模式, 客户端浏览器日志体现了"单个用户/多个网站"的访问模式。数据预处理就是要把这些日志进行收集、清洗、处理, 形成多个用户一次次对同一服务器的会话, 主要涉及用户识别、会话识别、网页浏览识别和用户访问服务器会话期间网页浏览序列推断。

用户识别:要准确识别出每个用户是很困难的, 这主要是因为用户访问和服务器资源不是一对一的关系, Web服务器的日志可能记载了一个用户在多个客户端提交请求的情况, 也可能是多个用户在一个客户端提交请求的情况。另外, 缓存、防火墙和代理服务器等的存在也导致用户识别很困难。文献[3]总结了常用的确定用户及其行为的方法及其优缺点。

会话识别:由于Web服务器是并发处理多个用户的请求, 要想识别出所有用户访问会话期间也是比较难的, 一般是基于对用户浏览行为的假定。研究人员基于"用户访问过程中只有在改变访问主题时, 才会访问前面访问过的页面以跳转到另外的页面"提出了最大前向参引模型 (Maximal Forward Reference Model) , 基于"用户一次访问的时间都不会超过一个最大的限制, 即时间窗口 (Time Window) "提出了时间窗口模型 (Time WindowModel) 。文献[3]提出了把时间窗口模型和最大参引模型结合起来的方法。

网页浏览识别:指一个网页浏览包括哪些网页文件请求, 以及共同构成什么样的内容。用户操作请求所得到的内容通常可以由服务器日志中请求字段的内容获得。

网页浏览序列推断:客户端存在缓存, 用户访问过程中会不断访问到缓存中存在的页面, 例如, 利用"back"按钮进行后退, 点击一个已经点击过的连接, 直接从浏览器历史列表中点击一个连接。会话识别只是区分出了一个个用户访问服务器的会话期间, 但没有包含用户访问过的所有页面, 这是由于客户端存在缓存, 因此, 需要推断和完善用户访问服务器的会话期间, 即路径补全。

1.2 模式发现和模式评估

Web使用记录挖掘常用的方法包括:统计分析, 可以对会话文件进行分析以获得网页浏览、浏览时间和路径长度等方面的统计信息;关联规则挖掘, 可以发现一个会话中经常一起访问的网页, 为市场营销或重新组织网站内容提供决策支持;聚类分析, 可以做用户聚类进而为用户提供个性化服务, 也可以做网页聚类协助建立具有相关内容的网页组;序列模式分析, 可以发现一个会话内部的网页间的时间相关性进而帮助预测网页的访问情况等。

模式评估用于将所发现的模式转化为有用的知识, 一般是结合领域知识将无意义或无价值的模式去除。

2. 基于定制数据采集的Web使用记录挖掘

传统Web使用记录挖掘所使用的数据集主要是Web服务器的日志。然而, 目前绝大多数网站都使用动态页面, 这使得Web日志增大、与挖掘无关的数据项增多, 这些加大了数据预处理的难度, 因此, 动态网页环境下的数据预处理成为针对动态网站进行Web使用记录挖掘的关键。

文献[2]中针对电子商务应用提出了一种Web使用记录挖掘中数据采集的新方法, 该方法根据电子商务个性化服务的目标和Web使用记录挖掘的要求设计了"用户访问记录", 并以此代替Web服务器的日志。"用户访问记录"由服务器应用程序收集。"用户访问记录"将Web日志的内容和电子商务中的购物记录、查询记录有机结合, 可以有效反映用户的兴趣访问模式。用户访问记录的内容包括用户标识、用户的IP地址、使用代理、访问日期时间、页面请求的来源页面、对象URL、搜索的关键字、访问对象类型、用户动作 (查看、购买、放弃购买等) 及商品号。如果将"用户访问记录"、用户注册信息和交易信息再进行有机结合, 则可以发现兴趣访问模式与用户自身特性之间的内在联系, 则可以为电子商务的营销提供有力支持。文献[2]中的方法对于注册并进行登录访问的用户非常有效, 但对于初次访问、未注册用户的访问以及注册用户但不进行登录的访问, 处理的比较粗糙, 存在不足。另外, 服务器数据采集程序收集"用户访问记录"增加了服务器的负载, Web服务器的日志没有被加以利用。

3. 用户访问日志与定制数据采集相结合的Web使用记录挖掘

针对传统的Web使用记录挖掘和文献[2]的不足, 本文提出了将用户访问日志与定制数据采集相结合的新方案, 该方案实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

新方案的系统模型借鉴了文献[4]中的结构, 如图1所示:

在数据采集层, 对于初次访问、未注册用户的访问以及注册用户的不登录的访问, 数据来源为用户访问日志和交易数据库, 并且不进行定制数据采集以减轻服务器的负担, 经过数据清洗和用户识别后, 进一步进行会话识别、浏览序列识别和网页浏览序列推断, 从而完成数据预处理。对于注册用户的登录访问, 数据来源于定制数据采集产生的"用户访问记录"、交易数据库以及用户注册信息, 这些数据无需进行数据清洗和用户识别, 而是直接进行会话识别及其后的步骤即可实现数据预处理。

数据由数据存储层进行存储和管理, 主要有三类数据存储方式:关系数据库、数据仓库和事务数据库。关系数据库是数据挖掘最丰富的数据源之一;数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[5,6], 主要用于支持决策;事务数据库一般为一个文件组成, 其中每个记录代表一个事务, 事务数据库特别适合于"购物篮数据分析"。网站可以根据实际需求选择数据存储方式。

模式分析利用层由两部分组成:个性化网站及商业智能。其中, 个性化网站由Web服务器、推荐引擎和推荐集三部分组成, 目的是实现网页的内容从以"网站"为中心到以"用户"为中心的转变, 尽可能地自动调整以迎合每个用户的浏览兴趣与购买模式, 从而方便用户 (网站的访问者) , 促进采购量。

4. 结束语

本文研究了Web使用记录挖掘, 特别是针对数据采集和预处理, 进行了深入研究, 对比了已有方案的优缺点, 并在此基础上提出了新的解决方案。Web使用记录挖掘有广泛的应用领域, 其中, 电子商务是最为重要的领域之一, 面向电子商务的Web挖掘应用系统已经成为研究热点, 我们将继续进行更深入的研究。

参考文献

[1].Srivastava J.Web usage mining:Discovery and application of usage pat-terns from Web data[A].SIGKDD Explorations[C].New York:ACMPress, 2000.43-56.

[2].何典, 梁英, 动态网页环境下的Web使用记录挖掘研究, 《微计算机信息》 (测控自动化) 2006年第22卷第8-1期P122-124

[3].张娥, 郑斐峰, 冯耕中, Web日志数据挖掘的数据预处理方法研究, 《计算机应用研究》2004年第2期P58-60

[4].程筱胜, 廖文和, 田宏, 薛善良面向电子商务的Web挖掘系统模型研究与应用, 《南京航空航天大学学报》2004年第36卷第三期P322-326

[5].Kanm rani A, Rong W, Gonzalez R, A genetic algorithm methodologyfor data mining and intelligent knowledge acquisition[J], Computer&In-dustrial Engineering, 2001, 40 (2) :361～377

WEB使用挖掘篇9

随着互联网应用的快速发展, 以及教育大众化和终身教育的需求, 以网络通讯技术、计算机多媒体技术为依托, 通过网络向学生提供形式多样的学习模式可以实现在不同地点实时地、交互地和有选择地进行学习, 具有时空自由、资源共享、系统开放等优点。向学生提供个性化的教学服务就成为其区别于传统教学模式的重要特征, 因此也成为现代远程教育的重要研究课题之一。

Web挖掘就是将传统的数据挖掘技术和Web结合起来, 进行Web知识的提取。一般Web挖掘可分为:Web结构挖掘、Web内容挖掘和Web使用挖掘。本文讨论的重点在于Web使用挖掘。

2. Web使用挖掘

2.1 处理模型

Web使用挖掘的主要任务是研究用户的浏览行为 (即对Web站点的使用) 。和其他数据挖掘一样, Web使用挖掘也需经过数据采集、数据预处理、模式发现和模式分析等过程。

2.1.1 数据预处理

对得到的原始用户浏览信息进行处理, 取出用户访问的URL、页面的大小、请求的时间、在页面上停留的时间、请求者的Internet域名、用户、服务器状态等变量。下面分析比较常见的从Web日志中获取的浏览信息的预处理过程。它包括如下几个方面。

2.1.1. 1 数据清洗。

删除Web日志中与数据挖掘不相关的冗余项。Web日志记录了用户IP地址、用户名、用户请求访问的URL页面、访问时间、传输协议、传输的字节数、访问出错信息等属性, 而与数据挖掘相关的只有用户IP地址、用户名、用户请求访问的URL页面与访问时间, 其他属性可以去掉。

2.1.1. 2 用户识别。

由于本地缓存、代理服务器和防火墙的存在, 识别用户的任务变得很复杂。只能尽可能地用比较合理的启发式规则来进行用户识别。如一旦发现用户端浏览器软件或操作系统发生改变, 则认为是新用户。

2.1.1. 3 事务识别。

会话是指同一个用户连续请求的页面, 不同用户访问的页面属于不同的会话。

2.1.2 模式发现

在对事务进行了划分后, 我们就可以根据具体的分析需求选择访问模式发现的技术, 如路径分析、关联规则挖掘、序列模式, 以及聚类和分类技术。这些对于Web站点的性能改进有重要的作用, 如路径分析可以用来发现Web站点中最经常被访问的路径, 从而可以调整站点的结构。

2.1.3 被发现的模式用于个性化处理

在模式抽取后进行分析和应用。挖掘结果可能会有大量的模式, 如关联规则可能会发现很多的规则。如果这些模式全部被采用, 人们就很难理解。模式分析忽略了一些不重要的模式, 而且允许人们将模式表示加上一些限制, 将抽取出的模式用容易理解的方式显示出来, 如可视化。然后应用这些模式改进站点的结构和帮助用户浏览。

2.2 Web使用挖掘在远程教育中的应用

Web使用挖掘在远程教育中主要应用于以下各个方面。

2.2.1 系统改进

对Web系统的特性数据进行分析, 如:可以提供Web流量行为的分析, 利用它来进行Web缓存、存取平衡等, 据此对远程教育系统性能进行改进。

2.2.2 站点修改

对所有学生的浏览路径进行挖掘, 发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接, 以改善远程教育站点结构。

2.2.3 智能服务

学生如何使用远程教育网站来进行学习对于远程教育提供者来说是很重要的。通过对学生行为和所选课程等关系的挖掘, 发现其中的学生群学习特征和趋势等来进行智能服务, 为远程教育提供者提供决策依据。

2.2.4 个性化

从单个学生的浏览信息发现学生的兴趣, 向每位学生提供符合其兴趣要求的个性化界面。

3. 个性化远程教学模型

Web服务器为客户端提供HTTP服务等功能, 应用服务器内存放学生的个人注册和相关课程等信息。

每个学生在开始使用网站时先在应用服务器上进行注册, 控制模块负责对采集的学生浏览路径进行预处理和相关的数据挖掘, 学生个性数据库用于存放挖掘出来的各种模式。

个性化远程教育主要由以下几部分组成。

3.1 浏览路径预处理

对学生的浏览路径信息进行一些预备处理, 包括数据清洗、用户识别、会话识别和路径补充等。数据清洗是指删除一些无用的或错误的数据。用户识别是指对路径信息通过一些启发式规则进行识别路径的用户归属。会话识别是指在用户识别的基础上辨认不同的会话。一般利用超时的方法决定用户是否都开始了一个新的会话。路径补充是在路径不完整的情况下利用站点的拓扑结构找出遗漏的页面。

3.2 建立学生个性数据仓库

对已预处理过的学生访问数据建立数据仓库, 这个数据库负责提供一个良好的数据挖掘环境。数据仓库可以设立多个维度, 如时间维、域名维、文件维和浏览工具维等。每个维设立多个属性值, 如时间维的属性可以表示为星期一、星期二、……星期日等。

3.3 被发现的模式用于个性化处理

在已建立的数据仓库的基础上, 我们可以用五种挖掘技术进行个性化教学支持服务。

3.3.1 根据路径分析改善站点结构。它可以用于辨别在Web站点中频繁访问的路径集和其他一些通过路径分析得到有关知识, 并利用这些知识来改善站点结构。

3.3.2 利用关联规则发现学生的某些知识兴趣点之间的相关性, 然后将它们之间的超链接动态地提供给学生, 使学生在网上学习更加方便。

3.3.3 通过分类算法对学生的知识水平进行分类, 给予不同级别的训练。

3.3.4 利用聚类算法从Web访问信息数据中聚类出具有相似性的那些学生。

3.3.5 利用序列模式的挖掘来找出学生学习过程中的事件序列关系。

本文对Web使用挖掘的过程、挖掘算法, 以及挖掘出来的模式和表示进行了分析, 构造了一个基于Web使用挖掘的个性化远程教育网站模型。进一步的工作是将模型细化、扩充, 使其在远程教育的实践中发挥作用。

Web挖掘技术在远程教育的教学支持服务中的应用是一个新的领域, 也是一个带有很大挑战性的课题。随着研究的进一步深入, 此项技术将为远程教育中个性化教学支持服务研究提供一条新的途径。

参考文献

[1]周蔚.现代远程教育学习支持服务现状研究[J].中国远程教育, 2005, (3) .

[2]冯建军.试论个性化教育的原则[J].江西教育科研, 2004, (5) .

[3]舒蓓, 申瑞民, 王加俊.个性化的远程学习模型[J].计算机工程与应用, 2001, (9) .

WEB使用挖掘篇10

关键词：Web使用挖掘,用户行为分析,客户分类,关联规则

随着网络技术和数据库技术的不断发展, 电子商务已经进入飞速发展阶段。电子商务是对传统商务的重大变革。在电子商务模式下, 顾客可以突破地域和品牌的限制, 有了更大的选择空间, 追求更好的购物体验。这对电子商务的经营者提出了更高的要求, 如何通过用户的行为和购买意向, 发现消费的爱好和消费趋势, 改善网站结构, 设计更好产品销售策略, 减少商业成本, 提升服务水平, 是目前电子商务急需解决的问题。

1 Web使用挖掘及其过程

1.1 Web使用挖掘

Web挖掘是数据挖掘技术在Web上的应用, 是从与WWW相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含信息的过程。目前Web挖掘的研究分为针对Web页面内容及后台交易数据库进行挖掘的Web内容挖掘 (Web content mining) 、以Web本身的超连接为对象的Web结构挖掘 (Web structure mining) 和Web使用挖掘 (Web usage mining) 三个方面[1]。其中, Web使用挖掘主要通过分析用户访问Web的记录, 了解用户的兴趣和习惯, 对用户的行为进行分析和预测。

Web使用挖掘在分析电子商务用户行为中有重要应用, 通过挖掘用户在Web上的访问记录, 寻找日志记录中的规律, 发现用户访问Web页面的模式, 识别用户的喜好度、满意度、忠诚度, 理解用户意图, 进而挖掘潜在用户。

1.2 Web使用挖掘过程

Web使用挖掘过程分为数据采集、数据预处理、模式发现和模式分析4个阶段如图1所示[2]。

1) 数据采集:数据采集是Web使用挖掘的第一步, 也是后续模式发现和模式分析的基础, 数据采集所获得源数据质量直接关系到最终挖掘结果的质量。目前, 主要的数据来源有3种:从服务器端数据、客户端数据、中间数据;

2) 数据处理:数据处理就是将那些大量的、杂乱的、不一致的源数据进行过滤、清理、变换、集成后转入到数据仓库中, 以备后用。数据预处理工作中, 主要包括:数据清理、用户识别、用户会话识别、数据格式化[3];

3) 模式发现:经过数据处理后存入到数据仓库中的数据量还是巨大的。模式发现就是利用挖掘算法从数据仓库中挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识[4];

4) 模式分析:使用Web使用挖掘技术挖掘出来的模式, 需要合适的工具和技术对其进行分析和解释, 从中筛选有用的模式, 使之成为人们可以理解的知识。模式分析的目的就是把发现的规则模式转化为知识。

2 电子商务用户行为分析中的Web使用挖掘技术

2.1 关联规则分析

关联规则分析的目的就是为了挖掘出隐藏在数据间的关联规则。在电子商务用户行为分析中关联规则分析主要用于两个方面:

1) 发现用户访问的页面之间的关联规则, 也就是挖掘群体用户访问页面之间的关联关系, 构建关联模型。利用关联模型可以更好地组织站点结构, 使网站的设计能方便用户浏览网站信息。另外, 利用关联模型可以提供用户导航, 比如网站服务导航, 网站信息导航, 企业商品导航等, 充分反映群体用户的需求[5〗;

2) 发现数据库中不同商品之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式, 如购买了某一商品对购买其他商品的影响。从而可以向客户提出推荐或者把相关的商品形成一个产品组合, 方便用户选购。

2.2 置信度和支持度

关联规则X→Y对事务集合D的置信度c定义为D中包含有X且同时包含Y的百分比。关联规则X→Y对事务集D的支持度定义为D中包含有事务X或Y的百分比。置信度和支持度均大于给定阈值 (即最小置信度阈值和最小支持度阈值) 的规则称为强规则。规则的支持度和置信度是规则兴趣度的两种度量, 它们分别反映所发现的规则的有用性和确定性。

例如, 一个零售业的数据挖掘系统可能发现如下形式的关联规则:

年龄 (X, 20~35岁) , 年薪 (X, 60000~80000元) → (购买 (X, 摄像机) ) ;

支持度=5%, 置信度=68%

其中X是变量, 表示顾客。该规则表明, 在该零售业数据库系统中, 年龄在20~35岁且年薪在60000~80000元之间的顾客中5%的人购买摄像机的可能性有68%。该关联规则的条件含有一个以上属性, 这种管理规则称为多维管理规则[6]。

2.3 分类分析

分类规则主要是根据用户群的特征挖掘用户群的访问特征。在电子商务中, 分类技术主要应用客户分类中。通过分析电子商务客户数据库中的数据, 得到客户分类模式后, 然后用这个分类规则对新的客户进行分析, 发现新的客户属于那一个类别, 就可以针对不同类客户的特点展开不同的商务活动, 提供有针对性的个性化的服务。

2.4 聚类分析

聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中, 聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括:自动给一个特定的顾客聚类发送销售邮件, 为一个顾客聚类动态地改变一个特殊的站点等[7]。

3 电子商务用户行为分析中Web使用挖掘技术的应用

3.1 制定网络营销计划

Web使用挖掘技术在制定网络营销计划中的应用, 要从时间和空间上进行Web挖掘。在时间上的挖掘就是通过对商品的访问和销售情况进行分析, 从而获得客户的访问规律, 确定顾客消费的生命周期, 根据市场的变化, 在特定的时间针对不同的产品制定相应的营销策略。在空间方面的挖掘就是可以对购买该商品的客户的进行域名分析, 挖掘出该商品在哪个地区的销售情况最好, 制定有关策略继续保持, 同时挖掘出销售情况不理想的可以拓展市场的地区[8〗。

3.2 对客户分类, 降低客户开发成本

电子商务环境下, 客户主要可分为3类:第一类是低价值或者无价值的客户;第二类是不会轻易走掉的有价值的客户;第三类是在网络上不断寻找更优惠的价格和更好的服务的客户, 这类客户是潜在的有价值的客户。统计数据表明, 开发一个新顾客的成本比保留一个老顾客的成本高5倍, 而流失一个老顾客, 其代价相当于开发10个新顾客。

通过Web使用挖掘, 对顾客的行为进行分析, 可以对客户进行分类, 帮助企业了解那些转向竞争对手的顾客在转向期间的行为, 并分析顾客流失的主要原因, 从而针对现有的客户采取必要的措施。另外, 通过挖掘客户在网站上驻留时期所采取的行为, 找到客户的兴趣和偏好, 从而动态地改变网站整体布局的设计, 以吸引住客户。

3.3 争取最高限度利用现有客户

通过Web使用挖掘, 可以从客户的购买行为中发现客户购买的影响因素, 进而建立预测模型来预测将来用户会对什么样的商品感兴趣、会对那些相关商品感兴趣、购买某种产品的可能性有多大。

3.4 改进网站结构设计, 为客户定制个性化界面

对客户进行分类和聚类分析, 根据用户的访问行为建立个性化的推荐系统, 向客户提供个性化的服务和商品介绍。通过关联规则分析客户的访问行为信息, 获取客户访问模式, 针对客户动态的调整站点的结构, 使客户访问的有关联的文件间的连接比较直接。主动向客户提供商品推荐, 帮助客户便捷地找到感兴趣的商品。可以根据客户当前购物车中的物品, 向客户推荐一些相关的物品。运用置信度和支持度的分析结果, 可以根据客户的注册信息和订单纪录, 挖掘客户在站点上导航的行为, 向客户显示那些可能引起客户兴趣的新商品。

参考文献

[1]涂承生, 鲁明羽, 陆玉昌.Web内容挖掘技术研究[J].计算机应用研究, 2003, 21 (11) :5-9.

[2]郭媛香.面向用户行为的Web使用挖掘技术[J].晋中学院学报, 2009, 26 (3) :81-84.

[3]张翠英, 蔡华利, 刘娜.电子商务个性化服务与Web使用挖掘技术[J].中国管理信息化, 2007, 10 (2) :56-58.

[4]唐晓琴, 屈正庚.Web使用挖掘技术在电子商务中的应用[J].和田师范专科学校学报, 2010, 29 (4) :183-184.

[5]严卉珍.基于Web使用挖掘的企业电子商务平台研究[J].现代商贸工业, 2009, 15 (7) :252-254.

[6]李兴国, 杨颖, 顾东晓.管理信息系统案例[M].北京:清华大学出版社, 2010.

[7]李晓辉.基于用户行为分析的数据挖掘系统研究与设计[D].北京:北京邮电大学, 2011.

WEB使用挖掘篇11

【关键词】Web挖掘、网络舆情、分析处理

0 引言

网络舆情作为一种十分重要的舆情表现形式，是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析，及时发现舆情热点，及时对民意走势做出正确引导。在此情况下，我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量，实现网络舆情的分析。

1 Web挖掘

Web挖掘是数据挖掘在Web上的应用，它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同，Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法，Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题，为网络舆情的深入分析提供了技术支持。

1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解，Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析，以及利用Web文本进行趋势预测。在网络舆情分析中，Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。

1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息，为网络舆情的分析的提供了重要资源。通过Web结构挖掘，可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识，从而帮助舆情分析人员确定重要舆情源和中心页面，有助于深入挖掘舆情信息。

1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录，获取有价值的信息的过程。这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好，可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘，可以确定舆情热点和焦点，从而更准确地预测网民行为。

2 基于Web数据挖掘的网络舆情分析

2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息，为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。

（1）确定主题和选择采集地点。为了使采集效果更好，必须以主题的形式对信息需求进行描述。

（2）利用自动采集软件采集数据。数据采集软件可以自动采集相关信息，并下载到本地进行分析。

（3）页面分析。采集完页面之后，对页面进行分析，提取重要信息，以便进行后续的过滤和处理。

（4）URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。

（5）页面过滤。对采集页面进行主题相关性评价，去除相关性低的页面，从而提高采集页面的准确性。

2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成，而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息，简化并加速了Web挖掘处理。

（1）语义信息集成。由于数据层的数据来自于不同的媒介，因而在结构和语义上都存在很多的不同，需要对其进行统一处理，并根据需要利用智能信息处理技术进行深入的预分析，从而提高挖掘引擎的效能和健壮性。

（2）Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分，执行Web挖掘任务。它定义了Web挖掘模型语言，选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律，并预测事件的发展趋势。可根据网络舆情信息源的特点，从多个方面更加深入的进行挖掘处理。

2.3分析层。分析层是核心部分，其主要技术应用于对网络舆情信息的智能分析，该分析从六个层面进行，分别是：主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述，并生成网络舆情分析报告来辅助决策机构。

2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理，从而发现隐藏的规律和发展趋势，同时也更易于舆情信息的理解和分析结果的应用。其次，为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断，因此需要提供系统交互接口，可以让专家进行分析，实现人机互动，从而提高舆情分析的准确性。

3 基于Web挖掘的网络舆情分析系统实例分析

本文以方正智思舆情预警辅助决策支持系统为例，讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术，采用B/S结构，利用J2EE技术框架，实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集，还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态，作出正确引导，提供分析依据，从而提高各级政府应对突发事件的能力。

4 结语

Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明，将Web挖掘融入网络舆情分析中，可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律，实现对网络舆情信息全方面深入的分析，从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术，可以有效地提高网络舆情分析结果的正确性，也是其未来的发展方向。

参考文献：

[1]付业勤，郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友，2013，12：56-58.

[2]张玉峰，何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践，2011，04：64-68.

[3]周君. Web文本挖掘关键技术的研究与实现[D].西安电子科技大学，2009.

Web数据挖掘技术篇12

随着Internet/Intranet技术的发展, 尤其是Web的全球普及使得Web上信息量无比丰富, Web已经成为人们获取信息的重要途径, 但最先进的搜索引擎也只能找到Web网页上面很少的网页, 而且无论怎么选择关键词都会返回大量并不需要的结果。如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。

Web上的数据信息不同于数据库。它主要是些大量的、异质的Web信息资源, 文档结构性差, 其数据多为半结构化或非结构化, 信息不能清楚地用数据模型来表示。因此在Web的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。

1 Web数据挖掘概述

1.1 Web数据挖掘概念

Web数据挖掘是一项综合技术, 是利用数据挖掘技术从WWW数据资源中抽取信息的过程, 结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术, 是对Web数据资源中蕴含的未知的有潜在应用价值的模式的提取。

1.2 Web数据挖掘原理

通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理、数据汇总及模式识别、分折验证。目标数据集根据用户需求, 从Web数据源中提取的相关数据, Web数据挖掘主要从这些数据通信中进行数据提取;预处理过程从数据中去除明显错误或冗余的数据, 并将数据转换成为有效和易于理解的形式;模式分析对发现的模式进行解释和评估;最后将发现的知识以用户能理解的方式提供给用户。

1.3 Web数据挖掘分类

根据挖掘对象的不同, Web挖掘可以分为三类, Web内容挖掘 (WCM) 、Web结构挖掘 (WSM) 和Web使用挖掘 (WUM) 。

1.3.1 Web内容挖掘

Web内容挖掘实际上是从Web文档及描述中获取知识, 具体来说就是对Web上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势预测等。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体等各种类型的数据。其中聚类是事先没有确定类别, 但要求把相似度高的文档归于相同的类。

1.3.2 Web结构挖掘

Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。主要是通过对Web站点的结构进行归纳、分析和变形, 将Web页面进行分类, 以利于信息搜索。HTML页面所包含的知识不仅存在于各个页面的内容中, 也存在于这些页面之间的相互链接中。利用这方面的知识可以对页面进行排序以发现重要的页面。

1.3.3 Web使用挖掘

Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘, 也叫网络使用挖掘。挖掘对象是在服务器上的日志信息, 也称Web日志挖掘。它通过分析日志记录中的规律, 可以识别用户的忠实度、喜好、满意度, 发现潜在用户, 增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。

2 Web数据挖掘的关键技术

Web数据挖掘中常用的技术有Web使用的特有路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术以及中文分词处理和词频统计技术等。

2.1 路径分析技术

使用路径分析技术进行Web数据挖掘时, 最常用的是图。图最直接的来源是网站结构图, 网站上的页面定义为节点, 页面之间的超链接定义为图中的边。基于Web的数据挖掘, 就是从图中确定最频繁的路径访问模式。

2.2 关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中, 它负责挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的联系, 这些页面之间可能并不存在直接的参引关系。

2.3 序列模式挖掘技术

序列模式数据挖掘负责挖掘交易集之间的有时间序列的模式。例如, 最出名的尿布与啤酒, 这种信息对于电子商务网站非常有用。

2.4 聚类分类技术

分类规则可以挖掘某些共同的特性。这个特性可用来对新添到数据库里的数据项进行分类。

2.5 中文分词处理技术

中文信息处理的一大障碍是词与词之间没有物理的分隔符。因此在进行词频统计等处理前先要进行词条切分处理。中文文本的分词方法有很多种, 一般采用较为简单的基于词典的正向匹配遍历分词方法。词典的选取通常根据挖掘目标建立专业的分词词典, 以提高系统的运行效率。

3 Web数据挖掘的方法

3.1 Web数据的半结构化

3.1.1 异构数据库环境

从数据库研究的角度出发, Web网站上的信息也可以看作一个更大、更复杂的数据库, 每个站点之间的信息和组织都不一样。如果想要利用这些数据进行数据挖掘, 首先必须要研究站点之间异构数据的集成问题, 只有将这些站点的数据都集成起来, 提供给用户一个统一的视图, 才有可能从巨大的数据资源中获取信息。其次还要解决Web上的数据查询问题, 因为如果不能有效地得到所需的信息, 则对这些数据进行分析、集成、处理就无从谈起。

3.1.2 半结构化的数据结构

Web上的数据与传统的数据库中的数据不同, Web上的每一站点的数据都各自独立设计, 数据没有特定的模型描述, 并且数据本身具有自述性和动态可变性。因而, Web上的数据这也被称之为半结构化数据。

3.2 用XML技术进行Web数据挖掘

针对Web上的数据半结构化的特点, XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确的查询与模型抽取。

XML是一种中介标示语言, 可提供描述结构化资料的格式。XML解决了两个Web问题, 即Internet发展速度快而接入速度慢的问题, 以及可利用的信息多, 但难以找到自己需要的信息的问题。运用XML的扩展功能不仅能从Web服务器下载大量的信息, 还能大大减少网络业务量。

3.3 具体实现

其实现过程可以由以下四个步骤来实现:第一步得到XHTML格式的源信息, 即确定了信息源, 将数据从HTML转换成XML, 目前在高级语言中例如JAVA、VC等都有专门的函数或类来实现;第二步查找数据的引用点, 完成这一任务的最简单的办法通常是, 检查Web页面, 然后使用XML。只需要看一下页面, 记下观察到的内容, 考虑页面所生成的XHTML, 并将把记录的信息作为引用点;第三步将数据映射成XML, 找到了这个引用点, 就可以创建实际抽取数据的代码;第四步合并与处理结果, 需要反复执行抽取过程, 把结果合并到单个XML数据文件中。可以再次使用XSL执行, 也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。

4 总结

基于WWW技术的应用正以惊人的速度向社会生活的方方面面渗透, 人类交互信息不可避免地电子化和海量化, 从这些大量数据中发现有用的重要的知识是数据挖掘与知识发现的是一个重要研究和应用领域。本文讨论了Web数据挖掘的一些基本知识、方法、技术。Web挖掘是一项综合技术涉及多个领域, 目前随着XML技术的成熟, 研究利用XML技术进行Web的数据挖掘必将越来越深入。S

参考文献

[1]王志明, 沙莎.Web数据挖掘技术及其应用.软件导刊, 2006, 10.

[2]李健.Web的数据挖掘.电脑知识与技术, 2006.

[3]原娇杰, 赵杰文.基于Web的数据挖掘.软件导刊, 2006, 10.

[4]于升峰.Web使用挖掘的模式发现.情报学报, 2006-10-25.

【WEB使用挖掘】推荐阅读：

Web使用挖掘研究论文08-21

使用挖掘05-23

Web日志挖掘05-09

Web结构挖掘08-16

Web访问信息挖掘09-12

Web数据挖掘研究07-18