Web结构挖掘

2024-08-16

Web结构挖掘(共10篇)

Web结构挖掘 篇1

本文概述了Web结构挖掘技术, 列举其常见算法。并对关联规则和聚类两种最重要的Web结构挖掘算法分析。设计了一种Web结构挖掘算法模拟器, 实现结果表明其具有一定的实用价值。

Web结构挖掘是通过研究网页之间的链接结构来发现网络的组织结构和链接关系中隐藏的知识。随着互联网的迅猛发展和快速普及, Web上蕴藏的海量信息为数据挖掘提供了无比丰富的资源。其中, Web结构挖掘主要是从Web组织结构和链接关系中推导信息、知识。挖掘页面的结构和Web结构, 可以用来指导对页面进行分类和聚类, 找到权威页面、中心页面, 从而提高检索的性能;同时还可以用来指导网页采集工作, 提高采集效率。

本文对Web结构挖掘技术进行深入的学习研究, 探讨Web结构挖掘中的关键算法, 设计一个算法模拟器, 以使Web结构挖掘适应对海量数据分析与挖掘。

Web结构挖掘算法

Web结构挖据采用目前数据挖掘领域中的一些经典算法作为本模拟器所要实现的算法对象, 主要有关联规则和聚类两大类算法。

1 关联规则

关联规则是用来发现大量数据中项集之间的关联或相关联系。其形式化定义如下:

设I={i1, i2, …, im}是由m个不同项目组成的集合, 称为项集.设任务相关的数据D={t1, t2, …, tn}是事务数据, 其中ti称为一个事务, 是项的集合.每一个事务都有一个唯一的标示符, 称作TID.设X中包含K个项, 则X被称为K-项集。而关联规则是形如X=>Y的蕴含式, 其中X∈I, Y∈I, 并且X∩Y=φ。

由上面定义可知, 关联规则挖掘问题就是在事务数据库D中寻找具有最小支持度和最小置信度的关联规则.关联规则的挖掘是一个两步的过程。

(1) 找出所有频繁项集。

(2) 由频繁项集产生强关联规则。

2 聚类

在数据挖掘中, 聚类分析能作为一个独立的工具来获得数据分布的情况, 观察每个簇的特点, 集中对特定的某些簇做进一步的分析。此外, 聚类分析还可以作为其它算法 (如特征和分类等) 的预处理步骤, 这些算法再在生成的簇上进行处理。

本文主要对层次聚类中的凝聚算法以及划分聚类算法中的K-均值聚类算法进行分析。

2.1 层次聚类

层次聚类是按照一定的相似性判断标准, 合并最相似的部分, 或者分割最不相似的两个部分, 如果合并最相似的部分, 那么从每一个对象作为一个类开始, 逐层向上进行聚结, 直到形成唯一的一个类;如果分割最不相似的两个部分, 那么从所有的对象归属在唯一的一个类中开始, 逐层向下分解, 直到每一个对象形成一个类。

2.2 划分聚类

与层次聚类技术不同, 划分聚类生成的是在同一层次上的若干个聚类。如果想要生成K个聚类, 采用划分方法可以一次找到所有的K个聚类。而传统的分层方法是把一个聚类分成两个或者把两个聚类合并成一个, 这样一步一步生成一个系统树图。当然, 用分层方法也可以在系统树图的某一层上生成K个聚类。

算法模拟器实现

应用这些算法从模拟数据资源中发现模式或关系, 并最终以图形的方式将结果显示出来。

挖据模拟器系统设计利用matlab中所需要用的函数以及在vc中设计CApriori View类所需要建立的函数实现, 建立一个名为Apriori的应用程序, 并设置vc的头文件搜索路径和库文件搜索路径。

算法模拟器运行效果如下图所示:

结束语

本文主要是对数据挖掘领域中的部分经典算法进行研究, 利用数据挖掘的思想和方法将其用到Web上, 挖出有用的信息。

Web数据挖掘现状分析 篇2

关键词:数据挖掘;Web挖掘

中图分类号:TP311.13文献标识码:A文章编号:1000-8136(2009)17-0131-02

数据挖掘(Data Mining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。

1 Web挖掘概述

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

2 Web挖掘流程

与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:

(1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。

(2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。

(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。

3 Web数据挖掘的分类

Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。

3.1 Web内容挖掘

Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。

目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。

另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。

3.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。

Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和Page Rank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。

3.3 Web使用记录挖掘

Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两种:①将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;②将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。

3.4 Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0出现的。基于RSS、Blog、SNS以及Wiki等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。

在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用户性质挖掘分为5类:

(1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯和个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。

(2)系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。

(3)站点修改。站点的结构和内容是吸引用户的关键。Web挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。

(4)智能商务。用户怎样使用Web站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开4个步骤,Web挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。

(5)Web特征描述。这类研究关注怎样通过用户对站点的访问情况,统计各个用户在页面上的交互情况,以及对用户访问情况进行特征描述。

4 结束语

Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统,下一步将会有更多的研究者把此作为研究方向。

Analysis of Web Data Mining Status Quo

Zhang Tao

Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to find useful information in the world's largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and development.

Web结构挖掘 篇3

随着互联网的广泛应用, 电子商务、网络教育越来越普及, 海量的网络信息为数据挖掘提供了丰富的资源。Web日志挖掘是将数据挖掘技术应用于Web服务器日志文件上, 以发现用户访问页面的模式, 从中提炼出用户对页面的兴趣度和访问习惯等, 进而改进网站的性能和组织结构, 为用户提拱个性化服务。而网站的拓扑结构的获取与应用, 将对Web日志挖掘第一阶段数据预处理中正确地进行用户识别、会话识别以及路径补充起到关键性的作用。

2 Web日志挖掘与网站拓扑结构

Web日志挖掘是数据挖掘的一个分支, 因此其基本流程和数据挖掘非常相似, 主要由三个阶段构成:数据预处理、模式发现和模式分析。其中数据预处理工作的质量好坏对挖掘结果影响很大, 如果使用的样本数据质量偏低会导致挖掘结果与真实情况之间出现较大偏差。数据预处理工作主要包括数据清洗、用户识别、会话识别和路径补充等步骤, 其中的用户识别和会话识别需要根据网站的拓扑结构确定某一个用户会话到达当前网页的路径, 或是通过判断两个网页之间是否可达来区分不同的用户会话;而路径补充则需要根据网站拓扑结构将由于本地或代理服务器缓存而没有被Web日志记录的用户请求页面增加到相应的用户会话中。

由于在用户识别、会话识别和路径补充的过程中都需要网站的拓扑结构。所以, 网站拓扑结构在整个Web日志挖掘过程中显得尤为重要, 是决定整个Web日志挖掘系统的关键因素之一。

3 对网站拓扑结构的不同理解

在很多研究中, 通常会把树形结构的网页文件目录层次比作网站的拓扑结构, 这虽然简化了问题, 降低了复杂度, 但所获得的这种简单网站拓扑结构在很大程度上与实际拓扑结构不相符, 因而由此结构得出的结论也是不准确的。

图1展示了一个简单的网站文件目录层次, 而根据网页中的超链接得到的网络拓扑图要比这个文件目录层次复杂得多。将网络的拓扑结构抽象为有向图G=。其中V是所有网页的集合, 称为“节点集合”;E是所有超链接的集合, 称为“边集合”。有向边∈E (p, q∈V) 表明从网页p到网页q有一个超链接, 也就是说用户通过浏览器能从网页p访问到网页q。图2展示了一个实际的网站拓扑结构, 这也是本文所要研究获取的拓扑结构。

当然, 在实际的处理中我们会发现, 网页的超链接指向的不仅仅是网页, 还有许多是指向图片、css样式文件和一些特殊类型文件 (word文件、rar文件等等) 。由于我们要获取的网站拓扑结构只反映不同网页间的关系, 而且上述提到的图片和css样式文件等均为构成某一网页的元素, 所以我们忽略此类超链接, 只分析网页间的超链接关系。

4 基于Web日志的网站拓扑结构的获取与应用

以往的网站拓扑结构获取, 要么是通过网站设计人员或管理员手工提供, 要么就是通过分析网页内容, 提取出有用的超链接来获得网站拓扑结构。本文提出了一种新的获取网站拓扑结构的方法, 即通过分析Web服务器生成的日志来得到网站拓扑结构。

4.1 Web日志与日志数据清洗

Web日志属于应用程序日志范畴, 主要记录用户的浏览情况。W3C规定了日志记录的格式分为两种:通用日志格式和扩展型日志格式。本文实验数据采用的是扩展型日志格式, 取自西安邮电学院微型计算机原理教学网站。其典型的日志记录形式如下:2010-12-02 00:36:47222.24.14.54-222.24.19.3 84 GET/wjyl/news/news.asp-200 94 HTTP/1.1Mozilla/4.0+ (compatible;+MSIE+8.0;+Windows+NT+5.1) http://cs.xiyou.edu cn:84/wjyl/index.htm。其主要结构如表1。

在网站拓扑结构获取过程中, 日志里的cs-uri-stem和Referer是两个非常重要的字段, 他俩反映出网站中不同资源间的关联关系, 为分析网页间链接关系进而得到网站拓扑结构提供了准确的数据依据。

当然, Web日志不仅仅只记录网页间链接关系, 还包含对图片、flash动画等非网页资源的访问记录, 以及访问出错的记录。另外, Web日志通常是按天存放于多个日志文件中, 并以文本文件的形式存储。这些都不利于后续拓扑结构获取算法的读取。因此我们必须对日志数据进行清洗, 主要步骤如下:

1) 日志合并。将多个日志文件中所有记录依次转存到关系数据库中。本文实验中采用MSSQL2005数据库保存日志记录, 创建名为weblog的表来存储日志记录, 其字段与日志文件中的字段一一对应。

2) 删除不相关的日志记录。删除日志中访问非网页资源和访问出错的记录。

3) 删除Referer内容不为本站网址的记录。由于搜索引擎的存在, 以及一些用户直接在地址栏里输入网址来访问, 这些都导致请求中的Referer内容通常不是本网站的地址或是Referer内容为空。

4) 消去动态页面参数信息, 并将cs-uri-stem和Referer字段相同的记录删除。在一些aps、jsp等动态页面中, 其自身就能完成一定的功能。例如:在显示第一条新闻news.asp?id=1页面中有一个显示下一条新闻的链接, 其接指向为news.asp?id=2, 点击这条链接后完成的是news.asp对自身的一个调用, 但日志中将产生一条cs-uri-stem为news.asp, Referer为news.asp?id=1的记录, 实际Referer中的网址不是一个新网页名而是带参数的news.asp。而对于页面自身调用的日志记录对获取拓扑结构是无用的, 所以此类记录应删除。

5) 规范URL。在许多网站中, 服务器会把许多对目录的访问理解为对该目录下指定的默认页面访问, 如对/wjyl/的访问 (服务器上已设定默认页面为index.htm) , 服务器会理解为是对/wjyl/index.htm的访问, 而在日志中默认页面不会自动添加进去, 记录的仍然是访问/wjyl/。此时, 需要根据实际的服务器设定情况, 将默认页面补上。

4.2 网站拓扑结构的存储

参照有向图的邻接表存储形式, 在数据库中设计了两个表node (节点表) 和association (边表) 来存储网站拓扑结构。如图3所示, node表存放每个节点信息, 包含有编号id, 页面所在目录path, 相对于根节点的层次数page_level以及文件名name, 这里的节点代表每个不同的页面;association表存放每条边的信息, 即网页间的关联关系, start_id为边的起始节点id, end_id为边的终止节点id, count为该条边在日志中出现的总次数。节点表node的主键id与边表association的start_id键相关联。对于节点表中的任意一个节点v, 通过该关联, 可以在边表里找到所有起始节点为v的边, 这些边所构成的集合e即为页面v到其它页面的超链接集合。

4.3 网站拓扑结构的获取

基于上述分析, 本文设计了两个算法来获得网站的拓扑结构。算法GetClearLog进行日志清洗得到干净的分析数据。算法GetStructure根据前一算法得到的数据生成node节点表和association边表, 从而得到网站拓扑结构。

算法GetClearLog

输入:网站日志文件的物理位置信息

输出:保存有干净数据的weblog日志表

说明:cs_uri_stem、sc-status、referer含义见表1;扩展名为asp、jsp、htm、html的文件是需要分析的;日志中的状态代码为2xx都代表访问正常。

算法描述:

4.4 网站拓扑结构的应用

利用上面得到的网站拓扑结构, 我们能够很好地解决在Web日志挖掘预处理中遇到的问题。在预处理过程中, 需要对用户的缺失的浏览路径进行有效补充。而路径补充的关键是判断两个网页之间是否可以通过超链接联系起来, 即是否可达。网站拓扑结构图是一个有向环图, 我们可以在图论中的深度优先遍历算法的基础上, 得到所有可能的访问路径, 以此来判断出两个网页之间是否可达。如果可达则计算其最短距离, 否则标记其不可达。另外, 在算法GetStructure中得到的相对于根节点的层次数和能够反映网页中超链接的选择频度的count值, 都可为更进一步的个性化推荐提供参考值。

5 结论

本文介绍了网站拓扑结构在Web日志挖掘中的作用, 详细介绍了如何通过网站的web日志获取整个网站拓扑结构的方法, 并给出了关键算法。网站拓扑结构的获得在很大程度上解决了Web日志挖掘过程中数据预处理阶段出现的问题。

本方法所使用的数据源来自于服务器上的日志文件, 在数据源的获取方式上比其他方法显得尤为便捷;对于日志文件和数据库的存取均在本地进行, 所以速度上优于在线分析的获取方法;此外, 对于新加页面节点, 使用本方法只需要对近期生成的少量日志文件分析后, 便能很快将其加入到网站拓扑结构中。

参考文献

[1]孙华文, 王大玲, 于戈, 等.Web挖掘及个性化推荐中网站拓扑结构的获取、分析及应用[J].小型微型计算机系统, 2005, 26 (7) :1225-1228.

[2]郑庆华, 刘均, 田锋, 等.Web知识挖掘:理论、方法与应用[M].北京:科学出版社, 2010.

[3]Bing Liu.Web数据挖掘[M].北京:清华大学出版社, 2009.

[4]何玉宝, 刘正捷, 田晓杰.网站拓扑结构提取技术的研究与应用[J].计算机工程, 2005, 32 (1) :157-159.

[5]TANASA Doru.TROUSSE Bfigitte.Advanced data pre-processing for intersites Web usage mining[J].IEEE Intelli-gent Systems, 2004 (3/4) :59-65.

[6]符翔, 金瓯.一种WEB日志挖掘的数据预处理方法[J].计算机系统应用, 2010, 19 (8) :204-207.

Web挖掘与个性化服务研究 篇4

[关键词] web挖掘 个性化服务 用户建模 聚类

一、引言

web目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新闻、广告、消息信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。但如何满足各种用户不同的个性化需求,却成为了新的信息服务系统面临的挑战性课题。

二、web挖掘技术

1.web内容挖掘。web内容挖掘是从web文档的内容或其描述中提取知识的过程,目的是实现web资源的自动检索,提供web资源的利用率。基于web文档的文本挖掘是web内容挖掘的主要研究内容。在文本挖掘中,通常利用向量来表示文档。文本挖掘中主要有文本分析、文本解释、文本分类和文档可视化等挖掘技术。文本挖掘目前主要用于web页面归纳和搜索结果归纳。

2.web结构挖掘。web结构挖掘可以被视为一种替网络之间网页的链接组织构架建立一个模式,透过这个模式可以了解到网页与网页之间的关联性,因而可用来提升网站浏览或搜索的效率。web结构挖掘技术通常将网站链接结构对应成有向图或无向图的形式,分析链接的各条路径结构,整合网站路径资源。此外,还可以结合网站使用者的浏览动态,发现重要页面,从而改进网站的链接结构及内容呈现的方式,如将重要页面放在网站醒目的位置,简化浏览路径等。从而,提高网站架构的合理性。

3.web日志挖掘。web日志挖掘是通过分析web服务器的日志文件,已发现用户访问站点的浏览模式,为站点管理员提供各种利于web站点改进或可以带来经济效益的信息,web日志挖掘的过程一般分为4部分:数据预处理、挖掘算法实施、模式分析、可视化。如图1所示。

三、利用web挖掘进行个性化服务

个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。

1.用户建模。个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务,因此用户建模是个性化服务的基础和核心。简单地说,用户建模是指根据访问者对一个web站点上web页面的访问情况模型化用户的自身特性。用户建模主要有三种途径:一是推断匿名访问者的人口统计特性。由于web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。这类挖掘的最常用技术是分类和聚类方法。二是在不打扰用户的情况下,得到用户概貌文件。三是根据用户的访问模式来聚类用户。

2.个性化服务系统。基于web挖掘的个性化服务系统的出现是对传统的个性化服务系统的挑战,也是个性化服务发展的必然结果。基于web挖掘的个性化服务系统主要应用web挖掘中的内容挖掘、结构挖掘和日志挖掘,并根据挖掘所获取的有趣的信息来为用户提供个性化服务。

基于web挖掘的个性化服务系统一般由离线和在线两部分组成,图2给出通用的web个性化服务系统的服务过程。

离线部分主要用于挖掘用户的特性信息,可以被看作个性化服务的准备部分,由两个阶段组成:第一个阶段是对原始数据和相关数据进行预处理。高质量的决策必然依赖于高质量的数据,因此数据预处理是web挖掘的重要步骤。数据预处理技术包括数据清理、会话识别、浏览页识别、事务识别、路径完善和用户识别。第二个阶段是模式提取阶段,即使用数据挖掘技术对处理过的数据进行挖掘,进行模式获取,以便以后在线部分的实时推荐。

在线部分为推荐引擎,主要是为用户提供推荐从而实现个性化服务。推荐引擎的任务是计算出当前会话的推荐集,根据当前的用户会话和挖掘结果,应用推荐机制产生实时的推荐集。

3.实现方法。

(1)离线聚类和动态链接结合。将用户访问模式进行聚类,系统将离线的模块用于聚类,在线的模块用于web页面的动态链接产生。每个访问站点的用户根据其当前的访问模式被指定到一个聚类中,在该聚类中其他用户所选择的页面被动态地附加在该用户当前所访问的页面下面,由此提供个性化的服务。

(2)识别感兴趣的链接。监测用户对web页面的浏览,为用户识别出那些用户可能感兴趣的链接。利用互信息和MDL等作为相似性比较的手段,根据当前用户的访问和其他具有相似性兴趣的用户的访问就可以来评估一个新页面的兴趣程度。

(3)自动定制不同的用户访问界面。利用用户建模技术自动定制不同的用户访问界面,是个性化的一个重要方面。

(4)聚类推荐。根据服务器日志聚类用户页面,把和当前用户事务最相近的聚类中的页面推荐给用户。

参考文献:

[1]毛国君段丽娟:《数据挖掘原理与算法》,清华大学出版社

[2]苏新宁杨建林:《数据残酷和数据挖掘》,清华大学出版社

Web结构挖掘 篇5

Web信息是互联网海量信息的主要表现形式之一,其结构复杂,内容繁多,同时使用频繁,但价值却很大。Web信息的特点决定了其挖掘比普通数据库的挖掘要复杂得多,所以,面向Web的数据挖掘是一项复杂而困难的技术。Web结构挖掘,即对Web海量信息的组织形式的挖掘,是因特网信息挖掘中关键而重要的一个方面。

1 Web数据挖掘

1.1 Web数据挖掘

数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。

Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。对应于不同的Web数据,Web挖掘也分成三类:Web内容挖掘、Web结构挖掘和Web使用模式挖掘。

Web数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。

1.2 需要处理的问题

Web信息量的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先,对有效的数据仓库和数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量Web上的信息,有调查却表明:99%的Web信息对于99%的用户是无用的。这样看来,面对网络上形形色色的用户群体,许多由Web搜索引擎所检索到的资料将会显得没有意义。

1.3 挖掘分类

Web数据挖掘实现对Web存取模式、Web结构和规则,以及动态的Web内容的查找。一般来说,Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。如图1所示。

其中,利用Web结构挖掘,可以分析站点的受欢迎程度和同其他站点的距离(通过跳转次数来判定)。再进一步,还可以通过查看一个单独站点的网页的链接情况及相互间链接的情况来学习其内部结构。

2.NET

2.1 体系结构

框架结构给因特网构筑了一个理想的工作环境。在这个环境中,用户能够在任何地方、任何时间、使用任何设备从Internet网中获得所需要的信息,而不需要知道这些信息存放在什么地方以及获得这些信息的细节。

.NET框架的体系结构包括五大部分,它们是:程序设计语言及公共语言规范(CLS)、应用程序平台(ASP.NET及Windows应用程序等)、ADO.NET及类库、公共语言运行库(CLR)、程序开发环境(Visual Studio.NET)。

2.2 ASP.NET逻辑结构

ASP.NET系统有多种逻辑结构,包括常用的两层结构、三层结构等等。所谓两层结构是显示层直接连接到数据层;所谓三层结构是在显示层和数据层的中间增加一个商业逻辑层。两层或三层逻辑结构如图2所示。

3 结构挖掘

Web结构挖掘即使用Web的结构来发现相关信息。从数据库角度的Web内容挖掘是对Web文档的内部结构感兴趣,而Web结构挖掘关心的是Web中的超级链接结构,也就是文件之间的结构。Web结构挖掘是对站点的结构使用数据挖掘技术,例如不同的网页之间互相连接的方式。可以从不同的层次研究这个结构:局部的在一个网站内,或者全局的考虑和所研究页面链接的其他站点内的页面。Web结构挖掘可以用于很多任务,最普通的任务有发现感兴趣的站点、Web社区和主题。

Web结构挖掘有狭义和广义之分。狭义的Web结构挖掘是针对网页外部文档的超链接结构,分析得到以下三种信息:同一网站里不同网页链接的频率;同一网站里同一页面内部链接的频率;不同网站间链接的频率等。广义的Web结构挖掘是从Web的组织结构、Web文档结构及其链接关系中推导关于Web体系结构知识和信息内容的知识及由此导致的用户对Web使用行为的影响,包含了Web内容挖掘和使用挖掘。信息内容的关系可以决定其构成方式,通过狭义的Web结构分析,对页面进行分类,并且取得不同网站的相似信息,也可以发现单个Web文档自身的结构。本文提到的Web结构挖掘主要指的是狭义上的。

有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中。所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。

Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS、PageRank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析,从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。

4 应用

在网络时代的今天,所有的企业建立一个自己的网站是很必要的。企业建设自己的网站对本企业会产生巨大的宣传作用,可以及时获取详实有效的信息,也是时代发展的要求,还是一种潜在的无形资产。而如何建设一个适合自己企业的网站,其中通过Web结构挖掘技术来指导企业网站建设已经成为一项很普遍的技术。

4.1 网站中的导航页

导航页是为了链接到其他页面而设置的主要页面。客户不必在导航页上花费太多的时间,却会频繁地到这个页面上。对客户来说,导航页使他们能够很容易地找到他们想要找的页面。通过比较从入口到目标网页所要求的点击数和浏览者平均的点击数,会得到一些关于怎样设计好的网络站点和怎样链接网页的建议。

4.2 目标页面

浏览者通常花费大量的时间在目标页面上。这一网页实际上给浏览者提供其所要查找的信息,简而言之,目标页给浏览者提供其所需要的内容,目标页一般是固定的。当浏览者在一个目标页上花费了大量的时间时,希望这是因为他们找到了他们所需要的东西。如果没有应用数据的配合,一个网站的静态结构是没有很大用处的。应用数据允许比较这个网站的结构,因为它反映了设计者的思想,也就是说反映的是这个网站及其实际的行为数据该如何使用。

4.3 形成的功能

某个网站的局部功能很大程度上依赖于它的用途。网站有许多不同的模型。一个零售站点可能都是以同样的方式列出商品页面,并且建立了一个存储在关系数据库中的商品和价格的桥梁。有一些会模拟离线资源,如报纸或者杂志。其他的则包含可构建的会话,这些会话能够定制并能以多种方式排列,满足特殊客户的要求,这种站点诸如yahoo.com、excite.com等。

5 实例

目前,中小企业的网站架构以普通的三层架构为主流,在网站投入使用后,主要利用Web结构挖掘技术来优化企业网站,使得网站更具吸引力,使浏览者更容易找到其感兴趣的信息,提高企业网站的效用。

5.1 获取相关数据

一般而言,Web浏览都会产生详细的Web日志,包含丰富的信息。Web结构挖掘比较关心的主要有访问的页面记录、访问时间、停留时间、访问连接、访问地址等等信息。网站建设人员可以将这些作为字段信息存入数据库。

5.2 相关页面设置

在企业网站中,都有专门的提供给网站管理者的操作,即所谓的后台管理模块。在此模块中添加页面,并使用相关控件,此处,我们可以用ASP.NET中提供的几种显示数据的控件,例如gridview等,用来陈列相关数据,供管理员查看。这也就是常说的三层架构中显示层的设置。

接下来,要在底层,即数据访问层进行配置。这一层主要负责与数据库交互,存取数据。可以在这一层添加SQL语句,或是调用数据库中已经写好的存储过程,来实现数据的调用。例如,欲取出本网站被访问的页面记录,具体包括,页面名称、访问次数、访问时间等关键信息,同时要按照访问次数从大到小排序,具体用到的SQL语句,如:

最后,需要进行中间控制层的配置,中间控制层主要负责显示层和数据访问层的沟通。

另外,还可以挖掘页面间的相互关联度,即找出页面到页面的连接点击数,从而指导改善网站结构,提高网站的效用。

6 总结

通过上述简单举例,可以轻易地得出网站中最受欢迎的页面,从而就可以将公司想要极力宣传的内容放入该页面,或是将公司宣传的页面链接添加到该页面中,以增加宣传内容的访问量,改善网站的总体结构,使网站能更加有效地传播公司信息。以此也显示出了Web结构挖掘的最基本的作用。

摘要:Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。

关键词:.NET,数据挖掘,结构挖掘

参考文献

[1]邓英,李明.Web数据挖掘技术及工具研究.计算机工程与应用,2001;(20):64-65.

[2]Hall J,Kamb-M.数据挖掘:概念与技术.范明,孟小峰译.北京:机械工业出版社,2001.

[3]王艳华,张纪.Web结构挖掘及其算法.计算机工程, 2005.

[4]韩家蚌,盂小峰等.Web挖掘研究.计算机研究与发展, 2001.

Web数据挖掘综述 篇6

1 Web数据挖掘的概念

Web Mining (Web挖掘) 这个术语是由Etzioni于1996年首先提出来的。Web数据挖掘是数据挖掘技术在Web上的应用, 它利用数据挖掘技术从与WEB相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域, 是一项综合技术。

2 Web数据挖掘的分类

作为WEB的对象, WEB数据包含了内容数据 (content data) 、结构数据 (structure data) 和日志数据 (usage data) 三种类型。因此, 根据WEB数据源类型的不同, Web挖掘可以分为:Web内容挖掘 (Web Content Mining) 、Web结构挖掘 (Web Structure Mining) 和Web日志挖掘 (Web Usage Mining) 。Web数据挖掘如图所示:

2.1 Web内容挖掘

是对Web页面数据 (包括文本、图像、音频、视频、多媒体和其他各种类型的数据) 的挖掘。Internet有各种类型的服务和数据源, 如:WWW、FTP、Telnet等, 现在有更多的内容如:政府信息服务、数字图书馆、电子商务数据及其他各种通过Web形式访问的数据库。

Web内容挖掘一般从两个角度进行研究:从用户的角度, 研究怎样提高信息质量和帮助用户过滤信息;从DB的角度, 研究怎样对Web上的数据进行集成、建模, 以支持对Web数据的复杂查询。

Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时, 人们通常应用Web内容挖掘对网页内容进行分析, 其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。

2.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超连接, 包括页面内部的结构以及页面之间的结构。对于给定的Web文档集合, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系, 通过算法发现他们之间连接情况的有用信息。挖掘Web结构信息对于导航用户浏览行为、改进站点设计、评价页面的重要性等都非常重要。Web结构挖掘通常需要整个Web的全局数据, 因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。

2.3 Web日志挖掘 (Web usage Mining)

Web日志挖掘的对象是Web使用记录数据, 除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录, 因此Web使用记录的数据量是非常巨大的, 而且数据类型也相当丰富。通过挖掘相关的Web日志记录, 从中发现用户访问Web页面的模式;通过分析日志记录中的规律, 来识别用户的忠实度、喜好、满意度, 从中发现潜在用户, 增强站点的服务竞争力, 在电子商务领域有重要意义。

Web日志挖掘对源数据的处理方法可以分为两类, 一种是将Web使用记录数据转换并传递进传统的关系表里, 再使用数据挖掘算法进行常规挖掘;另一种是将Web使用记录数据直接预处理再进行挖掘。

Web日志挖掘技术通常可以应用到两个领域:当用来分析Web服务器的访问日志时, 可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时, 通过分析用户的访问历史来发现有用的用户访问模式。Web使用挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志, 无法得知数据对象代表的内容, 因此得到的结果一般比较粗糙, 但是由于该方法比较成熟而且实现起来也较内容挖掘简单, 在个性化系统中也得到了较广泛的应用。

3 Web数据挖掘的流程

Web挖掘的基本流程一般可以分成四个阶段:

3.1 数据采集

Web挖掘的数据源来自于Web页面上的信息、Web访问形式的数据库、Web页面内部的结构以及页面之间的结构信息以及Web服务器上的使用记录数据如服务器日志、用户会话信息、交易信息等。Web数据挖掘, 针对不同的采集对象, 需要应用不同的数据采集技术。

3.2 数据预处理

要保证Web挖掘结果的正确性的重要前提是对数据进行预处理。一般收集的数据都具有不一致性、冗余性、模糊性及不完整性, 需要对收集的数据进行必要的预处理, 清除“脏”数据, 准备正确、完整、干净的数据源, 通过挖掘算法, 获得真实有效的挖掘模式。数据预处理主要包括:

⑴数据清理:填充遗漏值, 平滑噪声数据, 识别离群点和删除噪声数据, 修正不一致数据;

⑵数据集成:将多个数据库或文件, 整合成语义完整的数据集, 监测和消除数值冲突, 消除重复和冗余的数据;

⑶数据转换:从数据中删除噪声, 给特定的属性构造新的属性;

⑷数据离散化:针对数值型数据, 讲一个连续的范围划分成多个区间。

3.3 模式挖掘

应用不同的Web挖掘算法或机器学习技术发现用户访问模式。常用的挖掘技术主要有以下几种:

⑴回归分析:主要用于了解自变量 (independent variable) 与因变量 (depemdent variable) 间的数量关系。主要目的:1) 了解自变量与因变量关系方向及强度。2) 以自变量所建立模型对因变量作预测。

⑵关联规则:分析发现数据库中不同变量或个体间之间的关系程度 (概率大小) , 用这些规则找出行为模型。关联规则中的两个重要参数是:支持度 (Support) 和可信度 (Confidence) 。Apriori算法, 利用循序渐进的方式, 找出数据库中项目的关系, 以形成规则, 是最具代表性的算法之一。

⑶聚类分析:是比较简单的一种分析方法, 统计学家通常应用聚类分析法来对数据做简化的工作及分类, 从而把相似的个体 (观测物) 归于一群。

⑷决策树分析:利用概率论的原理, 并且利用树形图作为分析工具 (用决策点代表决策问题, 用方案分枝代表可供选择的方案, 用概率分枝代表方案可能出现的各种结果) , 经过对各种方案在各种结果条件下损益值的计算比较, 为决策者提供决策依据。

⑸时间序列分析:从大量的时间数据序列中提取人们不知道的, 但是潜在有用、与时间相关的信息, 用于揭示其内在规律 (如波动的周期、振幅、趋势的种类等) , 进而完成预测行为, 指导未来决策。

3.4 模式评估

对挖掘得出的所有模式进行分析、评价、解释, 并将有趣模式转化为可直观表示的形式。

4 Web数据挖掘的主要应用

随着Internet技术的广泛应用, 分析和利用越来越丰富的网络信息成为研究的重要课题。目前, Web数据挖掘的研究重点已从理论转向应用, 在实际工作中, Web数据挖掘在以下领域广泛应用:

4.1 Web数据挖掘技术应用于电子商务中

对电子商务中的Web日志和和访问内容进行挖掘, 可以针对不同的客户提供个性化的产品、挽留老客户、发现潜在的新客户、改进站点设计方便客户浏览、向顾客推荐商品和引导客户购买商品。

4.2 Web数据挖掘技术应用于搜索引擎中

利用Web数据挖掘技术, 提高Web检索的速度和准确率, 更好的满足用户的个性化需求, 如:页面文本自动分类提高检索速度;对页面的权威度进行计算和排序, 使用户优先看到权威度高的页面;通过分析用户历史浏览信息发现用户兴趣偏好。

4.3 应用于知识服务中

利用Web挖掘技术, 从Web页面中获取基本知识元素 (如:概念、概念间的语义关系, 知识元、知识元间的关联关系) , 并构建面向特定领域的知识体系, 重组Web页面中的知识元素, 提供符合人们认知特点的知识服务。

4.4 Web数据挖掘技术应用于电子政务中

通过对电子政务站点数据进行定性和定量分析, 应用Web数据挖掘技术建立决策支持系统, 为高层管理者提供决策信息, 为政府重大政策出台提供决策支持。

5 结束语

Web数据挖掘技术已广泛应用于诸多领域, 如:电子商务、科学研究、电子政务、市场营销、金融投资、网络信息管理、教学管理、产品制造等。凡是涉及网络信息的数据和数据库, 都可以运用Web数据挖掘的技术和方法, 发现其中潜在的知识和信息, 为各行各业提供决策支持。Web数据挖掘技术必将在未来的Internet信息处理中发挥更大的作用。

摘要:随着Internet技术的快速普及和迅猛发展, Internet应用已深入到人类生活的各个角落, 如何开发和利用访问Web站点所产生的丰富的信息资源, 提高网站的性能, 更好地为用户服务、为决策者提供决策支持, 成为数据挖掘技术在Web领域研究的热点。本文综述了基于Web的数据挖掘概念、主要技术及分类、流程, 说明了Web数据挖掘的应用和研究方向。

关键词:Web数据挖掘,分类,流程

参考文献

[1]郑庆华, 刘均, 等, 著.Web知识挖掘:理论、方法与应用.北京:科学出版社.

[2]杜剑峰.Web数据挖掘-数据预处理.百度文库:http://wenku.baidu.com/view/97103bdf7f1922791688e817.html.

[3]谢邦昌, 朱建平, 来升强.Excel2007数据挖掘完全手册.清华大学出版社.

[4]毛国君, 段立娟, 等, 著.数据挖掘原理与算法.北京:清华大学出版社.

[5]黄晓斌.网络信息挖掘.北京:电子工业出版社.

浅析Web数据挖掘 篇7

一、数据挖掘的概述

Web数据挖掘[1], 是指从Web资源上抽取信息或知识的过程, 它是将传统的数据挖掘的思想和方法应用于Web, 从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上, 采用相应的数据挖掘算法, 在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析, 最后做出归纳性的推理、预测客户的个性化行为以及用户习惯, 从而帮助进行对网站以及网页的改进。

二、数据挖掘的分类

一般来说, 目前根据挖掘对象的不同, Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web访问信息挖掘、Web用户性质挖掘。

(1) Web内容挖掘

Web内容挖掘[2]是基于各种媒体的内容分析使得用户能够更加准确地搜索而进行的从Web文档内容或其描述中发现有用信息的过程。它主要包括文本挖掘和多媒体挖掘两类, 其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。这些数据一般由非结构化的数据 (如文本) 、半结构化的数据 (如HTML文档) 和结构化的数据 (如表格) 构成。对非结构化文本进行的Web挖掘, 称为文本数据挖掘或文本挖掘, 是Web挖掘中比较重要的技术领域。Web挖掘中另一个比较重要的领域是Web多媒体数据挖掘。其中关于Web内容挖掘的研究大体以Web文本内容挖掘为主。

(2) Web结构挖掘

Web结构挖掘[3]是利用Web的结构和拓扑信息设计更加准确的搜索引擎 (search engine) 。万维网是由分布在世界各地的Web站点组成的全球信息系统, 每个Web站点又是一个由许多Web页面构成的子系统, 而且Web页面并不是孤立存在的, 相关的文档之间通常由超链接联系起来。Web结构挖掘的对象就是Web上的超链接, 它的基本思想是将Web看作一个有向图, 顶点是Web页面, 页面间的超链接就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS (Hypertext Induced Topic Search) 、Page Rank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。这些算法一般可分为查询相关算法和查询无关算法两类。

(3) Web访问信息挖掘

即Web使用挖掘, 利用挖掘相关的Web日志记录, 来发现用户访问Web页面的模式, 通过分析日志记录中的规律, 可以识别用户的忠实度、喜好、满意度, 可以发现潜在用户, 增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量[4]是非常巨大的, 而且数据类型也相当丰富。

根据目的的不同, Web访问信息挖掘主要可分为5个方面。

a.个性挖掘针对单个用户的使用记录对该用户进行建模, 结合该用户基本信息分析他的使用习惯、个人喜好, 目的是在电子商务环境下为该用户提供个性化服务。

b.系统改进Web服务 (数据库、网络等) 的性能和其他服务质量是衡量用户满意度的关键指标, Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈, 以提示站点管理者改进Web服务器采取的各种策略, 例如:缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外, 可以通过分析网络的非法入侵数据找到系统弱点, 提高站点安全性, 这在电子商务环境下尤为重要。

c.站点修改站点的结构和内容是吸引用户的关键。Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依, 比如页面连接情况应如何组织、那些页面应能够直接访问等。

d.商务智能用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点, 用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤, Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机, 以帮助销售商合理安排销售策略。

e.Web特征描述这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况, 对用户访问情况进行特征描述。

(4) Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0的兴起而出现的。基于RSS、Blog、SNS、Tag以及Wi Ki等互联网软件的广泛应用, Web2.0帮助人们从Web1.0时代各大门户网站“填鸭”式的信息轰炸, 过渡到了“人人对话”, 每个普通用户既是信息的获取者, 也是信息的提供者。面对Web2.0新的发展, Web数据挖掘技术又面临着新的挑战。

如果说Web访问信息挖掘是挖掘网站访问者在各大网站上留下的痕迹, 那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代, 网络彻底个人化了, 它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网, 它一方面给予互联网用户最大的自由度, 另一方面给予有心商家有待挖掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析, 能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。

三、数据挖掘流程

数据挖掘的一般流程大体可分为五个阶段:确定业务数据对象、数据准备、数据挖掘、结果分析和知识的同化。

(1) .确定对象清晰地定义业务问题。挖掘的最后结构是不可预测的, 但要探索的问题应是有预见的, 所以在开始数据挖掘之前最基础的就是理解数据和实际的业务问题, 在这个基础之上提出问题, 对目标有明确的定义。

(2) .数据准备

a.数据的选择搜索所有与业务对象有关的内部和外部数据信息, 取一定数量的子集, 并从中选择出适用于数据挖掘应用的数据, 建立数据挖掘库。其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求, 就可以将数据仓库作为数据挖掘库。

b.数据的预处理由于数据可能是不完全的、有噪声的、随机的, 有复杂的数据结构, 就要对数据进行初步的整理, 清洗不完全的数据, 做初步的描述分析, 选择与数据挖掘有关的变量。研究数据的质量, 为进一步的分析做准备, 并确定将要进行的挖掘操作的类型。

c.数据的转换将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3) .数据挖掘对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动地完成。根据数据挖掘的目标和数据的特征, 选择合适的模型。

(4) .结果分析和知识同化选择最优的模型, 解释并评估结果, 将评测后的结果反馈回知识库, 运用于实际问题, 并且要和专业知识结合对结果进行解释。其中, 使用的分析方法一般应作数据挖掘操作而定, 通常会用到可视化技术。

(5) .应用阶段将分析最终所得到的知识集成到业务信息系统的组织结构中去。

四、结束语

Web挖掘的形式和研究方向层出不穷, 但随着电子商务的兴起和迅猛发展, 访问信息挖掘必定会是未来Web挖掘的中最为重要的一个研究方向, 也就是说在这个领域将会持续得到更多的重视。

参考文献

[1]JiaweiHan, M.K.数据挖掘概念与技术[M].北京:机械工业出版社, 2004.

[2]邵峰晶, 于忠清, 王金龙, 孙仁诚.数据挖掘原理与算法 (第二版) [M].北京:科学出版社, 2009.67~37, 379~380

[3]Cooley R, Mobasher B, Srivastava J.Web mining:Information andpattern discovery on the World Wide Web.In:9th InternationalConference on Tools withArtificial Intelligence (ICTAI'97) , New-port Beach, CA, USA, 1997:558-567

Web日志挖掘技术研究 篇8

Web日志中的网络挖掘方法主要分为两大类:第一类是基于Web事务的方法和基于数据立方体 (Data Club) 的方法。

1、基于Web事务的方法

基于Web事务的方法即将数据挖掘技术应用于Web服务器日志, 以期望找到用户的非预期的访问浏览模式。此方法主要是识别在Web中用户对各个网页的浏览情况:如页面单位浏览内容中的浏览时间 (浏览时间) 、页面的平均浏览次数、及用户的各种页面浏览行为 (保存、删除网页、加入收藏夹、复制、打印等行为) 等等。并且在此基础上提出了最大向前引用序列 (MFR) 的概念, 用它将用户会话分割成一系列的事务, 然后采用关联规则和聚类分析等方法挖掘频繁浏览路径。

2、基于数据立方体 (Data Club) 的方法

基于数据立方体 (Data Club) 的方法, 通过Web日志建立数据立方体, 然后对数据立方体进行数据挖掘和联机事务处理 (OLAP) 。

二、web日志挖掘流程

1、数据预处理

由于在现实Web服务器上的数据信息很多都是有缺失的、含有噪声的, 不一致的以及在服务器上的数据表现格式也是多种多样, 未经过标准化处理的非结构化的数据。这就要求挖掘者在对Web日志信息进行数据挖掘之前必须对数据进行预处理。主要包括以下四个阶段:数据清理 (data cleaning) 、用户识别 (user recognition) 、会话识别 (session recognition) 、事务识别 (transaction recognition) 等。

(1) 数据清理

海量的Web日志数据中存在大量的噪声数据、不完整数据及不一致的数据等特点, 为了提高数据的质量, 进行高质量的数据挖掘就用到数据预处理数据清理, 它能够填写空缺的值, 平滑噪声数据, 识别、删除孤立点, 解决不一致性。从而改善Web服务器日志记录中数据的质量, 为挖掘算法得到更准确的输入数据。

(2) 用户识别

用户识别就是识别出对站点访问的用户, 用户识别是数据预处理过程中最困难和复杂的, 由于代理服务器、缓存及用户和企业局域网中防火墙的设置, 很难找到真正的用户IP。一般在用户识别过程中会遇到一系列问题:一个IP地址可能有多个用户访问同一个网站;一个用户通过多个IP地址访问同一个Web服务器;一个用户使用多种浏览器有可能是多个不同的操作系统访问同一个站点;多个用户由同一个代理服务器访问同一个Web服务器。

针对以上4类用户识别问题, 许多参考文献都给出了不同的识别规则, 来识别用户。主要识别规则包括: (1) 用户IP作为识别准则, IP地址不同, 不是同一个用户。IP地址相同, 在用户访问的操作系统和浏览器中只要有一个是相同的, 则是同一个用户。 (2) 通过网站的拓扑结构对用户日志进行分析, 找出可能的潜在的用户, 但很多情况下用户识别还是很困难的。综合这两类用户识别规则, 第一类按照IP地址来识别用户, 相同的IP地址为同一个访问用户, 不同的IP代表不同的访问用户。这样的IP对应规则把用户识别更加简化了, 随着现在计算机的普及, 这类方法对用户识别有很大的实用性。

(3) 会话识别

用户会话指的是在一段时间内访问用户对Web服务器一次有效的访问, 通过上一步的用户识别后可以找出访问用户的访问浏览序列。会话是指用户进入网站访问到离开网站这段时间内留下来的系一列数据痕迹。由于会话识别是分析用户访问一段时间以内的数据, 在此期间该用户可能已经多次访问了该网站, 这就要求通过会话识别将用户这段时间内访问的序列分为单个用户一次访问的序列, 并且把属于一个用户对应的同一次请求识别出来。目前算法也逐渐成熟:包括Hpage算法 (连续请求时差与时间阈值比较) 、Hvisi算法 (整个站点定义时间阈值上限比较) 、HRef算法 (参引页分析用户访问历史, 判断会话差异) 、MF最大向前参引算法 (用户不会再次访问先前访问的页面) 等。

(4) 事务识别

事务识别又叫片段识别, 是指将用户访问序列划分成为用户会话或Web事务的逻辑单元, 通过用户会话以后, 能够挖掘出具有自然事务特征的数据, 但是划分出的会话粒度比较大、模糊等, 就要进一步将会话划分成含语义的事务。从而找出有意义的访问路径。

目前常用有最大向前路径、引用长度以及时间窗口等识别方法。其中最大前向路径是应用到事务识别上比较普遍和成功的, 其主要内容是一个会话里不会出现已经访问过的页面, 向前就是一个事务, 向后说明向前引用终止, 意味着用户再次请求已经浏览过的页面, 去掉此次用户访问 (认为用户不会再次访问已经访问过的页面) 。

2、模式发现与分析

模式发现主要目的是通过数据挖掘技术 (关联规则、统计分析、序列模式、分类和聚类等方法) 来发现潜在数据背后的知识, 模式发现是Web日志数据挖掘的核心。目前比较流行的模式发现规格主要有:双联规则、cookie信息、统计分析等。

模式分析是Web日志挖掘继模式发现的最后步骤, 最终目的是将模式发现的结果转换为有用的价值模式, 通过可视化技术以通俗易懂的图形界面方式提供给Web使用者。

三、结束语

现在web挖掘技术在网络研究、数据挖掘、知识发现、软件代理等相关领域都是热点问题。研究web日志挖掘对于优化web站点、电子商务、远程教育、信息搜索等领域有着十分重大意义。如何将这些技术应用时我们急需解决的问题。

摘要:用户借助搜索引擎获取有用信息, 输出的结果集是一样的, 忽略了用户自身的知识领域背景和兴趣度趋向, 使用户陷入了信息冗余的迷航状态。而通过web日志中大量的用户记录信息, 进行数据挖掘可以识别出单一用户, 通过分析用户浏览的信息记录抽取用户特性, 推建出用户的兴趣背景。进一步解决不同用户的不同需求结果集, 实现个性化搜索, 提高客户满意度。

关键词:数据挖掘,web日志,数据预处理

参考文献

[1]Cooley R, Mobasher B, SriVastava J.Data Preparation for mining word wide web browsing patterns[J].Knowledge and Information System, 1999 (1) :5-32.

[2]张治斌, 姜亚南.基于Web日志的数据挖掘研究[J].电脑与信息技术, 2009 (12) .

Web结构挖掘 篇9

关键词:内容质量;数据挖掘;离群点;n-gram

中图分类号:TD63+1 文献标识码:A文章编号:1007-9599 (2010) 04-0000-02

Research on Outlier Mining System of Web Resources Content Quality

Jin Hao,Su Zaiqiang,Zhang Longfei

(Information Science&Technology College of Southwest Communication University,Chengdu610031,China)

Abstract:In information age, data is the basis for production and operation, its quality has a direct impact on the enterprise's survival and effectiveness. Internet has become a huge data warehouse,in order to ensure high-quality of Web text resources that we have used,this paper describes the use of Web content outliers mining methods to improve data quality,and achieved good experimental results.

KeyWords:Content quality;Data mining;Outlier;N-gram

在今天的,商业的成功越来越依赖于资源集成和面向分析的数据仓库的使用。然而研究表明,有41%的数据仓库项目都以失败而告终,其中最主要的原因就是因为糟糕的数据质量而导致的错误的决策。因此我们在利用这些数据进行知识发现时,必须确保数据的高质量,这是数据挖掘成功的前提。随着互联网的出现,网络已经成为一个拥有大量Web文本资源的巨型数据库,如何有效的利用这些文本内容,确保这些内容质量的有效性,又向人们提出了挑战。

在知识发现领域,离群点挖掘是一个重要的数据挖掘问题,传统的离群点的挖掘的目标是从数字格式的数据集中发现稀有的和有趣的模式。然而,Web内容质量离群点挖掘的对象是文本数据集,它与传统的离群点挖掘对象是不同的,在这篇文章中,学者Malik Agyemang等人对Web内容的离群点进行了定义:来自于同一类别的文档中,内容与其它文档不同的那些文档。例如,在一个保险公司的网站上,发现有贷款这样的业务,那该页面就被认为是Web内容离群点,因为通常保险公司不会向客户提供贷款业务。通过对Web内容质量离群点的挖掘,不仅可以发现一些有趣的商业模式,为商业决策提供依据,同时它也可以用来对我们所使用的Web文档进行审查,发现其中我们并不需要的那些内容,提高数据质量的可靠性,指导我们得到正确的决策。因此对这方面的研究具有重要的意义。

一、Web资源内容质量离群点挖掘系统框架

Web内容质量离群点挖掘主要有以下几个步骤:文档的预处理、文档特征的表示、离群点挖掘算法、标识离群点,结果评价。如图1所示:

Web文档的预处理:首先需要将html文件转化为一个Dom树,去除那些与文本内容无关的标签,将需要的内容放在一个xml文件中。

Web文档特征建模:从文本中选择代表其特征的项,利用向量空间模型来表示每一个文本。

Web文本内容离群点的挖掘:利用离群点挖掘算法对得到的数据进行处理。

标识Web离群点:将挖掘得到的结果,以图形化的方式进行显示,标识离群内容文本。

挖掘结果的评价:对挖掘得到的知识或者模式进行评价,检验离群点方法是否有效。

二、Web资源内容质量离群点挖掘算法设计与实现

(一)Web文档的预处理

我们所要处理的数据集是一个个具有结构化和半结构化的网页,网页的这种性质通过它的标签来展现出来,通过对网页的分析我们可以发现,与网页内容有关的标签往往只存在于某些特定的标签之下,另外标签之间与该网页内容的相关性也有不同,我们可以利用网页的这种特性,为我们为Web文档进行建模。

在我们的算法中,我们只需要Web文档中,,<body>标签及其标签中的文本内容。在文本内容抽取阶段,我们采用基于链密度和链接文本密度的方法,定位Web文本内容块所在的位置,并将最终得到的文本内容放在一个Xml文件中,此文件作为下一步处理文件的输入数据。</p><p>(二)Web文档的建模</p><p>目前在信息处理中,主要采用向量空间模型(VSM),对文本内容进行建模。</p><p>在VSM模型中,文档空间被看做是由一组正交词条矢量所组成的矢量空间,每个文档由特征词,及其权重来表示:</p><p> 在特征词的选取上,我们采用n-gram方法。其中n-gram定义为,将一个字符串切分为若干个长度为n的子串。例如:“science”是一个长度为7的字符串,那么它的5-gram就是“scien”,“cienc” ,“ience”。我们将上一步得到的Xml文件中的内容合并得到一个“伪文本” ,对该文本进行分词之后,统计其中的4-gram,按每个词条个数由多到少进行排序。我们选取前n个词条作为我们所征词向量。</p><p>接下来,对每一得到的词条,采用公式(1)计算其在每一个文本中的权值,</p><p>其中tfik是特征项ti在文档dk中出现的频率, N是文本集的大小,nk是出现特征项ti的文档的个数。</p><p>我们注意到,一个特征词可能同时出现在多个标签内,而通常认为<meta>,<title>标签的词语与整个文档内容的文档相关性要比<body>标签中词语相关性要高。因此我们给这些出现在这两个标签中的特征项分配更高的权重。我们用下面公式</p><p>(2)来分配权重:</p><p>公式中的metadata tag指的是<meta>,<title>标签。最后我们采用公式(3)计算出该词条的综合权重。</p><p>其中 是特征项 在不同标签下出现的次数。根据经验,给定 = 0.5。</p><p>(三)Web资源内容质量离群点检测算法</p><p>Web资源内容质量的离群点挖掘的目标是发现同类文本中内容奇异的那些文本,我们采用文本聚类的常用算法:K-means算法,凝聚层次聚类算法,通过先将大量内容相似度较高的文本先聚在一起的方法,来发现那些内容奇异的文本。其中文本之间的相似度的计算,我们采用夹角余弦公式:</p><p>三、实验结果及分析</p><p>实验采用的数据集来自于yahoo,msn,domz等英文网站,该数据集包括了500个关于保险的页面和50篇关于贷款的页面,在整个测试数据集构建中,离群点页面的个数小于10%。</p><p>从表1可以看出,对于该数据集,采用5-gram的离群点文本的召回率要略高于采用4-gram的召回率。采用n-gram技术结合文本聚类的算法,可以有效的发现文本集中内容奇异的页面。实验的结果达到了我们预期的效果。</p><p>四、结论</p><p>由于数据挖掘在发现隐藏模式上的突出特点,利用数据挖掘方法进行数据质量分析逐渐成为研究的重点。本文利用了n-gram方法和文本聚类相结合的方法,实现了Web资源内容质量离群点挖掘系统,利用该系统对Web资源的内容进行审查,从而进一步的提高文本内容的质量,避免错误的数据导致错误的决策。</p><p>考虑到该系统采用了最常用到的文本聚类算法,同时两种算法在实现中都需要预先设定参数,因此,如何自动的根据待分析的文本内容自动的生成算法需要的参数,将是我以后研究的重点。</p><p>参考文献:</p><p>[1]Tamraparni Dasu.Theodore Johnson. Problems,Solution&Research in Data Quality,SDM-2002</p><p>[2]WCOND-Mine:Algorithm for Detecting Web Content Outliers from Web Documents.Malik Agyemang, Ken Barker,Rada S.,Alhajj Department of Computer Science University of Calgary.2005</p><p>[3]索红光.一种用于文本聚类的改进k-means算法.北京理工大学,2007</p><p>[4]朱焱,唐慧佳,马永强.基于ISO/IEC9126的Web资源质量评测系统.西南交通大学学报,2008,2</p><p>[5]张亦辉.基于Web的文本挖掘研究.山东大学,2008</p><p>[6]A Large Benchmark Dataset for Web Document Clustering , Mark P . Sinka ,David W .CorneDepartment of Computer Science,University of Reading,Reading,RG66AY, M., Barker K., Alhajj S. R. “Framework for Mining Web Content Outliers”Proc.of 19th ACM Symposium on Applied Computing, Nicosia, Cyprus,2004:590-594</p><h3>WEB数据挖掘研究探析 篇10</h3><p>WEB数据挖掘就是从大量的网络数据中发现隐含的规律性的内容, 提取并挖掘有用的知识。然而WEB上的数据以多种形式存在, 是一种介于结构化与半结构化之间的数据, 非常不利于进一步挖掘有用信息。当前, 随着许多WEB站点上的信息逐步采用XML规范, 给WEB数据挖掘带来了新的解决方法。</p><p>2 WEB数据挖掘面临的问题</p><p>面向WEB的数据挖掘要比面向单个数据仓库的数据挖掘要复杂的多, 主要是基于以下几点原因:</p><p>(1) 异构数据库环境。Web上的每一个站点就是一个数据源, 每个数据源都是异构的, 因而每一站点的信息和组织都不一样, 这就构成了一个巨大的异构数据库。 (2) 分布式数据源。Web页面散布在世界各地的Web服务器上, 形成了分布式数据源。 (3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂, 没有特定的模型描述, 是一种非完全结构化的数据, 称之为半结构化数据。 (4) 动态性强。Web是一个动态性极强的信息源, 信息不断地快速更新, 各站点的链接信息和访问记录的更新非常频繁。 (5) 多样复杂性。Web包含了各种信息和资源, 有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。</p><p>3 WEB数据挖掘中的技术问题探析</p><p>3.1 非技术因素</p><p>在WEB数据挖掘中, 出于商业目的经常会对网站的某些方面提出一些分析, 比如:流量分析 (点击量) 、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步分析, 我们可以从中找出真正与数据挖掘相关的的要素, 具体如下:</p><p>3.1.1 网页相关性分析</p><p>一些网页之间具有密切的关系, 假设很多人具有a.html-〉b.html-〉c.html这样的访问模式, 则我们可以认定a.html和c.html之间有一定的关系, 从而考虑是否在a.html上直接加上c.html的链接。</p><p>3.1.2 用户访问模式分析</p><p>一般规律下, 用户只要访问了网页其中的一页, 则可以断定他也要访问其他的网页即按不同的用户访问模式, 把网页分组得到一个一个的兴趣点。</p><p>3.1.3 用户归类</p><p>通过用户填写的信息把用户归入某一特定的类别, 然后可对同一类别中的用户提供相似的服务。</p><p>3.2 技术因素</p><p>WEB数据挖掘的技术因素主要有以下几点:</p><p>(1) 数据处理。如何得到分析和数据挖掘所用的数据, 主要采用两种方法, 一是直接使用Web Server的Log文件, 二是用网络监听的办法, 在数据包中提取出H T T P请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内, 供统计分析和数据挖掘使用。 (2) 统计分析。即在数据库的基础上, 针对不同的数据运行各种统计函数。 (3) 数据挖掘。数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据 (即我们通过数据处理得到的数据) 应用各种数据挖掘技术, 得到高层知识, 提供给用户作决策支持, 并利用这些知识动态生成网页, 为用户提供访问建议。 (4) 关联规则。从服务器会话中发现请求网页的相关性, 可用于优化网站组织, 实现网络代理中的预取功能等。 (5) 聚集。使用Usage Clusters把具有相似浏览模式的用户分成组, 可用于电子商务应用中market segmentation和为用户提供个性化服务, 使用page clusters按内容的相似性把网页分类, 可用于搜索引擎和Web assistance providers为用户提供推荐链接。 (6) 归类。根据用户的个人资料, 将其归入某一特定的类, 可使用决策树、Naive BayesianClassifiers等算法。</p><p>4 XML技术在WEB数据挖掘中的应用</p><p>4.1 XML技术简介</p><p>XML (e Xtsible Markup Language) 是SGML (Standard General Markup Language) 的一个子集, 近年来被IBM、Microsoft等公司大力推崇。和H T M L (H y p e rT e x t Markup Language) 类似, XML也是一种标示语言, 可提供描述结构化资料的格式, 它们都可以用于可视化和用户界面标准。</p><p>4.2 XML的主要应用</p><p>XML的应用主要分为文档型和数据型, 具体有以下6类:</p><p>(1) 自定义XML+XSLT=>HTML, 最常见的文档型应用之一。XML存放整个文档的XML数据, 然后XSLT将XML转换、解析, 结合XSLT中的HTML标签, 最终形成HTML显示在浏览器上。 (2) XML作为微型数据库, 这是最常见的数据型应用之一。一般可利用相关的XMLAPI (MSX MLDOM、JAVADOM等) 对XML进行存取和查询。比如在留言板的实现中, 就经常可以看到用XML作为数据库。 (3) 作为通信数据。最典型的就是Web Service, 利用XML来传递数据。 (4) 作为一些应用程序的配置信息数据。常见的如J2EE配置WEB服务器时用的WEB.XML。 (5) 其他一些文档的XML格式。如Word、Excel等。 (6) 保存数据间的映射关系。如Hibernate。</p><p>4.3 XML在WEB数据挖掘中的应用</p><p>以XML为基础的新一代网络环境是直接面对WEB数据的, 不仅可以很好地兼容原有的WEB应用而且可以更好地实现WEB中的信息共享与交换。XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询与模型抽取。</p><p>当用标准的HTML无法完成某些WEB应用时, XML更能大显身手。这些应用大体可分为以下四类:需要WEB客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从WEB服务器转到WEB客户端的应用;需要WEB客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能WEB代理根据个人用户的需要裁减信息内容的应用。显而易见, 这些应用和WEB的数据挖掘技术有着重要的联系, 基于WEB的数据挖掘必须依靠它们来实现。</p><p>5 结语</p><p>XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据, 从而能描述搜集的WEB页中的数据记录。同时由于基于XML的数据是自我描述的数据, 不需要有内部描述就能被交换和处理, XML为组织软件开发者、WEB站点和终端使用者提供了许多有利条件。相信随着XML作为在WEB上交换数据的一种标准方式继续推广, 面向WEB的数据挖掘将会变得异常轻松。</p><p>参考文献</p><p>[1]韩家炜, 孟小峰, 王静等.Web挖掘研究.计算机研究与发展.2001.</p><p>[2]王静, 孟小峰.半结构化数据的模式研究综述.计算机科学[J].2001Vol.28.</p><div class="banquan"><p class="rel_art_line">【Web结构挖掘】推荐阅读:</p><p><a target="_blank" href="/a/key7sxs30d7s.html">网格数据挖掘体系结构</a><span>09-09</span></p><p><a target="_blank" href="/a/keyz9bf9fi25.html">Web日志挖掘</a><span>05-09</span></p><p><a target="_blank" href="/a/keyldcx1zzzo.html">WEB使用挖掘</a><span>06-09</span></p><p><a target="_blank" href="/a/key84178a01j.html">Web访问信息挖掘</a><span>09-12</span></p><p><a target="_blank" href="/a/key8q4cgkhii.html">Web数据挖掘研究</a><span>07-18</span></p><p><a target="_blank" href="/a/keya2nji9oe8.html">WEB挖掘与电子商务</a><span>06-10</span></p><p><a target="_blank" href="/a/key21x2k40dz.html">Web使用挖掘研究论文</a><span>08-21</span></p><p><a target="_blank" href="/a/keyeexyh242x.html">Web结构</a><span>08-04</span></p><p><a target="_blank" href="/a/keycoy821u4s.html">精细挖掘</a><span>07-18</span></p><p><a target="_blank" href="/a/keyq83pcgccu.html">兴趣挖掘</a><span>07-22</span></p></div></div><div class="write-btn"><a rel="nofollow" href="/so/q=Web结构挖掘"> >> 查看更多相关文档</a></div><script type="text/javascript">s("wzfz");</script><p class="art-other"><a href="/a/key331ow8a16.html" title="基因工程应用">上一篇:基因工程应用</a><a href="/a/keyu0261y1k0.html" title="城市停车">下一篇:城市停车</a></p></div></div> <div class="rtbox"><div class="hot_dh"><span class="hotso"></span><h3>本站热搜</h3><ul class="hot_ul ultext"><li class="hot_item"><span class="toplist-hot1">1</span><a href="/a/keyctgrs0tdm.html" target="_blank">挖掘性能</a><span class="c-text c-text-hot">热</span></li><li class="hot_item"><span class="toplist-hot2">2</span><a href="/a/keyzcb7o7q3q.html" target="_blank">属性挖掘</a><span class="c-text c-text-hot">热</span></li><li class="hot_item"><span class="toplist-hot3">3</span><a href="/a/key9vnpzhe4x.html" target="_blank">挖掘培养</a><span class="c-text c-text-hot">热</span></li><li class="hot_item"><span class="toplist-hot4">4</span><a href="/a/key9e6qmeckw.html" target="_blank">挖掘机构</a></li><li class="hot_item"><span class="toplist-hot5">5</span><a href="/a/keyy4i3q5ngn.html" target="_blank">挖掘机</a></li><li class="hot_item"><span class="toplist-hot">6</span><a href="/a/keymzobp7cj0.html" target="_blank">挖掘生活素材</a></li><li class="hot_item"><span class="toplist-hot">7</span><a href="/a/keyrtu4ulwbm.html" target="_blank">挖掘机动臂</a></li><li class="hot_item"><span class="toplist-hot">8</span><a href="/a/keyz204xi8am.html" target="_blank">离群点挖掘</a></li><li class="hot_item"><span class="toplist-hot">9</span><a href="/a/keyckvfcdatf.html" target="_blank">产品特征挖掘</a></li><li class="hot_item"><span class="toplist-hot">10</span><a href="/a/keystwmtygeu.html" target="_blank">挖掘和利用</a></li></ul></div><div class="right"><div class="hot_dh top5" id="key"><span class="hotso2"></span><h3>相关推荐</h3><ul class="hot_ul ultext"><li class="hot_item"><span class="toplist-hot1">1</span><a href="/a/keygzpzu606i.html" target="_blank">挖掘能力</a></li><li class="hot_item"><span class="toplist-hot2">2</span><a href="/a/keyolvdgifve.html" target="_blank">使用挖掘</a></li><li class="hot_item"><span class="toplist-hot3">3</span><a href="/a/keyvr6fe4ezm.html" target="_blank">经验挖掘</a></li><li class="hot_item"><span class="toplist-hot4">4</span><a href="/a/keygbqn6z3bm.html" target="_blank">挖掘分析</a></li><li class="hot_item"><span class="toplist-hot5">5</span><a href="/a/keygx0b654qr.html" target="_blank">挖掘潜力</a></li><li class="hot_item"><span class="toplist-hot">6</span><a href="/a/keyeos7y7as6.html" target="_blank">知识挖掘</a></li><li class="hot_item"><span class="toplist-hot">7</span><a href="/a/key57s94xzfq.html" target="_blank">挖掘机械</a></li><li class="hot_item"><span class="toplist-hot">8</span><a href="/a/keyle1dj5v49.html" target="_blank">文本挖掘</a></li><li class="hot_item"><span class="toplist-hot">9</span><a href="/a/key2cm016f2i.html" target="_blank">挖掘资源</a></li><li class="hot_item"><span class="toplist-hot">10</span><a href="/a/key61j90n85s.html" target="_blank">挖掘推荐</a></li></ul></div><script type="text/javascript">s("zxkf");</script></div></div></div> <div class="footer"><div class="footer-content"><div class="copy-link"><div class="earth-con"><div class="file-groups earth-con-item"><span>资料大全</span><a href="/index/f-a-1.html" target="_blank">A</a><a href="/index/f-b-1.html" target="_blank">B</a><a href="/index/f-c-1.html" target="_blank">C</a><a href="/index/f-d-1.html" target="_blank">D</a><a href="/index/f-e-1.html" target="_blank">E</a><a href="/index/f-f-1.html" target="_blank">F</a><a href="/index/f-g-1.html" target="_blank">G</a><a href="/index/f-h-1.html" target="_blank">H</a><a href="/index/f-i-1.html" target="_blank">I</a><a href="/index/f-j-1.html" target="_blank">J</a><a href="/index/f-k-1.html" target="_blank">K</a><a href="/index/f-l-1.html" target="_blank">L</a><a href="/index/f-m-1.html" target="_blank">M</a><a href="/index/f-n-1.html" target="_blank">N</a><a href="/index/f-o-1.html" target="_blank">O</a><a href="/index/f-p-1.html" target="_blank">P</a><a href="/index/f-q-1.html" target="_blank">Q</a><a href="/index/f-r-1.html" target="_blank">R</a><a href="/index/f-s-1.html" target="_blank">S</a><a href="/index/f-t-1.html" target="_blank">T</a><a href="/index/f-u-1.html" target="_blank">U</a><a href="/index/f-v-1.html" target="_blank">V</a><a href="/index/f-w-1.html" target="_blank">W</a><a href="/index/f-x-1.html" target="_blank">X</a><a href="/index/f-y-1.html" target="_blank">Y</a><a href="/index/f-z-1.html" target="_blank">Z</a><a href="/index/f-09-1.html" target="_blank">0-9</a></div></div><div class="footer-nav"><a href="#" rel="nofollow" target="_blank">网站声明</a><span>|<span><a href="#" rel="nofollow" target="_blank">帮助中心</a><span>|<span><a href="#" rel="nofollow" target="_blank">帮助中心</a>|<span><a href="/index/f-a-1.html" target="_blank">网站地图</a><span></div><p class="footer-copyright"><a href="//www.qikantianxia.com" target="_blank">期刊天下网</a> qikantianxia.com <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">赣ICP备2021006248号-1</a></p></div></div></div> <script>window.KeyWord = "Web结构挖掘";</script> <script src="/default/static/js/base.js"></script> </body> </html>