Web数据挖掘研究

2024-07-18

Web数据挖掘研究（精选12篇）

Web数据挖掘研究篇1

1 引言

WEB数据挖掘就是从大量的网络数据中发现隐含的规律性的内容, 提取并挖掘有用的知识。然而WEB上的数据以多种形式存在, 是一种介于结构化与半结构化之间的数据, 非常不利于进一步挖掘有用信息。当前, 随着许多WEB站点上的信息逐步采用XML规范, 给WEB数据挖掘带来了新的解决方法。

2 WEB数据挖掘面临的问题

面向WEB的数据挖掘要比面向单个数据仓库的数据挖掘要复杂的多, 主要是基于以下几点原因:

(1) 异构数据库环境。Web上的每一个站点就是一个数据源, 每个数据源都是异构的, 因而每一站点的信息和组织都不一样, 这就构成了一个巨大的异构数据库。 (2) 分布式数据源。Web页面散布在世界各地的Web服务器上, 形成了分布式数据源。 (3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂, 没有特定的模型描述, 是一种非完全结构化的数据, 称之为半结构化数据。 (4) 动态性强。Web是一个动态性极强的信息源, 信息不断地快速更新, 各站点的链接信息和访问记录的更新非常频繁。 (5) 多样复杂性。Web包含了各种信息和资源, 有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。

3 WEB数据挖掘中的技术问题探析

3.1 非技术因素

在WEB数据挖掘中, 出于商业目的经常会对网站的某些方面提出一些分析, 比如:流量分析 (点击量) 、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步分析, 我们可以从中找出真正与数据挖掘相关的的要素, 具体如下:

3.1.1 网页相关性分析

一些网页之间具有密切的关系, 假设很多人具有a.html-〉b.html-〉c.html这样的访问模式, 则我们可以认定a.html和c.html之间有一定的关系, 从而考虑是否在a.html上直接加上c.html的链接。

3.1.2 用户访问模式分析

一般规律下, 用户只要访问了网页其中的一页, 则可以断定他也要访问其他的网页即按不同的用户访问模式, 把网页分组得到一个一个的兴趣点。

3.1.3 用户归类

通过用户填写的信息把用户归入某一特定的类别, 然后可对同一类别中的用户提供相似的服务。

3.2 技术因素

WEB数据挖掘的技术因素主要有以下几点:

(1) 数据处理。如何得到分析和数据挖掘所用的数据, 主要采用两种方法, 一是直接使用Web Server的Log文件, 二是用网络监听的办法, 在数据包中提取出H T T P请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内, 供统计分析和数据挖掘使用。 (2) 统计分析。即在数据库的基础上, 针对不同的数据运行各种统计函数。 (3) 数据挖掘。数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据 (即我们通过数据处理得到的数据) 应用各种数据挖掘技术, 得到高层知识, 提供给用户作决策支持, 并利用这些知识动态生成网页, 为用户提供访问建议。 (4) 关联规则。从服务器会话中发现请求网页的相关性, 可用于优化网站组织, 实现网络代理中的预取功能等。 (5) 聚集。使用Usage Clusters把具有相似浏览模式的用户分成组, 可用于电子商务应用中market segmentation和为用户提供个性化服务, 使用page clusters按内容的相似性把网页分类, 可用于搜索引擎和Web assistance providers为用户提供推荐链接。 (6) 归类。根据用户的个人资料, 将其归入某一特定的类, 可使用决策树、Naive BayesianClassifiers等算法。

4 XML技术在WEB数据挖掘中的应用

4.1 XML技术简介

XML (e Xtsible Markup Language) 是SGML (Standard General Markup Language) 的一个子集, 近年来被IBM、Microsoft等公司大力推崇。和H T M L (H y p e rT e x t Markup Language) 类似, XML也是一种标示语言, 可提供描述结构化资料的格式, 它们都可以用于可视化和用户界面标准。

4.2 XML的主要应用

XML的应用主要分为文档型和数据型, 具体有以下6类:

(1) 自定义XML+XSLT=>HTML, 最常见的文档型应用之一。XML存放整个文档的XML数据, 然后XSLT将XML转换、解析, 结合XSLT中的HTML标签, 最终形成HTML显示在浏览器上。 (2) XML作为微型数据库, 这是最常见的数据型应用之一。一般可利用相关的XMLAPI (MSX MLDOM、JAVADOM等) 对XML进行存取和查询。比如在留言板的实现中, 就经常可以看到用XML作为数据库。 (3) 作为通信数据。最典型的就是Web Service, 利用XML来传递数据。 (4) 作为一些应用程序的配置信息数据。常见的如J2EE配置WEB服务器时用的WEB.XML。 (5) 其他一些文档的XML格式。如Word、Excel等。 (6) 保存数据间的映射关系。如Hibernate。

4.3 XML在WEB数据挖掘中的应用

以XML为基础的新一代网络环境是直接面对WEB数据的, 不仅可以很好地兼容原有的WEB应用而且可以更好地实现WEB中的信息共享与交换。XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询与模型抽取。

当用标准的HTML无法完成某些WEB应用时, XML更能大显身手。这些应用大体可分为以下四类:需要WEB客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从WEB服务器转到WEB客户端的应用;需要WEB客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能WEB代理根据个人用户的需要裁减信息内容的应用。显而易见, 这些应用和WEB的数据挖掘技术有着重要的联系, 基于WEB的数据挖掘必须依靠它们来实现。

5 结语

XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据, 从而能描述搜集的WEB页中的数据记录。同时由于基于XML的数据是自我描述的数据, 不需要有内部描述就能被交换和处理, XML为组织软件开发者、WEB站点和终端使用者提供了许多有利条件。相信随着XML作为在WEB上交换数据的一种标准方式继续推广, 面向WEB的数据挖掘将会变得异常轻松。

参考文献

[1]韩家炜, 孟小峰, 王静等.Web挖掘研究.计算机研究与发展.2001.

[2]王静, 孟小峰.半结构化数据的模式研究综述.计算机科学[J].2001Vol.28.

[3]赵焕平等.WEB数据挖掘及其在电子商务中的应用.福建电脑[J].2008 (1) 167.

Web数据挖掘研究篇2

互联网、计算机信息技术迅猛的发展势头，数据从结构化存储以及转化为非结构化的存储，数据存储形式的转变，不同数据类型的存储变多，音频、视频等大格式的信息存储在多个应用中实现。行业中的计算机化、信息化和网络化，使计算机和服务器上积累了各种各样海量的数据。传统的人工分析已经不能满足和适应如此大量的数据，各行各业都产生了巨大数据信息，包括生产加工、研究、物流运输、客户、营销、售后等数据，人们却不知道怎么利用这些数据实现价值的增长。如果能将这些数据进行挖掘分析，很可能会产生巨大的商业价值，很多有价值的信息可以被发现。现在，越来越多的公司和企业意识到数据挖掘的重要性，但是怎么能从如此海量的数据中挖掘出有价值有用的信息，已经成为研究的热门话题。在传统的数据分析基础上，相关人员结合新开发人工智能和数据挖掘等相关的技术，数据库孕育而生，让我们能从海量的数据中挖掘出有价值的信息，促使信息化的发展，称之为数据挖掘。

二、数据挖掘的过程

1、数据收集。将要进行数据分析的海量数据资源收集到数据仓库中。把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，抽象出分析相关的数据，进行非结构化数据的分类，筛选出不相关或者无价值的数据，减少数据集的容量。

2、数据清洗和转换。数据清洗是为了删除掉无用的数据信息。数据转换的目的最直接的是把所有信息统一化。将完整，有效的信息存入数据仓库。

3、模型建立。模型建立是数据挖掘的核心阶段。首先，要和相关领域的专家组成团队，进行需求分析，明确数据挖掘的目的和具体的数据挖掘任务。根据不同的任务，选择相关算法，利用这些算法来建立模型，再用专业的模型评估工具比较模型的准确度。即使是同一种算法，参数选取的不同，所建模型的准确度也不一样。

4、模型评估。从商业角度来讲，模型评估是对我们所建立的预测模型的正确性进行价值评估，如若模型中模式无价值，就要重复数据挖掘过程中的2～4步，即数据清洗和转换、模型建立。

5、知识表示。将数据挖掘最后的结果以最直观的方式呈现给用户，通常用数据图形展示工具来表示。

6、应用集成。将数据挖掘集成到现实的实际应用中。例如，CRM中有了数据挖掘功能，就可以对客户进行等级分类。

7、模型管理。根据不同数据模型的生命周期做好数据应用和管理。

三、WEB数据挖掘

基于WEB内容的挖掘就是针对网页内容进行数据挖掘，通过用户对网页访问的交互，留下的数据信息进行收集分类，完成数据挖掘。目前对文本内容的挖掘技术取得了一定的成果，对图像、音频、视频等各种多媒体数据的数据挖掘技术都开始采用非结构化大数据应用技术来完成。基于WEB结构的挖掘是发现页面、文档和WEB的结构，主要是发现WEB潜在的结构模式，利用分析这些结构我们可以得到很多潜在有价值的信息。基于WEB使用的数据挖掘，即针对用户的访问网页的轨迹收集分析。WEB内容的挖掘和结构的挖掘面对的主要挖掘对象是大规模的轨迹数据，对挖掘数据进行分析可以让管理者了解用户的不同需求，从而为用户提供个性化的服务。

四、数据挖掘在WEB中个性化定制的应用

通过网站与用户的交互，可以得到用户访问的内容、时间、方式、频率等，从中发现潜在的商业价值，通过价值数据进行数据挖掘以及算法分析得出商业结论。就可以根据挖掘到的信息对这些客户进行特定的推销策略，进行个性化定制。在商业领域中，通过对相似轨迹数据的客户进行分类，分析他们的共性，帮助管理者发现不同客户的需求和兴趣，提供适宜各类人的服务。按照不同用户的不同兴趣和爱好，向用户提供动态的浏览建议。对大多数用户来说，如果可以访问该网站可以体会到量身定做的服务，那么数据挖掘个性化定制就成功完成了。

五、数据挖掘技术在WEB中的应用

网站的功能设计及其版面的内容直接影响到网站的访问率。相关人员发现用户的需要和兴趣，对需求强烈的地方提供优化，使用数据挖掘去发现页面间的关联，针对不同的用户动态调整网站的设计和链接，使用户可以便捷地访问到自己想要访问的页面。将数据挖掘技术的在WEB中的应用，吸引更多的用户。随着数据挖掘技术在WEB中的应用，用户可以通过分析挖掘的结果了解各种客户的需求和喜好，得到各种定制个性化服务。随着互联网上轨迹数据信息量的急速增长，不断复杂化的数据结构，挖掘技术也面临着一系列新的问题和挑战。

参考文献：

[1]胡继平、数据挖掘技术[J]、景德镇高专学报，1998

Web数据挖掘研究篇3

关键词 web 数据挖掘系统设计

中图分类号：TP311.13 文献标识码：A

Web数据挖掘由于其优良的特性，被广泛的应用于电子商务和企业的决策中。目前，企业管理客户的主要方式就是通过web管理，企业针对客户的访问情况和访问历史，为不同的客户提供不同的个性化服务。Web还可以用作企业与客户间的交流工具，企业通过web实时与客户进行互动，以及时了解客户的喜好。Web由于具有较低的成本，在企业的推广中应用也很广泛。企业面临的最大问题是如何从web大量的信息库中提取有利于企业发展的信息。

1数据挖掘系统的概述

Web数据挖掘是指用数据挖掘的方法对用户访问信息、web页面内容、电子商务交易信息、用户注册信息、站点拓扑结构等方面的数据进行挖掘和分析，并找出有用的信息的过程。人们可以利用web挖掘发现有用的信息、为客户提供个性化的服务、改善站点的设计等等，web挖掘的方法可以分为结构挖掘、内容挖掘、使用挖掘三种方式。其中，web结构挖掘指的是从web的链接关系和组织结构中对知识进行推导的过程。Web中包含的有用的信息不仅仅是页面上的内容，其结构中也包含着大量有用的信息，需要对其结构进行推导才能发现。Web内容挖掘指的是对web页面的内容进行挖掘以找到有用的信息。Web使用挖掘指的是对客户在web服务器上进行访问的记录通过web日志等方法进行挖掘。

2web数据挖掘系统的设计

Web数据挖掘表现出显著的优势，因此，基于web的数据挖掘系统设计也必然能够更好满足企业推广一个用需求，而在设计数据挖掘系统的过程中也应当充分考虑每一个步骤，以确保设计的合理性。

3数据收集

Web数据挖掘需要挖掘的数据主要分两方面，即用户的活动使用信息以及web页面上包含的页面拓扑结构和文档。用户的活动使用信息主要表现为用户在企业网站的数据库的在线注册、交易信息、电子邮件查询、响应数据和活动信息，通常是记录的形式。Web页面上包含的页面拓扑结构和文档主要表现为web服务器的Cookies、日志文件和Error Logs。通常web服务器的日志文件中包括用户浏览网页的顺序和链接的点击顺序，例如用户使用的时间和日期、请求的类型和状态、主机的地址以及发送的字节数等。数据的收集过程就是从web服务器日志文件中提取有用的信息并对客户的活动信息进行分析的过程，产生的数据最终用来构建数据仓库。

4数据处理

点击流是数据挖掘的重要信息，但由于其数据繁多，对数据挖掘工作者也是一种挑战。使点击流的数据进入数据库主要通过几个方面的数据统计，即客户端、应用服务器、数据仓库、web服务器四个方面。客户端是指用户通过智能工具或浏览器等各种方式浏览企业的页面所产生的点击数据，构建数据库的过程就是对web服务器的数据进行预处理并转移到数据仓库和程序服务器中的数据分析过程。由于数据的量较大，要在大量的数据中提取有用的信息十分困难，因此，对数据进行预处理非常重要。对数据预处理的方法有字符大小写的转换和类型转换等，通过这些工具完成数据的转换，实现数据的预处理。数据处理的过程需要注意的问题有：首先，数据仓库必须采用大规模的并行处理机，以满足大量用户的需求。其次，数据转移的速率要高，可通过提高集成度或使用一些数据移动软件的方法提高数据的转移速率。

5挖掘模式

企业开发数据挖掘系统的主要目的就是应用数据挖掘的算法对数据仓库的数据集进行分析和挖掘，提取出有用的信息和模式为企业的决策提供依据。因此，选择一种有效的挖掘模式具有重要的意义，下面有几种可供选择的模式，第一，对用户的访问记录利用路径分析的方法进行分析。路径分析利用的是web的日志文件中用户的访问记录，并把用户的访问路径按时间的先后进行排序。第二，对频繁的页面集利用关联规则分析的方法进行分析，如对于两本不同的书A和B中的页面1和2，利用关联规则分析的方法得出（1，2）是频繁页面集，当用户浏览书A的页面1时，将书B的页面2加以缓存，从而提高web的缓存性能。第三，对相似的客户和页面利用聚类分析的方法进行分析。聚类分析包括客户聚类和页面聚类，主要分析具有相似性的客户，对其相似的爱好提供个性化的服务。第四，对可能存在的潜在客户利用分类和预测的方法进行挖掘。分类和预测方法是指通过对客户的购买商品和访问特征对客户加以分类，从而为潜在的客户开展促销活动并对销售情况进行预测。

6结束语

Web数据挖掘系统是目前较热门的研究课题，具有广阔的应用和发展空间，市场潜力巨大。基于web的数据挖掘系统与传统的数据挖掘系统相比具有能够使数据、接口和算法分离的优点，简化了算法库的开发。web数据挖掘系统主要研究的内容包括数据的预处理、收集和技术的开发。目前我国的数据挖掘技术与发达国家相比还有一定差距，仍需不断的发展和完善。

参考文献

[1] 李新金.Web使用挖掘在网络学习平台中的应用研究[J].浙江师范大学.2012，05（6）：18.

[2] 刘天垒.基于Web的农业数据挖掘系统的研究与实现[J].中国农业科学院.2012，10（4）：11.

Web数据挖掘的技术研究篇4

Internet上包括了大量的Web站点, 并且这些站点的数目呈指数级增长。虽然Internet上有海量的数据, 但由于Web是无结构的、动态的, 并且Web页面的复杂度远远超过了文本文档以及数据库数据, 因此人们想要找到自己感兴趣的信息犹如大海捞针一般。而Web面对的是一个广泛的形形色色的用户群体, 各个用户可以有不同的背景、兴趣和使用目的, 对于任何单个用户来说, Web上的信息只有很少一部分是相关的或有用的, 而其余信息对用户来说则是不感兴趣的, 而且会淹没所希望得到的搜索结果。解决这一问题的途径就是将传统的数据挖掘技术与Web结合起来, 进行Web数据挖掘。

2 Web挖掘定义

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的, 但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。

Web挖掘是从数据挖掘发展而来的, 是指将数据挖掘技术应用于Web。一般将Web挖掘定义为:从WWW的资源和行为中抽取感兴趣的、有用的模式和隐含的信息。数据挖掘是一项综合性交叉技术, 融合了Internet技术、数据库、人工智能等多个领域的理论和技术。

3 Web挖掘分类

当前Web上的信息主要分为三类:1) Web页面中的内容, 包括文本信息和各种媒体信息;2) Web页面中超链接之间相互引用的数据;3) Web服务器上的用户登录网站的访问日志数据。对这三种数据采用的处理算法有很大的差异, 由此将Web挖掘分为三类[1]:Web内容挖掘 (Web Content Mining) 、Web结构挖掘 (Web Structure Mining) 和Web日志挖掘, 即Web使用记录挖掘 (Web Usage Mining) 。Web挖掘的分类图如图1所示。

3.1 Web内容挖掘

Web内容挖掘, 即为从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web文档内容的挖掘、基于概念索引的资源发现和基于代理的技术都属于这一类。Web内容挖掘有两种策略[2], 即直接挖掘文档的内容, 或在其他工具, 主要是在搜索引擎搜索的基础上进行改进。

Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现 (Knowledge Discovery in Textual Database, 简称KDT) 领域, 也称文本数据挖掘或文本挖掘, 是Web挖掘中比较重要的技术领域, 也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。

3.2 Web结构挖掘

Web结构挖掘是对Web页面链接关系、文档内部结构、文档URL中的目录路径结构等的挖掘, 即从Web的组织结构和链接关系中推导知识[3]。这种思想源于引文分析, 即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。这一领域最为常用的分析算法是独立于查询的PageR-ank算法以及查询相关的HITS算法。

此外, Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘, 包括通过检查同一台服务器上的本地连接衡量Web站点的完全性, 在不同的Web数据仓库中检查副本以帮助定位镜像站点, 通过发现针对某一特定领域的超链接的层次属性去探索信息流动如何影响Web站点的设计。

3.3 Web日志挖掘

Web日志挖掘是指将数据挖掘技术应用于Web服务器日志文件, 以发现隐藏在其中的用户访问模式[4]。主要的Web日志挖掘包括网页相关性分析和用户访问模式分析。Web日志挖掘主要应用于以下的五个方面:

⑴个性化服务与定制:针对单个用户的使用记录对该用户进行建模, 结合该用户基本信息分析他的使用习惯、个人喜好, 目的是在电子商务环境下为该用户提供与众不同的个性化服务。

⑵改进系统性能和结构:Web服务的性能和其他服务质量是衡量用户满意度的关键指标, Web日志挖掘可以通过用户的拥塞记录发现站点的性能瓶颈, 以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外, 可以通过分析网络的非法入侵数据找到系统弱点, 提高站点安全性, 这在电子商务环境下尤为重要。

⑶站点修改:站点的结构和内容是吸引用户的关键, Web日志挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依据。

⑷商业智能:通过对用户行为和购物等关系的挖掘, 更好地理解用户的购买意图, 发现其中的用户购物特征和购买趋势, 识别电子商务的潜在客户, 确定电子商务的潜在客户群, 以此进行商业智能, 支持商业决策, 合理制订网络广告策略等。

⑸Web特征描述:这类研究通过分析用户对站点的访问记录, 统计各个用户在页面上的交互情况, 从而对用户访问情况进行特征描述。

4 Web数据挖掘技术

数据挖掘方法通常可分为两类, 一类是建立在统计模型的基础上, 采用的技术有分类、聚类、关联规则等;另一类是建立在以机器学习为主的人工智能模型, 采用的方法有神经网络、遗传算法等。

Web挖掘从数据挖掘发展而来, 主要技术有以下几类:

⑴分类:分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法, 此外还有神经元网络、Bayesian分类等。

⑵聚类:聚类是将数据集划分为多个类, 使得在同一类中的数据之间有较高的相似度, 而在不同类中的数据差别尽可能大。在聚类技术中, 没有预先定义好的类别和训练样本存在, 所有记录都根据彼此相似程度来加以归类。主要算法有kmeans、DBSCAN等。

⑶关联分析:关联分析的目的是挖掘隐藏在数据间的相互关系, 自动探测以前未发现的隐藏着的模式, 关联分析经常被表达为规则的形式。目前采用的主要关联规则挖掘算法有Apriori、FP-growth算法等。

结束语

Web挖掘与传统的数据挖掘相比有许多独特之处。首先, Web挖掘的对象是大量、异质、分布的Web文档。其次, Web在逻辑上是一个由文档节点和超链接构成的图, 因此Web挖掘所得到的模式可能是关于Web内容的, 也可能是关于Web结构的。此外, 由于Web数据本身是半结构化或无结构的, 且缺乏机器可理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据, 并利用关系表格等存储结构来发现知识, 因此有些数据挖掘技术并不适用于Web挖掘, 即使可用也需要建立在对Web数据进行预处理的基础之上。因此, 开发新的Web挖掘技术、对原有数据挖掘技术进行相应修改或改进已成为Web挖掘研究的重点内容。

摘要：Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。本文就Web挖掘技术的概念、分类、研究现状及其相关实现技术做了详细的阐述, 并在此基础上指出其发展方向和趋势。

关键词：Web内容挖掘,Web结构挖掘,Web使用记录挖掘,数据挖掘

参考文献

[1]Jaideep Srivastava, Robert Cooley, Mukund Desh-pande, Pang-Ning Tan.Web usage mining:discovery and application of usage patterns from web data.SIGKDD Explorations, 2000, 1 (2) :12-23

[2]韩家炜, 孟小峰.Web挖掘研究.计算机研究与发展.2001, 38 (4) :405-414

[3]Ellen Spertus.Mining structural information on the web.In:Proceedings of the6th International World Wide Web Conference, April1997

数据库防脚本注入WEB安全篇5

using System;

using System.Collections.Generic;

using System.Text;

namespace NZS.Common

{

public class Filter

{

///

/// 检测是否含有危险字符(防止Sql注入)

///

预检测的内容

/// 返回True或false

public static bool HasSqlKeywords(string contents)

{

bool ReturnValue = false;

if (contents.Length >0)

{

string LowerStr = contents.ToLower();

System.Text.RegularExpressions.Regex Rx = new System.Text.RegularExpressions.Regex(RxStr);

ReturnValue = Rx.IsMatch(LowerStr, 0);

}

return ReturnValue;

}

///

/// 过滤 Sql 语句字符串中的注入脚本

///

传入的字符串

/// 过滤后的字符串

public static string SqlFilter(string str)

{

str = str.Replace(“””, “‘’”);

//单引号替换成两个单引号

str = str.Replace(“‘”, “‘”);

//半角封号替换为全角封号，防止多语句执行

str = str.Replace(“;”, “;”);

//半角括号替换为全角括号

str = str.Replace(“(“, “(”);

str = str.Replace(“)”, “)”);

///////////////要用正则表达式替换，防止字母大小写得情况////////////////////

//去除执行存储过程的命令关键字

str = str.Replace(“Exec”, “”);

str = str.Replace(“Execute”, “”);

//去除系统存储过程或扩展存储过程关键字

str = str.Replace(“xp_”, “x p_”);

str = str.Replace(“sp_”, “s p_”);

//防止16进制注入

str = str.Replace(“0x”, “0 x”);

return str;

}

Web数据挖掘研究篇6

关键词:数据挖掘;web;网络访问

中图分类号:TP393.092文献标识码:A文章编号:1007-9599 (2010) 03-0047-02

Research on Data Mining to Improve Web User Network Access Speed

Sun Wenqian

(Hechi College Campus Network Center Fengshan,FengShan546300,China)

Abtract:The implication of Data Mining in improving the network access speed, is that the law of site's being accessed have been achieved by Data Mining in web log,which aimed to change the web site's organizational structure and services by extracting interesting patterns for log user to access to the site.

Keywords:Data Mining;Web;Acess to Network

一、绪言

随着Internet技术的发展和普及,网络在创造信息高速交换的同时,数据存储量也在不断膨胀,加上每个动态页面和应用系统都在频繁访问数据库,使得互联网络中web用户对数据的访问速度不断下降。解决这个问题的途径之一就是Web日志挖掘,即根据Web服务器记录的日志对用户访问网站的情况进行分析,使用数据挖掘技术抽取日志中感兴趣的模式,得到站点的被访问规律,从而改进网站的组织结构和服务,掘出有用的关联规则、序列模式、聚类分析等知识类型。Web访问挖掘通常可以分为数据预处理、挖掘算法的应用、模式分析及知识发现这3个阶段,本文主要讨论数据预处理、挖掘算法的应用两个阶段。

二、数据预处理

数据预处理的数据源是服务器的日志文件,因此首先要将日志文件转换成数据库文件,以获得可靠的精确数据。技术上,一般将预处理阶段划分为数据清洗、页面过滤、用户识别、会话构造、路径识别这5个步骤。其模型如图1所示。

随着Web技术的进一步发展,原有的模型已不能达到很好的预处理效果,改进的Web访问挖掘数据预处理模型通常在常规数据清洗后增加了初次引擎过滤,并在会话别之后进行了二次引擎过滤,其作用是为了过滤当今广泛使用的搜索引擎对Web的访问记录。经过会话识别的服务器日志文件已经被组织成一个会话集合,通过对该会话集合的再次分析,可以将其中的非正式用户会话过滤,其中主要是针对搜索引擎的过滤,该过程称为“二次引擎过滤”。过滤方法可以采用当前比较成熟的分类、聚类等数据挖掘算法。

三、挖掘算法的应用

通过分析日志文件,我们可以寻找到那些经常被用户访问的页面及他们之间的关联规则(即频繁访问页组)。网站资源可以是网页、数据、图片、声音和文档。设x1、x2、……xm;Y1、Y2、……Ym均为网站资源,X=>Y(sup,conf)表示资源集的关联规则,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,这条规则的含义是如果资源集X被访问,那么资源集Y也会被访问。规则的支持度为sup,置信度为conf,关联规则挖掘算法的目的就是要推导出所有达到一定支持度和置信度的规则。

在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:

1.指向一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;

2.在超文本系统中不存在环路;

3.在任何源节点和目标节点间最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图2所示:

在这里,有向图G=(N,E),其中N是节点的集合,E是边的集合。一个节点A(A∈N)和一个页面相对应,一条边是一个元组(A,B)∈E,和页面间的一个连接相对应;对于给定的连接(A,B)称A是源节点,B是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图2的页面C和E在拓扑结构中,显示关联度较低。如果,在Web日志中发现了C=>E这样的关联规则,则兴趣度是较高的。通过这样兴趣度高的关联规则,有利于网站结构的调整。

四、结束语

随着Internet的发展,网络资源更加丰富, 数据挖掘在提高web用户网络访问速度上的研究已经成为一项重要的研究课题。Web日志数据预处理是Web日志挖掘的一个重要前提和基础,高效正确的预处理方法直接影响着挖掘的成败;而成功应用挖掘算法则大大提高规则的利用率,可以很好的用于网络拓扑结构的改善。

参考文献:

[1]易芝,汪林林,王练.基于关联规则相关性分析的Web个性化推荐研究[J].重庆邮电大学学报:自然科学版,2007,19(2)

[2]纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报:自然科学版,2006,18(5)

[3]朱秋云.一种关联规则挖掘筛选算法设计[J].重庆工学院学报:自然科学版,2008,22(6)

作者简介

孙文乾(1966.11-),男,广西凤山人,研究方向:计算机网络技术

3 期更正

1、本刊2010年1月第96页文章《关于药用植物的药用成份分析》的作者:孙世琦应为:孙士琦

2、本刊2010年2月第83页《我国农村体育现状分析及对策——以山东省德州市8县为例》一文的标题作者为:冯喆

基于Web日志的数据挖掘研究篇7

1 数据挖掘

1.1 系统结构

数据挖掘是一门交叉性和理论性很强的学科, 是从数据源的海量数据信息里发现知识的系统工程, 整个系统主要包括用户界面、模式评估、数据挖掘引擎、数据库服务器、操作过程、数据源等组成, 其系统结构如图1所示。

其中数据挖掘引擎是最核心的部件, 用来执行相关的数据挖掘算法 (分类、聚类、相关分析等)。

1.2 数据挖掘过程

随着数据挖掘的潜力日益被发掘, 对于数据挖掘的相关研究越来越多, 数据挖掘技术在各个行业领域中被得到广泛的应用。当前, 数据挖掘的算法种类比较多, 但基本原理仍是相似的, 其算法的流程基本上差不多。其具体的工作流程如图2所示。

如图2所示, 数据挖掘的主要流程是: 从逻辑数据库中提取数据, 首先对其进行选择处理, 提取出被选择的数据, 然后对其进行预处理操作, 将处理后的数据进行转换, 利用数据挖掘技术对其进行处理, 抽取出合适的信息, 对其进行分析, 形成被同化的知识, 存放入知识库中。

2 Web 日志挖掘

2.1 挖掘理论

Web日志的挖掘主要是指对Web数据库中的数据进行提取, 从而得出使用者感兴趣的知识。当前的网络体系结构中的Web日志一般都存放在Web服务器的数据库日志文件里, Web日志主要是指用户访问Web页面时所进行的一系列的操作, 因此, 对于Web日志进行挖掘有其自身独有的特点。

(1) 操作对象关联性比较强

对于大部分数据挖掘所操作的对象, 彼此之间并没有结构上的关联, 对Web日志进行挖掘处理, 其操作的数据彼此之间关系比较紧密, 而这些关联信息之间还存在新的信息以供挖掘。

(2) 日志包含决策信息

在某个特定的时间段内对Web服务进行访问, 代表了某个用户群的特征, 这是一个共性的问题, 可以直接作为决策知识集, 能够从中找出相关用户的行为, 并对其进行操作上的预测。

(3) 数据量大

随着互联网规模的扩大, 对于日志文件来说, 可以说每时每刻都有新的数据信息补充进来。仅仅Google公布的数据显示, 每天其数据的索引量就超过了几百亿, 对于整个万维网来说, 其数据量更是一个无法估计的数字。

2.2 Web 日志挖掘过程

对于Web日志的挖掘, 与数据挖掘的过程略有所不同, 其原理是一致的。将Web日志的挖掘分为3部分, 分别是数据预处理、模式发现及模式识别。

由于Web日志的数据比较多, 一般都会存放在服务器的Web日志文件之中 , 这样对于日志信息的提取有了一个明确目标。经过数据预处理、模式发现和识别之后, 要将结果进行汇总, 并将以用户能够清晰地认知的形式展现出来, 从而可以与实际相结合, 需要注意的是, Web日志挖掘的最核心过程由专门的站点进行控制, 这样保证运行的效率。Web日志挖掘的过程如图3所示。

2.2.1 数据预处理

对于Web日志进行数据挖掘操作之所以比较困难, 其最主要原因是对于每一个网站系统来说, 其日志文件的存放格式都是不同的, 没有一个固定的结构模式, 由于每个系统所关注的焦点不同, 其记录的信息内容也存在着较大的差别, 因此, 无法对Web日志文件进行直接的挖掘处理操作, 需要进行数据的预处理, 对日志文件进行加工转换, 采用标准化的结构模式。

另外对Web日志文件, 其内部的数据信息可能存在着大量的冗余, 还有许多不相关的记录存在, 对这些数据进行删除处理, 可以有效地减少数据在处理时的时间, 从而提高数据挖掘的效率。

2.2.2 模式发现

对数据进行预处理之后, 系统就会以某种数据挖掘算法进行模式发现, 从而让用户需要的数据显示出来。当前最流行的模式发现是对用户的浏览方式的发现。不同类型的浏览方式会有不同的特征。对浏览特征的描述主要有有序性、连续性、重复性和极大性。对于Web日志挖掘的模式发现采用的主要方法主要有关联规则、序列模式发现及路径分析法等。

2.2.3 模式识别

模式的识别概括起来主要有对Web日志模式改进从而提高访问效率、发现导航模式、对用记进行建模等。

3 Web 日志挖掘算法

数据挖掘算法的种类比较多, 在本文根据Web日志的特点, 采用ID3决策树算法对其进行操作。

3.1 ID3 决策树算法

当前, 决策树算法已经在很多领域得到应用, 自从ID3决策树算法产生以后, 其应用的范围得到了进一步的扩大。对于决策树来说, 它的结构是树形结构, 每个结点作为一个类充当树的一个叶子。

当前ID3决策树的主要优点是分类的精确度高、噪声小、模式简单。其目标是通过数据中包含的某种规则, 以决策树的形式进行查找, 从而实现知识的发现。该算法的过程首先是生成决策树, 其次修订决策树, 直至得出最优的结果为止。

ID3决策树算法结束的条件是: 对所包含的样本数据都一一进行操作、对样本的操作其属性都无法再进行划分、或者子集中无样本。

3.2 ID3 算法实现

利用ID3决策树算法进行Web日志的分析处理, 是一个比较不错的选择。整个系统的实现相对比较庞大, 在此给出其核心代码。

4 结语

对Web日志的数据挖掘进行了详细的研究分析, 当前的互联网中包含了海量的Web日志数据信息, 从中提取有用的知识对于网络使用者来说是迫切的要求。利用数据挖掘技术对其进行了分析。

摘要：针对当前Web日志数据信息越来越多的问题,传统的数据库管理系统无法对其进行有效的操作分析。采用数据挖掘技术对其进行研究,从数据挖掘的系统结构和数据挖掘的过程两个方面对数据挖掘进行描述;对Web日志挖掘的理论和过程进行了详细的分析;给出ID3算法的描述,并给出了部分核心的代码。

基于Web的数据挖掘技术研究篇8

数据挖掘指从随机又模糊的庞大数据里,把那些潜在但很实用的信息、趋势或模式提取出来。

被视为新兴领域的Web挖掘,实质是数据挖掘的升级版。Web信息有着极为特殊之处,这样在数据挖掘上必须添加匹配的新特性。这些特性包含:1在挖掘对象上,Web挖掘的数据源全部是异构的;2 Web文档是机器理解不到或者没有结构、半结构的语义。

2Web挖掘特性

2.1缺乏智能化理解

Web中的数据的格式几乎都是HTML,与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此,必须有非常强大的一个搜索引擎,通过对关键字查找,实现对超文本位置的定位。数据格式不尽相同,必须有一个智能化的系统对自然语言陈述的数据作理解。然而,当下自然语言理解的有关技术还不成熟,所以很难对所有数据都理解到位。另外,数据源冗余或极为矛盾等问题也对此产生影响。

2.2数据源过于庞大

Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上,Web数据已经达到用几百兆字节来表示的地步,并朝着更大单位来表示的趋势发展,有两点特别明显:

(1)动态性强。因特网时时刻刻都在变化、更新中,于是需要借用某些数据仓库技术,才能保留Web上已更新过的数据。

(2)多样性。过滤后的Web数据包含4种:1以实型、整型为实例的数值型;2布尔型;3描述数据及分类数据;4邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征,原先的挖掘方式行不通,必须对原有方式作扩充、改进。

2.3用户目标极为模糊

在基于因特网下作数据挖掘,用户往往对挖掘主题认识很粗浅,说不出特别准确的目标。因此,数据挖掘系统必须具备学习机制及智能化特征,对用户的兴趣不断跟踪,才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找,由此表明Web挖掘极具挑战性。

3Web挖掘分类

3.1基于内容的 Web挖掘

指在Web文件内容、描述信息中,取得潜在但实用的知识、模式的过程,分为文本挖掘、多媒体挖掘。

(1)文本挖掘。特指对文本文档的挖掘。在Web庞大文档里,可对内容作出分类别、总结、关联性分析及趋势分析等。

(2)多媒体挖掘。指对多媒体文档的挖掘,即对Web上图像、音视频预处理,利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时,对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。

3.2基于结构的 Web挖掘

在结构上,Web包括超链接结构、树形结构及目录路径结构等[2]。这样,在结构上,可用有向图对Web进行表示,有向图中点对应的是页面,有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径,也就是用较小代价获取最多文档。

(1)HITS算法。对一给定的话题进行搜索,往往不只期望获取相关联的Web页,还期望被检索出的页面质量高且具权威性。而Web不只包含页面,还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面,接着又让该页面向另一页面指向,就可认为作者对另一页面持认可态度。同一页面,收集源自不同作者的不同注解,便能反映此页面的重要性,而且可非常自然地用作权威页面。可是在链接结构上,Web有一定的局限:1并非每个超链接都认可此寻找;2商业竞争中,不可能有Web页面与自家竞争的页面指向;3难有权威页面具备特别性描述。鉴于以上情形,研究者不得不提出另一种Web页面(俗名Hub页面)。一个Hub页面可代替一个或多个Web页面,提供的是集合性链接。同时,任何话题,Hub页面都向着最显眼的链接指向。

(2)PageRank算法。Web超链接有下列几种假设:1网页A的作者向网页B推荐;2网页A、B在主题相同时,超链接便把两个网页连接;3基于前两种,某页面数次被引用,说明此页面也许特别重要;4某页面虽然未被数次引用,但却被某重要页面引用,说明它也很重要。此算法便是针对上述4种情形做的专门研发。

3.3基于访问的 Web挖掘

网页点击数、浏览量、独立IP等是显示网站访问情形的核心指标[3]。可细致分析网站关联的LOG文件,取得关系访问情形的详尽数据,这种挖掘归属于静态访问,这对完善网站极为有益。譬如:对访问者来源细致分析,可使网站内容更有针对性;对在不同时段访问者人数的细致分析,可依据时段来更新,这种Web挖掘利用极为广泛。不只是静态研究,动态访问研究也很热门。

4Web挖掘研究方向

4.1搜索引擎挖掘

当下的搜索引擎几乎全是基于关键字,搜出的文档数量极大,高质量的内容却极少。加上某些文档跟话题是关联的,但关键词找不出来,这就使得搜索结果不全面。针对这种情形,某些专家提出用概念层或多义字的办法对文档进行搜索。

4.2日志挖掘

对日志文件(Web服务器)细致分析,会发现用户访问网站所用的浏览模式,这对有效改进网站提供了信息。信息包含:对系统设计作改进、对导航功能作改善等。日志挖掘有3个阶段:1预处理数据;2挖掘数据;3分析模式。由于存在代理服务器及防火墙,使得日志数据难以准确,所以在第一阶段便必须做用户识别、数据净化、路径补充、会话识别工作。挖掘阶段指依据语义,将用户的会话作分割,形成一项项事务,利用挖掘算法,对识别结果作出规则、模式。

4.3XML结合 Web挖掘

4.3.1XML简述

XML由万维网协会设计,是特别为Web应用服务做的一个分支[4]。XML是一种典型的中介标识语言,它为结构化资料提供对应的格式。

半结构化是Web数据所有特征中最显著的一点,因为只有把半结构化对应的抽取技术作为前提,才能面向Web做需求的数据挖掘。新生代的www环境把XML作为基础,它可直接面向Web数据。一方面兼容已有的Web应用,另一方面对Web中的信息更好地交换、共享。XML可看作是半结构化下的数据模型,所以它能把属性(关系数据库)与文档描述一一对应,实施模型抽取、精确查询。

4.3.2XML应用

XML已经成为正式规范[5]。开发时,XML格式可当作数据标记。在三层架构情况下,用XML对数据处理是最好的方法。运用XML,设计员不仅能对文字、图形进行创建,还可对数据树、超链接结构、样式表、元数据等进行构建。

Web数据挖掘是非常复杂的一项技术,因XML的出现,使Web挖掘中遇到的问题迎刃而解。因为XML可以让来源不同的结构化数据轻松地结合在一起,让不兼容的多样数据库搜索变成可能。由于XML具备灵活性、可扩展性,因此对不同类型应用软件中的数据XML都能描述,从而对Web中的各种数据记录也能描述;再加上XML下的数据全为自我描述,所以即使在内部描述数据完全缺乏时,处理、交换一样可实现。

4.4未来趋势

基于Web的数据挖掘方法研究篇9

Web是一个巨大,分布广泛,全球性的信息服务中心,随着每天大约发布43亿在线文档和2000万新的Web网页,使得Web的信息量以惊人的速度增加。数据丰富但知识贫乏的现象更加突出,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具,由此产生了Web挖掘。

Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的和非平凡的模式。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。如图1所示。

现在的大部分网页用HTML编写,HTML只是从文档显示的方式这一角度来描述文件的标准,XML(Extensible Markup Language,可扩展标记语言)是一个扩展的标准,它可以让使用者通过约定的标记来表达语义上的信息,以其巨大的通用性和灵活性逐渐成为了关注的焦点,为Web挖掘提供更多的结构化和语义信息。

1 Web数据挖掘分类及各自的研究及发展现状

1.1 Web内容挖掘(Web Content Mining)

Web内容挖掘(WCM)指从Web内容/数据/文档中发现有用信息,其中针对元结构化文本进行的Web挖掘归类到基于文本的知识发现(KDT)领域,也称文本数据挖掘或文本挖掘(包括txt,HTML等),而在Web多媒体数据挖掘(包括Image,audio,video等媒体类型)方面的研究成为另一个热点。

1.1.1 Web文本挖掘(TM,Text Mining)

Web文本挖掘就是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程,Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似之处,但是Web文档中的标记给文档提供了额外的信息,可以借此提高Web文本挖掘的性能[1]。无论文本挖掘的目的是什么,都可以把文本挖掘的一般处理过程如下:

(1)文本的预处理。Internet上的大部分网页是HTML文档或XML文档,文本的预处理首先要做的是,利用网页信息抽取模块将网页的内容去掉,跟文本无关的标记转换化成统一格式的TXT文本,存放在文件夹中以备后续处理。

(2)文本的表示。对从文本中抽取出的元数据(特征项)进行量化,以结构化形式描述文档信息,这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫目标表示[1]。

(3)特征集约减。为了提高程序效率,提高运行速度要进行特征集约减,数万维的特征对文本分类的意义是不同的,一些通用的,各个类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。进行特征集约减还可以防止过拟合(Over fit)对每一类去除分类贡献小的特征,筛选出针对反映该类的特征集合。

(4)数据挖掘及评价。在完成文本特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,分析改进后进行新一轮的挖掘工作。

1.1.2 关于XML文档的挖掘研究

XML是由W3C(World Wide Web Consortium)定义的一个新的标记语言,其TAG具有语义由用户定义,能够反映一定的数据的定义,XML的文件描述的语义非常清晰,很容易与关系数据库中的属性一一对应,并且能够支持十分精确的查询,XML以其巨大的通用性和灵活性逐渐成为了企业所关注的焦点,也为基于Web的信息交换带来了新的希望。

(1)XML文档结构相似测度。传统的信息检索技术也可以应用于XML文档,但是这种基于向量空间模型的检索技术并不能反映XML文档中节点嵌套结构的语义信息。因此在搜索异构的XML数据时,还应该研究基于XML的近似搜索技术。

(2)PMML预言模型标记语言。数据挖掘建模语言是对数据挖掘模型进行描述和定义的语言,PMML正是这样一种数据挖掘建模语言,利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。

(3)其他。除此之外,基于XML的多Agent系统及基于XML的次协调推理[2]等方面的研究为Web挖掘提供了更为光明的前景。

1.1.3 爬虫与Web内容挖掘

爬虫(Crawler)是一个用来分解Web中超文本结构的工具。爬虫开始访问的这页(或者组页)被称作种子URL。从一个网页开始的,通过查询和记录这个网页的所有链接并把它们排列起来,然后再从找到的新页面继续开始重复工作,这种工作可以收集到每个页面的信息,最后为搜索引擎提供广泛的数据来源。爬虫分定期爬虫,增量式爬虫及兴趣爬虫。

定期爬虫访问一定数量的页面后停止搜索,增量式爬虫是一种最近研究的新技术,它不是完全重建索引,而是在旧索引的基础上仅仅增加一些新索引。兴趣爬虫仅访问与主题相关的页面,一旦发现一个页面与主题无关或者一个链接不必被继续跟踪,则很多从这个页面开始的其他链接就不再被访问了。

1.1.4 搜索引擎(Search Engine)

搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。

按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

(1)目录式搜索引擎:以人工方式或半自动方式搜集信息,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

(2)机器人搜索引擎:由一个机器人(或爬虫)程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

(3)元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。

1.2 Web结构挖掘(Web Structure Mining)

Web结构挖掘从www的组织结构和链接关系中推导知识,也可以看作是为Web(或其中一部分)的组织建立一个模型,模型可以用来对网页分类或者为网页建立相似度度量[8]。

挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导网页采集工作,提高采集效率。Web结构挖掘分为Web文档内部结构挖掘和文档间的超链结构挖掘。

(1)Web结构。Web站点的结构可以分为三类:第一类是文档信息,诸如文档类型,大小,上次访问时间,URL地址,页面标题,关键字等。第二类是文档间信息,包括链接的起始文档,终止文档,第三类信息是文档内信息,诸如form,image,table,frame等等。

Web结构挖掘不仅仅局限于文档之间的超链结构,还包括文档内部的结构、文档URL中的目录路径的结构等。由于文档之间的互联,WWW能够提供文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面[5]。

(2)页面等级。设计页面等级技术可以提高搜索机制的效率和提高它们的有效性。Google的成功示范了这个方法的有效性。页面的页面等级值是通过指向这个页面的链接数量来计算的,即通过指向向后链接数来计算的。向后链接是指向这个页面的链接减去它指向外面的链接。计算量不是简单地向后链接的数量加和,而是要考虑向后链接的页面的重要性。页面等级技术不同与其他检查链接的方法。它并不计算相同的链接数量,是规范化的网页链接数目的值。

(3)权威页面和中心页面。Web在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中的边。通过把Web表示为有向图,可以得到从一个站点的主页到它的任意一个顶点的最短路径,文档超链也体现了Web页面之间的某种关系[5]。

1.3 Web使用挖掘(Web Usage Mining)

Web使用挖掘,在新兴的电子商务领域中有重要意义。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。

1.3.1 Web使用挖掘分类

根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web使用挖掘分为五类:

(1)个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。它常常用在电子商务系统中,进行自动推荐。

(2)系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web使用挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。

(3)站点修改:站点的结构和内容是吸引用户的关键。Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面应能够直接访问等。

(4)智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web使用挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。

(5)Web特征描述:这类研究关注的是用户对站点的访问情况,从而统计各个用户在页面上的交互情况,最后对用户访问情况进行特征描述。

1.3.2 Web使用挖掘步骤

Web使用挖掘过程分三个步骤来进行:数据获取与预处理,模式发现和模式分析。

(1)数据获取与预处理。Web使用挖掘的数据来源于Web服务器与用户的交互过程中,这些必要的数据分布于服务器端,客户端和代理服务器端。数据获取就是从服务器日志,引用日志,代理服务器日志和客户端收集到这些数据,数据的收集机制与技术对于数据源的完整性来说是至关重要的。

(2)模式发现。Web使用挖掘的目的就是要从大量的Web信息中挖掘出隐藏的,有价值的,对不同的用户来说有“兴趣”的信息。因此,针对不同的用户,根据预处理之后的数据特征设计出能发现有“兴趣”规则的Web使用挖掘算法,对于Web使用挖掘来说是其最基本的任务。

(3)模式分析。模式分析是Web使用挖掘的最后阶段。这个阶段的目的是从模式发现过程中输出中去除不相关的规则或模式及抽取有兴趣的规则或模式。目前常用的模式分析方法和工具包括可视化,OLAP和类SQL查询机制等。

2 总结与展望

在Web上的数据具有数量庞大,无序性强,重复性大的特点。现在的许多Web站点上的信息很多用HTML来描述,因而只能在浏览器中提供数据的显示方式,要想真正做到准确高效的挖掘数据非常困难。XML是由W3C定义的一个新的标记语言,其TAG具有语义由用户定义,能够反映一定的数据的定义,XML的文件描述的语义非常清晰,很容易与关系数据库中的属性一一对应,并且能够支持十分精确的查询,由此可见XML能为Web数据挖掘带来新的解决方法,网页正从HTML向XML转变,这样一来,可被利用的结构化元数据将大大增加,基于Web的数据挖掘也将随之进一步发展[4]。

Web挖掘是一个较新的研究领域,还有许多问题有待于进一步的研究和深化。首先,在数据的预处理方面,开发更好的数据收集机制和技术是非常必要的。此外,多种信息的智能集成也值得进一步的研究。在挖掘处理方面,已有的挖掘方法的性能有待于进一步的改进。未来随着XML的兴起,Web页面会蕴涵更多的结构化和语义信息,这会使Web挖掘工作变得更为有效,也更为容易。XML文档挖掘的相关研究,用于识别权威页面的Web链接结构挖掘以及Web Log挖掘仍然会是Web挖掘的主题。

摘要：Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。本文介绍了Web挖掘相关原理和目前的研究现状以及正在Web流行的挖掘工具——爬虫工具及搜索引擎技术等。

关键词：Web挖掘,Web内容挖掘,Web结构挖掘,Web使用挖掘

参考文献

[1]薛为民,陆玉昌.文本挖掘的研究.北京联合大学学报,2005,第4期.

[2]朱福喜,龚昌盛,余振坤.基于XML的次协调推理.2006,第52卷,第1期.

[3]闫利国,贺飞.XML文档结构相似测度研究.计算机应用,2006,第3期.

[4]A′lvaro R。Pereira Jr.Applications of an Web Information Mining Model to Data Mining and Information Retrieval Tasks.IEEE2005.

Web数据挖掘研究篇10

关键词：信息,数据挖掘,情报技术

1 引言

随着计算机技术的发展, 计算机已经融入了现代社会的点点滴滴。计算机在社会领域的广泛深入应用, 数量日益增长的各种数据成为当今数字化社会的宝贵资源, 同时又对数据的处理与共享提出了一个极具挑战性的问题。

今天, WWW已成为了网络信息的基础平台, 它不但存放了大量的企业、政府机关的数据, 而且成为了个人信息系统 (Personal Information Sustem) 的平台, 这些都促使WWW中的数据量呈爆炸性增长, 面对大量的GB级、TB级甚至更多的数据, 如何有效地提取其中蕴含的有价值的知识和信息就变得具有重要意义。在这样的背景下, 产生了Web数据挖掘技术。利用Web数据挖掘技术可以从Web数据中发现用户感兴趣的信息。跟踪、分析用户的访问模式, 帮助用户更有效的浏览广阔的WWW。

目前, Web数据挖掘技术成了Web信息发现研究方面一个重要的课题, 是一个新兴的具有广泛应用前景的研究领域。它可以广泛的应用在搜索引擎、智能查询、个人网络助理等网络信息发现领域, 还可以帮助网站的管理员更好的管理自己的网站, 帮助用户更有效地浏览Web。Web数据挖掘被视为一项回报率极高的重要应用技术。学术界和产业界对其高度重视, 世界各国都投入了大量的人力物力进行研究、开发, 目前已取得了一定的进展, 其研究和应用前途不可限量。

2 从数据挖掘到Web挖掘

2.1 数据挖掘概述

数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在信息爆炸的当今时代, 信息过量几乎成为人人需要面对的问题。数据挖掘和知识发现是处理此类问题的有效手段。数据挖掘技术从一开始就是面向应用的, 其应用范围涉及社会的所有领域, 在商业上的应用尤其受到重视。典型的应用有:通过分析超市交易数据, 安排货架上的货物摆放及开展促销计划以提高销售;税务局分析不同团体交所得税的记录, 发现异常模型和趋势;信用卡共识分析信用卡历史数据, 进行风险判断等。在保险公司、汽车公司、人才中心、广告公司、统计局等部门, 数据挖掘都可以发挥重要的作用。因为其广泛的应用价值, 数据挖掘学科领域汇聚了不同领域的研究者, 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的大量学者和工程技术人员, 使得它在短短几年内, 就在理论上取得了重大进展。到目前为止, 针对不同的应用需求, 已研究出大量的算法、应用工具及相应的评价体系。数据挖掘技术已经进入了空前的发展阶段。

不同的应用背景所面对的挖掘任务不同, 采取的挖掘方法也有所不同。近年来, 不同领域研究者研究出的大量的算法, 从理论上保证了应用的实施。数据挖掘根据挖掘任务不同, 可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。挖掘方法一般可分为:机器学习方法、统计方法、神经网络方法和数据库方法等。机器学习方法包括归纳学习方法 (决策树、规则归纳等) 、基于范例学习、遗传算法等。统计方法中有:回归分析 (多元回归、自回归等) 、判别分析 (贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析 (系统聚类、动态聚类等) 、探索性分析 (主元分析法、相关分析法等) 等。神经网络方法又可细分为:前向神经网络 (BP算法等) 、自组织神经网络 (自组织特征映射、竞争学习等) 等。数据库方法主要是多维数据分析或OLAP方法, 另外还有面向属性的归纳方法等。

2.2 Web挖掘

Internet目前是一个巨大的、分布广泛的和全球性的信息服务中心, 它涉及新闻、广告、金融、教育、政府、电子商务和许多其他信息服务。Web还包括了丰富和动态超链接信息, 以及Web页面的访问和使用信息。面对Web丰富的内容, 巨大的数据量, 加之由于万维网分布、动态、海量、异质、复杂、开放性的特点, 人们如何从这海量的数据中, 查找自己想要的数据和有用信息, 迫切需要一种新的技术能自动的从Web上发现、抽取和过滤信息。因此出现了Web挖掘技术。

Web挖掘是一项综合技术, 涉及Web数据、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发, 对网络信息的含义有着不同的理解, 项目开发也各有其侧重点。例如, 国外有人认为:Web挖掘机是利用数据挖掘技术, 自动地从网络文档以及服务中发现和抽取信息的过程。国内说法也很多, 有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发。也有学者站在信息服务的角度上提出“Web挖掘”, 指出其有别于传统的信息检索, 能够在异构数据组成的分布式信息库中, 从概念及相关因素的延伸比较上找出用户需要的深层次的信息, 并提出Web挖掘将改变传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。Web数据挖掘是以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来的新型技术。

可以一般地将Web挖掘定义为:Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入, 将P看作输出, 那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→P。Web挖掘从数据挖掘发展而来, 因此其定义与我们熟知的数据挖掘定义相类似。但是, Web挖掘与传统的数据挖掘相比有许多独特之处。首先, Web挖掘的对象是大量、异质、分布的Web文档。我们认为, 以Web作为中间件对数据库进行挖掘, 以及对Web服务器上的日志、用户信息等数据所开展的挖掘工作, 仍属于传统的数据挖掘的范畴。其次, Web在逻辑上是一个由文档节点和超链接构成的图, 因此Web挖掘所得到的模式可能是关于Web内容的, 也可能是关于Web结构的。此外, 由于Web文档本身是半结构化或无结构的, 且缺乏机器可理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据, 并利用关系表格等存储结构来发现知识, 因此有些数据挖掘技术并不适用于Web挖掘, 即使可用也需要建立在对Web文档进行预处理的基础之上。这样, 开发新的Web挖掘技术, 以及对Web文档进行预处理以得到关于文档的特征表示, 便成为Web挖掘研究的重点。

Web挖掘可在多方面发挥作用, 如改进和提高搜索引擎的质量和效率、确定权威页面、Web文档分类、Web Log挖掘、智能查询、建立Meta-Web数据仓库等。WWW是一个巨大、分布广泛、全球性的信息服务中心, 涉及教育、新闻、广告、娱乐、金融、保险等信息服务, 内统计及其丰富。对Web进行有效的信息抽取和知识发现具有极大的挑战性, 会面临很多具体问题, 主要有:对感兴趣的信息仅限于利用各种搜索引擎进行查找, 但是搜索效果很差;Web页面结构复杂;Web 信息丰富, 难以搜索;Web 数据增长过快, 很难集成数据;如何实现个性化服务;信息利用率低。

这些问题推动了如何有效且高效地发现和充分利用Internet 上的资源的研究工作。万维网的分布、动态、海亮、异质、变化、开放性的特点, 网页内容的半结构化特征决定了Web 挖掘比传统的KDD和以关键字搜索为主的信息检索问题更为复杂和困难, 很多问题甚至是 NP- hard问题。解决Web挖掘问题需要有新的数据模型、体系结构和算法等, 在理论山上、方法上要有新的突破, 要求有更高级的Web信息处理技术。Web数据有三种类型:Web内容数据, 如HTML或XML标记的Web文档;Web结构数据, 如Web文档内的超链接;用户访问数据, 如服务器log日志信息。相应地, Web挖掘也分成三类:Web内容挖掘 (Web content mining) 、Web结构挖掘 (Web structure mining) 和Web日志挖掘 (Web log mining) , 如图1所示。

3 Web内容挖掘

Web内容挖掘是从Web页面内容及其描述信息中获取潜在的, 有价值的知识或模式的过程。主要的方法有IR (information retribe) 方法和数据库方法。Web内容挖掘主要是针对各种非结构化的数据, 如文本数据、音频数据、视频数据以及图形图像数据等各种数据相融合的多媒体数据。Web内容挖掘又可分为基于文本信息的挖掘和基于多媒体信息的挖掘两种数据挖掘方式:

(1) 基于文本信息的挖掘。

Web内容挖掘多为这种方式的挖掘, 它和文本挖掘功能及方法比较类似。因此, 文本挖掘的方法也可用于Web文本的挖掘。Web文档多为HTML、XML等语言, 故可用Web 文档中的标记, 如

(2) 基于多媒体信息的挖掘。

随着网络带宽的不断加大, 多媒体信息在网上迅速增加, 这对基于多媒体信息的挖掘提出了要求。基于多媒体信息的挖掘主要是指基于音频的挖掘、基于图片的静态图像挖掘和基于视频的动态图像的挖掘。

4 Web日志挖掘

Web日志挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式, 主要的方法有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络的交互过程中抽取出来的第二手数据。正如我们所知道的那样, 因特网上的用户一旦连接到一个服务器上, 就会在这个服务器上留下一个“脚印”, 这就是服务器上的日志文件, 它包括所请求的URL、发出请求的IP地址和时间戳, 这些日志记录提供了有关Web用户访问的丰富信息。因此, 可以通过对用户留正气这些日志文件进行挖掘, 提取有关用户访问的知识。对用户的访问行为、频度、内容等进行分析得到关于用户的行为和方式的模式, 从而改进站点的结构或为用户提供个性化服备用关这方面的研究方向有:一般的访问模式追踪, 它通过分析使用记录来了解用户的访问模式和倾向, 从而改进站点的组织结构;个性化的访问模式追踪, 它倾向于分析单个用户的偏好, 其目的的是根据不同用户的访问模式来为每个用户提供个性化的页面, 开展有针对性的服务以满足用户的需求。

5 结束语

Web数据挖掘是一个新兴的且具有巨大发展前景的研究领域, 经过众多研究者的努力, 已取得了一些进展。文中对Web数据挖掘中的一个方向——Web日志挖掘的方法进行了一些研究。Web日志挖掘可分为三个步骤:数据预处理、模式发现和模式分析。数据预处理是数据挖掘的前期工作, 这点与我们通常的数据仓库的数据挖掘预处理有些不同。日志挖掘最后还要进行用户的划分及最终会话的识别工作, 目的是将用户的访问序列划分成每个用户一次访问的序列的形式, 以便于不同的模式挖掘算法进行挖掘。

参考文献

[1]中国搜索[EB/OL].http://www.zhongsou.com, 2006.

[2]陈晓金.管理信息系统[M].兰州:兰州大学出版社.2005.

[3]GNU wget[EB/OL].http://www.gnu.org/soft-ware/wget.2006.

[4]Uschold, Mike and Michael Gruninger.Ontologiesprinciples, Methods and Applications.KnowledgeEngineering Review, 1996, 11 (2) .

基于Web的数据库检索系统研究篇11

摘要根据用户的需求和本馆的特色,自建了许多各具特色的数据库,并通过WEB页面动态交互或静态的提供给读者,采取统一友好的检索界面不失为方便读者有效利用信息资源的一种重要服务手段。

关键词Web;数据检索;数据库

中图分类号TP3文献标识码A文章编号1673-9671-(2009)112-0026-01

1信息检索工作原理

信息检索过程:包括存贮和检索两个过程。存贮过程就是按照主题词表或分类表及使用原则对原始信息进行处理,形成信息标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。检索过程则是按照同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据存贮所提供的检索途径,从信息集合中查得与检索提问标识相符的信息特征标识的过程。

信息检索的实质:检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含检索提问标识,则具有该标识的信息就从检索工具中输出,输出的信息就是检索命中的信息。

信息检索系统的基本要素:(1)检索文档。即文献检索标识的有机集合。如手工检索系统中书目、索引和文摘中由文献款目组成的正文、工具书由条目或短文组成的主体。计算机系统中以一定形式存储的书目信息或事实、数据等。(2)技术设备。能存储信息及其标识,并实现存储和检索操作的各种技术设备,如手工检索系统的卡片目录或检索刊物,计算机检索系统的装入设备、运算器、存储器、控制器、输出设备等,联机时还需要调制解调器、通信线路、通信装置、终端设备及其相应的软件等。(3)作用于系统的人。文献加工者、用户、系统维护人员、管理人员。(4)检索工具。检索语言、文献标引规则、输入输出标准等如图1。

2检索系统的设计步骤

2.1选择检索系统和数据库

根据课题分析结果、信息需求的要求,选择适当的数据库。不同的数据库学科范围不同,检索指令不同,收费标准也不同。所以在检索之前要阅读有关数据库的使用介绍,在做联机检索时,还可通过总索引文档了解与检索课题有关的每一个文档中的文献篇数,选择文献量大的一个或几个文档作为检索文档。

数据库选择原则:(1)按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据库。(2)当需要查找最新文献信息时,选择数据更新周期短的数据库。(3)当需要获取原文时,选取原文获取较容易和数据库。(4)要选好数据库,就要弄清所选数据库的标引特征、不同检索特点等。

2.2确定检索词和检索途径

检索词是构成检索式的基本单元,是文献记录中的文献特征标识,可以是反映文献内容特征的主题词、自由词,也可以是反映文献外表特征的作者、篇名等。检索词的选择要满足匹配的要求,即形式的匹配和内容的匹配。

形式匹配。是指用户检索使用的语言应和检索系统中使用的语言一致,才能被系统“识别”。内容匹配。是指所确定的检索词要能准确、完整地表达检索课题的主题内容。

检索词选择的质量直接影响到检索效果,一定要参考有关检索工具的使用手册和指南,查阅大型数据库的专用词表以及专业词典。

2.3制定检索策略

检索策略,又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序作出的某种安排。

检索式是检索策略的具体表述,是通过逻辑算符、位置算符、截词算符等把表达主题要领的各检索单元组配连接起来的命令形式,它既能表达主题内容,又能被机器识别和执行,是决定检索策略质量和检索效果的重要因素。

3数据库检索举例

创建数据库链接(Connection)。通过服务器对象的CreateObject方法,可以创建Connection对象和使用变量接受对象引用。一旦连接对象创建之后,它就可用来打开到任何ODBC数据源的连接。

/加载驱动程序

//下面的代码为加载JDBD-ODBC驱动程序

Class.forName("sun.jdbc.odbc.JdbcOdbcDriver");

//建立连接

//第二步是用适当的驱动程序连接到DBMS,看下面的代码:

String url="jdbc:odbc:test";

//"test"是系统DNS名,ODBC里面设置的

Connection sqlCon=DriverManager.getConnection(url, "sa", "");

//"sa",""是SQL server的用户名和密码

//创建一个JDBC声明

Statement st = "select * from jspdemo";

//执行该存储过程并返回结果集

Rs = st.executeQuery();

Rs.next();

//把指针指向第一条记录

//获取来自结果集中的数据1,2各表示第一和第二列记录的数据

out.println(Rs.getString(1));

out.println(Rs.getString(2));

}

catch (Exception e) {}

//输出确认信息

out.println("数据库访问成功!");

以下是一个全文索引的数据库检索部分代码:

Set doc = sess.DocumentContext

下列循环从数组ArrNsf中取得欲检索的数据库进行处理:

For nsfCount=0 To Ubound( ArrNsf )

SearchDB=ArrNsf(nsfCount)

Set db = sess.GetDatabase("",SearchDB)

出现错误则转向:

On Error Goto BadQuery

获得满足查询条件的记录集:

Set collection = db.FTSearch(doc.Query(0),0)

On Error Goto 0

输出数据库标题:输出该数据库中满足条件的记录个数:

There are " & Str$(collection.Count) & " matching

documents

参考文献

[1]白毅.JSP访问WEB数据库[J].厦门科技,2005,3.

Web数据挖掘研究篇12

目前, 电子商务已经相当普遍, 而且具有更加深入、广泛的发展前景。与此同时, 竞争也日趋激烈, 如何留住老客户并不断吸引新客户是每个电子商务网站所面临的挑战, 而取胜的关键就是发现客户的兴趣访问模式并在此基础上提供个性化服务, 利用Web使用记录挖掘可以实现该目标。Web使用记录挖掘通过对Web日志记录的挖掘, 发现用户访问Web页面的模式, 其主要目标是从Web的访问记录中抽取感兴趣的模式[1]。

早期的Web使用记录挖掘主要是利用用户访问Web时在Web日志里留下的信息来获取用户浏览路径, 这种方法比较适合静态页面, 不能很好地适用于当前的互联网动态应用, 而且, 这种方法主要集中在对用户浏览路径上的分析, 挖掘出来的访问模式没有充分考虑Web页面的内容和用户的自身特性, 很难体现用户的兴趣访问模式以及兴趣访问模式与用户自身特性之间的内在联系。文献[2]对动态网页环境下的Web使用记录挖掘进行了研究, 提出了一种在动态网页环境下进行数据采集的方法, 使用新的数据集代替Web日志作为待挖掘的数据。文献[2]可以有效地提高待挖掘数据的质量并解决了早期Web使用记录挖掘方法中的一些难点, 如用户识别等, 对于注册并登录的用户的访问行为可以实施有效地跟踪, 但是, 由于并不是所有的用户都愿意注册, 且每一次访问时都愿意登录, 因此, 这种解决方法存在一定的不足。本文提出了将传统的基于Web日志的Web使用记录挖掘与文献[2]中的Web使用记录挖掘相结合的新方案, 实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

1. 传统的Web使用记录挖掘

传统的Web使用记录挖掘的实现过程主要分三步:数据预处理, 模式发现和模式评估。

1.1 数据预处理

在传统的Web使用记录挖掘中, 挖掘所使用的数据集是用户访问日志, 分别存在于服务器、代理服务器和客户端。不同地方的访问日志数据集体现了用户使用网络资源的不同模式, Web服务器的日志体现了"多个用户/单个站点"的访问模式, 代理服务器日志体现了"多个用户/多个网站"的访问模式, 客户端浏览器日志体现了"单个用户/多个网站"的访问模式。数据预处理就是要把这些日志进行收集、清洗、处理, 形成多个用户一次次对同一服务器的会话, 主要涉及用户识别、会话识别、网页浏览识别和用户访问服务器会话期间网页浏览序列推断。

用户识别:要准确识别出每个用户是很困难的, 这主要是因为用户访问和服务器资源不是一对一的关系, Web服务器的日志可能记载了一个用户在多个客户端提交请求的情况, 也可能是多个用户在一个客户端提交请求的情况。另外, 缓存、防火墙和代理服务器等的存在也导致用户识别很困难。文献[3]总结了常用的确定用户及其行为的方法及其优缺点。

会话识别:由于Web服务器是并发处理多个用户的请求, 要想识别出所有用户访问会话期间也是比较难的, 一般是基于对用户浏览行为的假定。研究人员基于"用户访问过程中只有在改变访问主题时, 才会访问前面访问过的页面以跳转到另外的页面"提出了最大前向参引模型 (Maximal Forward Reference Model) , 基于"用户一次访问的时间都不会超过一个最大的限制, 即时间窗口 (Time Window) "提出了时间窗口模型 (Time WindowModel) 。文献[3]提出了把时间窗口模型和最大参引模型结合起来的方法。

网页浏览识别:指一个网页浏览包括哪些网页文件请求, 以及共同构成什么样的内容。用户操作请求所得到的内容通常可以由服务器日志中请求字段的内容获得。

网页浏览序列推断:客户端存在缓存, 用户访问过程中会不断访问到缓存中存在的页面, 例如, 利用"back"按钮进行后退, 点击一个已经点击过的连接, 直接从浏览器历史列表中点击一个连接。会话识别只是区分出了一个个用户访问服务器的会话期间, 但没有包含用户访问过的所有页面, 这是由于客户端存在缓存, 因此, 需要推断和完善用户访问服务器的会话期间, 即路径补全。

1.2 模式发现和模式评估

Web使用记录挖掘常用的方法包括:统计分析, 可以对会话文件进行分析以获得网页浏览、浏览时间和路径长度等方面的统计信息;关联规则挖掘, 可以发现一个会话中经常一起访问的网页, 为市场营销或重新组织网站内容提供决策支持;聚类分析, 可以做用户聚类进而为用户提供个性化服务, 也可以做网页聚类协助建立具有相关内容的网页组;序列模式分析, 可以发现一个会话内部的网页间的时间相关性进而帮助预测网页的访问情况等。

模式评估用于将所发现的模式转化为有用的知识, 一般是结合领域知识将无意义或无价值的模式去除。

2. 基于定制数据采集的Web使用记录挖掘

传统Web使用记录挖掘所使用的数据集主要是Web服务器的日志。然而, 目前绝大多数网站都使用动态页面, 这使得Web日志增大、与挖掘无关的数据项增多, 这些加大了数据预处理的难度, 因此, 动态网页环境下的数据预处理成为针对动态网站进行Web使用记录挖掘的关键。

文献[2]中针对电子商务应用提出了一种Web使用记录挖掘中数据采集的新方法, 该方法根据电子商务个性化服务的目标和Web使用记录挖掘的要求设计了"用户访问记录", 并以此代替Web服务器的日志。"用户访问记录"由服务器应用程序收集。"用户访问记录"将Web日志的内容和电子商务中的购物记录、查询记录有机结合, 可以有效反映用户的兴趣访问模式。用户访问记录的内容包括用户标识、用户的IP地址、使用代理、访问日期时间、页面请求的来源页面、对象URL、搜索的关键字、访问对象类型、用户动作 (查看、购买、放弃购买等) 及商品号。如果将"用户访问记录"、用户注册信息和交易信息再进行有机结合, 则可以发现兴趣访问模式与用户自身特性之间的内在联系, 则可以为电子商务的营销提供有力支持。文献[2]中的方法对于注册并进行登录访问的用户非常有效, 但对于初次访问、未注册用户的访问以及注册用户但不进行登录的访问, 处理的比较粗糙, 存在不足。另外, 服务器数据采集程序收集"用户访问记录"增加了服务器的负载, Web服务器的日志没有被加以利用。

3. 用户访问日志与定制数据采集相结合的Web使用记录挖掘

针对传统的Web使用记录挖掘和文献[2]的不足, 本文提出了将用户访问日志与定制数据采集相结合的新方案, 该方案实现了两种方法的互补, 增强了系统的适应性、灵活性和准确性。

新方案的系统模型借鉴了文献[4]中的结构, 如图1所示:

在数据采集层, 对于初次访问、未注册用户的访问以及注册用户的不登录的访问, 数据来源为用户访问日志和交易数据库, 并且不进行定制数据采集以减轻服务器的负担, 经过数据清洗和用户识别后, 进一步进行会话识别、浏览序列识别和网页浏览序列推断, 从而完成数据预处理。对于注册用户的登录访问, 数据来源于定制数据采集产生的"用户访问记录"、交易数据库以及用户注册信息, 这些数据无需进行数据清洗和用户识别, 而是直接进行会话识别及其后的步骤即可实现数据预处理。

数据由数据存储层进行存储和管理, 主要有三类数据存储方式:关系数据库、数据仓库和事务数据库。关系数据库是数据挖掘最丰富的数据源之一;数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[5,6], 主要用于支持决策;事务数据库一般为一个文件组成, 其中每个记录代表一个事务, 事务数据库特别适合于"购物篮数据分析"。网站可以根据实际需求选择数据存储方式。

模式分析利用层由两部分组成:个性化网站及商业智能。其中, 个性化网站由Web服务器、推荐引擎和推荐集三部分组成, 目的是实现网页的内容从以"网站"为中心到以"用户"为中心的转变, 尽可能地自动调整以迎合每个用户的浏览兴趣与购买模式, 从而方便用户 (网站的访问者) , 促进采购量。

4. 结束语

本文研究了Web使用记录挖掘, 特别是针对数据采集和预处理, 进行了深入研究, 对比了已有方案的优缺点, 并在此基础上提出了新的解决方案。Web使用记录挖掘有广泛的应用领域, 其中, 电子商务是最为重要的领域之一, 面向电子商务的Web挖掘应用系统已经成为研究热点, 我们将继续进行更深入的研究。

参考文献

[1].Srivastava J.Web usage mining:Discovery and application of usage pat-terns from Web data[A].SIGKDD Explorations[C].New York:ACMPress, 2000.43-56.

[2].何典, 梁英, 动态网页环境下的Web使用记录挖掘研究, 《微计算机信息》 (测控自动化) 2006年第22卷第8-1期P122-124

[3].张娥, 郑斐峰, 冯耕中, Web日志数据挖掘的数据预处理方法研究, 《计算机应用研究》2004年第2期P58-60

[4].程筱胜, 廖文和, 田宏, 薛善良面向电子商务的Web挖掘系统模型研究与应用, 《南京航空航天大学学报》2004年第36卷第三期P322-326

[5].Kanm rani A, Rong W, Gonzalez R, A genetic algorithm methodologyfor data mining and intelligent knowledge acquisition[J], Computer&In-dustrial Engineering, 2001, 40 (2) :361～377

【Web数据挖掘研究】推荐阅读：

Web使用挖掘研究论文08-21

数据挖掘的研究06-19

Web日志挖掘05-09

WEB使用挖掘06-09

Web结构挖掘08-16

Web访问信息挖掘09-12

WEB挖掘与电子商务06-10

数据挖掘数据存储07-01

数据挖掘背景07-16

异常数据挖掘06-06

>> 查看更多相关文档