Web内容挖掘论文(通用10篇)
Web内容挖掘论文 篇1
一、引言
对于电子商务网站来说, Internet上储存了大量的文档、图像、声音等非结构化的数据及信息, 并且用户群体也显示出多样性, 也就是说每个浏览网站的人, 他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万, 那么如何从这些数据中找到有用的信息, 帮助电子商务的经营者和研究者从海量的Web数据中得到真正有价值的信息, 以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
二、爬虫和Web内容挖掘
1. Web挖掘的典型分类
在目前的研究中, Web数据挖掘分为:Web内容挖掘 (Web content mining) 、Web使用 (访问信息) 挖掘 (Web usage mining) 、Web结构挖掘 (Web structure mining) 三种典型的类型。
(1) Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前, 大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性, 很少涉及到如何从网站上进行数据的采集以及分析。
(2) Web结构挖掘主要是对Web文档的结构进行挖掘, 通过一定的算法来发现给定的Web文档之间的链接情况, 从而得到比较重要的页面, 以向浏览网站的用户提供权威页面。
(3) Web使用 (访问信息) 挖掘主要是对用户访问Web时在服务器方留下的访问记录, 也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录, 来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
2. Web挖掘的数据源
在Web数据挖掘中存在几种代表性的数据源:
(1) 服务器日志数据。个人浏览Web服务器时, 在服务器那方就会产生3种类型的日志文件:Server logs, Error logs和Cookie logs, 这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用 (访问信息) 挖掘的主要数据源。但有一点需要注意的是, 这些数据是在服务器方生成的, 因此有一定的不可获取性, 因为这会涉及到商业机密。
(2) 在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据, 是进行业务相关分析的主要数据源。
(3) Web页面。目前的Web页面大多满足HTML标准。HTML页面中包含文本和多媒体信息, 例如图片、图像、语言等, 因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘, 目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
(4) Web页面超链接关系。Web页面之间的超链接关系是一种重要的资源, 网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
(5) 其他数据。除了上述几种重要的数据源外, 还有一些其他方面的数据, 比如用户注册信息等一系列信息。
当然, 在实际的Web数据挖掘中这些数据源并不是孤立使用的, 而是几种数据源的综合使用和分析, 例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。
3. 爬虫和Web内容挖掘
由于上述的几种数据源中有一些是在服务器方生成的, 比如说日志文件和用户注册信息, 并且涉及到商业机密问题, 所以在数据源的获得上存在一定的难度。这里, 我们可以利用爬虫 (Crawler) 的工作原理, 来作为我们进行Web内容挖掘的一种信息获取和分析的工具, 得到我们需要的数据源。
(1) 爬虫的工作原理。爬虫 (Crawler) 是一个用来分解W e b中超文本结构的工具。一个商业网站的Web页面是通过超链接的关系存在的, 就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页, 从网站某一个页面 (通常是首页) 开始, 读取网页的内容, 找到在网页中的其他链接地址, 然后通过这些链接地址寻找下一个网页, 这样一直循环下去, 直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站, 那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
(2) 数据的获得。我们就可以利用上述爬虫的工作原理, 从我们需要的信息起始页开始进行爬取数据, 得到与之有关的大多数Web页面上的信息。
(3) 数据的分析。在对链接页面进行搜索的过程中, 经常需要判断信息的属性或分析信息的价值, 因为Web页面上存储了浩瀚的数据, 比如一些广告信息, 而有的数据并不是我们需要的。在此, 我们可以利用基于正则表达式 (regular expression) 的词法分析技术对采集到的Html代码进行语法分析, 提取其中有效信息, 例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。
(4) 数据的保存。为了进行最终的挖掘工作, 我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具, 如SQL Server2005等。
(5) 进行挖掘。利用数据挖掘技术获取有效的信息, 对相关问题模式进行验证。
三、结束语
电子商务网站, 无论是B/C模式还是C/C的, 在网站页面上都保存了大量用户在交易过程中产生的信息, 例如商品的规格、价格、展示、售后服务以及运输方式等等, 还包括卖家的个人信息、信用情况, 根据平台的不同还有相应的支付方式、法律条款等等。那么, 利用爬虫技术, 我们可以开发出一个获得数据源的有效工具来进行Web内容挖掘。
当然, 在现实研究当中, Web内容挖掘是和Web结构挖掘及Web访问信息挖掘结合在一起使用的, 它们相互补充, 共同来挖掘出有用的信息。
参考文献
[1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报, 2004.3:p.21~26
[2]吴修琴:基于Web使用挖掘的个性化服务推荐:河北科技图苑, 2007.3
Web数据挖掘现状分析 篇2
关键词:数据挖掘;Web挖掘
中图分类号:TP311.13文献标识码:A文章编号:1000-8136(2009)17-0131-02
数据挖掘(Data Mining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。
1 Web挖掘概述
近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
2 Web挖掘流程
与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:
(1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。
(2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。
(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。
3 Web数据挖掘的分类
Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。
3.1 Web内容挖掘
Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。
目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。
另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。
3.2 Web结构挖掘
Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。
Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和Page Rank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。
3.3 Web使用记录挖掘
Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两种:①将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;②将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。
3.4 Web用户性质挖掘
Web用户性质挖掘是伴随着Web2.0出现的。基于RSS、Blog、SNS以及Wiki等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。
在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用户性质挖掘分为5类:
(1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯和个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
(2)系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
(3)站点修改。站点的结构和内容是吸引用户的关键。Web挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。
(4)智能商务。用户怎样使用Web站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开4个步骤,Web挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。
(5)Web特征描述。这类研究关注怎样通过用户对站点的访问情况,统计各个用户在页面上的交互情况,以及对用户访问情况进行特征描述。
4 结束语
Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统,下一步将会有更多的研究者把此作为研究方向。
Analysis of Web Data Mining Status Quo
Zhang Tao
Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to find useful information in the world's largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and development.
Web内容挖掘论文 篇3
该系统与常见的远程学习系统不同的是,学习者登录本系统后看到的不再是千篇一律的页面,而是与其个人密切相关的个性化的学习环境。包括:在线作业完成情况、考试结果分析、课件学习进度、选课情况和师生交流等。这些信息都是根据该学习者的特点而定制的,不同的学习者看到的系统界面会有很大的差别。
1 个性化处理的主要功能模块
个性化处理模块是个性化学习系统的核心部分。个性化处理的构架划分为四个主要组成部分,即用户信息采集模块、用户模型构建模块、个性化分析模块、资源调度模块。
1.1 用户信息采集模块
用户信息采集模块是网络教育中个性化服务的基础,其所需采集的数据由系统的用户模型所确立,一般包括:用户访问的页面、用户的IP地址、停留时间、访问的时间频率、作业与考试的完成过程与结果、进行讨论的话题等等。这是个性分析处理的数据源,信息采集模块收集完这些信息后,将其送往下一步的用户模型建模模块。
1.2 用户模型构建模块
用户模型构建模块将根据收集到的用户特征信息,初始化或更新用户模型,用户兴趣模型[3]中包含了所有由用户信息采集模块所采集的用户特征信息,同时并把初始化完毕的用户模型传递到个性化分析中心。
1.3 个性化分析模块
个性化分析模块是个性化处理的核心模块,它结合用户模型中的用户特征信息与资源库中的数据资源进行新的分析,并把分析结果传递到信息返回模块,同时更新用户信息库中的数据。个性化分析模块根据系统提供的相应的服务策略和服务内容,负责执行具体的个性化分析处理功能(比如提供个性化推荐或个性化考试)。
1.4 资源调度模块
资源调度模块是根据个性分析中心处理后的个性参数来调度几大资源子系统,并选择合适的教育信息资料,将页面反馈给用户以满足其需求;同时,把用户在子系统中的个性化活动信息反馈给个性化分析中心,然后由个性分析中心进行再加工,来更新用户信息库。
2 主要功能模块的实现
2.1 用户信息收集
用户信息收集的工作包括两个阶段:一个是,对Web页面进行预处理,清洗Web页面;另一个是,对提取Web页面的页面特征以及对关键词的概念映射。
首先,要进行Web页面预处理。在此过程中,主要利用DOM[4]技术。利用DOM技术对Web页面进行预处理主要目的是提取出Web页面的文本内容,为下一步的工作提供数据来源。其次,提取Web页面特征以及完成概念映射。
整个页面特征提取的过程分为以下五步:
(1)将网页转化成文本格式的文件,即去除网页中与文档内容无关的标记。
(2)用分词词表对文档采用增字法前向最大匹配法自动分词[5],再使用统计方法确定复合词组的生成。
(3)用停用词表[6]滤除一些不能明确表达文档内容和一些区分性比较差的词,如副词、人名等无关信息,减少它们对特征提取的干扰,降低文档的特征维数。
(4)通过概念映射获得特征概念向量,查询概念词典获得特征词对应的概念,完成概念映射。
(5)将剩下的概念作为候选特征词,并保留它们在页面中出现的频率。
虽然文档表示的模型很多,但是还是采用了表示效果较好的向量空间模型[7]。
用VSM实现文档表示的方法为:(1)选取一组适合于表示文档的关键词(k1,k2,…,kn);(2)根据关键词ki在文档中的重要程度求出其对应的权值wi,其中i=1,2,…,n;(3)将文档用关键词向量(w1,w2,…wn)表示出来,其中wi表示ki在文档中的权值。
对基于VSM表示文档的方法进行改进,用加权关键词向量(k1,w1(d);k2,w2(d);……kn,wn(d))来表示文档D,其中ki是在D中出现的关键词,wi是ki的权值,wi越大说明ki在文档中的重要程度越高。
首先根据词在文章中出现的次数和位置,重新计算其频率:
si为词ti对应的频率加权系数。
由于文章的篇幅长短不一,所以要考虑文章的字数因素。所以对这些权值进行规范化处理,公式为:
获得页面特征词及其对应的权值后,可以用下面的向量表示页面P:
2.2 用户个性化模型构建与分析
用户个性化模型是用户的个性化信息的集合,是对用户信息的抽象描述和表示。个性化模型构建主要由三个子模块组成:页面聚类[8]模块、兴趣生成模块、更新与优化模块。
2.2.1 页面聚类模块
得到页面特征向量后,可通过计算页面与主题概念类之间的相似度判断页面属于哪一类。计算相似度时,综合考虑了个性化模型中用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类相似度值最大的主题类。
2.2.2 兴趣生成模块
所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。
2.2.3 更新与优化模块
更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能体现用户兴趣的变化,准确反应用户的真实兴趣信息。
3 系统应用示例
由于整个个性化分析处理部分的信息采集、用户模型建模、分析处理、资源调度等工作均是在后台由系统自动完成的,所以只能通过最后的页面表示层所看到的页面效果作为系统的应用示例。
首先,是课程学习的学习过程指导的示例,用户可以选择查看自己的学习历史,来了解当前学习的现状,同时也可以了解目前课程的正常学习进展,如图2,通过页面列表的学习状态一栏,可以了解到相应课程相应章节自己的学习进度。
其次,是用户考试管理中查看历史结果分析,用户可以通过列表的形式查看到自己曾经考试的简单信息,比如成绩、考试科目、考试时间等,选择具体某张试卷可以查看试卷的分析结果,如图3所示。
4 结束语
针对目前的远程教育系统未能考虑到受教育对象之间存在着鲜明的个性差异的事实,本文结合个性化服务的思想,对传统的远程教学系统进行改进,建立了基于Web的个性化学习系统。这样,用户就可以主动地根据自己的需要,选择和调度自己的学习过程。最后,以在线学习系统为例,验证了该系统的有效性。
摘要:基于Web的个性化学习是在远程学习和个性化服务相结合的基础之上发展起来的。利用Web挖掘的方法,针对用户的兴趣变化,搭建了个性化学习系统。并且通过模拟实验,验证该系统的有效性。
关键词:个性化服务,用户兴趣模型,文档聚类,向量空间模型
参考文献
[1]Rovai AP.Sense of community,perceived cognitive learning,and per-sistence in asynchronous learning networks.Internet and Higher Edu-cation,2002;5(4):319—332
[2]曾春,邢春晓,周立柱.个性化服务技术综述.软件学报,2002;13(10):1952—1960
[3]张卫丰,徐宝文.基于WWW缓冲的用户实时二维兴趣模型.计算机学报,2004;27(4):461—470
[4]李效东,股毓清.基于DOM的Web信息提取.计算机学报,2002;25(5):526—533
[5]马玉春,宋瀚涛.Web中文文本分词技术研究.计算机应用,2004;24(4):134—136
[6]顾益军,樊孝忠,王建华,等.中文停用词表的自动选取.北京理工大学学报,2005;25(4):337—340
[7]Salton G.Developments in automatic text retrieval.Science,1991;253(5023):974—979
Web挖掘与个性化服务研究 篇4
[关键词] web挖掘 个性化服务 用户建模 聚类
一、引言
web目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新闻、广告、消息信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。但如何满足各种用户不同的个性化需求,却成为了新的信息服务系统面临的挑战性课题。
二、web挖掘技术
1.web内容挖掘。web内容挖掘是从web文档的内容或其描述中提取知识的过程,目的是实现web资源的自动检索,提供web资源的利用率。基于web文档的文本挖掘是web内容挖掘的主要研究内容。在文本挖掘中,通常利用向量来表示文档。文本挖掘中主要有文本分析、文本解释、文本分类和文档可视化等挖掘技术。文本挖掘目前主要用于web页面归纳和搜索结果归纳。
2.web结构挖掘。web结构挖掘可以被视为一种替网络之间网页的链接组织构架建立一个模式,透过这个模式可以了解到网页与网页之间的关联性,因而可用来提升网站浏览或搜索的效率。web结构挖掘技术通常将网站链接结构对应成有向图或无向图的形式,分析链接的各条路径结构,整合网站路径资源。此外,还可以结合网站使用者的浏览动态,发现重要页面,从而改进网站的链接结构及内容呈现的方式,如将重要页面放在网站醒目的位置,简化浏览路径等。从而,提高网站架构的合理性。
3.web日志挖掘。web日志挖掘是通过分析web服务器的日志文件,已发现用户访问站点的浏览模式,为站点管理员提供各种利于web站点改进或可以带来经济效益的信息,web日志挖掘的过程一般分为4部分:数据预处理、挖掘算法实施、模式分析、可视化。如图1所示。
三、利用web挖掘进行个性化服务
个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
1.用户建模。个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务,因此用户建模是个性化服务的基础和核心。简单地说,用户建模是指根据访问者对一个web站点上web页面的访问情况模型化用户的自身特性。用户建模主要有三种途径:一是推断匿名访问者的人口统计特性。由于web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。这类挖掘的最常用技术是分类和聚类方法。二是在不打扰用户的情况下,得到用户概貌文件。三是根据用户的访问模式来聚类用户。
2.个性化服务系统。基于web挖掘的个性化服务系统的出现是对传统的个性化服务系统的挑战,也是个性化服务发展的必然结果。基于web挖掘的个性化服务系统主要应用web挖掘中的内容挖掘、结构挖掘和日志挖掘,并根据挖掘所获取的有趣的信息来为用户提供个性化服务。
基于web挖掘的个性化服务系统一般由离线和在线两部分组成,图2给出通用的web个性化服务系统的服务过程。
离线部分主要用于挖掘用户的特性信息,可以被看作个性化服务的准备部分,由两个阶段组成:第一个阶段是对原始数据和相关数据进行预处理。高质量的决策必然依赖于高质量的数据,因此数据预处理是web挖掘的重要步骤。数据预处理技术包括数据清理、会话识别、浏览页识别、事务识别、路径完善和用户识别。第二个阶段是模式提取阶段,即使用数据挖掘技术对处理过的数据进行挖掘,进行模式获取,以便以后在线部分的实时推荐。
在线部分为推荐引擎,主要是为用户提供推荐从而实现个性化服务。推荐引擎的任务是计算出当前会话的推荐集,根据当前的用户会话和挖掘结果,应用推荐机制产生实时的推荐集。
3.实现方法。
(1)离线聚类和动态链接结合。将用户访问模式进行聚类,系统将离线的模块用于聚类,在线的模块用于web页面的动态链接产生。每个访问站点的用户根据其当前的访问模式被指定到一个聚类中,在该聚类中其他用户所选择的页面被动态地附加在该用户当前所访问的页面下面,由此提供个性化的服务。
(2)识别感兴趣的链接。监测用户对web页面的浏览,为用户识别出那些用户可能感兴趣的链接。利用互信息和MDL等作为相似性比较的手段,根据当前用户的访问和其他具有相似性兴趣的用户的访问就可以来评估一个新页面的兴趣程度。
(3)自动定制不同的用户访问界面。利用用户建模技术自动定制不同的用户访问界面,是个性化的一个重要方面。
(4)聚类推荐。根据服务器日志聚类用户页面,把和当前用户事务最相近的聚类中的页面推荐给用户。
参考文献:
[1]毛国君段丽娟:《数据挖掘原理与算法》,清华大学出版社
[2]苏新宁杨建林:《数据残酷和数据挖掘》,清华大学出版社
Web数据挖掘综述 篇5
1 Web数据挖掘的概念
Web Mining (Web挖掘) 这个术语是由Etzioni于1996年首先提出来的。Web数据挖掘是数据挖掘技术在Web上的应用, 它利用数据挖掘技术从与WEB相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域, 是一项综合技术。
2 Web数据挖掘的分类
作为WEB的对象, WEB数据包含了内容数据 (content data) 、结构数据 (structure data) 和日志数据 (usage data) 三种类型。因此, 根据WEB数据源类型的不同, Web挖掘可以分为:Web内容挖掘 (Web Content Mining) 、Web结构挖掘 (Web Structure Mining) 和Web日志挖掘 (Web Usage Mining) 。Web数据挖掘如图所示:
2.1 Web内容挖掘
是对Web页面数据 (包括文本、图像、音频、视频、多媒体和其他各种类型的数据) 的挖掘。Internet有各种类型的服务和数据源, 如:WWW、FTP、Telnet等, 现在有更多的内容如:政府信息服务、数字图书馆、电子商务数据及其他各种通过Web形式访问的数据库。
Web内容挖掘一般从两个角度进行研究:从用户的角度, 研究怎样提高信息质量和帮助用户过滤信息;从DB的角度, 研究怎样对Web上的数据进行集成、建模, 以支持对Web数据的复杂查询。
Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时, 人们通常应用Web内容挖掘对网页内容进行分析, 其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。
2.2 Web结构挖掘
Web结构挖掘的对象是Web本身的超连接, 包括页面内部的结构以及页面之间的结构。对于给定的Web文档集合, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系, 通过算法发现他们之间连接情况的有用信息。挖掘Web结构信息对于导航用户浏览行为、改进站点设计、评价页面的重要性等都非常重要。Web结构挖掘通常需要整个Web的全局数据, 因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。
2.3 Web日志挖掘 (Web usage Mining)
Web日志挖掘的对象是Web使用记录数据, 除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录, 因此Web使用记录的数据量是非常巨大的, 而且数据类型也相当丰富。通过挖掘相关的Web日志记录, 从中发现用户访问Web页面的模式;通过分析日志记录中的规律, 来识别用户的忠实度、喜好、满意度, 从中发现潜在用户, 增强站点的服务竞争力, 在电子商务领域有重要意义。
Web日志挖掘对源数据的处理方法可以分为两类, 一种是将Web使用记录数据转换并传递进传统的关系表里, 再使用数据挖掘算法进行常规挖掘;另一种是将Web使用记录数据直接预处理再进行挖掘。
Web日志挖掘技术通常可以应用到两个领域:当用来分析Web服务器的访问日志时, 可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时, 通过分析用户的访问历史来发现有用的用户访问模式。Web使用挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志, 无法得知数据对象代表的内容, 因此得到的结果一般比较粗糙, 但是由于该方法比较成熟而且实现起来也较内容挖掘简单, 在个性化系统中也得到了较广泛的应用。
3 Web数据挖掘的流程
Web挖掘的基本流程一般可以分成四个阶段:
3.1 数据采集
Web挖掘的数据源来自于Web页面上的信息、Web访问形式的数据库、Web页面内部的结构以及页面之间的结构信息以及Web服务器上的使用记录数据如服务器日志、用户会话信息、交易信息等。Web数据挖掘, 针对不同的采集对象, 需要应用不同的数据采集技术。
3.2 数据预处理
要保证Web挖掘结果的正确性的重要前提是对数据进行预处理。一般收集的数据都具有不一致性、冗余性、模糊性及不完整性, 需要对收集的数据进行必要的预处理, 清除“脏”数据, 准备正确、完整、干净的数据源, 通过挖掘算法, 获得真实有效的挖掘模式。数据预处理主要包括:
⑴数据清理:填充遗漏值, 平滑噪声数据, 识别离群点和删除噪声数据, 修正不一致数据;
⑵数据集成:将多个数据库或文件, 整合成语义完整的数据集, 监测和消除数值冲突, 消除重复和冗余的数据;
⑶数据转换:从数据中删除噪声, 给特定的属性构造新的属性;
⑷数据离散化:针对数值型数据, 讲一个连续的范围划分成多个区间。
3.3 模式挖掘
应用不同的Web挖掘算法或机器学习技术发现用户访问模式。常用的挖掘技术主要有以下几种:
⑴回归分析:主要用于了解自变量 (independent variable) 与因变量 (depemdent variable) 间的数量关系。主要目的:1) 了解自变量与因变量关系方向及强度。2) 以自变量所建立模型对因变量作预测。
⑵关联规则:分析发现数据库中不同变量或个体间之间的关系程度 (概率大小) , 用这些规则找出行为模型。关联规则中的两个重要参数是:支持度 (Support) 和可信度 (Confidence) 。Apriori算法, 利用循序渐进的方式, 找出数据库中项目的关系, 以形成规则, 是最具代表性的算法之一。
⑶聚类分析:是比较简单的一种分析方法, 统计学家通常应用聚类分析法来对数据做简化的工作及分类, 从而把相似的个体 (观测物) 归于一群。
⑷决策树分析:利用概率论的原理, 并且利用树形图作为分析工具 (用决策点代表决策问题, 用方案分枝代表可供选择的方案, 用概率分枝代表方案可能出现的各种结果) , 经过对各种方案在各种结果条件下损益值的计算比较, 为决策者提供决策依据。
⑸时间序列分析:从大量的时间数据序列中提取人们不知道的, 但是潜在有用、与时间相关的信息, 用于揭示其内在规律 (如波动的周期、振幅、趋势的种类等) , 进而完成预测行为, 指导未来决策。
3.4 模式评估
对挖掘得出的所有模式进行分析、评价、解释, 并将有趣模式转化为可直观表示的形式。
4 Web数据挖掘的主要应用
随着Internet技术的广泛应用, 分析和利用越来越丰富的网络信息成为研究的重要课题。目前, Web数据挖掘的研究重点已从理论转向应用, 在实际工作中, Web数据挖掘在以下领域广泛应用:
4.1 Web数据挖掘技术应用于电子商务中
对电子商务中的Web日志和和访问内容进行挖掘, 可以针对不同的客户提供个性化的产品、挽留老客户、发现潜在的新客户、改进站点设计方便客户浏览、向顾客推荐商品和引导客户购买商品。
4.2 Web数据挖掘技术应用于搜索引擎中
利用Web数据挖掘技术, 提高Web检索的速度和准确率, 更好的满足用户的个性化需求, 如:页面文本自动分类提高检索速度;对页面的权威度进行计算和排序, 使用户优先看到权威度高的页面;通过分析用户历史浏览信息发现用户兴趣偏好。
4.3 应用于知识服务中
利用Web挖掘技术, 从Web页面中获取基本知识元素 (如:概念、概念间的语义关系, 知识元、知识元间的关联关系) , 并构建面向特定领域的知识体系, 重组Web页面中的知识元素, 提供符合人们认知特点的知识服务。
4.4 Web数据挖掘技术应用于电子政务中
通过对电子政务站点数据进行定性和定量分析, 应用Web数据挖掘技术建立决策支持系统, 为高层管理者提供决策信息, 为政府重大政策出台提供决策支持。
5 结束语
Web数据挖掘技术已广泛应用于诸多领域, 如:电子商务、科学研究、电子政务、市场营销、金融投资、网络信息管理、教学管理、产品制造等。凡是涉及网络信息的数据和数据库, 都可以运用Web数据挖掘的技术和方法, 发现其中潜在的知识和信息, 为各行各业提供决策支持。Web数据挖掘技术必将在未来的Internet信息处理中发挥更大的作用。
摘要:随着Internet技术的快速普及和迅猛发展, Internet应用已深入到人类生活的各个角落, 如何开发和利用访问Web站点所产生的丰富的信息资源, 提高网站的性能, 更好地为用户服务、为决策者提供决策支持, 成为数据挖掘技术在Web领域研究的热点。本文综述了基于Web的数据挖掘概念、主要技术及分类、流程, 说明了Web数据挖掘的应用和研究方向。
关键词:Web数据挖掘,分类,流程
参考文献
[1]郑庆华, 刘均, 等, 著.Web知识挖掘:理论、方法与应用.北京:科学出版社.
[2]杜剑峰.Web数据挖掘-数据预处理.百度文库:http://wenku.baidu.com/view/97103bdf7f1922791688e817.html.
[3]谢邦昌, 朱建平, 来升强.Excel2007数据挖掘完全手册.清华大学出版社.
[4]毛国君, 段立娟, 等, 著.数据挖掘原理与算法.北京:清华大学出版社.
[5]黄晓斌.网络信息挖掘.北京:电子工业出版社.
Web数据挖掘技术 篇6
随着Internet/Intranet技术的发展, 尤其是Web的全球普及使得Web上信息量无比丰富, Web已经成为人们获取信息的重要途径, 但最先进的搜索引擎也只能找到Web网页上面很少的网页, 而且无论怎么选择关键词都会返回大量并不需要的结果。如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
Web上的数据信息不同于数据库。它主要是些大量的、异质的Web信息资源, 文档结构性差, 其数据多为半结构化或非结构化, 信息不能清楚地用数据模型来表示。因此在Web的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。
1 Web数据挖掘概述
1.1 Web数据挖掘概念
Web数据挖掘是一项综合技术, 是利用数据挖掘技术从WWW数据资源中抽取信息的过程, 结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术, 是对Web数据资源中蕴含的未知的有潜在应用价值的模式的提取。
1.2 Web数据挖掘原理
通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理、数据汇总及模式识别、分折验证。目标数据集根据用户需求, 从Web数据源中提取的相关数据, Web数据挖掘主要从这些数据通信中进行数据提取;预处理过程从数据中去除明显错误或冗余的数据, 并将数据转换成为有效和易于理解的形式;模式分析对发现的模式进行解释和评估;最后将发现的知识以用户能理解的方式提供给用户。
1.3 Web数据挖掘分类
根据挖掘对象的不同, Web挖掘可以分为三类, Web内容挖掘 (WCM) 、Web结构挖掘 (WSM) 和Web使用挖掘 (WUM) 。
1.3.1 Web内容挖掘
Web内容挖掘实际上是从Web文档及描述中获取知识, 具体来说就是对Web上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势预测等。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体等各种类型的数据。其中聚类是事先没有确定类别, 但要求把相似度高的文档归于相同的类。
1.3.2 Web结构挖掘
Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。主要是通过对Web站点的结构进行归纳、分析和变形, 将Web页面进行分类, 以利于信息搜索。HTML页面所包含的知识不仅存在于各个页面的内容中, 也存在于这些页面之间的相互链接中。利用这方面的知识可以对页面进行排序以发现重要的页面。
1.3.3 Web使用挖掘
Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘, 也叫网络使用挖掘。挖掘对象是在服务器上的日志信息, 也称Web日志挖掘。它通过分析日志记录中的规律, 可以识别用户的忠实度、喜好、满意度, 发现潜在用户, 增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。
2 Web数据挖掘的关键技术
Web数据挖掘中常用的技术有Web使用的特有路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术以及中文分词处理和词频统计技术等。
2.1 路径分析技术
使用路径分析技术进行Web数据挖掘时, 最常用的是图。图最直接的来源是网站结构图, 网站上的页面定义为节点, 页面之间的超链接定义为图中的边。基于Web的数据挖掘, 就是从图中确定最频繁的路径访问模式。
2.2 关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中, 它负责挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的联系, 这些页面之间可能并不存在直接的参引关系。
2.3 序列模式挖掘技术
序列模式数据挖掘负责挖掘交易集之间的有时间序列的模式。例如, 最出名的尿布与啤酒, 这种信息对于电子商务网站非常有用。
2.4 聚类分类技术
分类规则可以挖掘某些共同的特性。这个特性可用来对新添到数据库里的数据项进行分类。
2.5 中文分词处理技术
中文信息处理的一大障碍是词与词之间没有物理的分隔符。因此在进行词频统计等处理前先要进行词条切分处理。中文文本的分词方法有很多种, 一般采用较为简单的基于词典的正向匹配遍历分词方法。词典的选取通常根据挖掘目标建立专业的分词词典, 以提高系统的运行效率。
3 Web数据挖掘的方法
3.1 Web数据的半结构化
3.1.1 异构数据库环境
从数据库研究的角度出发, Web网站上的信息也可以看作一个更大、更复杂的数据库, 每个站点之间的信息和组织都不一样。如果想要利用这些数据进行数据挖掘, 首先必须要研究站点之间异构数据的集成问题, 只有将这些站点的数据都集成起来, 提供给用户一个统一的视图, 才有可能从巨大的数据资源中获取信息。其次还要解决Web上的数据查询问题, 因为如果不能有效地得到所需的信息, 则对这些数据进行分析、集成、处理就无从谈起。
3.1.2 半结构化的数据结构
Web上的数据与传统的数据库中的数据不同, Web上的每一站点的数据都各自独立设计, 数据没有特定的模型描述, 并且数据本身具有自述性和动态可变性。因而, Web上的数据这也被称之为半结构化数据。
3.2 用XML技术进行Web数据挖掘
针对Web上的数据半结构化的特点, XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确的查询与模型抽取。
XML是一种中介标示语言, 可提供描述结构化资料的格式。XML解决了两个Web问题, 即Internet发展速度快而接入速度慢的问题, 以及可利用的信息多, 但难以找到自己需要的信息的问题。运用XML的扩展功能不仅能从Web服务器下载大量的信息, 还能大大减少网络业务量。
3.3 具体实现
其实现过程可以由以下四个步骤来实现:第一步得到XHTML格式的源信息, 即确定了信息源, 将数据从HTML转换成XML, 目前在高级语言中例如JAVA、VC等都有专门的函数或类来实现;第二步查找数据的引用点, 完成这一任务的最简单的办法通常是, 检查Web页面, 然后使用XML。只需要看一下页面, 记下观察到的内容, 考虑页面所生成的XHTML, 并将把记录的信息作为引用点;第三步将数据映射成XML, 找到了这个引用点, 就可以创建实际抽取数据的代码;第四步合并与处理结果, 需要反复执行抽取过程, 把结果合并到单个XML数据文件中。可以再次使用XSL执行, 也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。
4 总结
基于WWW技术的应用正以惊人的速度向社会生活的方方面面渗透, 人类交互信息不可避免地电子化和海量化, 从这些大量数据中发现有用的重要的知识是数据挖掘与知识发现的是一个重要研究和应用领域。本文讨论了Web数据挖掘的一些基本知识、方法、技术。Web挖掘是一项综合技术涉及多个领域, 目前随着XML技术的成熟, 研究利用XML技术进行Web的数据挖掘必将越来越深入。S
参考文献
[1]王志明, 沙莎.Web数据挖掘技术及其应用.软件导刊, 2006, 10.
[2]李健.Web的数据挖掘.电脑知识与技术, 2006.
[3]原娇杰, 赵杰文.基于Web的数据挖掘.软件导刊, 2006, 10.
[4]于升峰.Web使用挖掘的模式发现.情报学报, 2006-10-25.
Web日志挖掘技术研究 篇7
Web日志中的网络挖掘方法主要分为两大类:第一类是基于Web事务的方法和基于数据立方体 (Data Club) 的方法。
1、基于Web事务的方法
基于Web事务的方法即将数据挖掘技术应用于Web服务器日志, 以期望找到用户的非预期的访问浏览模式。此方法主要是识别在Web中用户对各个网页的浏览情况:如页面单位浏览内容中的浏览时间 (浏览时间) 、页面的平均浏览次数、及用户的各种页面浏览行为 (保存、删除网页、加入收藏夹、复制、打印等行为) 等等。并且在此基础上提出了最大向前引用序列 (MFR) 的概念, 用它将用户会话分割成一系列的事务, 然后采用关联规则和聚类分析等方法挖掘频繁浏览路径。
2、基于数据立方体 (Data Club) 的方法
基于数据立方体 (Data Club) 的方法, 通过Web日志建立数据立方体, 然后对数据立方体进行数据挖掘和联机事务处理 (OLAP) 。
二、web日志挖掘流程
1、数据预处理
由于在现实Web服务器上的数据信息很多都是有缺失的、含有噪声的, 不一致的以及在服务器上的数据表现格式也是多种多样, 未经过标准化处理的非结构化的数据。这就要求挖掘者在对Web日志信息进行数据挖掘之前必须对数据进行预处理。主要包括以下四个阶段:数据清理 (data cleaning) 、用户识别 (user recognition) 、会话识别 (session recognition) 、事务识别 (transaction recognition) 等。
(1) 数据清理
海量的Web日志数据中存在大量的噪声数据、不完整数据及不一致的数据等特点, 为了提高数据的质量, 进行高质量的数据挖掘就用到数据预处理数据清理, 它能够填写空缺的值, 平滑噪声数据, 识别、删除孤立点, 解决不一致性。从而改善Web服务器日志记录中数据的质量, 为挖掘算法得到更准确的输入数据。
(2) 用户识别
用户识别就是识别出对站点访问的用户, 用户识别是数据预处理过程中最困难和复杂的, 由于代理服务器、缓存及用户和企业局域网中防火墙的设置, 很难找到真正的用户IP。一般在用户识别过程中会遇到一系列问题:一个IP地址可能有多个用户访问同一个网站;一个用户通过多个IP地址访问同一个Web服务器;一个用户使用多种浏览器有可能是多个不同的操作系统访问同一个站点;多个用户由同一个代理服务器访问同一个Web服务器。
针对以上4类用户识别问题, 许多参考文献都给出了不同的识别规则, 来识别用户。主要识别规则包括: (1) 用户IP作为识别准则, IP地址不同, 不是同一个用户。IP地址相同, 在用户访问的操作系统和浏览器中只要有一个是相同的, 则是同一个用户。 (2) 通过网站的拓扑结构对用户日志进行分析, 找出可能的潜在的用户, 但很多情况下用户识别还是很困难的。综合这两类用户识别规则, 第一类按照IP地址来识别用户, 相同的IP地址为同一个访问用户, 不同的IP代表不同的访问用户。这样的IP对应规则把用户识别更加简化了, 随着现在计算机的普及, 这类方法对用户识别有很大的实用性。
(3) 会话识别
用户会话指的是在一段时间内访问用户对Web服务器一次有效的访问, 通过上一步的用户识别后可以找出访问用户的访问浏览序列。会话是指用户进入网站访问到离开网站这段时间内留下来的系一列数据痕迹。由于会话识别是分析用户访问一段时间以内的数据, 在此期间该用户可能已经多次访问了该网站, 这就要求通过会话识别将用户这段时间内访问的序列分为单个用户一次访问的序列, 并且把属于一个用户对应的同一次请求识别出来。目前算法也逐渐成熟:包括Hpage算法 (连续请求时差与时间阈值比较) 、Hvisi算法 (整个站点定义时间阈值上限比较) 、HRef算法 (参引页分析用户访问历史, 判断会话差异) 、MF最大向前参引算法 (用户不会再次访问先前访问的页面) 等。
(4) 事务识别
事务识别又叫片段识别, 是指将用户访问序列划分成为用户会话或Web事务的逻辑单元, 通过用户会话以后, 能够挖掘出具有自然事务特征的数据, 但是划分出的会话粒度比较大、模糊等, 就要进一步将会话划分成含语义的事务。从而找出有意义的访问路径。
目前常用有最大向前路径、引用长度以及时间窗口等识别方法。其中最大前向路径是应用到事务识别上比较普遍和成功的, 其主要内容是一个会话里不会出现已经访问过的页面, 向前就是一个事务, 向后说明向前引用终止, 意味着用户再次请求已经浏览过的页面, 去掉此次用户访问 (认为用户不会再次访问已经访问过的页面) 。
2、模式发现与分析
模式发现主要目的是通过数据挖掘技术 (关联规则、统计分析、序列模式、分类和聚类等方法) 来发现潜在数据背后的知识, 模式发现是Web日志数据挖掘的核心。目前比较流行的模式发现规格主要有:双联规则、cookie信息、统计分析等。
模式分析是Web日志挖掘继模式发现的最后步骤, 最终目的是将模式发现的结果转换为有用的价值模式, 通过可视化技术以通俗易懂的图形界面方式提供给Web使用者。
三、结束语
现在web挖掘技术在网络研究、数据挖掘、知识发现、软件代理等相关领域都是热点问题。研究web日志挖掘对于优化web站点、电子商务、远程教育、信息搜索等领域有着十分重大意义。如何将这些技术应用时我们急需解决的问题。
摘要:用户借助搜索引擎获取有用信息, 输出的结果集是一样的, 忽略了用户自身的知识领域背景和兴趣度趋向, 使用户陷入了信息冗余的迷航状态。而通过web日志中大量的用户记录信息, 进行数据挖掘可以识别出单一用户, 通过分析用户浏览的信息记录抽取用户特性, 推建出用户的兴趣背景。进一步解决不同用户的不同需求结果集, 实现个性化搜索, 提高客户满意度。
关键词:数据挖掘,web日志,数据预处理
参考文献
[1]Cooley R, Mobasher B, SriVastava J.Data Preparation for mining word wide web browsing patterns[J].Knowledge and Information System, 1999 (1) :5-32.
[2]张治斌, 姜亚南.基于Web日志的数据挖掘研究[J].电脑与信息技术, 2009 (12) .
Web使用挖掘及应用研究 篇8
近年来Internet的迅速发展,使得WWW已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为企业决策提供了丰富资源的同时也提出了新的挑战[1]:难以准确获得所需要的信息、难以获得信息之间潜在的知识和个性化的信息服务。无论个人还是企业,现实的竞争形势要求他们对互联网上大量出现和产生的信息进行实时和深层次的分析。因此人们迫切需要一种能够从Web上快速、有效地发现资源和知识的工具-Web数据挖掘。
Web挖掘是将Web技术与数据挖掘技术结合起来,来获取Web知识的过程。Web挖掘一般的定义为:从与www相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。Web挖掘可分为3类[2]:Web内容挖掘(web content mining)、Web结构挖掘(web structure mining)和Web使用挖掘(web usage mining)。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web 结构挖掘是从WWW 的组织结构和超链接关系中推导知识。Web使用挖掘主要是从Web 的访问记录中抽取感兴趣的模式。其主要特点是对用户信息数据进行抽取、转换、分析和其它模型化处理,从中提取辅助企业决策的关键性数据。
Web使用挖掘是目前信息技术中的研究热点之一,本文在介绍Web使用挖掘的基础上,从Web使用挖掘的数据类型、过程和实际应用三个方面详细地阐述了Web使用挖掘技术。
2 Web使用挖掘
Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。
2.1 Web使用挖掘的数据类型
Web使用挖掘的对象是存储在Web服务器上的日志文件上的数据项,在Web使用挖掘过程中, 有多种数据可作为Web挖掘的处理对象,包括:Server log,Proxy Server log,Client端的cookie log、用户简介、注册信息、用户对话或交易信息等,主要是Web服务器上的log 日志等。这些数据大致可分为以下几类[3]:
⑴内容数据:用户在网页上看到和使用的真实数据,主要是文本和图像。
⑵结构数据:描述网页内容如何组织的数据,页内的结构可用HTML、XML表示为树型结构,HTML标志成为树的根;页间结构可用连接不同网页的超链接来表示。
⑶使用数据:描述网页使用模式的数据,如IP地址、URL、网页引用、访问时间和日期等,表示了用户的行为模式。典型的使用数据来自服务器日志。
⑷用户资料:有关Web 站点用户的统计信息,包括用户注册信息和个人资料,如用户名、学历、职务、年龄、收入、个人爱好等。
2.2 Web使用挖掘的过程
虽然Web自身有着异质、分布、动态、无统一结构的特点,从局部来看在每个提供信息资源的Web服务器上都有一个结构比较完善的log 日志文件,对其进行挖掘是切实可行的且具有重要意义。Web使用挖掘过程一般分为三个阶段[4]:预处理、模式发现、模式分析。
2.2.1 数据预处理阶段
Web使用挖掘首先要对挖掘数据进行预处理, 其目标是将包含在多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象概念, 然后在事务数据库上实施挖掘算法,以期最终获得有价值的规律。这个阶段主要包括数据清洗和事务识别两个部分。数据清洗主要是对无关记录的删除、判断是否有重要的访问没有被记录、用户的识别等。事务识别是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。
2.2.2 模式识别阶段
这个阶段采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。实现算法可以是统计分析、聚类、分类、关联规则和序列模式识别等。对Web使用记录的挖掘,早期大多数统计的方法进行。当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问的模式进行多种简单的统计,如频繁访问页、单位时间访问数、访问数据量的时间分布图等。
2.2.3 模式分析阶段
挖掘出来的用户行为模式(集合),需要合适的工具和技术对其进行分析、解释和可视化, 从中筛选出有趣(有用) 的模式,使之成为人们可以理解的知识,否则挖掘出来的模式将得不到很好的应用。这个阶段的任务是采用合适的成熟的技术和工具,进行模式的分析,从而辅助分析人员的理解,使采用各种工具挖掘出的模式得到很好的利用。目前最常见的的模式分析方法有两种:一种是象SQL那样的知识查询机制,采用SQL 查询语句进行分析。另一种方法是将Web使用数据装入数据仓库,以便执行联机分析处理(OLAP)并提供可视化的输出结构。诸如图形化模式或为不同的值赋予不同颜色的可视化技术,可以使得数据中的总体模式或趋势变得很突出。
3 Web使用挖掘的应用
Web使用挖掘技术以用户的访问日志为源数据,可为企业或公司发现许多重要的信息。
3.1 Web使用挖掘在企业客户关系管理中的应用
随着科学技术的发展,许多行业的产品趋于成熟、同质化,产品不再是企业竞争力的唯一核心,尤其是电子商务的出现,使得客户有了更大的选择空间,如何搞好客户关系,满足客户的需要将是企业迫切需要解决的问题。
通过Web使用日志的挖掘了解客户访问模式,包括客户访问习惯、访问兴趣等,再结合对客户业务数据的挖掘,了解客户交易情况,从而来进行客户关系管理。
3.2 Web使用挖掘在企业网站建设中的应用
网站的吸引力取决于其内容和组织结构的合理设计。通过对网站访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务,如有些学者提出了可适应站点的概念,即通过用户访问模式改进Web站点内容。网站、网页的内容和结构不是一成不变,为吸引用户访问,提高知名度,网站、网页的设计必须考虑用户的需求。Web 使用挖掘能提供用户访问网站、网页行为的信息。网站的设计者可根据这些信息来对站点的结构和内容进行修改,以适应用户的需要。比如,可根据用户对某些页面访问的频度来决定页面的链接层次和深度。
3.3 Web使用挖掘在个性化服务中的应用
随着越来越多的人使用互联网,针对某类用户提供个性化服务是吸引用户访问站点的一个有效手段。通过对网站访问日志的挖掘,获取用户访问模式信息,了解用户的意图和行为。根据用户本身情况以及网站的使用情况,为用户提供动态建议是许多市场营销中及为重要的功能。
如通过对用户存取日志文件中的存取事务进行聚类分析,发现用户的个性化搜索兴趣模式,根据个人的喜好,为每个用户定制符合其个人特色的Web站点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等方面动态进行定制。
4 结束语
Web 使用挖掘已成为Web 数据挖掘的研究热点之一。Web使用挖掘是为了挖掘用户访问网站的行为模式,并将其应用于网站优化、企业决策支持等活动中,以提高企业的竞争力。本文主要介绍了Web使用挖掘过程及其应用,重点分析了Web 使用挖掘的技术,最后给出了Web使用挖掘的具体应用。
参考文献
[1]Raymond Kosala,hendrik Blockeel.Web Minning Re-search:Survey[J].SIGKDD Exllorations,2000,2.
[2]韩家炜,孟小峰.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-413.
[3]毛国君编著.数据挖掘原理与算法[M].北京:清华大学出版社,2005,7.
Web内容挖掘论文 篇9
【关键词】Web挖掘、网络舆情、分析处理
0 引言
网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。
1 Web挖掘
Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。
1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。
1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。
1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。
2 基于Web数据挖掘的网络舆情分析
2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。
(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。
(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。
(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。
(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。
(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。
2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。
(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。
(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。
2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。
2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。
3 基于Web挖掘的网络舆情分析系统实例分析
本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。
4 结语
Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。
参考文献:
[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.
[2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.
[3]周君. Web文本挖掘关键技术的研究与实现[D].西安电子科技大学,2009.
WEB挖掘与电子商务 篇10
WEB挖掘利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及WEB技术、数据挖掘、计算机语言学、信息学等多个领域。WEB挖掘可以获取竞争对手和客户信息、发现用户访问模式、反竞争情报活动等。WEB挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具, 也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
电子商务网站最需要解决的问题之一是怎样在电子商务环境中吸引新用户, 并确保自己可以提供足够的产品或服务留住老用户。另一方面, 用户面对电子商务站点所提供的众多选择, 要从中挑选出自己真正需要的产品或服务犹如大海捞针。
因此, 寻找一种强有力的技术来解决电子商务发展中所遇到的发现并利用海量数据信息的难题是事关重要的, 这就为数据挖掘在电子商务中的应用提供了契机。
2、WEB数据挖掘在电子商务中的应用
电子商务领域通过WEB挖掘不仅可以从大量的WEB页面中提取出对用户有价值的信息, 也可以得到有关用户访问行为和方式的知识。面向电子商务的WEB挖掘主要包括WEB内容挖掘、WEB结构挖掘、WEB使用模式挖掘和语义WEB挖掘。通过这些技术可以使企业获得零售商、中间商、合作商以及竞争对手的信息;发现潜在客户、用户和市场, 聚类用户并将用户分门别类, 以实现个性化的市场服务;识别竞争对手, 保护企业敏感性信息。下面对WEB数据挖掘在电子商务中的应用进行介绍:
2.1 留住老客户, 发掘潜在客户
通过WEB挖掘可以获知访问者的个人喜好, 可以更加有针对性的满足客户的需求。如何从大量的访问者中发现潜在客户群体十分关键。当发现一些客户是潜在客户, 就应该对其实施相应的策略以促使他们早日成为注册客户。对一个电子商务网站而言, 这意味着订单数将增多, 效益也会随着增加。
销售商如何使客户在自己的站点上可以驻留更久, 需要花很多力气。通过对客户访问信息的挖掘, 可以了解客户的浏览行为, 获知其兴趣及需求, 根据需求动态向其推荐页面, 提供特有的一些商品信息和广告, 以使客户能够继续保持访问站点的兴趣。
2.2 优化站点, 设计个性化网站
网站的设计者不完全依靠专家的指导来设计网站, 而是根据访问者的信息来设计和修改网站的结构和外观。所以, 站点的结构和内容是吸引客户的关键。网站的管理者利用关联规则可以发掘用户访问页面的群体模式, 建立关联模型, 优化网站的组织结构, 即针对不同客户群体动态调整站点结构和页面内容;通过路径分析等技术可以判定出某类用户对WEB站点频繁访问的路径, 这些路径反映了此类用户浏览站点页面的顺序和习惯, 将客户访问的有关联的文件实现直接链接, 让客户容易地访问到想要的页面。通过挖掘客户的行为记录和反馈情况, 进一步优化网站组织结构和服务方式以提高网站的效率。
2.3 聚类客户, 提高竞争力
客户聚类是电子商务中一个重要方面。聚类顾客信息或数据项便于开发和执行未来的市场策略。这种市场策略包括自动为一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取, 电子商务网站可以为客户提供个性化的服务。
此外, 通过分析潜在的目标市场, 可以优化电子商务网站的经营模式, 进行有针对性的营销活动, 并且可以得到可靠的市场反馈信息, 从而降低公司的运营成本, 提高企业的竞争力。
2.4 提高系统效率, 保障安全服务
客户需要的是舒适的购物环境, 这就需要网站可以提供快速、稳定的服务。如果遇到网络拥挤、堵塞等情况, 网站管理者可以通过对网络日志的挖掘, 提供网站服务效率方面的信息, 这将有助于找到平衡服务器的负荷, 优化传输, 减少阻塞, 缩短客户等待的时间, 提高系统的效率和服务。
WEB挖掘会涉及到存有客户登记信息的后台交易数据库, 数据库中的这类信息在电子商务活动中起着非常重要的作用, 特别是在安全方面和对客户可访问信息的限制方面。所以, 增强电子商务安全至关重要。
3、结语
本文对WEB挖掘技术进行了综述, 介绍了其在电子商务中的典型应用。WEB数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理, 从中挖掘出潜在的模式, 预测客户行为, 帮助企业的决策者调整市场策略, 减少风险, 做出正确的决策。将WEB数据挖掘技术和电子商务两者有机结合, 将会为企业更有效的确认目标市场, 改进决策, 获得竞争优势提供帮助, 有着很广阔的应用前景, 使电子商务网站更具有竞争力, 从而为企业带来更多的效益。面向电子商务的WEB数据挖掘能发现大量数据背后隐藏的知识, 指导商家提高销售额, 改善企业客户关系, 提高网站运行效率, 改进系统性能。WEB挖掘技术可以从不同的角度和层次对网站信息和用户的使用偏好进行分析, 正在成为提高电子商务网站声誉和效益的有效途径之一。
参考文献
[1]韩家炜, 孟小峰等.Web挖掘研究.计算机研究与发展[J].2001 (4) , 405-414.
[2]戴菲.数据挖掘技术在电子商务中的应用.电脑知识与技术[J].Vol.7, No.21, July 2011.
[3]Bing Liu著、俞勇等译.Web数据挖掘[M].北京:清华大学出版社, 2011.
[4]张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社, 2011.
【Web内容挖掘论文】推荐阅读:
挖掘教材内容09-11
Web使用挖掘研究论文08-21
Web日志挖掘05-09
WEB使用挖掘06-09
Web结构挖掘08-16
Web访问信息挖掘09-12
Web使用记录挖掘11-25
Web数据挖掘研究07-18
WEB挖掘与电子商务06-10
深度挖掘论文09-21