WEB挖掘与电子商务

2024-06-10

WEB挖掘与电子商务（共8篇）

WEB挖掘与电子商务篇1

1、引言

WEB挖掘利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及WEB技术、数据挖掘、计算机语言学、信息学等多个领域。WEB挖掘可以获取竞争对手和客户信息、发现用户访问模式、反竞争情报活动等。WEB挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具, 也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。

电子商务网站最需要解决的问题之一是怎样在电子商务环境中吸引新用户, 并确保自己可以提供足够的产品或服务留住老用户。另一方面, 用户面对电子商务站点所提供的众多选择, 要从中挑选出自己真正需要的产品或服务犹如大海捞针。

因此, 寻找一种强有力的技术来解决电子商务发展中所遇到的发现并利用海量数据信息的难题是事关重要的, 这就为数据挖掘在电子商务中的应用提供了契机。

2、WEB数据挖掘在电子商务中的应用

电子商务领域通过WEB挖掘不仅可以从大量的WEB页面中提取出对用户有价值的信息, 也可以得到有关用户访问行为和方式的知识。面向电子商务的WEB挖掘主要包括WEB内容挖掘、WEB结构挖掘、WEB使用模式挖掘和语义WEB挖掘。通过这些技术可以使企业获得零售商、中间商、合作商以及竞争对手的信息;发现潜在客户、用户和市场, 聚类用户并将用户分门别类, 以实现个性化的市场服务;识别竞争对手, 保护企业敏感性信息。下面对WEB数据挖掘在电子商务中的应用进行介绍:

2.1 留住老客户, 发掘潜在客户

通过WEB挖掘可以获知访问者的个人喜好, 可以更加有针对性的满足客户的需求。如何从大量的访问者中发现潜在客户群体十分关键。当发现一些客户是潜在客户, 就应该对其实施相应的策略以促使他们早日成为注册客户。对一个电子商务网站而言, 这意味着订单数将增多, 效益也会随着增加。

销售商如何使客户在自己的站点上可以驻留更久, 需要花很多力气。通过对客户访问信息的挖掘, 可以了解客户的浏览行为, 获知其兴趣及需求, 根据需求动态向其推荐页面, 提供特有的一些商品信息和广告, 以使客户能够继续保持访问站点的兴趣。

2.2 优化站点, 设计个性化网站

网站的设计者不完全依靠专家的指导来设计网站, 而是根据访问者的信息来设计和修改网站的结构和外观。所以, 站点的结构和内容是吸引客户的关键。网站的管理者利用关联规则可以发掘用户访问页面的群体模式, 建立关联模型, 优化网站的组织结构, 即针对不同客户群体动态调整站点结构和页面内容;通过路径分析等技术可以判定出某类用户对WEB站点频繁访问的路径, 这些路径反映了此类用户浏览站点页面的顺序和习惯, 将客户访问的有关联的文件实现直接链接, 让客户容易地访问到想要的页面。通过挖掘客户的行为记录和反馈情况, 进一步优化网站组织结构和服务方式以提高网站的效率。

2.3 聚类客户, 提高竞争力

客户聚类是电子商务中一个重要方面。聚类顾客信息或数据项便于开发和执行未来的市场策略。这种市场策略包括自动为一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取, 电子商务网站可以为客户提供个性化的服务。

此外, 通过分析潜在的目标市场, 可以优化电子商务网站的经营模式, 进行有针对性的营销活动, 并且可以得到可靠的市场反馈信息, 从而降低公司的运营成本, 提高企业的竞争力。

2.4 提高系统效率, 保障安全服务

客户需要的是舒适的购物环境, 这就需要网站可以提供快速、稳定的服务。如果遇到网络拥挤、堵塞等情况, 网站管理者可以通过对网络日志的挖掘, 提供网站服务效率方面的信息, 这将有助于找到平衡服务器的负荷, 优化传输, 减少阻塞, 缩短客户等待的时间, 提高系统的效率和服务。

WEB挖掘会涉及到存有客户登记信息的后台交易数据库, 数据库中的这类信息在电子商务活动中起着非常重要的作用, 特别是在安全方面和对客户可访问信息的限制方面。所以, 增强电子商务安全至关重要。

3、结语

本文对WEB挖掘技术进行了综述, 介绍了其在电子商务中的典型应用。WEB数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理, 从中挖掘出潜在的模式, 预测客户行为, 帮助企业的决策者调整市场策略, 减少风险, 做出正确的决策。将WEB数据挖掘技术和电子商务两者有机结合, 将会为企业更有效的确认目标市场, 改进决策, 获得竞争优势提供帮助, 有着很广阔的应用前景, 使电子商务网站更具有竞争力, 从而为企业带来更多的效益。面向电子商务的WEB数据挖掘能发现大量数据背后隐藏的知识, 指导商家提高销售额, 改善企业客户关系, 提高网站运行效率, 改进系统性能。WEB挖掘技术可以从不同的角度和层次对网站信息和用户的使用偏好进行分析, 正在成为提高电子商务网站声誉和效益的有效途径之一。

参考文献

[1]韩家炜, 孟小峰等.Web挖掘研究.计算机研究与发展[J].2001 (4) , 405-414.

[2]戴菲.数据挖掘技术在电子商务中的应用.电脑知识与技术[J].Vol.7, No.21, July 2011.

[3]Bing Liu著、俞勇等译.Web数据挖掘[M].北京:清华大学出版社, 2011.

[4]张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社, 2011.

[5]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社, 2011.

WEB挖掘与电子商务篇2

关键词：Web挖掘；数据挖掘；电子商务；个性化推荐系统

中图分类号：TP311.13文献标识码：A文章编号：1007-9599 (2011) 05-0000-01

Web Data Mining Technology Application Research for E-commerce

Xiong Duming1,2

(1.Hubei University of Technology,Wuhan432200,China;2.Jiujiang City Administration of Work Safety,Jiujiang332001,China)

Abstract:This paper on Web mining and data mining technology,the basic concept and features detailed introduction,and then Web data mining for specific forms of implementation and the main mining methods were studied in detail;further explore analysis of e-commerce and personalization Recommendation system definitions,concepts and characteristics of other issues,in addition to a detailed study of Web data mining in e-commerce application features and other issues;aims to design a Web-based e-commerce platform for data mining technology to provide the research base in addition,a lot of work on the basis of the above,the establishment of a personalization service recommendation system.

Keywords:Web mining;Data mining;E-commerce;Personalization recommendation system

电子商务是网络时代的一种全新的商务模式，其由于Internet的迅速普及和发展而引起了越来越多的学者关注，研究人员希望充分发挥电子商务优势，从而获取更大的经济效益。在电子商务中采用数据挖掘的方法和思想，帮助电子商务网站把真正有价值的知识从海量的信息提取出来，从而更好地为电子商务网站的客户提供更方便的服务以及指导企业决策已经成为了当前研究的热点。

数据挖掘是一种全新的信息技术，其是伴随着数据库技术的发展而出现的，其融合了统计学、人工智能以及数据库等众多学科内容，借助从大量的数据中挖掘出未知、有用和有效的信息，从而更好地为电子商务网站服务。

一、Web数据挖掘技术及电子商务概述

Web挖掘是一项比较综合的技术，其是指在Web上应用数据挖掘技术，Web挖掘涉及到诸如Web、信息学、计算机语言学以及数据挖掘等众多学科领域知识。因此，从不同学科领域的角度出发，不同的学者对网络挖掘的含义理解都不相同，并且以不同的侧重点进行项目开发。一个普遍的认识是：我们通常把从Web资源中抽取知识或信息的过程称为Web挖掘，其在Web活动或者Web文档中应用传统的数据挖掘的方法和思想，在此过程中获取有用的、潜在的以及感兴趣的模式或者隐藏在其中的知识。

传统的买卖经济模式由于受到Internet的影响已经发生了深刻的变化。电子商务是一种全新的商业互动模式，其是消费者与商家通过网络电子交易，交易双方都获取到丰硕的成果的过程。狭义上的电子商务我们称之为电子交易（E.commerce），电子交易是指在网络上进行的商业贸易活动，通过Web通信手段来实现；广义上的电子商务我们称之为电子商业（E.business），泛指通过Web进行手段实现的全部的商务活动，包括了电子交易在内；诸如企业决策、资源调配、客户管理以及市场分析等范围也是电子商业。总的来说，电子商务是指以信息化网络为途径来实现，全世界广泛的商业贸易活动中的各种金融活动、交易行为以及商务活动等有关的综合性服务活动。

二、Web挖掘技术在电子商务中应用分析

通过上述介绍，我们对各种Web挖掘技术有了初步的了解，接下来我们将重点分析到底是如何在电子商务中应用Web挖掘技术的，主要研究序列模式分析、关联规则、聚类以及分类等数据挖掘技术是如何具体应用到电子商务中的。

（一）序列模式分析数据挖掘在电子商务中的应用。电子商务的组织者可以方便地利用发现序列模式对客户行为进行预测，从而能够更有效第为客户提供更具个性化的服务。我们可以通过序列模式分析挖掘Web日志，从而有效发现客户的访问序列模式。例如：当访问者链接到电子商务网站时，通过发现访问者的访问序列模式后，网站管理员可以将访问者未访问但极有可能访问的页面推荐到相对显眼的位置便于访问者对页面进行访问。此外，序列模式分析还可以向客户推荐其购买某件商品后有可能购买的另外一些商品。

（二）关联规则在电子商务中主要有以下两个方面的应用：第一，发现群体用户访问页面之间的关联规则，即挖掘访问页面之间的关联关系，从而对电子商务网站的设计进行优化。主要通过对Web日志进行预处理，挖掘Web日志文件中的有效信息，从而利用关联分析整理原始日志文件得到的事务数据库，最后挖掘出访问频繁的项集。第二，研究发现客户有可能一起购买的商品组合集合，把这些商品组和集合的页面链接放在一起向客户推荐。集中可能同时购买的商品链接，这是典型的购物篮分析事件，把可能同时购买的商品链接放在一起有利于销售量的提高。

（三）电子商务中聚类分析的作用，管理员可以通过聚类分析将浏览行为相似的客户聚合分析，从而能够更加深入地了解客户需要，为客户提供更加优质的服务。采用聚类分析我们能够发现客户访问频率最高的页面，假如客户经常性第访问关于手机的页面，那么我们可以通过Web自动将关于手机新产品信息的邮件发送给特定的客户聚类。

（四）电子商务中分类分析的作用，我们可以通过分类分析得到电子商务网站的客户分类模式，对不同类客户的爱好、特点有详细的了解，根据不同类客户的爱好以及特点开展针对性更强的商务活动，为他们提供更具个性化的服务；此外，可以通过分类分析对新客户进行分析，将新客户归纳到相应类别，提供针对性更强的服务信息。

WEB挖掘与电子商务篇3

对于电子商务网站来说, Internet上储存了大量的文档、图像、声音等非结构化的数据及信息, 并且用户群体也显示出多样性, 也就是说每个浏览网站的人, 他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万, 那么如何从这些数据中找到有用的信息, 帮助电子商务的经营者和研究者从海量的Web数据中得到真正有价值的信息, 以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。

二、爬虫和Web内容挖掘

1. Web挖掘的典型分类

在目前的研究中, Web数据挖掘分为:Web内容挖掘 (Web content mining) 、Web使用 (访问信息) 挖掘 (Web usage mining) 、Web结构挖掘 (Web structure mining) 三种典型的类型。

(1) Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前, 大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性, 很少涉及到如何从网站上进行数据的采集以及分析。

(2) Web结构挖掘主要是对Web文档的结构进行挖掘, 通过一定的算法来发现给定的Web文档之间的链接情况, 从而得到比较重要的页面, 以向浏览网站的用户提供权威页面。

(3) Web使用 (访问信息) 挖掘主要是对用户访问Web时在服务器方留下的访问记录, 也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录, 来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。

2. Web挖掘的数据源

在Web数据挖掘中存在几种代表性的数据源:

(1) 服务器日志数据。个人浏览Web服务器时, 在服务器那方就会产生3种类型的日志文件:Server logs, Error logs和Cookie logs, 这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用 (访问信息) 挖掘的主要数据源。但有一点需要注意的是, 这些数据是在服务器方生成的, 因此有一定的不可获取性, 因为这会涉及到商业机密。

(2) 在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据, 是进行业务相关分析的主要数据源。

(3) Web页面。目前的Web页面大多满足HTML标准。HTML页面中包含文本和多媒体信息, 例如图片、图像、语言等, 因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘, 目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。

(4) Web页面超链接关系。Web页面之间的超链接关系是一种重要的资源, 网站的设计者总是把他们认为重要的页面添加到自己的页面上来。

(5) 其他数据。除了上述几种重要的数据源外, 还有一些其他方面的数据, 比如用户注册信息等一系列信息。

当然, 在实际的Web数据挖掘中这些数据源并不是孤立使用的, 而是几种数据源的综合使用和分析, 例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。

3. 爬虫和Web内容挖掘

由于上述的几种数据源中有一些是在服务器方生成的, 比如说日志文件和用户注册信息, 并且涉及到商业机密问题, 所以在数据源的获得上存在一定的难度。这里, 我们可以利用爬虫 (Crawler) 的工作原理, 来作为我们进行Web内容挖掘的一种信息获取和分析的工具, 得到我们需要的数据源。

(1) 爬虫的工作原理。爬虫 (Crawler) 是一个用来分解W e b中超文本结构的工具。一个商业网站的Web页面是通过超链接的关系存在的, 就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页, 从网站某一个页面 (通常是首页) 开始, 读取网页的内容, 找到在网页中的其他链接地址, 然后通过这些链接地址寻找下一个网页, 这样一直循环下去, 直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站, 那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。

(2) 数据的获得。我们就可以利用上述爬虫的工作原理, 从我们需要的信息起始页开始进行爬取数据, 得到与之有关的大多数Web页面上的信息。

(3) 数据的分析。在对链接页面进行搜索的过程中, 经常需要判断信息的属性或分析信息的价值, 因为Web页面上存储了浩瀚的数据, 比如一些广告信息, 而有的数据并不是我们需要的。在此, 我们可以利用基于正则表达式 (regular expression) 的词法分析技术对采集到的Html代码进行语法分析, 提取其中有效信息, 例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。

(4) 数据的保存。为了进行最终的挖掘工作, 我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具, 如SQL Server2005等。

(5) 进行挖掘。利用数据挖掘技术获取有效的信息, 对相关问题模式进行验证。

三、结束语

电子商务网站, 无论是B/C模式还是C/C的, 在网站页面上都保存了大量用户在交易过程中产生的信息, 例如商品的规格、价格、展示、售后服务以及运输方式等等, 还包括卖家的个人信息、信用情况, 根据平台的不同还有相应的支付方式、法律条款等等。那么, 利用爬虫技术, 我们可以开发出一个获得数据源的有效工具来进行Web内容挖掘。

当然, 在现实研究当中, Web内容挖掘是和Web结构挖掘及Web访问信息挖掘结合在一起使用的, 它们相互补充, 共同来挖掘出有用的信息。

参考文献

[1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报, 2004.3:p.21～26

WEB挖掘与电子商务篇4

1 Web数据挖掘简介

当今Web上存在着大量的数据, 获取有用信息成为人们关注的焦点。但Web是无结构的、动态的, Web页面极其复杂。这样就使得人们从成千上万的Web站点中找到有用的数据变得比较困难。于是, 人们就越来越关注如何开发和利用Web上的数据资源。

Web数据挖掘就是解决上述问题的一个途径。当数据挖掘技术应用于网络环境下的Web中就成为Web数据挖掘。Web数据挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。

Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘[3]。Web内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息;Web结构挖掘是用来提取网络的拓扑信息, 即网页之间的衔接的信息;Web使用挖掘是用来提取关于客户如何运用浏览器浏览和使用这些衔接的信息。

2 Web数据挖掘的技术介绍

从电子商务的角度出发, 进行Web上的数据挖掘, 主要就是进行客户访问信息的挖掘, 得到客户端浏览行为和访问模式, 从而找到有用的市场信息。在Web数据挖掘的模式发现中, 常有以下几种数据挖掘技术的使用:

(1) 路径分析:使用路径分析技术进行Web使用模式挖掘, 最常用的就是网站结构图。它可以被用于判定在一个web站点中最频繁访问的路径, 还有一些其他的有关路径的信息通过路径分析可以得出, 比如:70%的用户端在访问/class/book2时, 是从/class开始, 经过/class/new, /class/book, /class/book1, 最后才到的/class/book2。这条规则说明在/class/book2页面上有有用的信息, 但因为客户对站点进行的是迂回绕行的访问, 所以这个有用信息并不明显。如果这个页面对网站来说比较重要, 可以通过此路径分析改进页面及网站结构的设计, 从使客户更容易的访问/class/book2。

(2) 关联规则:关联规则主要关注事物内的关系。在Web使用挖掘中, 关联规则挖掘就是挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的关系, 找出在某一次服务器会话中最经常一起出现的相关画面。例如, 40%的客户再购买了CD之后又购买了CD清洁剂。利用挖掘出来的这些相关性, 我们可以更好的组织站点, 实施有效的市场策略。

(3) 序列模式:序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式, 在Web日志中发现所有满足用户规定的最小支持度的大序列模式。序列模式的发现就是在时间戳有序的事务集中, 找到那些“一些项跟随另一个项”的内部事务模式。例如:在/class/book1上进行过在线定购的顾客, 有60%的人在过去15天内也在/class/bag1处下过订单。发现序列模式能够便于进行电子商务的组织预测客户的访问模式, 对客户开展有针对性的广告服务。通过系列模式的发现, 能够在服务器方选取有针对性的页面, 以满足访问者的特定要求。

(4) 分类规则:分类技术主要是根据用户群的特征挖掘用户群的访问特征。在Web数据挖掘中, 分类规则的发现就是给出识别一个特殊群体的公共属性的描述, 这个描述可以用来分类新的项, 例如:在/class/book2进行过在线定购的顾客中有55%是20～30岁生活在南方的年轻人。得到这一分类后, 就可以进行适合这一类客户的商务活动。

(5) 聚类:聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中, 聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括:自动给一个特定的顾客聚类发送销售邮件, 为一个顾客聚类动态地改变一个特殊的站点等。

3 在电子商务中的应用介绍

尽管Web挖掘的形式和研究方向层出不穷, 但随着电子商务的兴起和迅猛发展, 未来Web挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是Web访问信息挖掘。下面是Web访问信息挖掘在电子商务中的几点具体的应用。

(1) 发现潜在客户:在对Web的客户访问信息的挖掘中, 利用分类技术可以在Internet上找到未来的潜在客户。通常的策略是先对己经存在的访问者进行分类, 对于一个新的访问者, 通过在Web上的分类发现, 识别出这个客户与己经分类的老客户的一些公共的描述, 从而对这个新客户进行正确的分类。然后从它的分类判断这个新客户是属于有利可图的客户群, 还是属于无利可图的客户群, 决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后, 就可以对客户动态地展示Web页面, 页面的内容取决于客户与销售商提供的产品和服务之间的关联。

(2) 提供优质个性化服务:对客户来说, 传统客户与销售商之问的空间距离在电子商务中己经不存在了。在网上, 每一个销售商对于客户来说都是一样的, 那么如何使客户在自己的销售站点上驻留更长的时间, 对销售商来说将是一个挑战。为了达到这一目的, 就应该了解客户的浏览行为, 知道客户的兴趣及需求所在, 动态地调整Web页面, 以满足客户的需要。通过对客户访问信息的挖掘, 就能知道客户的浏览行为, 从而了解客户的兴趣及需求。

(3) 改进站点设计:对Web站点的链接结构的优化可从三方面来考虑: (1) 通过对Web Log的挖掘, 发现用户访问页面的相关性, 从而对密切联系的网页之间增加链接, 方便用户使用。 (2) 利用路径分析技术判定在一个Web站点中最频繁的访问路径, 可以考虑把重要的商品信息放在这些页面中, 改进页面和网站结构的设计, 增强对客户的吸引力, 提高销售量。 (3) 通过对Web Log的挖掘, 发现用户的期望位置。如果在期望位置的访问频率高于对实际位置的访问频率, 可考虑在期望位置和实际位置之间建立导航链接, 从而实现对Web站点结构的优化。

(4) 聚类客户:通过把具有相似浏览行为的客户分为一组, 并分析组中客户的共同特征, 可以帮助电子商务的组织者更好地了解自己的客户, 向客户提供更适合、更面向客户的服务。如有一些客户都花了一段时间浏览“房屋装修”, “家具”页面, 经过分析这些客户被聚类成为一组。销售商根据分析出来的聚类信息, 就可以知道这是一组“新购房族”客户, 对他们所进行的业务活动当然也就不可能等同于其他被聚类了的客户如“大学生”, “购车族”, 应及时调整页面及页面内容使商务活动能够在一定程度上满足客户的要求, 使商务活动对客户和销售商来说更具意义。

(5) 搜索引擎的应用:通过对网页内容的挖掘, 可以实现对网页的聚类和分类, 实现网络信息的分类浏览与检索;通过用户使用的提问式历史记录分析, 可以有效地进行提问扩展, 提高用户的检索效果 (查全率、查准率) ;通过运用Web挖掘技术改进关键词加权算法, 可以提高网络信息的标引准确度, 改善检索效果。

(6) 网络安全:分析网上银行、网上商店交易用户日志, 可以防范黑客攻击、恶意诈骗。

参考文献

[1]韩家炜, 孟小峰, 王静, 等.Web挖掘研究[J].计算机研究与友展, 2001, 3 (4) :405～414.

[2]郝先臣, 张德干, 尹国成, 等.基于电子商务中的数据挖掘技术研究[J].小型微型计算机系统, 2001, 22 (7) :785～788.

WEB挖掘与电子商务篇5

一、web挖掘

数据挖掘就是从大量的、不完全的、有噪声的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的知识的过程。它融合了数据库、人工智能、机器学习等多个领域的理论和技术。Web挖掘是数据挖掘在web上的应用, 是指从与web相关的资源和行为中抽取感兴趣的、有用的模式和隐含知识。一般地, Web挖掘可分为三类:

1. Web内容挖掘, 是从文档内容或其描述中抽取知识的过程。

它又可以分为W e b页面内容挖掘和搜索结果挖掘。页面内容挖掘指的就是对Web页面上的数据进行挖掘, 而搜索结果挖掘则指的是以某一搜索引擎为基础, 对已搜索结果进行挖掘。

2. Web结构挖掘, 是从www的组织结构和链接关系中推导知识。

它又可以分为外部结构挖掘、内部结构挖掘和URL挖掘。Web结构挖掘的目的是通过聚类和分析网页的链接, 发现网页的结构和有用的模式, 找出权威页面。

3. Web使用挖掘, 即Web日志挖掘, 是通过挖掘Web日志记录, 发现用户访问Web页面的模式。

它又可分为一般访问模式挖掘和个性化服务模式挖掘。

二、W e b挖掘的过程

1. 数据收集。

Web挖掘的数据对象包括服务器日志数据、代理服务器数据、w e b页面内容、w e b超链接信息、用户注册信息等, 其中服务器日志数据是w e b挖掘的主要对象。

2. 数据预处理。数据预处理是web挖掘的重要步骤, 直接影响到最后挖掘结果的正确性和准确性。它通常包括以下几个方面:

(1) 数据清洗, 是指根据需要删除与w e b挖掘任务无关的数据, 过滤掉不需要的记录。 (2) 反蜘蛛化。现在互联网上有大量的蜘蛛程序, 它们模拟用户在各网页间爬来爬去。但它们并不代表真实的电子商务用户, 因此需要把服务器日志中的蜘蛛记录过滤掉, 以更真实地反映实际情况。 (3) 客户认证, 是从服务器日志中识别出访问网站的每个用户。 (4) 会话识别。会话是指客户在一次访问中所访问的所有web页面, 通过分析可以得到, 用户对电子商务站点的兴趣所在。 (5) 路径补全。由于客户端缓存的存在, 会造成一些重要的访问信息被遗漏, 所以需要对用户访问的前后页面进行推理, 补全访问路径。

3. 模式发现, 是运用各种方法, 发现隐藏的模式和规则。常用的方法有:关联分析, 分类分析, 聚类分析, 序列分析。

4. 模式分析。模式分析是找出所发现模式集合中的有用模式, 以

便对决策提供支持。如果所有模式均不令人满意, 则需要重新挖掘。

三、W e b挖掘的方法

1. 关联分析, 用于发现同一事件中不同数据项的相关性。

常用的Apriori算法分为两步, 首先找出满足最小支持度阈值的频繁项集;然后由它们形成满足最小置信度阈值的强关联规则。可以将web挖掘得到的关联规则用于改进电子商务站点的结构, 将相关联的商品放在一起, 减轻用户过滤信息的负担, 增加交叉销售。

2. 分类分析, 通过学习已被告知类标号的训练集, 得到分类器模型, 然后将其用于对其它数据的分类。

常用的方法有贝叶斯分类法、决策树技术和支持向量机技术。

3. 聚类分析, 使用划分方法、层次方法、基于密度的方法、基

于网格的方法等技术, 使同一类中的对象之间具有很高的相似度, 而不同类中的对象高度相异。经聚类分析, 可以对电子商务平台中的具有相似浏览模式的用户提供个性服务, 以满足该类消费群体的特殊需要。

4. 序列分析, 是挖掘频繁出现的有序事件或子序列模式, 侧重于数据项间的前后关系。

在电子商务平台上, 可以帮助企业预测用户未来的购买行为, 指导企业制定销售计划。

四、W e b挖掘在电子商务中的应用

1. 提供个性化服务。

通过分析用户的访问模式, 对用户进行聚类和分类, 为每一类用户提供迎合其兴趣的个性化服务, 提高电子商务平台的人性化设计, 从而提高用户的满意度, 留住老用户;对具有潜在消费能力的用户, 通过提供个性化服务, 可以刺激他们的消费, 提高电子商务平台的亲和力。

2. 优化web站点结构。

通过分析用户的浏览路径, 用有向图来表示用户的整个页面访问过程, 图中的顶点代表页面, 图中的边代表页面的访问顺序。通过web挖掘找出频繁访问路径, 得到电子商务平台上的主要页面, 将重要的销售信息放在上面, 有利于用户快速找到自己需要的商品。

3. 降低电子商务平台运营成本。

通过挖掘用户的行为记录和反馈情况, 预测未来的购买行为, 进行有针对性的市场营销活动;通过分析用户感兴趣的页面, 有针对性地投放广告。

五、结束语

随着信息技术的飞速发展, 电子商务在商业贸易中的份额越来越大, 使用w e b挖掘技术对企业积累的海量数据进行处理, 挖掘出合适的模式, 帮助企业在激烈的市场竞争中做出正确的决策, 对提高企业的市场竞争力有重要意义。随着w e b挖掘技术的不断发展和成熟, 一定会在电子商务应用领域有广阔的应用前景。

参考文献

[1]Jiawei Han, Micheline Kamber著, 范明, 孟小峰译:数据挖掘概念与技术[M].机械工业出版社, 2001, 8

WEB挖掘与电子商务篇6

当今, 电子商务正以其成本低廉、快捷、不受时空限制等优点而逐步全球流行。在这种新型的商务模式下, 却遇到了网络信息量和基于Web的应用的一些阻碍。一方面, 没有针对性地提供信息, 访问者不能快捷地获得所需;另一方面, 不能快捷地在站点上寻找到感兴趣的商品, 用户容易转向访问其他站点, 造成客户流失, 这些对站点企业来说都是致命的。

基于上述原因, 商务站点“个性化”营销孕育而生。而个性化所涵盖的内容中, 针对用户的推荐服务是最为重要的, 因为它能够改变这种“大众化”的方式, 向用户提供个性化的信息。推荐系统模拟商店销售人员向用户提供商品推荐, 帮助用户找到所需商品, 从而顺利完成购买过程, 因此可以有效保留用户, 提高电子商务系统的销售;商家也可以通过推荐系统保持与客户的联系, 重建客户关系。

本文将对电子商务推荐系统中的若干关键技术进行有益的探索和研究。

一、电子商务推荐算法及改进

电子商务推荐算法是整个推荐系统的核心, 其推荐精度和推荐效率直接影响推荐系统的整体性能。目前典型的推荐算法有基于关联规则的推荐算法和基于用户的协同过滤推荐算法。

1. 基于关联规则的推荐算法

基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型, 这一步比较费时, 但可以离线周期进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务。

2. 协同过滤推荐算法

协同过滤推荐是目前最成功的电子商务推荐技术, 被应用到很多领域中。协同过滤根据用户的行为 (如用户注册信息、用户评分数据、用户购买行为等) 建立用户的行为模型, 然后利用建立的行为模型向用户推荐有价值的商品。用户数据的收集在协同过滤推荐算法中占有重要地位, 如何有效收集高质量的用户数据直接关系到推荐算法的推荐效果。

3. 基于聚类的协同过滤算法概述

随着电子商务系统的进一步扩大, 协同过滤推荐算法的实时性要求遇到了巨大挑战。在一个用户和商品均数以万计的系统中, 同时为数以万计的用户提供实时的推荐服务越来越困难。

为了解决推荐系统中存在的上述问题, 进行实时推荐, 那么就需要提高推荐的速度。因此, 提出了基于聚类的协同过滤推荐算法。将整个用户空间根据用户的购买习惯和评分特点划分为若干个不同的聚类, 从而使得聚类内部用户对项的评分尽可能相似, 而不同聚类间用户对商品的评分尽可能不同。根据每个聚类中用户对商品的评分信息生成一个虚拟用户, 虚拟用户代表了该聚类中用户对商品的典型评分, 将所有虚拟用户对商品的评分作为新的搜索空间, 查询当前用户在虚拟用户空间中的最近邻居, 产生对应的推荐结果。

4. 改进的k-means聚类算法

(1) k-means聚类算法。k-means聚类算法是最简单同时也是非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:

①随机选择k个用户作为初始的簇中心, 将k个用户对项的评分数据作为初始的聚类中心。

②对剩余的用户集合, 计算每个用户与k个聚类中心的相似性, 将每个用户分配到相似性最高的聚类中。

③对新生成的聚类, 计算聚类中所有用户对项的平均评分, 生成新的聚类中心。

④重复以上2到3步, 直到聚类不再发生改变为止。

(2) 改进的k-means聚类算法。在k-means算法中, k个中心的选取一般为随机选取或依赖于领域知识。为了更好地选取k个中心以提高聚类的质量, 需要对k-means算法进行改进。算法2-1给出了改进后的算法描述。

算法2-1改进k-means算法。定义: (推荐池T) 设站点共有m个页面, 共有n次用户的访问, 由于采用协作推荐方法, 那么推荐池T就是内存中的一个n× (m+l) 的矩阵。其中每一行代表一个用户访问的页面集;在前m列中, 每一列表示用户对该页面的访问时间长度;每一个矩阵项表示个用户在一个页面上的访问时间, 即该用户对该页面的访问兴趣度大小。第m+l列表征该行被加入到推荐池中的时间, 这是为了对该推荐池保持一个按时间新旧程度运行的替换策略。

输入:初始簇K, 推荐池T

输出:推荐池的中心集合CenterSet

①k=[K/2];//起始时取「K/2」值作为k-means算法的初始k值。

②将评分项为0的各项以某一均值 (或者设定的值) θ代替;//避免出现大规模稀疏矩阵影响推荐质量。

③initialize (T, CenterSet, k) ;//随机选取k个初始的中心。

④WHILE k<=K DO BEGIN

⑤CenterSet=k-means (T, k, CenterSet) ;//进行聚类操作得到k个中心//找到一个新中心

⑥max=0;newcenter=null

⑦FOR each c∈T DO BEGIN

⑧d=0;

⑨FOR each c∈CenterSet DO BEGIN

⑩d=d+distance (T, t, c) ;

⑪END

⑫IF d>max THEN BEGIN

⑬max=d;

⑭Newcenter=t;

⑮END

⑯END

⑰CenterSet=CenterSet∪{newcenter}

⑱k=k+1;

⑲END

⑳RETURN CenterSet;

5. 对改进的k-means算法进行分析

在每一遍k-means算法执行后, 选取一个距离各中心距离和最大的元素作为新的中心。该算法的改进之处有三点:

(1) 改变了传统的k-means算法要求用户必须事先给出k (要生成的聚类数目) 值, 以及对于设定的不同k值导致不同聚类结果的缺点。

(2) 避免了某些页面因为没有被访问得到评分为0而形成的大规模稀疏矩阵问题。

(3) 改进的k-means算法由于在每一次算法执行后是选取一个距离各中心距离和最大的元素作为新的中心, 这个元素来自原来的样本数据库, 原来的距离矩阵数据仍然可以重用, 因此不需要重新计算每一个对象与新的平均值点间的距离。

该算法的缺点是:只有当聚类数目远小于项数目时, 计算目标项与聚类中心相似性的时间代价相对于最近邻查询才可以忽略不计, 当聚类数目很大的时候, 计算目标项与聚类中心相似性的代价并不能忽略不计。

二、电子商务推荐系统的实现

我们将系统分为三个模块:数据预处理模块、模式挖掘模块和模式分析及应用模块。

1. 实现模型

由此, 基于Web日志挖掘的电子商务推荐系统的结构分成在线和离线两个部分, 三个模块。如图1所示:

2. 离线模块

一般情况下, 推荐系统的离线部分主要针对的是注册用户, 根据用户提供的关键信息对推荐集合进行净化, 从而在推荐页面集合上体现精确的用户感兴趣的信息, 如笔者参与设计的某搜饭网, 对于注册用户“馋嘴鸭”, 在注册过程中, 提交的用户所在地关键字是“市南区”, 那么一旦该用户登录系统, 则直接将跟市南区有关的推荐页面展示在用户窗口, 如图2所示:

3. 在线模块

在线模式下又分成两种情况, 一是注册用户登录, 二是随机非注册用户。对于注册用户来讲, 可以任意变更兴趣项, 而推荐系统会根据用户的选择, 形成推荐集合并展示精确的推荐页面, 如果变更的兴趣项不包含注册用户的关键信息, 则推荐集合在原推荐集中产生, 这样用户得到的推荐页面更加精确。

对于随机用户, 推荐页面与用户兴趣关系密切, 同时其精确程度很大程度上依赖用户的兴趣项的选取。即用户的兴趣项约束越多则推荐页面越精确, 这种情况是以牺牲用户时间为代价的。经过用户的一系列选择后, 推荐系统最后生成推荐页面, 如某随机用户对菜品类别 (咖啡) 、地区 (市南) 进行选择后生成的推荐页面。如图3所示。

三、结论

目前Web数据挖掘己逐步成为网络研究、数据挖掘、知识发现、软件代理等领域的热点问题。研究日志挖掘, 对于优化Web站点、电子商务、远程教育、信息检索等领域, 都有着十分重要的意义。然而, 如何将这些技术深入、完善, 并尽快运用到Internet各种应用中, 是摆在我们面前的新课题。

参考文献

[1]邹显春等:电子商务与Web数据挖掘[J].计算机应用, 2000.4

[2]P.Buono, M.F.Costabile, S.Guida, A.Piccinno, G.Tesoro, Integrating UserData and Collaborative Filter in a Web Recommendation System, UM2001-Proc.Third Workshop on Adaptive Hypertext Hypermedia Sonthofen, Germany, July2001, 129-140

[3]Fayyad U, Piatetsky-Shapiro G, and Smyth P.Knowledge discovery anddata mining:Towards a unifying framework

[4]Grdon S.Linoff, Michael J.A.Berry著, 沈均毅等译.Web数据挖掘:将客户数据转化为客户价值[M].电子工业出版社, 2004.3

[5]赵艳霞梁昌勇:基于关联规则的推荐系统在电子商务中的应用[J].价值工程, 2006年第5期

WEB挖掘与电子商务篇7

1 Web数据挖掘的分类

Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术,但它并不仅仅是传统数据挖掘的一个简单应用。在过去20年中,许多新的挖掘任务和算法被相继发明。依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。

Web结构挖掘:Web结构挖掘从表征Web结构的超链接(简称链接)中寻找有用的知识。例如:从这些链接中,我们可以找出哪些是重要的网页,这是一项搜索引擎采用的重要技术。我们也可以发掘具有共同兴趣的用户社区。这些任务在传统的数据挖掘中并不存在,因为在关系型表格中并没有链接结构。

Web内容挖掘:Web内容挖掘从网页内容中抽取有用的信息和知识。例如:根据网页的主题,我们可以进行自动的聚类和分类。比如:www.g8g5.com,这个站,最大的主题就是QQ表情。虽然这些任务与传统数据挖掘的任务相似,但是我们依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如商品描述、论坛回帖等。而这些信息可以被用作进一步分析来挖掘用户态度。这些任务也不是传统的数据挖掘任务。

Web使用挖掘:Web使用挖掘从记录每位用户点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项重要的议题是点击流数据的预处理,以便生成可以用来挖掘的合适数据。

2 电子商务中Web挖掘的数据源

在Web上可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。

1)服务器数据

客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括

sever logs、error logs、cookie logs等。

2)查询数据

它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上。

3)在线市场数据

这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据,就比如knowlesys公司的示例。

4)Web页面

主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。

5)Web页面超级链接关系

主要是指页面之间存在的超级链接关系,这也是一种重要的资源。

6)客户登记信息

客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。

3 Web数据挖掘在电子商务中的应用领域

利用Web数据挖掘技术可以在站点上挖掘出来的知识模式有以下几个:路径分析、关联规则的发现、序列模式的发现、分类规则的发现、聚类分析等。

Web数据挖掘在电子商务中的应用广泛,在此主要讲以下几点:

1)优化企业资源:

企业盈利的关键一点是要节约成本。基于数据挖掘技术,全面、准确的掌握企业资源信息,分析过去的财务数据、库存数据和交易数据,可以及时发现企业资源消耗的关键点和主要活动的投入从而产出比例,为企业资源优化配置提供决策依据,比如降低库存、提高库存周转率、提高资金使用率等。让企业准确把握市场动态,从而提高企业对市场变化的响应能力和创新能力。使企业最大限度利用人力资源、物质资源和信息资源,合理调配企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。

2)挖掘潜在客户

用户在网站上的浏览行为可以反映出用户的兴趣和购买意图。通过对Web数据资源挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。关注、分析并了解客户的需求已成为企业的重要经营方式之一,对于一个电子商务网站来说,订单的增多就代表着效益的增加。基于数据挖掘技术,企业可以最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促进客户关系管理的自动化和智能化。

3)提供优质个性化服务,提高客户忠诚度

在电子商务中,传统客户与销售商之间的空间距离对客户来说已经不复存在,客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的满意度与客户忠实度,随着客户满意度的增加,客户忠诚度也随之增加。了解客户的需求后,动态地调整Web页面以满足客户的需要。在Internet上的电子商务中一个典型的序列,恰好就代表了一个购物者以页面形式在站点上导航的行为,所以可运用数据挖掘中的序列模式发现技术进行挖掘。

4)改进站点设计

Web站点结构设计好坏的衡量标准之一是用户获取所需信息所付出的平均代价,这种代价可以理解为所经过的超链数目和选择这些超链的困难程度的函数。用户的浏览路径优化就是在尽量不破坏Web系统原有结构,即不删除系统原有文档和超链的前提下,通过增加新的超链或文档来减少用户获取信息所需付出的平均代价。

对Web站点的链接结构的优化可从三方面来考虑:

通过对Web Log的挖掘,发现用户访问页面的相关性,从而对密切联系的网页之间增加链接,方便用户使用。

利用路径分析技术判定在一个Web站点中最频繁的访问路径,可以考虑把重要的商品信息放在这些页面中,改进页面和网站结构的设计,增强对客户的吸引力,提高销售量。

通过对Web Log的挖掘,发现用户的期望位置。如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点结构的优化。

5)确定异常事件

在商业各个领域中,异常事件具有显著的商业价值,如:客户流失、银行的信用卡欺诈、电信中移动话费拖欠等。通过数据挖掘从而进行奇异点分析,可以迅速准确地识别这些异常事件,为企业采取决策提供依据,减少企业不必要的损失。

4 结束语

电子商务正在企业和商贸领域占据着越来越多的市场份额,个性化的推荐服务是电子商务领域中出现的非常重要的新技术。通过Web数据挖掘技术对电子商务网站上的各种数据源进行挖掘,进行大量的数据分析,可以发现相关的一些知识模式,从而帮助企业更好地运作和向客户提供更优质的服务,充分发挥企业的独特优势,促进管理创新和技术创新。有效提高商业站点的竞争力。??

参考文献

[1]王继成,潘金贵,张福炎.Web文本挖掘技术研究[M].计算机研究与发展,2000.

[2]汤建超.电子商务中的web数据挖掘[J].南昌大学学报(理科版),2004.

[3]石岩.Web挖掘技术在电子商务中的应用[J].科技情报开发与经济,2006,16(23):235-236.

WEB挖掘与电子商务篇8

1 Web数据挖掘的概念

1.1 Web数据挖掘概述

Web数据挖掘 (Web Data Mining, 简称为DM) 是伴随着数据仓库和KDD (Knowledge Discovery in Database) 的研究发展起来的, 是一种从大型Web日志或数据仓库中发现并提取出隐藏在其中的信息的技术, Web数据挖掘从日志中提取人们感兴趣的可用信息和知识, 并将提取出来的信息和知识表示成概念、规则、规律和模式。

Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息;Web结构挖掘是用来提取网络的拓扑信息, 即网页之间的衔接的信息;Web使用挖掘是用来提取关于客户如何运用浏览器浏览和使用这些衔接的信息。

基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具, 也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。

1.2 面向电子商务的数据挖掘

面向电子商务的数据挖掘的特点就是从Web数据库中, 运用关联、分类、聚类等技术手段, 从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理, 通过收集、分析和处理从网上获取的有关消费者消费行为的数据, 确定特定消费群体或个体的消费习惯、爱好、倾向, 进而预测出消费者下一步的消费行为, 有针对性地提供服务。这比不加判断, 对所有客户均使用同样的营销策略的方式要有效的多, 它将大大削减成本, 为商家带来更多的利润。

2 数据挖掘技术与电子商务的结合

2.1 电子商务中Web数据挖掘的数据源

用户在Internet上漫游时, 只要浏览了某个电子商务的网站, 就会在这个网站的服务器日志文件上留下记录。这些记录保存在服务器的访问日志、引用日志和代理日志中。具体数据源有以下几种形式。

2.1.1 服务器端的数据

当客户访问服务器时, 就会在服务器上留下相应的数据, 这些数据主要是以日志文件的方式存储的, 日志中清楚地记录了客户的访问行为。一般包括servers logs、error logs、cookies logs等。

2.1.2 代理 (Proxy) 服务器端数据

代理服务器相当于在客户浏览器和Web服务器之间提供了缓存功能的中介服务器.它的缓存功能减少了Web服务器的网络流量, 加快了网页的运行速度, 同时将大量的用户访问信息通过代理日志的形式保存起来。

2.1.3 客户登记信息

客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息, 这些信息通常是关于用户的人口特征。在Web的数据挖掘中, 客户登记信息需要和访问日志集成, 以提高数据挖掘的准确度, 使之能更进一步的了解客户。在面向电子商务的数据挖掘中, 将客户登记信息和服务器日志有效地结合起来进行分析, 可以提高挖掘的精度和深度, 得出更理想的结果。

2.2电子商务中数据挖掘的流程和方法

2.2.1 Web数据挖掘的基本流程

对在线访问客户数据的挖掘主要有两部分:一部分是客户访问信息的挖掘, 另一部分是客户登记信息的挖掘。面对大量的访问日志, 首先要做的就是对数据进行清洗, 即预处理, 把无关的数据, 不重要的数据等处理掉;接着对数据进行事务识别, 通过对事务进行划分后, 就可以根据具体的分析需求选择模式发现的技术, 如路径分析, 兴趣关联规则, 聚类等。

2.2.2 Web数据挖掘的技术

1) 路径分析

路径分析是一种找寻频繁访问路径的方法, 它通过对Web服务器的日志文件中客户访问站点的访问次数分析, 挖掘出频繁访问路径, 通过路径分析, 可以得到重要的页面, 可以改进页面及网站结构的设计。

2) 兴趣关联规则

关联规则主要关注事物内的关系。当客户访问某一网页时, 一般会通过兴趣词条找出相关的兴趣网页通过链接继续访问, 这种关联产生的数据如果能够按照某种策略进行挖掘分析, 统计出客户访问某些页面及兴趣关联页面的比率, 就可以很好的组织站点, 实施有效的市场策略。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系, 可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性, 可以更好的组织站点的内容, 实施有效的市场策略, 增加交叉销售量, 同时还可以减少用户过滤信息的负担。

3) 序列模式

序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式, 在Web日志中发现所有满足用户规定的最小支持度的大序列模式。它能够便于进行电子商务的组织预测客户的访问模式, 对客户开展有针对性的广告服务。通过系列模式的发现, 能够在服务器方选择有针对性地页面, 以满足访问者的特定要求。

4) 分类规则

分类发现就是给出识别一个特殊群体的公共属性的描述, 分类是将数据项按照预先定义的类别进行划分。在Web日志挖掘领域中, 分类主要是将用户配置文件归属到既定的用户类别。分类技术要求抽取关键属性描述已知的用户类别。

5) 聚类分析

在电子商务的数据挖掘中, 对日志的聚类分析是一种很好的挖掘方法。聚类分为对客户群体的聚类和Web页面的聚类。其中客户群体的聚类在电子商务和用户提供个性化服务的应用中起着很重要的作用。要想了解客户群体的聚类, 首先要对客户的浏览行为进行描述。通过对聚类客户特征的提取, 电子商务网站可以为客户提供个性化的服务。

3 Web数据挖掘在电子商务中的应用

3.1 智能化搜索引擎的应用

电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息, 目前的搜索引擎存在着查准率低、返回无用信息多的问题, 使企业无法得到优质的信息。将Web数据挖掘技术应用于搜索引擎, 使之成为智能搜索引擎, 从而提高性能, 满足电子商务企业的需要。通过对网页内容的挖掘, 可以实现对网页的聚类和分类, 实现网络信息的分类浏览与检索;通过用户使用的提问式历史记录分析, 可以有效地进行提问扩展, 提高用户的检索效果 (查全率、查准率) ;通过运用Web挖掘技术改进关键词加权算法, 可以提高网络信息的标引准确度, 改善检索效果。

3.2 客户关系管理中的应用1) 发现潜在客户

对客户和他们行为的有效数据收集, 发现潜在的市场和客户, 从而获得更高的商业利润, 通过完善的客户服务和深入的客户分析来满足客户的需求, 保证实现客户的终生价值。通常的策略是先对己经存在的访问者进行分类, 对于一个新的访问者, 通过在Web上的分类发现, 识别出这个客户与己经分类的老客户的一些公共的描述, 从而对这个新客户进行正确的分类。然后从它的分类判断这个新客户是属于有利可图的客户群, 还是属于无利可图的客户群, 决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后, 就可以对客户动态地展示Web页面, 页面的内容取决于客户与销售商提供的产品和服务之间的关联。

2) 提供优质个性化服务

通过Web数据挖掘, 可以理解访问者的动态行为, 据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类, 对不同类的客户提供个性化服务来提高客户的满意度, 从而保持老客户;通过对新访问者的网页浏览记录进行分析, 就可以判断出该访问者是属于哪一类客户, 是有利可图的潜在客户还是毫无价值的过客, 达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的, 从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组, 提取组中客户的共同特征, 从而实现客户的聚类, 这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向, 预测他们的需求, 有针对性地向他们推荐特定的商品并实现交叉销售, 可以提高交易成功率和交易量, 提高营销效果。

3.3 网络安全

分析网上银行、网上商店交易用户日志, 可以防范黑客攻击、恶意诈骗。

4 结论

电子商务正在企业和商贸领域占据着越来越多的市场份额。Web数据挖掘是近几年来数据挖掘领域的探讨热点, 利用它的技术知识将它运用到电子商务, 将会解决许多实际问题, 具有丰富的学术价值。我国在这一领域正处在研究开发阶段, 应用和产品还相对滞后, 但现在正在起步, 这一新兴领域具有良好的发展和应用前景, 而且有很好的商业机会。

参考文献

[1]陆垂伟.电子商务中数据挖掘技术的研究与应用[J].商场现代化, 2006 (04) .

[2]李凤慧.面向电子商务的Web数据挖据的研究[D].山东科技大学硕士学位论文, 2004 (06) .

[3]郝先臣, 张德干, 尹国成, 等.基于电子商务中的数据挖掘技术研究[J].小型微型计算机系统, 2001, 22 (7) :785-788.

[4]汤建超.电子商务中的Web数据挖掘.南昌大学学报[J].2003 (2) :199.

【WEB挖掘与电子商务】推荐阅读：

数据挖掘电子商务应用中调研报告08-23

数据挖掘技术的电子商务系统研究论文11-26

Web挖掘研究01-21

Web日志挖掘05-09

WEB使用挖掘06-09

Web结构挖掘08-16