数据挖掘模式

2024-08-30

数据挖掘模式(精选12篇)

数据挖掘模式 篇1

数据挖掘是指人们从自身感兴趣的知识与数据中挖掘出潜在的、隐含的未知有用信息,信息提取的过程被称为数据挖掘。大数据作为互联网发展到当前的一个显著趋势,与云计算、物联网等技术共同构成了新的网络发展潮流。数据挖掘作为一门交叉学科,涉及数据可视化、统计学、高性能计算、人工智能、模式识别、机械学习、归纳推理、数据库等诸多技术,在应对当前快速发展的各行各业大规模数据处理与分析方面具有显著优势,已经成为目前深受学界重视的热门研究领域[1]。大数据当前最具代表性的是电商数据,这种新型的O2O(Onlineto-Oline)电子商务模式引领着大数据发展潮流,下面我们以O2O电商大数据模式为例研究下线上线下的电商用户数据挖掘。

1 大数据环境下O2O电商用户数据分析

O2O电子商务模式是近年来兴起的新商业模式,以电商平台为纽带,将实体经济与线上资源相结合,构建经济延伸渠道,利用线上服务挖掘吸引客源,利用线下平台完成积极交流活动,目前以淘宝、天猫、京东、苏宁等多家电商平台为众人所熟知。O2O电商模式在2006年最先由沃尔玛公司启用,发展到现在,已经与社交网络、移动终端(手机、平板电脑等)紧密结合,以团购等形式出现,配合移动优惠、线上个性服务、增值服务等形成了新的商业形态,国内外从事电商的企业更是数以千计,比如淘宝网、腾讯网、拉手网、推特、百度等,诸多业界巨头迅速跟进,尤其是2013年淘宝天猫日交易量超过300亿元更是占据交易量榜首。电商发展到现在,已经成为拥有众多用户数据的强大平台,数据的暴增与社会化逐渐模糊了电商企业的数据边界。海量的用户数据超越了目前人力处理范畴,诸如数据冗余、数据过载、数据捕获情况快速增长,面对此种情况,应用大数据模式做数据挖掘已经成为必然,是解决电商大数据压力的首要手段。当前电商发展已经进入大数据时代,用户数据以每年平均60%的速度快速增长,企业平均利用率不到5%,用户数据作为宝贵资源并未发挥出自身价值,所以进行数据挖掘具有重要意义[2]。

2 大数据环境下O2O电商用户数据挖掘研究

2.1 O2O电商用户数据挖掘框架

电商用户数据的大数据特征意味着传统数据分析技术无法高效的挖掘利用其潜在价值,同样是提取有效未知信息,数据挖掘是将其增值的过程,且数据挖掘优越性主要表现在以下三个方面:一是数据挖掘处理处理规模以PB级别甚至更大量级别论处,二是数据挖掘不仅可处理静态结构化数据,其在处理非结构化、半结构化及实时数据方面更具优势,三是数据挖掘在分析手段和方法上更加多元化复杂化,包括机器学习、人工智能算法等等,可更好地服务于数据潜力未知知识的挖掘。传统数据分析方法如平滑、滤波、傅里叶变换、极限与峰值等在大数据环境下发挥作用有限,对数据分析师及分析过程极为依赖,且只能处理结构化数据,分析速率慢,缺乏实时性,数据价值不高,对比数据挖掘方法而言,弊端众多[3]。

结合电商大数据特殊性来看,应用数据挖掘法才可以从以PB和EB级计的数据中及时挖掘高价值未知信息,服务电商企业发展与竞争。所以,当前大数据挖掘模式已经成为电商竞争的重要领域,从数据海洋中寻找规律成为必然。就目前而言,结合电商大数据特点,数据挖掘框架结构设计如下,利用此结构可获得价值更高、更为精准的数据信息,实现实时响应。

2.2 电商用户数据挖掘流程

传统数据分析流程比起大数据挖掘分析利用要简单许多,利用分类算法与预测算法对抽样选择的元数据进行连续取值和离散类别。大数据挖掘与其相比,更类似于知识被自动发现的过程,在无目标无限制条件下从多个庞大数据源获取数据,并对其进行预处理,利用人工智能算法与机器学习处理挖掘数据,获得价值较高的潜在信息。在电商数据挖掘中,需要注意一个要点,电商用户数据具有群体性特征,可根据不同群体用户特征挖掘用户个人特点,获得价值含量较高的信息,服务电商经营发展与管理。电商用户的数据挖掘流程,首先要从电商平台、社交网络、O2O平台获取数据,进行解析、清洗与重构,经过数据过滤与映射之后,进行数据抽取和关联数据融合,应用数据模型进行挖掘,并最终将挖掘到的高价值信息进行应用,服务于电商平台个性化功能的打造与升级,简单来说,数据挖掘流程可简化为收集——准备——转化——抽取——挖掘——应用六大步骤。

2.3 电商用户数据挖掘方法

大数据挖掘应用关联规则、聚类与分类方法等可有效预测未来发展趋势,作出高价值有效决策,服务电商用户数据的挖掘应用。关联规则分析包括因果、时序、简单关联三类,在数据挖掘中通过分析找出关联关系,从而提炼出影响用户需求及行为的关键因素,为电商经营运行提供风险评估、风险预测、经营决策支持等。聚类与分类分析中,聚类分析用于市场细分,研究不同客户群行为特征,方便用户背景与兴趣归类和购买预测等,分类分析则是根据对象共同特点挖掘分类并建立相关模型,映射到特定类型,可用于用户满意度、用户群体特征与属性、购买趋势预测分析。社会网络分析主要针对不同社会单位如个人、群体或社会等分析其关系结构和属性,专注用户间关系,通过研究描述这种关系流动情况来获得各类信息及资源等。变化与偏差分析主要针对用户异常数据的发现、识别与流失预警等,对于不满足规则的特例、预测模型偏差与量值变化等潜在知识进行挖掘。

2.4 电商用户数据的挖掘应用

大数据模式的数据挖掘在O2O电商用户数据中的应用,可有效挖掘用户潜在心理与行为特征,分析兴趣焦点所在,对于摸清其消费习惯更好的调整经营战略有重要意义,便于电商平台制定更加高效精准的市场发展对策,及时掌握市场变化与用户需求变化,从而在电商平台上提供更加及时且个性化的服务,提升经济效益,将用户潜在信息价值转化为支持电商企业决策的潜力。大数据模式下的用户数据挖掘应用可更好的细化市场,挖掘用户行为需求与准则,让电商平台争取到更多的商家资源,吸引大量消费者,提升信赖度与依赖度,便于电商的精准营销。数据挖掘的应用有利于进一步优化电商平台网络,提供更好的用户服务,有利于稳定客户关系,进一步锁定潜在用户,还可大力发展电商增值服务,防范该平台上的用户欺诈等行为,做好风险管理,保护数据信息与用户合法权益。

综上所述,随着大数据、云计算、物联网等技术潮流来袭,基于大数据模式的数据挖掘可更好的挖掘其潜在高价值信息,推动社会发展与技术升级,实现到数据为王的转变,尤其是O2O电商平台,将在大数据模式下的数据挖掘中迎来更好的发展,创造巨大的商业价值,因此必须加快数据挖掘与应用的研究、探索与实践。

参考文献

[1]刘大有,陈慧灵,齐红,杨博.时空数据挖掘研究进展[J].计算机研究与发展,2013(2).

[2]李晋,杜庆东,穆宝良.基于SOA的数据挖掘服务整合研究与设计[J].沈阳师范大学学报:自然科学版,2010(2).

[3]段晓华.数据挖掘技术在电子商务客户关系管理中的应用研究[J].湖南文理学院学报:自然科学版,2010(2).

数据挖掘模式 篇2

一、多数据格式是多源空间数据集成的瓶颈

1、空间数据多源性的产生和表现

空间数据多源性的产生和表现主要可以概括为以下几个层次:

(1)多语义性

地理信息指的是地理系统中各种信息,由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。对于同一个地理信息单元(feature),在现实世界中其几何特征是一致的,但是却对应着多种语义,如地理位置、海拔高度、气候、地貌、土壤等自然地理特征;同时也包括经济社会信息,如行政区界限、人口、产量等。一个GIS研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。

(2)多时空性和多尺度

GIS数据具有很强的时空特性。一个GIS系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。不仅如此,GIS会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。GIS数据集成包括不同时空和不同尺度数据源的集成。

(3)获取手段多源性

获取地理空间的数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。这些不同手段获得的数据其存储格式及提取和处理手段都各不相同。

(4)存储格式多源性

GIS数据不仅表达空间实体(真实体或者虚拟实体)的位置和几何形状,同时也记录空间实体对应的属性,这就决定了GIS数据源包含有图形数据(又称空间数据)和属性数据两部分。图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。

2、多源空间数据集成的迫切性

随着Internet网络的飞速发展和普及,信息共享已经成为一种必然的要求。地理信息也不例外,随着信息技术以及GIS自身的发展,GIS已经从纯粹地学技术系统的圈子跳了出来,正和IT行业完全融合,人们对空间信息的需求也越来越多。GIS要进一步发展,必须完全融入大型MIS(管理信息系统)中。1998年美国副总统戈尔提出数字地球的概念,更是将地理信息技术推到了最前沿。然而地理信息要真正实现共享,必须解决地理信息数据多格式、多数据库集成等瓶颈问题。随着技术发展,GIS已经逐步走向完全以纯关系数据存储和管理空间数据的发展道路,这为GIS完全和MIS无缝集成迈出了重要的一步。但因为GIS处理的数据对象是空间对象,有很强的时空特性,获取数据的手段也复杂多样,这就形成多种格式的原始数据,再加上GIS应用系统很长一段时间处于以具体项目为中心孤立发展状态中,很多GIS软件都有自己的数据格式,这使得GIS的数据共享问题变得尤为突出。

空间数据作为数据类型的一种,同普通数据一样需要走过从分散到统一的过程。在计算机的发展过程中,先是数据去适应系统,每一个系统都为倾向于拥有自己的数据格式;随着数据量的增多,数据库系统应运而生;随着时代的发展,信息共享的需求越来越多,不同数据库之间的数据交换成了瓶颈;SQL(标准结构化查询语言)以及ODBC的出现为这一难题提供了比较满意的解决方案。但是空间数据如何引进这种思想,或者说将空间数据也纳进标准组织和标准协议进行规范和管理,从而使空间数据共享成为现实。

二、GIS多源数据集成模式比较

由于地理信息系统的图形数据格式各异,给信息共享带来了极大的不便,解决多格式数据源集成一直是近年来GIS应用系统开发中需要解决的重要问题。目前,实现多源数据集成的方式大致有三种,即:数据格式转换模式、数据互操作模式、直接数据访问模式。、数据格式转换模式

格式转换模式是传统GIS 数据集成方法(图1)。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。这是目前GIS系统数据集成的主要办法。目前得到公认的几种重要的空间数据格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。数据转换模式主要存在的问题是:

(1)由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。

(2)这种模式需要将数据统一起来,违背了数据分布和独立性的原则;如果数据来源是多个代理或企业单位,这种方法需要所有权的转让等问题。美国国家空间数据协会(NSDI)确定制定了统一的空间数据格式规范SDTS(Spatial Data Transformation Standard),包括几何坐标、投影、拓扑关系、属性数据、数据字典,也包括栅格格式和矢量格式等不同的空间数据格式的转换标准。许多软件利用SDTS提供了标准的空间数据交换格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模块,Intergraph公司在MGE产品系列中也支持SDTS矢量格式。SDTS在一定程度上解决了不同数据格式之间缺乏统一的空间对象描述基础的问题。但SDTS目前还很不完善,还不能完全概括空间对象的不同描述方法,并且还不能统一为各个层次以及从不同应用领域为空间数据转换提供统一的标准;并且SDTS没有为数据的集中和分布式处理提供解决方案,所有的数据仍需要经过格式转换复制到系统中,不能自动同步更新。、数据互操作模式

数据互操作模式是OpenGIS consortium(OGC)制定的规范。OGC是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利组织。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能读取任意数据服务器提供的空间数据。OGC规范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC规范正得到OMG和ISO的承认,从而逐渐成为一种国际标准,将被越来越多的GIS软件以及研究者所接受和采纳。目前,还没有商业化GIS软件完全支持这一规范。数据互操作为多源数据集成提供了崭新的思路和规范。它将GIS带入了开放式的时代,从而为空间数据集中式管理和分布存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上。但是OGC标准更多考虑到采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些历史存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。而从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据的主体。

数据互操作规范为多源数据集成带来了新的模式,但这一模式在应用中存在一定局限性:首先,为真正实现各种格式数据之间的互操作,需要每个每种格式的宿主软件都按照着统一的规范实现数据访问接口,在一定时期内还不现实;其次,一个软

件访问其他软件的数据格式时是通过数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也就是说,用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。

3、直接数据访问模式

顾名思义,直接数据访问指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。直接数据访问不仅避免了繁的数据转换,而且在一个GIS软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据集成模式。

目前使用直接数据访问模式实现多源数据集成的GIS软件主要有两个,即: Intergraph 推出的GeoMedia系列软件和中国科学院地理信息产业发展中心研制的SuperMap。GeoMedia实现了对大多数GIS/CAD软件数据格式的直接访问,包括:MGE、Arc/Info、Frame、Oracle Spatial、SQL Server、Access MDB等(图2)。SuperMap 2.0则提供了存取SQL Server、Oracle Spatial、ESRI SDE、Access MDB、SuperMap SDB文件等的能力,在以后的版本中将逐步支持对Arc/Info Coverage、AutoCAD DWG、MicroStation DGN、ArcView等数据格式的直接访问。

三、多源空间数据格式集成的展望、文件方式和数据库方式

传统的空间数据往往采用文件方式,随着技术的进步,逐渐将属性数据移植到数据库平台上;随着技术发展,图形数据也可以和属性数据一起存放在关系数据库中。文件方式对数据管理安全性较差,存在着属性和图形分开管理的问题,不适合网络共享发展的需要;数据库方式则实现了空间数据和属性数据一体化存储和管理,便于开发两层、三层甚至多层网络应用系统。从发展趋势来看,纯关系数据库方案取代文件方案是发展的必然趋势,这也是IT发展的主流趋势。随着对信息量需求的增大以及信息需求种类增多,数据仓库的建立,将是GIS文件系统向数据库系统发展的主流。、OpenGIS、SDTS与DLG/F

OpenGIS是目前的主流标准,但SDTS并不会停滞不前,相反笔者认为SDTS将会与OpenGIS走向一体化。SDTS 可以为OpenGIS提供一个转换和存取空间数据的标准,该标准是不依赖任何一种特定GIS软件格式的,该标准中利用头文件描述格式的方式使得数据服务者不必专门提供格式说明,而数据客户也不必专门学习该格式,只需读取SDTS头文件就可获得数据服务者提供的数据格式。笔者认为利用SDTS做数据标准,利用OGC作数据互操作的标准(例如空间SQL标准),简单地说就是如果说SDTS提供了数据格式的头文件,而OGC标准则提供了读写这个头文件的标准方法。如果再采用数据库作后台,利用空间数据引擎,空间数据引擎按照SDTS存取空间数据,按照OGC标准对客户软件提供操作接口,这将是空间数据集成的理想解决方案。USGS还提供了一种称作DLG/F的标准,该标准设计了空间数据在数据库中的动态存储结构,利用该结构可以将拓扑关系动态记录下来,同时可以让用户添加自定义的空间数据类型。怎样利用DLG/F完善SDTS和OpenGIS也将是OpenGIS以及SDTS发展的方向。、统一空间实体编码

多源空间数据据格式集成还有一个很重要的方面就是如何处理不同数据库对空间实体采用的编码方式不同的问题。从理论上来说,一个系统对同一空间实体的编码应该是唯一的,实际上由于不同领域从不同视角对同一空间实体编码并不一样,甚至会出现不同空间实体具有相同编码的情况,这些编码放在同一系统中,就会出现空间实体标识的严重问题。从目前来看,OpenGIS和SDTS都是基于地理特征(Feature)定义空间实体的,但都还不能真正提供一个通用的空间实体编码体系。

参考文献

1.On spatial database integration, Thomas Devogele ,Geographical Information Science, 1998,12(4)

2.Issues and prospects for the next generation of the spatial data transfer standard(SDTS), DAVID ARCTUR, DAVID HAIR,GEORGE TIMSON, etc, Geographical Information Science, 1998,12(4)

3.Towards integrated geographic information processing,DAVID J.ABEL, BENG CHIN COOI, KIAN-LEE TAN etc, Geographical Information Science, 1998,12(4)

4.A framework for the integration of geographical information systems and modelbase management , DAVID A.BENNETT, Geographical Information Science, 1997,11(4)

数据挖掘模式 篇3

本届论坛邀请到四位专家做主题发言:中国移动研究院用户与市场研究所副所长林琳女士;北京开路先锋电子商务有限公司总经理(创始人)、阿里巴巴集团-淘宝天下华北区总监蒋浩先生;外交学院国际经济学院教师,兼任中国人民大学六西格玛管理研究中心研究员的付韶军教授;中国传媒大学新媒体研究院副院长曹三省教授。

服装学院仲丛生副院长致开幕词。仲丛生副院长首先对各位嘉宾及参与论坛的师生表示热烈的欢迎,并指出在经济新常态下,互联网和时尚产业都是当前我国经济社会发展的重要引擎,“互联网+”已经触及每个行业,时尚产业如何应对与融合成为各界关注的焦点,大数据交易商品经济必然成为“互联网+”的重要组成部分。

中国移动研究院用户与市场研究所副所长林琳女士以《互联网运营及营销》为题发表了精彩演讲。林琳女士以“总理的一杯咖啡”为引例,以1997-2012年高考录取率数据为背景,探讨了大学生通过互联网平台创业的必要性和现实途径。林琳女士从她提供咨询的创业项目中所存在的问题出发,提出了电商创业要考虑的四个视角,即用户、产业生态、边界跨界无界、变与不变。

北京开路先锋电子商务有限公司总经理蒋浩先生是北京服装学院商学院广告学专业2006届毕业生,他的到来,令北服商学院师生倍感亲切。今年蒋浩先生毕业刚好从北服10年,他以《十年历程——但愿每次回忆,对生活都不感到负疚》为题,分享了毕业后的10年中他的工作和创业经历,并结合自己的创业经历,蒋浩先生从方向、模式、团队、资金四个方面介绍了创业需要考虑的问题和要做的准备,作为有阿里巴巴工作经历的电子商务创业者,他风趣地用淘宝语言激励大家工作和创业,引得大家会心微笑和沉思。

外交学院国际经济学院付韶军教授的演讲《互联网+、数据挖掘与快时尚产业》运用翔实的数据,介绍了世界快时尚品牌在中国的发展现状,论述了大数据对于提升企业商业价值的作用。他以ZARA和优衣库为案例,介绍了快时尚企业对互联网大数据的应用,包括如何在营销环节收集销售数据、掌握用户对服装的需求和意见,如何运用大数据分析在企业经营的各个环节制定决定。数据表明依托大数据分析,ZARA和优衣库有效地加快了服装新品上市的周期,极大地降低了库存和成本,形成了对市场的快速反应。最后付韶军教授介绍了快时尚产业可采用的数据分析方法。

中国传媒大学新媒体研究院副院长曹三省教授的演讲《虚拟现实新媒体进展与应用》介绍了虚拟现实(Virtual Reality,简称VR,又译作灵境、幻真)、增强现实技术(Augmented Reality,简称 AR)、混合现实技术(Mix reality,简称MR)和扩展现实技术(ER)等新媒体技术的最新进展,指出无论寄身于何样的技术躯壳,新媒体技术始终承载着人们桥接现实与想象、对冲物质与精神、贯通眼耳鼻舌手身与心灵意识思维的无止境的梦想与希冀。

最后,北京服装学院商学院院长李晓慧教授做总结发言。她指出,本次论坛具有三大特点,即大数据引领时尚潮流、大数据从概念化迈向价值化以及以创新应对挑战。通过这次论坛,使与会人员拓展了思路,了解了互联网与时尚产业结合的前沿成就,对今后的教学和科研工作大有裨益。同时李晓慧院长也指出,应当将时尚概念植入专业建设,构建时尚专业教育结构体系,抢占时尚教育业的高地和先机。

数据挖掘模式 篇4

后序列模式挖掘 [2]是在序列模式挖掘技术基础之上, 试图找出序列模式之间的关系, 并进一步挖掘一种新的知识——结构关系模式 (Structural Relation Pattern) 。它不是传统的结构模式 (Structured Pattern) 的概念。结构关系模式挖掘的主要任务是挖掘出序列模式之间的进一步联系, 包括并发关系、互斥关系、重复关系等[3]。与序列模式挖掘一样, 结构关系模式挖掘将在许多基于事件的或与序列相关的领域有重要应用。

本文将重点讨论结构关系模式的一种重要形式——重复关系模式的概念及重复序列模式的性质和挖掘方法。

1 相关概念

序列模式的概念最早是由Agrawal和Srikant 提出的。给定一个由不同序列组成的集合, 其中, 每个序列由不同的元素按顺序有序排列, 每个元素由不同项目组成, 给定用户指定的最小支持度, 经挖掘后产生所有的频繁子序列, 构成序列模式。

序列模式挖掘, 就是找出所有的频繁子序列, 即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

结构关系模式是在序列模式基础上提出来的, 它首先研究的是序列模式之间的关系, 然后再把这种关系进一步分解、细化, 整合成一种由并发、互斥、重复及串行关系组成的复合模式。

重复关系模式是结构关系模式之一。

2 重复序列模式

定义1:重复序列 对于序列q, 若它只由一个子序列s重复组成, 称q为相对于s的重复序列, 简称重复序列。s的重复次数称为q的重复度, 记为iter (q) 。这里规定, 重复序列的重复度不能小于2。

例如, 对于子序列s, 序列ss、sss、ss…s都可以称作重复序列, 它们的重复度分别是2、3和n。

定义2:重复序列支持度 对于给定的客户序列数据库CSDB, 重复序列α的支持度support (α) 可以定义为CSDB中出现重复序列α 的客户序列的频度。即:

support (α) =|{c|a∠c, c∈CSDB}|/|CSDB|

其中, α∠c表示重复序列α是客户序列c的子序列.|…|表示序列的个数。

定义3:重复序列模式 对于重复序列α, 若其支持度support (α) 大于等于用户指定的最小支持度minsup, 即:support (α) ≥minsup, 则称α为重复序列模式 (ISP, Iterate Sequential Pattern) , 本文以下简称为重复模式。

若α是相对于子序列s的重复序列模式, iter (α) =n, 则α可表示为{s}n , 即:α={s}n

例1.在给定的CSDB={<α (α, b, c) (α, c) d (c, f) >, < (α, d) c (b, c) (α, c) >, < (e, f) (α, b) (d, f) c b>, }中, 设minsup=50% , 则可得到两个重复模式:{α}2和{c}3。

定义4:最大重复序列模式 对于客户序列数据库CSDB及用户指定的最小支持度minsup, 若ISP为所有重复模式组成的集合, 则重复模式α∈ISP称为最大重复模式, 当且仅当不存在任何重复模式β∈ISP, α≠β, 使得α∠β。

CSDB上所有最大重复模式组成的集合称为CSDB的最大重复模式集。

3 重复序列模式挖掘

定理1:重复序列模式是序列模式。换句话说, 若q是重复序列, 则q是重复序列模式的充分必要条件是q是序列模式。

证明:从重复序列模式与序列模式概念的对比可以看出, 它们的定义中除了重复性要求外, 其它完全一致。而q满足重复性要求。所以, q是重复模式, 则一定是序列模式;反之亦然。

根据定理1, 所有序列模式的性质及定理完全适用于重复模式。重复序列模式挖掘可以在序列模式挖掘的基础上进行。

算法1:基于序列模式的重复序列模式挖掘

输入:客户序列数据库CSDB, 最小支持度minsup

输出:满足最小支持度minsup要求的重复模式集ISP

方法:

(1) 令ISP为空

(2) 根据最小支持度minsup, 用序列模式挖掘方法在CSDB上进行序列模式挖掘, 得到序列模式集SP;

(3) 对于任何一个序列模式p∈SP,

如果p是一个重复序列, 则令ISP=ISP∪{p}

(4) 输出ISP

性质1 :重复模式具有反单调特性, 即如果x是重复模式, 则其任何子模式也都是重复模式;反之, 如果模式x的任何一个子模式不是重复模式, 则x就不是重复模式。

Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论, 这个理论的核心思想是:频繁项目集的子集是频繁项目集;非频繁项目集的超集是非频繁项目集[4]。这个理论就是频繁项集的Apriori性质。

本性质与频繁项集的Apriori性质相似, 此处证明略。本性质将在进行重复模式挖掘过程中将起到重要作用。

由于重复序列的反单调特性, 我们在求重复模式时将可以只求出最大的重复模式, 这样可以用最少的重复模式表示整个重复模式集。

定理2: 任何一个重复模式都是某一最大重复模式的子序列 (子模式) 。

根据性质1可以证明此定理。

引理1:重复模式是最大序列模式的子模式。换句话说, 若q是重复序列, 则q是重复模式的充分必要条件是存在一个最大序列模式s, 有q∠s。进而, 最大重复模式是最大序列模式的子模式。

证明:任何一个序列模式都是最大序列模式的子模式, 重复模式是序列模式 (定理1) , 所以重复模式是最大序列模式的子模式。最大重复模式是重复模式, 所以, 最大重复模式是最大序列模式的子模式。

有些序列模式挖掘算法可以直接得到最大序列模式集, 该集合最小化表示了序列模式挖掘结果。根据引理1, 重复模式挖掘还可以在最大序列模式集的基础上进行。

算法2:基于最大序列模式集的重复序列模式挖掘

输入:客户序列数据库CSDB, 最小支持度minsup

输出:满足最小支持度minsup要求的重复模式集ISP

方法:

(1) 令ISP为空

(2) 根据最小支持度minsup, 用最大序列模式集挖掘方法在CSDB上进行序列模式挖掘, 得到最大序列模式集MAXSP;

(3) 对于任何一个序列模式p∈MAXSP, 如果p包含一个重复序列q, 则令ISP∪{q}

(4) 输出ISP

算法3:基于最大序列模式集的最大重复序列模式挖掘

输入:客户序列数据库CSDB, 最小支持度minsup

输出:满足最小支持度minsup要求的重复模式集MAXISP

方法:

(1) 令MAXISP为空

(2) 根据最小支持度minsup, 用最大序列模式集挖掘方法在CSDB上进行序列模式挖掘, 得到最大序列模式集MAXSP;

(3) 对于任何一个序列模式p∈MAXSP, 如果q是p包含的一个重复序列

a) 对于任何一个isp∈MAXISP,

若isp∠q, 则令MAXISP= (MAXISP-{isp}) ∪{q};

否则若q∠ isp, 则退出循环, 执行步骤b) .

b) 若q与 MAXISP中任何一个元素都没有包含或被包含关系, 则令MAXISP=MAXISP∪{q}

(4) 输出MAXISP

4 实验

本节以例1所给定的客户序列数据库CSDB为例, 分别按照算法1、算法2和算法3进行重复模式挖掘。挖掘条件是minsup=50%。

例2.算法1的挖掘过程。

(1) 在CSDB基础上, 用常规序列模式挖掘算法得到序列模式集, 见表1。

PID:序列模式标识号, SP:对应的序列模式

(2) 在上表中, 找出所有重复序列, 得到: (a) (a) , (c) (c) 和 (c) (c) (c) , 分别将它们加入到ISP中;

(3) 最后得到重复序列模式集:{{a}2, {c}2, {c}3}

例3.算法2的挖掘过程。

(1) 在CSDB基础上, 挖掘得到最大序列模式集, 见表2。

PID:序列模式标识号, SP:对应的序列模式

(2) 在上表中, 找出各最大序列模式的所有重复子序列。

根据 (a) (b, c) (a, c) , 得到两个重复序列 (a) (a) 和 (c) (c) , 分别将它们加入到ISP中;

根据 (a) (c) (c) (c) , 得到两个重复序列 (c) (c) 和 (c) (c) (c) , 分别将它们加入到ISP中;

(3) 最后得到重复序列模式集ISP:{{a}2, {c}2, {c}3}

例4.算法3的挖掘过程。

(1) 在CSDB基础上, 挖掘得到最大序列模式集, 见表2。

(2) 在表2, 找出各最大序列模式的所有重复子序列。

根据 (a) (b, c) (a, c) , 得到两个重复序列 (a) (a) 和 (c) (c) , 由于MAXISP中不包含这两个序列, 分别将它们加入到MAXISP中;

根据 (a) (c) (c) (c) , 得到两个重复序列 (c) (c) 和 (c) (c) (c) , 由于MAXISP中已经有 (c) (c) 序列, 由这里得到的序列 (c) (c) 不再加入到MAXISP中。由于 (c) (c) (c) 包含 (c) (c) , 所以将MAXISP中的 (c) (c) 删除, 将 (c) (c) (c) 加入到MAXISP中;

(3) 最后得到最大重复序列模式集MAXISP:{{a}2, {c}3}

5 结束语

结构关系模式挖掘的目的是挖掘在基于事件数据和序列数据中隐含的分支模式、互斥模式以及重复模式, 以解决常规挖掘任务不能解决的问题。结构关系模式挖掘可应用到基于事件数据分析的各个领域。重复关系模式挖掘对于发现数据之间的重复关系起到关键作用。对于存在着大量重复序列的DNA生物序列的信息分析、保险业的数据分析等很多领域都具有重大的指导意义。

在蕴含着重大意义的DNA生物序列中存在着大量的重复序列, 这些重复序列的种类也很多。将重复模式挖掘技术应用于生物信息中重复序列的挖掘, 也是结构关系模式挖掘中重复模式挖掘的主要应用领域之一。

参考文献

[1]Agrawal, R., Srikant, R..Mining Sequential Pat-terns[C].Eleventh International Conference on DataEngineering, IEEE Computer Society, Taipei, Tai-wan, 1995:3-14.

[2]Lu, J., Adjei, O., Chen, W.R., Liu, J..Post Se-quential Pattern Mining:A New Method for Discove-ring Structural Patterns[C].Proceedings of the 2ndInternational Conference on Intelligent InformationProcessing, Beijing, China, 2004:239-250.

[3]吕静, 王晓峰.序列模式图及其构造算法[J].计算机学报, 2004, 27 (6) :782-788.

修改数据库状态以便修改归档模式 篇5

第一步【关闭数据库】: shutdown immediate;

数据库已经关闭。

已经卸载数据库。

ORACLE 例程已经关闭。

第二步【打开数据库到mount状态】: startup mount;

ORACLE 例程已经启动。

Total System Global Area612368384 bytes

Fixed Size1250428 bytes

Variable Size142609284 bytes

Database Buffers461373440 bytes

Redo Buffers7135232 bytes

数据库装载完毕。

第三步【修改归档模式】: alter database archivelog;

数据库已更改。

第四步【打开数据库】:alter database open;

商业模式比财务数据更重要 篇6

计算机和互联网行业上市企业数量众多,传统上人们习惯于把这个行业分为软件公司和硬件公司。但是目前,软件公司和硬件公司之间越来越难以区分。例如苹果公司既做硬件又有自己的Apple Store。

在苹果颠覆手机行业格局的同时,中国的小米手机也在竞争激烈的手机市场横空出世,颠覆了在中国只能做低端手机的观念,把安卓系统的手机也做到了极致,雷军甚至与格力董事长董明珠打赌5年内超越格力电器。

所以,在这个颠覆的时代,我们认为不妨从商业模式的角度,打破传统的软件和硬件的划分界限,对计算机和互联网企业建立一套新的研究体系。

商业模式是什么? 商业模式的定义是:利益相关者的交易架构。通俗的说就是公司通过什么方式来赚钱。投资者如果能用一句话来洞察一个公司的商业模式,基本上就看懂了这个企业。例如,表面上可口可乐是通过卖饮料赚钱,快递公司是通过送物品来赚钱,而从商业模式角度来看,饮料公司是通过向消费者售卖广告给他们塑造感觉来赚钱,快递公司最大利润则是做金融服务。只有你搞懂了商业模式,你才会懂得房地产行业其实不属于建筑业而本质上属于金融公司,需要的是像银行一样快速融资,快速销售。

为何一定要搞懂一个公司的商业模式?

知名的投资大师巴菲特在一次巴菲特式午餐会上,与一个中国拍中者说:投资最重要的是商业模式。实际上,巴菲特之所以成功,就在于他非常看重一个企业的商业模式,而伯克希尔哈撒韦的辉煌就是一个成功商业模式的典范:利用保险浮存金和长期保险资金的低成本,长期持有伟大企业股权获得了超级成功。

中国有许多计算机和网络商业模式上创新的企业取得了成功。比如贩卖体验的腾讯、做交易平台的阿里巴巴,这两个典型拥有创新商业模式的上市公司在资本市场上的表现也是非常优秀。

商业模式分类的研究方式是研究软件和互联网企业最简洁和具有逻辑性的方法。虽然计算机行业缺乏统一的业务和客户属性,但其商业模式可以大体分为三类:

第一,项目型企业:企业实行项目化运营,通过参与招投标获得客户的个性化订单,通过实施、验收确认收入并回款,其中大部分参与政府客户的项目还需通过企业垫资执行。市场中一般做信息系统的都是属于项目型企业。A股里面主要有:银江股份、卫宁软件、东华软件等。

第二,产品型企业:企业实行产品化运营,通过销售特定领域的软件或硬件产品实现收入,有固定的研发、销售、运维团队。微软、用友软件、广联达,就是典型的产品型企业。

第三,平台型企业:拥有承载大量用户(或客户)的应用平台,通过直接向用户收费(B2C)或向第三方应用商或广告主收费(B2B2C)获得盈利。主要包括东方财富网,生意宝、三六五网、乐视网等。

数据挖掘模式 篇7

跟数据挖掘相关的学科门类较多, 其涉及的分类方法多种多样。根据挖掘角度的差异性, 可对数据挖掘方法归类。由挖掘任务的不同, 可将数据挖掘分为这几种类型:关联规则发现、数据总结、聚类、异常和趋势发现等;由挖掘对象的不同, 可将数据挖掘分为:面向对象数据库、文本数据源、异质数据库等;下文根据挖掘任务以及挖掘方法角度, 重点对数据抽取、分类发现、聚类和关联规则发现四种非常重要的发现任务进行阐述。一个典型的数据挖掘系统结构一般包括数据库、数据仓库等几个部分。如图1所示。

1.1数据抽取

数据抽取是对给定数据的紧凑描述, 其运用的手段就是对数据进行浓缩处理。其中, 最简单的一种数据抽取方法就是对数据库中的各字段上的统计值进行计算, 这些统计值一般包括和值、均值、方差值等, 另外, 使用折线图等图形对数据库字段进行表示也是一种比较传统而简单的数据抽取方法。数据挖掘关注的焦点是以数据泛化的视角来讨论数据总结。所谓数据泛化, 把低层次的数据抽象到高层次的一个过程。之所以把低层次的数据抽象到高层次, 这是因为大家有对视图从较高层次处理或者浏览有关数据的需要, 所以, 通过对数据进行多层次的泛化是有其合理的解释的。

1.2分类发现

在数据挖掘的所有任务中, 分类是其中极为重要的任务之一。在所有商业应用的数据挖掘任务中, 分类得到了最大范围的应用。我们知道, 分类的目标是构造分类函数或分类模型。在数据库中, 数据项在分类模型的作用下映射到某一个给定类别。在分类的用途中, 预测是其中一个较为重要的用途。通过预测, 从历史数据记录中推论得到给定数据的推广描述, 最后实现对未来数据的预测目标。在对分类器进行构造的过程中, 必须使用训练样本数据集作为输入。训练集一般由数据库记录或元组构成, 其中, 元组是由特征向量组成的。样本的一般形式为 (u1, u2, ..., un;c) ;其中ui为字段值, c为类别。

1.3聚类

聚类是把个体依据某种规律归类成为若干类别的过程。其最终目标是使相同类别的个体之间距离最小, 而不同类别个体间距离最大化。对于聚类而言, 其研究方法一般有四种:统计方法、机器学习方法、神经网络方法和面向数据库。通过对聚类分析方法的应用实践发现, 其仅仅适合于数据库较小的情形, 这是因为其不具备线性计算复杂度。

1.4关联规则发现

关联规则发现的主要对象是事务型数据库, 针对的应用是货篮数据。一般而言, 事务的组成部分不仅包括客户订购的物品, 还包括客户的标示号。随着条形码技术不断得到推广和应用, 采用前端收款机也可以获得大量的售货数据。所以, 通过分析历史事务数据, 可从顾客那里得到一些有价值的信息。比如, 更好的解决摆放货架商品和规划市场的问题。所以, 如果能从事务数据中找到关联规则, 这对于零售业等商业活动决策的重要性是不言而喻的。

2关联规则挖掘的并行算法分析

2.1并行算法的基本概念

所谓并行算法, 即对可同时执行的进程集合, 通过进程的协调作用, 达到求解问题的目的。并行算法的设计是为了使并行机的众多处理机作用得到最大程度的发挥, 这样就能更加快速有效解决问题。一般而言, 并行算法对并行机存在非常强的依赖性。并行机的不同算法对其有效性会产生影响。

2.2并行计算模型

要想对一个应用问题进行求解, 那么设计良好的并行算法极为重要。如果想让并行算法作为一个由程序实现结构依赖的算法, 那么抽象的并行计算机结构是非常有必要的。这样才能保障并行算法具有更广泛的适应性。并行计算模型作为一种并行计算机的抽象结构, 主要考虑到的是为了并行算法的设计。所以, 并行计算模型从实质意义上来讲, 它是某一类并行计算机的抽象。

2.3并行挖掘关联规则的算法

在通常情况下, 找出频繁项目集的付出的资金要比从频繁项目集中找出关联规则的费用高的多。鉴于此, 发现频繁项目集的并行算法就具备了重要的意义。产生候选集的算法的计算工作, 通常来讲, 可归类为两个步骤。其一为生成候选集, 其二为对候选集的计数。为达到处理器间进行工作分配的目的, 就需要使事务和候选集分配给各处理器的形式多样化。为达到更优的并发度, 候选集可选择并行计算, 或者是并行产生, 还可以是两者并行完成。

3小结

数据挖掘算法的并行性可对系统运行速度进行提升, 从而提高工作效率, 这是因为数据挖掘算法可实现对多个任务的执行。数据挖掘算法并行方式存在差异性, 所以, 必须根据实际情况使用恰当的挖掘方法, 从而让决策的作用得到最大程度的发挥。随着数据量处理规模的逐渐增大, 所以, 对数据挖掘算法并行性研究的意义是不言而喻的。

摘要:所谓数据挖掘, 就是指采用一些算法, 通过利用算法, 发现隐藏在数据中事先未知的、用户感兴趣的知识的一个过程。在本文中, 首先对数据挖掘任务和挖掘方法进行了阐述, 并对其数据挖掘算法并行模式进行了相关研究。

关键词:数据挖掘算法,并行模式

参考文献

[1]赵峰, 李庆华.并行序列挖掘的一种改进算法[J].华中科技大学学报 (自然科学版) .2003, 31 (10) :38-40.

[2]陈国良, 安虹等.并行算法实践[M].北京:高等教育出版社, 2004.

[3]马传香, 简钟.序列模式挖掘的并行算法研究[J].计算机工程, 2005, 31 (06) .

交通数据中频繁轨迹模式挖掘 篇8

在从相同长度的时空序列中发现时空周期性模式时, 一种算法被提出, 而且应用序列结构来支持时空查询的执行。但我们关心的是随机长度的序列趋势, 并且研究的点是不确定的取样点。在文献[6]中DSF_MINE算法在天气预报进行时空挖掘时被引进, 但是那篇文章研究了固定地点的随时间变化的属性间的关系, 但是没考虑算法怎样应用到运动对象的挖掘中。所以, 对于这种变化中的位置属性和对应的固定属性的关系的研究, 就显得尤为必要, 具体应用中, 用户什么时候进入某位置就需要被知晓, 所以时间戳也是我们关心的因素。这里提出两种算法MINE_ALLFP和MaxMOP, 分别用来发现所有的运动频繁集和最大频繁集。我们引入图的概念, 并且在发现频繁集的过程中引入一种类似图中路径来增加算法可行性, 为了控制住模式的可控性并且使得可控性的大小可变, 我们引入一种基于网格的簇集 (clustering) 技术。

为了达到最终目标——支持基于位置系统LBS的功能, 提出一种基于规则的位置预测算法, 来利用挖掘出来的规则预测一个运动对象的未来时刻的位置。其中运动规则是利用现提出的MINE_ALLFP算法对用户的历史运动信息进行挖掘得到的运动频繁集得到的。利用现提出的算法来预测未来用户的位置和用户的运动频繁集, LBS系统可以有效的给有交通LBS的用户和客户发生对应客户请求的信息。

2 运动模式的一些定义和问题描述

主要任务是研究T个时间段内N个对象的运动情况。空间方面, 关心二维参考平面内的位置信息, 用二维坐标 (x, y) 表示。时间方面, 关心时间区间max_span内位置变化的信息, 这个时间范围为[start, end]。给定一个最小时间间隔τ, 即从刚进入位置开始, 运动对象在τ时间内位置不会再变化。设时间段是T个单元时间间隔τ, 第i个时间段用ti表示 (1≤i≤T) 。

问题描述1:给定一个一般轨迹集合D, 一个二维参考平面M, 关注的时间区间max_span[start, end]和支持度的最小阈值min_sup。我们的任务就是从数据库中发现对象运动的所有的频繁模式。

问题描述2:给定用一系列的位置表示的轨迹的历史数据库DB={ ( (pi, vti) , 1≤i≤n}、取样时间间隔为τ、参考二维平面M、最大的时间限制max_gap、最小的支持度min_sup、最小的置信度min_conf。问题是从DB中发现所有符合阈值限制的频繁运动规则。

3 发现模式的算法MINE_ALLFP

处理之前, 用一个函数MINE_MS来使得我们可以从相同的输入中得到我们希望的模式。运动对象数据库DB首先按照物体标识符的Оj分类, 在同一个对象的信息内部是按照时间戳进行排序的。之后, 根据轨迹的生存时间[ts, te], 将生存时间在给定最大时间段max_span[start, end]中的轨迹从DB中抽取出来。这个函数during () 在文献[10]中有介绍。这样我们就从数据库中抽取了我们关心时间段内的特定对象的运动信息。

3.1 前期工作之一:轨迹重构

在nx×ny个相同大小的单元, 必须限制单元、取样率的取值, 使对象 (物体或人) 在每次访问单元时, 运动至少命中一次。

3.2 轨迹的计算

假设一个单元上的多次命中对一个轨迹来说算作一次, 所以必须产生轨迹。对于一个动作来说, 我们不关心同一个单元中所有的连续的点, 而只是存储端点。

3.3 数据集转换

物理存储上, 在运动序列中每个单元的数据结构形式是类似这样的: (Rij, Оj, ti) , 其中Rij中有一个指针, 指向对象Оj在时刻t i所存储的位置R[i, j]页。最终, 运动物体数据库DS被转换成用标识符Оj标识的不同运动序列的集合MS。

3.4 MINE_ALLFP算法

直接应用像GSP或者DSF_MINE之类的算法是不可能的, 因为模式中一个区域的形状和大小在每一轮重新发现并被自动修改的。我们提出的MINE_ALLFP算法用于发现所有的频繁模式。

为了便于快速高效的产生候选模式, 模式域的MBRs被提出来。如果这些对的交集不是空的, 取得的候选模式将会是这种形式cand={< (a1, t1) , (c2, t2) , …, (ck-1, tk-1) , (bk, t'k) >, 我们将cand中所有域的符合一定条件的点连接起来:Ri.Оj=Rj.Оj, 此时要将Ri和Rj连接起来条件是Ri.Оj=Rj.Оj, 且Ri.ti=Rj.tj。候选模式的支持度是符合候选模式的对象Оj的个数。

然后, 候选域需要经过一个检测, 因为经过连接操作之后它们可能不再是密集型的了。如果支持度大于最小支持度min_up, 那么候选模式的域将会被重聚类。对于得到的新的聚类, 一个模式将会被创建, 模式域的大小也会跟着调整。比如, 考虑候选模式< (R123, t1) , (R01, t2) >。在连接单元R123和单元R01的点之后, R01的大小没变, 但是R123, 的大小被调整到R13。第二, 考虑图5 (b) 中的候选模式< (R23, t3) , (R3, t4) >。在连接单元R23和单元R3的点之后, R23的大小没变, 但是R3被分为两个聚类R31和R32。所以两个模式被新创建, < (R23, t3) , (R31, t4) >和< (R23, t3) , (R32, t4) >。

最后, 考虑候选模式的剪枝技术。任何一个候选的k-模式, 如果有任何子模式是非频繁的就被舍弃。为了解决这个问题, 保持所有最小的非频繁模式的列表Min Infeq List (文献[6]) 。MinInfeq List被初始化为包含所有非频繁2-模式。当一个新的候选模式cand产生的时候, 我们检查它的子模式有没有在此列表中的。如果有, cand立即被舍弃, 而不用再候选模式域的点集上做连接。

3.5 Max MOP算法

Max MOP算法用来寻找最大模式, 它可以存储很多空间并保存所有必要的信息。从数据结构来看, 除了用于候选模式剪枝的Min Infreq List, 我们需要其他的两种链表:用Max Freq List来存储最大的频繁模式, 用Cand List来存储新产生的候选模式, 这两个链表都初始化为包含所有的频繁2-模式, 而MinInfreq List是初始化为包含所有的非频繁2-模式。候选模式cand出现时, 如果满足下面三个条件:cand不在Max Freq List中, cand是频繁的, cand不是列表中任何模式的子模式, Max Freq List会更新, cand被插入到Max Freq List中。在cand被插入之后, 将Max Freq List列表中cand的所有子模式删除。算法的结果存在Max Freq List中。

3.6 预测运动用户未来时刻的位置

这个算法的目的是根据运动规则预测运动用户的位置除了要对取样点进行重采集—轨迹重构, 将某时刻对应当位置信息序列转换为运动序列也是很有必要的。如果两个连续的点之间的时间间隔大于max_gap, 一个运动序列就被创建。算法MINE_ALLFP把运动序列集MS作为输入, 同时利用有向图、min_up等信息发现所有频繁运动模式。

发现了运动规则之后, 一个运动对象的未来位置就可以被估计了。假设用户到现在为止有下面的路径P=< (l1, vt1) , (l2, vt2) , …, (lj-1, vtj-1) >。规则的后项的第一个位置和置信度的总和以及规则的支持度都存在一个数组中。数组按照支持度和执行度的值降序排列。在第一个元组中的位置和时间戳即使在那个时刻用户将要进入的下一个位置。

4 总结及展望

现提出一种新的技术来从大量平凡时空数据中挖掘频繁运动模式, 这种技术包括两个算法MINE_ALLF和Max MOP。从交通数据中发现运动规则可能会提供更多的关于交通流的信息来更好的帮助用户在决定行走路线是时候提高效率和准确度, 来支持服务商按照能够发给用户有用的信息, 来帮助用户进行下一步决策。

参考文献

[1]易善桢.一种平面移动对象的时空数据模型[N].软件学报, 2002.

[2]包剑.面向移动环境的时空数据挖掘研究[D].阜新:辽宁技术工程大学, 2004.

[3]潘玲.空间数据挖掘与GIS集成技术研究[D].武汉:武汉理工大学硕士, 2007.

[4]宋国杰.一种无线通信环境中用户移动模式的挖掘算法[N].软件学报, 2002.

[5]郭小芳.时间序列数据挖掘中的若干问题研究[D].西安:西北大学, 2008.

[6]I.Tsoukatos and D.Gunopulos.Efficient Mining of Spatiotemporal Patterns, 2001.

[7]G.Gidofalvi and T.Bach Pedersen.Spatio-temporal Rule Mining:Issues and Techniques.

[8]J.F.Roddick, K.Hornsby, and M.Spiliopoulou.An Updated Bibliography of Temporal, Spatial, and Spatio-temporal Data Mining Research.

[9]陈捷.面向移动环境的时空数据挖掘研究现状与展望[Z].博士论坛.

数据挖掘模式 篇9

1 云计算和物联网的关系

云计算在物联网的发展中具有很重要的作用, 也是物联网发展的基础。第一, 云计算是物联网实现的核心, 在云计算的使用中将物联网中的物品进行管理和分析。物联网的建设含有电子元器件、传输通道、技术处理能力。云计算帮助技术处理能力在高效率、动态的大规模下进行实现。第二, 物联网和互联网的相互结合是云计算在中间起的连接作用, 云计算帮助物联网和互联网进行相互连接, 实现商业模式的创新[2]。

2 数据挖掘结构

知识的发现我们称之为数据的挖掘, 这是在对信息进行处理分析的过程中发现新的知识, 进而加深对知识和数据理解和认识, 可以更好地进行信息服务。对于数据挖掘模式的构建研究, 我们设计了一系列的数据挖掘框架, 在框架中我们可以进行知识的发现工作, 但是这在实际的工作中存在着一定数据共享差别等问题。

我们在云计算和数据挖掘原理的分析上, 对数据挖掘结构进行建立, 这样可以帮助数据挖掘在实际中出现的问题进行处理, 还可以结合云计算的发展趋势[3]。

数据的挖掘是一个不断循环的过程, 数据的挖掘过程我们从下面的 (图1) 中可以看出:

由 (图1) 我们可以得知对数据进行的预处理包括了四个部分, 有数据的清洗、数据的集成、数据的选择和数据的变换, 而对数据进行的挖掘又分为六个部分的挖掘, 分别是对广义的知识进行挖掘、对相关联的知识进行的挖掘、对类知识的挖掘、对预测型知识进行的挖掘、对具有特异型的知识进行的挖掘以及采用的自定义挖掘算法。其中对类知识进行的挖掘中包含了分类和聚类, 常用的分类方法有神经网络、进化理论等。聚类主要是层次、网格等。对预测性知识进行的挖掘主要是使用神经网络等技术, 对于具有特异型的知识进行的挖掘主要采用的方法是孤立分析、特异规则等, 而对于自定义的数据进行的挖掘是通过使用者将自己的数据保存在平台上, 为了以后的使用方便。

3 云计算下联网数据挖掘模式的构建

通过对云计算服务模式的应用构建出数据挖掘的模式, 在这其中每一个组成的部分都可以单独的为使用者服务。基于云计算服务模式的数据挖掘应用平台的结构框架如 (图2) 。

使用者通过互联网对数据挖掘平台进行连接, 在Daa S、Saa S以及Paa S, 这三个系统中对使用的账户管理系统进行监控, 数据挖掘平台中的每一个环节都在云计算的服务模式下。

数据挖掘中的账户管理系统是对用户的相关服务情况进行管理的系统, 它详细的记录了用户的账户使用信息, 将使用者在平台中的所有服务和设备的使用记录成详细的账目, 为用户提供详细的数据资源[4]。

在数据挖掘中的数据管理子系统主要是将使用者的数据资源进行管理, 这个系统是基于云计算的Daa S服务模式下的, 使用者通过该系统进行数据的购买等活动。可以保护使用者的隐私, 让使用者在数据的处理后再次的进行出售。

在数据挖掘中的子挖掘系统中对使用者的数据进行知识的发现, 实现数据的挖掘任务, 这个系统是整个数据挖掘系统中的核心部分, 具有很强的专业性。想要对知识进行挖掘的使用者可以通过此系统的帮助来完成对数据的挖掘。

4 结语

云计算帮助了物联网的发展, 给物联网带来了很多的机遇, 但是我们从中也发现了一些问题, 云计算不能在物联网中得到很好的应用, 目前, 面临着很多的挑战。首先物联网使用者数据的安全性问题。其次对于使用者个人隐私的保护问题。因此需要进一步对云计算联网数据挖掘模式的构建进行研究, 以对其问题进行解决。

参考文献

[1]李金凤, 姜利群.基于微软云计算平台的海量数据挖掘系统[J].电脑知识与技术, 2011 (34) :452-453.

[2]李玲娟, 张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展, 2011 (2) :321-322.

[3]全巧梅.云计算环境下WEB数据挖掘的研究[J].信息技术与信息化, 2012 (5) :248-249.

分析云计算的物联网数据挖掘模式 篇10

1 物联网数据挖掘的关键问题

1.1 物联网系统中数据特点

1.1.1 量大

物联网系统中有海量的传感设备和监控终端, 它们每时每刻都在想数据中心传送数据。而数据中心在储存接受到的数据的同时, 还要适时地存储旧数据, 以便实现对对象的跟踪、监控、统计分析和数据挖掘等。所以, 数据量大是物联网系统在数据挖掘中所面对的一大难题。

1.1.2 类型复杂

这主要是由物联网监控对象的多样性决定的, 如建筑、湖泊、森林等, 它们所采集的信息类型不一样, 例如森林中只需要关注其动态, 有无火灾发生, 而交通中主要采集视频信息。所以, 物联网中数据类型多样, 有文本、视频和图像等。

1.1.3 异构性

物联网中拥有多种类型的传感器终端, 包括GPS、RFID和无线传感器等, 它们采集到的数据会采用不同的格式和语义记录下来, 所以这无疑会增加数据挖掘的难度。

1.1.4 动态性

物联网中的传感器终端是呈现非静态的, 每个时刻都有终端进入或移出。当一个传感器终端突然进入时, 它采集到的数据必然也要插进数据库中;而当它突然移出时, 它的数据就不再传送到数据库中。这样, 会由于大量的传感器终端不断进入或移出, 给数据库的处理增加相当多的工作量。

1.1.5 时空特性

传感器终端不会只布置在一个地方, 它们的数据则反映着不同地区的不同对象的动态和信息。所以, 数据的感知需要有特定的地点和时间, 它必须与对象的时间和空间紧密相联才有意义。

1.2 物联网对数据挖掘的要求

1.2.1 实时高效

物联网系统的控制端口要根据实时情况进行分析, 并且要对突然发生的情况作出高效处理。所以这个要求也是物联网数据挖掘中十分重要的一项。

1.2.2 分布式挖掘

这主要是由物联网中各终端设备和数据是分布式布置决定的, 所以数据挖掘必须采用分布式的方式。

1.2.3 质量控制

数据来源、媒体传送、存储和管理格式, 以及模态的多样化能够保证数据处理后得到比较真实的结果。

1.3 物联网环境下数据挖掘的要解决的问题

1.3.1 算法的选择

要想提高数据挖掘的效率, 必须选择合适的算法和并行策略。所以, 设计一个好的算法是十分必要的, 而其中参数必须是可以调节的, 以适应各种不同的情况。

1.3.2 不确定性

物联网中所存在最大的挑战就是各种不确定性, 例如对挖掘任务的规定、数据的采集和预处理、挖掘方法、以及不同的人对挖掘结果的评价等, 它们都存在不确定性。可以说, 不确定性贯穿于整个数据挖掘的处理过程中。

2 基于云计算的物联网数据挖掘模型

2.1 挖掘模型的结构

基于云计算的物联网数据挖掘模型一般有五层结构, 包括了数据接入层、集成层、挖掘层、业务控制层以及交互层。接入层一般各种传感器终端组成, 如无线传感器、RFID、GPS等, 用来监控各对象并进行数据采集。集成层主要是存储接入层中所收集到的数据, 形成数据源并为其他层提供必要数据。挖掘层是整个挖掘系统中最重要的部分之一, 它为系统提供了挖掘所需要的各模块, 使算法能够并行运算, 最后将结果反馈到控制层中。控制层主要给挖掘任务提供逻辑运算, 并对其进行控制和调控, 最后将结果反馈到交互层。交互层是系统和用户相联系的接口, 通过窗口可以使用户查看或保存结果。

2.2 功能模块

各层构架中有想用的功能模块, 如接入层中的海计算模块、挖掘层中的并行数据挖掘算法模块和并行ETL模块以及模式评估模块、控制层中的任务调度控制模块和工作流程控制模块、交互层中的用户管理模块和业务模块以及结果展示模块等。它们在各自所组成的构架中发挥着重要作用。

参考文献

[1]陈磊, 王鹏, 董静宜, 任超.基于云计算架构的分布式数据挖掘研究[J].成都信息工程学院学报, 2010 (06) .

[2]蒋智毅.基于管理学基础理论的云计算应用[J].中国管理信息化, 2011 (21) .

[3]李志宇.物联网技术研究进展[J].计算机测量与控制, 2012 (06) .

[4]张海江, 赵建民, 朱信忠, 徐慧英.基于云计算的物联网数据挖掘[J].微型电脑应用, 2012 (06) .

《数据结构》程序教学模式探索 篇11

关键词:数据结构;程序;教学模式;探索

中图分类号:G642文献标识码:A文章编号:1009-3044(2007)18-31759-02

The Research of Program Teaching Patterm on Data Strucure

MO Jia-qing

(Dept. of Computer Science, Zhaoqing University, Zhaoqing 526061, China)

Abstract:The current teaching status of Data Structure is analysed and the teaching pattern which emphasizes on ability of programming based on comprehension is presented. Some research has been carried on ,such as curriculum introduction, systematic structure of Data Structure, setting of experiment subject,providing aid-studying system, curriculum design and approval. The teaching effect shows these methodes can improve the the student abilities on computer program designing effectively.

Key words:data structure; program; teaching patterm; research

1 引言

《数据结构》是信息技术专业的核心课程,它的内容主要是介绍如何根据具体情况合理地选择逻辑结构(表、树、图等)去组织数据,并设计一定的物理存储结构(顺序、链式等)有效地存储这些数据,同时设计正确的算法并对算法作出分析和评价。它在培养计算机专业学生严谨的逻辑思维能力和培养良好的编程开发能力方面有着不可替代的作用,因此成为高校计算机专业研究生招生入学考试和软件设计师认证考试的首选课程。

《数据结构》内容广泛,涉及到的知识点众多,而且逻辑性和抽象性和动态性都很强,理论和实践紧密结合,因此对学生而言学习难度大,对教师而言授课难度高。教学过程出现众多问题,具体表现如下:

(1)学生由于没有编制过大程序和项目开发的经验,虽然知道《数据结构》的重要性,但是对于学习目的不明确。

(2)学生未能将所学内容融会贯通,没能将各大知识点的区别与联系弄清楚。

(3)学生由于C语言基础不扎实,对结构、指针、参数传递等概念掌握不好,在做作业或实验时如果题目要求与教材内容相差较大,无法入手,导致信心受到打击、畏难情绪增加。此后,为应付作业,出现抄袭别人作业,或直接上网搜索现成程序的情况。

(4)虽然教师自己对教材内容很熟悉,能够将各知识点讲得很透彻,但是没考虑到学生的实际学习状况和接收能力,出现学生越学越难,理论与实践越脱节,越学越不想学的情况。

(5)目前高校扩招,入学的学生素质有所下降,逻辑思维能力和自学能力不强,也是造成教学效果不理想的原因之一。

《数据结构》的教学目标之一是提高学生的软件编制能力,而上述问题的出现使得这个目标大打折扣,因此迫切需要运用新的有针对性的教学模式。

2 《数据结构》程序教学模式

2.1 加强技能,克服程序语言造成的困难

《数据结构》中大量运用了指针、地址、结构体、函数参数传递等知识,而这些知识又是C语言中的重点和难点。如果学生对这些内容掌握不好的话,学习《数据结构》将受到很大制约。因此在开学时,教师先帮助学生重点复习C语言中与数据结构相关的知识点,实现从C语言到数据结构的平滑衔接。复习的题目形式可以是选择、填空、编程题等。

目前高校普遍采用清华大学严蔚敏编著《数据结构》(C语言版)作为教材,该教材侧重于用类C语言描述各种数据结构和算法,从头到尾并没有一个完整的C语言程序,并且该教材为使学生能方便地调用教材中的算法函数,教材中的算法函数均采用了C++的“引用”作为参数,这种“引用”参数貌似C语言中的地址,而教材并没有着重强调。作者的初衷是好的,但此举对于接触过C++的初学者造成极大困惑。学习几周后,学生发现程序调试困难,实验过程障碍重重,导致信心受到打击、畏难情绪不断增加。因而有必要让学生熟悉C++中的“引用”。

以教材上的构造空链表算法函数为例,函数参数使用“引用”调用和不使用“引用”的比较,帮助学生掌握“引用”并明白使用“引用”的好处。

typedef struct

{ElemType *elem;

int length;

int listsize;

} SqList;

使用“引用”传递参数定义函数:

Status InitList_SqA(SqList &L) {//构造空链表

L.elem = (ElemType *)malloc(LIST_INIT_SIZE*sizeof(ElemType));

if (!L.elem) return ERROR; // 存储分配失败

L.length = 0; // 空表长度为0

L.listsize = LIST_INIT_SIZE; // 初始存储容量

return OK;

}

调用方式如下:

SqList LA;

InitList_SqA(LA);

使用指针传递参数定义函数:

Status InitList_SqB(SqList *L) { //构造空链表

L->elem = (ElemType *)malloc(LIST_INIT_SIZE*sizeof(ElemType));

if (!L->elem) return ERROR;// 存储分配失败

L->length = 0;// 空表长度为0

L->listsize = LIST_INIT_SIZE; // 初始存储容量

return OK;

}

调用方式如下:

SqList LB;

InitList_SqB(&LB),

可以看到,运用“引用”作为参数,教材上的函数基本上可以原封不动地使用,而使用指针传递参数,则需要对教材上的函数作大量修改。

另外教材为使算法描述更为简洁,算法函数内部一律省略了变量定义,这对学生的学习也造成了很大困难。因此还需要作一些针对性的训练,如通过填空题等形式补充完整函数,并适当评讲。

2.2 理解课程体系结构,融会贯通

《数据结构》课程的内容由简单到复杂,循序渐进。从一般的线性表开始,到后面的非线性的树和更复杂的图,都是讨论各种数据结构的逻辑结构和保存这种逻辑结构所采用的物理结构,以及在这种存储结构上的相关运算。理解这个体系结构,有助于学生从整体上更深入地掌握数据结构。

2.3 完善框架程序,培养自信

自信心是激发学生创新能力的积极情感和重要前提。为培养学生克服困难的自信心,笔者针对各种数据结构类型设计了不同的框架程序,让学生在实验过程中逐步完善,添加新功能,最终形式一个大的系统。例如针对线性表,笔者设计了线性表功能框架文本界面,其中的菜单功能分别为链表创建、链表插入、链表删除、链表合并,其中链表合并又为一个链表合并至另一链表尾部、合并过程相同元素保留和不保留三个功能,让学生逐步将单独的小功能添加至该界面中。又例如,在学习二叉树这一章内容时,笔者设计了二叉树功能框架菜单,菜单包括二叉树创建、先序遍历、中序遍历、后序遍历、左右子树交换、计算树高度和叶子数量等,让学生逐步完善。通过这种不断添加小功能,最终形成一个大的系统的实验方法,使学生具有一定的成就感,自信心不断增强。

2.4 提供学习辅助系统,减轻实验负担

《数据结构》的不少实验是验证性实验,为完成实验,学生需要大量调用教材上的算法函数或对这些函数作一定的修改。为了让学生提高实验效率,将主要精力集中于程序调试而不是文字录入,笔者设计了《数据结构》学习辅助系统。该系统把各章的算法函数分门别类,供学生做实验时复制至其程序中,以减轻实验负担。另外该系统还给出了一些调用这些算法函数的完整程序,供学生参考。

2.5 分组课程设计,培养团队合作精神

课程设计是体现《数据结构》理论和实践紧密结合的重要环节。通过课程设计,不但锻练学生描述概念、构建数据结构、设计算法的能力,而且锻练学生运用自己所学知识通过高级程序语言解决实际问题的能力。

课程设计的题目一般选择综合设计类型,如风景区景点路径查询、简单114查号台等。要求学生首先进行需要分析,明确目标如何,需要实现那些功能;其次是进行概要设计和数据结构设计,定义各功能模块和其内部流程、抽象数据结构,最后编码调试并写成小论文。

由于单个学生完成任务存在较大困难,课程设计还需要分组。分组时要考虑学生的实际情况,要考虑各个小组实力均衡,具体做法是把学习成绩较好的学生和成绩靠后的学生安排在同一组。课程设计完成后,还安排答辩。答辩的形式是随机抽查小组内的一个成员,由该成员代表小组进行答辩,该成员的成绩就是该小组的成绩。要求学生回答系统设计思想、总体架构、开发过程碰到什么困难、整个系统有何优缺点等。通过这种形式,可防止出现课程设计只是由小组内水平高的学生单独完成,而其他成员基本不参与的情况。这种答辩形式可以极大地调动了学生的积极性。为了不让自己拖小组的后腿,学生们相互学习,热烈讨论,表现出极大的参与热情。最后的结果是小组所有成员水平有了很大提高,培养了团队合作精神。

3 结束语

运用高级语言进行程序设计是一个创造性的过程。《数据结构》课程的教学目标之一就是要提高计算机专业学生的程序设计语言能力。笔者在《数据结构》教学过程中的上述措施,目的就是要解决学生在学习过程中由语言所造成的困难,最终提高其程序设计能力。教学实践也证明,上述措施提高了学生C语言技能,降低由程序语言造成的难度;而且针对性的训练可让学生很快地掌握调用教材上的算法函数,理解了教材的知识体系结构。程序功能整合使学生有成就感和增强自信,需要答辩的课程设计使锻练了学生运用所学理论解决实际问题的能力,也培养了团队合作精神。这种侧重程序的教学模式取得良好的教学效果。

参考文献:

[1]严蔚敏,吴伟民. 数据结构(C语言版)[M]. 北京:清华大学出版社,2006.

[2]严蔚敏,吴伟民. 数据结构题集(C语言版)[M]. 北京:清华大学出版社,2004.

[3]黄扬铭. 数据结构[M]. 北京:科学出版社,2005.

数据挖掘模式 篇12

1 Web数据挖掘技术及其在电子商务中的应用

Web数据挖掘[1], 即Web挖掘, 它是指从Web资源上抽取信息或知识的过程, 它将传统的数据挖掘思想和方法应用于Web之上, 从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上, 采Web数据挖掘用相应的数据挖掘算法, 在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析, 最后做出归纳性的推理、预测客户的个性化行为以及用户习惯, 从而帮助进行对网站以及网页的改进。

Web挖掘是数据挖掘技术在Web环境下的应用, 是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前, 随着电子商务网站的兴起, 经过分析一定时期内站点上的用户的访问信息, 发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息, 对各种商业领域具有重要的实用价值, 因而, 电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面: (1) 寻找潜在客户; (2) 留住访问客户; (3) 提供营销策略参考; (4) 完善商务网站设计。

2 Web数据挖掘的过程和方法

根据Web数据挖掘的方法, Web数据挖掘的一般流程[3]分为:数据收集 (采集) 、数据预处理、模式发现、模式分析四个步骤。

Step1:数据收集 (采集) , 从客户端、服务端或者是代理网站端获取数据。数据收集的对象以文本形式存在的, 数据是粗糙、未经处理的, 比如Web日志;

Step2:数据预处理, 通过数据清洗, 数据格式化对收集海量数据中的有用数据进行筛选, 供下一步数据挖掘和分析;

Step3:模式发现, 对预处理后的数据进行分析和挖掘, 发现数据中存在的模式。

Step4:模式分析, 针对发现的模式进行分析, 提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。

3 数据收集和预处理模式的改进

3.1 传统的数据收集和预处理模式

传统的数据收集模式, 获取的日志格式取决于各网站所使用的服务器日志格式, 或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性, 即记录的格式不同, 内容排版也不同, 无形中增加了数据收集的难度。

传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个, 不同网站的网站路径结构都不一样, 这导致大多数数据挖掘系统预处理后的信息只局限于来源url, 访问url, 访问的文档列表, 流量等信息, 无法得到定制化的信息, 如用户点击了哪个商品类别等。

3.2 基于数据中心的数据收集和预处理模式

数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统, 客户端只需要调用统一的数据中心接口, 即可传递必需的数据, 由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的, 这样做就屏蔽了传统数据收集模式中, 由于各个网站的日志记录格式不同, 需要区别对待区别处理的问题。

在数据中心, 将所有的网站的路径结构都抽象成了三层的目录结构, 即应用系统层 (例如淘宝) 、模块层 (例如数码这个类别) 和资源层 (例如iphone这个商品) 。对每一层的目录, 都使用一张表来进行维护。

比如对淘宝商城的路径结构进行抽象, 应用系统层对应淘宝, code是taobao, 数码这个类别对应模块层, code是digital, 具体的产品, 比如“iphone”, 对应资源层, code是“iphone”。假设淘宝原来的商品“iphone”的查看页面路径是A, 在数据中心配置该路径的映射路径B, 也就是将上面的code组合起来, 即三层目录结构taobao/digital/iphone。通过抽取每层的code和数据中心表中记录的应用程序、模块和资源进行对比, 网站就可以得到用户访问了哪个模块或资源, 解决了传统的数据预处理过程无法得到定制化信息的问题。

4 用户兴趣度算法

用户兴趣度算法[5,6]主要用来计算用户某段时间对于某个模块的兴趣度。该算法的基本思想是先使用统计方法统计出用户对于每个模块的访问次数, 以此为基础计算出用户对模块大概的兴趣度, 再根据用户访问模块的多少对结果进行修正。该算法可分为三个阶段:

Step1:获取用户访问矩阵

从日志文件中运用分类、过滤等方法统计出某个用户在某一段时间对于每个模块的访问次数, 得到一个1*n的矩阵。

Step2:计算用户对于每个模块的兴趣度

访问次数可以最直接的反映出用户的访问兴趣, 用户对某个模块的访问次数和他的兴趣度成正比, 设Ai, j表示用户i对模块j的访问次数, Si, j表示他对这个模块的兴趣度, 可知Si, j=βAi, j (一般取β=1) 。

本文采用ri, j表示用户i对模块j的评价值。考虑有些用户兴趣的多样性会对评价结果造成影响, 在量化评分时按照用户访问的商品类别数量做适当的修正。用户评价值ri, j=α*Si, j/CIi, 其中Si, j为用户i对模块j的兴趣值;α为调节参数, 可根据需要调整, 一般取1;CIi表示访问的商品类别的数量。据以上的方法统计用户i对某个商品类型的评分值。

Step3:构建用户兴趣矩阵。

5 电子商务网站日志挖掘系统的设计与实现

5.1 电子商务网站中的Web数据挖掘对象

在电子商务网站中, Web数据挖掘的对象一般有用户的访问日志、用户的查询信息以及查询记录的数据。在本次的系统实现中, 主要是对用户的访问日志进行挖掘。

5.2 Web挖掘系统的实现

1) 数据收集模块Web

以Web服务器的日志文件作为电子商务数据挖掘的数据源。其中, Web服务器的日志文件使用Web服务器自身提供的记录功能及规则, 按照约定的或者自定义的格式进行数据收集。

2) 数据预处理模块

系统通过将收集到的日志进行数据清理、数据识别两个步骤对原有的Web日志文件进行预处理工作。

Step1:数据清理, 根据挖掘的需要, 去掉日志中无关的信息。

Step2:数据识别, 根据服务端数据库存储的用户信息、应用信息、商品类别和商品信息, 来对Web服务器日志中记录的信息进行匹配, 将日志中的信息转换成可理解的, 可被分析的数据。例如, 在数据库中存储的商品类别表有一个类别“衣服”, 它的url标识是“cloth”, 所以系统会在访问信息的url查找cloth这个字串, 找到了则会将此条信息和“衣服”类别进行联系, 如此对所有的访问信息进行处理。最系统后会将这些信息处理成可被数据库识别的sql语句。

3) 数据分析模块

系统从多个角度分别对网站、商品类别、商品、用户、广告进行全面的数据分析, 得出有价值的信息, 比如网站全年的访问人数、商品的访问量排名、广告的点击率等等, 并将这些分析的结果以图表的方式显示在页面上, 方便查看。同时为后面的模式发现模块提供更多的挖掘维度和分析数据, 更快的进行模式发现过程, 如图1所示。

分析:这张图反映了各个网站在最近一年 (2012.6.1~2012.5.31) 每月的访问人数的变化情况。

4) 模式发现

系统根据用户兴趣度的算法, 计算用户的兴趣矩阵, 并展示到页面上, 如图2所示。

分析:由图中可以看出该用户对服装的兴趣度最大, 兴趣度分值为17.44。

6 结论

Web数据挖掘是数据挖掘中很重要的一个领域, 在电子商务中应用Web数据挖掘技术, 可以为商务网站更准确、更有效的确认目标市场、制定商业决策、提高企业竞争力提供帮助, 通过数据挖掘, 商家还可以得到用于特定的消费群体进行定向营销的决策信息。论文研究并实现了一个电子商务网站日志挖掘系统, 通过对传统的数据收集和预处理过程进行改进, 对Web服务器日志进行了多角度的数据分析, 对网站、商品类别、商品、用户、广告进行全面的数据分析, 得出有价值的信息。

摘要:随着互联网的快速发展, Web上的数据飞速增长。面对海量的数据, 如何从中找出有价值的信息, 运用到商业决策的制定中, 已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类, 论述了在电子商务中web挖掘的过程和方法, 揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统, 系统面对多电子商务平台, 实现了统一的数据收集和预处理过程, 对用户的访问日志进行分析, 从网站、商品类别、商品等角度进行数据分析, 并又对用户的访问数据进行挖掘, 从这些数据中发现潜在的规律, 把握用户动态, 帮助企业制定商业决策, 使电子商务更具个性化和针对性。

关键词:数据挖掘,Web挖掘,电子商务系统,用户兴趣分析

参考文献

[1]涂承胜, 陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统, 2004, 25 (7) :1177-1184.

[2]Chen M S, Park J S, Yu P S.Data Mining for Path Traversal Patterns in a Web Environment[C]MIn:Proceedings of the 16th International Conference on Distr ibuted Computing Systems.Hong Kong:[s.n.], 2006:385-392.

[3]Borges J, Levene M.Data Mining of User Navigation Patterns[C]MIn:Proceedings of the WEBKDD.99 Workshop on Web Usage Analysis and User Profiling.San Diego, CA, USA:[s.n.], 2008:31-39.

[4]朱志国, 邓贵仕.Web使用挖掘技术的分析与研究[J].计算机应用研究, 2008, 25 (1) :29-32.

[5]陶俊, 张宁.基于用户兴趣分类的协同过滤推荐算法[J].上海:上海理工大学, 2011, 30 (2) :34-38.

上一篇:样品测试下一篇:生态城市建设的构想