地理信息挖掘与发现

2024-10-27

地理信息挖掘与发现（共8篇）

地理信息挖掘与发现篇1

1 网络舆情中的个体信息发现与WEB日志数据挖掘预处理

因特网是人们获取信息的重要渠道和手段,同时也是参与社会活动的重要工具。大家常常利用新闻跟贴、博客文章、各种评论、BBS论坛等平台发表自己的意见,表达自己的观点,以实现社会人的目的。这种以因特网为表达平台,公众对于现实社会中的各种现象、问题等所表达的信念、态度、意见和情绪的总和,具有相对的一致性、强烈程度和持续性,对社会发展以及有关事态的进程产生影响,我们称之为网络舆情。

网络舆情是舆情的一种表现形式,是把双刃剑。在我国市场经济创建的初级阶段,法制尚未健全的过程中,网络舆情对各级政府监督的确起到了很大的作用。同时也要看到网络舆情的另一面即破坏性:任何人发表的意见缺乏有效的监督,它会产生负面影响。我国发生了多起网络舆情转化为现实社会压力从而导致行为舆论的例子。而形成网络舆情很多不乏是由极少数人不负责任,或是由极少数具有极端思想和情绪的人通过因特网发布的信息造成的。我们把这极少数人称之为“具有影响力个体”。这个“具有影响力个体”也许是一个人,也许是小数的四五个人。如何对这些个体的信息动向进行分析、研究和预防,是我们应该关注的重大课题。但是因特网又是巨大的、多样的、复杂和动态变化的。伴随着WEB站点规模和复杂程度的增加,时刻掌握网络舆情的动向,及时发现具有极端思想和情绪个体者的舆情信息动向,需要对Web日志数据进行挖掘。

Web日志挖掘的对象是服务器的日志信息。当访问者浏览Web服务器时,服务器将会产生Server Logs,Error Logs和Cookie Logs等日志文件,这些日志是WEB访问数据挖掘的重要数据源。表1是3个用户访问一个Web服务器的Logs文件片断。

它反映的是IP地址为:218.195.112.33、218.195.112.48、218.195.112.52的三个用户在18时21、25、29分钟分别访问了images/lchzhi.和graduate.文件,是以GET方法访问。200是表示正常响应。在整个日志文件中以时间戳递增排列。

通过分析日志文件,可以发现个体访问页面的特征、页面被访问的规律、频繁访问的页组等,最终能够快速了解和掌握个体信息的动向。

Web日志数据挖掘可分为三个阶段:

1.1 数据预处理

Web Usage mining在预处理阶段的主要工作就是从Server Log Data中识别数据。识别出的数据就可以利用对数据库进行挖掘的方法,如关联规则和序列模式的发现等挖掘技术进行数据挖掘。

1.2 个体建模

根据个体访问者对一个Web站点上Web页面的访问情况模型化个体的自身特性,开展针对性的预防和监测。

1.3 模式分析

数据预处理是Web访问数据挖掘准备的核心工作,是开展下一阶段Web访问数据挖掘的基础。例如剔除不相关的数据:在Web日志中一些存取数据对挖掘来说是不必要的,像图形文件、压缩文件等的存取对文本挖掘的分析是不需要考虑,应该被剔除。这样的处理可以通过检查每项中的URI是否带有后缀gif、jpeg、zip、ps等来实现。

2 Web数据挖掘与网络舆情的个体建模

Web数据挖掘可以分为Web内容挖掘(Web Content Mining)、Web访问数据挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)三种类型。本文主要论述的是Web访问数据挖掘。即对个体用户访问Web时在服务器方留下的访问数据进行挖掘,以帮助站点动态地了解个体的舆情动向。

2.1 Web访问数据挖掘是对用户访问Web站点的存取方式进行挖掘,挖掘的对象是在服务器上的包括Server Log Data等在内的日志文件记录。可以从Web服务器那里自动发现用户存取Web页面的模式,进而得出个体用户的访问模式、兴趣、习惯和爱好,利用这些信息可以及早发现个体用户的舆情动向。同时还能抽取个体用户访问数据的特性,在此基础上建立模型,用于预测在一个站点上一个用户访问的页面的概率分布。

2.2 建立网络舆情的个体用户的模型建立个体用户的模型分为两个部分:一是分析挖掘出用户的访问兴趣数据。它是根据用户近一段时间访问特性、监测用户的存取行为来得到用户的概貌文件。二是根据用户的访问数据来聚类用户。聚类是为了表征这些用户具有相同兴趣、爱好,是一个特殊的“个体”。因此聚类用户是Web访问数据挖掘中的一个重要内容。

2.3 评估模型和结果评估模型是对选出的模型在实际的应用中是否真正的起到作用。评估的内容包括模型的准确程度如何?模型对被观测数据的描述精确程度如何?在模型预测中,可以设置多大的置信度?模型是否易于理解等方面?不同的数据挖掘任务需要不同的方法来评估模型的整体性能,需要不同的方法来判断模型对于任意的特定记录产生准确结果的可能性。

把挖掘数据置于模型中,分析计算得出的结果是否与真实情况相符,是至关重要的。因此要不断地进行试验,直至结果准确率高于原定的标准,此结果才是有效的,建立的模型也是正确的。

3 网络舆情监控的Web数据挖掘预处理技术

3.1 服务器日志数据

用户在使用服务器时,产生的Server Logs日志文件,蕴涵着大量有用的信息,是进行Web访问信息挖掘的主要数据。格式如表2。

上述文件格式中包括了用户浏览的时间、IP地址、用户名、服务器名称、服务器的IP地址、用户的请求方法和请求页面、完成浏览所用的时间等等,是完成挖掘的主要数据。[2]

3.2 数据预处理的主要技术

数据预处理是把日志文件转换成数据库文件以后进行的工作,其目的是把日志文件转化为适合进行数据挖掘的可靠的精确的数据。[3]

3.2.1 数据清洗

由于数据表示、写入的对象差异以及用户的兴趣和挖掘算法对数据要求不同,必须对进行分析的原始数据进行清洗,因此数据清洗是数据挖掘工作的基础。

首先是合并数据:在给定挖掘时间段后,需要合并Web服务器上的多个日志文件,并且解析每个文件,将其转化到数据库或特定的格式数据文件中;第二,剔除不相关的数据:在Web日志文件中一些存取记录可能对挖掘来说是不必要的,象图形文件、压缩文件等。只要检查每项中的URI是否带有后缀gif、jpeg、zip、ps就可以剔除;第三代理访问的处理,处理的方法是检查日志中每项的代理域,通过字符串匹配方法删除这些项;第四数据项解析:CGI数据必须被解析在不同的哉中,并被解析为〈名子,值〉对的形式。

3.2.2 识别用户会话

在对Web日志数据进行挖掘之前,要对Web页的访问序列组织成逻辑单元以表征事务或用户会话。因为有代理服务器(包括网吧、局域网等环境)、防火墙、缓存等使用,识别用户会话变得非常复杂:

(1)单个IP地址对多个服务器用户访问会话。互联网服务供应商(ISP)为其用户提供代理服务器服务,一个代理服务器可以为多个用户同时提供接入服务。

(2)多个IP地址对单个服务器用户访问会话。

(3)多个IP地址对单个用户。一个用户从不同的机器(IP地址各不相同)上对一个Web服务器发出的请求。

(4)多个服务器用户访问会话对单个用户。它是一个用户打开二个以上的浏览器窗口时,同时存取站点上不同的Web网页时发生的。

(5)缓存的影响。针对以上问题,我们作出规定:不同的IP地址代表着不同的用户;当IP地址相同时,我们默认不同的操作系统或浏览器代表不同的用户;在IP地址相同,用户使用的操作系统和浏览器也相同的情况下,则判断每一个请求访问的页面与访问过的页面之间是否有链接。如果一个请求访问的页面与上一个已经访问过的所有页面之间并没有直接的链接,则假设在访问Web站点的机器上同时存在多个用户;用户的页面请求在时间上跨度比较大时,可以将用户的访问记录分成多个会话来处理。最简单的方法就是设置一个time-out值,如果用户访问页面的时间差超过了这个值,则认为用户开始了一个新的会话。这个值为25.5分钟。[3]

特殊的网络个体的舆情倾向对其他网民影响很大,有些人把他(们)称为舆情领袖,或者叫作论坛领袖。我们应该对此高度重视,加强研究,及早发现,建立网络舆论导向,构建网络舆情预警机制,使网络舆情能够真正反映国情民意,为建立和谐的社会提供健康的网络舆论环境。

摘要：网络舆情的形成,多数情况下是由极少数个体在舆论的初期不断施加影响的结果,对这个体的初期舆论信息的发现,十分重要。利用数据挖掘技术和对WEB日志数据挖掘预处理技术,对其进行研究,可以及早发现具有影响力个体舆论倾向,建立正确的舆论导向,使网络舆情能够健康发展。

关键词：网络舆情,个体信息,WEB日志,数据挖掘,预处理技术

参考文献

[1]王珏,曾剑平,周葆华等.基于聚类分析的网络论坛意见领袖发现方法[J].计算机工程,2011(5):44-49.

[2]毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[3]柳胜国.数字图书馆个性化服务与Web日志挖掘数据预处理技术[J].现代情报,2007(7):65-67.

地理信息挖掘与发现篇2

摘要：大数据给地理学科带来了机遇和挑战，但是针对地理学科本科教学的大数据挖掘和学习研究相对较少。本文结合大数据概念和地理学科的发展演变，分析了现代地理学的发展趋势，并对大数据在地理学科中的应用列举了最优位置选择、人口流动热力图和人口性别比分布三个具体案例，探讨了地理学科本科教学大数据挖掘和学习的可能。就地理学科而言，多源对地观测数据为其变革提供了数据支持，地理学科的多学科交叉为其提供了技术保障，因此，未来在地理学科大数据本科教学中在研究理论基础的同时，加强案例挖掘和学习，逐步构成了一个成熟的体系。

关键词：地理学科；大数据；挖掘和学习；本科教学

中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2018）23-0160-03

一、引言

地理学（Geography）作为一门古老的学科发展历史悠久，曾被誉为科学之母。在人类了解和掌握我们居住的地球发生过的自然现象和人文历史的时空变化，并在分析自然和人文之间的相互关系中具有重要作用。从地理学演变的历史过程来看，古代地理学主要研究地球形状以及其距离大小的测量方法，或对人类居住或活动的区域和国家进行描述，现代地理学已演变为一门涉猎范围广泛的学科，大到地球表面的各种现象的时空变化，小到人类居住区的格局分析，等等，因此地理学家需要熟悉多种学科，例如生物学、社会学、地球物理学等。在广义的学科分类中，地理学一般分为自然地理学、人文地理学和地理信息系统三个分支。其中，自然地理学的研究重点是地貌、土壤等地球表层自然现象和自然灾害，土地利用与覆盖以及生态环境与地理之间的关系；人文地理?W研究的重点是历史地理学、文化与社会地理学、人口地理学、政治地理学、经济地理学和城市地理学；地理信息系统则是计算机技术与现代地理学相结合的产物，采用计算机建模和模拟技术实现地理环境与过程的虚拟，以便于对地理现象直观科学的分析，并提供决策依据。

当今地理学学科内部呈现明显的破碎化、离心化趋势，也有学者批评当今地理学面临着自然地理破碎化、人文地理经济化与社会化和地理信息科学信息技术化的危机[1，2]。传统地理学中“区域性”与“综合性”的学科特色与优势遭到了忽视与弱化，并且当今地理学面对的科学与社会问题越来越复杂，地球表层系统作为地理学研究的核心对象，受人类活动扰动和改造的影响越来越显著，地理学科在研究方法或者研究手段上越来越受到其他学科的影响和制约[3，4]。例如在研究沙漠化现象中经常将沙化的原因归咎于干旱，综合研究指出沙漠化是因过度放牧、农业过度扩展和毁林造田而加剧的，而沙漠化表征的诸多现象是由其他学科鉴定的，例如过度放牧和农业扩展由农业科学负责，毁林烧柴则由环境科学负责，等等。而地理学在此的任务是调查研究其分布模式、地域配合、联结各组成部分的网络以及其相互作用的过程。因此，在研究地球表层系统的过程中跨学科的综合与协同研究成为地理学未来发展的方向。

“大数据”是自2013年以来兴起的一个热潮，相信在未来的几十年里，大数据将会是个重要话题，无论是对于个人还是对于国家。大数据的发展会冲击着许多行业，包括经济、环保、医疗、旅游等。一时间3V或者4V理论风靡全球，海量、多样、高速、价值（Volume数量，Velocity速度，Variety种类）这四个词概括了大数据区别于传统数据的几个典型特征。卫星、无人机等测绘手段，为地理学带来了海量的大数据。大数据是快速数据，通过各种传感器网络，甚至可以提供实时亚米级影像。面临大数据的冲击，在地理学科中如何应对是亟待深入研究和探讨的问题。笔者结合地理学科的传统研究思路和具体应用，从大数据的挖掘与分析入手，简要分析了如何在地理学科本科教学中进行大数据的应用挖掘和学习。

二、大数据与地理信息结合

海量数据的分析与应用，使得人们对于数据的要求从精确性的苛求转向数据的多元性和交叉性的需求。人们对于事物之间相关性的认识比对于事物之间的因果关系更加显得需求迫切。利用地理数据进行商业选址和消费者分类服务在全球发达国家已经得到了普及，但是在中国尚未得到大范围的推广应用[5，6]。精准的地理服务在中国将会有更大的需求和市场，例如肯德基、星巴克等全球连锁公司等专门成立了商业地理分析团队，帮助其在中国的店铺进行选址。另外，可以构建数据分析中心，进行地理数据的深度挖掘，从而寻找对企业有利的信息，提升企业的利润。例如现在蓬勃发展的物流行业，众多物流公司均加大对数据分析方面的投入，将大数据作为战略资源，深度分析客户需求，进而调整公司的运营策略，在公司战略规划、运营模式等方面做出合理部署。可以想象在未来，大数据不仅会在地理信息行业得到飞速发展，同样在需要与大数据进行关联的其他行业应用也会越来越广泛。

三、案例分析探讨

对于地理学科来说，多源对地观测数据为其学科的变革提供了数据支持，而地理学科的多学科交叉属性为其提供了技术支撑。未来在地理学科大数据本科教学中在研究理论基础的同时，加强案例挖掘和学习，逐步构成一个成熟的体系。因此，本文选择以下三个案例进行了探索，以期为地理学科大数据在本科教学中的挖掘和学习提供一定的借鉴。

1.最优位置选择。在地理信息具体应用中科学选择最优位置是现代商业的关键所在，只有把对的商品放在对的位置上才能获取最大的商业利润。在地理类专业本科教学中可以增加大数据在最优位置选择的商业案例进行分析。

具体案例：现有一家股份制商业银行，该银行需要对未来中国西部某二线省会城市的网点开设方案进行规划。其要求是网点必须开设在银行顾客集中的区域，以方便银行业务的办理，同时需要避开其他银行过度竞争的区域来保证本银行的生存和发展前景。

案例分析：最优位置的选择是商业地理分析最常见的案例。对于某个特定的地点是否复合商业利益，进行现场调查是传统的方法也是最笨的方法，但是这种方法耗时耗力，对于面积人口较大的城市选出其中的重点区域，需要大量的人力、物力和财力，凭借小团队的有限知识远远不够，因此就需要大数据来帮助完成这个任务。基本方案是利用该城市的矢量地图，同时加载信息更多更丰富的经济、人口等基础地理数据，借助地理信息系统（GIS）和遥感（RS）来实现定性和定量的分析，可以建立适当的模型帮助我们在合适的城市区域内选择最优位置。

具体步骤：首先，目的是为了帮助银行挑选最有利的位置，可以从街道和临街商铺以及商业CBD等可能的位置进行初步分析。综合该城市的市区超过100个接到的常驻和流动人口统计数据、人口的收入数据、受教育程度的数据，包括分区内其他银行的分布网点位置以及营业年限，其他大型商业聚集区的辐射程度等地理数据，将市区按街道分区重新划分为核心区、缓冲区和边缘区三个大类，新设的银行网点应优先考虑核心区。其次，按照建立的模型对数据进行收集，根据不同街道分区的特征和商业信息的分布与聚集以及?射度进行赋值，最终得到分区的最后得分，根据得分结合该城市市区已建在建/筹建楼宇列表选出网点的最优位置。

2.人口流动热力图。2014年春节期间，百度地图推出了一个基于手机定位可视化数据而制作的国内城市间人口流动实时地图。春运是短时间内极大规模的人口迁徙行为，而流动人口所携带的手机如果开启了定位功能，那么这些定位数据反馈到计算平台，就可以相对准确和及时地表现出地图上任何一个地区人员的迁入与迁出状况。

案例设计：通过定位数据的分析，可以分析一天内某一地区人口密度的变化。以西安大雁塔地铁站为例，如果把每一个进出站、开着手机定位的人作为一个标注点，那么点的密度与实际人数成正比。如果把手机定位的海量数据扩大到更大的范围，比如说一座城市，就可以从中读出更多的信息，如分析哪个商圈在哪些时间段人流量大等。大数据对于商业区的宏观规划以及商家对于店铺位置的选择有着重要的参考价值。

案例分析：在当今的信息社会，人们已经习以为常地用电子地图去查找商场与酒店。利用大数据制作的景区热力图，利用得到的实时人流数据，动态地展现人群的分布。而这些实时、动态的地图可以帮助我们优化空间路线、识别潜在危险等。因此在未来本科教学中，可以从制图、信息实时集成、使用等角度展开挖掘。当然，要想更加精确、及时地在地图上呈现出某些信息，除了深度挖掘数据，还需数据分析的模型，对收集和运算的不同数据源进行叠加和融合，进而将深层次的信息准确地呈现和预测出来。

3.人口性别比分布。大数据往往存在不均匀、不规则分布的特征。资源与人口分布的不均衡，使得不同地区的各种指标存在着或大或小的差异。例如，一直困扰我国的男、女比例失调的问题已经影响到社会的稳定和经济的可持续发展，因此我们可以利用大数据来分析未来人口性别的平衡图。

案例应用：以往类似的性别比例分布图已有专家或学者做过，比如有学者利用2000年第五次全国人口普查公布的数据制作了全国人口普查中各区县1―4岁儿童的男、女比例分布图，我们可以从中提取某个省份的数据，例如陕西省在1―4岁的人口中，30%的区县男、女比例超过了1.4，那么17年后现如今的性别比例图是怎样的呢？是否可以利用相关的大数据进行分析是此案例分析的要点。

四、讨论

地理学经过了漫长的发展历程，而且地理学研究的领域相当广泛，上至无穷的太空，下至人类所能探测到的最深的地底，都是地理学的研究范围，因此，现代地理学的发展往往与多学科交叉，正是这样一个互相交叉、互相联系的地理领域构成了一个复杂的系统，这个复杂的系统往往与人们的生活息息相关。随着大数据概念的提出以及地理大数据的不断挖掘，需要在地理相关专业本科教学中开展大数据的挖掘和学习[7，8]。当前，地理学科的大数据来源广泛，包括测绘地理信息数据，比如各类的矢量图、DEM、多分辨率的遥感影像等对地观测数据，虽然经过了多年的发展，但是对地理学科大数据的应用和智慧发展仍然有相当大的差距，需要对地理学科的大数据进行更加深入和广泛地挖掘和学习。

参考文献：

浅谈数据挖掘与知识发现篇3

从20世纪80年代中后期, 数据挖掘和知识发现的方法、技术和系统, 从不同角度、不同领域和不同学科进行了研究和实践, 主要的学科有数据库、统计学和机器学习。我国近年来也紧跟国际潮流, 许多单位的研究小组开展了KDD的研究与开发工作, 我国各大科研科技资助项目都设立了KDD的研究课题。

二、动因

(一) 技术发展需要

1、信息系统的发展和决策支持系统发展的必然结果, 决策支持系统建立在数据仓库和数据挖掘之上:现在CRM也需要KDD技术。

2、克服数据丰富而知识贫乏, 数据大量积累和数据库的大量的建立, 数据每年成倍地增长, 人已无法分析这些数据, 但数据里隐含着有用的知识;但未被发现而已。美国数据挖掘开拓者Shapiro曾戏言:“原来曾希望计算机系统成为我们智慧的源泉, 但从中涌出的却是洪水般的数据”。

(二) 市场竞争的需要

1、从数据中找到知识、规律、模式来指导生产, 指导商业行为, 避免差错, 防止欺诈, 增强竞争力, 发现科学规律。数据挖掘完全是需求驱动的。

2、在世界走向信息化的今天, 充分利用企业的信息资源, 挖掘企业和所对应市场的运作规律性, 以不断提高企业的经济效益是先进企业的比由之路。世界有名的Gartner Group咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”数据仓库和数据挖掘一定会扩展开来!

3、硬件→网络→数据 (信息系统) →信息→知识 (决策支持系统) 是必经之路, 有人甚至以“DW+DM=$aving”为题发表文章。

(三) 网络技术和应用的普及

1、国家级、部门级、行业级、企业级网络大量建设, 政府上网等, 为全局数据和信息的积累提供了环境和平台, 给分析、决策支持提供条件。

2、Internet网的普及, 电子商务的扩大, 电子政务开展, WWW成为最大的信息源, 需要尽快准确找到所需信息。

三、定义、过程、分类

(一) KDD定义

KDD是从数据集中识别出有效的、新颖的、潜在有用的, 以及最终可理解的模式的非平凡过程。

数据集:是一组事实F (如关系数据库中的记录) 。模式:是一个用语言L来表示的一个表达式E, 它可用来描述数据集F的某个子集FE, E作为一个模式要求它比对数据子集FE的枚举要简洁 (所用的描述信息量要少) 。过程:是指KDD是一个多阶段的过程, 包括数据准备、模式搜索、知识评价, 以及上述过程的反复求精;该过程是非平凡的, 是指整个过程是自动的、智能的 (如计算所有数据的总和、平均值都不能算作是一个KDD过程) 。有效性:是指发现的模式应用于新的数据时要具有一定的可信度。新颖性:要求发现的模式应该是新的、用户未知的或未预料到的。潜在有用性:是指发现的知识将来具有实际效用, 如用户根据发现的知识进行商业决策可以产生一定的经济效益。最终可理解性:要求所发现的模式容易被用户理解。

(二) 分类

根据数据采掘任务分, 数据采掘有如下几种:分类、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系 (或依赖模型发现) 、异常和趋势发现等等。

根据数据采掘的数据库或数据源分, 数据采掘有以下几种:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、以及万维网 (WWW) 。

根据数据采掘所采用的技术分, 数据采掘可大致分为:统计方法、机器学习方法、神经网络方法和数据库方法。

四、关联规则

在商业领域, 条码技术和数据库技术的发展使得零售机构收集、存储了大量的销售记录, 这些销售记录又称为篮子数据 (basket data) 。篮子数据保存了顾客在一次购买中所涉及的商品的详情 (如商品名称、价格、数量等) 。通过数据库管理系统提供的查询功能可以对篮子数据进行分析, 了解在过去一段时间内的商品销售情况。所发现的知识以 (一些商品) → (另一些商品) 的形式描述, 称为关联规则。指导货物的摆放, 货物定货或去掉, 在这样的应用背景下, 1993年R.Agrawal首次提出了大型数据库中的关联规则采掘的问题, 并给出了关联规则的一系列挖掘算法。

五、小结

人们通常把数据挖掘工具看得过份神秘, 认为只要有了一个数据挖掘工具, 就能自动挖掘出所需要的信息, 就能更好地进行企业运作, 这是认识上的一个误区。其实要想真正做好数据挖掘, 数据挖掘工具只是其中的一个方面, 同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力, 必须有一些数据挖掘方面的专家, 专门从事数据分析和数据挖掘工作。再同其他部门协调, 把挖掘出来的信息供管理者决策参考, 最后把挖掘出的知识物化。在国内的企业中, 还很少有决策人员认识到这一点。如果管理者没有这方面的意识, 数据挖掘和数据分析就很难发挥应有的作用, 很容易走向两个极端:一是认为数据挖掘没有用处;二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。

数据挖掘根据人们的特定要求, 从浩如烟海的数据中找出所需的信息来, 供人们的特定需求使用。2000年7月, IDC发布了有关信息存取工具市场的报告。1999年, 数据挖掘市场大概约为7.5亿美元, 估计在下个5年内市场的年增长率为32.4%, 其中亚太地区为26.6%。到2002年, 该市场会发展到22亿美元。据国外专家预测, 随着数据量的日益积累和计算机的广泛应用, 在今后的5-10年内, 数据挖掘将在中国形成一个新型的产业。

摘要：文章从四个方面的信息阐述了数据挖掘与知识发现:数据挖掘与知识发现发展状况和信息 (网站) 、数据挖掘与知识发现的基本概念、数据挖掘与知识发现解决问题的关键、数据挖掘与知识发现的技术、方法。

基于数据挖掘技术的客户知识发现篇4

随着企业间竞争的日益加剧, 企业不得不采取更加柔性、敏捷的战略, 来以客户为中心进行产品设计、研发、生产与服务, 使得以客户为中心的关系管理成为企业管理战略的新范式。企业识别出有价值的客户, 并将资源更多地投入到对该部分客户的保持上, 成为了客户关系管理的核心理念。显而易见, 识别出企业的价值客户, 成为了企业这种新范式战略成功实施的先决条件与关键步骤。

当前的企业已普遍地建立起管理信息系统, 可以收集到大量有关的客户数据。可以利用数据挖掘工具对这些客户数据进行分析与萃取, 可以提炼出价值客户的自然属性特征以及购买行为特性等隐含信息, 将这些有价值的信息在企业范围内传播、共享, 并用于营销策略的制定上, 从而完成了从繁杂的客户数据到特殊情境下的客户信息, 再到有价值的客户知识的转移过程。可以看出在这个过程中, 数据挖掘担当着客户知识发现的工具。实际上, 数据挖掘中的聚类分析、粗糙集、神经网络等具体方法已经被广泛应用到客户知识发现上[1,2,3]。本文侧重于利用数据挖掘中的判定树归纳法与RBF神经网络来进行客户知识的发现, 从而归纳出反映价值客户特征的客户属性, 并建立起价值客户的识别准则。这不仅为企业集中优势资源进行价值客户保持提供了科学的指导, 也为企业甄别性地获取新客户及将满足价值客户属性的潜在价值客户发展成为价值客户提供依据。

1 价值客户特征属性的归纳

以往关于价值客户的相关研究, 通常集中在价值客户的识别上, 客户的全生命周期价值 (即客户当前以及将来所产生的货币利益的净现值) 往往被作为参考的基准[4,5]。目前已有多种计算和预测客户全生命周期价值的方法[6,7,8], 但据此来进行价值客户识别大多无法归纳出反映价值客户特征的客户属性, 而这对于企业了解价值客户特征、甄别性地获取新客户以及将满足该类客户属性的潜在价值客户发展成为价值客户具有非常重要的指示意义。

本文利用数据挖掘中的判定树法对价值客户特征属性进行归纳, 挖掘出有益于企业营销的客户知识。该过程可以大体分为以下几个部分:构造客户数据集市;数据处理;目标类相关属性集的建立;构建分类模型。

1.1 构造客户数据集市

(1) 识别出企业的价值客户

企业的客户数据库通常将所有客户的交易记录及客户相应信息汇总在一起, 并没有将价值客户与非价值客户的数据进行相应地区分。因此, 有必要首先识别出数据库中哪些客户才是企业的价值客户。在学术研究及实践过程中, 通常以客户全生命周期价值作为识别企业价值客户的基准。因此, 本文选择生命周期已经结束的客户作为研究样本SC, 通过计算这些客户的全生命周期价值 (以下简记为CLV) 来进行客户价值的排序 (CLV的计算方法见式1) , 并根据某种规则 (如80/20法则) 确定出相应比例的企业价值客户。根据价值客户的识别结果, 在客户数据库中增加“价值客户”这样一个新的客户属性。

其中, t表示第t个时间单元, T为客户生命周期的时间长度, d为折现因子, P (t) 为客户在第t个时间单元为企业创造的利润。

(2) 建立客户的数据集合

从原有的企业客户数据库中抽取出与研究样本SC相对应的所有客户记录, 对缺省及异常数据进行相应的处理, 建立客户的数据样本集。由于企业数据仓库中的每位客户的信息都是由一系列客户属性所构成, 这些属性可能非常庞杂, 可将其大体分为客户的自然属性 (如姓名、性别、年龄、收入、联系方式等) 与客户行为属性 (如最近一次购买距今的间隔时间、购买频率、支付方式等) 两大类。

1.2 数据处理

(1) 客户属性的删除与概化:

对于具有大量不同值的某个客户属性, 若该客户属性没有定义概念分层, 或其较高层概念可用其他客户属性表示时, 应删除该客户属性;若该客户属性定义了概念分层, 可以用高层概念替换低层概念。

(2) 连续客户属性值的离散化

对于数值型的连续客户属性值, 首先根据客户属性值的大小进行排序, 然后设定相应的阈值将客户属性域划分为各个区间, 用区间的标号来代替实际的客户属性值。

1.3 目标类相关属性集的建立

如果利用所有的客户属性来进行类描述 (本文中, 新增的属性——“价值客户”作为目标类, 或称之为类标号属性) 显然是很繁琐的, 维数过多甚至会造“维数灾难”。因此, 可以利用属性相关性分析将与目标类不相关或弱相关的客户属性排除在类描述过程之外, 筛选出目标类的相关客户属性集。

属性相关分析的基本思想是计算某种度量, 用于量化属性与目标类的相关性。本文选择信息增益分析技术作为属性的选择度量, 选取具有最高信息增益 (或最大熵压缩) 的属性作为当前节点的测试属性, 使得对结果划分中的样本分类所需的信息量最小, 并反映划分的最小随机性[9]。其具体方法如下:设S是s个数据训练样本的集合, 每个样本的类标号均为已知。假定类标号属性具有m个不同值, 可对应定义m个不同类Ci (i=1, …, m) 。设S包含si个Ci类样本 (其中si是类Ci中的样本数) , 则一个任意样本属于类Ci的概率为si/s, 对一个给定的样本分类所需的期望信息可由下式给出:

设属性A具有v个不同值{a1, a2, …, av}。可用属性A将S划分为v个子集{S1, S2…Sv};其中Sj包含S中的这样一些样本, 它们在属性A上具有值aj。若选A作为测试属性, 则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集Sj中类Ci的样本数, 则由A划分成子集的熵或期望信息由下式给出:

其中项 $\frac{S_{1 j} + \dots + S_{m j}}{S}$ 充当第j个子集的权, 并且等于子集中的样本个数除以S中的样本总数。期望信息 (熵) 越小, 子集划分的纯度越高。对于给定的子集Sj, I (s1j, s2j, …, smj) 由下式给出:

其中, $\frac{s_{i j}}{| S_{j} |}$ 是Sj中的样本属于类Ci的概率。

将在A上分枝所获得的信息增益定义为:

Gain (A) =I (s1, s2…sm) -E (A) (5)

Gain (A) 就是由于知道属性A的值而导致的熵的期望压缩。通过计算每个属性的信息增益, 选择具有最高信息增益的属性作为给定集合S的测试属性。另外, 可以设定相应的阈值 (可参阅文献[10]) , 将低于该阀值的冗余属性剔除, 从而建立起数据集合S的目标类的相关属性集。

1.4 构建分类模型

(1) 利用判定树归纳进行分类

判定树是一个树结构, 它的每个非叶节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。如前所述, 在树的每个节点上使用信息增益度量选择测试属性。在选定测试属性后就可进行判定树归纳, 其基本算法是贪心算法, 以自顶向下递归的方式构造判定树。算法的基本描述如下:

①判定树以代表训练样本的单个节点开始。②若样本均在同一个类, 则该节点成为树叶, 并用该类标记。③否则, 根据信息增益选择能最好地划分样本的属性作为该节点的测试属性。④对测试属性的每个已知值创建一个分枝, 并据此划分样本。⑤算法使用同样的过程, 递归地形成每个划分上的样本判定树。当一个属性出现在一个节点上, 则在该节点的任何后代就不必考虑。⑥当下列三个条件中的任何一个成立时, 停止递归划分:a.给定节点的所有样本属于同一类;b.没有剩余属性可以用来进一步划分样本 (此时使用多数表决, 将给定的节点转换成树叶, 并用训练集中多数所在的类标记它) ;c.分枝没有样本 (此时以训练集中的多数类创建一个树叶) 。

(2) 由判定树提取分类规则

提取判定树表示的知识, 并以IF-THEN形式的分类规则表示。对从根到树叶的每条路径创建一个规则, 沿着给定路径上每个“属性——值”对形成规则前件 (“IF”部分) 的合取项。叶节点包含对是否为价值客户进行预测, 形成规则后件 (“THEN”部分) 。

2 基于RBF神经网络的CLV预测

由前面所述可知, 在价值客户特征属性的归纳过程中, 本文已完成了对生命周期已经结束的客户的CLV计算, 对于仍处于生命周期某阶段的客户甚至企业的新客户来说, 如何准确地预测其CLV呢?虽然根据判定树所提取的价值客户分类规则可以判断出这些客户是否为企业的价值客户, 但由于该方法受限于类标号属性值的离散化, 因此仍然无法准确地确定CLV, 而这是将价值客户或非价值客户进一步细分的根本依据。

因此, 本文提出了基于径向基神经网络 (简称RBF神经网络) 的CLV预测方法, 如图1所示。该方法将训练样本的CLV作为神经元的输出变量, 将判定树所归纳出的反映训练样本客户特征的客户属性作为神经元的输入变量, 通过对神经网络的训练, 使其具备预测CLV的功能。图中S1与S2为中间隐层与输出层的神经元数, 由于本论文仅将CLV作为输出变量, 因此S2的值为1。

3 价值客户特征属性归纳及CLV预测的示例

3.1 数据处理及训练数据集的构建

从某企业的客户数据库中选取生命周期已经结束的客户作为样本, 利用公式 (1) 进行CLV计算并进行排序, 将CLV最大的20%比例的客户视为企业以往的价值客户, 并将“是否为价值客户”记录在所增加的“价值客户”这样一个新的客户属性中。建立起关于这些样本客户的数据集市, 使其包含着类标号属性 (即“价值客户”属性) 及客户的以下具体属性:

客户的自然属性。包括5个具体的客户属性:姓名, 性别, 年龄, 收入, 联系方式。

客户的行为属性。包括2个具体的客户属性:购买频率, 现金或信用卡的支付方式。

对构建的数据集市进行数据预处理。由于姓名及联系方式属性存在大量不同值, 且无法进行概念分层, 故将它们剔除掉。对年龄、收入、购买频率属性进行离散化, 所划分的区间及对应的描述值分别为:

年龄。划分区间为:25岁及以下, (25岁, 45岁) , 45岁及以上;所对应的描述值分别为:青年, 中年, 老年。

收入。划分区间为:月收入800元及以下, (月收入800元, 月收入2000元) , 月收入2000元及以上;所对应的描述值分别为:低收入, 中收入, 高收入。

购买频率。划分区间为:1年购买2次及以下, (1年购买2次, 1年购买6次) , 1年购买6次及以上;所对应的描述值分别为:很少购买, 一般购买, 经常购买。

通过预处理得到广义关系表, 从中随机抽取20个客户数据元组组成训练数据集, 如表1所示, 其他客户数据元组作为测试数据集。

3.2 相关属性集的建立

类标号属性“价值客户”有两个不同的值 (即{是, 否}) , 因此对应两个不同的类 (m=2) , 假设与其相对应的类分别为C1、C2。从表1的训练数据集中可以得出C1有5个样本, C2有15个样本。利用公式 (2) 可得训练集分类所需的期望信息为:

I (s1, s2) = I (5, 15) =-5/20*log2 (5/20) -15/20*log2 (15/20) =0.811。

计算每个属性的熵, 如对于收入属性:

低收入:s11=0 s21=6 I (s11, s21) =0

中收入:s12=1 s22=7 I (s12, s22) =0.544

高收入:s13=4 s23=2 I (s13, s23) =0.918

由该属性划分成子集的熵为:E (收入) =6/20*I (s11, s21) +8/20*I (s12, s22) +6/20*I (s13, s23) =0.493, 因此这种划分的信息增益是:Gain (收入) =I (s1, s2) -E (收入) =0.318。类似地可以计算出按其它属性划分的信息增益:Gain (性别) =0.009, Gain (年龄) =0.086, Gain (购买频率) =0.24, Gain (支付方式) =0.163。将属性相关性的阈值设定为0.01, 则将与类标号属性弱相关的“性别”属性剔除掉, 就得到了相关属性集。

3.3 判定树及价值客户识别规则的产生

收入在属性中有最高的信息增益, 故将其作为判定树根节点的测试属性, 并对于每个属性值引出一个分支, 选择信息增益次高的属性为下一级节点的测试属性, 这样递归的构造出判定树, 经过剪枝, 最终如图2所示。

根据图2的价值客户的判定树, 从根到树叶的每条路径都可以创建一个规则, 总共可以建立价值客户识别的8条规则, 以下仅列出其中一条, 其它略。

IF收入=“高” AND支付方式=“信用卡” THEN 价值客户=“是”

针对训练数据集, 利用判定树方法建立起的价值客户识别规则可以对测试集中的客户进行价值识别。需要说明的是, 为了便于计算及描述, 示例中仅抽取了20个客户数据元组作为训练数据集, 而客户属性类别较多, 所以使得模型的识别误差较大, 这里仅仅作示范说明作用。在实际当中, 我们抽取了500个客户数据元组作为训练数据集, 利用判定树归纳出的价值客户识别规则对测试集中的420个客户进行了价值识别, 其准确率高达84%, 说明了该方法通过归纳价值客户特征属性来进行价值客户识别是比较有效的。

3.4 预测CLV的系统仿真

同样以上面500个客户数据元组作为训练数据集, 将相关属性集中的客户属性 (收入、购买频率、支付方式、年龄) 作为输入矢量中的4个变量, 计算出的CLV值作为输出变量, 高斯函数作为神经元的变换函数。通过对图1结构的RBF神经网络进行训练 (使用的软件为MATLAB6.0, 隐层神经元的数目选为自动确定) , 对测试集中的420条记录进行系统仿真检验, 结果CLV预测的相对误差仅为3.26%, 说明该CLV预测模型具有较高的预测精度。

4 结论

本文利用数据挖掘中的判定树归纳法对客户数据库进行分析, 提炼出价值客户的自然属性特征及购买行为特性等重要的隐含信息, 对于了解价值客户特性及分析其购买行为具有指示意义。与通过计算客户全生命周期价值来进行价值客户识别不同, 本文所建立起的价值客户识别准则方法便捷、表现形式直观, 并可以对可为该领域的相关研究提供借鉴。此外, 本文将判定树方法归纳出的客户特征属性及CLV分别作为径向基神经网络的输入、输出变量, 构建起准确预测CLV的模型, 实证结果表明模型具有较强的适用性及较高的预测精度。

摘要：采用数据挖掘中的判定树法归纳出反映价值客户特征的客户属性, 相应地建立起价值客户的识别规则, 并将提炼出的客户属性作为神经元的输入, 构建起基于径向基神经网络的CLV预测模型。最后结合实例对所构建的方法进行了应用说明, 为价值客户识别与特征描述及CLV的预测提供了一种新思路。

关键词：客户知识,价值客户,客户生命周期价值,判定树归纳,径向基网络

参考文献

[1]王红军, 陈庆新, 陈新, 郑德涛.基于效用分析的客户聚类方法研究[J].计算机集成制造系统, 2003, 9 (3) .

[2]邹鹏, 李一军, 叶强.客户利润贡献度评价的数据挖掘方法[J].管理科学学报, 2004, 7 (1) .

[3]胡理增, 薛恒新, 于信阳.以客户终身价值为准则的客户重要程度识别系统[J].系统工程理论与实践, 2005 (11) .

[4]REINARTZ W J, KUMAR V.The Impact of Customer RelationshipCharacteristics on Profitable Lifetime Duration[J].Journal of Mar-keting, 2003, 67 (1) .

[5]RUSTR T, LEMON K N, ZEITHAML V A.Return on Marketing:Using Customer Equity to Focus Marketing Strategy[J].Journal ofMarketing, 2004, 68 (1) .

[6]DWYER R F.Customer Lifetime Valuation to Support Marketing De-cision Making[J].Journal of Direct Marketing, 1997 (11) .

[7]BERGER P D, NASR N I.Customer Lifetime Value:MarketingModels and Applications[J].Journal of Interactive Marketing, 1998 (12) .

[8]陈明亮.客户全生命周期利润预测方法的研究[J].科研管理, 2003, 24 (4) .

[9]HAN J WI, KAMBER M.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc, 2001.

地理信息挖掘与发现篇5

1.1 知识发现的概念。

知识发现,又称数据库知识发现(KDD),是从大量原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识。Fayyad将数据库知识发现定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[1]。”

1.2 知识发现的过程。

本文采用知识发现的方法对油料装备知识进行繁衍[2],油料装备的知识发现过程可粗略的划分为3个阶段:数据准备阶段、数据挖掘阶段和结果的解释评估阶段,其流程图如图1所示:

(1)数据准备阶段包括3个方面的内容。(1)数据选取,主要是确定目标数据,即根据用户需求从原始数据库中抽取一组感兴趣的数据,并将其组织成适合挖掘的数据组织形式。(2)数据预处理,也叫数据清洗,主要是消除噪音数据。噪音数据是指那些明显不符合逻辑的偏差数据,如某人300岁,这样的数据往往影响挖掘结果的正确性。(3)数据变换,主要是指对数据进行降维处理。

(2)数据挖掘阶段。数据挖掘阶段是油料装备知识发现的核心,是根据挖掘的任务或目的使用具体的挖掘算法对准备好的数据集进行知识发现。这些知识是隐含的、先前未知的、对决策有潜在价值的。提取的油料装备知识可表示为概念(Concepts)、规则(Rules)、规律(Regularities)和模式(Patterns)等形式。这些形式蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,从而为油料装备设计人员提供决策依据。

(3)结果的解释和评价阶段。就是对挖掘出来的知识模式进行解释和评价,即剔除冗余或无关的知识模式,将最后结果展现给用户。

2 规则型挖掘技术

现代数据挖掘技术按照其不同的技术特点,可以分为规则型挖掘技术、神经网络型挖掘技术、遗传算法型挖掘技术、粗造集挖掘技术、决策树型挖掘技术。

本文采用规则型挖掘技术,对从数据库中抽取的一组油料装备功能性需求数据进行数据挖掘,并从中发现新的规则。对规则的归纳是数据挖掘的一种主要形式,并且是无教师学习系统中最普遍的知识发现形式,它也是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在数据库中“淘金”。这里的金子是指人们原先不知道或者不能明确表达出来的知识。

(1)关联规则的基本概念。关联规则也称为关联模式,是美国BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是数据挖掘研究中的一个重要课题。关联规则是指大量数据中项集之间有趣的关联或相关联系[3]。关联规则发现的对象主要是事务数据库,例如售货数据,也称为货篮数据。它是描述一个事务中物品之间同时出现的规律的知识模式。基于这一概念,本文利用关联规则来描述油料装备设计过程中不同功能需求同时出现的规律。

关联规则本身是“如果条件怎么样,那么结果或情况就如何”的简单形式,它是一种蕴含关系、对称关系,不是因果关系。关联规则的表示形式为:A⇒B,其中左部A称为前件,右部B称为后件。前件可以包括一个或多个条件,在某个给定的正确率限制情况下,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。

例如,购买了计算机的用户有购买财务软件的趋向,用关联规则表示为:

Buys(x,〝computer〞)buys(x,〝finacial＿management＿software〞)

(2)关联规则的评价标准。(1)支持度(Support)是对A圯B的重要性(或适用范围)的衡量。在事物数据库D中,规则A圯B的支持度定义为物品集A和B同时出现的概率。支持度用公式定义为:

例如,如果某天有500个顾客(元组数)到商场购买物品,其中有100个顾客同时购买了牛奶和面包,那么牛奶⇒面包的支持度就是20%。

(2)可信度(Confidence)。它是对关联规则的准确度的衡量,事物数据库D中规则A⇒B的可信度定义为在物品集A出现的前提下,B出现的概率。可信度用公式定义为:

如上面所举的牛奶和面包的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了牛奶,那么他同时也购买面包的可能性有多大呢?在上述的例子中,如果在购买牛奶的200名顾客中有100人购买了面包,则该规则的可信度是50%。

关联规则的挖掘问题就是在事务数据库D中找出大于等于用户给定的最小支持度或者最小可信度的关联规则。而挖掘关联规则是指在事务数据库D中挖掘出具有这种形式的规则:由于某些事件的发生而引起另外一些事件的发生。这些规则在决策支持系统、专家系统和智能设计等各个方面起着重要作用。

(3)关联规则的算法。Agrawal等人在1993年提出了解决客户事务数据库中的项集间关联规则问题的Apriori算法。该算法的核心是将关联规则的数据挖掘算法分解成两步[4]:(1)找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。(2)使用算法第(1)步找到的频集产生所期望的规则。

在这两步算法中,第(2)步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3…,IK,k≥2,Ij∈I,那么只有包含集合{I1,I2,I3,…,IK}中的项的规则最多有k条。这种规则形如I1,I2,I3…,Ii-1,Ii+1,…,IK→Ii,1≤i≤k。这些规则置信度必须大于用户给定的最小置信度。

Apriori算法的第(1)步采用递归方法,算法表示为:

算法首选产生频集1项集L1,然后循环生成频集2项集L2,直到某个r使Lr为空,算法结束。在第k次循环中,首先产生候选k-项集的集合Ck,Ck中的每一项集是对两个只有一个项不同的属于Lk-1频集做（k-2）-项集连接产生的,Ck中的每个项需要在事物数据库中进行验证以决定是否加入Lk。

3 Apriori算法的应用

在运用Apriori算法进行数据挖掘之前,首先要明确抽取的这组油料装备功能性需求数据包括运油、加油、泵油、储油4项数据,这4项数据是存储在油料装备设计综合数据库中的,它们是与油料装备设计问题相关的初始数据,表示了油料装备所具有的复合功能。其次要明确油料装备设计综合数据库相当于关联规则发现的对象事物数据库D,4个复合功能相当于事物中的物品集合,根据用户不同的功能需求,这4个复合功能组成了不同的项集,正是在这些不同的项集间,存在着关联规则。

设定数字“1,2,3,4”分别代表“运油、加油、泵油、储油”,事物数据库D为油料装备设计综合数据库,则Apriori算法在油料装备功能数据挖掘中的应用如图2所示:

本文为了便于计算和比较各个项集支持度的大小,用项集在数据库中的出现次数来表示支持度,等到算法结束挖掘出功能需求间的关联规则时,再运用公式(2)将支持度换算成百分数,并对关联规则进行评判。

在C1的产生过程中,首先扫描数据库,由于项集{1},在数据库中出现了3次,故其支持度为3,其余以此类推。如果用户要求最小支持度在1以上,那么在由C1产生L1时,项集4被删除。

在由L1产生C2的第二次循环过程中,由于项集{4}没有在L1中出现,因此在C2中的项集就不会包含有子项集{4}的项集。获得C2后,扫描数据库获得C2中所有项集的支持度,由于项集{1,2}分别在数据库D中的功能需求标识A3、A4中出现了一次,故其支持度为2,其余类推。然后对具有支持度的C2比较支持度,选择大于支持度为1的项集,最后获得L2。

在由L2产生C3的第三次循环过程中,由于只有{1,2,3}的所有子项集{1,2}、{2,3}和{1,3}在L2出现,因此C3中只有项集{1,2,3}。在扫描数据库后获得{1,2,3}的支持度为2,最后获得L3。此时已经无法由L3产生C4,故算法结束。

由上述算法可得3个频集:L1、L2、L3。根据Apriori算法的第(2)步,可从频集L2中产生至少3条功能需求关联规则,并运用公式(1)和公式(2)分别计算3条关联规则的支持度和可信度,如表1所示:

若用户规定关联规则的最小支持度为25%(与支持度1对应),最小可信度为50%,那么表1中的3条关联规则都是符合用户要求的,可以作为新知识加入到知识库中,并可在以后的油料装备设计中进行利用。如关联规则“加油⇒泵油”,表示如果设计的油料装备具有加油功能,那么也应同时具有泵油功能。

4 结束语

随着“知识经济”时代的到来,油料装备设计正逐渐向依靠知识驱动的创新设计方向发展。如何在呈爆炸性增长的数据中挖掘出对油料装备设计有用的知识,已成为油料装备知识发现研究的重点。本文在油料装备知识发现过程中运用规则型挖掘技术,可以从油料装备设计综合数据库中挖掘出功能需求间的关联规则,并将其存入知识库。这不仅实现了油料装备知识的自我繁衍,而且提高了油料装备设计的创新性。

参考文献

[1]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining[M].MIT Press,1996.

[2]彭颖红,胡洁.KBE技术及其在产品设计中的应用[M].上海:上海交通大学出版社,2007.

[3]宋丽,林利.基于关联规则的数据库知识发现及应用[J].商场现代化,2009(2):49-50.

地理信息挖掘与发现篇6

近年来,随着我国民航业的迅猛发展,航班运行协同决策CDM[1](Collaborative Decision Making)系统越来越广泛地应用于各大枢纽机场。与此同时,在航班运行保障过程中会累积大量的航班运行保障数据,如何科学合理地处理利用这些数据是摆在民航各部门面前的一道难题。因此,航班协同保障数据的知识发现研究具有重要意义,其不仅有助于航班保障流程的优化、机场服务保障能力的提升,同时有助于我国民航业的可持续发展。

数据知识发现KDD(Knowledge Discovery in Database),也叫数据挖掘,是从各种表示的数据信息中,根据不同的需求获得知识。针对知识发现及其相关应用问题,国内外相关学者已开展了相关研究,并取得了一定的成果。Kumar S等人在文献[2]中研究了将数据挖掘技术与蚂蚁算法、遗传算法相结合,挖掘分析生产调度过程中产生的大量数据,进而优化调度过程;Ni JC等人在文献[3]中采用数据挖掘技术对产品制造业的数据进行分析,提取系统中数据之间的关联规则,用于指导产品制造的调度过程;夏英等在文献[4]中研究了智能交通系统中的时空数据挖掘分析,通过对时空数据进行智能分析,获取运动轨迹、交通流量、道路拥堵状态等不同数据元素的时空相似性、时空相关性和时空关联性,进而进行路网拥堵趋势、短时交通流量预测等;王成龙等人在文献[5]中研究了作业车间调度规则挖掘问题,基于决策树的调度规则挖掘方法,提取调度方案中新的调度规则,指导作业车间调度过程。通过分析发现,基于关联规则的数据挖掘方法在民航及作业优化调度领域具有较好的研究及应用,因此,可以借助关联规则挖掘方法,挖掘隐藏在海量历史航班协同保障数据中的潜在的、有用的知识,进而指导优化航班保障流程。

通过分析航班保障流程[6]及航班协同保障数据的特征,本文利用Apriori算法,从大量的航班协同保障数据中发现航班保障各环节之间的关联关系,进而借助其优化航班保障流程,提升航班放行正常率。

1 基本概念及理论

1.1 航班保障流程及航班协同保障数据的定义

航班保障工作复杂而繁琐,每个保障环节都将会对航班是否能够准点起飞产生影响,且各关键环节之间相互关联。分析各航班协同保障环节之间的复杂关系,有必要对航班协同保障属性进行定义。航班从准备到起飞的整个保障过程中涉及到的各保障环节称为航班协同保障属性FCSA(Flight Collaborative Security Attribute),其主要包括航班清洁属性(CL)、航班加油属性(FO)、航班配餐属性(FD)、机务放行属性(MA)、指挥上客属性(LD)、关舱门属性(CO)、撤轮档属性(BL)、航班滑行道滑行属性(TA)和航班起飞属性(TO)。

航班协同保障数据是指机场、空管、航空公司的信息集成系统对航班协同保障属性的预计完成时间、实际完成时间及该航班运行状况的记录。一般情况下,一条航班保障记录数据可由十九元组P(FNO,CLTs,CLTa,FOTs,FOTa,FDTs,FDTa,MATs,MATs,MATa,LDTs,LDTa,COTs,COTa,BLTs,BLTa,TATs,TATa,TOTs,TOTa)表示。

其中:FNO表示该条保障记录数据所对应航班的航班号,表1给出了航班保障记录数据的说明。

航班协同保障属性的取值用九元组M(δcl,δfo,δfd,δma,δld,δco,δbl,δta,δto)表示,针对航班保障属性的各环节,若其实际完成时间>计划完成时间,则对应属性取值为yes;否则,对应属性取值为no。即:

其中,i=(cl,fo,fd,ma,ld,co,bl,ta,to)

正常放行航班的定义:假设机场航班延误标准为t,若TOTa>TOTs+t,则认为航班FNO延误;否则,认为该航班正常放行。

1.2 关联规则

关联规则[7]是表示数据的一组属性之间某种关联关系的规则,其数学模型描述如下:设I={i1,i2,i3,…,im}是m个不同属性项的集合,数据集D是数据库事务的集合,其中每个事务T是属性项的集合,即。关联规则表示为蕴涵式,其中。数据集D中的规则受支持度supp和置信度conf的约束。其中,支持度定义为D中事务包含X∪Y的百分比;置信度定义为D中包含X的事务同时也包含Y的百分比。

在实际研究中,满足一定支持度和置信度的关联规则才有意义[8]。为此定义两个阈值,最小支持度minsupp和最小置信度minconf。如果则称规则是成立的。关联规则的挖掘就是在事务数据集D中找出满足给定最小支持度和最小置信度的关联规则。

2 基于关联规则的航班协同保障数据挖掘算法

2.1 数据预处理

现实世界中的数据通常是有噪声、不完全、不一致的,航班协同保障数据也不例外。例如工作人员误录入等操作,使得获得的数据存在缺值、含有脏数据等问题。因此,在利用数据挖掘方法对其进行挖掘之前有必要进行数据清洗。

航班协同保障数据的各属性为连续性数值,目前针对连续性数值数据的知识发现挖掘问题,大都首先借助数据归约方法将连续性数值属性离散化,然后再通过数据挖掘算法挖掘隐藏的知识。在此,本文采用预定义的概念分层方式对航班保障数据各属性进行离散化处理。数据预处理步骤如下:

(1)针对航班保障数据存在数据缺失的问题,将无效的航班保障数据过滤清洗掉;

(2)根据式(2)计算每条航班保障数据对应时间段内的航班放行正常率λ,用“正常率标识”属性(Level)标识,Level表示该航班起飞时间所对应时间段的放行正常率等级,Level取值为δle={Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ}。航班放行正常率等级如表2所示。

其中,Nr表示该航班起飞时间段内放行正常航班数目,N表示该航班起飞时间段内保障航班数目总量。

(3)根据式(1)将原始航班保障记录P转化为航班协同保障属性取值的元组M,数据预处理后,关联规则挖掘的事务数据集如表3所示。

2.2 关联规则挖掘算法

在对航班协同保障数据进行关联规则挖掘分析过程中,采用Apriori算法,通过扫描数据库累积每个项的计数,采用逐层搜索的迭代方法收集满足最小支持度的项,生成频繁项集。一旦找出频繁项集,便可直接产生满足最小支持度和最小置信度的强关联规则。

具体操作步骤如下:

步骤1取航班协同保障数据进行数据预处理,得到关联规则挖掘的航班协同保障事务数据集;

步骤2输入所挖掘关联规则的最小支持度minsupp和最小置信度minconf;

步骤3依次扫描航班协同保障事务数据集D,数据集共有r事务,对每个事务DTID(TID=1…r)的每个属性取值项δcl[a]、δfo[a]、δfd[a]、δma[a]、δld[a]、δco[a]、δbl[a]、δta[a]、δto[a](a={yes,no})、δle[b](b={Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ})等出现次数进行候选支持度计数,比较各项的支持度计数与最小支持度计数min_supp(min_supp=minsupp×r),将候选支持度计数大于min_supp的取值项生成频繁1项集L1;

步骤4对Lk-1(k≥2)进行自身连接,产生候选项集Ck,再依次扫描航班协同保障事务数据集,对Ck项集的每个子集进行候选支持度计数,与最小支持度计数比较后生成Lk,直至Ck=Ø;

步骤5输出D下的频繁项集Lk,由Lk生成满足最小置信度minconf的关联规则,其中。

3 实验结果分析及应用举例

3.1 实验结果与分析

选取国内某枢纽机场2014年9月-12月的航班协同保障数据作为实验数据,并对保障数据进行数据预处理,然后借助Apriori算法挖掘在枢纽机场不同协同状况等级下各关键环节之间的关联关系。同时选取该机场2015年某月的航班保障数据作为验证数据,用于验证所发现的关联规则的有效性及鲁棒性。其中,为了保证各保障环节之间关联规则结果的客观性,实验数据中不包括由于天气或军事活动等客观原因造成长时间(3小时以上)延误的航班数据。

实验参数设置如下:航班延误标准t为30 min,最小支持度minsupp为0.4,最小置信度minconf为0.7,最大规则数20。实验结果:表4所示为所生成的置信度大于0.85的最大关联规则集;图1所示为验证数据集数量分别为500、2000、5000、10000条时,最大关联规则集在数据集中的准确率;图2所示为调整最小支持度参数分别为0.1~0.7、最小置信度为0.75,在不同的最小支持度参数下得到的关联规则数量对比图。

从表4所示的关联规则集可以看出,在航班协同保障数据集中存在一定量置信度较高的关联规则知识,并且通过数据分析手段可以挖掘出这些知识。其中,规则1-规则5是航班协同保障属性与航班放行正常率之间的关系:由规则1可知,在航班的关舱门、撤轮档、滑行时间均正常的情况下,航班的正常放行率在80%~100%之间,为Ⅰ等级;由规则2可知当航班放行正常率降为Ⅱ级(60%~80%)时,其主要原因是航班配餐及关舱门属性没有按计划时间完成;而由规则3可知,当航班清洁、配餐及指挥上客时间晚于计划时间时,航班放行正常率在Ⅲ级(40%~60%);同时,对比规则3和规则4可以发现,关舱门属性是影响航班放行正常率的一个重要环节;由规则5可知,当航班保障的各环节没有按时完成时,航班放行正常率严重下降。另外,从规则6-规则8中可以发现,航班保障的某些属性环节之间是会产生相互影响和制约的;由规则6可知,当航班的清洁、配餐和机务放行能够按时完成时,航班才能够按时指挥上客;由规则7可知,当指挥上客、关舱门和撤轮档按计划完成时,航班能够按计划起飞时间起飞,一般情况下不会延误。

利用历史航班运行数据对所挖掘的关联规则知识进行鲁棒性验证,从图1中的结果可以看出,航班协同保障数据集中挖掘出的关联规则在不同数量级验证数据中的准确率较稳定。规则1-规则8的最大准确率和最小准确率之间的差值分别为0.11、0.1、0.07、0.05、0.07、0.07、0.06、0.07,平均差值仅为0.067,说明关联规则的鲁棒性较好。另外,由图2可以看出,航班协同保障数据中存在一定数量的关联规则知识,即航班协同保障各环节之间及与航班放行正常率是有一定关联关系的,随着Apriori算法最小支持度设置的不同,可以获取到一定数量的有价值的关联规则知识。

3.2 应用举例

基于关联规则挖掘的知识发现技术在各行业领域都得到了广泛的研究及应用,包括网络信息资源[9]的知识发现,医疗健康数据[10]、网络用户行为数据[11]、声音数据[12]等等。通过关联规则挖掘,在航班运行保障数据中发现的航班保障与航班放行状态的关联规则知识,对于航班保障流程的优化和航班准点率的提高具有重要意义。例如,由规则1可以知道,当航班的关舱门、撤轮档、滑行时间均在计划时间内完成时,航班的放行正常率较高。同时,通过与规则2进行对比可以发现,航班正常率的下降主要由于配餐准备和关舱门没有按时完成的影响,这就提示航班运行保障部门对于配餐准备环节的重视,在适当的时候应该增加相应的资源,确保该环节的保障完成情况,进而提升保障效率。除此之外,结合规则6与规则7发现,当航班的清洁、配餐和机务放行工作均正常地按时完成后,航班才能够及时指挥上客,才能保证之后的按时撤轮档、滑出及起飞。因此,在航班没有完成配餐或机务放行工作前,航空公司应该暂时推迟指挥旅客登机,这样就能够避免旅客登机完成后由于机组或机务原因导致旅客在飞机上等待。

4 结语

本文结合关联规则的知识发现算法对CDM系统中大量的航班协同保障数据进行分析,发现航班保障环节的潜在规律,进而缓解由于航班保障不当等因素造成的航班延误问题。实验证明,该方法可以准确快速地挖掘出航班协同保障数据中大量有意义的规则,这些规则可以作为先验知识用来指导航班保障流程的优化,具有一定的参考价值。由于条件局限,本文对数据进行处理时尚未考虑机场繁忙与非繁忙时段差异性方面的知识发现,这有待进一步研究。

参考文献

[1]闫然.民航协同决策(CDM)概念及分析[J].中国科技术语,2012,6(3):50-53.

[2]Kumar S,Rao C S P.Application of ant colony,genetic algorithm and data minging-based techniques for scheduling[J].Robotics and Computer-Integrated Manufacturing,2009,25(6):901-908.

[3]Li L,Sun Z J,Ni J C,et al.Data-based scheduling framework and adaptive dispatching rule of complex manufacturing systems[J].The International Journal of Advanced Manufacturing Technology,2013,66(9-12):1891-1905.

[4]夏英.智能交通系统中的时空数据分析关键技术研究[D].成都:西南交通大学,2012.

[5]王成龙,李诚,冯毅萍,等.作业车间调度规则的挖掘方法研究[J].浙江大学学报:工学版,2015,49(3):421-429.

[6]张伟航.航班运行保障新模式——航班运行协同决策系统核心理念介绍[J].科技资讯,2014,25(18):230-232.

[7]Jia Wei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].Beijing:China Machine Press,2011.

[8]王培吉,赵玉琳,吕剑峰.基于Apriori算法的关联规则数据挖掘研究[J].统计与决策,2011(23):19-21.

[9]叶丽莎,王学东,方婧.网络信息资源知识发现机理研究[J].现代情报,2014,12(8):13-16.

[10]刘洋,张卓,周清雷.医疗健康数据的模糊粗糙集规则挖掘方法研究[J].计算机科学,2014,23(12):66-70.

[11]丁丽.基于Apriori算法的用户行为数据挖掘研究[J].科技通报,2013,29(12):214-217.

地理信息挖掘与发现篇7

从社会渠道获得线索。我们在与各地县市通讯员加强联系, 获得新闻线索的同时, 还可以进一步扩大消息来源。我们可以充分利用各媒体热线电话这一信息平台, 从中发现和挖掘有价值的新闻线索。在解决了新闻线索来源问题之后, 对线索的筛选也十分重要, 并不是说“捡到篮子里的都是菜”, 对线索的精挑细选是一则好报道的关键组成部分。

民生市井、日常琐事是百姓生活组成部分, 但琐碎、庸常的事物并不是民生新闻的全部内涵。关注民生话题, 并不是简单堆砌生活中的琐碎事物, 我们在选择时, 尤其要注重新闻线索的典型性和代表性。通过对身边那些典型小事、典型细节的报道, 倡导一种社会观念、社会秩序、社会道德和社会风尚, 这是报道民生新闻的终极意图。“一粒沙里一个世界, 一朵花里一个天堂”, 一则看似普通的民生新闻报道也完全可以映照出一个时代、一个地区的生活图像。

记者选择民生新闻线索时, 还应当注重与当前的时政热点相结合, 及时捕捉那些与百姓生活息息相关的时政新闻, 挖掘与民生的深层关系。比如高考改革、推进就业再就业、新农村建设等等, 这些都是最贴近百姓生活的、关系国计民生的重大事件。从时政热点中挖掘民生“关注点”, 这样的新闻才会更厚实, 更有看头。如果民生新闻线索的内容只是一味的局限于关注夫妻如何吵架、谁谁离家出走、哪儿发生了车祸等等琐碎事件, 有意排斥和回避时政新闻, 那便是画地为牢, 不仅浪费了新闻资源, 也是狭隘的民生新闻观。

当遇到看似简单的新闻事件, 双方各执一词、反复出现并使问题复杂化时, 记者迅速进行新闻分析, 对新闻事件有一个公正、客观的判断和报道。这类新闻事件中记者更易遇到别有用心者, 需增强新闻效应的预测意识。两名女同志到哈市某俱乐部去休闲, 与保安人员发生口角, 被打。她们向记者反映事件时, 非常气愤, 可随着事态的发展, 当事人的动机和行为发生了改变。记者如实报道新闻事件后, 这两名女同志不停地要求记者继续报道。后来记者得知, 她们是想通过媒体的报道给办案机关施加压力。在这种情况下, 记者一定要提高警惕性, 不能当“裁判员”, 更不能干扰司法的公正。

在报道中还要拓展民生新闻空间, 进一步增强贴近性, 实践证明, 只有关注民生问题, 才能做好民生新闻。但是民生新闻并不只囿于“生活诉求、家长里短”, 在有关国计民生的方针政策也是民生新闻的宝贵资源。记者应该站在民生的角度去打量新闻线索, 用群众的语言去解读新闻事件。

近年来老百姓关心的住房、看病和上学问题。在社会求职与个人创业问题上的心理矛盾, 农业新技术的应用上及由此产生的新成果等等, 都是民生新闻的重点报道内容。记者可以因势利导, 做好政策解读, 采访相关部门, 倾听百姓心声, 这样做出采访的新闻点面结合, 既有权威性又有服务性。

当然, 在新闻实践中, 话语权也必须经过筛查取舍, 新闻事件的当事人的表达的主观意愿, 必须符合国家的法律法规和社会公德。比如有一条新闻反应邻里纠纷:当事人举报隔壁邻居为了增加拆迁补偿面积, 正在准备违章搭建, 遭到对方否认, 相关部门也查无实据。本来这条新闻反应的是社会现实, 有关方面可以根据新线索加强引导平息矛盾, 但是片尾却不恰当地引用了当事人的言语:“如果不查的话, 我们家也马上搭建”。舆论监督的话语权变成了“民意示威”。

弱势群体利益表达问题, 民生新闻无法回避, 但应当努力避免矛盾激化。曾经有一起纺织工人讨薪事件, 工人称已经有两个月没有拿到工资, 到了约定拿钱的时间, 老板又躲到了外地。新闻推出后, 反响很大, 老板找上门来, 声称事情大体属实, 但是在外地是为了筹措资金, 可是经此折腾, 工厂已经停产, 订单无法完成, 因为当地纺织工人紧缺, 不明真相的工人已被中间人带到其他企业。所以, 对那些可能对经济行为产生较大影响的新闻事件, 记者要慎之又慎地用好话语权。只有新闻报道的客观真实性和记者的全面分析能力有机结合起来, 才能真正塑造新闻传媒的公信力。

民生新闻还要创新节目形式, 一些地方台推出的方言节目是一种有益的尝试, 但是乐观的期待是让更多的受众参与节目。媒体可以就某一个社会事件征集观点;可以就某一种生活方式请市民现身说法;也可以组织一支常备的“市民评论员”队伍, 在新闻报道上全面体现公众的价值判断;还可以开设类似“帮忙”的小板块, 进一步服务受众。媒体还要充分利用节日和纪念日, 策划群众喜闻乐见的活动, 让节目走进受众, 提高新闻传播效果。另外还要体现人文关怀, 构建情感载体

民生新闻在强化平民意识、服务受众的同时, 还应以帮助受众提高思想素质、政治素质、道德素质和科学文化素质为目标, 最终的指向应是体现深厚的人文关怀, 为百姓构建情感的载体。

地理信息挖掘与发现篇8

现在我国一些学校信息的管理水平还停留在纸介质的基础上, 这样的机制已经不能适应时代的发展, 因为它浪费了大量人力、物力, 在信息时代这种传统的管理方法必然被计算机为基础的信息管理所取代。信息管理系统是一个教育单位不可缺少的部分, 它的内容对于学校的决策者和管理者来说都至关重要, 所以信息管理系统应该能够为用户提供充足的信息和快捷的查询手段。

开发本系统的目的就是将现代化信息处理技术运用到学校工作管理中, 提高工作效率, 把管理人员从繁杂的手工操作中解放出来。再者, 在建设高水平大学的进程中, 信息管理系统的建设也是重要环节之一。因此, 开发高校信息管理系统是高校信息化建设的一个重要组成部分。同时, 本系统在开发过程中注意到了系统的开放性和实用性, 便于进行操作。

二、数据挖掘信息管理系统的设计目标

本文主要针对系统中各模块数据的特点采用关联规则进行已有数据的挖掘。参考了数据挖掘理论和其他挖掘工具, 以使系统达到如下功能:

1. 易操作性。即挖掘过程的简单性和挖掘结构的易读性。

2. 高效的数据处理能力, 对数据的处理过程简洁有效。

3. 提供了与其他工具相集成的简单路径。

三、数据挖掘管理信息系统的总体设计

高校管理信息系统的研究主要包含两个层面, 即管理层面和技术层面。在管理层面上, 该系统应符合高校资源管理的应用需求特性;在技术层面上, 该系统应采用先进、适用的软件开发模式和软件开发过程。对应这两个层面, 分别从系统功能、开发模式和系统实现等角度来探讨高校管理信息系统。

1. 系统功能

(1) 功能需求

本系统的实际运行, 应当能够使大量重复繁杂的工作进行计算机自动处理和有序管理, 一定程度上实现无纸化办公, 降低人力物力的消耗, 使工作人员从大量繁复事务中解放出来, 从而能够以更多的精力提高工作质量;能够较好地保证数据一致性、准确性和及时性, 实时动态、准确完整地提供各项资源信息, 保证高校在教学、科研、行政和后勤等各方面管理的质量, 为高校提供高度数字化、规范化、科学化的资源管理信息及处理平台, 为领导决策提供准确依据。

(2) 功能模块

信息的收集、处理水平一定程度上与单位的整体管理水平直接相关。由于高校信息管理工作的复杂性, 要求做到分工合理、责任明确、管理有据;信息量的不断膨胀, 要求信息管理必须准确快捷, 讲求效率;管理的开放性要求多名工作人员以不同权限在开放的网络上进行接触, 实时地交互操作, 完成各自的任务或共同的目的。本系统应以管理需求为核心, 以相对完善、重点突出的管理功能实现为主要目标。

2. 开发模式的选择

信息技术的发展使整个社会的方方面面处于信息相互关联状态, 同时也面临降低成本, 提高管理、服务水平的应用需求, 选择合适的开发模式, 要充分考虑不断增长的管理及服务需求。

(1) 从技术层面看, B/S模式开发信息系统是当前业界探索的热点和追求的目标, 面向对象的理论和技术是当前较为先进的软件开发理论和技术, 其综合运用在目前信息管理系统研究领域为数不多, 符合今后IT技术和管理工作的发展趋势。Web技术与数据库管理系统相互融合的领域已经成为理论研究与实际应用的重点方向之一。高校管理信息系统完全可以开发成为一个集成Web技术和数据库技术的MIS应用系统。但是由于高校管理信息系统中有许多报表的制作等等, 从便于数据更新维护的角度出发, 在局域网内部采用C/S开发。

(2) 实现手段在开发C/S数据库应用程序时, 本系统使用的是Microsoft SQL Server 2000, 可以很方便地使用SQLServer服务器管理工具启动后台数据库服务程序, 为客户端提供数据库服务。本文的客户端使用的是JDBC for SQL Server驱动程序及TCP/IP协议与服务端进行连接。

在B/S的开发模式下, 系统实现的核心内容就是Web库系统的集成及其安全性设计。考虑到价格、开发周期、易用性、系统维护、系统扩充和系统移植等因素, 可以采用成熟、稳定、易用的系统平台和开发工具, 在服务器端使用2000Server, SQL server和US, 可以充分利用平台的高级特性和安全机制, 如果采用面向组件技术架构的三层应用程序, 将使系统的稳定性、安全性和扩展性达到一个更高的层次, 这样可以在完全保证部门级应用的同时, 为将来可能需要的企业级应用打下基础;在客户端, 采用目前最为常用的IE浏览器。

四、数据挖掘信息管理系统的功能实现

1. 主要功能模块介绍

本文所研究的高校管理信息系统主要包括教师信息管理、学生信息管理、教学信息管理及图书信息管理四个大的模块。

(1) 教师信息管理

将教师的各类信息利用计算机来管理, 能使管理人员与有关领导及时、准确地了解教师的各方面情况, 同时便于计算教师的薪酬。

(2) 学生信息管理

将学生的各类信息利用计算机来管理, 能使老师和有关管理人员及时、准确地了解学生的各方面情况。学生信息管理包括从录取学生表中导入录取学生相关信息, 及对新生的学号管理, 班级管理, 在校学生信息维护, 学生注册, 学生选课管理, 学生学籍变动, 升级管理, 毕业处理, 学生信息的查询与统计, 学生学籍变动的查询与统计。

(3) 教学信息管理

将教学管理的各类信息利用计算机来管理, 便于管理人员安排教学管理活动, 同时使相关教师与有关领导, 以及时、准确地了解教学管理的各方面情况, 提高管理部门的工作效率。教学信息管理模块的主要功能是对于学生成绩的管理、查询、统计等操作,

(4) 图书信息管理

将图书管理的各类信息利用计算机来管理, 便于全校的教师与学生了解本校的图书信息, 以及时、准确地了解自己借书的各方面情况, 提高借阅的工作效率。图书信息管理模块的主要功能是对于图书馆馆藏图书信息的查询、添加、删除以及学校师生借阅情况的查询等。

2. 学生信息管理模块介绍

以学生信息管理模块为例介绍一下其所包含的内容及功能等。

(1) 学生信息管理模块的内容

由于高校学生工作是一项过程繁琐、内容复杂的系统工程, 因此, 本文根据学生工作的主要内容以及本校学生工作实际情况建立了十个子系统。针对学生的基本情况把握, 根据每个系统工作的要求和特点设置了相关的字段名;同时, 将学号和姓名贯穿到每一个子系统, 运用“学号”这一字段名来关联不同的子系统, 做到查询到一条记录时可以轻易地查询到相关资料。比如, 在查询某毕业生信息时, 可以通过单击学号, 查出其奖惩情况、军训情况等内容。

(2) 学生信息管理模块的功能分析

学生信息管理模块数据库采用C/S体系结构, 后台以部门数据集和全局数据仓库为支持, 用户使用前端的OLAP工具或数据挖掘工具进行数据分析工作, 其体系结构如下图所示。

(1) 查询功能

系统根据不同的层次需要, 设置了不同的用户类型和权限, 满足不同层次的查询需求。在实际操作中, 设置了三种类型, 第一类用户为学工系统内部用户, 这一类用户不仅有查询所有信息的权限, 同时还根据各自的岗位职责设置修改相关的内容权限。第二类用户主要是针对学校领导和学生处主要领导, 这类用户有权限查询所有的信息。第三类用户主要是针对学生, 这类用户能够通过输入自己的账号和口令查询与学生学习生活密切相关的信息, 但对于一些涉及到学生个人隐私的信息则无权限访问。例如贫困生资料、助学贷款情况等信息。

查询功能的实现使学生工作的办公效率大大提高, 减少了过去那种查找学生卡片、各种文件的时间;解决了学生过去遇到问题就往学工系统跑的情况, 现在他们可以更为自主地选择时间和地点查询他们所需要了解的信息和政策, 同时也加强了他们的自我服务, 自己动手的意识和能力。

(2) 实现实时的学生信息收集及意见反馈, 建立网上学生思想工作主阵地

由于网络提供了直接、快捷的信息反馈环境, 并且本系统提供了强大的检索和查询功能, 使得能够及时地收集学生当前阶段的热点、焦点问题, 了解学生的要求及建议, 并将其进行系统化归纳总结。对于收集整理出来的热点和焦点问题, 好的方面, 将反馈到系统的论坛上面, 加以宣传和表扬;对于学生对学校工作的合理化意见, 将通过网络 (电子邮件) 、电话、书面或亲自上门等方式送达相关部门, 以便尽快给出解决办法或情况回复, 再反馈上网;即使是学生不一定合理的意见, 也给以及时的意见反馈, 纠正不必要的学生错误观念和误解, 为学生创造一个和谐的学习生活环境。一方面, 增强学生的参与意识, 为学工系统和学生提供了一个互相交流的渠道, 增强了工作的透明性, 使工作更好地接受广大师生的建议和监督;另一方面, 通过连接当前国内外新闻动态、学校当前主要工作等信息, 切实体现“三个代表”要求, 占领网上学生思想工作阵地, 使校园网络成为学生思想政治工作又一重要形式。

(3) 实现高效科学的计算机办公

由于系统具有准确、快捷的特点, 因此, 利用这一系统进行办公必然会提高办公的效率和质量。例如在勤工助学系统中, 系统可以根据上岗人姓名及学号调出该生是属于特困生、贫困生还是非贫困生, 读出系统每次录入的考勤记录;根据系统设定和提供的上岗岗位及相应劳酬标准, 自动生成勤工助学劳酬报表。通过这种系统进行学工办公, 相对于传统办公来讲更为快捷和高效。同时, 对于一些突发性问题也能更好地了解和解决。

摘要：本文从开发数据挖掘高校管理信息系统的目的、设计目标、总体设计、功能实现等几个方面介绍了基于数据挖掘的高校管理信息系统的设计与实现。

关键词：数据挖掘,高校,管理信息系统

参考文献

[1]徐宝民.基于B/S模式的新型企业MIS的研究与设计[J].计算机工程与应用, 1999, 6

[2]林筑英.数据挖掘技术及其所面临的问题[J].贵州师范大学学报, 2003, 3

[3]周竞扬.基于WEB的数据挖掘[J].南京大学学报 (自然科学) , 2002, 11

【地理信息挖掘与发现】推荐阅读：

测绘与空间地理信息10-03

地理教学与信息技术08-30

地理国情普查-兰州交通大学测绘与地理信息学院08-17

信息技术与地理教学整合之我见06-11

基于时态的地理信息系统控件的开发与应用10-12