数据挖掘技术工程管理

2024-07-04

数据挖掘技术工程管理（精选12篇）

数据挖掘技术工程管理篇1

摘要：随着现代人们生活节奏的不断加快, 对医院工作质量与效率提出了更高的要求, 未来医院信息管理系统将向更加智能化、数字化的方向发展, 数据挖掘技术在医院信息管理系统中的应用能够大大提高医院工作与管理效率。笔者从数据挖掘技术的基本概念的角度入手, 通过对数据挖掘技术的不同分类进行深入分析, 为其在现代医院信息管理系统应用提供一定的理论基础。

关键词：数据挖掘技,基本概念,技术分析,信息管理

现代医院信息管理系统建设需要运用先进的计算机互联网技术对医院现有的医疗信息资源及患者的病例档案进行高效、科学地统一化管理, 同时引入数据挖掘技术来对大量的数据信息进行挖掘处理, 根据处理结果建立统一的数据结构群组, 同时根据用户及患者的不同需求提供个性化咨询与就医服务。利用数据挖掘技术不仅能够实现医院信息资源的高效、科学化利用, 还能够为用户提供精确的、需要的个性化服务, 以此加快医院信息管理系统智能化、高效化发展。

1 数据挖掘技术基本概念

数据挖掘技术的基本概念可归结为以下内容, 利用先进的云系统与大数据处理技术, 针对大量看似无规律、无联系的数据进行定性定量地运算与分析, 挖掘出这些数据背后隐藏的规律与联系并利用到特定目的的数据处理技术。由于数据挖掘技术能够通过对大量复杂的信息进行全面、细致的分析, 处理得出事物之间预期的联系, 能够广泛地应用于医院信息处理系统中, 为医院患者病例及各种档案信息管理系统提供坚实的数据基础。

2 数据挖掘技术分类

2.1 自组织神经网络

数据挖掘技术中的自组织神经网络主要是指在针对整个大数据进行挖掘处理的过程中, 通过计算机的智能程序来分析数据之间的规律与特征, 找出数据内容间的相互关联, 整个过程都是计算机的智能化控制, 并无医疗人员的介入。比如在对数据间的关联进行挖掘时, 通过对整个数据库分布的特征及结构进行分析, 建立相符合的神经网络数据处理结构模型, 通过该处理模型来分析数据之间的差异与联系, 神经结构模型是一种低纬度结构空间, 在分解数据组结构时要选择与之相符合的网络结构模型, 只有这样才能保证自组织神经网络能够对数据挖掘结果进行映射。

2.2 模糊神经网络

由于神经结构自身的制约, 数据挖掘与处理结构无法根据数据组的具体特征给出一对一的映射, 不仅使得数据挖据处理结果有待优化, 还对数据挖掘技术的发展与推广造成一定的阻碍。为了更好地体现根据神经网络模型处理的出具结果准确性与简洁性, 大多都会采用模糊的神经网络机构挖掘技术来控制BP网络数据输出的节点与映射对应性, 这样不仅能够优化网络数据输出结果, 同时利用模糊神经网络数据挖掘技术自身所具有的深层分析与二次联想功能, 还能够避免数据处理结果受神经网络基本功能的影响, 甚至能够拓宽数据挖掘的范围, 以增加数据处理结果的所需的足够的样本空间与数据量。

3 数据挖掘技术在医院信息管理中应用

3.1 优化医院信息管理系统

现代医院将先进的数据挖掘技术应用于信息管理系统中, 其本质就是通过对大量患者病历及医院日常运行过程中产生的各种信息进行全面、准确地分析, 保证医院能够实现信息资源的最大化利用, 并为医院未来的信息化管理系统建设提供坚实的数据基础。具体做法为:加强医院工作者日常工作记录, 将传统情况下人为记录的形式逐渐转变为计算机电子录入, 能够加快医院信息管理系统通过网络技术与数据处理技术实现信息资源的高效化利用。

3.2 推进多媒体数字资源发展进程

随着我国经济社会的快速发展, 现代医院的经营范围与规模不断扩大, 医院信息管理工作中传统的信息检索系统越来越无法满足用户的需求, 大多数用户都希望医院能够引进现代先进的网络与计算机多媒体信息管理系统, 并将数据挖掘技术与多媒体信息管理技术相结合, 应用于医院信息管理系统来优化医院信息数据库, 为用户与患者提供更为高效、优质的信息访问服务。

3.3 利用数据挖掘技术为患者提供个性化服务

数据挖掘技术在现代医院信息管理系统中的广泛应用不仅能够推动医院信息管理系统向高效化、智能化方向发展, 同时还能够通过数据挖掘技术获取大数据中的关联资源, 为医院向不同患者提供个性化的就医服务与健康咨询提供科学、可靠的数据基础, 有针对性地为用户提供个性化的咨询与就医服务, 主要体现在以下两个方面:一是利用数据挖掘帮助医院了解用户所需的服务信息;二是加快医院信息管理系统智能化、现代化建设速度。

4 结语

总而言之, 数据挖掘技术需要广大科技工作者针对现代医院信息管理系统运行过程中存在的问题与漏洞进行优化, 通过科学实验与理论推理加以验证, 为现代医院信息管理系统的智能化、高效化、信息化管理提供坚实的理论基础, 并为数据挖掘技术在医院信息管理系统中的应用提供良好的环境。

参考文献

[1]张智刚, 郭淑艳.数字图书馆读者信息挖掘系统构架的建设[J].长春师范学院学报, 2010, 8 (8) :412-413.

[2]崔柔刚, 温阳东.数据挖掘技术在医院信息管理中的应用[J].安徽水利水电职业技术学院学报, 2014, 12 (1) :102-103.

[3]熊拥军, 陈春颖.基于关联挖掘技术的数字图书馆个性化推送服务[J].图书情报工作, 2010, 23 (1) :356-357.

数据挖掘技术工程管理篇2

引言

近几年，中国经济建设的快速发展也带动了水利这些基础建设的发展，水利工程的增多正在逐渐改善我国的水利体系，如防洪、排水、灌溉、发电、养殖、旅游等，同时也反过来促进国民经济更加稳健发展。此外，为了能加快水利工程建设的发展，需要在水利工程管理上做出新的调整，以给水利工程注入新鲜血液，使水利工程起到更巨大的作用。因此，本文通过阐述数据挖掘技术的一些实施要点，探讨了数据挖掘技术在水利工程中的可行性和应用情况。

1数据挖掘

从另一个角度看，数据挖掘是资料收集、信息化采矿等。在水利工程项目管理过程中，数据挖掘技术的应用对水利工程项目的管理起着重要的推动作用。同时，数据挖掘是从数据库中发掘信息的过程(数据库知识发现)。数据挖掘的主要应用于大量的数据的采集整理，通过搜索算法来隐藏信息的过程。同样，在当今的信息时代，数据挖掘与计算机和先进的科学技术密切相关，通过计算机、互联网搜索、统计、分析、和其他方面的发展，可服务于许多行业和许多项目，本文借助于某市的水利工程，详细的阐述了其在现场数据管理中的应用情况。

2浅析数据挖掘技术实施方法

数据挖掘是以现有的海量数据为重要资源，采用数据挖掘引擎技术，通过分析数据库中的数据，提取出最有价值的信息。

2.1相关性分析

通过数据源之间的相关性，找到所需的目标数据和扩展的信息，通过数据之间的联系找到规律，以便更好地分析数据的使用情况。

2.2数据的分类与整合

为了达到对更多的数据进行分类和整合的目的，对于没有规律和类型的标记数据按照相关的分类规则，以同一规则将信息汇总在一起，方便查找和应用数据，提高工作效率。

2.3坚持预测分析

在数据源中坚持预测分析，通过对重要数据进行建模，对信息进行综合有效的分析和预测，从而得出数据的发展趋势。让数据本身通过数据挖掘技术得出必要的结论。

2.4把握概念

通过了解数据源中所需信息的含义，总结主要特点，并给出概念描述，使数据具有高度的清晰度。

2.5把握据偏差

数据在输入和输出时不可避免地会出现差错，通过数据挖掘技术检测数据准确性是必要的，要找出参考值与结果之间是否存在差异，寻找一些潜在的信息，以减少数据误差。

3数据挖掘技术在水利工程管理中的应用出现的问题

3.1部门专家观点之间存在差异

在水利工程管理中使用了大量的数据，特别是采煤工艺在处理大空间问题上，加之水利部门普遍较大，且越来越多，需要与各部门协调配合工作。但不同的部门通常只负责沟通、交流的时间少，再加上数据分析技术落后于实践，各部门使用的仪器不一样，在数据点的分析上各专家持不同意见，这将阻碍数据处理，从而影响部门之间的合作，数据非常容易干扰，从而影响整个项目进展情况。

3.2与GIS系统联系不密切

GIS在水利工程信息系统中占有很大的比重，是水利工程信息系统中不可缺少的一部分，它的主要功能是产生大量的空间数据，空间数据的.计算、查询和分析，以及空间数据可视化是非常复杂的，单纯的依靠手工和一般信息系统是无法解决的，所以我们应该充分利用GIS系统。然而，在现实中，由于在这方面缺乏专业人才，充分利用原有的数据和GIS系统以进行有效结合，两者一起处理复杂的空间数据，现在还有很多事情要解决。

3.3数据挖掘模型建立不够完善

我国的水利工程虽然已经开展多年，但水利工程信息系统的应用还处于起步阶段。如今，数据挖掘技术模型可以帮助水利工程数据挖掘的人员可以预见在工程设计和施工过程中存在的差距等问题，确保水利工程项目按照原先设定好的方向进展。

4实例分析

4.1概况

某水电站于1963开始建设，于1975年完工，其位于黄河中游的陕西境内，装机容量122万5000kW，是新中国成立以来为数不多的达到百万千瓦的大型水利水电项目。大坝主体结构为混凝土结构，大坝高度为147m，其电站总存储容量为57亿8000万m3。其水利项目主要管理内容包括水库管理、水闸管理、堤防管理、引水工程管理、水利工程管理等。

4.2工程管理数据挖掘模型的构建

数据模型主要功能包括水利工程防洪、除涝、灌溉、运输、发电、水产养殖等，电站周边区域的社会经济和农业发展受其影响尤为巨大。在过去的发展过程中，某市的水利工程在管理和决策中，这些都是比较复杂的非结构化决策。因此，构建一个探索性或查询驱动的数据挖掘模型会给水电站的工作人员和专家在数据检索和专业分析的工作上提供方便，使管理者在管理工作上更加的科学合理。

库和数据仓库OLAP和OLAM层(数据挖掘的核心内容)，用户界面层。用户界面层主要功能是管理员或用户进行人际对话、挖掘数据查询、挖掘结果显示以及数据结果输出。

4.3数据挖掘技术与水利工程管理软件的集成

该水利工程项目管理的内容主要包括：管理水库，水闸管理、堤防管理、南水北调工程管理、项目管理、灌溉等方面。虽然数据挖掘有助于这个过程的开展，水给利工程的管理提供了科学依据，但如果该水利工程管理只是单单的进行数据挖掘，这是不符合数据挖掘系统理论的基本思想。因此，只有在现有的、成熟的国内水利工程项目管理成果的基础上，结合数据挖掘系统，这才是开发水电站管理种数据挖掘系统的最佳方式。

国内许多水利工程在管理和施工过程中，最常用的是GIS技术软件。GIS软件具有分析处理功能、空间数据查询功能。GIS技术软件本身蕴含着多样的数据信息，如当地的一些社会经济、地形地貌、地质、水文环境等。所以，对于水利工程管理数据挖掘系统的未来发展，首先要考虑的应该是如何实现GIS系统和数据挖掘理论系统完美衔接。

5总结

数据挖掘技术工程管理篇3

关键词教务管理；成绩；教学质量评价；数据挖掘

中图分类号：G434 文件标识码：A 文章编号：1671-489X（2007）12－0066-03

Application and Study of Data Mining in Educational Administration//Chen Song,Lu Jiping

Abstract Data mining is one of the important technology in the data storage technology. Combines this technology with the system of educational administration and find useful information which concealed in large amount of data, then have these resources effectively organized, sorted and extracted. It provides experiences and valuable summary for the educational administrators.Through promoting working efficiency to realize the rationality of teaching affairs arranging.

Key words educational administration management; achievement; teaching quality evaluation; data mining

Author’s address Dean's Office, Zhejiang University of Finance & Economics, Hangzhou 310018

1 数据挖掘技术概述

1.1 数据挖掘的定义

数据挖掘就是应用一系列技术从大量的数据中提取或“挖掘”人们感兴趣的信息和知识。这些知识或信息是隐含的，事先未知而潜在有用的，提取的知识表示为概念、规律、规则、模式等形式，数据挖掘也可以说是一类深层次的数据分析。数据挖掘按照既定的业务目标，从海量数据中提取可以解释为知识的规则，包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则等。大多数数据挖掘方法都基于机器学习、模式识别、神经网络和统计学的试探和测试技术，即分类、聚类、回归等，这些技术对应的方法对于无论是新手还是有经验的数据分析专家都常常具有迷惑性。

1.2 数据挖掘方法的组成

数据挖掘方法主要有3部份组成——模型表示、模型评价和搜索。模型表示是一种用于描述能够被发现的模式的语言，这种语言既不能太受限制(会导致数据无法发挥有效的能力，产生一个精确的模型)，又不能具有太强的表示能力(会导致模型对未知数据的预测准确性降低)。模型评价标准是对一个特定模式满足只是发现(KDD)过程目标程度的定量描述，描述模型可以通过其预测准确度、新颖性、可用性及可理解性的度量尺度来评估。搜索由2部分组成——参数搜索和模型搜索。模型表示和模型评价标准一旦确立，数据挖掘问题就简化为优化任务：从已经选择的模型中寻找能够优化评价标准的参数和模型。参数搜索时，算法必须在给定的观察数据和固定的模型表示情况下，搜索能够优化模型评价标准的参数。模型搜索以循环的形式发生在参数搜索方法之上——改变模型表示以便考虑整个模型家族。

1.3 数据挖掘引入教务管理系统

数据挖掘技术已经在实际领域获得广泛应用，其优点是可以利用已有信息系统存储的数据进行挖掘计算，借助计算机应用程序，将复杂的统计技术、挖掘算法封装起来，使人们不用掌握这些技术也能完成同样的功能，从而更专注于自己所要解决的问题。基于此，笔者将数据挖掘技术引入教务管理领域，希望通过数据挖掘技术得到一些知识、规则等，进而指导实践，完善教学管理。

2 数据挖掘技术在教务管理系统中的实现及2种应用

2.1 数据挖掘技术的实现

现在的应用系统基本设计都是采用3层系统结构，本系统的结构也不例外。笔者采用基于Web的客户端、服务器、数据库3层体系构架而成。其中客户端由JSP开发，负责处理用户的输入和向用户的输出；服务器作为客户端和数据库之间的桥梁，用于建立市级的数据库连接，根据用户请求生成SQL语句检索或更新数据库，并返回结果；数据库用于存储和数据检索。

2.2 数据挖掘技术的2种应用

2.2.1 利用决策树方法对学生成绩分析评估

利用决策树方法分析成绩的原因出于以下几点考虑：（1）教务管理系统的用户基本是教师或者教学管理人员，他们掌握的数据挖掘知识往往是比较薄弱的，这就需要利用决策树方法来生成可以让人理解的、可消化的规则；（2）在教务管理系统中成绩数据量并不是很大，不需要进行复杂的算法研究，关键还是在于计算的速度和效率，决策树方法计算量相对其他方法要小得多，这样就可以提高系统的执行效率；（3）成绩库数据包含有离散型数据和连续型数据，而离散型数据相对占了大多数，决策树方法不但可以同时处理2种数据，而且对离散型数据的处理有更好的效果。

因此，笔者在选择学生成绩分析时选择了决策树方法进行数据分析，找出影响学生成绩的因素及这些因素间的相互关系。

当成绩录入教务系统之后，利用决策树算法计算出那些和成绩分析评估特征最为相关的属性作为决策树的根结点，再采用迭代递归法将其他属性一样采用决策树算法进行分类，形成决策树。用决策树形成分类规则后，可以根据学生各自的成绩属性信息进行规则匹配，对学生成绩进行分析评估。将最后分析结果进行研究，最终找出影响学生成绩的不利因素，并作出调整。

下面简单讲述如何进行成绩的数据分析。数据库中的成绩存放信息及属性很多，以浙江财经学院教务处正方系统为例，其属性条目就有５８条之多。选取对于分析有利的属性(表１)，以便获得有利于研究的数据。

假如现在要对某个二级学院的某门课程重修情况进行分析，设计一个分类的属性取值：学院名称、学年、年级、课程名称、重修成绩。利用函数计算获得各个二级学院最近4学年计算机基础课程的重修人数百分比。计算结果见表2。

数据挖掘技术工程管理篇4

随着部队现代化、正规化过程, 技术干部管理的工作量大幅度增加。在基于考核制、训练得分制的管理系统中, 有关军队技术干部成绩的信息已具备形成一个信息数据库的条件。同时, 随着规模的扩大, 直接根据技术干部的训练考核成绩数据分布找出前期训练 (培训) 与后继训练 (培训) 的关系、效果等。并据此进行教学进程的决策是十分困难的, 因此借助于相应的数据挖掘工具, 发现数据中隐藏的相关规律或模式, 为决策提供支持是十分必要的。在目前国内数字化军队的建设背景和对数据挖掘技术广泛研究的学术背景下, 将数据挖掘技术应用于军队技术干部管理系统中, 将可以很好地提高训练质量, 并使训练、培训课程安排更加合理, 就聚类分析法和挖掘关联规则在管理系统中的应用进行了探讨。

2 数据挖掘算法描述

数据挖掘是一个过程, 是指分步骤地从大量数据中抽取有价值的信息和知识。成功应用数据挖掘技术, 达到目标的过程本身就是一件很复杂的事情。

一般地, 数据挖掘过程从宏观上分为四个阶段:确定目标→数据准备→数据挖掘→表达、评价和巩固挖掘结果[1]。

2.1 聚类模式 (Clustering)

聚类就是将数据项分组成为多个类或簇, 类之间的数据差别应尽可能大, 类内的数据差别应尽可能小, 即为“最小化类间的相似性, 最大化类内的相似性”原则。聚类系统的输出是一个分区若C={C1, C2, …, Ck}, 其中Ci (i=1, 2…, K) 是X的子集, 且满足:

(1) C1∪C2∪, …, ∪Ck=X

(2) C1∩C2=Φ, i≠j

k-means算法, 也被称为k-平均或k-均值, 是一种得到最广泛使用的聚类算法。相似度的计算根据一个簇中对象的平均值来进行。准则函数试图使生成的结果簇尽可能地紧凑和独立[2]。

k-means算法为:

repeat

for j=1 to n do assign each Xj to the closest clusters;

for i=1 to k doundefined更新簇平均值

undefined计算准则函数E

until E不再明显地发生变化。

2.2 关联模式 (Association)

关联模式是数据项之间存在的关联规则 (Association Rules) , 这些规则展示了属性-值频繁的在给定的数据集中一起出现的条件。关联分析广泛用于事物数据分析[3]。

Apriori核心算法为:Apriori采用逐层迭代, 找出频繁项目集[4]。

3 应用分析

3.1 问题的提出

在实践中, 通过数据挖掘在军队技术干部管理系统中的应用便可根据各级军官 (士官) 的成绩状况, 分析某训练课程和培训课程的难易程度、指导水平、干部对知识的掌握程度等许多有用的信息, 从而对下次的训练培训的安排和老师因人而异、因专业而异使用不同的教法起到辅助决策的作用。

3.2 数据描述

在利用k-平均算法进行训练得分的特征分析, 采用兰州军区某部技术干部培训和日常训练成绩表, 根据干部的工号 (Number) 、性别 (Sex) 、专业 (Major) 和多门训练课程 (去除政治教育课) 建立一个二维数据表 (表略) 。

3.3 利用k-平均算法进行成绩的特征分析

3.3.1 说明

数据挖掘中数据预处理的形式有:数据清理、数据集成、数据变换和数据规约。这里利用数据清理中的聚类方法来识别孤立点, 去掉噪声[5]。

经过筛选后, 数据样本中出现的噪声数据点, 见表1。

找出噪声数据后, 接下来采用分箱技术平滑数据。把各字段数据分成深度为5的等深的箱中 (每个箱中包含5个数据) 的噪声数据作平滑处理;和表1对比, 平滑后的噪声数据, 见表2。

首先收集两个任务相关的集合;最后在目标类上进行同步概化, 概化形成主对比类关系, 见表3。

从上面两个主对比类关系表可以看出, 两个专业无人平均成绩达到优秀, 与通信专业相比, 通信对抗专业趋向平均分数较高, 知识应用能力较强, 大部分干部基础知识掌握牢固。训练时应考虑加强能力的提升。相反, 通信专业的干部基础知识基本掌握, 但对该门训练课的灵活应用欠缺, 教师可在加强基础知识巩固的同时, 适当加强干部应用能力的培养。

3.3.2 使用基于Excel的数据挖掘工具进行无指导聚类

这里使用的是基于Excel的数据挖掘工具iData分析器 (iDA) , 它由一个预处理器、三个数据挖掘工具和一个报表生成器组成。域相似性 (domain resemblance) 代表数据集内所有实例的总的相似度。通常来说, 类内部相似性得分比域相似性值高。这里的域相似性得分是0.34, 是最低的[6,7]。

4 结语

现代技术发展一日千里, 部队装备日新月异, 其培训及训练是循序渐进的, 训练及培训课程之间有一定的联系和前后关系, 先行课程训练没有学好, 势必会影响后续培训的效果。利用数据挖掘技术, 就能从大量的成绩数据中挖掘出有用的信息, 分析这些数据间的相关性等性质, 从而对部队技术干部教育的改善和发展提供科学有力的保证。

随着干部训练、培训成绩库的不断扩大, 在处理极大量的数据时如何提高算法效率, 以及如何在挖掘的过程中, 如何提供与用户交互, 将用户的领域知识结合在其中, 这都是可以进一步深入研究的方面。

摘要：针对军队现代化条件下, 以技术干部的考核管理培训为目标, 借助于数据挖掘技术实现了智能、前瞻性管理的功能, 将为实现新时期的军队管理改革提供借鉴和途径, 系统采用了聚类和关联算法进行实现, 并对分析结果做了一定的描述。

关键词：数据挖掘,技术干部管理,聚类,关联,筛选

参考文献

[1]Agrawal R, Imielinski T, Swami A.Mining AssociationRules between Sets of Items in Large Database[M].InSIGMOD”93.WashingtonDC, May 1993.

[2]Jiawei H, Micheline K.Data Mining Concepts and Tech-niques[M].China Machine Press, 2001.

[3]毛国君, 段立娟, 王石, 等.数据挖掘原理与算法[M].清华大学出版社, 2004.

[4]闪四清, 陈茵, 程雁, 等.数据挖掘[M].清华大学出版社, 2003.

[5]翁敬农.数据挖掘教程[M].清华大学出版社, 2003.

[6]吴东升.数据挖掘在高校教学及学生学习评价中的应用空间分析[J].电脑知识与技术, 2006 (3) :3-4.

[7]郑晓燕.数据挖掘技术在大学生专业方向指导中的应用[J].天津工程师范学院学报, 2006, 6 (16) :27-29.

数据挖掘技术工程管理篇5

1数据挖掘技术及其具体功能分析

所谓的数据挖掘具体是指通过相关的算法在大量的数据当中对隐藏的、有利用价值的信息进行搜索的过程。数据挖掘是一门综合性较强的科学技术，其中涉及诸多领域的知识，如人工智能、机器学习、数据库、数理统计等等。数据挖掘技术具有如下几个方面的功能:1.1关联规则分析。这是数据挖掘技术较为重要的功能之一，可从给定的数据集当中，找到出现比较频繁的项集，该项集具体是指行形如X->Y，在数据库当中，X和Y所代表的均为属性取值。在关联规则下，只要数据满足X条件，就一定满足Y条件，数据挖掘技术的这个功能在商业金融等领域中的应用较为广泛。1.2回归模式分析回归模式主要是通过对连续数值的预测，来达到挖掘数据的目的。例如，已知企业某个人的教育背景、工作年限等条件，可对其年薪的范围进行判定，整个分析过程是利用回归模型予以实现的。在该功能中，已知的条件越多，可进行挖掘的信息就越多。1.3聚类分析聚类具体是指将相似程度较高的数据归为同一个类别，通过聚类分析能够从数据集中找出类似的数据，并组成不同的组。在聚类分析的过程中，需要使用聚类算法，借助该算法对数据进行检测后，可以判断其隐藏的属性，并将数据库分为若干个相似的组。

数据挖掘技术工程管理篇6

关键词：数据挖掘；交通流；数据仓库；智能交通管理；交通拥堵；交通事故

中图分类号：TP311 文献标识码：A 文章编号：1009-2374（2013）08-0045-02

1 智能交通管理数据挖掘

城市道路交通数据来源广泛，具有结构各不相同、数据间多层次性等特点，城市道路交通数据包括静态的交通道路环境数据以及动态的交通流数据等。

数据挖掘是从大量数据中寻找其规律的技术，主要有数据准备、数据选择、数据预处理、数据转换、数据挖掘，最后找出规律并表示，如图1所示。

1.1 道路交通数据

道路交通数据是指按时间顺序将道路交通数据采样得到的一系列在时间上离散的数值型数据序列，它成为智能交通管理平台的主要研究对象。车辆在道路上行驶形成交通流，交通连续流是机动车辆在道路上连续行驶形成的车流，如果车流在一定的时间和空间范围内不处于横向交叉影响的路段上，交通流将呈现连续流状态，比较典型的是高架道路段、越江隧道、高速公路等路段上在没有异常干扰的情况下的交通流就是典型的连续流；机动车辆在交叉路口的交通信号灯控制下，红灯停止，绿灯通行，交通流则呈现非连续状态。

1.2 智能交通管理控制数据

智能交通管理平台记录了大量交通管理控制信息，如电子警察系统将交通违法车辆的违法行为过程用图像等数据信息记录下来，为交警部门提供车辆交通违法信息，还有车辆管理信息、驾驶员管理信息等。

1.3 道路交通环境数据

道路交通环境信息包括车道宽度、路口渠划、设计道路通行能力数据、交通道路设施（如交通岗、信号灯、限速标志等）、异常事件（如施工信息、临时封闭措施、交通管制等）、公交信息等。

2 数据挖掘体系结构

智能交通管理平台主要是针对交通流量中的数据分析和处理，交通流量预测要解决的问题就是如何从带有随机性和不确定性的交通流变化中，分散在道路交通的信息采集设备将所采集到的数据信息汇总到道路交通管理中心，综合道路交通其他状况的影响因素，智能交通管理平台将对所有数据进行系统分析，找出其中的规律性，智能交通管理平台数据挖掘体系结构如图2所示。

把数据挖掘技术应用于智能交通管理平台数据分析，将能解决“数据丰富、知识贫乏”的问题，同时，也能为平台数据融合提供支持。比如，当前的专家系统依赖于用户或领域专家人工地将知识输入知识库，而这一过程常常有偏差和错误，并且耗时、费用高。通过数据挖掘工具进行数据分析，发现重要的规则存入知识库中，将能有效解决知识库偏差和错误的问题。

智能交通管理平台数据仓库是数据挖掘的基础，为数据挖掘提供强有力的数据支持。智能交通管理平台的数据仓库积累了海量的历史数据，这些数据包含了城市交通所有的基础信息等信息，并且这些数据是一系列在某时刻生成的复杂的快照，包含了时间元素，能反映某一信息数据的变化过程。同基于数据库的数据挖掘相比，基于数据仓库的数据挖掘具有三点显著优势：

（1）数据仓库的数据在加载前已经过了清洗和转换，保证了数据的质量；同时也避免了数据挖掘必须消耗很长时间对数据进行抽取、清洗、转换和装载。

（2）数据仓库的数据是按主题组织的，这为数据挖掘选择合适的数据源提供了方便。

（3）数据库不能存放历史数据，因此如果直接在数据库中挖掘，许多知识无法挖掘出来，那么就不能运用现有的数据进行预测；与其相反，数据仓库却能够存放历史数据，以便于提供数据进行预测。

3 交通流量组合模型

及时、准确地预测道路交通流量是智能交通管理平台实现动态交通管理的重要前提。由于道路交通的变化过程是一个实时、非线性、高维、非平稳的随机过程，随着统计时段的缩短，交通流变化的随机性和不确定性越来越强。交通流短时变化不仅与本路段过去几个时段的道路交通情况有关，还受上下游的道路交通情况及天气变化、交通事故和交通环境等因素的影响，这些因素都给交通流量预测带来一定的难度。

交通流量数据是时间序列的一种形式，根据时间序列数据特征的变化对其进行分割，常用的时间序列分割方法是逐段线性描述，即用线性模型对序列进行分割与逐段描述。交通流量组合模型是将交通流量时间序列分割和BP神经网络组合使用，即在交通流量时间序列分割的基础上，使用BP神经网络作为预测算法对所获得的时段数据分别进行建模和预测。

采用交通流组合模型会降低智能交通管理平台对交通流预测的误差率，如图3所示：

4 结语

针对当前智能交通管理平台发展和应用的需求，基于组合模型的交通流量预测方法能够有效地预测交通流量，是对当前交通流量预测的补充和完善并进一步发挥数据挖掘技术在智能交通管理数据分析中的作用，对于改善智能交通管理平台的能力具有积极意义。

作者简介：秦佳（1979—），女，黑龙江哈尔滨人，鸡西大学电信系讲师，硕士，研究方向：数据库。

数据挖掘技术工程管理篇7

一、用户关系管理的原理与特点

用户关系管理首先是一种管理理念, 其核心思想是将企业的用户 (包括最终用户、分销商和合作伙伴) 作为最重要的企业资源, 通过完善的用户服务和深入的用户分析来满足用户的需求, 保证实现用户的终生价值。C R M又是一种旨在改变企业与用户之间关系的新型管理机制, 它实施与企业的市场营销、销售、服务与技术支持等与用户相关的领域。通过向企业的销售、市场和用户服务的专业人员提供全面个性化的用户资料, 并强化跟踪服务、信息分析的能力, 使他们能够协同建立、维护一系列用户和生意伙伴之间卓有成效的相对关系, 从而使企业得以提供快捷、周到的服务, 提高用户满意度, 吸引保持更多的用户, 增加营业额;另一方面通过信息共享和优化商业流程来有效地降低企业经营成本。C R M也是一种管理软件和技术, 它将最佳的商业时间与数据挖掘、数据仓库、一对一营销、销售自动化, 以及其他信息技术紧密结合在一起, 为企业的销售、用户服务和决策支持等提供一个自动转化的解决方案, 成功地实现从传统企业模式到电子商务为基础的现代企业模式的转化。总体来讲, 用户关系管理系统具备以下特点:

1. 综合性。

用户关系管理系统综合了企业中的多种业务流程, 实现了市场营销、销售实现、用户服务与支持的优化和自动化。使企业拥有了畅通的用户交流渠道和综合面对用户的业务工具。

2. 集成性。

用户关系管理系统将从根本上改变企业的管理方式和业务流程, 努力实现与企业运营支撑系统的集成。用户关系管理系统可以确保各部门、各系统的任务都能够动态协调和无缝的完成。

3. 智能化。

用户关系管理系统具有智能化的决策和分析能力。系统中存储的海量用户数据, 以及用户信用度和忠诚度, 通过数据挖掘, 多维分析和智能报表工具, 管理者将会得到有助于决策的信息, 这些信息将帮助企业改善产品优惠定价方式, 提高市场占有率。

4. 高技术含量。

用户关系管理系统涉及到数据仓库、在线联机分析、数据挖掘、工作流、CTI、互联网络和多媒体等多种先进技术、完整的用户关系管理系统解决方案必须要将这些技术有效地集成、整合, 对这些技术的应用进行有效的管理。

二、数据挖掘技术在用户关系管理中应用的意义

1. 数据挖掘技术支持的用户关系格式及结构系统。

实施忠诚用户管理的企业需要制定一套合理地建立和保持用户关系的格式或结构。简单地说企业要像建立雇员的提升计划一样, 建立一套把新用户提升为老用户的计划和方法。

2. 数据挖掘技术能够准确判断用户的忠诚度, 能够为企业的

市场细分定位提供帮助, 用户数据库的一个重要作用是在用户发生交易行为时, 能及时地识别用户的特殊身份, 从而给予相应的产品和服务。

3. 数据挖掘技术能够使企业及时了解到用户的采购动向, 对潜在的用户流失问题发出预警。

企业通过对用户历史交易行为的观察和分析, 赋予用户数据库警示用户异常采买行为的功能。

4. 数据挖掘技术能够为企业分析用户的购买行为提供原始参考, 以及有效的分析数据。

企业运用用户数据库, 可以使每一个服务人员在为用户提供产品和服务时, 明了用户的偏好和习惯购买行为, 从而提供更具针对性的个性化服务。

三、数据库在用户关系管理中的应用效率

在现代企业中, 用户资源正成为企业最具有价值的资产, 建立用户信息数据库, 实现对用户资源管理, 是企业的核心任务之一。许多企业已经发现最重要的财富不是他们生产的产品或是提供的服务, 而是如何利用用户信息创造高效价值。对于社会激烈竞争的现状, 对于企业生产必须由以产品为中心转向以用户为中心的响应。在构建数据库的过程中, 用户数据是整个数据库的灵魂, 而构建用户数据库要从以下几个方面考虑:

1. 要尽可能地将用户的完整资料保存下来。

有了完整的原始数据, 随时都可以通过再次加工, 获得需要的结果, 但如果原始数据缺失严重, 数据处理后的结果也将失去准确性和指导意义。

2. 要将企业自身经营过程中获得的外部用户资料与其他的渠道获得的外部资料区分开来。

企业内部资料主要是一些销售记录、用户购买活动的直接用户资料。外部数据是指企业从数据调查公司、政府机构、行业协会、信息中心等机构获得的, 这些数据是企业的潜在消费者和展开营销活动的对象。但这些数据存在着真实性较差、数据过时、不符合企业要求的问题, 需要在应用过程中不断的修改和更正。

3. 要特别重视数据库管理的安全性, 确保记录在计算机系统中的数据库安全的运行。

因此, 需要严格地加强安全管理, 建立健全数据库的专人管理和维护的机制。

4. 要及时对用户关系管理的数据库进行维护和更新。

企业要随时更新数据库, 处理自己的用户资料, 用户数据的来源主要有两个方面:一个是企业经营中获得的用户数据, 这部分数据是真实的。这部分资料的管理和开发, 是建立用户数据库最根本的需求。另一个来源主要是通过第三方获得的用户数据, 这些数据是潜在的用户。

基于数据挖掘技术的网络营销管理篇8

随着全球经济化和信息化的快速发展, 商业环境中的信息越来越密集, 数据库的规模越来越大, 在当今的网络营销中, 企业如何从大量的业务数据中经过提取和分析, 做出正确快速的决策, 以获得有利于商业运作的信息, 提高企业的竞争力, 是各行各业广泛重视的问题。为此, 急需新一代新的计算技术, 能够智能化地从大量的数据中提取出有用的信息和知识, 为企业的管理人员提供决策支持, 于是数据挖掘技术应运而生了。

早期各种商业数据是以数据库的形式存储在计算机中的, 后来发展到可对数据库进行查询和访问, 进而又发展到对数据库的即时遍历。数据挖掘技术使数据库技术进入了一个更高级的阶段, 它不仅能对过去的数据进行查询和遍历, 并且能够找出过去数据之间的潜在联系, 从而促进信息的传递。

二、客户关系管理与数据挖掘技术

客户关系管理 (C R M) 是企业与客户之间建立的管理双方接触活动的信息系统。网络时代企业的客户关系管理应该是利用现代信息技术手段, 在企业与客户之间建立的一种数字的、实时的、互动的管理交流系统。其特征为:个性化营销服务和客户服务;信息采集渠道的多样化和集成化;客户信息的集中式管理和共享;商业智能化的数据分析和处理。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的, 但又是潜在有用的信息和知识的过程。在商业应用领域, 数据挖掘是一种新的商业信息处理技术, 其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据;其功能有:自动预测趋势和行为、关联分析、聚类、概念描述、概念描述等。

三、C R M中经典数据挖掘技术的分析

1. 神经网络

神经网络是模拟人脑神经网络来处理、记忆信息的一种新型系统。可完成分类分析、聚类分析、回归分析, 是典型的预测工具。其优点:抗干扰能力、可变性、通用性强, 有较强的容错性和鲁棒性;能并行处理规模较大的数据库;能处理连续、分类或聚类离散变量;有较强的自适应自学习能力。

神经网络适合分析C R M中的定量问题, 适合处理大量非线性、有时间顺序、多目标、残缺不全的数值型数据, 处理注重结果、不用解释原因的复杂问题。如:可根据客户的交易纪录和网站点击率等建立神经网络客户模型, 分析客户响应度、忠诚度, 预测客户需求, 指导生产和服务, 从而留住老客户、赢得新客户。

2. 决策树

决策树是以图表表示一系列事件和可能结果的方法。由决策节点、分支和叶子组成, 可完成分类分析、聚类分析, 是比较成熟的、作决策的极好工具。其优点:决策过程直观、易理解、易使用、自动化程度高、效率高;擅长处理非数值型和分类型数据;易转换成数据库查询语句, 能清晰地显示哪些字段比较重要。

决策树与神经网络相比更适合分析C R M中的定性问题。分析含有大量字段、用自然语言表述的非数值型数据, 分析需要解释原因或结果为以自然语言表达的规则的问题。如:分析客户资料、进行客户细分, 以便针对不同客户群制定不同的对策;根据客户的交易数据、访问网站等情况, 分析客户流失规律、解释每个客户群流失原因, 帮助制定对策留住客户。

3. 遗传算法

遗传算法同生物进化过程非常相似, 以自然选择和遗传理论为基础, 它擅长聚类分析、分类分析、关联分析和优化, 能解决其他技术难以解决的问题, 是非常优秀的描述和预测工具。其优点:非常适用于大规模并行计算, 在巨量资料中快速搜寻、对比、演化出整体最优点;容错能力强、能够处理不连续的、非规则的或有噪声的数据。

遗传算法适合分析C R M中的复杂问题或优化其它技术。如:根据客户基本信息、交易数据和其它外部数据等, 利用其强大的搜索能力和反复学习找到最优解, 使客户信息提取更加量化、更加明确, 完成客户盈利分析。以便制定不同客户策略, 留住、赢得有价值客户。

4. 规则推理

规则推理即对数据中的“如果——那么”规则进行寻找和推倒, 从中找到出现条件概率较高的模式。其优点:直观、容易理解;能用简单的if-then规则描述数据间的完备关系;能处理带有属性或描述的数据项;得出的规则具有可读性。

规则推理侧重于分析C R M中的定性问题。分析连续和离散的、用自然语言表述的客户数据, 如:分析客户点击的页面、内容及频率。了解客户偏好和习惯, 提供针对性服务, 增加客户满意度;分析客户特定购买模式, 获取潜在的客户购买规则及不同商品间的相互联系, 实现交叉销售、追加销售、“一对一”营销。

四、结论

随着电子商务的快速发展, 客户信息多渠道、复杂、多样、易变等特点, 数据挖掘技术也在不断更新, 企业应根据当前具体情况, 选择适宜的方法来建立客户模型, 并能依据所得结果对所选模型进行判断和评价, 不断修正、完善现有模型, 以提高结果的精度和实时性, 来制定适宜的营销策略。

摘要：本文介绍了运用数据挖掘技术处理现代网络营销中的客户关系管理, 帮助企业运用恰当的技术分析客户数据, 制定适当的网络营销策略, 实现高效的营销管理。

关键词：数据挖掘,网络营销,客户关系

参考文献

[1]陈海珍黄德才等:数据挖掘技术在CRM中的应用[J].计算机工程, 2003, (5) :189-191

[2]梁循:数据挖掘算法与应用[M].北京:北京大学出版社, 2006

[3]刘兴华:数据挖掘技术及其应用研究[J].辽宁师范大学学报 (自然科学版) , 2002, 25 (2)

数据挖掘技术工程管理篇9

高校学生管理一般来说包括学业管理、思想管理、生活管理、心理监督与辅导、职业规划等。高校是高素质人才培养的摇篮, 高校学生管理工作是培养高素质人才的重要保证。而随着信息技术, “互联网+”教育的蓬勃发展, 高等教育改革的深入和学生的思想观念、行为习惯的变化, 传统的高校学生管理的管理理念、管理体制和管理方式已不能适应形势的需要, 具体表现在以下几方面:

(一) 重社会需要, 轻个体需要

目前的高校学生管理只考虑社会需要什么样的人才, 忽视了学生想成为什么样的人才, 忽视了学生的个体定位, 使原本朝气蓬勃、充满活力的个体, 变成了只有消极被动接受、没有积极主动参与意识、没有创新意识的平庸之人。

(二) 重共性培养, 轻个性培养

目前的高校学生管理依赖严格的“制度管理”, 过分强调“统一性”, 培养方案、培养目标单一, 结果是培养出来的学生知识结构、思维方式、水平能力整齐划一, 个体差异性太小。

(三) 重制度管理, 轻人文关怀

目前的高校学生管理往往从规范入手, 以惩罚为手段硬性实施, 校园充斥着“严禁”“不准”“不得”等带有浓厚的命令口气、缺乏人文关怀的话语, 忽视了学生情感及其社会性、文化性, 长此以往, 学生自身的潜能和主人翁意识将消失殆尽。

另一方面, 目前各高校投入巨资建设好了数字化校园, 实现了从环境 (包括设备、教室等) 、资源 (如图书、讲义、课件等) 到应用 (包括教、学、管理、服务、办公等) 的全部数字化, 对高校的各项服务管理工作和广大教职工提供了无所不在的一站式服务, 每天产生与学生相关的海量数据。它真实、全面地体现了学生在校生活、学习的方方面面, 包括学习习惯、生活方式、兴趣爱好、消费观念等数据, 但这些数据是海量、繁杂、具体的, 不能像规章制度一样, 拿来就用, 所以大部分被置若罔闻、束之高阁、弃之不理。

如何直面这些问题, 从这些大数据中挖掘、整理、归纳出有用信息, 让数据说话, 支持高校在学生学业、思想、生活、心理监督与辅导、职业规划等方面科学、规范、人性化管理是目前亟待解决的问题。

二、数据挖掘技术在高校学生管理中的应用

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的, 并有潜在价值的信息的过程。数据挖掘通过算法分析每个数据, 从大量数据中寻找其规律, 尽可能以用户可理解的方式 (如表格、图形) 将找出的规律表示出来。数据挖掘是在没有明确假设的前提下去挖掘信息, 发现各种事物之间的联系, 所得到的信息应具有未知、有效和可实用三个特征。

以高校图书馆管理为例:

(一) 采用聚类挖掘技术对师生进行分类

聚类分析是将数据分类到不同的类或者簇的过程, 同一个类或簇中的对象有很大的相似性, 而不同类或簇中的对象有很大的相异性。如可以把学生按借阅图书的量分组, 也可以按学生的性别、学科、年龄等进行聚类。

(二) 利用决策树的方法来对读者的阅读兴趣进行预测

决策树就像一棵倒着生长的树, 是从一组看不到任何规律和顺序的数据中找出潜在的规律, 采用递归的算法生成的树, 从决策树的根到叶子节点形成一条选择路径, 这条路径可以作为分类规则, 用来进行相应对象的类别预测。在图书管理中根据学生阅读兴趣和阅读习惯, 为每一位学生生成一棵决策树, 为图书采购提供依据, 也可以为每一位学生积极主动推荐其感兴趣的图书。

(三) 利用关联规则对读者所借书籍之间的联系进行分析

如超市要将啤酒和纸尿片放在一起的原理一样, 数据挖掘时可采用Apriori算法, 求出所有维度的图书组合, 再分别对组合中的每一本图书求出其可信度, 进一步得出该图书组合的关联度系数, 进而把这些关联度较大的图书放在一起, 以便于学生借阅。

数据挖掘同样可以对学生学业情况、喜欢的选修课程、喜欢的电影、经常浏览的网站、经常购买的商品等与学生学习、生活休戚相关的各方面信息进行分析、归纳、整理, 让学生学习、生活、消费等各方面的海量数据为高校所用, 提高信息利用率, 为科学、人性化学生管理提供数据支持。

三、利用数据挖掘结果提升高校学生管理水平

数据挖掘可以从繁杂、海量的数字化校园大数据中提取有价值的学生信息。如何利用这些信息提高高校学生管理水平, 具体来说, 可以从以下几点着手:

(一) 重视数据挖掘

首先, 它是个性化教育的需要。虽然由于网络的出现和发展, 人们的生活方式已经发生了巨变, 但是教育方式却并没有改变, 仍旧延续着“大规模生产的教育”, 但每一名学生都是不一样的, 他们是独特的个体, 有着不同的需求和渴望。因此, 当下用工业化的操作模式来运作教育“是荒谬的”。大数据时代数据挖掘就可以作出一些改变, 它根据学生的学习情况、分析学生有什么样的数学难题需要解决, 并根据每个学生不同的学习状况和兴趣, 为学生学习作个性化的安排。教师可以比任何时候都更接近发现真正的学生, 有针对性地指导学生的成长, 进而实现那个绵延2000 多年的梦想———因材施教。

其次, 它是全员育人的需要。数据挖掘面向高校所有学生, 通过数字化校园产生的大量数据和对数据的归纳、整理, 每个学生全面和完整的数据都可以记录下来, 从而实现高校学生管理从关注部分学生到“全员育人”的转变。

再者, 它是重视过程而非结果教育改革的需要。大数据可以记录每个学生每门课程的学习情况, 学校可以根据这些信息对学生的学习给予形成性评价而非一考定乾坤的结果性评价, 从而引导学生更加注重平时的学习和积累。如果有学生不管是思想上、心理上还是学习上出现问题, 我们可以通过数据挖掘预先捕捉到异常信号, 在问题出现之前采取学业警示、心理辅导等措施进行疏导和调解。

因此, 在大数据时代, 数据挖掘将大放异彩, 不仅是因为它能为我们提供详实的数据支持, 而且是因为这些数据都很客观、全面, 有很高的利用价值。

(二) 坚持“以人为本”的管理理念

大学生管理是一门科学, 是管理科学与教育科学相交融的综合性应用学科。学生管理既是一项管理工作, 也是一项教育工作, 更是一项服务工作。通过挖掘大数据中的学生信息, 高校才可以了解学生所思、所想、所为, 在日常的学生管理工作中有的放矢, 做到“权为生所用、情为生所系、利为生所谋”, 才能尊重学生的自我选择及其个性化发展方向, 才能激发学生的积极性、主动性、创造性, 才能培养出具有创新精神和创新意识、个性化的高素质人才。

(三) 创新高校学生管理方式方法

要从数据挖掘出的学生信息出发, 让数据说话, 以学生为中心, 以服务学生的生活和学习为抓手, 改革创新高校学生管理方式方法, 建立一套科学、规范、完善并适应本校实际的学生管理工作制度。以高校贫困生资助为例, 传统的认定方法是根据学生当地民政部门盖章的《家庭经济情况调查表》、学生申请书和民主评议进行的, 既未考虑贫困生的感受, 又无法保证公平公正。在如今这个大数据时代, 学生在校的消费状况一目了然, 学校就可以将其作为勤工俭学、发放补助的重要依据。再如对数据挖掘出的近期学生喜欢看的电影, 学校可以放在学校自己的服务器上, 既节省了学生的流量, 又节约了宝贵的社会资源, 还提升了观看效果。

随着高校教育改革的深入, 信息技术和计算机技术的发展, 教育界对“大数据”的关注越来越多, 数据挖掘技术在高校教育、教学和管理中的应用会越来越广泛, 大数据时代下学生工作的创新与发展已经是大势所趋。

参考文献

[1]荆月敏.利用数据挖掘技术推进图书馆个性化服务[J].黑河学刊, 2014 (2) .

[2]廖志平.数据挖掘在学校图书馆的应用[J].科技创新导报, 2012 (12) .

[3]张昀.数据挖掘技术研究[J].软件导刊, 2012 (9) .

[4]宋丽军.数据挖掘在图书馆管理上的应用[J].信息技术, 2014 (5) .

[5]刘军.数据挖掘在读者阅读需求偏好研究中的应用[J].图书馆论坛, 2012 (5) .

[6]任秀春.基才决策树的网络客户分类方法研究[J].电子设计工程, 2014 (3) .

[7]余文礼.基于Apriori算法和关联度指标的购物篮分析[J].科技视界, 2012 (12) .

[8]单耀军.大数据背景下高校学生管理信息化研究[J].教育与职业, 2014 (23) .

数据挖掘技术工程管理篇10

随着信息技术在图书馆领域应用的不断深入,学校图书馆的馆藏内容以及服务对象、范围、深度都发生了深刻变革。读者的信息需求日趋多元化和个性化,他们已经不满足于图书馆传统的服务,而期望图书馆根据其各自不同的需求,提供个性化、网络化、集成化的信息服务。如何满足读者的需求,提高读者的满意度,给读者更好的服务,是一个值得研究的问题。应用数据挖掘技术将为图书馆的资源组织和管理、服务质量的提升和服务范围的拓宽提供行之有效的技术支持。本文旨在如何运用数据挖掘技术对图书馆进行图书管理工作提供一定的参考。

1获取读者需求,优化馆藏布局

图书馆的管理系统对书目的馆藏信息、文献的流通情况、读者基本信息有着详细的记录。通过挖掘文献使用规律,可以制定相应的决策以优化图书馆的馆藏布局。

1.1 进行数据准备

为了获取文献利用状况,需要四个数据集,并对其进行数据概化。包括:

(1)读者基本信息记录。

主要用来为读者分类、借阅行为分类聚类提供信息,其内容主要包括学生编号、姓名、年级、性别、专业名称、借阅等级、联系方式、身份证明等。

(2)借阅历史信息记录。

其主要内容包括借阅编号code、书名title、中图法编号book code、排架号shelf code、借阅者编号、借阅时间、归还时间等。这部分信息是利用数据挖掘技术获取图书馆文献利用状况的关键,通过对它们的统计、归类、分析,有助于了解书刊的使用情况并进行预测分析。

(3)检索历史记录。

检索历史记录是了解读者需求的绝佳途径,建议应逐步建立和规范记录检索历史的数据库,其主要内容包括读者编号、检索字段、检索时间。

(4)书目信息。

这是图书馆最常见的数据集合,包括书名、中图法编号、排架号、作者、学科、出版社、出版日期等。

1.2 进行实际挖掘实验

读者的需求多种多样,作为一个运算能力、存储能力有限的图书馆系统无法把这些需求都记录在案。所以,需要对读者需求进行聚类,聚类的方法很多,比如分割聚类方法、层次聚类方法、基于密度的聚类方法、基于网络的聚类方法、基于模型的聚类方法等。根据系统的实际数据,应用聚类算法,作出实际挖掘试验。

在图书馆系统中,存在大量的借阅数据,通过对读者的借阅次数进行聚类分析,可得到哪些读者的借阅频率较高,哪些读者的借阅频率较低。从读者的借阅次数角度来衡量读者的需求,体现图书馆服务群体的某个方面的行为特征。对聚类结果产生的一类较为活跃的读者,由于他们的借阅需求比较大,可以考虑调整他们借阅流通图书的最大册数,而不是千篇一律地采用同一标准对待需求不同的读者,更好地为读者服务。对那些比较不活跃的读者,可以进一步挖掘他们的借阅兴趣,为他们提供更主动的推荐服务。

2分析读者借阅行为,完善图书分类信息资源建设

大多数基于数据的模型研究都是在一个特定的应用领域里完成的。为了提出一个有意义的问题的陈述,拥有领域内详尽的知识和经验是必不可少的。因此,对读者行为分析需要有一定的图书馆学知识和对图书馆服务的了解,有效的分析方向和分析思路可以使设计和利用数据挖掘时有更明确的目标。

2.1 分类读者类型

按照读者借阅图书的分类,使用划分的聚类方法可将读者划分成为具有不同借阅特点的组,例如,可以分为三类,即:较为活跃的、一般的和比较不活跃的读者。每一组的读者在借阅图书的分类构成上具有很大的相似性,而不同组的读者在借阅图书的分类构成上则有较大的相异性。由此可以发现读者在借阅行为方面的一些行为趋势和个性,同时在此基础上对不同的组再进行不同的统计和其他的分析。

2.2 分析图书分类

目前国内图书馆通常都采用中图分类法。该方法采用层次结构进行图书的分类,如图1所示[3]:

通过对读者类型的分类,并对各类型的读者所借阅的图书进行分析将图书进行分类,利用模糊聚类分析技术,通过对图书馆业务系统的借阅、流通状况、检索请求及馆藏书目库进行分析挖掘,按类统计文献拒借集和频繁借阅集,并以此分析出文献的利用率,及时补充短缺的文献,剔除过时的文献或减少部分文献的采购量。运用关联分析技术,对读者每次借阅的文献进行关联分析,发现各类文献间的关联规则或比例关系,可为各学科文献的采访工作提供分析报告和预测报告,优化信息资源建设或馆藏结构。

3构建图书推荐服务模型,提供个性化推荐服务

数据挖掘技术的应用使图书馆的信息服务由被动转向主动。利用数据挖掘技术获取文献利用状况,进行数据分析后,发现读者的类型、使用模式和资源偏好,建立读者的兴趣模型,提供主动的个性化图书推荐服务。

图书推荐服务是图书馆个性化信息服务的一种。在图书馆巨大的馆藏中,读者感兴趣的只是很小一部分,如何高效地找出有用的书目是图书馆学要研究的问题。现代的图书馆都提供检索服务,读者输入关键词后在查询结果中浏览以获取所需的信息,这需要读者具备相关专业的知识和对自己的需要有明确的认识。

不同于传统的检索服务,图书推荐服务是采取主动的方式,向读者提供他可能感兴趣的信息,降低了对读者的要求,节约了读者寻找资料的时间,同时提供了更丰富的信息。

为了提供推荐服务,我们需要获取“不同类型的读者喜欢哪类书籍”的知识。现代图书馆的信息化,借阅记录以数据库的形式保存,我们可以通过对借阅记录中读者和书籍的关联分析,找出读者的借阅习惯,进而建立模型并提供推荐服务。如图2所示模型:

挖掘系统产生关联规则放入图书推荐服务模型的规则库中,匹配器根据读者输入信息在规则库中寻找符号条件的规则,然后根据这些规则返回读者可能感兴趣的书目。

4开展web挖掘,实现电子信息数据挖掘

将网络上丰富的资源有针对性地组织到图书馆的馆藏中来,不但扩充了馆藏,同时大大方便了读者。Web数据挖掘(Web Data Mining),简称为Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘发展过来的集Web技术、计算机技术、数据挖掘、信息科学的多个领域的一项技术。一般地,Web挖掘可以分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用记录挖掘(Web Usage Mining)[4]。其中,web结构和web使用模式的挖掘结果对馆藏建设、网站架构和个性化服务提供依据,也可以搭建可信赖的学科导航系统,并对收录的网站目录资源进行定期的分级评价。而Web内容挖掘是从文档内容或其描述中抽取知识的过程。通过挖掘获取的资源可以建设本校的特色专题数据库。

目前,随着电子信息的日益发展,越来越多的电子数据库成为各高校图书馆的一种重要资源。一般高校图书馆都使用了中国期刊网、维普资讯网、超星数字图书馆、金图外文书、随书光盘库等多种电子版的信息资源。这些数据库都采用自己开发的格式,读者在使用时要在不同的平台上进行切换,命中率低。我们可以采用数据挖掘技术对这些数据库进行合理的挖掘,建成自己的数据仓库(也可称知识库)[5],实现电子信息数据挖掘。

总之,利用数据挖掘技术,可以了解读者访问图书馆的目的和趋势,了解读者的兴趣和需求,改进服务质量,变被动服务为主动服务。在读者利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等有价值的大量信息,这正是图书馆工作者获取读者信息需求、读者分类、需求聚类的宝贵数据,通过对信息进行深层次加工、分析与利用,使读者得到多层次、智能化的信息服务。获取这些信息就可以据此提供个性化信息服务,即根据读者兴趣文件或兴趣规则主动向读者提供有价值的资源。通过分析数据挖掘的结果,寻找各个学科领域中的一些相互关联的知识,优化图书馆的馆藏布局,提高资源配置利用率,实现全社会的信息资源共享。

参考文献

[1]何少卓.浅谈数据挖掘及其在图书馆的应用[J].图书馆界,2004,(3):52-54.

[2]邵晓红.数据挖掘技术在高校图书馆中的应用[J].鄂州大学学报,2007,(2):24-26.

[3]曾俊.数据挖掘技术在图书馆管理系统中的应用[D].贵州大学,2007.

[4]赵春燕.数据挖掘技术及其在高校图书馆的应用[J].北京政法职业学院学报,2007,(3):94-96.

数据挖掘技术工程管理篇11

一、数据挖掘的过程

第一，明确业务应该处理的对象。应该对于问题进行明确的界定，对于数据挖掘的目标的确定是保证数据挖掘的开端，也是非常重要的一个环节。虽然对于数据进行挖掘最后的结论是不可预测的，但是对于问题所进行的探索是非常清楚的。如果盲目地对数据进行挖掘，就会降低数据挖掘的准确性。

第二，数据准备工作。这个过程需要完成的工作主要有数据选择、数据处理、数据转换。数据选择主要是对和业务对象相关的所有的有用信息进行搜索，从而在里面选择最合适的信息。数据处理主要研究数据本身的质量，其目的是为了更好地完成数据分析工作，并且确定进行数据挖掘的类型。数据转换主要是为数据转换确定合适的分析模型，这个模型的建立需要充分考虑数据的算法，建立真正合适的分析模型。

二、关联规则算法与决策树算法在教务管理中的应用

（一）关联规则算法

关联规则能够非常清晰准确地表达数据库中每一个子集的基本情况。使用关联规则进行数据分析时，主要工作方式就是通过对数据库、关系数据库和其他儲备信息库进行分析，从而寻找出项集之间存在的关联性。关联规则挖掘是数据挖掘的重要组成部分。所谓关联规则，是指能够达到预定目标要求的规则。举一个简单的例子，在一个蕴含式子中：形如这样的一种蕴含式子：X-Y。其中：X表示规则前件，Y表示规则后件。关联规则的强度值通常用客观兴趣度衡量。客观兴趣度衡量是一种评价关联模式的质量的数据驱动的方法。它使用从数据推导出的统计量来确定模式是否是有趣的，可用支持度或置信度来评价。令I=（i1，i2，i3，…，im）是挖掘数据库D中所有项的集合，集合T={t1，t2，t3，…，tn}是所有事务的集合，包含零个或多个项的集合称为项集。如果项集X是事务t1的子集，则称事务t1包含项集X。在事务集T中包含项集X的事务个数称为项集X的支持度计数M（X）。

（二）决策树算法

决策树算法就是以实际案例进行归纳总结而得出的一种学习算法，主要的运算原理即是在无顺序、无规则的元组中找到决策树表示形式的分类规则。其递归方式采用的是自项而下的方式，在决策树的内部节点中去完成属性值的比较，并且根据不用的属性值进行自上而下的分支，在分类的过程中要学习叶节点自身的特性和规律，只有把握住其内在规律才能够在从根到叶节点的运算过程中不出现错误。决策树的构造过程中不需要掌握非常高端的计算机知识，只需要掌握基本的知识就能够完成其构建过程，因此这种算法在数据挖掘过程中受到非常广泛的关注。

（三）关联规则算法与决策树算法在教务管理中的应用

当前研究的高校教务管理系统中就已经应用了很多的关于关联算法和决策树算法，因为这两种算法的综合应用性比较强，所以依据其自身的挖掘目的和数据分析的特点所设计的数据挖掘系统就具有非常强大的适用性。通过数据挖掘就能够将教师的年龄、工作、学历、课时等基本信息很快地搜索关联起来，这样对提高教学质量和教师的自身素质有很大的帮助。因为相对来说，高校的教务管理系统中有很多的教师信息，这样就会导致学生和教师的信息非常庞杂，庞大的数据系统会使教务管理系统在运作时所需要处理的数据变得更多。

决策树在高校教务管理信息系统中所发挥的作用非常大，主要就是用于对相关数据信息的预处理。在预处理的过程中，首先应该完成的就是相关的决策树模型构建，在构建决策树模型以后，往往会存在一些不需要处理的分支，这些分支的存在对于正常的教务管理工作有很大的影响，所以说，在构建决策树以后首先应该完成的就是剪枝工作，剪枝工作的质量和效率对于决策树自身存在的合理性有很大的影响。对于分支决策树进行合理的剪枝，就能够让决策树剪枝工作顺利完成，这样也就能够保证其预期具有较高的效率。在构建决策树的过程中，一定要注意构建合理科学的决策树。

三、结束语

数据挖掘技术工程管理篇12

信息时代背景下的档案管理模式不断受到网络技术和计算机信息技术发展的冲击和挑战, 人们对信息需求具有多维性和及时性的特征, 因此信息时代背景下的档案管理模式和档案管理系统必须满足人们不断增长的海量信息需求以及最大程度上缩短信息获取的等待时间, 实践表明将数据挖掘技术引入到档案管理系统中具有非常重要的作用和价值。

2 数据挖掘技术及其应用概述

数据挖掘技术是伴随着信息技术的革新和人工智能的发展而得到广泛应用和不断发展的一项技术, 目前其已经在包括档案管理系统在内的广大领域中得到了广泛而深入的应用, 伴随着数据挖掘技术在档案管理系统中的应用, 相关的档案信息收集、数据处理、数据利用的速度和质量都得到了大幅度提高, 大大地推动了档案管理事业的发展。

数据挖掘技术通常使用分类法、关联法、粗糙集法等对采集的数据进行多维度分析整合, 从而得到隐藏其中的知识、规律和模式, 决策者基于数据挖掘的结果进行决策可以显著提高决策的科学性、准确性和针对性, 提高对未来行为和事情的预见性。

在使用数据挖掘技术之前, 必须有可供挖掘的大量数据存在, 只有满足这个前提才能使用相关的方法对数据进行分析、整理从而得到相应的结果, 数据挖掘后得到的结果可以在过程控制、信息管理、数据维护、查询优化、决策分析等方面得到广泛的应用。数据挖掘技术及其应用同时又是一个跨学科的技术, 其与人工智能技术、计算机技术、数据仓库技术和统计学方法理论等紧密相连, 同时数据挖掘技术中还会大量应用到遗传算法、神经网络等技术。

3 档案管理系统中数据挖掘技术的应用

档案管理系统中数据挖掘技术的应用不仅是信息时代背景下档案管理工作的客观要求, 同时也是新时代背景下实现档案管理价值的重要方法和途径。归纳综合起来档案管理系统中数据挖掘技术的应用主要体现在以下几个方面:

3.1 档案分类中数据挖掘技术的应用

档案分类是档案管理的基础工作, 数据挖掘技术的决策树算法可以依据一定的规则将不同种类不同属性的档案快速区分开来, 对符合一定规则和属性的档案进行归整, 大大提高档案管理员的归类速度, 提高档案检索速度和效率。档案分类中数据挖掘技术的具体工作流程为:在众多具有不同特征的数据集中挑选出训练集, 训练集是指已经完成分类工作的数据集, 基于此训练集构建符合既定规则的分类模型, 然后将该分类模型应用到没有完成分类工作的训练集, 这种档案分类可以帮助档案管理者对信息用户的特点和行为进行分类总结, 并可以根据其个人爱好定制和推荐用户感兴趣的信息, 诸如基于用户的职业、性别、学历、爱好以及浏览习惯等信息分析和推断出用户的偏好, 这种基于数据挖掘的差异化和个性化分析可以帮助用户提高获取有效信息的速度, 从而提高档案管理的有效性和价值水平。值得注意的是要在档案分类中正确使用决策树算法要处理好分裂属性的选择和训练数据分类的有效性。

3.2 档案收集中数据挖掘技术的应用

档案收集中数据挖掘技术的应用主要是基于数据库内的数据描述来构建数据模型, 将数据样本与数据模型进行对比并找出差异, 如果发现测试样本模型与构建的数据模型相吻合, 那么就按照测试样本模型的分类方法对事务进行分类。档案收集中数据挖掘技术的应用要求对档案信息库进行全面分析和综合测度以得到科学的描述方案, 并对已知概念模型和相关数据集进行科学描述, 然后将模型与测试样本进行比较来检查模型的准确程度, 如果反复测试后模型表现出较高的准确性, 那么就将该模型作为标准模型, 这是档案管理个性化功能实现的基础。将数据挖掘技术应用到档案收集中可以提高档案收集工作的有效性, 从而为后续的档案分类和档案信息预测工作创造良好的前提条件, 这也是档案管理个性化和功能定制化得以实现的重要保障。

3.3 档案保管中数据挖掘技术的应用

档案保管的目的是保留用户的档案信息防止档案流失。对于企业来说留住老员工的成本远远要比重新聘用新员工的成本要低, 研究和保管老员工的档案信息是留住老员工手段的重要方法之一, 通过对老员工档案流失记录的分析、挖掘和整合, 从中可以发现导致员工流失的原因并及时地采取补救措施, 这在现代企业人力资源档案管理中具有十分重要的地位, 国内外许多大公司已经率先应用并取得了一定的成绩。档案管理活动的目标是为了满足管理者对于档案信息的需求, 将数据挖掘技术应用到档案日常保管管理中可以提高档案工作的效率和效能, 同时也可以将档案管理工作与人力资源管理工作紧密结合起来。

4 结论

数据挖掘技术是现代信息化技术的重要领域, 也是人工智能 (AI) 和商务智能 (BI) 领域的重要支撑技术, 具有重要的实际应用价值和发展前景。档案管理系统中数据挖掘技术的应用, 大幅度地提升了档案管理工作的效率和档案信息查询检索的速度, 随着档案管理现代化的不断推荐、新的需求不断提出以及计算机技术的发展, 因此有必要进一步加强档案管理工作中数据挖掘技术的应用, 从而有效快捷地实现档案管理的现代化。

摘要：档案管理工作在信息技术的推动下获得了快速发展, 将数据挖掘技术引入到档案管理系统中是实现档案管理目标和提升档案管理价值的必然要求, 本文在介绍了数据挖掘技术及其与档案管理工作关系的基础上, 重点从档案分类、档案收集、档案保管三个方面研究了数据挖掘技术在档案管理系统中的应用。

关键词：档案管理系统,数据挖掘技术,应用

参考文献

[1]於立勇.计算机数据挖掘技术应用在档案信息管理系统中的探讨[J].电脑知识与技术, 2012 (02) .

[2]黄华.数据挖掘分析在档案管理方面的应用[J].网络安全技术与应用, 2009 (04) .

[3]周碧珍.浅析计算机数据挖掘技术在档案信息管理系统中的应用[J].黑龙江科技信息, 2009 (01) .

【数据挖掘技术工程管理】推荐阅读：