数据挖掘技术分析

2024-08-01

数据挖掘技术分析(精选12篇)

数据挖掘技术分析 篇1

摘要:随着现代人们生活节奏的不断加快, 对医院工作质量与效率提出了更高的要求, 未来医院信息管理系统将向更加智能化、数字化的方向发展, 数据挖掘技术在医院信息管理系统中的应用能够大大提高医院工作与管理效率。笔者从数据挖掘技术的基本概念的角度入手, 通过对数据挖掘技术的不同分类进行深入分析, 为其在现代医院信息管理系统应用提供一定的理论基础。

关键词:数据挖掘技,基本概念,技术分析,信息管理

现代医院信息管理系统建设需要运用先进的计算机互联网技术对医院现有的医疗信息资源及患者的病例档案进行高效、科学地统一化管理, 同时引入数据挖掘技术来对大量的数据信息进行挖掘处理, 根据处理结果建立统一的数据结构群组, 同时根据用户及患者的不同需求提供个性化咨询与就医服务。利用数据挖掘技术不仅能够实现医院信息资源的高效、科学化利用, 还能够为用户提供精确的、需要的个性化服务, 以此加快医院信息管理系统智能化、高效化发展。

1 数据挖掘技术基本概念

数据挖掘技术的基本概念可归结为以下内容, 利用先进的云系统与大数据处理技术, 针对大量看似无规律、无联系的数据进行定性定量地运算与分析, 挖掘出这些数据背后隐藏的规律与联系并利用到特定目的的数据处理技术。由于数据挖掘技术能够通过对大量复杂的信息进行全面、细致的分析, 处理得出事物之间预期的联系, 能够广泛地应用于医院信息处理系统中, 为医院患者病例及各种档案信息管理系统提供坚实的数据基础。

2 数据挖掘技术分类

2.1 自组织神经网络

数据挖掘技术中的自组织神经网络主要是指在针对整个大数据进行挖掘处理的过程中, 通过计算机的智能程序来分析数据之间的规律与特征, 找出数据内容间的相互关联, 整个过程都是计算机的智能化控制, 并无医疗人员的介入。比如在对数据间的关联进行挖掘时, 通过对整个数据库分布的特征及结构进行分析, 建立相符合的神经网络数据处理结构模型, 通过该处理模型来分析数据之间的差异与联系, 神经结构模型是一种低纬度结构空间, 在分解数据组结构时要选择与之相符合的网络结构模型, 只有这样才能保证自组织神经网络能够对数据挖掘结果进行映射。

2.2 模糊神经网络

由于神经结构自身的制约, 数据挖掘与处理结构无法根据数据组的具体特征给出一对一的映射, 不仅使得数据挖据处理结果有待优化, 还对数据挖掘技术的发展与推广造成一定的阻碍。为了更好地体现根据神经网络模型处理的出具结果准确性与简洁性, 大多都会采用模糊的神经网络机构挖掘技术来控制BP网络数据输出的节点与映射对应性, 这样不仅能够优化网络数据输出结果, 同时利用模糊神经网络数据挖掘技术自身所具有的深层分析与二次联想功能, 还能够避免数据处理结果受神经网络基本功能的影响, 甚至能够拓宽数据挖掘的范围, 以增加数据处理结果的所需的足够的样本空间与数据量。

3 数据挖掘技术在医院信息管理中应用

3.1 优化医院信息管理系统

现代医院将先进的数据挖掘技术应用于信息管理系统中, 其本质就是通过对大量患者病历及医院日常运行过程中产生的各种信息进行全面、准确地分析, 保证医院能够实现信息资源的最大化利用, 并为医院未来的信息化管理系统建设提供坚实的数据基础。具体做法为:加强医院工作者日常工作记录, 将传统情况下人为记录的形式逐渐转变为计算机电子录入, 能够加快医院信息管理系统通过网络技术与数据处理技术实现信息资源的高效化利用。

3.2 推进多媒体数字资源发展进程

随着我国经济社会的快速发展, 现代医院的经营范围与规模不断扩大, 医院信息管理工作中传统的信息检索系统越来越无法满足用户的需求, 大多数用户都希望医院能够引进现代先进的网络与计算机多媒体信息管理系统, 并将数据挖掘技术与多媒体信息管理技术相结合, 应用于医院信息管理系统来优化医院信息数据库, 为用户与患者提供更为高效、优质的信息访问服务。

3.3 利用数据挖掘技术为患者提供个性化服务

数据挖掘技术在现代医院信息管理系统中的广泛应用不仅能够推动医院信息管理系统向高效化、智能化方向发展, 同时还能够通过数据挖掘技术获取大数据中的关联资源, 为医院向不同患者提供个性化的就医服务与健康咨询提供科学、可靠的数据基础, 有针对性地为用户提供个性化的咨询与就医服务, 主要体现在以下两个方面:一是利用数据挖掘帮助医院了解用户所需的服务信息;二是加快医院信息管理系统智能化、现代化建设速度。

4 结 语

总而言之, 数据挖掘技术需要广大科技工作者针对现代医院信息管理系统运行过程中存在的问题与漏洞进行优化, 通过科学实验与理论推理加以验证, 为现代医院信息管理系统的智能化、高效化、信息化管理提供坚实的理论基础, 并为数据挖掘技术在医院信息管理系统中的应用提供良好的环境。

参考文献

[1]张智刚, 郭淑艳.数字图书馆读者信息挖掘系统构架的建设[J].长春师范学院学报, 2010, 8 (8) :412-413.

[2]崔柔刚, 温阳东.数据挖掘技术在医院信息管理中的应用[J].安徽水利水电职业技术学院学报, 2014, 12 (1) :102-103.

[3]熊拥军, 陈春颖.基于关联挖掘技术的数字图书馆个性化推送服务[J].图书情报工作, 2010, 23 (1) :356-357.

数据挖掘技术分析 篇2

站点对于移动通信网络优化而言无疑具有非常重要的意义,移动站点的对少直接决定了运营商投资规模的多少,而站点位置的选择则对移动网络质量的好坏也有很重要的影响。在移动通信网络优化的过程当中应用数据挖掘技术,可以对站点选择的合理化水平起到提升的作用。其具体的方法是在初始可行解的基础之上,进行具体的特定方位的搜索,在一个过程中让相关的目标函数值变化最多的进行移动。这样一来,不仅能够较为合理、科学的对移动站点进行选择,而且还可以大幅度的降低移动运营商在这方面的资金费用。与此同时,用于设备维修的资金也会相应的减少。这样一来,无疑也会获得更多的利润。

3.2科学研究掉话现象

对于移动通信网络当中存在的掉话现象的具体的分析,主要是建立在对数据挖掘技术的基础之上的,同时在研究的过程中还要注意对相关数据和资料的研究。在此基础上,还要针对具体研究的类别情况,才能在最快的`时间之内查出在移动通讯当中出现掉话现象的缘由。因此,在优化移动通信网络的过程当中有效的应用数据挖掘技术,不但能够实现实践序列方法的有效的利用,而且还能够保证对话务出现的特点以及原因进行有效而快速的分析,从而实现全面系统的分析和研究移动网络中电话现象出现的原因的目的。

3.3利用数据挖掘技术还可以提升干扰分析的准确程度

数据挖掘技术在优化移动通信网络的过程当中一个非常重要的方面便是对移动通信网络的干扰数据进行分析。例如在对上行干扰进行分析时,其计算的公式为上行干扰功率=干扰UE上行发射功率+干扰UE到目标基站的路径损耗+目标基站对干扰UE的上行智能天线增益。而在对下行干扰进行分析时其计算的公式为下行干扰功率=干扰基站对干扰UE的下行发射功率+干扰基站到干扰UE的路径损耗+干扰基站对目标UE的下行智能天线增益。因此,利用数据挖掘技术对移动通信网络进行干扰分析,不仅能够以较快的速度找到干扰的物体和干扰的位置,而且还能够较为及时的对这些问题进行处理,从而保证移动通信网络的正常平稳运行。

3.4数据挖掘技术在移动通信优化中话务预测的具体应用

在进行网络规划的过程当中,需要对移动通信过程当中的话务情况进行预测,并根据具体的预测情况进行相关硬件设施的投资建设。当话务预测过高时可能会导致硬件设施采购过多,而造成资源的浪费。当话务预测过低时,又会造成大量话务的溢出,进而导致收入情况的损失。而利用数据挖掘当中时间序列预测的方法可以较好的解决这一问题。该方法主要指的是,通过对过去相关的历史数据的研究,来对未来的需求进行有效的预测。具体而言就是在对未来预测的过程中,分析并发现事物的变化特征以及发展规律,从而为话务预测提供有效的参考。

4结语

随着4G网络发展的不断深入,人们对移动通信技术也提出了更高的要求。在这种情况下,在移动通讯网络优化的过程中有效的利用数据挖掘技术,不仅能够更好的提升网络的质量,而且对于降低移动运营商的投资成本,提升其利润,提高市场竞争力都具有非常重要的意义和价值。

参考文献:

[1]胡勇.数据挖掘技术在移动通信网络优化中的应用[J].网络通信,,24(1)

数据挖掘技术分析 篇3

关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析

在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]

数据挖掘在DNA数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。

基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及標记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。

方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。

系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息,见图1。

启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。

没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。

如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。

选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。

结 论

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。

参考文献

1 黄诒森.生物化学[M].北京:人民卫生出版社,2002:29-37.

2 张国良.遗传算法及其应用[M].北京:人们邮电出版社,1996:130-150.

数据挖掘技术分析 篇4

基于粗糙集理论的数据挖掘系统一般由数据准备 (包括数据清洗、数据选择、数据预处理、数据表示) 、对象分类、对象重要性分析、属性之间的依赖关系分析、基于粗糙集或其拓广理论的数据约简和求核、决策算法、规则生成、规则合并、知识表示、评价等部分组成。

粗糙集理论作为数据挖掘的一种方法, 近年来得到了广泛关注和青睐。这不仅是因为它具有良好的数学基础和性质, 而且还因为它恰好反映了人们用粗糙集方法处理不分明问题的常规性, 即以不完全信息或知识去处理一些不分明现象的能力, 或依据观察、度量到的某些不精确的结果而进行分类数据的能力。

二、客户价值

一般而言, 客户价值包含两个方面的价值:一是客户对于供应商的价值;二是供应商为客户所提供的价值。前者是指从供应商角度出发, 根据客户消费行为和消费特征等变量所测度出的客户能够为企业创造出的价值, 它是企业进行客户细分的重要标准。后者是从客户角度出发, 对于供应商提供的产品和服务, 客户基于自身的价值评价标准而识别出的价值, 这一价值在营销学中通常称为客户让渡价值。

两种价值的概念是基于不同的出发点, 所以, 从企业角度来看, 产品和服务具有较高的客户让渡价值才有可能销售出去, 而营销活动的目的就是要增加这一价值, 并将高的让渡价值信息传递给客户。而前一种客户价值用于区分不同价值客户, 识别那些价值高的客户, 有针对性的提供让渡价值, 是客户关系管理的基础。

三、基于粗糙集的决策树技术的客户价值评价

1. 客户价值评价的指标体系

在整个客户生命周期上管理客户价值是C R M的基本思想, 因此, 企业在评价客户有价值与否时, 不仅要参照该客户当前的价值表现, 更重要的是依据其对该客户潜在价值的预测判断。客户当前价值决定了企业当前的赢利水平, 是企业感知客户价值的一个重要方面。客户潜在价值关系到企业长远利润, 直接影响到企业是否继续投资于该客户关系的一个重要因素。客户价值评价指标体系如图所示。

2. 基于粗集的决策树技术的客户价值评价规则的获取

决策树分析是一种机器学习算法, 主要是从大量的历史数据, 最好是具有专家认证的数据中, 归纳总结隐藏在其中的知识模型, 并可通过这个知识模型对新的数据进行预测。决策树算法的最大特点是支持非数值型数据。该方法利用信息论中的信息增益寻找示例数据库中具有最大信息量的属性字段, 建立决策树的一个节点, 再根据该属性字段的不同取值建立树的分支在每个分支集中重复建立树的下一个节点和分支的过程。树的质量取决于分类精度和树的大小。一般来说, 决策树的构造主要由两个阶段组成。第一阶段, 建树阶段。选取部分受训数据建立决策树, 决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段, 调整阶段。用剩余数据检验决策树, 如果所建立的决策树不能正确回答所研究的问题, 我们要对决策树进行调整1剪枝和增加节点直到建立一棵正确的决策树, 这样在决策树每个内部节点处进行属性值的比较, 在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规则, 整棵决策树就对应着一组析取表达式规则。一般而言, 对于给定的样本, 从随机取样的样本中抽取中的客户进行决策树模型分析, 将剩余的客户用来检验模型的准确度, 并列出计算结果和规则。判断其精度的指标是回归评估系数。一般讲, 回归评估系数大于时可认为回归拟合比较准确。

四、结束语

当今的世界人们面临着越来越海量的数据信息, 同时在更多的机遇面前, 企业的竞争就需要以更低的成本、更加迅疾的速度做出这样或那样的大量及时而准确的决策。面临这样的世界态势, 一个组织或企业要想有活力, 并取得丰厚的效益, 就要有组织地授权更多的人适时供应他们准确无误的数据信息, 并让他们利用更加得心应手, 顺应决策者逻辑思维和他的主导作用的工具做出正确的决策。

随着数据仓库的出现, 其面向主题、集成、不可更新、随时间变化等等特性可以更好地支持决策分析的数据集合。传统数据库中的数据用以支持事务处理, 属操作型数据而数据仓库中的数据是用以支持分析处理的分析型数据。数据仓库正是为了进行快速而有效地决策分析产生的。随着数据仓库的出现, 原有的数据库工具已无法满足需求, 数据挖掘正好可以帮助决策者在数据仓库中寻找数据间的潜在关联, 发现被忽略的要素, 提取隐藏其中的信息, 为问题的解决提供更多的知识, 辅助决策者进行趋势预测及行为决策。

我们通过综合运用数据挖掘的模型和技术来对客户价值进行分析, 得出的结果应该能够支持管理层做出决策, 能够有利于企业的经营目标的实现。但是, 建立客户价值管理的决策支持系统的前提是具有以客户为主题的数据仓库。数据仓库能够支持大量的数据存储, 快速并行的处理保存历史序列数据, 能够进行趋势分析支持数据的集成和综合。所以, 以客户为主题的数据仓库才是理想的客户价值管理的决策支持系统数据库, 这也是我们建立决策支持系统的基础。

参考文献

[1]康小东:基于数据仓库的数据挖掘技术.北京:机械工业出版社:2004

[2]李雄飞李军:数据挖掘与知识发现.北京:高等教育出版社:2003

遥感卫星数据传输技术发展分析 篇5

在分析遥感卫星对该技术总体需求的基础上,从数据率、频段选择、数据压缩、调制解调、数据安全、编译码等几个方面对此项技术的`发展进行了分析和预测,并提出了相应的对策.

作 者:高卫斌 冉承其 Gao Weibin Ran Chengqi  作者单位:北京跟踪与通信技术研究所,北京,100094 刊 名:中国空间科学技术  ISTIC PKU英文刊名:CHINESE SPACE SCIENCE AND TECHNOLOGY 年,卷(期): 25(6) 分类号:V4 关键词:遥感卫星   数据传输   技术决策  

云端数据存储安全技术分析 篇6

因此清楚了解各种数据的安全需求,透彻的分析现行云存储方面的关键技术,了解其不足,才能明确未来技术的攻克方向,以最快速度走出云端数据存储的“魔障”。

【关键词】云存储 数据加密 密文访问控制 完整性审计 重复删除

一、云存储发展现状

随着网络的普及和技术的发展,我们已经进入海量数据时代,云计算应运而生,云存储是在云计算的基础上发展而来的新兴存储形态,因其容量大、可以不受时间和地域的限制对资料进行上传下载,而且还可以按需购买等优点受到许多企业、组织或是个人的青睐。很多公司都租用了用于企业内部小范围的私有企业云,便于数据分析处理,节省数据管理方面的开支,降低了企业成本,而像华为、OPPO、vivo等很多做移动终端的大型企业也都向用户提供云服务,当然还有很多专门做云存储空间租用的企业,像我们经常用到的百度云、SaaS、360云盘等。据相关调查数据显示,全球公有云市场规模正逐年递增,云端数据存储正在得到越来越多的企业关注,同时吸引了大批资金用于开发与研究新的数据存储安全技术。

虽然云存储解决了很多难题,但是此起彼伏的数据存储安全事故也不断挑弄着我们的神经,例如2010年6月,苹果公司发生Ipad用户隐私数据泄露,2015年4月多省社保信息遭泄露,数千万个人隐私泄密等等,它让我们清楚的认识到在云端数据存储这种模式下,数据资料被上传至虚拟空间,使数据脱离了我们的实际操控范围,在数据的上传下载的过程中极有可能会被恶意改写或是盗取等引起数据安全事故,带来无法挽回的损失,这引起了用户对云存储提供商可靠性以及数据安全性的担忧[1]。基于此,我们大多数是采用数据加密的方式将数据放置云端,但是这样一来又使很多功能如数据检索、运算等难以实现,带来很多技术难题。

二、云存储关键技术

为了保证云端数据的完整性、机密性与可用性,打消用户的使用疑虑,促云计算快速发展,国内外企业和学者做了大量研究,其中一些技术已经比较成熟或是提出了相应的技术模型,较好的解决了目前的一些问题。

(一)数据加密技术

加密无疑是保护云中存储的数据的安全性和隐私性的重要方法之一[2],目前比较好的加密技术就是收敛加密与基于属性的数据加密技术。

收敛加密即相同的数据资料经过加密后生成相同的密文,有利于重复数据的冗余删除,提升空间利用率;另一方面由于密钥的生成方式与明文的散列值密切相关,这样一来可以利用生成的密钥来检验明文的完整性;用户访问权限被撤销后,不是马上重新加密数据,而是采用特定事件触发加密,待数据修改时同时生成新的密钥,减少了密钥的生成、分发与管理。

基于属性的加密机制(attribute-based encryption,ABE)是一种控制接受者对加密数据的解密能力的密码机制,只要用户拥有的属性满足一定的介入策略时就可以解密信息[3]。根据属性加密,不需了解属性所属方,这样就不会侵犯用户的隐私;只有私钥具备解密数据属性时才可以解密明文,并且在这个过程中,不同的用户之间私钥不可以联合,保证的数据的安全性;还可以实现灵活的访问控制。

(二)数据销毁

云计算提供商通过计算资源租用和存储资源租用的方式对外提供服务,那么对同一租户的相同数据进行重复数据删除,在结束租用期限时,清空该租户的所有信息,释放空间,使利益最大化,用户可以基于自身需求,及时清除失去存储意义的数据等一系列数据销毁技术是保护数据安全与隐私的另一重要方法。

1、基于密文的重复数据删除技术

由于同一明文经过不同的密钥加密后会产生不同的密文,因此系统对这些重复数据无法有效识别和删除,所以目前只能依赖特殊的加密方法即收敛加密,使相同的明文生成相同的密文,这样便可以进行重复数据删除操作,但是这种加密方法针对性强,无法适应海量数据的加密趋势,因此,支持删冗的一般性加密方法是一大技术挑战。

2、数据的可信删除

存储在云端的数据都会经过加密,因此,对此部分数据的删除只需要所有人都无法解密明文即可,这样就转换成为密钥的删除技术。2007年Perlman等人在文献中首次提出了可信删除(assured delete)的机制[4],即通过建立第三方可信机制,将时间或是用户的某项特定操作作为删除的触发条件,使其可以在规定的时间后将密钥删除,这与张逢喆等人提出的基于可信计算数据销毁机制本质是一样的。

三、技术挑战与重点突破方向

(一)公开审计数据安全难以保障

数据的公开审计需要提供相关内容进行检测,这期间重要数据,隐私内容就需要公开或是提供给第三方,数据安全控制难以保障。另一方面如何根据云端数据的时时更新,进行动态审计,也是技术的攻克难点。

(二)数据残留问题难以解决

如何实现数据的有效删除,是空间释放中面临的安全问题,无论是将数据放进垃圾箱还是交给专门的第三方处理,都可能会导致信息泄露;另外租赁到期必然要进行空间回收,数据是否有效删除直接带来了上一位与下一位租户数据之间能否有效隔离开来以及数据隐私方面的问题。

(三)针对海量数据的加解密技术

目前的数据加解密技术不具有一般性特点,复杂度较高,针对海量数据的加解密必然会带来用时长、效率低、查询处理等多方面的问题。

四、总结

云计算异军突起,云存储作为云计算的技术支撑,其地位必然不必多说,从云端数据安全存储的总体发展情况来看,一些加解密技术已日渐成熟,但是还缺乏一般性;当前一些技术领域方面的研究如加解密、数据销毁、完整性审计等大多还是分开展开研究的,缺乏联合性;一些技术研究长期停留在实验和模型阶段,缺乏有效的实践。从发展方向来看,基于云端数据存储的自由特性,需要我们在保证数据安全的前提下,尽可能的提高数据加解密的效率,降低时间复杂度,使密文搜索、空间回收、数据处理等操作成为可能,当然这需要政府、社会各界以及我们每个人的共同努力,我相信在不久的将来,我们一定可以将云端数据存储的优势更好的发挥出来,给大家带来更好的用户体验。

[]张浩,赵磊,冯博,余荣威,刘维杰.CACDP:适用于云存储动态策略的密文访问控制方法[J].计算机研究与发展,2014,51 (7): 1424-1435

[]冯朝胜. 云数据安全存储技术[J]. 计算机学报,2015,38(1):151-163.

[]李晖,孙文海,李凤华,王博洋.公共云存储服务数据安全及隐私保护技术综述[J]. 计算机研究与发展,2014,51 (7): 1397-1409

数据挖掘技术应用案例的分析 篇7

1 数据挖掘的原理

数据挖掘是一种决策支持过程, 它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等, 高度自动化地分析企业的数据, 做出归纳性的推理, 从中挖掘出潜在的模式, 帮助决策者调整市场策略, 减少风险, 做出正确的决策。企业实现办公自动化之后, 应积极选用数据挖掘基础研究数据, 从中获得各种潜在的价值信息, 指导经营者制定市场决策。

2 应用案例

本次案例分析以企业应用为主, 选择的是某小规模“生产型”企业A, 对生产原料采购数据进行深入挖掘与分析。具体概况:A公司为从事药物生产与加工的企业, 每个月需要采购大量的原材料。但是, 受到市场环境及价格因素的影响, 数据库中纪录的采购成本高低不一, 给财务预算工作造成了较大的难度。随机性抽取2011年1-6月份材料采购成本数据, 如表1。由此可以看出, A公司每个月支出的材料成本不统一, 给整个公司的资金收支预算造成困难。

3 数据挖掘技术的应用

从根本上来说, 数据挖掘是一种透过数理模式来分析企业内储存的大量资料, 以找出数据库潜在的价值信息。本次A公司列举的2011年1-6月分材料采购的数据中, 单从数据表面可以看出, 2011年上半年材料采购成本高低不一, 且6个月里成本资金支出的差距较大。单从表格, 提醒了财务部、采购部做好材料购买的规划工作, 却没有对其中隐含的信息进行挖掘分析。借助于数据挖掘技术, 可以深入挖掘表格中的潜在信息。首先, 将1-6月份划分为两个阶段, 前面3个月为一期, 后面3个月为一期。深入分析及挖掘发现, 1-3月份材料预算成本与实际成本相差较大, 平均差额超过6000元以上;而4-6月份材料预算成本与实际成本相差较小, 平均差额在2000元以内。经过数据差异的挖掘分析, 可得出A公司每年上半年应选择4-6月份进行原料采购, 以降低生产材料成本的支出, 从而创造了更高的经济收益。

4 结语

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘并非简单的数据罗列, 其要求分析人员透过数据的表面现象, 深入地挖掘潜在的价值信息, 这样才能让数据资源发挥出更大的使用价值。

参考文献

[1]张景霞, 陈建华.数据挖掘初探[J].赤峰学院学报 (自然科学版) , 2008 (7)

[2]唐一之.数据挖掘在WEB中的应用[J].湖南理工学院学报 (自然科学版) , 2008 (2)

[3]金梅.基于数据挖掘技术的图书馆工作[J].科技情报开发与经济, 2008 (36)

[4]施晓静.浅谈在企业中如何正确使用数据挖掘技术[J].山西科技, 2009 (1)

数据挖掘技术的分类算法分析研究 篇8

分类技术在很多领域都有应用,其中比较典型的应用就是在客户关系管理系统中,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对几种主要的分类方法作简要的研究与探讨:

1 基于判定树的归纳分类

判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IF-THEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。判定树归纳的基本算法是贪心算法。

算法描述如下:判定树归纳分类[2]是一种从训练样本集中推理出判定树表示形式的分类规则的方法。它采用自顶向下的递归方式,判定树的最顶节点是根结点,树的内部结点表示在一个属性上的测试,从该结点向下的每个分支代表一个测试输出,在树的叶结点得到分类预测。从根到叶结点的一条路径就对应着一条合取规则,整棵判定树就对应着一组析取表达式规则。判定树的优点在于它的直观性和易理解性,判定树方法不仅能做出分类和预测,而且它的生成过程、分类、预测以及从判定树所提取的分类规则都具有很强的可理解性。

算法策略如下:(1)判定树以代表训练样本的单个节点开始;(2)如果样本都在同一个类,则该节点成为树叶,并用该类标记;(3)否则,基于启发式或统计式策略选择能够最好地将样本分类的属性,将样本分类;(4)对测试属性的每个已知的值,创建一个分枝,并以此为根据划分样本;(5)使用同样的过程,递归地形成每个划分上的样本判定树。

停止划分的条件:给定节点的所有样本属于同一类:没有剩余属性可以用来进一步划分样本,此时使用多数表决(用训练集中的多数所在的类标记它);没有样本剩余。

2 KNN法(K-Nearest Neighbor)

KNN(K Nearest Neighbors)算法[3]又叫K最临近方法,总体来说KNN算法是相对比较容易理解的算法之一,假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类,KNN就是计算每个样本数据到待分类数据的距离,取和待分类数据最近的K各样本数据,那么这个K个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。

KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

3 VSM法

VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。

在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。

由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。

4 Bayes法

Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

设训练样本集分为M类,记为C={c1,…,ci,…c M},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)=c类样本数/总样本数。对于一个待分样本X,其归于cj类的类条件概率是P(X/ci),则根据Bayes定理,可得到cj类的后验概率P(ci/X):

P(ci/x)=P(x/ci)·P(ci)/P(x)(1)

若P(ci/X)=Maxj P(cj/X),i=1,2,…,M,j=1,2,…,M,则有x∈ci(2)

(2)式是最大后验概率判决准则,将(1)式代入(2)式,则有:

若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,则x∈ci,这就是常用到的Bayes分类判决准则。经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。

Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

5 神经网络

人工神经网络的研究至今已有60多年的历史。1943年,心理学家Mc Culloch和数学家Pitts合作,提出了形式神经元的数学模型,即MP模型[4],从此,神经网络引起了许多科学家的兴趣。但随着对感知机为代表的神经网络的功能和局限性的深入分析等原因,使神经网络的研究陷入低潮。但是仍有一些学者坚持研究,并取得了一些成果,出现了Grossberg的ART模型和Kohonen的SOM模型。1982年,通过引入能量函数的概念,Hopfied研究了网络的动力学性质,并用电子线路设计出相应的网络,进而掀起了神经网络新的研究高潮。1986年,Rumellhart和Mc Cllel-land等提出了PDP理论,尤其是发展了多层前向网络的BP算法,成为迄今应用最普遍的学习算法。

神经网络可解决目前数据挖掘存在几个方面的问题:

1)数据的量度和维度,面对大量复杂、非线性、时序性与噪音普遍存在的数据;

2)数据分析的目标具有多样性,使其在表述和处理上都涉及到领域知识;

3)在复杂目标下,对海量数据集的分析,目前还没有现成的且满足可计算条件的一般性理论的方法。然而,神经网络在对噪声数据的高承受能力以及对未经训练的数据分类模式的能力方面有很大优势。因此设计出基于神经网络的数据挖掘方法,并将其用于真实世界问题,是可行且也是必要的。

人工神经网络可用于数据挖掘的分类、聚类、特征挖掘、预测和模式识别等方面,因此,人工神经网络在数据挖掘中占有举足轻重的作用。

总之,数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等;另外,近年来多媒体数据库发展很快,面向多媒体数据库的挖掘技术和软件今后将成为研究开发的热点。

摘要:数据挖掘技术是一个崭新研究领域,随着信息技术日新月异的发展,数据库技术在不同行业领域的大规模应用,数据库的规模急剧膨胀。在诸多商业需求的驱动下,数据挖掘已成为当今研究的热点,每年都有新的数据挖掘方法和模型问世,特别是其中的分类问题,引起了越来越多的关注,本文对数据挖掘中的分类算法就行了归纳研究。

关键词:数据挖掘,分类,算法

参考文献

[1]范明,孟小峰.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[2]王旅,彭宏,胡劲松.基于判定树归纳分类的土质分类定名方法[J].计算机工程与设计,2006,27(11):1929-1931.

[3]王燕,李睿,李明.数据挖掘技术应用研究[J].甘肃科技,2001,17(1):49-50.

数据挖掘技术分析 篇9

一、处理方法的有效应用

在经济数据统计活动中, 预处理方法是最为基础的处理方式, 其主要是对基础数据信息进行智能分析。一般来说, 数据挖掘受基础数据信息的限制, 不能代替经济数据系统的功能, 并且在数据挖掘系统中, 其数据基础的经济统计数据信息具有多样性和复杂性, 因此必须要对经济统计数据信息进行预处理[2]。在处理统计数据信息时, 主要就是对不准确、不正确以及真实的数据进行处理, 并分析不同经济统计数据信息之间的差距。

数据清理是指对存在问题的数据进行处理的过程, 目前在对数据进行清理时, 主要采用预测法、平滑法以及均值法。一般如果基础数据中的某个数据点是噪声数据以及空值时, 对其进行处理时可以采用均值法, 利用数据库中所有该属性已知的属性均值, 并对其的空缺进行填补, 从而确保数据挖掘系统能够正常整理和分析基础数据, 使统计分析的数据具备较高的准确度。具体的计算公式如下:

其中数据点的取值用Ci表示, 数据点前后不为空的数据点用Cj表示, 计算数据点所取的参考数据点数量用K表示。

平滑法行为一种计算方法, 其也是对基础数据中噪声数据以及空值进行计算。但是与均值法有所不同, 其是用加权平均数来代替平均数, 并对计算过程中提取的数据对数据结果的影响权重进行综合考虑, 因此平滑法计算出的数据结果更为真实准确。其具体的计算公式为:

其中i -数ki据点的- k取值用 Ci表示, 数据点前后不为空的数据点用Cj表示, 计算数据点所取的参考数据点数量用K表示, Cj数据点的权值用Wj表示。

二、策树方法的有效应用

在应用数据挖掘技术的过程中, 系统经过分析与总结之后, 必须要对数据的输出分析, 一般数据的输出形式直接影响着使用者的经济管理决策。决策树作为一种分类方法, 其更为直观与快速, 采用决策树方法的关键就是对决策树进行构建。首先必须要利用训练集监理决策树, 并对其进行精简, 建立出输出分析的模型。然后利用决策树对输入的数据进行分类, 可以从决策树根部开始进入树丫, 直到输入数据的分类满足条件之后停止。一般其停止分割时, 必须要满足两个条件: 一是某个节点上的全部数据属于同一类别; 二是输入数据没有分类属性进行再分割。值得注意的是, 在构建完决策树之后, 必须要结合使用者的实际情况和要求, 对决策树进行“剪枝”, 因为使用训练集能够影响决策树本身数据的输出, 这样能够有效降低该数据产生起伏影响。

三、成化处理方法的有效应用

一般在对数据挖掘技术进行应用时, 由于数据统计的主体不同以及统计的标准不统一, 往往会出现数据集成问题, 因此为了保证经济数据的有效集成以及统计的准确性, 必须要考虑数据集成过程中的模式集成以及冗余问题。

( 一) 模式集成

社会经济活动中, 经济数据的统计很多来自于民间统计组织, 导致统计内容过于广泛, 因此在数据挖掘过程中, 在集成经济数据时必须要进行实体识别。如在数据挖掘过程中, 怎样对一个数据库中的“std - no”与另一数据库中的“std - id”是否表示同一实体进行确定, 目前主要是利用数据库与数据库之间的含元数据对比, 从而提高实体识别的质量和效率。

( 二) 冗余问题

经济统计数据经过数据挖掘技术的加工之后, 能够达到最简状态。在数据挖掘过程中, 必须要精简其与其他数据之间存在正相关关系的数据项目, 这样才能使数据库中数据量保持在较低的水平, 便于数据的应用和管理[3]。一般在数据挖掘中容易出现冗余问题, 如国民生产总值, 其数值的计算主要是利用总人口属性与国内生产总值加以计算。一般在判断冗余属性时, 主要是利用相关度的对比, 其计算公式如下:

其中元组的个数用n表示, 属性A和属性B的平均值用以及表示, 属性A和属性B的标准方差用 σA以及 σB表示。其中如果rA, B> 0, 则说明属性A与属性B呈正相关, 属性A增大, 则属性B也随之增大; 如果rA, B= 0, 则说明属性A与属性B没有直接关系, 彼此相互独立; 如果rA, B<0, 则说明属性A与属性B呈负相关, 属性A增大, 属性B则减小。

四、结束语

一般而言, 对经济数据进行处理时, 传统的数据处理方式是利用树数理统计学的知识与软件, 开发利用经济统计数据库中的数据, 但是这样的处理方式往往形式单一, 无法对数据进行深入挖掘, 因此无法有效满足社会的需求。但是数据挖掘能够将虚假的数据加以剔除, 从而提高数据的质量, 并且能够对数据之间的联系进行深入挖掘, 充分有效挖掘数据。因此在经济统计中应用数据挖掘技术显得十分之必要。

参考文献

[1]王康.关于数据挖掘技术在经济统计中的应用[J].财经界 (学术版) , 2011, 05:98.

[2]郝岩.数据挖掘技术在经济统计中的应用探究[J].现代经济信息, 2013, 11:294.

[3]崔丹.数据挖掘技术在经济统计中的应用探索[J].财经界 (学术版) , 2014, 03:149.

数据挖掘技术分析 篇10

1 数据挖掘技术

1.1 数据挖掘的含义

所谓的数据挖掘技术又被人们称之为数据库中的知识发现, 它主要是一种将对人们有用、新颖以及有效的信息数据, 通过相关的技术手段从大量的数据信息中获取的一种方法。换而言之。数据挖掘技术就是在大量的信息数据中, 找到合适有用的信息数据, 并且将它们提取出来。

在一般情况下, 人们在采用数据挖掘技术对信息技术进行获取前, 通常都会通过数据分析的方法, 对大量的信息数据进行分析, 从而找到人们需要的信息, 在通过数据挖掘技术将它们提取出来。目前, 在数据挖掘过程中, 人们采用的数据分析方法有很多, 其中主要的数据分析有:频数统计分析、相关关系分析、领悟式分析、聚类分析等, 其中最为常用的就是聚类分析方法。这主要是应为, 在数据信息挖掘的过程中, 由于挖掘出来的知识信息中存在着许多的表现形式, 而且其中存在着大量的复杂信息, 因此人们为了方便对信息数据的收集, 人们就采用聚类分析方法, 对其进行有效的分类分析, 剔除在信息中混入的一部分主观因素, 为人们提供准确的客观信息, 从而完成人们对信息数据挖掘的任务。

1.2 数据挖掘技术的理论基础

数据挖掘技术的理论基础有模式发现架构、规则发现架构、微观经济学观点、基本概率和统计理论、基本数据压缩理论、基于归纳数据库理论等。模式发现架构是从源数据集中发现知识模式的过程。规则发现架构是将三类数据挖掘目标即分为、关联、序列作为一个统一问题来处理, 解决了数据挖掘问题如何映射到模型和通过基本运算发现规则的问题。基本概率和统计理论是从大量源数据集中发现随机变量的概率分布的过程。微观经济学观点是把数据挖掘技术看作一个问题的优化过程。基本数据压缩理论是把数据挖掘技术看作对数据的压缩过程。基于归纳数据库理论是把数据挖掘技术看作对数据库的归纳问题。可视化数据挖掘必须结合其他技术和方法才有意义, 但它可以实现交互式过程以及更好地展示挖掘结果。上述的理论框架不是孤立的, 也不是互斥的, 对于特定的研究和开发领域, 它们是相互交叉并有所侧重的。

1.3 数据挖掘的步骤

在数据挖掘的步骤, 主要有对数据问题定义和分析、数据准备和预处理、数据信息的挖掘以及对挖掘结果的解释和评估。这些挖掘步骤在整个数据挖掘过程中, 有着十分重要的意义, 如果不对其进行严格的要求, 就很容易使得“挖掘”出来信息数据不符合人们生活和办公的要求。而在一些要求比较低的数据信息中, 工作人员就可以直接通过相关的数据挖掘算法对其进行控制, 从而满足人们对信息数据的要求。

2 数据仓库

2.1 数据仓库组织形式

数据仓库是数据存储过程中组织形式中的一种, 在数据仓库中收录的数据按照优先级别可以分为四个层级, 高度综合级、轻度综合级、当前基本数据级和历史数据级。在从多个数据库中将原始的数据信息综合整理之后, 数据信息先获得当前基本数据级的层级, 根据辅助决策的主题要求形成综合数据级数据, 随时间的推移, 将老化的数据转为历史数据级数据。上述四级数据均由元数据组织管理。元数据是关于数据的数据, 元数据的典型形式之一就是基本数据库的数据字典。以数据仓库为背景, 元数据主要包括两种:由数据仓库的管理人员所操作的技术数据, 技术数据是在数据环境由操作型向数据仓库转变的过程中所创建的, 其内容为数据库端的源数据信息, 包括了源数据名、属性和数据仓库中对应的转换数据, 这些数据是管理员在数据仓库维护时明确数据信息的来源和位置的依据;用户与数据仓库之间采用的多维度商业模型中建立的客户端与服务器端的源数据映射, 是由户使用的业务数据。这种业务数据能够提供给用户端直接的访问信息, 而不必通过对数据库底层的开发技术进行了解。业务数据信息在业务运行过程中产生的与实际业务相关的数据, 常用来开发决策支持工具。

2.2 数据仓库技术应用

数据仓库是b/s与c/s两种应用模式相结合而成的, 数据仓库的客户端能够完成格式化查询、客户交互、生成结果与报表等功能。在数据仓库的服务器端提供决策的辅助服务, 包括数据库查询、辅助计算功能和其他的综合辅助功能。当前应用最普遍的数据仓库形式是三层结构的, 在服务器端与客户端中间设置多维度的数据分析服务器。中间层负责完成决策支持的规范和强化, 对dw服务器和源客户端进行简化和集中处理, 降低系统的数据信息传输量, 提高数据仓库整体的工作效率。

2.3 数据仓库的发展前景

由于数据仓库技术可以大量的数据信息进行有效的整理, 因此在企业经济发展的过程中, 得到了人们的广泛应用, 并且取得了不错的效果。目前, 在我国数据仓库技术已经十分的成熟了, 在现代化企业信息环境中有着很大的发展空间。在数据仓库技术在实际应用的过程中, 并不是采用数据库对其进行直接的替换, 而是通过让数据库在不同的环境下发挥出自身不同的功能。而且数据仓库在决策服务的过程中, 人们也可以通过数据仓库技术对所需要的内容进行提取, 可以通过高级的数据分析服务进行数据仓库进行维护, 从而对现代化的数据仓库进行构建。

结束语

数据挖掘技术和数据仓库技术是分析和研究的算法, 在企业信息处理中承担着重要的作用。并在多个领域得到应用。比如数据挖掘技术和数据仓库技术还在保险业、银行业、营销业、保健业以及客户关系管理中都有广泛应用。随着各种计算机技术, 如数据模型、数据库技术和应用开发技术的不断进步, 数据挖掘技术和数据仓库技术也必将不断发展, 以更科学优化的算法为各个领域提供数据分析的重要服务。

参考文献

[1]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社, 2004.

数据挖掘技术分析 篇11

关键词:数据挖掘;数据仓库;寿险;决策树;C5.0

中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)18-31481-03

Application of Data Mining Technology to Analyze Life Insurance Customers' Purchase Behavior

ZHANG Xiao-yan1,QI Chun-ying2

(1.Educational Information Technology Center,South China Normal University,Guangzhou 510631,China;2.Xuzhou TV University,Jiangsu 221006,China)

Abstract:With China's entrance to WTO, the competition of domestic life insurance market is becoming red-hot day by day.With two decades' development, our life insurance has achieved rapid progress and accumulated a large amount of data of their customers.To find the rule that the customers selected their life insurance policy.the data mining technology is used based on their purchasing records.Data deriving, data cleaning and data pre-processing are necessary steps before data mining. After that, decision tree models were set up with C5.0 algorithm in SPSS Clementine tool and different models were compared and analyzed to find out some useful rules in the customers' decision about different life insurance product..

Key words:data mining;data warehouse;life insurance;decision tree;C5.0

1 引言

1.1研究的背景和动机

随着计算机技术和信息技术的发展,信息的增长速度呈指数上升。有数据表明,进入二十世纪90年代,人类积累的数据量以每月高于15%的速度增加。面临浩瀚无际的数据,如果不借助强有力的分析技术,仅依靠人的能力来理解这些数据是不可能的,因此,人们需要强有力的数据分析技术来满足对海量数据分析的需求。在这种情况下,从数据库中发现知识及其核心技术——数据挖掘技术应运而生,并显示出强大的生命力。

寿险行业在我国虽然起步较晚,但自改革开放以来,寿险业在我国取得长足发展,每家寿险公司都积累了自己庞大的信息库,面对这些海量的数据,如何加以合理分析与利用,是每家公司急于要解决或正在解决的问题。基于这样的一个背景,本文提出了在寿险行业中应用数据挖掘的方法对客户对寿险产品购买行为进行分析的研究

1.2研究现状

国内的寿险业经过近二十年的发展,积累了大量的客户数据和代理人数据,目前国内的各大寿险公司已经从数据仓库着手,建立自己公司的BI系统,从目前的规模、IT人员技术的积累、市场竞争的加剧等客观情况来看,数据挖掘在寿险业的应用的时机和条件都日趋成熟,只是在目前的条件下,数据挖掘在寿险行业的成功应用并不能一蹴而就,而需要一个循序渐进的过程。

1.3寿险行业数据挖掘应用范围

在寿险产品的销售过程中,一共有四种角色参与:投保人和被保人、寿险代理人和保险人,其中投保人与被保人都称作公司的客户,数据挖掘在寿险业的应用范围非常广泛,具体包括以下方面:

对客户而言,数据挖掘的应用范围主要包括:客户利润分析、客户生命周期价值分析以及客户聚类分析;

对代理人而言,数据挖掘的应用范围主要包括:为代理人队伍的正确部署准备决策依据和潜在优秀代理人的发掘;

对保险公司而言,数据挖掘的应用范围主要包括:风险模型的建立和索赔分析;

2 数据挖掘技术及其现状

2.1数据挖掘的概念

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据库、人工智能、数理统计、可视化、并行计算等技术。

2.2数据挖掘的主要步骤、任务、方法和应用

数据挖掘一般有以下几个主要步骤:数据收集、数据整理、数据挖掘、对数据挖掘结果的评估以及最终的分析决策。数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。

数据挖掘技术的目标就是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。

数据挖掘主要任务有:数据总结、分类、关联分析和聚类分析。

数据挖掘工具采用的主要方法包括决策树、相关规则、神经元网络、遗传算法,以及可视化、OLAP联机分析处理等,另外也采用了传统的统计方法。

目前,数据挖掘的研究和应用非常热门,应用主要集中在以下几个领域:金融、市场业、工程与科学研究、产品制造业、司法和证券业。

2.3数据仓库与数据挖掘

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从联机事务系统OLTP(On-Line Transactional Processing)所得来的资料。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础,整个数据仓库系统包含四部分:数据源、数据的存储与管理、OLAP服务器和前端工具。

数据挖掘是在数据仓库的基础上进行的,若将数据仓库比喻作矿坑,数据挖掘就是深入矿坑采矿的工作,若没有够丰富完整的资料,是很难期待数据挖掘能挖掘出什么有意义的信息的。

3寿险客户购买行为数据集市设计

3.1数据集市总体结构和开发模型

在多年开发和维护寿险客户分析系统的基础上,为了减少开发与维护的工作量,同时为了在客户的购买行为上开展数据挖掘,作者决定在SQL Server数据库上通过对业务数据的抽取、清洗与转换,建立有关客户购买行为的数据集市,并通过建立多维数据集,对不同的决策层采用不同的工具展示他们所需要的数据,其总体结构如图1所示:

图1 数据集市总体结构

本文的实验是采用数据集市(Data Mart)的形式。数据集市开发模型的建立如图2所示:

图2 数据集市开发模型

4 客户购买行为的决策树分析

4.1数据预处理

4.1.1数据抽取

总公司可以直接从数据库中提取数据,分公司则采用了微软的DTS(数据转换服务),通过定义一个源数据端和一个目的数据端,通过DTS在两端之间传输数据。建立好抽取的模型后,再用SQL Server的企业管理器,定义作业,指定每天凌晨定时从总公司的业务系统里取数据。

4.1.2数据清洗

寿险业的数据与其他数据一样,常常是含有噪声、不完全和不一致的,数据预处理能够帮助改善数据的质量,进而帮助提高数据挖掘进程的有效性和准确性。

对数据的清理,主要包括一下几个方面:遗漏数据清理、噪声数据处理和错误数据处理。

4.1.3数据转换

(1)日期的转换

在业务系统上,日期都是用数值型表示。对于生效这类日期是以8位的数值表示,如20040101,而对于客户的出生日期是用5位数值表示,如20040101表示为40101,所以在向数据装载数据之前,需要把这两类日期表示方法进行统一处理,如把40101作如下转换:40101+20000000 = 20040101

(2)保费的转换

对于寿险产品,缴费方式分为年缴与趸缴,趸缴是一次性缴完所有保费,所以趸缴保单的保费是远远大于年缴保单的。而年缴保单不同的缴费年期的缴费金额也不同的。而对于寿险公司来讲,对这些保单的管理的投入也是不同的,所以通常会对这些单做标准保费的转换。

对于年缴保单,标准保费是一倍自然保费的,对于趸缴保单,标准保费是等于自然保费的10%。

4.2 数据分析与数据展示

对于公司不同层级的决策层,由于使用电脑的频率不同,采取了不同的展示方法,对于中层的决策层,由于使用电脑机会较多,通过多维数据模型,向他们展示不同维度的数据分析。维度是经过对业务部门需求分析得出的,下例是分成三个维:

时间维:表明该保单同意承保日期

险种维:根据被保险人所购买险种类型归类的层次结构

区域维:对各分支机构进行归类的层次结构

多维数据集的数据展示如图3所示:

图3 营销数据的多维分析

4.3 数据记录的选取

根据预处理后的数据,可以从中得到被保险人的详细资料,包括被保险人的年龄、性别、家庭年收入、职业、婚姻状况、学历及所购买的寿险产品代码等,其数据片断如图4所示。

其中的职业分类(典型职业):1表示普通文员,2 表示外务员,3表示司机,4表示厨师,5类表示采矿工人,6类表示伐木工人。由于客户在选择寿险产品的时候,主要是看它的主险部分,而且无论从保费还是从保障来讲,都是主险占绝对影响力,而且在寿险公司对保单的件数的统计都是以主险为单位的,而不考虑附加险。所以对于客户对险种的选择,只选取了以主险为单位的那些记录。这样,结合被保人与客户对主险的选择一共有24736条记录。

图4 所选择的数据片段

4.4决策树模型的建立

按照保险对象来分,分为人寿险、健康险和意外险三类。由于意外险的在我们公司是以卡单的形式存在的,没有特定的主险形式,所以我们对这些单分成两类。这种分类方法是从保险专业的角度来讲的,所谓人寿保险就是仅以人的生命为保险对象,以人的自然生死为保险金给付责任的人身保险。健康保险是以人的身体或生理机能为保险对象,以疾病或意外伤害事件所致的医疗费用支出或收入损失为保险责任的人身保险。我们公司的健康险包括三个险种:D01P、D05P和P01P,这几款险种的特点是全消费型,而且比较贵,都是对重大疾病的保障。按此类方法,我们把健康险定为A类,非健康险分为B类,记录片段如图5所示。

图5 分类数据片段

记录分布如图6所示:

图6 记录分布

分类的决策树模型如图7所示:

图7 分类的决策树模型

决策树产生的分类规则如图8所示:

图8 决策树产生的分类规则

4.5结果分析

从分类产生的结果来看,可以明显看到以下规则:

(1)年龄在17岁以下和45岁以上的客户购买健康险的比率较少:

分析:对于17岁以下的那些客户,由于本身罹患重大疾病的机率较小,而国内的寿险客户在选择寿险产品的时候多从自身所处的情况出发,对周围比较容易发生的风险比较关注,而对离自己较远的那些风险则是相对关注较少,所以这类客户多数是不考虑购买重大疾病的保险。而对于年龄45以上的那些客户,考虑到费率的原因,这类客户在这个年龄段购买重大疾病保险费用高,举例来讲,对于一个25岁的健康男性,如果购买保额为1000元的重大疾病保险,按20年缴,只需要33元/年,而同样的保额对于一个45岁的人来讲,则需要56元/年,所以多数客户如果要选择健康险,都是趁比较年轻时费率相对较低的时候购买,而不会在上了一定年纪后费率较贵的时候购买。

(2)对于在17岁到45岁之间的客户,是否购买健康险首先是由其家庭年收入多少决定,对于年收入在41000元以下的那些客户较少选择健康险,分析其原因是与健康险本身的特点有关,前面已经分析过,这三款健康险都是纯消费型的产品,既没有储蓄的性质,也没有投资的性质,也就是在保障期满,所缴纳的保费是没有返还的,而一般的人寿险特别是养老型的险种都具有一定的储蓄性质,就算是纯保障的产品,也会相对比较便宜。所以对于家庭年收入较低的家庭,考虑健康险的也比较少。而对于这个年龄段的客户,如果收入在41000元以上的家庭,职业类别是1类和2类的,也就是那些办公室文员、行政内勤、商店经营人员选择健康险的比较多,分析这类人员的特点多为企事业白领阶层,工作紧张压力大,平时活动和运动量都相对较少,但是对自身的身体健康却非常在意,而不太看重保险的投资与养老的功能,所以这类人更多会选择健康型的险种。

(3)对于三类职业,结果中没有明显的规则发现,但是异常数据比较多,共9287条记录,占总数的35%,而第3类职业在我们的职业分类表里,多为司机类职业。由于寿险公司在对被保险人的风险类型进行评估的时候,如果出现多个类型,是取高风险的职业类别。因此要根据该类客户所从事的职业进行进一步分析,如从事的职业是与驾驶车辆有关的职业,则购买健康险的客户比较多,否则,符合前两类分析结果。

5 总结

本文在数据挖掘理论研究的基础上,利用数据挖掘的决策树的方法,对寿险公司客户在选择寿险产品的规则上进行了分析与研究。较为系统性地研究了数据挖掘方法在寿险客户购买行为分析上的应用。提出并建立了我公司寿险客户产品选择的决策树模型,以便能对寿险代理人在展业过程中,有针对性地为客户设计寿险计划有所帮助。

参考文献:

[1]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc,2001.

[2]Microsoft Corporation(Microsoft SQL Server 7.0的经典指南分析服务})[M].北京:清华大学出版社,2001.8.

[3]Jiawei Han Michaline Kamber(加)范明,孟小峰.等.译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.8.

[4]朱明.数据挖掘[M].北京:中国科学技术大学出版社,2002.5.

[5]飞思科技产品研发中心.SQL Server 7.0 OLAP服务设计与应用[M].北京:电子工业出版社,2002.1.

[6]郑纬民,黄刚.数据挖掘工具及其选择.计算机世界,1999年第20期.

[7]单承戈.决策支持系统问题模型的可视化构造方法[J].计算机应用研究,2000,23(9):25-27.

数据挖掘技术分析 篇12

当美国学者奈斯伯特惊呼“人类正被大量数据所淹没, 而知识则极度匮乏”时, 出现于2 0世纪8 0年代末的数据挖掘技术让人们看到了发现知识的希望。

零售行业使最早利用数据挖掘技术的领域之一, 随着时代的发展, 传统报表系统已经不能满足日益增长的业务需求了, 企业期待着更好地利用数据分析和数据挖掘这种新的技术来获得知识或洞察力, 促使企业做出更有利的决策, 带来更大的商业价值。这也成为企业生存发展的关键。

二、数据挖掘概念

1. 什么是数据挖掘。

数据挖掘 (DM) 是指从大量数据中抽取隐含的、不为人知的、有用的信息。有时也把数据挖掘等同于数据库中的知识发现 (KDD) 。

从商业角度出发, 数据挖掘可以描述为:按企业既定业务目标, 对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性, 并进一步将其模型化的先进有效的方法。

2. 数据挖掘及知识发现处理数据的一般过程。

数据清理→数据集成→数据选择→数据变换→汇总、聚集→数据挖掘→模式评估→知识表示

三、零售业数据挖掘的主要技术分析

数据挖掘采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等领域的研究成果。

1. 概念/类描述:特征化和区分。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。

定性概念描述即数据特征化, 是目标类数据的一般特性或特征的汇总。

对比概念描述即数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定, 而对应的数据通过数据库查询检索。例如:用户可能希望将上一年销售增加1 0%的A产品与同一时期销售至少下降20%的B产品进行比较。再如:比较定期购买某种产品的顾客和偶尔购买这种产品的顾客。结果描述提供顾客比较的一般轮廓, 如比较两类顾客的年龄, 受教育程度, 职业等等, 还可以就某项深入比较, 发现两类间更多的区分特性。

两种描述使用的一些有:基于统计度量、图的简单数据汇总、数据立方体、面向属性的归纳等。

2. 挖掘频繁模式、关联。频繁模式是在数据中频繁出现的模式。包括项集、子序列和子结构。

项集是指频繁地在事务数据集中一起出现的项的集合, 如牛奶和面包。如顾客先购买P C再购买数码相机然后再购买内存卡这样的模式是一个 (频繁) 序列模式。

子结构涉及不同的结构形式, 如图、树或格, 与项集或子序列结合在一起。如果一个子结构频繁地出现, 则称它为 (频繁) 结构模式。

挖掘频繁模式导致发现数据中有趣的关联。著名的“尿布与啤酒”的故事就是关联规则具体应用。著名的关联规则发现方法如:R.Agrawal提出的Apriori算法等。

3. 分类知识发现。所谓分类, 是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规则进行分类。

对于分类规则的挖掘通常有以下几种方法:决策树、朴素贝叶斯、k最近邻分类、人工神经网络、粗糙集方法和遗传算法。不同的算法适用于不同特点的数据集合。最为典型的分类方法是基于决策树的分类方法。

4. 预测型知识发现。

预测型知识是根据事件序列型数据, 由历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。比如, 在零售业中根据先前的销售数据, 预测未来销售中每种商品的收益, 这是一个 (数值) 预测的例子。

目前, 回归分析是一种最常使用的数值预测的统计学方法, 此外还有神经网络、机器学习等多种方法。

5. 聚类分析。

聚类分析处理的数据是无事先确定的类别归属, 是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显, 而同一个群之间的数据尽量相似。

在零售业中利用聚类可以帮助市场分析人员从客户的基本库中发现不同的客户群, 并且用购买模式来刻画不同客户群的特征。此外, 聚类分析可以作为其他算法 (如特征和分类等) 的预处理步骤。聚类方法主要有两大类, 包括统计方法和神经网络方法。

6. 离群点分析。数据集中那些不符合大多数数据对象所构成的规律 (模型) 的数据对象被称为异类或离群点。

大部分数据挖掘方法很容易将离群点视为噪声或异常而丢弃。然而在某些特定应用场合 (如商业欺诈行为的自动检测) , 小概率发生的事件 (数据) 比经常发生的事件 (数据) 更有挖掘价值。

常使用异常探测方法来发现离群点, 实现异常探测可以用基于统计、基于距离、) 基于偏离的方法。

四、结束语

通过研究和实际应用了解到, 数据挖掘并不是万能的, 在通过数据挖掘得到一些有意思的结果之后, 还要进行相应的市场分析, 用户行为分析和用户访谈, 了解数据背后消费者的心理。

虽然数据挖掘在零售业中的应用有许多成功的案例 (多数都在国外) , 然而在具体实施中还有一些的问题:挖掘算法的改进和计算效率提高, 模型的合理性和易懂性, 与其他系统的集成问题;网络与分布式环境下的K D D问题;个人隐私问题;数据规模超大或太小;另外还可能有观念意识问题, 基础条件不成熟问题, 这些都有待于进一步研究。

摘要:数据挖掘技术逐渐成为研究热点, 应用也越来越广泛。本文结合零售业中各种应用需求, 较详细地分析了针对不同挖掘任务的数据挖掘技术, 并对实施中出现的问题进行了阐述, 表明了改进挖掘算法和提高计算效率的必要性。

关键词:数据挖掘,零售业,算法

参考文献

[1]Shortland R, Scarfe R.Digging for Gold.IEE Review.1995 (5) .41:213~217

上一篇:课程理性下一篇:写作训练方法漫谈