数据挖掘系统

2024-09-26

数据挖掘系统(精选12篇)

数据挖掘系统 篇1

1 SDM技术概述

空间数据包括了空间属性数据和非空间属性数据, 空间属性描述了空间拓扑关系和方位、距离等关系, 空间属性数据按照空间索引结构存储和查找。空间数据挖掘 (Spatial Data Mining, 即 SDM) , 就是从空间数据中提取信息, 提取的信息包含了复杂的空间关系, 因此空间数据挖掘与其他数据挖掘方法上有其独有的特点。空间数据挖掘需要综合数据挖掘与空间数据库技术。空间数据挖掘可用于对空间数据的理解, 空间关系和空间与非空间数据间关系的发现, 空间知识库的构造, 空间数据库的重组和空间查询的优化。

2 SDM方法

(1) 特征规则挖掘。

知识是具有粒度的, 人们希望从大量细节数据中进行总结并上升到较高层次, 在这一过程中数据挖掘称为数据概括, 也称为特征抽取。数据概括就是将数据从低层次概念抽象到较高层次, 空间数据概括的实现方法分为空间数据立方体和面向属性归纳法两类。

(2) 空间关联分析。

空间关联规则形如A⇒B[s%, c%], 其中A和B是空间和非空间谓词的集合, s%表示规则的支持度, c%表示规则的可信度。各种各样的空间谓词可以用来构成空间关联规则。

(3) 空间聚类方法。

空间数据聚类是要在一个较大的多维数据集中根据距离的度量找出簇, 或稠密区域, 也就是把空间数据库中的对象分为有意义的子类, 使得同一子类内部的成员有尽可能多的相同属性, 而不同的子类之间尽可能的不同。空间聚类分析是以概念分析为基础。

(4) 空间分类和空间趋势分析。

空间分类是指分析空间对象导出与一定空间特征有关的分类模式, 如地区、高速公路或河流的领域。空间趋势分析是根据空间维找出变化趋势, 研究空间上的非空间与空间数据的变化。

(5) 统计空间数据分析。

统计空间数据分析一般是首先建立一个数学模型或统计模型, 然后根据这种模型提取出有关的知识。

(6) 归纳方法。

归纳方法就是对数据进行概括和综合, 归纳出高层次的模式或特征。归纳法一般需要背景知识, 常以概念树的形式给出。在地理信息系统数据库中, 有属性概念树和空间关系概念树两类。背景知识由用户提供, 在有些情况下也可以作为知识发现任务的一部分自动获取。

(7) 云理论。

云理论是用于处理不确定性的一种新理论, 由云模型 (cloud model) 、不确定性推理 (reasoning under uncertainty) 和云变换 (cloud transform) 三大支柱构成。云理论将模糊性和随机性结合起来, 弥补了作为模糊集理论基石的隶属函数概念的固有缺陷, 为SDM中定量与定性相结合的处理方法奠定了基础。

3 SDM处理过程

(1) 数据准备与问题理解。

这个阶段主要是了解空间数据挖掘相关领域的有关情况, 熟悉有关的背景知识, 弄清楚用户的需求。此阶段是数据挖掘的必经步骤, 往往要花费很多的时间。

(2) 数据选择。

根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据, 空间数据挖掘将主要从这些数据中进行知识提取。在此过程中, 会利用一些数据库操作对数据进行处理。

(3) 数据预处理与数据缩减。

此阶段主要是对数据选择阶段产生的数据进行再加工, 检查数据的完整性及一致性, 对其中的噪音数据进行处理, 对丢失的数据利用统计方法进行填补;然后再对经过预处理的数据, 根据知识发现的任务对数据进行再处理 (主要通过投影或数据库中的其他操作减少数据量) 。

(4) 确定空间数据挖掘的目标, 根据目标确定数据挖掘算法。

根据用户的要求, 确定空间数据挖掘发现何种类型的知识。在确定了目标之后, 有很多的数据挖掘算法, 但我们需要知道选择哪种算法和怎样应用它。算法的选择直接影响着所挖掘模式的质量。选择合适的知识发现算法, 包括选取合适的模型和参数, 并使得知识发现算法和整个空间数据挖掘的评判标准相一致。

(5) 进行空间数据挖掘。

此阶段运用选定的数据挖掘算法, 从空间数据提取出用户所需要的知识, 这些知识可以用一种特定的方式表示或使用一些常用表示方式。在进行空间数据挖掘过程中要用一些标准来度量产生的模式, 来获取有意义的模式。由于可预测型模式是预测某一属性的值, 而这个属性的值又存在于训练集合中, 所以一般来说, 通过把预测的值与存在于训练集合中的那个属性的实际输出值相比较, 计算模式的误差程度, 从而做出对模式的评估。

(6) 模式解释与知识评价。

对发现的知识进行解释, 在此过程中, 为了取得更为有效的知识, 可能会返回前面处理步骤中的某些步骤以反复提取, 从而取得更为有效的知识。然后将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检验, 以确信本次发现的知识不与以前发现的知识相抵触。

(7) 重新精化数据和问题。

如果用户对生成模式的评价是满意的。那么, 就要重新进行新一轮的数据挖掘过程。经过几次反复精化之后, 如果模式的执行情况足够好, 而且得到了用户的认可, 就可以进入到使用结果的阶段了。

(8) 使用结果。

在上述7个阶段完成之后, 用户就可以应用挖掘出来的模式或知识了。

4 SDM体系结构

借鉴有关专家提出的数据挖掘系统的结构, 本文提出了一种空间数据挖掘系统的结构, 其系统流程是:用户提出一些问题, 通过用户接口, 数据挖掘模块触发数据挖掘核心从空间数据库中获取有价值的知识, 把挖掘出来的知识提供给用户。首先从用户提出的一些具体要求开始, 用户的要求被发送给用户接口。用户接口接受用户指定的要求, 将其转化为数据库模块的输入参数和挖掘核心的输入参数。用户接口包括三部分:数据定义、挖掘向导和模式筛选。数据定义是根据用户指令和一些相关的背景知识来进行数据定义。挖掘向导是接收用户指令, 触发数据挖掘核心模块。空间数据库和其他数据源根据数据定义, 来进行数据预处理与数据缩减, 然后抽取出正确可靠的数据。数据挖掘核心包括特征规则挖掘, 空间关联规则, 空间分类与空间趋势分析等。数据挖掘核心把抽取到的正确可靠的数据转换成模式集合, 然后进行模式解释与结果评价。数据挖掘是一个反复的过程, 过程的终止条件是用户对挖掘出来的知识满意, 因此用户对发现模式的判断和筛选就是整个系统的反馈环节。用户对模式进行判断和筛选, 如果满意, 模式就成为知识, 经过一些表达处理, 添加到知识库里去。如果不满意, 就要反馈作用于挖掘向导, 进而调整挖掘内核的操作, 实现挖掘流程的继续, 并逐渐接近用户的挖掘目标。

5 结论

数据挖掘是一个飞速发展的领域, 空间数据挖掘很多都是关系数据库挖掘的延伸。本文简要介绍了空间数据挖掘技术和一些常用的空间数据挖掘方法, 并且基于SDM的一般步骤, 提出了一个新的空间数据挖掘体系结构。在SDM的理论和方法方面, 重要的研究方向有:背景知识概念树的自动生成、不确定性情况下的数据挖掘、递增式数据挖掘、栅格矢量一体化数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、新算法和高效率算法的研究、空间数据挖掘查询语言、规则的可视化表达等。在SDM系统的实现方面, 要研究多算法的集成、SDM系统中的人机交互技术和可视化技术、SDM系统与地理信息系统、遥感解译专家系统、空间决策支持系统的集成等。

摘要:随着数据挖掘技术的不断发展与成熟, 空间数据挖掘已经成为人们研究的热点之一。本文针对地理信息系统 (GIS) 的需要, 介绍了空间数据挖掘 (SDM) 的理论、方法和一般处理过程, 并给出了基于GIS的空间数据挖掘的框架结构。

关键词:数据挖掘,地理信息系统,空间数据挖掘,体系结构

数据挖掘系统 篇2

云速精准数据挖掘主要针对各行各业临街店铺的采集,可以精确的找到店铺名以及联系电话和具体位置,下边我给大家演示一下

首先在电脑上找到此功能双击运行此程序然后我们选择本地验证模式 把旁边的验证码输入进去

数据挖掘系统 篇3

关键词: 煤炭机械;智能系统;数据挖掘;调度

在经济和技术的快速发展下,很多行业都实现了机械化的生产,煤炭行业也不例外,在采掘中,采煤机、运输机等机械的使用,使采煤的效率大大的提升,与人工采掘相比,有很多人工操作不具备的优势,创造了一定的经济效益。但是,随着时代的发展进步,机械化只是煤炭行业发展的一个阶段而已,并不是最终的形态,还有更多的高新技术可以融入到煤炭采掘当中,煤炭机械下一阶段的发展就是智能化,在原有机械的基础上,对其控制系统进行改进,从而实现机械智能化。

1.采煤机械面临的问题

在我国,煤矿的开采形式主要有两大类,即露天开采和钻井开采,在这两种采掘方式中,用到了不同的机械,露天采矿包括了电铲、挖掘机等设备,钻井由于在地下工作,主要用到采煤机和运输机以及掘进机。这些机械并不是孤立运作的,他们之间需要用控制系统进行关联,从而使每个机械的生产能够串联起来,以实现流水线式的生产模式。目前来看,采煤机械还存在着一些问题,首先是故障率偏高,采煤机械日复一日的运作,在这样的超负荷状态下,出现故障的概率很高,不仅影响了企业的收益,增加运营成本,也使得机械设备本身的性能受到影响;其次,采煤机械的效率并不高,虽然在采掘过程中装备了大型的采煤机械,但是由于其控制系统的调度功能有限,并不能很好的把这些器械利用起来,整体来看机械的操作效率还是偏低的;最后,改造问题,对于现有的机械进行改造面临着很多困难,早期的控制系统在收发信号等方面的功能并不理想,导致现在要想实现其智能化更加困难。

煤炭企业在选定了某个智能控制系统之后,对于现有的数据资源要进行深入的挖掘,以探索潜在的信息,来使采煤更加的有效和科学。对数据进行挖掘,就是要在已有的数据库中,对数据进行分析,来找到之前没有发现的、有一定的利用价值的信息,利用这些信息,可以带来意想不到的收益。在煤炭机械只能化发展的过程中,要注意数据挖掘技术的应用。

2.煤炭机械智能系统的模块

智能化的采矿体统离不开计算机技术,计算机技术是核心,它可以把软件和硬件结合起来进行控制。随着社会对于煤炭资源的需求量的增加,采矿区的生产规模逐渐扩大,原有的单一的自动化调度模式已经无法满足需求,而且在现代化的生产中显得非常的落后,因此,需要有一种更高级的控制系统来对采煤机械进行高效的控制。所谓的智能控制系统,是一种计算机系统,通过特定的程序设定,来完成类似于人类只能的操作,这是对传统计算机控制模式的升级。煤炭企业机械只能控制系统的模块有以下几种:

2.1智能操作

在煤炭开采过程中,煤炭机械是主要的工具,由于人工进行操作有很多的不利因素,因此,智能系统要利用智能模块来控制这些机械,实现智能化的调动,要实现这个目标,要研究操作系统的结构、智能化的人机接口、智能化的资源调度等。

2.2智能编程

智能系统要执行指令必须依靠一定的程序来实现,程序的编写就显得十分的重要,要保证足够的精度来完成对机械的控制。传统的程序中,采取的算法都比较固定,求解过程也较为复杂。而采用智能程序进行程序的编写,能够避免人工编程出现的一些语言方面的错误,智能程序语言可以对符号进行处理,可以进行大范围的搜索。

2.3智能软件

计算机工作离不开软件,利用一些配置比较高的软件进行煤炭机械控制,可以提高效率。智能系统中安装智能软件可以使煤炭机械应对更多的环境。智能软件对于软件系统的整个生命周期都能支持,支持软件产品生产的各项活动,作为软件工程代理,适用于公共的环境知识库和信息库设施。

3.煤炭数据挖掘技术的应用

3.1状态数据的挖掘

在不同的作业需求下,智能系统也具备不同的功能,需要处理的数据也更加复杂,而且这些数据一般是动态的。对于采煤设备反馈回来的数据,通过数据挖掘技术,提取出来有价值的信息并进行分析,最后提供给调度中心,发出开采信息进行作业。比如煤炭机械设备的电气系统,它控制这些设备的用电,如果利用数据挖掘技术,找到更多的潜在信息,可以使采煤设备的调度更加合理。

3.2控制数据的挖掘

随着智能系统在采煤设备控制中的应用,数据挖掘技术的中心开始转移到设备控制数据方面,借助计算机完成数据处理工作,并且筛选出对设备调控有用的数据。对于采煤设备日常控制数据的挖掘,必须要联系智能接口的运行实况,收集与煤炭机械相关的数据资源,为挖掘处理提供信息基础。

4.结语

随着时代的发展,以往看似非常先进的方法在现代技术看来也还有很大的空间来提升,在煤炭行业,以往采用机械设备开采代替了人工开采,从而避免了很多人工操作的不足,但是这些机械长年累月处于工作状态,增加了设备的故障率,而采用智能系统来控制煤炭机械,并融入数据挖掘技术,可以更好的控制这些机械,使其调度更加合理,工作效率更高。

参考文献:

[1]杜俊鹏,李尚平,蒋礼斌,宗峰.基于知识的甘蔗收获机械智能设计系统的研究[J].机械工程与自动化,2006,04:8-10.

[2]曾杨.工程机械智能监控信息系统[A].中国机械工程学会,台湾机械工程学会.智能制造技术研发及应用——第十三届海峡两岸机械工程技术交流会论文集[C]中国机械工程学会,台湾机械工程学会:,2010:30.

数据挖掘系统 篇4

1 系统需求分析

由调查研究的结果分析出本系统主要完成如下工作:系统维护、教学计划管理、课表管理、学籍管理、成绩管理、考务管理、教务秘书管理、学生选课、教务信息查询、工作量计算和教材管理等。其中, 教学计划管理和学籍管理是学校教学环节中的首要环节。教学计划管理是排课管理和选课管理的基础环节。通过对全院学生的学籍管理, 掌握学生基本信息和学籍变动情况。而根据各班级课表情况或各专业教学计划, 可以方便地进行成绩管理。

2 系统业务流程

教务管理系统是一个面向院教务管理人员、教师、学生三类人员, 为其提供各项服务的综合信息管理系统。教务管理工作较为繁重, 数据来源多、数据处理复杂, 下面来分析一下教务管理工作流程。

新生报到后, 由院学工处对报到的新生进行统一登记, 并将学生姓名、学号、专业等资料传给教务处, 教务处根据学生的报名情况, 按照学生报名时选择的专业编制教学计划, 安排授课教师, 排课表等。新生入学后, 根据学工处提供的信息, 由教务人员在学籍系统中完成新生信息的输入、维护。教务处在学生入学后首先要制定不同专业学生在校期间全部的教学计划, 然后在每学期期末安排下一学期的各专业年级的在校生下一学期的教学执行计划, 包括学生下学期课程和考试等, 经过教务处审核无误后存入教学表中, 并将计划交教材管理人员, 教材管理人员根据学生人数情况统计并订购教材。在每个学期末, 教务处根据教师和学生的情况, 通过课程管理功能制定下学期的开课情况, 其中包括教师的信息管理、课程信息的管理。经教务处确认后, 学生可通过网上查询课程表。教务处根据教学计划收录教师资料、编排课程表, 最后将课程表转发给各系部教研组、各班级。期末考试后, 任课教师将学生成绩和试卷核查无误后报教务处归档, 教务处对成绩进行统计、汇总, 收录到成绩表中, 并安排补考, 后将成绩单通知各班级的学生。每学期末, 学生成绩的数据由各任课教师录入到成绩系统, 由教学管理人员完成学生成绩的维护工作, 生成本学期的学生成绩单。学生因为个人或成绩等原因产生学籍变动时, 学籍变动前的课程成绩过渡到学籍变动后的课程上。

3 系统数据流程

根据以上对教务管理工作业务流程的总体情况分析, 划分系统边界, 识别系统的数据来源和去处, 划分出几个重要的管理模块, 并明确各功能之间的关系, 教务管理系统的基本数据流程图如图1所示。

4 体系结构设计

鉴于B/S结构的缺陷以及C/S结构的优点, 作为高等职业技术学院的教务管理系统, 单独采用任何一种体系结构都无法满足应用的需求, 我们设计的教务管理系统采用基于C/S和B/S混合模式的教务管理系统。如果对安全性要求高、交互性强、处理数据量大、数据查询灵活且地点固定的小范围内可使用C/S模式, 而在安全性和交互性不高、地点灵活的范围内可使用B/S模式, 充分利用这两种模式各自的优势, 为不同的子系统选用不同的系统平台, 构建两种模式交叉并行使用的混合模式, 如图2所示。

5 数据仓库的设计

开发基于数据挖掘的系统的数据准备工作, 主要是数据仓库的建立和数据的预处理, 即为数据挖掘提供合适的数据。

数据仓库建立的第一步是设计数据仓库的数据模型。通过数据模型, 我们可以得到学生、课程、老师等完整而清晰的描述信息。数据模型是面向主题建立的, 同时又为多个面向应用的数据源的集成提供了统一的标准。数据仓库的数据模型一般包括学生、课程、老师等的各个主题域、主题域之间的联系、描述主题的码和属性组。在基于教务管理信息系统的数据仓库设计过程中, 我们采用通用的三层数据建模方式, 即概念模型设计、逻辑模型设计和物理模型设计。

5.1 概念模型设计

概念模型设计的成果是在原有数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合, 所以数据仓库的概念模型设计, 首先要对原有数据库系统加以分析理解, 看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等, 然后再来考虑应当如何建立数据仓库系统的概念模型。

5.2 逻辑模型设计

在数据仓库的建立中, 逻辑模型的设计工作主要有:

1) 分析主题域, 确定当前要装载的主题

2) 确定粒度层次划分

3) 确定数据分割策略

4) 关系模式定义

5) 记录系统定义

逻辑模型设计的成果是对每个当前要装载主题的逻辑实现进行定义, 并将相关内容记录在数据仓库的元数据中, 包括:

1) 适当的粒度划分

2) 合理的数据分割策略

3) 适当的表划分

4) 定义合适的数据来源等。

5.3 物理模型的设计

在数据仓库的建立中, 物理模型的设计工作是确定数据的存储结构, 确定索引策略, 确定数据存放位署, 确定存储分配。

确定数据仓库实现的物理模型, 要求设计人员必须做到以下几方面:

1) 要全面了解所选用的数据库管理系统, 特别是存储结构和存取方法。

2) 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等, 这些是对时间和空间效率进行平衡和优化的重要依据。

3) 了解外部存储设备的特性, 如分块原则, 块大小的规定, 设备的I/O特性等。

6 结束语

数据挖掘系统 篇5

1、数据挖掘技术的应用及特点

数据挖掘技术是一种新型的技术,在现代数据存储以及测量技术的迅猛发展过程中,人们可以进行信息的大量测量并进行存储。但是,在大量的信息背后却没有一种有效的手段和技术进行直观的表达和分析。而数据挖掘技术的出现,是对目前大数据时代的一种应急手段,使得有关计算机数据处理技术得到加快发展。数据挖掘技术最早是从机器学习的概念中而产生的,在对机器的学习过程中,一般不采用归纳或者较少使用这种方法,这是一种非常机械的操作办法。而没有指导性学习的办法一般不从这些环境得出反馈,而是通过没有干预的情况下进行归纳和学习,并建立一种理论模型。数据挖掘技术是属于例子归纳学习的一种方式,这种从例子中进行归纳学习的方式是介于上述无指导性学习以及较少使用归纳学习这两种方式之间的一种方式。因此,可以说,数据挖掘技术的特征在出自于机器学习的背景下,与其相比机器主要关心的是如何才能有效提高机器的学习能力,但数据挖掘技术主要关心如何才能找到有用、有价值的信息。其第二个特征是,与机器学习特点相比较而言,机器关心的是小数据,而数据挖掘技术所面临的对象则是现实中海量规模的数据库,其作用主要是用来处理一些异常现象,特别是处理残缺的、有噪音以及维数很高的数据项,甚至是一些不同类型数据。以往的数据处理方法和现代的数据挖掘技术相比较而言,其不同点是以往的传统数据处理方法前提是把理论作为一种指导数据来进行处理,在现代数据挖掘技术的出发角度不同,主要运用启发式的归纳学习进行理论以及假设来处理的。

2、数据挖掘技术主要步骤

数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的.模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。

3、数据挖掘技术的方法以及在电力营销系统中的应用和发展

数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。

4、结语

数据挖掘系统 篇6

【关键词】 数据仓库 数据挖掘 关联规则

【中图分类号】 R-3【文献标识码】 B【文章编号】 1007-8231(2011) 08-0655-03

在计算机技术飞速发展的今天,传统的数据库技术已经不能满足大数据量的分析要求。医院信息系统在多年的建设和发展中,积累了大量的原始数据。如何使这些陈旧的信息进行再开发和利用,从中提取出有用的信息,为临床和管理服务,是我们建立数据仓库,进行数据挖掘的目标和意义。

我们通常的数据处理分为两类,一类是对这些数据只是进行传统的操作型处理,第二类是分析型处理。操作型处理也叫事务处理,通常是对一个或一组记录的查询和修改。要求的是响应时间,数据的安全性和完整性。分析型处理也叫信息型处理,用于决策分析。想进行深入的DSS、多维分析等就要访问大量的历史数据,而这样的分析应用就会影响传统数据处理的响应时间。所以我们有必要引入数据仓库概念。数据仓库技术为历史数据的分析和处理提供良好的基础,数据挖掘使这些海量数据真正成为有用的信息。

目前医院已经有了各种信息子系统,有收费子系统,出入院管理子系统,门诊管理子系统,财务系统,病案统计子系统等等,所有子系统都同时使用一个大型的数据库,虽然硬件的配置能使系统处理数据能力较高,但是同时进行深入分析和统计时还是会降低数据处理能力,管理人员分析经营成果也没有方便有效的途径和方法。要提高分析和决策的效率,必须把分析型数据从事务处理环境中提取出来,按照分析的需要进行重新组织,使用软件工具来多方面多层次分析数据,建立数据仓库,应用数据挖掘正好可以满足这些要求。

首先在数据处理方面,传统数据库必须要将每年的数据分开统计,以提高实时的数据查询处理能力。历史的数据连查询都要分别统计,更不用说做深入的分析和应用了,而且提供的分析统计功能基本只能提供简单的查询和统计,需要专业人员设置好报表,才可以对数据进行统计。这样的数据库技术已经慢慢跟不上医院的飞速发展了。引入数据仓库技术以后,可以为提升速度,从而对数据进拆分。例如可对当月数据,直接以当前的HIS数据库为数据源,只做前台数据处理和查询使用,对隔一段时期的历史数据,定时导入到数据仓库中,数据仓库数据库在物理上与在线处理系统分离,这样做大数据量分析的时候就不会影响到在线处理系统的运行,从而造成死机,服务器瘫痪等情况,它相当于一个数据病案室。将当前数据源的数据在相隔一个期间以后,提交到数据仓库,用来提供管理分析。并且分析数据时不需要专业人员事先设定好报表,由原来被动的、固定的报表模式,到现在各级领导可跟据自已的想法,从现有的模型中主动挖掘出自已想要数据,能够充分挖掘医院信息系统的信息资源,提高医院信息系统的的应用分析水平。

其次在分析应用方面

1可以对医院医疗收入状况进行分析,以了解相关因素对医疗收入的影响

例如:以“门诊”为主题建立挖掘模型,从门诊的挂号人数,就诊时间,化验检查次数、时间、金额,取药次数、金额等方面对门诊病人就诊效率进行分析,在就诊时间上、手续上分析,发现影响就诊效率的根本所在,从而提高效率,增加门诊收入。例如采用统计分析方法对门诊病人就诊效率进行分析。如图

表1星期情况分布表

表2号种情况分布表

表3月份情况分布表

通过这些数据分析出影响就诊时间的原因,以改进医疗服务的质量。

2可以对药品采购,储存,出售,浪费情况进行分析

以“药库”为主题建立挖掘模型。从出库趋势、库存量、库存单位盈利和厂商盈利等四方面进行数据挖掘和分析。数据分析的结果为医院管理者提供管理和经营方面的决策支持,从而避免出现药品积压、药品无计划采购和药品浪费等问题

例如采用关联规则对药品的购买进行分析:(所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是从数据库发现那些确信变和支持度都大于给定值的强壮规则。)例如:将医院2010年10月—2011年九月的药房发药的数据作为源数据转换后载入数据仓库,给定最小支持度为25%和最小可信度60%对其进行关联分析得出药品的关联度如

Rule1:浓鱼肝油--->枸椽酸钙surport=0.4542Confidence=0.7323

Rule2:枸椽酸钙--->浓鱼肝油 surport=0.3041 Confidence=0.5937

Rule3:美托洛尔--->替米沙坦surport=0.3298confidence=0.5892

Rule4:替米沙坦--->美托洛尔Surport=0.4838 Confidence=0.7230

从上述规则可得出结论,浓鱼肝油多半会跟枸椽酸钙配合使用,而枸椽酸钙却不需要同时配合浓鱼肝油,同样的,替米沙坦对美托洛尔的依赖成度也较高。因此在药品采购时可以根据得出的关联规则来考虑药品配合使用的问题,调整药品的库存及采购数量。还可以根据此规则把相关的药品放在相近的药品架上,提高药房的发药效率。

数据仓库和挖掘应用是一个不断深入、不断完善的过程,完成了一个主题,一个应用,又会提出更多的应用需求。还可以对病人信息分析,医疗信息分析、绩效评估,疾病的治疗方式和成果等方面进行更深入的研究和实践。从而及时发现潜在的病因,疾病的耐药性和治疗周期等等,不仅仅为医院,甚至可能为整个医疗事业带来令人兴奋的成果。

参考文献

[1]陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,2002,95-96.

[2]康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004.

基于数据挖掘医保系统的研究 篇7

随着计算机机技术的快速发展, 信息系统的建设已渗入到IT、金融、政府、教育以及各大传统行业, 医疗保险行业亦在其中。目前而言, 信息技术的发展, 已经从基础的信息系统的建设跨越到了“用数据决策”, 即通过数据的采集处理、整合加工、分析预测来指导业务的发展。医保行业涉及到的业务系统繁杂、业务处理流程复杂、数据量大, 正是数据挖掘能够发挥其作用的有利基础, 因此如何能够利用现有的优势, 有效利用数据挖掘技术, 来发掘出数据本身的价值、关联数据价值, 来对行业的发展、监控提供支持, 是亟待研究与实践的领地。

2 医疗保险系统的发展现状及存在的问题

与大多数行业及企业信息系统建设情况相似, 医疗保险系统的建设由于缺乏整体的顶层设计, 各个业务系统的建设都是相对独立的, 而且由于系统设计架构的差异, 各个子系统之间的数据并未建立关联关系, 形成了大量的“信息孤岛”。当然, 数据仓库技术在某种程度上解决了数据的集中化管理, 但是由于数据仓库只是将数据进行存储, 当要取出使用时, 还是会存在数据之间的关联关系不明确, 数据本身的含义不明确等问题, 且由于数据仓库只提供了传统的汇总与统计, 并未对数据进行更深的加工或分析。根据以上现状, 我国医疗保险信息系统建设面临的一个重大挑战, 就是如何能够将这些独立的数据进行有关联的集中化管理, 形成医疗保险的数据资源库, 基于这个基础数据资源库, 通过数据挖掘技术, 来对业务的发展、管理模式以及政策的制定提供更有力的支撑。

3 基于数据挖掘的医保系统的研究

由于医疗保险业务涉及到的用户数据是海量的, 而且资金的流动也相对频繁, 业务办理分布多, 业务处理流程复杂且处理的主体是变化的, 因此出现了由医保系统来替代传统的人式方式, 用于能够提高业务处理的速度与质量, 并对数据进行方便的管理。本文将基于数据挖掘技术的相关算法, 来谈一谈其在医疗业务系统子系统的优化与流程优化中使用方法。

数据挖掘技术中的模糊聚类分析, 主要用于对医疗保险系统的各个子系统的划分, 通过几个步骤来优化各个子系统的分布。

1) 确定分类的标准, 对于医保系统来说, 可按照各个系统服务的对象为标准来进行划分, 即医疗保险管理者、参加保险的人员和医疗定点机构, 以此作为各个子系统建设依据。

2) 对三个主体对象对于其各个业务的功能要求与业务要求进行调研, 确立各个子系统的功能模块。

3) 对于各个子系统的业务流程选定一个时间段 (如按月) 进行系统使用次数的统计, 如表1所示。

通过对调研数据进行规范化处理, 即模糊聚类算法, 计算出各个子系统之间的关联程度, 以及业务的重合度, 对子系统进行合并处理得到如图1所示的优化后的子系统, 以减少系统架设不必要的开销。

根据各个子系统的划分, 如图2所示, 为医疗保险系统的应用逻辑架构图, 可分为两大部分。左侧是核心应用, 主要包括医疗保险费用的在线结、现金报销、保费的审核以及个人账户的管理与维护, 此部分的核心应用都需要医疗保险数据库的支撑。右侧是相关的辅助业务, 即主要是用于管理与查询, 包括利息计算、查询服务、统计报表、年度/季度数据管理, 以及为与外部数据进行交换的接口等等, 这些业务对于实时性要求不高, 从一定程度上与主要的业务系统进行了分离, 从而在不会影响核心业务系统。

SQL Server 2008提供了一种基于时间序列的分析方法, 即决策树算法中的一种。具体的方法即选取一系列有时间先后顺序的数据集, 如按年、按季度、按月等方式。在医保领域, 一个参保人员每月的总体费用即一个时间序列。分析的目的是对未来进行预测。分析方法有回归预测、指数模型、ARMA模型等。其中最后一种模型使用起来最为方便, 以下为此算法的分析公式:

参保人员的总费用是医保监管的重要组成部分, 通过对这部分数据的挖掘分析, 可以对于医保人员每年/每季度/每月的总体费用有一个非常清晰的了解, 总结出总体费用的上限, 同时通过监管, 进行医疗总体费用的有效管控, 使其不超过限定的额度。如通过历史数据来进行未来医疗总费用的预测, 来与真实发生的数据进行比对, 通过多次验证, 如差距不大, 即可将预测数据作为未来医保人员的医疗费用的限定额度。

除了时间序列分析方法与聚类分析方法之外, 常见的预测类分析还包括关联分析、数据分类等。关联分析即找到数据之间的关联关系, 将各个数据库与业务系统产生的数据之间的关系建立起来, 即可对发现事物与事物之间的关联性, 最经典的案例即“啤酒与尿布”。同样在医保行业, 用户的账户信息、费用使用信息、门诊信息等都会存在内部关联。

数据分类即找出数据库中某组对象的共同属性, 便于进行统一管理, 避免重复记录信息加大系统处理负担。

孤立点分析, 在数据库中保存的数据, 有一部分可能是与普通的数据规则与数据模式相背的数据, 传统的处理方式即丢弃或者不予处理, 但是有些孤立点的数据里可能隐藏相当有价值的信息, 例如在保险欺诈的数据挖掘中, 对于孤立点的分析就至关重要。

对数据挖掘技术在医保行业的使用, 已有相应的成功案例, 可佐证其在这一领域的可行性与重要性。美国最大的医保公司, 利用数据挖掘技术中的模型成功找出未据实开具医疗凭证的医生, 为其节省了不必要的医疗费用支出近4000万美元。而美国的另一家医保公司HCFA, 刚通过利用数据挖掘技术的可视化系统, 有效避免了在医疗保险行业中的欺诈现象。

4 结束语

数据挖掘技术在医保领域的应用, 将能够从几个方面推动医保行业的持续健康发展。首先, 对于医疗参保人员来说, 其相应的政策变得不透明, 参保人员可以通过查询系统, 方便地了解到适合自身的投保标准, 选择相应的投保种类。其次, 对于医保管理中心的工作人员来说, 能够有一个更优化的平台进行各项繁杂业务的处理, 有效提高工作效率与工作质量。再次, 对于决策层来说, 通过数据挖掘提取出的预测信息, 能够自定义其关注的主题、专题等, 对于医保人员的总体费用、各项费用所占比例等进行多维分析, 为控制医疗费用、监管及政策制定等提供科学的数据依据

参考文献

[1]纪玉山, 李晓林.对我国城镇职工社会医疗保险改革的再认识.经济视角, 2006 (5) :38~40.

[2]王星, 谢邦星, 戴稳胜.数据挖掘在保险业中的应用.北京统计, 2004 (4) :50~51.

[3]张劲松, 保险公司数据挖掘技术应用探索.商场现代化 (学术版) , 2004 (12) :109~111.

网络交易数据挖掘分析系统设计 篇8

1 设计构思

1.1 网络数据挖掘技术

数据挖掘是在海量数据中发现隐含的数据规则, 网络数据挖掘是将网络资源中的数据根据数据内容、数据结构和日志信息进行数据挖掘。根据网络数据内容进行数据挖掘是将网页页面内容中包含的数据信息进行采集、分析和处理, 在网页数据中有文档形式的数据信息, 也有图像、音频、视频等形式的数据信息, 因此, 在进行网页数据采集时, 可根据数据形式的不同进行分类采集, 对于文档形式的数据信息可直接利用信息采集技术进行采集, 对于图像、音频、视频等形式的数据信息采用数据库技术, 将采集到的信息转化为结构化数据再进行数据挖掘。根据网络数据结构进行数据挖掘是对不同结构的网页、站点等进行结构分析, 找出数据规则,发现有价值的网页页面。根据网络日志信息进行数据挖掘是对用户访问网络所产生的访问日志信息进行挖掘, 这些信息包括用户的登录信息、注册信息、回话信息、Cookie等, 该挖掘方法可对用户的网络使用习惯、偏好等进行分析, 便于针对用户制定个性化服务。

1.2 系统功能分析

在此设计的网络交易数据挖掘分析系统主要包括3大功能, 即: 数据采集功能、数据分析功能和系统管理功能, 数据采集功能可对网络交易中的交易平台信息、行业信息、商品信息、销量信息、 交易记录等进行采集, 数据分析功能可对网络交易中的商品评价、商品查询记录、交易双方的基本信息、网络销售记录等进行分析, 系统管理功能是对系统的用户、功能、系统模块等进行管理, 同时可对系统的工作流程进行分析、定义和管理。

1.3 爬虫技术

爬虫技术是根据既定规则对网络中的数据进行采集, 爬虫技术的应用流程是: 首先, 对初始的网页进行采集和分析,在海量的网络数据中, 将符合既定规则的数据抽取出来, 直到符合抽取条件采集终止。根据爬虫技术的体系结构和技术类型大体可分为通用型网络爬虫技术、聚焦型网络爬虫技术、增量式爬虫技术、深层网络爬虫技术。 通用型网络爬虫技术立足于整个网络, 其采集类型广泛, 抓取内容全面, 但是其不适用于随机变换网页内容的网页进行采集, 聚焦型网络爬虫技术是根据既定好的采集主题进行专向采集, 该种方式节省采集时间, 适用于特定需求的采集, 增量式网络爬虫技术是在通用型网络爬虫技术的基础上增加随机性网页内容采集,深层网络爬虫技术是对深层网页进行数据采集, 此采集方式可对普通采集技术难以采集到的内容进行挖掘。

2 系统设计

2.1 系统结构

系统采用B/S三层结构进行设计, 分为应用层、业务层和数据层。用户层提供用户友好界面, 通过Web浏览器直接访问系统平台, 调用数据库数据, 系统层次结构设计如图1所示。

用户通过应用层进行数据的输入与输出, 业务层是数据挖掘系统各项功能的实现层, 其通过模块的方式实现应用层与数据层之间的衔接, 数据层进行数据存储。

2.2 系统模块

网络交易数据挖掘系统模块主要分为数据采集模块和数据分析模块。数据采集模块首先对网络交易涉及的网页进行一个模拟浏览器的操作, 然后通过给定的URL来分析网页的结构, 对于普通页面 , 采用基本 的Http Client方式获取 , 特殊页面要进一步地进行判定, 是否为动态加载页面或者是需要进一步地交互获得数据的页面。对于动态二次加载信息的页面, 针对Java Script, Htmlunit提供了Web Client.get Options() .set Java Script Enabled() 方法来对Java Script脚本进行 解析。针对Ajax, 也提供了Web Client.set Ajax Controller() 方法对Ajax进行支持。因此, 对于动态二次加载信息的页面, Htmlunit可以直接对其进行解析。一些网站需要提交表单才能获取到网页信息, 而一些网站则需要登录等行为才能查看页面获取数据信息, 对于这两种页面, 在数据采集的过程中需要向服务器提交数据进行交互性的操作。对于这两种情况, 一般采用Http的GET方法 , 通过提交自定义的URL字符串进入登录状态, 但是对于带有验证码的等高级验证方式的Web网页则很难处理。Htmlunit可以很好的处理这类问题, 他通过模拟登录, 可以较为容易地获得这种需要交互才能获得网页信息的页面。

分析模块是对采集模块所采集到的数据进行分析, 系统用户在浏览器页面输入信息, JSP页面通过Request/Response响应, 首先对配置文件进行查询, 并依据配置文件的内容调用控制层的Command类, Command类则调用与数据库直接交互的类DAO, 通过对数据库的查询, 将查询到的内容依次通过DAO层返还给Command层, 下一步将内容返回到浏览器,这样用户就可以查看到所查询的信息。

2.3 数据库

网络交易数据挖掘系统数据库设计需具有良好的可用性和可靠性, 数据库可分为数据采集数据库、数据分析数据库和数据管理数据库。数据采集数据库中存放网络交易对象的基本信息、网络销售总额、 网络商品交易信息等, 数据分析数据库中存放行业信息、商品类别信息、品牌信息等, 数据管理数据库中包括用户姓名、职务、联系方式、访问日志等。

数据库的查询过程可以分成3个阶段: SQL语法语义的分析, Execute查询, 数据的提取。对于数据量较大的表来说,加快搜索与查询的效率则比较重要。首先, 合理地创建和使用数据库索引, 对于数据库中的表来说, 索引是必不可少的,同时索引的添加方式也深深地影响这数据的查询速度。合理的索引创建方式应该具有以下的特点: 主键与外键必须创建索引; 经常以其他表连接的表需创建索引; 对经常查询且重复值比较高的字段建立复合索引; 索引数量不宜太多。其次,对经常查询的数据建立视图, 对于经常使用而且不会对其进行插入和删除的数据, 建立视图, 从视图中查询频繁使用的数据, 减少了查询的复杂度, 查询效率较高。第三, 对于复杂的查询使用存储过程, 对于复杂的查询过程, 多个表相互连接并且设计多重循环的查询, 查询效率低, 可以使用存储过程减少其时间复杂度, 加快查询的速度。

3 系统实现

3.1 网络交易数据采集

网络交易数据采集可分别对网络店铺信息采集、商品信息采集、交易记录采集、行业信息采集等。 网络交易数据采集实现步骤主要包括对网页结构及内容分析, 找出可行的采集规则, 一般采集网店基本信息、商品列表URL、交易记录等内容。

3.2 网络交易数据分析

在对网络交易数据分析中, 商品推荐功能是对已经采集出来的商品, 根据某一准评价标准, 得出其受欢迎程度, 并将受欢迎的产品推荐给用户的过程。商品推荐可以说是网上交易的数据挖掘系统中对用户最为重要的功能之一, 在这里用户可以获得第一手的受欢迎商品的具体情况, 并结合自身的需要, 选购适合自己的商品。网上交易的数据挖掘和数据分析系统的分析模块实现的另外一种比较重要的功能是商品的查询, 为了适应不同的查询条件, 我们根据用户大部分的使用习惯, 采用了商品名称查询和网店名称查询两种 方式。由于用户的需求不同, 我们可以根据查询条件来进行商品的选择。一种方法是采用输入商品名称的方法, 将输入的商品名称与后台数据库中的商品进行对比, 做一个模糊的查询操作, 点击查询后, 查询出所需要的商品; 另一种方式为按照店铺查询, 当用户对某一个店铺特别感兴趣时, 可以对该店铺进行一个单独的查询, 在文本框内输入要查询的网店名称,系统自动与数据库中的数据进行匹配, 检索出采集到的该网店的所有商品信息, 并用Grid视图的方式呈现给用户。

3.3 网络交易数据挖掘

网上交易的数据挖掘分析系统中的交易数据挖掘主要针对的是网上商品的销售趋势进行挖掘和分析, 其采用一个折线图的形式表达, 它是对以往采集的数据信息做的一个汇总分析。对于用户来说, 对某一个商品的销售趋势的了解, 可以让他们对网上交易进行一个基本的了解, 获得一个准确的评价。显然, 对于销售额持续上升而且销售量巨大的 商品 ,用户对其的信誉评价更高。网上交易的数据挖掘分析系统就是针对用户的这种消费心里, 为用户提供查询商品网上交易趋势的功能, 用户在文本框中输入要查询的商品名称, 点击查询, 则下面的折线图显示的是自该系统开始运行时起, 每隔30天的月销售总额变化趋势。

4 结语

网络交易数据挖掘系统对于消费趋向、消费水平、产品市场、消费人群等具有良好的调查于分析能力, 本文所设计的系统选择网络爬虫技术对网络交易数据进行采集, 建立数据采集模块、数据分析模块, 通过B/S层级架构实现系统功能, 为广大企业经营者、金融机构、数据分析机构等提供网(下转第58页)络交易数据挖掘的精准服务

摘要:信息技术发展使人们的生活进入了数据时代,电子商务是近几年迅速发展的新型贸易和经济活动的方式,并逐渐在各行各业中渗透,网络交易越来越频繁,由此形成了海量的交易数据。通过对网络交易数据的挖掘分析可以获得重要的市场信息,帮助企业制定销售计划。设计一套网络交易数据挖掘分析系统,采用B/S三层架构模式,设计数据采集、数据分析模块,实现依据用户需求进行数据采集、分析和挖掘。

数据挖掘系统 篇9

数据流 (data stream) 应用的出现引起了国内外专家和学者的关注, 数据流管理技术作为一种新兴的技术已经被广泛的研究, 目前通用的DSMS (data stream management system) 包括Telegraph CQ[1], Aurora[2]和STREAM[3]。

数据流的查询过程是持续的查询 (continuous query) [4], 持续查询所关心的并不是全部的数据, 而是近期最近到达的部分数据, 所以数据流中的持续查询采用滑动窗口 (moving window) 机制, 基于滑动窗口的查询。

本文基于通用流数据库[5,6], 构建一个空间数据流系统模型。在此过程中, 借鉴交通导航应用开展工作。这里的空间流数据库模型系统的主要工作仅包括增加空间数据类型、空间滑动窗口和空间谓词, 为了实现简单易懂的空间连续查询语言, 本文在设计时, 尽量和原有的空间数据库查询语言和连续查询语言做到统一。本文依据标准SQL和CQL设计空间数据类型和空间谓词, 并参考OGIS标准, 尽量不修改原有查询语言的结构, 采用通用的空间数据类型表示方法, 通过增加通用的关键词的方式, 扩展连续查询查询语言。

2 空间数据类型扩展

我们考虑交通导航LBS (Location Based Service) 应用, 在这种应用中, 需要知道移动对象前方道路的交通状况, 根据交通状况选择合适的运行路线。假定每个移动对象每隔30秒向导航服务中心报告移动对象当前的速度和位置信息。前方的交通状况由运行在前方的一定范围的移动对象数量和这些移动对象的平均速度来决定, 数量多并且平均速度小于40km/h就表示交通状况差, 否则交通状况良好。随着移动汽车位置的改变, 其维持的空间查询窗口也在不断的改变位置, 如果设计一种空间滑动窗口, 使之能够随着移动对象的改变而改变, 就可以解决这个问题。

根据例子应用的需要, 拟增加的空间数据类型有Poin和SSwin两种。Point用来表示一个移动对象, 而SSwin用来表示一个空间滑动窗口。

(1) Point[x:float, y:float], 在这里Point表示某个移动对象, 它的值为移动对象的二维空间坐标;

(2) SSwin[Point1, Point2], 表示某一空间滑动窗口, 为了简化问题, 此处的SSwin, 仅表示一个矩形的空间滑动窗口, 由两个Point标识。

3 增加空间滑动窗口查询函数

为了支持空间查询, 需要增加空间谓词和空间函数, 本文需要增加空间函数Inside, 用来判断空间移动物体是否在空间滑动窗口内。

(1) Inside (Obj, SSwin)

这里的SSwin表示空间滑动窗口, Obj表示移动对象位置, 此运算符的结果为整型, 当Obj在SSwin的内部时, 其值为0, 否则, 返回值为1。

(2) 空间滑动窗口的连续查询

通过以上增加了空间数据类型和空间谓词以后, 流数据库可以支持空间滑动窗口的连续查询。粗体字部分表示本文增加的空间谓词:

4 空间滑动窗口查询的实现

本文的空间流数据库模型的实现工作是基于STREAM流数据库管理系统, 通过修改此系统的代码, 实现空间流数据库系统。此系统是斯坦福大学开发的一个的通用的流数据管理模型。此数据库管理系统模型是开放源代码的。它能够处理对多个连续的数据流和存储关系的连续查询。它提供大量的复杂流查询, 用来处理高容量和高突发性的数据流。它提供丰富的连续查询语言, 有良好的交互操作界面。

本文的实现是要在流数据库管理系统的基础上进行扩展, 虽然仅是对原有系统的扩展, 但是需要做的工作仍然涉及到整个数据库管理设计的全过程。一个数据库管理系统的设计包括一系列的阶段, 一般遵循以下的顺序。同时以下这些步骤也是实现此空间流数据库的过程中, 主要的工作:

(1) 生成词法分析树:由抽象的查询语言生成词法分析树, 这个过程是数据流管理系统实现的最初阶段。根据上节定义的空间连续查询语法, 在本文的空间数据流系统中, 用Yacc生成查询语言的语法分析树。

(2) 语义分析:对词法分析树进行语义分析, 将词法分析树转换为系统能够识别的内部表示。这一步生成的语义表示仍然不是一个操作符树。这个过程的设计主要是将空间数据类型和空间谓词转换为系统能够识别的形式, 具体的实现类似于算术表达式的语义转换。

(3) 生成逻辑计划:将查询的内部表示转换为逻辑查询计划。逻辑查询计划由逻辑操作符组成。逻辑操作符大多是关系代数操作符 (比如选择、投影、连接等) , 当然也有一些连续查询特有的操作符 (比如滑动窗口操作符) 。逻辑操作符不需要和查询执行中的操作符有关, 它仅仅是一种关系代数的抽象表示。

(4) 生成物理计划:将逻辑查询计划转换为物理查询计划。物理查询计划中的操作符是直接和在查询执行期间执行的操作符相关的。之所以要生成一个单独的逻辑查询计划, 是因为逻辑查询计划更加容易生成, 而物理查询计划涉及到底层细节。

(5) 查询执行:组织存储空间的分配, 物理操作符的执行等。

5 实验

5.1 LBS运动模型

构造如图1所示的导航应用, 移动汽车每30秒向导航中心报告当前位置信息和行驶速度并且进行空间滑动窗口的聚集查询, 这里我们主要涉及count和avg聚集查询, 分别计算滑动窗口内汽车数量和平均速度。移动汽车根据查询结果了解前方路况, 以起到交通导航的作用。

5.2 输入设计

(1) Mov Car

Mov Car的结构如表1所示。

(2) Spa Sli Window

空间滑动窗口 (Spa Sli Window) 数据流, 该数据流包含空间滑动窗口标志信息和空间滑动窗口位置信息如表2所示。

5.3 空间滑动窗口查询设计

上一节中构造了两个输入数据流, 分别模拟移动汽车信息数据流和空间滑动窗口数据流, 下面编写空间滑动窗口查询的脚本语言, 该查询脚本基于前面分析的简单的交通导航应用以CQL (持续查询语言) 编写, 脚本文件如图2所示。

5.4 结果输出

注册了输入数据流, 并且定义了空间滑动窗口查询之后, 经过我们设计的空间流数据库模型的处理得出图3和图4所示的结果。图3所示导航查询结果, 可以看出, 在61时刻的滑动窗口3内有6辆移动汽车, 汽车平均速度为34.1667km/h, 小于40km/h, 满足查询条件, 由此汽车A得知此刻前方路段交通状况差, 可以采取积极的应对措施, 绕过此拥挤的路段。图4所示每个查询时刻对应空间滑动窗口内的汽车信息, 可以看出, 1时刻的空间滑动窗口内有移动汽车A、B、C、D、E, 31时刻的空间滑动窗口内有移动汽车A、B、C、D, 61时刻的空间滑动窗口内有移动汽车A、B、C、D、E、F, 91时刻的空间滑动窗口内有移动汽车A、B、C, 121时刻的空间滑动窗口内有移动汽车A、C。

6 小结

本文结合交通导航应用对数据流系统进行空间扩展, 扩展了空间点和空间滑动窗口, 及基于空间滑动窗口的查询操作, 并依据数据库的设计步骤, 实现了空间数据流系统。以导航应用为例, 构造了一个基于空间滑动窗口的运动模型, 通过试验分析, 输出的结果均符合我们设计的运动模型。

摘要:数据流系统以连续查询为特点, 连续查询的处理机制能够保证数据处理做到实时处理。但是现有的通用的数据流系统没有对空间数据处理的支持, 而基于位置服务显然是一种需要空间数据处理的应用。本文从支持位置服务的后台数据处理出发, 提出用基于数据流系统的流数据库来支持基于位置服务的数据处理的思想, 并结合当今数据流系统的发展和基于位置的服务的需求, 对数据流系统进行空间扩展, 提出一种空间数据流系统的模型。

关键词:数据流,空间连续查询,LBS

参考文献

[1]Sirish C, Owen C, Amol D, Michael JF, Joseph MH, Wei H, Sailesh K, Samuel RM, Fred R, Mehul AS.TelegraphCQ:Continuous dataflow processing[R].In:Alon YH, ed.Proc.of the2003ACM SIGMOD Int’l Conf.on Management of Data.New York:ACM Press, 2003.668—668.

[2]Daniel JA, Don C, Ugur C, Mitch C, Christian C, Sangdon L, Michael S, Nestime T, Stan Z.Aurora:A new model and architecture for data stream management[J].The Int’l Journal on Very Large Data Bases, 2003, 12 (2) :120—139.

[3]A.Arasu, B.Babcock, S.Babu, M.Datar, K.Ito, I.Nishizawa, J.Rosenstein, and J.Widom.STREAM:The stanford stream data manager[J].IEEE Data Engineering Bulletin, 2003, 26 (1) :19—26.

[4]Shivanath B, Jennifer W.Continuous queries over data streams[J].SIGMOD Record, 2001, 30 (3) :109—120.

[5]姜芳艽.DBMS与DSMS的比较研究.微计算机信息, 2007.2, 3:33-36.

数据挖掘在医院信息系统的应用 篇10

技术背景

数据挖掘

随着信息技术的发展, 数据和信息大量出现和积累, 如何从存储和出现的可能含有大量冗余信息中提取有用的, 有价值的知识成为信息技术包括计算机技术和网络技术研究的重要问题, 出现了数据挖掘技术, 及其相关理论和方法用来研究这类问题。

医院信息系统

医院信息系统就是在新的信息技术, 计算机技术, 网络技术迅速发展和普及的条件下, 利用计算机和通讯设备以及网络技术, 为医院各部门提供病人诊疗信息和行政管理部门提供管理信息的收集、存储、处理、提取和数据交换的能力, 并满足所有授权用户的功能需求的信息系统。

医院信息系统信息数据的特点

随着医院信息系统的发展, 出现了大量的“以病人为中心”医疗信息数据和以管理人、财、物为中心的管理信息数据。对于这些大量出现的医院信息系统数据, 数据的收集存储处理从数据库发展到数据仓库, 信息数据的提取以及数据信息的处理, 数据挖掘技术在医院信息系统中得到应用, 辅助诊断以及远程医疗等的发展需要对这些数据尤其医疗数据进行分析, 这里介绍以下医院信息系统信息数据的特点。

海量数据

医院信息系统的发展和普及, 出现了大量的信息数据, 这些数据不仅有医疗数据, 还有管理方面的数据。大量出现的医疗数据以及管理数据不仅要满足医疗辅助诊断的需要, 随着医疗信息化的发展还要满足远程医疗和辅助教学等的需要。大量的数据存储和交换, 提取等信息处理过程, 数据挖掘技术在医院信息系统中得到应用。

多态性

这些需要医院信息系统处理的数据不仅有文字, 数字, 文本等形式的数据, 还有图片, 动画, 音频, 视频等形式的信息数据。图片有CT, MRI图像等多种形式和各种计算机图片形式, 比如jpg, bmp, dib等。医院信息系统需要处理的信息数据形式多样, 具有多态性的特点。

不规范性

大量的具有多态的信息数据, 需要以规范的形式来表述和描述。比如对于一些医学图像有DICOM标准等, 在具体的医院信息系统也有一定的规范来约束。数字、文本形式的数据也有一定规范性要求。尽管如此, 大量的多种形式数据处理要求, 不规范性问题仍然是医院信息系统需要重视的一个问题。

不完整性

由于现实条件的有限性, 使一些医疗信息不能全面地正确反应。同时主观条件的一些约束使市医院信息系统的数据存在不完整性。

冗余性

对于具体的使用, 可能仅仅需要部分或阶段的信息数据, 一些数据变得冗余, 因而医院信息系统需要处理的一些数据具有一定冗余性的特点。

面对医院信息系统的诸多数据特点, 数据挖掘技术在医院信息系统中得到应用;医院信息系统的医疗数据的诸多特点决定了医疗数据挖掘的应用特点。

数据挖掘在医院信息系统中的应用的关键技术

数据预处理:面对医院信息系统中含有海量的、不同来源、多态的包括大量模糊的、不完整的、带有噪声和冗余的原始信息数据, 在数据挖掘之前, 对这些信息进行数据预处理, 以确保数据的一致性和确定性, 以及提高医疗数据的完整性和规范性, 将其处理成适合医疗数据挖掘的形式和方式。

规范性和完整性处理:即医疗信息数据的融合技术处理。面对诸多不同来源、多态的, 多源的必须进行相应处理, 使其在属性和表现形式上趋于一致和合理。广义地称其为医疗信息数据融合技术处理, 狭义地有比如医学图像配准融合等。

医疗数据挖掘算法:医疗数据挖掘算法具有一般数据挖掘算法的特点, 又由于医疗数据的一些特点, 因为具有医疗数据挖掘的鲜明特征, 比如因医疗数据的大小, 格式而决定的医疗数据挖掘算法的鲁棒性, 适用性和实用性。

可靠性和安全性:医疗数据挖掘的数据来源必须具有可靠性的特点, 在进行医疗数据挖掘时结合数据库以及数据仓库和医疗数据的一些技术特点具有数据挖掘的数据安全性设计考虑。

医院信息系统应用数据挖掘的主要算法

医院信息系统应用数据挖掘的主要算法有分类、聚类、关联、预测、公式发现、模糊逻辑、描述和可视化等。对疾病按照种类通过建立训练集进行分类, 常见算法有决策树、神经网络、贝叶斯算法等;把具有某些相似特征的疾病或功能部门集中到一个类别中进行聚类;通过关联规则, 我们发现医院信息系统中一些医疗数据之间的关联性, 从而找出之间的联系和规律, 为疾病诊断和辅助诊断找出途径, 提供方法和手段;通过一些统计学预测方法, 及早预测出疾病的规律, 为疾病的治疗提供信息和途径;对一些临床数据, 通过公式发现摸索出规律, 并进行模糊逻辑分类;对一些医院信息系统数据进行描述和可视化, 是一种对医院信息系统数据挖掘的表示。数据挖掘在医院信息系统中的应用根据目的和目标的不同, 采用的算法相应变化, 随着新的信息技术, 统计学, 人工智能算法的发展而不断充实发展。

数据挖掘在医院信息系统中的应用意义

医院信息系统是利用现代的信息技术, 计算机技术和网络技术, 面对大量的医疗和管理信息数据进行收集、存储、处理、数据交换和提取等信息处理过程的信息系统。随着医疗信息化的进程, 面对的诸多需要处理的医疗信息数据和相应的管理信息数据, 以及随着时间推移存储的大量需要处理的数据, 提取和数据交换工作的需要和要求, 医疗数据挖掘技术在医院信息系统中得到应用。对大量的、模糊的、不确定的、不规范的医疗数据, 结合数据挖掘技术的特点, 对这些进行医疗数据挖掘具有重要意义, 是医疗数据的特点和特征要求, 也是医院信息系统进行数据挖掘适应信息化发展的要求和结果。数据挖掘技术扩展了医院信息系统的发展空间, 推动了医院信息系统数据处理的效率和方式的发展。数据挖掘在医院信息系统的应用是随着信息技术和医疗信息化发展的而出现的。医院信息系统中数据挖掘的应用, 将医院信息系统中的大量的、模糊的、不确定的、冗余的数据进行处理, 具有使医院信息系统中的数据具有高层管理、高层智能的作用, 将需要人工的工作通过数据挖掘变得清晰、确定、简洁地提供给医院信息系统的使用者, 大大减轻了使用者的工作强度。

结束语

数据挖掘系统 篇11

【摘 要】分析高校现行信息化系统的功能模型,指出其应用的局限性,提出一种基于数据挖掘的信息化系统模型。

【关键词】数据挖掘 信息化 系统模型

【中图分类号】 G 【文献标识码】A

【文章编号】0450-9889(2014)01C-0051-02

教育信息化是指在教育领域运用计算机多媒体和网络信息技术,促进教育的全面改革,使之适应信息化社会对教育发展的新要求。教育信息化的核心内容是教学信息化。为此各级教育部门,特别是各高校在过去投入了大量的财力,构建了各种信息化设施,以校园网络系统为平台,开发了教务信息系统,学生工作管理系统,招生就业系统,工资管理系统,学籍管理系统,这些系统简洁易懂、功能实用,大大地加强学校信息化管理水平,提高了工作效率。但由于历史原因,这些系统功能相对独立,扩展能力差,大多数的应用仍然限于查询、检索的简单应用上,效率低下。

经过多年的应用,每个学校的信息系统都积累了海量的数据,存储于系统中,而这些数据并没有得到充分的利用,因为大多数的信息化系统只执行了存储、查询、检索等基本功能。数据中隐藏的丰富的知识和规律并没有得到充分开发和利用,这些积累的数据就像埋藏在大山中的金矿,必须充分开发出来,为决策人员提供帮助,才能充分发挥其价值。因此通过技术手段,改进信息系统的结构和功能,使管理和应用人员能从大量的数据中挖掘出有用的知识和规律,并把这些知识用于管理决策、教学计划制定、招生就业决策、图书馆管理等。

建设信息化公共支撑环境,提升公共服务能力和水平,如何利用现有的数据,挖掘出有用的知识,为管理部门、决策人员、学生提供帮助,是信息系统的重要任务。通过充分利用数据挖掘技术处理高校信息化系统中的海量数据,挖掘出有价值的知识和规则,并将其反馈到教学和管理决策中,提升学校服务和管理能力。

本文将在分析现在信息系统的基础上,对其局限性进行分析,并提出一种基于数据挖掘的信息化模型,并分析其有效性。

一、高校信息化系统模型

(一)传统的高校信息化系统模型

当前教育信息化系统的结构如图1,包括系统硬件平台、数据存储模块、数据库或数据仓库模块、数据分析查询模块、图型用户接口五大部分,主要的功能是收集信息,通过转换,存储数据,把数据存储到数据库中,用户通过读写分析、查询模块进行操作,系统为用户提供信息的存储、共享和检索服务。随着数据的增长,信息系统存储了海量的数据,其中隐藏着大量的知识和规律,通过简单的检索是无法得到的。

图1 传统的高校信息化系统模型

(二)数据挖掘下的高校信息化系统模型

基于传统信息系统的不足,提出基于数据挖掘的信息系统改进模型,如图2所示,它是在传统模型的基础上,加入数据挖掘模块,通过它,可以从长期积累的数据中,挖掘出隐藏的知识和规律,为系统用户解决问题、管理决策提供支持,发挥信息系统的潜力。

图2 数据挖掘下的高校信息化系统模型

(三)数据挖掘模块及技术分析

数据挖掘的任务是从现有数据进行分析,通过分析,获取事先未知的知识和规律,如数据记录集合聚类分析,异常记录和赖关系(关联规则),数据挖掘的一般过程如图3所示。

图3 数据挖掘过程

数据模块中采用的几项典型技术如下:

1.聚类分析。聚类是把一组数据对象设计成一类,以便让同一类中的对象具有最高的相似性。而类间具有最大的差异性,这种方法被用于机器学习、模式确认、图象分析、信息检索等领域。

建立的每一个聚类可以看成是一类对象,通过它导出规则。聚类在教育中的应用能帮助机构组合学生个人相似的班,把学生分成类,以便使学生在一类中相互之间更相似,或者说水平更平均。

2.决策树。决策树是一种决策支持工具,它使用树型图显示可能的结果,包括概率事件结果和源的关系,成本和用途功用,它是一种方式显示一种算法。决策树常被用于行为研究特别是决策分析,去帮助识别一种策略,主要是要达到的目标;决策树作为一种描述性工具手段用于计算条件概率;决策树还可以用于分析一个机构的准入规则。同时它对小数据样也能给出好的结论。这种方法能适用于不同数量级的编目变量。

3.关联规则。反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示规则形式。

4.分类。找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象。

5.回归。通过构造函数以符合数据变化的趋势,这样可以用一个变量预测另一个变量。

二、数据挖掘在高校信息化中的应用概述

在高校信息系统中进行数据挖掘称之为教育数据挖掘,教育数据挖掘的关键领域是挖掘学生的表现行为;另一个关键区域是挖掘录取入学数据;关键应用是预测学生表现和研究其学习状况,以便推出措施用于教育实践。主要应用如下:

(一)在教学评价方面的应用分析

高校信息化系统长期运行中产生了海量数据,学籍数据、考勤纪律、招生就业、奖惩等各方面的数据累积在信息系统中,通过使用数据挖掘技术可帮助教师、学生、学校管理决策者有效地利用这些数据,建设有效的评价系统。

(二)学生特征分析

根据系统中已有学生的基本信息、成绩信息、学习过程数据、偏好、知识结构等,利用数据挖掘功能分析学生特征,从获取的知识帮助学生修正自己的行为。教师利用挖掘到的知识帮助学生修正学习行为、提高学习能力。

(三)协助合理设置课程

通过对学校积累的数据使用数据挖掘技术,如关联规则,时间序列分析等相关技术,挖掘出有用的知识,寻找到影响学生成绩的相关因素,如教师因素,课程安排因素等,教学管理者可以设置合理的课程,合理安排教师组合。

(四)就业预测分析

通过对历史中毕业生的就业数据进行数据挖掘,对毕业生就业因素的相关性进行分析,如综合成绩,英语成绩,计算机成绩,是否学生干部等,对学生能否就业的影响因素进行挖掘,得出毕业生的就业预测模型,这样可以对学生未来是否能就业,对就业作出预测,对就业好的学生类型推广,对不易就业的学生类型,修改培养方案和模式。

(五)图书馆应用

图书馆是高校的信息服务机构,馆内具有大量的信息,经过多年的运行,这些信息以海量计,可以通过数据挖掘技术对数据进行处理,为师生提供更好的服务。

数据挖掘可以对读者类型、文献类型、借阅次数等方面的信息进行挖掘研究,提高检索速度,通过改进信息检索程序来提高信息检索的速度和有效性,为不同的读者提供定制服务,拓展服务方式,提高服务质量。

教育数据挖掘已经成为热门的研究领域,因此很多为数据挖掘开发的工具也不断出现。数据挖掘技术在学校中能帮助我们去发现学生的表现,学生的学习习惯,帮肋课程设置,激励学生,挖掘出学生分组的依据,帮助就业决策;同时也发现,现行的数据挖掘工具对教育工作者来说太复杂。如何开发一种简便的算法工具,使之能应用于不同的任务,并能设置自由参数,简化应用,使非专业人士可以应用是急需解决的问题。

【参考文献】

[1] 刘琼梅.浅谈数据挖掘在高等教育信息化中的应用研究与展望[J].福建电脑,2010(4)

[2]陈洁.校园信息化建设应用的数据挖掘研究[J].科技风,2012(9)

【基金项目】新世纪广西高等教育教学改革工程立项项目(2012JGA384)

【作者简介】尧有平(1964- ),男,广西电力职业技术学院副教授,研究方向:计算机技术、数据库技术、数据挖掘技术;陈星豪(1980- ),男,CCF会员,硕士,广西电力职业技术学院讲师,研究方向:计算机技术。

浅谈数据挖掘网络服务系统 篇12

关键词:数据挖掘,网络服务,系统

1 研究背景及现状

随着信息化社会的到来、知识经济的发展, 当今世界正进入一个以强大的知识创新、科技创新、人才创新体系为后盾的知识经济时代, 如何从海量的数据中提取有用的知识来提升营运效率与竞争优势, 是各个企事业组织当务之急的事情。目前信息科技的发展日新月异, 使得庞大资料的储存成为可能, 各个企事业组织纷纷着手建构自已的数据库 (Database) 系统或数据仓储 (Data Warehouse) 等设备, 以数字化 (Digital) 的方式储存庞大的各种类型的资料。但未经处理的资料对于企事业组织来说并没有太大的用处, 许多珍贵的信息或知识可能就因此被埋没在这些资料之中, 而这样为数惊人的资料也难以运用传统方式进行处理。因此, 若能有系统地处理储存于数据库中的资料, 将归纳整理出的信息转换成为对于企事业组织有用的信息, 配合适当的策略应用, 将能协助企事业组织掌握竞争优势。而近年来, 数据挖掘 (Data Mining) 相关技术的出现, 为大量数据处理分析的课题带来新的希望。目前市面上已有许多独立软件开发厂商 (Independent Software Vender, ISV) 以及应用软件服务供货商 (Application Service Provider, ASP) 针对一般企业组织在数据挖掘上的需求, 推出套装数据挖掘软件或是数据挖掘相关的服务与技术支持。然而, 当企事业组织在使用这些软件或服务时, 将会遇到系统兼容性、资料挖掘流程的缺乏弹性、应用程序服务整合及维护不易等问题。

2 研究目标、内容及创新点

本文讨论的是以网络服务 (Web Service) 为基础的《动态流程数据挖掘网路服务系统》 (Dynamic Data Mining Web Service System;DDMWS System) 的架构, 目的是降低企事业组织在导入资料挖掘技术时所需要的门坎。在网络服务的架构下, 数据传输的格式均以具有开放性与结构化等优点的XML (可延伸性标示语言, Extensible Markup Language) 格式文件传递, 克服传统数据挖掘过程中可能遭遇到的系统整合与兼容性问题, 最终提出一个合理且可行的数据挖掘系统的模型。其创新点是在实现的该架构之下, 数据挖掘流程是由多个功能各异的网络服务活动组件 (Activity Component) 构成, 可根据使用者的需求调整其组成顺序;此外还以BPEL4WS (网络服务业务流程执行语言, Business Process Execution Language for Web Service) 作为描述流程相关细节的工具, 提供一个系统化的方式记录流程的各方面细节, 以作为后续修改或建立类似流程的参考。

3 研究方法

一般的独立软件开发厂商 (ISV) 或应用软件服务供货商 (ASP) 虽然能够提供使用者数据挖掘的服务, 但是仍有其不足之处:异质系统间兼容性的问题以及缺乏根据用户需求动态规划客制化流程的能力。为了解决以上这些传统数据挖掘软件包或服务的缺失, 将以Web Service架构为基础, 将数据挖掘过程中的程序视为由一系列的Web Services所构成, 并透过动态工作流程的概念, 以叙述Web Service流程的BPEL4WS语法, 根据实际需求自行编排资料挖掘Web Service的整体流程, 透过流程中各个Web Service的执行来达成用户的目标。

4 技术路线

1) 导入Web Service与XML相关技术作为基础, 克服在传统数据挖掘流程中所遭遇到的资料兼容性问题。由于在Web Service标准下所流通的XML格式资料具有开放标准、结构严谨等优点, 能确保企事业组织中各异系统之间的资料传输上更加简便;

2) 以工作流程的观念作为基础, 结合Web Service流程描述语言BPEL4WS, 有系统地提供在数据挖掘流程中关于活动、流程顺序等各方面细节的描述。除此之外, 以BPEL4WS格式所表达流程的相关信息, 对于日后流程的修改再利用、或者是类似的新流程在设计规划上具参考价值。

3) 在数据挖掘流程中各步骤的演算活动是由多个功能各异的Web Services组件所组成, 在日后因需求改变而使数据挖掘流程必须进行更新及修改时, 较传统数据挖掘软件更具有流程变动上的弹性;

4) 以统一且公开的数据挖掘模式描述语言PMML, 作为描述数据挖掘模式的工具, 不但是以具系统化的方式描述数据挖掘模式, 并且提供用户日后在其他软件重新建置原有模式的参考。

5 实施步骤

1) 归纳文献中对于数据挖掘流程概念、工作流程管理的作法、W3C所提出的SOA架构, 发展出一个以Web Service作为基础的DDMWS架构;

2) 在此架构中, 应用具有流程概念的BPEL4WS, 对于数据挖掘流程中功能各异的Web Services之细节加以描述, 并结合PMML作为描述数据挖掘模式的工具;

3) 系统开发及系统验证。

6 结语

数据分页显示只要解决好数据的呈现、导航链接的呈现、当前状态信息、在服务器端捕获客户端发生的事件和客户端当前的状态并做出正确的响应、客户端保存的信息, 那么我们就可以顺利的完成系统开发和系统的验证功能。

参考文献

上一篇:严重困难下一篇:摄影创作中光的表现