数据挖掘工具

2024-09-19

数据挖掘工具(通用11篇)

数据挖掘工具 篇1

摘要:介绍了数据挖掘的定义、过程以及数据挖掘的功能、应用和发展前景。

关键词:数据挖掘,大数据,信息

随着互联网与信息技术的发展,数据已经渗透到当今每一个行业和业务职能领域,数据的爆炸性增长预示着“大数据”时代已经降临,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,都将开始这种进程。数据挖掘正是这一进程进步发展的重要力量。

1. 数据挖掘的定义

数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。

数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持[1]。

2. 数据挖掘的过程

数据挖掘的最终结果是从大量数据中发现可用的知识,这一过程一般包括数据准备、数据挖掘、结果表达与解释三个阶段,如图1所示。

数据准备是数据挖掘中的关键一环,它直接影响到数据挖掘的效率、精准度以及所得模式的有效性。该阶段可分为数据集成、数据选择、数据预处理三个子阶段。数据集成是把多个不同的数据源合并处理成一个共同的数据源,清洗脏数据、处理数据中的遗漏、解决语义模糊性等。数据选择就是决定并选出需要分析的数据,即目标数据,缩小处理范围,提高数据挖掘质量。数据预处理通常包括消除重复数据、消除噪声、遗漏数据处理、数据类型转换等,目的是把数据处理成适合于数据挖掘的形式,并在数据选择的基础上对挖掘数据做进一步的约简,减少内存资源和处理时间,使挖掘更有效。

数据挖掘是根据数据特点和结果知识表达方式选定某一适合的数据挖掘算法(分类、聚类、回归、关联等算法),把数据中潜在的有用的模式搜索出来。它是整个挖掘过程中最为关键的一步,也是技术难点。

结果表示是把所有最终经挖掘发现的知识直观地通过可视化技术展示给用户,以帮助用户理解和解释数据挖掘的结果。若结果不能满足挖掘任务的需要,则需要重新进行以上的挖掘过程。

在理解数据挖掘过程的这三个步骤时,应注意以下几点:第一,数据挖掘只是整个挖掘过程中的关键一步;第二,不但所选用的数据挖掘方法可以影响挖掘质量的好坏,所挖掘数据的数量和质量同样会决定挖掘结果的成败。如果在挖掘过程中选取了不适当的甚至是错误的数据,或者是对数据进行了错误的处理,挖掘结果都不会成功;第三,整个挖掘过程是一个不断反馈、循环往复的过程。例如,在挖掘过程中用户发现由于目标数据或者是挖掘方法的原因而产生了不理想的挖掘结果,此时都需要重复以前的挖掘过程,甚至重新开始;第四,在数据挖掘的每个阶段,可视化技术都起着重要作用。在数据预处理阶段,为了更好地选取目标数据,用户需要对所选数据有一个初步的了解,此时可以用直方图、散点图等统计可视化技术来显示相关数据;在数据挖掘阶段,用户可根据具体研究领域的不同选择相关的可视化工具;在结果表示阶段,可视化技术的选择应该考虑到可以使发现的知识易于表达和理解[2]。

3. 数据挖掘的功能

数据挖掘功能一般可以分为预测和描述两类[3]。预测性挖掘是对目标数据进行推算处理,进而达到预测的目的。描述性挖掘则是用来刻画目标数据集合的普通特性。概括起来,数据挖掘功能主要包含以下几个方面:分类、聚类、偏差检测、概念分析、概念描述、信息摘要、关联分析、时序演变分析和元数据挖掘。

数据挖掘功能一般是与目标数据类型相关联的。一些功能可以用在多种不同的数据类型上,而一些功能只能用在某一特定的数据类型上。因此在确定数据挖掘任务时,必须综合考虑目标数据类型、数据挖掘功能和用户的兴趣。

4. 数据挖掘的应用

由于数据挖掘可以从大量数据中发现原来未知的信息和知识,在当下的大数

据时代,它给庞大的数据资源赋予了新的含义,它们不再是难以处理的垃圾,而是不可或缺的资源。以下主要从三个方面介绍数据挖掘在一些领域中的应用。

(1)在DNA分析中的应用

将基因的编码序列和非编码序列进行区分是进行基因研究的基础,两种序列的区分不但需要大量的实验,而且需要繁重的计算,所以在区分准确度和分类方法上如果能够有所提高,那么对于基因研究的贡献无疑是巨大的。将编码序列和非编码序列进行区分实质是一个分类问题,分类问题在数据挖掘中已经有了很多研究,可以使用比较成熟的分类算法对两种序列进行区分。

某些疾病不只与单个的基因有关,而是某几种基因组合起来共同作用的结果。此时可以利用数据挖掘中关联分析的方法确定在目标样本中同时出现的基因种类。由此人们可以发现各基因组以及基因之间的关系。

(2)在金融业中的应用

由于业务需要,金融业需要收集整理大量数据,这些数据通常比较可靠、完整和高质量,跟踪分析这些数据可以发现隐含其中的数据模式及特征,并由此得到某个客户或组织的金融和商业兴趣,进而察觉到金融市场的变化趋势。数据挖掘在金融领域中的应用主要包括数据清理、金融市场分析与预测,账户分类、银行担保和信用评估等。

(3)在市场业中的应用

数据挖掘技术应用在市场业主要体现在对消费者行为分析和对市场定位上。它基于市场营销学的市场细分原理,假定“消费者过去的行为是其今后消费倾向的最好说明”。通过收集处理有关消费者消费行为的大量信息,掌握特定消费个体或群体的消费倾向、消费需求和消费习惯,从而确定相应个体或群体下一步的消费行为,并以此为基础,对所识别出来的消费人群进行针对性极强的特定营销,这与传统的不针对特定消费人群的大规模营销手段相比,为企业大大节约了营销成本,获得了更好的营销效果,也增加了企业利润。

5. 数据挖掘的发展

数据挖掘的研究如日中天,目前,国内外很多公司、大学和研究机构都非常

看好数据挖掘的发展前景,并且在这个方面开展了深入研究。今后研究的热点可能有:数据挖掘与数据仓库相结合的研究,数据挖掘与数据仓库一体化的研究;对各种非结构化数据,如:多媒体数据、图形图像数据和文本数据的挖掘;研究Internet上的数据挖掘方法;研究专门用于知识发现的数据挖掘语言。

数据挖掘满足了大数据时代用户对信息的需求,随着大量的基于数据挖掘的面向用户的决策支持产品的不断问世,数据终将与能源、物质一样成为人类不可或缺的重要资源,也只有到那时,信息时代才会真正到来。

参考文献

[1]朱玉全,杨鹤标,孙蕾数据挖掘技术[M].南京:东南大学出版社,2006.11

[2]朱明.数据挖掘(第二版)[M].合肥:中国科学技术大学出版社,2008.11

[3]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004(2):246-252

数据挖掘工具 篇2

于我个人而言,所用的数据分析软件包括EXCEL、SPSS、STATA、EVIEWS。在分析前期可以使用EXCEL进行数据清洗、数据结构调 整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它 的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL的运行速度有时会让人抓狂。

SPSS是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万”甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软 件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判 别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、前沿的计量分析无能为力;第三,SPSS主要用于 分析截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。

STATA与EVIEWS都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA与EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA的扩展性较好,我们可以上网找自己需要 的命令文件(.ado文件),不断扩展其应用,但EVIEWS就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS较强。

综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。EXCEL适用于处理小样本数据,SPSS、STATA、EVIEWS可以处理较大的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性工作,而STATA、EVIEWS在这方面 较差;制图制表用EXCEL;对截面数据进行统计分析用SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,高级的计量分析用 STATA、EVIEWS,时序分析用EVIEWS。关于因果性

做统计或计量,我认为最难也最头疼的就是进行因果性判断。假如你有A、B两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)?

早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关 系,也可能是由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能 是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。

有两种解决因果问题的方案:统计的解决方案和科学的解决方案。统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与 未接受干预样本在效果指标(因变量)上的差异。需要强调的是,利用截面数据进行统计分析,不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果 只是干预与影响效果之间因果关系成立的必要条件而非充分条件。类似的,利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个 变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成立,因果关系的判定或 推断必须依据经过实践检验的相关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其中最经典的方法就是 进行“格兰杰因果关系检验”。但格兰杰因果关系检验的结论也只是统计意义上的因果性,而不一定是真正的因果关系,况且格兰杰因果关系检验对数据的要求较高(多期时序数据),因此该方法对截面数据无能为力。综上所述,统计、计量分析的结果可以作为真正的因果关系的一种支持,但不能作为肯定或否定因果关系的最 终根据。科学的解决方案主要指实验法,包括随机分组实验和准实验。以实验的方法对干预的效果进行评估,可以对除干预外的其他影响因素加以控制,从而将干预实施后的效果归因为干预本身,这就解决了因果性的确认问题。关于实验

在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差 异。随机分组使得两组样本“同质”,即“分组”、“干预”与样本的所有自身属性相互独立,从而可以通过干预结束时两个群体在效果指标上的差异来考察实验处 理的净效应。随机实验设计方法能够在最大程度上保证干预组与对照组的相似性,得出的研究结论更具可靠性,更具说服力。但是这种方法也是备受争议的,一是因 为它实施难度较大、成本较高;二是因为在干预的影响评估中,接受干预与否通常并不是随机发生的;第三,在社会科学研究领域,完全随机分配实验对象的做法会 涉及到研究伦理和道德问题。鉴于上述原因,利用非随机数据进行的准实验设计是一个可供选择的替代方法。准实验与随机实验区分的标准是前者没有随机分配样本。

通过准实验对干预的影响效果进行评估,由于样本接受干预与否并不是随机发生的,而是人为选择的,因此对于非随机数据,不能简单的认为效果指标的差异 来源于干预。在剔除干预因素后,干预组和对照组的本身还可能存在着一些影响效果指标的因素,这些因素对效果指标的作用有可能同干预对效果指标的作用相混淆。为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性——在对照组中寻 找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对——这可以保证这些影响因素和分组安排独立。

随机实验需要至少两期的面板数据,并且要求样本在干预组和对照组随机分布,分析方法就是DID(倍差法,或曰双重差分法);准实验分析用截面数据就 能做,不要求样本在干预组和对照组随机分布,分析方法包括DID(需两期的面板数据)、PSM(倾向性得分匹配法,需一期的截面数据)和PSM-DID(需两期的面板数据)。从准确度角度来说,随机实验的准确度高于准实验和非实验分析。

关于分析工具的选择

如果根据理论或逻辑已经预设了变量间的因果关系,那么就无需使用实验方法。我对非实验数据分析工具的选择原则如下。

        因变量为连续变量,自变量至少有一个连续变量,进行多元线性回归; 因变量为连续变量,自变量全部为分类变量,进行方差分析;

因变量为分类变量,自变量至少有一个连续变量,使用Logit模型或Probit模型; 因变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验;

因变量在某个闭区间内分布,并且有较多样本落在闭区间的边界上,使用Tobit模型;

因变量不唯一,如多产出问题,进行数据包络分析(DEA);

因变量为整数、数值小、取零个数较多,使用计数(Count)模型; 数据具有层次结构(嵌套结构),使用多层线性模型(HLM)。

随着统计和计量经济学的发展,各种前沿分析工具层出不穷,但我认为最靠谱的分析工具不外乎以下四种:DID(针对随机实验),多元线性回归,固定效 应变截距模型(FE,针对面板数据),Logit模型或Probit模型(针对分类因变量数据)。其他方法或适用条件苛刻,或分析过程折腾,或方法本身不 可靠(尤其是聚类分析、判别分析,超级不靠谱),因此能用以上四种方法分析问题时,不必为“炫方法”而瞎折腾。关于拟合优度、变量选择原则及估计值绝对大小的意义

在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”

很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者二者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是 时序数据,只要拿有点相关关系的变量进行回归就能使拟合优度达到80%以上,但这样的高R方根本说明不了什么,很可能使分析者陷入伪回归的陷阱,严谨的做 法当然是做平稳性检验和协整检验;如果是截面数据,根本没必要追求R方到80%的程度,一般来说,有个20%、30%就非常大了。

如果一定要增大R方,那么最应该做的的确是对纳入模型的变量进行选择。选择纳入模型的原则我认为有三条。第一,从理论和逻辑出发,将可能影响因变量 的变量作为自变量纳入模型,即理论上或逻辑上能影响因变量的自变量必须纳入模型,即使该自变量的回归系数不显著。第二,奥姆剃刀原则——如无必要,勿增实体,即理论上或逻辑上不能影响因变量的自变量不能纳入模型,即使该自变量的回归系数显著。第三,防止纳入具有多重共线性的自变量。

数据挖掘工具 篇3

【关键词】Excel描述统计工具 Excel直方图工具 成绩分布 试卷科学性

一、引言

英语考试是英语教学过程中的一个重要环节,在教学中起着举足轻重的作用。英语考试有三大功能,即信息反馈、成绩评定和人才选拔功能。反馈功能是指英语考试能为师生双方提供及时的反馈信息,从而提高教学质量。成绩评定功能是指考试常被用来评定学生的学习成果的功能。人才选拔功能是指利用考试成绩对人才进行选拔的一种功能。[1] 正是因为英语考试的重要作用,科学合理地分析班级学生英语考试的结果显得尤为重要。

本次考试为浙江省杭州市2013-2014学年区统期末考试。作为区统考卷,它具有一定代表性,其数据具有真实性以说服力。本文拟以A班学生的测试成绩为例,通过Excel中的数据分析工具和图表工具对该班学生成绩进行数据处理,以此为依据分析学生成绩分布情况、试题科学性等,从而为英语试卷的命题以及英语教学提供建议和对策。

二、数据与分析

利用EXCEL中自带的“数据分析”工具中的“汇总统计”,可比较A班学生之间的英语成绩:

平均数(108.6868)和中位数(113)并不接近,峰度(3.4713)和偏度(-1.9243)也不接近0, 学生成绩大致呈正态分布。但峰度和偏度都不是0,因此,可以判定该次测试学生成绩并不呈正态分布。利用EXCEL“数据分析”中的工具“直方图”,可以得到以下直方图:

由图1可以直观看出A班成绩并非正态分布。一方面和人数相关,该班53人,样本容量不够大。另一方面,该卷试题难度偏低,难度较低的项目比例偏多。呈现这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开,但不利于将中等程度的学生和成绩优秀的学生区别开,但这也是初中升高中考试的难度趋势。

三、结论

学生的成绩是学生与试卷相互作用的结果,把它用数值来表达,就是学生的分数。如果孤立地看待每个分数,是没有意义的。[2] 因此,要从整体上分析学生考试分数,利用Excel描述统计和直方图对分数分布有个直观的呈现。由上述两部分数据,学生分数情况和试卷的科学性也就显而易见了。

(一)学生分数情况

利用EXCEL中“数据分析”工具下的“直方图”可以看出A班英语成绩并非标准的正态分布。一方面与班级人数有关,一方面与试题难度有关。由此可得出教学启示:要狠抓学生的基础,刺激优秀学生,稳住暂时落后的学生。

(二)试卷的科学性

该试卷覆盖了新人教版(七年级下册)英语教材中要求掌握的93%的语法知识点,能较好地考查学生所学知识。试卷的科学性可通过难度、区分度[3]等进行衡量的。从学生的分数分布情况来看,本次测试试题较为容易,即难度较低。试题中难度偏低的题目较多,难度梯度偏小。因此,这种类型的试题对成绩较差的学生有较好的区分度,能将水平低的学生区分开来,但很难将中等程度的学生与成绩优秀的学生区分开来。

四、建议与对策

1. 对试卷命题的建议

从命题的角度看,本次测试试题总体难度较低,学生成绩普遍较高。因此,可以适当增加难度以区分中等程度的学生和成绩优秀的学生。

2. 对该班级学生的教学建议

从英语教学的角度看,该班级学生对基础知识的掌握情况较好。因此,教师在平时教学中可考虑在保持学生对基础知识把握的基础上增加难度知识的渗透,使学生的英语学习更上一个台阶。

【参考文献】

[1]舒运祥. 外语测试的理论和方法[M]. 北京:世界图书出版公司, 1999: 7-8.

[2]刘润清. 语言测试和它的方法[M]. 北京:外语教学与研究出版社, 2000: 224.

[3]朱泽生等. 一九九九年硕士研究生入学考试英语试卷的分析评估[J]. 外语教学, 1999(4):79.endprint

【摘 要】英语考试是英语教学过程中的一个重要环节,科学合理地对学生考试结果进行分析显得尤为重要。Excel数据分析工具和图表分析工具作为一种计算机辅助工具,为英语试卷分析提供了便利。运用上述工具得到的学生成绩的描述统计数据和直方图准确直观地反映了学生成绩的分布情况,以便教师及时分析学生整体成绩和试卷的科学性,从而在今后的命题中根据不同测试性质采用不同类型的试题,并在教学中调整和改进教学方式。

【关键词】Excel描述统计工具 Excel直方图工具 成绩分布 试卷科学性

一、引言

英语考试是英语教学过程中的一个重要环节,在教学中起着举足轻重的作用。英语考试有三大功能,即信息反馈、成绩评定和人才选拔功能。反馈功能是指英语考试能为师生双方提供及时的反馈信息,从而提高教学质量。成绩评定功能是指考试常被用来评定学生的学习成果的功能。人才选拔功能是指利用考试成绩对人才进行选拔的一种功能。[1] 正是因为英语考试的重要作用,科学合理地分析班级学生英语考试的结果显得尤为重要。

本次考试为浙江省杭州市2013-2014学年区统期末考试。作为区统考卷,它具有一定代表性,其数据具有真实性以说服力。本文拟以A班学生的测试成绩为例,通过Excel中的数据分析工具和图表工具对该班学生成绩进行数据处理,以此为依据分析学生成绩分布情况、试题科学性等,从而为英语试卷的命题以及英语教学提供建议和对策。

二、数据与分析

利用EXCEL中自带的“数据分析”工具中的“汇总统计”,可比较A班学生之间的英语成绩:

平均数(108.6868)和中位数(113)并不接近,峰度(3.4713)和偏度(-1.9243)也不接近0, 学生成绩大致呈正态分布。但峰度和偏度都不是0,因此,可以判定该次测试学生成绩并不呈正态分布。利用EXCEL“数据分析”中的工具“直方图”,可以得到以下直方图:

由图1可以直观看出A班成绩并非正态分布。一方面和人数相关,该班53人,样本容量不够大。另一方面,该卷试题难度偏低,难度较低的项目比例偏多。呈现这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开,但不利于将中等程度的学生和成绩优秀的学生区别开,但这也是初中升高中考试的难度趋势。

三、结论

学生的成绩是学生与试卷相互作用的结果,把它用数值来表达,就是学生的分数。如果孤立地看待每个分数,是没有意义的。[2] 因此,要从整体上分析学生考试分数,利用Excel描述统计和直方图对分数分布有个直观的呈现。由上述两部分数据,学生分数情况和试卷的科学性也就显而易见了。

(一)学生分数情况

利用EXCEL中“数据分析”工具下的“直方图”可以看出A班英语成绩并非标准的正态分布。一方面与班级人数有关,一方面与试题难度有关。由此可得出教学启示:要狠抓学生的基础,刺激优秀学生,稳住暂时落后的学生。

(二)试卷的科学性

该试卷覆盖了新人教版(七年级下册)英语教材中要求掌握的93%的语法知识点,能较好地考查学生所学知识。试卷的科学性可通过难度、区分度[3]等进行衡量的。从学生的分数分布情况来看,本次测试试题较为容易,即难度较低。试题中难度偏低的题目较多,难度梯度偏小。因此,这种类型的试题对成绩较差的学生有较好的区分度,能将水平低的学生区分开来,但很难将中等程度的学生与成绩优秀的学生区分开来。

四、建议与对策

1. 对试卷命题的建议

从命题的角度看,本次测试试题总体难度较低,学生成绩普遍较高。因此,可以适当增加难度以区分中等程度的学生和成绩优秀的学生。

2. 对该班级学生的教学建议

从英语教学的角度看,该班级学生对基础知识的掌握情况较好。因此,教师在平时教学中可考虑在保持学生对基础知识把握的基础上增加难度知识的渗透,使学生的英语学习更上一个台阶。

【参考文献】

[1]舒运祥. 外语测试的理论和方法[M]. 北京:世界图书出版公司, 1999: 7-8.

[2]刘润清. 语言测试和它的方法[M]. 北京:外语教学与研究出版社, 2000: 224.

[3]朱泽生等. 一九九九年硕士研究生入学考试英语试卷的分析评估[J]. 外语教学, 1999(4):79.endprint

【摘 要】英语考试是英语教学过程中的一个重要环节,科学合理地对学生考试结果进行分析显得尤为重要。Excel数据分析工具和图表分析工具作为一种计算机辅助工具,为英语试卷分析提供了便利。运用上述工具得到的学生成绩的描述统计数据和直方图准确直观地反映了学生成绩的分布情况,以便教师及时分析学生整体成绩和试卷的科学性,从而在今后的命题中根据不同测试性质采用不同类型的试题,并在教学中调整和改进教学方式。

【关键词】Excel描述统计工具 Excel直方图工具 成绩分布 试卷科学性

一、引言

英语考试是英语教学过程中的一个重要环节,在教学中起着举足轻重的作用。英语考试有三大功能,即信息反馈、成绩评定和人才选拔功能。反馈功能是指英语考试能为师生双方提供及时的反馈信息,从而提高教学质量。成绩评定功能是指考试常被用来评定学生的学习成果的功能。人才选拔功能是指利用考试成绩对人才进行选拔的一种功能。[1] 正是因为英语考试的重要作用,科学合理地分析班级学生英语考试的结果显得尤为重要。

本次考试为浙江省杭州市2013-2014学年区统期末考试。作为区统考卷,它具有一定代表性,其数据具有真实性以说服力。本文拟以A班学生的测试成绩为例,通过Excel中的数据分析工具和图表工具对该班学生成绩进行数据处理,以此为依据分析学生成绩分布情况、试题科学性等,从而为英语试卷的命题以及英语教学提供建议和对策。

二、数据与分析

利用EXCEL中自带的“数据分析”工具中的“汇总统计”,可比较A班学生之间的英语成绩:

平均数(108.6868)和中位数(113)并不接近,峰度(3.4713)和偏度(-1.9243)也不接近0, 学生成绩大致呈正态分布。但峰度和偏度都不是0,因此,可以判定该次测试学生成绩并不呈正态分布。利用EXCEL“数据分析”中的工具“直方图”,可以得到以下直方图:

由图1可以直观看出A班成绩并非正态分布。一方面和人数相关,该班53人,样本容量不够大。另一方面,该卷试题难度偏低,难度较低的项目比例偏多。呈现这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开,但不利于将中等程度的学生和成绩优秀的学生区别开,但这也是初中升高中考试的难度趋势。

三、结论

学生的成绩是学生与试卷相互作用的结果,把它用数值来表达,就是学生的分数。如果孤立地看待每个分数,是没有意义的。[2] 因此,要从整体上分析学生考试分数,利用Excel描述统计和直方图对分数分布有个直观的呈现。由上述两部分数据,学生分数情况和试卷的科学性也就显而易见了。

(一)学生分数情况

利用EXCEL中“数据分析”工具下的“直方图”可以看出A班英语成绩并非标准的正态分布。一方面与班级人数有关,一方面与试题难度有关。由此可得出教学启示:要狠抓学生的基础,刺激优秀学生,稳住暂时落后的学生。

(二)试卷的科学性

该试卷覆盖了新人教版(七年级下册)英语教材中要求掌握的93%的语法知识点,能较好地考查学生所学知识。试卷的科学性可通过难度、区分度[3]等进行衡量的。从学生的分数分布情况来看,本次测试试题较为容易,即难度较低。试题中难度偏低的题目较多,难度梯度偏小。因此,这种类型的试题对成绩较差的学生有较好的区分度,能将水平低的学生区分开来,但很难将中等程度的学生与成绩优秀的学生区分开来。

四、建议与对策

1. 对试卷命题的建议

从命题的角度看,本次测试试题总体难度较低,学生成绩普遍较高。因此,可以适当增加难度以区分中等程度的学生和成绩优秀的学生。

2. 对该班级学生的教学建议

从英语教学的角度看,该班级学生对基础知识的掌握情况较好。因此,教师在平时教学中可考虑在保持学生对基础知识把握的基础上增加难度知识的渗透,使学生的英语学习更上一个台阶。

【参考文献】

[1]舒运祥. 外语测试的理论和方法[M]. 北京:世界图书出版公司, 1999: 7-8.

[2]刘润清. 语言测试和它的方法[M]. 北京:外语教学与研究出版社, 2000: 224.

数据挖掘及其工具的合理选择 篇4

关键词:KDD,数据挖掘,数据挖掘工具

0、引言

随着数据库技术的迅速发展和管理系统的广泛应用, 人们希望能够对现今大批量积累的数据进行更高层次的分析, 以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、修改、统计、查询等功能, 但无法根据现有的数据预测未来的发展趋势。而数据挖掘 (Data Mining) 就是运用选定的知识发现算法, 从数据中提取出用户所需要的知识, 这些知识可以用一种特定的方式表示或使用一些常用的表示方式, 如产生式规则等等。数据挖掘正是信息发展到一定程度的必然产物, 是利用积累数据的一个高级阶段。

用数据库管理系统来存储数据, 用机器学习的方法来分析数据, 挖掘大量数据背后的知识, 这两者的结合促成了数据库中的知识发现 (KDD) 的产生。

1、KDD的处理过程

KDD处理过程可分为9个处理阶段, 分别是:数据准备, 数据选取, 数据预处理, 数据转换, 数据挖掘, 模式解释及知识评价。如图1所示。

数据选取的目的是确定发现任务的操作对象, 即目标数据 (target data) 。数据预处理主要是对原始数据进行再加工, 以便于从中提取知识。数据转换的主要目的是消减数据维数或降维, 即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。数据挖掘完成从数据中提取出用户所需要的知识;模型解释及模型评估对发现的知识进行评价并表达为用户易于理解的形式。

2、KDD与数据挖掘

数据挖掘只是KDD中的一个步骤, 它主要是利用某些特定的知识发现算法, 在一定的运算效率的限制内, 从数据中发现出有关的知识, 数据挖掘是KDD中最重要的一步。因此, 往往可以不加区别地使用KDD和数据挖掘。

3、数据挖掘工具的现状

在数据挖掘技术日益发展的同时, 出现了许多数据挖掘工具, 比

较著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等, 它们都能够提供常规的挖掘过程和挖掘模式。

1) Intelligent Miner

由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列, 它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息, 帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘, 文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。

2) Enterprise Miner

这是一种在我国的企业中得到采用的数据挖掘工具, 比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具, 按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成, 实现从提出数据、抓住数据到得到解答的"端到端"知识发现。

3) SPSS Clementine

SPSS Clementine是一个开放式数据挖掘工具, 曾两次获得英国政府SMART创新奖, 它不但支持整个数据挖掘流程, 从数据获取、转化、建模、评估到最终部署的全部过程, 还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能, 即将集中精力在要解决的问题本身, 而不是局限于完成一些技术性工作 (比如编写代码) 。

其它常用的数据挖掘工具还有LEVEL5 Quest、Mine Se (SGI) 、Partek、SE-Learn、SPSS的数据挖掘软件Snob、Ashra Azmy的Super Query、WINROSA、Xmdv Tool等。

4、数据挖掘工具的选择

数据挖掘工具这么多, 该如何选择满足需要的数据挖掘工具呢?具体的评价标准应从以下几方面考虑:

(一) 可产生的模式种类的数量, 一般模式有以下六种;

【分类模式】是一种分类器, 能够把数据集中的数据映射到某个给定的类上, 从而可以应用于数据预测。

【回归模式】与分类模式相似, 其差别在于分类模式的预测值是离散的, 回归模式的预测值是连续的。

【时间序列模式】根据数据随时间变化的趋势预测将来的值。

【聚类模式】把数据划分到不同的组中, 组之间的差别尽可能大, 组内的差别尽可能小。

【关联模式】是数据项之间的关联规则。而关联规则是描述事物之间同时出现的规律的知识模式。

【序列模式】与关联模式相似, 它把数据之间的关联性与时间联系起来。

在解决实际问题时, 经常要同时使用多种模式。分类模式和回归模式使用最为普遍。

(二) 解决复杂问题的能力;

数据挖掘系统可以提供下列方法解决复杂问题:

【多种模式】多种类别模式的结合使用有助于发现有用的模式, 降低问题的复杂性。

【多种算法】很多模式, 特别是与分类有关的模式, 可以用不同的算法来实现, 以适应不同的需求环境。数据挖掘系统提供多种途径产生同种模式, 将更有能力解决复杂问题。

【验证方法】在评估模式时采用多种校验方法, 从而达到最大的准确度。

【可视化】可视化工具提供了直观、简洁的方法, 方便了用户, 更有助于定位重要的数据, 评价模式的质量, 从而减少建模的复杂性。

【数据选择和转换】模式通常被大量的数据项隐藏。有些数据是冗余的, 有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性, 提供工具, 选择正确的数据项和转换数据值。

【扩展性】为了更有效的提高处理大量数据的效率, 数据挖掘系统的扩展性十分重要。为充分发挥并行计算的优点, 需要编写支持并行计算的算法。

【操作性能】操作性能的好坏是一个至关重要的因素。图形界面友好的工具可以方便用户, 引导用户执行任务, 为用户节省时间。

【数据存取能力】好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作, 并且可以充分利用数据库的优点。

【与其他产品的接口】数据挖掘工具能否提供与这些工具集成的简易途径是衡量数据挖掘工具好坏的标准。

5、结论

经过十多年的发展, 数据挖掘工具的性价比越来越高。然而, 现有的数据挖掘工具还存在着许多不足。本文正是通过对数据挖掘种类的分析, 给出了数据挖掘工具的选择标准, 为数据挖掘工具的选择提供了参考。由于数据挖掘工具需要考虑的因素很多, 很难按照原则给不同的工具排一个优劣次序, 最重要的还是用户的需要。

因此, 在每个企业希望把数据挖掘融入到企业的经营决策时, 一定要结合自己的实际情况, 充分考虑本企业在数据挖掘领域的实施经验, 获得一个完善的数据挖掘解决方案。

参考文献

[1].Fayyad U M, Piatetsky-Shapiro G, Smyth, P.From data min-ing to knowledge discovery:An overview.In:Advances in Knowledge Discov-ery and Data Mining, Fayyd U M, Piatetsky-Shapiro G (eds) , 1~35.

数据挖掘工具 篇5

采用Framework + plugin架构构建,Framework处理了缓冲,流控,并发,上下文加载等高速数据交换的大部分技术问题,提供了简单的接口与插件交互,插件仅需实现对数据处理系统的访问

运行模式:stand-alone

数据传输过程在单进程内完成,全内存操作,不读写磁盘,也没有IPC

数据挖掘工具 篇6

关键词:数据管理计划;研究数据管理;数据监护;DMPonline;DMPTool

中图分类号: G203 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015070

Abstract There is a growing awareness among researchers of the importance of research data sharing and long-term preservation. Data management plan(DMP)has been playing a vital role in data-driven research progress. DMP provide specific and comprehensive guidance for research data management practice. This paper provides a brief review of research fund policies and requirements for DMP in the US and UK. Based on the frame work for creating DMP by DCC and ICPSR,this paper provides a comparative discussion of the main contents in DMP. DMPonline and DMPTool are two primary web-based tools to help researchers creating, maintaining and exporting DMP. Finally, the author puts forward some recommendations on how libraries involved in data management planning and promoting the practice of data management, sharing and preservation.

Key words data management plan; research data management; data curation; DMPonline; DMPTool

自2001年的“布达佩斯开放存取计划”以来,科研成果的开放存取运动发展势头迅猛。OECD(经济合作与发展组织)先后在2004年、2006年发布了《开放存取公共资助研究数据的宣言》和《开放存取公共资助研究数据的原则和指南》。这两份文件进一步促使通过公共资金资助的科研产生的研究数据公开获取以及研究数据管理事业的快速发展。

在当前E-Science科研环境下,科研越来越趋向于基于大规模的数据驱动,数字化的研究数据已经成为科研的基础信息设施,并成为证实或驳斥学术成果的最有力的客观证据。科学研究数据的长期保存与共享具有重大的科学价值、经济价值和社会价值,已经成为当前科技创新能力的重要基础。基金组织和研究机构普遍意识到,要充分发挥研究成果的价值和知识潜力,只有通过广泛传播和开放存取,并促进新型研究范式的产生。

随着数据密集型科研的发展,研究数据的创建、获取、处理分析、重用以及长期保存对科学研究具有越来越重要的意义,良好的研究数据管理能确保数据有效的共享、验证和重用,提高科学研究的有效产出。随着人们对研究数据的共享与长期保存重要性认识的不断提高,制定研究数据管理计划已经逐渐成为科研过程不可或缺的重要组成部分。

1 数据管理计划的内涵与意义

数据管理计划(data management plan,DMP)是一份正式文档,概括描述了研究者在科研过程中以及结束后对整个研究数据生命周期的管理过程[1]。DMP对研究数据的产生、管理到长期保存都进行清晰的描述,包括:数据概况、数据组织、元数据方案、数据保存、数据使用以及伦理与法律相关事项等说明。

DMP是一份各参与方认可、可执行、集中概括了所有数据管理活动有关事项的文档,提高了数据管理的透明度。项目负责人(principal investigator,PI)在基金申请前期对数据管理的工作任务和各方职责进行确定,以确保数据管理的参与人员能依据DMP进行有效的沟通和合作,保证整个管理团队遵循统一的数据管理流程和规范,促进工作的一致性、规范化和高效率。

DMP的制定确保了研究数据的长期保存和共享,从以下几个方面促进了科研的进步与发展[2]:①具有数据引证和以数据分析为基础的研究成果有更强的可信度和影响力;②为研究成果提供以数据为基础的证明;③符合基金管理机构的数据管理政策,包括版权遵守和道德准则的规范约束;④确保研究数据的长期保存和重复利用;⑤便于数据的共享,推动跨学科研究和基于已有数据的创新性研究。

2 英美两国主要基金会的DMP需求概况

英国研究理事会(Research Councils UK,RCUK)作为英国9家主要基金管理机构的战略合作伙伴,所制定的数据管理政策共同原则,为各个基金会的数据政策制定提供了总体框架[3]。RCUK的数据管理共同原则要求在充分尊重数据创建者知识产权和智力劳动的前提下,从制度上保证研究数据的合理合法开放存取和长期保存利用,以提高公共研究基金的使用效益。

nlc202309051447

2005年以来,英国主要的基金会都已经发布了主张数据管理与共享的数据政策。Sarah Jones在2009年的报告详细解读了英国各基金会对于出版物和研究数据的政策规定和技术支持等方面的情况[4]。英国数字监护中心(Digital Curation Centre,DCC)以网页的形式将该报告的主要成果进行展示,并依据数据政策变化随时更新[5]。从DCC收集的信息来看,英国的主要基金会都已经要求基金申请附带提交DMP[6]。Sarah Jones在2012年对各基金会的DMP要求内容进行了最新汇总和简要概括[7]。基金会要求DMP对研究数据的收集、产生、管理、分享和保存进行概括说明。DMP用来证明研究者对数据整个生命周期的管理能力,从而满足资助者的数据政策。杨淑娟与陈家翠对英国的基金会数据政策和DMP要求进行了总体概括和详细说明[8]。

自2011年1月开始,美国国家自然科学基金委员会(National Science Foundation,NSF)要求基金申请书必须附带DMP,以说明将怎样遵循NSF研究成果传播和共享方针。主要包括研究过程将产生的资源和数据类型、所采用的数据格式和内容标准、获取和共享方针(即隐私政策、保密性、安全性、知识产权及其他权限要求的相关规定)、衍生产品的重用和再传播政策和规定、研究数据和成果存档及长期保存计划等内容[9]。2013年初,奥巴马政府的科技政策办公室要求联邦政府资助的基金管理机构,必须制定研究数据的管理政策,以确保数据的长期保存与利用[10]。此后,美国的国立卫生研究院、疾控与预防中心、能源部、国防部、农业部和太空总署等主要科研资助机构都在项目申请指南中明确规定基金申请者必须提交DMP[11]。加州大学数据监护中心(University of California Curation Center,UC3)的DMPTool网站上收集了美国主要基金会的DMP内容要求的模板文档,以供基金申请人参考[12]。

3 数据管理计划的主要内容

综合英国各基金会的要求和实践经验,英国数字监护中心DCC从2009年开始发布DMP的内容建议清单,目前公布的是2013年的第四版,列举了DMP应包含的8部分主要内容[13]。美国政治与社会研究校际联盟(ICPSR)作为全球规模最大的社会科学研究联盟机构,比较了包括NSF、ANU、DCC和MIT等几个重要研究机构的DMP建议内容,提出了撰写DMP的内容框架及包含的核心元素,具有很高的参考价值[14-15]。基于以上两个重要的DMP内容框架,本章对部分核心内容进行说明和分析。

3.1 数据类型与格式

DMP需要对数据进行总体描述,包括预计产生的内容、数量、类型等,以便评审人了解数据的基本特征并评估可能发生的信息暴露风险。DMP应该简要描述采集数据的标准、方法和格式。数据类型一般包括文本、图像、音视频等通用的文件类型或特定学科的专用数据类型。从利于数据长期保存的角度要求:①使用非专利的、开放性的标准格式,以利于在不同的平台和应用程序间进行互操作;②使用非加密的、未压缩的文件格式;③使用符合特定学科领域标准的数据格式,便于学术交流[16-17]。DMP还应该陈述与研究课题相关的现有公开数据集的调查概况,不能满足研究需求的原因,以及新旧数据集之间的差异及可能的关联。

3.2 元数据与文档记录

元数据被称为“关于数据的数据”,是用于数据重复利用和分析的重要通讯形式,所以元数据必须完整、准确,提供足够的必要信息。元数据包括描述性元数据、结构性元数据、技术性元数据等类型,既有人工记录的元数据,也有机器自动生成的元数据。元数据的标准选用和方案制定非常关键,直接决定了研究数据的可利用程度,并帮助用户了解数据的产生以及收集过程。为帮助研究者选择元数据标准,DCC收集了包括生物学、地球科学、物理、社科与人文以及通用型的元数据标准、扩展标准、用例和软件工具[18]。Jenn Riley将105种常用的元数据标准,从资源类型、应用领域、功能和用途四个维度,以可视化彩图的形式进行重要性评估,帮助研究人员进行元数据标准的选择和比较[19]。

文档记录(Documentation)是数据管理中一项重要的辅助工作,对数据进行清晰、详细的描述以及注释,其目的是使数据易于使用和分享,可以被其他用户理解和解释[20]。文档记录的内容一般包括:数据报告、用户指南、实验室手册、操作流程等相关文档;还有数据集结构的文件说明、数据收集的软件工具、方法与过程记录等[21]。高效率管理数据,需要对数据文件进行科学的组织,主要包括:文件结构的规划、文件命名规则制定以及版本控制。Katherine分析了文件组织的层级结构方法和标签式方法的利与弊,建议可取长补短,采用混合式的组织方法,制定文件命名系统,并提出文件命名的最佳实践经验和规范并给出了具体操作实例[22]。

3.3 短期的数据存储与安全

依据前期确定的数据管理生命周期各阶段负责人及职责内容,利用Wiki等协同工作软件与版本控制系统,控制数据质量并协调、同步工作流程及进度,实施可靠的数据管理。研究过程中产生的临时数据,一般存放在本地的存储器,根据数据规模和存储要求的不同,可存放在个人PC、实验室服务器、图书馆或者IT部门建立的存储服务系统等不同地点。

数字化数据有丢失和损坏的风险,DMP应详细说明数据备份和恢复方案。数据备份策略包括:内容选择、介质、地点、方法、频率、备份保存的时长以及对备份数据的正确性验证等[23]。应该至少在3个不同的地理位置进行数据备份,主备份通常驻留在工作PC;第二份拷贝应该在外接的移动硬盘或者家用计算机上;第三份备份可选择本地的数据存储系统或者在线的云存储系统。DMP还应该介绍数据的保护措施,包括密码机制、防病毒软件和防火墙设施、用户使用权限设置等。数据安全还包括对敏感性数据的安全存储方法、加密传输与使用,加密和解密软件的使用等。

nlc202309051447

3.4 数据长期保存

有研究表明,通过仓储系统分享数据比通过期刊等方式明显具有传播的广泛性,研究数据的分享能够显著提升科研成果的影响力并促进科技创新[24]。研究数据的长期保存与共享是DMP中的关键性内容,基金申请人应对此作出明确和具有说服力的证据来表明,研究结果数据是可长期存取及利用的。因此,选择何种数据长期保存的基础设施,应提出令人信服的观点和事实。是选择安全性更高的本地数据仓储系统还是选择开放性更强的第三方学科数据仓储?像ICPSR这种在社会科学领域具有高知名度和超大规模用户的数据仓储系统,不仅能够显著增加数据集的显示度,而且在数据的规范程度和安全性上都有可靠的保障。目前全球最有影响力的两个研究数据仓储目录及检索系统Databib和re3data.org宣布将在2015年完成合并[25]。这两个规模最大的索引系统收集了囊括各个学科的1000余个数据仓储系统,为研究者快速发现、存取和利用数据集提供了重要的参考功能。

3.5 伦理道德和版权事项

出于学术成果保护或者商业利益考虑,研究数据可能不会在项目完成后就立即公开。基金会通常要求在DMP中承诺尽快公开数据或者出版数据文档的时间表。DMP必须对数据封闭期和限制使用规则进行充分的说明。在数据利用的伦理方面,所有涉及到人的数据或资料研究都需要遵守道德规范和权益的保护。为保护调查对象的隐私,应该将原始数据进行匿名化处理并签署关于数据使用与共享的“知情同意协议(informed consent)”[26]。UKDS(UK Data Service)在数据匿名化的操作指南里对身份保密、定量数据、定性数据、地理信息、声像文件处理给出了非常实用的建议[27]。

在撰写DMP的初期,就应该对数据的所有权进行明确的定义和区分,避免后续使用过程中可能产生的纠纷。通常由数据生产者、项目负责人PI以及研究人员所属机构共同享有数据的版权和知识产权。在数据长期保存阶段,PI可授权仓储系统享有数据存储、转换和传播的权利。研究过程中如果使用第三方数据或者利用专利设备产生的数据,需要遵守相关的数据保存和分享权利的限制性规则,并进行简要说明。

3.6 数据管理成本规划

为了帮助研究人员更好地规划与测算数据管理成本,UKDS制定了数据管理活动成本核算的内容清单[28]。这个清单的部分内容可包含在DMP中,帮助DMP制定者更好的填写“成本(Costs)”部分的内容。这个清单按照研究数据管理的生命周期,详细的罗列了各个管理步骤可能发生的成本,包括人员与技能准备、时间消耗、软件工具、硬件基础设施、仪器设备、专业知识需求、支持与培训以及可能需要产生的外包服务(例如数据的存储与备份、格式化处理等)等费用。

4 撰写数据管理计划的主要工具

英国的DMPonline和美国的DMPTool是当前主要的在线生成DMP的工具,用户范围很广,具有典型的代表意义,因此通过介绍这两种工具,可以了解DMP撰写工具的发展状况。

4.1 DMPonline

英国数字监护中心DCC与基金会及高校合作,2010年初推出了在线DMP创建工具——DMPonline[29]。DMPonline内置了英国基金会和部分大学的DMP内容需求模版文档,用户可按照其提供的模版及流程在线创建、编辑、分享、输出或者删除DMP文档。DMPonline在每个填写流程都提供了详细的指导信息及链接,帮助用户填写和完善内容。用户可以利用DMPonline的分享功能,授权其他用户查阅和编辑DMP文档,并将最后完成的内容以PDF、DOCX、XML、CSV等格式输出。

Martin Donnelly等人介绍了DMPonline的起因及早期发展的情况[30]。2009年,DCC的Jones通过研究英国各基金会的数据政策发现,项目申请书必须附带DMP已经成为普遍要求。DMPonline项目组以DCC的数据监护生命周期模型为框架,在分析和综合了多个基金会的DMP内容要求之后,形成了撰写DMP内容的建议清单。从长期发展的角度考虑,DMPonline的开发完全使用开源软件,包括开发语言Ruby on Rails、Apache Web server、MySQL数据库软件和Ubuntu操作系统。

项目组在2012年秋季,以爱丁堡大学的用户为研究对象,采用软件使用分析、调查与意见反馈、焦点小组讨论、用户访谈、启发式评估等方法,对软件进行评估和可用性测试[31]。软件的可用性测试重点评估从3.0版本升级到4.0(beta)版本以后所带来的积极变化和影响。可用性测试证明,在重新修订了DMPonline的数据模型、改进了填写流程和重新设计了用户界面之后,4.0版本相比前一版本,具有明显的改进效果。DCC从一开始就认识到开放性和用户群体支持的重要性,将软件源代码放在GitHub上,鼓励更多人下载和进行功能开发。DCC期望未来DMPonline能够增加更多的社交元素,并通过开放接口与更多的研究信息管理系统集成。

4.2 DMPTool

2011年年初,受英国DMPonline的启发,由美国加州大学数据监护中心(UC3)牵头,联合8家著名的科研机构(其中也包括DCC)作为发起人,共同开发了DMP在线撰写工具DMPTool[32]。自2011年10月发布第一版以来,DMPTool获得了科研机构和图情领域的广泛关注,并赢得了2011年的美国国会图书馆十佳“数字保存进步奖”[33]。截止2014年12月,超过800家机构的9000余名用户使用了DMPTool。

在斯隆基金会的支持下,2014年发布的DMPTool第二版采用开源软件框架,依靠用户社区支持,并以充分满足研究者、图书馆、基金会和院校等各方面的利益为宗旨[34]。通过新设计的管理界面,学院能够提供个性化的帮助信息、资源,以及针对特定学科的DMP模版文档。DMPTool创建了一个协同式的工作环境,允许多人对同一份DMP进行编辑、讨论和定稿。用户可以将完成的DMP分享给其他人进行评阅,听取专家或者数据馆员的意见,以完善DMP的内容。

nlc202309051447

DMPTool的主要目标包括:促进数据管理、分享与长期保存的基础设施的建设,让更多的高校开始利用DMPTool;努力培育并繁荣DMPTool用户及开发者社区,保持DMPTool项目的透明度并促进社区的参与度;加强与各方机构的合作,进一步增加DMP模版文档并整合各级服务资源;尽可能提供数据全生命周期的管理服务。

4.3 DMP撰写工具的未来发展

对于这两种当前最主要的DMP在线撰写工具,国内外都有研究者进行介绍,并从不同角度进行对比、讨论。王凯等人对DMPonline和DMPTool进行了介绍,并从开发路线、服务方式和需求建议来源等方面进行了对比分析[35]。Andrew与Martin从使用案例、组织架构、文化特征、发展进程等方面对DMPonline和DMPTool进行了分析和比较[36]。DMPonline作为一项国家层面的服务,主要由DCC和爱丁堡大学运营管理,服务于英国整个高等教育事业。DMPTool项目更开放,积极的欢迎各类型研究机构参与到项目建设,并以充分满足各基金会的DMP内容要求为首要考虑事项。

两个项目的管理者都认识到未来的发展要注重可持续发展的模式,寻求更多的合作伙伴,努力繁荣用户与开发者社区,开发新的功能,更开放的系统接口。尽管两个工具的发展路径有所差异,但共同目标和愿景都是发展成为一个集成式(integrative)的DMP撰写工具,通过保持与基金管理机构和政策制定者的联系和沟通,促进数据管理的最佳实践,持续培养数据分享的文化并整合各学科、各类型基金会、各层次高校及科研机构的资源,乃至发展成为国际型的数据管理工具。

5 思考与建议

通过介绍制定DMP的内容与工具,一方面可加深国内科研活动中各相关方对DMP的理解,对我国研究数据长期保存与共享的发展产生积极影响;另一方面可为促进国内高校图书馆研究并开展数据管理服务提供借鉴。

5.1 DMP是一份动态的指导性文档

一份完善的DMP既充分满足资金资助机构要求,同时兼具合理性和可执行性。DMP应简洁明了但内容完整,能完全证明基金申请人充分理解该领域数据的研究现状。DMP中应该明确指定数据管理流程不同阶段的负责人和职责内容。随着项目研究的深入,DMP的内容是可以被修订的,以符合数据管理与分享的实际需求,但总体上应保持原先的框架和内容。在数据长期保存与分享等关键问题上,需要兑现原先的承诺。

5.2 图书馆主动提供撰写DMP的咨询服务

为了制定可执行的DMP,研究者对研究过程中所涉及到的数据环境总体上有比较清晰的认识,其中包括专门的学科知识、技术现状、领域软件应用以及获取和分析数据的方法等。但佐治亚理工大学的一项研究表明,尽管研究人员对数据管理表现出了浓厚的兴趣,但仍有接近一半(47%)的人没有为数据管理制定计划,因为他们缺乏足够的相关知识和必要的指导[37]。图书馆长期以来担负着学术资源管理与服务的重任,面对数据资源管理这个新生事物,有着天然的技术优势和舍我其谁的使命感。因此,图书馆应该发挥传统的学科优势,迅速掌握数据管理相关技能,主动提供撰写DMP的咨询服务,帮助科研人员了解制定DMP的重要性与促进科研发展的必要性。

5.3 以DMP为突破口,逐步推出多种数据服务

在英美等发达国家,近几年来已经有不少高水平大学图书馆提供研究数据管理服务,高校的IT部门也建立了数据仓储系统并提供相应的支持工作[38-39]。目前已经开展的数据管理服务类型主要包括:DMP撰写的咨询与指导、数据素养的技能培训、研究数据搜索与获取、元数据咨询与数据处理、数据存储服务等。休斯顿大学的一份调查发现:帮助研究人员撰写DMP、申请基金项目以及研究数据的搜索与获取是研究者最需要的数据服务类型[40]。国内高校图书馆应从培养科研人员的数据素养为出发点,以DMP为突破口,提供研究数据管理的咨询服务与技能培训。在完善DMP服务的基础上,逐步推出其他数据管理服务。从已有经验来看,研究数据管理服务应在学校高层领导的统一协调下,由图书馆牵头,联合学院、实验室、科研部门以及IT服务部门,共同推进实施才能取得良好效果。

参考文献:

[1] WikiPedia. Data Management Plan[EB/OL].[2014-09-08].http://en.wikipedia.org/wiki/Data_management_plan.

[2] Robert E. Kennedy Library. Data Management[EB/OL].[2014-09-08].http://libguides.calpoly.edu/datamanagement.

[3] Research Councils UK. RCUK Common Principles on Data Policy[EB/OL].[2014-09-10].http://www.rcuk.ac.uk/research/datapolicy.

[4] JonesS. A report on the range of policies required for and related to digital curation[EB/OL].[2014-09-10].http://www.dc

c.ac.uk/sites/default/files/documents/reports/DCC_Curation_Policies_Report.pdf.

[5] DCC.Overview of funders' data policies[EB/OL].[2014-09-12].http://www.dcc.ac.uk/resources/policy-and-legal/overview-funders-data-policies.

数据挖掘工具 篇7

1 Log Miner的安装

使用之前以管理员身份登录系统, 查看系统中是否存在运行Log Miner所需要的dbms_logmnr、dbms_logmnr_d包, 如果没有, 则必须首先运行下面这样脚本:

2 创建Log Miner字典

整个创建过程, 完成后, 会在D:oracletestlogs_utl_file目录下看到一个名为logminer_dict.ora'的文件。创建Log Miner字典为日志分析做准备。

3 开启Log Miner日志补充模式

4 创建要分析的日志文件列表

5 Log Miner进行日志分析

SQL>EXECUTE dbms_logmnr.start_logmnr (DictFile Name=>'D:oracletestlogs_utl_filelogminer_dict.ora', Start Time=>to_date ('2014-05-03 06:05:00', 'YYYY-MM-DD HH24:MI:SS') , End Time=>to_date ('2014-05-03 09:17:00', 'YYYY-MM-DD HH24:MI:SS') ) ;

如果我们仅仅想知道某个用户对于某张表格的操作, 可以通过下面的SQL查询得到, 该查询可以得到用户ordadm对表格pat_visit所作的一切工作。

SQL>SELECT sql_redo, Sql_undo FROM v$logmnr_contents WHERE username='ordadm'AND tablename='pat_visit'.

6 结束日志分析过程

结束日志分析过程后, 要及时释放内存, 保证数据库的可用资源。SQL>EXECUTE DBMS_LOGMNR.END_LOGM-NR;总结使用Log Miner定位和分析功能, 不仅能及时恢复缺失的数据, 保证了数据的连续性和准确性, 而且Logminer还可用来监视或者审计用户的活动, 查看数据在修改前的状态。对Log Miner的熟练应用, 是数据库管理员的一项基本技能, 也是保障医院信息系统完整和连续的必要手段。Log Miner可为医院正常业务的运行保驾护航。

摘要:目的 如何快速定位和恢复HIS系统中出现的各种应用级数据错误。方法 启用Logminer对日志进行分析。结果 使用Logminer能准确有效的定位, 恢复误操作数据。结论 使用Logminer简单、准确、方便, 保障医院信息系统的完整和连续, 为医院正常业务的运行保驾护航。

关键词:LogMiner工具,数据错误,日志文件

参考文献

[1]左斌.ORACLE数据库性能优化及监控研究[J].才智, 2013, 13 (18) :47-48.

[2]刘巍.Orac3e数据库中的性能优化分析[J].福建电脑, 2012, 16 (21) :66-67.

[3]张帆.Oracle数据库性能优化应用研究[J].信息技术与标准化, 2012, 19 (17) :63-64.

[4]韩春林.浅谈0racle数据库性能优化[J].石油工业计算机应用, 2012, 15 (19) :42-43.

数据挖掘工具 篇8

1、数据挖掘的概念

数据挖掘, 简单地说就是从一个数据库或数据仓库中自动地发现相关的模式, 进一步说就是从大量、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程, 是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能挖掘出潜在的模式, 找出最有价值的信息, 指导决策。

2、认知风格的概念

关于认知风格的定义, Allport认为它是个人典型的或习惯性的解决问题、思考、知觉、记忆等的模式。Tennant认为它是"个体的特征和一贯性的组织和加工信息的方式"。在心理学研究领域, 风格是对个体差异进行的描述, 指个体在认知、个性等方面一贯的外在表现方式。

认知风格是一种重要的个体差异, 在强调个性培养和发展的今天, 在教育领域研究较多的一方面是教学风格与学习风格之间的适配性问题。在教育过程中, 如果教师采取的教育策略、指导方法与受教育者的认知风格相适应, 就能更大程度地促进其发展, 反之则可能阻碍其发展;另一方面是教师的认知风格与学生的认知风格之间的适配性问题。教师的认知风格与学生的认知风格完全匹配时, 学生的学习适应最好, 师生认知风格类型不适配的其学习适应较差, 师生认知风格部分匹配的其学习适应居中。这一结果启示我们设计一种认知风格测量工具, 对学生认知风格类型提供比较科学的测量方法, 能够有针对性地提高学生的学习效率, 同时也提高教师的教学质量, 为教师根据学生的个性差异进行因材施教提供了新的途径。

3、测评工具设计原理与总体结构

一般来说, 学生在网络学习中往往积累了大量的数据, 但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段。以学生课程成绩为例, 教师对学生成绩的分析处理一般局限于统计取得优、良、及格、不及格学生的人数, 对于学生取得这些成绩的原因往往无法了解, 使得这些数据不能发挥它们应有的作用。如果利用网络信息库中存放大量的学生个体的属性、浏览网页的方式以及使用网络课件类型的主要信息等要素, 结合数据挖掘中的决策树分类等相关技术, 就能从这些海量数据中挖掘出有用的信息和规则, 最终测量出学生的认知风格类型。

数据挖掘是一种决策支持过程, 是深层次的数据信息分析方法, 将数据挖掘技术应用于认知风格的测评无疑是非常有益的, 它可以客观地分析学生认知风格与各种因素之间的内在联系, 这是传统评价方法无法具备的。

本文设计的认知测评工具是基于Windows XP操作系统, 后台支持为SQL Server 2000数据库管理系统, 其总体结构如图1所示:

4、采用决策树分类算法中的ID3实现测评工具的设计

4.1 选择决策树分类算法实现设计的依据

决策树方法能够生成可以理解的规则。由于系统的最终用户是教师或学生, 他们往往不具备数据挖掘的知识, 因此挖掘方法的可解释性十分重要, 而决策树是以树型结构表示最终分配结果的, 而且还可以生成If-Then形式的规则, 接近于人们对现实世界事物的认知方法和表示方式。

决策树方法的计算量相对来说不是很大。本工具主要是实际应用, 而不是数据挖掘的算法研究, 因此工作效率比较重要。决策树方法的计算量相对其他方法来说比较小, 这样可以大大地缩短计算时间, 提高工具的执行效率。

决策树可以清晰的显示出属性的重要程度。决策树是通过计算信息熵选择分裂属性的, 而信息熵正是该属性重要性的度量标量。从直观上看, 决策树结点所在的层次越搞, 该结点所代表的属性就越重要, 相反结点所代表的属性对此次分类的作用就越小, 同一层次结点的作用基本相同, 没有明显的大小之分。

综合以上几点及挖掘对象的数据特性, 结合测评学生认知风格的挖掘目标, 本文选择分类技术中的决策树方法用于对网络学习信息库中的数据进行挖掘分析, 测评出学生的具体认知风格。

4.2 设计实现的主要步骤

第一步, 确定挖掘对象、目标。清晰地定义出问题, 认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果往往是不可预测的, 但要探索的问题应是可预见的。为了数据挖掘而数据挖掘则带有盲目性, 是不会成功的。本工具的挖掘对象是网络用户数据库中学生使用网络学习平台的信息, 挖掘目标是通过上述信息对学生的认知风格进行确定。

第二步, 数据采集。这是一个工作量教大, 占据时间较多的一个阶段。本工具的数据采集需要在现实学习环境和网络学习环境中收集相关的各类数据信息。有些数据的产生可以直接获得, 有些数据需要使用数据挖掘工具才能获得, 有些数据需要对学生进行调查后获得。

第三步, 数据转换。这一步是将收集到的不同的数据信息集成并转换为一个数据分析模型, 使得采集到的数据适合于本工具的挖掘。

第四步, 数据分类挖掘。分类挖掘的目的是为了建立一个分类模型。本工具首先选择合适的挖掘算法, 并使用合适的程序设计软件实现这一算法, 接着对经过转换后的数据对象进行挖掘, 得到测评学生认知风格的决策树。

第五步, 获取分类规则和结果分析。这一步主要用于对本工具所获得的学生认知风格测评结果进行分析和评估。

第六步, 知识的应用。这一步是将本工具所得到的结果应用到网络学习平台的设计和学习材料的呈现方式中去, 以改进平台的功能策略和提高学习者的学习效果。

按照以上设计步骤, 本工具成功地对远程网络学习者进行整群抽样测试, 得出测试数据, 并通过分析数据, 确认远程学习者认知风格的类型。本文只阐述了认知风格测评工具的体系结构和实现流程, 可以预测配以具体设计模块和实验结果, 本工具将有着良好的实用能力。

参考文献

[1]尤天舒.基于决策数算法的物理学科个性化学习评价系统[D].长春:东北师范大学, 2007.

基于C#的数据筛选工具的开发 篇9

关键词:C#,.net,Region,IsVisible

在物探、地质等工作中, 经常需要从一大堆数据中筛选出一部分数据进行分析。对于筛选要求较为简单的工作, Ecxel等工具就能完成。而对于一些比较复杂的筛选要求, Excel等工具无能为力。比如, 由一堆坐标和其对应属性组成的数据中, 筛选出某一不规则形状的坐标和对应属性的数据。

图1为内蒙某矿区高精度磁测扫面数据图, 该矿区扫面东西长1.6km、南北长1.5km。图中红线所圈区域存在较明显的高磁异常, 在后期的处理分析时, 需要利用拐点坐标1-5筛选出红色所圈部分, 单独处理成图。

图2为某工区磁法扫面范围示意图, 图中黑线范围即W1-W12号拐点所围范围为工区。在开工前必须对工区进行一定比例尺的测网布设, 即测网坐标的计算。由于该工区图形形状极为不规整, 所以坐标推算难度极高。如在该区外围设计一辅助测区, 图中红色部分。非常容易的推算出W1、W2、W3、W4所圈区域的坐标, 然后利用区内W1—W12号拐点构成的边界, 筛选出工区坐标, 工作程度相对降低。

鉴于目前的实际需要, 基于.net平台用Microsoft Visual Studio2010编写了小软件, 有效解决了上述问题。

1 界面设计

界面设计主要使用了3个textbox控件和3个button。

te xt Box1和te xt Box3大小相同, 位置重合, 其中te xt Box1位于上方。分别用来显示待选数据和选后数据。text Box2用于输入筛选框坐标。

2 代码编写

单击“数据导入”button按钮, 利用函数Stream Reader、Re ad Line读取原始文件, 并将数据赋予te xt Box1窗体, 供显示检查数据。

单击“筛选”button按钮, 读取筛选框text Box2中的数据, 并建立Region, text Box1窗体隐藏, text Box3窗体显示。下面的程序将逐行读取text Box1中的数据, 并进行判断, 是否在text Box2中数据所建立的Region。如果在Region内, 将其填入text Box3中, 如果不在其中, 将其舍弃。

单击“保存”button按钮, 利用Stream Writer函数将tte xt Box3中的数据写入文件。

3 结语

本程序主要利用C#的Region及其Is Visible函数, 判断某组数据是否在其所构成的范围内, 简单快捷的筛选出我们需要的数据范围。大大的简化了工作程度, 减轻了劳动强度。

参考文献

潮汐数据分析工具软件的编写 篇10

1 潮汐分析的最小二乘法

潮汐按照涨落周期和潮差可以分为正规半日潮、不正规半日潮、正规日潮以及不正规日潮[1]等, 常用主要有M2、S2、N2、K2、K1、O1、P1、Q1、M4、M6、MS6等分潮, 各分潮具有不同的周期与振幅 (通常为相对振幅, 取M2=100)。潮汐分析的最小二乘法则是根据不同的潮汐分潮组合来构建潮汐模型,根据验潮站原始观测数据以及潮汐模型的预报值之间的残差,利用残差的最小二乘法来估计潮汐模型的系数。其中, 潮汐模型系数由分潮振幅与各分潮的延迟系数构成, 这样在以保证在满足无偏性、估值方差最小以及一致性的特征下使得潮汐模型系数达到最优。潮汐模型可以用方程式来描述:

式中, a0就是计算期间的平均海面, Ri为潮波的平均振幅, m为分潮的总个数, qi为各分潮的角速率, θi为分潮的各分潮延迟相位, ξ(t)为时刻t的潮高。

在最小二乘准则[2]下, 使得:

式中为计算潮高, ξ(t)为实测潮高。

这样得到了潮汐模型的系数矩阵 (各分潮的振幅Ri与延迟相位θi), 利用这些 参数结合 式 (1) 可以进行 潮汐预报 。

2 潮汐数据分析软件的设计结构

潮汐数据分析软件采用输入数据流-处理-输出数据流的瀑布型设计模式开发, 在进行潮汐数据处理之前, 需事先从分潮集合里选定不同的分潮组合, 其中输入潮汐观测数据流采用文本文件格式给出, 输出潮汐模型系数数据流采用规范格式加以输出, 即潮汐系数 (振幅与延迟相位) 与原分潮相对应, 通过这些数据可以得到分潮的组合模式以及潮汐模型。图1列出了潮汐数据分析软件的设计结构。

3 潮汐数据分析软件的编写

潮汐数据分析软件由潮汐数据文件读写、潮汐数据处理以及潮汐模型系数输出3个模块构成, 不同的模块的软件代码如下:

3.1 潮汐文件读写模块的具体代码

3.2 潮汐数据分析处理模块代码

这里Matrix Mutiply (Matrix *A, Matrix *B) 以及Rotate、Substract、Inverse Matrix均为矩阵 运算函数 , 具体代码 这里省略。

3.3 潮汐模型数据输出模块代码

4 潮汐数据分析软件测试

通过对验潮数据的输入可以得到一段时期内的水位观测数据, 利用分潮模型式 (1) 在满足条件 (2) 下得到各分潮系数, 利用此系数可以预报下期的潮汐水位数据, 得到的分潮模型系数可以经过保存打印输出。图2为具体的潮汐分析软件界面及处理流程图。

摘要:读取原潮汐观测数据文件,选取潮汐分潮生成带参数的潮汐模型,编写潮汐数据分析工具软件来确定潮汐模型各分潮系数,以预报不同时段的潮汐值。

数据挖掘工具 篇11

数据处理生产率是许多企业关心的问题, 尤其是对于空间数据处理的GIS公司来讲, 在当前数据采集技术人员与数据处理工程师工资增长的同时, 计算机价格却在下降, 因此如何利用计算机技术提高数据处理生产率?这个问题显得尤为重要。本文主要介绍空间数据采集、整理、核查 (监理) 、入库、更新、分发、输出全生命周期管理过程中, 如何利用计算机技术来提高数据核查的处理效率。

针对空间数据格式的不一致, 数据标准的差异化, 传统的基于结构化分析与结构化程序设计的GIS数据核查程序往往不能快速适应应用的变化, 其主要原因有两个方面: (1) 缺乏对数据需求的统一分析; (2) 在应用程序整体设计上欠佳考虑。

为了解决上述问题, 在对数据需求的分析上我们根据James Martin的《战略数据规划方法学》理论, 采用自顶向下的数据规划需求分析方法对数据进行逐层求精如图1所示, 消除数据的冗余性与差异性。

在应用程序整体设计上我们采用面向对象分析与面向接口设计的方法, 对其进行更高层次的抽象, 实现接口定义与功能实现的分离;通过采用数据核查方案的组织方式, 实现逻辑图层与物理图层之间的映射。从而保证整个应用程序可扩展、可维护。

1 系统设计思想

1.1 基于GIS组件的二次开发

空间数据核查工具开发属于应用型的GIS开发, 针对应用型GIS开发, 目前主要有三种开发方式可供选择, 其分别是独立开发、宿主型二次开发和基于GIS组件的二次开发。三者开发方式之间的优点与缺点如表1所示:

综合上述三者之间的对比, 本系统中选择基于GIS组件进行二次开发, GIS组件采用国内市场占有率第一的ArcGIS Engine, 二次开发语言选用当今业界流行的.NET C#。通过两者的结合, 快速实现GIS数据核查工具的设计与开发。

1.2 基于数据核查方案进行数据组织

对于数据核查方案如何进行组织是本工具设计的重点与难点, 根据以往项目的经验, 有两种方式可供参考:

一是根据业务需求在开发时进行硬编码设计, 这种方式在用户需求固定的情况下可以达到快速实现的效果, 但是对于业务需求可能发生变化, 其存在以下几个缺点: (1) 系统维护困难, 用户需求或者相关标准发生变化, 数据核查方案不能马上得到更新, 必须修改代码、重新编译、发布后才能更新; (2) 系统扩展困难, 由于系统在设计时没有将业务核查的设计与实现进行分离, 造成新的业务需求不能有效集成与扩展; (3) 系统重用困难, 由业务设计与实现耦合得太紧密, 造成同类型的核查项不能有效得到重用。

二是根据核查的业务需求, 采用面向对象的设计思想, 按照业务模型进行数据核查方案的组织。这种方式方便维护、易于后续扩展、可复用度高。但是在设计与开发上要求设计人员要有较高的设计能力, 才能较好地实现设计与功能实现的松耦合关系, 从开发的时间角度出发相比第一种方式时间会稍微增加。

综合两者的优缺点, 在本工具设计中我们采用第二种方式进行核查方案的组织。一套核查方案包含1到多个核查图层、一个核查图层包含1到多个核查规则。对于核查图层我们采用逻辑图层与物理图层进行分离的方式进行管理, 这样就可以方便我们在没有物理图层的情况下也能够根据用户的业务需求进行核查方案的组织, 实现组织方式的灵活性。

其组织结构模型如图2所示:

1.3 基于面向接口设计

考虑到数据核查工具的可复用性与可扩展性, 比如对于面状数据的无缝隙检查, 既是国土行业数据质量控制过程需要检查的内容, 同时也是规划行业质量控制过程中需要检查的内容, 这就要求我们在系统的设计上能够做到功能模块重用或者少做改动。

所谓接口与非接口设计是针对复用技术而言的, 与面向对象 (过程) 不是一个问题。从更深层次理解, 其是定义 (规范、约束) 与实现 (名实分离的原则) 的分离。我们一般在实现的时候, 通常是将定义与实现合为一体, 不加分离, 这就导致后续复用与扩展的困难。

在数据核查工具的设计上我们采用面向接口的方式进行设计, 如在本系统中我们通过定义数据核查接口IDataCheckRule, 具体功能实现通过继承IDataCheckRule来实现, 从而很好地实现定义与实现的松耦合关系。

1.4 基于PropertyGird控件进行交互

在进行本工具的规则设置表现界面设计时, 我们考虑到如果每一个规则对应一个窗体界面, 将会造成代码量与类文件的增加, 随着核查规则库的不断丰富系统将不便于维护, 同时由于窗体界面表现的不一致性, 将会造成用户使用难度的增加。因此选择一个统一的界面表现形式显得非常必要, 而PropertyGrid控件的特性恰好能满足我们的要求。

.Net框架PropertyGrid控件是Visual Studio.NET属性浏览器的核心, PropertyGrid控件显示对象或类型的属性, 并主要通过使用反射来检查项目的属性。在应用程序中的很多地方, 我们都可以使用户与PropertyGrid进行交互, 从而获得更丰富的编辑体验。例如, 某个应用程序包含多个用户可以设置可选项目, 其中一些可能十分复杂, 我们可以使用单选按钮、组合框或文本框来表示这些选项。

2 系统总体及功能设计

2.1 系统总体设计

GIS数据核查工具主要基于.NET C#+ArcEngine环境的基础上进行开发, 能够实现对shape文件、Personal GDB、SDE、File GDB格式的空间数据的核查检查。其总体设计结构如图5所示:

其总体界面表现效果如图6所示:

2.2 系统功能设计

经过分析, GIS数据检查工具主要包括核查方案管理、错误报表管理、数据核查定位接口、图层匹配管理、核查规则管理五部分功能, 其功能结构如图7所示:

系统功能结构与描述如表2所示:

3 结束语

针对实际工作的需要, 本文对GIS数据核查工具的设计思想、总体设计及功能设计进行了讨论。目前该工具已完成设计和开发, 可以预见其将在数据的全生命周期管理中得到较好的应用, 有助于数据质量的控制, 将成为业内处理人员解决问题的好帮手;同时, 可以作为独立的工具产品对外进行销售。当然, 由于人力资源与时间的关系, 系统设计上还存在一定的局限和不足, 在对规则库的自动化管理上尚需进一步完善。

参考文献

[1][美]马丁 (James Martin) .战略数据规划方法学[M].耿继秀, 陈耀东, 译.北京:清华大学出版社, 1994.

[2]李小平, 肖岳峰, 宿元, 等.基于J2EE多层架构的Web开发框架研究[J].计算机应用研究:2008 (5) .

[3]GIS二次开发简介[EB/OL].http://www.gispark.com/html/devel-op/2006/1020/378.html, 2006.

[4]WHEELORIGHT, S C, AND MAKRIDAKIS, S F orecasting Models for Management[M].John Wiley&S ons, Inc., New York, 1985.

[5]YOKUM, J T, AND ARMSTRONG, J.S.Bey ond Accuracy:Comparis on of Criteria Used to Select F orecasting Methods[J].International Journal of F orecasting, 1995 (4) .

上一篇:治安问题下一篇:烧伤治疗论文