过程数据

2024-06-24

过程数据（共12篇）

过程数据篇1

随着信息时代的发展,人们在生活中往往会面临大量的数据,需要根据问题收集数据,通过数据分析获得有价值的信息,从而做出合理的决策和预测。因此,树立利用数据的意识,掌握一些分析数据的方法和模型,将成为现代社会一种必不可少的能力。从教学层面来说,发展学生的数据分析观念、培养学生的数据分析能力尤为重要。如何通过有效的统计活动,培养学生的数据分析观念呢?下面,笔者结合苏教版五年级上册《复式统计表》一课来谈一谈自己的实践与思考。

一、以问题解决为驱动,树立收集数据的意识

【片段1】你想了解什么

出示“古筝、葫芦丝、笛子、小提琴”四种乐器图片。

师:你喜欢哪种乐器?你还想了解什么?

生1:我想知道我们班喜欢哪种乐器的人数最多?哪种最少?

生2:我想了解男生、女生喜欢哪种乐器的人数最多?男、女生对这些乐器的喜好有没有区别?

师:想要了解这些问题,该怎样做?

生(众):调查统计。

思考:统计教学应从问题出发,引发学生学习和探索的需要,驱动学生的数学思考,让统计确实成为需要。上述设计首先紧扣“要想了解‘男、女生对这些乐器的喜好有什么区别?该怎么办?’”这个具体的问题,引发学生收集和整理数据的内在需求,使学生真切体会到现实生活中有许多问题需要先做调查研究,收集数据,通过分析做出判断,凭借数据来“说话”,开展调查能够帮助我们更好地解决问题,感受研究问题的科学方法。

二、经历真实数据统计分析的全过程,感受统计的价值

【片段2】你如何了解

师:你们打算如何调查呢?

生1:举手统计。数一数全班喜欢各种乐器的男、女生人数各有多少?

生2:把自己喜欢的乐器写在纸上,再交上来进行统计。

师:同意吗?但是直接全班调查,范围比较大,人数比较多,有什么好办法吗?

生3:可以先分小组进行调查,然后再进行全班汇总。

展开调查。任务要求:每人只能选一种乐器,组长统计小组情况,班长汇报全班情况。所有学生将人数填入单式统计表。

(表格略)古筝:男2,女11,合计13人;葫芦丝:男10,女0,合计10人;笛子:男7,女1,合计8人;小提琴:男8,女9,合计17人。

组织抢答比赛:

女生:(1)喜欢葫芦丝的男生多还是女生多?(2)喜欢笛子的学生一共有多少人?

男生:(1)喜欢哪种乐器的男生最多?(2)这个班的学生一共有多少人?

师宣布女生获胜。

男生(众):不公平。

师:怎么不公平了?

生:女生的问题只涉及一种乐器的人数情况,只需观察一张统计表。而男生的问题涉及四种乐器的人数情况,要看四张统计表,还需要进行计算。

师:这样看来,单式统计表的信息比较分散,不集中,不便于分析和比较。有什么好的想法吗?

生:把四张单式统计表合并成一张大表。

合并要求:(1)拿出四张单式统计表,小组内交流合并想法。(2)尝试合并,对合并后的统计表进行修改和调整,想一想,怎样才能更简洁、明了?(合并过程略)

(引导合并、优化,并出示复式统计表,回答之前提出的问题)

师:与前面的单式统计表相比,复式统计表有什么优势?

生1:既包含了四种乐器的人数情况,还可以反映出整体人数情况。

生2:把信息集中起来,便于对各种人数情况进行分析和比较。

(引导并指出:信息全面、便于分析)

师:在这四种乐器中,如果班上开设一个乐器兴趣小组,你有何建议?

师:根据统计结果,再来回答问题或做出决定,这样有什么好处?

生8:不盲目,根据调查统计而得到的结果,比较可靠。

思考:上述教学在问题解决的任务驱动下,开展一系列的学习活动:先通过分组调查、全班汇总的方法收集并整理数据;再根据问题的背景选择合适的方法———复式统计表来描述数据,此环节将统计知识和方法的学习融于解决实际问题的活动中,有利于学生体会复式统计表的意义和作用;接着引导学生分析数据,解决之前提出的问题,并做出判断和决策“开设什么乐器兴趣小组”。帮助学生经历数据的收集、整理、描述和分析的统计全过程,让学生了解统计对调查实际问题、反映结果、研究和判断相关问题的作用,充分彰显统计活动的价值,积累统计经验,发展统计观念。

三、提供开放的数据分析,体会数据中蕴含着丰富的信息

【片段3】你了解到什么

出示数据:

师:针对各班参加体育活动的情况,你有何想法?

生1:喜欢打乒乓球的人数比较多,喜欢跳绳和踢毽子的人数差不多。

生2:五(1)班和五(3)班都是喜欢打乒乓球的人数最多,踢毽子的人数最少。

生3:五(2)班参加体育活动的人数比较少,需要加强体育锻炼。

师:相同的数据,从不同角度去分析,可以得到不一样的结论,数据中蕴含着丰富的信息。

思考:统计研究的基础是数据,核心是通过数据分析来实现对相关问题的了解和把握,数据分析是统计的核心。上述教学设计不仅仅满足于学生能从统计表中获取“数据的多少”“数量的大小”等信息,而是处于一个更高点来处理教学,通过开放性的综合数据分析,让学生了解对于同样的数据可以有不同的分析方法,需要根据问题的背景来选择合适的方法,从不同的角度分析数据,得到的结论也会存在差异。感受数据中蕴含着的丰富信息,增强学生利用数据的意识,发展学生的数据分析观念。

四、创设丰富的学习活动,体验数据的随机性

【片段4】你来做“决策”

师:观察上表中的数据,我校准备面向全校开设体育兴趣小组,如果你是校长,你的决定是…

生1:开设乒乓球兴趣小组,因为喜欢乒乓球的人数最多。

生2:先调查一下其他年级参加体育活动的情况,因为这里只是五年级学生参加体育活动的情况,不能代表全校。

师:学校开设体育兴趣小组,仅仅根据五年级的体育活动情况做出决定,合适吗?

生:可以扩大调查的范围,进行一个全校性的调查。

出示数据:

生1:开设跳绳兴趣小组,因为全校喜欢跳绳的总人数最多。

生2:还是开设乒乓球兴趣小组,虽然喜欢跳绳的总人数多,但高年级喜欢的人数较少,而喜欢乒乓球的人数处于跳绳和踢毽子之间。

生3:可以根据低、中、高年级学生参加体育活动的情况,开设不同的体育兴趣小组。

师:不同的年级,对体育活动的兴趣也不一样,仅根据一个年级推断全校是不科学的。数据范围越广,得到的结论就更加准确、合理,更能够说明问题。

思考:“面向全校开设体育兴趣小组,如果你是校长,你的决定如何?”设计这样具有现实意义和挑战性的情境,把学生推向“决策人”的高度,让其置身其中,目的就是为了让学生“慎重决定”,让学生思考以“五年级的体育活动情况”推断“全校体育兴趣小组的开设”是否合适,推理中用到的样本数据是否具有足够的代表性。其他年级的情况也许和五年级存在差异,需要有一个“扩大调查范围”的过程。使学生体会到:运用部分来推断总体不一定就是准确无误的,或者说从一个数据总体中得到的信息有时是不能应用到另一个总体上去的,要有足够的数据才能从中得到更加可靠的判断和结论。

培养学生的数据分析观念对学生有着重要的发展性意义。数据分析观念的形成,依赖于经验,而这种经验的获得,则需要学生的亲身经历,让学生认识到数据的作用,形成用数据统计分析来思考解决问题的意识和策略,增强用数学观念观察问题、分析问题的意识,培养科学探究的态度。

过程数据篇2

----PDMS数据导出模块开发过程小结

开发部副经理郑旭

PDMS数据导出模块已经基本完成了，能够顺利地导出元件库、等级库。对于设计库、属性库等其它库的导出，只要按照已有的框架编写代码就可以很容易的完成了。这个模块能够顺利完成，还依赖大家的相互协作，在此，我感谢在开发过程中给予过我帮助的所有的人。

因为已经完成，这篇应该算是回忆录了，但将思绪转到从前，却又无从整理出一个头绪，很难用一些合适的文字来表述这段时间我所学到的东西。

还记得刚下达任务的时候，我已经将底层熟悉了，并且对底层做了应用的维护和拓展，正打算进一步熟悉等级库和元件库持久层访问模式，以求与设计库达到统一。对于突然到来的任务，我有点措手不及。对于PDMS的数据库，我几乎是什么都不懂，不知道它是以什么形式来存储，也不知道它到底是一种怎样的结构？难道就仅仅是我们目前所看到的那种层次数据库吗？很茫然，根本找不到任何突破口，摆在我面前的就是那些不知名格式的文件，一大堆，尽管想用办法显示它的内容，一切都是徒劳。

突然听同事说PDMS有它自己的DARs（Data Access Routines），并且前辈们已经用这些接口读到过某些元件的属性，我喜出望外，有救了！于是在同事的指导下找到了这些动态库以及接口声明，结合相关文档的阅读，很快有了结论：PDMS有它自己的数据库存储文件，它对外部提供了一些接口，用以读取数据表中某个字段的值，这些函数是FORTRAN语言实现的，但它提供了 C/C++接口，接下来的工作就好安排了。

测试接口是一件很麻烦的事，也是具有挑战性的。本来以为可以很顺利地试验成功，但现实却给我们制造了不小的麻烦。首先是并没有环境配置这种概念，直接拷贝了库中的一个例程进行测试，并抱着必胜的信心，结果事与愿违，使用那些访问接口根本就无法启动PDMS软件，那么就无法用这些访问接口访问PDMS的数据库了。还好，有同事一眼就认出PDMS平台需要配置自己的环境。还是很纳闷，对环境这个概念好像是一无所知。也并不知道应该配置些什么。还好，偶然中发现了安装目录下PDMS的环境配置文件，继而了解了启动时所需的环境配置，在同事的帮助下，写了个启动时的批处理文件，这样，PDMS的启动问题得到了解决。

接下来就是对接口的无数次测试。虽然能够访问PDMS了，经过试验能够打开PDMS了，可是当想要定位到具体的某个数据库时却又出现了问题，尽管输入了正确的数据库名，尽管对打开时的批处理文件做了相应的修改，错误提示始终是找不到数据库。相关的英文文档我也看了，可就是找不出个所以然。可我一想，既然能提供出这种接口，那么肯定不会有错的，难道我对英文的理解有误？我再仔细阅读，然而始终就是那几个例子。“DESI/GN”、“CAT/ALOGUE”，“CAT/PIPE”,„„，而我的写法就是数据库名，忽然想起PDMS中有这样一种约定，名字前必须要用“/”，于是随便试了下，果然，这招成功了。有点欣喜若狂，前面那些例子似乎也逐渐明朗起来，前面部分应该是表示模块，后面部分就是数据库组的名字了。在此之后，测试工作有了很大的进展。（其实到后来才发现，参考文献的后半部分有说明，只是为了争取时间，所以没有阅读参考文献的后面部分，但在后续接口功能及参数的查询中起到了至关重要的作用。）

测试了所有的接口，对其含义和命名规则都熟悉了，接下来的事便是要合理的设计这个模块的架构，希望它能成为一个独立的功能添加到我们的软件当中。还好，在接受这个任务以前是做底层分析与维护的，因此对我们整个软件的架构还是比较熟悉，再加上对重用代码有浓厚的兴趣，因而这边没有太多的难点。经过考虑，觉得写数据库部分可以重用我们软件的逻辑，而在模块的域领域中不能涉及我们软件的域逻辑。而对于数据库模式，决定用广度优先遍历的方式对数据库进行访问。一切进展得很顺利，在几个工作日后，PDMS的ANSI标准元件库终于展现在我们眼前，看到成果了，心情当然激动。

在设计架构以前考虑过由于数据库与等级库、元件库访问数据库的方式有所不同，由于设计库的特殊性，在数据库中维护了领域中的逻辑（这可能是数据库设计的一个瑕疵），从而导致潜在的风险，架构对设计库不起作用，而事实证明，确实存在这样的问题。当时的想法就是有两种解决方案：一：数据库仍然维护领域层中的逻辑，但是维护方式改变，使得这种关系是由节点自己维护，而无须通过其他域对象；二：改变数据导出模块中的领域层，是之对设计库逻辑和元件库等其他库的逻辑都使用。虽然有了方案，但各有利弊，不好取舍。在综合了多方面考虑之后，最终还是采取了第二种实现方式，使得各个库的导出逻辑得到了统一。

在整个设计过程中，虽然遇到了不小的挑战，但我总是以一种乐观的心态去面对这些，虽然有时候也曾低落过，而心中那种必胜的信念从没有减弱。我相信，既然能发现问题，那么就肯定有一种合理的方法来解决它，那只是时间的问题。

完成了，重担似乎卸下了，便有更轻松的心情去迎接新的挑战！

过程数据篇3

【关键词】高中；《数据管理技術》；过程性评价

【中国分类法】：N37

随着对教育评价性质与功能认识的逐渐加深，人们提出了过程性评价。评价的本质就是对事物或者过程的价值做出的判断、决定等。过程性评价就是在课程实施的过程中对学习进行评价的一种方式，其评价对象是学习的目标与过程并重，并且能够对学习中的一些非智力因素进行全面的评价。

一、高中《数据管理技术》过程性评价的意义

高中《数据管理技术》的课堂教学过程中，并没有完善的教学模式和成熟的评价体制，很多学生在该课程的课堂学习中虽然有着很大的学习热情，但是并不能够按照教师的思路进行完整的课堂内容学习，导致了在课堂教学过程中学生课堂学习效率低下。如何引导学生更好地对学习进行投入而提高课堂效率，这就要求要培养并提高学生的自学的能力。通过在课堂教学过程中对学生的学习情况真实认真的评价，能够引导学生更加认真、更加高效地上课。

新课程中的评价理念要求注重对学习过程的评价，将学习的过程与评价的过程进行融合，这就形成了过程性评价的理念基础。结果型评价主要注重的是对学习结果的评价，主要是区分学生之间的态度和行为表现，而过程性评价主要注重的是对学习过程中学习动机、学习过程与学习结果三位一体的评价，主要的目的是全面的了解高中《数据管理技术》的学习过程，促进学生学习的提高、教师教学的改进，增强学生的数据管理素养。

二、高中《数据管理技术》过程性评价的原则

在高中《数据管理技术》的教学中进行过程性评价有着非常重要的意义，合理的过程性评价能够提高学生学习数据管理技术的兴趣。在进行过程性评价时，要遵循一定的原则：

（一）全面性原则

在对学生进行评价的时候要注意到评价的全面性，除了对学生的学习成绩做出评价之外，还要注重对学生的学习态度、学习兴趣、学习能力等这些“非认知”的行为进行评价，例如道德、合作能力、创新能力、组织能力等。

（二）激励性原则

在教学的过程中对学生进行评价是学生学习动力的来源，在过程评价中要对学生进行激励性的评价，激发学生学习的信心与动力，让学生感受到成功带来的愉悦，从而增强进一步发展的追求。

（三）自主性原则

评价的主要目的就是要调动和调整学生的自主学习的行为，通过评价能够让学生对自己的数据管理技术的学习成果进行自我评价与自我检查，一方面要确认自己的进步，增强学习的信心，一方面要发现存在的不足，在之后的学习过程中不断改进。

（四）多样性原则

在过程性评价的过程中要注重评价方式的多样性，通过多种形式的评价方式的采用来全面的促进学生高中数据管理技术素养的提高。

三、高中《数据管理技术》过程性评价的方式

（一）电子学习档案袋

每位同学都建立一个电子学习档案袋，将自己在课堂中的学习收获放入档案袋中，记录整个学习数据管理技术的过程。电子学习档案袋能够将学生学习数据管理技术的过程都记录下来，包括典型的范例、基本练习、作品收集及学习感受等。学生可以在档案袋中找到自己学习进步的主要资料，真切的了解到自己的成长与进步，提高学习的自信心，而且还有利于教师对学生的学习情况进行了解，从而改进教学方法，实现因材施教。

（二）评价量化表

量规是结构化的定量评价标准，从评价目标的多个方面对其规定详细的评价指标，可操作性强、准确性高。制定并公布量规对学生的学习有着导向的作用。在过程性评价中，过程性评价量化表是一种非常有效的工具，能够提供评价的依据，是评价记录的载体，促使过程性评价成为了一种非常正式的、有约束力的学生进行自我评价与互评的一个过程，能够规范学生的评价行为，为学生的自我评价与互评创造氛围，为学生提高评价能力而创造条件。例如在《数据库建立与维护》这一章节中，就可以利用过程性评价量规表对学生的学习情况进行评价。

（三）多主体参与

新课程标准中要求评价应该实现评价主体的多样化和评价方法的多样化，评价的过程要实现科学、合理，这样才能够保证评价结果的准确和人性化。让学生主动地参与到评价中能够确保学生的主体地位，这样才能够使学生更加容易接受评价，提高学生学习的主动性。在过程性评价中，学生、教师、家长等要多方的参与，充分发挥不同主体的作用。

1.自我评价

以评价系统为评价的手段，让学生以自己在《数据管理技术》课堂上的表现来对自己进行自我评价，通过对自己行为表现的观察来进行自我判断，从而确定自己的学习目标。例如学生通过数据管理技术评价量化表来对自己的作品进行评价，并将自己的电子作品与评价一同放入到电子评价档案中。

2.小组评价

在数据管理技术的课堂中，经常会出现小组合作学习的情况，可以通过最佳小组、最佳个人、最大进步等奖励方面的制定来进行小组评价，将学生个人的表现与小组的成绩连接起来，提高学生的合作意识。例如，小组成员在完成数据库建立的作品之后，进行小组互评，然后选择优秀的作品参加“班级展评”。

3.教师点评

在平时数据管理技术的课堂中，每节课都需要教师对学生的课堂表现进行鼓励性的点评。教师点评所用的评语不应该有固定的模式，要具有针对性，并简明扼要，尽量做到与众不同，使用一些鼓励性的语言来对学生的学习状况进行客观、全面的描述，对学生的进步和发展进行肯定，对学生的不足进行指导改正，发现学生的潜能，树立学生学习数据管理技术的兴趣和信心。教师点评一般包括两个阶段，一个是对学生上传作品的点评，一个是对班级整体的点评。

总结：

在数据管理技术的教学过程中，不仅仅要对学生的学习成效进行评价，更加主要的是通过全面的评价来促进学生数据管理素养的提高。在过程性评价中要注重评价原则，正确地选择评价的方式，发挥评价的作用，通过过程性评价来提高学生的学习兴趣和信息，促进学生的学习和端正学生的态度。

参考文献：

[1]刘胜文,卞显红.高中语文模块学习过程性评价的实施策略及反思——以浙江省温州市第十九中学为例[J]．教育测量与评价(理论版)，2010，30(01)：83-84.

[2]杨伟杰．高校教师教学质量过程性评价系统的设计与实现——基于Assessment Portfolios的实践[J]．现代教育技术，2010，35(06):77-78.

[3]郭晓宏.中等职业学校计算机专业《电子商务概论》学习效果的过程性评价实践探究[J]．吉林广播电视大学学报，2013，29(09):1254－1255.

过程数据篇4

关键词：数据质量,管理框架,评价指标,评价方法

0 引言

数据质量可以简单地定义为“满足最终数据用户期望的程度”[1]。数据作为重要的信息资产, 其质量高下直接影响着数据效能的发挥, 低质量的数据将给数据使用的主体带来巨大损失。Card&Payments的一项分析报告表明, 每年仅仅因为错误或重复的客户信息就使企业多付出了6千多亿美元的成本[2]。还有报告指出, 仅在2007年, 不合格的数据使保险业付出了140亿美元的成本, 使银行业付出270亿美元的运营成本[3,4]。

1 数据质量管理框架

理解生命周期 (Life Cycle) 的思想对于管理任何资源都是重要的, 这一周期是指某事物整个有用生命的变化和发展过程。Danette McGilvray将信息生命周期划分为6个阶段, 并用首字母将其命名为POSMAD, 分别是:规划 (Plan) 、获取 (Obtain) 、存储和共享 (Store and Share) 、维护 (Maintain) 、应用 (Apply) 、报废 (Dispose) , 如表1所示[5]。

数据质量的管理应该贯穿到整个数据的生命周期中, 文献[5]还基于数据质量提高周期提出了10步流程, 如图1所示。

结合表1和图1不难看出, 对数据进行质量校验和评估, 然后向用户和数据建设者沟通评估情况是提高数据质量的重要环节。

2 数据质量评价模型

数据质量维度是质量的特征, 它们为度量和管理数据质量提供了一种途径。在建立数据质量评价模型时, 首先要做的是选择数据质量维度, 然后据此建立数据质量评价指标体系, 最后基于指标体系设计评价算法。

2.1 数据质量维度

Danette McGilvray归纳出数据质量的维度有12项, 如表2所示[5]。

数据组织环节中的质量评价并不需要从表2所列的所有维度进行评估, 应该根据需要选择要评价的质量维度。选择的依据有两点: (1) 是否应该评价该维度; (2) 能否评价该维度。

数据的组织是介于数据资源建设和数据运用中间的环节, 因此数据的组织者不应以建设者的身份对数据建设规划与建设环节的相关维度进行评估, 如可维护性、数据覆盖等, 也不能以应用者的身份来评价数据的有关维护, 如及时性、可用性、易用性、可理解性、相关性和可信度等。

综合上述分析, 数据组织过程中的数据质量评价应从以下4个维度进行: (1) 数据规范性; (2) 数据完整性; (3) 数据重复性; (4) 数据准确性。

2.2 数据质量评价指标

基于上节选定的数据质量评价维度, 可建立相应的数据质量元素。数据质量元素及其评价规则如表3所示。

记S为数据库中的关系, Ai (1

定义1记录规范性 (αi, j) :设f是数据项规范性映射函数, 且fA (vi, j, cj) ∈{0, 1}, cj是第j个属性的参考规范。αi, j定义为:

定义2元组规范性:记元组ti的各数据项的正确性为αi, 1, αi, 2, …, αi, m, 则定义为:

显然, 说明ti全部规范;说明ti全部不规范;表示ti的规范程度。

定义3元组缺失率 (β1) :设ntrue表示S本应具有的元组个数, n表示S的实际元组个数, 则:

1-β1为元组完整率。

定义4记录缺失率 (β2) :设为元组ti中值为null的字段个数, 则:

定义5数据重复率 (γ) :设ntrue表示S本应具有的元组个数, n表示S的实际元组个数, 则:

1-γ表示数据重复率的反向指标, 值越大则该项质量越好。

定义6记录准确性 (δi, j) :设g是数据项规范性映射函数, 且。δi, j定义为:

如果vi, j正确, 则δi, j=1, 否则δi, j=0。

定义7元组准确率:记元组ti的各数据项的正确性为δi, 1, δi, 2, …, δi, m。定义为:

显然, 说明ti全部正确;说明ti全部不正确;表示ti的正确率。

2.3 数据质量综合评价

数据质量评价一般针对一个数据集进行, 一个数据集有多个关系。从上节的讨论可知, 每个关系有多个评价指标可以从不同方面进行评价, 一个评价指标的好坏并不能直接确定相关数据集数据质量的好坏, 综合多个评价指标进行数据质量评价时需要增加评价指标的权重, 进行综合计算。

先作如下定义: (1) DataSet是要评价的数据集; (2) R是其关系集, Ri (i

基于以上定义, 对数据进行综合质量评价可采用如下公式进行计算:

3 数据质量评价方法

数据质量评价程序是通过应用一个或多个数据质量评价方法来完成的, 数据质量评价方法可分为两个主要类别:直接评价法和间接评价法[6], 其分类结构如图2所示。

直接评价法通过将数据与内部或外部的参照信息, 如理论值等进行比对, 确定数据质量。间接评价法利用数据相关信息, 如数据志对数据源、采集方法等的描述、推断或评估数据质量。

数据组织过程中的数据质量评价目的是给出数据资源的质量状况报告, 检测出数据中存在的问题, 一方面将存在的数据质量问题反馈给数据资源的建设管理者, 作为其改进数据质量的参考依据, 另一方面将数据质量评价结果反映给数据用户, 作为其运用数据的参考依据。因此, 数据组织过程中的数据质量评价可采用如图3所示流程图中的方法, 向数据管理者反馈的评价结果主要是不符合评价标准的问题记录信息, 用于数据管理者改进数据质量的依据;增加 (修改) 描述数据集质量的元数据则是将评价结果写入数据集的描述信息中, 作为用户运用数据集时的参考依据。

4 结语

数据组织的主要工作是通过对数据进行选择、描述、加工、序化和存储等活动实现数据的有序化和优质化, 是衔接数据建设和运用的桥梁, 其主要目的是为了更好地运用数据。本文以基于生命周期的数据质量管理框架为出发点, 提出了数据组织过程中的数据质量评价模型和方法, 对于促进数据质量的提高、更好地运用数据具有重要意义。

参考文献

[1]K T HUANG, Y W LEE, R Y WANG.Quality information and knowledge management[J].Prentice Hall, 1998.

[2]KATE FITZGERALD.Weeding out bad data[R].Card&Payments, 2007.

[3]CYNTHIA SACCOCIA.Insurance industry perspectives on data governance:managing a valuable resource[R].TowerGroup, 2006.

[4]GUIL ERMOKOPP.Data Grovernance:Banks Bid for Organic Growth[R].TowerGroup, 2006.

[5]DANETTE MAGILVRAY.数据质量工程实践[M].刁兴春, 曹建军, 译.北京:电子工业出版社, 2010.

飞机总体设计过程中的数据管理篇5

飞机总体设计过程中的数据管理

飞机总体设计中所涉及到的是海量数据,且具有数据种类繁杂的特点,同时具有很高的安全性方面的要求. 在如何利用数据库技术对海量、繁杂的飞机总体设计数据进行合理、有效地分类组织管理方面作了一些探讨. 分析了总体设计过程中所涉及到的数据所具有的特点,对设计过程中的数据进行了归纳分类;提出了利用近年来迅速发展的`面向对象技术对飞机总体设计数据进行分类、管理的概念并给出了一个简单的实例;最后介绍了利用数据库管理飞机总体设计数据的一些需要注意的问题.

作者：王钢林武哲作者单位：北京航空航天大学飞行器设计与应用力学系刊名：北京航空航天大学学报 ISTIC EI PKU英文刊名：JOURNAL OF BEIJING UNIVERSITY OF AERONAUTICS AND ASTRONAUTICS 年，卷(期)：2002 28(4) 分类号：V221 关键词：飞机航空工程数据库总体设计面向对象

过程数据篇6

关键词：数据结构；“立体化”教材

中图分类号：TP311.12-4 文献标识码：A 文章编号：1674-7712 （2014） 18-0000-01

众所周知，《数据结构》是高职高专的一门必修课程，是计算机课程体系中的核心课程，《操作系统》、《编译原理》等重要课程都以《数据结构》作为前导课程。另外，几乎所有与计算机有关的考试都要涉及到《数据结构》的相关内容，因此，对于高职高专的学生来说学好《数据结构》是非常重要的。

一、高職高专学生教学过程中所遇到的问题

由于高职高专的学生的培养目标与现有的教学过程的矛盾，导致在学习《数据结构》的实际教学过程中，仍然存在着各种各样的问题。

（一）学习《数据结构》所需的前导课程基础薄弱

《数据结构》作为一门专业基础课程，其前导课程有《离散数学》，《程序设计基础》《C语言程序设计》或者《JAVA程序设计基础》。现在大部分学校所学都是类C语言版，或者C++，JAVA版的《数据结构》，大部分学生在一开始学习数据结构时，首先被语言阻挡在门外，语言不过关，看不懂算法，进而不想深入学习，也深不进去。甚至有的学校在课程安排上出现错误，学生没有学习《离散数学》，那么在后边学习《数据结构》中图的部门中拓扑排序等问题的时候，对于一些概念模糊不清，从而增加了学习的难度。

（二）数据结构中概念多，抽象性强，难于理解

《数据结构》是一门介于计算机硬件、软件和数学之间的一门学科，其中牵扯到的概念多，抽象性强，比如线性结构中的栈，好多同学在学习之后，对其特点和性能，都不容易理解，导致在做题或者上机实现的时候，会不知道从哪里下手。

（三）不重视动手能力的培养，上机实验成为很多高职高专学生学习《数据结构》的障碍

大部分的学生都有眼高手低的毛病，看懂了，听懂了，就认为自己会做了。其实不然，大部分的同学在前几次上机的时候，还是没有从以前编程的思想模式中走出来，上来就写，而没有转化成为我们《数据结构》中所提倡的算法+数据结构=程序，忽略了算法，更忽略了数据结构在上机编程中的重要性。

二、教学过程中的解决方案

针对于以上高职高专学生所遇到的问题，结合近几年的教学经验，提出了以下几点解决方案：

（一）加强前导语言的学习，重视基础

由于大部分的高职高专学生，在前导课程高级语言的学习过程中，所学的语言，语法较差，上机调试能力比较弱，需要教师在学习《数据结构》的有关算法的知识以前，系统的把教材所需要的语言串一遍，相关语法，知识点需要点出，比如线形表的结构体的定义，[1]

typedef struct{

Elemtype *elem；

int length；

int listsize；

}sqlist；

在这个线形表的定义中，用到了C语言里面的结构体定义和，而大部分高职高专的学生，在学习前导C语言的时候，由于课程计划所安排学时的限制，而没有学过相关的内容，出现了知识上的空缺，这就要求《数据结构》的任课教师，在课前需要把相关知识进行加深。

（二）夯实基本概念，多举实例，调动学生学习兴趣

《数据结构》是一门抽象性，概念性非常强的学科，大部分同学在学习的过程中都会觉得枯燥无味。这就要求教师在教学过程中，运用各种各样的调动学生学习兴趣的方法，来提高学生学习的积极性，要做到如下：

（1）多举实例。数据结构是一门和现实结合比较密切的学科，可以多举一些实际的例子，比如栈这一部分，可以给学生讲解，刷碗的时候，每刷完一个，往上叠加一个，相当于进栈，而我们从上往下拿碗的时候，相当于出栈，利用这个现实生活中的例子，讲授栈的后进先出的特点，学生更容易掌握。再比如图这一章中，可以和现实中的交通问题相结合来讲解关键路径、最短路径的问题。（2）开展各种各样的课堂讨论，以调动学生学习积极性。教师可以在上一节课结束之前，布置好下一节课讨论的内容，安排学生课下自己搜集资料，比如在学习哈夫曼树和哈夫曼编码的时候，安排学生搜集关于压缩编码的各种算法思想和实现方法，对比要学的哈夫曼编码，提出自己的看法，并进行时间和空间复杂读度的比较，得出结论。这样做不但可以很大的调动学生的积极性，在课堂上教授相关知识的时候，也有很好的效果。（3）重视实验环节。上机实验，是对学生全面综合素质考查的一种方法。实验对于《数据结构》的教学来说，起到了非常重要的作用。在实验课上，要求学生运用课堂上所学的内容，完成老师布置的实验题目，养成良好的规范的变成习惯，培养学生的编程能力调试程序能力以及操控变成环境的能力。把学生分成5至6个人的小组，然后分工合作，一起完成相应老师所布置的内容，培养他们的团队精神，和协作能力，进而逐步掌握课本上的知识。

（四）数据结构“立体化”教材[2]的建设

所谓的数据结构“立体化”就是指某一门课程的教材包，既有该课程的主教材，又有从不同角度，不同层次编写的辅助教材，既有纸制教材，又有音像制品是电子与网络出版物的有机结合的多媒体教材。在我们对高职高专的《数据结构》教学中，非常注重“立体化”教材的建设，我们采用了清华大学出版的严蔚敏版的《数据结构》，同时，为学生提供了，多种辅助材料，编写了相应的辅助辅导资料，同时我们建设了专门的《数据结构》学习网站，学生可以在网站上下载包括教案、实验要求、算法演示、考研习题、专升本习题等各种各样的学习资料，其中包括了动画、声音、图像等许多多媒体资料。

三、结束语

总之，尽管高职高专的学生，在学习《数据结构》的过程中，遇到的问题和困难很多，但是，只要我们采取恰当的、适合学生现状的方法，充分调动学生学习的积极性和创新性，让学生自觉地加入到《数据结构》的学习中来，逐渐地深入，感受到学习《数据结构》的重要性和必要性，那么我们一定能解决掉这些困难和问题，从而把这门课程教学、学好。

参考文献：

[1]严蔚敏，吴伟民.数据结构（C语言版）[M].北京：清华大学出版社，2003：22-23.

[2]王红梅.数据结构立体化教材建设[J].计算机教育，2006.

过程数据篇7

一、数据审核过程中存在的主要问题

1. 审核数据量大。

由于每个档案管理系统都会使用一到两年才会更新换代, 因此, 从《A档案管理系统》到《B档案管理系统》的数据迁移量很大, 需要审核的档案数据量就大。如果用手工筛选、查找不仅费时、费力, 还可能存在遗漏、重复等问题, 更主要的是会给将来的系统检索带来一定的困难。

2. 目录数据表格式与数据库文件格式匹配问题。

从《A档案管理系统》导出的目录数据表应与《B档案管理系统》的数据库文件格式相匹配, 如果不匹配, 导入到《B档案管理系统》也不会是有效数据。在实际工作中, 不匹配的情况时常出现, 这是数据审核应注意的问题。

3. 电子文件关联项重复。

如果许多电子文件重复链接, 导出的目录数据表就会存在电子文件关联项重复的问题, 因此, 相同的电子文件关联项只能保留一个。这就要求数据迁移时, 每个目录数据表内不允许存在相同的电子文件关联项, 如确实相同, 也必须修改, 删除重复的电子文件关联项, 并记录下来, 数据迁移之后再手动挂接。

二、数据校验工具的应用

鉴于人工审核的种种弊端, 智能化的校验工具体现了其强大的优势:

1. 操作简易。

数据校验工具操作简单, 使用时只需要选择配置文件和目录文件路径。配置文件作为一个模板, 决定了导入系统的数据格式, 所有已导入的系统数据都需要符合它的要求, 否则即使录入新系统也会被视为无效的数据。当点击配置文件对应的下拉菜单后, 可直接选择需要的配置文件类型。目录文件路径即选择待校验数据, 根据路径选择, 之后点击“校验”即可。点击“校验”后, 校验数据的错误会分别列出, 用户可按照校验工具指出的错误定位对数据进行修改。多次校验后直至校验工具弹出的提示是“没有发现错误数据校验成功”, 完成数据校验。

2. 准确性高。

首先, 数据校验工具的使用保证了著录项齐全、完整。校验结果常出现卷内文件表的题名责任者、文件序号、页号、归档单位、归档部门名称、密级等为空的提示。按照校验工具指出的错误定位在目录数据表中找到该件档案, 认真核对其实体档案, 将其补充完整;其次, 数据校验工具的使用保证了电子文件关联项无重复。校验工具可以校验出重复的电子文件关联项, 根据错误定位找到重复的电子文件进行相关处理;再次, 数据校验工具的使用保证了案卷和卷内文件相对应。通过“案卷和文件关联项”查明文件是否存在, 以适时补充或删除;最后, 数据校验工具的使用, 解决了格式匹配问题。数据校验工具与导入系统的数据库结构相匹配, 通过校验可以找到目录数据表的格式与导入系统的数据库文件格式不匹配的地方, 根据错误提示进行修改, 直到提示没有错误。

3. 效率较高。

应用数据校验工具会极大提高工作效率, 审核数据量越大, 提高工作效率的程度越明显。以会计档案为例, 2万多条会计类档案目录数据, 40多万个著录项, 如果用手工筛选、查找的方式检查目录数据中各著录项是否齐全、完整, 至少要4天以上的工作时间, 而应用数据校验工作仅用2天时间就完成了会计类档案全部的审核工作。

三、数据校验工具的优化设计

数据校验工具的使用虽然可以大大的降低劳动强度、提高工作效率, 但依然需要大量的时间和精力做好前期的数据统计工作。针对数据校验工具在使用时存在的弊端, 对数据校验工具进行优化设计, 主要从下面两个方面入手:

1. 提高智能化程度。

目前使用的数据校验工具在设计时缺少与档案管理规范的结合, 不够智能化, 在校验的过程中不能分析、判断出与档案管理规范不统一的地方。如:归档日期在档案日期之前, 校验工具不能识别这种错误。通过编程把基本的档案管理规范和著录要求加入到数据校验工具中, 更加智能地校验出存在的问题, 以提高校验工具的智能化程度。

2. 提高校验精细度。

目录工作薄内的案卷表和卷内文件表通过“案卷和文件的关联ID”关联, 但不能识别出各关联表内的相同的著录项是否一致, 如归档单位、日期等。设计后的校验工具可以校验出同一关联ID下的相同著录项是否一致;另外, 设计后的检验工具可以校验出案卷表内的件数与同一关联ID下卷内文件数是否是对应的。提高了校验精细度, 可以降低数据统计的工作量, 提高了工作效率。

参考文献

[1] .王婧韫.数据迁移的一般原则[J].电脑开发与应用, 2000.13

燃烧过程数据库研究篇8

1.1 燃烧过程测试与数据

发动机系统燃烧室工作参数包括进口出口温度、压力、速度、排气等。燃烧室的流场结构为气流的速度向量、压力、燃料浓度及温度在限定空间的分布状态。燃烧室工作参数和流场结构的测试对判断或改进燃烧室的性能及构造有重要参考价值。

燃烧过程是在封闭空间内发生的,流场复杂。燃烧过程的测试对空间、时间分辨率要求较高,这决定了燃烧过程的测试主要是以非接触的光学测试为主。燃烧过程的光学测试方法依据特定的物理理论。各种测试方法与高速摄影相结合可以更全面观察分析燃烧过程现象,是燃烧过程测试技术的重要发展方向。

1.2 燃烧图像特点

燃烧过程测试,大多会产生光学图像。依测试原理,燃烧图像的产生可列举如下:(1)双色法:以普朗克辐射定律为基础,根据图像的色度、灰度值通过计算获取温度值[1];(2)瞬态干涉:经典干涉仪和现代激光干涉仪的应用都较广泛,高速干涉摄影技术更能进行瞬态全过程时间序列定量测试[2,3];(3)激光光谱:是以激光为激励光源的光谱测量技术[3~5];激光层析成像技术是CT技术的分支[4,6];(4)粒子图像测速[7,8]。

燃烧过程图像的成像设备种类多,成像原理各不相同,图像形态较多。燃烧图像具有以下特点:

(1)、图像数据可认为是连续的、具有很强空间相关性的数据。(2)、燃烧过程测试系统工作过程中,除可能产生大量燃烧图像数据外,还需记录其他大量试验数据,如燃烧排放数据、空燃比等。燃烧过程数据是一个复杂信息集合的载体。(3)、从观测角度看必须结合同时得到的几个图像才可认为是对燃烧流场在一定的时间条件下的完整描述。(4)、图像处理方法、燃烧分析算法及其软件在一定程度上决定测量精度。

1.3 燃烧过程数据库

燃烧过程数据库管理燃烧图像和大量的试验数据。燃烧过程数据库的核心部分是燃烧过程图像数据库系统,具有以下一些基本特点:

(1)、数据库根据图像的信息特征,可分为逻辑上相互关联,但又可独立的多个子库。(2)、图像数据库的输入模块必须包括图像处理工具、图像分析工具和索引工具,具有能够帮助用户可视化地表达查询要求和复杂视觉对象的输入的查询模块。(3)、检索方式除了一般数据库领域基于二值匹配的查询外,更多的是基于相似机制的按图像语义检索。这是实现语义提取与检索的基础。(4)、因为数据量大,燃烧图像数据库系统,还体现了很多文件系统的特点。(5)、由于燃烧过程图像是多种传感方式产生的图像,不能利用简单的数学模型表达多种数据的组织,而必须抽象出各种图像的共性,并提供一定的层次机制,反映特定图像的特殊信息,从而使之具有良好的可伸缩性。燃烧数据库系统不仅是一个数据管理的系统,而且也是一个面向任务的功能分析系统。

2 语义提取与检索模型

2.1 数据模型结构

根据燃烧图像的特点,从建立燃烧数据库的目标出发,燃烧图像可以分为物理图像、对象描述符、处理方法层、语义层四个层次。

在这个层次模型中,物理图像,即数字化的图像。对象描述符用于提供图像的部分特征。语义层是图像所表现的燃烧过程的描述。对象语义关联层通过对图像中的特征对象进行现实语义的赋值使图像的特征描述和现实语义关联起来。处理方法层是指从燃烧图像中分析燃烧过程参量的方法。研究人员往往需要查询燃烧图像本身,也需要知道图像所反映的流场信息。

2.2 语义提取与检索

数据库图像对象的创建过程实际上是图像特征提取过程。由于图像信息的非结构化特点,必须通过特征来建立、管理和使用图像数据库[8]。从图像中提取出特征后,进行特征匹配。从图像数据中分割出语义提取所需要的不同形式的图像基本元素。

在数据库中增加定义语义模块,存放提取出的语义信息。通过数据驱动的方式来对数据库中所有或用户感兴趣图像进行语义分类。对语义信息的使用,主要体现在对语义信息的查询。

3 燃烧过程数据库分析与实现

燃烧过程数据库系统应能够把燃烧图像数据处理方法有机融合进燃烧过程图像处理系统中,并使其与燃烧过程研究的数值分析、模拟与测试数据分析相结合。

3.1 燃烧过程数据库功能

(1)、燃烧过程图像数据库系统是燃烧过程数据库系统的核心所在,主要负责燃烧过程图像数据以及其对应的属性数据的存储、查询、浏览、添加、修改、删除等基本操作。

(2)、与燃烧过程数据处理相应的模型、方法已经存在很多研究成果。须将一些常见的模型和方法内置到数据库中,以扩展数据库功能,强化数据库在存储、搜索等各方面的应用。

(3)、应提供各种级别计算处理的中间结果在数据库中存储的功能。例如流场CT图像的主要目的是重建燃烧流场,以供研究分析所用。把源自CT图像的燃烧流场数据存储于数据库中,就不需要每次应用时都重建流场。

3.2 应用逻辑

将燃烧过程计算处理应用和燃烧过程数据库的应用逻辑进行抽象之后,得到三个基本的逻辑模块:数据、模型和方法,如图2所示。

数据模块响应应用的数据需求,在数据库中搜索、截取、整合之后,将数据提供给模型或者方法模块,进行处理分析。数据模块应对的是各种各样的数据需求,有图像、光谱、属性参数、环境参数等等。

模型模块负责存储燃烧过程应用模型、语义词典,这是构建和管理模型的核心部分。模型模块中主要存储能让各种应用问题共享或专门用于某特定问题的基本模块或单元模型,以及模型之间的关系。

方法模块以程序方式管理和维护各种决策常用的方法和算法。存储、管理、调用及维护决策各部件要用到的通用算法、标准函数等方法的部件。“方法”一般用数据库中的存储过程或者函数实现,包括基本数学方法等,同时也包括具有燃烧过程特色的算法。

3.3 物理拓扑

图3为物理拓扑图。燃烧过程测量数据,包括燃烧图像、各种燃烧参数,存贮在数据库中。研究人员参与燃烧图像的标识描述与语义构建。对燃烧图像的计算结果,可以作为结构化数据存入数据库。查询对象包括燃烧图像、燃烧参数、已有的计算结果。计算结果以XML结构化数据表示。结构化数据库还包括模型库和方法库。

3.4 图像语义生成过程

图像语义生成过程如图4。由燃烧图像的计算结果,包括各种测试结论,以XML方式表示。可直接由数据库查询计算结果。图像查询过程如图5。

3.5 数据库中图像的存储方式

图像一般以BLOB数据类型存储。使用BLOB字段存储数据主要特点是使得图片图像数据与整个数据库的数据成为一个整体,有利于数据库的管理和操作。缺点是读取时速度略慢。

3.6 应用

微尺度燃烧过程是在封闭的微小空间内发生的,流场复杂。微尺度燃烧过程光学测试系统由光学系统、图像处理系统和控制系统组成。依据上述方法,我们建立了微尺度燃烧过程数据库,实现了微尺度燃烧过程图像数据与测试数据的有效管理。

4 应用与结论

燃烧过程的光学测试方法依据特定的物理理论,往往离不开图像问题。燃烧过程数据库的核心部分是燃烧图像数据库系统。燃烧过程数据库应包括模型库和方法库。拓展关系数据库以适应管理复杂的图像数据和测试数据是可行的。可通过提高数据库系统的交互性、灵活性,实现图像自动识别或配合人工交互注解,达到语义提取与检索的目的。

参考文献

[1]田辛.用双色法研究内燃机燃烧火焰的温度场及碳烟浓度场[D].北京:清华大学硕士学位论文.2004.6

[2]贺安之,阎大鹏.激光瞬态干涉度量学[M].北京:机械工业出版社,1993

[3]朱德忠.热物理激光测试技术[M].北京:科学出版社,1990

[4]王大承.激光测试技术及其在发动机测试研究中的进展及应用前景[J].农业工程学报,2002-11,195-199

[5]COREY EVAN WEAVER.Quantitative,laser-based fuel distribution and combustion measurement in port and direct fuel injected spark-ignition engines[D].PHD thesis,The University of Michigan,2001

[6]RONALD K.HANSON,JAY B.JEFFRIES.Advances in laser-based sensors for combustion systems.The6th Symposium on Smart Control of Turbulence March6-9,2005Josui Kaikan(Tokyo),Japan.

[7]何保红,沈颖刚,吕晓旭.光学测量技术在内燃机流场中的应用[J].内燃机,2002.5,41-43

ORACLE数据库启动过程分析篇9

一﹑数据库的启动过程

如果数据库出现了故障，一般在启动时会出现错误信息，所以要对数据库的启动过程进行分析，了解数据库的启动过程。ORACLE的启动过程分为三个阶段：启动数据库实例﹑安装数据库﹑打开数据库。数据库实例主要包括两个部分，一是分配内存SGA，二是启动ORACLE的后台进程。也就是说一个实例的处理包含分配一个SGA和后台进程的建立。安装数据库是将数据库与已启动的实例相联。当实例安装一数据库之后，该数据库保持关闭，在数据库安装时按照参数文件中CONTROL＿FILES所指定的控制文件名读取控制文件，如果控制文件被破坏，则数据库安装失败。打开数据库是使数据库可以进行正常的操作处理。当数据库打开时，所有用户可连接到该数据库并且可以存储信息。在数据库打开时，在线数据文件和日志文件也被打开。由此可以看出，数据库在启动过程中文件的读取顺序是参数文件→控制文件→数据文件及日志文件。这三类文件全部打开后，数据库就正常启动了。

二﹑数据库启动的选项配置

在数据库启动的过程中，可以使用一些选项来控制数据库启动步骤。常用的选项参数有NOMOUNT﹑MOUNT﹑OPEN﹑FORCE﹑RESTRICT等。在启动数据库时，增加NOMOUNT选项表示数据库启动实例，不安装数据库，不打开数据库。增加NOMOUNT选项只用于数据库的控制文件全部损坏，需要重新创建数据库控制文件或创建新的数据库时使用。在数据库启动时，增加MOUNT选项表示数据库启动时能完成如下：启动数据库实例﹑安装数据库﹑不打开数据库。增加MOUNT选项用于修改数据库的运行方式，比如可以将数据库归档改为非归档方式。

在数据库启动时增加MOUNT选项完成数据库安装后，可以使用ALTER命令增加选项READ ONLY, 表示将数据库打开后，数据库以只读方式运行状态，这时整个数据库是只读属性，不得修改数据库，也就是不能对数据库中的表记录进行写操作。数据库启动时，增加MOUNT选项完成数据库安装后，可以使用ALTER命令增加选项READ ONLY, 表示数据库打开后，以读写方式运行，这是数据库的默认方式，在数据库启动时，增加OPEN选项，表示数据库可完成如下操作：启动数据库实例﹑安装数据库﹑打开数据库。这是数据库默认启动选项，一般用于数据库正常启动。在启动数据库时，增加RESTRICT选项表示数据库以受限方式打开，以这种方式打开数据库后，具有RESTRICT权限的用户可以连接数据库，没有RESTRICTED SESSION权限的用户不能连接。在数据库启动时，增加PFILE选项指出数据库参数文件名及路径，这适用于参数文件不在规定的路径，或者参数文件名被修改时启动数据库，例如SQL>startup PFILE=/u02/user/new.ora。在数据库启动时，增加FORCE选项表示以强制方式启动数据库，适用用于数据库的重新启动。

三﹑数据库启动异常时的分析处理

数据库在启动的时候，也会出现失败的情况，总结有如下情况

1、数据库实例启动失败。数据库启动时，首先启动实例，如果实例不能启动，则数据库安装打开都要失败。失败的原因可能是数据库实例设置不正确，或参数文件有误。

2、数据库安装失败。在数据库启动时，系统按照参数文件中CONTROL＿FILES所指定的控制文件名读取控制文件，并将控制文件打开。所以，如果数据库安装失败，是由于控制文件读取错误引起的，需要检测控制文件是否正确。

3、数据库打开时，需要打开所有数据文件和所有日志文件，如果数据库不能打开，也有可能是由于数据文件或日子文件损坏。

摘要：本文对ORACLE数据库系统的启动过程的详细分析, 以及相关配置文件的设置, 通过数据库启动失败情况的分析, 总结出数据库启动过程中的注意事项的处理办法和经验

浅谈LKJ数据换装的过程控制篇10

1 LKJ数据换装的过程

1.1 设立LKJ数据换装领导小组

LKJ数据换装是一项非常复杂、细致的工程, 需要各施工部门的通力协作, 特别是机务部门和电务部门。机务部门的统一领导、合理组织、紧密配合是保证每一次LKJ数据换装能按规定时间完成的决定性因素, 因此, 在每次LKJ数据换装时, 机务部门应设立专门负责LKJ数据换装的领导小组, 以段长为组长, 主管安全副段长为副组长, 相关部门和车间负责人为组员。在LKJ数据换装的过程中要严把“前期准备、期间盯控和后期追踪”三关。

LKJ数据换装领导小组的职责为:根据机车交路变化向机务处提报有关LKJ基础数据换装申请;向相关电务段提报LKJ临时数据文件编制软件参数调整申请;配合电务段完成LKJ临时数据文件编制软件参数调整;配合电务段制订换装计划和实施方案, 掌握换装进展和完成情况, 同时安排各出勤点模拟测试设备的芯片换装。遇控制模式变化时, 要及时更换LKJ模拟教学设备。

1.2 前期准备

1.2.1 接收文件及调度命令

LKJ数据换装领导小组要及时核收铁路局运输处在LKJ数据变更生效时刻3 d之前发布的正式LKJ数据换装电报, 明确LKJ数据变更的事由和生效时刻、LKJ数据文件中过渡数据径路的启用和停运时间、LKJ数据变更生效24 h之前铁路局路局调度所发布的相应运行揭示调度命令。

1.2.2 召开LKJ数据换装联席会议

LKJ数据换装领导小组收到铁路局运输处下发的LKJ数据换装电报后, 在换装开始前3 d组织对口电务部门、机务部门相关车间、科室的LKJ相关管理负责人召开LKJ数据换装联席会议。

1.2.3 制订换装计划并下发业通

LKJ数据换装领导小组要及时向对口电务部门提供换装涉及的机车、交路、机车类型、机车台数和派班室LKJ临时数据模拟运行测试设备情况, 提出IC卡数据文件编制软件参数调整的申请, 并根据联席会议确定的内容与对口电务部门制订周密、严谨的逐台换装计划, 并及时下发换装业通。

1.3 期间盯控

1.3.1 严控机车换装销号, 防止漏换

LKJ数据换装领导小组在LKJ数据换装期间要准确掌握换装进度, 具体而言需注意以下几点: (1) 机车调度员根据对口电务部门换装人员通知及交付的换装通知单, 与LKJ数据换装实时监控查询系统进行比对, 对LKJ数据换装完成情况进行销号确认, 执行“换装一台, 注销一台”的制度, 严格卡控, 防止漏换; (2) 机车调度员根据换装销号台账记录的换装机车安排出库计划, 做到“未换装机车不准出库”; (3) 设有应急换装点车站的机车进行站换时, 机车调度员根据机车乘务员的汇报, 及时通知对口电务换装部门进行换装, 并协调车站值班员组织开车; (4) 机车调度员应与铁路局调度所积极联系未换装机车入库, 确保换装按时完成; (5) 派班室调度员接到机车乘务员汇报的LKJ数据版本不符的信息后, 立即与对口电务换装部门联系, 更换数据, 严禁LKJ数据版本不符的机车出库牵引列车。

1.3.2 认真核对数据版本号, 防止错换

机务部门机车乘务员在LKJ数据换装期间办理出勤时要认真核对有关LKJ数据换装的运行揭示, 并抄记新数据版本号, 在段内及站内接车后要及时核对LKJ显示器面板版本号标识 (标识内容必须包括换装日期、数据文件或控制文件版本号) 。当发现数据版本号与新数据版本号不符时, 在库内的人员应立即通知出勤所在地派班室调度员;在应急换装点的担当车次、机车号通知车站值班员, 同时通知机车调度室。

1.3.3 加强现场盯控, 确保换装顺利进行

机务段运用车间行管干部在LKJ数据换装期间需做到以下几点: (1) 在相关派班室进行干部坐岗传达, 重点传达安全控制措施和操作注意事项, 并在机车乘务员手账上签字。 (2) 在机车出库闸楼盯控, 重点盯出库机车的数据版本号、换装时间, 卡控未换装机车出库。 (3) 对LKJ数据变更生效后运行通过变化区段的第一趟列车进行添乘, 确认运行数据是否正确, 确保行车安全, 发现问题应及时向LKJ领导小组反馈。

1.3.4 模拟运行测试设备换装需按时完成

每次LKJ数据换装涉及的LKJ临时数据模拟运行测试设备由对口电务部门车载车间在换装开始前4 h完成更换, LKJ临时数据模拟运行测试设备换装到位后, 各负责人确认版本号正确后, 将其汇报给LKJ数据换装领导小组登记备查;对口电务部门要在LKJ临时数据模拟运行测试设备更换完毕后, 将LKJ临时数据模拟运行测试设备换装报告单送至LKJ数据换装领导小组, 双方确认无误后, 签字备查。

1.4 后期追踪

LKJ数据换装结束后, LKJ数据换装领导小组要及时与对口电务部门共同确认换装情况, 并对换装情况进行总结;针对未换装的修程机车制订追踪换装方案, 在修程结束后、出库上线前必须换成新版数据;对换装期间每日的LKJ数据换装台账进行汇总, 并装订成册, 留存备查;对机务部门参与LKJ数据换装的各部门进行检查, 发现问题及时进行业务指导。

2 结束语

LKJ数据换装涉及面广, 只有各部门通力配合、协调, 才能确保换装过程不出差错。但由于许多不可预知的特殊状况, 在换装期间仍有可能出现数据版本与实际不符的情况。以上是对现有的以芯片换装为手段的LKJ数据换装过程控制的探讨。随着科技的不断发展, 相关部门可采用科技手段实现数据换装, 比如无线批量换装, 使得LKJ数据换装工作更加及时、准确。

参考文献

[1]杨志刚.LKJ2000型列车运行监控记录装置[M].北京:中国铁道出版社, 2003.

过程数据篇11

关键字：大数据嵌入式服务信息服务

中图分类号： G252 文献标识码： A 文章编号： 1003-6938（2014）01-0030-05

Analysis on Model of Information Services Embedded Process of Scientific Research in Big Data Environment

Abstract In this paper the requirements on which information services of scientific research process are explored， and the connotation and elements of information services which supporting data-intensive scientific research are discussed. On this basis， it summarizes the typical characteristics of model of information services embedded process of scientific research. And then， the new challenges are analyzed.

Keywords big data； embedded service； information service

1 引言

如今，大数据这个术语已是耳熟能详，它通常是海量的、形式多样的、非结构化数据的代名词，是信息化、网络化快速发展下要经历的必然过程[1]。与此同时，在现代科学研究过程中，数据量的生成呈现指数增长也是显而易见，不管是由于高通量的科学试验，还是千万亿次的科学计算，高分辨率的传感器，以及错综复杂的网络科学研究环境。

因此，在大数据环境下，科学研究人员的信息需求和科学研究模式发生了显著性的变化，而嵌入科研过程的信息服务在科学研究的整个流程中，始终坚持以科研人员为中心的原则，从其课题选定到结束的整个过程提供具有广度的信息展示，个性化的信息推送和深度的信息互动。而科学研究的本质是信息的整理和分析[2]，鉴于此，为顺应科研环境的转变，如何为科学研究人员提供高效的数据管理和新型的信息服务模式，是值得思考和探讨的。

2 科学研究过程中信息服务的需求分析

2.1 科学研究模式的转变

科学研究正在进入一个崭新的阶段，在信息与网络技术迅速发展的推动下，大量从宏观到微观、从自然到社会的观察、感知、计算、模拟、传播等设施和活动产生了大量的数据。同时，学科的发展逐渐呈现交融化、协同化和复杂化，研究人员逐渐把数据作为科学研究的对象和工具，基于数据来思考、设计和实施科学研究，因此促进了数据密集型科学的兴起，使密集型数据成为科学研究活的基础，并逐步总结形成了科学研究第四范式的研究模式[3]。

从科研人员的原始数据，相关数据到科技文献的产出，研究过程中的数据和信息既是研究创新活动的参考资源和知识创造工具，又是新的研究的起点，科研人员必须在此基础上依赖资源的数字化、交流手段的网络化、科研工作的协同化以及科研数据的共享化来把握科学的发展规律，洞悉海量数据背后的信息和知识。然而科研人员研究对象和环境的转变，使其对信息的发现和分析能力愈加欠缺，直接导致在数据的挖掘和信息的管理方面面临着挑战。以数据为驱动的数据密集型科学研究改变了科研人员的信息行为模式，同时也产生了新的信息服务的需求。

2.2 大数据环境下科学研究用户的信息需求

当前，密集型科学数据作为大数据的重要组成部分，在具备大数据特征的同时，在数据分析和管理方面有更高的要求[4]，必然导致科研人员对研究过程的个性化、专深化、集成化和协同化的信息需求不断增强。

（1）大数据环境下科学研究对象的虚拟化，导致科研人员拥有更强的数字化交互式的信息管理能力需求。网络快速传播迅速产生的海量科学数据以及大量来自互联网的数据和信息成为科学研究的主要组成对象，使得研究转变成以网络为基础的高度协作性活动，如何对海量虚拟化的数据和信息进行有效管理，成为科研人员必须面临的问题。

（2）大数据环境下科学研究需求的深度知识化，导致科研人员拥有海量数据实时的分析挖掘需求。一方面，以网络为基础的数字信息资源改变了科研人员的研究行为，数据的获取不是问题的关键，而关键在于数据背后的深度知识挖掘；另一方面，科研人员需求泛化的同时，更加专深化。如何根据每个科研人员独特的研究特征进行数据的跟踪、比对和分析，使专业化和针对性的知识实时获取，成为科研人员必须面临的问题。

（3）大数据环境下科学研究交流方式的便捷化和多样化，导致科研人员拥有科学数据融汇和多学科协同的信息资源共享需求。在数据密集型的科学研究学术交流过程中，交流方式随着信息技术的不断深入，而愈加便捷，但是对于整合所有科学数据和文献，形成一个具有全球开放获取的互操作世界，仍有相当大的差距[5]。如何使科研人员在查看文献的同时能够找到文献的所有原始数据，并可以在此数据基础上，重现作者的分析过程，成为科研人员必须面临的问题。

3 嵌入科研过程的信息服务模式的分析

3.1 嵌入科研过程的信息服务模式的含义

模式通常被解释为某种事物的标准形式或使用人可以照着做的标准样式[6]。即模式是将解决某类问题的方法总结归纳到一定的理论高度，并用来帮助指导人们设计优良的解决方案和完成某类任务的方法论。因此，模式是方法的抽象概括和总结，是解决某一类问题的方法论。而信息服务，在传统上认为的是以信息资源为基础，利用各种方法或技术手段对信息进行收集、整理、使用并提供相关信息产品和服务的一种活动[7]。并且伴随着科研用户需求的多样化，逐渐转变成通过研究用户，以用户的需求为导向来收集相关的数据和信息，进行信息组织和分析后，将有价值的信息传递给用户最终帮助用户解决问题，来实现信息增值。从这种意义出发，服务主体、服务客体、服务方法和服务内容是信息服务模式的主要组成部分，这些要素及其相关关系成了区别不同模式的主要依据。

nlc202309040720

另外，嵌入式理论提倡把事物的产生、发展和特点与其周遭环境联系起来，放到更大的背景中去考察[8]。而嵌入科研过程就是融入科学研究的整个细节和流程中，考虑科研用户需求的产生与发展，从课题选定到结束的整个过程中提供满足科研人员的具有全局性和个性化的信息与知识需求。将嵌入式理论应用到科研信息服务中，在一定程度上满足了在网络环境下科研人员面对的数据量体量大、结构多样化、生成速度快、价值密度低的研究问题的个性化服务需求。

因此，嵌入科学研究过程的信息服务模式将数据管理与信息服务融入到科研用户一线，嵌入到用户科研环境和科研过程，是以专业的信息服务人员为基础，采用先进的计算机技术（如云计算、语义网和Web3.0等），构建具有强大的资源整合能力、海量信息分析能力、大数据挖掘能力和多维度信息可视化能力的集成平台，以科研用户需求环境和需求趋势为导向，是一种面向用户发现问题、分析问题、解决问题和提供解决问题决策的信息展示、交互和推送的服务模式。

3.2 嵌入科研过程的信息服务模式的要素

信息服务模式是对信息服务活动的组成要素及这些要素之间相互关系的概况[9]。基于此，笔者将大数据环境下科学研究过程中的服务需求，组成嵌入科研过程的信息服务模式的服务主体、服务客体、服务方法及服务内容四个要素相结合并逐一进行分析。

3.2.1 服务主体

嵌入科研过程的信息服务模式的服务主体是信息服务活动的实施者，即信息服务人员，其根据科研人员的需要，采取相应的服务策略，提供满足研究者需要的信息服务产品。在嵌入科研过程服务的环境下，一方面，服务主体要求嵌入科研人员情景中，并作为研究团队成员，通过现场交互（包括现场和网络渠道），来把握知识需求、组织知识环境、定制知识工具和提供服务成果[10]。另一方面，服务主体提供的信息服务产品具有实时性、多样性、针对性和易用性的特点，更加注重将科研人员自身的知识背景，研究工具、研究领域的实时动2态以及研究目标与信息服务产品的有机结合。

鉴于此，嵌入科研过程服务的提供者应需要包括：①具有对信息内容强大而灵活的分析能力的信息分析师；②具有支持信息资源知识化处理能力的知识建构师[11]；③具有精通各种发现、分析和组织知识的方法与工具的检索与组织专家；④具有对特定领域深入了解的情报分析专家和学科专家。这样通过其之间的合作与互补，将大量跨领域科研人员、海量密集型的科学数据、信息内容和分析过程有机地融汇起来，促进科研人员高效推动成果的创新。

3.2.2 服务客体

嵌入科研过程的信息服务模式的服务客体是指信息服务的需求者，在一个特定的项目实施过程中，服务的需求者可根据应对研究问题的规模和复杂程度的人员数量进行划分，包括了科研团队群体需求者和单一科研人员需求者。

而鉴于嵌入科研过程的信息服务模式对于服务主体、服务方法和服务内容有更严格的要求，其成本也是相对较高的。因此，对于服务客体也有特定的要求，其中主要应包括以下两个方面的科研人员：一方面，对于攻克涉及多学科，跨领域的重点研究项目的研究团队，其面临的课题更具开放性与不确定性，研究过程中随之而来会遇到更多复杂的技术、方法等方面的难题，对于多学科的深层次信息服务拥有更强烈的需求；另一方面，对于引导学科发展方向的先驱，其面临的课题更具专深化与前沿性，研究过程中随之而来的是以战略眼光审视研究问题，对于特定性的实时动态信息服务拥有更强烈的需求。这样，嵌入科研过程的信息服务模式对于跨学科、跨国界和跨领域的重大科研项目以及具有前沿战略性的研究工作无疑是一种值得考虑的服务模式。

3.2.3 服务方法

嵌入科研过程的信息服务模式的服务方法是针对科学研究的信息服务手段，其主要是为服务主体完成信息服务行为提供有效的工具。服务方法随着科学研究方式的转变而不断变化，如今，现代科学研究朝着数据化和计算化的方向发展，从计算科学中逐步分离出了数据密集型科学，所有资源对象都被信息化、数字化表征，海量科学数据被迅速和大量创造，并经过网络快速传播。这样，促使了新型的信息服务方法根据研究人员的研究场景，将研究过程中的信息或知识深度地嵌入到解决科学问题的各个过程，促使科研人员的知识发现和知识创造。基于嵌入式理念，在总结传统信息服务方式的文献代查、专题报告总结的基础上，笔者进一步深化了嵌入科研过程的信息服务模式的服务方法。

通过对研究问题的处理流程进行分析，在此将嵌入科研过程的信息服务模式的服务方法从四个方面进行展开：①嵌入科学研究过程的语义关联的信息资源发现服务，在各类数字资源中嵌入语义导航体系，并融入科研人员与系统交流，构建关联主题图，触发知识的偶然发现；②基于用户情景的开放式信息资源获取服务，采用模块化组装思想，进行信息关联与协同化组织管理，根据科研人员当时当地具体情境自适应地提供获取服务；③集成信息资源云平台的大数据交互式的挖掘服务[12]，科研人员针对个人分析问题、解决问题的独特方式，借助云平台中开放的分析挖掘工具进行相关的大数据深度分析，对于潜在问题进行定向分析；④融于可视化技术的动态多维信息资源呈现服务，从科研人员体验入手，支持图像界面、语音界面和触摸屏界面，以构建、传达和表示复杂信息或知识，通过丰富的数据观察方式帮助科研人员识别隐性信息。

3.2.4 服务内容

嵌入科研过程的信息服务模式的服务内容是确定的信息产品，是服务主体交付给服务客体的最终成果或其享受到的各种信息服务。其主要保障科研人员在研究过程中项目的顺利推进以及促进科研人员的自主创新和交叉融汇创新。在项目处理生命周期中嵌入科研过程的信息服务内容（见图1）。

（1）评价与预测性信息推送。在识别问题的基础上，服务主体一方面通过当前现状的调查和相关问题的数据集分析挖掘，向科研人员提供其研究发展前沿与趋势的预测性研究成果；另一方面，分析国内外当前类似项目组的科研状况与进展，评价其优势与劣势，为项目的选定提供参考性和建设性建议。

nlc202309040720

（2）方案规划信息参考咨询。将服务主体嵌入到项目规划中，不仅有助于服务主体能对项目在一定程度上有整体性和全局性的把握，而且有利于服务主体与服务客体的沟通，形成优势互补。同时，服务主体以用户需求为导向，通过多层次的探讨，采用相应的工具，提供个性化的参考咨询，保证项目规划的科学性。

（3）过程管理与信息重构。数据密集型科研环境下实施项目，必须利用海量信息分类聚类、抽取要点和发现关系，来分析揭示隐藏的知识结构。而通过对信息网络的重构，进行趋势分析、问题鉴别和路径探索是服务主体的优势。利用这一优势可以减轻科研人员的负担，使其能够集中精力于自己的研究领域。同时，在实施过程中遇到的困难，服务主体将实施情况与规划对比，关注偏差，实时采用相应的服务方法帮助科研人员分析原因，提供可借鉴的解决方案。

（4）专题信息关联性管理。在项目结题过程中，服务主体一方面依据数据生命周期全面分析整理并记录科研用户的数据处理情况，另一方面依据研究生命周期细致总结各阶段研究成果，并将相关的数据、信息和知识进行关联、回溯与保存。

4 嵌入科研过程的信息服务模式的特征

嵌入科研过程的信息服务模式是以信息服务为轴心，以科研用户为中心，以数据资源为核心，以科研用户需求为导向，以嵌入式信息服务团队为重心开展工作。信息服务是嵌入科研过程的信息服务团队提供的工作内容，服务团队的工作是围绕信息服务这一根本而展开的。满足服务客体的实际需求和潜在需求是嵌入式信息服务团队工作的最终目标，而为了达到这一目的，嵌入式信息服务团队需要掌握核心的数据资源技术，以便能够在课题查新、文献检索、隐性知识挖掘方面提供个性化、专业化的服务。

4.1 覆盖协同多领域

科学研究是一个创新的过程，其需要具备的信息亦是多样的，这样嵌入式信息服务团队对于科研的促进作用也是显而易见的。一方面，学科的交融，科研项目的合作紧密化，科研用户除了需要本学科研究的信息外，还需要大量交叉学科的知识，嵌入式信息团队中的学科专家能够采用辅助或合作的形式为科研用户提供满足其需求的个性化相关学科的信息或知识；另一方面，多领域科研用户的合作，必须保证科研团队间的目标协同和科研资源的组织协同，嵌入式信息服务团队能够与科研用户加强交流互动，与用户建立长期稳定的协作关系，并构建协同工作机制，来保证服务内容的有效性和针对性，服务方式的准确性和高效性。

4.2 贯穿科研全过程

科学研究是在现有的研究基础之上来对未知事物的探索性活动，这就导致了科研用户的研究活动具有动态的信息需求，在科研项目的选定阶段，嵌入式信息服务团队能够以伙伴合作型方式推送课题项目的研究背景、研究综述和研究进展；在科研项目的规划阶段，嵌入式服务团队能够整体和全局地把握课题项目所使用的相关技术或研究计划方案；在科研项目的实施阶段，嵌入式服务团队能够根据用户的需要，跟踪国内外研究进展和动态信息，对海量信息进行深入分析，对隐性知识进行全面挖掘；在科研项目的结题阶段，嵌入式信息服务团队能够根据信息的生命周期，将信息进行归类、关联与保存。

4.3 情景感知个性化

科学研究的主体是科研用户，而科研用户情景是指用于表征与交互环境相关的实体状态的信息集合，包括用户位置、所处时间、用户情绪、心理状态及其相互关系等[13]，能够实时动态地获取科研用户情景信息，把握其具体需求，是科学研究活动高效推进的重要保障。与之对应，情景感知是对用户情景的获取与应用[14]，嵌入科研过程的信息服务模式通过以下两个方面的用户情景感知来提供个性化服务：一方面，科研用户与系统的交互，嵌入式信息服务团队通过监控用户在学科社区、博客和学科群等挖掘科研用户偏好和相关隐性信息需求；另一方面，嵌入式信息服务团队通过与科研用户协同交流，及时感知获取用户的长期目标和短期目标，根据科研用户的潜在需求来组织信息环境、定制信息工具、提供个性化的推送服务。

5 嵌入科研过程的信息服务模式所面临的挑战

数据密集型科学下的科研范式，更加强调科研人员在网络环境下的协同交流、资源开放、信息共享、智能关联与协同应用。嵌入科研过程的信息服务模式在促进现代科学研究创新的同时，也面临着一系列的问题和挑战，寻求合适的标准规范和技术对策有助于切实推动新型信息服务模式的转变，促进科研过程的推进与创新。

（1）嵌入到用户科研过程并且根据用户研究背景提供个性化信息推送对情报研究人员的挑战。一方面，大科学的兴起，科研人员的研究课题通常会涉及多学科和多领域的研究，这就要求情报研究人员具有跨学科的综合分析和信息获取能力，从多视角、多层次为科研用户提供信息服务；另一方面，将情报研究人员嵌入到科研过程，其必须具有战略性的眼光，对研究的整个过程有全面的认识，明确每个阶段为科研人员提供的信息服务类型，通过自身的优势提供其所需的信息资源，必要时能够进行科研项目的管理，以情报分析的严谨性来引导科研过程的科学性。

（2）新型技术的应用对密集型科学数据的全面整合与共享的挑战。首先，大数据时代的到来，使科学研究正在被大量密集型的数据所淹没，在数据的分级、归档、备份和保护的问题上对数据共享的性能提出了挑战[15]；其次科学研究大数据集涵盖了各类学科、各类层次研究人员或团队、各个研究阶段以及各类来源的数据集合，这些数据集合的多样性与复杂性对其整合提出了挑战；最后科学研究范式发展成为以数据为驱动的研究模式，强调将科研数据集合长期保存，并且将数据与关于数据的文件集合成一体，数据的流动、交互、融合、引用和回溯都将记录并保存下来，这对数据资源的整合与共享提出了又一新的挑战。

（3）研究环境的变化以及相应信息服务方法的转变对数据分析挖掘能力的挑战。一方面，密集型数据分析挖掘成为信息服务必不可少的支撑点，而密集型数据在具备大数据特性的同时，必然使传统的分析挖掘工具和算法面临着挑战；另一方面，嵌入科研过程的信息服务模式的服务主体需要利用数据对科研创新合作过程及交互型信息服务过程将要发生什么进行分析和预测，以便为服务客体实时提供相应的辅助决策，这种综合性和多维性的预测对数据实时与深度挖掘提出了挑战。

nlc202309040720

6 结语

大数据不仅仅是数据量的剧增，也不仅仅是信息技术的飞跃，而是人类对客观世界认知飞跃的前奏[16]，科学研究已进入数据密集型科学知识发现，因此，研究构建对科学数据、模型工具以及大数据挖掘平台，支撑跨区域、跨学科和跨团队的协同研究，满足现代科学研究需求的信息服务模式，对于促进科研创新是非常重要和迫切的。

另外，深层次的嵌入科研过程的信息服务模式由于成本、技术和人员素质要求等限制，只能针对特定的有高度需求的科研人员或群体。但是，一方面对于嵌入科研信息服务模式的服务主体学科背景知识、新型技术的运用能力、嵌入服务意识、沟通能力和协作能力提出了更高的要求；另一方面，对于不同的科研人员和工作环境如何采用多样化的服务方法来提供个性化的服务内容，促使其提升科研效率，也面临着极大的挑战。毫无疑问，面对全新科研范式带来的强大动力，利用信息服务模式的转变来推动科学研究的不断创新和发展将是大势所趋。

参考文献：

[1]刘明，李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志，2013，22（2）：1-6.

[2]王凭慧.科学研究项目评估方法综述[J].科研管理，1999，20（3）：18-24.

[3]王学勤，Amy Stout， Howard Silver.建立数据驱动的e-Science图书馆服务：机遇和挑战[J].图书情报工作，2011，55（13）：80-83.

[4]Delserone L M. At the watershed： Preparing for research data management and stewardship at the University of Minnesota Libraries[J].Library Trends，2008，57（2）： 202-210.

[5]Tony Hey.潘教峰译.第四范式：数据密集型科学发现[M].北京：科学出版社，2012.

[6]中国社会科学院语言研究所词典编辑室.现代汉语词典[M].北京：商务印书馆，2005：301-302.

[7]张树华，王京山，刘录茵，等.数字时代的图书馆信息服务[M].北京：北京图书馆出版社，2005：1-9.

[8]秦铁辉.嵌入性理论对情报学研究的启示[J].图书情报工作，2009，（12）：1-3.

[9]刘媛筠，李志民.当代图书馆的三种信息服务模式[J].图书馆杂志，2013，（1）：26-31.

[10]张晓林.研究图书馆2020：嵌入式协作化知识实验室[J].中国图书馆学报，2012，38（197）：11-20.

[11]张晓林.走向知识服务：寻找新世纪图书情报工作的生长点[J].中国图书馆学报， 2000，（5）：32-37.

[12]樊伟红，李晨晖，张兴旺，等.图书馆需要怎样的“大数据”[J].图书馆杂志， 2012，（11）：63-68.

[13]万亚红，黄樟钦，陈旭辉，等.基于主动推理的情景感知系统框架[J].计算机工程，2004，30 （12）：8-9，70.

[14]KM S W， PARK S H， LEE J B. Sensible Appliance： Applying Context-awareness to Appliance Design [J].Personal and Ubiquitous Computing，2004，8（3）：184-191.

[15]Science Staff. Challenges and Opportunities[J]. Science Special Issue： Dealing with Data，2011，（331）：692-693.

[16]Felice Frankel， Rosalind Reid. Big data： Distilling meaning from data[J]. Nature， 2008，7209，（455）：30-33.

作者简介：邓仲华（1957-），男，武汉大学信息管理学院教授，博士生导师；李立睿（1989-），男，武汉大学信息管理学院研究生；陆颖隽（1963-），男，武汉大学信息管理学院副教授，硕士生导师。

过程数据篇12

数据切分方法是按照某种切分规则将数据分布到指定的范围内, 达到数据查询时提高系统并行处理能力的目的。数据切分后规模会进一步的减小, 而且通常分布在多个数据库中, 当对数据进行查询时, 查询的响应时间会大大降低, 也可以减少通信开销, 平衡系统负载和减少计算量, 从而提高系统性能。

2数据切分模式及特征

数据切分按照不同的切分规则类型, 可以分为垂直切分、水平切分两种切分模式。

垂直切分是根据业务的特性, 将不同的数据表按照某种切分规则切分到不同的数据库上。垂直切分的最大特点是切分规则比较简单, 实施起来也比较方便, 适合各个模块耦合度低、相互影响小、业务逻辑简单清晰的系统。这种系统很容易将不同模块所使用的表拆分到不同的数据库中。

水平切分则是根据表中数据的逻辑关系, 按照某种切分规则将同一个表中的数据拆分到多个数据库上, 相对于垂直切分来说切分规则复杂一些。当一张表中的数据量巨大而且増长速度比较快时, 为了提高查询的效率就需要对其进行水平切分, 按照指定的规则将表中的数据拆分到不同的数据库中。水平切分通常需要根据指定字段进行数据切分, 常用的切分规则如下:

2.1枚举法

比如数据是按照地区省份来保存的, 用户通过多级别划分的, 本规则适用于这些特定的场景。

2.2求模

如果分片字段为数字, 对分片字段进行十进制/百进制求模运算, 数据可以均匀落在各分片内, 也可以对字符串hash取模, 支持存在符号字母的字段的分片。

2.3范围约定

对分片字段约定一个范围, 比如ID0-100000为一个分片, ID100001-200000为一个分片。

2.4按日期

可以按月, 按日, 按小时分片。

2.5一致性hash

对指定字段进行hash取值, 然后根据hash值将数据进行分片。

当某个表或者某些表的数据量比较大而且访问频繁时, 通过垂直切分仍然无法满足系统的读写要求时, 就需要将垂直切分和水平切分结合起来使用, 先对数据进行垂直切分, 然后进行水平切分, 通过这两种方式的组合来解决超大型表的读写性能问题。

3以数据切分提高大数据查询性能的设计方案

当前的大部分企业都拥有自己的数据存储系统, 利用数据存储系统可以方便快捷的对企业信息数据进行查询。但当这些信息数据的数据量达到一定级别时, 从数据中查询某一数据通常需要花费大量的时间, 影响到整体工作效率, 因此需要对数据查询进行优化。以下以垂直切分与水平切分方案设计为例, 通过对数据的划分来提高海量数据的查询性能。

3.1垂直切分方案设计

本应用数据包括设备基本信息、内容推送序列信息、用户行为信息及相关统计信息。分析数据的特性可以发现设备基本信息主要是用于查询, 数据更新的操作并不是很多。内容推送序列由管理员提前进行编辑, 然后推送给各个用户。因此内容序列也是主要用于用户查询操作。用户行为信息是用户使用移动端时产生的日志信息, 主要记录用户使用设备浏览广告的次数以及时长等, 因此用户行为信息主要进行数据库的写操作。统计信息主要是用户浏览信息的次数, 用户的积分等信息, 这些信息主要是由定时统计任务用户活动较少的时段对相关信息统计后写入到表中, 也主要用于用户查询。

由于应用存在着大量的读写操作, 为了保证数据库系统的能够较好的处理用户的读写需求, 获得良好的用户体验, 应该对数据进行读写分离, 将大并发读的数据和大并发写的数据进行垂直切分存入不同的数据库中。

另外, 由于用户量巨大, 将所有的查询密集的信息存入一个数据库中, 并不能满足系统查询性能的需求。同样, 将所有的写密集型的数据写到单台数据库, 也不能满足系统快速存储数据的需求。因此, 需要对数据进行进一步的切分。内容序列信息和统计信息并发查询量都超出了单个数据库的承受能力, 所以将这两个信息相关表放在不同的数据库中, 以更好的满足用户查询的需求。

3.2水平切分方案设计

以用户行为信息表为例, 由于应用将来会有大量的用户, 每天将会有海量记录信息写入数据库。单台数据库己经不能满足如此巨大数据的处理需求, 因此, 需要对用户行为信息表进行水平切分。

对用户行为信息表进行水平切分需要选取一个字段作为切分依据和标记。本文选取手机号字段进行数据切分, 并且按照手机号的地域 (省或者直辖市) 作为切分标准。在用户不断增加的情况下可以更细粒度的按地域对数据进行划分, 系统的扩展性会比较好。

分析用户行为信息的特性发现, 用户行为信息的数量随着时间不断的增长。随着用户的不断增多, 将会产生大量的数据, 而且増长速度也会变快。如此巨大的数据保存在一个表里显然是不合适的。因此, 需要对数据表进行进一步拆分。分析发现数据是随着时间线性增加的, 因此可以对同一数据库的按照月份对数据进行再次切分, 每个月份的数据保存在单独的表中。

4结语

通过使用垂直切分与水平切分的方法, 不仅能够很好的应对信息数据不断增长的形势, 还能通过增加维度来降低数据的规模, 提高对大数据的并发读写查询性能, 有效的解决了海量数据的存储问题和快速查询问题。

摘要：在当今互联网技术广泛普及的今天, 大数据已经不再是新的研究课题, 在当今数据来源越来越繁杂, 每天都有海量的数据进行储存、访问的形势下, 过高的数据负载对系统的稳定性与扩展性造成不可忽视的影响。基于此, 本文分析采用数据切分方案的特征, 并对以数据切分方案提高大数据查询性能的应用进行了研究与设计。

关键词：数据切分,方案,大数据,查询性能,设计

参考文献

[1]骆涛.面向大数据处理的并行计算模型及性能优化[D].合肥:中国科学技术大学, 2015.

[2]刘义.大规模空间数据的高性能查询处理关键技术研究[D].北京:国防科学技术大学, 2013.

【过程数据】推荐阅读：

过程统计07-14

掌握过程07-16

掘进过程07-16