大数据技术服务

2024-07-29

大数据技术服务（精选12篇）

大数据技术服务篇1

大数据[1]一定是人类进入DT时代的关键技术, 也将是人类实现人工智能的关键技术。自大数据概念[1]提出以来, 大数据的重要性和大数据的开发与使用已经得到各国政府、各界人士的高度重视[2,3]。大数据研究也方兴未艾、如火如荼地开展起来。如何开发好和利用好大数据是摆在所有人面前的一个非常急迫和现实的问题, 笔者在医科院信息所工作中有一些思考, 也发表过一些论文阐述自己的观点, 其中《互联网医学的未来:数据医学》指出的是医学大数据应用的未来及方向, 《大数据及其应用前景研究》论述的是大数据的二元概念及更适合的应用方向;笔者认为大数据是个二元概念, 一个是大量的数据, 一个是大数据技术, 文中除了特别强调外, 写到的大数据都是包含以上二元概念。

1大数据开发应用需要一项新技术

目前大数据应用还处在启蒙和探索阶段, 能够成功落地的项目不多。大数据是一种以数据为资源的高科技, 数据在大数据中的地位相当重要, 其一, 拥有资源数据本身就是不容易做到的事情;其二, 拥有资源数据还要有使用数据的想法、数据目标和数据技术。能够拥有以上所述中的一点已经很难了, 大数据项目落地则需要拥有以上两点, 这可能也是大数据项目目前落地少的原因。需要第一点大数据资源数据的各单位有其各自的解决办法, 这里不讨论获得数据的方法, 只谈谈第二点中大数据准确应用的一些方法。

大数据是人类发展的第五个阶段, 第一个阶段:农耕时代;第二个阶段:工业时代;第三个阶段:电汽时代;第四个阶段:IT时代;第五个阶段:DT时代;第六个阶段:AI时代-人工智能。梳理一下人类发展的进程可以看出, 人类的发展是由人力的简单粗放开始, 逐渐发展为机器代替体力, 精细的电汽文明逐渐代替简单粗放工作, 解放了人类的双手, 随后计算机的发展代替了人脑部分功能, 人类进入了IT时代。简单看以上人类发展进程:人类科技的发展是由简单粗放到精细准确, 由机器代替人工的进程。进入DT时代的大数据技术应该是更精确、更高级的技术, 数字是最精准的表达方式, 数字集合出来的数据也应该是最精准的表达方式, 事实上不是这样简单。

由大量数字或是数据进行运算, 可以得到精确结果的方法是统计学, 应该叫做大统计比较好, 不是大数据。

2大数据精准使用需要“数据标识”

2.1“数据标识”的原理和方法

人类科技发展是向着更精准、更智能化的方向发展, DT时代的大数据是可以满足人类更精准和更智能化的需求。前面提到目前大数据落地项目少, 尤其能够产生价值的项目少, 归纳为不能很好地使用大数据是相当重要的原因, 大数据是数据在模型中准确应用的科学技术。好的模型制作相当重要, 但数据的理解也非常重要。理解好大数据中的数据才能很好地使用数据, 才能做好大数据。在《大数据及其应用前景研究》中笔者写到过数据的理解是每个人的知识水平决定的。理解好大数据的数据还要掌握如何使用数据的技术, 这种使用数据的技术是需要把数据精准地放入大数据模型上在计算机中运行, 输入精准数据才能有精准运算结果, 做到数据精准使用必须学会“数据标识”。

“数据标识”是笔者在做医信天下医学大数据医院排行榜的思考和心得, 这里同大家分享和探讨。“数据标识”的方法是笔者在中国医学科学院医学信息所做医学数据库工作方法的延伸。查阅资料没有查到有关如何做好“数据标识”的文献。先介绍一下初期医学数据库建设的方法, 这样可能有助于更好地理解“数据标识”原理、概念、依据和使用方法。

人类社会发展产生了大量文献, 同样医学也产生了大量文献。在没有广泛使用计算机搜索以前, 如何让学者快速查到需要的文献, 需要对每一篇文章进行文献标引[4], 标引方法是人工给每篇文章加上医学主题词, 现在每篇论文由作者写好关键词, 医学上叫做主题词。论文属性除了作者、题目、作品时间、作者单位不能改变之外, 按照主题词查找更加重要, 主题词是相同专业、甚至相同疾病、相同药物的精准查找。所以文献的标引在医学数据库建设中非常重要, 也是文献精准查找的重要方法。再来看看医学数据库, 按照文章作者、作者单位、题目、作品时间、发布媒体、关键词、被引、摘要等构成, 这些构成要素组成一个模型, 数据库中有大量的论文、题目、关键词、作者等, 所以说数据库结构是模型结构, 内容是大数据, 精准使用好数据库方法是关键词, 也就是前面提到的文献标引, 用在使用好大数据上就需要做好大数据的“数据标识”。

2.2“数据标识”是精准营销成功的关键

“数据标识”需要对标识目标数据有深入理解。以大数据精准营销解决方案为例, 大数据精准营销是顾客的心理行为轨迹需求和商品属性碰撞产生的购买行为, 如何做到精准营销[5], 首先需要不断标识顾客行为轨迹, 年龄、性别、职业、消费能力、旅居地、饮食爱好、饮食时间....等等, 在即将进入餐饮时间向该顾客推荐餐馆, 餐馆数据标识为菜系、特点、名菜、点评、环境等, 按照餐馆标识和预判顾客行为轨迹, 把数据标识中共性按照概率大的部分结合地理位置逐渐推荐给顾客。餐馆、商品、衣服的大数据精准营销方法一致。精准营销的准确性关键取决于预判顾客行为的数据标识的准确性和商品属性的数据标识的共鸣。

大数据研究刚刚开始, 精准的大数据应用必须要有精准的数据标识。目前在精准营销领域使用比较频繁的词是给客户画像, 画像方法让人感觉是一种模糊的, 猜测性比较大的技术。描述一个商品属性时习惯使用标签标识商品。精准营销是人的行为轨迹碰撞到商品中相同属性数据产生的购买, 数据标识的准确性决定了精准营销的准确。人的行为轨迹数据也是未来人工智能解决方案中非常重要的数据, 精确的数据需要准确地标识数据。商品营销也是网络大数据解决方案的一部分, 商品的准确描述和精准数据标识, 将会决定商品营销的成功与否。

2.3医学大数据的“数据标识”更容易实现

作为医生, 医学大数据的开发和使用一直是笔者研究的课题, 医学大数据的精准应用可以预判人体健康并进行疾病预防[6]。相对于人类行为数据, 医学大数据的数据标识相对容易, 医学大数据应用成功可能会早于人类行为数据的应用, 理由有以下3条。

(1) 医学大数据是关于人类物理实体的大数据, 人体是一个相对固定物理实体, 数据边界清晰, 数据外延有限。

(2) 医学大数据表达的是人体生理活动和健康指标, 这些数据的内涵只有医生能够理解, 非医学专业人士不能很好地理解医学大数据的内涵, 非医学专业人士很难准确分析医学大数据, 也很难标识医学数据, 这是医学数据的专业性和数据围墙阻挡了非医学专业人士对医学大数据的研究。

(3) 医学大数据中医学数据标识需要医生的参与, 目前能够做数据标识的医生需要培养, 笔者正在做这个方面的工作, 笔者是第一个提出建立互联网医学标准的学者, 互联网医学标准中有一部分工作是做数据标识。

3结语

做好大数据应用需要各方努力, 探索方法落地项目。“数据标识”技术的核心是用数据来标识数据, 让计算机可以分辨不同环境下产生的外表相同的数据中包含的不同信息, 真正做到大数据的精准应用。大数据是人类活动中生产出来的重要资源, 反映的是人类生活活动和人类生理健康状态, 因此大数据也是研究人的技术, 研究好大数据, 人工智能就离人类很近了。

参考文献

[1]徐立水, 辛敏.大数据及其应用前景研究[J].企业科技与发展, 2016 (6) :21-23.

[2]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察, 2012 (6) :44-46.

[3]国发〔2015〕50号, 国务院关于印发促进大数据发展行动纲要的通知[Z].2015.

[4]黎盛荣.什么是文献标引学[J].图书情报论坛, 1997 (1) :2-5.

[5]刘征宇.精准营销方法研究[J].上海交通大学学报, 2007 (S1) :143-146.

[6]徐立水, 辛敏.互联网医学的未来:数据医学[J].科技创新与应用, 2016 (15) :82.

大数据技术服务篇2

【摘要】人类进入信息化时代以后，短短的数年时间，积累了大量的数据，步入了大数据时代，数据技术也就应运而生，成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域，将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。

【关键词】大数据，数据挖掘，互联网

数据挖掘是一门新兴的学科，它诞生于20世纪80年代，主要面向商业应用的人工只能研究领域。从技术角度来看，数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说，数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。

1.数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作，通过科学可靠的算法才能实现数据的挖掘，找出数据中潜在的规律，通过不同的分析方法，将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。

1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组，然后形成板块，将毫无逻辑的数据变成了有联系性的分组数据，然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类，所以聚类分析法一般都运用心理学、统计学、数据识别等方面。

1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式，其数据资源十分广泛并且得到了一定的普及，如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类，寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用，这就需要通过关联性分析法完成对于数据信息的关联性识别，来帮助人力完成对于数据分辨的任务，这种数据分析方法通常是带着某种目的性进行的，因此比较适用于对数据精准度相对较高的信息管理工作。

2.数据挖掘技术的应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存，然后就已有数据中进行分析、整理、选择、转换等，数据的准备工作是数据挖掘技术的前提，也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘，然后对数据进行评估，最后实现运用。因此，数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术，以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中，数据挖掘的结果参与到政府、企业、个人的决策中，发挥数据挖掘的社会价值，改变人们的生活方式，最大化数据挖掘的积极作用。以教育行业为例，探究数据挖掘技术在高校教育教学活动中的应用。

2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括：高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节，直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理，建立相关数据模型，采用分类算法，提取和挖掘对用户有用的信息，然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛，由于高校管理内容比较复杂，因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理，比如学生成绩管理，课堂教学评价系统等。

2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作，数据的预处理是数据挖掘技术的关键步骤，并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定，学校教学评价管理部门登录学校教务系统后，将学生所选择的选项对应转换为教师的分值，通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况，如对教师的评价为零分，则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括：对不同的用户设置不同的使用权限；对学生的基本信息以及学生浏览管理网站的记录要做到明确记录；各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改；成绩管理要能实现大批量添加及修改；还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表，内容包括学生的姓名、学号、考勤以及学习成绩等，这些都是学生特有的属性，学生信息管理利用决策树方法就是将学生的这些属性作为决策元素，监理不同的决策节点，实现对学生全方位的考核和评价，完整的了解到每位学生的具体信息。

2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况，为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理，将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源，帮助图书馆管理人员对于图书馆信息的补充和调整，还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源，多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。

3.结语

数据挖掘技术是近几年新产生的网络技术，可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来，伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新，开发，而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展，大数据挖掘技术的应用面将会越来越广。

【参考文献】

大数据技术服务篇3

2.1 大数据数据库的特点

传统的关系数据库，从其创立至现在，长期占据数据库的绝对统治地位。但是，数据挖掘、商业智能和可视化技术的发展，特别是它们处理非结构化数据的能力，动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生，这其中必须优先提及的便是NoSQL（意为Not Only SQL）及NewSQL（意为New SQL）两大数据库阵营。

现在随着大数据时代的到来，由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围，其“数据类型”可以是文本、图片、影像、网页，也可以是整个文件；NoSQL数据库是非关系式的、数据间的关系更加复杂、多样，类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展，NoSQL取得了成功，采用NoSQL技术的产品也不断增长，目前NoSQL网站上（NoSQL-database.org）已经收集了150余个相关产品，人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性（后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性）。NoSQL坚持分布式领域的CAP理论，CAP的含义为：

Consistency，一致性。数据一致更新，所有节点访问同一份最新的数据副本；

Availability，可用性。对数据更新具备高可用性；

Partition tolerance，分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统，都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者，或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论（Basically Available， Soft state， Eventually consistent；基本可用、软状态、最终一致性），它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点，同时也意识到NoSQL不支持SQL所带来的不便，它采用了一种近似折中的方案，既支持SQL并保证一定程度的数据一致性，同时也提供NoSQL数据库的非关系数据处理的扩展功能，因而从产生之初便受到业界的喜爱，相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中，最重要的莫过于Apache基金会的Hadoop。它是一个领导者，是一个典型的分布式文件系统，是一个开源系统。用户可以在不了解分布式底层细节的情况下，借助Hadoop开发分布式程序，它取得了成功，成为分布式数据处理界的巨兽（Hadoop的Logo就是只大象）。现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中，Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者，MongoDB，是一个成功的文档处理型数据库系统，它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大，特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品，它兼有键值数据库和列值数据库两者的长处，它的查询功能很优秀。虽然运行Cassandra集群难度较高，但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动，因为更多的人喜欢和习惯JavaScript服务器端语言。但是，Lua是一个整洁的语言，它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素，使其看起来是一个很好的选择，尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反？只要数据库做得好受众就会欢迎，现在看来，它确实做的很好。

还需要提及的是Riak，在功能性和监控方面它也有了巨大的提升。在稳定性方面，它继续得到大家的赞美：“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

在图中，涉及了多个维度：关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中，对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。

最初，NoSQL破坏并引以为荣的特点是它不满足ACID（原子性、一致性、隔离性和持久性），这是它的优点，也是其问题所在。据美国Forrester的统计数据，在企业中的业务数据将有25%是结构化数据。无论是传统企业，还是引领技术潮流的大型网络公司，其数据库体系中都不可避免的共存着传统的结构化数据（如用户的标准信息，数据库元数据信息等），也存在着图片、视频、文档或网页等非结构化数据，所以关系数据库与NoSQL数据库并存将是数据库技术发展的基本面。另一方面，关系数据库、NoSQL和NewSQL都充分认识到了对方的长处和客户需求，每一个新数据处理技术都在“拼命地集成”其他范围数据库中的特性。NewSQL系统实现NoSQL的核心特性，而NoSQL越来越多地试图实现“传统”数据库的功能如支持SQL或在一定范围内“有保留地支持ACID，至少是可配置的持久化机制”。

大数据时代数据挖掘技术浅析篇4

随着互联网、物联网、云计算等技术的快速发展, 以及智能终端、网络社会、数字地球等信息体的普及和建设, 全球数据量出现爆炸式增长, 仅在2011年就达到1.8万亿GB。IDC (Internet Data Center, 互联网络数据中心) 预计, 到2020年全球数据量将增加50倍。毋庸置疑, 大数据时代已经到来。一方面, 云计算为这些海量的、多样化的数据提供存储和运算平台, 同时数据挖掘和人工智能从大数据中发现知识、规律和趋势, 为决策提供信息参考。

如果运用合理的方法和工具, 在企业日积月累形成的浩瀚数据中, 是可以淘到沙金的, 甚至可能发现许多大的钻石。在一些信息化较成熟的行业, 就有这样的例子。比如银行的信息化建设就非常完善, 银行每天生成的数据数以万计, 储户的存取款数据、ATM交易数据等。

数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看, 数据挖掘是指一个完整的过程, 该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息, 并运用这些信息做出决策。

2 数据挖掘的分类

数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识, 并由此产生了很多的数据挖掘方法, 这些方法种类多, 类型也有很大的差别。为了满足用户的实际需要, 现对数据挖掘技术进行如下几种分类:

2.1 按挖掘的数据库类型分类

利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类, 根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况, 一种是根据其模型来分类, 另一种是根据其类型来分类, 前者包括关系型、对象-关系型以及事务型和数据仓库型等, 后者包括时间型、空间型和Web型的数据挖掘方法。

2.2 按挖掘的知识类型分类

这种分类方法是根据数据挖掘的功能来实施的, 其中包括多种分析的方式, 例如相关性、预测及离群点分析方法, 充分的数据挖掘不仅仅是一种单一的功能模式, 而是各种不同功能的集合。同时, 在上述分类的情况下, 还可以按照数据本身的特性和属性来对其进行分类, 例如数据的抽象性和数据的粒度等, 利用数据的抽象层次来分类时可以将数据分为三个层次, 即广义知识的高抽象层, 原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘, 找到其有价值的知识。同时, 在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类, 一般来说, 数据的规则性可以通过多种不同的方法挖掘, 例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法, 同时还可以通过这些挖掘方法来检测和排除噪声。

2.3 按所用的技术类型分类

数据挖掘的时候采用的技术手段千变万化, 例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段, 同时用户在对数据进行分析时也会使用很多不同的分析方法, 根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下, 一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。

2.4 按应用分类

根据数据挖掘的应用的领域来进行分类, 包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等, 在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景, 此时就可能需要与之相应的特殊的挖掘方法, 并保证其有效性。综上所述, 基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术, 每种数据挖掘技术都有自身的专用性。

3 数据挖掘中常用的方法

目前数据挖掘方法主要有4种, 这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。

遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来, 是一种随机搜索的算法, 利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法, 是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。

决策树算法:在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。

粗糙集算法:这个算法将知识的理解视为对数据的划分, 将这种划分的一个整体叫做概念, 这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。

神经网络算法:在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要, 同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时, 该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。

参考文献

[1]孟小峰, 慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展, 2013, 50 (01) :146-169.

[2]陈明奇, 姜禾, 张娟, 等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全, 2012, (08) :32-35.

大数据技术服务篇5

大数据是对全球的数据量较大的一个概括，且每年的数据增长速度较快。而数据挖掘，主要是从多种模糊而又随机、大量而又复杂且不规则的数据中，获得有用的信息知识，从数据库中抽丝剥茧、转换分析，从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高，要想确保数据处理成效得到提升，就必须切实加强数据挖掘技术教学工作的开展，才能更好地促进数据处理职能的转变，提高数据处理效率，优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。

1大数据时代下数据挖掘技术的基础教学方法分析

数据挖掘的过程实际就是对数据进行分析和处理，所以其基础就在于数据的分析方法。要想确保分析方法的科学性，就必须确保所采用算法的科学性和可靠性，获取数据潜在规律，并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法，主要是将没有指向和不确定且抽象的数据信息予以集中，并对集中后的数据实施分类整理和编辑处理，从而确保所形成的数据源具有特征一致、表现相同的特点，从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法，由于不同数据间存在的关联性较为隐蔽，采取人力往往难以找出其信息特征，所以需要预先结合信息关联的表现，对数据关联管理方案进行制定，从而完成基于某种目的的前提下对信息进行处理，所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法，由于数据资源的应用范围较广，所以需要对其特征进行挖掘。也就是采用某一种技术，将具有相同特征的数据进行集中。例如采用人工神经网络技术时，主要是对大批量复杂的数据分析，对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法，则主要是对其他评估算法的适合度进行评估，并结合生物进化的原理，对信息数据的成长过程进行虚拟和假设，从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助，采取多种方式对数据的挖掘进行指导和表达[1]。

2大数据时代数据挖掘技术教学要点的分析

2.1数据挖掘技术流程分析

在数据挖掘教学过程中，其流程主要是以下几点：首先做好数据准备工作，主要是在挖掘数据之前，就引导学生对目标数据进行准确的定位，在寻找和挖掘数据之前，必须知道所需数据类型，才能避免数据挖掘的盲目性。在数据准备时，应根据系统的提示进行操作，在数据库中输入检索条件和目标，对数据信息资源进行分类和清理，以及编辑和预处理。其次是在数据挖掘过程中，由于目标数据信息已经被预处理，所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中，因而数据挖掘的过程十分重要，所以必须加强对其的处理。例如在数据挖掘中，引导学生结合数据挖掘目标要求，针对性的选取科学而又合适的计算和分析方法，对数据信息特征与应用价值等进行寻找和归纳。当然，也可以结合程序应用的需要，对数据区域进行固定，并在固定的数据区域内分类的挖掘数据，从而得到更具深度和内涵以及价值的数据信息资源，并就挖掘到的数据结果进行分析和解释，从结果中将具有使用价值和意义的规律进行提取，并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用，将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用，从而对某个思想、决策是否正确和科学进行判断，最终体现出数据挖掘及时的应用价值，在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后，其自身的职能作用将变得更加丰富，所以在信息技术环节下的数据挖掘技术随着限定条件的变化，而将数据挖掘信息应用于技术管理和决策管理之中，从而更好地彰显数据在经济活动中的物质性质与价值变化趋势，并结合数据变化特点和具体的表现规律，从而将数据信息的基本要素、质量特点、管理要求等展示出来，所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展，而这也在一定程度上体现了网络拟定目标服务具有较强的完整性，且属于特殊的个体物品，同时也是对传统数据挖掘技术的创新和发展，从而更好地满足当前大数据时代对信息进行数据化的处理，并对不同种类业务进行整合和优化，从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会，所以在当前数据挖掘技术需求不断加大的今天，为了更好地促进所挖掘数据信息的真实性，促进其个性化职能的发挥，必须在大数据背景下注重信息失真的控制，切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥，尽可能地促进数据挖掘技术信息资源的升级和转型，以大数据背景为载体，促进整个业务和技术操作流程的一体化，从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性，这样我们就能及时的找到资源的消耗源头，从而更好地对数据资源的消耗效益进行评价，最终促进业务流程的优化，并结合大数据背景对数据挖掘技术的职能进行拓展，促进其外部信息与内部信息的合作，对数据挖掘技术信息的职能进行有效的控制，才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的应用，随着时代的发展，数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯，从而利用其将销售方式改进和优化，最终促进产品销量的提升。与此同时，通过对购物消费行为的分析，掌握客户的忠诚度和消费意识等，从而针对性的改变营销策略，同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用，其目的就在于对产品质量进行检验。引导学生深入某企业实际，对所制造产品的数据进行研究，从而找出其存在的规则，并对其生产流程进行分析之后，对其生产的过程进行分析，从而更好地对生产质量的影响因素进行分析，并促进其效率的提升。换言之，主要就是对各种生产数据进行筛选，从而得出有用的数据和知识，再采取决策树算法进行统计决策，并从中选取正确决策，从而更好地对产品在市场中的流行程度，决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用，主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选，从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估，就需要对教学质量有关项目进行整合与存储，从而更好地促进其对教学质量的评估，而这一过程中，就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理，促进其应用成效的提升[3]。

4结语

综上所述，在大数据背景下，数据挖掘技术已经在各行各业中得到了广泛的应用，所以为了更好地满足应用的需要，在实际教学工作中，我们必须引导学生切实加强对其特点的分析，并结合实际需要，切实注重数据挖掘技术的应用，才能促进其应用成效的提升，最终达到学以致用的目的。

参考文献：

大数据技术服务篇6

关键字：大数据;数据仓库;教育决策

中图分类号：TP393 文献标志码：A 文章编号：1673-8454（2015）01-0014-02

一、教育的大数据时代

在大数据的时代，各行各业都在谈大数据，它的影响辐射各行各业，并且已经开始在信息产业、交通运输、医疗卫生、食品安全等领域中发挥出重要作用。与此同时，作为面向社会公众的教育行业，无论从教育数据资源的情况，还是对大数据的分析应用需求看，亦进入了大数据时代。

教育管理信息化是《国家中长期教育改革和发展规划纲要（2010-2020年）》和《教育信息化十年发展规划（2011-2020年）》所确定的教育信息化建设核心任务之一，对支持教育宏观决策、加强教育监管、提高各级教育行政部门和学校的管理水平、全面提升教育公共服务能力具有不可或缺的重要作用。教育改革发展涉及面广、难度大，越来越需要准确全面的数据分析和服务作为教育科学决策的支撑。建设国家教育管理信息系统，就是建立涵盖学生、教师、学校资产及办学条件的教育管理信息系统和基础数据库，并以此为基础建立数据分析与科学预测的教育决策服务系统，已成为支持教育改革与宏观决策的现实需求。国家教育管理信息系统的建设，也为教育大数据的积累奠定了基础。

二、教育大数据仓库与数据服务支撑平台

教育大数据仓库与数据服务支撑平台是基于教育服务与监管基本宗旨，统筹考虑教育事业全局，以适应大数据时代教育数据新特征和支撑教育监管和决策的数据分析为出发点，集成大数据思路和传统数据仓库架构，构建纵向覆盖各级教育机构，横向覆盖教育各业务领域的、统一的教育数据信息资源中心，将合适的教育数据资源及时、有效地提供给合适的教育管理、决策者进行教育主题研究分析、评价和预测，促进教育监管与决策更加合理性、准确性、科学化以及智能化，服务于教育事业的改革创新，支撑教育事业智慧化的发展趋势。

1.总体架构

平台的总体架构以教育系统全局为视角，以应用为驱动，基于SOA的理念，运用柔性架构设计思想和分层体系架构，以“满足当前应用、扩展未来需求”为目标，综合考虑大数据时代下新的技术思路和传统数据仓库的优势，采用组件化、服务化的方式，灵活适应功能、分析内容的动态追加和变更，满足系统未来变化的需要。架构的主要内容以及相互之间的逻辑关系如图1所示。

2.主要内容

（1）数据集成整合系统：是将各种数据源中的各种类型的数据按照教育数据资源中心的数据规范要求进行清洗、转换等操作，将符合教育数据资源标准体系要求的数据整合、加载到教育数据资源中心，为后续的统计、分析、挖掘业务提供高质量、规范化的数据资源;

（2）数据管控系统：是对数据资源的集中管控，保证数据的准确性、完备性和安全性。主要建设元数据管理、数据质量管理和数据安全管理，从而达到对教育数据资源中心中数据的管控;

（3）数据治理体系：是对教育数据资产管理行使权力和控制的活动集合，是建立教育数据管理制度、指导教育系统执行数据规划、数据环境建设、数据安全管理、元数据管理、数据质量管理等其他数据管理活动的持续改进过程和管控机制;

（4）数据服务调度管理系统：是整个平台的“发动机”，以教育管理各级行政单位、各级各类学校、科研院所以及社会公众等不同团体在监管、决策、研究分析以及公众数据服务等应用为驱动，将教育数据资源中心数据按照一定的规则，运用合适的智能分析技术，以组件化、模块化、服务性的方式及时、准确、合理地推送给数据分析应用中心，从而直观、友好地展现给不同的监管者、决策者、研究分析人员以及社会公众;

（5）智能分析系统：主要是利用教育数据资源中的数据，通过即席查询、统计报表、多维查询、数据挖掘等技术手段，进行多种教育主题的综合分析以及通过大量数据信息挖掘潜在信息，实现教育的评价与预测等，然后以一种合适的、直观可视化的、有好的方式及时、准确地提供给相关教育监管、决策、研究分析人员以及社会公众，从而实现教育监管、决策以及研究分析的科学化、智能化。

3.预期目标

（1）汇集不同来源的各种教育数据资源，建立起统一、规范的教育数据信息视图，形成覆盖教育各领域的、综合的、面向各种教育主题的教育数据资源中心，实现统一的教育数据管控、治理机制;

（2）形成面向不同主体的、特定领域的教育应用主题的数据集合，按照不同的教育主题进行组织、汇总、管理数据，满足政府（教育行政单位及国家其他行政单位）、学校、社会公众、国际教育团体等不同教育数据应用主体对数据进行分析解读、评价和预测的需求;

（3）建立柔性化的分析性数据应用服务的统一出口，通过灵活的组件化方式，将特定的数据集以合适的数据展示形式及时地、直观地提供给各种不同的教育数据应用领域，满足教育监管与决策的数据服务需求;

（4）建立国家、省两级教育大数据仓库与数据服务支撑平台体系，既实现不同教育级别不同类型教育数据资源的整合与集成，同时又能够满足国家和省级不同的应用需求;

（5）构建一套全面的、标准化的、可操作性的教育数据资源服务保障体系，形成一种长久有效的教育数据资源服务保障机制，可持续性地为教育监管与决策服务。

总之，国家教育大数据仓库和数据服务平台的建设实施，将全面、有效地支撑各级各类教育数据资源的分析，并且使教育监管与决策智能化的能力得到逐步提升。

三、结语

当今各行各业都在大谈大数据的时代，大数据的开发应用已经被许多国家提到国家战略的高度来进行研究。今年初李克强总理所做的政府工作报告中明确提出要设立新兴产业创业创新平台，在大数据等方面赶超先进，引领未来产业发展。作为国家公共管理部门，教育如何适应大数据时代，并利用大数据的开发应用推动教育事业的发展、改革与创新，支撑教育事业智慧化的发展趋势，是当前所有教育同仁共同思考的话题。并且随着国家教育信息化战略的实施，大数据的开发应用需求更加迫切，所以我们应当适应大数据潮流，把握机遇，充分利用大数据，结合教育信息化建设现状，构建教育大数据资源中心，有效支撑教育的监管和决策，推动教育的智慧化，从而实现教育的变革。

参考文献：

[1]张春艳.大数据时代的公共安全治理[J].国家行政学院学报，2014（9）.

[2]沈菲飞.基于数据仓库的高校学生管理预警与支持系统[J].巢湖学院学报，2007，9（5）.

[3]（英）Viktor，Kenneth著，盛杨艳，周涛译.大数据时代-生活、工作与工作思维的大变革[M].浙江：浙江人民出版社，2013.

[4]韩蕊.大数据让数据仓库更具有价值[J].互联网周刊，2014（3）.

[5]俞燕萍，丁荣涛.基于数据仓库技术的学生就业趋势分析系统设计[J].中国科技信息，2008（7）.

大数据技术服务篇7

一、大数据到底有多大

大数据(Big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助经营决策更积极目的的资讯。[1]通常用来形容大量非结构化和半结构化数据 ,具有4V特征 :一数据量大(Volume),计量单位从TB (1024GB=1TB) 级别跃升到PB (1024TB=1PB)、EB (1024PB=1EB) 乃至ZB (1024EB=1ZB) 级别;二类型繁多 (Variety),包括文档、音频、视频、图片、地理位置信息等;三价值密度低(Value),信息海量,但价值密度较低;四速度快时效高(Velocity),1秒定律,与传统的数据挖掘技术有着本质的不同。

那么大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……

国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。如果将这些数据存储于光盘,这些光盘可以堆成五堆,每一堆都可以伸向月球。预计到2020年,全世界所产生的数据规模将达到35ZB。

这些庞大数字,意味着什么?它意味着,一种全新的价值观、方法论和通往未来的钥匙,它的价值堪比石油和黄金。因为面临的不再是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。有专家提出,人类93%的行为都是可以预测的。更重要的是,通过找出一个关联物并监控它,就能读懂历史的规律,寻找到通往未来的钥匙。[2]举例来说,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。

二、大数据时代下的大档案观

所谓大数据时代是一个数据更加全面的时代,通过大数据技术的应用,便可更加容易攻克之前由于数据缺乏而无法涉足的领域,比如档案领域。从大数据的思维来看,档案馆是当数据退出现行活动,但仍然对单位和社会有价值时所存放的地方,被赋予了新生命,成为大数据存储的平台。实际上,当档案馆收集各式各样类型的数据且其数据量增长至PB时,档案馆可能是一个单位中第一个含有大数据的数据库。对于档案工作者来说,数据的管理是我们对未来应尽的责任。

2012年3月,美国奥巴马政府宣布“大数据的研究和发展计划”。旨在通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。其中,为十亿电子记录(CI-BER)的网络基础设施是一个联合机构主办的测试平台,这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录的文件和信息的收集,可称为计算研究所的文艺复兴。这个试验台将评估技术和方法,超大规模数据收集,以支持可持续的访问。

2013年10月国家档案局杨冬权局长在全国数字档案馆(室)建设推进会上指出“数字档案馆(室)是大数据时代档案馆(室)的发展方向,是现代的新型档案馆(室),是对传统档案馆 (室) 的升级,是第二代或升级版的档案馆 (室)。档案工作是否现代化,我国能否成为档案强国,其显著标志就是看是否建成数字档案馆(室)。可以说建设数字档案馆(室),是实现我国档案工作现代化,把我国建成档案强国的一项迫切任务和重要内容。”

我国档案信息化建设已经持续二十年,从单机版管理到网络版管理,从目录数字化到全文数字化,从存量数字化到增量电子化,逐渐呈现出数据量大、数据类型多、数据需求快的大数据的4V特征,仅依靠数据库的查询检索机制由于运行缓慢已经不能满足现实的需要。大数据时代的来临相比其他信息技术则更加契合档案工作的需要,让处理海量的结构化和非结构化的数据成为可能,未来档案馆的发展方向将不可避免的实现全数字化档案馆。档案工作将呈现三大趋势:一是大档案,所有档案将有自己的数据形态;二是大技术,数字档案的管理迫切需要大数据技术; 三是大服务,将以需求为导向,向着智慧化、网络化迈步。所以作为保管大量数据资源的档案部门,应该跳出档案做档案,打破传统思维的禁锢,适时将档案资源转化为数据资源,尤其是覆盖社会大众的数据资源,建设大档案,应用大技术,实现大服务,充分运用大数据思维和技术推动档案工作创造更大的价值。

三、建设大档案———全面收集保存数据

“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实真相。”用《大数据时代》作者舍恩伯格的理论分析,在现代科技发达到能够存储海量数据的条件下,我们首先需要尽可能多地收集和保存数据,做到全覆盖,为我们的后代准确地认识历史真实面貌,进行科研生产提供尽可能详实的资料。档案是人类活动的真实记录,具有原始记录性的本质特征,与大数据强调的数据完整性和混杂性是不谋而合的,都注重原始数据的获取。档案工作其实就是一件遗憾的工作,我们永远不知道哪份文件以后要用,不知道哪些东西对明天的人有用,因此理应全面收集和保存好数据。[3]

1 、存量档案的数字化

目前,各级各类档案馆(室)的档案,大多是传统载体而非数字形态的,因此,档案馆(室)的首要任务,就是要把纸质等传统载体的档案进行数字化。这是一场硬仗,是一项工作量巨大的艰难任务,但同时也是一场革命,一次前所未有的突破,对于确保传统载体档案的安全、实现档案自动化管理、高效提供利用、节省日常工作、同社会上其他部门对接等方面具有显著意义。

首先,要下大决心。杨局长认为数字化最难点不在于找到钱来做事,而在于痛下大决心。档案数字化工作的最大困难在于“畏难”,如果心态是畏难的,那么,有了钱也无所为;反之,如果痛下决心,那么,没有钱也可以有所为。有条件的单位可以引进专业公司开展档案数字化,或购入数字化设备如大型快速扫描仪,聘请人员开展;无条件的单位可以用超额按页付酬、超额达到一定数量可以评先等一系列奖励政策,鼓励本单位各部门职工,利用工作和业余时间参与进来。

其次,要有大计划。一个档案馆保存的档案门类众多, 未必都具有一样的使用价值,有的门类利用率高达百分百,也有的无人问津,所以要优先数字化利用率最高、人民群众最需要或可以先开放的那部分档案,然后再处理其他档案,做到“常用先扫,以用定扫”,分门别类、循序渐进。举例来说,高校档案共有十三大类,但是每一类都各有特色, 在数字化进程中需要按计划行事,教学类中的学籍卡、成绩单、录取名册、毕业签领名册;行政党群类中的发文、收文;科研类中的奖状、证书、合同、课题;基建类中的施工、竣工图纸等,由于利用率非常高,应该是高校档案数字化的重心。

再次,要注意安全。第一是档案实体安全,在数字化过程中可以通过严格清点、扫完及时入库、全程录像监控、严禁携带档案出入、轻拿轻放等准则,确保一件不丢、一件不坏、一件不乱。第二是档案数据安全,要制定规章制度,确保档案数字化信息真实完整,不带出场外、不据为己有、不随意传输。尤其是涉密档案的数字化,经鉴定后必须由专人加工处理。对于外包给其他公司的数字化项目,要签订保密协议,封闭所有加工设备的下载端口,任何人都不能下载加工数据,确保任何数据不会外泄。

最后,要注重质量。不但要保证扫描后的数字档案内容完整、画面清晰,与原件一一对应,还要确保其具有法律效力。不能出现漏扫、错扫、扫描不清、扫描不全等情况。通过全程质量控制、全面质量检查等方法来确保数字化质量。

2 、增量档案的电子化

随着无纸化办公的深入,大部分新形成的文件都有电子版,应该按照有关电子文件管理标准及时归档保存,一方面避免新形成的电子文件散失无存,一方面也使新增档案将来不用再进行数字化,节省人力物力财力。因此,必须从源头开始抓,控制前端。

首先要认真梳理电子文件管理的标准和规范。研究确定文书、录音、录像等各门类电子文件归档范围和保管期限,明确电子文件归档和接收要求,保证归档或接收的电子文件收集齐全、整理有序、命名科学、格式规范、元数据合理有效。

其次将档案管理融入到本单位生产运行的各项系统中。举例来说,高校档案管理系统需要和OA办公系统、学籍系统、合同系统、设备系统、科技系统等多个业务系统接口,嵌入档案移交、接收功能,采取逻辑归档和物理归档, 做好档案数据的前端控制。如合同系统,与档案系统、报账系统建立实时接口,合同档案只有归档后,才能报账。在采购系统中嵌入采购档案管理模块,实时了解、控制采购档案的归档。[4]

四、应用大技术———高效管理数据

在传统的手工管理阶段,档案管理主要基于人工整理、编目;在计算机管理时代,档案管理主要借助档案管理系统辅助管理;在大数据时代,档案管理将是云平台上建设云档案系统,采取云计算。

管理大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。一直以来,档案数据管理采用的是关系型数据库,比较有代表性的就是IOE(I指IBM的服务器,O指Oracle的数据库,E指EMC的存储模式)模式,但是大数据时代,IOE模式显然不适合做大数据处理[5]。现在基于大数据技术的数据库,如SQL已经既可以做关系数据,也可以做空间数据、图像、数据流等非结构化数据[6],而且基于对象的存储架构可以在一个系统中管理十亿级别的文件数量,还不会像传统存储一样遭遇元数据管理的困扰[7],大数据技术为高效管理数据提供了解决之道。

五、实现大服务———智能挖掘共享数据

“数据价值的关键看似无限的再利用,即它的潜在价值,收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。”

《大数据时代》一书突破传统因果关系,提出关注相关关系。随着人类历史的不断延续,留存的信息数据越来越多,而人的时间是有限的,要在有限的时间中快速找到浩瀚资源宝库里所需要的信息,需要采取一定的技术和工具进行分析和挖掘。那么,档案工作者就应该承担起这份责任,利用档案资源进行数据挖掘,提炼所需的资讯,发挥数据应有的价值,这也是档案工作者未来的主要工作之一。

1 、数据挖掘技术

大数据的核心就是数据挖掘,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,通过分析每个数据,从大量数据中寻找其规律的技术, 主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式 (如可视化) 将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。[8]

基于大数据的数据挖掘技术,可以为档案馆实现网络信息服务的智能化、个性化、精品化提供支持工具,可以全方位的实现档案信息智能检索服务、档案信息定制与定题服务、档案信息决策服务、档案信息跟踪与推送服务,构建“数据—信息—知识—智慧”模型,真正实现“智慧档案”。通过大数据技术手段将彻底颠覆传统档案管理工作中的诸多弊端,将档案管理事业推向又一个全新的发展高度。

2 、数据共享平台

如果说数据挖掘技术让海量档案信息的利用更加智能化,那么构建档案共享平台将会提升档案馆的公共服务能力,让服务也更加智能化。

国家档案局今年开始建立全国开放档案信息资源共享平台,就是要打通档案信息社会共享、服务群众的“最后一节路”,让各级档案馆(室)的已开放档案在更大平台上,供更多人共享,发挥更大作用,推动以服务群众为主导的档案信息化体系的实质性建立。各级档案馆(室)对已数字化的档案,尚未放入数据库或局域网提供利用的要尽快放入数据库或局域网提供内部利用;尚未开展开放鉴定的要尽快开展开放鉴定,并把可开放的放入政务网或互联网供社会共享。

大数据技术服务篇8

1 大数据时代背景下数据挖掘的意义

在信息时代的背景下, 数字化技术和信息化技术在各行各业的应用, 随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展, 结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用, 全世界范围内数据呈爆炸式增长, 据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算, 2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的, 信息化技术彻底改变了传统的社会信息传输方式, 带来全新的信息传播途径。对于社会来说, 信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用, 社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸, 高效率的社会背景下, 是企业高效运转, 才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起, 共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分, 同时也是我国社会迈向信息化进程的重要前提。

企业信息化要求企业将大量的信息资源进行整合和电子化处理, 从而提高信息的交互与传输效率, 并希望藉此提高企业的生产经营管理方式和管理效率, 从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术, 给社会的信息化建设带来了巨大的改变, 降低了社会在信息化建设中的投入, 随着近年来云计算技术的不断成熟, 云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问, 当前的信息时代的发展已经达到了大数据时代的阶段, 大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说, 每天数以万计的银行和ATM终端都发生庞大的交易和数据交换, 这些庞大的数据交换信息构成了庞大的数据, 如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。

2 大数据时代背景下数据挖掘技术的分类应用

数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强, 随着社会信息化程度的不断提升, 数据挖掘技术也逐渐发展成为一门独立的学科, 数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要, 通过分类技术对数据进行分类挖掘, 是当前大数据时代背景下大数据技术应用最为广泛的手段之一。

通过数据库类型分类技术是数据挖掘技术在大数据时代的应用之一。数据库的自动存储系统在数据存储过程中按照数据的类型、场景进行基础分类, 数据挖掘技术在数据存储的基础分类的基础上进行数据库类型细分, 通过数据模型的导入和数据类型包括关系型、对象型、时间型、空间型的分类进行数据挖掘的分类。其次通过数据知识类型分类技术是数据挖掘的重要分类方法之一。知识类型分类包括知识相关性、知识预测型和样本偏离分析法等知识类型分类方法。数据的抽象性和数据的粒度是数据知识类型分类的层次之一。通过挖掘数据分类中的抽象层和价值层找出数据的模式和规则性。数据的规则性通过不同的方法挖掘, 通过数据概念的描述和数据预测等方法实现大数据精细化分类。

3 大数据时代背景下数据挖掘的应用技术

大数据时代背景下数据挖掘技术的应用技术主要包括神经网络算法、数据遗传、数据决策树、数据粗糙集等算法。数据神经算法通过对庞大的数据库进行分类, 对符合优先条件的有用数据进行分类, 能够在规模庞大的数据中迅速定位和精选有用数据。例如网络构架的基础传输通道光缆发生故障时, 通过神经网络算法能够及时诊断网络中的损坏数据点, 能够迅速定位故障点, 并排除。神经网络算法针对网状结构的数据库利用效率较高。遗传数据挖掘技术是仿生学和遗传学中发展而来的数据算法。遗传数据挖掘技术针对全局数据进行优化计算, 能够较好的兼容性和隐含并行性, 因此在数据挖掘中与其它算法进行联合应用范围较广, 应用较为普遍。决策树算法是在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。粗糙集算法是大数据时代背景下数据挖掘技术应用的典范, 粗糙集算法通过数据划分将模糊知识和精确知识进行合并分析, 并最终获得有效数据, 应用范围十分广泛, 应用效果较好。

4 结论

总之, 在大数据时代背景下, 数据挖掘技术是人们面对浩瀚的数据库所必备的技能, 也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。

摘要：21世纪是信息化的时代, 也是数据时代, 随着世界范围内数据挖掘技术的不断深入研究, 大数据时代的到来给数据挖掘技术带来了机遇的同时, 也带来了挑战。本文探讨了在大数据时代的背景下, 面对浩瀚的数据库, 如何充分利用数据挖掘技术进行数据挖掘与分析, 以及数据挖掘技术在大数据时代背景下的应用和发展。

关键词：大数据,数据挖掘,数据提取

参考文献

[1]刘华婷, 郭仁祥, 姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件, 2009 (1) :146-149.

[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学, 2012:16-17.

[3]陈明奇, 姜禾, 张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全, 2012, (08) :32-35.

基于大数据的数据挖掘技术探讨篇9

1.1 大数据具有大量化的数据特点

数据占位量越来越大已经成为信息时代不争的事实。随着人们对各种各样网站性能的要求不断提升, 使得各网站的信息量不断增大, 数据容量不断提高, 数据质量不断完善, 使得大数据的容量越来越高。现在一般家庭用的计算机硬盘容量都以TB为单位了。可见, 在各电子商务、游戏、社交、邮箱等, 数据容量甚至是以PB、EB为单位, 每个单位都是前面的1024倍。此外, 在用户需求的刺激下, 大数据的增长速度也十分惊人。如人们对于高画质的追求, 使得手机、相机等像素成倍增长才能适应市场需求的不断变化。

1.2 大数据具有多样化的数据特点

大数据根据是否可预定模型来进行表达可以分类结构型和非结构型两类数据。根据终端显示的不同类别可以分为文档型、多媒体型、图片型等等。这些类型都与我们的网络活动息息相关, 为我们的网上生活提供了丰富多彩的形式。

1.3 大数据具有快速化的数据特点

由于信息技术更新换代速度惊人, 在短时期内对大数据进行价值的深度挖掘, 从而为市场创造更高的利润是电子商务和其它一切商业活动的根本。例如在网络购物平台上, 有必要对不同购买力和不同购物需求的客户进行归类, 从其购物的经历中分析其兴趣、爱好和趋向, 从而完善购物平台的多元化、丰富化和阶层化, 才能针对不同人群的购买力进行合理推荐, 促进一站式服务平台的发展, 从而节省了客户的时间, 提高了网商的销售利润。

2 数据挖掘技术

数据挖掘就是对信息数据所隐含的价值信息进行归纳和总结, 从而形成具有市场应用价值的新元素集合, 并将这些新元素集合进行开发利用从而形成市场竞争力的又一利器。通过对数据挖掘技术的应用, 使得数据信息隐含的大量有价值的数据得以利用, 从而推动经济社会的不断向前发展。目前, 数据挖掘在通信领域、金融领域、房地产领域、现代农业等等均发挥着重要作用。

3 大数据背景下数据挖掘技术的重要意义

基于大数据背景下, 移动数据、通信数据、网络数据等数据量大幅提升, 从这些数据中进行信息挖掘, 智能分析、自动化处理等, 使得数据背后的隐含信息得以开发。在市场经济的推动下, 有规律的隐性数据、隐含发展趋势的数据信息等都是可持续发展的根源和动力。因此, 数据挖掘可以充分提高市场竞争力, 从而获得更大的经营利益。数据挖掘技术必须运用特殊的数据分析处理软件和处理工具, 从大量的数据信息中进行有价值的信息筛选和处理, 从而形成具有一定说服力的数据证据, 如果这些数据价值得以运用, 就会获得高额回报。一切价值都在于首先发现和利用。因此, 日积月累的数据并非是信息垃圾, 只有挖掘其内在的必然规律和联系, 才能变废为宝。数据挖掘技术的应用, 可以为市场决策提供充足有利的证据, 从而帮助决策者从战略发展角度提供战略目标, 使得战略目标具有前瞻性和独特性。因此, 数据挖掘技术的应用, 会对个人、企业、组织、甚至是国家产生深远的作用和意义。

4 数据挖掘技术的常用算法

数据挖掘的目的是发现数据中隐藏的规律和趋向, 按其模式可以分为描述型和预测型两种类型。前者是对数据规律进行标准化叙述, 使得数据的普通特性显露无遗。而后者是根据现有的数据特征, 对未来的数据发展趋向进行预测, 从而形成超前意识。这种往往具有风险性, 但其市场利益最大化也表现的最彻底。预测型常用以下几点算法:

(1) 聚类分析。聚类分析是将具有同一特征的数据进行归类分析。判断的依据是数据之间的关系和数据变量的相似性。运用判断依据将大量的数据进行聚类分析, 使得分析过程有序进行, 不会出现杂乱无章现象。聚类分析算法包括划分、层次、密度等各种算法。最为常用的有K-Means、K-Medoids。 (2) 特性选择。大量的数据信息会隐含多种特性, 将某一集合中所有数据共同存在的最小特性集合筛选出来, 就构成了数据特性选择算法。特性选择是对大量数据进行某种规律挖掘前进行的预处理, 能够节省盲目的数据挖掘时间。常用的选择算法为最小描述长度法。 (3) 特征抽取。对数据信息的属性集进行线性合并, 使其出现另一个更小的属性集合, 这种特征抽取, 具有精细化的作用。常用的算法为主成分分析法等。 (4) 关联规则。关联规则是不同数据之间的关联性特征是否具有可持续性, 从而为一站式服务打下基础。时至今日, 关联规则成为应用最广, 活跃度最高的挖掘技术之一。应用关联规则, 可以提高服务质量, 服务层次化和服务梯度化, 从而保证一站式服务范围不断扩大。常用的算法有Apriori算法。 (5) 分类与预测。分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据, 而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测, 需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。

5 结语

随着人们对电子技术的需求不断更新和升级, 信息化技术的发展不断向前推进。数据的形式和容量越来越多。这些数据垃圾所隐含的价值同样具有市场竞争力。因此, 在数据挖掘技术的支撑下, 大量数据所隐含的有价值的信息逐渐被开发和利用, 为市场的持续稳定前进提供了新的动力。

摘要：电子信息技术使得数据挖掘技术有了进一步的发展空间, 在数字信息化支持下, 数据蕴含的价值不断被开发出来加以利用, 来推动社会生产力的不断向前发展。正是基于这种大数据的背景下, 越来越多的数据信息被广泛应用, 给用户带来超额利润。本文简要说明了大数据的含义及特点, 并阐述了在大数据背景下数据挖掘技术的重要意义和常用算法, 以期能够为数据挖掘技术的发展提供一定的帮助。

关键词：大数据,数据挖掘技术,聚类分析,关联规则

参考文献

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报, 2014 (03) .

大数据分析关键技术篇10

大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化 (或称之为弱结构化) 及非结构化的海量数据, 是大数据知识服务模型的根本。大数据采集一般分为大数据智能感知层和基础支撑层, 其中智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统, 实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等, 涉及到大数据源的智能识别、感知、适配、传输和接入等技术。基础支撑层提供大数据服务平台所需的虚拟服务器, 结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境, 涉及的技术包括分布式虚拟存储技术, 大数据获取、存储、组织、分析和决策操作的可视化接口技术, 大数据的网络传输与压缩技术, 大数据隐私保护技术等。

大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。其中数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的结构, 以达到快速分析处理的目的。数据清洗则是将没有价值的数据进行过滤“去噪”, 提取出有效的数据, 提高大数据分析的准确性。

大数据存储及管理技术

使用存储器把采集到的数据存储起来, 建立相应的数据库, 并进行管理和调用, 主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。涉及到的技术包括异构数据的数据融合技术, 大数据组织技术, 大数据建模技术、大数据索引技术、大数据移动、备份、复制等技术、大数据可视化技术等。

大数据分析及挖掘技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多, 可以从不同的角度进行分类。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法可分为:机器学习方法、统计方法、神经网络方法和数据库方法。综合起来, 涉及到的技术包括可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量和数据管理。

大数据展现与应用技术

大数据为环境保护服务篇11

“由于大气本身的流动性，雾霾天气具有跨区域污染的特点。”曾参与中国环境监测总站相关中间件平台建设的东方通高级咨询顾问认为，新形势下，一个区域“单兵作战”的方式，难以有效掌握空气污染状况，需要建立多个区域联防联控的工作机制，通过跨区域的污染信息数据共享交换，为后续的污染预警、应急等工作提供决策依据。并且，造成雾霾天气的污染源是多样性的，涉及燃煤排放物、建筑工地扬尘、道路渣运车等方方面面，也需要多个区域、部门联合治理。

该咨询顾问进一步指出，大气污染防治还要与水资源保护、土壤污染治理等其他工作联动运作，实现对各类污染物、地理、人口、企业等环保相关数据的集中管控，以“大数据”为手段持续完善环保工作体系。

现代信息社会，环保工作已经离不开各类信息技术的支持，这其中，中间件在环保信息数据共享和业务系统协同运行中扮演着非常关键的角色。例如在中国环境监测总站环境监测数据平台中，东方通部署了几十套消息中间件TongLINK/Q，可同时为纵向和横向的“信息流”搭建基础数据传输网络：纵向方面，通过部署在部级、省级等各级单位上的中间件产品，实现各类监控数据的“上传下达”；横向方面，基于TongLINK/Q构建的数据传输通道，连接了环境监测信息空间表征分系统、突发性水污染事件预警分系统、酸雨监测分系统等多个业务系统，未来还可以把新建的业务系统快速集成到统一的数据平台上，通过各系统间数据的共享交换，提高各类数据资源对环保工作的实际利用价值。

“作为专业中间件厂商，东方通在环保信息化建设上拥有丰富的实践经验，并在此基础上结合物联网、云计算等前沿技术，推出了环保协同感知系统解决方案，满足新时期环保工作对信息系统的高标准要求。”东方通相关负责人指出，环保协同感知系统以大气、河流、湖泊等管理对象为核心，搭建出环保物联数字神经可视化平台，将环保涉及的所有组织机构、应用系统、传感设备及其实时监测数据集中到统一平台上，并根据业务需求整合物联网感知信息、人口、法人、地理空间等数据，可以分别为领导决策、相关部门业务协同、社会公众等提供更具针对性的信息服务，开创环保工作新局面。

生态文明建设关乎人民生活和民族未来，环境保护工作势在必行。“两会”期间发布的《2014年政府工作报告》就明确提出，我国将出重拳强化污染防治，健全政府、企业、公众共同参与新机制，实行区域联防联控，深入实施大气污染防治行动计划。由此可见，“联防联控”已成为新时期环境治理和生态文明建设的关键词，“大数据”理念及相关技术将会在环保领域获得更多的用武之地。而东方通凭借在数据资源共享交换方面积累的丰富实践经验，将通过大数据等先进技术为环境保护工作提供更多的专业支持。

大数据技术及其军事应用篇12

数据一词传统意义上指的是数值或者数字,如营业额、业务量、客户量等,传统的数据解决方案即可处理此类数据,而大数据则包括数值、数字、文本、图片、音视频、地理位置信息等多种类型的数据。其定义为超过现有数据库系统采集、存储、共享、分析和处理能力的海量复杂数据集合,数据量通常在10TB规模以上。大数据技术的主要特点包括:

第一,数据体量巨大性。目前互联网搜索巨头Google月处理数据超过400PB,百度数据总量则接近1000PB,日处理60亿次搜索请求,淘宝网日交易量逾千万笔,日数据量超过50TB,所有这些皆为海量数据的呈现。

第二,数据种类多样性。相对于传统数据,大数据在结构、模式等方面变化较大,不仅包括数值形态的结构化数据,而且包括邮件、报表等形态的半结构化数据以及文档、图片和音视频等形态的非结构化数据。

第三,数据处理迅速性。大数据生成的快速性和动态性使得数据处理由传统的批处理模式转变为流处理模式,同时对处理速度也提出了更高的要求,通常应在秒级范围内完成数据的采集、处理和分析过程。

第四,数据分析精确性。大数据的战略意义不在于掌握海量的数据信息,而在于对这些数据进行专业化处理,通过复杂算法完成数据“提纯”从而实现数据“增值”,通过数据的整合与挖掘来获得精准价值。

二、大数据在军事领域的应用

从计算机到因特网,军事领域一直都是人类最先进科技的“孵化器”和“实验床”,而随着大数据时代的到来,全球军事领域又将迎来新的变革,战争形式也将为之改变。在信息化战争中,战争的胜败取决于对数据的掌控,具备大数据优势的一方将能够把握战争进程,因此掌握大数据技术对于打赢未来战争具有重要意义。

2.1大数据将使情报侦察和决策能力产生质的飞跃

以美国为例,美军明确提出,要通过大数据将其情报分析能力提高百倍以上。如果这一目标实现,那么在该领域其它国家与美国的差距就不能以简单的代差来衡量。美军通过多年的发展,已拥有全球最先进的情报侦察系统,对海量情报数据的分析,一直是美军情报侦察能力的短板,而大数据正好能够帮助美军突破这一瓶颈。

2.2大数据将促进各类新型武器装备加速产生

美军大数据研究的第一个重要目标,就是通过大数据创建真正能够自主决策和自主行动的无人系统。以无人机为例,未来无人机有可能摆脱人为控制而实现完全的自主行动。美军2013年试飞的X-47B就是这一系统的代表,它已经可以在完全无人干预的情况下,自主在航母上完成起降并执行作战任务。

2.3大数据将使体系作战能力大幅提高

从作战角度看,大数据及其支撑的新型武器装备的应用,将丰富美军的作战体系;从作战效能角度看,美军的“观察、判断、决策、执行”的作战行动循环,所耗时间将大为缩短,更符合“未来战争不是大吃小,而是快吃慢”的制胜规律。

2.4大数据将推动战争形态的急剧演变

美军一直追求从传感器到平台的实时打击能力,追求零伤亡。由大数据支撑的拥有自主能力的无人作战平台,将使得这些追求成为可能。现今,美空军的无人机数量已经超过了有人驾驶的飞机,或许不久的将来,美军将向以自主无人系统为主的、对网络依赖度逐渐降低的“数据中心战”迈进。基于大数据的实时、无人化作战,将彻底改变人类几千年来以有生力量为主的战争形态。

三、大数据技术所面临的挑战

在享受大数据带来的科技便利的同时,还要重视对海量数据进行安全防护的问题。主要体现在四个方面:一是大数据成为网络攻击的显著目标;二是大数据加大了信息满足风险;三是大数据威胁现有的存储和安防措施;四是大数据技术可作为攻击手段。

可见,在大数据时代,信息已成为国家和社会发展的重要战略资源,信息安全不再仅限于军事或外交等领域,已涉及到公众皆可触及到的层面;信息安全也不单是技术问题,而是涉及到公众个体安全、社会公共安全和国家信息安全的方方面面,是关系到诸多领域的战略性问题。

未来影响、决定军事行动的最大核心在数据,数据的积累量、数据分析和处理能力、数据主导决策将是获得战场优势的关键。面对大数据时代的到来,我们必须认清特点、把握走向、积极应对,高度重视其潜在战略价值,时刻关注其前沿技术,加快推进其实际应用,确保在新一轮信息化浪潮中占得先机。

参考文献

[1]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,08:142-146.

【大数据技术服务】推荐阅读：