大数据价值挖掘

2024-06-23

大数据价值挖掘（精选12篇）

大数据价值挖掘篇1

引言

随着科学技术和现代网络的不断发展, 大数据时代越来越多的被人们提起, 信息爆炸时代数据量来临。通告显示:自2008年以来, 全球数据量的生产总和达到了0.49ZB, 随后的两年内迅速增长, 数据量总和分别为0.8ZB和1.2ZB, 到2011年更是达到了历史新高1.82ZB, 平均每个人数据产生量几乎为200GB。数据已经成为所有行业和相关业务领域不得不考虑的生产因素。如何高效利用和挖掘这类数据信息已经成为提高生产率以及消费者盈余模式的新的浪潮。大数据时代教育数据挖掘技术也会成为未来世界某一时间段的主流需求。

大数据时代学习分析技术

这是一门结合了测量收集和分析报告学生相关学学习信息和环境等内容, 并作出相关优化的技术。这一技术是对学生庞大学习数据的相关问题充分分析, 并对学生现阶段学术进展以及内在问题和未来表现的客观评估。它是在数据的基础上, 对学生学习以及学习环境的测评, 达到了解学生学习问题, 优化学生学习环境的目的。

大数据时代学习分析技术现状

相关研究表明, 学习分析技术在很多方面都具有非常重要的使用价值:

1.从学生方面来说, 学习分析技术在了解学生学习现状之后, 通过分析学生数据, 找出相关问题, 对学生学习过程进行优化, 帮助学生培养良好学习习惯, 从而达到学生自我学习的目的。

2.从教师以及管理人员方面来说, 学习分析技术可以评估教学课程和相关机构, 帮助同步改善学校既定考核方式, 深入分析教学数据, 为教师帮助学生解决实际问题指明教学不足和更优方法。

3.从研究人员方面来说, 学习分析技术是一种研究学生和网络学习的有效工具。

4.从技术开发人员方面来说, 学习分析技术管理系统各模块各不相同的使用频次和路径能有效指导系统界面的相关优化设计, 并可以完善系统日志相关管理功能。

大数据关键技术分析

1.学习分析关键技术与主要工具

⑴内容分析法

内容分析法是一种对文献内容作客观系统的定量分析的专门方法, 其目的是弄清或测验文献中本质性的事实和趋势, 揭示文献所含有的隐性情报内容, 对事物发展作情报预测。它实际上是一种半定量研究方法, 其基本做法是把媒介上的文字、非量化的有交流价值的信息转化为定量的数据, 建立有意义的类目分解交流内容, 并以此来分析信息的某些特征。

⑵话语分析

人文科学所有的知识分子都是在利用话语的生产模式来行使权力, 话语传播着权力的影响。在现代社会中, 它们就是权力的替代品。只有遵循话语系统自身的规律, 人们在生活中的表达和沟通才能有效, 否则就是痴人说梦。换言之, 可以这样来说, 现实并不是我们人类在创造、支配使用话语 (主体性解构) , 而是语言在建构我们的本质。掌握话语权的人掌握社会规范。

⑶社会网络分析

社会网络分析适合分析关系数据, 而用来分析其他类型数据对关系数据的影响。数据主要分为两类, 属性数据和关系数据, 属性数据指涉及能动者的态度, 观点, 行为方面的数据, 采用的方法主要是变量分析法。关系数据是关于接触, 关联, 群体依附和聚会方面的数据, 反映一个能动者与另外能动者联系在一起, 而不是单独的属性, 一般采用的分析方法是网络分析。另外还有一种是观念数据, 主要是描述意义, 动机, 定义和类型化本身, 主要是用类型分析的方法。

⑷聚类

聚类分析也被称为群分析, 它是在“物以类聚”这一理念之上, 对样品进行必要分类的一种相对多元的统计分析方法。这种方法专门针对大量的样品, 按各自的特性进行相对合理的分类, 即使未曾事先验知的情况下依然不会参考任何模型。

聚类分析是研究事物特性的个体方法, 可以把类似的事物分类整合。原则上依据事物的相似性进行归类, 具有以下三个特点:

(1) 非常符合检测未曾验证的事物。在没有数据标准参考的情况下, 设定相对完善的分类变量就可以对数据进行合理的聚合, 得到相对客观的分类信息。

(2) 能够处理多个变量决定的分类。多个变量的分类一般相对比较复杂, 聚类方法完全可以胜任针对此类数据的分类。

(3) 聚类分析法的探索性相对较高, 可以根据事物的内在属性和规律, 依据原则上的相似性对数据分类, 被广大工作者广泛应用。

⑸预测

根据已有数据或信息对整体或个体数据发展态势做出合理预测。

⑹关系挖掘

数据挖掘是一种在信息领域当中发展最快的技术, 许多行业中的佼佼者都从中获得较为广阔的发展空间, 这使得数据挖掘技术日趋被人们所关注。随着科学技术的不断进步, 采集数据的方法日益繁多, 因而使得庞大的数据总量几乎达到GB甚至TB级, 并且高维数据日趋主流化。此类数据以及数据的高维特征并不是传统数据分析方法可以轻易解决的, 这样导致数据的处理也愈来愈依赖计算机和网络。

⑺文本挖掘

文本数据挖掘 (Text Mining) 是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义, 文本数据挖掘是从文本中进行数据挖掘 (Data Mining) 。从这个意义上讲, 文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科, 由机器学习、数理统计、自然语言处理等多种学科交叉形成。

2.学习分析技术模式

学习分析模式分为三大要素:“学习分析流程”、“工具与算法”和“数据与信息”。“学习分析流程”中包括数据收集、数据预处理、分析、预测和应用等环节, 不同应用情景下的“学习分析流程”各个环节都会有一定的区别;“工具与算法”是“学习分析流程”的有力支撑, 能够从“学习分析关键技术与主要工具”中选取出来;“数据与信息”不但有来自“工具与算法”数据, 还有将“工具与算法”的信息知识输出出去。

结束语

目前, 教育领域数据存量庞大, 大数据时代脚步逐渐来临, 教育领域所部属的各类学习管理系统中学习信息和学生信息也逐渐增多。随着科学技术和现代网络的不断发展, 大数据时代越来越多的被人们提起, 信息爆炸时代数据量以及相关技术创新发展被推上人们视野焦点。这些数据信息的利用, 在极大程度上影响着学习、知识信息传递, 以及教学决策和学习相关优化服务等重要方面, 逐渐演变成教育工作者和学习者最为关注的内容。

大数据价值挖掘篇2

【摘要】人类进入信息化时代以后，短短的数年时间，积累了大量的数据，步入了大数据时代，数据技术也就应运而生，成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域，将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。

【关键词】大数据，数据挖掘，互联网

数据挖掘是一门新兴的学科，它诞生于20世纪80年代，主要面向商业应用的人工只能研究领域。从技术角度来看，数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说，数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。

1.数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作，通过科学可靠的算法才能实现数据的挖掘，找出数据中潜在的规律，通过不同的分析方法，将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。

1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组，然后形成板块，将毫无逻辑的数据变成了有联系性的分组数据，然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类，所以聚类分析法一般都运用心理学、统计学、数据识别等方面。

1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式，其数据资源十分广泛并且得到了一定的普及，如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类，寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用，这就需要通过关联性分析法完成对于数据信息的关联性识别，来帮助人力完成对于数据分辨的任务，这种数据分析方法通常是带着某种目的性进行的，因此比较适用于对数据精准度相对较高的信息管理工作。

2.数据挖掘技术的应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存，然后就已有数据中进行分析、整理、选择、转换等，数据的准备工作是数据挖掘技术的前提，也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘，然后对数据进行评估，最后实现运用。因此，数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术，以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中，数据挖掘的结果参与到政府、企业、个人的决策中，发挥数据挖掘的社会价值，改变人们的生活方式，最大化数据挖掘的积极作用。以教育行业为例，探究数据挖掘技术在高校教育教学活动中的应用。

2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括：高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节，直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理，建立相关数据模型，采用分类算法，提取和挖掘对用户有用的信息，然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛，由于高校管理内容比较复杂，因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理，比如学生成绩管理，课堂教学评价系统等。

2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作，数据的预处理是数据挖掘技术的关键步骤，并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定，学校教学评价管理部门登录学校教务系统后，将学生所选择的选项对应转换为教师的分值，通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况，如对教师的评价为零分，则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括：对不同的用户设置不同的使用权限；对学生的基本信息以及学生浏览管理网站的记录要做到明确记录；各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改；成绩管理要能实现大批量添加及修改；还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表，内容包括学生的姓名、学号、考勤以及学习成绩等，这些都是学生特有的属性，学生信息管理利用决策树方法就是将学生的这些属性作为决策元素，监理不同的决策节点，实现对学生全方位的考核和评价，完整的了解到每位学生的具体信息。

2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况，为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理，将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源，帮助图书馆管理人员对于图书馆信息的补充和调整，还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源，多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。

3.结语

数据挖掘技术是近几年新产生的网络技术，可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来，伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新，开发，而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展，大数据挖掘技术的应用面将会越来越广。

【参考文献】

挖掘大数据的能量篇3

来自央视市场研究、集奥聚合、新意互动、TalkingData、中国人民大学的嘉宾学者悉数到场，除了演讲嘉宾外，记者在报名名单里发现了IBM、蓝色光标、联想、爱奇艺、美团网等等知名企业的名字，由此可见，现场参会观众的阵容也是十分强大。

事实证明，小型交流比大型讲座效果好，行业性质的比企业性质的干货多，而宣传力度则刚好相反。具体有哪些干货，请听我一一道来。

智慧洞察大数据先人一步

广告行业以及广告主的变化大家都很关心，单凭一己之力又无从得知，但基于对大数据的分析，我们能获得充分的洞察和理解。

央视市场研究数据营销总监刘航的报告展示了广告行业的风云变迁。2013年开始，互联网已经由补充变为了广告主的主要投放渠道。2014年上半年广告数据显示影院、视频广告和互联网广告增速非常迅猛，同时电台广告和商务楼宇视频广告也有两位数增幅。而广告主从之前的投放常规硬广也逐步转为数字营销，终端推广、内容植入的重要性逐渐上升。

新营销趋势出现，过去大而全的传播渠道、人海战术的媒介投放、单纯的传播渠道建设已经不能满足现在的需求。以人为本的营销关系，以需求满足为核心的营销思维，技术为生产力的营销工具才是今后的主流。

在视频这个特定领域，中国人民大学新闻学院博士刘也提出了一些独到的看法和研究。她认为视频是包括视觉和听觉信息所有的信息的载体，手机电视和互联网音视频都算视频。视频网站的各种指数非常有用，将传统电视与视频网站数据的跨屏分析，还有和社交媒体和搜索引擎数据的对比分析会有极大收获。

其中很有意思的一个观点是关于互联网和电视台的关系。电视台一直将互联网看做敌人，认为互联网会引流观众，不过数据表示事实并不是这样。互联网不分时段播放和话题互动讨论与推荐会反过来带动电视上电视剧的播放，很多网民是从互联网讨论甚至微博话题去看这部电视剧。因此，电视台反而要感谢互联网。

大数据如何助力营销

具体到如何应用大数据到数字营销，帮助广告主带来价值，集奥聚合（GEO）首席营销官段培力与新意互动精准营销部总经理刘会冬各有观点。

段培力提出的话题值得深究——品牌程序化购买如何能既有精准又有规模。的确，越精准，广告能够投放的规模越小，从原来传统媒体的采买到今天的程序化购买都一直在试图解决规模和精准的矛盾。行业内的做法有的是把媒体增多，有的是把数据库做大。

在他看来，大数据环境下，数据分析就是瞄准的工具，这把“枪”瞄准哪个受众，就能“打”到他。如果瞄准的方式越多，计算方式越多，瞄准人的可能性、选择机会就越多。

而GEO所使用的非Cookie大数据能够抓住用户的全网搜索行为、浏览行为与购物行为。首先根据这些行为数据可以直接进行行为定向，也可以用行为推导出属性数据再去做定向。这种方式超越了以前Cookie的传统的方式，有品牌偏好、即时偏好、媒体偏好等等多种定向方式。把规模做上去，但每一种定向方式还是精益求精。

除此之外，延长数据时效是把人群扩大的另外一个方法，GEO也在研究为了不失精准，数据的有效时间周期到底是多少。

具体到汽车行业，新意互动精准营销部总经理刘会冬也有自己的做法。新意互动有强大的客户基础，良好的汽车行业从业经验，充足的汽车行业相关数据储备。新意互动做的是基于受众的营销，通过对线上人群的数据采集、数据管理、数据应用、数据优化这四个方面来针对“人”去做品牌传播以及效果传播。并且，由于与汽车产业联系比较紧密，新意互动帮助汽车产业做的事情不仅是营销前端的事情，也要解决跟卖车或者是成交系统更相关的事情。

新意互动还在帮助广告主进行第一方人群数据管理，同时，也在对汽车用户画像进行画像，相对准确地去描述这个用户的在互联网上形态。

移动端的大数据野心

除了大数据，互联网的另外一件大事就是移动端的崛起。本次沙龙自然也不会漏掉。我们都知道，手机端所有信息都是来源于设备ID，跟Cookie相比，设备号是唯一的，也可以真正定位到人。另外，移动端有LBS，基于位置可以把营销玩的更加多样化。

TalkingData业务拓展总监宋显赫告诉现场的观众，可以基于移动设备本身，安装APP、活跃程度以及平时使用的频次，确定受众到底是什么样子，会比PC端更全面，标签更全面更准确。因此，在移动端能够比PC端更加精准的知道设备背后的人是什么样，对于广告主来说，营销效果无疑加倍。

TalkingData甚至可以利用大数据搜集银行用户常去的地方，在此基础上帮助银行选择新分行的地址，还可以帮助风投进行风险控制，因为可以了解到该用户移动端的信用水平。电商广告方面，除了帮电商做品牌广告的广告投放以外。还可以通过室内WIFI定位，定位用户的活动地点，再和线上团购等客户合作做O2O。

让沙龙“问”的更精彩

经常参加沙龙的朋友都知道，一般讲到互动环节，在场的观众就所剩无几了，但记者回头一看，整个会场内依旧坐的满满当当。一方面是因为嘉宾的演讲扣人心弦，另一方面，整个数字营销系列沙龙的互动环节确实是活动的一大亮点。现场观众互踊跃提问，与会嘉宾耐心释疑解惑，共同为大数据与数字营销发表自己的真知灼见。

其中一个话题是大数据与个人隐私，有嘉宾回答，其实大数据并不知道这个人是谁，它掌握的是设备属性，为的是在不涉及隐私的情况下利用这些数据，更好的为用户服务。

也有观众提到了广告分发平台，在在场嘉宾看来，的确有很多做数据的公司走上了流量分发之路，但是这相当于数据公司既是裁判员又是比赛者，业务肯定是有天花板的。尽管现在数据服务的开展可能不是特别顺利，可是最终会形成一个很健康的数据交换、数据买卖的平台，这比单做流量变现要好得多。未来也需要全行业及整个生态圈的各个链条的共同努力。

与会者们也围绕着移动端的WIFI营销，互联网金融平台的推广及App开发运营，电视收视率与社会化媒体结合等相关话题进行了讨论。

很高兴，在这次大数据营销沙龙里，大家进行了一次自如、畅快的交流，获得了全身心的满足。如果这次没能来，也不用遗憾，我们的第四期的沙龙也将在九月如期举行，主题是目前炙手可热的“跨屏营销”，将分解“跨屏”，从技术，产品，服务，趋势等方向探讨这个难题。今后将会有更多活动的开展，期待大家的参与。

挖掘“校园大数据”的价值篇4

先从“翻转课堂”实践研究说起。学校自去年开始进行“翻转课堂”的实践研究, 依据“先学后教、少讲多练、及时反馈、群智合作”的原则, 在全寄宿制管理背景下, 教师们开始尝试新的教学模式:在前一天的晚自习时间, 教师为学生提供微视频等学习资源, 学生利用Pad等终端进行预学, 并完成预学自测;第二天的课堂上, 师生共同完成“集中释疑”、“任务驱动”和“课堂检测”三个教学环节。学生和教师都很喜欢这种教学方式, 学习效果不错。但其中也存在一定的不足, 如: 教师有时会将“集中释疑”环节变成“微课重现”或“习题讲解”, 问题不聚焦, 目标不清晰, 达不到以学定教、有效教学的预期。究其原因, 有多个方面, 但主要原因是:学生预学自测的评价生成和反馈不及时, 教师对学生个性化预学情况了解不透。

翻转课堂教学模式对学习评价提出了“即时性”的要求, 解决这一问题, 不能完全靠老师, 而是应该交给电脑和网络, 从而解放教师, 让翻转课堂教学辅助系统为教师提供数据支撑和服务。增加了在线测试和网络阅卷分析系统后, 这个问题得到了很大改善。目前, 学校里大多数班级进入了“翻转课堂”常态教学, 成为在校学生自主学习的一种方式, 也成为教师自觉研究的一条途径。

“翻转课堂”实验引发我们对“大数据时代”背景下学校信息化建设新的思考:数字校园到底需要什么? 学校不缺少“数字”, 但缺乏“数据”及挖掘能力。“沉睡的”数字校园不能给师生带来帮助, 只能成为越来越沉重的包袱。传统的、为经验所支配的教育教学行为应向有数据支撑的、实证的科学行为转变!实现转变, 应该以“大数据”的思维来规划和建设数字校园。

所谓大数据, 就是利用一些非传统的数据筛选工具, 对大量的结构化和非结构化数据集合进行挖掘, 以便提供有价值的数据洞察。大数据的关键不在于数据大, 而在于挖掘数据的意义, 可以说, 数据+意义=智慧。要建设一所具有强大数据挖掘能力的数字校园, 为师生提供更具个性化的数据支撑和服务, 目前我们能想到和做到的是什么?“大数据”为我们带来了启发。以我校为例, 学校正在建设的数字校园在挖掘数据价值方面具备以下四个特点。

一是让数据集中, 即建立基础数据平台并提供标准数据接口, 统一认证, 集中存储, 尽快消除“信息孤岛”现象。我校现在运行的一卡通、网络阅卷、自主学习社区、办公管理等系统不下十个, 系统间数据互不关联, 各行其道, 管理复杂, 而且伴随着新的系统不断加入, 情况会愈加严重。物联网和云技术支持的基础数据平台的建立, 将为类型庞杂的校园数据提供分层管理, 增强不同类型数据之间的关联度。

二是让数据更丰富, 即数据采集方式要多元、便捷, 单一数据要多属性、多用途。例如:教师命制一套试题, 既是学生试卷, 又是阅卷系统的模板, 也为学校试题库添加试题……只要同时完成, 就实现了单一数据多属性、多用途。学校增加“一卡通”传感器、高速扫描仪、电脑、Pad、手机等多元数据采集方式, 方便师生通过网络存储数据。

三是让数据说话, 即强化数据的挖掘功能, 分析的结果要可视化。挖掘“一卡通”数据可以提供学生迟到、消费过度、借阅过期等管理信息;挖掘阅卷系统数据, 可以得到学生学习效果和能力发展图表, 为学生提供错题本、阶段复习提示, 也可以为试题库的试题赋予难度系数, 等等。

大数据价值挖掘篇5

公司在2017年08月24日 — 08月27日组织参加了在北京举办的“大数据建模与分析挖掘”培训班，首先感谢公司给予的这次难得的机会，虽然只有短短的3天时间，但是我觉得在这3天我得到了一个充分的学习。下面我就谈谈这次培训的一些体会。

1、对数据建模和挖掘体系有了更深入的了解

培训中讲了大数据底层架构hadoop、spark的组成、了解了HDFS、mapreduce、hive、Hbase等组建的应用场景，并且也涉及了大数据架构与数据挖掘技术的结合，对整个大数据体系架构及数据挖掘流程更进了一步。

2、了解了挖掘模型的底层的原理

虽然实际工作中对数据挖掘模型更多的是侧重应用，但是了解了模型原理有利于对模型进行改造升级。培训中学习了一些模型求最优解的方法和策略，了解了最小二乘法、贪心算法、熵值法在求解模型系数时的应用原理，通过培训对模型底层算法有了一定了解。

3、学习了一些最新的建模方法

在以往的建模中往往采用单一模型或者多个模型权重结合的方式进行模型建立，此次培训中老师讲到了级联模型的应用，通过多个模型的等级级联，使预测模型的损失函数值最小且避免过拟合，并引入了xgboost高拟合模型，通过此次培训，对最新的建模方法和模型包有了一些了解。

4、确定了下一步学习的方向和目标通过此次培训了解到自己在数据挖掘的道路还很长，对整个体系的全面掌控、建模的高准确性、深度学习等方面都是自己未来发展的方向，后续工作和学习中，根据公司需要确定优先深入学习的方向。

5、规划将学习的知识应用到实际工作中

大数据下的空间数据挖掘思考篇6

关键词：大数据时代；空间数据挖掘；发展趋势

中图分类号：TP311.13

随空间信息的概念进入公众视野、成为研究人员的探讨议题后，部分专家便预测了空间数据挖掘的必然出现，由于大数据时代对于数据的特殊要求及属性定位，势必会带动一股对于数据整合手段的讨论热潮，而空间数据挖掘技术随之应运而生。从简单的同类事件各类型数据的对比提炼，到各类型事件多样化数据的收集、整合，空间数据挖掘技术较数据挖掘技术的提升空间巨大。

1 论文议题概念与意义

随各类型资料、信息的聚集量逐渐扩大，信息整合技术手段层出不穷，可以说，我们当下生活的环境已进入大数据时代。各类型事件、各类型组织、各类型研究议题均无法脱离大数据时代的长远影响。大数据时代已经开启便注定其今后的主导地位。而空间数据挖掘则是大数据时代的主要代表思想，从其概念看，空间数据挖掘指的是将存在于空间领域、表面看毫无规律、内在联系不明显的隐含数据信息运用相关特征及模型建立手段进行提炼的过程。其操作过程包含数据的准备过程、选择过程、预处理过程、缩减过程、变换过程、配套研发过程等多个环节，每一环节都紧密相扣。就已有空间数据挖掘研究现状看，较成熟的空间数据挖掘手段包括概率论、空间分析、统计分析、归纳学习、空间关联、聚类分析、神经网络、决策树、粗集、趋势探测、云理论、遗传算法、可视化处理等等类型。大数据时代的空间数据挖掘技术研究所经历的发展历程呈现初步提升、类型多元化变换的良性趋势。

对于空间数据挖掘技术，人们由最初的简单数据提取逐步演化为如今对技术手段的不断优化，可以说，大数据时代的社会轮廓愈发清晰明朗。大数据时代的空间挖掘技术也逐渐从专业领域研究人员所用手段逐步变为日常生活中经常出现的行为模式。从政府执政参考、学校教学手段提升、专业领域研究、到社会现象规律探究，各行各业随处可见大数据空间数据挖掘思想的影子。或许人们在操作过程中并不确定其手段的数据挖掘属性，然而大数据时代的空间数据挖掘思想就这样的逐步渗透到我们的生活中。

本文议题设定原则在于协助人们明确自身所处社会时代的大数据特性，以前人思想分析为基础，明晰空间数据挖掘思想对人们日常生活的重大影响及其优势。

2 空间数据挖掘的特点及应用范围

信息时代必然的结果是巨大数量级的各样信息的逐渐积累，无章可循的大量信息无法给人提供有效信息及功能，那么我们可以称之为垃圾信息。倘若没有空间数据挖掘作用，那么我们周围的所有信息将以杂乱无章的混乱形式充填，加之空间信息的增长速度极快，根据领域个性化要求进行的空间数据挖掘技术的出现十分必要。

2.1 空间数据挖掘的特点归纳。空间数据由于其区别于普通数据的多样性及复杂性，注定了空间数据挖掘手段具备一定特殊属性。在查阅相关资料后笔者发现空间数据挖掘的特点可以从其本身特性及应用特性两方面予以概括。

（1）数据来源多样且丰富、数据数量级庞大、数据类型众多、数据呈现形式表面看非常复杂；（2）所依托手段水平较高，常常借助空间搜索引擎使用机制对復杂空间数据予以组织。由于空间数据挖掘技术的定位较此前大数据环境下的简单数据整合、聚类而言有很大提升，所涉及的相关技术手段的水平自然而然随之提升；（3）空间数据挖掘手段类别多样，对于不同领域要求有不同属性表现。由于应用范围多样且复杂，空间数据挖掘手段的类型也随之发生不同变化，每一类空间数据挖掘技术都依据所负责的领域研究内容而在侧重点上有所不同；（4）空间数据挖掘原则为多尺度、多维度并行分析。面对现代社会日趋多元化、复杂化、空间化的数据信息整合需求，空间数据挖掘手段虽然各自存在不同，但其发展趋势方向为多领域并行分析。原因在于各类型领域的共同性注定了今后信息整合的归一性。

2.2 空间数据挖掘的技术支撑。目前国际上公认的具有代表性的空间数据挖掘技术支持系统包括Descartes、GeoMiner、ArcViewGIS的S_plus接口数据库系统。这三种SDM系统在不断的实践应用过程中均表现出令人满意的可视化地图与DM之间的结合能力。可以提供根据用户数据需求的多样聚类、数据信息分类等挖掘形式。Descartes作为专门的空间数据可视化技术，其工作原则为与DM工具Kepler两者联合在一起。而GeoMiner系统相对庞大，在实际运用过程中会对空间数据信息平台的资源配置要求过高，也可能会造成一定程度的资源浪费。而较为常用的GIS系统在应用过程中同样存在一定缺陷，虽然其技术本质为解释性语言的一种，但其功能性上较C语言而言较慢，也就是说，GIS系统较难实现对相对量多的数据库的挖掘。

以GIS中数据挖掘的过程，帮助理解空间数据挖掘的技术方案。首先，根据一定的主题要求及背景知识，从现有的空间数据中提取数据进行分析、处理。其次，选择合适的算法，确定参数。得出挖掘数据后对其进行评价，再以用户能够全面理解的方式呈现给用户。

2.3 空间数据挖掘的应用领域。正如前文所说，空间数据挖掘的涉及领域范围极广，对人们工作、生活、学者研究乃至国家政策都有潜移默化的影响，其优势已被国际认可。就目前空间数据挖掘的发展现状看，其应用领域包括国家国防建设及安全筹划、人们日常生活及身体健康、气候变化及天气预测、地质勘探及环境调研、地震预防及突发性事件应对规律等。近几年来被热议的智慧城市、智慧地球等新兴理念也同样受到空间数据挖掘的影响。

天文学、地质学、灾害学等领域需要依托以往经验、规律进行有效预测、算法设置、要点归纳，而大数据时代下的空间数据挖掘思想恰恰迎合了这种需求，值得注意的是，空间数据挖掘技术在危机管理及危机预警行业的应用频繁、效用显著。由此可以推测，今后空间数据挖掘技术在经验探究、规律总结类研究领域的应用比重将会更大。

3 空间数据挖掘的应用趋势及发展预测

分析大数据下的空间数据挖掘现状笔者发现，就目前社会市场环境下的应用需要，空间数据的所有特征并未被人们完整地注意到，某些待开发领域特征的存在注定了空间数据挖掘技术的深入研发远景。比如，对于多来源的空间数据的预处理技术水平尚不能完全满足各行业、各类型组织的应用需求，对于空间数据的种类划分及对应技术方法的研讨仍在进行。

而今互联网的迅猛发展也为空间数据挖掘技术的前行助力，空间上必然存在的信息属性不确定性逼迫着空间数据挖掘者们持续进步。在分析空间数据挖掘思想的特征、目标、现状的基础上，笔者认为，空间数据挖掘今后的发展方向必然是各类型、领域、行业的专业化空间数据整合技术的研发，其目标在于协助人类更直观、多角度、完整地认知世界、环境及社会，帮助人们提升自身面对知识的有效提取能力。可以说，大数据时代下的空间数据挖掘技术的核心发展目标在于更好的服务于人类社会的发展。

4 结束语

虽然已有空间数据挖掘技术水平基本满足现有信息结构化处理需求，但随各领域研发进度的深入、多样化，已有的空间数据挖掘技术的不断强化、提升成为大数据时代下的空间数据挖掘技术的必然发展趋势。从技术及理论方法两方面，完成实践与理论的双向完善，成为各领域专家、研究人员今后的工作重点。

参考文献：

[1]蒋良孝.空间数据挖掘的回顾与展望[J].计算机工程与应用，2003（06）.

[2]李德仁.论空间数据挖掘和知识发现[J].武汉大学学报，2011（06）.

[3]段晓君.可视化数据挖掘技术及其应用[J].计算机应用，2000（01）.

大数据价值挖掘篇7

随着“大智移云”新兴信息通信技术的不断发展,大数据分析已被人们广泛提起,并对数据多尺度地测量与记录、海量存储与统计,进而实现描述性分析、预测性分析、优化分析和可视化展示[1]。大数据对教育特别是在学校教育的创新、教学、决策起到重要支撑作用[2],并《中国基础教育大数据发展蓝皮书(2015)》等报告表明教育大数据的价值与意义巨大。教育大数据存在一些与其他领域中的大数据相区别的分层特征,如学期层、学生层、教室层、教师层和学校层等。教育数据如同像生态系统里的能量一样,在不同的教育信息管理系统、不同的教育设施、不同的教育设备之间无缝的传递和交换,通过数据挖掘等方式充分发挥其应用价值。

教育大数据成为教学改革和教育质量提升的一个显著指标。教育数据具有高维度特征,如考试成绩、学习行为(如入学率、出勤率)、辍学率、升学率以及职业规划等。对于某门具体的课堂来讲,教育数据能较为充分地表明教学效果,比如学生的作业正确率、综合发展的表现率、积极参与课堂讨论的举手次数、师生互动的频率与时长、回答课堂问题次数、时长与正确率等。但是,随着手机通信的不断发展和手持终端阅读的普遍现象,教育特别是学校教育面临着教学方式、教学渠道、教学内容等方面的重要改革和挑战[3]。如何充分利用教育大数据挖掘技术,帮助实现教育培养方案修订和完善、教育内容和教学方式适应于碎片化时间阅读和移动学习等教育改革内容成为研究热点问题。

1教育大数据挖掘国内外发展状况

在教育领域,哈佛大学、麻省理工学院、斯坦福大学等世界知名高校也相继启动了教育大数据相关研究计划[4]。美国教育部于2012年启动了一项耗资2亿美元的公共教育大数据计划。该计划旨在通过运用大数据价值挖掘技术来改善教育,用以理解学生在个性化层面的学习行为。同时基于教育大数据价值挖掘方法开发了“学习分析系统”,用以向教育工作者提供学生学习模式,提供更多、更好、更精确的可解释性信息。例如,某学生成绩不好的原因包括哪些,是由于周围环境致使他学习分心了吗?国际商务机器(International Business Machine,IBM)公司与美国亚拉巴马州的莫白儿县公共学区开展了一个教育大数据合作项目。项目开始阶段面临的问题包括学生成绩不好、辍学率已增加到48%的严峻情形等问题。项目在学生基础数据上建立了一个辍学指示的智能决策支持工具,并将其用于全县层面的决策,进而帮助改善学区内所有学生的整体成绩。另一个项目是“希维塔斯学习”(Civitas Learning),它建立了高等教育领域最大的跨校学习数据库,专门聚焦于运用预测性分析、机器学习等技术提高学生成绩。在加拿大,“渴望学习”(Desire 2 Learn)公司面向高等教育领域的学生,推出了基于过去学习成绩数据的预测推荐系统,用以改善其未来学习成绩的大数据服务“学生成功系统”。在国内,随着各级学校教育的教学资源逐步网络数字化,并提供在线学习课堂和练习内容,教育大数据挖掘获得了更为广阔的应用空间,比如革新学生的学习、教师的教学、教育政策制定的方式与方法等[5]。

2大数据价值挖掘方法框架及其新特征

使用Hadoop平台、HBase数据库管理等新技术,教育领域专家已开发出大数据价值挖掘的五类主要相关技术。其一,相关性挖掘技术,用以发现各种教育数据变量之间的潜在关系,并对其进行解码和再利用。例如,监测学生在寻求帮助后是否能够得到正确回答的可能性。其二,预测技术,用以推断教育相关事件的可能性。例如,某学生事实上有能力回答问题,预测其在什么情况下有意回答错误。其三,聚类技术,用以发现教育实体集中起来的数据点。例如,如何通过数据挖掘,把有相同学习兴趣的学生分在一组。其四,模式发现技术,通过回归分析、元学习等方法从教育数据中挖掘新的模式。其五,人为判断能力的提升技术,建立可视化的机器学习模式。

以描述学生成绩的建模方法为例,说明教育大数据挖掘方法框架的主要特征[6],如表1所述。

3教育大数据价值挖掘对教育改革实践启示

整合教育利益相关各方数据资源和提升教育大数据价值,促进教育从多维度进行创新演进和不断完善。这里主要从以下四个方面论述教育大数据挖掘对教育改革实践启示。

3.1构建中国教育数据库,驱动教育改革与创新发展

通过收集教育大数据和整合国家教育数据库,从国家、区域以及学校三个层面,驱动教育政策科学化、驱动教育评价体系重构、推动区域教育均衡发展。

3.2构建碎片化学习模式,助推教育精细化服务和完善预警系统

对积累的非结构化的数据,通过互动性学习的新方法,完善智力辅导系统,满足碎片化时间学习需求,提升教育品质,构建学习预警系统,发现学生被开除和学生辍学等潜在风险。

3.3构建游戏竞赛学习模型,促进教育主体深度学习提升

依据历史数据挖掘结果,虚拟化设计刺激与激励机制、教育性的游戏竞赛学习模型,开发数字化的教育环境、教学场景、教育实验场景并配置教育时空,充分调动学习主体的主动性。

3.4构建自适应的移动学习系统,推动教育师生个性化发展

教育大数据工作人员和研究者通过开发移动学习系统,帮助学习主体在移动设备下能够在任何时间、任何地点学习。教育工作人员能及时诊断学习问题所在,并提出改进建议。通过对重庆某高校的教育大数据的分类挖掘,获取移动学习系统中的五类资源分布特征如图1所示。

图1结果显示,该高校移动学习系统提供PPT教案占82%、提供讲义电子书的占38%、提供5~10分钟的微课视频的占40%、微信语音课件19%、网站形式的课件(如在线实验设计和测验)的占30%、电子版的课堂练习的占34%。

4结语

本文采用分类等技术挖掘教育大数据价值,为学习主体创建定制化的学习环境和个性化的课程计划,实现教学的方式与方法改善,为教育机构的教育决策、教师的教学决策和学生的自我学习监控提供更加精细化的服务。本文的结果表明大数据价值挖掘对适应碎片化阅读和移动学习等教学改革内容起着重要科学支撑作用,并促进教育从多维度进行创新演进。

参考文献

[1]Pachamanova D A.Case Article—Mapping Business Problems to Analytics Solutions:Surrogate Experiential Learning in an MBA Introductory Data Science and Business Analytics Course[J].Informs Transactions on Education,2015,16(1):15-22.

[2]田盖地.河南高职院校电子商务创业教育改革探索[J].价值工程,2016(18):155-157.

[3]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013(02):5-11.

[4]徐鹏,王以宁,刘艳华,张海.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013(06):11-17.

[5]张羽,李越.基于MOOCs大数据的学习分析和教育测量介绍[J].清华大学教育研究,2013(04):22-26.

大数据价值挖掘篇8

伴随着巨大网络流量涌来的各类数据, 其价值的重要性已日益突出。按照Gartner预测, 到2020年大约75%的企业都将大数据分析融入其日常经营决策中, 未来大数据分析将成为企业经营的一项基本能力。

大数据技术的应用, 起到的是实实在在的效果。根据Sysbase的统计分析, 电信行业通过在运营中应用大数据, 人均产值提升了17%, 而在行业价值贡献方面更是排在了所有行业的首位。在电信行业收入增幅日趋放缓的今天, 这样的产值增幅令人鼓舞。

通过构建行业大数据分析系统让运营商具备了大数据分析处理的技能, 但这只是在大数据时代获得成功的基础;运营商还需要从企业战略和经营思维层面改变, 发现新的机遇和模式并付诸实施, 才能真正将自己所掌握的大数据资产和大数据技能转变为企业价值。

需求变化快挑战大数据应用

在很多行业尤其是电信行业中, 大数据的“大”并不仅仅指的是数据的体量, 在应用层面, 大数据的真正挑战是来源于其需求变化快, 如果缺乏一个灵活、可扩展的基础架构和运营平台作为基础, 企业就很难真正挖掘大数据价值。

对此, 中兴通讯股份有限公司中心研究院副院长陈坚称, 要满足企业对数据价值挖掘的需求, 基础架构与运营平台至少需要满足四个特征。

一是平台在架构上需要具备可伸缩性。不仅模块具备可裁剪性, 而且系统的规模也具备可扩展性。这样, 系统初始建设时可以按需建设, 将初始投资压缩在可接受的范围, 然后, 系统随着业务量增长而扩展, 以架构的可伸缩性, 兼顾初始投资与业务增长的平衡。

二是必须具备数据的开放能力。无论是在平台上开发各类业务, 还是与第三方进行数据交换, 都要求平台具备数据的开放能力。

三是要具备集成与被集成能力。如果大数据系统是主系统, 则需要具备集成原有生产的能力;如果大数据系统是辅助系统, 则需要具备被原有生产系统集成的能力。只有这样, 大数据系统才能无缝地与原有系统对接, 在不干扰原有系统稳定运行的前提下, 提高生产力。

四是要有一套强大的统一管理系统。大数据平台需要将多种开源软件, 以及多厂家的软硬件模块集成在一起, 其面临的一个很大的困难与问题, 就是统一管理的问题。所以大数据平台必须具备统一管理其集成的开源软件, 以及第三方软硬件的能力。只有具备统一管理能力的平台, 才是一个真正可用的大数据平台。

直面非结构化数据的分析难点

大数据处理的技术, 特别是云存储与云计算技术的成熟应用, 为大数据的存储与处理提供了技术可能性。企业可以利用生产系统以及管理系统中产生的大量数据, 一方面可以对自己的生产活动进行更为准确的预测与指导, 从而提高企业生产活动的准确性;另一方面还可以利用通过对数据价值的挖掘, 产生新的业务。

中兴通讯针对电信大数据进行了专家级的建模, 其大数据平台DAP可以利用云存储与云计算的技术, 对海量的数据进行存储、挖掘分析, 以帮助企业充分开发数据的价值。

但现阶段大数据的数据分析被认为是难点, 尤其是非结构化数据的分析。对此, 陈坚表示, 当前对结构化数据的处理技术相对成熟, 但对非结构化数据的处理上, 的确是难点。不同的非结构化数据, 往往需要不同的技术去处理, 才能让这些数据产生效益。目前, 中兴DAP平台对非结构化数据处理有很大的投入。例如, 在电信领域自研DPI硬探针, 可以解析电信信令、上网记录等电信领域的非结构化数据;在安全领域, 通过图像算法, 可以从运动图像中做车牌号码识别以及人脸识别等等。

大数据平台的特色

一个功能完备的大数据应用平台可以极大地简化数据处理与分析的繁琐, 并能更有效地挖掘各类数据的价值。中兴通讯中心研究院总工王德政总结DAP大数据平台时提到三个有别于其他系统的“不同”:一, DAP采用货架式架构, 采用企业总线ESB的技术, 可以灵活地对各个组件模块进行裁剪与拼装, 满足“集成”与“被集成”的两种角色要求, 在不影响生产系统稳定性的前提下, 与原有生产系统无缝集成, 引入大数据系统;二, DAP在数据分析挖掘层面的智慧生成的特征, 可以提高企业活动的准确性, DAP通过针对性的挖掘算法改进, 可以做出超越人类专家经验与直觉的智慧建议, 提升人类活动准确性, 提高社会生产能力;三, DAP具备平台特性, 聚焦于数据的存储、处理时效、以及挖掘算法, 可为上层应用解决大数据应用的技术难点与障碍, 上层应用可以根据自身的需求, 快速地进行定制开发, 以很短的时间周期与研发成本推出新的大数据应用, 未来, DAP还可以对第三方开放, 支撑第三方的大数据业务开发。

大数据平台的功能与特色, 只有在实际应用中才能体现出真正价值。

据王德政称, 当前各家运营商已经认识到电信数据所蕴含的价值, 并都已经在做积极的尝试, 进行各类大数据平台的建设, 并在其上规划各类业务规划。例如, 中国移动的资源池建设、中国电信的号百公司等等。

数据之舞:大数据与数据挖掘篇9

2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局 (NASA) 的Topex/Poseidon卫星、Jason-1卫星, 以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的Quik Scat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计——地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器, 以及国际Argo海洋观测系统

泄密者爱德华·斯诺登 (Edward Snowden) 还在寻求容身之所的时候, 美国国家安全局 (NSA) 全方位收集电话和电子邮件记录之事经过他的披露, 已经引发了不安和愤怒。

奥巴马当局声称, 监听数据带来了安全, 然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。

数据不是信息, 而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息, 耗资数十亿改善新手段时, 它正受益于陡然降落的计算机存储和处理价格。

数据挖掘这一术语含义广泛, 指代一些通常由软件实现的机制, 目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

威斯康星探索学院主任大卫·克拉考尔 (David Krakauer) 说, 数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长, 成本却在指数级下降。从这个意义上来讲, 很多科学研究如今也遵循摩尔定律。”

在2005年, 一块1TB的硬盘价格大约为1, 000美元, “但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中, 而且我们正以前所未有的方式感知它。”克拉劳尔说。

随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹, 大数据不断增长的商业影响也在如下时刻表现出来:

·你搜索一条飞往塔斯卡鲁萨的航班, 然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息

·你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术

·你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润

·用算法预测人们购票需求, 航空公司以不可预知的方式调整价格

·智能手机的应用识别到你的位置, 因此你收到附近餐厅的服务信息

大数据在看着你吗?

除了安全和商业, 大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器, 传回愈发难以驾驭的数据流, 于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域, 数据量的井喷式增长对更高层次的分析和洞察提供了支持, 甚至提出了要求。

这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流, 但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用, 并监测地球系统的不同部分内部及之间的热量、水和化学交换。

在医学领域, 2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后, 数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”, 计算时出现纰漏的危险, 催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力, 支撑着新的科学类型。

另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊·霍尔贝克 (Susan Holbeck) 在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后, 霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据, 以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘, 看一看为什么一种细胞系对混合药剂有良好的反应, 而另一种没有。我们可以抽取一对观察结果, 开发出合适的靶向药品, 并在临床测试。”

互联网上的火眼金睛

当医学家忙于应对癌症、细菌和病毒之时, 互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文, 其政治影响力与日俱增, 使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。

印第安纳大学Truthy (意:可信) 项目的目标是从这种每日的信息泛滥中发掘出深层意义, 博士后研究员埃米利奥·费拉拉 (Emilio Ferrara) 说。“Truthy是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动, 我们研究正在进行的讨论。”

Truthy是由印第安纳研究者菲尔·孟泽 (Fil Menczer) 和亚力桑德罗·弗拉米尼 (Alessandro Flammini) 开发的。每一天, 该项目的计算机过滤多达5千万条推文, 试图找出其中蕴含的模式。

一个主要的兴趣点是“水军”, 费拉拉说:协调一致的造势运动本应来自草根阶层, 但实际上是由“热衷传播虚假信息的个人和组织”发起的。

2012年美国大选期间, 一系列推文声称共和党总统候选人米特·罗姆尼 (Mitt Romney) 在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说, “幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”

水军的造势运动通常很有特点, 费拉拉说。“要想发起一场大规模的抹黑运动, 你需要很多推特账号, ”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征, 能够辨别出这种自动行为。”

推文的数量年复一年地倍增, 有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说, “找到一切是不可能的, 但哪怕我们能够发现一点, 也比没有强。”

头脑里的大数据

人脑是终极的计算机器, 也是终极的大数据困境, 因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

除了连接组, 还有很多充满数据的“组”:

·基因组:由DNA编码的, 或者由RNA编码的 (比如病毒) ——全部基因信息

·转录组:由一个有机体的DNA产生的全套RNA“读数”

精神障碍通常是具体病例具体分析, 但是一项对150万名病人病例的研究表明, 相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中心利用数据挖掘理解神经精神障碍的成因以及之间的关系。“好几个 (研究) 团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基 (Andrey Rzhetsky) 说, “我们正试图把它们全部纳入模型, 统一分析那些数据类型……寻找可能的环境因素。”图片来源:Andrey Rzhetsky, 芝加哥大学

大数据盯着“bigdata” (意为大数据) 。这些是在推特上发布过“bigdata”的用户之间的连接, 用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及, 绿线表示一个用户是另一个的粉丝。图片来源:Marc Smith

20名健康人类受试者处于休息状态下接受核磁共振扫描, 得到的大脑皮层不同区域间新陈代谢活动的关联关系, 并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置 (右上角黄斑) 相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith

这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色, 但它本身也是由恒星制造的, 因此检测其数量和位置对于了解星系的历史至关重要。图片来源:WIYN望远镜, Anna Manning, Chris Lintott, William Keel

随着数据及通讯价格持续下跌, 新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量, 麦克阿瑟奖获得者西瓦塔克·帕特尔 (Shwetak Patel) 有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器, 以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知, 录像机消耗了他们家11%的电力。图片来源:Peter Menzel/The Human Face of Big Data

·蛋白质组:所有可以用基因表达的蛋白质

·代谢组:一个有机体新陈代谢过程中的所有小分子, 包括中间产物和最终产物

连接组项目的目标是“从1, 200位神经健康的人身上收集先进的神经影像数据, 以及认知、行为和人口数据”, 圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯 (Daniel Marcus) 说。

项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期, 两年之后数据收集工作完成之时, 连接组研究人员将埋首于大约100万G数据。

绘制脑区分布图的“分区”是一项关键的任务, 这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1, 200个人的数据, ”马库斯说, “因此我们可以观察个人之间脑区分布的差别, 以及脑区之间是如何关联的。”

为了识别脑区之间的连接, 马库斯说, “我们在受试者休息时获取的扫描图中, 观察脑中的自发活动在不同区域之间有何关联。”比如, 如果区域A和区域B自发地以每秒18个周期的频率产生脑波, “这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。” (这些点将比磁共振成像无法“看到”的细胞大得多。)

星系动物园:把天空转包给大众

星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘, 而是把图像交给活跃的志愿者, 由他们对星系做基础性的分类。该项目2007年启动于英国牛津, 当时天文学家凯文·沙文斯基 (Kevin Schawinski) 刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔 (William Keel) 说, 沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了, 便去了一家酒馆。他在那里遇到了克里斯·林托特 (Chris Lintott) 。两人以经典的方式, 在一张餐巾的背面画出了星系动物园的网络结构。”

星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空, 可能会看到2000亿个这样的恒星世界。然而, “一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说, “五分钟的辅导过后, 分类便是一项琐碎的工作, 直到今日也并不适合以算法实现。”

星系动物园的启动相当成功, 用户流量让一台服务器瘫痪了, 基尔说。

斯隆巡天的全部95万张图片平均每张被看过60次之后, 动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅, 基尔说。“我的很多重要成果都来自人们发现的奇怪物体, ”包括背光星系。

星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时, 而认为它是椭圆星系的人数比例保持不变, 这个星系就不必再被观察了。

然而, 对一些稀有的物体, 基尔说, “你可能需要40至50名观察者。”

大众科学正在发展自己的法则, 基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献, 是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

这种动物园方法在zooniverse.org网站上得到了复制和优化。这是一个运行着大约20项目的机构, 这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

最终, 软件可能会取代志愿者, 基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说, “他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说, 不要浪费点击。如果某人带来了同样有效的新算法, 人们就不必做那些事情了。”

学习的渴望

人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练, 威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善, 更是有了实际的效果。5到10年之前, i Phone上的Siri是个想都不敢想的点子, 语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法, 忽然之间它们就管用了。”

等到处理能力一次相对较小的改变令结果出现突破性的进展, 克拉考尔补充道, 大数据的应用可能会经历一次“相变”。

“大数据”是一个相对的说法, 不是绝对的, 克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫 (Tycho Brahe, 1546-1601) , 当时还没有解释行星运动的开普勒理论, 因此这个比率是歪曲的。这是那个年代的大数据。”

大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

我们好奇, 当软件继续在大到无法想象的数据库上执行复杂计算, 以此为基础在科学、商业和安全领域制定决策, 我们是不是把过多的权力交给了机器。在我们无法觑探之处, 决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域, ”克拉考尔回应道, “我的研究对象是宇宙中的智能演化, 从大爆炸到大脑。我毫不怀疑你说的。” (本文编译自:The Why Files, Data Dance, Big Data and Data Mining;原创人员:编辑/Terry Devitt;设计制图/S.V.Medaris;项目助理/Yilang Peng;专题作者/David J.Tenen Baum;内容制作总监/Amy Toburen)

知识链接

“大数据” (Big data) 作为时下最火热的IT行业的词汇, 随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年, 著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中, 将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过, 大约从2009年开始, “大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出, 互联网上的数据每年将增长50%, 每两年便将翻一番, 而目前世界上90%以上的数据是最近几年才产生的。此外, 数据又并非单纯指人们在互联网上发布的信息, 全世界的工业设备、汽车、电表上有着无数的数码传感器, 随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化, 也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。换言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关键, 在于提高对数据的“加工能力”, 通过“加工”实现数据的“增值”。且中国物联网校企联盟认为, 物联网的发展离不开大数据, 依靠大数据可以提供足够有利的资源。

随着云时代的来临, 大数据也吸引了越来越多的关注。《著云台》的分析师团队认为, 大数据通常用来形容一个公司创造的大量非结构化和半结构化数据, 这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像Map Reduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据分析相比于传统的数据仓库应用, 具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性, 对当前的主流实现平台——并行数据库、Map Reduce及基于两者的混合架构进行了分析归纳, 指出了各自的优势及不足, 同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍, 对未来研究做了展望。

大数据时代数据挖掘技术浅析篇10

随着互联网、物联网、云计算等技术的快速发展, 以及智能终端、网络社会、数字地球等信息体的普及和建设, 全球数据量出现爆炸式增长, 仅在2011年就达到1.8万亿GB。IDC (Internet Data Center, 互联网络数据中心) 预计, 到2020年全球数据量将增加50倍。毋庸置疑, 大数据时代已经到来。一方面, 云计算为这些海量的、多样化的数据提供存储和运算平台, 同时数据挖掘和人工智能从大数据中发现知识、规律和趋势, 为决策提供信息参考。

如果运用合理的方法和工具, 在企业日积月累形成的浩瀚数据中, 是可以淘到沙金的, 甚至可能发现许多大的钻石。在一些信息化较成熟的行业, 就有这样的例子。比如银行的信息化建设就非常完善, 银行每天生成的数据数以万计, 储户的存取款数据、ATM交易数据等。

数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看, 数据挖掘是指一个完整的过程, 该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息, 并运用这些信息做出决策。

2 数据挖掘的分类

数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识, 并由此产生了很多的数据挖掘方法, 这些方法种类多, 类型也有很大的差别。为了满足用户的实际需要, 现对数据挖掘技术进行如下几种分类:

2.1 按挖掘的数据库类型分类

利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类, 根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况, 一种是根据其模型来分类, 另一种是根据其类型来分类, 前者包括关系型、对象-关系型以及事务型和数据仓库型等, 后者包括时间型、空间型和Web型的数据挖掘方法。

2.2 按挖掘的知识类型分类

这种分类方法是根据数据挖掘的功能来实施的, 其中包括多种分析的方式, 例如相关性、预测及离群点分析方法, 充分的数据挖掘不仅仅是一种单一的功能模式, 而是各种不同功能的集合。同时, 在上述分类的情况下, 还可以按照数据本身的特性和属性来对其进行分类, 例如数据的抽象性和数据的粒度等, 利用数据的抽象层次来分类时可以将数据分为三个层次, 即广义知识的高抽象层, 原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘, 找到其有价值的知识。同时, 在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类, 一般来说, 数据的规则性可以通过多种不同的方法挖掘, 例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法, 同时还可以通过这些挖掘方法来检测和排除噪声。

2.3 按所用的技术类型分类

数据挖掘的时候采用的技术手段千变万化, 例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段, 同时用户在对数据进行分析时也会使用很多不同的分析方法, 根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下, 一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。

2.4 按应用分类

根据数据挖掘的应用的领域来进行分类, 包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等, 在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景, 此时就可能需要与之相应的特殊的挖掘方法, 并保证其有效性。综上所述, 基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术, 每种数据挖掘技术都有自身的专用性。

3 数据挖掘中常用的方法

目前数据挖掘方法主要有4种, 这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。

遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来, 是一种随机搜索的算法, 利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法, 是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。

决策树算法:在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。

粗糙集算法:这个算法将知识的理解视为对数据的划分, 将这种划分的一个整体叫做概念, 这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。

神经网络算法:在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要, 同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时, 该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。

参考文献

[1]孟小峰, 慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展, 2013, 50 (01) :146-169.

[2]陈明奇, 姜禾, 张娟, 等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全, 2012, (08) :32-35.

大悦城：逆势增长的数据挖掘篇11

中粮集团旗下的朝阳大悦城凭什么取得这样的好成绩？除了及时的业态调整和不断创新的营销活动这些表面上看到的动作，朝阳大悦城真正的核心竞争力是高效的运营管理，是以大数据为基础来部署，所有的营销、招商、运营、活动推广都围绕着大数据的分析报告来进行的大战略。

数据营销

朝阳大悦城开业时，正处于零售环境大改变的时期。在电商的冲击下，传统的做法已经无法再满足需求，加上所处的地区商业氛围明显不足，开业初期面临很大压力。压力产生动力，要生存，就要研究并掌握市场的规律，不断创新走出新路。

成立之初，他们组建了一个数据团队。2012年一年中，朝阳大悦城在商场的不同位置安装了近200个客流监控设备，并通过wifi站点的登录情况获知客户的到店频率，通过与会员卡关联的优惠券得知受消费者欢迎的优惠产品。

“朝阳大悦城的数据来源有3个：一个是POS机系统，任何一笔收入都进入该系统；还有一个是CRM（客户关系管理系统），该系统与人关联，便于对客户进行研究。另外一个来源是消费者调研，通过海量的调研问卷及定期的小组座谈、深度访谈，朝阳大悦城对客群的特质掌握得愈发清晰。”朝阳大悦城信息部副总监李英伟说。

通过对车流数据的采集分析，他们发现具备较高消费能力的驾车客户是其主要的销售贡献者，而通过数据测算每部车带来的消费，客单超过700元。

商场销售额的变化与车流变化幅度有将近92%的相关度。为此，大悦城对停车场进行了改造，如增加车辆进出坡道，升级车牌自动识别系统，调整车位导识体系等，力争吸引驾车客户。此外，他们还调整了停车场附近商户布局，极大提高了优质驾车客群的到店频率。

经过客流统计系统的追踪分析，配上有针对性的解决方案可以有效改善消费者动线，拉动销售是数据营销的又一成果。

朝阳大悦城4层的新区开业之后客人总是不愿意往里走，因为消费者熟悉之前的动线，所以很少有人过去，该区域的销售表现一直不尽如人意。为此，招商部门在4层的新老交接区的空区开发了休闲水吧，打造成欧洲风情街，并提供iPAD无线极速上网休息区。通过精心设计，街区亮相后新区销售有了明显的改观。（一个wifi就可以把无人区改造成热闹区）

节日促销是许多购物中心都在做的，但真正把活动做好，直击人心，不只是优秀的创意那么简单。今年三八妇女节期间，他们又推出了“你休假、我发薪”活动，创下销售及客流新高，当天客流增长69%，销售额同步增长78%。而整个活动的推广支出仅有3000元。

2013年9月19日其店庆日，在策划之初，团队内部也曾产生过分歧，到底应不应该在商业的淡季做这样大规模的SP（促销）活动？

信息部调取了3年来的小长假的数据记录进行分析，根据销售曲线变化，最终决定把销售冲高的日子放在了2013年的中秋节，并最终核算定下了1500万的销售任务。

同时，分析出完成任务的两个关键点：一是在商户大力促销及活动充分宣传的基础上，预期客流与提袋率增长相对容易实现，但客单价的大幅增长较为困难。

二是根据历史经验，单日销售冲高最大的动力来自于零售业态，而零售集中释放于下午和晚上，上午时段的增长成为增量的关键时段。

在大量数据研究的基础上，信息部认为会员是解决这两大难题的重要手段，必须想办法在上午把最优质的会员吸引到店、刺激他们充分购物。

信息部根据超过100万条会员刷卡数据的购物篮清单，将喜好不同品类不同品牌的会员进行分类，根据偏好精准通知品牌促销信息。同时设置会员到店礼、高额买赠等活动，刺激会员尽早到店，释放大单。

前期的数据测算、推广的周密策划加上与运营租户的沟通，最后销售额达到了1715万元。发现新的增长点

大数据的运用，还带来了新的业务增长点和发展空间。

以前，他们的POS机系统和CRM系统是孤立的，现在，运用新的软件已经突破性地把这两个系统的数据整合在了一起。这样会员们买了什么东西就可以一目了然。

同时数据团队开始推动品类管理，将零售、餐饮、娱乐等大的业态细分为30个品类，并将品类表现与细分客群结合起来进行研究，通过各具特色的数据分析模型，能够发现谁买什么，谁可能买什么，什么和什么的购买是相关联的，谁和谁是同质/异质的……而这些问题在绝大多数的购物中心里还很难得到确切回答。

现在，他们可以集中研究某一类人群，从而发现他们的需求。“在对会员进行分析时，我们得到了许多好玩的结论。”李英伟说，“将业态细分到品类，将客群细分到子群体，然后将品类/品牌表现与细分客群相结合，能让我们发现更多的商业计划。”

比如，通过消费者座谈会，发现了这样的结论：家庭生命周期对于女性的购物习惯有着至关重要的影响，其中是否怀孕是重要的转折点，怀孕之前对服装与怀孕后明显不一样。孕妇以及哺乳期的女性会大幅减少时装的需求，对衣服要求松软舒适，并开始增加婴孕用品的需求。当孩子1岁半之后，能脱离母亲怀抱时，儿童教育与儿童娱乐的需求开始大幅增加，而到孩子3岁上幼儿园后，母亲开始重新装点自己的生活，服装的需求会快速回升。

朝阳大悦城数据团队在分析会员价值时会应用一个叫做RFM的模型，这个模型将最近一次消费（Recency）、消费频率（Frequency）、消费金额（Monetary）3个维度进行综合考量。通过考量，朝阳大悦城发现存在一部分RFM得分非常高的女性会员，她们的购物篮非常宽，几乎对任何品类的购买都超过了其他会员群体。

在对她们进行深入访谈时发现，这部分女性主要集中在35～45岁，她们经常来朝阳大悦城，也很愿意消费，但普遍反映服装品类可买的东西不多，只好去新光天地买。

进一步研究发现，她们并不盲目追求奢侈品，但对单价在2000元以上的女淑、设计师女装品类有着突出的需求。于是朝阳大悦城在2层集中打造了一个女淑、设计师女装组团，这个品类成长情况良好，像爱特爱等品牌日均坪效（每平米每天产生的销售额）能达到200元左右。

2013年8月8日，朝阳大悦城宣布将微信微生活卡与实体会员卡打通，成为京城首家实现这一功能的购物中心。

基于大数据的数据挖掘研究篇12

数据挖掘[1],就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用信息,提取的知识表示为概念(Concepts)、模式(Patterns)、规则(Rules)、规律(Regularities)等形式。这种定义把数据挖掘的对象定义为数据库。时至今日,数据挖掘的对象已经远远不止步于大型数据库、数据仓库,而是海量数据,大数据。

2 大数据

2.1 大数据定义

大数据是用传统方法或工具很难处理或分析的数据信息[2]。随着时代变化,除了企业经营数据,我们还记录着地理、气象、Web网页等各种数据。庞大纷杂的信息构成了大数据。大数据如此复杂,到现在也没有大数据统一的定义。

关于大数据的定义,目前主要有如下几种。维基百科则把大数据定义为一个一个大而复杂的、难以用现有数据库管理工具处理的数据集。亚马逊大数据科学家John Rauser认为:大数据是“任何超过一台计算机处理能力的庞大数据量。”Informatica中国区首席产品顾问但彬认为“大数据=海量数据+复杂类型的数据”[3]。

2.2 大数据特征

就我们今天的认识来看大数据有四个特征:大量化(Volume)、多样化(Variety)、快速化(Velocity),价值密度低(Value)[4]。大数据的特点使得大数据分析必然更加复杂、更追求速度、更注重实效。

2.2.1 数据体量巨大(Volume)

大数据通常指l0TB规模以上的数据量。

之所以产生如此巨大的数据量,一是通信、传感工具的使用,使人们能够全时段的联系,M2M方式使得交流的数据量成倍增长;二是各种仪器的使用,能够感知更多的事物,这些事物的部分甚至全部数据就可以被存储;三是集成电路价格降低,很多东西都有了智能的成分。

2.2.2 数据种类繁多(Variety)

随着智能设备、传感器种类的增多以及社交网络的流行,数据类型也变得更加复杂,不仅包括传统的非关系型、关系型数据类型,也包括以网页、音频、视频、e-mail、电子表格等形式存在的未加工的、半结构化的和非结构化的数据。

2.2.3 流动速度快(Velocity)

传统的流动速度考虑的是数据的获取、存储以及挖掘有效信息的速度,但现在处理的数据是TB级甚至ZB级,考虑到“超大规模数据”、“海量数据”也有规模大的特点,大数据强调数据是快速动态变化的,数据流动的速度快到难以用传统的系统去处理。形成流式数据是大数据的重要特征。

2.2.4 价值密度低(Value)

在数据量呈指数增长的同时,隐藏在海量数据里面的有用信息却没有相应比例增长,因此,指数增长的数据量反而会使人们获取这些有用信息的难度加大。

以视频为例,连续的监控视频,有用的数据可能仅有一两秒。

3 基于大数据的数据挖掘

概括地说,大数据挖掘包括基于内容的大数据挖掘与基于结构的大数据挖掘。

3.1 基于内容的大数据挖掘

基于内容的大数据挖掘包括网络搜索技术与实体关联分析研究。

3.1.1 网络搜索

社会媒体的出现使得网络信息搜索将搜索研究的热点转移到了排序学习算法,专注于提高检索质量。

排序学习算法以损失函数为优化目标,将文档表示为特征向量，寻找在检索领域中常用的评价准则下最好的排序函数,现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方而仍有不足。

此外,社会媒体需要关注数据的短文本特征、对简短关键词表达的深入理解和分析,掌握用户真实的查询意图[5],这也是网络搜索技术关注的内容。

3.1.2 实体关联分析

命名实体是现实世界中的具体或者抽象但具有特定意义的实体。从大数据中挖掘其中蕴含的内在知识,需要研究对命名实体以及命名实体关系的数据挖掘。

社会媒体生成的大数据中,实体类型越来越多,粒度越来越细,关系越来越趋于复杂。对于实体关系的挖掘,是基于内容大数据挖掘领域的研究重点,研究人员提出了基于规则和基于机器学习的方法并初具成效。

3.2 基于结构的大数据挖掘

社会网络,是以社会媒体中的用户为节点,用户间的关系为连线而构建的网络,既是用户间社会关系的反映,也是用户之间进行信息交互的载体。社会网络具有关系异质性、结构多尺度性以及网络动态演化性三方面特性。

在社会网络中,个体因血缘关系或兴趣爱好或行业专业等因素进而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征。社区结构的存在对于大数据的高效搜索、网络演化、信息扩散等具有重要意义。

针对社区结构的研究可分为社区发现、社区结构演化等方面。随着时间的推移,数据的积累,结构大数据挖掘的热点将会是关于社区演化的研究[6]。

4 基于大数据的数据挖掘———“what”比“why”重要

大数据的内容经常混乱不齐、质量不一,因为海量数据的收集过程中,它只要一个大方向即可,不需要讲究到一分、一毫,所以大数据时代,资料数量比资料质量更重要,不要为了一点点信息的偏差而影响整体分析,处理掉不精准的信息,成本会很高,也没有必要。但这并不是说大数据挖掘放弃了精准这件事,只是不再奉精准为圭臬。

大数据时代的数据挖掘,只需要找出数据的相关性并藉此创造出价值,不需要将重点放在为何这样,也不需要那么精准,因为代价太大,“what”比“why”重要。

例如,沃尔玛的数据分析专家从庞大的交易数据上发现,在飓风来袭前,销量大增的不只是手电筒,还有一种美国小甜点———TopTarts,获悉这个信息,沃尔玛便会在每次飓风来临前,把一盒盒的Top-Tarts放在风灾必需品货架上,方便匆忙的顾客同时购买,“特别是草莓口味的,卖得最好。”这里数据分析专家没有分析为什么飓风时人们特别想吃Top-Tarts———“特别是草莓口味的”,而是快速的把这个数据相关性找出来,直接采取更有利的营销动作,创造价值[7]。

摘要：本文分析了数据挖掘、大数据的定义与特征,在此基础上研究提出了基于大数据的数据挖掘分类与特点。

关键词：数据挖掘,大数据,大数据挖掘

参考文献

[1]Jiawei Han,Micheline Kambr.Data Mining Concepts and Techniques[M].Higher Education Press.2001.

[2]Making sense of Big Data[J].Technology forecast,A quarterly journal,2010.

[3]但彬.大数据=海量数据+复杂类型的数据[EB/OL].2012,7.

[4]Philip Russom.Big data analytics[R].TEWI Best Practices Report,2011.

[5]程学旗,郭嘉丰,靳小龙.网络信息的检索与挖掘回顾[J].中文信息学报,2011,25(6):111-117.

[6]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

【大数据价值挖掘】推荐阅读：

大数据与数据挖掘10-15

大数据时代的数据挖掘09-26