大数据时代的数据挖掘(共12篇)
大数据时代的数据挖掘 篇1
1 引言
按照百度百科的解释, 大数据技术 (Big Data) , 或称巨量资料, 指的是所涉及的资料量规模巨大到无法通过目前主流软件工具, 在合理时间内达到撷取、管理、处理, 并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) 。显然上述解释仅仅是描述了大数据的一些特征, 对于企业如何开发大数据、利用大数据进行运营管理, 并没有过过多的指导。
本文建议传统企业在建设大数据系统的过程中, 不仅要建设数据分析平台, 更要构建起一个数据分析的生态圈, 让人人都是分析师, 让数据分析渗透到企业运营的每个环节, 真正实现数据运营、科学决策的管理模式。构建数据分析生态圈, 可以概括为“两个市场, 一个平台”, 两个市场是指业务数据市场、分析工具市场, 一个平台是分析观点分享平台。
2 业务数据市场, 让业务数据变得开放透明
业务数据是分析的源泉, 没有数据就谈不上大数据。企业经过多年的信息化建设, 一般都会有多套业务系统在运行, 如办公自动化系统 (OA) 、财务管理系统、ERP系统等不一而足, 但这些业务系统都是孤岛式隔离, 数据缺乏整合, 而且底层数据库都是经过专业设计, 复杂度较高, 非厂家技术人员难以使用, 通常都是利用定制报表的方式进行分析和使用。因此, 在利用数据上存在着数据提取难度高、报表需求响应慢、数据准确性差等问题。
产生上述问题的原因在于, 传统数据结构复杂, 对业务人员不开放, 利用报表的方式提供数据时, 需求人员期望的数据与技术人员提供的报表之间存在着巨大的鸿沟。建设业务数据市场就是将各业务系统的数据进行抽取、清洗、整合之后, 按照业务过程重新进行整合, 封装为统一粒度、统一维度的数据库表。这些数据表的特点就是能被业务人员所理解并解读分析, 这样业务人员可以在较早期就发现数据中间存在的问题。在建设数据市场的过程中, 有几点需要特别注意。
(1) 采用维度建模方法, 以“易懂性、易用性”为原则
业务数据市场的数据是供企业分析人员使用, 他们更多的是不懂技术的业务人员, 数据结构应该符合多数人的直觉, 而非像传统“三范式”那样, 需要借助复杂的ER图才能表述清楚。对于专业的IT人员, 尤其是要抵制将维度模型设计成“雪花模型”以节省数据重复、增加灵活性的诱惑, 从而带来模型复杂性的代价。
(2) 全面梳理业务, 实现数据的互联互通
传统企业的业务系统, 多数是烟囱式的软件系统, 若不在企业层面进行业务梳理, 就不能很好地对数据进行整合, 提取有价值的信息。在整合数据的过程中, 必须要有统一的维度才能有效实现数据整合, 比如统一的客户编码、身份证号等, 所以梳理企业层面的统一维度是实现数据整合的关键步骤。
(3) 分主题、稳步推进
企业运营涉及的业务过程众多, 眉毛胡子一把抓是不可能的。在建设企业数据市场时, 要根据企业的特点, 优先建设对运营最重要的业务, 尽快投入使用, 逐步完善, 比如一个销售类的企业可以先将订单业务整合起来。
如图1所示, 采用维度建模方法构建中间层数据结构, 可以大大降低数据的使用难度。以事实表为中心的中间层模型, 可以让业务人员将主要精力放在理解数据和业务上, 避免过多的技术细节所带来的技术门槛和恐惧心理。
将生产库的交易数据转换为维度模型, 必然带来非常大的数据转换工作量, 因此ETL过程就成了整个项目成败的关键, 选择或打造一个性能优良的ETL框架是系统的核心。笔者建议可以从选择开源的ETL框架开始, 图形化的开发框架会给研发带来极大的便利, 降低学习成本。图2为图形化的ETL开发框架。
3 分析工具市场, 打造适合需要的分析框架
数据是一座金矿, 但还需要依赖好的工具才能将金子提炼出来。直接分析原始数据虽然灵活, 但更加适用于高水平的人员, 对于大多数的一线员工, 应该提供更加易用的分析工具, 如报表、图表、报告等, 将业务指标以形象的方式展现出来。分析工具市场就是企业内部汇集分析工具的地方, 提供给员工根据自身情况使用。
分析工具市场包含两部分功能, 一是制作分析工具的开发平台, 一是运行分析工具的门户平台。在建设分析工具市场的过程中, 有几点需要注意。
(1) 分析工具市场建设
从技术角度来看, 分析工具市场可以找到众多的软件系统满足需求, 企业可以根据实际情况, 或采购、或使用开源, 搭建这么一套软件系统, 既能让企业自己定制报表、分析图表, 也能将制作好的分析报表展现出来。
(2) 分析工具的开发以企业自身为主, 外购为辅
分析工具与业务特点、人员使用习惯等因素紧密关联, 其需求变化频率高, 全部依赖外部厂家开发, 一方面费用较高, 另一方面需求响应也不及时, 可能等开发出来, 分析的需求却没有了。因此企业要培养自己的开发队伍, 可以利用数据市场中的数据开发出各类查询报表、分析图表等。
分析工具是数据分析环节最成熟、也是选择性最多的环节, 有非常多优秀的BI工具可供选择, 商业中的有Cognos、SAP等, 开源的有Pentaho、BIRT等, 但数据可视化仅是数据分析的起点, 要想将数据价值挖掘出来, 还需要数据分析人员对分析工具进行深入分析, 提炼出知识并进行固化和传播, 才能让数据发挥价值, 形成从知识到洞察的转换。图3所示为数据可视化图标类型。
4 分析观点分享平台, 让数据分析社交化
大数据时代, 在数据充裕的同时, 带来了有价值分析结果的匮乏。数据分析, 绝对不是高高在上的阳春白雪, 而是需要人人参与、百家争鸣的氛围, 要在企业内部树立人人都是分析师的理念。
分析观点分享平台的建设, 采用类似于朋友圈、微博等社交媒体的机制, 让每个人都有机会表达对数据的分析观点, 通过转发、评论机制, 让有价值的观点浮上来。在这个过程中, 分享观点的个人可以获得成就感, 转发、评论的人有参与感, 企业从中获取到对运营决策有价值的想法, 基于数据分析过程实现了科学、民主的决策。在建设分享平台的过程中, 有几点需要注意。
(1) 人员关注机制
由于企业运营不同于互联网, 存在着一定的封闭特性, 不建议采用微博关注的开放性, 而应该采用朋友圈类似的“关注-同意”的朋友机制, 避免不适当的关注带来的信息泄露。
(2) 分享范围控制
由于企业数据的特殊性, 员工在分析观点的时候需要控制分享范围, 避免机密信息的泄露。控制分享范围, 既要有人工控制, 也要从平台层面通过权限控制, 如财务数据的分享范围仅限某几个部门或人员等。
(3) 分享观点排序算法
综合多种因素对发表出来的观点进行排序, 以便让展现到每个人眼前的都是最符合期望的内容, 营造一个良好的分享环境, 避免劣质内容驱逐优质观点给生态圈带来的毁灭性打击。
5 实践
根据上述思路, 我们规划了一个数据分析平台的产品, 分为三个阶段进行演进, 即智能报表阶段、企业内部数据整合和大数据分析三个阶段, 遵循“整体规划、分步实施”的路线。在实际推广中, 引导客户优先解决现阶段最迫切的问题, 比如统计报表, 通过经营分析平台的构建, 充分调动每个人的积极性和能动性, 减少定制化工作的数量及频率, 有效利用企业经营中产生的数据。图4是数据分析平台的技术架构图。
如图5所示, 数据分析平台的第一阶段是“智能报表”阶段, 其重点是建设数据中间层、提供灵活的分析工具, 让企业的每个人都能参与到数据分析的过程中。因此, 产品的技术架构也就围绕着这两个目标进行重点建设。
其中, 数据建模和数据集市所用到的方法论就是本文第一节所提到的“维度建模”, 将中间层数据通过上层的数据分析工具开放给用户进行分析, 最终通过报表、仪表盘等形式呈现给各级人员进行决策管理, 实现数据价值的体现。
6 结束语
本文结合实践经验, 提出了数据分析平台建设的几个重点, 相信企业通过建设“两个市场, 一个平台”, 一定可以充分发现数据价值, 在大数据的浪潮中游刃有余, 真正实现数据运营、科学决策的管理模式, 避免经验决策带来的错误。
大数据时代的数据挖掘 篇2
关键词:大数据 数据挖掘 挖掘技术
中图分类号:tp311 文献标识码:a 文章编号:1007-9416(2016)05-0000-00
1数据挖掘与数据挖掘技术的方法分析
“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科,在几十年的发展过程中,已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术,而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用,也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术,所以,整个数据挖掘技术实际上是非常具有信息价值的,它能够帮助决策者更快的得到重要信息并作出决策,提高效率和准确率,是非常重要的知识凭证,能够在一定程度上提高当下企业的整体竞争力。
数据挖掘技术的核心就是分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。
1.1聚类分析法
简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。
1.2人工神经网络
人工神经网络是通过大批量的数据进行分析,而这种数据分析方式本身是建立在一定的数据模型基础上的,因此通常都可以随时根据数据需求进行分类,所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。
1.3关联性分析法
有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。
1.4特征性数据分析法
网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种,此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。
2大数据时代下数据挖掘技术的具体应用
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。
2.1市场营销领域
市场营销其实就是数据挖掘技术最早运用的领域,通常根据客户的具体需求,进行客户分析,将不同的消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。
2.2科学研究领域
科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备,而实验测试和科学研究产生的数据往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律,实现数据挖掘的部分价值――科学知识的分析与运用。
2.3电信业领域
随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成了一个巨大的网络信息载体,如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。
2.4教育教学领域
教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育教学领域中数据整理的良好运作。
3结语
大数据时代的工商数据分析 篇3
之所以要引起对工商数据分析的关注,是因为近几年来,消费者和商家出现了多重的消费矛盾,一些数据也较为直观地表现出了工商管理行业市场问题。为了及时改善这些问题,解决矛盾,首先要做的便是对工商数据进行分析,从分析中选择最科学的解决之道。如何进行科学分析,应该采用哪些辅助工具,本文会详细的描述和分析。
大数据
大数据的作用和意义。现代社会是一个高速运转、更新速度快并且以科技为主要竞争力的时代,科技和信息的运用必不可少。大数据作为高科技的产物,有着巨大的社会潜能。中国阿里巴巴集团创始人马云曾在一次演讲中谈到:未来的时代将不是IT时代,而是DT时代,DT是DataTechnology的缩写。阿里巴巴集团作为中国的领先集团,可见他们对大数据的重视。大数据下进行工商数据分析对企业的具体价值如下:工商企业能够通过数据精确、直观的了解到消费者们的需求,从而生产出对口消费的工商产品,减少浪费;工商企业如果仅仅靠单一的生产链是很难再复杂多变的科技型社会中脱颖而出的。大数据对工商数据进行分析后能够为工商企业进行服务面拓展甚至转型进行路线的规划;大数据能够解决传统工商业中的一些难题,并且面临互联网发展的压力,长期逃避使用大数据这类科学技术,实质是对与时俱进的一种逃避。然而工商行业又是一个高竞争的行业,要想与时俱进、科学长久的发展,应该充分利用大数据对工商数据管理分析和管理的作用。
大数据的实例运用。大数据是否有利于工商数据的分析,其实我们可以从其他实例结果中进行参考、借鉴和判断。医疗行业在以前一直受到数据量大和数据不能够结构化的问题困扰。近年来,随着大数据的发展,许多医院或者其他医疗机构都采用大数据进行数据分析,从而促使数据结构化以便于进行数据管理。
除此之外,面对城市化的發展,城市内部结构布局也越来越复杂。麻省理工学院便利用大数据,通过手机定位数据和交通数据进行城市结构再规划,有效的解决了城市交通拥堵等其他城市问题。
工商业数据管理的类型
当前的工商业数据管理和分析方法主要分为以下两种:
传统型分析模式。传统的工商业数据分析采用的是抽样检查,抽样检查是从一定数量产品中进行抽取检查。这样的检查方式往往会消耗大量的人力资源,导致数据分析的效率较低,人工成本也有所提高;抽取式的检查也不能够精确到每一个产品上,这样的数据分析方式也是不够精确的。
采用大数据模式。一些工商企业与时俱进,已经开始采用大数据进行工商数据的分析,因为大数据大部分是通过消费者的实际反映进行分析,并且和市场接轨度高,随时了解市场变化对产品的要求和变化。大数据采用的检查方式是高效率,高精准度的。大数据的使用还减少了人工费,从而降低工商企业的成本,也有利于市场经济的良好发展。
工商数据大数据分析的优点
总的来说,使用大数据进行工商数据分析有三大好处:
工商数据包括了大量的市场信息,例如市场监测、行政处罚等信息。工商部门在监测各项信息的时候,将会面对庞大、海量的数据。并且每项信息都有自己不同的生命周期,一些数据需要进行信息更新,更新的时间也不尽相同。这便为工商数据的分析管理加大了难度。利用大数据便能够自动化、智能化的对数据进行分类更新。
工商部门的管理是具有层次性的。从乡级、县级、市级再到县级,是层层分开又层层信息可互通的。大数据能够在这样的管理结构下将工商数据建立起一个中心信息平台,便于不同级别之间进行信息互换、交流和共享。
工商部门内部信息需要进行互换交流,工商部门与其他部门之间信息的共享也必不可少。大数据不仅能够做到部门内部异地的信息交换,还能够做到和其他部门进行资源共享。况且与其他部门数据共享时,需要选择有效的数据,也可以通过大数据去完成。
工商大数据分析结构构成
决策结构。要想得到足够有效的信息并充分利用,首先需要的是科学的决策。如何进行科学的决策?需要掌握相关的信息并有具有针对性的决策。大数据分析能够对决策内容进行科学合理的安排。好的决策有利于计划的进行和合理的管理。并且能够对未来前景发展进行预判。
部门信息交流结构。二十世纪九十年代下半期,欧洲国家掀起一股潮流,称之为“协同政府”。“协同政府”实际就是指政府中个部门之间的信息资源进行交流互换。这样的部门管理理念仍适用于中国当今政府部门的管理。那么如何进行这样的管理?大数据分析完全能够做到,并且比传统的“协同政府”概念更加科学合理。
管理结构。大数据分析不仅能够将分析的数据加以合理运用,还能够从分析数据中找出管理的缺点和漏洞。有利于改善管理结构中的问题,是管理的结果层次更加清晰。从而也使管理结构更加紧密。因为大数据还强调一种私密性,这样的特点可以使管理的保密性大大提升,及时发现问题并改正的有点。
数据挖掘—大数据时代的重要工具 篇4
关键词:数据挖掘,大数据,信息
随着互联网与信息技术的发展,数据已经渗透到当今每一个行业和业务职能领域,数据的爆炸性增长预示着“大数据”时代已经降临,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,都将开始这种进程。数据挖掘正是这一进程进步发展的重要力量。
1. 数据挖掘的定义
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。
数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持[1]。
2. 数据挖掘的过程
数据挖掘的最终结果是从大量数据中发现可用的知识,这一过程一般包括数据准备、数据挖掘、结果表达与解释三个阶段,如图1所示。
数据准备是数据挖掘中的关键一环,它直接影响到数据挖掘的效率、精准度以及所得模式的有效性。该阶段可分为数据集成、数据选择、数据预处理三个子阶段。数据集成是把多个不同的数据源合并处理成一个共同的数据源,清洗脏数据、处理数据中的遗漏、解决语义模糊性等。数据选择就是决定并选出需要分析的数据,即目标数据,缩小处理范围,提高数据挖掘质量。数据预处理通常包括消除重复数据、消除噪声、遗漏数据处理、数据类型转换等,目的是把数据处理成适合于数据挖掘的形式,并在数据选择的基础上对挖掘数据做进一步的约简,减少内存资源和处理时间,使挖掘更有效。
数据挖掘是根据数据特点和结果知识表达方式选定某一适合的数据挖掘算法(分类、聚类、回归、关联等算法),把数据中潜在的有用的模式搜索出来。它是整个挖掘过程中最为关键的一步,也是技术难点。
结果表示是把所有最终经挖掘发现的知识直观地通过可视化技术展示给用户,以帮助用户理解和解释数据挖掘的结果。若结果不能满足挖掘任务的需要,则需要重新进行以上的挖掘过程。
在理解数据挖掘过程的这三个步骤时,应注意以下几点:第一,数据挖掘只是整个挖掘过程中的关键一步;第二,不但所选用的数据挖掘方法可以影响挖掘质量的好坏,所挖掘数据的数量和质量同样会决定挖掘结果的成败。如果在挖掘过程中选取了不适当的甚至是错误的数据,或者是对数据进行了错误的处理,挖掘结果都不会成功;第三,整个挖掘过程是一个不断反馈、循环往复的过程。例如,在挖掘过程中用户发现由于目标数据或者是挖掘方法的原因而产生了不理想的挖掘结果,此时都需要重复以前的挖掘过程,甚至重新开始;第四,在数据挖掘的每个阶段,可视化技术都起着重要作用。在数据预处理阶段,为了更好地选取目标数据,用户需要对所选数据有一个初步的了解,此时可以用直方图、散点图等统计可视化技术来显示相关数据;在数据挖掘阶段,用户可根据具体研究领域的不同选择相关的可视化工具;在结果表示阶段,可视化技术的选择应该考虑到可以使发现的知识易于表达和理解[2]。
3. 数据挖掘的功能
数据挖掘功能一般可以分为预测和描述两类[3]。预测性挖掘是对目标数据进行推算处理,进而达到预测的目的。描述性挖掘则是用来刻画目标数据集合的普通特性。概括起来,数据挖掘功能主要包含以下几个方面:分类、聚类、偏差检测、概念分析、概念描述、信息摘要、关联分析、时序演变分析和元数据挖掘。
数据挖掘功能一般是与目标数据类型相关联的。一些功能可以用在多种不同的数据类型上,而一些功能只能用在某一特定的数据类型上。因此在确定数据挖掘任务时,必须综合考虑目标数据类型、数据挖掘功能和用户的兴趣。
4. 数据挖掘的应用
由于数据挖掘可以从大量数据中发现原来未知的信息和知识,在当下的大数
据时代,它给庞大的数据资源赋予了新的含义,它们不再是难以处理的垃圾,而是不可或缺的资源。以下主要从三个方面介绍数据挖掘在一些领域中的应用。
(1)在DNA分析中的应用
将基因的编码序列和非编码序列进行区分是进行基因研究的基础,两种序列的区分不但需要大量的实验,而且需要繁重的计算,所以在区分准确度和分类方法上如果能够有所提高,那么对于基因研究的贡献无疑是巨大的。将编码序列和非编码序列进行区分实质是一个分类问题,分类问题在数据挖掘中已经有了很多研究,可以使用比较成熟的分类算法对两种序列进行区分。
某些疾病不只与单个的基因有关,而是某几种基因组合起来共同作用的结果。此时可以利用数据挖掘中关联分析的方法确定在目标样本中同时出现的基因种类。由此人们可以发现各基因组以及基因之间的关系。
(2)在金融业中的应用
由于业务需要,金融业需要收集整理大量数据,这些数据通常比较可靠、完整和高质量,跟踪分析这些数据可以发现隐含其中的数据模式及特征,并由此得到某个客户或组织的金融和商业兴趣,进而察觉到金融市场的变化趋势。数据挖掘在金融领域中的应用主要包括数据清理、金融市场分析与预测,账户分类、银行担保和信用评估等。
(3)在市场业中的应用
数据挖掘技术应用在市场业主要体现在对消费者行为分析和对市场定位上。它基于市场营销学的市场细分原理,假定“消费者过去的行为是其今后消费倾向的最好说明”。通过收集处理有关消费者消费行为的大量信息,掌握特定消费个体或群体的消费倾向、消费需求和消费习惯,从而确定相应个体或群体下一步的消费行为,并以此为基础,对所识别出来的消费人群进行针对性极强的特定营销,这与传统的不针对特定消费人群的大规模营销手段相比,为企业大大节约了营销成本,获得了更好的营销效果,也增加了企业利润。
5. 数据挖掘的发展
数据挖掘的研究如日中天,目前,国内外很多公司、大学和研究机构都非常
看好数据挖掘的发展前景,并且在这个方面开展了深入研究。今后研究的热点可能有:数据挖掘与数据仓库相结合的研究,数据挖掘与数据仓库一体化的研究;对各种非结构化数据,如:多媒体数据、图形图像数据和文本数据的挖掘;研究Internet上的数据挖掘方法;研究专门用于知识发现的数据挖掘语言。
数据挖掘满足了大数据时代用户对信息的需求,随着大量的基于数据挖掘的面向用户的决策支持产品的不断问世,数据终将与能源、物质一样成为人类不可或缺的重要资源,也只有到那时,信息时代才会真正到来。
参考文献
[1]朱玉全,杨鹤标,孙蕾数据挖掘技术[M].南京:东南大学出版社,2006.11
[2]朱明.数据挖掘(第二版)[M].合肥:中国科学技术大学出版社,2008.11
大数据时代的小数据的阅读答案 篇5
○2小数据就是个体化的数据,是我们每个个体的数字化信息。比如我天天都喝,突然,有天喝完酒了胃疼,那么这天和之前的每一天有何不同?原来,这天喝的酒是个新牌子,可能这就是导致胃疼的原因。这就是我生活中的“小数据”,它没有大数据那样浩瀚繁杂,却对每个人的个体至关重要。
○3第一个意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔·艾斯汀。艾斯汀的父亲去年去世了,而早在父亲去世之前几个月,这位计算机科学教授就注意到老人在“数字社会脉动”中性号异常——他不再发送电子邮件,不去超级市场买菜,到附近散步的距离也越来越短。然而,这种逐渐衰弱的状态,在医院的心电图中是看不出来的,这个90岁的老人在检查时并没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显发生变化。这种日常小数据带来的生命讯息的警示和洞察,启发了艾斯汀,他发现小数据可以看作是一种新的医学证据,它是唯一的“your row of their data”(他们数据中属于你的那行数据)。
○4也许人们都知道,大数据将改变当代医学,譬如基因组学、蛋白质组学、代谢组学等等,不过由个人数字跟踪驱动的小数据,同样可能为个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全、私人地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通讯,这些数字追踪将得到一幅只属于你的健康自画像。
○5【 】譬如我们可以分析年老父母的集成数据,用于比较不同的医学治疗方案:如果患者想要确定适合自己的服药剂量,就可以通过数字跟踪数据前后比较,了解不同剂量的药物对自己日常功能的影响;对于慢性病、抑郁症、记忆力衰退等病症,日常活动变化的数据同样非常重要。长期以来,攻克癌症一直使人们的梦想。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化,大致相同的基因变异只占患者的10%。也就是说即使是同一个肿瘤,其细胞的变异也可能是不同。所以,利用患者的.数据进行个性化的癌症治疗,不是“对症下药”,而是“对人下药”。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,所以“小数据”也可以有大作为的。
○6有人说,个人小数据汇聚起来不就是大数据了吗?从大数据里面取出相关的小数据就可以了吗?其实不然,小数据是隐私的,不能共享的,而且它是动态的变化的,着些特征使得小数据不能与大数据混为一谈。
○7当然,这并不是说大数据就不重要,在医学上发现某种疾病治疗的一般规律都离不开大数据。也就是说,依靠大数据可以得到一些规律或普遍现象,而用小数据小数据去匹配个人,表现个性化特点。不过,大数据流行,大家就只谈“大数据”,这显然不是做学问该有的态度。(文章有改动,作者闵应骅系中国科学院计算技术研究所研究员)
【问题】
14、根据上下文文意的连贯,以下填入第○5段横线处最恰当的一句话是( )(3分)
A、的确,小数据可以在很多研究领域中完全替代大数据。
B、那么,运用小数据进行研究到底有哪些成功的案例呢?
C、那么,肖书记可以为我们提供多少研究的可能性呢?
D、那么,小数据和大数据到底哪一个的作用个更突出?
15、对上文理解正确的一项是( )(3分)
A、作者认为我们每个个体而言,大数据太过繁杂,小数据却和我们生活息息相关。
B、第○3节以艾斯汀父亲的例子具体说明了个体化数据因无法检测而在医学上价值不大。
C、根据第○5节所列的数据可知:肿瘤细胞在癌症病人体内发生基因变异的可能性并不大。
D、第○7节告诉我们:大数据远比小数据重要,因为借助它能够发现疾病治疗的规律。
16、联系上下文,第○5节中加点词语“对症下药”是指【 】,而“对人下药”则是指【 】(4分)
17、结合文本,判断下列不属于“大数据”的一项是( )(2分)
A、小明具有A型血做任何事情都条理分明、十分细心认真的特点。
B、感冒一般鼻塞、喷嚏、头痛、咳嗽、咽喉红肿等明显症状。
C、小宝宝一般4到10个月开始出牙,最晚2岁半出齐全部乳牙。
D、为了怡情养性,小红以一杯绿茶代替了原来每天喝的咖啡。
18、上文花了大量篇幅介绍小数据,那么题目能否改成“小数据”呢?请作出判断并简述两点理由。(5分)
答:【 】。(1)【 】;(2)【 】。
【参考答案】
14、(3分)C
15、(3分)A
16、(共4分,每空2分)针对癌症的一般规律进行治疗考虑到每个病人的个体特点,借助“小数据”进行个性化治疗
17、(2分)D
18、(共5分)不能改(1分)
理由(1)从①②④节可知,本文不是简单地介绍小数据,而是要说明大数据背景下小数据的重要性;
(2)结合⑥⑦节可知,文章还点出了大数据与小数据在特性功用上的差异;
大数据时代以“数据”说话 篇6
一、 根据图表数据分析变化趋势并写出相关结论
同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价,不能随意得出结论.
(1) 最高气温为2℃的天数为____天;
(2) 说出该市这10天气温变化趋势;
(3) 根据图表写一条有关的结论
【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2 ℃,所以最高气温为2 ℃的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句“最高气温呈上升趋势”来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况相符.
解:(1) 最高气温为2℃的天数为3天;
(2) 这10天最高气温逐步上升,但不稳定,有升有降;
(3) 最高温度比较低,要做好防寒防冻准备.
二、 根据样本数据估计总体情况
当同学们收集了一些数据以后,这些数据往往通过图表的方式呈现,有时看起来有些困难,这就需要整理数据,在掌握所有数据的前提下,对看起来杂乱的数据要进行必要的归纳和整理,从数据中提取信息,并根据实际问题的需要,从样本数据的数字特征出发,对总体的数字特征进行估计,体会用样本估计总体的思想;从而进一步认识到抽样调查对于解决一些实际问题的巨大作用,体会到统计知识与生产和生活实践的紧密联系.
例2 初中学生骑电动车上学的现象越来越受到社会的关注,为此某媒体记者小李随机调查了市区若干名初中学生家长对这种现象的态度(态度分为:A. 无所谓;B. 反对;C. 赞成),并将调查结果绘制成图①和图②的统计图(不完整). 请根据图中提供的信息,解答下列问题:
(1) 此次抽样调查中,共调查了______名初中学生家长;
(2) 将图①补充完整;
(3) 根据抽样调查结果,请你估计某市市区80 000名初中学生家长中有多少名家长持反对态度?
【难点分析】双统计图问题是考试中常见的题型,就是在一个题目中利用两个不同类型的统计图描述数据. 本题中出现了条形统计图和扇形统计图. 从条形统计图中能清楚地看出数量的多少,便于相互比较. 扇形统计图是以整个图代表统计项目的总体,每一统计项目分别用图中不同的扇形表示,扇形面积占圆面积的百分之几就代表该统计项目占总体的百分之几.
解:(1) 计算调查家长的总人数要根据公式总体=来计算. 从条形统计图中我们可以发现选择A无所谓的家长有50人,而扇形统计图中选择A所占的百分比为25%,则总人数==200(人);
(2) 要先计算选择C的人数再画统计图,调查总人数为200人,选择A和B的人数分别为50人和120人,选择C的人数为200-50-120=30(人),在条形统计图中画出相应高度的矩形即可;
(3) 要根据样本中选择B所占的百分比来表示市区所有家长选择B所占百分比,根据公式个体=总体×个体所占百分比,则选择B(持反对态度)的家长人数=80 000
×60%=48 000(人).
三、 利用数据分析提出合理化建议
在当今社会里,数据的收集、整理与分析已经成为信息时代每个公民基本生活的一部分. 要让同学们经历运用数据描述信息、作出推断的过程,培养统计观念,帮助同学们逐渐建立起数据分析观念. 因此,学习数据的收集、整理和描述就是教会同学们从生活中收集数据、描述数据、分析数据,利用数据对生活中的事件进行决策.
(1) 这种调查方式属于普查,还是抽样调查?_________________________.
(2) 常州家庭总数有40万户左右. 若根据30个家庭这一天丢弃塑料袋个数的平均数估算,则全市一天丢弃塑料袋总数约是多少个(写出解答过程,结果用科学计数法表示).
(3) 通过该环保小组的统计和你的估算,你有何感想或对市民提一条科学性的建议!
【难点分析】第(2)小题是根据抽样数据估算总体情况;第(3)小题根据数据分析情况,提出合理的建议即可,但要把握住本题中“创建绿色常州”这个主题.
(3) ①提倡市民对垃圾袋进行重复使用;②建议市政府实施“限塑令”.
(作者单位:江苏省常州市田家炳初级中学)
初中阶段对统计与概率内容的学习要求是体会抽样的必要性以及用样本估计总体的思想,进一步学习描述数据的方法,进一步体会概率的意义,能计算简单事件发生的概率.
一、 根据图表数据分析变化趋势并写出相关结论
同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价,不能随意得出结论.
(1) 最高气温为2℃的天数为____天;
(2) 说出该市这10天气温变化趋势;
(3) 根据图表写一条有关的结论
【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2 ℃,所以最高气温为2 ℃的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句“最高气温呈上升趋势”来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况相符.
解:(1) 最高气温为2℃的天数为3天;
(2) 这10天最高气温逐步上升,但不稳定,有升有降;
(3) 最高温度比较低,要做好防寒防冻准备.
二、 根据样本数据估计总体情况
当同学们收集了一些数据以后,这些数据往往通过图表的方式呈现,有时看起来有些困难,这就需要整理数据,在掌握所有数据的前提下,对看起来杂乱的数据要进行必要的归纳和整理,从数据中提取信息,并根据实际问题的需要,从样本数据的数字特征出发,对总体的数字特征进行估计,体会用样本估计总体的思想;从而进一步认识到抽样调查对于解决一些实际问题的巨大作用,体会到统计知识与生产和生活实践的紧密联系.
例2 初中学生骑电动车上学的现象越来越受到社会的关注,为此某媒体记者小李随机调查了市区若干名初中学生家长对这种现象的态度(态度分为:A. 无所谓;B. 反对;C. 赞成),并将调查结果绘制成图①和图②的统计图(不完整). 请根据图中提供的信息,解答下列问题:
(1) 此次抽样调查中,共调查了______名初中学生家长;
(2) 将图①补充完整;
(3) 根据抽样调查结果,请你估计某市市区80 000名初中学生家长中有多少名家长持反对态度?
【难点分析】双统计图问题是考试中常见的题型,就是在一个题目中利用两个不同类型的统计图描述数据. 本题中出现了条形统计图和扇形统计图. 从条形统计图中能清楚地看出数量的多少,便于相互比较. 扇形统计图是以整个图代表统计项目的总体,每一统计项目分别用图中不同的扇形表示,扇形面积占圆面积的百分之几就代表该统计项目占总体的百分之几.
解:(1) 计算调查家长的总人数要根据公式总体=来计算. 从条形统计图中我们可以发现选择A无所谓的家长有50人,而扇形统计图中选择A所占的百分比为25%,则总人数==200(人);
(2) 要先计算选择C的人数再画统计图,调查总人数为200人,选择A和B的人数分别为50人和120人,选择C的人数为200-50-120=30(人),在条形统计图中画出相应高度的矩形即可;
(3) 要根据样本中选择B所占的百分比来表示市区所有家长选择B所占百分比,根据公式个体=总体×个体所占百分比,则选择B(持反对态度)的家长人数=80 000
×60%=48 000(人).
三、 利用数据分析提出合理化建议
在当今社会里,数据的收集、整理与分析已经成为信息时代每个公民基本生活的一部分. 要让同学们经历运用数据描述信息、作出推断的过程,培养统计观念,帮助同学们逐渐建立起数据分析观念. 因此,学习数据的收集、整理和描述就是教会同学们从生活中收集数据、描述数据、分析数据,利用数据对生活中的事件进行决策.
(1) 这种调查方式属于普查,还是抽样调查?_________________________.
(2) 常州家庭总数有40万户左右. 若根据30个家庭这一天丢弃塑料袋个数的平均数估算,则全市一天丢弃塑料袋总数约是多少个(写出解答过程,结果用科学计数法表示).
(3) 通过该环保小组的统计和你的估算,你有何感想或对市民提一条科学性的建议!
【难点分析】第(2)小题是根据抽样数据估算总体情况;第(3)小题根据数据分析情况,提出合理的建议即可,但要把握住本题中“创建绿色常州”这个主题.
(3) ①提倡市民对垃圾袋进行重复使用;②建议市政府实施“限塑令”.
(作者单位:江苏省常州市田家炳初级中学)
初中阶段对统计与概率内容的学习要求是体会抽样的必要性以及用样本估计总体的思想,进一步学习描述数据的方法,进一步体会概率的意义,能计算简单事件发生的概率.
一、 根据图表数据分析变化趋势并写出相关结论
同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价,不能随意得出结论.
(1) 最高气温为2℃的天数为____天;
(2) 说出该市这10天气温变化趋势;
(3) 根据图表写一条有关的结论
【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2 ℃,所以最高气温为2 ℃的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句“最高气温呈上升趋势”来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况相符.
解:(1) 最高气温为2℃的天数为3天;
(2) 这10天最高气温逐步上升,但不稳定,有升有降;
(3) 最高温度比较低,要做好防寒防冻准备.
二、 根据样本数据估计总体情况
当同学们收集了一些数据以后,这些数据往往通过图表的方式呈现,有时看起来有些困难,这就需要整理数据,在掌握所有数据的前提下,对看起来杂乱的数据要进行必要的归纳和整理,从数据中提取信息,并根据实际问题的需要,从样本数据的数字特征出发,对总体的数字特征进行估计,体会用样本估计总体的思想;从而进一步认识到抽样调查对于解决一些实际问题的巨大作用,体会到统计知识与生产和生活实践的紧密联系.
例2 初中学生骑电动车上学的现象越来越受到社会的关注,为此某媒体记者小李随机调查了市区若干名初中学生家长对这种现象的态度(态度分为:A. 无所谓;B. 反对;C. 赞成),并将调查结果绘制成图①和图②的统计图(不完整). 请根据图中提供的信息,解答下列问题:
(1) 此次抽样调查中,共调查了______名初中学生家长;
(2) 将图①补充完整;
(3) 根据抽样调查结果,请你估计某市市区80 000名初中学生家长中有多少名家长持反对态度?
【难点分析】双统计图问题是考试中常见的题型,就是在一个题目中利用两个不同类型的统计图描述数据. 本题中出现了条形统计图和扇形统计图. 从条形统计图中能清楚地看出数量的多少,便于相互比较. 扇形统计图是以整个图代表统计项目的总体,每一统计项目分别用图中不同的扇形表示,扇形面积占圆面积的百分之几就代表该统计项目占总体的百分之几.
解:(1) 计算调查家长的总人数要根据公式总体=来计算. 从条形统计图中我们可以发现选择A无所谓的家长有50人,而扇形统计图中选择A所占的百分比为25%,则总人数==200(人);
(2) 要先计算选择C的人数再画统计图,调查总人数为200人,选择A和B的人数分别为50人和120人,选择C的人数为200-50-120=30(人),在条形统计图中画出相应高度的矩形即可;
(3) 要根据样本中选择B所占的百分比来表示市区所有家长选择B所占百分比,根据公式个体=总体×个体所占百分比,则选择B(持反对态度)的家长人数=80 000
×60%=48 000(人).
三、 利用数据分析提出合理化建议
在当今社会里,数据的收集、整理与分析已经成为信息时代每个公民基本生活的一部分. 要让同学们经历运用数据描述信息、作出推断的过程,培养统计观念,帮助同学们逐渐建立起数据分析观念. 因此,学习数据的收集、整理和描述就是教会同学们从生活中收集数据、描述数据、分析数据,利用数据对生活中的事件进行决策.
(1) 这种调查方式属于普查,还是抽样调查?_________________________.
(2) 常州家庭总数有40万户左右. 若根据30个家庭这一天丢弃塑料袋个数的平均数估算,则全市一天丢弃塑料袋总数约是多少个(写出解答过程,结果用科学计数法表示).
(3) 通过该环保小组的统计和你的估算,你有何感想或对市民提一条科学性的建议!
【难点分析】第(2)小题是根据抽样数据估算总体情况;第(3)小题根据数据分析情况,提出合理的建议即可,但要把握住本题中“创建绿色常州”这个主题.
(3) ①提倡市民对垃圾袋进行重复使用;②建议市政府实施“限塑令”.
大数据时代的数据挖掘技术探讨 篇7
1 大数据的概念
大数据, 是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V, 即大量化 (Volume) 、多样化 (Variety) 和快速化 (Velocity) 。
即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中, 电子商务的购物平台数量和种类越来越多, 社交网站的典型facebook的数据量大的惊人, 以PB计量都不够。数据存储的单位不仅仅是MB、GB等, 而是使用了表示更大容量的TB、PB、EB、ZB和YB等, 每个单位的关系为后者是前者的1024倍, 如1PB=1024TB。同时大数据的增长速度是越来越快, 如手机相机的像素数随着新款手机的出现而成倍的增长。
1.2 多样化
从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据, 具有一定的规律, 可以使用二维表结构来表示, 并存储在数据库中, 如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据, 如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。
1.3 快速化
在当前商业竞争激烈的时代, 对实时的数据进行分析和处理, 挖掘有用的数据信息, 并用于商业运作, 对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合, 分析出大部分人在购买一件物品的同时会同时购买其他的物品, 从而在购物选择时给予方便, 提高网购的效率, 提高效益。
随着互联网技术和计算机技术的快速发展, 在产生大数据的同时, 人们要能够对这些数据加以利用, 得到有用的信息, 才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用, 需要将这些数据转换为有用的信息和知识, 即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联, 并在实际物品摆放时将这两种物品放置在一起, 方便用户购物。
2 数据挖掘
随着信息技术应用的广泛, 大量的数据产生并存储各个领域的信息系统中, 数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸, 知识匮乏”的情况下出现的。数据挖掘 (Data mining) 是一个多学科交叉的研究领域, 它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。
数据挖掘也称为从数据中发现知识, 具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。
3 数据挖掘的主要研究内容
数据挖掘的任务是发现隐藏在数据中的模式, 其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述, 刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数, 对于时间序列型数据, 根据其历史和当前的值去预测其未来的值。常使用的算法有:
3.1 聚类分析
聚类是将数据划分成群组的过程, 根据数量本身的自然分布性质, 数据变量之间存在的程度不同的相似性 (亲疏关系) , 按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法, 层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。
3.2 特性选择
特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集, 去除不相关和冗余的属性。特性选择用于在建立分类模型前, 或者预测模型之前, 对原始数据库进行预处理。常用的算法有最小描述长度法。
3.3 特征抽取
特征抽取式数据挖掘技术的常用方法, 是一个属性降维的过程, 实际为变换属性, 经变换了的属性或者特性, 是原来属性集的线性合并, 出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。
3.4 关联规则
关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的, 目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。
3.5 分类和预测
分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据, 而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测, 需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。
4 结论
随着时代的进步, 数据也发生变化, 具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时, 也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生, 基于云计算的数据挖掘也在迅速崛起。
参考文献
[1]刘军.大数据处理[M].北京:人民邮电出版社, 2013 (09) .
[2]王元卓等.网络大数据:现状与展望[J].计算机学报, 2013 (06) .
[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学, 2013 (06) .
[4] (加) 洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社, 2014.
大数据时代的数据挖掘 篇8
大数据的概念目前没有统一的界定。维基百科对大数据定义如下:大数据由巨型数据集构成, 这些数据所占空间大小是现在使用软件在可接受时间下难以合理处理的。Floridi指出, 大数据是指由工具、传感器、网络处理器、电子邮件、视频、点击流产生的大量、多样、复杂、分布的数据集或者由其他现在或将来能获取的数字化资源构成的。大数据是有相对性的, 是针对目前计算机处理的能力而言的。IDC (International Data Corporation) 界定了大数据具有的“4V”特征:Variety、Volume、Velocity和Vitality, 即多样性、大容量、高速度及时效性。目前, 由于网络发展迅速、范围更加深入, 使得各种数据拥有了更大范围、更低消费的集散场所。只需用很低的成本, 这些自动生成的数据即可做到存储与传送。可以说, 基础的资料和技术已经准备就绪, 大数据商业情报的时代已经到来。
2 新时代的情报变化
在大数据时代已经到来的时代背景下, 通过成熟的网络条件, 合作伙伴能够在闭合供应链企业间实现快速分享有利信息, 但是另一方面, 无处不在的智能设备却将周围环境中的情报有意或无意地上传、发布到开放的网际空间中。这之中可能存在大量的企业成员独自的私有情报, 他人能够通过大数据手段十分轻易地拥有这些之前难以或不可能获取的私有情报。这就说明, 在当代的商业活动中, 情报泄密、流失已经成为了不可避免的现实。因此, 闭环供应链中企业为提高自身利润, 不得不使用大量的智能设备进行监控以防止私有情报泄露。与此同时, 闭环供应链中这个成员企业也可以借助大数据分析手段收集、获取、分析其他企业的私有情报以获得私利, 原有的闭环供应链间契约平衡关系就被破坏了, 旧的情报网络体系将不复存在, 更新的竞合关系由此而生。这说明, 这种商业的合作是非常矛盾的, 但是迫于形势又必须要合作。
在大数据时代背景下, 情报信息组成成分也与之前变得与众不同, 其中对情报内容的语义单一、内容零碎、互相联系也迫使情报的组织方式亟待更新。在情报构成时, 数据挖掘、关联计算及做出可视图的情形日益普遍, 情报学已经从以往的收集后计算演变为更加科学可靠的计算机数学处理。通过大数据手段而诞生的新型情报组织内容有判断、储存、定义规范及其保安措施。因为情报学涵盖了各类与众不同的信息, 而大数据的揭示与组织的方法能够有效对零散的、看似无关的信息进行分析处理, 通过计算实现信息集成为一条一条完整有价值的情报。因此, 大数据技术可以有效迅速的帮助情报获取。
对于商业情报, 以前一家独占的场景几乎不可能再现。因为当前海量的数据已经不是个体能够消化的, 而且在当今各种智能设备的应用也使得保密难上加难所以, 为了情报的充分使用, 必须要进行合作, 而这个合作关系一旦形成, 便不再允许发生任何变动, 于是就形成了闭环供应链。闭环供应链中需求方不用知道这些繁重的数据是如何进入这条链中的, 只需要完成自己一环得到的任务——通知这个供应链自己需要什么, 剩下的事情交给这条供应链的管理者即可。假如有的企业成员不怀好意, 泄露了链中的关键情报, 系统也能够及时检查并发现。这样闭环供应链中的企业成员既拥有了自己已经就有的私有情报, 又从合作伙伴的情报分析中得到有用信息, 可谓一举两得。系统既保证成员个体情报的安全, 又使企业提高了生产效率, 而且供应链成员得到自身利益后更加乐意去合作, 整个闭环供应链得到良性循环发展。
3 闭环供应链的作用
闭环供应链整体情报系统在大数据中获得供应链中的制造商、消费者有用信息, 分析得到一件商品的工艺流程和用户偏好情况。将这些信息整合后交给制造商, 制造商只管“埋头苦干”即可。因为有反竞争情报系统, 生产者与代理商得到的只是用户和物流公司的供需信息, 所以限制了零售商与物流方面在运输、销售等方面偷取供应链中其他成员的应得利益。处于供应链中的负责销售的企业得到足够的用户需求后, 做到有的放矢。这样, 各个企业无需再为没有足够的情报资源而苦恼, 之后像过去那般进行情报战。不仅减少了企业之间的内耗, 而且成员企业可以更放心的把全部精力用于各司其职, 对整个经济发展是有很大好处的。
利用大数据的技术力量, 提供整条供应链都需要的信息进行获取和分析, 不断生成更加符合当前环境的情报体系, 将供应链变得更加强壮。同时, 一条一条闭环供应链的稳定发展又带来了再制造企业的崛起, 从而带动整个经济的发展。
4 结语
面对新的情报形式, 我们需要对此有清醒的认识:机遇与挑战并存。虽然时代变革, 情报获取的方式与情报拥有者早已与近代大相径庭。我们应该把握时代趋势, 具体情况具体分析, 这样才能做到保护我们的请保安全, 让自身更具有竞争力。
参考文献
[1]曾建勋, 魏来.大数据时代的情报学变革[J].情报学报, 2015 (1) .
[2]全小珍.论情报机构如何开展企业信息情报服务[J].企业科技与发展, 2012 (10) :1674-0688.
[3]程刚.可制造闭环供应链经济性分析及价值补偿机制研究[D].天津:天津大学, 2011.
大数据时代教育数据价值挖掘 篇9
随着科学技术和现代网络的不断发展, 大数据时代越来越多的被人们提起, 信息爆炸时代数据量来临。通告显示:自2008年以来, 全球数据量的生产总和达到了0.49ZB, 随后的两年内迅速增长, 数据量总和分别为0.8ZB和1.2ZB, 到2011年更是达到了历史新高1.82ZB, 平均每个人数据产生量几乎为200GB。数据已经成为所有行业和相关业务领域不得不考虑的生产因素。如何高效利用和挖掘这类数据信息已经成为提高生产率以及消费者盈余模式的新的浪潮。大数据时代教育数据挖掘技术也会成为未来世界某一时间段的主流需求。
大数据时代学习分析技术
这是一门结合了测量收集和分析报告学生相关学学习信息和环境等内容, 并作出相关优化的技术。这一技术是对学生庞大学习数据的相关问题充分分析, 并对学生现阶段学术进展以及内在问题和未来表现的客观评估。它是在数据的基础上, 对学生学习以及学习环境的测评, 达到了解学生学习问题, 优化学生学习环境的目的。
大数据时代学习分析技术现状
相关研究表明, 学习分析技术在很多方面都具有非常重要的使用价值:
1.从学生方面来说, 学习分析技术在了解学生学习现状之后, 通过分析学生数据, 找出相关问题, 对学生学习过程进行优化, 帮助学生培养良好学习习惯, 从而达到学生自我学习的目的。
2.从教师以及管理人员方面来说, 学习分析技术可以评估教学课程和相关机构, 帮助同步改善学校既定考核方式, 深入分析教学数据, 为教师帮助学生解决实际问题指明教学不足和更优方法。
3.从研究人员方面来说, 学习分析技术是一种研究学生和网络学习的有效工具。
4.从技术开发人员方面来说, 学习分析技术管理系统各模块各不相同的使用频次和路径能有效指导系统界面的相关优化设计, 并可以完善系统日志相关管理功能。
大数据关键技术分析
1.学习分析关键技术与主要工具
⑴内容分析法
内容分析法是一种对文献内容作客观系统的定量分析的专门方法, 其目的是弄清或测验文献中本质性的事实和趋势, 揭示文献所含有的隐性情报内容, 对事物发展作情报预测。它实际上是一种半定量研究方法, 其基本做法是把媒介上的文字、非量化的有交流价值的信息转化为定量的数据, 建立有意义的类目分解交流内容, 并以此来分析信息的某些特征。
⑵话语分析
人文科学所有的知识分子都是在利用话语的生产模式来行使权力, 话语传播着权力的影响。在现代社会中, 它们就是权力的替代品。只有遵循话语系统自身的规律, 人们在生活中的表达和沟通才能有效, 否则就是痴人说梦。换言之, 可以这样来说, 现实并不是我们人类在创造、支配使用话语 (主体性解构) , 而是语言在建构我们的本质。掌握话语权的人掌握社会规范。
⑶社会网络分析
社会网络分析适合分析关系数据, 而用来分析其他类型数据对关系数据的影响。数据主要分为两类, 属性数据和关系数据, 属性数据指涉及能动者的态度, 观点, 行为方面的数据, 采用的方法主要是变量分析法。关系数据是关于接触, 关联, 群体依附和聚会方面的数据, 反映一个能动者与另外能动者联系在一起, 而不是单独的属性, 一般采用的分析方法是网络分析。另外还有一种是观念数据, 主要是描述意义, 动机, 定义和类型化本身, 主要是用类型分析的方法。
⑷聚类
聚类分析也被称为群分析, 它是在“物以类聚”这一理念之上, 对样品进行必要分类的一种相对多元的统计分析方法。这种方法专门针对大量的样品, 按各自的特性进行相对合理的分类, 即使未曾事先验知的情况下依然不会参考任何模型。
聚类分析是研究事物特性的个体方法, 可以把类似的事物分类整合。原则上依据事物的相似性进行归类, 具有以下三个特点:
(1) 非常符合检测未曾验证的事物。在没有数据标准参考的情况下, 设定相对完善的分类变量就可以对数据进行合理的聚合, 得到相对客观的分类信息。
(2) 能够处理多个变量决定的分类。多个变量的分类一般相对比较复杂, 聚类方法完全可以胜任针对此类数据的分类。
(3) 聚类分析法的探索性相对较高, 可以根据事物的内在属性和规律, 依据原则上的相似性对数据分类, 被广大工作者广泛应用。
⑸预测
根据已有数据或信息对整体或个体数据发展态势做出合理预测。
⑹关系挖掘
数据挖掘是一种在信息领域当中发展最快的技术, 许多行业中的佼佼者都从中获得较为广阔的发展空间, 这使得数据挖掘技术日趋被人们所关注。随着科学技术的不断进步, 采集数据的方法日益繁多, 因而使得庞大的数据总量几乎达到GB甚至TB级, 并且高维数据日趋主流化。此类数据以及数据的高维特征并不是传统数据分析方法可以轻易解决的, 这样导致数据的处理也愈来愈依赖计算机和网络。
⑺文本挖掘
文本数据挖掘 (Text Mining) 是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义, 文本数据挖掘是从文本中进行数据挖掘 (Data Mining) 。从这个意义上讲, 文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科, 由机器学习、数理统计、自然语言处理等多种学科交叉形成。
2.学习分析技术模式
学习分析模式分为三大要素:“学习分析流程”、“工具与算法”和“数据与信息”。“学习分析流程”中包括数据收集、数据预处理、分析、预测和应用等环节, 不同应用情景下的“学习分析流程”各个环节都会有一定的区别;“工具与算法”是“学习分析流程”的有力支撑, 能够从“学习分析关键技术与主要工具”中选取出来;“数据与信息”不但有来自“工具与算法”数据, 还有将“工具与算法”的信息知识输出出去。
结束语
大数据时代以“数据”说话 篇10
一、根据图表数据分析变化趋势并写出相关结论
同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价,不能随意得出结论.
例1测得某市2月份1至10日最高气温随日期变化折线图如图所示.
(1)最高气温为2℃的天数为____ 天;
(2)说出该市这10天气温变化趋势;
(3)根据图表写一条有关的结论
【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2℃,所以最高气温为2℃的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句“最高气温呈上升趋势”来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况相符.
解:(1)最高气温为2℃的天数为3天;
(2)这10天最高气温逐步上升,但不稳定,有升有降;
(3)最高温度比较低,要做好防寒防冻准备.
二、根据样本数据估计总体情况
当同学们收集了一些数据以后,这些数据往往通过图表的方式呈现,有时看起来有些困难,这就需要整理数据,在掌握所有数据的前提下,对看起来杂乱的数据要进行必要的归纳和整理,从数据中提取信息,并根据实际问题的需要,从样本数据的数字特征出发,对总体的数字特征进行估计,体会用样本估计总体的思想;从而进一步认识到抽样调查对于解决一些实际问题的巨大作用,体会到统计知识与生产和生活实践的紧密联系.
例2初中学生骑电动车上学的现象越来越受到社会的关注,为此某媒体记者小李随机调查了市区若干名初中学生家长对这种现象的态度(态度分为:A. 无所谓;B.反对;C. 赞成),并将调查结果绘制成图1和图2的统计图(不完整). 请根据图中提供的信息,解答下列问题:
(1)此次抽样调查中,共调查了______名初中学生家长;
(2)将图1补充完整;
(3)根据抽样调查结果,请你估计某市市区80 000名初中学生家长中有多少名家长持反对态度?
【难点分析】双统计图问题是考试中常见的题型,就是在一个题目中利用两个不同类型的统计图描述数据. 本题中出现了条形统计图和扇形统计图. 从条形统计图中能清楚地看出数量的多少,便于相互比较. 扇形统计图是以整个图代表统计项目的总体,每一统计项目分别用图中不同的扇形表示,扇形面积占圆面积的百分之几就代表该统计项目占总体的百分之几.
解:(1)计算调查家长的总人数要根据公式总体=个体/个体所占百分比来计算. 从条形统计图中我们可以发现选择A无所谓的家长有50人,而扇形统计图中选择A所占的百分比为525%,则总人数50/25%=200(人);
(2)要先计算选择C的人数再画统计图,调查总人数为200人,选择A和B的人数分别为50人和120人,选择C的人数为200-50-120=30(人),在条形统计图中画出相应高度的矩形即可;
(3)要根据样本中选择B所占的百分比来表示市区所有家长选择B所占百分比,根据公式个体=总体×个体所占百分比,则选择B(持反对态度)的家长人数=80 000×60%=48 000(人).
三、利用数据分析提出合理化建议
在当今社会里,数据的收集、整理与分析已经成为信息时代每个公民基本生活的一部分. 要让同学们经历运用数据描述信息、作出推断的过程,培养统计观念,帮助同学们逐渐建立起数据分析观念. 因此,学习数据的收集、整理和描述就是教会同学们从生活中收集数据、描述数据、分析数据,利用数据对生活中的事件进行决策.
例3为迎接花博会,创建绿色常州,某学校环保小组随机调查了市区30个家庭一天丢弃塑料袋的情况,统计结果如下:
(1)这种调查方式属于普查,还是抽样调查?_________________________.
(2)常州家庭总数有40万户左右. 若根据30个家庭这一天丢弃塑料袋个数的平均数估算,则全市一天丢弃塑料袋总数约是多少个(写出解答过程,结果用科学计数法表示).
(3)通过该环保小组的统计和你的估算,你有何感想或对市民提一条科学性的建议!
【难点分析】第(2)小题是根据抽样数据估算总体情况;第(3)小题根据数据分析情况,提出合理的建议即可,但要把握住本题中“创建绿色常州”这个主题.
解:(1)这种调查方式属于抽样调查;
(2)样本平均每户丢弃垃圾袋个数:0×1+1×1+2×11+3×7+4×5+5×4+6×1/30=3(个).
40万户家庭总共丢弃垃圾袋数:3×400 000=1.2×106(个).
答:全市一天丢弃塑料袋总数约是1.2×106个.
大数据时代的机遇 篇11
阿里巴巴为首的中国民营企业积极创新,不仅带动了成千上万的创业者和小微企业的迅猛发展,也在充分利用和挖掘大数据资源方面做出了一系列有益的尝试。中国政府面临千载难逢的契机,有可能在今后10年里领导人民持续开创举世瞩目的经济增长奇迹!
我们有阿里巴巴那样的鼓励草根创业平台,我们有广东、浙江和江苏那样的社会服务的创新,我们还有来自国际方面的先进经验和竞争压力,我们没有理由怀疑中国在大数据时代引领世界的能力。将这种能力变成现实需要远见卓识的领导,也需要合作的力量。商界、学界、政府和媒体联合起来,全社会的创新精神得以鼓励和释放,我们可以把事情做成,做得更好。
综合2012年年底在清华大学一次会议上与各界针对大数据的研讨与交流,本文从企业以及城市管理两方面来简要介绍大数据未来的发展潜力。
阿里巴巴数据战略
云计算的建立和数据的公开是阿里巴巴为1000万家小企业,1亿电子商务从业者,10亿消费者打造了一个平台。在这个平台上,阿里巴巴集团打通了旗下阿里巴巴、淘宝网、支付宝等公司的资源,打通了整个电子商务产业链。
万通实业股份有限公司董事长冯仑曾经说过,能够构成前瞻力的一定是站在未来安排今天。阿里巴巴集团主席马云正是这样一个人。
早在六年之前,他就已经意识到数据的重要性,尽管当时不明确具体的用途,但他隐隐感觉到:是时候开始了。而这一预见性想法也在今天逐步让阿里巴巴成为数据时代下的佼佼者。
据阿里巴巴研究中心统计,2012年双十一当天,天猫和淘宝共吸引了2.13亿独立用户访问,相当于有四成网民参与了狂欢节。在2012年11日零时37分39秒,天猫1111购物狂欢节支付宝交易额突破10亿元。
根据当天的实时交易量统计,在2分钟时候,支付宝交易就达到1亿,13个小时就达到100亿,这对于服务器有非常大冲击。对于凌晨就守在电脑前面准备抢购的买家来说,很多反应“订单无法登陆无法打开就是付款之后却显示无货状态”。而阿里巴巴研究中心开发出的平台“聚石塔”,保证订单的交易购买过程中的零丢单、零故障。
阿里巴巴集团研究中心研究部专家张婷介绍,这期间聚石塔内的商家很好地完成了任务,其中有6家商家当天的交易额在5000万以上。
不过,阿里巴巴对自己提出了更长远和清晰的定位。引用张婷会上的一段话作为总结:“阿里巴巴现在还远未达到大数据的状态,我们还有很长的一段路要走。在这个过程中我们也是在被业务驱动着跑,业务量大了之后有很多数据沉淀下来,然后我们需要用数据平台去处理一些问题。数据平台推动起来之后,我们希望能够对数据进行研发,然后用数据去推动商业进步。目前,我们正在积极利用大数据来寻找小而美的卖家,鼓励更多的人来到阿里巴巴平台上创新、创业。”
相信,会有更多更丰富的创新不断涌现出来。
智慧城市
大数据今年3月份成为美国战略,并获得2亿美元的来自美国联邦政府的财政支持,与其当年拿出4个亿来支持互联网旗鼓相当。无疑,信息系统以及数据战略对于支撑一个国家的软实力建设至关重要。
随着社会发展,越来越多的城市人口给城市管理和服务带来巨大的挑战,也带来了能源的压力和环境危机。原来以国家为单位的竞争逐渐转变为城市之间的竞争。美国凯特智能决策有限公司亚太事务主任涂子沛着重强调了大数据对于智慧城市的意义何在。
智慧城市是大数据时代下的主要载体。中国与美国比,无疑在很多地方有差距,但若从城市角度出发,特别是从信息技术角度出发,这个时代为我们提供了一个契机,上海,北京,广州实际上完全可以比纽约波士顿要好,时代的竞争慢慢成为城市的竞争。
涂子沛提到,智慧城市首先是一个开放的城市,能够保证信息自由流动,在其基础上才能产生知识和智慧。这不仅仅是一个技术创新,也是社会创新。
例如,2011年10月,美国国家气象局(NWS)在2000辆客运大巴上装了传感器,沿途收集温度、湿度、露水、光照度。而美国国家邮政局(U.S.PostalService)也规划在邮车上安装传感器,在投递邮件时采集社区的空气质量、污染指数和噪声数据。
现在城市的数据开始多元化,主要有三种表现形式。
原来是只有信息系统数据,也就是精确数据。各类信息系统的数据,每一条都有具体的含义和价值。
后来开始有一些社交媒体的出现,他们形成的单条数据可能没有明确含义、确定价值,是由大众产生的数据。这部分数据称之为模糊数据,也就是其价值是有待确认。
第三部分则是指准增值数据,也就是这些数据与大部分数据结合可以产生价值,这部分数据大部分也是公共数据。
数据的价值在于整合,不整合没有价值。中国仍旧缺乏透明详实的公共基础数据,但缺少这些社会基础数据,很多数据就无法有效整合,例如天气、人口、地理、经济发展指标、社会福利等等。而数据开放之责任在于政府。
大数据时代的数据挖掘 篇12
作为最早提出“大数据时代到来”的企业, 麦肯锡公司曾指出:“大数据已渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来[1]。”继云计算、物联网、移动互联网之后, “大数据”作为信息技术领域又一次颠覆性的技术革命, 已经在金融、医药、交通、海洋等各个行业以及物理学、生物学、环境学、药学等科学领域广泛应用[2]。
然而, 如何从海量并貌似杂乱无序的数据中揭示内在规律, 挖掘有用信息, 进而通过辅助决策系统、专家系统等进行科学的决策, 是大数据时代面临的重要科学问题。尤其是对这些纷繁复杂的数据进行科学的分析, 实现“数据—信息—知识”[3]三个层次的提炼, 正是“数据分析”课程主要研究的内容。
“数据分析”课程是国内绝大多数高校在信息与计算科学等信息类专业的本科生开设的必修课/选修课[4], 是“概率论与数理统计”课程的后续延伸及应用, 也是“数据挖掘”课程的先修课程。“数据分析”课程主要介绍了数据分析的基本理论与方法, 详细叙述数据分析中线性回归分析、方差分析、主成分分析、典型相关分析、判别分析、聚类分析和Bayes分析等重要的分析方法。虽然“数据分析”课程可看作数理统计学理论与方法的综合应用, 但其更注重实际的应用问题解决的全过程, 从中得到有价值的信息与知识。
在大数据时代下, 大量数据分析处理需求大大助长了各行业及企业对统计、计算机背景相结合的人才的需求[5], 如数据分析师、数据工程师、数据科学家等等, 迫切需要同时掌握数据分析的基本理论与数据分析具体技术, 并且能够通过计算机软件 (SAS、SPSS、Eviews等) 对数据进行分析与处理的复合型人才[6]。通过“数据分析”课程, 学生将初步掌握数据分析的基本理论与方法, 培养和锻炼利用实际数据来分析、解决实际问题的能力, 这些技能将对学生升学深造和就业工作, 具有非常重要的意义。
本文在对“数据分析”课程多年的观察与教学的基础上, 对本科阶段“数据分析”课程存在问题进行深入剖析, 并给出一些初步的建议。
二、存在问题
然而, 笔者在最近几年的授课过程中, 发现“数据分析”课程在学生的学习过程和能力培养方面容易存在以下问题:
1. 理论课程难度较大, 造成学生学习困难。
“数据分析”课程作为“概率论与数理统计”、“高等代数”等课程的后续课程, 需要学生对数学类专业课有比较扎实的基础与深入的理解。如“数据分析”课程中的回归方程的显著性检验方法, 需要学生已经掌握“概率论与数理统计”的多元正态分布的定义和数字特征、假设检验等内容, 同时具有“高等代数”的矩阵运算 (包括矩阵的加、乘法, 求逆阵, 计算特征值和特征向量等) 的基础。同时, “数据分析”与“概率论与数理统计”课程在内容上也是有所差异的:前者强调从实际数据中挖掘尽可能多的有用信息, 属于后者的理论与方法的综合应用。因此, “数据分析”课程的理论难度较大, 对于学生学习提出了很高的要求。
2. 动手能力要求高, 考验学生的编程能力。
“数据分析”课程的知识点不仅仅停留在理论推导上, 对于已经建立的数学模型, 需要借助与计算机对大批量的数据进行处理, 尤其是常用的统计软件在汉化过程中, 不能很好地解决专业术语的翻译。因此在运用计算机软件解决实际问题时, 对学生计算机编程能力和专业外语知识要求也很高。如在SAS中, 有一整套的编程命令, 以命令的方式来建立数据集, 并对数据集进行操作, 甚至在实现某些分析算法 (如Box-Cox变换) 的时候, 还会调用到选择语句和循环语句。学生往往处于被动学习的地位, 只能按照教师的指导, 运行一些简单的程序, 如仅仅敲打书上例题程序, 缺少实验过程中的动手分析、设计和测试环节, 无法发挥学生的积极性与创造性。这样的实验很难让学生体会到实际的数据处理及编程环境, 学会解决编程中碰到的意外问题, 因此难以激发学生的实验兴趣, 从而降低了教学的效果。
3. 对于计算机运行结果, 需要较高的分析问题能力, 考察学生分析能力。
很多同学能够通过计算机调用统计软件中各程序模块的运行, 但仅仅能达到验证结果的目的, 往往对计算结果中所包含的统计学等深层次的含义知之甚少, 更不必说从中提炼出有用的知识。如很多同学知道某统计量的假设检验概率值p<0.0001, 仅表示出现的概率极小, 但不知道其假设条件, 故无法做出统计推断与检验。如此将计算机工具与数据分析强行割裂, 使得学生分析问题的能力很难得到提高。因此, 对于计算机运行结果, 需要较高的分析能力, 找出其问题的本质。
三、课程建议
鉴于上述存在问题, 笔者对大数据时代下“数据分析”课程进行了探索, 提出了如下建议:
1. 建议“数据分析”课程紧密衔接“概率论与数理统计”、“高等代数”等数学类基础课程。
在授课过程中, 根据学生情况, 逐步深入难度。课堂讲授理论学时建议在48个学时以上, 可确保知识的系统性和正确性, 可对教材中内容完整讲解。对于定理的证明, 建议通过黑板等传统手段仔细推导与讲解, 对于部分超出课程要求的繁难的理论证明可以略去或改为学生自学。如在典型相关分析的过程中, 对于典型相关变量和典型相关系数的求法, 可以先给学生讲解有关结果;尤其是计算矩阵平方根的逆矩阵, 着重讲解算法过程。例题和习题的选取, 一般建议选取具有实际背景的观测数据。通过这些例子的分析, 使学生了解数据分析方法的具体应用, 体会数据分析的全过程。有条件的学校可以通过微课视频等形式, 将“数据分析”各个知识点制作成微课, 供学生反复观看使用。
2. 建议增加实验学时, 培养编程动手能力。
建议“数据分析”课程安排上机实验学时不少于16个学时, 选择对常用统计软件 (SAS、SPSS或Eviews) 的一种进行仔细讲解, 使用SPSS或Eviews, 其图形界面可以帮助学生理解复杂的过程, 使用SAS可以让学生了解SAS的编程语言和语法结构。有条件的高校, 建议采用英文版的软件, 可使学生熟悉统计学的专有名词, 为今后的进一步阅读外文文献提供帮助。笔者在实际教学过程中, 结合SAS 9.4展开介绍, 上机实验学时为16课时, 可以使学生有足够的时间进行例题和习题的操作练习。在安排上机的过程中, 根据学生的具体情况, 开展如Box-Cox变换等SAS程序的阅读与编写, 加深对该变换算法的理解和该变换本质———满足线性回归模型的假设条件的理解。
3. 建议增加课程大作业, 实现数据综合分析。
课程大作业可以让学生接触到一个完整的分析问题、解决问题的过程。对于本科生来说, 建议指导教师给出一些具体的题目, 如大城市雾霾天气的影响因素、景点游客满意度等。这些热点问题更容易激发学生的学习兴趣。在大作业中, 鼓励学生通过调查问卷或查阅相关统计年鉴, 以获得相应的原始数据, 并从实际数据中不断挖掘尽可能多的有用信息以及希望从数据中得到的知识。根据计算机运行结果, 进一步分析数据特征, 学会从原始数据到有用信息再到科学知识的一个提炼过程。最后, 通过同学讨论与发言以及教师的点评, 来帮助学生培养分析问题和解决问题的能力。如针对大城市的雾霾天气, 请查找相关数据, 对可能的形成原因进行分析, 提出合理的假设, 并对治理雾霾天气提出合理化建议。可让学生查阅雾霾出现的时间、温度、湿度以及相关的工农业生产指标进行分析, 进行主成分分析等, 尝试寻找导致雾霾的主要原因。
四、结束语
随着移动设备和各类传感器的普及, 数据量已经从TB级跃升到PB、EB级乃至ZB (1ZB=10~21Byte) 级别, 大数据时代已经来临。面对如此惊人的数据, 对于数据的分析和挖掘需求已变得十分的迫切;同时, 充分利用大数据所带来的信息, 如何充分利用这些数据, 使其为国家、企业决策乃至个人服务, 是今后很长一段时间内科学研究和工程技术领域的重要内容。
在这种时代背景下, “数据分析”课程作为信息与计算科学等相关专业的一门重要课程, 将在很大程度上培养学生的数学思维与计算思维, 提升学生的分析与解决实际的问题能力, 增强学生在升学深造和就业工作时的核心竞争力, 更好地融入到大数据时代中去。
摘要:大数据时代下, 迫切需要从海量的数据中揭示内在规律、发掘有用信息、帮助人们科学决策。这正是“数据分析”课程研究的基本内容。本文分析了信息与计算科学等本科专业开设“数据分析”课程中存在的一些问题, 从教学目标、教学内容、教学方式与学时分配等方面, 提出了“数据分析”课程的一些建议及初步探索方案。
关键词:数据分析,大数据,课程探索
参考文献
[1]页川.大数据时代背景下挖掘教育数据的价值[J].中国远程教育, 2013, (4) :94-95.
[2]董志清, 廖正琦.《多元统计分析》课程的教学体会及探讨[J].重庆文理学院学报 (自然科学版) , 2010, (2) :82-84.
[3]董梅生.提高应用统计学课程教学效果的几点体会[J].安徽工业大学学报 (社会科学版) , 2011, (3) :119-120.
[4]梅长林, 范金城.数据分析方法[M].北京:高等教育出版社, 2006.
[5]向程冠, 熊世桓, 王东.浅谈高校大数据分析人才培养模式[J].中国科技信息, 2014, (9) :138-139.
【大数据时代的数据挖掘】推荐阅读:
大数据时代的数据观05-14
大数据时代的数据管理11-09
大数据时代的教育10-25
大数据时代的人才管理05-11
大数据时代的媒体融合05-13
大数据时代的企业决策05-14
大数据时代的终端安全05-15
大数据时代的应用研究06-12
大数据时代的思维变革06-16
大数据时代的CFO07-04