大数据时代的数据观(精选12篇)
大数据时代的数据观 篇1
摘要:随着社会、经济、科学技术的发展,大数据时代也随之到来。在大数据时代背景下,为适应潮流的发展,我国的新闻编辑与报道也应紧紧追随大数据时代的脚步,突破新闻编辑的传统局限性,加强新闻编辑的能力,提升新闻从业者的整体素质,从而实现新闻编辑观念的全面转型。大数据时代对新闻行业产生了巨大影响,新闻行业的发展也面临着巨大的挑战。本文对大数据时代背景下新闻行业编辑观念的转型问题进行探讨,并得出相应的结论。
关键词:大数据时代,新闻编辑,角色转型
自20世纪80年代改革开放以来,我国的经济飞速发展,经济的发展同时也带动了社会的不断进步。而今,民众需要的新闻类型通常为“快餐新闻”,即实时、高效、实用。为满足民众对新闻的需求,必须对传统的新闻编辑方式进行改革,转换新闻视角,提升新闻编辑的多样性和独特性。这就必须依托于相关数据分析,为新闻受众提供其所需新闻种类。因此,大数据时代,新闻编辑观念必须与时俱进,做到迅速转型,力求为用户提供具有实时性、高效性、实用性的新闻报道。
1 新闻编辑观转型的背景
大数据的定义是极其复杂的,具有具体的时代现象,大数据主要体现在商业范畴,还没有过多的定义对其进行解释,从根本上讲,大数据是指收集或创造半结构以及非结构化的数据,如搜索引擎记录、关系网络活动数据以及网络日志等。这些数据可以为新闻行业提供大量依据。在捕捉用户行为数据的同时,还要捕捉状态数据。而进行新闻编辑的根本目的就是增强稿件的可读性,提升新闻报道的整体质量。而新闻行业的工作是在与其他环境相比较为封闭的滞后环境中完成的。所以,在进行新闻编辑的过程中,通常只注重版面的可读性,却没有充分考虑到新闻转载引起的效益。而在大数据背景下,可能会引入更多数据,与状态数据相比,行为数据是带有动态性质的、较为庞大的数据体系,因此,依托于大数据存在的行为数据,也会给新闻编辑带来巨大影响。
2 大数据时代背景下新闻编辑工作存在的问题
大数据时代的数据收集与整理都具有极强的复杂性,新闻行业的数据收集与整理也是如此。但是,就目前的情况来看,新闻编辑工作中存在的问题较多,没有根据实际情况对新闻编辑的观念进行改革,使新闻编辑工作充满局限性。主要体现在以下几个方面。
2.1 新闻编辑的滞后性
在传统的新闻行业中,新闻编辑工作一般是在事件发生后才开始进行信息收集与整理,然后进行编辑报道的。在这样的情况下,就会导致新闻事件发生与报道之间存在一定的时间空白,与新闻的时效性相悖。因此,在新闻的编辑工作中最为常见的现象就是编辑的滞后性。
2.2 新闻编辑的陈旧性
我国已经迎来大数据时代,在大数据时代的要求下,新闻编辑工作必须做到与时俱进,体现新闻的高效性。但是,目前新闻行业编辑工作使用的工作方式仍然较为传统,编辑方式陈旧,以旧有的新闻模式为主,缺乏新意,现在已经逐渐不能满足受众对新闻的需求。所以,新闻编辑工作之后的报道、传播模式、途径等都有待提升。
2.3 新闻编辑的片面性
新闻工作在探讨问题方面有一定的片面性,虽然在新闻编辑的过程中及播出、出版中不会发生较为严重的错误,但是其还不具备绝对的科学性。所以,在部分新闻编辑中,内容缺乏全面性,无法体现新闻的专业性质。
综上所述,我国新闻行业为适应大数据时代的到来,还需要进行全面改革,最为重要的一点就是对新闻编辑观念的转变。
3 大数据时代下新闻编辑编辑观的转型
在大数据高速发展的时代,新闻行业也需要依托大数据来实现新闻编辑的转型。而新闻编辑的转型,最为首要的一点,就是新闻编辑观的转型,主要分为以下几个方面。
3.1 强化新闻编辑工作的数据思维
大数据时代要求新闻行业也必须具有大数据思维。在新闻编辑的过程中,需要打破过去传统的编辑模式,以新的思维模式以及编辑模式来看待新闻编辑。利用新的思维模式,需要加强对数据的重视,以数据作为新闻编辑的主要依据,将编辑工作中的中心思想融入到大数据中,从而通过数据的整合与分析,完成新闻编辑。
新闻行业是收集信息及传播信息的重要途径。因此,新闻行业的编辑工作就更加应该具有视觉化思维、关联性思维以及预测性思维。首先,视觉化思维是指改变过去的以少量数据样本进行分析的思维,而由全部数据思维取而代之,使用全数据模式对新闻进行编辑,样本即为整体。视觉化思维要求新闻编辑工作注重对信息的整合,将数据新闻生动地呈现在受众面前。其次,关联性思维是指注重事物之间的相互关系,在编辑新闻稿件及版面设计的过程中,都要体现事物的关联性,加强新闻编辑的多样性,从而体现不同新闻文本的联系,并建构不同新闻文本之间的关系。最后,预测性思维是指在依托大数据进行新闻编辑的同时,还要具有一定的预测能力,如荀子所言,坐于室而见四海,处于今而论久远。通过对数据的整理和分析固化出具体的未来,从而进行有效的预测。
3.2 提升新闻编辑的效率
现代社会飞速发展,新闻行业也应适应这种发展的态势,以最快的速度进行新闻的收集、整理、编辑及报道。因此,在新闻的编辑工作中,不再是在事件发生之后,再进行信息收集、整理,然后进行编辑、报道,应尽量摆脱过去传统的工作方式,以新的工作形式来满足大众的需求。转变工作方式,应以适应大数据时代为具体要求,并以满足新闻受众为基础。将大数据应用到新闻编辑中,即加强对数字互联网以及移动平台等新媒体的应用,将传统新闻编辑方式与新媒体编辑方式相结合,不再将新闻编辑局限于文字,而是将图像和文字结合在一起,实现传统与现代的互动。同时,也要尽量做到实时传播,减少新闻收集与新闻编辑之间相隔的时间,从根本上提升新闻编辑的效率。
3.3 实现新闻内容价值
无论是传统的新闻编辑方式还是以大数据时代为背景的新闻编辑方式,都需要遵循一个重要原则,即“内容为王”,所有新闻编辑都必须体现新闻内容的价值,这是新闻行业工作中的主要原则。在新闻编辑工作中,需要体现新闻内容的价值和地位,将新闻内容的价值放在新闻编辑的首要位置。大数据时代的信息纷杂,许多信息存在不真实性,各种性质的信息和数据混合在一起,使数据环境极为复杂。在这种情况下,新闻编辑更应以事实为准,在编辑过程中要更加注重事件的真实性,对于新闻事件的编辑需要做到不捏造、不夸大,从实际出发,将最真实的新闻事件呈现给受众,这样才能提升新闻的质量,实现新闻的真正价值。
4 结语
大数据时代的到来,在一定程度上推动了经济、社会以及科技的发展,对于新闻行业的发展也具有推动作用。而新闻行业也应依靠大数据内容,改变新闻编辑理念,加强新闻编辑的能力,将行为编辑与大数据时代相融合,在大数据时代下的新机遇、新形势以及面临的新问题,应从容面对,积极发展,实现新闻编辑观的转型,从而提升新闻编辑的整体水平。
参考文献
[1]谢征.大数据时代新闻编辑观的转型[J].编辑之友,2014(6).
[2]刘冉冉.浅谈大数据时代新闻记者观的转型[J].新闻传播,2015(1).
[3]朱民.大数据时代编辑思维转型探讨[J].合作经济与科技,2015(16).
[4]张茜.大数据语境下新闻编辑转型实现路径[J].中国报业,2015(16).
[5]王睿琪.宏观拓展,微观深入——大数据时代下的新闻生产革命[D].长春:吉林大学,2015(4).
大数据时代的数据观 篇2
——应用改错本做个小数据
兴仁县城南街道三昧塘小学 姓名:杨栋先 电话:*** 联系地址:贵州省兴仁县城南街道三昧塘小学 邮编:562300
大数据时代做个小数据,《道德经》里的第六十三章有这样一句话,“天下大事必作于细,天下难事必作于易”。其意思是天下所有的大事都必须从“细”、从“小”做起,天下所有的难事都必须从从“易”、从“简”做起。对于这句话我有很深刻的体会,把它用到我的教育教学这件大事中来,应该同样可以从小事做起。
在教育教学中,大部分老师对如何轻松教会学生知识感到头疼,尤其是那些自觉性较差的学生,大脑里没有学习的概念,作业强迫做,而且有些还是为了应付差事而乱做,这是为什么呢?本人认为原因有二:一是作业量大;二是作业次数频繁。记得我孩子读小学时,有些题目做了七八遍还要做,我给孩子说会做的就不要做了,只做模糊的题目就行了,可孩子说这是老师要求做的,说是为了巩固,这都是分等惹的祸。其实学生学习知识,如果会的就永远会了,要积累的是那不懂的部分。
那么,怎样才能使学生在这激烈的社会竞争中既做得少,成绩又能脱颖而出呢?从多年来的教学经验,我找到了一条捷径——应用改错本。
2016年12月在清华大学学习期间,刘茗教授给我们讲座讲到了教师专业水平的成长时,其中一条是“不要小看改错本,必须充分利用改错本。”此时的我非常高兴,非常激动,因为我一直都在要求学生利用改错本,但是效果不是很显著。现在想来,主要原因是不会应用,我的改错本只是为了改错,为了积累,可在学生的脑海中,要把错的改正过来,应该是印象深刻了才能改正,才能真正记住。
为此,怎样才能让学生记忆深刻呢?通过最近学习了国家公务员公需科考试的大数据的应用以后,我忽然茅塞顿开,大数据的作用那么大,我们做不了大数据,但我们可以做小数据呀!正如全国十大金口才之一的周士渊老师在讲《习惯学》的其中一条就是习惯养成的三字诀——易、少、小。也就是说,我们培养学生良好的学习习惯,可以从应用改错本这个小习惯作眼。
在大数据广泛应用的时代,我深受启发,我对学生应用改错本进行初步研究,而研究的方法主要是从小数据入手。首先,一个单元结束后收集学生的错误知识点,然后对学生的错误进行分类,找出错因,挖掘错误知识之间的联系。我是语文教师,我主要研究语文,所以,学生的错误大概可以分成:字、词、句、段、章五类,要求学生准备不同的改错本,分别记下不同的错误知识。如字词类,教师先将学生错误的字词作为数据资源库,找出错因,看看学生是对哪个类型结构、或者偏旁、或者从分类的错字较多,这样可以分类统计,然后进行归纳总结,针对错误再找出行之有效的教法。例如:
一、错误的知识可以要求学生参与分析,分析的过程实际是学生再学习、再认识、再总结和再提高的过程,这样学生对字的认识理解更深刻、掌握更牢固、运用更灵活。
二、老师再要求学生把特易错的字结合课文内容变成一个个小故事,这样,呆板的字就变活了,学生肯定容易记住。然后再把单元与单元之间联系起来逐于归类处理,到最后学生对字的认识就会形成一个知识链数据库。
其他知识也可以利用类似的方法进行数据统计,必须强调的是数据不是简单的数字,而是有根据的数字,最精确的事实,是深入挖掘的语言和载体,所以教师收集的数据必须是学生真实的错误知识点,将这些知识点进行统计、分析,再找出教法,教会学生正确知识点,这样收集的数据才有用。
专家在讲大数据时谈到:数据可以说明过去,也可以驱动今天,更可以决定未来。是的,当我们在收集学生错字的资源库里找到了学生的错因,再根据错因找到了一条条的教学规律时,我们可以把每个年级的规律装订成册,作为校本教材来使用,这不就是利用国家教材开发校本教材吗?如果老师把这些规律掌握了时,应用这些规律进行教学,学生一旦都会了,还可能布置很多作业(如反复抄写生词)吗?还会把考试当作枷锁吗?
大数据的“大”时代 篇3
关键词 互联网 大数据 发展
中图分类号:TP3 文献标识码:A
时下最热门的搜索词中“大数据”恐怕是名列前茅的,“大数据”不仅仅是IT行业的一个术语,它越来越影响着人们日常生活的方方面面,渐渐地成为一种生活态度,思维方式。大数据的“大”时代正向我们走来。
互联网的迅猛发展,使得大数据技术成为可能。互联网海量数据的获取、聚集、存储、传输,大数据应运而生。互联网为大数据提供了更多数据、信息资源;大数据为互联网的发展提供更多数据服务以及应用。
当今社会,互联网的迅猛发展和普及,将每个使用网络的人都主动或被动的吸纳到大数据中来。网民在网上的任意一个访问行为,都将成为大数据海洋中的一滴水。据2014年11月世界互联网大会最新发布的数据,经过20年的发展,中国已拥有6.3亿网民,12亿手机用户,5亿微博、微信用户,每天信息发送量超过200亿条。全球互联网公司十强,中国占了4家,中国已成为名副其实的互联网大国。人们日常工作与生活中的消费、信息交换已成为必不可少的部分。大数据正是基于这些庞大数据的分析与处理,从这些数据中挖掘有价值的信息,并且合理的预测判断出事态的走向,将这些预测运用到各个领域。比如在电商领域的精准服务。通过顾客在购物网站的浏览记录,历史购买,科学合理的判断出该顾客现在的需求,以及未来存在的潜在需求,并且能伴随着顾客兴趣点的转移,新的习惯爱好,实现内容及广告的精准推荐。大数据为我们的生活带来了重大的变革,让我们的生活更智能,更便捷。
牛津大学教授维克托·迈尔·舍恩伯格(Viktor Mayer-Schonberger)在他的《大数据时代:生活、工作与思维的大变革》中提出大数据带来的变革不仅存在于有形的商业模式,更多的将会影响到人的思维模式。
首先,大数据不再局限于随机的样本,这样就避免了因不能保证绝对随机性而带来的偏差。大数据模式规避了小样本的弊端,颠覆了传统的样本分析思维模式。
其次,大数据允许不精确。大数据不再局限于随机样本,不再局限于小信息量的信息收集,大数据有足够“大”的信息来反映事态的发展。宽容了错误,人们掌握的数据就多了起来。因此,大数据让我们把花费在如何使样本数据更加精确上的时间和精力,花费在收集更多数据上。人的思维不再局限和狭隘,有了更广阔的视野。
最后,大数据让人们知道“是什么”就够了,没必要知道“为什么”。大数据分析的方法不受信息数量局限,不受信息误差局限,因此能客观的预测未来。人们开始将因果思维转换为相关思维。
维克托·迈尔·舍恩伯格在《大数据时代创业取决于创意》中提到,如何通过大数据来观察和认识这个世界是我们需要关注的课题。
大数据改变了我们的生活,并且逐步影响着我们的思维模式,基于大数据带来的许多问题也开始日益显现。
首先,大数据时代,我们在网络中的每一次点击,每一次信息交换产生的数据都将永久的保存下来。因此,我们首先必须面临的挑战就是:大数据时代,我们该如何保护我们的信息安全。一方面,随着对互联网的日益依赖,人们将大量的数据通过云端来记录和保存,金融数据、医疗信息以及政府部门的信息都需要有安全性和保密性。庞大的数据以及处理这些数据做出的结果一旦丢失,损失将是不可估量的。如何保护好这些数据安全是一个重要课题。另一方面,大数据作为一个巨大的资源库,它给企业带来的商业价值无疑是巨大的。当企业一味的追求利润最大化,商家在利用大数据不断挖掘着潜在客户,运用消费者一切数据来预测未来的消费增长点时,当人们的生活轨迹被通过几个关键词还原,并能预测出他即将出现的地点时,人们意识到,每个人有可能就这样毫无隐私的暴露在大众面前。
同时,商家运用着大数据不断刺激用户超前消费。一年一度的“双十一”是网购者的狂欢盛宴,也是众多电商的饕餮大餐。由此而产生的“剁手族”、“剁手党”也随即出现。网民们一面捂着荷包大呼再买“剁手”,一面又禁不住点开“双十一”来袭那铺天盖地的推荐广告。也许在某个时刻你曾经保存了一家明星款的风衣,“双十一”要做的就是告诉你,今天,有更多更便宜的明星款,并且,过时不候。至于人们到底是不是真的需要这件明星款的衣服已经不重要了,这个时节,就是狂欢。
最后,大数据忠实地记录着互联网成员的每一次点击,并且将他们保存起来,甚至会让这些数据“永存不朽”。然而,人类社会的发展尤其是人际的交往,也许并不需要那么“清晰的记忆”。当人们不愿提及的一段过往被运用大数据毫无保留的重新呈现出来,这无疑让人们对大数据的公平与真实产生一些畏惧。伴随着畏惧产生了对大数据的不信任,人们很可能会减少这些数据的产生,对于依赖海量数据的大数据处理,这无疑是巨大的打击。
大数据时代的数据观 篇4
1.新媒体时代新闻传播的特点
新媒体下大数据的应用技术越来越成熟、越来越普遍, 发展的热度居高不下, 引起了社会的广泛关注, 已经成为当前的热点问题。新闻媒体创新采用数据化的方式进行播报, 从新闻的产生到传播交流做出了一系列革新, 推动新闻更好更快地发展。
1.1信息量大
大数据可以说是新闻媒体的基础, 这就使得新时代下的新闻区别于传统新闻的一个显著特点就是信息量极其庞大, 并且良莠不齐、真假难辨。信息技术的成熟, 人们已经可以实现远距离通话、视频等交流方式, 反映到新闻行业, 人们也需要新闻编辑人员打破以往传统新闻如报纸广播等受时间和地域限制的弊端。只有打破这种局限性, 人们才可以更加自由地获取信息, 随时随地发表自己对新闻的看法, 对新闻进行评论, 甚至将自己个人的新闻分享到网络中。一方面丰富了网络信息, 另一方面也便于公众查找信息, 公众想要什么样的信息, 只需在网络上搜索即可获取, 轻松简单。另外, 智能手机的出现, 公众基本可以实现随时随地查询新闻信息的要求, 各网站为满足公众第一时间获得信息的要求, 必须完善多方面的客户端, 向公众的个人平台推送即时信息。
1.2公众参与互动
新媒体时代的主要平台是互联网, 互联网的互动性使新闻具有较高的公众参与度。现今的公众成为新闻的阅读者、评论者、发布者, 并且公众的参与互动会对社会舆论产生影响, 甚至改变舆论走向。互动新闻使新闻真正意义上成为大众的新闻, 使新闻走下神坛, 更加平民化和公众化。公众参与互动改变了新闻媒体的单一品牌价值, 丰富了社会影响力的单一评价标准。由此可知, 新媒体时代的新闻更能满足受众的个性化、多元化和互动性要求, 所以, 大数据新闻一定会取代传统的新闻媒体。
1.3获取信息便捷化
大数据时代背景下的社会大众更容易获取想要的信息。随着网络越来越普及, 新闻的个人客户端如手机、电脑、平板等多方共同运行, 新闻的更新可谓一瞬之间。公众在个人平台上发布信息以及搜索需要的信息资料。大众将新闻的整个包括产生、传播和评论的过程压缩到几分钟即可完成, 特别是智能手机的使用, 俨然成为移动的信息交流平台, 人们得到第一手资料信息更加方便迅速。
2.大数据时代新闻编辑观的转型
2.1转型的必要性
大数据时代的来临, 传统新闻报道的方式已经不能适应社会的飞速发展了, 人们对新闻的更新速度提升有了强烈的需求。因此, 新闻行业为了满足群体的要求, 必须更新编辑观念。新闻编辑的弊端, 使得新闻报道工作存在很大的不足, 特别是新闻编辑的滞后性俨然已经不能满足大众对最新时事的强烈求知欲望, 并且新闻编辑上的格式化要求, 使得新闻报道古板无趣, 人们容易产生审美疲劳。面对外在的压力以及新闻自身的不足, 新闻编辑观的转型已经成为必然趋势。
2.2新闻编辑观转型面临的挑战
编辑流程呈现立体化的特征, 传统的编辑流程较为单一、流水化, 这种单调乏味的流程已经与市场的发展不相适应, 打破固有模式的限制, 是转型编辑观的挑战, 模式不打破的情况下谈观念转型是没有任何意义的, 配合网络运营工具进行立体化、多元化的编辑出版是当前转型的重大挑战。
市场群体个性化所带来的挑战。大数据时代, 读者生活品味提高, 需求呈现个性化与多元化的特点, 越来越多的受众选择从电子设备上获取信息, 随时随地得到最新消息来源, 新闻编辑必须迎合读者的个性化阅读, 这是对新闻编辑全方位编辑提出的挑战。
2.3新闻编辑观转型的措施
树立大数据下的思维模式, 大数据下的新闻报道, 编辑人员首先应该改变思维传统, 树立以数据为中心的思维观念, 分析数据, 从真正意义上理解大数据背后蕴含的意义。
最大程度上解决新闻的滞后性问题。新闻编辑人员必须转变编辑行为方式, 在实际工作中运用大数据, 可以充分利用网络等媒体工具, 将第一时间的新闻报道给受众。为了使新闻更加生动, 加强现场性效果, 可与现场的新闻工作者合作, 采用即时的编辑方式加工整合然后播放给大众, 尽最大可能减缓新闻工作的滞后性。
提高数据分析和应用的能力。编辑人员结合专业知识对大数据进行分析研究, 然后对数据进行创新性的运用, 迎合大众的口味, 吸引更多的受众。新闻编辑人员为了提高分析应用数据的能力, 应该不断学习, 紧跟时代潮流。
立足于新闻内容, 减少主观性因素。新闻报道的是新闻事实, 不是编辑者的思想观念。新闻内容是新闻的核心, 在不同的历史时代, 新闻内容都体现了新闻在社会中的地位。新媒体时代, 分析研究大数据, 进行合理的编辑和创新, 保证新闻的价值性和真实可靠性是新闻编辑人员的职责所在。
对新闻舆论有一个整体上的把握不仅是对新闻质量的负责, 更是对社会大众的负责, 坚持社会主义核心价值观, 弘扬主旋律, 体现出了新闻编辑者的社会责任意识。编辑人员需要有敏锐的洞察力, 能够把握政治方向不偏不倚和评价大是大非的人生价值观。编辑人员首先需要严格审核新闻内容, 把好质量关, 对新闻的真实性和实效性负责。向大众播报内含主流价值观的新闻内容, 避免出现严重的错误舆论导向。新闻编辑人员不仅需要对新闻编辑严格审核, 还需要关注传播过程中的细节性问题, 保证新闻的质量。
创新表达方式。新媒体时代, 网络的普及应用, 出现了大量与大众生活息息相关的具有新颖性符号的表达习惯, 新闻编辑工作人员需要贴近大众、贴近生活。利用出现的新型表达方式, 结合计算机技术, 增加新闻的互动性, 引导大众畅所欲言, 提升新闻影响力。
3.大数据时代新闻编辑人员编辑能力的提升
新媒体时代的最大特点就是大数据的呈现, 各方面信息层出不穷, 而编辑人员的基本职责就是从大数据下编辑出高质量的新闻。同使, 为了更好地适应大数据新媒体的时代特征, 新闻编辑者转变新闻编辑观的同时, 也需要提高硬性技术, 增强新闻编辑能力。
3.1搜集信息的编辑能力
数据是新闻编辑的基础, 新闻编辑工作是以搜集数据为前提的。网络中存在大量各式各样的数据信息, 但是这些信息数据的有效性并不能全部保证, 需要有目的有选择地进行筛选, 为大众提供有价值的信息。新闻编辑工作人员只有提高自己的信息搜集能力, 才能有信息做好基础工作。新闻编辑人员只有时刻保持高度的新闻敏感度, 及时地掌握数据, 才能为大众提供最新的、最全面的新闻信息。
3.2整理数据的编辑能力
对数据进行初步搜集后, 还需要进一步的整理加工。过多的数据会使得整理加工工作比较困难, 并且数据的真实性和实效性也难以保证, 针对此问题, 去除虚假或者干扰信息, 在庞杂的信息中发掘有价值的数据是做好新闻报道的前提。在整理多项数据的时候, 需要保证多种数据信息的统一化, 把握主题方向, 使新闻报道条理清晰。面对大数据, 编辑者需要注意数据之间的内在逻辑性, 从深层次的方向去挖掘数据的意义。
3.3呈现数据的编辑能力
互联网下的新闻传播方式多种多样, 从单一的文字传播方式到文字图形结合以及到现在比较成熟的视频化数据方式, 新闻呈现方式更加丰富, 新闻内容更加具体生动, 人们可以更加全面地了解信息, 更好地避免了断章取义现象的新闻报道。网络上各种各样的视频不仅是公众主动参与新闻传播的表现, 也为新闻编辑提供了更加丰富的数据原材料。由于大众专业知识等各方面的差异, 使得其制作的视频数据更随意、娱乐化, 对此, 新闻编辑可以借助多种应用软件, 重新呈现数据, 从大众创作的元数据中挖掘深度资料信息, 将发生在人们身边的事情以更生动的形象呈现出来。
4.结束语
新媒体下的新闻播报方式产生了巨大的变革, 新闻的参与主体已经移向社会大众。新媒体的发展成熟, 对新闻编辑人员提出的要求就是, 不断学习, 不断丰富知识认知结构体系, 编辑人员的编辑是新闻工作的关键点, 所以, 新闻编辑工作者需要打好专业知识这个地基, 不断顺应时代顺应大众的变化, 随时做好创新工作, 具备更高的文化素养, 促使编辑观念的彻底转型, 在新编辑观的引导下促进新闻媒体的优质发展。
参考文献
[1]张立芹.大数据时代新闻编辑的创新能力[J].新闻研究导刊, 2015 (01) .
[2]张炯.基于数据新闻学的编辑理念与编辑能力的创新研究[J].中国编辑, 2015 (01) .
大数据时代的小数据的阅读答案 篇5
○2小数据就是个体化的数据,是我们每个个体的数字化信息。比如我天天都喝,突然,有天喝完酒了胃疼,那么这天和之前的每一天有何不同?原来,这天喝的酒是个新牌子,可能这就是导致胃疼的原因。这就是我生活中的“小数据”,它没有大数据那样浩瀚繁杂,却对每个人的个体至关重要。
○3第一个意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔·艾斯汀。艾斯汀的父亲去年去世了,而早在父亲去世之前几个月,这位计算机科学教授就注意到老人在“数字社会脉动”中性号异常——他不再发送电子邮件,不去超级市场买菜,到附近散步的距离也越来越短。然而,这种逐渐衰弱的状态,在医院的心电图中是看不出来的,这个90岁的老人在检查时并没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显发生变化。这种日常小数据带来的生命讯息的警示和洞察,启发了艾斯汀,他发现小数据可以看作是一种新的医学证据,它是唯一的“your row of their data”(他们数据中属于你的那行数据)。
○4也许人们都知道,大数据将改变当代医学,譬如基因组学、蛋白质组学、代谢组学等等,不过由个人数字跟踪驱动的小数据,同样可能为个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全、私人地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通讯,这些数字追踪将得到一幅只属于你的健康自画像。
○5【 】譬如我们可以分析年老父母的集成数据,用于比较不同的医学治疗方案:如果患者想要确定适合自己的服药剂量,就可以通过数字跟踪数据前后比较,了解不同剂量的药物对自己日常功能的影响;对于慢性病、抑郁症、记忆力衰退等病症,日常活动变化的数据同样非常重要。长期以来,攻克癌症一直使人们的梦想。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化,大致相同的基因变异只占患者的10%。也就是说即使是同一个肿瘤,其细胞的变异也可能是不同。所以,利用患者的.数据进行个性化的癌症治疗,不是“对症下药”,而是“对人下药”。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,所以“小数据”也可以有大作为的。
○6有人说,个人小数据汇聚起来不就是大数据了吗?从大数据里面取出相关的小数据就可以了吗?其实不然,小数据是隐私的,不能共享的,而且它是动态的变化的,着些特征使得小数据不能与大数据混为一谈。
○7当然,这并不是说大数据就不重要,在医学上发现某种疾病治疗的一般规律都离不开大数据。也就是说,依靠大数据可以得到一些规律或普遍现象,而用小数据小数据去匹配个人,表现个性化特点。不过,大数据流行,大家就只谈“大数据”,这显然不是做学问该有的态度。(文章有改动,作者闵应骅系中国科学院计算技术研究所研究员)
【问题】
14、根据上下文文意的连贯,以下填入第○5段横线处最恰当的一句话是( )(3分)
A、的确,小数据可以在很多研究领域中完全替代大数据。
B、那么,运用小数据进行研究到底有哪些成功的案例呢?
C、那么,肖书记可以为我们提供多少研究的可能性呢?
D、那么,小数据和大数据到底哪一个的作用个更突出?
15、对上文理解正确的一项是( )(3分)
A、作者认为我们每个个体而言,大数据太过繁杂,小数据却和我们生活息息相关。
B、第○3节以艾斯汀父亲的例子具体说明了个体化数据因无法检测而在医学上价值不大。
C、根据第○5节所列的数据可知:肿瘤细胞在癌症病人体内发生基因变异的可能性并不大。
D、第○7节告诉我们:大数据远比小数据重要,因为借助它能够发现疾病治疗的规律。
16、联系上下文,第○5节中加点词语“对症下药”是指【 】,而“对人下药”则是指【 】(4分)
17、结合文本,判断下列不属于“大数据”的一项是( )(2分)
A、小明具有A型血做任何事情都条理分明、十分细心认真的特点。
B、感冒一般鼻塞、喷嚏、头痛、咳嗽、咽喉红肿等明显症状。
C、小宝宝一般4到10个月开始出牙,最晚2岁半出齐全部乳牙。
D、为了怡情养性,小红以一杯绿茶代替了原来每天喝的咖啡。
18、上文花了大量篇幅介绍小数据,那么题目能否改成“小数据”呢?请作出判断并简述两点理由。(5分)
答:【 】。(1)【 】;(2)【 】。
【参考答案】
14、(3分)C
15、(3分)A
16、(共4分,每空2分)针对癌症的一般规律进行治疗考虑到每个病人的个体特点,借助“小数据”进行个性化治疗
17、(2分)D
18、(共5分)不能改(1分)
理由(1)从①②④节可知,本文不是简单地介绍小数据,而是要说明大数据背景下小数据的重要性;
(2)结合⑥⑦节可知,文章还点出了大数据与小数据在特性功用上的差异;
大数据时代的数据观 篇6
摘 要:在教育领域中,管理和决策越来越依赖于数据和分析,如何利用大数据科学决策是高校近年来信息化建设关注的主题。文章分析了高校共享数据中心平台的理论知识和相关技术,讨论了面向服务的数据交互技术方法及共享数据中心的非技术因素。最后分析设计了面向主题域的常熟理工学院共享数据中心,并对其体系架构及关键业务系统的数据流向做了详细的分析叙述。
关键词:大数据;数据交换;数据中心
中图分类号:TP392 文献标志码:A 文章编号:1673-8454(2015)10-0010-03
大数据科学决策是高校治理体系和治理能力现代化的关键。在教育领域中,管理和决策越来越依赖于数据和分析,而非基于经验和直觉,然而,目前大多数高校的管理模式中信息化的作用尚未充分体现,尽管在长期的办学过程中积累了大量的数据,但这些宝贵的决策信息资源没有得到相应的整合和开发,更谈不上利用这些数据对学校的教学、科研、管理等各项事务进行预测和分析。随着大数据发展而带来的教育政策研究与决策“用数据说话”的趋势亦渐明显,构建共享数据中心,将这些海量、分散、异构的数据资源集成起来达到共享、融合,通过多维度、多层次、多群体、多因素数据分析并形成一定的应用模式,从中分析和挖掘潜在的价值,去解决高校事业的瓶颈问题,是将大数据应用于教育领域的重要举措。
一、大数据时代的高校共享数据平台的相关技术及理论
1.信息编码标准
信息编码标准是做好信息管理的基础,信息只有遵循一个统一的标准进行组织,才可能构成一个可流通、可共享的信息库。信息编码标准是数字化校园中不同层次的系统尤其是应用系统能够相互访问的基础。数据交互过程中,各业务系统数据信息要按照信息编码标准的数据标准进行数据清洗和过滤,处理后的数据才会存储到中心数据库。信息编码标准是学校信息化建设的必要条件;同时信息标准的水平也反映了学校信息化建设的水平和高度。
2.共享数据模型
共享数据中心主要完成学校各类跨地区、跨部门、跨系统的管理数据与信息资源的数据交互和共享,是各个业务系统数据交互的中转站,是信息资源的存储中心。由于各学校早期的信息化建设基本都是由业务部门主导,缺乏统一规划,没有统一标准。同时考虑成本以及推倒重来的建设风险等因素,一般建议采用交集数据中心模式建立共享数据中心,即:各系统间的数据交互完全通过数据中心来完成;共享数据中心只对交互系统之间需要交互的数据建模,各系统沿用原有的权限模型,需要交互的数据在相关系统中独立的存在,但所有数据有且只有唯一的维护源头。
二、大数据时代的高校共享数据平台总体设计
1.共享数据中心体系架构(图1)
(1)数据采集层
采集的数据主要包括基础数据,如人、财、物等基本信息;学校开展教与学主体事务的业务数据,如教师教学、学生选课等;体现教师学生成长与发展的过程数据等。数据采集层主要完成上述相关数据的采集工作,其中大部分数据随着其相关的业务系统日常运作过程而积累下来,还有一部分是相关管理人员手工录入,或者电子表格批量导入。
(2)数据集成层
数据通常存储在很多个不同的数据存储系统中,从所有源中提取数据并将其合并到单个一致的数据集中确实有一定的难度。数据交换工具通过转换功能对数据进行清理、标准化及转换,数据转换为兼容格式后,就可以将其物理合并到一个数据集中,并且数据在合并成功且应用转换后,通常会被加载到一个或多个目标。
数据集成层同时还负责加载数据库中的维度表和事实数据表,处理 Analysis Services 多维数据集和维度,使用 Integration Services 任务和转换来自动处理更新多维数据集和维度,使用户始终获得最新的数据。
(3)管理操作层
管理操作层的基础数据主要来自各个业务系统,有的统计指标类数据是经数据仓库加工提供。管理操作层面向教育治理者日常管理,主要包括师资队伍建设管理、师资结构分析、学业预警、教学考核等。归纳如下:
为满足日常管理,提供了以固定报表为主的综合报表统计平台。
为便于突发性和临时查询需要,提供了各大主题的综合查询平台以及基于数据仓库的灵活查询功能。
为规范对外数据报送,提供了统一的对外数据报送接口。
2.主要业务系统数据流向
共享数据中心本身不会产生数据,所有的业务数据的维护遵循数据生命周期按照“谁产生,谁维护”的原则,各自业务系统分别产生数据,所有数据只有唯一的生产源头。共享数据中心与各业务系统之间进行交互,一方面保证基础数据在各系统中的一致性,同时也对主要业务数据进行积累沉淀。
以学生数据为例,学生的人头数据以学籍系统为准,而学生的其它基础数据又在学工系统中维护完善。数据共享中心既负责从学籍系统中抽取学生人头数据推送学工系统,同时又从学工系统中抽取完整的学生基础数据存储在数据中心,图书系统、一卡通系统等业务系统从共享数据中心订阅学生相关数据。其主要业务系统数据流向如图2所示。
三、共享数据中心的非技术因素
1.数据质量管理
数据是高校有效开展信息化管理和辅助决策分析的依据,是实现高校治理现代化的重要保障,因此其质量和时效性已经越来越受到高度关注。提高数据信息的质量,加强数据管理,不仅需要在高校日常工作中充分利用现代信息技术,强化高校业务与信息技术的融合,还要依靠广大师生的配合参与,必须循序渐进,稳步推进。
(1)从源头治理,从数据录入、内部处理入手,把好数据质量“入口关”;
(2)督促问题治理,部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”;
(3)做好规范管理,完善制度、规范流程、系统硬控制,把好数据质量“流转关”。
2.数据安全管理
大数据既意味着机遇,也蕴涵着挑战。数据安全管理问题,是高校应用大数据面临的最大风险。虽然共享数据中心模式数据管理,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。在使用数据过程中应遵循以下原则:
(1)使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据混淆。
(2)对生产用户进行严格的授权管理,防范非授权访问生产数据。
(3)含敏感信息的生产数据应使用专用邮箱传输等。
(4)对生产数据建立和实施严格的备份机制。
四、总结
在大数据的支撑下,高校运行过程的各种元素能够实现数字化的呈现,数据得到实时流转、存储和整合,信息按照权限充分公开。大数据能够聚焦于决策对象的微观层面,将原本模糊的现象通过数据逐步清晰的描述出来,大数据是超越个体与局部的相对静态视野,更容易发现问题所在、可能弱点和盲区的宏观动态视野并且用于各项事务的预测和决策。本文讨论了面向服务的数据交互技术方法、数据流向以及一些非技术因素,设计了面向主题域的共享式数据中心。本共享数据平台成功应用在常熟理工学院数字化校园建设项目中,通过数据交换、主题分析,为学校的科学决策提供了有力保障,推进了学校的现代化治理能力和水平。
参考文献:
[1]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].电子科技,2015,(2):127-130.
[2]陈瑞.大数据时代基于共享平台的信息服务工作研究[J].科技创业月刊,2015,(1):20-22.
[3]赵巍,刘丹,王欢.高等学校共享式数据中心设计与实现[J].长春理工大学学报(自然科学版),2015,(1):132-135.
[4]陈霜叶,孟浏今,张海燕.大数据时代的教育政策证据:以证据为本理念对中国教育治理现代化与决策科学化的启示[J].全球教育展望,2014,(2):121-128.
[5]张建.教育治理体系的现代化:标准、困境及路径[J].教育发展研究,2014,(9):27-33.
[6]阎光才.高等教育治理体系与治理能力的现代化[J].苏州大学学报(教育科学版),2014,(3):1-3.
大数据时代的数据观 篇7
一、大数据到底有多大
大数据(Big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助经营决策更积极目的的资讯。[1]通常用来形容大量非结构化和半结构化数据 ,具有4V特征 :一数据量 大(Volume),计量单位 从TB (1024GB=1TB) 级别跃升 到PB (1024TB=1PB)、EB (1024PB=1EB) 乃至ZB (1024EB=1ZB) 级别;二类型繁多 (Variety),包括文档、音频、视频、图片、地理位置信息等;三价值密度低(Value),信息海量,但价值密度较低;四速度快时效高(Velocity),1秒定律,与传统的数据挖掘技术有着本质的不同。
那么大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
国际数据公司(IDC)的研究结果表明,2008年全球产生的数 据量为0.49ZB,2009年的数据量 为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。如果将这些数据存储于光盘,这些光盘可以堆成五堆,每一堆都可以伸向月球。预计到2020年,全世界所产生的数据规模将达到35ZB。
这些庞大数字,意味着什么?它意味着,一种全新的价值观、方法论和通往未来的钥匙,它的价值堪比石油和黄金。因为面临的不再是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。有专家提出,人类93%的行为都是可以预测的。更重要的是,通过找出一个关联物并监控它,就能读懂历史的规律,寻找到通往未来的钥匙。[2]举例来说,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
二、大数据时代下的大档案观
所谓大数据时代是一个数据更加全面的时代,通过大数据技术的应用,便可更加容易攻克之前由于数据缺乏而无法涉足的领域,比如档案领域。从大数据的思维来看,档案馆是当数据退出现行活动,但仍然对单位和社会有价值时所存放的地方,被赋予了新生命,成为大数据存储的平台。实际上,当档案馆收集各式各样类型的数据且其数据量增长至PB时,档案馆可能是一个单位中第一个含有大数据的数据库。对于档案工作者来说,数据的管理是我们对未来应尽的责任。
2012年3月,美国奥巴马政府宣布“大数据的研究和发展计划”。旨在通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。其中,为十亿电子记录(CI-BER)的网络基础设施是一个联合机构主办的测试平台,这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录的文件和信息的收集,可称为计算研究所的文艺复兴。这个试验台将评估技术和方法,超大规模数据收集,以支持可持续的访问。
2013年10月国家档案局杨冬权局长在全国数字档案馆(室)建设推进会上指出“数字档案馆(室)是大数据时代档案馆(室)的发展方向,是现代的新型档案馆(室),是对传统档案馆 (室) 的升级,是第二代或升级版的档案馆 (室)。档案工作是否现代化,我国能否成为档案强国,其显著标志就是看是否建成数字档案馆(室)。可以说建设数字档案馆(室),是实现我国档案工作现代化,把我国建成档案强国的一项迫切任务和重要内容。”
我国档案信息化建设已经持续二十年,从单机版管理到网络版管理,从目录数字化到全文数字化,从存量数字化到增量电子化,逐渐呈现出数据量大、数据类型多、数据需求快的大数据的4V特征,仅依靠数据库的查询检索机制由于运行缓慢已经不能满足现实的需要。大数据时代的来临相比其他信息技术则更加契合档案工作的需要,让处理海量的结构化和非结构化的数据成为可能,未来档案馆的发展方向将不可避免的实现全数字化档案馆。档案工作将呈现三大趋势:一是大档案,所有档案将有自己的数据形态;二是大技术,数字档案的管理迫切需要大数据技术; 三是大服务,将以需求为导向,向着智慧化、网络化迈步。所以作为保管大量数据资源的档案部门,应该跳出档案做档案,打破传统思维的禁锢,适时将档案资源转化为数据资源,尤其是覆盖社会大众的数据资源,建设大档案,应用大技术,实现大服务,充分运用大数据思维和技术推动档案工作创造更大的价值。
三、建设大档案———全面收集保存数据
“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实真相。”用《大数据时代》作者舍恩伯格的理论分析,在现代科技发达到能够存储海量数据的条件下,我们首先需要尽可能多地收集和保存数据,做到全覆盖,为我们的后代准确地认识历史真实面貌,进行科研生产提供尽可能详实的资料。档案是人类活动的真实记录,具有原始记录性的本质特征,与大数据强调的数据完整性和混杂性是不谋而合的,都注重原始数据的获取。档案工作其实就是一件遗憾的工作,我们永远不知道哪份文件以后要用,不知道哪些东西对明天的人有用,因此理应全面收集和保存好数据。[3]
1 、存量档案的数字化
目前,各级各类档案馆(室)的档案,大多是传统载体而非数字形态的,因此,档案馆(室)的首要任务,就是要把纸质等传统载体的档案进行数字化。这是一场硬仗,是一项工作量巨大的艰难任务,但同时也是一场革命,一次前所未有的突破,对于确保传统载体档案的安全、实现档案自动化管理、高效提供利用、节省日常工作、同社会上其他部门对接等方面具有显著意义。
首先,要下大决心。杨局长认为数字化最难点不在于找到钱来做事,而在于痛下大决心。档案数字化工作的最大困难在于“畏难”,如果心态是畏难的,那么,有了钱也无所为;反之,如果痛下决心,那么,没有钱也可以有所为。有条件的单位可以引进专业公司开展档案数字化,或购入数字化设备如大型快速扫描仪,聘请人员开展;无条件的单位可以用超额按页付酬、超额达到一定数量可以评先等一系列奖励政策,鼓励本单位各部门职工,利用工作和业余时间参与进来。
其次,要有大计划。一个档案馆保存的档案门类众多, 未必都具有一样的使用价值,有的门类利用率高达百分百,也有的无人问津,所以要优先数字化利用率最高、人民群众最需要或可以先开放的那部分档案,然后再处理其他档案,做到“常用先扫,以用定扫”,分门别类、循序渐进。举例来说,高校档案共有十三大类,但是每一类都各有特色, 在数字化进程中需要按计划行事,教学类中的学籍卡、成绩单、录取名册、毕业签领名册;行政党群类中的发文、收文;科研类中的奖状、证书、合同、课题;基建类中的施工、竣工图纸等,由于利用率非常高,应该是高校档案数字化的重心。
再次,要注意安全。第一是档案实体安全,在数字化过程中可以通过严格清点、扫完及时入库、全程录像监控、严禁携带档案出入、轻拿轻放等准则,确保一件不丢、一件不坏、一件不乱。第二是档案数据安全,要制定规章制度,确保档案数字化信息真实完整,不带出场外、不据为己有、不随意传输。尤其是涉密档案的数字化,经鉴定后必须由专人加工处理。对于外包给其他公司的数字化项目,要签订保密协议,封闭所有加工设备的下载端口,任何人都不能下载加工数据,确保任何数据不会外泄。
最后,要注重质量。不但要保证扫描后的数字档案内容完整、画面清晰,与原件一一对应,还要确保其具有法律效力。不能出现漏扫、错扫、扫描不清、扫描不全等情况。通过全程质量控制、全面质量检查等方法来确保数字化质量。
2 、增量档案的电子化
随着无纸化办公的深入,大部分新形成的文件都有电子版,应该按照有关电子文件管理标准及时归档保存,一方面避免新形成的电子文件散失无存,一方面也使新增档案将来不用再进行数字化,节省人力物力财力。因此,必须从源头开始抓,控制前端。
首先要认真梳理电子文件管理的标准和规范。研究确定文书、录音、录像等各门类电子文件归档范围和保管期限,明确电子文件归档和接收要求,保证归档或接收的电子文件收集齐全、整理有序、命名科学、格式规范、元数据合理有效。
其次将档案管理融入到本单位生产运行的各项系统中。举例来说,高校档案管理系统需要和OA办公系统、学籍系统、合同系统、设备系统、科技系统等多个业务系统接口,嵌入档案移交、接收功能,采取逻辑归档和物理归档, 做好档案数据的前端控制。如合同系统,与档案系统、报账系统建立实时接口,合同档案只有归档后,才能报账。在采购系统中嵌入采购档案管理模块,实时了解、控制采购档案的归档。[4]
四、应用大技术———高效管理数据
在传统的手工管理阶段,档案管理主要基于人工整理、编目;在计算机管理时代,档案管理主要借助档案管理系统辅助管理;在大数据时代,档案管理将是云平台上建设云档案系统,采取云计算。
管理大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。一直以来,档案数据管理采用的是关系型数据库,比较有代表性的就是IOE(I指IBM的服务器,O指Oracle的数据库,E指EMC的存储模式)模式,但是大数据时代,IOE模式显然不适合做大数据处理[5]。现在基于大数据技术的数据库,如SQL已经既可以做关系数据,也可以做空间数据、图像、数据流等非结构化数据[6],而且基于对象的存储架构可以在一个系统中管理十亿级别的文件数量,还不会像传统存储一样遭遇元数据管理的困扰[7],大数据技术为高效管理数据提供了解决之道。
五、实现大服务———智能挖掘共享数据
“数据价值的关键看似无限的再利用,即它的潜在价值,收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。”
《大数据时代》一书突破传统因果关系,提出关注相关关系。随着人类历史的不断延续,留存的信息数据越来越多,而人的时间是有限的,要在有限的时间中快速找到浩瀚资源宝库里所需要的信息,需要采取一定的技术和工具进行分析和挖掘。那么,档案工作者就应该承担起这份责任,利用档案资源进行数据挖掘,提炼所需的资讯,发挥数据应有的价值,这也是档案工作者未来的主要工作之一。
1 、数据挖掘技术
大数据的核心就是数据挖掘,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,通过分析每个数据,从大量数据中寻找其规律的技术, 主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式 (如可视化) 将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。[8]
基于大数据的数据挖掘技术,可以为档案馆实现网络信息服务的智能化、个性化、精品化提供支持工具,可以全方位的实现档案信息智能检索服务、档案信息定制与定题服务、档案信息决策服务、档案信息跟踪与推送服务,构建“数据—信息—知识—智慧”模型,真正实现“智慧档案”。通过大数据技术手段将彻底颠覆传统档案管理工作中的诸多弊端,将档案管理事业推向又一个全新的发展高度。
2 、数据共享平台
如果说数据挖掘技术让海量档案信息的利用更加智能化,那么构建档案共享平台将会提升档案馆的公共服务能力,让服务也更加智能化。
国家档案局今年开始建立全国开放档案信息资源共享平台,就是要打通档案信息社会共享、服务群众的“最后一节路”,让各级档案馆(室)的已开放档案在更大平台上,供更多人共享,发挥更大作用,推动以服务群众为主导的档案信息化体系的实质性建立。各级档案馆(室)对已数字化的档案,尚未放入数据库或局域网提供利用的要尽快放入数据库或局域网提供内部利用;尚未开展开放鉴定的要尽快开展开放鉴定,并把可开放的放入政务网或互联网供社会共享。
大数据时代的数据仓库建设 篇8
按照百度百科的解释, 大数据技术 (Big Data) , 或称巨量资料, 指的是所涉及的资料量规模巨大到无法通过目前主流软件工具, 在合理时间内达到撷取、管理、处理, 并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) 。显然上述解释仅仅是描述了大数据的一些特征, 对于企业如何开发大数据、利用大数据进行运营管理, 并没有过过多的指导。
本文建议传统企业在建设大数据系统的过程中, 不仅要建设数据分析平台, 更要构建起一个数据分析的生态圈, 让人人都是分析师, 让数据分析渗透到企业运营的每个环节, 真正实现数据运营、科学决策的管理模式。构建数据分析生态圈, 可以概括为“两个市场, 一个平台”, 两个市场是指业务数据市场、分析工具市场, 一个平台是分析观点分享平台。
2 业务数据市场, 让业务数据变得开放透明
业务数据是分析的源泉, 没有数据就谈不上大数据。企业经过多年的信息化建设, 一般都会有多套业务系统在运行, 如办公自动化系统 (OA) 、财务管理系统、ERP系统等不一而足, 但这些业务系统都是孤岛式隔离, 数据缺乏整合, 而且底层数据库都是经过专业设计, 复杂度较高, 非厂家技术人员难以使用, 通常都是利用定制报表的方式进行分析和使用。因此, 在利用数据上存在着数据提取难度高、报表需求响应慢、数据准确性差等问题。
产生上述问题的原因在于, 传统数据结构复杂, 对业务人员不开放, 利用报表的方式提供数据时, 需求人员期望的数据与技术人员提供的报表之间存在着巨大的鸿沟。建设业务数据市场就是将各业务系统的数据进行抽取、清洗、整合之后, 按照业务过程重新进行整合, 封装为统一粒度、统一维度的数据库表。这些数据表的特点就是能被业务人员所理解并解读分析, 这样业务人员可以在较早期就发现数据中间存在的问题。在建设数据市场的过程中, 有几点需要特别注意。
(1) 采用维度建模方法, 以“易懂性、易用性”为原则
业务数据市场的数据是供企业分析人员使用, 他们更多的是不懂技术的业务人员, 数据结构应该符合多数人的直觉, 而非像传统“三范式”那样, 需要借助复杂的ER图才能表述清楚。对于专业的IT人员, 尤其是要抵制将维度模型设计成“雪花模型”以节省数据重复、增加灵活性的诱惑, 从而带来模型复杂性的代价。
(2) 全面梳理业务, 实现数据的互联互通
传统企业的业务系统, 多数是烟囱式的软件系统, 若不在企业层面进行业务梳理, 就不能很好地对数据进行整合, 提取有价值的信息。在整合数据的过程中, 必须要有统一的维度才能有效实现数据整合, 比如统一的客户编码、身份证号等, 所以梳理企业层面的统一维度是实现数据整合的关键步骤。
(3) 分主题、稳步推进
企业运营涉及的业务过程众多, 眉毛胡子一把抓是不可能的。在建设企业数据市场时, 要根据企业的特点, 优先建设对运营最重要的业务, 尽快投入使用, 逐步完善, 比如一个销售类的企业可以先将订单业务整合起来。
如图1所示, 采用维度建模方法构建中间层数据结构, 可以大大降低数据的使用难度。以事实表为中心的中间层模型, 可以让业务人员将主要精力放在理解数据和业务上, 避免过多的技术细节所带来的技术门槛和恐惧心理。
将生产库的交易数据转换为维度模型, 必然带来非常大的数据转换工作量, 因此ETL过程就成了整个项目成败的关键, 选择或打造一个性能优良的ETL框架是系统的核心。笔者建议可以从选择开源的ETL框架开始, 图形化的开发框架会给研发带来极大的便利, 降低学习成本。图2为图形化的ETL开发框架。
3 分析工具市场, 打造适合需要的分析框架
数据是一座金矿, 但还需要依赖好的工具才能将金子提炼出来。直接分析原始数据虽然灵活, 但更加适用于高水平的人员, 对于大多数的一线员工, 应该提供更加易用的分析工具, 如报表、图表、报告等, 将业务指标以形象的方式展现出来。分析工具市场就是企业内部汇集分析工具的地方, 提供给员工根据自身情况使用。
分析工具市场包含两部分功能, 一是制作分析工具的开发平台, 一是运行分析工具的门户平台。在建设分析工具市场的过程中, 有几点需要注意。
(1) 分析工具市场建设
从技术角度来看, 分析工具市场可以找到众多的软件系统满足需求, 企业可以根据实际情况, 或采购、或使用开源, 搭建这么一套软件系统, 既能让企业自己定制报表、分析图表, 也能将制作好的分析报表展现出来。
(2) 分析工具的开发以企业自身为主, 外购为辅
分析工具与业务特点、人员使用习惯等因素紧密关联, 其需求变化频率高, 全部依赖外部厂家开发, 一方面费用较高, 另一方面需求响应也不及时, 可能等开发出来, 分析的需求却没有了。因此企业要培养自己的开发队伍, 可以利用数据市场中的数据开发出各类查询报表、分析图表等。
分析工具是数据分析环节最成熟、也是选择性最多的环节, 有非常多优秀的BI工具可供选择, 商业中的有Cognos、SAP等, 开源的有Pentaho、BIRT等, 但数据可视化仅是数据分析的起点, 要想将数据价值挖掘出来, 还需要数据分析人员对分析工具进行深入分析, 提炼出知识并进行固化和传播, 才能让数据发挥价值, 形成从知识到洞察的转换。图3所示为数据可视化图标类型。
4 分析观点分享平台, 让数据分析社交化
大数据时代, 在数据充裕的同时, 带来了有价值分析结果的匮乏。数据分析, 绝对不是高高在上的阳春白雪, 而是需要人人参与、百家争鸣的氛围, 要在企业内部树立人人都是分析师的理念。
分析观点分享平台的建设, 采用类似于朋友圈、微博等社交媒体的机制, 让每个人都有机会表达对数据的分析观点, 通过转发、评论机制, 让有价值的观点浮上来。在这个过程中, 分享观点的个人可以获得成就感, 转发、评论的人有参与感, 企业从中获取到对运营决策有价值的想法, 基于数据分析过程实现了科学、民主的决策。在建设分享平台的过程中, 有几点需要注意。
(1) 人员关注机制
由于企业运营不同于互联网, 存在着一定的封闭特性, 不建议采用微博关注的开放性, 而应该采用朋友圈类似的“关注-同意”的朋友机制, 避免不适当的关注带来的信息泄露。
(2) 分享范围控制
由于企业数据的特殊性, 员工在分析观点的时候需要控制分享范围, 避免机密信息的泄露。控制分享范围, 既要有人工控制, 也要从平台层面通过权限控制, 如财务数据的分享范围仅限某几个部门或人员等。
(3) 分享观点排序算法
综合多种因素对发表出来的观点进行排序, 以便让展现到每个人眼前的都是最符合期望的内容, 营造一个良好的分享环境, 避免劣质内容驱逐优质观点给生态圈带来的毁灭性打击。
5 实践
根据上述思路, 我们规划了一个数据分析平台的产品, 分为三个阶段进行演进, 即智能报表阶段、企业内部数据整合和大数据分析三个阶段, 遵循“整体规划、分步实施”的路线。在实际推广中, 引导客户优先解决现阶段最迫切的问题, 比如统计报表, 通过经营分析平台的构建, 充分调动每个人的积极性和能动性, 减少定制化工作的数量及频率, 有效利用企业经营中产生的数据。图4是数据分析平台的技术架构图。
如图5所示, 数据分析平台的第一阶段是“智能报表”阶段, 其重点是建设数据中间层、提供灵活的分析工具, 让企业的每个人都能参与到数据分析的过程中。因此, 产品的技术架构也就围绕着这两个目标进行重点建设。
其中, 数据建模和数据集市所用到的方法论就是本文第一节所提到的“维度建模”, 将中间层数据通过上层的数据分析工具开放给用户进行分析, 最终通过报表、仪表盘等形式呈现给各级人员进行决策管理, 实现数据价值的体现。
6 结束语
大数据时代的数据观 篇9
大数据的概念目前没有统一的界定。维基百科对大数据定义如下:大数据由巨型数据集构成, 这些数据所占空间大小是现在使用软件在可接受时间下难以合理处理的。Floridi指出, 大数据是指由工具、传感器、网络处理器、电子邮件、视频、点击流产生的大量、多样、复杂、分布的数据集或者由其他现在或将来能获取的数字化资源构成的。大数据是有相对性的, 是针对目前计算机处理的能力而言的。IDC (International Data Corporation) 界定了大数据具有的“4V”特征:Variety、Volume、Velocity和Vitality, 即多样性、大容量、高速度及时效性。目前, 由于网络发展迅速、范围更加深入, 使得各种数据拥有了更大范围、更低消费的集散场所。只需用很低的成本, 这些自动生成的数据即可做到存储与传送。可以说, 基础的资料和技术已经准备就绪, 大数据商业情报的时代已经到来。
2 新时代的情报变化
在大数据时代已经到来的时代背景下, 通过成熟的网络条件, 合作伙伴能够在闭合供应链企业间实现快速分享有利信息, 但是另一方面, 无处不在的智能设备却将周围环境中的情报有意或无意地上传、发布到开放的网际空间中。这之中可能存在大量的企业成员独自的私有情报, 他人能够通过大数据手段十分轻易地拥有这些之前难以或不可能获取的私有情报。这就说明, 在当代的商业活动中, 情报泄密、流失已经成为了不可避免的现实。因此, 闭环供应链中企业为提高自身利润, 不得不使用大量的智能设备进行监控以防止私有情报泄露。与此同时, 闭环供应链中这个成员企业也可以借助大数据分析手段收集、获取、分析其他企业的私有情报以获得私利, 原有的闭环供应链间契约平衡关系就被破坏了, 旧的情报网络体系将不复存在, 更新的竞合关系由此而生。这说明, 这种商业的合作是非常矛盾的, 但是迫于形势又必须要合作。
在大数据时代背景下, 情报信息组成成分也与之前变得与众不同, 其中对情报内容的语义单一、内容零碎、互相联系也迫使情报的组织方式亟待更新。在情报构成时, 数据挖掘、关联计算及做出可视图的情形日益普遍, 情报学已经从以往的收集后计算演变为更加科学可靠的计算机数学处理。通过大数据手段而诞生的新型情报组织内容有判断、储存、定义规范及其保安措施。因为情报学涵盖了各类与众不同的信息, 而大数据的揭示与组织的方法能够有效对零散的、看似无关的信息进行分析处理, 通过计算实现信息集成为一条一条完整有价值的情报。因此, 大数据技术可以有效迅速的帮助情报获取。
对于商业情报, 以前一家独占的场景几乎不可能再现。因为当前海量的数据已经不是个体能够消化的, 而且在当今各种智能设备的应用也使得保密难上加难所以, 为了情报的充分使用, 必须要进行合作, 而这个合作关系一旦形成, 便不再允许发生任何变动, 于是就形成了闭环供应链。闭环供应链中需求方不用知道这些繁重的数据是如何进入这条链中的, 只需要完成自己一环得到的任务——通知这个供应链自己需要什么, 剩下的事情交给这条供应链的管理者即可。假如有的企业成员不怀好意, 泄露了链中的关键情报, 系统也能够及时检查并发现。这样闭环供应链中的企业成员既拥有了自己已经就有的私有情报, 又从合作伙伴的情报分析中得到有用信息, 可谓一举两得。系统既保证成员个体情报的安全, 又使企业提高了生产效率, 而且供应链成员得到自身利益后更加乐意去合作, 整个闭环供应链得到良性循环发展。
3 闭环供应链的作用
闭环供应链整体情报系统在大数据中获得供应链中的制造商、消费者有用信息, 分析得到一件商品的工艺流程和用户偏好情况。将这些信息整合后交给制造商, 制造商只管“埋头苦干”即可。因为有反竞争情报系统, 生产者与代理商得到的只是用户和物流公司的供需信息, 所以限制了零售商与物流方面在运输、销售等方面偷取供应链中其他成员的应得利益。处于供应链中的负责销售的企业得到足够的用户需求后, 做到有的放矢。这样, 各个企业无需再为没有足够的情报资源而苦恼, 之后像过去那般进行情报战。不仅减少了企业之间的内耗, 而且成员企业可以更放心的把全部精力用于各司其职, 对整个经济发展是有很大好处的。
利用大数据的技术力量, 提供整条供应链都需要的信息进行获取和分析, 不断生成更加符合当前环境的情报体系, 将供应链变得更加强壮。同时, 一条一条闭环供应链的稳定发展又带来了再制造企业的崛起, 从而带动整个经济的发展。
4 结语
面对新的情报形式, 我们需要对此有清醒的认识:机遇与挑战并存。虽然时代变革, 情报获取的方式与情报拥有者早已与近代大相径庭。我们应该把握时代趋势, 具体情况具体分析, 这样才能做到保护我们的请保安全, 让自身更具有竞争力。
参考文献
[1]曾建勋, 魏来.大数据时代的情报学变革[J].情报学报, 2015 (1) .
[2]全小珍.论情报机构如何开展企业信息情报服务[J].企业科技与发展, 2012 (10) :1674-0688.
[3]程刚.可制造闭环供应链经济性分析及价值补偿机制研究[D].天津:天津大学, 2011.
大数据时代下信息数据安全的探讨 篇10
根据IDC (互联网数据中心) , 预计在2017年将达到530亿美元, 同时Google趋势反映出大数据的关注度, 表明我们已经进入到大数据时代, 所以各国在大数据方面提出了自己的发展部署。2012年3月, 白宫网站发布《大数据研究和发展计划》, 提出将通过收集庞大并且复杂的数字资料, 获得知识和洞见以提升能力, 并协助加速在科学上发现的步伐, 强化美国国土安全。欧盟启动了“未来投资计划”, 总投资3500亿欧元推动大数据等尖端技术领域创新。2013年9月中央政治局以实施创新驱动发展战略为题举行第九次集体学习, 主题之一就是大数据的发展情况。
1 什么是大数据
1.1 大数据的概念
顾名思义, 可将翻译为大规模数据或海量数据, 因为这些数据结构较为单一, 人们还能用传统的技术和方法进行分析和处理, 所以它并不能完全概括大数据的本质内涵。实际上大数据至今没有一个权威性的定义。麦肯锡称:”数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来”。亚马逊网络服务有一个简单的定义:“大数据就是任何超过了一台计算机处理能力的庞大数据量”。大数据在维基百科中定义为:”所涉及的数据量规模巨大到无法通过当前主流软件工具, 在合理时间内达到管理、截取、处理、并整理成为帮助企业经营决策更积极目的的信息”。综上意见, “大数据”被IDC定义为:为了更经济更有效地从大容量、高频率、不同类型和结构的数据中获取价值而设计的新一代架构和技术, 用它来描述和定义信息爆炸时代产生的海量数据, 并命名与之相关的技术发展与创新。
1.2 大数据的特点
目前, 较为统一认识的是大数据具有四个基本特点:第一, 数据量大。从TB级别跃升到PB或EB级别。第二, 数据类型多。比如视频、博客、图片、音频信息等。第三, 价值密度低。比如在连续不间断监控视频中, 有价值的可能就是一两秒。第四, 处理速度快。有些数据的实时性非常强, 需要很快的速度来处理。
1.2.1 数据量大 (Volume)
这是大数据的基本属性。根据IDC估计, 到2020年, 全球数据使用量预计将达到35.2ZB。使数据规模增加的原因有很多, 首先是迅速发展和应用的互联网, 比如, 社交网络、搜索引擎等网站、传感器及移动网络等都在不停的产生数据, 促使当前数据增长比以往任何一个时期都要快。其次是随着不同传感器获取数据能力的不断提高, 获取的数据也越接近于事物本身, 描述事物的数据量也会增加。最后是采样的样本不断变大, 以前是用少的数据量描述大事物, 这样得出结论可能不准确, 随着技术的发展, 样本数目逐渐接近原始的总体数据, 高数据量带来高的精确性, 可以从更多的细节来了解事物属性, 同时所需的数据量也会显著增多。
1.2.2 数据类型多样 (Variety)
这是大数据的重要特性。当前的数据存储、处理、查询都是基于数据格式统一、事先定义好的结构化数据。但随着互联网快速发展, 涌现出大量的非结构化数据, 由于非结构化数据没有统一的结构属性, 所以在存储时, 不但要存储数据还要存储结构, 这样增加了数据存储、处理的难度。目前人们上网不但要浏览新闻、网上购物, 还要发送微博、视频聊天及上传下载文件等, 那么这些数据大部分是非结构化数据。综上所述, 即将处于主流地位的非结构化数据量已占到总数据量的75%以上, 且增长速度比结构化数据快, 那么数据的分析和处理将面临挑战。
1.2.3 数据处理速度快 (Velocity)
大数据分析区分于传统数据挖掘的显著特征。随着微信、移动网络等信息传播、获取技术的不断发展, 数据的产生也更快速和方便, 产生数据的量也越大, 即呈新摩尔定律式的快速增长, 不断产生的数据也要求有相应的处理速度来匹配, 才能使得大数据发挥有效的作用, 否则快速增长的数据不能给解决问题带来优势, 反而变成一种负担。同时, 网络中的数据是不断变化的, 通常这种数据的价值会随着时间的变化而降低, 如果数据在规定的时间节点内没有得到有效快速的处理, 那么这些大量的数据就失去了其存在的价值。此外, 在许多环境中要求能够实时处理新增的数据, 比如在京东, 亚马逊、淘宝等电子商务网站中, 就具有很强的时效性, 大数据以数据流的形式产生、消失, 且数据量的产生表现形式不是一条直线形式, 而是呈现为波浪式, 这就要求对大数据的处理要快速、实时、持续。
1.2.4 数据价值密度低 (Value)
这是大数据的重要特性。从统计学角度看, 可以对传统的结构化数据进行采样, 然后进行抽象、分析和归纳等处理, 那么在进行采样时, 样本越大, 所得到的统计结果也就越接近于事物本身。但是对于大数据通常是直接采用全部数据, 由于省去了归纳和采样, 就包含了所有的数据信息, 保障了分析结果的可靠性, 但同时也带来了许多无用的信息, 所以大数据关注的非结构化数据的价值密度偏低。如果能将它们“提纯”并迅速处理为有价值的信息, 就相当于掌握了一把能够开启宝藏大门的钥匙。目前, 如何通过强大的机器算法更迅速地完成数据的价值“提纯”, 是大数据时代亟待解决的难题。
2 国内外开展的相关工作
美国政府由于意识到大数据技术的重要性, 所以将大数据看作“未来的新石油”, 把其作为战略性技术进行大力的推动, 于是, 在2012年3月宣布投资2亿美元资金启动“大数据研究和发展计划”, 大力改善和推动与大数据有关的政策, 组织和分析工具和技术, 以提升美国利用收集的庞大且复杂的数字资料, 提炼真相的能力, 协助工程领域创新步伐、加速科学, 转变教育和学习模式, 强化美国国土安全。
国内对大数据的应用主要集中在能源/制造、公共事业、金融等三大领域。2011年12月工信部发布了物联网“十二五”规划, 把信息处理技术作为4项关键技术创新工程之一被提出来, 其中包括了海量数据存储、数据挖掘、图像视频智能分析, 这都是大数据的重要组成部分。2013年11月国家发改委正式批复同意, 国家超级计算天津中心建设“面向新兴产业的大数据处理技术研发与应用”国家地方联合工程实验室。这也是目前国家发展改革委在大数据领域批准的第一家工程实验室。这些都说明了大数据得到了国家层面的充分重视。
3 大数据技术
大数据的核心思想是对数据采集、处理、加工、挖掘、分析等, 把数据资源转化为有价值的信息, 为政府部门、企事业单位和个人创造经济价值和社会价值。
3.1 大数据采集
随着互联网、云计算和物联网的迅猛发展, 传感器、RFID射频、移动设备及社交网络等方式所产生的各种类型的非结构化、结构化的海量数据, 要获取这些数据, 必须要解决针对大数据源的感知、识别、适配、传输、接入等技术。主要是提供大数据服务平台所需的虚拟服务器, 物联网资源和非结构化、半结构化和结构化数据的数据库等基础支撑环境, 重点要攻克分布式虚拟存储技术, 大数据获取、挖掘、分析等操作的可视化接口技术, 大数据的压缩技术、网络传输与大数据隐私保护技术等。
3.2 大数据存储
从海量数据时代开始, 大量数据的长期存储、数据迁移一直都是研究的主题。目前主要存储方式有:存储局域网络 (SAN) 、网络附加存储 (NAS) 、直接外挂存储 (DAS) 和IP SAN等。这几种存储方式虽然是不同时期的产物, 但是各有特色, 数据中心往往是根据要处理的数据对象和自身的服务器数量进行选择。此外, 最近这云端存储非常流行, 其实就是一种虚拟化的存储。所谓虚拟化, 就是将原有的服务器中的硬盘空间划分为若干个独立的小空间, 这样在一台服务器上就可以提供多种存储服务, 既节约存储成本, 又提高了存储效率, 也是异构数据平台的最好选择。
3.3 大数据挖掘
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、又是潜在有用的信息和知识的过程。海量数据挖掘一直是热点和难点, 也是一种决策支持过程, 它主要基于人工智能、数据库、模式识别、机器学习、统计学、可视化技术等, 高度自动化地分析大量数据, 做出归纳性的推理, 从中挖掘出先前未知的并有潜在价值的信息, 帮助决策者调整市场策略, 减少风险, 做出正确的决策。
当前非结构化的数据是按TB级别增长, 以至于达到PB、EB级别, 因此无法使用常规的工具或技术来处理。由于大数据的规模是不断在扩大的, 所以在数据挖掘过程中要考虑其增长带来的影响, 因此, 大数据的挖掘需要采用云计算技术和分布式挖掘, 目前较流行的且适用于各种类型的大数据挖掘工具是Hadoop, 这个工具具有高效、高扩展、高可靠性和高容错率等特点。
3.4 大数据分析
众所周知, 在全部大数据中, 大约有80%是非结构化和半结构化数据, 而被利用的数据很少, 大部分的非结构化数据尚未得到开发利用, 所以最重要的是对大数据进行分析, 只有通过分析才能获取很多有价值的信息。那么越来越多的应用涉及到大数据, 而这些大数据的属性, 包括速度, 数量, 多样性等都是呈现了大数据不断增长的复杂性, 所以大数据的分析方法在大数据领域就显得尤为重要, 大数据分析普遍采用统计方法来进行。统计与分析主要利用分布式数据库, 或者分布式计算集群来对存储于其内的海量数据进行的分类汇总和分析等, 以满足常见的分析需求。
4 大数据面临的机遇和挑战
由于大数据会给企业和组织带来有价值的信息, 所以会形成以大数据为中心的一个完整的产业链, 在这个链上的每个节点即会产生相应的价值。但由于大数据是个新兴的产业, 所以在技术不成熟, 人才稀少及安全方面都会有一定的挑战。
4.1 机遇
大数据打破了传统信息体系架构, 将数据仓库转化为具有信息共享和连接、流动的数据池。大数据技术使人们可以利用非结构化的数据类型, 分析出有价值的信息, 从而使企业组织更加高效和智能。
(1) 大数据的应用和挖掘成为核心, 将从多个方面创造价值。大数据从采集、传输、存储, 一直到数据的挖掘和应用, 在这一系列的过程中, 会产生出多个方面价值, 这将会影响企业未来的运营模式。
(2) 在大数据使用中, 安全尤为重要, 这为企业带来发展契机。随着移动互联网、物联网等新兴IT技术迅速发展, 有价值的数据无处不在, 这对信息安全提出了更高要求。同时, 基于大数据领域出现的产品与技术将为安全分析提供新的可能性, 信息安全贯穿于大数据产业链的各个环节, 这将推动信息安全产业的大发展。
4.2 挑战
大数据发展在面临重大机遇的同时, 也面临一些挑战。
4.2.1 信息安全问题
目前, 人们生活越来越多地与互联网发生关联, 每天产生大量的数据, 如何防止非法用户对数据被篡改或窃取, 这不是一个防火墙就能满足安全要求的, 而目前中国相关法律法规还存在许多空白, 互联网监管还存在一些漏洞, 所以必须采取专门针对大数据的安全保护措施, 以满足大数据应用带来的新的安全需求。
4.2.2 人才和技术问题
设计和实施大数据解决方案, 需要专业化技术和工具, 包括建模、统计学、自然语言处理和可视化技术。目前, 我国数据产业发展仍然存在一些短板, 如核心技术缺失, 相关工具软件少, 复合型人才匮乏, 政府数据开放程度低等。大数据产业的发展, 不能光靠炒概念, 而是要遵循市场规律, 努力的把短板补上。
4.2.3 数据存储的问题
目前, 所产生的数据量正呈新摩尔定律增长, 但就数据的保存和管理来说, 目前的技术改进并不大, 而数据的易失性风险却在增加。大数据的存储将会是一个非常严重而现实的问题, 但最后还是要依赖于硬件进行处理和计算的, 所以硬件的更新换代将是大数据发展的基础。
5 结束语
随着人们对大数据的认识不断提高, 数据也将被越多的企业当作一种无形的资产, 那么与大数据相关工具的研发也将受到企业的重视, 处在大数据产业链中各个结点也将受益, 也将逐步提高自身的素质及服务水平。
摘要:随着移动互联网、便携设备和云计算技术的发展, 人类社会进入了“大数据”时代。人类产生、获取、处理和存储的数据量正以指数级别增长, 这样改变人类的生活、工作和思维方式。伴随着机遇和挑战的同时, 也有大数据本身安全问题, 如何解决这些问题, 并挖掘出有价值的信息是具有十分重要的意义。
关键词:大数据,数据挖掘,关键技术,信息安全
参考文献
[1]马建光, 姜巍.大数据的概念、特征及其应用[J].国防科技, 2013.
[2]严霄凤, 张德馨.大数据研究[J].计算机技术与发展, 2013.
大数据时代的孩子 篇11
它能为大学生提供创业机会吗?
为此,记者采访了《O2O进化论》作者板砖大余(简称“大余”)。
“新菜上市,赐名免吃!一经录用,这道菜,免费吃一辈子!命名规则:能体现菜品特征、形象滴;好听、好记、有趣滴;转发到朋友圈,#我想吃这道菜一辈子#+菜品编号+您起的名字+寓意,最后截屏您的朋友圈回复到此微信账号即可……”
云南云海肴餐厅的一则微信给记者留下了深刻的印象。它让记者联想到大余所讲O2O中两个“O”(online和offline)的功能。O2O,既可以是线上(online)线下(offline),也可以是线下线上。线上的功能是营销出口和订单入口,通过这则微信开展的命名活动,本身就是一次营销活动——告诉微信用户将推出15道菜;微信用户把自己的命名发送至朋友圈,间接推广品牌,吸引潜在订单用户。线下的功能是体验入口和服务出口,对这则微信好奇的微信用户,有可能前往实体店体验新菜和服务。
此外,它还反映了O2O的一个核心概念:产品共建。15道菜并不是由云南云海肴独自完成的,用户们至少也贡献了菜名。
那么,O2O中的“2”是什么意思?
“数据,即信息。”大余给出答案。撰写新作《O2O进化论》期间,大余提前分享自己对O2O的想法,第一场在北京大学的分享会吸引了不少听众,不少人拍砖大余。大余收集听众的拍砖,修改新作,再分享再收集拍砖……听众对O2O的好奇心、拍砖的内容等就是数据,就是O2O中的“2”。
O2O,就是以“数据”为中心,企业和用户共建产品的过程。大余进一步解释,第一次分享会后,有企业向他咨询,有人与他分享看法,这些都促使他不断地完善新作的理论和内容,即数据。“所以,我的书是共建的,是参加分享会的人共同完成的。”为了表达对长期拍砖人的感谢,大余自掏腰包,买了200本自己的新书,送给他们。
如何获取数据?
通过线上和线下达到数据的有效沟通,让数据成为“有温度”的数据,而非只是一个冷冰冰的手机号码,或注册号。
《大学生》:为什么O2O是数据革命的“蒸汽机”?
大余:传统商业产生于工业革命,机械生产工具的诞生,驱动厂商投资,厂家提供标准+非标准商品,市场是价格交换型的,社会中营利性组织居多。
互联网商业产生于信息革命,生产工具是互联网,这个工具极端地用无价格(免费)交换的方式驱动自组织的参与,促进分享的产生,主要提供虚拟+实物商品。
到了数据时代,人们将通过云来制造,通过移动终端进行消费,数据所代表的消费者(微数)成为核心竞争力。在这个时代,数据不再是字节,而是一个个真实存在的消费者,有其动机、角色、行为和需求。
小米手机建立电子商务网站,营造销售火爆的氛围,积累了大量的用户数据;小米论坛收集大量的用户反馈意见,形成研发共建;为了加强和米粉之间的沟通,小米开米粉会,提高温度……小米以免费的手机提供回报微数,让米粉以最低价格获得最优质产品。小米的所有动作都在让微数具有温度,而非传统思维的“忠诚度”。同时,小米在线下的产品打造上,即手机功能、硬件和体验的投入上丝毫没有减少,雷军亲自拜访一流硬件制造商,洽谈合作。同时,小米推出自己的MIUI操作系统,让用户定制界面。对于线上的体验,小米更是不遗余力,在微信上的1元预订活动(1分钟售卖15万部手机)等,都在不断创造线上的体验与互动。
仔细分析发现,小米本质上抓3项工作:线上的销售与体验、线下的产品创新与体验和让数据具有温度。这些正是O2O的核心,就像蒸汽机成为工业革命的内核一样。
小米手机、电视占据O2O个人和家庭入口后,小米推出的豆浆机是在向物联网的方向发展。换言之,小米手机将远程遥控豆浆机,这是比较简单的未来生活产品形态。
记者手记:在餐饮业,云南云海肴如同小米一样,异曲同工地实践着O2O,它定期开发时尚菜肴,近期把《舌尖上中国2》移入了菜单;线上它不断让食客的食欲升温,两个门店每天提供10份华子鱼让食客们垂涎三尺;线下它也不断地举办活动,植物学博士和餐饮研发总厨联手解读云南食材,他们能演绎出什么新奇搞怪的故事,这让食客们浮想翩翩……
《大学生》:O2O如何改变其他行业?
大余:服务业首当其冲,其他的产业也都如此,所以我提出了一个观点:要么O2O,要么死。O2O是大趋势,不实施O2O企业以后很难生存。
从逻辑和技术上,连锁店铺都可以O2O。比如成都社区零售店红旗连锁,推出App替代从前的电话送货服务,依托其西南地区数百家连锁店、物流、商品体系的积累,采用App订货升级也是简单的事。
沉寂了很多年的农庄种植也是直接受益者。我写书是在青城山的一个农家院,一边听晨钟暮鼓、雨声,一边写作。累了喝口当地的茶,饿了从地里拔几棵青菜水煮也是美味。相信有不少人向往这样的体验和生活。我对房主说,她完全可以通过O2O开展农家院的生意,稍作包装即可,即开辟“青城山之旅”的微信,将吃饭、住宿等条件发送到微信上,提供青城山旅行的服务。
海尔已选择独立开发CRM(客户关系管理)平台,开发完之后,分销商、代理商和服务商们,售卖产品时请用户扫描二维码下载“尔信”App,服务商上门时也请用户下载App。实际上,海尔只需给用户一定的价值,比如,未来可以通过“尔信”召唤上门维修服务,通过线上购买、产品打折等就可以让用户欣然下载“尔信”。三五年后,如果海尔的“尔信”能聚合9000万的海尔顾客,意味着海尔可以在网上实现新闻发布、新品发布、客户服务订单分配、送货和服务上门的时间定制等一系列服务。这是一个假设和演绎结果,即海尔实施O2O战略。
O2O的玩法,本质是数据,更是思维新体验。
nlc202309020155
《大学生》:O2O反映了怎样看待世界的思维?
大余:90后天然地具有未来商业的思维。
90后的一个典型特征是活在当下,它响应了未来商业管理中的一个重要战略原则——过程性决策。什么意思?过去,品牌是企业打造的一个结果;现在,品牌只是一个过程。60后70后做营销谈判时,先调研,再集思想、写报告、定步骤。90后不这样,他们活着都很high,突然间被一个东西触痛或感动了,他们感觉到了一种变化,就立即反应,抓住变化或机会。90后的计划性远远落后于60后70后,但是活在当下——即时反应的能力却远远高于60后70后。这正是即时决策。
所以,品牌是一个过程,经营也就是一个过程。
2010年以前的消费者,更像60后70后工业时代的思维;2012年以后的消费者,更像90后的消费思维。工业时代的思维是计划、控制;未来是即时、反馈,像生物一样被戳痛了就立即会反应。当这种思维的表达方式是数据时,速度得有多快!数据,不是数字符号,更是信息。现在,大家都在讲大数据,但要是把它理解成海量、多变、分杂、低效能,永远也找不到大数据的内核。
其实,大数据的内核就是人性。
90后更能掌握大数据的内核,因为他们是大数据时代的孩子。我提出:向90后学习。我害怕90后,根本不知道他们想什么。害怕有一天,90后走过来,说:“哥,我把你‘革命’了。”其实,之前他并没有把谁“革命”的意识,不针对任何个人,只是埋头做他们自己的事。90后就这么可怕,他们的思维是全新的,是数据时代的思维。
O2O只是一扇门,门外是工业时代的思维,门内是数据时代的思维。借助O2O会发现:哦,战略即风险,品牌就是过程中的口碑,销售是服务,消费者即员工,市场就是云市场,这不是工业时代的样子。
《大学生》:数据时代也会对大学生的技能提出新要求,具体是什么?
大余:即时感知、即时决策教育,这与当下的应试教育差别很大。
对大学生的技能而言,这将是天翻天覆的变化。核心将是由硬技能转向软技能,我用五点总结对软技能的要求:
美的鉴赏力,对风物人情的精准感知力,由于好奇心的敏锐发现力、参与感、讲故事的能力;行为和行动过程像行为艺术,永远即时,只要人活着品牌就在成长;随时随地讲故事的能力,因为个人是自媒体;行动力极强;具有冒险和创新精神,愿意付出,愿意把握机会。
这就要求大学生们会玩、会参与、要诚信。前几天,我的二女儿出生。未出生前,我微信群里的一个朋友说:“我开盘口,赌大余生女儿,赌资100元,赌输了赔钱,赌赢了就拿这笔钱给大余千金买纸尿裤。”我觉得挺好玩,就把这条信息发到其他微信群,嚷着:开盘口了!我这样做也属于即时决策——活在当下的现实感。这对反馈能力和速度要求极高,对于创新力和感知力也要求越来越高。除了能玩会玩,大学生必须能参与有合作能力,要是抱着“老子天下第一”的态度就没人与你玩了。此外,网络开放、多节点,这对诚信提出了更高的要求。
在O2O时代,个人能量越来越小,但是,反而对个人的技能和专业要求越来越高。
《大学生》:O2O给大学生提供了什么样的创业机会?
大余:未来10年,是中国创业黄金期。
过去,创业对学生不利。比如,想开一家店,会发现装修需要三五十万元。大学生没钱啊。O2O恰好给有才华的大学生带来了机会。为什么?O2O的核心是“2”,是数据,是人性,是人格。这是商业的软体(软实力),是与顾客间的认同度。90后大学生做到这一点不难。
我们的公司“调果师”(大余是联合创始人)在官方网站上公开写着:“公司投资开店,你来经营,你享利润,并发放创业期的生活费……如果你是85后、90后的文艺范儿吃货,那就来认识调果师知识长板砖大余,一起创业吧!”我们提供免费创业平台,硬件不重要,重要的是你有能力,等你的店铺赚钱了,我们再谈分成的问题。
未来,类似调果师的项目很多。餐饮服务、移动互联网穿戴设备等,都是大学生基于O2O模式用互联网思维创业的行业。其实,都不用跟90后讨论O2O,因为,他们的思维天生就是O2O。O2O只是数据商业的工具和思维方式,90后只要扎实地做好用户的问题,做出来的创业肯定就是O2O。
《大学生》:O2O对大学生就业和创业有没有陷阱?
大余:未来的企业家都是明星,创业者打造品牌,必须有极度的宣泄能力。我相信这在未来肯定存在。
过去是价格的商业,未来是价值的商业;过去是物质的商业,未来是物质+精神的商业。企业家都是明星,人格化魅力很强。如果有明星不怀好意,他的企业就会宗教化、传销化。这是未来最大的陷阱。除了需要企业家明星们有良知外,大学生也要有敏感度。具体来说,未来的企业员工具有高度自由,企业对员工的控制性的动作将减少,不控制员工时,如何让员工具有向心力?那就是文化。这种文化具有3个特征,一是“灯塔”作用,二是“导师”功能,三是“资源和资金提供方”,这看起来企业管理就像风筝,管理者手上没有线,只依靠思想的归附,这就是类似宗教化的管理。这种类宗教化管理如果被用来不诚信,就会成为宗教,成为传销。
研究并践行O2O,大余自称源于一段“孽缘”。
大余,70后,湖北人,在互联网界绝对是名人,因擅长“拍砖”,被冠以“板砖大余”。大余也牛得很,除了财务,企业经营管理的其他头衔他有太多。大余曾经以为聪明过人,也得意地自认为创业必成功。第一次创业,大余玩了十五六个月,把公司卖了,成功退出。这多少增添了大余创业必成功的霸气。第二次创业,大余栽了,栽得很重,住进了医院。时间和健康都不可以重来,这是大余信奉的,然而,二次创业让他失去了这两个宝贝。大余真的难受,他不停地叹气——为什么我这种人创业还会失败?
大余不服气,他一定要找到答案。
憋在家里是找不到答案的,身体康复了,大余就去一家公司上班。这可是风投投了上亿美金的企业,不料,它的管理比大余的二次创业公司的还要乱。大余找不到答案,郁闷的他几次想到自杀。
像大余这样的人,自杀是万万不可的,娇妻爱女可不能撒手不管。也许是上天的眷顾,有一天,一位朋友的太太,《第五项修炼》作者彼得?圣吉的爱徒,把导师彼得?圣吉观察世界500强和欧洲顶尖公司后总结的9句话告诉了大余。如下:
变革推动者的结盟(Connection of change agents)
越来越多的人离开大型集团去寻找意义(More and more people leave large groups to find meaning)
内外部网络的形成(Networking internally and externally)
跨职能工作,敏捷流程(Cross functional work, agile processes)
学生及企业的软技能(Soft skills for students and inside companies)
员工就成长与变革承诺投入(Commitment of employees for progress and change)
智慧型消费者(Intelligent consumer)
新市场,新的复杂性、合作设计和开放式创新(New market, new complexity, co-design and open innovation)
使用新的IT工具,向新员工传播长者的知识和技能(Transmit knowledge from ancient to new employees using new IT tools)
从中大余看到了自己曾遇到的问题,也同样看到了公司的问题。
就这样,经过两年的摸爬滚打,大余恍惚大悟——原来不是大余不聪明了,而是商业的游戏规则发生了改变。大余找到了答案——未来是数据商业时代的全景图,并完成了处女作《O2O进化论》。
大数据时代以“数据”说话 篇12
一、根据图表数据分析变化趋势并写出相关结论
同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价,不能随意得出结论.
例1测得某市2月份1至10日最高气温随日期变化折线图如图所示.
(1)最高气温为2℃的天数为____ 天;
(2)说出该市这10天气温变化趋势;
(3)根据图表写一条有关的结论
【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2℃,所以最高气温为2℃的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句“最高气温呈上升趋势”来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况相符.
解:(1)最高气温为2℃的天数为3天;
(2)这10天最高气温逐步上升,但不稳定,有升有降;
(3)最高温度比较低,要做好防寒防冻准备.
二、根据样本数据估计总体情况
当同学们收集了一些数据以后,这些数据往往通过图表的方式呈现,有时看起来有些困难,这就需要整理数据,在掌握所有数据的前提下,对看起来杂乱的数据要进行必要的归纳和整理,从数据中提取信息,并根据实际问题的需要,从样本数据的数字特征出发,对总体的数字特征进行估计,体会用样本估计总体的思想;从而进一步认识到抽样调查对于解决一些实际问题的巨大作用,体会到统计知识与生产和生活实践的紧密联系.
例2初中学生骑电动车上学的现象越来越受到社会的关注,为此某媒体记者小李随机调查了市区若干名初中学生家长对这种现象的态度(态度分为:A. 无所谓;B.反对;C. 赞成),并将调查结果绘制成图1和图2的统计图(不完整). 请根据图中提供的信息,解答下列问题:
(1)此次抽样调查中,共调查了______名初中学生家长;
(2)将图1补充完整;
(3)根据抽样调查结果,请你估计某市市区80 000名初中学生家长中有多少名家长持反对态度?
【难点分析】双统计图问题是考试中常见的题型,就是在一个题目中利用两个不同类型的统计图描述数据. 本题中出现了条形统计图和扇形统计图. 从条形统计图中能清楚地看出数量的多少,便于相互比较. 扇形统计图是以整个图代表统计项目的总体,每一统计项目分别用图中不同的扇形表示,扇形面积占圆面积的百分之几就代表该统计项目占总体的百分之几.
解:(1)计算调查家长的总人数要根据公式总体=个体/个体所占百分比来计算. 从条形统计图中我们可以发现选择A无所谓的家长有50人,而扇形统计图中选择A所占的百分比为525%,则总人数50/25%=200(人);
(2)要先计算选择C的人数再画统计图,调查总人数为200人,选择A和B的人数分别为50人和120人,选择C的人数为200-50-120=30(人),在条形统计图中画出相应高度的矩形即可;
(3)要根据样本中选择B所占的百分比来表示市区所有家长选择B所占百分比,根据公式个体=总体×个体所占百分比,则选择B(持反对态度)的家长人数=80 000×60%=48 000(人).
三、利用数据分析提出合理化建议
在当今社会里,数据的收集、整理与分析已经成为信息时代每个公民基本生活的一部分. 要让同学们经历运用数据描述信息、作出推断的过程,培养统计观念,帮助同学们逐渐建立起数据分析观念. 因此,学习数据的收集、整理和描述就是教会同学们从生活中收集数据、描述数据、分析数据,利用数据对生活中的事件进行决策.
例3为迎接花博会,创建绿色常州,某学校环保小组随机调查了市区30个家庭一天丢弃塑料袋的情况,统计结果如下:
(1)这种调查方式属于普查,还是抽样调查?_________________________.
(2)常州家庭总数有40万户左右. 若根据30个家庭这一天丢弃塑料袋个数的平均数估算,则全市一天丢弃塑料袋总数约是多少个(写出解答过程,结果用科学计数法表示).
(3)通过该环保小组的统计和你的估算,你有何感想或对市民提一条科学性的建议!
【难点分析】第(2)小题是根据抽样数据估算总体情况;第(3)小题根据数据分析情况,提出合理的建议即可,但要把握住本题中“创建绿色常州”这个主题.
解:(1)这种调查方式属于抽样调查;
(2)样本平均每户丢弃垃圾袋个数:0×1+1×1+2×11+3×7+4×5+5×4+6×1/30=3(个).
40万户家庭总共丢弃垃圾袋数:3×400 000=1.2×106(个).
答:全市一天丢弃塑料袋总数约是1.2×106个.
【大数据时代的数据观】推荐阅读:
大数据时代的数据挖掘09-26
大数据时代的数据管理11-09
大数据时代的教育10-25
大数据时代的人才管理05-11
大数据时代的媒体融合05-13
大数据时代的企业决策05-14
大数据时代的终端安全05-15
大数据时代的应用研究06-12
大数据时代的思维变革06-16
大数据时代的CFO07-04