大数据时代的专利分析(精选10篇)
大数据时代的专利分析 篇1
摘要:本文主要介绍在大数据时代的浪潮下, 如何利用数据挖掘技术从世界上最大的技术信息源专利文献中挖掘有用的模式、信息和知识。本文指出了大数据时代下专利分析面临的三大难题, 重点对现阶段专利分析、专利评估方法进行了论述和比较。实践表明, 数据挖掘技术在专利分析应用十分重要, 对其深入研究与探索具有非常显著的研究意义与价值。
关键词:大数据,数据挖掘,专利分析
一、引言
21世纪, 世界进入知识产权博弈的时代, 专利大战不断在世界各地上演。专利的保护和应用已经构成人们经济活动中的重要内容。与此同时, 专利信息也步入了大数据时代, 目前全世界约有八千万件专利文献, 并以平均每年一百万件以上的速度增加。仅2011年, 美国专利商标局就收到超过406, 021件专利申请, 而我国同年申请量超过美国55, 905件, 占全球总申请量的28.16%, 位居世界第一。从2002年到2011年的十年间, 全球申请量由2002年的1, 190, 600到2011年的1, 640, 200, 增长率达42.75%, 而中国2011年的专利申请量是十年前的7倍, 增长率高达702.03%。面对海量的专利文献数据, 如何有效地从纷繁复杂的专利文献海洋中获得有价值的信息, 是一个亟待解决的问题。
二、数据挖掘在专利分析方法的应用
随着世界技术竞争的愈演愈烈, 各国企业纷纷开展专利战略研究, 而其核心竞争力就是专利分析。专利分析是指对各种专利信息进行加工组合, 并利用某些统计方法和技术手段形成相应分析结果的多元数据分析方法, 从而为企业的技术、产品及服务开发中的决策提供支持。
1. 专利分析的难点。
专利文献的分析存在着三大难点:其一, 专利文献文本的复杂性:专利文献不同于普通的技术资料, 专利文献不仅披露专利申请人的所发明技术方案, 更重要的是确定了专利保护范围。专利文献通常篇幅较长、用词生僻、囊括大量的法律词汇从而保护其发明创造的方方面面, 以至于人工阅读理解耗时耗力。其二, 专利文献数量巨大:目前全世界约有八千万件专利文献, 且以平均每年有一百万件以上的速度增加。仅以“数据挖掘”作为关键词, 在2000年以后公布的专利文献中, 与其相关的专利文献就超过1万件。其三, 专利文献的技术领域专利分析是一门跨学科的技术, 如何从海量的数据中获取到有用的知识, 挖掘出对决策者有用的情报、对研发者有启迪的技术、对专利律师有价值的证据等, 依赖于分析师具备多学科技术。
2. 专利分析的方法。
专利分析方法起源于1 9 4 9年, Seidel首次在Shephard引用规则 (1873年) 的基础上, 提出应用专利引文分析专利文献的重要性和影响力。虽然Seidel打开了专利分析的大门, 但由于当时人们的不重视和技术的局限性, 他的设想直到90年代初才被人采纳。随着信息技术发展, 数字化得普及, 专利分析法也正式步入人的眼帘, 专利分析的方法体系不断建立和完善。
数据挖掘技术的发展为专利分析提供了有力的技术支持, 目前数据挖掘已在专利分析领域广泛应用, 根据目的不同主要有5大类:1.专利文献评估, 2.专利文献自动分类, 3.专利文献推荐, 4.专利技术预测, 5.专利技术可视化等。
图1专利号为“US5758147”的引证分析图 (专利技术可视化) , 该专利标题为“并行数据挖掘的高效信息收集方法”, 是与“数据挖掘”相关的有记载的最早的专利申请, 于1995年由IBM公司申请。图中蓝色圈表示原专利, 红色表示归属IBM公司, 绿色表示归属微软公司, 紫色表示来自于学术圈。左图“在先申请”指的是该专利所引用独到的在先申请, 右图“在后申请”指的是引用该专利的在后申请。
三、数据挖掘在专利分析评估的应用
数据挖掘领域在专利评估中具有重要作用, 主要是通过算法研究和分析超链接引用关系。其中美国的Kleinberg提出的HITS算法和Google提出的Page-Rank算法在确定评估重要性方面非常成功。目前, 国际上较有影响力的专利评估理论及方法主要有:
基于关键词年龄的专利分析评估:IBM Almaden研究中心的学者们[1], 为了评估专利价值, 设计了名为COA (Claim Originality Analysis) 的系统。通过评价专利文件中的权利要求部分出现的“关键词”的“年龄”和“影响力”来分析这个专利文件的质量。其评价基于这样的理念:如果一个专利文件的权利要求部分出现许多“年轻”的和“影响力大”的“关键词”, 那么这个专利就有价值, 反之则这个专利价值不高。
关键词 (Key Word) 是指从专利文件中权利要求部分抽取出来的词语 (T) 。
词的年龄 (age-in-day) 词语从首次出现在同一类别4的年龄 (年龄中的专利文档到现在 (或者特定日期, 比如专利文献的申请日) 的时间。
影响力 (Support) 词语在随后的、同一类别的专利文献中出现的频率。
贡献度 (Contribution) 结合词的年龄和影响力来计算词语的重要性。
通过公式1来衡量一个词语的贡献度, 而如果一篇专利文献含有大量贡献度高的词语则认为该专利质量很高, 反之则不然。
基于“可检索性”的专利分析评估:基于专利申请文件的特殊的写作技法及撰写者撰写习惯不同, 使得有些文件很容易被检索出, 而有些文件很难被检索出。因此, 维也纳大学的Shariq和Andreas[2], 提出了“可检索性”的概念。
可检索性 (Retrievability) :指每篇专利文献d∈D在所有查询式q∈Q下, 其出现在前c个检索结果中的概率。
通过伪相关性反馈 (Pseudo-relevance Feedback) , 降低那些容易被检索出来的文件的“可检索性”, 提高那些不容易被检索出的文件的“可检索性”, 从而提高检索的准确度, 进而提高专利分析评估的质量。
基于“专利性”的专利分析评估:IBM日本研究院和日本东京大学的学者[3]提出了“专利性”的概念, 专利性 (Patentability) 指专利申请文件d被审查员审核通过而授予专利权的可能性。他们把这个问题定义成一个布尔分类问题, 即标签‘+1’代表该文献会被授权, ‘0’则不会授权。以1989年到1998年日本的专利申请为训练集, 结合“结构化”, “语义复杂度”, “词的年龄”等特征来训练分类器。实验部分用1993年到2007年的日本专利申请来验证, 通过其分类器来判断一个专利文献的授权前景的正确率超过0.6。
基于“核心专利”的专利分析评估:我国清华大学的学生学者们[4], 在IBM的COA系统的基础上, 结合Topic-model相关技术, 提出一种挖掘特定领域“核心”专利的方法。他们认为传统方法评价专利的“新颖度” (Novelty) 、“影响度” (Influence) 是有失公平的。比如一篇早期专利文献, 自然而然没有太多类似的专利出现在其之前, 而必然有类似的专利出现在其后。反之, 一件新出现的专利文献, 必然有很多专利在其之前出版, 而很少专利再其后出现。这样老的专利的“新颖度”、“影响度”评价过高, 而新专利评价过低, 所以“核心”专利应该是时间敏感的, 评价其核心程度应在这个领域技术发展的基础上。因此他们设计了衰减因子 (decay factor) 用来表示专利文献的范围, 通过两种传统时间窗口的方法实现它, 分别是矩形窗口 (Rectangle window) (见公式3) 和高斯窗口 (Gaussian windos) (见公式4)
其中Δt是两个时间点之间的差异, 例如两篇专利的申请时间差值, 而2σ是窗口的尺寸。随后在计算“新颖度”、“影响度”中引入衰减因子, 从而计算一篇专利文献总的得分, Score (d) =Novelty (d) .Influence (d) , 最终通过排序获得该领域的核心专利。
四、结论与思考
随着专利信息步入了大数据时代, 纯人工分析在这个信息超载的大时代下是不现实的。通过引入数据挖掘的算法与技术, 对专利文献各种专利信息进行预处理、加工、抽取组合、分析评估专利、生发分析报告以及多元数据的可视化展示, 从而为企业的技术、产品及服务开发中的决策提供支持。
基于专利文献的结构的严谨性、内容复杂性、文法的多样性, 使得纯粹将数据挖掘领域的技术应用于专利领域获得结果准确率仍然不能让人满意。因此, 如何将专利领域的专家知识与数据挖掘的技术有效结合, 是未来大数据时代的专利分析发展趋势。
参考文献
[1]Mohammad Al Hasan, W Scott Spangler, Thomas Griffin and Alfredo Alba.Coa:Finding novel patents through text analysis[J].In Proceedings of the15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 1175-1184, ACM, 2009.
[2]Shariq Bashir and Andreas Rauber.Improving retrievability of patents in prior-art search[J].In Advances in Information Retrieval, pages457-470, Springer, 2010.
[3]Hido Shohei, Suzuki Shoko, Nishiyama Risa, Imamichi Takashi, Takahashi Rikiya, Nasukawa Tetsuya, Id Tsuyoshi, Kanehira Yusuke, Yohda Rinju, Ueno Takeshi, et al.Modeling patent quality:A system for large-scale patentability nalysis using text mining[J].情报处理学会論文誌, 53 (5) , 2012.
[4]Po Hu, Minlie Huang, Peng Xu, Weichang Li, Adam K Usadi, and Xiaoyan Zhu.Finding nuggets in ip portfolios:core patent mining through textual temporal analysis[J].In Proceedings of the 21st ACM international conference on Information and knowledge management, pages 1819-1823.ACM, 2012.
大数据时代的城市规划响应分析 篇2
【关键词】大数据时代;城市规划;响应;以人为本
信息与通讯技术的发展引领了大数据时代的到来,大数据的概念可以简化为各种规模巨大并且无法利用手工的形式对其分析、解读、处理的大批量信息资料。大数据的运用势必会对传统城市规划方案的拟定与推行产生一定的影响,此时新的思维方式与方法应用到城市规划进程中,这是对大数据时代的响应。如何使大数据时代的实效性充分的发挥出来,这已经是城市规划工作者普遍关注的问题,本文将对其进行深入的分析与探讨[1]。
1.大数据时代在城市规划中发展的模式
1.1特征
大数据时代下各种技术能够对数据信息进行高效的处理进而使城市空间规划更具科学性,GPS等追踪定位技术的应用使规划者对城市的空间结构有更加全面、清晰的了解;大数据时代最大的特征是“大体积、大容量”,包含了城市发展的现实状况与特点,能够采集处理超大量的数据信息;
1.2发展形式
大数据时代的到来,使城市规划者积极地站在城市微观的视域下,对居民的日常生活活动进行整体的分析,从而落实城市空间规划与布局的工作任务[2]。在大数据时代背景中,城市规划者将目光放在全球定位系统、手机数据、网络日志以及公交刷卡数据等方面上,在其协助下建设出的城市规划模型更具直观性与科学性,此时的规划工作在对城市空间调整与分布时所提及到的行为方式更具规范性、合理性。
2.大数据时代中城市规划编制的响应
2.1实时化响应
在传统的城市规划工作中,先进计算设备与处理技术的缺乏降低了工作效率,且数据信息获取的周期通常是以年为单位。大数据时代的到来,使原有的城市规划状况逐渐向实时化转型,而实时化体现在数据资料收集方面的同时,也是城市规划响应的表现形式,换句话说,实时化响应是建立在大数据时代、城市规划基础之上的。此时多样化的信息通讯技术、处理技术自身的优势充分地发挥出来:这些技术提高了城市规划对数据收集、处理、分析的精准度与快捷性;使数据收集工作能够实现实时、有序的目标,并与城市规划进程同步运行。在数据库技术、计算机等现代化技术的协同配合下,城市规划者建立了高完整度的数据库,使得各类数据资料得到有序安放与保管;而对于那些近期收集到的新数据信息,相关设备对其进行筛选以后可以被直接输送到与之相匹配的数据库中储存,有助于城市规划者在最短的时间内采集到具有时效性的数据资料,以此提高城市规划模型的直观性与可靠性;
2.2多源时空数据的收集
在过去,城市规划者所获数据信息一般都是在问卷调查、统计年鉴或者是文献资料中提取出来的,数据样本容量小且不具典型性,难以在规划中体现实际参考价值。而在大数据时代导向下各种高端技术顺利的引用与应用,常见的有3S技术、云处理技术、数据挖掘技术等,这些技术的合理应用,拓宽了城市规划中数据资料来源的渠道,另外地形复杂区域时空间数据的搜集工作也不再是难题。而数据挖掘技术自身的性能又是特殊化的,能够将汇总的数据信息进行全面而深入的分析,剔除无实用价值的部分,为打造城市规划区域全景注入动力。例如,在对城市园林建设进行规划布局时,过去需要大量的人力资源去完成数据信息的采集工作,继而对其进行计算分析,而基于园林建设面积大数据处理技术的应用,海量的数据能够在极短的时间里被获取与准确的分析,这就为园林建设的科学规划布局提供了参考价值。此时的数据信息发挥了指导作用,使城市园林建设规划布局更具合理性。总之,多源时空数据参与到城市规划进程中,使城市规划、布局等工作彰显出全面性、合理性等特征。
3.大数据时代城市规划实施评价的响应
3.1静态向动态的有效转型
城市规划之所以能够从“静态、蓝图式”顺利的转型为“动态、过程式”,主要得力于相关技术的应用。在高端技术的辅助下,即使时空大数据多样化、数据信息繁杂化,但是当它们出现于城市规划方案拟定的工作中时,也不会对规划的精细度造成任何的干扰,并且还能够及时地发觉规划进程中数据信息存在遗漏、缺失等相关问题,为城市规划方案的及时调整与改进提供了辅助动力。大数据时代中城市规划在方方面面都能体现动态化的风貌,此时城市规划方案与体系的制定不再是“一次性”的,编写、规划、检验、改编、实行等环节始终处于循序运转的模式中,从而使得城市规划进程中所涉及到的各个子系统之间能够实现弹性互动的目标;
3.2以人为本的规划原则的落实与应用
在大数据时代背景中,城市规划不再以“空间为本”,而是积极地向以“以人为本”的方向转型,这主要是由于大批量数据信息的发源者为群众个体、数据更显多源化。此时大数据技术的应用,使每个居民所提供的数据得到全面而深入的分析,那么我们可以推断城市规划工作是卓有成效的。例如城市规划者参照该城市人口分布的疏密情况、土地资源使用状况等可视化信息,对公交刷卡数据、手机充值数据等基本信息的系统化进行分析,并在此基础上落实对城市规划方案的评价工作,明确城市在未来几年的发展趋势。容积率指标的应用,能够协助城市规划者快捷的完成对城市人口密集度、社会功能混合度审核与改进的工作内容,最终完成对设计效果考评的任务。
4.结束语
其实,大数据时代下,城市规划在众多方面都积极对其做出响应,提升了多维转变的可能性,例如“人工化”到“智能化”的转变、“分散化”到“协同化”的转变、“粗放化”到“精细化”的转变等。在大数据时代背景下,城市规划进程始终要坚持“以人为本”的规划原则,积极关注城市居民个体生活的品质,在先进技术的辅助下,早日落实城市规划信息化建设的伟大目标[3],为推进我国现代化城市发展的脚步提供动力支持,同时使我国社会主义市场经济健康、平穩、高效地发展与运行。
参考文献:
[1]席广亮,甄峰.过程还是结果?——大数据支撑下的城市规划创新探讨[J].现代城市研究,2015.
[2]秦萧,甄峰,熊丽芳,朱寿佳.大数据时代城市时空间行为研究方法[J].地理科学进展,2013.
大数据时代的专利分析 篇3
关键词:污水,设备,滤料,技术,工艺,专利,大数据
1 前言
随着我国对生态环境的重视, 全国《水污染防治行动计划》 (2015年4月颁布, 简称水十条) 《土壤污染防治行动计划》 (2016年5月颁布, 简称土十条) 和《大气污染防治行动计划》 (2016年5月颁布, 简称土十条) 及各省市相应的环保目标定位, 生态环境随着环保技术及产业发展将会得到极大的改善。要完成“十三五”规划和上述计划的目标, 必然要求我国尽快发展污水处理的高端研发和高技术企业, 加快工程实施和知识产权的推广和保护。本文旨在对近年我国污水处理技术行业的大数据进行分析, 为促进生态建设、环保研发和推动行业发展提供参考。
2 数据采集及分析方法
以百度搜索、百度高级搜索、百度学术搜索等百度搜索引擎进行公众媒体类的数据搜索和归集。
学术研究文献数据由中国知网CNKI数据库查询和收集。专利文献由国家知识产权局专利数据库检索和收集。CNKI数据库的第一层次检索以“污水”为标题检索词进行检索收集;次级检索对理工类数据及社科类数据进行检索收集, 或对行业或领域数据进行检索收集, 分设备、滤料、工艺三个部分, 同时也关注相应的理工类及社科类数据作为第三级检索, 最后以年度作为时间轴进行数据归集。次级检索词设置为:主题“设备”并含“污水”, 以“或者”关系做篇名检索。多个检索词的联合检索按数据库的检索规则覆盖所检索行业或领域。对本世纪以来2000-2015年共16年的数据按不同学科、行业或领域及时间进行归集、统计和比对, 并依之探讨对应领域的发展状况。
检索词设定参考了给排水领域机械类手册中的设备词汇。污水处理设备类数据检索和收集使用设备检索词组合。首先以污水设备为主题, 在全数据库进行全时段、全领域检索收集;然后进行次级检索。在“设备、装置、系统、控制箱、控制柜、机械、器、阀、槽、管、泵、车、件、网、板、闸、栅、塔”中分别通过搜索相应的文献量对搜索词的权重程度排序, 得到:设备、装置、泵、器、机、网、塔、槽等排序。为避免扩大检索词范围将导致非核心设备类的文献的混入, 以前6个关键词进行篇名联合检索和收集。污水处理滤料类的数据以篇名联合检索进行收集, 使用检索词组合“污水、滤料、分子筛、陶粒、MBR”。污水处理工艺处理类的数据以主题和篇名联合检索进行收集, 主题检索词为“污水”和“工艺”, 使用篇名检索“污水、应用”或“污水、方法”。文理科数据分类按CNKI总学术领域分类进行, 其中“信息科学”的新闻与传媒、出版、图书情报与数字图书馆、档案及博物馆等学科分为社科类数据。
专利数据按照国家知识产权局专利检索规定检索式进行检索。专利数据的检索和归集原则和技术路线与CNKI研发文献的数据库检索的情况相同。由于专利文献的检索方式与CNKI数据库不尽相同, 因此根据该数据库检索规则, 设备类数据收集的检索选权重较大的检索词“设备、装置、系统、控制箱、控制柜、机械、器、阀、槽、管、泵、车、件、网、板、闸、栅”作为检索词组合进行摘要检索;滤料类数据收集的检索使用“滤料、活性炭、分子筛、处理剂、净化剂、菌剂、凝胶、复合材料、絮凝剂、稳定剂、消除剂、膜、陶粒、粉剂、颗粒、微球、纳米球、陶瓷、海绵、过滤、吸附、催化、分解、降解”作为检索词组合;工艺类数据收集使用检索词组合“工艺、方法、应用”。年度专利数据的归集按专利公告日划分。专利数据无社科类数据归集分析。
数据归集使用检索词组方式独立进行, 数据集保持度各自检索独立, 之间不进行换算。由于跨领域和跨学科的情况存在, 各数据集有部分交叉, 因此本文统计数据为交集数据, 不为简单相加的集合。所收集的数据以Excel进行分析。本文大数据主要含盖中文数据资料。
3 结果
3.1 公共媒体数据
以百度为公共媒体搜索引擎, 不同的搜索时段和搜索方式可以得到相应数据。截止到2016年6月30日, 以“污水”为关键词, 用不同的百度搜索引擎进行全时段检索, 得到如表1所示数据。
单位:万条
3.2 学术数据
截止2016年6月30, 以“污水”为主题词通过知网学术文献全数据库全时段查询, 搜索到138207条结果, 本世纪以来 (2000-2015年) 116137篇信息 (污水处理学术研究数据, DAR) , 其中, 基础、工程、农业、医药类及信息科技中的无线电、电信、计算机、互联网、自动化类 (简称污水理工类数据) 107510篇、哲学、人文、社会、经济管理及信息科技中新闻、出版、图书、档案类 (简称污水社科类数据) 12282篇。其本世纪以来截止到2015年底的数据年度分布如图1所示。理工类数据和社科类数据之和超出总数据数的文献属于交叉学科内容。
DAR在2000年至2015年的分布显示, 在2011年前DAR每年都快速增加, 之后呈现起伏状态;其中理工类研发数据量占总DAR93%, 发展趋势与总数据所显示的基本一致;社科类研究比例较小 (11%) , 在2004至2007年之间出现过小幅度上升, 之后基本保持平稳。在DAR中, 设备、滤料、工艺等污水处理的数据占比各为8%、1%、7%。
以污水设备检索词组合通过知网学术文献全数据库全时段查询, 检索到10973条信息。本世纪以来 (2000-2015年) 查询到设备类学术文献8745篇 (简称污水处理设备研究总数据) , 其中理工类8229?篇 (占设备总数据94%) 、社科类782篇, 近年分布如图2所示。理工类数据和社科类数据之和超出污水设备总数据量的文献属于交叉学科内容。
以滤料检索词组合通过知网学术文献全数据库全时段查询我国污水处理滤料研究总数据及其理工类和社科类分项数据, 检索到污水处理滤料研究总数据1499条信息。本世纪以来 (2000年—2015年) 查询到污水处理类学术文献1394篇 (简称污水处理滤料研究总数据) , 其中理工类1399?篇 (约占滤料总数据100%) 、社科类5篇, 近年分布如图3所示。2000年至2015年间我国污水处理滤料研究总数据显示, 除2002年和2010年度各有一个大幅增长外, 其他年份研究呈稳定增长趋势。2015年有小幅回落。
以工艺检索词组合通过知网学术文献全数据库全时段查询我国污水处理工艺研究总数据及其理工类和社科类分项数据, 检索到污水处理工艺研究总数据9027条信息。本世纪以来 (2000-2015年) 查询到设备类学术文献7962篇 (简称污水处理工艺研究总数据) , 其中理工类7898?篇 (占滤料总数据99%) 、社科类83篇 (占滤料总数据1%) ;其近年分布如图4所示。
3.3 专利数据
以污水、污水处理设备、污水处理滤料和污水处理工艺等检索词组合通过专利文献全数据库全时段查询。由于数据库检索指令及其检索功能匹配程度不稳定, 搜索得到的数据出入较大。因此检索结果以检索数交稳定的数据集进行归集统计和分析。
自我国1985年实施专利法至今, 涉及污水处理的相关专利申请数约2.8万件, 其中授权专利约1.7万件, 专利授权率约60%。
本世纪以来 (2000-2015年) , 污水处理相关专利授权总数1.4万件, 占1985年以来全部污水处理相关专利总数的60%。其中, 2000-2015年污水处理设备专利授权数1.3万件, 占同期污水处理专利总数的93%;污水处理滤料专利占污水处理专利总数的39%, 污水处理工艺专利占污水处理专利总数的27%。污水处理专利总数据和设备类、滤料类和工艺类各分项数据及其近年的年度分布如图5所示。
4 结语
本文学术和专利的大数据都分为总数据和分项数据两个层次的数据。分项数据为所使用索引词组合为核心的数据群, 由于技术、材料和工艺都是多功能的、可适用于多种领域, 因此分项数据群之间存在交叉, 各分项数据之和大于总数据。因此, 本文所列数据和曲线应以相互交叉的交集数据使用, 而不是简单的相加关系。
以百度公众媒体信息量为例进行比较, 可以看出社会各界对污水很高的关注度;该公众媒体数据量比学术界和专利两个信息量之和高出3个数量级。特别是对环境污染突发事件、民众切身利益处理和政府职能等方面, 社会关注度很高。
DAR在2000年至2015年的数据分布统计显示, 其在2011年前每年都快速增加, 之后呈现起伏状态, 特别是2015年出现小幅回落。DAR中的理工类研发数据量占总93%, 对DAR起着决定性的作用。社科类研究比例较小 (11%) , 近年来基本保持平稳。在DAR中, 设备、滤料、工艺等污水处理的数据占比各为8%、1%、7%, 说明污水处理的核心技术内容占比很小。
高端设备制造是污水处理工程的基础和未来发展的驱动力之一。关键设备的国产化突破, 往往导致行业的投入减少。例如大型臭氧发生器的国产化, 使我国臭氧取代氯进行水处理的造价大幅度降低、氯次生污染也得以大幅度减小[9,10]。污水处理设备的大数据显示, 2000年至2015年间我国学术界对污水处理设备的研发力度除2009年小幅回落外, 基本呈逐年增加的态势, 在2015年, 又有所回落。设备理工类研发占94%, 决定了总数据变化趋势;社科类研究只占设备总数据的9% (其中93%为管理类) , 近年水平度保持基本稳定。
新材料的发展会极大提高相关行业的发展。高性能滤料除了过滤功能外还具有催化及生物群落发育和降解污染物作用, 不仅在污水处理中起支撑作用, 在给水排水领域都有广泛的应用[10,11]。大数据显示, 2000年至2015年间我国学术界对污水过滤材料和多功能过滤处理材料的研发力度总的趋势是逐年加强, 除2002年和2010年度有大幅增长外, 其他年份研究呈稳定增长趋势。2015年有小幅回落。社科类数据以管理类研究为主, 但比例很小。
污水处理由设备、材料、方法等各子系统综合配套后以所综合产生的最优处理效果的工艺系统完成。污水处理工艺的优化不仅提高排放标准规定内的污水排放质量, 而且也对污水排放标准尚未纳入的有害物质进行处理[12]。污水处理工艺大数据显示, 我国学术界对污水处理工艺的研发力度总的趋势是逐年加强, 社科类研发比例较小 (1%) 。
污水处理专利总数据在2009年前稳步增长, 近年来呈加速增长趋势。其中污水设备类专利占绝大部分 (93%) , 并决定了总数据的走势。污水处理滤料类专利约占污水处理专利总数据的39%, 其数量近年来加速增长。污水处理工艺属于更综合和更复杂的技术系统, 因此这类专利数量较少, 占总污水处理专利数的约27%, 一直呈平稳发展状态。
2015年, 我国知识产权局共受理发明专利申请110.2万件, 同比增长18.7%, 连续5年位居世界首位。共授权发明专利35.9万件。其中, 国内发明专利授权26.3万件, 比2014年增长了10万件, 同比增长61.9%[13]。污水处理专利2015年总数比2014年增长48%。污水处理学术研发总数据及理工类和社科类分项数据都在2015年比2014年小幅下降6%~7%。相比之下, 说明我国生产力转化效率在逆势而上。
污水处理关系到国计民生, 是可持续发展的关键点。近年来我国加大了环境治理的力度, 污水治理从社会关注、政策目标制定、科技发展、工程实施、标准提升、环境监察、法律法规配套和体制建设等方面全方位推进。本文的大数据显示:在世界经济低迷、我国经济发展进入新常态等不同的时期, 污水处理的研发力度基本稳步增长, 并且在理工类研发的基础上, 以管理为主的相应社会科学逐渐得到发展。这说明, 我国政府和企业对污水治理不仅没有受到经济下滑的影响, 反而逆势上扬, 持续加大对污水处理各领域科技和工程建设及软科学的投入, 使得污水处理产学研商得以迅速发展。近5年的大数据数量加速增长可以作为加速发展的印证。
从社科类数据占污水总数据11%的大数据比例评价, 今后一个时期政策和软科学应配套技术研究予以加强, 以全面解决当前面临的问题和“十一五”遗留的问题[15]。
大数据时代信息系统构建分析 篇4
关键词 大数据 信息系统 构建
中图分类号:TP393 文献标识码:A
互联网时代,设备互连,资源共享,UGC带来大数据。UGC是一种提倡个性化的使用互联网的新方式,它允许用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户,比如人们可以通过YouTube 网站分享一段家里萌宠的可爱视频,可以在博客上发表对于家庭生活,人际关系乃至国家大事的看法,可以在facebook上面发表时时刻刻的心情,与朋友保持互动等等。因此,除了传统的信息系统提供的数据,twitter、facebook、微博等信息社交网络应用的涌现,海量用户原创的内容带来了更大量的数据;移动互联网时代,随着移动智能设备的普遍应用,人们可以随时随地的进行信息传递和共享,用户行为进一步带来了大数据。当前,智能终端(智能手机、PAD、平板电脑、MID等)已经渗透到大众的生活当中,移动设备的普及正逐渐改变了人们的生活方式,激发出更多的移动互联网用户行为。人们更愿意让移动设备参与日常生活,运用手机上的应用和家人保持联系,动动手指就可以上网购物,这些用户行为产生的数据量将成几何性的增长;物联网时代,物理世界融入信息空间,十亿计的设备和物理环境带来的海量数据更是难以估量。物联网技术使得普通物理对象进入了信息网络,从而无限的延伸了互联网。在物联网中,数十亿的设备互通互联,产生数万亿的连接节点,物联网与云化的数据中心无缝整合在一起,产生以指数速度飞速膨胀的数十万亿GB的海量数据。在物联网中,由于更多的、混杂的以及关联度低的信息抽象为各种具有实际应用意义的用户服务,因此对信息系统的服务建模具有重要意义。
本文以物联网领域的信息系统为对象,研究信息系统服务建模与活动认知。为了建立有效的信息系统服务模型,首先分析物联网信息系统提供的服务。精准农业应用中,湿度传感器采集土壤湿度,根据湿度值进行智能的灌溉;智能楼宇应用中,温度传感器感知楼宇中的温度,系统可以根据上报的温度数据智能调整空调温度;智能交通应用中,各种传感器感知路口各个方向的车流量,智能控制相关道路的信号灯,从而有效引导对应区域的车流量。这类服务,都是根据采集到的环境量,进行分析、整合并决策,然后通过调节相应的控制器的操作来反作用于环境,从而提供智能服务,这类服务我们归结为应用服务。环境监测服务,大量环境信息,例如各种空气质量参数、图像以及视频信息上传至数据中心,便于用户随时获取;供应链管理服务,物品的详细信息以及流通中产生的大量数据存储在云服务的数据中心,用户根据每个物品的EPC(Electronic Product Code)码,则可快速查询物品的各种信息。这类服务主要为用户提供各种数据查询功能,我们称之为数据服务。本课题主要针对这两类服务展开研究。
信息系统既是大数据的重要信息来源,又是提供各种数据与应用服务的核心。大数据的数据量大、数据类型多样、价值密度低、处理速度快等特征也给构建更为合理的信息服务系统带来的多种挑战,针对两类服务—应用服务和数据服务,从模型建立、服务相关性检测、行为与活动认知、以及访问控制四个角度对大数据背景下的信息系统服务进行研究,相应的研究成果希望能够通过模型化的形式更加精确的描述信息系统中的服务,并使服务之间的冗余性、冲突性更低;对行为模式的学习与活动认知能够帮助构建更为合理的信息系统服务。各个异构信息系统之间频繁的信息交互、新兴网络的涌现对构建数据中心的访问控制战略提出了更高的要求,这迫切要求我们建立适用于海量数据的安全的动态的数据服务访问机制。由于海量数据带来繁多细粒度的服务。服务内部以及多个服务之间都会存在一定的关联性,比如服务规则的冗余性、冲突性,因此还需要对服务的相关性进行研究。进而对海量感知和操作数据的行为模式与活动进行认知和学习,从而便于生成和提供更加精准和人性化的服务。在数据建模的基础上,对数据服务上下文进行梳理与研究,提取数据和用户的可视性属性,实现更为灵活、安全、高效、扩展性强的数据服务访问。
参考文献
[1] 汪圣利.大数据时代指挥信息系统发展分析[J].现代雷达.2013(05).
[2] 杨小牛,杨志邦,赖兰剑.下一代信号情报侦察体系架构:大数据概念的应用[J].中国电子科学研究院学报.2013(01).
[3] 张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013(01).
大数据时代下的数据分析探究 篇5
关键词:互联网,数据挖掘,大数据,数据分析
1 我国现阶段大数据分析发展状况
由于只有对数据进行准确的分析和整理辨别才能够真正获得其中所隐藏的价值, 所以数据分析是处理数据的重中之重, 大数据当中的信息数据量是相当巨大的, 这就对信息数据的储存分析和查询提出了更高的标准与要求, 从实践的视角来讲想要进行大数据分析就要从对传统数据分析方法当中寻找和摸索出一种全新的分析模式, 找出致使实际状况发生的根本原因, 并利用预测和模型对其进行优化, 进而能够在多个行业领域当中不断创新和完善。近几年来“大数据”这个概念在各个行业领域当中被媒体不断提出, 然而我国的“大数据”分析还属于刚刚起步的阶段, 从现阶段我国所有行业当中只有很少数的一些行业和现代企业单位对大数据进行了初级的分析与应用, 在进行业务决策的过程当中将大数据分析结果来当作依据, 我国大数据分析主要运用在保险和银行及电商领域当中。目前在大数据分析技术方面, 已具备比较成熟的数据分析技术如现有的信息数据挖掘技术与商业智能技术, 并且被很多行业所运用, 特别是在电商行业当中运用该种技术对大数据进行分析, 进而使行业总体的运行效率得到提升的同时对行业总体的经济效益也起到重要的促进作用。从信息数据的来源层面来考虑, 在实际当中很多企业都是对其自身所具备的累计数据进行分析, 进而解决所出现的问题, 而且针对问题本身来搜集相关信息数据, 并没有运用互联网当中的大数据来分析自身问题, 并没有发挥大数据的真正作用和价值。
2 大数据的分析模式和分析技术
大数据具备“多源异构”的特点, 对大数据进行分析就是对数据进行逐层降维并归纳与分析的过程, 以数据收集根源来划分可以把大数据要处理的分析数据分成以下几种类型。
(1) 在每一个网站当中用户的浏览和点击量, 各种类型网站和网页当中信息内容的变动, 通过各种搜索工具当中各种词语的搜索次数, 网络实施监测信息数据等。
(2) 通过对这些数据的分析能够对用户的日常行为活动, 对计算机网络系统所进行的操作和系统正常运行的状态进行了解和分析。
(3) 通信领域当中的个人信息通话地点时间及各种信号指令信息数据。
(4) 我国社会当中的各个行业领域当中所统计出来的信息数据。
由于这些信息数据的来源是各不相同的, 是非结构化的信息数据, 对这种模式进行分析的特征为:在互联网当中所产出的各种信息数据, 主要被运用在创建搜索引擎利用搜索工具对信息数据进行检索处理, 伴随着互联网技术的迅猛发展, 大数据分析搜索引擎和出现可以高效在巨大容量的信息数据当中提取出具备一定价值的重要数据, 日志数据是计算机用户日常浏览互联网络与记录计算机系统的日常运行而生成的, 对其进行分析能够依据具体状况使计算机系统得出的结果更具智能性, 分析网站数据及日志信息的模式基本相同, 皆是对数据进行细密的分析继而获得具备价值的数据, 此种处理模式被叫作“离线批处置模式”;在通信行业当中的数据分析, 分析人员通过对信息数据的细密分析进而实现总结查询与归纳, 同时在短期内得到最高价值意义的数据信息, 进而能够有效提高用户体验, 同时保证体系的交互性, 此种分析模式被叫作“查询式分析”模式;对我国经济比较重要的行业领域当中各种类型的数据进行监控的模式被叫作“实时数据分析模式”。
数据分析作为处理大数据的核心, 以往传统的数据分析都是对结构型数据进行分析, 基本程序为:将结构化数据储存到数据库当中, 以此为依据建立数据信息库, 根据问题的实际需要建立相关立方体继而进行综合性的分析, 这种分析方法分析结构化数量较小的数据时比较高效, 对于大数据来说就会出现诸多的问题, 所以有关技术人员研发出了Hadoop技术, 并在分析大数据当中更得到了广泛运用, 该技术是以Java分布式密集信息数据处置与分析为基础的一种软件框架, 用户能够在不熟悉分布式底部细节的状况之下研发分布程序, 进而利用其集群的力量来进行高效的运算与数据的储存。
3 挖掘数据所运用的方法
进入大数据时期以来挖掘数据是非常重要的工作, 大数据挖掘就是在不够完全的、海量的、不清晰的、随机生成的巨型信息库当中挖掘出具备实际价值和意义的信息数据的过程, 还是一个为决策提供支持的过程, 是以人工智能及模式及机械学习和统计学等多科学课为基础来实现的, 挖掘大数据的主要方法包括分类和聚类与回归分析法等方法, 这些挖掘方法从多种视角对大数据进行挖掘。 (1) 分类挖掘, 这种挖掘方法就是将数据库当中具备相同特征的数据进行分门别类, 这样做的主要目的就是建立起分类模型, 进而把数据库当中的数据项反映到既定的类别当中去, 比如淘宝网的商铺通过对用户在一个阶段当中所浏览与购买的商品数据类别进行划分, 向用户推荐有关的商品, 进而提升浏览点击量和销售量。 (2) 聚类和分类挖掘法基本相同, 不同点在于二者的目的不同, 聚类是对数据的相同点与异同点把数据分成不同的种别和类型, 同一种类的数据之间存在较大的相同点, 不同种类的数据相同性较小, 跨越类别的数据不互相关联。 (3) 回归分析就是对数据库当中信息数据的特征和属性进行分析, 利用函数对信息数据进行表达, 进而反映出属性值之间互相依存的联系, 这种方法比较适用于对数据序列进行预测和有关关系的分析当中。
参考文献
[1]王悦.数据挖掘技术探讨[J].信息科学, 2012 (6) :12-18.
大数据时代的专利分析 篇6
作为最早提出“大数据时代到来”的企业, 麦肯锡公司曾指出:“大数据已渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来[1]。”继云计算、物联网、移动互联网之后, “大数据”作为信息技术领域又一次颠覆性的技术革命, 已经在金融、医药、交通、海洋等各个行业以及物理学、生物学、环境学、药学等科学领域广泛应用[2]。
然而, 如何从海量并貌似杂乱无序的数据中揭示内在规律, 挖掘有用信息, 进而通过辅助决策系统、专家系统等进行科学的决策, 是大数据时代面临的重要科学问题。尤其是对这些纷繁复杂的数据进行科学的分析, 实现“数据—信息—知识”[3]三个层次的提炼, 正是“数据分析”课程主要研究的内容。
“数据分析”课程是国内绝大多数高校在信息与计算科学等信息类专业的本科生开设的必修课/选修课[4], 是“概率论与数理统计”课程的后续延伸及应用, 也是“数据挖掘”课程的先修课程。“数据分析”课程主要介绍了数据分析的基本理论与方法, 详细叙述数据分析中线性回归分析、方差分析、主成分分析、典型相关分析、判别分析、聚类分析和Bayes分析等重要的分析方法。虽然“数据分析”课程可看作数理统计学理论与方法的综合应用, 但其更注重实际的应用问题解决的全过程, 从中得到有价值的信息与知识。
在大数据时代下, 大量数据分析处理需求大大助长了各行业及企业对统计、计算机背景相结合的人才的需求[5], 如数据分析师、数据工程师、数据科学家等等, 迫切需要同时掌握数据分析的基本理论与数据分析具体技术, 并且能够通过计算机软件 (SAS、SPSS、Eviews等) 对数据进行分析与处理的复合型人才[6]。通过“数据分析”课程, 学生将初步掌握数据分析的基本理论与方法, 培养和锻炼利用实际数据来分析、解决实际问题的能力, 这些技能将对学生升学深造和就业工作, 具有非常重要的意义。
本文在对“数据分析”课程多年的观察与教学的基础上, 对本科阶段“数据分析”课程存在问题进行深入剖析, 并给出一些初步的建议。
二、存在问题
然而, 笔者在最近几年的授课过程中, 发现“数据分析”课程在学生的学习过程和能力培养方面容易存在以下问题:
1. 理论课程难度较大, 造成学生学习困难。
“数据分析”课程作为“概率论与数理统计”、“高等代数”等课程的后续课程, 需要学生对数学类专业课有比较扎实的基础与深入的理解。如“数据分析”课程中的回归方程的显著性检验方法, 需要学生已经掌握“概率论与数理统计”的多元正态分布的定义和数字特征、假设检验等内容, 同时具有“高等代数”的矩阵运算 (包括矩阵的加、乘法, 求逆阵, 计算特征值和特征向量等) 的基础。同时, “数据分析”与“概率论与数理统计”课程在内容上也是有所差异的:前者强调从实际数据中挖掘尽可能多的有用信息, 属于后者的理论与方法的综合应用。因此, “数据分析”课程的理论难度较大, 对于学生学习提出了很高的要求。
2. 动手能力要求高, 考验学生的编程能力。
“数据分析”课程的知识点不仅仅停留在理论推导上, 对于已经建立的数学模型, 需要借助与计算机对大批量的数据进行处理, 尤其是常用的统计软件在汉化过程中, 不能很好地解决专业术语的翻译。因此在运用计算机软件解决实际问题时, 对学生计算机编程能力和专业外语知识要求也很高。如在SAS中, 有一整套的编程命令, 以命令的方式来建立数据集, 并对数据集进行操作, 甚至在实现某些分析算法 (如Box-Cox变换) 的时候, 还会调用到选择语句和循环语句。学生往往处于被动学习的地位, 只能按照教师的指导, 运行一些简单的程序, 如仅仅敲打书上例题程序, 缺少实验过程中的动手分析、设计和测试环节, 无法发挥学生的积极性与创造性。这样的实验很难让学生体会到实际的数据处理及编程环境, 学会解决编程中碰到的意外问题, 因此难以激发学生的实验兴趣, 从而降低了教学的效果。
3. 对于计算机运行结果, 需要较高的分析问题能力, 考察学生分析能力。
很多同学能够通过计算机调用统计软件中各程序模块的运行, 但仅仅能达到验证结果的目的, 往往对计算结果中所包含的统计学等深层次的含义知之甚少, 更不必说从中提炼出有用的知识。如很多同学知道某统计量的假设检验概率值p<0.0001, 仅表示出现的概率极小, 但不知道其假设条件, 故无法做出统计推断与检验。如此将计算机工具与数据分析强行割裂, 使得学生分析问题的能力很难得到提高。因此, 对于计算机运行结果, 需要较高的分析能力, 找出其问题的本质。
三、课程建议
鉴于上述存在问题, 笔者对大数据时代下“数据分析”课程进行了探索, 提出了如下建议:
1. 建议“数据分析”课程紧密衔接“概率论与数理统计”、“高等代数”等数学类基础课程。
在授课过程中, 根据学生情况, 逐步深入难度。课堂讲授理论学时建议在48个学时以上, 可确保知识的系统性和正确性, 可对教材中内容完整讲解。对于定理的证明, 建议通过黑板等传统手段仔细推导与讲解, 对于部分超出课程要求的繁难的理论证明可以略去或改为学生自学。如在典型相关分析的过程中, 对于典型相关变量和典型相关系数的求法, 可以先给学生讲解有关结果;尤其是计算矩阵平方根的逆矩阵, 着重讲解算法过程。例题和习题的选取, 一般建议选取具有实际背景的观测数据。通过这些例子的分析, 使学生了解数据分析方法的具体应用, 体会数据分析的全过程。有条件的学校可以通过微课视频等形式, 将“数据分析”各个知识点制作成微课, 供学生反复观看使用。
2. 建议增加实验学时, 培养编程动手能力。
建议“数据分析”课程安排上机实验学时不少于16个学时, 选择对常用统计软件 (SAS、SPSS或Eviews) 的一种进行仔细讲解, 使用SPSS或Eviews, 其图形界面可以帮助学生理解复杂的过程, 使用SAS可以让学生了解SAS的编程语言和语法结构。有条件的高校, 建议采用英文版的软件, 可使学生熟悉统计学的专有名词, 为今后的进一步阅读外文文献提供帮助。笔者在实际教学过程中, 结合SAS 9.4展开介绍, 上机实验学时为16课时, 可以使学生有足够的时间进行例题和习题的操作练习。在安排上机的过程中, 根据学生的具体情况, 开展如Box-Cox变换等SAS程序的阅读与编写, 加深对该变换算法的理解和该变换本质———满足线性回归模型的假设条件的理解。
3. 建议增加课程大作业, 实现数据综合分析。
课程大作业可以让学生接触到一个完整的分析问题、解决问题的过程。对于本科生来说, 建议指导教师给出一些具体的题目, 如大城市雾霾天气的影响因素、景点游客满意度等。这些热点问题更容易激发学生的学习兴趣。在大作业中, 鼓励学生通过调查问卷或查阅相关统计年鉴, 以获得相应的原始数据, 并从实际数据中不断挖掘尽可能多的有用信息以及希望从数据中得到的知识。根据计算机运行结果, 进一步分析数据特征, 学会从原始数据到有用信息再到科学知识的一个提炼过程。最后, 通过同学讨论与发言以及教师的点评, 来帮助学生培养分析问题和解决问题的能力。如针对大城市的雾霾天气, 请查找相关数据, 对可能的形成原因进行分析, 提出合理的假设, 并对治理雾霾天气提出合理化建议。可让学生查阅雾霾出现的时间、温度、湿度以及相关的工农业生产指标进行分析, 进行主成分分析等, 尝试寻找导致雾霾的主要原因。
四、结束语
随着移动设备和各类传感器的普及, 数据量已经从TB级跃升到PB、EB级乃至ZB (1ZB=10~21Byte) 级别, 大数据时代已经来临。面对如此惊人的数据, 对于数据的分析和挖掘需求已变得十分的迫切;同时, 充分利用大数据所带来的信息, 如何充分利用这些数据, 使其为国家、企业决策乃至个人服务, 是今后很长一段时间内科学研究和工程技术领域的重要内容。
在这种时代背景下, “数据分析”课程作为信息与计算科学等相关专业的一门重要课程, 将在很大程度上培养学生的数学思维与计算思维, 提升学生的分析与解决实际的问题能力, 增强学生在升学深造和就业工作时的核心竞争力, 更好地融入到大数据时代中去。
摘要:大数据时代下, 迫切需要从海量的数据中揭示内在规律、发掘有用信息、帮助人们科学决策。这正是“数据分析”课程研究的基本内容。本文分析了信息与计算科学等本科专业开设“数据分析”课程中存在的一些问题, 从教学目标、教学内容、教学方式与学时分配等方面, 提出了“数据分析”课程的一些建议及初步探索方案。
关键词:数据分析,大数据,课程探索
参考文献
[1]页川.大数据时代背景下挖掘教育数据的价值[J].中国远程教育, 2013, (4) :94-95.
[2]董志清, 廖正琦.《多元统计分析》课程的教学体会及探讨[J].重庆文理学院学报 (自然科学版) , 2010, (2) :82-84.
[3]董梅生.提高应用统计学课程教学效果的几点体会[J].安徽工业大学学报 (社会科学版) , 2011, (3) :119-120.
[4]梅长林, 范金城.数据分析方法[M].北京:高等教育出版社, 2006.
[5]向程冠, 熊世桓, 王东.浅谈高校大数据分析人才培养模式[J].中国科技信息, 2014, (9) :138-139.
大数据时代的职业教学改革分析 篇7
一、当前职业教育的教学过程中大数据应用现状
大数据,是在互联网技术发展的阶段中出现的一种数据处理方式,云计算是它的核心技术之一。2006年,谷歌公司推出了“Google 101计划”,并正式提出“云”的概念和理论。随后亚马逊、微软、惠普、雅虎、英特尔、IBM等互联网和计算机公司都宣布了自己的“云计划”,云计算开始进入公众的视野。承载云计算的大数据技术,在近几年引起了互联网之外很多领域的探讨,一时间大数据技术所带来的“互联网+”“工业4.0时代”等新兴概念在社会中广泛流传。而我国的教学改革正处在最为关键的时期,互联网技术在教育领域的应用已经初现端倪,在这个时候引进大数据技术对教学改革提供一些比较好的方法,是教学改革的方法之一。
(一)职业教学中信息化程度很高,但实际运用效果不佳
互联网在我国全面普及之后,大学的教学实践中已经实现了网络化、信息化的全面普及。教师在教学过程中,多采用PPT等信息技术教学手段进行教学,除了数学等少数学科全程采用板书之外,几乎所有的其他高校教师都能够熟练地使用信息技术进行教学。但很多职业教学的信息化进程却止步于此,没有充分发挥出信息化在教学中的巨大作用。
(二)对大数据理解程度不深,导致应用方法出现偏差
社会上对大数据时代的普遍热烈讨论,让人们产生了一种错觉,那就是大数据是计算机或者互联网技术的飞跃式发展,是牛顿之于物理学的革命一般,但大数据技术在整个计算机和互联网技术的发展历程中,只是一次“哥白尼式的革命”,是旧有体系的一次改进,而不是互联网的技术突破。大数据技术在很大程度上让收集和使用数据变得容易起来,并通过大量的计算为人们找出一些可以利用的规律,能否利用好大数据技术才是关键,大数据本身并不会带来技术上的升级。在此情况下,只有深入理解大数据,才能够更好地让大数据应用到职业教学改革当中。
二、大数据时代对职业教学改革作用的分析
(一)充分利用大数据的优势,指明职业教学改革的方向
职业教育不同于其他大学教育的地方之一,便是职业教育直接以就业为目标,因此就业的质量在很大程度上体现了职业教育的质量。在大数据技术来临之前,对就业质量的分析,多是进行简单的统计工作,分析学生的就业率,缺乏就业质量相关的数据。但在大数据时代,可以利用互联网的便利,充分收集学生的就业信息,对学生就业情况的各个方面进行统计,例如行业、工资水平、学生对工作的满意度、学生在工作期间对职业教育过程中所学专业知识的运用等都能进行详细的统计。在对这些数据进行统计分析过后,首先,对职业教育的教学实践与学生就业的实际情况的吻合度进行分析,如果出现吻合效果比较差的情况,就要对教学工作进行改革,使其能够更加趋向于就业市场的要求。其次,能够指导学生更好的就业,就业是职业教育中非常重要的一环,利用大数据的统计和分析结果,能够指导学生更好地就业。
(二)充分利用大数据的目标指向,提高职业教学改革中的信息化程度
在职业教育的教学实践中,信息化虽然得到了比较高的普及,但实际效果还没有充分发挥出来,这是因为在教学工作中,信息化只是一种教学手段,缺乏相应的目标。但大数据是一种目标指向性的互联网技术,它的最终价值观的体现便在于如何运用大数据,也就是说大数据技术的理论、技术和实践三个环节当中,实践环节才是它最终价值观的体现。这一观念,可以在教学过程中对教师的信息技术观念产生积极影响,促使教师更好的利用互联网技术。
随着互联网技术的发展,大数据技术的出现使互联网进入了全新的大数据时代。但在职业教育的过程中,还存在一些不利于大数据技术运用的因素,例如职业教学中信息化程度很高,但实际运用效果却不佳;对大数据理解程度不深,导致应用方法出现偏差等。在职业教学过程中,充分利用大数据技术的优势,指明职业教学改革的方向,并利用大数据的目标指向,提高职业教学改革中的信息化程度是大数据技术对职业教学改革的两点重要指向。
参考文献
[1]张永洁,袁奉卫,王丽雅.大数据时代职业院校信息化教学中的困惑分析与变革[J].卫生职业教育,2016(5):32-33.
[2]张文菁.大数据时代下职业教育面临的挑战及发展对策[A].中国职协2015年度优秀科研成果获奖论文集(中册)[C],2015.
大数据时代的专利分析 篇8
一、大数据时代新闻传播创新的关键点
相对于传统的新闻传播模式与方法, 大数据时代的新闻传播在无形之中将自身对于社会形势、新闻动态和整体结构的把握提升到更为高级、视野更加开阔的层面, 其创新的关键点主要集中在这样两个要素上:
(一) 新闻形态的变化
新闻形态的变化是指针对大数据时代受众多样化的信息需求, 创新新闻传播的形式、题材、语言风格等。例如, 利用自媒体进行定时推送, 采取风趣幽默的视觉语言来达到夺人眼球、吸引受众的效果。再如, 利用大数据时代网络信息的“链接”性, 不断探索和挖掘新闻背后的信息, 满足受众的好奇心和探索心理。
(二) 新闻内容的创新
盲目追求速度和效率的信息传播极易引发新闻传播不真实的问题, 所以近年几次重大新闻尤其是重大灾害事故发生时, 网络上多会出现不实的新闻报道。甚至有将一幅图片反复嫁接、多次使用, 扰乱群众情绪、散播不安因素的情况出现。大数据以海量的信息数据为基础, 通过零碎的数据文本挖掘潜藏在各种信息背后的内容, 依托高端技术, 从根本上降低新闻内容的不真实因素, 从而全面提升新闻传播的真实性、客观性和有效性。
二、大数据时代新闻传播的创新方向
从某种意义上来说, 大数据时代冲破了传统新闻生成方式强加于传播渠道上的桎梏, 并以势如破竹之势不断刷新周边一切有关新闻生成空间中的数据产生模式。在这样一种局面下, 新闻传播就需要创新原有的思维方式、数据模式以及分析模式, 融入新鲜的血液, 使自身更加符合这个时代的主题。
(一) 转变思维方式
大数据的建立并不是基于新闻本身的“因果联系”、“逻辑关系”, 而是通过事物之间的相互联系而构建起来的。换言之, 在大数据时代, 我们更应该关心和研究的不是事物之间的逻辑性, 而是考虑其间是否有一定的关联性。举例来说, 沃尔玛经营史上曾经有一则经典的“啤酒+ 尿布”案例。这个营销方式源于沃尔玛有关部门在对消费者购买行为进行分析时, 意外发现男性顾客在购买婴儿尿布时, 通常会搭配啤酒一起购买。但是从逻辑的角度来说, 这两种产品之间并没有什么潜在的关系。沃尔玛方面经过详尽的数据分析, 尝试推出了将啤酒和尿布搭配在一起促销的方式, 结果这两种产品的销量都得到了显著的增加。这就是一则典型的利用大数据“相关性”分析来形成高价值回报的行为。
大数据时代, 要创新新闻传播, 就要转变思维方式, 从传统的“因果关系”、“逻辑关系”转变为“相关性”、“数据性”。尤其是当前社会处于网络营销和数据营销的高峰时期, 新闻传播过程能够充分认识到数据生成的表象。这时, 我们可以抛弃对背后潜在原因和逻辑性的探究, 将视角由“已经发生”的事情转变为“正在发生”和“将要发生”的事情, 变过去时为进行时和未来时。这将更有助于为接下来的新闻传播工作开辟更多的价值生成空间, 为传播积蓄更多的力量。
(二) 开放数据运动
大数据时代对于数据分析结果的追求在于混杂性, 而不是精准和极致化。所以, 在对海量的信息数据资源进行收集和整合的过程中, 庞杂的信息系统能够全面而系统地反映出某种信息的走向、动态以及发展趋势, 这种变化甚至可以让数据使用者与研究者忽略对其原本结果精准性与逻辑性的追求。举例来说, 曾经活跃于网络的“谷歌翻译系统”涵盖60多种语言资料, 其数据来源广泛, 其中甚至包含着大量的语病、用法错误和逻辑错误等, 但是瑕不掩瑜, 这种庞杂性促使无数人依旧热衷于它的功能性与便捷性。而大数据时代所追求的恰恰就是这样一种“海量”的信息收容性、一种基于宏观立场与发展趋势的预测和分析属性。因此, 大数据时代的新闻传播相对于传统新闻传播单一、表象的传输过程, 将在未来相当长一段时间内走向由“小问题”到“大行业”的宏观预测与整合的道路, 从而让新闻传播更加符合受众的多元需求, 也更加符合这个时代的发展需要。
(三) 变革分析模式
随着信息技术的快速发展, 大数据时代所展开的数据分析已经不再局限于抽样调查和样本调查, 而是基于数据全面性、整体性而展开的分析。从统计学的角度来说, 样本容量越大, 调查结果越精细、越全面, 越能真实地反映调查结论。但是在大数据时代到来以前, 传统的分析技术和分析能力不足以进行整体、统一的调查研究。如今, 传统的调查分析模式正在发生变革。
因此, 当这样一种发展方向作用于新闻传播领域时, 我们应变革数据分析模式, 让新闻传播获得更加精准的内容和受众信息, 更加全面而细致地理解大众的新闻喜好、关注点和当今社会的流行趋势等, 最终使其进入一个全新的高度。
三、结语
大数据时代不仅改变着人们的生活习惯与思维方式, 同时也在无形之中影响着传统新闻的传播路径, 要求其在传播方式以及发展方向上进行一定的创新。笔者认为, 未来新闻传播将会从“关联性的思维方式”、“开放性的数据分析结果”以及“全面化的分析模式”来展开发展与创新, 而此举也必然会掀起新闻传播领域一轮全新的革命, 带来更多的发展机遇, 开创更广阔的前景。
摘要:大数据时代的到来, 促使整个新闻传播行业面临着一场迫在眉睫的变革与创新。本文以大数据时代新闻传播的创新方向为主要研究对象, 首先阐释了大数据时代新闻传播创新的关键点, 然后从思维方式、数据运动和分析模式三个角度论述了大数据时代新闻传播的创新方向。希望笔者的论述能从传播创新的角度, 为当下从事新闻传播的工作人员提供一定的参考。
关键词:大数据时代,新闻传播,传播创新
参考文献
[1]黄伟.大数据方法与新闻传播创新路径初探[J].新闻研究导刊, 2015 (10) :165.
大数据时代的专利分析 篇9
关键词:棱镜计划 大数据 情报分析
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0002-05
Intelligence Analysis in the Big Data Era in the Context of PRISM
Abstract The PRISM program has drawn extensive attention from all over the world after being exposed, and attention seems to focus on personal privacy and its protection. But in fact, what data are collected, how they are processed and what strategic objectives are to be achieved are more worthy of attention and discussion. This article makes a comprehensive analysis of the prism program from the perspective of intelligence analysis, which includes data resource, analysis process and methods, strategic target, and ends on a discussion about intelligence analysis in the era of big data.
Key words PRISM; big data; intelligence analysis
1 引言
曾供职于美国中央情报局(CIA)的技术分析员爱德华·斯诺登(Edward Snowden)于2013年6月将美国国家安全局(NSA)关于棱镜计划(PRISM)监听项目的秘密文档披露给了《卫报》和《华盛顿邮报》,引起了大家的广泛关注。围绕美国情报监视的相关讨论、分析和评论可谓铺天盖地,指责美国家安全局侵犯公民隐私、非法窃取外国情报的批评声音成为关注与讨论的焦点[1-4]。然而,作为情报研究人员,反以思之,如果我们拥有这些大规模数据,是否能够完成相应的情报分析?面对这些大数据与情报任务,该如何开展工作,经过哪些步骤,需要运用哪些方法?这些问题也同样值得我们深思。
PRISM是一项由NSA自2007年起开始实施的绝密电子监听计划。该计划的正式名号为“US-984XN”。根据报道,泄露的文件中描述PRISM计划能够对即时通信和现存资料进行深度的监听。许可的监听对象包括任何在美国以外地区使用参与计划公司服务的客户,或是任何与国外人士通信的美国公民。NSA在PRISM中可以获得电子邮件、视频和语音交谈、影片、照片、VIP交谈内容、档案传输、登录通知,以及社交网络细节等。《总统每日简报》里很多报告都使用了来自PRISM的资料[5]。
与此同时,大数据研究计划主动公开。2012年美国奥巴马政府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”,并为此投入两亿美元以上资金。该计划将提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,推进和改善联邦政府部门的数据收集、组织和分析的工具及技术,以提高从大量、复杂的数据集中获取知识和洞见的能力,强化美国国家安全,协助加速科学、工程领域创新步伐,转变学习和教育模式[6]。
把这两件事情关联在一起,我们不禁想到,如何针对大数据进行有效地分析与处理,更好地挖掘出有价值的情报,为国家的战略规划与制定提供必要的情报支撑,可能这才是从情报视角看PRISM的重点。鉴于此,本研究将深入剖析PRISM的数据基础、分析过程与方法、实施目标,从情报分析的视角全面展示PRISM,并对大数据时代下的情报分析进行探讨。PRISM在大数据与战略目标之间存在一个黑盒,而揭开此盒就需要剖析大数据情报分析的过程与方法(见图1), 这正是本文的研究重点与价值所在。
2 数据基础
2.1 数据来源
“棱镜”项目监视范围很广,参加PRISM 的公司有近十家,包括(按加入项目的时间)微软(2007年)、雅虎(2008年)、Google(2009年)、Facebook(2009年)、Paltalk(2009年)、YouTube(2010年)、Skype(2011年)、美国在线(2011年)以及苹果公司(2012年)等(见图2)[5]。这些公司都是典型的大数据公司,通过不同的方式掌握着海量用户的信息。
在数据的采集方式或来源方面,当前的大数据主要包括访问日志采集、社交网络数据、过程行为数据、传感网络数据、智能终端数据,移动终端、视频采集、语音通话等数据。数据获取技术的革命性进步、传感器等自动采集的数据、Web2.0等用户生成数据(UGC)以及移动设备生成的数据(位置、移动和行为信息等)等多源数据使得数据生产迅速、数据存量庞大。大数据的特点包括数据存量大且增长迅速、数据类型繁多结构复杂、价值密度低等。
2.2 数据类型
受到NSA信息监视项目“棱镜”监控的信息主要有10类:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节(见图3)。NSA可从公共、商业等来源扩大通讯数据,来源包括银行代码、保险信息、社交网络“脸谱”档案、乘客名单、选举名册、GPS坐标信息,也包括财产记录和未具体说明的税务资料[7]。来自交易、业务往来、事件和电子邮件等的内部数据能够为组织提供有价值的洞察与分析[8]。
技术的发展极大地扩展了信息的传播媒介和传播能力,印刷媒介(报纸、杂志、宣传册等)、电子媒介(电视、广播、电影、电话等)、网络媒介(社交网站、视频分享网站、博客等)、展示媒介(陈列、橱窗、广告等)和其他媒介(政府数据、航拍图片和学术信息)等形成了多位一体的公开信息来源渠道。据美国中央情报局统计,2007年的情报收集总数中超过80%来自公开信息。公开信息有多种渠道与来源,把不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、可以面向多种应用的数据集合,称之为多源信息融合。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在价值与情报[9]。因此,综合利用多来源、多形式的数据是现代科学决策的鲜明特点。“兼听则明,偏信则暗”,多维度、多数据源的分析才有说服力。
2.3 数据规模
PRISM的每个数据源,其数据规模都是巨大的,是典型的大数据。如Facebook有10亿节点和千亿连边,YouTube月独立访问人数超过8亿,Google每天都会收到来自全球超过30亿条的搜索指令,每个月处理的数据量超过400PB。Yahoo!数据中心的Hadoop云计算平台有34个集群,总存储容量超过100PB。据美国《连线》杂志报道,NSA正在盐湖县与图埃勒县交界处建造一个新的数据中心,这个“数据中心”占地48万平方米,耗资17亿美元。在这个巨大的“数据中心”里,有四个25000平方英尺的大厅将用来存放服务器,NSA每6小时可以收集74兆兆级字节的数据,如此计算下来,这些收集的未经编辑原始数据几乎每24小时便能填满4个美国国会图书馆[10]。
PRISM中较好地体现了大数据,而大数据存在、产生并应用于很多领域。从数据存量的角度,一般认为PB以上级别的数据就可称之为大数据。维基百科将大数据定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合[11]。万维网具有超过万亿的统一资源定位符(URL),淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB。百度公司目前数据总量接近1000PB,每天大约要处理60亿次搜索请求。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天都产生大量的数据。根据赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB(1ZB 等于1000EB),年增长达67%。而麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB[12]。如何处理超大规模的网络数据、移动数据、射频采集数据、社会计算数据,已经成为科研学术界和产业界亟待解决的关键科学技术问题。
3 情报分析
3.1 分析理念
邦弗朗尼原理表明并非给定数据集和挖掘任务就肯定能挖掘出合理的结果,因此,分析就变得很重要。数据具有累积性和关联性,单个地点或单一来源的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就很可能会暴露,因为有关他的信息已经足够多,这就是PRISM中大数据的原理。例如,通过Google的检索日志可以获取用户关注信息的兴趣点以及关注热点的变化,通过Facebook、paltalk等社交网站可以了解用户的人际网络与活动动态,通过微软、Yahoo!可以掌握人们联机工作的时间、方式以及内容等。而把这些信息融合到一起,可以较为全面地认识并掌握某个用户或某类群体的信息行为特征。
大数据时代在数据分析理念上有三个转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果[13]。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。大数据处理的一个重要逻辑就是将价值含量较低的海量数据进行价值凝练和萃取,在不失代表性的前提下进行数据简化处理。亚马逊的推荐系统用更快更便宜的方式找到数据的相关性,梳理出了有趣的相关关系,但并不知道背后的原因。在大数据环境下,知道“是什么”就已经足够,不必非要弄清楚“为什么”。
情报分析的理念在大数据时代也需要做出相应的调整与转变。如何有效地利用好大数据,从中分析出有决策价值的情报,值得我们关注。大数据时代下的情报研究应从单一领域情报研究转向全领域情报研究、综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化五个方面[9]。
3.2 分析流程
传统的情报分析流程包括计划与指示、搜集、分析与处理、报告撰写、研究传递等过程。大数据环境下的情报分析流程除了原有的过程之外,更加强调信息搜集与分析处理,具体包括:情报需求定义、情报计划制定、信息检索与数据采集、多源信息融合与清洗、信息分析与内容挖掘、信息展现与情报提炼、报告撰写与情报传递等一系列过程(见图4)。
大数据时代的情报分析,首先要明确情报任务的类型,确定情报任务的主题,分析情报任务的情境,捕捉情报用户的特点,然后把情报需要转化成情报需求,并明确地给予定义。在明确了情报需求以后,根据需求确定情报流程、构建指标体系、计划情报时间、组建情报队伍、选择合适的研究方法、选配相应的技术与工具。根据情报任务计划确定信息检索与数据采集的来源渠道、范围、规模、类型,然后制定收集策略并实施收集,对收集的数据结果进行评估,包括数据规模、时效性、真伪等。对数据进行预处理,把多种来源、不同结构的数据进行融合,重复的数据进行过滤、对重名、别名等问题进行识别、数据拆分提取、查漏补缺、数据降维等一系列操作。经过预处理的数据可以进行分析挖掘,形成有决策支持或参考价值的情报报告,在恰当的时间以合适的方式把准确的情报传递给正确的人。
3.3 分析方法
如何针对特定的情报需求,快速地获取准确数据、高效地分析海量数据、清晰地解读系列数据是情报工作者面临的严峻挑战。应对这一挑战,需要敏锐的思维以及专业的工具与方法。通过关联分析、聚类分析、孤立点分析、模式分析、网络分析、异常分析、时序分析、演化分析等一系列方法挖掘出有价值的情报。例如,通过模式分析可以识别某种罪犯的犯罪模式,通过关联分析可以分析恐怖分子的活动网络,通过聚类分析可以聚类某一类用户并分析该类用户的特征,根据爆发词分析可以分析关注热点甚至预测流感爆发的时间与地点。在科技情报领域,针对论文、项目等数据,通过统计排序、数量分布统计、年度增长统计、关联规则等实现关键人物发现、重要机构识别、国家实力对比、前沿热点监测等,根据这些结果可以判断科学技术发展各要素及总体的现状与趋势,并进一步分析出机遇和威胁,从而把信息变成情报。
4 结果与目标
4.1 棱镜计划的战略目标
据外媒报道,NSA自2010年11月起开始准许以海外情报意图来分析电话以及电邮记录,监视美国公民交友网络。根据NSA 2011年1月的备忘录,政策转向目的是在帮助该局“发现并追踪”海外情报目标和美国人民之间的关联。该文件指出,NSA得到授权,可在不检查每个电邮地址、电话号码或任何指针的“外来性”情况下,“大规模以图表分析通讯原数据”。在泄露的秘密文档内的一页幻灯片中,显示了两种数据来源:PRISM和Upstream(另一个监听项目的代号)。PRISM是从上述美国服务提供商的服务器直接进行收集,Upstream项目则在承载互联网骨干通信内容的光缆上安装分光镜,复制其通信内容。英国的政府通信总部(GCHQ,与NSA对应的信号情报(SIGINT)机构)最早从2010年6月起就能访问PRISM系统,并在2012年使用该计划的数据撰写了197份报告[5]。
PRISM的目标不是关注某个普通民众的个人隐私,这对国家战略没有实质的意义。大数据其中一个特点就是价值密度低,普通民众的个人隐私信息对于国家的宏观治理并没有太大的价值,真正有价值的是普类群体特征或个别关键人物的活动信息。PRISM的主要战略目标可能包括以下几个方面:恐怖主义人物与活动的监测、预测犯罪行为模式与频率、部分国家领导人活动与政策动态、国际合作谈判所需的数据与情报支撑、新的战略新兴产业与机会发现、某些国家的不安全因素挖掘等等,这些都是国家战略。例如,通过关键词筛选、用户联系频率与地点与恐怖袭击可能存在的联系、不正常现金流向的分析,也许能从中找出“恐怖袭击”的蛛丝马迹,并进行有效的预测与预防打击。
4.2 大数据分析的目标
奥巴马政府发布的“大数据研究和发展倡议”[6]旨在提升利用大量复杂数据集合获取知识和洞见的能力,提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,协助加速科学、工程领域创新步伐,强化美国国土安全,转变教育和学习模式。还将在科学研究、环境保护、生物医药研究、教育以及国家安全等领域利用大数据技术进行突破。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。国土安全部项目主要推进可视化数据分析,应用领域主要为自然灾害、恐怖事件、边境安全、网络威胁等。
大数据虽然表面上是个技术术语,但实际上已经渗透或将要渗透到社会生活、经济运行、国防军事、科学技术等各个方面。数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。大数据是人们获得新的认知、创造新的价值的源泉。大数据还是改变市场、组织机构以及政府与公民关系的方法。当前大数据应用领域处于领先的是Amazon、Google、Facebook等美国新兴网络企业。他们已经开始通过基于云计算的平台,汇集来自互联网、无线标签、全球定位系统(GPS)、智能手机等采集的大量数据,经过分析后用于客户信息管理或者市场营销活动。IBM拥有一个5000人组成的数据分析团队,帮助石油企业更高效地勘测、开采和炼制石油。通用汽车投入15亿美元收购大数据分析公司,以充分挖掘多个数据点,找到有效的途径,延长燃气涡轮、喷气式发动机和其他重型设备的运行时间,同时也不必进行不定期维护。
我国当前在大数据等方面有一批有一定优势的企业,如电信企业、商业银行、腾讯、阿里巴巴、百度等。大数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像飘浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。而挖掘出这冰山下面的隐藏价值,可以实现很多目标[13]。大数据从不同视角反映人物、事件或活动的相关信息,把这些数据融合汇聚在一起进行相关分析,可以更全面地揭示事物联系,挖掘新的模式与关系,从而为市场的开拓、商业模式的制定、竞争机会的选择提供有力的数据支撑与决策参考。
4.3 大数据时代的情报目标
一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。如在赛博战领域如何利用大数据分析(Big Data Analysis,BDA)实现赛博态势感知、在电子战领域如何利用BDA实现有源与无源情报的分类与融合等。此外,随BDA而来的诸多新类型情报也有待进一步研究,如移动情报、云情报、社会情报、大数据情报等[14]。
在大数据时代,情报人员需要围绕情报任务与需求,广泛搜集各类相关信息、运用多种工具与方法进行内容分析,监测其中的新现象、新情况、新异常,并根据蛛丝马迹发现其中的规律、本质、战略意图等,并将这些内容“填充”到情报分析结果的模式中,或按预定的模式组织所发现的内容,形成情报分析报告。这样的情报对于企业来讲可以服务于产品研发、市场开拓、技术合作、人才争夺等活动,实现跟踪竞争对手的动态、分析战略部署,把握主要趋势与次要趋势,厘清长期战略与近期目标,从而完成趋势判断、动向感知、前瞻预测、情景研判等情报目标,实现“耳目、尖兵、参谋”的情报功能。
5 结语
通过上述分析,本文认为,PRISM的真正目标并不在个人隐私与保护上,而是如何运用大数据提升科学决策与发展战略。大数据时代数据来源广泛、结构类型复杂、数据规模庞大,如何有效地获取、融合并进行关联、聚类、孤立点、模式、网络、演化等一系列分析,从中发掘出有价值的情报,为战略决策提供全面准确、客观有力的支撑与参考服务,是大数据时代情报分析的重点,也是情报从业人员的关键能力所在。
参考文献:
[1]汤镕昊. 从“棱镜门”事件看美国的情报监督机制[J]. 情报杂志,2013,(9):6-10,22.
[2]方兴东,张笑容,胡怀亮. 棱镜门事件与全球网络空间安全战略研究[J].现代传播(中国传媒大学学报),2014,(1):115-122.
[3]储昭根. 浅议“棱镜门”背后的网络信息安全[J]. 国际观察,2014,(2):56-67.
[4]李娜. “棱镜门”暴露大数据时代隐私危机[J]. 科技导报,2013,(18):9.
[5]维基百科[EB/OL].[2012-10-22].http://zh.wikipedia.org/wiki/US-984XN.
[6]Big Data Across the Federal Government[EB/OL].[2012-10-22].http://www.whitehouse.gov/sites/default/files
/microsites/ostp/big_data_fact_sheet_final.pdf.
[7]中国日报网.斯诺登再曝美监控公民细节(图)[EB/OL]. [2013-10-12]. http://www.chinadaily.com.cn/hqgj/jryw/2013-09-29/content_10225785.html.
[8]王新才,丁家友.数据知识图谱:概念、特征、应用与影响[J].情报科学,2013,31,(9):10-14,136.
[9]李广建,杨林.大数据视角下的情报研究与情报研究技术[J]. 图书与情报,2012,(6):1-8.
[10]美安全局机房曝光 监控百亿亿兆级别数据[EB/OL]. [2013-12-15].http://servers.pconline.com.cn/354/3541
237.html.
[11]Wikipedia.Big data[EB/OL]. [2012-10-22]. http://en.wikipedia.org/wiki/Big_data
[12]Cohen J, Dolan B, Dunlap M, et al. MAD skills: New analysis practices for big data[J].PVLDB,2009,2(2):1481-1492.
[13]维克托·迈尔-舍恩伯格,肯尼思·库克耶.盛杨燕,周涛译.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[14]张春磊,杨小牛. 大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013,(1):18-22.
大数据时代的专利分析 篇10
“大数据”一词, 最早是全球知名咨询公司麦肯锡提出来的, “数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈利浪潮的到来。”, “在美国具备高度分析技能的人才 (大学及研究生院中学习统计和机器学习专业的学生) 供给量, 2008年为15万, 预计到2018年将翻一番, 达到30万。然而, 预计届时对这类人才的需求将超过供给, 达到44万~49万人的规模。这意味着将产生14万~19万的人才缺口。仅仅四五年前, 对于数据科学家的需求仅限于google、Amazon等互联网企业中, 在最近重视数据分析的企业, 无论是哪个行业, 都在积极招募数据科学家, 这也会令人手不足的状况雪上加霜。”__摘自麦肯锡2011年5月全球研究院的报告 (大数据:未来创新、竞争、生产力的指向标) [1]。
2 数据分析行业一则最新的人才招聘广告
我们从2014年11月15日51job.com网上发布了1643条数据分析人才招聘职位中选取其中一则数据分析人才招聘[2]:
广州迅蒙龙贸易有限公司, 招聘岗位:淘宝数据分析师
职位描述: (1) 负责淘宝、天猫、京东店铺销售数据统计; (2) 针对推广方案, 进行数据分析、挖掘, 为推广方案达到最佳效果提供数据支撑; (3) 负责数据监测, 数据分析, 数据挖掘, 撰写分析报告;结合实际业务需求, 进行深度的数据分析; (4) 建立客户、产品的分析模型, 提出产品、业务改善建议;用相关工具进行数据提取, 分析顾客及市场特征, 提供相应的运营建议, 增强用户的黏性; (5) 建立运营数据分析模型, 针对流量、用户行为等进行监控和统计, 提供流量、转化率、流失率等; (6) 为网店制定相关数据标准, 根据数据决定网店页面布局及宝贝关联, 改进进店导流关键流程, 提升付费转化率, 减少各环节的订单流失; (7) 以数据为依托制定精准营销流程规范, 对线上营销 (包括钻展、直通车、淘宝客) 进行数据分析和评估, 提供数据报表和改善建议, 提升营销效果; (8) 对竞争对手的产品及同类新产品进行定期数据监控, 并形成对产品改进的有效建议; (9) 定期进行数据分析报告撰写及数据汇报工作。
岗位要求: (1) 心理学、统计学、电子商务、数据挖掘、数学、市场营销、计算机等相关专业大专以上学历; (2) 能熟练操作Excel、Access、Powerpoint等办公软件, 运用SAS、SPSS或R等专业统计分析工具; (3) 熟悉数据库营销的推广手段, 有相关工作经验优先; (4) 优秀的数据分析能力和业务学习能力, 善于从海量数据中总结规律;敏锐的观察力, 及时根据数据发现问题; (5) 具备良好沟通协调能力、性格开朗, 做事认真踏实, 工作态度好, 应变能力强, 善于团队协作; (6) 熟悉淘宝相关的数据产品, 精通淘宝递阶转化率相关指标及提升方法。
3 大数据时代数据分析人才的素质要求
从上面的数据分析招聘可以看出, 大数据分析是数学、统计学、计算机科学 (机器学习) 等交叉学科, 目前国内最主要运用在银行、电信、证券基金公司、网站分析等, 核心是关注和研究客户, 网站分析是大数据分析的典型应用, 也是目前需求量最大的人才缺口。目前国内专业划分过于单一, 而网站分析是综合技能很强的岗位, 专业技能上这类人才必须要精通计算机的数据库技术, 用于提取、管理和分析数据;要熟悉一门脚本语言, 用于编写程序;要具有较好的数据建模能力, 精通统计知识和统计分析软件, 特别是适合大数据分析的R软件或SAS软件, 用于挖掘数据关系;要具备有营销知识和心理学知识, 能很好的分析和解释客户行为;要具备些基础的经济学知识。通识素质上要善于从海量数据中总结规律;敏锐的观察力, 及时根据数据发现问题;必须具备良好沟通协调能力、性格开朗, 做事认真踏实, 工作态度好, 应变能力强, 善于团队协作。
4 我校数据分析人才培养的思考及对策
我校是较早开展大数据分析人才培养的高校, 从2010年开始, 我校信息与计算科学专业正式开设了数据分析方向, 当时我们查阅了全国所有高校, 都没有数据分析本科专业, 只有中国人民大学统计学院的数据分析方向应用统计硕士。当时该方向计算机方面开设的必修课程有C语言、面向对象C++、数据结构、数据库系统、网络数据库, 数据仓库与数据挖掘等, 并且C++、数据结构、数据库均设置了课程设计, 以加强实践环节的训练, 数学方面开设的必修课程有数学分析、高等代数、解析几何、概率论与数理统计、常微分方程、运筹学、数学建模等, 还开设了计算智能专业选修, 并且数学建模开设了课程设计, 要求学生参加全国大学生数学建模竞赛, 以检验数学建模课设的实效;统计方面的必修课程主要有多元统计分分析、抽样技术、应用时间序列分析、非参数统计分析、应用随机过程、市场调研与预测、面板数据分析等, 学习的软件有SPSS、SAS、E-VIEWS、MATLAB、STATES等, 统计选修课有统计软件数据挖掘等;开设的经济学课程有微观经济学、宏观经济学、计量经济学、财务管理专业必选课, 还有金融学、投资学等专业选修课;开设的营销课程有市场营销、消费者行为学、网络营销等。
从今天的情况看, 我们数据分析方向的课程设置是科学合理的。当然随着大数据的飞速发展, 我们也有需要加以改进和调整的地方, 如应开设一个脚本语言课程, 如Python, 需要开设“网站分析”之类的非常实用的专业选修课, 需要加强R软件的学习等[3,4], 其次有些课程虽然开设了, 但实效大打折扣, 不少学生觉得学校学的实际中都用上, 学习积极性不高, 因此理论知识水平和实践操作水平都不如我们的初衷。
通过大量查阅大量新近的数据分析岗位要求, 我们提出如下对策:第一适当调整课程, 增加“Python”必选课, 增加“网站分析”等专业选修课;第二转变教师教学思想观念, 变教理论为教能力, 提高教师大数据分析实战水平, 加强与企业、公司合作, 积极开展大数据分析应用研究, 给学生提供丰富的实战实例和场所, 极大地提高学生学习热情和积极性, 只有学生由被动学习转到了主动学习, 理论学习自然会如饥似渴, 刻苦钻研;第三, 加强与我校计算机学院物联网专业之间的沟通与联系, 开展互联网、物联网大数据分析的基础研究, 互相促进, 共同发展, 广泛开展教师间、师生间大数据分析技术交流, 争取多出高水平的科研成果;第四, 积极开展对外交流和联系, 扩大我校大数据分析的知名度。
摘要:在认真分析了新近一则数据分析人才招聘信息的基础上, 提出了大数据分析时代数据分析人才的必须具备的素质要求, 结合我校信息与计算科学专业数据分析方向人才培养的实际情况, 提出了几点需要改进的意见, 并给出了对策。
关键词:大数据分析,数据分析师,人才培养
参考文献
[1]黄林, 王正林.数据挖掘与R实战[M].北京:电子工业出版社, 2014, 6.
[2]http:/www.51job.com.
[3]李明.R语言与网站分析[M].北京:机械工业出版社, 2014, 4.
【大数据时代的专利分析】推荐阅读:
大数据时代的数据观05-14
大数据时代的数据挖掘09-26
大数据时代的数据管理11-09
大数据时代的教育10-25
大数据时代的人才管理05-11
大数据时代的媒体融合05-13
大数据时代的企业决策05-14
大数据时代的终端安全05-15
大数据时代的应用研究06-12
大数据时代的思维变革06-16