大数据分析处理系统(精选12篇)
大数据分析处理系统 篇1
1 引言
随着网络技术的发展, 以及智能设备的普及, 当前的数据增长速度已经呈现爆炸式增长, 大数据时代已经来临。目前专家对大数据处理系统方面的研究主要是基于云环境下的分布式部署以及网络架构的融合和动态实时数据处理这三个方面。同时也取得了一定的研究成果, 对于当前的云计算环境下的大数据处理系统的发展提供了很多理论和实践基础。
2 基于融合思想的大数据处理方案分析
云计算技术模式下, 人机交互和数据处理以及网络逻辑处理技术等都相对交融, 处于深度融合状态。因此基于融合思想的大数据处理方案就是以融合思想为核心, 将云计算技术模式下的各种分散的网络资源进行协同组织, 然后再进行融合, 从而充分发挥分散状态下的资源优势, 形成一种整体性的比较优势, 因此这种融合式的大数据处理方案的应用前景十分广阔。
在云计算技术模式下, 大数据处理研究更多的着力点放在了大数据处理系统的构建、分散资源的协同以及相关的辅助技术等。从宏观角度来看, 可以氛围内混合处理和混合管理两个方面。其中混合管理的核心就是研究各种无线以及有线的处理机制和数据共享、资源共享机制的管理, 同时还包括了分散数据管理机制和协同机制管理等。而混合处理的研究核心则是着力于系统运行模型和相关辅助技术上。
3 大数据处理系统的应用和处理系统分析
3.1 大数据处理系统的应用
大数据处理系统的应用主要包括三个方面:
(1) 基于融合式架构的应用。这实际上就是一种客户机/服务器架构模式, 其中服务器主要负责应用系统的管理和控制以及相关应用的逻辑处理和数据调度等。而客户端则是专门进行人机交互, 当用户想要执行数据处理分析人物时, 通过客户机向服务器发送请求, 然后有服务器完成并返回给客户端。这个融合式架构相对简单, 且容易维护, 但是服务器功能有着极高的依赖, 这也往往成为数据处理系统应用的瓶颈。
(2) 分散式架构。这种架构的特点就是协同控制的节点都是平等地位, 并且和处理系统有关的控制和管理模块都是分散在各个客户端上。客户端拥有一定的自治属性, 因此具有通用性和灵活性和可扩展性等诸多优势。但是由于数据采用分布存储和分布操作, 这样在维护方面就变得较为困难, 而且节点之间的实时同步和用户动态注册的应用也难以实现。
(3) 混合式结构。这种结构拥有前两两种结构有点, 通过服务器实现数据信息的统一维护, 而客户端一方面实现信息传输功能, 同时也能够和用户在某些应用方面进行充分的交互, 因此能够有效减轻服务器端的压力, 这样也能够消除服务器端的瓶颈。提升系统的鲁棒性和灵活性。
3.2 云计算技术下的大数据处理系统具体分析
3.2.1 系统架构
云计算技术环境下的大数据处理平台的节点主要体现下面几个特点:其一是节点分散性;其二是数据处理动态性;其三是数据来源混构性。
这个处理平台架构采用了融合式的调度执行层和任务融合调度管理, 并根据处理规则和不同的参数来调整处理引擎的数据和算法组合以及计算资源。对大数据资源的数据交互和任务分工工作进行了有效融合。同时在管理层, 也对业务数据进行分布式存储, 提升了容错处理能力。
3.2.2 系统处理流程
系统处理流程主要是对分散状态数据进行处理, 其关键就是对分散的数据进行提取, 因此首先给其他应用提供数据接口。然后数据管理部分要融合数据资源, 并在一定容忍度的基础下, 对不同的数据处理机制进行比较, 进而优势融合。最后数据处理中心则是对数据进行集中处理, 然后统一分配数据资源, 从而在数据中心实现数据处理的融合。
3.2.3 处理系统的部署
某信息产业园的大数据处理系统的部署是根据信息企业集群的需求, 然后对现有分散数据资源进行挖掘, 比如企业内部的ERP和SCM系统中的数据, 通过对这些数据进行深度挖掘从而为该企业提供战略发展资源。图1就显示了这个部署图。
从部署图可以看出, 在这家企业中, ERP和SCM和CRM是其数据源, 然后经过服务器处理之后, 分布到n个数据库, 然后进行合并进入到大数据管理模块, 最终能够实现数据查询和数据决策服务。
4 结语
总而言之, 目前采用融合式思想, 在云计算技术条件下, 对大数据处理系统进行部署的研究相对较少, 特别是当前的信息产业, 由于其自身的解决方案并不能够实现大数据条件的比较优势, 所以本文提出的融合式的大数据处理技术, 有效的提升了数据利用深度, 拓展了大数据处理系统的应用范围。
参考文献
[1]于戈, 谷峪, 鲍玉斌, 王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报, 2011 (10) .
[2]程苗基于云计算的Web数据挖掘[J].计算机科学, 2011 (S1) .
大数据分析处理系统 篇2
在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点:
一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小。二是计算相对简单,一般只有少数几步操作组成,比如修改某行的某列; 三是事务型处理操作涉及数据的增、删、改、查,对事务完整性和数据一致性要求非常高。
四是事务性操作都是实时交互式操作,至少能在几秒内执行完成; 五是基于以上特点,索引是支撑事务型处理一个非常重要的技术。在数据量和并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。
在数据量和并发交易量增加情况下,一般可以采用ORALCE RAC集群方式或者是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑。
事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用的系统来解决本问题。2 数据统计分析
数据统计主要是被各类企业通过分析自己的销售记录等企业日常的运营数据,以辅助企业管理层来进行运营决策。典型的使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应的营销策略等。数据统计分析特点包括以下几点:
一是数据统计一般涉及大量数据的聚合运算,每次统计涉及数据量会比较大。二是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。
三是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多的用户希望能做做到交互式实时统计;
传统的数据统计分析主要采用基于MPP并行数据库的数据仓库技术。主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析的结构来实现高性能的数据统计分析,以支持可以通过下钻和上卷操作,实现各种维度组合以及各种粒度的统计分析。
另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算的数据库仓库系统也成为一个发展趋势,例如SAP的HANA平台。数据挖掘
数据挖掘主要是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中的规律和知识。数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。
数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等。因此总体来讲,数据分析挖掘的特点是:
1、数据挖掘的整个计算更复杂,一般是由多个步骤组成计算流,多个计算步骤之间存在数据交换,也就是会产生大量中间结果,难以用一条sql语句来表达。
2、计算应该能够非常灵活表达,很多需要利用高级语言编程实现。二 大数据背景下事务型处理系统相关技术
在google、facebook、taobao等大互联网公司出现之后,这些公司注册和在线用户数量都非长大,因此该公司交易系统需要解决“海量数据+高并发+数据一致性+高可用性”的问题。
为了解决该问题,从目前资料来看,其实没有一个通用的解决方案,各大公司都会根据自己业务特点定制开发相应的系统,但是常用的思路主要包括以下几点:(1)数据库分片,结合业务和数据特点将数据分布在多台机器上。
(2)利用缓存等机制,尽量利用内存,解决高并发时遇到的随机IO效率问题。(3)结合数据复制等技术实现读写分离,以及提高系统可用性。(4)大量采用异步处理机制,对应高并发冲击。(5)根据实际业务需求,尽量避免分布式事务。1相关系统介绍 1)阿里CORBAR系统
阿里COBAR系统是一个基于MYSQL数据库的分布式数据库系统,属于基于分布式数据库中间件的分布式数据库系统。该系统是前身是陈思儒开发的“变形虫”系统(以前调研过),由于陈思儒离开阿里去了盛大,阿里当心“变形虫”稳定性等问题,重新开发该项目。
该系统主要采用数据库分片思路,实现了:数据拆分、读写分离、复制等功能。由于此系统由于只需要满足事务型操作即可,因此相对真正并行数据库集群(例如TeraData等),此类系统提供操作没有也不需要提供一些复杂跨库处理,因此该系统存在以下限制:
(1)不支持跨库的join、分页、排序、子查询。(2)insert等变更语句必须包括拆分字段等。(3)应该不支持跨机事务(以前变形虫不支持)。
说白了此类系统不具备并行计算能力,基本上相当于数据库路由器!
另外此类系统的在实际应用的关键问题是,根据什么对数据进行切分,因为切分不好会导致分布式的事务问题。2)阿里OceanBase系统
该系统也是淘宝为了解决高并发、大数据环境下事务型处理而定制开发的一个系统。该系统主要思路和特点如下:(1)他们发现在实际生成环境中,每天更新的数据只占总体数据的1%不到,因此他们把数据分为:基线数据和增量更新数据。
(2)基线数据是静态数据,采用分布式存储方式进行存储。
(3)只在一台服务器上存储和处理增量更新数据,并且是在内存中存储和处理更新数据。
(4)在系统负载轻的时候,把增量更新批量合并到基线数据中。(5)数据访问时同时访问基线数据和增量更新数据并合并。因此这样好处是:(1)读事务和写事务分离
(2)通过牺牲一点扩展性(写是一个单点),来避免分布式事务处理。
说明:该系统虽然能处理高并发的事务型处理,号称很牛逼,但其实也只是根据电商的事务处理来定制开发的专用系统,个人认为其技术难度小于oracle等通用型的数据库。该系统无法应用到银行或者12306等,因为其事务处理的逻辑远远比电商商品买卖处理逻辑复杂。
在目前的大数据时代,一定是基于应用定制才能找到好的解决方案!
3)基于Hbase的交易系统
在hadoop平台下,HBASE数据库是一个分布式KV数据库,属于实时数据库范畴。支付宝目前支付记录就是存储在HBASE数据库中。
HBASE数据库接口是非SQL接口,而是KV操作接口(基于Key的访问和基于key范围的scan操作),因此HBASE数据库虽然可扩展性非常好,但是由于其接口限制导致该数据库能支持上层应用很窄。基于HBASE应用的设计中,关键点是key的设计,要根据需要支持的应用来设计key的组成。
可以认为HBASE数据库只支持作为KEY的这一列的索引。虽然目前HBASE有支持二级索引的方案,二级索引维护将会比较麻烦。
2并发和并行区别
并发是指同时执行通常不相关的各种任务,例如交易型系统典型属于高并发系统。并行是通过将一个很大的计算任务,划分为多个小的计算任务,然后多个小计算任务的并行执行,来缩短该计算任务计算时间。两者主要区别在于:
(1)通讯与协调方面:在并行计算中,由于多个小任务同属一个大的计算任务,因此小任务之间存在依赖关系,小任务之间需要大量通讯和协调;相反,并发中的多个任务之间基本相互独立,任务与任务之间相关性很小。
(2)容错处理方面:由于并发任务之间相互独立,某个任务执行失败并不会影响其它的任务。但是并行计算中的多个任务属于一个大任务,因此某个子任务的失败,如果不能恢复(粗粒度容错与细粒度容错),则整个任务都会失败。
3本章总结
数据量大不一定需要并行计算,虽然数据量大,数据是分布存储,但是如果每次操作基本上还是针对少量数据,因此每次操作基本上都是在一台服务器上完成,不涉及并行计算。只是需要通过数据复制、数据缓存、异步处理等方式来支撑高并发访问量
三
大数据背景下数据统计分析技术介绍
随数据量变大,和事务处理不同的是,单个统计分析涉及数据量会非常大,单个统计分析任务涉及数据会分散在多台服务器上,且由于计算量大,采用单台服务器进行计算,会导致计算时间非常长,单个统计分析任务必须采用并行计算方式来加快单个统计分析任务执行速度。1并行查询与并行计算技术介绍
在大数据背景下的数据统计分析技术门类很多,常见的有: n MPP并行数据库 : TeraData、GreenPlum、Vertica等。n 基于MapReduce并行计算框架的数据仓库: HIVE(Hadoop平台)、Tenzing(Google公司)n 基于Hbase的Phoenix系统 n HadoopDB系统 n EMC公司的hapt系统
n MPP分布式查询引擎: Dremel、Impala、Presto、Shard query、Citusdb。n 基于SPARK的Shark、基于Dryad的SCOPE、基于Tez的stinger。n 基于hadoop+index的JethroData系统 n 基于内存计算的Druid系统
这些系统都解决了海量数据下的数据统计分析的问题,并且这些系统另外一个共同特点是都提供了SQL或者类SQL接口。
为了能够较好研究这些系统,我们需要对并行查询与并行计算的相关技术做一个简要的介绍。
首先所有的系统都可以分为三个层次: 语义层、并行计算引擎层、分布式存储层。语义层提供一个编程接口让用户表达所需要计算,并负责把该计算翻译成底层并行计算引擎可以执行的执行计划,并由并行计算引擎来执行,最下面一层是分布式存储层。
对于提供类SQL接口并行计算系统,语义层可以认为是SQL解析层。1)语义层
SQL语言是一种声名式语言,SQL只是表达了要做什么,而没有表达怎么做。为此,SQL解析层主要作用是:将用户提交的基于SQL的统计分析请求,转化为底层计算引擎层可以执行的执行计划。也就是解决“怎么做”的问题。SQL解析层工作主要包括两个大方面:(1)通过语法分析技术来理解要做什么。在关系数据库中,一般会把SQL语言分析后,形成树型结构的执行计划。
(2)在语法分析技术上,利用各种优化技术和算法,找出一种最经济物理执行计划。
优化可以分为两个方面:一是逻辑层面优化、二是物理执行层面优化。(1)逻辑层优化
逻辑层面个人认为主要是因为同样表达一个分析请求,有的人SQL写的好,有的人SQL写的烂,因此在逻辑层面可以通过一些等价关系代数变换,实现查询重写,将写的比较烂的sql变换为好的写法。
比较典型优化是:“把投影和过滤下沉,先执行过滤和投影操作”,减少中间结果。
(2)物理层优化
物理层面优化是在逻辑优化后,结合实际物理执行过程,找出最优的物理执行计划。生成物理查询计划的工作包括: ü 增加一些操作符: 包括扫描和排序等。
ü 确定各个操作符实现算法。例如扫描是全表扫描还是利用索引;Join是采用HASH连接、索引连接、合并排序等实现算法中的那一种。ü 确定操作符之间的数据流转方法:物化还是流水线方式。
ü 采用基于代价估算方法确定最优的物理执行计划,目前代价估算主要是以估算该物理计划需要的IO量。另外对于并行数据库,则还要考虑通讯代价,即尽量减少数据在各个机器之间的传递。
在物理层优化的代价估算过程中,代价估算需要依靠很多统计信息,如表有多大,表中相关列的值分布是什么样子等。传统数据库在数据Load过程中会事先计算好这些统计信息。并行计算中还需要考虑通讯代价。需要指出是,由于imapla、Presto、HIVE等系统只是一个查询引擎,它们可以直接查询以普通文件方式存储在HDFS系统上的文件,因此这些系统一般无法使用索引和各种统计信息来进行物理执行计划的优化,这些系统一般只能在逻辑层进行一些基于规则静态优化。根据SHARK论文,SHARK系统支持根据前面一些节点计算获得的信息,来动态优化后面执行计划。
(3)物化与流水线执行方法
一条SQL语句对开发人员而言,感觉只是一次调用,但是实际上在数据库内部,一条SQL语句执行其实是有多个操作符组合而成的的树型结构计算流。如下图:
针对该计算流有两种执行方式:一是基于物化或者是实体化执行方式,另外一种是基于数据流的执行方式。第一种方法的过程是: 把各个操作运算排序,并把每个操作运算的输出的中间结果存储在磁盘上,直到被另外一个操作运算所读取。
另外一种方法是同时交错进行多个运算,由一个运算产生每个元组直接传递给下一个运算,而不将中间结果存储到磁盘,也不用等到前一个运算全部运算完毕。例如: 两个表连接后,再进行投影操作。如果采用第一种方法,则需要 把两表连接中间结果临时写入磁盘,然后再读取该结果执行投影操作。而如果采用第二种方法,则连接操作一旦产生一个元组就可以立刻送到投影操作去进行投影操作。
流水线方法可以极大避免大量的中间结果磁盘IO。因此数据库一般会采取流水线方法来执行。流水执行方法有两种模式:一种是需求驱动流水线,也就是从上层主动向下层要求元组,另外一种是生产者驱动流水线执行方式,由低层主动产生元组,由下层向上层推。
目前大部分数据库引擎采用的是需求驱动流水线,实现方式采用基于Graefe提出的迭代器模型。该模型把每个操作都表达为由三个接口: open(), getnext(), close()。每个操作被调用open()进行准备工作,然后通过反复迭代被调用getnext来获取下一个元组,最后被调用close来进行清理工作。通过构建迭代器网络,也就是迭代器之间的互相调用,就可以实现需求驱动流水线。
当然不是任何操作都可以流水执行,流水执行条件是:操作要满足在接收输入元组时可以输出元组。例如排序操作就无法进行流水操作,在执行排序操作前都必须进行实体化。
(4)SQL解析层与并行计算引擎层 由于不同并行计算引擎层的执行计划表达不同,因此不同系统需要将SQL解析成不同的形式物理执行计划,例如:
MPP关系数据库一般是把SQL解析成树状结构的物理执行计划。
HIVE、Tezning数据库是把SQL解析成DAG结构的多个MAPREDUCE组合。DRemel等则类似MPP关系数据库,把SQL解析成一个树状结构执行计划。微软SCOPE则需要把类SQL解析成DAG结构的Dryad可执行的执行计划。SHARK则需要把SQL解析成基于scala语言的DAG结构执行计划。
并发
并行
并行计算引擎层(1)并行计算形式 并行化可以分为水平并行(无依赖并行)与垂直并行(流水线并行)两类。如下图:
如果两个操作OP1、OP2 无相互依赖关系,则称这两个操作相互独立。水平并行化指的是互相独立的多个操作或者一个操作内互相独立的多个子操作分别由不同的处理机并行执行的形式。例如,排序操作、扫描操作由不同处理机并行执行就是水平并行化的实例。
水平并行中一个非常常见的就是基于数据划分的并行,例如MAPREDUCE,就是通过将数据划分到多台服务器上,并行执行MAP和Reduce来进行并行运算。也有人把这种基于数据划分并行与操作独立并行区分开。
垂直并行化则是指存在流水线方式依赖关系的操作分别由不同处理机并行执行的形式。流水线方式依赖:如果OP2无需等待OP1执行完毕即可在另一处理机上开始执行。由于一般情况下,流水的级数远小于处理的数据条目,因此流水并行主要意义是在可以避免中间结果磁盘IO操作,对并行度的贡献相对较小。
(2)并行计算面临的问题与并行计算框架
并行计算需要解决的问题主要包括几下几个方面:自动并行化、通讯、任务调度、并发控制、容错、资源管理。由于并行计算面向上述一系列问题,因为业界为了简化并行程序开发,提供了一系列的并行计算底层库或者框架。
在高性能计算领域,最常用于并行计算编程的库是MPI库,但是该库主要只是解决通讯问题。这导致容错、资源管理、任务调度、并行化等方面问题需要程序员来解决,因此利用MPI开发并行程序相对比较困难。
最近一些年,各大型互联网公司开发开发了一系列的通用并行计算框架。包括谷歌公司的MAPREDUCE框架、微软公司的Dryad框架(目前微软已经停止该项目开发,转而支持hadoop)、谷歌公司基于BSP模型的Pregel框架、Twitter公司的Storm框架、Yahoo公司S4框架、HortonWorks公司的Tez框架、Berkeley大学的spark框架等通用并行计算框架。
有了这些框架了,程序开发时只需要编写串行执行程序即可,而且也不用考虑任务与任务之间的并发控制以及通讯等问题,其它所有问题都有框架来解决,这样就大大简化并行程序开发难度。例如采用MAPREDUCE框架,我们只需要提供MAP函数和Reduce函数,这些函数对程序员而言,都只是对本地数据操作。目前虽然并行计算框架很多,但是可以把它们分成几个大类(基于BSP并行图计算引擎请参考第四章):
流数据并行计算框架 Storm、S4是属于流数据并行计算框架,适合对流数据实时处理,也就是在数据写入磁盘前对数据进行实时并发运算。这类特点是计算不变,数据一直在变化。在上一个文档中,对此框架做过详细介绍,这里不再详细介绍。基于DAG通用批处理并行计算框架
MapReduce、Tez、Dryad、Spark等属于基于DAG(有向无环图)的通用批处理并行计算框架。这类框架是针对存储在存储设备上的一批数据进行分析处理,而且把分析处理流程利用DAG模型来表达。
在这些框架中MAPREDUCE是最早出现的框架,而后面出现的一系列框架都为了改进MR框架不足而出现的升级版本。MR框架主要不足是两个方面:
一是编程接口太简单,表现在单个MAPREDUCE无法表达复杂运算,所以在实际应用环境中都是通过多个MR作业组合来完成一个任务。为了简化MR作业组合,在早期出现了一系列项目来执行组和式MR作业,例如Cascading项目。另外一个方面所有问题都必须转换为MAP和REDUCE模式,导致程序编写比较麻烦。
二是MR只支持基于数据分区并行方式,不支持流水线并行,采用是步步物化策略来提高可靠性,当是这种导致大量中间结果物化,IO开销非常大。因此Tez、Dryad、Spark等后续框架改进主要针对以下两点进行改进: 一是直接支持基于DAG结构表达方法,DAG使得用户能够非常清晰地写出非常复杂的业务逻辑; 二是通过支持流水线并性方式或者是尽量将中间结果放内存等方式,解决中间结果物化导致的IO开销问题。Dryad和Spark框架在执行运算时,都会自动识别可以采取流水线方式执行的计算步骤,并尽量采用流水线执行方式来执行。容错:由于支持流水线并行或者采取把中间结果放内存的方式,因此要必须考虑容错的问题。由于这些框架都采用的是DAG结构,DAG中一个节点所代表计算的执行是不会对输入进行修改(所谓函数式编程),因此可以多次重复执行不会影响计算。因此如果某个节点计算失败,它可以根据输入重复计算,而如果输入数据也消失了,则让前一个节点重新计算。所有这一切都是由框架自动执行。当然需要指出的是对一些流水线执行的多个计算步骤,如果某个计算节点失败,则只能整个流水线整体失败。
基于Tree结构的MPP并行查询引擎
MPP并行数据库与Dremel、impala、Presto、Shard query、Citusdb都采用的是基于Tree结构并行查询引擎。此类并行计算引擎共同特点是: 一是针对SQL专用并行计算引擎,只支持SQL或者类SQL语义。二是执行计划都是树状结构;
三是以流水线或者将中间结果放入内存方式来实现快速计算。四是粗粒度容错机制。它们之间不同点:
一 MPP并行数据库中并行查询引擎与底层存储是紧耦合的,导致如果采用MPP并行数据库,则只能通过SQL来访问数据,无法采用其他计算引擎直接处理存储在数据库中的数据。
二 Impala、Presto都只是一个并行查询引擎,它们可以直接查询以文件方式存储在HDFS上的数据,这样同一份数据既可以利用这些引擎来实现交互式查询,也可以支持利用其他计算框架进行更深入分析。
三 Dremel 只支持Google自己的基于嵌套结构列式存储(Column IO)。该引擎也主要适合于聚合型计算,不支持join操作。
四 上述引擎中只有MPP并行数据库可以利用索引以及各种统计信息来优化物理执行过程,因此该系统执行效率应该是最高。
五 Dremel、impala都只适合中间结果越来越小的查询,因为这些系统都是把中间结果放在内存,一旦某个中间节点输出结果超过内存,则整个任务会失败,例如大表之间Join。
六 shard query和citusdb 都是在单机版本关系数据库基础上,采用增加一层中间件方式来支持并行查询。
n基于Tree并行计算引擎与基于DAG并行计算引擎本质区别
基于Tree结构并行计算引擎与基于DAG并行计算引擎从表面上看,它们之间的主要区别是在于语义层面:前者主要专用与SQL类,而后者更通用。但是MPP并行关系数据库引擎、Imapla等都会支持通过UDF来扩展和解决标准SQL语言表达能力,另外SQL语言本身可以通过嵌套查询、子查询、union等各种方法表达很复杂的计算过程,因此从语义表达层面来讲他们之间不存在本质区别。
这两者之间主要区别还是在于表达执行计划结构方面:树结构是一个逐步汇聚的一个计算过程,无法表达split结构,因此基于DAG表达结构更灵活和通用。个人认为:树型结构可能更加适合采用迭代器模型来实现流水线式的操作(只有树结构才有上下层的关系,因此方便实现上层操作符嵌套调用下层操作符)。所以不是所有计算都可以通过一个复杂SQL语句来表达!
(5)自动并行化、数据重分布、本地调度
并行计算引擎最重要的一个职责是自动并行。根据前面的并行计算基础知识,并行计算的形式主要包括:基于数据划分水平并行、基于流水线垂直并行、基于无依赖水平并行三种方式。
大数据属于数据密集型计算,数据数量远远超过计算步骤数量。因此基于数据划分并行方式是最有效的一种并行计算方法。在整个并行计算过程中,基于数据划分中涉及数据可以分为两大类:原始数据与中间结果数据。n 原始数据划分以及SN、SD架构讨论
原始数据则可能存在两种情况:一是在Shared-nothing架构中,原始数据本身就已经划分好了,例如HDFS或者SN架构 MPP数据库;另外一种情况如shared-disk结构中,原始数据没有划分。
第一种情况下针对原始数据划分并行计算,就要受该划分的限制。例如在MAPREDUCE中,map输入是存储在HDFS上的数据文件,因此MAP实例个数一是不能少于该数据文件分片数,二是MAP实例最好运行在该数据文件所在机器,也就是要求任务调度时,能把该任务调度到特定机器上,即所谓“本地调度”,将计算尽量移动到数据。第二种情况下,由于所有计算节点都可以看到所有数据,因此此时可以根据计算特点灵活选择:数据划分粒度、并行度、参与计算的节点。例如在ORALCE并性机制中,ORALCE可以针对某张表,按block或者partition 为单位进行划分。根据上述分析我们可以发现SD架构相对SN架构,在针对原始数据第一级并性计算时,SD架构更灵活,SN架构面临的一个缺陷就是如果原始数据分布不均衡,则存在计算倾斜问题。
但是现在大部分大的数据库厂商的MPP数据库还是采用了SN架构。根据网上所查资料来看,主要原因有两点:
一是SD架构下,磁盘是一个共享资源,计算节点越多磁盘争抢概率越大(和RAID随机IO冲突道理一样),导致该架构可扩展性不够好,也就是可能计算节点越多,效率相反不会提高。
二是从缓存角度来看,SD架构下每个机器缓存都要面向全数据库,会导致命中概率底下;目前ORACLE-RAC开发一个fusion cache技术,实现了一个全局共享缓存来解决上述问题,但是可想而知这会影响系统可扩展性。因此超过一定规模数据分析系统,都是采用SN架构。
中间结果数据划分与数据重分布
中间结果是由各个计算节点产生的,因此中间结果生成是就是分布在各个参与计算节点之上的,因此:
一 :SD架构下数据共享好处,对中间结果无效。
二 :如果由于计算任务之间需要,需要在任务之间传递中间结果,则即使是SD架构也存在数据重分布的问题,主要是中间结果重分布,也就是中间结果传输。另外从该过程我们还可以得出另外一个结论:
一: 对于复杂的数据处理,索引只能影响第一级计算,对于中间结果,由于只使用一次,因此没有必要去针对中间结果建立索引。也就是即使我们将数据存储在关系型数据库中,也只有第一级计算能有效利用数据库索引。
二:即使采用并行数据库,如果我们的整个计算过程不能用一个SQL语句来表达,则我们必须自己解决中间结果的划分与并性计算的问题。
(6)并行计算引擎架构与资源管理
所有并行计算引擎实现基本上都是主从结构,即一个MASTER + 多个slave节点的结构。由client向MASTER提交一个job,然后由Master负责将逻辑执行计划变成实际执行计划,并由Master负责将各个任务分发到各个slave中,并负责各个任务的调度。MPP数据库查询引擎架构
MAPREDUCE架构和该架构缺点
Mapreduce框架中,JobTracker承当MASTER的职责,一般和HDFS中的NadeNode节点安装在一个服务器上。TaskTracker安装在各个DataNode上,承担Slave的角色。
流程如下:
(1)首先用户程序(Client Program)提交了一个job,job的信息会发送到Job Tracker中,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信(heartbeat), 需要管理哪些程序应该跑在哪些机器上,需要管理所有job失败、重启等操作。
(2)TaskTracker是Map-reduce集群中每台机器都有的一个部分,他做的事情主要是监视自己所在机器的资源情况(资源的表示是“本机还能起多少个map-task,多少个reduce-task”,每台机器起map/reduce task的上限是在建立集群的时候配置的),另外TaskTracker也会监视当前机器的tasks运行状况。
(3)TaskTracker需要把这些信息通过heartbeat发送给JobTracker,JobTracker会搜集这些信息以给新提交的job分配运行在哪些机器上。MAPREDUCE结构存在以下缺点:(1)jobtracker只能安装在一台服务器上,集中式作业控制导致可扩展性不好,另外JobTracker负责事情太多,容易成为性能瓶颈。
(2)资源调度与编程模型紧耦合,只支持MAPREDUCE一种编程模型。(3)资源划分太简单,每个TaskTracker只是简单把整个机器资源按map task slot和reduce task slot来划分,而没有考虑不通任务所需的内存和CPU等的资源不同。
针对上述特点,hadoop平台开发通用的资源管理器yarn,只负责资源管理和分配,即通过把jobtrack中的资源管理分配自和并行应用程序调度与控制分离,从而实现双层调度框架:由yarn把资源分配给各计算引擎MASTER,再由MASTER分配给各个TASK。
资源管理器YARN
流程如下:
1)client 通过一个CLC(container launch context)向ResourceManager提交一个应用
2)RM 启动该应用的 AplicationMaster。AplicationMaster启动后先向ResourceManager注册,并利用心跳信息,定期向ResourceManager报告自己存活性和资源分配请求
3)ResourceManager分配一个container(container包括CPU个数和所需内存数量)时,AplicationMaster构造一个CLC,并在该container对应机器上Nodemanager上启动该container。AplicationMaster 监控该container的运行状态,并且该资源需要被回收时,由AplicationMaster停止该container。监控container内部的作业的执行进度是AplicationMaster的职责。4)一旦整个运行完毕,AM从RM中解除注册,并且干净退出。
这种架构优点是:
优点一:减小了JobTracker(也就是现在的ResourceManager)的资源消耗,并且让监测每一个Job子任务(tasks)状态的程序分布式化了,更安全、更优美。也就是ApplicationMaster是每个应用一个,并且不通应用对应的ApplicationMaster的实例可以运行在不同服务器上。
优点二:能够支持不同的编程模型ApplicationMaster是一个可变更的部分,用户可以对不同的编程模型写自己的ApplicationMaster,让更多类型的编程模型能够跑在Hadoop集群中。
优点三:对于资源的表示比之前以剩余slot数目更合理。
存储层
数据存储层主要包括以下几类:
一类是基于MPP数据库集群,这类系统特点是存储层与上层并型计算引擎是紧耦合,属于封闭性的系统。
二是采用分布式文件系统,例如SharK、Stinger、HIVE、Impala、Scope等。Shark、Stinger、Hive、Imapla都采用HDFS文件系统作为存储层,Scope采用微软自己开发的分布式文件系统。此类系统特点是存储层与上层计算引擎层之间是松耦合关系。三是存储层基于单机版本关系数据库,例如CitusDB采用PostSQL数据库系统、shardquery采用Mysql数据库系统。此类系统类似于一个中间件,也可以认为上层和底层存储层属于松耦合关系。
四是可以支持各种异构的存储系统,例如Presto、Tenzing。Presto设计即支持HDFS也支持存储在Mysql中的数据,但是目前只支持HDFS;Tenzing底层支持:Google File System、MySQL、Bigtable。
不同存储系统对上层计算有一些影响,典型如Tenzing系统会利用底层存储系统的一些特性:
(1)例如如果低层是mysql数据库,则可以直接利用mysql索引来过滤(2)如果底层是bigtable数据库,则可以直接利用bigtable 范围scan来过滤(3)如果底层是列存储系统,则可以只扫描需要扫描的列。
(4)如果底层是列存储系统,且头文件里面有该列最大值和最小值,则可以利用该信息直接跳过某些文件的扫描。
另外需要指出的是,目前已上所有系统都有一个趋势就是采用列式存储。例如HIVE开发了行列混合的RCFILE文件格式(先按行划分,保证每行的数据不会垮机器存储,然后再按劣存储),shark系统开发了内存中的列式存储格式,citusDB开发了专用postSQL数据库的列式存储引擎。Druid等专用系统简单介绍 1)JethroData系统 JethroData的特点是hadoop+index。该系统对存储在HDFS上的结构化数据建立索引,并把索引文件也以普通文件方式存储在HDFS系统,并在查询处理时采取以下过程:
(1)查询主节点负责分析SQL语句后,针对sql中的where条件部分,利用索引文件来得到符合where过滤条件后的rowid集合。
(2)该rowid集合涉及各datanode节点,采用并发方式来读取数据。(3)所有数据汇总到查询主节点,进行汇总与计算,并将最终结果返回给客户端。可以看出,由于该系统设计思路是希望通过索引来加速数据选择,因此只适合每次查询处理只涉及少量一部分数据。
2)Druid系统
本系统是美国metamarket公司开发的面向海量数据的实时统计分析系统,以实现针对上亿级别海量数据统计分析的延迟在1秒以内。该系统于2012年10月开源。该系统可以认为是一个分布式的内存OLAP系统。
该系统主要分析的数据为交易记录,每条交易记录包括三个部分:交易发生的时间点、多个维度属性、多个数值型度量属性。例如:
该系统设计用来可以回答以下问题“有多少个针对Justin Bieber的编辑来自San Francisco? ”、“一个月内来自Calgary的增加编辑字数的平均数是多少?”。而且要求:能够在高并发环境下,在1秒以内完成任意维度组合的统计,且保证系统高可用;还系统还要能够具备实时数据分析能力,也就是能够查询分析到最新的数据,延时时间为秒级。
为了达到上述目标,该公司先后通过测试发现关系数据库技术和NOSQL数据库都无法满足其需求。关系型数据库由于磁盘io瓶颈导致性能无法满足需求,而NOSQL数据库虽然可以采用预计算方法来达到高性能,但是预计算无法满足分析需求灵活多变。
为解决该问题,该公司自己开发DRUID系统,主要技术思路如下:(1)将原始数据(alpha数据)进行一定粒度合并,合并成beta数据。(2)将beta数据全部放入内存,并通过分布式内存方式解决单台服务器内存
上限问题。
(3)针对纬度属性建立索引,以加速数据的选取。
(4)采用分布式方式进行并行统计,为了保证分布式统计高效,该系统不支持join,而且对聚合计算不支持中位数等无法分布计算的聚合计算函数。(5)利用数据复制解决系统高可靠性问题。4 本章总结
1)MPP并行数据库得益于流水线的执行以及基于统计优化等方面,使得MPP并行数据库的执行效率是最高的。但缺点包括:
n 数据导入时间长,导入时要做各种预处理,例如一些统计信息; n 执行引擎和存储紧耦合导致数据难以被其他分析引擎进行分析;
n 基于树型结构执行计划,导致MPP并行数据库表达能力有限,更适合做统计与查询,而不适合数据分析处理;
n 容错性差,特别是一个任务涉及数据量越大,该缺陷越明显。2)HIVE、Tenzing、Shark、SCOPE、Stinger等系统可以认为基本属于同一类系统。这类系统共同特点是:”通用并行计算引擎框架+SQL解析层”。并且可以将HIVE、Tenzing看成是基于第一代系统,而Shark、Scope、Stinger是第二代系统。这一类系统特点如下:
n 存储层、执行引擎层、SQL解析层三者分离,可以方便替换执行引擎,对使用者而言,同一份数据可以采用不同并行执行引擎来分析。
n 在执行效率方面,由于存储和上层分离因此一半只能具备逻辑优化能力,另外由于Tree结构执行计划更容易采用流水线执行方式,因此这类系统执行效率总体来讲不如MPP关系数据库,它们之间排序是MPP数据库 > 第二代系统 > 第一代系统。
n 在执行效率方面,另外一点是这类系统一般内置对索引的支持不是太好或者不支持。
n 在大规模计算容错方面,这类系统要优于MPP关系数据库。
3)Impala、Dremel等可以认为属于同一类系统,此类系统介于前两者系统之间。这类系统特点是:
n 和MPP数据库类似,基于Tree结构执行计划,专注于查询统计,因此效率高于第二类系统,但是可能和第二类系统的第二代相当。
n 与MPP数据库不同的是这类系统只是一个引擎,与存储系统松耦合。也就是SQL解析层与执行层紧偶合,然后和存储层松藕合。
n 只适合做中间结果越来越小查询分析,中间结果都放内存,对内存要求较高,例如无法实现大表之间的join。因此,在大型互联网企业中,数据量太大,就会出现所谓“高价值、低密度”情况,反映到数据处理上,互联网企业不会长期存储原始数据,而是会把原始数据先经过一部分预处理,经过部分提炼后,把提炼后数据进行长期存储和分析。也就是如下流程:
例如淘宝,把每天数据直接写入Hadoop平台,然后通过每天运行相对固定
mapreduce作业来做ETL,然后在计算结果基础上为提供各种分析功能。其中海量原始数据经过固定ETL后被删除,由于只使用一次,因此没有必要花很大精力把这些数据整理成适合分析与挖掘格式。例如在这种场景下,索引也没有太大的价值,因此没有必要花费大量代价来建立索引。
MPP并行数据库,适合存储高密度价值数据,并且是长期存储和多次使用,所以MPP并行数据库会花大量经历在Load阶段,把数据处理成适合分析格式。通过上述系统地介绍与比较,我们可以得出一个这样结论:在大数据领域,没有一个通用的解决方案,而需要根据具体业务场景,选择合适的技术!
4)通过上述系统研究,我们可以发现一点就是Join操作,特别是大表之间join操作是最消耗资源,也是最优化难度较高的操作,特别是在并行join的实现难度较大。例如Druid和Dremel等都基本放弃了join操作。因此个人认为应该从业务上和从数据预处理方面,通过适当数据冗余来尽量避免在分析过程过程中执行join操作。
四 大数据背景下数据分析挖掘技术介绍 1 Mahout与MLlib项目
数据分析挖掘主要涉及两个方面:一是数据预处理;二是数据挖掘。
在数据预处理方面,根据掌握资料来看,大型互联网公司主要以MapReduce、Storm等计算框架为主,这些平台可以较好解决大数据预处理面临并行计算和处理灵活性的问题。但是个人认为spark、tez等属于MapReduce升级版本,因此后面这些计算框架在这方面的应用会越来越广泛。
在数据挖掘算法执行方面,主要问题解决数据挖掘算法并行计算问题。早期在数据挖掘算法并行化方面项目主要是Mahout项目,该项目基于MAPREDUC 并行计算框架实现了推荐、分类等常用数据挖掘算法的并行化。
但由于数据挖掘算法存在以下两个方面特点导致基于MAPREDUCE框架来做数据数据挖掘算法执行引擎效率不高:一是机器学习算法一般比较复杂,通常需要多次迭代计算,而MapReduce框架的步步物化导致中间结果会反复的序列化和反序列化导致效率不高;二是数据与数据之间依赖特别多,在计算过程中机器与机器之间的通讯非常多,而MapReduce框架下Map与Reduce之间存在路障同步, 导致大量时间被消耗在同步等待上面,效率不高。
因此目前Mahout项目在2014年1月份在0.9版本发布后,该项目抛弃了MAPREDUCE框架,转而采用SPARK作为底层计算框架。
除Mahout项目外,SPARK自己采用SPARK专门针对机器学习领域开发MLlib项目。但是MLlib项目出现时间比较晚,因此在成熟度方面不如Mahout。Mahout项目目前支持的数据挖掘算法如下:
MLLib支持的数据挖掘算法包括:
2 图数据处理处理概述
在数据分析处理领域,随社交网络兴起,对图数据处理的需求越来越多。例如像Facebook和Twitter这样的社交网络,其数据天生就适合于图表示法。对图数据的处理和传统数据库处理一样,也可以分为两种类型的需求: OLTP工作负载,能够快速低延迟访问小部分图数据。
OLAP工作负载,能够对图对象中的大部分数据进行批量分析与处理。1)图数据OLTP处理(1)图数据库分类
适合图书据OLTP处理的系统,主要是各种图数据库。从目前来看图数据库主要可以分为两类:
一是基于图存储模型的专用图数据库,如Neo4j、OrientDB、Infinite Graph等;
二是以通用KV存储系统或者关系数据库系统开发的图数据库,例如Titan系统(2013年推出)可以后端存储可以基于HBASE或者是Cassandra,Twitter公司的FlockDB图形数据库和facebook公司Tao图形数据库是基于mysql来进行开发。根据报道美国NSA就是利用2011年开源的Apache Accumulo(属于分布式KV数据库)来存储社会关系网络数据。
(2)图数据查询
图数据查询其实就是”遍历”图(Traverse)。图数据库查询语言可以使用Gremlin、Cypher等查询语言来查询图。例如Neo4j就支持Cypher查询语言。Cyper查询语言需要以一个节点来启动(START)查询,然后使用MATCH关键词以WHERE关键字过滤节点或者关系的属性,最后以RETRUN关键词来指定查询所返回的数据是节点、关系还是节点或者关系的属性字段。例如: START barbara = node:nodeindex(name=”Barbara”);MATCH(barbara)—(connected_node)RETURNconnected_node.(3)两类图数据库区别
第一类与第二类图数据库区别在于以下几点:
查询功能方面
第一类图数据库可以以非常高效率方式支持复杂查询,既支持从指定起点开始,以任意深度来遍历图,并且还可以支持各种过滤。这样就可以很方便的执行各种图专用查询任务,例如“查找两个节点间所有路径或者最短路径”等。相反第二类数据库则只能支持较为简单查询,如FlockDB就只支持深度为1的关系遍历(个人认为也可以实现,只是效率不高)。可扩展性方面 大部分第一种图形数据库都不支持分布,个人认为可能分布后这种复杂查询难以做到高效,因此可扩展性不好。而第二种由于只支持简单的图便历,一般通过采取按“边”切分的方法来进行分布存储,因此可扩展性较好。
2)图数据OLAP处理
对图数据进行复杂分析,就需要分布式的批处理框架。例如大规模的PageRank计算。在这个领域出现并行图计算框架常见有Apache Giraph、Apache Hama、GraphLab、Pregel、GraphX等。
Pregel是Google根据BSP并行计算模型开发的图计算引擎,目前该系统没有开源。GraphX是Spark项目组基于Spark框架开发的图计算引擎;而GraphLab则是直接在MPI框架基础上开发的专用图计算引擎。下面简单介绍几种主流并行图计算引擎。3 并行图计算引擎
1)基于BSP模型的Pregel引擎
简介
Pregel是Google公司开发的并行图计算引擎,主要用于实现各种机器学习算法。Pregel的输入是一个有向图,该有向图每一个顶点都有一个相应由String描述的顶点标识符。每一个顶点都有一个与之对应可修改用户自定义值。每一条有向边都和其源顶点关联,并且也拥有一个可修改的用户自定义值,并同时还记录了其目标顶点的标识符。
Pregel可以采用多种文件格式进行图的保存,比如可以用text文件、关系数据库、Bigtable。为了避免规定死一种特定文件格式,Pregel将从输入中解析出图结构的任务从图的计算过程中进行了分离。计算结果可以以任何一种格式输出并根据应用程序选择最适合的存储方式。Pregel library本身提供了很多常用文件格式的readers和writers,但是用户可以通过继承Reader和Writer类来定义他们自己的读写方式。
编写一个Pregel程序需要继承Pregel中已预定义好的一个基类——Vertex类。
用户覆写Vertex类的虚函数Compute(),该函数会在每一个超级步中对每一个顶点进行调用。预定义的Vertex类方法允许Compute()方法查询当前顶点及其边的信息,以及发送消息到其他的顶点。Compute()方法可以通过调用GetValue()方法来得到当前顶点的值,或者通过调用MutableValue()方法来修改当前顶点的值。同时还可以通过由出边的迭代器提供的方法来查看修改出边对应的值。基于BSP的执行模型
读取输入初始化该图,当图被初始化好后,运行一系列的超级步直到整个计算结束,这些超级步之间通过一些全局的同步点分隔,输出结果结束计算。在每个超级步中,顶点的计算都是并行的,每个顶点执行相同的用于表达给定算法逻辑的用户自定义函数。每个顶点可以修改其自身及其出边的状态,接收前一个超级步(S-1)中发送给它的消息,并发送消息给其他顶点(这些消息将会在下一个超级步中被接收),甚至是修改整个图的拓扑结构。边,在这种计算模式中并不是核心对象,没有相应的计算运行在其上。
算法是否能够结束取决于是否所有的顶点都已经“vote”标识其自身已经达到“halt”状态了。在第0个超级步,所有顶点都处于active状态,所有的active顶点都会参与所有对应superstep中的计算。顶点通过将其自身的status设置成“halt”来表示它已经不再active。这就表示该顶点没有进一步的计算需要执行,除非被再次被外部触发,而Pregel框架将不会在接下来的superstep中执行该顶点,除非该顶点收到其它顶点传送的消息。如果顶点接收到消息被唤醒进入active状态,那么在随后的计算中该顶点必须显式的deactive。整个计算在所有顶点都达到“inactive”状态,并且没有message在传送的时候宣告结束。
2)graphLab(1)简介 GraphLab一套基于c++的开源图计算库,提供了在共享内存情况下的异步、动态和并行图计算的高层抽象API。该库采用MPI和TCPIP来实现进程间通讯,采用Pthreads实现进程内的多线程并发计算,支持从HDFS和标准文件系统中读取数据。GraphLab定义了多种用于存储图的文件格式,包括“tsv”,“snap”, “adj” “bintsv4”。
(2)与Pregel的不同
GraphLab不是采用BSP的严格执行模型,GraphLab的基于BSP的Pregel的典型的改进是在更好的“异步迭代计算”和“动态计算”。因此该框架计算效率比Pregel更好。
异步计算:很多重要的MLDM算法迭代更新一大批参数,图结构导致参数更新依赖其它的参数。同步系统会以上一次更新的参数基础上一次更新所有的参数(BSP模型中超级步之间市全局路障同步),而异步系统则以最近的参数作为输入来更新参数。异步迭代更新可以极大加 快MLDM算法的计算速度。因为如果采用同步计算,则存在木桶效应,整体速度取决于最慢的那台机器。在大规模云计算环境下,负载不均衡、网络不均衡、硬件差异和多租户等会导致不同 机器之间的速度存在差异。另外由于图分割不均衡,以及计算复杂性等导致各个节点计算量也不均衡。动态计算:很多MLDM算法的迭代计算收敛都不对称,例如在参数优化是,通常很多参数在很少几次迭代中就会快速收敛,而剩下少数参数则即使经过多次迭代也会收敛很慢。因此如果我们等同更新所有的参数,则会浪费大量的时间在重复计算那些已近收敛的参数上。最近的一些计算框架部分支持动态计算,例如Pregel可以通过让某些节点跳过一些超级步来部分支持动态计算。(3)GraphLab的计算模型
graphLab包括三个部分:数据图、更新函数、同步操作。数据图表达用户可修改 的程序状态,存储可变的用户自定义数据和计算之间依赖。更新函数通过一个scope的数据变换来表达用户对数据图的计算和操作。同步操作并发维护全局汇总。
一个点的scope代表存储在这个点上的数据 和所有与这个点相邻的点和边上的所有数据。update f(v ,s(v))--->(s(v), 边集合)。经过一个更新函数后,新计算出 的s(v)会被写回图,并返回一个定点集合,针对该集合的每个点再执行 f(u ,s(u))
为了更高效的并行执行,GraphLab容许GraphLab框架动态的选择执行顺序,即RemoveNext(T)的返回值。因为很多MLDM算法需要执行优先级别,因此也可以指定点的优先级,这样GraphLab会综合考虑优先级以及网络情况来调度。
(3)GraphLab的并行计算
根据领域知识,将图分割为K份,K值远大于机器数量。每个分区被称为atom, 以一个文件形式存储类似HDFS的分布式文件系统上。Atom中存储的是增加点和变的操作记录,可以通过回放的方式来重构图。
采取把点着色的方法,先保证每个点和相邻点之间的颜色都不相同。通过一个颜色一个颜色的并发执行,来实现边一致性。把这种成为颜色步,与BSP的超步模型相对应。该引擎保证在执行下一个颜色步之前,所有的修改都被传递,实现颜色步之间的路障同步。
由Master根据atom索引来计算atom的位置,并负责机器与atom之间的分配关系。然后每个机器读取atom文件来加载图。每个机器上有一个调度器负责调度属于自己的子图的点的计算。调度器负责把每个需要执行update 函数之前所需要的数据和锁准备好后,放入一个流水处理队列中,再由一个worker线程池来执行,通过一个分布式算法来确定所有机器上的调度器中的T为空,也就是整个计算结束。
3)graphX
基于SPARK图形计算引擎,GraphX提供的API可以很方便的表达各种针对的转换、过滤和查询操作,但是GraphX不能直接实现迭代并行图计算算法,但是可以基于这些API用来实现各种并行图计算算法。在GraphX论文中描述了利用GraphX来实现Pregel、PowerGraph的方法。
GraphX的优势是可以很方便的与shark等进行集成,例如直接对shark查询后的结果进行图计算。
4)总结
(1)上述计算引擎都可以以灵活方式来存储图,基本上都可以以文件方式来存储图数据,实现计算引擎与存储分离。
大数据处理的算法与应用实践 篇3
本文将首先讨论非结构数据处理流程涉及到的主要算法和技术,并在最后列出非结构化处理在典型行业的一些实际应用案例。
一 非结构化数据处理流程
非结构化处理流程主要以网页处理为例来阐述,包括三个阶段,分别是信息采集、网页预处理和网页分类。
信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程;网页预处理主要是进行一些数据清洗的工作,保证分类质量;网页分类工作则是通过数据挖掘算法训练出来的分类模型,对分类数据进行分类提炼,得出有价值的信息。
信息采集
信息采集面对的是特定的专业人群,其采集的信息只限定于特定的主题和相关的领域,出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历,因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性,并判断其是否值得访问;需要研究以何种爬行策略访问Web,以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。
信息采集的基本方法是通过预先设定的种子链接集,利用HTrP协议访问并下载页面,在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接,预测链接指向主题相关页面的可能性,再以各种不同的爬行策略循环迭代地访问网页。
信息采集根据基于主题的不同可分为以下两类:一类是基于内容的主题信息采集:它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集:它是基于网页之间的引用关系,类似Page rank算法。
网页预处理
网页预处理部分本文主要介绍一下网页去重,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重需要先对文档对象的特征抽取,需要将文档内容分解,由若干组成文档的特征集合表示,该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码,主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较,起到减少存储空间,加快比较速度的作用。最后需要进行文档的相似度计算,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征,通常是一组词,或者是词加权重,调用特定的算法,转化为一组代码,也被称为指纹。若两个页面有相当数量的相同指纹,那么可以认为这两个页面内容重复性很高。
网页分类
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等等。
网页分类方法有SVM分类方法和朴素贝叶斯方法:其中比较推荐的是SVM分类方法,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。
典型的SVM分类有两种,一种是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
典型的朴素贝叶斯分类,它可以分为模型训练、模型分类和分类结果评估三个阶段:模型训练阶段,主要计算训练集下所有类别的先验概率,以及所有特征词在每一个类别下的条件概率;模型分类阶段,对训练集建立模型;对每个待分类文档计算后验概率,后验概率大的类别为文档所属类;分类结果评估阶段:对分类结果进行抽样、人工检验。分别计算出每个类别分类的查准率和查全率,通过F—度量公式评估模型准确度。
二 自然语言处理的典型方法与应用
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
自然语言处理部分主要以舆情分析为例,舆情分析系统的数据来源有三个渠道,一是网络上公开的信息,如各大交易所每日评论,社交网络各方观点和财经门户网站。二是从合作方获取的信息,如交易信息等。三是微博、人人网等社交网络信息。
网页信息摘要
网页信息摘要需要将同一主题下的多个文本描述的主要信息,按压缩比提炼出一个文本的自然语言处理技术。对于互联网上海量的期货分析报道,如果能从中提炼出一个覆盖性强、形式简洁的摘要将具有重要的意义。
nlc202309022122
如何收集企业的战略信息?面对海量信息,一个研究员需要花费4个小时阅读相关信息。借助语义引擎,把50篇文献缩略成10余条概要,面对概要信息,一个研究员需要花费3分钟阅读相关信息,并形成思考。借助文字情绪引擎,把概要内容指数化、知识化,面对指数信息,一个研究员需要花费2秒钟阅读相关信息,并获得决策支持所需的知识。
热点事件预测
热点事件的发现与预测的算法有很多,最行之有效的方法是做大规模的逻辑回归。在大数据的背景下,我们拿到的数据是全量并非抽样,这使得类似逻辑回归等简单算法起到事半功倍的效果。通过历史事件传播数据,提取向量,并做逻辑回归出规则,就可以做很多预测。例如美国大选,疾病传播,甚至预测死亡。
维克托·迈尔-舍恩伯格写的《大数据时代》一书中就有这么几个关于热点事件预测的案例:
案例一:华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。他的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著——当年第一季度,霍延的公司获得了7%的收益率。
案例二:美国一个超市将女性顾客中的孕妇视作购物的黄金消费者。为了将这部分目标人群在怀孕前就争取过来,该超市通过调查罗列出几十种购物偏好,当某位顾客的收银条上集中呈现这类商品时,就会被认定为可能是孕妇或家中有孕妇,超市随后向其发送孕妇产品广告。一次,当有人以“家中并无孕妇却总是收到相关产品广告”为由控告这家超市后,却发现原来是自己还在上高中的女儿怀孕了。
案例三:2009年甲型H1N1流感病毒出现,在没有疫苗的情况下,公共卫生专家能做的只是减慢传播速度,要做到这一点,专家必须先知道流感出现在哪里,这只能依靠各地医生发现并告知疾控中心,信息肯定是滞后的。可是,Google的工程师们比疾控专家更早地判断出流感从哪里传播出来,他们依靠的就是Google所掌握的大数据。
历史相似事件可使用文档相似度比较。文档相似度比较算法首先采用TF-IDF方法把文档建模为词频向量,然后使用向量距离计算算法求得。常用的距离计算方法如:Jaccard距离、欧式距离、余弦相似度等。
情感分析
正负情感度量化统计分析一般用于分析金融机构和大众对期货产品的态度、情感和观点倾向,对行情走势往往具有十分重要的意义。通过对收集来的信息进行情感度分析后,可以统计出社会舆论对期货未来走势的观点倾向度。通过计算历史舆论观点与走势的相关度可以验证情感度分析模型的有效性。
情感词监测模块是通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,实现热点信息的实时发现。通过搜索引擎抓取情感关键词热度,计算关键词与趋势相关性。
主题词表的优劣在相当程度上影响了系统后续的信息采集内容和效果。首先,由领域专家给出相关领域的权威网站作为基础语料来源,通过对权威网站网页内容的整站抓取获得领域语料资源。之后对语料资源进行中文切分词和词频统计,获得一张高频词表。再由领域专家对高频词表中的高频词汇进行整理,人工选取出与领域相关的词语。然后,对从高频词表中选取出的领域主题词进行上位词(花是鲜花的上位词,植物是花的上位词)、下位词、同义词、近义词扩展,去除重复词汇,从而最终形成相关领域的主题词表。在信息采集系统后续的采集中还将不断收集相关领域的新词汇,在发现领域新词后加入到领域主题词表中,形成系统性的反馈机制,从而不断对主题词表进行更新维护。
正负情感度量化统计分析是从抓取的文章中进行情感度分析打分,分数范围为不等。负数越大表示负面观点强度越强,正数越大表示正面观点强度越强,0表示持有中立态度;通过情感度分析可以统计出一段时间内社会舆论对于某个话题的正负面态度,舆论压力往往可以导致市场波动。
情感词检测通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,出现频率较高的词语作为热点信息词,实现金融热点的实时发现。
趋势分析和预测
根据交易的价格曲线走势,与综合指数对比,使舆论指数趋势体现与交易价格曲线的相关性和一定的前瞻性。通过构建时间序列模型,对未来走势进行预测,如图1所示。综合指数包括各个相关因素的变化趋势(天气因素等)以及舆论指数。
三 行业应用案例
数据挖掘和自然语言处理的应用范围广泛,其中也不乏一些有意思的案例,它可能应用于运营商、银行、传统企业和券商,挑选几个具有代表性的案例与大家分享。
电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计清洗出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估。这些数据指数可以有效协助商业银行进行供应商风险评估。
地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体(微信、微博等)数据,进行网络口碑监测,负面情绪被及时发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
证券行业
某券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点(今日摘要),今日舆论,展示抓取的所有期货产品相关信息(如大豆)的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响。通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
从以上几个非结构化数据处理在典型行业的实际应用案例,我们不难看出,当今社会中的各个行业对数据挖掘和自然语言处理应用的需求量巨大,该领域蕴藏着巨大的商业价值和理论研究价值,在上网日志分析、商风险评估、社会化品牌实时营销和战略信息监测等实际应用领域都有着非常广阔的前景。
大数据分析处理系统 篇4
1 系统处理数据的类型分析
1.1 基础数据
电力自动化系统相关的基础数据主要是指电力设施的数据,比如变压器、发电机等设施的参数。系统的基础数据大多都是由企业自身来进行管理,然后利用服务器来同步各种基础数据,这样也能方便调度来对基础数据进行存储管理。
1.2 运行时产生的数据
电力系统在运行时会产生大量的实时数据,系统在对该类型数据进行处理时需要较大的空间来进行存储。电力系统在运行过程中产生的数据及时进行处理,可以为电力企业进行调度时提供一定的决策。电力自动化系统在我们国家的电力企业中已经有了较为成熟的使用经验,对电力系统运行时产生的数据处理也较为成熟,对实时数据能够进行合理的管理。
1.3 管理产生的数据
这种类型的数据一般都是电力系统在运行中统计数据时,不同部门解决问题时产生的数据。管理产生的数据在管理人员制定范围内上传同步即可。电力系统在运行中,工作人员必须要建立起数据同步的平台。管理数据具有以下的特点:
1)管理数据可以将电力系统中所有设备的运行状态反映出来。
2)管理数据的整理分析能够对企业中不同部门的管理提供帮助。
2 电力自动化系统数据采集及特点分析
2.1 系统数据的传输
电力自动化系统产生的数据需要经过采集、整理以及转换等过程来进行处理。由于系统产生的数据多种多样,为此,需要借助不同的介质来传输不同的数据。电力系统产生的数据可以采取以下方式来进行传输:1)有线传输,数据可以利用电缆以及光纤灯介质来进行数据的传输,这种传输方式具有可靠性好、实时的特点;2)无线传输,电力自动化系统产生的数据可以利用无线扩频的方式来进行传输,这种方式不需要敷设线路,并且工作量非常小。
电力自动化系统在运行时涉及的内容比较广泛,并且企业需求不同时系统也需要不同的内容来支持,这样能够满足不同部门对数据的需求。电力自动化系统在建设时,必须对经济性以及技术性综合进行考虑,并且系统的可操作性也要进行研究,通过综合的研究,确保电力自动化系统的经济效益以及社会效益的协调。
2.2 系统数据的特点
电力自动化系统的数据具有唯一性的特点。系统在运行时势必会产生许多数据,并且这些数据都是运行时产生的特定的信息,并且一部分信息可能回存在交叉的现象。电力自动化系统是由许多的子系统构成,并且不同子系统的数据都会储存在子系统的数据库当中,这也使得整个系统产生了较大的数据冗余,影响到系统对整个数据信息的处理,并且数据的更新速度也比较慢,当存储达到一定程度后,处理数据时出现问题的几率会大大增加,使得系统数据的处理可靠性大大降低。为此,我们也需要对系统的数据库统一进行管理,这样也能有效保证系统的数据能够高度一致。此外,系统数据的唯一性对于整个数据库服务器的管理也有一定的帮助。数据库的管理必须要实时统一管理,这样系统数据才能保证具有唯一的特点。
3 电力自动化数据处理分析
3.1 系统数据的共享
电力自动化系统的数据可以通过以下方式来实现共享:1)共享文件,文件共享具有非常明确的目的,并且文件的结构比较简单,只是文件在读写等方面还存在一定的缺陷,有待进行改善;2)访问内存,这种措施的读写比较便捷,其缺点在于安全性有待提高,并且这种方式的编程难度较大;3)通讯网络,这种共享方式的传输效率比较高,且缺点也是编程难度较大;4)商业数据库,数据的共享可以利用数据库来完成,对于电力自动化系统来说,数据库的数据共享存在即时性效果差的缺陷;5)内存数据库,这种共享方式是将系统产生的数据存储到内存当中,这种措施可以实现高速灵活地访问数据库,并且这种方式的结构比较简单。
以上几种数据的共享在使用中必须要保证系统数据能够具有实时性,并且数据的贡献必须能够满足系统运行的需求。从以上几种方式我们也能看出,内存数据库在电力自动化系统的应用当中具有较好的应用范围。
3.2 系统数据容灾
电力自动化系统在运行过程中产生的数据必须要进行备份来进行保护,一般情况都是利用通信网络来传递系统备份的数据进行保存。一旦电力自动化系统出现故障不能正常运行时,电力企业可以通过专业人士来对系统中的备份数据进行恢复,保证了数据的安全。通过数据备份的方式,也有助于电力企业降低数据保存的成本,并且这种方式的操作也比较简单。
如果电力系统数据备份的量比较大时,会增加数据库的管理难度,如果电力自动化系统发生故障不能正常使用时,数据的恢复也势必存在一定难度。在这种情况下,电力企业可以先恢复重要的系统数据,然后再恢复其他的数据。
3.3 系统数据处理发展趋势
随着科学技术的快速发展,电力自动化系统也得到了快速的发展,目前系统已经出现了智能电网,智能电网能够对电力自动化系统进行有效的监控,在提高电力系统运行效率的同时,也能极大的降低企业的成本,具有较好的运行前景。此外,智能电网能够对发电、输电及配电等提供较好的服务,降低电力资源在不同环节中产生的损耗,对电力系统的稳定运行有着积极的意义。
4 结论
电力自动化系统在运行中必须要对产生的数据进行合理的管理,及时对系统数据进行存储及维护。我们通过对电力自动化系统的数据类型进行分析,然后分析系统数据的处理,通过对电力自动化系统数据的研究,为电力单位快速准确的处理数据提供一定的帮助。同时,通过研究我们也能帮助电力单位对自动化系统运行产生的数据进行维护以及扩展空间,并且对电力自动化系统的发展方向进行相应的探索。
摘要:随着计算机网络技术的快速发展及应用,电力自动化系统中计算机网络技术的应用也是越来越成熟,并且提高了系统对各种数据的处理效率。本文对电力自动化系统的数据类型进行研究,对数据的处理分析以及数据处理存在的问题进行简单的介绍,并且对电力自动化系统未来的发展方向进行一定的阐述。
关键词:电力自动化系统,大数据,数据处理
参考文献
[1]张钢.大数据时代下的电力自动化系统数据处理[J].广东科技,2013(11):20-21.
[2]闫丽雁.电力自动化系统中的数据处理[J].河北理工大学学报:自然科学版,2014(7).
[3]张玮.浅析电力系统自动化中的数据处理[J].科技创新导报,2009(30):134.
[4]蒋亚.电力自动化系统中的数据交换[J].科技创新导报,2011(4):134.
大数据分析处理系统 篇5
下图给出了Lambda架构中各个层常用的组件。数据流存储可选用基于不可变日志的分布式消息系统Kafka;Batch Layer数据集的存储可选用Hadoop的HDFS,或者是阿里云的ODPS;Batch View的预计算可以选用MapReduce或Spark;Batch View自身结果数据的存储可使用MySQL(查询少量的最近结果数据),或HBase(查询大量的历史结果数据)。Speed Layer增量数据的处理可选用Storm或Spark Streaming;Realtime View增量结果数据集为了满足实时更新的效率,可选用Redis等内存NoSQL。
大数据分析处理系统 篇6
《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。
优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。相关人士向记者表示,优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。
优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。
“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。
优酷大数据团队大数据平台架构师傅杰告诉记者,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。
“随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。”卢学裕说,“最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。”
Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。作为一种与 Hadoop 相似的开源集群计算环境,由于启用了内存分布数据集,Spark 在某些工作负载方面表现得更加优越,除了能够提供交互式查询外,它还可以优化迭代工作负载。
据悉,英特尔公司从2012年中旬开始向Spark开源社区贡献,目前已经与优酷等互联网公司进行了相关的合作。英特尔(中国)有限公司销售市场部互联网及媒体行业企业客户经理李志辉表示:“未来英特尔还会持续跟优酷合作,一旦整个集群达到一定规模,英特尔还会投入相应专家来帮助优酷做一些硬件配置上的优化,包括系统的一些优化工作。最终的目标,就是将英特尔的整体解决方案和优酷这样的用户的业务相结合。”
基于大数据的数据处理方法研究 篇7
关键词:大数据,预处理,历史查询
1 概述
随着无纸化电脑办公的不断普及,越来越多的数据被个人、企业和机器所产生,以TB或PB级别保存于存储中,数据量直线上升。传统的数据处理主要是对数据库的直接操作,随着数据量的急剧增加,处理效率将急剧下降。与此同时,有效的数据,正确的数据结果已成为企业竞争的核心因素之一。因此,所有这些对大数据的处理能力和效率提出了更高的要求。
为了更好的处理这些大数据,许多机构与公司开发了相应的新技术和新架构,主流思想是基于并行编程框架,以并行处理来提高数据处理效率,如Map Reduce[1]通过机器线性扩张线性增加并行计算能力,Map Reduce-Merge在Map Reduce基础上增加数据合并,YARN解决并行共享槽瓶颈。此外也产生了其他的编程模型,如提高迭代计算能力的Twister[3]和Haloop[2],提高对图计算的Pregel,但这些编程模型也是基于对Map Reduce的改进,基础依然是并行处理。
虽然针对大数据的并行处理,但处理TB级的大数据,如统计分析,依然需要花费很长时间,消耗很大的机器性能,这对企业交互式数据操作,依旧很难满足即时需求。针对这种情况,该文设计了一种基于大数据的数据处理方法,通过历史处理结果和预处理结果为中间结果集,减少数据重复处理,提高数据处理效率,为大数据的即时处理提供一种新思路和方法。
2 基于大数据的数据处理框架
图1是基于大数据的数据处理框架。该框架主要依据用户的查询请求,依据查询条件首先在历史查询集中匹配是否有相同或部分相同的查询,若有,确认历史查询集中的数据处理集是否都来自结果集,若是,直接返回结果,通过减少对数据的重复处理,从而减少时间消耗。
其中,历史查询集是对历史上用户某段时间数据查询时数据预处理结果,其结果包含两份分别存于预结果集和结果集。预结果集和结果集时间单位里的数据预处理结果,不过,预结果集表示有可能存在更新的最小时间单位数据预处理集合,而结果集表示不再变更的数据预处理集合,预处理结果粒度大小不一。工作流程如下所示:
1)用户提交新的查询请求S;
2)对查询请求条件与历史查询集进行匹配,匹配结果有三种:
1匹配,历史曾经有相同的查询,直接返回数据预处理结果集合;
2包含匹配,调用历史结果集中的数据预处理结果集合,对超出的部分从预结果集和结果集中进行重新匹配;
3不匹配,直接在结果集和预结果集中进行匹配查询,若是依然没有匹配的结果,执行新的查询操作,结果放入预结果集或结果集。
3)若数据处理集有来自预结果集,对来自预结果集的数据处理进行更新,若预处理的结果变为不再变更,转入结果集中。
4)对数据处理集合并处理,形成结果R,依据具体请求进行相关处理,将结果返回给用户。
5)若是结果R不是完全匹配得出的结果,将结果R更新到历史查询集中。
3 基于大数据的数据处理框架关键技术
基于大数据的数据处理框架的关键技术有查询请求与历史查询匹配方法、预结果集更新、转入结果集方法。
3.1 查询请求与历史查询匹配方法
数据预处理结果主要要素有时间、数据源,是基于时间单位的粒度式数据处理结果,如图2所示,它为企业的数据统计分析奠定快速反应的基础。
因此查询请求与历史查询匹配以两者为匹配要点。匹配算法为:
输入:查询请求Requst={Ts,Ds},历史查询集
输出:预处理结果集合Result
算法基本思想:
1)找到与查询请求数据源相同的数据库表集合T,T=Ts;
2)查找该表集合T下包含处理时间或是相同时间的历史查询记录,D={D=Ds or Ds∈D};
3)若是Ds不包含D,跳转结果集R匹配算法;
4)若是,从结果集和预结果集中得到相应的预处理结果,,结束算法;
5)若是Ds∈D,重复步骤4);
6)同时,D=Ds-D,重复步骤3)。
3.2 预结果集更新、转入结果集方法
数据预处理主要分为两大类,一是不再变更,客观存在的数据预处理,如几年前的销售数据,其保存在结果集中,二是存在变更的数据预处理,如近期的销售数据,可能会存在更新等情况,此类数据预处理以最小时间单位形式放入预结果集中,但在一定的规则下,如时间限制、产品停用等可转变为不可变更的数据预处理,转入结果集。
假设是对当月的淘宝销售数据预统计,因为当月的数据将会因为退货、货源不足等原因影响销售数据,故对当月的销售数据预处理结果将会存于预结果集中,但淘宝的当月订单状态结束状态时,更新包含该订单销售数据预处理集合,那么在对当月数据预处理后,其处理结果是不在变更的,将其转入到结果集中,减少不必要的数据处理,并在一定程度上保证数据的准确性。
4 仿真实验
4.1 实验环境
以Windows Server 2003为实验环境,Oracle 11g为数据库,以现有营销系统的销售数据为数据源,采用本文提出的方法对销售数据按最小周期(5天)、月、季度、年的方式进行预处理。以月为预结果集转入结果集的规则。
4.2对比方法
本实验将用现有的营销系统和新的统计系统对比统计销售数据所花费的时间和数据的准确性。具体设计以下比较方法。
1)最近一个周期某产品的销售量统计对比。在一周期内每日进行数据查询,对比每次花费的时间和数据的准确性。
2)时间段某产品销售量统计对比。进行多个时间段(周期,月,季度)数据查询,对比每次花费的时间和数据的准确性。
4.3实验结果分析
1) 最近一个周期某产品的销售量统计对比
图3和图4表明两个系统查询消耗时间差不多,新系统只是略少于原系统,但准确率一样,都为100%。这是因为查询的数据源是查询当天产生的数据,前几天的数据进行预处理,结果存于预结果集中,每次都查询都会进行前几天的数据更新,消耗大部分查询时间.但是因为数据实时更新,故两个系统数据准确率是相同的。
2)时间段某产品销售量统计对比
图5和图6表明两系统在时间段产品销售量查询时间新系统远小于原系统,但在准确率上有一定的降低.这是因为新系统对一个月以前的数据进行了预处理,并保存在结果集中。查询月以上周期的销售量时,不用重新到数据库中查询,故时间大幅度减少.但因为现有数据库操作是更新操作,若是订单的更新是超过一个月后更新的话,变更数据会被忽略,属异常个别情况。若采用销售数据变更采用云数据库等追加方式,则准确率上可得到解决。
5 总结
大数据分析处理系统 篇8
近年来, 随着计算机技术和网络技术的不断普及, QQ、微博、微信、电子商务、社交网络、物联网等概念的提出及实现在很大程度上改变了人们的日常生活, 同时也带来了海量数据, 人们进入了大数据的时代。在大数据时代, 每天都会产生海量的信息数据, 而这种海量数据会随着时间推移不断积累, 常规的计算机信息处理技术已经难以满足海量数据的处理需求, 这给计算机信息处理技术带来了新的巨大挑战, 人们需要用全新的视角和创新的理念去处理大数据问题。此外, 在网络技术迅速发展的今天, 海量数据也使得任何人都可以随时随地地从中获取自己想要的信息, 这也必然涉及到数据安全问题。因此, 只有根据发展需要, 对计算机信息处理技术不断进行创新和突破, 才能跟得上时代发展的脚步。本文将对计算机信息处理技术及大数据的概念进行界定, 进而分析大数据时代下计算机信息处理技术所面临的机遇与挑战, 最后对大数据时代下计算机信息处理技术的发展方向进行探讨。
1 计算机信息处理技术和大数据的概念
1.1 计算机信息处理技术的定义
计算机信息处理技术在现代办公与企业管理数据中扮演着极其重要的角色, 它是将数据传输, 信息分析、处理、使用等技术结合在一起, 从而更方便快捷的管理数据信息。计算机信息处理技术涉及领域很多, 它以计算机技术为核心, 还包括传感、微电子、通信工程、网络工程等先进的科学技术。在现今尤其是企业管理数据处理与现代化办公中得到了充分的利用, 逐渐成为人们日常办公生活的一部分, 员工在专业设备帮助下可以合理安排工作, 把人与硬件、软件三者相结合, 极大程度上提高了办公效率, 计算机信息处理技术在数据库与计算机技术的支持下, 通过数据处理系统, 根本上改变了传统的办公模式, 产生了非凡的影响。
1.2 大数据的概念
从字面意义来讲, 大数据即数据量极其庞大的数据, 这不仅仅局限于数据信息量的巨大, 还包括数据信息的复杂化、产生信息的多样化与数据信息的重复化。随着当代社会虚拟数据化快速且不断的发展, 大数据是现今社会的必然产物, 与传统计算相比, 大数据有很多优势, 例如大数据拥有低廉的成本, 高比率的资源利用率, 规模大, 速度快等特点。而大数据数据量庞大, 从而产生数据冗杂与各种数据之间复杂的关系。在生产与生活中, 大数据可以把所有的活动用数据记录存档, 这是其核心。分类分析、遗传算法、机器学习、遗传算法等都是大数据的关键技术。
大数据具有超前的决策能力与洞察能力, 相较传统数据软件有其可望不可即的数据处理能力, 符合了物联网与计算机发展的需求, 极大程度上对社会发展与人们生活习惯产生变革性的影响。《华尔街日报》认为大数据与智能化生产、无线网络革命并称为引领未来繁荣的3大技术变革。在大数据时代, 对于用户群体来讲, “云”是很多人再熟悉不过的系统, 蜂拥而至的各种IT云盘、云照片、云音乐等提供几乎无限的互联网资源, 利用虚拟数据, 便于用户在随时随地分享云资源, 从最早的电脑, 到普及的平板与手机, 只需要网络与大数据“云层”, 就可以告别之前原始的操作。
2 大数据时代计算机信息处理技术的机遇与挑战
2.1 面临的机遇
2.1.1 数据挖掘与应用创造出更多的产业价值
数据挖掘即通过分析每个数据, 从大量数据中寻找其规律的技术。数据挖掘一般由3个阶段组成:数据准备、规律寻找与规律表示。
数据的挖掘有利于提高决策。很多企业在把庞大的数据集中后, 碰到“数据海量、信息缺乏”的通病问题, 这就在数据准备阶段遇到难题, 大多数事物型数据库仅有数据录入、查询与统计这些比较简单但是低层次的功能, 无法从冗杂的数据中快速准确地提出有效的信息, 进而更无法通过数据总结出更有价值的信息, 这样就无法发现目标规律并且表示出这种规律。如果能及时准确地对庞大的数据进行到位的分析, 就可以获得一些隐藏在数据背后的信息, 比如目标群体在该领域的行为习惯、兴趣爱好, 通过专员来为该群体“私人订制”, 做出合理的决策与对应措施, 提高工作效率与企业核心竞争力。例如在用浏览器检索某词条时, 键入某些关键字后, 就会跳出该关键字前缀与后缀的词组选项, 甚至只打出关键字汉语拼音第一个字母都能够检索到该词条, 这就是浏览器通过大量网民的“行为轨迹”数据进行记录与挖掘分析的基础上, 总结出搜索者的共性习惯行为, 大大提高了检索速度, 从而让更多的网民不约而同地使用该检索网站。
2.1.2 带来了物联网与云计算的新形势
物联网是当今社会通信系统、信息传播、计算机技术等高新技术集中的精华。作为新兴产业的重要内容, 它普及应用在信息与网络成熟的系统工程中。大数据时代下, 物联网衍生出很多新型的产业, 信息化的养老系统完善, 人民群众基本IC一卡通的普及, 方便且多功能的电子钱包的应用, 过年取代传统的现金红包而火热流行的电子红包等等都是从以人为本为出发的核心, 切切实实地充分利用大数据与云服务的功能。新形势下, 云服务的浪潮是几乎不可避免的。云计算是通过把数据聚集起来, 在云平台与各种电子设备进行数据交换, 上传下载用户所需要的信息。在新的政策环境下, 云计算的服务能力得到了增强, 大力推进了云计算的发展;云计算自主创新能力包括自身的创新能力与计算机信息处理技术发展与云计算相结合能力也大大增强。
2.2 面临的挑战
2.2.1 信息安全的要求更高
大数据时代下, 网络越来越普及, 信息安全问题就日渐重要, 无论是大型企业的信息安全还是每个网民个人信息安全都格外重要。在进行网上冲浪与网购的时候, 就必须注意网络信息, 甄别信息的真假, 稍有不慎, 通过钓鱼网站, 个人隐私被入侵, 信息就会落入不法分子手中, 造成信息安全问题进而产生人员与财产的损失。毫不夸张地说, 在当前条件下, 谁要掌握信息供给网络, 谁就拥有整个世界。所以, 国家应该建立更完善的法律;相关机构可以通过应用来牵引相应的安全的技术发展, 充分发挥自身优势;个人也应该注意保护私人隐私, 避免不必要的损失。
2.2.2 需要专门的人才
大数据时代下, 既需要技术人才更需要管理人才。大数据时代是技术的时代, 技术型人才自然炙手可热。而人才的培养需要一定的周期, 对于这种新兴的产业, 人才缺口自然较多。相对于技术型人才, 管理型人才更为紧缺且重要, 政府和企业的领导者, 也要有意识地转变思维方式, 学习用数据思考、说话和管理。在飞速发展的社会中, 经验主义会成为大数据时代的束缚。比如, 很多管理者抱怨“90”后员工无法使用过往的激励方式来鼓励, 相对来讲, 下级与上级、同事与下属沟通不畅, 这都是各自成长环境所影响的。管理者们需要不断更新自己的数据库, 学会用大数据的方法, 随时去找到合适的解决方法, 这些都是需要漫长的演变过程。
2.2.3 数据价值分析更为重要
大数据的实现在于分析。拥有大数据并不是企业与政府的目的, 其目的是从这些数据中了解真实的信息, 决策者通过数据进行真正合理的管理、决策、检测、评价, 并在生活中产生价值。对海量数据分析早已成为企业、政府的迫切需求。大数据下数据冗杂、繁多, 数量十分巨大但是密度却较低, 这就容易出现很多无用的信息与挂羊头卖狗肉的虚假信息, 需要逐个筛选鉴别, 这是一个十分艰难且巨大的系统工程, 并不是一般的个体或者企业能胜任的任务。大数据的分析需要一个漫长原始数据的积累, 例如百度的词条检索, 是经过上亿网民不断检索积累才造就了如今的智能检索;同理, 亚马逊上拥有美国所有生活必需品, 因此它可充分掌握美国消费者的原始数据, 做出的判断就有权威性与预测性, 甚至可在某时期向特定商家订购特殊性商品, 并且能保证热卖, 这都是根据亚马逊有巨大的数据源, 常年累计分析推测出来的。
3 大数据时代计算机信息处理技术的发展方向
相对于传统小规模的单一数据形式, 大数据通常具有数据规模大、数据机构复杂等特点, 各种数据间形成的相互关联的结构, 增加了数据处理的难度, 而当前的计算机信息处理技术很难胜任大规模复杂结构数据的处理需求, 这就需要一种新的数据服务网络来提供更加高效、快捷的服务。此外, 大数据时代的到来, 带来了机遇, 也带来了更多的风险, 因此, 安全性也是未来计算机信息处理技术发展的方向之一。
3.1 计算机网络朝着云计算网络发展
云计算网络发展离不开已经成熟的计算机网络, 计算机网络是其必要的基础, 两者缺一不可。计算机网络发展离不开计算机硬件的不断更新换代, 然而就目前来讲在大数据时代, 常规的计算机硬件已经不能够满足如此巨大的数据处理需求, 常规计算机数据处理架构也存在诸多问题, 最突出的是新应用的数据需求已经超过目前计算机硬件所能提供的上限。在大数据时代背景下的今天, 与网络发展步伐相比, 计算机硬件的发展速度远远落后;与此同时, 当前传统的计算机网络技术是建立在硬件基础上的静态模式, 这种模式没有及时快速地响应当今瞬息万变的网络与应用发展的弊端显露出来, 由此应运而生出类似于数据中心这种将现有的网络转变成可编程的基础设施。随着云计算网络不断发展, 企业与政府对网络的需求, 不仅仅局限于简单的网络中心, 把目标转向类似于开放式传输这种快捷, 更符合大数据时代的网络方式。网络软件有着计算机软件缺少的灵活的编程性与回应性等重要的优势, 因此云计算也逐渐转变为互联模式, 即云计算网络。该技术拥有更多信息储存能力同时具备完整服务器运行计算与数据处理能力。避开了计算机处理数据信息速度慢、效率低的问题, 并能及时反馈。凭借着云计算网络完善与发展, 计算机信息处理技术将更加快捷、高效率, 应用也会越来越丰富、普及。
3.2 计算机安全信息技术进一步发展
在大数据时代, 整个数据系统是通过网络相互连接的, 个人电脑的数据存储将通过互联网共享到计算机网络平台。而网络本身是一个开放性的平台, 任何人都可以随时随地地从中获取自己想要的信息, 在大数据时代, 犯罪分子通过对海量数据进行分析, 能够较容易地获得商业机密或个人信息, 这就必然涉及到数据的安全问题, 因此, 安全性也将是大数据时代计算机处理信息技术发展最重要的方向之一。大数据时代计算机信息安全技术不再建立在某个单一形式的数据安全管理上, 而是对整个数据关联结构进行系统管理, 从整体上提高数据的安全水平。因此, 传统的计算机信息处理安全软件已经无法满足大数据时代安全管理工作的需求, 开发新的安全技术软件、构建新的计算机安全体系显得尤为重要, 这也在一定程度上促进了计算机安全信息技术的发展, 推进信息安全技术向前发展。
4 结语
大数据时代对于计算机信息处理技术来说既是机遇也是挑战, 越来越多的人会使用计算机技术来进行数据分析, 这将使得计算机信息处理技术得到更广泛的应用, 同时对计算机信息处理技术也提出了更高的要求, 需要不断完善目前仍存在不足的地方, 并根据海量数据处理需要建立真正适应大数据时代的网络系统及安全体系, 将计算机信息处理技术运用到更广泛的领域。
摘要:随着计算机技术和网络技术的不断发展, 出现了海量数据信息, 当今世界已经从数据时代向大数据时代转移。大数据时代的到来给计算机信息处理技术带来了非常大的冲击, 现有的计算机信息处理技术很难满足海量数据处理需求, 同时海量数据的容易获取, 也带来了一定的数据安全问题。文章对计算机信息处理技术及大数据的概念进行了界定, 进而分析了大数据时代下计算机信息处理技术所面临的机遇与挑战, 最后对大数据时代下计算机信息处理技术的发展方向进行了探讨。
关键词:计算机,信息处理技术,大数据
参考文献
[1]李春辉.“大数据”背景下的计算机信息处理技术分析[J].电子技术与软件工程, 2014 (9) :33-34.
[2]吕敬全.“大数据”时代背景下计算机信息处理技术分析[J].信息与电脑:理论版, 2013 (6) :19, 21.
[3]刘银龙.“大数据”背景下的计算机信息处理技术分析[J].电子技术与软件工程, 2015 (1) :208.
[4]冯潇婧.“大数据"时代背景下计算机信息处理技术的分析[J].计算机光盘软件与应用, 2014 (5) :22-23.
[5]孙海燕.“大数据”时代背景下计算机信息处理技术分析[J].电脑迷:数码生活, 2014 (3) :55-56.
[6]应桂芬.大数据时代计算机信息处理技术探讨[J].电脑编程技巧与维护, 2014 (20) :85-86.
大数据分析处理系统 篇9
关键词:污水,设备,滤料,技术,工艺,专利,大数据
1 前言
随着我国对生态环境的重视, 全国《水污染防治行动计划》 (2015年4月颁布, 简称水十条) 《土壤污染防治行动计划》 (2016年5月颁布, 简称土十条) 和《大气污染防治行动计划》 (2016年5月颁布, 简称土十条) 及各省市相应的环保目标定位, 生态环境随着环保技术及产业发展将会得到极大的改善。要完成“十三五”规划和上述计划的目标, 必然要求我国尽快发展污水处理的高端研发和高技术企业, 加快工程实施和知识产权的推广和保护。本文旨在对近年我国污水处理技术行业的大数据进行分析, 为促进生态建设、环保研发和推动行业发展提供参考。
2 数据采集及分析方法
以百度搜索、百度高级搜索、百度学术搜索等百度搜索引擎进行公众媒体类的数据搜索和归集。
学术研究文献数据由中国知网CNKI数据库查询和收集。专利文献由国家知识产权局专利数据库检索和收集。CNKI数据库的第一层次检索以“污水”为标题检索词进行检索收集;次级检索对理工类数据及社科类数据进行检索收集, 或对行业或领域数据进行检索收集, 分设备、滤料、工艺三个部分, 同时也关注相应的理工类及社科类数据作为第三级检索, 最后以年度作为时间轴进行数据归集。次级检索词设置为:主题“设备”并含“污水”, 以“或者”关系做篇名检索。多个检索词的联合检索按数据库的检索规则覆盖所检索行业或领域。对本世纪以来2000-2015年共16年的数据按不同学科、行业或领域及时间进行归集、统计和比对, 并依之探讨对应领域的发展状况。
检索词设定参考了给排水领域机械类手册中的设备词汇。污水处理设备类数据检索和收集使用设备检索词组合。首先以污水设备为主题, 在全数据库进行全时段、全领域检索收集;然后进行次级检索。在“设备、装置、系统、控制箱、控制柜、机械、器、阀、槽、管、泵、车、件、网、板、闸、栅、塔”中分别通过搜索相应的文献量对搜索词的权重程度排序, 得到:设备、装置、泵、器、机、网、塔、槽等排序。为避免扩大检索词范围将导致非核心设备类的文献的混入, 以前6个关键词进行篇名联合检索和收集。污水处理滤料类的数据以篇名联合检索进行收集, 使用检索词组合“污水、滤料、分子筛、陶粒、MBR”。污水处理工艺处理类的数据以主题和篇名联合检索进行收集, 主题检索词为“污水”和“工艺”, 使用篇名检索“污水、应用”或“污水、方法”。文理科数据分类按CNKI总学术领域分类进行, 其中“信息科学”的新闻与传媒、出版、图书情报与数字图书馆、档案及博物馆等学科分为社科类数据。
专利数据按照国家知识产权局专利检索规定检索式进行检索。专利数据的检索和归集原则和技术路线与CNKI研发文献的数据库检索的情况相同。由于专利文献的检索方式与CNKI数据库不尽相同, 因此根据该数据库检索规则, 设备类数据收集的检索选权重较大的检索词“设备、装置、系统、控制箱、控制柜、机械、器、阀、槽、管、泵、车、件、网、板、闸、栅”作为检索词组合进行摘要检索;滤料类数据收集的检索使用“滤料、活性炭、分子筛、处理剂、净化剂、菌剂、凝胶、复合材料、絮凝剂、稳定剂、消除剂、膜、陶粒、粉剂、颗粒、微球、纳米球、陶瓷、海绵、过滤、吸附、催化、分解、降解”作为检索词组合;工艺类数据收集使用检索词组合“工艺、方法、应用”。年度专利数据的归集按专利公告日划分。专利数据无社科类数据归集分析。
数据归集使用检索词组方式独立进行, 数据集保持度各自检索独立, 之间不进行换算。由于跨领域和跨学科的情况存在, 各数据集有部分交叉, 因此本文统计数据为交集数据, 不为简单相加的集合。所收集的数据以Excel进行分析。本文大数据主要含盖中文数据资料。
3 结果
3.1 公共媒体数据
以百度为公共媒体搜索引擎, 不同的搜索时段和搜索方式可以得到相应数据。截止到2016年6月30日, 以“污水”为关键词, 用不同的百度搜索引擎进行全时段检索, 得到如表1所示数据。
单位:万条
3.2 学术数据
截止2016年6月30, 以“污水”为主题词通过知网学术文献全数据库全时段查询, 搜索到138207条结果, 本世纪以来 (2000-2015年) 116137篇信息 (污水处理学术研究数据, DAR) , 其中, 基础、工程、农业、医药类及信息科技中的无线电、电信、计算机、互联网、自动化类 (简称污水理工类数据) 107510篇、哲学、人文、社会、经济管理及信息科技中新闻、出版、图书、档案类 (简称污水社科类数据) 12282篇。其本世纪以来截止到2015年底的数据年度分布如图1所示。理工类数据和社科类数据之和超出总数据数的文献属于交叉学科内容。
DAR在2000年至2015年的分布显示, 在2011年前DAR每年都快速增加, 之后呈现起伏状态;其中理工类研发数据量占总DAR93%, 发展趋势与总数据所显示的基本一致;社科类研究比例较小 (11%) , 在2004至2007年之间出现过小幅度上升, 之后基本保持平稳。在DAR中, 设备、滤料、工艺等污水处理的数据占比各为8%、1%、7%。
以污水设备检索词组合通过知网学术文献全数据库全时段查询, 检索到10973条信息。本世纪以来 (2000-2015年) 查询到设备类学术文献8745篇 (简称污水处理设备研究总数据) , 其中理工类8229?篇 (占设备总数据94%) 、社科类782篇, 近年分布如图2所示。理工类数据和社科类数据之和超出污水设备总数据量的文献属于交叉学科内容。
以滤料检索词组合通过知网学术文献全数据库全时段查询我国污水处理滤料研究总数据及其理工类和社科类分项数据, 检索到污水处理滤料研究总数据1499条信息。本世纪以来 (2000年—2015年) 查询到污水处理类学术文献1394篇 (简称污水处理滤料研究总数据) , 其中理工类1399?篇 (约占滤料总数据100%) 、社科类5篇, 近年分布如图3所示。2000年至2015年间我国污水处理滤料研究总数据显示, 除2002年和2010年度各有一个大幅增长外, 其他年份研究呈稳定增长趋势。2015年有小幅回落。
以工艺检索词组合通过知网学术文献全数据库全时段查询我国污水处理工艺研究总数据及其理工类和社科类分项数据, 检索到污水处理工艺研究总数据9027条信息。本世纪以来 (2000-2015年) 查询到设备类学术文献7962篇 (简称污水处理工艺研究总数据) , 其中理工类7898?篇 (占滤料总数据99%) 、社科类83篇 (占滤料总数据1%) ;其近年分布如图4所示。
3.3 专利数据
以污水、污水处理设备、污水处理滤料和污水处理工艺等检索词组合通过专利文献全数据库全时段查询。由于数据库检索指令及其检索功能匹配程度不稳定, 搜索得到的数据出入较大。因此检索结果以检索数交稳定的数据集进行归集统计和分析。
自我国1985年实施专利法至今, 涉及污水处理的相关专利申请数约2.8万件, 其中授权专利约1.7万件, 专利授权率约60%。
本世纪以来 (2000-2015年) , 污水处理相关专利授权总数1.4万件, 占1985年以来全部污水处理相关专利总数的60%。其中, 2000-2015年污水处理设备专利授权数1.3万件, 占同期污水处理专利总数的93%;污水处理滤料专利占污水处理专利总数的39%, 污水处理工艺专利占污水处理专利总数的27%。污水处理专利总数据和设备类、滤料类和工艺类各分项数据及其近年的年度分布如图5所示。
4 结语
本文学术和专利的大数据都分为总数据和分项数据两个层次的数据。分项数据为所使用索引词组合为核心的数据群, 由于技术、材料和工艺都是多功能的、可适用于多种领域, 因此分项数据群之间存在交叉, 各分项数据之和大于总数据。因此, 本文所列数据和曲线应以相互交叉的交集数据使用, 而不是简单的相加关系。
以百度公众媒体信息量为例进行比较, 可以看出社会各界对污水很高的关注度;该公众媒体数据量比学术界和专利两个信息量之和高出3个数量级。特别是对环境污染突发事件、民众切身利益处理和政府职能等方面, 社会关注度很高。
DAR在2000年至2015年的数据分布统计显示, 其在2011年前每年都快速增加, 之后呈现起伏状态, 特别是2015年出现小幅回落。DAR中的理工类研发数据量占总93%, 对DAR起着决定性的作用。社科类研究比例较小 (11%) , 近年来基本保持平稳。在DAR中, 设备、滤料、工艺等污水处理的数据占比各为8%、1%、7%, 说明污水处理的核心技术内容占比很小。
高端设备制造是污水处理工程的基础和未来发展的驱动力之一。关键设备的国产化突破, 往往导致行业的投入减少。例如大型臭氧发生器的国产化, 使我国臭氧取代氯进行水处理的造价大幅度降低、氯次生污染也得以大幅度减小[9,10]。污水处理设备的大数据显示, 2000年至2015年间我国学术界对污水处理设备的研发力度除2009年小幅回落外, 基本呈逐年增加的态势, 在2015年, 又有所回落。设备理工类研发占94%, 决定了总数据变化趋势;社科类研究只占设备总数据的9% (其中93%为管理类) , 近年水平度保持基本稳定。
新材料的发展会极大提高相关行业的发展。高性能滤料除了过滤功能外还具有催化及生物群落发育和降解污染物作用, 不仅在污水处理中起支撑作用, 在给水排水领域都有广泛的应用[10,11]。大数据显示, 2000年至2015年间我国学术界对污水过滤材料和多功能过滤处理材料的研发力度总的趋势是逐年加强, 除2002年和2010年度有大幅增长外, 其他年份研究呈稳定增长趋势。2015年有小幅回落。社科类数据以管理类研究为主, 但比例很小。
污水处理由设备、材料、方法等各子系统综合配套后以所综合产生的最优处理效果的工艺系统完成。污水处理工艺的优化不仅提高排放标准规定内的污水排放质量, 而且也对污水排放标准尚未纳入的有害物质进行处理[12]。污水处理工艺大数据显示, 我国学术界对污水处理工艺的研发力度总的趋势是逐年加强, 社科类研发比例较小 (1%) 。
污水处理专利总数据在2009年前稳步增长, 近年来呈加速增长趋势。其中污水设备类专利占绝大部分 (93%) , 并决定了总数据的走势。污水处理滤料类专利约占污水处理专利总数据的39%, 其数量近年来加速增长。污水处理工艺属于更综合和更复杂的技术系统, 因此这类专利数量较少, 占总污水处理专利数的约27%, 一直呈平稳发展状态。
2015年, 我国知识产权局共受理发明专利申请110.2万件, 同比增长18.7%, 连续5年位居世界首位。共授权发明专利35.9万件。其中, 国内发明专利授权26.3万件, 比2014年增长了10万件, 同比增长61.9%[13]。污水处理专利2015年总数比2014年增长48%。污水处理学术研发总数据及理工类和社科类分项数据都在2015年比2014年小幅下降6%~7%。相比之下, 说明我国生产力转化效率在逆势而上。
污水处理关系到国计民生, 是可持续发展的关键点。近年来我国加大了环境治理的力度, 污水治理从社会关注、政策目标制定、科技发展、工程实施、标准提升、环境监察、法律法规配套和体制建设等方面全方位推进。本文的大数据显示:在世界经济低迷、我国经济发展进入新常态等不同的时期, 污水处理的研发力度基本稳步增长, 并且在理工类研发的基础上, 以管理为主的相应社会科学逐渐得到发展。这说明, 我国政府和企业对污水治理不仅没有受到经济下滑的影响, 反而逆势上扬, 持续加大对污水处理各领域科技和工程建设及软科学的投入, 使得污水处理产学研商得以迅速发展。近5年的大数据数量加速增长可以作为加速发展的印证。
从社科类数据占污水总数据11%的大数据比例评价, 今后一个时期政策和软科学应配套技术研究予以加强, 以全面解决当前面临的问题和“十一五”遗留的问题[15]。
电子商务物流的大数据处理分析 篇10
一、物流大数据处理对电子商务的影响
电子商务物流大数据处理的过程中, 对于电子商务同样也带来了一系列的影响, 并推动了我国电子商务物流大数据的全面和谐健康发展。
一方面大数据处理过程中, 保证电子商务物流的运营中有着一定的数据化, 打破了传统的运营模式, 采取数据方式作为主要的运营形式, 进而将企业运营汇总的采购营销和财务管理贯穿。这种大数据处理的过程中结合数据对顾客的需求进行综合性的分析, 并做好一定的预测, 保证有着最小化的成本, 进而保证其有着最大化的利润[1]。
一方面大数据处理的过程中, 将电子商务物流产品投入和产出的比例显著提高, 并将供应商和经销商之间的价值链连接整合程度全面提高, 做好二者之间的垂直整合, 使得企业和用户有着越来越紧密的联系, 并将更多制胜的机会加以获取。
另一方面大数据处理的过程中保证了电子商务数据有着一定的资产化, 在当前信息时代的发展中, 更是结合大数据的相关资产信息, 将数据化的竞争全面提高, 保证企业有着一定的制胜基础, 做好对数据的一种衡量和掌握, 重视数据的过程中, 更加爱注重数据的合理分析, 并将可视化的业务全面实现, 进而创造更多的经济利益。
二、电子商务物流大数据的处理措施
电子商务物流大数据处理的额过程中, 更要借助于ECL Hadoop的相关概述, 在对电子商务物流服务中的社会网络网站信息进行处理的过程中, 主要将Hodoop机制在某种程度上将其划分64MB的数据块, 并在数据块上进行时间标记。通过将数据集A中的一些数据块和其它数据块进行联接, 并将关联标记添加, 一旦数据块的语义在实际的计算之后, 就要将电子商务物流大数据放置路由表进行处理, 对于关联性的数据块在同一个节点中进行储存, 实现关联查询的计算过程。
电子商务物流大数据相关性分析的过程中, 就要合理的处理数据集的相关几何, 并在当前的电子商务物流的实际应用中, 做好订单表以及物流业务运输公司表的处理, 进而对电子商务物流大数据的相关性进行总结和计算。电子商务物流大数据相关性计算的过程中, 就要结合业务需求的相关分析, 进而实现对电子商务物流公司的直接性计算, 不同业务往往有着不同的需求[2]。
电子商务物流服务相关的社会网络网站中数据集主要有四个, 对于数据集A也即是Block[1]、Block[2]、Block[3]和Block[4]。对于数据集B也即是Block[1]、Block[2]两个模块, 数据集C同样也有两个模块, 数据集D的数据块有三个。数据块的大小设置为64MB。数据集的数据块。
在对时间标记语义添加处理的过程中, 主要是将计算的效率显著提高。
时间标记添加的数据块可以将计算的时间有效减少, 在实际的数据块计算中, 仅仅需要进行提交处理, 对于数据块的计算不需要进行直接性的计算, 有着相对较高的计算效率。
应用关联表添加的语义处理过程中, 可以进行假设, 一旦flag==0, 在某种程度上也就说明数据块之间不存在相关性。当flag!==0时, 在某种程度上也就说明数据块之间存在一定的计算相关性。
ECLHadoop数据在实际的放置过程中, 通过借助于电子商务物流的大数据配置, 使得数据集A中的两个数据块和数据D中的两个数据块共同放置于数据节点中。并将数据集A中的另外两个数据块和数据集D中的某一数据块在节点Data Note[2]中进行放置。电子商务物流大数据的数据放置路由表如表1所示,
仿真实验进行的过程中, 主要结合两个相关的仿真实验, 实验I设置的过程中, 主要是将时间标记添加的ECIHadoop和缺乏Join联接查询计算的实际实验进行比较, 对计算的效率进行计算。实验2设置的过程中, 主要是对有关联性标记的ECLHadoop和存在Join联接查询计算实验进行比较, 对计算效率进行计算。通过借助于五台计算机, 分别进行元数据节点、影子节点以及电子商务物流数据存储节点设置, 将Linux操作系统进行安装, 并对Hzdoop分布式系统的HDFS进行安装。
采取社会网络网站电子商务物流服务的信息数据, 通过五次仿真。这一仿真结果表明, 在当前的Hadoop中, 任何请求的存在, 将会计算所有的数据块, 并在时间的标记中, 计数范围将会显著减少, 有着较长的计算时间。
仿真数据在实际的选择过程中, 结果表明, Hadoop效率远远低于ECLHadoop的计算处理效率。
三、结语
在当前的电子商务大数据处理中, 保证了电子商务物流行业科学规范化的运营, 不仅仅对于电子商务市场便利性的营销有着一定的基础保证作用, 同时对于大数据的个性化处理也有着一定的保证性作用。通过以电子商务物流发展为目的, 进而做好大数据的综合性处理, 在数据化竞争日益激烈的今天, 加强商业之间的竞争。通过通过对电子商务物流大数据处理的过程中, 仿真结果表明, Hadoop效率远远低于ECLHadoop的计算处理效率。
摘要:电子商务物流大数据处理的过程中, 不仅仅对于电子商务市场便利性的营销有着一定的基础保证作用, 同时对于大数据的个性化处理也有着一定的保证性作用。因此电子商务物流大数据处理的过程中有着一定的重要性意义。本文则对电子商务物流的大数据处理技术探讨。
关键词:电子商务,物流,大数据处理
参考文献
[1]杨妍.浅析电子商务对物流的影响[J].中国电子商务, 2012, (2) :7-8.
大学云架构与大数据处理建模研究 篇11
关键词:云计算;大数据;学生成长;教师发展;智慧校园
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0016-04
一、引言
大学云(Universities Cloud)是一种采用云计算技术,对教学、科研、行政、后勤等各种业务流程办理和职能服务的园区云,也是学校各级部门可靠的基础信息化服务平台。大学云服务将产生大量的各种数据,云计算目前是大数据处理的基础技术[1],采用云计算处理海量数据,提高管理与决策水平,是大学云架构的重点工作。
显然,云计算、大数据等技术已成为高校生存与发展的基础。大学云架构采用统一标准[2],不仅利于各种业务网络与应用系统互连互通,避免产生“信息孤岛”,也利于避免计算、存储及网络资源重复建设[3],节约资金及提高收益,还利于大数据处理,改善办学绩效及增强高校创新能力。
因此,大学云架构的关键问题是全面整合资源,优化云计算模型。也就是构建一种支持资源集约、信息共享、应用协同,以及大数据存储管理及检索使用的大学云。最优架构的大学云,是云计算、大数据与教育信息化的融合。这种融合,一方面规定了智慧校园高层划分及各部分间的交互[4],另一方面决定了智慧校园应用系统的实施能力和发展空间。本文以山西师大园区云建设为背景,重点讨论大学云架构与大数据处理建模等问题的解决方法。
二、大学云计算体系结构与功能
大学云是智慧校园建设的核心部分,是一个复杂的系统工程。该工程侧重六个方面:第一,优化整合学校各种管理信息系统和协同办公系统,建立统一基础数据库、数据交换系统、统一信息门户及统一身份认证等[5],消除信息孤岛。第二,完善高校决策支持系统的模型库、数据库和知识库建设,通过大数据分析,实现学校发展的智能决策。第三,优化整合网络课程、精品资源共享课和视频公开课及微课等资源,构建网上网下有机协同的智慧学习环境。第四,优化整合饭卡、洗浴卡、水卡、门禁卡、借阅证、上机卡等校园各类卡片,实现校园一卡通。第五,完善图书馆资源数字化管理,支持师生泛在数字化阅读与在线讨论。第六,优化整合多媒体视听教学与微格教学设施,支持MOOC的开发与应用。按照以上要求,大学云计算体系结构与功能,如图1所示。
从图1可以看出,大学云主要由基础设施、资源平台、应用平台和服务门户构成。基础设施包括了各种服务器、存储器、网络设备(交换、路由、安全等)和操作系统及工具软件等设施。采用虚拟化软件(如VMware vSphere 5.5),对云基础设施进行集群架构与管理[6];按照业务所需资源量,将虚拟服务器与虚拟存储器弹性适配与调度[7],由此形成大学云资源平台。在资源平台部署校园应用软件,包括教务管理系统、学生管理系统、科研管理系统、教工管理系统、资产设备管理系统、财务管理系统、后勤服务管理系统、图书文献管理系统、教学信息化与网络学习系统、协同办公系统、平安校园监管系统、校园一卡通系统、统一身份认证系统、上网行为管理系统、网络运维支持系统等。这些校园应用系统,构成了大学云应用平台。
大学云应用平台,通过数据交换系统(多个虚拟主机)接口,将各种数据库与各种应用系统适配连接,实现了资源集约、信息共享及应用协同。云应用,一方面通过面向师生信息服务接口,建立了一站式校园信息服务门户。师生可通过该门户,依据本人权限进行各种功能操作。另一方面,通过面向大数据分析与智能决策服务接口,建立了一站式校园决策支持门户。学校各级领导(或相关责任人),依据本人权限进行各种大数据分析操作。通过大数据分析,实施教学、科研与后勤服务等事务处理的决策支持。
三、校园大数据特征与处理方法
随着大学云建设与应用,大量数据来源于管理信息系统数据库与日志库、图书文献库与日志库、校园一卡通数据库与日志库、网络行为与管理日志库、平安校园视频库与日志库、多媒体及微格教学视频库与日志库、网络学习资源库与日志库、办学决策知识库和模型库及决策支持日志库等。数据类型繁多,主要有文本、数值、图形、图像、标签等。数据处理速度快,如管理信息系统数据库、一卡通数据库等,数据处理均有较高时效性。很多数据表现出低价值密度,如各种视频库、日志库等。这些数据完全符合大数据的4V(Volume,Variety,Velocity和Value)特征[8]。
校园大数据可分为结构化数据与非结构化数据两类。结构化数据主要包括各种管理信息系统数据库(关系数据模型)、能够变换为关系数据表单的各种日志库。非结构化数据主要包括图形图像、音视频(微格教学视频、精品资源共享视频课、微课程视频、校园监控视频等)、Web文档(HTML与XML网页)、课件文档(浏览器可打开的Word、PPT、PDF等)、工作文档(如年度计划、工作总结、项目研究、成果报告等电子文档)。结构化数据处理,常用数理统计模型与算法(如回归分析,最小显著差数法、最小显著极差法等)。非结构数据处理,常用文档语义表示与索引、文本处理与分析[9]、内容摘要等工具。校园大数据处理建模,直接影响着学校发展决策的水平。
四、支持学生成长的大数据分析
在校园云的环境中,如数字化迎新、数字化学习(网上选课、学籍管理、网络学习、在线讨论等)、数字化生活(校园刷卡吃饭、洗浴、用水、进门、借书、上机、体育运动,以及社团与学术活动等)的每一个过程中,均有大量的数据记录了学生成长。如图2所示。对这些数据进行深入分析,对学生成长及改善学校决策绩效[10],具有以下作用。
(1)学生入学与学习数据分析。整合学生入学情况和在校学习情况等数据,深入分析与了解不同生源地、不同单科成绩、不同专业、不同个性特征的学生在校期间学习表现,为招生部门优化招生措施提供决策支持。
(2)学生专业学习数据分析。整合能够反映学生在校的学习、研究和参加活动(如课程学习、校园学术活动等)等多种数据,持续、系统地分析每个学生的专业学习行为、课程测验与作业完成、课程考试成绩、项目申请与结题、学习兴趣与意见等数据,深入了解学生专业学习中的问题,为学习绩效改善提供个性化服务,为优化人才培养方案提供决策支持。
(3)学生在线学习与图书借阅数据分析。完善“在线学习管理系统”的学习轨迹记忆功能,能够跟踪学生的学习轨迹。深入分析学生在观看课程视频、网络课程学习、网络资源浏览、在线讨论发言、完成电子作业等项目上花费的时间差异。为优化网络学习资源开发与购置提供决策依据。统计学生访问图书馆、借阅图书与文献等数据,分析学生网上、网下学习时间分配情况,分析网络学习资源与馆藏图书文献资源配置情况,为优化电子与纸质资源最佳互补提供决策依据。
(4)学生就业与深造数据分析。整合专业教育、教育实习、校园招聘、社会招考、考取研究生、用人单位反馈意见等各类数据,深入剖析专业人才培养方案、学生就业或考研意图及市场对人才需求等数据,优化人才与市场对接机制、完善专业课程学习与考研对接机制,与为学生考研提供个性化指导服务,为毕业生提供个性化就业指导服务。
五、支持教师发展的大数据分析
教师是学校发展的中坚力量,教师的教学、科研能力高低,直接关系到专业人才培养质量与水平。在校园云的环境中,教师的教学、科研活动密切与数字化关联,如人事档案管理、综合教务管理、科研管理等系统,这些系统均记录了教师发展的大量数据。建立支持教师发展的大数据处理模型,是提升教师能力、促进教师发展的有效途径。如图3所示。
(1)教师基本数据分析。建立健全教师入职与从业档案数据库。深入分析教师的学历教育背景、学习专业与学缘状况(学士、硕士、博士的毕业院校,以及专业衔接与研究方向等),教师从事专业与学习专业的关系(一致、相近、跨专业等),以及教师专业职称与学习专业、从事专业及兴趣爱好之间的相关性等,优化教师招聘策略与措施,为学校人力资源部门招聘教师提供决策支持。
(2)教学信息化数据分析。按照教师信息化教学情况,整合综合教务管理系统、课堂教学日志(学生填写)、听课日志(领导和专家填写)等相关数据。深入分析教师制定课程教学计划、编写教案、课堂教学、实验教学、编写教材、制作课程资源、承担校本研究课题、获得教学成果与奖励等数据,了解教师教学能力发展中的优势与不足,为提升教师教学能力提供个性化服务。优化教师教学考核机制,为学校修订教师及课程组教学能力提升措施提供决策支持。
(3)科研与服务社会数据分析。深入分析教师承担科研项目(题目,级别、主要研究问题、方法措施,结题、结论等)、发表论文(题目、刊物级别、检索、社会反响等)、出版著作(名称、出版级别、发行量、社会反响等)、获得科技成果奖励、学术荣誉,以及进行的学术报告和外出学术会议等数据。深入分析教师科研能力、技术专长与社会兼职、承担横向课题、服务领域及业绩等之间的相关性,了解教师科研与社会接轨,促进生产力发展的情况。优化教师科研考核机制,为提升教师科研能力提供个性化服务,为学校修订教师及团队科研能力提升措施提供决策支持。
通过以上三方面数据分析,优化高校个人与团体的教学、科研绩效考评机制。为教师职称评聘提供考评依据,为学校修订师资队伍建设的政策与措施提供决策支持。
六、支持提升服务能力的大数据分析
校园后勤服务、资产设备使用,图书文献使用,以及网络使用等领域,均与学校服务师生的能力密切相关。而服务能力提升直接与领导干部执行力相关。如图3所示。因此,在这些领域开展大数据的分析,可助推学校服务能力提升。
(1)领导干部管理数据分析。完善党政干部管理系统功能,深入分析干部任职时间、职务变动、年度计划、工作总结、工作业绩、取得成果与奖励等数据。优化干部考核机制,为学校选拔、培养青年干部提供决策支持。
(2)校园后勤服务数据分析。后勤服务是智慧校园的重要组成部分,动态采集校园生活、安防、环保、资源与能耗等各个方面的数据,建立后勤服务保障系统。通过该系统,深入分析校园日常水电计量数据与水电节约数据,挖掘节能空间,完善节能管理措施。深入分析楼宇、房屋、设备、道路等日常修缮维护资源消耗与费用开支等数据,参考经验,完善修缮管理措施。深入分析学生刷卡吃饭与餐饮管理数据,普查学生餐饮问题,如饭量持续减少是否身体不适、每日三餐与每周营养搭配是否符合科学饮食,饭菜价格波动是否合理等问题,及时优化健康餐饮管理措施。深入分析师生在校体检与医疗数据,普查师生身体不适,及时提供进一步医疗建议。深入分析平安校园(所有楼宇内外、公共场所、道路、校园进出通道等)视频数据与操作日志数据,依据事件发生,普查电子眼密度与位置是否符合平安校园的需求,及时提供电子眼维护与增补建议。
(3)资产设备使用数据分析。建构资产设备管理系统,完善仪器设备台帐与使用日志管理,深入分析教学、科研仪器设备(含材料)用于学生实验、师生科研和协同创新攻关实验中,仪器设备使用完好与损害数据、够用与缺少数据。深入分析专业课验证、设计和综合实验项目实施与仪器设备使用率数据。深入分析实验室占地面积与配套设施使用率数据。综合以上三类数据分析结果,优化实验室建设、仪器设备维修与更新管理机制,为资产与设备科学、合理使用提供决策依据。
(4)图书文献使用数据分析。整合校图书馆和学院、所资料室的图书文献资源,构建图书文献阅读管理系统。通过学科资源服务系统,聚合与分享海量学科信息资源,精细化筛选适合读者需要的资源。采用RFID装置、红外感应器和激光扫描器等技术构建智能书架与书桌,智能抓取数据,进行读者行为学分析,获取其阅读喜好,为读者推荐感兴趣的资源。综合以上两类数据分析结果,优化图书文献流通管理机制,提高图书文献有效使用率,为满足读者需求购置图书、期刊等资源提供决策依据。
(5)网络行为数据分析。整合校园网流量控制、网络管理、安全管理、用户管理、上网行为管理及Web服务器等日志数据,建立网络综合日志管理系统。深入分析各类行为数据,包括用户访问外网的各种协议占用带宽、持续时长数据,用户连接与断开网络数据,用户访问网址、内容与持续时间数据,网络交换、路由设备工作正常、故障及恢复时间数据,网络交换与路由设备、服务器与主机系统等安全服务、遭受攻击及修复时间数据,以及服务器运行的行为数据。综合以上多种数据分析结果,优化网络运维管理机制,优化网络协议带宽分配策略,优化网络安全管控措施,优化节能管理措施,为校园网技术升级、增强网络可用性提供决策依据。
七、结束语
我们在大学云架构与大数据处理方面进行了有益的初步尝试。但仍有很多问题需要研究,如数据安全保护、个人隐私保护,挖掘关联规则[11]、构建预测模型等,我们要从深层次推进智慧校园可持续发展,使师生能够如影随形地感知与体验教育信息化的魅力。
参考文献:
[1][8]窦万春,江澄.大数据应用的技术体系及潜在问题[EB/OL].http://www.cnki.net/kcms/detail/34.1228.TN. 20130627.1215.002.html.2013.06.
[2]何京翔.为云计算和大数据重塑数据中心[EB/OL].http://www.chinacloud.cn/upload/2014-06/14060211 339145.pdf. 2014.06.
[3][4]杨威,刘彦宏.高校智慧校园建设中的关键问题与对策[J].中国教育信息化,2013(23).
[5]湖南青果软件有限公司.山西师大数字校园建设方案[D].2011.11.
[6][7]杨陟卓,杨威,王赛.网络工程设计与系统集成(第3版)[M].北京:人民邮电出版社,2014.9.
[9]Zhizhuo Yang, Heyan Huang. Chinese Word Sense Disambiguation based on Context Expansion[C].Proceedings of COLING-2012.
[10]沈富可.高校智慧校园的核心价值探索[EB/OL].http://free.eol.cn/edu_net/edudown/eduedu/shenfuke.pdf.2014.6.
[11]杨陟卓,黄河燕.基于异构关系网络图的词义消歧研究[J].计算机研究与发展,2013(2).
大数据分析处理系统 篇12
1 计算机信息处理技术的概念
计算机信息处理技术主要是指将数据传送、采集以及处理等技术有机结合, 实现对数据进行统一管理的目标。计算机信息处理技术是一项综合技术, 涉及计算机、网络、传感等多项学科技术, 在现代社会各个领域中得到广泛推广和普及, 特别是在企业管理数据处理工作中, 工作人员通过利用专业设备, 合理安排工作, 实现人工与智能的融合, 不仅能够大大提高了工作效率, 而且改变了传统办公模式, 在一定程度上促进我国社会各个领域的发展。
2 大数据时代
大数据时代是在计算机和物联网技术出现之后, 社会出现的又一次变革, 对社会发展、人们生活习惯等产生了的巨大影响。大数据时代的到来, 将网民、消费者等主体之间界限模糊化, 将数据作为社会发展的核心和基础, 促使企业运营模式、组织结构等发生巨大变化, 企业将面临战略、组织以及人才等多方面因素的挑战和影响, 然而, 机遇与挑战是并存的, 大数据时代让人们感受到了资源共享的带给自身的乐趣, 而且也让企业看到了更多的商机, 促使市场竞争日益激烈, 且只有通过不断改革和创新, 为人们提供更加有字的服务, 才能够进一步发展。因此, 大数据时代也是一个机遇与挑战并存的时代。
3 计算机信息处理技术存在不足之处
大数据时代的到来, 计算机信息处理技术也存在着很大风险, 其中最突出的问题是计算机病毒以及恶意盗版软件等, 给用户使用计算机产生了极大的消极影响。这些还是一些比较基础的问题, 随着计算机技术的发展, 还出现篡改数据、冒名顶替等问题, 影响计算机技术服务质量, 计算机信息处理技术受到了前所未有的考验。另外, 大数据时代的到来, 还出现了许多新型网络技术, 针对一些繁琐的问题能够有效解决, 提高了人们的工作效率, 然而, 这也在一定程度上降低了网络的真实性, 特别是在网络交流和沟通日益紧密的前提下, 导致网络信息真假难分, 不仅增加了信息搜索难度, 而且致使人们无法快速获得真实信息。因此, 提高计算机信息处理技术至关重要[1]。
4 大数据时代计算机信息处理技术
4.1 信息采集、加工方面
计算机信息处理技术要进行工作, 首先, 要采集数据信息, 计算机技术都是建立在数据采集基础之上的, 数据采集主要是针对目标信息源进行实时的信息监督和控制, 并将才觉得数据储存在计算机数据库中, 为各个软件提供信息支持, 确保下一项工作顺利进行;其次, 对数据信息进行加工, 按照用户的要求, 对数据信息进行加工;最后, 将加工好的数据信系进行分类, 最终传送到用户手中, 实现数据采集、加工以及传送目标。
4.2 存储方面
计算机存储技术是将采集的信息储存到计算机数据库之中, 在用户需要某一项信息过程中, 可以通过数据库直接将数据调取出来, 计算机以其储存量大、速度快等优势, 受到人们越来越多的关注, 另外, 计算机技术还能够实现长时间储存[2]。
4.3 信息安全方面
大数据时代的到来, 让人们感受技术带来的便捷的同时, 也让人们意识到数据信息安全对人们的重要性。因此, 为了能够提高数据信息的安全、可靠性, 可以通过以下几个方面进行:首先, 建立计算机信息安全体系, 加大专业技术人才的培养力度, 投入资金, 为构建计算机安全体系奠定坚实的基础;其次, 加大研究力度, 开发信息安全技术产品。传统信息安全技已经无法满足大数据时代数据安全需求, 为了能够尽快改善数据安全问题, 应加大研究力度, 寻求更好的解决方案, 有效避免数据信息受到威胁;最后, 重视对重要数据的检测, 大数据时代的突出特点是数据量大, 无法实现对每一个数据的检测。因此, 为了提高数据安全系数, 应加强对重点数据信息的检测, 从而确保数据信息安全。
4.4 信息处理技术的发展
计算机硬件具有一定局限性, 在一定程度上阻碍了计算机网络的发展, 而云计算网络能够突破这一弊端。因此, 推广和应用云计算机网络成为未来大数据时代计算机信息处理的主要发展趋势。传统计算机网络是将硬件与网络有机结合, 抑制了计算机信息处理技术的发展, 将二者分离开, 促使云计算主筋形成云计算网络, 从而构建大数据信息网络系统, 推动我国社会不断发展[3]。
5 结论
根据上文所述, 大数据时代的到来, 计算机信息处理技术不断渗透到社会各个领域, 对人们的生活产生了巨大影响。因此, 作为一种重要技术, 应加大对其关注力度, 深入研究, 逐步完善计算机信息处理技术, 为人们提供更加安全、可靠地技术, 促进社会健康发展。
摘要:随着社会经济和科学技术不断发展, 推动了互联网和信息技术的发展, 促使当今世界进入大数据时代。大数据时代的到来, 意味着数据信息越来越多, 给计算机信息处理技术造成了一定冲击。本文将对计算机信息处理技术的概念以及大数据时代进行分析和研究, 并阐述大数据时代计算机信息处理技术的发展, 逐步完善计算机信息处理技术。
关键词:大数据时代,计算机信息处理技术,存储
参考文献
[1]谢新洲, 吴淑燕.竞争情报分析方法——定标比超[J].北京大学学报 (哲学社会科学版) .2010, 18 (03) :259-261.
[2]茶洪旺, 胡江华.中国数字鸿沟与贫困问题研究[J].北京邮电大学学报 (社会科学版) .2012, 20 (05) :12-14.