大数据标准工作组(共7篇)
大数据标准工作组 篇1
工作组现下设七个专题组:总体专题组、国际专题组、技术专题组、产品和平台专题组、安全专题组、工业大数据专题组、电子商务大数据专题组,目前有成员单位160 多家。
主要成果
(1) 在研国家标准10 项( 见表1)
(2) 提出大数据技术参考模型( 图1)
(3) 提出大数据标准体系框架
结合国内外大数据标准化情况、国内大数据技术发展现状、大数据参考架构及标准化需求,根据数据全周期管理、数据自身标准化特点、当前各领域推动大数据应用的初步实践,以及未来大数据发展的趋势,我们提出了大数据标准体系框架,如图2所示。
(4) 发布《大数据标准化白皮书V2.0》
《大数据标准化白皮书V2.0》在由中国电子技术标准化研究院于2014 年7 月发布的《大数据标准化白皮书V1.0》基础上增加国内、国外主要国家在大数据发展战略、技术与应用方面的布局与实践,国内大数据应用实践,大数据开源现状的描述以及11个大数据应用的成功案例。力图从应用、技术、产业、标准等角度,勾画出大数据发展的整体轮廓,从技术和商业角度提出大数据产业生态链;从数据生存周期的角度提出大数据参考架构,分析大数据发展的关键技术;同时抛开其他影响因素,从数据自身的角度提出在不断创新的应用与服务模式下大数据标准体系及近期急需研制的标准项目。
(5) 完成六项研究报告
研究并翻译了《大数据定义》、《大数据参考架构》、《大数据分类》、《大数据安全与隐私》、《大数据标准化路线图》、《开放数据白皮书》六项研究报告。
下一步工作
(1) 提出我国大数据标准化工作的指导思想、基本原则和重点工作;构建我国大数据标准体系。
(2)按报批计划完成上述10项在研国家标准。
(3)组织表2中19项国家标准立项。
(4) 开展重点标准研制。
后续工作组将重点开展数据开放、工业大数据、数据成熟度评估、大数据系统评价等标准的研制;进一步完善元数据资源库的设计和建设;开展数据能力成熟度评估和大数据系统测试;系统开展大数据人才培养等方面的相关工作。
大数据标准化现状及标准研制 篇2
大数据是新一轮信息技术革命与人类经济社会活动交汇融合的必然产物,大数据的应用将成为未来提升生产力、竞争力、创新能力的关键要素,也是目前全球产业转型必须面对的重要课题。推动大数据的发展,是提升运营效率,优化供应链,提升竞争力和创新商业模式的重要抓手,对推动产业转型升级,具有十分重要的战略意义和现实意义。
大数据领域的标准化工作是支撑大数据产业发展和应用的重要基础。加快大数据关键技术和标准的研发创新,促进大数据的发展和应用,推动我国大数据产业转型升级,是我国科技发展重大战略需求。大数据领域的标准化工作定会对未来的产业、 生活起着不可估量的作用。
2 大数据标准化现状
随着大数据技术的发展与应用,大数据标准研制已成为国际各标准化组织共同关注的热点,然而尚处于起步阶段。
2.1 国外大数据标准化组织
(1) ISO/IEC JTC1 WG9
ISO/IEC JTC1于2013年11月全会上成立负责大数据国际标准化的大数据研究组 (ISO/IEC JTC1SG2),并由美国国家标准与技术研究院 (NIST) 专家Wo Chang担任召集人。其工作重点包括:调研ISO、IEC、ISO/IEC JTC1等在大数据领域的关键技术、 参考模型以及用例等标准基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序。
2014年11月,ISO/IEC JCT1 SG2向ISO/IEC JTC1全会提交了研究组的研究报告,其中包括建议成立独立的JTC1大数据工作组,需要标准化的大数据技术点。根据SG2的建议,ISO/IEC JTC1于此次会上成立了负责大数据国际标准化的大数据工作组 (ISO/IEC JTC1 WG9),由Wo Chang担任召集人。
WG9的工作重点包括:开发大数据基础性标准,包括参考架构和术语;识别大数据标准化需求; 同大数据相关的JTC1其他工作组保持联络关系; 同JTC1外其他大数据相关标准组织保持联络关系。 目前,WG9正在研制“Information technology - Big Data- Overview and Vocabulary”(《信息技术大数据概述和术语》) 和“Information Technology - Big Data - Reference Architecture”(《信息技术大数据参考架构》) 两项国际标准。
(2) ISO/IEC JTC1/SC32
ISO/IEC JTC1/SC32数据管理和交换分技术委员会致力于研制信息系统环境内及之间的数据管理和交换标准,为跨行业领域协调数据管理能力提供技术性支持 , 其标准化内容涵盖 : 协调现有和新生数据标准化领域的参考模型和框架;负责数据域定义、数据类型和数据结构以及相关的语义等标准; 负责用于持久存储、并发访问、并发更新和交换数据的语言、服务和协议等标准;负责用于构造、组织和注册元数据及共享和互操作相关的其他信息资源 ( 电子商务等 ) 的方法、语言服务和协议等标准。 在2012年成立下一代分析技术与大数据研究组, 并于2014年6月,启动四项为大数据提供标准化支持的新工作项目:SQL对多维数组的支持、SQL对JSON的支持、数据集注册元模型和数据源注册元模型。
(3) ITU-T
ITU-T也开展了大数据领域相关标准化工作, 重点研究了基于大数据的云计算相关技术,2013年11月发布《大数据:今天巨大,明天平常》的技术观察报告,该报告分析了大数据相关的应用实例, 指出大数据的基本特征、促进大数据发展的技术, 同时还分析了大数据面临的挑战和ITU-T可能开展的标准化工作。ITU-T的大数据标准化工作主要在SG13 ( 第13研究组 ) 开展,具体包括该研究组下设的Q2 ( 第2课题组 ) 涉及的研究课题“针对大数据的物联网具体需求和能力要求”、Q17 ( 第17课题组 ) 涉及的研究课题“基于云计算的大数据需求和能力”以及Q18 ( 第18课题组 ) 涉及的研究课题“大数据即业务的功能 架构”, 并由Q17牵头开展ITU-T大数据标准化路标的制定工作并负责向TSAG( 电信标准化咨询委员会 ) 汇报。
(4) NIST
NIST于2013年6月成立了大数据公共工作组 (NBD-PWG),其工作范围是建立来自于产业界、学术界和政府的公共环境,共同形成达成共识的定义、 术语、安全参考体系结构和技术路线图,提出数据分析技术应满足的互操作、可移植性、可用性和扩展性需求和安全有效地支持大数据应用的技术基础设施,用于为大数据相关方选择最佳的方案。NBD PWG下设术语和定义、用例和需求、安全和隐私、 参考体系结构和技术路线图五个分组,目前已经完成了《大数据定义》、《大数据分类》、《大数据用例和需求》、《大数据安全和隐私需求》、《大数据参考架构调研白皮书》、《大数据参考架构》 和《大数据技术路线图》等V1.0版本,已于2015年5月21日完成征求意见,并同时进行V2.0的工作。
2.2 国内大数据标准化组织
全国信息技术标准化技术委员会 (TC28, 以下简称“全国信标委”) 持续开展数据标准化工作 , 在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。
为了推动和规范我国大数据产业的快速发展, 建立大数据产业链,与国际标准接轨,全国信标委于2014年12月2日正式成立大数据标准工作组。
工作组主要负责制定和完善我国大数据领域标准体系,组织开展大数据相关技术和标准的研究, 申报国家、行业标准,承担国家、行业标准制修订计划任务,宣传、推广标准实施,组织推动国际标准化活动。对口ISO/IEC JTC1 WG9大数据工作组。
工作组组织机构如图1所示。
大数据总体专题组,负责工作组基础技术和标准化保障规范研究,包括大数据术语、参考架构、 用户需求研究和共性、基础标准的研制。该专题组近期将加强基础数据、大数据交易方面的研究,积极推动相关标准的研制,建立元数据仓库,并进一步完善我国大数据标准体系,完善并发布《大数据标准化白皮书V2.0》。
大数据国际专题组,负责支撑国际标准的研制工作,跟踪国际标准化活动。专题组将积极参与大数据国际标准的编制,目前专题组成员已担任国际标准《信息技术大数据概述和术语》的联合编辑。 未来专题组将积极推进我国大数据领域的国际标准提案,提高我国在大数据领域的国际话语权。
大数据技术专题组,主要研究与制定大数据领域的相关技术标准,深入研究大数据的收集、预处理、 分析、可视化以及数据质量等相关技术。技术专题组将全面调研,重点关注国内最新研究成果;针对需求, 优先应对需求最为迫切的领域与问题;面向实用,与实际应用结合,通过典型领域宣贯推广获得反馈,持续改进;密切合作,与总体、国际、领域等其他相关小组密切合作,形成合力,积极推动数据描述、评估、 采集、集成等关键基础性标准预研与制定。
大数据产品和平台专题组,负责大数据产品和平台相关标准化保障规范研究,包括用户需求的研究和各种技术的应用解决方案。本专题组将持续致力于协 调组织各 大数据平台和产品的相关企业,对具有明显大数据特征的处理平台和相关产品及其管理、验证等系列标准进行研制,为提升跨行业领域协调数据管理能力提供技术性支持。
大数据安全专题组, 负责大数据安全标准化保障规范研究,包括数据开放共享中涉及的安全、隐私保护等。安全专题组将积极开展基础安全及监管政策类、大数据安全技术类、大数据产品和平台安全类、大数据业务安全及安全业务类、大数据安全管理及业务连续性类等方面的大数据安全标准。
工业大数据专题组,负责工业领域的大数据标准化保障规范研究,包括工业大数据在工业产品、 研发设计、生产过程、生产性服务等方面相关标准研制,推动制造业向智能化方向转型。近期将重点完善工业大数据标准体系,确定工业大数据参考架构,开展工业领域元数据、标识等相关标准的研制。
电子商务大数据专题组,将深入研究大数据在电子商务领域的应用,包括精准营销、物流与仓储优化、 用户体验、市场预测等,并将积极开展在电子商务大数据采集标准、电子商务大数据仓库建设模型标准、 电子商务大数据标准化指标体系等标准的研制。
3 大数据标准体系框架
2014年7月,中国电子技术标准化研究院发布《大数据标准化白皮书》,公布了大数据标准体系框架。 随着大数据的发展,大数据标准体系框架也在不断发生着变化。近期,全国信标委大数据标准工作组对大数据标准体系框架进行修订,形成大数据标准体系框架2.0版本征求意见稿 ( 如图2所示 )。
大数据标准体系由五个类别的标准组成,分别为:基础标准、技术标准、产品和平台标准、大数据安全标准及应用和服务标准。
(1) 基础标准
为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。
(2) 技术标准
该类标准主要针对大数据相关技术进行规范。 包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、 访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。
(3) 产品和平台标准
该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中,关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、 技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、 OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需要用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、 平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。
(4) 大数据安全标准
数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。
(5) 应用和服务标准
应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中,开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准, 包括工业、电子商务等领域。
4 标准研制
2014年国家立项大数据领域10项国家标准:《多媒体数据语义描述要求》、《数据能力成熟度评价模型》、《信息技术大数据技术参考模型》、《信息技术大数据术语》、《信息技术科学数据引用》、 《信息技术数据交易服务平台交易数据描述》、《信息技术数据交易服务平台通用功能要求》、《信息技术数据溯源描述模型》、《信息技术数据质量评价指标》、《信息技术通用数据导入接口规范》, 该10项标准正在研制中,部分标准已经形成草案。
为了推动大数据的发展,大数据标准工作组将加强元数据、工业大数据、数据分类、数据开放共享、 安全与隐私等方面的研究与应用,着力开展相关标准体系架构搭建和重点标准研制工作。并通过标准符合性测试以及相应的评价、认证等工作,全面提高数据质量,提升数据服务能力,推动产业发展。
摘要:介绍了ISO/IEC JTC1 WG9、ISO/IEC JTC1SC32、ITU-T、NIST国际标准化组织在大数据领域的标准化工作,国内全国信标委大数据标准工作组的工作范围、组织机构及在大数据领域的标准化工作,概述了国内大数据标准体系及标准研制情况。
标准化推进大数据时代进程 篇3
标准是大数据时代的重要技术支撑, 标准化工作是大数据产业发展和应用的重要基础。运用标准保障数据安全、推动技术创新、支撑大数据领域产业、应用和服务等有序、规模化发展是大数据时代的必然要求。
大数据的涵义
1.何为大数据
从广义上讲, 大数据即海量数据, 是由数量巨大、结构复杂、类型众多的数据构成的数据集合, 是基于云计算的数据处理与应用模式, 通过数据的集成共享, 交叉复用形成的智力资源和知识服务能力。
从狭义上讲, “大数据”是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产, 是数据分析的前沿技术。
大数据是科技发展的产物, 随着金融、商业、电信、贸易、期货等领域的网络电子化, 互联网终端、移动电话、银行信用卡等海量数据信息出现, 各种数据库的存储出现了几何级数增长。按照墨菲定律, 在大数据时代, 每隔半年, 人类积累的数据就会翻一番。我们现在每年生产的数据几乎是人类以往五千年生产的数据的一倍还多。
2.大数据究竟有多大
一组名为“互联网上一天”的数据告诉我们, 一天之中, 互联网产生的全部数据可以刻满1.68亿张DVD;发出的邮件有2 940亿封之多 (相当于美国两年的纸质信件数量) ;发出的社区帖子达200万个 (相当于《时代》杂志770年的文字量) ;卖出的手机为37.8万台, 高于全球每天出生的婴儿数量37.1万……
截至2012年, 数据量已经从TB (1 024GB=1TB) 级别跃升到PB (1 024TB=1PB) 、EB (1 024PB=1EB) 乃至ZB (1 024EB=1ZB) 级别。国际数据公司 (IDC) 的研究结果表明, 2008年全球产生的数据量为0.49ZB, 2009年的数据量为0.8ZB, 2010年增长为1.2ZB, 2011年的数据量更是高达1.82ZB, 相当于全球每人产生200GB以上的数据。而截止到2012年, 人类生产的所有印刷材料的数据量是200PB, 全人类历史上说过的所有话的数据量大约为5EB。IBM的研究称, 整个人类文明所获得的全部数据中, 有90%是过去两年内产生的。而到了2020年, 全世界所产生的数据规模将达到今天的44倍。
3.大数据的特征
(1) 数据量大。大数据的起始计量单位至少是P (1 000个T) 、E (100万个T) 或Z (10亿个T) 。
(2) 类型繁多。大数据包括网络日志、音频、视频、图片、地理位置信息等, 多类型的数据对数据的处理能力提出了更高的要求。
(3) 价值密度相对较低。随着物联网的广泛应用, 信息感知无处不在, 信息海量, 但价值密度较低, 如何通过强大的机器算法更迅速地完成数据的价值“提纯”, 是大数据时代亟待解决的难题。
(4) 处理速度快, 时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
建立大数据标准推进大数据时代转型
当前, 在经济全球一体化的形势下, 标准作为贸易的技术基础和产业发展的关键要素, 对于经济社会发展的支撑作用日益凸显, 加强技术标准化研究, 帮助企业共同推进全球技术数据化标准应用, 对于大数据时代转型具有关键作用。建立大数据标准体系, 推进大数据时代转型发展势在必行。
1.开展数据源头标准化研究, 促进行业发展
首先, 要从数据的源头开展标准化研究, 确保数据质量, 推动行业进步。比如工业化大生产下的产品设计, 应首要建立产品设计要素标准化, 形成清单, 并且明确使用、检验的标准, 这样对后期采购、验收等流程都有重要意义。此外, 对设计要素形成统一称谓, 使用标准名词;依据不同行业的特点将数据按照一定的规则进行排列管理, 以方便今后的工作使用等等, 通过这些对产品设计等数据源头标准化的管理, 实现产品的标准化生产制作, 进而促进行业发展。
2.建立商品数据信息标准化, 推动零售业发展
当今时代, 虽然网络信息技术飞速发展, 但零售业依然面临各种商品、信息、格式和协议标准不统一的问题, 由于企业在采购、运输、消费等各个环节过程中需要处理大量不同的信息, 商品从生产出来到消费者使用需要很长的时间等待, 因此, 只有把相关商品数据信息标准化, 统一数据格式和交换协议才能有效解决当前零售业面临的根本问题, 这就更加凸显了标准在信息化大数据时代的重要作用。建立完善商品数据信息标准, 对于零售业发展繁荣以及经济发展有着不容低估的重要意义。
3.合作共赢, 推进大数据领域标准体系和产业发
应坚持开放原则, 汇聚各方力量 (包括互联网企业、数据服务企业、教育、医疗等各领域企业) 参与开展大数据标准化工作。在大数据标准研制的过程中, 要注重结合行业应用、地方实际应用和企业应用, 加强标准工作的试点、验证和逐步完善, 提高标准的可用性。
同时, 在标准研制的基础上, 合作开展法规工作, 为政府决策提供参考, 做好公共技术平台搭建, 使大数据真正走向实用, 为数据“孤岛”的解决提供具体方案, 开展数据服务、数据评价和研究, 并为数据服务方、提供方、适用方和政府监管提供科学依据。
结语
大数据标准工作组 篇4
大数据(Big Data)也称“巨量资料”,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、 高增长率和多样化的信息资产。 麦肯锡称: “数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。 人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来”。 不只是生产与消费,“大数据”自2008年首次提出以来, 得到了各行各业广泛的重视, 已在多个领域崭露头角, 势头方兴未艾。
“大数据” 在卫生领域, 尤其是卫生数据方面的应用,仍处于起步阶段,但随着数据量的累积,数据类型的丰富,以及数据分析要求的提高,着眼于海量数据处理的“大数据”思维方式和分析方法正引起人们的重视。
2大数据4V特点在卫生数据领域的应用
大数据的4V特点,分别是Volume(大量)、Variety (多样)、Velocity(高速)和Value(价值)。 其中 “价值”特点是4V的核心, 体现出的是大数据运用的意义所在———数据产生价值,“大量”、“多样”和“高速”围绕“价值”特点服务。
“大量”代表了巨大的数据体量,它保证数据不会因为存储容量的原因成为影响数据价值的瓶颈。 从电子化数据存储初期以b、KB、MB级别的计量单位,经过几十年的发展逐渐演变到GB、TB,甚至是PB、EB、ZB级别, 存储容量的提升是大数据时代的物质基础,使卫生数据得到质的飞跃。 2008年全球数据量仅为0.49ZB,在金融危机笼罩下的2009年, 数据量也较2008年增长了63% , 达到0.8ZB;2010年增至1.2ZB;2011年高达1.82ZB;2012年则达到2.7ZB,相比于2011年的数据量增长了48%。 若以如此快的速度增长,2015年的全球数据量将会升至7.9ZB,到2020年则高达35.2ZB,是2015年数据量的4.45倍之多。
“多样”是指数据种类繁多,数据来源广泛。 在卫生领域,卫生数据可以与其他学科的数据,产生良好的交互作用,引发前所未有的分析融合,提升数据价值。 例如,首都医科大学附属北京安贞医院心脏内科中心主任马长生,正承担“北京市心血管疾病防控大数据平台建设”工作,在该研究中采用了大数据手段研究环境和心血管疾病之间的关系。 他使用大数据的手段,主要收集每日不同站点PM2.5浓度, 探究其与心血管疾病的关系;并在研究中发现,股票波动与心血管疾病的关系,甚至都可以得到预测。 该研究的结果即是环境和金融数据与卫生数据结合,通过多学科间的交互取得的。
“高速”中的“秒级定律”是大数据分析的主要要求之一。 即一般要在秒级时间范围内给出分析结果,时间太长就失去价值了, 这个速度要求也是大数据处理技术和传统的数据挖掘技术最大的区别。 由于网络的飞速发展,基于海量数据高速分析传输的功能已可以实现, 建立各方数据能够实时交互的“公共数据库”也将成为可能。
产生“价值”是大数据的核心更是最终目的。 不同于传统的数据利用方式,在大数据中由海量数据产生的不仅仅是实时价值,更是高质量数据存储于公共数据库以便必要时起用的存储价值, 以及由存储价值形成的,多行业、多学科、多领域、多类别的海量数据揉合后产生的联合价值。
以传统方法为例。 一项医学研究所收集到的数据在分析结束后,由于存储量的限制和缺少与其他研究数据关联的方式,这些数据会成为“已用数据”被弃置。 而进入大数据时代, 建立了方便于资源共享的公共数据库, 存储方式得到统一,每一项产生的数据都会按属性分门别类纳入到公共数据库中, 在其他研究需要该项数据时,可以从公共数据库中直接调取使用,方便迅速,降低了时间与物质资源的损耗。 大数据是企业决策的基础, 但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效地深加工,发现隐含在大量数据中的信息并加以利用,进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。 卫生领域也是如此。 公共数据库中的数据在经过一段时间的存储后,还可引发 “数据质变”,即由海量数据引发的,通过恰当的分析方法自发揭示其新的内在联系和相互规律的过程。
3卫生数据价值判断标准
卫生数据具有数据种类较单一(主要为文本型数据和数字型数据)、 数据库规模庞大、 数据分析复杂程度高、分析精度要求高以及数据时效性强的特性。 分析难点是:数据量大,精确度高,时效性强,即要求在对卫生数据分析的过程中, 应当严格把控对海量数据精确、快速分析的原则,保证数据价值的最大化。
不同于传统“先质后量”的数据存储模式,“大数据” 反其道而行之,讲求“数据量变引发数据质变”。 随着卫生统计进入大数据时代, 海量数据被纳入公共数据库, 每份数据的质量必然良莠不齐。 而较低“价值密度”的数据参与分析, 不仅有可能扩大置信区间降低论证强度, 甚至取得相反结果得出错误结论。 因此,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
在卫生数据分析时,可先通过“逻辑除杂”的方式, 去除“噪音数据”。 尽管一份研究的第一手数据是通过调查收集取得的,但是在这些数据之间存在着明显的逻辑关系,在对收集到的原始数据整理入库的过程中,可以善用这些逻辑关系找出某些不合逻辑的数据,起到对数据的去伪除杂作用,例如身份证信息判断手动录入的年龄数值、年龄判断婚姻状况等。 虽然无法完全剔除“噪音数据”, 但是作为数据质量的第一重保障可大幅减少逻辑错误数据进入数据库,而对于计算机操作而言,人为设定逻辑规则,简便易行,可谓“简单、方便、效果好”的去伪方法之一。
再进行“数据预处理”操作。 数据的预处理包括数据清理、集成和变换、规约以及概念分层。 经过预处理后的数据可从三个指数来判断数据价值的大小: 正确指数、 完整指数和时效指数。
3.1正确指数(Correction Index)
“正确指数” 用以衡量正确项对整份数据价值的影响程度。 经过预处理后的数据,并不能保证完全无差错, 可用“抽样判断”的方式,通过样本正确率来估算总体正确率。
“抽样判断”方法:(1)根据总体大小来计算需要抽取的样本数量;(2) 使用随机数字表对总体抽样, 抽选 “判断样本”;(3)根据选中的 “判断样本”数据项重复调查,取得样本数据资料;(4)比对样本数据资料和总体内该样本的同一资料,计算正确率;(5)依照“正确率”计算其“正确指数”。
纳入数据库中的数据应是正确的,也只有正确的数据才有统计和分析的价值, 否则不仅无法表达真实结果,甚至还会引发“链式反应”,已存储于数据库内的错误信息,会影响使用该信息的其他研究项目,得出更多失真结论。 正确指数不仅来源于数据正确率,还需综合考虑“噪音数据”在该份数据中对结果影响的重要程度而设定,例如在计算BMI时,身高和体重,对BMI结果有重大影响的数据是“关键数据”,其影响因子较高;而姓名、性别、序号、出生年月等对结果影响微乎其微的数据是“普通数据”,其影响因子也较低。 综合数据的正确率和影响因子,得出该份数据的“正确指数”,有助于更科学合理地评价数据质量好坏。
3.2完整指数(Integrity Index)
“完整指数”用以衡量非 “空白数据”对整份数据价值的影响程度。
数据也应是完整的。 正确而不完整的数据固然也有分析和统计的价值,但是数据的论证强度,会受到影响, 其置信区间会随着样本数量减少而扩大,因此数据的完整性越差,论证强度也就越弱,并且数据的完整性对数据价值的表现为非线性,单一的“空白数据”对整份数据价值的影响不明显,但是随着数据库内“空白数据”比例增加,数据价值将随稳定性锐减。 “完整指数”来源于数据的完整率,在计算“完整指数”时可套用“正确指数”的计算方法,同样也需考虑“空白数据”在该份数据中对结果影响的重要程度。 与计算“正确指数”不同的是,“空白数据”难以隐藏,易于发现,因此无需样本估算操作。
3.3时效指数(Effectiveness Index)
“时效指数” 用以衡量效用对整份数据价值的影响程度。
最后, 从首次取得数据到该次使用数据得出结论, 相隔时间越短,数据时效性越强,越具有效用,其价值也就越大。 “时效指数”因此提出,“数据变异程度”和“相隔时间长短”是计算“时效指数”的影响因素。 变异程度越低、相隔时间越短的数据“时效指数”越大,例如“受教育程度” 是随时间变异非常大的数据类型,2005年 “全国15岁及15岁以上文盲、半文盲人口”比例为11.04%,但仅6年时间,到2011年因国家教育新政策实施,这一比例锐减到5.21%。 因此用变异程度大的数据来做统计推算是不合适的,同理时间间隔越长,数据效用越差的可能性越大。 “时效指数”的设定,有助于分析既往数据的当前效用。
在使用“公共数据库”中的数据时,应充分考虑该份数据的“正确指数”、“完整指数”和“时效指数”,并通过三个指数,计算数据的“CIE指数”。 “CIE指数”可客观地整体评价数据的真实价值,并且可作为多份数据间价值大小比较的依据。
4结束语
随着大数据时代的到来,大数据的思维方法在卫生领域的广泛应用, 越来越多的研究数据被再次深度挖掘。 一份高质量的数据,对结果能够真实表达的重要性不言而喻,而收集、整理这样一份数据,需要的不仅仅是工作人员的耐心细致,更要从数据处理着手,从根本上缩小与真实值的差异。 提出“CIE指数”卫生数据价值判断法,另辟蹊径,将从新的角度解读数据价值,为制定数据价值标准并通过该标准比较数据间价值大小提供新的方法和思路。
本文对卫生数据的探究,仅仅是冰山一角,还有如 “秒级定律” 在卫生数据分析中的应用研究、 通过 “CIE指数”计算卫生数据价值的方法探讨以及建立卫生数据共享和使用秩序的规则探索等引申出的诸多问题亟待解决。 相信随着研究地不断深入,这些问题将从全新角度解读数据规则,挖掘卫生数据背后的价值。
摘要:“大数据”带来的不仅仅是一种全新的巨大体量的数据资产,更是一种对如何处理海量数据的思维方式、分析方法的探索;将大数据的思维方式和分析方法引入卫生数据,以期获得的也不仅仅是一份包罗万象的表格、数据,更是如何通过数据加工实现“数据增值”。然而,对于大数据下的卫生数据价值判定,目前还没有一个明确的标准。价值有无和价值大小仍在用个人主观方法判断,结果因人而异。因此,论文在阅读相关文献和资料的基础上,根据卫生数据的特性,结合自身对大数据的理解,阐述了大数据4V特点的见解,提出了通过“CIE指数”判断卫生数据价值大小的观点,进一步明确了设立价值判断标准的重要性,并为未来卫生数据如何规范、统一地进入“大数据”时代做出了设想。
关键词:大数据,卫生数据,数据增值,价值判断标准
参考文献
[1]柏秋云.大数据的价值与挑战[J].科技信息,2013,(17):479.
[2]焦飞,王娟,马颖,于媛等.大数据时代背景下的医学思考——转化医学新趋势前瞻[J].医学与哲学,2014,35(512):1-9.
[3]Gantz J,Reinsel D.Extracting.Value from Chaos[R].Framingham:International Data Corporation,2011.
[4]李惠先,封二英.大数据时代医学研究面临的机遇与挑战[J].计算机光盘软件与应用,2014,(23):138-139.
[5]李永宏.大数据与云计算[J].统计与管理,2013(06):114.
[6]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报,2013(05):39-43.
[7]陈冠诚.大数据的价值密度[J].程序员,2014(05):14.
[8]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02).
[9]刘莉,徐玉生,马志新.数据挖掘中数据预处理技术综述[J].甘肃科学学报,2003(01).
[10]2006-2012年中国统计年鉴[M].北京:中国统计出版社.
[11]Jiawei Han,Micheling Kamber,Jian Pei.Data Mining Concepts and Techniques Third Edition[M].USA:Morgan Kaufmann,2011.
大数据标准工作组 篇5
《意见》分为8大方面共36条, 其中多个方面与质量监管相关。具体而言, 在运用大数据提高为市场主体服务水平方面, 要求充分运用大数据技术, 积极掌握不同地区、不同行业、不同类型企业的共性、个性化需求, 在检验检测、认证认可、进出口、技术改造、知识产权等方面主动提供更具针对性的服务, 推动企业可持续发展;加快建立公民、法人和其他组织统一社会信用代码制度以及全面实行工商营业执照、组织机构代码证和税务登记证“三证合一”“一照一码”登记制度改革, 运用大数据推动行政管理流程优化再造;根据宏观经济数据、产业发展动态、市场供需状况、质量管理状况等信息, 充分运用大数据技术, 改进经济运行监测预测和风险预警, 并及时向社会发布相关信息, 合理引导市场预期。
在运用大数据加强和改进市场监管方面, 《意见》提出, 要以社会信用信息系统先导工程为基础, 充分发挥国家人口基础信息库、法人单位信息资源库的基础作用和企业信用信息公示系统的依托作用, 建立国家统一的信用信息共享交换平台, 整合金融、质量监管、统计调查等领域信用信息, 实现各地区、各部门信用信息共建共享;充分发挥行政、司法、金融、社会等领域的综合监管效能, 在产品质量、食品药品安全、消费品安全等方面, 建立跨部门联动响应和失信约束机制, 对违法失信主体依法予以限制或禁入;对食品、药品、农产品、日用消费品、特种设备、地理标志保护产品等关系人民群众生命财产安全的重要产品加强监督管理, 利用物联网、射频识别等信息技术, 建立产品质量追溯体系, 形成来源可查、去向可追、责任可究的信息链条, 方便监管部门监管和社会公众查询。
在健全保障措施和加强组织领导方面, 《意见》重点提出要完善标准规范。建立大数据标准体系, 研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等。加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准。引导建立企业间信息共享交换的标准规范, 促进信息资源开发利用。另外, 《意见》还提出在工商登记、统计调查、质量监管、竞争执法、消费维权等领域率先开展大数据示范应用工程, 实现大数据汇聚整合。
大数据标准工作组 篇6
近年来, “大数据”这一概念引起了产业界、学术界及政府部门的高度关注。联合国“数据脉动”计划、美国“大数据”战略、英国“数据权”运动等先后开启了“大数据”的大幕。“大数据”作为继物联网、数字城市、智慧城市等信息化流行概念之后的又一“概念”产物, 它的本质究竟是什么?
一般意义上, 大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据技术, 是指从各种各样类型的数据中, 快速获得有价值信息的能力。适用于大数据的技术, 包括大规模并行处理 (MPP) 数据库, 数据挖掘电网, 分布式文件系统, 分布式数据库, 云计算平台, 互联网和可扩展的存储系统。
对于“大数据” (Big data) 研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点可以总结为4个V, 即Volume (体量浩大) 、Variety (模态繁多) 、Velocity (生成快速) 和Value (价值巨大但密度很低) 。
基于物联网、云技术、信息技术的大数据技术可以运用到多个行业。在宏观经济方面可以用大数据技术建立经济指标预测系统;可以依据购物网站的顾客评论, 分析企业产品的销售情况;企业可以利用大数据分析实现对采购和库存量的合理配置, 通过数据分析了解客户需求, 掌握市场动向;在农业方面可以通过对天气、温度、降水、土壤状况的数据分析, 与当年的农作物产量相结合, 进而判断来年农作物的产量;银行可以通过对中小企业的交易状况, 分析出企业的财务健康程度, 决定是否为其发放贷款, 降低坏账率;在医疗方面可以通过对人体基因大数据分析, 实现对症下药的个性化治疗;在公共安全领域, 可以通过对短信、微博、微信和搜索引擎分析热点事件, 了解社会舆情等等。
2 大数据为标准化工作带来的机遇与挑战
2.1 大数据时代标准化事业的机遇
(1) 海量的数据, 有利于标准化机构为客户提供数据的有效性
传统的标准化服务方式已经为标准化科研机构积累了大量的有效数据, 各个标准化机构汇集了大量的国外、国家、地方、行业标准数据;多年的公益服务, 为标准化机构积累了大量的客户资源。标准化科研机构可以通过对自己海量数据分析、挖掘, 生成有效信息, 为客户提供有效的数据服务。
(2) 大数据技术的发展, 有利于提高标准化服务的实时性
大数据的应用, 为各种信息技术的发展提供了广阔的舞台, 数据挖掘技术、即时通信技术的发展使得标准化机构为客户提供实时的数据服务成为现实。
(3) 数据的公开透明化, 有利于提高标准化服务的准确性
长期以来, 标准化科研机构与客户之间总存在着无形的隔阂, 使得标准化科研机构难以真正了解客户的需求。大数据时代的一个重要趋势就是数据的公开透明, 短信、微信、微博、互联网、物联网, 都记录了客户的各类相关数据。数据的公开透明使得标准化科研机构有机会收集客户的资料, 掌握客户动态, 为客户提供精准的和预判性的服务成为现实。
(4) 实现标准数据增值
通过对海量数据的深度分析、挖掘客户的行为习惯和消费倾向, 标准化科研机构可以实施定向营销及网络优化, 实现数据增值服务。
(5) 大数据的应用为标准化事业发展提供契机
掌握好大数据的存储、分析、挖掘、处理速度、信息安全和决策支撑, 并将之用于标准化科研机构的日常运作、维护及服务方式转型中, 成为标准化科研机构可持续发展、维持竞争优势的当务之急。
2.2 大数据对标准化事业的挑战
(1) 数据存储能力
数据量的成倍增长对数据存储能力构成挑战。传统的数据库追求高度的数据一致性和容错性, 缺乏较强的扩展性和较好的系统可用性, 不能有效存储非结构化和半结构化的数据。要达到低成本、低能耗、高可靠性目标, 要用到冗余配置、分布化、物联网及云计算技术, 在存储时要对数据进行分类, 通过过滤和去重, 减少存储量, 要有便于检索的标识。
(2) 数据分析、处理能力
数据类型的多样化, 对数据分析平台发出了挑战。有些行业的数据涉及多个参数, 其复杂性不仅体现在数据样本本身, 更体现在多源异构、多实体和多空间之间的交互动态性, 难以用传统的方法描述与度量, 处理的复杂度很大。
(3) 数据处理的及时性
随着数据规模的不断扩大, 分析处理的时间相应地越来越长, 在大数据条件下对信息处理的时效性要求越来越高。
(4) 大数据的有效融合
大数据时代, 数据来源途径多元化, 来自互联网、物联网及信息机构的数据成多样性, 多渠道、多样性的数据的融合成为应用大数据的突出问题。数据不整合就无法发挥出大数据的价值。
(5) 数据安全性
大数据时代, 大量的保密数据、隐私数据呈几何级数增长。而信息技术的发展使大量信息跨领域、跨组织传播, 伴随而来的是数据的安全性问题。大数据环境下通过对客户数据的深度分析, 很容易了解客户行为和喜好, 乃至企业的商业机密, 对个人隐私问题必须引起充分重视。
(6) 大数据时代的人才资源
从各类看似不相关的海量数据中获取价值, 需要各类人才队伍的团结合作。一是进行大数据分析的分析型人才;二是大数据价值可视化人才;三是实现大数据的技术支持人才。由于大数据涉及多领域、涵盖内容广泛, 所需的高端专业人才不仅包括通信工程师、程序员和数据库工程师, 也需要经济学、社会科学、自然科学、基础科学等多学科的专家的团结合作。
3 建议与举措
3.1 重视大数据价值, 建立标准化服务新方式
组织各方力量, 跟踪国内外大数据发展趋势, 通过各种渠道收集有效信息, 为大数据在标准化服务的应用打好基础。树立适应大数据时代的服务理念, 改变传统服务方式, 使标准化事业在大数据时代与时俱进, 开拓创新。
3.2 加大数据在标准化服务方面的开发支持力度
在明确标准化服务方式的前提下, 整合各类政府专项、科技基金等项目资金支持, 开发大数据技术, 引导标准化科研机构加大开发力度。此外, 国家应在大数据平台的构建、典型行业的应用以及研发人才的培养等方面提供相应的财力、物力与人力支持。
3.3 加快推进应用
大数据时代, 各类用户为了满足自身的需求, 对信息数据需求与日俱增。利用大数据技术建立专门的标准化公共服务平台, 通过网络收集各类有效信息, 可以提高标准信息服务的覆盖面, 使客户即时通过网络了解标准化最新动态, 并可通过自助定制服务选择标准产品, 以满足客户个性化需求, 提升标准信息服务水平以及客户满意度。
3.4 完善基础标准数据集的建设
完善基础标准数据集建设应从两方面进行。首先, 要完善数据的收集。大数据时代数据来源多元化, 数据采集方式多样化, 大数据以数据流的形式产生, 因此大数据中常常包含不同形态的数据噪声。消除冗余、降低数据噪声、提高数据质量则显得尤为重要。其次, 推动国家基础标准数据共享。我国应加快推进标准信息资源共享, 给大数据技术发展提供数据基础, 促进大数据成果在标准化事业上的广泛应用。
3.5 人才建设
将大数据转化为有价值的信息的前提是有大数据分析、处理能力的人才。这不仅仅需要通信、计算机等IT专业人才, 更需要有业内专家的鼎力支持。因为数据之间的关联性已经不仅仅是技术问题, 只有关联专业的专家才能了解, 合理的数据结构需要各行各业的专家通力合作才能建立。因此, 懂得hadoop、nosql等大数据平台知识的各专业人才培养尤其重要。
3.6 建立大数据标准体系
目前, 国内外在大数据标准化工作方面尚处于起步阶段, 尚未形成一套完整的大数据标准体系框架或发展蓝图。这对大数据应用发展形成障碍, 建立大数据标准体系, 将为我国在大数据时代的经济发展抢得先机。
摘要:在当今的信息时代, 云技术、物联网和基于二者的大数据技术正推动经济社会发生着变革。未来经济在互联网等技术的作用下变得越来越个性化, 对大数据技术的应用将有利于标准化事业对经济社会发展做出更大贡献, 标准化的服务内容由经济主体自由选择, 标准化机构和研究人员更多地关注经济主体的个性化培养, 标准化机构由被动服务逐渐转变为主动服务。在逐步到来的大数据时代, 网络标准化服务与实体标准化服务将逐渐分离, 更多的交往互动、个性化服务和灵活的服务方式将使标准化事业获得新的生机。
关键词:标准化,大数据技术,数据挖掘
参考文献
[1]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域-大数据的研究现状与科学思考[J].理论与战略研究, 2012, 27 (6) :647-656.
[2]范洲平.标准化经济效益评价模型研究[J].标准科学, 2013, (8) :26-29.
[3]芦珊, 姜婉婧.我国的标准化发展及其现状分析[J].现代商业, 2009, (6) :117-118.
[4]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察, 2012, (6) :44-45.
[5]何军.大数据对企业管理决策影响分析[J].科技进步与对策, 2013.
[6]吴金红.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志, 2013, 32 (1) :5-9.
[7]邬贺铨.大数据时代的机遇与挑战[J].科技与教育, 2013, (4) :47-49.
[8]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信, 2012, (17) :14-15.
[9]陶雪娇.大数据研究综述[J].系统仿真学报, 2013, 25:142-146.
[10]李国杰.大数据研究的科学价值[J].中国计算机学会通信, 2012, 8 (9) :8-15.
大数据平台和产品标准化建设研究 篇7
关键词:大数据平台和产品,标准化,参考模型
1 引言
在大数据技术日趋成熟并快速发展、大数据业务模式和应用场景日趋清晰的新形势下,无论是商业版还是开源社区,大数据技术催生的大数据平台和产品也是层出不穷,种类繁多,值得注意的是, 很多企业和组织为了迎合如火如荼的大数据趋势, 通过将很多传统的数据处理产品和工具进行包装和炒作,也纷纷宣布加入到大数据阵营。因此,如何对具有大数据特征的平台和产品进行定义和甄别, 对于构建适应“互联网 +”战略的大数据技术架构、 服务体系和标准体系具有重要的意义,同时也能更好地对大数据进行管理和利用、最大化大数据的价值。
2 大数据平台和产品
2.1 Hadoop 发行版
当前,以分布式计算系统Map Reduce、No SQL数据库HBase、New SQL引擎Hive为代表的Hadoop生态系统已经成为普遍接受和广泛应用的新一代大数据技术体系,除开源社区外,包括EMC、IBM、 Microsoft、Oracle、浪潮、华为在内的传统IT厂商和新兴互联网企业Cloudera、Hortownworks、Map R、 星环科技、亚信科技等也都纷纷宣布加入Hadoop生态圈,并基于开源Apache Hadoop推出了自己的商业Hadoop发行版。
Hortonworks推出的HDP与开源社 区Hadoop的兼容性最高,并且开创性的Stinger模块极大地优化了Hive项目。Cloudera推出的CDH则在稳定版Apache Hadoop中加入了最新的Bug修复系统和管理监控平台Cloudera Manager,因此,CDH在兼容性、 安全性、稳定性以及易用性上有所增强,而且其版本的更新速度比Apache官方快。针对Hadoop在性能、 可靠性、扩展性以及企业级应用上的弱点,Map R采用全新架构重写HDFS,同时在API级别和目前的Hadoop发行版保持兼容。星环科技自主开发国内 ( 也是全球 ) 第一个全面基于SPARK和HADOOP2.0的大数据平台软件,包括Inceptor,Hyperbase,Stream等, 满足数据存储和统计挖掘两大层面的需求。亚信推出的橘云是一个面向全行业的hadoop的发行版,提供基于开源hadoop的底层优化版本,系统管理工具, 轻量级数据处理工具 ( 支持批量和实时 ),支持传统etl模式及ddp模式。
Hadoop发行版作为典型的大数据处理平台,除了更容易地对海量结构化、非结构化和半结构化的数据进行存储和处理之外,还可以更容易地设置、 管理和监控复杂集群。
2.2 内存计算产品
内存计算 (In-Memory Computing) 严格意义上应该是一种技术架构而非产品或者平台,但是基于内存计算技术开发的数据处理平台却具有典型的大数据特征,同时也是业界公认的大数据分析处理平台。 当前业内最具代表性的基于内存计算的大数据处理平台便是SAP的HANA与基于Spark的内存计算系统。
HANA(High-Performance Analytic Appliance) 是SAP公司推出的面向企业分析性应用的内存计算产品。HANA主要包括内存计算引擎和HANA建模工具两部分,支持从SAP商务套件中同步更新业务数据,或者从SAP商务智能产品和其他第三方数据源中批量导入数据。数据在HANA中进行运算后, 提供给SAP BI客户端或者其他第三方展现工具进行分析和展现。与HANA同属内存计算产品范畴还有Oracle的Times Ten、Microstrategy、IBM TM1及Power Pivot等。
Spark诞生于伯克利的AMPLab实验室,Spark专注于数据的计算,而数据的存储在生产环境中往往还是由Hadoop分布式文件系统HDFS承担。 Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。当前最典型的基于Spark的内存计算产品便是Databricks云。 Databricks云是一套以Apache Spark开源处理引擎为核心构建而成的云平台,专门负责大数据处理工作, 可以将Spark的强大计算能力与零管理的托管平台结合起来,并提供常见工作流程所必需的初始应用程序集合。
2.3 MPP 数据库和一体化解决方案
在以Hadoop和Spark为代表的大数据技术体系兴起之前,面向海量数据处理与分析而设计的典型数据处理平台是MPP数据库,其主要技术策略采用设备集群组合完成复杂的任务,像Green Plum、Tera Data、南大通用的GBase等产品基本上代表了主流MPP数据库近年来主要的进展。值得注意的是,当前Hadoop和Spark生态圈都在广泛吸收传统MPP数据库的先进思想和技术,不断完善基于Hadoop和Spark架构的SQL处理引擎,从而催生了一类新的数据处理工具New SQL,如Impala、Drill、Spark SQL等。
此外,无论是结构化、半结构化还是非结构化的数据,其从采集到最后呈现出处理结果的各个环节中,对于数据、软件和硬件的要求是不一样的,用单一的软硬件无法满足所有类型应用。针对上述挑战,国内外厂商纷纷推出了针对大数据处理的解决方案或者产品来满足需求,其中备受关注的当属软硬件一体化设备——大数据一体机 (big data appliance)。 其中比较 有代表性 的是EMC的Greenplum平台、HP计算平台、Oracle的数据处理平台、IBM Info Sphere系列、浪潮的Cloud Canyon平台以及华为的Fusion Insight平台等。
2.4 其他大数据工具
除了上述具有较高综合性和集成度的大数据处理平台之外,在大数据的生态圈,面向大数据垂直化应用的第三方工具类产品也如雨后春笋般的出现, 主要有以下几种:
(1) 大数据ETL工具
大数据的5v特性使得 传统的ETL工具在面 对大数据时必须要进行相应的变革,从而催生了一批新的ETL产品,这里面以informatica公司的Informatica Enterprise Data Integration系列产品 为代表。另外一个具有代表性的服务器海量日志文件管理工具便是Splunk。其他较为有名的大数据ETL工具还有Loggly、Sumo Logic以及华胜天成的MIB和Metaone等。
(2) 大数据BI工具
区别于传统BI软件,大数据BI可以完成对TB级数据的实时分析。目前主流的大数据BI软件可以分为企业级BI与敏捷BI两种,企业BI以Teradata Aster、HP Vertica以及EMCGreenplum Chorus、 用友的BQ、南大通用的GBase BI等为代表,而敏捷BI以阿里的彩云间、百度统计、永洪科技Data Mart、 Qlik View、Tableau和TIBCO Spotfire为代表。
(3) 大数据可视化工具
大数据的可视化工具与大数据BI工具往往具有十分密切的关系,多数企业的产品都会兼具这两方面的功能,可视化工具是大数据分析结果的一个呈现途径。因此上述提及的大数据BI工具,均具有一定的可视化功能。
(4) 大数据安全工具
大数据在采集过程中必定会涉及到隐私数据的收集,如果其安全性不够高将会造成严重的后果, 成为大数据产业发展的瓶颈。目前业内的大数据安全主要从大数据隐私保护、数据脱敏以及漏洞检测等方向出发,对相关的产品进行研发,主要有HP Arc Sight、Fireeye以及Splunk Enterprise Security、 翰思安信Hansight Enterprise、知道创宇的Zoom Eye和加速乐等。
2.5 大数据平台和产品分析与实践
在对业内大数据平台和产品进行概述的基础上, 本节从四个方面对上面列举的平台和产品进行对比分析,探讨一个具有典型大数据特征的平台和产品应该包含哪些关键的特点。
(1) Hadoop发行版与开源Hadoop
开源Hadoop系统由于其研发过程的松散管理特点,存在着许多先天不足,直接使用尚达不到企业应用的要求,如,缺乏图形化管理工具等。Hadoop发行版一方面与开源Hadoop兼容性较高,另一方面,Hadoop发行版往往都会增加相应的管理和监控工具,简化了集群的部署与管理,并对开源方案进行大量的优化和扩展。
(2) Hadoop发行版、MPP数据库与传统关系数据库
我们从大数据处理的场景、可用性、性能、可扩展性、成本等方面来进行分析,如表1。
(3) Spark与Hadoop发行版
从大数据处理的角度出发,业内对基于Spark的内存计算平台有两种观点:一种是Spark将取代Hadoop,成为大数据处理的唯一平台;另外一种观点是Spark与Hadoop将走向融合,各司其职, Hadoop中的核心分布式计算架构Map Reduce将负责批处理计算,而Spark负责处理流计算、实时查询等。随着Spark的逐渐发展成熟,业内的多个Hadoop发行版都将Spark作为其发行版的一个重要组成部分,如CDH、TDP、Intel Hadoop发行版等。
(4) 一体化平台的优势及实践
与传统RDBS关系数据库、MPP数据库相比,一体化平台在性能和可扩展性方面优势明显,但在管理工具、 SQL接口支持程度、ETL/BI等上下游软件工具兼容性方面尚有差距。
为了弥补从大数据技术到行业应用之间的鸿沟 , 浪潮提出了大数据一体机的可扩展性、可定制性和多类型处理模型, 并基于此设计了云海大数据一体机。该一体机采用兼顾横向和纵向可扩展的体系结构,并采用硬件可定制化设计和混合型软件架构支持多种大数据应用类型。在电信、金融和环保行业实际案例中的应用和测试表明,上述体系结构和关键技术是可行和有效的。
3 大数据平台和产品的标准化思考
3.1 基本概念和参考模型
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。根据上述定义和大数据平台和产品的分析,本文认为大数据产品是指由于传统的数据处理产品无法对数据量过大、数据类型过于多样、速度变化过快的数据进行处理而催生的新型的面向大数据处理的产品。大数据平台是指基于某项或者多项大数据的需求、集成了满足这些需求的相关大数据软硬件产品的一个松耦合的一体化功能系统。基于上述定义,本文给出了一个典型大数据平台至少应该包括哪些软硬件产品的示意图,如图1所示。
如图1,从下向上顺序,一个典型的完备的大数据处理平台应该包含面向大数据处理的硬件设施、 如GPU加速、高速缓冲设备等以满足大数据计算往往计算量大、计算复杂等特点。软件层面首先是一个大数据存储处理层,包括一个适合于大数据存储的分布式文件系统,如HDFS等;一个面向大数据处理的分布式计算系统 / 架构,如基于Stream流计算产品、内存计算产品Spark等;一个新型的数据库产品,如基于No SQL的数据库产品和内存数据库产品等以及大数据应用的中间件。为了可以有序顺利地大数据的存储处理工作,存储处理层还有一些贯穿于整个存储处理流程的大数据ETL工具产品、容灾备份产品以及资源管理和协作服务产品来提供相关的服务。大数据存储处理层之上则包括为了方便大数据平台部署管理的一些平台管理类产品以及最终的大数据应用类产品。
3.2 标准化思路
在研究提出的大数据平台参考模型的基础上, 本文认为,应当以当前各领域的大数据平台和产品作为推动大数据标准落地实施的源动力,而以标准的落地实施来提升大数据平台和产品的技术水平和服务水平,促进大数据产业的快速健康发展。
在以上指导思想的基础上,结合大数据平台和产品的基本概念和参考模型,本文提出了以总体架构为核心、基础子模块先行的标准化思路。
(1) 平台总体架构相关的标准化
当前业内所推出的带有“大数据”标签的平台和产品种类繁多、水平参差不齐,不同平台的子模块和组成部分大都是在开源项目的基础上进行差异化演进。因此,在标准化的工作中,首先要明确一个数据处理平台中至少包含哪些类型的产品 ( 子模块 )、适用于哪些典型的大数据场景才可以称之为一个大数据平台。基于上述思考,本文认为应该首先明确大数据平台和产品的术语、总体架构、参考模型以及典型用例场景等。
(2) 基础子模块标准化
在明确了大数据平台的参考模型以及技术架构之后,我们需要针对模型中具有非常典型大数据特征的子模块 ( 基础子模块 ) 进行标准化,基础子模块包括大数据硬件基础设施、分布式文件系统、分布式计算系统、分布式资源管理和分布式协作服务以及数据库。这些标准一般与其他领域的标准无重复制定的风险,具体来说包括不限于以下标准:大数据存储系统型、面向大数据处理的数据库、分布式资源管理调度与分布式服务协作、分布式计算与非结构化数据管理概念、术语、技术要求、接口规范、 技术架构以及测试用例等。
(3) 扩展子模块标准化
扩展子模块主要包括大数据ETL、数据容错与备份、大数据应用中间件、平台管理系统、大数据应用等部分的标准化。这些子模块都具有一定的通用性,因此,该部分内容存在与其他领域的标准重复制定的风险,其标准化建设思路还是在已有的相关标准基础上,进行标准的更新或者重新制定的工作。主要涉及的内容包括不限于:大数据应用中间件 ( 数据挖掘算法库、分析基础库、可视化图库 )、 大数据容灾备份、ETL工具以及应用工具、面向大数据平台的安装配置、管理运维产品接口规范、技术要求、测试规范等。
目前,大数据技术相关标准的研制还处于起步阶段,目前国内外主要有ISO/IEC、ITU、NIST、 全国信标委大数据标准工作组等组织和机构对大数据标准的立项、研制以及落地工作进行推进。在针对大数据产品和平台的标准方面,目前在研多项数据库、非结构化数据管理产品类标准,尚无针对大数据可视化工具、数据平台的标准,在大数据环境下,数据也成为产品,而针对开放数据集、 数据服务平台等新型产品和服务形态,尚缺乏相应的标准。
与上述参考模型和标准化思路相符合,当前正在开展的大数据平台和产品的标准研制主要有三项: 处于在研阶段的国家标准《信息技术通用数据导入接口规范》,由中兴公司牵头制定;全国信标委大数据标准工作组内已经通过立项并提交的两项国家标准《信息技术大数据存储与处理平台技术要求》 以及《信息技术大数据分析系统基本功能要求》分别由华为公司和浪潮公司牵头制定。
4 结语
【大数据标准工作组】推荐阅读:
标准数据类06-09
数据标准体系07-03
数据存储标准09-17
元数据标准11-21
数据结构课程标准05-10
标准化数据功能扩展05-24
数据标准化处理方法07-13
标准化传输数据通信06-06
金蝶kis标准版数据库12-29
数据库设计说明书-国家标准格式12-29