大数据与推荐系统论文(共8篇)
大数据与推荐系统论文 篇1
《新技术讲座》论文2012-2013(1)
XXXX大学—
《微软新技术系列讲座》论文
大数据
一、背景及发展趋势
1.1.背景
大数据(BigData),或称巨量资料,指的是所涉及的资料规模巨大到无
/ 7
《新技术讲座》论文2012-2013(1)
法透过目前主流软件工具,在合理的时间内撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据作为时下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数
十、数百或甚至数千的电脑分配工作。
1.2.发展趋势
斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍。FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。
“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自
/ 7
《新技术讲座》论文2012-2013(1)
身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。
大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。
大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。
以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。
/ 7
《新技术讲座》论文2012-2013(1)
未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
二、实施应用
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学 社会学教授加里·金
随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。
针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等 对于大数据的存储问题,以下问题不可忽视:
容量问题
/ 7
《新技术讲座》论文2012-2013(1)
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。
安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。
成本问题
对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,5 / 7
《新技术讲座》论文2012-2013(1)
数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。
数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
针对小用户
依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。
实际应用
/ 7
《新技术讲座》论文2012-2013(1)
包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。
三、心得体会
听完此次王老师的《大数据》讲座,让我受益匪浅。不仅充分了解了大数据的概念,大数据时代的起源、发展及实际应用产品的问世,而且对大数据的神奇很是惊讶。的确,未来的世界需要科技创新,需要技术变革,而大数据就是改变世界的助推器之一,作为即将进入IT行业的我们来说,这既是机遇,也是挑战!
/ 7
大数据与推荐系统论文 篇2
基于有线电视网络的互动点播业务, 是三网融合时代广电运营商主推的核心电视业务之一, 是对现有广电商业模式的一种有益创新。广电运营商希望借助互动电视业务, 能在与IPTV、OTT的竞争中占据一席之地。
目前各省市有线运营商多数开展了互动点播业务, 但真正使用点播业务功能, 并能接受付费点播模式的用户仍在少数。原因很多, 如用户消费习惯、收视习惯、双向机顶盒使用难度大等问题, 但对比目前互联网视频点播及消费情况来看, 上述问题不是导致互动点播业务收视、消费率低的主要原因。有线运营商目前提供的有线电视互动点播业务是在原有播出模式下, 对节目源进行一定程度的聚合和归类, 细化节目EPG, 对用户提供诸如点播、时移电视等新业务形式。从本质上来看互动点播业务仍然采用传统的推送模式, 没有顾及用户喜好, 也没有细分用户群体, 因而导致了业务的较低使用率, 这种粗放的经营模式远不能满足用户需求。
互联网视频采用大数据技术, 通过对用户喜好、消费水平等数据进行挖掘分析, 推出更适合于单个视频用户的视频解决方案, 值得有线电视运营商学习和借鉴。
2互动点播业务大数据分析
2.1互动点播业务大数据
基于有线电视的互动点播业务目前主要通过数字机顶盒采集终端用户数据, 主要涉及用户数据有以下几个方面。
(1) 账户数据
包括用户机顶盒ID、用户姓名、用户类型、家庭住址、授权信息、银行账户、账户密码等。
(2) 媒体服务资源描述数据
包括媒体ID、类型、名称、国家地区、年份、清晰度、导演、主演、上传时间、付费金额、节目概述等。
(3) 业务数据
包括交易ID、用户ID、资源ID、点播时间、点播量、节目单价等。
(4) 评价数据
包括交易ID、用户ID、资源ID、评价时间、评分等。
(5) 机顶盒遥控器操作数据
包括播放、暂停、切换、录制等。
从上述数据看出, 目前有线电视运营商采集到的用户数据粒度较粗, 缺少和用户喜好直接相关的数据, 如视频内容详细描述、视频切换频度、节目实际观看时长等。因此, 必须仔细分析现有数据和用户之间的关联性, 结合有线电视互动点播业务运营特点, 对数据进行建模并设计精准推荐模型, 才能把现有数据价值最大化。
2.2互动点播业务大数据推荐算法分析
推荐算法简单来说就是利用用户的行为, 来推测用户可能感兴趣的东西, 主要有协同过滤推荐算法、基于内容的推荐算法、基于网络结构的推荐算法等。当前使用最广泛的是协同过滤推荐算法, 其核心思想是:将用户兴趣模型表示为一个m×n的用户项目关联矩阵, 其中m是用户的数量, n是项目的数量。矩阵中的取值与推荐系统的类型设定相关, 最常见的是用户对项目的评分值, 以及根据用户是否购买或浏览过该项目将矩阵填充为0/1矩阵。基于该矩阵, 可以根据其他用户的偏好行为来产生对目标用户的项目推荐列表。
根据协同过滤推荐算法思想, 我们可以把基于有线电视的互动点播业务数据按照表1、表2、表3、表4所示来整理。
假设朝阳区互动点播业务用户有100个, 统计上述信息就可以得出不同用户对相同资源的评分数据, 如表5所示。可以看出, 通过电影A的评分可以对用户进行划分, 把评分为5的所有用户定义为用户集G, 当有新用户c试图点播电影A时, 就可以采用用户集G对新用户的喜好进行预测, 算法公式如下:
其中sim (c, G) 可以采用夹角余弦或Pearson相关性计算。
基于协同过滤推荐算法的推荐方式存在一些缺陷, 如冷启动问题、数据稀疏性问题等, 还需结合其他算法进一步优化。
2.3互动点播业务大数据推荐算法优化
有线电视互动点播业务由于本身数据采样样本空间小, 所以基于协同过滤推荐算法的推荐粒度较粗, 例如, 通过用户评分能大致推断出用户喜好, 却不能掌握用户对视频里哪一部分内容、哪个演员的某一段对白感兴趣, 这将导致推荐效果的弱化。
由于数据采样设备的局限, 利用机顶盒遥控器解决上述问题是可行办法之一。通过数字机顶盒可以记录下在特定时间段内遥控器的操作数据, 如播放、暂停、切换、录制等。数字机顶盒使用XML文档记录用户遥控器操作数据, 回传到数据分析服务器端, 通过基于内容的推荐算法, 最终可以得出更加精准的用户推荐方案。
基于内容的推荐算法可以有效解决冷启动问题、数据稀疏性问题, 是基于协同过滤推荐算法的有效补充, 但是因为该算法受到内容提取技术的约束, 实现较为不易;另外, 因为内容提取技术算法较为复杂, 需要消耗较多的计算能力和计算时间。为了有效利用既有的有线电视互动点播业务支撑系统, 尽量减少新系统的建设成本, 本文设计了一个折衷方案:利用遥控器操作数据和预先制作的视频内容描述数据, 按采样时间进行量化分析, 形成用户喜好描述文档, 再使用基于内容的推荐算法对用户喜好描述文档进行挖掘分析, 由此得出推荐数据模型。方案描述如表6、表7和表8所示。
从用户喜好描述文档看出, 计算用户喜好度描述以及关键词的出现频度, 就可以掌握用户的兴趣点。
因此, 在基于协同过滤推荐算法的数据基础上结合使用基于内容的推荐算法, 就可以计算出更加准确的用户兴趣点, 形成较为精确的推荐数据模型, 如表9所示。
混合算法思路如下:通过用户喜好度和用户评分的均值来标示用户喜好描述文档中不同词汇的权重, 再利用基于词频差异的特征算法如TF-IDF来计算用户喜好描述文档, 然后用向量空间来表示用户喜好描述文档 (W1, W2, W3, ……) , 最终形成推荐数据模型。
3互动点播业务大数据解决方案设计
有线电视互动点播业务大数据主要有两类:一类是通过机顶盒采集的账户数据、业务数据等, 把这类数据定义为用户数据;另一类就是采集用户操作遥控器而得到的实时数据, 把这类数据定义为事件类数据。用户数据特点是数据量大、实时性要求不高, 可以采用批处理数据处理架构, 使用基于协同过滤推荐算法完成数据的第一次加工;而事件类数据因为其实时性要求高, 可以采用近似在线的数据处理架构, 使用基于内容的推荐算法完成数据的二次加工。本文设计互动点播业务大数据应用解决方案如图1所示。
这个解决方案首先把账户数据、业务数据、评价数据等离线数据存储到Hadoop平台中, 因为离线计算在算法上相对灵活, 工程方面的需求也简单, 客户端的SLA响应时间要求不高, 在部署新算法到生产环境时, 对于性能调优的需求也不高, 因此设计利用Map Reduce并行计算框架对数据进行初步加工, 利用基于协同过滤推荐算法计算出初步推荐模型。基于初步推荐模型, 结合用户实时输入的事件类数据, 交由近似在线计算模块 (如Twitter Storm) 实时计算模块进行基于内容的推荐计算。因为有初步推荐模型, 所以计算量得到了有效控制, 缩短了推荐系统的响应时间, 同时也增加了推荐精度。
4结束语
基于协同过滤推荐算法和基于内容的推荐算法是当前较为流行的推荐系统常用算法, 本文基于对有线电视互动点播业务数据的整理和分析, 建立了一种混合使用两种算法的数据推荐模型, 并设计了基于这种数据推荐模型的解决方案, 为大数据技术在有线电视互动业务中的应用进行了初步探讨。
摘要:本文对有线电视互动点播业务数据进行了整理和分析, 建立了一种推荐数据模型, 并设计了基于这种推荐数据模型的应用解决方案。
推荐芬雷布的《大数据云图》 篇3
与许多空泛的书不同,《大数据云图》作者的眼光很“独”,是那种赌石人的眼光,这跟作者在行内的“现役”身份有关。这本书谈了大数据的方方面面,并非在所有方面都权威,它在硅谷真正权威的地方就是这张“大数据云图”。所以我们就从这张图讲起。
看过《智取威虎山》的人,都听说过“联络图”。“联络图”把控制一个地区所需要的关键资源、关键人交代得清清楚楚,搞定了它,才能搞定各个山头,坐拥一方天下。“大数据云图”就好比这张“联络图”,当然不是要让你去当土匪,而是让你具备像投资人那样的火眼金睛,从“有钱没钱”这个专业角度,一眼看出大数据这条山脉里,哪里有矿,价值几何,该去搞定什么。
芬雷布来北京的时候,我还没有太理解他的思路。后来我为了搞清楚这张“联络图”的门道,专门跑了趟美国硅谷,与芬雷布当面交流。现在根据他给我的解答,我来谈谈对这张神秘的“联络图”的理解。大数据云图在网上是随时更新的,我们下面的介绍以2013年4月的版本为准。
从“大数据云图”这个视角看大数据,首先对大数据背景的看法就有自己鲜明的特色,从院士、学者或实验室角度看,Hadoop算什么东西?它不过是走向灵图解的一个过客。但这种看法需要至少15年以上的视野。而作为投资人,芬雷布坚持把Hadoop当作主脉这样一种简明的观点。因为正如当年温世仁跟李岚清说的,对商人来说,要改变世界,十年足够了。十年还不能改变世界的东西,商人根本不会理会。人工智能也许要搞一千年以上,但VC必须得把握十年以内改变世界的东西,Hadoop足够了。为此,芬雷布把投资目光主要聚焦在为开源技术提供商业支持的公司(如Cloudera、DataStax、LucidWork之类)身上。以改变世界的尺度来认识世界,这是实干家与理论家的不同。
其次,芬雷布建立了一个他称之为“基础设施”的基本板块,来把握大数据产业的“资产”层面的诸要素,包括四个展开环节——数据分析(Cloudera、EMC等)、数据操作(couchbase、10gen等)、数据服务(亚马逊、谷歌等)、结构化数据库(Oracle、IBM的DB2、SYBASE等)。在我看来,这是指为整个大数据产业分享固定成本的承重部分。
在这一部分,芬雷布的眼光非常“毒”,他与实验室看法不同,非常早看出服务潮流的转变,体现在对亚马逊将坐大的预见上。事实证明了他的预见。据Synergy报告显示,2013年第三季度,亚马逊获取了美国云计算市场总收入25亿中的多数份额,本身收入提升55%。Synergy估计,亚马逊第四季度云计算收入将达7亿美元,比微软、IBM、谷歌、Salesforce.com的总和还高出15%。芬雷布在几年前就预见到,亚马逊将主要赢在用WEB服务卡位(AWS)上,这与云的方向是一致的。中国搞大数据,许多还是IP时代的眼光,而非WEB时代的眼光,这点需要注意。阿里在往安卓的结构里面嵌入WEB框架,对谷歌搞“修正主义”,说明也看到了同样方向的问题。
芬雷布第二个跟实验室眼光不同的地方,表现在对商业的理解上。他很好解释了Cloudera将走强的原因。在芬雷布看来,Cloudera只集中解决了一个问题,就是实时问题。对科学家来说,大数据用多长时间出分析结果,不是主要问题,但对客户来说就不同,Cloudera Impala帮助其他公司运行Hadoop,关键是把灵敏作为一种结果,提交给客户。以Cloudera现在的规模,随便一个中国上市公司都可以收购它,但有没有这眼光是另一回事。
第三,“大数据云图”最出彩的部分是基础设施之上的“应用程序”板块。事实上,VC对基础设施部分,只投了很少的钱(5亿美元),而把重心全押在了应用上。这与中国大数据的做法形成鲜明对照。如果拿芬雷布的“联络图”对照中国,中国的大数据许多都在“不务正业”,将来可能骗到国家的钱、圈到国家的地,但长出什么来,不好说。让我们来看看真搞市场经济,让大数据落地,应该怎么搞。
芬雷布称之为“应用程序”的板块是指“人类和计算机系统通过使用这些程序,从数据中获知关键信息”。但实际上,它对应的是整个大数据产业的相当于边际成本的部分,在云计算背景下,它是指面向云端轻资产运作的部分,即按“使用”(“按需”是另一角度的说法)收费的部分。
“应用程序”板块的框架结构,由六部分组成,分别是垂直业务(BloomReach等),运营智能(New Relic、Splunk等),广告/媒体(Collective、DataXu、Metamarkets等),数据即服务,商业智能,数据分析和可视化。
让我们来看,是一些什么样的公司活跃在这些应用领域。
在垂直业务应用领域,像BloomReach这样的公司,帮助电子商务企业优化网站,进行大数据营销服务,以提高转化率。
在运营智能应用领域,New Relic将营销自动化,帮助商家分析哪些客户最有价值,特别是什么活动最有可能扭转不利局面,Splunk公司帮助IT工程师分析设备生成的日志数据。
在广告应用领域,应用服务企业帮助商家算出哪种广告最适合顾客,产生特定的广告印象需要花多少钱,近来为移动广告进行分析的公司,如Flurry,最具增长潜力。
在数据即服务应用领域,邓白氏公司在为各种数据提供网络编程接口,值得注意的是,与原有做法(例如阿里的某些作法)不同,这样的数据源允许他人在其基础上建立APP程序。
在商业智能应用领域,IBM的Watson是开拓和领导者(我们以前介绍过),MicroStregy和Domo的特点在把智能应用引向新的领域,前者是在移动产品上,后者是在云计算上。需要注意的是,与传统集中于企业首脑部门的BI不同,大数据的BI最终将武装到企业的神经末梢,特别是直接接触客户的部门。
在数据分析和可视化应用领域,Tableau Software提供了互动性强且易于使用的大数据可视化软件服务,QlikTech推出了用26000家企业使用的QlikView可视化产品。这一领域目前非常活跃,社交协作功能加入数据分析和可视化服务看来是一种趋势。
总的来说,芬雷布对大数据产业前景的展望,特别强调应用,“期待更多的大数据应用程序涌现,让消费者和企业将数据应用到工作当中”。而在基础设施方面,则会笼罩在亚马逊的阴影里,新手只能从不受它影响的领域中冒出。
与美国的情况相比,我认为中国发展大数据产业,有几个问题需要从芬雷布的判断中得到重要启示:第一,要深入认识大数据产业分工的规律。大数据的产业框架与云计算有内在联系,不能离开云计算发展大数据。中国当前大数据发展遇到落地难,这是表象,深层问题是没有理解基础设施与应用之间,是一种基于云计算的固定投入与边际投入大分工的关系。第二,在基础设施方面,中国一些主要企业数据不开放的做法,放在全球看,正在过时。之所以不开放,根子还在对第一个问题的理解上。适应云计算的做法,要求大数据基础设施的建设思路尽早从IP思路,转向WEB思路。WEB只能是开放的。亚马逊虽然强,但在移动大数据方向上,中国有充分的创新空间。第三,在应用服务方面,要特别向美国企业学习。适应云计算的做法,是使大数据应用面向轻资产服务。现在国内大数据应用有一个不好的苗头,就是企业做着做着,变成传统BI的大数据,进而走向封闭、集中,这没有把大数据应用的真正优势发挥出来。大数据应用一定要实现面向最终需求的全员智能,做不到都是假的。
大数据与推荐系统论文 篇4
杨鹏博 张建邦 石家庄机械化步兵学院
摘要:大数据的出现,是当今互联网技术、数据存储技术、数据处理技术等众多科技不断革新的共同产物。本文主要分析了大数据技术的发展现状,并提出大数据技术的启示,旨为推进大数据技术的发展提供帮助。
关键词:大数据时代;部队思想政治教育;创新发展
作者简介:杨鹏博(1992-),男,石家庄机械化步兵学院2016级警卫勤务专业本科生;张建邦(1991-),男,石家庄机械化步兵学院2016级警卫勤务专业本科生。
部队思想政治教育工作如何提高针对性、实效性、时代性和感召力,是当前部队政工干部迫切需要研究的课题,它所带来的机遇与挑战必须要客观准确地把握和调整。
一、大数据技术的发展现状分析
伴随着大数据技术的日益发展,相关的研究与报道也日益丰富,截至目前,这一技术的研究发展状况主要体现在四个方面:基础理论、应用实践、关键技术、数据安全。在实际研究与运用过程中,大数据技术表现为三个方面:数据搜索分析、数据管理、数据集成。其中,在模型社交网络中,数据搜索分析有着广泛的应用范围,数据管理在新型数据库储存模型中应用广泛,同时在大型互联网数据库中也比较常用,数据集成主要功能在于整合不同来源、不同作用的数据,其目的在于整体数据库新的功能的研发与应用,这一部分起步晚,所以目前还处于初始研究与应用阶段。最后,在数据安全方面,数据安全研究工作的重点仍然是大数据技术的数据质量问题以及用户隐私问题。在冗余性、准确性、完整性等方面,大数据作为一项新技术,目前还存在着一些偏差,这就不可避免地会导致一些数据质量问题。
二、大数据技术的启示 1.及时地更新教育理念
把握规律,研究新情况,解决新问题。大数据比小数据更强调数据的整体性与完整性,所以这一技术对于特点和规律的总结和概括也比较重视,所以更有利于接近事实的真相。在实际工作中,要要全覆盖、全员额、多层次、多角度、全面地分析广大官兵的现实思想状况,借助于现代科技的辅助,重视探究科学途径和有效方法,增强教育的主动性和有针对性,切实做到有的放矢。为了挖掘潜在新价值,要求我们要积极探索。预测是“大数据”的核心价值,因此这一技术被称作“未来的新石油”,在挖掘潜在价值时,数据的开放整合是第一步,而第二步工作便是深度分析。在思想政治教育工作中,由于不同的官兵主体有着不同的实际情况和现实需求,再加上新情况、新问题不断地涌现,为了更好地发挥“大数据”理念的新功能,我们要与时俱进、积极探索,全面地应用部队思想政治教育的数据,提升其价值与含金量,在综合运用数据力量与预测力量的基础上,完善教育效果。2.整合教育资源
随着经济全球化的深入发展,价值的多元化问题也日益凸显,在社会变革发展的要求下,思想政治教育工作也面临着新情况和新挑战,要求我们在实际工作中主动地引入数据信息,以更好地迎接挑战。一要结合强军目标,大力弘扬军队的优良传统。与传统教育方式方法相比,借助大数据的思想政治教育的生动性和灵活性会显著增强,官兵思想活跃,再加上各种信息的海量涌现,人们的传统观念也受到了新思潮、新观念的冲击,所以,在部队思想政治教育工作中,凝聚军心还要靠强军目标的作用,针对我党我军的优良传统,要继续大力弘扬,在对官兵进行思想政治教育时,要善于运用数据信息,其目的在于确保部队绝对纯洁、绝对忠诚、绝对可靠,牢固的思想根基时实现“强军梦”的可靠保障。二要与时俱进,完善系统建设。将大数据技术引入思想政治教育工作是一个复杂的系统工程,需要一个过程,不可能一蹴而就,所以,在紧跟形势发展的前提下,要始终坚持立足现实、着眼长远的工作原则。在实际工作中,要善于系统设计、统筹规划,及时地整合资源并逐步完善,大数据建设也必须遵循“能打仗、打胜仗”的要求,以更好地服务部队建设。统筹资源、重点突出是大数据建设的基本原则,要避免各自为政,以避免重复浪费,从而推动大数据技术更好地融入到军队思想政治教育工作中去。3.贴近官兵实际
数据共享为军队思想政治教育工作提供了新思路,但是,“内化于心、外化于行”的教育规律要始终得到遵守,不可违背。一要掌握动态变化,及时地进行调查研究。调查研究是获取生动可靠的数据资料的前提和基础,要全面地采集官兵思想状况,这就需要对调查研究的方式方法进行创新。在“数据研究”理念的指导下,要对调查研究进行重新思考。为了准确采集官兵思想动态数据,要建立“兵情调研数据库”,以“量”的积累来推动“质”的实现,要确保数据资料的真实性和充分性,以此为各项工作的开展奠定良好基础。二是科学分析预测,提供有效指导。更好地指导工作是数据调研的目的所在,实现从“量”的积累跨越到“质”的飞跃,是将大数据技术融入思想政治教育工作的重要环节,这就需要对数据进行分析研判,以对官兵真实思想有全面的了解。随着大数据技术的日益发展,科学地分析“兵情调研数据库”中的数据,是新形势下确保部队思想政治教育工作的实效性的重要内容。
参考文献:
新石油大数据系统分析论文 篇5
1大数据的概念与特征
1.1大数据的概念释义
对于大数据,维基百科给出了这样的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。由于对大数据的研究处于初步阶段,人们目前尚没有得到一个公认的定义,对于大数据的定义有许多,但它们都有一个共同特征,即根据大数据的特征来进行阐释与归纳。
1.2大数据的基本特征
大数据特征可以总结为4个V,即Volume(规模巨大)、Variety(模态多样)、Velocity(生成飞速)、Value(价值无限但密度也低)。首先大数据以计量单位P,甚至E或Z来计数。据IDC的一份研究报告显示,自2012年以来10年里全球大数据将增加50倍。其次,大数据种类繁多,包含着结构化、半结构化及非结构化数据,而且近年半结构化和非结构化数据大幅度增长,占据了整个数据量的绝大部分。再次,人、机、物的高度融合使得数据爆炸式增长,日常生活是大数据飙升的主要来源。例如截止2014年淘宝网会员数量已超过5亿,在线商品数达到10亿件,淘宝网和天猫的交易总额超过1.5万亿。最后,数据复杂相关而又频繁交互,从海量的数据中剥离出有用的信息就好比深海里淘金,稀疏而又珍贵,价值的密度很低也是大数据的一个重要特征。
2大数据的社会价值挖掘
2.1大数据为政府管理和科学决策提供数据信息支撑
在“全面深化改革,推进国家治理体系和治理能力现代化”的时代背景与要求下,大数据在政府管理中扮演着重要的角色,对于实现数据治国具有重要的现实意义。河北省目前正面临着京津冀协同发展的重要战略机遇,2016年11月在河北大学管理学院召开的“2016年京津冀信息资源管理高峰论坛”就是一次在大数据背景下,将大数据、信息资源建设运用于政府治理的研究论坛,是大数据与政府管理结合的大讨论、大结合。这可以充分证明大数据对于政府治理和信息建设的重要性和现实意义。对它的研究可以有效提升科学决策水平,能够有效地整合来自政治、经济、文化、法律,生态等各个领域的信息资源,为国家治理提供重要决策依据。
2.2大数据与新媒体的融合推动社会智能化
大数据与微信、微博等新兴媒体的多元世界高度融合,可以突破时空的限制,促进政府与民众之间良性互动,形成公众参与政府管理的新格局,增强国家治理能力。另外,大数据在云计算的配合下,加快了智能医疗、智能教育、智能交通、智能物流发展的步伐,加速了我国的城镇化、工业化、信息化、生态化建设进程,有效提高了社会服务效能,促进社会的智能化和信息化。
2.3大数据应用广泛性推动信息社会化
大数据在越来越多的行业中发挥着越来越大的作用,其应用广泛性已经彰显在方方面面,影响着人们生活和社会发展的各领域,逐步让信息走向社会化。从经济领域来看大数据的应用可以为经济发展提供较为准确的预测功能。在2008年的金融危机中,阿里平台通过海量交易记录预测出经济指数的下滑,提醒广大的中小制造商提前做好准备,预防经济危机。大数据分析也成为了市场营销的重要手段,不再需要抽取部分数据,而是基于海量几近完整的数据做出高度准确的预测,进行精准营销。正如亚马逊的最终期望那样:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书”。在体育竞技中运动健儿甚至可以运用数据取得成功,利用数据建模定量分析不同队员特点,合理调整,科学组队。2016年里约奥运会中,中国女排再次夺得世界冠军,这成功离不开总教练郎平的正确指导,也离不开袁灵犀的数据分析。赛中每个回合他都利用代码将有价值的细节录入系统,实时提供技术分析数据,帮助郎平做到知己知彼,及时调整队员布局。
3大数据时代带来的挑战
大数据在造福人类社会的同时,也给人们带来安诸多方面的挑战。从理论研究视阈来看,大数据时代的到来对于社会进步尤其是科技发展产生巨大的支撑与推动作用,但从实际应用研究的角度来说其根本挑战在于其安全保密性、不确定性和预测涌现性对社会行为产生的威胁和隐患,这也影响着大数据的发展趋势研究进展和应用前景。大数据的`研究需要一套全新的理论和方法来进行方向性的指导,需要一个完备的新的理论体系来指导该学科的发展和研究。
3.1大数据的安全性存在信息泄露隐患
“棱镜门”事件更加剧了人们对大数据安全的恐慌。即使经过匿名处理,个人隐私仍会有泄露的风险。租赁商Netflix曾为提高电影推荐系统的准确度,公布了约50万用户的信息,这些信息与其它数据源结合时,部分用户竟被识别出来。大数据带来的新的安全问题也终将由大数据来解决,而今天对于大数据安全与隐私保护的相关研究处于初级阶段,技术手段与法律法规相结合才是解决问题的根本之道。
3.2大数据的预测涌现性引起隐私恐慌
大数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,整个过程随着数据的变化而持续演进,从而形成大数据的涌现语义,也可以称之为预测涌现。大数据这种预测涌现性对人们行为进行预测也构成了所面临的威胁。一个较为典型的案例即是北美Target数据营销事件,销售商通过分析历史记录,捕捉用户怀孕的事实,并向其推荐婴幼儿优惠券,引起了《大数据功力:比父亲更了解女儿冲进大卖场》的深刻反思。
3.3大数据的不确定性影响社会稳定
原始数据的不准确以及数据采集处理粒度、应用需求与数据集成与展示等因素使得数据在不用维度、不同尺度上都有不同程度的不确定性。也就是说,这些本身带有不确定性的数据并非可以说明事实,因为可能数据本身就是虚假的。存在需要核实、考证与分析,不确定性的数据一旦进入公众社圈就会引发一系列社会问题,危害社会稳定。诸如在点评网站中的虚假评论有目的地诱导民众接受并传播某种思想或服务的例子不胜枚举。
4关于大数据未来发展的展望与对策设计
4.1完善大数据的顶层设计,建立良性大数据生态系统
国家应在宏观层面上做出全面系统的长期规划和短期目标。国家应在大数据人才培养,平台构建以及行业应用方面提供人财物多方面深层次的资源支持,同时给予积极的政策引导,鼓励创新,同社会各界建立起良性的大数据生态系统。2015年8月国务院出台了《促进大数据发展行动纲要》,契合当下,放眼未来,内容全面涉及范围广,而要保证其贯彻落实,更要及时跟进,制定配套制度予以配合,做到及时反馈、及时纠正;同时在新的国际背景下也应注重信息基础设施建设,提升信息作战能力,加强国家信息安全,赢得新科技竞争中的战略制高点。
4.2加强政企合作,搭建准确高效的大数据合作平台
大数据企业应积极主动加强与政府之间的战略合作。大数据的数据源以企业为主,政府利用企业数据可以完善补充统计数据,提高统计信息质量,为社会治理谋求最大利益;企业则可以根据更为准确的大数据把握市场信息,占据市场份额,赢得发展机遇,政企合作是当代在大数据背景下一个必然选择。2013年国家统计局与阿里、百度等11家企业一同启动国家统计局大数据合作平台便是政企合作的一个缩影。
4.3深化大数据基础理论研究,提升数据收集与分析能力
注重大数据基础理论研究,提高数据收集与分析能力,是解决大数据信息安全的关键途径。数据是分析的基础,只有全面而真实的数据才会产生价值,片面的数据分析出的结果往往有较大的偏差;深度发展大数据分析能力,包括:大数据认证技术、威胁发现技术、水印技术、网络匿名保护技术等等,这些技术在部分领域已有所应用,但同时存在反应速度慢、缺乏安全性、用户负担重等某些方面的不足,只有克服相关技术的不足,才能更好的解决大数据信息安全问题。
5结语
大数据既是时代快速发展的产物,也是推动时代飞速发展的强大驱动力。它给社会发展带来了机遇,也带来了前所未有的挑战。迎接这项挑战不只是政府,企业或其他组织的责任,而是时代赋予我们整个社会每位公民的责任。大数据没有那么神秘,真正拥有力量的也不是数据本身,而是拥有数据掌握技术的我们。今后应不断加强大数据理论研究,完善学科发展方向和体系,为大数据学科建设与发展提供理论支撑和技术支持,持续切实加强政企合作,搭建大数据合作平台,建立良性大数据生态系统,使大数据真正推动科技繁荣、社会发展、人类进步。
参考文献
[1]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[2]BigData.Nature[Z].2008,455(7209):1-136.
[3]BigData.ERCIMNews[Z].2012,(89).
[4]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报,2013,(09).
[5]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[6]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):647-657.
[7]冯鹏志.对象、主题与特色―关于我国“科学、技术与社会”(STS)学科发展的几点思考[J].学术界,2002,(6).
[8]覃雄派,王会举,杜小勇.大数据分析―RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[9]樊伟红,李晨晖,张兴旺.图书馆需要怎样的大数据?[J].图书馆杂志,2012,(11):63-68,77.
[10]邬贺铨.大数据时代的机遇与挑战[J].求是,2013,(2).
[11]王书伟.大数据时代政府部门间信息资源共享策略研究[D].大连:吉林大学,2013,(10).
大数据与推荐系统论文 篇6
数据接口规范V1.0
1.概述
为进一步优化纳税服务,国家税务总局对本接口规范予以发布,以满足纳税人内部管理信息系统与增值税防伪税控系统开票子系统的衔接需要。
本接口规范适用于增值税防伪税控系统开票子系统V7.23.10及以上版本,配合手工导入、批量自动导入和开票数据导出功能使用。具体操作参见新增改进功能操作说明。
2.接口说明
(1)待开发票信息导入接口
通过增值税防伪税控系统开票子系统中的手工导入和批量自动导入功能,将待开发票的信息批量导入到增值税防伪税控系统开票子系统,完成发票开具。
选择手工导入时,首先选择要导入的XML文件,再对导入发票信息逐张保存并打印发票。
选择批量自动导入时,首先设置文件存储路径和轮询时间。批量自动导入开启后,系统自动轮询指定路径下的XML文件,自动完成发票开具,并将开具结果写入指定文件目录。(2)已开发票信息导出接口
通过增值税防伪税控系统开票子系统中的开票数据导出功能,实现已开发票信息的批量导出,提供EXCEL文件和XML文件两种格式选择。
3.接口定义
本接口规范内容包括待开发票信息导入接口和已开发票信息导出接口。发票类型为增值税专用发票和增值税普通发票。(1)待开发票信息导入接口规范
1)导入文件XML格式如下(每个XML节点首字母大写):
//此文件含有的单据信息数量
//单据号(20字节)
//购方名称(100字节)
//备注(240字节)
//复核人(8字节)
//收款人(8字节)
//序号
//单价
//数量
//金额,当金额为负数时为折扣行
//税率
//购方名称(100字节)
//备注(240字节)
//复核人(8字节)
//收款人(8字节)
//序号
//计量单位(32字节)
//单价
//数量
//金额,当金额为负数时为折扣行
//税率
2)开具结果回写文件格式
选择批量自动导入时,每个XML文件形成一个开具结果文件,命名规则为:XML文件名_开票结果.TXT。内容为: 开具成功的单据:
[YYYY-MM-DD hh:mm:ss] 单据号:XXX,开具结果:1(0 失败,1成功),对应发票信息:普通(专用)发票,XXXXXXXXXX(代码),XXXXXXXX(号码) 开具失败的单据:
[YYYY-MM-DD hh:mm:ss] 单据号:XXX,开具结果:0(0 失败,1成功),开具失败原因:XXXXXXXXXXXXXXXXXXXX(2)已开发票信息导出接口
1)导出文件为XML格式时,格式如下(每个XML节点首字母大写):
//此文件含有的发票信息数量
//单据号(20字节)
//发票种类(专用发票或普通发票)
//发票号码(8字节)
//开票日期(YYYYMMDD)
//购方名称(100字节)
//销方名称(100字节)
//合计金额
//合计税额
//备注(240字节)
//开票人(8字节)
//复核人(8字节)
//序号
//单价
//数量
//收款人(8字节)
//金额 //税率 //税额
//单据号(20字节)
//发票种类(专用发票或普通发票)
//发票号码(8字节)
//开票日期(YYYYMMDD)
//购方名称(100字节)
//销方名称(100字节)
//合计金额
//合计税额
//备注(240字节)
//开票人(8字节)
//复核人(8字节)
//序号
//单价
//数量
//金额 //税率 //税额
//收款人(8字节)
大数据时代广电系统的机遇与挑战 篇7
大数据时代的到来是广电系统必须面对的事情。从某种程度上可以说,大数据的处理以及挖掘工作将是赢得未来市场的关键。新兴的互联网企业正在以惊人的速度和规模颠覆传统行业,而大数据正是互联网思维支持其跨界竞争的基础。贴近用户,改进体验,提升用户黏性,大数据正在成为互联网企业创新的新“武器”。直面挑战,传统的广电系统也需要重视并利用这一“武器”,在竞争中求发展。
1 广电系统的转变需要大数据支撑
广电行业的传统经营模式正在面临巨大的转变,数字化之后频道资源最大化和业务种类多元化带来了更多挑战。有线电视音视频内容将从以播出中央和地方电视节目为主的公共电视频道转变为基于双向互动的VOD视频点播和打包付费电视服务。将内容作为商品的理念转化是新时代广电系统需要面对的新课题,培养受众为电视内容付费的习惯,实现在付费电视市场的真正获利是未来发展的方向。
2 大数据可以成为广电营销新模式的基础
传统的广告与营销一直试图通过大众媒体的低成本传播,改变受众来把握其需求,做出市场预判,最终实现生产与需求匹配。随着用户可以接触的物质体验极大丰富,这种单向、前置化的营销行为带给生产者的风险越来越大。而基于大数据发掘的广电营销新模式能够大量将数据信息为核心点回馈给企业,作为其决策支撑,将单向的营销决策过程转变为闭环的回馈过程,实现营销从“经验”到“科学”的转变。
严格意义上这种回馈过程对广电系统并非全新的题目,但也正是这种惯性产生了某种误区,即将原有的收视率等抽样调查机制结合在营销模式上并加以创新,可以实现更深层次的消费洞察体系。这种依托传统的融入过程虽然更温和迅速,但却并不能适应碎片化的现实。碎片化的趋势随着受众心理的不断成熟、互联网技术的不断发展而愈演愈烈,让原本的消费者研究方式不能继续捕获受众的真实需求与欲望而失去了应有的真实性。社会结构的改变让抽样调查体系在面临抉择时更无所适从:原有的抽样设计已经无法控制误差,但盲目扩大样本数量会导致成本抬升而难以为继。
作为营销者,广电系统需要从根本上转变思维方式。在互联互通的网络支撑下,任何媒体接触都会留下痕迹,营销者可以利用数据和信息愈加透明的优势更清晰勾画目标消费者的轮廓。另外,网络化的媒体效应带来了受众的重聚。通过各种媒体互动平台,他们正在因兴趣和需求重聚,成为全新营销体系的基石。消费者的各种信息数据暴露在网络之上,他们的需求可以洞察。这些数据都与该群体的消费模式息息相关,所有的数据也都来自于个体的集合,这是互联网环境下的真实反馈,也是大数据时代广电系统营销重构的基础。
3 大数据是广电网络运行的催化剂
广电行业中有线网络运营商一直进行着数据应用系统的建设,成熟的数据库应用系统一直贯穿在广电网络运营业务中。业务支撑系统、呼叫中心话务系统甚至财务系统在日常运营中会产生大量数据。将这些数据进行整合,针对自身市场发展、决策分析挖掘出真正有价值的信息,才是利用这些资源的最佳方式。
在互联网思维的大背景下,视频、音频各方面的竞争将全面展开。当前情况下,广电网络运营商依旧享有视频方面的优势,几乎每个家庭都是广电网络的客户。对这些客户进行分析,了解其潜在需求、消费能力、消费习惯,利用决策树、聚类等统计技术对不同客户开展不同的关怀和优惠促销活动。数据发掘模型可以通过对受优惠政策影响的相关数据进行分析,多角度观察优惠政策的推出是否达到了预期效果。同时,根据已有数据,发掘受众属性、受众消费情况、服务属性等数据与受众流失概率的相关性,建立数学模型并给出流失概率计算公式,从而增大边际利益,在竞争中保持和发扬优势。
4 结语
尽管大数据在广电系统的普遍适用还面临着软硬件升级、技术标准提升等问题,大数据发掘本身也存在侵犯用户隐私、分析处理深度不统一等争论,但这都不能成为忽视甚至抗拒大数据作为广电行业发展趋势与颠覆性力量的借口。大数据体系对各个行业的基础架构将产生深远影响,广电系统应抓住这一机遇,领先转变思维,在可以预期的竞争中立于不败之地。
摘要:在互联网技术发展的时代大数据引领了全新的技术体系,通过采集海量级的数据及后期的存储、管理、分析、挖掘与运用服务于各行各业。基于此,分析了大数据体系对广电行业竞争格局的影响,并对发展战略进行了简要分析。
关键词:大数据时代,广电系统,广告营销,运营商
参考文献
[1]维克托·迈尔-舍恩伯格.大数据时代:生活、工作与思维的大变革[M].人力资源管理,2012.
大数据与推荐系统论文 篇8
摘要:论述了一种适用于处理海量监测数据的结构性态监测信息管理系统(MIMS)的设计方案.基于三层浏览器/服务器架构搭建软件系统,利用多服务器协同工作机制提升系统性能.应用大数据技术,充分考虑海量监测数据对数据管理系统的高要求,选用MongoDB数据库作为数据管理平台,论述了数据库结构和采用的数据格式.最后以宁波南站结构性态监测为例,展示了系统的实现效果.结果表明该系统具有很好的扩展性和通用性,每天可接收远程数据约10 GB,能实现对海量监测数据的实时吞吐和高效组织管理.
关键词:结构性态监测;大数据;MongoDB数据库;多服务器协作;浏览器/服务器
中图分类号:TP274文献标识码:A
土木工程领域的结构健康监测研究始于上世纪70年代末.目前,对结构健康监测技术的研究大多集中在传感网络子系统设计及损伤识别和安全预警等方面.在结构性态监测软件的开发方面,近几年也出现了一些技术创新和实践成果,如土石坝安全监测软件[1]、桥梁结构健康监测系统软件[2]和上海中心大厦结构健康监测软件[3]等.但这些软件基本上都是针对特定结构开发,系统的可移植性、可维护性和可扩展性表现较差.在监测数据的组织管理方面,已有的结构性态监测软件大多是从海量的监测数据中获取有效的关键数据形成数据报告,不能实现全部监测数据的实时吞吐,并且存在数据采集与存储不同步的问题.
随着物联网、云计算和社交网络等新兴技术与服务的出现,数据类型和数据量正以惊人的速度扩张,如何更好地管理和利用大数据开始备受关注[4-6].在结构健康监测中应用大数据技术,对实时监测数据流进行统计分析,可以预测出数据发展的趋势,从而实现系统对结构损伤的识别、诊断和预测.达到这一目的的关键在于实现监测数据的实时吞吐和高效组织管理.由于土木工程结构健康监测与物联网的融合以前所未有的速度生成数据,这些数据即使经过过滤,只保留有效的数据,其数据量也是惊人的庞大.如何实现对海量监测数据的组织、存储、查询和分析,既是实现对结构全寿命周期跟踪式在线监测的前提,也是对结构进行有效的损伤识别和安全评定的基础.
针对以上问题,本文提出一种大数据技术下的结构性态监测信息管理系统(MIMS)设计方案.该方案以实现高效的数据管理和安全的数据共享为目的,实现监测数据实时或近实时的、动态的、数字化、网络化和可视化的管理.系统已应用于多个大型项目的结构健康监测,如宁波南站、上海中心大厦、兰州西站和上海世博轴阳光谷等.
1系统架构
目前,基于网络化的监测软件实现模式主要有两种方式,一种为客户机/服务器(Client/Server, C/S)模式,另一种为浏览器/服务器(Browser/Server, B/S)模式[7].
B/S模式是Web2.0兴起后的一种网络结构模式,该模式由服务器安装数据库和Web应用,承担系统的核心功能;客户机安装浏览器作为客户端,浏览器通过服务器端的Web应用间接同数据库进行数据交互.这一模式解决了传统C/S模式中专用客户端软件开发成本高,升级维护困难等问题(见图1).
该体系结构具有以下优点:
1)广域网/局域网都可使用,对客户端软硬件环境要求不高,只要有操作系统和浏览器即可;
2)各层在逻辑上相对独立,具有很好的灵活性、可重用性和可扩展性;
3)系统功能集中在服务器端,可随时进行更换或更新,从而实现无缝升级,降低系统维护成本;
4)可添加用户管理机制,利用业务逻辑层阻止未授权用户访问数据层,实现数据的安全管理;
5)浏览器即客户端,一方面可降低开发难度和成本,另一方面可充分利用页面制作技术与用户进行更加生动和丰富的交流.
2系统功能实现
2.1服务器软件
MIMS的功能主要包括数据的采集与接收、过滤与转换以及处理与查询,如图2所示.系统核心功能集中在服务器端.考虑到各功能环节对服务器有各自不同的要求,且具有不同步性,因此将各个功能模块设计成相互独立的服务器软件.
MIMS的运行模式是以系统的自动运行为主,一旦服务器软件或硬件出现故障,系统的运行将终止,如果不被及时发现并加以维护将会造成不可预计的数据损失乃至工程损失.因此,MIMS设计有独立的自检服务器软件,以实时监视服务程序,当有异常状态发生时,以邮件和短信的方式通知相关技术人员.
2.2多服务器协同机制
MIMS采用多服务器协同机制对服务器进行管理.Internet的快速增长要求服务器具备提供大量并发访问服务的能力,因此对于大负载的服务器来讲,CPU,I/O处理能力成为瓶颈[8].通过提高硬件性能来提高单台服务器性能的效果有限,而采用多服务器协同工作机制和负载均衡技术可以很好地应对大量并发访问的情况.
MIMS中的各功能模块被设计成独立的服务器软件,这些软件可以在单台服务器上运行,但效率较低.为提高运算效率,可以采用多服务器协同系统来均衡服务器负荷,将各服务器软件设计在不同服务器中,并形成相互协作机制.如图3所示,服务器1负责将传感器网络传来的数据进行采集并存储于数据库;服务器2首先实现和服务器1的数据库同步,然后对这些数据进行过滤、筛选和转换并存储于另一个数据库中;服务器3同步已经过转换的数据,再根据客户浏览器通过Web服务器提交的指令对数据进行分析和处理.各服务器通过数据库的管控进行数据同步,以C/S模式相互访问,实现相互调用和协同工作.
3数据管理方案
3.1数据库
结构健康监测系统对数据库的要求非常高.已有的较为成熟的结构健康监测系统大都采用文件形式存储数据,也有一部分采用关系型数据库对监测数据进行管理.采用文件形式显然不能实现数据的实时存储与查询,且组织管理效率非常低,而关系型数据库的应用也受到诸多限制,一般只能实现对部分关键数据的存取,不能实现对海量监测数据的实时吞吐.目前,监测系统正在向网络化发展且监测数据的规模也在不断扩大,监测系统对数据库的要求越来越高.对海量监测数据的高效率存储访问以及对数据库的高并发读写和高可扩展性等要求已经成为传统的关系型数据库无法应对的难题[9-10].
近年来,随着大数据时代的到来,NoSql(Not Only SQL)数据库得到了迅速的发展, NoSql数据库具有传统关系型数据库无法比拟的高并发、高效率和高可扩展等特性,其中MongoDB数据库的表现尤为突出[11-12].MIMS采用高性能、易部署、易使用且存储数据方便的MongoDB数据库对监测数据进行管理,实现了对海量监测数据的实时吞吐和高效存储与查询.
3.2数据格式
3.2.1数据存储格式
这里的数据存储格式是指数据保存在数据库或文件中的编排格式.其应满足一定条件:1)保证记录所需要的全部信息;2)充分利用存贮空间,提高存贮效率;3)采用统一的格式,方便与数据处理模块间的数据交换.MongoDB使用BSON(Binary Serialized Document Format)结构来存储数据,可以满足以上要求.BSON是一个轻量级的二进制数据格式,可以存储内嵌的文档对象和数组对象.MIMS采用以BSON格式存储的文档对象存储信息,其中每条记录包括测量点位(position)、传感器类型(dimTyp)、测量批次(batch)、测量时间(datetime)和测量值(value),示例如下:
{″position″:″SWGJ12″,″dimTyp″:″stress″,″batch″:null,″datetime″:newDate(2014,4,6,16,12,9),″value″:-23.396}.
3.2.2数据交换格式
为了整合资源,建立统一的信息化平台,MIMS中的数据交换采用统一的标准数据格式.格式标准化可以极大地提高对数据的管理效率,让用户快速简单地得到必要的数据.
当前比较流行的数据交换格式有XML(Extensible Markup Language),JSON(JavaScript Object Notation)和YAML(Yet Another Markup Language).由于数据存储格式已选用是类似JSON的BSON格式,为了方便与数据库的数据交互,MIMS数据交换格式选用JSON格式.JSON 是一种轻量级的数据交换格式,易于阅读和编写,同时也易于机器解析和生成,可以满足本设计对数据格式的要求.
JSON简单说就是JavaScript中的对象和数组,对象数据结构为 {键:值, 键:值,…},键为对象的属性,值为对应的属性值,属性值的类型又可以是数字、字符串、逻辑值、数组或对象.数组数据结构为 [字段1, 字段2, 字段3,…],其中字段值的类型又可以是数字、字符串、逻辑值、数组或对象.利用对象、数组两种结构可以组合成多层嵌套的数据结构,如以下示例,最外层是包含″Stresses″和″Temperatures″两个属性的对象,他们的属性值又嵌套了多个子对象的数组.
{
″Stresses″: [
{″position″:″SWGJ11″,″value″:[-23.396, -23.63, -24.352 …]},
{″position″:″SWGJ12″,″value″:[-24.153, -24.953, -23.303 …]},
…
] ,
″Temperatures″: [
{″position″:″SWGJ11″,″value″:[31.1, 30.5, 31.9 …]},
{″position″:″SWGJ12″,″value″:[29.3, 30.2, 32.3 …]},
…
]
}.
4 应用实例—宁波南站结构性态监测系统
4.1工程结构概况
宁波南站站房采用南北地上进站、高架候车、地下出站的功能格局.新建站房共3个主要层面:地下一层(主要负担进出站功能)、站台层(地面层)和高架层(含商业夹层).地下二层(地铁2号线站厅层)和地下三层(地铁2的站台层)的土建工程大部分位于铁路站房下,详见图4.高架层东西向总长度114.0 m:该方向柱距不均匀,为24+21+24+21+24 m;南北向总宽度185.5 m,柱距为25+2×21.5+43+2×21.5+31.5 m. 地下一层、站台层东西向总长度66.0 m(柱距为21 m及24 m),南北向宽度185.5 m.
本工程的监测内容主要包括:1)施工和运营过程中钢结构关键部位的应力监测;2)运营过程中结构关键部位的振动加速度响应监测;3)运营过程中风敏感部位的风压监测;4)运营过程中整体结构所处风环境的风速监测.
4.2系统配置
宁波南站结构性态监测系统包含静态(应力应变)采集通道167个,动态(风速风向、风压力和加速度)采集通道87个.采用单台服务器配置即可满足性能要求.
服务器配置:2路处理器,每路采用主频1 800 MHz,L3缓存10 MB的4核心4进程处理器;安装内存为8.00 G;3块3TB硬盘作为RAID5.
数据库配置:采用MongoDB主从模式配置为采集端数据库(主)和分析端数据库(从).
网络传输配置:采集现场局域网带宽100 M,VPN远程传输带宽为3 M.
4.3系统展示
宁波南站结构性态监测系统功能包括首页、系统说明、系统管理、设备总览、实时监测和监测回放.首页包括登录、项目概述和监测分项简介,系统说明包括项目功能说明和监测点位详细说明,系统管理包括密码管理、角色管理和用户管理.设备总览画面如图5所示,包括监测设备的最新运行状态统计和测点设备的详细状态表,共分为应力应变统计、风荷载统计、风压统计和加速度统计.
实时监测是对所有动态点位(风速风向、风压力和加速度)和静态点位(应力)的实时监测.监测点位的选取方法如图6所示,将监测结构分为不同的监测区域,点击每个区域可弹出传感器布置细节图,以选取监测点位.静态点位取最新一天的监测数据,动态点位取最新30 s的监测数据,分别绘制时程图进行展示,如图7和图8所示.
监测回放是对所有监测点位历史监测数据的回放.选择要查询的时间段和监测点位(点位选取方法与实时监测页面相同)后会获取相应的历史监测数据显示在页面中,如图9所示为2014年2月1日至2014年3月1日的应变监测记录.在时程图上拖动鼠标选择相应区域后还可放大进行细节展示,如图10所示.图11展示了2014年9月22日2:15:00-2:30:00的风荷载监测统计数据.风压力和加速度监测画面和以上界面类似,不再赘述.
5结论
本文研究了大数据技术下的结构性态监测信息管理系统设计,从系统架构、系统功能实现和数据管理方案等三个层面论述了本结构性态监测信息管理系统的可行性和优越性.最后以宁波南站结构性态监测项目为例,展示了系统的应用效果.主要结论有:
1)应用三层B/S架构搭建的系统具有很好的扩展性和通用性,可方便灵活地加入各种数据分析功能,并且适用于多种工程结构的性态监测.
2)系统具有高度的伸缩性.根据项目对性能和经济性的不同需求,可选择配置一台服务器,或利用多台服务器协同工作.
3)基于大数据技术,以MongoDB数据库为数据管理平台,能实时吞吐海量的监测数据,每天可接收远程数据约10 GB,可同时供多方分析、查看和使用.系统设计时已考虑大数据分析,设有监测数据中心,通过多个监测项目以及长期的数据积累,可获得海量、高增长率和多样化的监测数据.
4) 网页设计采用基于HTML5的新一代WEB技术,用户界面简约大气,使用舒适方便,并兼容多种终端平台,如工作站、笔记本和平板电脑等.
5)目前系统各功能模块服务器均采用单台服务器,支持不多于300个动态采集通道,数据分析速率也有一定限制.若要进一步扩充采集通道、提高数据分析速率,可通过搭建服务器集群来实现.
参考文献
[1]刘德志, 李俊杰. 土石坝安全监测软件系统设计与实现[J]. 大连理工大学学报, 2006, 46(3): 407-412.
LIU Dezhi, LI Junjie. Design and implementation of earth rockfill dam security monitoring software system [J]. Journal of Dalian University of Technology, 2006, 46(3): 407-412.(In Chinese)
[2]WANG Jianguo, SU Meiyan, ZHAO Guomin, et al. Design and implementation of the earthquake precursor network running monitoring software based on C/S structure [C] // 2010 6th International Conference on Wireless Communications, Networking and Mobile Computing (WiCOM). Piscataway, NJ: IEEE Computer Society, 2010, 4: 1-4.
[3]胡笳, 李晗, 杨晖柱, 等. 上海中心大厦结构健康监测软件集成设计及应用[J]. 同济大学学报:自然科学版, 2014,42(3): 460-467.
HU Jia, LI Han, YANG Huizhu, et al. Integrated design and application of structural health monitoring software system of Shanghai Tower [J]. Journal of Tongji University: Natural Science,2014, 42(3): 460-467. (In Chinese)
[4]孟小峰,慈祥. 大数据管理:概念、技术与挑战 [J]. 计算机研究与发展, 2013, 50(1): 146-169.
MENG Xiaofeng, CI Xiang. Big data management: Concepts, techniques and challenges [J]. Computer Research and Development, 2013, 50(1): 146-169. (In Chinese)
[5]KAMBATLA K, KOLLIAS G, KUMAR V, et al. Trends in big data analytics [J]. Journal of Parallel and Distributed Computing, 2014, 74(7): 2561-2573.
[6]MARTINEZ M A, CUESTA C E, ARIAS M, et al. The solid architecture for realtime management of big semantic data [J]. Future Generation Computer Systems, 2015,47: 62-79.
[7]张燕. 基于C/S模式的远程数据监测系统设计[J]. 计算机与网络, 2008, 34(17): 68-70.
ZHANG Yan. Design of remote data monitoring system based on C/S model [J]. China Computer & Network, 2008, 34(17): 68-70. (In Chinese)
[8]罗天洪, 罗文军, 陈小安. 网络环境下协同设计的多服务器技术[J]. 重庆大学学报:自然科学版, 2006, 29(9): 5-9.
LUO Tianhong, LUO Wenjun, Chen Xiaoan. Multiserver technology for internetbased collaborative design [J]. Journal of Chongqing University: Natural Science,2006, 29(9): 5-9. (In Chinese)
[9]张文盛, 郑汉华. 基于MongoDB构建高性能网站技术研究[J]. 吉林师范大学学报:自然科学版, 2013, 34(1): 123-127.
ZHANG Wensheng, ZHENG Hanhua. Research on the construction of high performance Web site based on MongoDB technology [J]. Journal of Jilin Normal University: Natural Science, 2013, 34(1): 123-127. (In Chinese)
[10]PARKER Z, POE S, VRBSKY S V. Comparing NoSQL MongoDB to an SQL DB [C] //Proceedings of the Annual Southeast Conference. Savannah, GA: Association for Computing Machinery (ACM), 2013, 5: 1-6.
[11]BARBIERATO E,GRIBAUDO M, IACONO M. Performance evaluation of NoSQL bigdata applications using multiformalism models [J]. Future Generation Computer Systems, 2014, 37: 345-353.
【大数据与推荐系统论文】推荐阅读:
大数据推荐系统06-01
大数据推荐数据模型08-27
大数据与云计算论文09-08
数据库系统管理与优化论文10-09
大数据与数据挖掘10-15
ERP系统主数据的维护与管理论文07-31
大数据分析处理系统10-21
管理系统以及大数据06-28
大数据预测论文08-09
大数据运用论文08-26