百度大数据

2024-07-24

百度大数据(共7篇)

百度大数据 篇1

百度与国金证券联合宣布, 共同推出国内首只大数据量化基金——“国金百度大数据基金”。继与中信银行、安联保险先后合作成立百信银行、百安保险之后, 百度在证券领域再次联手传统金融机构, 利用大数据技术掘金二级市场, 完成了金融三大版块的全面布局。据悉, 与传统量化投资相比, “国金百度大数据基金”的最大特色是在投资模型中充分纳入“人”的因素。在合作中, 百度从互联网大数据中提取与“人”密切关联的数据, 经过大数据挖掘和智能化处理, 实现全面描摹用户画像、精准识别网民金融意图、洞察股民情绪、预测行业市场走向, 为证券机构在择时和选股等决策提供极具价值的考量因子。

点评:运用自身大数据资源和技术优势, 百度在优化投资策略模型中将传统和大数据进一步整合, 体现了深挖大数据的价值所在。

百度大数据 篇2

几经考虑后,选了一个在很多人看来也许不是最好,但自己却觉得最合适的,人不能贪心地想把所有好处都占着,而最好的也未必是最适合的。所谓选择也许只是综合了多方面因素,取重去轻后做出的一个现阶段的决定,它会影响一段时间,但却未必是一辈子,毕竟后来的道路上我们还会不断自我修正。

在面试之前也在网上看过一些面经,所以从感谢前辈和回馈后来者的角度还是要先写点干货,不过我觉得真正有用的还是那点心得体会,世界上没有绝对的真理,只是单纯记录这一阶段自己的一些想法,希望能有所帮助。

一、阿里运营

阿里的校招历年都是互联网公司里边行动最早的,8月底之前就会截至网申,所以锁定互联网行业的小伙伴们一定要早行动。

在线笔试全部是开放性问题,主要是对个人经历和一些产品运营类的思考。

面试分为三到四轮,群面,一到两轮专业面,HR面,整个流程节奏非常快,两天搞定,第二天晚上直接出结果。

1、群面

我们这组的群面过程是,轮流自我介绍,分析每个人的优势,然后每个人15分钟时间,针对暖男在淘宝上做一次运营活动,15分钟自我思考后每人分别陈述,最后大家统一意见选出一个方案进一步讨论完善,再由一个代表做陈述总结。

关于群面就是把它当成一次真实的团队协作,大家共同努力解决一件事情,而至于做什么角色完全取决于你本人的优势,还是那句话最适合的才是最好的。我个人的优势在于清晰的逻辑思维和陈述总结能力,所以在团队协作中会做一个倾听者和框架的搭建者,在大家跑题的时候适时拽回来,另外能在凌乱的陈述中迅速梳理重点并清晰表达做最终陈述,但是缺点是不愿意跟别人争,所以如果团队中碰到喜欢抢话又提不出建设性意见的搅局者就会比较惨。

2、专业面

采用的是交叉面的方式,两轮时间分别在1小时左右,会针对你的简历经历问一些项目的问题,另外也会在你的项目经历上做一些延伸性的提问,所以两点很重要,第一写在简历上的经历必须真实且有的说,第二面试前自我提问式地回顾之前的项目也很重要,毕竟时间久了谁都会记不清。另外专业面还会问一些跟面官的项目相关的问题,比如天猫双十一你有什么运营上的创新点子,你怎么看待阿里产品和运营的区别等。

我认为最好的单面的状态应该是聊天,所以不光是面官问,你来答的状态,也可以适当地去引导面官的提问。比如我会从自己之前的餐饮O2O经历扯到淘点点,从之前自己的旅行经历和在蚂蜂窝的工作经历扯到淘宝航旅,也会去往一些近期的运营动态上去靠,比如当时比较火的S2O的案例女神的新衣,天猫APP中刺激UGC产生的频道FUN,而这些内容除了之前长期的关注和积累外,也有一些是可以短时间内去集中恶补的。

阿里的面官还有个特点就是蛮喜欢听故事的,所以除了工作经历外,如果有些其他能佐证你某项品质的故事也是可以讲出来听听的,但是前提是它是有效信息且能调动对方兴趣,比如讲到策划能力和执行力的时候我说到了自己线上卖明信片的故事,当面官问及看起来你一路都很顺没吃过苦的时候,就开始给他讲当年自己在没有暖气的房子里一个冬天的北漂故事。不过讲故事的前提还是,你真的得是一个有故事的人,这个恶补不了。

3、HR面 侧重于考验你这个人本身,特别是一些真实性的问题,这个过程会很轻松,但是在和风细雨中也极有可能埋有雷,所以再次强调在面官面前真实性最重要,你的情商还不足以在他面前耍小聪明,阿里的HR当时就揪住了简历上特别不起眼的一句话,是大二的时候在媒体的一段经历,让我详细阐述是怎么实现的以及自己从中承担了什么任务,我只能很坦诚地说时间过去太久,确实记不清楚,而且当时自己毕竟是一个大二的学生,还不足与在一个联动全国各省市媒体的活动中承担太重要的角色顶多就是一个联络的工作,不过细想来也怪自己在简历上给自己埋了一个雷。面试中还会有一些比较有趣的问题,比如你这么喜欢旅游,又做过西南西北自助游的创业项目,那给我画下中国的地图吧,再给我推荐些旅游目的地。

二、百度大数据商业产品经理

这是一份我蛮不舍的工作,确实也得来的不易,百度商业产品经理是目前接触的所有互联网类职位中要求相对最高的,首先笔试环节就会挂掉一大批的人,它对一个人的逻辑思维能力、语言表达能力,数理分析能力,甚至与气场都会有比较高的要求。

鉴于自己之前的经历和接触的东西都是用户产品类的,对于商业产品并没有太大的信心,但还好对于应届他们是有耐心的,不需要你有完全匹配的经历,只要在综合素质上符合他们的要求,他们是有耐心和时间去培养的,毕竟对于很多中国的大学生而言,步入职场才是真正学习的开始,而之前在学校只是教给你了学习的能力。

1、一面

时长大概在半小时,主要是挖简历上的内容,说白了是考察你这个人还有之前的经历,如果你有互联网的相关经历,会集中在这部分来问,我是有两段互联网公司的实习经历加两次互联网创业的项目经历,这部分对创业项目问的比较多,比如针对其中的一个旅游项目,跟市面上其他的同类产品和百度内部同类产品之间的对比分析。所以也打消了我最初的顾虑,作为应届,就算你没有产品类经历也是可以投产品经理的,就算你没有接触过商业产品,也是可以尝试的。

2、二面

时长持续了1个多小时,这是所有面试中最像聊天的一轮面试,面官人很好,在问完问题的时候会补上一句,你可以尝试着说说你的想法,我对这个问题也没有想太清楚,我们可以共同讨论下之类的话,所以很像两个喜欢互联网热衷于研究产品的朋友之间的聊天。这部分主要都是些开放性的问题,鉴于对商业产品了解并不是很多,加上当时百度刚刚推出直达号,所以针对直达号谈了很多自己的想法,过程中也涉及到一些自己之前做餐饮类O2O项目时跟线下接触的一些经验。当然在产品讨论之余也会问一些素质考验型的问题,如我提到了产品经理的沟通协调能力,就被问到,如果你是直达号的产品,这个产品上线后有可能损害到百度内部哪些产品的利益,如何去协调这个关系。

3、三面

就像三面的面官所说,到了这个环节,就是一个双向选择的过程,在面官了解你的同时,你也要尽可能地去了解将要进行的这份工作,这个团队,甚至于这个领导,当然对于应届来说,还是多少会有些压力的,因为很少能看到应届面试的时候双方处于一个很平等对谈的位置,多少会有些紧张和担忧。

这个环节,面官考核的重点我觉得是综合素质和气场,很赞同后来这位面官跟我说的话,一个人跟一个团队的气场契合很重要,就跟一家人一样,不是一家人不进一家门。所以顺便说一句宽慰大家的话,有些时候被拒未必代表你不够优秀,也许只是气场不够契合。而气场外化的体现,就是你的言谈举止,自信的人最美,而有理有据说话让人信服也是助力面试成功很重要的一点。我身边也有很多极其聪明,很有想法,但是嘴皮子跟不上脑袋运转速度,甚至于完全不能同步运作的人,针对这类人,建议可以重点锻炼下语言表达能力,模拟情景地做一些演讲,录下来自己听听,然后不断修正是会有帮助的,如果实在不行,也不要勉强,毕竟人各有所长,那就去无限放大自己的优势就好了。

三、腾讯产品策划/运营

腾讯内部好像不太细分产品策划和运营,所以招聘的过程也是混在一块进行的,因为8月份招过一次产品培训生,所以这次产品的招聘拖到了10月,而且需求量也不大。决定再去霸面下腾讯,可能有之前产培挂在了群面的遗憾,也有纯粹想体验下霸面的感觉的新奇,当然更重要的一点是,离开上海两年后很怀念那个时候周末扫街时压的马路,于是就想借着这么个引子再去逛逛徐汇和卢湾,走走思南路、雁荡路、陕西南路„„

1、霸面

互联网公司是比较开放的,所以一般都会接受霸笔、霸面这事,不过一般霸群面是比较容易的,只要你有耐心等,但是霸单面就比较难了,这次第二天的单面,愣是一个霸面的都没放进去。

2、群面

上午游荡着愣是被百度地图骗到了一个距离腾讯大厦3公里开外的地方,差点就放弃去面试直接跑去压马路了,后来鉴于跟朋友约好,还是赶了过去,霸面的大概有20个左右,交份简历,坐那等,如果面官挑中你的简历,就会被安排进某一组面试,索性有很多霸面的小伙伴一起等,过程到是很轻松有趣。

我们组的群面题是给广场舞大妈设计一款产品,这一组成员比较多,大概在十三四个的样子,一开始的规则是轮流发言,我前方的四五个人分别陈述了很多后都还没扯到互联网和产品上来,明显带着大学生办社团活动的思路来对待这个问题,吸取了上次产培群面太谦逊的状态,还是决定稍微带动下团队的节奏,不然怕又出现上次马上到时间大家还没统一意见的惨剧,其实群面最怕的就是碰到奇葩队友,当然这个全看运气,还好这次运气没上次那么背,搭好框架后大家也就顺着讨论起来了,再适时补充下,提些有亮点的建议,最后的总结陈述不算出彩,但至少把大家思考的精华都总结出来了。

3、专业面

专业面的面官是群面面官之一,这个时候也基本能判断出来你有可能进入哪个部门,对于我们这种霸面没有选部门的人来说,这还真是个随机随缘的事情。我的面官是偏图像类产品的,所以对我摄影和旅游的爱好比较看重,插一句话,人有些爱好总是好的,即使它看起来有些不务正业,但是但凡你喜欢并且乐于钻研它,从中积累的东西,早晚都会让你受用无穷,比如那些拿到游戏策划offer的很多就是从不务正业地玩游戏开始的,但是这不是鼓励大家都去玩游戏或者出去旅游,凡事有个度,掌握平衡很重要,玩的过程中的思考和自我技能的提升更重要。腾讯的面试还是比较费脑子的,甚至于还会问一些考验智商的题,比如时针、分针、秒针一天重合几次;估算中国iPhone用户的比重;烧一根质地不均匀的绳子需要一小时,现在有一把,让它恰好烧1小时15分钟,怎么实现。关于智力题这事,我觉得除了考验智商外,更重要的是考验你的应急能力,我是分分钟被自己的智商蠢哭的纯文科生,庆幸面官没有就此把我pass掉,所以就算你不能立马答出这些问题,你也还是有希望的。另外就是会涉及到一些产品方面的问题,比如你常用的图片类的APP 有哪些,如果让你做一款图片类的APP 你会从哪个角度切入,用三句话概括它的亮点,大众点评的APP产品优化你有哪些提议,对现行的社交类产品怎么看,都关注哪些互联网类的媒体,从哪些渠道获知信息等,反正这些天马行空的问题真的都是得看平时的积累,看看自己手机里满屏的APP和飘红,外加没事把APP store当淘宝逛得习惯,总归是能扯一些东西的。

4、总监面

又是为时1个小时的一场面试,这场面试是脑细胞死的最多的,因为基本上他不会去考察任何你可能准备好的经历或者case,所有的问题都是在聊天的过程中抛出的假设情境下你会怎么做的未来时问题。针对包车自助游项目的创业经历,问到了如何准确定位你的目标用户并估算数量,你之前只是做针对西北西南的包车自由行中的租车业务,那如果现在我是风投,你怎么说服我投你,资金资源到位的情况下,业务领域怎么扩展,过程中扯了很多旅游类互联网的东西。找工作都看哪些网站,应届生这个网站如果优化怎么做,做独立APP的话,画一个demo图,阐述下产品思路和框架逻辑关系。鉴于当天脑细胞损伤严重过去的时间又久,很多问题已经记不清了,当然还有个智力题记得很清楚,说俩人一块从一个筐里拿苹果,一共100个,每次每人只能取不超过5个,对方先拿,怎么能保证最后一个是你拿到,估计又是一个理工科秒答,我要推半天的题,神伤。四、一些心得体会

1、心态是最重要的。对于应届生而言,不着急、心气太高、孤注一掷是一个极端,太着急、太浮躁、海投海面是另外一个极端,心态调整好很重要,工作总归会有的,而且是最适合当下的自己的,可能没别人的好,可能没达到你的预期,可是一切才刚刚开始,起头的这步其实什么都决定不了。

2、早点明确自己的喜好,和想要从事的行业。对于中国学生而言,打小更多的就是填鸭式教育,很少想得清楚自己想要什么喜欢什么,如果高考填志愿的时候你这么说我觉得可以理解,但是大学毕业甚至研究生毕业的时候还这么说,就只能说你已经错过了人生一个很好的试错阶段。

学生时期我尝试过很多事情,有务正业的也有不务正业的,呆过报社、电视台,后来又转去互联网,在一度迷茫的时候还去体验了一下房地产,最后还是坚定地回归了互联网。除了实习自己还参与过两个互联网的创业项目,在创业公司给你的锻炼是远超出想象的,毕竟在公司体量很小的时候,是不会有具体的职能区分的,于是产品、运营,甚至商务,市场都会接触,从中学到了很多更重要的是明确了自己的不足。当时去创业的时候曾经告诉自己,在这么好的试错空间就该去尝试,就算失败了又能怎样,我又没损失什么,只要顺利毕业我至少没比别人落后,而这段经历是无价的。

3、只要去经历都是好的。我是个精力过度旺盛的人,喜欢挑战和尝试不同的事物。不过究其根本还算好学生,本科年年奖学金毕业直接保送研究生,但是也做过很多所谓的坏学生会做的事,体验过间隔年,临近毕业的半年走了很多地方,会去青旅做过义工,会一随性跑西藏呆一个月,会保持着一个月出行一次的频率,或近或远,反正我赚的那点钱都用来旅行了;身边的人总是弄不清楚我的状态,有人觉得我在读书,有人觉得我在工作,还有人觉得我天天都在玩,所以也变相验证了不要单纯地相信自己片面的视野范围内告诉你的事情。除此之外,出于兴趣爱好,也是为了给自己多赚点外快,还会同时兼职做一些工作,比如咖啡馆微博运营,杂志专题写作,线下活动组织等,而这些看似做着玩的活动在面试的过程中反而也能帮到你很多。比如有一次从产品的一个“约饭”的功能延伸到陌生人社交类产品,再去挖掘需求的时候,我就可以直接把海伦屋做线下美食、摄影、桌游等活动的案例搬出来,这样的回答也许会显得不那么空虚。

4、我们都不乏好的想法,但是缺乏说做就做的执行力。其实这点,我自己也蛮惭愧的,有100个想法,却未必有1个执行了的,但是在某些事情上,还是够雷厉风行的,比如当时心血来潮地卖明信片,思考到落地执行只用了不到2天,只问了自己一个问题,如果成本全赔进去,能承受吗,其实只要回答是yes那就去试吧,反正年轻没什么输不起的。

5、人是社会人,你身边的人的高度在某种程度上会决定你的未来。我是一个不擅于维系人脉的人,因为觉得人脉这个词太冰冷,但是我喜欢交朋友,因为朋友是一种基于感情无关利益的存在。也很庆幸自己一路走来总能有贵人相助,就说一句话,世界是公平的,与人善,于己善,在索寻所得时先去看看自己付出了哪些。

6、路是一步步走出来的。自己没有太大的野心,也说不好几年或者几十年后的事情,唯一能做到的就是每天别让自己闲置,闲久了人会废掉,今天比昨天好一点,明天比今天好一点,然后这么一步步走下去就好了。在做职业抉择的时候我们都会考虑长远发展的问题,但是在这个瞬息万变的时代,其实以我们现在的浅见根本看不到多远的长远,所以谁都说不好明天,我们都在摸索着前行,而最需要做的就是看好眼前脚下的路,用力过好今天。

百度大数据 篇3

—如果将数据资源比作矿藏,那么百度所拥有的无疑是一座巨大的富矿。

这座富矿究竟价值几何?百度又将如何挖掘它的潜能?

2015年9月8日,在2015百度世界大会上,百度旗帜鲜明地给出了答案,那就是用大数据来“连接3600行”。

在8月19日国务院通过《关于促进大数据发展的行动纲要》之后,这场大会更像一场誓师,百度董事长兼首席执行官李彦宏和他的同伴们终于由此开启挖掘大数据宝藏的大幕了。

大数据的宝藏,百度将要怎样挖掘?

百度高级副总裁王劲在会上发布了百度“大数据+”开放平台:“百度通过大数据连接3600行,打通线上和线下,把线上和线下的数据融合起来,产生核聚变,迸发出新的能量,让大数据成为3600行的商业新能源。”

这新能源的富矿存量有多大?

资源:海量存储 数据富矿

如果将单一信息比作一滴水,那么百度所拥有的无疑就是汪洋大海:百度的服务覆盖6亿网民,汇聚全网万亿网页,每天响应60亿次搜索请求、150亿次定位请求,记录了整个中国互联网的过去、现在与未来……

除了搜索数据、定位数据之外,百度还拥有丰富的社区数据,如百度贴吧的数据等。

过去,百度索引的是网页,而现在百度要索引真实世界。它正在将线上和线下的数据打通、融合,将百度数据和传统行业的数据深度结合。目前,百度和保险、零售等行业已经在大数据合作方面进行尝试,随着百度大数据与行业深度合作的扩展与加强,可以预想,百度拥有的数据矿产将进一步丰富与完善。

然而,如此海量的数据,仅是存储和处理就绝非易事。百度会不会被淹没在这数据的海洋里?

硬件:底层支撑 储备过硬

存储、计算如此海量的数据,离不开硬件基础—数据中心。此前,作为全球最大的中文搜索服务提供商,百度的数据中心规模已达数十万台服务器。而近日百度更是启用了华南超级核心及华南IDC(互联网数据中心)集群,使百度的数据中心规模和网络服务能力进一步提升。

百度已在全国多个地区建成超级核心及IDC集群。超级核心指的是骨干网络节点,所有IDC都需通过该节点进行互联。此次华南超级核心及IDC集群的启用,对于占全国近1/3用户的华南十省地区,可以实现网络提速30%以上。

除了拥有规模庞大的数据中心和计算网络外,百度公司还一直投入大量的资源研究数据中心的节能技术及清洁能源发电技术,引领数据中心绿色节能技术的革新潮流。

2013年1月,中国第一代整机柜服务器天蝎(北极)1.0版本率先在百度南京机房上线,开创了定制服务器新时代,在中国发挥了很好的引领作用。如今,百度已大规模上线天蝎(北极)2.0,自主整机柜服务器已投入使用数十万台。

整机柜服务器采用共享架构设计,可以让百度取得非常好的收益:整机柜服务采用集中供电,比传统分散电源的能效提升20%,而电源模块成本只有原来的50%;采用集中散热,比传统分散散热模式的能效提升60%,风扇成本节省20%;方便集中管理,以机架为基本管理单元,提高管理效率,整机能耗降低15%。

此外,百度还是全球第一家大规模商用ARM服务器的企业,仅此一项,使能效降低30%。百度在语音、图像识别等领域创新性地应用了GPU服务器,能耗降低超过10倍。百度还成为全球首家把FPGA规模部署到数据中心的互联网公司,应用FPGA后,能耗降低38倍……

技术:出神入化 谁与争锋

王劲说:“我们在技术上巨大的投入,希望有一天不仅助力百度发展,还能够帮助中国整体经济转型。希望百度技术的开放与应用,能够给中国的发展带来丰厚的回报。”

百度在技术上投入了什么,又换来了什么?它真有传说中那么出神入化?

在云计算技术方面,百度拥有全球最大的Hadoop集群。Hadoop是能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。目前百度拥有业界最大Hadoop单集群—1.3万台,日处理作业量达百万量级。

在大数据和人工智能技术方面,百度搭建了超大规模深度神经网络,可支持千亿样本和千亿特征训练。

基于大数据及超大规模神经网络,百度在机器感知方面取得了非常大的进步:其统一视觉和语言深度学习模型已经能像小孩子学习一样自然,能够进行简单的看图说话、问答,理解动态视频;在世界最权威的人脸识别评测 (LFW,Labeled Faces in the Wild,无约束人脸识别) 中,人类的错误率为0.8%,百度人脸识别的错误率仅为0.23%;对于搜索这样的短文本(中文)语音输入,人类的单字错误率为8%,而机器可以达到6%。

基于机器感知及自然语言理解方面的技术突破,百度打造了先进的读图问答技术。这一技术会聆听、识别并理解人类的语言,同时识别、认知图片内容,自行判断并且组织语言给出答案,体现了目前全球最领先的人工智能水平。

如今,百度已经将这些先进的技术和能力通过百度开放云、API Store (apistore.baidu.com)对外开放共享,助力行业转型升级。

这些令人眼花缭乱的技术,究竟能够做些什么?

市场:探明前路 前景广阔

可能在开始,百度也未必清楚地知道大数据的价值到底能够挖掘到多深入,于是它将探寻的灵敏触角伸了出去,得到了市场的热情回应。来看看大数据平台与市场结合后的斐然成果:

大数据+零售:迎接个性化精准营销时代的到来

随着信息社会的不断发展,整个大数据的生态开始往线下转移,这是大数据+非常具有潜力、值得挖掘的一块宝藏。特别是在国家大力提倡“大众创业、万众创新”的情势之下,它将为中小微新兴创业者提供有益参考,带来事半功倍的效益。

大数据可以刻画群体画像,帮助创业者进行营销,提供精准、定向的个性化推送;通过分析客流数据、消费水平、需求缺口、竞争对手、交通状况等,给出商业选址建议……

随着大数据生态的铺展,一些敏锐的商场开始抓住这一契机,从只关注最简单的整体的客流,到开始注意自己数据的建设。

而通过与百度大数据的合作,北京朝阳大悦城无论对自身还是对消费者的认知都有了质的提升:在充分保障用户隐私和安全的前提下,把百度海量的线上数据和大悦城线下多年积累的数据结合在一起,通过挖掘、分析这些数据,百度和大悦城制订了一些更有针对性、更精准的推广计划。这种个性化的推广计划在很大程度上提升了大悦城的销售量。据统计,通过这一方式,大悦城会员销售额提高了12%,未购买品牌推荐转化率提升了5倍;非活跃会员到场消费率提高53%。

从关注整体客流到关注客流的留存、停留的时间、浏览路径……再到开始关注细分人群、消费者的生命周期及偏好,最后通过O2O的生态和大数据生态,针对行为习惯不同的消费群体实施定制化的营销,大数据正在改变着零售行业。可以说百度的海量数据,有效地支持了商业运营和商业决策,同时,对于消费群体的分类、判断和认知,有助于实现个性化的精准营销和个性化服务,大大提升盈利水平。

大数据+保险:低赔付人群定位准确性超过85%

百度大数据与保险行业的融合,可以挖掘出客户购险意图,做到精准营销;同时可以预测客户的赔付率,进行个性化定价。通过与大数据的结合,使保险公司在保险价值发现、客户挖掘等方面的能力得到极大提升。

保险业降低一个百分点的赔付率,都意味着比竞争对手有了更大的竞争优势。

百度在这一领域小试牛刀,展现出大数据在这一领域的巨大潜能。

利用保险公司多年积累下来的线下数据,百度和保险公司圈定了一大批低赔付人群样本。百度将这些人群的线上线下数据融合,应用人工智能技术,把这些人的特征挖掘出来。然后,在6亿网民中,通过海量计算,将具有相同特征的人找出来。这样就找到了更多的低赔付人群,准确性超过85%。同时,通过大数据合作,实现精准营销,广告点击率提升361%、购买转化率提升200%。

大数据+金融:开启点“数”成金的互联网金融时代

把线上的海量数据和线下的金融数据结合到一起的时候,这些数据产生了点“数”成金的效果。

这些数据的融合,对基金选股、风险控制、信用评估产生了极大帮助。它们有效地提升了投资者决策判断的参照系。传统金融做决策的时候,一般用几十个、几百个维度进行决策,当应用互联网大数据后,可以用几万个维度进行决策,并可以对数据进行实时监控和反应,大大提升金融决策的有效性。

百度大数据和国金证券的合作在这方面提供了有益借鉴。他们把线上和线下的数据结合在一起,通过对这些海量数据进行复杂的计算,挑选出了20多个有效的因子,并用这些因子建立数学模型,助力选股和买卖决策。

基于上述大数据的合作,使投资者的绝对收益提升了5%到8%;信息比IR提升了0.6到0.9;最大回撤降低了3%到5%。

有了大数据的强大支持,我们在炒股上、在基金的选择上,能够有更大的收益,能够更好地控制风险,降低波动。

据王劲透露,下一阶段,百度大数据将和国金证券进行一个新的尝试,共同建立一个新的量化基金。希望通过这种创新和尝试,帮助互联网金融找到切实可行的发展道路。

大数据+旅游:智能化的旅游服务

在查找旅游信息时,搜索引擎是主要渠道。游客从搜索引擎获取信息占所有信息获取渠道的78.5%。

大数据与旅游相结合,基于海量搜索数据,以及LBS定位数据、SNS数据等,能够实现景区客流量预测,为游客出行、景区管理与服务提供参考;还可以让景区更深入地洞悉旅客,便于景区做更智能的服务和营销。此外,还可以提供酒店订单预测、热门线路预测等服务。

百度大数据与武夷山景区的合作堪称这一类型的典范:通过大数据分析可以了解到,到达该景区的旅客对鼓浪屿、黄山、乌镇、西湖等景区的关注度也很高。因此景区可以联合沿线景区,推出精品旅游路线,进行营销合作,充分发挥景区联动效应。

正像王劲所说:“过去,我们做决策凭的是个人的经验和能力;今天有了大数据,我们能够有的放矢地做出一个决定,让大数据引领我们去做新的决策。”

“索引真实世界,让大数据改变我们的生活。百度不仅仅用大数据来帮助百度自己发展,我们还希望把百度大数据开放给大家,希望用大数据+平台连接3600行,助力3600行获得新的竞争优势。”

业态:培育生态 改变生活

百度建立大数据平台的目的,一方面是为了释放大数据的海量价值,更为重要的是建设大数据生态。

在谋划大数据之初,或许他们已经前瞻性地将百度大数据打造成与各大产业相融合的模块雏形:百度大数据+平台有七大模块,分别是产业洞察、客流分析、营销决策、舆情监控、推荐引擎、店铺分析、数据加油站,并已提供针对保险、旅游、零售等六大行业的解决方案。

可以说,未来通过大数据平台打造的百度生态圈,将可以用到百度大脑、百度大数据、百度云等丰富多样的产品和服务。而大数据不仅仅能够帮助商业,还能改变我们每个人的生活。

前段时间,百度研究院和百度公益共同携手打造了一款产品“百度小明”。百度小明依托“百度大脑”的图像识别、语音识别以及深度学习等相关核心技术,成为盲人的日常生活助理,帮助盲人“洞见”真实世界。

而对于更多的正常人,百度依托大数据、人工智能,开发了丰富多样的产品,帮助人们更深入于智能生活当中,让我们对于所处的信息社会不再有如“盲人摸象”。例如百度打造的小度机器人,能够像真人一样面对面和用户对话,回答用户的问题。它可以利用人脸检测和跟踪技术,根据用户的位置移动而转动视线。不仅如此,小度机器人还具备了认识用户的能力,可以判断出面前用户的身份是注册用户中的哪一个人,根据用户的不同年龄、身份、性别做出个性化的回答和服务。

王劲说:“前段时间,国务院印发促进大数据发展行动纲要,进一步推动大数据应用到行业中。我们希望百度能够参与其中,帮助中国更好地实现大数据战略。”

百度大数据 篇4

归结起来, 新媒体的特点有以下几点:传播的时效性 (技术作为支撑) ;传受双方交互性 (传播方式非线性) ;传播内容多样性 (海量信息) ;传播方式的个性化;传播的空间大 (网络普及使用人数多) 。

对国际新闻报道的受众来说, 新媒体的诸多特点会对受众的信息接收模式、习惯产生重大的影响。以下就从时效性、互动性、贴近性三个方面入手, 利用百度指数这一大数据分析平台提供的数据, 对2014年的几个重大国际新闻事件的受众接收特点进行简单的分析, 以期对我们掌握新媒体时代国际新闻报道的受众特点起到一定的帮助。

一、时效性的延伸——受众注意力的黏性与持续性增强

时效性是新闻报道当中非常重要的要素, 从某种程度上说, 时效性是新闻报道的生命。根据陆定一关于新闻的定义“新闻是新近发生的事实的报道”中可以看出, 新闻必须要是“新近发生的事实”, 也就是要有时效性。国际新闻是新闻的一种形式, 因此其写作的过程中必然要遵循新闻的一些普遍的原则, 如时效性、客观性、贴近性等基本原则。其中, 时效性是保证新闻生命力的重要一环。

在我们常规的关于时效性的认识中, 谁在第一时间报道新闻, 谁就掌握了主动权, 因此新闻媒体的记者们往往要“抢新闻”。例如, 2003年伊拉克战争爆发之后, 新华社第一时间播发了一条短消息, 世界各大重要媒体纷纷转载。对于新媒体时代的国际新闻报道来说, 由于地域上的距离因素, 他国的媒体很难在第一时间报道事件的发生, 而只能选择在最快的时间内跟踪该事件的报道。由于重大的国际新闻事件一般都有一定的持续性, 因此, 在新媒体时代的国际新闻报道中, 受众对时效性的要求表现为受众对事件的即时、持续性的关注。

图1和图2分别为MH370马航事件搜索指数与媒体指数图表。通过对两个图表的交叉对比分析我们可以知道, 在3月份马航MH370事件发生后, 媒体指数和搜索指数均出现了一段时间的搜索高峰, 这个不难理解, 是由于该新闻事件本身所具有的显著性特点决定的。关键在于马航事件的短时间热潮消退之后两指数的对比。在图2的媒体指数中我们可以看出, 7月后, 除了间或出现的几条零星的头条新闻报道会引发媒体指数的小峰值之外, 其他大部分时间里媒体指数都保持在个位数甚至是0。而反观同一时间段内的搜索指数, 受众对该事件的搜索指数一直稳定在3000以上。这说明非常重要的一点, 那就是对媒体来说重大新闻事件的时效性是短暂的, 而对受众来说对时效性的要求确实有持续性。受众出于对事件的关注, 会通过互联网等各种新媒体对该事件的相关信息进行搜索, 受众的注意力体现出很强的黏性和持续性。

还有另外一项数据可以证明这一点。

图3和图4分别是关于MH370事件信息检索的需求分布图表和相关检索词图表。在图3中, 我们发现关于该新闻的一些基本元素例如“马航”“乘客”等之外, 在需求度较强的搜索中发现还有一个关键词“最新消息”, 这一点说明受众在对关于MH370事件的报道中非常关心事件的进展情况, 受众希望得到及时的相关信息。同样的现象我们在图4中也可以发现, 在搜索热度的前几位当中, 除了必然会出现的基本关键词之外, 出现频率最多的是“MH370最新消息”以及“MH370劫持新证据”等;在上升最快的关键词中出现频率最多的也是“MH370最新消息”。

这说明, 基于国际新闻事件本身的重大性, 在新媒体时代受众对信息索取的主动性空前增强, 受众对国际新闻报道时效性的要求表现出很强的黏性与持续性。基于这样的受众特点, 国际新闻报道要加强对同一重大国际事件的持续跟踪报道, 以满足受众对相关信息持续的关注需求。

二、互动性的回归——更广义的互动实质是自我的互动

与传统媒体相比, 新媒体有着诸多独特的特点, 如时效性、数字化、互动性、内容多样性、个性化、传播空间大等。而在这诸多的特点中, 与传统的媒体相比, 新媒体最突出、最重要的一个特点就是它的互动性, 这一点是区分新旧媒体的最重要元素之一。“互动性是新媒体传播的本质特征。”尽管新媒体有着诸多的特点, 但归结到以人为主体的现实意义上来, 我们可以说, 新媒体是在更大的范围内以更加多样性、个性化的方式实现了人与人之间的即时交流互动。

通常意义上, 我们所讲的新媒体所表现出来的互动性, 是基于操作层面的人与人之间的交流, 人们可以在不同的空间里借助各种社交网络彼此沟通。而对新闻的传播来说, 借助互联网, 受众可以实现与传播者之间的互动, 这是一个巨大的飞跃和进步, 一方面在一定程度上提供了受者自由表达意见的基础;另一方面, 更大程度上发挥出了受众对于新闻以及传播者的反馈作用。但从受众的角度来说, 新媒体时代所带来的更多是受众接受方式和接受习惯的改变, 因此新闻媒体所进行的新媒体实践大多都是寻找新的平台, 及时抢占受众注意力的新入口, 从而占据传播的主动权。就互动性来说, 尽管技术上是可以实现的, 但实际中却很少看到读者与新闻媒体之间的直接交流。

在这里, 我们应该深刻地明白一点, 在新闻传播中, 单纯的传者与受者之间的双向互动只是狭义的互动, 而更广义的互动实际上是回归到自我互动的。尤其是在新媒体时代, 每天各种信息海量地产生和传播。一方面受众对单方面的信息源并不抱有绝对的信任态度, 另一方面新媒体时代信息获取的低门槛大大增强了受众自我搜寻信息的积极性。在这样的前提下, 无论何种表现形式的人际传播最终都会变成一种人内传播, 受众对新闻信息的接受是一个自我信息补充的过程。

由于每个受众在身份、地位、立场、价值观、兴趣爱好等方面都不尽相同, 当受众接触到某一信息时, 由此串联起的各种相关信息需求是不一样的, 受众通过互联网等各种新媒体进行主动信息搜寻的过程中, 就完成了一次自我的互动, 这种自我的互动也包括有可能会产生的与新闻传播者的双效交流。尤其是在国际新闻报道中, 由于国际新闻存在地域上的距离感和性质上的重要性, 受众在接受重大国际新闻的过程中这种自我的互动会表现得非常明显。

以2014年7月份爆发的重大国际事件“埃博拉病毒”为例。图5—图7中, 图5表示以“埃博拉”为关键词的搜索需求分布, 图6为“埃博拉”的相关检索词, 图7为“埃博拉”在百度知道中的搜索热度排行。

从图5—图7中我们可以看出, 关于埃博拉的搜索需求分布表现出两个特征:一是知识性搜索需求热度强, 二是搜索兴趣广泛。

从图5中我们可以看出搜索的需求热度前五位分别是“簿防治”“簿抗体”“簿病”“簿传播”“簿感染”, 在图7的百度知道热度问题中, 几乎全都是关于埃博拉的“知识性”提问。这说明面对“埃博拉”病毒这一受众并不十分熟悉的概念, 受众对其基本信息的搜索需求出现高峰, 也即知识性搜索热度增高。

而在图5中, 我们还发现了一个非常奇特的点, 一个环比需求变化上升最快而且搜索热度需求比较靠前的概念是“僵尸”, 这说明受众在针对“埃博拉”病毒事件的接受中, 自我互动的广度开始拓展。在图6所列出的相关检索词中出现了“r病毒”“裂头虫”“蒙古死亡蠕虫”“僵尸真菌”“水熊”“g病毒”等关键词, 其中有几个关键词的检索上升速度超过了1000%。在图7中也出现了关于“僵尸”与埃博拉有关的影片等问题。由此可以看出, 在国际新闻报道中, 借助新媒体工具, 受众的信息需求广度得到提高, 受众由国际新闻事件而引发的自我互动也更体现出一种内容多样性。

受众自我互动的这种特点基于两个事实, 首先是新媒体时代提供了便捷的信息检索手段, 使受众自我互动的扩展更加方便;另一方面是国际新闻本身所具有的特点, 也即较低的贴近性和较高的显著性, 较低的贴近性使受众的信息检索不会受到地域或切身利益的制约, 而较高的显著性则增强了受众对事件的关注度和求知欲。

三、贴近性的消解——受众搜索框架与媒体框架的偏离

“新闻框架是新闻媒体对新闻事实进行选择处理的特定原则 (或准则) , 这些原则来自于新闻媒体的基本立场、编辑方针以及与新闻事件的利益关系。”在一篇新闻报道中, 框架的存在是一种必然。一般来说, 新闻事件大都具有复杂的多种属性, 由于时效性和新闻文本特性的要求, 新闻记者不可能在一篇报道中事无巨细地罗列这些属性, 而只能抓住事件的若干主要属性, 并把它归纳到一定的框架之中。

由于国际新闻往往发生在不同的国家, 因此在国际新闻报道的框架中就需要考虑诸多的影响因素。“在国际新闻报道领域, 影响国际新闻框架构建的因素包括意识形态、民族优越感与国家认同、国家对外政策、国家利益、政府与媒体的相互依赖、新闻职业规范以及记者的信息来源等。”由此可见在国际新闻报道中, 不同的国家根据自身的利益会有不同的框架。

在国际新闻报道中, 除了这种框架的不同以外, 各国的国际新闻报道还有一个共同的规律, 那就是对于发生在其他区域的国际性事件, 各国的新闻媒体往往会更关心与自己国家有关的内容。这其实是符合新闻报道的贴近性规律的, 也是符合受众的选择性认知规律的, 因此在国际新闻报道领域, 媒体的新闻报道框架与受众的接受框架之间存在一定的统一性。但在新媒体时代, 由于受众获取信息的渠道、难易程度等都得到了极大的改善, 在国际新闻报道的传播者一般都带有官方色彩的前提下, 受众的搜索框与媒体的新闻框架可能会存在一定的偏离。

还是以“埃博拉”为例, 如上, 图8是2014年7月1日至2014年12月30日关于埃博拉的搜索指数曲线, 其中每个大写英文字母所代表的结点是该时间点重要的头条新闻。图9是该时间段内新闻头条的标题。

将图8、图9的内容进行交叉分析我们会发现, 图8中显示的信息是, 除了在F点之外, 其他9个点的新闻头条都没有引起受众的搜索高峰, 而在没有出现重要新闻头条的时间段里, 受众对埃博拉出现了多次搜索高峰。在百度指数所列出的10个重要新闻头条中, 有四条是 (D、F、G、I) 与中国有关的内容, 这是国内对国际新闻事件报道的一种框架选择, 也是符合国际新闻报道的规律的, 但从数据来看, 这些涉及中国的报道没有引起中国受众的信息搜索峰值, 这是受众搜索框架与媒体新闻报道框架偏离的有力证据。

关于这种偏离, 在我们对2014年另一件重大国际事件“乌克兰危机”中也发现了一些证据。

图10、图11是关于关键词“乌克兰局势”的数据, 图10是从3月到11月的重大头条新闻, 图11是该时间段内百度知道的热度问题搜索结果。对两表的信息进行交叉分析, 我们可以发现一个非常大的反差, 10个头条新闻中没有一个是牵涉“乌克兰局势”与中国的关系的文章, 而在图11中, 10条热度问题中有4条是与中国有关的。这里也表现出一种媒体的新闻框架与受众的搜索框架之间的偏离。

在新媒体时代, 受众的信息获取自由度是非常大的, 因此要准确把握受众的信息需求, 国际新闻报道就必须在保持一些固有的框架的基础上, 对国际新闻事件进行多方位、多角度、多样化的报道, 这样才能够既满足受众的信息需求, 又做到在重大国际新闻事件中充分发挥舆论导向的作用。

参考文献

[1]刘洪涛, 赵志刚.新媒体语境下军事广播的发展[J].军事记者, 2011 (2) .

[2]廖祥忠.何为新媒体?[J].现代传播 (中国传媒大学学报) , 2008 (5) .

[3]邢长敏.论新媒体定义的重构[J].新闻爱好者, 2009 (20) .

[4]匡文波.“新媒体”概念辨析[J].国际新闻界, 2008.

[5]郭庆光.传播学教程[M].中国人民大学出版社, 2011.

百度大数据 篇5

经常听到做竞价的朋友说,做竞价并不能,难就难在数据分析上,可见数据分析对竞价员的重要性,那竞价人员一般会借助哪些工具来做数据分析呢,下面说几个我自己常用的工具 1,百度后台数据报告(关键词报告,搜索词报告,创意报告等) 2,商务通报告(历史记录:查看ip,搜索词,客户区域,对话类型,客户浏览页面,预约等) 3,百度统计(关键词质量度占比,搜索词,受访页面,跳出率,访问时长等) 4,第三方工具,cnzz数据专家,(关键字报告、搜索引擎报告、受访域名报告、ip排查,来路分析,受访页面报告等) 还有没有其他?

[百度竞价数据分析一般借助哪些工具?]

百度:面对海量数据的绿巨人 篇6

百度新首页上线一年以来,已经累积用户1.2亿,增长速度达到400%。那么,面对如此巨大的数据处理量,百度是如何通过绿色高效数据中心在大数据时代应对节能环保的要求的呢?

M1云数据中心:PUE第一如何取得?

2013年4月,在云计算发展与政策论坛召开的第三次高端会议上,百度M1云数据中心以PUE(数据中心的能耗指标) 2012年平均PUE达1.37,近12个月平均PUE为1.36,最佳PUE达到1.18,取得了国内PUE第一的最佳成绩(PUE越接近1越好,业界的平均PUE为2.5)。该评估由工业和信息化部电信研究院联合国内的主流电信运营商、互联网服务提供商和设备制造商及有关科研院所共同发起,代表着国内数据中心评估工作的最高水平。那么,M1云数据中心的PUE值国内第一是如何取得的呢?

M1云数据中心位于朝阳区酒仙桥北路9号,原建筑为北京松下彩管厂区301号建筑,后由北京捷通公司改建而成。在向记者展示的幻灯片中,可以看到M1云数据中心的主体结构:M1数据中心总面积为6320平米,一层面积为5370平米,包括机房及动力、配电等辅助区域;二层面积为878平米,包括办公用房;地下一层水泵房面积为72平米。

百度云首席架构师林仕鼎说,百度云数据中心计算的主要技术领域涵盖了数据中心体系结构、存储、计算 、超大规模系统等。

M1数据中心由厂房改造而成,在改造过程中,采用外墙保温技术,最大限度减少室内外温度传导。在机房平面布局时,设置环形走廊,将机房区域设置在建筑环廊内区,最大程度减少冷量损失;外沿为走廊区域,充分利用自然条件,减少空调开启时间,实现节能运行。

在软件架构优化方面,百度M1数据中心,部署了百度自主开发的在线离线业务混布系统,以及自主研发的服务器流量调度系统,在大幅提高在线机器的利用率的同时,极大限度地降低业务为应对突发事件而预留的冗余服务器资源,大大提高了能效。

在硬件方面,服务器的能耗是数据中心能耗的主要部分。M1数据中心采用了绿色节能部件定制、固态硬盘(SSD)应用、电源效率优化、主板改造、去除冗余、与IDC环境结合的风扇优化策略等多个手段,使单节点降低能耗25%,整个数据中心的计算及处理能力大幅提升。此外,数据中心还率先使用了ARM采用精简指令集(RISC)的解决方案,使每台服务器的CPU功耗降低到原来的十分之一。

在针对另外一块主要的能耗——空调系统的改造中,M1数据中心采用高效的冷冻水空调系统,并结合一系列先进技术以提高制冷及空调系统能效。例如,采用水侧Freecooling系统设计,充分利用室外自然冷源,尽量减少冷水机组运行负荷和时间,大大降低了数据中心能耗。另外,M1数据中心项目中引入先进的气流优化设计手段,采用CFD (Computational Fluid Dynamics)辅助进行机房气流组织方案设计,优化机房设备布局、细部规格尺寸、参数设置和维护维修策略等。在市电供电架构方面,M1数据中心提出简化供电系统结构大胆构想,在国内首次大规模采用市电主供,冗余电源作备份的新型供电架构,UPS系统整体损耗降低近10%。

自行设计,打造绿色之路

目前,百度已经在多个领域展开了基于公共数据的搜索服务。2013年2月,国家药监局三大数据库向百度开放,包括具有18万余种国产和进口药品信息的药品数据库,6000余种非处方药(OTC)化学药品说明书范本及中药说明书范本的药品说明书范本数据库,以及经过认证的可向个人售药的网站的数据库信息。

2013年4月末,百度知道推出了知识搜索服务,针对相关领域的关键词检索提供满足用户需求的特型展示,目前已上线的有口碑搜索、医疗搜索、答案聚合及数据图谱等功能,并同时覆盖到PC端与无线端。

在百度已相继引入国家药监局、中国家电维修协会、中国航空协会、中国银行业协会、北京市卫生局等权威机构的核心数据后,2013年5月,全国组织机构代码管理中心又和百度公司达成战略合作,以便为社会提供安全、准确的搜索结果。网友在百度搜索“组织机构代码查询”可以进入专业核查工具,只要输入组织机构名称、代码、登记证号中的任意一项,就可以了解机构类型、地址、有效期、颁发单位等重要信息,迅速判断这家组织机构是否真实、可靠。

那么,这些海量的数据,在云时代的背景下,百度如何通过有效的组织管理以及在设计理念上来实现几十座数据中心的节能呢?在走访中记者逐渐了解到,百度除了采用一系列节能的方法和技术,比如优化电源结构、引入变频技术,优化服务器的气流式冷水机组及使用CFD软件等方式来实现服务器技术的优化外,更通过一系列定制化、高效的部件方面的自我的创新来建立中国最节能高效的云计算数据中心。

自建绿色高效数据中心

“数据中心是百度业务的载体,它支撑着海量数据存储、云平台和搜索社区等,所以百度更加关注建设云数据中心,用云的核心驱动力来支撑业务规模发展。”百度公司技术委员会理事长陈尚义介绍说,“百度的单体十万台服务器的数据中心,PUE每降低0.1,一年就可为百度节省上千万的成本,所以,打造自我的绿色高效数据中心,在大数据时代将能很好应对节能环保、低碳的要求。”

目前,面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。目前,计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。2013年4月15日,成都市高新区与百度云签署协议,中国最大的云开发服务平台——“成都百度云开发者技术中心”正式入驻成都高新区移动互联网大厦。此外,南京、广州、天津的百度云数据中心也都在建设之中。

nlc202309011345

陈尚义介绍说,百度数据中心从设计之初就开始体现绿色节能的理念。在解决设备散热问题中,百度数据中心采用集中散热、集中供电、高效部件等方法来降低能耗;在解决服务器能耗问题中,采用SSD解决服务器的瓶颈,降低服务器数量等方式来节约服务器耗电量。此外,一些数据中心采取白天以商业业务为主、数据处理为辅,夜晚侧重数据处理为主的原则,来很好分配大数据量的工作时间,进而实现了节能高效。

除了这些技术,百度最让人叹服的还有数量众多的“看家本领”,更显示其“自制”的能力。

能力1:自制固态硬盘(SSD)。据估计,百度的数据中心存储了数百PB的数据,其日常的数据处理能力达到数十个PB。为了解决海量数据实时存储的巨大挑战,百度自行开发了SSD产品,其研发的SSD的性能比SATA SSD要好六倍,而且其成本只是它的10%。在南京的云计算数据中心也进行了大规模的行业内的固态硬盘(SSD)部署。

能力2:自行设计10Gb TOR交换机。百度自2011年开始研究和开发TOR交换机的设计,并于2012年推出第一代10Gb的TOR交换机。通过使用自行设计的硬件和软件,设计制造模块,以及DAC(直接连接电缆),百度的10Gb TOR的成本只相当于同样的1GB TOR商业交换机。目前百度的10Gb TOR交换机能承载超过5000台的服务器,部署在其云计算数据中心里。

能力3:定制机架服务器。百度正在与Facebook合作,促进和优化开源的机架服务器的探索,这也是中国自主设计机架服务器的开源项目。定制的机架式服务器解决了百度许多问题,如传统的主机托管数据中心空间和功率密度的限制,电缆的混乱和部署的效率低下,有助于提高智能化管理和资产精度。在南京的云计算数据中心,百度大规模部署了ARM服务器。据百度说,基于ARM的服务器使数据中心的总拥有成本(TCO)降低了25%,提高存储密度70%。百度已经获得开发基于ARM的服务器的10项专利。ARM服务器的应用,使南京的云计算数据中心能够降低服务器总体拥有成本的10%,业务高峰时运转效率提高近10倍。

如今,百度已经成为中国最具价值的品牌之一,英国《金融时报》将百度列为“中国十大世界级品牌”。目前百度已经面向开发者全面开放了包括云存储、大数据智能和云计算在内的核心云能力,为开发者提供强大的技术运营支持与推广变现保障。作为互联网搜索的入口,百度承载着数亿网民检索需求,满足海量计算的数据中心规模将日益庞大。百度从软件架构、IT设备、数据管理效率等多方面入手,致力于绿色IT建设,将对产业链上下游的参与起到良好的示范和带动作用。

百度大数据 篇7

自从“大数据”被提出来之后,现在似乎人人都在谈大数据,都在说“我们依靠大数据分析实现XX”。大数据似乎成了一个万能模板,任何公司都可以套用。但是真正能做到大数据分析的公司又有几家呢?

这个名为神策数据的“百度系”大数据公司说他们可以做到。神策数据成立于2015年,同年9月产品上线,主要针对互联网创业公司,解决他们的用户行为分析问题。据悉,神策数据已有40多家客户,其中包括美拍、爱鲜蜂、AcFun等。

大数据无疑是未来。在大数据概念未诞生之前,桑文锋就已经在百度干着数据分析的活儿了。他告诉创业邦(微信搜索:ichuangyebang):“那时我们并不叫大数据,而是叫云计算。”

2007年,浙大研究生毕业的桑文锋加入百度,直到2015年才离开。期间他一直在百度围绕着大数据做研发。2008年,他带领团队做了一个基于Hadoop框架的日志统计平台,大大提升了开发效率和运行效率,从而推广到整个公司。2012年的时候,大数据的概念突然就火起来了,这让桑文锋发现自己掌握的技术突然变得更有价值了。

移动互联网的发展导致网上的数据成倍增长,再加上传感器的发展,使数据源的采集成为可能,也为数据的采集提供了多个源头。比如Apple Watch就可以采集用户的运动数据和心率。

人们看中了大数据所带来的变化,但是桑文锋意识到一个问题:数据是变多了,但是数据分析方面的人才依然稀缺,只有BAT这些巨头培养了一批,这块的技术又很复杂,有大数据需求的公司如果想开发一套大数据分析平台系统,起码需要3?5个人做半年以上,并且研发和精力的投入都非常大。

桑文锋告诉创业邦(微信搜索:ichuangyebang):“我想这就是个机会。以我们的积淀,为市场提供一个数据分析工具,来解决大家的需求。”

数据安全的前提是客户的服务器足够安全

“市面上确实有一些很简单易用的分析工具,但是它们也还有一些不足。”桑文锋说。

第一,是数据源方面的不足。一般来说,市面上的一些大数据公司在搜集数据源方面只能通过客户端来收集,但是这样无法采集到服务器和数据库的数据,比如用户的一次点击行为,或者是他订单的运费等信息,数据来源就不够全。

桑文锋告诉创业邦(微信搜索:ichuangyebang):“在百度处理数据的经验告诉我,如果想把数据分析做好,最重要的是保证数据源。要尽量保证数据源的全和细,并且杂乱的数据也需要长时间的整理。”

在这方面,神策数据会派分析师帮助客户对数据进行归类整理,保证数据源的全而细,然后把搜集到的数据放到数据模型中进行分析。

第二,是分析能力方面的不足。“一般来说,它们(指大数据公司)大都提供的是标准的SaaS服务,这也就导致它们只能提供一些宏观基础的统计分析,一些深度的数据分析是做不到的。”比如来自北京的年龄在20~25岁之间的女性用户,最近一个月有10次购买行为,分析她们的客单价情况。

“其中任意因素的排列组合,现在他们做得并不是很好。而我们会帮助客户搭建底层数据库,并提供灵活的多维分析,用户只要把数据接进来就可以达到秒级响应。”

此外,桑文锋还告诉创业邦(微信搜索:ichuangyebang),神策数据是一个“SaaS+PaaS”的结合。客户可以使用已有的基础的SaaS服务,也可以在现有基础上进行DIY设计或者说二次开发,从而对接客户自己的CRM或者做数据挖掘。”

一般来说,神策数据会提供四种基础分析:

1.多维事件分析:分析用户行为中各个维度之间的组合、关系。比如某平台一段时间内成交曲线一直下跌,要分析原因就需要对时间维度进行拆解,如时间、空间、年龄、性别以及支付方式等等。

2.漏斗分析:对于电商、订单相关的产品来说非常重要,因为他们要看不同渠道转化的一些数据,以便实现精准营销。比如,一次购物行为,用户从打开网页到看中商品,到点击商品,到付款,任何一个环节他都有可能离开,这其实就是一个漏斗。而通过逐层分析,可以掌握到不同渠道用户的转化情况。

3.留存分析:分析用户留存某平台的情况,大多数平台肯定都希望用户是回头客。

4.回访分析:其实属于留存的一种特别形式。通过回访分析可以看到用户一段时间内访问的频次,或者访问时间段的情况,其实就是看用户做出某个行为的一些特征。

第三,是数据安全方面的不足。大数据是未来,但也有一个隐患会一直伴随着大数据的发展,那就是安全。如何保证客户的核心数据不被泄露、不被窃取?桑文锋想到一个办法,就是私有化部署。“客户的数据完全在他们自己的服务器上,我们不会拿过来。这样他们就不用担心因为把自己的数据放到第三方平台上而导致数据泄露或者数据被窃取利用。只要你的服务器足够安全,那么就不必担心数据安全性的问题。”

也就是说,神策数据只提供一个分析模型,将其嫁接到用户自己的服务器上,他们自己并不会把用户的数据拿过来。所以,客户数据的安全完全依赖于其自身服务器的安全。

在宣传策略上,用户可以免费体验一段时间神策数据的服务,如果觉得不错,便可以购买。桑文锋每天都会看用户使用神策数据的一些数据分析,比如哪个地方的客户访问量比较多,留存率比较多,那么下一阶段就是针对这些重点客户进行销售了。

上一篇:大学制度下一篇:VB控制WORD