大数据创业样本

2024-06-15

大数据创业样本(共3篇)

大数据创业样本 篇1

1.实施背景

彩信媒体, 俗称“彩信报”, 是基于移动通信技术MMS (Multimedia Messaging Service) 协议, 以手机彩信为介质, 由媒体单位制作内容, 经由移动运营商网络推送至用户手机终端的一种移动端媒体产品。目前, 国内彩信媒体受众体量庞大, 发送快速即时, 内容精炼概括。我国第一份彩信媒体是《中国妇女报》于2004年率先推出的《中国妇女报——彩信版》。在随后的几年中, 彩信媒体的发展呈现出“井喷”之势, 涵盖了新闻、娱乐、体育、财经、旅游、健康、饮食、双语、教育等领域。但近年来随着移动互联网的兴起, 彩信媒体的发展已经遇到了一些较大瓶颈。

1.1内容瓶颈

彩信使用2G时代的技术标准, 单条彩信容量上限为100KB, 只能容纳4-5张相对清晰图片, 因此限制了内容的展现度和丰富性, 无法呈现海量的文字、图片、视频以及动态特效。

1.2交互瓶颈

彩信媒体限于技术标准, 无法实现网络层和传输层的数据交互。用户仅能单向收取信息, 只能通过短信回复进行互动, 无法实现阅读量统计、点赞、评论等互动功能, 也无法增加社交属性。

1.3数据瓶颈

彩信媒体因为没有数据交互, 所以就无法积累用户数据, 空有庞大的用户量, 仅能通过包月扣费获得定额收入, 不能获得更深层次的用户数据溢价。

上海报业集团从2006年就开办了《上海手机报》, 经过近十年的发展, 逐步成长为上海地区规模最大的手机报, 用户规模达到300万。多年来《上海手机报》曾获得新闻出版总署“报业新媒体10强”、“年度最佳作品”等荣誉, 并成为上海市委宣传部、市网信办、市通管局指定的上海市“手机一城一报”项目。集团在手机报的十年耕耘期间, 经历了彩信媒体的起起落落, 也一直在探索彩信媒体的突围之路。2013年, 集团获得了上海市科委专项扶持资金项目课题:面向数字出版的大样本数据监测分析平台关键技术研究和精准推送应用实现 (项目编号:13511507100) , 由此研发了一套基于大样本数据监测分析的彩信媒体精准推送系统。

2.实施目标

基于大样本数据的深度分析和价值挖掘, 早已成为信息技术和媒体领域共同的研究热点。上海电信作为国内领先的通信运营商、《上海手机报》的承运单位之一, 其千万级的用户每天都在产生大量的位置数据和使用行为数据。本系统的目标, 即是通过数据仓库、数据挖掘技术, 将上海电信的海量用户数据转化为《上海手机报》彩信媒体精准推送目标。

因此, 系统基于中国电信上海公司的用户特征数据仓库, 通过监测、分析和筛选用户的基本数据、交互数据和地理位置等信息, 对彩信媒体用户进行聚类分析 (clustering) 和分组标签。然后通过精准化的彩信+链接的推送形式, 将用户引导至手机网站和APP应用, 同时提供新闻阅读和商品销售等各种服务, 进而获取用户交互数据, 持续优化数据模型。最终实现用户流量、互动参与、广告展示和商品销售的大幅提升, 从而突破彩信媒体的内容、交互和数据三大瓶颈。

3.系统实现

整个系统由4个模块构成, 包括:数据仓库和数据挖掘模块、消息推送模块、面向终端用户服务的WEB网站和手机APP应用模块, 以及用户分析模块。

各模块之间的逻辑关系如下图所示:

3.1基于深度数据包截取 (DPI) 的数据仓库和数据挖掘模块

该模块基于中国电信上海公司的移动网络深度数据包截取能力, 对彩信媒体用户的各种网络访问行为 (HTTP GET请求) 进行收集, 并通过抽取/转换/加载规则进行海量存储, 依托开源数据库建立起原始用户访问数据仓库。其次, 模块针对用户访问特征内容在数据仓库中进行分类, 使用数据挖掘能力聚类出特定偏好的用户群体, 形成用户特征描述。这样, 我们就以用户手机号码为基础, 为每位用户建立了标签 (单一用户可建立多个特征描述标签) 。在此基础上, 模块结合云处理能力, 按一定业务模型定时进行数据运算, 不断更新用户特征数据库, 从而提供针对用户特征信息的实时查询能力。

3.2基于用户状态的消息推送模块

彩信报编辑人员根据业务需要, 首先在用户特征数据库内查询到最合适的受众用户群体, 然后利用消息推送模块, 将制作好的内容下发, 以期获得更高的阅读率和较好的效果。消息推送模块不但能发送传统的彩信内容, 而且还集中了多种基于移动互联网的点对点消息推送能力, 包括运营商通道的短信、Wap Push, 以及Android C2DM、i OS Push Notification、Windows Phone Push Notification等。这样, 利用消息推送模块, 我们就可以根据用户的使用习惯以及用户的当前状态 (手机在线状态、客户端在线状态等) , 选择高效率、低成本的推送方式, 最终将消息发送给用户。

3.3基于用户属性和位置识别的个性化WEB网站及手机APP应用模块

WEB网站及手机APP应用模块是最终面向用户的前端产品。我们通过彩信推送, 让用户可以通过彩信链接跳转至web网站或是APP应用中的特定内容页, 从而实现彩信内容与移动互联网产品的无缝对接, 拓展彩信媒体的内容展现形式。此外, 该模块还能够根据数据仓库定义的用户标签, 以及实时获取到的用户位置等属性, 对用户实现个性化的内容展示和推送。同时, 用户在WEB网站或是APP应用上的阅读和社交行为等交互信息, 也将不断输入用户分析模块, 持续优化补充用户特征数据库。

3.4基于上网行为和互动反馈数据的用户分析模块

用户分析模块通过感知彩信媒体用户在WEB网站和手机APP应用上的特定行为, 对用户行为进行匹配描述, 再利用数学模型形成特征标记, 实现基于用户个人信息、搜索历史、个性标签、自我设定等相关信息的分类和整理, 并将分类整理结果输入数据仓库, 从而进一步丰富用户特征信息。该模块重点分析了以下数据:用户在我们WEB网站或是手机APP应用的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数;注册用户和非注册用户之间的浏览习惯差异;用户所使用的搜索引擎、关键词、关联关键词和站内关键字;用户不同入口形式 (广告或者网站入口链接) 的不同效果等。

4.效果和展望

经过多两年的研发, 目前系统已经初步建成, 并正式投入使用。

从实际使用过程中可以看到, 系统的使用效果基本达到了设计目标, 业务收益显著。以2015年阳澄湖大闸蟹券的销售为例。我们首先制作了一份精美的阳澄湖大闸蟹券广告彩信专刊, 并内附有网站销售链接, 用户可以直接进行在线购买。接下来, 一方面, 我们随机推送了240万普通用户。另一方面, 我们通过系统在《上海手机报》80万上海电信彩信媒体用户中, 选取了77055名带有“美食”标签的用户进行推送。反馈情况表明, 这次推送增刊起到了良好的广告效果。在240万的普通用户投放中, 广告费用7.2万元, 总计获得订单135份, 收入10.5万元, 投入产出比为1.46。而在精准推送的77055个目标用户中, 产生的订单就有165单, 推送费用0.23万元, 收入12.8万元, 投入产出比为55.65。

今后, 我们还将继续深入使用和推广该系统, 进一步提升上海手机报的用户体验和商业经营, 并通过用户数据的不断积累, 持续提升推送的精准性。与此同时, 我们还将利用该系统, 改善传统媒体无法针对用户需求进行内容定制的缺陷, 通过精准化的内容推送, 充分发挥移动阅读优势, 坚持正确舆论导向, 唱响主旋律, 打好主动仗, 宣传科学理论, 传播先进文化, 塑造美好心灵, 弘扬社会正气。

摘要:彩信媒体, 俗称“彩信报”, 是基于移动通信技术MMS (Multimedia Messaging Service) 协议, 以手机彩信为介质, 由媒体单位制作内容, 经由移动运营商网络推送至用户手机终端的一种移动端媒体产品。

关键词:彩信媒体,数据检测,推送

大数据创业样本 篇2

这番话可以说是对女性工作能力的极大肯定。前段时间,阿里巴巴集团特别发布了一份《女性创业社会责任大数据》,对外展示平台上女性群体创业的亮眼成绩。

这是一种最好的致敬,也是互联网时代下女性群体独立自主的精准画像。

据数据显示,阿里巴巴平台上的女性创业者占到创业总人数的49.25% ,可以说是真正的“妇女顶起了半边天”。

超过一半的女性创业者都是23岁到33岁的青年群体,不过这其中也有不少已到退休年龄的“妈妈们”,依然在坚持创业,实现自身的价值。

从报告中可以看到,阿里巴巴平台上年龄高达55岁以上女性店主,已经超过100万,难怪不少网友喊话亲妈的收入比自己高多了。

这些阿姨辈的女性创业者们,可以说是退休不退潮的杰出代表。就拿女赛车手党非来讲,尽管年纪已经不再年轻,可是一般年轻人也没她酷,将爱好当作事业坚持到底。现在作为天猫汽车改装类目的商家,党非做得可是有声有色。

以前在汽车改装领域,对女性有着一定的歧视,而通过互联网党非更好地展现了自身的能力和价值。正如她所言,通过天猫汽车来找她改车的人,不会在意她的性别,能够真正地凭借技术获得尊重。

党非只是阿里巴巴平台上上百万“妈妈级”创业者中的一员,还有诸如坐拥35万粉丝的60后妈妈级主播白露丹丰等女性,即便已经到了知天命的年纪,依然在继续为自己的事业和梦想而奋斗。

大数据创业样本 篇3

针对大城市道路交通日趋拥挤的状况,智能交通系统(intelligent transport system,ITS)已成为交通领域研究的热点之一。浮动车数据(floating car data, FCD)作为1种新兴的交通信息获取方式,已成为ITS中采集道路交通信息的重要技术手段之一[1]。

路段平均速度是衡量道路交通系统运行状况的重要参数之一,因此路段的平均速度估计是智能交通系统的重要理论问题之一[2],浮动车技术在这方面有其突出的优势。浮动车技术将汽车作为平台,通过安装全球定位(global positioning system,GPS)装置和通信模块,在车辆运行期间定时通过无线通信方式向信息中心发送车辆的位置、速度、行驶方向、时间等GPS数据。与固定位置检测方式(如检测线圈、雷达测速仪、视频识别等)相比,浮动车是1种新型道路交通检测方式,具有不受天气条件影响、采集的范围可达整个城市路网、投资少、环境破坏小、检测效率高等特点,还具有良好的扩展性和经济性。带有GPS定位装置的浮动车可以获得其随车流行驶的动态信息,包括:经度、纬度、定位时刻的瞬时速度、方向等,这些数据包含车辆位置分布和速度变化信息。美国ADVANCE系统研究表明,在对交通参数进行估计时,采用GPS浮动车技术可提供比环形线圈更精确的行程时间估计,在50 000个检测报告中,99.4%是可靠的[3]。国内也有学者研究表明:FCD与车牌识别检测结果1 h平均速度误差在10%以内[4],浮动车数据的路网覆盖强度和覆盖率在1 d中具有持久而稳定的高峰时段,高等级道路在各个时段总是具有更高的覆盖强度和覆盖率,根据浮动车数据计算的路段行程车速与人工实测数据吻合较好[5]。国内外研究表明,基于浮动车数据获取路段行驶速度可行,结果可靠。

目前基于小样本的FCD研究比较多,如城市浮动车的最小覆盖率,FCD的准确性与可靠性[4],跨路段FCD的路径与车流速度估计[6],已取得了一些较好的研究成果。本文主要研究大样本FCD的处理,并针对武汉市道路行驶速度进行分析。

1 基于大样本FCD的路段行驶速度估计

在大样本FCD条件下,行程时间样本均值、样本方差是路段平均行程时间总体均值和方差的无偏估计。总体车流的路段平均行程时间可采用行程时间样本均值和方差以一定的置信区间表示。理论上可证明:大样本FCD的样本均值是对总体车流的路段平均行程时间的无偏估计。采用实际FCD对路段进行平均行程时间估计,并与采用线圈数据估计的结果进行了对比,说明利用FCD估计的路段平均行程时间的方法能够用于交通状态估计、交通控制和交通诱导中[7]。

采用的武汉市浮动车数据有以下信息:车辆ID、GPS数据采集时间、经度、纬度、速度、车头方向以及车辆状态等信息。武汉市有约1万辆装有GPS和GPRS的出租车,每辆车每隔40 s向信息中心发送1次数据,每天就有约1 400万个FCD。本文采用的道路地图数据是基于弧段数据结构表示的车辆道路导航电子地图,1条弧段对应1条路段,几何数据结构由起始点、若干线段和终结点构成,即起始点—线段1—线段2—……—线段n—终结点。起始点和终结点一般为道路交叉口。

1.1 FCD的道路匹配

要想利用浮动车数据获取路段行驶速度,首先必须把浮动车数据匹配到正确的路段上,即根据浮动车GPS数据中的平面坐标——经度、纬度和其他信息,如车头方向等,在道路地图中找到相应的路段,作为浮动车行驶的路段,这就是浮动车数据的地图匹配。浮动车数据的地图道路匹配一般都采用最近投影距离判断方法,即从浮动车的平面位置向道路网中所有的路段中的线段作投影,找到投影点在线段内并且投影距离最短的路段作为浮动车的行驶路段。由于GPS数据有5~15 m的误差,并且道路数据与浮动车数据在地理坐标上存在有系统偏差,因此采用最近投影距离进行道路匹配方法会出现2个明显的问题,即在十字路口附近以及对于双线表示的道路很容易出现错误匹配,如图1(a)、(b)所示。对此,可先计算出每条路段中每条线段的方向,再采用1种基于浮动车车头方向与道路线段方向约束的最近投影距离匹配算法,将浮动车GPS数据准确匹配到道路上。

=min(L+αA)Κ(1)

式中:L为浮动车地理坐标到路段中某一线段投影距离,且L<Lmax;A为浮动车车头方向与道路方向的夹角,且A<KA;α为夹角的权重系数;KA为夹角阈值;Lmax为位置误差阈值;K为匹配阈值。

Κ=Lmax+αΚA(2)

由于少数FCD存在粗大误差,地图道路数据滞后以及不够详细的原因,不是所有的FCD都能匹配到道路上。所以,为保证FCD道路匹配的可靠性,设定了匹配阈值K,其值取决于Lmax、αKA。浮动车的GPS瞬时定位精度在约18 m[8],考虑道路宽度和地图精度,设定最大投影距离误差阈值Lmax为30 m;夹角阈值KA是对车头方向与道路方向设定的约束,考虑浮动车在交叉路口、环形路口和立交桥等复杂路段行驶情况和浮动车变道,KA的取值为60°,以保证FCD道路匹配的可靠性;α的取值是为了协调FCD的道路投影距离和角度偏差的权重关系,本文中α取值为0.5,使这两者的权重相同。因此由式(2)可以得到K= 60。

图1(c)为没有采用方向约束的地图匹配结果,图1(d)为了采用方向约束的地图匹配的结果,分析表明采用方向约束的匹配保证浮动车车头方向与道路方向一致性,匹配结果更加准确。

1.2大样本浮动车平均瞬时速度与路段车辆平均行驶速度

路段平均行驶速度是道路交通流最重要的参数,但对跨路段的浮动车数据计算路段平均行驶速度比较复杂。武汉市出租车一般每40 s发送1次数据,按车速6~20 m/s计算,浮动车每发送2次GPS数据间的行驶距离为240~800 m。本文对武汉市主城区道路路段长度数据进行了统计,图2给出了统计结果。统计表明平均路段长度仅为151 m,小于100 m的路段数量占总路段数的46.3%,小于200 m的占74.7%,即大多数浮动车在GPS数据时间段内要行驶通过2~6个路段。

目前跨多个路段的FCD路径重建问题还没有完全解决,特别是FCD出现错误的道路匹配时会出现错误的结果。目前一般采用最短路径法,但一般出租车司机靠经验行驶,行驶路线不一定是最短路径,即使启止点相同,不同的司机,不同的时段,出租车的行驶路径也会不尽相同;而且多个没有数据的路段只能采用平均速度,这使得即使FCD道路匹配完全正确,基于最短路径重建的路段行驶速度计算结果也不完全可靠。此外跨多个路段时,计算路段平均速度算法的搜索量大,计算比较复杂、耗时。对于武汉市约1万辆GPS出租车,1 d约1 400万条数据在处理时间上也不能满足要求。而路段平均瞬时速度计算只需要FCD道路匹配后,进行统计计算就可以快速得出,不需要100%的FCD道路匹配准确性。因此为了快速、全面地得到城市全部路段的行驶速度,拟采用大样本的浮动车平均瞬时速度来代替路段平均行驶速度,下面对这种方法的可行性进行验证。

采用武汉长江二桥及延长路段(共3个连续路段)作为验证路段,选取的这段路长约2 950 m,基本为直线,不存在多路径问题。取该路段上2008年12月28日(星期天)全天的浮动车数据,分别计算了武昌—汉口和汉口—武昌2个方向的路段平均行驶速度与平均瞬时速度,每个方向的FCD量超过50万个。结果表明大样本浮动车的路段平均行驶速度与平均瞬时速度是相符的,2种速度差的中误差为1.0~1.1 km/h。速度变化较大的汉口—武昌方向平均行驶速度与平均瞬时速度在这1 d中随时间变化的曲线如图3所示。从图中可以看出即使在速度变化很大的情况时,2种速度的变化趋势是完全一致的,数值是相符的,因此本文采用大样本的浮动车平均瞬时速度代替路段平均行驶速度。

2 武汉市主城区交通流情况分析

图4为了武汉市主城区道路。根据研究需要和地图中道路的属性信息,将其分为4个等级:

选取的环形道路由长江大桥、鹦鹉大道、江汉一桥、武胜路、解放大道、黄浦大街、长江二桥、徐东大街、中北路、中南路和武珞路组成。

首先将2008年12月28日全部的浮动车数据按基于浮动车车头方向与道路方向约束的最近投影距离匹配算法进行FCD的道路匹配,再计算大样本FCD的平均瞬时速度表示路段行驶速度,5 min为1个采样时间段,对道路行驶速度进行了统计和分析。图5表示了城区主干道与全部道路的路段速度。

从图中可以看出主干道的行驶速度与全路网的行驶速度变化趋势是一致的,但速度明显地快。其中04:00左右行驶速度最快,05:30~10:30行驶速度呈逐渐下降趋势,12:00~13:00(午餐时间)行驶速度有所回升,15:00左右行驶速度最慢,18:30后行驶速度又逐渐变快。

图6表示了图4中的环形道路1 d中双向行驶速度随时间变化情况,该路段包括了汉口、武昌的商业中心和商务中心。从图中可以看出该环形路行驶速度变化规律与主干道行驶速度变化规律是基本一致的,但速度要快;环形路双向行驶速度不仅变化规律一致,而且数值也基本一致,但在15:00~19:30道路顺时针方向行驶速度明显比逆时针方向要慢一些。

武汉长江大桥(武昌—汉阳)和长江二桥(汉口—武昌)是武汉市市区道路交通的咽喉,在武汉市的道路交通网中占有举足轻重的地位。图7显示了这2座大桥在2008年12月28日全天路段速度变化的情况,从图7中可以看出桥上行驶速度的变化规律与全市路网和环形道路的变化规律是基本一致的,总体上行驶速度比环形路的还要快一些,在这一天中最快速度超过了60 km/h,大部分时间段的行驶速度都超过了36 km/h,但武昌—汉阳方向(大桥),汉口—武昌方向(二桥)以及汉阳—武昌方向(大桥)分别出现了3次、2次和1次明显的行驶速度缓慢现象。

3 结束语

本文采用基于浮动车车头方向与道路方向约束的最近投影距离匹配算法进行FCD的道路匹配,提出了用大样本FCD平均瞬时速度来估计整个城市路段行驶速度,并通过试验初步验证了其可靠性;在此基础上,采用了武汉市约1万辆GPS出租车1 d约1 400万个FCD数据,按时间段计算出武汉市城区所有道路,主干道,具有代表性的一个环形道路,以及武汉长江大桥和二桥的道路行驶速度,并进行了分析,研究成果对武汉市城区道路交通管理、建设具有一定的参考意义。

参考文献

[1]吕卫锋,诸彤宇.给中国增一个骄傲———解析基于浮动车的动态交通信息服务系统[J].中国交通信息产业,2007(8):136-137

[2]杨兆升.关于智能运输系统的关键理论———综合路段行程时间预测的研究[J].交通运输工程学报,2001(1):65-67

[3]Boyce D,Kirson A,Schofer J.Design and i mple-mentation of ADVANCE[C].Proc:Third Interna-tional Conference on Vehicle Navigation and Infor-mation Systems,1993,IEEE:415-426

[4]朱丽云,温慧敏,孙建平.北京市浮动车交通状况信息实时计算系统[J].城市交通,2008,6(1):77-80

[5]辛飞飞,陈小鸿,林航飞.浮动车数据路网时空分布特征研究[J].中国公路学报,2008,21(4):105-110

[6]殷伟,郭?,方廷健,等.一种基于FCD的城市道路车流速度估计算法[J].中国科学技术大学学报,2008,38(9):1 113-1 117

[7]张和生,张毅,温慧敏,等.利用GPS数据估计路段的平均行程时间[J].吉林大学学报:工学版,2007,37(3):533-537

上一篇:专业综合项目下一篇:在校贫困大学生论文