微博数据采集

2024-06-26

微博数据采集(精选9篇)

微博数据采集 篇1

0引言

随着互联网的发展, 以微博、SNS、微信等社交网络平台为代表的典型应用, 在网友的日常生活中越来越重要。 这些平台以社交网络为基础, 组织各类文本、图像、声音、 视频信息。伴随着便携移动终端的普及和无线网络的广泛布局, 微博在近两年发展势头迅猛, 微博平台创造了海量信息资源, 而微博平台的信息组织展现出新的模式、方法和规律。

1微博的特点

1.1微博对用户的作用

微博作为松散、开放式社交网络支撑下的媒体平台, 它是用户、信息内容和资源的集合体, 使其成为理想的信息交流平台。从满足用户需求的角度看, 微博平台的功能体现在如下方面:1与朋友和同事保持联系。关注他人, 通过评论微博、转发微博、私信等方式保持联系;2使自己的信息被知晓。发布个人信息, 自己的粉丝就可以马上获知;3根据兴趣和职业, 获取有用信息。通过微博寻找新闻线索、潜在的科学问题和用户需求等;4寻求帮助和建议。类似于问答平台, 通过微博发布问题, 获得粉丝的帮助;5减压。浏览适当的信息内容, 放松身心, 减轻压力。

除了个人用户外, 机构也是微博的用户, 包括公司、报社、政府部门等, 这些机构通过微博公开信息、征求意见、 推广品牌、促销产品。因此, 微博也是机构信息发布和互动的重要平台, 我们将微博用户统称为“主体” (Agent) , 以囊括个人用户和机构用户。

1.2微博的基本特征

微博与博客、BBS、SNS、即时通讯等都具有相关性, 同时也有明显的不同。从主体的信息行为上看, 其典型的特征包括:1主体发布信息。通过多种设备访问, 个人用户和机构用户可以方便地发布短小的信息内容;2实时更新, 现场直播。移动便携终端的普及, 信息可以实时更新, 具有现场直播的功能。

从信息传播的角度来看, 它具备如下特征:1同步异步发布。微博是异步沟通工具, 通过消息 (评论、私信) 的推送又能实现同步效果;2广播。微博条目是自己所见、 所闻、所感的记录, 每条微博都会广播给所有粉丝;3内嵌在社会网络之上。用户彼此关注形成社会网络, 信息沿着社会网络的结构进行传播。

从信息格式及技术方案看, 微博具备如下特征:1格式简洁。微博限制长度在140字, 易于通过移动便携终端发布和阅读, 降低了使用成本;2移动阅读, 随时随地阅读。通过智能移动终端的应用接口, 不受时空限制地使用;3基于微博用户的RSS种子。主体的微博被关注后, 就类似于RSS种子向粉丝推送信息。

1.3微博的本质特征

上述基本特征除了微博具备外, 许多其它信息平台也具备。与之相比, 微博独具的特征如下:1与即时通讯相比, 微博更开放, 用户间易于彼此关注。而即时通讯以信息交流为目的, 私密性强, 社会网络结构具有小圈子特性和排他性;2与博客相比, 二者内嵌于社会网络上, 都以发布信息为目标, 但从信息发布的多样性、方便性和社会网络的核心地位上看, 微博更胜一筹;3与SNS相比, SNS在社交网络关系上更倾向于熟人网络, 网络结构也具有一定的排他性, 微博的公开性导致的信息传播性和新闻性更强, 使之成为重要的新闻传播平台。

综上所述, 微博区别于其它类似平台的本质特征是: 1开放性。任何用户可以关注任何用户的微博数据, 任何用户可以转发任何用户的微博数据。开放性强促进了信息传播与信息交流;2信息格式短小, 方便发布和阅读。由于开放性和发布阅读方便性, 使用户将其作为记录个人生活、记录机构行为的工具, 相比其它媒体, 信息内容多样化, 如:个人所见所闻所感、机构公开信息、媒体信息发布等等, 都能在微博上找到;3以社会网络为核心构架。微博通过粉丝方式, 激励用户维系其社会关系网络并保证主体微博的受关注度, 也因为社会网络的结构, 导致信息的转发、订阅能够利用社会网络的特性, 广泛传播。

2面向信息事件的微博数据组织

微博作为信息发布、主体交流的平台, 其信息组织不仅涉及信息本身, 还涉及信息主体及其构成的社会网络, 而信息的产生和网络的构建都是在一系列信息事件基础之上完成的。因此微博数据组织在微观层面需要解决微博平台的信息事件记录方式和模型中不同实体的表达方式。

2.1微博数据是各类事件的记录

用户在微博平台中的行为会产生一系列信息事件, 这些事件构成了微博数据事件集合, 以事件为基础可对微博平台的各类信息进行有效组织。信息事件包括如下组成部分:事件主体、事件类型、事件发生时间、发生地点、信息单元内容、关联资源。

1事件主体:信息事件的执行者和参与者;2事件类型:根据不同信息行为对应的类型, 类型不同, 事件的描述方式不同;3事件发生时间:信息行为发生的时间;4发生地点:事件发生的具体地点;5信息单元内容:每个主体发布的信息内容, 对应用户发布的每条微博;6关联资源:微博数据单元中引用的各类资源总称。

2.2不同层次的信息事件组织

事件类型与表1中每层的信息行为相对应, 可被微博平台记录的信息事件包括:

(1) 社会网络层事件:1关注他人:主体1、主体2、时间、地点;2加入群组:主体、群组、时间、地点;3邀请好友:主体、好友列表、时间、地点;4推荐好友:主体1、主体2、好友列表、时间、地点。

(2) 信息单元层事件:1发布微博:主体、时间、地点、 信息单元、资源列表;2转发微博:主体、时间、地点、信息单元[转发微博]、参考信息单元;3评论微博:主体、时间、 地点、信息单元[评论微博]、参考信息单元、资源列表;4回复评论:主体、时间、地点、信息单元、参考信息单元[评论微博]、资源列表;5发布投票:主体、时间、地点、信息单元、投票单元、资源列表;6私信交流:主体1、主体2、时间、地点、信息单元、资源列表。

(3) 资源层事件:1上传资源:主体、时间、地点、资源列表;2标注资源:主体、时间、地点、资源ID、资源描述单元。

2.3信息事件中的核心实体

通过对信息事件的描述, 可以从中抽取出核心实体, 并为实体添加属性信息描述。

(1) 主体 (Agent) :主体是信息事件的执行者和参与者, 作为实体, 其具备分类体系, 同时具备相应的属性信息。在用户注册时, 会初始化这些属性信息。主体具备的信息包括:

[Agent分类, Agent属性标注 (职业、兴趣标签、年龄……) ]

(2) 群组 (Group) :群组是由某个主体创建的用户组, 它由多个主体构成, 按照兴趣、行业等标准进行分类, 具备分类体系, 同时具备群组标题、兴趣等信息。群组具备的信息包括:

[Group分类, Group属性标注 (标题, 群主, 管理员列表, 群简介……) ]

(3) 信息单元 (Information Unit, IU) :信息单元是用户发布的微博, 可以根据微博发布目的予以分类 (如:转发微博、评论微博、原创微博) , 也可按照微博内容的主题进行分类。信息单元具备的信息包括:

[IU分类, IU属性标注 (转发数, 评论数, 收藏数, ……) ]

(4) 资源 (Resource) :资源是信息单元的基础, 信息单元是对资源的集成, 资源可按照媒体形式分类, 也可按照资源内容主题分类, 而每个资源都可以采用通用的元数据标准 (如DC元数据) 加以标注, 其具备的信息包括:

[资源分类, 资源属性标注 (链接、主题标签、资源拥有者、创建日期、语种……) ]

2.4语义网络构建

在语义网络层, 包含主体、信息单元、资源之外的其它类型的实体, 如机构、公司、会议、比赛等, 这些语义实体多种多样, 涉及领域知识。社会网络层、信息单元层、资源层的信息行为将生成大量事件记录, 通过这些记录以及相关的信息单元和资源, 利用内容分析、语义对象提取、语义关联提取算法和工具, 可以构造语义网络, 实现语义检索、语义组织和语义推理, 使微博数据资源的利用上升到语义层面。语义网络层以前三层为基础, 通过语义实体识别和关系抽取算法, 并辅以群体协作的方式, 通过群体智能实现语义网络的构建。

3微博数据组织核心维度

在微博平台中, 根据上述层次模型和事件模型, 选择核心实体的重要属性作为微博数据组织的核心维度。这些维度包括:时间维、地点维、类目标签维、主题标引维、社交网络属性维、资源网络属性维、信息单元网络属性维、语义网络属性维等, 如表1所示。

4微博平台信息组织发展趋势

微博成为日益重要的信息平台, 其信息组织的方式和方法也围绕微博平台功能升级和微博用户的高层需求不断发展, 从信息组织的目的上看, 它的发展趋势如下:

4.1地理信息可视化与分析

地理信息的使用日益广泛, 微博与移动平台的整合使地理信息的采集变得方便, 微博数据组织也应朝着地理信息可视化、分析、挖掘与利用的方向演进, 并催生一系列基于地理信息的应用。

4.2语义提取与挖掘

随着第三代互联网语义网 (Semantic Web) 的发展, 各类信息资源的组织和应用也将朝着这个方向演进。微博平台的信息组织也需要采用相关的语义内容表达、存储规范和标准, 使其能在语义层面上得到有效组织。

4.3信息空间可视化表达

随着可视化技术的广泛应用, 微博数据空间也将朝着可视化方向发展。为用户提供更易识别和理解的信息界面, 同时有效地展示网络结构的信息和树状结构的信息。

4.4网络分析

复杂网络研究引领了各个领域的研究热潮。微博平台的社会关系网络和信息单元网络都属于复杂网络的范畴。充分利用已有的复杂网络和社会关系网络的研究成果, 进行网络分析, 提取合适的序性指标和分类指标, 是微博数据资源利用发展的趋势。可进行的网络分析包括:社会网络分析、语义网络分析、资源网络分析、信息单元网络分析等。

摘要:分析了微博平台的特点, 描述了基于事件的微博数据记录与组织方式, 界定了微博平台的核心信息行为、信息事件及信息实体, 并对各类实体信息组织中所需要的核心维度进行了定义。从微博数据空间导航和信息单元展示的角度探讨了微博平台人机交互接口, 最后提出了微博数据组织的发展趋势。

关键词:组织模型,数据组织,微博

参考文献

[1]陆伟, 魏泉, 寇广增.基于Blog的网络信息组织[J].情报科学, 2005 (2) :260-263.

[2]王树义, 王鑫.基于微博客Twitter的企业竞争情报搜集[J].情报学报, 2010 (3) :522-545.

[3]曹平.微博客的信息组织建设及对图书馆的启示[J].甘肃科技, 2011 (12) :89-91.

[4]余波.微博的情报学意义探讨[J].图书情报工作, 2010, 54 (22) :57-60.

微博数据采集 篇2

今天湖南网站托管-中网管家要谈的话题也跟数据分析有关,而平台从网站换成了微博。都知道微博至今还在快速发展,许多企业和个人都发现了微博这个崭新的平台在推广自己的产品或者网站上是可以大作文章的,于是微博营销的概念应运而生。

粉丝数量、转发数、评论数

不要妄图量变引起质变,对一个微博来说,僵尸粉基本没有意义。即便你有10万粉丝,又能如何。没有转发、没有评论的粉丝是没有生命力的。我想刷过粉丝的朋友都知道,你只需要花上10元,就能有几千甚至一万的粉丝,然而这并不值得去做。只有鲜活的生命操作着电脑、手机的粉丝才有可能转发、评论并持续关注你的微博。当然,市面上已经有不少软件能实现更换头像、关注、转发、评论等模拟人工操作。但没有好的营销思路,光靠一个软件是行不通的。

传播深度与关键传播点

一条优秀的吸引人的微博,转发数量是惊人的。如果我们想将数据分析得更加专业一些,那二次转发、三次转发等都要在监测范围内。在监测过程中,我们会发现当某位粉丝转发你的微博后,产生的二次转发远超平均值,我想你一定会去看这个粉丝的微博的。为什么转发到他这里,二次转发的人多了起来。是他微博的影响力,还是转发时的技巧,这些都值得你去了解并分析。

粉丝特质分析

粉丝特质分析可以有该粉丝的粉丝数、关注数、发微博次数、转发次数等基本内容,这些特质只能分析得到最基本的粉丝信息。好在微博是个功能强大的社交化平台,我们除了这些显而易见的数据,还可以得到更多的信息,比如,性别、爱好、所在地区、关注内容等等,能有效帮助你获取你粉丝中的性别比例、地域分布、兴趣爱好等关键信息。再进一步,从已得到的粉丝数据中,你完全可以挖掘你的潜在粉丝,因为你已经知道喜欢你微博的是男还是女,喜欢你微博的人分布在哪儿,喜欢你微博的人同时又在喜欢什么。这些无疑都将成为你发展粉丝过程中宝贵的信息。

除了以上几点,微博的数据分析还可以着眼于自身人脉、粉丝人脉、粉丝影响力等诸多方面。对微博进行更加细致的数据分析,不仅可以更好地发展自身微博,亦可进一步拓展微博营销。

微博数据采集 篇3

关键词:电子商务;大数据;挖掘

1 引言

电子商务已经成为中国战略性新兴产业中的一个重要组成部分,代表了全球信息经济的发展趋势。随着电子商务的发展,出现了基本问题,如支付和分配,双方的信任和声誉,这些已成为了电子商务和电子服务发展的瓶颈。在虚拟市场中,信任的缺失、信任危机和信任状况的恶化等问题越来越严重。

Web2.0技术的应用和发展为表达自己的欲望和感情的用户提供了丰富的渠道和方式。各种各样的人通过网络、网站、博客、微博、微信等发表评价商品,产品和服务的意见。特别是,微博和微信在电子商务的应用领域中,提供了一种人们可以表达各种物品的感情,业务和服务渠道。这种用户评价和微博客评论已成为一种形式,所有的用户都可以发布、关注、评价、评论和分享信息。用户微博客的信息和数据和电子商务的意见和评价不仅包括结构化、半结构化和非结构化的数据,还包括文本、链接、图片、音频和视频内容,电子商务发展迅猛。信息和数据的快速膨胀。通过数天和数月的时间逐渐形成了大量的数据,大容量和复杂的结构,还有各种类型的大数据。

2 微博和微信

微博起源于新浪媒体,是一个社会媒体平台,微信是一个社交平台。吴军先生在《浪潮之顶》中提到的企业基因,认为新浪是一个网络媒体,而腾讯是社交软件和聊天工具,所以它也决定了两种产品的方向。微博客是社会媒体的核心,还具有社会功能;社交工具的本质,还有一些媒体的功能。微博作为一种媒体工具,关系主要建立在兴趣上,关系质量薄弱,更多的是单向传播,更多的是注重传播速度和内容的公开,这些信息很快就能在微博上传播。微信是一个社交工具,是在社会关系的恢复,关系主要在社交上,关系质量强大,更多的是双向的关系,关注的是私人之间的交换和互动内容,信息传播的速度不是很快,但观众的消化率很高。

举一个例子,同样的内容,在微信上的评论和回复要比在微博多很多,一个可见的关系,在你的生活中有很多的关系,微博客是单向的或更多一些的人之间的关系,看到和接受的信息,是不愿意花时间复习和反馈的,因为是一个单向的关系。

微博和微信这两种产品的优劣长短,在核心业务上没有直接的冲突。就像在互联网时代之前,你也得看电视,或者打个电话。微博要做的是媒体,主要是卖广告;社会和销售增值服务平台。虽然微博也有很多做平台的行动:微博支付等等,但是,更多的是有关媒体的。吴军的企业基因决定论中,认为新浪的基因是深的,而腾讯的基因则更纯,在未来联想微信产品方面有更多的空间。

3大数据关联规则挖掘

关联规则挖掘的过程主要包括两个阶段:第一阶段必须从数据集合中找出所有的高频项目组,第二阶段是从这些高频项目组中生成关联规则。关联规则挖掘的第一阶段必须从原始数据集中找出所有的高频项目。高频意味着一个项目组的频率相对于所有的记录必须在一定的水平。

关联规则挖掘的第二阶段是生成关联规则。从高频项目组产生关联规则,将产生高频率的项目的规则,在最小置信度阈值的条件下,所得到的规律和最小的可靠性就是关联规则。

首先,我们必须设置最小支持度和最小信任度两个阈值。因此,满足超市的要求的关联规则将在同一时间满足上述两个条件。如果在挖掘过程中发现的关联规则符合下列条件,可接受生成关联规则。

1 Apriori算法

Apriori算法是一种最具影响力的挖掘布尔关联规则的算法。核心是一个在递归算法的基础上的两个阶段的频率集理论。关联规则属于一维,一层,布尔关联规则。在此,所有的支持度都大于最小支持度。

该算法的基本思想是找出所有的频率集,就是相同的最小支持度。然后,通过频率集,产生关联规则,它必须满足最小支持度和最小置信度。然后,第一步是用找到所需的规则所产生的所有规则,其中只包含一组条款,只有一个在这里使用的每一个规则的权利之一。一旦生成这些规则,只有那些大于用户给定的最小信任度的规则被留下。为了生成所有的频率集,使用递归的方法。可能会产生大量的候选集,以及可能需要重复扫描数据库,这是Apriori算法的主要缺点。

2 频集算法

虽然Apriori的算法有缺陷,但Han J.提出了不产生候选频繁项集挖掘的方法:FP树算法采用分而治之的策略,在首次扫描数据库时,将频率集压缩成一个FP树(树),与他们相关的信息分化为条件FP树库,再将每个库的频率设定到长度为1。条件为开采基地,当原始数据量大时,也可以结合划分的方法,使FP-tree可以放入内存。实验表明,和Apriori算法进行比较,FP增长有不同长度的规则,适应性好,具有良好的效率。

3.划分算法

划分算法是一个基于分区的算法。该算法首先将数据库逻辑上划分为几个不相交的块,每个块单独考虑它生成所有的频繁集,然后将产生的频率集,用于生成所有可能的频率集,最后计算项集。块大小的选择在这里可以使每个块被放入到主存储器中,每个阶段只是一个扫描。并且该算法至少保证在一个块的频率集的正确性。该算法可以是高度并行的,而且每个块可以被分配到一个处理器,然后产生频率集。在生成集的每个周期后,处理器与处理器通信会产生一个全局候选项集。通常通信过程是算法执行时间的主要瓶颈,而另一方面,每个处理器的时间也是一个瓶颈。

4 结束语

在这个大数据时代,如果没有和大数据有一定的相关性,很有可能会被社会淘汰。本文是对电子商务教学以及大量的微博和微信内容,开展了大数据挖掘研究。

参考文献:

[1] 高海建.基于大数据视角的电子商务产业研究[D].首都经济贸易大学,2015.

[2] 韦伟.大数据背景下的微博在高校管理中的作用[J].高教学刊,2015(24):147-148.

[3] 时妍婧,张丽.大数据时代微信营销的创新方式探析[J].电子商务,2015(8):31-32.

[4] 沈志荣.基于大数据的社会化媒体营销研究[D].北京化工大学,2015.

微博数据采集 篇4

一、大数据与电影微博营销

上个世纪80年代, “大数据”这一概念作为互联网行业用语被提出。2011年5月, 全球知名咨询公司麦肯锡称:“数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。”所谓大数据 (Big Data) , 就是一般以T、P甚至是E、Z等为计量单位的大型数据集。IT业界通常将大数据的特征概括为四个“V”:体量 (Volumes) 巨、类别 (Variety) 多、速度 (Velocity) 快、价值 (Value) 大。[1]它的数据来源也相当广泛, 媒体、政府单位、企业、互联网甚至是用户个人都能为其提供巨大的数据信息。

而另一方面, 所谓电影微博营销是指以微博平台为电影实现线上导流创造价值而执行的一种营销方式。毫无疑问, 中国互联网已经全面进入微博时代。从近几年来不少热映电影中, 我们都不难感受到制片机构和宣传发行公司在把微博当做宣传重点这一宣传策略, 如电影《失恋33天》、《致青春》、《中国合伙人》等, 并且这种策略也确实帮助影片取得了很不错的宣传效果和票房回报。成功的微博营销需要在精确受众、互动导流、整体布局方面下足功夫。而在大数据时代下, 强而有力的大数据以其出色的定位、洞察、预测等能力也势必将电影微博营销引入一个更高的台阶。事实上, 在国外, 大数据早已大量地运用于各大电影开发之中, 例如热播影片《纸牌屋》。而在国内《小时代》系列电影的成功, 算是大数据应用到电影策划、推广、营销整个环节并获得成功的首例。

二、大数据精准受众定位

一次成功的营销最难也是最重要的是找到精准的受众, 而在“大数据时代”, 这个问题却能得到及时的解决。在国外, 由视频网站Netflix投资并获得巨大成功的电视剧《纸牌屋》的数据库包含了3, 000万用户的收视选择、400万条评论、300万次主题搜索, 这些数据都被以代码的形式记录下来, 并最终在电视剧的生产过程中发挥了作用。因此想利用大数据进行微博营销, 在电影制作之前就应该有大数据对电影制作的每一个环节进行有力的支撑。乐视在投资《小时代》之前已对同名原著在网络上的点击量、点击用户身份等关键数据进行了调研, 将潜在观众分成了核心圈、第二圈和第三圈, 还对同档期上映的影片以及过去一年消费者对于同类影片的反映都做了细致的数据搜集和分析。[2]采用新媒体大数据分析手段, 对《小时代》的观影人群进行了调查分析。[3]我们可以精确的得到以下数据信息。

通过对91200个相关有效微博用户的分析, 《小时代》的观影人群平均年龄为20.3岁, 女性占到了八成以上, 接近半数还是微博达人。可以说, 这些活跃在微博等新媒体上的年轻的女观众们正是该电影的主要观众群体。而其整个微博营销过程中, 通过“电影小时代”的官方微博发布的系列活动和动态无不一一针对目标受众, 以激起他们以及更多人的观影热情, 实现由导流变导购的转变。

通过前期的大数据调研, 包括以微博指数、百度指数作为大数据重要参考, 我们可以精准地指出微博营销的主要受众群体, 这也就抓住了微博营销最为关键的一链。通过微博营销过程中的大数据分析又可以指导微博营销的走向。而正是有了这些大数据的支撑, 才让各影片宣传单位制定出相关的针对受众的宣传策略, 一经微博发布, 直击受众的活动便取得了巨大的反应效果, 也为之后的高票房奠定了坚实的基础。

三、借力数据再一次掌握信息首发权

在这个自媒体时代, 人人都有话语权, 每个人都能够变成信息的首发者, 这也对官方信息发布的及时性和有效性形成了挑战。对于微博营销更是如此, 网络上信息传播速度极快, 丧失首发权, 就势必会丧失大量关注, 削弱关注度。而在大数据时代, 通过对大数据的整理分析我们可以得出大众关注的焦点, 挖掘出数据之间的相关性, 并在此基础上合理预测出下一个阶段目标受众的关注焦点。在华尔街, 保罗·霍廷通过分析来自全球3.4亿微博留言来判断民众情绪, 秉承“高兴, 买入;焦虑, 抛售”的原则, 利用大数据来决定股票投资。事实证明, 这样的方式为他带来巨大的收益。

对比与电影微博营销, 则可以通过一个话题引发群体讨论, 利用大数据我们可以明白受众讨论的焦点, 并对其关注趋势做出合理预测, 掌握话题的首发权, 再抓住合适契机发布潜在热点信息, 便能获得最广泛的关注, 也势必会引爆另一个话题点, 随着一个个话题点的不断引爆能够使得宣传的效果通过不断地转发与评论得到几何式的放大, 既能增加潜在受众的关注又能增强现有受众的依赖程度。

四、以数据转变微博定位, 整合多渠道资源

在互联网时代, 大数据的功能不仅仅在于数据的整合分析追求一个趋势, 它还能够洞察挖掘出事物间的关联性。例如谷歌公司凭借对人们频繁检索的词条进行监测分析, 及时预测出甲型H1N1流感爆发和传播的态势;沃尔玛基于对海量销售记录的分析发现每年季节性飓风来临前手电筒和蛋挞的销量俱增, 从而决定把蛋挞和飓风用品并置营销。[4]利用大数据, 我们可以知道目标受众喜欢什么样的品牌, 痴迷什么类型的明星和节目, 经常出入什么样的场所等, 这时电影微博营销便不再仅仅局限信息的发布, 而是能够针对粉丝们的喜好特点提供系列的服务信息, 并能够整合粉丝们钟爱的品牌资源, 实现多渠道联合营销。

通过分析电影《小时代》近九万粉丝的关注和微博内容关键词 (如下表/图所示) , [5]我们能够准确得出这群目标粉丝关注的话题、明星、品牌、事物等。该微博也可以与这些品牌、电视节目、明星合作, 电影《小时代》便整合了这些来自微博的大数据, 与多家品牌、院线、节目进行合作推广, 在线下进行导流和导购。

鉴于微博的自媒体性与圈群性, 微博营销不能孤立地进行, 也不能停留在单向交流的形式上。[6]因为, 我们需要不断强化微博营销的互动性, 以受众为出发点和落脚点, 主导服务为王的理念。特别是在大数据时代, 大数据能够对受众心理和行为喜好做出及时而又准确的分析和判定, 也为服务受众制定反馈以及交互活动, 提供了针对性很强的参考性方向。就拿电影《小时代》的官方微博而言, 其在微博营销中除了及时与粉丝互动反馈外, 还做了很多针对目标受众的线上的活动, 比如时代宣言、时代姐妹花、彩蛋模仿等互动活动, 取得了不错的营销效果。

数字化产生了大量关于人类行为的数据, 这些数据十分庞大且复杂, 需要更为专业地收集、分析和运用。在国内, 电影的大数据时代并没有真正地到来, 电影《小时代》作为一部通过大数据而产生的现象级电影通过其出色精准的微博营销也并未使目标受众实现完全地转化为购买力。但不可否认, 在大数据时代, 微博营销依托大数据能够实现更加精准的受众锁定, 更加合理的方向预测, 通过准确分析用户个人的全面、实时的行为偏好和需求, 在有针对性地进行服务的同时把合理策划出的内容更有针对性地传播出去, 展现传播的亲和力、增强受众依赖性。同时还能抢占首发权, 整合多渠道资源, 获得出人意料的效果。

虽然电影微博营销对电影推广的作用不容小觑, 但却绝不能被“神化”。随着受众鉴赏能力的提高, 官方微博的强势宣传攻势对很多人来说并非是煽动性的, 他们往往会通过其他的渠道去了解该影片是否值得花去自己手里的人民币。就拿《中国合伙人》来说, 其微博营销并不是特别成功, 但其高涨的票房还是主要靠观众的口碑, 也就是影片的质量。又如之前的电影《北京遇上西雅图》, 该影片并没有用心微博营销, 而上映之后, 其良好的品质却让很多观众主动地为其宣传, 票房自然也是节节高升。因此, 在把电影做好的基础上再利用大数据进行微博营销, 让优质的影片促使受众自发宣传, 这样带来的好处定会是惊人的, 这也会是电影微博营销的最佳境界。

参考文献

[1] .王平, 何筱媛.大数据时代的机遇与挑战——第二届“新媒体与社会发展”全球论坛暨中英“新媒体与社会发展”双边对话综述[J].新闻记者, 2013 (3) .

[2] .葛进平, 邹立清.电影微博立体营销策略探[J].当代电影, 2012 (2) .

[3] .彭兰.社会化媒体、移动终端、大数据——影响新闻生产的新技术因素[J].新闻界, 2012 (8) .

[4] .官建文, 刘扬, 刘振兴.大数据时代对于传媒业意味着什么?[J].新闻战线, 2013 (2) .

[5] .张鑫.<小时代>票房飘红对大数据时代传播力建设的启示[J].中国记者, 2013 (8) .

基于微博数据的实证研究综述 篇5

一、实证研究的内容

根据国内学者的关键词和词频统计, 2013年微博研究延续了之前的微博舆情、政务微博、意见领袖研究、微博事件研究、微博问政等研究热点, 同时又产生了一些新的研究主题, 如微博用户研究, 微博营销, 微博在企业实践中的应用等。将这些研究主题进行归类后可得到如下微博研究领域。

1. 微博的传播机制与微博舆情

与以往任何一种传统媒体平台不同, 微博的信息传播具有大众化、碎片化、互动性、多方式整合的传播信道、病毒式的传播速度等特点, 使得微博意见领袖已成为推动舆论形成与发展的重要力量, 并已为政府部门的公共关系管理带来了新的挑战。此外, 微博基于社交网络营销的商业化并不理想, 盈利能力有限, 加之来自于竞争对手的冲击导致微博用户量下降, 在2013年表现明显, 目前学者们对于微博盈利模式的探索较为有限。

微博的普及在一定程度上引导了网络公共事件的舆情走势, 微博舆情在近两年来也成为了微博实证研究的一项重要内容。研究内容主要涉及微博舆情的形成与传播、微博舆情的监测、微博舆情的引导等方面。随着微博舆论所引起的负面影响越来越多, 微博舆情的检测和引导的研究日益增多, 但研究深度略显不足, 微博监测指标尚处于理论提出阶段, 缺乏实证研究。

2. 微博用户的研究

微博用户的研究主要包括意见领袖和普通微博用户的研究。从目前意见领袖的相关研究来看, 主要包括意见领袖的识别、意见领袖的角色分析、意见领袖的作用与影响研究。意见领袖的识别多采用指标识别或数据挖掘技术识别;意见领袖的角色分析主要是从角色构成的角度探讨不同角色的明星特征;意见领袖的作用与影响研究是核心, 意见领袖对于网络舆情有正面和负面的影响, 学者们提出加强意见领袖对于网络舆情的监督和引导策略。

而对于微博用户及用户关系的研究, 主要包括基于用户关注兴趣的用户影响力研究、用户行为特征分析、用户信息获取模式及其影响因素等。用户影响力研究以计算机学科为代表, 提出某种算法对微博排名机制进行改善。微博用户行为特征的研究以图情学科的学者居多, 他们往往运用社会网络思想分析微博用户行为, 将研究结果应用在改进微博推荐服务上面。还有些学者提取微博用户的各项基本属性特征, 来研究用户使用微博的行为特征。此外, 微博用户过度使用微博导致的沉溺行为, 以及微博用户话语失范现象也应引起足够的关注。

3. 微博的应用研究

由于微博的传播价值得到了社会的广泛认可, 社会各个领域均纷纷开展微博应用, 微博的应用研究涵盖了社会的政府部门、企业、高校和图书馆等信息高度集中场所。

微博问政、政务微博一直是近两年的研究热点。微博问政是公民参与政治的新途径, 政务微博主要应用在政府信息公开、政府形象塑造及危机管理中。目前政务微博的内容多是单向的信息发布, 缺少与广大网民的信息互动。

微博在企业中的应用包括微博营销、品牌推广、危机公关、人员招聘、竞争情报等方面。微博营销涉及的范围包括认证、有效粉丝、话题、名博、开放平台、整体运营等, 企业利用微博收集用户最真实的反馈信息, 获得最有价值的竞争情报。近年来对于微博在企业搜集竞争情报中的应用取得了丰硕的成果, 主要包括对竞争对手微博界面内已有的所有信息进行搜集和分析, 以及利用微博的社交功能获得竞争情报。与其他类型的微博实证研究相比, 此类研究与实际应用的联系更加紧密, 数据也更加真实, 但由于微博在竞争情报领域的应用尚缺乏分析方法, 对于搜集到的情报信息的多少和更加的细致微观的描述并不多见。

微博在高校和图书馆的应用主要包括高校利用微博更好地完成思想政治教育和管理工作, 利用微博更好地完成图书馆的信息服务, 对于微博在图书馆的应用现状及影响力的定量评价不断增多, 而对于微博服务与高校思政工作的研究以定性描述居多, 内容深度不足。

二、实证研究方法

目前学者们使用较多的微博研究方法有社会网络分析法、统计方法和数据挖掘方法。

1. 社会网络分析方法

社会网络分析方法是由社会学家根据数学方法、图论等发展起来的定量分析方法, 目前许多学者借鉴该方法来对微博等社会化媒体进行实证研究。社会网络分析方法研究的对象是社会整体和社会结构, 而不是个体, 可以对微博的总体特征和用户交互情况进行整体描述, 事实证明在微博中运用社会网络分析方法是可行并且相对成熟的。

目前典型的社会网络分析软件主要有UCINET、Pajek、Gephi。社会网络分析法可以从多个不同角度对社会网络进行分析, 主要测量指标包括中心性分析、密度分析、凝聚子群分析、小团体分析、核心一边缘结构分析, 以及结构对等性分析等, 并对分析结果进行可视化, 为实证研究的展开提供了全新的技术手段。该方法应用于微博, 可以对社区网络分析、核心用户挖掘、微博交流网络特征、微博社区网络交流结构等进行研究。

2. 共词分析方法

共词分析方法属于内容分析方法的一种。共词分析方法主要是通过对一组词两两统计它们共同出现在一篇文献中的现象的分析, 反映出这些词之间的亲疏关系, 从而分析这些词所代表的学科和主题的结构变化。共词分析就是以此为原理, 把众多文献主题词之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。该方法经过20多年的发展, 广泛应用于人工智能、科学计量学、信息科学、信息系统、信息检索等领域。

3. 数据挖掘方法

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程, 简言之就是从海量数据中挖掘有用知识的过程。数据挖掘方法应用于微博, 微博平台既提供了数据挖掘所需的大量随机客观的数据, 又为微博企业提供了数据挖掘出来的重要的竞争情报。

目前对于微博进行数据挖掘的主要方法有关联分析、聚类分析、文本情感倾向性分析等。关联分析方法可用于发现隐藏在微博平台海量数据中的、不易被发现和察觉的关联事件。聚类分析方法可以对微博短文本进行聚类, 按微博文本的不同主题词对微博内容或者用户进行划分, 并以此为基础根据研究目的进行统计分析。也可以通过对文本中的评论对象的情感倾向分析, 可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的。但这些方法的应用是将传统的数据挖掘方法直接移植到微博客中来, 缺乏针对微博的自身特点加以应用。

三、结束语

本文对基于微博数据的实证研究进行了梳理, 从实证内容和实证研究方法两个方面探讨了目前的研究现状, 而实证研究的结果将对微博企业、科研机构、公共服务机构提供有益的信息来源, 帮助它们更好地掌握微博发展的最新动态, 更好地运用微博信息服务于社会。

摘要:对近年基于微博的实证研究进行了梳理, 对实证研究内容和实证研究方法分别进行了阐述, 以期对相关微博信息使用者提供帮助。

参考文献

[1]刘晓娟, 尤斌, 张爱芸.基于微博数据的应用研究综述[J].情报杂志, 2013, (9) .

[2]周金元, 张莎莎, 刘桂锋, 王振.国内微博研究综述[J].情报杂志, 2013, (9) .

[3]金晓玲, 汤振亚, 周中允, 燕京宏.微博客实证研究综述[J].情报杂志, 2013, (10) .

[4]胡泽文, 孙建军, 武夷山.国内知识图谱应用研究综述[J].图书情报工作, 2013, (2) .

[5]郝世博, 朱学芳, 朱光, 李刚.国内外信息可视化研究的比较分析[J].图书情报工作, 2013, (7) .

[6]姜鑫.我国微博研究主题的共词可视化分析[J].现代情报, 2013, (11) .

几种微博数据抓取方法比较研究 篇6

微博 (Micro Blog) , 即微型博客, 是博客的微型化, 允许用户使用最多140字来向外发布消息, 实现即时共享。是一种用户通过加粉丝、加关注等机制分享简短实时信息的广播式的社交网络平台。是随着web2.0技术的出现以及移动互联网络技术的快速发展而出现的新的互联网应用, 目前有着广泛地应用。截至2014年12月, 我国微博客用户规模为2.49亿, 网民使用率为38.4%, 手机微博客用户数为1.71亿, 使用率为30.7%[1]。

微博自产生以来逐渐体现出其强大的影响力, 如2014年上半年的“马航事件”和2014年下半年的“冰桶挑战”凸显了新浪微博作为社交媒体的快速的传播速度、深远的传播范围和积极的社会影响力。伴随着微博应用的推广和影响力的增加, 越来越多的企事业单位、政府部门、社会名人逐步开通了微博。随着参与人数的增加, 微博正逐步成为一个庞大的虚拟社会, 公众所发表的微博信息也已成为重要的网络信息来源, 如何自动化地采集微博上的信息具有重要应用价值, 成为研究热点。

2 微博抓取方法研究

2.1 基于新浪微博API的微博抓取

2014年随着腾讯、网易和搜狐等公司纷纷减少对微博客的投入, 各个微博客服务商之间竞争逐步趋缓, 用户群体主要向新浪微博倾斜, 因此国内的研究一般采用新浪微博数据作为研究数据来源。新浪微博是一个综合性的微博服务平台, 它提供新浪微博开放平台与微博客户端平台两个平台。这两个平台也是目前所有新浪微博数据采集系统的数据源。

新浪微博开放平台开放了包括微博、评论、用户及关系在内的二十余类API接口, 如图1所示。通过OAuth2.0用户授权后即可调用所提供的API接口实现当前登录用户及其所关注用户的最新微博的获取, 用户发布的微博的获取等, 其一般处理过程如图2所示。

使用新浪微博API获取微博方法, 采集到的数据是服务提供商提供的以JSON或XML格式展现的数据, 数据冗余小, 数据结构清晰, 便于分析抽取等优点成为收集微博信息数据的首选方案[2]。但随着新浪微博API调用接口的调整, 使得采用此种方法在获取微博数据的数据量受到更多的限制。具体存在两个缺点:第一, 权限的约束, 对于新浪微博API的普通授权而言, 每个IP的API请求频次限制为10000次/小时, 这使得在采集微博数据时每小时只能采集10000条, 数据量越来越少;第二个缺点是调用API只能采集到以当前用户为节点的数据, 即只能采集到当前用户所发布、关注的微博信息以及当前用户所加关注的人及用户的粉丝关系。由于以上的原因导致使用新浪微博API获取微博时数据不够全面。

2.2 基于网络爬虫与网页解析的微博抓取

此种方法目前也有着广泛的应用, 如康捷[2]提出的基于网络爬虫的网页解析方法, 该种方法以微博客户端为数据源, 采用基于DOM的Web信息解析与提取技术获取网页中包含的微博数据。此种方法的核心在于网页的爬取以及对所爬取的网页的解析和网页内容的提取。由于微博内容的爬取需要登录用户的账号, 因此在使用爬虫程序实现对于指定微博页面的正确抓取时, 需要首先解决爬取程序对于微博网页的模拟登录问题。新浪微博的模拟登录过程, 是向服务器端以一定的格式发送经过Base64编码加密的原始用户名与密码信息, 服务器从http-header里包含的授权信息Authorization中提取字符串并解密后得到原有用户名与密码, 从而实现爬取程序对网页的模拟登录, 其中Base64加密算法是模拟登录过程的关键问题[2]。此外, 基于对页面解析方法的改良, 张春华[3]提出了基于模板驱动的微博Json数据采集方法。

3 系统设计与实现

本文在了解以上微博抓取方法基础上采用基于新浪微博API以及基于网络爬虫和页面解析方法实现了新浪微博采集系统。基于网络爬虫与页面解析方法基于爬取新浪微博搜索平台按关键词检索后的结果页面, 对结果页面进行基于正则表达式的解析, 提取微博句子等内容, 处理流程如图3所示:

系统功能体系结构如图4所示:

系统采集界面如图5所示:在搜索界面中输入关键词, 设置抓取文件的保存目录, 选择用于访问新浪搜索平台的代理IP, 点击“开始爬取”则可以进行新浪微博数据的爬取, 爬取解析后讲结果分别保存至不同类型文件中去。

使用该系统采集的新浪微博数据的TXT格式文本如图6所示, 所采集的微博数据的XML格式如图7所示。

4 结语

本文介绍了新浪微博采集的几种常用方法, 并比较了各自的优缺点, 并实现与对比不同新浪微博采集系统的采集效率, 实验表明, 基于爬虫的爬取方法与基于新浪微博API的方法, 各有优劣, 互补使用效果比较好。

摘要:微博 (Micro Blog) , 即微型博客, 是博客的微型化, 允许用户使用最多140字来向外发布消息, 实现即时共享。web2.0时代微博已成为重要的网络信息来源, 充分利用微博信息对舆情观测、情感倾向分析、热点识别等具有重要意义, 如何快速有效抓取微博数据成为研究热点。本文分析对比了几种微博数据抓取方法并实现了基于代理IP的微博数据抓取方法, 实验测试表明, 该方法能够比较快速有效地采集新浪微博信息。

关键词:新浪微博,信息采集,代理IP,模拟登录API

参考文献

[1]中国互联网络中心:第35次中国互联网络发展情况统计报表[EB/OL]. (2015-0203) .http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/P020150203548852631921.pdf.

[2]康捷.新浪微博数据挖掘方案[J].清华大学学报, 2011, 51 (10) :1301-1304.

基于微博文本和元数据的话题检测 篇7

随着互联网行业的飞速发展,微博的注册用户数量持续升高,微博变得越来越深入大家的日常生活,成为了互联网用户分享生活、联络关系的一个重要平台。最早的微博应用模式来源于2006 年诞生于美国的twitter,随后中国新浪公司在2009 年推出了新浪微博,自此微博正式进入了中文上网人群的视野。随着微博的出现以及爆炸性发展,刷微博逐渐成为了人们获取信息和发表意见的重要方式,从微博中监控舆论也因此成为一种重要的舆论监控方式。

与传统的新闻文本不同,微博的内容简短,长度一般不超过140 字,因此包含的词语数量较少[1]。微博的文风也不像长篇新闻报道那样正式,它的写法随意,语言丰富多彩,行文措辞不规范。微博具有很强的实时性,针对这种特征对微博内容进行处理分析,可以及时检测事件的发生,发现大众观点,从而进行舆论的监控。传统的新闻话题识别[2,3]一般将长文本中的词语视为特征,先利用特征向量来表示文本,再采用一定的聚类算法根据文本向量间的距离对文本进行聚类,然而由于微博的文本简短、词语稀疏、写法随意、发布实时等特点使得传统的聚类或分类方法在微博话题检测方面变得不再适用。

本文仔细分析了微博的特点,提出一种基于微博文本和元数据的话题发现方法,先进行主题词聚类再对微博文本进行二次聚类。首先从词语的角度出发,而不是从整个微博文本比对的角度,使得单条微博中词语稀疏的问题得以解决,同时也使得热点词语的检测变得更加重要。本文在获取微博数据后,采用中科院的ICTCLAS分词库对微博文本进行分词与词性标注,把一个时间段内所有微博包含的词语集合看成一个整体单元,充分结合微博元数据找到该时间段内的TOP-N个热点词语; 然后计算热点词语在微博文本里共同出现的概率,如果两个词语共同出现概率超过一个阈值则可以确定它们之间的语义关系,根据这些关系可以构造出一个N顶点图,由图得到主题词汇簇;最后基于主题词汇簇对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关的微博文本。

1 相关研究

话题检测旨在将输入的报道归入不同的话题簇,本质上等同于无指导的聚类。常用的聚类方法有单通道聚类、凝聚式聚类、层次聚类、增量聚类和K-Means聚类等。CMU的Y. Yang和UMASS的J. Allan等人运用单路径聚类方式实现了话题检测[4; 5]。而CMU的Yiming Yang结合了凝聚式聚类算法与平均聚类算法,使TD系统同时可以用于回顾相关事件[6]。虽然以上算法在特征丰富的传统长文本中取得了不错的效果,但并不适合特征稀疏的短文本类型。随着微博的兴起,针对微博话题检测的研究也越来越多。Changchun Yang等人针对微博的特性使用LSI模型达到降维和去噪的目的[7]。Silong Zhang等人利用LDA来拓展文本特征空间,基于上下文相似度和语义相似度在微博话题检测中取得了不错的效果[8]。上述两种方法都起到了数据降维的作用,并在一定程度上解决了微博特征稀疏的问题,但效果并不明显。之后赖锦辉等人提出了一种消除孤立点的微博热点话题发现方法[9],该方法可以较大程度上提高话题检测的准确性,但文本特征稀疏的问题仍未得到很好的解决。Wenqing Zhao等人不再从微博文本相似度比对的角度出发,而是根据一段时间内词语的变化检测话题,提出了一种基于词共现图的中文微博话题识别方法,从而较好地解决了短文本特征稀疏的问题,更适用于微博的话题检测[10]。之后Suzhi Xue等人对微博话题发现问题引入了二元组的时间序列,提出了基于速度增长的微博热点话题发现方法[11]。微博时间的引入提高了热点话题发现的准确度。Feifei Peng等人则在研究中引入了微博的转发评论量作为热点词语的修正权值,但是他们对微博元数据的考虑还不够充分[12],比如对发布微博者的用户信息的考量。具有不同影响力的用户发布的微博应拥有不同的权值,用户信息的引入将更为有效的提高微博话题检测的准确率。

本文首先从词语的角度出发,与从整个微博文本比对的角度不同,充分利用微博发布时间、用户信息、微博转发评论等元数据来构造描述微博词汇能量的复合权值,找到TOP-N个能量最高的热点词语; 然后基于上下文关系对热点词语构造主题词汇簇; 最后基于主题词汇簇对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关的微博文本。

2 微博话题检测算法

本文采取的基于微博文本和元数据的话题检测算法主要包括以下步骤: 收集数据和数据预处理,结合微博元数据发现热点词语,聚类出主题词汇簇,微博文本二次聚类,聚类效果分析。微博话题检测算法流程图如图1 所示。

2. 1 数据预处理和分词

数据预处理和分词作为微博话题检测的准备工作,有着不可忽视的作用。数据预处理能在一定程度上达到去噪、降维的目的,同时在一定程度上解决了特征稀疏的问题。文本分词效果的好坏则在很大程度上决定着后期的聚类效果。该过程的具体步骤如下:

( 1) 过滤掉互粉人数低于阈值F的用户的微博文本。如果互粉人数过低的一般可以认为是广告账号或者僵尸账号,这些账号所发的微博噪音过大,会对后面的聚类产生干扰,因此提前过滤掉。

( 2) 因为微博文本中常常包含@ 符号,它表示该条微博想让@ 的用户看到。这些用户名可能会对我们后面的分词产生影响,而且用户名并不能表征出微博中所说的话题,因此过滤掉文本中的“@ 用户”。

( 3) 将微博的评论信息和原始微博文本信息进行合并。对一条微博的评论可以看成是对该微博的补充,它们叙说的一般是同一话题。微博与其评论的合并使得文本长度增加,文本包含词语数增多,一定程度上解决了短文本特征稀疏的问题。

( 4) 有不少较为成熟的中文分词算法和工具,本文采用的是中科院的ICTCLAS分词系统的JAVA版本。该工具因分词效果好、使用简单、带有详细词性标注等特点而被广泛应用于科研工作中。通过该分词系统分词后,微博文本转化为一系列的词语,每个词语都带有词性标注,如动词、名词、形容词、副词等等。不同词性的词语对主题表达的贡献程度不同,其中动词和名词具有最高的主题辨识度,因此本文中将主要考虑这两种词性的词语,过滤掉其他词性的词语。

2. 2 热点词检测

我们发现在之前的研究中多采用单纯的词频方式,而忽略了微博所特有的一些元数据,这些元数据包括该条微博的转发量、评论量和微博的用户属性等。一个拥有大量粉丝、经常发布微博的加V用户的微博影响力应比只有少量粉丝、不经常使用用户的微博影响力大。因此在计算微博能量的时候不仅要考虑微博的转发量和评论量,而且要考虑微博发布者的用户属性。微博的能量公式如下:

其中numreplies表示微博的评论数量,numretransmits表示微博的转发数量,u( U) 表示用户信息的影响权值,k表示微博能量。其中u( U) 的计算方式如下:

根据U值的范围决定u( U) 的最终取值。其中U的计算方式如下:

其中numfollowers表示微博用户的粉丝量,numstatuses表示微博用户发布的微博数量,numbi_followers表示微博用户的互粉好友的数量,v用于表示用户是否为认证用户,如果是认证用户则v为100,否则为0。

每条微博文本分词后,词语的出现量将乘以参数k。例如一条关于“中国好声音”的微博文本中“歌曲”这个词语出现了2 次,则这条微博中“歌曲”这个词语的加权出现量将为2k个。

实时性是微博的一个重要特征,微博中热门话题会随着时间的变化而改变。比如关于“李天一案件”的微博文本数量随着时间的变化先增后减,在案件开庭前后的相关微博文本数量最多,这说明了微博是有历史属性的。因此我们不仅要考虑一个时间段内微博词语的出现量,而且要考虑两个连续时间段相同词语出现量的变化。把词语的增长或者减少趋势考虑进来,从而得到关于词语出现量的时间权值t,计算方式如下:

其中numword_now表示当前时间段内词语word的出现量,numword_past表示过去一个时间段内词语word的出现量。如果当前时间段比过去时间段的相应词语多,则t的值大于1,否则小于1。词语最终得分公式如下:

其中t为时间权值,ki为第i条微博的能量,numword_i为第i条微博词语word的出现量,M为微博的总条数。之后根据词语得分进行降序排列得到一个序列,该序列具有明显的长尾现象,得分较低的词语占据了序列的绝大部分,因此只需取top-N个词语作为当前的热点词语。这些热点词语很有可能决定了当前微博的隐含话题,称其为主题词。

2. 3 主题词聚类

如果在一个大规模的语料库中,2 个词语经常出现在同一个单元中( 例如一句话、一段文字、一篇文章等) ,则可以认为这两个词语的组合比较稳定,在语义上存在关联。词语的共现率越高,代表它们之间的关联性越强。每个微博文本可以理解为一个简短的自然段或者文章,当两个词语经常出现在一个微博中时,则可以认为这两个词语存在语义上的关联。

不同主题词在文本中共同出现的现象称为主题词的共现,而存在主题词共现现象的微博文本在总文本中的比率称为主题词的共现率。比如,一共有1000 个微博文本,主题词A和主题词B在其中的100 个微博中同时出现,则主题词A和主题词B的共现率为0. 1。把所有主题词当作点,当两个主题词的共现率超过阈值F时,就连接两点建立边,最终得到一个非连通图。该图中的每个连通子图构成了一个主题词汇簇,由此得到所有的主题词汇簇。

如图2 所示,每一个黑色的圆点代表一个主题词,圆点之间连接的边代表两个主题词共现率超过了阈值F。每一个连通的图构成了一个主题词汇簇,例如图中word 1 - word 4 为一个主题词汇簇,word 5 - word 8 为另一个主题词汇簇,二者分别用于确定一个话题。主题词聚类算法流程图如图3 所示,具体描述如下:

输入:top-N个主题词和主题词之间的共现率

输出:多个主题词汇簇

步骤1 以第一个主题词作为初始簇的第一个词语;

步骤2 输入下一个主题词,分别计算该主题词与每个词汇簇中所有词语的共现率的平均值,并找到最大的平均共现率K,以及对应的词汇簇X;

步骤3 判断最大平均共现率K是否超过阈值F,如果超过则主题词归入词汇簇X; 否则生成一个包含该主题词的新词汇簇;

步骤4 读取top-N列表里的下一个主题词。重复步骤2、步骤3 直到列表里的每个主题词都划入相应的簇中;

步骤5 输出结果。

2. 4 微博文本二次聚类

前面得到的主题词汇簇即可用来确定一个话题原型,词汇簇中包含的主题词具有较好的话题区分度。把微博文本中的每个词语当成一个元素,微博文本可以转化成一个包含n个元素的微博向量t( a1,a2,…,ak,…,an) ,其中下标1 ~ n对应top-N个主题词,ak( 1≤k≤n) 为对应主题词是否存在的逻辑值,如果存在则为1,否则为0。同理,由多个主题词构成的主题词汇簇也可以转换为包含n个元素的主题词汇簇向量w( b1,b2,…,bk,…,bn) 。由向量t和向量w可以求出它们之间的夹角余弦值,夹角余弦值越大代表向量间的相似度越高,而微博向量与主题词汇簇向量的相似度越高,代表微博文本离主题词汇簇越近。根据微博向量和主题词汇簇向量相似度的大小来确定微博文本应该划入哪个主题词汇簇中。微博文本二次聚类算法流程如图4 所示,具体描述如下:

输入: 主题词汇簇和微博文本

输出: 每条微博文本所属的主题词汇簇

步骤1 所有的主题词汇簇转换为主题词汇簇向量;

步骤2 输入一条微博文本,转换为微博向量。计算微博向量与各个主题词汇簇向量的相似度,找到最大相似度simmax和对应的主题词汇簇向量W;

步骤3 判断最大相似度simmax是否超过阈值G,如果超过则将微博向量对应的微博文本划入主题词汇簇向量W对应的主题词汇簇中; 否则该微博不属于任何一个热门话题;

步骤4 重复执行步骤2、步骤3 直到所有微博文本都判断完成;

步骤5 输出结果。

3 实验

本文实验环境为Intel Core i5 - 2400 3. 10 GHz CPU、4 GB内存、500 GB硬盘的PC机。操作系统为Win7,实验工具为eclipse3. 7. 2,JDK版本为1. 7. 0。实验所采用的原始数据集来自于数据堂,内容包括新浪微博几天内与15 个话题相关的4 千多条微博。每条微博都已标注了所属的话题,话题包括“斯诺登棱镜事件”、“李天一案件”等。然后使用新浪微博官方API提取与这些微博相关的元数据,例如微博发布者的用户信息,微博的转发评论数量等。

3. 1 主题词聚类结果分析

主题词聚类为本文话题检测方法的一个重要部分。对实验数据集进行数据预处理、分词和热点词检测,得到top-N个主题词以及这些主题词之间的共现率。把这些主题词以及它们之间的共现率作为微博主题词聚类算法的输入,得到多个主题词汇簇。每个主题词汇簇有着不同的能量值,首先对每个主题词汇簇中包含的主题词的能量进行加和运算以得到该主题词汇簇的能量值,然后将其排序,最后选取数值超过阈值J的主题词汇簇,结果如表1 所示。

从表1 可以看出通过主题词聚类得到的主题词汇簇和对应的话题高度吻合,例如话题“李天一案件”对应的主题词汇簇里的“律师”、“轮奸”、“受害人”等主题词都明显与该话题高度相关。而且主题词汇簇的数量刚好为15 个,与所选的实验数据集中话题的数量一致并且逐一对应,因此可以看出本文采用的主题词聚类算法取得了较好的效果。

3. 2 微博文本二次聚类结果分析

传统的话题检测多采用聚类算法,结合文本间相似度进行聚类。经典聚类算法包括single Pass、kmeans等,它们虽然在传统长文本上取得了不错效果,但是在微博这种短文本上效果却不佳。而单纯基于词频的话题检测虽然适合特征稀疏的短文本,但未考虑微博特有元数据对微博能量的影响。本文提出的方法将微博文本和主题词汇簇作为输入,经过微博文本二次聚类算法得到最终的话题检测结果。为了验证本文所述方法更适合微博的话题检测,将本文方法与single Pass聚类方法、kmeans聚类方法和单纯基于词频方法进行效果评价,结果如图5、图6所示。评价指标为查全率、准确率、漏检率和错检率,各个参数的计算方法如下:

其中a为检测到的话题相关微博文本数; b为检测到的话题不相关微博文本数; c为未检测到的话题相关微博文本数。

由图5 所示: single Pass聚类的准确率和查全率都明显不如本文方法; kmeans聚类虽然由于本身算法特点使得查全率为百分百,但准确率却比本文方法低了很多; 单纯基于词频的话题检测方法由于未考虑微博元数据对微博能量的影响,准确率和查全率不如本文方法。

由图6 所示: 本文方法的错检率相比较其他方法有所下降,特别是对比传统的single Pass聚类和kmeans聚类方式; 本文方法的漏检率相比较single Pass聚类和词频方法也有所降低。

综上所述,本文采用的话题检测方法在实验数据集上取得了较好的效果。

4 结语

微博热点话题的识别有着重要的应用价值,本文在仔细分析微博的特有属性后,提出了一种基于微博文本和元数据的话题发现方法,先进行主题词聚类再对微博文本进行二次聚类。通过数据预处理、分词、发现热点词语、基于上下文关系聚类出主题词汇簇、微博文本二次聚类等步骤最终得到微博中的隐含话题以及相关的微博文本。基于真实数据的实验结果证明了该方法的有效性,但是该方法受限于文本的数量,在大数据时代,实际的数据量往往是TB级,甚至PB级。为了保证算法的效率,有必要将算法移植到分布式平台下并行处理。在保证效率的同时,准确率和查全率的提升也是本文后续研究的重点。

摘要:在微博热点话题发现中,微博文本短、词量少、时效性高,传统的话题检测方法不再适用。针对这些新的特点,提出一种基于微博文本和元数据的话题发现方法。首先利用微博发布时间、用户信息、微博转发评论等元数据构造描述微博词汇能量的复合权值,进而提取出话题的主题词汇,然后基于上下文关系构造主题词汇簇,最后对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关微博文本。在真实微博数据上的实验表明,该方法能有效发现热门话题,提高话题检测的准确率和查全率。

关键词:微博,元数据,聚类,话题检测

参考文献

[1]Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]//Proceedings of the 19th international conference on World wide web,2010:591-600.

[2]Mori M,Miura T,Shioya I.Topic detection and tracking for news web pages[C]//Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence,2006:338-342.

[3]Allan J,Carbonell J G,Doddington G,et al.Topic detection and tracking pilot study final report[R].UMass Amherst,1998.

[4]Yang Y,Carbonell J,Brown R,et al.Multi-strategy learning for topic detection and tracking[M].Topic detection and tracking.Springer US,2002:85-114.

[5]Allan J,Lavrenko V,Swan R.Explorations within topic tracking and detection[M].Topic detection and tracking.Springer US,2002:197-224.

[6]Yang Y,Pierce T,Carbonell J.A study of retrospective and on-line event detection[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval,1998:28-36.

[7]Yang C,Yang J,Ding H,et al.A Hot Topic Detection Approach on Chinese Microblogging[C]//Proceedings of the International Conference on Information Engineering and Applications(IEA)2012,2013:411-420.

[8]Zhang S,Luo J,Liu Y,et al.Hotspots detection on microblog[C]//Multimedia Information Networking and Security(MINES),2012Fourth International Conference on,2012:922-925.

[9]赖锦辉,梁松.一种消除孤立点的微博热点话题发现方法[J].计算机应用与软件,2014,31(1):105-107,139.

[10]赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449.

[11]薛素芝,鲁燃,任圆圆.基于速度增长的微博热点话题发现[J].计算机应用研究,2013,30(9):2598-2601.

微博数据采集 篇8

微博是一个基于用户关系的信息共享、传播及获取的平台,以140字左右文章更新信息,同时可以实时跟随或转发某些用户发布的信息,具备发布、关注、评论、转发、私信等功能,是一种新兴的网络媒体。国外最早提供微博服务的网站是美国的Twitter,从2006年10月开通至2012年1月在全球已拥有近4.62亿注册用户。国内的新浪微博和腾讯微博在2011年三季度也分别超过2亿注册用户。

与传统的社会网络不同,微博具有独特的“单向关注”和“实时转发”机制。如果用户对于某一微博用户感兴趣,只需要关注对方,从而被关注的所有微博消息都将实时传递到自己的页面中。这种方式拉近了人与人之间的距离,并在一定程度上满足了人们“围观”的心态。此外微博集成了手机短信、博客与社交网站的优点,将大众从原来单纯的信息接收者变成了接收和发布信息的完全参与者,从而让社会走进了“全民记者时代”。

在人际圈的影响力上,就博客而言,用户的关注属于一种“被动”的关注状态,写出来的内容其传播受众并不确定;而微博的关注则更为主动,“这种半广播半实时交互的微博客机制,使得用户组成多个交流分享的小圈子,群体传播在这里得以凸显 ”,因此对于商业推广、明星效应的传播很有研究价值。同时,对于普通人来说,微博的关注友人大多来自真实的生活圈子,用户的一言一行不但起到发泄感情、记录思想的作用,更重要的是维护了人际关系。

基于上述因素,相对于传统的信息发布平台,微博平台吸引了更多的用户,随着参与用户的持续增长,线下的社会形态逐渐地迁移到线上,这为计算社会学的研究提供了大量的数据支撑,通过微博等在线社会网络的用户关系以及交互数据等,或是以定量分析手段验证了以往社会学通过定性研究得到的结论[2],或是得到了一些与直观感觉大相径庭的结论[3]。

计算社会学的兴起推动了对社会网络属性,以及对比不同社会网络属性的研究。社会网络有很多重要的属性,如度分布、聚类系数、网络直径以及平均最短路径等。社会网络的规模,作为社会网络的属性之一,是其他属性研究的基础,具有重要的作用。此外在商业利益方面,当需要向某个社会网络投入资金或者投放应用时,目标网络的用户规模,尤其是活跃用户规模成为其首要关注方向。

对于活跃用户目前有几种定义,在社会网络研究中,基于以下假设将整个网络定义为一张图,用户作为图的顶点,用户之间的关系作为图中的边,定义那些与其他顶点有边相连的顶点对应的用户是活跃用户。因此研究者多是通过从某些种子节点出发,沿着与这些种子节点邻接的边向外进行均匀[4]或非均匀采样[7],通过计算样本集的一些参数,估计整个图中连通分量即活跃用户的规模。然而由于微博类社会网络建立关注关系的成本非常低(点击鼠标就可以),往往有很多出于商业目的建立的僵尸账号,这些账号关注了大量的其他用户,出度很大,按照以往的方法会将这些用户都检测为活跃用户,这是与事实相悖的,因此本文将活跃用户定义为在一段时间间隔内至少发一条微博的用户,按照时间间隔长短可以定义不同的活跃周期等级,如每月至少发一条微博的用户可定义为月活跃用户,这些用户切实参与到整个微博事件的传播过程中,在一定的程度上引发微博舆论指数级增长,并且从商业角度出发,具有更高的宣传价值。

1 相关工作

在生态学方面,以一种名为“标记再捕获”的方法用来估计物种的规模,其是基于“生日悖论”的一种估计方法,通过采集样本规模为Ο(n)的样本就可以准确地估计原图的规模。文献[4]的作者利用上述方法进行了估计,发现当样本规模增大时估计结果快速地收敛。文献[5,6]将上述方法扩展为基于非均匀采样的估计。

文献[7]提出了一种基于随机游走算法的社会网络规模估计方法,通过在原图进行一次有偏的随机游走采样,并在样本集上用同样的方法再进行一次采样,通过在两个样本上的计算就可以准确地估计原图规模,且所需采样规模较“标记再捕获”方法小,证明在原图度分布均匀时该方法所需样本规模为Ο(n)是较差的情况。

此外文献[8]估计了树的规模,他们的动机是估计回溯算法的运行时间,文献[9]扩展了上述算法,用来估计无环图的规模,最终文献[10]将上述算法扩展到估计无向图的规模,但是该算法在最坏情况下的运行时间没有下限,并且会高估图的规模。

2 捕获再捕获模型

2.1 Lincoln-Petersen模型

这是最简单的捕获再捕获模型,Laplace曾于1786年用它估计法国的人口数目,Petersen于1900前后、Lincoln于1930年将其用于野生动物研究[11],它是一个两样本的模型,第一次取样中n1只被捕获的样本被做好标记并放回到野外群体中,在其后的第二次取样中有n2只样本被捕获,其中带有标记的有m只。直观上看,第二次样本中带标记样本的比例m/n2,应该近似等于整个群体中标记动物的比例n1/N,故群体总数N可以用Ν^=n1n2m来估计。

将L-P模型应用到基于公共时间线数据的新浪微博活跃用户的估计上,可以执行两次采样,第一次采集一定时间间隔内时间线数据内出现的用户ID,并对其进行标记,共有n1个非重复ID,第二次采集第一次采样时间后的一定时间间隔内时间线数据内出现的用户ID,共有n2个非重复ID,其中被标记的有m个,则微博活跃用户数可以估计为:

Ν^=n1n2m (1)

时间间隔即采样的样本规模,时间间隔越长则每次采样的样本规模越大。

2.2 模型偏度分析

对微博活跃用户的估计是基于以下假设的[12]:

(1) 一段时间内的时间线数据是对这段时间内产生的所有原创(时间线数据都是原创的,即不是转发微博)微博的均匀采样;

(2) 所有时间线数据中出现的用户都是具有某一相同活跃周期的;

(3) 活跃用户的群体是封闭的。

对于第(1)点假设,首先说明时间线数据是约每1分钟更新一次,每次200条,该假设即是假设1分钟中的时间线数据是对这1分钟的所有原创微博的均匀采样,相应的一个月的时间线数据就是对这一个月内所有原创微博的均匀采样。

我们分析了新浪时间线数据中用户的出现频次,发现部分用户被频繁地采集进时间线。用户出现频次分布图如图1所示。

这有三种主要的可能性,一是部分用户大量发表微博,他们被时间线采集的概率大大提高;二是新浪定义了一些种子用户,给予这些种子用户很大程度的关注,事实上我们发现一些用户几乎每天都出现在时间线中;三是由于时间线数据是约每1分钟更新200条微博,可能在某些时间段(如凌晨3点)发布微博的用户很少,经常在这个时间段发布微博的用户被时间线采集到的概率增大。

它们导致用户被时间线采集的概率并不是一致的,而大量的高频用户可能会提高两次采样的碰撞率,即增大m的值,从而造成活跃用户规模的低估。

对于第(2)点假设,首先给予活跃周期一个正式的定义:

定义1 用户活跃周期:用户U至少T天发表一篇原创微博,则该用户的活跃周期AU=T,注意,如果用户U′的活跃周期为AU′=T′且T′≤T,那么AU′=T也是成立的,AU越小对应的用户U活跃程度越高。

定义2 用户集活跃周期:用户集U¯={U1U2Un}的活跃周期A=T,则其中任一用户Ui(i=(1,2,…,n))至少T天发表一篇原创微博。

显而易见的所有用户组成的用户集Ω的活跃周期为AΩ=+∞,而活跃用户应该是其中活跃周期较小的部分,如活跃周期为30以下的用户。采用L-P模型对活跃用户数进行估计应该是在所有活跃用户中进行两次均匀采样,而只有在时间线中所有用户都是具有同一活跃周期的活跃用户时,前后两个阶段采集的时间线数据中的用户才可以被视为对所有具有该活跃周期的用户的均匀采样。

当活跃周期定义得较小时,假设所有时间线中的用户都具有该活跃周期是不正确的,当活跃周期定义得较大时,过多用户具有该活跃周期,无法估计到真正有价值的活跃用户数目,因此只有当活跃周期适当时才可以较准确地估计出具有较高价值的活跃用户数目。

对于第(3)点假设,由于存在新的活跃用户诞生,同时也有现有活跃用户变为不活跃的情况出现,即群体具有开放性,仅考虑群体封闭性将无法对活跃用户数进行正确的估计。

当有新的活跃用户诞生时,即活跃用户数由N变为N′,但是仍然有:

n1N′=mn2 (2)

N′可以估计为:

Ν^=n1n2m (3)

当有现有的活跃用户变为不活跃用户时,即第一次采样并标记的用户数由n1变为n′1,则活跃用户N″将被估计为:

Ν^=n1n2m (4)

由于n′1是未知的,应进行进一步处理。

2.3 模型修正

2.3.1 群体开放性修正

由于活跃用户的规模是在不断变化的,存在新的活跃用户的加入以及以往标记的活跃用户变为不活跃用户从而移出活跃用户群体的情况,即群体具有开放性。Jolly-Seber模型是由Jolly和Seber提出的基本的群体开放模型[1],利用该模型进行对微博活跃用户进行估计步骤如下:

在进行第i次采样前,带标记的样本数Mi是未知的,需要先行估计。注意到第i次采样后,所有带标记的用户动物可以分为两类:第i次之前有标记,且第i次未被采集的Mi-mi个,以及第i次采样后释放回群体的Ri个(包括第i次时已有标记与第i次新做标记的用户样本),其中mi是第i次采集到的带标记样本数。这两类用户在第i次之后至少被再采集一次的概率应近似相等,在第i+1次采样时采集到的这两类的频数记为kr,设第i和第i+1次采样之间,活跃用户变为不活跃用户的概率为p,则:

p(Mi-mi)Ni+1=kni+1 (5)

pRiNi+1=rni+1 (6)

由式(5)、式(6),进行第i次采样前,带标记的样本数Mi可估计为:

Μi^=mi+kRir (7)

得到Mi再利用L-P模型,可得第i次采样时群体规模Ni可被估计为:

Νi^=Ri+Ri2k(mir) (8)

此方法不适用与首次及最后一次采样时。

2.3.2 个体异质性修正

因为大量的高频用户可能会提高两次采样的碰撞率,即增大2.2节中m的值,从而造成活跃用户规模的低估。

因此应去掉部分出现频次较大的节点n′,保留部分这些节点,防止由于去掉的过多导致采样碰撞率下降,从而造成对活跃用户规模的高估。那么群体规模可估计为:

Ν^=(n1-n)(n2-n)(m-n′) (9)

其中n1为第一次采样得到的非重复用户数,n2为第二次采样得到的非重复用户数,m为两次采样中图示出现的非重复用户数。

2.3.3 群体开放性及个体异质性修正

在考虑个体异质性的基础上,即去掉部分出现频次较高的用户之后,再运用Jolly-Seber模型,得到活跃用户的估计:

Νi^=(Ri-n)+(Ri-n)2k(mir) (10)

其中Νi为第i次采样时的活跃用户数,Ri为第i次采样捕获到的样本数,n′为去掉的出现频次较高的用户数,k为第i+1次采样时捕获到的且未在第i采样时捕获到的被标记样本的数目,r为第i+1次采样时捕获到的且在第i采样时捕获到的被标记样本的数目,mi为第i采样时捕获到的已标记样本数目。

3 实验及结论

3.1 模拟实验

为了验证2.1节中L-P算法的正确性,以及确定能够有效估计活跃用户规模时需要达到的采样率,设计模拟实验如下:

用1到1亿之间的整数组成数据集,每个整数相应的代表一个用户,因为在利用时间线数据进行活跃用户估计时,不考虑这些用户之间的网络结构,因此用户顺序排列的整数表示用户是有效的。

对整数集执行两次相同采样率的均匀采样,第一次采样时将采样到的样本进行标记,共有n个样本,第二次采样样本规模也是n,其中被标记的样本数为m,则数据集规模可估计为:

Ν^=n×nm (11)

误差率:

E=Ν^-ΝN (12)

实验结果如图2所示。

可见当采样规模达到总规模的0.7% 时,估计结果误差已趋近1%,因此用此方法可以较好地估计图的规模。

由于时间线数据集中部分天的用户数较少,存在一定的数据缺失,设计一个实验,验证在两次采样规模不同的情况下是否可以准确估计活跃用户规模,采样率分别达到多少时估计结果误差较小。实验内容设计如下:

同样使用1到1亿之间的整数组成数据集,分别以0.1%、0.3%、0.6%、0.9%的采样率进行第一次采样,第二次采样以不同的采样率对数据集进行采样。

实验结果如图3所示,可见当两次采样的规模都大于0.6%时,估计误差已在1%附近。因此部分数据的缺失不会造成估计规模较大误差,只要每次采样的总样本规模超过群体规模的0.6%。

3.2 真实数据实验

3.2.1 数据集

本文使用的数据集为新浪时间线从2011年4月份到12月份的数据,采集过程中由于网络等原因部分时间的数据存在一定缺失,通过统计共有213天数据,将每天出现的用户ID号抽取出来形成每天的时间线用户ID记录。共有4 331万条记录,其中非重复用户1 787万个,时间线中每天出现的用户数分布如图4所示。

由于系统、网络等原因部分时间段采集的时间线数据较少,造成部分天中出现的用户数较少,平均每天203 336个用户出现在时间线中。

3.2.2 统计结果及分析

首先以2.2节中描述的方法进行100次统计,得到统计结果如图5所示。

当采样规模在10以上时,样本含有用户数为平均每天出现用户数乘以10约为200万,根据新浪公布的数据,新浪总用户数约为2.5亿,因此采样率为0.8%,超过有效采样率0.7%,因此估计结果是较为准确的。

可以看到当采样规模小于50时,估计的活跃用户规模随着采样规模的增大有较大的增长,这说明时间线数据大多不是活跃周期为小于50的其他值。且活跃周期值线性变化的同时,相应的活跃用户数急剧增长。

当采样规模达到50天后,活跃用户的规模增长趋于平缓,随着采样规模的增大估计的用户规模并没有像采样规模较小时那样出现较大的增长,说明活跃周期比50更大的用户数并没有超过活跃周期为50的用户多少,因此假设所有时间线中用户每50天至少发一条原创微博是合理的,并且当采样规模为50时,估计的活跃周期为50的用户数是较为准确的,即2.1×107个活跃用户。

在考虑群体开放性假设后,进行100次统计,得到统计结果如图6所示。

可见与基本的L-P模型统计结果相比,相同采样规模估计到的活跃用户数有所减少。群体开放性假设修正后,考虑了活跃用户群体的动态变化,而且需要特别注意,在假设所有时间线中用户都是具有某一活跃周期A时,我们进行每次采样时采集到的样本都是具有该活跃周期A的用户(因为从其被捕获的当天起其最少发表了一篇原创微博,即为被时间线捕获的的那条微博),因此可认为每次采样都是对具有该活跃周期用户的均匀采样,因此对相应活跃周期用户规模的估计也是准确的,即图6中数据是对不同程度活跃周期用户规模的较为准确的估计。

考虑个体异质性,不同微博用户被时间线采集的概率不等,去掉其中部分出现频次较高的节点,再对所有时间线数据应用基本L-P模型进行100次统计,统计结果如图7所示。可见在个体异质性假设前提下,活跃用户的规模与基本L-P模型下估计的结果基本相同,但有所增多,这是因为去掉了部分出现频次较高的节点,造成碰撞减少,即m变小,因此估计值Ν^=n1n2m增大。

同时考虑群体开放性及个体异质性假设,进行100次统计,统计结果如图8所示。可见与上面结果类似,在同时考虑群体开放性和个体异质性的情况下估计的活跃用户规模较仅考虑群体开放性估计的活跃用户规模略大,且各个采样规模点所对应的活跃用户数是对相应活跃周期用户数的准确估计。

4 结 语

本文给出了一种全新的活跃用户定义方法,并在此基础上定义活跃周期来度量用户的活跃程度。

本文首先利用基本的Lincoln-Petersen模型,基于新浪微博的时间线数据对微博活跃用户规模进行估计,根据微博的实际情况提出了针对基本L-P模型的修正。

针对微博活跃用户群体的开放性,提出群体开放性修正,进行三次均匀采样,在进行活跃用户数估计前先进行标记用户数估计,最终活跃用户数可通过式(8)估计。

针对时间线数据中用户被采集概率不同,提出个体异质性修正,去掉部分出现频次较高的用户,最终活跃用户数可通过式(9)估计。

综合考虑以上两种问题,提出群体开放性及个体异质性修正,最终活跃用户可通过式(10)估计。此时能够准确估计不同活跃周期的活跃用户数规模。

不同活跃周期用户规模见表1所示。

摘要:针对微博活跃用户数估计问题,给出一种基于活跃周期的活跃用户定义,并在此基础上改进捕获再捕获模型,基于新浪微博时间线数据对新浪微博活跃用户数进行了估计。实验验证本方法能够较为准确地估计具有不同活跃周期的用户的规模。

微博数据采集 篇9

微博是当前最炙手可热的互联网应用,作为一种信息的交互平台,微博正成为网民愈加重要的言论发表方式。除此之外,微博还可以通过用户间的关注形成巨大的人际交互网络。在微博中,人际间的交互体现为用户间添加关注、转发、收听等。其中添加关注是最为基础的用户操作。然而,很多刚刚开始使用微博的用户,可能只会添加一些名人微博进行关注,甚至连名人微博都不会添加,对于众多其他的不错的草根微博却一无所知,微博就会失去使用价值和意义[1]。

为了推广微博应用,提高微博的可用性、有趣性,搜狐微博推出了“猜你认识”的功能。搜狐微博设计了热词系统。通过这些用户提及的热词,在系统中寻找相应的推理方法,进行归纳推理,得出推理结果。系统后台对推理结果在前台页面体现。用户不但可以删改后台推理得出的结果(即标签),还可以自己添加标签,丰富自己的形容。后台程序将针对每一个用户倾向,找到与用户具有相同倾向的其他用户,作为推荐好友推荐给用户,这样,就可以帮助用户建立更大更广的关注圈[2]。

基于人工智能的抽象建模(即推理规则的提取)、基于一系列第三方控件的操作界面、不确定推理运算等一系列思想与方法,实现自动学习推理系统。通过系统运行时做出的自动调整(包括增益与衰减),系统不但大大降低了后台人员的维护成本,而且更提高了用户体验性,使得微博用户能够得到更好更准确的服务[3]。

1 系统需求分析

1.1 需求概述

自动学习推理系统主要面向两方面用户的使用,即后台运维人员和普通微博用户[4]。

系统应该满足一次录入推理数据、多次使用该数据的要求,也就是说,推理数据是系统的基础。在运维人员需要在构建好分类和事实等一系列知识体系之后,将建模的所有结果录入系统。ALRS得到这些知识并将它们保存在数据库。除了事实对普通的微博用户公开外,分类应该保持对普通微博用户的透明性。知识成功录入后,运维人员将在构建好的事实的基础上,构建出一系列的推理过程,即推理树。

在满足了后台运维人员对本系统的一系列需求后,面对普通微博用户的应用需求则完全在后台控制台中体现。推理系统为学习系统提供了接口,以满足学习系统利用知识进行各种推理的需求。同时,为方便运维人员进行模型的验算,检查推理树构建的合理性,推理系统提供了图形化的推理演算界面。

1.2 功能需求分析

Web用户则通过添加推荐关注、增删智能标签反馈推理系统的处理结果;运维人员主要负责知识的录入和推理树的构建;推理引擎实际上是推理程序的集合,主要负责利用构建好的推理树以及推理算法对用户的输入进行推理并得出用户倾向;学习引擎负责微博的分词,推理分配以及推理结果的整理。

1.3 性能需求分析

自动学习推理系统对硬件方面要求较高,必须不低于以下配置:处理器:Intel Pentium 166 MX(或以上);内存:10 GB(或以上);硬盘:20 GB(或以上);显卡:SVGA显示适配器。

软件方面的要求如下:操作系统:推理机Windows XP/7,学习机Linux,Windows不限;推理机需要安装Microsoft.NET Framework 2.0或以上;推理机需要安装Developer Express Inc.NET2005组件;推理机需要安装Netron组件;推理机需要安装Spring.NET 1.2.0框架包。

2 自动学习推理系统概要设计

2.1 系统概要设计

需求分析中的五个主要功能:推理准备、知识管理、推理树管理、自动推理、推理结果整理与推送好友[2]。

推理准备功能需要热词系统的帮助,通过热词系统对用户近期提及热词的记录获取目标用户的最新倾向词。

知识管理功能是为了满足后台运维人员进行知识录入而设计的。

推理树管理功能是为使后台运维人员以简洁的操作方式,利用构建好的事实,通过可视化界面便捷的图形化操作来构建推理树。

推理功能中为方便后台运维人员的验算使用,系统应当为他们准备类似电子表格的简单操作界面。

推理结果整理与推送好友功能对推理结果进行响应,并为用户搜索目标结果集,作为推送好友。

2.2 系统层次设计

图1描述了自动学习推理系统的主要组成部分。首先,ALRS可以分为学习子系统和推理子系统。其中,学习子系统分为推理准备和好友推送两个部分。推理子系统部分包括知识管理、推理树管理和推理三部分。知识管理部分分为分类管理和事实管理两个子部分。推理树管理部分分为新建和维护两个子部分。

2.3 系统流程设计

图2描述了ALRS的整体流程。为了提高系统运行效率,使得ALRS为更广泛的微博用户服务,ALRS只针对用户描述标签少于3个的用户进行推理服务,以丰富用户的描述,并且能够使没用过这项功能的用户注意到这项应用,从而促使用户自己添加描述。对进入推理集的数据,ALRS会定期进行推理。一方面为用户添加描述标签,另一方面也为用户推送好友。具体的流程会在下文进行详细讨论。

3 自动学习推理系统详细设计

3.1 系统详细设计

系统采用流行的MVC架构模式,即使用表示层、业务逻辑层、数据访问层三层的流行架构方式,然后介绍ALRS的数据访问层架构,其中重点介绍数据访问层中每一层(包括Service,DAO,Bean和数据库等层)的具体设计方式。最后介绍业务逻辑层的工作流程和算法等设计方案。

在系统结构设计中,一般将数据访问层分成服务层和持久化层。实现时,需要尽可能地保持层次间的松散耦合。学习子系统中使用Spring与Hibernate架构,而推理子系统利用Spring.NET与NHibernate对.NET平台开发的应用程序完成业务的架构。这样,可以利用Spring与Hibernate组合和Spring.NET与NHibernate组合来封装和处理数据库操作,使程序代码中不需嵌入SQL操作语句和复杂的数据库操作对象,从而简化程序开发、测试过程。

由于系统需要进行JAVA与.NET跨平台的交互,所以数据库的选取非常重要。考虑到网络应用中My SQL的应用非常广泛,所以在数据库的选择上确定使用My SQL。

3.2 推理树管理部分设计

推理树管理部分在知识库管理部分的基础上,实现了后台运维人员对推理树的录入与管理,是自动学习推理系统的推理基础,此后的推理管理部分的规则来源就是在推理树管理部分中录入。为了方便后台运维人员完成构建推理树、查询推理树、管理规则、删除推理树、修改推理树五种操作,系统将推理树管理部分具体划分为新建推理树、维护推理树两个部分。维护推理树部分又划分为查询推理树、规则管理、删除推理树、修改推理树等四个具体的部分。推理树管理部分结构图如图3所示。

3.3 用户推理部分设计

用户推理部分是针对后台运维人员验算和普通的微博用户自动推理而开发的。后台运维人员在构建推理树后,可以利用推理部分的“推理”功能对推理树进行计算与验算,从而对推理树进行一定的调整。而普通的微博用户作为本系统的主要服务对象,主要由系统后台自动调用。参与对象分别是自动学习推理系统和My SQL数据库管理系统。

3.4 推理后整理部分设计

推理后整理部分旨在对推理后产生的结果以及用户的反应进行整理。推理后,将产生用户倾向表和用户潜在倾向表。ALRS会将这两个表中的推理结果与用户自身情况进行匹配,并把各三个符合条件的其他用户作为好友推荐给该用户。

如果用户接受推荐,则默认用户接受该倾向或潜在倾向。ALRS可以根据证据找到推理树进行推理树增益。增益的实现通过对数据库和缓存(如果缓存中存在的话)中的推理树信息进行更新。每次增益的尺度可以调整,系统初始默认为每次增加5%,当可信度增加到大于等于1时,系统将对今后的增益请求进行忽略。

如果用户拒绝推荐或删除标签,则默认用户不接受该倾向或潜在倾向。ALRS可以根据证据找到推理树进行推理树衰减。衰减的实现通过对数据库和缓存(如果缓存中存在的话)中的推理树信息进行更新。每次衰减的尺度可以调整,系统初始默认为每次减少5%,当可信度增加到小于等于0时,系统将对今后的衰减请求进行忽略。

通过以上两种方法可以完成推理树的自维护与自适应。这样,就可以实现ALRS系统的自维护效果。

4 自动学习推理系统实现

系统利用Dev Express,Netron提供的第三方用户控件,实现了以下功能。

利用Netron提供的Graph Control类实现了画板功能,使系统提出的图形化建立推理树变为可能。利用Netron提供的Shape类实现了推理树节点的功能。该控件可相互连接的特点也符合系统构建推理树时节点间连接的需求。利用Dev Express提供的Simple Button,Memo Edit,Combo Box Edit等类实现了一些界面的界面控制。这是三种经常应用到的控件,其他控件由于重要性较小、出现次数较少的原因,在此不做赘述。

4.1 知识管理部分的实现

类别管理中,可以创建新的根类别或者子类别,也可以对这些类别进行删改操作。根类别、子类别的包含关系扩展了单纯的类别-事实的关系,从而形成了多层次类别、事实的从属体系。事实管理中,可以创建新的事实,也可以对已存在的事实进行删改操作。对事实的管理首先要选择事实所属的类别,然后再对事实的属性进行录入。事实管理功能界面与创建类别类似,每种事实都包含ID、类别ID、名称、备注等信息。

4.2 推理树管理部分的实现

结合图4的新建推理树部分用户界面,介绍具体设计和使用方法。

(1)输入推理树名称。以方便后台运维人员和普通的微博用户感性地区分不同的推理树。

(2)添加推理节点。为方便后台运维人员的查询,根据选定的类别,系统会自动导入数据库中所有属于该类别的事实。

(3)界面中可删除已存在的节点,若需要删除某个已有的节点,则单击鼠标右键,选择“delete”即可删除。

(4)添加事实节点后,可以添加事实节点间的关系。(5)在界面中可以删除事实节点间的关系。

(6)构建推理树完毕,确认推理树无误后,按下“保存数据”按钮,即可将推理树保存至数据库,与此同时保存的还有知识库、推理树节点、节点间关系、节点位置等信息。

若存在此类问题或在数据库操作中发生错误,系统将会返回错误信息。如果添加规则库成功,则返回成功信息,如图5所示。

4.3 用户推理部分的实现

利用上文构建推理树的实例来说明ALRS的推理过程和使用方法,推理树全图如图6所示。对推理演算部分的使用大致分为三个步骤:首先进入推理演算页面选择推理树。然后,通过系统提供的下拉框选项,为每一个列表中的叶子节点赋予事实可信度。最后,点击“开始推理”按钮,系统将会开始自动推理,之后将结果呈现给用户。

5 系统性能测试

5.1 测试环境

硬件方面配置:处理器:Intel Core i5;内存:2 GB;硬盘:20 GB;显卡:NVIDIA显示适配器。软件方面配置:操作系统:Windows 7;Microsoft.NET Framework2.0;My SQL5.0;JDK1.6;Developer Express Inc.NET2005组件;Netron组件;Spring.NET 1.2.0框架包。

5.2 测试结果

下面给出几种不同设计方案下ALRS的工作性能。

方案一:不使用memcached,处理所有用户的标签猜测。这种情况下,系统负荷会达到最大,因为没有memcached的缓存,每次数据的查询、更新都要进行数据库操作,测试结果如表1所示。

方案二:使用memcached,处理所有用户的标签猜测。相比第一种测试方案,ALRS系统使用了memcached缓存层,这样对树、用户等就进行缓存,提升系统性能。测试结果如表2所示。

方案三:不使用memcached,仅处理标签小于三个用户的标签猜测。对这种方案,可以提高对新用户的服务效率。牺牲服务覆盖率追求精准度也是ALRS间接提升性能的一种方法。测试结果如表3所示。

方案四:使用memcached,仅处理标签小于三个用户的标签猜测。使用缓存后,不但实现了系统物理性能的提升,而且从精准度上也间接提升了服务效率。测试结果如表4所示。

使用memcached确实可以提高系统的运转效率,究其原因,就在于memcached的查询速度很快;另一方面,仅对标签小于三个的用户进行服务,虽然减小了服务覆盖率,但也缩小了服务范围,提高了服务精度,可以增强新用户的忠诚度。所以系统选定了第四种方案,在搜狐微博每日用户数目增长率大于每日微博发送增长率的初期阶段,在每日产生千万条微博记录以下的情况下,系统运转良好,达到了为新用户推送好友的目的,符合设计时的工作设想。

6 结论

目前,自动学习推理系统的所有需求功能已基本实现。ALRS实现了使用人工智能的手段和方法,对微博用户的用户倾向的挖掘;除此之外,还完成了前后相关的业务流程。从总体使用和运行效果来看,ALRS不但为后台工作带来巨大的简单和便利,也增强了用户体验,使更多的用户发现微博的价值和乐趣。

在不久的将来,ALRS会进行版本升级,届时,可以使用No SQL的数据库架构方式对系统进行数据管理。使用No SQL可以提高系统响应速度,消除系统因数据库操作产生的消耗,使得ALRS可以运行得更加迅速。

摘要:面对庞大的微博用户群,提升用户体验以吸引更多用户成为关键因素,因此自动学习推理系统的研究成为热点,对微博用户的倾向进行推测,同时,使用图形化的组件使得操作更加简洁方便。系统中使用定量的不确定推理算法,也改变了定性推理造成结果不准确的情况,从而帮助用户更高效、准确地推送网络好友,通过运用人工智能和数据挖掘等领域中的理论和算法设计实现了自动学习推理系统。系统计划在搜狐微博中上线,在测试过程中取得了一定的预期成果。

关键词:数据挖掘,微博应用,不确定推理,NHibernate和Spring.NET框架结构

参考文献

[1]王寅永,李降宇,李广歌.C#深入详解[M].北京:电子工业出版社,2008.

[2]王守信,张莉,王帅,等.一种目标可满足性定性、定量表示与推理方法[J].软件学报,2011,22(4):593-608.

[3]TAN P N,STEINBACH M.Introduction to data mining[M].New York:Addison-Wesley,2008:112-114.

[4]GIARRATANO J C,RILEY G D.Expert systems[M].4th ed.Beijing:China Machine Press,2006:23-25.

[5]俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29.

上一篇:尿毒症并发左心衰竭下一篇:学生终身体育意识