微博情感分析

2024-05-17

微博情感分析(共5篇)

微博情感分析 篇1

1 引言

微博因其使用简便, 已发展成一种新的社交网络及信息发布平台。自问世以来, 得以迅速发展。微博上含有大量的情感倾向的言论, 对其进行情感分析可以得到有用的决策信息, 可应用于民意调查、舆论监控、政府决策、商品销售等。微博更新速度快、消息量大、含有大量的情感信息, 吸引了大批学者对其进行研究, 针对微博的自然语言处理研究已成为一个新的研究热点及前沿性课题, 微博情感分析就是其中的一个热点课题。情感分析又称观点分析, 用于分析文本中观点持有者对事件的支持、反对或中立态度, 也即分析文本表达的正面、负面或中性情感[1]。

2 中文微博情感分析方法

微博短文本有词语信息丰富多样、语料简短、主题松散等特点, 相对于长文本来说, 在相应的情感分析上将面临更多的问题, 如文本矩阵的稀疏性、情感词的多样性等。文本情感分析过程由文本预处理、情感特征提取、情感分类等步骤组成。中文微博情感分类方法可以分为两大类:一类是基于情感词典的情感分类方法, 一类是基于机器学习的情感分类方法。

2.1 微博文本的预处理

微博短文本预处理主要包括过滤无关信息、文本分词、词性标注等。由于微博通过图片、视频、文字等来表达信息, 还因其可以转发引用他人微博存在一些微博文本特有标记, 所以在预处理时, 首先将这些无关标记如链接以及“@”“//”标签及其后包含的内容, “#”与“#”符号之间的内容及符号一起去除。英文单词和视频及图片也去除, 保留表情符号[2]。

面向中文的分词和词性标注技术已相对成熟, 国内有中科院计算所开发的ICTCLAS中文分词标注系统, 可以实现中文分词、词性标注、命名实体识别和未登录词识别, 词正确率高达97.8%;这些相关软件的开发为中文微博短文本情感分析奠定了良好的基础。

2.2 情感特征提取

虽然微博中的文本只有140个字符, 但是包含的信息量却非常巨大, 而且微博文本还有未登录词较多、口语化严重等特点, 采用向量空间模型表示微博文本, 以词汇和词性作为特征, 根据提出的基于层次结构的特征降维方法对特征空间进行降维。面向微博短文本的情感分析的特征选择, 首先要去除掉与情感无关的且类别关联度较小的特征, 排除不必要干扰。其次为了提高微博短文本的情感倾向性判别的准确性, 特征选择需获取能获取与情感分类有关联的特征信息。因此, 必须针对微博消息选择合适的特征抽取方法, 才能提高情感识别的分类效果。目前特征选择方法主要有互信息、信息增益、词频、文档频次等。

2.3 微博情感分类方法

2.3.1 基于情感词典的微博情感分析方法

基于情感词典的微博情感分析方法主要根据情感词典, 将一条微博语句的情感极性值之和作为该条语句的情感极性。该方法依据情感词典将情感极性分为正向情感、负向情感和中性情感。具体公式[3]如下:正向情感 (如果正向情感词数>负向情感词数) 、负向情感 (如果正向情感词数<负向情感词数) 、中性情感 (如果正向情感词数=负向情感词数) 。

基于情感词典的微博情感分析方法可分为词语特征级、句子级情感判别, 该方法主要的优点是粒度细、分析准确。但受到自然语言处理技术及相关抽取技术的限制, 该方法容易丢失数据集中隐藏着的重要模式, 使得未来研究工作中还有很大的提高空间。

2.3.2 基于机器学习的微博情感分析方法

基于机器学习的微博情感分析方法是通过各种算法将微博短文本分为正面、中性、负面三类情感[4]。这类方法是用机器学习的方法将将微博情感分析看做分类问题来处理。常用的机器学习算法有朴素贝叶斯NB、支持向量机SVM、最近邻方法KNN、最大熵ME和条件随机场CRF等[5]。选取微博文本中有利于情感极性分类的词或短语等作为特征, 构建向量空间模型。通过向量空间模型提取的特征再训练分类器进行分类。通过训练集的构建分类器, 通过测试集来对分类器的性能进行验证。训练集语料的大小和质量、特征的提取的好坏将直接决定分类器的好坏。

3 结语

虽然面向中文微博情感分析的分类准确率已达到了一定的水平, 但是仍有提升的空间, 主要原因有以下两个方面:一是由于无论采用哪种方法都涉及特征的选取问题, 如何提取更加有效的特征来提高分类的效果是问题的关键所在。二是中文微博表达的内容信息量大、千变万化, 需要对汉语的语言特点进行更加深入的研究, 才能够找出更合适的方法来进行微博情感分析。

参考文献

[1]王银, 吴新玲.中文微博情感分析方法研究[J]广东技术师范学院学报 (自然科学版) , 2014年第3期.

[2]周胜臣, 瞿文婷, 石英子, 施询之, 孙韵辰.中文微博情感分析研究综述[J]计算机应用与软件, 2013第3期.

[3]陈晓东.基于情感词典的中文微博情感倾向分析研究[D]华中科技大学, 2012.

[4]孙建旺, 吕学强, 张雷瀚.基于词典与机器学习的中文微博情感分析研究[J]计算机应用与软件, 2014年第7期.

[5]刘楠.面向微博短文本的情感分析研究[D]武汉大学, 2013.

微博情感分析 篇2

2、生命短暂而美好,没时间纠结,没时间计较。没必要和命运争吵,顺其自然才彼此相安。成功的路径不止一条,不要循规蹈矩,更不要冥顽不化,此路不通,不妨换条路试一试。

3、人生要学会一边努力,一边享受。好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。在这个世界上,只有真正快乐的男人,才能带给女人真正的快乐。

4、走得顺时,不必太张狂,就算你爬到了坡顶,终究还要走下坡路;人生的要义,一是欣赏沿途的风景,二是抵达遥远的终点;人生的秘诀,寻找一种最适合自己的速度,莫因疾进而不堪重荷,莫因迟缓而空耗生命;人生的快乐,走自己的路,看自己的景,超越他人不得意,他人超越不失志。

5、有时候生活像,一股甘甜的泉水,使沉浸在痛苦的人,忘记生活的苦涩;有时候生活像,一首动听的歌谣,使生活枯燥的人,感受到生活的乐趣;有时候生活像,一把雨夜的小伞,使漂泊异乡的人,得到亲情的荫庇;有时候生活像,一道天边的彩虹,使落寞孤寂的人,看到世界的美丽。

6、失败也是一抹色彩,增加你人生的厚重。所有的选择都要付出代价,没有什么选择能够十全十美。选择了面包,可能就要放弃爱情;选择了财富,可能就要放弃健康;选择了事业,可能就要放弃自由……所有的选择,都只能由自己买单。所以在选择的时候,一定要清楚自己的支付能力。

7、每个人都有魔鬼的一面,不爱你,就会让你看到。我们天天在为感情不顺寻找原因,猜测自己到底错在哪里。因为从心底里,没人愿意承认自己是不被爱的,这是感情中最伤颜面的理由。最终却不得不承认,不是所有错误都跟自己有关,不爱就是不爱,没有其他原因。

8、很多人都在感叹世态炎凉,最在乎的人,总在误会与错过之间擦身。不能怪命运不公,是你没有交付出足够的信任,是你没有为爱情义无反顾的决心。

9、别担心没有新鲜感。真正的爱情恰恰就是喜旧厌新,你爱上了一个人,就是爱上他的生活,爱上他的言语,爱上他的微笑,哪怕这些事情,会一次次的重复,就算重复一辈子,你也乐于看到。生活里需要新鲜,但不是每个人都需要新鲜的爱情。所以啊,找一个恋旧的爱人吧。衣不如新人不如故。

10、人生,就是这样,走着走着,远了。黑夜是另一个世界,我们用睡眠重建自我,当伴随着晨光醒来,我们已完成了对自己的再一次拼凑。该忘记的忘记,该牢记的牢记。

11、做任何选择,都不是轻松的事情。在追求完美的过程中,学会聆听寂静,静隅品茗,静观流年,满怀信念和希冀去上路,理性的面对挫折和烦忧。路苍茫,要靠自己走过去,路遥远,要耐得住孤独和寂寞。

12、一个人经历地越多,他会思考得越多。越是优秀越是努力,这一现象的根本原因在于,优秀的人总能看到比自己更好的,而平庸的人总能看到比自己更差的。真的努力后你会发现自己要比想象的优秀很多。记住一句话:越努力,越幸运!

13、可以是夜夜静好,也可以是清静无为。人生的幸福感,往往取决于内心的安静。如果一点风吹草动就能令你内心波动,那就万事心烦了。唯有修好内心,让更多的言语之争变成梦幻泡影。让过多的是非争斗,变成微笑以对。任世事**不止,我心却静谧如一。

14、尊重别人是一种美德,受人尊重是一种幸福。世间事,凡有一得必有一失,凡有一失必有一得。就像做了一场梦,不管你梦醒后如何嗟叹,都没有办法把美梦延续,或把噩梦改写,你只能在现实中继续若无其事地生活。

15、在整个生命中,不必担心多几个异性知己,那是你人生跌宕的音符和精彩的华章。但对待异性知己,应多一点关爱,少一点贪婪,多一点理解,少一点苛求。把情感放置在自由的空间,就是宽待自己;宽待感情,就是宽待心灵。让彼此都不必承载感情的负累,让阳光和温暖始终照耀和抚慰人生的情分。

16、人生要学会知足,但是不要轻易满足。决定我们一生的,有时不是我们的能力,而是我们的选择。选择对了,事半功倍,选择错了,会终生劳碌而无为。

17、顺其自然,内心会逐渐清朗,思想的负担也会随之减轻。只有顺其自然,才能随遇而安。很多时候,我们有着勃勃野心,有着无穷欲壑,总想着身前拥有的多一些,身后留下的多一些。我们实在不必苛求太多,心简单了,人就快乐了人简单了,这个世界也就透明了。

18、真正的爱情都是双人舞,是彼退我进,彼起我伏,而单恋没有对手,只能双手互搏。别去谈什么情人节国庆节春节无人来陪的寂寞感,就当下,就你正在过着的这一天,就是你们的一天?

19、生命是一束纯净的.火焰,很多后悔的事,只发生在一念之间。回头去想,如果做了,哪怕失败,也不过难受几天。但不做,就后悔,残留记忆一辈子。为了几秒尊严而摊上大片时光懊恼,才会知道后悔是成长中最不值当的事。

20、如果哭泣仅是一种宣泄,那就别再隐忍,眼泪有时能洗去懦弱;如果孤独仅是一种状态,那就别一味沉默了,只有发出自己的声音,才能找到自己的位置;如果放弃也是一种洒脱,该放手的时候,要舍得放下,该转身的时候,要毅然决绝。生活需要我们含泪前行,然后在不经意间给你一个微笑。

21、人生的路,要边走边看,当抱着你自己10公斤重的孩子,你不觉得累,是因为你喜欢;抱着10公斤重的石头,你却坚持不了多久。当一个人不喜欢做某事,就算他才华横溢,也无济于事;当一个人喜欢做某事,他发挥出来的能力会让你大吃一惊。

22、在人生岁月中,了然于心的情怀,其实一直都在心底;虽然总有些错过,有些遗憾,毕竟已在岁月的长河中得到释疑和诠注。也因为爱和宽容,竟也出落得错落有致,在素色年华里,虽然会有孤独,却也不乏美丽。但是,流年似水,总有一些记忆会愈久弥新,也总有一些记忆,会在不经意间消逝。

23、可以追求财富,却是不能挥霍无度;可以发表歧见,却是不能拨弄是非;可以不做善人,不能为非作歹;可以不做君子,不能去做小人;可以去容忍邋遢,但不能容忍颓废;可以没有学位,不能是没有品位。

24、世界上最爱你的人,就是舍得花时间陪你的人。有些痛,说不出来,只能忍着,直到能够慢慢淡忘。有的人,曾经是无话不说,最后,却无话可说。这个世界不符合所有人的梦想,只是有人学会了遗忘,有人却一直坚持。

基于微博文本的情感倾向分析 篇3

微博文本中往往包含了大量的文本作者对于某事件的情感, 例如对微博文本、时事的态度、意见、评价等, 研究如何高效的对舆论信息进行情感挖掘与趋势分析, 从而更好地分析网民群体的行为规律。通过分析, 能够实现对网络流行事件或突发事件的快速分析, 对于政府机构舆情分析、企业市场决策、消费行为分析等方面具有重要意义。当前, 主要有两大类针对情感分析的方法, 分别是基于语义的方法与基于机器学习的方法[1]。一个词汇的语义倾向是指通过对微博文本个体词汇褒贬度进行分析得到的度量值, 取值区间为±1。微博文本的情感倾向值最终通过汇总组合个体词汇的情感倾向度量值得到[2]。基于机器学习的情感分析方法的思路是构造一个分类器, 并使用已分类的训练集来训练这一分类器, 研究重点在于如何提高训练效果[3]与获得高质量的训练集[4]。

中文微博的情感分析一般可以分为三个步骤。第一步为微博语料的收集和预处理;第二步根据给定的规则从微博文本中抽取出情感词并且标注情感词极性;第三步依据情感倾向值计算方法, 对微博文本进行倾向性计算, 得出整体情感倾向值。微博情感分析工作的主要流程如图1所示。

2 微博语料的收集和文本预处理 (Collection and text pretreatment of micro-blogging corpus)

微博语料的获取途径主要有通过互联网上提供的语料库获得和通过微博爬虫程序或网站应用程序编程接口 (API) 函数获取三种方式[5]。互联网上提供的微博语料数量大质量优, 但因需要经过收集整理再发布的过程, 往往难以获得最新的数据。基于微博的爬虫程序不同于传统的爬虫程序依靠超链接关系而是通过节点之间的社交关系来获取整个微博的网络数据。单独采用微博爬虫程序往往会在局部陷入深度优先搜索, 难以采集到大范围的微博数据[6]。大多数网站都加入了反机器人机制如验证码、验证滑块等, 进一步增加了爬虫程序获取数据的难度;多数微博平台都提供了使用API接口访问的功能, 但在实际使用过程中常常受到诸多限制, 因此本文采用三者结合的方法进行语料收集。

文本预处理主要使用自然语言处理技术对微博文本进行分词与词性标注[7]。国内对于自然语言处理技术的研究由来已久, 目前已比较成熟。本文采用中国科学院计算技术研究所的汉语词法分析系统 (ICTCLAS) 作为词法分析器, 该系统历经多次内核升级, 分词速度与精度均处于国内一流水平。

3 微博情感分类抽取和标注 (The extraction and labeling of micro-blogging emotional classification)

3.1 文本表情处理

中文微博网站提供了丰富的表情符号, 借助这些符号, 可以比较容易地将微博分为主观性文本和客观性文本, 从而使得分析结果更加精确。主观性文本的情感倾向又分为积极和消极两类, 客观性文本的情感倾向为中性。本文对表情强度采取了人工标注强度的方法。强度值为 (0, 1) 之间代表正向情感表情, 消强度值为 (-1, 0) 之间代表负向情感表情, 强度值为0表示中性表情。下表列举了一些具有代表性的正向、负向和中性表情, 如表1所示。

3.2 微博文本情感词典构建

现有的中文情感词典较少, 比较成熟的有台湾大学简体情感词典 (NTUSD) [8]和知网 (How Net) 中文情感词典[9]。本文对NTUSD、How Net、情感词汇本体库和中文褒贬意词典等词典进行整理、去重, 同时加入搜狗实验室提供的互联网词库, 扩充网络流行语。加入了程度副词和否定词, 整理后的情感词典包括正向情感词4800个、负向情感词6200个。

与基于句子的情感分析不同, 微博文本段落的情感分析与判断对情感词典提出了更高的要求。对情感词和程度副词赋予权重, 从而定量地度量文本倾向性可以提升文本情感的准确性。情感词的强度划分在 (-1, 1) , 分别用 (0, 1) 和 (-1, 0) 代表正面情感词语的权重和负面情感词语的权重;程度副词的权重划分在 (0.2, 1.2) , 按照强度由强到弱划分为5级, 如表2所示。若出现多个程度副词修饰一个词语的情况, 则多个程度副词的综合权重为所有程度副词权重之乘积。

4 基于文本和表情的情感计算方法 (Emotional computing method based on text and emotion)

基于表情的微博情感分析可以使用五元组Q (A, S, F, E, T) 表示, 其中A、S、F、E、T分别表示程度副词、情感倾向、表情情感倾向、增强因子与发表的时间。其中发表时间T对于微博情感分析结果影响可以忽略不计, 特将五元组简化为四元组Q (A, S, F, E) 。微博情感值的计算过程从而可以转换为从微博文本中抽取出程度副词、情感倾向、表情情感倾向、增强因子并对其进行处理的过程。

微博文本的情感倾向由表情和文本的情感两部分组成, 微博文本的情感倾向值可以通过对这两部分的情感倾向值加权处理来得出。

其中, Q (P) 、Q (PS) 、Q (PT) 分别为微博总体的情感倾向值、微博表情的情感倾向值, 以及微博文s本的情感倾向值。其中λ为变量, 取值区间为 (0, 1) , 代表总体情感倾向值中表情与文本情感倾向所占的比重。

微博表情的情感倾向值可根据如公式 (2) 得到:

其中, Q (psi) 为微博文本中第i个表情的情感强度。

使用How Net提供的词汇语义相似度计算工具计算义原之间的相似度, 可以得到词语之间的相似程度。进而计算出词语的情感倾向, 最终计算出微博文本的情感倾向值Q (PT) 。对于两个汉语词语W1和W2, 如果W1有n个义项:x1, x2, …, xn;W2有m个义项:y1, y2, …, ym, 则规定W1和W2的相似度为各义项相似度之最大值, 即

义原相似度的计算公式为

其中, α为变量, 取值区间为 (0, +∞) ;d (xi, yj) 表示义原xi和义原yj的义原距离, 由词汇语义相似度计算工具得出。一般地对于一个不在情感词典中的词语, 其情感倾向值可以通过对比其与情感词典中的词之间的距离得到。具体计算方法为:将词语W分别与正面和负面情感词典中的每个种子词进行比较得到其正、负面情感倾向值, 再通过比较其与正负向情感值之间的均差, 得出其情感倾向值。某个词语W的情感倾向值可以通过下式计算得出

其中, Pi、Nj分别表示情感词典中的一个正向情感种子词与一个负向情感种子词。

对于得到的情感倾向值, 可以应用程度副词和否定词对其进行修正, 经过修正后Q (W) 的计算公式为

微博情感倾向Q (P) 的最终计算公式由表情和文本的情感两部分组成, 公式为

5 实验结果与分析 (Experimental results and analysis)

实验目的是对测试集中的每条文本赋予一个情感倾向值来代表文本的褒贬意程度, 文本的情感倾向值由其中包含的情感词的情感值相加得到。情感倾向值判断准确率=判断正确的文本数与测试集总文本数之比。实验数据来源于微博搜索与搜狗实验室提供的互联网语料库数据, 样本集中共计含有微博文本5000余条, 其中正向、负向、中性文本数量分别为1500条、2000条、1200条。对测试数据进行比对分析, 同时考虑微博表情符号、程度副词和反向词的影响因素对文本进行加权处理, 得到的实验结果如图2所示, P代表分析准确率。

分析图中的折线数据中可以得出, λ使正面情感与负面情感的分析准确率表现均较好的区间为 (0.4, 0.5) 。表3给出了当λ=0.4时程度副词与否定词等增强因素加权前后对正面情感, 以及负面情感的分析准确率对照情况。可以看出, 当λ取值区间为 (±0.2, ±0.8) 时, 加权后的判断准确率与加权之前均有提升, 无论是正向情感还是负向情感, 当λ=±0.4准确率达到最大值。超过±0.4后判断准确虽也有提升, 但是幅度不及之前。同时, 负面情感倾向的判断准确率要明显高于正面情感倾向的判断准确率, 其主要原因可能是受情感字典中正向与负向词语数量不同和文本样本空间中正向与负向文本的比例不同的影响。其中Pqz、Phz分别为加权修正前后正面情感判断准确率, Pqf、Phf分别为判断准确率以及加权修正后负面情感判断准确率。

6 结论 (Conclusion)

本文方法通过对NTUSD、How Net、情感词汇本体库和中文褒贬意词典进行整理, 基于How Net的义原情感判别, 加入程度副词和表情, 以及否定词对文本情感的影响。实验结果显示程度副词与表情倾向对微博文本情感倾向起着至关重要的作用, 当λ参数取值一定时, 情感值倾向判断的准确率会受到中性区间的影响。

摘要:微博作为一种用户发表看法和观点的载体已成为互联网上一个重要的情感交流平台, 博文搜索为这种交流提供了方便快捷的途径。基于How Net等中文情感词典的微博情感词的抽取和分类, 计算词语语义相似度和倾向性。对文本情感倾向的加权值、表情、和情感词增强因素等进行综合考虑。实验结果表明表情情感倾向对微博情感倾向起着重要作用;在表情和文本情感倾向比值固定的情况下, 调整因素和中性区间的选择会对情感倾向判断准确率产生影响;通过与基于How Net语义相似度的计算模型比较, 该文方法使得情感倾向判断准确率有所提高。

关键词:情感提取,情感分析,微博文本

参考文献

[1]Zhang L, et al.Sentiment Analysis Based on Light Reviews.Ruan Jian Xue Bao/Journal of Software, 2014, 25 (12) :2790-2807.

[2]Wang Wei, et al.Extraction of Comparative Elements Using Conditional Random Fields.Acta Automatica Sinica, 2015, 41 (8) :1385-1393.

[3]Riloff E, Wiebe J.Learning Extraction Patterns for Subjective Expressions[A].Proceedings of the 2003Conference on Empirical Methods in Natural Language Processing (EMNLP-03) [C].Sapporo, Japan:EMN LP, 2003:105-112.

[4]Seyed Ali Bahrainian Andreas Dengel.Sentiment Analysis of Texts by Capturing Underlying Sentiment Patterns[J].Web Intelligence and Agent Systems, 2015 (13) :53-68.

[5]李婷婷, 姬东鸿.基于SVM和CRF多特征组合的微博情感分析[J].计算机应用研究, 2015, 32 (4) :978-981.

[6]Anna Stavrianou, Caroline Brun.Expert Recommendations Based on Opinion Mining of User-Generated Product Reviews[J].Computational Intelligence, 2015 (31) :165-183.

[7]李清敏.面向微博情感分析的本体自动抽取关键技术研究[D].北京:首都师范大学, 2014.

[8]李扬, 潘泉.基于段文本情感分析的敏感信息识别[J].西安交通大学学报, 2016, 50 (9) :80-84.

微博情感语录 篇4

2、我愿成为黑夜里一盏明灯,照亮我俩爱情之路;我愿成为你手上的那支画笔,共描人生画卷!

3、如果我从没遇见你,如果我从没爱上你,如果我一开始没坚信,也许我就不会是现在的这个自己。

4、如果活著,是上帝赋予我最大的是命,如果生活里有你,将会是上帝赋予我使命中最大的恩赐。

5、在我的心中,你就是给予我温暖的太阳,给予我力量的女神,给予我温馨的玫瑰,给予我信心的源泉!

6、有你同行感到踏实,有你声援是种力量,有你帮助是种温暖,有你忠告是种激励,有你关心是种幸福。

7、从来不曾有过的感觉,在不知不觉中涌上心头;从来不敢相信的情怀,在不经意中已悄然涨起。

8、你要轻易的说爱,许下的诺言就是欠下的债,也不要轻易的说不爱,也许幸福就被你关在门外!

9、夜不再孤寂,因为心中有你;爱不再遥远,因为你在身边,你的出现,我的世界亮起一丝光线。

10、在人群之中寻觅著你,就彷佛在海边掬起所有的沙粒,急于发现你的踪迹,如果不从愿,但愿还有来生。

11、独坐一隅,默默地想着你,沉沉的心灵在宁静的润泽下涌起了一股股流动的清泉,荡起了欢跳的水花。

12、你像那沾满露珠的花瓣,给我带来一室芳香;你像那划过蓝天的鸽哨,给我带来心灵的静远和追求。

13、喜欢一个人,是不会有痛苦的。爱一个人,也许有绵长的痛苦,但他给我的快乐,也是世上最大的快乐。

14、没有幻想、没有期望,就如同鸟儿被捆住了翅膀。过多的幻想、过高的期望,就像鸟儿不知飞向何方。

15、如果你是山,我愿是小河,我绕你;如果你是茶叶我愿是开水,我泡你;如果你是云,我愿是风,我追你。

16、我一直都没放弃,我舍不得你,两年我会好好珍惜,等我有能力说我能给予你幸福时我再将追你进行到底’。

17、假如您心里还有一个微小的我,请你回我一封信,痴心的我,苦等着您的回信!只有您的信,才能把我援救。

18、非常高兴与你一起渡过的每一分钟,希望能使你每时都能开心,想起你的名字感觉很甜蜜,期望着与你再见。

19、爱其实是一种习惯,你习惯生活中有他,他习惯生活中有你。拥有的时候不觉得什么,一旦失去,却仿佛失去了所有。

20、当爱情来临,当然也是快乐的。但是,这种快乐是要付出的,也要学习去接受失望,伤痛和离别。从此,人生不再纯粹。

21、每个城市都易下雨,就像我走到哪里都会想你,思念是一种带酸的果实,特别在夜里,满满的回忆带着不确定的,想你,想你。

22、想一个人多美丽,爱一个人多幸福,直到有天荒地老,回忆随着白发风中闪耀,至少我清清楚楚知道,我若想起你会微笑。

23、爱是一种感受,即使痛苦也会觉得幸福。爱是一种体会,即使心碎也会觉得甜蜜。爱是一种经历,即使破碎也会觉得美丽。

24、爱,从来就是一件千回百转的事。不曾被离弃,不曾受伤害,怎懂得爱人?爱,原来是一种经历,但愿人长久。

25、相聚又远离,遥望不知期,寄身远方的你是否感受到我对你的深深思念?愿我的深情能够感动月儿,为我带去对你真挚的爱!

26、对于你,我经过这么多努力,我想我该死心了。对于你所给我的所有,我会珍藏起来,永远!我会为你祝福的。我们还是做朋友,好吗?

27、爱是神奇的,它使得数学法则失去了平衡;两个人分担痛苦,只有半个痛苦;而两个人共享一个幸福,却有两个幸福。

28、每次想你在心头,彩虹也微笑开了口,每次想你在深夜,星星也为我守候。我们的爱遥遥,美了自然界,甜了心尖尖!

29、想见你,没有你,闭上眼,晃动的全都是你,我的心,其实从来不曾离去,这一生只想和你在一起,全世界最重要的是你!

微博情感分析 篇5

随着社交化媒体的快速发展, 用户可以通过各种渠道表达对产品、服务、社会事件、公众人物等的意见和情感倾向。而随着时间不断增长, 丰富的社会化媒体信息在一定程度上能折射出公众的观点和情感状态, 这种公众的观点和情感状态往往又会影响到经济主体在社会经济活动中的决策。许多研究已经尝试利用社会化媒体信息实现对特定领域社会经济活动的预测, 例如, Ghose和Ipeirotis[1]利用亚马逊的商品评论有效的预测了书籍销量, Bollen等[2]利用Twitter上的千万条微博度量公众的情绪, 并以此预测股市的涨跌。事实上, 旅游作为与社会化媒体结合非常密切的一个行业, 后者正在深度影响并改变着旅游者的旅游习惯[3], 根据数字营销公司Text100的调研数据, 87%的旅行者会从社会化媒体中获取旅游灵感, 52%的旅行者会在社会化媒体上与他人分享旅游体验。另一方面, 微博作为极具代表性的社会化媒体, 其普及发展为情绪因素度量提供了广阔空间。我国5亿网民中有2.5亿用户是较为活跃的微博用户, 微博已成为发布个人动态、分享感受、情绪互动的常用工具[4], 实时性和开放性的特点, 使得微博数据能够作为现实生活最灵敏的刻画指标, 第一时间反映公众的感受和情绪。Golder和Macy[5]发表在《Science》上的研究指出, Twitter文本信息可以反映人们情绪变化规律。同时, 微博在旅游用户情绪互动中的应用也非常普遍, 在新浪和腾讯微博中, 通过认证的旅游官方微博达到上千个, 每个官方微博的平均粉丝量达百万, 用户关于旅游信息的分享互动也是讨论的热点话题。本文基于此, 将第九届北京国际园林博览会作为研究对象, 尝试探究以新浪微博为代表的社会化媒体对于旅游客流量的预测能力。

二、实证数据

(一) 园博会客流量数据

2013年5月18日开幕的第九届北京园林博览会以绿色交响、盛世园林为主题, 吸引了众多游客前往游玩, 本文以园博会日客流量数据为研究对象, 时间跨度为5月18日-8月31日, 共计106天。从趋势图 (图1) 来看, 客流量数据具有明显的季节性, 季节周期为7天, 周末的客流量远高于工作日。

(二) 微博数据

1. 微博数据抓取和清洗

本文选取“园博会”、“园博园”作为关键词, 搜索同期新浪微博上的原创微博, 利用web爬虫软件Meta Studio抓取搜索结果并解析成标准的数据格式。总计73789条微博。

微博文本一大特征就是碎片化, 信息多成发散式, 因此根据关键词的搜索结果中, 往往存在大量与目标对象不相关的噪声文本, 因此数据清洗是提取微博数量特征前很关键的一个步骤。本文随机抽取3000条文本, 人工识别样本里的噪声文本, 并提取噪声特征词生成一个噪声词库, 将总体搜索结果与之匹配, 若文本中出现了噪声词库中某个词或多个词时, 即认为该文本是噪声, 予以剔除。

2. 微博情感倾向性分析

在数据清理之后, 利用ROSTCM1软件实现对微博文本的情感分析, 将每条微博文本分为正面、中立和负面。软件根据文本出现的情感词和相应的否定词、程度词对文本情感打分, 并根据情感值的正负判断倾向性。为提高其在旅游微博文本下的准确率, 本文利用ROSTCM对所有文本分词, 再提取出反映情绪倾向性的关键词, 统计词频, 自定义了园博会旅游场景下的情感词表, 结合ROSTCM已有的情感词表判断所有文本的情绪倾向性。

三、时间序列分析

基于前文得到每天关于园博会的正面微博数量、中立微博数量、负面微博数量序列 (表1) , 序列中包含两层信息, 微博数量维度反映了园博会相关话题在公众中的热议程度, 微博情感维度反映了公众对于园博会相关话题的情绪倾向。然而, 这些信息是否都能影响到其他潜在游客的旅游决策, 进而对未来的客流量产生影响?

(一) 时差相关性分析

为初步考察这三个序列对客流量的预测能力, 本文首先采用时差相关法, 分别计算出三个序列和客流量的滞后1期到滞后7期相关系数。计算公式为:

表1的计算结果显示, 三个序列都是在滞后一期下与客流量的相关系数最高, 其中带有正面情绪的微博数量 (以下简称“正面微博数”) 的相关系数可达到0.6532, 说明正面微博数可能拥有最好的预测能力。

(二) 格兰杰因果检验

然而, 相关性并不能确定变量之间是否存在先行滞后关系, 因此为进一步检验微博信息对于客流量的预测能力, 本文采用Granger因果关系检验。由于该检验对滞后期的选取较为敏感, 本文参考AIC准则和Hsiao1981年提出的最优滞后准则 (FPE) 共同确定最佳滞后阶数, 检验结果见表2。

注:y表示客流量数据;count_positive, count_neutral, count_negative分别表示每天有关园博会的带有正面、中立和负面情绪的微博数量

检验结果显示, 在5%的显著性水平下, 正面微博数与客流量之间存在格兰杰因果关系, 正面微博数是客流量的格兰杰原因, 而且p值非常小, 说明正面微博数确实能够预测客流量的变化, 这和时差相关分析下的直观结果是一致的, 而负面和中立微博数都没有通过格兰杰原因的检验, 因此不具备预测能力, 这也就说明了当期或未来客流量的变化只受历史期的正面微博影响, 而不受中立和负面微博的影响, 具体的影响能力将在后文的模型中验证。

四、预测模型与结果

本文首先建立了一个基于历史客流量数据的自回归模型作为基准模型。在考虑到序列自身相关性和周期变动影响的基础上, 选取滞后1期和7期的客流量数据作为自变量, 建立基准的自回归模型。而根据前文的分析, 只有正面微博数拥有良好的预测能力, 而且在滞后1期下与客流量的时差相关性最大, 因而本文在基准自回归模型的基础上, 加入滞后1期的正面微博数变量, 提出含有微博信息的混合线性回归模型。为了进一步验证微博信息是否有独立的预测能力, 本文将正面微博数作为单独变量建立了第二个基准模型。具体三个模型见表3。

本文选取5月18日至8月24日之间 (共计99天) 的客流量数据和正面微博数, 利用OLS对混合模型进行参数估计, 结果显示所有的参数都在5%的显著性水平下通过了检验 (见表4) , 且模型的拟合效果不错, R2=0.552, 正面微博数的系数为30.74, 说明过去一期的正面微博能带动当期或未来客流量的增长, 正面微博数量越多, 客流量越大。

利用上述模型预测8月25日至8月31日的客流量, 选择平均绝对误差百分比 (MAPE) 作为预测精度的评价指标, 计算公式如下:

预测结果显示 (见图2, 表5) , 在大部分时间点上, 含有正面微博数的混合模型的预测精度要远远高于两个基准模型, MAPE也明显优于后两个模型, 从而验证了微博信息对于旅游客流量的预测作用。另一方面, 只含有正面微博数的模型预测精度尚不如自回归模型, 说明在园博会客流量预测中, 微博信息可能更适合作为一个辅助变量, 而自身作为独立变量的预测能力有限。

五、结论及启示

旅游具有典型的体验性消费特点, 游客会积极地分享经历和感受, 这些带有情绪的信息进一步产生口碑扩散效应, 又会影响其他潜在消费者的旅游决策行为。而微博数据中蕴含了大量的游客感受和情绪信息, 为旅游客流量预测开辟了广阔空间。本文从此角度出发, 探索了新浪微博信息对于园博会客流量的预测能力, 实证分析得出以下两个主要结论: (1) 带有正面倾向性的微博能够积极地引起当期或未来客流量的变化, 而中立和负面微博并无显著影响; (2) 加入正面微博数之后的混合线性模型参数非常显著, 且相比传统自回归模型, 预测精度得到了显著提高, 从而肯定了微博信息的预测能力。但另一方面, 以微博信息作为单独变量的模型预测精度不佳, 一定程度上说明对于客流量预测, 微博信息更合适作为辅助变量, 其本身的预测能力有限。

随着官方微博的盛行, 许多旅游景点都纷纷推出自己的官方微博, 它已成为旅游景区在宣传构建旅游目的地形象最有用的工具。本文的实证研究已表明, 正面微博的传播扩散能有效促进客流量的增加, 因此官方微博账号应该把握住微博带来的营销机遇, 加强官方微博的建设管理, 做好旅游形象的宣传, 充分发挥正面微博的积极影响力, 进而增强其他旅游受众的旅游意愿。具体来说, 一方面多撰写一些原创性微博, 加大旅游活动介绍、特色景观、展馆介绍, 在旺季时推出更为丰富的旅游体验活动, 特色的当季美食来吸引粉丝的转发和潜在游客的关注。另一方面, 应该加大景点相关正面微博的转发力度, 积极扩散有利的微博, 比如说将旅游者的游后感与旅游者共享, 加强与游客的互动。

摘要:以第九届北京园博会为研究对象, 通过时间序列分析和回归模型, 探索新浪微博数据对于旅游客流量的预测能力。实证结果显示, 正面情绪的微博能够积极的影响未来的客流量, 微博情绪作为辅助变量能有效提高客流量的预测精度。基于此, 给旅游目的地微博管理提出建议。

关键词:微博,旅游,客流量,情感倾向性

参考文献

[1]Ghose A, Ipeirotis P G.“Estimating the Helpfulness and Economic Impact of Product Reviews:Mining Text and Reviewer Characteristics”[C].IEEE Transactions on Knowledge and Data Engineering (TKDE) , 2011 (23) , 1498-1512.

[2]Bollen J, Mao H, Zeng X J.Twitter Mood Predicts the Stock Market[J].Journal of Computational Science, 2011 (2) , 1-8.

[3]赵振斌, 党娇.基于网络文本内容分析的太白山背包旅游行为研究[J].人文地理, 2011 (1) .

[4]Marc Cheong, Sid Ray.A Literature Review of Recent Microblogging Developments[R].Clayton School of Information Technology, Monash University, 2011.

上一篇:小学起始年级的数学下一篇:私立高中