研究话题

2024-10-04

研究话题(精选12篇)

研究话题 篇1

1. 背景

随着Internet的迅猛发展, 人们已进入一个信息爆炸的时代, 面对海量的信息, 如何有效地提取对自己有价值的信息成为一个重要的问题。

新闻作为日常生活中人们最关注的信息类型之一, 采用分类的方法进行新闻导航, 符合人们认知事物的过程和习惯, 并且对新闻信息进行了最基本的整理和组织。但是, 由于网络信息数量庞大, 与一条新闻报道相关的信息往往分散在很多不同的地方并且出现在不同的时间, 仅仅通过这些孤立的信息, 人们很难对某一新闻话题做到全面把握。

针对上述需求, 目前新闻门户普遍设有专题频道, 对一些热点事件进行专题报道。但是, 专题的生成需要专业的编辑, 除了耗时、耗力外, 更重要的是专业编辑也很难面对日益增长的信息洪流问题。于是怎样以事件为单位自动结构化的组织新闻信息, 已成为信息检索领域的一个研究热点。

鉴于特征向量模型及相关技术在文本分类、自动索引、信息检索等领域得到了广泛的应用, 已成为最简便、最高效的文本表示模型之一, 本文将特征向量模型方法引入新闻话题探测。

2. 话题探测与追踪研究中的几个基本概念

1) 话题检测与跟踪 (TDT) :在新闻专线和广播新闻等来源的新闻数据流中自动的发现话题并把话题相关的内容联系在一起的技术。与传统的信息检索技术不同, 话题检测与跟踪所关注的领域被称之为“基于事件的信息组织技术”。与信息检索、信息抽取、文本挖掘等几个交叉的相关研究相比, 话题检测与跟踪更强调对新信息的发现能力, 关心涉及的是某个特定的话题而不是相对广泛的主题类别的信息。

2) 报道 (Story) :在TDT研究中, 报道被定义为新闻专线文章或有着连续内容的新闻广播的片断。

3) 事件 (Event) :在TDT研究中, 事件是指发生在特定时问、特定地点的事情。

4) 话题 (Topic) :在TDT研究中, 话题指一个种子事件或活动以及与之直接相关的事件或活动。TDT研究中的话题描述与信息检索等研究中的话题不同, 它所关心的话题不是一个大的领域或某一类事件, 而是一个很具体的“事件”。

5) 话题检测:话题检测是指将新闻专线和新闻广播等来源的新闻报道数据流中的报道归入不同的话题, 并在必要的时候建立新话题的技术。

6) 报道关系检测:报道关系检测是指判断两个随机选择的新闻报道是否是同一个话题的技术, 它是其他几项任务的一个重要的核心技术。

3. 新闻话题探测的特性

根据新闻报道的时间特性和结构特点, 新闻话题探测有以下特性:

1) 新闻报道按时间被组织在时间序列中, 同一事件的新闻报道在时间序列上处于临近位置。

2) 随着事件的发展, 人们所关注焦点也随之变化, 新闻报道也相应的发生叙述转移, 主要表现在词语的动态变化上。

3) 新闻报道的文档结构呈现一种信息倒三角形。报道通常由标题, 起始段, 正文组成, 而且从上到下有信息递减的趋势。一般, 标题概括了新闻的内容;起始段概括性的点出事件六要素中的:who when, where, what;在文章的前半部分会描述所报道事件的详细信息。

4. 基于特征向量的话题探测方法

根据新闻报道的体例结构特点, 在构造文档特征表示向量时, 仅仅使用文档的前10%或者20%;增大出现在标题和起始段中的特征的权重, 将他们赋为全文档中特征权重的最大值;一个事件发生的时间、地点、人物等是表征一个事件的基本要素, 利用时间、地点、人物等命名实体改进聚类结果。

要判断某个报道是否和话题相关, 首先需要解决话题和报道如何表示, 以便于计算和比较的问题, 也就是话题、报道用什么模型来表示的问题。

1) 使用VSM模型将每篇新闻报道转换成一个向量, 首先对训练文档集进行预处理, 主要包括中文分词、停用词过滤 (有利于特征向量维度的降低) 等, 其中本实验使用了ICTCLAS汉语词法分析系统对文本进行分词处理。进行预处理后, 得到初始的特征子集A, 然后分别使用文档频率对特征子集A中的每个特征词打分, 并设定合适的阈值, 保留高于该阈值的特征词, 滤除低于该阈值的特征词, 得到文档特征向量矩阵。为命名实体在第篇新闻报道中的权重, 我们使用常用的公式:

的文档数;分母是将向量归一化。

文档向量矩阵的每一个行向量表示一篇文档, 每一个列向量表示一个命名实体。

2) 使用文档向量中的列向量对命名实体进行聚类, 将具有相似文档分布的命名实体聚类在一起。

3) 每个聚类构成一个话题的侧面, 由多个命名实体组成, 从而可将每个侧面表示一个特征向量:

4) 将每篇文档划分到最相似的侧面中, 相似度的比较使用向量余弦公式:

5) 重复上述过程, 直到所有的报道都检测完毕。

在文档向量化的过程中, 我们还利用了新闻报道的倒三角结构, 即新闻的标题和起始段是包含该条新闻的最具时效性的内容, 是事件发展的最新动态概括。因此我们仅仅使用标题和首段中的命名实体作为新闻报道的特征。

5. 总结与展望

新闻话题探测技术能够实时动态追踪某一新闻话题, 具有较好的应用前景。在运用向量特征模型时, 根据新闻报道的特点, 确定特征向量在新闻报道中的权重, 有利于减少误差。但是其之前的训练数据获得相当困难, 另外相似度阈值的确定也是十分困难的, 理论上没有很好的解决方法, 一般采用预定初始值, 然后给出测试文本, 而初始值的确定完全是根据经验或简单的测定而成的, 这也造成了一定的误差。

摘要:话题探测与跟踪旨在基于事件, 对信息进行组织和利用, 同时也是为了应对信息过载问题而提出的一项应用研究。根据新闻报道的时间特性和结构特点, 提出了综合新闻中的标题、正文加权策略, 采用特征向量模型对新闻话题探测, 实现对新闻话题的动态追踪与识别。

关键词:话题探测,特征向量,动态追踪

参考文献

[1]庞雅丽, 王彩芬.基于统计的中文新闻网页分类技术研究.西南师范大学硕士学位论文, 2007.

[2]李峰, 李芳.新闻线索与主题探测.上海交通大学硕士学位论文, 2008.

[3]张楷卉, 王巍, 李涛.面向新闻报道的话题检测技术研究.哈尔滨工程大学硕士学位论文, 2008.

[4]宋丹, 林鸿飞.基于语义和链接的话题跟踪方法.大连理工大学硕士学位论文, 2007.

研究话题 篇2

汉语和日语中与话题有关的比较研究

本文主要以汉语和日语话题的对比为起点,从话题理论、话题结构、话题句式和话题与对比的.关系等方面入手时汉语和日语两种语言的话题进行多方位的比较,分析了话题在两种语言中的异同.

作 者:肖蓉 作者单位:贵州省铜仁学院,贵州铜仁,554300刊 名:中国科教创新导刊英文刊名:CHINA EDUCATION INNOVATION HERALD年,卷(期):“”(7)分类号:G131.3关键词:话题比较 话题助词 话题

研究话题 篇3

关键词 报纸版面 中国青年报 报纸特色

一、青年话题的话题特色

(一)时效性强

时效性是新闻报道产生应有的社会效果的事件限度,即在什么时间的范围内使新闻生效。一般来说,事件性新闻时效较短,而非事件性新闻时效长。现代新闻传播业追求时效性,要求加快新闻流通和改进传播技术。时效性是随着社会结构的紧密、变化迅速、交通发达、科学进步而逐步增加的。时效性是新闻的生命也是时评的生命,虽然评论对时效性要求不是特别高,但试想如果一篇评论紧跟时事,相比其可读性也会大大提升。

(二)关注社会热点

2013年两会期间人大代表朱列玉建议应将“贪污10万判10年以上”改为1年以上,遭致很多网友的反对,一时间朱列玉议案时间成为大家议论的热点话题有人斥责他“帮贪官说话、袒护贪官、鼓励贪污等等”。《中国青年报?青年话题》评论员殷国安就此事发表了一篇“及时雨”式的评论,题为《不易情绪化解读“贪污10万判刑1年”》。文中,作者对朱列玉的议案进行了理性而全面的分析。

“青年话题”因其时评的针对性、话题选取的热点性、观点的多元性以及全面性,做到了正确引导舆论,及时梳理公众情绪。对化解社会矛盾,沟通社会各阶层,构建和谐社会目标的实现发挥了正能量。

(三)贴近生活 关注民生

“从内容上看,民生新闻主要报道的是日常状态下平民百姓的衣食住行及所想、所感;从表达上看,民生新闻的基调和具体的表现手法与西方新闻界的‘软新闻’类似,多采用一些符合普通百姓接受心理与接受能力的‘软性’表达;从宗旨和终极目标上看,民生关切的目光心系民生疾苦,将硬新闻软处理,同时赋予软新闻以硬道理,在进行舆论监督的时候也立足于问题的解决而不是简单的批评了事。”

二、青年话题的语言特点

(一)犀利、不留情面

无论对政府部门还是企事业单位亦或个人,青年话题的编辑们都一针见血,剑指中心、不留情面。《强弱标签之外的“精明者”与“老实人”》作者程曼祺只寥寥数语就清晰勾勒出强弱标签之外的东西——制度。“一个满是漏洞的制度体系,让想依赖它、想相信它的人感到无所适从,感到被生活欺骗;它让老实人唾弃自己的老实,让单纯者悔恨自己的单纯。” 如此犀利的指出是制度让老实变成老实人的墓志铭,让精明成为精明者的通行证,对我国制度体系的批评可谓是不留情面。

(二)干练、利落

《谁来救赎“危险关系”中的“恶”》、《国家法定节假日并非越多越好》等等,很多文章都是干练、利落的文风,这些文章的题目一目了然,让人一眼就能明白文章的意图。《“符合规定”的官方回应让公众很受伤》一文上来就对杨存虎背景的介绍,让受众明白为何符合规定是带引号的,该文干练、利落,没有引出文章之外的枝蔓。以惊醒式的话语收尾,道出杨存虎们前仆后继的复出,侵蚀的是干部队伍,受伤的不仅仅是公众舆论,更是公众对政府的信任。

(三)反问式结尾,引发思考

《不妨学学柴静的“犯贱”精神》指出针对职业态度时人们需要有犯贱精神;《投入巨资的“前期准备”如何叫停》以反问式结尾,发人深省,实则强调领导、上级也应当对造成“烂尾楼”的项目负责;《儿童读物中的三聚氰胺》作者汪强善用比喻,将不负责任、错误百出的儿童读物比作毒牛奶、加了三聚氰胺的问题奶,指出不负责任的儿童读物对儿童的戕害。文章结尾作者指出将问题图书下架、退回的行为是远远不够的,“孩子已经读了,已经受到了戕害,难道仅仅退货就行了吗?”以反问的方式结尾,文章更有力量,更引人深思。

三、青年话题的评论风格

(一)观点的前瞻性

《中国青年报》评论文章观点具有前瞻性,这体现在他们角度的独特性,源于他们对事物的深刻观察,读青年话题的评论文章的成功之处在于他们提供给人们附加值,其中就包括对事物发展趋势的预测。

(二)论政而不干政

在一定的舆论环境下,自由表达观点的愿望可能会受到某种限制,而青年话题所做的就是在有限的空间里给人表达意见的机会,使不同的声音被大家听到。论政而不干政则是这个空间的最大特色。

(三)标题即为核心论点

标题是文章的眉目,好的标题有吸引人阅读的魅力。一般文章的标题是文章的总括。青年话题与一般文章截然不同的也正是他文章的标题,其特点是嬉笑怒骂、观点鲜明、标题即是文章的核心论点。这样读者更容易抓住作者所要表达的意思,一目了然。

(四)不同写作主体各有千秋

不同的写作主体关注点不同,思维不同,论证方式也不同。例如《别拿就业率来批判研究生教育》该文作者志灵风格低沉、严密,列举研究生就业率低于本科生的原因,指出本科生就业率高的虚伪性与水分,从而证明该命题的虚伪性。《不要指望老虎会喜欢笼子》一文作者汪强善用比喻,将权利比作老虎,将媒体监督、法律制度比作笼子。指出应加强立法工作,用法律与制度保障媒体的监督职能。

参考文献:

[1]陈力丹.新闻理论十讲[M].上海:复旦大学出版社, 2008.

[2]焦国章.报纸编辑学通论[M].呼和浩特:内蒙古人民出版社, 2001.

[3]刘建明, 纪忠慧, 王莉丽. 舆论学概论[M].北京:中国传媒大学出版社, 2009.

话题识别与跟踪技术发展研究 篇4

互联网的飞速发展和广泛应用,使得信息采集、传播的速度和规模达到很高的水平。这虽然实现了信息的全球共享与交互,但也造成了网络信息的急剧膨胀和杂乱无序,使人们难以迅速而准确地获取自己最需要的信息。

话题识别与跟踪(Topic Detection and Tracking,TDT)技术就是在这种情况下产生的。它可以将关于话题的分散多变的信息汇集并组织起来,以帮助用户发现话题中各种因素之间的关系,从整体上了解话题的各方面信息以及话题与话题之间的联系[1]。随着TDT技术的不断进步,其研究目标和处理对象已不再局限于媒体信息流,而是越来越广泛地应用于与信息相关的各个领域。

本文简要介绍TDT的任务和相关概念,重点论述国内外在该领域的研究现状,并展望TDT领域的发展趋势。文章具体结构为:第二节介绍TDT的相关概念、任务及测评方式;第三节详细论述话题识别技术的研究、应用现状以及发展趋势;第四节进行总结论述。

2 TDT简介

2.1 基本概念

TDT的处理对象是随时间动态变化的语言信息流,而不是静态的、封闭的文本集合。为了区别于语言学上的概念,TDT评测会议对“话题”及常用概念进行了定义[1,2]:

(1)话题(Topic):一个种子事件或活动,以及所有与之直接相关的事件或活动。

(2)事件(Event):由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个特例。

(3)报道(Story):与话题紧密相关、包含两个或多个独立陈述某个事件的子句的新闻片断。

2.2 TDT任务

TDT研究设立了以下5项基础性任务[1,2]:报道切分任务(Story Segmentation Task,SST)、话题跟踪(Topic Tracking,TT)、话题识别(Topic Detection,TD)、新事件的识别(New Event Detection,NED)、报道关系识别(Story Link Detection,SLD)。其中,话题跟踪(TT)是指监控新闻信息流以发现与某一已知话题有关的新报道,通常要事先给出一个或几个已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信息过滤,在数据挖掘领域则类似于对新闻数据流的分类研究。话题识别(TD)是指识别出系统未知的话题及其相关报道,将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题簇。从本质上看,这项研究等同于对新闻报道流数据的聚类研究。

2.3 测评技术

在TDT领域,对系统性能的评价主要使用归一化识别代价(Cdet)norm这一指标,它由系统的识别漏报率和误报率计算得到,计算公式如下:

其中,Cmiss和Cfa分别是漏报和误报的开销;Pmiss和Pnon-target分别是漏报和误报的条件概率;Cdet是错误识别代价,由以下公式得到:

其中,Ptarget是目标话题的先验概率,Ptarget=1-Pnon-target,Cmiss、Cfa和Ptarget都是预设值,作为调节漏报率和误报率在评测结果中所占比重的系数。除此之外,还可以根据系统对每个判断给出的可能性大小绘制识别错误权衡曲线,来直观地刻画漏报率与误报率之间的一种反比关系[3]。

3 话题识别(TD)的研究及应用现状

TDT研究的最终目标是在多种形式多种语言的新闻报道流中准确地自动检测新话题并对已知话题进行跟踪。话题识别任务是对这一终极目标的最佳体现,因此在TDT研究中处于比较重要的位置,引起了国内外研究者们的广泛关注。

3.1 基于聚类的TD算法

目前TD研究主要是对文本聚类算法的改进和延伸。一般可将TD分为回溯检测和在线检测两类,回溯检测的目的是从已有的新闻报道集合中发现以前未标识的新闻话题,而在线检测的重点在于及时从实时新闻报道流中检测出新的话题。相应的,主要的TD算法可分为基于层次聚类法和基于在线增量式聚类算法两类,其中在线增量式聚类算法能够及时从新闻报道流中检测到新话题,应用最为广泛。下面对几种具有代表性的TD算法进行分析。

3.1.1 基于层次聚类的TD算法

卡内基梅隆大学的研究者使用基于平均分组的层次聚类法(Group Average Clustering,GAC)实现话题识别,GAC是针对回溯检测的一种较好算法[4]。这种聚类方法是一种自底向上的贪心算法,采用分而治之的策略。该算法的输入为按照时间排好序的新闻报道集合,输出为层次式的话题结构。由于GAC算法只适合回溯检测,不适合话题的在线检测,因此应用范围受到了一定的限制。

3.1.2 基于在线增量式TD算法

基于增量式聚类算法被广泛应用于TDT研究中,其核心思想是:顺序地处理输入的报道,每次处理一篇,增量地更新聚类。预先设定一个相似度阈值Tc,如果报道与已有话题模型之间的相似度超过Tc,这篇报道就归属该话题模型文本类;否则根据该报道创建一个新的话题及其对应的话题模型,同时把该报道归属创建的新话题模型文本类,通过调整Tc可以控制聚类的粒度。

TDT研究中常用的增量聚类算法有单遍(SinglePass)聚类算法和K平均(K-means)聚类算法。

Ron Papka提出利用单遍(Single-Pass)聚类算法来实现在线新事件发现系统[5]。Single-Pass聚类是增量式的,先验相关报道稀疏会导致话题模型不准确,并且随着Single-Pass聚类进一步进行,误检率与漏检率会有可能增加,因此,骆卫华等人在传统Single-Pass聚类的基础上提出多策略优化的分治多层聚类算法[6],旨在将数据分组来减少大规模数据处理时的系统负荷,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,该算法在TD领域取得了一定成果;针对SinglePass聚类过程缺少用户或分类器的指导而产生不了理想的簇的问题,税仪东等人提出了周期分类和SinglePass聚类相结合的TDT方法,有效地降低了漏检率与错检率,减少了归一化错误识别代价[7]。

在利用K-means聚类实现话题识别时,必然会面临聚类类别数K的确定和初始质心的选择两个问题。刘素芹[8]等人针对K-means聚类出现的难题,提出基于命名实体的K-means动态检测方法。首先从文档特征提取方面进行突破,将文本中的命名实体和关键词进行分别处理,予以不同的权重,然后将二者结合构造话题向量,从话题的向量表示上加大了命名实体对文档表示的力度,丰富了词对文档表示的内容。然后在K-means聚类方法中加入了基于最大最小的自相似度收敛策略,实现了K-means聚类方法中K值的自动选取。

3.1.3 基于双阈值的TD算法

Hsin-His Chen等人提出了基于双阈值的话题检测算法[9],预设了另一个阈值Tn,通常Tc≥Tn。该算法与基本的在线增量式算法的区别在于判断方法不同,其判断过程为:如果报道与已有话题模型之间的相似度超过Tc,则认为报道和话题相关,更新该话题的模型表示;如果相似度在两个阈值之间,则认为报道和话题相关,但不更新该话题的模型表示;如果相似度小于Tn,则认为报道和话题不相关。

此外还有一些根据传统信息检索技术演变而来的话题检测算法,例如基于查询的话题检测算法[10]、基于K近邻的最相似文档比较法[11]等。

3.2 基于语义和语法特征的TD算法

TD研究的某些特殊性及其处理对象的特点,决定了仅仅利用现有信息检索方法来进一步提高系统的性能是很困难的,要想有所突破必须要借助更多的自然语言理解技术。目前,越来越多TDT研究者开始致力于基于话题本身特性的探索。

麻省大学的研究者根据词法特征自动生成多个分类器,并且每类事件通过包含查询语法和阈值的分类器来表现,最后根据标准化后的相似分值确定事件的类别归属[4];James Allan提出利用文本分类技术和命名实体识别技术相结合的方法来提高新事件的识别率[12];贾自艳等人给出了一种基于动态进化模型的TD算法,该动态模型是基于新闻事件的生存特点提出的,包括:基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想,该算法可以自动对新闻资料进行组织生成新闻专题,进而为用户提供个性化服务[13];万小军等人通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统,并将其成功应用于新华网数据中心[14];宋丹等人摒弃了传统向量空间模型中的单个向量,而借助自然语言理解技术,对特征词进行语义分组(人物、时间、地点、内容4组),形成具有4个独立向量空间的改进的向量空间模型,并基于这个模型采用一种启发式的聚类方法,取得了比较理想的效果[15]。

3.3 TDT技术的应用及发展趋势

近年来,TDT研究开始致力于网络信息挖掘及应用的探索,特别是热点话题发现、多文档摘要、流数据挖掘等。其中,网络热点话题发现不仅能够帮助用户准确高效地获取热点话题,而且其对网络信息安全以及舆论导向控制也有着重要意义。

随着网络上自由交流平台的不断发展,虚拟网络社区,特别是论坛(BBS)和博客(Blog),已经成为人们获取信息、发表言论的重要场所。近年来,TDT在该领域的应用研究也取得了一些成果。

针对BBS帖子文档字数少,语言随意的特点,研究者常采用基于语义分析的方法实现TD任务[16,17,18]:首先采用语义分析技术来消除传统算法忽略用词的上下文环境以及同义词带来的误判问题,然后依据帖子的内容进行相似度计算,最后进行聚类分析。但是,传统的计算BBS论坛中有影响力话题的方法还有很多不足,针对这一问题,蒋凡等人通过计算词语在回帖传播链上的影响力,提出了一种基于对有影响力词语聚类的TD方法,有效提高了提取BBS中重要话题信息的效率和准确率[19];为解决单个帖子线索的多话题性问题,识别聚类中的孤立点,鲁明羽等人采用模糊聚类进行TD,使得一个帖子线索可以隶属于多个话题,而对于隶属度远小于类内平均隶属度的帖子线索,则当作孤立点来处理,此外还给出了一种面向BBS文本的特征表示方法,并结合隶属度给出基于模糊划分的话题热度评分公式,取得了比较理想的效果[20]。

在Blog中,评论信息是识别话题热点度的一个主要因素,Gilad Mishne对Blog评论及其与话题的关系进行了大规模的研究,分析了评论数量及其平均长度对Blog关注度的影响,并说明了评论信息的使用可以提高Blog的检索排名[21]。但是这并没有考虑评论和话题的内容,针对这一问题,时明达等人将内容相关度和语义分析相结合用于Blog热点话题发现,在考虑评论数量的同时,还通过分析评论与话题内容的相关度以及评论的语义来计算话题在该Blog中的热点度,并最终实现热点话题发现[22]。

4 总结

研究话题 篇5

摘要:话题熟悉程度是影响英语听说能力的主要因素之一。尝试通过培养学生了解熟悉更多话题内容提高英语听说能力。听说训练话题设计以教材单元主题为线,结合课文内容、听力录音材料和学生亲身经历、身边发生的现象量身定制。为学生提供情境熟悉、内化、储备与主题相关的词组、表达方式,并以此描述个人亲身经历或周边现象。

关键词:听说训练;大学英语;话题;策略;设计;值日报告

黄子东[1]的实验研究证明话题的熟悉程度是影响英语听力理解的主要因素之一。毛浩然[2]建议事先准备练习得“滚瓜烂熟”的话题(至少七句话)去网络聊天室找高手对练口语。二人分别强调了熟悉话题在英语听说理解与产出过程中的重要作用,但没有论述大学英语教师在教学过程中如何进行听说训练使学生熟悉更多话题。本研究以新视野《大学英语》[3]系列教材为例,尝试通过培养学生了解、熟悉更多话题内容提高英语听说能力。听说训练话题应以单元主题为线,结合学生亲身经历及身边发生的现象量身定制话题,提供情境与机会使课堂所学词组、表达方式内化成积极词汇,并借此描述个人亲身经历或周围现象。

一、转换教学目标

大学英语教师要转变教学理念,把英语听说能力的提高渗透在单元目标中。不能简单地把教学目标制定为掌握本单元出现的词汇、表达方式、语法结构与句型转换等语言点本身,而是让学生通过本单元学习,使这些表达方式内化为积极词汇,能用这些词汇描述自己及身边发生的类似现象。以新视野《大学英语》(读写教程)[3]第一册Unit1LearningaForeignLanguage为例,根据精读课、听力材料内容及学生外语学习经历,本单元教学目标制定为学生能利用本单元出现的词汇及表达方式

1.描述自己的英语学习经历;

2.介绍自己以前的或现任英语老师,包括他们的人品及教学方法;

3.了解两种不同英语学习方法:传统课堂学习及网络课堂学习;

4.传统课堂及网络课堂的优缺点;你喜欢哪种学习方式?

5.如何操练才能学好英语;

6.外语学习的优点(你为什么喜欢学习英语?);

7.介绍英语学习小窍门(Tips)。

二、话题设计原则

在课堂实践中,教师应结合教材内容,把这些教学目标转换成相应的topics进行话题专项训练。话题设计以精读课单元主题为线,结合教学目标及学生亲身经历、身边发生的现象为原则。比如第一单元Pre-readingactivity介绍了一个人的英语学习经历,设置话题1“MyownEnglishlearningexperience”。学生可以以第一人称形式叙述讲话者本人的英语学习经历,也可以描述自己的学习经历。

在课文中作者提到了自己上大学前的英语学习有时好:名列前茅;有时停滞不前,同时分析了导致原因有二:要么是因老师,要么是因其他同学。在讲到作者的英语老师时,要求学生回忆自己以前的英语老师,并简要介绍他们的人品及教学方法,设置话题2MyformerEnglishteachers。

作者上大学后接触到网络,英语学习有了改观。讲授到这部分内容时,引导学生讨论网络学习和传统课堂学习两种学习手段,以及二者的异同。Regularclassroomstudy就是学生一直以来采纳的传统学习模式:去固定的教室听课,老师在讲台前授课,学生听课做笔记;老师提问学生回答等。onlinelearning就是上网注册虚拟课堂,利用在线资源学习。老师在线答疑。老师或同学也“提问”,只是所提问题要先发布到电脑屏幕上,学生阅读并写出答案,再发布上来分享。

通过讲解学生自己会描述话题3Whatisregularclassroomstudy/onlinelearning?通过了解作者在线网络学习英语后进步的原因讨论话题4Whataretheadvantagesanddisadvantagesofregularclassroomstudy/onlinelearning?

作者通过在线网络学习英语后还时常随身携带笔记本、袖珍字典查阅记录生词,坚持操练才大大提高自己的英语读写能力。在此启发学生也用类似手段学习操练英语,同时设置话题5HowdoyoupracticetoimproveyourEnglish?

课文最后一段介绍英语学习对作者来说是个tryingexperience,虽然充满困难与挑战,但他不愿用任何别的东西交换,说明英语学习有诸多优点。在此要求学生先找出课文最后一段中描述外语学习优点的关键词――动词词组及表达方式,然后用这些关键词回答Whydoesthewriternotwanttoexchangeitforothers然后结合自己英语学习经历回答话题6DoyouenjoystudyingEnglish(imagineyouarethewriter)?话题7是根据听力材料设计:一位日本英语老师讲述她英语学习的四个小窍门,要求学生在听懂的基础上复述谈话者的学习窍门,课后结合自身学习体会仿写TipsforEnglishlearning,完成话题7的内容。

三、操练与效应

每个话题随堂指导,当堂操练,课后补充书面成稿,下次课以口语值日报告形式展示。每单元前三次展示话题由教师指定为主,最后一次课话题由学生自选,作为对本单元话题训练的总结复习。展示初期准许念稿,但半学期后鼓励脱稿。要求学生认真准备每个话题,书面稿(不论展示与否)统一上交作为平时作业,由教师批阅登记。口语展示过程中,要求学生做笔记以便回答展示后问题。初期由教师提问,逐步过渡到学生提问。值日报告每学期要求志愿展示至少5次(不同话题),每次控制为5人次。展示稿质量、上交次数及展示次数、所提问题数量及难易程度量化积分作为平时成绩监控管理。

在宝鸡文理学院级教育系、哲学系229名大一新生中进行话题专项试验教学,期末口语考试、笔试作文反映学生心理词典中已内化储存了本学期训练过的话题图式,尤其是作文MyEnglishlearningexperienceincollege。训练时设置的话题是过去的英语学习经历,但考场作文不仅有过去学习的影子,更重要的是学生能用简单英语准确描述出自己对大学英语学习的.不同感受:第一堂全英文大学英语课让他如何对自己的听力失望;大学英语老师的人品与教学方法跟前任英语老师有何不同;大学英语学习跟中学英语学习方法的区别,他更喜欢网络学习,因为在线网络学习他不会受其他学得好的同学威胁,有更充裕的时间思考问题答案,不必担心出错而尴尬等;教师检查作业当全班同学面点了她的名使她如何羞愧,之后如何努力学习等。还有同学直接把背诵过的课文段落搬到了作文中,认为大学英语学习是个tryingexperience,不愿tradeforanything。他们从不同侧面描述了自己的大学英语学习体验。没出现面对话题无话可写的现象。

本学期口语考试有六个话题,提前准备,采用一对一面试形式。学生先概括介绍所有话题,然后教师随机提问,其中有两个问题:你觉得自己英语学习进步了吗?英语课上你能听懂百分之几?大部分同学能够听懂这些问题,并作出正确回应,且认为自己的英语学习进步了,能听懂授课内容的一半或更多。更加可喜的是考试现场有同学用英语描述了她对这次口语考试的感受:让她兴奋,锻炼了她,为她未来求职面试积累了经验,等等。

期末测验表明为期一个学期的话题专项训练尝试培养学生了解、熟悉了更多话题内容,并能灵活运用所掌握的话题内容。这种尝试是有价值的。

四、结语

设置基于教材主题,学生亲身经历或身边现象相关的话题进行听说专项训练能帮助学生内化与话题相关的词组、表达方式,扩充学生心理词汇,有助于提高英语听说写能力水平。在大学英语话题训练中所有互动活动应保证在全英文环境下完成,因为全英课堂本身业已为学生创设了听英语、说英语、用英语思维的氛围与机会。在这样的环境中学生自然而然会逐步转变英语学习目标――提高听说能力,而不是仅仅记单词、过四六级。

参考文献:

[1]黄子东.话题熟悉程度、语言水平和问题类型对EFL听力理解的影响:一项基于图式理论和关联理论的实验研究[J].现代外语,(4):18-43.

[2]毛浩然.分类标注・临摹复述・话题铺路――基于自主学习的英语听说三维突破模型[J].海外英语,2010(2):13-14.

[3]郑树棠.新视野大学英语(读写教程)(听说教程)[M].北京:外语教学与研究出版社,,6.

研究话题 篇6

在中国大陆,十年文革期间,现代中国文学学科曾遭受严重冲击。随着“文革”的结束,尤其是改革开放的逐次展开,进入20世纪80年代后,现代文学研究“大致经历了‘重评与学科复苏、思潮流派研究的流行、理论方法热、文学史整体观提出以及学科格局的调整等几个阶段。”[1]从上个世纪80年代至今,大陆中国现代文学研究进入相对繁荣的时期。其间阶段性的进展或热点包括“重写文学史”、“文学经典的颠覆与重构”、“现代性讨论与反思”、“女性主义和其他各种‘后思想的引进”、“文学史观、编撰与史料”、“现代文学学科观念、方法讨论”、“期刊媒介研究”、“学科边界打破”以及“跨学科和交叉研究的兴起”等等。

在西方,尤其是在美国,上个世纪80年代主要延续了60年代以来侧重于作家作品研究、文体文类研究的传统,同时开始关注不同时期、不同形态文学的整体状态,如清末民初通俗文学研究、新诗诗学、左翼文学乃至沦陷区文学研究等。进入90年代后,“西方中国现代文学研究显现巨大变化”。王德威将这种变化概括为三大方面:“‘理论热成为治学的一大标记”;“离开传统文本定义,成为多元、跨科际的操作”;“对有关历史论述的重新审视”,尤其是“对‘现代性的探讨”。[2]

从上面简要的勾勒中可以看到:近三十年来,无论在中国还是在美国,现代中国文学的研究呈升温、扩张之势,也出现了一些双方都广泛关注的话题。下面,我主要谈谈在我自己看来仍具有较大学术研究空间的两大话题:清末民初通俗文学研究和现代中国文化文学期刊研究问题。

一.清末民初通俗文学研究

由于各种原因,清末民初文学尤其是通俗文学曾长期面临尴尬局面。首先是其学科和文学史归属问题一直纠缠不清。在古代中国文学研究中,鸦片战争以后的清末文学要么被省略,要么被当作一个尾巴一笔带过。在现代中国文学研究中,受新文学传统影响,现代文学的起点被确立在五四前后,而此前的清末民初文学亦往往被当作铺垫甚至是对立面,很少得到正面意义上的关注。作为一种妥协方案,遂产生所谓“近代中国文学”概念乃至“近代中国文学史”学科分支。此外,在文学性质、价值的认定乃至审美评价等方面,除《海上花列传》等“狭邪小说”、《官场现形记》等“四大谴责小说”外,中国国内学者对清末民初文学、尤其是以“鸳鸯蝴蝶派”为代表的通俗小说,基本持完全否定的态度。

上个世纪80年代以来,随着中国国内现代文学界“重评”、“重写”思潮的流行,包括当代文坛“通俗文学”创作的兴盛,范伯群等学者开始重新关注张恨水等通俗作家、“鸳鸯蝴蝶派”等通俗文学流派;清末民初通俗文学研究,亦开始受到重视。近乎与此同时,林培瑞(Perry Link)、皮科威茨(Paul Pickowicz)、张赣生、魏绍昌、杨义、吴福辉、王德威、张英进、傅葆石和李欧梵等海内外学者同样都有意识地将视点从知识精英转移到都市大众文化消费市场上,对清末民初的通俗小说和电影作了重点研究。这种目光转向所带来的成果,尤以王德威等学者对晚清文学尤其是小说的研究,如《被压抑的现代性》论著,在中国大陆产生了很大影响,进一步推进了一段时期以来的整个华语现代文学研究的“晚清转向”。进入新千年以来,清末民初文学,包括通俗文学,从作家作品到社团流派,从学科反省到文学史观讨论、文学史编撰,从思想文化到期刊媒介,等等,已经成为华语现代文学研究中绕不开的话题和持续不衰的热点。

回顾三十年来清末民初通俗文学的研究,其话题主要集中在以下几个方面。

1.清末民初通俗文学的文学史地位问题。

如前所述,此前的现代中国文学,无论在学科观念上,还是在文学史物件、范围、分期诸方面,绝大多数“以五四为起点”,而将清末民初文学乃至通俗文学排斥在外。近三十年来,在“重写文学史”思潮,以及“20世纪文学”、“百年文学”、“现代中国文学”等学科观念或文学史观中,清末民初文学、通俗文学,已经被相当部分的学者所接纳、认可;已出现了不少涵盖清末民初文学、通俗文学的文学史著作、教材。

2.清末民初通俗文学的作家、作品研究与思潮流派乃至专题专史研究问题。

近三十年的清末民初通俗文学的研究,大致经历了从作家作品,到流派思潮,再到专题专史这样一个逐渐扩展的过程。作家作品研究,是过去近代文学研究的一个重要传统,如关于《海上花列传》、“清末四大谴责小说”的研究。流派思潮研究,则主要集中在清末民初通俗文学思潮,尤其是过去争议较大的“鸳鸯蝴蝶派”、“礼拜六派”方面。相关成果有《礼拜六的蝴蝶梦》《民国通俗小说鸳鸯蝴蝶派》等。近十多年来,清末民初通俗小说研究,出现专题化、专史化走向,代表性著作有《鸳鸯蝴蝶派:20世纪初中国城市的通俗小说》《被压抑的现代性》《民国通俗小说论稿》《中国现代通俗文学史》《插图本中国现代通俗文学史》等。

3.清末民初通俗文学的多学科、跨学科研究问题。

以多学科和跨学科视野、方法研究清末民初通俗文学,是近十多年来又一个发展趋势。在清末民初文学源流研究方面,多延伸至古代俗文学、尤其是明清通俗文学,如刘扬体《病态文学的盛衰》、武润婷《鸳鸯蝴蝶派小说与“以情抗理”文学思潮》等。在发生基础、背景、演化研究方面,则涉及到文化学、传播学乃至科学技术领域或视点,如李楠《晚清、民国时期上海小报研究》。在审美价值、历史贡献和文学地位方面,也更增添了各种“后思想”视野与方法,尤其是比较文化、比较文学的研究方法,如王向远《中国的鸳鸯蝴蝶派与日本的砚友社》、袁荻涌《鸳鸯蝴蝶派小说与西方文学》等。

近三十年来清末民初通俗文学研究尽管取得了快速的发展,但也存在一些有待深入或扩展的空间。就我自己的理解或兴趣而言,如下一些问题是可以进一步研究的:

①清末民初通俗文学的史料整理,如作品编目、索引;

②清末民初通俗文学中的作者、读者转向问题;

③清末民初通俗文学文体、语体问题;

④清末民初通俗文学尤其是小说的“雅俗互动”问题;

⑤清末民初通俗文学与五四新文学的“先锋”与“大众”的关系问题。

二、现代中国文化文学期刊研究

关于近现代中国文化文学期刊的种类、数量,由于资料所限乃至分类和取样方式不同,至今未有准确的统计。不过根据已经发表的期刊目录、汇编、叙录等相关推测,其总量当在四千种以上[3]。

对现代中国文化文学期刊的研究,可以上溯至上个世纪20年代关于文学期刊的零星述评,尤其是1935年出版的《中国新文学大系》。建国以后,相关学者也在现代文学期刊史料、资料整理方面取得了初步的成果,如张静庐《中国现代出版史料》及其《补编》,现代文学期刊联合调查小组编纂的《中国现代文学期刊目录》(初稿), 刘华庭等编纂的《中国现代戏剧电影期刊目录》等。近三十年来,近现代中国文化文学期刊问题,无论在历史学、出版编辑学、图书情报学、新闻与传播学等领域,还是在现代文学领域,都得到越来越广泛的重视。

就出版、新闻、传播、图书情报乃至历史等学科而言,早在20世纪80年代初中期,中国国内相关机构或学者就在报刊出版史资料方面做了一些基础工作,如中国社会科学院近代史研究所编辑出版的《辛亥革命时期期刊介绍》(1-3集,1982-1983),全国图书联合目录编辑组编《1833-1949全国中文期刊联合目录(增订本)》。近年来,随着新闻与传播学研究在我国高校和学界的迅速发展,出现了一些有影响的中国新闻史乃至报刊史研究的论著、教材,如《中国近代报刊史》(上、下,方汉奇主编,1981),《中国期刊发展史》(宋应离主编,2000)、《中国新闻传播史》(方汉奇主编,2002)等。此外,新闻与传播学专业的研究生也撰写了一些具有较高质量的相关论文。从通史性的新闻传播史,到专题性的报刊史乃至期刊史,是该研究领域近年来的一个趋势。

就中国现代文学学科而言,近年来,随着现代文学学科观念、方法的更新和研究视域的扩大,不少学者把目光转向现代期刊与现代文学的关系研究,出现了一批有影响的论著,如《中国现代文学期刊目录汇编》(唐沅等编,1988)、《中国现代文学期刊史略》(黄志雄,1995)、《中国近现代文化期刊史》(周葱秀、涂明,1999)、《中国现代文学期刊史论》(刘增人等,2005)等。此外,在文学期刊的区域研究、专题研究等方面,也出现了一批成果,如《抗战时期桂林文艺期刊简介和目录汇编》《上海“孤岛”文学报刊编目》《抗战文艺报刊篇目汇编》等。不仅如此,国内外学者、研究生还进一步将期刊研究与文化文学、社团流派研究结合起来,出现了一批较有分量的学术论著或学位论文,如李欧梵《上海摩登———一种新都市文化在中国,1930-1945》,陈平原、山口守编《大众传媒与现代文学》,王晓明《批评空间的开创》,Michel Hockx《Questions of Style: Literary Societies and Literary Journals in Modern China, 1911-1937》,以及关于《新青年》《小说月报》《现代》杂志的专论、学位论文等。

然而,在我看来,无论上述哪一个学科,在研究对象、方法和思路上都存在明显的局限或不足。这里,我主要谈谈“同人期刊”研究问题。

“同人”(doujin)一词源自日本,其义之一为“志同道合的人、同好”。日文亦以“同文志”(doujinshi、fanzine)指涉“志同道合者出版的书籍、刊物、漫画等”。五四前后,随着现代中国留学运动和文化文学运动的结合,中日、中西文化交流的扩大,“同人”乃至“同人刊物”语汇、概念和观念遂为新文化、文学界所接受和传播;而“同人期刊”则一度成为现代中国文化文学生产与传播实践一种非常普遍的形式和方式。其情形正如《现代》杂志主编施蛰存所说:“‘五四以后,所有的新文化阵营刊物,差不多都是同人刊物,一个人为中心,号召一些志同道合的合作者,组织一个学会,或社,办一个杂志。每一个杂志所表现的政治倾向,文艺观点,大概都是一致的。”(《〈现代〉杂忆》)因此,可以毫不夸张地说:“同人期刊”是现代中国文学、文化史,尤其是社团流派史上一个非常突出的现象。

但是,在以往研究中,无论是新闻与传播学研究领域,还是现代文学史研究领域,都明显对同人期刊问题少有关注。

在新闻与传播学研究领域,一般新闻传播史受“新闻学”或“新闻学史”传统的影响,往往偏重新闻性强的“报纸”而不是“期刊”;即使是在对“期刊史”的研究中,亦缺乏对“同人期刊”现象,包括与两者密切相关的“同人文学”、“同人文化”现象的专题研究。

在现代文学史研究领域,大多数研究要么仅限于期刊个案和文学现象个案的结合,要么止步于社团流派与相关期刊一般背景或关系的综合描述;而鲜有从“同人期刊”自觉意识和观念出发,对现代中国文学社团流派中非常突出的“同人期刊”,包括与之相关的“同人媒介”、“同人传播”现象进行系统而专门的研究。

更重要的是,虽然目前这两大学科在交叉和综合研究方面有所进展,但在理论、方法、物件和重点等方面,仍然存在各行其道、各有偏重的局限。因此,将传播学和文学乃至文化学融会贯通,在多元视角中还原或阐释社团流派现象,在交叉和综合中寻找新的学术生长点,仍然需要更多的学术探索和努力。

正因为如此,我认为:在新闻传播学与文学乃至文化学的综合视域中,以现代中国“同人期刊”为主要研究物件,一方面着重考察其间现代“同人期刊”发生、发展的历史原因、基本面貌、运作机制、主要特点;另一方面深入探讨与此相关的现代中国文学、尤其是现代文学社团流派现象;这样可以从期刊史和文学史、文化史相结合的角度,举一反三,阐释和总结现代中国曾一度兴盛且很快走向衰落的“同人期刊”、“同人文学”、“同人文化”现象。这种研究,不仅可以弥补以往“同人期刊”研究之不足,亦可从“同人期刊”乃至“同人文学”、“同人文化”角度,可为现代文学社团流派的发生机制、生产模式、文化文学生态研究,寻找一种新的观照方式。

在这方面,可以考虑的研究课题有:

1.现代中国“同人期刊”的历史发生与基本面貌;

2.现代中国“同人期刊”的媒介机构与传播机制;

3.现代中国“同人期刊”的文学生产与文化生态;

4.现代中国“同人期刊”的社会功能与历史价值;

5.现代中国“同人期刊”与社团流派关系研究。

综上所述,近三十年来,随着中国社会、思想、文化、学术诸领域开放性的增强,以及中外交流的扩大,现代中国文学研究在理论、方法、角度、学术观念、资源乃至研究话题诸方面都趋于多元化;整体研究领域、研究格局上,也呈现出前所未有的开放和扩张:纵向上延伸至晚清和当代,横向上扩展至政治、文化、教育、传播等其他学科领域。

上面所谈的研究话题,就充分体现了这一总的趋向:“清末民初通俗文学研究”与近30年来现代中国文学学科观念、文学史观念乃至审美评价标准的变化密切相关;至于“现代中国文化文学期刊研究”、尤其是“同人期刊研究”,则是近年来现代中国文学研究的综合化、跨学科化趋势的直接反应。从上述意义上讲,文中提到的两个研究话题的历史、现状以及相关问题,不仅具有一定的代表性、典型性,而且也具有一定的启发性和实际的学术研究价值。

参考文献:

[1]温儒敏.从学科史回顾八十年代的现代文学研究[J].北京大学学报2004(5).

[2]王德威.海外中国现代文学研究的历史、现状与未来[J].当代作家评论2006(4)期。

[3]关于清末民初近代期刊数量,上海图书馆主编的《中国近代期刊篇目汇录》,收录了自1857年至1918年间出版的中文期刊495种。关于现代中国文学期刊数量,刘增人认为:从1915年9月《新青年》创办,至1949年7月全国第一次文代会召开,“所见和时贤叙录的现代文学期刊大约在3347种以上”。(《现代文学期刊的景观与研究历史反顾》)

研究话题 篇7

剪枝是一种机器学习技术,通过移除树的某些节点来减少决策树的大小,其中这些节点对分类实例拥有很小的影响因子[1,2]。剪枝不仅能够减小算法的复杂性,同时还能够提高算法的预测准确性。

在决策树算法中,一个重要的问题就是优化最终树的规模。如果树的规模过大,就会存在训练数据集过度拟合而新样本概括不准确的问题; 树的规模过小也会无法把握样本空间重要的信息结构。同时,也很难分析出算法何时应该停止,因为此时仍无法判断新加入的节点能否动态地减少错误,这个问题即被称为视界效应。一个一般化的策略是让树自然生长直到停止为止,再使用剪枝策略去移除那些没有重要作用的节点。

在本文中,研究拟将剪枝技术运用到社交网络话题传播模型中。在进行社交网络话题传播时,话题在不同的用户之间相互传播,这些用户则形成了社交网络关系图[3]。当随着时间不断向前推移,社交网络关系图变得更加复杂,则话题传播模型在这样的社交关系图上模拟将会花费更多的时间和空间。为了节省空间和时间开销,本文提出并设计了两种新颖的图剪枝策略来减少社交网络图中的节点数量。文中的算法是将推荐系统的思想引入到社交网络传播模型剪枝策略中,具有一定的新颖性。在本文实验部分,则将本文提出的算法同随机剪枝策略[4]和基于度的剪枝策略[5]进行比较分析,结果表明本文的算法在剪枝效果上具有明确显著的优越性。

1问题定义

该小节介绍了相关概念和符号以及社交网络话题传播模型剪枝问题的定义。在此,假设给定一个社交网络关系图G( V,E) ,V是社交网络关系图中用户的集合,G是社交网络关系图中用户和用户关系的集合。同时假设以关键词q作为用户讨论的话题,且在社交网络关系图G( V,E) 中存在的话题集合为Q( q∈Q) ,由于话题在社交网络中是分布在不同的用户v上,因此Q和V之间存在二元映射关系,如图1所示。

一个用户可以包含多个话题,一个话题也可能对应多个用户。同时话题对于不同用户,其权重也是不同的,因此上假设关键词q对于用户v的权重为w( q,v) 。根据上述定义, 可以抽象出本文的研究问题: 已知社交网络关系图G( V,E) 和话题集合Q,求出G( V',E') 。为了解决上述问题,本文提出了两种新颖的图剪枝算法,根据G( V,E) 和话题集合Q提供的信息,结合图剪枝算法来获取G( V',E') 。下面将介绍本文所研究的社交网络话题模型的剪枝策略。

2剪枝策略算法研究

本节介绍了两种社交网络话题模型的剪枝策略,基于话题权重和基于用户兴趣相似性的剪枝策略。总而言之,这两种算法均是将推荐系统的思想引入图剪枝策略中。

2.1基于用户话题权重的剪枝策略

基于用户话题权重的剪枝策略与基于用户兴趣相似度剪枝策略类似,都是利用了话题与用户之间的关系。不同之处是后者计算与用户具有共同兴趣用户广泛度,前者是计算拥有话题的广泛度。在传播模型中,如果多个话题出现在某个用户上,则在一定程度上可以说明话题在传播过程中频繁地经过该用户,因此这样的用户可以被看作关键用户。基于上述的原因,研发设计了一种基于用户话题权重的剪枝策略算法。

假设社交网络关系图为G( V,E) 以及话题集合为Q,每一个话题q∈Q被一个或者几个用户所拥有,则假设拥有话题q的用户集合为Vq,用户v拥有话题q的权重为w( v,q) 。 首先,对每一个话题q的用户集合Vq按照用户v拥有该话题的权重w( v,q) 进行排序,如图2所示。

然后,将每个话题的用户按照从小到大的顺序进行编码,如图3所示。

最后,循环遍历每一个q来统计每一个v的话题权重总和,并排序,如图4所示。

2.2基于用户兴趣相似度的剪枝策略

在本节中,给出了话题集合Q与用户集合V存在映射关系,即同一个用户可以拥有多个话题,同一个话题可以被多个用户拥有,因此即以用户拥有的话题相似性来表示用户的兴趣相似性。在以上研究中,已经阐述到用户的兴趣相似度对话题转移概率是有影响的,当用户间兴趣相似度越大,则话题更有可能在同群用户之间经常传播。如果某个用户与很多用户均具有颇高的兴趣相似度,则这样的用户就是话题传播过程中的关键用户而应该得到保留。假设用户v的话题集合分别为Qv和Qu,则采用cosine - index[6]来衡量兴趣相似度,即:

由公式( 1) 可以计算出v,u∈V的suv。下面将以4个用户( u1,u2,u3,u4) 为例来说明该算法步骤。当计算出所有用户之间的兴趣相似度后,就可以得到如下所示的矩阵图:

如图5所示,该图的前半部分表示用户兴趣相似度的矩阵图,后半部分即将每一个用户与之关联的用户兴趣相似度进行排序。而后再对排序后的矩阵进行归一化处理,如图6所示。

最后,则将归一化的矩阵中每一个用户的兴趣相似度进行统计,并排序得到综合结果。具体如图7所示。

用户最终得到的权值越大,就说明用户和周围用户有着更为广泛的兴趣相似度,反之亦然。

3实验结果与结论分析

本节主要介绍上述几种剪枝策略的实验设计原理以及实验结果。实验中采用真实的微博数据集来构建社交网络关系图和相关话题的提取,并运用上述几种剪枝策略来对社交网络关系图进行剪枝,完成后则将传播模型的算法在剪枝后的社交网络关系图上进行传播模拟,从而比较不同剪枝策略下传播模型的预测效果。

3.1数据集

本文采用的是微博数据集,抽取的是在某一时间粒度下的数据集来构建社交网络关系图以及话题的抽取,实验数据及环境配置如表1所示。

3.2实验设计

本节从新浪 微博数据 中选取了11 589个节点以 及106 198条边构成一个社交网络关系图,并从中抽取107个话题。首先是将不同的剪枝策略对社交网络关系图进行剪枝, 然后用传播模型算法分别在不同的剪枝后的关系图上模拟话题传播,比较不同剪枝策略下的预测效果和运行时间。同时,对于每一种剪枝策略,均将会构建实验并据此分析不同剪枝程度对传播模型话题预测效果的影响。

3.3实验效果评估

图8是将准确率和召回率进行结合所得到关于不同剪枝策略对于剪枝比例同传播模型F1值关系的曲线图。从图中可以看出,Degree Pruning ASC的F1变化最快也是最低,主要是因为按照节点度数从大到小的顺序进行剪枝,首先就会剪掉一些关键节点。其次是Random Pruning,然后是Degree Pruning DESC。上述三种剪枝方式从某种程度可以反映出节点的度数同节点的影响力之间的正相关性。Interest Similarity Pruning和Topic Weight Pruning在随着剪枝比例增大时, 前期对传播模型的准确率并没有太多的影响。到后期时二者的F1值都会发生下降,但Interest Similarity Pruning的F1值会出现陡降,因为当剪枝比例越大时,通过Interest Similarity Pruning所剪掉的节点才是正真意义上的关键传播节点, 因此将会导致话题传播严重受阻,F1急速下降。

图9展示了不同剪枝策略下,剪枝比例同程序运行时间的关系图。整体上看,随着剪枝比例增大,所用的时间呈线性下降。Degree Pruning DESC的程序运行时间低于其他剪枝策略,因为这具体是按照节点度数从大往小进行剪枝,将容易破坏图的连通性,致使信息传播受阻。其次是Random Pruning。利用Interest Similarity Pruning,Degree Pruning ASC以及Topic Weight Pruning三种剪枝策略剪枝后,传播模型的运行时间将十分相近,这在某种程度来说如上三种剪枝策略都能够保证社交网络中图的连通性。

4结束语

微博舆情话题传播行为预测研究 篇8

目前,微博已经成为舆情话题传播的重要渠道之一,对微博网络中的舆情话题传播过程进行监控及预测, 将有利于相关部门对不良舆情进行有效地疏导和澄清。 本文以新浪微博为例,在深入分析用户转发行为的基础上, 提取出了影响微博个体转发行为的4类特征,利用逻辑回归模型(Logistic Regression,LR)对微博用户的舆情话题转发概率进行预测, 并在此基础上给出了一种基于个体行为的微博舆情话题转发规模预测算法。

2微博舆情话题的个体转发行为预测

2.1转发概率预测模型

本文利用有向无权图G(U,E)来对微博网络进行描述。 其中U为网络中所有节点构成的集合 ;E为网络中所有边构成的集合,且eu,v∈E表示节点u指向节点v的有向边,即节点u对节点v的关注关系 ,信息的传播方向与关注方向相反 。 假设用户v发布了一条话题消息topic,则y=f(v,u,topic)表示节点v的粉丝节点u在看到该话题后采取的行为:y=1表示节点u对该话题进行转发;y=0表示节点u不对该话题进行转发。因此,研究微博用户的个体转发行为,即是在给定话题信息topic以及用户关系网络G(U,E)的情况下,预测用户u转发话题信息topic的概率。

本文借鉴文献[2]和文献[3]的研究结论,使用LR模型对微博用户的舆情话题转发概率进行预测,其预测公式如下:

其中,Fu(topic,G)为影响用户u转发话题的行为特征集合 ; yu表示用户u的转发行为;ω 为权值向量, 其值可以采用极大似然函数进行估计。

2.2用户转发行为特征提取

2.2.1话题接收者特征

(1)话题接收者的兴趣度 。 本文利用了Jaccard相似度计算方法,通过计算微博话题内容与用户感兴趣内容的相似程度,来对用户兴趣度进行量化。

步骤1:兴趣收集。 收集某时间段内用户u发布的所有Ns条微博,构建用户u的语句级兴趣空间IS={S1,S2,…,SNs}。

步骤2: 分词 。 本文采用 中科院计 算技术研 究所开发 的ICTCLAS系统[4]对IS中的语句进行分词 ,得到用户u的词语级兴趣空间IW={W1,W2,…,WNw}。

步骤3:从中剔除停用词。 本文利用CSDN(2010)提供的停用词列表,以去除IW中的停用词,最终得到用户u的兴趣空间。

步骤4:针对某一舆情话题topic,按照步骤2~步骤3,对该话题进行处理,得到话题topic的特征空间TP={T1,T2,…,TNt}。

步骤5:计算INT和TP的Jaccard系数。 Jacccard系数是样本集交集与样本集合集的比值[5],即微博舆情话题特征空间与接收用户兴趣空间的相似度为:

SIMu,topic表示了用户u对目标话题topic的感兴趣程度。

(2)话题接收者的活跃度 。 本文利用式 (3)计算话题接收者的活跃度Ra:

其中,ri,ci,oi分别为用户在n天内转发、 评论和原创的微博总数。

(3)话题接收者的重复接收次数 。 研究表明 ,用户会因为信息的重复接收,而对该信息的转发倾向发生改变[6]。 因此,本文认为话题接收者的关注对象中转发目标话题信息的数量, 会影响该话题接收者的转发行为。

2.2.2话题发布者的特征

(1)话题发布者的影响力 。 微博网络中 ,发布者的影响力大小势必会对其粉丝的转发行为产生影响[6]。 本文采用文献[7]给出的UIR算法来评价话题发布者的影响力,该算法可以描述为:

其中,UIR(v)为节点v的影响力,d为[0,1]区间上的阻尼系数,通常情况下,取经验值d=0.85,本文假设节点的初始UIR值为1。 f(v)表示节点v的粉丝集合,Au,v为节点v分配给节点u的UIR值的比例:

其中,Nf是节点v的粉丝节点总数,Ra为节点v的第k个粉k丝节点的活跃度,Ra可由式(3)计算得到,通过有限次的反复迭k代,就可以获得目标节点v的UIR值。

(2)话题发布者与接收者之间的社会关系 。 研究表明 ,与具有“单向关注”关系的用户相比,具有“双向关注关系”(“互粉”) 的用户间的亲密程度更高[8]。 此外,用户间的互动次数也从另一个方面反映了用户间的关系亲密程度,本文定义用户u和用户v之间的互动次数为

其中,Cu,v为用户u和用户v转发对方微博的数量,Ru,v为用户u和用户v评论对方微博的数量,Mu,v为用户u和用户v在微博中提及(“@”)对方的次数。

2.2.3话题的内容特征

研究表明, 微博话题中是否包含图片、 视频、URL、Hashtag以及“@”等内容,均会对用户的转发行为产生影响[3]。

2.2.4外部媒体关注度

本文利用目标舆情话题传播过程中, 网络媒体对此舆情事件的新闻报道数量,来描述外部媒体的关注度。 针对某一目标舆情话题topic,首先得到该话题的特征空间TP=(T1,T2,… ,TNt),并提取出相应舆情事件的关键词, 然后利用百度搜索引擎得到该舆情事件的相关新闻报道数量NMtopic。

通过以上分析, 本文共提取了影响微博用户舆情话题转发行为的11个数值化特征,见表1。 特征6、7、8、9、10均采用二元表示方法。

3微博网络舆情话题转发规模预测算法

3.1微博网络中的话题转发规则

微博网络中,用户节点对某一目标话题topic的转发规则如下:

(1)定义微博舆情话题的传播底图为有向网络G(U,E),其中U为该网络中所有节点的集合,E为网络中所有边的集合,节点总数为N。

(2)定义U中的节点仅具有两种状态,即易感状态S和传播状态I, 其中S态表示节点没有对目标话题进行转发,I态表示节点对目标话题进行了转发;USt、UIt分别表示t时刻,网络中的S态节点集合和I态节点集合。

(3)定义节点u所关注的节点集合为FL(u)={v|eu,v∈E}。

(4)定义t时刻节点u所关注的S态节点集合为FLSt(u)={v|v∈ FL(u),且v为S态};t时刻节点u所关注的I态节点集合为FLIt(u)= {v|v∈FL(u),且v为I态}。 此处假设FLIt(u)中的每个节点均会影响节点u的转发行为,且其中所有节点对节点u转发行为的影响相互独立。

(5)根据式(1)确定节点u对话题topic的转发概率Pu,topic

(6)假设节点u对话题topic产生转发行为的阈值为 λu,且 λu= [0,1],则当Pu,topic≥λu时,节点u将产生转发行为,并由S态转变成为I态。

(7)FLI(u)中每增加一个I态节点时,需要对特征集合Fu,topic中的话题发布者特征进行更新,即更新表1中的特征4、5、6。 由此得到目标舆情话题在网络G(U,E)中的传播过程。

3.2PRALR算法

本文根据上述话题转发规则,给出了一种微博舆情话题转发规模的预测算法———PRALR算法,其实现过程如下。

步骤1:网络初始化。获取微博网络上舆情话题传播的历史数据集,得到传播底图G(U,E),并为网络中的每一个节点用1,2,…,N进行编号,其中N为节点集合U中的节点总数;利用式(1)给出的逻辑回归模型,通过训练得到权值向量 ω,进而建立每个节点的转发概率预测公式; 为U中的每个节点设置随机的转发阈值 λ∈[0,1];初始状态下,网络中所有节点均设置为易感状态S,即US0中的节点数为N,UI0中的节点数为0;根据网络中边的集合E,为U中的每个节点i建立集合FLS0(i)、FLI0(i)(i=1,2,…,N)。

步骤2:t=1时刻, 设置网络中某一节点v为I态, 即v为话题topic在该网络中的入口节点,将其从对应的FLS0(i)中移除,放入相应的FLI0(i)中,并更新US1、UI1。

步骤3:t时刻,对于网络中任意节点u,根据集合FLIt-1(u)中各节点状态的改变,对节点u的特征4、5、6进行更新,得到更新后的Fu(topic,G),并重新计算节点u此时的转发概率函数Pu,topic,如果Pu,topic≥ λu,则节点u产生转发行为。

步骤4: 将在步骤3中产生转发行为的节点u从对应的FLSt-1(i)中移除,加入到相应的集合FLIt-1(i)中,即将FLSt-1、FLIt-1分别更新成为FLSt、FLIt,同时更新USt、UIt。

步骤5:t=t+1,重复步骤3~步骤4,直到网络中再也没有新的节点产生转发行为为止。 此时,集合UI中的节点数,即为话题topic在该网络中的最终转发次数。

4实验仿真

4.1实验数据集

本文利用自行开发的爬虫工具从新浪微博中抓取了1 000条用户特征数据, 及这些用户在采样时间段内发布的95 783条微博数据, 并最终从原始数据集中提取出15 276条舆情话题数据,构成实验数据集,其中包括6 814条转发数据,8 762条非转发微博数据。

4.2舆情话题转发行为预测结果及分析

本文利用Matlab工具对微博用户舆情话题转发行为进行预测。 首先,从实验数据集中提取出表1所描述的11个话题转发行为特征,构建每个用户的话题转发行为特征集合Fu,topic;然后 , 将实验数据集分成训练数据集和测试数据集两部分, 其中训练集中的微博数量占70%,测试集中的微博数量占30%;最后,利用训练集估计出式(1)中的权值向量 ω,进而建立每个用户的微博舆情话题转发概率模型, 并利用测试集对用户的转发行为进行预测,预测结果见表2。结果表明,本文给出的微博舆情话题转发行为预测模型具有较高的预测准确度。

4.3舆情话题转发规模预测结果及分析

本文从数据集中选取了2个舆情话题,其中话题1为“奥巴马2013年就职典礼”,其在本文选取的微博子网中被转发了595次(采样时间为2013年1月21日-2013年3月31日);话题2为“长春盗车杀婴案”,其在传播子网中被转发了1 057次(采样时间为2013年3月4日-2013年3月31日)。 利用PRALR算法对以上两个话题的转发规模进行预测, 分别得到了其转发次数随时间的变化趋势,如图1所示。 结果表明,PRALR算法可以有效地预测微博舆情话题转发规模的演化趋势。

5结论

本文分析了影响微博用户舆情话题转发行为的相关因素, 利用逻辑回归模型, 对微博用户的舆情话题转发行为进行了预测。 此外,本文还将微观层面上的个体用户行为与宏观层面上的微博网络话题传播过程相结合, 给出了一个基于个体行为的微博舆情话题转发规模预测算法———PRALR算法。实验结果表明, 本文给出的微博用户舆情话题转发概率预测模型, 及预测微博舆情话题转发规模的PRALR算法,均具有较高的预测精度。 本文的研究工作将为相关部门制订有效的微博舆情话题控制策略提供一定的理论依据。

摘要:本文分别从接收用户特征、发布用户特征、微博内容特征以及外部媒体关注度4个角度,分析了微博用户舆情话题转发行为,建立了基于LR的微博舆情话题转发行为预测模型,并给出了一个基于个体行为的微博舆情话题转发规模预测算法(PRALR)。实验结果表明,基于LR的微博舆情话题转发行为预测模型及PRALR算法均具有较高的预测精度。

研究话题 篇9

关键词:Blog,话题检测,词频统计,权重计算,相似度计算,简单聚类算法,ISODATA算法

0 引言

话题检测是指将来源于新闻数据流中的报道归入不同的话题, 并在必要的时候建立新的话题的技术。本文对中文Blog的热门话题检测技术做了研究, 把ISODATA算法与简单聚类算法相结合。简单聚类算法可以解决规模和时间花费问题, 而且可以把文本相似度的计算结果应用到聚类算法中, 缺点是简单聚类算法聚类后的类别数得不到控制。而ISODATA算法的引入可以设定聚类后类别数的控制参数, 这两种方法的结合使聚类效果有了进一步的提高。

1 简单聚类算法

简单聚类法的基本思想:主要根据相似性阈值和最小距离原则, 通过计算特征矢量到聚类中心的距离并和类内距离门限T比较, 决定归属哪类或作为新的一类中心。我们研究的对象是文本, 规定距离的定义为文本之间的相似度。所以本文的聚类算法就应该描述为: 通过计算文本到聚类中心的文本相似度, 并且和类内门限T比较, 决定归属哪类或者作为新的一类中心。

2 ISODATA算法

ISODATA算法的基本思想:先选择若干样品作为聚类中心, 再按照最小距离准则使其余样品向各中心聚集, 从而得到初始聚类, 然后判断初始聚类结果是否符合要求, 若不符, 则将聚类集进行分裂和合并处理, 以获得新的聚类中心 (聚类中心是通过样品均值的迭代运算来决定的) , 再判断聚类结果是否符合要求。如此反复迭代, 直到完成聚类划分操作。

3 中文Blog热门话题检测方法

3.1 文档预处理

文档的预处理主要包括分词和去除停用词。本文通过调用外部分词软件来进行分词, 所使用的是中国科学院研发的分词软件。

利用分词软件进行分词前、后程序运行如图1、图2所示。

3.2 文档表示模型

文档的表示模型, 本文采用向量空间模型。

向量空间模型是G.Salton在1975年提出的。向量空间模型的基本思想是以向量来表示文本, 多个文本向量组成文本集D, 设文档集合D= (d1, d2, …) , 所有文档由n个词构成, 文档i表示成一个n维向量di = (wi1, wi2, …wij, …win) , 其中wij表示词条tj在di文档中的权值。构成文档向量的特征项可以选择文档的字、词或词组, 根据实验结果, 普遍认为选取词作为特征项要优于字和词组。在向量空间模型中, 两个文档d1和d2之间的 (内容) 相关程度 (Degree of Relevance) 可以称为相似度 (Similarity) , 即Sim (d1, d2) , 文本之间的相似度可以借助向量之间的某种距离来表示, 最常用的是向量之间的内积或者夹角余弦值。

在向量空间模型中, 文本内容被形式化为多维空间中的一个点, 这样把对文本内容的处理简化为向量空间中向量运算, 使问题的复杂性大为降低。

3.3 词频统计

词频统计的基本原理:在中文文档中, 从形式上看, 词是组合稳定的字而得到的, 因此, 在上下文环境中, 同时出现相邻的字次数越多, 就表示该相邻字组合越有可能构成一个词。因此相邻字的组合共现得频率或概率能够较好的反应组成词的可信度。

3.4 权重计算

文本向量的每个特征项的权重用来衡量它在文本表示中的重要程度 (即区分能力的强弱) , 一般是利用文本的统计信息。

词频分为绝对词频和相对词频, 绝对词频指用词在文本中出现的频率来表示, 相对词频则为归一化的词频。本文采用相对词频法来计算权重, 使用TF-IDF公式计算出词的权重。

公式如下:

undefined

其中tij表示特征词条tij在文本i中出现的次数, N表示当前文本总数;nij表示当前数据集中出现该特征词条的文本数。log (N/nij+0.1) 表示逆词频IDF。由此可以看出特征项tij既能反映文档i的主要内容, 又能用来区分文档i和其他文档。

3.5 相似度计算

本文采用向量空间模型表示文本时, 选用余弦夹角相似度来衡量这两个文本间内容的相关程度的计算公式如下:

undefined

其中以词为特征项, W1k是第k个特征词在文本D1中的权重, W2k是第k个特征词在文本D2中的权重。D1, D2分别代表了两个文本。余弦相似度值域为[-1, 1], 其计算结果与向量长度无关。余弦相似度越大, 向量间夹角越小, 即向量之间越接近。

3.6 阈值的确定

在基于相似度计算的模糊分类的方法中, 择近原则是将新文本归于分类体系中的一个类, 即与该文本相似度最大的类。而事实上, 分类体系中的类别不是完全互斥的, 存在这样一些既属于其中一个类别, 又同时属于其它类别的文本。对于这种文本, 该算法无法确定文本所属的所有类别。针对此问题, 我们在择近原则的基础上采用了确定阈值的方法, 对计算得到的所有相似度值进行排序, 当相似度值在该阈值之上时, 就将文本归于该类中。

排序部分主要代码如下:

阈值的确定解决较为困难。理论上, 没有很好的解决方法。在系统中, 采用预定初始值, 然后给出测试文本使用分类器进行分类, 再根据分类的准确程度调整初始值, 最终达到较为理想的效果。

4 实验系统的设计与实现

4.1 系统工作流程

①从互联网上下载中文Blog, 人工将网页整理为文本形式, 并将此作为基础实验语料库;②利用分词软件将待处理文本进行分词;③对文本进行特征项抽取, 统计词频, 并算出相应权重;④计算文章正文的相似度;⑤计算出相似度后对文本进行聚类。

4.2 用户登陆模块

这里我们用了delphi中的一个panle而不是单独将它列为一个form。这么做的目的是将系统简单化, 而且在未成功登录前所有form 顶端的主要菜单项都不能使用, 这样比较直观明了。登陆的用户名为zx, 密码为198596。

4.3 文本预处理模块

该模块包括3个小模块, 分词、整理、退出。它所实现的功能是将待处理的文本进行分词, 并整理在一个文件夹下, 为后续的工作做准备。这里我们应用的是中科院设计的分词软件, 点击文本菜单项, 选择分词, 即可出现分词软件, 该模块主要用到delphi中的调用外部程序的函数ShellExecute。但该软件有点缺陷, 不能同时处理多篇文章, 只能一篇一篇的处理。

为了使程序能够正常的运行, 首先要给出文件的路径的正确选择, 选择的处理的文件名必须与路径相一致, 不然, 程序无法正常运行。

单击文本菜单项, 选择分词选项, 调用处中科院计算所汉语此法分析系统软件, 点击处理文件选项, 打开要处理的文档, 程序运行后, 结果自动保存到与被处理的文档同目录下的新建文件夹中。

经过应用程序处理后, 名为0001.txt文档的内容发生了变化, 软件对其内容进行了分词处理, 得到了名为0001_cla.txt的文件, 其内容如下图5所示。

4.4 词频统计模块

本模块功能主要是对经过预处理模块得到的文本进行词频统计, 它包括了特征词抽取功能。程序先进行特征词抽取, 再算出经过特征值抽取后的实词的频数。最后将所得结果保存到相同路径的文件名为‘结果’的文件夹中。

词频统计功能模块的运行过程如图6所示。

程序运行的实验结果如图7所示。

如图7所示, 例如, “中国/ns94.89661239915248”, 其中, “/ns”表示词性, “9”就是词频处理后, “中国”一词在文档文件0001.txt中的词频, 即出现的次数, 而“4.89661239915248”是该词的权重计算的结果。

因为实验是对文件夹下多个文本进行操作, 所以必须能够同时打开并处理文件夹下所有的文本。它主要用到了delphi中的opendialogs控件。编程必须包括:打开文件夹下所有文件, 处理文件夹下所有文件这两种功能。以下权重计算和聚类算法也如此。

4.5 权重计算模块

本模块的功能是在统计出词频的基础上计算它们的权重来体现词在文本中的作用程度。

类似于词频统计, 先编写代码, 打开文件夹下所有的文件, 然后遍历文件夹下的每个文件, 算出每个词在文本中的权重。并将结果保存到相同路径的文件夹‘结果’中。

权重计算模块运行的图示如图8所示。

权重计算功能模块处理文件后的实验数据如图9所示。

4.6 算法实现模块

该模块的功能是对待聚类文本进行聚类, 以达到话题检测的目的。根据所计算出的权重, 使用相似度计算公式先计算文本之间的相似度, 得到相似度后根据简单聚类算法以及ISODATA算法将文本进行聚类。并将结果保存到相同路径的文件夹‘输出结果’中。

实验数据如图10、图11所示。

程序运行的过程如图所示:

5 算法实现的环境与工具

实验使用的是Windows XP 操作系统、delphi编程环境, 并以记事本的形式保存各词典词条、词频统计结果、权重计算结果、相似度计算结果以及最终的分类结果。

6 实验结果及分析

用来进行评价程序聚类结果的指标:正确率 (Precision) 、召回率 (Recall) , 计算方法为:

正确率P=正确分类的文本数A1/已分类的文本总数A2

召回率R=正确分类的文本数A1/要分类的文本总数A3

其中, 正确率用于反映被分到各类中的文本中进行了正确分类的文本比例, 召回率反映所有待分类的文本中被正确分类的文本所占比例, 正确率越大聚类效果越好, 当正确率相同时, 召回率大的聚类效果较好。

7 结束语

本文首先介绍了简单聚类算法以及ISODATA算法, 然后对中文Blog热门话题检测方法进行介绍, 最后, 通过实验系统的设计与实现进一步增强了对话题检测技术的认识。实验结果表明, 简单聚类算法与ISODATA算法相结合在文本的分类方面有一定的使用价值。

参考文献

[1]丁伟莉.中文Blog热门话题检测与跟踪技术研究[J].计算机科学与技术, 2010 (10) .

[2]杨小明, 罗云.ISODATA算法的实现与分析[J].计算机科学与技术, 2000 (8) .

[3]谷波, 张永奎.文本聚类算法的分析与比较[J].电脑开发与应用, 2003 (11) .

[4]G.SALTON, A.WONG AND C.YANG.A Vector Space Model forAutomatic Indexing[C].Communications of the ACM, 1975 (11) .

[5]鲁松, 白硕.文本中词语权重计算方法的改进[J].InternationalConference on Multilingual Information Processing, 2000 (5) .

[6]J.MAKKONEN, H.AHONEN-MYKA, M.Salmankivi.Simple semanticsin topic detection and tracking[J].Information Retrieval, 2004 (7) .

研究话题 篇10

随着互联网技术的飞速发展, 网络带宽的快速增加和多媒体技术的日渐成熟, 如土豆、优酷等大型专业视频网站不断出现, 互联网上的视频节目日益丰富, 在线观看人数直线增加。作为一种新兴媒体传播形态, 互联网视频的影响力和传播力不容忽视。

在研究互联网视频节目传播规律的过程中, 对围绕某个话题或事件而产生的众多视频在网络上的传播和扩散情况进行跟踪, 把分散的信息有效地汇集并组织起来, 从整体上了解事件的全貌及具体细节以及该事件与其它事件之间的关系, 是网络视频传播规律研究的一个重要课题。

话题检测主要是利用各种聚类技术将相关的文档聚合在一起, 形成话题。话题检测和跟踪在文本领域, 尤其是新闻文本领域的研究已经比较成熟。但是在视频领域, 尤其是针对开放的互联网视频, 话题检测技术的研究还处于探索阶段。另外, 互联网视频的来源非常广泛, 标注文本和视频内容的质量差异很大, 同时网络视频的节目数量非常庞大且增长迅速, 每天都有数以万计的新视频产生。这都为互联网视频的话题检测造成了很大的困难。

面向文本内容的话题检测, 最直接的方法就是采用文本聚类的方法, 如基于k近邻和决策树等分类方法的话题检测研究[1]。除了文本内容以外, 针对互联网视频的特点, 可以利用视频和关键词的标注关系构建二分图模型[2]。基于该模型视频不仅可以被关键词表示, 也能被用作特征传播文本信息, 分析视频和关键词的关联结构减少了文本噪声, 提高了话题检测和跟踪的性能。在二分图模型基础上, 有人提出了一种基于视频多模态信息的双层图模型表示方法并用于视频话题的检测[3]。另外, 针对话题相关的多个报道往往出现在一段连续的时间范围内的时间特征, 还有人提出采用时间为参数的衰减函数改进基于内容的相关度计算方法[4]。

1 互联网视频话题分析

互联网视频话题分析首先需要对互联网上发布的视频信息进行自动采集, 然后利用自然语言处理技术及文本聚类技术自动发现视频话题, 并利用文本分类技术对发现的视频话题进行分类。

1.1 视频节目信息采集

视频节目信息采集是互联网视频传播分析的基础, 主要包括网页抓取和信息抽取两个部分, 其总体流程如图1所示。网页抓取器的基本原理是通过模拟用户浏览互联网的行为, 通过抓取某一页面进而发现和获取更多的待抓取的网站或链接, 通过迭代的方式实现对整个互联网或其局部的遍历。视频网站采集器将视频网站首页或列表页作为种子网页, 通过采用多机多线程并行的方式实现对视频网站的高效采集。在采集的过程中通过预先定义的规则或者利用视频页面检测算法[3]判别抓取到的某个网页是否包含视频内容, 也就是判断该网页是否是目标网页。

在完成对目标网页的采集后, 需要对网页中包含的视频对象进行自动抽取。视频对象包含的信息有标题、发布者、发布时间、描述、标签等静态信息, 同时也包括点击量、评论数等动态变化的信息。视频对象的静态信息通常包含在视频所在的网页中, 针对半结构化的HTML网页数据, 通过使用DOM树搜索、字符串匹配等方法可以自动获取网页中包含的各种静态视频信息。另外, 对于视频的点击量、评论数等直接反映视频传播情况的动态数据, 则需要采用AJAX模拟等技术实现对上述数据的动态抓取。

在视频网站采集的过程中, 还需要解决采集效率的问题, 即提高网页采集的针对性和准确性, 可以采用针对特定网站建立采集规则库的方法, 尽可能减少无关网页的采集。

1.2 关键词选择

在获取到某个视频的标题、描述等文本信息之后, 需要对文本进行分词处理, 分词后得到的关键词向量用于表示该视频。由于分词的词表空间很大, 为了降低计算的复杂度, 需要对视频文本分词后得到的大量关键词进行选择。关键词选择的质量对后续的话题检测影响很大。关键词选择最基本的方法是基于词频统计的方法, 选取其中的前n个高频词作为候选关键词, 同时为了避免一些常用的高频词所造成的噪声, 需要对这类词进行过滤。

为了提高最近一段时间内出现频率较高的新词成为候选关键词的概率, 本文的关键词选择算法采用基于不同时间周期的关键词词频过滤算法。首先分别以最近数天 (如三天) 和一个较长周期 (如一个月) 的视频数据为基础, 提取各视频分词后的标签、标题、描述信息作为关键词, 并使用一系列的过滤算法以过滤掉噪声关键词。若某一关键词在较短周期内出现的频率与较长周期内出现的频率之比高于指定的阈值, 则该关键词极有可能是近期的热点词汇, 从而被选择作为候选热点关键词。

1.3 基于频繁项挖掘的话题聚类

在上述生成的热点关键词空间上, 使用频繁项挖掘找出相关的关键词频繁项组合。在频繁项挖掘过程中使用最小支持度阈值min_sup来评价一个关键词组合是否为频繁项。令关键词组合S在视频集合中出现的次数为count (S) , 整个视频集合大小为count (T) , 则:

经过频繁项聚类后, 可以发现很多频繁项组合, 保留其中较长的频繁项, 同时删除较长频繁项的短子项组合, 最后使用频繁项关键词组合描述不同的话题事件。

上述频繁项挖掘方法仅仅针对热门关键词, 结果中往往包括由单个关键词表示的话题, 而单个关键词通常无法描述一个话题, 为此需要扩展单个词构成的关键词集合。我们在包含该关键词的视频节目集合上使用频繁项挖掘的方法发现该词的关联词, 并将扩展后的关键词组合用于话题的表示。

1.4 话题分类

视频话题分类的目标是对聚类出来的候选话题进行分类, 以方便用户的查看和后续处理。话题分类可以看作文本分类的一个应用。由于一个话题聚合了多条视频节目, 相对单条节目往往包含更多的信息量, 因此, 在话题层次进行分类比对单个节目分类具有更好的准确性。

视频话题分类首先需要确定分类体系, 根据实际需求将话题预先分类为资讯、影视、体育、娱乐等多个类别。首先通过人工标注构建一个分类样本集合, 通过训练的方法构建上述四个分类的贝叶斯分类器模型[5]。对于新聚合产生的话题使用分类器进行分类。

图2是对视频进行热点话题聚类并分类的结果图。图2中左侧部分列出了常见的四个话题分类, 右侧部分列出了通过聚类发现的资讯类热点话题。

2 结束语

本文提出一种互联网视频话题分析方法, 在利用自动网页抓取技术获取的视频信息数据集合基础上, 首先利用中文分词技术对视频文本信息进行自动分词, 并采用基于不同时间周期的关键词词频过滤算法进行关键词选择, 然后采用基于频繁项挖掘的话题聚类方法对热点视频话题进行检测, 最后采用贝叶斯分类方法对视频话题进行分类。

参考文献

[1]Y.Zhang, J.G.Carbonell, J.Allan.“TopicDetection and Tracking:Detection Task”.in Proceedings ofthe Workshop of Topic Detection and Tracking, 1997.

[2]L.Liu, L.F.Sun, Y.Rui, Y.Shi, S.Q.Yang.“WebVideo Topic Discovery and Tracking via Bipartite GraphReinforcement Model”, in WWW, 2008.

[3]郑刚, 面向Web视频的话题检测、跟踪与推荐[D], 中国科学院计算技术研究所硕士论文, 2010.

[4]Y Yang, T Pierce, J Carbonell.“A study onRetrospective and On-Line Event detection”.In:Proceedingsof the 21st annual international ACM SIGIR conference onResearch and development in information retrieval.1998, CMU, USA:ACM, 28-36.

不必回避的话题 篇11

撩开性药神秘的面纱

首先应当指出,性药一词并不是一个严格的医学术语,它是人们对增强性功能、提高性能力的药品的一种通称。一般来讲,性药可分为性功能保健药和性功能障碍治疗药两类。性功能保健药偏重于患者心理、生理上的保健,该类药多属中成药,长期服用可达到平衡阴阳、增强性功能的作用,如青春宝、滋阴补肾丸、男宝等。性功能障碍治疗药则是对性功能障碍或器质性病变患者进行治疗的药物。该类药多属生物化学制品,如性激素制剂等。雄性激素可以治疗多种男子性功能障碍,雌性激素对治疗女性性功能不全和性欲衰退有良好的作用。为了防止不良反应,服用上述两类药物均需接受医师的指导。

无论哪类性药,其目的都是使患者在夫妻性生活中获得成功和自信,从而促进家庭和睦、社会安定。性生活是夫妻生活中的一项重要内容,一旦夫妻之间的一方出现性功能障碍,性和谐就会被打破,家庭生活必将受到影响,最终形成社会问题。性药正是基于这种客观现实状况应运而生的。由此可见,性药和淫药有着本质上的区别。性药以保健、治疗为手段,促进人们身心健康、家庭幸福。而淫药则纯粹是追求低级的感官刺激,以淫乐为目的,长期使用将导致身心俱伤,无异于饮鸩止渴。名医王燕昌有言:“春方药为害最烈,近则杀身,远则绝嗣”。淫药之害可见一斑。

滥用性药后患无穷

据统计,我国男子性功能障碍患者至少有5000万人,他们正忍受着常人无法体察的痛楚,需要药物和心理治疗。同时,随着生活水平的提高,人们对性生活质量的要求及性保健的需要也越来越高。在这种情况下,性药就显得格外引人注目。

但是,医学专家们认为,性药并非人人都可以随便服用。这是因为每位患者的体质状况和病因各不相同,服用性药和服用其它药物一样,必须强调对症下药。许多人对自己的体质状况和病因并不了解,或盲目求医,或擅自购药,结果误入不法游医、药贩的圈套。有些所谓的“性药”,不仅没有远期疗效,反而会使病情加重,产生药物依赖性,导致内分泌失调,出现狂躁、头昏、鼻出血、血尿甚至血精等症状。

有位30多岁的男子患有阳痿,想治疗又不好意思去医院,看到街头广告,就想当然地买了“壮阳”药服用,结果病情不但没有好转,反而由萎至枯,最终酿成不可逆转的性功能丧失。中医认为,壮阳药性偏温燥,多服久服势必助其阳、伤其阴,以致阴阳两败。且精气亏虚亦不能单纯依赖药物来改善,还应注重饮食调养和全方位的养生。专家认为,健康者当忌服壮阳药。若确有阳痿、早泄、遗精之疾,当请专科医生诊治,以免阴虚者误用阳药,加重病情。

江苏省中医男科专业委员会主任委员徐福松教授认为。历史上一直认为阳痿就是阳虚,但根据他本人几十年来的诊疗实践发现,阳痿患者中有70~80%源于阴虚。阴虚往往表现为嘴干、小便黄、心慌、出汗、舌红,是不适宜吃壮阳药的。真正因阳虚而致阳痿者,按徐教授的观点尚不足20%,常见的症状有:平时怕冷、不易出汗、嘴干、舌淡等。

因此,服用性药必须慎之又慎,应接受医生的指导,不可跟着药品广告走,更不可轻信游医、药贩的花言巧语。

性药市场亟待管理

改革开放活跃了市场经济,性药也作为一种商品进入了市场,并呈现出方兴未艾之势。怎样强化管理。使性药在现代生活中发挥正常的作用,为人民的健康幸福提供服务,是整个社会所关注的问题。

南京有家性用品商店开业不到1小时,就有50多人前来购买了各种性保健用品。可见,人们对这方面的需求量还是相当大的。但是,商店在经营过程中也碰到过一些发人深思的事。如有个在校大学生要买“感觉最好”的避孕套,有个小青年则满柜台地寻找“春药”。这说明性药市场迫切需要建立一整套规范化的社会管理制度,否则很可能产生一些不良后果。另外,加强性药经销单位的自身管理也很重要。有些性用品商店所卖的药品没有卫生部门的批准文号,大多披着“化妆品”、“消毒品”的外衣出售,其中既有假药,又有劣药,疗效根本无法认定。如果不坚决杜绝这类不法行为,消费者的利益就会受到严重侵犯。

研究话题 篇12

关键词:话题型微博,语言特点,情感分析,评价对象

随着网络技术的不断发展,微博已经成为现代人们传递态度、意见和评价的重要形式。表达态度、意见和评价的句子称为观点句。观点句是主观句的一种类型,主观句是语言主观性的一级表达形式。主观性是语言的一种重要属性,也是本质属性之一。语言的主观性是一个复杂的理论问题,从不同角度、不同层面,可以对它有不同的认识和解释。本文从话语分析角度出发,主观性指的是“说话人的立场、态度和情感”(沈家煊,2001、2009)。那么,表达说话人立场、态度和感情的句子就是主观句。根据表达侧重点不同,主观句至少可以分为推测句(如“他可能不来了”)、意愿句(如“我希望你好运”)、感情句(如“我很惊讶”)、观点句(如“他很优秀”)。语言信息处理中的“情感分析”或称“倾向性分析”,主要分析的是观点句。一般来说,观点句的主要表达手段是使用带有明显评价倾向的词语,主要是形容词,以及一些副词、动词和名词,人们称其为“情感词”。但在不同的语域中,人们表达观点使用的手段也有所不同。微博作为一种新兴媒体,有它独特的文本结构形式。话题型微博指的是围绕某一话题即标签(hashtag)阐发意见、进行讨论的微博形式,因此在观点句的使用、表达观点使用的语言手段以及评价对象的隐现上也有与众不同的特点。本文重点讨论的是话题型微博的语言特点以及对其进行情感分析时可以采取的策略。

一话题型微博的语言特点

除了一些名人,微博的主人用的大都是网名,发表意见可以无所顾忌;微博的传播往往是蒲公英式,一个微博主发出一条引人瞩目的微博,就会形成一个主题,体现为标签,其他的微博会围绕这个主题发表意见,下一轮微博还可能会针对上一轮微博发表意见,以此类推,于是就形成了一个带有鲜明主题的话题型微博群。话题型微博群规模的大小取决于人们对该主题的关注程度。与一般的微博(谢丽星等,2012)不同,话题型微博的文本结构形式决定了它的语言特点:句子简短,负面倾向多,语句口语化程度强,表达情感强烈而理性评价淡化,评价对象在句中不直接出现,语言不够规范,等等。下面分别论述。

(一)句子简短,单句多

微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,人们是围绕这个话题发表意见,写微博,只要表达了心情、态度,三言两语也可,只字片语也行,所以与一般文体相比,话题型微博中句子相对简短,单句居多。表1显示了我们对400篇语言舆情评论文和20篇话题型微博平均句长的统计结果。

从表1可以看出,评论文平均句长是38个字,而话题型微博平均句长只有20个字,几乎只有评论文的一半。20个字,大约有10个词,很难形成复句。

(二)观点负面倾向多

话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。表2是我们对400篇评论文和20篇话题型微博中观点句的统计结果。

表2数据显示,语言舆情评论文观点句中,负面倾向的只占49.81%,将近一半,而话题型微博中负面倾向句却占到了观点句的80.02%,可以看出,话题型微博的负面倾向更加明显。

(三)表达情感强烈而理性评价淡化

由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。

(四)口语色彩浓重,情感因子颗粒度加大

微博虽然用的是书面形式,但交际的实时性、互动性,使得它具有浓重的口语色彩,人们往往会使用一些口语化词语把自己内心的真实感受直接表达出来,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。例如:

(1)#假和尚搂女子#得瑟,使劲得瑟,被抓了吧

(2)#90后暴打老人#我滴妈~!这还真特么争气一群欠收拾的

(3)#90后暴打老人#什么玩意了。

(4)#官员财产公示#有个鬼用,公示出来的也要有人信吖?

其中的“得瑟、我滴妈、欠收拾、什么玩意、有个鬼用”口语色彩浓重,明确表达了说话人的观点,其中除了“得瑟”是词,其余都是短语,甚至是短句。

(五)隐晦表达观点

在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。如:

(1)#食用油涨价#我可以说脏话吗?

这是一个疑问句,字面上看没有表达任何观点,然而在“食用油涨价”这一语境下,可以理解为说话者表达的是一种想用说脏话来发泄的冲动,因而也就间接地表达了对话题不满的情绪和贬斥的态度。

(2)#三亚春节宰客#当地的政府部门这么做的用意是什么?掩耳盗铃?越抹越黑?还是让游客永远不去三亚?应该去测测智商了!

“应该去测测智商”表达了说话者对“当地政府部门”的不满。

(3)#假和尚搂女子#狐狸尾巴总会露出来的

“狐狸尾巴总会露出来的”是对假和尚做坏事最终会被曝光的一种讽刺。

(4)#韩寒方舟子之争#我真叫您教主了,正话反话都让您说了,您这逻辑是美术老师教的吧

“您这逻辑是美术老师教的吧”,这个句子中也没有情感词,但根据标签的语境可以看出,是讽刺当事人的逻辑性缺失。

(六)评价对象省略

由于话题型微博的话题标签与文本存在着密切的关联,网友在发布微博时,往往可以直接对整个话题或话题的某一部分进行评价和表达态度,因而标签或者标签的一部分甚至标签外事物也就成为了评价对象。所以,话题型微博的评价对象常在文本中省略,观点句更加短小精悍,甚至短小到一个短语、一个词,也可以被人理解,不会造成传播上的歧义。如:

(1)#菲军舰恶意撞击#抗议!

(2)#菲军舰恶意撞击#真可恶

(3)#菲军舰恶意撞击#…欺人太甚

(4)#菲军舰恶意撞击#可悲啊……

上面这些观点句都缺省了评价对象,在表达评价时只用了极简短的话语,但读者仍然能够理解它们评价的对象:(1)的评价对象是整个标签“菲军舰恶意撞击”这件事,(2)是标签中的“菲军舰”,(3)是标签中的“菲(律宾)”,(4)是标签之外的“中国”。

(七)语言不够规范

含有大量非规范性的语言文字,也是话题型微博语言的一个特点。这种非规范性可能有几个方面的原因:一方面,是非人为的原因造成的输入失误或常识上的汉字书写错误;另一方面,微博表达自由,加之敏感话题在法律上的限制,会人为地加入一些噪声、非规范词、非规范符号和非规范语言格式。例如:

(1)#疯狂的大葱#找点空闲,找点时间!带着钱包常去http://url.cn/1T8Gpq淘宝小店去看看!

(2)#假和尚搂女子#真TM不要Face。

(3)#假和尚搂女子#不过这二和尚佛景不逊达摩释迦,他们真的能做到‘色即是空,空即是色’???。。。”

(4)#彭宇承认撞了南京老太#我很愿意相信这是真的,但是!

例(1)加入网站链接等噪声;例(2)中英文混用,TM是“他妈”的拼音缩写,不要Face是“不要脸”;例(3)标点符号和中文内容混用;“但是”作为一个连词,功能一般是连接句子,往往不会作为句尾结束的标志,但在例(4)中放在句尾,这种微博观点句的表达,是一种不完整的表达方式。上述话题型微博的语言特点就决定了在进行情感分析时所采取的对应策略。

二话题型微博情感分析所采取的策略

情感分析及评价对象抽取,目前主要有两种基本方法。一种是基于句型、句法、语义的词典及规则方法(刘鸿宇等,2010;王素格等,2009;杨江,2011;朱嫣岚等,2006),一种是基于标注语料的机器学习方法(樊娜等,2010;王根等,2007;张博,2011;Peng等,2002)。我们认为,情感分析,分析的是语言的意义,要想在对语言进行深层理解的基础上完成情感分析,规则的方法更有优势,所以主要采取的是基于语义的词典加规则的方法,统计方法只在建立词典确立词条属性、建立规则库确定规则优先级时发挥作用。针对话题型微博,我们主要采用了加大情感因子颗粒度,构建基于短语的情感词典,通过短语规则确定句子极性、重点研究否定形式、建立基于话题的OBJ表单等策略。

(一)构建基于短语的情感词典

识别观点句,学界的通常做法是以情感词作为依据,带有情感词的是观点句,否则就是非观点句(这种以词定句的做法显然有问题,拟另文讨论)。也有一些学者注意到了短语在情感分析中的作用(李钝等,2008;Theresa Wilson等,2005)。话题型微博中的观点句由于情感表达强烈而理性评价淡化,各种脏话、粗话、口语词语大量使用,加之很多非直接性的表达,使得影响句子的情感因子的颗粒度加大,仅仅依靠传统的情感词典,依靠句子中是否有情感词来进行观点句的判断,会造成很多错判,因此我们在基本情感词典的基础上,用人工方式增加了情感短语,构建了一部基于短语的情感词典。

情感短语词典突破了以词为主要收录对象的局限,将明确表达观点的情感短语甚至短句都收录其中,如“不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、不是找抽吗、什么玩意儿、没一个好东西、好不到哪儿去、以为自己是谁啊、可以说脏话吗、这是人的行为吗、良心让狗吃了”等等。当然,一些明确表达观点的口语词、网络用语和脏话也必须收录到情感词典中,如“得瑟、傻逼、狗逼、操蛋、犯贱、傻B、欠揍、找死”等,这样包含这些情感短语和情感词的观点句就能够被准确地识别出来,从而在不降低准确率的前提下,提高系统对观点句的召回率。

(二)通过短语规则确定观点句及其极性

话题型微博语言简单,短句多,长句少;单句多,复句少。针对这种特点,我们建立了短语规则库,试图解决情感短语词典不能处理的那部分句子是否观点句以及句子的极性问题,主要是长距离搭配形成的情感短语或者是有歧义的短语搭配。如:

(1)#六六叫板小三#这种事是3方的责任;不能单独怪哪一方;

(2)#90后暴打老人#我们指责的不应该是90后,人之初性本善,这是国家、学校、家长教育的责任。

单纯“责任”一词,不一定表示评价,但(1)(2)中的“是……的责任”是一个表达负面评价的远距离搭配,中间可以加进各种不同成分,基本都是评价对象。

(3)#苹果封杀360#这不是腾讯和360的问题,这是中国跟美国的问题。

(4)#国旗下讨伐教育制度#绝对不是教育制度的问题是教师的问题啊

这两个句子中都有“是……的问题”这样的搭配,但句(3)中的“是……问题”不表示评价,不是情感短语,句(4)中的“是……问题”就表示对“教师”的评价,是情感短语。这样的长距离、有选择搭配,也只能靠短语规则来解决其观点句的判定问题。

短语规则主要采取关键词匹配的模板形式。例句(1)(2)的识别规则为:

是/v#[!,/w]的/u责任/n=#4:-1

“=”前面是匹配模式,后面是操作。该规则表示,当“是”后越过一些不包括逗号的成分而出现“责任”时,就将该句判定为观点句,并给出负面倾向的极性。

(三)建立否定形式规则库

话题型微博观点句具有负面倾向居多的特点。负面观点句的表达主要靠两种手段,一种是具有负面倾向的情感词或情感短语,一种是运用否定形式表达。利用情感短语以及短语规则识别出来的观点句,其倾向极性都在词典或规则上明确标注着,所以观点句的倾向极性识别不成问题。问题较大的是有否定形式的观点句,一般的否定会改变句子的倾向极性。如:

(1)#韩寒方舟子之争#急急忙忙起诉,绝非上策。

(2)#菲军舰恶意撞击#我们的政府不够强硬,每次都是强烈抗议,别人鸟你么?

(3)#90后当教授#现在的教授真是越来越不值钱了!!

(4)#官员财产公示#没有公平,没有正义,处处充斥着欺诈。

遇到这种情况,只需规则的操作部分在情感词的极性值上乘以-1,就可以解决句子的极性判断问题。但否定形式的情况极其复杂,并不都是一个简单的“乘-1”就能解决的问题。如:

(5)#官员财产公示#太不和谐了吧

(6)#洗碗工留剩菜被开除#有些事情合情并不一定合理

(7)#假和尚搂女子#没有不沾腥的和尚。。。。

(8)#官员财产公示#所谓的民主,就是你是民,我是主。

可以看到,在(5)中,因为程度副词“太”的存在,在改变倾向极性的同时,加强了情感强度;(6)中,因为有“一定”,否定程度弱化了;(7)中,否定词语连用,就变成了对“沾腥”的肯定;(8)中的“所谓”一般不会看作是否定词,但它确确实实改变了“民主”的极性。

针对这些情况,我们在语料中尽可能全面地搜集了可以改变句子极性的词语,形成了一个否定形式词集,并就各种否定类型建立规则库,以保证这类观点句倾向极性的准确判断。规则的基本形式同短语规则。

(四)建立基于话题的OBJ表单

话题型微博语言话题集中,评价对象往往省略,它的评价对象或者是标签,或者是标签的一部分,或者在句子的上文或下文,因此在句内根本无法提取到评价对象。针对这种情况,我们在评价对象提取模块中建立了一个基于话题的OBJ表单。

例如下面4个观点句,标签话题都是“六六叫板小三”,句中都没有评价对象。但仔细分析,这4个观点句的评价对象依次为整个标签、六六和小三、六六、小三。这说明,对于话题型微博来说,评价对象缺省的观点句,可以通过回溯话题标签的方式,在标签中提取评价对象。

(1)#六六叫板小三#无聊…(

(2)#六六叫板小三#都贱货!

(3)#六六叫板小三#维护自己的爱情,做的对,给力

(4)#六六叫板小三#破坏别人家庭,变态。

OBJ表单必须建立在话题的基础上。“六六叫板小三”这一话题下的“无聊”是评价“六六叫板小三”这件事的,“官员调研”这一话题下也有“无聊”,则是评价“官员调研”这一现象的,“苹果封杀360”这一话题下的“无聊”则是评价“苹果封杀360”这一事件的。应说明的是,建立OBJ表单比较适合话题型微博,换一种文体,也许不一定有效。

三系统及其工作流程

运用上述策略,我们构建了一个基于情感短语词典以及语义规则的情感分析系统CUCsas。系统包括分词标注模块、短语和句子规则解释器、评价对象提取规则解释器和一个OBJ模块。其中的分词标注模块与一般的不同,为做情感分析,在原有分词词典和规则库的基础上,又加进了几部与情感分析相关的词典,主要的三部是:一部用户词典Usrsas,专门储存情感分析需要切分出来的词和短语并赋予词性;一部添加了情感短语、带有“po(褒)、ne(贬)”标记的情感词典Dicsas,用于给待分析语料中的情感因子进行标记;一部褒贬值词典Dicsvl,Dicsas中的所有词语在这里都要根据语感人工赋给一个从1至-1之间的情感值,用于计算情感因子的情感度。短语和句子规则解释器对短语和句子规则进行解释,实现对句子的情感度计算;评价对象提取规则解释器对评价对象提取规则进行解释,实现一般情况下评价对象的提取。OBJ模块是对评价对象提取规则的补充,实现对复杂情况的处理,例如句中评价对象省略的情况。该系统工作流程见图1。

四实验结果及其分析

运行系统CUCsas,以中国计算机学会(CCF)2012年主办的第一届中文微博情感分析评测提供的评测语料为对象,对20篇话题型微博语料进行了观点句识别、观点句极性识别和观点句评价对象提取的实验。表3是实验结果(也是评测结果)。

上述成绩在本次参加评测的34支队伍提交的53组结果中,任务1观点句识别获得第二名(第一名微平均F值为0.784),任务2观点句极性识别获得第三名(第一名微平均F值为0.850),任务3观点句评价对象识别(包括宽松和严格)获得第一名(严格评测微平均第二名的成绩为0.225)。虽然相对成绩还可以,但我们深知,这三项任务的绝对成绩即正确率还不高:任务1的最好成绩F值还不到80%;任务二相对较好,达到85%;任务3,我们的成绩最好,但即使宽松评测,F值还不足40%。看来,情感分析,离实用化的要求还有相当一段距离,任重道远。

我们对系统分析结果中识别错误的句子进行了分析和归纳,产生错误主要有以下几个原因。

(1)在观点句及其极性的识别上,由于规则方法本身的限制,使得我们建立的情感词典和规则库很难覆盖全部语言现象和微博全部的语料,例如“#彭宇承认撞了南京老太#这事儿还有人信啊…”,这条微博没有被系统识别为观点句,因而极性识别和评价对象提取也都没有再继续进行。但是从这条微博内容来看,明显带有说话人对彭宇这件事情的强烈不满和质疑,应该是观点句。再回溯到我们建立的情感词典,其中“谁信呢”作为一条情感短语已收录其中,但是这条微博变换了语言形式。如果能在情感词典中建立一个“还有人信啊”的短句条目,那么这条微博也能在系统中进行正确分析。

(2)对微博语料进行预处理时,由于分词错误使得一些词不能与情感词典中的词条匹配,因而造成了观点句识别上的流失,例如“#皮鞋果冻#以前敢吃,现在不敢吃了,想想都好恶心”,在分词的时候,因为“好恶”被分在一起,“恶心”两个字被切开,因而无法到情感词典进行匹配。

(3)微博语言表达上的隐晦、非直接性,使得系统在处理深层语用时也会出错,例如“#皮鞋果冻#JS有点良心吧”这一观点句,系统分析结果显示为肯定倾向,但是从这句话的深层语义分析,是表示对“JS(奸商)”的一种讽刺,是劝诫他们应该有点良心,应该是否定倾向。

(4)由于微博语料的非规范性,错别字和标点符号的误用现象比较普遍,这也在很大程度上影响了规则的匹配,造成一些观点句评价对象的提取错误。例如,“#彭宇承认撞了南京老太#———老百姓太不容易了,希望我们的党能领导人民好好走下去。”这一观点句,由于“老百姓”前面有一个标点符号,因而在进行规则匹配时候,这个标点符号也被算到评价对象中来,评价对象就成为了“———老百姓”,在严格评测中就是个错误。

另外,对观点句极性的认识不同,也造成系统分析结果与评测答案不一致,如“#菲军舰恶意撞击#转向舵是不会失效的,更不会这么巧”这句微博,系统认为是观点句,因为这句微博体现了对菲军舰撞击原因的质疑,但是评测答案认为这句微博是非观点句。

五几点启示

(一)规则方法不是完全无用

我们针对话题型微博的语言特点,采用基于短语情感词典及语义规则的方法构建了一个情感分析系统,在中国计算机学会组织的第一届中文微博语言情感分析评测中取得了相对较好的成绩,这是我们始料未及的。毋庸置疑,从上个世纪90年代以后,统计方法就成为语言信息处理的主流,规则方法被冷落,甚至被嗤之以鼻。但事实证明,规则方法也不是全无用处,如能和语料库方法结合,它在处理某些领域语言时可能还有一定优势。

(二)语言计算要加强对语言的分析

语言毕竟是人说出来的话,是一个十分复杂的系统,语言的复杂性,无论怎么强调都不过分。那么在对语言进行计算,尤其是在对语言做“情感分析”这样的内容计算时,如果不顾及语言本身的特点,一味统计,很难取得理想的效果。我们相信,参加这次评测的那些兄弟团队,在计算上都是一流的高手,如果能在有效的统计手段中加进对语言的深层分析,肯定能取得更加理想的成绩。

(三)语言计算要注重语域

上一篇:不锈钢管下一篇:现代风险