情感分类

2024-08-30

情感分类(精选8篇)

情感分类 篇1

一般的文本采集方法会使得最终得到的文本集合中含有大量的噪音, 在这些噪音的影响下, 进行文本情感分析会受到干扰, 得到的结果准确性也会降低。因此在进行情感分析之前必须要对文本数据集进行一系列预处理工作。

1 文本分词、去停用词

中文分词 (Chinese Word Segmentation) 是指将完整的句子拆分成单个词语。现阶段常用的中文分词算法主要有三种:统计方法, 词典方法和规则方法。中文分词采用一般采用中科院中文分词系统 (ICTCLAS) 进行, 可以实现中文分词、词性标注和命名实体识别, 该系统对分词具有较好的效果。举例来说:

原句:中央电视台主持人、了不起的挑战节目艺人撒贝宁在上海拍摄节目。

以上句子用ICTCLAS分词后:中央电视台/n主持人/n、了不起的挑战/n节目/n艺人/n撒贝宁/n在/p上海/n拍摄/v节目/n。/w

从上述分词实例可以看出, ICTCLAS在分词时整体效果较为优秀, 能够将名词动词等都正确分出。

停用词指在中文文本中出现的语气助词、指代词、介词、感叹词、数量词、副词、连词等对文本分类没有直接影响的词语。这些停用词在中文文本中出现的频率非常高, 使得对文本的特征选取方面出现一定程度的偏差。

那么如何将停用词去除便成了文本分类的一个先决条件, 去停用词的过程是:建立一个停用词词典, 分词后, 将每个词语放进停用词词典进行比对, 如果相同则去除当前词语。需要我们注意的是, 停用词的词典构建过程不可能一次完成, 需要在平时的研究过程中不断积累和添加。如果能将文本集合中的词频做出统计, 即可发现, 词频数最大的几个词语通常是我们文本分类中无意义的停用词。

2 特征选择

常用的文本特征选择基本思想:针对每一个特征词, 计算出一个统计时使用的度量值, 设定一个阈值, 将计算出的统计度量值的结果与阈值做出比较, 小于阈值的所有特征都去除, 最后剩下的就是有效特征。具体方法有以下三种:

文档频率 (DF) :文档频率指某一个具体的特征词在其他文档中出现的次数。其主要思想是:对包含指定特征的文档在训练集中出现的频率进行统计, 并预设一个相应的阈值。将特征项的DF值与设定好的阈值进行比较, 若DF值小于阈值, 则将此特征值删去, 这样可以使得特征的选取更加具有代表性。

信息增益 (IG) :信息增益主要凭借信息熵来衡量特征项对分类提供了多少信息。在进行特征选取时, 根据该项特征存在与否时分别判断当前分类模型中的信息量大小, 若该特征项存在时, 分类模型提供较大的信息量, 则将此特征项提取出来。

互信息 (MI) :互信息主要是检测两个随机事件之间的关联性。在特征选择这个关键步骤中, 若类别与特征项这两者之间表现出的关联度越大, 即互信息越大, 则表示该特征值最能代表此类别。

3 特征项加权

将每一篇训练文本集合在特征空间中的向量进行扫描和统计, 采用TF--IDF的方法计算出向量中每一维的权重。TF-IDF权重, 代表将词语频率和文本频率两种数据信息结合, 进行利用表示将TF和IDF两种计算权重的方式进行组合并综合运用, 其计算公式为:

式中TF代表排序为k的特征词出现在第i篇文本中的次数, N代表着当前训练集中的文本总数目, nk代表着包含排序为k的特征词的文本数目, β为一个经验值, 一般取0.01、0.1或者1。

4 文本生成VSM模型

目前文本表示通常采用G.Salton等人提出的向量空间模型 (Vector Space Model, VSM) 。给定一个文本D (t1, w1;t2, w2;…;tn, wm) , D满足以下约定:

(1) 各个特征项tk (1≤k≤n) 互异;

(2) 各个特征项tk没有顺序关系。

采用向量空间模型的方式来表示文本, 其主要的流程如下:

(1) 首先将样本数据集中的训练集表示成特征项序列D={t1, t2, …, td}, 便于文本表示;

(2) 根据机器学习的算法所需要的文本表示形式, 并基于第一步中排列出的文本的特征项序列, 把包含在样本集中选择出的训练集和测试集中的所有文本分别进行特征赋值和规约化等操作, 最终生成计算机能够识别的向量空间模型。

5 情感词典建立

对文本的情感进行分类, 必须要在分类器上对情感信息进行训练, 这就需要建立一个情感词典来提供给机器学习。文本中包含的情感信息通常都是以词语的形式体现, 情感词的褒贬也通常代表这句子的褒贬, 因此, 一个词汇量大、高质量的情感词典, 将有效提高情感分类的效率。

情感词典的建立基于国内常用的情感词典《知网》 (How Net) 知网于2007年发布了beta版本情感分析用词语集, 其中报考正向的情感词836个, 负向的情感词语1254个。评价词语褒义3730个, 贬义3116个。

6 小结

本文对文本情感分析预处理的过程做了详细的介绍, 对采集到的含有较多数据噪声的文本, 先进行分词和去停用词, 在此基础上对当前处理好的文本进行特征选择和特征项加权, 最后将文本用空间向量 (VSM) 的形式表示, 便于计算机识别并为文本分类提供方便。

摘要:文本是情感表达的重要方式, 在挖掘文本包含的情感之前必须要进行预处理。本文对预处理的过程进行综述, 包括文本分词、去停用词、特征选择、特征项加权、生成VSM模型、情感词典建立等步骤。

关键词:情感分类,预处理,特征词,情感词典

情感分类 篇2

admiring(赞赏的,钦佩的)approval(赞成,承认)approving(满意的)confident(自信的,确信的)enthusiastic(热心的,热情的)optimistic(乐观的)positive(肯定的,积极的)useful(有用的,有益的)interesting(有趣的)instructive(有益的,教育性的)supportive(支持的)support(支持)

impressed(留下印象的)

reverent(尊敬的)polite(有礼貌的,文雅的)(2)贬义词:

biased(有偏见的)cynical(愤世嫉俗的)contemptuous(轻蔑的,侮辱的)compromising(妥协的)critical(批评的)dissatisfied(不满意的,不高兴的)disgust(令人反感)disgusting(令人厌恶的)depressed(沮丧的)doubtful(可疑的,不确的)disappointed(失望的)frustrated(失败的,落空的)gloomy(令人沮丧的)hostile(敌对的)negative(否定的,消极的)pessimistic(悲观的,厌世的)questioning(质疑的)tolerant(容忍的,宽恕的)puzzled(迷惑的)suspicious(怀疑的)satirical(讽刺的)scared(恐惧的)subjective(主观的,个人的)oppose(反对)opposition(反对)opinionated(武断的)worried(闷闷不乐的)

(3)中性词:

analytical(分析的)apathetic(缺乏兴趣的)cautious(谨慎的,小心的)casual(偶然的)concerned(关心的)disinterested(无私的)detached(不偏不倚的)formal(正式的)factual(事实的,实际的)

humorous(诙谐的)informal(非正式的)impartial(公平的,不偏不倚的)indifferent(无关紧要的)impassive(冷漠的)informative(提供资讯的)persuasive(说服的)personal(个人的)sensitive(敏感的)

情感分类 篇3

1 特征学习和情感词典相结合的分类算法

情感分类方法主要分为两大类:基于情感词典的无监督分类算法和有监督的机器学习算法[1]。基于词典的分类不需要标记语料, 但一般准确率不高, 尤其是跨领域的情感分类。而基于机器学习的分类算法, 分类准确率一般较高, 但需要大量人工标记的语料库, 且训练的时间复杂度较高。

对于跨领域情感分类, 不同领域所使用的语言结构不同。相同的词语甚至在不同领域所表达的情感是相反的。例如:“屠呦呦作为第一个获得诺贝尔生理医学奖的本土科学家, 值得我们骄傲” (新闻评论) , 这里的“骄傲”表示褒义;“这本书的作者告诉我们, 要收起我们骄傲的姿态, 老老实实做人” (书籍评论) , 这里的“骄傲”表示贬义。可见, 有些原始领域出现的特征不一定在目标领域出现。

针对以上跨领域情感分类研究中存在的问题, 本文结合情感词典和机器学习分类算法的优点, 提出了一种新的跨领域情感分类算法。算法的具体思想:首先用PMI算法构建每个领域的情感词典, 然后直接用目标领域的情感词典对目标领域进行分类, 选出部分情感丰富的标记评论作为训练集, 分别训练SVM和朴素贝叶斯 (NB) 分类器, 最后使用所得的分类器对目标领域的测试集进行分类。通过实验对比, 所提出算法分类结果更好。

算法步骤如下:

(1) 对目标领域语料库Targetcorpus进行分词、剔除停用词、词性标注等文本预处理;

(4) 通过确定集和原始领域的语料训练SVM或NB分类器, 得到目标分类器Target Classifier;

(5) 使用Target Classifier对不确定集进行分类。

算法框架如图1所示。

2 情感词典和特征学习相结合的实验结果和分析

实验主要采用两种情感词典和特征学习方法相结合的分类算法进行实验对比。有监督的特征学习算法采用的是朴素贝叶斯 (NB) 和支持向量机SVM (BOOL) 。特征选取函数为文档频率法 (DF) , 维度1000 维。为了便于与Tan等[2]人的方法进行比较, 确定集比例参数Ratio取值与Tan等人一致, 即0.4。实验所用的语料库仍为酒店、电脑、书本3个领域的语料。实验结果见表1。

实验1 和2 为直接使用情感词典对3 个领域的分类结果;实验3-6 为NTU和PMI两种情感词典和SVM、NB两种机器学习算法相组合的情感分类结果;实验7 和8 为NB、SVM直接对3 个领域的分类结果。实验结果均用F值表示 (%) , SVM (BOOL) 简写为SVM。

通过表1 的数据对比可以看出, 使用情感词典和特征学习相结合的分类方法效果均好于只用情感词典的方法 (NTU情感词典在书本语料库表现异常, 稍后分析) 。在酒店和电脑语料库上, NTU+NB和NTU+SVM的分类结果高出NTU情感词典约15%。在酒店和电脑语料库上, PMI+NB和PMI+SVM只比PMI情感词典高出1% ~ 4%, 但是在书本语料库上, 分类结果却比PMI情感词典方法高出接近10%。这些数据充分说明, 使用情感词典和特征学习相结合的方法是有效的, 能大大提高分类正确率。

通过实验3、4、5、6 的对比, 说明使用PMI情感词典与两种特征学习方法相结合的算法都好于NTU情感词典与两种特征学习方法的结合算法。前者相对于后者能高出约3%。而有监督的特征学习方法又比两者结合的方法高出约3%, 这说明情感词典与特征学习结合方法要略逊于有监督的特征学习方法。事实上, 这是必然的。因为有监督的特征学习方法需要用到大量已标记样本进行训练学习, 训练集和测试集是同一个领域, 拥有相同特征空间。相反, 词典与特征学习结合的方法不需要大量已标记的训练样本, 训练集和测试集非同一个特征空间。

为了分析NTU词典系列方法在书本语料库中的异常表现, 统计不同语料库中各种算法对确定集 (C) 和不确定集 (U) 的分类正确的F值 (%) , 结果如表2、表3 和表4 所示。

从表2、表3 和表4 可以看出, 在酒店和电脑语料库上, NB和SVM分类器在不确定集上的分类结果要远好于情感词典的方法。但是, 在书本语料库上面, NTU情感词典所得的确定集和不确定集的分类结果出现了异常, 不确定集反而高出确定集近10%。确定集62.24 的分类结果导致训练出的分类器效果不好, 导致对不确定集分类结果近一步降低, 从而最终整体分类结果更低, 低于原来仅用NTU情感词典的方法。这就是书本语料库分类准确率出现异常的原因。

3 结语

文章提出了一种将特征学习和情感词典相结合的跨领域情感分类算法。分类器训练中, 通过原始领域和目标领域的结合, 能够有效减小不同领域数据分布的差异性。该算法可以很好地应用于目标领域标记语料匮乏的领域情感分类, 具有很好的应用价值。

参考文献

基于上下文语义的句子情感分类 篇4

Hearing the music in real stereo is a true revelation. You can feel that the music is no longer constrained by the mono recording. In fact,it is more like the players are performing on a stage in front of you. . .

通过第一句中的”revelation”的情感词,可以得知该句为Positive主观句。但是,第②、③句无明显的情感特征词。通过对上下文的分析,可以得知句子②和句子①中的”the music”意思相同。第③句中的”in fact”,是对前两句进行概括,它的情感倾向与前两句是一致的。

虽然情感句分析在句子级上取得了一定的成果,但针对本文研究的问题仍然存在一定的不足:一方面,采用监督学习需要构建大量训练数据集;另一方面,只能对标记的数据进行学习,对未标注的数据学习能力差。因此,本文提出了一种句子级的情感分析方法,该方法包括三个方面:

①局部和全局词语信息。

②利用条件随机场对句子级别做情感分析,将语篇和情感词通过后验正则化(Posterior Regularization,PR )[1,2]作为一种约束应用到条件随机场(Conditional Random Fields,CRF)模型里。

③使用未标注数据来增强学习性能。

1 相关工作

在文本情感分析方面,许多研究者已经在不同粒度层面上分析了情感分类。现有基于机器学习的情感分类主要有两种方法:①通过情感词和情感词之间的相互作用。例如,文献[3]利用Tree-CRF模型结构发现情感词间的关系,与传统的提取感情词方法比较,该方法获取情感词间的情感关联,不是对情感词的情感值的简单加减。Socher、Pennington等[4]人将词和短语矢量并通过计算他们的距离来分类,该方法考虑了上下文信息,利用词和短语的矢量化,提高情感词提取的性能。②句子间的情感标签。Polanyi和Zaenen[5]说明了语篇结构对情感极性分类的重要性。Tackstrom和Mc Donald[6]在论文里提出了一种文本结构的学习模型,用来获取相互依赖句子的情感,该方法与以往的提取句子情感有着明显的不同,在以前提取句子情感主要是根据句子中的情感词来计算句子的情感倾向且不考虑句子间的相互联系。文中的实验结果表明,语篇结构在一定程度上提高了句子情感分类的准确度。在Tackstrom等人基础上,Zhou和Li等[7]使用语篇的约束关系使文本的两个片段有着相同或者相反的极性。这在一定程度上获取了文本局部的全局情感。

平衡这两种方法,本文利用句子内部和句子间语义来提取情感标记。使用语篇知识作为约束在不同语义层次中学习。本文的方法是一种半监督学习的方法,比较现有的半监督学习方法在句子级别的情感分类,不依赖大量的文档级标记数据。它的监督主要是来自语言学的约束。

2 算法设计

本文将句子的情感分类任务作为一个序列标记问题。将情感标签句子的文档和一组未标记文档作为模型输入。然后,利用条件随机场模型并用约束集的后验正则化来学习参数。输出测试文档句子顺序的情感标记。该系统可以分为训练和识别两部分,如图1 所示。

本节首先介绍了条件随机场、后验正则化;其次,介绍上下文约束集、特征提取;最后,对模型进行训练。

2. 1 条件随机场和后验正则化( PR)

①CRF算法

CRF是由Lafferty等人[8]于2001 年提出的一种经典的判别式模型。结合了隐马尔科夫和最大熵模型的特点,给定输入节点的条件下,可以计算输出节点的条件概率。用X = (X1,X2,…,Xn) 表示文档的句子序列,Y = (Y1,Y2,…,Yn) 表示相应Xi的情感标签CRF模型的条件概率:

这里的f(x,y) 是模型的特征函数,θ 是模型参数,Zθ(x) = ∑yexp( θ·f( x,y)) 是归一化常量。

②后验正则化(PR)

后验正则化是一种弱监督的约束性框架,通过定义不同特定语言的先验知识,该框架可以适用于多种概率模型。公式(1)是PR模型目标函数:

logpθ(y | x) 是CRF最大log似然函数,σ 是CRF的正则参数,θ 是CRF模型参数。

为了避免PR模型在训练时没有得到好的模型参数时,本文利用后验分布的约束集合来辅助。约束集定义在整个语料库,后验分布集合:

φ 是一个约束函数,Eq[φ(X,Y)]是约束特征集合q下的期望值。q是无标记文档的约束特征集合且假设文档之间是相互独立的。

在公式(1) 中,提出了判别式模型函数,公式(3)是优化的PR目标函数:

KL散度是一个惩罚项,用来防止过度拟合的问题。对目标函数的优化,可以采用EM迭代算法对最小化问题和最大化问题进行优化,在求解最小化问题时,这是一个对偶的问题,如公式(4)所示:

所以,用随机投影梯度来优化公式(3),同时采用自适应梯度的方法得到它的学习速率。

2. 2 上下文的约束集

利用词汇和语篇知识建立一个后验约束集,用来限制对上下文句子情感的分析。特别是词典和句子间的关联词,能反应整个句子情感的连贯和情感的变化。每一种约束可以归结为一个约束函数的期望值和先验知识期望值。表1 列出了PR模型中所有的约束类型。

词汇模式:一些极性带的情感词往往不能准确地显示句子的极性。本文词汇集由极性情感词和否定词组成,并采用启发式的成分语义学给每个情感词赋值。把情感值作为特征标签的约束。约束函数如下:

fw(xi,yi) 是特征函数,当句子xi包含词汇集w且情感标签yi等于预期情感值时,fw(xi,yi) 的值是1,否则,等于0。约束函数期望值的设定与其相关词汇w情感值的先验概率有关。中性句子中有时也会包含这样的词汇模式。因此,假设词汇模式得到的句子情感是中性的,先验概率是r0(中性情感在训练文档的经验概率)。使用词汇模式来判别句子的情感往往具有很大的争议性。所以,在选择词汇的时,选择具有较强判别力的情感词。词汇模式包括少量种子词语(“Pros”,”Cons”)和一些在训练语料中有很高的预测精确度(大于0. 8)的词语。

关联词:词汇模式很难描述上下文的信息,因为它们只能表示词汇之间的信息。为了获取从句或者句子级的上下文信息,要考虑一些从句或者相邻句子间的关联词语。本文采用PDTB-2. 0 ( Penn Discourse Tree Bank 2. 0) 训练数据确定关联词。关联词的标签有四种:扩充( Expansion)、偶然性( Contingency) 、比较( Comparison) 、时间( Temporal) 。

关联词语分为句子内的关联词和句子间的关联词。例如,”although”连接两个极性相反的从句,”however”通常是在两个极性相反句子的开始等。这些对分析句子情感都有着重要的作用。分析发现一个比较类型的关联词连着两个不同极性的从句,往往句子的情感会偏向中性。所以,建立一个句子间关联词的特征标签约束集,并设置它的预期情感值是中性的。句子间的关联词往往反应句子间情感的变化。像扩充(e. g,also,for example) 和偶然性(e.g,as a result,hence) 往往暗示句子间情感的一致性。以上关联词连接的都是极性句子。如果关联词连接的是中性句子,那么就很难判断句子间的情感变化了。因此,利用减少约束噪音来加强模型的后验约束,如公式(5)所示。

C表示关联词,s表示它的类型标签,fc,s(xi,yi,yi -1) 是补偿函数。如公式(6)所示:

列表模式:这是另一种表示情感一致性的方式,在网上会看到评论者意见后面的序列数字。例如,“1,The heroine of the movie is very beautiful,. . . . . .2,The story is very rich and beautiful. . . . . . . ”。通过列表可以获得句子情感的一致性。

全局情感标签:以前的研究已经证明文档的情感值是通过对句子情感的学习得到的。本文在获取文档情感时,同时把它作为一个后验约束。通过分析大量的文档,发现在极性上句子层次与文档层次是不矛盾的。例如,在一个正面情感的文档里,消极的情感句所占的比例相比积极的情感句是很小的。φg(x,y) 是约束函数,如公式(7)所示:

g表示文档的极性,n是文档所有的句子数。δ是一个指示函数。在实验里,句子和文档极性“冲突”的期望值是通过在训练数据集经验估计获得的。

2. 3 特征的选择

特征选择通常采用一个度量公式来计算原始特征对分类的贡献。按照某种策略去掉对分类没有作用或者作用不大的原始特征。本文使用 λ2统计(CHI)的特征选择方法。λ2统计用于刻画两个随机变量之间的相关性,特征tk的 λ2的统计值为:

N为所有文档数,A为属于类别ci的文本中包含特征项t的文本数,B为不属于类别ci的文本中包含特征项t的文本数,C为属于类别ci的文本中不包含特征项t的文本数,D为不属于类别ci且不包含特征项t的文本数。

Finn等人研究发现,基于词性标注( POS Tagging) 的特征选择要比词袋( Bag-of-Word) 方法效果要好。Janaki和Chandran对文本分类和统计特征之间的关联进行了研究[10]。本文采用2-POS模式来进行句子情感特征的提取。表2 是筛选出的具有主客观区分度的前10 个2-POS模式。

2. 4 训练

在训练时,要计算分布q在每个梯度的约束期望和特征期望。通过求解等式(3) 中对偶问题得到q:

Zλ,θ(X) 是一个归一化常量。f(x,y) 模型的特征函数,φ(x,y) 是约束特征。采用随机抽样方法来近似计算期望。发现最佳标签分布是通过维特比(Viterbi)算法计算arg maxyq( y | x) 。

3 实验结果

实验采用Mutil - domain Amazon(MD)数据集。数据集是亚马逊上产品评论数据。选取其中的书籍和DVD书籍评论各1000 条,音乐评论500 条。共计约6500 条语句。其中正向情感句约3000 条,反面情感句约800 条,客观句约2700 条。

本文实验将2 - POS的词性组合作为基础特征,CRF的正则参数 σ = 1,通过对实验数据的五次交叉验证得到后验正则参数空间: β =[0. 01,0. 05,0. 1,0. 5,1. 0],γ = [0. 1,0. 5,1. 0,5. 0,10. 0]。书籍、DVD和音乐三种数据集都分别在CRF、以及CRFlex、CRFlex + dis、PR模型下进行了实验,统计结果如表3 所示。

通过表3 的分析,实验中发现在CRF模型上加上一些约束集后,发现情感句的准确率都有了提高,这说明约束集对情感分析是有效的。PR模型相对其他的方法,情感句分析准确率都有了明显的提高。是因为后验规则应用在条件随机场上,可以纠正CRF由于标记数据的缺乏引起的误差,提高实验的准确率。这说明PR模型的方法是有效的。

4 结束语

情感是心理行为一个重要的部分,人类情感是一个非常复杂的现象。本文讨论了多种约束集下的PR模型,以及CRF模型和CRFlex、CRFlex + dis模型的实验比较,证明PR约束性模型在对情感句分类时,可以显著提高情感分类的准确率。将继续深入研究,进一步提高实验效果,将进行如下工作:

①通过一定的算法处理,消除语料的不平衡对实验结果的影响。

②探索更加有效的情感特征提取,提高准确率。

③获取更加完善的语言约束集合,提高模型的准确率。

④对模型参数的选择。以上实验参数是经过多次实验验证,但是不能保证最佳。

参考文献

[1]Kuzman Ganchev,Joao Graca,Jennifer Gillenwateret al.Posterior regularization for structured latent variable models[J].Journal of Machine Learning Research,2010,11(1):2001-2049.

[2]Kuzman Ganchev,Dipanjan Das.Cross lingual discriminative learning of sequence models with posterior regularization[C].Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,2013,8:1996-2006.

[3]Tetsuji Nakagawa,Kentaro Inui,Sadao Kurohashi.Dependency treebased sentiment classification using crfs with hidden variables[C].The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2010,6:786-794.

[4]Richard Socher,Jeffrey Pennington,Eric H Huang,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions[C]∥Proceedings of the Conference on Empirical Methods in Natural Language Processing,2011:151-161.

[5]Livia Polanyi,Annie Zaenen.Contextual valence shifters.In Computing attitude and affect in text:Theory and applications[J].Computational Linguistics,2006,33(2):275-277.

[6]Oscar Tackstrom,Ryan Mc Donald.Discovering fine-grained sentiment with latent variable structured prediction models[J]∥Advances in Information Retrieval-2011,2011a:368-374.

[7]Zhou Lan-jun,Li Bin-yang,Gao Wei,et al.Unsupervised discovery of discourse relations for eliminating intra-sentence polarity ambiguities[C]∥Proceedings of the Conference on Empirical Methods in Natural Language Processing,2011,6:162-171.

[8]Charles Sutton,Andrew Mc Callum.An introduction to conditional random fields for relational learning[M]∥Introduction to Statistical Relational Learning.[S.l.]:MIT Press,2006.

[9]Rashmi Prasad,Nikhil Dinesh,Alan Lee,et al.2008.The Penn Discourse Tree Bank 2.0.In LREC[J].Proceedings of Lrec,2008,24(1):2961-2968.

情感分类 篇5

随着科学技术的发展和社会物质的丰富,人类继产品经济、商品经济、服务经济之后迈入第四个经济阶段———体验经济[1]。根据Pine和Gilmore的体验经济理论,在体验经济时代,用户在选择产品时更加关注其是否能满足自己的情感需求,带给自己良好的用户体验(user experience,UE)。因此于产品比较集中、注重用户体验的电商和产品垂直网站来说,在商品的分类中加入情感属性,对产品进行情感化描述和展示越来越重要。

用户体验是用户在使用产品和服务的过程中建立起来的主观感受,情感因素是影响用户体验的主要因素之一。感性工学作为研究用户情感的有效工具被引入到用户体验和网站设计领域。目前Lokman AM(2009)[2]、王猛(2012)[3]、金文婕(2010)[4]等人的研究在发现、总结已有感性因素的基础上,提出了对网站分析改良的有效方案,但这并没有为网站注入新的感性要素,无法为设计师提供更具突破性的解决方案。此外,从用户信息认知处理过程的角度来看,用户体验是用户与网站信息交互过程中产生的感觉[5],因此信息资源的分类、展示也是影响用户体验的重要因素之一。又因为用户使用相关网站上商品的查找、商品的浏览选择、获取商品信息、执行购买等流程环节是用户体验最直接的活动,所以能准确反映用户需求的商品分类研究具有很大的实践意义,特别是反映用户情感需求的商品信息分类。

综上,本文以全新的视角将感性工学相关技术方法应用到对商品的情感化分类中,为网站融入新的情感因素。

1 研究方法的提出

感性工学研究用户情感的一种高效技术方法,以往通常被应用到产品情感化设计中,本文从另一个角度将其应用于产品的情感化分类。产品的情感化分类即根据产品的感性意象或用户对产品的情感需求对其进行分类。首先需要获取用户对于该产品的感性意象及其种类,并据此对产品进行意象匹配、分类、排序,其中主要有感性意象词汇聚类、产品与意象的匹配两大步骤,如图1。

主要通过感性语汇来获取用户对产品的情感需求。感性语汇的收集方式可以灵活调整,对于种类多、受众面广、成熟产品的感性意象语汇表较多,工作量相对较大,可以借助计算机通过文本分类获取目标产品的用户评论、测评文章、广告等相关文本,然后进行文本降维,去掉不相关的词句,再进行人工筛选;产品种类比较少的新型产品,可以直接进行人工采集,包括访谈、检索相关文本。

对于通过感性意象词汇的聚类分析获得用户情感需求的种类,在聚类分析过程中,如果词汇量比较大,可以采用分步多次聚类的方法,先随机获取少量的感性意象词汇进行聚类,获取初始聚类种群,然后再对剩下的词进行聚类,这样可以减少文本数学描述的工作量,灵活方便,准确性高,适合大规模的互联网应用。

随着情感词汇的不断丰富,定期为聚类后的种群加入新的感性意象词并且重新聚类,并根据相关词汇的点击、搜索、出现频率看是否需要更换每类情感需求或感性意象的代表词汇、热门意象词汇,从而迎合、预测用户不断变化的情感需求。

聚类完成后,让相关人员根据聚类结果完成产品意象匹配,进而完成产品情感化分类。可以让商户、厂家、网站管理者在上传产品图片、文本等信息时对其标注情感属性标签,让计算机对其进行分类,这样可以充分发挥互联网“网聚人”优势,分布协同完成大量工作。同理,利用语义差异法(semantic differential)、李克特量表等心理测量法完成感性意象值的测量评价,用于产品排序、推荐等。

完成产品情感化分类后可根据实际情况将其应用在产品分类和排序、产品情感化描述和检索、产品个性化推荐等方面。所采集的数据亦可用于后续产品开发的感性分析。

2 研究方法的应用

2.1 研究对象的选择

本文以基本型乘用轿车为研究对来进行产品情感化分类的研究与应用。汽车从诞生到现在已经走过了百余年的历程,各大厂商技术差距缩小,产品之间同质化的现象开始显现,特别是国内的自主品牌轿车。同时轿车作为人们日常生活、办公的代步工具,其与用户之间交互比较频繁,也经常和用户一起出现在社交场合,由此无论从内饰还是外观上,都需要轿车能体现一定的情感,反映出用户的性格、品味,满足用户的情感需求。轿车相对于其他商品来说,价位相对较高、配置复杂,关系到消费者的形象与尊严,并且在购买过程中消费者需要处理大量信息,高度参与到商品整个购买活动中[6],因此轿车的购买决策属于复杂决策。在购买轿车前的复杂决策过程中,消费者会拿出时间搜寻信息,仔细地分析处理所获信息,并基于自身的购买需求(比如情感需求、经济性、功能性等)来评估、考察可供选择的各种车型。由此,在综合销量、用户群、外观设计和情感附加度的大小,本文选择基本型乘用轿车中的紧凑级和中级轿车为研究对象。

2.2 感性词汇和轿车样本的收集

通过网络、杂志上的测评文章及用户评论收集轿车的感性意向词汇,去掉重复的、不合适的,一共得到霸气、力量感、凶悍、动感等70个感性意象词汇,如表1。

对于轿车样本图片的采集,参考中国汽车工业协会对各型轿车的销量,并结合点击率较高的七大汽车网站上相关车型在销量、关注度、外观评分3个指标中出现的位置和频数,选出30个代表性的基本型乘用紧凑轿车和中级轿车款式车型作为意象看板和研究对象。

2.3 基本型乘用轿车情感化分类所需数据的采集

本文应用数学统计的方法对感性词汇进行分类筛选,主要是通过聚类分析将收集来的感性意象词汇分类处理,再结合词频统计方法选出最能反映消费者感性意象的词汇。为了确保初始分类依据的准确性,同时尽可能多地获取受试者的隐性反馈,本次感性数据采集采用结合实地访谈的问卷调查。

首先,选取20个受试者,受试者全部来源于设计专业和车辆专业。让受试者从轿车样本图片中选出自己喜欢的5款车。此步骤,不仅是热门车型选择的过程,也是受试者对样本图片进行熟悉、明确其感性意象、激发或明确自己情感需求的过程,有利于提高后期将要进行的感性词汇分类的合理性。

接下来,让受试者利用词汇分类表对感性词汇进行分类。分类时受试者不用把所有的词都看完,只需从前往后依次把词汇填入分类表的第一栏,当遇到与前边所填词汇语意相近的词汇时,只需要把该词汇填入近义词汇的下边一栏即可,不断的重复该步骤,直到所有词都归类为止。可以把上述方法称为循环取词法,词汇量不是特别多的情况下它与向量法构建距离矩阵相比,避免了重复填写数字0或1的枯燥性,减少了词汇间的重复对比和受试者的心里负担。

受试者完成感性词汇分类后,让其用自己的语言或分类后的感性词汇形容一下自己所喜爱的车型。此步骤完成了热门车型的感性意象与感性词汇的匹配,同时也选出了热门感性意象词汇。

2.4 基本型乘用轿车感性意象词汇聚类分析

接下来,对感性意象词汇的处理包括:对感性意象词汇聚类,选出每类感性意象代表性词汇和热门感性意象词汇,从而获得轿车的感性意象种类及最受用户欢迎的感性意象。

本文将所有问卷中两个词被分到一组中的次数作为其亲近度的定义,并建立相应的对称矩阵,由于词汇量相对比较多,在此不作展示。将70个感性词汇构建的矩阵输入SPASS进行聚类分析,划分为5类,结果如表2。通过基于词频的统计,热门感性意象词汇为表2中粗体字,并把轿车根据其感性意象分为5类。

除上述方法外,调查者根据实际情况,也可应用多维尺度法(ALSCAL)构建语意空间,再结合专家小组讨论进行分类;还可通过多维尺度法(PROXSCAL)算出词汇间的距离再进行聚类分析。

2.5 基本型乘用轿车情感化分类

可以让受试者在感性词汇聚类前,为每个轿车样本图片标注不超过3个感性意象词汇,选出某款车被标注次数最多的感性意象词汇,对比感性词汇聚类的结果确定其感性意象的种类;也可以在意象词汇聚类分析完成后,直接让受试者根据聚类结果对轿车感性意象进行分类,根据某款车被归入某类感性意象的次数确定其感性意象。限于篇幅,本文在图3中只展示了部分车型感性意象的分类结果,图中车型排序以消费者的喜爱度(被选择的次数)为依据,图5中四款“动感”意象车型的排序以感性意象值的大小为依据。对于轿车样本图片感性意象值的评定将采用改进后的李克特量表进行测量,不再规定具体的数字,而是通过让受试者标定长度来表示感性意象值大小的方式来进行(如图2a),具体的数值转换让计算机(图2b)或调查者人工测量来完成。这种方式更加直观、人性化,不再强迫受试者把感性意象的强弱转换为刻板的数字,但是如果在后期数据处理时采用人工测量的方法将长度转换为数值时,将会增大调查者的工作量。

2.6 轿车的情感化分类研究成果在应用层面的可视化展示

以国内某知名汽车垂直网站为例,对上述研究成果的应用进行界面层的可视化展示,轿车情感化分类方法在网页上的标签为“意象风格”。

图3、图4为网站主页上当“意象风格”处于选中状态时的状态,力量感、霸气、动感、尊贵感为比较受欢迎的感性意象,每类感性意象词后边都有数个同类热门感性意象词,其关注度越大字号越大,用户还可以输入自己喜欢的感性意象词汇,若后台数据库中有该词汇,则该词汇及所对应的车型将会呈现在用户的页面上,若没有该词汇、则该词汇被录入感性意象词汇库。

图5为用户选中某类感性意象词之后所呈现的页面,图中以“运动”为例展示了具有浓厚运动意象风格的轿车,并按意象值从高到低进行了排列。

图6为用户选中具有特定感性意象的某款车之后的页面,图中以运动气息比较浓厚的凯美瑞为例,此外用户可以拖动滑块改变所选轿车感性意象值的大小,可以为喜欢的车子自行添加标签,标签可以包括用户群属性、轿车情感或功能属性等,研究人员由此可获得用户的偏好。

3 结论

产品的情感化分类迎合了用户日益增长的情感需求,为产品的情感化描述和展示奠定了坚实的基础,便于用户基于自己的情感需求对产品进行检索,降低搜索的时间和心理成本;同时为商品增加情感属性后还可增加个性化商品推荐的准确度;能激发用户潜在的情感需求,通过引导增加产品感性意象与用户情感需求匹配的成功率;并且为系统科学的对网站信息进行情感化分类奠定了基础。

相比以往感性工学在用户体验或网站设计中应用的研究,本文为网站融入了新的情感因素,将感性工学相关技术方法应用到产品的情感化分类中,并以基本型乘用轿车为例进行了初探,具有很大的实践意义。但本文的研究只是一个初探,研究的目的是为了服务于实践,为电商、产品垂直网站的商品情感化分类提供可行的方法,为其他领域感性设计实践提供一定参考,广泛而深入的研究能够让产品情感化分类方法变得更加成熟,可以更好的为设计实践服务。

参考文献

[1]PineⅡB J,Gilmore J H.The experience economy.体验经济[M].北京:机械工业出版社,2008.

[2]Lokman A M,Noor N LM&Nagamachi M.Expert Kansei Web:A Tool to Design Kansei Website[J].Lecture Notes in Business Information Processing,2009,24:894-905.

[3]王猛.基于用户情感需求的电子商务网站首页界面设计研究[J].东北大学,2012(06):1-6.

[4]金文婕.基于感性的B2C电子商务网站界面设计研究[D].上海交通大学,2010(01):1-7.

[5]单鹏.基于C2C网络购物平台的用户体验研究[D].江南大学,2011(03):1-6.

情感分类 篇6

随着互联网技术的飞速发展,电子商务受到了广泛的关注,网络用户在线购买行为的扩大使各大电商的评价系统、口碑网站以及网络论坛中保存的用户在线评论的数量达到了惊人的数字。分析消费者网络购物的模式可以发现,在线评论对消费者的购买行为起着重要的决策作用[1]。在线评论的语言表达风格自由,隐藏着用户体验和个人情感信息。这些在线评论中的情感信息对于产品制造商和网络销售方改进产品质量和服务起着至关重要的作用。

然而,随着电子商务的不断普及,在线评论的数量也在不断地增长,依靠人工来分析每一条用户评论显然是不合适的。如何利用自动化或半自动化的方法挖掘出潜藏在用户评论中的情感信息已经成为了学术界和企业共同关注的问题,情感分析也应运而生[2]。

目前对于情感分析的方法主要分为基于情感词典和基于机器学习的方法。其中基于情感词典的情感分析方法主要是利用人工构建的情感词库并结合规则来制定阈值,从而实现情感分类。王晓东等[3]构建了情感词本体并利用词类信息对用户评论进行情感倾向性计算。董丽丽等[4]扩展了How Net(知网)的情感词集合并利用SBV算法对笔记本电脑的情感倾向性进行分析。冯秀珍等[5]利用词类和词性的相似度并根据阈值来实现情感分类。

基于机器学习的情感分析方法主要是提取评论文本中的情感特征,利用数据挖掘中的分类算法实现情感分析,常用的分类算法主要有支持向量机(SVM)和朴素贝叶斯算法。杨经等[6]利用SVM并结合选定的基准情感词实现了文本情感分类。王刚等[7]将SVM和集成学习理论相结合实现了对电影评论的情感分类。钟将等[8]利用矩阵投影并结合SVM实现了对汽车类产品的情感倾向性计算。钟将等[9]利用朴素贝叶斯算法并结合Word Net实现了对服务行业评论的褒贬极性分析。

基于情感词典的方法虽然对评论文本情感分类准确,但需要人工构建完备的情感词集合。基于机器学习的方法在面对高维数据带来的“高维灾难”时效果不佳。由于传统的特征选择算法[10]在选择特征时对于降低输入特征的维度表现不佳,直接影响了机器学习模型的分类准确率。

本文从降低分类器输入特征的维度、提高分类准确率出发,提出了一种利用汉语组块分析对评论语料进行细粒化处理,从而获得情感标签,并结合情感词本体与机器学习模型进行情感倾向性分析的方法,采用如图1所示的流程对评论文本进行情感分类。实验结果表明,这种情感分析方法能够取得较好的分类效果。

1 基于汉语组块分析的细粒化处理

1.1 汉语组块分析概述

句法分析是自然语言处理研究领域的一个重点和难点,它的基本任务是识别出汉语句子中的不同句子成分或依存关系。以获取句子局部信息为目的的句法分析称为浅层句法分析,汉语组块分析就是一种浅层句法分析。

汉语组块分析借助语言学中的语块理论[11],对输入的汉语句子进行汉语解析,从而构成了从词法分析过渡到句法分析的一座桥梁。本文利用汉语组块分析对评论文本进行处理,从而提取出用户评论中的情感标签。

汉语组块分析对经过汉语分析和词性标注的汉语词语序列处理后主要产生两部分信息:1)词界块:将输入的词语序列中的相同句法成分划分在同一个汉语块中,这样词语序列就形成了连续的词界块序列;2)汉语块成分标记:类似于词性标注,给每一个汉语块标记一个句法信息标记。

通过上面的分析可知,要进行汉语组块分析前,首先需要定义使用的汉语块成分标记。本文所使用的汉语块成分标记如表1所示。

通过汉语组块分析对评论文本进行汉语块成分标注处理,可以依靠汉语块信息抽取出用户评论中的情感标签,从而进行细粒化的情感分析。

1.2 基于支持向量机的汉语组块分析

目前主要利用机器学习算法来进行词界块的识别和汉语块的标记。主要的机器学习算法有最大熵模型、Adaboost算法、条件随机场模型、隐马尔可夫模型以及错误学习算法[12]等。本文利用台湾大学资讯工程系提供的LIBSVM工具箱[13]来进行汉语组块分析。

对汉语评论文本进行组块分析,实际上就是对分析后的汉语文本输出一组汉语块序列,举例如下:

假设输入的汉语评论文本为:性价比很低,中级车中算差的。利用中国科学院计算技术研究所提供的中文分词软件对该汉语评论文本进行二级分词和词性标注后输出:性价比/n很/d低/a,/w中级车/n中/f算/v差/a的/u。/w。

对经过汉语分词和词性标注等预处理操作的文本进行汉语组块分析后得到如下汉语块序列:性价比/n[ap很/d低/a],/w[sp中级车/n中/f][ap算/v差/a的/u]。/w。

在上面的例子中,名词“性价比”是用户评论的对象,其中副词“很”和形容词“低”以及动词“算/v”、形容词“差”和助词“的/u”分别构成了两个形容词块“[ap很/d低/a]”和“[ap算/v差/a的/u]”。另外,应当注意到名词“中级车/n”和方位词“中/f”构成了空间词块“[sp中级车/n中/f]”。通过汉语组块分析可以很清楚地发现该用户所描述的对象是“性价比”,并使用了两个具有情感信息的形容词块“[ap很/d低/a]”和“[ap算/v差/a的/u]”来描述所购买的汽车的性价比。

通过上述分析,可以发现汉语组块分析的任务可以归结为一个多分类任务。支持向量机作为一种有监督的分类学习模型,需要提供一组实例来训练模型。本文在考虑了上下文关系后,选择了词特征、词性特征以及汉语块特征作为支持向量机的分类依据。这样分类模型x可以由以下12个特征来表示:

上述三类特征可以做如下解释:

(1)词特征:ωi-2、ωi-1、ωi、ωi+1、ωi+2;

(2)词性特征:ti-2、ti-1、ti、ti+1、ti+2;

(3)汉语块特征:ci-2、ci-1。

汉语组块的流程可以如图2所示。

为了进行汉语组块分析,本文选择了一些上下文特征,例如:上下文中的词、词性和汉语块。考虑到在线评论文本中的评论句长度,本文采用{-5,5}为上下文窗口获得的中心词附近的语言学特征较为合适。

由于在数据分类中经常遇到线性不可分的问题,对于这些问题可以利用核技巧理论将输入向量通过高维函数映射到高维空间。一般而言,如果选择的映射函数合适,绝大多数的低维不可分问题都可以在高维空间可分。在汉语组块分析的任务中,本文选择了多项式核函数。

据统计,在实验语料中绝大多数的产品属性和评价词可以通过就近匹配的方式抽取出来,所以通过这种匹配式的位置信息,可以在汉语组块分析后进一步抽取出与评论实体较近的产品评价。

1.3 情感标签抽取

对评论文本进行细粒化的情感分析前,首先要抽取出评论中所隐藏的情感标签。一般而言,评论主要由评价对象以及含有褒贬倾向性的情感词组成。因此,情感标签可以由如下所示的二元组组成:

二元组中,s表示用户评论的对象,o表示用户评价对象所使用的情感词。

由于本文所用的评论语料是在线汽车类商品的评论语料,所以用户评论的对象s可以由如表2所示的8个汽车类产品的公有特征组成。

由于实际语料并不是很规范,还有一些关于这8个特征的其他描述方式。本文通过对汉语组块分析后的结果,进行评价实体抽取。将不同描述方式映射为如表2所示的8个特征,映射方式如表3所示。

这样,通过上述的映射关系表,就可以对语料的规范化进行处理,统一评论文本中的关于评论实体的说法,方便后续的处理。

通过上面的叙述,用户评论对象可以表示为:

用户评论情感词o是指用户对于某一产品特征进行评论时,所使用的具有褒贬倾向性的描述词汇。

通过对在线评论文本汉语组块后,分析组块结果发现,可以描述产品特征的情感词汇主要由形容词类以及动词类信息构成。形容词类信息主要包括形容词块以及汉语块外的自由形容词,动词类信息主要由动词块以及汉语块外的动词类信息构成。

因此,对于用户评论的褒贬信息组要抽取上述的形容词类信息以及动词类信息。

由于有些在线评论可能会包含多个评论实体,本文为了便于分析定义了小句的概念。小句可以描述为由汉语块外的逗号、分号、句号、问号、感叹号等点号分割的汉语句子序列片段。通过逐一分析组成评论的每一个小句就可以提取出该评论内的评论实体和评价词。

经过汉语组块分析后,每一条评论文本可以构成类似“大众/nr的/u油耗/n[ap偏/d高/a],/w同时/c动力/n弱/a。/w”的汉语块序列。根据该句子中出现的点号(,/w)可以将该汉语块序列切分为两个小句片段:s1=大众/nr的/u油耗/n[ap偏/d高/a],/w和s2=同时/c动力/n弱/a。/w。根据上述对于情感标签的分析,分别对小句片段s1和s2提取评论对象和情感词o。

对于小句序列s1,它的情感标签由产品特征“油耗/n”以及构成情感倾向性的形容词块“[ap偏/d高]”构成;小句序列s2的情感标签由产品特征“动力/n”以及含有情感褒贬信息的汉语块外的自由形容词“弱/a”构成。

这样,构成该评论的情感标签可以描述为:

基于上面的分析,对经过汉语组块分析后的评论文本逐一提取产品特征和情感词,就可以由情感标签来描述每一条评论。这样就由粗粒度的句子级情感分析缩小到了细粒度的情感标签级的情感倾向性识别。

经过上述分析,可以对评论语料中的情感信息进行抽取。由于部分抽取出的信息是非情感的,但是抽取后情感信息总体抽取准确率达到了77.62%,表明通过汉语组块分析后对评论信息进行抽取是可行的。

2 评论细粒度的情感分析

在对评论文本进行汉语组块分析,以及情感标签提取的基础上,本文结合情感词汇本体和机器学习算法进行评论文本的细粒度情感分析。

2.1 情感词本体的选择与扩展

使用情感词汇本体来进行情感分类,可以获得情感词的情感分类、情感强度以及情感极性等情感词特征。这些特征可以作为基于机器学习的情感分类的实例特征。

本文所使用的情感词汇本体是由大连理工大学提供的[14],该情感词汇本体共收录了27 476个词,这些情感词被分为7个情感大类和21个情感小类。其中,情感大类包括:乐(happy)、好(like)、怒(anger)、哀(sad)、惧(fear)、恶(disgust)和惊(surprise)。情感小类由:安心(PE)、快乐(PA)、喜爱(PB)、相信(PG)、赞扬(PH)、尊敬(PD)、愤怒(NA)、内疚(NH)、失望(NJ)、悲伤(NB)、恐惧(NI)、害羞(NG)、怀疑(NL)、嫉妒(NK)、贬责(NN)、憎恶(ND)、烦闷(NE)、惊奇(PC)等组成。

由于本文所进行的是对在线评论的多分类,因此7个情感大类结合情感倾向性可以分为:

(1)积极(positive):乐(happy)、好(like);

(2)消极(negative):怒(anger)、哀(sad)、惧(fear)、恶(fear);

(3)中立(neutral):惊(surprise)。

由于网络在线评论中存在大量的衍生情感词汇、网络新词以及隐含情感词,仅仅依靠现有的情感词汇本体远远不能覆盖在线评论文本中的情感词,所以还需要对现有的情感词汇本体进行扩展。对于未登录的情感词的扩充,需要以情感词汇本体中的情感词为基准词汇,通过点间互信息(PMI)来计算未登录的情感词与基准情感词之间的共现程度,从而达到扩展情感词汇本体的目的。本文以情感词汇本体中的情感词作为基准情感词,以汉语组块分析后提取出的情感词信息作为扩展信息。PMI的计算公式如下所示:

PMI的数值共有三种状态:

(1)PMI(word1,word2)>0:未登录情感词与基准情感词相关;

(2)PMI(word1,word2)=0:未登录情感词与基准情感词统计独立;

(3)PMI(word1,word2)<0:未登录情感词与基准情感词不相关。

本文选择与未登录情感词最相关的基准情感词,将该基准词的情感分类、情感强度和情感极性作为该未登录词的属性,从而实现对情感词汇本体的扩展。

另外还有一些比较特殊的未登录情感词,这些词汇由已知的情感词汇和程度副词构成,例如:不满意(满意是已知的基准情感词汇)。根据对否定副词的情感强烈程度,可以将相应的情感小类的标签赋给这些加了否定前缀的情感词,如表4所示。

通过上面的分析就可以对原有的情感词汇本体进行扩展,从而构建出利于分析汽车评论情感倾向性的情感词汇本体。

2.2 基于机器学习的情感倾向性分析

本文利用SVM对汽车评论文本进行情感倾向性分类研究。通过汉语组块分析和情感标签抽取,实现了提取评论文本中的细粒度特征。传统的基于机器学习的情感分类方法利用词特征作为特征实例,这时往往由于输入数据的维度过大从而削弱了机器学习模型的泛化能力。

通过扩展情感词汇本体,可以查询到情感标签中某一情感词的情感分类(c)、情感强度(h)以及情感极性(p)。本文将情感标签和这三个通过本体查询到的扩展信息作为SVM的特征向量,如果情感标签中只含有一个评论对象(单一评论对象),那么特征向量可以表示为:

对上述四个特征的解释如下:

(1)产品特征s1:情感标签中的产品特征。由于本文分析的是汽车类产品,所以该特征为汽车类产品的8个公有特征之一。

(2)情感分类特征c1:在情感词汇本体中查询到的情感标签中情感词的类别。由于本文使用的情感词汇本体是大连理工大学构建的情感词本体,所以该特征为21个小类中的一个。

(3)情感强度特征h1:在情感词汇本体中查询到的情感标签中情感词的情感强度,情感强度分为{1,3,5,7,9}五档,9表示强情感度最大,1表示情感强度最小。

(4)情感极性特征p1:在情感词汇本体中查询到的情感标签中情感词的情感极性,情感极性由{0,1,2}表示,0表示中性,1表示褒义,2表示贬义。

如果一条在线评论中包含多个产品特征,那么该情感标签就由多个单一评论对象的情感标签组成,该情感标签的特征向量可以表示为:

通过抽取情感标签,并结合情感词汇本体和机器学习模型,就可以将依靠本体查询到的扩展信息作为SVM的分类依据,从而避免了直接将词特征作为分类依据,降低了“高维灾难”对分类模型泛化能力的影响。另外,SVM的核函数采用了径向基函数。

3 实验结果及分析

为了验证本文所采用的情感分析的方法的有效性,本文利用汽车之家(http://www.autohome.com/cn)所提供的汽车类产品的评论语料作为实验对象。该评论语料共包含2000条正面评价、2000条中性评价和2000条负面评价。

本文所用的实验环境:计算机CPU为Intel CORE i5,内存4 GB,操作系统为Windows 8.1,采用Visual studio 2010。其中情感分类实验利用了新西兰怀卡托大学机器学习小组提供的怀卡托智能分析环境(http://www.cs.waikato.ac.nz/ml/index.html)。

为了提高情感分类实验的有效性和可靠性,实验采用了4倍交叉验证法,即将实验数据划分为4个相等的数据集。每一个数据集中包含500条好评、500条中评以及500条差评。每一次实验时利用3个数据集来训练分类模型,用剩下的1个数据集来测试,每个数据集轮流测试一遍,整体的实验流程如图3所示。

本文利用宏平均准确率(MP)、宏平均召回率(MR)和整体平均正确率(P)来进行评价。本文首先和文献[11]进行对比,实验结果如表5所示。

文献[11]所采用的SVM分类方法是利用词特征和词性特征作为训练实例;本文所采用的方法是利用汉语组块分析提取评论文本中的情感标签,进而进行细粒化的情感分类实验。文献[11]的平均准确率为79.43%,本文的平均准确率为84.53%。实验1的结果表明,通过汉语组块分析来进行细粒的情感分析,对于降低SVM的输入特征的维度从而提高分类的准确率是有效的。

另外,本文和文献[5]进行对比实验,文献[5]由于采用了基于规则和加权的方法来实现情感分析,所以不能利用上述评判机器学习的方法来评价文献[5]。本文利用四折后的平均准确率和文献[5]的平均准确率比较,结果如表6所示。

文献[5]采用基于规则的词法分析的方法来进行情感分类,本文采用浅层句法分析的方法来进行细粒化的情感倾向性分类。对比实验2表明,利用句法分析可以有效识别句子中的成分,从而提取情感标签,相比基于规则的方法不会受到预先定义的规则的局限性。

通过对比实验1和对比实验2可知,本文所采用的方法由于基于规则的方法,相比传统的利用机器学习实现的情感分类算法有一定的提高,表明利用细粒度的情感分析能够准确识别用户评论中的情感倾向性。

4 结语

情感分类 篇7

现有大部分评论情感分类研究都是建立在正负样本数据平衡的基础上。然而,在收集产品评论语料的实际情况中,可以发现正负类数据分布并不平衡,正向样本的数目往往大于负向样本。在进行分类时,分类结果总是会倾向于多数类的类别,造成少数类样本分类较大的错误率[2]。

目前,在不平衡数据分类领域已有不少研究。如:Li等[3]将主动学习、半监督学习和监督学习方法引入到不平衡情感分类问题,减少样本标注量的同时,提高了分类结果的准确性。王志昊等[4]以欠采样(under-sampling)方法为基础,结合文档频率、互信息、信息增益和统计四种经典的特征选择方法,提出三种特征选择模式,实验表明,先随机欠采样,后使用信息增益进行特征选择的模式分类效果最优。王中卿等[5]为了充分利用标注数据,先进行多次欠采样,构建多个欠采用分类器,最终融合分类器进行集成学习。袁兴梅等[6]提出一种基于代价敏感的结构化支持向量机集成分类器模型。运用Ada Boost策略对各样本的权重进行动态调整,通过增大少数类样本的权重,从而降低小分类的误分率。

由上述可知,不平衡数据分类的解决方式主要有两种,第一种是进行随机欠采样,减小不同类别的样本数量差距;第二种是先找出样本的结构,增大少数类样本的权重,从而降低少数类样本被多数类样本覆盖的几率。这两种方法都可以解决不平衡数据问题,可是实现这两种方法的前提是需要大量有标注的样本。实际上,现有的网络评论语言形式变化多端,新的表达方式层出不穷,不容易收集到可以覆盖所有言语形式的有标注样本。另一方面,即使收集到满足需求的样本,也很容易过时。因此,本文结合降噪自动编码器(denoising autoencoders,DAE)和k-mean算法,通过增大少数类单元的权重,实现不平衡数据的无监督情感分类算法。

1 算法描述

降噪自动编码器是在一般自动编码器(autoencoders,AE)基础上,对输入数据加入噪声,以提高算法的鲁棒性,其网络结构、损失函数和训练方法都和一般自动编码器相同。因此,本文在介绍降噪自动编码器之前,先阐述自动编码器相关原理。

1.1 自动编码器

AE是深度学习(deep learning)中常用模型之一,主要利用人工神经网络具有层次网络结构的特点。如果给定一个神经网络,假设输入和输出结果相同,通过模型训练调整参数,可以得到不同隐含层的值,每一个隐含层就是输入数据的一种特征表示,从而实现了无监督的特征提取。AE结构图如图1所示。

给定n个输入数据X={x(1),x(2),…,x(n)},其中输入向量x={x1,x2,…,xp},xi=0或1,i∈[1,p]。隐含层向量为y={y1,y2,…,ym},j∈[1,m]。输入层和隐含层之间的映射函数为:

式中,θ∈{W,b},W是m×p的权重矩阵,b是偏置变量。该映射函数是基于平衡样本,对于不平衡数据,为了提高少数样本的权重,避免少数样本被“吞噬”,本文将映射函数改进如式(1)。

式中N为总样本数,λ分别为少数样本在总样本数中所占的比例,称为少数类百分比。表示N个样本中第j个单元的统计,如果该单元为1值的样本数越多,cj值越大,F(x,cj)也就越小,表明该特征的重要性越低。反之,单元为1的样本数越少,F(x,cj)越大,特征的重要性越高。改进的映射函数主要是提高少数样本的特征值。

根据公式(1),可求出隐含层表示y,下一步将y映射为一个输出向量z。z是x的复现,要求尽可能与x的值相等。为了实现这种复现,AE就必须捕捉可以代表输入数据的最重要因素。从y到z的映射函数为:

式(2)中θ'={W',b'}。

由上述可知,每一个输入向量x(i)都将映射为一个隐含向量y(i)和重构向量z(i)。该模型的参数θ和θ'的最优解应该使平均重构误差最小,其表达式如下[7]:

式(3)中L为损失函数,为较好地描述x和z的离散拓扑结构,损失函数L取为Bernoullis分布(Bx)的距离:

如果x是一个二元向量,LH(x,z)是x的负对数似然函数。结合公式(3)和公式(4)可得:

式(5)是AE模型训练的目标函数。其中,,q0(x)表示输入样本的经验分布。

AE模型目标是在损失函数达到最小时,求得参数W和b的值,可采用梯度下降法求最优化的参数,流程过程如下:

(1)对于每一层l,设置ΔW(l):=0,Δb(l):=0

(1)使用反向传播计算"W(l)LH(x,z)和"b(l)LH(x,z);

(3)更新参数

式中a为下降率,a值越大下降速度越快,但是并不意味着分类的精度越高;M为下降训练的循环次数。

从模型的训练过程可以看出,损失函数的偏导是个累加的过程,每个样本数据累加一次,样本之间不会相互依赖。由此可见,训练样本的输入和顺序无关。

1.2 降噪自动编码器(DAE)

为了提高自动编码器的鲁棒性,将输入数据进行“摧毁”,通过训练AE模型,重构出“修复”的输入数据。改进之后的AE模型称为降噪自动编码器,摧毁输入数据的过程其实就是对输入数据加入了噪声。该过程首先是通过一个随机映射,把初始输入x摧毁为x~。也就是说,对于每一个输入向量x,按照一定的摧毁率,随机选择单元值重置为0,其他值不变。然后通过公式(1)和公式(2),将被重置的单元尽可能修复为初始数据,其中公式(1)修改为。该模型的损失函数仍为LH(x,z)=H(Bx||Bz),输出层z应尽可能接近原始输入x。降噪自动编码器的结构如图2所示。

梯度下降的目标函数转化为:

式(6)中,为x和的联合概率分布。

由以上分析可以看出,DAE的原理有点类似人体的感官系统,比如人眼看物体时,如果某一小部分被遮住了,人依然可以辨识出该物质,并且能将小部分修补。一般的自动编码器的本质是学习一个相等函数,其缺陷在于如果测试样本和训练样本不是同一分布,则效果不好,而DAE弥补了这方面的缺陷,提高了系统的鲁棒性。DAE主要是提取数据的特征,还不能进行分类,需要加上分类器,本文使用kmeans算法作为分类器。

2 仿真实验和结果分析

2.1 实验数据集

通常认为多数类与少数类的类分布比例(不平衡率)低于2∶1时,样本集具有不平衡特征。为了测试算法的性能,本文在京东商城网站使用爬虫程序抓取了4个领域的中文语料评论,其类别分布情况如表1。文中运用lucene和IKAnalyzer进行分词,然后将文本数据转化为矩阵向量,对于每一个特征,如果评论中出现则为1,否则为0。DAE和kmeans算法使用matlab语言编写。

2.2 分类性能评价

正负样本分类的性能评价采用召回率(racall,R)和准确率(precision,P)两个指标进行评估。

式中,c为原本属于该类但是错判为其他类的评论数,a为判别正确为该类的评论数,b为判别错误为该类的评论数。

2.3 结果分析

对于DAE模型,隐含层的单元数目比隐含层的层次或者循环次数都更为重要,换而言之,网络结构在很大程度上决定了性能。因此,文中先使用手机的样本数据,训练出分类效果最好时,模型的隐含单元数。

DAE算法中的初始参数设置:下降率=0.1,摧毁率=0.3,循环次数=200。首先将手机样本进行分词,去除停用词以及一些无意义的词之后,样本分词维数约为3 500,因此,可以预先设置隐含层单元个数为100,然后逐渐增加。

图3描述了不同的隐含层单元个数,训练集的准确率和召回率的实验结果。由图1可知,随着隐含单元数目的增加,模型分类的准确率和召回率也逐渐升高。当单元数为550时,准确率和召回率达到最高点,随之开始下降。主要是由于隐含层单元太紧密或太稀疏都不利于准备表达数据特征,因此,合理地选择隐含层单元数是DAE性能的关键因素之一。

训练出隐含层的单元数之后,分别训练其他领域的样本,并与SVM算法做比较,结果如表2所示。

从表1可以看出,由于服装样本数据的不平衡率较低,使用SVM算法的分类精度高于DAE算法。但是随着不平衡率的提高,DAE算法的优势也逐渐体现,在笔记本领域DAE的分类精度高于SVM算法。另外,DAE算法是无监督分类,而SVM是有监督分类,这也是SVM能略高于DAE的原因之一。

3 总结

文中应用降噪自动编码器进行评论数据的特征提取,然后结合k-means算法进行无监督的情感分类。通过实验分析了DEA算法中的隐含层单元数对分类精度的影响。最后,将DEA算法与支持向量机算法比较,结果表明在不平衡率较高的前提下,DAE算法分类的效果要优于传统的支持向量机算法。本文是对降噪自动编码器在评论分类的初次探索,希望能抛砖引玉,研究出精度更优的算法。

参考文献

[1]&nbsp;江海洋.基于评论挖掘和用户偏好学习的评分预测协同过滤.计算机应用研究,2010;27(12):4430—4433

[2]&nbsp;于重重,商利利,谭励.半监督学习在不平衡样本集分类中的应用研究.计算机应用研究,2013;30(4):1085—1090

[3]&nbsp;Li&nbsp;S,Zhou&nbsp;G,Wang&nbsp;Z,et&nbsp;al.Imbalanced&nbsp;sentiment&nbsp;classification.Proceeding&nbsp;of&nbsp;CIKM—11,2011

[4]&nbsp;王志昊,王中卿,李寿山.不平衡情感分类中的特征选择方法研究.中文信息学报,2013;27(4):113—119

[5]&nbsp;王中卿,李寿山,朱巧明.基于不平衡数据的中文情感分类.中文信息学报,2012;26(3):33—38

[6]&nbsp;袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器.模式识别与人工智能,2013;26(3):315—340

情感分类 篇8

信息时代下金融文本体裁分类方法

体裁主要指艺术的种类和形式,每一种体裁都有其独特的风格、形式及内容。文本的体裁一般由其语言功能、形式特征以及组织结构等几方面决定,关于文本体裁分类的研究可以上溯到上世纪九十年代。体裁分类,从本质上说是文本分类问题,通过对主题文本分类中常用的方法就可以实现对文本的体裁分分类,金融文本体裁分类方法主要有朴素贝叶斯和支持向量机两种。

朴素贝叶斯:贝叶斯概率公式是朴素贝叶斯分类器的基础,在预先分类的训练语料提供的信息的前提下估计参数,从而将分类器训练出来。对分类的文档d来说,需要对该文档属于各个类别的条件概率P(ci/d)进行分别计算,c*=ardmaxc P((ci/d)代表将d分到条件概率最大的类别。在对P(ci/d)进行计算时,则就要对贝叶斯公式加以利用:

P(d)是指d的概率,是从文档中随机抽取的一个文档,它的值对最终分类结果并不影响。朴素贝叶斯模型中比较常见的模型有两种,一种是多变量伯努利模型,另一种是多项式模型。在估算P((ci/d)过程中对事件概率模型采用的不同使这两种模型最大的区别。

支持向量机:支持向量机是由Vipnik提出的,是一种在VC维理论基础上和结构风险最小化原则上进行的统计学习方法。它可以在特征空间对最大间隔的超平面进行构建,从而可以得到两类之间的分类准则,在此基础上减小期望风险的上界。很多研究都已经表明,SVM在对自动文本分类问题的解决上,比其他方法更加直接准确,这种方法的提出是以线性分析为基础的,即对最优分类面的研究,假设其最优分类面为H,分类间隔以H1、H2之间的距离为大,则其支持向量便为H1、H2经过的训练样本点。SVM体裁分类法能够使金融领域的词得到正确切分,一定程度上促进系统误差的减少。

信息时代下金融文本情感分析方法

情感分析主要是对文本表达情感、情绪及观点的识别、分类和标注等,是近年来刚刚兴起的研究方向之一。通过对金融文本的情感分析,能够给投资者提供一定的参考,有利于投资者对金融情况的预测和相应决策的制定。目前信息时代下的金融文本情感分析主要遵循以下步骤和方法。

金融情感信息抽取:金融文本情感分析的基础任务是对情感信息特征的提取,有价值的情感信息单元除了包括评价词语抽取和判别外,还包括评价对象抽取和观点持有者抽取等。评价词语主要是感情倾向明显的词语,因此又被称为情感词。情感词在抽取和判别上主要有基于人工标注语料库和基于词典的两种方法。基于人工标注语料库比基于词典更加简单易行,而基于词典则比基于人工标注语料库获取的评价词语数量更加可观。评论文本中评价词语所修饰的对象就是评价对象,即文本讨论的主题。评价对象的抽取主要有基于规则/模板和多粒度话题模型的采用等方法。观点持有者的抽取在方法上主要是对命名实体识别技术的借助,分类器和特征的选取是其关键。

金融情感信息分类:金融文本情感信息分类任务主要包括三方面,第一方面是主、客观的二元分类,第二是二元(正面或负面)极性分类,第三为更细致的多元分类(多等级)。其中在二元分类任务上,对分类特征的选取是其最为关键的点,也是最主流的主客观信息分类方法。极性分类可以通过对不同的文本粒度的分析进行分类,预测数据整体倾向性。

金融情感信息归纳:在对金融文本情感信息抽取和分类后,用户可能并不能直接使用,因此必须对其做出进一步的加工,其对金融文本的情感信息进行归纳。其归纳方法第一步可以将与主题相关的文档检索出来,检索模型可以对往比较成熟的信息检索模型加以利用。第二步可以使用抽取和分类技术对所有相关文档加以处理,将带有情感的主观性文档分离出来。最后,则要做好对情感文档的排序问题,在结果整理出后,可以结合可视化技术将其呈现给用户。

上一篇:计算机教学体会下一篇:大学英语视听说课堂