基于社区的问答(共3篇)
基于社区的问答 篇1
0 引言
随着Internet的迅猛发展,用户产生内容的网络模式得到人们越来越多的关注。知识共享型网站如百度知道、人人网、天涯社区等由于广泛的用户参与,其网站资源快速增长,对人类知识的积累和传播起到了很大的作用。其中百度知道作为全球最大的知识分享社区[1],每天平均产生71 308个问题,223 907个回答,平均每一个问题吸引3.14个用户参与互动,通过百度知道分享知识的用户累计超过1.5亿人次[2],其中在2010年解决的问题数量就达到近6 000万个,为中文互联网贡献了大量有价值的内容。
百度知道的基本形式是由用户提出问题,其他用户回答问题,提出问题的用户从多个答案中选择一个最佳答案,如果提问用户没有选择答案,则将由其他用户投票选择出最佳答案。由于所有用户都可以随意创建问题及答案内容,因此答案的信息质量差异非常大,提问用户有时可以从多个答案中找到令自己满意的答案,也有可能找不到,因为有的答案只是闲聊或者广告信息。例如:
问题1:日头为什么从东边出来?
回答1:日头本来就是从东边出来的。
回答2:因为他要从西边下去!
回答3:日头本来就是从东边出来的,因为他要从西边下去。
问题2:求一个90年代找鞋子钥匙的过关小游戏
回答1:buzhid
回答2:有这个游戏吗?
回答3:好像被删了,我也在找
因此如何识别出对提问用户有用的最佳答案是问答社区发展需要解决的重要问题。本文在基于回答文本特征的基础上,将问题和每个答案看成一个独立的文本单元,研究基于相似度的问答质量评价方法。
1 相关研究
在问答社区中问答质量的评价方法上,Jeon等[3]选取了问题和回答上下文信息的特征并构建了基于语言建模的检索模型;Agichtein[4]等提出了更丰富的特征,包括结构特征、文本特征、社区特征等;Liu等[5]根据问答社区的统计信息如用户积分、答案票数、点击次数等来评价问答质量;Bian等[6]提出了进行问答社区检索排序的GBRank算法,算法综合了提交查询与问答的相关性、用户交互信息和问答社区中用户的反馈信息以检索客观的内容,并探讨了问答社区中用户恶意的交互,提出了应对用户恶意投票的问答社区检索排序算法[7]。一些研究人员还发现问答社区中专家用户和回答的问题质量有很强的相关性,Zhang等[8]提出了Expertise Rank算法识别专家用户,孔维泽等[9]研究了基于时序的特征、基于问题粒度的特征和基于百度知道社区用户的特征来衡量问答质量。
基于特征的方法是从网页中提取特征,使用机器学习方法进行分类。一般来说,提取的特征有以下几个方面:
(1)问题和回答的文本属性特征
文本长度:问题或回答的句子长度。
标点符号比重:回答中是否大量使用表情或者省略号等。
内容词密度:问题或回答中实词如名词、动词、代词等出现的比例。
最大单字散串:错误的用法可能导致分词后出现多个连续单字串。
内容词覆盖率:问题中的实词和回答中的实词的重复比例。
类别距离:问题和回答的类别距离。
(2)问题和回答的非文本属性特征
是否被采纳:该回答是否被选为最佳答案。
投票数:该回答获得的票数。
提问者评论:提问题对回答做出的评论。
回答时间:回答问题用户发表回答的时间,一般认为,越晚时间发表的回答,可能综合考虑了之前用户的回答,其完备性和准确性较高,更有可能是最佳答案。
(3)用户属性特征
用户最佳答案率:用户的回答被采纳为最佳答案的比例。
用户经验值:百度知道系统根据用户的历史操作累积用户经验值。
回答得分:百度知道系统根据用户的历史回答操作累积回答得分,它是衡量用户的活跃性的有效评价。
这些特征对于判断答案质量问题有一定帮助,本文选择其中基于文本属性和非文本属性的方法,选取出特征,使用SVM分类器判断选取语料中问题的回答中的最佳答案作为本文实验的比较方法。
经过观察语料特征,大部分问题和回答是较短文本,因此可以计算问题及各个回答之间的相似度来判断最佳答案。例如:
问题:推荐给我的笔记本电脑,要上大学了,主要是玩游戏好,一些笔记本这不兼容那又不兼容的,价格5 000-10 000之间。
最佳答案:谁告诉你笔记本这不兼容那不兼容的?你那个价格买啥笔记本都可以流畅的玩游戏了。性能约好价格越高,去电脑城选一个你喜欢的品牌跟外观就可以了。
其他答案1:上学买这么好的笔记本没有必要,不如买个4 000的笔记本用着,宿舍里放个5 000块钱的台式机更牛。
其他答案2:自己去找哦。这样才能找到一款适合自己和自己喜欢的!
因此本文在选取回答特征进行分类的基础上,研究了基于相似度的问答质量判断方法,将网页文本中的各问题和答案划分为一个单元,通过计算问题及回答之间的相似度以及权值的计算,识别出回答中的最佳答案。
2 基于相似度的问答质量评价
2.1 网页文档预处理
本文首先将抓取的百度知道网页文档使用Nekohtml开源工具包转换为文本文档,Nekohtml是一个Java语言的HTML扫描器和标签补全器,借助Nekohtml可以解析网页文档并得到网页文档包含的所有纯文本信息。转换时,本文使用“n”作为Element节点信息的结束标志。转换结束后,以问题或每个回答定义为一个语言单位并使用“n”对文本信息进行划分。每个文档的文本信息由多个单位组成(从抓取的网页中去除只有一个答案的问题的网页)。
2.2 词语相似度的计算
由于大部分问题的句子长度及答案的句子长度都较短,因此本文选择了利用“正向迭代最细粒度切分算法”分词后的公共子词语方式来计算每个文档中的文本单位间的相似度。比如“空气质量标准”的“正向迭代最细粒度切分算法”分词后为:“空气”、“质量”、“空气质量”、“标准”、“质量标准”、“空气质量标准”。基于该方法的相似度计算会将进行比较的两个单位中的词语的前后位置关系一起考虑,提高了相似度的准确性。
考虑到计算量的问题,本文采用《同义词词林》广义的相关词[10]来计算文档中单位间的相似度,该词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词。《同义词词林》采用5层分类体系:第一层表示大类如“物”,共12个大类;第二层表示中类如“植物、动物”,共97个中类;第三层表示小类如“树、猴”,共1 400个小类;第四层表示词群如“树木、猿猴”;第五层表示原子词群如“杨树、猕猴”等。
两个事物之间的相似度可以用表示两个事物的词语间的语义相似度替代,在同义词词林中,两个词语的共性体现在两个词语上一层的高度,其个性主要体现在同一层词语所在层分支的密度和词语之间重合度。综合考虑词语的共性和个性信息,本文词语之间的语义相似度D(Wi,Wj)的计算公式如下:
其中Len(Wi,Wj)是两个词语Wi和Wj第一次到达同一个交集层节点所经过的最长路径长度,Density(Wi)是词语Wi的同层兄弟节点数与同一层中所有节点数的比值,Height(p)是词语Wi和Wj的共同父节点距离第一层的绝对高度。
根据式(1),本文使用Java语言开发了“词语相似度计算工具”,文档中各单位经过工具的计算,可以得到词语间的语义相似度。本文计算的部分词语的相似度结果如表1所示。
根据实验结果,本文选择词语间语义相似度的阈值为0.5,大于该值,认为是语义相同的词语。
2.3 单位相似度的计算
根据公式(1)计算出文档中各单位的词语之间的语义相似度之后,可以计算出文档中两个单位间的相似度即两个单位中词语集合的语义相似度,计算公式如下:
其中S1和S2分别为需要计算的两个单位U1和U2的词语集合。S集合内的数据结构为<word,count>,其中word为词语,count为word出现的次数,如果集合中出现了相同的词语,只保留一个词语,且词语的数值为该集合中词语出现的次数。经过了词语的语义相似度计算之后,句子“我只有初中学历,能参加成人高考吗?”中的“高考”和句子“可以参加考试!”中的“考试”认为是相同的词语。same CT为S1和S2两个集合的共同词语数之和,和的值等于共同词语的数值相加。此时两个单位有3个共同词语{能(可以)、参加、高考(考试)},same CT的值为3。size(S)表示S集合的长度。
2.4 权值的计算及调整
本文将HITS(Hyperlink-induced Topic Search)算法应用到文本文档的各个单位之间,首先将文本文档表示成图G。图G的各个顶点对应文档中的各个单位。顶点之间的边是否存在取决于顶点对应的单位之间相似度的大小,如果两个单位的相似度值为0,则顶点之间不存在边。边的权值大小为相似度的值,值大于0;顶点的初始权重为式(2)计算出的权值大小。
根据式(2)计算出的单位之间的相似度,将某单位与其他各单位间的相似度相加,可以得到文档中每个单位的权值计算公式:
其中,Ui为需要计算的单位。Sim(Ui,Uj)为Ui与Uj之间的相似度。N为文档中的单位的数目。
根据图G的定义,借鉴Page Rank算法思想,本文对式(3)计算出的单位的权值进行了调整:
W(Ui)为Ui的初始权重,link CT为图G中单位Ui对应顶点的度。式(4)表明,对于文本文档内部的各个单位而言,若一个顶点的度越大,那么其对应的单位的重要性也就越大。
回答的文本长度也对权值有贡献,相似的两个文本单位,长度越长的回答越有可能是最佳答案,因此本文在式(4)计算的权值的基础上,根据回答文本的长度对权值进行了第二次调整:
其中Len(Uj)是回答单位中文本长度最小的回答长度,λ是参数值,实验测试选取。
2.5 最佳答案的选取步骤
本文将抓取的每个多答案问题的文档以“n”划分为多个单元,通过词语的语义相似度和文档单元的相似度及权值的计算后,得到了每个单元的权值,表示成Sort List<Ui,Wi>。以下是最佳答案的选取步骤:
(1)首先对Sort List按照文档中的单位的权值W'(Ui)升序排序;
(2)计算TTCT(所有定点的度数和)和PCT(顶点权值大于等于的单位的总个数)的值:
其中,为参数值,实验测试,取∂=1.0较合适。
(3)计算文档中所有单位的平均度数ave CT作为判断阈值:
其中,ave CT用于控制权值过小的单位。当link CT(Ui)<ave CT时,该单位不是理想的单位,不考虑将该单位作为最佳答案,将该单位从Sort List中移出。
(4)从Sort List列表中选取index序号较大的两个单位作为候选最佳答案,因为单元的序号按照文档中的内容顺序产生,序号较大说明回答问题的时间越晚,参考了之前的答案,更有可能是最佳答案。
比较选出的两个候选单位的权值,最终选取权值较大的单位作为该网页的问题的最佳答案。
3 实验结果及分析
本文根据收集到的百度知道用户访问日志数据,从百度知道抓取了2010年10月份的百度知道问题网页中用户访问次数超过5次的网页,共提取出问题566 738个,去除了其中只有一个答案的问题的网页,共得到126 707个多答案问题,其中已解决问题107 689个,回答数共463 114个。这些问题数据来自14个一级类别下的861个子类别,其中“电脑/网络”、“教育/科学”、“娱乐休闲”是语料中占问题最多的3个一级类别,分别占18%、18%和12%。
本文选取了“教育/科学”类别的“升学入学”子类别和“电脑/网络”中的“硬件”子类别的数据分成两组进行实验。语料数据统计如表2所示。
本文实验数据集中问题的正确答案标注为社区用户评选出的最佳答案,该答案一般由该问题的提问用户指定或者由其他用户投票选出。
本文采用准确率P、召回率R、F-1值和ROC曲线面积AUC来衡量最佳答案的识别情况,实验结果如表3所示。
为了和基于答案文本特征的方法进行比较,本文验证了使用SVM分类器中加入回答文本特征和用户特征,实验的对比结果如图1所示。
从图1中可以看出,和基于答案文本特征的分类方法相比,该方法能明显的提高最佳答案的识别准确率。
为了进一步分析问答质量的评测效果,我们将使用相似度方法给出的分类概率作为回答质量评分,将分数最高的回答作为该问题的最佳答案,对最佳答案进行预测。表4的实验结果中滤掉了只获得了一个回答的问题的数据。
表4中的最佳答案预测准确率为准确预测的最佳答案数与问题数的比值。本文最佳答案预测准确率高于80%,远高于随机判断的结果,优于文献[11]中70%左右的结果,也优于文献[9]中接近80%的结果。
4 结语
对于问答社区中的问答质量评价问题,本文提出了基于相似度的评价策略,通过计算文本中各单元的相似度和权重,确定问题的最佳答案。实验结果表明,本文提出的基于相似度的方法能够有效提高问答质量的评价效果。下一步我们将研究其他方式的文本单元相似度权重的计算方法,以获得更高准确率的最佳答案自动识别结果,并尝试将问答质量的评价应用到问答系统中。
参考文献
[1]百度公司.中国人知识搜索行为研究报告[R].2007-07-11.ht-tp://cimg3.163.com/tech/school/other/chinasearch.pdf.
[2]李敬.百度知道—分享创造奇迹[N].计算机世界,2011-1-31:17.
[3]Jeon J,Croft W,et al.A framework to predict the quality of answerswith nontextual features[C]//Proceedings of SIGIR,2006.
[4]Agichtein E,Castillo C,et al.Finding high quality content in socialmedia[C]//Proceeding s of SIGIR,2008.
[5]Liu Jingjing,Cao Yunbo.Low quality Product Review Detection in O-pinion Summarization[C]//Proceedings of the 2007Joint Conferenceon Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Prague,2007:334-342.
[6]Bian J,Liu Y,et al.Finding the right facts in the crowd:Factoid ques-tion answering over social media[C]//Proceedings of the 17th interna-tional conference on World Wide Web,2008.
[7]Bian J,Liu Y,et al.A few bad votes too many Towards robust rankingin social media[C]//Proceedings of AIRWeb,2008.
[8]Zhang J,Ackerman M,Adamic L.Expertise networks in online commu-nities:Structure and algorithms[C]//Proceedings of the 16th inter-national conference on World Wide Web,2007.
[9]孔维泽,刘奕群,张敏,等.问答社区中回答质量的评价方法研究[J].中文信息学报,2011,25(1):3-8.
[10]梅家驹,竺一鸣,高蕴琦,等.同义词词林[M].上海:上海辞书出版社,1983.
[11]Adamic L,Zhang J,Bakshy E,et al.Knowledge sharing and yahoo an-swers:everyone knows something[C]//Proceeding of the 17th interna-tional conference on World Wide Web,2009.
基于社区的问答 篇2
研究用户产生内容的筛选模式可以分析出网络问答社区网站对待互联网文化内容的态度和管理方法, 从而激发用户创作内容的积极性和满足用户寻找合适内容的需求, 促进互联网知识传播和信息交流的平台建设, 不断丰富网站的资源库。
一、知乎网内容生产模式分析
知乎网是社区类知识问答网站, 一开始的定位就是专业、精英式的经验问答, 口号是“与世界分享你的知识、经验和见解”。这表明了知乎与百度知道这样用户匿名, 打分制回答的内容生产模式是截然不同的。它注重的不是现有知识的回复, 而是基于用户个人长期生活和经历积累下来的经验, 这些经验和见解由于并不是书本上现有的知识复制, 而具有个人独特观点的融入和思想的汇聚。这就是知乎要做“精英式”问答网站的初衷, 知乎的受众大多数是在某一领域具有专业技能和独到想法的人, 这些受众通过注册成为知乎的用户, 然后会在知乎开放的几大话题里对自己擅长或感兴趣的话题进行关注。然后知乎会开始向这些用户推送他们关注话题的最新讨论, 以及网站内的热门话题。
知乎的话题一般以父话题为主要结构, 父话题一般分为体育、人文、艺术等几大领域, 父话题下会开设众多小话题, 小话题往往包罗万象, 对各方面都有涉及, 这在很大程度上满足了用户对话题多样性的需求。这样明确有条理的话题分类结构给用户很好地展示出了知乎对知识领域的详细划分, 让用户可以更方便地查找自己需要寻找知识的领域并提问或回答。知乎的提问一般都会设置明确的限制, 为了提高问题的质量和排除许多无价值问题, 知乎规定了问题必须简单明了, 不得使用网络用语, 对已存在的问题不得进行重复提问。只要是在知乎注册的用户都可以对自己擅长或感兴趣的话题进行回答, 回答并不在于对错, 而是有自己独特的见解和能对提问的用户有一定的帮助。在这些情况下, 知乎网的内容生产绝大部分都是由用户完成的, 这贴合了现代互联网UGC模式以及大大贴近了用户生活与兴趣点。
二、用户产生内容筛选机制现状与特点
知乎网的用户产生内容筛选机制是根据观看答案的用户通过几大投票选项来完成的, 知乎用户对答案的态度选项有“赞同”、“反对”、“感谢”以及“没有帮助”等。观看话题的用户在浏览其他用户回答的过程中可以对该答案进行态度投票, “赞成”表示对该回答持支持态度, “反对”表示对该回答持相反意见, “没有帮助”表示用户认为该回答对解决问题及疑惑没有价值。在用户不断的浏览、投票过程中, 既不断影响了该话题的热烈程度, 也决定了众多回答的价值大小。“赞成”票居多的回答会被不断地推到话题答案的前列, 让更多用户看到最有价值的回答, “没有帮助”票数居多的回答会渐渐被折叠隐藏起来, 替用户排除了无价值的回答, 保证了用户的浏览体验。以上这些反映了目前用户产生内容筛选机制的现状还是主要根据用户的主观看法和态度来进行投票决定, 或者是百度知道的打分制, 提问用户可以把分值给予他认为最满意的回答。这些筛选机制都根据网站自身的风格定位来决定, 也比较符合网站内容筛选的要求。
经笔者对上述案例的分析, 现在用户产生内容筛选机制的特点主要有如下几点:
2.1 以用户体验为主
网站的生存和发展最终都是依靠用户的关注和使用来支撑, 给用户他们“想要的”, 是能留住用户最关键所在。网络问答社区的用户之所以会使用此类网站, 是因为想寻找自己关注问题的答案, 所以网站内容筛选机制必须以用户体验为大, 不断地剔除无用信息, 推送最具价值的信息, 满足用户需求。
2.2 注重内容价值最大化
网站的话题内容因为数量巨大、领域繁多, 而网站主页版面有限, 只有少之又少的话题可以登上首页被用户第一时间看到。如何在有限的页面内, 推送最能吸引用户注意力的话题, 就需要编辑通过筛选机制挑选出最精品的话题, 将页面内容的价值最大化, 提升网站内容品质。
2.3 提高意见领袖作用
由于网站绝大多数内容都是由用户生产, 用户的知识量和表达能力决定了这些内容的优劣。而在社区类知识问答网站中, 都有通过弱关系建立的不同群体。这些用户由于关注了同样的话题或用户, 对某一领域都保持着关注, 在某一领域内经常贡献优质内容的用户会得到这一领域内其他用户的认可, 渐渐在该群体内成为意见领袖。提高意见领袖的作用, 也是筛选机制的隐形标准之一。它让网站用户可以围绕话题进行认真、经过思考的回答, 并会借鉴意见领袖的答案, 对自身内容贡献形成影响。
三、用户产生内容筛选机制发展建议
根据以上对当下网络问答社区用户产生内容筛选机制的分析和总结, 笔者对互联网知识问答网站内容筛选机制的发展提出以下几点建议:
3.1 提高用户筛选自主性
用户产生内容筛选机制最大的运作动力还是产生于用户本身, 让用户选择他们想看的, 一方面使内容最大限度地符合了用户的需求, 另一方面使用户觉得自己被尊重, 是否产生被尊重的感受是使用体验中重要的衡量标准。提高用户筛选内容自主性, 可以提高筛选机制效果的发挥, 而且可以提高用户对网站的好感度与参与度。
3.2 筛选机制应符合社会发展潮流
筛选机制的存在是为了挑选出最重要或者最令受众感兴趣的内容, 用户因为生活在现实环境中, 对现实社会发生的事或者主流媒体不断进行议程设置的话题会最为关注。筛选机制应该关注时事讯息, 让处于网站首页的话题内容贴合社会发展潮流, 响应当下热点事件, 并引导意见领袖参与讨论, 制造观看点, 吸引更多的用户进行话题参与讨论。
3.3 重视编辑监管内容的能力
基于社区的问答 篇3
随着网络和信息技术的快速发展,同时人们想更快地获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与了自动问答技术的研究。比如,微软和IBM等著名的跨国公司。在每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。越来越多的大学和科研机构参与了TREC会议的Question Answering Track。在2000年10月召开的ACL2000国际计算语言学学术会议上,有一个专题讨论会,题目是“Open-Domain Question Answering”。
问题理解是作为问答系统的一个子过程而被提出的,关于问题理解的研究与问答系统一样也具有相当长的历史了。早在1950年,著名的英国数学家图灵发表了里程碑式的论文“Computing Machinery and Intelligence”后,问答系统开始出现,一直到20世纪结束问答系统研究的蓬勃发展,问题理解一直是被局限在问答系统内的。人民只是利用一些简单的规则进行问句的分析,而更多的注意力集中在问题的答案抽取上。
随着这几年问答系统研究的逐步深入,人民逐渐意识到问答系统整体性能的进一步提高有赖于问答系统由各个模块性能的全面提高,于是问题理解技术逐渐受人们的关注。2000年,IBM参加Trec-9比赛的QA系统中引入了基于统计的问题分类方法,该方法与具有非常好的可移植性,是传统的基于规则的方法无法比拟的;2001年,为了鼓励人们进行问题理解技术方面的研究,UIUC公开了一个问题分类训练语料库,其中含有5500个问句。2002年,Dellzhang等人利用统计机器学习的方法进行了问题分类的研究,在系统中引入树核(Tree kernel)特征取得了较好的实验结果。而在另一方面,随着模式匹配技术引入到了问答系统中,为了适应基于模式的答案抽取,soubbotin等人提出了粒度更加精细的基于问句语义信息的问题分类体系。其后,国内国外又有很多科研机构和个人加入了对问题进行理解技术研究的行列。
现在自动问答系统的研究已经成为国际上研究的热点,而问题理解又是自动问答系统中的重中之重,所以问题理解的研究迫在眉睫。
2 问题理解的主要内容
1)对输入问题进行分词和词性标注:
一般是直接应用市面上已做好的分词系统进行切词和词性标注。
2)问题的分类;
问题焦点最主要目的是通过分析问题得到希望的答案,问题的焦点是问题中的一个名词或名词短语,说明了问题的主要内容,使问题意义清楚,并突出强调了答案的类型。问题焦点对找到答案非常重要,系统通过一定的规则找到问题的焦点,对问题焦点进行分析,最终确定问题答案的类型。总之,无论是确定问题焦点、问题类型还是确定答案类型,目的都是为了可以帮助用户缩小可能答案的范围。
3)提取关键词;
问题中关键字的提取直接影响到后面查询的精确性和智能性。一般来说,关键字主要由名词、动词、形容词、限定性副词等组成,但在实际应用中可以把问题中除了疑问词以外的大部分词都作为关键字以提高检索的精度。
4)对关键词进行扩展;
答案查找的评价标准是查找到答案的精度和召回率。查找的精度为查找的结果中相关信息文档与查询结果总数之比。答案查找的召回率为实际找出的相关信息文档数与答疑库中总的相关信息文档数之比。在答案中某些词常常不是原来问题的关键字,而是这些关键字的扩展,如果不进行扩展,就会造成关键字查找失败。本系统采用名词同义词、动词同义词和根据问题类型等方式扩展。
3 在本系统中所做的改进
3.1 分词与词性标注
在我们的自动问答系统直接使用中国科学院计算所软件室所开发的ICTCLAS分词系统进行分词和词性标注,但存在以下几个问题:
1)专有名词切分错误:
该系统将一些专有名词切分成几个意义独立的名词,而该专有名词原先的意思完全消失。
例如:在我们系统中的学校名(上海海事大学)被切分为(上海/海事/大学)再有专业名称(计算机科学与技术)被切分成(计算机/科学/与/技术)等,都已完全没有了其专有名词的意思。
2)词性标注错误:
有些词性标注错误会直接影响对整个问题的理解。
例如:我/r考/v了/u 500分/t,/w报考/v计算机/n科学/n与/c技术/n专业/n有/v多/m大/a希望/n?/w
中的“500分”本来是表示分数的一个名词性短语,在此处却被标注成一个时间,其语句原先的意思也就会完全丢失。
对于以上这几个的问题我将采取一下解决方法:
1)对于专有名词切分错误的问题,我对我们基于招生领域的各类专有名词做一下归类,建立一个该领域的专有名词库,对库中所列出的专有名词在切词时将当做一个词来切分并标注为专有名词。
2)对于词性标注错误,基于我们招生领域做一些新的规定与补充,例如在我们的系统中发现“**分”这样的词就直接认为是一个分数,而不会认为是一个时间,因为在我们的系统中是不会用到时间上的“分钟”。
3.2 问题分类
一般问答系统的分类方法是基于疑问词进行分类,这种方法的好处在于人可以直观的知道问题所指向的对象,但是让计算机只通过单一的疑问词,一次性准确识别提问的对象却难以实现,尤其对于表达形式丰富的中文。
我们采用疑问词短进行分类,提取疑问词之后进一步将一些联合比较紧密、询问目的明确的词语与疑问词合并,生成新的疑问词短语。如:上海海事大学计算机专业今年招生人数是多少?此处“多少”就是一个疑问词而前面与其联系紧密的“招生人数”就可以与其搭配成为“招生人数是多少”的疑问词短语。
3.3 关键词提取
在用户输入的问句中,我们需要提取出对后面的检索有用的关键词。关键词的提取直接影响到后面的检索的结果。
关键词主要由名词、动词、形容词、限定性副词等组成。但是并不是关键词集合中所有的词都可以作为关键词,有许多语气词、助词、能愿动词,副词等等,经过人们的大量统计发现它们在各种文档中的表义值非常低,这些词作为停用词,通常处理中应该直接被过滤掉。去停用词依靠的是一张停用词表,凡是在这张表中出现的词都将作为停用词被过滤掉。由此我们建立本系统中能够常见到的词的停用词表。
本问答系统把关键词分成两种:一般性关键词和“必须含有”的关键词。所谓“必须含有”的关键词指的是这些关键词必须在答案句子中含有,而一般性关键词可以不被句子所包含。关键词按照词性的不同被赋予不同的权重,在检索句子时这些权重用来计算句子的权重。通常名词、具有限定性作用的副词有比较高的权重。
3.4 关键词扩展
关键词扩展分为:同义词扩展和基于问句类型的扩展。
在答案句子中,某些词常常不是原来问题的关键词,而是这些词的同义扩展。例如:问题是“上海海事大学08年的投档线?”,答案的句子是“上海海事大学08年的分数线是580。”在问题中使用的是“投档线”,而答案中却用了“分数线”这个词。这就造成了关键词查询失败,因此我们需要对关键词进行适当的扩展。关键词扩展虽然提高了系统的召回率,但如果扩展不适当会极大地降低检索的准确率,因此一般的问答系统对关键词的扩展都是很谨慎的。在这里,我们从两个方面进行关键词扩展。
首先,将所有词的同义词作为扩展的关键词;我要做的工作是建立一个本系统常见的关键词的同义词库。
例如:上海海事大学———(本校、贵校、我校、你校、你们学校、您校、海大、海事大学)
2008年———(08年、今年、这次、08、2008、本次、本届、这届、此次)
高多少/低多少———(高出多少、低多少、低出多少、少多少、多多少、高吗、低吗、高于…多少、低于…多少)
如表1所示。
其次,对于某些问题,借助Ontology可以在一定程度上解决语义异构的问题。采用语义方法进行信息集成的特点是扩展性好、适应动态信息源、支持语义级查询。集成方式有两种:自底向上,自顶向下。自顶向下方式的基本思想是先建立相关领域的Ontology,然后由该Ontology来统一底层各信息源的语义。自底向上方法是先提取底层各信息源的局部数据模式,再在局部数据模式上抽取局部概念模式,最后在局部概念模式上构造全局概念模式。利用Ontology的功能实现某种程度的知识共享和重用,它能使得系统对语言的理解上升到语义层次。
4 评价机制
问题分类的评价:
问答系统需要一个评价机制来衡量问答系统的性能。首先需要建立一个测试集,这个测试集是人工做出来的问题和类型的集合。把这个测试集中的问题提交给问答系统,让问答系统自动的进行分类,然后把问答系统自动分类的结果和测试集中的答案,进行人工的对比。如果问答系统给出的答案通过人工的对比基本正确,则可以判断这个答案是正确的,否则可以判断这个答案是错误的。
为了验证我们采用的问题理解技术的可行性,我们征集了90个简单问句做了一次仿真实验,下面是系统的执行步骤:
准确度=正确分类的问题数/问题总数
1)问句分词和词性标注,去掉停用词;
2)根据语料库,识别问句中的疑问词短语;
3)根据句法分析的结果,匹配句型模式;
4)抽取特征词,同时得到数据源和访问方式;
5)问句扩展,得到“答案搜索模式”;
6)搜索策略排序,进行搜索。
5 结束语
本文系统分析了中文自动问答系统中问题理解部分的主要工作,并针对招生领域的特点对分词,词性标注,疑问词提取,关键词提取,关键词扩展对传统的自动问答系统做了改动和提高,最后以实验证明本系统具有一定的实用性。
摘要:问题理解是问答系统的首要的分析工作,分析的结果对后面的处理,以至找到问题的正确答案都有很大的影响。该文将对常规的问题理解方法进行改进,从而使系统能够较准确地回答用户的提问。实验证明新的方法对提高系统性能有显著作用,尤其针对性强、意思表述清晰的提问,回答准确率有很大提高。
关键词:问答系统,问题理解,分类,扩展
参考文献
[1]搜索引擎技术现状[EB/OL].(2001-11-14).http://www.ccidnet.com/.
[2]高薇薇.国内中文搜索引擎现状述略[J].情报杂志,2001(9).
[3]聪明的搜索引擎[EB/OL].(2001-11-14).http://www.ccidnet.com/.
[4]搜索引擎排名专家[EB/OL].(2003-05-08).http://www.5china.com/google-news/200358-39.htm.
[5]自然语言理解技术及其应用探讨[EB/OL].(2001-11-04).http://www.ccidnet.com/.
[6]AskJeeves[EB/OL].http://www.ask.com.
[7]START system[EB/OL].http://sakharov.ai.mit.edu/start.
[8]Rupley S.Microsoft Research Gives a Glimpse of the Future[EB/OL].(2003-04-18).http://www.pcmag.com.