词性标注(共6篇)
词性标注 篇1
一、引言
语文辞书普遍标注词性始于上世纪末。最早标注词性的辞书主要是为词语运用服务的, 如江苏少儿出版社1994年出版的《现代汉语用法词典》、商务印书馆2000年出版的《应用汉语词典》。郭锐 (1999) 认为, 标注词性就是注明词的用法的最有效的手段之一。两部标注词性的重要词典《现代汉语规范词典》 (2004出版) 和《现代汉语词典》 (第5版) (2005年出版) , 其编者也都阐明了这个目的。 (李行健2004, 徐枢、谭景春2006)
给词标注词性并不是一件容易的事情, 因而在我国具有很大影响的《现代汉语词典》从1960年的试印本到1978年的第1版, 直到2002年的第4版都一直没有给实词标注词性。《现汉》第一任主编吕叔湘先生生前曾多次谈到, 《现汉》编写之初本来打算标注词类。但由于当时对汉语词类的研究不很深人, 对一些问题的认识还存在着较大分歧, 标注词类时遇到了不少困难, 因此只好作罢。 (徐枢、谭景春2006) 几十年之后即使词类的研究有了很多突破, 但由于汉语的词缺少形态变化, 而具体到每个词功能则又多样, 具有相同语法意义的词, 用法还不完全一致。所以, 即使确定了划分词类的标准, 在实际操作中给词定性归类也存在着很大的难度。《应用汉语词典》《现代汉语规范词典》《现代汉语词典》第5版等辞书之所以存在着很多不一致的现象, 也是这个原因。兼类现象更是难以处理的问题, 上述几部词典这方面的分歧更多。 (杨同用2008, 杨同用、赵金广2010, 姜自霞、丁崇明、侯燕2011)
词典中如何划分词类, 如何标注词性尤其是兼类词的词性, 怎样使标注的词性更具有科学性, 能够凸显标注词性的目的, 便于用户使用?在这些问题上学者们有不同的看法。比较有代表性的看法, 一是兼顾意义和功能 (黎良军2006, 苏宝荣、武建宇2009) , 二是以功能为标准 (唐健雄2002, 莫彭龄2006) 。本文认为, 词典标注词性必须考虑其目的性, 必须根据目标用户的需要确定给词定性归类的标准。
二、内向型语文辞书词性标注可参考意义
内向型语文辞书的目标用户是母语使用者, 母语使用者查阅辞书的目的多是为了了解词目的基本信息, 比如语音或语义信息。对语法信息的了解, 除了大学语言专业的本科生、研究生以外, 也大多不是想了解某个词的词性。即使查阅应用类辞书, 读者也大多是通过词义和词性进一步了解词的用法。而要了解词的用法, 最好的办法却是通过例句来熟悉。但是, 词典标注词性仍然具有重要作用, 戴庆厦 (2006) 认为, 语文词典全面标注词性对读者理解词义、把握词的特征非常有用, 对语文教学、语文现代化、语文信息化都有重要价值。
内向型普通语文辞书一般提供词目的词形、语音、语义信息, 目前多数辞书也开始给词标注词性, 提供词类信息。词形、语音、语义信息多是读者希望直接了解的, 而词类信息则对读者全面了解词语意义, 进一步了解词的用法有重要作用。对于内向型辞书来说, 语义信息是需要编者倾注大量心力的, 而词类信息的提供则应配合释义, 词性的确定可以根据语法意义同时考虑词的语法功能。
词类是词的语法分类, 按理说确定一个词目的词性应当主要根据词的语法功能, 然而汉语词类与语法功能之间并非一一对应, 各类词之间的语法功能错综交叉。语文辞书中确定一个词目的词性, 如果只考虑词的语法功能, 词性的确定会很难, 相联系的词目间对应、平衡也会很不容易。词类问题是语法学界多年来并未彻底解决的难题, 不能指望辞书编者把这个问题完全解决, 编者也不能把主要的精力花费在确定词目的词性上。
根据语法功能确定词目的词性有两种情况难以解决, 一是常用词, 一是罕用词。就常用词来说, 词的使用频率越高, 往往其语法功能就越复杂, 其所能组合的词语类型, 所能做的句子成分就越多, 而这就难以根据其语法功能确定词目的词性。比如“演出”有下列功能:
名+“演出” (主谓关系) :演员演出学生演出
“演出”+名 (动宾关系) :演出节目演出戏剧演出京剧演出歌剧演出歌舞演出小品演出大戏演出《西游记》演出新作
“演出”+名 (偏正关系) :演出团体演出人员演出时间演出场所演出道具演出服装演出市场演出收入演出水平演出活动
副+“演出” (偏正关系) :连续演出轮流演出不断演出已经演出共同演出将演出
时间词+“演出” (偏正关系) :今天演出晚上演出
形+ (“地”) +“演出” (偏正关系) :精彩 (地) 演出成功 (地) 演出美妙地演出频繁 (地) 演出原汁原味地演出卖力地演出
“演出”+动 (主谓关系) :演出开始演出结束
“演出”+形 (主谓关系) :演出精彩演出不可思议
动+“演出” (动宾关系) :观看演出欣赏演出评价演出举行演出参加演出拒绝演出
形+ (“的”) +“演出” (偏正关系) :精彩 (的) 演出美妙的演出绝妙的演出可喜的演出热闹的演出不可思议的演出
名+“演出” (偏正关系) :戏剧演出京剧演出歌剧演出歌舞演出小品演出专场演出舞台演出商业演出
动+“演出” (偏正关系) :巡回演出纪念演出慰问演出访问演出合唱演出合作演出
数+量+“演出” (偏正关系) :一场演出
一般人看到这个词, 首先会根据意义判断其为动词, 大多不会列举其全部语法功能以后, 仔细分析其功能, 再判定它的词性。那样做的结果只会把自己搞糊涂。
就罕用词来说, 其用法本来就简单, 功能也单一, 假如某一项功能是两类或几类词都具有的, 单纯根据这一点就没法确定这个词的词性。徐枢、谭景春 (2006) 就曾举例说“林立、扑鼻、斑斓、苍翠”, 可以构成“四字格”, 在其中做谓语 (高楼林立、香气扑鼻、五色斑斓、林木苍翠) , 也可以带“的”字做定语 (林立的厂房、扑鼻的芳香、斑斓的玛瑙、苍翠的山峦) , 应该说这既符合形容词的特点, 也符合动词的特点, 如果单纯根据语法功能很难看出它们的区别。考虑到它们所表示的语法意义, 《现代汉语词典》 (第5版) 就把“林立、扑鼻”归入动词, 把“斑斓、苍翠”归入形容词, 这样跟多数人的语感就比较接近。
兼类词的判断更是跟词义联系密切。不少人认为如一个词意义未变, 那么不管它出现在句子的什么位置, 能够在多少位置出现, 都不宜把它看作兼类词。苏宝荣 (2002) 认为, 谓词指称化是语言运用的一种现象, 本身比较复杂, 有的是音义结合成词, 有的是自指, 有的是转指, 为自指的, 语法特征发生变化, 词义没有明显变化, 在语文辞书中不必再单独立项。黎良军 (2006) 也认为, 单义词的意义不能再分义项, 其词性也不应兼属多类。他认为, 郭锐所谓的“狭义兼类词”没有必要在语文辞书中分列义项并标明其不同词类。
汉语词具有多功能性, 比如“演出”一词, 就至少能跟上列那么多类词语组合。但从意义上来看, 在不同的语法位置上其词义并没有明显变化, 如果根据“词义不变, 词性不变”的处理方法, 词典中就可以把它的词性确定为动词。汉语中类似的现象很多, 根据这个原则处理兼类词问题, 倒不失为一种便捷的方法, 语文辞书的编者也不至于在此类问题上花费过多的精力。
大多学者认为, 词类是词的语法分类, 因而判断词类, 确定一个词是不是兼类应以词的语法功能作为唯一的标准。然而词的语法功能很多, 到底以哪种功能, 或者说哪个特点作为判断的标准, 争议也很多。就动词和名词兼类的问题, 钟梫 (1980) 、陆丙甫 (1980) 、林立 (1982) 、朱德熙 (1986) 、胡明扬 (1996) 等就都提出过判断动名兼类的语法标准, 胡明扬 (1996) 还尝试运用自己提出的标准对常用动词做过动名兼类的考察。
既然是词的语法分类, 确定词类就应当根据语法标准。这种说法很有道理。然而如果一个词的语法功能太复杂, 搭配能力太强, 能够搭配的词语类型太多, 能够做的句子成分也很庞杂, 所以采用哪些功能作为不同词类的鉴定标准, 光确定这一点就很不容易。否则, 光动名兼类这一个问题, 也就不至于引起那么多语法学者的讨论。内向型词典的用户大多不是使用词典了解词的用法, 或者更进一步是根据词典提供的信息学习使用词语, 所以语法功能标准在内向型辞书的编纂中就不是十分重要。相反, 如果以语法意义作为确定词性的一个重要依据, 辞书编者就会把更多的精力投入到母语用户更需要的词义等更重要的语言信息的编写上。
三、外向型语文辞书词性标注应主要根据语法功能
词典用户对外向型辞书和内向型辞书是有不同要求的。章宜华 (2010) 认为, 对外汉语词典是面向外国人学汉语而编纂的, 而外国人在学习汉语的初期没有或缺少汉语语感, 常会受其母语认知负迁移的影响, 因此词典的收词、体例和释义等方面都要根据他们的实际需要和学习特点来设计。他们对词典的要求与汉语为母语者的要求有很大不同。以汉语作为外语的学习者查阅词典的目的是学习, 需要词典针对被释义词提供完整、系统且简洁易懂的形态知识、概念知识、语法知识和使用知识, 为他们营造出二语习得的系统语境, 以便他们克服各种认知干扰、有效地把词典输入信息转化为摄入, 提高二语习得的效果。而以汉语作为母语的词典使用者查阅词典的目的是参考, 大多是通过被释义词的概念释义来确认或求证相关语词的意义, 而剩下的其他问题, 用户可以凭自己的语感来解决。对外汉语词典必须体现能满足外国学习者需求的外向型特征。正如上文我们所谈到的, 内向型辞书的用户查阅辞书主要是想了解词目的语音和语义信息, 对词目的语法、语用信息并不是十分关注。对于不认识、不理解的生词, 母语使用者主要是想掌握其语音和语义, 一般并不是想马上使用。而外向型辞书的用户有的是为了掌握词目的语音和语义等信息, 还有相当一部分用户是本来就了解词目的语音语义等信息, 查阅辞书的目的就是为了更好地使用某个词。
据岑玉珍、宋尚镐 (2011) 对在北京地区学习汉语的250名韩国学生进行调查, 韩国学生使用外向型词典, 查词义和语音都是重要的目的, 而查阅词目例句和用法的学生也占到了67%。这个调查尽管只限于韩国学生, 但根据我们的了解, 学习汉语的外国学生查阅例句和用法的还是有一定数量的。因而, 外向型辞书的用户不仅需要了解词目的静态信息, 也还有相当多的情况下是了解词目的使用情况。而如何反映词目的使用情况, 最重要的一个步骤就是为词目标注词性。尹洪波 (2010) 认为, 在二语学习过程中, 掌握每个词的句法、语义特征, 知道每个词在句子中的活动方式, 对生成正确的句子十分重要。对一个词项标注的信息越详细, 二语学习者生成不合格句子的可能性就越小。如果一部词典对一个词的语法、语义和语用信息能够描写得足够详细, 那么它对二语学习者的帮助将是巨大的。因此, 外向型辞书的编纂, 对所收词目不仅要提供词类信息, 而且应该提供尽可能详细的语用信息。
目前辞书的编纂都已经开始标注词性, 但这项工作在外向型辞书中的地位比在内向型辞书中的地位重要得多。内向型辞书标注词性只是为了帮助用户更深刻、清楚地认识词义, 很少有用户查阅辞书是为了利用词目生成句子。《现代汉语词典》从试印本到第4版几十年间没有标注词性似乎并未影响读者对它的使用, 而其权威地位也并未因为未标注词性受到影响。外向型辞书用户查阅辞书的一个重要目的是生成句子, 而生成句子的前提是掌握词的语法功能, 所以词性的标注就占有相当重要的地位。
外向型辞书的词性标注必须根据词的语法功能, 只有在这个基础上配以丰富的例证才能指导用户正确使用词目。如果把词的语法意义作为确定词目词性的捷径, 词典中又没有丰富的例证, 汉语学习者出现偏误的现象就会增多。有的外向型辞书把本为动词的“博爱”, 本为形容词的“姑表”标为名词, 把本为形容词的“超值”“绝代”标为动词, 把本为动词的“别价”标注为副词, 都没有仔细分析其语法功能, 这就有可能对汉语学习者起到误导作用。
兼类词的标注也应当根据词的语法功能。汉语中同型兼类词是客观存在, 确实有一部分词在基本意义不变的情况下语法功能有了相当大的变化, 这种情况下如果只标注其最初词性, 那么这个词的功能就太庞杂, 在语文辞书中把这个词的功能分别列举的话只会造成混乱, 也会影响汉语学习者生成正确的汉语句子。比如“演出”这个词, 本文列举出它至少具有上述13项功能, 如果只根据语法意义把它标注为动词, 那么至少名词、动词和数量短语做修饰语与它构成的名词性偏正词组如“戏剧演出”“商业演出”“纪念演出”“访问演出”“一场演出”等就不宜作为词目的使用例证出现。我们认为, 既然“演出”这类词, 在一定的语言环境下失去了动词的语法特点, 而又具有了名词的语法特点, 就应根据它的这些特点标注成动名兼类词。这样更便于汉语学习者正确使用。相反, 汉语中的大部分词并不是兼类词, 词典如果按实际情况标注, 学习者的偏误也会减少。有的外国学生造出“宽恕是最好的报仇”、“爸爸生硬了自己做饭”这类错误句子就是因为他们把只具有动词词性的“报仇”当做了动名兼类词, 把只具有形容词词性的“生硬”当做了形动兼类词。如果词典根据这些词的语法功能明确它们的单一词性, 学习者就不会出现类似用例。
根据语法功能确定词性, 还需要明确哪类词具有哪些功能, 对于语法功能比较多的常用词汇来说, 这还存在着相当大的难度。 (杨同用、赵金广2010) 但即便这样, 也不宜把语法意义作为外向型辞书确定词类的一个依据。“词义不变, 词性不变”的兼类词标注原则可以应用于内向型普通语文辞书, 而对于外向型学习词典来说, 对词典用户使用词语的误导作用是非常明显的。从编者的角度来说, 以词义作为标注词性的一个参考项尽管便捷一些, 但辞书提供的语法语用信息越多, 编者对有些语言现象的处理就会越困难。因为如果从搭配用例来看, 一个词目搭配项目太多, 就会导致大量的“类无定职”现象, 而把明显不属于某个词性的某种语法功能仍标注为这个词性, 这样标注的词性也就失去了意义, 其指导用户正确使用词目的目的也就达不到了。
四、结语
不同的辞书有不同的编纂目的, 有不同的使用对象。语文辞书编纂应该遵循用户友好原则, 能让辞书使用者顺利查找到所需要的信息。就辞书的词性标注来说, 内向型辞书可以以词的语法意义作为重要参考, 以便于用户正确理解词义, 外向型学习词典则必须以词的语法功能为依据, 目的在于对用户正确使用词目提供足量的信息。
词的语法意义和语法功能并不是相互抵触的两个方面, 多数情况下以这两个标准确定词类的结果也是一致的, 然而正是根据两个标准所得出的结论不一致的那一小部分词语会影响辞书用户的使用。本文认为, 标注词性, 内向型辞书可以以词的语法意义作为重要标准, 但也要考虑其语法功能。《现代汉语词典》 (第5版) 负责标注词性的徐枢、谭景春 (2006) 说“在划分词类时综合考虑词的语法意义和词的语法功能, 但在具体操作上主要依据词的语法功能。”但是, 由于这部词典的例句并不是太多, 所以判断词性时词的语法功能并没有得到充分利用, 尤其是对于兼类词的判断更是如此。对于外向型学习词典来说, 判断词性尽管应以词的语法功能为依据, 但语法意义所起的作用也是不能忽视的。确定词性是绕不开词义的, 兼类词“发展”如不先确定其动词性质, 就拿所依据的语法功能一项一项去套其搭配项, 那也是不可想象的。给词标注词性, 即使以语法功能作为标准, 一般情况下也是根据语法意义对词目的词类性质有个基本判断, 然后再从其做句子成分和组合的情况确定其词性。
词性标注 篇2
关键词:词典 词性标注 例句
众所周知,汉语的词没有成系统的外在形态标记来表明词性,兼类现象大量存在,研究者对词性的划分常常出现分歧。一般认为除了考虑词义因素外,主要应根据语法功能来确定词性,即根据词在句子中充当的成分。通常不同词类都有典型的语法特点和语法功能,这在通行的现代汉语教材中都有说明,已成学界共识。笔者认为,无论词典编纂者心中的词类系统如何,一旦标注了词性,应该给出最能体现词性的例句,而不宜出现模棱两可的情况,即使兼类词大量存在,也应通过恰当的例句来区别、显示其不同的语法功能,从而说明其词性。本文提出的问题与词性标注是否恰当无关,而是例句与所标词性是否一致的问题。
我们在《现代汉语词典》(第6版)(下文简称“《现汉》”)中找出数条词性与例子不夠密合的例子,简略说明其中的问题,以期辞书编撰者在处理该问题时精益求精。[1]
1.标注为动词,例句中是名词性用法
【比方】 这不过是个~。
动词前面有量词,不是动词的典型特征。再如:
【论战】 挑起~。
此“论战”做动词“挑起”的宾语,不是动词用法的典型例子。
【富余】 足够而有剩余:这里抽水机有~,可以支援你们两台。
此“富余”用为名词,又如“算下来还有点富余”。
【解释】 经过无数次的研究和实验,这种自然现象才得到科学的~。
“解释”是“得到”的宾语,前面还有“科学的”修饰语。
【民调】 ~显示,公众对房价暴涨极为不满。
该例为名词用法。
【设想】 他提出了关于技术改造的大胆~。
“设想”是“提出”的宾语。
2.标注为动词,用在介词或动词后面做宾语
【逼视】 在众人的~下,他显得局促不安了。
“在”是介词,通常后接名词性宾语,大量的动词可以这样用,但既然标注为动词,应该列出毫无异议的例子。下面的例子均属此类:
【考聘】 全院医生都是经过~上岗的。
【考评】 通过~决定干部的聘任。
【交心】 通过~,他们互相间加深了了解。
【面试】 通过~,破格录取。
【说教】 靠~解决不了思想问题。
3.标注为形容词,用例中为副词用法
【笔挺】 ~地站着。
词典编撰者并未说明形容词修饰动词做状语时一律标注为“形容词”,形容词和副词往往兼类,但不是处处可以,也不是语义、语法功能完全相同。既标形容词,可举“笔挺的西装”之类。类似的例子较多见,不再一一分析:
【不懈】 ~地努力。
【单边】 价格~下跌。
【单方】 他们竟然~撕毁了合约。
【合理】 合乎道理或事理:~使用|~密植。
【过度】 超过适当的限度:~疲劳|~兴奋。
【过分】 ~谦虚,就显得虚伪了。
此两例可用“过于”条来佐证:【过于】副 释义为“表示程度或数量过分;太”:~劳累|~迁就|~乐观。
【愤怒】 ~声讨侵略者的罪行。
【愤然】 ~离去。
【绝对】 ~服从。
【苦涩】 他~地笑了笑。
【可能】 团结一切~团结的力量。
“可能”修饰动词,是情状副词。
【礼貌】 他很~地给大家鞠了一个躬|~待人。
【美滋滋】 看着茂盛的庄稼,他~地咧着嘴笑了。
【木然】 ~地望着远方|不管问什么,他都~以对。
【盲目】 ~行动|~崇拜|~乐观。
【慢悠悠】 她~地向我们走来。
【勉强】 ① 这项工作我还能~坚持下来。② 碍着面子,~答应下来了。⑤ 这点儿草料~够牲口吃一天。
【轻悠悠】 只见蝴蝶在花丛中~地飞来飞去。
【切实】 ~改正。
【切要】 眼前~解决的是原材料问题。
【随机】 ~采样|记者在大街上~采访了几位市民。
“随机”条还标注了副词用法,例为“密切关注经济的发展,~调整农业政策”,副词与形容词的区别从例句中难以看清。
【随身】 ~携带|~用品|~仆从。
此条有后两例即可。
【随意】 ~出入|请大家~点菜。
【遥遥】 ~领先。
【殷勤】 ~招待。
【殷殷】 ~期盼|~嘱咐。
4.标注为动词,例中为全句副词、助动词用法
【担保】 交给他办,~错不了。
该“担保”实际上已经高化为一个表示说话人主观态度的全句副词,如标为动词,可选其他例句,如“他担保这事周末前完成”等。
【估计】 ~他今天会来|最近几天~不会下雨。
“估计”在现代汉语中已经发展出推测副词用法,表达说话人的主观态度。该例的“估计”不是典型的动词用法。
【难保】 今天~不下雨。
“难保”为推测副词用法,其理同“担保、估计”。
【不宜】 解决思想问题要耐心细致,~操之过急。
“不宜操之过急”中,“不宜”是助动词,只能放在谓词性成分前面,作为动词来理解极不自然。这里顺带提一下“不用”“甭”,两词都标注为副词,实际用法与“不宜”相同,也为助动词:
【不用】 ~介绍了,我们认识︱大家都是自己人,~客气。
【甭】 你既然都知道,我就~说了︱这些小事儿,你~管。
5.标注为动词、形容词,用例为名词用法
【变动】 国际局势发生了很大的~。
“发生”后的中心词更易理解为名词性宾语,且句中尚有修饰语“很大的”,显然是名词,与标注之间的一致性较低。
【苦楚】 辛酸~|满腹~,无处倾诉。
“满腹苦楚”中“苦楚”理解为名词更为自然。类似现象如:
【苦恼】 自寻~。
【轻便】 贪图~,反而误事。
6.标注为动词,用例为形容词或副词用法
【留心】 参观的时候他很~,不放过每一件展品。
【轮流】 ~值日|~坐庄。
【满负荷】 ~运转|~工作。
《现汉》在凡例中提到词类及附类的定义见于词典正文所收条目的释义,但词典对“名词、动词、形容词、代词”词条的释义都仅从语义角度定义,未提到语法功能。
《现代汉语词典》(第5版)始标注词性,徐樞、谭景春在解释词性标注的标准时明确指出:“在划分词类时综合考虑词的语法意义和词的语法功能,但在具体操作上主要依据词的语法功能。”[2]并分别说明了名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词的典型语法功能,以作为标注依据,但实际操作中,仍存在不尽人意的现象。
《现汉》中这样的问题还有不少,例证不当会造成理解上的不清晰,难以体现词性,也影响辞书使用者对词性的理解。词性标注与例句是否一致的问题较之如何确立词性要容易解决得多,作为影响最大的权威词典,应当保证例句的清晰、恰当。
(本文为江苏省高校哲学社会科学基金项目“中古汉语语法体系研究:服务中古汉语语料库建设的语法理论研究”[项目编号:2012SJB740002]的阶段性成果。)
注释:
[1]文中方框中为《现汉》所标注词性,带圈数字为《现汉》所列义项序号,波浪线为词条。
[2]徐枢,谭景春:《关于第5版〈现代汉语词典〉的词类标注》,辞书研究,2006年,第1期。
参考文献:
[1]李尔纲.兼类词的义项设置和词性标注问题[J].辞书研究,2006,(3).
词性标注与动词细分类研究 篇3
词性细分类是在词性标注的基础上,根据词语在句子中的不同语法或语义特性进行更细的标注。动词常常在句子中占据着中心地位,它是句子的结构联系和语义联系的中心[1]。动词细分类直接关系到句子的结构关系、语义关系的分析。只有加强动词细分类的研究才能更深入探讨句法分析方面的难点。
1 词性标注
1.1 词性标记集
词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。对于词性标注来说,不同的词性标记集对词性标注的准确率影响很大,因此确定一个合理的适合于信息处理的词性标记集至关重要。如果词性标记集过大,则会直接影响人工标注语料库的难度和词性标注的准确率;如果词性标记集过小,则达不到词性标注的目的,对上层的信息处理不能提供足够的语法信息。计算所汉语词性标记集[2],共含有40多个词性标记,而其中有很多词性更偏重于语法功能,并不完全适合于信息处理。在2003年国家973分词与词性标注一体化评测中,颁布了一个含有28个词性的词性标记集[3]。经过对比发现,这两个词性标记集虽然不同,但在很大程度上存在着对应关系,因此我们对计算所汉语词性标记按照973词性标记集的标准进行了一个自动的转换,具体的转换关系见表1。
根据转换后的词性语料,我们可以很容易地训练词性的参数。这里有一点需要说明,有些词之间可能存在重叠,导致不能简单地转换为词性语料,主要是指人名角色中与人名上下文形成交集的词。例如任主席为胡锦涛男士”这句话在标准语料中切分为“现任/主席/为/胡锦涛/男士”,这样转换为人名角色序列为“现任/OTHER主席/OTHER为/PRE胡/PER_SURNAME锦/PER_MIDDLE涛/PER_END男士/NEXT”,因此不会训练到“为胡/PRE_CROSS”这样的共现情况,在遇到这种情况时,需要在训练程序中进行一个简单的处理,本文的做法是两种情况分别计算一遍,即p(为|PRE),p(胡|PER_SURNAME),p(PRE|OTHER),p(PER_SUR-NAME|PRE),p(PER_SURNAME|PER_MIDDLE)以及p(为胡|PRE_CROSS),p(PRE_CROSS|OTHER),p(PER_MIDDLE|PRE_CROSS)都会分别进行计算。
2 动词分类
2.1 动词细分类标注规范
在现代汉语的各类词中,动词是一个重要而复杂的类别。现有标注体系大都将名词细分为普通名词、专有名词,专有名词又分为人名、地名、机构名和其它专名。而处于中心地位的动词,分类却比较粗糙。根据语法功能,我们对动词进行细分,共分为8个子类[5],表2列出了各个类别的具体信息。经过细分之后,每个动词子类都保持单一的语法功能。例如,助动词不能充当句子的谓语,而名动词在句子中只能充当名词所具备的功能。
2.2 改进隐马尔科夫模型的动词细分类
动词细分类的问题与词性标注很类似,隐马尔科夫模型是词性标注的经典方法,我们很自然会想到利用隐马尔科夫模型来进行动词细分类。因此,我们提出了一种改进的隐马尔科夫模型。
在词性标注中,观察值是待标注的分词结果序列,状态是词性标记。而在动词细分类中,由于其输入是经过词性标注之后的结果序列,动词细分类只需关注其中的动词,而不需要改动其中的其它词性,因此对于动词细分类来说,其观察值是句子中的动词,而状态是动词的子类标记。如果只用基本的隐马尔科夫模型,那么需要计算两个动词之间的转移概率,而两个动词可能并不是在位置上相邻,这样并没有考虑动词附近的其它词性对动词细分类的影响,而事实上动词附近的其它词性对动词细分类是有影响的。如在“这个/r道理/n用/p在/p今天/nt下岗/v职工/n再/d就业/v上/nd,/wp是/v很/d合适/a的/u”这个分词词性标记序列中,“就业”这个词由于其左侧的词性是d(副词),右侧的词性是nd(方位名词),因此“就业”在这里更可能是vn(名动词),而不太可能是其它的动词类别。
为了更好地利用动词附近的其它词性信息,本文提出了一种带有局部转移概率信息的隐马尔科夫模型。即在Viterbi算法[6]中利用动态规划算法计算序列的概率时,除了计算发射概率和动词类别之间的转移概率之外,同时还要计算动词类别与其左侧和右侧词性类别之间的转移概率。其形式化表述如下:
设是句子中的动词序列,是这个动词序列对应的动词类别序列,T*是最优的动词序列。即:
根据贝叶斯定理,可以得到:
对于特定的切分单元序列,P(V)是常熟,因此我们根据公式(3)、(4)可得:
我们把V看作观察值序列,而把T看成状态序列。根据隐马尔科夫假设有:
由公式(5)、(6)可得:
加上动词左右两侧的局部转移概率信息,我们得到:
其中,tbefore(i)代表第i个动词之前的词性标记,p(ti│tbefore(i))词性标记tbefore(i)与动词类别ti之间的转移概率,如果第i个动词之前为动词或者是句首时,则定义p(ti│tbefore(i))的值为1;tafter(i)代表第i个动词之后的词性标记,p(tafter(i)│ti)为词性标记ti与动词类别之tafter(i)间的转移概率,如果第i个动词之后为动词或者是句尾时,则定义p(tafter(i)│ti)的值为1。那么公式(8)为我们最后得出的带有局部转移概率信息的隐马尔科夫模型。
2.3 最大熵模型的动词细分类
最大熵模型[7]能够把各种形式的上下文信息按照统一的原则结合起来,并且不对训练语料强制施加任何独立假设。这种模型被广泛地用于自然语言处理领域的各种应用之中,例如机器翻译,词性标注以及句法分析等。我们的动词细分类可以看作是一个分类问题,最大熵方法根据上下文的信息计算出每个类别的概率,其概率值可通过以下的公式计算:
其中表示目标动词的上下文,i表示候选的动词子类,Z(c)是规一化因子。函数fi(t,c)代表目候选词的第i个特征,λi是它的权重,k是模型中的特征数量。这里的特征表示为一个二值函数,以表3中的句子为例,其中的一个特征函数可以表示公式(10):
表3列出了一个句子在不同阶段被处理后的形式,从中我们能看出动
词子类识别问题和传统的词性标注问题有两点不同:首先是在一个句子中并不是所有的词都需要进行判别,其次当我们对一个词进行动词子类判别时,该词的下一个词的词性是已知的。根据第二个区别,我们将模型的上下文特征定义为:
表3中的句子有两个动词需要被判别,它的上下文特征如下:
这里,“begin”的表示是句子的开始位置,“end”的表示句子的结束位置。同时,目标动词的子类除了受上下文的影响以外,我们还设定了一个强制约束,即动词的子类必须是动词词表中该动词的一个候选子类。
2.4 动词细分类对比实验及其对句法分析的影响
我们应用哈工大信息检索研究室发布的包含1万个句子的汉语依存树库,该树库标注了分词、词性和句法信息。全部数据被划分为三个部分进行动词细分类和句法分析的实验,第1-8000句作为训练集,第8001-9000句作为开发集,其余1000句作为测试集,测试集中句子的平均长度是21.4个词。
实验测试基于改进隐马尔科夫模型和基于最大熵方法的动词细分类的性能的对比。我们以选择最大概率动词子类的方法作为baseline,即不考虑动词的上下文信息,只是根据该动词的子类在训练数据中出现的先验概率进行选择。实验的结果参见表4。
从实验结果中能够看出,基于最大熵的动词细分类比baseline高出13%,而改进的隐马模型和最大熵模型的性能相差很小。这说明目标动词附近的词性信息对于判别动词的子类有很大的帮助。基于改进隐马模型的方法只利用了目标动词两侧各一个词性与动词类别之间的转移概率信息,取得了很好的效果;而最大熵模型更进一步地利用上下文的信息,使其达到最佳的判别效果。如果在特征选择方面进行深层次的探索,相信分类的准确率将会得到进一步的改善。
3 结束语
中文词法分析一直以来是中文信息处理中的一个难点。针对词性标注,文本采用了基于隐马尔科夫模型的词。同时利用改进隐马尔科夫模型和最大熵模型分别进行了动词细分类的实验,并通过与句法分析结合证明,动词细分类能有效地提高句法分析的性能。性标注方法并获得了较高的准确率。
摘要:动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,再通过与最大熵的方法进行比较,证明这种方法取得了较高的准确率。
关键词:动词细分类,词性标注,隐马尔科夫模型,最大熵
参考文献
[1]段建勇.现代汉语词性细分类标注研究[J].山西大学硕士学位论文[D],2004.
[2]计算所汉语词性标记集,2003[DB/OL].http://www.nlp.org.cn/docs/download.php·doc_id=993.
[3]山西大学.973当代汉语文本语料库分词、词性标注加工规范[M].2003.
[4]FREITAG,D.,MCCALLUM,A.Information extraction with HMM structures learned by stochastic optimization[C].In:Proceedings of the Eighteenth Conference on Artificial Intelligence,2000.
[5]LIU TING,MA JIN SHAN,ZHANG HUI PENG and LI SHENG.Subdividing Verbs to Improve Syntactic Parsing[J].Journal of Elec-tronics(China),200724(3):347-352.
[6]ABOU-MOUSTAFA K T,CHERIET M,SUEN C Y.On the structure of hidden Markov models[D].Montreal:Department of Computer Science,Concordia University,2004.
词性标注 篇4
中文词性标注主要有基于规则的方法和基于统计的方法,传统的中文词法分析中分词和词性标注是分步依次进行的,而当前最好的则是基于序列标注模型的中文分词与词性标注一体化系统,如基于无向图序列标注模型的中文分词词性标注一体化系统。
分词效果好的中文词法分析系统是依赖词典的,而当其遇到词典未收录的词时,则会错误的将未收录词切分成多个语素或多个词,本文将这类未收录词称之为合成词。由于当前的中文词法系统未能识别这些合成词,因此也无法对其进行词性标注。本文对合成词的识别是基于分词系统,即在分词的基础之上进行,因此合成词的词性标注无法与分词集成,而是先识别出合成词,然后再对合成词进行标注。组成合成词的各原子词都是已标注词性,如何确定合成词的词性和对分词结果进行修正则是本文需要重点解决的问题。
1相关工作
朱聪慧等将无向图模型引入中文词法分析系统,把分词和词性标注作为一个序列来整体考虑,在无向图中,边看作是顶点之间的依赖关系,由于无向图模型可以采用更深层的依赖关系作为特征,该标注方法在1998年1月份人民日报为测试语料上取得了97.19%的分词精度和95.34%的词性标注精度。
龚敏采用数据加权的领域自适应算法进行词性标注,有效的解决了训练语料和测试语料因性质的不同而导致词性标注正确率下降的问题。赵岩等在最大熵标注模型中融合了聚类触发对特征,能有效的解决HMM词性标注模型不能包含远距离词特征的问题,使得标注错误率大大降低。
夏利玲从自然语言理解的角度出发、孙静则基于平行语料库,通过建立词性判定规则库来实现词性标注,词性标注正确率得到了提高。姜维等为了解决词性标注中的复杂特征提取问题,将粗糙集理论应用于复杂特征提取,能够有效地挖掘出包括长距离特征在内的复杂特征,而且将这些特征融合于最大熵模型中,并且增加粗规则,在开放实验中获得了96.29%的标注精度。
陈建超、杜楠研究了组合词的识别及分词修正,认为一个组合词由多个原子词或语素构成,并将组合词的词性标注为组合词中最后一个词或语素的词性,如组合词“知识经济革命”,由于原文是“知识/n经济/n革命/vn”,则标注“知识经济革命”的词性为“vn”,为区别于其他原子词,在标注时加上组合词的标志“cw”及长度,实际标注为“知识经济革命/vncw3”。
上述大部分工作都是对原子词进行词性标注,文献是对合成词进行词性标注,他们所采用的标注方式是值得借鉴的,但词性不能一概而论,应该根据合成词的构词方式、语义归属来确定合成词的词性,这正是本文需要解决的一个问题。潘炜等研究了英文分类标签的词性标注问题,分类标签是一个短文本,与本文处理的对象有相似之处,而词性标注规则的添加则可以提高标注正确率。
2基于核心属性渗透理论的合成词词性标注
为便于本章对合成词词性标注工作的叙述,先给出一个示例文本,如表1所示。
表1示例文本采用ICTCLAS3.0进行分词标注,其中(1)和(2)是句子编号,为便于叙述而加上的,实际分词标注不含句子编号。
2.1合成词的识别
合成词识别是基于词共现有向图进行的,对文本通过词性探测获得原子词词串,进而由获得的词串生成词共现有向图,最后设计了运行在词共现有向图之上的算法CWRWCDG,以识别文本中的合成词。关于合成词识别的详细工作请参阅文献,表1示例文本识别出来的合成词有3个,分别是:“人文社会科学”、“人类文化”和“科学技术”。算法CWRWCDG输出的表1示例文本中的合成词见表2。
2.2词性标注
合成词词性标注的难点在于词性的确定。合成词根据其结构方式主要有三种构词类型:复合式、附加式和重叠式,其中复合式合成词由不同的词根结合而成,是汉语构词中最重要、最广泛的构词类型。复合式合成词按构词方式可分为定中式、状中式、联合式、连谓式、重叠式、述宾式、连补式、附加式、指量式、复量式、名量式。
LIEBER于1980年提出了核心属性渗透理论,认为在英语中合成词的词性由合成词的核心成分决定,他把这个机制称为核心属性渗透(Head-feature Percolation),即合成词核心成分的语法属性渗透到整个合成词上,从而影响合成词的语法属性。这个理论可借鉴到本文合成词的词性标注。
关于核心成分的确认,杨梅对北京大学中文系和北京大学计算语言研究所《现代汉语语法信息词典》(电子版)里除成语和惯用语之外的40778个双音节、多音节词进行分析和统计,对其中的39454个词(排除单纯词、专名、音译词和结构关系不明的词等共1324条)逐一进行构词方式、构成成分的素性和核心的确认等分析,统计结果表明90%以上合成词都符合核心属性同化规则。由此而得到以下合成词核心成分的判定规则,如表3所示。
算法1:合成词词性判定算法
本文合成词的词性确定正是基于上述理论,将核心成分的词性使用整个合成词的词性,显然这种词性确定方式要比文献仅取最后一个词的词性来确定合成词的词性合理得多。合成词构词方式的判定是个难题,就连汉语语言学家也以精确的区分,因此在确定合成词的构词方式时采取人工与计算机相结合的模式,特别在于无法确定时,认为其构词方式为其他,此时将合成词最后一个词作为核心部分。表1示例文本识别出的3个合成词的构词方式如表4所示。
词性标注规范为中科院ICTCLAS3.0使用的符号体系。合成词的词性标注有两种格式,实际标注时可选择其中一种格式。
(1)显式标注。词性标注中明确指出该词是一个合成词,格式为:词性+cw+Num,其中cw为Compound-word的首字母,表示该词为合成词,Num为合成词的长度(即合成词中包含的原子词的个数),如“人文社会科学/ncw3”、“人类文化/ncw2”等。
(2)隐式标注。仅标注词性,如“人文社会科学/n”、人类文化/n”等。
2.3分词修正
分词修正即将合成词对应的原文用已标注的合成词替换。考虑到一个句子可能包含多个合成词,且句内词序是以分词系统切分单位计数的,因此,若是从左至右进行修正,则会引起同一个句子中后面的合成词位置顺序发生了变化,显然会导致分词修正发生错误。如表1示例文本中第1句“人文/n社会/n科学/ad是/v人类/n文化/n的/u重要/a组成/vn部分/n,/w…”,合成词“人文社会科学”的位置顺序是“1,3”,即第1个词至第3个词,“人类文化”的位置顺序是“5,6”,即第5个词至第6个词。若从左至右进行修正,修正完第1个合成词后变为“人文社会科学/ncw3是/v人类/n文化/n的/u重要/a组成/vn部分/n,/w…”,此时合成词“人类文化”原文位置顺序已改变为“3,4”,若仍按原记录的位置顺序去修正,必然导致错误。解决这个问题的方法是按从右至左的顺序进行修正,即先修正同一个句子中位置顺序值大的合成词,再修正位置顺序值较小的合成词,这样同一个句子中后面的合成词修正后不会改变前面合成词的位置顺序。
为配合分词修正,需要对识别出的合成词进行排序,排序的依据是按句子编号从小到大升序排序,若句子编号相同,则按合成词的句内起始序号从大到小降序排序。表1示例文本识别出的合成词排序后如表5所示。
3实验结果分析与比较
实验选取了复旦大学上海(国际)数据库研究中心NLP小组提供的大约20MB的文本集(包含1600个政治经济类论文)中的10篇文本,以及2003年863评测的10篇文本,共20篇,字数最少的为1765字,最多的为9969字,平均字数约为4547字。所有文本采用中科院分词系统ICTCLAS3.0进行分词标注。
合成词的识别采用基于词共现有向图算法,通过词性探测提取文本的原子词串,进而由这些原子词串生成词共现有向图,设计运行在词共现有向图之上的算法,将合成词提取出来。实验选定的文本共识别出1047个合成词,其中995个合成词经人工判定认为是正确的。对识别到的1047个合成词进行词性标注和分词修正,其中52个不正确的合成词显然也会导致词性标注和分词修正错误,而余下的995个合成词的词性标注是合理的,词性标注正确率达到了95%。
4结论和下一步的工作
本文针对合成词词性确定难的问题,提出了基于核心属性渗透理论的合成词词性标注方法,采用手工和计算机相结合的方式将合成词按构词规则分类,并将核心成分的词性作为整个合成词的词性,提供显式标注和隐式标注两种格式,同时将标注后的合成词代替原有分词,即对分词文本进行修正。
词性标注 篇5
关键词:语义角色标注,谓词标注,名词性谓词,依存关系
0 引 言
语义角色标注SRL (Semantic Role Labeling) 是浅层语义分析的一种实现方式, 作为目前热点研究课题之一, 它具有分析任务定义明确, 便于评价等优点, 有着充实的工作内容和可比较的评测, 同时, 其在问答系统、信息抽取、机器翻译等领域有着广泛的应用。它采用“谓词-角色”的结构形式, 标注句法成分为给定谓语动词的语义角色, 每个语义角色被赋予一定的语义含义, 如施事、受事、工具或附加语等。
当前根据采用的句法分析结果, 自动语义角色标注可分为:基于短语结构句法分析的语义角色标注和基于依存结构句法分析的语义角色标注。针对前者的研究已较为成熟, 并取得了很好的性能, 然而伴随此方法的发展带来的瓶颈问题也日渐突出, 如局部模型的机器学习方法很难有更大进展, 语料的稀疏问题严重, 更有效的特征难以抽取等等, 导致了性能无法进一步提高。因此近两年来基于依存句法的语义角色标注开始受到重视, 尤其是CoNLL2008 shared task[1]和CoNLL2009 shared task[2]都将基于依存关系的SRL作为评测主题, 更加推进了基于依存句法的语义角色标注的发展。
本文采用动词性谓词SRL相关研究方法, 构建了一个基于依存关系的名词性谓词SRL系统, 进行研究。
1 相关研究
相比于英文的语义角色标注, 中文语义角色标注的相关研究较少, 主要由于中文PropBank [3]和中文NomBank[4]发布较晚, 尤其是基于名词性谓词的研究更少。
文献[5]首次探索了中文名词性谓词的语义角色标注, 不过其实验语料均采用作者手工标注的小规模语料。文献[6,7,8]首次利用大规模中文语料库对动词性和名词性谓词的SRL进行研究。其中文献[6]构建了一个中文动词性谓词SRL平台, 对中文和英文语义角色标注的性能以及影响因素进行分析比较, 在使用手工标注语料和基于单一自动标注句法树的情况下, 性能F1值分别取得了91.3和61.3。文献[7]进一步探索了中文名词性谓词SRL, 借助动词性谓词的标注实例, 扩展名词性谓词SRL的训练集规模, 但实验结果并不理想。文献[8]通过使用性能更好的自动分析句法树和制定一些新的特征, 进一步提高了动词性和名词性谓词的中文SRL性能。在基于正确句法树和自动句法树上取得69.6和57.6的F1值。
值得注意的是文献[9]将动词性谓词的SRL标注信息应用到名词性谓词的SRL系统中, 对名词性谓词的SRL结果有了很好的改进, 在使用正确和自动句法树情况下, 性能F1值分别为72.67和60.87。
以上的相关研究都是在句法树的基础上进行实验的, 到目前为止还没有文献报告基于依存关系的中文名词性谓词SRL相关实验结果, 本文首次采用依存关系作为标注单元, 对中文名词性谓词的SRL进行研究, 以期望取得好的成果。
2 系统实现
2.1 系统概述
本文构建的基于依存关系的中文名词性谓词SRL系统, 其标注过程分四个步骤 (如图1所示) :谓词识别、预处理, 语义角色识别、语义角色分类。
其中预处理阶段主要对依存关系树进行剪枝, 删除依存树上最不可能承担谓词角色的关系结点, 以消除不必要的结构化信息, 有效地减少输入到分类器中的实例个数。
文献[10]提出了一种简单的剪枝算法:在依存树中, 保留与谓词具有以下关系的结点:父亲, 孩子, 孙子, 兄弟, 兄弟的孩子, 兄弟的孙子结点, 其他结点都被过滤掉。
本文根据中文依存关系树结构及名词性谓词的特点扩展了Hacioglu剪枝方法, 增加了与谓词具有以下关系的结点:保留了谓词结点的祖父结点、祖父的孩子结点, 祖父的父亲结点等。系统使用该改进的Hacioglu算法后, 经过统计训练集的实例大大减少 (减少约56.6%) , 同时减掉的正例不足1.5%。
由于最大熵分类器[11]的效率很高, 并且类别数量对分类效果影响不大, 所以文章采用最大熵分类器。其原型是开源软件maxent-2.4.0, 并在此基础上进行了相关的修改, 使输出符合系统的要求, 参数cutoff和interation分别设为2和100。
2.2 谓词识别
谓词识别是语义角色标注中的重要一步, 它是语义角色标注的前提。所谓谓词识别PI (Predicate Identification) 就是识别出句子中的谓语动词或名词。名词性谓词的识别是个复杂棘手的问题, 因为有很多名词即曾作为谓词出现过, 也作为非谓词出现过。因此, 名词性谓词自动识别在语义角色标注中显得尤为重要。
本文将名词性谓词识别看作一个二元分类 (Predicate Vs.Non-Predicate) 问题。首先将句子中所有词性标记为NN的词构成候选谓词集合, 例如, 在例句 (1) 中, 得到的候选谓词集合为{国、经贸、科技、合作、交流};然后, 过滤掉不可能成为谓词的候选词;最后采用最大熵分类器对谓词进行分类。
事件过滤规则:如果词性为NN的单词W在训练集中出现过, 并且一次都没有被标注为谓词, 则测试集中出现W这样的候选谓词, 均标注为非谓词。
特征选择:在谓词识别阶段, 主要制定了以下有效的的词法特征、依存树上的结构特征及组合特征。假设当前结点是“合作”现将各有效的特征示例列举如下, 特征如果不存在就用NULL代替。
词法特征:
L1 候选谓词。 (合作)
L2 左侧单词。 (科技)
L3 右侧单词。 (与)
L4 左侧单词词性。 (NN)
L5 右侧单词词性。 (CC)
L6 候选谓词的首字。 (合)
L7 候选谓词的尾字。 (作)
结构特征及组合特征:
S1 与父亲结点的依存关系。 (NMOD)
S2 中心词。 (交流)
L1+S2 候选谓词+中心词。 (合作+交流)
2.3 角色标注特征选取
特征一直是决定语义角色标注系统性能的重要因素。本文在角色识别和角色分类中使用相同的特征集。参考基于短语结构句法分析的系统, 采用贪心策略[12]对角色进行选择。就是根据每个候选特征在开发集上对角色识别 (或分类) 任务的贡献度, 每次选择贡献度最大的特征, 直到从剩余候选特征集中添加任意特征都不会使性能提高。
文献[13]在中文PropBank上选取了7个基本特征 (谓词原型、谓词词性、子类框架、位置、路径、依存关系、中心词) , 进行基于依存关系动词性谓词自动语义角色标注。本系统搭建初期参考这7个特征进行实验, 并把这7个特征作为基础特征集进行研究。
在归类总结目前文献中常用的特征后, 我们扩展了这些特征及特征组合。特征模板依据所取目的, 分为与谓词相关的特征 (Fe1-Fe5) 、与依存关系相关的特征 (Fe6-Fe13) 、表现谓词-依存关系特征的组合特征。
假设当前结点是“科技”, 当前谓词是“合作”, 现将各有效的特征示例列举如下:
(1) 基础特征
F1 当前谓词的原型。 (合作)
F2 当前谓词的词性。 (NN)
F3 当前谓词结点的所有孩子结点的依存关系链。 (NMOD->-)
F4 句法树上当前结点到谓词的路径, 即途经结点的依存关系。 (NMOD->->VMOD->NMOD)
F5 当前结点的中心词相对于当前谓词的前后顺序。 (after)
F6 当前结点所对应的依存关系。 (NMOD)
F7 当前结点的父亲结点所对应的单词本身。 (交流)
(2) 扩展特征及组合特征
Fe1 当前谓词的所有孩子结点的依存关系组成的链。 (NULL)
Fe2 当前谓词的所有孩子结点的词性组成的链。 (NULL)
Fe3 当前谓词的所有兄弟的依存关系组成的链。 (DEG-NN-CC)
Fe4 当前谓词的所有兄弟结点的词性组成的链。 (NMOD-NMOD-NMOD)
Fe5 当前谓词对应的动词类型。 (C2)
Fe6 当前结点本身单词。 (科技)
Fe7 中心词的词性。 (NN)
Fe8 当前结点单词的词性。 (NN)
Fe9 剪枝后剩下的结点, 几乎都是与谓词在同一个家族树中, 此特征说明了在此家族树中, 当前关系结点与当前谓词的家族关系, 如:father, child, siblings等等。 (siblings)
Fe10 当前词的前一个词。 (经贸)
Fe11 当前词的前一个词的词性。 (NN)
Fe12 当前词的后一个词。 (合作)
Fe13 当前词的后一个词的词性。 (NN)
F1+F7 当前谓词原型+中心词。 (合作+交流)
F6+F7 当前结点依存关系+中心词。 (NMOD+交流)
F1+F4 当前谓词原型+路径。 (合作+NMOD->->VMOD->NMOD)
Fe6+F5 当前结点本身单词+当前结点的中心词相对于当前谓词的前后顺序。 (科技+after)
3 实验结果与分析
3.1 实验语料来源
与其他基于统计的自然语言处理技术一样, 进行语义角色标注, 需要规模大、质量高的语料资源的支持。但由于现在尚未出现通用的大规模标注的中文依存关系语料库, 所以要进行相关研究首先要解决语料库问题。
本文语料是将中文NomBank (对应于中文PropBank2.0和中文TreeBank5.1) 通过Penn2Malt[1]工具转换为CoNLL2008评测所使用的语料的形式。参照文献[8]的实验数据划分, 取转换语料中的648个文件 (chtb_081.fid-chtb_899.fid) 作为训练集, 40个文件 (chtb_041.fid-chtb_080.fid) 作为开发集, 72个文件 (chtb_001.fid-chtb_040.fid和chtb_900.fid-chtb_931.fid) 作为测试集。
下面给出了一个中文NomBank转换后的例句:
他 希望 今后 两 国 的 经贸 科技 合作 与 交流 进一步 扩大 和 发展 。
图2给出例句的依存树图, 图中W表示单词, R表示依存关系, G表示词性, 黑体字分别表示谓词, 及各个谓词所对应的角色。
3.2 谓词识别结果
表1给出了基于正确依存树和基于自动依存树的谓词识别结果, 其中自动依存树是指将句法分析器得来的语料数据用Peen2Malt工具转换为依存关系语料, 然后进行测试。本文采用的句法分析器是Dan Bikel句法分析器[10], 一种基于中心词驱动的词汇化的概率上下文无关文法PCFG (Probabilistic Context Free Grammar) 句法模型, 分析器的性能P/R/F1 (%) 分别为:79.40/77.00/78.18。
从对中文PropBank和中文Nombank的统计可以看出, 中文名词性谓词的识别比动词性谓词的识别要复杂得多, 所以在识别的性能上没有动词性谓词的识别性能好。主要有如下原因:首先, 很多名词性谓词既可以是动词也可以是名词, 并且由于中文本身的特征, 当一个单词为动词或名词时, 词本身是没有变化的, 只有根据上下文判断, 这在词性判别时就有可能引入错误, 并且有一些高频词, 词性为名词, 但是训练语料中会出现多次为谓词及非谓词, 使得判别变得复杂;再者, 稀疏的词对系统也有一定影响, 在测试集中, 分别有3.8%和2.0%的谓词在训练集中只出现过0次和1次。实验中的准确率都比较低, 说明有大量非谓词被识别为谓词, 多数造成此错误的原因都与第一个原因有关, 而召回率的损失, 有可能是稀疏词没有被识别出来造成的。
与基于句法树的中文名词性谓词识别相比, 文献[9]的谓词识别最佳性能P/R/F1分别为:89.36/92.62/90.96, 采用SVM分类器。这与我们在依存树上得到的性能89.65相当, 造成性能有些微差距的原因有以下两点:1) 现在还没有基于依存关系的中文名词性谓词的大规模标注语料, 想要进行相关的实验, 必须采用工具将基于句法结构的语料转换为基于依存句法分析的语料, 但是在语料转换过程中又无法保证转换语料的质量。这是一个最根本的原因。2) 文献[9]采用的分类模型是SVM分类器, 与最大熵分类模型相比, 分类器本身的性能就优于最大熵分类器, 但是要以牺牲时间来换取, 本文基于特征向量的谓词识别系统在整个抽取特征、训练模型、评测等全过程中历经的时间是58秒, 可见使用最大熵分类模型的效率很高, 这在系统应用中非常重要。
3.3 语义角色标注结果
表2给出基于正确谓词和基于自动谓词识别的SRL结果, 评测方法是CoNLL2008 share task[1]中提供的评测脚本。
与基于依存关系的中文动词性谓词SRL相比较, 文献[13]在CoNLL2008转换语料上取得84.30的F1值, 比本文名词性谓词SRL结果高6.21个百分点, 这两个结果在语料库规模上相当, 并且选用相同的评测脚本, 评测时都考虑了谓词对结果的影响。分析名词性谓词SRL结果低的原因如下:首先, 虽然语料规模相当, 但是名词性谓词的标注实例还是远远低于动词性谓词的标注实例。其次, 名词性谓词的角色识别更加困难。即使某个名词为动词的派生词, 该名词的所有修饰成分也不一定是该名词的语义角色。最后, 名词性谓词与角色之间的关系比较灵活, 有独特的特点:角色可以位于名词性短语内;名词性谓词可以做主语;名词性谓词存在支持性动词;名词性谓词位于介词短语内。这些特点都使得名词性谓词的SRL要复杂。
与基于短语结构的中文名词性谓词SRL相比较, 文献[9]在使用正确和自动句法树情况下, 性能F1值分别为72.67和60.87。本文的结果高5.42和6.55个百分点, 虽然两篇文章采用了相同的数据集进行实验, 但由于文献[12]所采用的评测结果是使用CoNLL2005所提供的评测脚本得出, 本文所采用的评测脚本是CoNLL2008所提供, 本身具有差别, 而且现在对于两种不同的标注单元没有一个公平的比较平台进行比较, 所以还不具有可比性。
4 结论与展望
本文首次采用依存关系作为标注单元, 对中文名词性谓词进行识别及语义角色标注, 并同时与中文动词性谓词识别及基于句法树的中文名词性谓词识别进行了分析比较, 还与基于依存关系的中文动词性谓词SRL及基于短语结构的中文名词性谓词SRL相比较。系统地讨论了基于依存关系的中文名词性谓词SRL, 具有一定的研究参考价值。
下一步工作将采用卷积树核的方法在本文使用的语料上进行SRL相关实验, 希望取得更好的结果。
词性标注 篇6
统计机器翻译[1] ( Statistical Machine Translation, SMT) 是非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是对大量的平行语料进行统计分析, 构建统计翻译模型, 并使用此模型进行翻译。统计机器翻译模型主要包括基于词的翻译模型[2], 基于短语的翻译模型以及基于句法的翻译模型。
1. 1 机器翻译的发展现状
近年来, 机器翻译技术特别是统计机器翻译技术取得了巨大的进展, 一些语言之间的翻译已经在人们的实际生活和工作中得到了广泛的应用。越来越多的互联网和软件公司都成功推出基于统计的在线自动翻译系统, 譬如Google Translator, Microsoft Bing Translator, Baidu Translator和Yahoo! Bebel Fish。国内机器翻译领域发展较快, 近年来从事机器翻译研究的团队越来越多, 逐渐从最初的汉英、英汉机器翻译, 向多语言机器翻译发展, 汉英双向、日汉、德汉、阿汉、维汉、藏汉和蒙汉等多语种翻译系统已经在特定领域获得一些应用。
1. 2 维汉机器翻译的研究现状
维吾尔语言信息处理的研究工作始于80年代初。近年来, 随着互联网的普及和自然语言处理技术的发展, 越来越多的研究者开始尝试维吾尔语的语料库建设工作[3]、自动校对、智能检索等。目前, 对维语的研究工作主要集中于维语的词切分[4]、词的形态分析、句法分析[5]等基础理论研究上。值得欣慰的是, 近年来, 包括维语在内的少数民族语言的信息处理工作, 特别是少数民族语言到汉语的翻译, 正得到越来越多的关注与重视。例如, 2011年第七届全国机器翻译研讨会 ( CWMT2011) 首次将维语到汉语的翻译作为一项评测任务, 2013年第九届全国机器翻译研讨会 ( CWMT2013) , 维汉机器翻译已有九家单位参与其中。因此, 借鉴当前成熟的统计机器翻译方法, 结合维语的复杂语言形态特点, 展开维汉机器翻译中复杂语言形态模型的研究具有较高的理论价值与现实意义。
1. 3 本课题的研究意义与思路
“新疆少数民族信息处理”课题旨在围绕新疆信息安全和社会发展的重大需求, 进行维吾尔语基础资源库和信息处理工具库建设, 着重开展维汉机器翻译关键技术研究。语言隔阂问题已经成为制约新疆少数民族聚居地区经济社会发展和长治久安的主要因素。因此, 研究维汉机器翻译, 解决维吾尔语和汉语的信息不平衡问题, 对于推动新疆地区和谐快速发展, 提高处置网络突发事件的能力都具有重要意义。
由于维吾尔语和汉语两种语言之间的差异以及维吾尔语资源的匮乏, 维汉机器翻译面临着比英汉等主流语言对翻译更多的问题。维吾尔语[6]属于阿尔泰语系突厥语族左匈奴语支, 是典型黏着语, 它是通过在词干后附加若干词缀构成新词, 因此, 维吾尔语词汇量异常丰富; 另外, 与汉语S - V - O ( 主语 - 谓语 - 宾语) 的语法结构不同, 维吾尔语是S - O - V ( 主语 - 宾语 - 谓语) 结构, 这就要求维汉机器翻译模型有较强的调序能力, 而现有的基于短语和基于层次短语[7]的模型在长距离调序方面都有其局限性, 基于句法模型[8]因为考虑到了源语言和目标语言两种语言的句法信息, 因而具有较强的调序能力, 词性标注是基于句法模型的基础。于以上两点, 作为基于句法维汉机器翻译的探索性研究, 本文提出一种面向复杂形态语言机器翻译的多模型融合的维吾尔语词性标注方法。
2 面向维汉机器翻译的语料资源库
语料资源库的收集和加工整理是机器翻译研究的重要基础性工作。大规模维汉翻译资源的收集和加工整理是本研究的一项重要基础工作。
面向维汉机器翻译的语料资源主要包括三大类: 维汉翻译词典, 维汉平行语料库和维语单语语料库。其中, 维语单语语料库主要包括形态分析和词性标注的语料库。研究采取Web自动获取和人工收集整理相结合的方法实现大规模维汉翻译资源库的构建, 同时开发一系列翻译资源加工工具来提高资源建设的效率和质量, 最终形成一个大规模维汉翻译资源采集和加工处理平台。
3 语言形态分析及词性标注研究
3. 1 维汉机器翻译中语言形态差异性分析
维吾尔语属复杂形态语言, 有3万多个词根, 100多个后缀, 通过词根和后缀构成多种词形, 以表达不同的意义。而汉语几乎没有形态变化。由于语言形态的不对称, 维语和汉语之间的翻译问题较多, 主要原因是缺乏有效的形态分析与提取方法, 以及适合复杂形态信息的翻译模型。
维汉机器翻译属于词形变化丰富的语言到的词形变化不丰富语言的翻译。这类翻译存在的现象是: 在词形变化丰富的语言中, 一个词不仅表示某种语义, 而且包含多种语法意义, 从而在目标语言中有若干词与之对应, 这样在训练语料有限的情形下, 很容易导致数据稀疏问题。
因此, 为解决上述问题以提高其机器翻译质量, 需进行词干词缀切分、词法句法分析研究, 这些研究的前提是建立大规模语料资源库, 并进行词性标注。
3. 2 基于多模型融合的维吾尔语词性标注研究
传统的感知器标注模型[9,10]在英语等主流语言词性标注中取得了较好的效果, 但在语料匮乏的维吾尔语词性标注中, 不能达到很好的标注效果。
基于统计的词性标注方法在进行模型的训练时, 并未考虑具体的语法信息, 只对训练语料中出现的词性标注及当前词的上下文信息进行学习, 可能会出现过适应的现象 ( overfitting) ; 基于规则的方法需要大量的精确规则, 然而维吾尔语形态复杂, 规则的获取有很大难度。为了充分发挥感知器模型在词性标注方面的优势, 本文将对维吾尔语词进行浅层形态分析 ( 词干切分等) 后的语言学信息作为抽象的标注特征, 加入到感知器模型的训练过程中去。
3. 2. 1 感知器模型基本原理
感知器 ( perceptron) 是二类分类的线性分类模型, 1957年由Rosenblatt提出, 是神经网络与支持向量机的基础。其输入为实例的特征向量, 输出为实例的类别, 取 +1和 -1二值。感知器对应于输入空间 ( 特征空间) 中将实例划分为正负两类的分离超平面, 属于判别式模型。
定义1 ( 感知器) 假设输入空间是, 输出空间是Y = { +1, -1} 。输入x∈χ表示实例的特征向量, 对应于输出空间 ( 特征空间) 的点; 输出y∈Y表示实例的类别。由输入空间到输出空间的函数
称为感知器。其中w和b为感知器模型参数, w∈Rn叫作权值 ( weight) 或权值向量 ( weight vector) , b∈R叫作偏置 ( bias) , w·x表示w和x的内积。Sign是符号函数, 即
感知器是一种线性分类模型, 属于判别模型。感知器模型的假设空间是定义在特征空间中的所有线性分类模型 ( linear classification model) 或线性分类器 ( linear classifier) , 即函数集合 { f | f ( x) = w·x + b} 。
感知器有如下几种解释: 线性方程
对应于特征空间Rn中的一个超平面S, 其中w是超平面的法向量, b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点 ( 特征向量) 分别被分为正、负两类, 超平面S称为分离超平面。
感知器学习, 由训练数据集 ( 实例的特征向量及类别)
其中, xi∈χ = Rn , yi∈Y = { + 1, - 1} , i = 1, 2, …, N , 求得感知器模型, 即求得模型参数w和b。感知器预测, 根据训练过程得到的感知器模型, 对于新的输入实例给出对应的输出类别。
3. 2. 2 渐进标注模型 ( Progressive POS, PPOS)
传统的感知器标注算法在进行模型的训练时, 是以维吾尔语字符为单位进行训练的, 即每次在前一个字符串的基础上附加字符, 组成新的标注对象。而针对面向机器翻译维吾尔语词性标注这一具体任务, 本文提出了以维吾尔语词后缀为渐进单位的词性标注模型。
在Collins提出的基于感知器模型的词性标注模型中, 用到了词与前后词, 词与前后词性标记、标记与前后词标记等信息。本特征的得分如下表示:
上式中的P ( w- 2w- 1w0w1w2) 表示当前词与前两个词和后两个词的共现概率, P ( t- 2t- 1w0t1t2) 表示当前词与前两个标记和后两个标记的共现概率, P ( t- 2t- 1t0t1t2) 表示当前词标记与前两个词和后两个词标记的共现概率。w0和t0分别表示当前词和对应标记。
3. 2. 3 泛化的标注模型 ( Generalize POS, GPOS)
维吾尔语词是由词干附加若干词缀构成新词, 因此词的数量非常巨大。根据维吾尔语构词知识, 维吾尔语词的词干信息 ( Stem Info) 和词缀信息 ( Affix Info) 对整个词的词性都有一定的预测作用。
词干信息对词性的预测得分:
词缀信息对词性的预测得分:
若待标注词符合StemX或者XAffix这两种情形, 可以使用以上的词干或词缀特征并结合上下文信息来进行当前词词性的预测。
3. 2. 4 模型融合 ( PPOS + GPOS)
由于维吾尔语词性标注的复杂性, 不能单纯地依赖于某一种标注模型。为了充分利用各个模型的优点, 本文提出一种将3. 2和3. 3两种词性标注模型进行融合的新模型, 因为各个模型在融合模型中所占比例不同, 本文将两种模型做带参数融合, 即:
其中的α和β 使用EM ( Expectation Maximum) 算法训练得到。
3. 2. 5 实验及分析
为了验证本文提出维吾尔语词性标注模型的有效性, 分别在三个模型上进行了实验, 并且分别与以字符为渐进单位标注模型 ( CPPOS) 、词缀泛化模型 ( SGPOS, 前部泛化; AGPOS, 后部泛化) 以及无参数融合模型 ( NNPOS) 进行了对比。训练语料203531词 ( 12000句) , 测试文件14522词 ( 1121句) 。
( 1) 渐进模型实验。以维吾尔语词后缀为渐进单位, 基于感知器词性标注模型进行维吾尔语词性标注。
( 2) 泛化模型实验。为了对泛化标注模型进行充分的验证, 本文分别从维吾尔语词的前后两个方向进行泛化, 对比实验中给出了前部泛化和后部泛化两种情形。
( 3) 融合模型实验。本文分别在无参数融合模型和带参数融合模型上进行了实验。
( 4) 结果分析。不同的渐进单位对词性标注模型的性能有较大影响 ( 表1) 。在CPPOS中, 由于维吾尔语的构词特点, 其中的一部分训练结果是非法的维吾尔语单词, 因此不可能成为词性标注模型解码的候选项, 极大地降低模型选择正确标注结果的可能性; 而以维吾尔语词缀为单位的渐进标注模型的渐进单位是词缀, 而词干和候选词缀有很大可能构成其他的维吾尔语词, 因此PPOS的性能好于CPPOS。在泛化模型的对比实验中 ( 表2) , 在维吾尔语词前部 ( SGPOS) 或后部 ( AGPOS) 进行泛化的模型性能都差于两端泛化标注模型 ( GPOS) 的性能, 这是因为GPOS的泛化能力强于任何一端的泛化, 对于未在训练语料中出现词的词性有更强的预测能力。带参数融合模型 ( NPOS) 不仅继承了两种模型 ( PPOS和GPOS) 的优点, 而且从全局上考量了不同模型在融合模型中所占比重, 因此其标注性能最佳 ( 表3) 。
4 总结与展望
本文面向维汉机器翻译中的关键技术问题, 提出了一种融合渐进模型和泛化模型的维吾尔语词性标注方法, 该方法综合维吾尔语形态特征及其维吾尔语词性标注这一任务, 基于感知器模型, 对维吾尔语单词进行词性标注。实验表明, 该方法取得了较好地标注效果。然而, 由于本文中采用普通的字符串匹配方法, 算法运行效率较低, 因而性能有待提高。在接下来的工作中, 将对模型的运行效率做进一步提高。
参考文献
[1]Philipp Koehn, Franz Josef Och, Daniel Marcu.Statistical phrase-based translation.Canada:Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003.48-54
[2]Peter F.Brown, Vincent J.Della Pietra, Stephen A.Della Pietra, etc.The mathematics of statistical machine translation:parameter estimation[J].Computational Linguistics, 1993, 19 (2) :263-311
[3]早克热·卡德尔, 艾山·吾买尔, 吐尔根·依布拉音, 等.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用, 2010, (1) :175-179
[4]玉素甫·艾白都拉.维语句法分析器中的词义排歧问题的研究[J].计算机应用与软件, 2002, 19 (4) :59-62
[5]玉素甫·艾白都拉, 潘伟民, 力提甫·托乎提.面向信息处理的维吾尔语短语结构规则与标注集研究.武汉:第七届中文信息处理国际会议论文集, 2007:96-101
[6]古丽拉·阿东别克, 米吉提·阿布力米提.维吾尔语词切分方法初探[J].中文信息学报, 2004, 18 (6) :61-65
[7]David Chiang, A hierarchical phrase-based model for statistical machine translation, Michigan:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005:263-270
[8]Kenji Yamada, Kevin Knight, A syntax-based statistical translation model, France:Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, 2001:523-530
[9]Michael Collins, Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms, Proceedings of the ACL-02 conference on Empirical methods in natural language processing, 2002, {10}:1-8
【词性标注】推荐阅读:
词性变化05-25
词性练习答案06-30
英语语法—词性08-17
常见的词性转换07-24
have后加什么词性10-22
upon后加什么词性07-14
汉语词性的语法功能08-25
英语语法填空词性转换09-02
his后面加什么词性09-03
permitting的词性是什么10-28