中文规则录入

2024-07-07

中文规则录入(共3篇)

中文规则录入 篇1

1. 引言

随着信息技术的飞速发展, 中文信息处理技术已经渗透到计算机应用的各个领域。自动分词是中文信息处理技术的基础, 其中未登录词的识别一直是自动分词的研究难点, 越来越多的研究者致力于提高未登录词的识别效率。

中文姓名在未登录词中占有很大比例, 所以中文姓名识别的正确率与召回率已经成为影响整体自动分词正确率与召回率的一个重要因素。本文基于统计和规则提出一种中文姓名识别方法, 实验表明该方法的正确率和召回率都较高, 可以帮助进一步提高自动分词的识别效果。

2. 相关研究

到目前为止, 已有的中文姓名识别方法主要分为三类:基于规则的方法, 基于统计的方法, 基于规则和统计的方法。

基于统计的方法[2,3,5]主要依靠一个或多个具有代表性的训练语料库, 通过统计一些频率信息来识别中文姓名。如姓名前置词、姓氏用字、名字用字、姓名尾置词等出现的频率信息。这种方法用纯数学的方法, 比较简单, 但缺点是研究所使用的语料库都是人为地选取的, 一般规模比较小, 很难保证它能体现实际中文姓名分布的一般规律。另外纯粹利用统计算法, 不能完全体现中文姓名的构成规律。

基于规则[4,6]的方法主要依靠中文姓名的结构和特征, 考虑了中文姓名的上下文信息来识别中文姓名。该方法主要是利用两种信息:姓氏用字分类和限制性成分。分析过程中, 当扫描到具有明显特征的姓氏用字时, 开始触发姓名的识别过程。并采集姓名前后的指界词、称谓词等相关信息, 对姓名的前后位置进行限制。在缺乏大规模熟语料库的时候, 规则似乎是唯一可行的方法。这种方法减少了对语料库的依赖, 但缺点是中文姓名的识别规则会或多或少的存在遗漏, 而且这些规则是人为设计的, 很难针对所有语料库都适用。

基于规则和统计相结合的方法[1,7,8]结合了两者的优点, 一方面通过概率计算来减少方法的复杂性与盲目性, 另一方面通过规则的使用降低对语料库规模的要求。目前的研究大多采取规则与统计相结合的方法, 只是规则与统计的侧重不同。

3. 中文姓名识别

中文姓名的识别过程分为两步。基于统计的方法先获得候选姓名, 通过数学运算可以在比较短的时间内从大量信息中提取出可能的候选姓名。而后利用规则从候选姓名中筛选。规则比起数学运算要慢了很多, 但精确程度要高。因而先使用统计后使用规则的步骤可以兼顾时间效率和识别效果。

3.1 候选姓名

中文姓名长度一般为2-4字, 姓氏有复姓, 名字一般为1、2个字。但有很大的随意性, 比如在很多语句中会出现有姓无名 (“刘”) , 有名无姓 (“小强”) , 称谓 (“厂长”) 等情况取代了姓名全称。为了解决这些情况的识别, 本文使用如下公式计算候选姓名概率。

设中文姓名Name=XM, X是姓氏包括复氏, M为句中动词前非修饰部分, 长度一般为1-2字, 但不做具体限制。于是候选姓名概率:

p (Name) =α×p (X) +β×pm (M) +γ×pc (M) , α+β+γ=1, 其中p (X) 表示姓氏概率, pm (M) 表示M是作为名字的概率, pc (M) :示M是作为称谓的概率:

λ是单字名的概率, μ是双字名的概率。这两个参数可以通过统计信息得到。该候选姓名概率很好的解决了有姓无名, 有名无姓不好区分的问题, 同时考虑了这些可能, 主要满足其中一种情况, 概率值都很得到很好的体现。对于“李明院长”, 因为充分利用了称谓一定会更容易识别。α、β、γ分别代表p (X) , pm (M) 和pc (M) 对整体候选姓名概率评估的权值。他们的取值可以通过训练而来, 一般姓氏对整体评估的权值α比重相对会占得大一些。

作为判断候选姓名的依据, 一定要有一个概率阈值, 这个阈值往往通过训练得到, 大于此概率阈值的便可作为候选姓名进入到规则筛选。

3.2 规则筛选

姓名不是孤立存在的, 而是作为句子的一部分出现的, 那么利用姓名所在位置的前后相关信息可以帮助进一步确定姓名, 即在候选姓名的基础上进行筛选。

一个简单的句子只由主谓宾三部分组成。姓名往往做句子的主语和宾语。句子中总会出现动词, 用于指示主语的行为, 或宾语被施与的行为等。主语在动词前, 宾语在动词后, 减去修饰成分他们的位置几乎是紧邻的, 知道动词的位置也就能辨别出主语和宾语的所在位置。因而利用好动词, 可以对姓名的识别起到很好的提示作用。

还有一些特殊的动词, 不必考虑他的位置, 只是单独从词性上就可以立刻判定姓名。因为这些动词是人类特有的。这种判断可以解决昵称很难被识别的情况。而不必考虑姓名在句子中的位置也可以大大缩短计算时间。

另外, 标点符号在阅读中不发音, 但却有着文字一般的作用。比如“、”与汉语里的“和”意思相关, 有并列的关系。例如:“李红、王明、李娟都是好孩子。”中出现的姓名就有并列关系。

并列关系还可以体现在一个连词上, 如“还是”, 你是找李刚还是李强。前后也存在并列。因而可以扩展到所有具有并列关系的连接词上。

针对上述所列的汉语结构特点, 特对候选姓名用以下规则进行筛选。

筛选规则1:减去句中修饰成分, 候选姓名前后的动词是口字旁或言字旁的, 则可以识别为姓名。因为语言是人类特有的。

筛选规则2:候选姓名紧挨动词, 位于动词之前或之后的, 则可以识别为姓名。

筛选规则3:对于由标点符号“、”分隔的候选姓名, 如果有一个候选姓名被前面的两条规则确定, 则与他有并列关系的所有候选姓名都被识别为中文姓名。

筛选规则4:对于由具有并列关系的连词连接的候选姓名, 如果有一个候选姓名被前面的规则确定, 则与他有并列关系的所有候选姓名都被识别为中文姓名。

4. 实验

为了验证本文基于统计和规则对中文姓名识别的效果, 进行了如下实验。语料是来自于网页上获取的2005年人民日报。之所以选取人民日报, 是因为上面有大量的姓名和可以帮助识别的称谓信息。并且新闻稿经常被作为识别的材料, 此实验的测试结果可以直接用于实际的新闻稿识别应用中。经过基本处理后, 把人民日报的1月-10月的语料用作训练, 11月和12月的语料用作测试。系统的词典中不含有待识别的中文姓名, 所以通过本实验识别出的中文姓名只是识别算法和规则的单纯结果, 排除了准备信息的干扰因素。测试语料与训练语料都是语料库中的真实文本, 没有抽出只含有姓名的句子, 该实验环境更符合真实的语言环境, 测试结果更具有说服力。

评测中文姓名识别好坏普遍采取的指标为正确率 (P) 、召回率 (R) 和F值。其中, 正确率P= (识别正确的姓名总数/系统判定的姓名总数) ×100%;召回率R= (识别正确的姓名总数/实际姓名总数) ×100%;

测试结果为P=90.3%, R=88.2%, F=89.2%。实验表明本文基于统计和规则对中文姓名识别的效果比较好。可以成为进一步提高自动分词的基础。

5. 总结与展望

本文基于统计和规则提出一种中文识别方法, 实验表明该方法的正确率和召回率都很高, 可以帮助进一步提高自动分词的识别效果。下面考虑继续提高中文姓名的识别效果, 比如还有一些动词, 如提手旁和足字旁往往也代表了人类的活动。但不是人类特有的, 但可以在计算候选姓名概率的时候考虑这些动词的作用, 预计会进一步提高中文姓名的识别效果。

参考文献

[1]刘竞, 苏万力.统计和规则相结合的中文姓名识别方法研究.福建电脑, 2006, 22 (7) :92-96.

[2]郑家恒, 李鑫, 谭红叶.基于语料库的中文姓名识别方法研究.中文信息学报, 2000, 14 (1) 1:63-168.

[3]张峰, 樊孝忠, 许云.基于统计的中文姓名识别方法研究.计算机工程与应用, 2004, 40 (10) :53-55.

[4]黄德根, 马玉霞, 杨元生.基于互信息的中文姓名识别方法.大连理工大学学报, 2004, 44 (5) :744-748.

[5]黄德根, 杨元生, 王省, 等.基于统计方法的中文姓名识别.中文信息学报, 2001, 15 (2) :31-37.

[6]张仰森, 许波, 曹大元, 等.基于姓氏驱动的中国姓名自动识别方法[J].计算机工程与应用, 2003, 39 (4) :62-65.

[7]Zhang Huaping, Liu Qun, Zhang Hao, et al.Automatic recognition of Chinese unknown words based on role tagging[C]//Proceedings of the First SIGHAN Workshop on Chinese Language Processing, 2002:71-77.

[8]刘秉伟, 黄萱菁等.基于统计方法的中文姓名识别[J].中文信息学报, 1999:14 (3) .

中文规则录入 篇2

讨论稿

为了规范案件综合信息管理系统的应用,加强我院案件信息录入工作的长效管理,确保信息录入及时、准确、完整,真正实现案件流程管理的信息化和资源共享,结合本院工作实际,制定本规则。

第一章 基本要求

第一条 网上案件信息应按照案件流程的信息录入要求及时、准确、完整的录入,要与案件的实际运行同步进行。

第二条 案件信息录入按照层级管理的要求,严格在授权范围内进行,严禁越权操作。将账号借给他人(包括内勤、书记员)使用,系统视为责任人自行使用,有关责任自行承担。

第三条 各业务庭室根据工作职能承担相应的信息录入任务。立案庭负责立案信息的录入,审判庭、执行局负责立案后案件信息的录入。

第四条 派出法庭的案件信息由法庭自行录入。

第五条 立案、结案、审限等关系审判效率的信息一经录入不得变更。

第六条 审判庭对案件上诉情况进行信息录入后,方可将上诉案卷转交立案庭,否则立案庭不予接收移送。

第七条 案件信息录入人员对所录入信息要认真核实,及时纠正错误,确保案件信息的准确性、完整性。

第二章 信息分类

第八条 立案庭录入案件起诉基本信息(当事人及其委托代理人基本信息类、立案案由类、附加信息类)、诉讼费信息(立案标的、缓减免情况登记、诉讼费缴纳情况),诉前保全等信息应当录入。

第九条 审判庭审判员负责录入案件信息项目:

(1)补正完善立案信息。立案庭误填或漏填的应补填,当事人的基本情况有变化的应进行修改,追加当事人的应当及时进行信息录入。

(2)审理流程信息,包括审判庭组成人员、管辖异议、诉讼保全、审限管理等信息。

(3)结案基本信息,包括结案案由、标的、方式及当庭、缺席判决情况。

(4)生成相关法律文书,包括各类裁定书、通知书、判决书、调解书等。调解和好、即时结清等未制作调解书的案件,应当在调解书模板中粘贴调解协议。

(5)审理中发生的诉讼费信息,指诉讼过程中补交的诉讼费、反诉费、诉讼保全费及其减免缓情况。立案庭已收取的不能再次填写。

第十条 要求审判人员录入的信息必须由审判人员录入,书记员不得代替操作。

第十一条 审判庭书记员负责案件信息录入项目:

送达、开庭、宣判、结案、上诉、二审结果、文书生效等流程信息,粘贴开庭笔录。

第十二条 执行庭执行人员负责案件信息录入项目:补正完善立案信息、案件执行信息、结案基本信息、案件执限管理信息、生成制作相关法律文书(执行笔录、执行通知书、裁定书、决定书、债权凭证等)。

第十三条 执结案件以输入诉讼费用正式票据号作为收回执行费依据。

第十四条 派出法庭每周到立案庭进行信息录入,并于每月15日前将当月案件信息登记完毕。

第十五条 审监庭再审案件、民二庭审查破产程序、立案庭所办督促程序及公示催告程序案件等,均分别按照刑事、民商、行政案件的要求填报。

第十六条 庭长工作:每日登录“庭长办案系统”,核对新收案件与纸质卷宗是否一致,并负责分案,对不属于本庭负责审理的案件,报分管院长决定是否进行退案。

根据授权确定案件适用程序、指定合议庭成员、撤销法庭预定。

根据授权审批法律文书,审批后转分管院长批准签发。

第十七条 分管院长工作:每日登陆“领导决策辅助分析系统”,对分管庭(局)的以下报批事项进行审查、批准。

(1)批准退案、变更承办人、延长审限;(2)批准结案;

(3)批准其它根据授权应当审批的事项。

第十八条 各业务庭设统计员一名,负责庭(局)内案件信息录入的监督检查,各统计员每月将本庭(局)生成的报表与实际收结案信息仔细核对,保证数据的准确、一致。发现问题及时向庭长报告,并督促和协助相关人员进行整改,必要时请求网络管理员帮助。

第十九条 档案管理员工作:档案管理员应登录“案件归档”系统对各庭室待归档的案件明细进行核对,完成案件归档。待归档的案件必须是已经过评查的案件,否则不予归档。

第三章 监督

第二十条 网络管理员对各庭(局)的案件录入情况实行总体监控和检查,内容包括:信息录入是否及时、准确、完整,结案是否超审限以及各审理阶段是否超限。

第二十一条 对于不属于影响审判效率的错误操作确需变更的,应由承办人填写《信息更改审批表》,经分管院长同意后,交由 网络管理员进行更改。

第二十二条 网络管理员对案件流程操作有指导和监督的义务。第二十三条 网络管理员要切实履行职责,不得滥用权力。第二十四条 研究室对电子卷宗按照以上规定进行抽查,并对发现的问题按月通报,并限期整改。

第四章 附则

第二十五条 本规则由审管办负责解释。

统计与规则相结合的中文指代消解 篇3

指代消解在国外多采用规则的方式, 多在句法层面上进行研究, 如RAP算法等。国外的规则多是在句法和语法层面上进行的, 国内的基于规则的制定, 比较有代表性的是王厚斌提出的排斥规则, 此外参考文献中可以查看汉语的消解特点。

1 规则的选定

在语言学中, 我们总结了以下一些常识原则:

1.1 性别统一原则。

指示语和相应的先行语的性别必须是一致的。如果指示语和相应的先行语的性别得性别不一致, 基本上可以排除指代关系。例如:“母亲/nap王/nrf玲/nrg” (根据“母亲”, 性别为“女性”) , 但是这时候要考虑识别优先问题, “王/nrf玲/nrg”性别为不确定。这里需要考虑“人名”的优先级比“普通指人名词”的高, 但是在具体的应用时还需要考虑层次捆绑的问题, 较为复杂, 在本文中不加以考虑。

1.2 单复数一致原则。

指示语和相应的先行语的单复数必须是一致的。分析情况规定如下:

(1) 若主语为表示人、机构、地点的单一名词时, 对应的代词用表示单数的代词;

(2) 若主语为表示距离、时间、长度、价值、金额、重量的名词时, 对应代词应为单数代词;

(3) 集合名词做主语时, 若表示整体概念时, 对应代词用单数形式;若表示集合中的每个成员对应代词用复数形式。

1.3 人称一致性。

当指示语是人称代词, 相应的先行语也是人称代词时, 他们必须是一致 (相同的) 的。人称代词也可以作为指代的对象, 但原则上人称代词只能指代相同的人称代词, 不同的人称代词应当排斥掉。

1.4 距离近优先原则。

距离指示语近的先行语优先指代。例:张三的哥哥气走了他的朋友 (这里, 他优先选择:哥哥) 。

1.5 重复出现优先原则。

上下文中重复出现的先行语优先指代。

1.6“这/那等代词”。

指代消解系统中对于代词短语中出现的“这/这些”、“那/那个那些”、“哪/哪些/哪个”等情形还没有深入研究, 为了使指代消解系统对于指代关系识别的精确率提高而不强调召回率, 这种情形留待以后深入研究, 现在不对这种情况进行消解。

根据上面常识原则和对语料的分析总结, 本文提出以下四个规则:

规则一:指代词的一致性, 即如果句子中出现了人名, 那么后面出现的指代词如“他”、“她”等有指代关系;如果前方出现的是机构、地点或者是物品名, 则指代词“它”或者“它们”等存在指代关系。

规则二:指代消解中的名词短语在进行指代时, 如果指代词如“他”、“他们”等, 与照应词的位置应控制在代词所在的当前句子和前几句, 即距离应该3句范围内, 指代的可能性很大。句子距离大于3的可以不加考虑。

距离特征定义如下:

规则三:如果出现了第三人称代词“他”, 那么后面出现的代词“他”是全匹配, 即指代的是相同的先行词。

规则四:第三人称在指代消解是比较好判断, 由于第一人称“我”或者“我们”这样的指代词在判断起来有一定的难度, 所以本文不加以考虑。

以上四条规则从上到下依次判断执行。

2 加入了规则的消解流程图

本文实验人民日报1998年1月份和2000年4月份新闻版的文章作为语料, 首先确定语料的特征属性, 通过C5.0算法构建形成一个新的决策树算法, 再结合上面提出的四个规则进行指代消解, 将这次消解后的语料作为自动文摘生成的源语料。

使用50个样本进行实际文档的指代消解问题, 通过实验加入了上面的四个规则过滤之后, 进行指代消解, 实验得到的实验测试结果显示召回率有了明显的提高。

利用统计中的决策树与规则相结合的方法来改进方法之后, 使该方法能更加细致的区分在消解范围内的代词在具体的语境中是否需要消解, 并且能够进行正确的消解。在统计方法中加入了规则方法之后, 代词的消解范围扩大了。

将利用统计与规则相结合的方法生成的语料用于基于事件的自动文摘中之后, 对于文摘的性能也有所提高, 利用统计与规则相结合的方法进行消解要比单纯利用统计的方法进行消解所生成的自动文摘的性能有所提高。

“在/p老工人/n闫戌麟/nr家/n, /w当/p李鹏/nr了解/v到/v老闫/nr退休/v前/f一直/d都/d是/v厂/n里/f的/u先进/a工作者/n、/w曾经/d被/p评为/v北京市/ns五/m好/a职工/n, /w退休/v后/f仍然/d为/v改善/v职工/n的/u住房/n而/cc奔波/v时/g, /w十分/d高兴/a, /w对/p他/r为/p工厂/n建设/vn作出/v的/u贡献/n//n表示/v感谢/v。/w”

消解后的语料为:在/p老工人/n闫戌麟/nr家/n, /w当/p李鹏/nr了解/v到/v老闫/nr退休/v前/f一直/d都/d是/v厂/n里/f的/u先进/a工作者/n、/w曾经/d被/p评为/v北京市/ns五/m好/a职工/n, /w退休/v后/f仍然/d为/v改善/v职工/n的/u住房/n而/cc奔波/v时/g, /w十分/d高兴/a, /w对/p闫戌麟/nr为/p工厂/n建设/vn作出/v的/u贡献/n//n表示/v感谢/v。/w

尽管加入规则后我们的消解后的语料增加了可读性和连贯性, 但是相对于英文而言, 中文指代消解的研究相对较少, 人工添加的规则有很多不足, 规则的数量有限, 选用的规则也很难覆盖全部的自然语言现象。本论文讨论的规则相对还是比较简单, 针对较复杂的文章, 在做测试时, 可能会有很多的未消解内容, 还需要进一步改进。

3 结论

本文在基于决策树的中文指代消解的基础上加入了四条规则, 绘制出了消解流程图, 主要针对的是指代消解中的人称代词。通过实验对比, 可以看出加入规则的识别结果, 代词的指代消解, 召回率有了一定的提高, 但是由于本文加入的规则相对简单, 好多的中文指代的内容没有考虑全面, 比较复杂的指代消解还存在一些问题。

摘要:研究选定了6种特征向量, 在120个手工标注的指代样本的基础上采用C5.0决策树方法训练得到一棵用于中文名词短语指代消解的决策树, 并对其进行实验测试。采用决策树的if-then规则之前加入四条针对代词指代消解的规则的方法来改进系统。

关键词:指代消解,特征,规则,决策树

参考文献

[1]汤姆逊, 马丁内特.牛津使用英语语法[M].第四版.北京:外语教学与研究出版社, 2011.

[2]史树敏, 黄河燕, 刘东升.自然语言文本指代消解技术研究[J].计算机科学, 2007, 34 (12) :214-215, 237.

[3]王厚峰.汉语篇章的指代消解浅论[J].语言文字应用, 2004 (4) :113-119.

上一篇:岩石隧道下一篇:“力争上游”计划