分词歧义

2024-08-20

分词歧义(精选3篇)

分词歧义 篇1

在藏文信息处理中, 藏文分词是藏文信息处理的基础, 而歧义问题是藏文分词的一个难点, 对歧义问题的研究是藏文分词研究的一个重点。本文通过按藏文文本中交集型歧义的规则特点, 给出了一种藏文分词交集歧义消解方法。

引言

科学技术的迅速发展和因特网的快速普及, 加剧了人们信息获取的难度。当人们具体访问一个藏文网站去查询搜索信息时, 如果藏文网页凌乱的堆积, 杂乱无章, 没有具体的检索方法去分门别类供人们查找, 那么人们很难找到自己所需要的信息。因此如何要科学有效的管理和分类这些资料是不可回避而又意义深重的一个问题。

资料管理较为传统的方法就是对它们进行系统地分类。用人工对文本材料进行分类的过程一般就是通过读取所有文章后再对它们进行归类保存, 该过程具有周期长、费用高、效率低的特点。因此, 如何运用计算机进行文本自动分类, 成了许多人的研究方向, 也是一种趋势所在。

越来越多人开始关注藏文信息技术, 藏文分词是藏文信息处理的基础一环, 例如:机器翻译信息检索、文本分类、语音识别、藏文文本校对等, 都需要对藏文文本进行分词处理.因此, 建立高效快速的分词系统势在必行。

虽然在研究上出现不少令人瞩目的成果, 但是, 藏文歧义问题的解决能力, 严重影响了藏文分词系统的精度, 制约了藏文分词的发展, 未能达到期望的效果。

藏文分词的研究

在英文中, 单词之间是以空格作为自然分界符的, 而汉文和藏文是词与词之间没有明显的分隔符 (如空格) 。藏文以字 (音节字) 为单位, 需要通过连字成句才能描述一个完整的意思。而机器对由词组成的藏文句子必须通过藏文分词才得以理解。基于web的藏文文本自动分类需要特征选择, 就需要藏文的分词。实践中发现, 藏文分词比之汉文分词要复杂和困难的多。通过研究现有的汉英文分词算法, 提出符合藏文特征的最佳分词方案:

1.研究特征项选择及权值计算算法

如果藏文词特征向量的维数过于巨大, 将导致计算量太大, 在这样的情况下, 要完成藏文文本分类几乎是不可能的。因此, 要尽量减少要处理的单词数, 降低向量空间维数。一般使用某种特征评估函数计算各个特征的评分值, 然后按评分值对这些特征进行高低排序, 选取最高分的一些作为文本特征子集, 以降低特征空间的维数, 从而简化计算, 提高分类工作的速度和效率。

2.经降低空间维数后得到的各个特征项

在藏文文本出现的位置不同, 对藏文文本的重要程度和区分度是不同的, 为了更准确地描述藏文文本中的重要性, 需要计算特征在向量中的权重。一个特征项在某藏文文本中出现的次数越多, 它和该文本的主题就越相关;而在不同的藏文文本中出现的次数越多, 则它区分不同文本的能力越弱。

藏文自动分词方法

藏文自动分词方法借大致可以分为如下几类:基于词典的方法、基于规则的方法和基于统计的方法。其中基于词典的方法又分为若干小类。正向最大匹配算法和逆向最大匹配算法以及双向扫描法。其中正向扫描最大匹配法和逆向扫描最大匹配法同时使用, 可以发现一部分交集型切分歧义, 但仍有一部分交集型歧义无法发现;至于组合型歧义, 用最大匹配法是肯定无法发现的, 当然就跟谈不上解决组合型歧义的问题了。双向扫描法主要用于歧义检测。

藏文分词的歧义问题

一般我们评定一种分词系统的标准大致有两条:速度和精度, 精度尤为重要, 而要提高精度, 首先要有好的分词词典, 更重要的就是如何处理好切分中的歧义问题。而歧义问题是指一个句子, 可能有两种或者更多的切分方法。在藏文分词中, 切分字段有点类似几何中的集合问题。比如字段ABC中AB∈W, 并且BC∈W, 则ABC称为交集型歧义字段, 其中A, B, C为为字串, w为词表。如果用正反向进行切分མཐའ་ར་རུ་དར་ཆ་ཡད།ོ”。会出现两种切分”མཐའ་ར/་རུ་/དར་ཆ་/ཡོད།”和མཐའ་ར་/རུ་དར/་ཆ/་ཡོད།”。显然, 正想划分是正确的。

分词歧义问题解决起来则要复杂得多.两种歧义类型都可能依靠一些策略来对最大匹配法分出的结果进行改进.比如可以事先收集一些容易造成组合型歧义的分词单位建成一个歧义词表L, 用最大匹配法切分出结果后, 看分出的词是否属于这个L, 如果在L中, 再调用一些规则来帮助判定该如何处理。

交集型歧义切分的步骤

第一步:对比扫描。比如:。正向匹配是, 逆向匹配是

第二步:对于交集型歧义字母, 查询词典, 获取该词串各个词的词频。

第三步:采用了最大概率分词算法.频率高的优先匹配.

总的来说, 交集型歧义切分的流程图框如下所示:

总结

藏文分词系统还处于起步阶段, 各种歧义问题都还困扰着信息系统处理的研究者, 促使他们去改善和提高。文中交集型歧义的解决方法中, 参考了不少研究者的思想和实例, 藏文分词系统这个庞大的工程还在研究进行中, 文中的观点与看法也会随着研究的不断深入而做出调整, 这是一种基于web和信息上高速发展的时代的产物, 是一个值得我们不断去深入研究和做出理论成果的新生区域, 分词歧义问题必定会得到一个合理有效的解决的。

摘要:藏文信息处理技术随着对语言文字信息处理研究工作的不断深入, 逐步从字信息处理转向语言信息处理。与汉语、日语等语种的信息处理一样, 藏文自动分词是藏文信息处理中一项必不可缺的工作。但是目前藏文自动分词系统的研制在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现形式, 以及在实现过程中出现的歧义类型及如何进行有效消除歧义方法的探讨, 通过实验结果和实例分析来进行本论文的研究。

分词歧义 篇2

现在主流的汉语自动分词方法可分为三大类:基于词典的方法、基于统计的方法和混合方法。而针对关注的特征点, 每种方法均有很多的算法研究。这里, 我们就在E-Learning教学信息平台中进行的智能答疑系统研究中遇到的自动分词的歧义性字段展开探讨。

高分词高准确率的实用分词模型对智能答疑系统的重要性不言而喻, 而由于在自动答疑系统设计时, 无法预知用户将从怎样的角度对问题进行阐述, 因此会产生歧义字段。歧义字段从构成形式上分析, 可以分为组合型和交集型两种。如果在字段AB中, 存在:AB∈S, A∈S, B∈S, S为分词库中的词表, 则称AB为组合型歧义字段;如果在字段ABC中, AC∈S, BC∈S, 则称ABC为交集型歧义字段。对歧义字段的识别, 一般可以采用双向扫描的办法, 即:对同一字段, 分别用正向匹配和逆向匹配两种方法切分文本, 如果两种方法得到的结果不同, 则认为是歧义字段。同时, 分词知识库是判断歧义字段的主要依据, 因此, 分词知识库的构建是解决歧义字段消除的前提和基础。

因此, 我们可以构建这样的算法:从系统数据库中提取对问题的阐述文本, 将其交由算法模型进行切分和匹配。按照最大匹配法对文本进行初步切分, 然后使用策略方法来发现歧义字段。对于文中出现的最长词和次长词依据出现的次数 (这里设为i) 进行i次匹配, 对i-1次出现的最长词和次长词进行i-1次匹配, 依次类推。算法可描述如下:

设S为词, 设ni, ni+1, ni+2…ni+n分别代表词Si, Si+1, Si+2…Si+n所具有的长度, 即该词含有汉字的个数。Ti, Ti+1, Ti+2为每次匹配的次长词。把第i+1次匹配到的最长词的个数ni+1与第i次匹配到的最长词的个数ni减去第i次匹配到的次长词的个数ti相比较, 即ni+1与ni-ti结果比较, 则有以下3种情况: (1) 若ni+1大于ni-ti, 即超越, 则说明:Si含有交叉型歧义字段。此时应将交集型歧义字段中含有交集字段的个数加1, 依次找出所有的交集字符串, 得出一个有一定长度的交叉型字段, 并按交集型歧义字段处理算法消除歧义。 (2) 若ni+1等于ni-ti, 则说明:Si是组合型歧义, 此时应按组合型歧义消除算法进行歧义切分, 即新词和原词长度相等。 (3) 若ni+1小于niti, 即未超越, 则说明:Si无歧义, 即在原词内部, 不能组成新词。此时可直接与分词知识库进行匹配。

对于交集型歧义字段, 一般有以下两种处理方法:基于规则的方法和基于统计的方法。对于上面探讨的问题可以采用切分歧义消除的方法来处理。切分, 就是把句子中所有可能出现的最长词和次长词组成的所有结果进行遍历, 切分歧义消除, 则是找出所有路径中的最佳路径, 舍弃其他路径。依据规则和词类共现矩阵, 在歧义字段字符串加上前后词的词性信息, 用遍历算法找出各种切分路径的概率值, 并找出这个最大值, 按这个最大值的路径切分即可。

交集型切分算法按如下步骤进行: (1) 关联规则, 得到此字段第一个词的切分位置; (2) 若此切分歧义字段的交集型歧义字段中含有交集字段的个数大于1, 则转到第3步, 否则转至第6步; (3) 依据词类共现矩阵, 求出每个可能切分路径概率; (4) 概率最大的路径, 即为最佳切分路径; (5) 按最佳切分路径的切分位置进行切分, 该交集型切分完成; (6) 交集型歧义字段中含有交集字段的个数等于1, 即为前文所述的ABC交集类型。若A或C的频次值为0, 切分位置为AB/C, 该交集型切分完成。

若比较结果为组合型歧义字段, 这时通过歧义字段本身可能无法获取正确的切分信息, 只能通过对前后文与字符串的关系才可能找出其正确切分方式。即:为了做出唯一正确的切分, 不能只考虑歧义字段内部情况, 还必须考虑该字段与其前后词语之间的关系。这给我们处理歧义字段带来了很大的困难。这里外面考虑用这样的方案解决:在得到的文本序列后, 先进行初始的字串切分, 即利用显式的切分标记 (标点、空格、西文等) 将文本切分成汉字短串序列, 然后利用串频统计的方法处理。

统计的思路如下:计算各汉字短字符串的所有子串 (长度大于1) 在全文中出现的次数, 并根据串频和子串的长度, 对每个子串进行加权计算处理。加权函数设计为:W=n×L3 (n为子串在全文中出现的次数;L为汉字子串长度, 即子串中包含的汉字个数) 。如果字串权值超过给定的阈值, 则将其作为系统自动识别出来的新词, 存入临时词库。

试验表明, 利用基于规则和基于统计的歧义消除算法, 可以提高分词在分词知识库中的查找命中率。然而, 由于人们目前所采用的规则推理和状态转移机制并不能完全表达人脑思维的机制, 同时用户对问题的描述角度和语言组织也对分词的效果有着非常大的影响。因此, 若想进一步在语义研究和自动分词模型方面取得进展, 势必需要在人工智能和神经网络的分词与理解系统上作出更深入的研究。

摘要:Web技术在在线信息服务系统的研究和应用领域中, 智能答疑系统得到了越来越广泛的应用。在智能答疑系统中, 对汉语自动分词的模型和方法已经有了很多的研究, 然而始终不能得到完善的解决。本文利用基于规则和基于统计的歧义消除策略对自动分词模型中的算法和歧义字段的消除作出了一定的研究。

关键词:自动分词,歧义性,规则

参考文献

[1]刘源, 谭强等.信息处理用现代汉语分词规范及自动分词方法[M].北京:清华大学出版社.1994.

[2]张来希.基于Web的远程教学平台的设计与实现[J].中国教育技术装备, 2007, (5) .

分词歧义 篇3

中文分词技术是中文文本信息自动处理诸如汉语语言理解、机器翻译与服务、自动分类、搜索引擎等关键技术之一[1],但由于机器自动分词的缺陷和中文的特殊性,其效果远远达不到人对中文的理解程度。现有的常用分词算法主要有以下两类:

(1)最大匹配方法[2]

最大匹配算法是一种基于词典的机械分词算法,其包括正向匹配和逆向匹配两种方法以及这两种方法的一些改进[3,4]。这些方法主要从句头或句尾开始进行词的扫描并与词典匹配,匹配成功则在此位置进行切分。由于最大匹配算法实现简单、分词速度快的特点,使其成为应用最为广泛的一种分词方法。但也存在明显的不足,主要包括匹配时需要依赖于词典、词切分的准确率较低等缺陷,特别是当存在多歧义词时,难以有效地进行切分。

(2)基于统计概率的分词方法[5]

以统计概率方法进行分词主要是利用文本中词出现的概率来预测组合成词的可信度的一种方法。由于汉字成词有其特定的统计规律,即相邻的字出现的频率越高,构成词的可能性就越大,这类算法的优点是不依赖于词典,能够较好解决成词的歧义。这类方法主要有:隐马尔可夫模型[5]、最大熵模型[6]和条件随机域模型[6]等算法,但由于需要对整个文档成词的概率进行统计,因而效率较低。由于基于统计概率的分词方法的良好歧义解决能力,因此统计概率常与最大匹配方法相结合,实现对文档的有效分词[2]。

由于最大匹配算法的简单和高效,本文针对其对解决分词歧义性不足的缺陷,提出一种基于词语搭配关系的改进算法。由于中文(汉语)的习惯,词与词之间有着一种固定的搭配关系,即词语搭配,利用汉语的这种固定搭配,可以有效提升切分的准确性。

1 分词的歧义性与最大匹配方法

分词的歧义性主要表现在切分的结果存在多种可能。实际上,正确的切分只有一种形式,由于机器自动分词算法存在的缺陷,导致切分的结果无法理解,因此一个鲁棒的分词算法应该能够较好地消去这种歧义性。根据对分词歧义性的分析,一般有两种歧义性[2,7,8,9],即交集型歧义和组合型歧义。为了能够应用于提出的算法,我们对其定义如下:

(1)假定已切分的词构成一n维向量S,即S={C1,C2,…,Ci}。其中Ci为已切分的词,1≤i≤n,且Ci为由若干个字组成的m维向量,即Ci={xi1,xi2,…,xik},1≤ik≤m。假设词Ci和Ci+1为S中两个相邻元素,如果xik和xjk能够成词,则分词存在交集型歧义。比如:“他只会诊断一般的疾病”,分词的结果可能是“他/只/会诊/断/一般/的/疾病”或“他/只/会/诊断/一般/的/疾病”两种情况,其中“会诊断”三个字切分时就会出现交集型歧义。这种类型的歧义占绝大部分[8]。

(2)对于(1)中定义的m维向量中,如果相邻的Ci和Ci+1能够成词,则分词存在组合型歧义。

比如:“白天鹅在水上游来游去”,分词的结果可能是“白天鹅/在/水上/游来游去”或“白天/鹅/在/水上/游来游去”两种情况,其中“白天鹅”三个字切分时就会出现组合型歧义。对于组合型歧义,一般需要根据上下文来进行判断,仅仅从单句来切分,两种切分结果都是符合逻辑的。

最大匹配算法[2]是一种基于词典的分词方法,其过程是通过切分的词与词典进行匹配,主要有最大正向分词算法和最大逆向分词算法两种。正向算法的实现主要如下:

(1)从句子的开头取固定长度的词并与词典作匹配,如果匹配成功,则切分;否则从后面减少一个字并继续匹配。

(2)初次切分完成后,继续从未切分句子中取固定长度的词并重复(1)的操作,直至整个句子完成词语切分。

与正向算法不同的逆向算法,是从句尾取固定长度的词,当匹配不成功时是前面减少一个字并继续匹配。由于最大匹配算法是按照一种惯性的方法进行词的切分,即按顺序取固定数量的字作为词对照词典的方法,无法分辨词的歧义性,因此仅仅采用单一的最大匹配算法很难解决词切分的歧义性问题。

实际上,分词的结果既要符合中文的习惯,也要满足汉语语法的要求,否则就说不通或者不成句子。在汉语中,词与词之间有着一种固定的搭配关系,即词语搭配[10]。如上述的“诊断…疾病”、“会诊…病情”等,如果切分错误,就会形成不正确的搭配关系。另外从汉语语法的角度来说,动宾搭配也是一种重要且最为常见的词语搭配,句子切分的结果应该能够保持这样一种搭配关系,即动词(v)+名词(n)的结构。在动宾搭配的判断上,一些学者提出了一些方法,如文献[11]采用了一种统计模型用于汉语动宾搭配的自动识别;文献[12]通过提取制约规则,依据v+n中汉语名词、动词的语义在英语译文中的具体形式及上下文模板来判断v+n的结构关系。本文将提出一种基于词语搭配的句子切分算法,以达到快速且准确的分词效果。

2 歧义性检测与切分算法

歧义性检测主要用于查找产生歧义的词以及确定其发生歧义的位置。由于最大分词算法的特点,因此仅仅采用单一的最大匹配算法难以发现切分的歧义性。但因该算法的高效性,本文拟对其改进,并将其应用于歧义的检测。

最大匹配算法有正向和逆向匹配方法,分别从句头和句尾开始进行词的扫描并与词典匹配。由于切分后产生的歧义性主要发生在临近词之间,当字与其左右两边的字或词组合成词时,采用正向匹配算法和逆向匹配算法切分的结果可能不同。比如:“他的确切地址在这儿”,采用正向匹配算法切分的结果是“他/的确/切/地址/在/这儿”,而采用逆向匹配算法切分的结果则变成“他/的/确切/地址/在/这儿”。通过比较两种结果则可以确定切分歧义发生在“的确切”位置。如果一个句子采用正向和逆向匹配算法分词的结果一样,则有可能是正确切分,但也可能切分不正确。比如:“当原子结合成分子时”,两种算法切分的结果都是“当/原子/结合/成分/子时”,这种情况下两种分词算法的切分结果都是不正确的。出现这种情况一般都是在存在连续多个交集型歧义时出现,即文献[13]中提到的歧义的链长大于1的情况。如上述“结合成分子时”的歧义是“合”、“成”、“分”、“子”四个字组成链长为4的交集型歧义,其都可以与左右的字组合成词。

当出现链长大于1的情况,采用正向和逆向匹配算法有可能无法检测词的歧义性位置。这种情况下,为了检测词的歧义性,可以利用正向匹配切分的结果,对已切分的词按句子的顺序与其临近的字或词重新匹配,如果匹配成功,则在该位置存在歧义性。比如前述的“当原子结合成分子时”,正向匹配切分后得到“当/原子/结合/成分/子时”,依次匹配按下述的框中的词,“当/原子/结合/成分/子时”,其中“合成”和“分子”匹配成功,因此“结合成分子时”构成交集型歧义。

采用上述方法,可以实现交集型歧义的检测,但不能保证句子切分的正确性。为了达到正确的切分,我们拟在歧义检测的基础上利用词语搭配进行分词。由于在汉语中,词与词之间有着一种固定的搭配关系(包括重要且最为常见的动宾搭配),我们参考文献[14,15]建立了一个常用的词语搭配词典。在检测到词的歧义同时,进行词语的词性标注,再对歧义词按照顺序依次与词语搭配词典进行匹配,匹配成功则进行切分。如果所有的歧义词与词典匹配不成功,则结合歧义词的词性标注进行词语动宾匹配,即“动词+…+名词”。比如前面提到的句子“他只会诊断一般的疾病”,通过歧义性检测得到“会诊断”产生两种词的歧义,即“会诊/断”和“会/诊断”;再搜索后面与其组合的名词“疾病”,结合“会诊…疾病”和“诊断…疾病”的词语搭配关系与词语搭配词典匹配,匹配的结果是“诊断…疾病”,因此正确的切分是“他/只/会/诊断/一般/的/疾病”。

综合上述方法,我们提出了一种词语搭配关系的分词歧义性消除算法,其具体如下:

(1)先对待切分的句子分别用最大正向匹配和逆向最大匹配算法进行预切分,并对其切分的结果进行比较,再根据比较的结果确定分词的歧义性。

(2)根据词典对切分的词进行词性标注。

(3)对所有歧义的词与词语搭配词典进行匹配,匹配成功则在该位置切分;否则结合歧义词的词性标注进行词语动宾判断,根据判断的结果进行切分。

具体实现的流程见图1所示。

3 实验结果与分析

实验采用由东北大学中文信息处理实验室提供的词性词典,其中用户词典修改为词语搭配词典。该词典由参考文献[14,15]建立,其中包含了绝大多数常用的词语搭配。本文实验主要包括分词歧义性(包括不同链长的交集型歧义和组合型歧义)检测和词语搭配检测实验。表中切分正确率=正确切分数/所有标准切分数。

3.1 分词歧义性检测实验

为了说明算法对分词歧义性的检测效果,本文分别对链长为1、2、3、4等四种交集型歧义进行了测试,同时也对比较难以检测的组合型歧义进行了实验,实验的结果见表1所示。从表1可以看出,提出的算法对交集型歧义有非常好的检测效果,对交集型歧义检测效果都在99%以上。尤其是对链长为1和3,歧义检测效果更好些。对链长为2和4的歧义性检测效果要低于链长为1和3。对于链长为1和3的歧义检测误差,通过分析发现主要是出现了词典中不能匹配的一些新词;而链长为2和4的歧义性检测误差原因是除了词典中不能匹配的一些新词外,还存在当匹配不成功时主要靠动宾结构(动词v+名词n)来判断。由于词语搭配词典中录入的词语搭配数量的有限性,依赖动宾结构可能会导致错误的搭配关系,算法在这个方面还有待改进,比如搭配词典扩展、增加语法识别等。另外,提出的算法在组合型歧义检测方面其正确率比较低,这主要是组合型歧义的识别还必须依靠上下文关系才能更有效地识别,这可以通过增加词语统计方法来改进。

3.2 词语搭配检测对比实验

为了验证词语搭配的切分效果,我们随机从网上摘录3篇文档进行测试,实验的结果如表2所示。

表2中词语搭配切分包括动宾结构切分和除动宾搭配以外的其他词语搭配切分。动宾结构切分正确率=动宾结构正确切分数/动宾结构标准切分数,其他词语搭配切分正确率类同动宾结构。所有不包含词语搭配切分正确率是指本文的算法不包含词语搭配时切分的正确率。从表中可以看到,采用词语搭配后其切分的正确率增加了大约9%左右,词语搭配的应用起到比较好的效果。但仍有1%左右的误切分,主要原因是一个完整的句子中,不仅包括词语搭配关系,还可能包含其他复杂的语法关系,因此进一步的语法分析有助于获得满意的效果,这也是本文算法下一步改进的方向。表中第3篇文档动宾结构的切分正确率明显低于第1和第2篇文档,主要原因是该文档的新词较多,检测效果要差一些。

4 结语

上一篇:特许经营权合同下一篇:中心归一化