分词方法(精选12篇)
分词方法 篇1
0 引言
互联网的迅猛发展为人们构建起一个快捷、便利的虚拟世界。但随之而来的网络安全问题也日趋严峻, 网络侮辱、诽谤便是其中具有代表性的。识别各种敏感词汇 (比如带有污辱性的词汇、敏感政治词汇等) , 是各大搜索引擎面临的一个棘手问题。它们往往要对所抓取的页面信息进行分析、处理, 把其中有侮辱性的、恶意的网页信息过滤掉, 给用户一个较为安全的使用环境。
这些功能强大的搜索工具也是伴随着互联网的飞速发展而出现的, Nutch便是其中之一。它以抓取、索引、检索一体化, 扩展性好和源码开放等特点, 吸引了众多人去研究、完善其功能, 从而产生了本文所使用的Nutch-0.9版本的搜索引擎。中文分词是搜索引擎的一个关键技术, 分词的好坏直接影响搜索的准确度和效率。Nutch对英文的切分比较完善, 而中文分词处理则是它的弱项。现在有很多往Nutch中添加中文分词的方法, 本文所要介绍的是目前中文分词效果最好、使用最广的方法:ICTCLAS及其在Nutch-0.9中的具体实现。
1 Nutch及中文分词介绍
1.1 Nutch介绍
Nutch是基于Lucene的, Lucene为Nutch提供了文本索引和搜索的应用程序接口 (API) , 但Nutch比Lucene多了抓取页面的功能。从架构上, Nutch可分为抓取和搜索两部分, 索引是这两部分的中介。抓取程序抓取页面并把抓取回来的数据做成反向索引, 搜索程序在检索时通过搜索反向索引匹配用户输入的关键字, 得到用户需要的信息。
1.2 中文分词介绍
中文分词影响着搜索结果的相关度排序及搜索的效率和准确度, 因此好的搜索引擎必须处理好中文分词。中科院的ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) 采用了层叠隐马尔可夫模型 (Cascaded Hidden Markov Model, CHMM) , 将汉语词法分析的所有环节都统一到了一个完整的理论框架中, 获得很好的总体效果, 并在分词精度与分析速度这两个相互制约的因素上取得了重大突破, 达到高速度与高精度的平衡, 成为目前最好的汉语词法分析器。
ICTCLAS源代码全部是用C/C++编写的, 不能直接引入到Nutch中, 为使用J a v a编写的分词方法, 故在此使用ICTCLAS4J。ICTCLAS4J中文分词系统是在ICTCLAS的基础上完成的一个java开源分词项目, 它简化了原分词程序的复杂度, 为中文分词爱好者提供了很好的学习机会。
2 ICTCLAS4J加入Nutch的具体实现
2.1 Nutch分词架构
Nutch中的org.apache.nutch.anlysis包中含有分词功能。Nutch分词的最底层使用的是Lucene的Analyzer抽象类。Nutch Analyzer继承了Analyzer类, 该抽象类中定义了一个公有的抽象方法token Stream (String field Name, Reader reader) 返回的类型是Token Stream。该方法是用于分析文本, 其后的具体类在这个方法中实现了从文本中提取索引词组的策略、算法。而返回的Token Stream类是即可从文本或者从查询词组中枚举token序列的抽象类。
Nutch Analyzer类是Nutch中扩展分析文本的扩展点, 所有用于解析文本的插件都得实现这个扩展点。对于Analyzer一个典型的扩展就是首先建立一个Tokenizer, 它是用于将Reader中读入的Stream分解成最原始的词组 (Token) , 在Tokenzier分解Stream之后, 一个或多个Token Filter会用于过滤这些词组中无意义的词组。
Nutch Document Analyzer类继承了Nutch Analyzer, 其中有三个静态私有内部类Content Analyzer、Anchor Filter、Anchor Analyzer它们分别继承了Analyzer、Token Filter、Analyzer。在Content Analyzer中调用了Common Grams类, 该类构建了一个n-grams的分词方案, 并且实现了对n-grams方案词组查询的优化措施。
2.2 Nutch中ICTCLAS4J的具体实现
下面是在Nutch中加入ICTCLAS4J中文分词的具体过程。
(1) 导入ICTCLAS4J的5个包
com.gftech.ictclas4j.bean
com.gftech.ictclas4j.run
com.gftech.ictclas4j.segment
com.gftech.ictclas4j.utility
com.gftech.ictclas4j.utility.test
并将ICTCLAS4J自带的字典data加到Nutch的根目录下。
(2) 修改Nutch Document Analyzer.java
在前面提到的在C o n t e n t A n a l y z e r内部类中加入Chinese Tokenizer类, 其代码如下:
public class Chinese Tokenizer extends org.apache.lucene analysis.Whitespace Tokenizer{
public Tju Chinese Tokenizer (Reader input) {
super (input) ;
}
}
在Content Analyzer内引入ICTCLAS4J的中文分词方法来代替上面提到的n-grams的分词方案, 其代码如下:
public Token Stream token Stream (String field, Reader reader) {
Segment seg X=new Segment (field, Seg Main.dict, Seg Main.bi Dict) ;
String result Seg=seg X.get Result () ;
Token Stream result=new Tju Chinese Tokenizer (new String Reader (result Seg) ) ;
return result;
}
(3) 修改Nutch Analysis.java
在Query加入封装中文分词的代码:
final public Query parse (Configuration conf) throws Parse Exception, IOException{
Query query=new Query (conf) ;
String Reader input;
input=new java.io.String Reader (query String) ;
Nutch Document Analyzer na=new Nutch Document Analyzer (conf) ;
org.apache.lucene.analysis.Token Stream tokenizer=na.token Stream (query String,
input) ;
for (org.apache.lucene.analysis.Token t=tokenizer.next () ;t!=null;t=tokenizer.next () ) {
String[]array={t.term Text () };
query.add Required Phrase (array) ;
}
if (true)
return query;
throw new Error ("Missing return statement in function") ;
}
按步骤修改上面内容后, 重新编译、抓取后的索引, 就是按ICTCLAS4J建立的。
3 结果实现
应用上面修改后的Nutch, 抓取http://www.njtu.edu.cn。设置相同的参数, 如:crawl-threads 3-depth 2-top N 10。分别用Nutch-0.9、Nutch-0.9中文二分法及在Nutch-0.9加入ICTCLAS4J分词后进行抓取和检索, 结果如下。
下面所示的3个图是用luke查看建立的索引, 可以看出:图1的分词效果最好。它可以显示出固定意义的多字词组。如:北京交通大学、海淀区等。这正是设计之初所要实现的, 因为ICTCLAS4J进行的是词典分词, 因而分词重组不只限于双字词组, 这就提高了分词的效率。
对于Nutch-0.9 (如图2) , 它仅是单字的切分, 没有词的重新组合, 这样的结果冗余多, 效率低, 不能满足实际的需要。
对于Nutch-0.9二分法 (如图3) 则是在单字切分后将相邻两字组合为一双字词组, 进而分隔。虽然效率有所提升, 但分词结果仅限于双字, 在实际中的应用也很有局限性。
因此, 对比这三种方法, 可以看出:ICTCLAS4J在中文分词上的效果要远优于二分法和Nutch自身的分词方法, 可以广泛地应用于实际的搜索引擎中。
4 结束语
本文介绍了在Nutch-0.9中加入ICTCLAS4J中文分词的原因及其实现方法。并通过对大数据量的网页进行高深度抓取和索引的对比实验, 说明了ICTCLAS4J在Nutch-0.9搜索引擎中的重要作用。对分词结果的分析, 证实了它的实用性和稳定性, 肯定了ICTCLAS在中文分词方面的优越性。
参考文献
[1]Nutch官方网站.http://lucene.apache.org/nutch.2008.
[2]ICTCLAS的主页.http://www.ictclas.org.2008.
[3]ICTCLA4J开源项目.http://code.google.com/p/ictclas4j.2008.
[4]Otis Gospodnetic, Erik Hatcher著.谭鸿, 黎俊鸿等译.Lucene in action中文版.北京:电子工业出版社.2007.
[5]刘群, 张华平, 俞鸿魁, 程学旗.基于层叠隐马模型的汉语词法分析研究.计算机研究与发展.2004.8.
[6]屈培, 葛蓁.Nutch-0.8.1中文二分法中文分词的实现.计算机时代.2007.7.
[7]luke—ucene Index Toolbox.http://www.getopt.org/luke.2008.
分词方法 篇2
付出了很大的生命代价。
And again, we must think of the cost.
再说,我们必须考虑成本。
Just out of interest, how much did it cost?
我只是好奇问问,这个花了你多少钱?
How much will it cost, more or less?
这个大概得花多少钱?
The total cost to you is 3 000.
分词方法 篇3
曼彻斯特都市大学的社会心理学家戴维·霍姆斯说:“良好的守时习惯正在成为被遗忘的社交礼节,新的一代都认为迟到很正常,不是应该避免的失礼行为。”
他还说:“手机打破了很多社会禁忌,人们在交谈中接听手机,或者在如厕时大聊特聊。这又一次证明现代科技对我们的行为产生了影响。”
London was found to be the least punctual city, with 41 per cent of respondents admitting that they were hardly ever on time, compared with the national average of 28 per cent. Cardiff was the most punctual city where 19.8 per cent stated that they were typically late.
David Holmes, a social psychologist at Manchester Metropolitan University, said: “Good timekeeping is becoming a forgotten social etiquette, with a new generation considering lateness the norm rather than a faux pas that should be avoided.”
“Mobile phones have broken many social taboos, with people answering calls in the middle of a conversation or chatting away on the toilet. This again demonstrates the effect modern technology has on our behavior.”
我们看到,在上面短文里有这样3个分词短语:
(1)with 41 per cent of respondents admitting that they were hardly ever on time...
(2)with a new generation considering lateness the norm rather than a faux pas that should be avoided.
(3)with people answering calls in the middle of a conversation or chatting away on the toilet.
它们有这样的共同结构:介词with +名词短语+分词。这是英文里非常重要的一个结构,就是常说的“独立主格结构”的一种,因为是由分词构成的,所以也叫“独立分词结构”。这种结构主要是用作状语,它可以表达的意义主要有两类:一是表示伴随状况、补充说明、具体举例等;二是表示原因。下面具体说明。
表示补充说明等
我们先来看上述短文中的例句:
(4)London was found to be the least punctual city, with 41 per cent of respondents admitting that they were hardly ever on time, compared with the national average of 28 per cent.
妙语点睛:
这句话的主句部分说:“London was found to be the least punctual city(伦敦是最不守时的城市)”,接下来就采用了独立分词结构“with 41 percent of respondents admitting...”来为这一结论提供数据支持,即分词短语起着补充主句的作用。
精品译文:
伦敦是最不守时的城市,有41%的受访者承认他们历来很少准时,而在全英国,这样的人占28%。
我们再来看下面的例句:
(5)When asked, “Do you consider yourself an optimistic or pessimistic person?”, 53 per cent of the students replied, “optimistic,” with 21 per cent choosing “pessimistic,” and 26 per cent “unsure”.
妙语点睛:
这句话的主句部分是说明“乐观”的人数,通过独立分词结构“with 21 per cent choosing ‘pessimistic,’ and 26 per cent‘unsure.’”来补充说明剩下的人的选择。
精品译文:
当问道“你觉得自己是乐观的人还是悲观的人”时,53%的学生回答了“乐观”,而有21%的人选择了“悲观”,剩下26%的人则回答“不确定”。
(6)Mobile phones have broken many social taboos, with people answering calls in the middle of a conversation or chatting away on the toilet.
妙语点睛:
这句话的主句部分得出“Mobile phones have broken many social taboos(手机打破了很多社会禁忌)”这一结论,然后采用独立分词结构“with people answering calls in the middle of a conversation or chatting away on the toilet”来为这一结论提供具体的例证,比如人们在和别人谈话过程中接听手机,或在上厕所时也接手机,而这些行为以前都被认为是不文明、不礼貌的。
精品译文:
手机打破了很多社会禁忌,比如人们在交谈中接听手机,或者在如厕时大聊特聊。
我们再来看一个这种“结论+例证”关系的例子:
(7)Good news was sometimes released prematurely, with the British recapture of the port ____________ half a day before the defenders actually surrendered. (2001年考研真题)
A.to announce B.announced
C.announcing D.was announced
正确答案:B
妙语点睛:
本题考查“with +名词短语+分词”这一独立分词结构。这里逻辑主语是the British recapture of the port,与动词announce构成被动关系,故用过去分词announced。这里主句部分说明一个情况“Good news was sometimes released prematurely(好消息有时会过早地被公布)”,然后采用独立分词结构“with the British recapture of the port announced half a day before the defenders actually surrendered”来具体举例。
精品译文:
好消息有时会过早地被公布,比如有报道说英国已夺回了这个港口,而实际上半天之后敌军才真正投降。
细心的读者会发现,从位置关系来看,这种表示补充说明或具体举例的独立分词结构通常是放在句末,不放在句首。
表示原因
这种分词结构还可以表示原因,比如上面短文的例句:
(8)Good timekeeping is becoming a forgotten social etiquette, with a new generation considering lateness the norm rather than a faux pas that should be avoided.
妙语点睛:
这句话主句部分“Good timekeeping is becoming a forgotten social etiquette(良好的守时习惯正在成为被遗忘的社交礼节)”是得出一个结论,然后采用独立分词结构“with a new generation considering lateness the norm rather than a faux pas that should be avoided”来表示得出此结论的原因,即新的一代人都认为迟到很正常,并不是失礼行为而应该避免。
精品译文:
良好的守时习惯正在成为被遗忘的社交礼节,因为新的一代都认为迟到很正常,不是应该避免的失礼行为。
我们再看一道四级考题:
(9)_____ the temperature falling so rapidly, we couldn’t go on with the experiment. (2000年CET-4真题)
A.WithB.ForC.AsD.Since
正确答案:A
妙语点睛:
本题考查“with +名词短语+分词”这一独立分词结构。这里不能填入连词,所以B,C,D均不正确。这里独立分词结构“With the temperature falling so rapidly”显然是表示原因,来说明后面主句表示的“我们不能继续进行实验了”。
精品译文:
由于温度下降过快,我们不能继续进行实验了。
最后,英语里还有一种“独立分词结构”是不带有介词with的,直接是“名词+分词”结构。关于其用法我们将在下期详细讨论。
藏文分词歧义类型与消歧方法 篇4
引言
科学技术的迅速发展和因特网的快速普及, 加剧了人们信息获取的难度。当人们具体访问一个藏文网站去查询搜索信息时, 如果藏文网页凌乱的堆积, 杂乱无章, 没有具体的检索方法去分门别类供人们查找, 那么人们很难找到自己所需要的信息。因此如何要科学有效的管理和分类这些资料是不可回避而又意义深重的一个问题。
资料管理较为传统的方法就是对它们进行系统地分类。用人工对文本材料进行分类的过程一般就是通过读取所有文章后再对它们进行归类保存, 该过程具有周期长、费用高、效率低的特点。因此, 如何运用计算机进行文本自动分类, 成了许多人的研究方向, 也是一种趋势所在。
越来越多人开始关注藏文信息技术, 藏文分词是藏文信息处理的基础一环, 例如:机器翻译信息检索、文本分类、语音识别、藏文文本校对等, 都需要对藏文文本进行分词处理.因此, 建立高效快速的分词系统势在必行。
虽然在研究上出现不少令人瞩目的成果, 但是, 藏文歧义问题的解决能力, 严重影响了藏文分词系统的精度, 制约了藏文分词的发展, 未能达到期望的效果。
藏文分词的研究
在英文中, 单词之间是以空格作为自然分界符的, 而汉文和藏文是词与词之间没有明显的分隔符 (如空格) 。藏文以字 (音节字) 为单位, 需要通过连字成句才能描述一个完整的意思。而机器对由词组成的藏文句子必须通过藏文分词才得以理解。基于web的藏文文本自动分类需要特征选择, 就需要藏文的分词。实践中发现, 藏文分词比之汉文分词要复杂和困难的多。通过研究现有的汉英文分词算法, 提出符合藏文特征的最佳分词方案:
1.研究特征项选择及权值计算算法
如果藏文词特征向量的维数过于巨大, 将导致计算量太大, 在这样的情况下, 要完成藏文文本分类几乎是不可能的。因此, 要尽量减少要处理的单词数, 降低向量空间维数。一般使用某种特征评估函数计算各个特征的评分值, 然后按评分值对这些特征进行高低排序, 选取最高分的一些作为文本特征子集, 以降低特征空间的维数, 从而简化计算, 提高分类工作的速度和效率。
2.经降低空间维数后得到的各个特征项
在藏文文本出现的位置不同, 对藏文文本的重要程度和区分度是不同的, 为了更准确地描述藏文文本中的重要性, 需要计算特征在向量中的权重。一个特征项在某藏文文本中出现的次数越多, 它和该文本的主题就越相关;而在不同的藏文文本中出现的次数越多, 则它区分不同文本的能力越弱。
藏文自动分词方法
藏文自动分词方法借大致可以分为如下几类:基于词典的方法、基于规则的方法和基于统计的方法。其中基于词典的方法又分为若干小类。正向最大匹配算法和逆向最大匹配算法以及双向扫描法。其中正向扫描最大匹配法和逆向扫描最大匹配法同时使用, 可以发现一部分交集型切分歧义, 但仍有一部分交集型歧义无法发现;至于组合型歧义, 用最大匹配法是肯定无法发现的, 当然就跟谈不上解决组合型歧义的问题了。双向扫描法主要用于歧义检测。
藏文分词的歧义问题
一般我们评定一种分词系统的标准大致有两条:速度和精度, 精度尤为重要, 而要提高精度, 首先要有好的分词词典, 更重要的就是如何处理好切分中的歧义问题。而歧义问题是指一个句子, 可能有两种或者更多的切分方法。在藏文分词中, 切分字段有点类似几何中的集合问题。比如字段ABC中AB∈W, 并且BC∈W, 则ABC称为交集型歧义字段, 其中A, B, C为为字串, w为词表。如果用正反向进行切分མཐའ་ར་རུ་དར་ཆ་ཡད།ོ”。会出现两种切分”མཐའ་ར/་རུ་/དར་ཆ་/ཡོད།”和མཐའ་ར་/རུ་དར/་ཆ/་ཡོད།”。显然, 正想划分是正确的。
分词歧义问题解决起来则要复杂得多.两种歧义类型都可能依靠一些策略来对最大匹配法分出的结果进行改进.比如可以事先收集一些容易造成组合型歧义的分词单位建成一个歧义词表L, 用最大匹配法切分出结果后, 看分出的词是否属于这个L, 如果在L中, 再调用一些规则来帮助判定该如何处理。
交集型歧义切分的步骤
第一步:对比扫描。比如:。正向匹配是, 逆向匹配是
第二步:对于交集型歧义字母, 查询词典, 获取该词串各个词的词频。
第三步:采用了最大概率分词算法.频率高的优先匹配.
总的来说, 交集型歧义切分的流程图框如下所示:
总结
藏文分词系统还处于起步阶段, 各种歧义问题都还困扰着信息系统处理的研究者, 促使他们去改善和提高。文中交集型歧义的解决方法中, 参考了不少研究者的思想和实例, 藏文分词系统这个庞大的工程还在研究进行中, 文中的观点与看法也会随着研究的不断深入而做出调整, 这是一种基于web和信息上高速发展的时代的产物, 是一个值得我们不断去深入研究和做出理论成果的新生区域, 分词歧义问题必定会得到一个合理有效的解决的。
现在分词与过去分词作定语比较 篇5
由于现在分词和过去分词具有形容词或副词的特点,在句中可作表语、状语、宾语补足语和定语。作定语时,既可作前置定语,又可作后置定语。现将其用法归纳如下,供大家参考。
一、前置定语:单独一个分词作定语时,一般情况下被放在被修饰的名词前面,例如:
1.现在分词:几乎所有的现在分词都可以作前置定语,现在分词表示它所修饰名词的动作,二者有逻辑上的主谓关系,并且表示所修饰词的特点、性质等。(可以转换成定语从)。例如:Barking dogs seldom bit.=Dogs which barks seldom bit.爱叫的狗很少咬人。
(注意)作前置定语的现在分词前面可有状语修饰,有两种情况:一是已经转化为形容词的现在分词,状语多用very, rather等加强词,如:This is a rather boring film.这是部令人厌烦的影片。二是一般的现在分词不能用加强词作状语,但可用其他副词,例如:不能说:rather moving vehicles但可以说:fast moving vehicles 飞快行驶的车辆
2.过去分词:所有的及物动词的过去分词都可以做前置定语,不及物动词过去分词做前置定语时,一般过去分词前有副词修饰,但也有小数几个可以单独作前置定语。过去分词与已经完全变成了形容词的过去分词做前置定语的区别是:前者表示中心词承受动作的结果或状态;而后者表示中心词的特点。例如:
a newly arrived student新到的学生(arrived是不及物动词,但前有newly修饰)an escaped convict逃犯(escaped不及物)
a retired worker退休工人(retired不及物)
a locked door上锁的门(locked表示中心词door锁后的状态)
an experienced doctor有经验的医生(experienced表示中心词doctor的特点)
二、后置定语:
1)当被修饰的词是由some/any/no +thing/body/one所构成的不定代词或指示代词those等时,虽然是一个单一的分词作形容词用,但也要放在其后。(可变为定语从句)例如:
There has been nothing changed since I left Harbin two years ago.自从两年前离开,哈尔滨一直没有什么变化。
2)当分词短语作定语时,一定要放其之后。例如:
The bottle containing(=which contained)the poison was sent to the laboratory.盛毒品的瓶子被送到实验室。
They have intimate knowledge of the subject being investigated(=which is being investigated).他们对所研究的题目非常熟悉。
注意:现在分词的完成式不能做后置定语。但是,如果中心词是泛指的,偶尔可用现在分词的完成式做后置定语。例如:
不能说:
The man having written that book is our teacher.应该说:
The man who has written that book is our teacher.写那本书的人是我们的老师。
分词方法 篇6
1.具有情绪色彩的动词-ing分词或-ed分词转化来的形容词,例如:
a.Such a boy is interesting.(这个男孩真令人感兴趣)
主语boy并不感到兴趣,而是说话人感到兴趣.
The boy is interested in sports.(这个男孩对运动感兴趣)
主语The boy感到兴趣了。
b. The football match is exciting.(这场足球赛真令人激动)
主语The football match 本身不可能激动,激动的是观众;
He was too excited to sleep.(他激动得睡不着)
主语He感到激动。
c. The news is shocking.(这消息令人震惊)
主語The news不会震惊,震惊的是知道消息的人。
I was shocked at the news.(我对这消息感到震惊),主语I感到震惊。
因此,.interesting, exciting, shocking这类形容词称为“引起某种情绪”的形容词,其含义为“令人…的”;而把interested, excited, shocked这类形容词称为“感到某种情绪”,含义为“感到…的”。
“引起某种情绪”的-ing分词做的形容词时,与之连用的名词多指物,如:shocking rumours,(令人震惊的谣言) amusing joking(令人发笑的玩笑) ,tiring journey(令人疲惫的旅行);“感到某种情绪”的-ed分词做形容词时,与之连用的名词多指人(或指有情绪的动物),而不是物。可以说a frightened bird(感到害怕的鸟), the astonished stranger(感到吃惊的陌生人),而不能说a frightened story(应是a frightening story), the astonished news (应是the astonishing news)。
2. 非情绪色彩的动词-ing分词或-ed分词转化来的形容词,例如:
a. They ran from a falling tree.( 他们从正在倒下的树旁跑过。)
falling表示正在倒下的
A fallen tree barred our way.(一颗倒下的树挡住了我们的路。)
fallen表示已经倒下的
b. Bubbles are rising from the bottom of the boiling water. (气泡从正在沸腾的水底升上来。)
boiling表示正在沸腾的
Give me some boiled water. (给我一些开水吧)
boiled 表示已沸腾过的
c. The retiring teacher walked into the classroom.(那个快要退休的老师走进教室)
retiring 表示即将退休…的
My parents are retired doctors. (我的父母亲是已退休的医生。)
retired表示已经退休的
因此,非情绪类动词的现在分词作形容词时,表示“正在…的”或“即将…的”;其过去分词则表示“已经…的”。
综上所述,我们在学习英语过程中,只要仔细甄别,就不难分清动词的现在分词及过去分词做形容词的不同含义了。
参考文献:
[1] 章振邦 新编英语语法教程 1999
[2] 张道真 温志达 英语语法大全 2004
现在分词和过去分词的用法 篇7
一、表语
1. We are very surprised at the news. ( 这个消息让我们感到很震惊,此句中主语we是动作的承受者。)
2. What you said is really inspiring. ( 你所说的真的让我们很惊讶,主语从句what you said是动作的执行者。)
二、定语
1. We only sell used book in our bookstore. ( 我们的书店只卖用过的书, 表示此书已经用过了,表示完成且有被动的意义。)
2. It was really inspiring news that Alice should win. ( 那个让人惊讶的消息就是安莉斯能够赢。此句中给人们带来惊讶的是消息,所以具有主动的意义。)
三、状语
1. Asked about his family,he made no answer. ( 当被问到他的家庭情况时,他没有回答。Ask的逻辑主语是he,两者表示被动关系,此句的完整结构是when he was asked)
2. Hearing the exciting news,the boy jumped for joy. ( 当听到这个让人激动的消息的时候,这个男孩高兴地跳了起来。此句中hearing的逻辑主语是the boy两者表示主动关系,此句写完整是when the boy was hearing the exciting news)
四、宾补
1. If you want to make yourself respected,you are about all to respect others. ( 如果你想让自己被尊重,你必须先尊重别人。表示宾语yourself和宾补respected之间是被动意义。)
2. Tom could hear them arguing outside. ( 汤母能听到他们正在外面吵架。宾语them和宾补arguing之间是主动关系且表示宾语的动作正在进行。) 从以上的例子可以看出想要正确地选择非谓语动词需要一定的步骤:
( 1) 根据句子结构确定分词的语法成分
( 2) 找准逻辑主语
( 3) 判断主、被动关系
( 4) 选定现在或过去分词
1. There was a terrible noise____the sudden burst of light.
A. followed B. following C. to be followed D. being followed
简析: 根据语法分析可知,待选部分是修饰noise的定语短语; 据常识 “雷声随闪电之后到来”,自然A noise follows the sudden burst of light,noise与follow是主动关系。因此,该题应选B。
2. The Olympic Games,____ in 776 B. C.,didn 't include women until 1912.
A. first playing B. to be first played C. first played D. to be playing
简析: 根据语法分析可知,待选部分是一个作定语、修饰The Olympic Games的后置分词短语; The Olympic Games是动词play的承受者,且已完成( in 776 B. C. ) 。因此,该题选C。
3. What's the language____in Germany?
A. speaking B. spoken C. be spoken D. to speak
简析: 该题应选B。测试过去分词作后置定语表达被动,等于定语从句which is spoken。
4. Most of the people____to the party were famous scientists.
A. invited B. to invite C. being invited D. inviting
简析: 该题应选A。测试过去分词作后置定语表达被动,等于定语从句who were invited。
5. The first textbooks____for teaching English as a foreign language came out in the 16th century.
A. having written B. to be written C. being written D. written
简析: 该题应选D。测试过去分词作后置定语表达被动,等于定语从句which were written。
分词方法 篇8
1 分词技术的现状
分词技术目前已经非常成熟。常见的有三种方法:
1)字符串匹配的分词方法;
2)词义分词法;
3)统计分词法。
1.1 字符串匹配的分词方法
这是一种常用的分词法,它主要利用已有词库中的词匹配文章句子中的词,来切分句子。常见的方法又有四种方法:
1)正向最大匹配法;
2)逆向最大匹配法;
3)最短路径分词法;
4)双向最大匹配法。
1.2 词义分词方法
一种机器语音判断的分词方法。在进行句法、语义分析时,利用句法信息和语义信息来处理歧义现象从而得到分词,这种分词方法,现在还不成熟,处在实验阶段。
引入词性协助分析词性在语法位置上的可能性,对词进行合理切分,目前国内产品出现的比较多。如中国科学院计算所的ICTCLAS产品。
1.3 统计分词法
根据词组的统计,就会发现两个相邻字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符来分词。
2 分词技术的实现
本文讨论的是属于字符串匹配的分词方法。而且主要着重讨论正向最大匹配法和逆向最大匹配法。双向最大匹配法是前两种方法的结合,用于判断切分产生歧义时,是否需要人工干预来决定选择哪一种结果,或者,通过最佳路径分词法来自动选择一种。因此,设计好正向/逆向分词技术是分词技术实现的基础,也是本文主旨。本文重点是要实现一种高效的分词技术。由于分词技术是一种纯粹底层的引擎,因此提出的高效目标,既要保证分词的效率和效果,还要兼顾系统资源开销,将节省的资源尽可能多地用于其他方面,例如响应更多的客户端的服务请求。笔者利用内存和外存相结合的方法建立了一个驻留内存的字典索引和一对存放于外存的正向分词和逆向分词词库来实现高效分词技术。
2.1 分词库的构建
在外存建立词库,要对词库中词语的开头汉字、词语的汉字字数和结尾汉字这三项进行标注。将分词数据结构定义为定长记录:{分词char(30),首字char(2),首字编码char(4),尾字char(2),尾字编码char(4),分词汉字数int,位置号int}。
词库设计需要考虑在词库检索效率与词长选择之间求得平衡。如果词长过长,检索效率必然下降;如果词长过短,就会丢失正确的长词,使分词正确性得不到满足。考虑到化学、药物、微生物等领域的技术术语可能会有大量长词出现,因此,牺牲部分分词的访问效率,换来长词的满足也是不得已的,通常认为一个长词最长不超过15个汉字。
实验中我们建立了大约120万条分词的词典库,用以模拟专利文献词典的真实数据规模。
2.1.1 正向分词词库的构建
将词库文件按照{首字编码(正序)+词语的汉字字数(逆序)+尾字编码(正序)+分词(正序)}来排序,并得到一个正向分词库文件。每个记录行号填入“位置号”字段。样例参见表1。
2.1.2 逆向分词词库的构建
将词库文件按照{尾字编码(正序)+词语的汉字字数(逆序)+首字编码(正序)+分词(正序)}来排序,并得到逆向分词库文件。每个记录行号填入“位置号”字段。样例参见表2
2.2常驻内存字典索引表的构建
在内存建立一个字典索引表。由于分词库,对于正向分词是按照单词首字集中有序存放的,对于逆向分词也是按照单词尾字集中有序存放的。因此,字典索引,对于正向分词库来说,需要知道单词首字的起、止位置;同样,对于逆向分词库来说,需要知道单词尾字的起、止位置。
接下来选择什么样的字典作为索引就是一个关键。
通过考查GBK编码特征,GBK编码是双字节定长汉字编码。其编码与汉字区位相对应。笔者在GBK编码中筛选出21002个可见汉字建立字典索引码表。这是目前国内汉字编码比较多的,且与《汉语大字典》相一致。《汉语大字典》1993年版和1998 年版,收录了21000 个字头。字典索引码表中的字,对于专利文献领域的应用,我们认为也已经足够。如果要应用于其他方面,例如涉及古籍出版物的文献,这一方案还是不足以满足所需。例如《康熙字典》中的字头收录了多达47043 个字头。其中大多是异形字和非常用字。
21002个可见汉字是如何从GBK编码表筛选的?
首先来看GBK编码分布图(参见图1)。
根据GBK编码分布图,我们将编码划分为两类编码:
1)由汉字一区、汉字二区、扩展三区和扩展四区组成的字模汉字编码表,去掉其中不可见汉字字模编码,共收录21002个汉字。作为汉字编码。
2)符号区字模编码和不可见汉字字模编码,作为非汉字编码。
另外除GBK编码外,还有一类西文ASCII编码。作为西文编码。
以可见汉字编码作为字典构建正向和逆向分词索引,其最大记录数约21002个。将数据结构定义为定长记录:{GBK编码char(4),汉字char(2),首字串字数int,尾字串字数int,首字开始int,首字结尾int,尾字开始int,尾字结尾int}。其记录格式参见表3。
从表1 至表3 可以看出,字典索引中的首字开始和首字结尾,分别对应于正向分词库中的开始位置号和结尾位置号。字典的字对应分词首字相同的分词主要集中在正向分词库的某个局部范围。例如:以“一”开始的分词,集中在正向分词库的747042~752041的起止位置,有连续4999个分词,其最长分词有12个汉字。同样,字典索引中的尾字开始和尾字结尾,分别对应于逆向分词库中的开始位置号和结尾位置号。字典的字对应分词尾字相同的分词主要集中在逆向分词库的某个局部范围。 例如:以“ 一”结尾的分词,集中在逆向分词库的760739~761220 的起止位置,有481 个,其最长分词有10 个汉字。
2.3 分词库查找的效率
查找一个分词的过程首先确定分词的字头或者字尾,查找字典,再根据字典索引查找正向词库或逆向词库。接下来看查找的时间效率和空间效率。
2.3.1时间效率
字典查找,“一”索引,其时间效率为最多(log221002≈)14.4次比较。
正向分词查找,“一”开始的分词,其时间效率最多为(log24999≈)12.3次比较。
逆向分词查找,“一”结尾的分词,其时间效率最多为(log2481≈)8.9次比较。
由于字典索引与分词库的设计安排,对于一个百万级的分词库来说,使用了字典索引给出的局部范围,使得查找的范围大大缩小。从而加快了折半查找的效率。如果采用完全折半查找词库,其时间效率最多为(log21200000≈)20.2次比较。局部折半查找最差也可以节省0.4~0.6倍的时间。
另外,采用内存与外存相结合,将字典索引21002 个记录驻留在常驻内存中,使字典索引的运算直接在内存中完成,其运算时间几乎可以忽略不计,只需考虑局部折半查找外存文件定长记录所需的时间开销即可。因此,内存字典索引折半查找算法与外存分词库局部折半查找算法相结合,是一种非常快的分词查找方案。
2.3.2 空间效率
字典索引记录长度30 字节,共21000 个记录,实际空间615.3Kbyte。
分词词典记录长度50 字节,目前有1200000 个记录,实际空间57.22Mbyte。
字典索引常驻内存,占用小于1M的空间,是可以接受。而分词词典几十兆空间,不宜放在内存中实现,因而保存在外存文件中。内存只需3个数据结构共150字节即可,因此,空间效率也是很小的。
2.4分词切分算法
首先对正文中哪些可切分,哪些不可切分,作一个规定:
1)首先,对于停用字词要做特殊预处理,要么过滤掉,要么视同分隔符作用,进行特殊预切分,停用字词前后要添加空格分隔符。
2)对于ascii编码的西文字母数字及其特殊符号,视同分隔符作用,不进行切分。原样输出。
3)对于GBK编码的符号区和不属于字典索引表中识别汉字的编码,视同分隔符作用,不进行切分。原样输出。
4)对于GBK编码属于字典索引表中可识别的汉字的连续字串,视同中文例句,要进行分词切分,切分分词前后要添加空格分隔符。切分的句子按照最大正向匹配法或最大逆向匹配法进行分词切分,切分出的分词或单字之间要以空格分隔符分隔。
分词切分算法包含:
正文切分句子算法、句子切分分词(分为最大正向分词匹配和最大逆向分词匹配)算法。
2.4.1 将正文切分成句子
正文切分句子,主要是对原始文件中的正文信息进行解析最粗的过程,首先要读入一个字,这里的字,是文字串中最小的逻辑单元,对于ASCII编码的字是单字节,而对于GBK编码的字是一个双字节。
要确定字的类型。主要有3种:
1:ASCII编码单字节表示的字,如西文字母数字及符号;
2:GBK编码双字节表示的字,不属于字典索引表中(21002个汉字)的部分,如符号区全角符号和一至四区不可见汉字编码;
3:GBK编码双字节表示的字,属于字典索引表中(21002个汉字)的部分,作为汉字编码。
读入的字的类型如果连续相同,则字的流构成同类字串,亦即短语,直至读到一个不同类型的字为止。如果属于1类或2类的短语,不处理,原样输出;如果属于3类的短语,要将短语句子作切分分词的细加工处理,处理后的分词流结果输出。重新继续构造新的类型的字串,直至全部读入的字串处理完为止。
算法:
2.4.2 句子切分分词
句子切分分词,主要有最大正向分词法和最大逆向分词法两种方法。
两种方法同时对句子进行切分分词,是一种混合方法,主要用来对句子切分分词结果进行互校时同时使用。如果两种切分句子结果出现歧义,则会引入另外一种,最短路径的方法,即计算切分分词数量最少优先自动判断方法。后两种方法在这里,就不进一步介绍。
算法:
2.4.2.1最大正向分词匹配
由于正向分词库的记录是按照字头(正序)、词长字数(逆序)、字尾(正序)排序,字典索引表中记录了正向分词库中字头和最大词长字数。切分例句时,通过字头、可能的最大词长来优先查找分词。可能的最大词长,是实际句子长度和字典字头对应的正向分词的最大长度两者中最小的长度,最小不能小于2,否则不成其为词,而为单字。例如:例句S:“最大正向分词法”,其句长SL:7。
最大正向分词匹配法,首先取字头“最”字。全程折半查找字典索引表,找到“最”字索引。“最”字对应正向分词库的局部起止范围[begin,end],最大词长度WL=11。沿着起止范围[be⁃gin,end]对分词词库进行折半查找。查找分词“最大逆向分词法”,如果没有找到,则将查找词去掉一个汉字“法”,继续找“最大正向分词”,如果还没有找到,则继续去掉后面的字,直至“最大”,还没有找到,将“最”字,作为非分词字,输出。继续以“大正向分词法”为新句子,继续切分分词。如果找到分词,例如:找到“最大正向分词”,则输出“最大正向分词”,截断分词后的句子“法”作为新句子继续切分分词。直至,句子切分完毕。
算法:
2.4.2.2 最大逆向分词匹配
由于逆向分词库的记录是按照字尾(正序)、词长字数(逆序)、字头(正序)排序,字典索引表中记录了逆向分词库中字尾和最大词长字数。切分例句时,通过字尾、可能的最大词长来优先查找分词。可能的最大词长,是实际句子长度和字典字尾对应的逆向分词的最大长度两者中最小的长度,最小不能小于2,否则不成其为词,而为单字。例如:例句S:“最大逆向分词法”,其句长SL:7。
最大逆向分词匹配法,首先取字尾“法”字,全程折半查找字典索引表,找到“法”字索引。“法”字对应正向分词库的局部起止范围[begin,end],最大词长度WL=14。沿着起止范围[be⁃gin,end]对分词词库进行折半查找。查找分词“最大逆向分词法”,如果没有找到,则将查找词去掉一个汉字“最”,继续找“大逆向分词法”,如果还没有找到,则继续去掉后面的字,直至“词法”,还没有找到,将“法”字,作为非分词字,输出。继续以“最大逆向分词”为新句子,继续切分分词。如果找到分词,例如:找到“逆向分词法”,则输出“ 逆向分词法”,截断分词后句子“最大”,以新句子继续切分分词。直至,句子切分完毕。结果为“最大逆向分词法”
算法:
2.5 分词切分试验效果
本文采用C语言实现,在lenovo T61,Intel(R)Core(TM)2Duo CPU T7500 @2.20GHz2.17GHz,1.96GB内存。 安装Win⁃dows XP,同时安装SUSE linux server11。在SUSE下运行。
通过对正文文件的整个文件的单线程切分,测试实际切分效果,将国际专利分类号索引电子文档正文文件,分成八个大部的8个文件,分别切分。其效果由表4不难看出,逆向分词比正向分词平均快10%。
3 结论
本文给出分词算法的技术实现,在于推荐一种快速分词技术方案。该方案采用内外存相结合,通过内存构建GBK编码字典,快速查找到外存分词库的局部起止位置,通过缩小范围的局部折半查找来快速确定分词是否存在。通过提供的最大正向分词匹配法和或最大逆向分词匹配法,来对文章切分句子,对句子短语再进一步分线程双向切分,通过比对短语切分结果,当切分结果出现歧义时,采用分词数最少策略取其一种,记录歧义语句日志。双向匹配法产生的歧义的改进算法不在本文讨论之内。由于在本专利信息领域使用,考虑到一篇专利标题和文摘平均大约在5000字节以内,专利说明书和权利要求书等文献,在1万字之间,即便直接单线程切分文摘或全文也不足1秒,如果采用多线程并行多结点切分,其速度还可以进一步加快。可将分词效率提高到足以使分词服务响应拥塞现象能够消除为止,其性能是可控的。使得节省的时间能更多地用于其他方面。例如:统计词频、相似度比对运算等。由于最大正向分词匹配法和或最大逆向分词匹配法同属于机械分词法,两种方法切分的结果都会产生错误率,而且同时出现错误的情况也在所难免。但是这并不影响该方法的使用。分词库与字典索引表是一个相互关联的数据结构,在运行期间需要相对稳定和保持静态不变。快速分词方法由于不涉及词性问题,新分词的增加,可通过获取新词的自动方法获得。自动获取新词并定期更新分词库及字典索引表,由于完全自主定义,而使得维护变得非常容易。技术实现通过socket提供的接口服务,可与Java、C#等语言通信,或者重新用其他语言编写,算法简约,不会存在移植性障碍。
摘要:该文主要论述一种快速分词技术的实现。对于GBK编码格式的原始文献,利用GBK可见汉字,建立内存常驻索引,按照最大匹配法查找外存分词词典库,从而将文章例句进行快速切分。理论上是目前最快的一种分词方法。
关键词:正向分词,逆向分词,GBK,字典索引
参考文献
[1]庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010(3).
[2]李淑英.中文分词技术[J].科技信息,2007(36).
[3]余战秋.中文分词技术及其应用初探[J].电脑知识与技术,2004(32).
中文分词算法研究 篇9
1 分词技术综述
1.1 全文检索技术
所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。
基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高, 但查准率较低。有时会出现令人啼笑皆非的检索结果,如检索货币单位“马克”时,会把 “马克思”检索出来。
基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词,以达到按词索引的目的。对中文文档进行切词, 提高分词的准确性, 抽取关键词作为索引项, 实现按词索引可以大大提高检索的准确率。
1.2 中文分词技术
中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。
目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等[1]。
纵观众多研究成果,可以看出当前中文分词还存在一下两个基本的问题需要解决[2]:
(1)歧义问题。汉语中存在大量的歧义现象,对几个字分词可能有好多种结果。简单的分词往往会歪曲查询的真正含义。
(2)未登录词识别问题。理想的系统应该能对未登录词进行记录和识别,并通过不断整理,增强未登录词识别的能力。
2 分词算法研究
下面各节,对当前研究的分词算法进行了分析,并设计了分词原型选择实验,对当前流行分词模块进行测评和比较。
2.1 中文分词基本原理
中文分词的基本处理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。中文分词模块的输入输出如图1所示。
2.1.1 ICTCLAS模块
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是由中国科学院计算技术研究所研究的基于多层隐马尔可夫模型HMM的汉语词法分析系统。HMM是一个双重随机过程,两个组成部分:①马尔可夫链:描述状态的转移,用转移概率描述;②一般随机过程:描述状态与观察序列间的关系,用观察值概率描述[4]。
基于HMM的分析系统的功能有:中文分词;词性标注;未登录词识别。
该模块包含的词典是通过统计方法建立的,对其进行了封装,以.dct格式存储。
2.1.2 最大正向匹配算法模块
最大正向匹配算法是项目中常用的分词解决方案。最大正向匹配算法模块采用机械式匹配算法的原理,通过建立词典并进行正向最大匹配,对中文进行分词。尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点:
2.1.2.1 长度限制
由于最大匹配法必须首先设定一个匹配词长的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。
(1) 词长过短,长词就会被切错。例如当词长被设成5时,也就意味着它只能分出长度为5以下的词,例如当这个词为“中华人民共和国”长度为7的词时,我们只能取出其中的5个字去词典里匹配,例如“中华人民共”,显然词典里是不可能有这样的词存在的。因此我们无法下确的划分出“中华人民共和国”这样的词长大于5的词。
(2) 词长过长,效率就比较低。效率是分词算法、甚至是整个算法理论体系的关键。算法书里所有的高深的查询或排序算法都是从效率出发的,否则任何办法都可以解决分词效率低的问题。必须要在词长与效率之间进行妥协,既要求分词尽量准确,又要求词长不能太长。
2.1.2.2 掩盖分词歧义
中文是如此复杂的语言,机械的电脑是很难理解这么复杂的语言,因此它必然会带来歧义性,两个简单的例子:
(1)“有意见分歧”(正向最大匹配和逆向最大匹配结果不同)。
有意/ 见/ 分歧/,有/ 意见/ 分歧/
(2)“结合成分子时”(正向最大匹配和逆向最大匹配结果相同)。
结合/成分/子时/
由于词的歧义性使我们在使用最大匹配法分词会产生错误的结果,而且使用正向分词与逆向分词往往会产生截然不同的结果。尽管使用回溯法或计算计算词的使用频率,可以使出现歧义的可能性减少,这样的结果仍然是不可避免的。
2.2 分词模型比较实验
2.2.1 分词系统的评价准则
分词系统的最主要的工作是进行分词。对于分词而言,不仅要求所研制的软件在分词的正确率和速度方面满足一定的要求,而且要像开发大型传统软件那样,在各个阶段不断的进行评价,其目的主要是检查它的准确性和实用性,分词的评价主要有以下几个方面:
(1)分词正确率。书面汉语的文本可以看成是字符序列,分词的正确率直接影响更高一级的处理。
(2)切分速度。切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助手段,诸如联想,基于规则的,神经网络,专家系统等方法更应该注意这一点。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。
(3)功能完备性。自动分词方法除了完成分词功能外,还应具备词库增删、修改等功能。
(4)易扩充性和可维护性。这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,随着开发版本的升级,需要不断提高与改进,使之适应中文信息处理的各种应用。
(5)可移植性。 可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。 一个好的分词方法不应该只能在一个环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广[5]。
本着以上几点原则,设计了分词模块测评实验。
2.2.2 实验参数
通常,我们用查全率、查准率来衡量信息检索系统的检索效率。查全率( recall ratio) 指系统在实施某检索作业时,检出相关文献的能力。查准率(precision ratio) 指系统在实施某一检索作业时,拒绝不相关文献的能力,是衡量信息检索系统精确度的尺度[6]。一般来说,查全率越高,精度越低,反之精度越高,查准率越低。由F1参数来综合查全率和查准率的结果进行比较。当然还有快速查找大量文本文件的速度和能力,例如:对单一项的查询、多个项的查询、短语查询、通配符等功能。但与分词模块直接相关的参数主要是查全率、查准率、F1参数和分词速度[7]。本实验中,也使用查全率、查准率、F1参数、分词速度几个参数来评价系统性能。公式如下:
查全率undefined
undefined
分词速度undefined
2.2.3 测试集
在实验中,选择测试集来自北京大学的《人民日报》1998年上半年的纯文本语料。共包含3,148篇文章1,673,069字。
2.3.4 实验步骤
(1)收集一个题材和体裁分布平衡的测试文本集(生语料)。
测试集的规模一般在50万至100万字次左右。
(2)编制一个分词评测软件。
软件的输入是两个文本:
①被测系统对测试集实施自动分词的输出结果。
②标准文本。
评测软件对这两个文本进行逐词对比和统计计算,然后分别输出被测系统的评测结果:查全率、查准率、F1参数、分词时间、分词速度。
2.2.5 测试算法
测试步骤如下,见图2:
(1)读取生语料,读取熟语料,进入2;
(2)是否存在下一个文件?是,进入3;否,进入12;
(3)滤掉标点,把句子分隔开,存在数组中,进入4;
(4)加载分词模块,进入5;
(5)对处理后的生语料进行分词,并记录开始时间,进入6;
(6)记录结束时间,进入7;
(7)将分词结果和熟语料对应输出,进入8;
(8)判断是否存在下一个句子,是,进入9;否,进入10;
(9)判断是否存在下一个词,是,进入11;否,进入8;
(10)计算相关参数,并进入2;
(11)在熟语料的对应句子中进行匹配,判断是否成功?是,accurate++,进入9;否,进入9;
(12)计算相关参数;
2.2.6 测试结果及分析
对测试结果进行整合得到:ICTCLAS耗时60.110s,分词速度为60.47KB/s;最大正向匹配算法进行分词,耗时25.763s,分词速度为141.09KB/s。
测评综合结果如表1所示。
对结果进行分析,可以看出最大正向匹配算法在速度上明显优于中科院ICTCLAS分词模块,但在查准率、查全率和F1参数上逊于中科院ICTCLAS分词模块。正确性比较见图3。
分析原因有以下两点:
(1)算法匹配方式:
最大正向匹配算法一般选择最长的词语进行匹配,而语料库中的熟语料并未按照最长词语进行划分。这是导致分词结果与熟语料存在一些不匹配的另一个原因。但这并不代表该算法正确率不高,而只是与语料库不完全匹配。这一点可以由人工从分词的结果中看出来。
(2)词典的质量:
最大正向匹配算法模块选用的通用词典在质量上可能与ICTCLASC存在差别。在机械式匹配算法中,词典的质量严重影响着分词的质量。所以,词典的质量可能是导致模块几个参数值下降的一个原因。因此,有必要进一步提高词典的质量。
综合分词结果来看,得到以下结论:
ICTCLAS模块在查准率、查全率、F1参数占有优势。但是,其词典存储形式不开源,不支持词典编辑,并且无法建立专业词典,功能完备性、易扩充性和可维护性上具有缺陷。在测试中发现,其稳定性不高,参数传递不精准可能会导致分词系统的分词结果出现乱码。
最大正向匹配算法在查准率、查全率等参数上测试结果逊于ICTCLAS。但其正向最大匹配算法的速度和精度上基本能够满足系统的要求。并且能够通过词典质量的进一步改进,使得分词效果得到改善。它在功能完备性、易扩充性和可维护性上优于ICTCLAS,更适用于在系统开发中的应用。
3 结束语
论文研究了当前搜索引擎技术中采用的分词技术,设计了分词模块的选择试验,比较了ICTCLAS和最大正向匹配算法模块这两种技术的优缺点。
由于是对中文自动分词技术的初步应用,所以工作还存在一些不足。比如:分词算法还存在切分歧义,切分处理技术还不能适应汉语丰富的构词变化等问题。
摘要:当前搜索引擎技术被广泛的应用,这使得全文检索技术和中文分词技术的研究逐渐深入。本论文致力于研究中文分词算法,通过实验对分词原理做出比较,对分词算法、词典对分词质量的影响做出判断和评估,并设计了分词原型比较实验,比较测评了当前流行的中文分词方式:中科院分词模块和最大正向匹配法模块。
关键词:全文检索,中文分词,查准率,查全率,F1参数
参考文献
[1]马玉春,宋涛瀚.web中中文文本分词技术研究.计算机应用,2004,24(4):134~136
[2]易丽萍,叶水生,吴喜兰.一种改进的汉语分词算法.计算机与现代化,2007,2:13~15
[3]Chien Lee-Feng.PA T-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval.Information Pro-cessing and Management,1999,35:501~521
[4]顾铮,顾平.信息抽取技术在中医研究中的应用.医学信息学,2007,20:27~29
[5]何淑芳.基于BBS文本信息的中文自动分词系统的研究.青岛:中国海洋大学,2006.
[6]张自然,金燕.知识检索与信息检索的检索效率比较.情报科学,2005,4:590~592
中文分词算法概述 篇10
自然语言处理是人工智能的一个重要分支。中文分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。随着搜索引擎技术的广泛应用,全文检索技术和中文分词技术也逐步受到广泛的研究和应用,然而到目前为止,还没有完全成熟实用的中文分词系统面世,这成为严重制约中文信息处理发展的瓶颈之一。本文致力于研究中文分词算法,通过分词算法对分词的质量做出客观的判断和评估,从而为中文分词的进一步发展提供基础和方向。
2 中文分词技术综述
2.1 全文检索技术
所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。
基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高,但查准率较低。有时会出现令人啼笑皆非的检索结果,如检索货币单位“马克”时,会把“马克思”检索出来。
基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词,以达到按词索引的目的。对中文文档进行切词,提高分词的准确性,抽取关键词作为索引项,实现按词索引可以大大提高检索的准确率。
2.2 中文分词技术
中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。中文分词系统是利用计算机对中文文本进行词语自动识别的系统,对其研究已经取得了很多成果,出现了众多的算法。根据其特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法等。
3 中文分词方法
中文分词方法的基本原理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。中文分词模块的输入输出如图1所示。
3.1 基于字符串匹配的分词方法
这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
1)最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为i,则取被处理材料当前字符串序列中的前i个字符作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率为1/169。
2)逆向最大匹配法(RMM)。该方法的分词过程与MM法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为1/245。
3)逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。
4)设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用MM、RMM或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非自然切分标志。
5)最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。
由上面的算法,不难看出基于字符串匹配的分词方法的优缺点:
优点:简单,易于实现。
缺点:1)匹配速度慢;2)存在交集型和组合型歧义切分问题;3)词本身没有一个标准的定义,没有统一标准的词集;4)不同词典产生的歧义也不同;5)缺乏自学习的智能性。
3.2 基于理解的分词方法
该方法又称基于人工智能的分词方法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
1)专家系统分词法。从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
2)神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。
3)神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。
3.3 基于统计的分词方法
该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
该方法所应用的主要的统计模型有:N元文法模型、隐Markov模型和最大熵模型等。在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
3.4 基于语义的分词方法
语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。
1)扩充转移网络法。该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用,使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。
2)矩阵约束法。其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵,其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则,属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
4 中文分词算法中的难点
4.1 歧义问题
歧义切分字段处理一个汉语句子是以连续字串的形式书写的。由于可能存在歧义,分词并不是一个简单的从输入串中发现合法词的过程。一个句子经常对应几个合法词序列,因此,汉语分词中的一个重要问题就是在所有这些可能的序列中选出一个正确的结果。歧义切分是自动分词中不可避免的现象,是自动分词中一个比较棘手的问题。对歧义切分字段的处理能力,严重影响到汉语自动分词系统的精度。实践表明,只用机械匹配进行分词,其精度不可能高,虽然有时也能满足一些标准不高的需要,但不能满足中文信息处理高标准的要求。
4.2 未登录词识别问题
未登录词辨别未登录词包括中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。是种类繁多,形态组合各异,规模宏大的一个领域。对这些词语的自动辨识,是一件非常困难的事。
5 自动分词的评价准则
自动分词系统的最主要的工作是进行分词。对于分词而言,不仅要求所研制的软件在分词的正确率和速度方面满足一定的要求,而且要象开发大型传统软件那样,在各个阶段不断地进行评价,其目的主要是检查它的准确性和实用性,分词的评价主要有以下几个方面:
5.1 分词正确率
书面汉语的文本可以看成是字符序列,分词的正确率直接影响更高一级的处理。现有的分词系统切分错误主要集中在歧义字段和专有名词(如人名、地名、机构名和未登录词等)。为了获得分词系统切分正确率,应该进行整体测试,歧义测试和专业词测试。因此,自动分词系统的切分正确率的基本公式为:
其中,S1,S2,S3。分别为总体测试、歧义测试和专业词测试的正确率;
Bi(i=1,2,3)为三种测试加的权值。
5.2 切分速度
切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用辅助手段,诸如联想,基于规则,神经网络,专家系统等方法更应注意这一点。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计,有时会严重地影响切分速度,这也是应考虑的因素。
5.3 功能完备性
自动分词方法除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。
5.4 易扩充性和可维护性
这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重要的,因为这类软件需要不断提高与改进,使之适应中文信息处理的各种应用。
5.5 可移植性
可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。
6 结论
由于中文的独特性,目前还没有完美的中文分词算法。中文分词算法的进一步完善应该在已经取得的成绩的基础上,综合运用多种方法,并引入新的模型和方法,通过不断探索,使中文分词算法越来越完善。
摘要:当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入。中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。
关键词:中文分词,全文检索,算法,搜索引擎,歧义切分
参考文献
[1]马玉春,宋涛瀚.web中中文文本分词技术研究[J].计算机应用,2004,24(4):134-136.
[2]曹桂宏,何丕廉,吴光远,等.中文分词对中文信息检索系统性能的影响[J].计算机工程与应用,2003(19):78-79.
[3]刘开瑛.中文文本自动分词和标注[M].北京:北京商务印书馆,2000.
过去分词作状语 篇11
1.表示时间
动词-ed形式作状语表示时间,相当于一个时间状语从句。
Seen from the tower, the city looks beautiful. 从塔上往下看,城市显得很美丽。(=When the city is seen from the tower…)
Shown the lab, we were taken to see the library.
带我们参观了实验室之后,又带我们参观了图书馆。
(=After we had been shown the lab…)
Completely examined by the doctors, he went back to school right away. 经过医生彻底检查以后,他立刻回到了学校。
(=After he was completely examined…)
提示:
有时动词-ed形式前可加连词when, while等来强调时间概念。
When asked why she was late for class again, she hung her head in shame. 当被问到为什么上课又迟到时,她羞愧地低下了头。
Once recovered, he went all out to do his work.
一恢复健康,他就全力以赴地干起了工作。
Once started, the clock will go half a month and keep good time.
一旦给这钟上了发条,它就会走半个月,并且走得很准。
2.表示原因
动词-ed形式作状语表示原因,相当于一个原因状语从句。
Moved by the heroic deeds, the children couldnt help crying.
孩子们被英雄事迹感动,情不自禁地哭了起来。
(=Since they were moved by the heroic deeds…)
Written in haste, her letter is very hard to read.
因为写得快,她的信很难阅读。(=As it was written in haste…)
Excited by the new discovery, we decided to go out and celebrate.
我们因为新发现而激动万分,决定出去庆祝一下。
(Because we were excited by…)
注意:
为了使动词-ed形式表示的条件、让步等意义更加明显,我们可以加上适当的连词。
Even if invited, I wont go. 即使受到邀请,我也不去。
Though beaten by the opposite team, they did not lose heart.
虽然被对手打败,但他们并没有丧失信心。
Unless invited, he will not come back to the company.
除非被邀请,不然他不会回到公司来的。
3.表示条件
动词-ed形式作状语表示条件,相当于一个条件状语从句。
Heated, water changes into steam. 水加热就能变成蒸气。
(=If water is heated…)
Given more time, he would be able to do better.
多给一些时间,他会干得更出色。
(=If he was given more time…)
Compared with other professors, she was an excellent speaker.
与其他教授相比,她是一位优秀的演说家。
(=If she was compared with other professors…)
4.表示让步
动词-ed形式作状语表示让步,相当于一个though/although引导的让步状语从句。
Exhausted by the running, they went on running after the robber.
尽管已经跑得筋疲力尽,他们还是继续追赶着那个强盗。
(=Although they were exhausted by the running…)
Laughed at by many people, he continued his research.
尽管被许多人嘲笑,他还是继续他的研究。
(=Even if he was laughed at by many people…)
Questioned many times a day, Andrew kept silent over the murder.
尽管一天被盘问了多次,安德鲁仍然对那桩谋杀案保持沉默。
(=Although Andrew was questioned many times a day…)
提示:
有时动词-ed形式作状语和动词-ing形式的被动式作状语,并没有多大的区别,可以互换。
Suddenly seized with a high fever, he was unable to attend school.
他因突然发高烧而不能来上学。
=Being suddenly seized with a high fever, he was unable to attend school. 他因突然发高烧而不能来上学。
Brought up in the countryside, he found it hard to get used to town life. 因为是在农村长大的,他感到很难适应城市生活。
=Having been brought up in the countryside, he found it hard to get used to town life. 因为是在农村长大的,他感到很难适应城市生活。
5.表示行为方式、伴随情况或补充说明。
动词-ed形式作状语表示行为方式、伴随情况或补充说明时,通常位于句子的后面,相当于一个并列分句。
The teacher stood there, surrounded by the students.
老师站在那儿,被学生围住了。
(=and he was surrounded by the students.)
He went into the office, followed by some children.
他走进办公室,后面跟着一些孩子。
(=and he was followed by some children.)
They turned around and stood in the middle of the room, completely astonished. 他们转过身来,站在房间中央,完全惊呆了。
(=and they were completely astonished.)
She accepted the gift, deeply moved.
她接受了礼物,深深地感动了。
(=and she was deeply moved.)
注意:
动词-ed形式在句中不能用作主语或宾语。
被邀请出席国宴是极大的荣耀。
【误】Invited to the state banquet is a great honour.
【正】To be invited to the state banquet is a great honour.
我不能容忍被人嘲笑。
【误】I cannot stand laughed at.
浅谈中文分词技术 篇12
中文分词是中文信息处理的重要的基础环节,可以从以下几点来认识[1]:首先,“词”是组成句子的基本单位,要对句子进行分析,首先得对“词”进行分析,只有在这个基础上才能谈得上进一步作其他的处理;其次,计算机有关汉语言的知识很大一部分是以机器词典(给出词的各项信息,包括句法信息,语义信息,甚至语用信息等)的形式存储的,中文信息处理系统只有在“词”的基础上进行,才可能利用这些知识。目前,有关中分分词技术的研究已经取得了很大的进展,涌现出许多的分词方法并在实际过程中取得了一定的应用成果。
2 典型分词算法及优缺点
目前采用的分词算法大体上分为三类:(1)基于字符串匹配的分词方法,如MM方法、RMM方法;(2)基于统计的分词方法,如组合度算法;(3)基于理解的分词方法,如专家系统方法、神经元网络方法。
(1)M M方法,即正向最大匹配算法,该算法的基本思想是按照文本从左至右的阅读习惯取一定长度(等于词典中最长词条中汉字的个数)的汉字串与词典中的最长词条进行比对,如果比对成功则把该汉字串作为一个词切分出来,如果在词典中匹配不到这样长度的汉字串,则去掉该汉字串的末尾一个字重新与词典中的词条进行比对,按照汉字串长度逐步减小的原则重复以上比对过程,直到匹配成功为止,这样就完成一个词的切分,然后对剩余未切分的文本重复上述一系列步骤,直到切分出语句中所有词为止。
(2)R M M方法,即逆向最大匹配算法,它的分词过程与MM方法相同,不同的是分词方向与MM正好相反。每次是从待处理文本的末尾开始处理,每次匹配不成功时去掉的是汉字串的首字。
从以上两种分词方法来看,MM法的原理简单,容易在计算机上实现。但是,据统计MM方法的错误切分率为1/169,也就是说切分精度不高,所以,该方法一般不单独使用,而是作为一种基本的方法和其它方法配合使用;RMM方法的切分精度要高一些,据统计RMM的错误切分率为1/245。但是,该方法为了查询方便,要求配备逆序的分词词典,这样的分词词典维护起来比较困难,不符合人们习惯。
(3)组合度算法,该算法大致的分词思路是根据在上下文中相邻字同时出现的概率高于一定的值时就把相邻字作为一个词看待。这个统计方法的结果反映了语言中的用词规律,对切分歧义和识别新词有良好的效果。但它也存在一些缺点,如对自然语言的处理和表示比较薄弱,经常会抽一些无用词组;对频度较低的词,永远被错误切分。
(4)专家系统方法,该方法力求从结构与功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识及语义知识,使知识库便于维护和管理。它把自动分词过程看成是自动推理过程。实现推理的方法是统一的,不论对歧义切分字段还是非歧义字段都采用同样的推理,所需的知识全部在知识库中。但该方法由于分词所依赖的常识性知识过于庞大,全面地收集整理这些常识性知识是非常困难的。
(5)神经元网络方法,该方法旨在模拟人脑的神经系统运作机制来实现一定的功能。主要是将分词知识以统一的“权重”形式表示,从而使一般分词方法中的“启发性”知识与“常识性”知识处于相同地位,知识表达简捷性和精确性使得知识的组织和利用也相当简单,但其时间复杂度较高。
以上关于专家系统和神经元网络分词方法在中文自动分词中的应用将大大提高分词的智能性,是近年来分词研究的热点也是未来中文自动分词发展的一个重要方向。
3 中文分词发展难点
目前,虽然国内外对中文分词的研究取得了很大的进展,但是还不能满足实际需要,主要表现在以下三个方面。
(1)分词算法的运行速度和精度未能达到理想的效果。目前,中文分词涉及到的应用广泛,如机器翻译、搜索引擎、文本分类、信息检索等等,由于采用的分词算法的好坏直接影响到这些信息处理系统的应用效果,所以继续在分词算法的运行速度和精度上下功夫必将带动信息处理系统整体性能的提升。
(2)对歧义切分和未登录词的识别未能达到令人满意的程度。中文分词中的歧义识别和未登录词识别对分词的速度和精度有很大的影响,目前还没有很好的办法提升歧义词和未登录词的识别精度,有待进一步有针对性地研究。
(3)至今对分词未能达成彻底统一的标准。通用的词表和统一的分词规范将对中文分词的研究起到促进作用,应该尽快做好这些基础性工作[2]。
4 结语
随着信息技术的普及,越来越多的领域涉及到中文自动分词的应用,所以中文分词技术的进步将影响到众多领域的发展。虽然现在已有清华、中科院等几十家国内外专业机构在从事中文分词技术的研究并已取得了较好的成果,但是关于分词的几大难点还没有完全突破,需要综合多个学科的研究成果作为基础,可以考虑把专家系统方法和神经元网络方法结合起来,或者从中文书面书写规则出发寻求好的办法[3~4]。相信随着科学技术的发展以及我们的共同努力,中文分词技术的难点会得到彻底的解决。
参考文献
[1]苗夺谦,卫志华.中文文本信息处理的原理与应用[M].北京:清华大学出版社,2007.
[2]张春霞,郝永天.汉语自动分词的研究现状及困难[J].系统仿真报,2005,17(1):74~102.
[3]刘晓英.汉语自动分词的发展趋势[J].高校图书馆工作,2005,4:133~176.
【分词方法】推荐阅读:
hear的过去式和过去分词现在分词07-28
分词歧义08-20
分词独立结构06-23
分词技术论文07-21
中文分词算法研究06-14
分词练习及答案05-26
过去分词做定语练习07-24
adopt的过去分词09-05
高一英语分词专项练习11-12
分词用法练习题解析10-20