分词技术论文(精选12篇)
分词技术论文 篇1
在专利信息技术中,专利文献信息检索、机器翻译、专利辅助自动文摘和CPC/IPC自动分类,都会用到一个基本的技术——分词技术。所谓分词,就是利用已有词库的词,来切分文章中的词的过程。切分的分词,用来确定在文献中的位置;用来统计特征词的频度;聚类、分类运算;相似度计算等。目前有很多应用场景已经使用了已有的技术产品。带来的好处是:引入语义分析、词性分析、语法分析等成熟技术,性能稳定,分词正确率高;加快软件产品开发使用,可移植性强。带来的问题是:受著作版权保护,须缴纳昂贵费用,加大应用软件的制作成本;由于词库数据结构的不公开,使维护变得困难;产品大多面向大众化读物,不能灵活地适应专业技术性强的不同领域对分词的不同要求;词库中分词需要标注词性,词性对于专业技术文献产生的作用并不明显,更新分词,须额外编辑词性,并审校,费时费力,词库的更新周期比较长。为了降低应用成本,迫使我们不得不自主研发一整套适合本领域的包括分词在内的相关基本技术。分词技术属于中国特色的信息处理技术之一。在西方语言中,拼音字母组合构成的单词,单词与单词之间有明显空格分隔,词是自然分隔的,无须分词。对于相形文字(如中日韩语言)来说,字词之间紧密连接,没有明显间隔。因此需要仿照西方语言来预先加工分词,使之明显分割。只有具备了分词分割字词的基础,才能够像西文那样轻松地建立数学模型,利用数学方法,来对文献进行分析利用。因此本文将讨论如何实现一种实用的快速分词方法。
1 分词技术的现状
分词技术目前已经非常成熟。常见的有三种方法:
1)字符串匹配的分词方法;
2)词义分词法;
3)统计分词法。
1.1 字符串匹配的分词方法
这是一种常用的分词法,它主要利用已有词库中的词匹配文章句子中的词,来切分句子。常见的方法又有四种方法:
1)正向最大匹配法;
2)逆向最大匹配法;
3)最短路径分词法;
4)双向最大匹配法。
1.2 词义分词方法
一种机器语音判断的分词方法。在进行句法、语义分析时,利用句法信息和语义信息来处理歧义现象从而得到分词,这种分词方法,现在还不成熟,处在实验阶段。
引入词性协助分析词性在语法位置上的可能性,对词进行合理切分,目前国内产品出现的比较多。如中国科学院计算所的ICTCLAS产品。
1.3 统计分词法
根据词组的统计,就会发现两个相邻字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符来分词。
2 分词技术的实现
本文讨论的是属于字符串匹配的分词方法。而且主要着重讨论正向最大匹配法和逆向最大匹配法。双向最大匹配法是前两种方法的结合,用于判断切分产生歧义时,是否需要人工干预来决定选择哪一种结果,或者,通过最佳路径分词法来自动选择一种。因此,设计好正向/逆向分词技术是分词技术实现的基础,也是本文主旨。本文重点是要实现一种高效的分词技术。由于分词技术是一种纯粹底层的引擎,因此提出的高效目标,既要保证分词的效率和效果,还要兼顾系统资源开销,将节省的资源尽可能多地用于其他方面,例如响应更多的客户端的服务请求。笔者利用内存和外存相结合的方法建立了一个驻留内存的字典索引和一对存放于外存的正向分词和逆向分词词库来实现高效分词技术。
2.1 分词库的构建
在外存建立词库,要对词库中词语的开头汉字、词语的汉字字数和结尾汉字这三项进行标注。将分词数据结构定义为定长记录:{分词char(30),首字char(2),首字编码char(4),尾字char(2),尾字编码char(4),分词汉字数int,位置号int}。
词库设计需要考虑在词库检索效率与词长选择之间求得平衡。如果词长过长,检索效率必然下降;如果词长过短,就会丢失正确的长词,使分词正确性得不到满足。考虑到化学、药物、微生物等领域的技术术语可能会有大量长词出现,因此,牺牲部分分词的访问效率,换来长词的满足也是不得已的,通常认为一个长词最长不超过15个汉字。
实验中我们建立了大约120万条分词的词典库,用以模拟专利文献词典的真实数据规模。
2.1.1 正向分词词库的构建
将词库文件按照{首字编码(正序)+词语的汉字字数(逆序)+尾字编码(正序)+分词(正序)}来排序,并得到一个正向分词库文件。每个记录行号填入“位置号”字段。样例参见表1。
2.1.2 逆向分词词库的构建
将词库文件按照{尾字编码(正序)+词语的汉字字数(逆序)+首字编码(正序)+分词(正序)}来排序,并得到逆向分词库文件。每个记录行号填入“位置号”字段。样例参见表2
2.2常驻内存字典索引表的构建
在内存建立一个字典索引表。由于分词库,对于正向分词是按照单词首字集中有序存放的,对于逆向分词也是按照单词尾字集中有序存放的。因此,字典索引,对于正向分词库来说,需要知道单词首字的起、止位置;同样,对于逆向分词库来说,需要知道单词尾字的起、止位置。
接下来选择什么样的字典作为索引就是一个关键。
通过考查GBK编码特征,GBK编码是双字节定长汉字编码。其编码与汉字区位相对应。笔者在GBK编码中筛选出21002个可见汉字建立字典索引码表。这是目前国内汉字编码比较多的,且与《汉语大字典》相一致。《汉语大字典》1993年版和1998 年版,收录了21000 个字头。字典索引码表中的字,对于专利文献领域的应用,我们认为也已经足够。如果要应用于其他方面,例如涉及古籍出版物的文献,这一方案还是不足以满足所需。例如《康熙字典》中的字头收录了多达47043 个字头。其中大多是异形字和非常用字。
21002个可见汉字是如何从GBK编码表筛选的?
首先来看GBK编码分布图(参见图1)。
根据GBK编码分布图,我们将编码划分为两类编码:
1)由汉字一区、汉字二区、扩展三区和扩展四区组成的字模汉字编码表,去掉其中不可见汉字字模编码,共收录21002个汉字。作为汉字编码。
2)符号区字模编码和不可见汉字字模编码,作为非汉字编码。
另外除GBK编码外,还有一类西文ASCII编码。作为西文编码。
以可见汉字编码作为字典构建正向和逆向分词索引,其最大记录数约21002个。将数据结构定义为定长记录:{GBK编码char(4),汉字char(2),首字串字数int,尾字串字数int,首字开始int,首字结尾int,尾字开始int,尾字结尾int}。其记录格式参见表3。
从表1 至表3 可以看出,字典索引中的首字开始和首字结尾,分别对应于正向分词库中的开始位置号和结尾位置号。字典的字对应分词首字相同的分词主要集中在正向分词库的某个局部范围。例如:以“一”开始的分词,集中在正向分词库的747042~752041的起止位置,有连续4999个分词,其最长分词有12个汉字。同样,字典索引中的尾字开始和尾字结尾,分别对应于逆向分词库中的开始位置号和结尾位置号。字典的字对应分词尾字相同的分词主要集中在逆向分词库的某个局部范围。 例如:以“ 一”结尾的分词,集中在逆向分词库的760739~761220 的起止位置,有481 个,其最长分词有10 个汉字。
2.3 分词库查找的效率
查找一个分词的过程首先确定分词的字头或者字尾,查找字典,再根据字典索引查找正向词库或逆向词库。接下来看查找的时间效率和空间效率。
2.3.1时间效率
字典查找,“一”索引,其时间效率为最多(log221002≈)14.4次比较。
正向分词查找,“一”开始的分词,其时间效率最多为(log24999≈)12.3次比较。
逆向分词查找,“一”结尾的分词,其时间效率最多为(log2481≈)8.9次比较。
由于字典索引与分词库的设计安排,对于一个百万级的分词库来说,使用了字典索引给出的局部范围,使得查找的范围大大缩小。从而加快了折半查找的效率。如果采用完全折半查找词库,其时间效率最多为(log21200000≈)20.2次比较。局部折半查找最差也可以节省0.4~0.6倍的时间。
另外,采用内存与外存相结合,将字典索引21002 个记录驻留在常驻内存中,使字典索引的运算直接在内存中完成,其运算时间几乎可以忽略不计,只需考虑局部折半查找外存文件定长记录所需的时间开销即可。因此,内存字典索引折半查找算法与外存分词库局部折半查找算法相结合,是一种非常快的分词查找方案。
2.3.2 空间效率
字典索引记录长度30 字节,共21000 个记录,实际空间615.3Kbyte。
分词词典记录长度50 字节,目前有1200000 个记录,实际空间57.22Mbyte。
字典索引常驻内存,占用小于1M的空间,是可以接受。而分词词典几十兆空间,不宜放在内存中实现,因而保存在外存文件中。内存只需3个数据结构共150字节即可,因此,空间效率也是很小的。
2.4分词切分算法
首先对正文中哪些可切分,哪些不可切分,作一个规定:
1)首先,对于停用字词要做特殊预处理,要么过滤掉,要么视同分隔符作用,进行特殊预切分,停用字词前后要添加空格分隔符。
2)对于ascii编码的西文字母数字及其特殊符号,视同分隔符作用,不进行切分。原样输出。
3)对于GBK编码的符号区和不属于字典索引表中识别汉字的编码,视同分隔符作用,不进行切分。原样输出。
4)对于GBK编码属于字典索引表中可识别的汉字的连续字串,视同中文例句,要进行分词切分,切分分词前后要添加空格分隔符。切分的句子按照最大正向匹配法或最大逆向匹配法进行分词切分,切分出的分词或单字之间要以空格分隔符分隔。
分词切分算法包含:
正文切分句子算法、句子切分分词(分为最大正向分词匹配和最大逆向分词匹配)算法。
2.4.1 将正文切分成句子
正文切分句子,主要是对原始文件中的正文信息进行解析最粗的过程,首先要读入一个字,这里的字,是文字串中最小的逻辑单元,对于ASCII编码的字是单字节,而对于GBK编码的字是一个双字节。
要确定字的类型。主要有3种:
1:ASCII编码单字节表示的字,如西文字母数字及符号;
2:GBK编码双字节表示的字,不属于字典索引表中(21002个汉字)的部分,如符号区全角符号和一至四区不可见汉字编码;
3:GBK编码双字节表示的字,属于字典索引表中(21002个汉字)的部分,作为汉字编码。
读入的字的类型如果连续相同,则字的流构成同类字串,亦即短语,直至读到一个不同类型的字为止。如果属于1类或2类的短语,不处理,原样输出;如果属于3类的短语,要将短语句子作切分分词的细加工处理,处理后的分词流结果输出。重新继续构造新的类型的字串,直至全部读入的字串处理完为止。
算法:
2.4.2 句子切分分词
句子切分分词,主要有最大正向分词法和最大逆向分词法两种方法。
两种方法同时对句子进行切分分词,是一种混合方法,主要用来对句子切分分词结果进行互校时同时使用。如果两种切分句子结果出现歧义,则会引入另外一种,最短路径的方法,即计算切分分词数量最少优先自动判断方法。后两种方法在这里,就不进一步介绍。
算法:
2.4.2.1最大正向分词匹配
由于正向分词库的记录是按照字头(正序)、词长字数(逆序)、字尾(正序)排序,字典索引表中记录了正向分词库中字头和最大词长字数。切分例句时,通过字头、可能的最大词长来优先查找分词。可能的最大词长,是实际句子长度和字典字头对应的正向分词的最大长度两者中最小的长度,最小不能小于2,否则不成其为词,而为单字。例如:例句S:“最大正向分词法”,其句长SL:7。
最大正向分词匹配法,首先取字头“最”字。全程折半查找字典索引表,找到“最”字索引。“最”字对应正向分词库的局部起止范围[begin,end],最大词长度WL=11。沿着起止范围[be⁃gin,end]对分词词库进行折半查找。查找分词“最大逆向分词法”,如果没有找到,则将查找词去掉一个汉字“法”,继续找“最大正向分词”,如果还没有找到,则继续去掉后面的字,直至“最大”,还没有找到,将“最”字,作为非分词字,输出。继续以“大正向分词法”为新句子,继续切分分词。如果找到分词,例如:找到“最大正向分词”,则输出“最大正向分词”,截断分词后的句子“法”作为新句子继续切分分词。直至,句子切分完毕。
算法:
2.4.2.2 最大逆向分词匹配
由于逆向分词库的记录是按照字尾(正序)、词长字数(逆序)、字头(正序)排序,字典索引表中记录了逆向分词库中字尾和最大词长字数。切分例句时,通过字尾、可能的最大词长来优先查找分词。可能的最大词长,是实际句子长度和字典字尾对应的逆向分词的最大长度两者中最小的长度,最小不能小于2,否则不成其为词,而为单字。例如:例句S:“最大逆向分词法”,其句长SL:7。
最大逆向分词匹配法,首先取字尾“法”字,全程折半查找字典索引表,找到“法”字索引。“法”字对应正向分词库的局部起止范围[begin,end],最大词长度WL=14。沿着起止范围[be⁃gin,end]对分词词库进行折半查找。查找分词“最大逆向分词法”,如果没有找到,则将查找词去掉一个汉字“最”,继续找“大逆向分词法”,如果还没有找到,则继续去掉后面的字,直至“词法”,还没有找到,将“法”字,作为非分词字,输出。继续以“最大逆向分词”为新句子,继续切分分词。如果找到分词,例如:找到“逆向分词法”,则输出“ 逆向分词法”,截断分词后句子“最大”,以新句子继续切分分词。直至,句子切分完毕。结果为“最大逆向分词法”
算法:
2.5 分词切分试验效果
本文采用C语言实现,在lenovo T61,Intel(R)Core(TM)2Duo CPU T7500 @2.20GHz2.17GHz,1.96GB内存。 安装Win⁃dows XP,同时安装SUSE linux server11。在SUSE下运行。
通过对正文文件的整个文件的单线程切分,测试实际切分效果,将国际专利分类号索引电子文档正文文件,分成八个大部的8个文件,分别切分。其效果由表4不难看出,逆向分词比正向分词平均快10%。
3 结论
本文给出分词算法的技术实现,在于推荐一种快速分词技术方案。该方案采用内外存相结合,通过内存构建GBK编码字典,快速查找到外存分词库的局部起止位置,通过缩小范围的局部折半查找来快速确定分词是否存在。通过提供的最大正向分词匹配法和或最大逆向分词匹配法,来对文章切分句子,对句子短语再进一步分线程双向切分,通过比对短语切分结果,当切分结果出现歧义时,采用分词数最少策略取其一种,记录歧义语句日志。双向匹配法产生的歧义的改进算法不在本文讨论之内。由于在本专利信息领域使用,考虑到一篇专利标题和文摘平均大约在5000字节以内,专利说明书和权利要求书等文献,在1万字之间,即便直接单线程切分文摘或全文也不足1秒,如果采用多线程并行多结点切分,其速度还可以进一步加快。可将分词效率提高到足以使分词服务响应拥塞现象能够消除为止,其性能是可控的。使得节省的时间能更多地用于其他方面。例如:统计词频、相似度比对运算等。由于最大正向分词匹配法和或最大逆向分词匹配法同属于机械分词法,两种方法切分的结果都会产生错误率,而且同时出现错误的情况也在所难免。但是这并不影响该方法的使用。分词库与字典索引表是一个相互关联的数据结构,在运行期间需要相对稳定和保持静态不变。快速分词方法由于不涉及词性问题,新分词的增加,可通过获取新词的自动方法获得。自动获取新词并定期更新分词库及字典索引表,由于完全自主定义,而使得维护变得非常容易。技术实现通过socket提供的接口服务,可与Java、C#等语言通信,或者重新用其他语言编写,算法简约,不会存在移植性障碍。
摘要:该文主要论述一种快速分词技术的实现。对于GBK编码格式的原始文献,利用GBK可见汉字,建立内存常驻索引,按照最大匹配法查找外存分词词典库,从而将文章例句进行快速切分。理论上是目前最快的一种分词方法。
关键词:正向分词,逆向分词,GBK,字典索引
参考文献
[1]庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010(3).
[2]李淑英.中文分词技术[J].科技信息,2007(36).
[3]余战秋.中文分词技术及其应用初探[J].电脑知识与技术,2004(32).
[4]刘红芝.中文分词技术的研究[J].电脑开发与应用,2010(3).
分词技术论文 篇2
互联网发展非常快,现在网站也越来越多,排名,流量,用户体验度都显得非常重要。作好一个好的网站要从多角度去分析,而搜索引擎的分词和长尾关键字是网站优化一个小小方面都是非常重要,177车通过自已的学习总结一下分词和长尾,希望大家拍砖和交流网络推广。
177车对搜索引擎分词和长尾的理解:所为分词:就是用户通过搜索引擎搜索字,词,句子和短语通过它们不相邻,然后通过搜索引擎能够在相关的页面能准确找到相关的用户所搜的关键字进行组合。长尾关键字:就是在标题和关键字不能做堆放的一些次关键字和不热门,
网络推广,我们来讨论如何做好搜索引擎分词技术和长尾关键字。
第一:不同的网站首先我们要分析自已的网站首页如何分布好分词和长尾放置什么地方和密度性,内页也可以加以分析。
第二:分析竞争对手和具有潜在力网站的分词和长尾,然后自已进行合理的安排。
第三:分词技术我们一般最好能用标题去体现。然后通过描述来进一步密补分词技术密度。分词技术也是要一定的密度,如果不相领字和词出显所在页面越多,密度高可以让网站加大权重和提升网站在搜索引擎排名。长尾关键字一般只能通过描述,然后在描述最好出现2次以上。这样可以加大排名。
第四:网站的开头部分最好引用分词技术,因为开头部分对搜索引擎是非常重要的,一个页面首页文字越靠前作出来的分词技术效果是最好,
长尾关键字最好在网站开头的左右两则的第一,二段出现,最好适当的堆放一个到两个效果比较佳。
第五:网站中间部分的的左右两则要以适当的堆放分词之间的重复度,这样一般是加大分词技术的密度越高越好。因为你采用了分词技术搜索引擎一般不会认为你作假。长尾关键字:网站中部也要以层次出现,最好出现以梯子的形式这样会比较好,不过不要层次出现过多,以免让搜索引擎认为不良好,但是一般不会卡站反而排名会不更好,影响正个网站的权重。
第六:网站结尾也要适当放一些分词,作友情链接时最好与自已网站主体相关的换,这样可以加大分词的密度,但是不适过多因为搜索引擎对网站的尾部权重不是很重视。长尾关键字也要适当的布局一般放在左边的比右边多三分之二,同时友情链接也可以做为此技术要与自已怕网站同行的进行换友情链接网络推广。
总结:1:Baidu对分词技术和长尾关键字是非常重视,也是稍加好做一点。而作好分词技术相对于baidu排名也是相当好,从而增加正体网站权重和排名。长尾关键字稍加难一点因为现在baidu改了算法Googel也很注重分词技术和长尾,但是当对baidu来说他的分词和长尾是很难做到,因为它是一个周期性的作用。
2:不管是长尾和分词技术多作外链和宣传,加强网站的权重就可以增加网站的分词技术和长尾在网站的排名,但是分词和长尾在作外链时要作与相关的描链接去作最为佳有利于排名更快。并且这样的外链接作得越多越好,最好是单向。
现在分词和过去分词作定语的区别 篇3
一、现在分词和过去分词作定语的用法
单个的分词放在所修饰的名词前(少数动词除外),分词短语放在所修饰的名词后。作定语的现在分词和过去分词的区别在于:现在分词与被修饰的名词在逻辑上是主动关系,现在分词表示动作正在发生或与谓语同时发生;过去分词与被修饰的名词在逻辑上是被动关系,过去分词的动作发生在谓语之前或没有时间性。有一点要指出的是:现在分词的被动式既表进行,又表被动。
1. 前置定语
(1)现在分词表进行,过去分词表完成。二者都表主动。
the rising sun正在升起的太阳
the risen sun已经升起的太阳
developing countries发展中国家
developed countries发达国家
the boiling water正在沸腾的水
the boiled water已经烧开的水
(2)现在分词表主动或进行,过去分词表被动。
remaining money 剩下的钱
working people劳动人民
a sleeping child一个睡着的孩子
written English书面英语
a man-made satellite人造卫星
a newly-built school新修的学校
the exciting news令人激动的消息
the excited people感到激动的人们
a puzzling problem令人迷惑的问题
a puzzled look感到迷惑的表情
2.后置定语
(1)现在分词的主动式表主动或进行;过去分词在语态上表被动,在时间上或表过去发生,或表没有时间性。
There are 20 people working for the project. 有20人参与这个项目。
The man standing there is our teacher. 站在那里的那个人是我们的老师。
There are some more events added to the Olympics. 有新的项目已被加到奥运会上。
I don’t like the composition written in pencil. 我不喜欢铅笔写的作文。(没有时间性)
(2)现在分词的被动式既表进行,又表被动。
The library being built in the east of the city will be put into use next year. 正在城东修建的图书馆将于明年交付使用。
比较:
The library built in the east of the city last year attracts many readers. 去年城东修建的图书馆吸引了很多读者。
二、实例分析
例1 The flowers sweet in the botanic garden attract the visitors to the beauty of nature.
A. to smell B. smelling
C. smelt D. to be smelt
解析 答案选B。“发出香味”与“吸引游客”是同时发生的,排除表示将来的不定式,即A和D;又因为the flowers与smell (发出……味)是主动关系,所以用现在分词短语作定语。
例2 Reading is an experience quite different from watching TV; there are pictures in your mind instead of before your eyes.
A. to form B. form
C. forming D. having formed
解析 答案选C。form作“出现、产生”解,是不及物动词,pictures与form是主动关系,用现在分词作定语,表示“图画出现”与“有”同时发生。注意:这与表示“有……要……”的不定式不同。
例3 The lady said she would buy a gift for her daughter with the .
A. 20 dollars remained B. 20 dollars to remain
C. remained 20 dollars D. remaining 20 dollars
解析 答案选D。remain 是不及物动词,其过去分词无被动含义,用remaining (剩下的)作定语,修饰20 dollars。remaining 20 dollars =20 dollars left
例4 Linda worked for the Minnesota Manufacturing and Mining Company, as 3M.
A. knowing B. known
C. being known D. to be known
解析 答案选B。因为the ... company与know是被动关系,所以用过去分词短语作定语,known as 3M = which was known as 3M。
例5 The picture on the wall is painted by my nephew.
A. having hung B. hanging
C. hangs D. being hung
解析 答案选B。hang作“某物悬挂 / 吊在某处”解,是不及物动词,the picture与hang是主动关系,用hanging作定语。
例6 The disc, digitally in the studio, sounded fantastic at the party that night.
A. recorded B. recording
C. to be recorded D. having recorded
解析 答案选A。the disc与record是被动关系,且record发生在谓语sounded之前,而不是之后,所以不用不定式,而用过去分词作定语。
例7 The first textbooks for teaching English as a foreign language came out in the 16 th century.
A. having written B. to be written
C. being written D. written
解析 答案选D。textbooks与write是被动关系,且write发生在谓语came out(出版)之前,而不是之后,所以不用不定式,而要用过去分词作定语。
1. The old farmer, the badly-injured and wounded soldier, came out of the burning house, for help.
A. supporting; calling
B. supported by; called
C. being supported by; called
D. being supporting; called
2. — Oh, it’s already a quarter past six. What shall we do at the meeting this evening?
— We’ll go on with the matter this afternoon.
A. be discussed B. being discussing
C. discussed D. which discussed
3. The brave man died, his young wife nothing but a cottage.
A. left; breaking B. leaving; broken
C. left; broken D. to leave; breaking
4. Linda can’t attend the party at Tom’s house at present because she is preparing a speech for the party at Marie’s house tomorrow.
A. being held; to be held
B. to be held; held
C. held; being held
D. to be held; to be held
5. The situation made everyone feel about what to do next.
A. puzzled; puzzled B. puzzling; puzzling
C. puzzling; puzzledD. puzzled; puzzling
6. I’d like to apply for the job as a sales manger of your company in China Daily dated August 8.
A. advertising B. advertised
浅谈中文分词技术 篇4
中文分词是中文信息处理的重要的基础环节,可以从以下几点来认识[1]:首先,“词”是组成句子的基本单位,要对句子进行分析,首先得对“词”进行分析,只有在这个基础上才能谈得上进一步作其他的处理;其次,计算机有关汉语言的知识很大一部分是以机器词典(给出词的各项信息,包括句法信息,语义信息,甚至语用信息等)的形式存储的,中文信息处理系统只有在“词”的基础上进行,才可能利用这些知识。目前,有关中分分词技术的研究已经取得了很大的进展,涌现出许多的分词方法并在实际过程中取得了一定的应用成果。
2 典型分词算法及优缺点
目前采用的分词算法大体上分为三类:(1)基于字符串匹配的分词方法,如MM方法、RMM方法;(2)基于统计的分词方法,如组合度算法;(3)基于理解的分词方法,如专家系统方法、神经元网络方法。
(1)M M方法,即正向最大匹配算法,该算法的基本思想是按照文本从左至右的阅读习惯取一定长度(等于词典中最长词条中汉字的个数)的汉字串与词典中的最长词条进行比对,如果比对成功则把该汉字串作为一个词切分出来,如果在词典中匹配不到这样长度的汉字串,则去掉该汉字串的末尾一个字重新与词典中的词条进行比对,按照汉字串长度逐步减小的原则重复以上比对过程,直到匹配成功为止,这样就完成一个词的切分,然后对剩余未切分的文本重复上述一系列步骤,直到切分出语句中所有词为止。
(2)R M M方法,即逆向最大匹配算法,它的分词过程与MM方法相同,不同的是分词方向与MM正好相反。每次是从待处理文本的末尾开始处理,每次匹配不成功时去掉的是汉字串的首字。
从以上两种分词方法来看,MM法的原理简单,容易在计算机上实现。但是,据统计MM方法的错误切分率为1/169,也就是说切分精度不高,所以,该方法一般不单独使用,而是作为一种基本的方法和其它方法配合使用;RMM方法的切分精度要高一些,据统计RMM的错误切分率为1/245。但是,该方法为了查询方便,要求配备逆序的分词词典,这样的分词词典维护起来比较困难,不符合人们习惯。
(3)组合度算法,该算法大致的分词思路是根据在上下文中相邻字同时出现的概率高于一定的值时就把相邻字作为一个词看待。这个统计方法的结果反映了语言中的用词规律,对切分歧义和识别新词有良好的效果。但它也存在一些缺点,如对自然语言的处理和表示比较薄弱,经常会抽一些无用词组;对频度较低的词,永远被错误切分。
(4)专家系统方法,该方法力求从结构与功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识及语义知识,使知识库便于维护和管理。它把自动分词过程看成是自动推理过程。实现推理的方法是统一的,不论对歧义切分字段还是非歧义字段都采用同样的推理,所需的知识全部在知识库中。但该方法由于分词所依赖的常识性知识过于庞大,全面地收集整理这些常识性知识是非常困难的。
(5)神经元网络方法,该方法旨在模拟人脑的神经系统运作机制来实现一定的功能。主要是将分词知识以统一的“权重”形式表示,从而使一般分词方法中的“启发性”知识与“常识性”知识处于相同地位,知识表达简捷性和精确性使得知识的组织和利用也相当简单,但其时间复杂度较高。
以上关于专家系统和神经元网络分词方法在中文自动分词中的应用将大大提高分词的智能性,是近年来分词研究的热点也是未来中文自动分词发展的一个重要方向。
3 中文分词发展难点
目前,虽然国内外对中文分词的研究取得了很大的进展,但是还不能满足实际需要,主要表现在以下三个方面。
(1)分词算法的运行速度和精度未能达到理想的效果。目前,中文分词涉及到的应用广泛,如机器翻译、搜索引擎、文本分类、信息检索等等,由于采用的分词算法的好坏直接影响到这些信息处理系统的应用效果,所以继续在分词算法的运行速度和精度上下功夫必将带动信息处理系统整体性能的提升。
(2)对歧义切分和未登录词的识别未能达到令人满意的程度。中文分词中的歧义识别和未登录词识别对分词的速度和精度有很大的影响,目前还没有很好的办法提升歧义词和未登录词的识别精度,有待进一步有针对性地研究。
(3)至今对分词未能达成彻底统一的标准。通用的词表和统一的分词规范将对中文分词的研究起到促进作用,应该尽快做好这些基础性工作[2]。
4 结语
随着信息技术的普及,越来越多的领域涉及到中文自动分词的应用,所以中文分词技术的进步将影响到众多领域的发展。虽然现在已有清华、中科院等几十家国内外专业机构在从事中文分词技术的研究并已取得了较好的成果,但是关于分词的几大难点还没有完全突破,需要综合多个学科的研究成果作为基础,可以考虑把专家系统方法和神经元网络方法结合起来,或者从中文书面书写规则出发寻求好的办法[3~4]。相信随着科学技术的发展以及我们的共同努力,中文分词技术的难点会得到彻底的解决。
参考文献
[1]苗夺谦,卫志华.中文文本信息处理的原理与应用[M].北京:清华大学出版社,2007.
[2]张春霞,郝永天.汉语自动分词的研究现状及困难[J].系统仿真报,2005,17(1):74~102.
[3]刘晓英.汉语自动分词的发展趋势[J].高校图书馆工作,2005,4:133~176.
过去分词和现在分词专项练习 篇5
姓名____________
班级_________
得分_______
I.单项选择(75%)
1.____ the house on fire, he dialed 119.A.To see B.Seeing C.Having seen D.Being seen
2.I fell down and broke three of my teeth.I wonder how many times I have to come here and get my false teeth ____.A.fix B.fixing C.fixed D.to fix 3.Were ___ to listen to her ____ voice.Its ___ to hear her sing.A.pleased;pleasing;pleasure B.pleased;pleasant;a pleasure C.pleasing;pleased;a pleasure D.pleasing;pleasant;pleasure 4.___a post office, I stopped____ some stamps.A.Passed, buying B.Passing, to buy C.Having passed, buy D.Pass, to buy 5.____with the size of the whole earth, the highest mountain does not seem high at all.A.Comparing B.To compare C.Compared D.Having compared 6.Here are some new computer programs ____for home buildings.A.designing B.design C.designed D.to design 7.____a little money, Jimmy was able to buy his mother a lovely new lamp.A.To save B.Saving C.Saved D.Having saved 8.The teacher came into the classroom ____by his students.A.following B.to be following C.followed D.having followed 9.With the money ___, he couldn’t buy any ticket.A.to lose B.losing C.lost D.has lost 10.There was so much noise in the room that the speaker couldn’t make himself ____.A.being heard B.hearing C.heard D.hear 11.The result of the test was rather _____.A.disappointed B.disappointing C.being disappointed D.disappoint 12.I’ve never heard the word ____in spoken English.A.use B.used C.using D.being used 13._____how to do the homework, I went to ask my teacher for help.A.Not to know B.Not knowing C.Knowing not D.Not known 14.Deeply __, I thanked her again and again.A.being moving B.moved C.moving D.to be moved
15.With winter _____on, it’s time to buy warm clothes.A.came B.comes C.come D.coming
16.____the office, the foreign visitors were shown round the teaching building.A.Having shown B.Showing C.Has shown D.Having been shown 17.He went from door to door, ____waste papers and magazines.A.gathering B.gathered C.gather D.being gathered
18.The student corrected his paper carefully, ____the professor’s suggestions.A.follow B.following C.followed D.being followed 19.The ___price will save you one dollar for each dozen.A.reduce B.reducing C.reduced D.reduces
20.People ____in the city do not know the pleasure of country life.A.live B.to live C.lived D.living
21.The foreigner tried his best, but he still couldn’t make his point ___.A.understand B.understanding C.to understand D.understood 22.The scientists were waiting to see the problem ______.A.settle B.settled C.to settle D.settling
23.The library’s study room is full of students _____for the exam.A.busily prepared B.busy preparing C.busily prepare D.are busily preparing 24.The ground is _____with ____ leaves.A.covering, falling B.covered, falling C.covered, fallen D.covering, fallen 25.Lessons ____easily were soon forgotten.A.to learn B.learn C.learned D.learning
26.The wallet ____several days ago was found ____in the dustbin outside the building。A.stolen, hidden B.stealing, hiding C.stealing, hidden D.stolen, hiding
27.A person _____a foreign language must be able to use the foreign language, ______all about his own.A.to learn, to forget B.learning, to forget C.to learn, forgetting D.learning, forgetting
28.___different kinds of pianos, the workers farther improved their quality.A.To produce B.Being produced C.Produced D.Having produced 29.The students in the university are all taking courses ___a degree.A.coming to B.going to C.leading to D.turning to
30.Many things _____impossible in the past are very common today.A.consider B.considering C.considered D.be considered 31.___many times, he still couldn’t understand.A.Having been told B.Having told C.He having been told D.Telling 32.The old sick lady entered the hospital, ____her two sons.A.to support B.supporting C.supported by D.having supported
过去分词和现在分词专项练习1 33.China is one of the largest countries in the world, _____9.6 million square kilometres.A.to cover B.covered C.covers D.covering
34.____and happy, Tony stood up and accepted the prize.A Surprising B.Surprised C.Being surprised D.To be surprising
35.The visiting Minister expressed his satisfaction with the talks,____ that he had enjoyed his stay here.A.having added B.to add C.adding D.added 36.“Can you read?” Mary said ____to the notice.A.angrily pointing B.and point angrily C.angrily pointed D.and angrily pointing 37._____ the composition, John handed it to the teacher and went out of the room.A.Writing B.Having written C.Written D.Being written 38.Were you ____when you saw that wild animal ? A.fright B.frightening C.frightened D.frighten
39.Properly _____with numbers, the books can be easily found.A.marked B.mark C.to mark D.marking 40.The child sat in the dentist’s chair ____.A.tremble B.trembling C.trembled D.to trembled 41.At this moment the bell rang, _____the end of class.A.announce B.announcing C.announced D.to announce 42.He walked down the hills, ____softly to himself.A.sing B.singing C.sung D.to sing
43.I had to shout to make myself _____ above the noise.A.heard B.hearing C.hear D.to hear
44.The graduating students are busy ___material for their reports.A.collect B.to collect C.collected D.collecting
45.The cars ____in Beijing are as good as those ____in Shanghai.A.produce, produce B.produced, produced C.produced, producing D.producing, producing 46.When I came in, I saw Dr.Li _____a patient.A.examine B.examining C.to examine D.examined
47.____a satisfactory operation, the patient recovered from illness very quickly.A.Having been given B.Having given C.Giving D.Being given
48.____a satisfactory operation, the doctor believed the patient would recover from his illness very soon.A.Having been given B.Having given C.Giving D.Being given
49.He wrote a letter to me _____that his trip to Japan had been put off because of the bad weather.A.inform B.informing C.informed D.being informed
50.He reads newspapers every day to keep himself ____about what’s going on in the world.A.inform B.informing C.informed D.being informed
过去分词和现在分词专项练习
II.用适当的非谓语动词形式填空(25%)
1.She caught the student _______(cheat)in exams.2.When I got there, I found him _________(repair)farm tools.3.When I got there, I found the farm tools _______.(repair)4.Just then he heard someone _______(call)for help.5.He worked so hard that he got his pay ______.(raise)
6.The missing boys were last seen _______(play)near the river.7.___________(compare)with the old one, the new building looks more beautiful.8.The workers had the machines _______(run)all night long to finish the work on time.9.People in the south have their houses ______(make)of bamboo.10._______(lose)in thought, he almost ran into the car in front of him.【试题答案】
点透过去分词 篇6
一、作定语
单个过去分词作定语一般放在被修饰词之前,分词短语作定语一般放在被修饰词之后,往往可以改写成定语从句且定语从句多为被动语态或,有是为主动语态完成时态。
1、表被动。这类动词大多是及物动词且与被修饰的词构成动宾关系,能改成被动语态定语从句。
2、表完成。这类分词一般是不及物动词的过去分词。改成定语从句是多为主动语态完成时态。
3、有些动词(大多为不及物动词)的过去分词用作前置定语时,表示的是已完成的动作,主要指一种变化,一种状态,没被动意义,几乎已成形容词。主要有:escaped,retired, deceased, changed, departed, settled, grown, fallen, drunken
4、一些-ed分词已经失去了动词的特点,成了纯粹的形容词,大致可以下几类:
(1)大部分-ed 形容词都是及物动词的过去分词演变来的,具有被动意义,多为品质形容词,可作定语或表语,大多可用very修饰,有比较级和最高级。这类词有:pleased, puzzled, amused, amazed, surprised, delighted, excited, shocked, tired, worried, bored, disappointed, satisfied, confused, astonished, completed, discouraged, devoted, crowed, frightened, interested, wounded, unknown, married, reserved
(2) 还有有一类-ed形容词,常作定语,不用比较级和最高级。这类词有:closed, broken, dried, armed, divided, paid, boiled, known, wasted, canned, infected, painted, united, required,improved, hidden.
二、作表语
1、有些-ed 分词作表语时,已经形容词化了,通常有被动意义,表示主语被激起了某种感受,即主语“感到…”。这类词有:pleased, puzzled, amused, amazed, surprised, delighted, excited, shocked, tired, worried, bored, convinced, disappointed, satisfied, confused, astonished, discouraged, exhausted, crowed, frightened, interested,
2、有些-ed 分词作表语时,也已经成为形容词,表示主语的状态或状况。
三、作宾语补足语
及物动词的过去分词作宾补时,通常与宾语之间是动宾关系,表示被动。不及物动词的过去分词作宾补时,通常表示宾语所处的一种状态或状况,这类分词往往已经变为形容词,没有被动意义。过去分词作宾语补足语主要有以下三种情况:
1、感觉感官动词see,observe,notice,watch,hear,smell,listen to,look at,feel,find等+宾语+pp.
2、使役致使动词have,make,get,leave,keep,catch,set,want,would like,wish,order,expect等+宾语+pp.
3、with +obj.+pp.
四、作状语
过去分词作状语一般均要逗号与其他成分隔开,可以作时间、原因、方式、条件、让步等状语。分词一般与主句的主语构成动宾关系。
1、作时间状语时相当于when 引导的从句,这类状语通常放在句中前半部分,在分词前可用when或while表示强调。
2、作原因状语相当于as,since,because引导的从句。
3、作方式或伴随状语时不能用从句替换,但可以改写成并列句。
4、做条件状语相当于if, unless等引导的从句。
5、作让步状语相当于though, even if等引导的从句。
表示让步或条件的分词无连词引导,一般置于主句之前。
参考文献:
1. 刘道义,人教版课标新教材,人民教育出版社。
2. 王琼,徐达山,《当代英语惯用法词典》北京科技出版社 2004年7月。
3. 赵振才, 《英语常见问题解答大词典》,清华大学出版社,220年9月。
4. 徐广联《大学英语语法》华东理工大学出版社,2005年1月。
5. 历年高考试题。
分词技术论文 篇7
语言信息处理应用只要涉及检索、机器翻译、文摘、校对等,就需要以词为基本单位。由于在彝语中词与词之间没有明显的切分标志,于是在彝文信息处理中彝文自动分词这一研究领域应运而生。彝文自动分词技术在彝文信息检索、文字识别、机器翻译,以及彝语语音识别与合成等领域中将有着广泛的应用前景[1],将为彝文文献资源的整理和知识的挖掘提供一种新的工具和研究手段。随着对语言文字信息处理研究工作的不断深入,彝文信息处理技术也从字信息处理逐步转向语言信息处理,彝文自动分词技术必将是彝文信息处理中一项不可缺少的基础性工作。本文根据彝文的特点,从分词规则、词表、算法、结构、流程、性能测试等六个方面对基于既定词表彝文自动分词技术的实现进行了探讨,并结合彝文的特点分析了实现彝文自动分词的难点所在。
1 彝文分词规则
本文根据彝文的特点及规律,确定了信息处理用彝文分词规则。
1.1 单音词
以上所述的彝文分词规则都不是一成不变的,可以随着彝语语境和社会的变化,可增可减,以便能满足不同领域彝文文本自动分词应用的需求。
2 彝文既定分词词表的设计
2.1 制定词表的原则
本文根据现代彝语(规范彝语)的特点,在广泛听取彝文专家意见的基础上,确定核心词条的来源及类别。然后根据以下国际上制定词表的原则以
while(1){
if(!cut()){//如果切词失败,则有可能是缓冲区末尾或者不能识别单词
while(bp<bl){
if(buff[bp]<0)//是彝文字
bp ++;
bp++;
//跳过一个(彝文)字进行再进行匹配,成功则跳出
if(cut()==1)
break;
}
if(bp >= bl){//如果到达缓冲区末尾
//输出结果
fprintf(fout,"%s",result);
if(iseof){//如果已经到达文件末尾
//输出剩余的未能识别的字串
fprintf(fout,"%s",&buff[btp]);
return;
}
result[0] = 0;
bp = btp; //重新设置回bp
iseof = fillbuff();//填充缓冲区
}
}
}
return;}
3.3 基于既定词表彝文自动分词技术的实现结构与流程
基于既定词表彝文自动分词技术的实现结构主要包括了认字、断句、认词、分词、词表的维护等5个部分。
1)认字:系统对所输入的文本进行字体上的识别。
2)断句:对输入的文本进行断句处理。
3)认词:系统对输入的文本对应既定的词表进行认词的功能。
4)分词:系统完成对所输入的文本的分词并输出结构。
5)词表的维护:管理员对词表进行添加、删除等多种方式的维护和管理,并提供词频统计以及词表的导入、导出等功能。其系统结构如图1所示。
其基本流程图如图2所示。
4 基于既定词表的彝文自动分词技术的性
能测试
本文以三个普通彝文文本为测试对象进行自动分词,并提供人工分词结果作为分词标准来检测基于既定词表的彝文分词技术的性能。文本一选自小学彝文课本,总字符323个,分词词汇172个,其中包括未登录词8个,分词歧义语句1句;文本二选自彝文版《伊索寓言》,总字符943个,分词词汇487个,未登录词23个,分词歧义语句5句;文本三选自现代诗歌专著《冬天的河流》,总字符567个,分词词汇345个,未登录词63个,分词歧义语句6句。实验测评结果如表1所示。
本文是对彝文自动分词技术的一次尝试性探索,其分词准确率和切分速度都比较令人满意,但对未登录词的识别和歧义现象的处理有待于进一步加强和完善。其次,由于条件所限,本文所采用的分词词表还不完善,这很大程度上限制了系统切词的效率和精度,这些都需要以后进行深入的探索和研究。
5 彝文自身的特点与实现自动分词的难点
分析
彝文自身的特点与语言信息处理在自动分词上的研究分析来看,彝文自动分词研究目前主要存在以下两方面的困难:
5.1 语言学上的困难
对词的定义的不统一性。“最小的能够独立应用的语言单位”是对词的形式定义,但对词的具体界定一直飘忽不定,至今没有一个公认的、具有权威性的词表[4]。彝文同样存在这个困难:不仅没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。
5.2 计算机方面的困难
5.2.1 没有合理的自然语言形式模型
彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的参考。
5.2.2 没有有效利用和表示分词所需的语法知识和语义知识
对任何一门语言的信息处理,都不是单纯意义上的语言学研究。语言信息处理在自动分词上的研究还广泛涉及到计算机科学、信息科学、系统论、控制论、心理学、数学、自动化技术、人工智能等[5]。目前彝文还没有权威公认的分词语法规则。
5.2.3 歧义切分和未登录词
在彝文分词过程中,有两大难题还一直没突破,即未登录词的识别和歧义切分的消除。
6 结语
本文根据规范彝文词法、句法的特点,采用正向最大匹配算法、以VC++作为开发语言,应用Visual Studio 6.0中Win32 SDK平台实现了基于既定词表彝文自动分词,并结合彝文的特点对实现彝文自动分词的难点进行了分析,对彝文自动分词技术研究做了一次探索,为彝文语音合成、信息检索、机器翻译、篇章理解、文本校对等应用处理系统的开发做好了前期准备,也为彝文文献资源的整理和知识的挖掘提供了一种新的工具和研究手段。虽然通过抽样测试证明其分词准确率和切分速度都比较满意,但对未登录词的识别和歧义现象的处理还有欠缺待,这在很大程度上限制了系统切词的效率和精度的提高,这些都需要在以后的研究中不断的探索与完善,从而更好地促进彝文信息处理技术的发展。
参考文献
[1]沙马拉毅.计算机彝文信息处理.电子工业出版社,2000:21—67
[2]孙铁利,刘延吉.中文分词技术的研究现状与困难.信息技术,2009;(7):187—189
[3]王艳.基于VC_MFC的中文自动分词算法及其软件的实现.广西师范学院学报(自然科学版),2008;(9):104—108
[4]周文帅,冯速.汉语分词技术研究现状与应用展望.山西师范大学学报(自然科学版),2006;(3):32—35
分词技术论文 篇8
1.1 自然语言处理技术的发展历程
语言在人类社会的形成和发展过程中有至关重要的作用, 只有掌握自然语言, 人与人之间才能更好地沟通和交流。在人类的大脑皮层中有专门处理自然语言的区域, 这也是人类智慧的根源和开发人工智能的关键。
自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称, 其目标是给计算机配备各种语言知识, 使其能够接受人们采用自然语言给它输入的命令, 理解人们所要表达的意思, 实现从一种语言到另一种语言的翻译等功能。
用自然语言与计算机进行通信, 这是人们长期以来所追求的。因为它既有明显的实际意义, 同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机, 而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
最早的自然语言理解方面的研究工作是机器翻译。1949年, 美国人威弗首先提出了机器翻译设计方案。20世纪60年代, 国外对机器翻译曾开展大规模的研究工作, 耗费了巨额费用, 但人们当时显然是低估了自然语言的复杂性, 语言处理的理论和技术均不成熟, 所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典, 翻译时一一对应, 技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单, 很多时候还要参考某句话前后的意思。
大约90年代开始, 自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是: (1) 对系统的输入, 要求研制的自然语言处理系统能处理大规模的真实文本, 而不是如以前的研究性系统那样, 只能处理很少的词条和典型句子, 只有这样, 研制的系统才有真正的实用价值; (2) 对系统的输出, 鉴于真实地理解自然语言是十分困难的, 并不要求系统能深层理解自然语言文本, 但要能从中抽取有用的信息, 例如, 对自然语言文本进行自动提取索引词, 过滤、检索、自动提取重要信息, 进行自动摘要等。
1.2 自然语言处理技术的主要研究问题
自然语言处理的研究分为基础性研究和应用性研究两部分, 这两类研究都是从语音和文本两方面进行的。基础性研究主要集中在语言学、数学、计算机科学等领域, 比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等。应用性研究主要集中在一些需要应用自然语言处理技术的领域, 比如信息检索、文本分类、自动文摘、机器翻译等。
作为计算机科学与数学建设所用的计算机语言, 通过建立形式化的计算模型来分析、理解和处理自然语言的学科, 自然语言处理致力于处理人和机器之间的交流沟通问题。目前科学家们已研制出了能处理计算机文本和语音的自然语言处理系统, 最终将会开发出能理解并生成人类语言的计算机系统。
1.3 自然语言处理技术的应用场景
自然语言处理技术研究的最终目的在于应用, 如机器翻译、智能检索、自动文摘、信息检索等。下面仅从机器翻译、搜索引擎两方面介绍国内企业对于自然语言处理技术的使用情况。
1.3.1 机器翻译
20世纪90年代以来, 国内机器翻译研究有了长足的进步。目前正在从事机器翻译研究的高校包括北京大学、清华大学、哈尔滨工业大学等, 研究所包括中国科学院计算技术研究所、自动化研究所等, 公司有译星公司、华建公司等。这些单位的研究成果在产品开发中得到了充分运用。例如, 译星、高立、通译等全自动翻译系统, 采用全自动机器翻译技术, 有简单的全自动翻译功能, 采用的主要技术不是全自动的机器翻译, 而是翻译记忆 (TM) 技术。
很多网站提供的在线翻译服务, 为网上阅读者快速理解和使用外文资源提供了方便, Google公司的快速翻译就是典型的应用事例。
1.3.2 中文搜索引擎
中文搜索引擎是以网络上的中文信息为主要对象, 可提供信息的自动收集、索引和检索等服务的数据库服务系统。常见的搜索引擎公司有Google、百度等。尽管这些企业所开发的搜索引擎产品各有特色, 其采用的自然语言处理技术却大致相近, 包括以下几种。
(1) 中文自动分词技术。目前大多数搜索引擎采用的都是关键词匹配查询方法。关键词查询的前提是将查询任务分解为关键词, 中文与西文的不同在于中文需要人为进行分词, 完善的中文自动分词技术可以有效排除各种歧义, 提高分词的准确率, 从而提高查询准确率。
(2) 短语自动识别技术。通常情况下, 用户所提出的查询请求以短语形式呈现, 如用户要查询“北京的建筑”, 应将“北京”和“建筑”联合起来作为一个短语查询, 过滤掉那些只有“北京”或只有“建筑”的文档。因此, 短语识别技术是搜索引擎公司常用的自然语言处理技术。
(3) 同义词处理技术。对专用领域的搜索引擎, 人工构造同义词表的方法能有效解决同义词问题。而对一般领域的搜索引擎, 需要从语料中自动取得同义词, 在给出一个关键词的情况下, 搜索引擎应能自动查找, 找到其同义词。
2 中文分词研究背景、目的及意义
2.1 背景
随着社会的发展和计算机科学的进步, 人机交互问题亟待解决, 虽然有了键盘和鼠标, 但依然不能满足人们日常生活的需要, 人们希望能有更方便、更快捷的方式与计算机进行交互, 语音交互成为一个研究的重点。语音交互特别是中文与计算机之间的交互问题, 对中国人来说是很重要的一个问题, 从使用中文与计算机进行交互以来, 一直没有完美的解决途径。中文与其他语言不同, 中文中字与字之间没有很好的标识符, 不像英文单词之间有空格, 所以, 中文中对句子进行分词, 是一个难点, 也是一个重点, 如果中文的分词问题都解决不好, 后面的处理效果就会非常差, 不能让人满意。
目前最常用、最基本的中文分词算法基于词典的方法, 正向最大匹配与逆向最大匹配的方法, 能对句子进行简单的分词。
2.2 目的
中文分词是自然语言处理技术中最基本和最重要的部分, 分词的好坏直接影响到后面的句法分析、语义分析, 只有分词分对了, 后面的处理效果才会好, 如果一句话连分词都分错了, 很可能这句话的意思就被理解反了, 例如, 一句话本来想表达的是“不高兴”的意思, 分词分错了, 可能就表达成了“高兴”的意思。所以, 研究中文分词, 如何提高分词的准确率, 是很重要的一个问题。
2.3 意义
解决了中文分词这个难题, 可以为后面的研究打下一个很好的基础。当自然语言处理技术的每一个小的方向都提高了以后, 就能方便快捷地与计算机使用自然语言进行沟通, 我们的生活也将变得更加丰富多彩。
3 现代中文词语切分的方法
中文自动切分就是把一句活自动转换为多个词的过程, 但由于中文的词汇间没有间隔, 同英语相比, 中文的切分较为困难。中文的切分是中文中句法分析、语义分析等的基础。
3.1 基本方法
(1) 基于词表的方法。
最大匹配法:正向最大匹配法、逆向最大匹配法。
全切分+路要选择。
(2) 字序列标记方法 (非基于词表方法) 。
3.2 中文分词的关键问题
在中文的切分中有两大关键问题至今仍未能得到很好的解决, 它们是歧义识别和未登录词识别。
3.2.1 歧义问题
切分歧义包括混合型歧义和交集型歧义以及二者结合所形成的组合型歧义。
(1) 交集型歧义。在一个字符串中若An与前m项和右P项都可结合成一个词, 此时对于字符An有两种不同的切法, 我们称对于此字符串中的An有交集型歧义。如字符串“从小学”中字符“小”既能与字符“从”组合成词“从小”, 又能与字符“学”组合成词“小学”。若不根据语境, 很难判断字符串“从小学”的正确切分方法, 那么这个字符串便存在着交集型歧义。
(2) 组合型歧义。对于字符串A, 若“Am Am+1”可成一个词, “Am”和“Am”也可以单独成词, 即称对于字符串A存在组合型歧义, 如“美军中将竞公然说”中的“中将”既可单独成词, 也可组合成词, 所以这句话存在组合型歧义。组合型歧义占常见的歧义问题的90%以上, 是最难避免的一类歧义, 值得研究人员予以重视。
(3) 混合型歧义。若字符串中存在混合型歧义, 那么此字符串中一定同时出现交集型和混合型两类歧义, 如“这样的人才能经受住考验”, 既可以切分成“这样的/人/才/能/经受住考验”, 也可切分成“这样的人/才能/经受住考验”。在这种情况下很难说清楚到底哪种切分才是正确的切分方式, 似乎各自有各自的道理, 所以混合型歧义是最难消除的一类歧义。
在上述歧义类型中有些歧义是可以避免的, 可以称为“伪歧义”。如对“切分成”能切分成“切/分成”和“切分/成”, 很明显只有后种切分方式是正确的, 即此字符串中不存在“真歧义”, 而是“伪歧义”。在真实的文本歧义中, 伪歧义的比例达94%, 可见大部分歧义在理论上是可以避免的。
3.2.2 未登录词的识别
未登录词即没有被收录在分词词表中但必须切分出来的词, 包括各类专有名词 (人名、地名、企业名等) 、缩写词、新增词汇等。
3.2.3 切分结果的评价指标
准确率在中文分词中能很好地评定一个分词系统的查准率, 主要针对单篇文章;召回率则能评定一个分词系统对于大量文档的覆盖范围, 即查全率;对于F值, 简单地来说就是两者的调和平均数, 对于一个分词系统的科学评定是非常重要的。例如对于文档“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 分词系统的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 正确的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”。
4 中文分词基本算法介绍
基于词典的方法 (字符串匹配、机械分词方法) :按照一定策略将待分析的汉字串与一个提前生成好的词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配成功。按照扫描方向的不同分为:正向匹配和逆向匹配。
4.1 正向最大匹配算法MM
(1) 从左向右取待切分中文句的m个字符作为匹配字段, m为词典中最长词条个数。
(2) 查找词典并进行匹配。若匹配成功, 则将这个匹配字段作为一个词切分出来。若匹配不成功, 则将这个匹配字段的最后一个字去掉, 剩下的字符串作为新的匹配字段, 进行再次匹配, 重复以上过程, 直到切分出所有词为止。
4.2 逆向最大匹配算法RMM
该算法是正向最大匹配的逆向思维, 从右向左去匹配, 匹配不成功, 将匹配字段的最前一个字去掉。
5 结语
中文分词技术在数字资源处理、在线翻译、搜索引擎技术中有大量的应用, 值得我们关注并认真探究, 在不断的探究中, 不断开发更加便捷实用的算法以达到更好的效果。只有实践才是硬道理, 只有不断探索, 敢于创新才能总结出更佳的办法。
中文分词, 作为一个需要进行长期研究的领域, 虽然国内自然语言处理的研究已取得了不少成果, 但准确率还没有达到让人很满意的程度, 随着研究的不断深入, 分词技术会越来越成熟, 一定会推动自然语言处理技术向前发展。
摘要:中文分词是自然语言处理处理的基础, 有着极其广泛的实际应用。可以说, 在各类中文信息处理软件 (系统) 中, 中文分词都是不可或缺的环节。随着互联网在中国的兴起, 对中文信息处理提出更高要求, 即在语义层面上处理中文, 这使得中文分词算法的研究显得更加困难, 中文分词技术的发展显得更为重要。
分词技术论文 篇9
1 交通信息检索子系统总体框架
整个交通管理检索系统包含检索模块、索引模块、信息抽取模块和本文所研究的分词模块, 分词模块为其它的模块提供支持, 信息抽取、索引建立以及信息检索都涉及相应的分词工作。信息抽取模块对需要进行信息抽取工作的数据提交分词引擎进行分词处理, 然后进行数据的提取工作, 索引模块对需要建立索引的数据提交分词模块处理后, 建立索引文件提供给检索模块使用, 检索模块根据用户或者其它部分的请求, 对请求的关键词等提交分词模块进行分词处理后进行相应的检索并返回检索结果。
2 中文分词模块的设计
2.1 切分词图
切分词图是本文使用的核心的数据结构。对于一个句子, 如果把两个汉字之间的间隔作为节点, 把一个汉语词作为连接两个节点的有向边, 那么我们就可以得到一个切分有向无环图。进行歧义切分前, 将待切分文本出现在分词词典中的每一个词用一条有向边在词图中表示, 得到文本的全切分词图。如“交通信号灯”的全切分词图如图1所示。
2.2 歧义词切分
设句子S由一系列词串w1w2...wn构成, 各个词串的联合概率P (w1w 2...wn) 决定了该句子的信息量。而将P (w1w 2...wn) 分解成条件概率的形式就为:
假设某一个词出现的概率只依赖于它之前出现的n-1个词, 即引入n-1阶马尔可夫假设, 自然语言模型称为n元模型。一元模型假设上下文无关, 没有考虑上下文的信息, 三元以上 (包括三元) 模型的使用会导致严重的数据稀疏问题, 在本文研究的交通专有领域中, 采用二元模型进行分词的建模分析, 即有:
为方便处理, 令
这样对切分文本的粗分处理就转化为: (1) 建立切分文本的全切分词图; (2) 定义词图中有向边的长度为-ln P (wi|wi-1) ; (3) 求解切分词图中使P* (S) 最小的N条路径, 即最优的N种粗分结果。求解最优N条路径本文使用了一种基于Dijkstra的扩展方法, 改进的地方在于每个节点处记录N个最短路径值, 并记录相应路径上当前节点的前驱;如果同一长度对应多条路径, 必须同时记录这些路径上当前节点的前驱;通过回溯即可求出N条路径, 即N种最优粗分结果;在对N种粗分结果进行未登录词识别后, 将未登录词按照普通词参与计算-ln P (wi|wi-1) , 得到每一种粗分结果的P* (S) , 最终P* (S) 对应最小值的粗分路径即为最终的分词结果。
2.3 基于角色标注的人名识别
(1) 角色定义。
将一个句子中的所有词划分为:人名的内部组成、上下文、其他词等, 称为中国人名的构成角色[3]。人名的部分角色构成如表1所示。
(2) 角色语料生成。
人名识别训练所用的角色语料库是在1998年1月份人民日报语料库基础上按照表1中的人名角色修正得到的。例如原始语料如下。
会/n上/f, /w我/r局/n局长/n赵国庆/nr指出/v, /w上/f半/m年/t全市/n交通/n安全/n形势/n总体/d保持/v平稳/a状态/n
相应的修正后用于人名识别的角色语料如下。
会/A上/A, /A我/A局/A局长/K赵/B国/C庆/D指出/L, /A上/A半/A年/A全市/A交通/A安全/A形势/A总体/A保持/A平稳/A状态/A。
(3) 角色标注。
假定W= (w1, w2, ..., wn) 是文本粗分后的结果, T= (t1, t2, ..., tn) 为角色序列, R是角色标注的最终结果, 则有:R=argTmax P (T|W) 。
为了减少参数空间的规模, 本文提出两个假设: (1) wi的出现只与其自身的角色ti相关。 (2) 引入上下文的相关性, 角色ti的出现与前一个单词wi-1的角色ti-1相关。则有:
使用文献[4]介绍的经典Veterbi算法得到R的最优标注结果, 然后对标注结果使用简单的模板匹配识别出人名。
2.4 基于词典的正向最大匹配地名识别
考虑到重庆市交通领域内的文本信息包含较多的重庆市地名而外省市地名较少的特点, 本文根据收集的地名及专有地名词表库采用最大正向匹配法进行地名识别, 收集的地名库中包含有82312个重庆地名, 基本上涵盖了在用的一般地名。地名识别流程图如图2所示。以“杨柳街附近出现拥堵”为例说明最大正向匹配法识别地名的过程。该句经分词粗分阶段后, 得到其中一个粗分结果为“杨柳/街/附近/出现/拥堵/”, 除地名未被识别出来外, 其他分词结果正确。采用正向最大匹配法, 检查切分碎片“杨柳”, 在地名词典库中查找, 存在以“杨柳”起始的地名, 即第一个字匹配成功;同理到第三个字均匹配成功;然后查找“杨柳街附近”是否在地名词典库中存在, 结果不存在, 由此可知能够最大匹配的是“杨柳街”, 合并切分碎片, 识别出一个地名;接着检查是否已匹配到词尾, 如果不是, 继续上述的最大匹配方法直到词尾, 否则输出地名识别结果, 此句地名识别结束。
2.5 评估选优
切分的目标是寻找句子S的一条概率乘积最大的词语序列, 亦即句子S的交叉熵最小的词语序列。对S的N-最优粗分结果进行未登录词识别后, 对于每一条识别后的切分路径, 在评估选优阶段将未登录词作为普通词参与计算相应的交叉熵, 得到交叉熵为最小值的切分路径为最终的句子切分结果。
3 实验与分析
本文实现的中文分词系统使用的词典包含180225条记录的词语表。使用的训练语料为收集的1998年1月份人民日报语料库和交通领域的语料库, 其中, 人民日报语料库包含893432个单词5347356个字符, 交通领域语料库包含近14万字。从人民日报中提取出包含有339230个字、104372个词的语料作为测试语料1;从交通领域内提取出包含有32496个字、13232个词的语料作为测试语料2, 对本分词系统分别进行在这两种测试预料下的测试, 测试结果如表2和表3所示。
表2和表3对三种切分算法做了比较。其中, F M M表示正向最大匹配分词法;I C T C L A S是中科院计算所研制的分词系统;N-Best是本文设计的对切分文本只进行N-最优路径求解的粗切分结果。实验结果表明, 在测试语料1即人民日报测试集下本文设计的分词系统的准确率和召回率没有ICTCLAS高, 而在测试语料2即交通领域内高于基于FMM分词方法和ICTCLMS, 结果证明本文设计的针对交通领域的分词方法是切实可行的。
4 结语
本文在分析交通管理领域特点的基础上, 给出了适合该领域内信息检索系统的分词方法。试验结果表明, 该系统在该领域背景下具有较高的分词准确率和召回率, 本文使用基于一阶马尔可夫模型的最小交叉熵模型进行歧义词的消解处理, 使召回率达到91.69%, 准确率达到90.45%, 证明本文设计的分词方法是有效的。
摘要:如何建立适于交通管理系统下信息检索子系统中的分词模块是提高检索性能的关键所在。本文在分析交通管理领域特点的基础上, 提出了适合交通管理领域的分词方法, 实现了适用于该领域内的分词系统。实验结果表明, 系统测试的准确率和召回率分别达到95.9%和95.1%。
关键词:中文分词,歧义切分,N最优路径,人名识别,地名识别
参考文献
[1]许嘉璐、傅永和.现代汉语词汇研究[M].广东:广东教育出版社, 2006:1~85.
[2]黄昌宁、赵海.中文分词十年回顾[J].中文信息学报, 2007, 21 (3) :8~19.
分词技术论文 篇10
伴随着计算机的日益普及, 互联网的迅猛发展, 文本的数量 (电子邮件、新闻、网页、科技论文等) 在不停的增长, 因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下, 自然语言处理技术的地位和作用日益重要。经过几十年的研究, 计算机处理自然语言的理论基础日趋成熟, 应用范围也越来越广, 初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤, 是其他高层应用的基础, 起着极其重要的作用。
2. 分句处理
2.1 分句处理技术简介
分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义, 主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割, 完成分句处理。
2.2 分句算法的设计
在进行分词之前首先应对句子进行分割, 分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通常能表达完整的语义信息, 所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号, 以它们为标志进行语句的分句处理。
分句处理的具体算法设计如下:
(1) 判断答案字符串a String是否为空, 若为空则结束;
(2) 取a String左侧的一个字符存入t Char中, 判断t Char是否是句末标点符或回车符, 若不是, 转 (5) ;
(3) 若t Char是句末标点符号, 则子句数组下标加1, 并将字符t Char从字符串a String中删掉, 转 (1) ;
(4) 若t Char为回车符或者换行符, 去掉a String左侧两字符, 并将字符t Char从字符串a String中删掉, 转 (1) 。
(5) 将t Char合并到子句数组当前元素中, 去掉a String左侧一字符, 转 (1) 。
上述算法中, a String为待处理的字符串, t Char为字符类型变量。
3. 分词处理
3.1 中文分词技术简介
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础, 对于输入的一段中文, 成功的进行中文分词, 可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言理解的研究范畴。
目前主要有三种中文词算法, 分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。介绍如下:
1) 基于字符串匹配的分词算法
基于字符串匹配的分词方法也叫机械匹配法, 是分词技术的诸多理论算法中较简单实用的一种分词算法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配, 若在词典中找到某个字符串, 则匹配成功 (识别出一个词) 。常用的几种机械分词方法如下: (1) 正向最大匹配法 (由左到右的方向) (2) 逆向最大匹配法 (由右到左的方向) (3) 最少切分 (使每一句中切出的词数最小) 还可以将上述各种方法相互组合。
2) 基于统计的分词方法
在很多情况下, 最大匹配时即使采用双向扫描也不能检查出所有的交集型切分歧义。为了消除歧义, 我们还需要其他知识。这也是自然语言处理里, 统计方法出现的原因。这种方法只需对语料中的字组频度进行统计, 不需要切分词典, 因而又叫做无词典分词法或统计取词方法。从形式上看, 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时, 便可认为此字组可能构成了一个词。
3) 基于理解的分词方法
通常的分析系统, 都力图在分词阶段消除所有歧义切分现象。而基于理解的分词方式则在后续过程中来处理歧义切分问题, 其切分过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断, 即它模拟了人对句子的理解过程。
目前无法作出结论证明以上三个算法中哪一个是最好的, 针对具体问题采用不同的算法。这三种算法都有自己的利弊, 它们的对比见表1所示:
3.2 自动分词的评价标准
一般对自动分词有三个评价标准:正确率、召回率、调和平均数。其定义如下:
1.分词正确率。
表示切分出的词语中出现在标准结果中的词语比例, 计算公式如下:
2.分词召回率。
表示标准结果中被正确切分出的词语比例, 计算公式如下:
3.调和平均数。
是正确率和召回率的调和平均数, 计算公式如下:
由定义可见, 分词正确率和分词召回率是互相矛盾的, 要得到高的分词召回率需保留多个分词结果以保证更大可能地包含正确的结果, 而这样却会降低分词正确率。所以引入了调和平均数作为评价参数。
3.3 分词算法设计
英文是以词为单位的, 词和词之间是靠空格隔开, 而中文是以字为单位, 句子中所有的字连起来才能描述一个意思。
目前主流的分词算法主要有三种, 分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。分词本文采用的是最大词长匹配算法。这是一种基于字符串匹配的分词算法, 该方法依据一个分词词表和一个基本的切分评估原则, 即“长词优先”原则来进行分词。这种评估原则虽然在大多数情况下是合理的, 但也会引发一些切分错误。采用这种方法的原因是它简单、快速。
最大匹配算法需要一个已知的词汇数据库作为支撑, 本文以知网数据库作为该算法的词库。最大匹配算法的主要思想如下:
(1) 首先统计出《知网》数据库中的最长词条所包含的字数, 本文暂时将称其为最大词长, 并将该长度记为Max L;
(2) 从每个分句中的第一个字开始向后取L (L≤Max L) 个字;
(3) 在《知网》数据库中查找是否有由此L个字组成的词。如果有, 则一个词语分解成功, 并转 (5) ;
(4) 将这L个字中的最后一个字去掉, 并令L=L-1, 转至第 (3) 步骤 (直至L=1, 说明L已经是一个单字) ;
(5) 从这个句子中将该词删除, 并判断句子是否已经为空, 如果为空, 则返回第 (2) 步, 否则, 算法结束。
其中Max L表示《知网》数据库中的最长词条所包含的字数。当前最大词长L≤Max L。
4. 结束语
中文分词技术应时代的要求应运而生, 在很大程度上满足了人们对自然语言处理的需要, 解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难, 我们相信在未来的几年里, 通过对中文分词技术的深入研究, 必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。
参考文献
[1]李向宏, 王丁, 黄成哲等.自然语言句法分析研究现状和发展趋势[J].微处理机, 2003, 4 (2) :28-29.
[2]黄昌宁.中文信息处理的主流技术是什么[J].计算机世界报, 2002 (2) :4.
[3]曹倩, 丁艳, 王超, 潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究, 2004.5:71-73.
[4]傅立云, 刘新.基于词典的汉语自动分词算法的改进[J].情报杂志, 2006, 1:40-41.
分词用法误区透视 篇11
误区一:认为ving用于修饰物,ved用于修饰人
同学们做题中会错误地认为:ving用于修饰物,ved用于修饰人。这种思维在下面两个例子中应用没有什么问题。
The problem referring to the pollution in this areawas discussed at the meeting.
I found him excited when I mentioned that exciting news.
但是一切问题都适用吗?请看下面几道考题:
1. When his father know that he had failed in the exam,he felt angry and shouted,“You_______boy make me_______over and over again.”
A. disappointed; disappointed
B. disappointing; disappointing
C. disappointed; disappointing
D. disappointing; disappointed
2. There was an_______expression on her face for she received an_______telephone call from her best friend.
A. interesting; excited
B. excited; interested
C. excited; exciting
D. exciting; interesting
3. During a briefing to local and international media,Chinese Government officials announced to the world their ongoing commitment_______with Animal Asia_______caged Moon Bears and to end the practice of bear farming in China.
A. to work; and rescue suffering
B. to work; to rescue suffered
C. to working; and rescue suffering
D. to working; to rescue suffering
答案 1~3 DCD
以下通过讲解帮助学生更正该英语学习误区:
Seeing the boiling water,Watt got the idea of
(定语)(名词)
the steam engine.
We should drink boiled water rather than cold
(定语)(名词)
water to keep fit.
由boiling water(沸水)与boiled water(开水)两个情景可推知:boiling指该动作正在进行,而 boiled则指该动作已经完成。
There was a terrible noise following the sudden
(定语)(名词)
burst of light.
The manager came in,followed by the secretary,
(名词)(定语)
who was holding the files needed for the meeting.
正确的解题技巧:
the noise followthe light
the secretary followthe manager
the noise与the secretary是follow(跟随)这一动作的发出者,故两者之间是主动关系,用follow的形容词形式following来修饰名词the noise与the secretary;而the light与the manager则是follow(跟随)这一动作的承受者,故两者为被动关系,用follow的过去分词形式followed来修饰名词the light与the manager。
同理可得:
the boy disappoint his father
receiving an telephone call execite her (expression)
peoplecage Moon Bear suffer pain
误区二:动名词=现在分词
动名词和现在分词在形式上完全相同,但意义和用法上却各有不同。现在分词具有形容词或副词的特点,通常在句中作定语、状语、补语和表语,而动名词具有名词的特点,因此在句子中可用作主语、表语、宾语以及定语。由于动名词是动词的一种形式,因此动名词也具有动词的一些特征,动名词可以带直接宾语或被副词修饰。如:
My hobby is collecting stamps. 我的爱好是集邮。(stamps是动名词collecting的宾语)
I like driving fast. 我喜欢开快车。(副词fast修饰动名词driving)
作定语时,区分现在分词和动名词的判断依据是:名词与现在分词之间存在逻辑上的主谓关系。例如:sleeping baby和reading room,显然sleeping是现在分词,因为sleeping=baby is sleeping,而reading room不等同于room is reading,所以reading是动名词。现在分词作定语需注意以下两点:
1. 现在分词的完成时不可作定语。如:
Tom looked at Jenny,tears_______his eyes,and shouted out the words_______in his heart for years.
A. filling; having been hidden
B. filled; hidden
C. filling; hidden
D. filled; hiding
答案 C
2. 某些作定语的现在分词已不再表示动作,已由分词转变为形容词词性。如:a missing boy,a sleeping dog。
作表语时,动名词表示主语的内容,而现在分词作表语表示主语的特征和属性。如:
Her job is raising pigs. 她的工作是养猪。(表示主语的内容)
It is annoying that the meeting should be put off. 会议延期了使人扫兴。(表示主语的特征)
误区三:Done 与Having (been) done的状语用法
若句中先后发生的两个动作均由主句主语发出或相关,那么先发生的动作由Having (been) done来引导从句作整个句子的状语。但众多学生却在练习中遇到了以下两例题目,感到极为困惑。
1._______by the article,the woman wrote a letter to the newspaper. (shock)
2._______(repair),the bicycle looked as good as new.
答案 1. Shocked 2. Having been repaired
在解题过程中,学生很容易就可以分析出主句主语the woman发出 shock与wrote两个动作,shock这一动作先于动作wrote;主句主语the bicycle与repair和looked均相关,repair这一动作先于动作looked。两题的参考答案却与所学不符,那么错误到底出在哪呢?
原因在于shock这一动词加上“ed”,不再表示动作,已经由动词shock的过去分词转变为其形容词词性,既然已经不是分词形式,又哪来的现在完成式这一结构“having done”?
Shocked by the article,the woman wrote a letter to the newspaper. = (Because the woman was) shocked by the article,the woman wrote a letter to the newspaper.
以上例题可还原为because引导的原因状语从句,由省略定理可得,当从句的主语与主句的主语一致时,省略掉从句中的主语以及后面的be动词。
巩固练习
1._______in the mountain for a week,the two students were finally saved by the local police.
A. Having lost
B. Lost
C. Being lost
D. Losing
2._______with so much trouble,we failed to complete the task on time.
A. Faced
B. Face
C. Facing
D. To face
3._______in the queue for half an hour,the old man suddenly realized he had left the cheque in the car.
A. Waiting
B. To wait
C. Having waited
D. To have waited
4._______her to the party,he felt very happy.
A. Invited
B. Being invited
C. Having invited
D. Having been invited
现在分词和过去分词的用法 篇12
一、表语
1. We are very surprised at the news. ( 这个消息让我们感到很震惊,此句中主语we是动作的承受者。)
2. What you said is really inspiring. ( 你所说的真的让我们很惊讶,主语从句what you said是动作的执行者。)
二、定语
1. We only sell used book in our bookstore. ( 我们的书店只卖用过的书, 表示此书已经用过了,表示完成且有被动的意义。)
2. It was really inspiring news that Alice should win. ( 那个让人惊讶的消息就是安莉斯能够赢。此句中给人们带来惊讶的是消息,所以具有主动的意义。)
三、状语
1. Asked about his family,he made no answer. ( 当被问到他的家庭情况时,他没有回答。Ask的逻辑主语是he,两者表示被动关系,此句的完整结构是when he was asked)
2. Hearing the exciting news,the boy jumped for joy. ( 当听到这个让人激动的消息的时候,这个男孩高兴地跳了起来。此句中hearing的逻辑主语是the boy两者表示主动关系,此句写完整是when the boy was hearing the exciting news)
四、宾补
1. If you want to make yourself respected,you are about all to respect others. ( 如果你想让自己被尊重,你必须先尊重别人。表示宾语yourself和宾补respected之间是被动意义。)
2. Tom could hear them arguing outside. ( 汤母能听到他们正在外面吵架。宾语them和宾补arguing之间是主动关系且表示宾语的动作正在进行。) 从以上的例子可以看出想要正确地选择非谓语动词需要一定的步骤:
( 1) 根据句子结构确定分词的语法成分
( 2) 找准逻辑主语
( 3) 判断主、被动关系
( 4) 选定现在或过去分词
1. There was a terrible noise____the sudden burst of light.
A. followed B. following C. to be followed D. being followed
简析: 根据语法分析可知,待选部分是修饰noise的定语短语; 据常识 “雷声随闪电之后到来”,自然A noise follows the sudden burst of light,noise与follow是主动关系。因此,该题应选B。
2. The Olympic Games,____ in 776 B. C.,didn 't include women until 1912.
A. first playing B. to be first played C. first played D. to be playing
简析: 根据语法分析可知,待选部分是一个作定语、修饰The Olympic Games的后置分词短语; The Olympic Games是动词play的承受者,且已完成( in 776 B. C. ) 。因此,该题选C。
3. What's the language____in Germany?
A. speaking B. spoken C. be spoken D. to speak
简析: 该题应选B。测试过去分词作后置定语表达被动,等于定语从句which is spoken。
4. Most of the people____to the party were famous scientists.
A. invited B. to invite C. being invited D. inviting
简析: 该题应选A。测试过去分词作后置定语表达被动,等于定语从句who were invited。
5. The first textbooks____for teaching English as a foreign language came out in the 16th century.
A. having written B. to be written C. being written D. written
简析: 该题应选D。测试过去分词作后置定语表达被动,等于定语从句which were written。