自然语言处理技术(共12篇)
自然语言处理技术 篇1
1 自然语言处理技术概述
1.1 自然语言处理技术的发展历程
语言在人类社会的形成和发展过程中有至关重要的作用, 只有掌握自然语言, 人与人之间才能更好地沟通和交流。在人类的大脑皮层中有专门处理自然语言的区域, 这也是人类智慧的根源和开发人工智能的关键。
自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称, 其目标是给计算机配备各种语言知识, 使其能够接受人们采用自然语言给它输入的命令, 理解人们所要表达的意思, 实现从一种语言到另一种语言的翻译等功能。
用自然语言与计算机进行通信, 这是人们长期以来所追求的。因为它既有明显的实际意义, 同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机, 而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
最早的自然语言理解方面的研究工作是机器翻译。1949年, 美国人威弗首先提出了机器翻译设计方案。20世纪60年代, 国外对机器翻译曾开展大规模的研究工作, 耗费了巨额费用, 但人们当时显然是低估了自然语言的复杂性, 语言处理的理论和技术均不成熟, 所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典, 翻译时一一对应, 技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单, 很多时候还要参考某句话前后的意思。
大约90年代开始, 自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是: (1) 对系统的输入, 要求研制的自然语言处理系统能处理大规模的真实文本, 而不是如以前的研究性系统那样, 只能处理很少的词条和典型句子, 只有这样, 研制的系统才有真正的实用价值; (2) 对系统的输出, 鉴于真实地理解自然语言是十分困难的, 并不要求系统能深层理解自然语言文本, 但要能从中抽取有用的信息, 例如, 对自然语言文本进行自动提取索引词, 过滤、检索、自动提取重要信息, 进行自动摘要等。
1.2 自然语言处理技术的主要研究问题
自然语言处理的研究分为基础性研究和应用性研究两部分, 这两类研究都是从语音和文本两方面进行的。基础性研究主要集中在语言学、数学、计算机科学等领域, 比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等。应用性研究主要集中在一些需要应用自然语言处理技术的领域, 比如信息检索、文本分类、自动文摘、机器翻译等。
作为计算机科学与数学建设所用的计算机语言, 通过建立形式化的计算模型来分析、理解和处理自然语言的学科, 自然语言处理致力于处理人和机器之间的交流沟通问题。目前科学家们已研制出了能处理计算机文本和语音的自然语言处理系统, 最终将会开发出能理解并生成人类语言的计算机系统。
1.3 自然语言处理技术的应用场景
自然语言处理技术研究的最终目的在于应用, 如机器翻译、智能检索、自动文摘、信息检索等。下面仅从机器翻译、搜索引擎两方面介绍国内企业对于自然语言处理技术的使用情况。
1.3.1 机器翻译
20世纪90年代以来, 国内机器翻译研究有了长足的进步。目前正在从事机器翻译研究的高校包括北京大学、清华大学、哈尔滨工业大学等, 研究所包括中国科学院计算技术研究所、自动化研究所等, 公司有译星公司、华建公司等。这些单位的研究成果在产品开发中得到了充分运用。例如, 译星、高立、通译等全自动翻译系统, 采用全自动机器翻译技术, 有简单的全自动翻译功能, 采用的主要技术不是全自动的机器翻译, 而是翻译记忆 (TM) 技术。
很多网站提供的在线翻译服务, 为网上阅读者快速理解和使用外文资源提供了方便, Google公司的快速翻译就是典型的应用事例。
1.3.2 中文搜索引擎
中文搜索引擎是以网络上的中文信息为主要对象, 可提供信息的自动收集、索引和检索等服务的数据库服务系统。常见的搜索引擎公司有Google、百度等。尽管这些企业所开发的搜索引擎产品各有特色, 其采用的自然语言处理技术却大致相近, 包括以下几种。
(1) 中文自动分词技术。目前大多数搜索引擎采用的都是关键词匹配查询方法。关键词查询的前提是将查询任务分解为关键词, 中文与西文的不同在于中文需要人为进行分词, 完善的中文自动分词技术可以有效排除各种歧义, 提高分词的准确率, 从而提高查询准确率。
(2) 短语自动识别技术。通常情况下, 用户所提出的查询请求以短语形式呈现, 如用户要查询“北京的建筑”, 应将“北京”和“建筑”联合起来作为一个短语查询, 过滤掉那些只有“北京”或只有“建筑”的文档。因此, 短语识别技术是搜索引擎公司常用的自然语言处理技术。
(3) 同义词处理技术。对专用领域的搜索引擎, 人工构造同义词表的方法能有效解决同义词问题。而对一般领域的搜索引擎, 需要从语料中自动取得同义词, 在给出一个关键词的情况下, 搜索引擎应能自动查找, 找到其同义词。
2 中文分词研究背景、目的及意义
2.1 背景
随着社会的发展和计算机科学的进步, 人机交互问题亟待解决, 虽然有了键盘和鼠标, 但依然不能满足人们日常生活的需要, 人们希望能有更方便、更快捷的方式与计算机进行交互, 语音交互成为一个研究的重点。语音交互特别是中文与计算机之间的交互问题, 对中国人来说是很重要的一个问题, 从使用中文与计算机进行交互以来, 一直没有完美的解决途径。中文与其他语言不同, 中文中字与字之间没有很好的标识符, 不像英文单词之间有空格, 所以, 中文中对句子进行分词, 是一个难点, 也是一个重点, 如果中文的分词问题都解决不好, 后面的处理效果就会非常差, 不能让人满意。
目前最常用、最基本的中文分词算法基于词典的方法, 正向最大匹配与逆向最大匹配的方法, 能对句子进行简单的分词。
2.2 目的
中文分词是自然语言处理技术中最基本和最重要的部分, 分词的好坏直接影响到后面的句法分析、语义分析, 只有分词分对了, 后面的处理效果才会好, 如果一句话连分词都分错了, 很可能这句话的意思就被理解反了, 例如, 一句话本来想表达的是“不高兴”的意思, 分词分错了, 可能就表达成了“高兴”的意思。所以, 研究中文分词, 如何提高分词的准确率, 是很重要的一个问题。
2.3 意义
解决了中文分词这个难题, 可以为后面的研究打下一个很好的基础。当自然语言处理技术的每一个小的方向都提高了以后, 就能方便快捷地与计算机使用自然语言进行沟通, 我们的生活也将变得更加丰富多彩。
3 现代中文词语切分的方法
中文自动切分就是把一句活自动转换为多个词的过程, 但由于中文的词汇间没有间隔, 同英语相比, 中文的切分较为困难。中文的切分是中文中句法分析、语义分析等的基础。
3.1 基本方法
(1) 基于词表的方法。
最大匹配法:正向最大匹配法、逆向最大匹配法。
全切分+路要选择。
(2) 字序列标记方法 (非基于词表方法) 。
3.2 中文分词的关键问题
在中文的切分中有两大关键问题至今仍未能得到很好的解决, 它们是歧义识别和未登录词识别。
3.2.1 歧义问题
切分歧义包括混合型歧义和交集型歧义以及二者结合所形成的组合型歧义。
(1) 交集型歧义。在一个字符串中若An与前m项和右P项都可结合成一个词, 此时对于字符An有两种不同的切法, 我们称对于此字符串中的An有交集型歧义。如字符串“从小学”中字符“小”既能与字符“从”组合成词“从小”, 又能与字符“学”组合成词“小学”。若不根据语境, 很难判断字符串“从小学”的正确切分方法, 那么这个字符串便存在着交集型歧义。
(2) 组合型歧义。对于字符串A, 若“Am Am+1”可成一个词, “Am”和“Am”也可以单独成词, 即称对于字符串A存在组合型歧义, 如“美军中将竞公然说”中的“中将”既可单独成词, 也可组合成词, 所以这句话存在组合型歧义。组合型歧义占常见的歧义问题的90%以上, 是最难避免的一类歧义, 值得研究人员予以重视。
(3) 混合型歧义。若字符串中存在混合型歧义, 那么此字符串中一定同时出现交集型和混合型两类歧义, 如“这样的人才能经受住考验”, 既可以切分成“这样的/人/才/能/经受住考验”, 也可切分成“这样的人/才能/经受住考验”。在这种情况下很难说清楚到底哪种切分才是正确的切分方式, 似乎各自有各自的道理, 所以混合型歧义是最难消除的一类歧义。
在上述歧义类型中有些歧义是可以避免的, 可以称为“伪歧义”。如对“切分成”能切分成“切/分成”和“切分/成”, 很明显只有后种切分方式是正确的, 即此字符串中不存在“真歧义”, 而是“伪歧义”。在真实的文本歧义中, 伪歧义的比例达94%, 可见大部分歧义在理论上是可以避免的。
3.2.2 未登录词的识别
未登录词即没有被收录在分词词表中但必须切分出来的词, 包括各类专有名词 (人名、地名、企业名等) 、缩写词、新增词汇等。
3.2.3 切分结果的评价指标
准确率在中文分词中能很好地评定一个分词系统的查准率, 主要针对单篇文章;召回率则能评定一个分词系统对于大量文档的覆盖范围, 即查全率;对于F值, 简单地来说就是两者的调和平均数, 对于一个分词系统的科学评定是非常重要的。例如对于文档“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 分词系统的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”, 正确的切分结果为“该书对地理学的贡献甚至达到了西方地理学的现代水平”。
4 中文分词基本算法介绍
基于词典的方法 (字符串匹配、机械分词方法) :按照一定策略将待分析的汉字串与一个提前生成好的词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配成功。按照扫描方向的不同分为:正向匹配和逆向匹配。
4.1 正向最大匹配算法MM
(1) 从左向右取待切分中文句的m个字符作为匹配字段, m为词典中最长词条个数。
(2) 查找词典并进行匹配。若匹配成功, 则将这个匹配字段作为一个词切分出来。若匹配不成功, 则将这个匹配字段的最后一个字去掉, 剩下的字符串作为新的匹配字段, 进行再次匹配, 重复以上过程, 直到切分出所有词为止。
4.2 逆向最大匹配算法RMM
该算法是正向最大匹配的逆向思维, 从右向左去匹配, 匹配不成功, 将匹配字段的最前一个字去掉。
5 结语
中文分词技术在数字资源处理、在线翻译、搜索引擎技术中有大量的应用, 值得我们关注并认真探究, 在不断的探究中, 不断开发更加便捷实用的算法以达到更好的效果。只有实践才是硬道理, 只有不断探索, 敢于创新才能总结出更佳的办法。
中文分词, 作为一个需要进行长期研究的领域, 虽然国内自然语言处理的研究已取得了不少成果, 但准确率还没有达到让人很满意的程度, 随着研究的不断深入, 分词技术会越来越成熟, 一定会推动自然语言处理技术向前发展。
摘要:中文分词是自然语言处理处理的基础, 有着极其广泛的实际应用。可以说, 在各类中文信息处理软件 (系统) 中, 中文分词都是不可或缺的环节。随着互联网在中国的兴起, 对中文信息处理提出更高要求, 即在语义层面上处理中文, 这使得中文分词算法的研究显得更加困难, 中文分词技术的发展显得更为重要。
关键词:自然语言处理技术,中文分词,正向最大匹配算法
自然语言处理技术 篇2
摘要
本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。
关键词 自然语言处理 应用 发展趋势
一.自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向:(1)语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。(2)数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。(3)人工智能和认知科学方向
在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。(4)语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。二.自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、书面语输入、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
这13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑学[4]。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。三.自然语言处理研究的发展趋势
21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力[5]。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点[6]:第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。
自然语言处理技术 篇3
英语学科教学中的“语言技能”与“语言知识”之间的关系问题,既是一个外语教育的理论问题,也是一个外语教育的实践问题。这个问题直接关系到英语教学应该走什么路和如何走这条路的问题。
《义务教育英语课程标准(2011年版)》在描述英语学科的课程目标时指出:“综合语言运用能力的形成是建立在语言技能、语言知识、情感态度、学习策略和文化意识等方面整体发展的基础之上的。”(教育部,2012)这就表明,“语言技能”与“语言知识”之间的关系在顺序上表现为“语言技能”是第一位的,“语言知识”是第二位的。这种表述,从根本上有别于传统教学大纲中“基础知识”与“基本技能”的表述顺序,因此不少英语教师对这一表述不能接受,并反映在教学行为之中。
回答“语言技能”与“语言知识”之间的关系问题,是不能简单地从人们的感觉和经验层面进行阐述的,而必须基于科学的语言哲学观,在一个科学的话语系统之内进行理性的对话,否则只能是近乎“猫与狗”之间的无谓的论争。
问题1:“语言技能”与“语言知识”孰先孰后?
所谓“语言技能”,就是指听、说、读、写四项技能。过去讲听、说、读、写、译五项技能,是因为“译”是在“听”和“读”的基础上的“说”和“写”的一种特殊表达方式,所以把五项语言技能改为四项语言技能后,“译”实际上仍然是存在的。所谓“语言知识”,就是指语音、词汇、句法、语篇的知识。一言以蔽之,学习语言技能就是“learn the language”,学习语言知识,就是“learn about the language”。
恩格斯在《家庭、私有制和国家的起源》(人民出版社,1972年版)中指出,早在“蒙昧时代”人类就有了语言活动,人类的语言就开始萌芽,不过,那个时候的语言活动还只停留于听和说的活动,由于文字的产生远远晚于语言的产生,那时的人类尚没有读和写的活动,显然就更不可能对语言有理性上的抽象和概括,因而也就不可能产生关于语言的知识。
人类语言的产生和发展规律如此,人的个体的语言能力的形成和发展规律也是如此。
问题2:“语言技能”与“语言知识”的关系是什么?
“语言技能”属于语言实践行为,“语言知识”是对语言实践的规律的高度抽象和概括,是对语言运用的理性认识。“语言技能”是“语言知识”产生和发展的基础,“语言知识”又反过来规范和监查语言的运用。这就恰如毛泽东在《实践论》(人民出版社,1991年版)中所指出的那样,“理性认识依赖于感性认识,感性认识有待于发展到理性认识,这就是辩证唯物论的认识论。”
问题3:如何在教学实践中正确处理“语言技能”与“语言知识”的关系?
长期以来,制约我国中小学英语教学发展的一个老、大、难的问题就是英语教师“基础知识”先于“基本技能”的观念根深蒂固,相当一部分英语教师在课堂教学中至今仍然采取“生词领先,语法跟上”的教法。要在教学实践中正确处理“语言技能”与“语言知识”的关系,必须先改变课程实施的观念,同时在以下几个方面作出努力。
第一,小学英语生词教学必须在语境中通过师生话语交往活动进行。英语生词教学,不可以孤立地进行,因为孤立的单词不产生特定的意义。生词的读音,应该在话语语音、直观教具和完整的话语的反复刺激作用下形成意义理解、用法理解和记忆,而不应该通过首先学习音标来认读生词,即便是在小学高年级英语教学中也没有必要通过学习音标来认读生词。在这一点上,译林出版社的《牛津小学英语》教材鼓励学生通过类比来发现和掌握单个字母或字母组合的有规则的发音的做法是完全正确的。
第二,小学英语语法教学必须在语境中通过师生话语交往活动进行。要坚决杜绝机械的句型操练,因为孤立的句子也不产生特定的意义。斯大林在《马克思主义和语言学问题》(人民出版社,1962年版)中指出,“语法的特点在于,它得出词的变化规则,而这不是指具体的词,而是指没有任何具体性的词;它得出造句的规则,而这不是指某些具体的句子,例如具体的主语、具体的谓语等等,而是指任何句子,不管某个句子的具体形式如何。”
以词为例,coffee一定是不可数名词吗?如果有人在咖啡厅对服务生说“One coffee,please.”,难道你会以为错误吗?
再以句子为例,如果一位妻子对丈夫“What are you planning to do today?”的问话以“I was going to make a dress.”来回答,难道有什么动词时态错误吗?
第三,小学生的英语“语言知识”应该在“语言技能”的运用过程中,在教师的指导下,根据其体验、探究,自主总结和归纳,而不应该由教师讲解灌输。须知,小学生真正需要学习的是英语语言本身,而不是关于语言的知识。那种无异于试图把小学生培养成英语语法学家的做法,无疑是落伍的!
英语学科教学只有正确理解和处理英语“语言技能”与“语言知识”之间的关系,才能做到遵循外语教学的基本规律,科学施教,确保外语教学的真正有效,确保外语教学能够真正对促进学生的发展发挥应有的作用。只有以马克思主义哲学和语言学理论为指导,从理论与实践两个方面对英语学科教学中的“语言技能”与“语言知识”之间的关系问题进行深入探讨,厘清二者之间的先后顺序关系,才能对英语教学实践起到规范和引领作用。
(作者单位:江苏省张家港市教育局教学研究室)
延伸阅读
要想系统地、深刻地搞清楚“语言技能”与“语言知识”之间的关系问题,以下学术著作值得一读:
1.《The English Language Teacher’s Handbook》(作者:Joanna Baker,Heather Westrup;出版者:Continuum;出版年份:2000)
2.《Techniques and Principles in Language Teaching》(作者:Diane Larsen-Freeman;出版者:Oxford University Press;出版年份:2000)
3.《Child Language》(作者:Jean Stilwell Peccei;出版者:Taylor & Francis Limited;出版年份:1994)
4.《A History of English Language Teaching》(作者:A. P. R. Howatt;出版者:Oxford University Press;出版年份:1984)
5.《What’s Whole in Whole Language?》(作者:K. Goodman;出版者:Heinemann;出版年份:1986)
6.《Teaching English as a Foreign/Second Language》(作者:David Riddell;出版者:Bookpoint Ltd.;出版年份:2001)
Java语言异常处理技术分析 篇4
1 Java语言异常的结构与分类
Java语言异常的定义, 即因程序执行错误而产生的异常对象。往往与Java语言异常处理技术机制相互对映。Java语言异常处理技术机制可以用来辨别、筛选、和解决异常。Java语言异常处理技术机制工作效率较高。不仅可以让java语言编写的程序更加完善、可靠、健壮还有利于解决异常。其他以往的异常处理技术, 往往采用的是执行一条跳转指令或者结束程序的进程或者异常发生时调用级别较低的函数处理等来处理异常。
1) Java语言异常的结构。
在Java中的系统类Throwable的子类涵盖了系统中所有异常类, 项目Object产生Throwable, 然后Throwable相应产生了:Exception和Error两个子类。Exception主要是指, 程序在运行的过程中可能捕获的异常。Exception类派生的还有Runtime Exception这个极其重要的子类, 在Java中Exception类和Runtime Exception类一同被称作是Java程序运行时产生的异常。例如除数为零或者下标超出范围这类异常是运行过程中产生的错误。Error一般是由系统异常引起的, 不但不可恢复, 而且在一般情况下是不愿意被程序检查获取的。主要是指Java虚拟机 (JVM) 异常或者系统异常, 代表了严重的系统异常。
2) Java语言异常的分类。Java语言异常的种类有两种, 一是系统定义的, 一种是用户定义的。系统定义异常的种类有很多主要包括:非法的输入、输出引起的Io Exeeption异常、由数据类型匹配引起的Numbcr Fomat Exception异常、由算数错误, 比如除数为0引起的Arithmetic Exception异常、由下标超出范围引起的Index Out Of Bounds Exception异常、由中断引起的Interrupted Exception异常等。系统自定义的异常种类无法满足用户需求时, 用户就自己定义异常。该过程中的异常对象是由程序员依据程序的需要来创建的。为使程序可以自动抛出异常, 程序员在创建的过程中, 最先应当创建的是异常的种类。运用Exception建立新类, 通过继承来使创建的子类可以与父类拥有同样的处理代码和接口。
2 Java语言异常处理的种类和优势
Java语言异常处理的原则指的是java程序在运行的过程中会出现各式各样的运行错误, 这些错误会产生对应的异常的对象, Java语言异常处理技术则是把这些异常对象进行采集统一处理。把正确的代码和异常的代码分类处理。Java的异常处理可分为以下三个方面:第一、Java程序进行执行时, 若在此时产生了系统可查出的异常, 那么系统会自动产生一个和该异常相匹配的异常类的对象, 同时这个异常对象会被送到Java运行时所在的系统, 这个异常处理即抛出异常。第二、如果Java程序运行时所在系统接入到异常对象, 会自动查询能解决这一类异常的程序代码, 然后这类异常对象就统一由这一程序处理, 该异常处理就是捕捉异常。第三、假如Java程序运行时所在的系统不能查询到处理这类异常的匹配的程序, 则系统自动强制结束程序的运行, 然后采取利用处理缺省异常程序的方法来处理。
1) 处理种类。
抛出异常可以理解为:用Java语言编写的程序在运行的时候被检查到有可以查出的异常, 因此而产生了一个与之匹配的异常的类的对象。这个与异常匹配的对象中涵盖了错误的种类和发生异常时的程序所处系统的状态情况。抛出异常有两种:一是在程序执行过程中用throw语句指定抛出异常。二是系统自动抛出异常。在程序执行过程中用throw语句抛出异常是指在main函数中调用throw语句将异常抛出。系统自动抛出异常是指除了用户定义之外的异常均可由系统抛出。比如, 当数组下标超出范围时, 系统识别异常并且把异常抛出。此时, 系统把异常与系统中的预定义的错误种类进行匹配识别, 然后匹配成功来终止程序的执行。捕捉异常和终止程序结束异常是指在一些特殊的情况下, 系统不知道如何去处理错误, 会将异常向上抛。如果Java程序运行时所在系统接入到异常对象, 会自动查询能解决这一类异常的程序代码, 然后这类异常对象就统一由这一程序处理, 那么就会捕捉异常进行处理, 假如Java程序运行时所在的系统不能查询到处理这类异常的匹配的程序, 则系统自动强制结束程序的运行, 然后采取利用处理缺省异常程序的方法来处理, 那么就是终止程序结束异常。
2) Java语言异常处理的优势。与传统的异常处理方式, 比如:一条跳转指令、结束程序的进程、异常发生时调用级别较低的函数处理等相比, Java语言异常处理技术把异常进行了分类, 识别了异常的种类让程序员清楚地知道哪里发生异常, 发生了什么异常以及异常产生的原因, 还把错误代码和正确代码进行了分离, 利于处理, 提高了程序的可靠性和安全健壮性。不仅可以对异常进行分类管理还能使异常被系统捕获, 并且进行下一步的处理, 使程序员工作的效率得到提高。
3 结论
Java语言异常处理的技术把正确代码和异常代码进行分开处理, 体现了Java语言异常处理技术的优点和先进性。但是, Java语言异常处理技术会增加程序运算量, 给计算机带去处理Java语言异常的其他开销, 所以相关编程人员应当注意异常的处理, 在编程的过程中, 科学合理的使用Java语言异常处理技术对于编程工作者写出健壮可靠的代码是十分有必要的。Java语言异常处理技术不仅能提高程序整体的可靠性, 还能避免编程人员在工作上出现重大的错误, 有利于编程工作者的编程工作。身为一名编程工作者, 应当加强对Java语言异常处理技术的运用能力。
摘要:Java语言异常处理技术是Java语言的重要技术特点, 准确科学的处理Java语言中存在的异常, 这样做对于维持程序的健壮性和可靠性是特别关键的。Java语言异常处理技术分析的主要原理就是在理解了Java语言异常处理技术分析的主要思想之后, 在Java语言的所处环境中, 对Java中出现的异常进行有针对性的实质性的检查指导, 并且对这些异常加以处理, 使之得到解决。本人研究了Java语言异常处理技术的思想和概念, 并且对Java语言异常处理的技术进行了具体的分析, 找到了解决方法。
关键词:Java语言,异常处理,结构,分类,技术分析
参考文献
[1]袁小英.基于Java语言的异常处理机制的研究[J].计算机光盘软件与应用, 2011 (16) :115, 158.
[2]韩瑞峰.J a v a异常处理机制及应用研究[J].忻州师范学院学报, 2012, 28 (2) :25-27.DOI:10.3969/j.issn.1671-1491.2012, 02, 009.
自然灾害毁损会计账务处理 篇5
——以汶川大地震为例
徐汉峰
湖北职业技术学院(湖北孝感432000)
摘要:
5、12汶川地震对灾区人民造成了重大的经济损失和心理压力,建议财政部门予以核销已经毁损或不复存在的库存现金、应收款项、存货、投资性房地产、固定资产、生物资产、无形资产、在建工程、金融工具、建造合同等资产、负债、所有者权益项目,减轻灾区人民心理压力,以利重建家园。
关键词:自然灾害;震区企业;毁损会计;清产核资;会计准则;账务处理;重建家园
中图分类号:F230 文献标识码:A 文章编号:
一、库存现金毁损账务处理
在2008年5月12日四川省汶川大地震当天,震区企业将现金存放于办公桌或保险柜等存放处,若库存现金被地震或次生灾害埋藏于地下或被流失的要进行毁损处理:一是在已知库存现金账面余额的情况下,运用盘点法计量与确认库存现金毁损数额,借记:“待处理财产损溢——待处理库存现金损失”账户,贷记:“库存现金”账户;根据上级财政部门审核批准后,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理库存现金损失”账户。核销后,“库存现金”账户和“待处理财产损溢——待处理库存现金损失”账户无期末余额。二是在未知当天库存现金余额的情况下,震区企业可以根据企业与当地银行签定的库存现金限额或本企业向当地财政部门上报的资产负债表2008年4月份至2007年5月份“库存现金”账户的加权平均值加以计量与确认库存现金毁损数额,其会计分录同上。
二、应收款项损失账务处理
应收款项是指震区企业在生产经营过程中由于销售商品,提供劳务或服务等经济行为而形成的债权,包括“应收票据”、“应收账款”、“其他应收款(备用金)”、“预付账款”、“长期应收款”等会计科目。有些震区企业或个人的财产已经全部毁损,有些震区企业或个人的财产遭受部分毁损,在近期或三年、五年以内很难索取或讨回债权,势必造成坏账损失,对于坏账损失的处理要运用查询法计量与确认,一是在2008年4月底以前已经计提“坏账准备”的前提下,借记:“坏账准备”账户,贷记:“应收账款”账户。[1]二是在2008年4月底以前未计提“坏账准备”的前提下,直接确认为坏账损失,借记:“营业外支出——非常损失”账户,贷记:“应收账款”账户。至于“应收票据”、“其他应收款”、“预付账款”、“长期应收款”等债权账户,可以比照“应收账款”处理方法进行核销或调整。
三、存货毁损账务处理
2006年颁布的企业会计准则第1号存货第21条规定:“企业发生的存货毁损,应当将处置收入扣除账面价值和相关税费后的金额计入当期损益。存货的账面价值是存货成本扣减累计跌价准备后的金额。存货盘亏造成的损失,应当计入当期损益。”[2]震区企业的在途材料、库存材料、家具用具、包装物、低值易耗品,在产品、半成品、委托加工物资、产成品、库存商品等存货,有的全部毁损,有的部分毁损,对存货毁损的数额运用盘存法计量与确认。当震区企业向上级财政部门申请核销时,借记:“待处理财产损溢——待处理存 1 货损失”账户,借记:“存货减值准备”账户,借记:“商品进销差价”账户,借记或贷记“材料成本差异”账户,贷记:“材料采购”、“在途物资”、“原材料”、“库存商品”、“发出商品”、“委托加工物资”、“周转材料”等存货账户,同时还要调整“应交税金——应交增值税”账户。若上级财政部门批准核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理存货损失”账户。核销后,“存货”账户无期末余额或有部分余额,若有余额为存货存在的账面价值,“待处理财产损溢——待处理存货损失”账户无期末无额。
四、投资性房地产毁损账务处理
2006年财政部颁布的企业会计准则第3号投资性房地产第17条规定,“当投资性房地产被处置,或者永久退出使用且预计不能从其处置中取得经济利益时,应当终止确认该项投资性房地产。”同时在第18条中规定,“企业出售、转让、报废投资性房地产或者发生投资性房地产毁损,应当将处置收入扣除其账面价值和相关税费后的金额计入当期损溢。”[3]投资性房地产毁损或盘亏的处理原则与存货毁损或盘亏的账务处理原则相同,对投资性房地产毁损数额运用鉴定法计量与确认,当震区企业向上级财政部门申请核销时,借记:“待处理财产损溢——待处理投资性房地产损失”账户,借记:“投资性房地产减值准备”账户,贷记:“投资性房地产”账户;当上级财政部门予以核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理投资性房地产损失”账户。核销后,“投资性房地产”账户可能还有存在的投资性房地产的部分价值,但“待处理财产损溢——待处理投资性房地产损失”账户期末无余额。
五、固定资产毁损账务处理
2006年财政部颁布的企业会计准则第4号固定资产第23条规定,“企业出售、转让、报废固定资产或发生固定资产毁损,应当将处置收入扣除账面价值和相关税费后的金额计入当期损益。固定资产的账面价值是固定资产成本扣减累计折旧和累计减值准备后的金额。固定资产盘亏造成的损失,应当计入当期损益。”[4]固定资产毁损或盘亏的账务处理原则与存货、投资性房地产毁损或盘亏的处理原则相同。对固定资产毁损数额运用盘存法、观察法和鉴定法计量与确认,当震区企业向上级财政部门申请核销时,借记:“待处理财产损溢——待处理固定资产损失”账户,借记:“累计折旧”账户,借记:“固定资产减值准备”账户,贷记:“固定资产”账户;当上级财政部门批准核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理固定资产损失”账户。核销后,“固定资产”账户余额为存在的固定资产的账面价值,但“待处理财产损溢——待处理固定资产损失”账户无期末余额。对于固定资产毁损的账务处理,还可以通过“固定资产清理”账户处理。
六、生物资产毁损账务处理
2006年财政部颁布的企业会计准则第5号生物资产第26条规定,“生物资产出售、盘亏或死亡、毁损时,应当将处置收入扣除其账面价值和相关税费后的余额计入当期损益。”[5]生物资产毁损或盘亏的账务处理原则与存货、投资性房地产、固定资产的毁损或盘亏的处理原则相同。对生物资产毁损的数额运用盘存法、观察法和鉴定法计量与确认,当震区企业向上级财政部门申请核销时,借记“待处理财产损溢——待处理生物资产损失”账户,借记:“累计折旧”账户,借记:“生物资产减值准备”账户,贷记:“生物资产”账户;当上级财政部门批准核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理生物资产损失”账户。核销后,“生物资产”账户的余额为消耗性生物资产和公益性生物资产的存活或存在的账面价值,“待处理财产损溢——待处理生物资产损失” 2 账户无期末余额。
七、无形资产毁损账务处理
2006年财政部颁布的企业会计准则第6号无形资产第23条规定,“无形资产预期不能为企业带来经济利益的,应当将无形资产的账面价值予以转销。”[6]无形资产毁损的账务处理原则与前相同。对于无形资产毁损的数额运用盘点法、查询法、调节法、观察法和鉴定法计量与确认,当震区企业向上级财政部门申请核销时,借记:“待处理财产损溢——待处理无形资产损失”账户,借记:“无形资产减值准备”账户,贷记:“无形资产”账户;当上级财政部门同意核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理无形资产损失”账户。核销后,“无形资产”账户期末余额为某项无形资产继续能够为企业带来经济利益的现时的无形资产的账面价值,“待处理财产损溢——待处理无形资产损失”账户无期末余额。
八、在建工程毁损账务处理
企业为在建工程准备的各种物资成本,包括工程材料、尚未安装的设备以及为生产准备的工具器具等,都是通过“工程物资”科目核算的,如果工程物资发生减值的还设置有“工程物资减值准备”科目,当“工程物资”领用后就形成了“在建工程”,对于在建工程毁损的数额运用盘点法、观察法、鉴定法计量与确认,其账务处理原则比照存货、固定资产毁损的账务处理原则。当震区企业向上级财政部门申请核销时,借记:“待处理财产损溢——待处理工程物资损失”账户,借记:“工程物资减值准备”账户,贷记:“工程物资”账户;当接到上级财政部门批准核销时,借记“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理工程物资损失”账户。当企业向上级财政部门申请核销已毁损的在建工程时,借记“待处理财产损溢——待处理在建工程损失”账户,借记:“在建工程减值准备”账户,贷记:“在建工程”账户;当接到上级财政部门批准核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理在建工程损失”账户。“工程物资”和“在建工程”账户若有余额应该是存在的“工程物资”和“在建工程”的期末账面价值,但“待处理财产损溢——待处理工程物资损失”账户和“待处理财产损溢——待处理在建工程损失”账户无期末余额。
九、金融工具毁损账务处理 2006年财政部颁布的《企业会计准则》第22号金融工具确认和计量第41条规定,“表明金融资产发生减值的客观依据,是指金融资产初始确认后实际发生的,对该金融资产的预计未来现金流量有影响,且企业能够对该影响进行可靠计量的事项。”其中第7项规定,“债务人经营所处的技术、市场、经济或法律环境等发生重大不利变化,使权益工具投资人可能无法收回其投资成本。”[7]所以,对金融工具毁损的数额要运用盘点法、查询法、调节法和观察法计量与确认,当震区企业向上级财政部门申请核销时,要提供充分的法律依据,借记:“待处理财产损溢——待处理金融工具损失”账户,借记:“持有至到期投资减值准备”账户,贷记:“持有至到期投资”或“交易性金融资产”或“可供出售金额资产”等金融工具账户;当上级财政部门同意核销时,借记:“营业外支出——非常损失”账户,贷记:“待处理财产损溢——待处理金融工具损失”账户。核销后,“持有至到期投资”、“交易性金额资产”和“可供出售金融资产”账户的余额为存在的金融工具现时的账面价值,“待处理财产损溢——待处理金融工具损失”账户科目无期末余额。
十、建造合同毁损账务处理
2006年财政部颁布的企业会计准则第15号建造合同第2条规定,“建造合同是指建筑一项或数项在设计、技术、功能,最终用途等方面密切相关的资产而订立的合同。”[8]建造 3 合同毁损或盘亏的账务处理同资产类毁损或盘亏的账务处理原则相同。但是,企业会计准则中没有考虑自然灾害或人为灾害所造成的建造合同不能承诺兑现的规定,建议企业会计准则第15号建造合同可以考虑补充相关内容。对于建造合同毁损的数额运用盘点法、查询法、调节法、观察法和鉴定法计量与确认,当震区企业向上级财政部门申请核销时,要提供充分的法律依据,借记:“待处理财产损溢——待处理建造合同损失”账户,贷记:“工程施工”账户;当上级财政部门同意核销时,借记:“主营业务收入”账户,贷记:“待处理财产损溢——待处理建造合同损失”账户。核销后,“待处理财产损溢——待处理建造合同损失”账户无期末余额。
十一、石油天然气开采等毁损账务处理
“石油天然气行业是国民经济提供重要能源的矿产采掘行业,生产对象是不可再生的油气资源,生产活动所依赖的主要是埋藏于地下的油气储量,其生产过程包括矿区权益的获取、油气勘探、油气开发和油气生产等内容,由于企业在矿区内废弃井口及相关设施的活动,受《环境保护法》等法律法规的约束,因此,石油天然气弃置属《企业会计准则第13号—或有事项》。”[9]再如递延所得税资产和递延所得税负债,融资租赁和经营租赁,应付账款和预收账款等资产、负债项目,要运用审计的基本方法和具体方法进行逐项清查。在具体执行中,一定要以2006年颁布的38个具体准则,2007年颁布的《企业财务通则》,2007年颁布的《中华人民共和国企业所得税实例条例》和《审计》等法律法规文件为依据,处理好会计准则与财务会计的关系,处理好会计准则与税收制度的关系,处理好会计准则与国有资产管理制度的关系,处理好会计准则与市场主体法律的关系,处理好会计准则与审计的关系。“促进企业与社会和谐发展。”[10]实事求是的做好清产核资工作,给震区人民重建家园提供精神支援和物质支援。
参考文献:
[1]雷建,温亚丽.新会计准则实务操作指南[M].北京:企业管理出版社,2007:27.[2]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:9.[3]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:17.[4]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:22.[5]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:26-27.[6]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:31.[7]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:104-105.[8]财政部.企业会计准则2006[M].北京:经济科学出版社,2006:66.[9]财政部会计司.企业会计准则讲解2006[M].北京:人民出版社,2007:426.[10]财政部会计司.企业会计准则讲解2006[M].北京:人民出版社,2007:(序).作者署名:徐汉峰 工作单位:湖北职业技术学院
通讯地址:湖北省孝感市小东门外文昌阁 联系电话:*** 邮政编码:432000
自然语言处理技术 篇6
【关键词】自然分娩;产后出血;观察处理
产后出血是指胎儿娩出后24小时内阴道流血量超过500ml者。产后出血是分娩期的严重并发症,是产妇死亡的重要原因,在中国居产妇死亡原因首位[1]。产后出血多发生在产后2小时内,作为助产士应能识别高危因素,做好产后2小时出血量的观察与处理。现对我院2012年6月至2013年6月自然分娩后发生产后出血108例产妇进行回顾性分析,探讨自然分娩发生产后出血的高危因素,及时有效的处理原则,减少产后出血的发生。
1 资料与方法
1.1 一般资料 本院2012年6月至2013年6月自然分娩总数2077例,发生产后出血108例,产后出血发生率5.2%,其中产后出血量500ml~1000ml者100例,超过1000ml者8例;年龄最小者17岁,最大者38岁;初产妇55例,经产妇53例;双胎1例,死胎1例;臀位产1例,瘢痕子宫5例。
1.2 诊断方法 产后出血是指胎儿娩出后24小时内失血量超过500ml(产后2小时≥400ml)[2]。诊断产后出血的关键在于对失血量正确的测量和估计。估计失血量的方法:①容量法;②称重法;③面积法。
1.3 处理方法 108例产后出血者胎盘娩出后均采用:徒手按摩子宫、缩宫素20U肌肉注射或静脉滴注及卡孕栓2枚纳肛后观察阴道流血量。
2 结果
2.1 产前高危因素见表1。
2.2 产后出血原因见表2。
2.3 产后出血处理效果见表3。
3 讨论
产后2小时内出血量的观察,是减少产后出血的首要环节。故产后两小时产妇需在产房密切观察,助产士应准确评估出血量,有出血倾向者及时告知大夫,与大夫、护士密切配合,针对出血原因及时有效进行处理。
3.1 产前及时识别高危因素。对于多胎妊娠、瘢痕子宫、有人流史、妊娠高血压疾病等能引起产后出血的高危因素应做到心中有数,在产程观察中对于产程异常者及时告知大夫给予正确处理,尤其是计划分娩者,由于药物加速了产程,导致了产后出血的发生,应引起高度重视。
3.2 胎儿娩出后准确计算出血量,包括会阴侧切口的出血量。临床上我们常用的测量出血量的方法有容量法、称重法、面积法。各种方法均有利弊,要求助产士结合临床灵活使用。胎儿娩出后立即置集血器于产妇臀下,会阴缝合完毕产妇臀下铺无菌臀单至产后2小时,两者出血量相加准确计算出血量。
3.3 及时判断出血原因,正确处理。胎儿娩出后,胎盘未娩出前出血是第三产程早期出血;胎儿娩出后立即出血,血呈鲜红色,考虑软产道损伤;如数分钟后出血,血色呈暗红,间歇排出,考虑为胎盘因素;胎盘娩出后出血,应首先检查子宫收缩情况[3]。
3.4 积极预防产后出血。胎儿前肩娩出后立即肌注缩宫素20U,胎盘娩出后静脉滴注缩宫素20U,卡孕栓2枚纳肛,胎盘未剥离出血量多者,立即手剥胎盘,检查胎盘胎膜是否完整,探查宫颈及阴道有无裂伤,有裂伤者及时缝合,减少产后出血的发生。在产后2小时内应每15~30min内按压宫底1次,了解子宫收缩情况,子宫底高度,子宫硬度及挤压宫腔积血和阴道积血,同时腹部按摩子宫,刺激子宫收缩。
嘱咐产妇返回病房后间断按摩子宫,及时排尿,以免因尿潴留而影响子宫收缩[4]。
参考文献
[1]郑修霞主编.妇产科护理学[M].第四版.北京:人民卫生出版社,2008:154.
[2]乐杰.妇产科学[M].第七版.北京:人民卫生出版社.2009.137.[3]赵少飞,孙晓峰.第三产程产后出血防治措施的分析[J[.实用妇产科杂志,2003,19(5):27
自然语言处理技术 篇7
关键词:计算机,智能识别技术,自然语言处理
所谓的自然语言处理模型, 主要用于人类的日常语言问答中, 自然语言处理模型能够让计算机理解人类的日常用语并理解自然语言中所包含的文字语义, 同时能够针对人类所提语言问题, 以对话的形式将答案转为自然语言进行回答。自然语言处理技术的研发, 是希望能够在人与机器之间建立起一种信息的传递关系, 使智能机器能够更好地为人类提供信息传递功能。目前, 自然语言处理技术主要运用在情报检索、专家系统、知识工程建造以及办公室自动化系统中, 并实现了人机接口, 极大的方便了人类的生活。
1 计算机智能识别技术在自然语言处理模型设计中的原理
自然语言处理模型设计以计算机智能识别技术为核心, 其设计原理主要包括以下三个方面, 一是识别人类语言时, 该语言必须通过发出信号的时间序列进行排序变化, 在进行信息编码转换, 从而使输入语言变为智能识别机器可识别的编码。二是语言信息已完成可识别信息编码转换后, 该编码已处于可供阅读的形式, 而编码内容则是通过声学信号进行传达, 在此基础上, 一般采用与编码语音信号相对应的离散型符号进行呈示, 该符号具有区别性特征。三是此类符号继续采用计算机智能识别技术进行识别认知, 并识别语言内容中所包含的具体语音和语义, 并运用语法和语义与语言的情境结构相结合, 再进行计算机智能识别技术中的人工智能方式转换为与人类语音相似的方式进行内容输出。
2 基于计算机智能识别技术的自然语言处理模型设计
2.1 模型结构图
我国目前所使用的计算机智能识别语言系统大多数都是以统计模型方式进行技术构建的, 统计的模型方式优势在于, 其能够准确的识别语音和语义的相近频率, 并提高语言语义的精确性, 从而使计算机系统更好的进行智能识别。该模型设计结构如图1。
2.2 模块设计
2.2.1 语言信号的特征提取模块
特征提取模块的功能是对语言信号所输入的相关信号进行提取, 以便声学模型做进一步处理, 在该模块的运作过程中要注意环境干扰、语音识别误差等因素, 可使用信号处理技术进行干扰降低。
2.2.2 统计声学模块
统计声学模块主要是保真和还原智能识别系统的语言。现有的统计声学模块在设计过程中大多数都采用一阶隐马尔科夫模型进行系统的构建, 该模型能够很好的保证发音系统的还原度, 使语言和语音在识别过程中能够与单元模块保持一致。
2.2.3 语言模块
该模块的功能主要是对语言系统识别中的语言进行建模。语言模块既包括语义识别、语义理解分析, 还包含了语境正则语言。在语言模块中所采用的智能识别技术大多为具有统计学意义的N元文法语言识别模式。
2.2.4 解码器模块
解码器模块是智能识别语言系统中最为重要的部分, 也是该系统的核心组成。解码器的主要功能是为系统提供信号词串的识别。在智能识别语言系统中所输出与输入的语言信号, 通过统计声学和语言语义学的过滤与查找, 再通过解码器模块进行正确识别。
计算机智能识别技术中的各模块之间都存在一定的联系, 如语言处理模块就是通过既定的语言信号输入特征进行序列提取, 并从中求出语言信号的符号集。在进行语音识别的统计过程中, 首先输入信号或语言特征的序列, 符号集, 通过符号串求解可得:
再用贝叶斯公式进行计算, 可得出下列公式:
在给定的语言信号输入中, 输入串o, P (O) 为既定数值, 及时省略该部分也不会对最终处理结果产生影响, 因此在自然语言的处理方面, 要针对问题的性质进行显示。此外, 在处理模块中, 系统所出入的语言信号必须经过预处理, 及通过语言信号模块对语音信号进行提取, 并对语音信号 (S) 到特征列 (O) 的映射进行采集。之后即可形成声学模块单元, 从而通过特定的语言信号输入特征进行P[o|uk]估计。由于在自然语言模块中提供了P (w) , 而解码器模块主要通过由UI和t (时间标度) 所构成的搜索空间进行W寻找。
综上所述, 基于计算机智能识别技术下的自然语言处理模型设计在今后必然会有着广阔的应用和发展空间, 为了更好地把握该技术的发展方向, 我们必须不断对自然语言处理技术进行研究, 紧跟时代步伐及时革新智能识别技术, 从而使自然语言处理模型能够真正投入使用, 开拓计算机技术新领域。
参考文献
[1]蔡艳婧, 程显毅, 潘燕.面向自然语言处理的人工智能框架[J].微电子学与计算机, 2011, 28 (10) .
自然语言处理技术 篇8
伴随着计算机的日益普及, 互联网的迅猛发展, 文本的数量 (电子邮件、新闻、网页、科技论文等) 在不停的增长, 因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下, 自然语言处理技术的地位和作用日益重要。经过几十年的研究, 计算机处理自然语言的理论基础日趋成熟, 应用范围也越来越广, 初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤, 是其他高层应用的基础, 起着极其重要的作用。
2. 分句处理
2.1 分句处理技术简介
分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义, 主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割, 完成分句处理。
2.2 分句算法的设计
在进行分词之前首先应对句子进行分割, 分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通常能表达完整的语义信息, 所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号, 以它们为标志进行语句的分句处理。
分句处理的具体算法设计如下:
(1) 判断答案字符串a String是否为空, 若为空则结束;
(2) 取a String左侧的一个字符存入t Char中, 判断t Char是否是句末标点符或回车符, 若不是, 转 (5) ;
(3) 若t Char是句末标点符号, 则子句数组下标加1, 并将字符t Char从字符串a String中删掉, 转 (1) ;
(4) 若t Char为回车符或者换行符, 去掉a String左侧两字符, 并将字符t Char从字符串a String中删掉, 转 (1) 。
(5) 将t Char合并到子句数组当前元素中, 去掉a String左侧一字符, 转 (1) 。
上述算法中, a String为待处理的字符串, t Char为字符类型变量。
3. 分词处理
3.1 中文分词技术简介
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础, 对于输入的一段中文, 成功的进行中文分词, 可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言理解的研究范畴。
目前主要有三种中文词算法, 分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。介绍如下:
1) 基于字符串匹配的分词算法
基于字符串匹配的分词方法也叫机械匹配法, 是分词技术的诸多理论算法中较简单实用的一种分词算法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配, 若在词典中找到某个字符串, 则匹配成功 (识别出一个词) 。常用的几种机械分词方法如下: (1) 正向最大匹配法 (由左到右的方向) (2) 逆向最大匹配法 (由右到左的方向) (3) 最少切分 (使每一句中切出的词数最小) 还可以将上述各种方法相互组合。
2) 基于统计的分词方法
在很多情况下, 最大匹配时即使采用双向扫描也不能检查出所有的交集型切分歧义。为了消除歧义, 我们还需要其他知识。这也是自然语言处理里, 统计方法出现的原因。这种方法只需对语料中的字组频度进行统计, 不需要切分词典, 因而又叫做无词典分词法或统计取词方法。从形式上看, 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时, 便可认为此字组可能构成了一个词。
3) 基于理解的分词方法
通常的分析系统, 都力图在分词阶段消除所有歧义切分现象。而基于理解的分词方式则在后续过程中来处理歧义切分问题, 其切分过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断, 即它模拟了人对句子的理解过程。
目前无法作出结论证明以上三个算法中哪一个是最好的, 针对具体问题采用不同的算法。这三种算法都有自己的利弊, 它们的对比见表1所示:
3.2 自动分词的评价标准
一般对自动分词有三个评价标准:正确率、召回率、调和平均数。其定义如下:
1.分词正确率。
表示切分出的词语中出现在标准结果中的词语比例, 计算公式如下:
2.分词召回率。
表示标准结果中被正确切分出的词语比例, 计算公式如下:
3.调和平均数。
是正确率和召回率的调和平均数, 计算公式如下:
由定义可见, 分词正确率和分词召回率是互相矛盾的, 要得到高的分词召回率需保留多个分词结果以保证更大可能地包含正确的结果, 而这样却会降低分词正确率。所以引入了调和平均数作为评价参数。
3.3 分词算法设计
英文是以词为单位的, 词和词之间是靠空格隔开, 而中文是以字为单位, 句子中所有的字连起来才能描述一个意思。
目前主流的分词算法主要有三种, 分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。分词本文采用的是最大词长匹配算法。这是一种基于字符串匹配的分词算法, 该方法依据一个分词词表和一个基本的切分评估原则, 即“长词优先”原则来进行分词。这种评估原则虽然在大多数情况下是合理的, 但也会引发一些切分错误。采用这种方法的原因是它简单、快速。
最大匹配算法需要一个已知的词汇数据库作为支撑, 本文以知网数据库作为该算法的词库。最大匹配算法的主要思想如下:
(1) 首先统计出《知网》数据库中的最长词条所包含的字数, 本文暂时将称其为最大词长, 并将该长度记为Max L;
(2) 从每个分句中的第一个字开始向后取L (L≤Max L) 个字;
(3) 在《知网》数据库中查找是否有由此L个字组成的词。如果有, 则一个词语分解成功, 并转 (5) ;
(4) 将这L个字中的最后一个字去掉, 并令L=L-1, 转至第 (3) 步骤 (直至L=1, 说明L已经是一个单字) ;
(5) 从这个句子中将该词删除, 并判断句子是否已经为空, 如果为空, 则返回第 (2) 步, 否则, 算法结束。
其中Max L表示《知网》数据库中的最长词条所包含的字数。当前最大词长L≤Max L。
4. 结束语
中文分词技术应时代的要求应运而生, 在很大程度上满足了人们对自然语言处理的需要, 解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难, 我们相信在未来的几年里, 通过对中文分词技术的深入研究, 必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。
参考文献
[1]李向宏, 王丁, 黄成哲等.自然语言句法分析研究现状和发展趋势[J].微处理机, 2003, 4 (2) :28-29.
[2]黄昌宁.中文信息处理的主流技术是什么[J].计算机世界报, 2002 (2) :4.
[3]曹倩, 丁艳, 王超, 潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究, 2004.5:71-73.
[4]傅立云, 刘新.基于词典的汉语自动分词算法的改进[J].情报杂志, 2006, 1:40-41.
自然语言处理技术 篇9
(1) 自然循环方式污水处理技术简介。“自然循环方式污水处理技术”是由日本东京大学松本聪教授发明、由日本东洋电化工业株式会社设计并建造的一种污水净化处理系统。其基本原理在于模拟土壤和水田对污水的自然净化原理, 不使用任何化学药品, 完全利用天然微生物对污水进行非介入净化处理, 净化水可以保持天然水体的原有纯净程度。该技术由深圳市中日通环保工程技术有限公司于2002年率先引进, 并先后在流经深圳市区的福田河、新洲河、大沙河等河道综合治理工程中得到应用。
(2) 立项背景。大沙河上游段综合治理工程是由深圳市政府投资建设的重大防洪减灾和治污保洁项目, 也是南方科技大学的重要配套工程。大沙河流域旱季的天然降水较少, 为保证河道具备良好的生态条件和景观效果, 旱季需向河道进行补水, 以满足向河道补水的水量需求。经反复研究及比选, 确定在大沙河上游段建造一座污水处理装置, 将片区内的生活、生产污水收集处理后, 作为向河道补水的水源, 以弥补天然来水的不足。
鉴于大沙河上游段位于深圳大学城核心区域, 在选择污水处理装置的处理工艺时, 除应考虑管理维护方便、出水水质稳定、处理效果良好等因素外, 还需要满足占地面积少、布置灵活、不会造成景观破坏等方面的需求。经认真研究及技术论证, 最终选择了基于自然循环方式的污水处理系统。在工程实施过程中, 结合河道治理及沿河初雨截流系统敷设, 将沿河截流系统收集的部分雨污混流水进行处理后向河道补水。
(3) 大沙河上游段污水处理装置建设情况。为满足向大沙河进行生态和景观补水的需求, 大沙河上游段污水处理装置的处理规模确定为1万m3/d。在此基础上, 明确该污水处理装置主要包括地埋式污水处理池1座、鼓风机房1座 (半地埋式) 、值班房+配电房+设备房1座、简易停车场1个及公用环网柜1座等项目建设内容。本污水处理装置的总占地面积约为1 500m2, 其中污水处理池结构尺寸为80.9 m×12.1 m×6.35m。项目总投资为1 841.54万元, 总工期为1年。
2 需要解决的主要技术问题
(1) 自然循环方式污水处理技术的特点。自然循环方式污水处理系统主要是通过使用高效生物炭、石灰石、木炭和塑料球填料作为净化过滤材料, 并进行科学组合, 充分发挥自然的生物化学和物理化学的作用, 从而达到处理净化污水的作用。自然循环方式污水处理技术的主要优势, 主要包括以下几个方面: (1) 处理净化效果好。能深度去除污水中BOD、COD、SS、LAS, 同时也能削减去除一般污水处理方法难以处理的氮、磷和重金属。 (2) 工程投资较小。由于使用的填料全部是天然材料, 例如木炭、朽木、石灰石等, 在各地都可以方便购置, 所以工程投资及建设成本较低。 (3) 运行管理技术简单, 费用低。由于充分发挥了装置内各种生物的净化功能, 污泥在装置内被分解利用, 因而污泥的生成量很小, 维护管理费用低。 (4) 工程配套设施简单。自然循环方式污水处理装置一般修建在污染源头, 就地对污水进行处理, 不需要铺设庞大的下水管道。 (5) 装置结构简单, 易于布置。由于污水处理装置的结构简单, 可根据不同的地形进行布置。
(2) 传统自然循环方式污水处理技术的不足分析。传统的自然循环方式污水处理技术虽然具有其他污水处理方式不可比拟的优点, 但其存在的局限与不足也比较明显, 主要表现在以下几个方面: (1) 技术受限, 核心填料的采购成本相对较高。自然循环方式污水处理技术的核心填料为生物炭, 生物炭作为专利技术产品, 全部需要依赖进口解决需求, 因而采购成本相对较高, 且对木材的损耗量较大, 同时消耗大量能源, 不能满足低碳环保的要求。 (2) 生物炭的功能还有局限性。即当污水中的污染物质含大量微生物, 以及难以降解的有毒物质或人工合成物质时, 生物炭的表面逐渐被这些物质所占用, 最终失去再生能力。另外, 生物炭的活性还受气温影响, 冬季运行效果相对较差, 且生物滤池所需配套的设备较复杂, 不便于运行管理。 (3) 技术工艺也存在一定的局限性。由于受到处理工艺、技术特点的限制, 污水处理规模较小 (一般不超过5 000 m3/d) , 故无法进行较大规模的污水处理。
(3) 项目研究过程中需要解决的主要技术问题。为了解决传统自然循环方式污水处理技术所存在问题与不足, 满足大沙河上游段的污水处理规模和进行河道补水等方面的要求, 基于自然循环方式的污水处理技术在大沙河工程建设过程中, 应解决以下几个方面的主要技术问题:污水处理装置主导污水处理工艺的设计问题;核心填料的选择及改进问题;污水处理装置结构布置及形式的选择问题。
3 项目的主要研究内容及成果
3.1 项目的主要研究内容
要保证大沙河工程的污水处理规模及处理效果达到预期效果, 就必须对原有的污水处理工艺、填料等内容, 针对大沙河工程的特点进行优化和改进。在项目实施过程中, 需要根据大沙河的水流条件、水质特点等因素, 重点研究并解决以下几个方面的技术问题: (1) 寻找生物炭核心填料的替代产品。以解决生物碳作为专利技术产品, 此前全部需要依赖进口, 建设成本相对较高, 以及生物炭对木材的损耗量较大, 无法满足低碳环保要求等方面的问题。 (2) 解决生物炭功能的局限性问题。即解决当污水中的污染物质含大量微生物、难以降解的有毒物质或人工合成物质时, 生物炭的表面逐渐被这些物质所占用, 最终失去再生能力的问题。 (3) 解决生物炭的活性受气温影响较大的问题。在寻找生物炭替代产品的同时, 还需要解决生物炭核心填料冬季运行效果相对较差, 且生物滤池所需配套的设备较复杂, 不便于运行管理的问题。 (4) 解决处理系统污水处理规模不宜太大的问题。在解决了核心填料所存在的相关问题后, 为了满足对河道进行景观补水的需要, 还应解决原有自然循环方式污水处理技术因受处理工艺、技术特点的限制, 污水处理装置的建设规模不宜太大, 处理能力受到较大限制的问题。
3.2 项目的主要研究成果
(1) 提高了装置的污水处理规模及能力。传统自然循环方式污水处理技术由于受到处理原理、工艺特点、占地面积、建造成本等方面的限制, 污水处理规模一般较小 (一般位于500~5 000m3/d之间) 。要满足向大沙河进行生态和景观补水的需求, 污水处理装置的处理规模必须达到1万m3/d的水平, 这在国内尚没有成功的先例可以借鉴。
为了解决污水处理规模不足的问题, 同时考虑到处理装置反冲洗等操作要求, 同时为了便于运行维护, 通过进行现场试验验证后, 提出了将传统自然循环方式污水处理系统处理池结构一直沿用的单列布置形式, 调整为两列平行布置形式, 每列的处理能力均为5 000 m3/d的工作思路和技术工作路线 (见图1) 。
(2) 对污水处理工艺进行了优化和改进。由于我国城市河道的水量、水质等情况均不稳定, 因而对处理系统的工艺要求比较高, 且满足出水水质良好、运行管理方便等方面的要求, 而现阶段比较好的污水处理方法是改良的生物膜法。生物膜法的主要设施包括生物滤池、生物转盘、生物接触氧化池和生物流化床等。针对河道污水处理规模的要求以及深圳河流的特点, 结合已经比较成熟的污水处理工艺经验, 大沙河工程可以选择的污水处理方式包括生物滤池工艺以及生物接触氧化法的生物飘带工艺。
通过进行技术经济指标对比分析, 结合工程项目特点, 确认生物滤池污水处理工艺相对其他工艺是最适用于大沙河工程的污水处理之中。为了解决传统自然循环方式污水处理技术所存在的诸多问题, 以满足向大沙河河道进行生态补水等方面的需求, 我们在总结同类项目施工、运行经验的基础上, 大胆提出了对传统自然循环方式污水处理技术进行优化改进, 以陶土复合木炭为主导的污水处理工艺。
(3) 对装置内的填料类型进行了重新选择和改进。在污水处理工艺确定后, 为了保证污水处理的效果和出水水质的稳定, 就必须对投放于装置内部的填料类型、各类填料的配比等参数进行试验和比选, 以确定适合及满足大沙河工程实际需要的填料种类、配比等技术参数。
大沙河工程污水处理系统中所选择使用的填料包括陶土复合木炭、塑料球接触滤料、阔叶林木炭、石灰石等品种。经过反复研究及进行实际测试试验, 最终选择了以陶土复合木炭 (陶炭) 作为装置核心填料, 并通过其他填料与之进行科学搭配, 使装置内的微生物净化功能达到最佳状态。
3.3 应用效果分析
依据对大沙河河道水质主要指标的检测资料及数据, 为满足工程的景观及生态补水需求, 对污水处理系统的进出水主要参数指标提出了具体要求 (见表1) 。
项目完工后, 委托深圳市环境监测中心站对大沙河上游段污水处理装置的进出水水质进行了对比检测。检测结果表明, 基于自然循环方式的污水处理装置对进水水质的适应性较强, 特别是对有机质污水的处理效果较好, 在不同时段及不同水质状况下, 处理装置出水口的水质均能保持清澈, 指标稳定。经检测, 各项技术指标全部达到设计要求 (见表2) , 经过消毒处理后可达中水回用标准。
3.4 成果的技术创新点
基于自然循环方式的污水处理技术和工艺, 针对我国城市河流的特点及水质状况, 结合填料的自然生物化学和物理化学作用, 对过滤填料的组成及成分进行了改进和科学配置, 延续并提高了装置内各种生物的综合净化能力;首次提出以陶炭复合木炭作为核心填料, 替代高成本的生物碳, 研究确定了陶土复合木炭、塑料接触球、石灰石等填料的科学配比, 有效发挥了各种填料的组合作用, 获得了稳定的处理效果;因地制宜采取复式布置的地埋结构, 完善了工艺流程, 提高了自然循环方式污水处理装置的污水处理能力 (设计处理能力首次达到了1万m3/d的规模) ;基于自然循环方式的污水处理技术和工艺所采用的滤材均为天然材料, 来源广泛、成本低廉、低碳环保、污水处理效果好;污水处理装置操作方式简单, 管理方便, 运行维护成本较低。按照实际运行成本进行核算, 单位污水量的综合处理成本只有其他污水处理方式的1/2左右。
4 结语
在大沙河上游段综合治理工程实施过程中, 通过总结以往工程经验, 对传统自然循环方式污水处理技术的工艺流程、核心填料等内容进行了优化、改进和替代, 使用高效陶土复合木炭、石灰石、木炭和塑料球等填料作为净化过滤材料, 并进行科学配置与组合, 充分发挥自然的生物化学和物理化学作用, 提升了装置内各种微生物和微小动物的综合净化能力, 不仅提高了装置的污水处理能力, 而且处理净化效果更好, 成功克服并解决了传统自然循环方式污水处理技术在处理能力方面的不足, 使污水处理规模首次达到了1万m3/d的水平。同时, 突破了传统自然循环方式污水处理技术所存在的专利技术壁垒, 核心填料得以大量本土化生产, 且其处理效果良好, 各项技术指标完全符合设计要求, 为该技术的广泛应用提供了实践经验和技术支撑。
参考文献
自然语言处理技术 篇10
关键词:语音合成,文本分析,特殊符号处理,韵律短语划分
0 引 言
语音合成又称为文语转换技术。概括地讲就是可以让计算机像人一样将要表达的信息以普通人可以听懂的语音播放出来的技术,是一门典型的交叉性学科。它涉及到声学、语音学、语言学、语义学、信息论、信号处理、计算机、模式识别、人工智能、心理学以及人类的大脑神经活动等众多学科的理论和技术。一个完整的语音合成系统的实现由文本分析、韵律控制以及语音合成三个模块组成。在语言层、语法层和语义层的工作可以归结为前端的文本分析,而语音层面上的韵律生成和声学层面上的按韵律合成语音单元或在音库中挑选单元可以属于后端的韵律合成。文本分析则是文语转换系统的前端,它的主要任务是对输入的文本进行分析,给后端语音合成提供必要的信息。文本分析是制约着语音合成自然度的一个重要因素, 也是决定语音合成成功与否的关键技术。
在本文中,根据维吾尔语的语法结构、韵律层结构和语音特征,我们设计并实现了文本分析的核心流程,其中关键技术包括层的生成、特殊符号处理、词性调整、韵律词的处理和韵律短语的划分等。此研究成果为维语语音合成技术的研究提供依据并打下坚实的基础。
1 前端文本处理基本思想
1.1 层次化处理的思想
对任何一种自然语言,总是由一些比较小的语言单位逐步层层地组合为更大的单位,表达特定的意义,而维吾尔语这种层次累进的构成关系就更为明显,所以我们采用将不同级别的语言单位分别定义并予以分层次处理的方法,将一句文本的各层信息归结到一棵分析树,而整个处理的过程也就是不断扩展这棵树的过程。
1.2 模块化的分步处理思想
层次化处理直接导致了模块化分步处理的思想,由于各个层次范围的预先确定,我们可以根据维吾尔语的语言特点针对不同的层采用不同的算法,再根据层间的依赖关系按顺序进行各层的处理。所以我们为不同层的处理开发不同的模块。
1.3 统计与规则方法的结合
由于自然语言的模糊性,对其处理也就不可能使用完全精确的规则,特别是在对自然语言本身的理解研究还不深入的时候,统计方法是一个新的方向,它不仅被直接应用于算法,还是大量规则的重要来源。统计与规则方法是对不同性质的语料采用不同分析方法而言,都是至关重要的。
2 文本分析核心处理流程
如图1所示,每个模块完成的功能描述如下:
1) 分句处理 对输入的文本进行分句处理,以便后续模块可以逐句地对文本进行分析;
2) 字符集处理 主要解决不同的内码产生的问题,我们统一把GB2312,BIG5,UNICODE等编码方式映射到GBK 编码方案;
3) 基本分词处理 词根词缀的切分匹配算法来实现分词处理;
4) 特殊符号处理 通过外部规则的方法解决非维文字符的发音处理问题;
5) 英文处理 解决整句英文的句子或英文单词韵律层次划分和发音问题;
6) 未登录词识别 根据统计模型识别人名、地名、机构名的处理环节;
7) 词类调整 根据统计以及手工总结的规则,然后采用基于HMM模型的二元法来实现维吾尔语词性自动标注;
8) 韵律词处理 根据统计以及手工总结的规则,将分词结果调整为韵律词划分结果;
9) 韵律短语划分 在基于决策树和平滑算法韵律短语划分的基本算法基础上,通过规则方法进一步提高划分的可接受程度。
2.1 特殊符号处理
是指对输入的维吾尔语文本进行分析时,将数学符号、缩落语、标点符号等非维文字符转化为规范的文本,并给出相应节奏和轻重读等韵律信息的过程。我们采用外部规则法和高效的树状规则搜索机制来实现了特殊符号处理环节。
2.1.1 外部规则的方式
我们采取了与代码无关的外部规则方式,设计了功能强大、使用简便的特殊符号的规则体系,如图2所示。通过规定每条规则的权值以及在整句范围内搜索权值最高的规则先行处理的方法,解决规则之间的冲突问题。下面是两条规则的实例:
//[功能]读百分数 [说明]维吾尔语方式处理百分数 “30-50%”[条件]自动判断文本环境75 1S 2F 3S 4F 2b{"`-`~" 4b#"%":t<>;m<2>;t<>;m<4>;t<>;
//[功能]连乘读法 [说明]维吾尔语方式处理 [条件]自动判断文本环境
55 1S 2F 3S 2b{"*×":m<1>;t<>;m<3>;
56 1S2F3S4F5S2b{"*×"4b{"*×":m<1>;t<>;m<3>;t<>;m<5>;
这一外部规则体系的建立,为特殊符号的效果持续改进奠定了技术上的基础。目前一共收集了2145个特殊符号,其中筛选提取了维文中最常见的250个特殊符号,包含了绝大部分的数字、英文、符号等以及它们可能组合的读法约定。
2.1.2 高效的树状规则搜索机制
外部规则的使用的前后顺序通过规则的权值来规定,而特殊符号规则的使用就必须在整句范围内搜索权值最高的成功通过条件约束的规则,这种搜索策略使得人们对规则权值的给定最为容易。我们精心设计了一个树状的规则搜索策略,将规则中处于相同位置的相同条件约束进行合并处理,并通过全局缓存条件匹配结果、并在规则树上建立搜索路径以及在分词结果上同步地进行特殊符号规则树匹配搜索策略,最终使得特殊符号的处理模块的效率达到实用的要求。最终的特殊符号树状规则如图3 所示。
从手工总结出的每一条规则到实际使用的树状规则转换中我们还引入了优化编译的思想,通过对手工规则自动作一些节点判断条件的顺序调整和增加,大大提高了规则节点合并的比例,从而裁减了规则树的大小,提高了特殊符号处理环节的效率。
2.1.3 测试结果
我们进行了集内测试和集外测试。先用1000 多句包括各种特殊符号情况的句子作为构建规则库的语料, 这些句子主要来自于平时的收集和一些实际应用中错误处理的反馈。这些句子的集内测试结果达到97.5%。从网络上下载的各种文本中, 挑选出含有不同类别特殊符号情况的句子1000 句, 正确识别的有947 句, 集外测试正确率达到94.7%。通过上述实验, 发现这种方法能有效对含有特殊符号的句子进行标准化。
2.2 词类调整处理
以维吾尔语语音合成系统文本分析中的韵律边界自动划分技术为背景,研究了维吾尔语词性自动标注技术:首先根据应用领域的特点确定了词性的种类及其判定规则,筛选了文本句子并对其进行了手动词性标注,其次通过统计获得了词性概率表和对照表,最后采用基于HMM模型的二元法来实现维吾尔语词性自动标注。
2.2.1 词性标注算法
大多数的标注算法可以归纳为两类:一类是基于规则的标注算法(rule-based tagger),另一类是随机标注算法(stochastic tagger)。随机标注算法一般使用一个训练语料库来计算在给定的上下文中每一给定单词具有某一给定标记的概率。如:HMM 标注系统。
由于韵律层次划分的需要,使用二元法来建立维吾尔语词性标注系统基本框架,二元法中最关键的是统计词性概率表和词性对照表。这些算法的主要思想和流程图见图3和图4。
1) 从训练用的句子中,分别提取各个句子和句子中的各个单词,并统计出二元词性概率:
即生成词性概率表。
2) 取出当前的每一个词性,建立节点,计算每一种词性与前驱节点所有可能词性的二元组合概率,即计算:
通过统计可以得到词性对照表。
3) 确定测试数据的词形式,将句子分成词序列,并在开始位置加入节点,取出第一个单词的所有可能词性,为每种词性建立节点,第一个词的每个词性节点的最佳前驱指向开始节点,并取出下一个词。
4) 基于HMM的标注算法选择单词二元词性概率与组合概率的乘积为最大的标记序列作为标注结果,因此计算 P(wi /ci)P(ci / ci-1),找出最大的那个二元词性组合,将当前词的词性节点的最佳前驱域指向该二元组合中的前驱词性节点。
5) 如果有未处理词,则取出下一个词,继续重复第四步,否则停止,转到第六步。
6) 所有的词处理完毕,从最后词开始,找出最后一个词所有词性中最佳的一种词性,然后沿着这个词性节点的最佳前驱往前搜索找出每一个词的最佳词性,直至找出最佳词性序列。
2.2.2 测试结果
在实验中,为了验证算法的有效性,我们筛选了15000条句子作为训练样本,对韵律成分影响比较大的36种词性进行了内集测试。还有从网上、杂志和新闻上收集的语料进行了外集测试。主要考察了正确率和平均召回率。测试结果如表1 所示。
本实验中所得到的实验结果能满足使用需求,因此这36种词性的二元法自动标注算法作为韵律层次级划分的算法依据。
2.3 韵律词的处理和韵律短语划分
根据维吾尔语的韵律特征,通过对自然语言的大量考察,提出了关于维吾尔语韵律方面的一些新概念,总结出了在维吾尔语韵律层次划分上的一般规律。我们始终在强调层次化对于最终合成语音效果的重要性,因为只有具有了这种层次化的概念才能反映文本韵律的一些精细结构,才能正确地生成高自然的流畅语音。一个句子在朗读的时候,根据其停顿长短,可以划分为如下六个层次:
1) L0: 音节边界,对于维吾尔语,即是指音节层。
2) L1: 音步边界,即是我们常说的节奏层、韵律词层。
3) L2: 半停,一般同位词语之间的逗号的边界。
4) L3: 短语边界,即相对独立的一个语法单位,又称韵律短语。
5) L4: 呼吸群边界,在句子比较长时,需要换气的位置。
6) L5: 句子边界,这是我们研究的最上层单位。
下面我们举一个例子来说明上述的标注层次:比如:
实际使用中,考虑到后端合成中的使用,以及提高文本分析的鲁棒性,我们最为关心的是L1 层和L3 层的处理结果。
1) L1 层(韵律词)的处理
在维吾尔语中 L1 层的划分规律和方法,采取了三种L1 层处理技术:
(1) 从手工标注了L1 层的语料中自动提取L1 层拼接拆分的规则,主要是词类和高频
字、词之间的二元规则,然后从统计中获得置信度高的规则。
(2) 采用类似于特殊符号规则体系的手工规则,将分词结果进行调整为L1 结果。通过手工总结出规则,这些规则对于L1 的效果起到了关键性的作用。
(3) 采用缺省处理,对于通过上述处理之后还是不符合人们说话习惯的L1,如一般不单独出现的字(统计手工标注语料得到)构成一个单独的L1,我们根据该L1 的词类、前后的L1 的情况进行最后的拼接或者拆分处理。
好的分词结果为好的 L1 处理结果奠定了基础,而好的L1 处理结果又为好的L3 层划分结果提供了保障,同时也为高自然的语音合成效果提供了支持。
2) L3 层(韵律短语)的划分
L3 层划分一个突出的问题是:不能断开一句话的意思,一个L3 层短语的音节数一般不能超过12个。 L3 层的划分对于合成语音的可懂度和抑扬顿挫感关系密切。我们的L3 划分算法如下:
(1) 基于决策树的每个L1 边界作L3 边界的概率计算,我们在决策树的输入属性方面做了诸多探索,包括词类、词频、二元概率、决策树裁剪比例、训练语料的大小等等方面。
(2) 我们在分析维吾尔语韵律短语或意义集(Sintagma)中发现,人工难以总结什么上下文环境下应该划分L3 边界,但是比较容易确定什么上下文环境下不应该切分L3 边界,于是我们引入了一个规则体系,可以方便地使用人工总结的L3 层划分规律,我们一共总结了114 条这样的规则,这些规则基本保证了L3 层划分的结果不会太差,完成全局的效果优化。
(3) 基于整句的L3 平滑技术,L3 层短语不宜太短,也不宜太长,于是我们采用了在整句范围内使用Vertibi 搜索最优的L3 划分路径。
L3 层的界定更依赖于对语义的理解,由于自然语言理解本身是一个非常难的课题,当前的研究还很初步,所以我们避免进行语义的分析,而是通过统计的方法,依据已有的L2层信息生成L3。在实现中我们引入了C45 决策树,对手工切分的15 万单词的语料,生成C45学习系统的训练例,调用C45 系统学习,得到决策树。我们用到的 C45 学习系统的结果是对于一个新输入的例子,它给出的决策可信度。一共有5000个训练例子,得到的决策树的分支是 228,错误率为12.6%。实验结果表明该决策树对韵律短语边界可以预测。测试结果如表2 所示。
具体做法:在单词数目的限制内,对于每一个次短语层间的分隔,求其成为主短语分界的可能性(即C45 给出的可信度),取可能性最大的次短语层分界为主短语层的分界。
3 结 语
综上所述,根据维吾尔语的语法结构、韵律层结构和语音特征,我们的工作主要集中针对维吾尔语文语转换系统的前端文本处理,目的是解决由语言层到语音层如何映射的问题。首先,我们提出了基于文本韵律标注体系的层次化处理思想并构建了实际系统,其中的关键技术包括层的生成、特殊符号处理、词性调整、韵律词的处理和韵律短语的划分等。实际的实验结果证明了新体系的建立和新方法的使用是卓有成效的。目前汉语语音合成技术已经比较成熟,而维吾尔语语音合成技术仍处于研究阶段。在新疆维吾尔族自治区,由于其多民族构成的特点以及地理位置的重要性,深入研究维吾尔语的文语转换系统具有重大的社会意义和广泛的应用前景。
参考文献
[1]马欢,吾守尔.斯拉木.维吾尔语文语转换系统文本分析模块初探[J].计算机工程,2006(8).
[2]吴义坚.基于隐马尔科夫模型的语音合成技术研究[D].中国科学技术大学,2006(4).
[3]陈志刚,胡国平,王熙法.中文语音合成系统中的文本标准化方法[J].中文信息学报,2003(4).
[4]李剑锋.韵律层次预测中基于统计模型的机器学习方法研究[D].中国科学技术大学,2005(5).
[5]魏茂盛,章森.汉语语音合成中文本处理的几个问题[J].山东建材学院学报,1999(3).
[6]Heiga Zen,Keiichi Tokuda,Alan W Black.Statistical parametricspeech synthesis[C]//Speech Communication,2009.
[7]Wang R H,Ma Zhong ke,Li Wei.A Corpus Based Chinese SpeechSynthesis with Contextual Dependent Unit Selection[C]//Proc.of IC-SLP.Beijing,2000.
自然语言处理技术 篇11
语言点教学 教材 语言形式与意义 能力 情感教育
Reading是单元教学的核心板块,是学生语言输入、培养阅读能力和学习语言知识的重要课型。Reading教学一般分为两课时进行,第一课时主要是整体理解文本大意、发展阅读技能、了解文本框架、把握写作意图和目的。第二课时教学俗称语言点教学,在回顾课文的基础上,学生深度品读文本,聚焦学习、运用新语言。
受传统教学理念影响,目前阅读课语言点教学存在以下问题:语言学习脱离文本,过度讲解和发挥;教师讲学生记,学习方式单一;机械操练偏多,运用能力不强;注重知识传授,忽视思维能力;情感教育与文本理解和语言学习脱节。语言点教学的问题源自教师对语言教学目标认识不清。笔者结合教学实践,探讨语言点教学中要处理的几个关系,以提高阅读课语言点教学的成效。
一、语言学习与教材文本的关系
语言教学不能完全脱离教材文本,而应基于文本有所超越。教材文本是语言学习的载体,语言学习应该在理解文本的过程中进行。英语教材的编排大都将词汇、语法与话题融合在阅读文本中,教师可以整合教材资源,用好教材文本,充分发掘文本中的有用信息,有针对性地、有梯度地进行阅读训练和语言操练。教师可以话题为主线,设计多样的、有效的教学活动,帮助学生在教材语境和生活语境中感知、内化、整合语言点知识。但是,教材文本只是语言运用的“例子”,语言知识点教学不能仅限于教材文本,应以掌握教材语言点为终极目标。教师应帮助学生在对教材文本知识的重组、加工和内化的基础上实现语言输出,最终能够灵活运用教材文本语言点知识表达自己的观点和想法。
例如,教学(译林版)牛津初中英语教材七上Unit6 Reading第二课时,笔者以教材文本中Kitty 和Daniel的饮食和生活方式为基础,让学生观看教材配套视频,通过根据课文内容回答问题和短文填词等形式复习、复现、重组和运用课文中的核心语言点:have…for breakfast/lunch/supper,need to change the diet/lifestyle,plan to…,be important for…。在此基础上,设计语言活动,让学生和同桌谈论各自饮食、最喜欢的食物及理由,引导学生总结健康食物,对同学的饮食提出建议,最后以小组为单位为学校食堂设计每日菜谱。上述活动具有真实情境,为学生提供了灵活运用知识点的机会,使语言学习从教材文本走向真实生活运用,实现知识点教学活学活用。
二、语言形式与语言意义之间的关系
1.意义形式兼顾的语言点教学模式
形式和意义是语言的基本属性,二者缺一不可,也不可偏废。传统的关注语言形式,脱离意义、交际功能和语篇结构来教学的方法已逐渐被更加注重语言的形式——意义关系、促进在语境中呈现和使用语言形式的教学方法所替代[1]。尝试形式与意义兼顾的语言点教学模式,有利于学生更好地熟练掌握并灵活运用目标语言。意义与形式兼顾的教学方式为:以情境引出教材文本中的典型句子(聚焦意义)——引导学生根据例句总结归纳规律(聚焦语言形式)——在新情境中运用(聚焦语言形式和意义)。
以教学(译林版)牛津初中英语教材九上Unit1 Reading 语言点pay attention to为例。
Step 1 教师提问:What qualities should a doctor have?引出教材文本中句子“He should pay attention to every detail.”,教师补充:A good doctor should pay attention to doing everything carefully.
Step 2 学生观察两个例句,总结pay attention to用法,后接名词或者动名词。
Step 3 教师创设生活情境:What should we pay attention to if we want to get high marks in exams?引导学生运用pay attention to自由造句。如:We should pay attention to every detail/writing carefully/going through the articles first and then finishing the exercises/looking through the papers after finishing them.
Step 4 教师创设新情境:As you know,the environment is getting worse and worse.What should we pay attention to if we want to help protect the environment?这是一个更加开放性的任务,学生能够运用目标短语表达更多不同的观点。如:注意随手关灯、注意随手关水、注意不要浪费食物、注意不要乱扔垃圾等等。
上述教学活动形式与意义兼顾,首先学生在文本语境中理解目标语言的意义,然后聚焦形式,进而创设情境提供仿用、活用的机会,“使学习者的交际能力得到更大的提高,学习者可以将语言说得更流利、更准确[2]。
2.注重语言的语篇表意功能
五级语法知识目标要求学生“了解常用语言形式的基本结构和常用表意功能;在实际运用中体会和领悟语言形式的表意功能”[3]。功能主义的语言观认为“语境和语言是相互关联的”,“语境能够解释说话者(作者)在特定的语境中选择某种语言形式的原因”,“通过特定的组织结构来实现交际意义和功能”,教师要帮助学生“更好地认识语言的本质,更好地理解各种题材和体裁的语篇是如何建构意义的”[1]。
英语课堂教学中不少教师过于注重语言形式的机械操练,忽略目标语言知识在语篇中的表意功能。例如,(译林版)牛津初中英语教材九下Unit1 Reading内容是两篇关于北京和桂林的文章,文章中出现了很多倒装句,如:In the middle of the ancient city of Beijing is the Palace Museum./Next to the Palace Museum is Tiananmen Square./ In the Northwest of Tiananmen Square is the Summer Palace.大多数老师只是讲解倒装句要注意谓语动词的数与主语一致,但没有引导学生理解为什么要运用倒装句。
笔者教学时,先提问Where is the Palace Museum/Tiananmen Square/ the Summer Palace?学生用常规句式回答Its in the middle of the ancient city.笔者引导学生观察他们的回答和课文句型有何不同。学生通过反复品读文本,体会倒装句的特别作用:突出强调的内容,并使之与前文联系更加紧密;承上启下,语篇衔接。
对语言知识语篇表意功能的关注有利于学生认识到特定语言形式背后的“所以然”,明白语言点的学习目的不在于“点”本身,而是要为语篇中的综合运用语言打下基础。
三、语言知识与能力的关系
英语课程应注重提高学生用英语进行思维和表达的能力,形成跨文化交际的意识和基本的跨文化交际的能力。单纯的语言输入是不够的,学习者需要有机会使用语言来促进对输入的理解,培养准确、流利使用语言的能力。语言点教学的目的是为学生的语言运用打下基础,所以切忌机械讲解和操练,“要通过创设接近实际生活的各种语境,采用循序渐进的语言活动以及各种强调过程与结果并重的教学途径和方法,培养学生用英语做事情的能力”[3]。
学生在课堂中不应是被动地接受知识,而是知识的处理、转换、内化和运用、生成,在活用知识的过程中不断生成自己的知识体系。教师可以根据学生的年龄特点和已有知识结构,设计多样性的课堂活动,如:两两对话(Work in pairs)、小组讨论活动、游戏、竞赛、辩论、表演、即兴演讲等,联系学生的生活实际,不断激活学生的背景知识,促进学生语言能力、思维能力和个性的自由发展。
例如,在教学(译林版)牛津初中英语教材九下Unit1 Reading中be praised as…这一短语时,上课老师设计了吹牛大比拼“Talk Big”来操练“be praised as”。首先给学生范例:Ill design and build a very tall building in ten years.It can be praised as the“Roof(屋脊)of the World”.Im sure I will be praised as the “Super Designer”.学生非常感兴趣,发挥自己丰富的想象力,创造出很多让人捧腹大笑的精彩语句。该老师还设计了猜测游戏,引导学生猜测老师最喜欢的景点并说明理由,学生总是对与教师相关的信息非常感兴趣。在猜测中,学生须要整合运用新旧语言,结合自己的旅游经历和思考,介绍各个特殊景点和吸引人之处。
以上活动中,学生在用自己的语言表达自己的想法,教学不再是传递已有知识,而是学生建构自己的知识体系的过程。这样的知识才是“有力量的,是活性的真知,是生命化、生活化、生态化的知识”[1]。
四、语言学习与情感教育的关系
英语这门学科具有工具性和人文性双重特点,工具性和人文性统一的英语课程有利于为学生的终身发展奠定基础,教师在课堂教学中不但要努力培养学生的综合语言运用能力,还应努力提高学生的人文素养。语言点教学也不例外,教师要把积极的情感、态度和价值观融合在语言点教学活动中,对学生进行隐性思想教育,达到“润物细无声”的效果。
例如,(译林版)牛津初中英语教材九上Unit1 Reading主题是“Know about Yourself”,介绍了四个不同职业的人以及他们对于工作和生活的态度。一位教师在教学时首先引导学生归纳他们的个性特点,引导学生对这些人物有更深的感悟并借鉴这些优秀的品质;再让学生从教材文本中找出四个人物说过的话;然后学生两两对话交流自己最喜欢的句子,并说明喜欢的原因。学生归纳总结这些优秀的品质,谈论这些人物的语言和自己最喜欢的语句,整个过程不仅是后续教学内容的铺垫,也对学生正确情感价值观地形成起着积极的心理暗示作用。
在语言点操练和运用中,教师选取马云、刘翔、比尔·盖茨、残疾人舞者廖智以及没有四肢的演讲家力克·胡哲,在与学生的自由会话中谈论他们,激活学生的情感体验,同时帮助学生理解和运用语言点。如:操练“impress…with”时,先给学生看了一段力克·胡哲的视频,再给出例句“Nick Vujicic has impressed the whole world with his speeches.”引导学生自己造句“Nick _______me with______.”在此之后,结合前面已经操练过的本课重点词汇短语“Life is like a race.You either take a race or fall behind/take on new challenges/connect…to…/impress…with…/not only…but also.”,学生自己写一段话介绍力克·胡哲。课的结尾以美国教育家勃特勒的名言“Every mans work,whether it be literature or music or pictures or architecture or anything else,is always a portrait of himself.”教育学生“不管做任何事,都要去热爱它,全力以赴去做好它”。
整节课知识性和人文性紧密结合,相辅相成。无论是马云、残疾人舞者廖智,还是力克·胡哲,对于学生都是很好的榜样激励,学生在用英语交流的时候,接受隐性的情感教育,对于学生的学习、生活和未来都有一定的影响。
语言知识是语言能力的基础,是英语教学的重点和难点。教师要坚持以学生为主体的教学原则,坚持基于教材而又超越教材的原则。教学中既关注语言知识,更要关注学生的思维和能力发展;既关注语言的形式,更要关注语言的意义和功能。通过丰富的课堂活动和任务设计,实现英语课堂知识和能力的统一、知识性和人文性的统一、语言输入和语言输出的统一,为学生的语言发展、思维拓展、能力提高搭建支架,不断提高学生的综合语言运用能力。
参考文献
[1] 程晓棠.关于英语语法教学问题的思考[J].课程·教材·教法,2013(4).
[2] 黄瑞贤.意义与形式兼顾下的有效语言习得——以高中英语教学设计为例[J].中小学外语教学:中学篇,2013(2).
[3] 教育部.义务教育英语课程标准(2011年版)[M].北京:北京师范大学出版社,2012.
[4] 黄聚宝.英语教学中知识创生的实践探究[J].教学月刊,2015(1~2).
自然语言处理技术 篇12
1.1 Python
Python是一种简单但功能强大的编程语言,其自带的函数非常适合处理语言数据。而且,它的学习曲线比较平缓,文法和语义都很易懂,具有强大的字符串处理功能。
1.2 自然语言处理
自然语言处理是一门融语言学、计算机科学、数学于一体的科学,在这一领域的研究将涉及自然语言(即人们日常使用的语言),所以它与语言学的研究有着密切的联系,是计算机科学领域与人工智能领域一个重要方向。它主要研究能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。
1.3 NLTK
NLTK(Natural Language Tool Kit)是自然语言工具包的简写,它定义了使用Python进行NLP编程的基础工具,提供了与自然语言处理相关的数据表示基本类,词性标注、文法分析、文本分类等任务的标准接口以及这些任务的标准实现,可以组合起来解决复杂的问题。并且,NLTK中自带我们进行文本分类研究所需的文档以及语料库等,我们可以直接使用它来进行语言处理的相应操作。
2 文本分类
文本分类一般包括文本的预处理、文本的索引和统计、文本的特征抽取、分类器的选择与训练以及分类结果的评价与反馈等。
2.1 文本预处理
在进行文本分类时,毫无疑问会涉及到对文本的预处理。由于通常文本都是非结构化的,计算机很难直接对其进行处理,因而在分类之前要对文本做一定的预处理,就是将非结构化的文档转换为适合于学习算法以及分类任务的表示形式。文本的预处理过程主要包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等操作,它主要是用来去除无用的信息,减少后续步骤的复杂度和计算负担。
2.1.1 文本切分
在Python自然语言处理中,NLTK中包含着一些对应的函数来实现文本的切分。raw()函数实现的是在未对文本进行任何语言学处理的情况下把文本的内容分析出来,sents()函数则是将文本划分为句子,其中每一个句子是一个词链表,words()函数则是将文本以单词列表的形式显示,如下图2-1和图2-2所示:
2.1.2 文本分词
分词就是将字符串切割成可识别的构成语言数据的语言单元。
文本分词是预处理过程中必不可少的一个操作。文本分词是在空格符处分割文本最简单的方法。在Python自然语言处理中,我们通常使用raw.split()在空格符出分割原始文本。而且使用正则表达式也可以做同样的事情,使用re.split(r'',raw),但是匹配字符串中的所有的空格符往往是不够的,因为这将导致分词的结果包含”n”换行符。所以在使用正则表达式进行文本分词的时候,会使用re.split(r'[tn]',raw)来实现匹配任何数量的空格符、制表符或者换行符,最终实现文本分词。
2.1.3 去停用词
在进行文本分类的过程中,有的文本由于存在的词量过多,使得我们的操作量过大,因此我们需要将文本进行合理的筛选过滤。Python自然语言处理中自带的NLTK工具包中包含一个停用词语料库,我们可以通过调用这个语料库来实现对高频词的停用,同时,需要使用词典资源来过滤文本语料库的内容,实现文本筛选。
2.1.4 文本特征提取
为一个学习方法选择相关的特征,并决定如何编码它们,这对学习方法在提取一个好的模型方面可以产生巨大的影响。建立分类器的工作之一是找出哪些特征可能是相关的,以及我们该如何表示它们。
一般的,特征提取是在反复试验和错误的过程中建立的,哪些信息与问题相关,是通过直觉来引导的。在我们平常的给定的学习算法中,所给定的特征数目是有限的,如果我们提供太多的特征值,那么我们所得到的算法将高度依赖训练数据的特性,但是对于一般化的新例子会不起作用,这种问题称为过拟合。
所以为了避免特征提取过程中出现的过拟合问题,我们需要将我们所要分类的文本分为训练集和开发测试集,其中训练集用于训练模型,开发测试集用于执行错误分析,测试机用于系统的最终评估。如图所示为将语料库划分为不同的子集。在将语料分为合适的数据集之后,我们使用训练集来训练模型,之后在开发测试集上运行,然后根据错误分析结果来对我们初始给的特征集进行相应调整,知道特征集趋于稳定。
特征提取器的出现主要是用来训练分类器。它会将每一个输入值转换为特征集。这些特征集捕捉到每个输入中被应用于分类的基本信息。
2.1.5 词频统计
在进行自然语言处理的过程中,我们通常想找到我们处理的文本中所包含的某些词的个数。在NLTK中,它直接对单词频率的统计提供了支持。我们可以直接使用Freq Dist()来直接统计我们所要查询文本中的单词总数。除此之外,NLTK还提供使用Conditional Freq Dist()来绘制分布图和分布表,与Freq Dist()相比较,前者需要处理的是一系列配对序列,它是以配对链表的形式作为输入,而后者则是处理一个词序列,以一个简单的链表作为输入。如图2-3所示,调用Freq Dist查询的文本《理智与情感》中最常见的20个词的累计频率图。图2-4则是调用Conditional Freq Dist()绘制的计数显示在所有演讲稿中america或者citizen出现的次数。
2.1.6 文本向量化
文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。
向量空间模型VSM(Vector Space Model)则是目前最流行的文本表示模型。
2.2 文本的索引和统计
比如说,在处理文本的过程中,我们可以挑选出一个文本中的第一个,第八个以及更多位置的词,类似的,可以通过这个在链表中的出现的次序来找出Python链表的元素。表示这个位置的数字叫做这个元素的索引。在文本名称后面的方括号里写下索引,Python就会显示出这个索引。索引是一种常见的用来获取文本中词汇的方式,也就是任何列表中的元素。而且,索引是从零开始的。
如图2-5所示的是NLTK_Data中自带文档《白鲸记》中第101个词以及第4个到第101个词的查询结果。
所谓的统计就是词频统计,项(单词、概念)与分类的相关概率的统计。
2.3 分类器的选择与训练
创建分类器的第一步是决定什么样的输入特征是相关的,以及如何为这些特征编码。在之前的测试中,我们不难看出,男性和女性的名字有各自鲜明的特点。以a、e和i结尾的姓名很可能是女性,而以k、o、r和s结尾的姓名很可能是男性姓名。所以在创建特征提取器函数的时候,我们需要将姓名的最后一个字母提取出来,这个函数返回的字典被称为特征集。
2.4 分类结果的评价与反馈
文本分类是信息处理的关键技术之一,分类的性能评价时期重要的组成部分,有效的评价会促进文本技术的良性发展。为了判断一个分类模型是否准确的达到了分类效果,我们需要对生成的模型进行评估。评估的结果决定着该模型的可靠度以及该如何使用它。大多数评估技术通过将模型在测试集中输入生成的标签与输入的正确标签相比,为模型打分。而且,该测试集通常与训练集具有相同的格式。在对模型实现评估的时候,准确度、精确度和召回率、混淆矩阵以及交叉验证都成为我们进行模型评估的重要评价指标。根据不同的模型,我们会使用不同的评价标准。
3 总结
Python自然语言处理中自带的NLTK工具包中包含大量的语料库资源,使用这些语料库中的各种函数,我们可以实现对文本的基本分类,在实现文本分类的过程中,我们必须要熟悉Python语言在文本分类中的应用,通过调用不同的NLTK功能包,来实现文本分类不同过程的处理,从而达到分类效果。但是,基于Python自然语言处理存在的一个问题就是无法实现对中文文本的分类,还需要进行很大的改善[5]。
参考文献
[1]Edward Loper,Ewan Klein,Steven Bird.Natural Language Processing with Python[M].Stanford.July 2007
[2]周志华.Machine Learning[M].清华大学出版社.2016
[3]Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze An.Introductionto Information Retrieval[M].Cambridge University Press Cambridge.2009
[4]Matic Perovsek,Janez Kranjc,Tomaz Erjavec,Bojan Cestnik,Nada Lavrac.Text Flows:A visual programming platform for text mining and natural language processing[J].Science of Computer Programming.2016
[5]苏金树,张博峰,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报.2006
[6]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中国信息学报.2004
[7]李荣路.文本分类及其相关技术研究[J].复旦大学.2005
[8]许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密.2014
[9]奉国和.文本分类性能评价研究[J].情报研究.2011
【自然语言处理技术】推荐阅读:
自然语言处理05-11
非自然语言输入06-18
《大自然的语言》07-13
《大自然的语言》10-12
自然语言的理解综述07-24
《大自然的语言》教案11-02
大班大自然的语言教案07-23
大自然的语言课件改09-03
课文《大自然的语言》教案09-28
大自然的语言_习题10-08