自然语言处理

2024-05-11

自然语言处理（精选12篇）

自然语言处理篇1

随着计算机和互联网的广泛应用, 用自然语言与计算机进行通信, 越来越受到人们的重视, 由此进一步体现出自然语言处理的实际意义和理论意义。要通过计算机处理人类现实生活中的问题, 通常都先要建立相应的算法或模型, 然后将算法及模型用计算机能够识别的语言表达出来, 输入计算机, 计算机再根据指令进行问题求解。自然语言的处理 (Natural Language Processing简称NLP) 也是一样, 由于自然语言的多变性, 通过计算机来处理更是一件非常复杂的事情。

“自然语言处理”是指利用计算机对自然语言的各级语言单位进行的自动处理, 包括对字、词、句、篇章等进行转换、分析与理解等[1]。自然语言的处理模型如图1所示[2]。

最早的自然语言理解方面的研究工作是机器翻译, 机器翻译设计方案于1949年首先被提出。20世纪60年代曾开展大规模的研究工作, 但由于当时技术限制, 所以进展不大。大约90年代开始, 自然语言处理领域才发生了巨大的变化, 而这种变化至今还在持续着。

1 自然语言处理中的问题及原因

自然语言处理包括自然语言处理技术和自然语言处理资源。多年来人们一直致力于自然语言处理技术的研究, 但并没有取得令人满意的结果。主要有以下几方面的原因:仍然缺乏理论基础, 尽管目前有许多理论应用于自然语言处理, 但还没有一种理论能很好地解决自然语言处理中的复杂问题。这些理论都是在自然语言这一领域的近似应用, 准确率都没有达到满意[3];由于自然语言的复杂多变, 无法通过对词、句等的分析准确得到内容的真实含义, 词汇、句法方面的问题尚未解决;另外, 语义、知识等深层次的问题更是一个巨大的挑战。迄今, 人们还没有一种较完善的理论来进行自然语言处理, 而是在进行着各种尝试和研究, 因此应用于NLP的知识非常复杂;还由于理解语言的过程是动态的而不是静态的, 不能通过简单的逻辑推理或公式完全得到自然语言的真实含义, 因此NLP需要的知识大多是归纳的而不是演绎的, 同时还是一个非确定性过程。要进行准确的归纳, 就要有足够的信息, 否则很难得到充分准确的领域词典。

另外NLP的困难还体现在自然语言的歧义 (Ambiguity) 和病构 (Formedness) 上。歧义包括:注音歧义、分词歧义 (交集歧义、组合型歧义) 、短语歧义、词义歧义、语用歧义;而病构主要是由于真实文本的语言现象非常复杂, 不规范, 不干净, 具体来说:未知词 (Unknown Words) 、已知词的新用法、不合乎语法的句子、不合乎语义约束的搭配、由于作者疏忽造成的错误等。自然语言处理是一个多层次的问题, 包括语言学家们的资源建设、研究人员的基础研究和应用研究到最上层的应用系统, 如图2所示, 其中最主要的工作就是基础研究和应用研究。

语音识别中采用的统计语言模型推动了NLP的发展;目前的统计模型在向语言深层发展, 本体论 (Ontology) 在自然语言处理中的应用受到普遍重视[4,5,6,7], 并逐渐成为研究热点。通过计算机进行自然语言处理的难点在于其复杂性, 这种复杂性来源于自然语言本身。目前很多研究人员主要从语言本身的复杂性来探讨这些问题, 找到了其中的许多原因[8,9], 这些研究成果对于人们进一步掌握自然语言的特点、改进机器处理的性能等都会有一定的促进作用。

自然语言处理模型可分为三大类:基于规则的方法即分析模型, 基于统计的方法即统计语言模型, 还有就是混合模型, 下面将分别进行叙述。

2 分析模型

分析模型是对客观事物或现象的一种描述, 是被研究对象的一种抽象。客观事物之间存在着相互依赖又相互制约的关系, 要分析其相互作用机制, 揭示内部规律, 可根据对观测数据的分析, 设计一种模型来代表所研究的对象。建立模型时, 将重点放在实际事物最本质的东西上面, 这是对实际事物的一种简化, 以便于利用计算机进行模拟研究。

自然语言处理中的分析模型是一种理性主义方法, 主要的基础是语法理论, 是将人们制定的有限的语法规则应用于有限词汇上, 通过各种组合产生了无限的语言。80年代应用于分析模型的语法理论主要有广义的短语结构语法、词汇功能语法和功能合一语法等。但这些基于规则的分析方法还无法很好地处理整个段落或整篇文章。其中的语义分析方法极大地依赖于特定语言的语法结构, 如果遇到俚语或语法不当的句型, 或是人为地在特定情境下的灵活运用, 语义分析模型的处理效果会大打折扣, 准确率会大大下降。要想提高准确性, 就要求系统能够灵活地调整其分析结果, 理解每个新词的含义或词义的变化, 要做到这一点并不是很容易, 因而系统的扩展性不佳。这类系统一般只能支持很少的几种语言。

分析模型曾经对自然语言处理产生过深刻的影响。但是由于自然语言是很随意的, 在自然语言的表达和理解上, 从语音层 (Phonetic Level) 、词法层 (Morphological Level) 、句法层 (Syntactic Level) 、语义层 (Semantic Level) 、语用层 (Pragmatic Level) 以及话语层 (Discourse Level) 的各个层次上都存在着歧义, 决定了自然语言是很难形式化的。因此, 这种模型对于较小规模的自然语言处理具有一定的效果, 而对于整段的、整篇的、大规模的自然语言处理还不能达到很好的效果。随着对自然语言研究的深入, 出现了基于语料库的方法。这类方法主要是通过词法、句法、语义等多层次的加工处理, 从生语料中获取各种语言知识, 然后利用相应知识对语言进行分析、理解, 主要包括统计的方法、基于实例的方法等。语言分析方法和语料库方法的结合是自然语言处理发展的一个趋势。

3 统计模型

有些过程通过理论分析方法导出的模型不能很好地反映该过程的本质, 于是研究者想到了可通过试验或直接由其发生过程测定数据, 然后应用数理统计法求得各变量之间的函数关系, 得到相应的模型, 就是统计模型 (statistical model) , 这是从真实的数据中学习的方法。

自然语言处理中的统计模型是一种经验主义方法, 用到了多个学科的知识和技术, 涉及到语言学、计算机科学、数学等。其中数学是自然语言处理的基础, 尤其是数学中的概率统计方法。通常, 统计方法不需先验知识, 关键是语料库中有足够的信息量, 以确保在学习过程中模型能够学习到足够的知识。统计语言模型首先要进行训练, 当达到一定要求后便可应用。具体来说, 大致经过这样几个步骤:首先, 要建立大容量的语料库, 并对语料进行不同深度的标注;然后, 设计模型和学习算法, 根据不同的目的, 选择不同的语言特征集, 用设计的模型和算法学习和表达这些特征;进行模型训练, 根据学习的效果对模型和算法进行必要的调整, 并重新学习, 直至得到预期的结果;将得到的模型植入应用系统, 进行具体应用。典型的统计模型主要有:N-Gram语言模型、指数语言模型、支持向量机语言模型和神经网络语言模型。

3.1 N-Gram语言模型

N-Gram是大词汇连续语音识别中常用的一种语言模型。当两个历史最近的N-1个词 (或字) 相同时, 映射这两个历史到同一个等价类, 在此情况下的模型称之为N-Gram模型。N-Gram模型被称为一阶马尔科夫链。模型利用上下文中相邻词间的搭配信息, 计算出具有最大概率的句子, 从而实现对语言信息的处理, 无需用户手动选择。N-Gram模型基于这样一种假设:第N个词的出现只与前面N-1个词相关, 而与其它任何词都不相关。整句的概率就是各个词出现概率的乘积, 这些概率可以通过从语料中统计N个词同时出现的次数直接得到。N的值不能太大, 否则计算量仍然太大, 常用的是二元的Bi-Gram和三元的Tri-Gram。

3.2 指数语言模型

指数语言模型包括:最大熵模型 (ME, Maximum E-ntropy Model) 、条件随机域模型 (CRF ConditionalRandom F-ield Model Model) 、最大熵马尔科夫模型 (Maximum Entropy Markov Model) 和支持向量机 (SVM, Support Vector Method) 等。最大熵来源于热力学, 如今在信息学等许多领域得到了广泛的应用, 在自然语言处理方面也是一种主要的处理方法。自然语言处理中, 最大熵模型的原理是根据语料信息的最大熵估计Ngram概率, 得到的是满足约束集条件的、所有模型中熵最大的模型。其优点是融合多种知识源, 根据多种知识源的信息量来得到相应的概率;缺点是训练算法的时间复杂度过高, 数据稀疏问题比较严重, 不适合处理大标记集问题;最大熵马尔科夫模型是概率及随机过程理论在自然语言处理中的应用, 是基于统计机器学习的信息抽取方法。MEMM根据最大熵原理估计HMM中的发生概率和转移概率, 优点是适应性好, HMM易于建立, 不需大规模的词典集与规则集, 抽取精度较高, 因而得到研究者的关注[10], 其缺点是局部概率归一化, 即标记偏置问题。最大熵模型和最大熵马尔科夫模型都存在标注偏差的缺点;而条件随机域模型则克服了这一问题。CRF是根据Markov随机域相关理论描述语言序列, 对整个序列的联合概率建立一个统一的指数模型。其优点是全局归一化, 从而避免了MEMM标记偏置问题;但也有一定的缺点, 即时间复杂度过高。

3.3 支持向量机语言模型

进行信息抽取时, 基于特征的表示方法会产生对象表示的局部性, 造成计算的不可行;而支持向量机 (Support Vector Machine, SVM) 的方法, 则能较好的解决这类问题。支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势, 是建立在统计学习理论和结构风险最小原理基础上的, 构造的模型具有很好的预测性能, 不存在过学习问题。SVM已经广泛应用于手写体数字识别、文本分类等领域。采用支持向量机进行自然语言处理, 需要选择或构造一个核函数, 核函数的引入可以避免“维数灾难”, 大大减小计算量, 并且比基于特征的算法能够搜索更大的空间。SVM方法将焦点从特征选择问题转移到核函数的构造问题。具体来说, 涉及核函数构造、核函数类别选择以及核函数参数选择统。

3.4 神经网络语言模型

神经网络语言模型的理论基础是仿生学, 通过构建的人工神经网络来对自然语言进行处理, 通过模仿人脑神经元的结构和功能来模拟人对自然语言的处理过程, 从而建立自然语言处理系统。神经网络分为前向和反馈两种类型。前向多层神经网络是最常用到的网络模型, 神经网络语言模型就是利用多层神经网络计算得到Ngram概率。优点是能够避免高阶Ngram模型面临的维数灾难问题, 避免数据稀疏引起的估算结果不准确的问题;缺点是模型构建及学习过程中计算量过大, 通常需要大规模并行机群支持, 才能得到较好的效果。

随着IT技术的发展, 人们将人工智能及机器学习的研究成果应用在自然语言处理之中, 从而出现了多种统计模型[11,12,13,14]。统计语言模型在实际应用中取得了一定的效果, 现在在自然语言处理领域中占统治地位, 并且由统计语言模型还产生了一些相关的分支学科领域, 例如语料库语言学 (Corpus Linguistics) 等。统计语言模型已经成功地应用于拼写纠正、机器翻译、语音识别和信息检索等许多自然语言处理领域。近年来, 基于语料库和面向统计学的自然语言处理技术得到了很大发展[15,16]。语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型, 其中涉及大量的概率统计知识。

4 混合模型

自然语言的处理是一个极其复杂的过程, 涉及到自然语言的多个层次、多种依存关系和多门学科的专业知识, 既需要理性分析, 也需要感性经验。基于规则的方法虽然较准确, 但适用范围小;而统计的方法则适用范围较广, 所以仅仅通过理性主义中基于规则的演绎方法或经验主义中基于统计归纳的方法, 都不能达到理想的效果, 必须将多种思想方法相结合, 才能取得较好的效果, 这就产生了混合模型。混合模型就是统计与规则相结合的方法, 用统计的方法解决共性的东西, 用规则解决个性的东西。目前, 研究人员已研究出一些混合模型[17,18], 取得了一定的成果。

5 结束语

自然语言处理模型的建立涉及多方面的知识, 需要多种技术的综合应用, 这个学科具有交叉性的特点, 在进行研究时不能仅局限于某一个方面, 而应从多个角度考虑问题。由于人工智能技术的发展, 使得机器学习等人工智能技术在自然语言处理领域的应用研究得到了广泛的关注, 并取得了许多研究成果, 但是实用效果仍然不能令人满意。如今还没有找到一种理想的方法来进行自然语言处理, 处理的精度不够高, 总是存在一定的错误。我国近年来在自然语言处理方面已经取得不少成绩[19], 但与国际水平相比, 差距还很大, 还需进一步加大研究力度。研究者应打开思路、力求创新, 不能满足于仅仅找到一些自然语言处理的近似解, 而应力求找到能真正经得起实践检验的最佳解。

自然语言处理篇2

自然语言处理中的概率语法

上下文无关语法在处理句法歧义时遇到了困难,概率上下文无关语法和概率词汇化上下文无关语法为解决句法歧义问题提供了有力的手段.概率语法给一个句子或者单词的符号串指派一个概率,从而捕捉比一般的上下文无关语法更加细致的`句法信息.概率上下文无关语法也是一种上下文无关语法,其中的每一个规则都标上选择该规则的概率,处理每一个上下文无关规则时,都假定它们在条件上是独立的,一个句子的概率使用剖析该句子时每一个规则的概率的乘积来计算.CYK算法是一种自底向上的动态规划剖析算法,经过概率上下文无关语法增强之后,概率CYK算法就可以计算在剖析一个句子时的剖析概率.概率上下文无关语法的概率可以通过统计已经剖析好的语料库(树库)中的规则而得到,也可以通过直接剖析尚未加工过的语料库而得到.当剖析的句子有歧义的时候,可以使用向内向外算法来处理.概率词汇化上下文无关语法要考虑每一个规则的词汇中心语,规则的概率要以词汇中心语和邻近的中心语作为它的条件,这样就进一步增强了规则的功能.

作者：冯志伟 Feng,Zhiwei 作者单位：韩国科学技术院刊名：当代语言学 PKU CSSCI英文刊名：CONTEMPORARY LINGUISTICS年，卷(期)：7(2)分类号：H0关键词：上下文无关语法概率上下文无关语法概率CYK算法概率词汇化上下文无关语法

外贸合同中语言差异的翻译处理篇3

【摘要】随着我国对外贸易的增长，外贸合同在商务贸易中越来越重要，外贸合同翻译的准确性在外贸贸易中显得举足轻重。外贸合同是一种很严谨的文本，在中英文合同翻译中，要考虑很多细节，要讲究严谨准确的翻译技巧，避免出现不必要的失误与损失，那么如何能够规避常见的错误，以及如何使用正确的翻译技巧和思路来更好地翻译外贸合同显得尤为重要。本文结合中英文外贸合同的特点，分析翻译外贸合同时应从哪些方面入手，注意哪些方面问题。

【关键词】外贸合同中英文特点技巧

一、外贸合同的特点及其分析

1.用词准确性。翻译的基本原则是信、达、雅，外贸合同翻译也不例外，首先最重要的一点就是准确性。因此，外贸合同翻译最重要的要求就是直译原则，不到万不得已不能使用意译。而且意译也只是用不同的译文形式，表达与原文相同的内容。

有些专有名词的翻译必须采取直译的方法，避免产生误解，比如port of discharge（卸货港），airport of departure（出发地机场）黑市black market 双向贸易 two-way trade .還应注意一些意义相近的词的用法，还应特别注意近义词的使用。举个例子来讲：

表示“实施”、“执行”意思的词有“application”，“enforcement”，“operation”。而如果仔细分析的话这几个词之间是存在意思上的差别的，翻译时一定要小心使用，“application”一般为适用的意思，强调实施的对象；“enforcement”翻译为执行，以强调实施的力度，也就是实施是否符合规定的问题；“implementation”翻译为实施，强调实施的方式，即实施是否按照计划或程序进行的问题；将“operation”翻译为运用，强调实施的状态，即事实是否产生预期的效果.另外应注意一些专有名词的使用。譬如，accept最常见的意思是“接受”，而在外贸合同中的意思是“承兑，即远期汇票的付款人接受汇票，正式确认如期支付汇票金额的责任”；因此，可见外贸合同中很多专业术语的意思和我们平日所用的有很大的出入，翻译的时候切不可想当然，要查阅专业词典和书籍，判断该词在上下文中具体的意思。

2.严谨性。合同的目的就是明确参与各方的权利与义务，合同一般都明确规定了贸易双方的权利与义务，如果翻译文本一词多义，过于抽象时，会出现有差错，小则带来不便，重则导致经济受损，费財费力，得不偿失。因此，在翻译之前，要仔细分析原合同文本中的词句结构与逻辑关系，翻译时表达清晰，避免产生歧义。

（1）时间。合同中对时间的要求十分严谨，为了达到这一要求，英语中常同时使用两个介词或采用其他增词手段加以限制。例如：

Shipment is to be made on or before March 31，2015，per S.S.“May”（装运日期不得晚于2015年3月31日，必须由“五月”轮装运）因此，中译英时，不能简单将时间简单译成before March，这样的话很容易会引起歧义。

避免使用一些意义含混不清的词语如：about， immediately， as soon as possible.

（2）数字。合同中，凡是涉及到数字的地方都应该引起关注。汉语中习惯使用“大写”“整”，而英语中习惯在大写金额前后分别加上“SAY”“ONLY”。

表示长度、面积等单位名称时，在商务合同中一般不用缩写，只有在列表中与数字直接放在一起时才使用缩写。

3.正规性。合同文本因其特殊的功能作用要求，要求译者翻译时采用的语言能够得体，符合正规书面形式。外贸合同要求其文字明确、严谨。譬如外贸合同中常常会使用含有情态动词的句型，“must”表明当事人强制性的义务，“shall”在商务合同中得到广泛的应用，起到加强语气和增强强制的感觉。并非单纯地指将来时。此外，外贸合同中的句子结构较为复杂，是为了更加准确地界定双方当事人的权利和义务，避免出现歧义。经常用的是定语从句的句型另外在商务合同中多使用一些正式的用词，“自由”free 应该换成 at liberty，“因为”because 应该换成by reason of，立刻at once 应该换成forthwith由于特殊文本的要求，英语外贸合同中常常会出现herein，hereto ，herewith 等词达到正式、得体、严谨的感觉。

翻译商务信函时，要多使用主动的语态少用被动的语态，因为主动语态比较直接和明确。

4.社会性。外贸合同的特征和每个国家的用语习惯也是紧密相连的，反映社会背景的。特定的社会背景会影响到外贸合同中词语的运用。

（1）地址：中国的贸易合同地址是从大范围写到小范围比如：中华人民共和国安徽省淮南市洞山中路25号，而外国一般从小范围写到大范围比如：25 Dongshanzhong Road Huainan PRC

（2）倍数：另外需要特别注意的是，关于倍数的翻译，两种语言有很大的出入。对于英语而言，增加了多少倍是包括基数在内的，而汉语中是不算基数的，只是纯粹增加的倍数。这样看来两种语言正好相差了一倍，因此如果不清楚这一点在外贸合同翻译过程中是要吃大亏的。因此，The price of the product has grown five-fold over the past two years.应该翻译成这种货物的价格在过去的两年里已经增加了4倍。

5.得体性。商务信函语气丰富，常用礼貌、委婉语。英语中常用情态动词来表达作者的语气，如：意愿、承诺、等来表达委婉的客气语气如：We shall be pleased to know your quoatation.

同理，汉语中也通过一些词来达到得体的书面语的感觉，譬如即、兹、之、其、如等等。

6.简明性。商务信函要求文本简洁、准确，同时应注意术语、缩略语及套语的准确和规范。翻译时应灵活面对，根据以上所述外贸合同的特点，避免拖沓冗长，达到简结的效果。

二、翻译程序

1.分析。译者在翻译商务合同之前首先要对商务合同文本的体裁进行判断。对不同的商务合同的专业词汇进行收集和了解，对合同文本的种类、条款内容进行仔细分析之后才能确保译文质量。

2.理解。然后进行仔细地阅读充分了解文本意思，避免出现误解和歧义。

三、结语

商务合同翻译需要译者对英语有熟练的掌控能力，对商务活动运转熟悉，因此，作为外贸合同的翻译工作者除了要学习汉英语的知识还应熟悉商务贸易。在翻译实践中要紧紧围绕准确规范下功夫，不可过分发挥主观能动性，为商务贸易的正常往来起到保障的作用，同时为中国的外贸发展做出自己的贡献。商务合同的专业性极强，涉及到金融、海关、法律等多个领域，一个商务合同往往包括了多个领域的专业知识。翻译商务合同是一个不断吸收，不断整合新知识的过程。

参考文献：

[1]翁凤翔.当代国际商务英语翻译[M].上海：上海交通大学出版社，2005.

[2]丁树德.翻译技法祥论[M].天津.天津大学出版社.2005.

[3]顿官刚.经贸英语词汇的特点及翻译[J].山东外语教学，2002.

[4]秦定.国际贸易合同实践教程[M].清华大学出版社，2006.

[5]刘季春.实用翻译教程[M].广州：中山大学出版社，1996.

[6]梅德明.新编商务英语翻译[M].北京：高等教育出版社.2005.

【基金项目】本文是2015年安徽理工大学大学生创新项目：外贸合同中的跨区域语言差异及翻译技巧研究（项目编号201510361294）成果之一。

作者简介：

郝玉（1996-），女，安徽理工大学外国语学院2013级学生。

自然语言处理篇4

1.1 Python

Python是一种简单但功能强大的编程语言,其自带的函数非常适合处理语言数据。而且,它的学习曲线比较平缓,文法和语义都很易懂,具有强大的字符串处理功能。

1.2 自然语言处理

自然语言处理是一门融语言学、计算机科学、数学于一体的科学,在这一领域的研究将涉及自然语言(即人们日常使用的语言),所以它与语言学的研究有着密切的联系,是计算机科学领域与人工智能领域一个重要方向。它主要研究能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。

1.3 NLTK

NLTK(Natural Language Tool Kit)是自然语言工具包的简写,它定义了使用Python进行NLP编程的基础工具,提供了与自然语言处理相关的数据表示基本类,词性标注、文法分析、文本分类等任务的标准接口以及这些任务的标准实现,可以组合起来解决复杂的问题。并且,NLTK中自带我们进行文本分类研究所需的文档以及语料库等,我们可以直接使用它来进行语言处理的相应操作。

2 文本分类

文本分类一般包括文本的预处理、文本的索引和统计、文本的特征抽取、分类器的选择与训练以及分类结果的评价与反馈等。

2.1 文本预处理

在进行文本分类时,毫无疑问会涉及到对文本的预处理。由于通常文本都是非结构化的,计算机很难直接对其进行处理,因而在分类之前要对文本做一定的预处理,就是将非结构化的文档转换为适合于学习算法以及分类任务的表示形式。文本的预处理过程主要包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等操作,它主要是用来去除无用的信息,减少后续步骤的复杂度和计算负担。

2.1.1 文本切分

在Python自然语言处理中,NLTK中包含着一些对应的函数来实现文本的切分。raw()函数实现的是在未对文本进行任何语言学处理的情况下把文本的内容分析出来,sents()函数则是将文本划分为句子,其中每一个句子是一个词链表,words()函数则是将文本以单词列表的形式显示,如下图2-1和图2-2所示:

2.1.2 文本分词

分词就是将字符串切割成可识别的构成语言数据的语言单元。

文本分词是预处理过程中必不可少的一个操作。文本分词是在空格符处分割文本最简单的方法。在Python自然语言处理中,我们通常使用raw.split()在空格符出分割原始文本。而且使用正则表达式也可以做同样的事情,使用re.split(r'',raw),但是匹配字符串中的所有的空格符往往是不够的,因为这将导致分词的结果包含”n”换行符。所以在使用正则表达式进行文本分词的时候,会使用re.split(r'[tn]',raw)来实现匹配任何数量的空格符、制表符或者换行符,最终实现文本分词。

2.1.3 去停用词

在进行文本分类的过程中,有的文本由于存在的词量过多,使得我们的操作量过大,因此我们需要将文本进行合理的筛选过滤。Python自然语言处理中自带的NLTK工具包中包含一个停用词语料库,我们可以通过调用这个语料库来实现对高频词的停用,同时,需要使用词典资源来过滤文本语料库的内容,实现文本筛选。

2.1.4 文本特征提取

为一个学习方法选择相关的特征,并决定如何编码它们,这对学习方法在提取一个好的模型方面可以产生巨大的影响。建立分类器的工作之一是找出哪些特征可能是相关的,以及我们该如何表示它们。

一般的,特征提取是在反复试验和错误的过程中建立的,哪些信息与问题相关,是通过直觉来引导的。在我们平常的给定的学习算法中,所给定的特征数目是有限的,如果我们提供太多的特征值,那么我们所得到的算法将高度依赖训练数据的特性,但是对于一般化的新例子会不起作用,这种问题称为过拟合。

所以为了避免特征提取过程中出现的过拟合问题,我们需要将我们所要分类的文本分为训练集和开发测试集,其中训练集用于训练模型,开发测试集用于执行错误分析,测试机用于系统的最终评估。如图所示为将语料库划分为不同的子集。在将语料分为合适的数据集之后,我们使用训练集来训练模型,之后在开发测试集上运行,然后根据错误分析结果来对我们初始给的特征集进行相应调整,知道特征集趋于稳定。

特征提取器的出现主要是用来训练分类器。它会将每一个输入值转换为特征集。这些特征集捕捉到每个输入中被应用于分类的基本信息。

2.1.5 词频统计

在进行自然语言处理的过程中,我们通常想找到我们处理的文本中所包含的某些词的个数。在NLTK中,它直接对单词频率的统计提供了支持。我们可以直接使用Freq Dist()来直接统计我们所要查询文本中的单词总数。除此之外,NLTK还提供使用Conditional Freq Dist()来绘制分布图和分布表,与Freq Dist()相比较,前者需要处理的是一系列配对序列,它是以配对链表的形式作为输入,而后者则是处理一个词序列,以一个简单的链表作为输入。如图2-3所示,调用Freq Dist查询的文本《理智与情感》中最常见的20个词的累计频率图。图2-4则是调用Conditional Freq Dist()绘制的计数显示在所有演讲稿中america或者citizen出现的次数。

2.1.6 文本向量化

文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。

向量空间模型VSM(Vector Space Model)则是目前最流行的文本表示模型。

2.2 文本的索引和统计

比如说,在处理文本的过程中,我们可以挑选出一个文本中的第一个,第八个以及更多位置的词,类似的,可以通过这个在链表中的出现的次序来找出Python链表的元素。表示这个位置的数字叫做这个元素的索引。在文本名称后面的方括号里写下索引,Python就会显示出这个索引。索引是一种常见的用来获取文本中词汇的方式,也就是任何列表中的元素。而且,索引是从零开始的。

如图2-5所示的是NLTK_Data中自带文档《白鲸记》中第101个词以及第4个到第101个词的查询结果。

所谓的统计就是词频统计,项(单词、概念)与分类的相关概率的统计。

2.3 分类器的选择与训练

创建分类器的第一步是决定什么样的输入特征是相关的,以及如何为这些特征编码。在之前的测试中,我们不难看出,男性和女性的名字有各自鲜明的特点。以a、e和i结尾的姓名很可能是女性,而以k、o、r和s结尾的姓名很可能是男性姓名。所以在创建特征提取器函数的时候,我们需要将姓名的最后一个字母提取出来,这个函数返回的字典被称为特征集。

2.4 分类结果的评价与反馈

文本分类是信息处理的关键技术之一,分类的性能评价时期重要的组成部分,有效的评价会促进文本技术的良性发展。为了判断一个分类模型是否准确的达到了分类效果,我们需要对生成的模型进行评估。评估的结果决定着该模型的可靠度以及该如何使用它。大多数评估技术通过将模型在测试集中输入生成的标签与输入的正确标签相比,为模型打分。而且,该测试集通常与训练集具有相同的格式。在对模型实现评估的时候,准确度、精确度和召回率、混淆矩阵以及交叉验证都成为我们进行模型评估的重要评价指标。根据不同的模型,我们会使用不同的评价标准。

3 总结

Python自然语言处理中自带的NLTK工具包中包含大量的语料库资源,使用这些语料库中的各种函数,我们可以实现对文本的基本分类,在实现文本分类的过程中,我们必须要熟悉Python语言在文本分类中的应用,通过调用不同的NLTK功能包,来实现文本分类不同过程的处理,从而达到分类效果。但是,基于Python自然语言处理存在的一个问题就是无法实现对中文文本的分类,还需要进行很大的改善[5]。

参考文献

[1]Edward Loper,Ewan Klein,Steven Bird.Natural Language Processing with Python[M].Stanford.July 2007

[2]周志华.Machine Learning[M].清华大学出版社.2016

[3]Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze An.Introductionto Information Retrieval[M].Cambridge University Press Cambridge.2009

[4]Matic Perovsek,Janez Kranjc,Tomaz Erjavec,Bojan Cestnik,Nada Lavrac.Text Flows:A visual programming platform for text mining and natural language processing[J].Science of Computer Programming.2016

[5]苏金树,张博峰,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报.2006

[6]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中国信息学报.2004

[7]李荣路.文本分类及其相关技术研究[J].复旦大学.2005

[8]许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密.2014

[9]奉国和.文本分类性能评价研究[J].情报研究.2011

自然语言处理篇5

根据生态环境要求,草原生态旅游度假区生活污水必须进行处理,同时又要避免处理设施对周边的生态环境造成不良影响.基于此,对陕西关山草原生态旅游区的生活污水采用土壤自然处理方案,对处理系统进行了设计和现场实施.4年多的.运行结果表明处理系统对BOD5、CODCr、NH3-N的平均去除率分别可达95%,93%和89%以上,系统运行稳定,处理效果好.

作者：解岳黄廷林高志明作者单位：解岳,黄廷林(西安建筑科技大学环境与市政工程学院,西安,710055)

高志明(西宁市自来水总公司,西宁,800001)

自然语言处理篇6

阅读教学是高中英语教学的重点，它承担着培养学生语言运用能力的重要任务。如何通过阅读教学扩大学生的语言知识储备，培养学生的语言运用能力是许多一线教师面临的一个重大课题。而语言知识的学习绝不是单纯地记忆那些零碎的、孤立的语言知识点，语言知识的掌握与运用必须依托一定的语境，离开了语境，语言知识就失去了它的功能与意义。因此，笔者认为，在阅读课上进行语言知识教学要充分利用阅读文本的情景语境，将语言知识的学习与文本内容的解读、语言实践活动及阅读思维训练结合起来，优化阅读课中语言知识处理的过程和方法，这样才能真正达到在阅读教学中培养学生语言综合运用能力的目的。

二、阅读课语言知识教学的基本途径

1.语言知识教学应与文本阅读相结合

英语阅读教学的目的是“学生通过阅读文本掌握其基本语言、文化等知识；发展学生的阅读技能；形成自主获取信息、处理信息的能力”[1]。语言知识是基础，但是语言知识的学习应通过文本的阅读来实现，语言学习不能凌驾于阅读之上，它应与阅读密切相连。语言知识如脱离了文本的内容，那就只是一些零碎的、孤立的词汇及语法，语言也就失去了它本身的作用和意义。因此，在阅读教学中将语言学习与文本阅读分离的做法不符合语言学习的规律，让学生在完整的文本语段中感知探究语言才能达到体验并运用语言的目的。

2.语言知识教学应与语言实践活动相结合

新课标倡导语言知识的学习应立足于语言实践活动。而现行阅读课中语言知识的处理大多简单机械，往往是教师单向讲解语言知识点，且大多以例句讲解和练习为主，学生被动地听和记。新课标倡导的自主、合作、探究的学习方式没有在语言知识的学习上得到体现，学生没有机会去感知体验语言知识，更谈不上语言运用能力的提高。因此，在阅读课中，教师应提供给学生相应的与文本内容相关的语言听说读写的实践活动，有意识地引导学生运用文本中的语言知识，让学生在完成任务的过程中培养语言意识，提高语言运用能力。

3.语言知识教学应与学生思维能力的培养相结合

语言是思维的外壳，语言如果撇开它所承载的思想意义，那就荡然无趣，一篇阅读的文章就是语言、内容、思维的统一。[2]因此，文本语言的解读相当于在语言实践的活动中进行语言知识的学习，同时解读的过程更是思维的过程，从文本信息的表层理解整理，到文本的深层解读，再到语言欣赏及作者观点思想的提炼等，这是一个语言知识学习与思维训练统一的过程。

三、阅读课语言知识处理的方法

对于英语阅读教学中的语言处理，教师应改变“填鸭式”的教学方式，探索新的语言教学切入点，优化语言知识的学习方法，提供充分的机会让学生自主去感知、整理、探究和运用文本中的语言知识。教师应尽量创设语境，利用文本，让学生主动运用他们的听觉和视觉去感知理解语言的表现形式；布置阅读任务，让学生根据阅读任务，基于话题去整理语言，理清文本的内容和脉络；引导学生进行积极思维，深层次解读文本，欣赏语言，探究语言字里行间的含义；最后创设新的情境，让学生在新的情境中运用所学的语言知识，最终达到扩大学生语言知识储备、提高语言运用能力的阅读课教学目的。

1.感知

在阅读课中，教师可通过以下方法让学生对文本中的语言知识进行感知：在读前导课的过程中，通过与文本内容相关的语境让学生有机会感知一定的语言知识；在阅读过程中给学生以充分的阅读时间去感知文本的语言词汇，把语言知识通过大脑的编码翻译形成文本的内容及意义；在阅读任务中（如提问、预测等）加入目标语言知识的感知和复现等。如在教学NSEFC Book 2 Unit 4中“How Daisy Learned to Help Wildlife”导入部分时，笔者以谈论“濒危动物的心声”的方式导课，让学生以小组活动的形式，猜测动物的心声。

Teacher： Please look at the pictures below and guess what each of them is trying to tell us. I would like you to read their minds and write down a sentence for each kind of animal.

在学生分享展示他们所写的心声后，教师呈现自己的答案（见图1），然后总结并导入新课。

Teacher： We know many animals living in the wild are endangered， such as antelopes， South China tigers and pandas. Some of them even have died out. Luckily we human beings have realized the importance of protecting the wildlife， for example， a little girl named Daisy has always longed to help endangered species. She has a very special talent that she can talk to animals. One day she got a flying carpet and made a magical journey. Lets come to the story How Daisy Learned to Help Wildlife.

【设计说明】教师在呈现动物心声及总结导课的一段话时有意把die out， long to， habitat， endanger， wildlife， species， a flying carpet等这些文本中将出现的语言知识让学生通过看到或听到的方式去接触和感知，把语言知识与恰当的话题情境结合起来，让学生初步感知理解其意义及用法。endprint

2.整理

在处理文本信息时，以话题为中心组织整理语言知识是一个把语言知识和文本内容有效结合的方式。教师可按照语块理论对文本的语言加以整理。一方面，可帮助学生理清文本脉络，获得更为清晰的文本内容和意义；另一方面，让学生整体理解记忆，可改善语言输入的质量，减轻学生的记忆负担。同时，在语言输出时，这种更大的语言单位作为整体被提取使用，可以提高语言使用的准确性，获得高效的语言表达。[3]如在教学NSEFC Book 4 Unit 4中“Communication： No Problem？”第二、三段内容时，笔者设计了以下阅读任务：Read Paragraph 2 & 3， find out the three cultural mistakes（shocks） when they greet each other using different body languages. （学生通过以下表格来回答教师的问题）

【设计说明】学生利用表格把文本中本来相对松散的语言细节描述信息转化为直观清晰的三个由于文化不同而造成的误会。学生在完成表格内容时，熟悉并掌握了不同体势语言（approach， kiss sb on the cheek， bow， reach ones hand out to， move very close to等）的表达方式及当事人的情感反应如何通过体势语言来表达（step back appearing surprised； put up her hands， as if in defense； move back a bit）。通过对语言知识的整理，学生的头脑中就有了更多有关body language的语言表达储备，且便于记忆。在完成阅读任务的同时，这些与body language有关的语言知识也得到了巩固及运用。

3.探究

探究文本语言可有效帮助学生对文本进行深度解读，进而促使学生思维能力的发展。文本的内在意义是通过语言来体现的，探究语言的内在含义，对文本语言进行赏析，有利于达到对文本的更深层次理解。在探究语言的过程中，学生的评判性等思维能力得到训练，同时阅读策略的培养也得到了渗透。教师在阅读课中可设计一些相应的阅读活动，如：识别作者的措辞和语气；分析作者的情感态度倾向；欣赏细腻的心理描写、场景描写、修辞手法；培养审美情趣，提升审美观念等。如在教学NSEFC Book 1 Unit 4 Workbook中的“The Story of an Eyewitness”时，让学生仔细阅读文本并完成以下三个阅读任务。

（1）Find powerful but negative words used by the writer to describe the result of the earthquake. （key： Never before in history has a city been so completely destroyed. Nothing is left of it but memories and some houses far from the centre of the city.）

（2）Find the repetition of a word to describe the result of the earthquake. （key： San Francisco is gone. Its businesses are gone. The factories， hotels and palaces are gone too. All of the ways man had made to keep the city safe were gone in the 30 seconds.）

（3）Find parallel sentences（排比句） in Para 2 and try to understand the sentences. （key： A list of buildings undestroyed was now only a few addresses. A list of the brave men and women would fill a library. A list of all those killed will never be made.）

【设计说明】通过引导学生探究文本语言的表达特点，使其感受语言的力量和魅力。作者以否定词提前、重复及排比的方式来加强语气，目的是向读者呈现地震对这个昔日繁华城市造成的致命摧毁，在语言欣赏的同时还培养了学生的思辨能力。

4.运用

语言知识学习的最终目的是为了运用，教师在感知、整理、探究的基础上还应为学生创设与所读文本内容相关的新的情境，将书本知识迁移到现实生活的情境中，给学生提供运用所学语言知识的机会，达到内化语言、发展能力的目的。教师可在阅读课中设计如下活动：对文章进行概述，评价文本与作者，相关话题写作等。如在教学NSEFC Book 2 Unit 4中“How Daisy Learned to Help Wildlife”之后笔者设计了如下课后作业。

Daisy is invited to make a speech at the conference organized by WWF. Please write a speech for Daisy. The speech should talk about： a. Daisys brief self introduction； b. her experience in Tibet， Zimbabwe and the rainforest； c. Daisys own ideas about wildlife protection.

【设计说明】该作业的设计目的在于给学生设置一个情境，让学生有机会运用所学语言知识去解决实际交际中的问题。阅读的文本材料往往是语言运用可以借鉴的最佳素材，学生可以模仿、运用文本中的语言材料，并进行一定的加工发挥，在完成写作任务的过程中内化语言，形成语言运用能力，同时还可培养学生的概括、分析及评价等思维能力。

四、结束语

脱离文本语境，单纯地讲解语言知识不符合语言学习的认知规律。在缺乏情境的语言知识教学模式下，学生学到的只是一些零碎的语言形式及孤立的意义，很难把语言知识转化成语言运用能力。只有充分利用文本情境，引导学生感知语言表达方式，整理文本中的语言知识，探究一定情境下的语言内在含义，同时设置恰当的情境，让学生有运用所学语言知识的机会，才能真正达到通过阅读课教学提高语言运用能力的根本目的。

参考文献：

[1] 王笃勤.英语阅读教学[M]. 北京：外语教学与研究出版社，2012：33.

[2] 葛炳芳. 英语阅读教学中的综合视野：内容、思维和语言[M]. 杭州：浙江大学出版社，2013：9.

自然语言处理篇7

面对当今海量的互联网网页信息,不良信息也开始四处泛滥,于是人们开始探寻各种过滤信息的技术手段,以扼制不良信息的传播,保护特定人群不受恶意信息的侵扰,例如保护企业内员工不受购物、娱乐等信息侵扰而影响工作效率,保护青少年不受色情、暴力等信息毒害。前一阶段,全国整治互联网低俗之风专项行动办公室公布了近百家涉及传播淫秽色情和低俗内容的网页名单,其中不乏Google、新浪、搜狐等一些知名门户网页。

互联网不良信息泛滥的程度已经越来越严重、范围也越来越广泛,连正规经营的知名门户网页都无法避免,这一现状确实令人担忧。当传统的网页过滤技术无法再满足用户应用需求时,基于智能的过滤技术必将成为过滤技术未来发展的主要方向。

内容过滤是网络安全研究中的一个新课题,它的任务是从动态信息源中过滤掉不安全的信息。相比传统的过滤技术,新的自适应过滤技术不需要大量初始训练文本,同时在过滤过程中可不断进行自主学习来提高过滤精度,因此更适合于Web环境的过滤要求。

本文针对传统网页过滤系统的不足点,提出新一代多级网页智能过滤解决方案。

1. 网页过滤的相关研究

网络内容过滤在中国是一个新兴的市场,其主要涵盖了Web访问过滤和电子邮件过滤等。在网络安全中网络内容过滤称为内容安全。为了避免不良信息侵扰,人们常用人工审计和网页过滤是两种方式对互联网信息进行检索、过滤。一般来说,网页过滤技术包括URL过滤技术、关键词过滤技术、图像过滤技术、模板过滤技术等。URL过滤和关键词过滤是目前市场上较为成熟的过滤技术。

UR L过滤技术的原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。URL过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,URL过滤方法也存在一定的应用限制。首先,URL网址库必须实时更新,否则难以应对每日新增的Web网页。其次,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,否则会出现误判、漏判的可能。

关键词过滤技术是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是相对有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。但是,关键词实时分析过滤技术在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题,对系统资源和带宽资源都造成了一定的浪费。

文献[1]提出提高模板准确性的学习和过滤阈值优化的新方法。文献[2]在传统方法的基础上,设置加权的关键字矩阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出基于同类词权重均值的关联过滤算法。文献[5]提出了网页预处理的改进方法:基于DOM数结构的过滤器。文献[6]提出一种基于ISAPI过滤器的网页防篡改系统,本研究将采用多级过滤相结合的智能过滤方法。

2. 基于自然语言处理的多级网页过滤器的设计及关键技术

本研究主要从技术的角度,分析和解决网页过滤问题。基于内容的网页过滤器的原理是采用某个分类算法(如常用的KNN算法、贝叶斯算法、神经网络算法、SVM算法等)对已知的训练样本进行学习,提取训练样本的特征向量,构造二值分类器。然后运用此分类器,对新的文档进行判断,将判断的结果提交给用户,用户可对过滤结果进行评价反馈,系统再根据反馈对过滤器进行调整。

基于自然语言处理的多级网页过滤器结构,如图1所示。其中包括,黑/白名单过滤、指纹识别技术、意图检测技术、基于内容的网页过滤以及用户个性化过滤。基于内容的网页过滤包括文本内容和图像内容,本研究重点论述文本内容过滤。

2.1 黑白名单过滤

黑名单过滤是用户生成一个网页地址黑名单/白名单。阻止或者直接允许这些网址浏览。其中,IP黑名单是一个常用的垃圾网址过滤技术。用户手工维护一份垃圾网页的地址清单,系统过滤掉所有通过这些IP地址的网页。

2.2 指纹识别技术

所谓网页的指纹,就是网页内容中的一些字符串的组合,又称为快照。就是从类似、但不相同的信息中,识别已经被确认为垃圾网页的信息。如垃圾网页常包含下面的词汇:性服务、毒品。其实这就是垃圾网页的指纹,和反病毒技术的特征码识别的思想是共通的。反垃圾网页产品通过确认网页的指纹,完成对垃圾网页的识别。

当然,指纹检查的准确性依赖于垃圾网页的指纹库,反垃圾网页产品先给网页中出现的每一个字符赋予一个数值(这个数值的确定是按照特定垃圾的用词规律特点进行分类),再利用统计方法给这个网页计算出一个综合的数值。也可以根据是否与其他多次收到的网页相似来判定(多次收到相似的网页很可能就是垃圾网页)。指纹识别技术的缺点是要经常维护指纹库。

2.3 基于内容的网页过滤

基于内容网页过滤的是对网页内容(本系统主要针对文本格式的网页),利用自然语言处理技术,对网页内容进行语义表征,首先对网页内容进行分词、特征提取等预处理;然后,结合知识库对特征项扩展,根据权值形成向量,匹配数据库中相应类目的向量,计算两向量的相似度,从而判断网页的可信度[3]。同时,利用系统自学习功能分析可信网页和非可信网页的特征,智能调整相关主题关键词的权重,使针对垃圾网页过滤的准确率达到更高。

2.3.1 意图检测技术

现在有很多垃圾网页其标题和正文都与非垃圾网页一样。其中含有个URL地址,恰恰就是这个URL地址链接的内容是垃圾内容。意图检测这项技术就是可以对URL进行检查,看其链接的内容来判断此网页是否为垃圾网页。这种技术的优点是提高垃圾网页的识别率;缺点是要经常性地维护非法URL库。

2.3.2 分词、关键词提取和扩展

分词:由于中文句子不像英文那样在词与词之间有空格,为了获得句子的词语信息,需要对句子进行分词。目前词法分析技术已经比较成熟,很多分词程序的正确率可以达到95%以上。可以采用中科院所研究的汉语词法分析系统CTCLAS或者哈工大词法分词系统IR LAS。其中IR LAS采用全切分的方法,按照词长由大到小对中的词进行匹配,找出所有可能的分词,将每种可能都添加到切分词图中。

若存在分词歧义,全切分之后构成的词图是一个含有多条路径的图结构。其它用于分词的方法还有:正向最大匹配算法、逆向最大匹配算法、词频统计、有穷多层次列举、邻接约束、联想-回溯、专家系统、神经元网络等方法。本文利用哈工大的分词系统进行分词。

关键词提取和扩展:首先去除句子中的停用词。停用词是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、连词和语气词等。如“是”、“的”、“啊”、“呀”等。由于大多数停用词的使用频率很高,且携带的信息量很小,如果不加以过滤,会影响搜索速度。为提高句子处理的准确性,对句子进行词法分析后,通常将停用词过滤掉。去除停用词通常是使用停用词表,停用词表是把一些检索意义不大的词收集而编制的一张表。凡是出现在这个表中的词都作为停用词被过滤掉。

关键词扩展:句子中包含的词语往往较少,但是包含着丰富的语义信息。如果单靠从句子中抽取的关键词进行信息检索,一些不包含句子关键词的文档将被忽略掉,从而影响包含答案的候选网页的召回率和答案抽取的准确性。由于不同的句子类型其答案有不同的特点,在关键词扩展时考虑根据不同类型句子的答案来扩展。

在句子的类别确定后,可以根据类别的特征进行句子类别的关键词扩展。例如句子为:正规足球的体积多大?答案中会有“立方米、立方厘米”等词,这些词可以帮助搜索答案和提取准确答案。通过收集不同类型的句子,并分为不同的类别,根据不同类别句子的答案扩展关键词。

2.4 Mime filter技术

后台采用Mime filter技术对网页进行过滤,Mime过滤器是一个COM对象,当IE加载时会主动调用这个组件。使用Mime过滤器时必需实现IInternet Protocol Sink和IInternet Protocol接口。(注:urlmon.dll内部实现了IInternet Protocol和IInternet Protocol Sink接口)。

2.5 基于内容的网页过滤器执行过程和智能学习过滤的处理过程

基于内容网页过滤器执行过程:首先,协议分析。根据用户发出的协议(如HTTP)请求做出允许或禁止访问的判断。其次,用URL类去读取一个页面,取回所有的html源码,其次,查看html源码,找到这个html源码的规则,用正则表达式,匹配内容后保存。然后,用自然语言处理技术进行过滤。

另外,智能学习过滤的处理过程主要包括:(1)模型的训练。根据初始训练文本训练得到一个初始Profile。(2)模型的自适应学习。Profile不断通过反馈信息进行自适应学习,以提高模型的准确度,相应提高后续过滤的精度。Profile定义的准确性对过滤结果有着直接的影响。同时,过滤模型(计算特征权重和文档相似度)和反馈算法(自适应学习机制的基础)对于提高过滤结果的精度也很重要。

3. 测试与分析

基于上述方法和理论,采用B/S三层结构模式,在Java EE 6+My SQ L5.1平台上设计并开发了一个多级网页过滤系统。本部分将完成测试与分析。

首先,搭建测试环境,主要步骤如下:(1)安装数据库工具My SQ L5.1,导入设计好的数据库initialize.sql。(2)安装VS2005运行底层代码,生成Http Content Filter.dll文件。以后直接使用Http Content Filter.dll文件。(3)配置服务器(tomcat),运行前台代码。接着我们就可以使用前台管理了。(4)把Http Content Filter dll加载于浏览器,加载过程封装在文件“加载安装.cmd”。

其次,打开IE开始测试。(1)对内容测试关键词条目的输入,构建profile。基于自然语言处理的网页过滤器的主要功能测试数据,如表1所示,包括测试内容、测试数量、准确率。

测试数据分析:由上述统计结果可知,该网页过滤器的基本功能的实现性能相当稳定。但是,由于时间的限制我们还是没有做大量的测试,真正的稳定性需要在实践中证明。在前期的有限的测试中能达到如此完美的表现,同样表现出了系统的性能处于一个相当高的水平。同时,通过进行比对测试,以及反复的学习和训练,最后实现了一个功能全面的邮件过滤器,这充分说明,多级过滤方法相结合的垃圾网页过滤器是可行的、高效的。

4. 结束语

本文提出了基于自然语言处理的多级网页智能过滤,该系统能够很好地完成网页过滤,使用方便,可以针对不同的用户设置不同的安全策略:黑白名单、关键词过滤(包括网页Title,UR L关键字,正文内容)、日志查询与报表(包括访问记录、访问流量、报警信息)、对网页Web Mail实时监视、支持动态页面(如Java Script,ASP,PHP等)。利用自然语言处理技术,对垃圾网页的处理方式更加灵活和人性化,可以更准确的判断垃圾网页。该过滤器有好的可扩展性,满足企业管理需求,根据以后的需求,提供杀毒功能。

因此,网页过滤器也要与时俱进,不断发展,不断创新。如何有效控制这些非法信息的传播,最大程度的保障互联网环境的安全健康,做到“魔高一尺,道高一丈”,是信息过滤技术不断探讨的课题。

参考文献

[1]沈凤仙,朱巧明,刘粉香.改进的Web文本自适应过滤策略[J].计算机与现代化,2010,9:48-52.

[2]唐坚刚,魏然.基于权重均值的不良网页过滤算法研究[J].计算机工程与设计.2008,29(3):1088-1090.

[3]黄宣菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-442.

[4]康海燕,李飞娟,苏文杰.基于问句表征的Web智能问答系统研究[J].北京信息科技大学学报,2011,26(1):76-81.

[5]梁党卫,彭文滔,边利亚.垂直搜索引擎中过滤器的设计与实现[J].计算机应用与软件,2009,26(12):149-151.

[6]龙夏,凌军,汤彪,等.基于ISAPI过滤器的网页防篡改系统[J].合肥学院学报(自然科学版),2010,20(03):41-43.

[7]Guerm azi Radhouane,H amm am iM oham ed,H am adouAb delma jid Ben.Web angels filter:A violent Web filtering engineusing textual and structural content-based analysis[C].Proceedingso f the 8th Industrial Conference on Data Mining.Leipzig,2008:268-282.

[8]Chau Michael Chen Hsinchum.A machine learningapproach to Web page filtering using content and structure analysis[J].Decision Support Systems,2008,44(2):482-494.

自然语言处理篇8

关键词：自然语言处理,基于实例学习,相似度比较

自然语言处理技术的发展大致经历了基于规则、基于统计和与机器学习方法结合的三个阶段。传统基于规则的方法很难适用于存在大量“例外”现象的自然语言处理;而基于统计方法对问题描述的不易理解性以及数据稀疏等也限制了它的应用。

近年来, 机器学习技术在自然语言处理中的应用成为研究热点。在众多机器学习方法中, 基于实例学习的突出特点是学习过程只是简单的存储已知实例[1]。分类的过程才是相似度比较的过程。这一特性使得问题描述和分类过程大大简化, 避免了前两种方法泛化过强或过弱的缺陷。

1 基于实例的学习的基本算法

基于实例学习是基于智能行为可以通过相似推理来达到假设建立的一种学习方法。其算法机理是:在遇到一系列训练样例时, 基于实例学习仅将它存储起来。等遇到新实例时, 再计算新实例与存储实例之间的距离, 找到与新实例距离最近的类别, 并赋予相应的函数值, 完成分类[1]。

1.1相似度比较机制

相似度比较是基于实例学习中两实例通过计算特征间的距离来进行比较。计算公式如下所示。

基于实例学习可以通过调整权重和特征值距离来调整分类效果。下面的I B 1和I B 1-I G采用的是调整权重的方法, 而M V D M是一种调整特征值距离的方法。

(1) IB1方法。

IB1算法[2]由Aha等人在1991年提出, 各权重的值都为1。实例间的距离即为特征值间距离的加和。此法较简单, 针对某些分类问题, 效果也很理想。但是正因为过于简单而存在着维度灾难的缺陷, 在有多个特征值的情况下会使得相关特征值一致的实例可能在这个n维的实例空间中相距很远, 而误导分类。

(2) IB1-IG方法。

为解决上述的问题, 利用信息增益来确定每个特征的贡献量是十分必要的[3]。这种方法就被称之为I B 1-I G。它通过检测特征值的重要性来对特征值分配权重, 总的来说, I B 1-I G在一定程度上避免了维度灾难, 而且也具有了针对数据稀疏问题的平滑能力[7]。

(3) M V D M方法。

在前两种方法中, 无法充分估计异形相关词语相似性的情况。为此, 学者们提出了M V D M方法。此法是通过比较每个特征值的类条件分布情况来构造两特征值间分布距离矩阵来计算特征值间的距离。

M V D M方法可以说是在基于相似性推理的基础上, 采用统计方法学习了一个特定分类问题。同所有统计方法一样, 它对中等以上概率的词识别效果好, 对概率低的识别效果则差。

2 基于实例学习与自然语言处理

基于实例学习是一种针对分类的有监督的学习方法, 而自然语言处理中的许多应用问题都可以被看作是分类问题。例如语法形态分析、词性标注、浅层句法分析等等。基于实例学习在自然语言处理中的优势主要体现在以下几点。

(1) 基于实例学习方法在训练时不做任何归纳而直接存储这一特点, 具有较为客观的归纳偏置, 既保证了特征信息不减少, 又保证了例外情况的正确处理。避免了以往方法泛化过强或过弱的缺陷。

(2) 相比之于统计方法, 避免了统计方法中平滑数据稀疏中参数估计的诸多困难, 减少计算复杂性, 同时增加了分类精度。

但是也不证明它是全无缺点的, 由于基于实例学习牺牲泛化而保存所有的实例, 造成了冗余, 占据存储空间。语料库越大, 包含实例越多, 计算次数就越多, 分类的效率也就变低, 针对这一问题, I G T R E E是一个提高搜索速度的方法。它是一种带有静态有序特征的决策树算法, 它忽略那些与重要特征不匹配的实例[2]。相关的研究及实验证明, I G T R E E在效率上较高但在精度上略低于I B 1-I G, 数据量越大越复杂则这两点越为明显。

3 基于实例学习方法在浅层句法分析中的应用

作为该方法的一个应用, 本文对实例学习在浅层句法分析中的分类效果进行了实验研究。

浅层句法分析是一种新的语言处理策略, 它是对语句的短语级句法分析, 而不是完全句法分析[4]。它规避了句法分析存在歧义的困难[8], 同时也利于句法分析技术在大规模真实文本处理系统中的快速利用。

本文使用I B 1-I G方法, 采用通用的《华尔街日报》语料[5]。我们将得出的精度计算结果与使用同一语料的基于规则的结果、基于统计的结果以及Baseline值做比较。比较结果如表1所示。

表1中, 精度、召回率及F值都是浅层句法分析系统的通用衡量指标。由表1可以看出, 这三个值都远远高于Baseline值, 说明它作为一种处理该问题的手段是有存在必要的。同时较基于规则方法的结果提高了4.6%, 较基于统计的结果提高了2.2%, 改进效果良好。可以得出, 基于实例学习在自然语言处理中较基于规则和基于统计方法确是有其明显优势的。

4 结语

本文就基于实例学习在自然语言处理中的优缺点进行了详细论述, 并与其他方法进行了针对性比较, 其类比推理机制给自然语言处理带来了极大的便利。但仍然存在问题。虽然它可以规避基于规则和统计方法的缺陷, 但是完全抛弃规则, 放弃归纳事物的规律同样是不合理的。如何在二者之间取一个均衡点是至关重要的, 也是我们将来要做的工作。

参考文献

[1]Tom M.Mitchell.机器学习[M].机械工业出版社, 2003.

[2]鲁松, 孙红梅, 白硕.自然语言处理中记忆学习方法的改进[M].第六届计算机科学与技术研究生学术研讨会, 2000.

[3]王浩.基于语料库的自然语言句法分析技术研究[D].上海:复旦大学.

[4]孙宏林, 俞士汶.浅层句法分析方法概述[M].当代语言学, 2000.

[5]宗成庆, 高庆狮.中国语言技术进展[J].中国计算机学会, 2008, 8:34～39.

[6]王珏, 周志华, 周傲英.机器学习及其应用[M].清华大学出版社, 2006.

[7]陆汝钤.人工智能[M].科学出版社, 1996:45～52.

自然语言处理篇9

关键词：计算机,智能识别技术,自然语言处理

所谓的自然语言处理模型, 主要用于人类的日常语言问答中, 自然语言处理模型能够让计算机理解人类的日常用语并理解自然语言中所包含的文字语义, 同时能够针对人类所提语言问题, 以对话的形式将答案转为自然语言进行回答。自然语言处理技术的研发, 是希望能够在人与机器之间建立起一种信息的传递关系, 使智能机器能够更好地为人类提供信息传递功能。目前, 自然语言处理技术主要运用在情报检索、专家系统、知识工程建造以及办公室自动化系统中, 并实现了人机接口, 极大的方便了人类的生活。

1 计算机智能识别技术在自然语言处理模型设计中的原理

自然语言处理模型设计以计算机智能识别技术为核心, 其设计原理主要包括以下三个方面, 一是识别人类语言时, 该语言必须通过发出信号的时间序列进行排序变化, 在进行信息编码转换, 从而使输入语言变为智能识别机器可识别的编码。二是语言信息已完成可识别信息编码转换后, 该编码已处于可供阅读的形式, 而编码内容则是通过声学信号进行传达, 在此基础上, 一般采用与编码语音信号相对应的离散型符号进行呈示, 该符号具有区别性特征。三是此类符号继续采用计算机智能识别技术进行识别认知, 并识别语言内容中所包含的具体语音和语义, 并运用语法和语义与语言的情境结构相结合, 再进行计算机智能识别技术中的人工智能方式转换为与人类语音相似的方式进行内容输出。

2 基于计算机智能识别技术的自然语言处理模型设计

2.1 模型结构图

我国目前所使用的计算机智能识别语言系统大多数都是以统计模型方式进行技术构建的, 统计的模型方式优势在于, 其能够准确的识别语音和语义的相近频率, 并提高语言语义的精确性, 从而使计算机系统更好的进行智能识别。该模型设计结构如图1。

2.2 模块设计

2.2.1 语言信号的特征提取模块

特征提取模块的功能是对语言信号所输入的相关信号进行提取, 以便声学模型做进一步处理, 在该模块的运作过程中要注意环境干扰、语音识别误差等因素, 可使用信号处理技术进行干扰降低。

2.2.2 统计声学模块

统计声学模块主要是保真和还原智能识别系统的语言。现有的统计声学模块在设计过程中大多数都采用一阶隐马尔科夫模型进行系统的构建, 该模型能够很好的保证发音系统的还原度, 使语言和语音在识别过程中能够与单元模块保持一致。

2.2.3 语言模块

该模块的功能主要是对语言系统识别中的语言进行建模。语言模块既包括语义识别、语义理解分析, 还包含了语境正则语言。在语言模块中所采用的智能识别技术大多为具有统计学意义的N元文法语言识别模式。

2.2.4 解码器模块

解码器模块是智能识别语言系统中最为重要的部分, 也是该系统的核心组成。解码器的主要功能是为系统提供信号词串的识别。在智能识别语言系统中所输出与输入的语言信号, 通过统计声学和语言语义学的过滤与查找, 再通过解码器模块进行正确识别。

计算机智能识别技术中的各模块之间都存在一定的联系, 如语言处理模块就是通过既定的语言信号输入特征进行序列提取, 并从中求出语言信号的符号集。在进行语音识别的统计过程中, 首先输入信号或语言特征的序列, 符号集, 通过符号串求解可得:

再用贝叶斯公式进行计算, 可得出下列公式:

在给定的语言信号输入中, 输入串o, P (O) 为既定数值, 及时省略该部分也不会对最终处理结果产生影响, 因此在自然语言的处理方面, 要针对问题的性质进行显示。此外, 在处理模块中, 系统所出入的语言信号必须经过预处理, 及通过语言信号模块对语音信号进行提取, 并对语音信号 (S) 到特征列 (O) 的映射进行采集。之后即可形成声学模块单元, 从而通过特定的语言信号输入特征进行P[o|uk]估计。由于在自然语言模块中提供了P (w) , 而解码器模块主要通过由UI和t (时间标度) 所构成的搜索空间进行W寻找。

综上所述, 基于计算机智能识别技术下的自然语言处理模型设计在今后必然会有着广阔的应用和发展空间, 为了更好地把握该技术的发展方向, 我们必须不断对自然语言处理技术进行研究, 紧跟时代步伐及时革新智能识别技术, 从而使自然语言处理模型能够真正投入使用, 开拓计算机技术新领域。

参考文献

[1]蔡艳婧, 程显毅, 潘燕.面向自然语言处理的人工智能框架[J].微电子学与计算机, 2011, 28 (10) .

自然语言处理篇10

伴随着计算机的日益普及, 互联网的迅猛发展, 文本的数量 (电子邮件、新闻、网页、科技论文等) 在不停的增长, 因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下, 自然语言处理技术的地位和作用日益重要。经过几十年的研究, 计算机处理自然语言的理论基础日趋成熟, 应用范围也越来越广, 初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤, 是其他高层应用的基础, 起着极其重要的作用。

2. 分句处理

2.1 分句处理技术简介

分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义, 主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割, 完成分句处理。

2.2 分句算法的设计

在进行分词之前首先应对句子进行分割, 分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通常能表达完整的语义信息, 所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号, 以它们为标志进行语句的分句处理。

分句处理的具体算法设计如下:

(1) 判断答案字符串a String是否为空, 若为空则结束;

(2) 取a String左侧的一个字符存入t Char中, 判断t Char是否是句末标点符或回车符, 若不是, 转 (5) ;

(3) 若t Char是句末标点符号, 则子句数组下标加1, 并将字符t Char从字符串a String中删掉, 转 (1) ;

(4) 若t Char为回车符或者换行符, 去掉a String左侧两字符, 并将字符t Char从字符串a String中删掉, 转 (1) 。

(5) 将t Char合并到子句数组当前元素中, 去掉a String左侧一字符, 转 (1) 。

上述算法中, a String为待处理的字符串, t Char为字符类型变量。

3. 分词处理

3.1 中文分词技术简介

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础, 对于输入的一段中文, 成功的进行中文分词, 可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言理解的研究范畴。

目前主要有三种中文词算法, 分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。介绍如下:

1) 基于字符串匹配的分词算法

基于字符串匹配的分词方法也叫机械匹配法, 是分词技术的诸多理论算法中较简单实用的一种分词算法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配, 若在词典中找到某个字符串, 则匹配成功 (识别出一个词) 。常用的几种机械分词方法如下: (1) 正向最大匹配法 (由左到右的方向) (2) 逆向最大匹配法 (由右到左的方向) (3) 最少切分 (使每一句中切出的词数最小) 还可以将上述各种方法相互组合。

2) 基于统计的分词方法

在很多情况下, 最大匹配时即使采用双向扫描也不能检查出所有的交集型切分歧义。为了消除歧义, 我们还需要其他知识。这也是自然语言处理里, 统计方法出现的原因。这种方法只需对语料中的字组频度进行统计, 不需要切分词典, 因而又叫做无词典分词法或统计取词方法。从形式上看, 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时, 便可认为此字组可能构成了一个词。

3) 基于理解的分词方法

通常的分析系统, 都力图在分词阶段消除所有歧义切分现象。而基于理解的分词方式则在后续过程中来处理歧义切分问题, 其切分过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断, 即它模拟了人对句子的理解过程。

目前无法作出结论证明以上三个算法中哪一个是最好的, 针对具体问题采用不同的算法。这三种算法都有自己的利弊, 它们的对比见表1所示:

3.2 自动分词的评价标准

一般对自动分词有三个评价标准:正确率、召回率、调和平均数。其定义如下:

1.分词正确率。

表示切分出的词语中出现在标准结果中的词语比例, 计算公式如下:

2.分词召回率。

表示标准结果中被正确切分出的词语比例, 计算公式如下:

3.调和平均数。

是正确率和召回率的调和平均数, 计算公式如下:

由定义可见, 分词正确率和分词召回率是互相矛盾的, 要得到高的分词召回率需保留多个分词结果以保证更大可能地包含正确的结果, 而这样却会降低分词正确率。所以引入了调和平均数作为评价参数。

3.3 分词算法设计

英文是以词为单位的, 词和词之间是靠空格隔开, 而中文是以字为单位, 句子中所有的字连起来才能描述一个意思。

目前主流的分词算法主要有三种, 分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。分词本文采用的是最大词长匹配算法。这是一种基于字符串匹配的分词算法, 该方法依据一个分词词表和一个基本的切分评估原则, 即“长词优先”原则来进行分词。这种评估原则虽然在大多数情况下是合理的, 但也会引发一些切分错误。采用这种方法的原因是它简单、快速。

最大匹配算法需要一个已知的词汇数据库作为支撑, 本文以知网数据库作为该算法的词库。最大匹配算法的主要思想如下:

(1) 首先统计出《知网》数据库中的最长词条所包含的字数, 本文暂时将称其为最大词长, 并将该长度记为Max L;

(2) 从每个分句中的第一个字开始向后取L (L≤Max L) 个字;

(3) 在《知网》数据库中查找是否有由此L个字组成的词。如果有, 则一个词语分解成功, 并转 (5) ;

(4) 将这L个字中的最后一个字去掉, 并令L=L-1, 转至第 (3) 步骤 (直至L=1, 说明L已经是一个单字) ;

(5) 从这个句子中将该词删除, 并判断句子是否已经为空, 如果为空, 则返回第 (2) 步, 否则, 算法结束。

其中Max L表示《知网》数据库中的最长词条所包含的字数。当前最大词长L≤Max L。

4. 结束语

中文分词技术应时代的要求应运而生, 在很大程度上满足了人们对自然语言处理的需要, 解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难, 我们相信在未来的几年里, 通过对中文分词技术的深入研究, 必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。

参考文献

[1]李向宏, 王丁, 黄成哲等.自然语言句法分析研究现状和发展趋势[J].微处理机, 2003, 4 (2) :28-29.

[2]黄昌宁.中文信息处理的主流技术是什么[J].计算机世界报, 2002 (2) :4.

[3]曹倩, 丁艳, 王超, 潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究, 2004.5:71-73.

[4]傅立云, 刘新.基于词典的汉语自动分词算法的改进[J].情报杂志, 2006, 1:40-41.

自然语言处理篇11

语言点教学教材语言形式与意义能力情感教育

Reading是单元教学的核心板块，是学生语言输入、培养阅读能力和学习语言知识的重要课型。Reading教学一般分为两课时进行，第一课时主要是整体理解文本大意、发展阅读技能、了解文本框架、把握写作意图和目的。第二课时教学俗称语言点教学，在回顾课文的基础上，学生深度品读文本，聚焦学习、运用新语言。

受传统教学理念影响，目前阅读课语言点教学存在以下问题：语言学习脱离文本，过度讲解和发挥；教师讲学生记，学习方式单一；机械操练偏多，运用能力不强；注重知识传授，忽视思维能力；情感教育与文本理解和语言学习脱节。语言点教学的问题源自教师对语言教学目标认识不清。笔者结合教学实践，探讨语言点教学中要处理的几个关系，以提高阅读课语言点教学的成效。

一、语言学习与教材文本的关系

语言教学不能完全脱离教材文本，而应基于文本有所超越。教材文本是语言学习的载体，语言学习应该在理解文本的过程中进行。英语教材的编排大都将词汇、语法与话题融合在阅读文本中，教师可以整合教材资源，用好教材文本，充分发掘文本中的有用信息，有针对性地、有梯度地进行阅读训练和语言操练。教师可以话题为主线，设计多样的、有效的教学活动，帮助学生在教材语境和生活语境中感知、内化、整合语言点知识。但是，教材文本只是语言运用的“例子”，语言知识点教学不能仅限于教材文本，应以掌握教材语言点为终极目标。教师应帮助学生在对教材文本知识的重组、加工和内化的基础上实现语言输出，最终能够灵活运用教材文本语言点知识表达自己的观点和想法。

例如，教学（译林版）牛津初中英语教材七上Unit6 Reading第二课时，笔者以教材文本中Kitty 和Daniel的饮食和生活方式为基础，让学生观看教材配套视频，通过根据课文内容回答问题和短文填词等形式复习、复现、重组和运用课文中的核心语言点：have…for breakfast/lunch/supper，need to change the diet/lifestyle，plan to…，be important for…。在此基础上，设计语言活动，让学生和同桌谈论各自饮食、最喜欢的食物及理由，引导学生总结健康食物，对同学的饮食提出建议，最后以小组为单位为学校食堂设计每日菜谱。上述活动具有真实情境，为学生提供了灵活运用知识点的机会，使语言学习从教材文本走向真实生活运用，实现知识点教学活学活用。

二、语言形式与语言意义之间的关系

1.意义形式兼顾的语言点教学模式

形式和意义是语言的基本属性，二者缺一不可，也不可偏废。传统的关注语言形式，脱离意义、交际功能和语篇结构来教学的方法已逐渐被更加注重语言的形式——意义关系、促进在语境中呈现和使用语言形式的教学方法所替代[1]。尝试形式与意义兼顾的语言点教学模式，有利于学生更好地熟练掌握并灵活运用目标语言。意义与形式兼顾的教学方式为：以情境引出教材文本中的典型句子（聚焦意义）——引导学生根据例句总结归纳规律（聚焦语言形式）——在新情境中运用（聚焦语言形式和意义）。

以教学（译林版）牛津初中英语教材九上Unit1 Reading 语言点pay attention to为例。

Step 1 教师提问：What qualities should a doctor have？引出教材文本中句子“He should pay attention to every detail.”，教师补充：A good doctor should pay attention to doing everything carefully.

Step 2 学生观察两个例句，总结pay attention to用法，后接名词或者动名词。

Step 3 教师创设生活情境：What should we pay attention to if we want to get high marks in exams？引导学生运用pay attention to自由造句。如：We should pay attention to every detail/writing carefully/going through the articles first and then finishing the exercises/looking through the papers after finishing them.

Step 4 教师创设新情境：As you know，the environment is getting worse and worse.What should we pay attention to if we want to help protect the environment？这是一个更加开放性的任务，学生能够运用目标短语表达更多不同的观点。如：注意随手关灯、注意随手关水、注意不要浪费食物、注意不要乱扔垃圾等等。

上述教学活动形式与意义兼顾，首先学生在文本语境中理解目标语言的意义，然后聚焦形式，进而创设情境提供仿用、活用的机会，“使学习者的交际能力得到更大的提高，学习者可以将语言说得更流利、更准确[2]。

2.注重语言的语篇表意功能

五级语法知识目标要求学生“了解常用语言形式的基本结构和常用表意功能；在实际运用中体会和领悟语言形式的表意功能”[3]。功能主义的语言观认为“语境和语言是相互关联的”，“语境能够解释说话者（作者）在特定的语境中选择某种语言形式的原因”，“通过特定的组织结构来实现交际意义和功能”，教师要帮助学生“更好地认识语言的本质，更好地理解各种题材和体裁的语篇是如何建构意义的”[1]。

英语课堂教学中不少教师过于注重语言形式的机械操练，忽略目标语言知识在语篇中的表意功能。例如，（译林版）牛津初中英语教材九下Unit1 Reading内容是两篇关于北京和桂林的文章，文章中出现了很多倒装句，如：In the middle of the ancient city of Beijing is the Palace Museum./Next to the Palace Museum is Tiananmen Square./ In the Northwest of Tiananmen Square is the Summer Palace.大多数老师只是讲解倒装句要注意谓语动词的数与主语一致，但没有引导学生理解为什么要运用倒装句。

笔者教学时，先提问Where is the Palace Museum/Tiananmen Square/ the Summer Palace？学生用常规句式回答Its in the middle of the ancient city.笔者引导学生观察他们的回答和课文句型有何不同。学生通过反复品读文本，体会倒装句的特别作用：突出强调的内容，并使之与前文联系更加紧密；承上启下，语篇衔接。

对语言知识语篇表意功能的关注有利于学生认识到特定语言形式背后的“所以然”，明白语言点的学习目的不在于“点”本身，而是要为语篇中的综合运用语言打下基础。

三、语言知识与能力的关系

英语课程应注重提高学生用英语进行思维和表达的能力，形成跨文化交际的意识和基本的跨文化交际的能力。单纯的语言输入是不够的，学习者需要有机会使用语言来促进对输入的理解，培养准确、流利使用语言的能力。语言点教学的目的是为学生的语言运用打下基础，所以切忌机械讲解和操练，“要通过创设接近实际生活的各种语境，采用循序渐进的语言活动以及各种强调过程与结果并重的教学途径和方法，培养学生用英语做事情的能力”[3]。

学生在课堂中不应是被动地接受知识，而是知识的处理、转换、内化和运用、生成，在活用知识的过程中不断生成自己的知识体系。教师可以根据学生的年龄特点和已有知识结构，设计多样性的课堂活动，如：两两对话（Work in pairs）、小组讨论活动、游戏、竞赛、辩论、表演、即兴演讲等，联系学生的生活实际，不断激活学生的背景知识，促进学生语言能力、思维能力和个性的自由发展。

例如，在教学（译林版）牛津初中英语教材九下Unit1 Reading中be praised as…这一短语时，上课老师设计了吹牛大比拼“Talk Big”来操练“be praised as”。首先给学生范例：Ill design and build a very tall building in ten years.It can be praised as the“Roof（屋脊）of the World”.Im sure I will be praised as the “Super Designer”.学生非常感兴趣，发挥自己丰富的想象力，创造出很多让人捧腹大笑的精彩语句。该老师还设计了猜测游戏，引导学生猜测老师最喜欢的景点并说明理由，学生总是对与教师相关的信息非常感兴趣。在猜测中，学生须要整合运用新旧语言，结合自己的旅游经历和思考，介绍各个特殊景点和吸引人之处。

以上活动中，学生在用自己的语言表达自己的想法，教学不再是传递已有知识，而是学生建构自己的知识体系的过程。这样的知识才是“有力量的，是活性的真知，是生命化、生活化、生态化的知识”[1]。

四、语言学习与情感教育的关系

英语这门学科具有工具性和人文性双重特点，工具性和人文性统一的英语课程有利于为学生的终身发展奠定基础，教师在课堂教学中不但要努力培养学生的综合语言运用能力，还应努力提高学生的人文素养。语言点教学也不例外，教师要把积极的情感、态度和价值观融合在语言点教学活动中，对学生进行隐性思想教育，达到“润物细无声”的效果。

例如，（译林版）牛津初中英语教材九上Unit1 Reading主题是“Know about Yourself”，介绍了四个不同职业的人以及他们对于工作和生活的态度。一位教师在教学时首先引导学生归纳他们的个性特点，引导学生对这些人物有更深的感悟并借鉴这些优秀的品质；再让学生从教材文本中找出四个人物说过的话；然后学生两两对话交流自己最喜欢的句子，并说明喜欢的原因。学生归纳总结这些优秀的品质，谈论这些人物的语言和自己最喜欢的语句，整个过程不仅是后续教学内容的铺垫，也对学生正确情感价值观地形成起着积极的心理暗示作用。

在语言点操练和运用中，教师选取马云、刘翔、比尔·盖茨、残疾人舞者廖智以及没有四肢的演讲家力克·胡哲，在与学生的自由会话中谈论他们，激活学生的情感体验，同时帮助学生理解和运用语言点。如：操练“impress…with”时，先给学生看了一段力克·胡哲的视频，再给出例句“Nick Vujicic has impressed the whole world with his speeches.”引导学生自己造句“Nick _______me with______.”在此之后，结合前面已经操练过的本课重点词汇短语“Life is like a race.You either take a race or fall behind/take on new challenges/connect…to…/impress…with…/not only…but also.”，学生自己写一段话介绍力克·胡哲。课的结尾以美国教育家勃特勒的名言“Every mans work，whether it be literature or music or pictures or architecture or anything else，is always a portrait of himself.”教育学生“不管做任何事，都要去热爱它，全力以赴去做好它”。

整节课知识性和人文性紧密结合，相辅相成。无论是马云、残疾人舞者廖智，还是力克·胡哲，对于学生都是很好的榜样激励，学生在用英语交流的时候，接受隐性的情感教育，对于学生的学习、生活和未来都有一定的影响。

语言知识是语言能力的基础，是英语教学的重点和难点。教师要坚持以学生为主体的教学原则，坚持基于教材而又超越教材的原则。教学中既关注语言知识，更要关注学生的思维和能力发展；既关注语言的形式，更要关注语言的意义和功能。通过丰富的课堂活动和任务设计，实现英语课堂知识和能力的统一、知识性和人文性的统一、语言输入和语言输出的统一，为学生的语言发展、思维拓展、能力提高搭建支架，不断提高学生的综合语言运用能力。

参考文献

[1] 程晓棠.关于英语语法教学问题的思考[J].课程·教材·教法，2013（4）.

[2] 黄瑞贤.意义与形式兼顾下的有效语言习得——以高中英语教学设计为例[J].中小学外语教学：中学篇，2013（2）.

[3] 教育部.义务教育英语课程标准（2011年版）[M].北京：北京师范大学出版社，2012.

[4] 黄聚宝.英语教学中知识创生的实践探究[J].教学月刊，2015（1～2）.

自然语言处理篇12

1 Access数据库与word的关联

Access数据库是office的组件之一, 是一种中小型的数据库, 相较于其他的数据库形式简单、易学、易用。打开并新建一个Microsoft Office Access应用程序, 在“对象”栏中选择“表”, 利用设计器建立四级词汇表、四级词汇表2、六级词汇表、六级词汇表2。如图1:

在创建完成的四级词汇表和六级词汇表分别输入四级词汇和六级词汇。在“对象”栏中选择“查询”, 利用向导创建多个表之间的关联。如图2:

然后在word中按Alt+F11或者通过工具栏点击“工具”→“宏”→“Visual Basic编辑器”, 执行“工具”→“引用”命令, 在弹出的窗体中下拉找到“Microsoft Active X Data Objects 2.1”或更高版本选中, 这样word与Access数据就建立了关联。

2 大学英语四、六级单词的提取

2.1 词干的提取

语素是最小的语法单元, 是最小的音、义结合体。英语中语素包括词干和词缀两大类。词干是一个单词的主要部分, 词缀提供附加意义。单词的构成形式大体可分为:屈折和派生这两种形式。

屈折和派生的共同点都是将词干与一个语法语素结合起来。英语单词在屈折变化前后, 词性是基本不发生改变的, 主要包括名词和动词的屈折变化, 例如:名词复数、名词所有格和动词过去式、过去分词、现在进行时等。这些变化大都遵循语法规则, 如:英语名词复数变化, 一般是在名词词尾加-s或-es, 动词过去式一般在词尾加-ed, 动词现在进行时一般加-ing等。派生来说相对复杂些, 变化前后形成的单词一般来说词性都发生了变化, 例如:动词modernize可以加上派生后缀-ation, 形成名词modernization。

词干提取主要是去除单词在发生屈折或派生时候产生的词缀, 获得词干。迄今, 在信息检索和文本处理当中以现有的技术, 词干提取还只是较为浅层的词形规范化技术也就是不考虑词性、语义这些复杂问题, 主要是进行词形的统一。

由于本文编写的VBA代码无法处理发生屈折和派生的英文单词, 所以有必要对文章进行单词削尾 (词干提取) 的预处理。词干提取这里主要介绍两种方法:第一种方法是利用软件Antconc, 该软件是由Laurence Anthony开发并免费供用户下载, 是一个基于Microsoft、Windows操作系统的软件。先下载Yasumasa Someya的e_lemma.txt, 这份词元表是日本学者Yasumasa Someya在1998制作的, 现在它依然在扩充中。该词元表现在拥有大约40569个英文形符。打开Antconc软件, 在Tool Preference中选择wordlist, 在Lemma List Option当中选择use lemma list file点击Open打开Yasumasa Someya的e_lemma.txt, 点击load再点击载入的词目表下方的ok, 然后点击下方的apply按钮;载入要学习的英文文章, 在Antconc界面点击wordlist, 得到的就是经过还原的单词。注意导入的英文文章的存储格式为文本文档, 因为Antconc只能处理纯文本文件。第二种方法是利用Lemmatizer软件, 该软件是由北京外国语大学教授梁茂成等提供。打开Lemmatizer文件夹, 看到文件夹中的配置文件filelist.ini, 打开配置文件将需要进行词形还原的文件的文件名列在其中, 然后双击lemmalize.exe, 就会看到生成一个以.lem为扩展名的文件, 里面就是经过词形还原的文章。

2.2 四、六级单词的基本处理

VBA编程语言内置于office系列软件, 在Word中通过“宏”写入。我们在Word工具栏中通过添加带有VBA程序命令的按钮来实现单词的识别和提取。由于我们要处理的英文文章是基于Word的, 所以要注意的是英语学习者必须把将要学习的英文文章以文本的形式输入或者粘贴到Word中。

首先在Word中新建一个名为“四六级词表管理”的命令按钮:“工具”→“自定义”→“命令”→“新菜单”, 然后将“新菜单”拖到Word工具栏适当的位置再释放, 单击右键改名称为“四六级词表管理”。我们首先要对准备学习的英文文章中的词汇与Access数据库中的四级词表和六级词表进行比对然后将文章中的四级词汇或者六级词汇入库“四级词汇表2”或者“六级词汇表2”, 所以要建立下拉菜单“添加选区单词入四级词汇表”和“添加选区单词入六级词汇表”如图3;并写入宏代码 (部分截图) 。如图4:

在完成“添加选区单词入四级词汇表”或者“添加选区单词入六级词汇表”这两个功能之后, 其实英文文章中的四级或六级词汇已经进入“四级词汇表2”或者“六级词汇表2”, 那么在下一次的词汇学习中实际上“四级词汇表2”或者“六级词汇表2”保留着上一次的单词, 这时就需要清空四级词汇表2或者清空六级词汇表2的功能。因此为这两项功能写入宏代码, 如图5 (部分截图) 并添加两个下拉菜单:清空四级词汇表2、清空六级词汇表2, 如图6。

经过以上程序的处理, 学习者可以在Access数据库的“四级词汇表2”或“六级词汇表2”得到符合要求的单词, 但是如果能将处理过的“四级词汇表2”或“六级词汇表2”中的单词直接输入到Word中, 那样就更方便, 省去了切换操作的麻烦。为此设计了“输出四级词表2到Word”和“输出六级词表2到Word”两个命令 (如图7) 并写入宏代码 (如部分截图8) 。

2.3 选区单词的变色处理

程利 (2006) 发现大学生在阅读不同类型的插图文章时, 阅读黑白插图文章要比阅读彩色插图文章时间偏长, 阅读效果也低。程利 (2007) 研究还发现:对于以不同方式出现的网页广告, 彩色的网页广告受关注程度显著优于黑白广告;另外人们对彩色广告的注视次数和注视时间明显高于黑白广告。可见颜色在学习过程中起到不可忽视的作用。正是出于这一原因, 考虑到有必要在文字处理中增加相应的功能。这项功能可以实现在对英文文章进行词干提取之后, 对文章中的符合四级、六级以及超纲的词汇进行染色 (将四级染色为蓝色、六级为红色、超纲词为绿色) ;对各种颜色的词分别进行批量隐藏;取消对各种颜色的词批量隐藏。设计批量隐藏的意图旨在学习识记单词的过程中排除其他颜色词的干扰。设计菜单名称分别为:“变选区为四级蓝六级红超纲绿”、“隐藏选区的蓝色单词”、“隐藏选区的红色单词”、“隐藏选区的绿色单词”、“取消蓝色单词的隐藏”、“取消红色单词的隐藏”、“取消绿色单词的隐藏”。菜单如图9、宏代码 (部分) 如图10。

3 结束语

学习识记英语词汇的方法很多, 因人而异, 但是那些脱离语境只靠死记词典、死记单词词形的做法不足取。认知一个英语单词不仅要认识其书面和口语形式, 还要能随时再现脑海中, 并与相应的物体或概念联系起来, 用适当的语法形式表现它等等。因此, 英语词汇的学习不光是简单的记单词, 还要全方位、多层面的学习其内容。所以认知词汇应从以下几个方面来进行:1) 音、形结合 (即发音和拼写) ;2) 语义 (包括其施事、与事等) ;3) 语法 (即该词的词类、屈折和派生以及其在句子中的句法表现) ;4) 语用 (包括语体风格、语域等) 。这款基于Word以Access数据库为后台的VBA自然语言处理小工具, 正是出于这样的理念。学习者首先要将英文文章放到Word中, 在阅读理解中遇到某个自己不熟悉的单词时, 选中它然后通过操纵相应的菜单命令, 最终达到识记、应用词汇的目的。当然这款小工具还有要完善的地方, 比如:由于技术原因在应用中缺少词干提取的宏代码;在分析四、六级单词并入库过程中还有不准确的地方;大学英语四、六级词汇表的选取的科学性有待考察。但是总体上对大学英语四、六级词汇的识记、应用还是起到了积极的作用。

摘要：英语学习中词汇是基础也是重中之重, 对于大学生而言大学英语四、六级词汇的掌握至关重要。该文首先指出词汇学习的重要性, 然后提出如何解决英语学习者识记、应用大学英语四、六级词汇的问题。在诸多词汇学习方法中采用计算机技术与传统词汇学习相结合的方法即:基于Word和Access数据库, 编写了一套VBA语言程序代码进行英语文本的处理, 以期到达提取大学英语四、六级词汇的目的。

关键词：大学英语四,六级单词提取,Access数据库,词干的提取,VBA语言程序代码

参考文献

[1]张再生.Access数据库在语言文字研究与教学中的应用[M]..南昌:江西高校出版社, 2003.

[2]周骞.基于语料库的当代中国大学英语教材词汇研究[D].上海:上海师范大学, 2012.

[3]陶仁骥.词干提取方法及工具的对比分析研究[J].图书情报工作, 2012 (8) .

[4]孙德金.对外汉语词汇及词汇教学研究[M].北京:商务印书馆, 2006.

[5]程利等.不同呈现方式的网页广告的眼动研究[J].心理科学, 2007 (3) .

[6]程利, 杨治良.大学生阅读插图文章的眼动研究[J].心理科学, 2006 (3) .

[7]陈忠平.英语词汇学习策略探析[J].海外英语, 2012 (9) .

[8]Vermeer, A.Exploring the second language learner's lexion[A].In L.Verhoeven.The Construct of Language Proficiency[C].Amsterdam:John Benjamins, 1992:147.

[9]Stubbs, M.Educational Linguistics[M].Oxford:Blackwell, 1986.

[10]Widdowson, H.The changing role and nature of ELT[J].ELT Journal, 1992.

【自然语言处理】推荐阅读：

自然语言逻辑11-24