语料库检索分析(精选6篇)
语料库检索分析 篇1
一、引言
最近几年来语料库语言学正以其独特的优势得以迅猛发展,语料库已经被广泛应用于与语言学相关的各个领域。语料库检索软件在语言学领域,尤其是在文本分析中已被广泛使用。语料库检索结果就是从一个语料库中抽取一个文本的一个检索词及其出现的语境按字母顺序罗列出来,语料库检索软件是提供这些词的罗列结果的系统,使用既简单又省时,因为它可以快速有效地显示出检索词的搭配词频。作为一种建立在庞大的数据基础上的极有威力的假设检验设置,语料库索引可以使文本隐含的结构显现出来,同时还激发人的想象力,并检验文本对读者的感染力,具有很强的客观检验性。语料库语言学不仅仅用于语言学,更能用于文学批评领域来分析文学文本。我旨在探讨语料库检索软件在分析文学文本中的应用,选用英国著名小说家简·奥斯汀的小说《理智与情感》,对其情节、人物和写作风格用语料库检索软件进行分析,希望读者能领略语料库检索软件在文学批评分析中的魅力。使用的语料库检索软件是Wordsmith。
二、用Wordsmithl软件对《理智与情感》文本进行统计,通过得出的数据,从三个方面对该文进行分析。
1. 运用Wordsmith分析小说的语言特色。
通过该软件,我们可以发现小说共有112359个词,其中有11966个不同的词。表1为出现频率前50的词。不难发现,同一个词的某些形式出现的频率较多。比如,过去式“was”出现了1629次,而原形“is”出现了680次;“were”排在48位,而“are”根本就不在前50个词当中。这表明,作家在创作小说时,经常使用过去时态来讲述故事发展情节。而且列表当中某些词类出现得比较多,如“that”、“which”、“what”这些指示代词,这可以说明小说的语言中有很多从句,而且句子的结构也远比口语中句子结构要复杂。这是英语书面语的另一特征。我们还可以从这张表中获得一些信息。比如“her”和“she”这两词排名都比较靠前,一个排在第5,一个排在第11。“her”的使用次数比“she”多出很多,可以推测“her”有时候是作宾格使用,有时候是作物主代词使用。再如“I”排在第7,而宾格的“me”排在第44。这些代词在小说中频繁出现,必然跟小说的内容息息相关。我们可以推断,故事中会有很多女性,否则作者不会如此频繁使用女性代词主格、宾格和物主代词。再根据词语列表中的第30位的词,即“Elinor”,这很明显是个女性名字,因此,在这些女性当中,Elinor必定是一个主要的角色。我们还可以作出一个推断,即小说中必然有很多人物对话因为在对话中,人们会经常使用第一人称,现在第一人称的I和me都出现得比较多,所以小说中人物对话也不会少。语料库软件可以印证这个事实。在concordance中搜索“I”就会列出“I”出现的所有的上下文。如果我们利用软件中的“concordance plot”功能,我们还可以得到每一章中“I”出现的位置和数量。这样我们就可以知道哪一章的对话较多,同时这一章中,哪一块的对话比较集中。根据词频列表,我们可以分析推断得出小说上述的时态、句式、语体等方面的特色,其它更为详尽的内容还需要进一步的阅读与分析。
通过分析,还能得出以下一些简略的统计数字:
在这个文本中,从其字节数,形符数和句子数可以断言这是个较短的文本,把其类符形符比10.65与标准类符形符比数45.05想比较,可以推断此文本的词汇变化量大。单纯的形符数和类符数不能反映语篇的本质特征,但两者的比率却在一定程度上反映了语篇的某种本质特征,即用词的变化性。它的句长为26.32,与标准句长25.01相比,它比一些简易文本句子要长.它段落长为1742.82,比平均段落长730.96要长些。如果我们把一个字母的词,两个字母的词,三个字母的词和四个字母的词加起来,就可以知道少于四个字母的词为67932,而这个文本的形符数是112359个,这样整个词汇的60.5%都是多于四个字母的词。因而可以推断这个文本属中等难度水平,句子较长,段落较长。
2. 通过语料库语言学统计工具分析小说的情节发展。
要理解一部小说的精髓,必须掌握其行文的脉络和贯穿始终的情节。这种对情节发展的把握可以通过对原著的通读来完成。本文要使用的方法是通过使用Word Smith语料库检索软件中的Wordlist和Plotting功能对小说文本的情节进行统计分析。
通过对全篇小说keyword的总结,可以得出小说的主人公之一为Elinor的结论。Elinor出现的频率最高,为582次。
3. 运用Word Smith加工整合小说的人物描写,分析作者笔下的人物特色。
通过语料库检索软件中的Concord功能,我们可以穷举出所有人物出现时的上下文,就如同制作一幅幅的人物特写。通过这种方法,可以搜罗有关所分析的人物的所有描摹,对于研究人物性格,作者对人物的写作手法,都有不可或缺的重要性。我将结合语料库Concordance软件统计出的分析结果,就小说中主人公进行语料库分析。
首先,先进入对主人公Elinor(埃莉诺)的分析,Concordance统计出了全小说共582处。接下来是对Marianne(玛丽安)的分析,Concordance统计出了全小说共459处。小说主要描写埃莉诺和玛丽安的爱情故事。她们的爱情经历了很多曲折,但是经过理智与情感的挣扎,这对姐妹终于获得了幸福。
三、结语
以上运用语料库检索对小说《理智与情感》进行了分析,准确清晰地把握了小说结构,并对其语言特色、情节发展和人物塑造特点等方面进行了统计分析。当然用语料库作为工具对文本的分析不能代替文学本身出发的鉴赏,但毕竟为我们认识作品提供了佐证。因此,将自然科学中的计算机技术与文学中的文本进行结合,可以为文学研究另辟蹊径,即以图形、列表、统计等量化的方法分析文本,从而得到对文本更加理性的诠释。
参考文献
[1]Douglas Biber, Susan Conrad, Randi Reppen.Corpus Lin-guistic[M].北京:外语教学与研究出版社, 2000.
[2]Jenny Thomas, Mick Short.Using Corpora for Language Research[M].北京:外语教学与研究出版社, 2001.
[3]Sinclair, John.Corpus Concordance Collocation[M].Shanghai:Shanghai Foreign Language Education Press.2001.
[4]郭放.《快乐王子》的语料库检索分析[J].乐山师范学院学报, 2004, (6) .
[5]Rowling, J.K.Harry Potter and the Half-Blood Prince[M].Bloomsbury Press, 2005.
[6]王雁.《傲慢与偏见》的语料库检索分析[J].江苏教育学院学报 (社会科学版) , 2007.3.
语料库检索分析 篇2
语料库语言学出现于20世纪60年代。伴随着现代计算机技术的快速发展, 出现了语料库检索软件。目前, 语料库检索正在逐渐成为语言研究中的一种主流实证方法, 并已经被广泛地应用于语言学的各个方面, 如外语教学大纲设计、教材编写、批判话语分析、翻译等研究。特别是随着语料库检索的出现, 过去以定性为主的文体分析, 可以引入科学的定量分析, 从而提供了一个全新的语篇分析视角。这种定性和定量相结合的研究方式, 能够更为客观地揭示语篇的文体特征和语言风格。基于此, 尝试利用语料库检索软件AntConc对英文公司简介从词汇、句子、篇章三个层面进行分析, 以求揭示英文企业简介的文体特征, 为此类英文应用文的写作提供参考。
随机抽取来自伦敦证券交易所上市公司、纽约证券交易所上市公司以及公司网站企业, 共20篇英文企业简介为样本选用较普遍采用的英语本族语Brown语料库 (Brown语料库由美国布朗大学的两位语言学家在20世纪60年代建立, 选取了大量英文语篇, 被认为是一定程度上代表了通用英语的语料库) 。通过进行对比, 分析英文企业简介这种有特定对象和交际目的的应用文体的特点。
二、词汇特征
根据顺应论的观点, 使用语言的过程就是选择语言的过程, 而这种选择又必须与交际语境相顺应。在不同的语境中, 语言呈现不同的特点。作为一种介绍性的商业文本, 企业简介的阅读对象除了有一定行业相关知识的采购方、供货方人员, 也包括具有很少或不具有专业知识的普通消费者 (对于日用消费品企业) 和行业内外投资者, 因此要求企业简介遵循简洁、准确、易于理解的原则, 尽量使用简单、易于理解的日常用语。如在20篇企业简介中出现次数统计生成的词频列表 (见表1) 中company, business使用频率较高, 而更正式的用词enterprise竟然未出现。可见, 企业简介带有明确的交际目的性, 力求使阅读者能够以最小的努力, 理解企业想传达的关于自身的信息, 用词上以简单、短小、易于理解为主。
同时, 根据检索软件对于词语出现频率的统计, 在20篇文本中, is出现了58次, has出现了34次, are出现了19次, 均排在前30位。而过去时态的was, were则使用频率不高。这说明公司简介采用一般现在时为主, 所强调的信息是目前公司正在进行的活动, 以及过去所进行的活动对现在公司运营、财务水平的影响。着重点都是展现公司目前的经营信息, 这也是企业简介的阅读者最关心、最希望获得的信息。
此外, 对于人称代词, 第一人称代词we和We在20篇简介中, 被使用了51次, our被使用了17次, 属于使用频率最高的人称代词。考察其出现的词群 (clusters) , 第一人称经常出现在如“We offer……”, “we believe……”“We move forward……”等句子中, 在这些语境中指代“本公司”, 而不用第三人称“it”。第一人称“we”的使用, 将“公司”一词人格化, 这样更能够提高企业在阅读者心中的好感, 暗示未来的合作伙伴或消费者, 您所面对的是“我们”, 而不是一个冷冰冰的机构组织。同时, “we”的复数属性, 向阅读者表明“我们”是一个集体团队。简介所述的企业行为, 所持的经营信条是来自于集体的共识, 而这种共识往往比个人的独断更为理性可靠。
三、句子特征
不同文体的选择往往体现在句子层面上。从词频列表中分析, 在使用频率最高的前30个词中, 可作为连接词的包括that (24次) , which (20次) , 其中大部分的that和which都是起定语从句、名词性从句连接词的作用, 这表明企业简介仍然采用了较多的复合句, 使文体连接更为紧密, 传达的信息量更大, 同时, 由于从句的加入, 可以对主句的某一信息进行补充说明, 使表达更加清晰, 易于理解。如“As a company with industry-leading brands, a number of which have been in existence for over a century, we have a track record of innovation in bringing new products to market to meet emerging consumer preferences and demands.” 该句的中心意思是表达我公司积极推行产品创新以满足市场需要, 从而建立了许多行业领先的品牌。在句中, 通过引入连接词which, 向读者补充说明这些品牌中的许多已经存在了超过一个世纪, 从而说明了这种创新不只是让品牌迎合短暂的流行风潮, 而是赋予其可靠的、稳定的竞争力。
这种复合句式的使用是正式文体的一个显著特点。通过以上对于词语层面和句子层面的分析, 可以总结出, 企业简介仍然是正式的商业文体, 但是在选词上偏向简单、易于理解的用词, 不拘泥于冗长的正式词语, 但是, 又不回避某些专业用词, 如molectra, radian等。文体风格倾向于在正式和非正式之间。总之, 企业简介文体特别强调信息的准确、清晰表达, 这些在用词和造句时得到很好的强调。
四、语篇特征
利用Brown语料库作为参照语料, 随机抽取一篇企业简介, 通过AntConc软件的主题词检索功能 (keyword list) , 将该简介和Brown语料库的关键词进行对比, 可以生成该企业简介自身的主题词图。配合检索词语分布功能 (concordance plot) , 来探究语篇发展模式与词语的关系。
以Molectra公司的企业简介为例, 主题词排在前面的有molectra, Pty, MGL, 前20个关键词还包括tyre、recycling、Australia等 (见表2) , 通过这些关键词的组合, 可以分析出Molectra公司简介要传达的主题信息包括三个方面:1.Molectra公司的服务和产品——轮胎回收 (recycling, tyre, tyres) ;2.公司技术符合环保的特点 (environmental, waste, Greenhouse) ;3.技术具有创新性 (technology, Award, innovative, Smart) 。
通过以上主题词的归纳, 这三个信息就是该篇简介所要传达给阅读者的主要信息点。下面通过语料库的词语检索功能 (Concordance) 和检索词语分布功能 (Concordance Plot) , 得出这些主题词出现在文章中的先后位置, 并结合上下文, 分析这些信息点是如何在文章的篇章安排中得到体现。文章主要由四部分组成:1.Molectra公司的全称, 经营范围和历史;2.Molectra公司的产品和服务介绍;3.经营目标和愿景;4.目标客户;5.主要成就和荣誉。
选取以上三个信息中最有代表性的关键词tyre、environmental、innovative进行分析。检索“tyre”在文章中的分布, “tyre”分布在文章的前50%的范围内。尤其在第二部分使用最多。这是由于产品服务的种类介绍主要在第二部分呈现。而tyre一般是与recycling一起使用, 表示公司的主营业务。这说明第一个信息点 (公司的服务和产品) 主要集中在文章开篇的部分。
对于第二个信息点的代表性主题词environmental, 在文章中则分布较均匀, 如在第二部分“产品服务介绍”中出现 “develop dynamic alternative products and product solutions to a major environmental concern.”在介绍产品时强调产品和服务最大限度的满足环保要求。第四部分“目标客户”中也出现“Molectra's niche ability to be flexible allows us the ability to work with industry designers and developers to find, design and produce purpose built products as an environmental solution or rubber alternative for applications normally produced from other virgin materials.”在这里, 相同的信息得到又一次的明示, 说明环保的这一特性与目标客户接受度的关系。另外, environmental也出现在第二部分“企业愿景”和最后一部分“主要成就和荣誉”中。
对于第三个信息点的代表性主题词innovative, 情况也比较相似。它分布在第一、第二和第四部分, 并每次都与technology搭配, 组成词组。如在第一部分介绍企业总体情况时“Molectra Technologies Pty Ltd was established as a private company in March 2000 to fully develop and commercialise an innovative and patented tyre recycling technology.”第三部分阐述企业经营目标时“Molectra recognizes the fragile nature of our world and through innovative technology aims to revolutionize the business of recycling tyres and develop dynamic alternative products and product solutions to a major environmental concern.”这说明第二信息点“环保”和第三信息点“创新”穿插在整个语篇中。
由以上信息的分布可知该语篇主要有以下三个信息点:1.产品和服务介绍;2.环保;3.创新。在这三个信息点中, 产品和服务介绍主要集中在文章开篇部分, 而对于环保和创新企业认为是最具竞争力、最具有区分度的关于产品特点的信息, 则在文章中的各部分都进行强调, 使其在阅读者的印象中得到凸显。这种语篇特征也在其他抽取的文章中得到验证。作为企业简介, 其目的是向阅读者介绍企业的大体情况, 推荐产品和服务, 理应在文章的最显著位置得到体现。其次, 企业简介必须向读者明示其具有的与众不同的竞争力, 以树立阅读者对于企业和其产品的正面印象。这些信息往往通过一定的评价语言, 贯穿企业简介始终, 通过不断的提示, 向读者明示这种信息。
通过建立小型语料库, 运用语料库检索软件与通用英语语料库进行对比, 可以为我们分析文本的文体特征提供定量的研究材料。通过以上分析, 得出企业简介具有的语言特点, 以及企业简介如何运用篇章结构, 达到最优地传达企业明示信息的目的。这种定量和定性相结合的语料库检索分析方法, 可以丰富研究文本的视角, 得到对文本更理性的诠释。
参考文献
[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社, 2004.
[2]李晓红.基于语料库的effect搭配行为对比研究[J].外语教学, 2004 (6) :21-24.
[3]钟珊辉.基于语料库的Seek搭配行为对比研究[J].外国语文, 2009 (5) :36-40.
[4]韩芹, 任平.基于语料库的商务英语词汇研究[J].黑龙江对外经贸, 2009 (11) :47-49.
[5]王宏俐, 郭继荣.体裁分析与商务促销类语篇[J]外语教学, 2006 (7) :32-36.
[6]秦秀白.语篇的体裁分析[J].华南理工大学学报, 1997 (增刊) :6-11.
语料库检索分析 篇3
2008年 , 奥巴马成功当选为美国第一位黑人总统 , 发表了精彩的就职演讲, 这在当时引起了轰动, 从而引发了研究者对奥巴马的演讲进行分析的热潮。时隔四年, 2013年奥巴马再次担任美国总统, 同时再次发表了精彩的就职演讲, 又引发了新一轮的研究热潮。随着语料库的飞速发展, 这为研究奥巴马的演讲提供了一个新的渠道。
本文通过使用Wordsmith Tools语料库索引软件, 对美国总统奥巴马两次经典的就职演讲进行综合分析, 以此探究奥巴马的个人魅力和演讲特色。
二、对两次就职演讲的语料分析
1.文本基本情况分析
通过把文本用Wordsmith Tools语料库索引软件进行统计得出有关这两个文本的简略统计数字。
在这两个文本中, 从其形符数 (tokens) 和句子数 可以断言, 这是两个较短的文本。把它们各自的类符形符比 (type/token ratio) 和标准化类符形符比 (standardises TTR) 相比较 , 可推断出这两个文本的词汇变化量为中等程度。从词长来看, 基本上是由2~4个字母组成的词占主导, 这表明两次演讲的内容都是较容易理解的。以上说明奥巴马的就职演讲的内容都是通俗、偏易的, 便于大众理解和判断, 因而容易拉近和大众的距离, 也更容易引起他们的共鸣。
2.词汇的检索分析
(1) 词频分析
通过Wordsmith Tools检索软件中的Wordlist, 得出有关这两个文本出现频率较高的词, 以下表格中只列举了前10位。
从以上表格中可以发现, 两次就职演讲的高频词汇基本一致, 除却功能词“the, and, of, to, that”等, 我们发现 , 第一人称复数代词“we”及其变体形式“our”用得较广泛, 在两次演讲中多次出现, 所占比例较大。这其实是演说者使用的一种语言技巧, 可以起到强化人际关系的作用, 达到演讲的目的。第一人称复数代词we可以包括讲话人及听话人, 使用we就等于是讲话人把自己融为听话者的一方, 与听话者是一体的, 或更精确地说, 是把听话人拉到了自己的一边。这样就更亲民, 使听众倍感亲切, 更容易赢得听众的支持。另外, 第一人称复数代词还可以唤起一种团体意识, 使团体内部的差异最小化, 而强调团体内外的差异 (Michael Osbom, 1988) 。通过以上分析, 我们可以具体分析We在整个演讲中的作用及演讲者的用意。
此外, 通过Concordance对we的检索, 可以发现奥巴马很巧妙地使用了we, 它一方面很容易拉近与人们之间的距离, 使听众站在演讲者的立场思考问题, 从而增加演讲的可信度, 另一方面很自然地让听众认为自己的身份得到总统的认可和提升, 他们和总统一样是国家建设的一分子, 从而唤起听众的团体意识, 具有很强的煽动性。总之, 通过大量使用we, 同听众建立了亲密的、相互信任的关系。
(2) 情态动词10 OUR 28
通过检索发现, 情态动词在奥巴马的就职演讲中多次出现, 如下表所示:
从以上表中可以发现, 在整个演讲中, 表示预测和肯定的情态动词用得较多。Will多是表达对未来的预测及安排。通常总统在就职演讲中都会表明自己的立场及自己就任总统后的计划安排, 因此, will用得较多。Can通常是表示能够或是有能力, must表必须、一定, 二者都是表肯定的。一个国家的总统发言代表的是一个国家, 具有一定的权威和威信, 因此他所发表的观点基本上都是以肯定的方式, 不会以含糊的方式敷衍民众。因此, 在就职演讲中用得相对较多。
3.修辞方法
演讲者的目的在于激发听众的感情, 说服、打动听众, 因此常常运用不同的修辞手段增强演说词的艺术感染力。一般演讲的特定场合和特定目的要求它侧重于某种或某几种修辞方法。通常有排比、对比、反复、明喻、暗喻、对仗、引用等修辞方法。在奥巴马的两篇就职演讲中, 排比和反复这两种修辞方法最具代表性。
(1) 排比
排比是一种句法修辞手段。它是指把结构相同、意义并重、语气一致的词、短语、句子, 甚至段落排成串, 形成一个整体, 具有加强语言的气势和实现语言平衡美的作用。在英语演讲中, 常被演讲者用来激发听众的情绪, 使演讲的主题得到升华。通过对文本的检索发现, 奥巴马非常善于运用排比, 这其中包含由名词、动宾短语、不定式短语及独立的句子构成的排比。例如:
If there is anyone out there who still doubts that America is aplace where all things are possible;who still wonders if the dreamof our founders is alive in our time;who still questions the power ofour democracy, tonight is your answer.
It’s the answer told by…
It’s the answer spoken by…
It’s the answer that…
在第一次演讲的开头, 奥巴马首先用排比的句式提出了几个疑问, 这在开头很好地激发了大家的兴趣和好奇心, 紧接着又通过三个排比, 对以上疑问做出明确回答, 具有强烈的感染力和号召力。
Together, we determined that a modern economy requiresrailroads and highways to speed travel and commerce;schools andcolleges to train our workers。
Together, we discovered that a free market only thrives whenthere are rules to ensure competition and fair play.
Together, we resolved that a great nation must care for thevulnerable, and protect its people from life’s worst hazards andmisfortune.在第二次演讲中 , 这里通过三个排比 , 奥巴马把祖国的建设成果归于每个公民, 是全民共同奋斗的结果。同样表明, 祖国的建设与每一位公民分不开, 只有大家同心协力, 才能更好地建设和保卫国家。
(2) 反复
言为心声, 将反复的修辞手法运用在演讲词中, 可起到反复咏叹、表达强烈的情感的作用。同时, 反复的修辞手法还可以使演讲词的格式整齐有序, 而又回环起伏, 突出思想, 强调感情, 加强节奏感, 增强旋律美。演讲者可以运用反复表现强烈的感情。例如:
在第一次 就职演讲 中 , 最令人印 象深刻的 是“Yes, wecan”, 其在整个文本中共出现了7次 , 颇具震撼力 , 很好地带动了群众, 具有很强的煽动性。
在第二次演讲中, “our journey is not complete until…”重复出现了5次, 起到了加强语气和凸显主题的作用。
各种修辞方法的运用, 使演讲听起来更加生动有活力, 同时也很好地抓住了听众的注意力, 引起了听众的共鸣。奥巴马的发言赢得了全场持久掌声与欢呼喝彩, 由此可见其演讲的感染力有多强。
三、结语
本文通过自建语料库, 从词汇及修辞方法方面, 对奥巴马的两次就职演讲进行了检索分析。该分析发现奥巴马为了达到演讲目的, 倾向于应用便于群众理解和判断的语汇;较多地使用第一人称代词, 拉近与群众的距离;较多地用表示预测和肯定的情态动词, 以及排比和反复的修辞方法。
摘要:本文运用语料库语言学的研究方法, 借助语料库检索工具WordSmith, 综合分析了美国总统奥巴马两次经典的就职演讲。通过自建语料库, 以高频词为切入点, 着重从词汇、修辞方面分析其演讲, 试图剖析奥巴马的个人魅力及其演讲特色。
关键词:语料库,奥巴马就职演讲,词汇,修辞
参考文献
[1]Michael Osborn&Suzanne Osborn.Public Speaking[M].Boston:Houghton Mifflin Company, 1988.
[2]郭艳涛.英语公众演讲的特点分析[J].牡丹江大学学报, 2008.5.
[3]胡瑾.国际学术交流英语演讲稿语篇模式分析[J].外语教学, 2007.3.
语料库检索分析 篇4
翻译教学与研究已经步入基于语料库的时代(黄立波、王克非2011)。通过在双语/多语对齐语料库中进行检索,我们可以快速获得一种语言中特定词句在其他语言中的多个翻译实例,这种数据驱动的学习方式为翻译教学与研究提供了巨大便利(王克非2004)。但由于网上可免费使用的平行语料不多且用户无法自行选择语料的内容和检索方式,让用户在使用中处于被动地位。
翻译教学过程中所需要的双语语料往往不需要很多,够用即可,另外最好根据本院系的实际情况使用不同的子库。实际上,自行建设短小精悍的双语语料检索引擎所需要的计算机技术并不复杂。要提供双语/多语的基于网页的检索服务,一般需要用到数据库以及交互式Web服务器,包括编程语言的数据库接口。以下以Linux平台为例,简要描述一种成本很低的架设基于网页的简单平行语料库检索引擎的方法1;关于建设双语语料库及检索系统的高级技术,可参见王克非、熊文新(2009)。
二、语料的准备
(一)语料的获取和整理
总体上讲,与单语语料相比,双语语料是稀缺资源,但获取这些语料还是有许多办法的。双语语料的主要来源如下:
1.政府等机构的官方网站:我国政府机构网站一般都提供中英文等多语版本。
2.文学作品及其译文:例如《红楼梦》《鲁迅全集》等,大多已有公众认可的译文,除可以从网络上获取部分电子文本外也可以采用扫描和OCR(光学字符识别)手段获得相关文本。
3.个人博客,如重庆大学金镝的新浪博客中有一个“双语财经”部分2,其中有数十篇整理得很好的英汉双语财经评论类文章。
4.其他网站:如“沪江英语网”的“英语下载库”1中每天都可以找到很多相当好的双语文本(当然这些双语语料的质量不一,需要进行适当筛选)。
虽然积累这些双语文本比较耗时,但假以时日,可以积少成多。绍兴文理学院经数年的集体努力,已经建立起种类繁多的汉英对齐语料供网站检索2。另一方面,通过智能技术(见叶莎妮等2008),在少量前期工作基础上,可以快速自动获取海量翻译句对,从而节省大量时间和精力,许多大规模平行语料库如北京外国语大学中国外语教育研究中心的“中英双语在线”3等都是基于自动获取和整理的双语语料创建的。
(二)对齐单位
对齐单位(alignment unit)是指双语文本中按内容对齐的最小单位,理想情况下一个翻译单位就是一个完整的句子及其译文。但用于翻译研究的对齐单位究竟应该多长并无规定。从双语语料库的角度看,一般认为对齐单位越短、精度越高就越好,但对实际翻译研究而言却未必如此,例如由于篇章当中回指等衔接手段已相当普遍,一句话中的词句意义往往要结合上下文才能看得清楚,所以对齐单位一般不宜过短,就是说不能硬性规定必须以句或标点符号为单位(例(1)整理自沪江英语网):
(1) a.Conversely,avoid red,yellow,andorange in your dining areas.Studies find they encourage eating.
b.反之,要在就餐区域里避免红色、黄色和橙色。研究发现这些颜色可以刺激食欲。
(la)中的第二个单句的they如果没有前面一句就无法解释,所以这两句可以放在一起共同构成一个对齐单位。另外,通常情况下我们也希望每个对齐单位在检索时都包含一些我们比较感兴趣的词句,类似例(2)这一对翻译作为一个单位就没有多大意义:
(2)a.OK!
b.好吧!
过长的单位虽然能够提供详尽的语境,但阅读检索结果时会相当吃力,不易发现相互对应词句的位置;而过短的单位虽然阅读轻松、找到对应词句的位置也容易得多,但包含的兴趣点也少,比较浪费系统资源。我们的经验是,每个对齐单位中英文部分在15到50个词比较适宜,也可以根据内容不同灵活掌握。例如我们在整理财经方面的语料时发现,这类材料的英文句子往往相当长,有的可能达到80个词左右甚至更多(例(3)整理自重庆大学金镝的新浪博客):
(3)a.Since the onset of the financialcrisis in August 2007,Federal Reserve Chairman Ben Bernanke has been pulling rab bits out of his hat.He cut interest rates to near zero,printed$2.3 trillion to buy Treasury bonds and mortgage debt,and,with a posse of sleep less economists,devised an alphabet soup of rescue programs for commercial-paper markets,money-market funds,dollar-starved European banks and other strained players in the vast global financial system.
b.从2007年8月金融危机爆发以来,美国联邦储备委员会(Federal Reserve)主席贝南克(Ben Bemanke)就一直在像变帽子戏法一样推出各种政策:他将利率降至接近零的水平;印了2.3万亿美元的钞票购买美国国债和抵押债券;他还和一批不休不眠的经济学家为商业票据市场、货币市场基金、渴求美元的欧洲银行以及庞大的全球金融体系中其他紧张的参与者制订了一份份如字母汤一样抽象的救助计划。
(3a)由一短一长两个句子组成,共72个单词,但其汉译文(3b)却只有一个长句,因此本例对齐单位比较长。出于综合考虑,笔者的做法是将翻译单位的中英文部分均设置为最长1024个字节1,实践表明这个长度已经足够容纳翻译单位内部的上下文等信息。
(三)对齐工具
从网络等渠道获得的双语语料通常是英文、中文分别在不同文章中,需要按单位对齐才能使用和检索。如果语料的数量很大,我们自然会希望用自动对齐软件进行辅助;但由于自动对齐技术尚不成熟,就必须要大量采用人工对齐,由人来进行判断。这里一般可采用计算机辅助翻译(CAT)工具中的相应功能,如SDL WinAlign,以及Atril Deja Vu中的Alignment Workfile,这些都是很好的选择,但这些软件只能用于Windows平台。在Linux平台上可用的对齐软件很少,诸如Bitext2tmx(基于Java的跨平台软件)这样的工具功能比较有限。笔者使用的是Linux平台,无法方便地使用各种为Windows开发的软件工具,所以采取的是比较笨的办法,描述如下:
1.将语料下载并保存为中英文两个文件。
2.在文本编辑软件Geany中打开两个窗口进行对照,将语料按行号对齐。
3.去掉所有空白行以及行首、行尾空白字符。
4.在OpenOffice Calc电子表格软件中将两种语料分别粘贴到两个列中。
5.将表中内容导出到一个CSV文件中,其中每个对齐单位中的两种文本用制表符(即t)分隔开,每行末尾用换行符(Unix中的n)结束。下文的操作说明即以此为假设。
语料到此就准备好了。这些工作一开始做得比较慢,但随着经验日益丰富、操作逐渐熟练,效率会越来越高。
三、软件的准备
(一)系统平台
GNU/Linux平台的优点在于所需要的各种软件工具都是自由软件(免费),非常容易获得和安装,而且性能非常稳定,另需安装MySQL数据库、Apache Web服务器、Perl解释型脚本语言(默认安装)。这一组合(Linux+Apache+MySQL+Perl)一般被简称为LAMP2,其中的编程语言除Perl外也可以是PHP或Python,LAMP这一缩略形式碰巧是一样的。这类组合在当今被许多互联网站点大量采用。
(二)数据库的设置
MySQL是最流行的开源数据库,是自由软件;语法直观易懂,操作灵活,功能全面,运行快速稳定,账号管理(权限设置)非常完善。在Linux平台上,从软件源下载并安装MySQL server。安装过程中会提示设置账号和密码。关于MySQL的基本知识可参见Vaswani (2004)。
在下面的例子中,创建的双语语料库(数据库形式)名称为paracorp,创建的数据库表名称为ceecon,并假设双语语料的对齐单位为中文+英文的顺序。
打开MySQL终端,连接MySQL服务器,输入密码后回车,就进入了MySQL系统:
其中mysql>就是MySQL的提示符,可在此输入各种语句。这里假设对齐的语料放在同一文本文件ceecon.txt中1,以下创建数据库和数据表:
在以上代码中,第一条语句创建了一个数据库paracorp;第二条语句打开该库;第三条语句在该库中创建了一个表,其中只有两个字段。ctext是一个长度为1024字节的文本类型非空字段,用于存储对齐单位中的中文部分;etext相同,用于存储英文部分。
(三)语料的导入
每行是一个对齐单位,两语种的文本之间用制表符分隔开,前面是中文,后面是英文。本例中将语料保存到/home/arthur/。在MySQL中可使用以下语句导入:
该语句的意思是将/home/arthur/ceecon.txt这个文本文件(字段结束符为制表符;行结束符为Unix系统下的换行符)导入到ceecon这个数据表中。语句中使用LOCAL的原因在于/home/arthur/ceecon.txt这个文件原本并不在数据库中,是从本地机读取的。以上语句将/home/arthur/ceecon.txt中的全部语料一次性导入到了数据表中。
出于安全考虑,应在数据库中建立一个用户帐号(本例中为arthur),并授予parcorp库的访问权限,建议只赋予SELECT权限,对于一般网站检索而言已经足够。
(四)Web服务器配置
Apache Web服务器的基本安装和配置方法本文不再赘述,可参见各种帮助文档。本文假设网站的程序脚本目录为cgi-bin。在网站根目录创建一个检索网页paraconc.htm,其中的表单结构很简单:
这里网页表单中提供的语料列表可以根据数据库中表的数量任意扩充。表单中的/cgi-bin/paraconc.pl为程序脚本文件在网站中的路径和文件名。网页界面显示效果如图1所示:
下面是建立检索引擎的关键步骤,在程序脚本目录(通常为cgi-bin)中编写检索程序脚本,这里取名为paraconc.pl。由于本例的数据库结构非常简单,只包含两个字段(分别为ctext和etext),因而程序也非常简单:
这里对数据库中的语料表命名方式有一个约定,凡英译汉的表名称以ec开头,汉译英的以ce开头,这样做除了是为了使数据库中的表更清晰外,也是为了使程序可以根据不同情况将检索结果以不同顺序显示出来。本例中的财经类语料构成的表名称是ceecon,因此检索结果将中文置于上方,英文在下方。将这一程序脚本保存到网站的cgi-bin目标中,将其设置为可执行;然后就可以在网页中检索了。在设置正确的情况下,检索效果如图2所示:
检索结果中的检索词一般以不同颜色显示。每个结果之间都以较大间隔分开。可见翻译单位确实不宜过长,否则可能造成检索结果的阅读困难。
四、讨论
上述方法很容易扩展到多语语料的情况,包括一本多译的情况,如《红楼梦》的数个不同译本,对齐后可以放入同一个表中。虽然本例是在Linux平台上,但在Windows平台上可能更简单,只是Apache Web服务器、MySQL数据库、Perl (建议使用ActivePerl)都需要自行安装,其下载地址分别如下:
Apache Web服务器:http://htpd.apache.org/download.cgi
MySQL数据库:http://dev.mysql.com/downloads/(
ActivePerl:http://www.activestate.com/ activeperl/downloads
计算机充其量只是工具,最重要的是获取足够的平行语料。如前文所说,自动获取网络上的海量双语语料并非难事,但若语料数量过大的话,检索结果可能过于分散,从而使用户产生“望洋兴叹”的感觉。出于翻译教学目的,我们建议着力建立更具针对性的特殊用途平行语料库,这并不需要特别大的语料数量便可为诸如经贸、商务领域的外语教学与翻译,外交领域等建立语料库,每个库一般包含1000-2000对翻译单位即已够用;将这些不同性质的双语语料导入到同一个数据库中的不同表格中,这样非常方便管理。表1则列出笔者已建立的平行语料数据库paracorp。
针对翻译教学不同内容领域的实际需要,可以分别建立不同的表(即子库),放到网站上提供检索,课堂、课外均可使用。
参考文献
[2] http://blog.sina.com.cn/s/articlelist_1661057683_ 13_ 1.html[2012-03-01].
[1] http://www.hjenglish.com/dl/[2012-03-01]
[2] http://corpus.usx.edu.cn[2012-03-01].
[3] http://202.204.128.82/CEO/[2012-03-01]
黄立波,王克非.2011.语料库翻译学:课题与进展[J].外语教学与研究(6):911-923.
王克非.2004.双语平行语料库在翻译教学上的用途[J].外语电化教学(6):27-32.
王克非,熊文新.2009.用于翻译教学与研究的英汉对应语料库加工处理[J].外语电化教学(6):3-9.
叶莎妮,吕雅娟,黄赘,等.2008.基于Web的双语平行句对自动获取[J].中文信息学报(5):67-73.
语料库检索在英语教学中的应用 篇5
一、研究设计
本研究的具体步骤是:首先确定研究对象。选择中国学习者常用英语单词control的使用模式, 对其在不同语料库中呈现的模式进行对比和观察。第二, 确定研究所需语料库。本研究的数据来自于两个语料库, 分别是中国学习者CLEC语料库和本族语LOB语料库。最后对语料库进行检索, 收集研究数据, 在语料库客观数据的基础上对研究对象进行比较和讨论。
二、研究结果与讨论
1. Control作为动词
使用提取索引行后, 作者观察到动词control主要用于两种类连接:情态动词+V和V+n。以下将在这两种类连接中, 对control在CLEC和LOB两个语料库中的搭配行为逐一进行比较分析。
(1) 情态动词+V类联接
值得一提的是, 在CLEC中, 在N-1位置上, 也就是紧靠节点词左边的第一个距位上, 相当多的搭配词都是情态动词, 如can, must, could, should, would, 其中can出现了26次, must 21次, should 16次, 情态动词一般在语篇中表达一些情态意义, 比如建议、许可和告诫。对比在CLEC中情态动词+V类连接的搭配情况, 在LOB语料库中此种类连接很不常用, 仅仅出现了5次, 搭配词分别是be able to, can, could, should。这说明本族语者不常把control用在情态动词+V这一类连接上, 而学习者过度使用了这一类连接。
(2) V+n类连接
观察动词control在CLEC中的索引行可以看出, 动词control在CLEC语料库中的主要右搭配词包括:population, pollution, birth, behavior, production, action, machine, situation, skill, power。在这些搭配词中, population和pollution出现的频率最高。动词Control在LOB中出现频率不高, 只有27次, 在有限的动词搭配索引行里可以观察到其右搭配词包括:distribution, immigration, efficiency, conception, destiny, impurity, desire, thought, fury, feeling, voice。
根据《牛津高阶英汉双解词典》提供的解释, control作动词使用主要有三个义项:to have power or authority over sb.or sth.;to regulate sth.;to check sth.对比分析不难看出, 从学习者使用的搭配词和具体的索引行来看, 他们基本上只是用其中的第一个义项, 搭配的名词多为具体的名词。在CLEC中population和pollution这两个高频搭配词在LOB中出现频率为零, 说明学习者的这种搭配模式是和中国的计划生育国情以及环保宣传密切相关的, 是明显的中国式搭配。虽然在这一类连接中, control对后面的名词没有太大的限制, 但是从本族语者的使用情况看, 名词的选择显然是有偏向性的。本族语者使用动词control的名词搭配词多为抽象名词, 其中表示人的情感心智方面的名词居多, 比如desire, fury, feeling, thought。中国学习者使用control这个动词, 其中的右搭配词还包括myself, themselves等反身代词, 由于本族语者多把control作为名词使用, 所以self-control这种模式在LOB中出现的频率较高。
2. Control作为名词
本族语者多把control作为名词使用, 使用模式也多种多样。以下就出现频繁的习惯性搭配做以下对比分析。
对比两个语料库的索引行, 作者发现control作为名词使用时, 本族语者和学习者都采用了一些习惯性搭配, 列表如下:
可以发现, 本族语采用的一些习惯性搭配学习者也在使用, 比如under the control of学习者和本族语者使用频率相同, under control这个习惯性搭配学习者甚至比本族语者出现频率多一次, 然而观察两个语料库的索引行得知, 本族语者更倾向于在系表结构里使用这个习惯搭配, 学习者采用put/bring…under control这样的结构。需要注意的是, control还可以作可数名词, 本族语者常使用的a control group (作为对照的一组) , the controls of an aircraft (飞机的操纵装置) , CLEC里面都没有出现, 很显然学习者对于这些义项的使用很陌生, 很难把control与这些义项联系到一起。
Corder (1981) 认为, 许多学习者特有的语言和母语干扰有关。由于学习者没有习得到足够多的英语知识, 在使用英语时不免会产生直接把汉语生搬硬套进英语的现象, 这就产生了不自然、不地道甚至不准确的搭配。学习者往往从语义着手逐字转换, 忽视了目的语词汇之间的典型搭配和兼容特征, 导致各种搭配不当的错误。因此外语教学中, 教师应当为学生提供大量真实的贴近本族语者使用的语言材料, 扩大学生词汇量的同时要强调常用词搭配模式的重要性。
3. 结论与启示
从以上分析得知, 学习者在使用control这个词的时候经常出现类连接和搭配上的问题, 主要原因可能是在英语词汇教与学中还没有对能够反映词汇知识深度的典型类连接和搭配予以足够的重视。作者认为英语词汇教学的一个重点必须要放到常用词汇的典型类连接和搭配上, 因为这直接关系到学习者语言输出的准确性和地道性, 语料库就为英语词汇的学习提供了一个新的有利平台, 语料库应用于英语词汇教学具有多方面的优越性。
首先, 传统课堂教学遵循“老师讲—学生练”的模式, 语料库却可以在多方面上开展词汇教学和研究。利用语料库, 可以研究词汇的语法关系、词汇用法和典型的地道的常用的词汇搭配, 可以及时验证各种语法结构的典型用法, 体验词汇和词组在不同语境中的确切用法, 体会同义词近义词之间微妙的语义语用差异。其次, 传统的词汇教学老师给出的例句, 并非来自现实生活, 往往依赖于自己的直觉和教学经验。将语料库运用于词汇教学, 让学生从大量的索引行中观察词语的搭配形式, 从而提高学生的搭配能力。Ellis认为:输入频率是影响语言发展的一大因素。输入频率愈高, 愈能引起学习者的注意, 其内容就愈有利于学生领会和掌握, 输入的数量和质量对学习者的语言发展意义重大。语料库通过“语境共现”, 提供给学习者大量的真实材料和真实交际信息, 学习者的外语接触和语言输入将大大突破以往的限制。再次, 语料库可以提高英语学习者的学习能力和语言意识。传统的英语课堂是老师-学生间单纯的知识传授, 利用语料库进行词汇教学和研究, 学生学习会更加主动。学习者通过分析准确和客观的真实语料, 从不同角度发现更合乎实际交际的词汇用法和语言规律, 从而使学生的语言输出更加地道自然。最后, 语料库索引给教师的教学活动提供了诸多便利, 使教师节省出更多的精力和时间改进教法完善教学活动。总而言之, 语料库的运用应该成为教师必备的一项教学技能, 其索引工具应该引入语言教学。
参考文献
[1]Corder.S.P.Error analysis and interlanguage.New York:Oxford University Press, 1981.
[2]Ellis R.Second language acquisition.Shanghai:Shanghai Foreign Languages Education Press, 2000.
[3]李文中, 濮建忠.语料库索引在外语教学中的应用.解放军外国语学院学报, 2001, 24 (2) :20-25.
[4]唐洁仪, 何安平.语料库在外语教学中的应用.外语电化教学, 2004 (99) :42-45.
[5]卫乃兴.基于语料库和语料库驱动的词语搭配研究.当代语言学, 2002, 4 (2) :101-114.
语料库检索分析 篇6
在高中英语写作教学过程中, 我们常常会碰到一些棘手的同义词辨析问题。曾经有一次, 我的一个学生在作文里写
道:I have a good relation with my mother.作为一名英语学习者,我很自然地会将其中的relation更正为relationship, 但作为一名教师,我却很难说出所以然来。因为这组词词性一致,意义相近,用法似乎没什么区别。遇到这种情况,我一般的做法是通过手头的字典、书籍或上网查阅这组词汇的用法。如朗文当代英语辞典(英语版)里对relation和relationship的解释分别是:
A relationship with someone or something is usually close,and may involve strong feelings.
A relation or relationship to someone or something,is usuallyabout a simple fact.
A relationship between people and other people or things maybe either close and full of emotion,or simply a matter of fact.
从上面的文字中,我们了解了relationship和relation与不同介词with,to及between的搭配用法及含义的侧重面, 虽然可以向学生解释relationship和with是属于一种固定搭配,但是也不能否定relation和with的搭配问题, 所以解释起来比较笼统牵强。那么怎么讲解才能让学生信服呢? 这两个词正确、地道的用法是怎样的呢?
二、BNC网上语料库检索的步骤及分析
语料库是在一定原则下收集的批量的口头或笔头语篇素材,并且以电子版本的形式储存在电脑中,用于语言的量化调查和质性分析(何安平,2010)。语料库不仅对于各类语言研究有极大的参考价值,而且在语言教学中所起的辅助作用不容忽视。本文所采用的英语国家语料库(British NationalCorpus, 简称BNC) 是目前网络上可直接使用的最大的语料库。它是由英国多家知名出版社、牛津大学计算机服务中心﹑兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库。该语料库既有书面语又有口语,词容量超过一亿。
语料检索系统跟搜索引擎有很多相似之处, 其实就是一种小程序, 从大量语言材料中检索出某些单词或短语的使用方式。在过去几年中,ELT教材编者越来越多地使用语料检索系统。因为语料检索系统可以帮助看清单词和结构、短语搭配及语序的使用情况, 我们日常教学中看到的许多书面材料的编写都受它的影响, 教材有了很大的变化 (加文·迪德尼,尼基·霍克利,2011)。现在,我们试用这个语料库,探讨一下relation和relationship的用法。
步骤一:打开BNC网站,分别输入relation和relationship,检索报告有7409例和12685例,说明relationship比起relation,用得更加广泛。那么,它们可否以复数形式出现呢? 我们试着搜索relations和relationships,检索结果有11210例和5916例 ,这在一个角度说明了在英语里, 四个词的使用频率分别是relationship〉relations〉relation〉relationships。按照其使用频率从高到低及用法特点,我们列表如下:
步骤二:既然这两个词都有复数形式,那么有单数形式的搭配吗? 于是,我们又输入a relation及a relationship,结果是194例和831例。而one relation及one relationship的检索结果是12例和11例。检索two relations和two relationships,分别发现13例和6例。再检索其他基数词,则更少。这说明relation和relationship很少与基数词搭配,单数形式中,最常见的就是a relationship。对于a relation的检索,值得引起我们注意的是,有相当一部分句子中的a relation并不表示“一种关系”,而是“亲戚”,后面常与介词of搭配。如:
Aunt Louise was a relation,and if she were going to driveanyone dotty...
Rise Hall was rebuilt by the Bethell family in 1815 -20,anddesigned by the architect Robert Abraham,a relation of the family.
Please tell her that a relation wants to see her.
Oh it’s a technique,a relation of ours used to be a carsprayer.
步骤三:现在,我们来看学生习作里的词组搭配。搜索agood relation,发现只有1例报告 ,表明这种表达不是很地道。而检索a good relationship, 结果有90例, 通常后面与介词with搭配,表示与某人拥有良好的关系。如:
Or perhaps you have a good relationship with your financialbackers?
We struck up a good relationship almost immediately.
Since getting older I’ve sometimes hoped for someone withwhom to have a good relationship.
We’ve acted for the club for a long time and have always hada good relationship with them.
Building a good relationship with your boss will be very important.
在检索过程中, 我们还发现不少与relationship搭配的动词,如:form a good relationship,enjoy a good relationship with sb.,promote a good relationship between...and...,establish a good relationship,ruin a good relationship,developing a good relationship,achieved a good relationship,maintain a good relationship,buildup a good relationship等。通过快速检索,relationship与不同动词的搭配便立体地呈现在学生面前,而且这些搭配地道、鲜活,极大地提高了高中英语词汇教学的成效,也从为教师辅导学生写作提供了良好的途径。教师通过检索这一组词,就能够基本确定哪些是需要重点掌握的词汇,哪些是可以一带而过的。
除此以外,我们还可以输入have a———relationship,检索其他修饰词替换good。需要说明的是,本文中所使用的例子仅仅是所有检索结果中的一小部分, 所以归纳的结论带有一定的片面性。一些检索不到某种搭配或该搭配例子极少,并不意味着我们就不能用该搭配, 因为语言的使用带有一定的创造性和灵活性。对于普通高中生和高中英语教学来说,借助语料库了解词汇一些约定俗成的用法就可以了。
三、结语
BNC在线语料库在辅助英语写作教学中的用词问题上 ,起到了以下三方面的意义。
1.教师通过BNC在线语料库检索词义相近的单词 ,观察其在同一语料库中出现的频率, 可以基本判断出哪些是高频词汇,哪些是低频词汇,从而在教学中可以去除那些低频、过时的无用搭配。这样,学生可以更有针对性地学习词汇转而遣词造句,很大程度上提高了学生学习的质量和效率。虽然这种通过检索简单判断高频低频单词(词组)的方法有点绝对,但在某种程度上还是值得借鉴的。
2.在线语料库收集的素材容量大 , 语料真实 , 语境丰富 ,检索快速方便, 可以帮助学生厘清容易混淆的单词或者短语搭配,使他们获得比较全面的词语搭配信息,从而突破思维的局限性。
3.学生在写作过程中 , 往往凭借自己已有经验提取搭配形式,它们在语法上也许是正确的、无可挑剔的习惯用法,但是否在日常生活中得到广泛的使用不得而知。在线语料库的介入,可以使我们帮助学生了解到比较全面、典型的词语搭配模式,以及英美现实生活中高频使用的词汇搭配,降低他们在写作中出现的词语搭配的随意性与局限性。
另外, 除了利用在线语料库解决英语写作教学中的用词问题外, 教师还可以利用语料库自行设计多种多样的英语词汇习题。如:可将语料库相关词汇语句翻译成汉语,让学生通过汉译英练习掌握重点词汇用法;可以把相关词汇挖空,让学生猜测所缺词汇的含义和用法; 也可以把一个单词的搭配集中收集呈现(如上文提到的relationship与各类动词的搭配),让学生进行配对练习。
当然, 利用在线语料库辅助高中英语教学也存在一些问题,它需要教师课前花较多的时间和精力进行备课,从语料库众多句子中选取适合所教学生实际水平的例句。而一般水平的学生在课上也需要花很长时间去观察、分析和总结语料。总之,只要教师能够找准切入点,举一反三,那么在线语料库的介入一定会给单一枯燥的英语写作课注入新的活力, 学生在语言输出的时候可以较少受到汉语思维的干扰。
摘要:BNC网上语料库是一个强大的英语资源库,利用语料库辅助教学的优势在于它提供了大量自然、真实的语言数据。作者以relation和relationship为检索示例,在分析语料库语言数据的基础上,对这组同义词进行辨析,希望通过语料库解决英语写作教学中易混淆词汇的用词问题。