语料库建设

2024-11-09

语料库建设(共8篇)

语料库建设 篇1

类型

英语学习者语料库(书面语及

口语)

平行语料库

国内语料库建设一览表

语料库名称及大小

中国学习者语料库 CLEC(100万)大学英语学习者口语语料库 COLSEC(5万)

香港科技大学学习者语料库 HKUST Learner Corpus

中国英语专业语料库 CEME(148万)中国英语学习者口语语料库 SECCL(100万)

LINSEI-China(10万)

硕士写作语料库 MWC(12万)

汉英平行语料库 PCCE 南大-国关平行语料库 英汉文学作品语料库;

冯友兰《中国哲学史》汉英对照语料库

李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库

计算机专业的双语语料库;

柏拉图(Plato)哲学名著《理想国》的双语语料库

英汉双语语料库(15万对)

建设单位 广外、上海交大 上海交大 香港科技大学 南京大学 南京大学 华南师大 华中科技大学

北外 南京大学

外研社 究所 中科院软件所

国际外语学习者英语口语语料库中国部分国家语言文字工作委员会语言文字应用研

英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语

特殊英语语料

汉语语料库

料31万句子对

英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)

英汉双语语料库(40-50万句子对)

双语语料库(5万多对)

对比语料库 LIVAC(Linguistic variety in Chinese communities)平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank)

中国英语(China English)语料库

军事英语语料库(Corpus of Military Texts)

新视野大学英语教材语料库

汉语现代文学作品语料库(1979年,527万字)

现代汉语语料库(1983年,2000万字)中学语文教材语料库(1983年,106万8000字)

现代汉语词频统计语料库(1983年,182万字)国家级大型汉语均衡语料库(2000万字)《人民日报》语料库(2700万字)大型中文语料库(5亿字,10分库)

中国科学院自动化研究所

东北大学 哈尔滨工业大学 北京大学计算语言学研究所

香港城市理工大学

台湾 河南师范大学

解放军外语学院 上海交通大学 武汉大学 北京航空航天大学 北京师范大学 北京语言学院 国家语言文字工作委员会 北京大学计算机语言学研究所

北京语言文化大学

现代汉语语料库(1亿字)

汉语新闻语料库;(1988年,250万字)

标准语料库(2000年,70万字)

生语料库(3000万字);《作家文摘》的标注语料库(100万字)

现代自然口语语料库

旅游咨询口语对话语料库和旅馆预定口语对话语料库

清华大学

山西大学

上海师范大学 中国科学院自动化所

中国社会科学院语言所

语料库建设 篇2

高达74%的被访者认为物流专业英语的学习重要,这表明大部分被调查者对物流专业英语的重要性有清醒的认识。顺应时代潮流,培养现代物流的专业人才还需要强化英语的掌握和使用。

物流专业英语的实践性决定了学习必须围绕市场需求展开,也就是为学生的就业做准备,为从事该行业的人员提供有效的培训。物流专业英语的教学同样不能脱离这个中心,不能为了学习专业英语而学习,而是要让专业英语确实成为增强就业的一种能力。这使得现有的物流专业英语的体系显得很不合理。多数物流专业英语与其它专业英语教学雷同,更倾向于培养学生的英语阅读能力,而不是培养学生在工作中应用专业英语的能力。而物流专业英语应强调语言基础和培养语言应用能力并重;强调语言基本技能的训练和培养实际从事涉外交际活动的语言应用能力并重。

专业英语学习仅仅基于课堂教学不能满足学生学习英语的需要,同时还需要运用各种教学方法。引进和使用计算机多媒体、网络技术等现代化的教学手段,营造良好的英语学习氛围。英语教学的特点是教师只是指导和答疑,更多的需要学习者自己进行练习,多媒体的网络教学对这一需求的满足更加有效。

在对调查问卷进行分析总结的基础上,我们提出建设物流专业英语建设语料库能够较好地解决物流专业英语教学中存在的问题,培养适应社会需求的物流专业人才。

语料库的模块内容

单证模块:单证是物流专业英语中重要部分,本部分包括提单、装箱单、报关单、保险单、财务流水单证、发票、信用证、合同、分析证书、危险品单证等各种在物流管理过程中使用涉及的英文单证。模块首先对单证进行分类,然后对每一类单证的用途、单证的流转、单证填写规则和基本内容进行解释,其后又附上几个范例对单证具体讲解,最后,给出不同形式的单证进行练习,所有的练习均附有答案和注释该模块的所有单证均来自生产一线,是现实中企业使用的单证。

术语模块:术语模块对物流管理使用的术语进行了收集和整理,对所有的术语标注中英文解释,同时辅以例句加深学生对专业术语的理解和应用。同时该部分也提供给学习者术语查询的功能。缩略语在物流管理中使用较多,在给模块中收录了实践中使用的多数缩略语,给出了缩略语的全称,同时加以注释,为学习者提供了便利。

信函模块:信函模块对物流中涉及到的建立业务关系、询盘与回复、报盘与还盘、成交、支付、包装、装运、保险、索赔等物流商业活动中的常见信函说明与范例及信函的阅读、翻译、写作练习。同时在信函部分,编写了试题形式多样,题量大,还包括各种信函常用句型和英汉对照,学生既可以了解信函的写作,或套用模仿写作;也可以提高阅读理解、翻译以及涉外活动的交际能力。

阅读文章模块:阅读模块以实用性文章为主,兼顾科技性文章。阅读的文章深浅各异,内容涉及到物流管理与应用的各个方面,包括物流基本理论、供应链管理、采购管理、仓储管理、运输管理等,学习者可以进行选择阅读,增加学习者的知识面和词汇量,了解物流的管理流程、前沿发展情况,对于部分学习者可以通过这个模块获得阅读物流学术性文章的能力。

附录模块:附录模块主要提供中英文对照的计量单位、世界主要港口、世界主要物流公司及其网站等参考工具。本模块可以供学习者在阅读物流文章、填写单证或书写信函时参考查用,同时也可以让学习者在长期的查阅和主动的学习中熟悉和积累相关的知识,对物流操作中的常用内容逐渐掌握,为工作提供帮助。相应的物流网站和公司可以给学习者提供更多了解本行业发展和知识信息的平台。

除附录外,每个模块都包含了可供学生自学或教师教学的内容。学生可以循序渐进地进行学习。所有的教学内容均给出了中英文解释,各种英语层次的学生都可以找到适合自己的教学内容。

语料库的作用和意义

语料库作为一种网络时代的产物,从学习形式和内容上对传统的专业英语进行了颠覆。由于计算机技术的应用,使得相比传统载体能容纳更丰富的内容和形式,并能随时补充、更新和维护。它丰富的内容和多种形式的模块教学可以实现学生学习的“大规模定制”管理。专业英语教师都深有体会,由于受到学习者基础英语水平参差不齐的限制,教师授课难度很大。语料库由于是模块化管理,每个模块提供给学习者有针对性的教学内容,教师只需要借助多媒体教学手段对学生进行指导,各个学习者可以根据自己的需要和能力取舍学习内容,这样,英语好的学习者不会有吃不饱的情况,基础差的学习者在老师指导下也可以循序渐进,不会坐飞机,完全丧失学习的兴趣。真正做到“因材施教”。

语料库提供的学习不受时间和空间的限制,为学习者提供了方便。学习者可以做到“随时随学,随时随练”,教师也可以用多媒体教学与学生自己练习相结合。丰富的内容、详尽的中英文注释和答案给教师教学和学生自学都提供了条件。由于英语教学的特点,除了教师课堂的讲授外,更多的需要靠学生反复地练习,增强对词汇的记忆理解和培养语感。物流专业英语的应用性更是决定了学习者通过不断地练习可以获得好的效果。语料库能让学习者根据自己的具体情况进行操练,在没有教师指导答疑的情况下,借助语料库的相关功能同样可以解决疑问,直到最终掌握相关的内容;对于在职人员不允许以上课教学方式学习时,也可以自己学习,语料库的组织是按照教授内容的顺序进行的,有一个如同教师指导的作用。如果有的疑问不能在语料库中找到答案,还可以求助在线答疑,获得教师的后台支持。

语料库的各个模块与实践结合紧密,切合了“实际、实用、实践”的原则。单证和信函等内容均采自生产一线。虽然单证由于目前国内各家公司的格式各有差异,但基本格式一致、基本内容一致,学习者通过练习,即可全面掌握单证填写的要点,做到能够独立填写相关单证。信函部分也是以实际物流管理中使用的信函内容作为收录的基础,同时对常用的信函句型做了整理并通过提供例句来加强学习者对该句型的掌握。语料库的所有内容均本着这一原则来进行收集和整理,完全能够仿真物流管理的实际操作,让理论和现实得到了最大化的结合。这为物流英语的教学和培训都提供了切实可行的工具。

外语语料库建设研究 篇3

关键词:语言学;外语;语料库;建设

中图分类号:C931.6 文献标识码:A 文章编号:1671-864X(2015)10-0085-02

一、外语语料库建设的意义

外语语料库对我国教育水平的提升和经济的发展具有极大的促进作用,外语语料库能为人们的学习和工作提供一种极为有利的资源,对于学生来说,可以在学习和研究的过程中使用外语语料库,有效帮助自己挖掘相关专业的深度和广度,开拓学生的眼界,拓宽学生的知识面。各大高校在进行外语教学和研究的过程中,外语语料库的语言学能够为其提供极为丰富且真实的外语资料用作参考,教师可以在外语教学的过程中,使用外语语料库进行课堂实例和考卷设计。学习者在使用外语语料库的过程中如果发现过量使用的词汇,可以对其进行重点关注或者标记,学习者在使用外语语料库的同时也能加深自己对外语词汇的理解,掌握外语词汇的使用规则,有效提高自身的自助学习能力和探索能力。学习者在使用外语语料库的过程中,可以发现口头外语和书面外语之间的区别,并对外语语言背后深层次的文化内涵进行深入的挖掘。建设外语语料库,并通过对语料库的研究,可以有效加深学者对外语文章题材方面的研究,有效促进社会文明程度的提高。

目前我国外语语料库的建设都是围绕各个领域的主题活动进行研究和建设的,外语语料库能为学习者提供更多使用的机会,学习者在使用外语语料库的过程中,能够积极主动的提出问题、思考问题、并解决问题,在这个过程中,学习者能够充分的掌握外语知识,并学会运用外语知识,学习者使用外语语料库还能学会学习技巧,并将自己已经掌握的外语知识运用到学习和生活中,为自己的学习和工作奠定坚实的基础。

二、外语语料库的建设与应用

所谓外语语料库,就是指为研究和使用语言,通过计算机处理并储存的外语书面语和外语口头语言材料。早在18世纪外语语料库就已经诞生了,但是外语语料库的建立并没有引起学者们的注意,直到20世纪50年代后期,随着计算机网络技术的不断发展、优化和革新,外语语料库在先进的计算机技术的推动下猜逐渐发展起来,20世纪60年代Brown Corpus和LOB Corpus才成为外语语料库发展的基石和开拓先驱,20世纪80年代,Cobuild语料库发展成迄今为止世界上最大的语料库,和其他语料库相比,该语料库的词汇量最多,高达5亿。随着语料库的产生、发展和革新,外语语料库在语言研究领域的作用表现得尤为突出,外语语料库首先被广泛应用到词典的编纂方面,并且取得了十分突出的成绩,被广泛应用到人们的学习、教学和研究中。随着外语语料库词汇量的扩大,利用外语语料库编写的语法著作的成绩也得到了极大的提升,利用外语语料库编写的语法书籍,能够将外语语法和词汇有效的联系在一起,将一般意义和具体意义的表达融合在一起,并对外语与发规则的应用划定了明确的范围。

三、建设外语语料库的作用

1.为学习者提供真实、鲜活的语料。

建设外语语料库的主要目的是让使用者在使用语料库的过程中,学习并研究真正的外语语言实例,当使用者在学习外语时,可以将外语语料库中的例句当作楷模来使用,以此为例,学会运用相关词汇和语法。建设外语语料库,能使现代化的外语语法教学做贡献,为其提供真实的、纯正的外语语言,有效弥补了传统外语语法教材中所欠缺的内容。学习者通过查阅外语语料库能够使用正确的句子说明语法现象,对使用者进行正确的语法分析,有效提高使用者的外语水平,增大使用者的词汇量,提高使用者的外语交际能力。例如可以使用Birds sing.这样的例句来简单明确的说明外语主谓句,从外语语法的角度来看这句子是没有问题的,但是在实际生活中,学习者却不知道会不会有人使用这样的句子,但是建立外语语料库之后,学习者只需使用外语语料库对其进行检索就可以发现这样的主谓句很罕见。在现阶段的外语语料库中,真实的外语语言能够有效提升学习者的外语成绩,使外语学习者能够准确总结外语语法结构的使用情况,例如drunk可以用作表语,drunken可以用作定语,学习者可以使用Cobuild外语语料库对drunk作表语和drunken作定语的搭配用法进行检索,通过检索可以发现,drunk既可以作表语,也可以作定语,但是通常情况下人们都讲drunk作表语使用,当其作定语时引起的内涵意义和drunken是具有一定区别的,和drunk相比,drunken的使用具有极大的局限性,只能当做定语使用,由此可见,在外语语料库的作用下,外语学习者可以快速并准确的掌握外语词汇的真实用法,充分了解词汇之间的差异。

从外语语料库中检索到的真实的外语例句还可以有效说明在单个外语句子中不明显的语言点,例如下面是从外语语料库中检索到的一组含有wake up短语动词的例句:

(1)Be quiet , don't wake your father up.

(2)The event may wake the boy up.

(3)You must wake up!

从上面的一组句子中可以看出,wake up不仅具有“醒来”的意思,还具有“醒悟”和“振作起来”的意思。外语语料库中词汇和短语的含义、使用方法更全面,能为学习者提供真实、鲜活的语料。

2.使外语语法和词汇能够联系起来。

语言学家通过多年的研究和探索,对外语与发和词汇各自的领域进行了规定,通常情况下,语法是用来研究一般事实的,词汇是用来处理具体事实的。随着外语语料库的建立,外语语法和词汇能够有效的联系起来,对外语语料库进行细致的研究和分析可以发现,相关语言学家在进行语法描述的过程中,都会加入大量的和某一语法形式具有密切联系的词汇信息,为外语语法描述开辟了全新的道路和途径。例如,在外语语料库中It的其中一种用法是用作表示天气,通常情况下这样的词汇信息在传统的外语语法书上是找不到的,外语语料库中结构和词汇相关联的语法描述,会给外语语法学习者提供十分有利的语法信息,学习者在使用外语语料库进行该类语法检索的过程中,可以简单明了的掌握语法规则,充分了解语法规则的适用范围,使得学习者使用语法的过程中感到得心应手。外语语法和词汇的有效结合实际上就是将横向组合和纵向组合有效的结合在一起,学习者可以通过查阅外语语料库根据自己实际的交际需求,选择适当的外语单词组合成特定的句法结构,学习者在表达自己的思想和相互交流的过程中,能够有效提高自己的表达能力和交际能力。

nlc202309011539

3.提供全面准确的语法现象分布和频率统计。

在传统的外语语法教材中,当that的子句是补语或者直接宾语时,连词that在非正式的用法里通常可以省略掉,但是学习者在学习和使用的过程中很难把握什么时候该省略,什么时候不该省略,外语语料库能够为学习者提供全面可靠的语法统计。在朗文语料库中检索that在句子是否省略的结果显示:在会话中,含有that的子句有85%省略了that,在新闻报保重,含有that的子句只有25%左右省略了that,在外语学术文章中,含有that的子句很少存在省略that的情况。通常情况下,传统语法教材都会指出关系词的省略问题,对其进行一定的解释,但是在非正式外语文体中经常会省略关系词,但是学习者很难把握关系词省略的程度,由此可见传统教材并不能使学习者全面的理解并运用外语关系词。通过查阅朗文语料库可以发现,在会话中,关系从句省略关系词的大约占到25%,在外语学术文章中,限制关系性从句中省略关系词的只占10%左右,对会话、小说、新闻、学术文章四个领域进行比较可以发现,这四个领域存在相同的现象。当代词作为关系从句的主语时,省略关系词的关系从句占60%—70%,当名词短语作为关系从句的主语时,保留关系代词的关系从句占80%-95%。通过外语语料库充分了解外语语法现象的分布和频率后,学习者能够更好的理解that的子句和关系词省略用法之间的关系,更深入、更全面、更准确的掌握外语语法知识,提高学习者的外语理解能力和运用能力。

总结:虽然外语语料库在我国的建设和开发还处于刚刚开始的阶段,随着计算机网络技术的不断提升,外语语料库的应用必然会推动我国教育和经济的发展,在建立外语语料库的过程中应该参考和借鉴国外先进的语料库建设经验,这样才能使得外语语料库的资源更丰富,为我国教育事业和经济发展提供帮助。

参考文献:

[1]蒋饰红,李广伟.以语料库建设为目的的大学英语分级教学研究与实践[J].海外英语,2014(04).

[2]叶章勇.英语语料库建设及应用研究态势与反思[J].宁波职业技术学院学报,2014(01).

[3]李昆华.高校英语应用能力考试计算机语料库建设语法分析[J].海外英语,2010(11).

[4]吴文华.关于语料库建设的一些思考[J].林区教学,2010(01).

[5]缪章艳.语料库建设在英语写作教学中的应用[J].考试周刊,2011(67).

语料库研究综述 篇4

目录 一概述

二中国语料库建设的基本情况 三语料库的加工、管理和规范 四语料库在语言研究中的的应用 五参考文献

语料库研究与应用综述

一概述

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:

(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。

(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。

我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。

语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。

下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。

二中国语料库建设的基本情况

90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下面是其中已开始使用并且具有一定代表性的语料库。

(一)现代汉语通用语料库

这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。

这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:

第一类:人文与社会科学类(包括8个次类、30个细类)

1.政法类:哲学政治宗教法律

2.历史类:历史考古民族

3.社会类:社会学心理语言文字教育文艺理论新闻民俗

4.经济类:工业经济农业经济政治经济财贸经济

5.艺术类:音乐美术舞蹈戏剧

6.文学类:小说散文传记报告文学科幻口语

7.军体类:军事体育

8.生活类

第二类:自然科学类(包括6个次类)

1.数理类

2.生化类

3.天文地理类

4.海洋气象类

5.农林类

6.医药卫生类

第三类:综合类(包括6个次类,30多个细类)

1.行政公文类:请示报告批复命令指示布告纪要通知等

2.章程法规类:章程条例细则制度公约办法法律条文等

3.司法文书类:诉讼辩护词控告信委托书等

4.商业文告类:说明广告调查报告经济合同等

5.礼仪辞令类:欢迎词贺电讣告唁电慰问信祝酒词等

6.实用文书类:请假条检讨申请书请愿书等 在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:

1919年– 1925年

5%

1926年– 1949年

15%

1950年– 1965年

25%

1966年– 1976年

5%

1977年以后

50%

在语言材料的门类、语体和来源方面,选材比例是:

人文与社会科学类占59.6%。其中各个次类在本大类中的比例是:

政法

12.7%

历史

8.4%

社会

14.0%

经济

9.8%

艺术

6.7%

文学

44.9%

军体

2.3%

生活

1.4%

自然科学类占17.24%。其中各个次类在本大类中的比例是:

数理

17.2%

生化

19.1%

天文地理

14.1%

海洋气象

9.1%

农林

22.8%

医药卫生

17.7%

综合类占9.36%。其中各个次类在本大类中的比例是:

各类应用文

91.1%

其他

8.9%

报纸类占13.79%。其中各个次类在本大类中的比例是:

全国性报刊

25%

省市报刊

75%

这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。从2001年开始,对2000万字核心语料进行分词和词性标注加工。

(二)《人民日报》标注语料库

《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:

我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)

标注后的形式是:

19980101-05-001-011/m 我国/n 的/u 国有/vn企业/n 改革/v 见/v 成效/n。/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt面向/v 市场/n,/w 积极/ad 调整/v 产品/n 结构/n,/w 加快/v 技术/n 改造/vn和/c 新/a 产品/n 研制/vn步伐/n。/w 图/n 为/v 东方红牌/nz履带/n 拖拉机/n 生产线/n。/w(/w 赵/nr 鹏/nr 摄/Vg)/w

在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。

利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三)用于语言教学和研究的现代汉语语料库

建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。

汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9 所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。再从中抽取了 740人的1731篇语料,共有44218句,1041274字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。

现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。

建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。

在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)。这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:

文类(文档的呈现方式)

报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录 文体(文章的写作方式)

记叙、论说、说明、描写

语式(文档的呈现方式)

书面语、演讲稿、剧本/台辞、口语谈话、会议记录

主题(文章写作的内容)

哲学、科学、社会、艺术、生活、文学

媒体报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、书信、视听媒体、其它

作者姓名、性别、国籍、母语

出版出版单位、出版地、出版日期、版次

不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。

(四)面向语言信息处理的现代汉语语料库

90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。

TH通用语料库系统是清华大学建立的另一个现代汉语语料库。这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。不同等级的语料可以为不同的应用目标服务。第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。

HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。下面分别是语块标注和句法树标注的示例。

对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块:

[D 自/p 古/t 以来/f,/, [S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN和/c 利用/vN,/, [P 设置/v [O 馆库/n、/、[P 选派/v [O 专人/n [P 进行/v [O 管理v。

对句子“我哥哥送给我一本很漂亮的书。”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 给/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 书/n ] ] ] ]。/w ]

(五)用于开发特定语言分析技术的专用语料库

这类语料库是针对汉语信息处理技术的需要专门建立的。例如山西大学的专有名词标注语料库和分词与词性标注语料库。

分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。前者有7.8万字,后者收录了140多条。并且在分词和词性标注语料库里作了这两类切分歧义的标注。利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。

专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。

(六)双语语料库

基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。这就使文本自动对齐成为建立双语语料库的关键技术。

在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。

(七)面向汉语史研究的语料库

面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:生语料库和标记语料库。目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。

多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。目前已经完成了一个小型语料库,包括:敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。

上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于“前四史”语言研究和唐宋诗词语词研究。

目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。

(八)比较语料库

为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(Linguistic Variation in Chinese Speech Communities)。语料来自香港、台湾、北京、上海、澳门及新加坡六地有代表性的中文报纸,以及电子媒介上的新闻报道。自1995年7月开始,每四天一次,收集这六个地区的对等书面语文本,每次约两万字。内容包括新闻、特写、评论等文章。到2003年上半年,已收集了1亿1千多万字、超过56万个词条。计划收集到2005年6月,囊括新旧世纪交接点前后各五年各地华语社区有代表性的重要语言数据,供汉语的各种共时比较研究使用。

在语料的组织和加工方面,这个语料库用计算机自动分词,再经人工校对分类,可以依字、词、句为基础进行检索,提供字、词配搭、分布等数据,有统计功能。语言学家能通过这个语料库考察上述六地出现的新词、词义有所发展或转移的旧词、以及有地方特色的词语,还可以对具体字或词的频率作统计比较,对字词的差别作计量分析。对研究华人社区的文化、社会、语言差异也有作用。这个语料库的一部分已经在网上提供服务。

(九)少数民族语言语料库

新疆大学从2002年起开始建设现代维吾尔语语料库系统,计划包括5个部分:语料库、电子语法信息词典、规则库、统计信息库和检索统计软件包。其中语料库部分又分成生语料库(经初步整理的原始语料)和加工语料库(经过标注和校对的语料)。目前已有生语料800万词。另外,新疆大学也正在以新闻领域的维汉-汉维机器翻译为目标,建设双语平行语料库。内蒙古大学的中世纪蒙古文语料库收集了《元朝秘史》、《黄金史》、《回鹘蒙古文文献集》等历史文献。他们还建立了500万词的现代蒙古语语料库,研究了蒙古文附加成分的自动切分、复合词的自动识别和语料的词性标注,获得了词频统计、音节统计、词类统计、附加成分统计等数据。西北民族大学建立了1亿3千万字节的大型藏文语料库,用于藏文词汇频度和通用度的统计。中国社会科学院民族学与人类学研究所建立了500万藏语字符的藏语语料库,进行词语切分和标注的研究。新疆师范大学也建立了200万词的维吾尔语语料库。

与汉语语料库相比,少数民族语料库的建设还需要解决一些特殊的问题,譬如拼音文字转写的标准和规范,词语分类体系及其标记集等。

语料库语言学 篇5

语料库开发正在向两头快速发展和延伸:一是通用型的、基于网络的超大型语料库开发;二是个性化、专门化、行业化的小型语料库开发。

这两种开发的方向各有其优势,到底哪种开发方向应该占据优势,还是两种发展方向各自为战,又亦或是两者相结合发展,确实也是需要考虑的问题。

B.语料库研究的发展问题。

语料库研究需要更大的发展纵深,要解决如何从描述到解释,以及如何从发现到理论建构等难题。

C.语料库研究方法和视野问题。

语料语言学是集中于实践性研究,偏废理论建构式的研究,还是也需要在理论建构上有所建树?研究的视角仅仅局限于教学和语言习得,还是不断的拓展其研究领域以扩大其影响力?这也是问题。

D.语料库研究应用问题。

语料库研究应用越来越多元化和日常化。

到底如何将语料库的研究成果更加充分的应用起来,应该引起足够的重视。

但目前最大问题可能是只有一小部分语言研究专家掌握语料库研究方法,绝大多数语言教师和语言学习者不了解语料库,不会使用语料库,更不懂如何运用语料库资源进行科学研究。

三、结语

近几年来在计算语言学和语言信息处理领域的学术会议上,语料库的建设和应用一直是重要论题之一。

纵观其讨论的重点主要集中在基于语料库的语言分析方法,以及语料的标注、管理和规范等问题上。

语言学家更多关心的是语料库的规划和建设,语料库方法在语言研究和教学中的应用。

(傅爱平)现阶段,语料库主要用于语言描写,为词典编纂、教材编写、语言教学提供实际语例,帮助语言学家揭示语言的词汇、语法、语义和语用规律。

我们坚信,语料库语言学将会广泛地应用于语言学研究的各个领域,不仅仅为外语教学、词典编纂、教材编写等开辟新的道路,更会在其他不同的更为广泛的应用语言学的领域里大放光彩。

参考文献:

[1]丁信善.语料库语言学的发展及研究现状[J].当代语言学.北京:(1)4-12.

[2]桂诗春.发展我国应用语言学的几点想法[J].语言文字应用.北京:1998(1):11.

[3]何安平.学习者语料库与外语教学[J].国外外语教学,(4).

[4]冯志伟.中国语料库研究的历史与现状[J].汉语语言与计算学报,(1).

新东方托福写作语料库 篇6

Getting advice from friends who are older than you is more valuable than getting advice from friends your same age. 从年长的朋友处得到的建议比从同龄的朋友处得到的建议更加有价值,是否认同?( 年11月1日)

【作家立场】支持年长者的建议比之同龄人的建议更加有价值。

【新东方网薛鹏思路拓展】

语料库建设 篇7

中介语语料库在语言教学和研究中所起的作用日益受到学界的重视。陆俭明(2012)指出,汉语中介语语料库的建设和应用有助于我们客观了解汉语学习者的习得表现和发展过程,有助于揭示学习者汉语学习的规律,是进一步改进汉语教材、革新汉语教学方法、提高汉语教学质量的基础。近年来,汉语中介语语料库建设有了较快发展。为了推进这一发展趋势,促进学界的交流与合作,南京师范大学和北京语言大学先后于2010年和2012年主办了两届汉语中介语语料库建设与应用国际学术讨论会。目前已有多家高校建成了一定规模的汉语中介语语料库(崔希亮、张宝林,2011;肖奚强、张旺熹2011),不但为汉语教学和研究提供了丰富的语料,也为语料库的建设积累了宝贵的经验。不过从目前已建成的语料库来看,基本上都属于共时语料库,即采集的语料为学习者的横向共时语料,相比较而言,纵向追踪语料仍十分缺乏。

长期以来,纵向研究被视为儿童母语习得实证研究的基本工作。在儿童母语习得领域,研究者们很早就开始采用纵向语料来研究儿童的语言发展。Leopold(1939~1949)通过对自己两个女儿习得英语和德语的纵向个案追踪调查,历时10年撰写出版的4卷本著作是采用这一方法的范例。大约30年后,Brown(1973)通过对不同年龄母语学习者的调查完成了一项典型的群案纵向研究。国内很多学者对汉族儿童母语习得的研究也是建立在纵向调查的基础上。例如,上世纪20年代我国著名教育家陈鹤琴对自己的儿子从出生开始进行了长达808天的追踪记录,写成的《儿童心理之研究》是我国儿童早期发展研究的开创之作;李宇明(1995)在对女儿6年半语言发展追踪日记的基础上,撰写的系列研究论文和《儿童语言的发展》一书是汉族儿童母语习得纵向个案研究的范例。除了个案研究以外,也有很多群案的纵向调查。例如,李讷、汤珊笛(Li & Thompson,1977)对17名台湾儿童习得汉语声调过程所做的为期7个月的追踪调查,吴天敏、许政援(1979)对5个婴儿从初生到3岁期间言语发展的追踪记录和研究,等等。为了支持汉族儿童母语习得研究,实现资源共享,目前学界已经建成了一些汉族儿童母语发展语料库,例如,华东师范大学的“汉语儿童语言研究语料库”Doughty & Long(2003:1)所指出的:“(由于)纵向研究极少,大量的二语习得研究是横截面式的,使得在一些重要问题上所得出的结论存在严重的限制。”例如,很多二语习得研究利用学习者早期横截面语料得出了二语形态句法线性发展和固定的习得顺序,但Fillmore(1976)、Huebner(1983)等学者的纵向研究却显示,实际上学习者的早期语言产出很大程度上依赖预制的语言构式,有些句法特征看起来习得了,其实它们仍然不是学习者的句法系统中可分析的部分。因此,只有通过纵向追踪调查才能全面了解学习者由预制的套语到可分析的语言结构、由重复模仿他人话语到自主生成第二语言的习得过程。

在二语习得理论的历史发展过程中,纵向发展语料及追踪研究起了重要作用,Ellis(2008)指出,二语习得的许多理论框架受到了早期纵向个案研究的影响,Van lier(2005)也认为这些纵向的个案研究以相当实质性的方式帮助了整个二语习得领域。由于纵向追踪研究能观察较完整的二语发展过程和发展过程中的一些关键转变点,因此特别适合习得过程研究(王建勤,2009;文秋芳、胡健,2010)。从宏观层面来看,二语习得研究的目标之一是总结第二语言发展模式,关于二语习得模式,长期以来存在线性(linear)和非线性(nonlinear)发展模式之争。线性发展模式认为,学习者的二语水平从零起点到本族语水平的发展是日渐进步、稳步提高的过程。这一假设得到了很多实证研究的支持,包括词汇发展研究、句法复杂性发展研究、写作流利度发展研究等。与此相对,非线性发展模式认为,二语发展并非总是连续上升的过程,学习者的整体语言水平或某些语言特征在某个阶段出现发展停滞甚至倒退并非偶然现象,学习者的进步模式除了线性上升或下降形式以外,也包括N形、V形、Ω形、U形等不同模式(文秋芳、胡健,2010)。以往根据跨层共时语料进行的汉语二语习得顺序和发展过程的研究,基本上都得出汉语二语特征线性渐增的结论,但基于纵向语料的研究会发现一些新的规律。例如,邱野(2012)、冯瑶(2012)等根据南京大学留学生汉语中介语纵向语料库所做的研究发现,汉语二语习得也同时存在U形或者W多波形等非线性发展的特点,尽管学习者在不同发展阶段对不同语言特征的习得总体呈现增长的趋势,但局部存在发展停滞甚至退步的现象。

二语习得是一个动态的发展过程,学习者并非从目的语规则的“零知识”突然跳跃到对规则的完美习得,而是要通过一系列的发展过渡阶段才能到达彼岸(施家炜,2006)。通过纵向追踪调查,对二语学习者获得第二语言能力的渐进过程做出准确的描述,研究贯穿整个学习过程的二语发展步骤和模式,可以帮助我们认识二语习得规律,在规划和实施二语教学活动时,把握二语发展中的关键转变点或临界点。因此,对于研究汉语二语习得过程,既需要截面数据,也需要纵向数据,纵向追踪语料库起着共时语料库难以替代的作用。不同类型的语料库各有其效用,我们需要推动各种类型的汉语中介语语料库的建设与发展。

二 中介语纵向语料的采集

中介语纵向语料的采集首先要考虑采集的时间问题。二语发展纵向研究多长时间比较合适?Ortega & Iberri-Shea(2005)认为受到生物时间和教学时间两种因素的潜在影响。第一,由于被试生理、心理发展条件的变化,二语纵向研究跟生物时间有关;第二,教学机构的学期、学年制是最方便的语料采集和研究时段,从已有研究可知,一个学期、一年和四年时间为很多纵向研究采用。不过如果研究的目标不是整个二语发展过程,而仅仅是某项二语特征的习得过程时,一种常用的方法是选择学习这项语言特征的时间(从发生到掌握)而非学习者的生物时间或者教学单位固定的学期或学年。

纵向语料的另一项基本特征是采集多波数据(multiwave data),因为数据是重复收集的,而且通常至少要收集两次,才能描述随着时间的推移学习者语言发生的变化和增长。因此,数据收集的频率和时间间隔需要仔细考虑。在决定多长时间观察和收集一次数据时,既要考虑到教学单位的时间安排和被试的情况,也要考虑到研究的总时长、样本的大小、研究目标及其精细度等多方面的因素。例如,教学强度大、研究精细度高、发展变化快的被试语料采集的间隔时间就要短一些,反之,则可以长一些。

数据的可比性也是收集纵向语料时需要仔细考虑的重要问题。Gass & Mackey(2011)指出,第二语言数据收集方法主要有两种:一种通过观察、录音、录像的方式获得自然数据(Naturalistic Data),另一种是通过问卷的方式获得诱导产出数据(Promoted Production Data)。如果采用不同的任务和话题诱导产出数据,在分析某项语言特征的纵向发展变化时,有时很难分清变化究竟是由时间因素引起的,还是由不同的话题或任务因素引起的。因此,在每次数据收集时应尽可能保持相似的程序和内容,从逻辑上讲,这样做可以最大程度地减少其他因素的影响。然而,从另一个角度来看,这也并不能保证不会产生新的问题。例如,如果研究者在较长一段时间内的语料采集精确重复同样的任务和话题,一方面前面相同的任务和话题势必会影响到后面的话语产出,另一方面多次重复相同的任务可能减弱被试的兴趣,甚至造成被试消极应对,因而严重影响到数据的有效性。鉴于以上因素,目前收集纵向语料比较常用的做法是,采集被试自然环境下的产出语料,或者使用循环而非重复的任务导出学习者的语料。

高质量的二语习得研究依赖于高质量的语料。Myles(2008)认为高质量的语料库具有以下四个特点:口语的、纵向的、包含着足够的学习者、代表了广泛的母语—目标语配对。首先,口语语料能更好地代表学习者语言产出体现的语言系统,由于受到在线言语产出的压力,与书面表达受到较多监控处理特征相比,口头表达相对来说更能反映学习者的语言能力。其次,要真正研究学习者的语言发展变化,纵向语料比跨层语料更加适合。再次,要概括学习者的语言发展规律,需要有足够的学习者作为研究对象。最后,由于语言类型上的差异,如果要了解语言迁移的作用,调查学习同一目标语的不同母语学习者非常重要。

在上述理论的指导下,我们在南京大学建设了两个小规模的汉语中介语纵向语料库:“外国留学生汉语口语纵向语料库”和 “美国学生汉语作文纵向语料库”。

外国留学生汉语口语纵向语料库收集了100多位外国学生共计约400个小时的口语发展语料,其中包括90多位学生期初、期中和期末口头报告录音录像,期初和期末OPI口语考试录音,讨论课录音等以学期为单位的低密度纵向跟踪音频和视频语料共约200个小时,还有对10名外国学生为期半年到1年的自然谈话高密度跟踪录音共约200个小时。目前已转写了其中6人大约140个小时的录音,共约150万字的语料。自然谈话语料的采集,我们采用每人每1~2周1次、每次1个小时的面谈方式,由调查者跟学生进行一对一面谈。面谈内容参照美国外语教学学会OPI模式自然进行,主要围绕被试的个人经历,从日常生活、近期所见所闻及所感所想谈起,逐渐过渡到对一般性社会话题再到各种抽象话题的讨论。谈话过程全程录音。目前,我们正在进一步扩大外国留学生汉语口语纵向语料库中自然谈话语料的规模,计划把其中的自然谈话追踪语料建成一组取样更为平衡的数据。为此,我们制定了语料补充采集计划,即在已采集语料的基础上,最终达到下述均衡要求:为期一年的纵向跟踪访谈对象12名,初级零起点的新生和中、高年级分别已学了一年与两年汉语的外国学生各4人,在每个水平等级的4名学生中,来自欧美的学生和其他地区的学生各2名。

美国学生汉语作文纵向语料库是单一国别的留学生作文语料库,收集了90多位美国学生为期一个学期到一年的60多万字的作文发展语料,包括课堂限时作文和课后不限时作文,既有必须选择给定语言点的限制性写作,也有无指定语言点的自由写作。平均每位学生的作文10篇。我们根据学习者的语言水平把语料划分为三级:初级、中级和高级。初级学习者相当于在中国大学学完半年到一年汉语的留学生,中级学习者相当于在中国学完一年到两年汉语的学生,高级学习者相当于在中国学完两年以上汉语的学生。作为发展语料,我们按照写作的先后顺序对每一篇作文语料进行了编号,并根据语言水平分级存放。

三 汉语中介语纵向发展的分析方法

语料库的建设往往跟一定的研究目的和语料分析方法紧密相关,如何对语料进行分析,不仅直接决定语料采集的内容和方式,也会影响到后续的整理、标注和检索。早期的汉语中介语语料库以偏误分析为研究目标,因此,除了能提供少量的“基础标注”(张宝林,2010)信息以外,主要提供的是偏误信息。虽然这些偏误信息可以很好地用于偏误分析和研究,但要想进行更加全面的“表现分析”(刘珣,2000),偏误语料库提供的信息则明显不足。因此,如何进行中介语的表现分析以及如何对相关信息进行标注是汉语中介语语料库建设需要解决的重要问题。

目前,汉语二语习得表现分析研究的维度仍然比较单一,通常只限于语言表现的正误层面。例如,对于汉语二语习得过程研究,目前最常用的方法仍是对学习者使用特定语法项目的正误频率进行统计分析,从而推断出不同语言项目的习得次序(acquisition order)或某个语言项目的发展过程(developmental sequence)。又如趋向补语的习得顺序、“把”字句的习得过程等。这种聚焦于中介语在准确性单个维度上的发展分析方法,我们称之为分立式测度法。虽然这一方法简明易控、操作性强,能够较好地描述中介语在准确性方面的状态和发展变化,不过却存在测量指标单一、难以揭示中介语的全貌及在不同维度上的动态发展轨迹等问题。

根据国外学者的研究(例如,Wolfe-Quintero et al.,1998等),测量学习者语言发展的综合表现通常包括三个维度:复杂性(complexity)、准确性(accuracy)和流利性(fluency),简称为“三性分析”(CAF analysis)。“三性分析”是对语言表现进行多维度综合测量的方法,我们称之为“综合式测度法”。“三性分析”最早来源于对儿童母语成熟度的测量手段研究(Hunt,1970),后来Skehan(1989)提出把它用于测量二语学习者的语言表现。不过直到上世纪90年代中后期,才发展出一套针对二语学习者在不同任务条件下的语言表现进行测量和分析的比较完整的测度指标,并形成了相对可靠实用的操作框架(参见Skehan & Foster,1997;Skehan,1998;Wolfe-Quintero et al.,1998;Ellis & Barkhuizen,2005;Ellis,2008; Housen et al.,2012等)。近年来,一些学者就如何完善以“三性分析”为核心的综合式测度法提出了新的建议,Skehan(2009)认为应该把对词汇使用的测量补充进“三性分析”,文秋芳、胡健(2010)则提出在“三性”的基础上,需增加一项多样性,与复杂性、准确性和流利性一起作为“四性分析”。在传统的“三性分析”中,多样性属于复杂性的一部分,从纯学理的角度来看,这样的归类不无道理,不过在这种分析框架中复杂性承载的内容太多,范畴不够显豁,从有利于测量的角度考虑,笔者赞成把多样性从复杂性中分离出来,单独作为一个测量的维度,这样新的语言表现分析框架就是由准确性、流利性、复杂性和多样性四个维度组成的综合测度指标系统。

在汉语二语习得研究中,有部分学者采用综合式测度法对汉语中介语表现进行过探索性研究。例如,施家炜(2002)采用“平均句长”“平均停顿次数”和“正确使用频次”三个量化指标对一名韩国学生汉语句式的发展过程进行了追踪研究;靳洪刚(2007)认为汉语作为一种“主题突出语言”,在语法和篇章结构上跟印欧语言存在明显差异,提出以话题链代替T单位作为汉语结构成熟度测量指标的设想;袁芳远(Yuan,2009)对二语习得研究中流利度、准确度、复杂度三方面的指标研究进行了回顾,提出在汉语二语习得研究中也可以采用一套综合测度指标;曹贤文、邓素娟(2012)从流利性、准确性、复杂性和多样性四个维度以及汉字、词语、语法等多个层面,对中越两国学生的书面语言表现进行了测量。这些研究具有一定的开拓价值,为我们采用综合测度指标分析汉语中介语表现打下了一定的基础。

我们认为,汉语中介语系统的纵向发展是一个使用准确度、表达流利度、结构复杂度和类型变化度等多维语言能力协同发展的过程,一个熟练的说话者能够采用复杂的结构、丰富的词汇和格式、准确流利地运用语言。因此,在建设新的汉语中介语纵向发展语料库时,需要从以上角度考虑如何采集语料,如何标注和提取中介语综合表现信息,突破以往只能从中介语语料库中检索偏误信息的模式,为研究汉语中介语系统提供比较全面的综合语言表现信息,以便全面地测量汉语中介语的动态发展轨迹。

四 语料的转写、标注和相关工作

在建立口语语料库时,口语语料的文本转写比较费时费力,我们曾尝试用电脑软件把汉语中介语录音自动转写成文字,但效果不佳,经比较,还是人工转写更好。在人工转写文本时,我们一开始是音档和文档各开一个窗口,但听、写过程中窗口频繁转换非常麻烦。后来找到一款辅助转写录音的软件:SitMan PC 复读机,这款软件把语音和文本融合在一个界面上,可边听边写,而且具有完备的复读复听功能,使用起来很便捷,大大提高了转写的效率。在转写时,如何处理语音错误,涉及到转写文本的真实性和质量,我们的处理办法是:

(1)如果是口误,如把“学习”说成“学校”,或是心理词汇记忆错误,如把“舞厅”说成“跳厅”,或是类推错误,如把“牲口”说成了“动物口”,都按照学生的实际录音语料转写成文字。

(2)如果只是发音不到位,不影响听辨和交际的发音问题,暂不考虑,直接转写成相对应的文字(具体发音错误留到语料发音标注时再处理)。

(3)在听不清学生到底说的是什么时,用相似的拼音或者音标符号标出。学生说了英语词或者其他母语词,就直接转录成英语或者相应的母语,如果听不懂学生的母语或外语词,也用拼音或音标符号标出。

当说话者的一个话轮结束后,我们在句末标上结束的时间,例如3’22”,表示这段话是在录音文档的第3分22秒处结束的,以便于今后的语料库中流利性信息的提取。

作文语料的整理相对容易一些,我们收集到的外国学生汉语作文原始文本包括两类:一部分原始材料本来就是电脑输入的电子文本(学生交作业时直接把电子稿寄到教师邮箱中或者上传到专用教学网络平台上),另一部分原始材料是手写的纸质文本。对于电子文本,直接保存并编号;对于手写的纸质文本, 根据真实性原则统一录入电子文本,在文本转写过程中,碰到别字和非汉字词语,原文照录,碰到缺笔少画、多笔多画、错笔错画的错字,则用“*”代替,并在后面的括号中标出正确的字。

如前所述,标注的信息取决于今后的研究目的和提取信息等方面的要求。由于涉及到中介语在准确性、流利性、复杂性和多样性等多个维度以及汉语字、词、句、篇等不同层面的“语言表现”指标非常多,如果语料库中对所有这些指标都进行标注,实际操作中并不可行。另外,一些指标的分析并不需要专门的人工标注,只要设计软件或利用已有软件就可以进行自动统计和测量。因此,首先要对“语言表现”的测度指标进行合理的筛选,把不需要专门标注的测度指标与其他测度指标分开。例如,涉及到字和词的种数与例数在流利性、复杂性和多样性等方面的各种测量指标基本上都可以用已有软件工具解决,不需要专门进行标注。其次,要区分通用简洁型语料库和专用复杂型语料库在语料标注时对测度指标的不同要求。通用简洁型语料库只需要从准确性、流利性、复杂性和多样性每一类测度指标中选取最有代表性的一两种进行标注即可;而专用复杂型语料库则需要围绕特殊的研究目的,从准确性、流利性、复杂性和多样性每一类测度指标中选取多项指标对语料进行标注。再次,口语语料与笔语语料的测度指标与标注内容既有共同之处,也存在差别。有些测度指标只适用于口语的测量,如与发音准确度和口语表达流利度相关的测度指标等;另外也有一些测度指标只适用于笔语的测量, 如与汉字准确度、复杂度和多样度相关的测度指标等。

就中介语“语言表现”的综合标注来说,目前可选的方案主要有两种,一种是借鉴“基础标注+偏误标注”模式,在偏误标注基本不变的情况下,把其他综合指标参数纳入“基础标注”部分。另一种模式是按照准确性、流利性、复杂性和多样性四个维度分为四个子系统对共核语料分别进行标注,然后合成一个精加工的熟语料库。经过对小规模样本的标注实践和分析,我们认为前一种方式简明实用,可以满足建设通用简洁型纵向语料库的需要,而后一种标注方式更符合专用复杂型纵向语料库的需要。南京大学“汉语中介语纵向语料库”为通用简洁型语料库,我们借鉴了北京语言大学 “HSK动态作文语料库”的偏误标注形式③,同时增加基础标注的内容,例如,增加了话题链作为复杂性标注信息,不当停顿(大于1秒)和自我修正(重复、错误话头、重组等)作为流利性标注信息,“把”字句、被动句等常用的语法格式作为准确性和多样性的标注信息,从准确性、流利性、复杂性和多样性四个维度对语料进行了简洁性标注。

语料库建设 篇8

关键词:语料库;大学英语四、六级;大学英语教学

一、语料库理论和基于语料库的语言研究

现代语料库是真实语言电子文本的数据库。一方面,使用者可以通过检索程序从语料库中提取所有包含关键词或结构的语句,进行结构对比和词语分析,归纳语言现象。另一方面,使用者也可以通过语料库的建立,对于电子文本进行分类。电子语料库的出现为语言研究和教学提供了极为方便的工具。

基于语料库进行语言学和语言教学的研究变得越来越重要。一方面,这是因为语料库分析能够应用在语言学或是语言教学的各个分支中。另一方面,语料库的数据是基于它的自然性,即把使用者对语言的直觉运用大量积累在一起。因此,使得基于语料库的分析更加客观。近20年来,语料库已经对语言学研究和著作产生了巨大的影响。Hunston 在5个主要方面总结了语料库带给字典及一些参考书籍的改变:词频、词的搭配与措辞、变异、语法中的词汇和语言真实性。除此之外,语料库已经被广泛应用在语言学的所有方向中,例如,词典编辑及词汇学研究、语法学、语言变迁学、比较文学和翻译学研究、语义学、语用学、文体学、社会语言学、语篇分析和语言教育学等。

二、语料库对外语教学的影响

在语言教学中,语料库一个简单而又重要的作用就是为语言使用提供真实例子。此外,语料库所提供的数据,例如词频数据,可以影响甚至是改变教学的内容。Mindt通过研究指出,没有基于语料库数据的课程设计的一大问题是其教学内容所要求掌握语言知识的顺序经常不符合语料库中的真实英语口语和书面语所要求的顺序。因此,他认为教学的课程设计不应以对用法频率传统的和直觉的理解来作为导向,而是应当基于经验证据进行考量。Hunston则认为语料库的使用引出了完全不同的课程设计理念。她在研究中讨论的是“词汇课程”。这种课程最初是由Sinclair 和Renouf在1988年提出并由Willis完成了全面的概述。根据Sinclair和Renouf的理论, 词汇课程的重点集中在3方面:1.语言中单词的最基本形式;2.重点用法;3.单词和用法的结合。Sinclair 及其同事关于词汇课程的建议得到了Lewis的响应。Lewis的多部著作都有力地支持了语言教学中词汇教学法的理论。一些人因字面上的理解,把“词汇课程”曲解成仅由单词组成。事实上Hunston强调词汇课程涵盖了语言的所有方面,跟传统的只以单词教学作为核心教学思想的课程完全不同。而利用语料库这一工具进行的课程设计和教材研发恰能充分满足词汇教学法的教学目的。正如Murison-Bowie所评述的那样:“在教学背景下使用语料库,通常会使人难以区分哪些是词汇研究而哪些是句法研究。两者一个导致另一个的发生。这也正是语料库可以被利用在教和学背景下的优势。”

三、大学英语四、六级语料库建设的研究

大学英语四、六级考试是考察大学本科生英语水平的权威英语测试,并对大学英语本科教育有着重要的指引作用。在大学英语四、六级考试中,阅读部分占有最重要的比重。在四、六级考试改革后,更加侧重考察大学生的阅读应用能力,也成为学生们应试的难点。一方面,用于教学的阅读材料种类单一,阅读材料匮乏的问题突出。教师掌握着丰富的阅读材料,尤其是生动有趣更贴近真实语言的英文原版资源。但这些资源难以成为提高学生阅读能力的工具,因为这些资源数量不具规模,难度参差不齐,不能明确分类定性用于四、六级阅读的培训。另一方面,市场上充斥着良莠不齐的模拟题集,学生缺少便捷而科学的自学资源。

目标:

(1)结合网络和人工的方法,建立大学英语四、六级词汇电子文本语料库。

(2)根据阅读材料难度的标准,建立大学英语四、六级阅读材料的计算机自动分级系统。

(3)建立阅读材料自动出题和测验系统,有力地支持教师对学生的考察和学生的自测。支持对于词汇的按难度级别分类标记功能。

方法:

(1)研究大学英语四、六级考试阅读部分的特点和词汇难度,确定阅读材料的难度级别。

收集历年大学英语四、六级真题,《大学英语四、六级大纲》中词汇分级的标准对阅读材料中的词汇进行标注并分级。

(2)研究和应用文本的自动分类技术,支持自动分级系统的建立。

文本分类技术可以分为文本表示、特征项抽取和训练方法与分类算法等3项关键技术。本研究利用现有的分类技术,研究和确立了适用于英语四、六级阅读材料分类的文本分类类别体系,定义各种难度级别,并将相关的阅读材料划分到对应的难度级别中。这样可以定义和建立根据难度准确划分的分级阅读材料的文本分类训练语料库,在此基础上建立自动分级系统。

(3)研究自动标注技术,支持对文章中词汇的自动分级标注。

对词汇的自动分级标注技术主要包括词汇的检索和词汇的标注两部分内容。词汇的检索主要依赖于对于文本中字符串的自动检索技术。该技术在信息检索领域已近非常成熟,我们利用现有的技术支持对词汇的自动检索。词汇的自动分级标注主要依赖于英文四、六级词汇语料库的建立,基于语料库中对于每个词汇的难度定义,对于阅读文献中的所有词汇进行难度划分。

(4)研究信息检索技术,支持对于词汇的自动检索。

对于特定词汇的检索,主要依赖于信息检索模型的建立和应用。本研究采用了比较成熟的基于向量空间的信息检索模型,对于语料库中的所有词汇建模,形成可以根据词汇查询的自动检索系统。

研究结果:

本研究通过网络和人工两种方式,对于大学英语四、六级词汇进行收集和整理,建立完整准确的大学英语四、六级词汇电子文本语料库;利用历年四、六级考试的阅读真题作为基准语料库,结合文本自动分类算法,建立阅读材料自动难度分级系统,利用计算机自动地将新的英文原版资源按难度进行分级。通过对词汇和阅读材料语料库的应用,建立阅读材料自动出题和测验系统,教师和学生可以自行选择各种难度的阅读文章,文章中的词汇根据难度的不同被分级标记,这样可以方便地找到所需着重学习的词汇;系统可以自动地组成若干难度符合需要的阅读材料,方便对于学生阅读能力的考察。

基于本语料库的检索结果样本

to what is going to affect it. That should

or coastline and will affect the local ecology.

such a drug it may affect the result of your

how terribly it would affect her life. She left

and activities can affect the environment. But

How will if affect me and my baby?

and their like can affect individual lives is,

decisions which affect their lives and

语料库的出现的确为英语教学铺设了新的研究道路。目前,越来越多的语言学家和英语教学工作者正在利用各种各样的语料库进行方方面面的语言教学研究。

在国内,关于英语教育,还存在着很多误区和有待解决的问题。例如,大学英语四、六级考试是我国高等教育最重要的大规模、标准化外语考试,对促进我国大学生整体外语水平的提高发挥了重要作用。同时,这项考试对于国家、社会各类用人单位公正、科学地评估大学生外语水平,合理选拔、录用人才,也发挥了积极的作用。因此,我们的语料库语言学研究也应理论联系实际,注重研究考试语料库的开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大的大规模外语考试的试题语料库。总之,在利用各种已存在的语料库的同时,教育工作者也应尝试建立能够满足自己教学需求的语料库。

基金项目:本文受哈尔滨理工大学校级科研课题P20070021资助。

上一篇:实用入党文章下一篇:形容桂花外形的比喻句