旅游语料库(精选4篇)
旅游语料库 篇1
“外宣”是指“借助现代化传播媒介或者其他宣传手段, 客观、真实地向远距离的或来华的外国人和华侨、外籍华人、港澳台同胞介绍旨在反映社会主义新中国的对外政策、经济文化、建设成就, 争取世界人民的了解、信任和支持, 改变他们对我国的思维定势, 在海外树立起我国良好的国际形象”。[1]
山东是儒家思想的发祥地, 有着五千年文化与艺术的积淀, 物质文化遗产与自然景观丰富。随着改革开放与旅游经济的迅猛发展, 山东引起了越来越多国际友人的关注, 做好外宣工作在这其中显得尤为重要。然而通过对山东多家旅游机构及景点翻译资料的实际调查, 笔者发现目前外宣资料的翻译良莠不齐, 甚至有些译文存在用词不规范、语句不完整、语序混乱等诸多错误。计算机辅助翻译的核心是重复利用历史语料。在翻译过程中, 系统结合辅助翻译术语库, 在极短的时间里自动为译者显示出词义。据统计, 使用辅助软件翻译效率平均提升30%, 同时可减少15-25%的成本开支, 大大提高了翻译效率与质量。因此, 建立一个网络共享的旅游外宣小型语料库是提高外宣翻译效率与质量的有效手段。[2]
1 山东旅游外宣资料小型语料库建设的必要性
山东旅游具有自然景观与人文历史并重的特色, 例如, 五岳之尊泰山、人间仙境蓬莱阁;同时各地市保存着许多非物质文化遗产, 例如, 黄河号子、山东梆子。首先, 儒家思想在山东物质与非物质文化遗产中都占有举足轻重的地位, 对古汉语文体的翻译要求较高, 并且翻译难度较大。例如, 在“三孔”文化景点的宣传中, 孔子思想贯穿其中, 对于《论语》中经典语句的翻译应取统一标准再做宣传。其次, 外宣资料翻译过程中会经常遇到专有名词的翻译。这些专有名词不单单包括各个旅游景点及非物质文化遗产的名称, 还包括青岛啤酒、海尔冰箱等在世界享有盛誉的企业名称。再次, 汉英两种语言差别很大, 汉语词一般对应着多个英语词, 英语单词也往往对应着多个汉语译文, 如果择词不当, 则难以体现汉语的韵味。例如, 在泰山旭日东升、云海玉盘、晚霞夕照、黄河金带等十大自然奇观及石坞松涛、对松绝奇、桃园精舍、灵岩胜景等十大自然景观的翻译过程中, 针对四字词语的翻译难度较大, 既要尽量传达原语韵味, 又要尊重英语的特点。
平行语料是不同语言撰写、相互间具有“翻译关系”的文本, 从平行语料中获取双语知识, 须对其进行必要的加工:在不同层次上对平行语料做对齐处理, 从而形成互为译文的翻译单位, 如段落、句子、词汇、特殊表达方式等等。对齐后的平行语料应用范围广泛, 包括机器辅助翻译、双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等等。双语平行语料库是一项重要的语言资源, 正在发挥越来越重要的作用。[3]
当今社会科学技术飞速发展, 我们所需处理的信息知识总量越来越大, 对翻译服务的要求也越来越高。据《2007年中国地区译员生存状况调查报告》数据显示, 翻译市场年产值迅速攀升, 2003年为110亿元, 2005年为200亿元, 2007年则达到300亿元。[4]翻译进入高需求时代, 提供高效快捷优质的翻译服务成为译员需要迫切完成的任务。山东旅游外宣小型语料库可以为译者提供可靠的翻译参考, 提高其译文质量。当译者遇见一些专有名词或带有浓郁古汉语特色的词汇时, 可以通过查询工具从语料库中直接找到对应或相似语句和词汇作为参考, 从而提高翻译的效率与质量, 为译员应对翻译需求提供助益。
2 山东旅游外宣小型语料库建设的过程
1) 语料搜集与汇总。语料的搜集是构建语料库的最基本步骤。笔者与其他译员分组在网络、书刊、旅游景点宣传手册中进行资料搜集。在搜集过程中, 尤其注重原文及译文的权威性与用词精准性。并将政治、经济、文化等语料标明来源后分档存储。
2) 语料选取与整理。语料选取与整理是语料库构建的必要步骤。在语料汇总之后, 笔者及其他译员成立专门的英译质量审定小组, 以忠实通顺为原则, 统一选取译文质量高且具备代表性的汉英语料, 在选择的过程中, 尤其重视语料来源的官方性以及权威性。例如, 在选择与泰山景点相关的语料时, 译者重点参考了山东省旅游局认可的泰山双语宣传资料。同时, 将所选取的材料进行格式整理, 统一以文本文档的格式存储, 以方便日后对齐与校对工作的进行。
3) 语料文本对齐。语料库文本对齐是构建语料库的核心步骤。由于英语与汉语语言特点不同, 译员在翻译时运用了拆分、合译等多种翻译技巧。双语平行语料库对齐方法研究主要基于三种方法:一是基于统计的方法, 即通过双语对译句/词的同现概率, 建立句子/词汇对齐的统计模型, 用来判断句子/词的对译关系;二是基于词汇/词典的方法;三是把统计手段和词汇/词典结合起来。[5]在文本对齐的过程中, 主要利用TRADOS中的WinAlign程序进行文本对齐。WinAlign是一种交互的可视排列工具。它通过现有翻译的文档创建翻译记忆数据, 并将之导入到TRADOS翻译工作平台 (Translator’s Workbench) 。这意味着有价值的遗留文件可以重新利用, 从而使你的效率和生产率达到最高。WinAlign确定原文和译文语言的哪部分合成整体, 将之并行排列。原文和经过推敲的译文应存储为Word文档的RTF (Rich Text Format) 格式, 其优点之一就是文件的格式信息不会丢失或破坏。RTF格式用在WinAlign中, 就是通过对这些格式的识别, 进行句料之间的对齐。
4) 语料检索与应用。语料对齐并导出后, 可以导入Trados翻译记忆库, 在word环境下进行翻译实践或相关搜索。进行翻译实践, 需要启动Translator’s Workbench, 并打开翻译记忆库, 点击word文档的“打开/获取”等相关功能键, 即可显示完全匹配或模糊匹配的句子。
如果关于一句话Translator’s Workbench没有显示任何匹配, 在这种情况下, 可以用相关搜索功能 (Concordance) , 根据单词、短语或句子的片断来搜索记忆库中的翻译记忆单元。该功能可以在翻译过程从Workbench工具栏上使用。
除将语料用于翻译实践之外, 还可以用于教学研究的目的。采用相关软件进行语料检索, 可用常用的文本分析和索引软件。“它是一种综合工具, 既能够用于文本的分析和处理, 也能够用来生成词表、词频表、索引、词语搭配和各种统计数据, 可以方便地查看关键字的上下文。”[6], 有助于揭示旅游文本的文体特征, 引导译者在翻译过程中做出恰当的决策, 对于译者教育也有重要的意义。相关的免费软件有ConcordanceAntconc等。
语料库建成后, 在使用中可以不断加入新材料, 充实语料库的内容, 更好地为译员翻译工作提供参考, 进一步提高外宣翻译的质量。
3 山东旅游外宣小型语料库的应用和价值
山东旅游外宣小型语料库可以为译者提供高质量的翻译参考, 有效地提高翻译质量及翻译效率, 在翻译实践中起着重要作用。
下面以青岛主要景点为例:
栈桥:是青岛标志性建筑, 始建于1892年, 栈桥身长440米, 桥面宽8米, 被誉为青岛十景之一。
小青岛:又称“琴岛”。位于青岛湾栈桥东南, 为海中一小岛。面积约1.2万平方米, 海拔17米。岛上山石俊秀, 林木青翠。
小鱼山公园:位于第一海水浴场之阴, 海拔60米。公园建于1985年, 中国古典风格, 建筑面积800平方米。建筑设计围绕“海”的主题, 处处显示“鱼”山之特色。海滨名胜尽收眼底。1992年被青岛市民和游客评选为青岛市大景观之一。
崂山:位于青岛市东部的崂山区, 距市中心40公里, 它东、南两面濒临黄海, 总面积446平方公里。海岸线长87.3公里, 主峰“巨峰”海拔1133米。崂山是中国著名的道教名山, 鼎盛时期有“九宫八观七十二庵”, 使崂山成为道教全真天下第二丛林。[7]
原文主要介绍青岛市四个具有代表性的主要景点, 写作手法虚实结合。在翻译过程中, 这为译员带来很大困难。若选择质量高且具有权威性的译文输入语料库, 那译员在翻译相关材料时, 将关键字输入检索, 即可获得参考性很大的译文, 如:
Zhanqiao pier:
Landmark structure in Qingdao, build in 1892.One of the city’s ten major scenic spots, the 440-meter-long, 8-meter-wide pier juts out into the Yellow Sea.
Xiaoqingdao:
Also known as Qingdao, the small island covers an area of12, 000 square meters, standing 17 meters above sea level.The island is covered in beautiful rocks, hills and woods.
Little Yushan park:
Another of Qingdao’s ten major scenic spots, this Chinesestyle park, constructured in 1985, is an excellent place to enjoy the sea view.
Laoshan Mountain:
Situated in the Laoshan District, 40 kilometers from the city center, this is the most famous Taoist mountain in China.It faces the Yellow Sea to the east and south, covering an area of 446square kilometers with a coastal line of 87.3 kilometers.Its main peak is 1133 meters above sea level.[7]
以“小青岛”为例, 原文以写实为主, 仅在结尾“山石俊秀, 林木青翠”处略有虚写。译文以beautiful一词统“俊秀”和“青翠”, 语言朴素实在。同时, 当译者翻译到“九宫八观七十二庵”及“道教全真天下第二丛林”等处时, 只需输入关键字, 即可获得上文中相应的译文作为参考, 译者根据行文的实际情况做出调整, 从而大大提高翻译速度和质量。
古汉语以及四字成语的翻译一直是翻译中的难点, 不单是汉语言韵味难以传达, 如何在正确表达原文意思的基础上翻译出更地道的译文, 一直是译员努力的方向。在翻译山东外宣资料时, 不可避免的会遇到很多以儒家思想为中心的古代汉语以及四字成语。而对这些资料的翻译版本更是五花八门, 比如《论语》中“知之为知之, 不知为不知, 是知也。”“季氏八佾舞于庭, 是可忍, 孰不可忍也。”“小人闲居为不善, 无所不至, 见君子而后厌然, 掩其不善, 而著其善, 人之视己, 如见其肺肝然, 则何益矣?此谓诚于中, 形于外, 故君子必慎其独也。”等句子的翻译。这个小型语料库中的翻译实例可以为译员提供权威的参考。译员在此基础上结合实际情况斟酌思考, 不仅能获得高质量的译文, 并且更具有统一性。
旅游外宣资料小型语料库可应用于教学, 培养更为优秀的翻译人才。语料库同传统翻译教材不同, 是可以不断添加新材料进去的。在教师的正确指导下, 学生在翻译实践过程中, 一方面利用检索功能找到参考性较高的翻译译文, 提高翻译技能。另一方面, 激发学生研究性学习以及自主学习的潜能, 获得更多新的语料添加入库, 使语料库不断扩大, 发挥更好的作用, 形成良性循环。
4 结束语
综合上述, 旅游外宣小型语料库可使译员避免了多数繁琐工作, 节省了大量时间和精力。同时, 语料库可以将这些比较权威准确的专有名词、术语加以推广, 使山东外宣翻译更加规范有效。随着山东旅游经济的蓬勃发展, 对外宣工作的研究会越来越深入, 外宣语料库在引起越来越多的关注的同时会为外宣工作提供越来越好的服务。
参考文献
[1]黄泽存.新时期对外宣传论稿[M].北京:五洲传播出版社, 2002:124.
[2]李毅鹏.翻译活动的革命——电脑辅助翻译[J].佳木斯教育学院学报, 2010 (5) :182.
[3]柏晓静.面向中文学术专著的机器辅助翻译研究[J].中国翻译, 2006, 27 (2) .
[4]中科院科技翻译协会与传神公司.2007中国地区译员生存状况调查报告[EB/OL].[2007-10-09].
[5]黄俊红, 范云, 黄萍.双语平行语料库对齐技术述评[J].外语电化教学, 2007 (6) :21-25.
[6]王天润.浅谈翻译教学小型语料库的构建[J].内江科技, 2009 (11) :163.
[7]陈宏薇, 李亚丹.新编汉英翻译教程[M].上海:上海外语教育出版社, 2010:188.
旅游语料库 篇2
公示语翻译是一个国家对外交流水平和人文环境的具体体现。因此其翻译质量将会响到游客的旅游线路、兴致、感受及印象, 进而间接影响我国旅游业的发展。因此, 对旅游景区公示语的特点和翻译策略进行探讨具有很强的现实意义。
公示语就是公开和面对公众, 告示、指示、提示、显示、警示、标示与其生活、生产、生命、生态休戚相关的文字及图形信息。凡公示给公众、旅游者、海外宾客、驻华外籍人士、在外旅游经商的中国公民等, 涉及衣、食、住、行、游、娱、购行为与需求的基本公示文字信息内容都在公示语的研究范畴之内[1:2007]。该文主要围绕无锡市4A级和5A级旅游景区的公示语翻译展开研究, 旨在研究公示语文字信息内容, 主要包括导游图、票价、景点解说、景区设施说明等景区内公示语的翻译。
近几年来, 国内学术界逐渐开始关注旅游景区公示语, , 对此展开了一系列的研究。通过梳理国内在景区公示语研究方面的研究成果, 我们可以归纳出我国目前景区公示语研究主要呈现以下特征:研究成果总量不多, 但呈现逐年增长的趋势;高质量的研究成果太少, 在公开发表的51篇相关论文中, 只有一篇发表在核心期刊上;愈来愈多的学者尝试借用相关翻译理论分析研究景区公示语翻译, 其中目的论功能翻译理论做受欢迎;大多数研究采用了定量与定性相结合的研究方法, 但研究样本总体偏小;研究方法大多以零星调查和个人主观感受为主, 缺少研究方法上的突破。北京第二外国语学院于2008年建成的全国公示语翻译语料库让学术界看到了语料库语言学方法在景区公示语研究方面的应用价值, 为国内相关研究开启了新的视角。但遗憾的是, 该语料库目前一直处于瘫痪状态, 未能有效的发挥其应有的应用价值。而同样遗憾的是, 国内景区公示语研究方面的学者对语料库方法并不是很感兴趣, 在公开发表的相关论文中, 通过语料库语言学途径对景区公示语展开研究尚属凤毛麟角。有鉴于此, 该文试图在此方面进行一些尝试, 采用语料库语言学的研究方法对无锡各大旅游景区的公示语翻译展开研究。
2 语料库的创建
2.1 语料收集
本文的研究对象主要为无锡市4A级和5A级旅游景区的导游图、票价、景点解说、景区设施说明等景区内公示语的翻译, 所以语料的收集过程比较繁琐。作者首先深入到各大景区拍摄了近200张相关公示语翻译的图片, 然后通过汉王OCR图片识别软件将图片信息转换成Word文档, 辅助以人工校对, 再转换为文本文档, 从而构成无锡旅游景区公示语英汉平行语料库 (以下简称为WXTEC) 的语料来源, 该库共包含680个句对。
2.2 语料的整理、标注和对齐
在语料文本的整理过程中, 作者使用了一款叫做“文本整理器”的免费软件, 该软件作者署名为“风林”。界面友好直观, 操作简单。可单个处理文本, 也可批量处理文本[2:33-34]。
本研究的标注首先采用词性赋码。通过CLAWS词性赋码器, 我们对英文文本进行了词性标注, 该软件是兰卡斯特大学计算机语料库研究中心研制开发的, 赋码准确率一直维持在96%~97%之间。另外, 为了便于对公示语英译策略展开研究, 我们在句子层面上对无锡市旅游景区公示语语料库中的680个句对进行了翻译策略标注。
鉴于研究目的, 本研究要求英汉语料实现句子层面上的对齐, 但由于语料本身的特点, 中英语料实现自动句子对齐错误太多, 所以本语料库的语料对齐主要采用人工对齐方式。
3 数据统计与分析
3.1 基本数据统计与分析
以普通英语语料库FLOB作为参照语料库, 通过语料库软件Wordsmith 5.0, 我们可以得到以下关于两个语料库的基本数据。
类符/形符比在一定程度上反映了文本用词的变化性。但是当文本容量达到一定程度时, 两者的比率无法反映用词的变化性。因此我们需要采用标准化类符形符比来反映用词的变化性。从表1的标准化类符/形符比来看:WXTEC的用词变化性大于FLOB;平均词长稍长与FLOB;平均句长和平均句长标准差均大于FLOB。这说明和普通英语相比, 无锡旅游景区公示语英译文本的用词更为丰富、难度更大, 句子更长、句式变化更大。
借助Antconc软件我们分别检索了WXTEC和Flob中名词和动词的比重, 名词的比重分别为39.03%和33.73%;动词的比重分别为12.43%和17.78。这说明了无锡旅游景区公示语英译文本中名词使用比重较大, 而动词偏少。
3.2 翻译策略统计分析
借助于多语种语料处理软件 (HyConc) v3.9.6, 我们对经过翻译策略标注的WXTEC的680个句对进行了检索, 从而得出了各个翻译策略的使用情况。
如图1所示, 无锡市旅游景区公示语英译采用的翻译策略依次为直译、分译、音译加直译、音译、漏译、省译、合译和死译。我们通过软件 (HyConc) v3.9.6, 对采用相应策略的英汉平行语料进行了检索分析, 结果显示各大景区在公示语英译时首先考虑的便是直译;在翻译较长的中文源文本时, 最常用的策略便是把源文先进行拆分, 然后翻译成多个英文句子, 极少数景点采用合译的策略;在翻译景点名称时几乎毫无例外的采用音译加直译的策略, 有些景区竟然全用拼音拼出, 甚至出现死译硬译现象;在牵涉到历史典故或者历史事件介绍时, 大部分景点都选择了漏译或者不译, 少数景区采用了省译;在涉及中国特色文化时, 部分景点采用了直译加注解的增译策略, 而大部分景点只是采用音译策略。
4 结论和不足之处
本文首先以Flob为参照语料库, 通过语料库软件Word-smith 5.0和Antconc统计分析了无锡市旅游景区公示语英译文本的主要语言特征:大量使用名词;动词使用偏少;用词更为丰富;词汇难度更大;句子更长, 存在明显的句式扩张现象。在此基础上, 结合无锡市旅游景区翻译策略的使用情况, 我们可以得出如下结论:
第一, 直译是各个景点最常用的翻译策略, 但要注意, 在英汉句子结构差别较大时适当采取分译、合译等其它策略, 否则便可能出现死译硬译或者句式扩张的现象;
第二, 在景点名称的翻译方面, 可以参照《江苏省旅游景点景区名称英文译写规范》:以历史事件命名的景点, 应将专名意义译出;以历史建筑命名的景点, 专名可用汉语拼音拼写, 也可用英文将其意义译出;以传说、典故、特定文化命名的景点景区, 应将专名意义译出;以独具特色的本地特产命名的景点, 应将专名意义译出。决不能一刀切地采用“音译加直译”的策略, 更不能采用全用拼音拼写的做法, 从而使翻译的文化传递功能遗失殆尽;
第三, 在历史典故、历史故事以及中国特色文化的翻译方面, 我们应该考虑外国游客的文化期待, 尽量满足游客的文化猎奇心理, 采用直译加注解的策略, 而不能一味漏译或者回避不译。
无锡市“十二五”旅游发展规划提出要全力打造国际化旅游休闲目的地城市。该文试图采用语料库语言学的研究方法对旅游景区的公示语翻译展开研究, 有助于规范旅游景区的公示语翻译, 从而有效维护无锡市国际旅游目的地形象;在寻求新的景区公示语研究方法方面做出了一些尝试, 但语料的规模太小, 目前仅限于无锡境内;平行语料的翻译策略标注是否具有说服力, 有待学术界的进一步验证。期待今后的研究能在这些方面取得更大的进展。
参考文献
[1]王颖, 吕和发.公示语汉英翻译[M].北京:中国对外翻译出版公司, 2007:13-14.
[2]梁茂成, 李文中, 许家金.语料库应用教程[M].北京:外语教学与研究出版社, 2010:33-34.
[3]刘笑歌, 钟庆伦.开封旅游景区公示语汉英翻译失误分析及规范[J].海外英语, 2012 (1) :155-158.
[4]吴敏.顺应论视角下旅游景区公示语英译原则分析[J].阜阳师范学院学报:社会科学版, 2011 (4) :53-56.
旅游语料库 篇3
语料库在国内则起步较晚。1985年上海交通大学构建了JDEST学术英语语料库,成为中国语料库的先驱之作。此后建立的语料库多为单语语料库,用于语言研究和二语习得,例如中国英语学习者语料库、大学学习者口语语料库等,双语平行语料库基本仍在创建与开发之中。而且大型通用语料库和小型专用语料库之间发展尚不平衡。
在本例中,皖南地区的旅游资源(包括黄山、九华山、芜湖方特等)极具地方文化特色和多样性的特点。黄山是世界自然文化双遗产,有着丰富的物种资源和深厚的人文积淀,其中徽文化内容广博深邃,有整体系列性等特点;九华山乃四大佛教名山,历史悠久;芜湖方特主题多样,涉及面极广。这些特点都为这些宝贵旅游资源的翻译带来的了难题,造成景点介绍的翻译不够规范,文化现象的翻译不够准确传神等。然而,现有的大型通用语料库难以准确地体现旅游文本的文体特征、语篇功能等信息,无法满足旅游翻译研究与实践的检索统计需求。开发构建关于皖南地区旅游资源汉英翻译语料库(Trans-lational Corpus for the Tourism of Southern Anhui,TranCoTSA),将大量高质量的实际应用中的汉英翻译语料经处理后整合起来,是一项有意义而先期未能实施的项目。
1 皖南旅游资源汉英翻译语料库的设计
杨惠中(2002:36)提出,语料库的设计和建设是在系统的理论语言学原则指导下进行的。特殊的皖南地区主要旅游资源汉英翻译语料库的构建,又因其特殊的应用目标和特定的语域,是一项复杂而艰辛的工作。因此,对其进行一个总体的设计和规划,是每项工作得以顺利进行的前提。具体而言,语料库的设计包括以下四个方面:
1)明确语料库的应用目标。一般地,语料库多应用于语言研究、翻译研究、教学研究和双语词典研编等[2]。本语料库的应用目标就是为旅游翻译工作者,尤其是皖南地区的旅游、宣传相关单位,在从事旅游翻译时提供翻译参考和依据,发挥优秀译作的借鉴作用;并为相关领域的语言和翻译研究提供重要的双语文本资源,客观准确地揭示旅游文本的文本功能和语体特征。
2)初步确定语料库的规模和收集范围。纵观语料库发展史,从初期的Brown语料库(100万词次)到目前的亿词级语料库,不同的规模适应了不同的需要。对待语料库的规模建库者应采取审慎的态度。Bowker&Pearson(2002:48)曾指出,千词级和十万词级的小型语料库在实践中被证明是可以满足特殊目的语言的研究需求的。本例立足小型专业语料库,根据特殊的应用目标,我们拟定TranCoTSA的规模为约50万词次。另一方面,语料的收集范围直接影响到语料的质量。确定收集范围,要保证语料的代表性、平衡性,以及本例中要求的一定的权威性。因此,我们将收集范围主要确定于皖南地区旅游部门的申遗报告、官方宣传资料、调查报告、公开出版的书籍等。
3)制定实施步骤。一般而言,其中包括语料的收集、预处理、对齐、分析标注和建立SQL数据库等,下面一节将做详细说明。
4)统一技术标准。语料库中所有语料均需采用统一的技术标准,按照同样的方式进行编码或标记,以使得其能够独立于软件平台和具体的应用程序,具有较强的数据可交换性[3]。而保证技术方面的内部统一性,首先要确定的就是字符编码的问题。进行双语语料库建设的时候,中英文混排很容易出现乱码,为了实现最大的兼容性且最大程度避免乱码,建议采用国际通行的Unicode编码而不是ASCII编码或其他编码,同时必须确保中英文文本中分别使用纯粹的全角和半角字符,避免混杂。其次,为了确保语料库的可识别性和重复使用性,对语料进行科学系统的标注尤其重要。目前可供我们选择的标记方案有三种:TEI文本编码标准、CES语料库编码标准和自制方案。语料库建设者可以根据语料库的应用目标、规模等进行选择。
2 皖南旅游资源汉英翻译语料库的构建
1)语料收集。相对于单语语料来说,双语语料的获取,尤其是特殊语域双语语料的获取,则相对比较困难。在保证语料数量的同时,要注意以下问题:
首先,确保语言质量和翻译质量。语言质量和翻译质量决定了语料库辅助翻译价值的大小。官方双语报告、宣传材料和知名出版社出版的双语书籍经过了多次核对加工,以其作为语料来源有助于提高整体的语言质量和翻译质量。例如,我们收集获取的《黄山世界地质公园考察报告》就具有很高的代表性和权威性。
其次,进行适当抽样。由于小型专业语料库容量较小,易造成同一译者或同一出版社影响过大的情况,使得语料库失去参考意义[4],因此需对不同来源的语料进行抽样,以保持不同译者和出版社的作品在语料库中的平衡。
2)语料预处理。在这一阶段,需要将不同载体不同格式的文本转换成统一格式的生语料文本。在收集的资料中,纸质文档需通过扫描仪录入计算机,并用OCR字符识别软件转换为可编辑的电子文档;同时,不同来源的电子文档中会混杂着很多多余空格、换行符和乱码等不必要的字符,也都需要在这一过程中对其进行消除、整理。虽说这部分工作繁琐、细致,大部分需依靠人工完成,但可以运用一些方法简化操作,尽量减少工作量。例如,利用以下一段VBA代码就能在Word中轻松实现选中文字中多余换行符的批量删除:
3)语料的标注和对齐。经过预处理的干净的生语料文本需要用预先规定的某种符号系统添加进适量的人工信息,才能被计算机程序识别、应用,并为语料库使用者提供所需的语言信息。语料的对齐、标注过程是一个十分艰辛复杂的工程,其中涉及语言的结构分析、标注体系的设计和计算机自动处理技术的应用等。根据不同的标注层面,王克非(2004:21)提出目前语料库的标注主要包括:中文分词、文本结构及文本来源、词性标注、句子结构标注和语义标注等。考虑到本例中TranCoTSA的特殊应用目标,无需对其进行词性、语义等语言信息的标注,但需要对中英文本进行分句对齐信息的标记。
国内外学者对自动双语语料对齐进行了大量的研究,如Brown[5]、Gale&Church[6]、Chen[7]等都提出了相对有效的算法。经过多年的发展,算法不断优化的自动对齐技术在某些特殊文本的应用中已经可以达到较高的精度,如法律文本。但在本例中,旅游翻译由于面向对象的不同而导致了表达重点的不同,翻译中经常有省略信息和添加信息的现象,译文十分灵活,双语对应不严格。经过试验,自动对齐精度较低,需人工仔细核对或完全由人工进行对齐工作。
如前文所述,对齐后需对文本加以标记,以方便计算机识别。我们参照现有的标记体系开发了一个新的标记体系。这个标记体系基于目前普遍应用的XML语言,用一系列嵌套的标签标记文本,以期获得广泛的软件支持和跨平台支持,并且可以根据需求自由扩展。我们制定的标记集如表1所示:
以下是一个实例。首先定义了一个文档类型定义(DTD):
并且在XML文档中加入引用创建好的外部DTD的语句:
3 皖南旅游资源汉英翻译语料库的应用途径
1)辅助翻译。在TranCoTSA相应的Web检索平台上输入关键词,即可获取包含关键词的所有双语对译的句对和相关语篇信息,进行皖南旅游翻译知识的抽取。语料检索既可为译者提供不同来源的词句翻译参考,也可以帮助译者理解旅游翻译的结构特征和语体特征。此外,将TranCoTSA作为基于统计的和基于实例的机器翻译或机助翻译的支撑数据库,可以大大提高机器翻译或机助翻译在旅游翻译领域的效率。
2)对比研究。目前比较著名的语料库研究工具包括Mike Scott开发的WordSmith和Michael Barlow设计的ParaConc。我们可以利用此类软件在语料库中的检索统计,对比分析英汉旅游文本在文体和功能上的特征、差异及共性,并基于上述对比分析的结果,结合现代翻译学理论,集中探讨汉语旅游文本翻译的基本原则和方法[8],尤其是旅游文本中大量文化词语对于深入研究翻译中的异化和归化现象意义重大。
3)翻译教学。国内的语料库研究最初与外语教学联系密切,如最早建立的JDEST语料库,其最初目的就是为语言教学提供有关学习者语言运用和典型困难的可靠信息[9]。本例中我们可以基于TranCoTSA,利用索引软件,共现动态语境,或进行文本等值概率的分析、译文风格特点的量化分析等,为实现翻译教学课程结构的科学化和规范化提供了保证;其次,利用计算机强大的功能进行快速、准确和复杂的检索分析可以实现教学理念的现代化,有利于培养学生的学习能力和创新精神[10]。
4 结束语
基于语料库的翻译实践和语言研究日益受到了国内外学者的关注,其前提和基础在于各类型高质量的语料库的建立。本文从理论到实践,完成了关于皖南地区主要旅游资源翻译语料库的构建,填补了该特殊语域语料库建设的空白。然而,在研究过程中我们发现,语料库的发展仍存在很多新的问题有待解决,如双语文本句级对齐算法的革新,语义、句法标注技术的完善等。但不可否认的是,随着语言研究的深入和计算机技术的发展,语料库因其定性与定量相结合的独特优势,必然拥有着广阔的前景。正如王克非(2004:15)所述,我们有理由相信,准确度更高、更为成熟的词性标注、句法分析和语篇自动分析技术将会不断得以应用;正确地进行语料分析将使我们受益良多,也终将为语言学和其他相关领域的研究开辟新的天地。
参考文献
[1]王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2005.
[2]王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.
[3]常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].术语标准化与信息技术,2003(1):28-31.
[4]麻丽莉,王祥兵.军事平行语料库的建立及其在军事翻译方面的应用[J].国防科技,2009,30(1):38-41.
[5]Brown P F,Lai J C,Mercer R L.Aligning Sentences in Parallel Corpora[C]//Proc.of the29th Annual Meeting of the ACL,1991.
[6]Gale W A,Church K W.A Program for Aligning Sentences in Bilingual Corpora[J].Computational Linguistics,1993,19(1).
[7]Chen S F.Aligning Sentences in Bilingual Corpora Using Lex-ical Information[C]//Proc.of the31th Annual Meeting of the ACL,1993.
[8]梁晓鹏,康宁.旅游文本翻译研究的语料库途径[J].青岛科技大学学报:社会科学版,2010,26(4):115-117.
[9]邢富坤.语料库:值得教育技术学关注的新型学习资源[J].解放军外国语学院学报,2006(2):65-68.
旅游语料库 篇4
迄今为止, 国外旅游方面的专用语料库尚不多见, 其中服务于旅游英语教学的语料库主要有下面几个:日本大学 (Nihon University) Kiyomi等人于2006年研制了库容为42, 025词的“京都旅游语料库” (Kyoto Tourism Corpus) , 主要服务于在日本大学学习旅游英语课程的不同程度的学习者;英国埃塞克斯大学 (University of Essex) 研究生Carlota Alcantar于2007年研制了总词数为37, 795的英语旅游文本语料库, 主要服务于墨西哥纳亚里特州立大学旅游学院的教师, 帮助他们有效地教授旅游常用词汇;芬兰萨翁林纳翻译研究学院 (Savonlinna School of Translation Studies) 英语教师Michael Wilkinson研制了共计67万词英语旅游文本语料库, 主要服务于芬兰学生将芬兰旅游文本译至英语。
国内建设的旅游专用语料库在最近几年逐渐增多, 其中服务于旅游英语教学的语料库发展则较为缓慢, 主要有以下这些:香港理工大学中文及双语学系 (李德超、王克非, 2010) 研制的双语旅游专门语料库, 主要用途就是在旅游翻译教学中开展DDL;肖庚生、陈欣 (2012) 自建了衡阳旅游汉英平行语料库并阐述了该库在旅游翻译教学研究中的应用价值;马彩梅, 朱益平 (2013) 于2011年底建成的陕西省旅游景区公示语汉英平行语料库, 对于外语翻译教学具有较强的实用意义和参考价值;周杰, 陈娟, (2013) 建成贵州对外宣传汉英平行语料库, 可以将其应用到翻译教学培训中;河北经贸大学郝丽宁公示语语料库 (2014) 分为库一“英文原生公示语语料库”和库二“石家庄城市公示语平行语料库”, 主要服务于教学目的。谭兴, 石婕妤 (2014) 创建了以广西贺州市为例的地方性旅游景区翻译语料库, 探讨了该语料库在推动旅游翻译教学与研究中的应用前景;覃始龙等 (2015) 分析了广西旅游景区翻译语料库创建的流程, 并对该语料库在教育教学和研究方面的应用空间进行了探讨。
纵观国内外服务于旅游英语教学的专用语料库建设现状, 可得出如下结论:1) 和其他综合语料库相比, 规模虽然较小, 但专业特点更为突出, 建设目的更为明确;2) 个别语料库的语料选择缺乏代表性和权威性, 带有较大的随意性;3) 语料库建设缺乏有效合作, 呈现各自为战的局面, 标准不一且有重复建设之嫌;4) 多见于本科院校的英语教学, 很少触及高职院校的旅游英语教学。有鉴于此, 选择建设适用于高职旅游英语的专用语料库, 并对其在高职旅游英语教学中的应用展开探讨, 已是势在必行。与此同时, 建构主义理论和图式理论的观点和思想也为语料库应用于高职旅游英语教学提供了理论支撑。
2 语料库应用于高职ESP教学的理论基础
2.1 建构主义理论
在建构主义看来, 学习在本质上是学生对所学知识的主动探索、主动发现和主动建构的过程;学习是在一定的情境下通过人际间的协作活动, 利用必要的学习资料而实现的意义建构过程;理想的学习环境应当包括情境、协作、交流和意义建构四个部分。语料库可以呈现出真实的语言材料, 这对创设语言学习所需的“情境”非常有利。如果可以将语料库教学应用于高职旅游英语教育, 将促进学生的发现性学习和创造性学习, 进一步改进教学效果。徐丽华 (2011) 认为, 基于语料资源库和网络的信息不仅有利于强化输入信息的刺激、增加输入容量, 还有助于激发学生的兴趣和自主性, 激活其英语学习的内驱力。在建构主义理论的关照下, 语料库在高职旅游英语教学中的应用主要体现在以下四个方面:在语料库的平台上, 学生通过对大量真实语料的观察、分析、归纳和领悟构建语言知识, 增强了学生的自主学习能力。第二, 基于语料库的课堂激发了学生的学习热情。第三, 基于语料库的定位使“以学生为中心”的教学理念落到了实处。第四, 基于语料库的课程安排使得因材施教成为可能。
2.2 图式理论
图式理论 (Schema Theory) 认为, 语言使用者通常是在相似语境下, 在不断运用相似语言形式的过程当中, 逐渐形成了抽象的语言知识和语言能力。语料库特殊的语境共现界面达到了图式理论的基本要求, 可以为教学对象提供反复接触“近似语境”的可能性。这样, 将语料库引进语言教学中就具备了特殊的教育教学功能。借助语料库, 学习者进行观察和分析语言信息, 其智能可以得到较大发展。学生在处理信息的过程中, 多次运用类似的语言形式构建新的语言图式, 在此过程中, 学生利用已有的“原型知识”构建新的图式, 这样可以简化教学过程、强化记忆效果。何安平 (2004) 认为, 语料库特有的语境共现 (concordance) 界面能够在相对同质的大量语料中反复呈现不同语境里的同一种语言现象, 从而能够帮助学习者构建对语言的认知图式。
3 旅游英语语料库的创建
3.1 语料选择
本研究所用语料样本选自央视英文频道《Travelogue》, 该节目是一档面向全球播出的英文旅游节目, 不同于以往的风光旅游节目, 由外籍主持人以旅游者的身份出现在节目中, 以西方人的视角每集介绍一个旅游目的地, 以展现当地历史文化、风土人情和秀美山川为主。该节目已对全国28个省和直辖市的旅游资源进行了介绍。本研究对这28个省和直辖市的《Travelogue》节目各选了两期, 一共56个视频。这些视频材料就是本研究中旅游英语语料库建设的主要语料来源。
3.2 文本转录
要想把“Travelogue”的内容转换成语料, 就必须要把该视频转换成文字, 这个过程较为复杂, 需要在软件的辅助下进行人工转录。第一步, 我们通过“格式工厂”软件把节目视频转换成音频软件。“格式工厂”是一款免费多功能的多媒体格式转换软件。几乎支持所有类型多媒体格式, 轻松转换到你想要的格式。第二步, 我们借助o Transcribe工具把音频文件转录为文字。o Transcribe是一款方便逐句将音频文件手工录入为文字的在线工具, 它提供的网页版平台简洁明快, 页面上方是音频播放器, 下方供文本输入。用户点击“choose audio file”选择音频文件, 支持MP3、OGG、Web M、WAV等格式;该网站会自动保存文本框的录入内容, 就算突然死机或者断网, 内容也不会丢失, 录入完毕后, 可直接导出为txt格式。借助这两款软件, 我们花费了半年多的时间将56个视频文件转录成了txt文本。
3.3 文本整理
在文本整理过程中, 作者从互联网下载了一款叫作“文本整理器”的免费软件, 该软件作者署名为“风林”。该软件专为文本整理而编写, 界面友好直观, 操作简单。既可单个处理文本, 也可批量处理文本。考虑到研究和教学的方便, 为实现不同的检索目的, 所有文本语料都以未标注版本和已标注版本两种方式保存。标注版本采用词性赋码, 通过CLAWS词性赋码器软件完成, 该软件由兰卡斯特大学计算机语料库研究中心研制开发, 赋码准确率一直维持在96%~97%。
4 旅游英语语料库在高职导游英语教学中的应用
通过半年多的语料收集和整理, 笔者创建了库容为98, 179的旅游英语语料库。本文中, 笔者主要围绕高职院校旅游专业的导游英语课程, 来探讨旅游英语语料库在这门课程教学中的应用
4.1 典型性语言特征与导游英语词汇教学
英语单词在语篇中的出现频率很不平衡但很有规律。据COBUILD研究显示, 英语中词频最强的700个词占了英语语言使用的约70%。到2500词之后的所占比例达到80%。2500词之后的所占比例呈现类似的依次递减的趋势。这组数据显示了语言的不对称性分布特征。语言的不对称性也同样存在于词语的语义分布、语法结构分布、词语搭配形式等语言层面上。借助主题词和N元组技术, 语料库语言学可以方便地揭示最典型的语言特征, 发现语言在实际生活中的使用规律。通过频率统计, 语料库语言学将语言的不对称性分布特征清楚地展现在人们面前。典型性语言特征和语言的不对称性对高职教师的教学具有很强的启发意义。语料库可以告诉我们:旅游英语中最常用的词汇有哪些?最常用的短语有哪些?教师在教学内容和教学顺序上是否应该有所侧重?很明显, 典型语言现象在讲授时间的先后安排上应早于非典型语言现象, 在讲授时间多少的安排上应多于非典型语言现象。这样方能大大提高教学的有效性。在教学中, 教师要重视高频词、词语的高频语义和搭配形式、高频语法结构等。如果教学高多关注不常见的语言现象而忽视常见的语言现象, 势必最后导致教学时间的投入与回报不成正比, 这会大大减弱高职学生旅游英语学习的积极性。我们以大学英语三级A的词表作为对照, 通过主题词分析技术我们统计并进一步筛选出了导游英语词汇中的1000个主题词, 其中位于前十位的主题词为:Dynasty, China, ancient, mountain, meter, Temple, Buddhist, cultural, Emperor和architec-ture。通过N元组技术, 我们选定了导游英语词汇中常用的100个多次序列, 其中位于前十位的多次序列为:as well as, one ofthe, in the world, is located in, known as the, in terms of, is one of, large number of, built in the和a lot of。高职学生英语学习兴趣普遍不高, 学时也十分有限, 这就要求我们的教学必须做到在最少的时间里实现最大的回报, 此外, 高职教学应该遵循“实用为主、够用为度”的原则。我们通过语料库语言学技术选定的这些主题词和多次序列便是我们词汇教学的重点。
4.2 语料库语境共现与导游词创作
培养学生创作导游词的能力是导语英语教学的一项主要任务。如果学生只是一味背诵书上的讲解词, 那么这样培养出来的学生智能人云亦云, 缺乏创造性和创新性。这就要求学生在记忆一定内容后逐渐掌握导游词创作能力。然而高职旅游专业学生在导游词创作方面普遍存在以下问题:语法、用词等语言错误较多;在词汇和句法层面受母语负迁移影响较大;在语篇衔接和连贯方面误用率较高。语料库语言学在解决这些问题上具有明显的应用价值。利用上文中对语料库主题词的语境共现 (KWIC) , 学生可以观察分析真实文本中的词汇使用情况, 进一步掌握最适合的词汇表达。重点围绕我们选择出来的专业核心词汇和多次序列, 借助搭配检索 (Collocates) 功能, 在训练学生自行创作导游词之前, 教师可以向学生呈现典型句式和搭配, 让学生有一个大致的概念。然后, 通过语料库检索, 向学生展示导游词中典型的语篇衔接和连贯特征, 提高学生的导游词创作中的语篇组织能力。
4.3“预制语块”与导游英语口语教学
多词序列是语料库语言学术语, 被Bollinger称为“预制语块” (pre-assembled chunks) 。Bollinger (1975) 说过:“我们根据自己想要表达的信息, 从大脑的词汇库中调出些‘预制’短语, 经过细微的加工, 就可组成比较符合语法的句子, 并使他们变成流利的语言来填充我们概念上的某些空白”一般认为, 英语本族语者掌握的大量“预制短语”, 这是促成英语口语流利性的一个重要因素。Altenberg&Granger (2001) 发现, 大约70%的日常口语都是由“预制短语”构成的。Bollinger (1975) 强调说, 语言运用并非总是创造性的, 并非总是临时按照语法规则把单个的词语组合在一起, 而是具有很大的重复性, 许多话语都是储存在记忆中的“预制语块”。导游英语课程的最终目的是要提高学生在导游讲解和服务时英语口语表达能力。要达到此目的, 高职学生既要输入足够的有用和实用的专业语言知识, 又要能够较为流利地输出语言表达。对导游英语教学而言, 我们可以充分利用“预制语块”。在本研究中, 我们通过语料库语言学的“N元组”技术提炼出了100个常用“预制语块”。这些“预制语块”和我们常说的固定搭配类似。在即时表达时可以迅速提取使用, 无须特意关注语法结构, 这样可以减少语法转换的麻烦, 提高口语表达的流利性。在导游英语口语教学过程中, 教师可将“预制语块”应用到课堂之中, 利用语料库对搜集到的“预制语块”进行统计分类, 结合前后语境研究其意义。这样可以帮助学生在适当的语境中进行较为流利的表达, 从而增强高职学生口语表达的自信心。
4.4 典型性语言特征与导游英语教材开发
迄今为止, 导游英语教学教材的设计多数还是依靠有限语料基础上的传统语言描述。教材编写者们主要依靠经验和主观判断来认定语言特征和相应的学习顺序。这使得教材的编写表现出了较大的随意性。语料库语言学认为, 高频语言特征应该是教学的重点。根据语言特征出现的频率高低确定教学内容设计的先后顺序, 这样可以提高教学效率和学生学习的成就感。在教材的编写理念上, 要逐渐实现从均衡对待语言特征到重视典型语言特征的转变。在教材内容的选取上可以从专用语料库中选取典型语料, 提高教材内容的代表性。此外, 专用语料库也可以教材编写提高相对真实的语言材料。
5 结束语
黄大网 (2010) 认为当代专用语料库表现出三大发展趋势:一是语料库的专门化和小型化, 这是指专用英语语料库语料的体裁或主题更加专一化, 语料库的规模相应较小;二是语料数据的 (交际) 多模态化, 基于语料库的文本多模态分析可对多模态文本的具体意义及意义构建过程展开研究;三是语料库的本土化, 主要是指语料的搜集和设计更加注重服务地域和工作领域的需要。此外, 不少学者也认为, 将来的专用语料库的创建将会更多服务于课堂教学。本研究所建语料库从真实的工作环境中选择语料, 主要服务于高职ESP教学, 符合专用语料库的发展趋势。该研究还存在一些值得商榷之处, 比如在语料样本的选择标准上, 到底是该以地域还是以专题作为分类标准?本文采取以地域为准平均取样, 该做法是否妥当还待方家指正。另外, 该语料库的语料还应及时更新、与时俱进, 从而为教学及时更新语言资源。旅游英语语料库在高职ESP教学中的应用前景是非常广阔的, 笔者会在今后的研究中继续深入探讨。
摘要:建构主义和图式理论为语料库语言学引入高职ESP教学提供了理论上的支撑, 语料库语言学的发展趋势和高职ESP的教学现状让两者的结合显得更为迫切。该文以高职导游英语课程为例, 基于自建旅游英语语料库深入探讨其在高职ESP教学中的应用。具体来讲, 这种应用主要体现在:在导游英语词汇教学中要重视典型性语言特征;在导游词创作时要善于利用语境共现功能;在导游英语口语教学中强化“预制语块”教学;在导游英语教材开发时妥善处理典型性语言特征。
关键词:旅游英语语料库,专门用途英语教学,高职院校
参考文献
[1]Altenberg B, Granger S.The Grammatical and Lexical Patterning of MAKE in Native and Nonnative Student Writing[J].Ap-plied Linguistics, 2001 (3) :173-194.
[2]Bollinger D.Meaning and Memory[J].Forum Linguisticum, 1975 (1) :2-14.
[3]郝丽宁.公示语语料库在翻译教学中的应用[J].武汉船舶职业技术学院学报, 2014 (1) :116-118.
[4]何安平.语料库语言学与英语教学[M].北京:外语教学与研究出版社, 2004.
[5]黄大网, 秦羿, 徐赛颖.专门用途英语语料库:挑战、理据与愿景[J].宁波大学学报:人文科学版, 2010 (5) :48-52.
[6]马彩梅.朱益平陕西省旅游景区公示语汉英平行语料库的设计与建设[J].西安外国语大学学报, 2013 (1) :113-116
[7]李德超, 等.新型双语旅游语料库的研制和应用[J].现代外语, 2010 (2) :46-54.
[8]谭兴, 石婕妤.地方性旅游景区翻译语料库的创建与应用[J].成都师范学院学报, 2014 (10) :79-82.
[9]覃始龙, 林媛媛, 刘卫东.广西旅游景区翻译语料库的创建及运用[J].海外英语, 2015 (16) :213-214.
[10]肖庚生, 陈欣.旅游汉英双语平行语料库的建设与应用[J].湖南科技学院学报, 2012 (10) :163-165.