机器翻译软件(精选11篇)
机器翻译软件 篇1
机器翻译的研究历史可以追溯到20世纪三四十年代。进入20世纪40年代, 计算机的出现, 为人们利用计算机进行翻译揭开了新篇章。20世纪70年代, 机器翻译被列为人工智能的一项重要研究课程。由于机器翻译具有潜在的社会效益和经济效益, 一些西方国家及日本等国纷纷斥巨资对机器翻译系统进行研发, 美国空军早在1970年便研制出Systran系统, 旨在将当时的俄国军事技术文献译为英文;日本政府也于20世纪80年代末出资开发用于亚洲各国语言之间的中间语言系统, 并与1987年举行了第一届机器翻译峰会。我国的机器翻译研究始于1956年, 20世纪90年代初期至今, 中国的机器翻译步入快速发展时期, 在经过数十年的起落发展之后, 已形成商品化的机器翻译产品, 包括“雅信”、“传神”等。如今, 随着世界经济高速发展, 国际交流与合作增多, 尤其是互联网的迅猛发展, 给机器翻译的发展带来了新的机遇, 机器翻译翻译速度快, 操作简单, 现已发展成为一门新兴的国际性竞争学科。
一、机器翻译基本原理
机器翻译的总任务可以描述为:将一种语言 (源语言) 文本输入计算机, 通过计算机程序生成另一种语言 (目标语言) 文本, 且源语言文本与目标语言文本具有相同的含义。机器翻译系统的类型很多, 采取的策略和技术也不尽相同, 但基本工作过程大致相同。简单来说, 机器翻译的第一步是在不同层次上分析源文本, 而后生成目标语文本。这两个步骤是机器翻译系统基本实现过程中的两个主要组成部分。
整个机器翻译的过程具体可以分为三个主要阶段:原文分析、原文译文转换和译文生成。在具体的机器翻译系统中, 根据具体方案目的和要求, 可以将原文译文转换阶段与原文分析阶段合二为一, 而将译文生成阶段独立, 建立相关分析独立生成系统。利用该系统进行翻译需注意:源语分析时要考虑译语的特点, 而在译语生成时则无需考虑源语的特点。在进行多种语言对一种语言翻译时, 适合采用此种相关分析独立生成系统;亦可将原文分析阶段独立, 把原文译文转换阶段同译文生成阶段相结合, 建立独立分析相关生成系统。使用该系统时源语分析时无需考虑译语的特点, 而在译语生成时要考虑源语的特点, 在进行一种语言对多种语言翻译时, 适宜采用此种独立分析相关生成系统。此外还可以把原文分析、原文译文转换与译文生成进行区分, 建立独立分析独立生成系统。这样, 分析源语时无需考虑译语的特点, 生成译语时也无需考虑源语的特点, 源语译语的差异通过原文译文转换来解决。此种独立分析独立生成系统适用于多种语言对多种语言翻译。
二、国内机器翻译发展现状
国内机器翻译系统主要形式包括以下几种:
1.全自动翻译系统。提供简单的全自动翻译功能, 带有简单的用户界面和译前译后的编辑工具, 以及用户词典管理。
2.全自动汉化工具。目前最为流行的一种机器翻译产品形式, 主要产品有金山公司的金山快译等, 在市场上占据了相当大的份额。
3.计算机辅助翻译系统。此类产品采用的主要技术并非全自动机器翻译, 而是翻译记忆技术, 主要应用于要求精确翻译的领域, 提高翻译效率, 目前代表产品主要有德国的TRADOS系统和实达公司的雅信CAT辅助翻译软件, 现已具备较大的市场规模。
目前市场上的机翻软件通常可针对特定领域或是专业提供客制化服务, 通过将词汇范围缩小至该特定领域的专有名词, 借此达到改进翻译的结果。此方法针对一些用语较正规或是陈述方式较制式化的领域尤为有效, 如政府公文或法律文本等文件, 与一般文句相比, 此类型文本的文句通常更为正式, 也更具制式化的特点, 因此其采用机器翻译的结果往往比日常对话等非正式文件要更为理想。
三、机器翻译利弊
一般而言, 大众使用机器翻译的目的, 可能只是为了要得知原文句子或段落的要旨, 而不是精确的翻译。总的说来, 机器翻译还没有达到可以取代专人工翻译的程度, 并且也尚无法成为正式的翻译。机器翻译的结果好坏, 往往取决于译入跟译出语之间在词汇、文法结构、语系甚至文化上的差异, 例如:英文与荷兰文同为印欧语系日耳曼语族, 这两种语言间的机器翻译结果, 通常便会比中英文互译结果要好很多。总而言之, 机器翻译有利有弊。即:机译速度快、效率高;但译文生硬、机器味过浓, 影响译文的可读性和准确性等。其实, 机器翻译研究归根结底是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识, 其中包括常识和相关领域的专门知识。
总之, 自然语言是人类最伟大的发明创造之一, 语言系统极其复杂, 人们对语言机制的认识, 对大脑处理自然语言的过程的掌握, 以及对大脑的思维和判断能力的了解, 尚处于初步阶段, 因此, 要让机器像人脑一样处理自然语言绝非易事, 将机器翻译与人工翻译有效结合才是目前保证翻译品质的最好方法。总之, 机器翻译取得了一定成果, 也是时代发展的趋势, 然而还存在很多问题和弊端。机器翻译走出困境尚需时日, 只有在使用中不断调整、扩充、更新并注重语言对比研究, 才能提高机器翻译的质量, 才能使机器翻译受到人们的欢迎和广泛地应用。相信随着科学技术水平的进步和发展, 在不断努力下, 机器翻译的前景必定一片光明。
参考文献
[1]赵铁军, 机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社, 2002.
[2]冯志伟, 机器翻译——从梦想到现实[J].中国翻译, 1999.
机器翻译软件 篇2
Abstract: Although genetic algorithm has become very famous with its global searching, parallel computing, better robustness, and not needing differential information during evolution.However, it also has some demerits, such as slow convergence speed.In this paper, based on several general theorems, an improved genetic algorithm using variant chromosome length and probability of crossover and mutation is proposed, and its main idea is as follows : at the beginning of evolution, our solution with shorter length chromosome and higher probability of crossover and mutation;and at the vicinity of global optimum, with longer length chromosome and lower probability of crossover and mutation.Finally, testing with some critical functions shows that our solution can improve the convergence speed of genetic algorithm significantly , its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.Genetic algorithm is an adaptive searching technique based on a selection and reproduction mechanism found in the natural evolution process, and it was pioneered by Holland in the 1970s.It has become very famous with its global searching, parallel computing, better robustness, and not needing differential information during evolution.However, it also has some demerits, such as poor local searching, premature converging, as well as slow convergence speed.In recent years, these problems have been studied.In this paper, an improved genetic algorithm with variant chromosome length and variant probability is proposed.Testing with some critical functions shows that it can improve the convergence speed significantly, and its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.In section 1, our new approach is proposed.Through optimization examples, in section 2, the efficiency of our algorithm is compared with the genetic algorithm which only reserves the best individual.And section 3 gives out the conclusions.Finally, some proofs of relative theorems are collected and presented in appendix.Description of the algorithm 1.1 Some theorems Before proposing our approach, we give out some general theorems(see
appendix)as follows: Let us assume there is just one variable(multivariable can be divided into many sections, one section for one variable)x ∈ [ a, b ] , x ∈ R, and chromosome length with binary encoding is 1.Theorem 1
Minimal resolution of chromosome is s = ba 2l1Theorem 2
Weight value of the ith bit of chromosome is
wi = bai1(i = 1,2,…l)2l1Theorem 3
Mathematical expectation Ec(x)of chromosome searching step with one-point crossover is Ec(x)= baPc 2lwhere Pc is the probability of crossover.Theorem 4
Mathematical expectation Em(x)of chromosome searching step with bit mutation is Em(x)=(b-a)Pm
1.2 Mechanism of algorithm
During evolutionary process, we presume that value domains of variable are fixed, and the probability of crossover is a constant, so from Theorem 1 and 3, we know that the longer chromosome length is, the smaller searching step of chromosome, and the higher resolution;and vice versa.Meanwhile, crossover probability is in direct proportion to searching step.From Theorem 4, changing the length of chromosome does not affect searching step of mutation, while mutation probability is also in direct proportion to searching step.At the beginning of evolution, shorter length chromosome(can be too shorter, otherwise it is harmful to population diversity)and higher probability of crossover and mutation increases searching step, which can carry out greater domain searching, and avoid falling into local optimum.While at the vicinity of global optimum, longer length chromosome and lower probability of crossover and mutation will decrease searching step, and longer length chromosome also improves resolution of mutation, which avoid wandering near the global optimum, and speeds up algorithm
converging.Finally, it should be pointed out that chromosome length changing keeps individual fitness unchanged, hence it does not affect select ion(with roulette wheel selection).1.3 Description of the algorithm
Owing to basic genetic algorithm not converging on the global optimum, while the genetic algorithm which reserves the best individual at current generation can, our approach adopts this policy.During evolutionary process, we track cumulative average of individual average fitness up to current generation.It is written as 1X(t)= GGft1avg(t)where G is the current evolutionary generation, fitness.favg is individual average When the cumulative average fitness increases to k times(k> 1, k ∈ R)of initial individual average fitness, we change chromosome length to m times(m is a positive integer)of itself , and reduce probability of crossover and mutation, which can improve individual resolution and reduce searching step, and speed up algorithm converging.The procedure is as follows:
Step 1 Initialize population, and calculate individual average fitness and set change parameter flag.Flag equal to 1.favg0, Step 2 Based on reserving the best individual of current generation, carry out selection, regeneration, crossover and mutation, and calculate cumulative average of individual average fitness up to current generation
favg;
favgStep 3 If
favg0≥k and Flag equals 1, increase chromosome length to m times of itself, and reduce probability of crossover and mutation, and set Flag equal to 0;otherwise continue evolving.Step 4 If end condition is satisfied, stop;otherwise go to Step 2.2 Test and analysis
We adopt the following two critical functions to test our approach, and compare it with the genetic algorithm which only reserves the best individual: f1(x,y)0.5sin2x2y20.5[10.01xy222]
x,y∈ [5,5]
[1,1] f2(x,y)4(x22y20.3cos(3πx)0.4cos(4πy))
x,y∈2.1 Analysis of convergence During function testing, we carry out the following policies: roulette wheel select ion, one point crossover, bit mutation, and the size of population is 60, l is chromosome length, Pc and Pm are the probability of crossover and mutation respectively.And we randomly select four genetic algorithms reserving best individual with various fixed chromosome length and probability of crossover and mutation to compare with our approach.Tab.1 gives the average converging generation in 100 tests.In our approach, we adopt initial parameter l0= 10, Pc0= 0.3, Pm0= 0.1 and k= 1.2, when changing parameter condition is satisfied, we adjust parameters to l= 30, Pc= 0.1, Pm= 0.01.From Tab.1, we know that our approach improves convergence speed of genetic algorithm significantly and it accords with above analysis.2.2 Analysis of online and offline performance
Quantitative evaluation methods of genetic algorithm are proposed by Dejong, including online and offline performance.The former tests dynamic performance;and the latter evaluates convergence performance.To better analyze online and offline performance of testing function, w e multiply fitness of each individual by 10, and we give a curve of 4 000 and 1 000 generations for f1 and f2, respectively.(a)online
(b)online
Fig.1 Online and offline performance of f1
(a)online
(b)online
Fig.2 Online and offline performance of f2
From Fig.1 and Fig.2, we know that online performance of our approach is just little worse than that of the fourth case, but it is much better than that of the second, third and fifth case, whose online performances are nearly the same.At the same time, offline performance of our approach is better than that of other four cases.Conclusion In this paper, based on some general theorems, an improved genetic algorithm using variant chromosome length and probability of crossover and mutation is proposed.Testing with some critical functions shows that it can improve convergence speed of genetic algorithm significantly, and its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.Appendix With the supposed conditions of section 1, we know that the validation of Theorem 1 and Theorem 2 are obvious.Theorem 3 Mathematical expectation Ec(x)of chromosome searching step with one point crossover is baPc2lEc(x)=
where Pc is the probability of crossover.Proof
As shown in Fig.A1, we assume that crossover happens on the kth locus, i.e.parent’s locus from k to l do not change, and genes on the locus from 1 to k are exchanged.1During crossover, change probability of genes on the locus from 1 to k is 2
(“1” to “0” or “0” to “1”).So, after crossover, mathematical expectation of chromosome searching step on locus from 1 to k is
k11ba1baEck(x)wjl2j1l(2k1)
22121j12j12Furthermore, probability of taking place crossover on each locus of k1chromosome is equal, namely l Pc.Therefore, after crossover, mathematical expectation of chromosome searching step is 1Ec(x)PcEck(x)
k1lSubstituting Eq.(A1)into Eq.(A2), we obtain l1PbaP(ba)11ba1Pcl(2k1)cl[(2i1)l]c(1l)2212l212l21k1llba0, so Ec(x)Pc where l is large, l2l21Ec(x)l1
Fig.A1 One point crossover
Theorem 4 Mathematical expectation Em(x)of chromosome searching step with bit mutation Em(x)(ba)Pm, where Pm is the probability of mutation.Proof Mutation probability of genes on each locus of chromosome is equal, say Pm, therefore, mathematical expectation of mutation searching step is Em(x)=åPm·wi=åPm·i=1i=1llb-ai-1b-a·2=P··(2i-1)=(b-a)·Pm mli2-12-1
一种新的改进遗传算法及其性能分析
摘要:虽然遗传算法以其全局搜索、并行计算、更好的健壮性以及在进化过程中不需要求导而著称,但是它仍然有一定的缺陷,比如收敛速度慢。本文根据几个基本定理,提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法,它的主要思想是:在进化的开始阶段,我们使用短一些的变异染色体长度和高一些的交叉变异概率来解决,在全局最优解附近,使用长一些的变异染色体长度和低一些的交叉变异概率。最后,一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
遗传算法是一种以自然界进化中的选择和繁殖机制为基础的自适应的搜索技术,它是由Holland 1975年首先提出的。它以其全局搜索、并行计算、更好的健壮性以及在进化过程中不需要求导而著称。然而它也有一些缺点,如本地搜索不佳,过早收敛,以及收敛速度慢。近些年,这个问题被广泛地进行了研究。
本文提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法。一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
在第一部分,提出了我们的新算法。第二部分,通过几个优化例子,将该算法和只保留最佳个体的遗传算法进行了效率的比较。第三部分,就是所得出的结论。最后,相关定理的证明过程可见附录。
1算法的描述
1.1 一些定理
在提出我们的算法之前,先给出一个一般性的定理(见附件),如下:我们假设有一个变量(多变量可以拆分成多个部分,每一部分是一个变量)x ∈ [ a, b ] , x ∈ R,二进制的染色体编码是1.定理1 染色体的最小分辨率是
s =
ba l21定理2 染色体的第i位的权重值是
bai1(i = 1,2,…l)2l1定理3 单点交叉的染色体搜索步骤的数学期望Ec(x)是
wi =
Ec(x)= baPc 2l其中Pc是交叉概率
定理4 位变异的染色体搜索步骤的数学期望Em(x)是
Em(x)=(b-a)Pm
其中Pm是变异概率 算法机制
在进化过程中,我们假设变量的值域是固定的,交叉的概率是一个常数,所以从定理1 和定理3我们知道,较长的染色体长度有着较少的染色体搜索步骤和较高的分辨率;反之亦然。同时,交叉概率与搜索步骤成正比。由定理4,改变染色体的长度不影响变异的搜索步骤,而变异概率与搜索步骤也是成正比的。
进化的开始阶段,较短染色体(可以是过短,否则它不利于种群多样性)和较高的交叉和变异概率会增加搜索步骤,这样可进行更大的域名搜索,避免陷入局部最优。而全局最优的附近,较长染色体和较低的交叉和变异概率会减少搜索的步骤,较长的染色体也提高了变异分辨率,避免在全局最优解附近徘徊,提高了算法收敛速度。
最后,应当指出,染色体长度的改变不会使个体适应性改变,因此它不影响选择(轮盘赌选择)。
算法描述
由于基本遗传算法没有在全局优化时收敛,而遗传算法保留了当前一代的最佳个体,我
们的方法采用这项策略。在进化过程中,我们跟踪到当代个体平均适应度的累计值。它被写成:
1GX(t)= favg(t)Gt1其中G是当前进化的一代,favg是个体的平均适应度。
当累计平均适用性增加到最初个体平均适应度的k(k> 1, k ∈ R)倍,我们将染色体长度变为其自身的m(m 是一个正整数)倍,然后减小交叉和变异的概率,可以提高个体分辨率、减少搜索步骤以及提高算法收敛速度。算法的执行步骤如下:
第一步:初始化群体,并计算个体平均适应度favg0,然后设置改变参数的标志flag。flag设为1.第二步:在所保留的当代的最佳个体,进行选择、再生、交叉和变异,并计算当代个体的累积平均适应度favg
favg0第三步:如果
favgk 且flag = 1,把染色体的长度增加至自身的m倍,减少交叉和变异概率,并设置flag等于0;否则继续进化。
第四步:如果满足结束条件,停止;否则转自第二步。
测试和分析
我们采用以下两种方法来测试我们的方法,和只保留最佳个体的遗传算法进行比较:
f1(x,y)0.5sin2x2y20.5[10.01xy222] [5,5]
x,y∈ [1,1] f2(x,y)4(x22y20.3cos(3πx)0.4cos(4πy))
x,y∈收敛的分析
在功能测试中,我们进行了以下政策:轮盘赌选择,单点交叉,位变异。种群的规
模是60。L是染色体长度,Pc和Pm分别是交叉概率和变异概率。我们随机选择4个遗传算法所保留的最佳个体来与我们的方法进行比较,它们具有不同的固定染色体长度和交叉和变异的概率。表1给出了在100次测试的平均收敛代。
在我们的方法中,我们采取的初始参数是l0 = 10,Pc0 = 0.3,Pm0 = 0.1和k = 1.2,当满足改变参数的条件时,我们调整参数l = 30,Pc = 0.1,Pm = 0.01。
1.1 在线和离线性能的分析
Dejong提出了遗传算法的定量评价方法,包括在线和离线性能评价。前者测试动态性能,而后者评估收敛性能。为了更好地分析测试功能的在线和离线性能,我们把个体的适应性乘以10,并f1和f2分别给出了4 000和1 000代的曲线:
(a)在线
(b)离线
图1 f1的在线与离线性能
(a)在线
(b)离线
从图1和图2可以看出,我们方法的在线性能只比第四种情况差一点点,但比第二种、第三种、第五种好很多,这几种情况下的在线性能几乎完全相同。同时,我们方法的离线性能也比其他四种好很多
结论
本文提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法。一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
附件
有了第一部分中假定的条件,定理1和定理2的验证是显而易见的。下面给出定理3和定理4的证明过程:
定理3 单点交叉的染色体搜索步骤的数学期望Ec(x)是
Ec(x)= 其中Pc是交叉概率
baPc 2l证明:
如图A1所示,我们假设交叉发生在第k个基因位点,从k到l的父基因位点没有变化,基因位点1到k上的基因改变了。
在交叉过程中,1到k基因位点上的基因改变的概率为0.5(“1”变化”0”或者”0”变为”1”),因此,交叉之后,基因位点上的染色体搜索步骤从1到k的数学期望是
k11ba1baEck(x)wjl2j1l(2k1)
22121j12j121此外,每个位点的染色体发生交叉的概率是相等的,即lPc。交叉后,染色
k体搜索步骤的数学期望是
1Ec(x)PcEck(x)k1l
把Eq.(A1)替换为Eq.(A2),我们得到 l1PbaP(ba)11ba1Pcl(2k1)cl[(2i1)l]c(1l)l22l2l212121k1lba0,所以Ec(x)Pc 其中l是非常大的,l2l21Ec(x)l1图1 单点交叉
定理4 位变异的染色体搜索步骤的数学期望是
Em(x)(ba)Pm
其中Pm是变异概率。证明:
每个基因位点上的基因的变异概率是相等的,比如Pm,因此变异搜索步骤的数学期望是:
Em(x)=åPm·wi=åPm·i=1i=1ll
升级软件补漏,拒机器狗于门外 篇3
迷糊虫:以前我常听说操作系统存在漏洞,不及时修补漏洞会被黑客利用,威胁到数据的安全。可是,最近我又听说,一些日常使用的工具软件也存在漏洞,同样会使自己的数据安全受到威胁,听起来怪可怕的。
马老师:是啊!如今不少工具软件因为与网络有关,比如下载工具、在线影音播放工具、在线阅读工具等,使用这些软件的过程实际上就是与网络交换数据的过程,因而如果这些软件存在漏洞,很容易被木马或病毒利用。今天我们就专门谈谈这方面的问题。
升级软件补漏,拒机器狗于门外
第三方软件漏洞已经是木马病毒入侵用户电脑的重要途径。360安全中心在对当前机器狗木马进行深入分析后发现,机器狗等若干近期爆发的木马均是通过网页挂马的形式由系统漏洞及第三方软件漏洞入侵用户系统的。
当大部分用户已养成定时给系统打漏洞补丁的习惯后,木马制造者又看中了第三方软件漏洞传播这一“隐蔽”渠道。被利用的第三方ActiveX插件漏洞,涉及迅雷、暴风影音、百度超级搜霸、RealPlayer等多款常见软件的部分版本,而且其中多数漏洞曾经是或者现在仍是0day漏洞。0day漏洞是已经发现但是官方还没发布补丁的漏洞。
鉴于这种情况,我们需要对这些常见软件及时更新,在发现漏洞后及时修复,并使用360安全卫士提供的机器狗专杀工具进行检测:http://dl.360safe.com/killer_rodog.exe(仅0.5MB左右)。
以下是360安全中心根据各大安全类站点报道及自身的详细分析,得出的常见第三方软件漏洞信息及解决方案,建议大家对照检查系统中软件是否存在漏洞,及时修补。
一、RealPlayer的漏洞
1. 漏洞说明
RealPlayer的MPAMedia.dll库所提供的RealPlayer数据库组件在处理播放列表名时存在栈溢出漏洞,远程攻击者可能利用此漏洞控制用户系统。由于可使用ierpplug.dll所提供的IERPCtl ActiveX控件将本地文件导入到RealPlayer中指定的播放列表,因此如果用户受骗访问了恶意网页并导入了恶意文件的话,就可以触发这个溢出,导致拒绝服务或执行任意指令。
2. 涉及版本
存在漏洞的版本包括:RealPlayer11 Beta、RealPlayer10.5、RealPlayer10.6。
3. 解决方法
下载最新版:http://www.newhua.com/soft/16622.htm
小提示
即便是您的电脑中没有装RealPlayer,但仍然可能有此漏洞。因为只要有其他软件使用了RealPlayer的组件,就有可能存在此漏洞。
二、暴风影音的漏洞
1. 漏洞说明
该漏洞发生在暴风影音II的一个ActiveX控件上,当安装了暴风影音II的用户在浏览黑客精心构造的包含恶意代码的网页后,会下载任意程序在用户系统上并以当前用户权限运行,已有多个网站利用暴风影音II漏洞进行挂马。
2. 涉及版本
“暴风影音”2.8版和“暴风影音”2.9测试版。
3. 解决方法
下载最新版:http://www.newhua.com/soft/25918.htm
三、PPStream的漏洞
1. 漏洞说明
这个漏洞的产生是由于PPstream的ActiveX控件在处理畸形、含远程执行代码的网页时,存在一个远程执行代码的栈溢出漏洞;浏览者可能被远程用户控制而拿到SYSTEM权限。
2. 涉及版本
PowerList.ocx 2.1.6.2916
3. 解决方法
下载最新版:http://download.ppstream.com/ppstreamsetup.exe
小提示
即便是您的电脑中没有装PPStream,但仍然可能有此漏洞。因为只要有其他软件使用了PPStream的组件,就有可能存在此漏洞。
四、迅雷的漏洞
1. 漏洞说明
迅雷的PPLAYER.DLL_1_WORK ActiveX控件存在缓冲区溢出漏洞,远程攻击者可能利用此漏洞控制用户系统。
迅雷的PPLAYER.DLL_1_WORK ActiveX控件(pplayer.dll组件版本号1.2.3.49,CLSID:F3E70CEA-956E-49CC-B444-73AFE593AD7F)中的FlvPlayerUrl函数没有正确地验证用户提供的参数,如果向其传递了超长参数就会触发缓冲区溢出,导致执行任意指令。病毒作者可利用该漏洞编写恶意网页,当用户浏览这些网页的时候,就会感染病毒,该病毒可以盗窃用户的账号和密码,从而使用户遭受损失。
2. 涉及版本
迅雷5.6.9.344
3. 解决方法
下载最新版:http://www.newhua.com/soft/30735.htm
五、Adobe Reader的漏洞
1. 漏洞说明
Adobe Reader或Adobe Acrobat打开恶意PDF文件时可能会启动file:// URL,这可能导致读取系统上的任意文件并发送给攻击者。
2. 涉及版本
Adobe Reader 7.0.8.0
3. 解决方法
下载最新版:http://ardownload.adobe.com/pub/adobe/reader/win/8.x/8.1/chs/AdbeRdr810_zh_CN.exe
六、Flash Player的漏洞
1. 漏洞说明
Flash Player中的ActionScript 3(AS3)存在漏洞,黑客可以通过此漏洞在用户浏览网页Flash动画时向用户电脑中植入木马。
2. 涉及版本
Adobe Flash Player 9.0.115.0或以下版本
3. 解决方法
下载Flash Player官方补丁:http://fpdownload .macromedia.com/get/flashplayer/current/licensing/win/install_flash_player_active_x.exe
机器翻译中的翻译单位研究 篇4
关键词:翻译单位,机器翻译,机器翻译系统,短语,层次短语
1946年, 世界上第一台电子计算机“ENIAC”诞生。同一年, 美国洛克菲勒基金会副总裁韦弗 (W.Weaver) 与英国工程师布斯 (A.D.Booth) 在探讨计算机应用范围时提出了利用计算机进行语言自动翻译的想法。1949年, 韦弗发表了一份题为《翻译》的备忘录, 正式提出了机器翻译的问题。
机器翻译就是利用计算机及其软件系统实现从一种自然语言 (源语言) 的文本或语音到另一种自然语言 (目标语言) 的文本或语音的翻译【1】。作为翻译中的重要研究领域, 机器翻译与翻译单位的结合并未受到足够重视。本文拟从机器翻译层面考察翻译实践中的具体操作单位, 通过综述机器翻译系统发展轨迹, 分析当前机器翻译系统翻译单位分布情况, 从而为翻译单位研究提供崭新方向。
1 从机器翻译系统发展看翻译单位研究
1954年, IBM-701计算机成功利用6条语法规则把250个俄语词汇和60多条俄语例句翻译成英语【2】, 第一次向世界正式揭开机器翻译研究序幕。至今为止, 机器翻译发展可以归纳为“初创期”“高潮期”“沉寂期”“复苏期”和现在正在经历的“快速发展期”五个阶段。
20世纪90年代以前, 基于规则的翻译方法在机器翻译系统设计方案中占据着主流地位。基于规则的翻译方法又称理性主义方法, 主张根据语言学理论和翻译理论采用物理符号系统模式构建符号表达式表征翻译过程。
1.1 直接翻译法
早期基于规则的翻译方法主要指直接翻译法, 即以词典为驱动, 借助词典查询的手段把源语言输入分解为单个词汇进行逐词翻译的方法。运用这种简易翻译方法操作的机器翻译系统只对源语言进行形态分析和必要的局部词序调整, 生成的翻译晦涩难懂。
此后, 机器翻译工作者意识到源语和译语之间的翻译不仅需要浅层词汇形态分析, 还需要深层句法结构和语义分析【3】。于是, 机器翻译系统开始利用转换翻译方法和中间语言翻译方法, 在翻译过程中引入语言学家编写的语言规则知识。
1.2 转换翻译法和中间语言翻译法
转换翻译方法涉及分析-转换-生成三个阶段:第一步是将源语言输入分析为其句法结构表征式;第二步是把源语言句法结构表征式转换为对应的目标语言句法结构表征式;第三步是从目标语言的句法结构表征式中生成目标语言输出。这种基于转换的翻译方法与人工翻译方法具有高度契合度, 因而成为实用规则机器翻译系统的主导翻译策略。
中间语言翻译方法是指运用一种抽象的语义表达式翻译的方法。这种抽象语义表达式与源文本无关, 但能捕捉源文本必要语言信息以生成恰当译文。可惜的是, 语言学家编写的深层文本表达式无法达到抽象意义表达式的效果。
机器能够依靠规则理解它所面对的自然语言, 但语言学家编写的规则主观性强、覆盖性差, 难以处理大量真实文本。此外, 常宝宝 (2002) 和何莲珍 (2007) 曾一针见血地指出基于规则的机器翻译系统默认词为翻译基本单位, 在消除歧义和语境联系方面仍然存在不足【4】【5】。
1990年前后, 大规模平行语料库的应用带领机器翻译研究进入了新纪元。机器翻译系统设计方案中融入了基于语料库的翻译方法即经验主义方法, 其中包括基于实例的方法和基于统计的方法。
1.3 基于实例的翻译方法
基于实例的翻译方法把双语对照翻译实例库作为主要的知识源, 依靠已有的知识经验, 通过类比原理进行翻译【6】。其翻译流程可以描述为:首先将源语言句子分解成片段, 然后在实例库中搜索与源语言片段匹配度最高的对应目标语言片段, 最后对目标语言片段进行适当重组生成目标语言句子。在基于实例的机器翻译系统中句子是翻译的基本分析单位, 单词或短语是翻译的基本操作单位。
1.4 基于统计的翻译方法
基于统计的翻译方法是指利用统计算法自动地从双语平行文本中学习翻译知识的方法【7】。这种翻译方法借助翻译模型和语言模型实现源语言句子与目标语言句子的解码。统计机器翻译系统应用的翻译模型已历经三代发展:第一代是基于词的翻译模型, 把单词作为翻译的基本单位;第二代是基于短语的翻译模型, 翻译基本单位由单词扩展为具有泛化概念的“短语”;第三代是基于句法的翻译模型, 可以细分为形式上基于句法的模型和语言学上基于句法的模型。语言学上基于句法的模型以句法短语作为翻译基本单位;形式上基于句法的模型中应用频繁的是Chiang (2005) 提出的层次短语模型【8】, 该模型主要使用同步上下文无关文法将层次短语生成翻译规则作为操作的基本单位。
1.5 基于混合策略的翻译方法
由于以上不同翻译方法驱动的机器翻译系统取得的翻译结果存在自身难以克服的弊端, 计算技术专家开始在翻译后处理阶段或翻译过程中利用混合策略翻译方法。这种翻译方法旨在单词、短语、句子三个不同级别对多个单系统引擎输出的翻译假设进行多系统结果融合, 以此提高机器翻译系统的翻译质量。
2 当前机器翻译系统中的翻译单位分析
本文选取考察的机器翻译系统均为参与全国机器翻译研讨会翻译评测活动的系统。全国机器翻译研讨会 (Chinese Workshop on Machine Translation, 简称CWMT) 是自2005年以来举行的一年一度的机器翻译大会, 迄今为止会议举办方共组织过六次 (2007、2008、2009、2011、2013、2015) 机器翻译评测活动。本文的研究对象是2011年度、2013年度以及2015年度参与评测的机器翻译系统。
根据三届评测报告描述, 2011年度评测活动由15家国内单位和4家国外单位报名参加, 19家单位在9个不同的评测项目上共提交了66个参评主系统【9】;2013年度评测活动共有16家单位 (含1家国外单位) 参加, 16家单位在6个评测项目上共提交了44个有效翻译主系统【10】;2015年度评测活动有14家单位 (含1家国外单位) 参加, 14家单位在6个评测项目上共提交了24个有效参评主系统【11】。
通过对各年度参评机器翻译系统类型进行统计 (参见表1) , 发现评测活动中提交的主系统多为基于统计的机器翻译系统。2011年度统计型机译系统数量占据参评主系统数量的比例是45:66, 2013年度这一比例为35:44, 2015年度24个参评主系统中则有23个统计机器翻译系统。同时, 数据显示基于混合策略的机器翻译系统近年来风头正劲, 2011年度和2013年度分别有16个参评主系统和8个参评主系统应用了系统融合技术。另外可以看到纯粹基于规则的机器翻译系统正在淡出研究视野, 2011年度提交的基于规则的机译系统结果也是规则系统与统计后编辑技术相结合的产物【12】。
鉴于当前机器翻译的操作集中采用句级对齐文本, 因此本研究考察句级单位框架下机译系统的翻译单位分布。结果表明2011年度 (参见表2) 、2013年度 (参见表3) 和2015年度 (参见表4) 参评的机器翻译系统主要以短语或层次短语作为翻译基本单位。
当前机器翻译系统的翻译基本单位定位在短语层级具有以下原因。第一, 句子层作为翻译基本单位涉及的词汇分析和语法分析相对复杂, 在普通文本中词汇-语法一致的句子复现率低。第二, 词汇层本身具有语义上的离散性, 必须借助局部语境才能组成语言使用的单位。第三, 短语层作为翻译基本单位上接句子, 下承词项, 能够有效调整短语内部的单词顺序和句子内部短语之间的顺序。以“That girl in a red dress is my sister.”的英译汉翻译为例, 有道词典和小牛翻译的输出结果分别如下:
有道词典:那个女孩在一个红色的裙子是我的妹妹。小牛翻译:红裙子的女孩是我的妹妹。
分析以上两处译文发现, 有道词典以单词作为翻译基本单位, 根据双语词典查询将“in a red dress”识别为一一对应的单词, 从而得出了“在一个红色裙子”的翻译结果;小牛翻译则以短语作为翻译的基本单位, 根据相邻词汇的共选频率将“in a red dress”识别为一个多词组合单位, 并考虑到其与“that girl”的修饰关系, 从而输出了正确的翻译结果“红裙子的女孩”。
3 结束语
一直以来围绕翻译单位的话题不绝于耳, 国内外学者们各抒己见, 从不同视角提出的翻译单位有:“词素、词、短语、句子、段落、语篇”, “句群或语段”, “主述位”, “意义单位”, “修辞结构段”, “认知单位或思维注意力单位”等等。本文从机器翻译视角重新思考翻译实践中的具体操作单位问题, 发现短语和层次短语作为机器翻译系统的翻译基本单位最为常见。
参考文献
[1]邵艳秋.机器翻译相关术语简介[J].术语标准化与信息技术, 2010 (1) :25-27.
[2]701 Translator[DB/OL].https://www-03.ibm.com/ibm/history/exhibits/701/701_translator.html.Retrieved 2016, January 18.
[3]冯志伟.自然语言处理的形式模型[M].中国科学技术大学出版社, 2010.
[4]常宝宝.基于汉英双语语料库的翻译等价单位自动获取研究[J].术语标准化与信息技术, 2002 (2) :24-29.
[5]何莲珍.基于汉、英平行语料库的翻译数据库设计[J].现代外语, 2007, 30 (2) :191-199.
[6]程洁, 杜利民.EBMT系统中的多词单元翻译词典获取研究[J].中文信息学报, 2004, 18 (1) :55-61.
[7]刘占一.基于对齐技术的搭配获取及其在机器翻译中的应用研究[D].哈尔滨:哈尔滨工业大学, 2013.
[8]David Chiang.Hierarchical Phrase-based Translation[J].Com-putational Linguistics, 2007, 33 (2) :201-228.
[9]赵红梅, 吕雅娟, 贲国生.第七届全国机器翻译研讨会 (CW-MT2011) 评测报告[A].机器翻译机器翻译研究进展——第七届全国机器翻译研讨会论文集[C].2011.
[10]赵红梅, 谢军, 吕雅娟.第九届全国机器翻译研讨会 (CW-MT2013) 评测报告[R].第九届全国机器翻译研讨会 (CW-MT2013) , 2013年10月31~11月1日, 昆明.
[11]汪昆, 姜文斌, 杨海彤.第十一届全国机器翻译研讨会 (CW-MT2015) 评测报告[R].第十一届全国机器翻译研讨会 (CW-MT2015) , 2015年9月24~25日, 合肥.
机器翻译技术的现状及发展 篇5
摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。
关键词:机器翻译;自然语言;发展趋势
1.引言
《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。
2.机器翻译的定义
计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。
3.机器翻译的历史与现状
在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题
4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:
原文:Thank-you notes are heart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。
在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。
4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。
原文:“But this beauty of Nature which is seen and felt as beauty, is the least part.”—Beauty Ralph Waldo Emerson
机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:“I hauled down my colors and surrendered.”
—Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。张有松译文:我偃旗息鼓,甘拜下风。
以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工
修改、加工。
5.机器翻译的发展趋势
机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。” 因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。
6.结语
目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。
参考文献
[1] 李娟,《圣经旧约名篇精选(英汉对照)》[M].天津人民出版社,2002
[2] Hutehins, W.J.et al.An Introduction to Machine Translation[M].Academic Press, 1992
机器翻译软件 篇6
关键词:机器翻译;翻译策略;建筑行业翻译
中图分类号:H085文献标识码:A文章编号:1671-864X(2015)11-0098-01
一、机器翻译发展历史
机器翻译就是用计算机将一种语言转换成另外一种语言的过程,他是人工智能的一个研究领域。机器翻译涉及到语言学、计算机科学、数学等许多部门,是非常典型的多边缘的交叉学科。
20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器进行翻译的想法。1954年美国用IB-701计算机首次完成了英俄机器翻译试验;1957年,中国科学院语言研究所与计算机技术研究所合作开展俄汉翻译机器试验,翻译了九种不同类型的复杂的句子。然而到了20世纪60年代,机器翻译饱受争议,随着美国科学院公布的《语言与机器》的报告对于机器翻译的否定,以及中国爆发的“十年文革”机器翻译步入萧条时期。直到70年代以后,随着科技的发展和各国交流的日趋频繁,国与国之间的语言障碍显得尤为严重,此时传统的人工作业已经远远不能满足需求,迫切地需要计算机来从事翻译工作。就这样,机器翻译再次发展了起来。各种实用的系统先后被推出,如Weinder系统,EURPOTRA多国语翻译系统等,中国也研制成功了KY-1和MT/EC863两个英汉记忆系统。近几年机器翻译在统计方法的推动下,有了很大的进步,涌现出了很多的新理论和新方法。不仅翻译质量较传统的规则方法有了较大的提高,而且由于可以从大规模语料库中自动获取翻译知识,无需人工撰写规则,大大缩短了机器翻译系统的开发周期,拓展了机器翻译的应用,也降低了机器翻译研究的门槛,这吸引了更多的研究者投入到机器翻译研究中来,使得这个研究领域充满了生机与活力。
二、机器翻译过程
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
机器翻译可设计成双语翻译或者多语翻译系统。双语翻译系统可设计为单向翻译,如日语译为英语,或双向翻译。机器翻译系统划分为基于规则式、基于统计式、基于实例式,以及采用混合策略(hybrid)引擎的系统。
基于规则式(rule-based)的机器翻译系统又分为语法型、语义型知识型和智能型三种类型,世界上绝大多数的机译系统都采用以规则为基础的策略。基于统计式(statistic-based)的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。基于统计式的机器翻译方法认为,源语言句子到目标语言句的翻译是一个概率问题,任何一个目标语言句都可能是任一源语言句的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做是对原文通过模型转换为译文的解码过程。基于实例式(example-based)的机器翻译方法由日本著名的机器翻译专家长尾真提出,即不经过深层分析,仅通过已有经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言分解为句,再分解为短语,接着通过类比的方法将短语译成目标语短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语实例库,核心问题就是通过最大限度的统计,得出双语实例库。基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。
三、机器翻译的发展前景
随着科学技术的发展以及经济全球化,中国与国际间的友好往来及经济合作日益增多,对外联系和国际交流日益频繁。越来越多的外国友人也来到中国学习、工作、生活和旅游,作为世界官方语言的英语已经渗透到中国社会的各个角落。在一定程度上,翻译能够提升我国的国际形象和国际地位因此。
国家要发展必然离不开同世界的交流,英语已经应用到我国的各个方面包括建筑行业。建筑业,尤其是基础设施建设的投资往往是很大的,我国的基础设施总体而言还比较差,引进外资是非常必要的。按照国际惯例这些涉外工程必须通过国际竞争投标来选择施工企业,所以所有正式文件均用英文编写。例如,面对外资工程,一般按照国际惯例采用FIDIC合同条件,按该合同条件规定“投标书和投标人与雇主或其代理人国际招标公司之间的与标书有关的来往函件和文件均使用英文。”而标书是合同的组成部分,合同也必须同样使用英文。失之毫厘,差之千里。因一个小小的错误造成巨大的损失,这在我国现代建筑行业引进外资而用英语签订的合同已不少见。除此之外,无论是在计算上还是建筑材料的使用上,准确都是至关重要的。那么,在整个施工过程中所有人员对于信息的了解都是必须明确的。连简单的“from”和“to”的翻译错误就会导致难以弥补的损失。在整个建筑行业,英语的交流必不可少,而交流的目的就是传达信息。因而只有掌握好英文,才能尽量避免在合同中出现不利于中方的错误,减少不必要的损失,提高外资的使用效益。除此之外,我们还会必要的聘请国外设计师,有时还需要引进国外的管理模式等。面对当今的这些挑战,人工翻译已远远不能满足人类的需求,机器翻译的出现大大提高了翻译工作的效率以使人们的沟通更加频繁,面对着各种英语甚至更多种语言的工程合同机器翻译无疑为人们提供了极大的便利。机器翻译的优点之一就是它的专业性较强,对于这种专业性的翻译要求它的效率和准确性较人工翻译也就更高。不得不说,机器翻译系统的诞生,给人们尤其是翻译工作者带来了希望。虽然机器翻译还有一定的局限性,但倘若数学、计算机、翻译学及语言学等领域的研究者齐心协力,定能使机器翻译开出更美的花朵。
注:特业项目翻译及咨询创业实践,项目结项使用。
机器翻译软件 篇7
机器翻译(Machine Translation)是自然语言处理(N-atural Language Processing)的重要分支之一,其目的是借助计算机将文字或者语音从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。早期的机器翻译借助基于语法规则的转换语法,在翻译词典的基础上实现源语言到目标语言的翻译。这种方法可以在特定领域取得很好的效果,例如天气预报。因为这些领域的翻译比较规律,容易总结出相关的翻译模式。然而针对较为复杂的领域,例如新闻或者旅游等,总结出的翻译模式就很难保证覆盖度和准确度了。
从上世纪末开始,随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始异军突起。目前非限定领域机器翻译中,统计方法是性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型结合语言模型来进行翻译(机器翻译中将翻译过程可以看成解码过程)。从发展阶段来看,统计机器翻译最早以基于词的方法为主,现在已经完全过渡到基于短语的翻译方法。统计机器翻译的研究方面,目前开始出现大量的融合句法信息的方法,以实现进一步提高翻译的精确性。但相对于基于短语的方法,基于句法的方法产生的翻译模型会庞大很多,相应的翻译速度也会慢很多。目前实用的统计机器翻译系统都主要集中在基于短语的方法上,现在的一些商用机器翻译系统也是基于短语的方法,例如Google的翻译系统。
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,并运用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。
统计机器翻译系统的翻译效果与用于训练翻译模型的双语平行语料的规模有关。普遍的共识是平行语料的规模越大,翻译的结果就会越准确。事实上,Google的翻译系统就是基于超大规模的双语平行语料训练出来的。但是,语料增大随之而来的问题就是得到的翻译模型的规模也会越大。在同样计算能力的条件下,翻译模型越大,翻译速度就会越慢。为了解决这个问题,很多科研人员开始考虑如何约简翻译模型的规模,例如从手机等移动设备的角度来尽可能约简。
以Moses为代表的基于短语的统计机器翻译系统在双语平行语料上训练得到的翻译模型的格式如下:
Source Phrase|||Target Phrase|||Related Features
其中Source Phrase是源语言短语,Target Phrase是目标语言短语,Related Features是用于实际句子翻译过程中的短语对的相关特征。如下所示为实际的一个翻译模型所对应的一条短语对(Bi-phrase):
很多议员|||many councillors|||0.04 2.15638e-081 0.000542039 2.718
本文所述的统计机器翻译模型的约简就是对这些翻译的短语对进行相应的度量,并最终进行适当的剔除。后续部分还介绍了经典的统计机器翻译的处理流程以及模型约简的三个类别的方法。
1 经典的统计机器翻译处理流程
统计机器翻译发展至今,相关软件的开源开发在其中发挥了重要的促进作用。下面以Moses为例,简述经典的统计机器翻译的学习和翻译的基本流程。
统计机器翻译一般都从双语平行语料开始进行处理。先在句子对齐的语料库上调用Giza++词对齐程序进行迭代处理,在得到的词对齐结果上按照一些启发式规则抽取得到相应的短语对齐结果,例如上面提到的“Source Phrase|||Target Phrase”。随后对这些抽取得到的短语对按照相应的统计方法得到与相关的短语对所对应的特征值,例如前面的“Related Features”及相关的那些数值。至此就得到了统计机器翻译的翻译模型。也就是说,大量的短语对及相关特征构成了翻译模型。
接下来,实际的机器翻译解码器会在这个翻译模型以及另外训练得到的语言模型的基础上,通过一些调试数据对一些特征相关的参数进行调优。得到最优参数后,就可以在解码器的基础上对任意输入的源语言句子进行翻译。实际评测机器翻译性能的方法是将一些有多个参考答案的句子经翻译后,把翻译结果和多个标准答案比对,得到最终的得分。最常用的得分标准叫做BLEU值。BLEU值越高的系统被认为翻译质量最好。
例如,在一个100万句对平行语料上经过词对齐、短语抽取处理得到的短语表的大小为68 968 597;在一个20万句对平行语料上得到的短语表大小为26 787 367。
2 翻译模型约简方法的三种类型
统计机器翻译研究的经验表明,用于训练翻译模型的双语平行语料规模越大,最终机器翻译结果的质量就会越好。但是随着语料的增多,翻译模型的大小也会变得非常巨大。为了缩小翻译模型的大小,很多研究人员尝试了各种方法来对翻译模型中的短语对进行评估并删除质量较差的短语对。这其中,多数方法在翻译模型减小的同时,会降低最终解码器的翻译质量,即BLEU值;但也有一些方法能在翻译模型减小很多的情况下,最终的BLEU值却没有一点显著的损耗,甚至有方法能够使得BLEU值得到提高。最理想的模型约简方法就是在翻译模型大幅度减小的同时,最终的BLEU值也得到一定的提高。这种现状说明,翻译模型中有不少短语对对于最终的机器翻译起到了反作用。
下面分四种类型来介绍这些翻译模型的约简方法。
2.1 根据解码器解码过程中短语对的出现情况进行约简
实际的解码器在进行句子翻译时会穷举输入句子可能的各种切分结果,根据这些切分结果形成的Source Phrase在翻译模型中查询得到所有对应的Target Phrase,这些Target Phrase又会在不断深入的搜索中进行相应的排序,最终会被选中出现在翻译结果中的Target Phrase所对应的短语对被认为是重要的。实际上一个源语言句子的翻译结果会有很多个,通常解码器会根据需求输出最靠前的翻译结果,这些翻译结果被认为是系统输出的最终结果。
Eck等[1]将一个在调试集上调好参数的解码器用来翻译一组大量的源语言句子,针对每个翻译模型中的短语对统计如下两个数值:
(1)c(phrase pair)=短语对在语料翻译过程中被考虑(出现在翻译候选中)的次数;
(2)u(phrase pair)=短语对出现在最终翻译结果(被选中)中的次数。
对于每个短语对,最终的得分为:
最后将每个短语对,根据score从高到低进行排序,对于排序结果取出前N个短语对作为翻译模型约简的结果。
Eck等[2]在上述工作的基础上进一步考虑到了短语对在翻译结果的N-best中的情况。如图1所示,针对某个源语言句子的翻译结果的N-best中,i-best包含ki个短语对。解码器会根据这个N-best顺序选择最优的翻译结果1-best。但是根据源语言句子的多个参考翻译结果,采用某种评价方法(metric),例如BLEU,实际上最好的结果是ibest。
Eck等[2]的工作是根据i-best相对于1-best的距离关系来对各个i-best中的短语对打分,两种打分公式如式(2),式(3)所示,然后根据这个打分进行短语对排序并选择排序靠前的结果作为约简结果。
Eck等的这两种方法都能够进行有效的约简,但是得到的约简翻译模型对应的翻译质量都有所降低,文献[2]的约简结果的翻译质量优于文献[1]。
2.2 根据双语平行语料中短语对的出现情况进行约简
翻译对来自于双语平行语料,但翻译对的抽取却采用了一些启发式的方法。这些方法并没有考虑翻译对在双语平行语料中整体出现的情况。为此,针对翻译对在双语平行语料中的出现情况,研究人员分别提出了p-value,noisevalue,C-value等方法。
首先,定义翻译对的源语言短语Source Phrase为s,目标语言短语Target Phrase为t;C(s,t)为平行语料中源语言句子至少包含s的一次出现,同时目标语言句子至少包含t的一次出现的双语句对的句子个数;C(s)为平行语料中源语言部分至少包含s的一次出现的句子的个数;C(t)为平行语料中源语言部分至少包含t的一次出现的句子的个数;假设平行语料包含N个双语句对。根据这些统计量,得到s和t的联立表如表1所示。
根据表1中的数据,Fisher精确检验采用如式(4),式(5)的超几何分布函数phg来计算精确的p-value统计量。
Johnson等[3]采用的就是式(5)的p-value来对翻译模型中所有的短语对进行打分,随后按从高到低的顺序来择优选取短语对作为约简的结果。事实上,这种方法在将短语表约简到原始大小的大约10%时,还能使得最终的翻译质量得到提升。这是一种目前为止最好的翻译模型约简方法。
随后,Tomeh等[4]在上述p-value方法的基础上,根据Moore[5]指出的p-value方法的缺点以及noise-value方法的优点,采用noise-value来进行翻译模型的约简。Moore[5]指出,针对出现频率较低的一些事件,p-value数值较高并不一定意味着s和t之间具有独立性。Tomeh等[4]采用的noise-value的定义如下:
事实上,Tomeh et al.[4]的实验结果显示,虽然noise-value也能在将翻译模型约简到28%左右还能保证翻译质量不降低,但是Johnson et al.[3]的方法明显还是要好一些。
上面两种方法都是在统计短语对的源语言短语和目标短语分别在平行语料中的出现情况。He等[6]借用术语抽取领域的C-value来衡量短语对的质量。一个短语对p的C-value主要考察四个因素:(L,F,S,N),其中:
(1)L(p)是短语对中源语言短语的长度;
(2)F(p)是源语言短语在语料中的出现频率;
(3)S(p)是源语言短语在语料中作为子串出现在其他更长短语中的频率;
(4)N(p)是语料中包含源语言短语的短语的个数。
具体的计算算法是:
如果N(p)=0,C-value(p)=(L(p)-1)觹F(p);
否则C-value(p)=(L(p)-1)觹(F(p)-S(p)/N(p))。
C-value在术语抽取领域被广泛使用,He等[6]指出这种方法在翻译模型约简到22%时还能保证翻译质量的BLEU值不降低,并且将这个数值作为解码器的附加特征进行参数调优后在22%的约简前提下,BLEU值还能有一定的提高。
2.3 根据短语对的内部词对齐情况来进行约简
上面的两类方法都是在考察短语对在平行语料中的情况,这里的第三类方法重点考察短语对内部的对齐情况。因为短语对是在平行语料词对齐结果的基础上抽取得到的。
Sánchez-Mart覦nez等[7]考虑了短语对中的词类情况。文中将词语分成开放词类(Open Words)和封闭词类(Closed Words)。根据两条原则来剔除短语对:
(1)如果短语对的源语言短语或者目标语言短语包含开放词类,但是至少有一个开放词没有在另一端对齐到开放词类上;
(2)在上一条原则的基础上,如果短语对的任何一端的第一个或者最后一个词语对空。
注:对空现象是在进行对齐短语抽取时可能产生的现象,例如“我们一起吃饭|||let's have dinner together but”中的but。
针对相关的语言,Sánchez-Mart覦nez等[7]定义了封闭词类包含哪些类别以及具体的词语,没有包含其中的词语都是开放词类。图2分别定义了英语、法语、西班牙语的封闭词类。
这种启发式的方法得到的翻译模型约简会导致翻译结果的BLEU值降低1-2个点。
基于此,He等[8]将短语对的内部对齐情况分成两大类:不能再分拆的最小对齐,和由最小对齐构成的组合对齐。例如图3左图表示最小对齐,右图表示组合对齐。
在组合对齐里,又分为单调组合(如图4左图)和非单调组合(如图4右图)。
He等[8]的方法是将翻译对里单调组合的短语全部剔除,因为这种单调组合的短语在实际解码过程中可能通过最小对齐的短语对顺序地拼接而成。仿真实验结果显示,在翻译模型被约简为原始大小的30%左右时,相应的BLEU值还能有一点提高。从约简计算的代价来看,也是值得推广的。
3 结束语
统计机器翻译的研究越来越热,刚刚结束的自然语言处理顶级会议ACL2011中机器翻译达到了史无前例的7个分会场[9]。随着机器翻译的深入研究,相信会产生更多的关于翻译模型约简的研究成果。在本文综述的四类方法中,笔者认为最好的方法是基于Fisher精确检验理论的Johnson等[3]的p-value的方法,因为在模型约简到原始大小的10%左右规模的同时,还能得到测试语料上BLEU值的提高。当然,这种Fisher精确检验的方法存在的一个问题是对翻译模型完成一次约简需要一定的时间,而这是因为Fisher精确检验方法的计算复杂度相对较高。如果为了进行快速的翻译模型约简,可尝试He等[8]的剔除单调组合对齐的短语对的方法。
笔者针对翻译模型约简进行过一些尝试。在统计学中,Fisher精确检验比传统的卡方检验效果要好,但还存在一种理论上比Fisher检验更好的方法——Barnard检验[10]。Barnard检验是在[0,1]区间内寻找一个最优的度量值来作为检验的结果,虽然理论上更优,但是计算量惊人。如果Barnard检验的计算复杂度能够降低的话,应该是一种非常值得探索的方法。
参考文献
[1]ECK M,VOGEL S,WAIBEL A.Translation model pruning viausage statistics for statistical machine translation[C]//Human La-nguage Technologies 2007:The Conference of the North Ameri-can Chapter of the Association for Computational Linguistics;C-ompanion Volume,Short Papers,New York Rochester:Associa-tion for Computational Linguistics,2007:21-24.
[2]ECK M,VOGEL S,WAIBEL A.Estimating phrase pair relevan-ce for translation model pruning[C]//Proceedings of the MT Su-mmit XI,2007.
[3]JOHNSON H,MARTIN J,FOSTER Ge,t al.Improving transla-tion quality by discarding most of the phrasetable[C]//Proceed-ings of the 2007 Joint Conference on Empirical Methods in Na-tural Language Processing and Computational Natural LanguageLearning(EMNLPCoNLL),Prague,Czech Republic:Associationfor Computational Linguistics,2007:967-975.
[4]TOMEH N,CANCEDDA N,DYMETMAN M.Complexity-basedphrastable filtering for statistical machine translation[C]//Proce-edings of the MT Summit XII,2009.
[5]MOORE R C.On log-likelihood-ratios and the significance ofrare events[C]//Lin Dekang,Wu Dekai.Proceedings of EMNLP2004,Spain,Barcelona:Association for Computational Linguis-tics,2004:333-340.
[6]HE Zhongjun,MENG Yao,LV Yajuane,t al.Reducing smt ruletable with monolingual key phrase[C]//Proceedings of the ACLI-JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ-ation for Computational Linguistics,2009:121-124.
[7]Sánchez-Martnez F,Way A.Marker-based filtering of bilingualphrase pairs for smt[C]//Proceedings of the 13th Annual Meetingof the European Association for Machine Translation(EAMT-09),Citeseer,2009:144-151.
[8]HE Zhongjun,MENG Yao,YU Hao.Discarding monotone comp-osed rule for hierarchical phrase-based statistical machine tran-slation[C]//Proceedings of the 3rd International Universal Comm-unication Symposium,ACM,2009:25-29.
机器翻译系统发展与研究 篇8
一、机器翻译概况
机器翻译 (machine translation) , 又称为自动翻译, 是利用计算机把一种自然源语言转变为另一种自然目标语言的过程, 一般指自然语言之间句子和全文的翻译。它是自然语言处理 (Natural Language Processing) 的一个分支, 与计算语言学 (Computational Linguistics) 、自然语言理解 (Natural Language Understanding) 之间存在着密不可分的关系。
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中, 根据不同方案的目的和要求, 可以将原文译文转换阶段与原文分析阶段结合在一起, 而把译文生成阶段独立起来, 建立相关分析独立生成系统。在这样的系统中, 原语分析时要考虑译语的特点, 而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时, 宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来, 把原文译文转换阶段同译文生成阶段结合起来, 建立独立分析相关生成系统。在这样的系统中, 原语分析时不考虑译语的特点, 而在译语生成时要考虑原语的特点, 在搞一种语言对多种语言的翻译时, 宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来, 建立独立分析独立生成系统。在这样的系统中, 分析原语时不考虑译语的特点, 生成译语时也不考虑原语的特点, 原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时, 宜于采用这样的独立分析独立生成系统。
二、国外机器翻译发展
1954年, 由Georgetown大学和IBM公司合作, 实现了第一个真正的机器翻译系统, 并且在IBM纽约总部进行了俄译英公开演示。他们用IBM-701计算机, 把几个简单的俄语句子翻译成英语。尽管这个系统很小, 只有250条俄语词汇, 6条语法规则以及精心挑选的翻译例句, 但是第一次向公众和科学界展示了机器翻译的可行性。
20世纪50年代中期, 在美国掀起了机器翻译研究的高潮。这一时期的机器翻译系统主要采用直接翻译 (Direct Translation) 方法, 一般都没有进行很好的源语言据法结构分析, 而是主要以词典为驱动, 利用词典中的语法和语义特征来实现翻译。直接翻译方法的特点是在源语言分析阶段和目标语言综合 (即生成) 之间没有明确的区分, 这样的系统被称为第一代机器翻译系统。
20世纪70年代, 西欧和加拿大开始出现以追求可读性和忠实性为目标的第二代机器翻译系统。这些系统以基于转换的方法为代表, 普遍采用以句法分析为主、辅以语义的基于规则的方法, 采用有抽象的转换表示的分层次实现策略, 综合了多种技术:知识与算法分离, 模块化设计, 多种句法分析策略以及语义分析等等, 并且大多引入了人工智能技术, 其中许多方法和技术直到今天仍被沿用。期间比较著名的系统有:SYSTRAN多语言翻译系统、Weinder系统、EURPOTRA多国语翻译系统、TAUM-ME-TEO系统等。
20世纪90年代至今, 随着Internet的普遍应用, 世界经济一体化进程的加速以及国际社会交流的日渐频繁, 传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求, 人们对于机器翻译的需求空前增长, 机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开, 中国也取得了前所未有的成就, 相继推出了一系列机器翻译软件, 例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下, 商用机器翻译系统迈入了实用化阶段, 走进了市场, 来到了用户面前。
三、我国机器翻译发展
中国机器翻译研究起步于1957年, 是世界上第4个开始搞机器翻译的国家, 60年代中期以后一度中断, 70年代中期以来有了进一步的发展。现在, 中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个, 翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统, 也有汉译英、法、日、俄、德的一对多系统 (FAJRA系统) 。此外, 还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大, 内容正在不断地完善。比较有代表性的系统有:高立英汉翻译系统, IMT/EC英汉翻译系统, Matrix英汉机器翻译系统, Sino Trans汉外机器翻译系统等等。
鉴于机器翻译仍具相当市场, 中国涉足这一领域的厂商也不一而足。目前, 国内市场上的翻译软件产品可以划分为四大类:全文翻译 (专业翻译) 、在线翻译、汉化软件和电子词典。全文翻译软件以中软“译星”以及“雅信CAT2.5”为代表;在线翻译软件主要以“金山快译.net2001”、华建的“翻译网上通”为代表;汉化类翻译软件主要以“东方快车3000”为代表;词典工具以“金山词霸.net2001”为主要代表。
由于机器翻译在今后需要满足人们在浩瀚的互联网上方便地进行信息搜集的需求, 于是很多翻译开发者在翻译准确度上下工夫的同时, 开始注重结合用户的使用领域并进行方向性的开发。根据目前的市场发展看来, 在新一轮的竞赛中, 在线翻译前景十分看好。目前, 中国的网民已超4亿, 并继续以极快速度增长。
四、机器翻译系统的类型
根据实现机器翻译系统的技术将机器翻译系统划分为直接式, 基于规则式, 基于语料库式 (基于统计式和基于实例式) , 以及采用混合策略引擎的系统。
直接式机译系统也称直译式机译系统, 一般把原句中的词或句子直接替换成相应的译语的词或句子, 必要时对词序进行简单的调整。这种系统一般难以取得较高的翻译质量, 但是实现技术相当简单, 容易开发。
基于规则 (rule-based) 的系统主要由词典和规则库构成知识源, 世界上绝大多数的机译系统都采用以规则为基础的策略, 一般分为语法型, 语义型、知识型和智能型。
基于语料库 (corpus-based) 的系统是90年代以来发展起来的新技术, 其特点是采用大规模的双语语料库作为机器翻译系统的开发基础。根据所采用的具体技术可以分为基于统计 (statistic-based) 系统和基于实例 (example-based) 系统。
基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程, 用一种信道模型对机器翻译进行解释。这种思想认为, 源语言句子到目标语言句子的翻译是一个概率问题, 任何一个目标语言句子都有可能是任何一个源语言句子的译文, 只是概率不同, 机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题, 就是为机器翻译建立概率模型, 也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题, 是要利用语料库来得到这个模型的所有参数。所谓解码问题, 则是在已知模型和参数的基础上, 对于任何一个输入的源语言句子, 去查找概率最大的译文。
与统计方法相同, 基于实例的机器翻译方法也是一种基于语料库的方法, 其基本思想由日本著名的机器翻译专家长尾真提出, 他研究了外语初学者的基本模式, 发现初学外语的人总是先记住最基本的英语句子和对应的日语句子, 而后做替换练习。参照这个学习过程, 他提出了基于实例的机器翻译思想, 即不经过深层分析, 仅仅通过已有的经验知识, 通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子, 再分解为短语碎片, 接着通过类比的方法把这些短语碎片译成目标语言短语, 最后把这些短语合并成长句。对于实例方法的系统而言, 其主要知识源就是双语对照的实例库, 不需要什么字典、语法规则库之类的东西, 核心的问题就是通过最大限度的统计, 得出双语对照实例库。基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果, 随着例句库规模的增加, 其作用也越来越显著。对于实例库中的已有文本, 可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本, 可以通过类比推理, 并对翻译结果进行少量的修改, 构造出近似的翻译结果。
参考文献
[1]P.Brown, S.Della Pietra, V.Della Pietra, and R.Mercer (1993) .The mathematics of sta-tistical machine translation:parameter estima-tion.Computational Linguistics, 19 (2) , 263-311.
[2]周海中.“机器翻译50年”.《语文研究群言集》.中山大学出版社, 1997年.
[3]李志升, 于浩.机器翻译系统.哈尔滨工业大学出版社.
统计机器翻译领域自适应综述 篇9
机器翻译又称为自动翻译, 是利用计算机程序将文字从一种自然语言 (源语言) 翻译成另一种自然语言 (目标语言) 的处理过程。这是自然语言处理的一个分支, 与计算语言学、自然语言理解之间存在着密不可分的关系。
机器翻译的方法主要可以分为基于规则的机器翻译方法、基于实例的机器翻译方法和基于统计的机器翻译方法。目前, 统计机器翻译是非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的双语对照语料进行统计分析, 构建统计翻译模型, 进而使用此模型完成翻译。随着互联网技术的迅猛发展, 人们获取信息的方式也发生了很大变化。互联网上有大量的信息以不同的语言为载体, 这为统计机器翻译的研究提供了充足的数据支持。与此同时, 随着统计机器翻译研究的深入, 其性能及实用性也获得了较大提升, 因而机器翻译技术的受众正日渐增多, 其应用亦越来越广泛。通常来讲, 一个成型的统计机器翻译系统使用了大规模的双语对照语料做训练, 而且这些数据却常常来自于不同领域, 具体则包括了政治、财经、军事、科技、体育、教育和娱乐等各大门类在内。除此之外, 不同领域的语料涵盖了不同的文体, 相应地包括着书面文体、口语文体和网络语言等。这种领域和文体的差异性给统计机器翻译的研究将会带来两个问题:其一, 使用某一个领域或文体的双语语料训练得到的机器翻译系统在翻译同一领域的文本时效果最佳, 而当翻译其他领域的文本时结果则常常不尽如人意, 有时的翻译结果甚至不可接受, 本文即将这种问题称为“领域间的自适应问题”。其二, 使用多领域混合的双语语料训练得到的机器翻译系统的通用性虽然较好, 但由于多个领域数据的相互影响以及相互制约, 系统在某一特定领域往往无法达到最佳效果, 在此则将这种问题称为“领域内的自适应问题”。在统计机器学习领域, 已经研发了一些针对领域自适应问题的解决方法, 但是其中的大部分仅能用于解决简单学习问题 (如分类或回归) 的计算实现, 而对于统计机器翻译这种结构化学习问题, 目前的尝试方法还较为有限, 也随即成为亟待研究的热点问题之一。
1 统计机器翻译背景
给定源语言句子f, 统计机器翻译系统给出目标语言翻译候选集合H (f) , 对每一条翻译候选e∈H (f) , 翻译系统给出对应翻译概率P (e|f) , 用来表示f将翻译成e的可能性。由此, 翻译问题就转化为如下过程, 即:在已知源语言句子f的情况下, 寻找使得条件翻译概率P (e|f) 最大化的目标语言句子ê。对此过程可用公式具体描述为:
Och等人提出了基于最大熵模型[1]的统计机器翻译方法[2]。最大熵模型是对信源信道模型的一个泛化方法, 其突出优点在于:任何特征都能够很容易地加入到最大熵模型中去 (例如语言模型、翻译模型、调序模型等) 。在此, 将使用数学公式对其描述为:
在最大熵模型下, 统计机器翻译的任务将分解转化为特征选取和参数训练。其中, 特征选取的目的在于选择各种翻译特征精确地刻画翻译过程, 而参数训练的目的则在于对最大熵模型中每个特征有关的特征权重进行相应赋值。
2 统计机器翻译的领域自适应
目前, 统计机器翻译领域的自适应研究并没有公开的标准测试数据集, 不同的研究方法将自行选择不同领域的数据进行性能测试, 因此上关于各种方法的性能差异以及各自优、缺点的对照就较难实现。具体来讲, 统计机器翻译的领域自适应方法可以粗略分为基于数据选择的方法、基于混合模型的方法、自学习为代表的半监督学习方法和基于话题模型的方法四大类。下面即对各类方法进行综合详细的介绍与论述。
2.1 基于数据选择的方法
基于数据选择方法的根本思想在于, 选择和目标领域文本“相似”的源领域数据进行模型的训练, 但相似度函数需要自行定义, 如此即可使训练得到的模型在目标领域的预测能力更好。
Eck等人于2004年提出了基于信息检索的语言模型自适应[3], 并将这种方法用于统计机器翻译。实现过程是:通过简单TF-IDF方法, 可以使用测试数据的翻译结果重新选择语言模型的训练数据, 在此基础上, 又通过训练新的语言模型第二次进行翻译解码。Zhao等人于2004年相应地也提出了类似的方法[4], 具体是将新训练的语言模型和旧的语言模型进行插值, 并以其用于第二次翻译解码。
进一步地, Lü等人则于2007年介绍了离线和在线的方法进行数据选择[5], 而且也用于统计机器翻译的模型训练。具体地, 离线的方法是将训练数据中的每一个双语句对赋以权重, 用其表示和测试数据的相似度, 同时在训练翻译模型的时候还要考虑不同句对的权重信息。此外, 在线的方法就是通过训练一系列提前已经定义的子模型, 当对测试数据进行翻译时, 即可通过信息检索的方法确定不同子模型的权重, 并就不同的子模型进行对数线性插值。
其后, Matsoukas等人又于2009年提出了一种基于判别式模型对训练数据赋权重的方法[6]。这种方法利用一些领域相关的特征对训练数据进行判别式学习以及赋相应权重, 并在训练翻译模型时, 将利用每个双语句对的权重进行翻译概率的最大似然估计。
近年来较为典型的研究成果当首推Moore和Lewis于2010年的提出基于交叉熵的语言模型数据选择方法[7], 该法能够使用更少的数据训练得到更好的语言模型。而基于Moore等人的方法, Axelrod等人更于2011年提出了基于交叉熵的双语数据选择方法[8], 并利用选择出的数据训练所有的模型分量 (包括语言模型、翻译模型、调序模型等) , 实验表明这种方法优于Moore等人的方法, 而且更重要的是显著提高了口语机器翻译的性能。
2.2 基于混合模型的方法
混合模型是统计机器学习理论中的传统实现技术之一[9], 利用混合模型进行统计机器翻译的学习主要包括:
(1) 将训练数据分为几个不同的部分;
(2) 利用每一部分数据训练一个子模型;
(3) 根据测试数据的上下文信息适当地为每个子模型调整权重。
已有研究工作中, Foster和Kuhn于2007年提出了基于混合模型的统计机器翻译领域自适应的方法[10], 通过对语言模型和翻译模型同时进行了自适应的研究, 并相应给出了混合模型的线性插值以及对数线性插值的区别。之后, Foster等人又于2010年利用混合模型提出一种新的针对翻译模型的领域自适应方法[11], 这种方法使用细粒度的特征判别式地学习短语表中的短语和目标领域文本的相似度, 自适应模型的训练过程更为简单, 翻译性能亦取得了重大提升。
在本质上来说, Lü等人于2007年介绍的在线数据选择方法也是一种混合模型, 通过对不同短语表中的短语概率进行插值以选择最适合测试数据的具体模型。Banerjee等人则于2011年使用基于混合模型的自适应方法进行在线论坛内容的翻译[12], 而且发现语言模型的自适应带来的性能提高将大于翻译模型的自适应, 同时, 线性插值的效果更是要优于对数线性插值的效果。继而, Koehn等人又分别将领域内和领域外的语言模型和翻译模型加入对数线性模型中[13], 并利用最小错误率训练的方法进行参数调整, 实验表明, 这种方法在多种语言对的翻译中都实现了性能的高度提升。
其他的成果还有, Finch和Sumita于2008年将混合模型引入进基于类别解码的统计机器翻译系统[14]中, 此时这种解码方法可针对不同类型的句子 (如疑问句和陈述句) 采取不同的解码方式, 混合模型用于其中则可整合两种解码模型。实验结果表明在一些数据集中混合模型的运用赢得了显著的性能提升。
此外, Sennrich又于2012年提出一种使用最小化混乱度对混合模型进行参数调整的方法[15]。该方法通过构建训练数据 (源领域) 短语的经验联合分布与测试数据 (目标领域) 短语的条件分布交叉熵, 进而利用最大熵原理 (即最小化混乱度) 对短语翻译的混合模型实现了参数训练。
除了对翻译模型和语言模型进行的自适应设计, 混合模型也可用于词对齐模型的领域自适应研究。具体地, Civera和Juan即于2007年尝试了基于隐马尔科夫模型词对齐方法的混合模型扩展方法[16], 该方法反映出某些情况下依据词对齐进行领域自适应的必要性。
2.3 自学习为代表的半监督学习方法
近年来, 半监督学习方法在统计机器学习领域受到了广泛关注, 已有许多的经典算法在统计机器翻译问题中获得了普及应用, 其中最为直观的研究思路就是自学习方法, 也可称为自训练方法。其基本思想是, 通过源领域的双语训练数据得到一个基准翻译系统, 以此而对目标领域的单语数据进行翻译, 再从翻译候选集合中选择高质量的译文并和源语言句子组合成为双语句对, 而且将其加入到训练数据中重新训练翻译系统, 该过程将一直迭代到翻译性能稳定为止。
Ueffing即于2006年首度将自训练的思想[17]引入统计机器翻译的研究。接下来, Ueffing等人又利用直推式半监督学习的思想对统计机器翻译问题进行了深入的研究[18,19], 并比照了不同的实现细节对于半监督学习在统计机器翻译问题中的具体影响。实验表明, 基于半监督学习的统计机器翻译能够很好地实现领域自适应, 而且显著地提高目标领域翻译的准确性。在Ueffing等人引入统计机器翻译的自训练方法之后, 与其类似的很多想法也逐渐由研究人员接受并采纳。Wu等人于2008年使用目标领域的单语数据和领域词典进行统计机器翻译的半监督学习[20], 其中领域词典的作用则可由文献[21]进一步印证。近年来, 还有很多工作[22,23,24]是基于自训练的半监督学习方法, 只是由于篇幅原因, 此处将不一一赘述。
2.4 基于话题模型的方法
在机器学习和自然语言处理问题中, 话题模型是指能够在文档集合中发现抽象话题的一种统计模型。目前较为常用的话题模型方法主要有概率隐含语义分析[25]和隐含狄利克雷分配[26]两种, 其他的话题模型方法均大都从以上两种方法发展演化而来, 而且隐含狄利克雷分配也是概率隐含语义分析的进化方法, 并且方法中允许文档可成为多个话题的混合。
Zhao和Xing于2006年第一次将话题模型引入统计机器翻译的研究[27], 通过使用双语话题混合模型对词汇翻译概率进行估计, 这样就提高了词对齐的准确性, 而且也提升了机器翻译的性能。接下来, 这一研究二人组又于2007年结合了隐马尔可夫模型和双语话题混合模型的优点, 再次提出了隐马尔可夫双语话题混合模型[28], 由此而进一步提高了词对齐和翻译的性能。
本质上, Zhao和Xing的研究就是估计基于话题的词汇翻译模型, 即P (e|f, k) , 其中k表示话题, f和e表示源语言和目标语言的词汇。而与Zhao和Xing有所不同的是, Tam等人于2007年提出一种基于双语隐含语义分析的自适应方法[29], 这种方法对于双语数据分别建模, 即p (e|k) 和p (c|k) , 并将双语的话题进行逐一对应, 而通过该种方法对语言模型和翻译模型进行的领域自适应实现, 也已取得了良好的验证效果。
在以上研究成果问世后, Su等人更于2012年利用目标领域单语文本的话题信息对翻译模型进行了领域自适应研究[30], Xiao等人则通过构建层次短语翻译规则的话题信息模型[31], 并在解码过程中创建话题相似度而进行了层次短语规则的选取, 这两种方案均将话题信息融合在翻译解码的过程中, 而且也都取得了对于统计机器翻译的性能提高具有明确助益的出众效果。
3 结束语
目前, 统计机器翻译的领域自适应研究方法多种多样, 但每一种方法均有各自的特点与侧重, 现在可通过三个视角对其进行技术分类, 具体描述如下:
(1) 系统模块:包括语言模型的自适应、翻译模型的自适应、调序模型的自适应等;
(2) 可利用的资源:利用目标领域的单语数据 (源语言或目标语言) 、双语数据、领域词典等;
(3) 领域自适应的方法:使用数据选择的方法、混合模型的方法、自训练的方法、话题模型等。
机器翻译软件 篇10
关键词:机器翻译,机器翻译技术,大学生翻译水平,翻译能力培养
1 机器翻译的概念及优缺点
1.1 机器翻译的概念。
MT (Machine translation) 即利用机器 (电脑) 翻译系统, 把人类语言的翻译法则转变成电脑的运算法则, 使得电脑根据运算法则, 将输入的源语言 (source language) 翻译成所需要的目标语言 (target language) [1]。
1.2 机器翻译优缺点。
随着IT产业的发展, 机器翻译技术的发展步伐在加快。机器翻译技术给大学生的翻译带来实惠和好处, 其优点表现在:专业翻译更准确、效率更高、时间更少、成本更低;专业领域词汇量有所扩大。然而机器翻译的结果令人堪忧:“降低译文的准确性和可读性, 不能根据语境进行准确翻译;对原文理解和对句子结构分析能力差;句式转换效果不理想, 影响可读性;难以做到译文的通顺和流畅;文化理解上也有缺陷”[2], 功能对等是翻译追求的一个目标, 翻译软件只停留在语言形式上的对等, 不顾及语义关系更不考虑语义场内词项的同现关系以及此类语义场与其它语义场内词项的搭配关系。
2 机器翻译背景下大学生翻译水平的界定和翻译能力的培养
2.1 机器翻译技术。
IT产业的进步推动了机器翻译技术的发展, 各种翻译软件如Yahoo翻译, Google翻译, 金山快译, 灵格斯等在线翻译软件的出现是其典型代表。
2.2 机器语言翻译背景下, 大学生翻译水平和培养大学生翻译能力的界定。
2.2.1机器翻译技术的出现为大学生英汉、汉英翻译创设了新的背景环境。IT产业的进步推动了机器翻译技术的发展, 大学英语中英汉、汉英翻译方法也有所变化。机器翻译技术出现之后, 大学英语中英汉、汉英翻译的背景环境发生了变化, 无论是学习多年英语还是几年的英语学习者, 甚至于刚刚接触英语的人利用翻译软件得出的结果都是一样的, 这便产生了新的课题, 即在机器语言翻译技术出现的前提下如何界定这几类英语学习者尤其是后两类英语学习者的翻译水平及如何培养大学生的翻译能力。2.2.2大学生翻译水平标准需重新界定。第一, 随着机器翻译技术的出现, 有效利用网络手段查找专业术语的能力至关重要, 这对译者在众多的翻译软件提供的翻译结果中找到更符合要求的词项提出了更高的要求。第二, 对译文的修改能力, 主要取决于一个人对词法的运用和语法的使用能力。在线翻译的结果还不能令人满意, 因此对译文进行修改和整合的能力作为衡量翻译水平一个标准。第三, 对英语国家文化和背景知识的掌握程度。在线翻译忽略文化的差异, 因此译者对文化和背景知识的理解和认知也可作为衡量其翻译水平的标准之一。第四, 机器翻译的弊端之一是寻求词与词之间形式上的一一对等, 并且忽视语义关系。汉式英语是译者试图在汉语句子中找到英语中与之一一对应的词项, 忽视英汉语语法结构的区别, 机器翻译的产出只是停留在语言形式上的对等, 而不考虑语义关系, 不能实现一个语义场内的词项与其它语义场内词项的合理搭配。因此, 在翻译中尽量避免汉式英语思维和对英语国家思维方式的培养也用来衡量译者的翻译水平。2.2.3机器语言翻译技术的背景下, 培养大学生翻译能力是个亟待解决的课题。第一, 翻译能力的概念。“首先是译者对原文认知能力;其次是译者重构原文世界的能力, 个中体现译者的创造力;译者具备明确的翻译目的, 选择正确的翻译策略和翻译方法的能力;自我控制, 把握自我立场和各种主体性因素的能力, 总之, 翻译能力是译者认知能力、知识能力, 创造能力, 文化能力, 交际能力和自我约束的能力的总和”[3]。第二, 大学生翻译能力的培养包括:语言转换能力的培养。a.实现文化转换:翻译是跨文化的交流, 不同语言间的差异不仅表现在语音, 词汇, 和语法等语言形式上也表现在语言的文化特点上, 翻译只有在文化背景下进行才能实现两种语言的真正交流, 因此需重视培养学生对文化的敏感性。翻译软件实现不了两种语言间的文化交流, 在机器翻译软件出现的前提下, 大学生需加强对文化的学习。b.实现思维的转换:语言是思维体现, 思维方式又是语言生成和发展的深层机制。因此, 语言背后的思维的不同才是造成语言差异的根本原因。翻译是语言的转换, 也是思维的转换, 语言能力是其思维能力的重要标志, 同时, 思维能力的培养可以促进语言能力的提高。培养语言思维有效的方法之一是持续的阅读训练。“阅读目的语语篇有助于学生在翻译实践中摸索和确立自己应遵守的目的语的语体和语用规范。阅读源语言有助于加深对原文在源语言语境中的功能、语用和语篇特征的理解, 以便在译语语境中构建译文时更好地把握这些特征。”[4]语言对比能力, 汉语和英语文字类型, 词汇范畴不同, 机器翻译译文没有体现两者的区别。英语是主语显著的语言, 而汉语则是主题显著的语言, 就句子成分连接来说, 英语重形合, 汉语重意合, 汉语中的意合通过篇章中各组成成分之间的语义关系取得的, 因此通过对比两种语言方能促进翻译水平的提高。正视母语在翻译中的作用, 克服母语负迁移。a.母语的积极作用:翻译是两种语码的转换, 母语修养对译者的翻译水平的提高起着重要的作用, 汉语素养对英语翻译有重大影响, 应该对大学生的汉语水平有个全面的认识, 提高译者自身的母语素养能够促进翻译的进行。b.母语的消极作用:英语某词对应汉语的某词, 这种思维定势被错误地迁移到英汉翻译实践, 这导致了译者忽略英语单词在上下文语义的变化。因此, 应尽量避免母语负迁移并积极将这种负迁移变为正迁移, 更好地把握英汉语中的语音、词汇和句法结构以便有效地促进翻译能力的培养。
3 问卷调查及设想
3.1 问卷设计。
问卷总共包括25道多项选择题, 其中前8道关于大学生对机器翻译和机器翻译技术的了解程度, 后17道是关于大学生翻译能力培养的策略。
调查的实施:对本校的8个系的大二和大三的学生和30名非英语专业的研究生进行口头采访和调查问卷的形式, 回收有效调查问卷221份。
对本次调查的评价:调查问卷的有效回收率较高, 其客观反映了大学生对机器翻译的了解和使用程度, 同时笔者从广大学生中获取有效的信息。但调查问卷难免有不尽如人意之处, 调查问卷还没有在整个学校内进行调查, 范围不够广。
3.2 调查问卷重要数据统计及分析。
3.3 培养大学生翻译能力的设想。
第一, 开设英语语法课, 学生应该系统地学习英语语法, 掌握英语语法结构。调查中52.38%的人认为自己更擅长英-汉翻译, 34.13%的认为自己在汉-英、英-汉翻译上都不擅长, 纠其原因主要是学生的语法不过关, 被调查的对象要求开设语法课的呼声愈益强烈。第二, 加强对机器翻译译文的修改和整合能力, 以文化和背景知识为依托。翻译不仅是语言间的语码转换, 更是文化上的交流, 失去了文化这个依托手段翻译无法实现。第三, 英汉对比是教学中比较薄弱的环节, 英语课堂应以文化为引入点, 涉猎更多的文化知识以此来作为学习外语的依托手段。第四, 建议将英语国家文化史也作为非英语专业的一门选修课, 并规定在两年之内必须修完这门课程。第五, 开设汉英对比课程, 包括历史、文化、语言结构和框架对比, 并将其作为一门选修课才是当务之急。
参考文献
[1]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司, 2004.
[2]翁辉琳.浅谈机器翻译存在的问题[J].福建师范大学福清分校学报, 2006 (3) .
[3]吴波.认知语言学的翻译观及其对翻译能力培养的启示[J].四川外语学院学报, 2008, 24 (1) .
文化语境与机器翻译的局限性 篇11
关键词:文化语境,机器翻译,局限性
机器翻译 (Machine Translation) 是指利用计算机实现自然语言间的转换。随着电子科技的快速发展, 电脑及互联网的普及, 机器翻译的需求也越来越大, 诸如谷歌 (Google) 和爱词霸 (Iciba) 等网络运营商也相继推出了翻译服务。尽管目前的机器翻译已经能够基本实现忠实, 但其翻译质量仍受到一些人文因素的限制, 特别是语境的限制。本文认为, 突破机器翻译所面临的语境瓶颈, 关键在于以文化语境分析来消除歧义。
一、语境、文化语境
语境由客观世界、人的意识、语言系统本身等多种因素构成, 是一个统一的客观系统, 而又由交际主体所主观构建。从语言的角度出发, 可以将语境划分为两大类:“语言语境”和“非语言语境”。“语言语境”, 是指词、词组或句子等语言单位在使用过程中的篇章内语言环境, 决定话语形式的语义取向。“非语言语境”指的是言语事件发生在其中的物理环境和社会文化环境。这两者紧密联系, 前者是如声音和文字等语言符号的意义载体, 是对后者的抽象和符号化;而后者则隐藏在符号的背后, 是前者的根源和反映对象。
“非言语语境”又进一步分为“情景语境”和“文化语境”两类。“情景语境”指语言交际活动的话题、时间、地点、场合、参与者等相关背景知识。“文化语境”指特定社会的文化、政治、经济、风俗、宗教等因素。我们可以把文化语境概括为与言语交际相关的社会文化背景。具体可以分为两个方面:一是文化习俗, 即一个社会在语言、行为和心理上的集体习惯, 对属于该集体的成员具有规范性和约束性;二是社会规范, 是指一个社会对言语交际活动做出的各种规定和限制。
人类文化的多样性表明, 不同语言在历史传统、价值观念、思维方式、道德情操、宗教信仰、社会组织、风俗习惯与地理环境等方面是存在显著差异的。因文化语境的差异而产生的语言喻义的不同, 往往也会引起语言交际双方不同的情感认知。
二、文化语境对翻译的影响
翻译是一种跨文化交际活动, 是译者把源语文本中的语码在特定语境中传递的信息用译语语码传达给译语文化中的接受者的过程。纽马克指出, 语境在翻译中的重要性大于任何法规、任何理论、任何基本词义, 翻译实践的一切活动都是在语境中进行的。因此, 翻译时译者应充分考虑语境因素, 并通过找到语境的关联来进行演绎推理, 以达到准确并如实地再现原文的风格以及信息。
翻译涉及到前后两阶段语境:一为原文生成与接受的源语语境, 二为译文生成与接受的译语语境。为了使翻译交际圆满成功, 需要做到:译文与原文在思想内容和语言形式上的同一;译文适合译文读者的知识结构、价值观标准和心理需求。
一些学者将影响翻译的诸多语境因素命名为“翻译语境”。这一概念的首倡者丹尼尔·肖将其定义为:“翻译过程中聚合起来的文化互动的总和”, 认为影响翻译的相关语境因素既包括了“为即将翻译的文本提供意义的文化”, 又包括了“原文本得以重构的语境”。换言之, 译者在翻译时, 一方面根据自己的语境, 另一方面根据原文作者的语境来确定意义。两方面的总和也就是译者的翻译语境, 是原文和译文两种语言文化各种相关因素互动的总和。
文化语境对翻译的影响, 也体现着语境对翻译的三方面重要作用。一是对词义选择的影响。词义的选择必须联系和依赖语境, 才能在言语交际中消除含混性和歧义性。二是对信息取舍的影响。为有效达到翻译目的, 译者往往会根据译语语境对原文信息进行取舍、调整、改写。三是对语体选择的影响。在翻译的过程中, 对于语体的把握, 也就是依据译文语境的需要, 选择译文的语言变体, 使译本庄谐得体、雅俗相宜。
三、文化语境对机器翻译的限制
文化语境包含的诸多因素, 如社会历史、风俗民情、价值观念、宗教信仰与思维方式等直接影响着翻译的质量。下面我们将从历史文化、地理文化、风俗文化和宗教信仰文化这四个方面来探讨文化语境中诸多因素对机器翻译的限制。
1. 历史文化
各民族自有其形成的历史背景, 因而各自都有表示特定的人物和事件的语词来体现本民族的民族色彩及文化个性。例如, 汉语里有很多习语与频繁的战乱、黑暗的封建统治有关, 如“围魏救赵”、“官官相护”等。而英语中则有很多习语与教皇和国王有关, 如“Live like a King (过得像国王一般奢侈) ”。从这类词语的翻译可以看出, 只有了解各民族的历史文化才能使译文更具文化个性。
【例1】原文:贾宝玉初试云雨情
Google译文:Yu first test clouds and rain conditions.
Iciba译文:Into try his hand at the clouds.
在【例1】中, “云雨”是指男女交欢, 出自战国时期宋玉的《高唐赋序》:“旦为行云, 暮为行雨。”中国文人常用“云雨”委婉指代男女性关系。以上的两个机译都明显未能体现这一含义, 而将其直接翻译为“clouds”、“rain”, 使译文读者不明就里。杨宪益先生将其译为“Pao-yu hasfirst taste of love”。
2. 地理文化
地理文化是指围绕所处的地理环境而形成的文化。英国是一个岛国, 历史上航海业一度领先世界;而汉民族在亚洲大陆生活繁衍, 人们的生活离不开土地。因此, 英语中有很多关于船和水的习语, 如a drop in the ocean (沧海一粟) , plain sailing (一帆风顺) 等。而汉语习语则多与土地有关, 比如“土崩瓦解”、“地动山摇”等。这说明, 特定的地理文化赋予了语词特定的意义。
【例2】原文:他是不到黄河不死心。
Google译文:He is less than the Yellow River did not give up.
Iciba译文:He is not reconciled to the yellow river.
黄河被中国人民视为“母亲河”, 汉语中的“不到黄河不死心”, 是“不达目的不罢休”的意思。从【例2】可以看出, 两个机器翻译的结果都不尽如人意, 甚至令人费解。如果直译“不到黄河”, 译文读者会因不了解黄河对于中国人民的重要意义而难以理解。因此这一汉语习语宜意译为:“He refuses to give up until all hope is gone.”
3. 风俗文化
风俗文化也制约着语言的表达系统。比如说, 狗在汉语中是一种卑微的动物, 汉语中与狗有关的习语大都有贬意, 如“狗急跳墙”、“狗腿子”等;而在西方英语国家, 狗被认为是人类最忠诚的朋友, 所以在英语中常有以狗喻人的例子。
【例3】原文:You lucky dog!
Google译文:你幸运的狗!
Iciba译文:真走运!
在【例3】中, 英文中的“dog”是指代人, 不含动物“狗”的意思, 完全不必译出。然而Google机译将其直译出来, 令人啼笑皆非;Iciba机译结果较为合适, 但仍未能完全符合译文语境, 如能翻译成“你可真幸运!”就更好了。
4. 宗教信仰文化
中西方不同的宗教信仰, 也影响着翻译。英语中有很多成语典故来自于《圣经》。而在汉语文化中, 人们受佛教影响较深, 因此有许多佛教用语。中国人往往习惯于说“阿弥陀佛”用以表达庆幸、释怀, 而英国人用“Thanks God”来表达这一情绪。
【例4】原文:Even the nations are like a drop from the bucket.
Google译文:即使是国家就像从杯水车薪。
Iciba译文:甚至国家都像是从桶中。
【例4】语出《圣经·旧约·以赛亚书》第40章第15节, “a drop from the bucket”为英国人日常表达中所经常使用, 意谓“沧海一粟”。Google机译能将其翻译成“杯水车薪”明显是误译, 但它能从译文 (中文) 的角度出发来翻译, 也算得上是一种进步了。而Iciba的翻译则采取的是直译法, 可是译文读者却看不懂到底是什么意思。
四、结语
翻译要求译者重视语境因素。翻译的表达就是把源语语码在原文言内语境、情景语境及社会文化语境中承载的意义和信息改由译语语码承载的过程。我们在翻译的过程中, 要力求译文的语境与原文的语境达到共合。文化语境的诸多因素影响着文化的翻译, 翻译是不能脱离有关的文化语境而独立存在的。因此, 在翻译中不能就词译词, 而要把它放在文化语境中去考虑, 以便更好地传递原作的信息。由以上分析我们可以看出, 机器翻译在这一方面还存在着很多不足, 有很大改进的空间。解决因文化语境限制的问题, 关键在于利用电子科技的进步, 改进现有的语料库, 扩大语料库关于文化语境知识的容量。依此为基础, 以文化语境分析来消除歧义, 进而提高机器翻译的质量。
参考文献
[1]Newmark, P.Approaches to Translation[M].Perga-mon Press, 1982.
[2]Daniel Shaw, R.The translation context:Cultural factors in tanslation[J].Babel, 1987.
[3]陈林华, 牛强.语境新探——试论语言语境的解释和制约功能[J].外国语, 1999, (2) .
[4]林玉霞.语境中的横组合和纵聚合关系与翻译[J].外语教学, 2001, (2) .
【机器翻译软件】推荐阅读:
机器文本翻译10-05
机器翻译11-12
机器翻译技术11-03
机器翻译自动评测09-15
基于统计的机器翻译06-14
基于规则的机器翻译10-11
短语统计机器翻译论文11-05
智能机器人外文翻译12-27
语料库与机器翻译12-25
基于语料库的机器翻译06-25