基于统计的机器翻译

2024-06-14

基于统计的机器翻译(精选9篇)

基于统计的机器翻译 篇1

0 引 言

统计机器翻译方法自上世纪90年代以来, 发展十分迅速, 取得了很大的进步, 使其逐渐成为机器翻译领域中的研究热点。统计方法的最大优点就在于无需人工编写规则, 利用语料库直接训练得到机器翻译系统, 且译文质量好。基于短语的统计机器翻译方法, 由于可以更好地把握局部上下文依赖关系, 在性能上优于基于词的统计机器翻译方法。相对于基于句法的统计机器翻译, 基于短语的具有很好的通用性, 且搜索空间比较小。

基于短语的方法将任意连续的字符串都看作短语, 从词对齐的双语语料库中自动学习双语短语, 以短语为单位进行翻译。然而, 通常认为, 如果短语表中一个短语和另一个包含该短语的较长的短语出现次数相同的话, 那么这个短的短语则很有可能是对翻译无用的信息, 甚至可能降低翻译质量。此外, 传统的基于短语的统计机器翻译并没有考虑短语的可靠度, 而是认为一个句子的所有短语切分都是等概率的, 这显然不符合语言学规律。针对这两个问题, 本文分别使用了C-value和粘结度的方法对短语表进行了过滤, 减小了搜索空间, 并且提高了翻译质量。

1 基于短语的统计机器翻译

基于短语的统计机器可以描述为这样的一个过程。将源语言f1J切分为J个短语 (连续的单词序列称为短语) , 即f1J=f1, …, fj, …, fJ, 然后从将每个短语翻译成目标语言短语ei, 从而生成目标语言句子e1Ι=e1, …, ei, …, eI。在所有可能的候选翻译中, 找出概率最高的句子:

e^1Ι=argmaxe1Ι{Ρr (e1Ι|f1J) } (1)

本文的基准系统采用MOSES开源软件, 使用对数线性模型计算候选翻译项的概率, 该模型是Och在ACL2002会议上提出来的[3]。不同于以往的噪声通道模型, 对数线性模型是一种直接翻译模型, 直接对概率e1Ι|f1J进行建模:

pr (e1Ι|f1J) =pλ1Μ (e1Ι|f1J) =exp[m=1Μλmhm (e1Ι, f1J) ]e1Ιexp[m=1Μλmhm (e1Ι, f1J) ] (2)

其中, hm (e1Ι, f1J) 是一组特征函数, m=1, 2, …, M。对于每个特征函数, 存在相应的模型参数λm。公式 (2) 的分母在搜索过程中是常量, 不需要考虑, 因此可以将上面两个式子优化为如下判定准则:

e^1Ι=argmaxe1Ι{m=1Μλmhm (e1Ι, f1J) } (3)

特征函数包括短语翻译概率p (e˜|f) p (f |e) , 词汇化短语翻译概率lex (e˜|f) lex (f|e) , 目标语言模型lm (e1Ι) , 扭曲模型pD (e, f) 。

系统包括训练和解码两大模块, 训练模块利用GIZA++进行双向训练获得词对齐文件, 然后抽取短语获得短语概率表, 并使用SRILM训练语言模型。解码模块对输入的句子进行短语划分, 然后根据已有的短语表搜索它们的最优组合。系统结构如图1所示。

训练模块是基于短语的统计机器翻译中很重要的部分, 短语表质量直接影响了解码时的搜索空间和时间效率, 也关系到最终的翻译质量。因此本文将对短语表的构造做出改进, 过滤大量的冗余信息, 提高短语表准确率。

2 短语表过滤

传统的基于短语的统计机器翻译, 通过双向词对齐, 抽取出双语短语并计算概率, 进而构造出短语表。这种方法是将任意连续的单词看作短语, 并没有考虑短语的合理性。本文通过统计分析, 对短语的合理性进行评分, 从而对短语表进行有效的过滤。

2.1 C-value

C-value是Frantzi和Ananiadou提出的术语抽取方法[2], 其综合了语言学和统计的信息, 并着重强调统计部分。本文将C-value用于过滤短语表, 是基于这样一个思想:如果一个短语经常在更长的短语中出现而很少单独存在, 那么这个短语有可能频率很高但并不是对翻译有很大贡献的短语;如果一个短语经常在多个更长的短语中出现, 那么这个短语就是对翻译很有贡献的信息;如果一个长短语和它的子短语拥有相同的词频, 那么长短语更有可能对翻译有贡献。

与Frantzi和Ananiadou类似, 本文使用四个因素 (L, F, S, N) 来计算C-value, 从而判定一个短语是不是关键短语:

给定一个单语语料和短语表, 可以通过算法1得到一个过滤后的短语表。ε是给定的C-value阈值。候选短语的长度限制为l, l与短语表中的最大长度相等。

2.2 粘结度

粘结度在一定程度上反映了这个词序列出现的概率, 所以可以用粘结度来衡量这个词序列是不是一个合理的语块[7]。

公式 (4) 是长度为k的短语的粘结度。MI (w1, w2, …, wk) 表明词序列w1, w2, …, wk的互信息, P (w1, w2, …, wk) 表明词序列w1, w2, …, wk出现的概率, β是一个位于0与1之间的一个系数 (本文取β=0.5) 。公式 (6) 中的Dk是标准化处理之后的粘结度。

3 实验结果及分析

在本文的实验中, 训练语料为120 000句中英文双语对齐的句子, 测试语料为141句。本文采用GIZA++进行词对齐, 并使用grow-diag-final方法抽取短语, 基准系统采用MOSES开源软件。评价方法采用的是现在流行的机器翻译评价方法, 即BLEU算法。

实验中, 本文分别采用C-value和短语粘结度的方法对源语言进行过滤, 也将它们作为特征分别加入翻译模型, 并将翻译结果与基准系统进行比较。

3.1 根据C-value对短语表进行过滤

首先不考虑短语长度, 根据源语言的C-value对整个短语表进行了过滤, 结果如表1所示。

从表1中可以看出, BLEU评价最大可以比基准系统提高0.02, 而此时短语表只有原来的78%。并且当短语表缩减为原来的51%时, BLEU评价仍然比基准系统略有提高。

此外, 由于短语表里的短语长度为2到7个单词, 本文尝试将不同长度的短语分别进行过滤, 每个长度取不同的阈值。表2显示的是在BLEU评价最好的情况下, 各个长度的短语的阈值, 这时BLEU评价为0.4072, 短语表缩减至49%。

根据表2可以看出, 相对于长度较短的短语, 长短语的阈值更大, 由此可知, 长度短的短语过滤得更少, 对翻译的贡献更大。

表3是几个短语的C-value的例子, 很好地说明了C-value的作用。

“德耳塔 航空”的 (L, F, S, N) 为 (2, 1, 1, 19) , 计算得出C-value为0.947368, “德耳塔 航空 公司”的 (L, F, S, N) 为 (3, 1, 1, 14) , 计算得出C-value为1.85714。可以看到, “德耳塔 航空”和“德耳塔 航空 公司”的F (p) 都为1, 即两者出现的频率相同, 因此可以得出, “德耳塔 航空 公司”比“德耳塔 航空”对翻译更有贡献。而“九 个”的 (L, F, S, N) 为 (2, 5, 5, 63) , 包含该短语的长短语个数为63, 表示它经常在比它长的短语里出现, 如“九 个 街区”和“九 个 人”, 因此它的C-value值比较大。

3.2 根据粘结度对短语表进行过滤

本文使用和C-value一样的方法, 通过源语言的粘结度, 对短语表进行过滤, 结果见表4。

此外, 本文也对不同长度的短语分别进行过滤, 表5显示的是最好的结果, 此时短语表缩减至47.5%, 同时BLEU评价提高至0.4174。

可以看出, 这种方法比表4显示的结果好很多。由此可知, 对于不同长度的短语, 它们的粘结度无法准确地反映短语的合理性。

表6是几个短语的粘结度的例子。

可以看到“我 的”的粘结度要比“的 行李”和“的 形势”都高, “接受 检查”比“行李 接受”高, 这表示计算结果符合语言学规则。

3.3 将C-value和粘结度作为特征加入翻译模型

本文计算源语言和目标语言短语的C-value和粘结度, 作为特征加入翻译模型中, 并使用最小错误法训练模型参数[5], 结果见表7。可以看出, 这种方法比直接过滤短语表略有提高。

4 结 论

本文有效地运用了两种方法, 对短语表进行了缩减, 均取得显著效果, 并在缩减短语表的同时, 提高了翻译质量。实验显示, 使用C-value将短语表缩减至78%时, 翻译结果的BLEU评价可以提高0.02, 使用粘结度可以使短语表最小缩减至47.5%, 翻译结果的BLEU评价可以提高0.0158。此外本文分别将两种方法作为特征加入翻译模型, 均取得显著效果。

但是使用粘结度过滤短语表的方法仍然不够完善, 粘结度的过滤只能局限于相同长度的短语, 对于不同长度的短语, 其粘结度并不能很好地反应短语的合理性。在今后的工作中, 我们将会改善粘结度的计算方法, 使翻译结果得到更好的效果。

摘要:大多数基于短语的统计机器翻译系统将任意连续的词串看作短语, 并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法, 有效地对短语表进行过滤, 减小了搜索空间, 同时还提高了翻译质量。实验表明, 在翻译结果的BLEU评价提高0.02的情况下, 短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时, BLEU评价仍提高了0.0158。

关键词:统计机器翻译,短语表过滤,C-value,短语粘结度

参考文献

[1]Brown P F.The Mathematics of Statistical Machine Translation:Param-eter Estimation[J].Computational Linguistics, 1993, 19 (2) :263-311.

[2]Frantzi K, Ananiadou S, Tsuji J.The C-value/NC-value Method of Au-tomatic Recognition for Multi-Word Terms[C]//Proceedings of theSecond European Conference on Research and Advanced Technologyfor Digital Libraries.Springer-Verlag, 1998.

[3]Franz Josef Och, Hermann Ney.Discriminative Training and MaximumEntropy Models for Statistical Machine Translation[C].ACL, 2002.

[4]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社, 2000.

[5]Franz Josef Och.Minimum Error Rate Training for Statistical MachineTranslation[C]//Proceedings of the 41st Annual Meeting of the Asso-ciation for Computational Linguistics (ACL) , Japan, Sapporo, July 2003.

[6]Cenugopal A, Vogel S, Vaibel A.Effective phrase translation extractionfrom alignment models[C]//Proceedings of the 1st Annual Meeting ofthe Association of Computational Linguistics (ACL) , 2003.

[7]周玉, 宗成庆, 徐波.基于多层过滤的统计机器翻译[J].中文信息学报, 2005, 19 (3) .

基于统计的机器翻译 篇2

北京翻译研修学院研究了2013届大学生毕业半年后及2009届大学生毕业三年后的就业状况。结果显示,2013届毕业半年后的就业率(90.9%)比2012届(90.2%)略有上升。但目前2013届高校毕业生的总体签约进程与上届相比明显下滑。被调查的2013届

硕士毕业生签约率为26%,低于2012届同期11个百分点;本科毕业生为35%,低于2012届同期12个百分点;高职高专毕业生为

32%,低于2012届同期13个百分点。

2013届本科生毕业半年后就业率最高的学科门类是管理学(92.9%),最低的是法学(87.2%);高职高专生毕业半年后

就业率最高的专业大类是生化与药品大类(93.2%),最低的是艺术设计传媒大类(86.7%)。从2010—2013三届的就业率变化趋势可以看出,本科学科门类中的法学半年后就业率处于上升阶段;高职高专专业大类中的生化与药品大类、轻纺食品大类、医药卫生大类、文化教育专业大类半年后就业率处于上升阶段。

2013届大学生毕业半年后的就业满意度为55%,其中,本科毕业生为58%,高职高专生为51%。本科生毕业半年后就

业满意度最高的为经济学,最低的为农学。高职高专毕业生就业满意度最高的为资源开发与测绘大类,最低的为生化与药品

大类。

2009届本科生毕业三年后就业满意度最高的行业类是政府及公共管理,就业满意度最低的行业类是初级金属制造业

。高职高专生毕业三年后就业满意度最高的行业类是金融业(银行、保险、证券),就业满意度最低的行业类是邮递、物流及

基于统计数据质量评估方法的研究 篇3

[关键词]统计数据质量;评估方法;逻辑检验;优缺点分析

统计数据作为信息的重要载体,随着社会信息需求的不断加大,相关领域对于统计数据的质量要求也逐渐提高。统计数据质量的高低不仅关系着经济的顺利发展,更关系到相关行业的重要决策。就目前我国统计数据质量评估还存在的问题来看,有必要对现有的统计数据质量评估方式做一个系统的整理和提高。下文就我国现阶段统计数据质量的评估现状展开分析,就几种评估方法进行改善研究。

一、现阶段我国统计数据质量评估现状

统计数据质量反映的是一个国家或者一个地区社会经济活动的成果和相关记录,是社会经济问题研究的基本依据。因此,统计数据质量的高低不仅关系到经济发展的顺利与否,更影响着各项决策的实施。所以,确保统计数据质量的准确性和可靠性对于统计数据质量工作有着重要的作用。就我国目前的情况来讲,对于统計数据质量评估还较为滞后,就其原因主要就是因评估方式和方法落后、不合理、应用不恰当。统计数据质量的准确性不仅要求统计人员要坚持客观性,保证统计过程的准确性,杜绝造价、瞒报和谎报等情况;更要确保数据统计方法的有效性,在对统计的数据进行抽样设计、过程控制以及统计评估的过程中,应保证其科学合理性,并在可信的数据收集基础上,加量保证统计数据与经济现象无限接近。

近年来,伴随着统计数据分析行业的快速发展,统计信息所涉及到的领域和行业信息逐渐复杂起来。例如一些金融业、医疗行业和工商管理行业的运用都对统计数据质量有较多的关注。从宏观的角度来看,统计数据是国家宏观调控和管理的手段;从微观上,也是企业管理与决策的重要依据。然而实际发布的数据与公众心中的需求还是存在一定的差距,这不仅给市场经济传递了错误的信息,更可能妨碍社会发展。

二、基于统计数据质量评估方法的几种方法分析

1.逻辑关系检验法

所谓逻辑关系检验法就是以政府的统计指标体系为主,包含各个统计指标体系之间的包含、恒等相关内在逻辑关系的判断标准,以实现对统计数据可信度的检验。逻辑关系检验法主要包括比较逻辑检验法、相关逻辑检验法两种,下面我们以相关逻辑检验法为主进行探讨。相关逻辑检验法是按照逻辑关系与其紧密联系的客观社会经济现象来决定的,一方面,总量指标之间存在着较为稳定的比例和比率关系。 也就是说,以此来计算出来的相对指标应在特定的范围里面规定其取值。另一方面,总量指标的变动趋势之间相同程度同向或者反向的一致性,就是说各自增长率之间应该在大致的方向和幅度之间保持一致性。将其作为一种传统的检验方法来进行操作,较为简单易懂,因此逻辑检验方法对数据可信度上的初步检验有着广泛的使用率。

2.计量模型分析法

计量模型分析法主要以建立经济模型基础,对指标的数据质量进行评估的一种评估方法,主要分为模型构建、评估、分析等几个步骤。首先,模型的构建就是计量模型的分析法中的关键不走,而要构建一个合理的统计数据质量评估模型,这对于建模者也有一定的要求。传统的回归模型主要是依照理论分析来确定数据之间的经济现象复杂关系,而如果利用经典时序模型来对历史指标数据进行深入、仔细的考查就能有效的指出其变化规律;另外,运用面板数据模型能有效的刻画出宏观经济现象之间的复杂关系,更能描述出不同个体之间在不同时期的差异。此外,科学合理的模型估计和分析是建立模型后得到准确可信数据的关键环节,因此,我们要找到可用性、适用性以及有用性较高的模型构建,以保证拥挤数据的可信度和准确度。

3.核算数据重估法

所谓核算数据重估法就是从统计核算的角度上对特定的统计指标数据进行重新估计,以提高相关指标的数据质量评估方法的效率。评估的基本思路主要分三步,包括以待评估统计为依据,通过分析找出待评估统计指标在实践中存在的问题等几个步骤;挖掘现有资料,采取针对性的替代数据和运用规范来评估统计;重新估计统计指标参数,对官方统计指标数据的准确性进行评估。

三、 结语

总之,统计数据质量管理是一个涉及梁宇多、研究复杂的技术,作为统计数据质量管理的重要环节,数据质量评估方法的确定应从多个方面进行分析,就其实用性、准确性、评估过程、优缺点进行详细剖析,以确保数据质量的评估实际价值。

参考文献:

[1]郭红丽,王华. 宏观统计数据质量评估的研究范畴与基本范式[J]. 统计研究,2011,06:72-78.

[2]许涤龙,叶少波. 统计数据质量评估方法研究述评[J]. 统计与信息论坛,2011,07:3-14.

[3]胡光. 林业统计数据质量评估体系的研究[D].东北林业大学,2012.

基于统计的机器翻译 篇4

机器翻译(Machine Translation)是自然语言处理(N-atural Language Processing)的重要分支之一,其目的是借助计算机将文字或者语音从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。早期的机器翻译借助基于语法规则的转换语法,在翻译词典的基础上实现源语言到目标语言的翻译。这种方法可以在特定领域取得很好的效果,例如天气预报。因为这些领域的翻译比较规律,容易总结出相关的翻译模式。然而针对较为复杂的领域,例如新闻或者旅游等,总结出的翻译模式就很难保证覆盖度和准确度了。

从上世纪末开始,随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始异军突起。目前非限定领域机器翻译中,统计方法是性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型结合语言模型来进行翻译(机器翻译中将翻译过程可以看成解码过程)。从发展阶段来看,统计机器翻译最早以基于词的方法为主,现在已经完全过渡到基于短语的翻译方法。统计机器翻译的研究方面,目前开始出现大量的融合句法信息的方法,以实现进一步提高翻译的精确性。但相对于基于短语的方法,基于句法的方法产生的翻译模型会庞大很多,相应的翻译速度也会慢很多。目前实用的统计机器翻译系统都主要集中在基于短语的方法上,现在的一些商用机器翻译系统也是基于短语的方法,例如Google的翻译系统。

统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,并运用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。

统计机器翻译系统的翻译效果与用于训练翻译模型的双语平行语料的规模有关。普遍的共识是平行语料的规模越大,翻译的结果就会越准确。事实上,Google的翻译系统就是基于超大规模的双语平行语料训练出来的。但是,语料增大随之而来的问题就是得到的翻译模型的规模也会越大。在同样计算能力的条件下,翻译模型越大,翻译速度就会越慢。为了解决这个问题,很多科研人员开始考虑如何约简翻译模型的规模,例如从手机等移动设备的角度来尽可能约简。

以Moses为代表的基于短语的统计机器翻译系统在双语平行语料上训练得到的翻译模型的格式如下:

Source Phrase|||Target Phrase|||Related Features

其中Source Phrase是源语言短语,Target Phrase是目标语言短语,Related Features是用于实际句子翻译过程中的短语对的相关特征。如下所示为实际的一个翻译模型所对应的一条短语对(Bi-phrase):

很多议员|||many councillors|||0.04 2.15638e-081 0.000542039 2.718

本文所述的统计机器翻译模型的约简就是对这些翻译的短语对进行相应的度量,并最终进行适当的剔除。后续部分还介绍了经典的统计机器翻译的处理流程以及模型约简的三个类别的方法。

1 经典的统计机器翻译处理流程

统计机器翻译发展至今,相关软件的开源开发在其中发挥了重要的促进作用。下面以Moses为例,简述经典的统计机器翻译的学习和翻译的基本流程。

统计机器翻译一般都从双语平行语料开始进行处理。先在句子对齐的语料库上调用Giza++词对齐程序进行迭代处理,在得到的词对齐结果上按照一些启发式规则抽取得到相应的短语对齐结果,例如上面提到的“Source Phrase|||Target Phrase”。随后对这些抽取得到的短语对按照相应的统计方法得到与相关的短语对所对应的特征值,例如前面的“Related Features”及相关的那些数值。至此就得到了统计机器翻译的翻译模型。也就是说,大量的短语对及相关特征构成了翻译模型。

接下来,实际的机器翻译解码器会在这个翻译模型以及另外训练得到的语言模型的基础上,通过一些调试数据对一些特征相关的参数进行调优。得到最优参数后,就可以在解码器的基础上对任意输入的源语言句子进行翻译。实际评测机器翻译性能的方法是将一些有多个参考答案的句子经翻译后,把翻译结果和多个标准答案比对,得到最终的得分。最常用的得分标准叫做BLEU值。BLEU值越高的系统被认为翻译质量最好。

例如,在一个100万句对平行语料上经过词对齐、短语抽取处理得到的短语表的大小为68 968 597;在一个20万句对平行语料上得到的短语表大小为26 787 367。

2 翻译模型约简方法的三种类型

统计机器翻译研究的经验表明,用于训练翻译模型的双语平行语料规模越大,最终机器翻译结果的质量就会越好。但是随着语料的增多,翻译模型的大小也会变得非常巨大。为了缩小翻译模型的大小,很多研究人员尝试了各种方法来对翻译模型中的短语对进行评估并删除质量较差的短语对。这其中,多数方法在翻译模型减小的同时,会降低最终解码器的翻译质量,即BLEU值;但也有一些方法能在翻译模型减小很多的情况下,最终的BLEU值却没有一点显著的损耗,甚至有方法能够使得BLEU值得到提高。最理想的模型约简方法就是在翻译模型大幅度减小的同时,最终的BLEU值也得到一定的提高。这种现状说明,翻译模型中有不少短语对对于最终的机器翻译起到了反作用。

下面分四种类型来介绍这些翻译模型的约简方法。

2.1 根据解码器解码过程中短语对的出现情况进行约简

实际的解码器在进行句子翻译时会穷举输入句子可能的各种切分结果,根据这些切分结果形成的Source Phrase在翻译模型中查询得到所有对应的Target Phrase,这些Target Phrase又会在不断深入的搜索中进行相应的排序,最终会被选中出现在翻译结果中的Target Phrase所对应的短语对被认为是重要的。实际上一个源语言句子的翻译结果会有很多个,通常解码器会根据需求输出最靠前的翻译结果,这些翻译结果被认为是系统输出的最终结果。

Eck等[1]将一个在调试集上调好参数的解码器用来翻译一组大量的源语言句子,针对每个翻译模型中的短语对统计如下两个数值:

(1)c(phrase pair)=短语对在语料翻译过程中被考虑(出现在翻译候选中)的次数;

(2)u(phrase pair)=短语对出现在最终翻译结果(被选中)中的次数。

对于每个短语对,最终的得分为:

最后将每个短语对,根据score从高到低进行排序,对于排序结果取出前N个短语对作为翻译模型约简的结果。

Eck等[2]在上述工作的基础上进一步考虑到了短语对在翻译结果的N-best中的情况。如图1所示,针对某个源语言句子的翻译结果的N-best中,i-best包含ki个短语对。解码器会根据这个N-best顺序选择最优的翻译结果1-best。但是根据源语言句子的多个参考翻译结果,采用某种评价方法(metric),例如BLEU,实际上最好的结果是ibest。

Eck等[2]的工作是根据i-best相对于1-best的距离关系来对各个i-best中的短语对打分,两种打分公式如式(2),式(3)所示,然后根据这个打分进行短语对排序并选择排序靠前的结果作为约简结果。

Eck等的这两种方法都能够进行有效的约简,但是得到的约简翻译模型对应的翻译质量都有所降低,文献[2]的约简结果的翻译质量优于文献[1]。

2.2 根据双语平行语料中短语对的出现情况进行约简

翻译对来自于双语平行语料,但翻译对的抽取却采用了一些启发式的方法。这些方法并没有考虑翻译对在双语平行语料中整体出现的情况。为此,针对翻译对在双语平行语料中的出现情况,研究人员分别提出了p-value,noisevalue,C-value等方法。

首先,定义翻译对的源语言短语Source Phrase为s,目标语言短语Target Phrase为t;C(s,t)为平行语料中源语言句子至少包含s的一次出现,同时目标语言句子至少包含t的一次出现的双语句对的句子个数;C(s)为平行语料中源语言部分至少包含s的一次出现的句子的个数;C(t)为平行语料中源语言部分至少包含t的一次出现的句子的个数;假设平行语料包含N个双语句对。根据这些统计量,得到s和t的联立表如表1所示。

根据表1中的数据,Fisher精确检验采用如式(4),式(5)的超几何分布函数phg来计算精确的p-value统计量。

Johnson等[3]采用的就是式(5)的p-value来对翻译模型中所有的短语对进行打分,随后按从高到低的顺序来择优选取短语对作为约简的结果。事实上,这种方法在将短语表约简到原始大小的大约10%时,还能使得最终的翻译质量得到提升。这是一种目前为止最好的翻译模型约简方法。

随后,Tomeh等[4]在上述p-value方法的基础上,根据Moore[5]指出的p-value方法的缺点以及noise-value方法的优点,采用noise-value来进行翻译模型的约简。Moore[5]指出,针对出现频率较低的一些事件,p-value数值较高并不一定意味着s和t之间具有独立性。Tomeh等[4]采用的noise-value的定义如下:

事实上,Tomeh et al.[4]的实验结果显示,虽然noise-value也能在将翻译模型约简到28%左右还能保证翻译质量不降低,但是Johnson et al.[3]的方法明显还是要好一些。

上面两种方法都是在统计短语对的源语言短语和目标短语分别在平行语料中的出现情况。He等[6]借用术语抽取领域的C-value来衡量短语对的质量。一个短语对p的C-value主要考察四个因素:(L,F,S,N),其中:

(1)L(p)是短语对中源语言短语的长度;

(2)F(p)是源语言短语在语料中的出现频率;

(3)S(p)是源语言短语在语料中作为子串出现在其他更长短语中的频率;

(4)N(p)是语料中包含源语言短语的短语的个数。

具体的计算算法是:

如果N(p)=0,C-value(p)=(L(p)-1)觹F(p);

否则C-value(p)=(L(p)-1)觹(F(p)-S(p)/N(p))。

C-value在术语抽取领域被广泛使用,He等[6]指出这种方法在翻译模型约简到22%时还能保证翻译质量的BLEU值不降低,并且将这个数值作为解码器的附加特征进行参数调优后在22%的约简前提下,BLEU值还能有一定的提高。

2.3 根据短语对的内部词对齐情况来进行约简

上面的两类方法都是在考察短语对在平行语料中的情况,这里的第三类方法重点考察短语对内部的对齐情况。因为短语对是在平行语料词对齐结果的基础上抽取得到的。

Sánchez-Mart覦nez等[7]考虑了短语对中的词类情况。文中将词语分成开放词类(Open Words)和封闭词类(Closed Words)。根据两条原则来剔除短语对:

(1)如果短语对的源语言短语或者目标语言短语包含开放词类,但是至少有一个开放词没有在另一端对齐到开放词类上;

(2)在上一条原则的基础上,如果短语对的任何一端的第一个或者最后一个词语对空。

注:对空现象是在进行对齐短语抽取时可能产生的现象,例如“我们一起吃饭|||let's have dinner together but”中的but。

针对相关的语言,Sánchez-Mart覦nez等[7]定义了封闭词类包含哪些类别以及具体的词语,没有包含其中的词语都是开放词类。图2分别定义了英语、法语、西班牙语的封闭词类。

这种启发式的方法得到的翻译模型约简会导致翻译结果的BLEU值降低1-2个点。

基于此,He等[8]将短语对的内部对齐情况分成两大类:不能再分拆的最小对齐,和由最小对齐构成的组合对齐。例如图3左图表示最小对齐,右图表示组合对齐。

在组合对齐里,又分为单调组合(如图4左图)和非单调组合(如图4右图)。

He等[8]的方法是将翻译对里单调组合的短语全部剔除,因为这种单调组合的短语在实际解码过程中可能通过最小对齐的短语对顺序地拼接而成。仿真实验结果显示,在翻译模型被约简为原始大小的30%左右时,相应的BLEU值还能有一点提高。从约简计算的代价来看,也是值得推广的。

3 结束语

统计机器翻译的研究越来越热,刚刚结束的自然语言处理顶级会议ACL2011中机器翻译达到了史无前例的7个分会场[9]。随着机器翻译的深入研究,相信会产生更多的关于翻译模型约简的研究成果。在本文综述的四类方法中,笔者认为最好的方法是基于Fisher精确检验理论的Johnson等[3]的p-value的方法,因为在模型约简到原始大小的10%左右规模的同时,还能得到测试语料上BLEU值的提高。当然,这种Fisher精确检验的方法存在的一个问题是对翻译模型完成一次约简需要一定的时间,而这是因为Fisher精确检验方法的计算复杂度相对较高。如果为了进行快速的翻译模型约简,可尝试He等[8]的剔除单调组合对齐的短语对的方法。

笔者针对翻译模型约简进行过一些尝试。在统计学中,Fisher精确检验比传统的卡方检验效果要好,但还存在一种理论上比Fisher检验更好的方法——Barnard检验[10]。Barnard检验是在[0,1]区间内寻找一个最优的度量值来作为检验的结果,虽然理论上更优,但是计算量惊人。如果Barnard检验的计算复杂度能够降低的话,应该是一种非常值得探索的方法。

参考文献

[1]ECK M,VOGEL S,WAIBEL A.Translation model pruning viausage statistics for statistical machine translation[C]//Human La-nguage Technologies 2007:The Conference of the North Ameri-can Chapter of the Association for Computational Linguistics;C-ompanion Volume,Short Papers,New York Rochester:Associa-tion for Computational Linguistics,2007:21-24.

[2]ECK M,VOGEL S,WAIBEL A.Estimating phrase pair relevan-ce for translation model pruning[C]//Proceedings of the MT Su-mmit XI,2007.

[3]JOHNSON H,MARTIN J,FOSTER Ge,t al.Improving transla-tion quality by discarding most of the phrasetable[C]//Proceed-ings of the 2007 Joint Conference on Empirical Methods in Na-tural Language Processing and Computational Natural LanguageLearning(EMNLPCoNLL),Prague,Czech Republic:Associationfor Computational Linguistics,2007:967-975.

[4]TOMEH N,CANCEDDA N,DYMETMAN M.Complexity-basedphrastable filtering for statistical machine translation[C]//Proce-edings of the MT Summit XII,2009.

[5]MOORE R C.On log-likelihood-ratios and the significance ofrare events[C]//Lin Dekang,Wu Dekai.Proceedings of EMNLP2004,Spain,Barcelona:Association for Computational Linguis-tics,2004:333-340.

[6]HE Zhongjun,MENG Yao,LV Yajuane,t al.Reducing smt ruletable with monolingual key phrase[C]//Proceedings of the ACLI-JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ-ation for Computational Linguistics,2009:121-124.

[7]Sánchez-Martnez F,Way A.Marker-based filtering of bilingualphrase pairs for smt[C]//Proceedings of the 13th Annual Meetingof the European Association for Machine Translation(EAMT-09),Citeseer,2009:144-151.

[8]HE Zhongjun,MENG Yao,YU Hao.Discarding monotone comp-osed rule for hierarchical phrase-based statistical machine tran-slation[C]//Proceedings of the 3rd International Universal Comm-unication Symposium,ACM,2009:25-29.

基于统计的机器翻译 篇5

摘 要:领域术语特征研究是领域术语自动抽取的基础。研究抽取词典词条和领域高频术语集构建教育术语库,使用中科院分词软件和统计方法对教育术语的特征进行分析。分析结果表明教育术语字长为2-11,词长为1-6词,单词术语占教育术语库28%。对比教育、科技和法律的术语特征发现其具有显著区别,对领域术语自动抽取及信息处理相关研究具有重要理论意义。

关键词:教育术语;术语自动抽取;教育术语特征

中图分类号:G434

术语自动抽取是自然语言处理的基础性研究。目前术语研究主要针对科技名词术语展开,社会科学领域的术语研究并未得到重视,严重制约了领域术语规范化工作。除共性外,各学科领域术语又具有其各自的特征。不同领域术语特征研究将为各领域术语自动抽取提供必须的语言学基础。

领域术语特征研究对术语语言特征展开,语言特征指术语具有完整的语言含义和稳定的组成结构。目前面向术语特征的研究大都是术语的构词特征和长度特征。何燕[1]研究针对计算机领域术语语言特征构成双词模板,有效的抽取领域术语;李嵩[2]对语言学领域单词型和词组型术语词长和构词特征进行系统分析,从语言学视角形成了语言学术语集;季培培[3]从领域术语外部关联和内部构成,分别阐述术语的语言特征。

在构建教育术语库基础上,借鉴科技术语特征研究的统计方法,对教育术语字长特征、词长特征和构词特征进行系统分析,比较教育、科技和法律领域术语特征,最终形成教育术语的语言规则。

1 教育领域术语特征分析

语料来源:一是1998年《教育大辞典》;二是2002-2013年《民族双语教育》期刊2077篇。

1.1 构建领域术语库

针对两类文本语料特征采用不同方法实现术语抽取。

词典类文本,词条有清晰的边界特征。词条边界分别用标签分割。基于边界特征设计了术语抽取器自动获取术语。

教育期刊,以题目和关键词为语料,借助停用词表和词频过滤候选术语,最终得到领域术语3395条。《教育大辞典》最新修订距今已16年,教育新词汇不断涌现,合并新术语并剔除重复项,确保术语库术语的实时性。借助百度百科进行校对,剔除模糊术语。校对中发现了大量人名、地名和机构名等,考虑其蕴含的领域内涵,予以保留。最终术语库共含术语22110条。

1.2 术语长度特征分析

一是术语含字长度,术语所含汉字字数;二是术语含词长度,术语含字或词的个数。

1.2.1 术语含字长度

以统计学方法为理论基础,建立领域术语特征统计平台。教育术语字长分析结果如下:

教育术语字长为1-38,集中在2-11(大于1%),占术语库97.31%。4字术语最多有6527条,占27.82%。此外,2字、3字和6字术语也较多,与4字术语共占68.40%。结果与周浪[4]等人的研究相符,但教育术语2-6字术语仅占78.46%,显然无法涵盖领域大部分术语。

1.2.2 术语含词长度

术语预处理借助中科院分词系统,但缺乏领域词典的现状,使分词结果存在漏分和误分。为保证语料正确性,对分词结果进行人工校对。最终得到术语含词长度结果(见图1)。

教育术语词长主要为1-20词,1-6词术语最多,占98.88%。单词2词和3词术语分别为28.03%、37.83%和20.88%。研究结果与张榕等人科技术语研究基本一致。共同点是术语词长集中在2-6词,但教育术语中单词术语含量更高。

总结教育术语长度特征有以下几点:

(1)术语字长为1-38字,2-17字术语占97.31%。

(2)术语词长集中在1-6词,最长达到20词,术语含字长度与词频成反比。

(3)与科技术语类似,教育领域词组型术语占主要地位。

1.3 教育领域术语的构词规则分析

术语可分为:单词型术语和词组型术语。根据词频分布词组型术语可分为:2-4词和4词长以上术语。单词术语占28.69%,2-4词术语占63.41%,4词以上术语占5.32%。现有研究忽视低频术语,确保抽取正确率,但牺牲了召回率。

1.3.1 单词术语构词规则

单词术语词性以名词为主,占77.86%。但教育单词术语中含大量专业名词、动词、成语、机构名及人名等。这与以简单名词为主的科技单词术语构成存在差异。

1.3.2 词组型术语构词规则

2词术语共7804条,有74种构词规则。词频300次以上的构词规则有7种,覆盖率达到82.65%。

3词术语有4488条,构词规则299种,词频100次以上构词规则有10种,覆盖率为54.75%。

4词术语为1727条,4词术语构词规则有439个,词频超过40次的构词规则有7种,覆盖率为30.40%。

4词以上术语有1176条,构词规则有876种,频率10次以上只有5种,均为5词术语。

2 领域术语特征比较

科技领域[5]和法律领域术语特征[6]研究结果与教育领域术语特征研究比较后发现,虽然各领域都基本满足中文术语特征,但领域间存在显著差异。

比较长度特征,共同点是术语长度特征均符合中文术语长度特征,但法律和教育术语在2-10字和2-6词之上有扩展。

分析构词特征,各领域单词术语以名词为主,但教育单词术语存在大量习语和专用名词。法律与教育领域词组型术语类似,存在大量的形容词,而科技领域存在习语和语素词。

结合术语构词特征分析(1-6词)教育领域术语有以下特征:

特征1:单词型术语以名词、动词占主要地位,其它词性的较少。

特征2:词组型术语构成中以名词为主,动词、数词、量词等词出现频率较高,副词、区别词、连词、时间词、助词等也偶有出现。

特征3:术语词性分析发现术语首部词汇以名词、地名、名动词、人名及区别词为主,尾部词汇主要有名词、动词、名动词。区别词、形容词及机构名也可做首词,尾词可用数词、语素词等。

3 结束语

借鉴科技术语特征分析方法对教育术语库长度特征和构词特征进行分析,并对科技、法律和教育领域术语特征进行比较,最终得出教育领域术语的特征,并归纳出1-6词领域术语语言特征,为术语自动抽取奠定了理论基础,下一步拟结合术语语言特征提出一种混合策略方法提取教育领域术语。

参考文献:

[1]何燕.穗志方 等.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006(33):4-7.

[2]李嵩.语言学文献标题的术语提取研究[D].济南:山东大学,2007.

[3]季培培,鄢小燕.面向領域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010(16):124-129.

[4]周浪,张亮.基于词频分布变化统计的术语抽取方法[J].计算机科学,2009(05):177-180.

[5]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012(19):85-89.

[6]那日松,刘青.法律领域术语特征研究[J].中国科技术语,2011(04):22-26.

作者简介:闫琪琪(1990-),女,新疆乌鲁木齐人,硕士研究生,主要研究方向:自然语言处理;通信作者:张海军(1973-),男,博士,副教授,主要研究方向为自然语言处理,信息抽取技术。

作者单位:新疆师范大学 计算机科学技术学院,新疆乌鲁木齐 830054

统计机器翻译领域自适应综述 篇6

机器翻译又称为自动翻译, 是利用计算机程序将文字从一种自然语言 (源语言) 翻译成另一种自然语言 (目标语言) 的处理过程。这是自然语言处理的一个分支, 与计算语言学、自然语言理解之间存在着密不可分的关系。

机器翻译的方法主要可以分为基于规则的机器翻译方法、基于实例的机器翻译方法和基于统计的机器翻译方法。目前, 统计机器翻译是非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的双语对照语料进行统计分析, 构建统计翻译模型, 进而使用此模型完成翻译。随着互联网技术的迅猛发展, 人们获取信息的方式也发生了很大变化。互联网上有大量的信息以不同的语言为载体, 这为统计机器翻译的研究提供了充足的数据支持。与此同时, 随着统计机器翻译研究的深入, 其性能及实用性也获得了较大提升, 因而机器翻译技术的受众正日渐增多, 其应用亦越来越广泛。通常来讲, 一个成型的统计机器翻译系统使用了大规模的双语对照语料做训练, 而且这些数据却常常来自于不同领域, 具体则包括了政治、财经、军事、科技、体育、教育和娱乐等各大门类在内。除此之外, 不同领域的语料涵盖了不同的文体, 相应地包括着书面文体、口语文体和网络语言等。这种领域和文体的差异性给统计机器翻译的研究将会带来两个问题:其一, 使用某一个领域或文体的双语语料训练得到的机器翻译系统在翻译同一领域的文本时效果最佳, 而当翻译其他领域的文本时结果则常常不尽如人意, 有时的翻译结果甚至不可接受, 本文即将这种问题称为“领域间的自适应问题”。其二, 使用多领域混合的双语语料训练得到的机器翻译系统的通用性虽然较好, 但由于多个领域数据的相互影响以及相互制约, 系统在某一特定领域往往无法达到最佳效果, 在此则将这种问题称为“领域内的自适应问题”。在统计机器学习领域, 已经研发了一些针对领域自适应问题的解决方法, 但是其中的大部分仅能用于解决简单学习问题 (如分类或回归) 的计算实现, 而对于统计机器翻译这种结构化学习问题, 目前的尝试方法还较为有限, 也随即成为亟待研究的热点问题之一。

1 统计机器翻译背景

给定源语言句子f, 统计机器翻译系统给出目标语言翻译候选集合H (f) , 对每一条翻译候选e∈H (f) , 翻译系统给出对应翻译概率P (e|f) , 用来表示f将翻译成e的可能性。由此, 翻译问题就转化为如下过程, 即:在已知源语言句子f的情况下, 寻找使得条件翻译概率P (e|f) 最大化的目标语言句子ê。对此过程可用公式具体描述为:

Och等人提出了基于最大熵模型[1]的统计机器翻译方法[2]。最大熵模型是对信源信道模型的一个泛化方法, 其突出优点在于:任何特征都能够很容易地加入到最大熵模型中去 (例如语言模型、翻译模型、调序模型等) 。在此, 将使用数学公式对其描述为:

在最大熵模型下, 统计机器翻译的任务将分解转化为特征选取和参数训练。其中, 特征选取的目的在于选择各种翻译特征精确地刻画翻译过程, 而参数训练的目的则在于对最大熵模型中每个特征有关的特征权重进行相应赋值。

2 统计机器翻译的领域自适应

目前, 统计机器翻译领域的自适应研究并没有公开的标准测试数据集, 不同的研究方法将自行选择不同领域的数据进行性能测试, 因此上关于各种方法的性能差异以及各自优、缺点的对照就较难实现。具体来讲, 统计机器翻译的领域自适应方法可以粗略分为基于数据选择的方法、基于混合模型的方法、自学习为代表的半监督学习方法和基于话题模型的方法四大类。下面即对各类方法进行综合详细的介绍与论述。

2.1 基于数据选择的方法

基于数据选择方法的根本思想在于, 选择和目标领域文本“相似”的源领域数据进行模型的训练, 但相似度函数需要自行定义, 如此即可使训练得到的模型在目标领域的预测能力更好。

Eck等人于2004年提出了基于信息检索的语言模型自适应[3], 并将这种方法用于统计机器翻译。实现过程是:通过简单TF-IDF方法, 可以使用测试数据的翻译结果重新选择语言模型的训练数据, 在此基础上, 又通过训练新的语言模型第二次进行翻译解码。Zhao等人于2004年相应地也提出了类似的方法[4], 具体是将新训练的语言模型和旧的语言模型进行插值, 并以其用于第二次翻译解码。

进一步地, Lü等人则于2007年介绍了离线和在线的方法进行数据选择[5], 而且也用于统计机器翻译的模型训练。具体地, 离线的方法是将训练数据中的每一个双语句对赋以权重, 用其表示和测试数据的相似度, 同时在训练翻译模型的时候还要考虑不同句对的权重信息。此外, 在线的方法就是通过训练一系列提前已经定义的子模型, 当对测试数据进行翻译时, 即可通过信息检索的方法确定不同子模型的权重, 并就不同的子模型进行对数线性插值。

其后, Matsoukas等人又于2009年提出了一种基于判别式模型对训练数据赋权重的方法[6]。这种方法利用一些领域相关的特征对训练数据进行判别式学习以及赋相应权重, 并在训练翻译模型时, 将利用每个双语句对的权重进行翻译概率的最大似然估计。

近年来较为典型的研究成果当首推Moore和Lewis于2010年的提出基于交叉熵的语言模型数据选择方法[7], 该法能够使用更少的数据训练得到更好的语言模型。而基于Moore等人的方法, Axelrod等人更于2011年提出了基于交叉熵的双语数据选择方法[8], 并利用选择出的数据训练所有的模型分量 (包括语言模型、翻译模型、调序模型等) , 实验表明这种方法优于Moore等人的方法, 而且更重要的是显著提高了口语机器翻译的性能。

2.2 基于混合模型的方法

混合模型是统计机器学习理论中的传统实现技术之一[9], 利用混合模型进行统计机器翻译的学习主要包括:

(1) 将训练数据分为几个不同的部分;

(2) 利用每一部分数据训练一个子模型;

(3) 根据测试数据的上下文信息适当地为每个子模型调整权重。

已有研究工作中, Foster和Kuhn于2007年提出了基于混合模型的统计机器翻译领域自适应的方法[10], 通过对语言模型和翻译模型同时进行了自适应的研究, 并相应给出了混合模型的线性插值以及对数线性插值的区别。之后, Foster等人又于2010年利用混合模型提出一种新的针对翻译模型的领域自适应方法[11], 这种方法使用细粒度的特征判别式地学习短语表中的短语和目标领域文本的相似度, 自适应模型的训练过程更为简单, 翻译性能亦取得了重大提升。

在本质上来说, Lü等人于2007年介绍的在线数据选择方法也是一种混合模型, 通过对不同短语表中的短语概率进行插值以选择最适合测试数据的具体模型。Banerjee等人则于2011年使用基于混合模型的自适应方法进行在线论坛内容的翻译[12], 而且发现语言模型的自适应带来的性能提高将大于翻译模型的自适应, 同时, 线性插值的效果更是要优于对数线性插值的效果。继而, Koehn等人又分别将领域内和领域外的语言模型和翻译模型加入对数线性模型中[13], 并利用最小错误率训练的方法进行参数调整, 实验表明, 这种方法在多种语言对的翻译中都实现了性能的高度提升。

其他的成果还有, Finch和Sumita于2008年将混合模型引入进基于类别解码的统计机器翻译系统[14]中, 此时这种解码方法可针对不同类型的句子 (如疑问句和陈述句) 采取不同的解码方式, 混合模型用于其中则可整合两种解码模型。实验结果表明在一些数据集中混合模型的运用赢得了显著的性能提升。

此外, Sennrich又于2012年提出一种使用最小化混乱度对混合模型进行参数调整的方法[15]。该方法通过构建训练数据 (源领域) 短语的经验联合分布与测试数据 (目标领域) 短语的条件分布交叉熵, 进而利用最大熵原理 (即最小化混乱度) 对短语翻译的混合模型实现了参数训练。

除了对翻译模型和语言模型进行的自适应设计, 混合模型也可用于词对齐模型的领域自适应研究。具体地, Civera和Juan即于2007年尝试了基于隐马尔科夫模型词对齐方法的混合模型扩展方法[16], 该方法反映出某些情况下依据词对齐进行领域自适应的必要性。

2.3 自学习为代表的半监督学习方法

近年来, 半监督学习方法在统计机器学习领域受到了广泛关注, 已有许多的经典算法在统计机器翻译问题中获得了普及应用, 其中最为直观的研究思路就是自学习方法, 也可称为自训练方法。其基本思想是, 通过源领域的双语训练数据得到一个基准翻译系统, 以此而对目标领域的单语数据进行翻译, 再从翻译候选集合中选择高质量的译文并和源语言句子组合成为双语句对, 而且将其加入到训练数据中重新训练翻译系统, 该过程将一直迭代到翻译性能稳定为止。

Ueffing即于2006年首度将自训练的思想[17]引入统计机器翻译的研究。接下来, Ueffing等人又利用直推式半监督学习的思想对统计机器翻译问题进行了深入的研究[18,19], 并比照了不同的实现细节对于半监督学习在统计机器翻译问题中的具体影响。实验表明, 基于半监督学习的统计机器翻译能够很好地实现领域自适应, 而且显著地提高目标领域翻译的准确性。在Ueffing等人引入统计机器翻译的自训练方法之后, 与其类似的很多想法也逐渐由研究人员接受并采纳。Wu等人于2008年使用目标领域的单语数据和领域词典进行统计机器翻译的半监督学习[20], 其中领域词典的作用则可由文献[21]进一步印证。近年来, 还有很多工作[22,23,24]是基于自训练的半监督学习方法, 只是由于篇幅原因, 此处将不一一赘述。

2.4 基于话题模型的方法

在机器学习和自然语言处理问题中, 话题模型是指能够在文档集合中发现抽象话题的一种统计模型。目前较为常用的话题模型方法主要有概率隐含语义分析[25]和隐含狄利克雷分配[26]两种, 其他的话题模型方法均大都从以上两种方法发展演化而来, 而且隐含狄利克雷分配也是概率隐含语义分析的进化方法, 并且方法中允许文档可成为多个话题的混合。

Zhao和Xing于2006年第一次将话题模型引入统计机器翻译的研究[27], 通过使用双语话题混合模型对词汇翻译概率进行估计, 这样就提高了词对齐的准确性, 而且也提升了机器翻译的性能。接下来, 这一研究二人组又于2007年结合了隐马尔可夫模型和双语话题混合模型的优点, 再次提出了隐马尔可夫双语话题混合模型[28], 由此而进一步提高了词对齐和翻译的性能。

本质上, Zhao和Xing的研究就是估计基于话题的词汇翻译模型, 即P (e|f, k) , 其中k表示话题, f和e表示源语言和目标语言的词汇。而与Zhao和Xing有所不同的是, Tam等人于2007年提出一种基于双语隐含语义分析的自适应方法[29], 这种方法对于双语数据分别建模, 即p (e|k) 和p (c|k) , 并将双语的话题进行逐一对应, 而通过该种方法对语言模型和翻译模型进行的领域自适应实现, 也已取得了良好的验证效果。

在以上研究成果问世后, Su等人更于2012年利用目标领域单语文本的话题信息对翻译模型进行了领域自适应研究[30], Xiao等人则通过构建层次短语翻译规则的话题信息模型[31], 并在解码过程中创建话题相似度而进行了层次短语规则的选取, 这两种方案均将话题信息融合在翻译解码的过程中, 而且也都取得了对于统计机器翻译的性能提高具有明确助益的出众效果。

3 结束语

目前, 统计机器翻译的领域自适应研究方法多种多样, 但每一种方法均有各自的特点与侧重, 现在可通过三个视角对其进行技术分类, 具体描述如下:

(1) 系统模块:包括语言模型的自适应、翻译模型的自适应、调序模型的自适应等;

(2) 可利用的资源:利用目标领域的单语数据 (源语言或目标语言) 、双语数据、领域词典等;

(3) 领域自适应的方法:使用数据选择的方法、混合模型的方法、自训练的方法、话题模型等。

基于统计的机器翻译 篇7

翻译是跨语言跨文化再现原文内容、 思想和价值的活动, 语言和文化差异是所有译者面临的困难, 而作为文学翻译中最具美学价值和文体特色的诗歌, 无疑给译者带来了更大的难度, 但这并不能妨碍优秀的译者挑战高难度的诗歌翻译, 更兼这是中国古典文学作品 (如《红》) 的英译不能绕开的文体对象。 杨宪益、 戴乃迭和David Hawkes, John Minford的《红》全译被公认为是最经典的译本, 本论文将以黛玉和宝玉二人的所有诗歌为研究对象, 通过语料统计方法对杨宪益、戴乃迭译本 (杨译) 和David Hawkes, John Minford译本 (霍译) 进行量化研究, 通过对两篇译文在篇幅、功能词和生僻词三个方面的比较和对比, 希望发现两个译本在通过诗歌再现黛玉和宝玉二人个性和才情方面, 译者的风格, 以及与原著风格上的联系, 得出诗歌翻译方面的启示。

2.翻译策略:篇幅对比

本次研究选取了宝黛二人的诗、词、偈、联句、诔, 共计45首, 除去标题, 共计汉字4990。 两个译本在除去标题后的字数上都超过了原作, 霍译是6923, 词类是2000, 词类比为28.89%;杨译是6064, 词类是1743, 词类比是28.74%。 两篇译文在词类的丰富性上没有明显差异。 在汉英诗歌翻译中, 由于汉语是意合的语言, 诗歌风格比较凝练, 而英语是形合的语言, 诗歌句子的逻辑结构比较分明, 两位译者都考虑到了这点, 因此两个译文在总字数上都超过了原作。 但是, 和原作的字数在比率上, 杨译是121.52%, 而霍译是138.74%, 杨译与霍译的字数比是87.59%, 霍译的字数明显超过了杨译, 这说明了两位译者在处理原诗时采取了不同的策略, 导致了不同的译文风格。 翻译研究者通常认为, 杨译更倾向于语义翻译法, 而霍译则更倾向于交际翻译法。 根据纽马克的翻译理论, 语义翻译是把表达的内容限制在原文文化范围内, 不允许对原文中富有民族文化色彩的概念加以改变。 为了表现出原作者的思维过程, 语义翻译力求保留原作者的语言特色和独特的表达方式, 注重词、句的语义分析, 译文与原文的形式更为接近。 在语义翻译中, 译者必须抓住原文的词句、搭配、结构乃至强调语势, 亦步亦趋地翻译, 这样才能全面地保持原文的语义及表达形式。 在交际翻译模式下, 译者努力使译文对目的语读者产生的效果与原文对源语读者产生的效果一致。 交际翻译关注的是目的语读者, 译者尽力为其排除阅读或交际上的障碍, 使交际顺利进行。 其重点在于以符合目的语语言、 文化及语用习惯的形式传递原文的信息。 以交际翻译为取向, 译者享有更大的自由度解释原文。 译者以特定的目的语读者群为对象, 给译文定下具体的交际功能并努力使译文达到这一功能。 如果译者遵循语义翻译法, 中国古典诗歌凝练的风格和汉语语言意合的特点就会限制译者的文体选择和词汇表达, 译文语言也就会偏向正式程度和书面化程度较高的目的语。 交际翻译法一般适用于非文学翻译, 如果译者遵循交际翻译法, 一方面, 英语语言以形合为特点, 另一方面, 译文语言会倾向于正式程度和书面化程度偏低的目的语。 因此, 在进行汉英诗歌翻译时, 用交际翻译法所产生的译文, 应该会比用语义翻译法所产生的译文篇幅更长, 字数也更多。 那么, 用不同的翻译法在进行诗歌翻译时, 具体会产生怎样的译文风格?

3.结构:功能词对比

功能词, 是指英语句子中起连接作用的词汇, 连接并列句的功能词包括and, but, or等, 连接从句的词汇包括that, who, when, how, if, 等等。 功能词的使用, 能一定程度反映译文的风格。 诗歌体裁受到每行字数的限制, 使用较少的功能词, 而散文体裁的行文享有更大自由, 功能词使用频率也更高。 以下表格中展示的是两个译本中出现的单个并列连词和从属连词的统计对比。 统计数据表明, 霍译功能词总数为579, 占总篇幅的8.36%;杨译总数为416, 占总篇幅的6.86%。这说明在不同翻译策略的作用下, 各个译文的散文化程度不同。 霍译的散文化程度较高, 而杨译的散文化程度较低。或者说, 杨译更多地考虑到原作的诗歌体裁, 并在译文中更努力体现这种体裁。

4.语义:生僻词对比

《红楼梦 》原文含有大量的文化负载词, 给译者带来了挑战, 同时, 文化负载词又给诗歌翻译带来陌生化效果, 增加译文的诗意。 诗歌中的陌生化审美效果及它所引起的审美感受不仅仅是为了造就一个新鲜的审美意象, 而是为了创造一种蕴涵丰富的审美价值的特殊形式。 当一首诗的独特文体以一种陌生化的形式进入人的审美视域的时候会使人惊奇, 并带来强烈的审美感受。 但在这令人惊异的陌生化形式背后是诗人所建构的一个新的用来承载 “意义” 的空间, 在这个空间里, 各样的审美感受都会随着人们的“视域融合”而会聚为对“意义”的把握。从这个角度看, 陌生化的形式不仅是对诗歌形式陈规的突破, 更是对无限可能的意义的开拓, 给读者以发现新的审美感受的可能性。 诗歌是违反常规的话语, 因而时常打破日常话语中必须遵守的清规戒律。其词汇和句法常常和一般文学文体的语言不一样。诗歌的语言讲究陌生化, 注重对日常语言的扭曲和变形。 常用古字、冷僻的词汇、典故、外来语, 或者借用其他行业的用语, 形成诗歌自己的语言特色, 文化负载词就是一种。 原文中的陌生化诗歌语言有:蘅芷、萝薜、菱荇、桑榆、麝、檀、琥珀、桂魄流光、鹤、金貂、茗、菱花镜、芙蓉绦、鲛鮹、蓉桂、灵槎、鸾、鳷鹊、鸳鸯、蒹葭、鸾鹥、蘅杜、葳蕤、坛畸、兰膏、瓟匏、烟萝、柳眼、笙、簧、芰荷、蓼花、梨蕊、月窟仙人、鸿、庄生蝶、陶令、蛩鸣、东村女、乌骓、黄发、骰彩。 以下表格是两个译本对这些词汇的对应译文表现了两个译本对陌生化词汇处理方法的差异。 对同一个生僻中文有不同的表达方式:完全对等翻译, 由修饰语+类属词替代, 略去不译 (0) 。 加黑的表达表示译文比参照译文与原文的接近程度更高。 统计显示, 霍译有21处采取了完全对等翻译, 杨译则有36处, 是霍译的1.7倍。 可见, 杨译更完整地保留了原作的陌生化表达方式, 也更充分地表现了原作的诗意。

5.案例对比

除《葬花吟》和《桃花行》外, 《秋窗风雨夕》是林黛玉另一首精彩的诗歌, 黛玉独坐时, 窗外下起雨, 空气中弥漫着寒凉的秋意, 黛玉倍感身世凄凉, 于是拟《春江花月夜》的格, 写成了《秋窗风雨夕》。

原诗重复“秋、风、雨”三个意象突出了悲凉的气氛, 这三个词分别在文中出现16, 6, 6次, 总共出现了28次;霍译三个词出现的频率分别是autumn (3) , wind (5) , rain (6) , 总共是14次, 刚好是原作总词频的一半;杨译三个词出现的频率分别是autumn (15) , wind (6) , rain (6) , 总共是27词, 基本与原作持平。 由此可以认为, 杨译风格更贴近原诗的氛围。 而两个译文中各有一个特色词, 霍译使用的人称代词和物主代词分别是I (1) 和my (6) , 杨译使用的人称代词是she (6) 。 这说明两位译者采用了不同的视角再现原作的感情和氛围, 霍译中诗人用第一人称的声音, 通过个人卷入抒发感情, 表现氛围, 杨译则用第三人称的声音, 使自己置之度外, 把诗中人的感情也作为观察对象, 通过描写诗中人和风景本身抒发感情, 表现氛围。 霍译使用了四次无生命名词的所有格表达法 (autumn’s, wind’s, bamboo’s, window’s) , 而杨译仅用了一次 (window’s) 。 霍译的表达习惯使译文更加活泼, 散文化风格更加明显。

6.结语

通过以上用语料统计手段, 对翻译策略、译文结构、译文语义、具体案例等方面进行对比, 可以看出两个译本在翻译《红楼梦》诗歌时采取的不同策略和风格表现。 这也代表了在诗歌汉译英过程中, 以汉语为母语的译者和以英语为母语的译者的一般翻译趋势, 这对诗歌翻译实践和研究都有一定的启发意义。

摘要:本文通过对《红楼梦》宝黛二人诗歌翻译的语料统计, 在翻译策略、译文结构、译文语义、案例方面进行对比后表明, 霍译的诗歌具有散文化倾向, 而杨译的诗歌倾向保留原文陌生化表达方式。

关键词:语料统计,风格,散文化,陌生化表达

参考文献

[1]Newmark, Peter.A Textbook of Translation[M].Shanghai:Shanghai Foreign Language Education Press, 2001.

[2]曹雪芹.红楼梦[M].北京:人民文学出版社, 2008.

[3]方梦之.译学词典[M].上海:上海外语教育出版社, 2004.

[4]李梦欣.英语诗歌的文体言说[J].河南教育学院学报, 2006.

基于统计的车牌字符识别 篇8

按照我国机动车号牌标准, 车牌的第一个字符为汉字, 并且该字符为省、自治区、直辖市简称和一些特殊字符, 总共37个汉字, 且汉字字体有标准统一, 因为所有的机动车号牌中第一个汉字字符固定, 是37个汉字中的一个, 因此我们可以对每个字符进行特征统计, 通过聚类的思想对字符进行分类。

2 基于聚类的汉字字符判别

汉字字符的分类识别识别与其他分类一样, 同样分为三个步骤:分类对象特征提取;构建分类器;分类计算。

2.1 提取特征向量

本文将通过数字图像的统计特征进行字符特征的提取。

对每个字符iy建立特征向量yi (28) (7) xil, xi2, (43) , xin (8) 。首先, 对车牌中的37汉字字符标准的图像样本进行特征统计, 读取图像后, 转换为二值图像。提取特征包括字体占有率、左右分布比例、上下分布比例。

从37个字符中可以看出, 随着每个汉字字符的笔画数目复杂程度不同, 字符的占有率、左右分布、上下分布各不相同。因此, 这些特征对于字符的判别分类具有重要的意义, 首先, 通过图像的数值矩阵结构特征计算图像边界:Bou, 1Bou2, Bou3, Bou4分别为边界上下左右的行列号。下面对这些特征信息进行提取:

占有率:

左右分布:

上下分布:

至此, 完成对汉字特征的提取, 下面对汉字进行识别。

2.2 聚类分类识别

这里我们仍然采用聚类分析的思想, 通过衡量距离计算相似度, 达到对汉字字符分辨识别的目的。根据上面建立的样本集合Y, Y (28) yii (28) , 1, 2, 3 (43) , 37, 首先, 采集样本信息, 计算出每一个向量iy, 然后对每个判别对象y0进行相同信息的提取, 然后进行测度衡量。

2.3 分类计算

下面将样本代入进行计算, 通过预处理、放缩、角度校正等得到字符图像的二值图, 对样本y0进行直接聚类法判别, 结果如表1。

从表1中我们可以看出, 最小距离为1.1521, 判别结果为‘京’, 结果正确。

摘要:车牌字符分割后的字符识别是车牌识别系统的技术关键, 目前字符识别的主流技术方法为基于字符特征提取的神经网络识别。目前国际上对字符识别技术有了较为成熟的研究成果, 但是, 这些技术尚不能对中国机动车牌中的汉字部分进行识别。本文将对车牌的汉字识别技术提出基于统计的识别方法, 并对汉字的特征提取提出相应的技术方案。

关键词:统计,车牌识别,特征提取,分类器

参考文献

[1]邹永星.车牌字符分割方法的研究[D].硕士学位论文, 湖南:湖南师范大学, 2008.

[2]王广宇.车辆牌照识别系统综述[J].郑州轻工业学院学报 (自然科学版) , 2001, 16 (2) :47-50.

基于统计的机器翻译 篇9

【关键词】统计学  土地整治  框架体系

近年来,我国的经济建设和国防建设发展迅猛,使我国逐步跻身世界级大国行列。为了实现社会的可持续发展,我国将生态文明建设也加入到国家的发展战略中,全面推进资源的科学开发和合理配置。其中,土地资源一直是我国资源管理的重中之重。我国的土地资源具有人口众多,人均土地占有量少的特点。近年来,由于人口负荷加重和土地的不合理开发,我国的土地资源污染与退化严重,土地整治改革已成为一个亟待解决的问题。统计学是一门通过搜索、整理、分析数据进而挖掘对象本质的学科,可以有效提高土地整治的工作效率。因此,将统计学理论知识加入到土地整治过程中,建立一个完善与高效的土地整治框架体系,对于推动我国土地的管理与保护,实现土地资源的可持续发展具有重要的意义。

一、中国土地整治体系现状

中国的土地整治起步较晚,直到2012年颁发的《全国土地整治规划》,才真正明确了土地整治的工作任务,开始注重对土地数量、土地质量以及生态环境的保护。目前,我国土地整治的研究工作还较为滞后,没有开发出一套完备、科学和高效的土地整治框架体系。

传统的土地整治体系中存在很多问题和不足,已不能满足当前土地整治工作的要求。首先,当前的土地整治的理论研究还处于摸索阶段,还没有构建出针对我国土地整治特色的独创性的理论框架,没有产生独立的学科,因此无法指导土地整治实践活动。其次,在土地整治的方法设计、具体项目实施和最终的项目评价方面还存在很多缺陷,没有完备的技术体系进行支撑,无法对土地整治的全部生命周期进行监管,影响了土地整治的效率和质量。另外,土地整治的管理体系不够成熟,对项目实施主体的管理方式不够科学和规范,无法充分发他们的有效能动性,对主体的职责和权限也没有明确说明,造成土地整治活动整体效率低下。因此,我们需要对现有土地整治的方式方法进行凝练,将其归纳总结为科学的理论,并最终抽象为框架体系。

二、基于统计学构建土地整治框架体系

(一)基于统计学的理论体系

土地整治的实践活动是基于理论体系之上的,充分理解相关的理论知识,能够帮助我们指导具体的项目工作,并随着项目的不断开展深化理论研究。例如,我国学者邓聚龙教授提出的灰色系统理论,主要研究的是信息不完全和不确定时的系统。土地整治体系就是一个灰色系统,它涉及到自然环境、整治技术、经济效益、人员管理以及法律等方方面面,具有复杂多变的特性。我们将灰色系统理论引入到土地整治过程中,通过分析当前已有的信息,可以降低内部因素和外部信息的不确定性带来的负面影响,进而构建科学的整治框架体系。

此外,博弈论也是一种解决土地整治问题有效的理论方法。博弈论由美国学者冯.诺依曼提出的,主要研究在冲突和对抗的情况下如何提出科学有效的决策。在土地整治过程中经常牵扯到政府、农民个体以及集体等多方利益,其中包含复杂的经济关系。一个科学有效的土地整治体系必须考虑到这种复杂多变的利益关系,要善于利用博弈论理论,在坚持国家利益的根本前提下,力求保证个人利益的公平实现。

(二)基于统计学的技术体系

土地整治是一项大型的系统工程,其中涉及到社会经济的方方面面,需要分析大量的数据资料,统计学方法可以帮助我们有效地对各项数据进行分析和归纳整理,以数据的形式直观地反映土地整治工作的有效性,科学地评价土地整治带来的经济、社会和生态效益,指导我们合理地进行土地整治工作。

我们首先使用全面分析法对土地整治工程进行体系划分,找出工程问题解决的最优方案。具体来说,我们针对土地整治体系的不同属性和功能将其细分为多个子体系,同时使用统计方法统计当前各个子体系的现状,分析出他们的属性特征,理清他们相互之间的关系。针对每个子体系,我们再使用聚类分析法,按照他们的性质、特征和功能分类,并对符合相同评价标准的体系进行聚类,确定各个子体系的共同特性和个性特征,来确保不同体系的个性化实施。在子体系的具体项目实施上,我们针对项目不同的阶段,使用不同的数理统计方法,对土地整治中包含的社会、经济、文化、学科等多个方面的数据资料进行整理、分析和预测,最终评价项目实施的效益,并总结土地整治过程中的项目经验,用以完善整个土地整治的框架体系。

(三)基于统计学的管理体系

土地整治的管理体系是其他土地整治实施的基础,高效的土地整治体系离不开科学管理的保障,从项目的实地考察、规划设计到具体的实施和评估阶段,一个科学的管理体系都至关重要,它可以提高土地整治的工程效率,有助于增加项目的效益。

我们使用统计学方法分析了现有的土地整治管理体系资料,将土地管理体系划分为3个部分,包括项目管理、人员管理和制度管理。在项目管理上,针对项目的不同阶段和功能,又细分为项目规划、项目实施、项目评价、资金管理、资料数据管理。具体来说,在项目规划阶段,我们可以使用典型相关分析和数理统计方法对项目的结果进行分析、预测。在项目实施阶段,我们可以GIS等空间数据分析方法,通过个性化分析研究土地整治的方法。在项目评价阶段,我们可以使用层次分析法,建立土地整治效益的评价模型,对整个项目的经济、社会、生态效益进行综合的评价。

总得来说,我国目前的土地整治体系中还存在很多问题。本文中,我们针对当前土地整治体系的不足,基于统计学理论探究了中国土地整治框架体系的具体构建方法。具体来说,我们将土地整治体系划分为3个层次,包括理论体系、技术体系和管理体系,并依据统计学原理对不同层次的体系进行了研究。

参考文献

[1]黄林.平邑县土地整理项目综合效益分析及评价[J].山东农业科学,2015(11):146-151.

[2]周密,葛霖.基于AHP的喀斯特山区农村土地开发整理可行性评价指标体系的构建[J].安徽农业科学,2015(16):300-302.

[3]张川,余建新,郑宏刚,等.基于系统工程和统计学理论的中国土地整治体系框架构建[J].农业工程学报,2015(15):255-263.

[4]刘眭,何腾兵,罗睿,等.新农村建设视角下的土地整治综合效益评价方法构建与应用[J].贵州农业科学,2016,44(2):190-194.

[5]时仅,廖和平,李涛,等.假设检验在土地整治效益评估中的应用[J].西南大学学报(自然科学版),2015(11):155-162.

上一篇:头皮撕脱伤下一篇:城市给排水工程新技术