短语统计机器翻译论文(精选6篇)
短语统计机器翻译论文 篇1
短语抽取在统计机器翻译模型构建中起着关键的作用, 统计机器翻译主要是基于短语抽取来运行的, 所以短语抽取的准确性和速度就直接关系到短语统计机器翻译的质量和效率。现在的机器翻译有多种方法, 比如对齐模板方法、松弛尺度短语抽取方法等, 这些方法各有一定的优劣, 也都在不同层面采用不同方法在机器翻译中起着独特作用。在各种方法中短语抽取算法被运用得较多, 这也在一定程度上说明了这种方法的有效性。下面是对短语抽取算法在短语统计机器翻译中的应用的一个具体分析。
1 短语抽取算法
短语抽取算法现在在短语统计机器翻译中有着广泛地应用, 这种方法直接利用双语对齐优化的结果, 能够在短语中抽取到符合条件的且准确率较高的短语对。这种方法最突出的特点就是准确率高、操作简单。这种方法也具有一定的缺陷, 其在短语抽取上只能抽取到连续的短语, 对于不连续的短语则不能很好地抽取出来, 又由于需要严格按照限制条件来进行抽取, 在短语抽取过程中会造成一些信息的丢失, 短语召回率较低。短语抽取算法具体操作是从词对齐开始, 然后通过算法程序对每一个源短语进行检测, 直到寻找到与之对齐的目标短语。当找到目标短语之后要进一步判断所找到的目标短语是否连续, 如果连续则需要寻找目标短语的最小位置和最大位置, 找好之后进一步判断这两个位置之间的目标短语对齐的源短语位置是否在源短语位置内, 如果在, 则说明检索到的短语符合要求, 如果没有则说明所找短语不符合要求, 不能实现短语抽取。短语抽取按取算法中常用于抽取的是双语短语, 对于双语短语有一定的限制条件, 首先是短语内的单词在原来句子中所处的位置是相连的, 不能出现中断的情况。另外双语短语还应当与对齐
矩阵相容, 如果不相容在短语抽取过程中则会出现一定的困难。
2 基于短语的统计机器翻译
统计机器翻译主要就是把给定源语言句子翻译成目标语言句子, 然后在所有可能的目标语言中, 选择出翻译概率最大的句子。这个转换的过程在统计机器翻译中也是一个解码的过程。在解码的过程中也会用到相应的函数来进行运算。基于短语的统计机器翻译需要运用一定的翻译模型, 翻译模型主要是源语言与目标语言之间的对应关系的模型。短语翻译模型在运用中常进行输入的是双语平行语料库, 通过一定时间的使用后可以得到短语翻译概率表, 这个可以为后期翻译的解码服务。短语翻译模型训练时一般遵循图1的流程。
这个流程图大致反映出了翻译模型的具体运行方式, 遵照这个流程来进行统计机器翻译工作可以更好进行。除了翻译模型之外还需要构建起语言模型, 语言模型具体反映的是一个句子在一种语言中出现的概率, 与之相关的主要是目标语言。语言模型展开训练时通常使用的训练工具是SRILM, 在整个语言模型中起着重要的作用。
3 短语抽取算法在短语统计机器翻译中的应用
3.1短语抽取算法的步骤。短语抽取的基本思想是穷举一只语言句子中所有可能短语, 然后再根据兑取矩阵找到与之对应的另一种语言句子中的短语, 当检索到相应的短语之后再检查短语是否满足短语抽取算法的两个限制条件。这两个限制条件就是短语内单词在原句子中位置必须相连, 同时双语短语还必须与对齐矩阵相容。短语抽取算法的具体运行方式可做如下描述, 源语言句子用sI表示, 目标语言用tJ表示, A表示sI和tJ的对齐矩阵, 这样具体运行算法如下所示:
3.2短语抽取算法的改进措施。短语抽取算法在实际运用中还存在着一些问题, 需要加以改进, 使短语抽取算法在短语统计机器翻译中得到更好地运用。首先在短语抽取长度上可以加以设置, 在进行实验时抽取短语的长度可以不断增长, 可以先选择3个单词, 之后可以增加到5个单词、再增加到7个单词的长度, 然后根据实际效果选择最佳的单词数。算法步骤方面也可以加以改进, 可以在上边介绍的算法步骤的基础上再增加一些判断条件, 这样可以使短语抽取过程更加完善, 也可以避免漏掉相关短语。
结束语
基于短语的统计机器翻译的基础是短语抽取, 短语抽取对整个短语统计机器翻译正常运行起着关键的作用。短语抽取算法在短语统计机器翻译中也得到了广泛的应用, 同时也发挥出了良好的作用。现在短语抽取算法在实际运用中虽然起到了良好的作用, 但同时也存在有一些不合理的地方, 应该对其加以完善, 设计出更好的运行方法, 使其在短语统计机器翻译中起到更加良好的作用。
参考文献
[1]强静, 张建.基于短语的统计机器翻译中短语抽取算法改进[J].计算机工程与应用, 2008 (13) :147-149.
[2]孙越恒, 段楠, 侯越.先统计机器翻译中的非连续短语模板抽取及其应用[J].计算机科学, 2009, 36 (10) :192-196.
[3]狄萍.基于短语的统计机器翻译的研究[D].苏州:苏州大学, 2010.
短语统计机器翻译论文 篇2
英汉互译
Articles of association 公司章程 Noise pollution 噪声污染
Gleaming eyes 眼睛里闪着光辉 On the board ship 在船上 Common ground 共同点
The birth and death of the day每一天的诞生和消亡
Property damage 财产损失 Everlastingly 无穷尽的 A narrow swale 狭长的洼地 Global economy 全球性的经济 Resonant voice 洪亮的声音 Instrument of ratification 批准书
Weapons of mass destruction 杀伤性武器 The science of biotic control 生物控制学 Immeasurable contrast 迥然不同 Sucking vigor 汲取力量 Now and then 有时
Well-mannered silence 规规矩矩 一声不响的 Works of the human mind 人类精神产品 In his middle twenties 二十多岁 Stock-raising 养殖畜牧业 Living organisms 生物体
National security policy 国家安全条例 To grant a license 颁发许可证 A kind of invitation 殷勤邀请 Sober-faced 沉静的 镇静的 Vaguely worded 措辞含糊 Welcoming banquet 欢迎宴会
The policies of reform and opening to the outside world 改革和对外开放政策 Brightly painted 颜色鲜艳的 Ravages of time 时间的摧残 In unison 齐声 一致
Court of appeals 上诉法院 Tentative and uncertain manner 试探和踌躇的举止
Typical masterpiece 具有代表意义的杰作 To give something much thought仔细想某事
Magnificent dinner 盛大晚宴Internal combustion engine 内燃机
Market-day 赶集的日子 Toast 祝酒词
Source of power 能源 Sir John 约翰公爵
Sovereign nation 主权国家 Meticulously dressed精心打扮 一点也不马虎 Life-giving 赋予生命的 Average height 中等身材 Undermanned 人手不足
Academic exchanges 学术交流 Vatican 梵缔冈
It rains cats and dogs 瓢泼大雨 Poisonous chemicals 化学毒物 Telecommunications 电讯 Live one’s own life 独立生活 Come and go 霎时即去
Scientific exchange 科学交流
Undue absorption in the past 过分的怀念过去 Flows of capital 资本流动 Outstanding feature 突出特点
Foreign exchange dealing 外汇交换 Universal convention 世界公约 Outward investor对外投资者 Vast size and resources 地大物博 Full member 正式成员 Right to know 知情权
Unpublished works 未出版的作品 To and fro 来来去去
Historically significant experiment具有历史意义的尝试
Average annual rainfall平均年降雨量 The flower of one’s youth 风华正茂 Turn one’s back on 拒绝 冷眼相看 International affairs 国际事务 More than ten years his junior比他年轻十几岁
Open public domain 开放的公共地带 To imprint on one’s mind印在某人的脑海里 Wind and twist 蜿蜒
Stand squarely 端端正正地站着
英语自考网以优质资料及高效的访问速度,为大家提供最新自考信息,祝愿大家早日毕业!
Establish communities 建立村镇 Flows of capital 资本流动
The ice was broken 打破了的僵局
Full diplomatic relations 正式外交关系 Freshly harvested 刚割的 Marine insurance 海事保险 A far cry from 完全不同 Industrial pollution 工业污染
International understanding 国际间的了解 Regular event 常事
Entrepreneurial spirit 进取精神 Cling to youth 与年轻人呆在一起 Prime minister 总理
拉家带口:be saddled with big family 沿海地区:coastal areas 北洋军阀政府:
Northern Warlord government 工业革命:Industrial revolution 奥运会:Olympic games 预算:Budget
生产力:Productive force 御花园:Imperial Garden 自然资源:natural recourses
统一战线的革命运动:the revolutionary movement of a united front 无言的呼唤:wordless cry
水坝发电:power generated by the dam平均率:average rate 人均:per capita
学术交流:academic exchange 文艺节:Festival Arts 完整的古代建筑群:complete group of ancient building
旧梦重温:going through old dreams 自给自足:self-sufficiency 董事会:board of directors 测深绳:sounding-line 历史遗迹:historical sites 丝绸之路:the Silk Road
专属经济区:Exclusive economic zones 浓妆艳抹:heavy make-up 新民主主义:new democracy
人均国民生产总值:per capita GNP
Mineral deposit 矿藏
Power of nature 自然的力量 Domestic legislation 国内立法 Natural beauty 自然美
Foreign investment 外国投资 Scarce tactic 吓唬人的办法 In this respect 在这方面
Federal Power Commission 联邦电力委员会 Sino-American relationship 中美关系 Municipal government 自治政府 International community 国际社会 Carriage drawn by the horse 马车 Neighboring environment 周边关系 诺贝尔学奖获得者:Nobel Price Winner 五一的下午:on the afternoon of May 1st人类文明的发祥地:
the cradles of human civilization无情的:relentless
河流入河口:the mouth of the river 基金会:Foundations 渔场:Fishing ground
振兴中华:Rejuvenation of China 金秋时节:golden fall 中外合资经营企业:
Chinese Foreign Equity Joint Venture 多功能机器:multi-purpose machine 雨季:rainy season 月白色的:pale green 拉排子车:pull a handcart
经济合作:economic cooperation
世界投资体系:world investment system 出于自愿和兴趣:
out of interest, on one’s own account 复种指数:multiple crop index 海洋生物:sea creature
互不干涉内政:non-interference 电力生产:electrical production
单位面积产量:the yield per unit area 落汤鸡:a drowned rat 储备基金:reserve fund 合法手续:legal title
双边发展:two way trade
客观有利因素:favorable objective factors
高等教育:higher education 先进技术:advanced technology 新兴城市:the rising town 在。。的号召下:at the call of 散文集:collection of essays 海洋旅游业:marine tourism排队:queue up
革命道路:revolutionary road 不良后果:negative effects 生活水平:standard of living 花坛:flower bed
沉积盆地:sedimentation basin 各种流派的:different schools 花言巧语:flowery language 经济改革:economic reforms 零工:odd jobs
有限责任公司:a limited liability company 交通动脉:arteries of communication 北阀战争:the Northern Expedition 基本方针:basic principle 儿童出版社:children press平等互利的原则:
the principle of equality and mutual benefit 民族团结:Ethnic harmony, ethnic solidarity 生产条件:Production condition福礼:sacrificial meat
国民经济:national economy 和平共处:peaceful coexistence
小买卖人:a peddler 民族精神:national spirit
永久定居:permanent settlement
革命知识分子:revolutionary intellectuals 水利工程:water-control projects 试工期:trial period
公共利益:public interest 为。。打下基础:lay foundations for 金水桥:Golden Water Bridge 沿海城市:coastal city
不惜力气:not sparing oneself 注册资本:registered capital不合理的制度:irrational system 极西地带:far west
灌溉面积:irrigated areas 战略任务:strategic task
区域自治:regional autonomy
平民文学:literature for the common people 外汇:foreign exchange宜农荒地:arable land 熬夜:to sit up
小资产阶级知识分子: Petty-bourgeois intellectuals
粮食总产量目标:total grain output target 工业产权:industrial property rights 外汇帐户:foreign exchange account 大陆架:continental shelves
短语统计机器翻译论文 篇3
统计机器翻译方法自上世纪90年代以来, 发展十分迅速, 取得了很大的进步, 使其逐渐成为机器翻译领域中的研究热点。统计方法的最大优点就在于无需人工编写规则, 利用语料库直接训练得到机器翻译系统, 且译文质量好。基于短语的统计机器翻译方法, 由于可以更好地把握局部上下文依赖关系, 在性能上优于基于词的统计机器翻译方法。相对于基于句法的统计机器翻译, 基于短语的具有很好的通用性, 且搜索空间比较小。
基于短语的方法将任意连续的字符串都看作短语, 从词对齐的双语语料库中自动学习双语短语, 以短语为单位进行翻译。然而, 通常认为, 如果短语表中一个短语和另一个包含该短语的较长的短语出现次数相同的话, 那么这个短的短语则很有可能是对翻译无用的信息, 甚至可能降低翻译质量。此外, 传统的基于短语的统计机器翻译并没有考虑短语的可靠度, 而是认为一个句子的所有短语切分都是等概率的, 这显然不符合语言学规律。针对这两个问题, 本文分别使用了C-value和粘结度的方法对短语表进行了过滤, 减小了搜索空间, 并且提高了翻译质量。
1 基于短语的统计机器翻译
基于短语的统计机器可以描述为这样的一个过程。将源语言f
本文的基准系统采用MOSES开源软件, 使用对数线性模型计算候选翻译项的概率, 该模型是Och在ACL2002会议上提出来的[3]。不同于以往的噪声通道模型, 对数线性模型是一种直接翻译模型, 直接对概率e
其中, hm (e
特征函数包括短语翻译概率
系统包括训练和解码两大模块, 训练模块利用GIZA++进行双向训练获得词对齐文件, 然后抽取短语获得短语概率表, 并使用SRILM训练语言模型。解码模块对输入的句子进行短语划分, 然后根据已有的短语表搜索它们的最优组合。系统结构如图1所示。
训练模块是基于短语的统计机器翻译中很重要的部分, 短语表质量直接影响了解码时的搜索空间和时间效率, 也关系到最终的翻译质量。因此本文将对短语表的构造做出改进, 过滤大量的冗余信息, 提高短语表准确率。
2 短语表过滤
传统的基于短语的统计机器翻译, 通过双向词对齐, 抽取出双语短语并计算概率, 进而构造出短语表。这种方法是将任意连续的单词看作短语, 并没有考虑短语的合理性。本文通过统计分析, 对短语的合理性进行评分, 从而对短语表进行有效的过滤。
2.1 C-value
C-value是Frantzi和Ananiadou提出的术语抽取方法[2], 其综合了语言学和统计的信息, 并着重强调统计部分。本文将C-value用于过滤短语表, 是基于这样一个思想:如果一个短语经常在更长的短语中出现而很少单独存在, 那么这个短语有可能频率很高但并不是对翻译有很大贡献的短语;如果一个短语经常在多个更长的短语中出现, 那么这个短语就是对翻译很有贡献的信息;如果一个长短语和它的子短语拥有相同的词频, 那么长短语更有可能对翻译有贡献。
与Frantzi和Ananiadou类似, 本文使用四个因素 (L, F, S, N) 来计算C-value, 从而判定一个短语是不是关键短语:
给定一个单语语料和短语表, 可以通过算法1得到一个过滤后的短语表。ε是给定的C-value阈值。候选短语的长度限制为l, l与短语表中的最大长度相等。
2.2 粘结度
粘结度在一定程度上反映了这个词序列出现的概率, 所以可以用粘结度来衡量这个词序列是不是一个合理的语块[7]。
公式 (4) 是长度为k的短语的粘结度。MI (w1, w2, …, wk) 表明词序列w1, w2, …, wk的互信息, P (w1, w2, …, wk) 表明词序列w1, w2, …, wk出现的概率, β是一个位于0与1之间的一个系数 (本文取β=0.5) 。公式 (6) 中的D′k是标准化处理之后的粘结度。
3 实验结果及分析
在本文的实验中, 训练语料为120 000句中英文双语对齐的句子, 测试语料为141句。本文采用GIZA++进行词对齐, 并使用grow-diag-final方法抽取短语, 基准系统采用MOSES开源软件。评价方法采用的是现在流行的机器翻译评价方法, 即BLEU算法。
实验中, 本文分别采用C-value和短语粘结度的方法对源语言进行过滤, 也将它们作为特征分别加入翻译模型, 并将翻译结果与基准系统进行比较。
3.1 根据C-value对短语表进行过滤
首先不考虑短语长度, 根据源语言的C-value对整个短语表进行了过滤, 结果如表1所示。
从表1中可以看出, BLEU评价最大可以比基准系统提高0.02, 而此时短语表只有原来的78%。并且当短语表缩减为原来的51%时, BLEU评价仍然比基准系统略有提高。
此外, 由于短语表里的短语长度为2到7个单词, 本文尝试将不同长度的短语分别进行过滤, 每个长度取不同的阈值。表2显示的是在BLEU评价最好的情况下, 各个长度的短语的阈值, 这时BLEU评价为0.4072, 短语表缩减至49%。
根据表2可以看出, 相对于长度较短的短语, 长短语的阈值更大, 由此可知, 长度短的短语过滤得更少, 对翻译的贡献更大。
表3是几个短语的C-value的例子, 很好地说明了C-value的作用。
“德耳塔 航空”的 (L, F, S, N) 为 (2, 1, 1, 19) , 计算得出C-value为0.947368, “德耳塔 航空 公司”的 (L, F, S, N) 为 (3, 1, 1, 14) , 计算得出C-value为1.85714。可以看到, “德耳塔 航空”和“德耳塔 航空 公司”的F (p) 都为1, 即两者出现的频率相同, 因此可以得出, “德耳塔 航空 公司”比“德耳塔 航空”对翻译更有贡献。而“九 个”的 (L, F, S, N) 为 (2, 5, 5, 63) , 包含该短语的长短语个数为63, 表示它经常在比它长的短语里出现, 如“九 个 街区”和“九 个 人”, 因此它的C-value值比较大。
3.2 根据粘结度对短语表进行过滤
本文使用和C-value一样的方法, 通过源语言的粘结度, 对短语表进行过滤, 结果见表4。
此外, 本文也对不同长度的短语分别进行过滤, 表5显示的是最好的结果, 此时短语表缩减至47.5%, 同时BLEU评价提高至0.4174。
可以看出, 这种方法比表4显示的结果好很多。由此可知, 对于不同长度的短语, 它们的粘结度无法准确地反映短语的合理性。
表6是几个短语的粘结度的例子。
可以看到“我 的”的粘结度要比“的 行李”和“的 形势”都高, “接受 检查”比“行李 接受”高, 这表示计算结果符合语言学规则。
3.3 将C-value和粘结度作为特征加入翻译模型
本文计算源语言和目标语言短语的C-value和粘结度, 作为特征加入翻译模型中, 并使用最小错误法训练模型参数[5], 结果见表7。可以看出, 这种方法比直接过滤短语表略有提高。
4 结 论
本文有效地运用了两种方法, 对短语表进行了缩减, 均取得显著效果, 并在缩减短语表的同时, 提高了翻译质量。实验显示, 使用C-value将短语表缩减至78%时, 翻译结果的BLEU评价可以提高0.02, 使用粘结度可以使短语表最小缩减至47.5%, 翻译结果的BLEU评价可以提高0.0158。此外本文分别将两种方法作为特征加入翻译模型, 均取得显著效果。
但是使用粘结度过滤短语表的方法仍然不够完善, 粘结度的过滤只能局限于相同长度的短语, 对于不同长度的短语, 其粘结度并不能很好地反应短语的合理性。在今后的工作中, 我们将会改善粘结度的计算方法, 使翻译结果得到更好的效果。
摘要:大多数基于短语的统计机器翻译系统将任意连续的词串看作短语, 并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法, 有效地对短语表进行过滤, 减小了搜索空间, 同时还提高了翻译质量。实验表明, 在翻译结果的BLEU评价提高0.02的情况下, 短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时, BLEU评价仍提高了0.0158。
关键词:统计机器翻译,短语表过滤,C-value,短语粘结度
参考文献
[1]Brown P F.The Mathematics of Statistical Machine Translation:Param-eter Estimation[J].Computational Linguistics, 1993, 19 (2) :263-311.
[2]Frantzi K, Ananiadou S, Tsuji J.The C-value/NC-value Method of Au-tomatic Recognition for Multi-Word Terms[C]//Proceedings of theSecond European Conference on Research and Advanced Technologyfor Digital Libraries.Springer-Verlag, 1998.
[3]Franz Josef Och, Hermann Ney.Discriminative Training and MaximumEntropy Models for Statistical Machine Translation[C].ACL, 2002.
[4]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社, 2000.
[5]Franz Josef Och.Minimum Error Rate Training for Statistical MachineTranslation[C]//Proceedings of the 41st Annual Meeting of the Asso-ciation for Computational Linguistics (ACL) , Japan, Sapporo, July 2003.
[6]Cenugopal A, Vogel S, Vaibel A.Effective phrase translation extractionfrom alignment models[C]//Proceedings of the 1st Annual Meeting ofthe Association of Computational Linguistics (ACL) , 2003.
高一英语短语、句子翻译 篇4
默写下列短语词组
感受痛苦/愉快/不幸梦想某事;梦想做某事
实现梦想一个有经验的老师
在……有经验/擅长于意味着做某事
打算做某事打算给(某人),打算(做什么用)表示“原打算做某事(而事实上没做)”
上学
处理事情
听演讲/看电影
处理;注意倾听;专心于;照料
清扫道路
杀出生路
让路,让步;屈服
迷路
择路而行
不管;不顾
平均而言
为……奋斗
勉强支持下去
同……搏斗
捉弄
在准备中
回顾,回忆
环顾,仔细查看
寻找,寻求
调查,研究
把……看做;旁观
检查;翻阅;把……看一遍
查阅,查寻
终究
总共,总计
自我介绍
某物被引进……
做什么
调小;拒绝
开/关
变成上交
很久以前
不仅仅
超过,不止
参加会议 上课 伺候某人,照顾某人加入摸索;谨慎行事设法到达领路;引路;示范前进关于平均降雨量高于/低于平均水平与……进行斗争挣扎着站起来寻找乐趣为……做准备尊敬,敬仰照顾,照料看;看待盼望,期待;预期,预料似乎是,看起来像留神,注意浏览;翻阅首先最重要的是,尤其是根本,究竟介绍……给某人怎样做轮流,交替调大转向;求助于(某人)使……变成不久,很快超过(相当于“over”)很;非常与其说……倒不如说……
仅仅才不超过,至多
务必;查明对……有把握
肯定地发达国家
发展中国家随着……的发展
在危险中秩序井然/混乱
贫穷退休
在困境中健康
负责在热恋中
掌权,执政在使用中
在流行中,时髦匆忙
又A制成B把…..制成……
由……构成弥补…….下定决心做某事
Part 2:
翻译下列句子:
今天天气怎么样?(用两种句式)
他是个什么样的人?他长得不是很好看,但心地善良。他喜欢什么?
我的梦想就是出国。她梦想有朝一日会出名。我将实现我的梦想。(三种表达)
这是我第一次在国外的生活经历。经验是最好的老师。
当今人们更喜欢雇佣一些有工作经验的人。
上课讲话就意味着浪费宝贵的时间。交朋友的方法有很多。
他赢得了学生的尊敬。
他靠当教师谋生。
儿童向老人表示敬意。我们必须尊重他人的意见。她在很多方面都对。
代我向令尊致意。他不顾后果的做了那件事。我把毕生献给教育事业。
这所学校的学生平均年龄是16岁。她看起来像一名普通的老师。
5和3的平均数是4.今年的降雨量接近平均水平。她的成绩高于平均分。
阅读对Tim来说是件费力的事。他与疾病斗争了许多年了。这个问题不像我们之前想的那么复杂。
她和她妈妈一样高。
无论何时被人捉弄,总让我不开心。他正在为这次考试做准备。
老师们正忙着准备考试,而学生们正在为考试做准备。
虽然我们在那里只呆了几天,但是我们玩得很愉快。
尽管男孩很小,到他懂得很多。
尽管他还是个孩子,他已经会背300多首诗了。
我很想念你们。
飞机仍然找不到。
我们幸福地生活在一起的日子一去不复返了。
首先,让我告诉你这个消息。
我们已经认识很久了。
作为引言,让我先介绍一下故事的背景。
该去哪里仍旧是个问题。我们不知道做什么。
问题是为何要去那儿。
汽车的轮子开始转动起来。他把袜子的里面翻了过来。叶子要变黄了。
向左转向西大街。
现在轮到你读了。
你不需要向他借钱。(三种表达)
需要浇花了。(两种表达)
不等我说一句话,她就走了。
我五年后才会回来。
那远非我能懂的。
杭州的美是我们无法描述的。
他不仅仅是一位老师。
我非常乐意帮助你。
我认识他超过30年了。
不止一个人反对这个建议。
与其说他聪明,不如说他幸运。与其说是一幅画,不如说是一首诗。教室里仅仅只有15个学生。教室里有不超过15个学生。杰克没有他弟弟用功。杰克和他弟弟一样不用功。他们到得比我们预料的早。
他正在等一封信。
那正是我们所预料的。
我希望星期天回来。
你不下苦工,怎么能期待有进步呢?
我们希望人人尽责。我们不能期待一个人短时间内改变一辈子养成的习惯。
我以为他昨天进城去了。
我想会的。
我想知道这列火车是否去南京。他明天是否回来还不知道。问题是我们是否需要它。我们是否要另建一所学校的问题还未解决。
那完全取决于我们是否能取得他们的配合。
我不知道是否去。
请告诉我明天是否不会下雨。一见到他就请告诉他这件事情。一到家她就直奔厨房。尽力养成良好的阅读习惯。建筑者正在建设这个城市的那个部分。
许多人带着绝望而来,满怀希望而去。
我们要把她培养成一个科学家。
布是有棉花制成的。
他们已经列了一个表。
他们已经弥补了损失。
她已经下定决心要找到那个问题的答案。
你认识这个正在和我妹妹聊天的那人吗?
你看见那个正在修理的车了吗?
进口产品不一定总是比国产的好。
被称为“母亲河”的黄河像一条巨龙一样的横穿中华大地。
晚上这个时间他们一定上床睡觉了。
老师现在一定在开玩笑。
这里一定出了问题。
他可能今晚到。
钥匙一定不在房间里,以为我已经仔细找过了。
她年轻的时候一定是个优秀的女孩。
你本不应该嘲笑他的错误的。你应该早点告诉我们的。我本该上周买那本词典的。你不应该花这么多时间在读小说上。
他们本来很想昨晚看那部电影的。如果他给我他的号码了,我就可以打给他了。
你怎么敢那样和你父母说话?他说他愿意帮助我们。如果你愿意接受这个工作你可以打给我。
当我们还是孩子时候,每年夏天我们常常去游泳。
当你看到他能请你帮我带个口信给他吗?
我现在可以看电视吗?
你可以拿任何你喜欢的东西。如果你再弄出这么多噪音,你就不能和我一起去聚会了。
有关“it”的句型:
学好英语将会变得越来越重要。
通常好朋友之间都有相同的爱好。
你不去聚会真是太遗憾了。
去那里那么早没有用。我们老师认为学英语不练是没用的。
我们感到很奇怪没有人拿走钱。
总所周知,吸烟有害健康。英语正在被接受为一种全球性的语言是一个事实。
我几乎不记得我们是什么时候结婚的。
是因为他病得很重所以请假了吗?
我认为没有大量的记忆掌握一门外语是不可能的。
如果他没能按时完成工作的话,这很要紧吗?
他正是在他父亲用石头盖的房子里度过了他的童年。
据说这部小说已经被翻译成了8种语言。
该轮到你擦黑板了吧?
众所周知,月亮每一个月绕地球一周。
就是在公园里这对老夫妇向我讲述了他们的爱情故事。
尽管我们不能看见它,但空气就围绕着我们。
只有当我们看不清楚的时候,我们才意识到眼睛的重要性。
没有人认为总是打断别人说话是礼貌的。
带着极大的勇气这个男孩说出了他偷钱的事实。
基于短语的藏汉统计机器翻译系统 篇5
藏文信息处理的研究工作是从20世纪80年代初的字处理研究开始的。但经过了近三十年的努力, 取得了不少有实用价值的研究成果和产品, 在藏文OS、藏文信息技术标准、藏语语音工程研究和电子词典等方面都有了较大的发展。但是对于藏汉机器翻译发展较为滞后, 有少数关于基于汉藏机器翻译的报道, 未见有藏汉机器翻译方面的文献。中国科学院的诺明花等对汉藏短语抽取中短语译文获取方法进行了研究, 并且提出了藏文词串频率统计算法和藏文词串序列相交算法两种方法来获取短语译文;青海师范大学的看卓才旦等人的对汉藏翻译系统中的动词进行研究, 并提出了相应的处理策略;青海师范大学的才藏太和华关加提出了以动词为中心的句法分析二分法;以及西北民族大学的祁坤钰对机器翻译用现代藏语语义词典进行了设计研究, 并探讨了相关的语义分析研究课题。
1 系统描述
本文实现了一个基于短语的藏汉统计机器翻译系统, 首先对收集到的双语语料进行预处理, 得到实验所需的藏汉双语平行句对;然后利用Moses进行模型的训练;利用srilm针对汉语语料训练语言模型;最后通过解码器对语料进行翻译, 得到最终翻译结果。整个翻译系统如图1.1所示:
1.1 翻译模型及语言模型
Mos e s是Pharaoh的升级版本, 是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的基于短语的统计机器翻译系统。这8家单位在2006年利用6个星期的时间在约翰霍普金斯大学召开了一次研讨会并开发了这个系统。整个系统是利用C++语言写成的, 从训练到解码完全开放源代码, 可以在Linux平台和Windows平台。
Srilm于1995年诞生于约霍普金斯夏季研讨会, 由SRI实验室的Andre as Stolcke负责开发维护。它是为语音识别所开发的, 由于统计机器翻译与语音识别有着千丝万缕的联系, srilm用来构建和应用统计语言模型。
1.2 基于短语的翻译
基于短语的翻译系统在进行翻译时, 将源语言句子以短语为单位进行切分, 每一个短语被翻译成相应的目标语言短语, 目标语言短语经过重新排序后生成较符合语法的目标语言句子。由于藏语句子和汉语句子在语序上有所区别, 藏语的语序是主语+宾语+谓语 (SOV) , 因此, 目标语言短语需要再经过重排序生成符合目标语言语法的目标语言句子。值得提出的是, 这里所说的短语不是语法意义上的短语, 而只是相邻的词组。
上段给出了藏语句子: (大家正在思考) 的短语划分、翻译和语序调整。其中是虚词, 表示现在进行时, 表示句子的结束。
由于每一个藏语词或每一组藏语词都对应一个甚至多个目标语言短语, 我们称和源语言短语对应的目标语言短语为翻译候选项。这些翻译候选项将作为解码器进行搜索的搜索空间。也就是说, 解码器只需在这些翻译候选项中找出一组符合语法规则的翻译候选项组合作为最终的翻译结果。
2 语料预处理
翻译模型所用训练语料为分过词的藏汉双语平行句对, 首先需要对双语语料进行预处理。预处理的步骤为:去掉空行;去掉多余的空格;时间和数字的规一化处理;编码转换;分词。
2.1 编码转换
由于藏文编码字符集国家标准和国际标准发布较晚, 且基于藏文编码小字符集实现藏文显示相对复杂, 从而出现不同文字处理平台上相同字符的不同编码问题, 也就是文字处理的不兼容问题。在进行藏汉翻译时, 我们所使用的藏字的编码方式是基本集, 因此, 对于同元、班智达等编码方式的藏文字需要转换为基本集的编码方式, 这就需要进行编码的转换。
同元和班智达编码都是基于GB2313的藏文编码, 采用的是双字节对藏文字丁进行编码。目前搜集到的藏文语料主要有Himalaya Unicode藏文编码、同元编码和班智达编码。由于同一个字词的编码不同, 在进行统计训练时会作为不同的字词处理, 这样会影响翻译模型的建立和系统的准确性。
为解决以上问题, 需进行编码的转换。Unicode藏文编码在进行信息处理时由藏文基本字母与字母组合用字符构成内码复合序列, 并按规则叠加生成藏文字丁, 也就是说一个藏文字丁可能对应多个Unicode藏文字符。由于同元和班智达藏文编码都是利用藏文小字符集加上垂直预组合的方法, 则一个同元和班智达编码都对应一个或多个Unicode编码。根据分析, 我们建立了同元和班智达编码与Unicode藏文编码之间的映射表。
由于Hash算法的查找时间复杂度是O (1) , 为了根据当前要转换的字符的编码值直接从对照表中查到其目标编码值, 是所有查找算法中具有最小时间复杂度的, 具有最快的查找速度。因此, 我们用Hash查找算法进行编码转换, 这样可以直接根据当前要转换的字符的编码从对照表中查到其对应的目标编码值。
2.2 藏文自动分词
藏文的词与词之间没有间隔标记, 因此与中文一样都存在分词问题。中文分词的主流方法为基于统计训练的方法, 如HMM、CRF++等, 而藏文语法相对比较严格, 本文借助藏文格语法规则并利用分词词典实现基于规则的藏文分词算法。由于藏文词语间存在紧缩词问题, 因此在分词前需先处理紧缩词问题。紧缩词是人们为了方便将有些字与它前面字之间的分隔符省略而形成的。主要有六个:具格助词、la类格助词、属格助词、终结词、饰集词、离合词。在藏文句子中出现的频率很高, 通过基于词典的逆向最大匹配去掉紧缩词, 如果匹配成功则将紧缩词切开, 否则去掉紧缩格并且添加。紧缩词处理过后, 利用格助词和藏文分词词典相结合的方法对藏文句子进行分词。首先利用特殊格助词 (如:) 对句子进行分块, 然后利用分词词典进行正向逆向匹配最终得到分词结果。
3 实验分析
实验采用藏汉双语平行语料训练翻译模型, 训练语料101629句对, 语料来自新闻领域;测试语料500句对, 以及开发集650句对 (其中的汉语参考答案四个) , 测试集和开放集的语料均来自新闻领域。原始语料按长度比1∶3进行过滤;语言模型使用srilm工具包, 其中, 使用模式识别国家重点实验室自然语言处理研究组开发的中文自动分词工具进行分词。目标端语料训练的4元语言模型;使用Moses进行翻译模型的训练, 利用BLEU进行打分。实验结果见表3-1和图3.1:
4 结语
本文利用开源的统计机器翻译工具Moses, 搭建基于短语的藏汉机器翻译平台, 使用新闻领域语料对系统做了测试, 并取得Bleu值0.3425的较好结果。本文主要在藏语语料的编码统一, 双语平行语料的自动分词等方面做了深入的研究, 由于藏文分词的准确率、语料的规模和短语对抽取算法都对系统的翻译效果存在一定影响, 下一步将引入更多藏文语法规则, 改进藏文分词和短语对抽取算法, 从而提高系统的翻译准确率。
参考文献
[1]Peter F.Brown, John Cocke, Stephen A.Della Pietra etc al.A Statical ApproachTo Machine Translation.Computational Linguistics, 1990.
[2]诺明花, 吴健, 刘汇丹, 丁治明.汉藏短语对抽取中短语译文获取方法研究.中文信息学报, 2011.
[3]看卓才旦, 金为勋, 李延福, 洛智华, 朋毛扎西.汉藏翻译系统中的动词处理研究.语言信息处理, 2006.
[4]才藏太, 华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究.中文信息学报, 2005.
[5]祁坤钰.机器翻译用现代藏语语义词典的设计研究.西北民族大学学报, 2004.
[6]柴春光, 宗成庆.影响统计机器翻译系统性能的因素分析.第三届学生计算语言学研讨会论文集, 2006.
[7]张大鲲, 张玮, 董静.基于非连续短语的统计翻译模型.第三届学生计算语言学研讨会论文集, 2006.
[8]何中军, 刘群, 林守勋.统计机器翻译中短语切分的新方法.第三届学生计算语言学研讨会论文集, 2006.
[9]刘汇丹, 诺明花, 赵维纳, 吴健, 贺也平.藏文编码转换软件"藏码通"的设计与实现.少数民族青年自然语言处理技术研究与进展———第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集, 2010.
[10]李永宏, 何向真, 艾金勇, 于洪志.藏文编码方式及其相互转换.计算机应用, 2009.
短语统计机器翻译论文 篇6
1 短语翻译对
短语翻译对是指互为翻译的源语言与目标语言短语对, 在机器翻译、词典编撰和跨语言信息检索中有着广泛的应用。短语对齐是双语语料加工中的一个难点。短语对齐就是要对双语语料进行深层次的分析, 从中识别出源语言和目标语言短语单元, 并给出它们之间的对应关系。所获得的结果即为短语翻译对。短语翻译对是从双语句对中通过短语对齐方法获取的。所获取的短语翻译对在词典编纂、机器翻译和跨语言信息检索等多种自然语言处理问题中有着广泛的应用。在翻译知识获取过程中, 短语翻译对有着重要的作用, 可以作为翻译实例直接应用于EBMT系统;可以在大规模双语语料上计算每一个短语翻译对的概率并将其应用于SMT系统;也可以从中获取翻译模板直接应用于基于转换的机器翻译系统。短语对齐过程可以分为两类:一类是直接利用词汇对齐结果的短语对齐;另一类是间接利用词汇对齐结果的短语对齐。
2 直接利用词汇对齐结果的短语对齐
对双语句对中的源语言与目标语言句子分别进行句法分析, 以词汇对齐结果为依据, 从中抽取短语翻译对。这种对齐方法又称为“分析-分析-匹配”的对齐策略。1992年, Kaji最先使用该方法进行了日-英双语结构对齐, 这是一种被人们广泛使用的对齐策略。Meyer使用Regularized Parser分别对源语言与目标语言句子进行句法分析。这种文法类似于带有依存结构的词功能语法, 有两层句法结构, 即成分结构和功能结构。成分结构描述了语言的表层结构, 经过一定运算之后, 可以将成分结构转换为功能结构。以词汇对齐结果为锚点, 对两棵句法树进行结点对齐。Menezes采用了一种逻辑结构来表示源语言与目标语言句子的语法结构。该结构是一个无向图, 结点表示内容词, 边表示内容词之间的语义联系, 以记录句子中的关键性成分之间的修饰关系。以双语句对的词汇对齐结果为依据, 对两个无向图中的结点进行匹配。在两个逻辑结构中, 结点匹配的原则是:从最为可靠的对齐结点出发, 向外扩展对齐, 即第一次扩展总是从最可靠的结点开始。在对齐过程中, 给出了一些规则作为启发式信息, 用以找到最佳的对齐方案。Wantanabe使用依存文法对双语句对的源语言和目标语言句子分别进行句法分析。采用依存文法的原因是:依存句法树的标识比较简单;由于依存文法注重句子中词与词之间的对应关系, 因此, 词汇知识、词与词之间的句法关系较为直观;容易将依存关系映射为相应的语义表示, 方便今后的语义分析。
这种直接对齐方法存在着如下缺点:a.难以获得足够鲁棒的和精确的单语句法分析结果。一些语言的句法分析技术尚不成熟, 很难找到一个可靠的句法分析工具。在这种方法中, 单语句法分析是整个对齐过程的基础, 将直接决定着最终的结构对齐结果。b.不同语言的语法分析结果可能不匹配。对于不同语法体系的两种语言, 即使各自都能得到正确的单语分析结果, 也会出现分析结果不匹配的情况。当源语言和目标语言都根据各自的语法特点和语法理论框架进行分析时, 不可避免地会发生这种情况。c.多重候选结构对齐的歧义消解具有一定的主观性。一个语言中的某个结构可能与对齐句子中的多个结构构成候选对齐, 称为结构对齐歧义。
3 间接利用词汇对齐结果的短语对齐
以上所有短语对齐方法都是在词对齐的结果上进行的, 即在词对齐路径上寻找与源语言短语等价的目标语译文片段。因此, 获取的短语翻译对的质量将直接依赖于词汇对齐结果。Zhang提出了一种短语切分与对齐一体化的统计模型, 其优点是不依赖于词对齐结果。在划分源语言与目标语短语的同时, 完成了短语片断的对齐, 并且其算法简单, 执行速度较快。该方法的主要思想是:为双语句对建立二维互信息矩阵, 互信息矩阵中的每一个元素表示源语言单词与目标语言单词之间的互信息, 并将互信息值相似的矩形区域视为短语翻译对。
Zhao提出了一种利用直译概率、繁殖数概率和形变概率来抽取短语翻译对的方法。对每一个源语言短语, 计算其在源语言句子中的中心位置, 通过形变概率在目标语言句子中找出其对应点, 从而确定了所对应的目标语言短语的中心位置。从目标语言短语的中心位置出发, 在规定的窗口范围内, 寻找源语言短语的所有候选译文。同时, 以词的直译概率为依据计算源语言短语的所有候选译文的得分;以词的繁殖数概率为依据, 计算目标语言短语与源语言短语长度之间的差异, 从中选出n-best候选。但是, 所提取的短语翻译对, 其源语言和目标语言短语不具备任何句法分析知识。
摘要:介绍了双语语料加工的发展状况, 分析了短语对齐技术。探索了使用语言学知识和统计方法来实现双语语料的对齐加工技术。
关键词:双语语料,短语对齐,语言学知识,统计方法
参考文献