专利检索自动翻译

2024-09-26

专利检索自动翻译(精选7篇)

专利检索自动翻译 篇1

一引言

近年来,中国专利申请量高速增长,截至2013年底,申请总量达到82. 5万件,已连续三年位居全球第一。1与此同时,在国际专利交流与合作中,文献翻译需求急剧增长,而传统的由专利翻译人员进行手工翻译的方式已经不能满足当前需求,这在一定程度上阻碍了我国专利技术的推广和交流( 吕雅娟、付雷等,2007) 。于是,世界几大主要专利局先后将机器翻译技术引入专利文献的处理流程,并与多家科研单位、公司展开相应合作( 袁明跃、高立华,2008) 。专利机器翻译逐渐成为机器翻译的一个主要应用领域。

专利文本形式规范,格式比较固定,用语也较为规范,比较适合机器翻译( 晋耀红,2012) 。但是,专利语料中复杂长句出现频率很高,这样的句子通常含有多个动词或介词,对翻译来说比较困难。为了实现更好的调序及翻译效果,有必要先对源语言进行句法分析。汉语是一种形态变化较少的语言,主要依靠语序和虚词表达语法意义,介词作为一种只有语法意义、没有词汇意义的重要虚词,是汉语句法中的重要标记。因此,介词短语的识别在汉语句法分析中扮演着重要角色。

考虑到专利文本的特殊性,我们对500篇专利语料进行了抽样统计,发现其中的介词短语不仅频率高、分布广,还具有短语较长、结构复杂等特点。据统计,专利语料平均每句话包含1. 9个介词短语,介词短语的平均长度为12. 3字。而在新闻语料中,介词短语平均长度仅为4. 9字( 干俊伟、黄德根,2005) 。因此,本文重点关注专利语料中介词短语的识别问题,并提出一种基于语义分析的方法。考虑到汉语介词存在功能差异,我们将其分为两个语义类,并定义了一系列可为系统利用的特征。在分析过程中,将通过语义规则和搜索算法来确定短语边界和句法层次,从而实现介词短语的自动识别。

我们将该方法融合到一个基于规则的专利机器翻译系统中,并进行一系列对比测试以验证效果。实验表明,融合本策略的系统在短语识别准确率、召回率和BLEU值三项指标上均得到显著提升。

二相关研究

由于汉语介词短语在位置和功能上都与英语有着较大差别,因此介词短语的识别和调序是汉英机器翻译中的一个重要问题。由于介词短语主要充当句中的定语、状语、补语或其他辅助成分,介词短语中的动词就不可能是句子的核心谓词,因此,一旦划定介词短语的边界,便可缩小核心谓词的选择范围,句子结构也相应简化,降低句法分析等后续处理的难度( 尹凌、姚天昉等,2002) 。

近年来,基于统计模型的组块分析被广泛应用于各种短语的自动识别中,采用的方法包括HMM、最大熵、SVM等( 于浚涛,2006) 。为了更好地处理介词短语的识别,也有研究者在统计模型中加入语言学规则,构造规则和统计相结合的汉语介词短语识别算法,在识别效果上取得了较为显著的提升( 卢朝华、徐好芹等,2012) 。但是,现有的方法在应对专利语料中的介词短语时却难有好的表现,因为在专利文本中,介词短语相对较长且结构复杂,存在嵌套短语甚至从句的现象,且短语边界常常被省略,不利于统计模型来识别。而不论是基于统计还是规则的方法,可利用的词语特征和上下文信息都十分局限,仅包括词性、词语搭配等。因此,专利文本中介词短语的识别对于现有的句法分析系统而言是个相对棘手的问题。

为了解决这个问题,本文提出一种基于语义分析的方法,通过区分介词的语义类别定义出更多可利用的语言特征,以辅助识别介词短语的边界和句法层次,从而更好地实现专利文本的句法分析和远距离调序。

三语义特征

实现语义分析所需的特征有四种,分别为: 介词的语义类别、词语搭配、动词配价和句法层次。

( 一) 介词的语义类别

通过语义分析来实现介词短语的识别,首先需要界定介词的语义性质。从语义学的角度看,句子并非由短语组成,而是由一系列命题或论元构成。在以语义分析著称的PropositionBank语料库2中,句子被标注了两种语义角色: 主语义角色和辅语义角色。语料库开发者Palmer、Gildea等人( 2005) 提出,主语义角色指的是与句中核心谓词直接关联的对象或状态,如施事、受事、经历者等; 而辅语义角色则呈现一些结构上可有可无的辅助性信息,如时间、地点、方式等。

根据所引导的语义角色不同,我们可以将汉语介词分为两类,如表1所示。SC是英文Semantic Category的缩写,0和1代表SC属性的取值。SC0类介词引导主语义角色,SC1类介词引导辅语义角色。在我们的专利词语知识库中,共有15个介词被标注为SC[0],110个介词被标注为SC[1]。

( 二) 词语搭配

短语的正确识别依赖于左右边界的选择,对于介词短语来说,左边界即介词,右边界却需通过上下文的词语搭配信息来确定。在研究中我们发现,SC0和SC1分别有着不同的搭配规律,这是介词短语识别中的一项重要特征。

SC0是汉语中特有的一类介词,可通过改变语序来强调所引导成分或使句义发生细微改变。观察发现,每个SC0介词必然搭配一个谓词出现,这是因为SC0介词引导主语义角色( 谓语的论元之一) ,那么,SC0和谓词便通过该论元建立关系,我们把这种必然的共现规律理解为一种搭配。例如:

( 1)一种由紫外线|激活的粘合剂把传感器壳体|固定在中支架上。

在例句( 1) 中,“由”和“把”是两个SC0类介词,“由”和“激活”搭配,“把”与“固定”搭配。因此,句中谓词可以帮助我们确定这类介词短语右边界。

SC1主要引导时间、地点、方式、目的等辅语义角色,带SC1的介词短语也主要担当谓词或名词短语的修饰成分。因此,SC1类介词在用法和意义上与英语介词更为类似。与英语介词不同的是,SC1介词中的很大一部分在句中与特定的后置词( Postposition) 搭配,但也有不少SC1介词缺乏与之搭配的后置词,或在使用中省略后置词,需要我们考虑其他的搭配信息。例如:

( 2)在下面的酰化纤维素树脂中,按照程序详细地描述适用于本发明的处理酰化纤维素膜的方法等。

( 3)所述共享可以通过扩展频谱数字调制来实现。

例( 2) “在”和后置词“中”搭配,但“按照”独立出现。例( 3) “通过”之后并无后置词,但连词“来”却可以暗示右边界信息。

( 三) 动词配价

在语义学中,一个谓词和它所支配的论元可构成一个“谓词—论元结构”。在这个结构中,论元帮助动词呈现完整的语义信息( Gildea and Palmer,2002; Marcus et al,1994) 。动词配价便指一个“谓词—论元结构”中谓词能够搭配论元的数目,该属性对于SC0介词的识别及短语右边界的确定有着重要意义。

在知识库中,我们为每个动词标注VV[1]、VV[2]或VV[3]以示其配价属性,VV是VerbValency的缩写。

前文已经提及,专利语料中,单句可能包含多个动词,哪一个动词是和SC0搭配? 答案取决于动词的配价信息和其位置。通常,我们认为SC0与动词的搭配存在两种基本情况:

情况一: 论元1 + SC0 + 论元2 + 动词( VV[2])

情况二: 论元1 + SC0 + 论元2 + 动词( VV[3]) + 论元3

也就是说,若动词为二价,那么只有当其位于句尾时,才可能与SC0介词搭配,因为二价动词可拥有2个论元,而SC0之前有论元1,之后有论元2,已经占用了动词的论元名额,故而动词之后不可能再有第三个论元,动词只能居于句尾。如果是三价动词,则在动词之后还拥有一个论元名额,因而该动词可居于句中。

需要注意的是,实际语料中,常出现省略论元1的情况,如“把玻璃打碎”,但这并不代表二价动词( “打碎”) 之后可以多出一个论元名额,以上规律不受论元1省略影响。

( 四) 句法层次

专利文本中句子常包含嵌套短语,所以必须考虑区分介词短语的句法层次。首先,我们根据介词短语在句法树上的节点位置来定义其LEVEL值,LEVEL值代表了短语的句法层次,默认介词与所在短语的LEVEL值一致。需要指出的是,SC0和SC1所在短语的LEVEL值由不同的因素决定。

对于SC0类介词及所在短语来说,LEVEL值由介词短语的父节点确定。我们定义: 如果介词短语的父节点为S( Sentence) ,其LEVEL值为1; 如果介词短语的父节点为NP,其LEVEL值为2。

图1为句( 10) 的句法分析树,可以看到,PP2( 把传感器壳体) 在句中独立出现,其父节点为S,LEVEL值为1; 而PP1( 由紫外线) 嵌套在一个名词短语中,其父节点为NP,LEVEL值为2。

SC1及所在介词短语的层次分析与SC0不同,我们针对其特点给出如下定义: 假设有两个以SC1开头的介词短语,PPi和PPj,如果PPi嵌套在PPi中,那么PPj的LEVEL值为2,PPj的LEVEL值为1。如果短语不存在嵌套现象,则LEVEL值为空,无须考虑其句法层次。

如图2所示,句中包含两个含SC1的介词短语,PP1和PP2,而PP2嵌套于PP1中,故而,PP1( 通过在网络浏览器中提供动态图像) LEVEL值为1,PP2( 在网络浏览器中)LEVEL值为2。

四汉语介词短语的语义分析模型

假设一个专利句子为S( Sentence) ,可令S = W1,W2,W3…Wn - 2,Wn - 1,Wn,设Wi为介词,即介词短语的左边界,Wj为右边界。那么,介词短语的识别问题可以转化为对以下三个参数的求解: Wi,Wj,LEVEL。在本节中,我们将分别讨论如何利用语义分析来识别SC0和SC1所在的介词短语,即如何求解上述三个参数。

( 一) SC0所在介词短语的识别

以SC0开头的介词短语没有明显的右边界,但是,上文提及SC0有着固定的搭配规律,每个SC0介词都与一个谓词成对出现,谓词的位置和配价属性在这种搭配模式中起着非常重要的作用。我们总结了SC0类介词与谓词搭配的基本模式,如表2所示。

* PU 指的是汉语中可作为句子终结符号的标点,包括逗号、分号和句号。

表2中,Wi代表介词短语的左边界,Wj代表介词短语的右边界,由于SC0所在介词短语没有明显的右边界,故表中Wj列为空,但是,我们可通过Wj + 1和Wj + 2来求解Wj。表2列出了四种基本识别模式,谓词的配价和位置决定了短语的右边界和句法层次。需要指出的是,一些搭配模式并不适用所有的SC0介词,比如,介词“与”无法搭配“二价动词 + 在/到/给/成/为/至/于”。我们的规则充分考虑到这些细节,保证了短语识别的准确性。

在分析过程中,我们针对SC0介词与动词的搭配关系制定了43条识别规则,包括2个步骤。步骤1中,LEVEL[1]的介词短语被识别出。步骤2中,LEVEL[2]的介词短语被识别出。在我们的模型中,规则将被循环匹配,直到没有新的结果输出。如果一个短语被赋予多个LEVEL值,取最后一个为准。下面,仍基于例( 1) “一种由紫外线激活的粘合剂把传感器壳体固定在中支架上”来具体说明识别过程。

在步骤1中,“由”和“把”向后找到“固定 + 在”,均匹配上规则1,故各自生成一个LEVEL[1]的介词短语“由紫外线激活的粘合剂把传感器壳体”“把传感器壳体”。

在步骤2中,“由”匹配上规则2,向后找到“激活 + 的”,新生成一个LEVEL[2]的介词短语“由紫外线”。

系统决策时,“由”对应两个右边界和两个权值,选择最后匹配上的结果: “由紫外线”被识别为LEVEL[2]的介词短语,“把传感器壳体”被识别为LEVEL[1]的介词短语。

规则1 ( 0) SC[0]+ ( f) { ( m) Verb&VV[2]} + ( m + 1) CHN[在,到,给,成,为,至,于]=> LB( 0) + RB( m - 1) + PUT( LEVEL,1)

规则2 ( 0) SC[0]+ ( f) { ( m) Verb&VV[2]} + ( m + 1) CHN[的] = > LB( 0) + RB( m 1) + PUT( LEVEL,2)

( 4) 并且如果需要,可装备不止一个与3和4相似的耗尽物或新鲜物容纳储罐。

( 5)其他由钼精矿生产工业氧化钼的方法也在本发明中得到公开。

除了SC0介词和谓词的搭配之外,我们还发现一些信息可以帮助确定SC0及其所在短语的LEVEL值,例如,当一个SC0出现在SC1、数词、量词、或代词之后时,我们可为其打上LEVEL[2]权值,如例句( 4) 和( 5) 。这些辅助信息同样被整合到我们的语义规则中,成为系统判断边界和句法层次的重要依据。

( 二) SC1所在介词短语的识别

根据上文介绍,SC1类介词主要引导辅语义角色,那么,大多数以SC1开头的介词短语都充当名词或谓词的修饰成分。识别介词短语时,以SC1介词为左边界,需要确定右边界和短语的句法层次。必须指出的是,仅当短语存在嵌套情况时,SC1所在介词短语才有LEVEL值。通过对大量专利语料进行分析,我们发现SC1类介词有着丰富的搭配和上下文信息。表3列出了一些基本识别模式,不同搭配中的SC1介词会有所差异。

与SC0类介词相比,SC1的搭配信息要简单许多: 大部分SC1介词有固定匹配的后置词,如“对于……而言”“在……中”,其他SC1介词的后边界信息也相对明显,不涉及层次和动词配价属性。基于上述分析,我们建立了一个包含3个步骤的识别模型。在步骤1中,我们在所有的SC1介词和后置词位置处分别生成左边界和右边界; 在步骤2中,利用搜索算法检查左边界或右边界是否嵌套于其他介词短语中,若存在嵌套,则通过12条语义规则来向其赋予LEVEL值。在步骤3中,根据规则生成介词短语并确定短语的句法层次。例如:

( 6)根据本发明的示例性实施例,可通过在网络浏览器中提供动态图像来扩大UI显示方法的应用范围。

在步骤1中,“根据”“通过”“在”被识别为左边界,“中”被识别为右边界; 在步骤2中,“在”被识别为LEVEL[2]的左边界,“中”被识别为LEVEL[2]的右边界; 在步骤3中,通过匹配上以下三条规则,系统生成三条介词短语: PP1( 根据本发明的示例性实施例) ,PP2( 通过在网络浏览器中提供动态图像) ,PP3( 在网络浏览器中) ,其中PP3被赋值为LEVEL[2]。

规则3 ( 0) LB&CHN[根据]+ ( f) ( m) CHN[,]+ ( f) ( 0,m) ! Verb = > RB( m - 1) + PP( 0,m - 1)

规则4 ( 0) LB&CHN[通过,利用,采用,使用,用]+ ( f) ( m) CHN[以,而,来]= > RB( m- 1) + PP( 0,m - 1)

规则5 ( 0) LB&LEVEL[2]} + ( f) ( m) RB&LEVEL[2] = > PP( 0,m) + PUT( LEVEL,2)

五实验和结果评价

实验采用中国专利信息中心提供的500篇专利语料作为训练集,测试集来自NTCIR - 9专利机器翻译评测任务3,包含2000句中英对齐语料。

我们将基于语义分析的识别方法融合入一个汉英专利机器翻译系统 ( Zhu and Jin,2012) ,分别进行封闭测试和开放测试。两次测试中,均采纳了计算准确率和召回率的方法来评价介词短语的识别效果。需要说明的是,当且仅当一个短语的左边界、右边界和LEVEL值均识别正确时,介词短语才算正确识别。在开放测试中,BLEU值( Papineni et al,2002) 也被测定以用于评价翻译效果。表4列出了封闭测试的结果。

从实验结果可以看出,SC0和SC1所在介词短语的识别都存在召回率低于准确率的问题,原因主要有两个: 第一,由于分词或词义消歧错误,导致介词未被识别为左边界。如“对调焦误差信号”是一个以“对”( SC0) 开头的介词短语,但预处理时错将“对调”分成一个词。又如在句子“顾客将编码游戏卡插入其内”中,“将”被误识别为时态标志( will) ,而非介词。第二,在现有系统中,我们为介词短语的生成做了较为严格的限制,这也是导致召回率偏低的一个原因。

在开放测试中,我们通过对比来分析识别效果。如表5所示,RB - MT是上文所提及的基线系统,HYBRID - MT是融合了我们语义分析方法后的新系统,Google是时下最为通用的基于统计模型的在线机器翻译系统。RB - MT和HYBRID - MT可以直接输出中间结果,而Google的识别效果则需从翻译结果推断,因此当左右边界均识别正确时,我们认为该短语识别正确,LEVEL值在Google的统计中不作考虑。

对比测试结果显示,语义分析的方法有效提高了汉语介词短语的识别效果,Google在这一测试中表现不佳,主要是因为统计方法在长短语的边界确认上面临较大困难,而且科技文献( 包括专利文献) 在其训练语料库中占据比例相对较低。因此,我们的方法在处理句子长而复杂的科技领域文献时具有很大优势。除此之外,我们发现SC1所在介词短语的识别效果普遍好于SC0所在介词短语。统计数据显示,大约40% 以SC1开头的介词短语拥有与之搭配的后置词( postposition) 作为固定的右边界,而以SC0开头的介词短语几乎没有特定的右边界,识别完全依赖于上下文信息,故而效果略差一些。

在进行准确率和召回率统计后,我们还对三个系统的BLEU -4值进行了测算,如表6所示。

BLEU ( Bilingual Evaluation Understudy) 是目前最为通用的评价机器译文质量的算法,它以人工译文作为参考,机器译文与之越接近,则得分越高。BLEU - 4代表以四元组为单位对机器译文和人工译文进行比对。从表6数据可以看出,加入语义分析模块后,系统的BLEU值从0. 1997增至0. 2233,增幅11. 82% ,这说明我们的介词短语识别方法也有效提升了机器翻译的效果。但是,三个系统的BLEU值都不是很高,最高为Google的0. 3076。原因主要在于测试语料的领域没有限定,未知实体或术语无法准确翻译,而在BLEU - 4测定中,如果句子没有实现一个四元匹配,就会被打成0分。此外,需要承认Google在翻译选词上表现更好,我们的系统亟须改进和提升选词模块,从而达到更好的翻译效果。

实验后,我们对短语识别错误进行了分析和总结,发现以下问题亟待解决: 第一,当句子中可能包含多个可与SC0搭配的动词时,会对规则匹配造成干扰,需要我们细化规则的限制条件; 第二,跨逗号和LEVEL值≥3的介词短语尚未做处理,需要对其进行特殊考虑; 第三,知识库中词属性存在标注错误,需系统进行修正; 第四,预处理模块( 包括分词、词性标注和词义消歧) 需继续改进,避免错误累计,干扰后续模块; 第五,我们的方法对规则的完备性和全面性有较强依赖,规则库还需进一步完善。

六结语

为了解决专利语料中汉语介词短语的识别问题,我们提出了一种基于语义分析的方法,通过深入挖掘汉语介词的语义性质、搭配信息及句法层次,对两类不同介词分别建立自动识别模型,并将其融合入专利机器翻译系统中的源语言句法分析模块。实验证明,这一方法有效提升了句法分析和最终翻译的效果。在未来的研究中,规则库、知识库及机器翻译中其他模块还需继续改进、完善。这一方法在科技文献句法分析上有较大优势,未来也可尝试将其扩展应用到其他类型、领域科技文献的文本处理上。

浅谈专利翻译规范 篇2

专利文献通常由经过专门训练的专利代理人或专利律师撰写, 发明人一般不是专利文献的作者。由于专利文献是一种承载技术信息、法律信息的特殊文献, 所以与普通文本的翻译相比, 专利文献翻译具有特有的严谨风格。刚开始接触专利翻译的人, 往往因为理解得不够透彻, 会觉得翻译专利比较困难。其实, 在专利文献的翻译中, 专利文献需要按照一定的格式进行撰写, 这就促使专利文献的内容在布局上呈现大同小异, 在语言上呈现多处相似的特点。所以, 只要多花些时间去认真阅读、仔细解析、推敲斟酌, 直到最后的译文的成型, 甚至多练几篇, 就不会感觉专利文献太难翻译。但鉴于专利本身所具有的特点, 在翻译专利时, 了解一些应注意的翻译规范是必不可少的, 这既是翻译专利文献的重要前提, 又是高质量译文的重要保障。由于专利文献具有法律文件和科技文献的双重属性, 其体现的语言特点就是, 既具有科技文献用词简练、专业术语较多的特点, 又具有法律文件严谨性的独特风格。[2]

专利翻译是一种要求十分严谨的翻译工作, 不但要求翻译人员具有功底深厚的英文水平, 而且也要熟知专利相关的技术领域知识以及相关专利法律的内容。

在英汉专利翻译中, 首先, 应注重“信”与“达”两个要求。“信”是要求译文与原文内容基本符合, 不得有任何语义上的出入和省略。“达”是要求译文语文通顺、语句易读、没有语法错误。其次, 在“信”和“达”的两个前提下, 让译文表现出雅致、自然, 符合正常的英语表达习惯也至关重要, 即读者不用参考汉语原文, 就能顺利地阅读并理解译文的内容。

专利权是一种无形资产, 属于知识产权的范畴, 具有独占性、时间性和地域性三个特点。[3]独占性体现在专利权归专利权人所有, 具有专属的特点。而时间性, 就是法人享有的专利权在法律规定的保护期限内才有效。地域性, 就是对专利权空间上的限制, 其在一个国家或地区所授予及保护的范围内有效, 但在其它国家和地区不发生法律效力。通过专利本身所具有的特点, 在翻译英汉专利文献时, 应熟悉不同领域文献的内容及其翻译规范, 切实遵循专利摘要翻译的具体要求, 注意避免专利翻译中一些常见误区及问题。当然, 在译文初步成型后, 一定要仔细通读译文, 检查译文是否存在语法、语义、结构等不规范的错误, 以保证最终的译文, 符合专利文献翻译规范的要求。

在汉英专利翻译中, 需要避免翻译时模糊含义不清、译文出现歧义、冠词错误翻译、同义词错译以及时态转移不当等问题。在汉英专利翻译中, 若出现语法错误, 对于译文的质量会有很大的影响。因此, 了解英汉、汉英专利翻译中应注意的问题, 是专利翻译规范的首要保障, 也是完成高质量译文的前提。

专利说明书是对某项专利技术发明的清楚完整的说明。其是专利申请人向国家专利授予机构申请专利权时必须提交的重要法律文件。[4]通常, 专利说明书全文包括专利技术领域、背景技术、发明内容、附图说明、具体实施方式、权利要求、摘要等内容。专利说明书既是法律文书又是科技文献, 具有融科技与法律语言为一体的文体特点。在结构与表达上具有一定程度的程式化、用词正式程度高、频繁使用长句与紧缩句等。[5]基于上述特点, 在对专利说明书进行翻译时, 需要注意一些翻译规范, 以符合专利说明书的基本表达。

专利文摘的翻译属于科技翻译的领域, 其涉及面广, 专业性强, 翻译的过程不仅仅是知识语言转换的过程, 更是将翻译实践的标准定义为忠实准确、通顺流畅、规范专业的过程。在翻译专利摘要文献中, 需要注意是否正确理解原文、译文表达是否符合逻辑、术语前后是否一致等问题。[6]在翻译专利摘要时应注意准确理解段落的语义和逻辑关系, 不允许有漏译, 中英文内容明显不适当以及语法错误等现象发生。由于摘要来自专利说明书, 其必然带有原文的文风, 特定的技术术语及习惯用语。通常, 专利摘要有语句简练、新创词汇多、专利性强三个特点。

总之, 要准确地翻译好专利文献, 除了要掌握大量的专业技术词汇, 了解英汉、汉英翻译的语法结构特点, 段落、篇章的翻译方法之外, 还需要熟知专利翻译的规范和要求, 只有这样, 才是优秀译文的重要保障。在专利翻译文献中, 译者要以“忠实准确”、“通顺流畅”、“规范专业”为标准[7], 顺应具体文本的语境, 输出的译文不仅要忠实于原文, 还要地道流畅、语义通顺。而翻译专利的规范化, 要求译文的专业术语表达符合科技语言和术语规范要求, 尽可能利用译人语中已有的约定俗成的定义、术语和概念。鉴于专利文献的语言特点及在法律意义上体现的重要性, 在阅读和翻译时必须坚持一丝不苟的态度, 平时多加积累, 才能准确理解原文的含义, 准确熟悉专利翻译规范, 传递原文件的技术及法律信息, 避免输出的译文含义不清或表达错误。

摘要:专利文献是一种非常重要的技术资料, 是一座取之不尽用之不竭的“技术宝库”。专利文献既具有科学性, 又是一种具有法律效力的文件, 它是一种技术与法律的结合物。基于这两大特点, 专利文献有着较为固定的书写格式和表达方式, 这就需要我们在翻译专利文献时, 必须达到专利文献的翻译规范。这是避免传达错误信息的重要保障, 同时也是输出高质量译文的首要前提。

关键词:专利文献,专利技术,技术资料,翻译规范

参考文献

[1]江里楠.英文专利文献阅读入门[M].专利文献出版社, 1984.

[2]张桂平.英汉专利翻译技巧精析[M].北方软件教科室, 2011.

[3]史玉琴.标准文献的语言特点[M].中国翻译出版社, 1998.

[4]韩岐山.科技英语特点及其翻译[M].中国科技翻译出版社, 2007.

[5]宋新智.基于科技问题特征的翻译策略[J].中国科技翻译, 2008.

[6]刘宓庆.文体与翻译[M].中国对外翻译出版公司, 2003.

云苏“自动加墨机”获发明专利 篇3

南京云苏科技的“电脑打印墨盒自动加墨机及加墨方法”,是在该公司已获实用新型专利的“电脑打印墨盒真空加墨机”的基础上研发的,它在保留“电脑打印墨盒真空加墨机”创造的“不在空墨盒上开洞,不弄破墨盒上的标贴,先抽除墨盒中的残余墨水和沉淀物,然后再加入新墨水,让其像新墨盒一样重新投入打印使用”等优点的同时,又有以下六项创新:

一是电脑自动控制加墨量,自动向墨盒中加入新墨;

二是大墨量快捷设定。按下大墨量专用按键即自动对大容量墨盒加墨,对墨水容量在50毫升以上的墨盒加墨更加快捷;

三是加墨量一次设定,无限重复使用。设定一个加墨量值后,机内电脑即予记住,如后面待加墨盒的容量与上只相同,只要按下“返回”键即可自动执行,无须重新设定,在加多个墨量相同的墨盒时,减少了墨量设定程序,节省了时间,提高了墨盒的规模化再生效率;

四是加墨历史查询。将电脑与机器连接,即可调出该机在一个月内的加墨次数、每次加入墨水的颜色、数量,以及每次加墨的发生时间,具体精确到何日何时何分何秒,很便于多点连锁经营管理;

五是自动快速夹具。拉开夹具,将墨盒往里一放即自动夹持加墨,操作非常简便。

自动导引车专利技术分析 篇4

自动导引车通常也称为AGV小车或无人搬运车,根据美国物料搬运协会的定义,AGV是一种以充电电池为动力,自动导引的无人驾驶自动化车辆。它能在计算机的监控下,按路径规划和作业要求,精确行走并停靠到指定的地点,完成一系列的作业任务,如取货、送货等。

本文基于对AGV的专利申请进行分析,从中国专利申请量、申请人的分布等多方面统计分析,阐述了AGV专利申请的发展历程和发展趋势,重点针对技术方向和技术手段的发展脉络进行了梳理,并对其前沿技术进行重点分析。

一、国内AGV专利申请的分析

下面主要针对我国AGV专利的申请量、申请人及其典型专利进行分析,从而得到国内AGV小车的发展态势。

1. 中国AGV专利的申请量历程(1995-2015)

图1示出了AGV领域中国专利申请量趋势图,从中可以看出AGV领域的中国申请量在1995~2015年的20年间一直呈现稳步增长态势,尤其是在2010年后有显著增长。1995~2003年,中国AGV技术的发展处于萌芽阶段,申请量较少;2004~2010年,中国的AGV技术在经过一段时间探索和研究之后,进入了一个快速发展时期,此时期的申请量较之前提高了很多;2011~2015年,中国AGV技术处于高速发展时期,物流科技进入新的发展起点。

国家“十二五”规划中明确规划了“全面促进现代物流发展和产业升级”。AGV在国家及地方政策的推动下,进入快速发展阶段,AGV技术的研究和知识产权保护也日益受到重视。

2. 中国AGV专利的IPC分布

图2示出了在AGV领域中国申请在主要IPC (国际专利分类)中的分布,是以小车的航道控制、路径搜索、路径导引为主,这也从一定程度上体现了AGV小车领域的技术研发方向和热点。

分类号含义:G05D1/02二维的位置或航道控制;B65G35/00其他类目不包含的机械输送机;G01C21/26专用于道路网络的导航;G05B19/418全面工厂控制,即集中控制许多机器;B65G43/00输送机的控制装置。

3. 中国的申请人分布

图3示出了AGV小车领域中国专利申请的重要申请人的专利申请量。排名第一的是深圳市佳顺伟业科技有限公司,申请了15件有关AGV小车的外观设计专利,3件发明专利申请和14件实用新型专利申请,表明了该公司比较重视对AGV小车的外形、结构方面的研究和设计。

南京航空航天大学的申请量有18件,其中发明专利申请占15件,其大多数申请所研究的内容均是AGV小车的定位方法、导引方法、控制方法等。例如,2011年12月23日申请的发明名称为“嵌入式系统的视觉导引AGV系统及方法”(公开号CN102608998A)公开了一种基于嵌入式系统的AGV小车视觉导引方法,采用激光扫描实时扫描前方障碍物,通过图像采集、图像处理来进行避障检测

由申请人的研究特点可以看出,企业申请人的研究着重于对AGV小车结构改进和设计;而高校申请人的研究则着重于对AGV小车的导引、路径规划等控制理论。

二、AGV小车专利的技术分析

1.AGV小车的技术分支

图4示出了AGV小车的技术分支以及各技术分支的中国申请量。

2.AGV小车专利的技术发展路线

图5以时间轴的形式将各个技术分支的专利进行展示,从图中可以看出AGV小车的控制系统和安全装置在国内申请最早,驱动装置起步较晚,控制系统/方法的申请较多,且是当下技术研发的热点。

3.AGV小车的安全装置

最初的AGV小车安全装置主要采用的是保险杠的形式,它仅仅图6

是在AGV小车的碰撞过程中起到缓冲作用。随后研发者们对其进行了改进,中国科学院沈阳自动化研究所于1997年提交了一份专利申请(公开号为CN2292712Y),如图6所示,其公开了一种带压感开关的防碰保险杠,通过使碰撞产生的弹性形变来触发压力传感器,从而控制AGV小车自动停车。

虽然上述改进使得AGV小车在碰撞后能够自动停车,但还是免不了产生碰撞,这不仅对AGV小车的保护力度不够,而且对于行人来说无疑是十分危险的。在此基础上,云南昆船设计研究院于2003年提交了一份专利申请(公开号为CN2663230Y),如图7所示,其公开了一种自动导引车的防撞装置,在自动导引车身上安装探测器,探测器发射的探测波传至障碍物,其反射信号被探测器接收装置接收、处理,以此来控制自动导引车的行走安全。

由于在厂房中情况复杂,无线信号经常受到干扰,信息传输过程中经常出现AGV因无法收到信号而导致碰撞的情况。天津英泰汽车饰件有限公司于2011年提交了一份专利申请(公开号为CN202453735U),其探测器具有不同工作模式,有两种探测范围,在经过十字路口时AGV扩大其探测范围,而在正常行进时采用小范围探测,提高产品的竞争力。

此后,各研发厂家对AGV安全装置的改进越来越多,如,采用视觉和超声传感器配合使用(CN104503451A),采用红外线和超声波配合使用(CN204374774U),采用微分电路模块提高位置判断精度(CN203396952U),采用电磁感应(CN104991555A)等。

4. AGV小车充电装置专利

AGV小车系统一般采用在AGV上配备蓄电池,建立充电站,进行手动接插或在线充电。云南昆船设计研究院于2000年申请了一份专利(公开号为CN1293478A),一种自动导引运输车蓄电池的快速充电方法及其设备,以镉镍碱性蓄电池为工作电源,通过可编程控制器对蓄电池充放电前后的状态进行实时监测,利用大电流恒压充电和变电压恒流充电的快速智能充电方法,对AGV小车进行快速充电。

而传统的蓄电池系统具有许多缺点,如后期维护成本较高,接插插头容易产生电火花造成事故等。基于此,南京航空航天大学于2008年提交了一份专利申请(公开号为CN101425705A),如图8所示,一种AGV的无接触供电装置,通过感应电磁耦合关系向AGV小车进行充电。这种方式不仅减轻了AGV的负载,保证AGV长时间可靠稳定的工作,并节省了维修蓄电池的维护成本。

为了进一步对无接触供电系统进行优化,南京航空航天大学于2015年提交了一份专利申请(公开号为CN104993612A),如图9所示,一种利用供电电缆上的高频交流电,在不破坏电能无接触传输结构下,实现系统控制信息的传递,兼具供电和通讯功能,同时可以利用电磁场来进行磁导航,避免其他磁体因长时间使用后出现磁性下降而影响磁导引的可靠性和稳定性。

超级电容器是通过极化电解质来储能的一种电化学元件,是一种介于传动电容器与电池之间、具有特殊性能的电源。其充电速度快、大电流放电能力超强、充放电线路简单。湖南长瑞电气有限公司于2015年提交的专利申请(CN204596644U),是一种AGV超级电容器模组,即采用超级电容对AGV进行供电。

5. AGV小车的驱动装置

AGV小车的驱动转向总成是其行驶系统的执行机构,传统的AGV驱动转向总成通常可分为通用型驱动转向总成和全方位驱动转向总成。吉林大学于2006年提交了专利申请(公开号为CN2897767Y),如图10所示,一种电动机通过减速器输出给转向离合器;当左、右两侧电磁离合器均压紧接合时,减速器输出的动力使两侧车轮可以同步转动,采用脉宽调制(PWM)方法控制左、右侧电磁离合器以不同的占空比断开或接合,可使左、右车轮以不同速度转动,实现车轮的差速转向,克服了现有的通用型驱动总成结构复杂、同步控制难的问题。

传统的AGV采用固定模式运行,即前部万向轮、后部定向轮及驱动轮的运行模式,若要解决上述定向模式,一般采用两套动力系统,增加了成本。华晓精密工业(苏州)有限公司于2010年提交了专利申请(公开号CN201707606U),如图11所示,一种万向轮与定向轮自动切换装置,实现万向轮与定向轮之间的转换,从而使AGV具有双向行驶功能。其通过齿轮齿条啮合的机械形式,使得销轴插入万向轮上的销孔锁定万向轮,使其无法转动而成为定向轮。

随后各研发单位也对切换装置进行了结构上的改进,如采用丝杆传动实现万向轮和定向轮的切换(CN102749921A),采用摆板与导向槽配合的形式使切换动作更加平滑稳定(CN204241965U),采用凸轮和凸轮所动器使切换机构的加工精度降低,便于生产加工,降低成本(CN204527385U)。

6. AGV小车控制系统/方法

(1)导引方法

因早期自动控制应用较不成熟,为了实现AGV小车导引,云南昆船设计研究院于2003年提交了专利申请(CN2700183Y),一种机械制导式自动导引车的导引装置。利用陀螺仪定位原理,采用陀螺仪的输出信号制导,使定向、定位准确,结构简单。

激光导引技术,可方便地操纵控制目标物。云南昆船设计研究院于1999年提交了“推挽式激光导引自动搬运车”的专利申请(CN2314385Y),采用激光导引技术对AGV进行导引。合肥工业大学于2011年提交了“工业型激光导引AGV的双闭环控制系统”(CN201993646U),采用双闭环控制系统对AGV的位姿信号进行控制,提高AGV路径跟踪的快速性和平稳性。南京航空航天大学于2015年提交了“一种激光导航AGV的全局定位方法”(CN104729500A),公开了一种基于激光导引的AGV定位算法。实现精确定位。

机器视觉导引技术,是通过摄像机拍摄图片,然后对图像处理后,产生进一步的控制手段。南京航空航天大学于2011年提交的“嵌入式系统的视觉导引AGV系统及方法”(CN102608998A),通过摄像机采集远景图像,对图像进行高斯高通滤波、边缘检测和两步Hough变换计算小车相对路径的偏差,并反馈控制小车行进。上海交通大学于2012年提交的“一种基于地面路标的定位导引系统及方法”(CN102997910A),一种通过视觉系统获取地面路标特征图像,将其与记忆库中的特征带图像进行对比匹配,根据特征路标在图像中的位置和他们在世界坐标系中的几何关系获知AGV车体的位置、姿态,实现全局定位、导引功能。天津市星紫科技有限公司于2013年提交了“一种基于机器视觉可识别手势的AGV”(CN104460945A),公开了一种可以通过人的手势对一定范围内多个AGV进行远程遥控和监测的AGV系统。

磁导引技术,是通过测量磁场强弱来实现位置测量而导引的方法。中国科学院沈阳自动化研究所于1994年申请了“自动导引车磁导航传感器”(CN2213982Y),一种AGV磁导引系统,将磁带贴于地面之上,用磁饱和法测量磁场的强弱,通过两个测量头的差动来确定磁带相对于两个测量头的位置,用这一位置来控制AGV的行车路径。云南昆船设计研究院于2005年申请了“自动运输车的双磁钉导引装置”(CN2823983Y),其公开了一种导引装置,在AGV行驶路径上设置左、右两列磁钉,AGV在运行中出现的晃动对测量影响小,不需要在地面上开槽埋线,改变路径方便。哈尔滨智的机器人技术有限公司于2013年申请了“基于硬件的AGV小车寻磁装置”(CN203396928U),其包括霍尔传感器、一级放大及滤波电路和比较电路,缩短寻磁响应时间到10微秒以内。上海交通大学于2014年申请了“基于道路曲率地图的磁导航无人车及其地图的建立方法”(CN104460665A),一种通过磁钉检测传感器检测磁钉得出定位信息并结合曲率地图对信息实现有前瞻性的控制。

无线射频识别导引,射频标签是产品电子代码的物理载体,附着于可跟踪的物品上,因此同样可以用于导引。浙江大学于2007年申请的“基于射频识别标签和视觉的自动导引系统”(CN201194114Y),公开了采用无线射频识别标签与CCD相机视觉识别相结合的导引系统。陕西迅吉科技发展有限公司于201 1年申请了“基于RFID技术的自动导引车”(CN202404447U),公开了一种抗干扰能力强的RFID读取导引AGV系统。

二维码识别导引。二维码识别技术是用某种特定的几何图形按一定规律在平面分布的黑白相间的图形记录数据符号信息的技术。上海快仓智能科技有限公司于2013年申请了“基于二维码定位的自动引导车导航方法”(CN104142683A),并公开了在自动引导车行进时利用摄像头获取地面的二维码标签并加以识别,根据二维码标签中的位置信息控制自动引导车行进,实现对自动引导车的导航。广西大学于2014年申请了“一种基于二维码定位的升降式AGV自动导引运输车系统”(CN104036212A),通过扫描货架目标二维码来实现AGV的导引和取放货物的AGV系统。

(2)路径规划方法的专利

路径规划是指,在具有障碍物的环境中,按照一定的评价标准,寻找一条从起始状态到目标状态的最优路径。广州动进精密机械科技有限公司于2013年申请了“AGV多道岔自动寻目的站点的方法和系统”(CN103412566A),一种AGV小车在面对多个道岔时,能够自动寻找目的站点的方法,不需要事先人为设定AGV小车的路径,大大提高了AGV小车的智能化水平。

德国库卡实验仪器有限公司于2013年申请了“无人驾驶运输车辆及运行方法,包括该无人驾驶运输车辆的系统及规划虚拟轨迹的方法”(CN104133471A),如图12所示,其公开了一种无人驾驶运输车的路径规划方法。

陕西科技大学于2014年申请了“基于模拟退火粒子群的AGV优化调度方法”(CN104331749A),首先对AGV的调度过程进行抽象,建立相应数学模型,利用粒子群算法初始化种群,确定适应度函数,计算粒子适应度值,结合模拟退火算法,更新粒子的速度和位置,确定新粒子的适应度值,最终得到最优结果。

7.技术研发的热点

从上述AGV小车的技术发展路线,我们可以总结出该领域的技术处于不断发展的状态,技术分支中AGV小车的结构设计方面已趋于成熟。而AGV小车的控制系统及方法的申请越来越多,申请量处于稳定的增长趋势,这也体现了当今对于AGV小车的发展需求,正朝着智能化、安全化的方向发展,同时也是目前AGV小车的技术研发热点。

三、结语

专利检索自动翻译 篇5

化学领域科技文献记录的主要是本领域的化学物质及其制备方法、工艺、设备等, 因此存在大量专业词汇, 据统计, 化学领域专业词汇多达数十万条。其中, 大量意思相近的化学术语, 在翻译过程中极易混淆, 例如:

1. blend与mixture的适用范围

blend:结合或混杂以使组成部分分辨不出彼此;把…掺在一起:混合 (不同种类或级别的物质) 以获得特定特点、质量或浓度的混合物, 形成一致的混合物。适用于聚合物共混方面以及获得希望得到的特性的一般混合过程。blend表示一种亲密、和谐的混合, 侧重整个混合物的统一性。

mixture:混合, 混合物。普通用词, 指不同类种、性质不同的事物的混合, 由两种或更多彼此不发生化学合成并能被分开的物质组成的合成物。

例如:polymer blend———共混聚合物。blend比mix混合的更均匀, 更彻底。

2. 胺、氨以及铵

氨基:amino (-NH2) , 例如2-氨基-4-甲基噻唑 (2-amino-4-methylthiazole)

铵:ammonium (NH4+) , 表示该化合物为铵盐, 例如tetramethyl ammonium chloride (氯化四甲基铵) 。

胺:amine, 一组被认为是氨之衍生物的含氮有机化合物中一种 (NH3中一个或一个以上的氢原子被烃基所取代) , 如甲胺 (methyl amine) ———CH3NH2, 三乙胺 (triethylamine) ——— (C2H5) 3N。

二、化学领域专业词汇中多义词的误用

某些化学领域专业术语存在多个特定含义 (多义词) , 往往需要根据所描述的具体对象和技术过程来判定, 例如:purge

原文:…the catalyst may optionally be purged with an inert gas at reaction temperature for about 0.5 to about 2 hrs.

译文:催化剂可任选地在反应温度下用惰性气体清洗约0.5小时到约2小时。

分析:“purge”有“使净化、清除、肃清”的含义, 在本发明中用惰性气体处理催化剂, 一般不能表述为“清洗”, 而是通过将惰性气体吹扫催化剂的表面将气体置换掉以达到活化的目的, 根据实际操作的过程, “吹扫”更为贴切。

建议:催化剂可任选地在反应温度下用惰性气体吹扫约0.5小时到约2小时。

三、常用词汇作为专业词汇使用

除以上专业性词汇的使用外, 一些看似普通的词汇在化学领域科技文献中具有特定的专业词义。例如:feed (进料) , rare earth (稀土) , batch (间歇) , note (香调) 等, 对于这类词汇有的近似于行话, 在一般词典中不易查找, 往往要根据句子、段落、语境来确立。译校人员要多积累本领域的此类词汇, 如果碰到非本领域的此类词汇要多咨询请教, 切忌直译或妄加猜测。例如:

1. 香水产业中note译为“香调”

Head note头香调/Heart note中香调/Base note后香调

2. near-net shape

原文:In a typical PM process, a metal powder is mixed with alloying materials, lubricants, binders or the like, pressed into a near-net shape with appropriate tooling, then sintered in a controlled atmosphere to metallurgically bind the pressed powders together.

译文:在典型的粉末冶金工艺中, 将金属粉末与合金材料、润滑剂、粘结剂或类似物进行混合, 然后采用适当的加工压制成近网状, 随后在可控气氛中进行烧结使压制的粉末进行冶金粘合。

分析:“net”有一个含义是“净的;纯的”, “near-net shape”中的“net”就是取的这个意思, 该词组解释为“近净成形”;“近净成形技术”是指零件成形后, 仅需少量加工或不再加工, 就可用作机械构件的成形技术。“controlled atmosphere”应解释为“受控气氛”。

四、化合物的命名

在化学专利的翻译过程中, 其主题词多为化合物, 主题词的准确表达是非常重要的。化合物的命名有其自身的规律, 在翻译的过程中应从其规律入手理解化学基团之间的关系。

例如:酯类的命名

原文:n-butyl 2-hydroxy-3-butenoate

译文:正丁基2-羟基-3-丁烯酸

建议:2-羟基-3-丁烯酸正丁酯

分析:酯类由酸和醇缩合而成, 酯的命名英文表达上习惯将醇中的烷基放在前。例如:乙酸丙酯 (propyl acetate) 就是由乙酸和丙醇缩合而成, 命名时将丙基放在前面;苯甲酸苯酯 (phenyl benzoate) 就是由苯甲酸和苯酚缩合而成, 命名时将苯基放在前面。有机酸的命名:在词组尾部加上acid以表示该化合物为酸, 例如hexanoic acid (正己酸) , 1, 2-benzene-dicarboxylic acid (邻苯二甲酸) , 3, 4-dimethyl pentanoic acid (3, 4-二甲基戊酸)

五、结论

专利检索自动翻译 篇6

随着全球信息化进程的不断深入和网络信息用户数量的不断增长,网络上海量的信息可供用户检索和使用。但是用户如何快速有效地检索到自己需要的信息是一个关键的问题,为解决从海量信息中查找所需信息的问题,人们发展了信息检索技术[1]。初期,这个领域的研究者针对各自的母语或者网络上的主流语言——英语提出了各种信息检索方法。由于语言的障碍,非英语国家用户查询网络信息时遇到了很大的困难,加上信息获取需求呈现国际化的特点,人们迫切希望只提交一种语言构造的查询,就能获得与此相关的多种语言的信息。为此研究直接用用户的母语进行信息检索成为必要,进而研究双语言或多语言的跨(交叉)语言信息检索也成为一个热门的话题。跨语言信息检索CLIR(Cross-Language Information Retrieval),是指用户以自己熟悉的语言来构建和提交检索提问式,系统检索出符合用户需求的包含多个语种的相关信息[2]。用户查询提问式所使用的语言,一般为母语或熟悉的第二外语,称之为源语言,而系统检索到的信息所包涵的语种,称之为目标语种。如何在实现源语言与目标语言之间建立沟通桥梁,是目前跨语言信息检索研究的核心问题[3]。

目前,跨语言信息检索的技术方法分为提问式翻译、文献翻译和不翻译三种。其中,提问式翻译是CLIR的主流思想,这种方法有两种模式, 基于词典的模式和基于双语语料库的模式。基于词典的模式主要是利用机读词典,将用户提交的检索式翻译成目标语种,然后进行检索[4]。此方法存在以下的缺陷:对于一词多义的选择方式,主要是采用选择第一个词义、前N个词义、所有词义等,这样的结果,往往会导致检索的结果只是在字面上符合用户的要求,而实际内容往往偏离用户的实际需要;由于用户提交的查询提问式,通常很短,缺乏必要的语境,提问式翻译的准确性尚不能令人满意[5]。

基于此,本文提出一种基于最大熵模型建立的双语词典,并对用户提交的查询进行双向的翻译,这样可以获得较准确的翻译,有效提高检索精度。

1基于最大熵模型建立的中-英,英-中双语词典

1.1 最大熵模型简介

我们这里的熵指信息熵。香农(Shannon)认为信息是人们对事物了解的不确定性的消除或减少。香农把不确定的程度称为信息熵。

所有的客观事物使自己在限制条件下达到最大值。要选择在一系列条件下的一种分布,并且这些限制条件不能确定唯一的一种分布,那么最好的分布是具有最大熵的分布,这就是最大熵原理的基本含义。

最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设,在这种情况下,概率分布最均匀,预测的风险最小,因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。也就是说已知的条件必须满足,而对其余情况的概率因为仍然无从知道,因此只好认为它们均等[6,7]。

为了对最大熵框架有一个直观的认识,下面先介绍一个基于最大熵模型英译汉的简单实例。在英语中的‘go’,有下面的一些用法:

(1) 去,离去 I go to Guangzhou. 我到广州去。

(2) 安放,放置 The boxes go there.那些盒子放在那边。

(3) 行走;移动;旅行 We went by plane.我们是乘飞机去的。

(4) 开始:开动 Get going on the work! 开始工作!

(5) 准备;将要 It’s going to rain. 天要下雨了。

(6) 卖,出售 going cheap,卖得便宜。

在英语中单词‘go’的用法很多,超过三十种,对应的翻译也很多,很复杂、为了介绍的方便,在这里我们假设对所有的‘go’,仅有上面所列六种用法。则存在如下约束:

P(S1|w)+P(S2|w)+…+P(S6|w)=1 (1)

P(Si|w)(1≤i≤6)表示在含有单词‘go’的英文句子中,go翻译为Si的概率。在这个条件下对每种翻译均等一致的概率为:

P(Si|w)=1/6 1≤i≤6 (2)

但是,在实际使用过程中,我们发现前两种的用法比较多一些,我们假定:

P(S1|w)+P(S2|w)=2/5 (3)

在式(1)和式(3)两个限制条件的共同限制下,每种翻译的概率分布形式有很多,但是最一致的分布是:

P(S1|w)=P(S2|w)=1/5 (4)

P(S3|w)=P(S4|w)=P(S5|w)

=P(S6|w)=3/20 ( 5)

而且这样的分布具有最大的熵值,因为根据最大熵原理,已知的条件式(1)和式(3)必须满足,而对其余翻译的概率因为仍然无从知道,因此只好认为它们均等,即后四种翻译的概率均为3/20,即式(5)。对于前两种翻译而言,它们的翻译概率之和为2/5式(3),同样,根据最大熵原理,它们的概率均等时,概率分布最均匀,预测的风险最小,这时概率分布的信息熵最大,即式(5)。 但是,仅仅根据上面两个限制,在英文中遇到‘go’时翻译的效果并不好。例如,‘go’翻译为‘卖、出售’的概率是比较小的,但是,在它后面跟上‘cheap′时,‘go’翻译为‘卖、出售’的概率就变大了。为了表示这个事件,我们引入二值函数:

f(x,y)={1y=next(x)=cheap0(6)

x’表示上下文环境,在上面公式中是含有单词‘go’的一个英文短语,‘y’代表输出,对应着‘go’的中文翻译。next(x)看作是上下文环境x的一个函数,表示x中跟在单词‘go’后的一个单词为‘cheap’,我们称式(6)这样的一个函数为一个特征函数,简称为一个特征[8]。

1.2 基于最大熵模型建立的中-英,英-中双语词典

一般的词典只是将词的所有意思列出来,并没有指出这些意思是在什么情况下可能会翻译成这个意思,也就是说,一般的词典仅列出词的意思而没有列出词的上下文语境,这样在使用词典对用户检索词进行翻译时,对于一词多义的情况只能采用选择第一个词义、前N个词义、所有词义等方式,这样的结果,往往会导致检索的结果只是在字面上符合用户的要求,而实际内容往往偏离用户的实际需要,最终导致检索的精度不高。

事实上,一个词在不同的上下文语境中,它的意思是不同的,如果我们在翻译时能够考虑翻译词的上下文语境,则翻译的精度就会提高。然而,在提问式翻译的跨语言信息检索中,用户所输入的检索词一般是一些简短的关键词,本身缺乏上下文语境,因此,使用只有词的意思而没有上下文的一般的词典进行翻译时,翻译的效果不是很好。

针对这个问题,本文对一般的词典进行改进,基于最大熵模型来建立词典(为了区分一般的词典,我们将该词典称为特殊词典)。在该词典中,除了将词的翻译意思列出之外,同时考虑到词的上下文语境,也就是说,对于每一个词的翻译,我们除了将该词的意思一一列举出来之外,还将该翻译意思的上下文列出。例如,在中-英词典中,对“安放,放置”的翻译以下面的形式列出:put,place,go|here,there。在这里,我们用符号“|”来将词的翻译意思和上下文隔开,从这个翻译中,我们可以得到以下信息:对于中文词“安放,放置”,如果将它们翻译成英文,有put,place,go三种选择,而|后面的here,there表示中文的安放、放置翻译成put,place,go,那么here,there一般会出现在它们的后面。而在英-中词典中,对于put的翻译以下面的形式列出:放,放置|here,there,与中-英词典中的形式类似,用|来将词的翻译意思和上下文隔开,与中-英词典不同的是,|后面的here,there表示,待翻译的词put如果后面出现here或there,那么它被翻译成中文的放、放置的可能性就很大。

从上面的论述可知,在我们的特殊词典中,除了将待翻译的词的意思列出,我们还列出在什么情况下会翻译成这些意思,词典以上面的形式列出,有以下的优点:对一词多义词进行翻译时可以根据其上下文语境来获得较准确的翻译结果。

2 基于特殊词典的双向翻译

2.1 双向翻译思想

双向翻译也称互翻译,该方法的主要思想是使用后备译文表来排列备选译文。假设要把英文词翻译成中文。在“双向翻译”中,首先,在英-中双语词典中找到该英文词的一组中文译文;然后,反过来,使用中-英双语词典把这组中文译文的每一种译文又译成英文,得到一组英文译文。如果该组英文译文中包含有原始的英文词,那么对应的中文译文将作为首选译文。

2.2 基于特殊词典的双向翻译

我们对以上的双向翻译的方法进行一些改进,在进行翻译时,我们将得到待翻译词的翻译和该翻译的上下文,在反向翻译时,我们除了将得到的翻译词再翻译回去,还要将这些翻译的上下文进行比较,如果这些两组上下文相同(或大部分相同),则这些将作为待翻译词的翻译。

例如,要把中文的“放置”翻译成英文,在基于特殊词典的双向翻译中,首先,使用中-英词典中找到该中文的一组英文翻译put,place,go,同时也得到这组英文翻译的上下文here,there;然后,反过来,使用英-中语词典把这组英文译文的每一种译文又译成中文,得到安置|here,there,施加|pressure;放,放置|here,there,地方|in,out;行走;移动;旅行|by,plane,train,bus,安放,放置|here,there,卖,出售| cheap一组译文。 将这组译文中的上下文和刚才使用中-英词典翻译时得到的上下文here,there进行比较,可以得到,中文 “放置”可以翻译成英文的put,place,go。

3 实验与结果分析

为了验证特殊词典和基于特殊词典的双向翻译的效果,我们选择15个用户,每个用户输入20个查询关键词作为实验的数据。对这些数据进行以下对比实验:基于一般词典的双向翻译和基于特殊词典双向翻译准确率的对比。

在实验中,我们分别基于一般词典的双向翻译和基于特殊词典双向翻译对用户输入的查询关键词进行中译英和英译中的翻译,实验结果标记为GB _ce,SB_ce,GB_ec,SB _ec。GB_ce表示基于一般词典的双向翻译的中译英结果的准确率,SB_ce表示基于特殊词典双向翻译的中译英结果的准确率;GB_ec表示基于一般词典的双向翻译的英译中结果的准确率,SB_ec表示基于特殊词典双向翻译的英译中结果的准确率。实验的结果如图1所示。

从对比实验的结果不难看出,使用特殊词典的双向翻译的准确率高于使用一般词典的双向翻译,说明在进行翻译时,如果能考虑到词的上下文语境便可以提高翻译的准确率。

4 结束语

针对目前跨语言信息检索领域所采用的提问式翻译中存在的问题,本文提出了基于最大熵模型建立的中-英、英-中双语词典的方法,并提出利用双向翻译的思想在建立的双语词典对用户的查询关键词进行翻译。该方法与常见的基于词典的提问式翻译方法相比具有以下优点:

(1) 建立特殊词典时,我们除了给出词的翻译意思外,还给出其上下文语境,从而弥补了检索关键词本身缺乏上下文语境的缺点。

(2) 在进行双向翻译时,对一词多义的翻译是通过比较互翻译后的上下文是否相同来决定哪些是正确的译文,而不只是从译文中是否包含原始词来决定哪些是首选译文,提高了翻译的准确率。

参考文献

[1]Kazuaki,Kishida.Technical issues of cross-language information re-trieval:a review[J].Information Processing and Management,2005,41:433-455.

[2]Oard,Diekema.Cross-language information retrieval[J].Annual Re-view of Information Science and Technology,1998,33:223-256.

[3]郭宇锋,黄敏.跨语言信息检索理论与应用研究[J].图书与情报,2006(2):79-84.

[4]Turid Hedlund,et al.Dictionary—based cross—language informationretrieval:learning expedences from CLEF 2000—2002[J].informa-tion retrieval,2004,7(7):99-119.

[5]任成梅.跨语言信息检索的发展与展望[J].图书馆学研究,2006,4:79-82.

[6]Smadja F.Retrieving collocation from text:Xtract[J].ComputationalLinguistics,1993,19(1):143-175.

[7]Church KP.Word association norms,mutual information,and lexicogra-phy[J].Computational Linguistics,1990,16(1):22-29.

专利检索自动翻译 篇7

经优化后的Bing让用户能更方便的检索到i Phone应用程序, 以及通过Facebook网站共享信息, 可以看出, 这与谷歌给i Phone和Android系统设备提供的移动服务明显不同。

Bing团队研发了一项自动应用程序检测功能, 它能让应用程序在一般的Web页面查询中显示出来。所以用户现在用i Phone在Bing移动版网站m.bing.com上进行如Thor3D、Facebook和Hotels等应用程序的搜索, 相应的应用程序就会排列在检索结果的最顶端。该创意将能帮助i Phone用户避免像大海捞针一样在网上搜索苹果商城Apple App Store中目前数量已逾400万的应用程序。

用户通过Bing搜索查找应用程序时, 只需通过对应的名称或者其它相应条件就能进行。比如像进行“排名最靠前的i Phone应用程序”、“新闻程序”、“水果忍者Fruit Ninja下载”等搜索就能检索到相关程序。

此外, 为了让i Phone用户自己更容易下载到应用程序, Bing还可直接将Yelp、Facebook和IMDb等程序添加到检索结果中。

如果用户的i Phone上有某一应用程序未安装, 当他们在点击下载链接时Bing将会跳转到i Tunes App Store页面去进行下载。如果该程序是已安装好的, 则它会自动运行。

上一篇:劳动力调查下一篇:篮球课教学