模板自动获取

2024-08-03

模板自动获取（精选4篇）

模板自动获取篇1

一引言

专利文本具有形式规范、语言严谨、结构性强的特点, 因此在进行自动翻译时非常适合使用基于模板的翻译方法。在使用基于模板的翻译方法时, 模板库的数量和质量直接影响了系统最终的翻译质量。因此构造大规模的模板库对提高基于模板的翻译系统的性能具有非常重要的作用。

对于模板库的构造方法, 早期通常使用手工方式构造。Kitano (1993) 采用对翻译规则进行手工编码的方式来构造翻译模板库。Sato (1995) 同样提出了采用手工对匹配表达式进行编码的方式来构造翻译实例库。但这些基于手工编码的方法速度慢、成本高, 尤其在处理大规模语料库的时候很难实现并且容易出错。另一种更可行的方法是从语料库中自动获取翻译模板, 这些研究包括Güvenir (1998) 和Cicekli et al. (2001) 提出的基于类比学习的方法, Watanabe et al. (2000) 和Imamura (2001) 提出的基于结构对齐的方法。这些方法都需要高精度的句法分析器, 显然, 对于中文专利文本的处理来说这些方法并不合适。

除了使用规则方法外, 近年来也有研究者开始使用统计方法来获取翻译模板。Meng et al. (2002) 使用基于文法推断 (grammar inference) 的半指导方法来获取单语模板 (但Meng并不将这些模板用于机器翻译) 。Hu et al. (2003) 、胡日勒等 (2005) 以及Hu et al. (2006) 在Meng工作的基础上, 使用基于双语划界文法的对齐算法来自动获取双语模板, 取得了较好的实验结果。

本文提出一种面向专利文本的单语模板的获取算法, 这种方法充分利用了专利文本中词汇分布极不均匀的特点, 通过统计词汇出现的频率来识别出模板的固定部分和可泛化部分。实验结果证明, 这种方法在专利文本的模板的自动获取上具有很好的性能。

二专利语料的词汇频率分布特点

专利文本的词汇可以分为两种, 即常用词和专业术语。虽然对于一般的语料 (例如新闻语料) 也可以这样区分, 但对于专利语料来说, 这两类词的界限更加清晰。在专利语料中, 常用词在某种程度上体现了专利语料的书写规范和句式特点, 这一类词的出现频率很高 (相对于术语) , 但词表并不大;术语的频率分布特点与常用词恰好相反, 虽然词表很大, 但平均每个词出现频率并不高。一般情况下, 这两类词恰好对应了模板的固定部分和可泛化部分, 这可以通过下面的例子来说明。下面是2000年实用新型专利中的一篇:

本实用新型涉及一种自动储器, 属于给排水控制装置。该自动储水器是由储水箱、水嘴和断电装置组成。其中两通电动水嘴内设置有凸轮、转换芯、滑动杆和触点胶囊……

对于这篇专利的前三个句子, 其中的专业术语包括:自动储器、给排水控制、自动储水器、储水箱、水嘴、断电装置。将这些专业术语从原句中去掉后, 可以得到下面由常用词构成的句子框架 (其中N代表专有名词) :

(1) 本实用新型涉及一种N,

(2) 属于N装置。

(3) 该N是由N、N和N组成。

而这三个句子框架同时也是这三个句子的翻译模板。除了上面的例子外, 专利文本中还存在大量类似的情况。本文提出的专利模板提取方法正是基于专利语料的上述特点, 通过术语识别和替换来识别出模板的可泛化部分。

对于术语识别方法, 除了使用术语词典外, 本文还使用了一种基于词频的经验方法。这种方法利用专利语料的词汇频率分布特点, 通过抽取出低频词来识别出专利语料中的术语。

三模板抽取算法

在专利语料中, 常用词和专业术语通常构成了翻译模板的固定部分和可泛化部分。和一般语料相比, 专利语料中常用词和专业术语在出现频率上有明显的不同。本文提出的模板抽取方法正是基于专利语料的如上特征。

本文提出的专利语料模板的抽取方法如图1所示。首先使用专利术语词典将语料中的术语替换成模板变量N, 然后对中文专利语料库进行分词, 并统计出语料中每个词出现的频率, 然后选择一合适的阈值T, 将语料中出现频率小于T的词替换成模板变量N。算法的最后两步是对自动抽取的部分模板进行附加动词处理。

模板抽取算法中同时使用了基于术语词典和基于词频的方法对术语进行替换, 即识别出模板的可泛化部分。使用基于术语词典方法的优点是准确率高, 但由于通常无法获得大规模的专利术语词典, 因此作用有限。基于词频的术语替换方法不存在这样的限制, 因此在术语识别上具有更高的召回率。

通过术语词典对语料中的术语进行替换的过程, 采用的是基于字串匹配而不是词串匹配的方法来实现的。这是由于在实际的模板抽取过程中, 专利语料的自动分词结果通常存在着大量错误, 并且自动分词结果和术语词典中的术语也存在着很多的不一致。使用基于字串匹配的方式可以有效地解决这个问题。

由于中文和英文在表达方式上的差异, 有些类型的中文模版在提取后需要对其进行动词附加处理。例如:

(1) 开关阀体垂直焊接在防掉器体的上面。

(2) 转轴安装在手柄的左上面。

(3) 照明灯固定在空腔内的上面。

对上面三个句子进行术语替换会得到下面的模板:

N1 在 N2 的上面

如果将其中文模板直译为英文:N1 on the N2。很显然, 依据这样的模板翻译出的英文肯定是不准确的。所以说, 对于这类中文模板需要附加动词进行抽取。

例如:对例句1附加核心动词结果为“N1 焊接在 N2 的上面”, 与其相对应的英文模板为“N1 be welded on N2”。

所以说, 保留“N1 在 N2 的上面”这类模板中的核心动词对于英文来说是至关重要的。但是“焊接”一词在语料中出现次数有限, 如果仅依据词频把“焊接”一词与“在”和“上”同时从语料中抽取出来是不可能的。对于这个问题, 算法中采用了先手工标注出模板中的动词变量, 然后在语料库中匹配出实际的动词的方法来解决。具体过程如下:1) 手工标注出模板中的动词变量;2) 对专利语料库进行分词和词性标注;3) 将带有动词变量的模板在语料库中进行匹配, 得到可替换的动词集合;4) 将模板中的动词变量替换成实际的动词得到新的模板。对于上面的例子, 经过手工标注得到带有动词变量的模板:

N #V 在 N 的上部

#V表示模板中的动词变量。将上面的模板在经过分词和词性标注的专利语料库中进行匹配, 可以得到#V可匹配到的动词集合:

固定 (1289) , 安装 (943) , 设置 (343) , 连接 (286) , 装 (84) , 套 (70) , 铰接 (67) ……

括号里面的数字表示匹配上句子的个数。将这些动词替换模板中的动词变量后可以得到泛化后的模板:

N 固定在 N 的上部

N 安装在 N 的上部

N 设置在 N 的上部

四实验结果与分析

本文使用的测试语料是2006年实用新型专利摘要。术语词典使用的是从150万字的实用新型专利标题语料库中提取出的术语。为了对实验结果进行比较, 本文使用的Baseline系统基于Meng, et al. (2002) 的算法, Hu et al. (2006) 改进了该算法并将其用于模板的自动抽取, 取得了较好的效果。为了对比自动抽取算法的性能, 两组自动抽取结果都没有经过手工校对。实验结果如表1所示。

在实验结果中, 使用本文提出的方法共抽取模板84341个, 其中频率大于10的共有546个, 占总模板数的0.67%, 在频率最高的100个模板中有效模板共有78个。使用Meng, et al. (2002) 的方法共抽取模板100个, 其中有效模板有21个。表2和表3是两种方法前20个的模板抽取结果, 表4列出了部分经过动词替换的模板抽取结果。

从上面的实验结果可以看出, 本文提出的方法在召回率和有效率方面都有不错的表现。对于Meng, et al. (2002) 的模板抽取算法, 实验中的参数设置为M=1000, N=5, 即算法只处理出现频率超过1000的词汇, 同时每次迭代只抽取5个模板。在实验中, 该方法性能不佳的原因主要有两个:首先, 专利语料不均匀的词频分布对算法中的聚类过程的影响较大, 为了解决这个问题, 在Meng, et al. (2002) 中采用通过过滤掉低频词的方式来解决数据稀疏问题, 但这也同时降低了自动抽取模板的召回率;其次, 这种方法抽取的模板长度较短, 这可以从Meng, et al. (2002) 、Hu, et al. (2003) 和Hu, et al. (2006) 给出的例子中看出, 因此并不适合句法结构复杂的专利领域语料的自动模板抽取。

五结论和未来工作

本文提出了一种非常简单却非常有效的面向专利文本的模板抽取方法。实验证明, 该方法在召回率和有效率方面都具有很好的性能。该方法抽取的模板直观, 与语言学意义上的句法结构更为一致。自动抽取的模板只需经过简单的校对就可以在实际的系统中使用。

目前该方法只用于单语模板的抽取, 今后我们将把这种方法扩展到双语模板的抽取中。

摘要：基于模板的机器翻译方法在专利文本的自动翻译中具有广泛的应用。由于专利文本的术语繁多, 并且分布极不均匀, 因此在使用统计方法获取翻译模板时通常会产生严重的数据稀疏问题。本文提出一种专利文本的单语模板的自动获取方法, 这种方法充分利用了专利文本中词汇分布极不均匀的特点, 通过统计词汇出现的频率来识别出模板的固定部分和可泛化部分。实验结果证明, 这种方法在专利文本的模板的自动获取上具有非常好的性能。

关键词：模板自动获取,机器翻译,专利翻译

参考文献

[1]胡日勒, 宗成庆, 徐波.基于统计学习的机器翻译模板自动获取方法[J].中文信息学报, 2005, (6) .

[2]Cicekli Ilyas, Guvenir Halil Altay.Learning translation Templates from Bilingual Translation Exmples[J].Applied Intelligence, 2001, (1) :57~76.

[3]Gvenir H.Altay, Ilyas Cicekli.Learning Translation Templates from Examples[J], Information Systems, 1998, (6) :353~363.

[4]Hu Rile, Zong Chengqing, Xu Bo.Semiautomatic Acquisition of Translation Templates from MonolingualUnannotated Corpora[A].Proceedings of International Conference on Natural Language Processing andKnowledge Engineering[C].Beijng, 2003:163~167.

[5]Hu Rile, Zong Chengqing, Xu Bo.An Approach to Automatic Acquisition of Translation Templates Based onPhrase Structure Extraction and Alignment[J], IEEE Transactions on audio, speech, andlanguage processing, 2006, (5) .

[6]Imamura K..Hierarchical Phrase Alignment Harmonized with Parsing[A].Proceedings ofthe6th NaturalLanguage Processing Pacific Rim Symposium[C].2001:377~384.

[7]Kitano H..AComprehensive and Practical Model of Memory-based Machine Translation[A].13.IJCAI[C].Chambery, France, 1993.

[8]Meng Helen M., Siu Kai-Chung.Semi-Automatic Acquisition of Domain-Specific Semantic Structures[J], IEEE Transactions on Knowledge and Data Engineering, 2002, (14) :172~180.

[9]Sato Satoshi.MBT2:a method for combining fragments of examples in example-based translation[J].ArtificialIntelligence.1995, (75) :31~50.

[10]Watanabe H., Kurohashi S., Aramaki E..Finding Structural Correspondences from Bilingual Parsed Corpusfor Corpus-based Translation[A].Proceedings of the18th International Conference on ComputationalLinguistics[C].2000:906~912.

本体概念自动获取研究篇2

利用本体对用户查询进行扩展正成为未来语义检索的主流发展方向。语义检索将用户查询关键词替换为本体中含有语义的概念, 即利用本体扩展关键词, 其中与关键词对应概念具有同义关系的概念是扩展的一个主要依据, 因此本体构建中概念的同义关系的提取及其量化对查询扩展有很大的影响。

目前国内外对本体的自动构建都处于研究阶段, 有一些半自动化的本体构建方法可以获取领域概念及概念层次关系, 但未见专门针对本体构建中概念间的同义关系的自动获取的研究。在国内, 基于知网和同义词词林获取同义词是研究者采用比较多的一种方法;国外没有专门针对同义词自动识别的研究, 已有的研究是面向词汇语义相似度的计算。文献[4]、[5]提出了利用词汇上下文来表示一个词汇语义概念的思想, 在此基础上挖掘每个概念的同义词集的算法可以很好的解决一词多义的表示问题, 但没有对表示概念的上下文及同义词进行量化研究, 也没有给出自动获取每个词的上下文描述方法。

文中设计一个本体概念同义关系挖掘算法:首先采用单字合并法处理文档集合, 统计权重大的词作为本体领域概念;对文档集合进行聚类, 用各类中的领域概念上下文的特征词表示该类中的概念, 并量化表示各特征词;最后给出概念的特征词权重和具有同义关系的任意一对同义概念的相似度量化方法。该算法为构建本体过程中自动获取概念的同义关系提供依据, 并给出具有同义关系的概念的语义表示和相似度值, 为查询扩展在效率和精确度上提供了保障。

1 相关计算

下面对获取本体领域概念同义关系算法用到的相关概念进行说明。

1.1 改进的TF-IDF公式

分词后每个词是否能被选作领域概念, 需根据它与领域的相关性大小来确定。一个词在整个领域文档集合中权重越大, 越有可能是本领域的概念;一个词越长, 越有可能是领域概念。考虑这两个特征定义词的TF-IDF权重计算公式如下:

其中, tfij表示词ti在文档j中出现次数, ni表示出现ti的文档个数, m表示整个文档集合的个数, len (ti) 表示ti的长度。

1.2 概念的表示

分词后的文档出现的每个词, 在没有给出具体上下文时不能肯定其真正含义。要想作为一个概念加入本体中, 还需要确定其真正语义, 一个词可以根据其上下文来定义它所表示的概念。每个词t采用向量 (w1, w2, …, wn) 描述后 (n表示文档集合包含的词个数) , 就可以确定其表达的语义, 记作c= (w1, w2, …, wn) 。其中w1表示ti作为c特征向量的权重, ti与c共现次数越多, wi值越大;与ti共现的词个数越多, wi值越小。因此wi计算公式 (1) 如下:

其中, tij表示词ti在第j个文档中与c共现的次数, m表示文档集合包含文档个数, max C表示文档集合所有共现词对中共现次数最大值, n1表示ti与c共现次数。

1.3 概念的相似度计算

假设概念c1= (w11, w12, ..., w1n) , 概念c2= (w21, w22, ..., w2n) 。两个词相似度计算如下:

2 概念及其同义关系的获取

本文获取概念间同义关系主要服务于基于本体的查询扩展模型, 选取的是信息检索领域的文档。获取过程分3部分: (1) 领域文本预处理:在分词前将已知道的领域概念加入到领域词典中, 调用ICTCLAC对领域文档集合进行分词; (2) 领域概念获取及表示:采用单字合并方法和改进的IF-IDF获取领域概念; (3) 基于完全加权关联规则的同义关系挖掘:对词的向量表示集合建立完全加权关联规则模型, 挖掘频繁项作为同义词的共同特征。

2.1 领域概念获取及向量表示

将切分后的所有文本按照句号或逗号分成多条记录, 统计在这些记录中与单字共现的单字或词, 选择共现次数大于阈值的单字对或单字词对作为新的候选词。将这些词加入领域词典对源文档集合进行二次分词, 去除停用词, 采用公式 (1) 计算所有词的权重, 选取大于阈值的词作为领域概念, 并将权重保存到数组。根据分词后的文档, 按照1.2的定义表示每个领域概念。

2.2 本体概念及量化的同义关系自动获取算法

为了自动获取领域概念的同义关系及概念间的相似度值, 本算法包括两个模块:频繁特征项挖掘模块和同义概念相似度计算模块。

2.2.1 频繁项挖掘模块

利用修正的基于关联规则的挖掘算法, 挖掘领域概念特征向量空间, 获取频繁项。具体步骤如下:

输入:领域概念数据库T={c1, c2, ..., cm};最小支持度阈值minAWP和最小信任度阈值mincon。

(1) 初始化频繁项集L=ф, 频繁1-项集Ck={{t1}, {t2}, ..{tn}}, k=1;统计向量空间的各行中非零元素的最大值, 记作maxItem;统计各列的最大值, 即各个特征词的最大权重。

(2) 统计Ck中每个项目集Y在数据库T中的出现次数, 记作SC (Y) ;累加每个Y的权重和, 记作W (Y) ;去掉Ck中W (Y)

(3) 计算每个Y的k权值估计KW, 如果W (Y)

(4) 如果k>maxItem或L=ф或Ck+1=ф, 则k=k+1, 执行 (2) ;否则执行 (5) 。

(5) 输出频繁项集合L。

2.2.2 同义概念相似度计算

根据频繁项及领域概念数据库T={c1, c2, ..., cm}, 获取存在同义关系的概念及相似度, 具体步骤如下:

输入:频繁项集合L;领域概念数据库T={c1, c2, ..., cm};最大项目集数Max;领域概念权重数组CW[m]。

(1) 初始化k=2, 删除1-项集。

(2) 检查每个频繁k-项集是否包含在L中的其他项集, 是则从L中删除该项集, 否则不做处理。

(3) k

(4) 取出L中一个未处理频繁项集, 扫描数据库T中包含当前频繁项集的概念, 记作Syn={ci, cj, ..., ck}∩T, 则这些概念可能为同义概念, 用公式 (3) 计算任意两个概念的相似度sim (cx, cy) 。

(5) 如果Syn中任意的值sim (cx, cy) 都大于某个阈值, 则为同义概念, 根据领域概念权重数组CW[m]选择{ci, cj, ..., CMain, ..., ck}概念中权值最大的概念作为本体中的主概念CMain, 其它概念作为同义词描述, 并保存与主概念的相似度值。

(6) 否则检索是否有存储sim (cx, cy) 值, 若有且小于当前计算结果, 更新sim (cx, cy) 。

(7) L中频繁项集未处理完, 执行 (4) , 否则执行 (8) 。

(8) 输出所有同义概念及近义概念 (相似度值大于阈值的概念对) 。同义概念形如:[ci/sim (CMain, ci) , ...]。近义概念形如: (cx, cy, sim (cx, cy) ) 。

3 结束语

文中对本体构建中概念获取、表示及其同义关系自动获取进行研究, 设计了一个基于概念特征向量空间和完全加权关联规则挖掘算法的本体概念及同义词获取算法, 并对同义词相似度进行量化研究。该算法只是本体构建的一部分, 这还需要与本体构建中的相关关系、层次关系获取相结合, 在以后的工作中设计完整的本体构建算法, 并将构建本体应用于实际检索系统。

摘要：利用本体扩展查询是语义检索的主流方向, 如何构建完善的本体是亟待解决的问题, 现对本体构建中概念及其同义关系的自动获取进行研究。每个概念用上下文特征词表示, 利用完全加权关联规则挖掘概念集, 将频繁项作为具有同义关系概念的特征词, 包含这些频繁项的概念中的一个将作为本体概念。并规定概念的特征词权重量化表示, 基于此对任意两个同义概念的相似度进行计算。实验表明该方法获取的同义概念精确度和计算效率高于半自动方式。

关键词：同义关系,概念,特征词,本体构建

参考文献

[1]吴江.基于本体的知识管理系统关键技术研究[D].西安:西北大学, 2007.

[2]陈绍深.基于非结构中文数据源的本体学习[D].哈尔滨:哈尔滨工业大学, 2009.

[3]徐建民, 朱松, 陈富节.术语相似度和术语相关度在检索模型中的融合研究[J].计算机应用, 2007 (12) .

[4]李颖.本体自动生成中词汇相似度的计算[D].大连:大连海事大学, 2008.

[5]陈建超, 郑启伦, 李庆阳, 等.基于特征词关联性的同义词集挖掘算法[J].计算机应用研究, 2009 (7) .

[6]OLIVIER F.Discovering word senses from a network of lexical cooccurrences[C].Proc of the20th International Conference on Computational Linguistics.2004.

模板自动获取篇3

关键词：电路板,故障植入,知识获取

1 概述

基于知识的智能化故障诊断专家系统,是现代设备诊断技术中最有前途的发展方向之一。智能故障诊断过程的实质是知识的运用和处理过程,知识的数量和质量决定了智能故障诊断系统能力的大小和诊断效果,推理控制策略决定了知识的使用效率[1]。由此可见,知识是智能故障诊断系统的核心。在故障诊断系统中对知识的研究主要包括知识的获取、表示和使用。但目前由于知识工程技术领域有许多问题还未解决,对知识的获取和表示还有一定的困难。

以电路板作为研究对象进行故障知识获取时,要解决以下问题:1、对研究对象本身的认识要深入;2、设计相应的电路,一方面提供电路板工作所需的信号,另一方面对关键信号进行测量,以供获取研究对象知识;3、在目标电路上设置故障,以供获取故障知识。

本研究以某系统信号接口板作为研究对象,设计了一套基于PC和PCI数据采集卡的信号调理和数据采集系统,可通过软件或硬件跳线的方式对目标电路板设置故障,并通过数据采集系统获取故障数据,并以知识的形式存储故障数据。硬件上主要采取了:1、对目标电路板进行了重新设计,增加了跳线和测试接口;2、采用了接口丰富的研华PCI1712 多功能数据采集卡;3、充分利用PCI1712的接口设计了调理电路。另一方面软件上,使用通用编程平台Visual C++结合研华Active DAQ、Ac⁃tive DAQPro控件进行编程,其中交互界面主要使用Visualc++MFC设计,硬件的控制主要通过Active DAQ控件完成,波形显示通过Active DAQPro控件完成。

2 系统结构原理

系统软硬件总体框图如图1所示。

系统总体框图如图1所示,用PC作为系统的控制端,控制软件由参数显示与分析模块、故障设置模块和知识管理模块等几个基本功能模块组成,完成对系统的总体控制和数据管理;PCI多功能数据采集卡在PC的控制下完成数据采集和故障动态植入的功能;条件形成电路、故障植入电路和信号调理电路相互配合,完成三个功能:为目标电路的正常工作提供环境、故障动态植入和数据采集功能。

对硬件电路的控制与数据采集通过PCI多功能数据采集卡进行。主要的硬件电路设计工作包括:1、对目标电路的改造;2、设计信号调理电路;3、故障植入电路。对目标电路的改造工作主要是在实现其电路原理的基础上通过继电器、矩阵开关或跳线完成电路故障的设置,主要的手段是对特定的器件和关键点设置短路和断路的跳线选择。条件形成电路主要是提供目标电路能够工作的外部信号,主要包括电源信号和激励信号。故障植入电路主要通过继电器和数据采集卡控制调理信号的通断。

软件设计采用Visual C++平台搭建系统的框架,对应用程序进行全面的管理,提供数据管理、功能控制、数据显示与分析等功能。

3 数据采集与控制

3.1条件形成与故障植入电路

条件形成电路主要是提供目标电路能够工作的外部信号,包括电源信号和激励信号。如图2所示,根据目标电路的特点设计电源和激励信号电路,通过矩阵开关接入目标电路。激励信号主要包括各种开关信号,如模拟信号、串行数字信号、离散信号、功率信号、射频信号、高速数字信号等,都能经过矩阵开关进行自动切换[3]。

为了获取电路在不同状态下的参数,特别是在故障状态下的动态参数,需要对电路进行故障植入,主要采用的方法是:1、通过矩阵开关改变目标电路的激励源;2、对目标电路进行改造,通过跳线或通过矩阵开关改变目标电路连接。

3.2 信号调理电路

信号调理平台是系统主要的硬件,主要对各种的直流和交流信号进行调理与采集。其中交流信号的检测原理如图3 所示。待测交流信号通过经过分压电路以及比例放大电路处理之后分成两路,其中一路经模拟开关和峰值保持电路后经A/D转换,可采集到交流信号的峰值。另一路,经整形和模拟开关之后,进行频率测量。

直流信号调理电路用于把待测的直流信号进行分压、电压跟随和限幅处理,使之满足A/D采集端口的电压要求。

3.3 数据采集卡

系统主要的数据采集和对电路的控制主要通过PCI1712的AI和DIO口完成的。PCI1712 多功能数据采集卡提供了丰富的接口,主要包括:16位数字I/O口、16位模拟I/O口。当然,这些接口还不够用的话,可以通过硬件电路进行扩展[4]。

数据采集卡的驱动软件可以直接对板卡的寄存器编程,管理数据采集硬件的操作并把它和处理器中断、DMA和内存等资源结合在一起。驱动软件隐藏了复杂的硬件底层编程细节,为用户提供了容易理解的接口[2]。使用VC++控制PCI数据采集卡有多种方法可以选择使用DLL(动态链接库)函数或Ac⁃tive X控件进行。使用DLL编程编程比较灵活,但实现起来较为复杂,尤其是在对中断触发的管理,需要设置多线程的同步。使用Active X控件则可以使用很少的代码来完成软件触发、中断触发和DMA的数据采集功能。PCI1712 的Active X DAQ控件主要包括AI、AO、DI、DO、Counter、PULS等,Active X DAQ Pro还提供了一些图形控件。

使用Active X DAQ控件进行编程一般过程为:在界面上插入控件、导入控件控制类、建立控件控制变量、选择设备、打开设备、使用设备、关闭设备等。

4 知识获取和表达

知识的表达方法有很多种主要包括:逻辑表示法、产生式表示法、框架表示法、语义网表示法、脚本表示法、过程表示法、petri网表示法、神经元表示法和面向对象表示法等。在选择知识的表示方法时主要考虑知识的表示能力、推理效率、正确性和结构性。

电路故障知识主要是电路实时测量的参数,包括电压、峰值电压、波形、时间等信号。“设计故障诊断专家系统时,要求既能表达领域对象的静态特性、行为特征及约束,又要表达专家经验、判断决策等知识,还要有较强的数值计算及过程控制能力。”[5]本研究采用面向对象的知识表示方法。面向对象的知识表示方法相对于产生式表示法、框架表示法等传统表示方法来说具有很大的优越性,它不但能充分利用传统框架对逻辑语言的描述能力,还能够嵌入规则,所以它可以方便的对逻辑语言表达也可以对数值进行表达,同时具备很强的扩展能力。

5 使用效果

系统软件运行效果如图4所示,经试用该项目取得了比较良好的使用效果,故障设置方便,结果显示直观,故障知识表达清楚,为智能化故障诊断专家系统故障知识的获取提供了一个比较好的途径。

6 总结

本研究只是探讨性的研究了特定电路板故障植入、实时获取电路运行数据、并从中获取电路故障知识,为实现智能化专家系统打下基础,但具有一定的局限性:不同电路板所需的激励信号不同,使用外部电路植入故障之后有可能造成电路板烧坏等,这些问题希望读者注意。

参考文献

[1]杨军,冯振生,黄考利.装备智能诊断技术[M].国防工业社,2004.

[2]田敏,郑瑶,李江全.Visual C++数据采集与串口通信测控应用实战[M].人民邮电出版社,2010.

[3]张明珠,王艳红.继电器矩阵在PCB功能检测中的应用[J].煤炭工程,2011(6).

[4]PCI-1712/1712L快速安装使用手册.

模板自动获取篇4

命名实体的自动获取是指从非结构化或半结构化文档中提取出命名实体实例并将其正确归类的过程。命名实体类主要包括人名、地名、机构名等类型,命名实体获取是构建大规模命名实体库的基础工作,对命名实体识别、信息抽取、语义资源建设等工作具有重要价值。

目前命名实体获取方法有两大类:

(1) 基于文本模式的命名实体获取[1] 这类方法的基本思路是利用一组种子实例,在未标注的文本中进行匹配,然后统计分析匹配得到的文本模式特征,建立实体获取的文本模式库,并利用模式库中的模板获取新的实体实例。这类方法的优点是能够有效利用大规模的未标注语料,降低人工标注难度,但文本模式构建受限于种子实例的语种及领域,当语种或领域发生变化后,预先建立的文本模式必须做出相应改变,因此在多语种和跨领域的命名实体获取中的效果较差,同时该方法构建文本模式的过程较为复杂,需要大量时间,成本较高[2]。

(2) 基于语义知识库的命名实体获取[2,3] 这类方法的基本思路是利用特定语义知识库中的语义知识资源及内部结构信息来获取命名实体。文献[2]利用WordNet作为语义资源库并使用一些规则来获取地名、人名、机构名等实体名信息,这种方法在新闻语料库上获得了较好的效果。主要不足是由于Wordnet中缺乏领域术语词条,因此对于语料中的专业领域术语的识别获取能力较差。文献[4]使用从领域医学领域知识库UMLS中获取的专业领域词典在医学语料库中获取实体样例,由于使用了专业领域词典,因此对本领域的实体识别效果较好,但是跨领域的识别效果就受到了较大影响。

随着维基百科(Wikipedia)的迅速发展[5],这些方法在语言处理领域也得到广泛应用,并有效支持了信息抽取、自动问答、文本分类等实际处理任务。文献[6,7]利用维基百科开展命名实体识别工作,文献[8]利用维基百科开展人名的消歧工作,文献[9]利用维基百科类别信息对文本进行表征研究,并应用到文本分类中,获得了较好效果,文献[10]开展了基于维基百科的人名简历信息抽取工作。文献[11]利用维基百科开展自动获取领域术语的工作,其工作的主要思路是:首先对维基百科条目内容的第一句话进行分析,获取其中的名词短语,并假定该短语包含了该条目所属类别的信息,依此建立条目与类别的术语词典。实验表明,该方法对于抽取领域术语具有一定的效果,但是由于这类工作没有更多地利用条目内容及维基百科内部结构等信息,因此获取效果有较大局限。文献[12]提出了一种基于维基百科的术语获取方法,该方法首先利用已有的领域知识资源,获取一组种子词条,将种子词条与维基百科条目进行比对,获取二者共有的条目,并记录下这些条目的类别信息,然后获取这些条目内容的外向链接对应的条目,将这些条目作为候选条目,并获取候选条目的类别信息,如果候选条目的类别与种子条目的类别有重叠,那么就认为该候选条目与种子条目属于同一类术语并将其提取出来。该方法与本文提到的方法有相似之处,都利用了已有的语义知识资源以及维基百科的内部结构特征。但该方法在确定候选条目与种子条目的类别关系时采用的方法过于简单,由于大部分维基百科条目所属的类不只一个,并且类与类之间的关系也较为复杂,不同类对应的条目数量也不相同,因此只考察两个条目所属的类是否有重合来判断候选条目与种子条目的关系过于粗糙。同时,由于种子条目的数量有限以及条目内容中的外向链接数目也有限,因此该方法获得的术语规模有较大局限。

针对目前研究中存在问题,本文提出维基百科类的隶属度概念,通过计算维基百科类与特定命名实体类间的隶属度,在维基百科类与命名实体类之间建立关联关系,并选择隶属度较高的维基百科类作为扩展类,将这些类中的条目作为命名实体的候选条目,得到命名实体实例的候选集,之后采用通用词典匹配、关键词过滤等方法对候选实例集进行去噪处理,得到最终的命名实体实例集。从总体上看,本文使用的方法属于上文介绍的第二类方法,即基于语义知识库的命名实体实例获取方法。

1 相关概念及定义

为了全文描述的方便,将文中使用的主要概念定义如下。

(1) 维基百科类

在维基百科条目中,由条目编写者为条目添加的类别信息,该信息在维基百科的打包数据(可从www.download.wikipedia.org获得)中以[[Category:***]]的格式给出,其中***是具体类别,本文中将维基百科类的集合表示为L,具体维基百科类的成员表示为l。类l包含的维基百科条目的集合表示为m(l),m(l)=(x1,x2,…,xm(l))。

(2) 维基百科条目

是指维基百科的具体词条,每个词条都对应一个唯一的名称,每个条目都属于一个或多个维基百科类,在维基百科的打包数据中以<title>***</title>的格式给出,其中***是条目的具体名称,本文将维基百科条目集合表示为X,具体条目表示为x,x∈X。同时,x所属的维基百科类的集合表示为k(x),k(x)=(l1,l2,…,lk(x))。

(3) 命名实体类

本文命名实体类指人名、地名、机构名三类,命名实体类的集合表示为E,具体的命名实体类表示为e,e∈E,e包含的命名实体实例表示为n(e),n(e)=(g1,g2,…,gn(e))。

(4) 命名实体实例

是指属于命名实体类的具体成员,实例集合表示为G,具体实例表示为g。

(5) 种子实例

是指从已有的命名实体资源中选取的命名实体实例,例如从已有的人名表中选择部分或全部条目作为种子实例,这些实例的类别已经确定,因此可以作为命名实体的先验知识使用。种子实例的集合表示为S,种子实例表示为s。

2 隶属度及计算方法

隶属度用来表示维基百科类l与命名实体类e之间的关联程度,具体表示为B=f(l,e),其中B表示隶属度,f是计算l与e之间隶属度的方法,(l,e)表示l隶属于e。

隶属可以理解为维基百科类隶属于命名实体类的可能性。例如,在维基百科中存在类“American film actors”,显然该类隶属于人名类的可能性很大,因为该类中的成员基本都是美国电影演员;而类“Paramount films”隶属于人名类的可能性就要小很多,因为该类中的成员基本都是某个电影公司出品的电影,但在该类中也并非完全不可能出现人名,例如当以以人名命名电影名时,这时该类中就可能出现人名,例如“Bob Roberts”是一部由Paramount公司出品的电影,但同时也是一个人名。

本文提出隶属度的概念及计算方法,目的是利用隶属度将不同维基百科类进行区分,类似“American film actors”的类有较高的人名类隶属度,而类似“Paramount films”的人名类隶属度则较低,进而获取隶属于特定命名实体类的维基百科类,为获取更大规模的命名实体实例做准备。下面给出隶属度的具体定义:

已知维基百科词条集合X。对于X中的每个x,维基百科中已给定x所属的维基百科类的集合k(x)。

维基百科类的全集合L定义为:

$L = \underset{x \in X}{\cup} k (x) (1)$

于是对L中的每个l,可以找出具有类l的词条的集合m(l)⊂X:

m(l)={x∈X | l∈k(x)} (2)

给定命名实体类e的初始实例集合S(e),定义e的种子实例集合为Sj(e):

Sj(e)=S(e)∩X (3)

属于l类的e种子实例集合为C(l,e):

C(l,e)= Sj(e)∩ m(l) (4)

维基百科类l对于命名实体类e的隶属度B(l,e)可以按以下3种方式定义:

B1(l,e)=|C(l,e)| (5)

$B_{2} (l, e) = \frac{| C (l, e) |}{| m (l) |} (6)$

$B_{3} (l, e) = \frac{1}{| m (l) |} \sum_{x \in C (l, e)} \frac{1}{| k (x) |} (7)$

• 基于隶属度的命名实体自动获取算法

基于隶属度的命名实体自动获取算法主要分为匹配、计算、筛选、扩展、去噪五个步骤:

输入:维基百科条目和类以及命名实体的种子实例

输出:扩充后的命名实体实例集

第一步匹配

(1) 根据式(1)求维基百科类的全集合L。

(2) 根据式(2)对L中每个维基百科类l,求具有类l的词条的集合m(l)。

(3) 根据式(3),对命名实体类e,由给定的初始实例集合S(e)求种子实例集合Sj(e)。

(4) 根据式(4),对命名实体类e和L中每个维基百科类l,求属于l类的e种子实例集合C(l,e)。

第二步计算

(5) 根据式(5)-式(7),对每个维基百科类l和命名实体类e,求隶属度Bi(l,e),i=1,2,3。

第三步筛选

(6) 采用隶属度式Bi(l,e)(i=1,2,3),并给定隶属度下限阈值ai,求命名实体类e的相关维基百科类集合:

Ri(e):Ri(e)={l∈L | Bi(l,e)>ai} (8)

第四步扩展

(7) 求命名实体类e的扩充实例集合:

Ei(e): $E_{i} (e) = \underset{l \in R_{i} (e)}{\cup} m (l) (9)$

第五步去噪

(8) 给定通用词表D用以除去Ei(e)中的非命名实体,命名实体类e的最终实例集合为:

Si×(e)= Ei(e)-D (10)

其中减号表示集合求差。

在匹配部分,利用种子实例逐一匹配维基百科中的条目,如果二者匹配成功,则将种子实例保留;计算部分是根据三种不同的维基百科类隶属度计算方法,分别计算种子实例所属维基百科类隶属于特定命名实体类的隶属度的值,然后对其进行排序;筛选是设定隶属度的阈值(或者排位阈值),筛选出高于阈值的维基百科类,并将这些类作为命名实体集扩展的类;扩展是利用筛选得到的维基百科类,获取该类中的非种子实例,并将获取到的实例加入到候选命名实体集中;去噪阶段主要是利用通用词表,将命名实体候选集中与通用词条重叠的条目去除,进一步减少命名实体候选集中的噪音。经过以上各步,获取得到扩展的命名实体集。

3 实验设计

3.1 基本数据

本文使用英语维基百科作为实验数据,该数据由维基百科(www.wikipedia.com)免费提供,版本是2010年2月版,共有条目3466043条,是所有语种中条目最多的。人名类命名实体资源来自DBpedia提供的人物列表,该列表由DBpedia基于Wikipedia抽取生成。之所以选择该数据资源一方面是由于该数据来自Wikipedia,这样能够更好地进行匹配,获得更多的种子实例;另外一方面是因为DBpedia也是从Wikipedia中抽取出的命名实体实例,因此可以将本实验中的结果与DBpedia进行分析比较;地名类命名实体也是从DBpedia提供的人名列表中提取获得,提取方法是将人名列表中的人物出生地、逝世地等地名字段中的名称提取出来,形成地名种子实例;机构名资源库使用了机构名词典,该词典给出了一些国际组织名称。通用词典使用《牛津英汉词典》(1998年版)中的英文词条,并保留了词条的大小写信息,由于该词典中只收录一般词汇,而未收录人名、地名都专门词汇,因此较适合用于命名实体的去噪处理。

表1给出了不同命名实体类的初始实例及与维基百科条目匹配成功的种子实例数统计。

“初始实例数”是从已有命名实体资源中提取出的各类命名实体的实例数,这些实例与维基百科中的条目进行匹配,匹配成功的实例作为“种子实例”。

从上表的数据看,人名、地名、机构名都只有部分实例匹配成功,这主要是因为匹配采用的字符串的完全匹配方法,因此某些在形式存在差别但同指同一个对象的实例没有匹配成功,例如在维基百科词条中存在人名Alexander McCormick, Jr.,但是由于DBpedia的对应条目表示为Alexander McCormick Jr.,因此尽管二者都指同一个人,但是由于书写上的细微差别而造成匹配不成功。再例如Brooklyn, NY ; Brooklyn, New York; Brooklyn, New York City; Brooklyn, New York City, New York等都是指同一个地名,该地名有超过10种不同的书写形式,因此会造成很多实例匹配不成功。此外,由于地名实例来源于DBpedia人物列表中的出生地点、死亡地点等字段,而这些字段中包含的很多地点在维基百科中还没有对应条目,因此也会造成匹配不成功。尽管有部分实体实例没有匹配成功,然而只要获得一定数量的命名实体实例就可以构成种子实例集合,开展隶属度计算及命名实体的自动获取,没有必要一定要所有或绝大部分的实体实例都匹配成功。

3.2 数据处理

为了更好地对维基百科数据进行处理和挖掘,我们开发了一些针对维基百科文本的处理工具,用于数据的加工整理。

首先,将维基百科的压缩数据进行分割,目的是将维基百科按照条目分为不同文件并进行存储,这样做的好处是处理时能够在单个条目内部做较复杂分析,而不会与其他条目发生冲突或干扰。其次,是根据维基百科文件中的XML标记,提取出条目名称、条目所属的维基百科类以及条目对应的主要语种的条目名称(主要是中、日、韩、俄等语种),提取后的结果分别保存为以条目和类别为主键的词典形式。以条目名称为主键的词典的格式是:

维基百科条目t条目对应的类别1;条目对应的类别2;……; 条目对应的类别n

条目与类别间以制表符分割开,而各个类别之间以分号分割开。例如:

GongLi 1965 births; Best Actress HKFA; Chinese Singaporeans; Chinese actors; Immigrants to Singapore; Living people; People from Jinan; People from Shenyang; Singaporean actors

其中,Gong Li是条目名称,其后的部分是该条目所属的类,类与类之间用分号分割。

以类别为主键的词典的格式是:

维基百科类别t类别包含的词条1; 类别包含的词条2;……; 类别包含的词条m

类别与条目间以制表符分割开,而各个条目之间以分号分割开。例如:

Chinese Singaporeans Felicia Chin;Goh Tat Chuan;Li Jiawei;Lim Chin Siong;Ong Keng Yong;Michelle Chong;Gong Li;Jing Junhong…

以两种不同形式保存数据的目的是便于后面的隶属度计算。

3.3 实验设计

根据不同的隶属度计算方法和隶属度阈值的选取,我们分别进行了获取实验,并采用抽取检验的方法对自动获取的结果进行评估。评估的主要指标是每百个自动获取的实例中,存在多少非目标实例,并用获取准确率衡量:

准确率= $\frac{正确获取的实例数}{获取的总实例数}$

从理论上看,还应该评价获取实例数与应获取总实例数之间的关系,即召回率,理想状态上能够尽可能准确且全面地获取实例。但是由于获取对象维基百科中到底存在多少命名实体条目是未知的,因此难以判断出获取实例占应获取实例的比例。但是,能够将获取得到的实例与种子实例数之间进行比较,如果能够自动获得比种子实例数尽可能多的命名实体实例,则能在一定程度上说明方法的有效性。该评价指标可以表示为扩充率:

扩充率= $\frac{(准确率 \times 扩充率) \times 2}{准确率 + 扩充率}$

为了综合考虑获取准确率和扩充率对于获取效果的影响,借鉴信息检索中的F值评价计算方法,提出用于命名实体自动获取的F值计算公式:

F= $\frac{(准确率 \times 扩充率) \times 2}{准确率 + 扩充率}$

由于人名、地名、机构名的自动获取方法基本相同,因此本文只给出人名自动获取的实验结果和相关分析。

3.4 实验结果

利用三种隶属度计算方法,进行人名自动获取实验,当不设定任何筛选条件情况下,共获得维基百科类32763个,人名实例候选数241411个。表2给出了三种方法的具体计算结果。由于不同计算方法得到的结果数量级不同,不便于比较,因此为了更好比较,分别按照计算值对不同方法得到的结果进行了降序排序,即结果值高的被排在前,这样就可通过排序位置进行直观比较。表2中给出的结果按照方法3的隶属度计算值得到的排名前5位、中间5位(15000--15004)和排名后5位的相关结果。

表中的B1、B2、B3分别是方法1-3计算得到的隶属度的值, BR1、BR2、BR3分别是方法1-3计算得到的值按照降序排序后得到的对应位序,“总实例数”是维基百科类所属的全部条目数,扩充数是指维基百科类中除了种子实例外的其他实例的数目,扩充率是扩充数与总实例数的比值。在第一列中,带有阴影的条目是不属于人名类的条目。

从表2的数据可以发现,在排名前10及中间10位的维基百科类中,所有的维基百科类都是典型的人名类,可以较为可靠地依据这些类来扩展人名的实例,而在排名最后10位的类中,有8类都不是人名类,这说明隶属度能够有效地将隶属于人名类的维基百科类放在靠前位置,而将可能性小的类放在后部,从而便于选择可靠的维基百科类来扩展命名实体实例。

由于自动获取的维基百科类超过30000类,逐一分析检查的难度较大,因此,我们分别从计算结果排序表中选择不同排序区间的6组结果进行检查,分别是排在1-200位,5001-5200位,10001-10200位,15001—15200位,20001—20200位,以及排在最后200位的样例,检查中将明显不属于人名类的维基百科类挑选出来,进而统计各个区间的获取准确率,从而对整个获取结果的准确率进行评判。

表3给出了基于隶属度计算方法3的不同区间的获取准确率、扩充率及F值的评价结果。

从表3给出的抽样评价结果可以看出,在排名前15000的样例中,自动获取的人名候选类具有很高的准确率,基本在99%作用,而20000位以后,准确率逐渐下降,排名最后的200个类的准确率已经低于60%;而扩充率则在前5000位有一个降低外,其后随着排名向后,扩充率也不断升高,最后200位的扩充率最高,这主要是因为排位靠后的类中种子实例的个数少,同时类的总条目数较多造成的;F值则在最初5000位时有一个下降,其后升高,而到了25000位时受到准确率降低的影响,开始下降。F值能够较为综合地反映出自动获取的效果,因此也可以作为确定筛选阈值的一个参考指标。

根据F值和具体需要,本实验中使用隶属度的位序作为阈值进行筛选,当然也可以根据需要设定具体的隶属度值作为阈值筛选。根据上表的统计结果,我们将阈值设定为位序在15000以前的维基百科类作为人名扩展的类。之所以选择15000而没有选择20000作为阈值,主要考虑要尽可能保证高的准确率,而扩充率可以稍微低一些,这样可以在一定获取规模的前提下,保证扩充的人名中噪音较少。当然,也可以放宽阈值的选择,然后使用一些有效的过滤方法对获取结果中的噪音进行去除。

在去噪阶段,本文使用了通用词典,将通用词典中的词条与获取的人名候选集进行比较,将二者重合的词条去除。由于大部分人名都是由不只一个词构成,而通用词典收录的都是单个词,因此该步骤对人名获取的作用不太明显,但如果构建人名部件库时,由于各个部件都是单个词,且有些人名条目中含有一些通用词汇,因此去噪环节的作用就比较显著。

经过以上步骤,最终获得了扩充的命名实体实例表,其规模如表4所示。

表4中的“扩充实例数”是指利用本文提出的方法,从维基百科中获取得到的各个命名实体类的实例数,“扩充比例”是扩充实例数与种子实例数的比值。从上表可以看出,人名、地名扩充后的实例数,较种子实例数都增加了10倍以上,机构名实例数也增加了7倍多,这说明本方法在扩充命名实体实例方面具有较好的效果。其中机构名扩充的比例和数目都较少,这主要是因为给定的种子实例数较少,因此获得的相关维基百科类受限,今后可以通过扩充机构名的种子规模来提高这部分实例的获取规模。

同时,我们对实验中获取的错误实例进行了初步总结,造成错误主要有以下原因:

(1) 有些条目的类就是其自身,例如Tsutomu Nihei所属的类只有Tsutomu Nihei这一类,当这些条目是命名实体的种子实例时,就会将这些条目自身也作为候选类,从而对命名实体类的获取造成干扰。这类条目的一个普遍特点是类内的条目数很少,往往只有其自身1条,因此可以采取控制类内条目数的方法过滤掉这类条目,同时也可以在数据整理过程中将类与条目相同的记录去除掉。

(2) 类的内容较为混杂,造成某些命名实体实例被包含在类中。例如“Athenian democracy”类中包括“Thrasybulus”,该条目也被当作人名使用,因此造成Athenian democracy也被作为人名的候选类。考察该类包含的其他条目可以发现,“Athenian law court (classical period); Boule (ancient Greece); Constitution of the Athenians”等都不属于人名类。目前这类错误可以通过在隶属度计算中引入类权重和实例权重得到基本解决。

(3) 人名被用作其他实体名称,例如,前文提到的“Bob Roberts”被用作电影名,因此会将电影类当作人名类的候选类,这也会对确定人名候选类造成不利影响。其他还有人名被当作学校名、书名、文章题目名、品牌名等,这类现象都对人名类的确定产生不利影响。利用隶属度的计算可以解决部分问题,尤其排名靠前的候选类中,会将电影名、学校名等基本排除在外,但是排名越靠后,这类问题的影响越来越大,因此需要寻找更多的约束条件来解决这类问题。

4 结语

本文提出隶属度及相关计算方法,基于该方法给出了一种自动从维基百科中获取命名实体实例的方法,该方法能够有效利用维基百科条目的类别信息,并以种子实例为指导,确定与命名实体类隶属度高的维基百科类,进而通过类来扩充命名实体的实例集,从实验结果看,该方法在扩充实例集上具有较高的准确率和扩充率。

该方法的优点在于:不仅能够扩充已有的命名实体资源,更重要的是该方法利用维基百科作为实体获取来源,从而使得获取的命名实体实例不仅只有词条信息,并且还带有维基百科自身的语义知识信息,例如每一个扩展的命名实体实例都带有类别属性,而类别属性可以在命名实体之间,以及命名实体与其所属的类之间建立起联系,从而为文本内容的表征与分析提供丰富的知识支持,更好地支持后续的处理工作。同时,由于维基百科具有多语种的特点,因此该方法并不仅局限于英语命名实体的获取,而是可以很容易地扩展到其他语种,这对建立多语种的命名实体资源,尤其是为那些非通用语种建立命名实体资源有着重要意义。而且,本文提出的隶属度计算方法不仅可以用于命名实体实例的自动获取,还可以较容易地扩展到领域术语的自动获取等任务,这对于构建领域术语知识库具有一定的指导意义。

本文使用的方法还存在一些需要改进的地方,例如隶属度排名靠后的类中仍然包含不少命名实体的典型类,但是当设定阈值后,这部分排位靠后的类就被筛选掉了,造成了扩充率的降低。为了解决该问题,下一步准备从命名实体类的语言特征入手,构建特定命名实体类的语言特征知识,利用语言特征从排名靠后的维基类中挑选出命名实体类,从而减少典型维基百科类的遗漏,进一步提高命名实体的扩充率。

摘要：利用维基百科(Wikipedia)和已有命名实体资源,提出维基百科类的隶属度计算方法,通过匹配、计算、过滤、扩展、去噪五个步骤构建出具有较高质量和较大规模的命名实体实例集。在英语维基百科数据上进行实验,结果显示,基于隶属度方法自动获取的人名实例规模较DBpedia抽取出的人名实例规模高出近10倍,通过对不同隶属度区间的抽取实例进行人工检验,发现抽取出的前15000个维基百科类的准确率达到99%左右,能够有效支持命名实体类实例的扩充。

关键词：命名实体,自动获取,维基百科,隶属度

参考文献

[1]Partha Pratim Talukdar,Thorsten Brants,Mark Liberman,et al.AContext Pattern Induction Method for Named Entity Extraction[C]//Proceedings of CoNLL-2006,2006:141-148.

[2]Bernardo Magnini,Matto Negri,Roberto Prevete,et al.A WordNet-BasedApproach to Named Entity Recognition[C]//Proceedings of COLING-2002 on SEMANET:building and using semantic networks,2002:1-7.

[3]Antonio Toral,Rafael Mu?oz.A Proposal to Automatically Build andMaintain Gazetteers for Named Entity Recognition by using Wikipedia[C]//Proceedings of Workshop on New Text,11th Conference of theEuropean Chapter of the Association for Computational Linguistics,2006:102-109.

[4]Angus Roberts,Robert Gaizauskas,Mark Hepple,et al.CombiningTerminology Resources and Statistical Methods for Entity Recognition:an Evaluation[C]//Proceedings of LREC2008,2008.

[5]Jim Giles.Internet Encyclopedias Go Head to Head[J].Nature,2005:438,900-901.

[6]Dominic Balasuriya,Nicky Ringland,Joel Nothman,et al.Named Entity Recognition in Wikipedia[C]//Proceedings of the2009Workshop on the People’s Web Meets NLP,ACL-IJCNLP2009,2009:10-18.

[7]Jun’ichi Kazama,Kentaro Torisawa.Exploting Wikipedia as External Knowledge for Named Entity Recognition[C]//Proceedings of EMNLP-2007and Computational Natural Language Learning2007,2007:698-707.

[8]Razva Bunescu,Marius Pasca.Using Encyclopedic Knowledge for Named Entity Disambiguation[C]//Proceedings of EACL2006,2006.

[9]王锦,王会珍,等.基于维基百科类别的文本特征表示[J].中文信息学报,2011,25(2):27-31.

[10]王全剑,李芳.基于Wikipedia的人名简历信息抽取[J].计算机应用与软件,2011,28(7):170-174.

[11]Zhang Ziqi,JoséIria.A Novel Approach to Automatic Gazetteer Gen-eration using Wikipedia[C]//Proceedings of the2009Workshop on the People’s Web Meets NLP,ACL-IJCNLP2009,2009:1-9.

【模板自动获取】推荐阅读：

外贸模板模板新手实用09-16

公司表扬信模板优秀员工表扬信模板09-16

简报模板10-24

模板系统07-19

模板优化07-19

钢管模板07-20

基于模板10-14

模板搭设10-17

语言模板06-12

模板06-13

>> 查看更多相关文档