数据抽取论文

2024-10-31

数据抽取论文(精选11篇)

数据抽取论文 篇1

随着互联网的出现,Web文档的信息抽取逐渐成为亟待解决的问题。一个Web文档就是一个网页,网页与纯文本的结构差别很大,主要表现为网页中存在大量的标记,这些标记将网页要显示的文本内容分隔开来。大量的标记为网页信息抽取提供了更多可利用的信息,从而可以开发各种不同于传统信息抽取的方法对网页进行信息抽取。

常见的动态网页是由相应数据库中结构化的数据值嵌入模版生成的。EXALG系统也是将动态网页中的模版推导出来,然后利用推导得到的模版来进行同类Web文档上数据抽取工作。该系统初看起来是一个很成功的模版推导系统,但经验证发现该系统还存在着一定的不足。本文正是在EXALG的基础上,提出了改进的抽取算法,即EXALG+算法。

1 数据类型定义

一个页面的模板和内容是由数据类型(Data Types)和数据值,也即数据实例(Instance)所构建而成的。数据格式是多种属性通过一种固定的序列进行排列而成。其中每种属性都可能是诸如字串,可选项或分离项等其它数据形式,由此,可以对数据类型作出递归定义。其中,分离项和可选项是数据抽取技术中通用的定义。

1.1 基本定义

定义1.1:基本数据类型由符号β表示。它描述了一个标记串,是一个页面文本的基本单元。在本文中,标记定义为一个单词(Word)或一个HTML的固有标签。

该数据类型的实例为各种标记(Token)所组成的字串,有dom(β)={s|s从属于string}。特别地,定义一个特殊的字串,记做Φ,表示为空字串的数据类型,也可以称之为NULL数据类型。

定义1.2:若T1,T2,…,Tn是数据类型,则序列集合也为数据类型。其中T1,T2,…,Tn至少有一个非空。称数据类型是由T1,T2,…,Tn以n维元组构造器构造而成的类型。

类型的一个实例为形如的一个元组,其中i1,i2,…,in分别为类型T1,T2,…,Tn所对应的数据实例。将实例i1i2,…,in称为元组的元组属性。

定义1.3:如果T为数据类型,则集合{T}也是一个类型。称集合{T}是由类型T通过集合构造器构造而成的类型,有dom({T})={e1e2,…,ei|e从属于dom(T)}。

类型{T}的实例为元素{e1,e2,…,em}的集合,其中,ei(1≤i≤m)均为类型T的一个实例。

由此,本文中将类型的实例称作“值”,将符号“<>”和“{}”称作类型构造器符号,将元组构造器和集合构造器统称为类型构造器,并通过记号“<>”和“{}”来区分。

1.2 分离项和可选项

一般来说,一个模板的建立主要由两种构造器以及构造器所使用的基本类型组成。这两种构造器一般分别为元组构造器和集合构造器。另外,在网页页面中同时还普遍存在着两种其它形式的类型构造器,分别为可选项和分离项两种类型构造器。

例如,在浏览Chinapub网站的时候看到的图书信息,这些书中有的是国内作者编著的书籍,有的是翻译过来的书籍。后一种书籍中会有“译者”这个选项,则其中“译者”就可以看作是可选项;而相应的国内作者所著的书籍中,有时候也会有中文版和外文版。如果在这本书籍的介绍页面当中仅可能出现一种版式,就是分离项的形式。

定义1.4:如果T为数据类型,则可选项(T)?也是一种数据类型,称为可选项类型。有dom((T)?)=dom(T)∪{Φ}={ei|ei∈dom(T)∪Φ}。并称数据类型(T)?是由类型T通过可选项构造器构造而成。

定义1.5:如果T1,T2都是数据类型,则(T1|T2)也是一种数据类型,有dom((T1|T2))=dom(T1)∪dom(T2)={axi|ali∈dom(T1),or a2i∈dom(T2)},称为分离项类型。其中(T1|T2)是由类型T1,T2通过分离项构造器构造而成。

每一种数据类型都可以用数据类型树来抽象表示,而且该树具有一定的层次结构,称这种用来表示数据类型的树为抽象模式树(Abstract Schema Tree,AST)。

1.2 页面生成模型

本节给出由动态页面产生模板的页面生成模型。如图1所示,一个值X,通过使用一个模板T而被编码到一个实际页面中。用λ(T,X)表示编码页面结果。

定义1.6:一个模式S的模板,即将S中的每一个的类型构造器τ映射到一个有序的标记串集合T(τ)中,同时有如下特性。

1)若τ是一个n维元组构造器,则T(τ)是一个标记串的序列,形如。其中Cτ1,…,Cτn+1为n+1个标记串。

2)若τ是一个集合构造器,则T(τ)是一个标记串。

为区分不同的模板,把模板T记做TS,用于表示该模板是为模式S作作的定义。也就是说,在编码函数λ(T,X)给定的时候,将模式S的实例X嵌入到模板T上,而此时,可以使用编码函数,对该实例X可以按下列方式嵌入。

第一,如果X是基本类型β,则λ(T,X)就作为x自身输出到页面上。

第二,如果X为n维元组的形式,形如,则λ(T,X)作为一个有序的标记串输出到页面上,形如C1λ(T,X1)C2λ(T,X2)…λ(T,Xn)Cn+1。其中,X是模式S中的类型构造器对应的实例,T(τ)=

第三,如果X是形如{e1,e2,…,em}τs的一个集合,则λ(T,X)为一个有序标记串输出到页面上,形如λ(T,e1)Sλ(T,e2)S…λ(T,em)。其中T(τs)=S。

第四,如果X是形如(X)?的可选项,λ(T,X)输出的实例为X或空字串Φ。

第五,如果X为形如X=(X1|X2)的分离项,则函数λ(T,X)为λ(T,X1)和λ(T,X2)二者其中的一个输出到页面上。

1.3 数据抽取

本文中的数据抽取是针对Web文档进行的,是一种根据网页的相似性结构自动找到网页中的数据并归纳出抽取规则的完全自动化的抽取方法。网页中的许多标记和文字的出现常常是频繁的,所以可以根据这些标记形成等价类,推导出生成网页的结构模板,并利用这个模板抽取需要的数据。

1.3.1 数据抽取定义

定义1.7:给定一个具有n个页面的集合P,其中Pi=λ(T,xi)(1

一般来说,从一个大的互联网站点给定的一个实际页面集合,在页面编码中,人工选择正确的模板和数据值时一般不会有任何疑问。而要达到的目标恰恰是解决实际网页的抽取问题,也即能够生成被“人”认为是正确的模板和数据值。

如上所述,为了将页面模板推导出来,可以将页面中的所有标记加以识别区分,判断标记是模板标记值还是数据值。将所有属于模板的标记区分出来后,再利用这些标记完成模板的建立和其后的数据抽取。因此,为了将数据标记和模板标记区分开来,可以利用页面中的标记的不变/变动特性来达到区分的效果。同一类网页所使用的模板是固定不变的,而变化部分则是嵌入到这些模板标记中的数据值,因此,通过分析网页中的标记是否具有变动性质就可以完成区分工作。但是,实际工作依然很困难。

第一,模板标记中的标记值和数据集合中的标记值可能相同,也就是会出现同样的标记扮演不同角色的情况。

第二,在页面中出现的可选项和分离项使得不变/变动的性质难以区分,从而使得模板推导更加复杂。

分离项可能具有多种表示方式,比如,“姓名”或“地址”就可能会出现由于语言习惯或地域的不同而使用不同的表示方式。同样的,日期的表示格式等也属于此类问题,而且表示方法更多:可以表示成“日期/月份/年份”或是“月份/日期/年份”等。

因此,在实际的模板推导中由于这些问题将会导致最终的推导结果出现很多不同可能的模板。此时与这些模板相对应的抽取出来的数据也就不尽相同。也就是所谓的存在冲突模式(Ambiguity Schema)。目前,已经证明了想要推导出一个无冲突的模式属于一个NP完全问题。因此,抽取问题的关键,在于如何找到一个更好的或者说最佳的模板用于数据抽取。

1.3.2 数据抽取原理

EXALG是由Arvind与Hector二人于SIGMOD2003提出的数据抽取系统。该方法使用了类似RoadRunner的模型,希望将生成Web文档的模板推导出来,然后再根据得到的模板,来抽取采用同样结构的Web文档中的相关数据值。

这两种方法的归纳方式不同。EXALG不是逐个比较两个网页中的标记,而是提出了出现向量(Occurrence Vector)和等价类(E-quivalence Class)的概念。通过统计最大最频繁的等价类和角色区分来推导模板。EXALG对于给出页面集合,可以发现页面中所隐含的模板,并通过模板将数据抽取出来。

根据Arvind二人提供的数据和他们发布的EXALG系统的实际使用情况,可以发现EXALG对于原来已有的其它方法来说有了很大的进步;而本文给出的抽取方法,对于抽取的数据在正确性和完整性方面做得更加完善。

本文的抽取方法,是受EXALG的启发得到,所以称之为EXALG+方法。它可分为两个阶段。在第一个阶段用于发现与生成输入页面的未知模板中相同的类型构造器相联系的标记的集合。在第二个阶段则使用上面生成的集合推导出模板。然后,推导得到的模板被用来抽取页面的编码值。以上两个阶段的工作完全由机器完成,是无需人工参与的过程。

第一个阶段,利用出现频繁程度作为向量,用来表示一个标记串在所有网页中的出现频率,并且利用原作者提出的等价类概念,即具有相同出现向量的标记串,聚集到同一个有序的标记串集合中。由于等价类中的所有标记串在相同模板的作用下,会产生同样的出现频率,因此,利用这种特点将所有合法的等价类寻找出来,然后将这些等价类中的标记串转换成最后的模板。

可以将HTML文档看作一棵DOM树。首先,将页面中所有相同的字串根据其DOM树路径位置的不同来区分其扮演的角色,将其称为特定标记串。然后,将所有扮演相同角色的特定标记串按其出现次数组成出现向量,然后将所有具有相同出现向量的特定标记串聚合在一起,形成一个等价类。在这一步骤中,可能会出现一些不合法的等价类,利用第三步将这些不合法的等价类去除。这些不合格等价类在被过滤掉的同时释放该类所包含的所有特定标记串,并将特定标记串中一些与页面意义不一致的个体过滤掉。这一步利用了当特定标记串出现在不同等价类的区间位置不同而具有不同的意义这一特性,可以把这些具有相同值的特定标记串进一步地区分开来,并反复形成新的等价类,过滤掉不合法的等价类,得到一个最频繁出现的等价类集合。到此为第一个阶段阶段,称为等价类生成阶段。本文的主要改进工作都是在这个阶段完成的。对应于这部分的模块称之为等价类生成模块(Equivalence Class Generation Module:ECGM)。随后,将这些等价类作为输出传送到第二个阶段的模板分析模块(Template Analysis Module),由这个模块产生最后的输出。其流程如图2所示。

第二个阶段,即模板建立和值抽取模块。该模块的输入是一个由第一个阶段生成的频繁等价类集合和一个使用标记串描述的页面集合,其输出是一个模板和一个对应页面值的集合。该模块由两个子模块组成,模板生成子模块和值抽取子模块。对于数据抽取技术,一旦获得了正确的模板之后,值抽取是一个非常直观的过程,在此不作赘述。

这些频繁等价类集合中,存在一个最重要的等价类,<1,1,…,1>,将其称为基本等价类。该等价类的特殊性在于,该集合中所有的标记串出现各个页面仅一次,比如常见HTML文档中的


等标记串组合均属此列。另外,一般来说等标记串通常是一个页面的开始标记串和结束标记串,因此,该基本等价类的页面的范围往往是最广泛的,模板构建模块即由此等价类开始构建模板。然后利用先深搜索方式,对于每个等价类的非空区间位置,判断是否为数据嵌入位置,或者该区间是否嵌入了另外一个等价类。如果该位置为数据嵌入位置,则跳转到该等价类的下一个非空的区间位置;如果该位置为一个等价类的嵌入位置,则进入嵌入等价类的非空区间再次进行判断,直到将所有的等价类的非空区间遍历完全,即可构造出一个完整的页面模板。

1.4 小结

文章给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。

参考文献

[1]Xi W P,Li X,Jiang K,et al.Information Extraction Technology for Web Forums[J].Computer Engineering,2005,31(4):34-37.

[2]Chinchor N,Marsh E.MUC-7Information Extraction Task Definition(version5.1)[C].Proceedings of the Seventh Message Understanding Conference,1998:210-221.

[3]宋静静,李振坤.基于Wrapper技术的Web数据处理系统研究[J].计算机应用研究,2004(12):298-300.

[4]李效动,股毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533.

[5]张绍华,徐林昊,杨文柱.基于样本实例的Web信息抽取[J].河北大学学报:自然科学版,2001(4):431-437.

数据抽取论文 篇2

这节课我主要利用了做游戏和小组活动的方式让学生学习得数是6的加减法,学生在一种活泼、开放的氛围中轻松地学习,取得了很好的教学效果,达到了设计这一课时的教学目标。“兴趣是最好的老师”,只有学生在对所要学习的知识产生了兴趣之后,才能够产生学习的动力。

在课一开始,我以猜数游戏引入本课,学生都觉得非常有趣,气氛相当热烈,这样学生的注意力就可以集中起来,进行下面的游戏。又在后面安排了分一分棋子的环节,通过学生自主合作探究来经历把数字6分成两份的过程,使学生产生了很浓厚的兴趣,这样就收到了事半功倍的效果。同时我还体会到不仅要让学生产生学习兴趣,还要设法保持住他们的学习兴趣,不能只停留在表面,而是要激发学生的学习潜能,这样才能使每一个学生在原有的基础上都获得不同程度的发展。在教学过程中,学生也说出了不少我在备课时没有想到的答案,发挥出了他们丰富的想象力,而且还能够给予合理的解释,对于这样的学生,我也及时地给予了肯定和鼓励。这一点也充分地说明了国家新课程改革的必要性,旧的灌输式的死板的教学理念是对学生的一种制约和束缚,如今的学生想像力丰富,思维敏捷,看问题总有自己的独特的视角,如果我们一味地追求统一的答案,那只会把学生丰富的想像力扼杀掉。本课时的题目就有两道题都是开放性的,答案不唯一,只要学生能够做出合理的说明,就应肯定并且鼓励学生作出不同的答案。只有这样才能充分放手给学生,做到真正意义上的以学生为主体,让课堂真正成为学生放飞思维的舞台。

这节课还有一些不足之处,首先自己有一些紧张,思绪不够清楚,表达不够自然;其次,这节课的内容较多,有游戏、故事和习题,在各个部分过度的问题上就把握得不是很好,对孩子常规的要求也不够完善,有时会忘了让他们把摆出来的学具收回去;再次,上课时语言表达不够严谨,在提出个别问题后,学生不能明白问题的意思,而未能得出合理的答案;由于考虑到一年级孩子识字不多,我没有安排好板书,板书不规范。课堂采用“一问一答”的教学模式,没有充分发挥学生的主动性等等。课后聆听了一些老师对我这节课的点评,使我成长了很多,同时也看到自己在课堂上的不足之处,为今后上课打下良好的基础。在今后的课堂上我要把课堂还给学生,充分发挥学生的主动性,营造学生的自主课堂。不断的专研教材和教学方法,我相信行动就会有收获。

基于本体的信息抽取研究 篇3

【关键词】GATE;信息抽取;本体

随着计算机技术和网络的迅速发展,信息成指数级增长。如何从浩瀚的信息海洋中迅速有效的找到自己所需的信息,成为目前信息技术研究的热点。信息抽取(IE,Information Extraction)研究正是在这种背景下产生的。

1.信息抽取

信息抽取指的是以无结构的自然语言文本文档为输入,产生并输出固定格式的、无歧义的数据的过程。根据MUC定义,信息抽取一共有5种类型,分别是:命名实体识别(NE),识别人名、地名等并且进行分类;模板元素构建(TE),为命名实体识别结果添加描述信息;模板关系构建(TR),在TE的基础上,在实体之间找出关系;情景模板建立(ST),把TE和TR的结果放到相应的具体事件情景下;共指消解(CO),鉴别文本中的实体之间的恒等关系式,是TE和ST的基础。其中,NE是最简单,也是最有使用价值的一种类型,可以采用基于规则和基于统计这两种方法来实现。本论文的研究采用基于规则的方法。

2.本体

本体(Ontology)的概念最早起源于哲学领域,是客观存在的一个系统的解释或说明。1993年,Studer等学者对本体提出了一个比较明确的概念,即本体是“共享概念模型的明确的形式化规范说明”。目前,本体作为语义基础得到了广泛的应用,如语义网、信息检索、软件工程等领域。

3.基于本体的信息抽取研究

本文采用基于规则和本体的抽取技术,用GATE建立规则库来完成信息抽取,用Protégé构建领域本体表示实体及实体关系。语料库采用计算机配件的相关信息。

3.1 数据收集和文本预处理

首先通过爬虫软件收集大量样本文件,然后选定中科院的ICTCLAS作为中文分词组件,完成对采集文本的中文分词以及词性标注,并将ICTCLAS 的输出结果进行处理,使之成为GATE可以接受的输入格式,然后发送给GATE组件。

3.2 领域本体的构建

Protégé是美国斯坦福大学医学院开发的本体编辑工具,具有图形化的用户界面,使用简单,有详细友好的帮助文档,能支持中文,比较适合本体构建的概念化和形式化阶段。本文采用protégé建立计算机配件领域本体。

3.3 信息抽取

在充分调研国内外的系统之后,本文选定开源项目GATE作为信息抽取的开发框架。GATE项目与1995年英国的Sheffield大研究开发的,其全称是General Architecture for Text Engineering,目前已经被广泛应用于数字图书馆、语义网、知识管理等的研究和工程项目中。GATE框架采用了基于组件的软件开发方式,以及面向对象的编程方式,是基于规则的信息抽取框架。GATE使用的编码方式是 Unicode,可以支持多种语言编码,可以支持XML、HTML、RTF、Email、SGML以及纯文本文件等文档类型。

1)词表查询

GATE中的词表是一组包含了事物名词的集合,比如数字、日期、地名、姓氏等等,采用Gazetteer程序添加词表,用*.lst文件表示,每个Gazetteer词典可以添加多个词表,但需要同一文件夹下的索引文件(*.def)进行控制。首先要收集充足的词表,将上一步分离出来的词和词表进行匹配。匹配时,若待标注文本中含有词表中的某个词,则Gazetteer将其标注为 Lookup 类型。由上看出,词表的丰富程度直接关系着语料训练和命名实体识别效果的好坏。

GATE中主要提供了3个中文索引文件,分别是实现special gazetteer的special lists 文件、实现 gazetteer的lists 文件和实现inferred gazetteer 的lists 文件。这些词表文件中虽然包括了大量的词汇,但仍然不够完备,例如,digit.lst中,只有一、二、三等中文数字,因而无法识别阿拉伯数字。因此本研究结合实际情况,对GATE原有词表进行了扩充和完善。比如digit.lst中增加了0~9的阿拉伯数字,使得500、123等数字得到很好的识别。

同時,结合计算机配件方面的实际,增加了若干词表文件,比如cpu_type.lst存放常见CPU型号的词条;Cap_unit.lst存放兆,吉,B,KB,MB等表示容量单位的词条;brand_computer.lst存放了英特尔、华硕、戴尔、联想、神州等表示电脑配件品牌的词条。

2)规则修改和定义

利用领域本体中的概念和关系,根据本文研究内容,建立规则。本文采用 JAPE书写规则。存储容量、配件尺寸和价格、传输速率等等是计算机配件中常见数据,用数字加单位来进行识别。以存储容量为例,有的表示成500G,有的表示成400兆,是数字加容量单位组成的。主要 JAPE规则如下:

Macro:DIGIT

({Token.kind== igit})

Macro:NUMBER

(({Lookup.majorType==number})+)

Rule:Capa

((DIGIT|NUMBER)

{Lookup.majorType==cap_unit}

):tag

-->:tag.Capacity={rule=Capa}

配件的品牌也是选购时重要关注的方面,本文增加了相应的规则如下:

Rule: brand_computer

({Lookup.majorType==organization,Lookup.minorType==brand_computer}

):tag

-->:tag.Brand={rule=brand_computer}

3)实验结果

本文对收集的120篇相关文本进行了实验。从结果来看,本文的方法对实体命名识别具有较好的效果。

4.结论

GATE是一款优秀的信息抽取开源软件,本文对中文信息抽取系统框架和细节进行了深入的思考,提出了基于本体和规则进行中文信息抽取的技术研究,并选取了相关语料,进行了实验分析。从实验结果看,本文提出的方法能有效地进行命名实体的识别和抽取,丰富了本体实例。由于个人研究精力有限,仍然存在一些问题以待解决。

参考文献

[1]程显毅,等.中文信息抽取原理及应用[M].北京:科学出版社,2010.

[2]Hamish Cunningham.Information Extraction-a User Guide(Second Edition)[R].http://www.dcs.shef.ac.uk/~hamish/IE/userguide/Gri96[2006-1-3].

[3]陈兰,等.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157,170.

基金项目:南通大学校级自然科学类科研基金项目(12Z039)。

数据抽取论文 篇4

关键词:数据抽取,排序,参照完整性

由于数据表之间存在参照关系,为了遵循关系数据库参照完整性约束,在数据抽取时,被关联的数据表应当先抽取数据,也就是说在数据抽取之前,要对所有数据表进行排序,排序在前的数据表先抽取数据,排序在后的数据表后抽取数据,确保不违反参照完整性约束。

一、数据表末尾移动排序算法描述

设有N个数据表需要抽取数据,它们分别是T1,T2,T3,…,Ti-1,Ti,Ti+1,…,TN。如果Ti有关联参照表,则观察关联表排在Ti前面还是排在Ti后面,如果关联表排在Ti后面,必然影响关联抽取,则把Ti表放到整个队列的最后面,并且Ti+1至TN数据表依次向前移动一位,调整后的顺序为T1,T2,T3,…,Ti-1,Ti+1…,TN,Ti,以保证Ti的所有参照表都排在Ti的前面。依次类推,直至所有的数据表排序都调整完毕为止。

排序算法的流程图如图1所示,从i=1开始,判断Ti表是否有参照表(通过数据库中的数据字典信息来判断),如果Ti表有参照表,观察Ti表的所有参照表是否都排在Ti的前面,如果有参照表排在Ti的后面并影响关联抽取,则把数据表Ti移到队列的最后面。如果Ti表的排列顺序没有调整,则i=i+1,接下来继续分析判断Ti表,直到i=N为止。

二、数据表末尾移动算法举例

下面以表名为A、B、C、D、E的五个数据表为例说明上述数据表排序算法。下表中列出了数据表名称及其参照的数据表名称,其中两个数据表包含参照关系,A表参照了C表和D表,D表参照了E表,如表1所示。

初始化,i=1。如表1所示,i=1对应的数据表为A,数据表A参照的数据表C和D排在A的后面,根据排序算法,数据表A要调整到队列的最后面,调整后的数据表顺序为B、C、D、E、A,如表2所示。

继续,i=1。如表2所示,i=1对应的数据表为B,数据表B没有参照数据表,不需要调整其顺序,i=2。

继续,i=2。如表2所示,i=2对应的数据表为C,数据表C没有参照数据表,不需要调整其顺序,i=3。

继续,i=3。如表2所示,i=3对应的数据表为D,数据表D参照的数据表E排在数据表D的后面,根据排序算法,数据表D要调整到队列的最后面,调整后的数据表顺序为B、C、E、A、D,如表3所示。

继续,i=3。如表3所示,i=3对应的数据表为E,数据表E没有参照数据表,不需要调整其顺序,i=4。

继续,i=4。如表3所示,i=4对应的数据表为A,数据表A参照的数据表D排在A的后面,根据排序算法,数据表A要调整到队列的最后面,调整后的数据表顺序为B、C、E、D、A,如表4所示。

继续,i=4。如表4所示,i=4对应的数据表为D,数据表D参照的数据表E排在D的前面,不需要调整,i=5。

继续,i=5。i=5达到了数据表的总数,算法运行结束,排序结束,最终的数据表抽取由前到后的顺序是B、C、E、D、A,不会违反参照完整性规则。

三、数据表末尾移动算法收敛性分析

由于关系数据库中不存在循环参照关系,因此就不会因循环参照关系而出现数据表之间循环末尾移动。

如果数据表存在自参照关系,依据本算法,该数据表不会因自参照关系而移动。

在算法举例中,数据表A移动了两次,是因为这里存在传递参照关系,即数据表A参照C和D,D又参照E。也就是说,即使数据表序列中存在传递参照关系,数据表末尾移动算法执行的移动次数也是有限的。

“合理定价抽取评审法”不可取! 篇5

一、引言

二〇一三年七月十八日,河北省交通运输厅发出了“关于印发《河北省高速公路建设项目施工招标合理定价抽取评审法实施办法》(施行)的通知”,并决定自二〇一三年八月二十日起施行。据悉,京港澳高速公路石安段改扩建工程的机电系统已准备采用“合理定价抽取评审法”确定中标人。

据不完全统计,这是继天津、广东、吉林、河南、湖南、湖北、安徽、浙江、山西、陕西、山东、福建后,工程评标采用《合理定价抽取评审法》的第十三个省份。

那么,这是一种怎么样的评标方法?与以往采用的招标评标法又有哪些不同呢?采用这种招标评标方法到底有些什么好处呢?为什么有这么多省、市会先后采用这样的方法呢?实施的结果又是怎样的呢?这些问题的确是大家非常关心的。本文想结合各地专家们所发表的意见谈谈笔者的看法,并与大家讨论。

二、何谓“合理定价抽取评审法”?

“合理定价抽取评审法”,有些地方成为“合理定价随机抽取法”、“合理低价随机抽取法”等等,叫法不一样,但含义都差不多。那么到底什么是“合理定价随机抽取法”呢?

百度百科的定义是:“合理定价随机抽取法”是指招标人或招标代理机构,将包括工程合理价为主要内容的招标文件发售给潜在投标人,潜在投标人响应并参加投标,评标委员会对投标文件进行合格性评审后,招标人采用随机抽取方式确定中标候选人的排名顺序的评标定标方法。

当然各地对这种评标方法的定义和具体做法(条款)有些不同,但核心的内容基本上是相同的。如: 湖南省的“合理定价评审抽取法定义是指:“对报名的投标人随机抽取标段,发售含合理定价清单的招标文件,随机抽取3家入围投标人,由评标委员会对入围投标人的投标文件进行评审,并推荐中标候选人的评标方法”。

河南省的“固定标价随机抽取法”的定义是:“投标人按照公路工程专业类别报名投标,承诺以招标人报价作为投标报价,招标人在开标时每标段随机确定3家入围投标人,由评标委员会对入围投标人的投标文件进行评审,并推荐中标候选人的评标办法”。

河北省的“合理定价抽取评审法”的定义是指“投标人按照工程专业报名投标,以合理定价作为投标报价,招标人在开标时随机抽取各标段入围投标人,由评标委员会对入围投标人的投标文件进行评审,并推荐中标后选人的评标办法”。

不管各地的定义和具体条款上如何不同,但都有两个关键词:合理定价(格)和随机抽取。“合理定价”意即工程的价格是由招标人事先确定的,被认为是相对合理的,投标人只要承诺就有资格参于投标。“随机抽取”意即中标人是由招标人用随机抽取的方法确定的,不是评标委员会综合评出的。

与传统的评标方法最大的不同之处在于:

1、工程项目的价格是由招标人事先确定的,无需投标人报价,投标人只要承诺就行;

2、评标委员会的作用被弱化了,只要随机抽取后对入围投标人的资格性和承诺性进行评审即可;

3、这种评审方法的最大好处是节省了评审时间和招投标费用。

至于有关“公开”、“公平”、“公正”、“诚实信用”以及有助于“反腐创廉”、防止“暗箱操作”和“明招暗定”、有效防止“串标”、“围标”等等的优点和说法有待商榷。

三、“合理定价抽取评审法”的出台

公路建设行业是最先实行招投标制度的行业之一。2000年1月《中华人民共和国招标投标法》实施以来,各级交通主管部门不断完善规章制度,加强对招投标活动的监督管理,公路建设项目执行招标投标制度总体上是好的。

但是,由于我国市场经济体制还不完善,市场诚信体系还不健全,公路建设市场开放度大,市场主体比较复杂,公路建设项目的招投标活动仍存在一些急需解决的问题,归纳起来大概有以下一些表现:

 招标人、投标人、招标代理以及评标专家之间相互勾结,暗箱操作、明投暗定;  上述四方之间围标、串标现象严重,哄抬报价或低价枪标,排挤其他投标人;

 投标人之间相互租用或出借施工资质,弄虚作假;整体转包现象严重,招标人睁一眼闭一眼或根 本不予理睬;

 招标人或转包代理泄露标底和其它机密招标信息现象时有发生;投标人以行贿等不正当手段谋取 中标;

 有的项目招标工作不规范,评标工作把关不严、深度不够或走过场;  对招投标工作进行不正当的行政干预以及

 行政监督机制不完善或根本缺失、监督力度不够或处理力度不力等等。

这些问题的存在严重地妨碍了《招标投标法》的实施,扰乱了市场经济秩序,同时滋生了不同表现形 式的腐败现象。

2004年11月,原交通部公布了“关于改进公路工程施工招标评标办法的指导意见”,并提出“合理低价法”、“最低评标价法”、“综合评估法”以及“双信封评标法”等4种评标方法,并要求各地“根据招标项目的具体情况,选择合适的评标办法”。

2006年8月1日起施行的《公路工程施工招标投标管理办法》、2013年修订的《评标委员会和评标方法暂行规定》等国务院有关部门的文件中,也对工程项目的招标和评标的具体办法做出了规定,那为什么有些地方还要独出心裁提出以抽签、摇号、抓阄为核心的所谓“合理定价抽取评审法”(以下简称“办法”)? 归根到底一句话,就是在实施公路工程施工招标投标工作中,产生了形形色色的腐败现象,以至于严重干扰了正常的招标投标工作的开展。基于这些情况,有些地方想了很多办法,提出了形形色色的招标评标方法,其中就有“合理定价抽取评审法”。其初衷很简单,就是想通过采用抽签、摇号以及抓阄等貌似公平、公正的办法来消除各种腐败现象!

从湖南、河南和河北等省发布的“通知”中可以看出,制定“办法”的出发点是:为了进一步规范高速公路建设市场秩序,维护招投标工作的“公开”、“公平”、“公正”和“诚实信用”的原则;有效地维护招标投标活动各方当事人的合法权益;提高工作效率;加强廉政建设和推动反腐工作等。简言之,出台该“办法”就是为了在工程项目的招标投标工作中体现公平、公正和防止腐败现象的发生。

四、现状与分析

虽然先后有十几个省市采用或施行了“办法”,但是,实际施行的结果并不理想,或者说没有达到预期的目的。因此,大多数地方已经停止了该“办法”的施行。

我国最早实施该“办法”的广东省,也在2003年4月,以省人大常委会的名义发出通知,明文规定“禁止采取抽签、摇号方式进行投标资格预审或确定中标人”。

2013年2月28日的“大河网”上也刊登了报导文章,说“湖南摇号制度难止公路工程招投标乱象”。应当说,各地施行该“办法”的初衷是好的,但事与愿违,在实际推广应用中出现了许多值得注意和思考的问题,应当引起采用该“办法”的各地主管招标投标工作的相关部门领导以及招标人的关注和重视。“实践是检验真理的唯一标准”在这里同样适用。

从该“办法”出笼到现在已经有十多年的时间了,但争论却一直没有停止过。争论的焦点集中于该“办法”到底有什么好处?存在什么问题?是否值得推广?专家之间也有不同的看法或争论,真是智者见智,仁者见仁。

1、支持一方的看法

 一定程度上贯彻并体现了招标投标工作的“公开”、“公平”、“公正”和“诚实信用”的原则;  简化了招标投标的工作程序,节省了招标投标工作的成本(时间和费用);

 一定程度上防止了“暗箱操作”和“明投暗定”等腐败行为,有效地遏制了弄虚作假、串通投标、低价抢标等不正当手段,有利于加强廉政建设和反腐创廉。

 仅适用于技术要求不高、施工标准在行业范围内比较统一、施工难度不大、资金相对确定、工期 较短、造价控制在一定范围内的中小型单项工程。

 招标人在一定程度上掌握了工程造价的主动权。

2、反对一方的意见

 最大的问题是没有明确的法律依据,违法违规危险系数大,具体条款和做法又明显地违反了我国 或地方的一些法律、法规。《中华人民共和国招标投标法实施条例》、《公路工程施工招标投标管理办法》、《关于进一步贯彻中华人民共和国招标投标法的通知》、广东省实施《中华人民共和国招标投标法》办法等文件中明文规定,“严格规范招标人确定程序。禁止采用抽签、摇号等博彩性方式进行投标资格预审和确定中标人”。而“合理定价抽取评审法”却明显地违反了上述规定,并与之相触。在公权领域,法律的原则是“法无许可即为禁止”。

 社会主义市场经济的原则就是竞争,通过竞争做到“优胜劣汰”,但是该“办法”恰就体现不出 充分的竞争。在工程招标过程中,选择最优投标者是一种法定要求。招标法的根本宗旨在于公平、公正、择优、择强。也就是说,工程招标的根本目的是以最合理的价格,高水平的施工质量,构造出最优秀的工程来。但采用“办法”后,由于投标门槛低,不管投标人的技术实力、施工水平、管理水平、经济实力、工程业绩等要素,统统可以在同一个起跑线上抽签、“碰运气”。因为,通过摇号产生的中标者有可能是借用资质、资金不雄厚、技术力量不强或施工设备较差的企业。这样就会导致施工进展缓慢,一再延缓工期或者出现质量问题。这算是真正的公平竞争吗?由于没有经过充分的市场竞争,这种“碰运气”的做法不但会损害工程承包商的利益,也会让招标人自己受到经济利益的伤害,同时,也是对工程质量的极端不负责任。从某种意义上讲,在重大工程项目中采用“抽签”、“摇号“等办法来决定中标人的做法实质上是一种推卸责任、极端自私的无能表现。

 为串标、围标等行为提供了更大的可能。有人说,由于围标、串标严重,因此,“合理定价评审抽 法”就运应而生了。而事实上,正由于采用了该“办法”,才给那些围标、串标者提供了更大的围标的空间和机会!

另一方面,预先给出的固定价格也会给投标人之间的围标、串标提供一条看似既合理又合法的途径。加之投标人起点门槛低,因此几乎所有具有原建设部办法的综合资质的投标人都可以参加抽签,这样就大大地提高了围标人群的中标概率。

从数理统计和概率论的定义可以看出,由于抽签是等概率的,所以,如果参加围标的投标人超过一半的话,围标的成功率无疑是很大的。

当然,围标、串标人不仅仅是指投标人,也包括招标人和招标代理人。《中华人民共和国招标投标法实施条例》以及国家发改委等七部委公布的《工程建设项目施工招标投标办法》(2013年修订)中,对于围标、串标的种种现象作出了明确的规定,这些文件都为打击、杜绝围标、串标等违法现象提供了法律依据。

 适用范围有局限性。“合理定价评审抽取法”从本质上讲是一种规范性欠缺的非招标方式,或者说 是一种“另类的招标方式”,它不但不适用货物和服务采购项目,对建设规模大、造价高、性质较特殊、技术复杂的工程项目也难以适用。

湖南省和河南省的通知中都强调:“技术复杂的大型桥梁和隧道、机电三大系统(含隧道机电)按照权限,经交通运输厅主管部门批准,可作为单独的标段,按照交通运输部2009版《公路工程标准施工招标文件》及相关规定执行”。

有的省份对工程造价有一定的规定,如1500万元以下的工程可以试用该“办法”。因此,不是所有的工程项目都可以使用该“办法”的,尤其是一些大型工程项目。所以说,“办法”的使用范围有很大的局限性。

河北省的通知中也说,“鉴于本办法属于试行,请在小范围内进行试点”。

 政府相关部门的行政监督职能和专家评审智能边缘化,自主性过大,监督功能缺失。评审专家的 职能逐渐淡化或消失,事实上已经沦为一个“看客”和“陪衬”的角色,国家利益和社会利益难以得到很好地维护和保证。有人说,采用“办法”已经成为相关管理部门规避监管责任的手段。有些招标人和招标代理人认为采用抽签的形式确定的招标人,谁中标与己无关,自己没有干预,依此来逃避监管责任。事实上,这是一种极端不负责任的做法!

 “合理定价”不合理,给有效控制造价带来很大的困难。招标人确定所谓的“合理价”是否真正 合理?业主自己定价就是一家人说了算,也违反了“市场决定价格”的社会主义市场经济的规律;量与价的风险都由招标人承担,最终可能会形成了“合理价”对发包方和承包方都不合理的不良局面,其结果就是双输!

高速公路机电工程结构复杂,规模大,包括有好几百种设备和材料,同一种设备的价格相差几倍、十几倍。整个工程的设备、材料购置费用高达全部工程项目费用的70%以上,甚至更多。所以,定价合不合理关系到整个工程项目的全局。定价的过高或过低都会直接影响招标人和投标人的切身利益,进而影响整 个工程的质量和工期进度。因而,工程价格必须通过招标人、投标人以及市场来决定,而不是由招标人一家决定。定价的过程是招标人和投标人互动的结果,是一种双方利益的折中。

定价和标底不同,后者只是评标时的参考,而前者却是投标人必须接受的承诺,没有讨价还价的余地,这显然是很公平的!

 “暗箱操作”和“明投暗定”等腐败现象不能从根本上得到解决。因为,最终的中标人是由评审 委员会推荐并经招标人确定的。众所周知,只要有人为因素存在,人为的干预和暗箱操作、明投暗定等现象肯定是不可避免的!例如,评委的打分、推荐,投标人的定标等。因此,造成腐败以及其它不正之风的根源还是存在的,不可能绝对地避免或杜绝。很显然,这种评标方法是“以不能保证选择最优投标者的“代价”来换取确定中标者过程中的人为干预”。显然,那种“一定程度上防止了“暗箱操作”和“明投暗定”等腐败行为”的说法仅仅是理论上的东西。反过来,采用这种“办法”有可能促进了各种腐败现象的发生,这倒是值得深思的问题。

五、笔者的观点

笔者是站在反对一方的立场上的,基本观点是:

1、“办法”不可能从根本上解决“公平、公正”和“廉政建设”、“反腐创廉”等问题,也难一体现“诚 实信用”的原则,而这仅仅是一种良好的愿望。有些专家说,“这种打着“公平”、“公正”的旗号的方式,实质上是对招标人的极大不公平、不公正,也是对最优秀的投标人的极大不公平、不公正。

2、“办法”不适用于高速公路的机电工程等一些规模大、技术含量高、施工难度大、造价高的工程项 目,否则风险会是很大的。因为,要构建一个优良的大型高速公路机电工程项目,不光光是靠价格一个因素,而是要综合考虑包含诸如技术、管理、信誉、财力等多方面的因素,而这些综合因素恰恰不能是光靠“抽签”来决定的。

事实证明,虽然我国具有住建部办颁发的交通工程综合资质的系统集成商有近百家,但是,他们之间的综合实力相差很大,也有三六九等之分,真正做得好的、为业主所信任的不过几十家。他们都是靠精湛的施工技术、良好的项目管理水平、雄厚的经济实力以及较高的信誉而得到工程项目的,而恰恰不是靠的抽签和运气。

3、“办法”从某种意义上说是一种“创新”,或用时髦的话说也是“摸着石头过河”,想在工程项目 的招标投标工作中进行一次探索和试验,应当受到鼓励。但任何一种创新要有个底线,即不能超越现有的法律、法规。而“办法”恰恰就在某些条款上超越了法律、法规这个底线。因此,是不能接受的。

4、综上所述,采用“办法”对国家的政治、经济建设,对发包人和承包人都没有实质性的好处,而大 量的问题却暴露无遗,从根本上违背了“办法”提出者的初衷。因此,采用此法最终的结果是得不偿失的!

所以,笔者不赞成在工程项目的招标投标中采用“合理定价抽取评审法”来确定中标人,此法不可取。

基于关联规则的术语自动抽取研究 篇6

关键词:大数据 术语自动抽取 关联规则

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0020-06

Research of Automatic Term Extraction based on Association Rules

Abstract On the basis of sufficient literature review, the rationality and availability of automatic term extraction based on association rules are discussed by the theoretical and experimental methods. Theoretically, the basic principle of association rule, under the condition of full solution of the "sequence", can solve the problem of identification and extraction of the term. Practically, association rules method can extract correct terminology, and by comparing with the existing algorithm, association rules algorithm has more obvious advantages in difficulty of realization and occupied resources.

Key words big data; automatic term extraction; association rules

术语自动抽取是自然语言信息处理中的一项重要课题,在机器翻译、信息检索、词典编纂、文本分类和自动文摘等领域中有重要的作用。目前,人们已经从多个方面提出了各种方法,并且不断有新的方法出现。本文的目的是研究关联规则算法抽取术语的可行性及优势。

1 相关研究

国内外研究人员已经通过大量的研究工作取得了一系列的成果。归纳起来,术语自动提取的方法可以分为基于语言学知识的方法、基于统计学原理的方法以及基于语言学知识和统计学原理结合的方法。

1.1 基于语言学知识的自动抽取方法

基于语言学知识的方法,又称为基于规则的方法。所谓的“规则”指的是术语的词法模式、词形特征、语义信息等,利用这些知识可以从语料中抽取出术语或者识别术语在语料中的位置。基于语言学知识的术语自动抽取研究主要集中在上个世纪90年代,以Justeson & Katz 算法[1]为代表,该算法首先确定一系列语言性质的规则,然后用这些规则来识别文本中的术语。较为成熟的自动术语抽取系统有FASTR系统[2]、Termight系统[3]、Termino系统[4]、Nodalida系统[5]、Clarit系统[6]、Heid -96系统[7]、Lexter系统[8]和Naulleau-98系统[9]等。

1.2 统计学原理的抽取方法

基于统计学原理的抽取方法,主要利用统计学的原理计算出文本的各种统计信息,并利用统计结果选取术语。在线系统Term Extraction[10]通过简单统计基本词频来实现术语识别。Termextractor系统[11]也是如此,通过统计选取高频词为术语。RIDF算法[12]则不同,该算法关注低频词,在逆文档频率(IDF)的基础上,利用Poisson检验来确定术语;互信息方法[13]也是一种比较常用的术语抽取算法,它利用两个或两个以上的词之间的互信息度,来决定这些词汇是否组成一个复合词,即它们是否组成了一个术语。

1.3 基于语言学知识与统计学原理结合的抽取方法

目前,单纯运用语言学知识或者统计学原理的抽取方法并不多见,因为,基于语言学知识的方法和基于统计学的方法虽各有优势,但也有明显缺点。因此,有很多研究将基于语言学知识的方法与统计学原理的方法结合起来,力争扬长避短。例如,将统计学的策略融入到基于语言知识的抽取方法中去,将二者有效地结合,可以显著改善术语抽取系统的性能。这方面的代表方法是C-value/NC-value方法[14],该方法综合运用结合语言知识和统计信息来提取由多个词汇组成的术语。C-value/NC-value方法包括了两个步骤,首先,用C-value方法计算词汇的出现频率测量,找出多词候选术语,然后利用NC-value方法根据词的上下文信息,最终确定要抽取的术语。近年来,机器学习的方法[15]是这类基于语言学知识与统计学原理结合的抽取方法的一个重要发展方向,并取得了较好的抽取效果,它主要通过利用计算机对先前知识进行学习(训练),利用这些训练的经验来对后续的文本进行相应的抽取,得出准确术语。

2 关联规则方法及其抽取术语的可行性分析

2.1 关联规则的基本原理

韩家炜在《数据挖掘概念与技术》一书中给出了关联规则的确切定义[16]:

项的集合I={I1,I2,I3,…,Im },数据库中事务的集合T={t1,t2,t3,…,tn },每个事务ti则是项的集合,即 ti?哿I。若X→Y,满足X?奂I,Y?奂I,且X∩Y=?准,则X→Y为T中的关联规则。

关联规则中,支持度(Support)是指T中的事务同时包含X、Y的百分比:

Support(X→Y)=P(XY)

置信度(Confidence)是指T中事务已经包含X的情况下,包含Y的百分比:

Confidence(X→Y)=P(Y│X)=P(XY)/P(X)

若关联规则X→Y,同时满足支持度大于最小支持度Support(X→Y)>minSupport和置信度大于最小置信度Confidence(X→Y)>minConfidence,则认为关联规则X→Y是有趣的,即为强关联规则,其中,最小支持度和最小置信度的阈值均人为设定。关联规则挖掘就是在事务集合中挖掘强关联规则。

关联规则关注两个事项的共同出现,或者说在前驱出现的条件下,后继也出现,其经典应用是发现顾客的购买规律(如沃尔玛超市发现的“啤酒和纸尿裤”的购买规律),在图书馆中进行书目推荐[17]以及火灾分析[18]、交通事故处理[19]、森林病害虫预测[20]和肺肠合病医案用药规律研究[21]等。

2.2 术语构成基本原理

术语是特定领域中概念的语言表示,它可以是字、词语或者字母与数码符号。按照术语的构成,可将术语分为简单术语和复杂术语。简单术语,就是指仅由一个单词构成的术语。例如:“信息(information)”、“天(sky)”、“雨(rain)”等。这样的简单术语不能再分解为更小的具有独立含义的单元。复杂术语,则是指由两个或更多单词或语素按照一定的语法或语义结构组成的术语。例如:“信息检索(information retrieval)”、“复杂系统(complex system)”、“计算机系统理论(computer system theory)”等,其中“信息检索(information retrieval)”是由“信息(information)”和“检索(retrieval)”构成,“复杂系统(complex system)”是由“复杂(complex)”和“系统(system)”构成。

2.3 关联规则抽取术语的适用性

从以上关联规则的定义可以看出,事务组合(X→Y)满足最小的支持度和置信度,就可以称之为“规则”,这就说明关联规则中强调的是事项(即上述定义中的“项”In)的共同出现,或者说在前驱出现的条件下后继出现。

术语的基本构成方式与关联规则方法关注的内容具有一定的契合点,例如,如果我们把构成复杂术语的每个单词或语素(以下简称词汇)看作是“项”,那么,能共同构成一个复杂术语的若干个词汇(项)必定会同时出现,因而可以根据词汇之间的关联程度来达到提取复杂术语的目的。不过,与一般的关联规则发现中仅强调“共现”有所不同,构成复杂术语的词汇之间必须具备位置相邻性,而不是单纯的“共现”,也就是说,在经典的关联规则方法中引入项之间的邻接性限定,是关联规则应用于术语抽取的关键。

由此,术语抽取中的关联规则可以表述为:若词汇X与词汇Y依次邻接出现,且满足最小的支持度和最小的置信度,则可以认为词汇X和词汇Y按照XY的次序,组成复杂术语。其中,关键的两个参数即支持度和置信度可以这样理解,支持度体现了词汇邻接出现的频率,支持度高,说明词汇邻接组合出现的次数多,这样邻接出现的词汇往往就会组成一个术语。置信度是指在词汇X出现的条件下,词汇Y紧跟其后出现的概率,或者在词汇Y出现的条件下,词汇X恰好出现它前面的概率,置信度越高,说明词汇X和词汇Y的组成一个复杂术语的可能性越大。所以,可以这样给支持度和置信度下定义:

支持度为词汇X和词汇Y依次邻接出现的概率,即:

support=P(XY)=count(XY)/N

其中,N为用于术语抽取的文本的句数。

置信度为在词汇X出现的条件下,词汇Y紧跟X后出现的概率或词汇Y出现的条件下,词汇X和词汇Y依次邻接出现的概率,即

confidence1=P(Y│X)=P(XY)/P(X)

confidence2=P(X│Y)=P(XY)/P(Y)

如此,一个复杂术语的抽取将涉及到一个置信度的集合C,如果抽取者更重视召回率(Recall),置信度可取集合中的最大值(confidence=max(C)),并将它与预定的最小置信度比较,这样的取值强调在置信度集合C中“存在”比最小置信度大的值,能够保证召回率。

如果抽取者更重视准确率(Precision),置信度可取集合中的最小值(confidence=min(C)),并将它与预定的最小置信度比较,这样的取值强调在置信度集合C中的“所有”值均比最小置信度大,能够保证准确率。

如果抽取者的要求比较苛刻,需要召回率和准确率均较高,但由于召回率和准确率呈反比例关系,取最大值和最小值的方法均不可取,必须选取最大值和最小值之间的合理的数值,这个值可以为置信度集合的算数平均数、几何平均数以及中位数等。

这里给出的置信度的定义,与经典的关联规则不同,它不涉及“前驱”和“后继”的概念,在术语抽取中区分词汇的“前驱”和“后继”的意义不大。这里的置信度是指多个词汇组成新的复杂术语的可能性的大小。

3 实验结果及分析

3.1 实验基本条件与内容

实验的基本条件如表1所示。

3.2 用关联规则方法进行术语抽取的实验过程及结果

(1)基本结果展示

表2是利用关联规则FT-tree算法,对图书馆学情报学领域中英文文摘进行术语抽取所得到的部分术语。

(2)中英文对照实验

从理论上讲,中英文在利用关联规则进行抽取时仅有预处理部分有所不同。中文不像英文那样词与词之间存在着空格,因此在预处理时需要对中文进行分词。在中英文对照实验中,对图书馆与情报学领域的全部中英文数据进行了抽取,实验使用了49种最小支持度和最小置信度组合,得到了49种抽取结果,表3列出了这49种抽取结果中最高的F-measure值、召回率值或准确率值(最高项用阴影标识)及它们对应的支持度与置信度取值。

从表3中可以看出,在应用关联规则进行术语抽取时,可以通过合理配置参数(最小支持度和最小置信度)而得到满意的效果,而且,无论是对于中文文本,还是英文文本,都可以通过配置不同的最小支持度和最小置信度来获得较好的抽取效果。这说明,用关联规则方法进行术语抽取不存在语言依赖,如果不考虑不同语言在预处理阶段有较大的差别,关联规则方法可以用于抽取任何一种语言中的术语。

(3)数据量大小对照实验

分别以10条、100条、1000条图书馆学与情报学的英文数据作为抽取对象,每一种数据量都可以得到49种抽取结果,表4列出了这些结果中最高F-measure值、召回率值或准确率值(最高项用阴影标识)及它们对应的支持度与置信度取值。

从表4中可以看出,关联规则方法不适用对数据量过小的数据集进行抽取,相反,数据量越大,抽取效果越好,而且,对于不同数量的数据集,同样可以通过配置不同的参数来达到用户最满意的效果。

(4)不同学科数据对照实验

实验过程中,除图书馆与情报学数据之外,还增加了数学和地球科学的数据,分别对这三种学科的数据进行术语抽取,对每一个学科的抽取结果,做与表3或表4相同的统计分析,得到表5的结果。

从表5可以看出,用关联规则方法对各个学科的文本进行抽取,均能得到较好的结果,这说明,关联规则应用于术语抽取不存在学科依赖,即使用关联规则进行术语抽取不存在学科限制。在本实验中,由于不同的学科具有不同的数据量,同时,各个学科的术语结构、已知术语等有所区别,因而达到最佳抽取结果的参数配置(最小支持度和最小置信度)也有所不同,这再次证明,合理的参数配置是将关联规则应用于术语抽取的关键问题之一。

3.3 关联规则方法与其他方法的对比实验及结果

以图书馆学与情报学领域1000条英文文摘数据为处理对象,分别用互信息(基于统计学原理方法)、Justeson & Katz 算法(基于语言学知识方法)、C-value算法(基于语言学和统计学结合方法)以及关联规则的FT-tree算法进行术语抽取,以下是实验过程中算法的实现难度、算法所需资源以及算法抽取效果等三方面比较结果。

(1)算法实现难度比较

算法实现难度是算法实用性的标志之一。表6列出了实验中使用的四种算法的核心代码量、核心内容和人为参与情况。

从表6可以看出,关联规则有着较小的代码量,但各个算法的核心代码量不存在数量级上的明显差别。在需要加载的内容方面,C-value/NC-value和Justeson & Katz算法需要加载规则,这类算法需要很强的先验知识,关联规则和互信息方法则不需要过多的规则,仅在在预处理部分做停用词拆分和已知术语切分即可。值得一提的是,四种算法均必须人为控制参数,而且这些参数都是至关重要的。从总体上看,关联规则方法拥有较小的代码量,较简单的抽取步骤和少量必须的人为参与,因此,关联规则应用于术语抽取有着易于实现的优势。

(2)算法所需资源比较

运行算法时所需计算机资源的多少,是算法可用性的重要表现。计算机资源最重要的是时间和空间资源。以1000条图书馆学与情报学英文数据(大小为1028kb)为处理对象,统计各算法在术语抽取时的时间消耗以及最大内存占用量,结果如表7所示。

从表7中可以看出,FT-tree(关联规则)和互信息算法具有明显的运行时间优势,C-value/NC-value和Justeson & Katz算法除进行基本词频统计和参数控制外还需要进行规则的加载和筛选,因而时间消耗较大。在占用内存方面,FT-tree(关联规则)和互信息算法同样有明显优势,C-value/NC-value和Justeson & Katz算法所使用的规则库必需常驻内存,同时,为了满足规则匹配的需要,这两种算法还要求对每个词进行词性的标注等,所以其所需内存较大。这一结果表明,关联规则算法在算法的可用性即占用计算机资源方面具有一定优势。

(3)算法抽取效果比较

算法的抽取效果是评价算法优劣的重要方面。此部分实验,是中英文对照实验中的运行结果。算法的参数配置,关联规则选取本节数据量大小对照实验运行结果F-measure值最高的一组支持度和置信度,其他算法的参数配置来源于相应的参考文献[1,13,14]。算法的抽取效果从准确率、召回率和F-measure三个指标进行评价,结果如表8所示。

从表8中可以看出, Justeson & Katz算法的准确率要高于其他算法,C-value/NC-value算法和关联规则算法的准确率次之,互信息方法的准确率最低。而实验结果的召回率与准确率结果相反,Justeson & Katz算法的召回率最低,互信息方法的召回率达到了1。F-measure是综合评价准确率和召回率的指标,C-value/NC-value算法的F-measure值最高,其次为关联规则算法以及Justeson & Katz算法,互信息算法的F-measure值最低。综合来看,就1000条的数据量来讲,关联规则算法取得了不错的抽取效果,但还有一定的进步空间。

4 结语

本文讨论了基于关联规则的复杂术语抽取方法,从理论上看,关联规则的基本原理决定了它在充分解决“序”的条件下,可以很好的完成术语的识别和抽取问题。从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和占用资源方面具有非常明显的优势。而且,关联规则在术语抽取时没有学科和语言的依赖性,这一点,是基于规则的方法所不能比拟的。我们的下一步工作将进一步分析如何合理配置参数以及各种关联规则算法用于术语抽取时的特点,包括效率、效果和限制条件。

参考文献:

[1]Justeson J, Katz S. Technical Terminology: some Linguistic Properties and an Algorithm for Identification in Text [J].Natural Language Engineering,1995,1(1):9-27.

[2]Jacquemin C. Recycling Terms into a Partial Parser[C].Proceedings of NALP’94,1994:113-118.

[3]Dagan I, Church K. Termight: Identifying and Translating Technical Terminology[C]. 4th Conference on Applied Natural Language Processing,1994:34-40.

[4]Andy L. Automatic Recognition of Complex Terms: Problems and the TERMINO Solution [J]. In Terminology: Applications in Interdisciplinary Communication, 1994,1(1):147-170.

[5]Arppe A.Term Extraction from Unrestricted Text [C].10th Nordic Conference of Computational Linguistics,1995.

[6]Chengxiang Z, Xiang T, Frayling MN. Evaluation of Syntactic Phrase Index CLARIT[C].Proceedings of TREC

-5,1996.

[7]Ulrich H, Jauss S, Katja K. Term Extration with Standard Tools for Corpus Exploration: Experience from German[C].4th International Congress on Terminology and Knowledge Engieering,1996:139-150.

[8]Bourigault D, Mullier GI, Gros C. Lexter, A Natural Language Processing Tool for Terminology Extraction[C].7th EUEALEX International Congress on Lexicography,1996:771-779.

[9]Naulleau E. Profile-guided Terminology Extraction[C].the TKE’99: Terminology and Knowledge Engineering,1999:222-240.

[10]Herman E, Chomsky N. Term Extraction[EB/OL].[2014-07-02]. http://fivefilters.org/term-extraction/.

[11]Sclano F, Velardi P. Termextractor: a web application to learnthe shared terminology of emergentweb communities[C].the 3rd International Coference on Interoperability for Enterprise Software and Applications,2007.

[12]Church K,Gale W.Inverse Document Frequency (IDF): A Measure of Deviations from Poisson[C].the 3rd Workshop on Very Large Corpora. Cambridge, Massachusetts, USA,1995:121-130.

[13]Frantzi K, Ananiadou S. Extracting Nested Collocations[C]. Proceedings of the 16thinternational conference on computational linguistics,Coling 96,1996:41-46.

[14]Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms: the C-value/NC-value method [J].Internation Journal on Digital Libraries,2000,

3(2):115-130.

[15]辛欣,李涓子. 文本信息抽取平台的设计与实现——基于机器学习[A].第七届中文信息处理国际会议论文集[C].中国中文信息学会,2007:7.

[16]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2013.

[17]陈定权,朱维凤. 关联规则与图书馆书目推荐[J]. 情报理论与实践,2009,(6):81-84.

[18]徐晓楠,张晓珺,张伟等. 北京市火灾关联规则分析[J]. 安全与环境学报,2010,(3):151-156.

[19]罗五明,韩平阳. 车辆事故关联规则的提取[J]. 交通与计算机,2003,(2):17-19.

[20]任长伟,尚艳英,曹彦荣. 基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探[A].中国地理信息系统协会.第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C],2006:6.

[21]林炜烁,纪立金, 高思华. 基于关联规则的肺肠合病医案用药规律探索[J]. 世界中医药,2014,(4):401-404.

[22]Zhang Z, Iria J, Brewster C, Ciravegna F.Java Automatic Term Extraction toolkit[EB/OL]. [2017-07-02].https://jatetoolkit.googlecode.com/svn/trunk/2.0Alpha.

基于DOM的Web数据抽取研究 篇7

随着Internet的快速发展, Web上的数据信息急剧增加, 成为了世界上规模最大的公共数据资源。目前虽然搜索引擎为用户查找信息提供了简便的方法, 但它只是提高了Web文档的检索效率, 只能根据用户提交的关键词返回一组网址, 用户必须逐一浏览网址对应的Web页, 采用人工的方式定位最终信息, 现有的搜索引擎本身不能直接定位到所需的数据, 更谈不上为数据增加语义。XML技术出现之后, 因为其定义严格, 语法明确, 结构良好, 已经迅速成为互联网信息表示的事实标准, 通过把HTML文档转换成XHTML, 借助于DOM分析技术, 可以方便从中提取有用信息。

1 WEB数据抽取

Web信息抽取是一种从Web文档中抽取出有用信息的技术, 可以大大的缩短了对资料的整理时间, 为信息检索提供方便, 有利于现实文档的存档管理。我们可以利用行业信息模型和领域特征做主题搜索, 在收集信息时去除领域无关的信息, 在信息检索时实现更优秀的查询扩展, 从而提高搜索结果的查全率和查准率, 有效解决通用搜索系统给出的检索结果往往过于繁杂, 用户甄别信息价值的时间长问题。主题搜索利用逐渐成熟的文本分类技术, 去除用户不关心数据, 具有更多的针对性, 减少搜索、浏览时间中的比重, 使其满足人们对信息的精准化需求, 提高工作效率。

2 信息抽取方法发展情况

2.1 手工方法:

通过观察网页及其源代码, 由编程人员找出一些模式, 再根据这些模式编写程序抽取目标数据。然而这种方式无法抽取站点数量巨大的形式。手工方法由于设计难度大, 只能针对少量网页抽取, 目前基本不再使用。

2.2 包装器归纳:

即有监督学习方法, 是半自动的。从手工标注的网页或数据记录集中利用机器学习方法序列覆盖学习一组抽取规则。随后这些归则即被用于从具有类似格式的网页中抽取目标数据项。由于需要手工标注的工作, 不适合对大量站点抽取, 并且维护开销大。

2.3 自动抽取:

即无监督学习方法, 给定一张或数张网页, 这种方法自动从中寻找模式或语法, 以便进行数据抽取。自动化抽取的主要优点是它能处理大量站点的情况, 并且维护开销小, 主要缺点是因为系统不知道用户对什么感兴趣, 它可能抽取了大量不需要的数据。

3 DOM树的解析、扩展和Xpath使用

文件对象模型 (Document Object Model, 简称DOM) , 是W3C组织推荐的处理可扩展置标语言的标准编程接口。DOM可以先将XML文档解析成结点对象以元素、属性、实体和注释等节点形式存放信息的树形分级结构, 然后以节点树的形式在内存中, 由于树形数据结构应用较为广泛, 有很多成熟的算法可以用来遍历、搜索、编辑XML文档树, 同时借助于JDOM、DOM4J、SAX等技术类库可以更加方便的访问分档中的数据。

XPath是一种用于查询XML文档中的信息的语言, 是定位XML文档节点的声明式语言, 是W3CXSLT标准的主要组成部分。Xpath规范定义了允许到XML文档各个部分的路径说明的表达式语法和支持这些表达式的核心库基本函数。主要用于识别、选择和匹配XML文档中的各个组成部分, 包括元素、属性和文本内容等。XPath可以使用路径表达式方便地定位XML节点, 所以很适合于数据抽取。

4 Web信息抽取的概念及实现流程

Web信息抽取就是从Web页面中抽取目标信息的问题, 从网页中所包含的无结构或半结构的信息中识别用户感兴趣的数据, 并将其转化为结构和语义更为清晰的格式 (XML、关系数据、面向对象的数据等) 。基于XML技术抽取的流程为:首先, 从网络中获取HTML文档;然后, 经Tidy等工具处理后转换为符合XML格式的XHTML文档, 再使用XSL保存的数据抽取规则, 经XSLT处理抽取出XML, 中对原始的HTML文件加工清洗, 经过使用工具Tity对网页语法检查及纠错, 将HTML文档转换为结构完整的XHTML;第三, 使用HTMLParser等工具解析XML文档生成DOM树模式;最后, 利用Xpath和正则表达式信息抽取规则提取有价值的信息存储到数据库中以便使用。

5 DOM子树最大匹配求方法

设有两棵树T1=RA:和T2=RB:, RA, RB分别为两棵树的根, Ai和Bj分别是T1的第i个和T2的第j个第一层子树。设M (T1, T2) 为求T1, T2最大匹配的节点个数。当RA和RB相同时, 即两棵树的根部相同, T1和T2的最大匹配就是M (T1, T2) =M (, ) +1, 否则M (T1, T2) =0。其中有递推公式:M (, ) =max (m (, ) +M (Ak, Bn) , m (, ) , m (, ) ) , M (<>, <>) =0, M (s, <>) =M (<>, S) =0;计算出DOM结点的最大匹配值, 就可以通过选择合适的阀值, 找出具有相同结构模式的DOM子树, 这些子树一般为网页表格中的行…或列表项

  • 就是需要集中抽取的数据区域。

    6 结束语

    Web数据抽取技术目前还处在不断发展之中, 是Web数据挖掘研究领域中的难题和热点。本文论述了基于DOM技术查找网页中的数据区域方法, 维护开销小, 具有很强的实用价值。值得注意的是还存在着改进的地方, 比如抽取了一部分用户不感兴趣的数据, 这可以尝试使用领域分词过滤掉不需要的信息加以完善。

摘要:文章阐述了利用XML中的DOM树将Web数据结构分析, 转化为结构化的XML数据, 使用Xpath实现数据匹配查找数据, 通过正则表达式实现数据抽取。同时, 对目前数据抽取技术做一些简单探讨研究。

关键词:数据抽取,XML数据,DOM树

参考文献

[1]蔚晓娟.基于DOM的XML解析与应用[J].计算机技术与发展, 2007.17 (4) .

[2]李雪竹.一种基于XML的Web数据抽取的实现[J].科学技术与工程, 2008 (9) .

数据抽取论文 篇8

表1是某K单位政务系统A业务数据表代表,经分析,发现该表没有表示数据更新的标志字段。规范设计的数据表应如表2所示,是表1增加数据增量标志而得到的。这样,在表2中插入一条数据,从入库时间和更新标志将容易判断那条数据是新增的。

从业务需求表1,将无法直接判断哪些是数据新增的。

2 基于游标和主键的业务局部比对的抽取策略

分析传统数据增量抽取策略,研究适合于业务系统A业务数据表的数据增量抽取策略。

2.1 业务数据局部比对。

分析传统抽取策略。鉴于业务系统A的业务数据表都是不规范的数据表,没有数据增量标志。分析传统的时间戳、日志表、全表比对、全表删除插入四种数据增量抽取策略,都不是很合适。对于时间戳方式,虽然业务数据表中没有时间戳标志,但可考虑在应用系统中建立触发器[4,5],但是这样将对业务系统将产生影响;对于日志表方式,业务系统采用的是Sybase,没有像Oracle Logminer[6]等第三方软件对业务系统进行日志分析;对于全表比对和全表删除插入都是适应用于数据量比较小的情况。

分析业务数据表,业务系统A均有于时间区段有关的字段“汇交年月”。因此可采用“局部数据比对”,即将数据表限制在特定的时间段进行比对。如限制系统执行日之前的一个月以内。这样将确保所有的增量数据均包含在内,以达到增量抽取的目的。

2.2 基于游标的主键比对。

虽然采用业务数据局部比对解决了数据增量抽取,但是局部比对需要对源表与目标表一个月内的数据进行比较。比较的数据量在几十万到一百万,比较大。本文采用基于游标的主键比对大大提高性能。下面描述基于游标的主键比对是怎样进行的。

表3是一张不规范的业务数据表,而表4是和表3对应的经规范化业务数据表,新增了删除标志、更新标志、插入标志及时间戳四个字段以标识新增数据。

第一次全量抽取时,即将表3中所有的数据抽取到表4中。由于是全量抽取,所以对于目标表而言,全部的数据都应该是插入的。并假设这次全量抽取的时间是2006-10-10 10:00。

全量抽取后,以后作增量抽取,即只抽取源表中变化的数据,包括删除、更新、插入的数据。

假设三天后,表3中的业务数据由于数据更新变成表5中的数据。从表5中,可以看到主键为101和106的数据被物理删除了、新增了主键为108的一条数据及主键为102数据的字段2的值C被更新成了Z。

筛选源表和目标表数据,为了提高速度,限制游标只能读,并且只能向前。基于游标主键比对的思想为源表和目标表的主键进行依次比较:(1)当它们的主键不等时,主键小的一端的游标每次递增一个单位,再比较;(2)当它们的主键相等时,源表和目标表的游标同时递增一个单位;(3)当在源表中的主键被比较完而目标表还有主键时,表明目标表中这些主键的数据都是在源表中被删除的;4)当目标表中的主键被比较完而源表还有主键时,表明源表中这些主键的数据都是新增的。

现描述游标主键比对是怎样进行的,下面1-6是基于游标主键比对的先后次序。其中,源表表示表5中的数据,目标表表示表6中的数据。

2.2.1 源表的主键102>目标表的主键101,表示源表中主键为101的数据被删除了,所以在目标表中主键为101的数据的删除标志标为1,同时修改时间戳。

2.2.2 源表的游标不增加,目标表的游标加1,此时,源表的主键102与目标表的主键102相等。比较关键字段,如字段1、字段2。

2.2.3 源表和目标表的游标都递增1,此时,源表和目标表的主键都为103。比较关键字段。

2.2.4 重复第3步。

2.2.5 当递增到,源表的主键107>目标表的主键106时,和步骤1相同,即表明源表中主键为106的数据被删除了。

2.2.6 当在源表中的主键递增到108时,目标表的主键恰好被比较完了,表明源表中的主键为108的数据是新增的。

上述1-6的详细比较过程请参看图1,图中总共有8个小图,小图的左边表示表5的数据,右边表示表6的数据;也就是小图左边是源表数据,右边是目标表数据;每个小图的下方有个数字,表示比较的顺序;图中点阵长方体表示该主键的记录已经删除、网格长方体表示数据更新、斜线长方体表示新增数据;实线的双箭头表示游标已经比较过的,虚线的双箭头表示游标正在比对。

3 策略效率分析

比较局部比对与游标主键比对的时间复杂度[7]。局部比对的比较原理如图2所示,图中左边为源表的主键,右边为目标表的主键,则在源表中的任一主键i都要与目标表比较,容易算出时间复杂度为O(n2)。

主键游标比对如图3所示,对在源表中的任一主键i分析及目标表中的任一主键j进行分析。i和j的比较有三种情况,分别是i=j、i>j和i<j。

3.1 当i=j时。则比较次数为1。

3.2 当i>j时。如图3中左边所示,首先i和j比较,假设i之前有ki个数据被删除,则目标表的游标就要递增ki次(从图中的1递增到5)。因为假设源表没删除数据时,源表和目标表是一样的。所以这种情况下要比较ki+1次。

3.3 当i<j时。如图3中右边所示,首先i和j比较,假设j之前有kj个数据被删除,则源表中的游标就要递增kj次(从图中的1递增到5),但此时对于源表游标而言,每个游标都只比较了1次。所以这种情况下是比较1次。

综合上面1、2、3种情况,总的比较次数为:

其中,a是所有的源表中被删除的主键的个数,这个是常数。所以时间复杂度为O(n),比局部比对少了一个数量级。

参考文献

[1]敬铮,丛治琪.Oracle 8i数据库开发与专业应用[M].北京:国防工业出版社,2002.

[2]细说SYBASE数据库日志[EB/OL].http://sybase.itpub.net/post/20962/146528/.

[3]分析Oracle数据库日志文件[Z].

[4]DML触发器[EB/OL].http://msdn2.microsoft.com/zh-cn/library/ms191524.aspx.

[5]Microsoft Corporation.数据库创建、数据仓库与优化[M].郭东青,李佳,刘彬彬,译.北京:清华大学出版社,2001.

[6]Oracle LogMiner终结版[EB/OL].http://www.chinaeea.com/Html/oracle/132444545.html.

数据抽取论文 篇9

传统的信息检索系统都为用户提供一个页面级的检索结果, 用户需要打开每一个具体的结果页面来查找自己所需要的信息, 这浪费了用户的大量时间, 也给用户造成了诸多的不便, 因为用户需要的只是页面中的某些数据对象ODATA (Data Object) [1], 而不是整个Web文档, 为给用户提供高质量的服务, 学者们进行了深入的研究。近年来的研究成果表明, 为用户提供对象级的搜索服务是一个不错的解决方案。要从目前的页面级信息检索系统转到对象级信息检索系统, 就必须先将ODATA从半结构化的Web文档中抽取出来形成一个对象集。在此对象集的基础上就可以为用户提供对象级的信息检索服务。那么如何快速有效地从半结构化的Web文档中抽取ODATA就成了一个亟待解决的问题。本文就此问题进行了研究, 提出了一种自动抽取网页中ODATA的方法。

1相关工作

数据抽取技术大体上可分为手式方式、半自动方式和全自动方式。手工方式的如文献[5]。文献[5]介绍的包装器需要一个规则配置文件, 其中记录了抽取规则。该文件需要人工书写, 由于手工方式的抽取技术费时费力, 且难以维护, 所以它的应用受到了极大的限制。为解决此问题, 有些学者引入了本体和机器学习的方法, 如启发式规则、聚类、归纳学习等, 从而实现了半自动、全自动的数据抽取。文献[2,3]对这些方法进行了详细的描述。这些方法都有一些不足的地方, 如文献[2]所述的方法需要预定义一个能够囊括所有数据对象及其关系和约束条件的对象关系模型;文献[3]中的方法则只是抽出了对象的部分而非整体。从另一个角度来讲, 数据抽取技术可分为基于网页内容的方法和基于网页结构的方法。文献[4]采用基于DOM树的方法从网页中抽取正文信息, 其侧重点在于网页的内容。文献[6]也采用基于DOM树的方法从网页中抽取所取的信息, 但只使用网页的结构, 与内容无关。据我们观察发现, 以前的各种数据抽取方法都只侧重于利用Web文档的结构或内容之一, 而没有把两者很好地结合起来, 因此都受到了种种的限制, 如不能很好地扩展到其它领域, 准确率不是很高等。我们的方法则对二者并重, 充分地利用了网页的结构和内容, 最终达到了独立于领域、独立于数据的表示方式这个要求。实验证明召回率和准确率也非常高。

2数据抽取方法

首先对待抽取的页面进行预处理 (页面清洗) , 将其中的无用信息尽可能多地去掉, 以减少后面工作的计算量。接着将页面的剩余部分解析成一棵DOM树, 对其中各子树的相似度进行计算。两树之间的相似度可分为结构相似度和内容相似度。首先要对各子树间的结构相似度进行计算, 结构相似度高则说明这两棵子树可能代表两个数据对象, 可将其作为候选数据对象加入到候选数据对象集CDOS (Candidate Data Object Set) 中。然后对候选数据对象集中的各子树计算内容相似度, 内容相似度高则认为是无用信息, 将其剔除, 剩下的则为数据对象。

2.1页面预处理

由于只需要网页中的部分内容, 其它的无用信息会增加计算量, 所以有必要运用一些启发式规则去除这些无用的信息。启发式规则定义如下:

启发式规则1 与网页内容无关的信息是无用信息, 应将其过滤掉。

所需的信息都在网页的主体中, 即在<body></body>之间, 所以首先应将<body></body>之间的信息拿出来, 这样像位于<head></head>之间的内容和元数据就可以过滤掉。进一步, css样式信息、注释信息和脚本信息也与网页的内容无关, 也应将其过滤掉。这样就能大大降低后面工作的计算量。

经过上面这一步的处理, 网页的剩余部分就都与内容有关了, 当然这里面还包含一些无用信息, 比如导航信息和广告等。此时将剩余部分表示成一棵DOM树, 这棵树的某些子树就代表数据对象, 其它的就是无用信息。为便于后文叙述, 给出如下定义:

定义1 若一棵树共有n层, 各层的结点数分别为X1, X2, …, Xn;w=max{X1, X2, …, Xn}, 则称该树的宽度为w

经我们观察发现, 在正常情况下, 无用信息在DOM树中所对应的子树与数据对象所对应的子树在结构上有着明显的区别。第一, 数据对象所对应子树的深度适中, 不会特别高也不会特别低, 且宽度比较大。而无用信息所对应子树的高度与其相比则显得特别高或特别低, 且宽度比较小。第二, 采用同一种表示形式的数据对象在结构上是相似的, 但无用信息在结构上往往是不相似的。在此先就这种正常的情况进行处理, 后文将对特殊的情况进行处理。根据第一方面的区别, 设计如下启发式规则2。

启发式规则2 给定阈值ζlζhζw, 且ζl<ζh。深度低于ζl或高于ζh的子树代表无用信息, 应将其剪掉。宽度小于ζw的子树也代表无用信息, 也将其剪掉。

阈值ζlζhζw可以通过机器学习的方法获得、修正。由于结点所在的层次不同, 对于以深层次的结点为根的子树, 它们的深度、宽度会自然地变小, 所以ζlζhζw的值应随结点所在层次的变化而进行修正。

例如图1所示, 子树body->div->img的深度很低, 所以是无用信息, 应将其剪掉。结点table下的子树tr->td->hr的宽度小至1, 也是无用信息, 应剪掉。再者, 对于含有多个ODATA的网页, ODATA可能由一些标签或文字隔开, 则这些ODATA所对应的子树间将有一些无用的分隔符子树 (类似于图1中table下的子树tr->td->hr) , 这些子树相对于数据对象子树的宽度会小很多, 同样也可以使用启发式规则2将这些分隔符子树剪掉。

2.2结构相似度

由于ODATA在多数情况下都是由程序或模板产生的, 所以除了属性个数不同之处, 它们的结构特征几乎完全相同, 且在DOM树中有着共同的父结点。因此它们对应的子树在结构上也应该相似, 只是宽度略有不同而已。从子树的深度、宽度、结点总数和结点分布情况来看, 深度在大多数情况下是完全相等的, 宽度和结点总数则随数据对象属性个数的多少而有所差别, 但差别不会太大。结点的分布则遵循相同的规律。为了便于叙述给出序偶对的定义:

定义2 序偶对是n1、n2两个结点的组合, 记为d (n1, n2) , 其中n1是树T1中的结点, n2是树T2中在位置上与n1相对应的结点。若树T2中没有与n1相对应的结点, 则可设一虚结点m0, n1与之形成一个虚序偶对d (n1, m0) 。

由于我们的方法要求独立于领域, 而网页的具体内容都是与领域相关的, 所以我们的方法就不能不恰当地或者过多地使用网页内容。在计算结构相似度这一步我们则完全避免了使用网页内容。

在此基础上我们就可以给出结构相似度的定义如下:

定义3 两棵树的结构相似度是它们的宽度、深度、总结点数、所有序偶对中结点大小的平均相似度、各层结点数比值平均值的函数。

定义4 若树T1、T2中有序偶对 (x, y) , x的孩子个数为c1, y的孩子个数为c2, 且c1<c2, 则xy的大小相似度为x/y;若c1>c2, 则xy的大小相似度为y/x;虚序偶对的大小相似度为0。

在此我们将序偶对中结点大小的相似度记为Sd (x, y) 。

假设树T1的宽度、深度和总结点分别为w1、h1、t1, 树T2的宽度、深度和总结点数分别为w2、h2、t2, 则这两棵树的结构相似度为:

SS (T1, T2) =ζ1*Sw+ζ2*Sh+ζ3*Sn+ζ4*R1+ζ5*R2 (1)

其中ζ1、ζ2、ζ3、ζ4、ζ5分别为各部分的权重系数, 它们的和为1, 本文将其都设为1/5。

Sw=min (w1, w2) /max (w1, w2)

Sh=min (h1, h2) /max (h1, h2)

Sn=min (n1, n2) /max (n1, n2)

R1为树T1、T2中所有序偶对结点大小相似度的均值, 即:

R1=Average (Sd (x, y) )

R2为两树各层结点个数比值的均值。若树THi层 (任意层) 的结点个数分别为TiHi, 则:

R2=Average[min (Τi, Ηi) max (Τi, Ηi) ]

我们可以使用式 (1) 来计算结点的各子树之间的结构相似度。在此, 为了衡量两树在结构上是否相似, 还需要设置一个阈值w0来作为衡量标准。当两树的结构相似度大于w0时就认为这两棵树在结构上是相似的, 它们可能代表数据对象, 我们就将其加入一个集合。加入的集合称为候选数据对象集, 在后面的步骤中将对该集合处理。若两树的结构相似度小于w0则就认为这两棵子树代表无用信息, 将其忽略即可。我们设计GetCDOS和GetDO两个算法来识别获取候选数据对象集。

算法1GetCDOS算法

算法2GetDO算法

2.3内容相似度

上文已提到在正常情况下, 无用信息在DOM树中所对应的子树与数据对象所对应的子树在结构上有着明显的区别。在这种情况下, 经过页面预处理和结构相似度的计算这两个步骤而得到的子树基本上都代表数据对象。但是在特殊的情况下, 无用信息的结构和数据对象的结构可能也很相似, 此时无用信息就会被误判为数据对象而被加入到候选数据对象集中。在本小节中, 通过计算候选数据对象间的内容相似度就可以将这些误判的无用信息剔除掉。

由于相同的无用信息往往在多个页面上都存在, 而相同的数据对象在多个页面上都存在的机率相对小许多。所以相同的无用信息在候选数据集中存在的冗余比较多, 而重复出现的数据对象冗余则小得可以忽略。据此特点就可以找出被误判为数据对象的无用信息并将其剔除。下面就借助于文献[1]给出内容相似度的形式化定义。

文献[1]将两结点之间的内容相似度记为:

Sim (n1, n2) =s (t1, t2) +wi×sa (a1, a2) (2)

其中wi为权重系数, 取值为1。假设结点n1、n2的内容分别为t1、t2, s (t1, t2) 则为t1、t2的相似度, 定义如下:

sa (a1, a2) 则表示t1和t2中共享属性的百分比。本文借用公式 (2) 来计算两结点的内容相近度, 且要求n1和n2构成一个序偶对d (n1, n2) 。若该序偶对中含有虚结点, 则该序偶对的内容相似度为0。在此基础上给出内容相似度的形式化定义如下:

定义5 树T1、T2的内容相似度为树T1、T2中所有结点序偶对的内容相似度的平均值, 记为:

SC (Τ1, Τ2) =1n (n1, n2) Sim (n1, n2) (4)

其中 (n1, n2) 是树T1、T2的结点序偶对, n为结点序偶对的个数。

接下来就可以使用公式 (4) 来计算候选数据对象集中各子树的内容相似度了。由于不同数据对象的属性和属性值往往是不同的, 所以与之对应的子树的内容相似度很低。而无用信息由于会在多个页面反复出现, 所以一般情况下被误判的同一个无用信息在候选数据集中会存在多个拷贝, 它们的内容相似度一定很高, 多数为100%, 这样就可以将其找出并予以剔除。当然数据对象也可能在不同的页面中多次出现, 此时数据对象也会被删除, 但这种情况从整体上讲机率较小, 被误删的数据对象较少, 可以接受。经过这一步, 最终保留在候选数据集中的子树所代表的数据就是数据对象了, 将其保存即可。

3实验及评价分析

为了了解本文所述方法的工作性能, 我们进行了多次的实验。目前正在开发一个垂直搜索引擎DWSearch, 已经爬取了多个网站的相关页面。实验就在这个平台上进行。

3.1测试数据集

由于我们的方法是独立于领域和数据对象的表示形式的, 所以使用的测试数据必须来自于不同的领域, 且其中的数据对象可以具有多种表示形式。另一方面, 由于我们的方法是以同一页面中数据对象的结构相似度作为基础的, 所以要求每个页面中每种表示形式的对象个数不能少于两个。我们共选取了四个领域:图书、笔记本、手机和mp3。采用的数据源如表1所示。

从表1中的每个网站都选出10个页面, 这8个网站总共80个页面就构成了测试数据集。这些页面有的只有一种表示形式, 有的具有多种表示形式。

3.2评价方法及实验结果分析

传统的数据抽取技术性能指标为召回率和准确率。召回率为实际抽出的数据对象 (不包括误抽出的无用信息) 个数占页面中实际存在的数据对象个数的百分比;准确率是指在抽出的这些对象中, 真正的数据对象个数占对象总个数的百分比。本文也采用这两个指标来对我们的抽取方法进行评价。实验结果如表2所示。

实验结果表明, 本文所述方法的召回率和准确率都很高, 但也存在一些缺陷。据分析, 结果出现数据对象丢失的现象有两个原因, 一是在页面预处理这个阶段数据对象被破坏了, 在后面的阶段也就无法正确地将其抽取出来;二是有些数据对象在多个页面中都出现过, 这样经过计算结构相似度后同一个数据对象就会在候选数据对象集中存在多个拷贝, 在计算内容相似度时会发现它们的内容相似度非常高, 就被认为是无用信息而被剔除了。另外有些无用信息被误判为数据对象而保留下来了。这是因为来源页面中存在着分类信息、推荐信息、客户浏览记录等, 这些信息的结构很相似, 并且有些在不同的页面中内容也不一样, 这跟我们方法中数据对象的特征一样, 所以最终被误判为数据对象保留下来了。

4结束语

本文给出了一种Web数据对象自动抽取方法。该方法与传统的抽取方法不同, 不是只利用页面的结构或内容, 而是将二者都充分地利用起来。该方法独立于领域也独立于ODATA的表示形式, 不管ODATA的表示形式是表格、列表、文本段, 或是其它形式, 或是混合模式。只要对应于每一种形式的ODATA多于两个, 该方法都可以自动地将其抽取出来, 并且事先无需对这些网页的布局等信息进行说明, 也无需手工设置抽取规则。

目前我们的方法还不能进行跨页面的抽取, 这也是未来的工作之一。下一步的工作是对本文所述方法进行完善, 降低计算复杂度, 使其能够很好地学习抽取规则和对象模型, 并将语义Web的相关技术引进来, 根据数据对象的语义联系进行抽取。

摘要:在信息检索领域, 数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树, 然后将结构相似的子树抽取出来作为候选数据对象, 接着再计算候选数据对象的内容相似度, 内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来, 召回率和准确率都比较高, 且该方法独立于领域, 独立于Web数据对象的表示形式, 较好地解决了Web数据对象的抽取问题。

关键词:数据抽取,信息检索,Web挖掘,知识获取

参考文献

[1]Shiren Ye, Tat Sengchua.Learning Object Models from SemistructuredWeb Documents[J].IEEE Transactions on Knowledge And Data Engi-neering, 2006, 18:334-335.

[2]Embley D W, Campbell D M, Smith R D, et al.Proc of the 7th Interna-tional Conference on Information and Knowledge Management[C].Be-thesda, USA, 1998.

[3]Etaioni O, Cafarell M.AAAI[C].San Jose, California, 2004:25-29.

[4]孙承杰, 关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报, 2004 (5) :17-22.

[5]Hammer J, McHugh J.Proceeding of the First East-European Symposi-um on Advance in Databases and Information Systems[C].1997:1-8.

数据抽取论文 篇10

伴随着互联网及应用普及,智能电视以及互联网电视得到了飞速的发展。相较于传统的电视,互联网电视可以使用户拥有更好的个性化服务;相对于电脑、手机等手持终端设备,互联网电视可以给用户更好的视听享受。然而网上信息量以指数级增长,将海量的数据抽取并集成可以极大的提高用户的使用效率。

Web页面通常按照一定的模板及规律展现出来。基于脚本生成网页结构的相似性可以使信息抽取系统使用简单的规则从网页中抽取信息,这些规则称为包装器(Wrapper)[1,2,3]。目前,从Web页面抽取信息的方法主要是基于规则,这些规则一般集成到包装器中。现有的Web包装器从数据定位方法上可以分为三大类[4,5,6,7],第一类是将HTML页面看成纯粹的文本流,第二类是直接采用某种高级的脚本语言,第三类是将HTML文档转换成一棵DOM树。目前绝大多数的包装器描述语言如W4F[8]、WDL[9]等,将HTML文档转换为一棵DOM树的方法[10]。W4F等语言采用绝对下标表达式来表示DOM树中的一个节点。WDL语言在W4F绝对下标表达式的基础上提出了相对下标的数据定位方法。文献[4]提出了交叉定位法,结合了相对坐标与绝对坐标的方法,提高了抽取的精确度。然而,视频网站较一般的新闻网站,结构更加清晰,信息的抽取对定位要求更加精确,在抽取过程中往往不需要构造整个页面的DOM树,只需将页面进行分块,只对需要进行抽取的模块进行定位、抽取。Web数据具有动态性和异构性的特点,一个轻微的变化都将引起包装器的中断或数据错误的采集,导致包装器中的抽取规则失效而无法正常抽取数据。而且,无论是W4F还是WDL都需要将HTML页面解析成一棵完整的DOM树,这需要耗费相对较大的计算资源;而交叉定位法耗时较高,随着网页结构的变化,误判率较高。

因此,为了提高数据抽取的精率、召回率和效率,本文提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息。

2 交叉定位法的分析

HTML文档由结构化的数据和非结构化的数据混合构成,可以将HTML文档转化成一棵DOM树,将有用的信息存储在DOM树的节点当中。交叉定位法是将HTML转化成DOM树后,根据定义的不同坐标系、原点、坐标,将DOM树映射在各个坐标系中。交叉定位法采用了绝对坐标系、绝对特征坐标系、相对坐标系、相对特征坐标系相结合的方法。如果存在某个坐标P,抽取错误,那么可以利用该点在其他坐标系中的坐标修正坐标P。然而,交叉定位法采用坐标系较多,花费时间较长;且页面变化频率较高,绝对坐标系、绝对特征坐标系定位效果较差,易造成交叉定位法误判;当Web页面微调,只是某些属性的顺序发生变化,包装器虽能够正常运行,但当交叉定位时,用坐标系定位出错的坐标系数目大于正确的数目时,会导致抽取正确数据的坐标系置信度下降,从而导致误判。

为说明方便,采用图1所示HTML页面源代码进行辅助说明。将HTML页面转化为DOM树,如图2所示。在绝对坐标系和相对坐标系中,路径表达式只以标签名称作为路径的唯一标识符,例如,主演信息的绝对路径为[PATH XPATH=“/html/body/div[0]/span[1]/a[List]”],相对路径为[PATH START-PATH=“<div id=‘content’>”XPATH=“span[1]/a[List]”]。在绝对特征坐标系以及相对特征坐标系中,路径表达式结合稳定的特征作为路径的标识符,例如,主演信息的绝对特征路径为[PATH XPATH=“/html/body/div[0]/span[1]/[span=‘主演’]”],相对特征路径为[PATH START-PATH=“<div id=‘content’>”XPATH=“span[1]/[span=‘主演’]”]。在HTML页面中有些信息的顺序有时会发生微小调整,如图3所示,只是主演与导演的顺序发生了改变,这种调整能使包装器依然正常的运行,但是绝对坐标系和相对坐标系的定位发生了错误,经过多坐标交叉定位时,由于定位错误的坐标系数目等于定位正确的坐标系数目,会造成误判,抽取的数据发生严重的错误。

3 基于相对特征坐标系的交叉定位包装器的生成算法

3.1 最小包装器生成算法

本文采用自底向上的逻辑归纳思想。设D(D1,D2,…,Dn)表示HTML页面集合,x表示包装器的路径表达式XPATH。最小包装器路径唯一,定义x最小包装器满足条件:Min(XPATH)=x0,且没有其他的XPATH表达式,x满足:x=x0,并且Precision(x0)=Precisionn(x),Recall(x0)=Recall(x)。生成最小包装器的目的是为了满足各抽取元素路径最短的情况下同时使查全率和查准率尽可能为1。

假设x是一个XPATH路径表达式的包装器,如其查全率和查准率都为1,但并不满足最小包装器的条件,那么x并不是最小包装器,我们需要找到最小包装器。最小包装器可以在抽取数据的过程中减少由于页面变动而引起的抽取数据错误和中断,并且可以减少抽取的时间。基于元素文本特征的包装器生成算法如下所述:

该算法输入是一系列有标签的Web页面集合,输出是基于元素文本特征坐标系的原点以及使用XPATH路径表达式表示的包装器集合ResultSet,即各抽取节点的坐标。

算法第1行为初始化,基于文本特征坐标系的坐标原点START-PATH为第一个可定位到待抽取元素的文本,Point为中间指针,初始化为第一个可定位到待抽取元素的文本,ResultSet为NULL;第2行为判断START-PATH是否为Web页面的最开始标签,若为html节点,则遍历到顶点了,结束遍历;第3行计算根据当前路径精确度和召回率是否为1,若是则遍历到最小包装器,否则执行7行-8行;第11行返回XPATH路径表达式表示的包装器集合ResultSet,以及获得到START-PATH。将START-PATH作为坐标系原点,ResultSet作为最小包装器。

本算法按照最坏情况计算时间复杂度。本算法主要耗时在计算坐标系的坐标原点上。步骤1的时间复杂度为时间常量,即为0(1)。假设HTML转化为DOM树,DOM树的深度为n,则步骤2在最坏的情况下的时间复杂度为O(n)。在每次循环过程中,步骤3-步骤9的时间复杂度为0(1),因此该算法的时间复杂度为0(1)+0(n),即为O(n)。因此,采用本算法每种坐标系的时间复杂度为O(n),假设采用的坐标系种数为k,则采用改进的交叉定位法的时间复杂度为kO(n),算法复杂度呈线性增长。

其他几种方法在构造DOM树的过程中,考虑在最差情况下的时间复杂度,绝对路径方法的时间复杂度为O(n);相对路径方法的时间复杂度为O(n);绝对特征路径方法的时间复杂度为O(n);相对特征路径方法的时间复杂度为O(n);交叉定位方法的时间复杂度分别为40(n)。本文提出的算法在时间复杂度上并未明显增长。

3.2 基于内部特征的相对特征坐标系的构造方法

本文参考待抽取信息块的内部特征,采用基于内部特征的相对特征坐标系构造交叉定位的包装器。在视频网站中,包含一些稳定的元素文本,而元素中包含一些稳定的属性特征,因此,本文构造的基于内部特征的相对特征坐标系主要依据HTML的2个方面的内部特征:①元素文本特征;②元素属性特征。由两个方面的内部特征分别构造了基于元素文本特征的坐标系和基于元素属性特征的坐标系。

3.2.1 基于元素文本特征的坐标系

在抽取视频网站中视频的元数据信息时,直接定位不到有用的信息,需要借助定位得到待抽取信息节点的父节点、子节点或兄弟节点,从而定位得到有用信息的节点。一个HTML信息块由元素构成,而元素由子元素、文本或两者结合的混合式内容构成。分析多家视频网站,可以得出视频的元数据信息定位方式主要分为3种方式:

基于元素文本特征的坐标系,利用第一个可以定位到的待抽取元数据的文本(父节点元素的文本、子节点元素的文本、兄弟结点元素的文本)作为坐标原点,根据此坐标原点寻找其他待抽取元素的路径即坐标,如果可以定位得到其他元素的坐标,则此元素可以作为原点;否则,将此元素的父节点作为坐标原点,寻找其他元素的坐标,如此向上递归直至找到一个节点作为坐标原点,以此坐标原点可以定位得到所有元素的坐标,即将该元素作为坐标原点,每个待抽取的元素的路径作为坐标。

3.2.2 基于元素属性特征的坐标系

元素的标签中往往包含一些属性,有些属性名称或是属性值是唯一的,可以识别唯一的元素。

根据分析,可以看到,能够唯一识别元素的属性特征分为以下三种:

(1)标签中具有属性名称为“id”的属性。例如,<PATH START-STR=<div id=“content”>/>。

(2)同一抽取页面中待抽取模块中的属性具有唯一的名称。例如,<PATH START-STR=<div id=“content”>XPATH=span[propertyName=“style”]/>,可以用于定位到第一个属性名称为style的标签。

(3)同一抽取页面里待抽取模块中的属性名称不唯一,但属性值唯一;且同一类待抽取页面,不同的页面中同一元素的属性名称相同,属性值也相同。例如,在图1源码的span标签中,有一个稳定特征property=“v:genre”,那么<PATH START-STR=<div id=“content”>XPATH=span[@property=“v:genre”]/>,可以用于定位到这个第一个property属性值为v:genre的span标签。

选取的属性可以最大程度上的区分同一抽取模块中的不同的元素,同时也尽可能的识别不同网页中待抽取模块中相同的元素。利用基于元素文本特征坐标系生成的坐标原点的元素所在的子树作为划分的待抽取的模块,在待抽取模块中进行训练上述三种属性特征。利用基于元素文本特征坐标系生成的坐标原点作为基于元素属性特征坐标系的原点,利用上述三种特征的属性定位到待抽取的元素的路径作为坐标值。

3.3 基于相对特征坐标系包装器的生成算法

根据元素文本特征构造的坐标系,在进行抽取视频元数据的过程中,由于页面结构的变化,使某些待抽取信息的子节点、父节点、兄弟节点元素的缺失,或文本的改变导致定位不到待抽取信息等原因引起的抽取错误。因此,结合基于元素属性特征的坐标系,共同定位待抽取的信息。

基于相对特征坐标系包装器的生成流程图如图4所示。将待抽取的HTML页面分为两个部分:训练集与测试集。

将训练集部分的页面分别训练生成两种坐标系:①根据3.1节提出的最小包装生成器的算法,定位基本元素文本特征坐标系的坐标原点;根据坐标原点以及各元素的路径计算各元素坐标;生成基于元素文本特征的坐标系;②根据坐标原点确定待抽取模块所在DOM树中的子树;在子树中训练3.2.2节提出的元素属性;计算各元素在基于属性坐标系中的坐标;生成基于元素属性特征的坐标系。

利用测试集,测试根据训练集生成的包装器。分别采用两种坐标系对视频元数据进行抽取;在抽取过程中,若基于元素文本特征的坐标系抽取成功,则采用该坐标系抽取的信息,否则采用基于元素属性特征的坐标系抽取的元数据信息。

4 实验结果及分析

本文选取了8家视频网站进行数据抽取,如表1所示。从各家网站中分别选取50个页面作为训练集训练包装器;通过3个月观察,各个网站结构发生部分调整,其中,土豆、优酷、爱奇艺等网站有过一次较大的变化,分别选取其中部分网页作为测试集进行抽取实验,选取各个网站的网页数目如表2所示,选取待抽取的元数据信息包括:视频名称、集数、导演、演员、类型、地区、上映时间、剧情描述。

本实验环境:LINUX redhat5.3,JAVA语言,JDK_1.6。本文主要从抽取精度、召回率和效率上进行实验。

计算抽取效率的过程时,只计算定位、抽取的时长,不包含存储、过滤的时间。见以下公式。

其中,a表示为抽取正确并判断正确的元素数;b表示抽取正确但判断错误的元素数;c表示抽取错误但误断为正确结果的元素数;d表示抽取错误并能够判断抽取结果为错误的元素数,如表3所示。

根据表4、表5结合实际抽取结果分析得出:①采用四种单独的坐标系,抽取的精度比较低;②采用四种单独的坐标系,不需要采用投票的方式判定结果,所以没有将抽取正确的结果误断为错误的结果,召回率为1;③交叉定位法在精度上有了很大的改进,但是以大大降低召回率为代价;④改进的交叉定位法在以降低较小的召回率为前提下很大程度上提高了抽取的召回率。

根据表6可以看出:①采用单种方法使用的时间较小,但也不排除某些页面在抽取过程中失败引起的时间较少的原因;②交叉定位方法是综合上述4种方法,用时较长;③改进的交叉定位方法相较于交叉定位方法在时间上大大缩短。实验结果如表4-表6所示,交叉定位法和改进交叉定位法如上述3个表中的最后两行结果所示。

5 结束语

Web信息抽取是当今互联网及应用和服务的普及过程中的一项重要技术。由于Web数据动态性和异构性的特点,网页结构也经常发生改变,一个轻微的变化都将引起包装器的中断或数据错误的采集,导致包装器中的抽取规则失效而无法正常抽取数据。本文分析了当前的数据定位常用的方法,分析了其优点与不足。本文对交叉定位方法进行了改进,通过实验表明,此方法抽取数据受网站微调影响较小,可以大大提高了抽取的准确性,并且可以极大的缩短抽取数据的时间。

摘要:针对包装器在抽取Web网站的过程中抽取精度差、耗时长以及鲁棒性差等问题,提出了一种改进的基于内部特征、自底向上归纳总结的数据交叉定位方法,该方法建立了基于元素文本特征和基于元素属性特征的坐标系,将两种坐标系中的坐标值进行交叉验证获取待抽取的元数据信息。实验结果表明:该方法抽取数据相较于绝对路径方法、相对路径方法、绝对特征路径方法、相对特征路径方法以及交叉定位方法,在召回率略降2.2%的情况下,精确度提高了31.1%,并且相较于交叉定位法,抽取数据的时间提高了17.9秒。

关键词:Web信息抽取,交叉定位,包装器,内部特征,DOM树

参考文献

[1]Nilesh Dalvi,Ravi Kumar,Mohamed Soliman.Aulomatic Wrappers for Large Scale Web Extraction[J].In VLDB,2011,4(4):219-230

[2]Parameswaran A,Dalvi N,Garcia-Molina H,et al.Optimal schemes for robust web extraction[J].Proceedings of the VLDB Conference.VLDB Endowment,2011,4(11):980-991

[3]N.Kushmerick,D.Weld and R.Doorenbos.Wrapper induction for information extraction[C]//Proceedings of the 15th international conference on Artificial Intelligence.1997.729-735

[4]ChenTian,HuangMin.Data Cross-Locating in Web Information Extraction[J].Journal of South China University of Technology(Natural Science Edition).2008,36(5):43-47,52

[5]Chang Chiahui,Lui Shaochen.IEPAD:information extraction based on pattern discovery[C]//Proceedings of the Tenth International Conference on World Wide Web.Hong Kong:ACM,2001.681-688

[6]Chang Chiahui,Lui Shaochen,Wu Yenchin.Applying pattern mining to Web information extraction[C]//Proceedings of the 5th Pacific Asia Conference on Knowledge Discovery and Data Mining.Hong Kong:Springer,2001.4-16

[7]Kistlera T,Marais H.WebL:a programming language for the Web[J].Computer Networks and IS-DNS Systems,1998,30(l):259-270

[8]Sahuget A,Azayant F.Building light-weight wrappers for legacy Web data sources using W4F[C]//Proceedings of the 25th International Conference on Very Large Data Bases.Edinburgh:Morgan Kaufmann,1999.738,741

[9]Sun Jianling,Cat Junjie,Dong Jinxiang.WDI:a general XML-based Web wrapper description anguage[J].Journal of Zhejiang University:Engineering Science,2003,37(1):24-31

数据抽取论文 篇11

半结构数据是介于结构化数据(如关系数据库、面向对象数据库)和非结构化数据(如声音文件、图像文件等)之间的数据形式。

Web资源中数据量的不断增长,导致产生了大量的半结构数据。这些数据的主要特点是结构隐含、不规则或不完整。例如:对于一个有关“房产”信息的Web页面集合,虽然每一个页面描述的房产信息不同,但它们都包含了相似的信息(房源、开发商、地点、面积、价格等)。这些信息均隐含在不同的Web页面中,通常需要通过分析工具(如文本分类器等)才能获得。由于没有严格的结构限制,有的页面则可能会多出若干信息。另外,每条信息的表达方式也可能不尽相同。例如房源、开发商的介绍,有的可能用表格形式表示,而有的则可能使用文字描述来表示。

从传统的关系数据库来看,半结构数据不规则的原因是缺少预先定义的、固定的、且独立于数据的模式框架[1]。由于半结构数据是自描述数据,数据中可能存在结构,也可能不存在结构,但结构与数据间的界限模糊,新数据的加入也没有预先定义的结构约束,所以这种方式导致了大量的有用信息无法让用户获取,导致召回率和准确率降低。

目前半结构化数据形式化描述和抽取方法主要有基于本体的Web信息抽取方法[5],该方法可以对某一领域的抽取达到比较满意的效果,但存在本体构建工作量大,不已更新等缺陷;基于线性概念图的自动抽取本体概念方法[6],建立关系数据表到线性概念图的映射关系,利用线性图作为中介来实现概念的抽取,但其要求数据必须是结构化类型,不适用于半结构化数据。另外,在数据抽取中,有些研究者采用了产生式分类算法,有些采用了判定分类算法。而无论是产生式分类算法还是判定分类算法,都有局限性。产生式分类算法需要已知训练数据的分布形式,被认为精度不高;而判定式分类算法需要足够的训练数据,也需要人工标注数据,是一件费时费力的工作,尤其是针对汉语数据的标注工作,可利用的标注数据是有限的。

综合上述考虑,本文结合以上方法的优点,提出了一种新的半结构数据形式化描述方法和信息获取方法,从一定程度提高了召回率和准确率,具有很好的可行性和有效性。

1 半结构化数据形式化描述

在网络信息空间中研究半结构数据的集成,首先需要对半结构化数据进行核心内容的抽取,解决半结构数据的一体化表示和描述问题,在此基础上才能有效依据不同的体系和应用目的对数据进行合理有效地组织、管理和利用。网络信息空间中存在大量的数据资源,如何对来自各种数据源的信息及其语义内容行一体化描述,如何对存在于各个数据源间的系统异构、结构异构和语义异构问题的解决,是半结构集成中一个亟待解决的关键问题[2,3]。它们是进行数据集成、提供高质量数据共享服务的基础。

在本文中,针对半结构数据的结构隐含和不规则特点,引入领域本体的概念,为半结构化数据提供统一的形式化描述方式,并对领域本体给出了新的定义。

领域本体可以对领域中的知识进行有效地组织(领域知识是指在某一领域内的概念、概念之间的相互关系以及概念的约束集合。),使知识得到更好地共享与重用。根据所研究领域的应用和需要,我们给出了领域本体的概念描述,这个概念模型包括概念和概念之间的关系、约束、层次分类以及陈述如何推导或者计算机推出新概念和新概念之间关系的规则。在本文中,领域本体的重要特征体现为“面向计算机”和“正常人不必费力获取”。面向计算机是指领域本体可以用计算机来处理。正常人不必费力获取是指人们在处理信息时,能够根据自己的日常生活积累的词汇快速获取所需的信息或者添加新概念到领域本体中。

综上所说,世界是由若干领域所构成,而领域本体包括领域概念集和领域知识集两大部分。

1.1 领域概念集(Di)的形式化

领域概念集是对该领域的知识进行充分理解,抽象出概念、属性、关系等关键的词汇,采用形式化方法描述。

领域概念集由领域对象集合和对象间关系集合构成。

定义1 设D表示所有领域集合,D={D1,D2,…,Dk},Di(1<=i<=k)代表某个领域。

定义2Di=<Oi,Roi>,Oi(1<=i<=k)代表Di中所有概念的集合,Roi代表Oi中概念之间关系的集合;

定义3 设O表示所有领域中概念的集合,Ro表示O中概念间关系的集合,则:

O=O1∪O2∪O3∪…∪Ok

Ro=Ro1∪Ro2∪Ro3 ∪…∪Rok

D=<O,Ro>

1.2 领域知识集(Dk)的形式化

领域知识集就是用于存放知识的实体,是结构化、易操作、易利用、全面、有组织的知识集,是针对某些特定领域问题求解的需要。目前,人们将知识集划分为三个层次,如图1所示。

领域知识集以领域概念集为基础,构建多个领域概念集合成后所产生的新事实和规则(关系如图2所示),以解决原来单个领域概念集无法解决的问题,同时领域知识集可以消除语义孤岛,实现知识共享和重用。例如领域Dn表示有关学校信息的概念集,领域Dm表示有关房产信息的概念集,如果某个用户想通过Web提供的信息作参考,租住或者购买学校附近的住房,就需要建立两个领域之间的关系,以解决复杂问题的查询,为用户提供方便,实现信息重用。

建立多个领域概念集之间的关系,是以领域概念集的概念为基础,采用多层次的描述方法,实现多领域之间知识的联系。

定义4 设x,y为领域概念集合DiDj的两个元素,H表示两个元素之间存在的关系,则形式化描述为:

xy(Di(x)∧Dj(y))→H(x,y)

总之,半结构化数据的形式化描述是实现“面向计算机”的前提,表明世界由对象和关系所构成。而且领域中术语的抽取是建立领域本体的第一步,对概念词汇的语义进行统一定义,以保证人们对它的理解一致,使得推理过程明确化。

2 领域本体构建

领域本体由领域专家完成概念化,并建立概念之间的关系,产生领域的形式化描述,也是计算机理解的基础,同时也为计算机自动添加概念提供依据。

2.1 领域概念的自动抽取

领域概念的抽取就是将问题求解所需的概念从外部领域源或Web资源中转换成计算机可以理解分析的过程,并以特定的方式存储这些概念。领域概念的抽取主要包括以下任务:

1) 对已有的概念进行理解、选择、抽取、汇集、分类和组织,转换成特定的形式;

2) 通过某种学习和推理机制,产生新概念;

3) 检查并消除概念的矛盾性和冗余性,保持概念的一致性和完整性约束。

对于已有概念的抽取,采用人工获取方式,过程如图3所示。例如由OCLC首倡的关于出版社方面定义的伯林核心(Dublin Core)元数据,包括提名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、权限Rights、关联Relation、覆盖范围Coverage等十五个元素,目前已成为IETF RFC2413、ISO15836、CEN/ CWA13874、Z39.85、澳大利亚、丹麦、芬兰、英国等国家、国际标准。

对于不断涌现的新概念,则采用全自动的方式抽取,实现流程如图4所示。

在图4中,机器学习是最重要的部分,也是领域概念获取的核心。它首先以《知网》的语义原为基础进行分词,然后根据上下文特征、语法结构规则以及统计信息的权值,采用相似度算法计算相似性进行词义消岐,加大概念抽取的准确性,消除冗余。如图5所示。

(1) 词性标注。其主要功能是以《知网》语义原为基础,针对Web资源中的原始文本进行切分和词性标注。

(2) 关键词抽取。选择文本中具有代表性的概念以确定文本所属领域。

(3) 检查关键词在领域概念集中的相似度;如果存在与同一概念相似度均在85%以上,则表明其为同义词关系;如果相似度大于50%且小于85%,则需要根据其所对应的同义词进行二次匹配,确定是否添加到领域概念集;如果相似度均小于50%,则作为一个新概念,添加到领域概念集。

2.2 领域知识集的关系自动构建

在不同领域概念集中,针对关系集合的构建,提出了一种基于《知网》的词义相似度和相关度计算算法(如图6所示),使用概念之间的义原同现关系、义原关联关系和义原同位关系评价术语的语义相似性,建立概念之间的关系。关系主要有16种,包括:同义关系、反义关系、部分-整体关系、属性-宿主关系、材料-成品关系、工具-事件关系、值-属性关系、事件-角色关系等。

限于篇幅,下面仅给出词语相似度算法的计算步骤:

(1) 分别选取概念1和概念2的义原表达式dict1和dict2。

(2) 根据dict1和dict2来判断con1和con2的词性。

如果这两个概念中词性不同,比如一个为虚词概念,一个为实词概念,相似度Sim记为0;

如果两个概念都是实词,转到(3);

如果两个概念都是虚词,转到(4);

(3) 两个实词概念相似度的计算:

a) 从dict1和dict2中分别取出第一个义原,计算它们的相似度Sim1。

b) 把dict1和dict2中剩下的义原分别的分成三组:独立义原组、关系义原组和符号义原组。

c) 计算独立义原组的相似度Sim2。

d) 计算关系义原组的相似度Sim3。

e) 计算符号义原组的相似度Sim4。

f) 由公式,

Sim(Con1,Con2)=i=14βij=1iSimj(Con1,Con2)

得到两个实词的相似度Sim。其中,βi (1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。反映了从Sim1到Sim4对于总体相似度所起到的作用依次递减。

(4) 两个虚词之间概念相似度的计算:

a) 分别取出dict1和dict2中的第一个义原;

b) 如果一个是句法义原,一个是关系义原,Sim记为0;

c) 如果两个都是句法义原或者关系义原,查《知网》中义原表dict,得到这两个义原在义原层次体系中的路径长度d,是一个正整数;

d) 由公式:

Sim(semdict1,semdict2)=αd+α

计算出这两个概念的相似度。其中α是一个可调节的参数。α的含义是:当两个义原的语义距离为0.5时的路径距离值。

3 实例验证及分析

3.1 实验环境及实例验证

文章的实验数据来自于Web资源上选取的图书领域的文档,将随机抽取本领域的资源来测试本文所提出的半结构化数据形式化描述方法的正确性。

在开发环境中,采用了Protégé首先构建了图书领域模型,从术语关系中抽取了概念的上下文特征、义原以及概念关系形特征,在测试环境中需要根据所抽取的领域信息来完善领域概念集,即在领域概念集中自动添加这部分的概念以及概念之间的关系,限于篇幅,下面仅给出部分领域关系构建的描述过程。

图书领域概念集的描述:

D1=< (书籍,书名,作者,出版社,价格),(E(书籍,书名),P(书籍,作者),P(书籍,出版社),P(书籍,价格))>

其中E表示等同关系,P表示属性关系。

执行步骤描述如下:

Step1 分析Web资源,完善领域概念集中的概念;

本文针对某购物网站的书籍信息进行了抽取,得到如下部分概念:定价,当当价,出版时间。

Step2计算概念之间的相似性的相关性,确定概念之间的关系。结合本文所给的词语相似度算法,获取到如下信息:

E(价格,定价),P(书籍,定价),P(书籍,当当价),P(书籍,出版时间)

Step3 利用本文所给出的相似度算法,去除掉冗余概念,完善领域概念集。具体描述如下:

D1=<(书籍,书名,作者,出版社,价格,当当价,出版时间),(E(书籍,书名),E(价格,定价),P(书籍,作者),P(书籍,出版社),P(书籍,价格)P(书籍,定价),P(书籍,当当价),P(书籍,出版时间))>

3.2 实验分析

本文提取了某购物网站的部分数据来验证算法的有效性。首先采用人工方式选取了实验数据中的概念和关系,即实际存在的概念(PAllConcept)1500个,实际存在的关系(PAllRaship)2000个;然后针对这些概念和关系,分别采用本文提出的半结构化数据抽取方法、基于自然语言处理方式的信息抽取方法、基于本体方式的信息抽取方法和基于包装器归纳方式的信息抽取方法来获取得到的概念和关系,即实际抽取的概念(EPConcept)和实际抽取的关系(EPRship);最后针对所抽取的内容进行分析比较,获取正确的抽取概念(EAConcept)和正确的抽取关系(EARship)。具体数据如表1所示。

为了验证半结构数据形式化描述的有效性和算法的正确性,本文针对以上人工方式抽取的数据,也分别采用了基于自然语言处理方式的信息抽取、基于本体方式的信息抽取和基于包装器归纳方式的信息抽取进行了算法验证,获取的数据如下描述。

本文采用召回率和准确率作为衡量方法的指标,定义如下:

准确率=

召回率=

其中:召回率和准确率的取值范围为{0,1}。

抽出的正确信息数 = EAConcept + EARship;

所有抽取的信息数 = EPConcept + EPRship;

所有正确的信息数= PAllConcept+PAllRaship。

实验结果表明(见表2所示),本文所描述的方法能够达到比较不错的抽取效果,其准确率和召回率都比基于自然语言处理方式的信息抽取和基于本体方式的信息抽取要高。本文抽取方式在结合基于自然语言处理方式信息抽取和基于本体方式的信息抽取的优点中,添加了上下文特征、语法结构规则以及统计信息的权值,既能基本正确抽取半结构数据的概念,也能建立它们之间的关系,为半结构化数据集成奠定了基础。

4 结 语

半结构化数据的描述及数据抽取是半结构化数据集成、检索的前提,它已经成为当前的研究热点,国内外学者也做了很多有益尝试,比如基于自然语言处理方式的信息抽取、基于包装器归纳方式的信息抽取、基于本体方式的信息抽取等,这些方法从某些方面都取得了一定的突破,但其抽取结果都一般。而本文提出的半结构数据描述方式以及数据抽取方式结合了上下文特征、语法结构和统计信息的权值,增大了信息抽取量,即提高了召回率和准确率。但是由于本文所提方式的实现过程都是基于Web文档的数据描述、数据抽取和文档的存储,降低了数据抽取的速度,这需要在今后的研究中做出更进一步的研究。

摘要:半结构化数据的形式化描述和信息抽取是解决用户查询和信息获取的核心问题。随着信息资源的多样化和快速膨胀,现有的描述和抽取方法存在召回率和查准率低等缺陷。为解决此问题,提出一种新的半结构数据形式化描述方法,重新定义领域概念集和领域知识集,并在此基础上给出领域概念集、领域知识集的构建过程,包括领域概念的自动抽取、领域知识集关系自动构建和相似度算法描述。实验结果表明,所提出的描述方法比现有方法具有更高召回率和查准率,具有很好的可行性和有效性。

关键词:半结构数据,形式化描述,领域概念集,领域知识集,数据抽取

参考文献

[1]孙霞,王小凤,董乐红,等.术语关系自动抽取方法研究[J].计算机科学,2010,37(2):189-191,215.

[2]Hassan A Sleiman,Rafael Corchuelo.A Reference Architecture to De-vise Web Information Extractors[J].Business Information Processing,2012,112(3,6):235-248.

[3]Qian Mo,Yi-hong Chen.Ontology-Based Web Information Extraction[J].Computer and Information Science,2012,288:118-126.

[4]Liu Jiagang,Chen Shan,He Lingya.A Web Information Extractor Basedon the Combination of Ontology and DOM[J].New Technology of Li-brary and Information Service,2009(5).

[5]Jia Sai,Qiao Hong.Ontology-Based Web Information Extraction andRealization of Its Ontology Construction[J].Research on Library Sci-ence,2011,9:31-35.

上一篇:课程开发成果下一篇:校园满意度