信息、思维、WEB(共3篇)
信息、思维、WEB 篇1
随着Internet的迅猛发展, Web已经成为一个巨大的信息源。曾几何时, 人们开始习惯于使用网络搜索引擎来查找自己所需要的有用信息, 但随着Web信息数量的快速增长, 各网络搜索引擎所能覆盖的范围比例却逐渐减小, 因此如何从Web中抽取出所需要的信息, 就成为了互联网信息搜索研究领域中一个重要的研究课题。
(一) 什么是web信息抽取
Web信息抽取是指从Web页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据, 并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程[1]。
(二) Web信息抽取技术涉及的内容
因特网提供了一个巨大的信息源。这种信息源往往是半结构化的, 并且中间夹杂着结构化和自由文本。网上的信息还是动态的, 包含超链接, 都以不同的形式出现。
1. Web信息抽取的内容一般可以分为几个方面:
命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法, 另一类是基于概念模型的多记录信息抽取方法。
Web信息抽取工作主要包装器 (Wrapper) 来完成[1]。包装器是一种软件过程, 这个过程使用已经定义好的信息抽取规则, 将网络中Web页面的信息数据抽取出来, 转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。
2. 抽取过程一般包括以下几个步骤[2]:
(1) 将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正, 为下一步标记信息做准备。
(2) 用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式, 存放在模式库中供用户选用。
(3) 对文本进行合理的词法、句法及语义分析, 通常包括识别特定的名词短语和动词短语。
(4) 使用模式匹配方法识别指定的信息模式的各个部分。
(5) 进行上下文分析和推理, 确定信息的最终形式。
(6) 将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
(三) Web信息抽取方法的分类
把所有网页都归入半结构化文本是不恰当的。若能通过识别分隔符或信息点顺序等固定的格式信息正确抽取出来, 那么该网页是结构化的。半结构化的网页则可能包含缺失的属性, 或一个属性有多个值, 或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性, 则该网页是非结构化的。
网页的结构化程度总是取决于用户想要抽取的属性是什么。通常机器产生的网页是非常结构化的, 手工编写的则结构化程度差些, 当然有很多例外。
按照Web信息抽取对象的结构化程度, 大体上可以分为三种类型:结构化文本;自由文本;半结构化文本。
1. 根据Web信息抽取对象划分, 可以分为三种类型:
(1) 从自由格式的文本中抽取出所需要的信息内容。自由文本的抽取技术可分为三类:基于自然语言处理 (NPL) 的方式;基于规则的方式;基于统计学习的方式。
(2) 从半结构化的文本中, 抽取出所需要的信息内容。
(3) 从结构化的文本中抽取出所需要的信息内容。
2. 根据自动化程度可以分为
人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类。
3. 根据现有Web信息抽取系统和模型实现原理的不同, 分为以下几类:
(1) 基于归纳学习的信息抽取[2]。通过对若干个待抽取实例网页进行结构特征学习, 归纳出抽取规则, 然后使用抽取规则自动分析待抽取信息在网页中的结构特征并实现信息抽取。采用这种原理的典型的系统有STALKER, SOHTMEALY, WIEN。
(2) 基于HMM (Hidden Markov Model) 的信息抽取[3,4]。是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动机, 由于HMM有成熟的学习算法和坚实的统计基础, 所以在信息抽取中是一种成功的模型。
(3) 基于特征模式匹配的信息抽取[2]。通过大量学习实例, 归纳学习出待抽取信息的语法结构模式, 并根据这些模式从待抽取网页中抽取出相匹配的信息, 适用于复杂结构信息的抽取。
(4) 基于网页结构特征分析的信息抽取[2]。将Web文档转换成反映HTML文件层次结构的解析树, 通过自动或半自动的方式产生抽取规则。采用该类技术的典型系统有LIXTO等。
(5) 基于Ontology的Web信息抽取。本体的构建是这类抽取的基础与核心, 如何构造出良好的面向应用领域的Ontology对提高信息抽取的精确度有直接的影响。该方法主要是利用对数据本身的描述信息实现抽取, 对网页结构依赖较少。由Brigham Yong University信息抽取小组开发的信息抽取工具中采用了这种方式, 另外QUIXOTE也采用了这种方式。
(6) 基于自然语言处理 (Natural Language Processing, NLP) 。这类信息抽取主要适用于源文档中包含大量文本的情况 (特别针对于合乎文法的文本) , 在一定程度上借鉴了自然语言处理技术, 利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型的系统有RAPIER, SRV, WNISK。
(7) 基于Web查询的信息抽取。将Web信息抽取转化为使用标准的Web查询语言对Web文档的查询, 具有通用性。采用该类技术的典型的系统有:Web-OQL以及自主开发的原型系统PQAgent。
(四) 国内外Web信息抽取技术的研究和应用
上世纪80年代以来, 国内外许多大学、公司和研究机构对信息抽取技术展开了有计划的、长期系统的研究与应用工作, 取得了一些成果并有许多相关的应用。也使信息抽取研究蓬勃开展起来, 这主要有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加, 另一个是“消息理解研讨会” (MUC, Message Understanding Conference) 从1987年开始到1998年共举行了七届会议对该领域的关注和推动。MUC由美国国防高级研究计划委员会 (DARPA, the Defense Advanced Research Projects Agency) 资助, 其显著特点并不是会议本身, 而在于对信息抽取系统的评测。近些年来, 信息抽取技术的研究与应用更为活跃。
在研究方面, 主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取 (Wrapper) 以及对时间信息的处理等等。
在应用方面, 信息抽取应用的领域更加广泛, 除自成系统以外, 还往往与其他文档处理技术结合建立功能强大的信息服务系统。
至今, 已经有不少以信息抽取技术产品为主的公司出现, 比较著名的有Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。
目前, 除了强烈的应用需求外, 正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所 (NIST) 组织的自动内容抽取 (ACE, Automatic Content Extraction) 评测会议。这项评测从1999年7月开始酝酿, 2000年12月正式开始启动, 从2000年到2007年已经举办过好几次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源 (普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本) 的语言文本的自动处理, 研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容, 即对新闻语料中实体、关系、事件的识别与描述。与MUC相比, 目前的ACE评测不针对某个具体的领域或场景, 采用基于漏报 (标准答案中有而系统输出中没有) 和误报 (标准答案中没有而系统输出中有) 为基础的一套评价体系, 还对系统跨文档处理 (Cross-document processing) 能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。
国内对中文信息提取系统的研究起步较晚, 还集中在命名实体识别方面, 遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6和MUC-7上, 增加了中文系统的评测项目, 国立台湾大学 (National Taiwan University) 和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测, 测试了中文命名实体 (人名、地名、时间、事件等名词性短语) 的识别, 取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作, 并不能真正进行中文信息提取。另外, 北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨, 承担了两个有关中文信息提取项目的工作, 即自然科学基金项目“中文信息提取技术研究”和IBM——北大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题, 为开发实用的信息提取技术提供理论指导, 并具体探讨信息提取系统设计的各个环节。
(五) 研究的热点和趋势
从目前的研究和应用情况看, 信息抽取系统的性能和可移植性仍然是制约web信息抽取技术广泛应用的两个主要瓶颈。信息抽取的准确率, 对不同语言和不同类别的文本的适应性还有待提高, 在自然语言处理中的核心问题仍未完全解决, 而且与国外相比, 我们在信息抽取系统的研究上仍存在很大的差距。
因此, 以下问题将是今后Web信息抽取技术研究的热点问题:
1. 如何提高Web信息抽取系统抽取范围的全面性。
2. 如何简化学习过程, 提高自动化程度。
3. 如何提高系统对新网页的适应性, 增强系统对Web信息抽取的适应性。
4. 如何加强对已有抽取规则的归纳, 提高系统的抽取效率和准确性。
5. Web上的信息和网页结构处于不断的更新和变化中, 因此应如何感知Web信息和结构的更新变化。
6. 目前的Web信息抽取工具一般都是通过学习之后可以
对结构相似的一类网页进行抽取, 因此应如何判断结构相似, 如何提高系统的性能、可移植性的设计以及适应多语种的能力。
7. 在中文Web信息抽取系统的研究方面, 应如何借鉴国外
比较成熟的系统构建技术, 并结合汉语的特殊性, 充分利用一些基础的汉语研究成果来构建高效、精确的中文Web信息抽取系统。
(六) 结束语
Web信息抽取是目前最活跃的研究领域之一, 特别是经过最近十几年的发展, Web信息抽取作为一种能帮助人们在海量信息中迅速找到所需信息的技术越来越受到重视。尽管目前该领域研究已经取得了一定的进展, 但仍然存在一些问题有待解决。相信随着领域专家对Web信息抽取领域的研究的逐渐深入, 难题逐渐被解决, 越来越多的好技术应用到该领域, Web信息抽取技术必将得到更大的发展和更广泛的应用。
参考文献
[1]刘迁, 焦慧, 贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究, 2007, 24 (7) :6-9.
[2]柳佳刚, 刘高嵩, 贺令亚, 陈山.基于Web的信息抽取技术现状与发展[J].福建电脑, 2007 (7) :48-49.
[3]Ping Zhong;Jinlin Chen;Cook T.;“Web Information Extraction Using Generalized Hidden Markov Model”, Hot Topics in Web Systems and Technologies, 2006.HOTWEB'06.1st IEEE Workshop on13-14Nov.2006Page (s) :1-8
[4]Ping Zhong;Jinlin Chen;“A Generalized Hidden Markov Model Approach for Web Information Extraction”Web Intelligence, 2006.WI2006.IEEE/WIC/ACM International Conference on18-22Dec.2006Page (s) :709-718.
WEB信息检索综述 篇2
关键词:Web信息检索,检索工具,检索技巧
1概述
因特网上丰富多彩的Web信息资源给人们带来了巨大的便利, 每天上网浏览新闻, 收发邮件, 检索相关资料等几乎成了人们每日必需的一道工作餐。不论是哪种类型的网络信息, 一般情况下, 我们不知道其在网上存储的地址, 也无法记住那么多内容的地址。另外, 其他一些媒体如图像、音频和视频也大量存在。Web是一个非常大的、非结构化且无处不在的数据库, 这就需要有效的工具来管理、检索和从数据库中筛选信息。为了有效地查询和利用网上信息, 人们开发了各种Web信息检索系统, 即搜索引擎 (Search Engines) 。它是一类能自动搜索, 组织Web信息资源, 并提供检索服务的信息服务系统。
Web信息检索的基本形式有三种。第一种搜索引擎, 它标引一部分网络文献作为一个全文数据库;第二种是Web目录, 它按主题来对所选的Web文献进行分类;第三种还没有完全成熟, 却利用超链接结构来检索网络。
1.1实现Web信息检索的条件。实现Web信息检索必须具备信息资源, 信息处理和信息传输这三大条件。其中, 信息资源指对各种信息进行分类, 汇总, 加工, 组织, 按照客观事物的相互关联建立起来的有序结构;信息处理指利用计算机信息进行的一系列筛选, 反馈, 匹配, 计算等加工操作;而信息传输指人和计算机借助通信网络进行的信息传递和交流。因此, 信息经济学专家提出:“信息网络是现代通信网, 计算机网和信息资源网的综合, 现代通信, 电子计算机, 信息资源 (信息内容) 三者互相渗透, 连接, 联合而形成的全方位的服务网络。这三种网络按不同途径发展, 在信息资源开发, 利用和共享这个方向下趋向三网合一”。
1.2面临的主要难题。主要有两类:数据本身的问题和用户及其检索系统交互的问题。a.数据的分布性:数据分布在许多计算机和平台上。网络互联的有效带宽及其可靠性经常发生变化。b.不稳定数据的大量存在:WEB资源经常更新, 导致要处理大量空链接和重新定位的问题。c.非结构和冗余数据:由于网络的共享性, 许多网络资非常相似或有大量的镜像存在。不同的资源有着不同的概念模型, 缺乏一致性。d.异构数据:全球文献中有各种语种, 如拉丁语系和汉语等, 而且不能简单地通过软件来解决。
2 Web信息资源检索方法与搜索技术
2.1Web信息资源检索方法。2.1.1直接访问信息源搜索的途径。通常的做法是通过IP地址直接打开网站或网页, 一般是在已知所查询的信息在某一具体的网站或网页时使用, 不过这种方法需要记忆大量的域名, 网址。一种更简便的方法是安装网络实名插件, 可在浏览器的地址栏或搜索引擎网站中, 直接输入中英文网站名称, 如, 3721网络实名, 可输入网站, 企事业单位, 商标, 产品等关键词的中英文名称, 就能直达对应的网站或网页。2.1.2利用网络检索工具。可使用综合性搜索引擎, 如雅虎、搜狐、百度、网易、Google等一些大的门户网站, 在查询过程一般提供分类查询和关键词查询。有些网站还提供了很多网址的链接, 根据需要点击, 可直接进入网站当需要检索某些专业性或特定信息时, 可使用专题搜索引擎。例如专业地图搜索的工具有图吧 (http://www.mapbar.com/) , 图行天下 (http://www.go2map.com) 。2.1.3构造检索提问式的要点。在检索中, 有两个最为关键的步骤, 一是概括检索提问, 选择精确的检索词;二是正确构造检索提问式, 达到检出目的。a.灵活运用各种运算符号。要考虑检索提问中的关键词是否有同义词, 近义词, 以及词形的各种变化, 活运用各种运算符号, 截词符号, 邻接算符等, 扩大词语的检索范围, 降低漏检的可能性, 提高检出效率。b.准确构造检索式。当有多个检索词, 且词语之间逻辑关系复杂时, 应分期分步制定检索式, 以免将检索词的逻辑关系弄混。即使是检索专家也不能保证开始检索就能找到想要的内容, 要在上一次检索结果的基础上不断修改检索提问和改变检索策略, 直到检索到满意的结果。
2.2 Web信息检索的一些关键技术。2.2.1基于内容的检索技术。Web是一个分布式的、全球性的数字图书馆模型, 它的URL相当于地址的文件标识器。而现实中, 常因URL会变动而导致搜索的返回结果变得无用。另一种代替URL来定位搜索目标的方法是基于内容的方法, 它是一个包含关键词的表, 可作为检索目标网页的查询条件。这种查询称为基于内容的寻址, 或概要查询。它的优点是, 当一个目标网页移动时, 基于内容的寻址定位也不会改变, 从而仍然可以得出正确的检索结果。另一方面, 互联网上存在着多种格式的文档, 除了文本之外还有图像、音频、视频。人们使用搜索引擎式基本上都是进行文本搜索, 对多媒体内容的检索技术尚不成熟。就此问题目前提出了基于内容的图像检索技术, 其工作原理是, 由机器自动提取包含图像内容的可视特征:颜色、纹理、形状、对象的位置和相互关系等。对数据库中的对象和查询样本图像在特征空间进行相似匹配, 检索与样本相似的图像。2.2.2自然语言处理技术。自然语言处理长期以来一直是人工智能的一个核心研究领域。比较基础的技术有自动分词、人名和机构名的自动识别技术、自动标引技术等, 其它像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术也都必不可少。应用了这些技术的搜索引擎我们称之为智能搜索引擎。实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中, 知识库是实现智能搜索的基础和核心。2.2.3集成搜索引擎技术。这种技术是将搜索引擎系统建立在多个现有的搜索引擎之上, 提供对这些引擎进行统一访问的服务。集成搜索引擎自己并不维护所有文件的索引。但是, 为了提供更好的服务, 一个复杂的集成搜索引擎通常会维护一些关于底层搜索引擎内容的信息。当向集成搜索引擎提出查询以后, 它能将该查询分送到适当的底层搜索引擎, 再搜集和整理底层引擎返回的结果。将多个搜索引擎组合在一起, 可查询的网络覆盖面将比任何单个搜索引擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集成搜索引擎代替综合引擎, 可以解决在Web上搜索的可扩展性问题。此外, 集成搜索引擎还可以方便对多个引擎的查询, 提高检索的有效性。2.2.4数据挖掘技术与检索技术的结合。数据挖掘技术也称数据库知识发现技术, 被广泛的应用于数据仓库、并行分布式数据库中, 以发现数据中隐含的规律和趋势, 用来分析经验、解释原因、制定决策、指导改进和预测趋势, 使数据库具有知识库的属性。数据挖掘技术涉及许多学科的技术, 包括数据库技术、统计学、机器学习、模式识别技术以及信息检索技术。现在有一种新技术称为Web挖掘技术, 它实现对Web存取模式、Web结构和规则, 以及动态的Web内容的查找。Web挖掘技术最大的特点就是从大量数据中发现有用的知识, 因此发展面向互联网的知识挖掘技术, 并将其与灵活使用的信息检索技术无缝的结合起来, 将会向人们提供一个全新的、方便的、内容空前丰富的学习知识和问题的求解途径。
3搜索引擎及其技术
3.1搜索引擎构成。搜索引擎是一种最为常见的Web信息检索系统, 主要由四部分组成:a.网络机器人:是一个功能很强的程序, 它会定期根据预先设定的地址去查看对应的网页, 如网页发生变化就重新获取该网页, 否则根据该网页中的链接继续去访问。网络机器人访问页面的过程就是对互联网上信息遍历的过程。b.索引器:网络机器人将遍历得到的页面存放在临时的数据库中。索引器的作用就是将文档表示成为一种便于检索的方式并存放在索引数据库中。索引一般按照倒排文件的格式存放。c.搜索软件:该软件用来筛选引擎中无数的网页信息, 从索引中找出与用户查询请求相关的文档, 挑出符合查询要求的网页并且把它们分级排序, 与查询关键字相关性越大的越排在前, 然后将分级排序后的结果显示给查询用户。d.用户接口:为用户提供可视化的查询输入和结果输出界面。在查询输入界面中, 用户按照搜索引擎的查询语法指定待检索词条及各种简单高级检索条件。在输出界面中, 搜索引擎将检索结果展现为一个线性的文档列表返回给用户。
3.2搜索引擎的工作原理及技术。搜索引擎的工作原理是:使用网络机器人遍历Web, 将Web上分布的信息下载到本地文档库, 然后对文档内容进行自动分析并建立索引, 对于用户提出的检索请求, 搜索引擎通过检查索引找出匹配的文档 (或链接) 并返回给用户。
目前网络上的搜索引擎一般使用两种技术来实现信息检索:一是使用网站分类技术, 由专家对网站进行归纳和分类, 即把网站进行树状的分类。网站分类技术为网络信息导航带来了极大的方便, 但其描述能力不能深入到网站的内部细节, 因此用户不能查询网站内部的重要信息。二是使用全文检索技术。全文检索技术处理的对象是文本, 它能够对大量文档建立由字 (词) 到文档的倒排索引。在此基础上, 用户使用关键词来对文档 (网页) 进行查询时系统将给用户返回含该关键词的网页。全文检索是一个很成熟的技术, 它能够通过关键词匹配把相关的网页查出来, 但是这又导致了它的缺陷———返回的信息量太大。
4结论
Web信息检索涉及的领域很广, 从信息资源的采集、布置到检索技术的更新以及检索工具的优化, 其总体目标都是使Web信息资源能够得到更有效的利用。面对如此海量的信息, 需要不断地进行关于Web信息检索方面的探索与研究, 相信在理论和技术的支持下, Web信息检索会达到人们期望中的辉煌。
参考文献
[1]陈艳红, 盛子刚.DC元数据与Web信息检索 (综述) [J].北科技师范学院学报, 2005 (2) .
[2]谢筠.InternetWeb信息资源的利用与检索技术[J].绥化学院学报, 2005 (4) .
[3]胡明.Web环境下产品信息检索策略[J].安徽科技, 2004 (12) .
[4]霍艳蓉.Web信息检索的关键技术[J].现代图书情报技术, 2002 (6) .
[5]赖茂生.Web信息检索技术及研究进展[J].现代图书情报技术, 2004 (5) .
Web信息抽取研究综述 篇3
1 WEB信息抽取概念、发展及功能
1.1 Web信息抽取的概念及功能
信息抽取其实质就是从无结构或者半结构的信息中识别出用户感兴趣的内容,然后将抽取出的结果转换为更结构化、语义更清晰的数据格式(XML、关系数据、面向对象的数据等)。信息抽取技术其实是一种文本处理技术,其目的是根据预定义的信息,从自然语言文本中抽取出特定的信息,并将其以结构化的形式存储在数据库中供用户查询使用。信息抽取不仅帮助人们快速的、深入的得到需要的信息,还能将抽取出的信息进一步用于数据挖掘、文本生成、情报检索等后续信息处理。信息抽取过程如图1所示。
1.2 Web信息抽取的发展
随着信息抽取技术的发展,国内外出现了一些典型的信息抽取系统,如基于自然语言处理(Natural Language Processing,NLP)方式的信息抽取系统有RAPIER,SRV,WNISK;基于包装器(Wrapper)归纳方式的信息抽取系统有STALK-ER,SOHTMEALY,WIEN;基于HTML结构的信息抽取系统有LIXTO等。但是各种信息抽取工具的分类方式并不是一成不变的,有些工具可以同时属于其中的两种或多种类型。信息抽取技术应用在中文方面的研究起步比较晚,其主要的工作集中在研究中文命名实体的识别方面,在中文信息抽取系统的设计研究方面还处于摸索阶段。
2 现有的Web信息抽取方法
2.1 人工获取规则处理方式的信息抽取
人工获取规则处理方式的信息抽取是技术人员依靠自身的知识,通过审阅某些待处理的文本文档,总结出相关信息出现的规律,再根据信息抽取系统内部的抽取规则格式表达出相关的抽取规则。由此可见,这种抽取系统的性能决定于技术人员在这一领域的知识技能水平如何。另外,如果web页面的内容与格式发生变化或者出现新一类的web页面时,需要人工重新识别,更新或重新生成抽取规则,这样使得系统的可扩展性较差。目前采用这种处理方式的信息抽取有基于本体的信息抽取,由专家对Ontology进行分析、调整而人工制定规则、模板。
2.2 半自动学习方式的信息抽取
自动学习方式也需要一定的人工协助,需要依靠人工在训练集合文档中用适当的方式标出相关信息,生成系统自动学习抽取规则需要的训练集(training example),这样学习模块便可在训练数据的基础上运行。采用这种方式的信息抽取方法有基于自然语言处理方式的信息抽取,其处理步骤有句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。具体地说是将文本分割成多个句子,标记每个句子的句子成分(part of speech,简称为POS),并将分析好的句子语法结构和事先定制的语言模式匹配,获得句子的内容即抽取信息。
2.3 机器学习与归纳学习方式的信息抽取
一系列的抽取规则和应用这些规则的程序代码组成了包装器,一个包装器通常只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列的包装器程序库,每一类web页面对应一个包装器。对应关系如图2所示。
3 Web信息抽取系统的评价指标
信息抽取技术评价指标是召回率(Recall)和查准率(Precision),就IE而言,召回率相当于是测量被正确抽取的信息的比例(fraction),而查准率是抽出的信息中正确的信息所占的比率。计算公式如下:
由以上公式不难得出,P和R的值在0和1之间,且成反比,即P增大则R减小,反之亦然。在对一个信息抽取系统进行评价时,需同时考虑和,但这两个指标并不能直接的表示出评价效果,所以,有人将这个两个值合并成一个指标F(F-measure)的评价方法,F指标反映了信息抽取系统的综合性能,其计算公式如下:
其中β是一个预设的值,决定了系统评价侧重P还是R,通过调节β的值来反映查准率和召回率的相对重要性。在信息抽取系统中β通常设定为1,表示着将P和R的重要性等同考虑。
4 Web信息抽取面临的挑战
通过对现有WEB抽取各种方法的分析可以发现,web信息抽取虽然在不断的向前发展,但是也存在很多不足,并且面临很多挑战。1)现有信息抽取的抽取来源大多数都是从半结构化的HTML文本中抽取,那么对那些含有新技术(如AJAX技术)的动态网页的信息抽取是否能达到很好的召回率和查准率。2)信息抽取的自动化程度还没有达到完全自动,大多数时候还是需要用户的参与。3)提高信息抽取系统的可移植性及易扩展性。4)对中文网页的信息抽取也是一个难点。
5 结束语
Web信息抽取是一个十分活跃的领域,虽然现在得到了一定的发展,但也存在很多的不足之处,但是信息抽取的运用已变得越来越广泛,希望更多新的技术及领域专家能加入这个领域,从而使抽取技术变得更加自动化。
参考文献
[1]LAENDER A,RIBEIRO-NETO B,SILVA A.A brief survey of web data extraction Tools[J].SIGMOD Record,2002,31(2):84-93.
[2]ASHISH N,KNOBLOCK C A.Wrapper generation for semi-structured Internet sources[J].ACM S IGMOD Record,1997,26(4):8-15.
[3]GEORG G,KOCH C.Monadic datalog and the expressive power of languages for Web information extraction[C]//Proc SIG-M 0D,Madi-son,Wiseomin,2002.
[4]MUSLEA I,MINTON S,CRAIG A,eta1.Active learning for hierarchical wrapper induction[C]//Proceedings of the Six-teenth NationalConference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intdli-gence,Or lan do,Florida,USA,1999.
[5]Text Mining Software,Text Analytics Software[EB/OL].http://www.linguamatics.com/index.html.
[6]CRESCENZIV,MECCA G,MERIALDO P.RoadRunner:towards automatic data extraction from largeWeb sites[C]//Proc of the 27th In-ternational Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann,2001:109-118.
[7]Malyshkin V.Parallel computing technologies[C]//8th inter-national conference,PaCT 2005.Krasnoyarsk,Russia,2005.Berlin;NewYork:Springer,2005.
[8]Embley D W.Ontology-based Extraction and Structuring of Information from Data-Rich Unstructured Documents[C]//Proceedings ofConference on Information and Knowledge Management.Bethesda,Maryland,USA,1998:52-59.
[9]陈兰,左志宏,熊毅,等.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004.
【信息、思维、WEB】推荐阅读:
信息价值思维06-26
信息技术思维方式05-20
筛选信息促进思维10-01
信息经济如何改变企业家的战略思维07-31
[中学地理论文]从信息传递角度看地理思维能力的培养06-15
教育部发布《教育信息化2.0行动计划》,附思维导图08-11
《信息技术对培养学生创新思维能力的研究》课题第四阶段性工作总结09-10
Web信息产品05-18
Web信息检索10-09