Web信息检索(通用9篇)
Web信息检索 篇1
摘要:本文对目前比较常用的几种Web信息检索工具及其功能进行了介绍, 从检索工具、检索技巧和发展趋势等几个方面进行了分析, 并对Web信息检索的发展趋势进行了分析和预测。
关键词:Web信息检索,检索工具,检索技巧
1概述
因特网上丰富多彩的Web信息资源给人们带来了巨大的便利, 每天上网浏览新闻, 收发邮件, 检索相关资料等几乎成了人们每日必需的一道工作餐。不论是哪种类型的网络信息, 一般情况下, 我们不知道其在网上存储的地址, 也无法记住那么多内容的地址。另外, 其他一些媒体如图像、音频和视频也大量存在。Web是一个非常大的、非结构化且无处不在的数据库, 这就需要有效的工具来管理、检索和从数据库中筛选信息。为了有效地查询和利用网上信息, 人们开发了各种Web信息检索系统, 即搜索引擎 (Search Engines) 。它是一类能自动搜索, 组织Web信息资源, 并提供检索服务的信息服务系统。
Web信息检索的基本形式有三种。第一种搜索引擎, 它标引一部分网络文献作为一个全文数据库;第二种是Web目录, 它按主题来对所选的Web文献进行分类;第三种还没有完全成熟, 却利用超链接结构来检索网络。
1.1实现Web信息检索的条件。实现Web信息检索必须具备信息资源, 信息处理和信息传输这三大条件。其中, 信息资源指对各种信息进行分类, 汇总, 加工, 组织, 按照客观事物的相互关联建立起来的有序结构;信息处理指利用计算机信息进行的一系列筛选, 反馈, 匹配, 计算等加工操作;而信息传输指人和计算机借助通信网络进行的信息传递和交流。因此, 信息经济学专家提出:“信息网络是现代通信网, 计算机网和信息资源网的综合, 现代通信, 电子计算机, 信息资源 (信息内容) 三者互相渗透, 连接, 联合而形成的全方位的服务网络。这三种网络按不同途径发展, 在信息资源开发, 利用和共享这个方向下趋向三网合一”。
1.2面临的主要难题。主要有两类:数据本身的问题和用户及其检索系统交互的问题。a.数据的分布性:数据分布在许多计算机和平台上。网络互联的有效带宽及其可靠性经常发生变化。b.不稳定数据的大量存在:WEB资源经常更新, 导致要处理大量空链接和重新定位的问题。c.非结构和冗余数据:由于网络的共享性, 许多网络资非常相似或有大量的镜像存在。不同的资源有着不同的概念模型, 缺乏一致性。d.异构数据:全球文献中有各种语种, 如拉丁语系和汉语等, 而且不能简单地通过软件来解决。
2 Web信息资源检索方法与搜索技术
2.1Web信息资源检索方法。2.1.1直接访问信息源搜索的途径。通常的做法是通过IP地址直接打开网站或网页, 一般是在已知所查询的信息在某一具体的网站或网页时使用, 不过这种方法需要记忆大量的域名, 网址。一种更简便的方法是安装网络实名插件, 可在浏览器的地址栏或搜索引擎网站中, 直接输入中英文网站名称, 如, 3721网络实名, 可输入网站, 企事业单位, 商标, 产品等关键词的中英文名称, 就能直达对应的网站或网页。2.1.2利用网络检索工具。可使用综合性搜索引擎, 如雅虎、搜狐、百度、网易、Google等一些大的门户网站, 在查询过程一般提供分类查询和关键词查询。有些网站还提供了很多网址的链接, 根据需要点击, 可直接进入网站当需要检索某些专业性或特定信息时, 可使用专题搜索引擎。例如专业地图搜索的工具有图吧 (http://www.mapbar.com/) , 图行天下 (http://www.go2map.com) 。2.1.3构造检索提问式的要点。在检索中, 有两个最为关键的步骤, 一是概括检索提问, 选择精确的检索词;二是正确构造检索提问式, 达到检出目的。a.灵活运用各种运算符号。要考虑检索提问中的关键词是否有同义词, 近义词, 以及词形的各种变化, 活运用各种运算符号, 截词符号, 邻接算符等, 扩大词语的检索范围, 降低漏检的可能性, 提高检出效率。b.准确构造检索式。当有多个检索词, 且词语之间逻辑关系复杂时, 应分期分步制定检索式, 以免将检索词的逻辑关系弄混。即使是检索专家也不能保证开始检索就能找到想要的内容, 要在上一次检索结果的基础上不断修改检索提问和改变检索策略, 直到检索到满意的结果。
2.2 Web信息检索的一些关键技术。2.2.1基于内容的检索技术。Web是一个分布式的、全球性的数字图书馆模型, 它的URL相当于地址的文件标识器。而现实中, 常因URL会变动而导致搜索的返回结果变得无用。另一种代替URL来定位搜索目标的方法是基于内容的方法, 它是一个包含关键词的表, 可作为检索目标网页的查询条件。这种查询称为基于内容的寻址, 或概要查询。它的优点是, 当一个目标网页移动时, 基于内容的寻址定位也不会改变, 从而仍然可以得出正确的检索结果。另一方面, 互联网上存在着多种格式的文档, 除了文本之外还有图像、音频、视频。人们使用搜索引擎式基本上都是进行文本搜索, 对多媒体内容的检索技术尚不成熟。就此问题目前提出了基于内容的图像检索技术, 其工作原理是, 由机器自动提取包含图像内容的可视特征:颜色、纹理、形状、对象的位置和相互关系等。对数据库中的对象和查询样本图像在特征空间进行相似匹配, 检索与样本相似的图像。2.2.2自然语言处理技术。自然语言处理长期以来一直是人工智能的一个核心研究领域。比较基础的技术有自动分词、人名和机构名的自动识别技术、自动标引技术等, 其它像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术也都必不可少。应用了这些技术的搜索引擎我们称之为智能搜索引擎。实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中, 知识库是实现智能搜索的基础和核心。2.2.3集成搜索引擎技术。这种技术是将搜索引擎系统建立在多个现有的搜索引擎之上, 提供对这些引擎进行统一访问的服务。集成搜索引擎自己并不维护所有文件的索引。但是, 为了提供更好的服务, 一个复杂的集成搜索引擎通常会维护一些关于底层搜索引擎内容的信息。当向集成搜索引擎提出查询以后, 它能将该查询分送到适当的底层搜索引擎, 再搜集和整理底层引擎返回的结果。将多个搜索引擎组合在一起, 可查询的网络覆盖面将比任何单个搜索引擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集成搜索引擎代替综合引擎, 可以解决在Web上搜索的可扩展性问题。此外, 集成搜索引擎还可以方便对多个引擎的查询, 提高检索的有效性。2.2.4数据挖掘技术与检索技术的结合。数据挖掘技术也称数据库知识发现技术, 被广泛的应用于数据仓库、并行分布式数据库中, 以发现数据中隐含的规律和趋势, 用来分析经验、解释原因、制定决策、指导改进和预测趋势, 使数据库具有知识库的属性。数据挖掘技术涉及许多学科的技术, 包括数据库技术、统计学、机器学习、模式识别技术以及信息检索技术。现在有一种新技术称为Web挖掘技术, 它实现对Web存取模式、Web结构和规则, 以及动态的Web内容的查找。Web挖掘技术最大的特点就是从大量数据中发现有用的知识, 因此发展面向互联网的知识挖掘技术, 并将其与灵活使用的信息检索技术无缝的结合起来, 将会向人们提供一个全新的、方便的、内容空前丰富的学习知识和问题的求解途径。
3搜索引擎及其技术
3.1搜索引擎构成。搜索引擎是一种最为常见的Web信息检索系统, 主要由四部分组成:a.网络机器人:是一个功能很强的程序, 它会定期根据预先设定的地址去查看对应的网页, 如网页发生变化就重新获取该网页, 否则根据该网页中的链接继续去访问。网络机器人访问页面的过程就是对互联网上信息遍历的过程。b.索引器:网络机器人将遍历得到的页面存放在临时的数据库中。索引器的作用就是将文档表示成为一种便于检索的方式并存放在索引数据库中。索引一般按照倒排文件的格式存放。c.搜索软件:该软件用来筛选引擎中无数的网页信息, 从索引中找出与用户查询请求相关的文档, 挑出符合查询要求的网页并且把它们分级排序, 与查询关键字相关性越大的越排在前, 然后将分级排序后的结果显示给查询用户。d.用户接口:为用户提供可视化的查询输入和结果输出界面。在查询输入界面中, 用户按照搜索引擎的查询语法指定待检索词条及各种简单高级检索条件。在输出界面中, 搜索引擎将检索结果展现为一个线性的文档列表返回给用户。
3.2搜索引擎的工作原理及技术。搜索引擎的工作原理是:使用网络机器人遍历Web, 将Web上分布的信息下载到本地文档库, 然后对文档内容进行自动分析并建立索引, 对于用户提出的检索请求, 搜索引擎通过检查索引找出匹配的文档 (或链接) 并返回给用户。
目前网络上的搜索引擎一般使用两种技术来实现信息检索:一是使用网站分类技术, 由专家对网站进行归纳和分类, 即把网站进行树状的分类。网站分类技术为网络信息导航带来了极大的方便, 但其描述能力不能深入到网站的内部细节, 因此用户不能查询网站内部的重要信息。二是使用全文检索技术。全文检索技术处理的对象是文本, 它能够对大量文档建立由字 (词) 到文档的倒排索引。在此基础上, 用户使用关键词来对文档 (网页) 进行查询时系统将给用户返回含该关键词的网页。全文检索是一个很成熟的技术, 它能够通过关键词匹配把相关的网页查出来, 但是这又导致了它的缺陷———返回的信息量太大。
4结论
Web信息检索涉及的领域很广, 从信息资源的采集、布置到检索技术的更新以及检索工具的优化, 其总体目标都是使Web信息资源能够得到更有效的利用。面对如此海量的信息, 需要不断地进行关于Web信息检索方面的探索与研究, 相信在理论和技术的支持下, Web信息检索会达到人们期望中的辉煌。
参考文献
[1]陈艳红, 盛子刚.DC元数据与Web信息检索 (综述) [J].北科技师范学院学报, 2005 (2) .
[2]谢筠.InternetWeb信息资源的利用与检索技术[J].绥化学院学报, 2005 (4) .
[3]胡明.Web环境下产品信息检索策略[J].安徽科技, 2004 (12) .
[4]霍艳蓉.Web信息检索的关键技术[J].现代图书情报技术, 2002 (6) .
[5]赖茂生.Web信息检索技术及研究进展[J].现代图书情报技术, 2004 (5) .
[6]刘振岩, 等.Web信息检索与Web数据挖掘[J].微机发展, 2003 (7) .
Web信息检索 篇2
近年来,随着我国科学技术飞速发展,各种信息网络技术已经被广泛应用于人们生活中,从而使人们的生产生活发生了翻天覆地的变化,Web时代的到来,如何才能在海量的数据信息中获得个性化信息检索,已经成为当前科技研究人员普遍关心的重点。本文针对目前Web环境下的个性化信息检索技术发展历程、模型等内容进行详细的分析和探讨,提出几点有效的措施和建议,从而提高我国Web环境科学下的个性化信息检索技术的整体质量和水平。
在信息技术时代的今天,我国个性化信息检索技术也得到了空前的发展,Web网站的类型和数量也在成倍的增长,在这个过程中形成了强大的信息资源,但同时也带来了一系列问题,例如:廉价信息和无效信息的传播、重复性信息的混杂等,都会直接影响我国个性化信息检索技术的发展,因此如何才能在Web大的环境下提高个性化信息检索技术的质量和水平就显得尤为重要。
浅析网络信息检索 篇3
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
Web信息检索 篇4
在人类语言中由于时空和领域的差异, 同一个概念可以用不同的词语表达, 即用户和文章作者往往使用不同的词语来描述同一个概念。目前连接到Internet上的计算机并不能够分析Internet上的所有数据——包括内容、链接以及人与机器的交互。也就是说当前信息检索技术没有使用语义技术, 从而很难对用户提问给出精确的查询结果。
Tim. Berners-Lee对Semantic Web做过如下描述:语义万维网并不是一个孤立的万维网, 而是对当前万维网的扩展, 语义万维网上的信息具有定义良好的语义, 使得计算机之间以及人类通过语义能够更好地挖掘WWW信息的潜力。近年来提出的语义Web新标准——可扩展标记语言XML, 它的特点就在于用户可根据需要制定能够反映任意数据内容的标签, 实现数据内容和数据表现形式的分离。像DAML这种知识表示语言它还支持逻辑推理, 这可以使检索过程更方便, 同时获得更精确的查询结果, 可以想象将来的Web页面除了包含有文本信息以外还包含有丰富的语义标记。它是一个由大量机器可以理解的数据所构成的分布式体系结构, 在这个体系结构中, 数据之间的关系通过一些特定的概念表达, 这些概念之间又形成一种复杂的网络联系, 计算机能够通过这些概念得到数据的含义, 并且可以在这种联系上进行逻辑推理。
1 现有语义检索引擎
通过分析现有三种语义检索原型系统OWLIR[1] 、Swangler和Swoogle系统, 可以对它们进行改进, 使其提供更好的服务。
1.1 OWLIR原型系统
OWLIR是对含有自由文本和含有用RDF或DAML本体语言描述的语义标记的文档进行检索的系统 (如图1) 。该系统本来是为了解决一项特殊任务――过滤大学生事件通知问题, 每两周UMBC大学的学生要收到一封列出四五十条事件的邮件。这些事件一般包括:公选课的选择, 俱乐部会议, 体育比赛, 电影通知等等消息。系统的目标是自动处理这些消息, 同时产生一个包含有文本信息和语义标记的描述。这些描述可以被进一步用于丰富本地知识库、供推理引擎推理和检索引擎索引。一个简单的框架查询系统, 允许学生键入结构化信息进行查询, 框架系统将产生一个由DAML标记的文档。查询和事件描述通过语义三元组来表示, 使用本地知识库和推理引擎可以丰富结构化的语义三元组, 然后产生可索引的语义三元组。查询结果是一个经过处理的类似文本的事件列表。
(1) 文本抽取
事件是用自由文本表示的文档, 但其包含有语义标记, 这里利用AeroText TM系统对其抽取关键短语和本体元素。这些短语和元素对识别事件类型和增加语义标记起到一个非常重要的作用。AeroText由一个Java API提供对抽取结果在系统内部形式的存取, 并使用DAML产生器部件存取这内部形式, 然后把其翻译成相应的RDF三元组, 这可以通过在抽取过程中直接绑定事件本体和语言知识库来完成。
(2) 推理系统
OWLIR使用文本抽取过程中的元数据信息来推理语义关系, 这些关系用来确定搜索范围。OWLIR是基于DAMLJessKB[2]的推理。DAMLJessKB部件读取和翻译DAML文档, 然后进行推理。DAMLJessKB提供基本的事实和规则进行关系推理像子类和子属性等的关系。
(3) HAIRCUT检索引擎
HAIRCUT[3]是一个Johns Hopkins 大学应用物理实验室开发的信息检索系统, 它是一个基于传统的向量空间模型和隐马尔可夫模型基础上用来推断文档相似度, 支持各种语言的操作。此系统给出了一个对混合信息进行查询的实验数据:
1.2 Swangler原型系统
目前对HTML文档嵌入RDF或OWL等语义标记仍然没有一个统一的标准。像Google这样的信息检索引擎本来就可以发现和索引RDF文档, 但是Google只把这些带有语义标记的文档当作简单的文本文档来处理, 其主要因素有:一是XML命名空间机制对搜索引擎是不透明的;二是用于处理自然语言的符号规则并不总是能很好地处理XML文档;三是我们不能直接利用这些语义标记。
Swangler技术已经被运用于SWDs系统 (如图2) 中, 与OWLIR系统类似, 此系统中每个术语也用一个三元组表示。像Google的“机器人”程序可以搜集这些带语义标记的RDF文档, 然后它可以索引这些内容表示成语义三元组的形式。
1.3 Swoogle原型系统
Swoogle[4]是一个针对用RDF或OWL这样的语义Web文档进行索引和检索的专用语义检索引擎。本系统由多个部件组成, 包括:用来存储SWDs元数据的数据库, 负责RDF网络文档搜集的机器人程序, 计算有用文档元数据部件, 计算SWDs中文档语义关系的部件, RDF本体编辑器, 索引器和一个用户查询接口。类似Page Rank的概念, 此系统也有一个计算网页重要程度的算法SWD Rank, 并且该系统具有和当前基于关键字搜索引擎的所有相关技术。
1.4 三种原型系统的分析
通过对三种原型系统的介绍分析, 得出三种系统的异同点:①是希望处理的是什么样类型的文档, 三种系统要处理的都是用XML编码的RDF文档或者是带有语义标记的自由文档。②是语义标记怎样被处理, 是作为具有数据、知识模型结构化的信息还是作为与模型无关的自由文本信息。OWLIR和Swangler把语义标记作为结构化信息的同时在其上进行推理;而Swoogle系统以文档内容意义存储这些RDF文档在本地数据库中, 这就允许基于类、属性集作为检索文档的依据。③是最终检索系统使用传统的检索引擎还是专用的语义检索引擎。Swangler设计的目标是使像Google这样当前的检索引擎来检索语义Web, 而OWLIR和Swoogle采用的是专用的语义检索引擎。
相应的可以提出设计语义检索系统必须满足以下几个要求:
(1) 此框架必须同时支持检索驱动的和推理驱动的处理过程;
(2) 检索必须可以使用术语, 语义标记及两者结合起来的术语索引;
(3) 搜索是以文本为基础的现有搜索引擎或元搜索引擎;
(4) 推理机制和检索机制应该紧密结合, 检索性能的提高应该能够提高推理的准确性, 同时推理性能的提高也将促进检索的准确率的提高。
2 改进后的语义检索框架模型
2.1 改进后语义检索系统各模块功能介绍 (如图3)
用户界面 为用户提供方便的查询接口及显示搜索结果。
查询语句语义转换 把从用户检索界面获取的查询请求利用DAML本体语言对其进行语义化处理。
本体推理引擎 对给定的查询请求调用专业本体知识库的知识进行反演推理, 返回与当前输入语义相关的所有概念集。
HAIRCUT检索引擎 HAIRCUT是OWLIR原型系统中的语义检索引擎, 改进之后使其支持DAML索引和RDF三元组, 以及是否具有统配符的问题。该系统允许用户根据需要指定查询术语, 例如哪些术语是必须出现在查询结果中, 哪些是不必出现的。多种技术在HAIRCUT上的结合使该系统一方面方便了用户查询, 另一方面增强了查询准确性。
语义索引及DAML文档库 根据文档收集所搜索到的DAML实例信息, 合理组织信息资源的存储, 它是对专业权威站点所有资源的规范描述。
机器人程序 定期从Web站点上搜集符合该DAML模式的最新实例文档。将这些文件收集到本地DAML文档数据库以备本地数据库索引。
查询结果处理 将由HAIRCUT检索引擎的查询结果经过一系列处理后显示给用户, 它同时可以更新专业本体知识库。
专业本体知识库 包括专业词汇、专业同义词汇等专业知识, 可以根据这些知识对查询进行扩充以及概念归类从而实现对网上信息资源进行基于内容的查询。它的建立是通过领域专家和系统本身不断学习共同完成的。
2.2 构建专业Ontology知识库
对同一概念语义共享和共同理解是构建语义万维网的关键。为了建立Semantic Web, 首先需要一个通用的能被所有应用程序理解的语义表示模型, 通过这个模型实现对不同领域内的概念及其关系的描述, 并通过这些概念和关系实现对网络资源的描述。Ontology库正是一种能在语义和知识层次上描述网络资源的概念模型, 是语义信息检索系统的核心, 它使得语义网络上的信息能够为机器所理解。
诚然, Ontology库的创建和管理是一个费时复杂的工作, 但是Ontology库的准确合理程度将直接影响到系统搜索的结果, 是实现整个系统的基础。Ontology知识库是由本体语言DAML来描述的, 它定义了一定专业领域所需的各种概念和它们之间的关系, 以及基于这些概念的推理规则。
下面举一个用DAML描述的资源文档例子:
2.3 通过本体树进行推理和检索
本体之间的关系有多种, 这里主要考虑近似关系和包含关系两种。语义推理和检索主要是通过判定本体间的关系来实现, 例如判断查询的本体信息是否包含于本体知识库中的某个概念, 或是判断查询的本体信息与本体知识库中的某个概念是否相同或相似。
为了体现对有不同偏爱的用户检索的准确率, 改进后的检索系统提供了DAML查询集, 这种查询方式使得程序员可以更充分的根据实际需求定义本体声明, 然后由HAIRCUT进行检索。下面给出一个DAML描述的查询过程。
3 结束语
本文在分析三种语义检索系统原型的基础上, 提出了一个集成搜索和推理功能的语义检索系统框架, 其中DAML作为知识表示语言同时作为推理引擎的接口。本系统框架可以被扩展实现智能的个性化检索, 通过构建表示用户偏爱的用户个性化信息本体库, 结合本体知识库由推理引擎进行推理, 然后再利用查询结果不断更新用户个性化信息本体库, 这样将会提供更精确的查询结果。
摘要:提出了对含有自由文本和丰富语义标记的网络文档资源的一种检索方法。通过对现有的三种语义检索系统原型的分析, 提出了一个改进后的实现框架, 在此框架中文档资源和查询都可用Web本体语言描述。这些描述提供了关于文档和其内容结构化或半结构化的信息。当这些文档被索引后执行语义查询时或者查询结果处理时, 它可以对这些信息进行语义推理, 从而将极大地提高检索效果。
关键词:语义检索,本体知识库,本体推理引擎
参考文献
[1]Urvi Shah, Tim Finin, Anupam Joshi, Scott Cost R, James Mayfield.In-formation Retrieval on the Semantic Web.CIKM 02, November 4-9, 2002, McLean, Virginia, USA.
[2]Kopena J, Regli W.DAMLJessKB:Atool for reasoning with the Seman-tic Web.IEEE intelligent System18 (3) , May/June, 2003.
[3] Mayfield J, McNamee P, Piatko C. The jhu/apl haircut system at trec-8.The Eighth Text Retrieval Conference, TREC-8, 1999:445-452.
[4] Ding L, Tim Finin, Anupam Joshi, Rong Pan, Scott Cost R, Joel Sachs, Vishal Doshi, Pavan Reddivari, Yun Peng, Swoogle:A Search and Metadata Engine for the Semantic Web, Thirteenth ACM Conference on Information and Knowledge Management (CIKM'04) , Washington DC, November, 2004.
Web信息检索 篇5
随着互联网的迅速发展,网上信息资源越来越丰富,网络已经成为一个全球最大的信息库。然而用户获取所需的信息却越来越困难。传统信息检索技术[1]都是基于关键字的语法匹配,主要借助于目录、索引和关键词等方法来实现。此技术简单、快捷和容易实现,但是存在不少问题,如“忠实表达”问题、“表达差异”问题、“词汇孤岛”问题等。造成这些问题的实质在于传统信息检索方法只是基于语法层面上的简单匹配,而缺乏对知识的表示、处理和理解能力。语义Web的提出为解决这些问题提供了新的思路,能够把信息检索从基于关键字的语法匹配提升到基于知识层面的语义匹配。然而本体是语义Web中的关键技术之一。本体具有良好的概念层次结构和对逻辑推理的支持,把本体融合到传统信息检索技术中去,不仅可以继承传统的信息检索的优点,还可以克服信息检索中的局限性。
1 语义Web、本体及Lucene技术
语义Web是Berners-lee于2000年12月在XML2000会议上提出的概念,并于2001年5月在《科学美国人》杂志上发表同名论文“TheSemantic Web”。语义Web的目标[2]是,为因特网上的信息提供具有计算机可以理解的语义,从而满足智能主题(Agent)对WWW上异构、分布信息的有效检索和访问,实现网上信息资源的语义层上的全方位互联,并在此基础之上,实现更高层、基于知识的智能应用。语义Web的提出为处理网络上纷繁芜杂的信息提供了一个新的方向和平台,得到许多学者和组织的响应和重视。2001年2月W 3C组织正式推出SemanticWebActivity,它成为推动语义Web研究和发展的主要力量。
如图1所示,语义Web是一套包括网络信息存储、组织、表示、安全认证等各个方面的完整体系,涉及XML、本体、数字签名等技术与方法,它有利于网络信息的基于语义层面的组织和检索,是WWW的发展方向。
本体作为语义Web信息组织的语义支撑,在语义Web中起到核心的作用。实际上,本体原来是一个哲学的概念,被哲学家用来描述事物的本质。后来知识工程学者借用了这一概念。在计算机领域,当前比较权威的本体概念是Studer提出的:本体是共享概念的明确的形式化规范说明[3]。这个定义包含了4层含义:概念化、明确、形式化和共享。本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解。确定该领域内的认可的词汇。并从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义。正是本体对概念及其概念之间的关系的表现和描述能力使其成为语义Web的核心内容,也成为实现语义信息检索的关键。
Lucene[4]是一个高性能、纯Java的全文检索引擎工具包,它不是一个完整的搜索应用程序,而是能够为应用程序提供索引和搜索功能的一个插件。Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。Lucene是ApacheJakarta家族中的一个开源项目,目前已经有很多应用程序的搜索功能是基于Lucene的,比如IBM的开源软件E-clipse的帮助系统的搜索功能等。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。
Lucene组件包的发布形式是一个JAR文件,包括七个类包,其中主要有3个核心类包:
(1)org.apache.lucene.analysis主要用于分词,分词的工作由Analyzer的扩展类来实现,Lucene自带了StandardAnalyzer类,我们可以参照它来写出自己的分词分析器类,如中文分析器等;
(2)org.apache.lucene.index主要提供库的读写接口,可以创建索引、更新索引等;
(3)org.apache.lucene.search主要提供检索接口,可以输入条件,得到查询结果集。
2 基于语义Web的信息检索模型
基于本体的信息检索的基本思想[5]:
(1)在领域专家的帮助下,建立相关领域的Ontology。
(2)收集信息源中的数据,并参照已建立的Ontology把收集来的数据按规定格式存储在元数据库中(RDB,KDB)等。
(3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查询请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合。
(4)检索结果经过定制处理返回给用户。在语义Web环境和基于本体的信息检索系统的思想,以及全文检索引擎Lucene的基础之上,提出一个基于语义Web的信息检索模型,如图2所示。
基于本体的语义信息检索模型共分为六个模块:用户UI模块、查询扩展模块、本体管理模块、资源管理模块、Lucene检索引擎模块、排序模块。
2.1 用户UI模块
该模块提供了两个界面:(1)用户查询界面;(2)查询结果显示界面。为用户提供了一个可视化的接口,以及负责向用户显示信息。它提交用户提出的检索请求,并当检索信息完成后,将检索结果返回给用户。
2.2 本体管理模块
本体在语义信息检索系统中处于重要的地位,它是信息组织的核心,定义了领域知识的概念层次、概念与概念之间的关系以及语义推理规则。作用主要有2点:1)在查询扩展中对用户的查询词进行语义扩展,并得到新查询词的权重有利于查询结果的排序。2)在对从Web上收集的信息进行标注的时候作为获取语义元数据的参照。在语义检索的发展中本体处于非常重要的位置,它承担着知识表达的核心任务,对检索中基于语义的文档与提问处理以及实现智能推理都起着支撑作用[6]。所以,构建语义信息检索系统首先要在领域专家和知识工程师的帮助下,建立本体,选择合适的存储方式和进化策略。
2.3 资源管理模块
信息检索的目标对象是Web上的资源信息,因而必须保证在检索之前有足够多的可供检索的信息。由于互联网具有分布性、开放性、动态性的特点,同时由于Web上信息组织格式的多样性,给信息获取带来了极大的不便,因而需要一个专门的信息采集器(Wrapper)事先将Web信息收集到本体的资源库中。同时还可以将Word、PDF等文档加入到本体资源库中。这样通过该模块能够对资源进行整合便于建立索引。
2.4 查询扩展模块
查询扩展是接受用户的查询请求,参照领域本体,将用户的查询词映射为本体中的概念和关系,并添加到原查询中,同时运用推理机等得到隐含在本体知识库的信息,这样得到新的查询词。然后进行检索,以改善信息检索的查全率和查准率。语义查询扩展的核心就是实现同义词扩展、语义蕴涵扩展、语义外延扩展及语义相关扩展。在该模型的查询扩展中,利用了语义相似度的查询扩展[7],其基本思想是将查询概念与领域本体中的概念、实例及属性进行匹配,根据本体层次结构及相关属性,从本体中提取与原查询的语义相似度大于阈值的概念,作为扩展概念,从而实现查询语义的提取和从概念语义层次上的概念扩展。在此模块中,必不可少地使用Jena对本体库进行处理和操作,Jena的查询和推理的强大功能在语义Web环境下语义检索中起到重要的作用。
2.5 Lucene检索模块
由于Lucene是个高性能、可扩展的信息检索工具库,而且是以成熟、自由、开放的软件项目,它用简单易用的API隐藏了复杂的索引和搜索操作的实现工程,因此可以使应用程序更专注于自身的业务模块。基于Lucene的检索引擎提供了如下功能:为文档库建立索引,生成索引库,根据用户的检索要求对索引库进行查询,并将查询的结果进行排序后返回给用户。
2.6 排序模块
查询结果的排序算法对信息检索式至关重要的,虽然Lucene对查询结果进行了排序,Lucene默认排序时按照文档权重的高低进行排序。但是有时候还不能够满足用户的特定需求,需要按照用户的意愿进行重新排序,如按照日期排序,或者按照多个字段组合排序等。还有,更进一步就是改进Lucene的排序算法来改善排序结果以便于用户在第一时间就能够找到需要的信息。排序算法的好坏决定了该信息检索模型的价值,也决定了查询结果对用户的有用性和重要性[8]。因此该排序模块在整个模型中起到举足轻重的作用。在该模块中,将目前比较著名的几种网页排序算法有词频位置加权排序法、DirectHit算法、PageRank算法融入到Lucene自身所具有的排序算法,来弥补其不足,使得此排序更能满足用户的检索需求[9]。
3 结束语
文中提出一种基于语义Web的信息检索模型,此模型结合了Lucene的全文检索技术。给出了它的总体框架、基本功能和实现方法。该模型具有的新特点体现在以下几点:
(1)比较传统的直接利用匹配关键字来进行检索的网络信息检索,这里使用基于本体之上利用Jena查询和推理对原关键词集合进行扩展得到新的关键词集合,这个集合更贴切用户所要表达的。这样使查询变得更加准确。
(2)利用全文检索Lucene技术,能够快速建立索引并能对索引进行优化,同时对经过查询扩展模块后的关键词集合进行构造检索式,这样在利用Lucene提供的搜索器进行检索。利用索引技术能够快速提高检索效率,缩短检索时间。
(3)经过排序模块,将会把检索结果中的最符合用户需求的信息排在前列,符合人性化要求。
摘要:提出一种基于语义Web的信息检索模型,它能够实现准确高效的网络信息检索,克服传统信息检索的局限。介绍了语义Web、本体以及Lucene全文检索技术,详细阐述该模型的六大模块,其中在本体基础之上充分利用Jena查询和推理技术进行查询扩展,以及Lucene技术来建立索引和检索,改进排序算法使得返回结果更加满足用户需求。
关键词:语义Web,本体,信息检索,Lucene
参考文献
[1]胡必云,黄因生,谢荣传.基于语义的Web信息检索.计算机技术与发展,2006;16(10):71—73
[2]宋炜,张铭.语义网简明教材.北京:高等教育出版社.2004
[3] Studer R,Benjamins VR,Fensel D.Knowledge engineering principlesand methods.Dataand Knowledge Engineering,1998;25(1):161—197
[4] Lucene:基于Java的全文检索引擎简介.http://www.chedong.com/tech/lucene.html,2009
[5]聂卉,龙朝晖.结合语义相似度与相关度的概念扩展.情报学报,2007;26(5):728—732
[6]黄敏,赖茂生.语义检索研究综述.图书情报工做,2008;52(6):63—66
[7]黄名选,严小卫,张师超.查询扩展技术进展与展望.计算机应用与软件,2007;24(11):1—4
[8]张贤,周娅.基于网页排序算法的改进.计算机系统应用,2009;(2):155—158
Web信息检索 篇6
现有网络中的大部分信息检索系统都采用关键词输入方式进行检索,而且对于所有用户都采用同一种模式进行检索,用户在操作时很容易产生错误,有些用户无法准确地表达自己的搜索意愿,更加造成了检索错误的产生。经过一定的改造,有些系统确实改善了检索效率,但由于没有不同个性化模式之间的相互学习和信息共享机制,即便是经过改善的检索系统也不能很好地适应用户兴趣变化。
用户与检索系统的交互方式比较简单。目前检索系统都缺少可以提供针对不同需求的用户,提供不同的输入方式的机制,缺少分布式智能信息检索和适应信息源信息变化的能力。所以,如何确定用户的需要,提高用户查询效率和查询精度,从而满足用户的个性化检索,已成为Web应用进一步发展而必须要解决的一个非常关键的问题。
2 信息检索工具研究
2.1 个性化搜索引擎
针对现有搜索引擎的缺陷,开发个性化服务系统就显得非常重要。个性化搜索引擎系统是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的,它能充分提高站点的服务质量和访问效率,从而可以吸引更多的访问者,产生更大的点击率,提高网站的知名度。个性化服务的本质是将用户个体归结到某个用户类中,然后根据其访问规律进行Web页面的推荐,由于每个用户都有自己的访问目的,具有不同的访问序列。如果当前用户已经有一个访问序列,那么其他具有类似访问序列的用户下一次访问可以为该用户提供推荐。这样随着不同用户访问的推进,可以将用户归结到不同的用户类中,不同的用户类产生不同的推荐集。通过不断地调整推荐集,从而达到给用户推荐具有个性化访问序列的目的,同时,在进行推荐时必须要求推荐集不影响原有网站的层次结构。
2.2 工作原理
搜索引擎的出现可以帮助人们在互联网上寻找所需的信息。它的工作原理是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户的互联网信息查询工具。搜索引擎一般由搜索软件、索引软件和检索软件组成,每部分的工作过程都包括信息收集、信息分类整理、信息利用3个环节。搜索软件能够自动从一个网页上的链接跳到另一个网页的链接,当网页搜索软件发现一些新的网站后,将信息反馈给要做索引的主站点,它也不断把以前已经组织过的目录自动更新。然后,搜索引擎再对已收集的信息进行分类整理,建立数据库,这时不同的搜索引擎的表现就会存在差异,有的搜索引擎是把网页搜索软件发往每个站点,记录每一页的所有文本内容,而另一些搜索引擎则会首先分析数据库中的数据地址,以判断哪点站点最受欢迎,再用软件记录这些站点的信息。搜索引擎数据库建立后,通过服务器端的软件,提供浏览器界面的信息查询和利用。用户只需将要查找的关键词输入查询框中,搜索引擎就会根据输入的提问,在搜索引擎数据库中查找相应的词语,并进行必要的逻辑运算和相关度的判断,以超文本链接形式给出查询的结果,用户通过搜索引擎提供的链接,就可以访问到相关信息。
2.3 分类
搜索引擎按照信息搜集方法和服务提供方式不同分为:目录式搜索引擎、机器人搜索引擎、元搜索引擎及其他一些技术的搜索引擎。
2.3.1 目录式搜索引擎
以人工或半自动方式搜集信息,编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,用户以分类形式选择搜索,从最顶层的网站类别依次选择进入下一级网站类别,直到找到结果或者最低层为止,其信息大多面向网站,提供目录浏览服务和直接检索服务,该类搜索引擎信息准确、导航质量高,但由于有人工介入,维护起来工作量比较大,信息及时更新会出现问题,这类搜索引擎的代表是:Yahoo、Open Directory等。
2.3.2 机器人搜索引擎
由一个称为蜘蛛的机器人程序以某种策略自动地跟踪全世界搜索引擎信息源变化情况,在互联网中搜集和发现信息,并不断提取新网页信息到本搜索引擎后台数据库下,由索引器为搜集到的信息建立索引,形成索引数据库,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。当实际界面不能访问时,提供“网页快照”功能,服务方式是面向网页的全文检索服务。此类搜索引擎信息量大,更新及时,不需人工干预,但返回信息过多,有很多是无关信息,要求用户必须从结果中进行筛选,其典型的代表是:Google、Excite、Infoseek等,而国内的悠游等也属于此类。
2.3.3 元搜索引擎
这类搜索引擎是将用户的查询请求同时向多个引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。它的优点是返回结果的信息量更大、更全,但此类搜索引擎不能够充分使用所用搜索引擎的功能,用户需要做更多的筛选,比如:Metacrawler、WebCrawler、InfoMarket等都属于此类。
除以上介绍的搜索引擎外,还存在很多非主流的搜索引擎,如:由用户从多个引擎当中选择的“集合式”搜索引擎;自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎的“门户搜索引擎”;只简单地滚链接条目,少部分有简单的分类目录的“免费链接列表”等。
3 搜索引擎技术
3.1 特点
基于自然语言理解的智能搜索引擎。也就是基于语义或者概念的识别,其研究的重点是如何自动分词,特别是对于中文分词。
基于多媒体文件的信息检索,如图像、MP3、PDF、Flash等文件,信息过渡到HTML文件、多媒体文件,不断满足大家的需求。分布式并行信息检索。任何一个信息检索系统,如果想要提高查询响应的速度,就必须采取分布式系统,多个网页蜘蛛同时分工下载网页,同时计算网页相关度。
基于主题或者问题求解的信息检索,这实际与中文信息检索“聚类”热核相关,对于某查询关键词,实际是属于某主题下,如果能找到相应的主题,那将会很快得到准确的结果。
3.2 评价指标体系
随着网络搜索引擎的发展,国际上已建立了一整套网络搜索引擎评价指标体系,具体指标有:
数据库的评价指标。搜索引擎的数据库所收录的信息资源是检索之本,而数据库的规模和质量就成为评价检索工具的基本要素。
检索结果评价指标。检索效果是评价检索工具的最直观的指标,检索结果的输出形式在一定程度上影响着信息的吸收与利用。
检索界面的评价指标。是指用户界面的易用性情况,包括是否有帮助文件,是否有查询举例,是否有检索功能说明。
其实对于用户来说,信息检索的最终目的是为了满足自己的信息需求,所以评价一个检索系统好坏的标准正在发生转变,从传统的基于查全率、查准率之类的系统表现向系统用户的满意程度方向倾斜的趋势
3.3 搜索引擎中的检索排序技术
检索算法要能够计算在给定文档集合中的所有文档和查询的相似度,按相似度由高到底进行排序得到文档的列表,将得分高于某一闭值的所有文档返回给用户。常见的检索排序技术有:
3.3.1 基于链接的相关度排序
Google通过构造Web上网页间的引用图,并综合考虑网页被引用的次数以及链接的源网页的重要性来判断链接的目标页面的重要性。
Google首先创建一个多达近十亿网页的链接图,根据这一链接图可以很快计算出其中每个网页的PageRank值,利用此值作为网页重要性次序的评估标准,这也正与用户的主观评价相一致。
Google利用若干分布式的“网络爬虫”进行网页下载,有一个服务器为它们提供等待搜索的URL清单,收集回来的网页被送至存储服务器,在存储服务器中被压缩后送往仓库Reppository中。每个Web页都有一个身份标志DocID,每当一个新的URL被从网页超链接中被提取时就为其赋予这个标志,由索引器Indexer和排序器Sorter完成索引工作。其中索引器需要完成一些工作,从仓库提取网页、解压缩和分析它们,每个文件都被转化为一组词汇记录,索引器将这些词汇记录分别放入一组Barrel中,创建一个部分排序的索引。索引器还需要完成一个很重要的工作,就是分析出每个网页的连接地址,并将与之有关的信息存储到文件Anchors文件中,包含每个连接时链出还是链入,以及连接本身的文字信息。URL定位器URL Resolver读入这个文件内容,并将相对URLs转化为绝对URLs,再转换为DocID,同时将链接文字放入索引中,并产生一个有DocID和它们之间连接所构成的数据库,以帮助计算每个网页的PageRank值。排序器将会读入桶中由DocID标志的内容,并重新按照DocID进行排序以产生倒排索引。排序器还将产生一个WordID列表,而一个成为DumpLexicon将处理这个WordID列表,同时生成一个新的字典Lexicon。检索器就是利用这个字典、倒排序和PageRank值来完成用户的检索查询要求。
3.3.2 基于概念的信息检索
索引引擎大多采用全文检索技术,其核心是关键词匹配。但这种方式参与匹配的只有表面的字符而不是这些字符所表达的概念。而基于概念的信息检索突破了关键词匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理检索用户的请求。
概念检索的主要内容包括两个方面:同义扩展检索和相关概念联想检索。其中同义扩展检索能够提高检索的召回率,而相关概念联想检索能够加强系统与人的交互,使其具有一定程度的智能。有很多方法可以实现概念检索,比如通过构造一个概念空间的语义网络来实现概念检索。
4 个性化搜索引擎
4.1 模型设计
针对当前搜索引擎存在的问题,可以利用现有的技术优势构造一个既能满足个性化需求又具有较强智能学习功能的个性化智能信息检索系统。实现用户个性化检索和集中浏览相结合的检索方式,以及与Internet上的搜索引擎相互协作等功能(即系统根据用户提交的信息查询任务直接从Internet上的搜索引擎里获得相关的信息,然后进行截取和收集)。
其系统流程可分为:根据统计用户的日志文件,分析用户行为习惯,确定用户的兴趣。带着用户的兴趣在元搜索引擎中进行信息搜集。搜集结果组织起来返回给用户,同时组织到信息数据库中保存。经统一的相关度和权值进行二次排序,对用户所确认的信息进行内容挖掘,对用户举动加以预测和补充。
其系统体系结构图,如图1所示。
由以上设计的系统结构图可以看出,该系统模型由用户个性模块、信息检索模块和信息排序模块3个模块组成。各模块的功能如下:
用户修改模块:获取与用户有关的信息,确定用户的举和偏好并以一定的方式予以表示,预测用户潜在举动并对库做出相应的调整。
信息搜索模块:带着用户特定的兴趣,运用元搜索引擎,从成员搜索引擎中采集和搜集信息。
信息排序模块:将检索结果实时反馈给用户,并按照一定的权值定时排序,从而预测用户兴趣。
4.2 使用技术
4.2.1 信息搜索改进
元搜索引擎系统首先根据结果排序算法对检索进行并提升结果给用户,在用户进行浏览查看的同时记录并保存浏览顺序,从而调整结果记录对应基本搜索引擎的分值,进而可以作为排序算法的一个考虑因素,用于在下次检索时调整结果排序的顺序。使用对应成员搜索引擎的评分和文件的局部相似度的乘积进行排序。为了体现个性化服务设计宗旨,在采集截取信息时,设计对来源不同的信息进行不同的重要性处理,这样可以使用户在进行二次搜索的时候系统首先呈现给用户极具价值的信息,在此引入重要性规则计算重要性评分。系统在不断跟踪用户选择情况后,多数用户的选择就会保证元搜索引擎排序结果的准确性,查询代理充分利用用户的点击情况,及时调整索引数据库的结果排序,不断学习反馈,达到不断提高查询准确率,满足用户查询要求目的。
4.2.2 排序处理
现有的大多数元搜索引擎在从各个搜索引擎所返回结果的集成过程中,所采用的方法有如下两种:一是直接将不同搜索引擎的结果合并,然后返回给用户服务;二是将响应速度最快的搜索引擎的搜索结果最先返回给用户服务。在确定了每个搜索引擎的模糊测度以后,可以利用模糊积分算法对搜索引擎返回的结果进行排序。
4.3 信息处理优化
信息处理和索引是个性化引擎系统性能提高的一个关键。为了提高信息处理的能力,本系统特别对中文分词进行了研究和改进,以提高系统的综合性能。
4.3.1 中文分词的优化
搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及到的技术就是中文分词。关键词查询的前提是将查询条件分析成若干关键词。英文是以单词为单位,词与词之间是直接使用空格隔开,也就是说一个单词就是一个词,但是中文就没有这么简单,主要问题是中文词与词之间没有分界符,需要人为切分,这也称为切词。
现在的中文分词算法有简单的也有复杂的,如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。
基于字符串匹配的分词方法又叫做机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功识别出一个词。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,按照不同长度优先匹配的情况,可以分为最大最长匹配和最小最短匹配,按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法为正向最大匹配法由左到右的方向、逆向最大匹配法由右到左的方向和最少切分法。
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括3个部分分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。还有一种是基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阂值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高但并不是词的常用字组,并且对常用词的识别精度差,时空开销大,实际应用的少。
为提高系统性能,本系统优化了中文分词的算法,使之适合个性化系统的需要。在具体的设计过程中,结合使用正向和反向匹配法,采用回溯法保证最少词数量的算法。
4.3.2 词库设计
无论使用哪一种分词算法,要能对中文进行分词,词库是离不开的。词库设计的好坏将直接影响到分词效率。由于设计的是个性化的引擎,在设计时特别需要区别同字异义的情况。关系数据库的数据结构及关联表达得清楚又简单,并使某些查询的效率变得很高。但是它不适用于中文分词,相反层次数据库数模型更适合。为此,可以选择百大提供的基础词库和同义词库,采用匹配算法,建立用户的词典。
词库经这样设计后对词库的字符串匹配就变成了对单个字的查找,然后再根据词库里所存词组的长度对句子进行匹配,匹配一旦成功可通过词组后面的标志位来判断是否存在以该词组开头出现的其它词组。这样的好处是即解决了词组长度匹配的限制,也解决了可能出现的歧义,而且大大的提高了分词效率。建立了这样的词库以后,就可以进行分词了。
算法实现:词库设计好之后的下一步工作就是解决如何实现将词库装入到内存中的问题。词库如果以层次的形式存入SQL Server数据库是不可能的,因为SQL Server是关系型数据库,那么层次数据库的搭建只能在程序设计方面想办法,在C++只要以数组加链表便可很容易的实现上面的层次数据库。词库一旦装载到内存中,对文本进行字符串匹配将是非常简单的工作。对一个文件中出现的词组进行统计,这里采用的是二叉排序树技术,当分析出一个词时,对二叉树的查找将是线性的。
5 结语
体现了一个完整的个性化搜索引擎的设计过程。由于机器的软硬件条件和实验数据有限,在现阶段只能对部分的程序进行测试。未来,将会对多个环节进行开发和测试,以调整整个搜索引擎的使用,获得最佳的搜集效果。另外,在检索性能方面,现在采用的是关注查准率,随着庞大数据库的建立和用户规模的扩展,可以更好的研究和开发利用,并同时关注查全率和响应时间。
参考文献
[1]王继成,萧荣.Web信息检索研究进展.计算机研究与发展[J].2001,38(2):187-193.
[2]萧嵘,王继成,孙正兴,等.一种SVM增量学习算法ISVM.软件学报[J].2001,12(12):1818-1824.
[3]张伟.基于WWW的聚类引擎研究「D].PhD thesis,计算机科学与工程系,重庆大学,2003.
Web信息检索 篇7
通过搜索引擎查询信息是网络用户日常生活的一部分。使用者除了查询相关信息,也经常重复查询曾经点选或造访过的网页或网站。根据多项研究,个人造访的网页中有超过半数以上是再访的网[1]。而就搜寻引擎的检索语句等领域,一项针对Google!的检索语句分析研究证明,39%是来自使用者曾查询及造访网页所使用的检索语句,显见搜索引擎的流量中,有颇高比例是来自重复查询。这种同一使用者在一段时间后进行重复查询的行为即称为Web资源二次查询[2]。相较于网络使用者的一般性检索行为研究已颇具成果,Web资源二次查询的研究则是近几年才开始受到重视的。
有关Web信息二次查询的相关研究,因网络检索环境的变动性大,研究情境较难控制,如一次查询与二次查询的时间长短、使用者需求的多样性及搜索引擎的变动性等,使得研究设计十分困难。目前相关研究多以探讨某特定议题或某因素变项的实证性研究为主,研究方法也以实验法或访谈法居多[3],本文也是基于此角度进行相关分析与研究。据Teevanetal(2007)[3]要求119人一小时内回覆的前输入的检索语句测试中,有30%调查对象回想的检索语句是错误的。由于网络环境的变动性及信息初始查询情境的多元性,网络资源重复检索与一般信息初始查询的检索行为可能存在差异,值得进一步探究。
Web搜索引擎的检索模型中广泛引入了pagerank算法和HITS算法,可以通过分析整个Web上网页间相互链接的关系找出查询相关的网页。但由于不是每一个链接都具有注解性,有些链接是为了广告而建立的,使得pagerank的算法精度不高,且如果最终的网页不在结果网页集中,Pagerank算法就无能为力,HITS算法则存在主题漂移的现象,从而使得检索的精度不高。
本文通过分析网络用户Web资源二次查询的检索行为特性,以实验、观察、访谈、问卷等方法,尝试研究网络用户的Web资源二次查询检索行为特性。研究结果显示,相较信息一次查询行为,用户于Web资源二次查询过程中所使用的检索方式更为多元,也会交互使用多种检索策略寻得先前情境线索,所采用的检索优化更为复杂。研究结果除提供Web资源二次查询相关研究的参考,同时也有助发展协助使用者二次查询信息的功能设计参考。
1 Web信息二次检索分析
信息一次查询与信息二次查询属于不同的搜寻活动类型。Capra(2005)的研究指出(如表1所示),信息一次查询偏重探索性活动,在检索过程中,使用者并无法预期检索结果内容,因此较具不确定性;而信息二次查询的检索过程,则因使用者曾看过检索结果内容,相较之下,其对检索结果多有预期,目标信息也较为明确。此外,在这两类活动中,使用者的认知活动及使用策略也略有差异。就信息一次查询行为,使用者多依靠个人既有的知识与直觉,针对检索结果进行再认,以决定是否符合所需;而Web资源二次查询则常借助回想与再认,强调回忆线索的建构与目标导向式的浏览。如Lansdale(1988)提及[4],回想与再认会相互影响,即用户会回想目标信息的部分资讯(如前次使用的关键词、检索结果的标题、储存的位置等),以此缩小检视范围,再加以确认。
2 基于Web信息二次查询的信息检索策略实证研究设计
2.1 研究对象设计
本研究对象为抽样,共有100名国内图书信息领域的学生参与本研究。以国内硕士生为对象的主要考虑,包括研究生多具备相当信息素养,其信息检索知识与经验较一般用户为多;同时,硕士生进行论文研究时,多需大量搜寻及收集信息,甚且进行个人信息管理,因此常有二次查询网络信息的需求与经验。
2.2 研究思路设计
本研究主要采用实验法,并辅以观察、问卷及访谈等方法。实验设计主要分两阶段的实验方式进行。考虑调查对象若时间过久未查询先前一次查询的数据,甚至完全遗忘,可能等于重新查询,而较难观察一般一次查询与二次查询的关联。因此本研究以采用一周为实验间隔。
首先有关信息二次查询的行为特性及因应策略是较常见的研究议题。在观察使用者如何重返网页及所遭遇困难的研究中,其发现使用者常会以「where’d it go?」(网页跑去哪?)来表示未能造访先前网页的困惑[5]。换言之,使用者在重返网页却未能及时获取该网页时,其最初的反应多希望获得路径而非目标信息,显示路径在Web资源二次查询中是一重要线索。此研究结果与Maglio[6]先前研究发现颇为一致,即使用者在回想其检索历程时,多会记住路径中经过的关键节点及其检索路线。这些关键节点也就是所谓的导航点,即用户在一次查询信息的路径中所出现的网页或网站。用户虽无法记得明确的一次查询路径,但常能再认或回想路径中的导航点。根据信息明确度也将导航点分为三种:网页/网站、网址URL、网页内容细节等。
2.3 研究方案设计
实验开始时会先引导调查对象一次查询并取得目标信息;间隔一周后,再要求调查对象二次查询并取得目标信息。实验过程中使用LogSquare屏幕操作录制软件,记录调查对象的一次查询与二次查询的检索历程。二次查询过程中,本研究并不限制调查对象所选择的二次查询策略,以客观观察调查对象可能采用的二次查询策略,如重新寻找、检视浏览器所保存的暂存记录、检视个人保存的档案记录等。最后本研究也与调查对象进行访谈,以进一步了解其二次查询。
有关指定检索任务的规划,为贴近调查对象日常生活情境,本研究先设计一个网络调查问卷,搜集调查对象相关网络活动,主要为生活取向的网络活动。生活取向系指调查对象利用网络从事非学术性的活动类型,如购物消费、娱乐休闲、金融交易等。问卷内容主要询问填答者经常及很少进行的生活及工作取向网络活动。Web问卷调查于2012年3月1日起至3月15日,共取得226项网络活动描述。
扣除非搜寻类型任务(如收发E-mail、上传或下载文件等),本研究参考上述收集到的网络活动描述,共设计4项指定检索任务(如表2所示)。
正式实验进行前,调查对象须填写检索任务调查表,包括对任务的熟悉度及接触次数等。在两阶段的实验中,每位调查对象须完成8项指定检索任务,共取得144笔任务结果,扣除无效样本8笔(如花费时间太久或无法一次查询目标信息而自行放弃等),有效样本共计122笔。实验结束后,会请调查对象填写检索结果评估表,包括其满意度、认知难易度、是否成功找到目标信息等。最后再进行一对一访谈,主要了解其对二次查询过程的主观感受及对支持方式的改善建议。从表中可以看出,相对比于信息一次查询行为,在Web资源二次查询过程中所使用的检索方式、检索策略更为多元化、所采用的检索优化方法更丰富。
3 研究结果分析
本研究通过两阶段的网络信息一次查询与再一次查询实验,初步分析Web资源二次查询的检索行为特性,主要关注其检索方式的使用特性及检索优化,分述如下。
3.1 检索方式与手段分析
根据实验结果,调查对象二次查询信息时,仍与信息一次查询阶段一样使用相同的浏览器。调查对象所使用的浏览器种类不尽相同,而针对二次查询的支持功能,调查对象表示包括可记忆最常浏览网站、可设定常用网页、网址列具助记检索词汇或URL功能、可查询检索历史等。就二次查询的检索方式与手段,多数调查对象最常利用搜索引擎进行二次查询,且不会更换信息一次查询阶段所使用的搜索引擎;其次为直接输入URL撷取网页,即调查对象会利用平日熟悉的手段二次查询信息;最后则是使用浏览器中的检索历史,这类手段可作为辅助回想的相关线索或作为检索来源,如同Soergel(2007)指出,检索历史具有记忆支持、检索系统使用、或信息使用等辅助功能。值得注意的是,超过八成的检索任务,调查对象是以单一检索手段即成功二次查询信息,但仍有二成检索任务使用超过二种以上的检索手段。简言之,相较一次查询阶段集中于搜索引擎的使用,二次查询的检索方式显得较为多元。
3.2 检索策略与优化分析
根据研究者观察及访谈结果,如同资讯一次查询阶段,调查对象在二次查询阶段也以关键字检索与浏览为主要检索策略。但其同时也会回想信息一次查询阶段的相关情境信息。部分调查对象会记得导航网页,却忘记目标信息;部分调查对象则是记得目标信息,却忘记导航网页。若为前者情境,调查对象多会采取依循信息一次查询阶段的检索路径二次查询信息;若为后者情境,调查对象则多选择重新寻找。
除上述检索策略外,调查对象亦会交互使用关键字搜寻及浏览策略,从中寻找相关情境线索,逐步接近目标信息,即所谓的定向式检索策略。就检索优化的运用,由于二次查询较一次查询阶段来得复杂,调查对象使用进阶检索功能的比例较高。如表3所示,调查对象一次查询与二次查询信息过程中经常使用「空格」以表达AND的交集功能。扣除空格的使用情况后,两阶段实验实际运用布林逻辑运算元与修饰符号的使用比例,皆低于5%,与一般使用者搜索引擎检索行为特性颇为相似。整体而言,Web资源二次查询阶段使用的进阶检索功能比例较高。
4 结 语
本研究主要通过指定检索任务的实验情境,分析网络用户的Web资源二次查询检索行为特性。研究结果显示,就检索行为特性,搜索引擎虽同时为信息一次查询与二次查询的最主要检索方式,但二次查询的检索方式显得较为多元;二次查询阶段也以关键词检索与浏览为主要检索策略,但其同时也会交互使用这些策略,从中寻得相关检索情境线索;二次查询所使用的检索优化也较为复杂。只有综合利用相关手段,才可提高相应的检索效率。
针对未来研究建议,以目前网络搜寻方式多以信息一次查询观点设计,很少以Web资源二次查询观点进行探讨,如何设计一具有保存个人使用情境的检索系统,是值得进一步发展的方向。同时,本研究仅以某校区图书信息领域研究生的小样本进行实证,未来若能增加其他领域或不同人口背景的研究对象,将有助于了解不同类型用户的信息一次查询与二次查询行为差异与检索成效,并提升研究结果的概括化。此外,本研究的实验场域为网络的搜索引擎平台,且着重于较一般性的信息需求,未来若能以特定的机构组织作为研究对象,将有助了解不同机构组织的二次查询行为特性,并可比较组织与个人情境的二次查询行为差异。
参考文献
[1]张银犬,朱庆华.网格环境下个人数字图书馆信息检索策略[J].中国图书馆学报,2007,33(3):56-59.
[2]贾丹明.专利技术信息检索策略解析[C]//第十六届中国竞争情报年会论文集,2010:230-233.
[3]杨林,张永胜,邢长明,等.基于教育资源网格的信息检索策略[J].计算机应用研究,2009,26(4):1484-1486.
[4]程琳.谈信息检索策略与方法新观点[C]//《图书情报工作》杂志社、图书情报工作研究会第23次图书馆学情报学学术研讨会论文集,2010:1-3.
[5]张辉.基于语义关联技术的信息检索策略[J].计算机工程与设计,2011,32(12):4291-4293,封3.
[6]肖红.浅析网络信息资源的检索策略[J].中小企业管理与科技,2011(30):296.
[7]鄢百其.信息检索策略优化分析[J].武汉科技大学学报:社会科学版,2011,13(2):237-239,248.
[8]李璐,江葆红,孙红红,等.搜索引擎检索策略调整研究[J].内蒙古科技与经济,2011(14):81-81,84.
[9]刘科,秦磊华,周敬利,等.内容感知存储系统中的两阶段检索策略[J].计算机科学,2011,38(5):20-23,48.
[10]鄢百其.便于快速入门的检索策略模式[J].情报理论与实践,2011,34(12):126-128.
[11]Effects of Spatial Locations and Luminance on Finding and Re-findingInformation in a Desktop Environment[C]//27th annual CHI confer-ence on human factors in computing systems 2009(CHI 2009):Ex-tended abstracts,2009,2:815-820.
Web信息检索 篇8
目前Web上的作物信息资源大多是分散的半结构化(XML)或是非结构化(Html)的文档,即大部分的作物信息资源都没有按照语义网的标准进行语义标注,查准率低,查询的冗余度高。基于语义Web的作物信息智能检索系统正是针对这些杂乱无章的作物信息资源进行设计。创建作物信息知识库,通过对文档的结构化处理和对用户需求进行的语义分析来实现在语义关联层面上的信息检索。
1 语义网的概念及核心技术
1.1 语义网的含义及结构
初期语义网的结构[1],如图1所示。在最底层Layerl中,Unicode是通用字符集,它包括世界上所有的语言、字母和文字。URI可以标示抽象资源、物理资源。在Layer2中包括XML语法、NS(name space名称空间)和XML Schema(XML模式),它们都是自描述文档。在Layer3中包括RDF(resource description framework)资源描述框架和RDF模式,提供了用于描述Web资源的技术。Layer 4是本体论层,是语义网的基石。Layer5和Layer6分别是逻辑层和验证层,它们与XML数字签名一起构建所谓的可信网络。
1.2 语义网的关键技术
RDF和RDF Schema:RDF(资源描述框架)提供了描述元数据[1],而RDF Schema(RDFS)则是用来定义描述所用到的主体(subject)、谓词(predicate)及客体(object)的。用面向对象的思想来类比它们之间的关系,则RDF是用来完成实际工作的对象,RDFS就是用来定义对象的类。
本体论:本体论着眼于定义概念并表达概念间的关系,是由术语抽象而来的概念,它规范地阐明了从术语到概念的映射。一个完善的本体能够提供结构的主体和概念的关系,包括父类/子类/对象(superclass/subclass/instance)关系、属性值(property value)、时间关系以及其它依赖于所用的表达语言的关系等。本体通过比较逻辑概念结构来推理概念的含义。由于本体能通过概念间的关系来表示概念语义,从而能够提高检索的查全率和查准率。
2 基于语义网的作物信息检索系统的体系构建
基于语义Web的作物信息检索系统的资源获得来自于网络,使用本系统的用户也是大量使用网络进行查询的分散用户。而需要上网进行检索的大部分农民用户经济条件有限,很难达到C/S(客户端/服务器)模式对机器硬件的需求,系统将来的升级维护也有一定的难度。除此之外,要求每个用户使用相同的操作系统也是比较困难的事情。为方便用户使用、节约研发和后期维护的成本,本系统采用B/S模式。用户只要安装了任意一款浏览器,便可以非常方便的使用该系统。系统模式如图2所示。
该系统的目的是为了实现网络信息资源的共享,根据对系统功能的分析,按照高聚合、低耦合,数据冗余小及便于系统集成开发的系统开发原则,结合根据智能检索的流程可以将本系统分为五大模块组成:网页搜索与下载模块,网页分析模块,索引文件创建模块,作物知识库管理模块,控制和管理模块。各模块之间的关系如图3所示。
3 作物知识库的构建
在作物信息检索系统中,要提高检索的效率,作物知识库是关键。本系统所设计的作物知识库应该包含:作物学的专业术语,作物的遗传规律,育种技术,作物的生长发育,品质形成规律及其与环境的关系等各个方面。
该作物知识库的主要目标是有效的组织管理作物学相关知识。其功能主要包括:如何有效地存储和检索大量作物学相关数据(数据的输入和输出、数据编辑、按属性和关系名进行查询、更新数据库等)。为了提高作物信息检索系统的检索效率,该知识库还希望能有效地实现作物知识的表示和推理机制。其推理的知识规则和事实都以数据库的形式来存储。
该系统采用了基于关系数据库的产生式知识表示方法,利用Oracle数据库管理机制来组织作物知识库,这样组织的优点体现在:1)借助于数据库的管理机制,可以很方便地对知识库进行扩充、维护和修改,使今后无论做功能上的扩充,还是做性能上的改进都有可能。2)便于知识的运用和输入、输出,以及知识库内容的一致性和完整性检查及维护。3)实现了从规则文件到规则数据库的转变。在传统产生式规则表达中常常利用文件表达方式。用文件表达规则比较混乱,并且检索效率低,无法提供规则之间的语义约束,特别是当规则库较大时,这些缺点表现得更为明显。因此,将产生式规则移植到数据库系统中,利用数据库技术实现产生式规则的表达、检索和语义约束,既提高了知识表达的规范性,又提高了知识表达的灵活性。
由Oracle组织的该作物知识库比较庞大,由于文章篇幅有限,其图示在此省略。
4 基于语义网的作物信息检索系统的设计
由于在互联网上的大部分作物信息资源都是半结构化或者非结构化的文档,该系统针对目前Web上存在的主要的HTML文档形式提出了一种结构化处理的办法:在网页文档中用本体的概念集进行匹配搜索,找出文档中与本体概念集相交的概念集合,然后使用本体内部定义的属性关系进行推理判断,推断出这个文档是否属于作物学本体领域,如果属于此本体领域,则按照这个交集对文档施行半人工化标注。将文档里的一些数据与领域概念联系起来,使得文档里的数据具有一定的语义。其设计的流程图如图4所示。
5 展望
该系统虽然实现了基于语义网的作物信息检索,但其技术还不够完善,还需要进一步的改进,归结起来主要有以下几点:
1)由于受实验条件的影响,本系统是在自写的压力测试程序下进行压力测试的,其实用性能如何还有待检验,还需要对系统作进一步的评估;2)当前,Web上存在的资源绝大多数都是非结构化的Html文档,而如果需要对这些文档进行元数据标注,则需要大量的人力资源进行手工或者半手工化处理。虽然在本研究中引入了本体的概念,但对大规模的文档的标注仍存在问题;3)本体的构建不完善,还需进一步完善;4)随着万维网的不断发展,该还需要进一步完善来适应互联网的发展。主要是下面几个方面:(1)在提取网页属性和分析网页间的关系的时候,规则的定义是人为的,这就需要人为的观察和分析网页的特征,并构造规则,随着万维网的不断更新变化,这一工作要不断地进行;(2)如何在深度搜索中提高初始页面的相关性,用以控制相关链接的数量,提高查询的效率;(3)如何保证提取的元数据的准确性,如何获得更多的元数据,以提高系统的实用性。
参考文献
[1]Berners-Lee T,Hendler J,Lassila O.The semantic Web[J].Scientific American,2001,284(5):34-43.
[2]官春云.农业概论[M].北京:中国农业出版社,2007:52-70.
[3]Rrigoris Antoniou.语义网基础教程[M].北京:机械工业出版社,2008:30-58.
[4]崔运鹏.基于本体论的农业知识管理关键技术研究[D].北京:中国农业科学院,2007.
Web信息检索 篇9
随着因特网的迅猛发展与广泛应用, 因特网上的信息成指数增长, 且信息具有量大、分散、异构等特性。因此, 传统的Web信息检索工具开始暴露出它性能低下的一面, 具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录, 根本无法从中再细找, 或者找到的内容和要找的内容不是一个专业领域的, 造成在消耗巨大的通信资源后依然存在资源查不准、查不全的现象。如何自动地从Web上抽取和过滤信息、如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务, 使用户在尽可能短的时间内有效的找到最需要的信息内容是目前迫切需要解决的问题。基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体, 并使其从客户端看来就如同一台服务器在服务, 这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。本文利用Web数据挖掘、集群系统、XML等技术设计了一个专业化的Web信息检索系统, 为用户高效地获取面向专业内容的信息资源提供了一种方法。
1 构建数据仓库和数据挖掘技术的必要性
Web上的信息资源具有海量、分布动态、异质等特点, 这些数据十分繁杂, 要从中发现有价值的信息或知识非常困难, 因此相继产生了数据挖掘和数据仓库等技术。
数据挖掘也叫数据库中的知识发现 (knowledge discovery in databases, KDD) , 是一个从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的过程。数据仓库 (data warehouse, DW) 是2O世纪9O年代初由W.H.Inmon首次提出的。他对数据仓库的定义为:“数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合”。
数据仓库中集成和存储着来自异质的信息源的数据, 而这些信息源本身就可能是一个规模庞大的数据库, 同时数据仓库存储了大量长时间的历史数据, 所有这些数据易受噪声、不一致等因素的影响, 所以在进行数据挖掘前要进行数据预处理, 本系统是把以上数据转换成X M L数据, 利用X M L在数据组织和交换方面的优越性, 建立基于X M L的W e b信息集成系统, 以提高数据的质量和挖掘的速度。
2 关于XML
XML (the eXtensible Markup Language) 是W3C于1998年宣布作为Internet上数据表示和数据交换的新标准, 它是一种可以对信息进行自我描述的语言, 它允许开发人员通过创建格式文件DTD (Document Type Definitions) 定制标记来描述自己的数据, D T D规范是一个用来定义X M L文件的语法、句法和数据结构的标准。XML使用普通文本, 因此具有跨平台的优点, X M L的优点在于:
(1) 简单、规范性:XML文档基于文本标签, 有一套严谨而简洁的语法结构, 便于计算机、用户理解;
(2) 可扩展性:用户可以自定义具有特定意义的标签, 自定义的标签可以在任何组织、客户、应用之间共享;
(3) 自描述性:自描述性使其非常适用不同应用间的数据交换, 而且这种交换是不以预先定义一组数据结构为前提, 因此具有很强的开放性;
(4) 互操作性:XML可以把所有信息都存于文档中传输, 而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用。因此它为基于特定专业内容的表达提供了一种极好的手段, 可以作为表示专业内容的语言。
3 XML对Web数据挖掘的适应性
XML是标准的通用标记语言SGML的一个简化子集, 将S G M L丰富的功能和H T M L的易用性结合到W e b的应用中, 以一种开放的自我描述的方式定义了数据结构, 在描述数据内容的同时能突出对结构的描述, 从而体现出数据之间的关系, 便于计算机从Web文件中提取数据。XML由若干规则组成, 这些规则可用于创建标记语言, 并能用一种被称作分析程序的简明程序处理所有新创建的标记语言, 正如HTML为每一个计算机用户阅读Internet文档提供一种显示方式一样, X M L也创建了一种任何人都能读出和写入的世界语。X M L解决了HTML不能解决的两个Web难题:Internet发展速度快而接入速度慢的问题;可利用的信息多, 但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息, 可使计算机和服务器即时处理多种形式的信息。
Web数据挖掘从数据挖掘发展而来, 是数据挖掘技术应用于Web信息的一个崭新领域。Web数据挖掘是从大量以HTML文档格式存储的异构、半结构、没有结构的Web页面及文档等网络数据中自动发现和获取信息, 对Web上发现的有用信息进行分析。所处理的信息包括Web文本、Web图片、Web视频、Web日志等各种媒体信息。Web数据挖掘主要类型有Web内容挖掘、Web结构挖掘和Web使用挖掘。下面将从以上三种类型来讨论XML在Web数据挖掘中的应用。
3.1 在Web结构挖掘中的应用
Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构, 以及文档URL中的目录路径结构等。通过分析一个网页链接、超链接数量和对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以获得有关不同网页间相似度及相关度。XML链接语言中的Xpath是有关如何在X M L文档中进行定位, 快速找出X M L文档中具有某种特征标记的一种语言;Xlike定义一个文档如何与另一个文档相连, 可以描述Internet上任意两个页面之间的关系, 而且还可以描述一个页面的某一部分同多个页面的多个部分之间的关系;Xpoint可以定义文档的各部分是如何寻址的, 借助于该寻址语言, 可以直接从URL中对XML文档的不同部分进行寻址, 允许通过编号、名称、类型或文档中其它元素的关系来对给定的元素进行定位。典型的例子是CleverSystem和Google等。
3.2 在Web内容挖掘中的应用
Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程, 它分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘可以对Web上大量的文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。Web多媒体挖掘主要是指通过对Web上的音频、视频数据和图像进行预处理, 应用挖掘技术对其中潜在的、有意义的信息和模式进行挖掘的过程。促进XML应用的是那些标准的HTML无法完成的任务, 如从没有严格的结构、类型和半结构化的HTML文档中抽取数据、处理与显示数据、查询数据, Web内容挖掘必须依靠XML的应用来实现。
3.3 在Web使用挖掘中的应用
当用户在网上浏览的时候, Web可以得到诸如日志的一些二手数据, Web使用挖掘就可以在这些数据中发现有用的信息, 从而预测用户的网上行为。对于一个网站而言, 网页浏览量、点击数、独立IP访问数等参数是反映这个网站用户访问情况的重要指标, 通过对网站LOG文件的分析, 可以获得网站访问情况的详细统计数据。针对这些统计数据进行的数据挖掘, 属于静态的Web访问记录的数据挖掘, 可以有效地提高网站的服务。例如:在个性化网站方面, Web使用挖掘根据日志、cookie等信息, 利用聚类分析, 发现喜好近似的用户类和同时被访问的网页类, 从而根据用户特征设计用户感兴趣的网页内容和结构, 而使用XML通过中间层技术则可以方便地将设计好的网页内容实时地、动态地展现给用户。
4 建立基于XML的Web信息集成系统
Web信息集成系统的目标是支持对Web上的多个数据源 (如不同Web站点、传统数据库、文件系统等) 的查询。Web信息集成系统除与异构数据库的集成系统相同外, 还要处理: (1) 大量的、数目递增的Web数据源; (2) 描述Web数据源特征的元数据很少; (3) 各数据源有很强的自治性。
4.1 Web信息集成的方法
建立W e b信息集成系统的两种方法:数据仓库方法 (warehousing) 和虚拟 (virtua1) 方法。前者是将各数据源的数据装载到数据仓库中, 用户的查询基于数据仓库的数据;后一种方法基于一个中间模式 (mediated schema) , 数据仍保存在局部数据源中, 通过各数据源的“包装程序” (wrappers) 数据虚拟成中间模式, 用户的查询基于中间模式。不必知道每个专门的数据源的特点, 查询执行引擎直接与wrappers打交道, 将基于中间模式的查询转换为基于各局部数据源的模式。虚拟方法更适应于数据源数目多、各局部数据源的自治性很高且局部数据经常变化的Web环境。
4.2 信息集成系统框架
本系统的主要思想是利用数据集成系统把多种类型的异构数据及有效的XML数据集成XML数据, 再利用Web数据挖掘从XML数据中分析出有效的、新颖的、潜在有用的知识, 以满足有户的需要。系统框架如图1所示。
其中, H T M L:表示传统的H T M L数据, 可作为系统已有的数据基础;Transform是XML中的类;RDB:表示传统的关系数据, 可作为系统已有的数据基础;T i d y是X M L Transform类中的方法tidyHTML () , 负责将源Web页面转换标准的XML文档;Structured TEXT:表示传统的结构文档, 可作为系统已有的数据基础;XSL:是一种由XML派生的语言, 它提供了一套正确有效展示XML文档的转换机制, 具有极高的可重用性和扩展性。
信息集成系统W4F (World Wide Web W rapper Factory) 是由宾夕法尼亚大学开发的, 它是生成Web包装器的Java工具包。W4F基于带有Web wrappers的中间件体系结构 (middleware architecture) , W4F允许应用程序员使用描述性的声明语言来建立包装器, 编译为Java组件并可以作为更大型的应用程序的一部分。其主要贡献包括;
(1) wrappers分3层, 包括检索、抽取和映射;
(2) wrappers的所有部件都是完全声明性的;
(3) 整体结构都可以从HTML页面中抽取出来而不是各组成部分的结构;
(4) 带有可视化向导的工具包可以帮助用户定义抽取规则并在使用前测试包装程序;
(5) 生成的包装器可集成于任何Java应用程序中。
本系统利用已有的大量传统数据 (如关系数据、结构文档等) 和Web页面的HTML作为数据基础。采用数据仓库方法对来自各种数据源的数据进行集成, 以XML数据的形式统一存储。然后把数据集成获得的初始XML数据, 由事先给定的XML数据的模式定义, 再利用Web数据挖掘技术进行有目的地抽取源数据, 检索信息。具体的工作过程如下:
(1) 请求、转换过程:用户发送的信息检索请求经集群系统服务器验证, 由信息集成系统采用数据仓库方法集成X M L数据;
(2) 将W e b页面的H T M L文件转换成X M L文件:主要是利用W3C站点上的一个共享软件Tidy, 用于改进HTML文档中的常见错误并生成X H T M L格式的数据, 再通过构建一个名为X M L T R A N S F 0 R M E R的J A V A类来完成将数据从X H T M L到X M L的转换以及其它一些X M L的任务。该类用U R L作为参数据, 返回一个X M L文档作为结果;
(3) 确定信息源:信息源来自XML数据中心, Web数据挖掘的第一步就是首先要确定挖掘的源头;
(4) 数据的抽取:利用Web数据挖掘技术进行数据抽取, 在执行数据抽取时, 确定要挖掘数据的页面, 然后调用XML Transformer TIDY将其转换成标准的XML文档;接着遍历XML文档, 找到所需抽取的引用点进行数据提取;再根据具体要抽取数据的输出要求编写样式单XSL文档;最后调用M e r g e X M L方法把多次抽取获得的数据写到一个X M L文档中供抽取者使用;
(5) 数据处理与应答过程:XSL使用Xpath遍历文档为转换选择元素或属性, 转换结果可以是纯文本或所有其它显示对象, 实现了XML数据内容与表现形式的分离。再将数据映射成X M L文档, 合并结果并处理、显示数据。
系统具有以下几个功能:
(1) 自然、友好、多种形式的界面;
(2) 集成多种类型的异构数据及有效的XML数据存储;
(3) 数据的检索。
5 结束语
由于Internet上的数据过于庞大, 数据具有极强的动态性, 而且更新十分迅速, 使得目前的Web信息检索面临着众多问题和挑战。本文利用集群系统、XML在数据组织、交换、共享与数据格式转换方面的优势, 对大量分散、异构的信息资源提供了一种有效组织和管理方法;并通过Web数据挖掘实现了信息资源的快速定位, 巧妙地在搜索引擎中更好的使用Web数据挖掘技术, 可以从根本上提高搜索引擎的性能, 改善效率。
摘要:本文利用集群系统、XML等技术对海量的信息资源进行了有效的组织和管理, 设计了一个基于数据挖掘的专业化的Web信息检索系统, 它能提高搜索引擎检索信息查准率和查全率, 改善检索结果的组织, 增强检索用户的模式研究从而使得检索效率得到改善。
关键词:WEB数据挖掘,集群系统,XML
参考文献
[1]孟小峰.Web数据管理研究综述[J].计算机研究与发展.2001.