网络信息检索

2024-10-21

网络信息检索(共12篇)

网络信息检索 篇1

随着网络信息资源的迅速增加, 信息多样化的程度不断加大, 诸如图形、图像、音频、视频、动画等多媒体信息日渐丰富, 其中图像信息的需求尤为大量, 而当前主要以文本方式进行检索的技术已不能满足人们对信息的需求。

基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字, 当用户输入相应关键字后, 系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术, 即根据图像信息的文件名、路径名、ALT标签等, 将其标注为一系列关键字的描述, 然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先, 由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注, 要由人工完整地标注网络上的所有图像, 不但费时费力, 而且往往是不准确或不完整的;其次, 不同用户对于同一张图像的看法不尽相同, 导致对图像的标注没有一个统一标准;再次, 这种方法将注意力局限在图像的著录特征, 即文字描述上, 不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。

1 基于内容的图像检索技术

基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容, 提取其颜色、形状、纹理等可视特征, 建立特征索引存储于特征库中, 在检索时, 用户只需把自己对图像的模糊印象描述出来 (绘制的草图或通过扫描仪等在线输入的图像) , 就可以通过多次的近似匹配, 在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。

基于内容的图像检索算法涉及的相关技术比较多, 主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。

1.1 基于颜色特征的图像检索

颜色特征是图像检索中最基础的一种检索依据, 颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中, 通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布, 横轴表示颜色等级, 纵轴表示在一个颜色等级上, 具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。

全局色彩的索引就是按全局色彩的分布来索引图像, 计算每种颜色的像素, 检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像, 一般是利用二维直方图, 如红—蓝直方图, 它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多, 如:比例直方图法、累加直方图法等。

色彩直方图还不能为像素在图像中的位置提供线索, 为了尽可能少地丢失信息, 提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域, 它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。

1.2 基于形状特征的检索

形状是刻划物体的本质特征之一, 利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索, 还包括三维形状的检索。

基于图像内物体形状的检索, 首要问题是采用合适的图像分割算法把不同对象从图像中分割出来, 关键是寻找符合人眼感知特性的形状特征。目前, 较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后, 将每个块看成是一幅小图像, 计算每个小图像的颜色直方图特征, 则每个块间的直方图是不一样的, 为分析边缘特征, 将相邻两个块构成一个比较对, 将每个块间的差值记录下来, 同时记录差值在一定范围内的数目, 这样就形成一个颜色特征差值表。图像对象空间位置发生变化, 其特征差值表也就不同。

1.3 基于纹理特征的检索

纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征, 它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化, 那么该物体就有纹理。

纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计, 主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上, 适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布, 如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。

1.4 基于知识的图像检索

基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合, 人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库, 针对一个图像需求, 搜索引擎依次调入每一幅图像的内容描述, 结合知识库中的相关知识, 以图像需求为目标进行推理, 如果需求目标得到满足, 则确定这幅图像符合检索要求。

2 基于内容的图像信息检索系统

目前, 基于内容的图像检索技术的研究取得了很大的突破, 较有影响力的有以下几个:

2.1 QBIC系统

QBIC (Query By Image Content) 是IBM公司于20世纪90年代研制的图像和动态影像检索系统, 其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发, 是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词 (它也提供关键词检索) , 只要输入以图像形式表达的检索要求, 即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等, 对大型图像和视频数据库进行查询。

2.2 Photobook系统

Photobook系统是由美国麻省理工学院 (MIT) 的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具, 图像在存储时按人脸、形状或纹理特性自动分类, 图像根据类别通过显著语义特征压缩编码。

2.3 Virage系统

Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似, Virage支持基于颜色、颜色布局、纹理和结构 (对象边界信息) 的可视化查询, 但Virage比QBIC更进一步, 它也支持由4个原子查询的任意组合, 用户可以根据他们自己的侧重调整4个原子查询的权重。

2.4 CORE系统

CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

2.5 Visual SEEK系统

由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统, 提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域, 这样的图像作为查询“日出”的草图, 使人们在Web上可以方便地搜索和检索图像和视频。

3 基于内容的图像检索体系结构

基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互, 以便用户能够方便地构造查询和改进检索结果, 用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上较相似的图像, 按相似度大小排列返回给用户, 即所谓的通过例子图像的检索 (Query By

Image Example) 。

基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:

3.1 图像的预处理

在特征抽象子模块里, 首先要进行图像的预处理, 包括图像格式的转换, 尺寸的统一, 图像的增强与去噪, 图像的边缘提取, 经过边缘提取获得图像的轮廓特征, 对其进行进一步轮廓清晰化处理等功能, 为图像的特征提取打下基础。

3.2 图像的目标标识

图像预处理后, 要进行图像的目标标识。目标标识为用户提供一种工具, 以全自动或半自动 (需要用户干预) 的方式标识图像中用户感兴趣的区域或目标对象, 以便针对目标进行特征提取并查询。当进行整体内容检索时, 利用全局特征, 这时不用目标标识功能。目标标识是可选的。

3.3 图像的特征提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取, 提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的, 即整幅图像, 也可以是针对某个目标的, 即图像中的子区域, 如人的面部特征或指纹特征等。

3.4 图像数据库

作为图像查询的后台基地, 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息, 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识, 有利于查询优化和快速匹配, 知识库中知识表达可以更换以适用各种不同的应用领域。

3.5 图像的查询接口

在基于内容检索中, 由于特征值为高维向量, 不具有直观性, 因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件, 可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外, 查询返回的结果需要浏览, 应在用户界面提供浏览功能。

3.6 图像的检索引擎

检索是利用特征之间的距离函数进行相似性匹配, 模仿人的认知过程, 近似得到数据库的认知排队, 存在一些不同的相似性测度算法, 检索引擎中包括一个较为有效可靠的相似性测度函数集。

3.7 图像的索引/过滤

索引是用来提供快速、有选择性地存取数据库的一种机制, 它相当于一种映射机制, 将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据, 过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征, 可以用R树来索引以加快检索速度。

基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段, 但基于内容的图像检索技术目前还存在许多有待发掘的内容, 因而, 基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。

摘要:图像检索是网络信息检索中的重要的组成部分, 而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念, 综述了基于内容的图像检索系统和相关技术。

关键词:网络信息检索,基于内容,图像检索技术

参考文献

[1]何惠芬.图书馆中基于内容的图像数据库检索技术[J].情报杂志, 2002 (7) .

[2]刘伟成, 孙吉红.基于内容的图像信息检索综述[J].情报科学, 2002 (4) .

网络信息检索 篇2

一、基本说明

1模块:高中信息技术基础

2年级:高中一年级

3所用教材版本:上海科技教育出版社

4所属的章节:第二章第三节

5学时数:45分钟(机房授课)

二、教学设计

1、教学目标:了解网络信息检索的几种常用方法;掌握利用搜索引擎获取网络信息的策略与技巧;能够根据问题确定信息的需求与,并选择适当的方法获取信息。

2、内容分析:本课是《信息技术基础》(必修)第二章第三节的内容,旨在培养和提升学生获取网络信息的能力,使其成为每位学生在信息社会必须掌握的生存技能,并为学生学会有效组织和处理信息奠定基础,是学生继续学习和不断发展的不竭动力。本节强调通过体验和感悟网络信息活动中的操作与应用,培养学生掌握利用网络获取信息的过程和方法,为学生的学习、生活和发展提供服务。另外,本节还注意引导学生形成自主学习意识、与他人合作意识,也为必修模块的其他章节和各选修模块开展多元化交流与合作奠定基础。

3、学情分析:学生已有使用网络检索信息的感性经验,老师要结合学生原有的认知基础加以归纳提升,使学生形成多网络信息检索的理性认识,并在实践中不断总结积累自己利用网络检索信息的经验,不断提高自己的网络信息检索水平。但是学生之间的差异比较大,老师要注意营造交流学习的氛围。

4、设计思路:由问题“你知道有关中秋节的传说故事吗?”引出利用网络获取信息的学习任务,在学生交流探究并实践的基础上,让先查到的同学汇报自己的检索结果和所使用的方法,带动全班同学的学习积极性和学习兴趣,一起参与到课堂教学中来,师生一起用探究学习和交流学习的方式总结出常用网络信息搜索的方法。

在此基础上进一步引导学生学习常用信息检索方法——关键词查询法,掌握关键词的提炼和组合,然后通过抢答比赛让学生去体会和总结网络信息检索的策略与技巧。

中国的传统节日形式多样,内容丰富,是我们中华民族悠久历史文化的一个组成部分。最后让学生综合运用本节所掌握的网络信息检索策略与技巧全面了解中国重大传统节日的相关文化,以此来增进学生对传统文化的了解和继承。

三、教学过程

教学环节及时间

教师活动

学生活动

对学生学习过程的观察和考查及设计意图

创设情境问题引入

3’

播放不到一分钟的中秋送月饼的flash动画片,然后引出话题:农历八月十五日,是我国传统的中秋节,也是我国仅次于春节的第二大传统节日。那么你知道中秋节有哪些传说故事吗?

学生回答

激发学生兴趣,让学生很快进入信息技术的课堂氛围。

课程实施

37’

5’

组成员之间交流探讨,试一试如何利用因特网查询中秋节的传说故事?

老师巡回

老师带领大家总结出常用的网络信息检索方法:

1、目录检索

2、关键词查询

、学生小组探索。

2、先查到的同学汇报自己的检索结果和所使用的方法

根据学生的探索了解学生已有的网络信息检索水平

7’

以上两类信息搜索方法中我们平时用的最多的是哪一类方法?你知道为什么吗?这两种信息检索法有什么区别?

在学生归纳的基础上,老师总结出两种信息检索方法的特点:

查询方式

比较项目

分类检索服务网站

关键词查询服务网站

实现方式

分类目录

搜索引擎

操作方式

层层点击

输入关键词

优点

得到比较系统的信息

得到具体的信息

缺点

难以准确找到具体信息

不适合找到系统的信息

、学生回答。

2、学生归纳比较两种信息检索方法。

培养学生归纳总结能力。

9’

老师读完题目后,小组成员分别利用不同的网络信息检索方法查询问题答案,先查到的,举手示意,经老师同意后汇报自己的查询结果。

答对者,给所在小组加十分,抢答答错者(包括抢答不遵守规则者)扣十分,其他小组继续抢答。整个比赛结束时得分最高组为优胜组。

学生检索问题答案进行抢答。、结合活动开展,巩固信息检索方法的使用,利于学生掌握新知。

2、通过分组活动培养学生的团结协作精神。

7’

小组成员之间交流比赛过程中自己利用网络搜索信息的体会,想一想如何才能使用搜索引擎准确快速地找到自己需要的信息,并推举小组代表总结发言。

师生共同总结出搜索引擎的使用技巧:

1、关键词的选择最重要。

(1)提炼关键词

(2)组合关键词

用布尔运算符组合关键词:

AND或“+”、空格

oR或“|”

NoT或“-”

2、不要局限于一个搜索引擎。

3、强制检索的方法——加英文双引号。如查询谚语“raincatsanddogs”的汉语意思。加英文双引号可大大提高搜索的速度和准确率。

、小组交流。

2、推举代表总结。、培养学生探究学习的能力。

2、培养学生归纳总结能力。

9’

背景:

保护好属于中华民族的传统节日,是我们的一种责任!在我国已经延续了几千年的传统民间节日端午节,却于XX年被韩国抢先申报为该国文化遗产。在各种洋节日益盛行的今天,端午节等传统节日日渐式微。

中国的传统节日形式多样,内容丰富,是我们中华民族悠久历史文化的一个组成部分。

请结合小组抽到的信息检索题目,查查相关中国传统节日的来历、习俗、传说、诗词并与同学交流。

请推举小组代表介绍:

小组查询的是关于中国哪个传统节日的内容?

具体查询方法是:

查询结果如何?

学生根据抽到的题目进行信息检索。

通过该环节对中国各传统节日相关文化的搜索,来加强学生对民族文化的认识和继承,树立起对民族文化的珍惜与爱护之情。

拓展

1’

不管是从因特网获取信息还是从其他途径获取信息,必须保证获取信息的途径和方法是合法的,严禁不合法的信息获取行为——偷窃国家或单位机密信息;运用偷拍、窃听等手段侵犯他人隐私;使用威胁或黑客入侵手段等。

使学生知道在使用网络的过程中,应该遵纪守法,自觉抵制不良信息,负责任的参与信息实践,养成良好的网络道德行为和习惯。

总结

4’

让学生谈本节课的收获,老师补充。

学生一起回答

回顾本课,对所学作总结,学生再回忆一遍,加深印象

四、教学反思

采取这种主题活动式教学,对教师的要求更高。要想组织好一堂课,教师必须精心设计课堂,把活动安排得更细致,并要考虑周全。最重要的是要引起学生的极大兴趣,这就需要教师有非常好的引导,并在过程中给予学生帮助与指导。要有随机应变、驾驭课堂的能力,能调动气氛。当要各小组讨论时,要能及时调动学生积极参与,教师巡视时发现学生的闪光点及时进行肯定与表扬,进而带动整个课堂的气氛。课堂设定的评价机制要明确,活动要达成的目标要明确。

网络环境下经济信息检索的特点 篇3

关键词:网络经济信息检索特点影响

随着网络技术的迅速发展,网络已成为世界上最大的信息资源宝库,其内容涵盖了包括经济领域在内的各学科领域。网络上经济信息资源非常繁杂丰富,面对无序、分散、动态的海量网络信息资源,如何高效检索到准确所需的经济信息成为了我们的一大难题。如果不对网络环境下经济信息检索的特点有所了解,检索起来犹如大海捞针,其结果往往鱼龙混杂、无用乃至有害,浪费人力、物力、财力。

一、网络环境对经济信息检索的影响

网络技术的不断革新标志着信息時代的到来,人们对网络环境下繁杂的经济信息也提出了相应的新需求。首先是及时性要求,网络经济信息资源之所以优于其它经济信息资源,很大程度上就是归功于它的及时性,而经济信息的及时程度也成为了判断经济信息是否有效的重要标准之一。其次是准确性,由于网络秩序和网络信息净化程度的缺失,在繁杂的网络信息中检索到目标信息的难度日益增大,网络经济信息的准确性是经济信息检索时的必须考虑的条件。再次是权威性,在检索过程中,会发现众多匿名或冒名的网络信息发布者所发布的题文不符、数据混乱等错误的信息。这就要求我们对经济信息的权威性加以考量,甄别信息的真伪与权威与否。

针对网络环境下经济信息需求的变化,随之的检索工具也有了新的变化。从以往的经济类工具书、光盘等到现在可利用的整个泛在网络。不可否认,在日常学习生活中,权威的搜索引擎成为了使用频率最高的工具。

同时,各种网络经济信息的检索工具的开发和利用也对我们进行经济信息检索时的应用技巧和策略提出了新的要求。要求我们在进行经济信息检索前,先弄清信息的数量、语种、年代范围、类型及作者等外部特征,这对于限定检索范围、制定正确的检索策略有重要的作用。

二、网络环境下经济信息检索的特点

不同的信息用户根据各自的特定需要在不同时期提出不同的信息需求,这就是网络环境下经济信息检索的个性化需求。正是为了应对用户的个性化需求,在网络中进行经济信息检索的标准化检索方式和途径才越来越少。多途径检索、多技术检索、个性化专题定制服务、特色专题门户网站、个人图书馆等个性化服务不断涌现,正反映了检索需求由标准化逐渐转向了个性化。这还表现在即使针对同一课题,在进行检索时,不同的用户也有着自己不同偏好的搜索工具和途径。比如,在检索林毅夫近年的文献专著时,有的人习惯用万方数据库检索相关文献,有的人则习惯用IBM智库百科直接检索林毅夫的简介并提取其中有关专著的信息。虽然最初的检索目的和最后的检索结果都是一致的,但由于个性化的偏好与需求,便自然而然使用了个性化的检索途径及工具。

现在的检索课题往往是由多个单一课题共同组成,且课题内容相互交叉渗透,实施检索十分复杂,这就要求我们使用多种检索工具。既有理论性的经济信息,也有部门、行业及应用性的经济的综合性经济信息网站,具有信息量大、内容系统全面、数据准确、时效性强等特点,是当前我国经济信息资源的精品,如:中国经济信息网;由地方信息中心建立,旨在了解各地区经济发展状况、促进本地区经济建设的重要窗口的地区性经济信息网站,如上海经济信息网;信息面较窄,向精深方向发展的行业性经济信息网站,如中国企业信息网;用来提供经济统计数据、商业报告、企业产品信息查询查询的专业文献数据库,如中国企业产品库。此外,网络环境下经济信息检索还具有检索技术手段的现代化、便捷化的特点,用户操作起来快捷简便、容易上手,这些特点也注定网络经济信息检索会成为以后经济信息检索的主流途径。

三、网络环境下经济信息检索的难点及改进措施

网络资源分布不均,有效的网络经济信息资源大多收录于专业数据库,而大多数专业数据库都是要收取费用的,检索费用的问题直接制约了用户的使用权限,增加用户检索的难度,也在无形之中降低了用户的检索积极性。这就要求各高校图书馆应加大对数据库等资源购买的投入,尽力满足读者用户的信息检索需求。大多数高校图书馆都支持网外访问,但是,从校园网外访问,有的数据库可以正常使用下载全文,如重庆维普、万方等;但是有的数据库,如中国知网、EBSCO又需要登录并提示IP地址不在允许范围之内。可见,各种数据库使用权限的不一致也给用户检索造成了一定的困扰。

网络资源分布不均不仅表现在收录位置的不均,同时还包括语言上的不均。如,网络上中文资源相比英文资源来说要少的多,质量也存在很大的差距,据统计,网络信息资源中有89%是英文资源,这无疑给普通的中文信息利用者带来了极大的语言障碍。当然,这就要求我们大学生努力学好英文,并以高标准要求自我,提高自己全英文检索经济信息的能力。

面对海量繁杂信息时,我们都希望能有人指点,给予导航。在进行经济信息检索时,如果能有学科导航对网站网页等相关信息进行再次加工组织并提供检索、浏览和链接功能,检索就会相对容易很多。我国很多著名大学图书馆都开展了学科导航这项服务。有关经济类的学科导航目前主要有北京工业大学图书馆的经济学导航,复旦大学图书馆的理论经济学与管理科学导航,清华大学图书馆的经济管理导航,上海财经大学图书馆的经济管理导航,北京大学图书馆的管理经济学导航等。这些学科导航使读者用户在分散、变化、价值不一的海量信息面前,能最快最好地检索到所需经济信息。

参考文献:

[1]徐汉荣,Internet上经济信息资源检索[J].江西图书馆学刊,2006,(1):42-44

网络信息检索 篇4

互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。

本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)

作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网 (Semantic Web)

为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 Word Net

Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

摘要:互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。

关键词:语义检索,本体,语义网

参考文献

[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.

[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.

[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.

论网络信息检索技术 篇5

摘要:20世纪以来,人类创生的信息量高速增长,浩如烟波。如何从这海量的信息里找出所需信息就成为信息检索的重任。随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。掌握信息检索的方法与技巧是非常有必要的,人们对快速、准确、有效地获取网络信息资源的需求是急切的,人们对网络信息的检索技术及其发展趋势进行探讨和研究,也是迫切而实用的。针对网络信息检索的各种方法与技巧进行了客观的分析与思考,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。关键词:网络、信息检索、检索技术、工具

0 引言

进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。

什么是信息?信息是消息,人们在学习、工作、日常生活中随时随地都在接受和利用信息;信息是资源,它具有使用价值和价值;信息是财富,且是无价之财富;信息是生产力要素,更是一种不可估量的促进生产力发展的新动力。因此,人类社会的发展,科技技术的进步,都离不开信息资源的开发和利用。而且,信息资源的真实状况及开发利用程度,已经成为衡量一个国家经济、文化、科技以及综合国力的重要指标。我们怎样快速的查找信息和有序的整理信息?信息检索是最快的途径。

信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。网络信息检索的现状以及策略

在这个高速发展的信息时代的社会,随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。用网络搜索一些信息,如了解时事、生活疑惑、寻医问病、自娱自乐等,通常都比较方便快捷。然而,网络信息资源相当丰富,多种多样,当人们进行专业信息检索时,结果往往不尽如人意。即便是经常上网高校的老师与学生也有常常搜索不到专业文献信息的时候。

由于信息资源数量庞大、各信息间又相互交叉渗透,使得一些科研课题资料的检索相当的有难度,因此,我们必须掌握合理的检索策略,这样才能保证我们能有满意的检索效果。所谓检索策略,就是正确的选择检索词、科学合理的提问等。首先应对要检索的内容进行细致的分析,将完整的主题分为一个个独立的检索概念,然后要注意选全、选好相关词。在检索英文资料时,还要注意英美不同的拼写形式以及检索词的单复数形式、缩写形式等,然后采用布尔逻辑的原理,将表达相关概念的各检索词组配起来,以转换成搜索引擎可以理解的信息提问式,在对其数据库进行搜索后,便可获得相应的结果。因特网上的信息浩繁庞杂,一些有价值的专业信息被大量无用信息所淹没,要想系统的、全面的、准确的获取有价值的信息,就需要学会科学的制定信息技术策略。

2网络信息检索的原理及方法

网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。

①布尔逻辑模型——这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。

②模糊逻辑模型——它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。

③ 概率模型——它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。

要在网上获取信息,我们就需要找到提供信息源的服务器。首先找到各个服务器在网上的地址,然后通过该地址去访问服务器提供的信息。大致有以下几种方法: 2.1漫游法

这是在因特网上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,具不可预见性和偶然性。

用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。此方法类似于传统手工检索中的追溯检索,即根据文献后所附的参考文献追溯查找相关的文献,从而不断扩大检索范围。这种方法可能在较短的时间内检出大量相关信息,也可能偏离检索目标而一无所获。2.2直接查找法

直接查找法是已经知道要查找的信息可能存在的地址,而直接在浏览器的地址栏中输入其网址进行浏览查找的方法。此方法适合于经常上网漫游的用户。其优点是节省时间、目的性强、节省费用,缺点是信息量少。2.3搜索引擎检索法

此方法是最为常规、普遍的网络信息检索方法。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持布尔检索、词组检索、截词检索、字段检索等功能。利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。其缺点是:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。

2.4网络资源指南检索法

此方法是利用网络资源指南进行查找相关信息的方法。

网络资源指南类似于传统的文献检索工具————书目之书目或专题书目,其目的是可实现对网络信息资源的智能性查找。它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息检索具有重要的指导作用。其局限性在于:由于其管理、维护跟不上网络信息的增长速度,使得其收录范围不够全面,新颖性、及时性不够强,且用户还要受标引者分类思想的限制。2.5 在线数据库查询

利用网上的在线数据库进行查询。访问网络数据库是用户获取学术性信息的最有效方法。网上在线数据库有很多,比如:超星数字图书馆、万方数据库资源系统、中国维普数据库、CNKI中国期刊网数据库等。

3网络信息检索详论

3.1网络信息检索方式

其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式

只要能够进入html就能够通过浏览器,利用HTTP协议提供的万维网服务,浏览接触页面和通过Web页面提供的检索方式访问数据库。

(2)搜索引擎方式

搜索引擎是internet提供公共信息检索服务的Web站点,它是以一定的技术和策略在internet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以web形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。3.2网络信息检索工具

从20世纪80年代起人们就开发了诸如Archive、WAIS、Veronica等检索工具,从90年代中期起又出现了检索万维网络信息资源的搜索引擎技术,并以此构造检索所有各类网络信息资源的集成化支撑体系。据统计,各种各样的Internet网络信息检索工具已有数千个,按这些工具的检索机制、检索内容范围,以及检索工具的数量、检索资源类型,可将它们划分为以下各类:

(l)按检索机制划分

根据检索工具的数据检索机制,可将检索工具分为检索型、目录型和混合型检索工具。(2)按检索内容划分

根据检索工具的数据内容,检索工具可分为综合型、专题型和特殊检索工具书。(3)按包含检索工具数量划分 根据检索工具数量划分,检索工具可分为单独型和复合型检索工具。(4)按检索资源类型划分

根据检索工具针对的数据资源类型,可将检索工具分为万维网检索工具和非万维网检索工具。

3.3网络信息检索技巧

目前常用的信息检索方法有两种:一种是利用搜索引擎进行关键词、主题词或自然语言检索。最著名的搜索引擎有AltaVista、Excite、HotBot、Infoseek等;另一种是按主题分类指南进行检索,如Yahoo!就是按主题组织资源、逐次分类,供读者按需查词的;有的检索工具两种方式可以随时切换使用, 如Info seek。相比之下, 前者信息的获取太杂乱, 鱼龙混杂, 精确度太低, 需通过多次筛选才能找到所需信息。而后者的信息组织系统性较强,精确度较高。但主要问题在于获取率较低且很难反映信息之间的关联性。由此可见, 两种方法各有利弊, 读者要根据检索的目的来挑选和使用检索工具,同时要学习一些提高检索效果的方法和技巧。

(l)检索关键词具体化;(2)运用词组检索;

(3)巧用Boolean逻辑词:AND、OR 和NOT。

4网络信息检索的技巧

在中国,用来获取中文信息的搜索引擎,主要是扬名华人世界的百度搜索引擎和全球闻名的Google搜索引擎。Google在外文信息搜索方面有绝对的优势,并较早推出了中文信息搜索,而百度专攻中文搜索,并在汉语特点研究等方面做出来很大贡献,近几年又推出了多种特色搜索服务,从而在中文网络搜索领域占据了绝对的优势。另外,我们常见的搜索引擎还有雅虎、网易有道、百度等。掌握网络信息搜索技巧对于很好地利用这些搜索引擎很有帮助,对自己搜索信息更是简单至极。通过互联网获取信息,如何避免在浩瀚的互联网海洋中迷失方向,掌握一些基本的网上搜索技巧可以说是必需的。网上的信息搜索技术如此的多,怎样才能高效迅速地找到问题的答案呢?有几种技术可以帮助你更加快捷地找到所需网页。没有一种技术是万能的,但将几种技术巧妙地结合起来使用会大大加快网页搜索进程。

网上的内容虽然很丰富,但必须先有人放上网。搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,很可能成为漏网之鱼。所以在使用搜索引擎之前,应该先花几秒钟想一下,我要找的东西网上可能有吗?如果有,又可能在哪里?网页上会含有哪些关键字?

一次成功的搜索由两个部分组成:一个设计优秀的搜索请求和一个准确可信的搜索结果。在你点击任何一条搜索结果之前,快速地分析一下你的搜索结果的标题和网址,会帮你节省大量的时间。

比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND和OR或NOT,恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合。

如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。很多搜索引擎都支持在搜索词前冠以“+”限定搜索结果中必须包含的词汇,用“-”限定搜索结果不能包含的词汇。

在Internet上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果您正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。

如果只给出一个单词进行搜索,经常会出现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND与逻辑结合起来,或者在每个词前面加上“+”,这种与逻辑技术大大地缩小了搜索结果的范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样的语法。一个带引号的词组意味着只有完全匹配该词组,包括空格的网页才是要搜索的网页。把这几种符号结合起来使用,能大大提高搜索效率。网络信息检索发展

5.1网络信息检索的现状与发展

1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Solberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展。5.2 影响网络信息检索质量的因素

(l)搜索引擎在检索的实现过程中存在一些尚未解决的问题,影响检索效果(本身存在的问题)。

(2)页面的制作、组织过程中存在的欠缺会影响到被检索的信息质量。

(3)检索用户与搜索引擎的交互过程中,由于交互的背景不同,目的不同,会影响检索效果。

5.3网络信息检索工具展望

从最早的网络信息检索工具(如Archie)算起,它们作为一个整体只有不足十年的历史,而基于万维网的检索工具(如Yahoo!和AltaVista),出现的时间则更晚。可见,网络信息检索工具尚处于发展高峰期。

网络信息检索现今的主要问题是查准率太差。如今,人们正通过一些研究,设法使网络信息检索的空间在不影响查全率这一前提下,提高查准率,它们的未来充满希望。在网络信息检索环境中,检索、浏览和获取这三个过程相互交融,自由转换、合为一体,已展示出了信息检索的新趋势,为充分地利用网络信息资源创造了条件。

结语

人类已经进入了信息社会,信息社会化与社会信息化是当今重要的时代特征。信息检索作为传递、搜索信息的手段发展愈来愈快。如果不懂得信息检索,要在浩如烟海的各种信息中寻找自己需要的信息,就如同大海捞针一般困难,掌握了信息检索的方法和技巧,就可以使信息的查询过程更有条理性、计划性,避繁就简,事半功倍。所以,我们应充分利用信息资源,避免重复劳动。科学研究具有继承和创造两重性,纵观科学技术发展史,积累、继承和借鉴前人的研究成果是科技发展的重要前提。更新自身知识积累,适应社会发展需要。在信息社会,人们需要终生学习,不断更新知识,才能适应社会发展的需求。掌握信息检索的方法与技能,是形成合理知识和更新知识的重要手段。

参考文献

数据挖掘在网络信息检索中的应用 篇6

关键词 数据挖掘 网络信息检索 数据挖掘

中图分类号:TP311.138 文献标识码:A

目前,网络信息资源数据形式丰富多样,数量巨大,并呈几何级数的速度增长,基本满足了人们的信息检索的量的需求,然而如何快速、高效地找到自己所需要的信息,网络信息檢索在查全率和查准率上还相对欠缺。网络搜索引擎通常会返回给用户成千上万检索到的网页,其中大部分与用户的检索要求无关,另外就网络上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,人们需要比信息检索更精确高效的、能包含网络数据库在内的新的数据挖掘技术,数据挖掘正是在这样的应用需求下产生并迅速发展起来的。但是,数据库领域采用的数据挖掘技术所涉及的多是结构化数据,为了处理网络上的异质、非结构化或半结构化数据,网络数据挖掘成为数据挖掘研究的一个重要分支。

1 网络信息检索

网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一处终端查询各地上网的信息资源。网络信息检索主要依靠计算机科学技术、网络技术和数据的确切特征来创建相应的索引结构、数据库等,能很好地处理已经发生或存在的静态信息。网络信息检索工具包括传统的服务工具:远程登录、文件传输服务、电子邮件、电子公告牌、广域消息服务、Gopher、WWW、基于Z39.50的信息检索服务、代理服务器和NAT,以及搜索引擎和中外著名网络数据库检索。这些工具都能有效地组织和检索海量数据,但对数据未来的变化趋势等动态信息缺乏有效的统计和预测。

2 数据挖掘及Web数据挖掘

数据挖掘(Data Mining),即从大量模糊的数据中发现隐含的规律性内容,解决数据的应用质量问题的技术,是一种还处于发展中,已经部分投入实际生产实践的技术框架。

Web数据挖掘是从数据挖掘技术发展而来,简单地说是将数据挖掘技术应用到Web上,也称为Web挖掘。其技术性的定义是:Web数据挖掘,是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web数据挖掘的目的是为了揭示网络信息中隐含的知识,它是比信息检索层次更高、更精确的一种技术。它能够根据用户个性化定义的要求,根据目标的特征信息在网络上或者数据库中进行有目的的信息检索。Web数据挖掘中几种常用的技术是:关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。

3 数据挖掘在网络信息检索中的应用

目前,作为网络信息检索最重要最常用的工具:搜索引擎,只能处理用户给出的特定关键词形式表示的简单目标,而无法处理用户给出的样本形式的复杂模糊目标,对网络数据未来的变化趋势等动态信息也缺乏有效的统计和预测。而将数据挖掘技术运用的网络信息检索中,可以使网络信息检索过程及结果更加快速、精确、个性化。

(1)数据挖掘提高网络信息内容自动摘要的准确率。网络信息资源一般都有关键词和内容摘要供用户检索选择之用,但大部分的自动摘要都是简单的抽取网页文档的前几句内容,而仅仅是通过位置来确定的,这种方式很不准确,不能精确的反映网页的全部内容,所以保证自动摘要的正确性非常重要。数据挖掘中的文本抽取就是从文档中抽出关键信息,对文档本身的内容而不是位置来进行文本内容的总结,以自然语言理解为基础,更可揭示网络信息的主题特征知识及其之间的相互关联知识,对文档进行语义甚至语用的标注,因此它更能反映出Web文档中的真正信息,然后以简单的形式进行摘要或表示,可以提炼出文档最重要的信息生成关键字或摘要,使自动摘要的质量和准确性很大的提高。

(2)数据挖掘拓宽网络信息资源量。网络信息资源数量众多,分布范围很广,大部分可以直接用网络信息检索工具查询到的信息都是网页中的文字、表格、图形、图像、声音、视频或好友网页的链接及目录结构等。但是还有一些潜在网络信息不容易被搜索引擎等工具查询到,如用ASP,JSP或PHP生成的动态网页;一些专业数据库系统中的数据;在Robot Exclusion框架协议下被拒绝搜索访问的网站;由用户的提问而动态生成的结果;存在于商业数据库管理系统中的数据等,它们无法被索引,从而无法提供有效的检索方式,这些结构化的或用html标记的半结构化数据都可以用数据挖掘中的内容挖掘进行处理,网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘,可为这些网络信息提供明确的摘要或索引,使得本来不容易搜索到,潜在隐藏的信息能被明确的搜索到,从而大大拓宽了网络信息的资源量。

4 网络信息检索的未来展望

数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息服务。此外,它独特的分析方法能发现网络数据知识之间的各种关系,使网站建设和检索结果的分布更加合理。随着本体、网络、自然语言处理、信息可视化和人工智能等技术的发展,将数据挖掘与这些技术进行结合,未来的网络信息检索将朝这更加精准、个性和智能化方向发展。

参考文献

[1] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009(5).

[2] 李村合.网络信息挖掘技术及其应用研究[J].情报科学,2008.

浅析网络环境下信息检索技术 篇7

1 在开放的网络环境之下所采取的信息检索方法

1.1 目录型网络资源检索工具

该种类型的网络检索手段其实就是通过网络检索技术工作对信息资源的分类、选择与整理,而研制出的一个款既具备信息资料查询功能同时也可以进行网页浏览的软件。之所以能够实现这项功能是因为于专业技术工作者在后台构建了一个巨大的信息资料检索中心,然后对目标信息数据进行分类、整理,紧接着将它们录入信息资料中心,满足网络使用者的氺索所求。随着社会的进步,技术工作者在录入网络数据资料的时候,要将目录的范围进行精简,能够提高使用者在检索信息数据过程中效率。这种检索措施由于有技术工作者的控制,所以整个氺索过程具有很强的关联性,不过由于某些因素的约束,构建的信息资料中心依然比较小,所以其能够容纳的信息资料十分有限,不利于系统管理工作者的工作能力的提高。

1.2 索引型网络信息资源检索工具

在所有的检索行驶中该种类型的检索方式最为常见,也就是网络使用者将与搜索目标相关的关键词输入到搜索引擎中就能在最短的时间内找到与其期望的相关知识,只需要稍微加以选择就能得到自己想要的信息数据。和前面两种检索方式相比,这种检索方式而言具有明显的优势,简单节省时间,并且搜索的范围所受限制较小,可以让使用者在同时获得大量相关信息。

2 信息检索时存在的问题

2.1 长时间只适用 1~2 个搜索引擎

现阶段,随着信息技术的飞速发展与不断进步,互联网中已经有多种类似的搜索方式不断地涌现,并且每一种软件都具有不同的优势。不过在网民网游的时候,一般都会弹跳出1~2个搜索引擎,作为网民的信息查询方式,在了解不深入的情况下影响检索的效果。

2.2 很少使用或者并不了解布尔运算符号和高级搜索语法

通常情况下,网民在进行数据资料查询之前,首先要做的是键入一个问题,所以搜索引擎不但要满足网民对数据资料查询的要求,还要经过提前对相关信息数据进行划分。在键入问题的时候,软件设计中的布尔运算符号要做到及时合理地对键入的问题进行分配组合,一边网民能够以最高的速率找到需要的信息数据,不过现在,很多网民对此并不了解,所以在查询资料的时候不大使用该种方式。

2.3 粗略查看已搜索到的信息资源

网络使用者在利用搜索引擎查询数据资料的时候,会有很多相关信息出现,按照通常习惯他们只会注意到排列在最靠前的几条,这就导致后面一些有价值的条列根本无法引起注意。

3 搜索引擎的工作原理

我们可以将该项工作的原理简洁地概括为 :网页抓取→索引信息中心的构建→搜索排序。网页的抓取利用能够从互联网上自动收集网页的Spider(又名为 :Robot,Crawler,Worms,Wanders)系统程序,方便与自动信息回应,然后搜索蜘蛛会从主要网页爬到相关网页上,不断地重复这一活动,实现所有相关网页的集合。

查询方式 :(1)正确抓住关键词。因为搜索软件毕竟跟人的智力无法比较所以它在功能上具有一定的固化性,只能对一些关键性的词语比较敏感,所以,这种匹配相对比较盲目,在关键词的确定过程中只能按照预先设定好方式来进行,只有这样做才能提高检索效果。(2)为了提高准确率可以将双引号应用到其中。若是信息查询者需要对一个词语进行检索,那么他可以把这个词语用双引号或者是括号进行处理,那么他的检索结果在一定的程度上能够提高准确性。(3)为了限制查询的范围,检索者可以在关键词上加号(+)、减号(-)以达到限定范围的作用。在需要搜索的内容前加上(+)表示在搜索的结果中必须要包含这个词语,用减号(-)表示搜索结果中不能出现该内容。(4)使用逻辑词辅助查找。通常可以在大型搜索引擎的使用者中可以看到该种方式的使用,常用的有 :AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),使用这种方式能够提高搜索结果的精准性。

4 网络环境下信息检索技术

4.1 选择合适搜索引擎

信息科学技术的不断发展,高科技更新换代的速度也在不断地提高,市面上有越来越多搜索引擎不断地涌现出来,不同的款式其性能各不相同,在这种情况我们如何才能挑选出真正适合自己的一款那?有很多互联网使用者可能会有这样的想法 :只要能够让我查询到想要的信息使用哪一款其实根本无所谓,但是这种想法其实并不正确。这是因为,不同的搜索引擎因为规格的不同所以其中所含数据库囊括的信息数据规模也不同,有的大有的小。但尽管如此,大型的搜索引擎的数据库在互联网上所占据的空间还不到30%,所以我们在信息查询中可以选择不同的引擎来查询信息,但是不同的款式其最后的查询结果也会有所不同。

4.2 编制正确合理的检索表达式

现阶段,有很多互联网使用者在氺索信息资料的时候,通常使用搜索引擎的方式都是首先键入关键词,然后通过这种方式来找到更多的相关资料,从而达到信息检索的目的的,为了能够更快获得你想要的信息资料,同时还能保证资料的正确性与时效性,首先要做的是正确编制出一个检索表达公式。通常情况下,一个完整的检索表达公式由以下三个要素构成,这三个要锁分别是主题词、辅助词、外部特征限制。三者缺一不可,必须同时具备才能保证检索结果的准确性

4.3 灵活使用搜索引擎的特色服务

就现在的发展状况来说,在互联网中款式不一样的搜索引擎其所能发挥出的效能也有所不同,有的搜索引擎还增加了天气查询功能以及货币置换等多种作用,这些功能的增加为我们获得更多知识与信息数据提供了方便。

5 结束语

在互联网为我们提供的服务中,信息检索其实是规模最大,性能最好的一项。随着知识经济时代的到来,互联网搜索引擎为我们提供了一个快速便捷的渠道来获得所需的知识,方便我们的生活、工作和学习。虽然随着电脑的不断普及越来越多的人开始选择通过这种方式来进行学习,了解社会,了解生活,但是人们对搜索引擎的认识也只是停留在使用阶段而对其的理解并不多,并不能够更准确、更快的获得信息。本文希望通过这次分析能让更多的人对此有一个理性客观的认识,以便更好的使用这一学习渠道,获得自己所需要掌握的信息。

摘要:随着时间的推移,我国经济技术的快速发展,互联网技术的普及,现在,人们越来越离不开互联网,人们也逐渐的在网络上通过信息检索的形式获得自己想要的信息,这样不仅可以解决查找的时间,同时还能准确的获取相关的知识。文章对网络环境下对信息检索技术进行简要论述。

多Agent网络信息检索框架 篇8

随着网上信息数量的膨胀,如何将分散的异构的信息资源组合起来的问题日趋严峻。传统的解决方法是通过构建分散的或聚集的系统,但这都不能很好地解决大量的,多元化的和逐渐增长的信息资源,这些资源包括传统的数据库、平面文件、知识基地、程序等。更为严重的是,想在www上寻找正是想要找的东西时变得越来越困难了。如今人们面对的不再是信息不足的问题,而是在信息爆炸的环境中如何有效地管理和使用大量信息的问题。在此使用现存的搜索引擎搜索一个关键字,会返回大量的信息。目前的网络环境允许用户通过搜索获取大量的信息资源,但是提供了相当有限的信息定位、整合、处理和组织的能力。在一定程度上,这些局限是由于信息资源自身的格式造成的。目前,网络上大量的文档都是以HTML格式来描述的。结果,软件代理和搜索引擎很难利用这些信息,因为它们都不是语义编码的。XML由于其具有可扩展性、简单性、开放性、互操作性容易被计算机识别的诸多特点,XML正逐步取代HTML,成为驻留在Web上的主要的信息形式。

本文的主要内容是使用XML技术来实现网络上的信息检索,构造一个用于信息检索的多Agent系统框架,使用XML技术作为多Agent系统模型的通信语言。

1 XML技术

XML是由互联网联合组织(World Wide Web Consortium,W3C)于1998年发布的一种标准,是一种中介标记语言,可提供描述结构化资料的格式。它是SGML的一个简化子集,目前已成为网络数据交换的标准。和HTML相比较,XML其实已不再是一种文本标识语言,而是一种表达数据中结构的共同语法的标识语言。XML弥补了HTML文档中有用数据信息不能被其他应用直接理解和重复使用的缺陷,它使用DTD(文档类型定义) 规定一套关于标记符号的语法、语义规则,比较准确地描述文本数据的内容、含义、结构、特征和关系等信息(称为元数据) ,而把数据的外观表现形式交给样式表(如CSS,XSL,DSSSL等) 处理,这样就把数据的内容和其表现形式合理地分隔开,从而大大提高XML数据的可理解性、可交换性和重用性。

另外,XML的优势还在于它的简单性、灵活性和可扩展性。XML文档是纯文本,独立于平台和应用。公司和组织可自由定义标签和文档结构,亦可增添或扩展已有文档结构定义,以满足新的挑战和应用需求,而不致于破坏原来的应用。一个结构良好的XML文档,其生存期可以很长。

2 基于XML的多Agent网络信息检索框架

基于XML的多Agent信息检索框架有3种类型的Agent组成如图1所示。一种是管理Agent用于提取信息的语义和合作Agent 处理详情,一种是接口Agents为用户和系统提供接口,还有一种是搜寻Agents用于在www上搜索信息,多个Agent间使用xml作为它们的通信语言,相互沟通执行检索任务。

2.1 接口Agent

接口Agent使得其他的Agent对用户来说是透明的,接口Agent作为用户的前端接口,这类Agent携带用户的检索信息代表用户和其他Agent进行交流。

用户提出一个问题,然后等待答案/结果。从接口 Agent获取检索结果后,用户可以继续浏览和问题相关的信息。接口Agent允许用户完全忽视和它交互的其他信息检索Agent,也可以忽略搜索在多Agent环境中的物理实现。换句话说,用户是在和一个个性化的接口在交互,它能有效的满足用户的需求,并且不需要用户了解查询规则。

很显然,接口Agent实现了,大量且复杂任务的查询便利,而且对用户隐藏了查询细节。

在模型中,接口Agent完成以下任务:

(1) 帮助用户执行检索请求,并将检索请求传送给其他的Agent。

(2) 为用户营造一个透明的多Agent系统环境,也就是不用明确描述在多Agent模型中什么是可以利用的,信息是如何构造和组织的,以及如何定位知识库的。

(3) 将用户请求的检索结果传递给用户。

在整个查询过程中,用户只需为信息检索指定查询条件或关键词。接口Agent为用户收集所需的信息,然后将这些信息传递给分析Agent继续其他信息的检索过程。最后由接口Agent将由分析Agent加工和处理后的检索结果传递给用户。

2.2 分析Agent

分析Agent通过接口Agent接受用户的检索任务。当分析Agent接受检索任务时,它会首先在知识库中查找,确定用户任务的基本范畴,分析问题所属的专业领域。然后将检索要求转给检索Agent。信息分析Agent必须具有推理、分析归纳、规划学习的能力,同时还要有相应动态更新的信息分类知识库提供支持。

分析Agent是这个多Agent模型的核心。它保存了一个能够从中提取语意信息的中央知识库,来回复用户。同时它还是接口Agent和查询Agent的中介。用户的检索信息通过接口Agent提交给分析Agent. 分析Agent自主的将检索信息转发给检索Agent.查找到信息以后,检索Agent将查找结果传送给分析Agent,分析Agent基于自己的知识库进行计算或推理,得出查询结果,并将结果转换成用xml格式表示的文档。分析Agent有3个组要的组成部分:

(1) 信息检索引擎,用于获取源文件和检索结果。

(2) XML封装/解析器 ,用来将html格式的文档封装成 XML 格式的文档。

(3) 一个文档语意发生器,用来生成xml格式文档以外的语意路径。

2.3 检索Agent

检索Agent可以看成一个网页检索工具或者是一个搜索引擎。通过简单的查询和检索关键字相匹配的文件清单,它能自主(自动)的发现检索结果。然后将查询结果传送给分析Agent,查询Agent是可以建构和配置的所以我们可以选择一款适合我们应用范围的搜索引擎,目前有许多搜索引擎也能完成检索代理的功能,常用的搜索引擎有百度、雅虎、谷歌等。

3 基于XML的Agent通信语言

可扩展标识语言(XML),目前正在迅速成为网络数据交换的标准。本文采用XML作为Agent间通信的消息格式。基于XML的通信消息能被Agent理解,并能容易地定义新的消息[1]。基于XML的ACL有3部分组成[2]:Agent通信参数;消息的信息;消息的实际内容。

图2给出一条基于XML的ACL的消息。其中,<Message>表示消息,“id”表示消息的地址。整个消息包括<COM>,<MSG>和<CONTENT>3部分。<COM>用来指明通信参数,“sender”为接收者,“receiver”为发送者,“from”意思是从Agent来,“to”意思是到目标Agent。<ACT>表示Agent的动作,<InReplyTo>表示消息的标识符触发消息的提交。<MSG>描述了一些消息的信息,包括<LANG>消息内容所使用的语言,<ONTOLOGY>表明和消息有关的知识,<CONTENT>表示消息的实际内容。

4 结 语

本文的主要工作是提出了一个在www上检索信息的基于 XML的多Agent模型。该模型有以下几个特征:使用多Agent完成信息检索工作;使用 XML作为多Agent间的通信语言。在这个框架中包含3种类型的Agents,分析Agents,接口Agents和 检索Agents。在此设计的目标是完全支持用户执行基于WWW的搜索。在这个框架中Agent间使用XML作为它们的通信语言来执行检索任务。在Agent间传递的信息以及最终的查询结果都是以XML格式来进行描述的。因此,用户不仅能够从模型返回的,使用语意编码的搜索结果中,更准确地获取信息,而且还能利用结果中的内容,而无需使用专门的标签或自定义脚本从网页中提取内容。

参考文献

[1]YOONJeong-Hyuk.Development of SNMP-XML gatewayfor XML-based integrated network management[D].Korea:POSTECH,2001.

[2]胡军,刘伯成,何琴,等.基于XML扩展的Agent通信语言方法及应用[J].微计算机信息,2008,24(6):200-201.

[3]郑轶媛,李治柱.XML应用于信息检索的研究[J].计算机应用与软件,2006,23(12):90-91.

[4]何炎祥,陈莘萌.Agent和多Agent系统的设计与应用[M].武汉:武汉大学出版社,2001.

[5]魏晓斌,UNLAND Rainer.一个基于XML的Agent通信框架[J].计算机应用研究,2001,18(10):108-112.

[6]何静媛,张程.基于Agent的搜索引擎智能化个性化设计[J].重庆大学学报:自然科学版,2005(12):49-50.

[7]周拥峰,焦祯,夏宽理.XML在多代理系统中的应用[J].计算机工程与应用,2002,38(21):93-94,136.

[8]冯志勇,洪卫林.基于SOAP协议的KQML语言通信实现[[J].计算机工程,2003,29(6):97-98.

[9]石慧,徐从富,刘勇,等.Agent通信语言KQML的实现及应用[J].计算机工程与应用,2005,41(13):94-97.

基于贝叶斯网络的信息检索模型 篇9

(一) 推理网络模型

推理网络模型采用的是信息检索认识论的观点[4]。该模型中文档节点用dj表示, 术语节点用ki表示, 查询节点用q表示。文档节点、术语节点、查询节点均与用相同符号表示的二进制随机变量相关。U={k 1, k 2, ..., k t}表示t维的向量空间, 变量k1, k 2, ..., kt为U定义了2t种状态, u表示其中一种状态。

根据查询q对文档dj进行排序, 其结果可以用来度量dj的观测值为查询q提供了多少证据支持。在推理网络中, 文献dj的排序可用P (q|d j) 来计算[2], 其计算方法如下:

其中α是一个常数因子, 因为没有对任何文档给出特定的先验概率, 所以一般采用一个统一的先验概率分布, 在有关推理网络的早期著作[1,5]中, 规定观测一篇文档dj的先验概率为, N为系统中的文献总数, 因而:

利用基本条件及贝叶斯定理, 公式 (1) 可变为下式:

具体定义方法参考文献[4]。

(二) 信念网络模型

信念网络模型也是基于概率认识论描述的, 但是这种模型采用的是一个明确定义的样本空间, 因而产生了一种不同于推理网络的网络拓扑, 即将网络中的文档和查询分离开来。

在信念网络中, 术语集合U={k 1, k 2, ..., k t}是一个论域 (discourse) , 同时为信念网络模型定义了样本空间。u⊂U是U的一个子集, 且g i (u) =1⇔ki∈u。每个索引术语被看作是一个基本概念, 因此U被看作是一个概念空间, 概念u是U的子集。文档和用户查询用概念空间U中的概念表示。

定义在样本空间U上的概率分布P如下所示, c是空间U中的一个概念, 表示一篇文档或一个用户查询:

公式 (5) 将p (c) 定义为空间U中c的覆盖度 (degree of coverage) , 公式 (5) 表示概念空间中的所有概念均是等概率发生的。

与给定查询q相关的文档dj的排序被理解为一种概念匹配关系, 它反映了概念q提供给概念dj的覆盖度。因此在信念网络中用p (dj|q) 计算文档dj关于查询q的排序。根据条件概率、公式 (5) 及贝叶斯定理可得:

其中η为规范化因子, 对概率P (d j|u) , P (q|u) 的不同定义可使信念网络检索模型包括由各种经典信息检索模型 (布尔模型、矢量模型、概率模型) 产生的排序策略。具体定义方法参考文献[2]。本文提出的扩展模型就是以基本信念网络模型为框架的。

(三) 简单贝叶斯网络检索模型

简单贝叶斯网络检索模型中的变量由两个不同的集合组成, V=T∪D:集合T={T1, T2, ..., TM}, 集合D={D1, ..., DN}, T和D中的变量均是二值的。变量Dj取值集合为, 其中和dj分别表示在给定查询下文档Dj不相关和相关。变量Ti取值集合为, 其中分别表示术语不相关和相关。

网络拓扑结构的建立基于以下三个假设:

1. 如果术语Ti属于文档Dj, 则术语节点Ti和文档节点Dj之间有弧。这反映了文档和其索引术语之间的依赖关系;

2. 文档节点之间没有弧, 也就是说文档节点之间的关系只是通过索引它们的术语表示出来;

3. 已知文档Dj中索引术语是否相关的情况下, 文档Dj和其它任何文档Dk是条件独立的, 也就是说文档Dj是否相关只受索引它的术语的影响, 而不受其它文档的影响。在网络中表现为弧的指向是由术语节点指向文档节点。

由这三个假设最终确定网络的拓扑结构。网络包括两个子网:术语子网和文档子网, 弧是由第一个子网中的节点指向第二个子网中的节点。该模型与推理网络模型和信念网络模型最大的区别是在网络中没有包含查询节点, 也就是说该模型是查询独立的, 查询只是作为证据在网络中传播。

BNR模型各类节点中存储的条件概率计算如下:

(2) 对于文档节点需要估计条件概率分布p (dj|π (Dj) ) , 其中π (Dj) 是Dj的父节点集Π (D j) 取值后的任意一种组合。因为文档节点可能有大量的父节点, 所以需要估计和存储的条件概率的数目是很巨大的。因此, 简单贝叶斯网络检索模型采用了专门的正则模型来表示条件概率:

其中R (π (Dj) ) 是π (Dj) 中相关术语的集合, 权重wij满足wij≥0且。这样在π (Dj) 中的相关术语越多, Dj的相关概率越大。

简单贝叶斯网络中节点的数目通常比较大, 节点之间的连接也是多路经的, 每个节点也可能包含大量的父节点, 所以考虑到检索的效率问题, 一般的推理算法是不能使用的。因此, 简单贝叶斯网络检索模型设计了特殊的推理过程可以非常有效地计算需要的概率, 并且证明了得到的结果和在整个网络中实施精确推理得到的结果是一样的:

根据术语子网的拓扑结构, 则当Ti∈Q时p (ti|Q) =1, 当Ti∉Q时p (ti|Q) =1/M, 这时公式 (8) 可改写为:

权重wij有多种计算方法, 可参考有关文献。

参考文献

[1]Howard Robert Turtle, W.Bruce Croft.Inference networks for document retrieval.Proceedings of the13th ACM-SIGIR Conference, 1990:1-24.

[2]Berthier Ribeiro-Neto, Richard Muntz.A belief network model for IR.Proceedings of the19th ACM-SIGIR Conference, 1996:253-260.

[3]Ricardo Baeza-Yates, Berthier Ribeiro-Neto.现代信息检索.北京:机械工业出版, 2005:24-42.

[4]Howard Robert Turtle, W.Bruce Croft.Evaluation of an inference network-based retrieval model.ACM Transactions on information systems, 1991, 9 (3) :187-222.

WWW网络信息检索原理和技术 篇10

1 网络信息检索现状

信息检索主要研究信息的表示、存储、组织和访问。即根据用户的查询要求,从信息数据库中检索出与之相关的信息资料。伴随着由MXGILL大学的一个小组开发的第一个搜索工具的产生,拉开了网络信息检索的序幕。信息检索已从手工建立关键字索引,发展到计算机自动索引的全文信息检索、自动信息文摘、自动信息分类,并正朝着自然语言处理的方向发展。在信息检索领域,英语信息检索的发展较为迅速。如由Salton等人开发的SMART信息检索系统,可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息查询的准确性。中文信息检索系统的发展相对较慢,目前已有的中文检索系统绝大部分仍为关键词检索,甚至许多系统还处于“字”索引阶段。不仅效率较低,而且信息检索的精度和准确性很差。究其原因,是因为中文信息检索有自身的特点,比如中文语词之间没有空格,因此在索引前需要进行语词切分。另一方面,与英语相比,汉语句法分析和语义理解更为困难,造成中文信息检索的发展较为缓慢。

2 信息检索模型

信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息中,筛选出符合用户需求的信息。例如,用户希望从信息库中查询有关计算机网络产品销售方面的信息,如果查询出的结果为计算机软件产品方面的信息,则不能满足用户的需求。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、向量空间模型以及概率模型等。

布尔型信息检索模型,是最简单的信息检索模型,用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎根据事先建立的倒排文件结构,确定查询结果。标准布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。如查询“计算机”,只要文档中出现关键词“计算机”,则全部包含在查询结果中。为了克服布尔型信息检索模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。例如,查询“计算机”,那么出现“计算机”较多的文档将排列在较前的位置。

与布尔型信息检索模型不同,向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。根据向量空间的相似性,排列查询结果。向量空间模型不仅可方便地产生有效的查询结果,而且能提供相关文档的文摘,并进行查询结果分类,为用户提供准确定位所需的信息。

基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法,获取匹配函数。

虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,既按照用户要求,提供用户所需的信息。实际上,大多数检索系统往往将上述各种模型混合在一起,以达到最佳的检索效果。

3 信息检索系统结构

搜索引擎构成信息检索系统的核心。然而,信息检索系统还包括对索引信息文档格式的预处理、索引信息的分析、信息索引和用户信息检索等几个阶段。

3.1 信息预处理

信息预处理包括信息格式转换和过滤两个不同层次。信关作为访问不同信息的机构,能够访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络Web页面等。同时,信息预处理也能够过滤不同格式的文档。如Microsoft Word、WPS、Text和HTML等。这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息。

3.2 信息索引

信息索引就是创建文档信息的特征记录,它使用户能很容易地检索到所需信息。建立索引需要进行下列处理:

3.2.1 信息语词切分和语词词法分析

语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符(空格),因此需要进行语词切分。汉语语词切分中存在切分歧异,如句子“使用户满意”可切分为“使/用户/满意”,也可能被错误地切分为“使用/户/满意”。因而需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。

3.2.2 进行词性标注及相关的自然语言处理

在切分的基础上,利用基于规则和统计(马尔科夫链)的方法进行词性标注。基于马尔科夫链随机过程的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

3.2.3 建立检索项索引

一般使用倒排文件的方式建立检索项相关信息,如表1所示。相关信息一般包括“检索项”、“检索项所在文件位置信息”以及“检索项权重”。例如,检索项“计算机”的位置信息为“文档D中第n段第m句第w词”。这样,在信息检索时,用户可以要求在查询中,检索项T1和检索项T2位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。

3.3 查询扩展处理

信息检索评价的标准是信息检索的精度和召回率。信息检索的精度为检索结果中相关信息文档数与查询结果总数之比。信息检索的召回率为实际检索出的相关信息文档数与信息库中总的相关信息文档数之比。

为了提高信息检索的召回率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同一概念;因而查询“计算机”同时也要查询“电脑”,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包含的子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等等。“电影”又包括“故事片”、“记录片”等。因此,查询“艺术”当然包括“电影”、“舞蹈”、“绘画”以及其下的子概念。

提高信息检索的精度,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度。

3.4 信息分类和摘要

为了方便用户从查询结果中选择所需信息,搜索引擎可将提供给用户的文档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。

搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例如,用户查询检索项“计算机”,相应的结果分类也许为“分类1”:“网络”、“系统”、“路由器”等;“分类2”:“市场”、“产品”、“销售”等;以及其它分类。分类的目的是便于用户找到相关信息。

3.5 智能代理

搜索引擎除了被动搜索外,也可利用智能代理技术进行主动信息检索。信息检索系统智能用户代理,可根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件、数据库信息变化等。并将用户所需的信息,通过电子邮件或其它方式,主动提供给用户。用户无须反复搜索所需信息,这样将大大减少用户检索信息的时间。

目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。

4 信息检索技术

随着互联网的发展,网络信息不断爆炸式的扩张,网民怎么才能从这样海量的信息中找到他们所需要的信息呢?搜索引擎,这是目前为止,世界上最流行的一种准确获得信息的一种工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、网络指南针、北大天网和华好网景的ChinaOK等等。这些都是世界上非常著名的搜索引擎。他们都是通过网络机器人搜集网络信息,建立索引数据库,并且不但的更新,通过一定的相关性算法,对用户提供的请求作出响应,并按一定的次序输出高质量的信息。它的主要由下面三个部分组成:蜘蛛程序、索引数据库、检索程序。三个部分协调一致,其工作原理如图1。

4.1 Robot技术程序

Robot是一种计算机的程序,可以自动地在网络中穿梭,该程序最重要的功能是使用索引策略,也就是查找网站和网页的次序。可以用题目、URL、关键词进行索引,也可以是以上几项的某种组合。由于internet的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分internet上的资料进行采集;加上搜索的索引策略不同,所以对相同关键词的搜索在不同的搜索器上可以有截然不同的结果。如果把整个internet看作是一个图或一棵树的话,可以发现robo技术的基本工作原理和人工智能中的搜索树一样,这在计算机中可以方便地使用递归方法实现,具体如下:

1)根据首页进行搜索,相当于搜索树的根;

2)根据首页的第1个链接到下一个页面;

3)重复1)和2);

4)到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。

但若要建立全面的索引数据库,必须对www系统进行遍历。我们可以进行这样假设:将www作为一个有向图处理,将页面看作图中的节点,页面中的超链看作图中的有向边。因此可以使用有向图遍历算法(深度优先或广度优先算法或启发式方式)对其进行遍历。www是个典型的CS结构系统,所以可在一台主机上完成www遍历。

遍历一般采用以下3种方法:

1)定一个种子URL,Robot从种子URL开始对www遍历;

2)定一组不同类别、被访问频率高的URL,Robot从这些URL开始遍历;

3)据域名或IP地址将www空间划分为多个子空间,运行多个Robot程序并行地在不同子空间中进行遍历。在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问www,从而建立较为全面的索引库,并能保持对库的不断更新。

在遍历算法中,一般用到了两种方式,深度优先和广度优先两种基本的搜索策略。Robit以URL列表存取的方式决定搜索策略:

1)先进先出,则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去。

2)先进后出,则形成深度优先搜索。这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用

在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问www,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,以下为可行的方法:

1)搜索引擎基本信息的采集。考虑网络中海量的数据,首先选取一些网络的主要节点,使搜索引擎存放某些监控程序到站点中,和站点之间建立一种通信联系,使搜索引擎不必每次更新时都要一个个页面地比较,而是智能地知道自上次访问后哪些页面已更新,直接采集新的页面。

2)搜索引擎数据库的建立。考虑数据库中数据的有用性,可以根据用户的访问频度,建立站点的用户访问频度表格,Robot查找链接和页面时,要查看该表格,从用户访问频度高的站点开始查找,对上升速度和下降速度特别快的还要特别处理。搜索引擎的数据库内容是用户经常访问并乐意访问的,使搜索引擎越来越贴近用户。

4.2 索引技术

索引技术的目的是理解Robot所搜索的信息,从中抽取索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:

客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。

内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Invers度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引,即由索引项查找相应的文档。索引表要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(Proximity)。

索引技术可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能跟上信息量剧增的速度。索引算法对索引技术的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量,而索引的质量由索引技术和索引策略来决定;但现行的索引技术随着数据量的增大,其耗费的资源指数速度飞速增长,极大地影响到搜索数据库的容量和检索;考虑用提高索引智能化的方式来提高索引的质量。按建立索引的策略来看,应确定是全文关键字提取,还是内容提取,根据不同的查询目标会有不同的提取目标和提取范围,最终将大大影响数据提取的速度和效果,这是索引技术所要考虑的首要问题;按内容提取可以采用分类技术,把页面的主题或内容分类,进入到不同的数据库中,在输入关键词查询时,要求第n个关键词必须是内容类别的词,这样第n个关键词就可以使搜索引擎知道到哪个内容类别的数据库中查找,再匹配后面的关键词,这样可以大大减少系统匹配的时间。这项技术要求在相关词库的基础上,还要统计使用频度,再加上一定的算法方可实现。当然上述两者应有机地结合才可提高整个系统的性能。

4.3 检索程序

当用户检索的时候,首先需要输入关键词,系统将对其进行语言分析,分解成多个词或词组,在去服务器的索引数据库,根据检索词的相关性进行匹配,找到与检索词相关度逼近的网页,按照相关度的高低进行排序输出,关键词出现了的越多的结果排得越靠前,越知名的站点排得越靠前。这里,相关性的设计相当的重要,它直接影响着搜索的效率。但“相关性”的概念一直非常模糊。一方面,人们观察到特定文档对特定查询而言可以有多种“相关”的方式,比如用户输入一个关键词作为查询向系统提交,系统返回的文档列表中的文档A讲述与此关键词相关的事件,B谈论与此关键词相关的人物等等,都可以说与这个关键词“相关”,但我们显然觉得二者与查询的相关并不属于同一层次。另一方面,由于用户本身的差异使其对检出文档是否真正相关的判断也有诸多差异。但是在设计信息检索系统的过程中,不可避免地要用到相关性这个概念;具体地说,设计者必须对怎样才算是“相关”有一个比较明确的想法,在没有弄清楚什么是相关性之前就谈论怎样区别相关和不相关文档,的确令人觉得在逻辑上缺少了一个重要的环节。

5 优秀搜索引擎的特点

目前各种各样的中西文搜索引擎有十几种或更多,比较著名的搜索引擎有Yahoo!、Google、Sohu等。每个搜索引擎都有其各自的特点,有的以查询速度快见长,有的以数据库容量大占优,但总而言之,一个优秀的搜索引擎应具有以下几个特点:

5.1 支持全文检索

全文搜索引擎的优点是查询全面而充分,用户能够对各网站的每篇文章中的每个词进行搜索。当全文搜索引擎遇到一个网站时,会将该网站上所有的文章(网页)全部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库的某篇文章中出现过,则这篇文章就会作为匹配结果返回给用户。从这点上看,全文搜索真正提供了用户对Internet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果。但全文搜索的缺点是提供的信息虽然多而全,但由于没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁多而杂乱的感觉。

5.2 支持目录式分类结构

分类搜索引擎的优点是将信息系统地分门归类,当遇到一个网站时,它并不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍。最具代表性的目录式分类搜索引擎是Yahoo网站。分类搜索引擎可以使用户清晰方便地查找到某一大类信息,这符合传统的信息查找方式,尤其适合那些“希望了解某一方面/范围内信息,并不严格限于查询关键字”的用户。但目录式搜索引擎的搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,这样有可能遗漏某些重要的信息源。

5.3 能够区分搜索结果的相关性

搜索引擎应该能够找到与搜索要求相对应的站点,并按其相关程度将搜索结果排序。这里的相关程度是指搜索关键字在文档中出现的频度,最高为1。当频度越高时,则认为该文档的相关程度越高。但由于目前的搜索引擎还不具备智能,除非你知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户更需要的文档。

5.4 检索方法多样、查找手段完备

有些性能完善的搜索引擎不仅能检索Internet上的文献,还能查找公司和个人的信息;不仅能检索Web页面,还提供对新闻组内文章的查找;不仅能输入单词、词组或句子进行检索,还能指定多个单词之间的逻辑组配及其位置关系;不仅能以词语查询有关主题的页面信息,也能以特定的域名、主机名、URL等查找有关信息;此外,还可以对被检索文献发表的语种、日期等进行限制。

6 结束语

在当今的知识经济和网络环境下,对信息的占有和知识的发现,是发展生产力的重要一环,人们迫切需要一种智能性的检索工具来探索信息空间,检索信息并进一步进行数据挖掘和知识发现。因此,建立一个高效率的搜索引擎是当今社会和科学发展的强烈要求。

参考文献

[1]石艳霞.信息检索中“相关性”与“相关反馈”研究概述[J].情报学报,2007.

[2]王家钺.信息检索中“相关性”概念的研究[EB/OL].http://www.in2in.com/jywang/publ/mf10102.htm

网络信息检索 篇11

【关键词】网络信息资源;搜索引擎;体系结构;工作过程;工作原理

随着国内外近年来电子图书馆、数字图书馆、虚拟图书馆的兴起与发展,图书馆的工作对象由文献资源扩展为信息资源。以计算机技术、网络技术、微电子技术为核心的现代化技术将从根本上改变图书馆的工作模式、工作方法甚至体制形态。新的研究课题不断涌现,其中包括网上信息资源的虚拟链接和应用、利用计算机进行各类信息(包括多媒体信息、流媒体信息等)的存储和检索。

1.网络信息资源

网络信息资源是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。

2.网络信息资源的检索工具

网络信息资源检索工具有多种,按照其检索机制可分为主题指南(目录型检索工具)、图书馆的网络导航(学科导航)、搜索引擎等。从功能上来看,主题指南和图书馆的网络导航类似图书中的目次,而搜索引擎则更像索引。搜索引擎使用自动索引软件来发现、收集并标引网页,建立索引数据库,以Web形式提供检索界面。当用户输入某个关键词的时候,所有在页面内容中包含该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。搜索引擎强调的是检索功能,而非主题指南那样的导引、浏览。

3.搜索引擎基本工作原理

3.1 搜索引擎的概念

搜索引擎是指自动从互联网搜集信息,经过一定整理之后,提供给用户进行查询的系统。它是为满足用户对网络信息搜索需求应运而生的网络工具,既是互联网信息查询的导航器,也是沟通用户与网络信息的重要桥梁。搜索引擎是在检索被搜索到的网页的数据库,而不是检索互联网本身。[1]

3.2 独立搜索引擎是一个双层的客户机/服务器(Client/Server—C/S)体系结构

当用户访问搜索引擎时,用户端为客户机,向搜索引擎发出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。当搜索引擎采集数据时,搜索引擎为客户机,向WWW站点等实际资源系统提出页面搜索请求,各类实际资源系统为服务器,将有关数据(例如WWW页面或文档)作为应答提交给搜索引擎。

3.3 搜索引擎的目的

搜索引擎的目的只有一个:寻找相关性最高的网页。

3.4 搜索引擎有至少三个因素值得重视:数据库,用户搜索,搜索结果排序

值得一提的是数据库,搜索引擎的数据库资源由用户提交的登录信息组成,他们还主动地使用其“Web crawlers”“spiders”或“robots”程序搜索因特网并将搜索到的网页信息归入其索引数据库中。

3.5 搜索引擎的工作包括如下三个过程

(1)在互联中发现、搜集网页信息

搜索引擎首先负责数据采集,即按照一定的方式和要求对网络上的WWW站点进行搜集,并把所获得的信息保存下来以备建立索引库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其他服务器要做的还有进行计算/分配/储存用户习惯等等。

(2)对信息进行提取和组织建立索引库

首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照网页中的字符特性予以分类,建立搜索原则,举例来说,对于"软件"这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些方式往往影响着未来搜索结果。

接下来是数据组织,搜索引擎负责形成规范的索引数据库或便于浏览的层次型分类目录结构,也就是计算网页等级,这个原则特别是在Google非常重要,一个接受很多链接的网页,搜索引擎必然在所有的网页当中将这些连接多的网页提升上来。

(3)在索引数据库中搜索排序

由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

搜索引擎负责帮助用户用一定的方式检索索引数据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户相关信息,利用这些信息来提高检索服务的质量,信息挖掘在个性化服务中起到关键作用。用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。

3.6 主要搜索引擎

主要搜索引擎有Goole、百度、Yahoo和Bing。一般来说,如果是搜索英文信息使用Goole会更有效,搜索中文信息则倾向于使用百度。即使在中文信息领域,如果单就搜索的准确性而言,目前Goole仍占据着明显优势,应成为首选。目前百度以近70%的市场占有率,占据中文搜索引擎的领先地位,在全球的市场份额则落后于谷歌、雅虎和微软必应排在第4位。

参考文献

[1]邹广严,王红兵.信息检索与利用[M].北京:科学技术出版社,2011.

作者简介:牟雪艳(1972—),女,大学本科,毕业于北京大学信息管理系图书馆学专业,北大文学学士,山东省烟台栖霞市图书馆馆员。

网络信息检索 篇12

1 现代信息检索发展的趋势

信息检索的发展经历了几个阶段,这几个阶段分别是手工检索、脱机批量处理检索、联机检索、网络检索等,在这几个阶段的过程中信息检索都有了一定的发展。虽然现在有多种形式的信息检索,但是随着网络的发展,网络信息检索成为人们最为关注的信息检索系统。随着网络信息检索的流行,使用者的素质也在不断提高,当前使用者对信息检索也有了新的要求,主要体现在以下几个方面。①信息检索易操作。易操作就是指信息检索要简单、好操作,使用者在短时间内就能学会。②信息检索智能化。所谓的智能化就是指信息检索系统根据使用者的要求自动进行分析,查找出用户所需要的信息。③信息检索个性化。个性化是指信息检索系统根据使用者的特点和偏好来提供检索服务。针对不同的使用者提供不同的服务。

2 网络信息检索对图书馆信息服务的影响

2.1 对图书馆馆员的影响

2.1.1 要求图书馆馆员熟练掌握计算机知识

由于网络信息复杂多变,有时候处于无序的状态,这就要求图书馆馆员进一步提升自身的能力,不仅要掌握以前的手工检索方法,还要掌握网络信息检索方法,熟练运用计算机。

2.1.2 要求图书馆馆员具有一定的外语水平

现在计算机的编程语言以英语为主导,图书馆的信息检索系统也是如此。另外,网络信息资源中外文也占有一定的数量,所以图书馆馆员掌握英语极为重要。只有熟练地掌握英语,才能熟练地运用信息检索系统,为读者提供优质的服务。

2.1.3 要求图书馆馆员具有一定的辨别力

现在有大量的信息涌入图书馆的信息系统里,这就要求图书馆馆员对这些信息有一定的分辨能力,将一些没用的信息进行删除或者根据读者的需要提供更为专业的服务。

2.2 网络信息检索对读者的影响

在信息时代的影响下,读者想更为快捷、方便地获取信息,就要具有网络信息检索方面的知识,这样才能够运用信息检索,更好地获得所需资源。

2.3 对图书馆信息服务方式的影响

网络打破了传统图书馆的管理服务方式,传统的方式主要表现在行的排列、书目的排序、文章的索引等方面。现在在网络环境下,读者可以根据自己所需对信息进行检索,大大缩短了时间,提高了效率。信息检索方式的改变使图书馆信息服务改变了以前文献检索时馆员与读者面对面、单一的服务方式,现在通过网络,图书馆馆员可以超越时间、空间、地域的界限,开展单对多、单对单等信息服务。

3 图书馆信息服务应有怎样的改变和创新

现代信息检索是网络技术、信息技术、数字技术的产物,同时也是现代图书馆信息服务的重要组成部分之一。网络环境下图书馆信息服务正从传统的读者借阅、文献检索、读者指导等向信息传递、信息检索、网络信息导航和加强图书馆内外的信息资源整合的方向转变。面对信息检索的发展,图书馆的信息服务正面临着新的发展机会和挑战。

3.1 将图书馆的使用者作为核心,建立新的检索系统

图书馆的使用者就是图书馆的读者,图书馆是为读者服务的,传统的图书馆主要以实体的书籍存在的,现代大部分的信息资源都是以网络信息形式存在的,这就节省了一些实地空间。由于信息化的快速发展,图书馆的信息化也面临着巨大的挑战,因此,图书馆要建立一个以读者为中心的系统,满足各种读者对信息的需求,来适应时代的发展和图书馆的发展。

3.2 将信息检索作为系统的基础,创造及带动更高端的服务

在图书馆进行检索时需要耗费大量的人工和大量的时间,因为大部分的信息是以实体的书籍为载体的。在信息时代背景下,信息化的检索方式使图书馆的服务发生了巨大的变化,为图书馆节省了大面积的实地空间,也节约了读者来图书馆查阅资料的时间,使读者在家就能够享受到图书馆的服务,所以,图书馆要将网络信息检索系统为基础,开发更高端的服务。

3.3 提高图书馆馆员的整体素质

为了适应时代发展的要求,满足社会的需求,计算机在大部分领域被使用,其中包括图书馆的信息资源的利用和处理。网络信息检索方式在这个领域的使用可以大大提高图书馆馆员的工作效率。但是,现在大部分馆员的计算机基础相对薄弱、英语水平不高,还有一部分文化水平较低,他们只能从事相对简单的工作,不能适应信息时代发展的需要,因此,只有提高图书馆员的整体素质,才能促进图书馆的发展。

摘要:信息检索是图书馆信息服务中极其重要的一部分,信息检索的出现影响着图书馆的发展,对图书馆的进一步发展起到了积极推动作用。面对着信息检索的快速发展,图书馆的信息服务应有怎样的改变和创新,才能满足读者的需求,是当前图书馆工作者需要考虑的问题。

关键词:网络,信息检索,信息服务

参考文献

上一篇:双馈感应式发电机下一篇:走进虚拟现实