网络信息资源检索研究

2024-08-25

网络信息资源检索研究(精选8篇)

网络信息资源检索研究 篇1

信息检索能有效解决用户在生活中或是在工作中所遇到的各种问题, 通过对相关的问题进行查找并获得相关数据、文献等。现如今网络、信息以及数字化技术进行着快速的发展, 信息检索相比过去的文献检索有较大的差别, 尤其最受人们关注的网络信息检索, 是现阶段拥有最多用户并且影响最为巨大的检索系统。

1 关于信息资源网络检索的特点

要了解信息资源网络检索的特点, 首先要对网络信息资源的特点有一定的认识, 其特点主要表现在两个方面:一方面是内容的丰富性, 网络信息拥有非常丰富的资源, 现今人类最大的信息资源库就是互联网。另一方面是质量上的参差不齐, 是网络给我们提供了非常丰富的信息资源, 但是在网上的信息资源很分散, 而且存在很多垃圾的信息, 以及一些虚假信息, 使得网络上的信息资源在质量上存在较大差异。

信息资源检索从最早的手工检索到联机检索以及后来的光盘检索, 但是随着现如今网络、信息以及数字化技术快速的发展, 信息检索和传统的文献检索相比之下有很大的差别, 其中网络信息检索备受关注, 将成为拥有最多用户并且影响最大的检索系统。信息资源网络检索主要有以下几方面的特点:

1.1 检索手段的易用性

网络信息检索拥有简单、快捷的会话界面以及帮助支持的系统, 用户不需要花太多时间去学习, 只需要将检索要求提出来就能获得相应的检索结果。

1.2 检索途径的灵活性

用户能够通过搜索引擎来搜索各个国家的网站以及网页从而检索需要的文献资料。用户还可以通过专门的数据库检索系统, 以相关的作者、机构或是关键词等途径来检索。网络系统中的检索系统还能够给用户的检索提供有用的帮助以及启示的功能。

1.3 检索速度的快捷性

网络作为现今最有效也最快捷的传播途径, 用户可以不分时间和地点随时通过网络来查阅所需的信息资源以及所需的相关文献。

2 关于信息资源网络检索存在的问题

网络信息资源具有易用性、快捷性以及灵活性等特点, 为用户创造了极大的便利, 但在检索中也存在着一些问题。

2.1 检索结果多变且查准率不高

丰富的网络信息资源有效地提高了文献的查全率, 但在不同的学科当中存在一词多意的现象, 使得进行一些查询时可用的结果不多, 查准率不高。在网络中的一些信息发布以及更新的速度很快, 针对相同的检索在不同的时间段会出现不同的结果, 使得检索的结果具有多变性。

2.2 信息资源分类混乱

在网上有很多的动态信息, 而进行网络信息相关工作的大部分都不是专业人员, 在由于工作量的制约以及其专业知识的缺乏, 工作人员往往不能对信息资源进行有效合理的组织, 从而导致网上信息资源没有合理的设置分类, 分类的标准混乱, 信息资源没有进行具有层次、规律以及逻辑性的组织, 经常出现内容重复或者遗漏的情况。

2.3 网络检索的局限性

由于网络信息资源与传统的文献信息资源在检索的方式上有很大的区别, 一些已经习惯了利用传统方式进行检索的用户, 对于网络信息资源的使用还需要一个认识以及熟练的过程;而由于一些用户的文化程度以及知识的结构不同, 也在一定程度上局限了用户对于网络信息资源的使用。用户在使用网络信息资源的一些常见问题:用户对于计算机的操作能力以及所具备的网络知识关系到信息检索的效率;用户在运用网络检索的相关工具时的熟练程度也关系到检索的效果;以及用户的外语知识对于信息检索的广度与深度也构成了一定的影响。

3 关于信息资源网络检索提高的相关对策

3.1 建立具有特色的数据库

特色数据库是在互联网上提供的一种特殊的数据库, 其中主要包含了学位论文数据库、科研成果数据库、专业特色数据库等, 有关信息服务的机构应当依照相关地区的社会以及历史发展的需求, 再与当地经济、人口以及文献资源的实际情况相结合, 建立具有特色的数据库。还可以利用一些相关文献资源所具有的特色以及一些重点学科等方面的优势建立相关专题的数据库, 通过具有特色的服务将自身价值体现出来。

3.2 网络信息分类标准的统一

鉴于网络信息资源在丰富多样的同时也很杂乱, 想要做到网络信息资源的高效利用, 为用户节省时间以提高检索的效率, 那么在网络信息资源的分类标准的制定上就必须做到统一。而在网络信息资源分类标准的制定过程当中, 要兼顾信息分类标准所具有的灵活性以及与传统文学在分类标准上的融合性进行制定。

3.3 对检索人员的相关要求

3.3.1 对于真假信息、前沿信息的鉴别能力

作为检索人员应当对相关服务领域内包含的一些前沿信息具有全面的了解, 还需要拥有较强的洞察力以及辨别能力, 使其能够在混乱的网络信息当中准确的对有关的真假、前沿信息进行鉴别。

3.3.2 准确分析以及提炼核心内容的能力

作为网络信息的检索人员, 应当对检索的相关课题进行全面了解, 并且具备能够进行准确分析检索课题, 将检索的核心内容提炼出来的能力。其中包括:分析检索课题中的主要内容, 以及所涉及到的显性和隐性概念等, 并分析有关概念之间的关系;提取核心的概念, 在对相关课题所进行的分析中, 应当能够将表现出课题核心的概念提取出来。

3.3.3 综合分析能力

作为网络信息资源的查询者或提供者, 应当具备综合的分析能力。对网上搜集到的信息资源进行鉴别与分析, 去掉其中的虚假以及简陋的部分, 保留真实或精华的部分。力图通过检索给广大用户提供具有高质量的服务。

4 结语

网络信息资源质量的参差不齐, 以及网络信息资源检索特点还没有与用户所掌握的网络技术及检索方法进行有效的融合, 使得用户在用网络检索时会出现诸多问题, 将这些不足解决才能促进网络资源与用户检索的融合。从而满足用户对网络检索的需求, 加大对网络资源的利用。

参考文献

[1]龙健.政府基础信息资源跨部门共享机制研究[D].北京大学, 2013.

[2]李建英, 王韵.网络信息检索中存在的问题及解决途径探析[J].榆林学院学报, 2007 (06) .

[3]沈思, 徐纪涛.网络信息资源管理策略分析[J].考试周刊, 2009 (19) .

网络信息资源检索研究 篇2

3.1 确定检索项

(1)分析检索课题,明确检索要求。分析检索课题,是为了弄清楚检索课题要达到的目的和意图,弄清楚课题学科属性、专业范围及相关内容,以便正确选用数据库、检索词和逻辑运算符,确定检索标识,达到良好的检索效果。

(2)选择适当的语词,确定检索项。规范词和自由词是检索常用的语词。规范词是规范化的语词,是受控词汇,它取自主题词表(叙词表)。自由语词是自然状态的语词,属于非受控词汇。检索时,应遵循优先使用规范词,根据实际情况恰当使用自由词的原则。

(3)检索项之间进行逻辑组配,编制检索表达式。不管是数据库还是网上的搜索引擎,几乎都具有逻辑组配检索功能。由于已确定的检索项表达的主题概念间存在逻辑关系,可以通过使用布尔逻辑算符和位置算符对检索项进行组配,编制成检索表达式。常用的布尔逻辑算符有“逻辑与”(and)、“逻辑或”(or)和“逻辑非”(not);常用的位置算符有“near”、“with”、“field”等算符。

3.2 选择检索工具

(1)科研选题和科研进行中,由于要检索比较专业的、学术性较强的文献信息,如正式发表的期刊论文、会议记录等,应选择网上数据库检索系统,以保证检索结果的全面性和权威性。

(2)网上商务信息数据库的比重逐年增加,如中文的万方数据资源系统和美国的Dialog公司均提供许多很有特色的商务信息数据库,用户如要检索比较准确和系统的商务信息(包括政策与法规、市场、金融、商品等),也可以选择网上数据库信息检索系统,登录其网站,进入有关数据库进行有偿信息检索。

(3)检索时效性较强的信息,如新闻报道、最新商务信息等,可以选择网上搜索引擎。搜索引擎具有信息传递速度快且免费检索的特点,但对于学术性强,比较专深的课题,用搜索引擎检索效果不理想。

(4)针对具体的检索课题,可根据实际情况选用不同类型的信息资源灵活地配合使用,取长补短,即以专业性或综合性数据库检索为主,适当辅以网页搜索的检索方法,以达到最佳检索效果。实际操作中,用户最常用的就是这种综合运用的方法。

【参考文献】

1 黄如花.网上电子期刊的利用.图书情报工作,(12)

2 陈光祚,夏立新,我国网络图书现状分析与发展对策研究.中国图书馆学报,(2)

3 李家清.开发利用网络信息资源的对策研究.图书情报知识,2001(1)

4 司莉.因特网上的图书馆虚拟文库建设.图书情报知识(1)

5 李毅萍.网络报纸资源及其开发利用.图书馆论坛,2001(4)

网络信息资源检索研究 篇3

【关键词】网络信息资源;搜索引擎;体系结构;工作过程;工作原理

随着国内外近年来电子图书馆、数字图书馆、虚拟图书馆的兴起与发展,图书馆的工作对象由文献资源扩展为信息资源。以计算机技术、网络技术、微电子技术为核心的现代化技术将从根本上改变图书馆的工作模式、工作方法甚至体制形态。新的研究课题不断涌现,其中包括网上信息资源的虚拟链接和应用、利用计算机进行各类信息(包括多媒体信息、流媒体信息等)的存储和检索。

1.网络信息资源

网络信息资源是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。

2.网络信息资源的检索工具

网络信息资源检索工具有多种,按照其检索机制可分为主题指南(目录型检索工具)、图书馆的网络导航(学科导航)、搜索引擎等。从功能上来看,主题指南和图书馆的网络导航类似图书中的目次,而搜索引擎则更像索引。搜索引擎使用自动索引软件来发现、收集并标引网页,建立索引数据库,以Web形式提供检索界面。当用户输入某个关键词的时候,所有在页面内容中包含该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。搜索引擎强调的是检索功能,而非主题指南那样的导引、浏览。

3.搜索引擎基本工作原理

3.1 搜索引擎的概念

搜索引擎是指自动从互联网搜集信息,经过一定整理之后,提供给用户进行查询的系统。它是为满足用户对网络信息搜索需求应运而生的网络工具,既是互联网信息查询的导航器,也是沟通用户与网络信息的重要桥梁。搜索引擎是在检索被搜索到的网页的数据库,而不是检索互联网本身。[1]

3.2 独立搜索引擎是一个双层的客户机/服务器(Client/Server—C/S)体系结构

当用户访问搜索引擎时,用户端为客户机,向搜索引擎发出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。当搜索引擎采集数据时,搜索引擎为客户机,向WWW站点等实际资源系统提出页面搜索请求,各类实际资源系统为服务器,将有关数据(例如WWW页面或文档)作为应答提交给搜索引擎。

3.3 搜索引擎的目的

搜索引擎的目的只有一个:寻找相关性最高的网页。

3.4 搜索引擎有至少三个因素值得重视:数据库,用户搜索,搜索结果排序

值得一提的是数据库,搜索引擎的数据库资源由用户提交的登录信息组成,他们还主动地使用其“Web crawlers”“spiders”或“robots”程序搜索因特网并将搜索到的网页信息归入其索引数据库中。

3.5 搜索引擎的工作包括如下三个过程

(1)在互联中发现、搜集网页信息

搜索引擎首先负责数据采集,即按照一定的方式和要求对网络上的WWW站点进行搜集,并把所获得的信息保存下来以备建立索引库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其他服务器要做的还有进行计算/分配/储存用户习惯等等。

(2)对信息进行提取和组织建立索引库

首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照网页中的字符特性予以分类,建立搜索原则,举例来说,对于"软件"这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些方式往往影响着未来搜索结果。

接下来是数据组织,搜索引擎负责形成规范的索引数据库或便于浏览的层次型分类目录结构,也就是计算网页等级,这个原则特别是在Google非常重要,一个接受很多链接的网页,搜索引擎必然在所有的网页当中将这些连接多的网页提升上来。

(3)在索引数据库中搜索排序

由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

搜索引擎负责帮助用户用一定的方式检索索引数据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户相关信息,利用这些信息来提高检索服务的质量,信息挖掘在个性化服务中起到关键作用。用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。

3.6 主要搜索引擎

主要搜索引擎有Goole、百度、Yahoo和Bing。一般来说,如果是搜索英文信息使用Goole会更有效,搜索中文信息则倾向于使用百度。即使在中文信息领域,如果单就搜索的准确性而言,目前Goole仍占据着明显优势,应成为首选。目前百度以近70%的市场占有率,占据中文搜索引擎的领先地位,在全球的市场份额则落后于谷歌、雅虎和微软必应排在第4位。

参考文献

[1]邹广严,王红兵.信息检索与利用[M].北京:科学技术出版社,2011.

作者简介:牟雪艳(1972—),女,大学本科,毕业于北京大学信息管理系图书馆学专业,北大文学学士,山东省烟台栖霞市图书馆馆员。

网络信息资源检索研究 篇4

互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。

本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)

作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网 (Semantic Web)

为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 Word Net

Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

摘要:互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。

关键词:语义检索,本体,语义网

参考文献

[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.

[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.

[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.

网络信息资源检索研究 篇5

学院:食品科技学院姓名:孙晓伟学号:2010309200406

一、利用馆藏书目数据库查出本馆不同学科图书四种,外馆图书两种。

要求:

1、记录:数据库名称、检索途径、检索词

2、检索结果记录:书名、作者、出版项、藏书地点、索取号。

二、在互联网上查出5条关于本校最新重大新闻

要求:

1、不用本校网站

2、写出所查网站的 网址及检索表达式

3、记录新闻标题、新闻来源、主要内容。

三、数据库检索

在相关数据库中检索如下文章

1、爱滋病的产生机理及预防

2、H1N1及其控制策略

3、大学生就业问题探讨

4、我国经济发展研究

5、股票市场及金融监管

6、大学生素质教育

7、人的自我发展设计

8、网络信息资源评价

要求:

(1)写出数据库名称、检索途径、检索策略、检索表达式

结果记录:论文标题、作者、论文来源(所载刊物名称、年、卷、期、页码)

(2)写出中英文文摘

四、写一篇与自己学科相关的论文提纲

1、自己命题

2、检索相关参考文献8篇(中文6篇;外文2篇)

要求:

(1)写出数据库名称、检索途径、检索策略、检索表达式

(2)结果记录:论文标题、作者、论文来源(所载刊物名称、年、卷、期、页码)(3)写出中英文文摘

网络信息资源检索研究 篇6

通过搜索引擎查询信息是网络用户日常生活的一部分。使用者除了查询相关信息,也经常重复查询曾经点选或造访过的网页或网站。根据多项研究,个人造访的网页中有超过半数以上是再访的网[1]。而就搜寻引擎的检索语句等领域,一项针对Google!的检索语句分析研究证明,39%是来自使用者曾查询及造访网页所使用的检索语句,显见搜索引擎的流量中,有颇高比例是来自重复查询。这种同一使用者在一段时间后进行重复查询的行为即称为Web资源二次查询[2]。相较于网络使用者的一般性检索行为研究已颇具成果,Web资源二次查询的研究则是近几年才开始受到重视的。

有关Web信息二次查询的相关研究,因网络检索环境的变动性大,研究情境较难控制,如一次查询与二次查询的时间长短、使用者需求的多样性及搜索引擎的变动性等,使得研究设计十分困难。目前相关研究多以探讨某特定议题或某因素变项的实证性研究为主,研究方法也以实验法或访谈法居多[3],本文也是基于此角度进行相关分析与研究。据Teevanetal(2007)[3]要求119人一小时内回覆的前输入的检索语句测试中,有30%调查对象回想的检索语句是错误的。由于网络环境的变动性及信息初始查询情境的多元性,网络资源重复检索与一般信息初始查询的检索行为可能存在差异,值得进一步探究。

Web搜索引擎的检索模型中广泛引入了pagerank算法和HITS算法,可以通过分析整个Web上网页间相互链接的关系找出查询相关的网页。但由于不是每一个链接都具有注解性,有些链接是为了广告而建立的,使得pagerank的算法精度不高,且如果最终的网页不在结果网页集中,Pagerank算法就无能为力,HITS算法则存在主题漂移的现象,从而使得检索的精度不高。

本文通过分析网络用户Web资源二次查询的检索行为特性,以实验、观察、访谈、问卷等方法,尝试研究网络用户的Web资源二次查询检索行为特性。研究结果显示,相较信息一次查询行为,用户于Web资源二次查询过程中所使用的检索方式更为多元,也会交互使用多种检索策略寻得先前情境线索,所采用的检索优化更为复杂。研究结果除提供Web资源二次查询相关研究的参考,同时也有助发展协助使用者二次查询信息的功能设计参考。

1 Web信息二次检索分析

信息一次查询与信息二次查询属于不同的搜寻活动类型。Capra(2005)的研究指出(如表1所示),信息一次查询偏重探索性活动,在检索过程中,使用者并无法预期检索结果内容,因此较具不确定性;而信息二次查询的检索过程,则因使用者曾看过检索结果内容,相较之下,其对检索结果多有预期,目标信息也较为明确。此外,在这两类活动中,使用者的认知活动及使用策略也略有差异。就信息一次查询行为,使用者多依靠个人既有的知识与直觉,针对检索结果进行再认,以决定是否符合所需;而Web资源二次查询则常借助回想与再认,强调回忆线索的建构与目标导向式的浏览。如Lansdale(1988)提及[4],回想与再认会相互影响,即用户会回想目标信息的部分资讯(如前次使用的关键词、检索结果的标题、储存的位置等),以此缩小检视范围,再加以确认。

2 基于Web信息二次查询的信息检索策略实证研究设计

2.1 研究对象设计

本研究对象为抽样,共有100名国内图书信息领域的学生参与本研究。以国内硕士生为对象的主要考虑,包括研究生多具备相当信息素养,其信息检索知识与经验较一般用户为多;同时,硕士生进行论文研究时,多需大量搜寻及收集信息,甚且进行个人信息管理,因此常有二次查询网络信息的需求与经验。

2.2 研究思路设计

本研究主要采用实验法,并辅以观察、问卷及访谈等方法。实验设计主要分两阶段的实验方式进行。考虑调查对象若时间过久未查询先前一次查询的数据,甚至完全遗忘,可能等于重新查询,而较难观察一般一次查询与二次查询的关联。因此本研究以采用一周为实验间隔。

首先有关信息二次查询的行为特性及因应策略是较常见的研究议题。在观察使用者如何重返网页及所遭遇困难的研究中,其发现使用者常会以「where’d it go?」(网页跑去哪?)来表示未能造访先前网页的困惑[5]。换言之,使用者在重返网页却未能及时获取该网页时,其最初的反应多希望获得路径而非目标信息,显示路径在Web资源二次查询中是一重要线索。此研究结果与Maglio[6]先前研究发现颇为一致,即使用者在回想其检索历程时,多会记住路径中经过的关键节点及其检索路线。这些关键节点也就是所谓的导航点,即用户在一次查询信息的路径中所出现的网页或网站。用户虽无法记得明确的一次查询路径,但常能再认或回想路径中的导航点。根据信息明确度也将导航点分为三种:网页/网站、网址URL、网页内容细节等。

2.3 研究方案设计

实验开始时会先引导调查对象一次查询并取得目标信息;间隔一周后,再要求调查对象二次查询并取得目标信息。实验过程中使用LogSquare屏幕操作录制软件,记录调查对象的一次查询与二次查询的检索历程。二次查询过程中,本研究并不限制调查对象所选择的二次查询策略,以客观观察调查对象可能采用的二次查询策略,如重新寻找、检视浏览器所保存的暂存记录、检视个人保存的档案记录等。最后本研究也与调查对象进行访谈,以进一步了解其二次查询。

有关指定检索任务的规划,为贴近调查对象日常生活情境,本研究先设计一个网络调查问卷,搜集调查对象相关网络活动,主要为生活取向的网络活动。生活取向系指调查对象利用网络从事非学术性的活动类型,如购物消费、娱乐休闲、金融交易等。问卷内容主要询问填答者经常及很少进行的生活及工作取向网络活动。Web问卷调查于2012年3月1日起至3月15日,共取得226项网络活动描述。

扣除非搜寻类型任务(如收发E-mail、上传或下载文件等),本研究参考上述收集到的网络活动描述,共设计4项指定检索任务(如表2所示)。

正式实验进行前,调查对象须填写检索任务调查表,包括对任务的熟悉度及接触次数等。在两阶段的实验中,每位调查对象须完成8项指定检索任务,共取得144笔任务结果,扣除无效样本8笔(如花费时间太久或无法一次查询目标信息而自行放弃等),有效样本共计122笔。实验结束后,会请调查对象填写检索结果评估表,包括其满意度、认知难易度、是否成功找到目标信息等。最后再进行一对一访谈,主要了解其对二次查询过程的主观感受及对支持方式的改善建议。从表中可以看出,相对比于信息一次查询行为,在Web资源二次查询过程中所使用的检索方式、检索策略更为多元化、所采用的检索优化方法更丰富。

3 研究结果分析

本研究通过两阶段的网络信息一次查询与再一次查询实验,初步分析Web资源二次查询的检索行为特性,主要关注其检索方式的使用特性及检索优化,分述如下。

3.1 检索方式与手段分析

根据实验结果,调查对象二次查询信息时,仍与信息一次查询阶段一样使用相同的浏览器。调查对象所使用的浏览器种类不尽相同,而针对二次查询的支持功能,调查对象表示包括可记忆最常浏览网站、可设定常用网页、网址列具助记检索词汇或URL功能、可查询检索历史等。就二次查询的检索方式与手段,多数调查对象最常利用搜索引擎进行二次查询,且不会更换信息一次查询阶段所使用的搜索引擎;其次为直接输入URL撷取网页,即调查对象会利用平日熟悉的手段二次查询信息;最后则是使用浏览器中的检索历史,这类手段可作为辅助回想的相关线索或作为检索来源,如同Soergel(2007)指出,检索历史具有记忆支持、检索系统使用、或信息使用等辅助功能。值得注意的是,超过八成的检索任务,调查对象是以单一检索手段即成功二次查询信息,但仍有二成检索任务使用超过二种以上的检索手段。简言之,相较一次查询阶段集中于搜索引擎的使用,二次查询的检索方式显得较为多元。

3.2 检索策略与优化分析

根据研究者观察及访谈结果,如同资讯一次查询阶段,调查对象在二次查询阶段也以关键字检索与浏览为主要检索策略。但其同时也会回想信息一次查询阶段的相关情境信息。部分调查对象会记得导航网页,却忘记目标信息;部分调查对象则是记得目标信息,却忘记导航网页。若为前者情境,调查对象多会采取依循信息一次查询阶段的检索路径二次查询信息;若为后者情境,调查对象则多选择重新寻找。

除上述检索策略外,调查对象亦会交互使用关键字搜寻及浏览策略,从中寻找相关情境线索,逐步接近目标信息,即所谓的定向式检索策略。就检索优化的运用,由于二次查询较一次查询阶段来得复杂,调查对象使用进阶检索功能的比例较高。如表3所示,调查对象一次查询与二次查询信息过程中经常使用「空格」以表达AND的交集功能。扣除空格的使用情况后,两阶段实验实际运用布林逻辑运算元与修饰符号的使用比例,皆低于5%,与一般使用者搜索引擎检索行为特性颇为相似。整体而言,Web资源二次查询阶段使用的进阶检索功能比例较高。

4 结 语

本研究主要通过指定检索任务的实验情境,分析网络用户的Web资源二次查询检索行为特性。研究结果显示,就检索行为特性,搜索引擎虽同时为信息一次查询与二次查询的最主要检索方式,但二次查询的检索方式显得较为多元;二次查询阶段也以关键词检索与浏览为主要检索策略,但其同时也会交互使用这些策略,从中寻得相关检索情境线索;二次查询所使用的检索优化也较为复杂。只有综合利用相关手段,才可提高相应的检索效率。

针对未来研究建议,以目前网络搜寻方式多以信息一次查询观点设计,很少以Web资源二次查询观点进行探讨,如何设计一具有保存个人使用情境的检索系统,是值得进一步发展的方向。同时,本研究仅以某校区图书信息领域研究生的小样本进行实证,未来若能增加其他领域或不同人口背景的研究对象,将有助于了解不同类型用户的信息一次查询与二次查询行为差异与检索成效,并提升研究结果的概括化。此外,本研究的实验场域为网络的搜索引擎平台,且着重于较一般性的信息需求,未来若能以特定的机构组织作为研究对象,将有助了解不同机构组织的二次查询行为特性,并可比较组织与个人情境的二次查询行为差异。

参考文献

[1]张银犬,朱庆华.网格环境下个人数字图书馆信息检索策略[J].中国图书馆学报,2007,33(3):56-59.

[2]贾丹明.专利技术信息检索策略解析[C]//第十六届中国竞争情报年会论文集,2010:230-233.

[3]杨林,张永胜,邢长明,等.基于教育资源网格的信息检索策略[J].计算机应用研究,2009,26(4):1484-1486.

[4]程琳.谈信息检索策略与方法新观点[C]//《图书情报工作》杂志社、图书情报工作研究会第23次图书馆学情报学学术研讨会论文集,2010:1-3.

[5]张辉.基于语义关联技术的信息检索策略[J].计算机工程与设计,2011,32(12):4291-4293,封3.

[6]肖红.浅析网络信息资源的检索策略[J].中小企业管理与科技,2011(30):296.

[7]鄢百其.信息检索策略优化分析[J].武汉科技大学学报:社会科学版,2011,13(2):237-239,248.

[8]李璐,江葆红,孙红红,等.搜索引擎检索策略调整研究[J].内蒙古科技与经济,2011(14):81-81,84.

[9]刘科,秦磊华,周敬利,等.内容感知存储系统中的两阶段检索策略[J].计算机科学,2011,38(5):20-23,48.

[10]鄢百其.便于快速入门的检索策略模式[J].情报理论与实践,2011,34(12):126-128.

[11]Effects of Spatial Locations and Luminance on Finding and Re-findingInformation in a Desktop Environment[C]//27th annual CHI confer-ence on human factors in computing systems 2009(CHI 2009):Ex-tended abstracts,2009,2:815-820.

网络信息资源检索研究 篇7

在教育领域数字化步伐迅速加快, 数字化的教育资源呈现井喷式增长的今天, 越来越多的用户通过网络来学习和研究, 这种教育方式也呈现出无限性和复杂性的特征。传统的信息检索是采用基于关键字的匹配方式的方法, 这种检索在覆盖率与检索精度等方面存在一定的缺陷, 检索结果的准确率比较低, 不能很好地满足用户的个性化信息需求。如何能让用户快速高效检索到符合需求的信息成为网络学习领域中急需解决的问题。具体研究内容如下所述。

1 领域本体构建研究

对本体论和语义检索进行深入学习, 结合网络的教育资源建设元数据规范, 构建领域本体, 为语义检索奠定坚实基础。

1.1 对本体的基本概述

1.1.1 本体概念

本体的概念是把现实客观存在的事物经过分解成基本的组成部分之后研究它抽象的本质特征。随着信息技术的高科技化, 本体已经广泛的应用于计算机工程领域, 用来实现知识上的共享和交互。

1.1.2 分类

本体按照功能领域, 根据由低到高的程度, 把本体分成如下四类:

1) 顶级本体

2) 领域本体

3) 任务本体

4) 应用本体

本文主要研究的是描述特定领域中的概念和概念问的关系的领域本体。

1.2 如何构建领域本体

由于不同学科领域的具体工程不同, 构建本体的方法也各有不同, 本体的构造方法有很多种都是可行的, 其中得到广泛应用的有骨架法、七步法、IDEF-5方法、TOVE企业建模法。另外, 在实际工程构建本体时, 通常在构建规则的指引下, 根据具体情况的需求, 寻求探索出符合自身要求的具体方法。

1.3 构建教育资源本体的过程

无论本体采用什么样的方法都基本符合Gurber提出的5条本体构造的规则:

1) 明确性与客观性:在自然语言的描述下给出术语较为明确和客观的语义概念。

2) 完整性:本体中的概念是能表达特定术语集合的完整含义。

3) 一致性:知识推理所产生的结果与术语含义达到基本的语义一致。

4) 最大单向可扩展性:在向本体中增加通用术语和专用术语的过程中, 不轻易修改原有术语及其含义以保证原有文件的敏感性。

5) 最少约束:应尽可能减少对建模对象的约束条件。

同时, 本文在网络教育资源本体的构造中, 结合软件工程思想和问题的实际情况, 设计出本体构建的实际步骤。实际构造步骤分为:设计与准备阶段、本体构造阶段、测试阶段、维护与进化阶段。

2 语义相似度计算方法的研究

2.1 语义相似度的概念

语义相似度是指两概念在意义上的一致程度, 在本体树中可以利用两个概念间的语义距离来进行衡量。在本文知识点本体中, 知识点间相似度主要是通过蕴含关系体现。由于所有知识点位于本体概念树的最底层, 因此上述构建的知识层次网络中, 影响语义相似度的因素我们主要考虑如下几点:语义距离、关系类型、节点密度、语义重合度。

2.2 语义相似度的算法

语义相似度算法的语义检索的核心, 是进行语义匹配的基础。其主要是利用本体理论对检索词进行语义化处理形成查询向量, 通过对查询向量与资源向量相似度进行计算实现语义检索的匹配。设计一种词语间的语义相似度的计算方法, 并将算法用在构建本体阶段, 计算候选名词词条之间的语义相似度, 由此确定本体中的概念, 辅助本体的构建过程。

3 语义检索模型的设计及优化

3.1 语义检索概念

语义检索是在语义网上进行查询检索的技术, 又把语义检索称为概念匹配, 在语义网中传输、存储的数据不但要给用户显示出来, 而且还要求让机器进行“理解、分析”, 即匹配在语义上相同、相近、相包含的词语。例如, 用户需要检索“操作系统”, “UNIX、LINUX、WINDOWS”也是与之相匹配的词语。与传统的检索技术相比, 它能提高检索的精度和覆盖率, 减少了不相关冗余的返回结果。

3.2 语义检索模型的设计及优化

本文在研究知识点本体构建、语义关联度计算方法相关技术的基础上, 结合教学领域, 建立一个基于本体的教育资源语义检索模型。同时, 理论与实践相结合, 初步设计实现了教育资源语义检索系统, 并将之投入到实际平台应用中, 预期会取得了较好的检索效果。

通过分析教育资源知识点本体的语义相关性特点提出了一种基于知识点本体的语义相似度的计算方法。该方法通过将概念间关系进行分离, 利用概念层次结构和关联关系并考虑多种影响因素 (如语义距离、节点密度等) 分别计算语义相似度, 进而综合量化成语义关联度。利用前两步的成果, 设计一个语义检索模型, 将准确的查询结果反馈给用户。

4 结束语

通过引入本体技术, 建立一种稳定性强、安全性好的基于语义的检索模型, 实现对网上大量的没有统一分类、无序混杂的网络教育资源的检索, 能够帮助使用者全面地掌握有关的必要信息, 增强决策的科学性;提高信息利用的效率, 缩短获取信息的时间, 使用户有更多的时间去完成更重要的工作, 从而大大提高了工作效率;有利于提高信息素质, 增强信息意识, 熟悉检索技巧;有利于科学研究工作的顺利开展, 同时可以提高科研工作的成功率, 进而促进整个社会的进步和经济的发展, 有着良好的推广价值。

摘要:基于本体的语义检索是利用本体对用户提交的查询关键词进行扩展, 将经优化处理过的查询关键词组导入文本检索引擎中, 对文档资源进行匹配, 将查询结构进行过滤和排序后依次返回给用户, 克服了因信息冗余或丢失缺点的传统检索方法, 将检索到的教育资源通过分析器进一步过滤, 结合语义关联度的计算方法, 可以很好地解决传统基于关键字检索存在的问题, 最终得到与检索要求的内容匹配度较高的教育资源。

关键词:本体,语义检索,网络教育资源

参考文献

[1]万捷, 滕至阳.本体论在基于内容信息检索中的应用[J].计算机应用研究, 2003, 29 (4) :5-8.

[2]刘风华, 朱欣娟.信息系统领域的本体模型研究[J].西安工程科技学院学报, 2003 (1) :53-57.

[3]杜文华.本体构建方法比较研究[J].情报杂志, 2005, 10:24-25.

[4]刘群, 李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学, 2002, 7 (2) :59-76.

[5]刘燕美.教育资源评论的倾向性研究及应用[D].重庆大学, 2011.

[6]段寿建.基于本体和语义检索原型系统的设计与实现[D].昆明:云南师范大学, 2008.

网络信息资源检索研究 篇8

一、国内外同一领域研究现状

1. 国外同一研究领域现状:

信息资源整合研究开始于20世纪80年代。1981年, 澳大利亚国家图书馆与澳大利亚800多个图书馆和书店合作启动了图书馆澳大利亚项目, 项目的核心是加拿大国家书目数据库, 库中记录了4200万条书目数据 (其中包括政府出版物书目数据) , 允许参与的图书馆和书店能够共享这些书目数据信息, 该项目用于参考咨询、馆藏发展、编目和馆际互借。近年来, 信息整合成为欧美国家信息资源整合的主流模式。全美十大公共馆一半以上都使用Web Feat Prism。

2. 我国同一研究领域现状。

国内许多高校图书馆都开展了程度不同的信息资源整合工作, 特别是一些实力较强的高校馆, 其整合工作更是走在前面。曾有学者做过专题调查, 被调查的大学图书馆几乎都开展了字顺、学科导航的简单数据整合, 其中清华大学图书馆、北京大学图书馆等13所图书馆分别推出跨库检索系统服务, 可实现全文数据库、二次文献数据库、专题数据库、特种文献数据库等多个中外文数据库在统一界面下的一次性检索。高等职业院校图书馆实施信息资源整合工作还未见报道。为此, 我们将江苏省五年制高职校图书馆信息资源整合作为一个课题进行研究。

二、研究内容

1. 不同载体、不同类型的资源整合。

目前我省高职校图书馆中, 有较多馆藏仍以传统的印刷型纸质文献为主。有一些馆藏资源趋于新型多样, 如:电子型信息资源、网络型资源等, 它们之间的整合需要进行合理全面的规划, 使其有机地结合起来。

2. 电子型信息资源整合。

电子型资源种类繁多, 高职校图书馆基本收藏了电子图书、电子期刊、光盘数据 (库) 、网络信息资源以及数字镜像或链接方式提供的、分散式管理的数据资源。合理规划各类电子资源比例是进行整合的前提, 确立合理的整合机制, 根据读者需求合理分配各种数据库, 实现异质电子信息资源的整合问题以实现互操作和跨库检索, 建立统一的异构检索平台。

3. 高职校图书馆馆际间的资源整合。

从本校图书馆到全省各高职校图书馆以及引进省外馆际间资源, 包括各校图书馆的文献资源、教学方面的课件、讲座、精品课、视频、音频等信息资源, 整合成一个有机体, 成为可查可用的信息资源。

三、研究方法与步骤

1. 本课题研究的方法, 是采用调查法、文献法。

信息资源整合所选取的技术方式方法:资源、素材存储依托数据库技术为主。数据资源的访问交流方式以导航方式为主, 辅以跨库检索技术、OPAC2.0系统等。

2. 本课题研究步骤分四个阶段:

第一阶段, 为课题准备阶段 (2010.9-2010.12) ;第二阶段, 为对高职校的教育资源采集整理阶段 (2010.9-2012.10) ;第三阶段, 为资源、素材的归类、技术处理、整合阶段 (2010.10-2012.10) ;第四阶段, 为课题成果测试、成果总结鉴定、结题阶段 (2012.10) 。

四、研究结果

1. 完成对全省高职校图书馆资源状况调查。

撰写了《江苏省五年制高职校馆藏信息资源调研报告》 (见《教育教学论坛》2012年第9期) 。调查数据显示, 各所分院图书馆的馆藏资源不仅量小而且馆藏资源类型多样化, 有印本式、数字型、光盘版、网络版, 有购买类、自建类信息资源, 存储介质分散、无序。由于各种资源杂乱无序, 缺乏对其线索的组织控制, 因而无法方便地检索利用, 造成极大的浪费。

2. 已经制作了江苏省五年制高职校图书馆信息资源查询主页。

该平台的内容。文献信息资源分为三大类, 第一类为纸质资源类:我们将传统的中图法分类中的22类图书, 重新按高职校专业归类, 分为建筑水利类、生物工程类、交通运输类、财经贸易类、医药卫生类、电子类、计算机等类专业图书。第二类为电子资源类:中国知网和万方期刊、百链云数字图书馆、冰果英语、超星电子图书、读秀数据库。第三类为特色资源:职业资格考试题数据库、数字报纸、核心期刊查询、教学资源 (PPT) 。该平台的价值, 一是读者可以方便快捷地在同一个界面寻找不同专业的文献信息;二是读者可以对不同介质的文献资料选择利用, 既可查、借纸质的文献资料, 又可阅览或下载电子文献资料;三是可以进行文献传递, 即介绍给他人或向他人索取, 解决了如果本馆没有不仅能知道什么地方有, 还可向具有这种文献资料的馆方借的问题。

3. 已经与多家同类学校图书馆 (不同专业类型的学校) 商定今后方便时信息资源共建共享。

五、存在的问题与解决的思路

1. 存在的问题。

上述可见, 只要江苏省联合职业技术学院的网站上建一个图书馆信息资源检索平台, 这样几十所高职校的读者就可以共享这个“平台”, 但是, 目前这个平台还不可以使用, 因为各高职校都是属于江苏省联合职业技术学院的下设的分院, 只有总院的网站上建设有这个“平台”, 各高职校 (分院) 才可以使用, 否则信息资源的供应商就可能会来找各所高职校的麻烦。

2. 解决问题的方法。

要想解决上述问题, 可以由江苏省联合职业技术学院统一购买文献信息资源, 并且在总院的网站上设立《江苏省高职校图书馆信息资源检索平台》, 各分院的读者就可以利用这个平台上的资源。建设这个平台所需的资金如果需要从各分院收取时, 建议根据某个分院对文献资源的需求量分档次计费。

摘要:江苏省南通商贸高等职业学校课题组针对全省同类学校图书馆资源建设问题, 提出建设“江苏省五年制高职校图书馆资源检索平台”, 为高职校广大读者提供更多、更方便快捷的信息资源检索利用途径, 也为同类高职校实现文献信息资源共建共享进行了探索。

关键词:高职校,图书馆,信息资源,检索平台

参考文献

[1]钱仁贵.江苏省五年制高职校图书馆信息资源情况调查与分析[J].教育教学论坛, 2012, (9) :202-204.

[2]张燕萍.高校图书馆信息资源整合现状及发展策略分析[J].现代情报, 2007, (8) :29-33.

[3]钱仁贵.高职校图书馆信息咨询服务的实践与思考[J].价值工程, 2010, (11) :256-257.

[4]刘镜, 张维庆, 等.高校图书馆数字化信息资源整合[J].农业图书情报学刊, 2010, (10) .

上一篇:艺术走向下一篇:重晶石矿