网络检索系统

2024-08-07

网络检索系统(共12篇)

网络检索系统 篇1

0 引言

随着Google、Flickr等图像搜索引擎和网站的迅速发展,输入一个关键词就能检索到海量相关图像。这类检索主要基于关键词的文本匹配,由于关键词的语义多样性及标注正确性等因素,仅由一个词检索到的结果往往包含很多无关图像,或者图像重复出现并且无序,给用户的查询造成不便。

因此,最近两年来开始有研究转向结合图像的内容特征对检索结果进行重排序。相关研究有:Gunhan Park等提出的一种Majority-based排序方法[2],结合了方法提取图像视觉特征,但该方法不能有效去除关键词检索结果中排位靠前的无关图像;Jingyu Cui等提出一种基于可适应相似性的实时网络检索重排序方法[3],结合多种特征事先训练模型,对不同图像采用不同处理方法,系统复杂。

鉴于此,本文针对用户的查询期望,通过结合SIFT和Graph方法以及网络翻译的概念,构建了一个网络图像关键词检索结果重排序系统,并进行了实验仿真。此重排序系统中,先用SIFT和Graph的方法将图像进行聚类及重排序;再结合关键词的网络翻译对不同类别的图像集合进行标注。本文基于两个假设,第一,用户首次点击的图像是感兴趣图像;第二,网络翻译能够包含绝大多数可能的关键词含义。

本文第一部分介绍理论基础,图像SIFT特征和Graph的概念;第二部分详述了用结合SIFT和Graph的算法实现的重排序系统流程;第三部分提出用网络翻译简化检索系统的设想;第四部分是仿真结果及分析;最后是总结和展望。

1 理论基础:SIFT和Graph

1.1 SIFT

在基于内容的图像分类中,对视觉特征的描述非常重要。尺度不变特征变换(Scale Invariant Feature Transform,SIFT)[1]特征具有良好尺度、旋转不变性以及精确的特征点定位能力,因此本文选取SIFT特征进行图像内容的描述。对于一幅图像,提取SIFT特征的过程分四步[5]:a.尺度空间极值点检测;b.极值点定位;c.特征点定向;d.特征点描述子生成。

对于两个SIFT特征向量,本文用其间的欧式距离作为它们之间的相似性度量。

式中为特征向量的维数,分别对应特征向量的第i维分量。再用文献[5]中提出的最近邻点和次最近邻点比值的方法实现特征点集合间的匹配。两幅图像匹配的关键点个数代表了图像之间的相似程度。由于不是本文所做的工作,在此不做详述。

1.2 Graph

图论中的Graph是由若干给定的点及连接两点的线(即边)所构成的图像,通常用来描述事物之间的某种特定关系。若集合中的边是无方向的,则称为无向集。

无向图G是一个二元组,其中:V是非空集合,称为顶点集;E是V中元素构成的无序二元组的集合,称为边集。若顶点之间的特定关系用权重表示,则边e可以表示为,i,j是的两顶点,是的权重。下面将图运用到系统中。

2 重排序系统流程和模块实现

2.1 系统流程

基于SIFT特征和Graph的概念,仿真系统的功能模块及流程如图1所示。

图1系统流程(参见下页)

图1中虚线框内是仿真系统的流程,灰色部分a,b是系统的重要模块,实现的功能分别为:

a.提供关键词网络翻译的不同语义供用户选择;聚类完成后,标记网络翻译到的用户感兴趣图像上,存储有序图像集并顺序输出结果;

b.用结合SIFT和Graph的算法进行图像聚类及重排序。

本文将a网络翻译的概念引入系统中,仿真主要集中在b,将分别在第3、4两节进行论述。

如图1所示,系统的两个接口API 1和API 2分别将"用户查询关键词"和"用户首次点击图像"引入系统流程。

对于用户输入查询关键词,系统提供关键词的网络翻译语义给用户选择,判断查询的关键词语义是否首次被查询,并采用不同流程进行处理:

(1)对于首次查询的关键词语义,将用户首次点击的图像视为查询图像,用网络检索图像作为节点,运用图1中b的方法对图像进行重排序,并把Graph代表的图像集合标注为用户选择的关键词语义;

(2)对于非首次查询的关键词语义,直接根据用户选择的网络翻译语义查找标注过的有序图像集合,以提高关键词再次检索的效率。

2.2 结合SIFT和Graph的重排序算法

当已知用户首次点击图像和网络图像检索结果,如第2节所述,图像间SIFT描述符匹配个数,代表了两幅图像局部视觉特征的相关程度。图1中系统的主体部分b的实现分两步:先利用SIFT局部特征构建无向Graph,再根据一定策略进行Graph内的节点排序,从而实现图像的重排序。具体为:

2.2.1 感兴趣图像集合选取

图像集合U={1,2,…,N,Q}包含了关键词网络检索所得的所有图像。Q是用户首次点击的图像,根据本文开头所提到的第一个假设:用户首次点击的是感兴趣图像,将Q默认为查询图像,根据Q进行感兴趣图像集合的选取。

用2.1的SIFT特征符描述算法,对U中的所有图像分别提取SIFT特征描述符,再根据式(1)分别计算图像与查询图像之间的SIFT特征匹配点个数。设定门限Threshold1,对于图像,根据式(2):

其中的图像构成的集合,V中的图像具有和Q相似的结构特征,为用户感兴趣的图像集合,如图2.a。的图像集合属于其它的类别,不在检索结果中显示。

2.2.2 Graph构建

在用户感兴趣的集合V中,图像间相似程度不尽相同。再次根据式(1),分别计算感兴趣图像集合中每两幅图像间的匹配点个数,表示成相似度矩阵的形式,如图2.a,就定量地表征了用户感兴趣图像之间的相似性关系。

2.2.3 重排序

集合V中节点代表的图像都和查询图像具有相似的结构特征,具有越广泛相似特征的图像就越有可能是用户感兴趣图像,即目标图像。

本文用Graph求解目标图像:对于连通Graph中的每个节点,分别计算与它相连的节点数目,将其中连通节点数目比较多的判定为目标图像类,将与其它节点连接过少的节点或者Sub Graph视为无关的它类节点,Graph中其他节点按照边数进行由高到低的排序。

即设定阈值Threshold2,第个节点的相连节点数:

遍历无向连通图V={1,2,…,M,Q},用式(3)分别计算每个节点的连通节点数目,按照相连节点数的高低排序。结果如图2.c所示。

由于这种排序方法考虑到了图像个体之间及个体和整体相关程度,在已知感兴趣图像的前提下,相比于提取特征后用统一的标准进行度量来排序[3],结合SIFT和Graph的方法能够充分表达图像间的相关关系网络;相比于可能性语义分析[2],Graph的模型结构更加简单直观。

3 网络翻译及其在重排序中的应用

由于因特网的巨大用户量,对同一关键词的重复搜索经常数以百万计,造成了巨大的网络资源浪费,本文将网络翻译的概念引入图像检索和重排序过程来减少检索的计算量,即图1中模块a的作用。

3.1 网络翻译

同一关键词被重复检索过程中,由于日常词汇通常具有多重语义,用户的目标图像可能不尽相同。如何在多重潜在语义中挖掘出用户感兴趣图像,从而减少检索计算量,成为网络图像检索的一个研究课题。本文引入网络翻译的概念来解决这个问题。

网络翻译,是对搜索引擎机器索引的海量数据进行统计排序的结果。比如:

图3.在谷歌字典中搜"apple",得到了apple的绝大多数常用语义(参见下页)

由于它来源于网络检索的统计结果,因此一个词语的网络翻译能够包括它通用的绝大多数语义。因此,本文提出一种想法,用关键词的网络翻译对用户的检索进行粗分类,在海量检索条件下,能够极大减少检索过程的计算量。但由于篇幅所限,并没有引入仿真中。

3.2 基于网络翻译的图像语义标注

图1中模块a的具体实现,即网络翻译在系统中拟应用如下:默认用户首次点击的是具有他期望的特定语义的查询图像,在本文提出的重排序系统中:a.系统在用户输入关键词之后,从在线网络字典中自动提取网络翻译条目提供给用户作为选择;b.若用户选择的语义项是首次被检索,则用第2节描述的SIFT和Graph方法进行重排序,将得到的有序用户感兴趣图像集合存储,并标注为用户选择的语义;c.若用户选择的语义项非首次检索,则直接查询图像库中已标注的相关图像集合,输出结果;d.若用户期望语义不在网络翻译范围内,则标注为"其它",重复b。

由于篇幅所限及网页内容提取的复杂,系统仿真中并未实现这一部分功能。但从原理上,每天在网络上进行图像检索的用户数以亿计,不同的语义很快就会被标注完全,而且可以用概率统计模型来训练多用户标注信息,以获得具有更高准确率的标注结果。由于对于任一关键词语义,除首次检索需要进行基于内容特征的相似性度量及排序计算之外,后续的检索都能够由关键词语义直接得到排序结果,必定能够极大提高检索效率。

4 实验结果及分析

用本文提出的重排序系统为仿真平台,以谷歌图像搜索关键词"starbucks"所得的前1000幅图像为仿真对象,进行了以图1中b模块为主体的实验仿真,具体如下:

(1)这1000幅图像,每200幅为一组,共5组图像,统一大小,宽高均不超过400像素,分别提取图像的SIFT特征;

(2)用户首次点击的图像为查询图像,本文选取了图4中上排图像作为查询图像,计算图像集内图像与查询图像间的匹配特征点数,设定阈值Threshold1,匹配特征点数超过Threshold1的图像组成感兴趣图像集合;

(3)在感兴趣图像集合中,以图像之间的匹配SIFT特征点数作为边的权值,构造Graph;在Graph中,设定Threshold2,根据式(3)计算每个图像节点的相连边数,并按照相连边数由多到少排序,并显示重排序结果。

从仿真结果可见,SIFT特征对于角度、尺度、亮度等条件具有不变性,因此仿真系统中,实验特征的选取是有效的。

图5经过Threshold2判断得到的Graph(参见右栏)

和查询图像SIFT匹配点数目大于Threshold1(仿真中Threshold1=5)的图像视为用户感兴趣图像。图5中所有节点都可能是用户感兴趣图像。以感兴趣图像为节点,计算两两图像SIFT特征匹配点数,设定Threshold2(仿真中T h r e s h o l d 2=4),节点间S I F T特征点匹配数小于Threshold2,则无边连接。孤立节点视为它类节点。

如图5,左侧连通区域中,每两个节点的阈值都大于Threshold2,显示为有边连接;右边三个独立节点,虽然属于感兴趣图像,但是和图像集合的整体联系不够紧密,被判别为它类图像。其它节点按照式(3)计算相连节点数,并排序。

连通图的构建中能够有效地剔除关联不紧密的检索结果,可以得出结论,系统中采取SIFT特征结合Graph作为重排序的算法也达到了系统的设计预期。

本文对谷歌图像上关键词"starbucks"检索到的前1000幅图像进行了仿真,前后的效果对比如图6和图7所示。可以看出,本文构建的仿真系统对于图像检索结果重排序是有显著效果的。

如图8所示,1000幅图像分为5组,每组200幅,分别计算准确率和查全率。在网络检索得到的图像集合中,图像数据和关键词的关联性随着排位的增加而递减,而在阈值Threshold2取不同值的情况下,Threshold2越大,准确率越高,查全率越低。因此本文综合考虑了准确率和查全率,在仿真进行过程中,根据不同的组适当调整了Threshold2的值。

从准确率和查全率表中可以看到,本文提出的算法,具有非常高的准确率。另外,在仿真中可以观察到,在漏检的图像中,多数是由于对图像进行了压缩以减少计算量,造成特征点丢失,从而影响了正确的匹配。

同时,本文也更换了仿真数据中的其他图像进行测试,准确率都保持在非常高的水平,但是查全率有所降低,而排序靠前的仍然是本文选取的查询图像,这是由SIFT和Graph算法必然引起的结果。

可以得出结论,本文构建的方针系统实现了预期效果,能够根据用户感兴趣图像,将网络图像查询结果进行合理有效的排序。

5 总结

本文结合用户的查询信息,从文本关键词检索结果出发,提出了一种利用图像SIFT局部特征构建图像间视觉关系Graph结构,对网络图像关键词检索结果进行重排序的方法。然后,将关键词网络翻译的概念引入系统,来解决网络图像检索中的重复检索问题。

本文仿真结果表明,用户可通过点击感兴趣的图像来获得有序的感兴趣图像集合。在将来的工作中,本文的方法可以和当前的文本检索技术及平台结合,更广泛地应用于实时在线图像检索。

参考文献

[1]Fergus R,L.Fei-Fei,Perona P.et al.Learning object categories from Google's image Search.ICCV2005.Tenth IEEE International Conference on Computer Vision,Oct.17-21,2005[C].Beijing,[s.n].

[2]Park G,Baek Y,Lee H K.Web image retrieval using majority-based ranking approach[J].Multimed Tools Appl,2006,31(2):195-219.

[3]Cui Jingyu,Wen Fang,Tang Xiaoou.Real time Google and live image search re-ranking[C]//.Proceeding of the16th ACM international conference on Multimedia,October26-31,2008,Vancouver,British Columbia,Canada:729-732.

[4]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision.2004,60(2):91-110.

[5]Mikolajczyk,K.,Schmid,C.A performance evaluation of local descriptors[J].IEEE Trans.On Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630.

网络检索系统 篇2

——读《理解媒介:论人的延伸》有感

由于没读《世界是平的》,所以谈谈读《理解媒介:论人的延伸》对网络时代新特征的理解。加拿大传播学巨匠麦克卢汉的著作《理解媒介》中阐述的主要观点是:“媒介是人的延伸,思维的延伸。人类的思维交流从面对面,到了电话,到了网络,不断将世界拉近。” 的确,媒介的变化和改进深深地影响着人类社会的方方面面,甚至影响到社会的变革。麦克卢汉在1964年预言:随着电子媒介的发展,世界日益成为一个地球村。他认为人类社会的发展经历了一个部落化——非部落化——重新部落化的过程,最终整个世界成为一个新的“地球村”。在原始社会,口语是主要的传播媒介,由于听力有限,人们必须生活在小空间的部落群体之中,相互保持近距离的密切关系。文字和印刷媒介产生之后,人咧可以分散到广阔的地域,部落神会便发生了解体。电子媒介的普及再次改变了这种状况,谈们的床不速度和实时性再次将遥远的世界拉得很近,人与人的距离大大“缩小”,于是重新“部落化”,形成“地球村”。在电子媒介刚出现时,大多数人并不相信他的这一预言,但事实是新媒介正逐渐将这一预言实现。电子化的、通过电线、光纤、无线电等技术传送信息的网络使得任何种类的信息都可以突破时空的限制自由的传送。

当今,互联网的浪潮正以难以想象的速度和不可阻挡的势头席卷全球。我觉得甚至可以这样理解,第三次科技革命就是信息传播媒介的革命,网络计算机技术改变最深刻的就是传播和人们交流信息的方式。一方面,从传统的印刷技术到现代的数字化的通讯技术和通讯网络,信息传播的方式突飞猛进;另一方面,信息传播方式的革命正在改变经济增长方式以及世界经济格局,是企业进入数字经济时代。信息传播方式的革命促使人类的一切都可以虚拟化。逐渐出现的虚拟办公、虚拟企业、虚拟学校、虚拟图书馆、虚拟商城等,将改变人类经济与社会活动方式。甚至可以说,这种革命会影响到政治、文化等更生层次的领域。

麦克卢汉还认为,这种变化不仅仅是社会整体层面的变化,更是其组成单位——人的个体的变化。麦克卢汉说印刷媒介时代的人是割裂的、残缺不全的人,他认为是印刷文字的语法把人类分裂为相互独立的自私自利的派别,分裂为种和民族,分裂为情感的派别。他也相信,电子传播中网络那种统一的力量又可能使人类重新回到整合统一的状态。我觉得这种观点很有深度,也很有远见。

在互联网上,世界正在变成一个没有时差,没有距离的整体,变成一个超越传统是空的“网络时空”。在网络时空中,人们可以更多的利用网络娱乐,包括收听、下载音乐,观看电影,人们可以利用网络购物,订票,订酒店等等,网络承担起人类娱乐、休闲新载体的任务。另外,在网络时空中,人们还可以通过虚拟图书馆、博物馆、艺术馆等来收集需要的信息,在网络上学习,工作。

网络信息检索及其局限性 篇3

关键词:网络信息检索搜索引擎局限性

1 网络信息检索简介

1.1 信息检索的概念 信息检索指的是将信息按照一定的方式组织、存储起来,根据信息用户的需求查找所需信息的过程和技术。信息检索主要通过以下几种途径来获取信息:①传统的信息检索,即利用人工查询的方式,查询图书馆等文献丰富的机构,并获取文献;②联机信息检索,它和传统的信息检索比起来具有广泛性、实时性、完整性和共享性等特点;③网络信息检索,即信息用户利用网络信息检索工具检索Internet信息空间中的各类网络信息资源。

1.2 网络信息检索的原理 概率模型、布尔逻辑模型、模糊逻辑模型是应用比较广泛的几种网络信息检索模型主要有:①概率模型。该模型是在贝叶斯概率原理的基础上提出来的,对词条和文档间的内在联系进行研究之后,通过词条和词条之间和以及词条和文档之间的概率相依性来检索信息。②布尔逻辑模型。根据检索项在文档中的布尔逻辑关系提交查询,搜索工具按照提前组建的倒排文档结构来确定查询结果。③模糊逻辑模型。处理查询结果的过程中引入模糊逻辑比较,同时根据先后次序将查询结果排列出来。

2 搜索引擎

搜索引擎,又称检索引擎,指的是在Internet上运行,通过对信息资源进行检索来提供所需数据的服务系统。当前,大部分人们都利用搜索引擎来检索网络信息。和其他检索工具比起来,它这种检索工具的检准率、检全率远远高于其他检索工具,具有极强的利用价值,且就目前情况而言,它的市场强劲非常广阔。

2.1 搜索引擎的功能 ①模糊检索。对网络资源进行检索时,系统检索用户提供的关键词以及与冠军按此相似的词语,同时返回包含关键词,或这些相似词的检索结果。②布尔逻辑检索。用户可通过NOT、AND、OR进行关键词的搭配检索。③截词检索。截取词条的某一部分来进行检索。在搜索引擎中,用户提供包含“?”、“*”通配符的检索项进行检索。④限定词检索。它用来规定检索项中必须出现或是必须不出现某些关键词。

2.2 搜索引擎的工作原理 搜索引擎的检索机制一般包括数据组织机制、数据采集和标引机制和用户检索机制。

①数据组织据组织机制是对www页面信息进行整合,使其更加简单、规范,同时构建相应的索引数据库。②数据采集和标引机制根据相关规律及一定的方法来搜索网络上的www站点,同时将搜索结果存入搜索引擎临时的数据库内。③索引数据库是信息检索的先决条件,检索结果是否符合要求在很大程度上去觉与索引数据的准确性,数据库质量主要取决于搜索引擎的数据采集及标引机制。④用户检索机制通过相应的方式对引擎的索引数据库进行检索,从中获取有价值的网页或站点。

2.3 搜索引擎的分类 目前的中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎和元搜索引擎。

①目录式搜索引擎,是通过半人工、人工的办法采集信息,组建数据库,编辑对某一web站点进行访问以后由编辑人员在访问以后描述这个站点,同时按照站点的性质、内容对该站点归类处理。②机器人搜索引擎是目前运用较广的搜索引擎。这个搜索引擎采用自动采集软件Robot,对网页信息进行检索,同时将其下载并储存在本地文档库中,然后自动分析文档内容,建立索引。根据用户的检索需求,对索引进行检索,分析出相应的文档并反馈给用户。③元搜索引擎主要通过调用其他搜索引擎的引擎来完成信息检索。它在一个统一的用户界面上,以用户需求为目的,在多个搜索引擎中寻找合适的引擎来检索信息资源。

3 网络信息检索的局限

用户都是通过网络信息检索工具在网络信息资源进行查找自己需要的信息,因此,检索工具的优劣会对检索效率产生很大的影响。近些年,网络信息检索工具的确有所发展,但仍然存在着这样或那样的局限。

3.1 文本信息检索的局限 ①搜索引擎的查全率低。网络信息资源库在持续扩充,信息资源的增长的速度要比搜索引擎采集数据的速度快的多,这会大大降低搜索引擎的检全率。②搜索引擎的查准率低。一是当前的搜索引擎中普遍存在反馈信息;二是信息重复反馈。同一信息源有时在检索结果中产生不同的组成部分,不同的信息源也有相同内容信息出现的情况。③网络信息标引准确度不达标。大部分检索工具标引的准确度都无法达到设计要求,检索工具往往在反馈垃圾信息的过程中也会将部分有价值的信息丢掉,某些情况下,垃圾信息会覆盖所有有价值的信息。④查询方式较少。当前的很多搜索引擎,在查询方式上都过于单一,而且都需要用户提供关键词来查询或采用分类查询的方法。这样,只能就某一关键词或概念进行笼统检索,因此使查询结果相关性很差。⑤检索对象的数据结构单一。由于现在大多网站使用傳统的关系数据库对信息进行组织和存储,因此其使用的搜索引擎也是基于关系数据库的,这种数据库非常擅长处理结构化的数据,但对非结构化的数据的处理能力很弱。⑥交互性不够。大部分搜索引擎和用户之间无法建立其很好的交互性,在协作方面比较欠缺,对用户信息很陌生,不对用户查询的信息进行记录,无法对用户的反馈信息进行处理,也就无法与用户之间达成良好的交互来提高检索效率。

3.2 多媒体信息检索的局限 虽然眼下已经存在只针对声音、视频和图像等媒体的检索技术,但仍未研究出能检索多媒体信息的搜索引擎,具体体现在以下几点:①检索效果不好。就目前情况而言,大部分多媒体搜索引擎的查准率都无法满足用户的需求,用户不得不从众多图像结果中自己筛选出所需的信息资源。这很费时,而且有时根本检不出想要的东西。究其原因,一是查询方式少,二是在于对图像的标引深度不到位,所以,必须进一步完善图像检索及相关的索引机制。②用户查询接口单一。科学的多媒体检索系统,人处于主动地位,用户的查询接口直观易用,可提供足够的交互能力,用户能可以对检索参数进行适当的调整之后,将图像的语义感知准确的表达出来,并从中取得较好的结果。当前,多媒体搜索引擎用户查询接口呈现单一的发展趋势,很多引擎仅能通过关键词或提问框进行查询。③信息的自动加工与人工标引不够。目前多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,人工干预虽能提高查准率,但可被人工标引的非常有限,同时,因为人工标引需要付出很多劳动而使检索范围受到限制,因此,当前亟待解决的一个问题是快速标引图像信息,并对其进行合理的分类。

当前,基于内容的检索技术多应用于对静态图像的检索,对动态图像的检索还没有多少行之有效的方法。但随着宽带网络的逐步实现,动态多媒体信息在网络中将会越来越多。

参考文献:

[1]孙建军,成颖.信息检索技术[M].北京:科学出版社,2004.

网络信息检索中的图像检索技术 篇4

基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字, 当用户输入相应关键字后, 系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术, 即根据图像信息的文件名、路径名、ALT标签等, 将其标注为一系列关键字的描述, 然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先, 由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注, 要由人工完整地标注网络上的所有图像, 不但费时费力, 而且往往是不准确或不完整的;其次, 不同用户对于同一张图像的看法不尽相同, 导致对图像的标注没有一个统一标准;再次, 这种方法将注意力局限在图像的著录特征, 即文字描述上, 不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。

1 基于内容的图像检索技术

基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容, 提取其颜色、形状、纹理等可视特征, 建立特征索引存储于特征库中, 在检索时, 用户只需把自己对图像的模糊印象描述出来 (绘制的草图或通过扫描仪等在线输入的图像) , 就可以通过多次的近似匹配, 在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。

基于内容的图像检索算法涉及的相关技术比较多, 主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。

1.1 基于颜色特征的图像检索

颜色特征是图像检索中最基础的一种检索依据, 颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中, 通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布, 横轴表示颜色等级, 纵轴表示在一个颜色等级上, 具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。

全局色彩的索引就是按全局色彩的分布来索引图像, 计算每种颜色的像素, 检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像, 一般是利用二维直方图, 如红—蓝直方图, 它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多, 如:比例直方图法、累加直方图法等。

色彩直方图还不能为像素在图像中的位置提供线索, 为了尽可能少地丢失信息, 提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域, 它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。

1.2 基于形状特征的检索

形状是刻划物体的本质特征之一, 利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索, 还包括三维形状的检索。

基于图像内物体形状的检索, 首要问题是采用合适的图像分割算法把不同对象从图像中分割出来, 关键是寻找符合人眼感知特性的形状特征。目前, 较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后, 将每个块看成是一幅小图像, 计算每个小图像的颜色直方图特征, 则每个块间的直方图是不一样的, 为分析边缘特征, 将相邻两个块构成一个比较对, 将每个块间的差值记录下来, 同时记录差值在一定范围内的数目, 这样就形成一个颜色特征差值表。图像对象空间位置发生变化, 其特征差值表也就不同。

1.3 基于纹理特征的检索

纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征, 它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化, 那么该物体就有纹理。

纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计, 主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上, 适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布, 如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。

1.4 基于知识的图像检索

基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合, 人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库, 针对一个图像需求, 搜索引擎依次调入每一幅图像的内容描述, 结合知识库中的相关知识, 以图像需求为目标进行推理, 如果需求目标得到满足, 则确定这幅图像符合检索要求。

2 基于内容的图像信息检索系统

目前, 基于内容的图像检索技术的研究取得了很大的突破, 较有影响力的有以下几个:

2.1 QBIC系统

QBIC (Query By Image Content) 是IBM公司于20世纪90年代研制的图像和动态影像检索系统, 其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发, 是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词 (它也提供关键词检索) , 只要输入以图像形式表达的检索要求, 即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等, 对大型图像和视频数据库进行查询。

2.2 Photobook系统

Photobook系统是由美国麻省理工学院 (MIT) 的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具, 图像在存储时按人脸、形状或纹理特性自动分类, 图像根据类别通过显著语义特征压缩编码。

2.3 Virage系统

Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似, Virage支持基于颜色、颜色布局、纹理和结构 (对象边界信息) 的可视化查询, 但Virage比QBIC更进一步, 它也支持由4个原子查询的任意组合, 用户可以根据他们自己的侧重调整4个原子查询的权重。

2.4 CORE系统

CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

2.5 Visual SEEK系统

由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统, 提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域, 这样的图像作为查询“日出”的草图, 使人们在Web上可以方便地搜索和检索图像和视频。

3 基于内容的图像检索体系结构

基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互, 以便用户能够方便地构造查询和改进检索结果, 用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上较相似的图像, 按相似度大小排列返回给用户, 即所谓的通过例子图像的检索 (Query By

Image Example) 。

基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:

3.1 图像的预处理

在特征抽象子模块里, 首先要进行图像的预处理, 包括图像格式的转换, 尺寸的统一, 图像的增强与去噪, 图像的边缘提取, 经过边缘提取获得图像的轮廓特征, 对其进行进一步轮廓清晰化处理等功能, 为图像的特征提取打下基础。

3.2 图像的目标标识

图像预处理后, 要进行图像的目标标识。目标标识为用户提供一种工具, 以全自动或半自动 (需要用户干预) 的方式标识图像中用户感兴趣的区域或目标对象, 以便针对目标进行特征提取并查询。当进行整体内容检索时, 利用全局特征, 这时不用目标标识功能。目标标识是可选的。

3.3 图像的特征提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取, 提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的, 即整幅图像, 也可以是针对某个目标的, 即图像中的子区域, 如人的面部特征或指纹特征等。

3.4 图像数据库

作为图像查询的后台基地, 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息, 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识, 有利于查询优化和快速匹配, 知识库中知识表达可以更换以适用各种不同的应用领域。

3.5 图像的查询接口

在基于内容检索中, 由于特征值为高维向量, 不具有直观性, 因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件, 可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外, 查询返回的结果需要浏览, 应在用户界面提供浏览功能。

3.6 图像的检索引擎

检索是利用特征之间的距离函数进行相似性匹配, 模仿人的认知过程, 近似得到数据库的认知排队, 存在一些不同的相似性测度算法, 检索引擎中包括一个较为有效可靠的相似性测度函数集。

3.7 图像的索引/过滤

索引是用来提供快速、有选择性地存取数据库的一种机制, 它相当于一种映射机制, 将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据, 过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征, 可以用R树来索引以加快检索速度。

基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段, 但基于内容的图像检索技术目前还存在许多有待发掘的内容, 因而, 基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。

摘要:图像检索是网络信息检索中的重要的组成部分, 而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念, 综述了基于内容的图像检索系统和相关技术。

关键词:网络信息检索,基于内容,图像检索技术

参考文献

[1]何惠芬.图书馆中基于内容的图像数据库检索技术[J].情报杂志, 2002 (7) .

网络信息检索的方法 篇5

主题指南将信息系统地进行归类,可使用户方便地查找到某一大类信息,但其搜索范围较搜索引擎要小许多。搜索引擎查询较为全面而充分,可以提供最全面、最广泛的搜索结果,但所提供的信息不像主题指南那样层次结构清晰,显得繁多而杂乱。由于主题指南和搜索引擎各有优势,两者可以相互结合,取长补短,合理运用,以产生最佳结果。总之,选择合适的搜索引擎是信息检索至关重要的一步。搜索引擎在查询范围、检索能力、效率等方面各具特色,针对不同目的的检索,应选用不同的搜索引擎。

2 缩小检索范围

(1)采用恰当的检索表达式。在检索表达式的构造中,可采用把一个短语作为一个整体进行查询的办法,或者采用强制包含或排除特定关键词的办法限定检索范围。

(2)限定检索范围。当检索的范围过大时,可以对检索词的年代、语种、数量、学科等检索范围进行限定。这些限定检索的运用可以有效控制检索的相关性,从而提高检准率,使检索结果接近用户需求。

(3)利用进阶检索功能。进阶查询(Refine Query)是指利用前一次检索的结果作为后一次检索的依据,逐步缩小检索范围。

(4)搜索力求具体化。检索文献信息资源时,要明确检索课题的需求,限定查询范围,选择确切的检索词,使检索要求具体化、明确化。这样,有利于提高文献信息资源检索的查准率。

3 扩大检索范围

(1)使用同义词或近义词检索。目前,检索软件的智能化程度较低,容易漏检与关键词意思相近或一致的内容。此外,搜索引擎对网络信息资源中出现的多姓名的个人著者,更名的机关团体,同一事物的不同名称不像图书馆目录那样提供规范化的检索点,也容易出现漏检现象。因此,用户需要使用同义词、近义词或同一事物的不同名称尽可能全面地扩大检索范围。反映同一概念的检索词越多,就越能保证查全率。

(2)使用All-in-one整合型检索。All-in-one是指在统一的标准界面下,同一检索词用户只需输入一次即可委托多个搜索引擎查询。WWW上的信息资源非常庞大,没有一个搜索引擎能够搜索全部网页,同时使用多个搜索引擎能弥补单个搜索引擎数据库容量不足的缺陷。如NetLocator(http://nln.com)能在Yahoo!,Lycos,Altavista,Webcrowler 4个搜索引擎同时代理用户的检索指令,最大限度地确保文献信息资源的查全率。

4 使用组合搜索关键词

如果一个陌生人突然走近你,问你“北京”,你会怎样回答?大多数人会觉得莫名其妙,然后会再问这个人到底想问“北京”哪方面的事情。同样,如果你在搜索引擎中输入一个关键词“北京”,搜索引擎也不知道你要找什么,它也可能返回很多莫名其妙的结果。因此你要养成使用多个关键词搜索的习惯,当然,大多数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。比如,你想了解北京旅游方面的信息,就输入“北京旅游”这样才能获取与北京旅游有关的信息。

5 强制搜索

通过添加英文双引号来搜索短语词,这一方法在查找名言警句时显得格外有用。例如用““京剧”+“脸谱””的搜索结果比“京剧+脸谱”更精确。

6 模糊搜索

搜索引擎中允许使用模糊查询,即用*号通配符代替不确定的字或词,每种搜索引擎都有各自的关键词技巧,除了通配符还可以用or或and逻辑运算符。

7 搜索之前先思考

网上的内容虽然很丰富,但必须先有人放上网。搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,很可能成为漏网之鱼。所以在使用搜索引擎之前,应该先花几秒钟想一下,我要找的东西网上可能有吗?如果有,又可能在哪里?网页上会含有哪些关键字?

8 点击搜索结果前先分析

网络检索系统 篇6

关键词:Prefuse 社会网络 知识图谱 信息检索 合作网络

中图分类号: G254.9 文献标识码: A 文章编号: 1003-6938(2012)05-0079-06

近年来,随着多种知识图谱分析工具的出现,一些研究者利用知识图谱软件(主要是CiteSpaceⅡ)对信息检索学科进行了分析,如Rorissa A和Yuan X(2011)在2000~2009年数据的基础上用CiteSpaceⅡ对信息检索学科进行知识图谱构建和学科分析[1];国内同样有学者利用该软件对信息检索的子领域进行分析,但这些研究存在数据源时间跨度短、在一定程度上依赖于知识图谱软件的功能,而且未对信息检索学科合作网络进行分析研究。通过上述考虑,本文尝试一种新的知识图谱框架,基于该框架通过社会网络算法构建信息检索合作网络并进行解读,以便为国内外从事信息检索研究的有关学者提供参考借鉴。

1 基于Prefuse的知识图谱系统设计

2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可视化框架[2]。Prefuse为数据建模、数据可视化以及用户交互提供了丰富的软件库,可以支持表格、图和树显示,还具有支持动态显示、动态查询等功能。Prefuse基于传统的MVC架构进行开发,其可视化时需要经过如下处理过程[3]:

(1)抽象数据(Abstract Data)。Prefuse对数据进行可视化的首要步骤是获取数据,并为数据提供了指定的接口和程序,可以显示表、图和多种树形结构。本文主要使用XML格式的数据,通过把数据转化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象数据的处理过程。

(2)数据过滤(Filtering)。主要是将抽象数据进行提取、转化,使其适用于显示。首先选取要进行可视化的一系列元素,如一个图形或显示在散点图上的重点区域。然后形成一些可视化的属性(称为VisualItems),如源数据中显示的文字、数字,显示时的坐标点、颜色、大小等等。然后通过Action提供为上层组件。

(3)数据渲染(Rendering)。即图形绘制的过程,可视化元素(VisualItems)通过渲染器(Renderers)绘制到屏幕上,其中用到上面形成的组件如颜色、位置、大小等等。Prefuse实现了一些基本渲染器,通过渲染器工厂RenderFactory进行管理。

(4)交互显示(Interactive Display)。功能由Display组件完成,用于显示ItemRegistry中注册的组件。可视化交互功能通过ControlListener接口实现,主要是提供对鼠标、键盘的监听功能。

本文通过对数据的预处理、数据抽取、矩阵形成,进行聚类或社会网络以后,把生成结果转化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可视化框架,完成聚类显示、社会网络显示的功能。

2 信息检索学科分析的知识图谱构建

2.1 数据源获取

本研究数据来源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH数据库,用“Information Retriev*”作主题检索,检索时间选择20世纪50年代至今(截止至2011年11月25日),词形还原打开,得到的检索结果共计46561条记录。以此作为构建信息检索学科知识图谱的数据集,以下简称为“数据集”。

2.2 数据处理

(1)提取作者数据。在原数据库中,通过数据表paper的“authors”字段,可以获得每篇文献的作者数据,在作者字段中,为方便去重和区别不同作者,每个作者姓名以数据集中提供的全名进行表示,当文献是合作文献时,作者之间以分号进行分隔。选择paper的“authors”字段的所有数据,通过编程对获取的每个作者条目进行切分,从而得到所有作者数据。

(2)构建合作者对应关系。建立表author_author,其中包括两个字段“firstauthor”和“secondauthor”。通过处理,共得到548,182条作者与作者对应数据。在构建“作者——作者”对应表时,第一作者与第二作者及其他作者不分权重,即所有作者的重要程度相同。构建作者与作者对应关系表时,通过对步骤一获得的每一条合作者数据进行遍历,得到作者与作者对应关系。

(3)生成合作者数据。对表author_author中的数据,根据“firstauthor”字段进行分组合并,对“secondauthor”进行合并,合并过程中剔除重复元素,“secondauthor”对应数据以分号进行连接,同时统计出每个作者的合作次数,然后将合作者数据插入表coauthor中。

处理完成后,共得到96,778个作者的合作者信息,其中与其他作者合作频次最高的为Bryant, Stephen H.,合作频次为245。与其他作者合作频次达到200次以上的作者共22人(见表1)。

2.3 合作者网络构建

由于本文的研究重点是确定合作者中的团体和其研究内容,所以文中采用无向无权网络,构建过程如下:

(1)定义社会网络数据结构。合作者网络的定义包括节点、边和社会网络三个部分。节点包括aid和aname两个字段,为网络中最基本的构成元素,由类Node表示;边由节点和与该节点关联度为1的节点的集合构成,其中与该节点关联的节点数即为该节点的度,由类Edges表示;社会网络由节点的集合和边的集合两部分构成,其中社会网络还可以获取子网络,由类SocialNetwork表示(见图1)。

nlc202309032218

[图1 社会网络UML图]

(2)构建合作者网络。合作者网络的构建根据数据库中的合作者表coauthor和作者文献产量表author_paper进行构建,合作者网络的节点基于合作者的合作频次和每一位作者的文献产量进行选择,然后根据其合作情况提取边信息。在coauthor表格中有96,778条合作者信息,表author_paper中存储有数据集中所有作者的文献产量信息,共100,985条。

由于本文的研究目的是提取代表性的合作者社团及其研究方向,所以在合作者数据中作者提取了合作频次超过53的前300条合作数据;另一方面,为了减少网络复杂度高从而导致信息表征的不足的影响,仅提取文献产量在10以上的作者,共407位高产作者。

以上步骤具体由类SocialNetworking完成(UML结构见图2)。通过合作者网络构建,共得到142个节点和71条边。

(3)获取合作者群体。在得到的合作者网络中,每个子网络代表一个合作群体,通过获取子网络,可以得到合作者网络中最大合作群体以及其他合作群体。通过对各群体中的节点数、各节点的度、以及作者、作者发表的文献特征进行提取,可以获得各个合作群体的研究重点、研究特征等特性。

[图2 类SocialNetworking的UML图]

本文对合作群体的获取,通过社团结构搜索算法进行,算法具体在SocialNetworking类的getSubNetWorkNodes方法完成,经过对合作者网络的合作群体进行搜索,共得到21个合作群体,节点数最多的合作群体包括45个节点,节点数为22的群体有1个,节点数为11的群体有2个,节点数为5的群体有2个(见表2)。

[子网节点数\&45\&22\&11\&5\&4\&3\&2\&\&子网数\&1\&1\&2\&2\&2\&9\&4\&共计21个\&][表2 合作群体数及相应节点数]

2.4 知识图谱生成

对社会网络的可视化基于GraphML文件和Prefuse可视化框架进行。首先需要把上一步生成的合作者网络转化为进行可视化的GraphML文件,然后通过Prefuse框架提供的可视化接口,对GraphML进行读取、渲染以及最后的展示。详细流程为:

(1)生成可视化表征文件。采用GraphML进行图形描述。GraphML格式最初由GML转化而来,符合XML语言规范。通过编程将得到的合作者网络数据进行转化,转化为GraphML格式的文档(结构见图3)。

(2)知识图谱显示。生成代表类别的GraphML文件以后,就可以通过Prefuse所提供的可视化组件进行图谱显示了,完成信息检索合作者网络的知识图谱绘制。

从整个合作者网络图(见图4)可以看出整个网络图可以分为不同的子图,对其中各个子图的节点分布并不均衡,最大的子图有45个节点(见图5),位于图中央,依次是有22个节点的子图(见图6),最小的子图仅仅2个节点,位于整个图的边缘。

3 信息检索合作网络知识图谱的解读

3.1 整体合作网络特性分析

其中,fj表示合著者人数为j的论文数;N表示论文总数,k表示合著者人数的最大值。

经过统计,在得到的46,561条数据中合著文献数达到38,506条,占文献总数的82.70%,所以合著率为82.70%。其中合著人数最多的文献有54个作者,合作者人数分别为2人、3人和4人的文献数及所占合著文献比例如表3所示,这三种情况共占合著文献的79.13%。通过计算得到其合作指数CI为2.99,说明篇均作者2.99人。

[图4 整个合作者网络图(缩小显示)]

[图6 节点数为22的合作者群体][2人合著\&所占比例\&3人合著\&所占比例\&4人合著\&所占比例\&12,592篇\&32.70%\&10,998篇\&28.56%\&6,878篇\&17.86%\&][表3 合著文献数及所占合著文献比例]

3.2 最大子网络分析

针对合著网络中的节点最多的两个子网络进行具体分析,包括节点的度分析和子网络中的合著子群分析。

通过编程统计,得到两个子网络中每个节点的度,表4显示了节点数为45和22的子网络中度数较高的前10为作者。

图7中以径向图形式显示了节点数为45和22的合著网络子图,结合表4,可以从图中直观的看到以Zhang, L、Sprink, A和Schacter, DL为中心,组成了网络中规模较大的科研群体。节点数为22的子图中形成了整个网络中节点数最多、边最为密集的凝聚子群,在这个凝聚子群中,节点度数最少的是Kohler, S和Markowitsch, HJ,度值为3,Tulving, E和Cabeza, R节点度值最大为9,共有10个节点,平均节点数为6.2,该凝聚子群是信息检索领域凝聚力最强的合作群体,是信息检索研究的重要科研群体。

[节点数为45的子网络\&节点数为22的子网络\&节点姓名\&节点度\&节点姓名\&节点度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 节点数为45和22的子网络

nlc202309032218

中度数较高的前10为作者]

3.3 合作网络研究者分析

评价科学家在网络中的地位及其影响力通常有:发表文献数、文献被引次数、度值、中间中介数等指标。本文选用发表论文数、作者被引次数和节点度值三个指标。表5显示了发表论文数、作者被引次数和作者节点度值较高的研究人员,通过表格可以看出,Sprink A发表论文数和网络中的节点度值都位于前列,Tulving E的作者被引次数和节点度位于前列,其他的28位研究人员并不存在同时在高产、高被引和高合作群体同时出现的情况,所以通过表格可以反映出信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。

[作者\&产出\&作者\&被引次数\&作者\&节点度数\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 发表论文数、作者被引次数和节点度值统计表]

4 结语

本文主要对信息检索领域的合作网络进行知识图谱构建和解析。通过数据预处理提取构建合作者网络的合著数据,然后通过社会网络算法构建合作网络,再通过编程将网络转化为GraphML格式的文件,提供给Prefuse可视化接口进行知识图谱显示,完成合作网络的知识图谱构建。在此过程中自行实现社会网络算法,实现合作者网络的提取。借助构建知识图谱和数据统计,对信息检索的合作网络进行分析,分析了合作网络的整体特性、最大的两个合作者网络、凝聚性最强的合作网络,然后对信息检索的合作网络研究者与高产作者和高被引作者进行了综合分析。

参考文献:

[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.

[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:

421-430.

[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.

[4]刘鹏.科研合作复杂网络模型的研究[D].广州:暨南大学信息科学技术学院数学系, 2011.

[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of

Knowledge Management,2003,7(2):34-45.

[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.

[7]林莉. 科研论文合著网络结构与合作关系研究[D].长春:吉林大学社会医学与卫生事业管理, 2010.

[8]李亮,朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学,2008,26(4): 549-554.

[9]张英杰,冷伏海. Twitter类网站微信息组织及用户关系网络研究[J].图书情报工作,2010,54(16):116-119.

[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip

edia.org/ wiki/Hsinchun_Chen.

[11]王知津等. 十五年来我国网络信息检索研究述评[J]. 情报科学,2004,22(4):385-389.

[12]王智红等.近十年来我国网络信息检索研究主题分析[J].情报杂志,2009,28(7):1-6.

作者简介:唐蓓(1979-),女,硕士,上海工程技术大学图书馆馆员,研究方向:信息可视化;夏秋菊(1985-),女,硕士,上海工程技术大学图书馆助理馆员,研究方向:知识管理。

网络信息检索的途径与策略 篇7

在现代的工作和学习当中,各类的信息检索是必不可少的,以前人们查询信息是通过期刊、杂志、报纸、图书等途径。但随着因特网的出现,特别是近年来的快速发展,对人类传统的信息组织检索和获取方法构成了很大的冲击,使得人们在世界范围内很方便地进行信息交流和资源共享。因此,如何能在因特网上较快地找到所需的专题信息是目前最困扰用户的难题。本文归纳几种常用网络检索专题信息的方法和检索策略。

1 网络信息检索的途径

1.1 基于网络目录的信息检索

因特网上的目录型检索工具一般称为网络目录(Web Directory),又称分类站点目录、专题目录或主题指南、站点导航系统等。网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站,形成一个又信息链组成的树状结构,即:总目——专题目录——链接——文本。著名的如Yahoo、sina、网易等都提供基于目录帮助的网址。

这种途径是通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络信息。

1.2 基于搜索引擎的信息检索

搜索引擎(Search Engine)是Internet上具有查询功能的网页的统称,它是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索的工具。基于搜索工具的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。

目前搜索引擎已多达数百种,如Web Search Engine(万维网搜索引擎)、Usenet Search Engine(新闻论坛搜索引擎)、Meta-Search Engine(元搜索引擎)等类型。通用的搜索引擎有百度、Google等。

元搜索引擎,又称多元搜索引擎,它实际上本身不具备搜索索引,而靠其他原始引擎的搜索或索引接口来完成其搜索任务的引擎。元搜索引擎可分为桌面元搜索引擎和在线元搜索引擎,桌面元搜索引擎指直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎,一般为一个小软件。在线元搜索引擎著名的有Infospace、Dogpile等。

此外许多专题搜索引擎非常有用,专业搜索引擎又称垂直搜索引擎,是专为搜索高度相关的专业信息而设计的搜索引擎,它通过对网上某一领域的信息资源或行业的内容作了专业和深入的分析、挖掘后,精细分类、过滤筛选,信息定位更精准,虽内容量偏少,但能精确锁定内容。如视频搜索引擎Cblinkx、Tvix等。

这种途径大多是需要网络用户的提出关键词进行检索,并且对各种搜索引擎的功能和用法要有一定的了解和掌握。

1.3 利用其他途径检索

利用上述的两种一般的途径,许多信息的检索结果数量庞大,并且准确度和内容方面不尽如人意。此时,我们还可以考虑一些其他途径,常用的途径有利用商业数据库,这种数据库汇集了大量丰富的与学科或领域有关的研究机构、实验室、电子书籍、学术期刊、会议论坛和专家学者等;利用专题信息网,很多信息在专题信息网上查询更加有效,例如查专利,可以取世界知识产权组织专利数据库(PCT)、中国专利全文数据库等;还可利用一些学会站点或虚拟图书馆等等。

这种途径是针对各种专题信息需求进行有效的检索,用户对该领域应该有一定了解,并对此类查询有归纳和积累。

2 网络信息检索的一般策略

网络环境下的信息检索与传统环境下的检索有很大不同,虽然网络信息资源的范围、数量很巨大,网络检索工具及检索方法也是纷繁众多,但用任何单一方式去迅速、准确并相对全面、完整地找到相应资源仍不是很容易。

网络信息检索策略即检索的基本思路,是根据检索要求选择便捷的方法、适当的工具、在适宜的地方查找需要的资料。在进行具体检索策略的基本步骤是:确定检索任务;确定查找的资源的位置;确定检索词并构造检索式;选择适当的检索方法;执行检索;最后评价检索结果,并可以对检索结果进行再次修改检索式精练结果。

选择什么方法、使用何种搜索引擎、利用哪些参考源去查找某类信息或资料是有一定规律可循的,而掌握网络检索规律的前提,是对搜索引擎和有关参考资源的认识和了解,而认识和了解搜索引擎和有关参考资源需要一定的检索经验的积累。

3 网络信息检索的技巧

很多人在进行网络检索时,总会问什么是最好的技巧?有没有快速的方法?其实这些问题往往是用户对搜索引擎的原理不了解,语法不熟悉,特定资源的位置不清楚而产生的。虽然很多资料总结和提出一些检索的常用途径和一般策略,但是具体在检索中却并不如人意。这里本文根据自身工作中的实践列出几点好的技巧,以期有所帮助。

“工欲善其事,必先利其器”。所以,首先掌握搜索引擎的使用方法。如:Google的基本搜索(+,-,OR),学会使用两个关键字进行复杂专题信息检索。检索复杂专题依靠单个关键词查准率很低,要提高查全检准率,需进行详细的主题分析,选择多个关键词构造检索式。

其次,熟悉常用的辅助搜索方法:通配符、大小写、句子、忽略字符以及强制搜索,并尽可能使用一些高级搜索语法,如Google的site、link、inurl、allinurl、intitle等语法。

最重要的一点,对各种类别的资源检索要分类归纳和总结,形成自己的一个检索数据库。比如笔者对论文、期刊、图片、音乐等分别归纳了很多特定的检索工具和站点,并保存下来,当要查询某类资源时方便查找,这主要靠日常积累。这里推荐一个好的站点,中国搜索引擎指南(www.sowang.com),该站点有很多资源和检索工具的分类,并有不少经验心得。

参考文献

[1]沈红玉.网上专题信息的检索[J].牡丹江师范学院学报(自然科学版),2006,2.

[2]王颖.因特网信息资源检索方法和技巧[J].吕梁教育学院学报,2006,2.

[3]吴东辰.国内外几种主要搜索引擎比较[J].福建图书馆理论与实践,2005,4.

[4]赵玉玲,滕飞.试论信息检索途径的多样性[J].重庆图情研究,2007,1.

[5]符绍宏,等.因特网信息资源检索与利用(第二版)[M].北京:清华大学出版社,2005,9.

浅析网络环境下信息检索技术 篇8

1 在开放的网络环境之下所采取的信息检索方法

1.1 目录型网络资源检索工具

该种类型的网络检索手段其实就是通过网络检索技术工作对信息资源的分类、选择与整理,而研制出的一个款既具备信息资料查询功能同时也可以进行网页浏览的软件。之所以能够实现这项功能是因为于专业技术工作者在后台构建了一个巨大的信息资料检索中心,然后对目标信息数据进行分类、整理,紧接着将它们录入信息资料中心,满足网络使用者的氺索所求。随着社会的进步,技术工作者在录入网络数据资料的时候,要将目录的范围进行精简,能够提高使用者在检索信息数据过程中效率。这种检索措施由于有技术工作者的控制,所以整个氺索过程具有很强的关联性,不过由于某些因素的约束,构建的信息资料中心依然比较小,所以其能够容纳的信息资料十分有限,不利于系统管理工作者的工作能力的提高。

1.2 索引型网络信息资源检索工具

在所有的检索行驶中该种类型的检索方式最为常见,也就是网络使用者将与搜索目标相关的关键词输入到搜索引擎中就能在最短的时间内找到与其期望的相关知识,只需要稍微加以选择就能得到自己想要的信息数据。和前面两种检索方式相比,这种检索方式而言具有明显的优势,简单节省时间,并且搜索的范围所受限制较小,可以让使用者在同时获得大量相关信息。

2 信息检索时存在的问题

2.1 长时间只适用 1~2 个搜索引擎

现阶段,随着信息技术的飞速发展与不断进步,互联网中已经有多种类似的搜索方式不断地涌现,并且每一种软件都具有不同的优势。不过在网民网游的时候,一般都会弹跳出1~2个搜索引擎,作为网民的信息查询方式,在了解不深入的情况下影响检索的效果。

2.2 很少使用或者并不了解布尔运算符号和高级搜索语法

通常情况下,网民在进行数据资料查询之前,首先要做的是键入一个问题,所以搜索引擎不但要满足网民对数据资料查询的要求,还要经过提前对相关信息数据进行划分。在键入问题的时候,软件设计中的布尔运算符号要做到及时合理地对键入的问题进行分配组合,一边网民能够以最高的速率找到需要的信息数据,不过现在,很多网民对此并不了解,所以在查询资料的时候不大使用该种方式。

2.3 粗略查看已搜索到的信息资源

网络使用者在利用搜索引擎查询数据资料的时候,会有很多相关信息出现,按照通常习惯他们只会注意到排列在最靠前的几条,这就导致后面一些有价值的条列根本无法引起注意。

3 搜索引擎的工作原理

我们可以将该项工作的原理简洁地概括为 :网页抓取→索引信息中心的构建→搜索排序。网页的抓取利用能够从互联网上自动收集网页的Spider(又名为 :Robot,Crawler,Worms,Wanders)系统程序,方便与自动信息回应,然后搜索蜘蛛会从主要网页爬到相关网页上,不断地重复这一活动,实现所有相关网页的集合。

查询方式 :(1)正确抓住关键词。因为搜索软件毕竟跟人的智力无法比较所以它在功能上具有一定的固化性,只能对一些关键性的词语比较敏感,所以,这种匹配相对比较盲目,在关键词的确定过程中只能按照预先设定好方式来进行,只有这样做才能提高检索效果。(2)为了提高准确率可以将双引号应用到其中。若是信息查询者需要对一个词语进行检索,那么他可以把这个词语用双引号或者是括号进行处理,那么他的检索结果在一定的程度上能够提高准确性。(3)为了限制查询的范围,检索者可以在关键词上加号(+)、减号(-)以达到限定范围的作用。在需要搜索的内容前加上(+)表示在搜索的结果中必须要包含这个词语,用减号(-)表示搜索结果中不能出现该内容。(4)使用逻辑词辅助查找。通常可以在大型搜索引擎的使用者中可以看到该种方式的使用,常用的有 :AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),使用这种方式能够提高搜索结果的精准性。

4 网络环境下信息检索技术

4.1 选择合适搜索引擎

信息科学技术的不断发展,高科技更新换代的速度也在不断地提高,市面上有越来越多搜索引擎不断地涌现出来,不同的款式其性能各不相同,在这种情况我们如何才能挑选出真正适合自己的一款那?有很多互联网使用者可能会有这样的想法 :只要能够让我查询到想要的信息使用哪一款其实根本无所谓,但是这种想法其实并不正确。这是因为,不同的搜索引擎因为规格的不同所以其中所含数据库囊括的信息数据规模也不同,有的大有的小。但尽管如此,大型的搜索引擎的数据库在互联网上所占据的空间还不到30%,所以我们在信息查询中可以选择不同的引擎来查询信息,但是不同的款式其最后的查询结果也会有所不同。

4.2 编制正确合理的检索表达式

现阶段,有很多互联网使用者在氺索信息资料的时候,通常使用搜索引擎的方式都是首先键入关键词,然后通过这种方式来找到更多的相关资料,从而达到信息检索的目的的,为了能够更快获得你想要的信息资料,同时还能保证资料的正确性与时效性,首先要做的是正确编制出一个检索表达公式。通常情况下,一个完整的检索表达公式由以下三个要素构成,这三个要锁分别是主题词、辅助词、外部特征限制。三者缺一不可,必须同时具备才能保证检索结果的准确性

4.3 灵活使用搜索引擎的特色服务

就现在的发展状况来说,在互联网中款式不一样的搜索引擎其所能发挥出的效能也有所不同,有的搜索引擎还增加了天气查询功能以及货币置换等多种作用,这些功能的增加为我们获得更多知识与信息数据提供了方便。

5 结束语

在互联网为我们提供的服务中,信息检索其实是规模最大,性能最好的一项。随着知识经济时代的到来,互联网搜索引擎为我们提供了一个快速便捷的渠道来获得所需的知识,方便我们的生活、工作和学习。虽然随着电脑的不断普及越来越多的人开始选择通过这种方式来进行学习,了解社会,了解生活,但是人们对搜索引擎的认识也只是停留在使用阶段而对其的理解并不多,并不能够更准确、更快的获得信息。本文希望通过这次分析能让更多的人对此有一个理性客观的认识,以便更好的使用这一学习渠道,获得自己所需要掌握的信息。

摘要:随着时间的推移,我国经济技术的快速发展,互联网技术的普及,现在,人们越来越离不开互联网,人们也逐渐的在网络上通过信息检索的形式获得自己想要的信息,这样不仅可以解决查找的时间,同时还能准确的获取相关的知识。文章对网络环境下对信息检索技术进行简要论述。

农业科技查新的网络检索资源 篇9

1 国际主要农业相关网络数据库系统

(1) 联合国粮农组织 (FAO) 。网址为http://www.fao.org, 提供有关粮农组织以及世界农业信息中心等的资源信息。点击查询按钮, 可进入“农业索引数据库”、“在研农业科研信息系统”、“多语种词库”、粮农组织出版物目录“等, 且均为免费信息。

(2) 国际农业研究咨询组织 (CGLAR) 。网址为http://www.egiar.org, 涵盖16个国际农业研究中心的资源信息, 其主题涉及热带农业、林业、玉米、马铃薯、旱地农业资源、农林系统、半干旱热带、粮食政策、畜牧、植物遗传资源、水稻和水 (资源) 研究等。提供与每个研究中心的连接, 包括各研究中心的出版物及其在研项目, 还有大量的图片信息。

(3) 国际农业和生物科学中心文摘数据库 (CABI) 。网址为http://www.cabi.org, 由国际农业和生物科学中心编辑。该库是世界上最大的农业文摘数据库, 数量大、质量好。数据形式为文摘/目次, 从1990年至今, 已拥有300多万条记录, 季度更新, 年增加18万条记录左右。

(4) 世界贸易组织 (WTO) 。网址为http://wto.org, 提供世界贸易组织统计数据综合信息。具有多语种检索途径。一般通用信息资源可免费获得, 其他为商用信息。

(5) 国际农业科技情报系统数据库 (AGRIS) 。网址为http://www.fao.org/Agrisl, 由联合国粮农组织所属的国际农业科技信息系统组建, 数据形式为书目型, 内容涉及全世界所有农业领域及林业、经济等。数据形式为文摘/目次, 从1975年至今, 已拥有320万条记录, 季度更新, 年增加13万条记录左右。

(6) Dialog系统。网址为www.dialogweb.com, 是目前世界上最大的国际联机检索系统。通过国际联机远程检索, 可检索其收录的600多个世界著名的各个学科的数据库。该数据库收录世界各国科技文献5亿多条, 包括综合科学、工业、农业、生物学等各个领域。具有速度快、查准率高等优点。

(7) 欧洲农业网。网址为http://www.euroagoi.net, 是一个适用于农业及农业综合企业、且用户界面友好的信息系统。主要为农业从业人员和农业综合企业提供虚拟论坛园地。网址连接包括政府机构、商务公司和协会等。

(8) 欧联邦农业信息技术网 (EFTTA) 。网址为http://www.efita.org, 通过“网上农业”选项可进入按国家名称编排的欧洲25个国家的网址。具有检索功能, 并提供各种农业应用软件。

(9) 粮食、农业与渔业网 (OECO) 。网址为http://www oecd.org/agr, 是由29个国家联合提供的网址。内容包括经济信息、统计数据和出版物等。其信息载体含印刷型信息和电子信息, 除英语外还有法文版本。

(10) 世界水产学会网 (WAS) 。网址为http://www.was org, 含各水产学会、水产机构等目录。通过“出版物”选项可检索多种水产通讯和水产杂志。

2 各国农业信息网址

(1) 美国农业文献联机存取书目型数据库 (AGRICOLA) 。网址为http://agricola nal.usda.gov, 以美国农业部国家农业图书馆馆藏文献为基础, 兼收与农业有关的美国政府出版物等约8 000多种文献, 分为农业经济、土壤和肥料、植物科学及农业专利文献等10大类。目前被视为世界上报道农业文献最多的目录型数据库。数据形式为文摘/目次, 从1970年至今, 拥有380万条记录, 季度更新, 年增加13万条记录。

(2) 加拿大农业与粮食电子信息部。网址为http://aceis agr.ca, 提供加拿大有关农业全方位信息的有效连接, 内容包括生物技术、粮食安全和肥料等各个方面。除英语版本, 还有法文版本。参见农业网———加拿大农业及农业与粮食网上资源 (http://www.agr.ca/agriweb/agriweb.htm) 。

(3) 英国粮农渔业部。网址为http://www.maff.gov.uk, 内容包括英国、欧共体其他成员国的一些统计数据、出版物等, 并提供与各政府部门间的连接。

(4) 中国生态系统研究网络。网址为http://www.cern ac.cn, 是由中国科学院提供的全英文网址。含全国29个野外生态台站的资源信息。内容涉及农业生态系统、林业生态系统、草原生态系统、湖泊生态系统及海洋生态系统等。

3 国内主要农业相关网络数据库系统

(1) 万方数据资源系统。网址为http://www.wanfangdata com.cn, 是目前各类信息较全面的数据系统。一般农业课题查新用得比较多的有:《数字化期刊全文数据库》、《中国科技成果数据库》、《中国学位论文数据库》、《中国学术会议论文库》等。万方数据库检索方法为:首先选择了系统和数据库, 然后可以用“全文、论文题名、作者、作者单位、刊名、出版年份、关键词、文摘”等任意检索字段通过“与、或、非”进行组合检索, 还可以跨库检索、高级检索、二次检索、检索式历史保存等。

(2) 中文科技期刊数据库。网址为www.tydata.com, 是维普咨询公司推出的中文科技期刊全文检索系统。涵盖自然科学、工程技术、农业科学、医药卫生等多个领域。该库查检方式多样、检索格式简单, 可提供全文下载文献。《中文科技期刊数据库》提供5种检索使用方式:“首页上的傻瓜检索方式”、“传统检索”、“分类检索”、“高级逻辑组配检索”“整刊检索”。

(3) 中国期刊全文数据库。网址为www.cnki.net, 是目前世界上最大型连续动态更新的中文学术期刊全文数据库。收录了1994年至今国内公开出版的7 000多种核心期刊的题录、摘要以及5 000多种期刊全文, 全文文献累积1 300多万篇, 分9大专辑、126个专题文献数据库, 该库更新数据较快。另外, 查新时用得较多的还有中国期刊网的《中国优秀博硕士学位论文全文数据库》、《中国重要会议论文全文数据库》等。检索方式可通过关键词、作者、刊名等检索。

(4) 中国农业科技信息网。网址为http://www.caas.net.cn, 由中国农业科学院建立和维护。《中国农业科技文献数据库 (CCASDD) 》是该院科技文献信息中心研发的中文文摘目录型数据库, 是国内信息量较大、文摘率高、文献时问跨度较长的综合性中文农业科技文献数据库, 涵盖了我国近1 000种中文科技期刊、论文集、资料的文献信息。CASDD产品以《中国农业文摘》 (共6个学科分册) 纸质式检索期刊发行。

(5) 生物学文摘数据库。网址为http://www.cba.ac.cnl, 由中国科学院上海文献情报中心1987构建, 是目前国内容量最大的生物学文献综合性文摘数据库之一。收录中文生命科学期刊近600种及相关文献。年文献报道量1万条左右。累计数据量已完成12万篇。许多涉及转基因、克隆等生物学方面的农业成果, 常常需要检索该数据库。该库需要通过光盘进行检索。

参考文献

[1]蔡志勇.化学化工及相关网络信息资源[M].北京:国防工业出版社, 2004.

基于贝叶斯网络的信息检索模型 篇10

(一) 推理网络模型

推理网络模型采用的是信息检索认识论的观点[4]。该模型中文档节点用dj表示, 术语节点用ki表示, 查询节点用q表示。文档节点、术语节点、查询节点均与用相同符号表示的二进制随机变量相关。U={k 1, k 2, ..., k t}表示t维的向量空间, 变量k1, k 2, ..., kt为U定义了2t种状态, u表示其中一种状态。

根据查询q对文档dj进行排序, 其结果可以用来度量dj的观测值为查询q提供了多少证据支持。在推理网络中, 文献dj的排序可用P (q|d j) 来计算[2], 其计算方法如下:

其中α是一个常数因子, 因为没有对任何文档给出特定的先验概率, 所以一般采用一个统一的先验概率分布, 在有关推理网络的早期著作[1,5]中, 规定观测一篇文档dj的先验概率为, N为系统中的文献总数, 因而:

利用基本条件及贝叶斯定理, 公式 (1) 可变为下式:

具体定义方法参考文献[4]。

(二) 信念网络模型

信念网络模型也是基于概率认识论描述的, 但是这种模型采用的是一个明确定义的样本空间, 因而产生了一种不同于推理网络的网络拓扑, 即将网络中的文档和查询分离开来。

在信念网络中, 术语集合U={k 1, k 2, ..., k t}是一个论域 (discourse) , 同时为信念网络模型定义了样本空间。u⊂U是U的一个子集, 且g i (u) =1⇔ki∈u。每个索引术语被看作是一个基本概念, 因此U被看作是一个概念空间, 概念u是U的子集。文档和用户查询用概念空间U中的概念表示。

定义在样本空间U上的概率分布P如下所示, c是空间U中的一个概念, 表示一篇文档或一个用户查询:

公式 (5) 将p (c) 定义为空间U中c的覆盖度 (degree of coverage) , 公式 (5) 表示概念空间中的所有概念均是等概率发生的。

与给定查询q相关的文档dj的排序被理解为一种概念匹配关系, 它反映了概念q提供给概念dj的覆盖度。因此在信念网络中用p (dj|q) 计算文档dj关于查询q的排序。根据条件概率、公式 (5) 及贝叶斯定理可得:

其中η为规范化因子, 对概率P (d j|u) , P (q|u) 的不同定义可使信念网络检索模型包括由各种经典信息检索模型 (布尔模型、矢量模型、概率模型) 产生的排序策略。具体定义方法参考文献[2]。本文提出的扩展模型就是以基本信念网络模型为框架的。

(三) 简单贝叶斯网络检索模型

简单贝叶斯网络检索模型中的变量由两个不同的集合组成, V=T∪D:集合T={T1, T2, ..., TM}, 集合D={D1, ..., DN}, T和D中的变量均是二值的。变量Dj取值集合为, 其中和dj分别表示在给定查询下文档Dj不相关和相关。变量Ti取值集合为, 其中分别表示术语不相关和相关。

网络拓扑结构的建立基于以下三个假设:

1. 如果术语Ti属于文档Dj, 则术语节点Ti和文档节点Dj之间有弧。这反映了文档和其索引术语之间的依赖关系;

2. 文档节点之间没有弧, 也就是说文档节点之间的关系只是通过索引它们的术语表示出来;

3. 已知文档Dj中索引术语是否相关的情况下, 文档Dj和其它任何文档Dk是条件独立的, 也就是说文档Dj是否相关只受索引它的术语的影响, 而不受其它文档的影响。在网络中表现为弧的指向是由术语节点指向文档节点。

由这三个假设最终确定网络的拓扑结构。网络包括两个子网:术语子网和文档子网, 弧是由第一个子网中的节点指向第二个子网中的节点。该模型与推理网络模型和信念网络模型最大的区别是在网络中没有包含查询节点, 也就是说该模型是查询独立的, 查询只是作为证据在网络中传播。

BNR模型各类节点中存储的条件概率计算如下:

(2) 对于文档节点需要估计条件概率分布p (dj|π (Dj) ) , 其中π (Dj) 是Dj的父节点集Π (D j) 取值后的任意一种组合。因为文档节点可能有大量的父节点, 所以需要估计和存储的条件概率的数目是很巨大的。因此, 简单贝叶斯网络检索模型采用了专门的正则模型来表示条件概率:

其中R (π (Dj) ) 是π (Dj) 中相关术语的集合, 权重wij满足wij≥0且。这样在π (Dj) 中的相关术语越多, Dj的相关概率越大。

简单贝叶斯网络中节点的数目通常比较大, 节点之间的连接也是多路经的, 每个节点也可能包含大量的父节点, 所以考虑到检索的效率问题, 一般的推理算法是不能使用的。因此, 简单贝叶斯网络检索模型设计了特殊的推理过程可以非常有效地计算需要的概率, 并且证明了得到的结果和在整个网络中实施精确推理得到的结果是一样的:

根据术语子网的拓扑结构, 则当Ti∈Q时p (ti|Q) =1, 当Ti∉Q时p (ti|Q) =1/M, 这时公式 (8) 可改写为:

权重wij有多种计算方法, 可参考有关文献。

参考文献

[1]Howard Robert Turtle, W.Bruce Croft.Inference networks for document retrieval.Proceedings of the13th ACM-SIGIR Conference, 1990:1-24.

[2]Berthier Ribeiro-Neto, Richard Muntz.A belief network model for IR.Proceedings of the19th ACM-SIGIR Conference, 1996:253-260.

[3]Ricardo Baeza-Yates, Berthier Ribeiro-Neto.现代信息检索.北京:机械工业出版, 2005:24-42.

[4]Howard Robert Turtle, W.Bruce Croft.Evaluation of an inference network-based retrieval model.ACM Transactions on information systems, 1991, 9 (3) :187-222.

数据挖掘在网络信息检索中的应用 篇11

关键词 数据挖掘 网络信息检索 数据挖掘

中图分类号:TP311.138 文献标识码:A

目前,网络信息资源数据形式丰富多样,数量巨大,并呈几何级数的速度增长,基本满足了人们的信息检索的量的需求,然而如何快速、高效地找到自己所需要的信息,网络信息檢索在查全率和查准率上还相对欠缺。网络搜索引擎通常会返回给用户成千上万检索到的网页,其中大部分与用户的检索要求无关,另外就网络上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,人们需要比信息检索更精确高效的、能包含网络数据库在内的新的数据挖掘技术,数据挖掘正是在这样的应用需求下产生并迅速发展起来的。但是,数据库领域采用的数据挖掘技术所涉及的多是结构化数据,为了处理网络上的异质、非结构化或半结构化数据,网络数据挖掘成为数据挖掘研究的一个重要分支。

1 网络信息检索

网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一处终端查询各地上网的信息资源。网络信息检索主要依靠计算机科学技术、网络技术和数据的确切特征来创建相应的索引结构、数据库等,能很好地处理已经发生或存在的静态信息。网络信息检索工具包括传统的服务工具:远程登录、文件传输服务、电子邮件、电子公告牌、广域消息服务、Gopher、WWW、基于Z39.50的信息检索服务、代理服务器和NAT,以及搜索引擎和中外著名网络数据库检索。这些工具都能有效地组织和检索海量数据,但对数据未来的变化趋势等动态信息缺乏有效的统计和预测。

2 数据挖掘及Web数据挖掘

数据挖掘(Data Mining),即从大量模糊的数据中发现隐含的规律性内容,解决数据的应用质量问题的技术,是一种还处于发展中,已经部分投入实际生产实践的技术框架。

Web数据挖掘是从数据挖掘技术发展而来,简单地说是将数据挖掘技术应用到Web上,也称为Web挖掘。其技术性的定义是:Web数据挖掘,是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web数据挖掘的目的是为了揭示网络信息中隐含的知识,它是比信息检索层次更高、更精确的一种技术。它能够根据用户个性化定义的要求,根据目标的特征信息在网络上或者数据库中进行有目的的信息检索。Web数据挖掘中几种常用的技术是:关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。

3 数据挖掘在网络信息检索中的应用

目前,作为网络信息检索最重要最常用的工具:搜索引擎,只能处理用户给出的特定关键词形式表示的简单目标,而无法处理用户给出的样本形式的复杂模糊目标,对网络数据未来的变化趋势等动态信息也缺乏有效的统计和预测。而将数据挖掘技术运用的网络信息检索中,可以使网络信息检索过程及结果更加快速、精确、个性化。

(1)数据挖掘提高网络信息内容自动摘要的准确率。网络信息资源一般都有关键词和内容摘要供用户检索选择之用,但大部分的自动摘要都是简单的抽取网页文档的前几句内容,而仅仅是通过位置来确定的,这种方式很不准确,不能精确的反映网页的全部内容,所以保证自动摘要的正确性非常重要。数据挖掘中的文本抽取就是从文档中抽出关键信息,对文档本身的内容而不是位置来进行文本内容的总结,以自然语言理解为基础,更可揭示网络信息的主题特征知识及其之间的相互关联知识,对文档进行语义甚至语用的标注,因此它更能反映出Web文档中的真正信息,然后以简单的形式进行摘要或表示,可以提炼出文档最重要的信息生成关键字或摘要,使自动摘要的质量和准确性很大的提高。

(2)数据挖掘拓宽网络信息资源量。网络信息资源数量众多,分布范围很广,大部分可以直接用网络信息检索工具查询到的信息都是网页中的文字、表格、图形、图像、声音、视频或好友网页的链接及目录结构等。但是还有一些潜在网络信息不容易被搜索引擎等工具查询到,如用ASP,JSP或PHP生成的动态网页;一些专业数据库系统中的数据;在Robot Exclusion框架协议下被拒绝搜索访问的网站;由用户的提问而动态生成的结果;存在于商业数据库管理系统中的数据等,它们无法被索引,从而无法提供有效的检索方式,这些结构化的或用html标记的半结构化数据都可以用数据挖掘中的内容挖掘进行处理,网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘,可为这些网络信息提供明确的摘要或索引,使得本来不容易搜索到,潜在隐藏的信息能被明确的搜索到,从而大大拓宽了网络信息的资源量。

4 网络信息检索的未来展望

数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息服务。此外,它独特的分析方法能发现网络数据知识之间的各种关系,使网站建设和检索结果的分布更加合理。随着本体、网络、自然语言处理、信息可视化和人工智能等技术的发展,将数据挖掘与这些技术进行结合,未来的网络信息检索将朝这更加精准、个性和智能化方向发展。

参考文献

[1] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009(5).

[2] 李村合.网络信息挖掘技术及其应用研究[J].情报科学,2008.

信息资源网络检索的问题与对策 篇12

1 关于信息资源网络检索的特点

要了解信息资源网络检索的特点, 首先要对网络信息资源的特点有一定的认识, 其特点主要表现在两个方面:一方面是内容的丰富性, 网络信息拥有非常丰富的资源, 现今人类最大的信息资源库就是互联网。另一方面是质量上的参差不齐, 是网络给我们提供了非常丰富的信息资源, 但是在网上的信息资源很分散, 而且存在很多垃圾的信息, 以及一些虚假信息, 使得网络上的信息资源在质量上存在较大差异。

信息资源检索从最早的手工检索到联机检索以及后来的光盘检索, 但是随着现如今网络、信息以及数字化技术快速的发展, 信息检索和传统的文献检索相比之下有很大的差别, 其中网络信息检索备受关注, 将成为拥有最多用户并且影响最大的检索系统。信息资源网络检索主要有以下几方面的特点:

1.1 检索手段的易用性

网络信息检索拥有简单、快捷的会话界面以及帮助支持的系统, 用户不需要花太多时间去学习, 只需要将检索要求提出来就能获得相应的检索结果。

1.2 检索途径的灵活性

用户能够通过搜索引擎来搜索各个国家的网站以及网页从而检索需要的文献资料。用户还可以通过专门的数据库检索系统, 以相关的作者、机构或是关键词等途径来检索。网络系统中的检索系统还能够给用户的检索提供有用的帮助以及启示的功能。

1.3 检索速度的快捷性

网络作为现今最有效也最快捷的传播途径, 用户可以不分时间和地点随时通过网络来查阅所需的信息资源以及所需的相关文献。

2 关于信息资源网络检索存在的问题

网络信息资源具有易用性、快捷性以及灵活性等特点, 为用户创造了极大的便利, 但在检索中也存在着一些问题。

2.1 检索结果多变且查准率不高

丰富的网络信息资源有效地提高了文献的查全率, 但在不同的学科当中存在一词多意的现象, 使得进行一些查询时可用的结果不多, 查准率不高。在网络中的一些信息发布以及更新的速度很快, 针对相同的检索在不同的时间段会出现不同的结果, 使得检索的结果具有多变性。

2.2 信息资源分类混乱

在网上有很多的动态信息, 而进行网络信息相关工作的大部分都不是专业人员, 在由于工作量的制约以及其专业知识的缺乏, 工作人员往往不能对信息资源进行有效合理的组织, 从而导致网上信息资源没有合理的设置分类, 分类的标准混乱, 信息资源没有进行具有层次、规律以及逻辑性的组织, 经常出现内容重复或者遗漏的情况。

2.3 网络检索的局限性

由于网络信息资源与传统的文献信息资源在检索的方式上有很大的区别, 一些已经习惯了利用传统方式进行检索的用户, 对于网络信息资源的使用还需要一个认识以及熟练的过程;而由于一些用户的文化程度以及知识的结构不同, 也在一定程度上局限了用户对于网络信息资源的使用。用户在使用网络信息资源的一些常见问题:用户对于计算机的操作能力以及所具备的网络知识关系到信息检索的效率;用户在运用网络检索的相关工具时的熟练程度也关系到检索的效果;以及用户的外语知识对于信息检索的广度与深度也构成了一定的影响。

3 关于信息资源网络检索提高的相关对策

3.1 建立具有特色的数据库

特色数据库是在互联网上提供的一种特殊的数据库, 其中主要包含了学位论文数据库、科研成果数据库、专业特色数据库等, 有关信息服务的机构应当依照相关地区的社会以及历史发展的需求, 再与当地经济、人口以及文献资源的实际情况相结合, 建立具有特色的数据库。还可以利用一些相关文献资源所具有的特色以及一些重点学科等方面的优势建立相关专题的数据库, 通过具有特色的服务将自身价值体现出来。

3.2 网络信息分类标准的统一

鉴于网络信息资源在丰富多样的同时也很杂乱, 想要做到网络信息资源的高效利用, 为用户节省时间以提高检索的效率, 那么在网络信息资源的分类标准的制定上就必须做到统一。而在网络信息资源分类标准的制定过程当中, 要兼顾信息分类标准所具有的灵活性以及与传统文学在分类标准上的融合性进行制定。

3.3 对检索人员的相关要求

3.3.1 对于真假信息、前沿信息的鉴别能力

作为检索人员应当对相关服务领域内包含的一些前沿信息具有全面的了解, 还需要拥有较强的洞察力以及辨别能力, 使其能够在混乱的网络信息当中准确的对有关的真假、前沿信息进行鉴别。

3.3.2 准确分析以及提炼核心内容的能力

作为网络信息的检索人员, 应当对检索的相关课题进行全面了解, 并且具备能够进行准确分析检索课题, 将检索的核心内容提炼出来的能力。其中包括:分析检索课题中的主要内容, 以及所涉及到的显性和隐性概念等, 并分析有关概念之间的关系;提取核心的概念, 在对相关课题所进行的分析中, 应当能够将表现出课题核心的概念提取出来。

3.3.3 综合分析能力

作为网络信息资源的查询者或提供者, 应当具备综合的分析能力。对网上搜集到的信息资源进行鉴别与分析, 去掉其中的虚假以及简陋的部分, 保留真实或精华的部分。力图通过检索给广大用户提供具有高质量的服务。

4 结语

网络信息资源质量的参差不齐, 以及网络信息资源检索特点还没有与用户所掌握的网络技术及检索方法进行有效的融合, 使得用户在用网络检索时会出现诸多问题, 将这些不足解决才能促进网络资源与用户检索的融合。从而满足用户对网络检索的需求, 加大对网络资源的利用。

参考文献

[1]龙健.政府基础信息资源跨部门共享机制研究[D].北京大学, 2013.

[2]李建英, 王韵.网络信息检索中存在的问题及解决途径探析[J].榆林学院学报, 2007 (06) .

上一篇:智能指导模块下一篇:中等职业教育英语教学