农业信息检索

2024-09-05

农业信息检索(精选9篇)

农业信息检索 篇1

0 引言

目前正在研究和使用的信息检索技术可以分为3类, 即全文检索、数据检索和语义检索。其中, 全文检索是基于词语的机械式匹配方式进行检索的, 比较好地保证了检索的查全率, 但是查准率不能令人满意;数据检索是基于一定格式和结构对特定字段的检索, 是目前主要的期刊论文数据库所采用的主要检索方法, 但是它要求人工基于特定的字段对信息资源进行标识, 检索的结果取决于标识方法的优劣以及用户对标识字段的理解;语义检索则是基于知识的和语义的匹配。

近年来, 起源于哲学领域的本体 (Ontology) 受到信息科学领域的关注。哲学上把本体论定义为“对世界上客观事物所进行的系统描述”。 在人工智能界, Studer 等提出了一个定义, 即“本体是共享概念模型的明确的形式化规范说明”。 本体的目标是捕获相关领域的知识, 提供对该领域知识的共同理解, 确定该领域内共同认可的词汇, 从不同层次的形式化模式给出这些词汇 (术语) 和词汇间相互关系的明确定义, 通过概念之间的关系来描述概念的语义。其特点在于检索过程中不是基于字面的机械匹配, 也不是基于字段的匹配, 而是基于知识理解和推理的语义匹配。语义检索技术和方法 (特别是面向网络信息资源的语义检索) 是目前信息检索和人工智能领域研究的重点和热点。

中国是一个农业大国, 有8亿多农民。随着计算机技术和通信技术的不断发展, 中国农村互联网络已经开始普及。信息资源尤其是与农村经济有关的信息资源与广大农民日常生活、生产和农产品流通有着越来越密切的关联。因此, 在农业领域提供准确和全面的信息检索资源将具有十分重要的社会意义和应用价值。

1 本体分类

本体是一个实体, 是对某领域应用本体的方法分析和建模的结果, 即把现实世界中的某个领域抽象为一组概念及概念之间的关系, 本体的本质是概念模型。概念模型是指某领域中的所有可能状态包含的所有元素涉及的概念及其之间的关系, 是一种与特定语言无关的抽象模型。如果要使用某种语言和相应的词汇把这种概念模型描述出来, 则可以被计算机理解和处理。这种被形式化的模型被称为目标模型, 它刻画了概念模型的基本结构和意义。

在具体描述过程中, 只有语言和词汇还不够, 必须有一定的描述结构和规则。本体就是要提供这种结构和规则, 其本质作用在于定义特定领域所要用到的概念以及描述这些概念之间的关系。由于目标模型包含的结构和意义是非常复杂与丰富的 (如本文的农业领域信息模型, 不可能用语言将其完全地以形式化的方式描述出来) , 所以本体只能间接地对目标模型进行模拟, 尽可能地接近目标模型。

按照本体描述对象的不同, 可以将本体分为顶层本体、领域本体、任务本体和应用本体等4类。其中, 顶层本体定义最基本的概念类、属性及语义关系;领域本体利用顶层概念集来细化定义具体应用领域, 如教育、农业的专用概念类、属性及语义关系;任务本体利用顶层概念集来细化定义具体通用任务, 如交易和传输等的专用概念类、属性及语义关系;应用本体利用领域和任务概念集来进一步定义针对某个具体应用的概念集。这4种本体之间具有一定的层次关系, 本文研究的就是农业领域本体。

2 农业领域本体的描述

Ontology的表示方式是多种多样的, 可以用自然语言来描述, 也可以用框架、逻辑语言或语义网络等来描述。若系统不需要太强的推理能力, 则Ontology 可用本体图的形式表示并存储, 此时数据可以保存在一般的关系数据库中, 采用图的匹配技术来完成信息检索。若系统要求比较强的推理能力, 则Ontology 一般要用一种描述语言 (如Ontolingua , Cycl, OIL) 进行表示。此时数据保存在知识库中, 采用描述语言的逻辑推理能力来完成信息检索。第3种就是直接利用XML来表示并保存Ontology, 用XML的查询语言来实现Ontology中本体的检索。 研究人员开发了一系列基于XML语法的描述语言, 包括RDF, RDFS, DAML+OIL和OWL等。

本文将建立农业领域概念描述元素及其关系, 联系通过带标记的有向图来表示, 构建一个语义网络, 便于逻辑推理, 并且选择RDFS作为本体描述语言生成RDFS的关系元数据文件。

2.1 语义网络

语义网络作为一种知识表示的工具, 它是由Quilian于1968年在博士论文中提出的。语义网络是通过概念及其语义关系来表达知识的一种网络图。

农业领域概念描述元素及其各种关系和联系, 从而构成了一个语义网络, 便于逻辑推理。构建的、面向农作物栽培管理领域的和局部简化的语义网络图如图1所示。

基于RDFS的农业领域本体的描述, 针对图1的“农业灾害”、“虫害”、“病害”、“草害”、“棉铃虫”、“立枯病”、“猝倒病”和“褐斑病”等类其关系生成的RDFS的代码如下:

针对图1左右两边交叉关系的“棉花”、“棉铃虫”、“立枯病”类及其关系, 生成的RDFS格式的代码如下:

3 农业领域本体语义信息检索系统的框架

将本体方法应用于农业信息检索系统中, 并对本体要解决的关键问题、本体的创建问题、本体的存储问题、信息资源的标引、存储问题、对RDF, RDFS, OWL等相关文件的解析和推理问题以及用户交互界面等问题进行分析, 设计一个基于本体的农业信息检索系统的基本框架, 如图2 所示。

当用户提出检索请求时, 界面主体将查询交给查询管理。表达式解析是借助本体把用户提交的查询问题, 转化为计算机可以理解的最小语义规范形式, 利用本体来规范检索信息, 将规范后的检索信息提交到推理机。推理机接收到相关的术语时, 根据本体库储存的各种农业本体的模型, 应用形式化本体的内容进行推理, 推理用户信息需求的内涵式结果和找到与提交术语相关的概念, 返回给远端资源管理与信息获取系统。资源管理与信息获取系统负责对资源库的管理和用户查询信息的获取, 并对各种资源按照本体模型的术语进行索引、储存以及根据用户的查询请求获取相关信息。语义标注和元数据抽取系统负责分析揭示Web文档内容特征, 并使之显化。

4 结束语

语义Web的发展与本体的应用为语义检索的研究发展提供了一个新的途径和机遇。本文抓住机遇, 沿着这条路径研究了语义Web与本体的相关概念和技术, 并在此基础上探索语义Web环境下基于农业领域本体的语义检索系统框架的设计。

参考文献

[1]Guarino N, Masolo C, Vetere G.Ontoseek:content2basedaccess to the Web[J].IEEE Intelligent System, 1999, 14 (3) :70-80.

[2]李善平, 胡玉杰, 郭鸣, 等.本体论研究综述[J].计算机研究与发展, 2004, 41 (7) :1041-1052.

[3]万捷, 滕至阳.本体论在基于内容信息检索中的应用[J].计算机工程, 2003, 29 (4) :122-123.

[4]林菡, 何钦铭.基于OWL的网页视觉结构本体表示和WEB检索[J].计算机工程与应用, 2004 (15) :157-160.

[5]李衍淼, 霍常青.本体论在企业信息检索中的应用[J].福建电脑, 2006 (8) :58-59.

[6]常春.Ontology在农业信息管理中的构建和转化[D].北京:中国农业科学院, 2004.

[7]杨芳, 杨振山.基于语义网的电子政务文档智能检索[J].计算机应用, 2005, 25 (10) :2434-2435.

[8]栾艳, 丁二玉.基于Ontology的语义检索技术[J].计算机工程与应用, 2005 (28) :156-159.

农业信息检索 篇2

“网络信息检索及专利信息检索”实习报告

一、实习目的1、熟悉网络信息的基本检索方式,了解几种常用的搜索引擎

2、熟悉我馆现有的中文献题目:multifunctional data acquisition and control system for experimental aerodynamics

作者:Yu.K.Biokin-Mechtalin

出处:Volume 71,Number 11(2010),2455-2664 英文电子资源的使用方法。

3、掌握利用网络检索专利信息的方法

二、实习题目(每种途径任选一题):

1.环境与生态系统;2.胶粘剂的研制;3.抗癌药物研究;4.纳米材料的制备;5.金刚石的应用;6.汞污染处理;7.热固性塑料成型; 8.包装技术; 9.安全控制系统10.控制释放技术

三、实习内容:

1.网络科技信息检索(http://library.qust.edu.cn/)1)万方数据资源的使用

a.选择检索课题(目)为:胶粘剂的研制 b.选择检索途径为:关键字

c.记录检索结果

文献题目:有机硅改性酚醛环氧树脂耐高温胶粘剂的研制 作者:王丁 程斌 刘峰 江民涛 黄朝 出处:中国胶粘剂 2007年16卷第3期 2)CNKI的使用

d.选择检索课题(目)为:热固性塑料成型 e.选择检索途径为:关键字 f.记录检索结果

文献题目:热固性塑料成型新工艺——注射模压成型 作者:陈中一

出处:工程塑料应用1984年01期 3)Springer LINK使用

g.选择检索课题(目)为:安全控制系统 h.选择检索途径为:关键字

2.专利信息检索

检索工具:国家知识产权局网站(http://)1)主题途径(任选一题进行检索)

a.选择检索课题为:.包装技术 b.记录检索结果:

专利名称: 金属锶铝罐包装技术 专利发明(设计)人:梅小明

专利权人:南京云海特种金属有限公司

申请(专利)号:02113127.9

2)专利权人途径(青岛科技大学;山东大学;清华大学;上海交通大学)c.选择检索入口为:青岛科技大学 d.记录检索结果:

专利名称:固体废物陶瓷生态砖 专利申请人:朱海涛 陈磊

申请(专利)号:200710113223.9

3)申请(专利)号途径(02150457.1;88100410.3; 88106349.5)e.选择检索专利号为:88106349.5 f.记录检索结果:

专利名称: 连续生产胶料工艺方法和设备

专利发明(设计)人:诺伯特·来比格;曼夫利德·迪恩斯特 专利权人:海尔曼·拜尔斯托夫机械股份公司

农业信息检索 篇3

随着科技的发展,互联网的渐渐壮大,信息技术在发生着巨大的变化。互联网上的信息每年都在以几何级数增长。如何在这个巨大的信息库中锁定自己需要的信息,已经成为人们越来越关注的问题。中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求[1]。基于农业信息化的知识检索系统就是在这个背景下应运而生,并且迅速发展起来。作为知识检索系统的重要组成部分,中文农业专业分词的结果好坏直接影响着搜索引擎检索的结果[2]。

中文分词,也称切词(Segmentation),就是把中文的汉字序列切分成有意义的词。目前分词算法非常多,大致可以归纳为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法[3]。中文分词是中文信息处理系统中的一个核心内容,长期以来为了达到中文信息的智能化处理,对中文分词作了多领域的研究,但是信息检索系统对分词的速度和准确率仍然不尽如人意[4]。目前,为有效解决对农业信息领域的信息检索问题,提出基于中文分词的农业信息检索平台在实践中已运用,但是,由于农业信息库文档的多样性和自然语言的复杂性导致查准率和速率不高[5]。本文通过对农业信息化知识检索系统的分析与设计,介绍了知识检索系统设计与实现,重点阐述了中文农业专业分词算法设计与实现,从而能最大程度的理解问句的语义和提取农业关键词、方言关键词的速度和准确度,证明本算法在查准率和速率方面的优势。

1 系统设计概述

农业信息化的知识检索系统中的知识录入是知识库的咽喉,关系到知识的“入”。是否所有的农业专业知识都可以畅通无阻的进入知识库呢?答案是否定的。因为相似甚至雷同的知识只能使知识库臃肿,而达不到丰富知识库的目的,所以录入系统需要设计一个查重分析器,判断问题的相似度,从而减少知识库冗余,同时当检索或者查重时,系统需要对问句或者知识条目进行关键词提取,特别是农业关键词、方言关键词的提取,从而能最大程度的理解问句的语义,这里就离不开针对农业的专业分词器。基于农业信息化知识检索系统使用目前主流的开源搜索引擎框架lucene,自定义分词器即农业专业分词器,将分词器与lucene开源框架对接,并使用lucene的索引器对知识库记录建立倒排索引[6],为以后实现高效的检索提供必要条件。系统架构如图1。

2 系统关键技术研究

2.1 中文农业专业分词算法设计与实现

2.1.1 词典在硬盘中的表示

词典常驻于内存中,这样可以避免每次分词都要加载词典,提高分词效率。分词器将词典从磁盘中加载到内存,词典增删改之后又将内存中的词典保存到磁盘,这个过程中需要实现内存和磁盘的数据同步。同时,方言词与关键词的对应关系备份在知识库中,并在数据库中建立其对应关系。数据库表中的数据与词典必须对应,所以需要建立一个函数,对词典的数据和数据库中的数据进行同步操作。词典的哈希函数表示为:设一个词条word去掉首字后还有n个字,而使用I[i][n]来表示第n个字的GB码的高位和低位。

词典在磁盘中部分表现形式如图所示:

其中,每行第一个字为中文常用字6763个,每行首字之后的数字表示以该字为首字的词汇数量,“F”和“T”表示是否为农业专业词汇;符号“#”表示分隔,其余汉字表示词汇除首字的剩余字符串;如“底”表示的词汇为“到底”;“181215”为“哈”字的Hash值,哈希值后面的数字“1”表示常用词汇,“2”表示农业专用词汇,“3”表示农业方言专用词汇。

2.1.2 词典的结构

系统设计词典结构主要考虑一下几个方面:(1)空间复杂度;(2)查找的时间复杂度;(3)方言词翻译的时间复杂度;综合以上几个方面,系统设计的词典结构如下:

注:上图中以“棉”字为首字的词汇为例:33表示以“棉”字为首字的所有词汇有125个;“F”表示“棉”字能不能单独成词;“子籽”、“絮”、“绒品”表示以“棉”字为首字的词汇,他们能分别组成词语“棉籽”、“棉絮”、“棉绒品”等词;3标识词汇的性质为农业方言词,如果该词汇为农业关键词,则该值为2;如果该词为常用词,该值为1;(215209)(208245)等分别表示“籽”、“絮”等的哈希值;“棉籽”用指针指向“棉花”,表示棉籽只是方言词,它的关键词是“棉花”,这样,由一对多关系中的多的一方指向一的一方,方便对应关系的管理。如果该词并不存在关键词,则指向空对象。

2.1.3 词典的构建

构建流程如图所示:

构建步骤如下:

(1)初始化,建立词典对象AgcDictionary,索引对象AgcFirstWord,读取下载的词典;

(2)读取词典一行,取首字,得到首字GB码;

(3)判断内存中的AgcFirstWord对象中是否存在该字,如果存在,则转至5;

(4)将该字加入AgcFirstWord对象中,并新建AgcHashtable对象与之关联;

(5)计算除首字其余字符串的Hash值,并保存在AgcHashtable的key中,将该字符串保存在Value中;

(6)判断词汇属性,常用词汇的词汇属性为1,农业专业词汇的词汇属性为2,方言词汇词汇属性为3,并将其保存至AgcHashtable的Value中;

(7)词汇属性如果为3,该词汇为方言词汇,则新建AgcMykeyword类,保存其对应的农业专业词汇;

(8)将内存数据保存到磁盘,形成词典;

这种方法构建的词典,提高了分词系统2-3倍的存储空间利用率。

2.1.4 词汇的查找

查找算法是分词算法中最常用的算法,它的使用频率最高,是Hash算法相比其他算法最有优势的地方。在本算法中首先根据查询字符串可以得到首字的GB码,将此GB码作为索引值直接可以定位到词条行,然后通过计算词条的哈希值进行哈希查找,查找完后,进行近义词的查找。

输入:要查找的字符串;

输出:该词条存在,返回词条属性,否者返回false;

(1)取得输入字符串的首字,计算其GB码,得到数组下标;

(2)根据数组下标,得到以该字为首字的所有词汇的AgcHashTable;

(3)计算剩余字符的Hash值,如在该AgcHashTable中直接定位到该字符串,则表明该字符串成词,返回该词的词汇属性,并转步骤4;否则,该字符串不成词,返回false;

(4)如果该词是方言词汇,根据该词找到对应的专业词汇,并返回;

2.1.5 词汇的添加

本分词器主要应用于农业。实际中,农业专业词汇非常生僻,而在常用词典中,农业词汇的收集量相当匮乏,所以知识库构建时,知识条目的字段设计了专业关键词和湖南各地的相对应的方言关键词,这样,只要将这些词构建到词库中,知识库所有的关键词和方言词都能被准确的切分,且随着知识库的成长,分词词典将越来越完善。

针对于湖南各地的方言词汇,词典添加过程中,需要建立起方言词和农业关键词的对应关系,从而高效地完成将方言词翻译成农业关键词(专业术语)。词汇的添加一般发生在知识库保存数据时,其过程如下:

输入:农业方言词及对应的农业专业关键词;

输出:添加成功或者失败;

(1)取得农业方言词及对应的农业专业关键词;

(2)运用词汇查找(2.1.4描述的算法),如果词库中已经存在,更改其词汇属性,否则,计算词汇Hash值并保存词汇、Hash值及词汇属性;

(3)建立农业方言词和农业专业关键词的对应关系,将方言词的词汇属性置为3,新建AgcMykeyword类存放其对应的农业关键词,形成方言词与农业关键词的对应关系。

3 系统功能实现

3.1 系统实现时序图

3.1.1 知识录入

(1)知识来源

本知识检索系统主要应用于农业。实际中,农业专业词汇非常生僻,而在常用词典中,农业词汇的收集量相当匮乏,所以知识库构建时,知识条目的字段设计了专业关键词和湖南各地的相对应的方言关键词,这样,只要将这些词构建到词库中,知识库所有的关键词和方言词都能被准确的切分,且随着知识库的成长,分词词典将越来越完善,所以知识的手工录入成为不可或缺的一部分。

知识库知识知识的来源主要有三个途径,一是聘请有经验的权威专家撰写知识块,二是利用网络爬虫从网络上收集部分知识,三是从农民提问和专家解答的知识沉淀中提取知识。无论来自于那个途径的知识,都必须经过专门的审核专家审核后才能进入正式知识库。

(2)知识录入时序图

如图5所示。

3.2 系统实现效果图

如图6所示。

4 前台搜索结果与性能分析

农业信息化知识检索系统是基于WEB的,在知识检索操作方式上类似于百度、谷歌等通用搜索引擎,在前台搜索方面农业专业词汇和方言专业词汇搜索分别与国内比较大型的农业垂直搜索引擎网站做了对比测试,本测试主要从搜索速率和查准率上做了对比分析。

通过表1和表2对比分析发现本知识检索系统已经有了一定的信息检索能力,由于测试用的数据库数据量较少,加之程序的优化做的还不是很到位,因此在返回结果数量上还存在一定的差距,但已基本上实现了知识检索的基本功能要求。从表1和表2可以看出,农联网和湖南农业信息网在农业专业词汇和方言词汇查准率方面效率不高,甚至偏低,而基于农业信息化知识检索系统平均搜索用时较之要低,且在查准率方面比两大知名网站较高,证实了中文农业分词算法在速率和查准率方面的优势。

5 总结

系统刚进入试运行阶段,其知识库数据较少,因而词典的专业词汇和方言词汇比较匮乏,分词器的词库在未来一段时间中需要不断完善。查重机制非常复杂,本文只是做了一些基础性的研究工作,在未来的工作中,需要不断的对查重算法进行改进和优化,以提高系统查重的精度。

通过实验和使用,表明该系统的分词和查重是可行的,给农业推广及农业科技信息服务提供了有效的帮助,因而应用前景广阔。

参考文献

[1]熊泉浩.中文分词现状及未来发展[J].科技广场.2011,(9):222-225.

[2]王硕,尤枫,山岚,赵恒永.一种适用于专业搜索引擎的中文分词系统研究[J].计算机工程与应用.2008,44(19):142-145.

[3]梁卓明,陈炬桦.基于专有名词优先的快速中文分词[J].计算机科学与发展.2008,18(3):24-27.

[4]付英英,孙济庆.近五年我国中文分词研究论文计量分析[J].现代情报.2009,29(11):162-164.

[5]张文慧,张冉.基于中文分词的农业信息检索平台设计[J].安徽农业科技.2011,39(20):12586-12587.

农业信息检索 篇4

以下所列检索课题供学生在完成检索练习时参考,学生尽量依据所学专业选择检索课题,但课题名称可以根据学生意愿进行适当改动。检索时根据课题检索情报、信息,检索到的内容须与课题相关,否则实习成绩不能通过。

一旅游酒店方向课题

会展经济与酒店发展关系研究---以南宁为例

百色市酒店员工培训开发研究

酒店企业文化研究---以百色市为例

酒店分销渠道策略研究

百色市餐饮业流失原因分析与对策研究

论百色市酒店人才流失的表现、原因及对策研究

星级酒店的地域特色研究

百色市右江区星级酒店服务质量现状、影响因素及对策研究 旅游市场营销策略研究——以百色市红城旅行社为例

绿色营销策略在酒店中的应用研究—以×××酒店为例

民族文化主题酒店开发研究-以广西壮族文化酒店开发为例 基于旅游形象提升的酒店营销策划-以百色市为例

百色市星级酒店员工流失成因及对策研究

酒店业大学生员工心理契约与忠诚度研究

百色市红色主题酒店的开发研究

星级酒店顾客满意度影响因素及评价研究

低碳经济视觉下南宁市酒店业发展研究

宗教文化旅游资源开发及利用研究——以桂平西山为例

百色乡村旅游的品牌创建研究

体验式营销在星级酒店客房管理中的应用研究———以某某酒店为例 星级酒店网络营销的战略研究——以百色市星级酒店为例

柳州星级酒店电子商务应用现状及对策研究

Hgs 第 1 页 2013/4/13

百色市星级酒店员工激励问题研究

广西经济型酒店品牌发展策略研究-以柳州为例

东莞新锦记度假山庄人力资源管理激励制度研究

论大学生旅游消费现状及市场开发管理策略

民族文化在主题酒店中的发展与研究——以百色市为例

酒店服务人员观念转变研究

论餐饮连锁加盟发展现状及问题分析——以XXX餐饮为例

百色市酒店基层员工培训对酒店业发展研究

提高百色市右江区农家乐旅游食宿接待水平的对策研究

凌云县酒店业发展对策研究

经济型酒店在百色市酒店业发展中的的作用

民族地区特色餐饮开发研究——以百色市为例

百色市度假型酒店发展的对策研究——以澄碧湖沿线的酒店为例南宁经济型酒店的人才需求探究

主题酒店在百色酒店业中发展研究

提升高星级酒店餐饮业核心竞争力研究-----以百色右江区为例

百色探险旅游研究

百色右江区旅行社导游人才管理分析

百色酒店业员工流失分析

经济型酒店提高顾客忠诚度研究

百色壮族饮食文化与旅游开发研究

基于顾客满意度的柳州饭店竞争力提升研究

论情感营销在酒店中的应用研究——以如家便捷酒店为例

百色导游队伍建设现状及对策研究

以自驾游带动百色旅游业新发展研究

喀斯特洞穴旅游资源开发研究——以北流勾漏洞为例

EPA在后发展地区酒店人力资源管理中的应用——以百色市为例国家非物质文化遗产旅游开发研究——以宾阳县炮龙节为例

崇左市边境旅游发展研究

桂林市生态旅游发展研究——以榕江镇为例

星级酒店员工流失问题与对策研究——以大连为例

二、旅游管理方向课题

宾阳县旅游资源开发研究

南宁市主题公园创建模式探析

北海市人文旅游资源开发研究

广西滨海旅游区域合作研究

百色市红色旅游资源整合及利用研究

百色市旅游业存在的问题及对策研究

百色市少数民族乡村旅游资源的整合与利用

百色市红色旅游资源发展模式研究

论个性化服务在酒店管理中的应用

民族文化旅游游客满意度影响因素及评价研究-以黑衣壮村寨吞力屯为例 民族文化旅游地居民对旅游影响感知与态度研究-以黑衣壮村寨吞力屯为例 森林生态旅游开发研究—以百色大王岭为例

桂林佛教文化旅游开发

柳州工业旅游发展现状及对策研究

旅游目的地吸引力提升研究---以百色红色旅游为例

凌云茶文化旅游品牌创建研究

古镇旅游资源深度开发研究——以黄姚古镇为例

基于壮文化视觉下靖西旅游商品开发研究

柳州市历史文化旅游开发研究

广西工业旅游开发研究——以南宁明阳工业园区为例

论大学生旅游消费现状及市场开发管理策略

百色旅游资源整合研究

北海滨海旅游整体开发研究

百色旅游人才队伍建设中存在的问题与对策思考

百色市少数民族乡村旅游资源开发研究——以那坡黑衣壮为例 百色市民族旅游资源开发研究

百色市红色旅游发展研究

融水苗族自治县旅游资源开发研究

少数民族地区旅游开发研究——以百色市隆林县为例

河池盘阳河流域度假旅游开发研究

旅游目的地文化内涵提升研究——以广西桂平市为例

论百色市生态旅游纪念品包装设计

桂林花坪自然保护区的开发与保护研究

百色市旅游购物市场研究

百色边境旅游开发研究

百色民俗旅游开发----以凌云县为例

节庆活动促进城市旅游发展的研究——以梧州宝石节为例

节庆活动对城市发展旅游业的研究-以柳州水上狂欢节为例

边远地区旅游目的地发展的探讨--以贵州织金县为例

钦州市滨海旅游发展研究--以三娘湾为例

广西罗城仫佬族自治县旅游资源的开发策略

北海市滨海休闲旅游发展研究

忻城县土司文化旅游开发研究

百色市边境旅游发展研究

桂林市农家乐旅游发展研究

百色民族节庆旅游发展策略研究——以田林北路壮剧文化艺术节为例 百色民族文化旅游主题式开发研究

百色民族文化旅游开发策略与研究——以布洛陀文化旅游节为例 百色民族贫困地区旅游扶贫开发模式研究——以那坡为例

广西民族节庆旅游开发研究——以三江侗族为例

非物质文化遗产保护背景下钦州坭兴陶的传承与开发研究

侗族山歌的保护与开发——以广西三江县侗族大歌为例

物质文化遗产保护下的广西古镇旅游可持续发展研究——以黄姚古镇为例

三、工程管理和旅游管理课题

1、中东局势对中国旅游的影响

2、关于旅游发展的回顾和设想

3、论中美贸易争端

4、大型构件起重吊架在港口工程中的应用

5、信息产业经济化发展

6、亚洲各国经济发展前景分析

7、城市高层建筑的设计建造

8、世界局势对国内经济发展的影响

9、旅游经济理论与方法

10、如何发展中国海上旅游业

11、中国导游人员的培训与教育问题

12、网络信息的组织与管理

13、数据库的维护技术

14、如何利用互联网研究信息传播与利用

15、建筑企业的投入产出分析

16、大学生心理问题

17、电子商务在线购物的创业研究

18、壮民族旅游文化资源的开发与综合利用

19、旅游安全及其法规问题探讨

20、提高建筑企业竞争能力的根本途径分析

21、现代企业制度中的财务审计

22、可持续发展的交通运输战略

23、我国旅游政策与法规的构建

24、房地产开发中融资市场化问题

25、信息技术对旅行社业务的影响及应用

26、城市给水系统优化策略

27、可拓学在建筑设计领域中的应用

28、生态建筑学在城市建筑中的应用

29、建筑与风水的关系

30、结构用复合材料应用技术现状

31、建筑结构隔震技术综述

32、国外(美国等国家的)工程管理及其现状和未来趋势

33、建设过程之间的界面管理

农业科技查新的网络检索资源 篇5

1 国际主要农业相关网络数据库系统

(1) 联合国粮农组织 (FAO) 。网址为http://www.fao.org, 提供有关粮农组织以及世界农业信息中心等的资源信息。点击查询按钮, 可进入“农业索引数据库”、“在研农业科研信息系统”、“多语种词库”、粮农组织出版物目录“等, 且均为免费信息。

(2) 国际农业研究咨询组织 (CGLAR) 。网址为http://www.egiar.org, 涵盖16个国际农业研究中心的资源信息, 其主题涉及热带农业、林业、玉米、马铃薯、旱地农业资源、农林系统、半干旱热带、粮食政策、畜牧、植物遗传资源、水稻和水 (资源) 研究等。提供与每个研究中心的连接, 包括各研究中心的出版物及其在研项目, 还有大量的图片信息。

(3) 国际农业和生物科学中心文摘数据库 (CABI) 。网址为http://www.cabi.org, 由国际农业和生物科学中心编辑。该库是世界上最大的农业文摘数据库, 数量大、质量好。数据形式为文摘/目次, 从1990年至今, 已拥有300多万条记录, 季度更新, 年增加18万条记录左右。

(4) 世界贸易组织 (WTO) 。网址为http://wto.org, 提供世界贸易组织统计数据综合信息。具有多语种检索途径。一般通用信息资源可免费获得, 其他为商用信息。

(5) 国际农业科技情报系统数据库 (AGRIS) 。网址为http://www.fao.org/Agrisl, 由联合国粮农组织所属的国际农业科技信息系统组建, 数据形式为书目型, 内容涉及全世界所有农业领域及林业、经济等。数据形式为文摘/目次, 从1975年至今, 已拥有320万条记录, 季度更新, 年增加13万条记录左右。

(6) Dialog系统。网址为www.dialogweb.com, 是目前世界上最大的国际联机检索系统。通过国际联机远程检索, 可检索其收录的600多个世界著名的各个学科的数据库。该数据库收录世界各国科技文献5亿多条, 包括综合科学、工业、农业、生物学等各个领域。具有速度快、查准率高等优点。

(7) 欧洲农业网。网址为http://www.euroagoi.net, 是一个适用于农业及农业综合企业、且用户界面友好的信息系统。主要为农业从业人员和农业综合企业提供虚拟论坛园地。网址连接包括政府机构、商务公司和协会等。

(8) 欧联邦农业信息技术网 (EFTTA) 。网址为http://www.efita.org, 通过“网上农业”选项可进入按国家名称编排的欧洲25个国家的网址。具有检索功能, 并提供各种农业应用软件。

(9) 粮食、农业与渔业网 (OECO) 。网址为http://www oecd.org/agr, 是由29个国家联合提供的网址。内容包括经济信息、统计数据和出版物等。其信息载体含印刷型信息和电子信息, 除英语外还有法文版本。

(10) 世界水产学会网 (WAS) 。网址为http://www.was org, 含各水产学会、水产机构等目录。通过“出版物”选项可检索多种水产通讯和水产杂志。

2 各国农业信息网址

(1) 美国农业文献联机存取书目型数据库 (AGRICOLA) 。网址为http://agricola nal.usda.gov, 以美国农业部国家农业图书馆馆藏文献为基础, 兼收与农业有关的美国政府出版物等约8 000多种文献, 分为农业经济、土壤和肥料、植物科学及农业专利文献等10大类。目前被视为世界上报道农业文献最多的目录型数据库。数据形式为文摘/目次, 从1970年至今, 拥有380万条记录, 季度更新, 年增加13万条记录。

(2) 加拿大农业与粮食电子信息部。网址为http://aceis agr.ca, 提供加拿大有关农业全方位信息的有效连接, 内容包括生物技术、粮食安全和肥料等各个方面。除英语版本, 还有法文版本。参见农业网———加拿大农业及农业与粮食网上资源 (http://www.agr.ca/agriweb/agriweb.htm) 。

(3) 英国粮农渔业部。网址为http://www.maff.gov.uk, 内容包括英国、欧共体其他成员国的一些统计数据、出版物等, 并提供与各政府部门间的连接。

(4) 中国生态系统研究网络。网址为http://www.cern ac.cn, 是由中国科学院提供的全英文网址。含全国29个野外生态台站的资源信息。内容涉及农业生态系统、林业生态系统、草原生态系统、湖泊生态系统及海洋生态系统等。

3 国内主要农业相关网络数据库系统

(1) 万方数据资源系统。网址为http://www.wanfangdata com.cn, 是目前各类信息较全面的数据系统。一般农业课题查新用得比较多的有:《数字化期刊全文数据库》、《中国科技成果数据库》、《中国学位论文数据库》、《中国学术会议论文库》等。万方数据库检索方法为:首先选择了系统和数据库, 然后可以用“全文、论文题名、作者、作者单位、刊名、出版年份、关键词、文摘”等任意检索字段通过“与、或、非”进行组合检索, 还可以跨库检索、高级检索、二次检索、检索式历史保存等。

(2) 中文科技期刊数据库。网址为www.tydata.com, 是维普咨询公司推出的中文科技期刊全文检索系统。涵盖自然科学、工程技术、农业科学、医药卫生等多个领域。该库查检方式多样、检索格式简单, 可提供全文下载文献。《中文科技期刊数据库》提供5种检索使用方式:“首页上的傻瓜检索方式”、“传统检索”、“分类检索”、“高级逻辑组配检索”“整刊检索”。

(3) 中国期刊全文数据库。网址为www.cnki.net, 是目前世界上最大型连续动态更新的中文学术期刊全文数据库。收录了1994年至今国内公开出版的7 000多种核心期刊的题录、摘要以及5 000多种期刊全文, 全文文献累积1 300多万篇, 分9大专辑、126个专题文献数据库, 该库更新数据较快。另外, 查新时用得较多的还有中国期刊网的《中国优秀博硕士学位论文全文数据库》、《中国重要会议论文全文数据库》等。检索方式可通过关键词、作者、刊名等检索。

(4) 中国农业科技信息网。网址为http://www.caas.net.cn, 由中国农业科学院建立和维护。《中国农业科技文献数据库 (CCASDD) 》是该院科技文献信息中心研发的中文文摘目录型数据库, 是国内信息量较大、文摘率高、文献时问跨度较长的综合性中文农业科技文献数据库, 涵盖了我国近1 000种中文科技期刊、论文集、资料的文献信息。CASDD产品以《中国农业文摘》 (共6个学科分册) 纸质式检索期刊发行。

(5) 生物学文摘数据库。网址为http://www.cba.ac.cnl, 由中国科学院上海文献情报中心1987构建, 是目前国内容量最大的生物学文献综合性文摘数据库之一。收录中文生命科学期刊近600种及相关文献。年文献报道量1万条左右。累计数据量已完成12万篇。许多涉及转基因、克隆等生物学方面的农业成果, 常常需要检索该数据库。该库需要通过光盘进行检索。

参考文献

[1]蔡志勇.化学化工及相关网络信息资源[M].北京:国防工业出版社, 2004.

农业信息检索 篇6

目前,信息知识已成为农业生产活动的基本资源和发展动力,信息和技术咨询服务业也相应成为整个农业结构的基础产业之一,信息和智力活动对农业增长的贡献越来越大。而农业知识检索[1]作为一个新兴的研究领域, 近年来受到了较多的关注。虽然国外知识检索的理论研究和实践应用已取得了一定的进展,但农业知识检索系统的可用性评价研究相对匮乏, 缺乏可操作性的研究成果[2]。

我国农业信息化服务平台研究起步较晚,与国际还存在较大差距,主要表现在:基于现代信息技术的农业信息服务基础设施薄弱,农业信息的规范化程度不高、信息传输渠道不畅,农业公共信息平台的技术支撑能力没有充分发挥[3]。国家有关部门已进行了一系列富有创造性的探索,如国务院的“金农工程”、信息部和广播总局的“村村通”、中央组织部的“农村基层党员干部现代远程教育网”、科技部的“星火科技12396”和商务部的“信福工程”等均可为农业生产者、经营者、管理者和决策者提供信息服务,并指导农业的产前、产中和产后各环节,以充分发挥信息技术在农业中的“信息支撑”作用。

然而,当前农业数字资源的组织依旧停留在信息层面上。由信息组织机制直接引发的信息检索的弊端是显而易见的, 基于关键词匹配的信息检索技术无法达到对知识的检索与利用[4]。尽管一些数字资源检索系统引入了主题词典或概念词典, 但其描述知识的能力非常有限。由此导致的结果是,众多的数字资源系统依然是异构、多源和分布的, 数量巨大的数字资源与人们有效接收能力之间的矛盾不仅没有缓解,反而日益突出。为此, 创新农业知识检索理论方法与技术,从信息检索走向知识检索势在必行[5],并且知识检索能适应用户的现实信息需求及其发展变化。

1 系统设计概述

农业知识库知识检索系统由基于数据中心下的知识库及知识库群、信息交互平台、数字门户3部分组成。其中,以知识库为核心,主要包括农业知识条目的采集与加工规范、组织与表示、存储结构、知识库和知识库群构建。

农业知识库有显性知识和隐性知识[6]:显性知识是指一个巨大的知识库或知识库群,存放的经过知识重组和表达后可供农户直接使用的知识;隐性知识是指农技人员、种养大户、普通农户和专家等在长期的农业生产实践中积累的丰富经验、诀窍和农谚等隐性知识。农业信息化知识服务就是将存在知识库中有关农业的显性知识和农业生产实践中的隐性知识转移给农户的过程。为了实现这个目标,采用3个层次的知识转移方法来满足农业知识库知识检索系统的要求。第1层次是知识录入层:通过农技人员、种养大户、普通农户等在长期的农业生产实践中积累的丰富经验、诀窍、农谚以及网络垂直搜索提炼与挖掘的资源、自主开发的“网络爬虫”[7]技术爬取的农业知识、人工整理纸质资料等隐性知识,形成原始资料数据库,并录入农业知识库,实现农业隐性知识的转移。第2层次是知识审核层:农业专家和农技人员 将这些隐性知识通过获取、分析、处理和重构组织及提炼分类等方式转化为农业科学知识,即显性知识。 转化过程中应注意剔除错误知识、纠正知识, 然后反馈给信息管理专家,由信息管理专家经过科学解释、标准编码和合理分类等信息化技术知识处理操作转化为可管理的农业实用科学知识, 存储到知识服务系统中,形成知识库和知识库群,实现农业知识的显性化。第3层次是知识检索层:座席人员、农业专家、农技人员和农户等可通过计算机、信息机、触摸屏等终端浏览、查询知识服务系统或通过报刊、报告、短信、电子邮件和电话等得到知识数据工程,指导农户进行更为高效、科学的农事活动,实现农业标准化生产。

2 系统分析

2.1 农业知识库检索系统整体需求

知识库检索系统用例,如图1所示。

用例:知识检索;参与者:撰写专家、审核专家、系统管理员;操作流:撰写专家登陆专家系统后在WEB页面录入临时知识并修改临时库中还没有进入审核流程的知识,而且该知识必须由该撰写专家撰写的。

系统管理员登陆管理系统后,如果有初审权限,可以对所有知识进行初审。初审内容为:对无价值的知识直接删除,对没有注明产业类型的知识要根据知识内容给它指定产业类型,对错别字进行修正。审核专家登陆审核系统后,可以审核已经通过了管理员初审的、属于该专家审核范围内的知识。复审内容为:确认知识的准确性,并可根据需要对知识进行编辑(修改内容,添加内容,删除内容),对有重大错误的知识也可以直接删除。系统管理员登陆管理系统后,如果有终审权限,可以对所有知识进行终审。终审内容:确认知识无误,把知识录入知识库。

呼叫中心座席员登陆座席系统后,可以通过web页使用搜索引擎进行知识检索,并且用来接收用户的查找关键字,然后系统调用相应的功能模块从数据库中找到满足用户需求的相应信息,同时在前台页面进行回显。

2.2 农业知识检索系统流程

所谓系统流程,就是用户在使用系统时的工作过程。对于多类型用户的管理系统来说,每一类型用户的工作流程都不是相同的。本系统的流程图如图2所示。

2.3 农业知识检索系统架构及关键技术研究

农业信息化的知识检索系统中的知识录入是知识库的咽喉,关系到知识的“入”。是否所有的农业专业知识都可以畅通无阻地进入知识库呢?答案是否定的。因为相似甚至雷同的知识只能使知识库臃肿,达不到丰富知识库的目的,所以录入系统需要设计一个查重分析器,判断问题的相似度,从而减少知识库冗余;当检索或者查重时,系统需要对问句或者知识条目进行关键词提取,特别是农业关键词、方言关键词的提取,从而能最大程度地理解问句的语义,这就离不开针对农业的专业分词器。农业信息化知识检索系统使用目前主流的开源搜索引擎框架lucene。自定义分词器即农业专业分词器,将分词器与lucene开源框架对接,并使用lucene的索引器对知识库记录建立倒排索引[6],为以后实现高效的检索提供必要条件。系统架构如图3所示。

2.3.1 词典在硬盘中的表示

词典常驻于内存中,这样可以避免每次分词都要加载词典,提高分词效率。分词器将词典从磁盘中加载到内存,词典增删改之后又将内存中的词典保存到磁盘,这个过程中需要实现内存和磁盘的数据同步。同时,方言词与关键词的对应关系备份在知识库中,并在数据库中建立对应关系。数据库表中的数据与词典必须对应,所以需要建立一个函数,对词典的数据和数据库中的数据进行同步操作。词典的Hash函数表示为:设一个词条word去掉首字后还有n个字,而使用I[i][n]来表示第n个字的GB码的高位和低位。词典在磁盘中部分表现形式如图4所示。

其中,每行第1个字为中文常用字6 763个,每行首字之后的数字表示以该字为首字的词汇数量,“F”和“T”表示是否为农业专业词汇;符号“#”表示分隔;其余汉字表示词汇除首字的剩余字符串。如“底”表示的词汇为“到底”;“181215”为“哈”字的Hash值。Hash值后面的数字“1”表示常用词汇,“2”表示农业专用词汇,“3”表示农业方言专用词汇。

2.3.2 词典的结构

系统设计词典结构主要考虑以下几个方面:一是空间复杂度;二是查找的时间复杂度;三是方言词翻译的时间复杂度。综合以上几个方面,系统设计的词典结构如下如图5所示。

以图5中“棉”字为首字的词汇为例:33表示以“棉”字为首字的所有词汇有125个;“F”表示“棉”字能不能单独成词;“子籽”、“絮”、“绒品”表示以“棉”字为首字的词汇,它能分别组成词语“棉籽”、“棉絮”、“棉绒品”等词;3标识词汇的性质为农业方言词(如果该词汇为农业关键词,则该值为2;如果该词为常用词,该值为1);(215209)(208245)等分别表示“籽”、“絮”等的Hash值。“棉籽”用指针指向“棉花”,表示棉籽只是方言词,它的关键词是“棉花”,这样由一对多关系中的多的一方指向单一的一方,以方便对应关系的管理;如果该词并不存在关键词,则指向空对象。

2.3.3 词典的构建

构建流程如图6所示。构建步骤如下:

1)初始化,建立词典对象AgcDictionary,索引对象AgcFirstWord,读取下载的词典;

2)读取词典一行,取首字,得到首字GB码;

3)判断内存中的AgcFirstWord对象中是否存在该字,如果存在,则转至5);

4)将该字加入AgcFirstWord对象中,并新建AgcHashtable对象与之关联;

5)计算除首字其余字符串的Hash值,并保存在AgcHashtable的key中,将该字符串保存在Value中;

6)判断词汇属性,常用词汇的词汇属性为1,农业专业词汇的词汇属性为2,方言词汇词汇属性为3,并将其保存至AgcHashtable的Value中;

7)词汇属性如果为3,该词汇为方言词汇,则新建AgcMykeyword类,保存其对应的农业专业词汇;

8)将内存数据保存到磁盘,形成词典。

这种方法构建的词典,提高了分词系统2~3倍的存储空间利用率。

2.3.4 词汇的查找

查找算法是分词算法中最常用的算法,使用频率最高,是Hash算法相比其他算法最有优势的地方。在本算法中,首先根据查询字符串可以得到首字的GB码,将此GB码作为索引值直接可以定位到词条行,然后通过计算词条的Hash值进行Hash查找,查找完后,进行近义词的查找。

输入:要查找的字符串;输出:该词条存在,返回词条属性,否者返回false。

1)取得输入字符串的首字,计算其GB码,得到数组下标。

2)根据数组下标,得到以该字为首字的所有词汇的AgcHashTable。

3)计算剩余字符的Hash值,如在该AgcHashTable中直接定位到该字符串,则表明该字符串成词,返回该词的词汇属性,并转步骤4);否则,该字符串不成词, 返回false。

4)如果该词是方言词汇,根据该词找到对应的专业词汇,并返回。

2.3.5 词汇的添加

本分词器主要应用于农业。实际中,农业专业词汇非常生僻,而在常用词典中农业词汇的收集量相当匮乏。因此,在知识库构建时,知识条目的字段设计了专业关键词和湖南各地的相对应的方言关键词。只要将这些词构建到词库中,知识库所有的关键词和方言词都能被准确地切分;且随着知识库的成长,分词词典将越来越完善。

针对湖南各地的方言词汇,在词典添加过程中,需要建立起方言词和农业关键词的对应关系,从而高效地完成将方言词翻译成农业关键词(专业术语)。词汇的添加一般发生在知识库保存数据时,其过程如下:输入,农业方言词及对应的农业专业关键词;输出,添加成功或者失败。

1)取得农业方言词及对应的农业专业关键词。

2)运用词汇查找(2.3.4描述的算法),如果词库中已经存在,更改其词汇属性;否则,计算词汇Hash值,并保存词汇、Hash值及词汇属性。

3)建立农业方言词和农业专业关键词的对应关系,将方言词的词汇属性置为3;新建AgcMykeyword类存放其对应的农业关键词,形成方言词与农业关键词的对应关系。

3 系统功能实现

3.1 系统实现时序图

3.1.1 知识录入

3.1.1.1 知识来源

知识库知识的来源主要有3个途径:一是聘请有经验的权威专家撰写知识块;二是利用网络爬虫从网络上收集部分知识;三是从农民提问和专家解答的知识沉淀中提取知识。无论来自于哪个途径,都必须经过专门的审核专家审核后才能进入正式知识库。

3.1.1.2 知识录入时序图

知识录入时序图如图7所示。

3.1.2 知识审核

3.1.2.1 知识审核功能

由于相似甚至雷同的知识只能使知识库臃肿,而达不到丰富知识库的目的。为了减少知识库冗余,知识审核模块用于把已经录入到临时知识库的知识进行审核,审核通过后自动录入到正式知识库,主要审核的步骤是先由系统管理员初审临时知识库的知识,然后由专家组复审临时知识库里的知识,最后由系统管理员终审临时知识库里的知识并使之进入正式知识库。

3.1.2.2 知识审核时序图

知识审核时序图见图8所示。

3.1.3 知识检索

3.1.3.1 知识检索功能

用户提出问题,向系统发送请求,查询器发送数据给分词器,并由分词器进行分词。首先,分词器查阅农业专业词库,分析词汇是否为专业词汇;然后,分词器查阅近义词库,分析词汇是否为近义词;最后,分词词库对农民问题进行分词。 综合以上3个词库进行分词,形成分词结果集并返回分词结果。检索器根据分词结果发出请求,查询种类器,确认问题所属类别,并返回类别;然后,检索器根据类别查询相应的索引库,索引器对结果进行相关性分析,并排序和返回结果集。

3.1.3.2 知识检索时序图

知识检索时序图如图9所示。

3.2 系统实现效果图

系统实现效果图如图10和图11所示。

4 前台搜索结果与性能分析

农业信息化知识检索系统是基于web的,在知识检索操作方式上类似于百度、谷歌等通用搜索引擎。为此,在前台搜索方面把农业专业词汇和方言专业词汇搜索分别与国内比较大型的农业垂直搜索引擎网站做了对比测试(本测试主要从搜索速率和查准率上做了对比分析),如表1、表2所示。

通过表1和表2对比分析发现,本知识检索系统已经有了一定的信息检索能力,由于测试用的数据库数据量较少,加之程序的优化做得还不是很到位,因此在返回结果数量上还存在一定的差距,但已基本上只实现了知识检索的基本功能要求。从表1和表2可以看出,农联网和湖南农业信息网在农业专业词汇和方言词汇查准率方面效率不高,甚至偏低;而基于农业信息化知识检索系统平均搜索用时较之要少,且在查准率方面比两大知名网站较高,证实了中文农业分词算法在速率和查准率方面的优势。

5 结语

系统刚进入试运行阶段,其知识库数据较少,因而词典的专业词汇和方言词汇比较匮乏,分词器的词库在未来一段时间中需要不断完善。查重机制非常复杂,本文只是做了一些基础性的研究工作,在未来的工作中需要不断地对查重算法进行改进和优化,以提高系统查重的精度。

实验和使用结果表明,该系统的是可行的,为农业推广及农业科技信息服务提供了有效的帮助,因而应用前景广阔。

参考文献

[1]马文峰,杜小勇.知识检索研究[J].情报理论与实践,2006,29(2):157-158.

[2]张新兴.国外知识检索研究进展[J].山东图书馆季刊,2008(4):26-30.

[3]朱大成,于丰年.农业信息化的必要性及发展对策[J].现代农业科技,2010(1):28.

[4]金芳.浅谈信息检索与信息检索技术[J].晋图学刊,2001(3):22-25.

[5]程慧平,陈永超.国内知识检索研究进展[J].图书情报工作,2011,55(11):126-129.

[6]C.Stevenson.Taking the pith out of reality:a reflexive meth-odology for psychiatric nursing research[J].Blackwell Pub-lishing Ltd,2008(2):103-110.

网络信息检索中的图像检索技术 篇7

基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字, 当用户输入相应关键字后, 系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术, 即根据图像信息的文件名、路径名、ALT标签等, 将其标注为一系列关键字的描述, 然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先, 由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注, 要由人工完整地标注网络上的所有图像, 不但费时费力, 而且往往是不准确或不完整的;其次, 不同用户对于同一张图像的看法不尽相同, 导致对图像的标注没有一个统一标准;再次, 这种方法将注意力局限在图像的著录特征, 即文字描述上, 不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。

1 基于内容的图像检索技术

基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容, 提取其颜色、形状、纹理等可视特征, 建立特征索引存储于特征库中, 在检索时, 用户只需把自己对图像的模糊印象描述出来 (绘制的草图或通过扫描仪等在线输入的图像) , 就可以通过多次的近似匹配, 在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。

基于内容的图像检索算法涉及的相关技术比较多, 主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。

1.1 基于颜色特征的图像检索

颜色特征是图像检索中最基础的一种检索依据, 颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中, 通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布, 横轴表示颜色等级, 纵轴表示在一个颜色等级上, 具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。

全局色彩的索引就是按全局色彩的分布来索引图像, 计算每种颜色的像素, 检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像, 一般是利用二维直方图, 如红—蓝直方图, 它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多, 如:比例直方图法、累加直方图法等。

色彩直方图还不能为像素在图像中的位置提供线索, 为了尽可能少地丢失信息, 提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域, 它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。

1.2 基于形状特征的检索

形状是刻划物体的本质特征之一, 利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索, 还包括三维形状的检索。

基于图像内物体形状的检索, 首要问题是采用合适的图像分割算法把不同对象从图像中分割出来, 关键是寻找符合人眼感知特性的形状特征。目前, 较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后, 将每个块看成是一幅小图像, 计算每个小图像的颜色直方图特征, 则每个块间的直方图是不一样的, 为分析边缘特征, 将相邻两个块构成一个比较对, 将每个块间的差值记录下来, 同时记录差值在一定范围内的数目, 这样就形成一个颜色特征差值表。图像对象空间位置发生变化, 其特征差值表也就不同。

1.3 基于纹理特征的检索

纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征, 它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化, 那么该物体就有纹理。

纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计, 主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上, 适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布, 如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。

1.4 基于知识的图像检索

基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合, 人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库, 针对一个图像需求, 搜索引擎依次调入每一幅图像的内容描述, 结合知识库中的相关知识, 以图像需求为目标进行推理, 如果需求目标得到满足, 则确定这幅图像符合检索要求。

2 基于内容的图像信息检索系统

目前, 基于内容的图像检索技术的研究取得了很大的突破, 较有影响力的有以下几个:

2.1 QBIC系统

QBIC (Query By Image Content) 是IBM公司于20世纪90年代研制的图像和动态影像检索系统, 其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发, 是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词 (它也提供关键词检索) , 只要输入以图像形式表达的检索要求, 即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等, 对大型图像和视频数据库进行查询。

2.2 Photobook系统

Photobook系统是由美国麻省理工学院 (MIT) 的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具, 图像在存储时按人脸、形状或纹理特性自动分类, 图像根据类别通过显著语义特征压缩编码。

2.3 Virage系统

Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似, Virage支持基于颜色、颜色布局、纹理和结构 (对象边界信息) 的可视化查询, 但Virage比QBIC更进一步, 它也支持由4个原子查询的任意组合, 用户可以根据他们自己的侧重调整4个原子查询的权重。

2.4 CORE系统

CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

2.5 Visual SEEK系统

由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统, 提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域, 这样的图像作为查询“日出”的草图, 使人们在Web上可以方便地搜索和检索图像和视频。

3 基于内容的图像检索体系结构

基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互, 以便用户能够方便地构造查询和改进检索结果, 用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上较相似的图像, 按相似度大小排列返回给用户, 即所谓的通过例子图像的检索 (Query By

Image Example) 。

基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:

3.1 图像的预处理

在特征抽象子模块里, 首先要进行图像的预处理, 包括图像格式的转换, 尺寸的统一, 图像的增强与去噪, 图像的边缘提取, 经过边缘提取获得图像的轮廓特征, 对其进行进一步轮廓清晰化处理等功能, 为图像的特征提取打下基础。

3.2 图像的目标标识

图像预处理后, 要进行图像的目标标识。目标标识为用户提供一种工具, 以全自动或半自动 (需要用户干预) 的方式标识图像中用户感兴趣的区域或目标对象, 以便针对目标进行特征提取并查询。当进行整体内容检索时, 利用全局特征, 这时不用目标标识功能。目标标识是可选的。

3.3 图像的特征提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取, 提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的, 即整幅图像, 也可以是针对某个目标的, 即图像中的子区域, 如人的面部特征或指纹特征等。

3.4 图像数据库

作为图像查询的后台基地, 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息, 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识, 有利于查询优化和快速匹配, 知识库中知识表达可以更换以适用各种不同的应用领域。

3.5 图像的查询接口

在基于内容检索中, 由于特征值为高维向量, 不具有直观性, 因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件, 可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外, 查询返回的结果需要浏览, 应在用户界面提供浏览功能。

3.6 图像的检索引擎

检索是利用特征之间的距离函数进行相似性匹配, 模仿人的认知过程, 近似得到数据库的认知排队, 存在一些不同的相似性测度算法, 检索引擎中包括一个较为有效可靠的相似性测度函数集。

3.7 图像的索引/过滤

索引是用来提供快速、有选择性地存取数据库的一种机制, 它相当于一种映射机制, 将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据, 过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征, 可以用R树来索引以加快检索速度。

基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段, 但基于内容的图像检索技术目前还存在许多有待发掘的内容, 因而, 基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。

摘要:图像检索是网络信息检索中的重要的组成部分, 而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念, 综述了基于内容的图像检索系统和相关技术。

关键词:网络信息检索,基于内容,图像检索技术

参考文献

[1]何惠芬.图书馆中基于内容的图像数据库检索技术[J].情报杂志, 2002 (7) .

农业信息检索 篇8

1、书目信息

主要通过各种书目型数据库获取, 书目型数据库可用于查明关于某一专题有哪些出版物以及如何获取等信息。书目型数据库主要有联合目录、在版图书书目和网上书店目录以及各类型图书馆公共检索目录。

1.1 联合目录

书目信息检索工具国外主要有联机计算机图书馆中心 (简称OCLC, ) , OCLC联机联合目录数据库Worldcat, 它是世界上最大的书目数据库, 可检索字段有:主题、著者、引文、分类号、语种、出版局、出版地等。国内比较著名的书目检索机构还有CALIS联合目录数据库 (http://162.102.138.230/opac) 和上海图书馆的西文文献联合目录数据库检索系统 (http://www.linet.sh.en/ejex/ex/wx.htm) 等

1.2 在版图书书目

国际上比较流行的在版书目有《在版书目》简称 (BIP) 、《全球在版图书书目》简称 (GBIP) 、《国际在版图书书目》简称 (IBIP) 和英国在版图书书目 (British Books in Print, 简称 (BBIP) 。

1.3 网上书店目录

网上书店最著名的是亚马逊网上书店, 其检索途径可以通过该网页相应窗口获取, 检索字段有著者、书名、出版社、关键词、语种、ISSN号等。国内有当当网上书店、中华读书网等, 其检索方法是按书名、作者、出版社、分类号、语种等不同的检索途径来进行检索。

1.4 各类型图书馆公共检索目录

各类型图书馆联机公共检索目录 (简称OPAC) , 用户检索某个图书馆的OPAC, 只需直接登陆到相应的图书馆网站, 进入“联机公共书目查询”或“馆藏书目数据库检索”等栏目即可实现某一专题的检索。例如:查询清华大学图书馆公共检索目录, 就可以登陆其 (http://www.lib.tsinghua.edu.cn/index.html) 。

2、期刊信息

期刊信息的检索工具有 (以中国为例) :

(1) 、清华同方CNKI的《中国期刊全文数据库 (CJFD) 》 (http://www.cnki.net) , 收录7400多种期刊, 2400多万篇, 浏览器是CAJ, AdrobReader。

(2) 、重庆维普资讯有限公司《中文科技期刊数据库》 (http://www.cqvip.com) , 浏览器是VIP, AdrobReader。

(3) 、北京万方数据公司的《数字化期刊全文数据库》 (http://www.wanfangdata.com.cn) , 浏览器是AdrobReader

(4) 、人大复印资料 (http://www.zlzx.org/) 收录人文社科类期刊论文, 分大类。

(5) 、中国知识资源总库-CNKI系列数据库 (http://caj.jllib.cn/kns50/) 浏览器:CAJ, PDF

3、学位、会议论文信息

这一类检索主要分为5大类:一、PQDD (美国博硕士论文数据库) :是世界著名的学位论文数据库, 收录有欧美1000余所大学涉及文、理、工、农、医等领域的博、硕士学位论文, 浏览器是Adobe Acrobat Reader;二、万方数据库资源系统 (http://hk.wanfangdata.com/) , 《中国学位论文全文数据库》和《中国学术会议论文全文数据库》是万方数据库资源系统的一个分支;三、中国知网 (CNKI) (http://www.cnki.net/index.htm) ;四、中国高等教育文献保障系统 (http://opac.calis.edu.cn/simpleSearch.do) ;五、中国重要会议论文全文数据库: (CPCD) China Proceedings of Conference Fulltext Database, 收录我国2000年以来国家二级以上学会、协会、高等院校等单位的论文集。

4、网页与新闻信息

主要是通过使用搜索引擎查找与该专题有关的信息和要闻。

搜索引擎 (search engine) 是运用特定的计算机程序收集互联网上的信息, 在对信息进行组织和处理后, 为用户提供检索服务的系统。搜索引擎大都提供分类查询, 用户输入关键词进行检索, 搜索引擎从索引数据库中找到匹配该关键词的网页并将检索结果显示与排列。

国外著名英文搜索引擎包括:1、Google http://www.google.com;2、Yahoo http://www.yahoo.com;3、Live http://www.live.com;4、SearchMash http://www.searchmash.com/。

国内著名搜索引擎网址有:1、百度http://www.baidu.com/;2、雅虎http://search.cn.yahoo.com/;3、Google http://www.google.cn/;4、搜狐搜索引擎http://www.sogou.com;5、新浪网http://www.iask.com/

参考文献

[1]赵惠芳:《学位论文信息的检索与获取》[J].现代情报, 2003, (09)

个人信息检索概述 篇9

随着计算机和信息技术的发展,个人电脑里存储的信息越来越庞大,即使是拥有良好整理习惯的人,也无法理清成百上千Gigabytes的数据资料,很可能忘记将一些数据和信息存放在何处。还有越来越多的人发现,自己整理了大量工作和学习资料,却很少查看资料中具体有哪些内容,当需要的时候,他希望能从这些资料找到合适的信息和数据,但是,因为信息量太庞大,他无法直接观察,并筛选出需要的资料。

个人数字信息检索技术应运而生。人们可以通过个人信息检索,在个人电脑里找到需要的信息与所需信息文件的准确位置。本文回顾了个人信息检索技术的历史发展、主要特点和问题,讨论了相关个人信息技术的研究,还对个人检索技术主要产品———桌面搜索工具进行了调研。并针对统一检索模型,提出了优化的方案。

1 简单介绍

1.1 历史与背景

个人电脑里存储的信息,有数据文件、文字文档、电子邮件、多媒体文件等类型,而随着计算机存储技术的发展,个人电脑的存储容量越来越大,人们需要对个人数据信息进行有效的检索,从大量的个人数据中找到需要的信息。

早期的文件系统,提供了文件搜索功能,通过文件名查找到文件和文件夹,也能通过查找文档中的关键词来查找文件。这样的搜索功能运行速度慢,而且只能搜索少量的文件。

后来多媒体信息文件,以及类似提供了元数据的文件出现了,要求文件搜索能够提供对元数据的搜索。这样进一步加剧了文件搜索的负担。

文件索引的建立,使得文件搜索速度得到提高。文件索引,包括了文件内容和元数据。在进行文件搜索的时候,是对索引进行的搜索,而不是对文件系统进行搜索。

数据信息日益庞大,也促使人们使用数据挖掘的方法从大量非组织的数据中查找相关的信息。个人信息管理系统的出现,利用数据库和索引为人们提供了管理个人信息的工具。

信息检索走过了从文件搜索,到Web搜索,到利用索引的桌面搜索的过程[10]。

1.2 个人信息检索的特点

个人信息检索的最大特点是,用户对他们所存储数据信息的细节和特点比较熟悉,因而能提供记忆信息,利用广泛和多变的上下文联系和线索来进行检索[4,5,6]。而Web搜索则通过关键字来简化和加速对大量网页信息的检索。这也是Web搜索和个人信息检索最大的不同之处。

用户可以通过关键字来检索个人信息,更多时候可以通过信息的property-value来过滤和查找有用的信息,这样的property-value称为元数据。用来检索的上下文联系和线索也可能与检索的信息并没有直接的联系,而人类记忆的特点就在于能使用并不直接相关的信息联系记忆,例如,人们记忆电话号码时可能并不记忆连续的数字,而是记忆拨号码的位置顺序。

个人信息检索与Web搜索另一个不同之处在于,个人信息包括了许多类型不同的文件、文档和信息,如Email、文档、多媒体信息(mp3、视频文件等),还有许多未公开文件格式的数据,比如超星阅读文件。个人信息的检索,需要将这些信息整合在一起。目前许多桌面搜索工具提供了扩展的接口或者接受plug-in,对未公开格式的文件进行搜索。

利用上下文联系和其他线索进行搜索,并且检索包括了许多不同类型的文件和信息,使得个人信息检索发展的趋势是将搜索和浏览整合到一个通用的用户界面接口上[5]。检索工具提供了灵活的界面为用户进行搜索和过滤,还提供灵活的检索结果视图,可以提供针对任意属性的排序,可以对检索的信息进行操作,如打开、复制、删除等操作,对媒体数据可以利用检索工具建立播放列表和媒体库。

1.3 桌面搜索

相对于个人信息管理系统(PIM),桌面搜索工具使用更为普遍,发展非常迅速。

桌面搜索主要搜索的是用户个人电脑上的信息内容,而不是搜索互联网。桌面搜索的内容包括了文本文档、声音视频等多媒体文件、邮件文档、Web浏览纪录等信息,同时桌面搜索工具往往也整合了互联网搜索功能。

桌面搜索的最大好处是相比操作系统的文件搜索功能,能快速地获取搜索结果。这往往得益于桌面搜索所采用的索引技术。

桌面搜索引起用户注意是由于两方面的原因[1]:非结构化和非标签的数据产品,使得用户需要通过搜索工具找到需要的信息;另一个原因是安全问题,IT业界还没有一个桌面搜索的标准,桌面搜索软件搜索了用户的个人信息,建立了索引,有的甚至在防火墙外建立索引的共享,这带来了信息安全上的问题。

桌面搜索实现的关键技术是实现索引数据库,建立索引的过程往往是在个人电脑处于空闲状态,或者处理任务负担并不严重的时候。在使用电池的状态下,电脑的许多任务暂停了,建立索引的过程也会停止。索引的内容包括:

(1)文件和文件目录;

(2)信息元数据,包括标题、作者、评论等等,多出现在mp3、pdf、jpeg等媒体数据上;

(3)支持的文档内容。

1.4 个人信息检索的主要挑战

(1)检索未公开格式数据文件内容当前个人信息检索工具已经可以检索包括文本文档、电子邮件、多媒体信息、网页缓存等多种文件和信息类型,但是,仍然有许多未公开的数据文件格式,不能对数据内容进行检索,需要规范统一提供检索的接口。

(2)索引的有效组织和快速性我们发现,对于个人信息的搜索与索引,需要耗费大量的系统资源与时间,所以往往在系统空闲时进行。另外,文件被删除后,索引更新时间过短,就会导致文件搜索结果错误。同样,如果索引更新不及时,新添加的文件也无法查询到。索引的快速建立,部分取决于索引模型有效与快速的组织。

(3)检索、浏览和操作相结合的用户界面三者结合的检索工具是未来个人信息检索的发展方向。用户界面提供灵活的交互式、可重复、具有筛选的检索,充分利用用户对信息的记忆和熟悉程度,可以对检索结果进行各属性的排序[4]。用户可以通过筛选,交互式地查询获得结果。

(4)安全性和隐私问题个人信息检索涉及个人数据,要采取措施对个人信息的安全性和隐私问题进行规范,确保搜索过程、索引信息与检索工具的安全。

2 相关研究与产品分析

2.1 相关研究

SIS(Stuff I’ve Seen)是微软开发的一个工具,用于将查看过的信息进行检索,达到重新利用之前看到信息的目的,图1显示的是SIS用户界面。它描述了SIS的框架和对SIS进行的实验评估,提出了未来的发展。SIS的系统架构可以简单分为:

(1)Gatherer,通过统一的接口访问不同的数据文件;

(2)Filter,将不同的格式数据解码为文字流;

(3)Tokenizer,文字流分解处理;

(4)Indexer,对数据进行索引;

(5)Retriever,提供查询功能搜索数据。

由此我们可以将个人数据检索过程归纳为三个部分:获取与处理源信息、建立索引过程、用户交互设置与检索。

文献[3]提出了将数据接口统一化的问题,用来将数据进行分类,他们利用RDF(Resource Description Framework)-XML模型描述数据的内容和关系,并使用在了Haystack中。

文献[4-6]中提出了个人信息检索需要在用户界面上把搜索和浏览进行整合,利用人们熟悉个人信息的特点,使用上下文联系和线索不仅对数据文件名称和内容进行检索,还对文件元数据和其他相关信息进行检索。针对用户自主记忆的特点,提供了tags,一种用户创建的层次化的元数据,并对tags也进行索引。这些概念实践在了Phlat项目中。

Phlat是使用C#开发的基于Windows Desktop Search的个人信息检索系统,实现了以上提到的tags和友好的用户检索界面,利用多层联系和线索进行筛选和检索,Phlat的用户界面如图2所示。

文献[8]中通过实验发现人们在查询过程中关注的文档相关信息和属性,用来优化搜索。并提出了几点建议:

(1)推荐查询属性:通过文字内容进行搜索,通过信息类型进行过滤/排序,通过预览信息外表来认可查询结果;

(2)提供属性的相似表达;

(3)提供属性细节的弹性表达;

(4)提供查询结果的可扩展性;

(5)提供文件内容的可视化;

(6)提供明确的文档间关系;

(7)提供文档的操作日志。

以上建议有利于优化个人信息的搜索。

文献[9]提出了一个i Me Mex数据模型(i DM),用于个人信息的管理。模型使用4元组表示一个Resource View,每个Resource View表示一个数据块,若干个Resource View建立图,以此建立索引结构。该模型能够表达非结构化、半结构化和结构化的文档格式。

本文在第3节提出方案建议,基于SIS的框架和i DM,吸收tags做法,从规范检索未公开格式数据文件内容和索引的组织模型上进行优化。

2.2 桌面搜索软件现状比较

作为用户,往往会关心桌面搜索的以下功能:

(1)管理,产品是否易于操作和维护;

(2)安全性,搜索的信息不被攻击而泄漏;

(3)隐私策略,软件本身操作不泄漏个人隐私;

(4)支持的文档类型;

(5)对外部存储介质的支持,如网络硬盘、邮件服务器;

(6)用户界面接口;

(7)垂直或水平搜索能力,水平搜索即广度搜索能力,能够搜索的文件和信息的类型多少;垂直搜索能力即搜索特定文件类型的能力;

(8)最大支持搜索容量。

桌面搜索的性能,主要从以下方面进行评估:

(1)爬行数据能力包括爬行的速度,衡量的测算是爬行文档数/小时;爬行的范围,能够分析的文件格式数量。

(2)建立索引能力包括建立索引的速度;每篇文章的索引大小、索引的效率、索引的有效性、索引更新时间,当文件删除后,索引需要多少时间进行更新;以及新文件的建立索引时间。

(3)搜索能力包括搜索速度,是查询复杂性条件和索引大小的函数;查询的表达式;搜索结果的相关性;搜索结果提供的反馈,搜索的召回率。

文献[7]对现有桌面搜索软件产品作了一次全面的评估和比较。目前比较流行的桌面搜索产品是Google Desktop和Windows Desktop Search。加上其他桌面搜索产品:Copernic Desktop Search,Yahoo!Desktop Search,ISYS:Desktop,以及Windows XP中集成的搜索功能:Windows Search Companion。使用CACM样本,包括3 204篇文章和64种查询,对各桌面搜索产品进行了实验。图3是建立索引时间的比较,图4是搜索时间的比较,图5是召回率的比较,图6显示了查询时间与样本大小的关系。建立索引往往是在系统空闲时间进行的,也包括了获取与处理信息的过程。搜索时间与召回率直接影响用户的使用和观感。

以上的结果表明了Google Desktop Search和Windows Desktop Search在桌面搜索领域占有市场的领导地位,也由于其在性能方面具有优势。这些对现有桌面搜索软件性能方面的评估,反映了桌面搜索产品被关注的主要问题,促进桌面搜索软件的进一步研究和发展。

3 统一数据接口模型

针对未公开文件格式的检索问题,本文提出的统一接口模型是:利用i DM的四元组结构,融入tags,表达个人信息,在这基础上进行索引;利用SIS的框架进行改进,提供一种通用的数据访问接口,使得个人信息检索系统可以检索各类未公开的数据格式。

3.1 个人信息的数据模型

借鉴i DM模型,我们设计的个人信息的数据模型也是一个四元组。如图7所示,个人信息块(PIB)四元组包括:

(1)Name,标识该块名称;

(2)Metadata,存储元数据信息,即数据文件的相关属性,s是元数据schema集合,v是值集合;

(3)Content,内容集合,具体包含了数据内容的描述;

(4)Group,是引用的PIB集合,可以表达子PIB集合。

Tags可以当作元数据信息存放在Metadata中,设置标志为Tags。

3.2 系统框架

在SIS系统框架的基础上,添加了Meta Reader和Meta Writer,用于对元数据的读写,写的功能主要是针对tags,使得用户可以在数据文件上附加tags信息。图8是本文所设计的个人信息接口结构。

Gatherer、Filter、Tokenizer与Meta Reader、Meta Writer组成Personal Information Interface(PII),可以由各未开放数据格式开发商进行开发,作为个人信息检索系统的插件(plug-in)。PII操作的数据是PIB,Indexer和Retriever对PIB进行处理,这样一来个人信息检索系统可以对各种未开放的数据格式进行检索。图9是我们所设计的个人信息搜索引擎框架。

4 结语

本文回顾了个人信息检索技术的发展,描述了个人检索技术的主要特点和面对的问题,讨论了个人信息检索的相关研究,以及对现有桌面搜索工具的调研。针对未公开文件格式的检索提出了统一接口模型:利用i DM模型,融入tags技术,在SIS系统框架的基础上发展统一的数据检索接口,使得个人信息检索系统可以对各种未公开格式数据进行检索。

参考文献

[1]Wikipedia.Desktop Search.http://en.wikipedia.org/wiki/Desktop-Search.

[2]Susan Dumais,Edward Cutrell,JJ Cadiz,et al.Stuff I’ve Seen.A Sys-tem for Personal Information Retrieval and Re-Use[C]//Proceedings of the26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval.New York:ACM Press,2003:7279.

[3]David R Karger,William Jones.Data Unification in Personal Informa-tion Management[J].Communications of the ACM,2006,49(1).

[4]Edward Cutrell,Susan T Dumais,Jaime Teevan.Searching to eliminate personal information management[J].Communication of the ACM,2006(1).

[5]Edward Cutrell,Daniel C Robbins,Susan T Dumais,et al.Fast,Flexi-ble Filtering with Phlat-Personal Search and Organization Made Easy[J].ACM,2006(4).

[6]Edward Cutrell,Susan T Dumais.exploring personal information[J].Communivations of the ACM,2006(4).

[7]Michael Lowe.Evaluation of desktop search applications.http://www.kalio.info/Desktop-Search-Comparison/.

[8]Tristan Blanc-Brude,Dominique L Scapin.What do People Recall a-bout their Documents-Implications for Desktop Search Tools.Interna-tional Conference on Intelligent User Interfaces,Proceedings of the 12th international conference on Intelligent user interfaces,2007:102111.

[9]Jens-Peter Dittrich,Marcos Antonio Vaz Salles.iDM:A Unified and Versatile Data Model for Personal Dataspace Management.Proceedings of the32nd international conference on Very large data bases,2006:367378.

上一篇:小儿贫血诊断下一篇:市场交易行为