检索系统(精选12篇)
检索系统 篇1
随着图书馆购买的电子资源越来越多, 提供给用户的检索入口也越来越多, 为了帮助用户用最简单的方式查找所有电子资源, 统一检索的方式应运而生。统一检索也称为联邦检索、跨库检索或一站式检索, 通过一个统一界面帮助用户在多个异构数据库中检索信息, 户的检索要求转化为不同数据源的检索表达式, 并发地检索本地的和广域网上的多个分布式异构数据源, 并对检索结果加以整合, 在经过去重和排序等操作后, 以统一的格式将结果呈现给用户。[1]
目前国内外已有不少跨库检索系统, 像艾利贝斯公司的metalib系统, 清华大学的同方异构统一检索平台 (USP) 等。One Search是南京乐致安信息技术有限公司开发的统一资源检索系统, 它包括书刊资源整合和电子文献整合两大模块。它支持所有中外文数据库的整合。2012年南京航空航天大学图书馆购入One Search统一检索系统, 主要是针对南京航空航天大学图书馆的电子资源进行跨库检索。整合了目前该图书馆购买的几乎所有中外文数据库。
影响统一检索平台质量的标准有很多, 主要包括资源整合功能、检索功能、检索结果处理、检索效率以及服务功能5大方面, 其中既包括一般检索系统通用的评价标准, 也包括统一检索平台特有的标准。[2]
1 One Search统一检索系统评价
1.1 资源整合功能
统一检索平台的最重要优势即在于其资源的丰富性、多样性, 涵盖资源的广度是非常重要的。此外, 检索平台及其网站对于资源的揭示以及资源获取的便利性也影响着用户的使用体验。
1.1.1 资源导航
分类导航, 由于统一检索平台中的资源来源非常广泛, 因此不同资源类型的分类导航对于用户熟悉了解资源有重要意义。One Search平台可以按常用数据库、全部数据库、按字母、按学科、按资源类型浏览数据库, 也可以通过检索框查找数据库。
资源揭示, 即是否对此平台包含的资源进行说明。One Search平台并未对资源进行描述说明, 因此对不熟悉数据库使用的用户来说比较费力。应对地址、文献类型、时间跨度、内容简介、覆盖范围、语种、出版商、检索注意事项等进行说明, 以便用户了解筛选。
对于同类资源也没有分类浏览, 也就是不能多层筛选数据库。对于同类资源应建立丰富、多样、准确的分类索引表, 方便用户在使用的过程中准确定位数据库资源。
1.1.2 资源整合
资源整合主要描述其资源范围。包括整合数据库的范围, 资源的更新速度, 是否与原数据库同步更新, 不同类型的资源整合程度如何, 以及是否有不同数据库引文间的相互揭示。
One Search平台目前整合的数据库有90个, 包括的学科有材料科学、机械、电子电气、计算机/信息科学、能源/动力工程、法律、经济、管理学、社会科学、语言/文学、航空航天、土木工程、数学、化学/化工、物理、光学等。资源更新与数据库同步, 无不同数据库引文间的相互揭示。
1.1.3 资源获取
主要是指查找到所需的资源后, 其获取方式是否便利、多样;获取资源的链接是否便利可用, 有没有失效的情况;此外, 可否直接链接至全文获取也是比较重要的评价标准。
通过One Search查到所需的文献后, 有的资源下方有“获取全文”的链接, 而大多数都是没有“获取全文”链接, 因此对用户来说需要花费更多的时间获取资源。对于可以获取全文的资源, 它提供了两种获取全文的方式, 一种是点击题名可链接至源数据库, 下载全文。另一种是文章后面的“获取全文”链接, 有的链接到的是数据库的检索页面, 需重新输入检索词检索获取文献, 不能直接链接全文获取, 有的链接可直接链接至全文获取。
1.2 检索功能
检索功能直接影响信息检索的查全率、查准率, 检索的灵活性、方便性及检索速度, 是评价资源检索平台的重要指标。[3]
1.2.1 检索方式
One Search平台既可以进行简单检索、高级检索还可以在返回结果之内或所有内容之内进行二次检索。高级检索可以对时间进行限定检索。检索时勾选的数据库会在“本次检索的范围”中显示出来, 要重新选择可以全部清空, 去除哪个数据库可将该数据库前的√勾选掉。
One Search平台的分类浏览功能没有按全文/文摘、中文/外文数据库浏览检索, 分类浏览查找不详尽。
1.2.2 检索字段
此平台的简单检索和高级检索都提供篇名、关键词、主题词、摘要、全文和任意等检索字段的检索, 不提供来源、出版商等检索字段。高级检索最多可联合3个字段, 同时可限定时间检索。没有对专业的数据库进行专门的检索字段设置, 比如没有针对会议文献的会议名称和地点的检索, 也没有针对标准文献的标准号的检索。
1.2.3 检索技术
此平台提供AND、OR、NOT布尔逻辑检索, 不支持扩检缩检与精确检索技术, 不支持相关检索和差异化检索, 这可能与其整合平台的定位以及检索技术有关。既定位为统一资源检索平台, 为了保持界面的简洁与使用的简易性, 牺牲对特定数据库的检索是情有可原的。同时, 在统一检索平台下, 对单个数据库增加检索字段, 也需要较为复杂的实现技术与界面。
在实现二次检索功能的相关检索方面, 此平台只提供了一个检索框, 而对检索字段无要求, 这就不能获取同类资源。
1.2.4 检索界面
此平台的检索界面无检索用时显示, 初级与高级检索页面无需切换, 检索结果和检索页面切换顺利, 没有提供搜索词修正提醒。在显眼的地方提供了检索帮助。
1.3 检索结果处理
检索结果处理是指对初次检索结果进行调整、细化, 最终获得所需资源的过程。
此平台不提供检索提问修改, 没有修改建议, 提供在结果中进行二次检索。不支持二次分类检索。检索结果显示的是基本信息, 不提供详细信息的显示。检索结果无去重功能, 采用先返回、先显示的模式, 减少等待时间, 左边的聚类栏根据返回的顺序和类型动态的显示所有检索资源库的结果情况。对于检索结果的输出, 只能单个浏览, 不提供结果批量输出, 即对搜索结果不能标记、筛选、保存。
1.4 检索效率
此平台检索结果无用时显示, 检索时, 等待比较久, 选择的数据库越多越费时。没有设置数据库的全选框, 选择数据库只能逐个勾选。检索时有时会有连接超时的现象, 要重新检索, 用时很久。在此平台上利用题名检索分别含有“computer”、“information”的文献, 选择的数据库有SCI、Elsevier、Ei、ACM, 然后再分别在这4个数据库检索题名中含有“computer”和“information”的文献 (见表1) 。
检索截止日期2013年1月9日
从检索结果看, One Search平台检索SCI数据库不全, 其中题名中含有computer的此平台只检索到33篇, 就是显示了SCI单库检索结果的前33篇文章, 题名中含有information的此平台只检索到60篇, 就是显示了SCI单库检索结果的前60篇文章。并且点击此平台显示的检索SCI的结果的某篇文章的题名链接不到文献详细信息, 出现的是“无效的查询。请检查时间跨度是否在选择的数据库的覆盖范围内”。其他三个库Elsevier、Ei、ACM查准率为100%。
1.5 服务功能
此平台没有用户页面定制功能以及个性化服务, 如不提供个人帐户、保存检索策略、保存电子资源等等, 以方便用户随时浏览。也不提供原文传递、参考咨询、馆际互借等其他服务方式。
2 结语
在One Search整合系统统一检索平台的评价中发现: (1) 对数据库的各种查找方式方便了数据库的查询, 减少了选择数据库的困扰, 但是对数据库的分类还不够多样, 也不能在不同的资源类型中进行组配检索。 (2) 帮助文件实用性不强, 更像是对功能的简单介绍, 没有突出特点和有针对性的回答问题。 (3) 提供的电子资源特别丰富, 但是不是所有资源都是使用者所需, 也没有设置快捷的方式, 所以难免会给使用者造成困扰;而且检索数量太大, 相关性不强的信息会影响使用。 (4) 实现了中文和英文检索, 但是跨语言检索功能很薄弱。 (5) 系统应该提供错误修正功能, 比如用户输入出现错误。Google界面就会提示“您是不是要找”就会因为这样能更好的避免检索时间的无端浪费, 从而提高检索效率。 (6) 系统应加强与其他服务方式比如原文传递、参考咨询等进行有效集成, 以满足用户多样、动态的信息需求。 (7) 对于使用者来说可能不很熟悉自己所查资料的专业数据库, 因此选择的很多, 这就降低了检索效率。 (8) 除SCI外, 查准率较高, 但检索用时久, 检索结果处理不人性化。 (9) 检索结果不提供多种形式的结果保存, 如存盘、打印、记住检索式等;对于结果输出, 不可利用E-mail发送检索结果, 或直接输出到文献信息管理软件。
参考文献
[1]李广建, 张智雄.国外跨库检索系统研究项目及其特点[J].情报理论与实践, 2004, (4) :444-447.
[2]邓晓音.统一检索平台评价标准及比较研究——以CALIS“外文期刊网”及交大图书馆“思源探索”检索平台为例[J].情报科学, 2012, 30 (12) :1844-1848+1953.
[3]罗春荣.网络环境下数据库检索平台的评价[J].图书馆理论与实践, 2004, (4) :1-4.
检索系统 篇2
自从万维网出现以来,方兴未艾的Internet在图书馆的应用,使图书馆的书目检索服务范围得到了最广泛的深人和延伸。目前,笔者就国内大学图书馆使用较为普遍的部分自动化管理集成系统(南京大学图书馆书目检索系统、北京邮电大学图书馆书目检索系统和深圳大学图书馆书目检索系统)在Web环境下的书目检索功能、书目检索途经和书目检索条件进行考察和比较分析。
1图书馆网站调查
1.1南京大学图书馆书目检索系统
该系统使用的是江苏汇文软件有限公司的汇文系统,从图书馆首页—资源导航―馆藏纸本目录―馆藏书目查询。
1.1.1书目检索功能
该系统提供简单检索、全文检索、多字段检索(高级检索)和热门检索4项功能。
1.1.2书目检索途径
(1)简单检索界面以下拉列表方式完成单项选择,提供有题名、责任者、主题词、ISBN/ISSN、订购号、分类号、索书号、出版社、丛书名、题名拼音和责任者拼音共11个检索途经。
(2)全文检索界面提供有任意词、题名、责任者、主题词、索书号、出版社和丛书名7个检索途经,使用“并且”“或者”“不含”进行组配。
(3)多字段检索界面较为复杂,分左右两列设置了题名、责任者、丛书名、主题词、出版社、ISBN/ISSN,索书号和起始年代8项检索,这8个检索途径既可以进行单项检索,也可以进行自由组配。
(4)热门检索界面使用动态的效果提供热门检索词,如人类学、边城、生命等,可以查看30天内的热门词。
1.1.3书目检索条件
简单检索:文献类型,所有书刊、中文图书、西文图书、中文期刊和西文期刊5种。语种无。馆藏地点无。出版时间无。
高级检索(多字段检索)文献类型则包括所有类型、类型不详、规范文档、中文图书、西文图书、日文图书、俄文图书、中文期刊、西文期刊、日文期刊、俄文期刊、电子读物、中文古籍、非中文古籍、乐谱手稿、印刷乐谱、计算机文档、测绘资料、非音乐录音、音乐录音、录像资料、电影胶片、投影幻灯、缩微制品、手稿、书法绘画、金石拓片、三维制品、混合型资料、电子图书、光盘图书资料、光盘期刊资料、刘法民国书共计32种选择;语言种类(语种类别)包括所有语种、中文、英语、日文、俄语、德语、法语等18种选择;每页显示20、30、50、100等4种;显示方式(结果显示)包括详细显示和表格显示2种;排序方式有入藏日期、题名、责任者、索书号、出版社和出版日期6种;馆藏地点有鼓楼校区、院系分馆和仙林校区3种。
1.2北京邮电大学图书馆书目检索系统
该系统采用的是北邮电信科技股份有限公司的北邮系统,从图书馆首页—ft息资源藏书刊检索人口i共检索。
1.2.1书目检索功能
该系统有简单检索、高级检索、分类浏览和全文检索4种功能。
1.2.2书目检索途经
简单查询界面设置了所有题名、出版社、索取号、作者、标准号、主题词、图书条码、分类号和题名缩拼9个检索途经,以下拉列表方式供单项选择。
高级检索界面自上而下列出了题名、作者、出版社、分类号、主题词和ISBN等6个检索途经,以前向匹配、模糊匹配和精确匹配3种形式进行组配。
分类浏览界面的类目列表按中图法列出22个大类,按类检索。
全文检索界面列出了任意词、题名、作任者、出版年、出版社、标准号、主题词和摘要8个检索途经。
1.2.3书目检索条件
简单检索文献类型(资料类型):中文图书、外文图书、日文图书、中文连续出版物、西文连续出版物、中文声像、西文声像、中文古籍和全部共9种;典藏地点(分馆名称)有北京邮电大学图书馆1种;
高级检索文献类型(资料类型):所有书刊、中文图书、西文图书、日文图书、俄文图书、民族图书、中文期刊、西文期刊,日文期刊、俄文期刊、中文报纸、西文报纸、日文报纸、俄文报纸和其他报纸15种„语种无。馆藏地点1种。出版时间无。
1.3深圳大学图书馆书目检索系统
该系统采用的是深圳大学图书馆的深大系统,从图书馆首页—检索—本校馆藏资料—馆藏书目检索。
1.3.1书目检索功能
该系统有简单检索(又称:快速检索)、高级检索、智能检索(主题词智能检索)和热门检索4种。
1.3.2书目检索途经
简单检索界面提供任意字段关键词、题名前方一致、题名内关键词、著者前方一致、著者内关键词、内容主题词、出版者名称、中图法分类号、ISBN、ISSN和索取号等11种。
高级检索是馆藏书目组配检索,检索点全为前方一致,设置了题名、责任者、主题词、索取号、出版社、分类号、ISBN和ISSN等8种检索途经。
智能检索即主题词智能检索,提供同义词扩展检索、分类号扩展检索、上位词扩展检索、下位同扩展检索和相关词扩展检索等5种检索途经。
热fj检索是任意同热门检索,提供1个月以内的热门检索词。
1.3.3书目检索条件
简单检索:提供任意字段关键词、题名前方一致、题名内关键词、著者前方一致、著者内关键词、内容主题词、出版者名称、中图法分类号、1SBN/ISSN、索取号10种检索;语言种类有3种,中文、英文、日本语;有检索说明。
高级检索:文献类型有普通图书、连续出版物、非书资料、测绘资料、档案、乐谱、计算机文档和古籍善本8种;语言种类(文种)有中文、西文、日文、俄文和其他5种;典藏地点有北馆、学院资料室、南馆、借调给图书馆之城书库和CIBTC等5种;每页显示记录数20、30、50等3种;排序方式以题名、出版社、出版日期、著者、主题词、分类号和进馆曰期7种方式进行升序排列和降序排列;显示方式有详细显7K、表格显不2种。
2对比研究
表1说明,从检索功能看南京大学系统的各项检索功能最为详细,是其他系统所没有的;北京邮电大学系统的检索功能最多,囊括了简单检索、高级检索、全文检索、分类浏览及模糊检索5种功能;深圳大学系统的智能检索最为出色,不但详细介绍检索方法,还提供很多检索知识和技巧。
从表2来看,题名、作者、主题词、分类这4项是各个系统必不可少的检索途经,其次是出版社、ISSN/1SBN号、索取号、丛书名作为检索途经的频率也比较高。南京大学系统在分类方面独具特色,专设了分类主题查询功能,分类主题查询使用起来要比分类号查询方便得多;北京邮电大学系统的特色则是支持题名缩拼功能,凡有汉字输人的检索入口均可使用缩拼进行检索;深圳大学系统的特色则是任意词检索,即在全文范围内进行检索,且无任何检索限定条件。
图书检索系统体系架构研究 篇3
关键词:图书馆资源;信息检索;系统架构
中图分类号:TH166
图书馆,是搜集、整理、收藏图书资料以供人阅览、参考的机构,图书馆中收藏了大量的图书资料。以北京图书馆为例:到2011年底,总、分馆文献资源累积量约1100余万册(件)。其中纸质藏书800余万册,以及近年来大量引进和自建的国内外数字资源,包括各类数据库、电子期刊、电子图书和多媒体资源约300余万册(件)。面对如此浩瀚的信息知识库,用户如何快速定位自己需要的信息是图书馆在信息建设时必须要解决的问题。
图书馆最早的信息检索方式是采用目录式的方式,即将图书进行分类,不同类别的图书设置不同编码形式(如TP391),用户首先需要明确检索信息的类别信息,再根据类别进行逐次筛选,这种方式在图书馆刚刚兴起时是一种比较好的方式。如今,图书馆中各种信息资源已经呈现出非常明显的增长趋势,基于图书的信息检索系统也因此走上历史舞台,本文结合图书馆中信息资源的特点,以计算机的角度对图书信息检索系统进行剖析,阐述其中的技术细节。
1 图书信息检索系统评价指标
信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是在较少消耗的情况下尽快、全面返回准确的结果。根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。本文主要研究信息检索系统的质量标准,质量标准主要通过查全率与查准率进行评价。
查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。
查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
查全率=[检出相关文献量/文献库内相关文献总量]×100% (1)
查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=[检出相关文献量/检出文献总量]×100% (2)
查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。
影响查全率的因素:从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
影响查准率的因素:主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。
2 信息检索系统体系架构
一个完整的图书信息检索系统应当包括图书信息的预处理,图书信息的入库、用户检索接口、资源匹配、资源排序等部分,本文主要就以下几个部分进行阐述。
2.1 索引子系统
索引子系统主要完成的工作是对图书信息的入库工作,图书馆中信息资源具有完整的资源名,然而用户在搜索时是通过输入关键字来发现类似的资源,因此需要对信息资源进行预处理。主要通过对信息资源名构建倒排索引,通过建立关键词和信息资源名之间的邻接矩阵,如此则完成信息资源和关键词之间的关联性,用户可以通过关键词发现自身需要的相关联文档。
2.2 查询子系统
查询子系统主要提供给用户查询接口,用户通过输入检索关键词,查询子系统需要对用户的检索关键词进行分析,可能用户输入的关键词并非规范的形式,可能还存在着错误信息,或者是以字母形式输入,或者是以英文或者其它方式输入,查询子系统需要对输入的检索关键词进行消歧工作。
2.3 资源匹配子系统
资源匹配子系统主要根据用户的检索关键词在图书馆数据库资源中进行资源匹配,寻找和用户相关联的资源,资源匹配的方式有很多种,诸如采用完全匹配方式(即用户输入的关键词和数据库中资源完成匹配)、部分匹配方式(用户输入的关键词中部分信息和数据库中信息匹配成功)、语义匹配方式(用户输入的关键词与数据库中资源存在语义上的关联性)。
2.4 资源排序子系统
资源排序子系统主要根据用户的检索关键词对匹配完成的资源信息进行排序,按照资源的重要性和用户检索的相关联程度进行梯度排序,排序的原则有多种方式,诸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多种方式,有些排序子系统根据现今流行的搜索引擎页面排序算法进行改进,并将改进的排序算法移植于图书信息检索系统中。
3 结束语
本文根据图书馆资源丰富的特点,从计算机的角度对图书馆资源进行分析,梳理图书检索系统的体系架构已经对检索系统进行评价时采用的评价指标。图书检索系统可以归纳为索引子系统、检索子系统、资源匹配子系统和资源子系统四大部分,每一个子系统在整个系统中都有着不可忽视的作用,各个子系统之间统筹合作完成图书信息的检索工作。
参考文献:
[1]杨东波,廖祥文.构建一个大规模?可扩展的数字图书馆检索系统架构[J].现代图书情报技术,2006(08):24-30.
[2]肖玉华.图书馆图书检索系统建设的研究[J].科技资讯,2013(36):252.
[3]柳萍,严玮.构筑“零维护”的图书馆检索系统[J].图书馆学刊,2005(02):118-120.
作者简介:郐媛媛(1983.10-),女,辽宁沈阳人,讲师,研究方向:图书馆管理。
信息检索系统比较研究 篇4
1 信息检索可视化系统的优点及其类型
1.1 可视化信息检索的优点
1) 信息检索的可视化研究就是将文献信息、用户的提问在进行检索过程的同时, 将结果及可视化检索过程中的内部语义关系的转换等展示在一个低维的可视化空间中。可以使用户看到在传统信息检索过程中看不见的图形信息, 即向用户展现各种信息之间的语义关系, 使提问和检索结果以及检索过程中各信息之间的内部语义关系可见, 使得信息能够得到更有效的反馈。
2) 可视化信息检索使得检索结果清晰可见, 不仅让用户对其检索得到的文献分布一目了然, 还有助于用户浏览所检索的文献并进行文献信息分析;另外, 可视化的信息检索使得用户能够了解文献间隐含的语义关系, 从而更好地判断文献间的相关性[2]。
3) 可视化信息检索不仅可以用二维或三维图像显示结果, 还可以把人的视觉及认知过程融入检索过程、算法分析和设计系统当中, 因而减少了用于了解检索结果的聚类或语义分析的时间[2]。
4) 可视化信息检索系统可以通过改变文献的显示方式、改善人机交互功能来提高用户对文献间语义关系的理解, 实现个性化处理, 有助于不同语言背景的用户使用, 使得信息检索更加灵活简洁。
1.2 信息检索可视化系统的类型
1) 基于引文的信息检索可视化系统[3]。从检索系统的功能来看, 对于这种基于引文的信息检索可视化系统的评价, 除了要依据其理论基础外, 还应参照基于引文的检索系统的评价标准以及对可视化系统的评价标准。因该种可视化检索系统的主要特征是运用可视化技术进行知识域分析, 因此在参照信息可视化系统的评价标准时, 还分析检索过程中系统的交互性、可视化的显示形式、可视化的映射方法、用户界面等。
2) 基于知识模型的文本信息检索可视化系统[4]。该系统是通过信息、知识资源的元数据来进行可视化检索的。各种信息检索可视化系统都需确定两个方面的内容, 即系统的可视化对象以及可视化表现形式的内容。合适的可视化对象, 是指文档、网站结点、超链接结构等, 而可视化表现形式是指如几何图形、图表形式及自然物质实物形式等[5]。
2 对比分析基于引文和基于知识模型的信息检索可视化系统
笔者综合分析了基于引文的信息检索可视化系统和基于知识模型的信息检索可视化系统, 主要从系统设计、用户使用等方面着手对这两种系统进行了对比分析, 详细内容见表1。
从表1的对比分析中, 不难看出其各自的优势之处。由于这两类系统还处于原型研究阶段, 均缺少个性化服务及特色服务, 从界面到内容的设计还不够人性化, 帮助功能不够完善, 还需要加强与其他信息检索技术、方式及系统的集成, 以方便用户的最终使用。可以在现有的信息检索系统中通过对检索技术的改进和完善, 以缩短检索时间、增强系统和用户的交互性来满足用户科学研究、交流互动的需求, 并以知识结构图的形式将浏览或检索结果呈现给用户。
3 结论
在信息检索中, 跨语言信息检索终将成为现实, 随着经济全球化的开启, 科技文化早已不能各自为政, 而语言是实现全球化的最大障碍之一, 将可视化技术应用到跨语言信息检索中, 开发出跨语言的信息检索可视化系统将成为以后信息检索可视化系统的主要发展方向, 更好地解决用户在利用信息中的语言障碍问题。
摘要:本文对目前较为流行的信息检索可视化系统进行了简要的比较分析。
关键词:信息检索,可视化,对比分析
参考文献
[1]张进, 袁泽林 (翻译、整理) , 陆伟 (翻译、整理) .信息检索可视化的主流路径[J].图书情报知识, 2008 (5) :24-27.
[2]么新英.传统信息检索与可视化信息检索之比较[J].科技情报开发与经济, 2003, 13 (3) :1-2.
[3]孙巍, 张学福.基于引文的信息检索可视化相关系统比较分析[J].情报理论与实践, 2008 (4) :598-601.
[4]张学福.基于知识模型的文本信息检索可视化研究[J].中国图书馆学报, 2006 (5) :52-56.
检索系统 篇5
1 引 言
语义检索是信息检索的发展趋势, 早在 20 世纪80 年代, 语义检索的思想就已经出现, 并且信息检索领域已经开展了相关研究工作。企业级的语义搜索引擎近几年已经开始应用, 例如 Kosmix 和 等, 特别等让搜索变得更智慧。百度框计算搜狗知立方代表了国内搜索引擎在该领域的成功实践。在文献信息检索领域,作为语义检索系统的典型代表, 做出了开创性的工作, 一些面向科技文献的语义检索系统不断出现。
传统基于关键词的检索系统具有一定的局限性,如无法解决词汇的模糊性问题, 分散在多个文档中的相关信息不容易被发现等。语义检索基于含义而不是通过关键词匹配寻找用户查询的答案, 用以实现实体检索、概念检索、分类检索、关系查询等知识检索方式来满足用户的多种信息需求, 使得搜索智能化, 根据用户的意图给出用户想要的结果。目前, 语义检索主要有两个方向: 语义网资源的检索和对于传统检索系统的语义扩展。面向科技文献的语义检索研究主要偏向于后者, 利用语义技术改进传统文献检索系统,利用叙词表、主题词表、本体等知识组织体系实现语义丰富化, 采用语义标注、自动抽取、关系发现的文本挖掘技术从非结构化的文本中发现细粒度的数据,使得检索系统更智能化。本文根据文本语义处理程度对科技文献语义检索系统进行分类, 提出科技文献语义检索系统的基本框架, 并探讨科技文献语义检索系统的功能特性。
检索系统 篇6
关键词:INOPAC系统 文献检索 应用研究
在数字化和网络化的今天,图书馆的职能模式已经从传统的“藏书”向“信息中心”方向转变,联机公共检索目录在图书馆的地位显得越来越重要,它的好坏在某种意义上决定了一个图书馆自动化管理系统的成功与否,图书馆自动化管理水平又是衡量图书馆整体素质的一个重要标准。INOPAC系统是由美国开发的一个图书馆计算机集成管理系统,它通过对文献信息的检索,可以快速了解馆内各类图书的使用情况,更为合理地利用馆藏,提高图书馆的服务质量和管理质量。
一、INOPAC系统的功能
INOPAC系统具有较深层次的OPAC管理和检索功能,使用快捷方便,功能齐全。
1.读者辅助功能
检索书目记录信息、馆藏状态(借还期、是否在馆、能否预约、馆藏地)、自助续借、流通记录(个人借阅历史、违章超期记录)。
2.馆藏辅助功能
图书馆信息(新书通报、特色资源介绍、特色服务介绍、讲座展览等信息)以及其他图书馆资源共享数据库等。
3.扩大和缩小查询范围功能
读者可用缩小查询范围如限定出版时间、文献类型、馆藏地等对新书、新期刊、新光盘进行检索;还可用扩大查询范围功能对同类的新书、新期刊、新光盘进行检索。
4.查询排序功能
以题名检索以题名顺序排序,以作者检索以作者顺序排序。
5.远程上网查询功能
可访问相同系统的图书馆文献资料以至国外图书馆文献资料并可进行中英文切换。这些限定检索项的使用,让读者可以方便地查询到自己所需要的资料信息。
二、INOPAC系统分析
(一)功能研究
1.提供题名
在检索图书馆文献时,读者在使用题名检索时,还可以查询到相关的图书文献。
2.提供主题词
在检索图书馆文献时,读者在使用主题词检索时,查询时应该提供多个主题词,可提高检索效率和检准率;还可以在查询目录时,输入相关的主题词,则相关的主题词等方面的文献资料也会同时检索出来。如我们输入主题词“科学”,则相关的主题词“环境科学”“农业科学”“社会科学”等方面的文献也会检索出来,提高了查全率,给读者更多的选择空间。
3.提供分类号
在检索图书馆文献时,读者在使用分类号检索时,方便了不会用中文输入法的读者,可提高检索准确率。INOPAC系统软件在检索时,可提高不同读者的利用率。
(二)技术推广与研究
为了让读者能掌握更多的图书馆信息,应该在图书馆配备相关的检索区域设施,便于对INOPAC系统软件的推广。
1.设置咨询处
在图书馆大厅内设置咨询台,对读者提出的检索问题进行热情耐心的解答。
2.制作检索培训光盘
在图书馆大厅的显示屏里循环播放检索步骤,对集体读者进行辅导。
三、INOPAC系统与汇文系统对比研究
1.INOPAC系统与汇文系统的功能分析
INOPAC图书管理系统是从美国引进的,技术较先进;汇文系统是江苏汇文软件有限公司开发的,江苏省高校合作开发的新一代图书馆自动化管理系统。两者都采用了Client/Server模式架构和Browser/Server分布式架构,可在网上续借,支持WEB方式流通、图书信息及日志查询、个人借阅情况查询、打印读者借还单、书刊荐购、读者定制、预约、挂失,支持主、分馆及多校区的流通检索管理,系统实用性强、运行稳定、系统可靠、系统灵活、系统经济。汇文系统它为未来软件系统的维护、完善、升级及可持续发展提供了保证。INOPAC图书管理系统是一个由几十个模块的子模块组成的集成系统,模块结构高度集成,可将信息快速传递到其他模块,形成资源共享,中外文数据共存于同一数据库内,为各语种检索提供了可能。它避免了大量低水平的重复劳动,又使数据库具有了一定的通用性和兼容性,扩展了信息共享的范围,功能齐全,开放性好,服务意识强,可与读者互动,引进该系统也是对国外管理理念和管理方法的借鉴和学习,这也是国外系统的最大优势。
2.INOPAC系统的不足
美国INOPAC图书管理软件因为是基于其本国用户开发的,在工作流程和操作上与中国情况不太一致,无法提供接口开发需要的技术支持,因此此类系统还没有实现过紧耦合的连接,只能实现松耦合的接口方式,存在重复操作、自动生成功能差的问题,在数据的标准化、规范化方面还存在一定的问题。
3.汇文系统的不足
汇文图书管理系统与国内其他图书馆管理系统相比较为成熟、稳定,具有较好的适应性,适合大中型图书馆使用。但与国外系统相比,各个模块功能不全面。如汇文系统在流通借还方面不方便,办完借阅手续要按F1,办完还书手续则按F2,手续比较麻烦,会出现实际借还图书数据与计算机中数据不符,数据库中有记录,但实际已经没有此书,出现漏借漏还、错借错还的现象。在控制读者借阅权限方面不够严密,在信息存储、个性化和自动化服务方面有待进一步提高。
对这两个系统进行比较,不是为了证明系统孰优孰劣,而是通过分析两者在功能和应用上的异同,深化对INOPAC系统的认识。发现INOPAC系统在哪些方面优化了读者服务功能,方便了工作人员的操作。据此可了解图书馆自动化系统的发展趋势。INOPAC系统比汇文系统增加了许多功能。但二者还需并存相当长的时间,以发挥各自的作用。
四、INOPAC系统的应用
INOPAC系统是基于UNLX的主导新产品,它主要运行在MIP系列机型和UNISYS640两种机型上,有很强的可靠性、扩展性、安全性。浙江图书馆根据管理功能的需求,结合计算机系统总体性能要求高、功能先进的特点,采用美国的INOPAC图书管理软件,其中中文数据按CNMARC格式,西文数据按USMARC格式,整个流程运行顺利流畅,具有很强的处理能力和联网能力。
图书检索既可针对图书,又可以针对读者、现刊、过刊常用项进行检索,主要包括图书借阅、过刊借阅、现刊借阅等,方便讀者借阅信息查询,同时将图书馆从本馆延伸到各地,是展示图书馆形象、为读者服务的一个绿色窗口。其中包括图书检索、读者检索、现刊检索、过刊检索。
INOPAC系统除提供传统的作者、题名、主题等检索途径之外,还提供包括关键词、记录号、索书号、标准号、刊号、文献号等众多检索项。它可供读者在web浏览器中详细检索、查寻所需的馆藏文献、复本量、借阅日期、还书日期、个人现借阅情况,以及读者预约图书的预约日期、保留天数等信息。为了读者检索服务的畅通性,该系统还具有服务的不可中断性。为了防止光缆通信故障造成的业务中断,它选择路由器加专线方式,以备急需,及时满足读者需求,这对于图书馆的科学管理具有极其重要的意义,是图书馆了解读者需求与馆藏利用状况、提高馆藏书质量和服务水平的有效方法和途径,可以更为合理地调整和分配各项工作,提高图书馆员的工作效率。
五、结束语
信息网络技术的飞速发展,要求我们必须加强信息化设施的建设,INOPAC系统方便易用,系统安全性大为增强,为读者提供更优质的服务,它是评价图书馆管理系统软件优劣的一个重要依据,也是读者利用图书馆最直接的工具,它成为读者与图书馆的桥梁和纽带,为读者提供不受时空限制的服务管道,能及时查询图书馆最新信息和馆藏服务内容。加强馆藏文献的数字化建设,建立读者共建共享系统,让读者可以悠游于纸本与虚拟的丰富典藏之间,恣意地去撷取无限的知识宝藏,从而真正实现我国图书馆自动化系统的技术跨越,与国际市场接轨。
参考文献:
[1]馆藏信息资源数字化建设的实践与思索.[EB/OL].http://www.51ks.com,2007-3-18.
[2]李嘉琳.中美图书馆自动化发展比较研究[J].图书情报工作,1991,(1)
[3]程小澜,泮杏梅.网络环境下图书情报机构自动化系统的发展对策[J].中国信息导报,1997,(10).
※本文系江西省科学技术厅科技成果推广计划项目研究成果之一,项目编号:2010ZDC00300。
哼唱检索系统仿真实验研究 篇7
本文选取了哼唱检索中的五种特殊情况进行了实验, 并对检索结果进行了比对:
1) 哼唱录入同一首歌曲的不同段落, 对其分别进行检索;
2) 分别对节奏快、背景音乐大及节奏快、背景音乐小的歌曲进行检索;
3) 分别对同一歌曲、不同存储格式的版本进行检索;
4) 分别对同一歌曲、不同人演唱的版本进行检索;
5) 分别用不同的哼唱方式, 对同一首歌曲进行检索。
1 临时乐曲库
本文在进行哼唱检索实验时, 受环境 (硬件配置) 的限制, 组建了临时乐曲库。库中存储的文件以歌名命名, 文件中存储的是其相应的音高序列值。在进行哼唱检索实验时, 直接调用库中的信息即可, 这样就省去了对库中音频文件进行特征提取的步骤, 大大减少了特征匹配的时间。表1为两种情况下系统检索所需时间的比对:
2 哼唱检索系统
本文所用的检索系统如图1所示。具体检索过程如下:
1) 用户端进行哼唱录入;2) 对用户端输入的音频文件进行处理, 其中步骤包括滤波去噪[4]、加窗分帧、基音提取[5,6]、音符划分、旋律编码, 得出哼唱录入音频文件的音高序列值;3) 步骤二中得出的音高序列值与乐库中的存储信息进行匹配运算, 把得出的结果 (相似值) 记录到列表1中;4) 检测列表1中的相似值个数是否为N (乐曲库内存储的文件个数) ;5) 列表1中存储的信息按要求排序。首先按匹配相似度值由高到低排序, 其次按歌曲名称的字母顺序排序;6) 输出列表2, 检索结束。
3 实验及结果
本文进行哼唱检索实验的环境为:Intel Pentium Dual T23301.60GH处理器、2GB内存。由五名非专业的演唱人士在比较安静的房间内, 用笔记本电脑及麦克进行哼唱录入检索。本次实验的乐曲库内存有28个信息文件。表2为上述五个实验的结果比对:
实验一的比对结果表明, 本文采用的检索系统与哼唱录入歌曲的哪个段落无关, 这主要是因为本文的哼唱检索系统中采取的是滑动式匹配, 从头匹配到尾。
实验二的比对结果表明, 本文采用的检索系统不适合检索节奏快、背景音乐大的歌曲;背景音乐小的虽然能检索到, 但其效果不好。
实验三的比对结果表明, WAV格式的检索效果最好, 其次是MP3格式, 最后是WMA格式。但按理论上来说, WAV格式的检索效果应该最好, WMA格式的检索效果是最差的。
这主要是因为, 本次试验中存储的WMA格式音乐都是钢琴演奏曲, 而存储的其他两个格式的音频文件都是带有人声演唱的, 因此本次实验中的MP3格式的检索效果比WMA格式的好;另外还有一个原因, 就是在对库中存储文件进行特征提取时, 可能会造成音质的不同程度丢失。
因此, 本文采用的哼唱检索系统更适合检索WAV格式的音频文件。
实验四的比对结果表明, 本次实验中版本一的检索效果是最好的。这主要有两个原因:第一, 在客户端哼唱录入的都是版本一旋律;第二, 在哼唱过程中, 人与人之间对音的处理都有着各自不同的特点。上述两个原因就使检索结果产生了差异。
因此, 按原版旋律进行哼唱检索, 检索效果是最好的。
实验五的结果显示, 带词哼唱方式的检索是最好的, 其次是“Da-Da-Da”的方式, 最后是鼻音哼的方式。产生这种结果的主要原因在于特征提取中的基音提取及音符分割。带词哼唱的录入方式有利于特征提取, 而“Da-Da-Da”的哼唱录入方式只是利于音符分割, 鼻音哼的录入方式在这两方面都不占优势。因此, 本文采用的检索系统更适用于带词哼唱的录入方式。
4 小结
本文介绍了哼唱检索系统的工作流程, 并对哼唱检索过程中存在的几种特殊情况, 分别进行了实验及结果比对。最终的实验结果表明:
使用系统进行哼唱检索时, 检索结果的好坏与哼唱录入的歌曲的段落无关、检索节奏慢及背景音乐小的歌曲效果是最好的、带词哼唱的录入方式的检索结果是最好的。
参考文献
[1]王昉.音乐检索现状及发展趋势研究.科技广场, 2008.
[2]J.FOOTE.An Overview of Audio Information Retrieval.Multimedia Systems.1997, 7 (1) :2-10
[3]D.ROY, C.MALAMUD.Speaker identification based text to audio alignment for an audio retrieval system.IEEE International Conference on Acoustics, Speed, and Signal Processing (ICASSP’97) , 1997 (2) :1099-1102
[4]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用.第1版.北京:机械工业出版社, 2003
[5]Y.M.CHENG, D.O.SHAUGHNESY.Automatic and Reliable Estimation of Glottal Closure Instant and Period, IEEE Trans.On Acoustics, Speech, and Signal Processing, 1989, 37 (12) :1805-1815
基于文本的图片检索系统研究 篇8
关键词:互联网,基于文本的图片检索,相关文本,提取文本
现代科学技术的迅速发展给互联网技术与多媒体技术的发展不断带来新的机遇与挑战, 而图片作为承载重要信息的工具, 其数据规模也在不断壮大。但是面对海量的图片, 我们所常用的检索WEB图片的技术和方法还未得到完善, 图片检索的过程经常会遇到各种问题。这是因为基于文本的图片检索技术未充分考虑到WEB的复杂程度以及影响词条权重的种种因素, 通常只对词条进行组织索引, 并使用固定的模式来提取图片中的文本信息, 导致检索结果以偏概全, 提取效果不尽人意。因此, 应对不同布局的图片要采用不同模式的基于文本的图片检索 (包括图片相关文本的提取) 技术, 充分利用图片名信息, 提高WEB图片的检索率。
1 相关技术
WEB图片检索中提取图片信息的技术主要有基于内容的提取和基于文本的提取两种形式。基于内容的提取技术是通过分析图片本身的像素来提取图片表征的一些特性, 并对图片的这些特性建立相应的索引。如此一来, 用户在检索时, 基于内容的提取技术通过比较检索示例图片的相似度特征来衡量各种图片之间的相似性, 并从中挑选匹配度最高的图片返回给检索的用户。基于文本的信息提取技术则以与图片相关的文字信息为检索重点, 并对这些文本信息建立索引, 在获得用户提供的文本信息后, 利用传统的检索文本信息的技术进行组织和查询, 以提供所要检索的图片。
基于内容的检索技术借鉴文本检索技术, 对带检索的图片通常进行预处理工作, 将图片中的可视化信息包括图片的颜色、纹理和形状等提取出来并建立索引, 利用相关的匹配算法查找图片。基于内容的检索技术最大的特点是它可对图片本身包含的信息进行分析, 而不必费心分析图片来源, 这样就可扩大用于检索图片的领域。
基于文本的检索技术则通过分析互联网上的网络资源, 利用HTML文档工具以获取所要检索图片的相关文本信息。利用启发式规则通过分析HTML中的标记来获取所要检索的图片与文字等, 在对抽象的语义和概念的查询方面有很大的优势, 能够有效提高系统的查准率和查全率, 本文将重点讨论基于文本的检索技术。
2 基于文本的图片检索技术
基于文本的图片检索技术要完成的第一个工作就是确定能够描述图片所要表达意思的相关文本, 当然, 人工确定文本有较高的查准率和查全率, 但是面对每天增加的上百万的海量图片, 人工确定文本显然是不实际的。实际的工作情况是:提取图片所在的HTML文档的文本信息作为相关文本。这就要求网页开发人员仔细分析HTML源文件, 在描述图片区域的语言中寻找有关图片的“相关”信息。
2.1 相关文本的定义
图片的相关文本在图片检索过程中为图片进行“代理”工作, 它是与图片所含意义相关的所有文本信息 (包括文件名、图片URL、周围文本、标签文本、网页标题以及栏目名等) 的组合。
2.2 词条的权重
可反映图片内容的各种相关文本的信息的侧重点都有所不同, 一般来说, 图片锚文字要比HTML页面标题的重要性大得多。因此, 基于文本的图片检索技术要建立新颖的权重模式来衡量各种词条的重要性, 以便使图片检索工作更加快捷、准确。
2.3 为图片建立索引
为了方便检索图片, 通常会为每个图片的所有相关文本 (用集合{Li}表示) 建立一组“属性”, 即O1···Ok, 要做到每个相关文本都相应地有一组包含足够信息的属性值来唯一表示本对象Li。这些属性值就是我们所说的索引向量, 为海量图片资源的相关文本寻找属性值的过程便是为图片建立索引的过程。图片的文本索引要尽量做到能够全面并真实地反映图片相关信息, 支持海量图片信息的查询工作, 建立索引是基于文本的图片检索技术的核心。
2.4 为图片嵌入相关的HTML标记
网页开发的语言多种多样, 而HTML语言则是最常用的, 一般都会采用HTML语言生成最后的可供浏览的网页。因此, 如何准确地为图片嵌入相关的HTML标记具有十分重要的意义。与图片相关的常用的HTML标记大约有5种。分别为字符属性标记……, 网页标题标记
, 网页之间或网页与多媒体之间的导航标记……, 图片嵌入标记
……
。
3 HTML信息的提取方法
HTML信息的提取方法有三种, 包括基于DOM的提取方法、基于字符串的提取方法以及基于Wrapper的提取方法。其中第一种方法中的DOM是用来对网页文档进行解析和操作的一种对象模型, 现在主要应用于XML文档的处理工作中, 早起则为处理HTML文档服务, 它在HTML文档的组织结构以及各个标记之间的关系的了解方面具有更强的优势, 能够更方便地利用结构信息来提取文本信息, 但是这个过程需要耗费大量时间, 效率不高。第二种方法把HTML文档当做顺序字符串, 检索过程要遍历整个文档, 用字符串匹配方法来获取信息。这种方法效率较高, 但是不能准确提取一些依赖于结构的信息。基于Wrapper的提取方法可以帮助用户准确得到结构类型网页中图片的相关文本信息, 提高了处理能力以及系统检索效率。
从HTML页面信息中提取图片相关文本可包括以下几个内容:提取图片的URL、提取图片的文件名 (可从URL中获取) 、提取图片所在网页的URL、提取图片所在网页的标题和图片链接网页的标题、提取图片超链接URL、提取图片所在网页的栏目名以及提取图片标签等。
4 从图片周围文本中提取图片的相关文本
从分布在图片周围 (上下左右) 并与图片内容含义相关联的文本中也可提取图片的相关文本, 一般图片周围的文本是设计人员对图片所添加的说明。
5 提取图片相关文本的启发式方法
WEB图片一般分为装饰页面的图片和无装饰性的图片两类, 在检索前要排除装饰性的图片, 并根据图片以及周围文本复杂的布局情况按照规则模式、图片组模式、视距距离、语法距离以及短文本优先等准则对图片的相关文本进行提取, 每种准则对应不同的“图片—文本”布局:规则模式准则主要应用于图片与周围文本位于表格中的布局模式;而图片组准则适用于一个说明文本对应多个图片的布局模式;视觉距离准则则要求计算视距距离, 把文本信息赋予多个图片之中视距距离最近的图片;语法距离准则应用的前提是两图片视距距离相等, 这时要把文本信息赋予给语法距离最小的图片;在视距距离和语法距离都相等的情况下则要应用短文本优先准则, 短文本的长度不到长文本的1/X时淘汰长文本, 否则将两文本合并并赋予图片。
6 结语
随着计算机网络的迅速发展, 互联网技术得到全球性范围的普及, 有力地推动了信息检索技术的发展。基于文本的图片检索技术要借鉴发展成熟的文本检索技术, 致力于解决图片内容与文本信息相关度不高的问题, 以更省力、有效的方法来提高图片检索的质量, 将基于文本的图片检索技术的检索效果提高到更高档次, 巩固其在图片检索领域的重要地位, 以更高的查准率、查全率为图片检索提供更好的服务。
参考文献
[1]陈佳.与众不同的以"图"找"图"[J].电脑知识与技术-经验技巧, 2010, 34 (1) :45-46
[2]热依玛依.买买提, 维尼拉.木沙江.基于维吾尔文网页的图片相关文本提取技术研究[J].现代计算机 (专业版) , 2010, 12 (9) :76-77
[3]焦蕾, 殷锋社.图像搜索引擎检索模式分析与研究[J].电子设计工程, 2012, 20 (5) :23-24
基于内容的图像检索系统设计 篇9
单机的图像检索系统管理图像数据库的方式有两种, 一种是基于文件系统的方式, 一种是基于数据库系统的方式。这两种管理方式之间的联系为:均为数据组织的管理技术;均由数据管理软件管理数据, 程序与数据之间用存取方法进行转换。它们的区别为:管理数据的方式不同, 文件系统是用操作系统中的存取方法对数据进行管理, 数据库系统是用DBMS管理控制数据;共享数据的方式不同, 文件系统实现以文件为单位的数据共享, 数据库系统实现以记录和字段为单位的数据共享;程序和数据的联系不同, 文件系统中的程序和数据有一定的联系, 数据库系统中的程序和数据分离。
基于文件系统的方式是应用比较早的数据管理系统, 与数据库系统相比, 它的优点就是结构简单, 应用方便;不足是数据独立性差、结构性不强、共享性不佳。针对文件系统的这些缺点, 数据库技术应运而生, 它的结构性较好、数据共享性强。对于本文要设计的单机的CBIR实验原型系统而言, 数据库的上述优势并不明显, 反而是简单易用的文件系统更为适合, 而且大大简化了检索系统的设计。所以本文选择基于文件系统的管理方式。
该系统具体的设计要求如下:
(1) 能建立特征库索引, 将图像库中图像对应的各种特征保存到特征库中, 进行检索时, 直接找到对应的特征库进行相似性度量即可, 这样可以大大减少特征提取的时间, 提高检索的速度。
(2) 有友好美观的用户界面, 方便用户进行操作。
(3) 能易于实现各种检索算法的运行和测试。
(4) 系统的各个模块之间有很好的可重用性和扩展性, 可以很方便的添加图像库和检索算法。
2、系统设计
2.1 特征库建立子系统
特征库建立子系统有一个面向用户的友好界面, 用户可根据自己的需要进行选择。该界面主要有两部分, 一部分是有关文件路径的选择, 另一部分是提取特征选择。有关文件路径的选择指的是用户从保存好的文件系统中选择需要提取特征的图像库和特征库的存储位置。提取特征选择是用户选择要提取的图像特征, 主要有颜色特征、形状特征、纹理特征和多特征可供选择。
图2.1所示为提取Corel图像库中图像的Hu不变矩特征, 并将提取的特征保存到路径为F:featuresHu的文件夹中。
2.2 图像检索子系统
图像检索子系统主要有以下几个模块:查询图像选择模块、检索方法选择模块、特征库选择模块和检索结果模块。图2.2所示, 为用Hu不变矩的方法对查询图像在二值图像特征库中进行的检索, 对应与待查询图像的特征, 特征库选择的是不变矩特征库, 右边为输出的检索结果。
查询图像选择模块:用户从保存的文件系统或实验用的计算机中选择需要检索的图像, 若用户想要检索网上的某幅图像, 可先将该图像保存到实验用的文件系统中, 再进行选择。
检索方法选择模块:是用户选择想要使用的检索方法, 主要有基于颜色特征的、基于形状特征的、基于纹理特征的和基于多特征的方法。基于颜色特征的检索方法主要有HSV颜色直方图法、颜色聚合向量法、累加直方图法等。基于形状特征的检索方法主要有Hu不变矩、距离聚合向量、边缘方向直方图等。基于纹理特征的检索方法主要有灰度共生矩阵、灰度-梯度共生矩阵等。
3、系统性能评价
在基于内容的图像检索技术的研究中, 为进一步验证系统的性能, 需要对系统的性能进行评价。对检索算法或检索系统性能的评价也是重要的研究内容之一, 好的评价标准能推动研究工作的发展。一般可以从两个方面进行考虑, 一是用户的视觉判断, 二是量化的评价标准。用户的视觉判断是通过人的视觉判断来对结果的好坏做出评价, 这种评价方法比较简单直观, 使用于一次实验结果的分析或小型系统的结果分析, 不适合多次实验或大型系统的分析;而且人的视觉判断是通过人的主观感受来对系统进行评价, 这种评价方法往往具有主观性, 受个体的影响较严重。用量化的评价标准进行评价则比较客观, 但由于各个用户的实验条件并不统一, 所以目前尚没有一个公认的通用的评价系统, 有关这方面的研究已经引起了研究人员的关注。以下是常用的评价方法——查准率与查全率。
在基于内容的图像检索评价方法中, 查准率与查全率是应用最广泛的方法。查准率也称为精确度, 它的计算公式为:
其中, s为一次查询中检索到的相关图像的数目, u为一次检索过程中检索到的不相关的图像数目。查全率也称为检索率, 查全率的计算公式为:
其中, s为一次查询中检索到的相关图像的数目, v为图像库中和检索图像相关但未被检索到的图像数目。查准率与查全率的变化是相反的, 查准率越高时, 说明检索的精确度就越高, 花费检索的时间必然越多, 速率就越小, 即查全率就越小。反之亦然。但一个好的检索系统不但要求检索精度高, 也要求检索速率快。所以一般的检索系统只能在两者之间找一个平衡值即可。
摘要:本文在分析了基于内容的图像检索技术有着广泛的应用前景后, 对基于多特征的图像检索方法进行了初步的研究, 简单的介绍了系统需求分析, 图像检索系统的设计要素及系统的评价方法。
关键词:内容,图像,系统设计
参考文献
[1]吴介, 裘正定.底层内容特征的融合在图像检索中的研究进展[J].中国图象图形学报, 2008, 13 (2) :189-197.
[2]M V Sudhamani, Dr.C R Venugopal.Image Retrieval fromDatabases:an Approach using Region Color and Indexing Technique[J].International Joumal of Computer Science and NetworkSecurity.2008.
[3]欧阳军林, 夏利民.基于二值信息的颜色和形状特征的图像检索[J].小型微型计算机系统, 2007, 28 (7) :1262-1266.
[4]Bo Gun Park, Kyoung Mu Lee, Sang UK Lee.Color-Based ImageRetrieval Modified Hausdorff Distance[J].2008.
基于本体的课程资源语义检索系统 篇10
近年来,建立在语义网基础上的本体语义检索技术得到了人们的广泛关注。相比于传统的检索技术,其在检索精度和覆盖率上都有明显的优势。本体论最早起源于哲学领域,古希腊的亚里士多德通过对事物存在的本质进行了研究,得出了本体的概念。在较早时期,本体没有一个统一的定义,Studer等人对本体进行了一系列的深入研究后,提出了一个在当今被广泛采用的定义。对于共享概念模型而言,本体就是一种明确的形式化规范的说明。
1 课程资源本体构建
传统的基于关键字的搜索方法由于缺少语义,常造成检索信息的错检和漏检。由于受到了本体库的支持,基于语义的检索能很好地弥补这一缺陷。如果要进行基于本体的语义搜索,首先要构建规范的课程资源知识库本体。
本文以课程资源知识点作为领域本体进行构建。课程资源知识点本体的构建主要分为两点,即确定规范和基于规范构建本体。以计算机网络课程为例,本体存储的是相关知识点,其中包括计算机网络性能、因特网、计算机网络体系结构、计算机网络类别、网络安全五大类。这五大类的子类分别有:①计算机网络性能。速率、宽带、吞吐率、往返率、可扩展性、时延、利用率、可靠性。②因特网。因特网发展阶段、因特网组成、下一代因特网。③计算机网络体系结构。五层协议体系结构、TCP/IP体系结构、OSI体系结构。④计算机网络类别。广域网、城域网、局域网、接入网。⑤网络安全。数字签名、密码体制、安全协议、防火墙。
课程本体所包含的对象属性有蕴含关系、依赖关系、兄弟关系、平行关系、参考关系和游离关系。在构建完本体之后,本文采用My SQL数据库对本体文件进行存储,达到持久化。
2 语义关联度算法
用户在输入相关查询词进行检索后,语义检索系统对查询词进行形式化处理,并对形式化后的查询词进行语义关联度计算。语义关联度包括语义相似度和语义相关度。
2.1语义相似度
本文提出元概念的定义,指在领域本体中存在的概念集合C,设其中任一概念为Cx,如果集合Q中存在可以与概念C中的Cx匹配的查询词,则称为Cx为元概念,即将元概念作为查询映射到的概念来进行资源查询。
本文以知识点为单位构建教育资源本体,所以,从知识点的角度扩展了语义。知识点之间的关系有同义、平行、包含等,本节对本体概念之间的相似度所考虑的因素主要有以下6个。2.1.1语义距离
语义距离对语义相似度的影响可以表示成:
概念节点之间的距离表示为len(ei),是彼此之间相连的通路边所有对应的距离,比如父类和子类之间的距离为1.
2.1.2语义重合度
语义重合度对于语义相似度的影响主要表示为:
2.1.3节点密度
节点密度对于语义相似度的影响可以表示为:
式(3)中:degree(P)为概念节点X与概念节点Y之间最近的公共祖先P的度;degree(T)为概念树的度。
2.1.4节点深度
两个节点X与Y之间的概念深度对于语义相似度的影响可以表示成为:
式(4)中:dep(X)和dep(Y)分别为概念X和概念Y的深度。
2.1.5层次顺序
层次的顺序对概念相似度的影响为:
式(5)中:lyr(X)和lyr(Y)分别为X和Y节点所在的层次,根节点的层次为1;lyr(G)为领域本体中层次的最底层。
2.1.6查询词权重
在进行最后的语义相似度阶段计算时,对概念之间相似度的计算是受查询词权重的影响。领域本体之间的概念与概念节点之间的相似度的计算公式如下:
2.2语义相关度
语义的相关度指的是词语与词语之间的相互有联系的程度,它是一个随主观意愿变动比较强的概念。相关度的取值也在0~1,一般是两个词语在相同语境之中能够替换的程度。领域本体概念之间的相关度公式如下:
式(7)中:rel(ei)为概念与概念之间相连的关系边所对应的权值。
本文中概念与概念之间的相关度定义如表1所示。
综上所述,得出概念之间的关联度的计算公式如下:
3 语义检索模型
本文以教育资源的知识点为基础,对基于本体的教学资源的语义检索系统建立了原型。本文构建的语义检索是对教育资源进行本体推理来实现教育资源的语义检索,其中,还对向量空间模型进行了结合。语义检索主要包含了两个核心,即语义查询扩展和语义数据的检索算法。
图1为语义检索的模型图。
系统采用VPN、SNMP等词语进行测试,求得基于本体教学资源语义检索算法的查全率和查准率。同时,计算基于关键字的检索系统的查全率和查准率,结果如表2所示。
4 结束语
本文提出并研究了基于本体的课程资源信息语义检索问题。文中通过课程资源知识库本体的构建、本体相似度计算的研究,建立了基于课程资源的语义检索系统的原型,在一定程度上提高了对课程资源信息检索的查全率和查准率。下一步工作为课程资源本体的完善、探索更加精确的语义相似度计算方法,以提供给用户更好的检索支持。
参考文献
[1]代晓宇.基于本体的教学资源语义检索应用研究[D].哈尔滨:哈尔滨工程大学,2012.
[2]花开明,陈家训,杨洪山,等.基于本体与元数据的语义检索[J].计算机工程,2007,33(24).
[3]栾艳,丁二玉,骆斌.基于Ontology的语义检索技术[J].计算机工程与应用,2005,41(28).
[4]Studer R,Benjamins V R,Fensel D.Knowledge engineering:Principles and methods[J].Data&Knowledge Engineering,1998,25(02).
检索系统 篇11
关键词: 课件检索,Solr,课件去重
1 引 言
随着现代化教育的快速发展,尽管高校有一定程度的课件管理系统,海量课件检索效率和精度都不足。Solr[1]是一个独立的基于Lucene[2]搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
2 系统结构
2.1 功能结构
基于Solr的课件云检索系统的功能结构分为5个部分。1)在线检索:对各类课件进行不层次需求的检索功能;2)在线查新:检测课件的重复情况;3)分类浏览:浏览各种类别的课件;4)高亮显示:高亮显示检索的结果;5)对比查看:对比课件的相似性证据。
2.2 软件结构
系统软件结构如图1所示。1)数据层:提供数据源,包括数据库和索引文件。2)核心业务层主要是依赖Solr框架,利用分析器对文档切分,建立分布式倒排索引;并且能够提供关键词检索服务。3) 用户应用层实现用户与系统交互。
3 系统实现
3.1索引文件的创建和更新
1)配置参数:a)配置索引性能参数,修改 solrconfig.xml文件;b)配置索引结构参数,修改Schema.xml(/opt/solr/conf/schema.xml) 文件,定义fieldType、 fields、copyField等索引的主体字段。c)更改schema.xml (/opt/solr/conf/schema.xml) 文件,使分词器起到作用。d)配置mysql数据库,导入连接mysql的jar包mysql-connector-java-5.1.7-bin.jar,放在tomcat的lib目录下。
2)使用Solrj操作Solr
1、对向Solr提交索引进行一定的封装以方便业务系统进行操作。
2、对搜索进行封装,以方便结果的展现分析等等。
Solrj是使用java编写的一个操作Solr的工具,方便于进行索引的更新、搜索结果的获取等等。在Solr的发布包里面有Solrj的相关jar包。Solrj需要的jar包为:apache-solr-solrj-4.0.0.jar和他的依赖包solr/dist/solrj-lib。
3)课件特征提取
特征提取是将课件中的所有文本分割成为短语,然后抽取出shingles特征。通过正向最大匹配分词算法将长句进行科学划分,过滤掉高频低义的虚词、助词,然后再抽取出shingles特征传给solr接口,建立索引。
3.2 在线云检索
通过http服务发出课件的关键词查询请求,代码如下:
1.SolrServer ss = new CommonsHttpSolrServer( "http://localhost:8080/solr1/collection1/");
2.SolrQuery qu = new SolrQuery("*:*");
3.qu.add(ShardParams.SHARDS,"localhost:8080/solr2/collection1/,localhost:8080/solr1/collection1/");
4.QueryResponse resp = ss.query(qu);
5.System.out.println(resp);
其中關键在于,搜索请求需对solrcore服务器进行定位,再通过solrcore转发到其他的从节点服务器。
3.3 课件去重和课件对比
(1)课件去重
检测重复的课件主要是为了提高资源利用率,提高用户的使用体验。将每个课件拆分成为粒度句子级别的元素集合,对每个元素检索的同时,即可获得按相似率排序显示的课件列表。
(2)对比查看
记录查重中重复的证据并高亮显示,点击界面左边的课件中红色的高亮证据,会将界面右边的相同句子或者短语着蓝色,能够醒目的显示两课件重复之处。
4.结束语
在过去的几十年里,在线多媒体学术课件的应用取得了巨大增加,这些教育资源潜在地改变着人们的学习方式,随着文本检索技术日益成熟, 论文设计了一种有效地从多媒体课件中找到感兴趣的资源的solr云检索方法,得到了系统的实证。
参考文献
[1] 王小森.基于Solr的搜索引擎的设计与实现[D].北京:北京邮电大学,2011.
检索系统 篇12
关键词:JSP,MVC模式,DB2数据库,JAVA
1 企业信息检索系统设计的意义
随着社会信息化的推进, 信息的网络化组织与利用已成为趋势, 丰富的网上信息资源库, 已成为企业获取信息的最主要的途径。本系统设计的优势在于:通过该信息检索系统全面的将本企业和本行业、竞争对手的所有数据、信息集合在一个平台上, 企业的各类管理者可以通过关键词检索, 非常方便的调用其中的数据和信息, 进行竞争对手的跟踪分析、竞争环境检测、公司实力分析、市场威胁分析、双方竞争对手的强弱项分析、对手优劣势分析, 从而企业选择正确的竞争策略或竞争技术, 提高企业的市场竞争力。
2 系统设计
2.1 系统分析
1) 市场需求
本系统的最终用户是融资方式、管理模式各不相同的企业。操作人员与维护人员的教育水平与技术特长也不尽相同, 投资人要看到企业的未来成长价值, 销售人员要看到企业的当期营运价值, 经营者要看到两方面的综合情况。
2) 功能需求
企业竞争信息检索系统平台实现个性化服务, 根据不同企业、不同竞争对手, 该信息检索系统的信息和数据将完全不同, 也就是说, 根据企业的需求来定制。该检索系统对平台实现分级授权管理。
3) 性能需求
本系统分为后台管理系统和前台检索系统, 其中前台检索系统要利用数据库模糊匹配查询实现, 对于海量的数据进行查询是相当耗时的, 从而降低了系统的性能, 为此该系统采用了建立索引表的方法, 并利用数据库连接池技术来提高系统的检索速度。
2.2 登陆界面模块设计
用户登录界面设有账号、密码两个输入框和一个提交按钮。经系统判断如果是普通用户进入检索信息界面, 同时系统会按照信息的发布时间遍历出信息列表;如果是管理员则进入后台管理员界面。
2.3 用户管理模块设计
1) 用户登录功能
用户通过输入的用户名和密码信息跳转到用户检索界面或者管理员界面。系统会对用户进行身份验证, 如果不是系统注册用户提示用户名和密码错误;如果是, 继续判断是否是管理员身份, 是管理员进入后台管理界面, 不是进入前台检索界面。
2) 添加用户功能模块设计
管理员进入后台管理系统后可选择“添加用户”, 进入添加用户界面, 填写新增用户信息, 包括用户名、密码、确认密码、性别、地址等, 选择相应的部门、角色和权限。
3) 管理用户模块设计
管理员进入后台管理系统后可选择“管理用户”, 进入用户管理界面, 系统会遍历出所有用户的信息并分页显示。管理员可以对用户信息进行单个操作也可以进行批量操作。管理员可以通过复框选择要处理的多个用户, 也可以“全选”选择多个用户进行操作。在用户管理界面管理员可以对单个用户信息进行修改和删除操作, 可以对多个用户信息进行修改权限和删除操作。
4) 信息管理模块设计
管理员进入后台管理系统后可选择“添加文章”, 进入添加文章界面, 填写新增文章信息, 包括标题、作者、来源、简介和内容, 选择相应的类别栏目和信息级别。
5) 管理信息功能模块设计
管理员进入后台管理系统后可选择“管理文章”, 进入文章管理界面, 系统会遍历出所有文章的信息并分页显示。点击某个栏目类别名称会分页显示相应的所有文章信息。管理员可以对文章信息进行单个操作也可以进行批量操作。在文章管理界面管理员可以对单个文章信息进行发布、修改和删除操作, 可以对多个文章信息进行群发布和删除操作。
2.4 程序设计代码
部分代码如下:
3 系统测试
3.1 功能测试
功能测试是必不可少的, 是系统给用户的直观体验。具体方法如下:
1) 页面链接检查:每一个链接是否都有对应的页面, 并且页面之间切换正确。
2) 相关性检查:删除/增加一项会不会对其它项产生影响, 如果产生影响, 这些影响是否都正确。
3) 检查按钮的功能是否正确:如update、cancel、delete、save等功能是否正确。
4) 字符串长度检查:输入超出需求所说明的字符串长度的内容, 看系统是否检查字符串长度, 会不会出错。
3.2 逻辑测试
逻辑测试采用断点调试方法。使用Eclipse开发工具, 在某行代码前设置断点, 然后运行系统, 程序走到已设置断点的某行代码处后会自动弹出BUG调试窗口, 使用F6键便可以单步跟踪程序的运行情况, 从而发现异常。
4 总结
由于时间仓促, 在这次程序设计的过程中, 本软件还有不完善的地方, 这有待我以后继续完善, 恳请各位同行提出批评改进意见。
参考文献
[1]李人杰, 殷人昆, 陶永雷.实用软件工程[M].2版.北京:清华大学出版社, 2003.
[2]埃克尔.JAVA编程思想[M].2版.北京:机械工程出版社, 2003.
【检索系统】推荐阅读:
视频检索系统07-25
网络检索系统08-07
图书馆检索系统10-14
专利检索与服务系统08-08
文献检索系统开发研究论文06-22
地方文献数据库检索系统建立之设想06-20
文献信息检索课程文献检索参考课题05-24
检索方法10-13
动态检索05-29
检索算法05-29