检索平台论文

2024-09-29

检索平台论文(精选10篇)

检索平台论文 篇1

随着图书馆购买的电子资源越来越多, 提供给用户的检索入口也越来越多, 为了帮助用户用最简单的方式查找所有电子资源, 统一检索的方式应运而生。统一检索也称为联邦检索、跨库检索或一站式检索, 通过一个统一界面帮助用户在多个异构数据库中检索信息, 户的检索要求转化为不同数据源的检索表达式, 并发地检索本地的和广域网上的多个分布式异构数据源, 并对检索结果加以整合, 在经过去重和排序等操作后, 以统一的格式将结果呈现给用户。[1]

目前国内外已有不少跨库检索系统, 像艾利贝斯公司的metalib系统, 清华大学的同方异构统一检索平台 (USP) 等。One Search是南京乐致安信息技术有限公司开发的统一资源检索系统, 它包括书刊资源整合和电子文献整合两大模块。它支持所有中外文数据库的整合。2012年南京航空航天大学图书馆购入One Search统一检索系统, 主要是针对南京航空航天大学图书馆的电子资源进行跨库检索。整合了目前该图书馆购买的几乎所有中外文数据库。

影响统一检索平台质量的标准有很多, 主要包括资源整合功能、检索功能、检索结果处理、检索效率以及服务功能5大方面, 其中既包括一般检索系统通用的评价标准, 也包括统一检索平台特有的标准。[2]

1 One Search统一检索系统评价

1.1 资源整合功能

统一检索平台的最重要优势即在于其资源的丰富性、多样性, 涵盖资源的广度是非常重要的。此外, 检索平台及其网站对于资源的揭示以及资源获取的便利性也影响着用户的使用体验。

1.1.1 资源导航

分类导航, 由于统一检索平台中的资源来源非常广泛, 因此不同资源类型的分类导航对于用户熟悉了解资源有重要意义。One Search平台可以按常用数据库、全部数据库、按字母、按学科、按资源类型浏览数据库, 也可以通过检索框查找数据库。

资源揭示, 即是否对此平台包含的资源进行说明。One Search平台并未对资源进行描述说明, 因此对不熟悉数据库使用的用户来说比较费力。应对地址、文献类型、时间跨度、内容简介、覆盖范围、语种、出版商、检索注意事项等进行说明, 以便用户了解筛选。

对于同类资源也没有分类浏览, 也就是不能多层筛选数据库。对于同类资源应建立丰富、多样、准确的分类索引表, 方便用户在使用的过程中准确定位数据库资源。

1.1.2 资源整合

资源整合主要描述其资源范围。包括整合数据库的范围, 资源的更新速度, 是否与原数据库同步更新, 不同类型的资源整合程度如何, 以及是否有不同数据库引文间的相互揭示。

One Search平台目前整合的数据库有90个, 包括的学科有材料科学、机械、电子电气、计算机/信息科学、能源/动力工程、法律、经济、管理学、社会科学、语言/文学、航空航天、土木工程、数学、化学/化工、物理、光学等。资源更新与数据库同步, 无不同数据库引文间的相互揭示。

1.1.3 资源获取

主要是指查找到所需的资源后, 其获取方式是否便利、多样;获取资源的链接是否便利可用, 有没有失效的情况;此外, 可否直接链接至全文获取也是比较重要的评价标准。

通过One Search查到所需的文献后, 有的资源下方有“获取全文”的链接, 而大多数都是没有“获取全文”链接, 因此对用户来说需要花费更多的时间获取资源。对于可以获取全文的资源, 它提供了两种获取全文的方式, 一种是点击题名可链接至源数据库, 下载全文。另一种是文章后面的“获取全文”链接, 有的链接到的是数据库的检索页面, 需重新输入检索词检索获取文献, 不能直接链接全文获取, 有的链接可直接链接至全文获取。

1.2 检索功能

检索功能直接影响信息检索的查全率、查准率, 检索的灵活性、方便性及检索速度, 是评价资源检索平台的重要指标。[3]

1.2.1 检索方式

One Search平台既可以进行简单检索、高级检索还可以在返回结果之内或所有内容之内进行二次检索。高级检索可以对时间进行限定检索。检索时勾选的数据库会在“本次检索的范围”中显示出来, 要重新选择可以全部清空, 去除哪个数据库可将该数据库前的√勾选掉。

One Search平台的分类浏览功能没有按全文/文摘、中文/外文数据库浏览检索, 分类浏览查找不详尽。

1.2.2 检索字段

此平台的简单检索和高级检索都提供篇名、关键词、主题词、摘要、全文和任意等检索字段的检索, 不提供来源、出版商等检索字段。高级检索最多可联合3个字段, 同时可限定时间检索。没有对专业的数据库进行专门的检索字段设置, 比如没有针对会议文献的会议名称和地点的检索, 也没有针对标准文献的标准号的检索。

1.2.3 检索技术

此平台提供AND、OR、NOT布尔逻辑检索, 不支持扩检缩检与精确检索技术, 不支持相关检索和差异化检索, 这可能与其整合平台的定位以及检索技术有关。既定位为统一资源检索平台, 为了保持界面的简洁与使用的简易性, 牺牲对特定数据库的检索是情有可原的。同时, 在统一检索平台下, 对单个数据库增加检索字段, 也需要较为复杂的实现技术与界面。

在实现二次检索功能的相关检索方面, 此平台只提供了一个检索框, 而对检索字段无要求, 这就不能获取同类资源。

1.2.4 检索界面

此平台的检索界面无检索用时显示, 初级与高级检索页面无需切换, 检索结果和检索页面切换顺利, 没有提供搜索词修正提醒。在显眼的地方提供了检索帮助。

1.3 检索结果处理

检索结果处理是指对初次检索结果进行调整、细化, 最终获得所需资源的过程。

此平台不提供检索提问修改, 没有修改建议, 提供在结果中进行二次检索。不支持二次分类检索。检索结果显示的是基本信息, 不提供详细信息的显示。检索结果无去重功能, 采用先返回、先显示的模式, 减少等待时间, 左边的聚类栏根据返回的顺序和类型动态的显示所有检索资源库的结果情况。对于检索结果的输出, 只能单个浏览, 不提供结果批量输出, 即对搜索结果不能标记、筛选、保存。

1.4 检索效率

此平台检索结果无用时显示, 检索时, 等待比较久, 选择的数据库越多越费时。没有设置数据库的全选框, 选择数据库只能逐个勾选。检索时有时会有连接超时的现象, 要重新检索, 用时很久。在此平台上利用题名检索分别含有“computer”、“information”的文献, 选择的数据库有SCI、Elsevier、Ei、ACM, 然后再分别在这4个数据库检索题名中含有“computer”和“information”的文献 (见表1) 。

检索截止日期2013年1月9日

从检索结果看, One Search平台检索SCI数据库不全, 其中题名中含有computer的此平台只检索到33篇, 就是显示了SCI单库检索结果的前33篇文章, 题名中含有information的此平台只检索到60篇, 就是显示了SCI单库检索结果的前60篇文章。并且点击此平台显示的检索SCI的结果的某篇文章的题名链接不到文献详细信息, 出现的是“无效的查询。请检查时间跨度是否在选择的数据库的覆盖范围内”。其他三个库Elsevier、Ei、ACM查准率为100%。

1.5 服务功能

此平台没有用户页面定制功能以及个性化服务, 如不提供个人帐户、保存检索策略、保存电子资源等等, 以方便用户随时浏览。也不提供原文传递、参考咨询、馆际互借等其他服务方式。

2 结语

在One Search整合系统统一检索平台的评价中发现: (1) 对数据库的各种查找方式方便了数据库的查询, 减少了选择数据库的困扰, 但是对数据库的分类还不够多样, 也不能在不同的资源类型中进行组配检索。 (2) 帮助文件实用性不强, 更像是对功能的简单介绍, 没有突出特点和有针对性的回答问题。 (3) 提供的电子资源特别丰富, 但是不是所有资源都是使用者所需, 也没有设置快捷的方式, 所以难免会给使用者造成困扰;而且检索数量太大, 相关性不强的信息会影响使用。 (4) 实现了中文和英文检索, 但是跨语言检索功能很薄弱。 (5) 系统应该提供错误修正功能, 比如用户输入出现错误。Google界面就会提示“您是不是要找”就会因为这样能更好的避免检索时间的无端浪费, 从而提高检索效率。 (6) 系统应加强与其他服务方式比如原文传递、参考咨询等进行有效集成, 以满足用户多样、动态的信息需求。 (7) 对于使用者来说可能不很熟悉自己所查资料的专业数据库, 因此选择的很多, 这就降低了检索效率。 (8) 除SCI外, 查准率较高, 但检索用时久, 检索结果处理不人性化。 (9) 检索结果不提供多种形式的结果保存, 如存盘、打印、记住检索式等;对于结果输出, 不可利用E-mail发送检索结果, 或直接输出到文献信息管理软件。

参考文献

[1]李广建, 张智雄.国外跨库检索系统研究项目及其特点[J].情报理论与实践, 2004, (4) :444-447.

[2]邓晓音.统一检索平台评价标准及比较研究——以CALIS“外文期刊网”及交大图书馆“思源探索”检索平台为例[J].情报科学, 2012, 30 (12) :1844-1848+1953.

[3]罗春荣.网络环境下数据库检索平台的评价[J].图书馆理论与实践, 2004, (4) :1-4.

检索平台论文 篇2

(2)正确选择各种算符,如逻辑算符,位置算符,截词符,字段限定符等,编制合理的计算机检索式。

(3)分析学科范畴,以便确定所要检索的学科领域,提高查全率。

(4)确定检索年代、文献类型

(5)选择检索方法(常用法、追溯法和循环法)

常用法:顺查法(顺着时间的推移由远及近的查找)

倒查法(由近及远的往前追溯查找)

抽查法(根据学科发展的时代背景,发展的高峰期查找)

追溯法:参考文献法(根据所附参考文献的出处追溯检索)

科学引文法(通过被引用作者查找引用作者的文献)

(6)确定检索的信息源(包括中外文数据库和网络资源等)

检索平台论文 篇3

关键词: 赣南地区 客家方言 语音语料库 检索平台

一、引言

我国历史悠久、地域广大和人口众多,形成了各种各样、千姿百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。

方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。

二、方言语料库的基本特点

相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:

(一)一般以语音为主

绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。

(二)现成可用资源少

方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式文件。即使语音形式,广播、电视等媒体节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。

(三)语料采集比较困难

因为没有现成语言素材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。

(四)语料翻译与转写费时费力

一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。

三、方言语料库的检索平台及技术难点

同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。

(一)存储空间大

如果方言语料库里包含语音语料,在同等语言数据量的前提下,语音语料就占据更大存储空间。有些方言语料库甚至还包含视频,比语音数据还需要更大的磁盘空间。虽然现在电脑磁盘空间并不昂贵,但由于语料体积带来的分享和传播困难不容忽视。

(二)检索查找难

方言没有文字系统,检索查找目标词汇就有所不便。即使配备对应转写的普通话翻译,可以使用普通话对应词进行搜索,仍然要解决对应词的语音提取问题。毕竟,语音形式才是方言最真实的存在方式。由此可以看出,方言语音语料库类似于方言语音与普通话文字相对应的平行语料库,其检索技术涉及语音和翻译文本对齐、检索和提取过程的音频播放时间定位,实现普通话文本检索,对应方言语音句子定位提取和播放,达到服务科研、教学或者其他方言查找目的。

四、赣南地区客家方言语音语料库建设

本论文中的赣南客家方言语音语料库建设目标是区域性方言语音语料库,达到可以为语言本体研究、语言教学研究、语言识别等自然语言处理工程应用和区域特色文化传承与保护等提供基础性平台服务的目的。

(一)赣南客家方言语料库建设存在的难点

客家方言地区在全国分布比较广泛,从资金、人员和时间等各方面因素考虑,我们将语音语料库建设的对象限定为赣南地区客家方言(一般也可简称赣南客家方言)。以行政区域地理划分确定语料收集对象主要是为了采集方便,并没有语言特征上的区别含义。尽管据此将客家方言的采集锁定在限定的范围,仍然还有不少需要解决的难点。

首先,赣南客家方言虽然对外呈现出较大程度的一致性,但其内部却有着丰富的多样性(谢留文&黄雪贞,2007),这对语料采集的均衡性提出了较高要求。语料库必须体现代表性,需要较为全面地反映赣南客家方言的整体面貌,要考虑到赣州市属各区县的面积、人口及代表性各个因素。

其次,由于交通发达,当代社会的人口流动极为频繁,赣南客家方言受普通话的影响较大。如何采集语音,更好地反映赣南客家方言最本质和基础的特征是极为重要的问题。采集时宜尽量根据选择对外活动较少,以客家方言为主要使用语言的说话者为语音采集对象。当然,如果要研究语言变迁,采集流动人口的客家方言反而更加适合。

再次,普通话翻译和信息标注的工作量很大。如前所述,语音语料库建设涉及的工作量很大,在资金有限的情况下,必须充分利用语音采集人员的家庭成员和亲戚关系等社会网络,并适当吸引和动员部分语言专业学生,一起参与到语料库建设活动中。另外,尊重语料标注和翻译人员的署名权,将之反映在语音数据库中,体现为责任和权利。

(二)语料库建设的基本准则

首先,客家方言语音兼顾多样性和规模化。要达到语言研究目的,语料库的均衡性和规模量都是很重要的指标。只有做到这两点的语料库才具有代表性,才使检索结果具有实证意义。要从采录区域、说话人代表性等方面做到多样化和均衡性,各个代表性方言片区、不同年龄和教育层次都要抽取一定量的语音材料。

其次,确保采录信息充分和标注齐全。采录信息包括说话人特征(性别、年龄、教育程度、工作单位等)、采录地点(尽量详细到村级(街道)单位)、录制方式(自然口语、语音朗读等)、普通话翻译等内容。这些采录信息为后续社会文化相关研究提供重要参考价值,应该准确完备。

再者,语音采集方式上自然话语采录与指定内容录音相结合。语料库最重要的特征是原生态性,即语料最好是自然采集的(范俊军,2013)。但限于现实条件,我们采集语料时,一方面要尽量收集自然话语,另一方面需要收录一些字、词、句子和习语等不同层次的语言录音,以保证语音材料的覆盖度和规模量。

(三)语料库数据结构

语料库建设最重要的是数据保存的基本组织结构设计,数据内容与组织方式对语料库的服务功能和后续发展影响重大。赣南客家方言语音语料库包含三方面主要信息。一是方言录音文件,以音频文件保存;二是普通话翻译文本,这是将方言语音资料翻译成普通话后的内容,以文本形式保存;三是录制信息,包括说话人信息、录制者、翻译者、录制地点等方面的内容。具体见表1所示:

五、语料库检索平台设计

(一)总体原则

语料库检索平台搭建的总体原则是尽量做到方便检索、全面公开和持续开放。方便检索是为了查阅及研究便利;全面公开是积极利用网络,将语料面向全社会开放,使之充分服务社会;持续开放是语料库建设要做到容易后续增加和补充内容,使语料不断得以充实和丰富。

(二)检索与呈现

大型语料库一般都有相对应的检索工具,赣南客家方言语料库由于语音语料库的性质,需要有自己独立开发建设的检索和呈现环境。其核心机制是预先将语音与翻译文本(即字幕文件)对应,用户检索的时候,服务器查询翻译文本(字幕文件),提取出搜索词所在上下文句段及对应音频文件时间区间,将文本内容以关键词索引行形式呈现在网页中,并提供各句段对应的音频链接,点击可播放出指定区间音频。音频播放通过网页音频播放器实现。

六、具体技术与实现方案

(一)计算机辅助技术

语料库建设需要使用一些计算机软件,甚至通过一些简单的编程方法批量处理某些问题,必要时可以委托给计算机专业人员进行处理。语料数据整理、归档和发布人员需要掌握语音语料库建设相关软件,如音频剪辑软件,如Cool Edit等;网页设计开发工具如Dreamweaver及网站建设语言,如php,javascript等;语言处理程序语言,如python等。

(二)实际工作方案

首先从总体上规划设计语料库建设方案及具体语音采集方案,随后组织、动员和培训语音采集人员,以赣南地区的18个县市区为基础,联系选定的客家方言区,实施语音采集。分批采集完成后,进行语音语料的录入和整理工作,并视情况,进行语料和相关信息的补录和完善工作。最后设计语料检索软件并搭建检索平台,选择适当的方式将语料公开发布,提供给相关科研人员使用语料库展开系列应用研究。

七、结语

毋庸置疑,与很多汉语方言一样,赣南客家方言语音语料库建设有其重要学术研究价值和文化传承意义。但是,由于语料库建设的现实困难,一直未见达到一定规模、遵循规范的赣南地区客家方言语料库语料公开发布。本文分析了方言语音语料库建设难点和检索平台涉及的技术要求,并以赣南客家方言语料库建设为例,提出了具体的设计思路和实现方案,以期对广大同仁有所启示。

参考文献:

[1]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(02):153-158.

[2]洪拓夷.汉语方言语音数据库建设构想[J].图书情报工作,2009(05):83-86.

[3]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(04):356-363+384.

[4]王泽鹏.发展方言语料库提高研究水平——兼谈粤方言语料库的建设[J].烟台师范学院学报(哲学社会科学版),2003(01):97-100.

[5]谢留文,黄雪贞.客家方言的分区(稿)[J].方言,2007(03):238-249.

检索平台论文 篇4

Pro Quest检索系统是美国Pro Quest Information and Learning Company公司开发的信息检索系统。Pro Quest检索平台提供了一组数据库, 涉及商业管理、社会与人文科学、科学与技术、金融与税务、医药学等广泛领域, 包含学位论文、期刊、报纸等多种文献类型。该平台提供文摘题录信息, 大部分文献有全文。该库提供多种索引、全文及全文图像资料库。数据库的主要特点是将二次文献与一次文献“捆绑”在一起, 为最终用户获取文献提供一体化服务, 检索结果为文献的目录、文摘、全文, 在检索文摘索引时可以实时获取全文信息。

2 检索基本方法

2.1 访问入口:Pro Quest检索平台, 或登陆hppt://proquest.umi.com/pqdweb。

2.2 选择检索数据库。

Pro Quest检索系统中每个数据库都涵盖一些有影响的专业领域或某一个出版物, 比如:PHMC医学数据库 (Pro Quest Health and Medical Complete) 收录1446种医学专业期刊, 其中包含1100多种带有完整全文图像的重要的基础医学、临床医学及卫生健康方面的全文专业期刊;药学信息数据库 (Pharmaceutical News Index) 提供了药学新闻、制药研究、药物法规等方面的信息。覆盖了药学、医疗保健、生物技术和医疗设备等方面的专业出版物, 目前出版物有20种。

2.3 选择检索方式。Proquest系统提供了4种检索方式:基本检索、高级检索、主题检索、出版物检索。

2.3.1 基本检索 (Basic) 。

是系统默认方式, 在检索框中输入关键词、词组或检索式进行检索, 也可使用系统支持的各种运算符构造检索式查询。在“Date range”的检索框中选择出版时间段, 如“2005-present”;在“Limit results”复选框中分别显示为:仅显示有全文的文献;显示发表在学术期刊上的文献。选择完毕后, 点击“Search”按钮。需要注意的是, 用于检索的词组超过三个词时须用双引号把检索词括起来。如:“肺癌手术治疗”。

2.3.2 高级检索 (Advanced) 。

高级检索是用于从多个途径组配查询, 此方式功能较强, 可快速查询特定文献。高级检索除了可以在检索框中输入检索词、词组或检索式, 通过下拉列表和链接点也能完成检索框的填写, 它将多个字段组合在一起, 提供精确与快速的搜寻。选择此方法可以提高查全率和查准率。“高级检索”除具有基本检索的全部功能外, 主要增加了以下功能。a.字段选择功能。点击字段选择下拉菜单, 选择要检索的字段:引文和摘要、引文和文章正文、摘要、文章内容、文章篇名、文章类型、作者、公司、分类代码、图象题注、人名、产品名、出版物名、主题。可任意选择检索字段。b.多检索条件增减功能。如果要添加多个条检索条件, 单击“添加一行”, 否则可选择“删除一行”。可任意增减检索条件。c.更多检索选项。显示更多的检索选项, 提供出版物名称、学科、公司、人名、分类代码、等字段的主题浏览功能, 可在系统提供的词库中查找准确的主题词检索。出版物类型、检索结果的排列顺序等。

实例:用关键词查找有关“肿瘤间质血管发生的调控及意义”方面的文献。首先选择Pro Quest Health and Medical Complete在多个字段中分别输入“Vascular endothelial growth factor”血管内皮生长因子;肿瘤间质血管“Stromal blood vessel”及间质“Stroma”三个关键词, 在字段的下拉菜单中都选“引文和摘要”, 表示这三个关键词都在引文和摘要中出现。时间限定在2005-2009年之间, 并发表在学术期刊上的全文文献。点击“Search”按钮。检索结果:共检出5篇符合条件的相关文献。

2.3.3 主题检索 (Topics) 。在无法给出检索词时可采用此方法, 这里

列出了数据库记录涉及的主题, 通过逐层点击主题概念, 获得检索结果。点击系统界面上方“主题指南”按钮, 进入此检索界面。主要有两个功能:a.查找定位主题, 检索某一特定主题的文献在检索框输入一个术语, 点击“查找短语”。检索到的主题词可有“所有主题”、“学科”、“公司”、“人员”、“位置”五大类显示, 可分别点击查看, 找到要检索的主题词。点击主题词下“查看文章”按钮, 查看该主题的文章。b.浏览学科目录, 检索某一特定主题的文献, 点击“browse the subject directory按学科浏览主题”按钮, 显示系统的学科分类。主题树使文章查找非常容易。只需在列表中逐级点击类目查看相关主题词, 直至最后一级, 显示“查看文章”, 可点击查看该主题的相关文献。

实例:用主题检索有关“水污染的治理与改善———细菌”。从主题检索入手, 逐步限定条件, 缩小范围, 检出切题文献。点击“browse the subject directory”主题树中的主题类目“Environment”, 在Environment类下的四级类目中“Water pollution”点击“查看文章”, 共检出1554篇相关文献;进一步限定“Water pollution AND Bacteria”, 检出结果87篇;最后主题限定“Water treatment”水治理, 最终结果11篇。

2.3.4 出版物检索 (Pblication) 。

用于从出版物名称途径检索某报纸、杂志上的所有文章;也可按出版物名称字顺浏览杂志。进入出版物检索界面后, 在检索框中输入出版物的名称或第一个单词, 点击“search”, 可检索到某个具体出版物或含检索词的出版物, 如输入“The American Journal of Medicine”期刊名, 进入该出版物检索。可检索到该刊相关的年、卷、期及全文。也可点击检索框下的“Show all publications”浏览该数据库所包含的所有出版物名称列表。点击出版物的名称后, 可按年、卷、期索引浏览每期全文。

3 系统特点与检索策略

Pro Quest数据库系统的最大特点是实现了一次文献和二次文献的集成, 可随时获取全文信息, 实现文献一体化服务。Pro Quest数据库系统的主题检索, 为用户提供方便。系统提供了多项检索指南, 便于初学者使用。

3.1 实现高查全率。

查全率是定量从对象数据库中检索到相关条目的程度, 高的查全率可节省用户从其它数据库中查找相关信息的时间。在Pro Quest数据库检索中实现较高的查全率, 尽量多采用同义词、近义词构成检索式进行检索。

3.2 实现高查准率。

查准率是检索出的相关性条目数与检出的全部条目数之比。高的查准率可节省用户从检出的所有文档中过滤无用文档的时间。在Pro Quest数据库检索中实现较高的查准率, 可采取: (1) 尽量利用系统提供的限定条件选项, 对检索项目进行多重限定, (2) 在同一检索字段中, 增加检索条件限定, 并以“AND”连接, 实现精确检索。

摘要:主要介绍ProQuest数据库检索系统的检索功能与检索方法。该系统将二次文献与一次文献“捆绑”在一起, 用户使用查找全文十分方便。

关键词:ProQuest,数据库,检索方法

参考文献

[1]肖珑.互联网上的全文数据库与全文服务[J].大学图书馆学报, 2000 (3) :3-8.

[2]胡琼.基于WWW的全文检索系统检索性能探讨[J].情报科学, 2001, 19 (6) :639-642.

[3]肖京华.ProQuest ASTP数据库及其检索技巧[J].大学图书情报学刊, 2003 (3) :40-41.

[4]陈伟.ProQuest数据库及其检索利用[J].现代情报, 2004 (10) :146-148.

检索平台论文 篇5

学号学号学号学号::::XXXXXXXXXXXXXXXXXXXX

班级班级班级班级::::XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

摘要摘要摘要摘要::::文章主要研究了信息检索的重要性,信息检索的含义和要素,以及常见的信息检索方法的介绍和信息检索过程中应当注意的问题以及解决方法这几个方面,采用有文献法、个案法、统计法、比较法、行动研究法、调查法和经验总结法等研究方法,来阐述信息检索及其应用。详细全面的介绍,可以让部分不了解信息检索的人能通俗易懂的了解并应用一些常见的信息检索工具。从事实和实际出发,有力的论证了信息检索的重要性以及它的实用性。

关键字关键字关键字关键字::::信息;检索;信息检索;事实检索;检索语言;文献语言

通过学习信息检索这门课,我学会了如何利用web这个庞大的资源库快速便捷地找到自己所需要的信息。信息检索与应用涉及的领域广阔,从中文数据库搜索的介绍到外文数据库搜索的介绍,在这个快速发展的21世纪,各种信息数据在不断的增加,怎样更快速便捷的查找到我们需要的信息,显得日益重要。我们为什么要进行信息检索呢?通过什么方法进行快速的检索来应用检索显得日益重要。我们为什么要进行信息检索呢?一方面,信息检索是获取知识的捷径。美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。另一方面,信息检索是科学研究的向导。美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。此外,信息检索还是终身教育的基础。学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求

那么,什么是信息检索呢?通过“百度”搜索引擎可以得到解释是:“:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。总的来说,信息检索就是用一定的方式找到用户所需要的信息(此处通过百度查询信息检索的定义也是一种方法)”。常用的信息检索手段包括(1)手工检索(2)光盘检索(3)联机检索(4)网络检索。信息检索的四个要素是什么呢? 信息检索的前题----信息意识

所谓信息意识,简单地说,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。信息意识含有信息认知、信息情感和信息行为倾向三个层面。信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。

信息检索的基础----信息源(信息的来源)

信息源的构成 :按文献载体分----印刷型、缩微型、机读型、声像型 ;按文献内容和加工程度分--一次信息、二次信息、三次信息 ;按出版形式分----图书、报刊、研究报告、会议信息、专利信 息、统计数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其中后8种被称为特种文献。教育信息资源主要分布在教育类图书、专业期刊、学位论文等不同类型的出版物中)

信息检索的核心----信息获取能力

能力要求:(1)了解各种信息来源(2)掌握检索语言(3)熟练使用检索工具(4)能对检索效果进行判断和评价。判断检索效果的两个指标:查全率=被检出相关信息量/相关信息总量(%); 查准率=被检出相关信息量/被检出信息总量(%)

信息检索的关键:信息利用 社会进步的过程就是一个知识不断的生产—流通—再生产的过程。为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,创造出新的知识和信息,从而达到信息激活和增值的目的。

通过上面对信息检索各个要点的详细阐述,让我们对信息检索有了全面的认识。然而,在现实的生活中,我们可以通过那些工具的检索来帮助我们去得到我们想要的东西呢?例如,我是学习会计电算化专业的,这是一门与经济活动计算与研究紧密结合的学科。要学好,就必须借助网络这个信息平台,查找更多的专业资料。首先我们平时习惯用百度或Google等这些门户网站搜索。此外若要查找专业论文,像万方数据库(偏于理科)、中国期刊网(偏于文科)、重庆维普等这些专业网站会更实用。普遍的有万方数据库(偏于理科)、中国期刊网(偏于文科)、重庆维普等。这些网站提供的都是一些很前沿而且都是经过发表的学术类文章,能够为我们提供很好的信息服务。但这些网站的一般都是要付费的,需要注册登录才能下载相关文章,一般大学图书馆都会每年购买这些网站,为我们的学习研究带来很多方便。下面我详细的介绍一些有关这些专业性的检索网站的一些搜索方法。如果想查找一些中文的期刊资料,可以通过重庆维普中国科技期刊数据库,CNKI中国知网,万方数据库等 重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人。自1989年以来,一直致力于期刊等信息资源的深层次开发和推广应用,集数据采集、数据加工、光盘制作发行和网上信息服务于一体;收录有中文期刊8000种,中文报纸1000种,外文期刊4000种,拥有固定客户2000余家。目前已成为推动我国数字图书馆建设的坚强支柱之一。在以上的数据库中,最为常用也最受大家欢迎的是《中文科技期刊数据库》。《中文科技期刊数据库》还是目前世界最大的连续动态更新的中文期刊全文数据库,积累全文文献728多万篇,分七大专辑:自然科学专辑、农业科学专辑、医药卫生专辑、教育科学专辑、经济管理专辑、图书情报专辑、工程技术专辑 中国知识资源总库(CNKI)《中国知识资源总库》囊括了自然科学、人文社会科学及工程技术各领域知识,拥有期刊、报纸、博硕士培养单位的博士和优秀硕士学位论文、全国重要会议论文、中小学多媒体教辅以及1000多个加盟数据库。主要包括《中国期刊全文数据库(CJFD)》、《中国优秀博硕士学位论文全文数据库(CDMD)、《中国重要报纸全文数据库(CCND)》、《中国企业知识仓库(CEKD)》《中国图书全文数据库》《中国年鉴数据库》《各行业百科数据库》《声像资料数据库 》《《保持共产党员先进性教育》专题数据库》等。万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,覆盖范围:自然科学、数理化、天文、地球、生物、医药、卫生、工业技术、航空、环境、社会科学、人文地理等各学科领域。常见外文期刊有spinger外文期刊、等搜索网站。spinger外文期刊全文数据库收录了近500种学术期刊,内容涉及数学、物理和天文学、化学、医学、生命科学、工程技术、计算机科学、环境科学、地理及经济、法律等学科 EBSCOhost 全文数据库包括:学术期刊集成全文数据库(Academic Search Premier,简称ASP)和商业资源集成全文数据库(Business Source Premier,简称BSP)等九个数据库 对于外文不好的人,可以通过有道搜索引擎下载一个有道词典。有道词典有强大的中外文互译和对照功能。一般的数据库文件,采用的是CAJ和PDF格式,必须下载专门的CAJ和PDF浏览器才可以阅读。常见的数据库有分类检索、初级检索、高级检索和专业检索四种方式。在每种方式的检索结果(包括二次检索的检索结果)里都可以进行二次检索,可以无数次的进行,逐步缩小检索范围,直至检索结果为零。参考文献

[1]【书 名】《信息检索》

【出 版 社】武汉大学出版社 【作 者】黄如花

【开 本】32

【出版日期】2010-05-01 [2]【书 名】《搜索引擎:信息检索实践

【出 版 社】机械工业出版社

【作 者】刘挺

【开 本】32 【出版日期】2010-06-01 【[4]【书 名】《普通高等教育“十二五”规划教材•信息检索与利用》

【出 版 社】科学出版社

【作 者】邓发云、杨忠、吕先竞

【开 本】32

电力标准检索平台的设计与实现 篇6

电力工业是国民经济的基础产业, 是具有社会公用事业性质的行业。它为各行各业提供电力, 为人民的日常生活提供电力, 如果供电中断, 特别是电网事故造成大面积停电, 将使各行各业的生产停顿或瘫痪, 有的还会产生一系列次生事故, 带来一系列次生灾害。另外, 供电中断或大面积停电, 会给社会和人民生活秩序带来混乱, 甚至造成社会灾难, 造成极坏的政治影响。

标准是科学、技术和实践经验的总结。为在一定的范围内获得最佳秩序, 对实际的或潜在的问题制定共同的和重复使用的规则的活动, 即制定、发布及实施标准的过程, 称为标准化。电力标准时电力建设和电能生产、变换、传输、销售、使用中必须共同遵守的技术规定和技术管理依据, 其重要性毋庸置疑。目前电力标准共有1300余项, 其中, 行业标准1000余项, 国家标准200余项, 各级电力单位还有多种类型的规范、制度、规定等, 这些海量的标准信息为日常的存档、查阅带来了巨大的不便, 噬需一套电力技术文献全文检索平台, 对国内外电力行业的相关技术标准、规程规范、法律法规等进行全文检索, 将相关技术标准建立数据库进行集中存储, 采用类似百度和Google的检索方式进行模糊检索, 确保在最短的时间内查找到所需要的技术标准。

2 平台建设内容

技术标准是一种重要的科技情报源, 每一篇技术标准都是科学、技术和实践经验的综合成果, 属于特种文献。它既具有一般科技文献的作用, 又具有法律效力;是人们从事科研、生产、设计和检验所使用的技术依据, 因此是科技信息检索中不可缺少的内容。

电力行业是一个技术密集型行业, 经过多年的积累, 各种技术标准及规范非常多, 包括国内、国外的标准, 国内又有不同的部委、行业协会颁发的技术标准, 在供电企业内部又有国网公司、省公司、分公司的技术标准。技术标准在不同的时期又要进行修改完善, 形成不同的版本。

面对如此庞大、复杂的技术资料信息, 相关技术人员查找技术标准非常困难, 在互连网上查找到的资料没有全面性、系统性。给工作带来一定的影响。迫切需要一个将所有电力行业相关的技术标准进行收集、整理、检索的信息平台, 为工作人员提供一个技术标准查询的有力手段, 提供工作效率及质量。

平台以建设一个供电公司内网使用的电力技术文献全文检索平台为目标, 对国内外电力行业的相关技术标准、规程规范、法律法规等进行全文检索, 将相关技术标准建立数据库进行集中存储, 采用类似百度和Google的检索方式进行模糊检索, 确保在最短的时间内查找到所需要的技术标准。

项目的开发将实现电力技术标准的规范化管理, 为技术人员提供了一个技术资料的集中管理平台, 使相关技术人员能够在海量的技术标准中快速查找到所需要的技术资料, 提高了工作效率。

3 平台建设的理论和实践依据

全文搜索引擎通过从互联网上提取各个网站的信息 (以网页文字为主) 而建立的数据库中, 检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户。

信息的检索过程主要是利用检索语言对检索提问进行标引, 形成检索提问标识, 再按照存贮所提供的检索途径, 将检索提问标识与文献特征标识进行匹配, 两标识相符或基本相符的则为命中的检索结果。

一个完整的信息检索流程包括:信息源——输入子系统——处理子系统——存储子系统——传输子系统——输出子系统——控制子系统——用户

输入子系统——选择收集特定范围的信息资源、按系统指定款式输入系统

处理子系统——处理加工经过鉴定、选择好的数据和信息, 使其成为易于存储和检索的形式。

存储子系统——将加工处理后的信息按某种规定有序聚积在存储载体上以构成可检文档。

传输子系统——通过计算机与通信线路的连接, 完成信息编码的传递、转接、处理与接受。

输出子系统——根据用户需求有效输出各类最终信息产品。

控制子系统——根据系统内外环境变化, 适时调控, 保障系统的有效输入、有效存储、有效输出等环节的协调运行。

4 平台关键技术

布尔逻辑检索:利用布尔逻辑算符进行检索词或代码的逻辑组配, 是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种, 分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。

截词检索:截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性, 在检索中经常会遇到名词的单复数形式不一致;同一个意思的词, 英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索。

位置检索:位置检索也叫全文检索、邻近检索。所谓全文检索, 就是利用记录中的自然语言进行检索, 词与词之间的逻辑关系用位置算符组配, 对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。

Oracle10G:采用Oracle公司的Oracle10G数据库作为后台数据库。Oracle数据库是一种关系型数据库。它管理性能高, 处理速度快, 能够支持多用户的数据操作和分布式处理。Oracle富有多种表现数据的能力, 如:报表、视图、图像和快照等。内含的SQL*PLUS编程语言支持嵌入式SQL和动态SQL。Oracle采用SQL来实现维护和访问数据库, 通过开放式数据库连接ODBC的中介组件实现与不同客户机连接。

5 结语

平台的应用实现了电力技术标准的规范化管理, 为企业提供了一个技术资料的集中管理平台, 使相关技术人员能够在海量的技术标准中快速查找到所需要的技术资料, 提高了工作效率。随着平台的深化应用, 将依托电力标准的收集、归纳和总结形成电力企业标准知识库, 与检索功能相结合为员工培训、知识传递和优化提供助力, 为企业的新旧人员交替, 日常工作标准化支持和电力知识积累等工作提供信息化保障。

摘要:电力企业作为国有支柱型企业, 其安全稳定的运营关系着我国经济发展以及社会稳定和我国各个企业发展水平的好坏随着我国电力行业的迅猛发展, 电力安全生产的重要性显得尤为突出。保障电力安全生产离不开各类型电力标准的约束和支持它从规划设计、施工安装、运行维修、电力专用设备等多个方面提升电网安全稳定运行水平。本文主要从电力标准信息化管理和检索角度探讨了如何实现电力技术标准的规范化管理, 并为使用者提供了一个技术资料的集中管理平台, 助力海量信息的快速搜寻及定位需求。

检索平台论文 篇7

近年来, 云计算得到了快速发展, 与云计算密切相关的大数据处理同样得到快速的发展, 所以基于Hadoop平台来解决海量图像检索的问题被人们广泛的研究[3]。Hadoop平台具备优秀的大规模数据处理能力、较高的容错性以及可靠性、低成本等优势, 能够提供分布式的数据存储和分析的解决方案, 为并行地处理海量图像数据提供了基础。

针对传统图像检索方法检索效率不高的问题[8], 本文提出了一种基于Hadoop平台的并行图像检索方法, 在建立图像特征库的过程中, 设计合理Map和Reduce方法, 并行地提取图像特征, 实现图像的存储; 在进行图像检索的过程中, 利用MapReduce并行地计算样例图像与图像库中图像之间的相似性。与传统的检索方法进行比较, 本文检索方法具有更好的检索效率, 更能适用于大规模图像检索。

1 图像特征提取

传统的图像处理通常使用图像底层的物理特征, 包括颜色直方图、形状SIFT特征、Tamura纹理特征、小波变换等。颜色直方图是最直观和最常用的颜色特征, SIFT是图像的局部特征, 具有旋转、尺度缩放的不变性, 能够更好地表述形状特征。本文提取图像颜色、形状、纹理等多种特征。提取图像特征的过程:

1) 首先将数据库中图像上传到HDFS上;

2) 设计合理的Map和Reduce方法, 提取每幅图像的综合特征 ( 颜色, 形状, 纹理) , 计算获得每幅图像的一个特征向量;

3) 最后获得所有图像的图像特征向量库。

在Map阶段, 提取图像的颜色, 形状, 纹理特征, 生成一个特征向量。并且把生成的特征向量作为一行记录存入HBase中, 如果提取特征失败, 那么记录图像的ID。在Reduce阶段, 把无效的图像ID返回给HDFS[4]。

提取图像特征Map函数如下:

public void map ( Long Writable key, Text value, OutputCollector < Long Writable , Text > output, Reporter reporter)

其中: key为图像的主键ID; value为图像的原始内容;输出Long Writable为图像的主键ID; Text为图像的特征数据。Map函数提取图像的颜色、形状、纹理特征组合生成综合特征。

提取图像特征Reduce函数如下:

public void reduce ( Long Writable key, Iterator < Text >values, Output Collector < Long Writable , Text > output, Reporter reporter)

其中: key为图像的主键ID; values为图像的特征数据;输出的Long Writable为图像的主键ID; Text为图像的特征数据。Reduce函数对全部的图像特征排序, output是所有排序后的图像特征。

2 图像检索

图像以及图像特征都存储在HBase中, 随着数据量的不断变大, 在文件中进行检索需要花费很长的时间, 为了提高检索的效率和减少检索的时间, 采取基于Hadoop对图像进行检索[2]。基于Hadoop平台图像检索具有高并发性, 它是将串行操作过程变成并行操作过程, 其图像检索过程如下:

1) 用户提交样例图像, 系统提取图像的颜色, 形状, 纹理特征;

2) 设计合理的Map和Reduce方法, 并行计算出图像库中图像与样例图像之间的相似度;

3) 对相似结果进行排序, 获得最后的相似图像。

在Map阶段, 首先提取样例图像的图像特征, 然后与特征数据库中的图像特征进行特征相似度的比较与匹配。 <相似性, 图像ID > 作为map输出, 并且按照相似性的大小对其进行排序和重新划分, 输入到Reduce。在Reduce阶段, 把所有的< 相似性, 图像ID > 集合起来, 根据相似性的大小排序, 将前N个< 相似性, 图像ID > 输入到HDFS, 找出与样例图像相似性最大的图像的ID, 得到相似性最高的N幅图像[5]。

图像检索的Map函数如下:

public void map ( Long Writable key, Text value, OutputCollector < Long Writable , Text > output, Reporter reporter)

其中: key为图像的主键ID; value为图像特征数据; 输出Long Writable为图像的主键ID; Text为空。Map函数根据比较图像特征与样例图像特征之间的相似性得到检索的结果, output为最相似图像的主键ID集合。

图像检索的Reduce函数如下:

public void reduce ( Long Writable key, Iterator < Text >values, Output Collector < Long Writable, Text > output, Reporter reporter)

其中: key为图像的ID; value为空; 输出的Long Writable为图像的主键ID; Text为图像的元数据。根据Reduce函数检索图像的属性、文字, 获取Map操作中相似的图像, 继而进行关于文字、属性的检索, 最终得到同时满足两种特征的图像, output是所有最相似的图像。

3 实验与分析

3. 1 实验环境

在Linux环境下搭建Hadoop平台, 包括1 个主节点 ( Name Node) 以及3 个子节点 ( Data Node) , 保证四台机器在同一个局域网, 服务器配置如表1 所示[7]。在搭建的Hadoop平台图像检索系统上, 采用各个不同的节点数的情况下, 做图像检索的实验, 比较本实验平台的测试结果和传统单节点的测试, 根据存储效率和检索速度来评价系统的性能, 并且对基于Hadoop平台的检索系统进行全面表述[6]。

3. 2 实验数据

对于Hadoop分布式图像检索系统, 本实验采用40 万服饰图像作为测试数据, 分别采用10 万、20 万、40 万、60 万、80 万、100 万服饰图像对平台进行实验测试[9]。

3. 3 图像存储性能的对比

根据各个数量的服饰图像, 依据各个节点数目, 对所有进行存储消耗的时间如图1 所示。从图中分析可得, 如果服饰图像的数量低于10 万, 二者系统之间的存储所消耗的时间差异甚小; 但是伴着图像总数的增大, 采用单节点的存储图像消耗的时间剧烈增大, 然而基于Hadoop平台系统存储消耗的时间增长不是很剧烈。因此, 本文基于Hadoop平台的检索系统消耗了较短的存储时间, 对系统的整体性能起到提高的作用。

3. 4 图像检索效率的对比

根据不同数目的图像库以及依据各个节点数的情况, 服饰图像检索消耗时间如图2 所示。从图中分析可得, 如果服饰图像数目较少, 基于Hadoop平台的系统和单节点系统的检索消耗时间差不多; 如果增加服饰图像数量, 二者检索消耗的时间均相应增加, 并且传统的单节点系统图像检索消耗时间相比于Hadoop平台系统的消耗时间, 前者的增长更大。重点是因为基于Hadoop的分布式系统采用MapReduce具有并行计算优势, 在各个节点上同时进行服饰图像的检索, 提升了服饰图像的检索效率; 并且如果节点的数目越大, 检索的效率越高, 采用更多基于Hadoop分布式系统的节点数目, 能够大幅提升图像检索系统的性能。

4 结束语

随着图像数量的不断增长, 传统图像检索方式在处理海量图像时存在效率低、可靠性差等缺陷, 基于此提出了基于Hadoop平台的分布式并行图像检索方法。实验测试表明, 基于Hadoop的分布式图像检索能够提升图像存储和检索的效率, 能够给用户提供较好检索结果, 同时在处理海量图像数据时, 体现出比传统单节点更明显的优点。以后的工作重心是更有效的在Map和Reduce之间进行数据传输, 使这过程的时间消耗降低, 从而更加有效地提升检索的效率。

摘要:随着计算机技术的快速发展, 图像数据的不断增长, 针对传统的图像检索方法在处理海量图像数据存在低效率的问题, 提出了一种基于Hadoop平台的并行图像检索方法。首先, 设计合理的Map方法和Reduce方法, 并行地提取图像的综合特征 (颜色、形状、纹理) , 生成图像特征库;然后, 并行地计算样例图像与图像库中的图像的相似度, 输出最相似的图像。实验结果表明, 基于Hadoop平台的图像检索方法比传统的图像检索方法具有更高的检索效率, 适合大规模的图像检索。

关键词:Hadoop,MapReduce,相似度,图像检索

参考文献

[1]霍树民.基于Hadoop的海量影像数据管理关键技术研究[D].长沙:国防科学技术大学, 2010.

[2]杨丛聿.基于MapReduce模型的图像相似度分析[D].北京:北京邮电大学, 2013.

[3]卓友胜, 刘利.基于Hadoop云计算平台的CBIR设计[J].电脑知识与技术, 2014, 27:6318-6320.

[4]杨曼, 何鹏, 齐怀琴, 等.基于Map/Reduce的海量视频图像检索系统设计[J].电视技术, 2015 (4) :33-36.

[5]李素若.基于MapReduce的互联网图像相似性度量研究[J].荆楚理工学院学报, 2015 (2) :32-36+49.

[6]朱为盛, 王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用, 2014 (3) :695-699.

[7]范敏, 徐胜才.基于Hadoop的海量医学图像检索系统[J].计算机应用, 2013 (12) :3345-3349.

[8]蔡丽娟.一种基于Hadoop架构的海量图像检索方法[J].通讯世界, 2014 (8) :16-18.

中国机构检索平台首次向公众开放 篇8

由中央编办政务和公益机构域名注册管理中心 (CONAC) 推出的中国机构检索平台2015年6月4日首次向公众开放, 将提供权威可靠的党政机关官网网址导航, 今后公众上党政机关官网办事将无需再通过商业搜索引擎。

中央编办政务和公益机构域名注册管理中心业务部主任李秦峰介绍, 主要从三方面帮助公众更快地辨识党政机关、事业单位网上身份。一是机构概况, 公众可通过中国机构检索的机构概况, 全面了解中央及各省机构的组织架构及相关信息。二是机构网上身份查询, 公众可输入要查询的机构名称, 核验该机构网上身份的真实性, 并可进一步了解该机构的职能、类型、地址等基本信息。三是官网查询, 公众可直接输入要查询的网站名称或网站域名, 迅速知道该网站是否已通过机构编制部门的审核, 是否是党政机关或事业单位的真实网站, 并能同时掌握该网站的主办单位, 以及网站简介、网站标识和使用的中英文域名等相关信息。

据了解, 截至今年5月28日, 全国90%以上的党政机关网站已实现挂标认证。其中, 95%的中央国家机关已挂标, 各省政府门户网站均已挂标。 (来源:新华每日电讯)

检索平台论文 篇9

基于此类问题, 国际上许多信息机构便开始致力于开发“异构数据库统一检索平台技术”, 为实现异构数据库的整合、跨库统一检索提供保障。S F X与M A P就是两个比较成熟的检索平台。

一、S F X简介

SFX是Ex Libris公司开发的一种检索平台, 其目的就是找出相关异构数据库系统的信息关联性, 实现系统整合、统一检索的目标。在此平台上, 用户在使用图书馆的数字化文献时, 即可按需要任意链接到其他各类信息源上面。包括全文数据库、索引摘要数据库、引用文献、OPAC资源等。

SFX由下面四个核心部分组成:

(一) 信息存储导引。

这是S F X对信息资源进行存储、管理的核心部分, 它可以对各种异构网络数据库进行有效整合, 形成图书馆内部信息库。

(二) 通用关联引擎。

该技术除允许用户可以直接链接至单独数据库之外, 还允许用户一次性检索数个异构数据库系统, 并可自动查重、剔除重复的文献记录。

(三) 个性化服务管理。

这是SFX优于其他检索平台的重要部分, 会员可以通过个性化设置, 利用电子书架E-Shelf存储、管理自己的检索结果, 并可使系统自动跟踪自己预设的检索要求, 同时返回检索结果。

(四) 深层链接服务。

这是S F X平台任务量比较繁重的模块之一, 它将数据库中每条记录的每一个Metadata元数据, 均定义为OpenURL格式, 允许不同的数据库之间实现无障碍互联。完成从馆藏目录到联合目录、二次文献到全文、文摘到文摘、引文 (全文) 到全文的链接, 使图书馆所有的Web资源形成完全融合的整体。

二、M A P简介

MAP是Innovative Interfaces公司所提出的一种整合方案, 主要用于建立、管理和引导信息资源服务工作中所需的模型的建立。利用MAP平台, 通过WebPAC的搜寻功能及Innopac Millennium版的管理模块将图书馆所选择的各类电子资源整合于一套资源存取管理工具当中。为信息资源的存取和用户检索网络数据库提供导航。

主要包含以下三个模块:

(一) 资源链接。

此模块是M A P的基础所在, 它支持OpenURL和CrossRef等相关协定, 凡经过图书馆选择与定义过的信息, 均可实现动态链接, 保证文摘、全文乃至电子图书的直接链接。

(二) 统一检索界面。

此功能模块支持包括Z39.50、HTTP以及SQL等在内的多种基本通讯协议, 可以实现对多个异构数据库的一次性检索, 在统一的检索界面中得到检索结果并可直接链接至文献所在的地址。

(三) 认证管理。

M A P采用此机制便于利用代理服务器控制相应数据库的信息存取, 使取得授权的用户能够异域远程检索数据库。该功能有别于其他检索平台。

三、两者比较

SFX和MAP的技术比较见下表。

随着网络技术的发展, 运用S F X、MAP等信息技术, 再结合数据库整合分析的机制, 图书馆将对电子馆藏的管理模式上升到一个新的层次, 使图书馆各类复杂的数据和信息之间的关联变成简单的链接。同时, 针对不同用户, 构建个性化的信息环境和服务内容, 应该是今后图书馆服务的发展方向。

四、建议

国内信息机构目前还没有S F X或MAP等平台的用户, 但引进或自主开发此类平台、实现中文数据库跨库检索的基础已经形成, 唯一欠缺的可能就是富有成效的协作。

与其独立开发各自的平台, 不如打破各自的所谓技术壁垒, 进行广泛的合作, 深入进行数据库相互关联的研究工作, 找寻彼此之间的合作砌入点, 真正整合不同的资源, 统一检索技术。作为数据库提供商, 经济利益肯定是第一位的, 但是要想获取更大的利益, 尤其在信息服务领域, 其立足点决不能囿于自己的壁垒之中。“只有互惠, 才能互利”, 只有真诚合作, 才能达到双赢的目的。

参考文献

[1]L.L.C.Public Web.Topic map[DB/OL].http://www.y12.doe.gov/sgml/sc34/document/0129.pdf.2008-05-29/2007-01-25.

检索平台论文 篇10

互联网催生了诸多新事物的诞生,MOOC时代已经到来,高等教育教学将发生深刻的变革。作为大学教师,仅仅依靠粉笔黑板、PPT等简单的技术支撑讲课是不够的。慕课、微课等授课模式更新了传统的教学模式,实现了翻转课堂等新型的教学模式。微课最早为美国北爱荷华大学Le Roy A.Mc Grew教授提出的60秒课程以及英国纳皮尔大学T.P.Kee提出的一分钟演讲[1]。国内率先提出此概念的胡铁生认为,微课程应该是以微视频为主要载体,针对某个学科知识点或环节等而设计开发的一种微型网络课程[2]。文献检索是大学生必备的一项基本技能,其内容具有一定的独立性。尝试制作成微课平台可以满足学生利用碎片化时间进行随时随地学习的需求。

1高校文献检索教学存在的不足

目前,多数高校图书馆通过开设文献检索选修课、文献检索讲座、网络课程等方式进行文献检索教学,笔者根据文献检索教学的实际情况,针对有较强学习动机的学生进行调研,发现传统教学模式存在一些不足,主要表现有:(1)学生想进行自主学习,老师只是指导,传统教学很难实现;(2)学生有个性化学习需求,传统教学很难实现;(3)学生想尝试探究式学习、任务驱动式学习等,传统教学很难实现;(4)传统教学方式很难解决课上记住、课后遗忘的问题;(5)缺少师生之间的交流等。

以上不足之处在传统教学模式下是很难解决的,尤其是传统教学模式下的某些教学环节运用常规手段是无法完成的。现有的教学模型可以划分为三种:讲授型、自主与协作型和智慧型[3]。目前高校主要的教学模式为讲授型,自主与协作型好处是学生可以进行个性化、自主化学习[4]。智慧型教学模型的好处是可以让学生在解决问题、完成任务的过程中发现自己的问题点等[5]。智慧型在常规教学模式下更是很难实现的。利用信息技术手段,构建文献检索微课平台,在资源配置和功能模块的设计上尝试满足以上需求,可能会解决以上的不足之处,实现较高的学习效率。

2高校文献检索微课平台设计

微课不是简单的课程截取,也不是网络课程的翻版,它的设计思路是以教学大纲为依据,需要以教育学原理、方法等理论作为支撑,在内容上要符合学生们的个性化学习需求,在媒体上要引发学生们的学习兴趣,在时间上要做到精、短、微等。笔者通过微课平台资源的相关理论和实践研究来尝试设计高校文献检索微课平台。

2.1平台总体设计

通过理论和实践研究发现,微课平台的基本设计应该基本包括资源、测试、交流等方面。由此尝试设计文献检索微课平台的总体设计应该包括微课视频模块、测试模块、交流模块等。

(一)微课模块

“微课程的核心价值在于‘微’”[6]。微课模块构建的系列内容应该包括:知识体系、微课来源、微课题目、微课学材等。学生学习有着特定的学习流程。对于具有一定学习动机的学生来说,可以系统地通过微课学习流程完成文献检索知识的学习。

(二)测试模块

测试模块是针对学生掌握文献检索的情况进行测试。学生根据微课视频资源、相关学材进行自主学习后,结合自身的学习情况进行测试,以检测自己对文献检索学习的掌握程度。

(三)交流模块

学生在学习的过程中遇到问题需要与老师进行交流,也需要与同学们进行分享、交流。老师在设计整个微课学习环节的过程中也需要得到同学们的学习反馈和微课平台的应用反馈等,及时更新和修改微课平台的功能与资源,更好地为同学提供数字化支撑服务。

2.2微课资源设计

文献检索微课视频资源有其独特性,不是简单的视频录制,更不是整节课的剪辑。笔者在充分考虑内容、媒体、时间、评价标准等环节的基础上,尝试对微课资源进行设计。

(一)知识体系图

学生进入微课平台首先映入眼帘的就是文献检索知识体系图,根据知识体系图学生可以了解文献检索这门课的整个知识脉络,为自主学习提供一个清晰的思路。在学习过程中可以有选择性地进行链接。

(二)微课资源类型

通过研究总结发现微课的类型主要有:讲授、问答、讨论、练习等类型。在选择微课资源类型时需要思考的问题有:选题和类型之间是否有固定搭配;组合形式是否是多样的;在微课中引入信息技术提供支撑时,要充分考虑常规教学手段无法实现的教学环节等。

(三)媒体和时间设计

微课在媒体方面的设计,无论是哪种技术的应用,目的都是以提高学习效率为前提,尝试解决常规教学手段无法实现的教学环节,更好地支撑文献检索学习。

3文献检索微课设计的关键技术

文献检索微课学习资源主要包括媒体类型图片、文档、视频等,主要支撑的数字化资源有动画、虚拟交互工具等。需要应用的制作工具有Mindjet Mind Manager、Power Point、Photoshop、Camtasia Studio、Format Factory、Smooth Draw等。

4微课与传统授课对比分析案例

本案例选取《搜索引擎》为个案研究,选择两个教学班,第一个班应用微课教学,第二个班应用传统教学,对教学与学习效果进行对比分析。大学传统授课以灌输式教学为主,辅助PPT讲义等方式,形式比较单一。这里重点论述基于微课平台的教学模式。

4.1教学内容与目标分析

搜索引擎是计算机信息检索的重要组成部分,是网络信息资源检索的重要支撑。该节课的教学内容包括搜索引擎的定义、原理、分类、方法技巧等。通过学习,学生要理解搜索引擎的定义、方法、技巧等。

4.2微课教学设计

教学设计流程分为学习资源设置、课前学习、课上学习、反馈评价四个部分,学生学习分为课前和课上两部分。

(一)教师学习资源设置

以《搜索引擎》为例,在预先设计的知识图中,依据链接,搜索引擎定义、原理等微视频首先进行录制,并制作相关动画。在媒体设计上尝试录屏等关键技术,知识点链接都尝试控制在10分钟以内。在此基础上,附加相应的电子文档;在测试模块,引入探究环节,最后进行测试。

(二)学生自主学习

学生首先观看搜索引擎的视频动画,然后进入探究学习过程,进而完成最后的测试环节。学生在学习的过程中遇到相关问题可以通过交流工具和老师、学生进行交流。

(三)学生课上学习

学生在课前完成学习后,学习差距问题还是存在,进入文献检索真正的课堂再进行深入地学习和研讨,这时可以通过小组学习、分组讨论、分享成果等方式进行,从而尽量满足全体同学们的学习需求。

(四)反馈和评价

教师针对整个教学与学习过程的监测,对文献检索翻转课堂支撑平台进行评价,进一步更新平台的功能模块和整体的教学设计,进而有效地完成翻转课堂的教学模式。

4.3教学对比分析

在第一个班完成微课教学、第二个班完成传统教学后,对整个教学与学习效果进行对比分析,发现微课教学模式有着独特的优势,主要体现有:学生可以进行自主探究式学习;微课可以让学生更加深入地挖掘数据库进行检索;微课模式不受时空限制等等。这些都是传统教学模式很难实现的。

5结语

在文献检索的教学设计中,如何设计功能完善的自主学习平台,配置适当的自主学习资源,这是教师要深入思考的重点,尤其是专注个性化学习、探究式学习、智慧学习等环节,这些都不是一蹴而就的,需要不断地尝试、更新、修改、反馈才能得出较为适当的方式方法。

摘要:“微课”作为教育教学领域中的新生事物,已经在国内外进行了深入的理论与实践研究,涌现了很多经典案例。能否尝试把微课引进高校,引入到高校文献检索的教学与学习中,值得文献检索教师的认真思考。笔者通过微课在教学领域的实践探索,并在深入理论和实践研究的基础上,结合自身文献检索教学的实践经验,尝试设计文献检索微课平台,构建微课资源及其功能模块,为微课适当地、成功地引入高校提供相关理论和实践尝试。

关键词:MOOC,文献检索,微课,平台

参考文献

[1]Kee.T.P.The one minute lecture[J].Education in Chemistry,1995,(32):100-101.

[2]胡铁生.我国微课发展的三个阶段及其启示[J].远程教育杂志,2013,(4).

上一篇:对合并报表的影响下一篇:功能要求