检索制度(共8篇)
检索制度 篇1
1我国住房公积金制度概述
我国《住房公积金管条例》 (国务院令第262号) 指出:住房公积金, 是指国家机关、国有企业、城镇集体企业、外商投资企业、城镇私营企业及其他城镇企业、事业单位、民办非企业单位、社会团体 (以下统称单位) 及其在职职工缴存的长期住房储金。而住房公积金制度是我国建立的一项专门针对城镇基本住房问题的, 规范公积金缴纳、管理和使用的一个住房社会保障制度。它旨在通过国家强制职工缴费的方法, 为在职人员建立住房公共积累基金;以此方式解决广大群众购买、建造和租用住房所需资金短缺与资金融通问题, 促进其基本居住权的实现。因此, 它具有互助性、强制型和安全性。制度规定:单位和职工必须依法履行缴存住房公积金的义务。
2我国住房公积金制度发展、现状及存在的问题
1991年, 上海市政府借鉴了新加坡的中央公积金住房制度的成功经验, 结合了当时我国的基本国情, 初步建立了具有中国特色的住房公积金制度。至此, 我们国家开始逐渐从福利分房制度政策向货币分房制度政策转变。中国逐渐开展住房市场化建设、住房商品化改革, 在某种程度上, 这标志着一个由国家支持、单位资助、职工自主解决住房问题的市场化的住房体制开始建立。2002年, 国务院对暂行的住房公积金制度进行了一次较大的改革, 理顺了公积金管理受限和信息不透明等部分问题, 并且对地市级以上的城市设立了独立的专门住房公积金管理中心。这一系列改革极大地推动了公积金缴存工作的发展, 同时标志着我国住房公积金制度发展进入到了一个新的历史阶段。
但是, 随着公积金制度不断发展, 由于受到主观和客观各方面因素的影响, 我国住房公积金制度的薄弱环节也逐渐显现出来。数据显示, 截止到2014年3月, 全国实际缴存公积金职工1.06亿人, 缴存总额6.47万亿元, 缴存余额3.27万亿元, 公积金的利用率仅有50%, 近一半的公积金尚在沉睡。此外, 公积金的利率也相对较低, 第一年是按活期利率计算, 第二年起才按最低的三个月定期给予利息。作为一种惠民性质的住房保障制度, 公积金的公平问题和资金适用对象与使用效率等一度成为众矢之的, 由此引发的一系列问题也使公积金制度处于一种存废争论的尴尬状态。
3完善我国住房公积金制度的对策
(一) 放大缴交辐射范围, 合理制定缴存比例
对于住房公积金制度存在的所谓"劫富济贫"的问题, 逐步扩大住房公积金的缴交范围, 提高低收入人群的公积金利率比例无疑是最好的解决方法之一。笔者认为, 除现有《住房公积金管条例》中明确规定的缴存人群以外, 公积金的缴存范围还应当进一步扩大, 其中包括城镇个体工商户及其雇用人员、自由职业者的缴存。
(二) 引入第三方监管机构, 建设信息透明化管理体制
住房公积金制度是国务院制定认证的一种具有国家强制性的储蓄制度。从住房公积金的属性来看, 国务院将其定为"个人缴交, 单位资助, 所有权归个人"。而近年来, 住房公积金被挪用, 被挤占等公积金大案频发让作为所有权的个人对其安全性表示质疑。因此, 笔者认为, 作为所有权人, 广大储户应当有权利了解公积金的归集和使用情况。这就要求国家公积金管理中心建立一个透明的公积金信息发布制度, 使公积金的管理置于广大民众的监督之下。
另一方面, 笔者认为国家也应当加大对住房公积金制度的监管力度, 一个可行的方法便是不受地方政府约束的第三方监管机构。通过委托第三方监管机构对住房公积金管理中心进行实时监督, 并定期向社会公众公布监督结果。
(三) 强化住房公积金归集手段
强化公积金的归集手段主要分为三个方面:首先, 国家应加大《住房公积金管理条例》的宣传力度, 使受自身文化程度限制而对住房公积金制度存在疑惑的那部分人群充分了解其优越性, 从而调动其缴纳住房公积金的自觉性和积极性。其次, 建立相关的法律法规, 目前, 我国住房公积金制度唯一的政策仍然是《住房公积金管理条例》, 虽然几经完善, 但从法律层面上看, 并不具有相当的严肃性。最后, 定期反馈, 检查, 加强与公积金制度相关的各部门之间的合作, 以确保各项工作落实到位。
(四) 提高使用效率
从目前中国广大储户对公积金制度的态度上来看, 一个较为不满的表现仍然是公积金提取手续复杂, 办理程序繁琐。上升到理论层面, 这也是构成大量公积金"沉睡"的原因之一。因此, 要提高公积金的使用效率, 当务之急便是简化公积金的办理手续。笔者认为有关部门应当制定相对紧密的办理流程, 减少审批手续, 实现各个部门之间的资源共享与信息沟通, 明确各自职责, 避免"踢皮球"式的责任纠纷问题, 为储户提供更加方便快捷的服务。
参考文献
[1]殷俊, 彭聪.基于公平视角下住房公积金权益模式改革探析[J].社会经纬, 2014 (11) .
浅析网络信息检索 篇2
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
基于镜头检索的视频检索算法研究 篇3
由于将一段视频的每一帧都转描述成数学特征向量是非常耗时并且难于计算的, 目前常用视频检索做法是以镜头为最小检索单位, 镜头是视频内的一部分连续场景, 一般以摄像机的一次开关为界限, 一个镜头内的视频帧具有较高的相似度。镜头检索并不是提取一个镜头的特征向量, 而是提取镜头的关键帧的特征向量, 用关键帧代表镜头, 进而计算关键帧的相似度, 从视频数据库中检索得到和待检索关键帧语义相似的关键帧, 这样就找到了相似度较高的关键帧和该关键帧代表的镜头, 视频检索就转换成了关键帧检索。
目前基于内容的视频检索主要包括以下几个研究方向:一、镜头检测, 镜头是视频的基本构成单元, 将一段视频根据拍摄的场景的不同分割成多个镜头是研究的一个重点。二、关键帧提取, 从镜头内检测出当前镜头的关键帧, 从语义上表示该镜头, 并提取关键帧的特征向量从数学上描述该镜头。三、基于内容的图像检索, 在提取完视频的关键帧之后, 视频相似度对比就转变成了关键帧相似度对比, 视频检索就转换成了关键帧检索, 关键帧本质上是一幅图像, 基于内容的图像检索也是研究的一个重要方向。
基于内容的视频检索算法从检索范围上来分有两种, 一种是视频全局检索, 一种是关键帧检索, 全局检索是对视频的所有帧进行检索匹配, 关键帧检索是用一个视频的关键帧代表这个视频, 全局检索的准确率更高, 但是由于视频的数据量很大, 一个30分钟的视频, 在每秒30帧时, 其视频帧数就达到了54000帧, 对如此数量的视频帧进行特征提取, 相似度计算无疑是一个浩大的工程, 所以目前一般采用的是基于关键帧的检索。
视频检索过程中的关键技术中包括镜头检测、关键帧提取和关键帧对比, 应用这些关键技术实现一次完整的视频检索。但是由于每个视频有多个镜头, 每个镜头又存在多个关键帧, 检索过程中计算量很大, 所以本文希望做预处理, 对镜头预先进行分类, 这样在用户检索的过程中, 只要根据自己待检索镜头所属的分类, 只检索对应的分类即可, 可以节省了大量的检索时间。
2. 镜头聚类
视频检索应该以镜头为单位, 将镜头作为视频检索的最小单元, 由于视频检索的计算量很大, 所以在检索之前最好对所有已经分析完毕的镜头进行聚类, 这里本文采用基于网格的聚类方法, 根据镜头的首个关键帧对镜头进行聚类基于网格的聚类方法, 如下图2所示, 将一个二维空间平均分成多个聚类, 根据拿到的对象, 通过算法直接确定物体所属的类, 对于图中属于区域11、12的两个点, 虽然距离很近, 但是根据聚类算法, 两个物体仍然分属两类, 属于边界限制的一种。对于本文的镜头聚类来说, 是将HSV空间向量的距离值分成多个块, 当拿到一个镜头的HSV特征向量时, 可以直接计算出该镜头所属的分类, 基于网格的聚类方法特点是快速, 只有一个特征向量也可以直到其所属的类。
由于空间向量的值的不确定性, 所以空间网格的划分造成一定的难度, 首先利用公式4.2对HSV颜色空间的各个分量进行归一化操作, 保证各个向量的值在0-1之间, 之后利用公式4.4计算, 图2基于网格的聚类这样, 所有视频帧的距离就可以保证在0-1之间, 就完成了视频帧特征向量的归一化, 并进行下一步的网格聚类。本文根据向量到 (0, 0, 0….0) 的距离直接计算向量所属网格, 本文简单的将网格设为100, 即距离 (0, 0, 0, 0, ) 乘以1000后, 距离值在0-10之间的属于类1, 聚类在10-20的属于类2, 依次类推, 确定视频帧所属网格类。
3. 镜头检索算法
在本文中, 将镜头作为检索的最小单元, 用户选择一个镜头, 并检索出相关镜头, 镜头作为检索结果反馈给用户, 用户可以根据检索出的镜头查找出包含镜头的视频。首先用户提交待检索视频, 经过前面的镜头检测算法, 将视频分解成镜头之后, 提供给用户两种检索模式, 单帧检索模式和多帧检索模式。单帧检索是用户由用户选择其中一个镜头, 并选择其中的一个或者多个关键帧进行检索, 当用户选择一个关键帧时, 首先对选择的关键帧进行网格聚类, 计算出待检索关键帧所属的聚类, 然后连接数据库, 从数据库的关键帧表中, 根据聚类结果, 检索出相似度较高的关键帧。例如对关键帧进行网格分析后, 发现该关键帧属于A类, 则从数据库中只对A类的关键帧进行相似度对比计算, 这样就节省了大量的时间, 在计算完毕后, 将这些相似度较高的关键帧列出来, 供用户选择, 用户选择出自己满意的关键帧之后, 根据数据库中的关联关系, 可以在数据库中直接检索出该关键帧对应的镜头和视频, 显示给用户, 即完成了一次视频检索。
当用户选择了多个关键帧进行检索时, 设关键帧用K1-Kt表示, t表示用户选择检索的关键帧数目, 首先根据第一个关键帧K1进行检索, 同样是首先进行网格分析, 得出距离最近的N个检索结果, 之后从N个结果中的第一个开始分析, 设第一个结果视频V有V1-Vm个关键帧, 当前关键帧K1和Vt相似度较高, 则从Vt-Vm循环和K2进行相似度计算找到第一个距离小于阈值t的视频, 如果循环完毕没有找到, 则从检索结果中去除v视频, 如果找到相似度小于阈值T的关键帧Vp, 继续在Vp-Vm中寻找K3, 直到Kt都在V中寻找到, 如果有Ki没有在v中相似度满足阈值, 则将视频V移出检索结果序列。本算法依次查找, 是充分考虑时间轴的影响因素, 在检索完毕后, 对检索结果进行二次排序并显示给用户。
4. 实验结果
对数据库中5000副图片进行分析, 首先要提取这5000副图片的特征向量, 本文选择7维的形状向量、8维的纹理向量和71维的颜色向量, 在提取完5000副图像的特征向量后, 对每一维取最大值和最小值, 然后利用公式对这5000副图像的所有特征向量进行归一化处理, 保证每一维的向量值都在0-1之间。经过统计发现, 98%以上的图片距离向量 (0, 0, 0, 0….0) 的距离在70-130之间。
所以本文就可以从70-130之间进行聚类, 分别以距离10聚类, 对一个镜头内的图片进行分析, 对镜头的内的所有图片进行分析, 设间隔是d, 对镜头的首帧进行分析, 确定镜头首帧所属类, 并查看其余帧所属类, 对10个镜头进行分析, 分别取d=10。第4类图片的截图如图4所示:
通过聚类发现, 例如下图中的5139和5382等, 通过聚类可以有效的将相似的图片聚类在一起, 在检索过程中可以减少对比的数量, 降低检索时间, 但是同一子类的图片之间也存在很大的不相关性, 说明每类之间有较大包容性和相似性。
5. 结束语
本文提出的视频检索算法在电视台视频管理系统中已经得到了很好的应用, 经过长期的实践表明该算法在同类算法中检索速度大大的增加。
摘要:在视频检索过程中每个视频有多个镜头, 每个镜头又存在多个关键帧, 检索过程中计算量很大, 本文提出基于镜头检索的视频检索算法, 并建立一个模型, 用于用户检索视频, 向用户提供单帧检索和多帧检索两种检索模式。通过测试表明本文的视频检索算法能够很好的检索视频内容。
关键词:视频检索,镜头,算法
参考文献
[1]Muneesawang P, Guan L.An interactive approach for CBIR usinga network of radial basis functions[J].IEEE Transactions on Multimedia, 2004, 6 (5) :703-716.
[2]Tang J, Acton S T.A decentralized image retrieval system foreducation.IEEE Information Engineering Design Symposium[C].2003:7–12.
检索制度 篇4
1、书目信息
主要通过各种书目型数据库获取, 书目型数据库可用于查明关于某一专题有哪些出版物以及如何获取等信息。书目型数据库主要有联合目录、在版图书书目和网上书店目录以及各类型图书馆公共检索目录。
1.1 联合目录
书目信息检索工具国外主要有联机计算机图书馆中心 (简称OCLC, ) , OCLC联机联合目录数据库Worldcat, 它是世界上最大的书目数据库, 可检索字段有:主题、著者、引文、分类号、语种、出版局、出版地等。国内比较著名的书目检索机构还有CALIS联合目录数据库 (http://162.102.138.230/opac) 和上海图书馆的西文文献联合目录数据库检索系统 (http://www.linet.sh.en/ejex/ex/wx.htm) 等
1.2 在版图书书目
国际上比较流行的在版书目有《在版书目》简称 (BIP) 、《全球在版图书书目》简称 (GBIP) 、《国际在版图书书目》简称 (IBIP) 和英国在版图书书目 (British Books in Print, 简称 (BBIP) 。
1.3 网上书店目录
网上书店最著名的是亚马逊网上书店, 其检索途径可以通过该网页相应窗口获取, 检索字段有著者、书名、出版社、关键词、语种、ISSN号等。国内有当当网上书店、中华读书网等, 其检索方法是按书名、作者、出版社、分类号、语种等不同的检索途径来进行检索。
1.4 各类型图书馆公共检索目录
各类型图书馆联机公共检索目录 (简称OPAC) , 用户检索某个图书馆的OPAC, 只需直接登陆到相应的图书馆网站, 进入“联机公共书目查询”或“馆藏书目数据库检索”等栏目即可实现某一专题的检索。例如:查询清华大学图书馆公共检索目录, 就可以登陆其 (http://www.lib.tsinghua.edu.cn/index.html) 。
2、期刊信息
期刊信息的检索工具有 (以中国为例) :
(1) 、清华同方CNKI的《中国期刊全文数据库 (CJFD) 》 (http://www.cnki.net) , 收录7400多种期刊, 2400多万篇, 浏览器是CAJ, AdrobReader。
(2) 、重庆维普资讯有限公司《中文科技期刊数据库》 (http://www.cqvip.com) , 浏览器是VIP, AdrobReader。
(3) 、北京万方数据公司的《数字化期刊全文数据库》 (http://www.wanfangdata.com.cn) , 浏览器是AdrobReader
(4) 、人大复印资料 (http://www.zlzx.org/) 收录人文社科类期刊论文, 分大类。
(5) 、中国知识资源总库-CNKI系列数据库 (http://caj.jllib.cn/kns50/) 浏览器:CAJ, PDF
3、学位、会议论文信息
这一类检索主要分为5大类:一、PQDD (美国博硕士论文数据库) :是世界著名的学位论文数据库, 收录有欧美1000余所大学涉及文、理、工、农、医等领域的博、硕士学位论文, 浏览器是Adobe Acrobat Reader;二、万方数据库资源系统 (http://hk.wanfangdata.com/) , 《中国学位论文全文数据库》和《中国学术会议论文全文数据库》是万方数据库资源系统的一个分支;三、中国知网 (CNKI) (http://www.cnki.net/index.htm) ;四、中国高等教育文献保障系统 (http://opac.calis.edu.cn/simpleSearch.do) ;五、中国重要会议论文全文数据库: (CPCD) China Proceedings of Conference Fulltext Database, 收录我国2000年以来国家二级以上学会、协会、高等院校等单位的论文集。
4、网页与新闻信息
主要是通过使用搜索引擎查找与该专题有关的信息和要闻。
搜索引擎 (search engine) 是运用特定的计算机程序收集互联网上的信息, 在对信息进行组织和处理后, 为用户提供检索服务的系统。搜索引擎大都提供分类查询, 用户输入关键词进行检索, 搜索引擎从索引数据库中找到匹配该关键词的网页并将检索结果显示与排列。
国外著名英文搜索引擎包括:1、Google http://www.google.com;2、Yahoo http://www.yahoo.com;3、Live http://www.live.com;4、SearchMash http://www.searchmash.com/。
国内著名搜索引擎网址有:1、百度http://www.baidu.com/;2、雅虎http://search.cn.yahoo.com/;3、Google http://www.google.cn/;4、搜狐搜索引擎http://www.sogou.com;5、新浪网http://www.iask.com/
参考文献
[1]赵惠芳:《学位论文信息的检索与获取》[J].现代情报, 2003, (09)
检索制度 篇5
互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。
1 网络信息资源点与检索工具
上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。
2 语义检索基本要素和原理
随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。
本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。
3 常见语义检索系统介绍
3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)
作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。
3.2 语义网 (Semantic Web)
为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。
3.3 Word Net
Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。
4 结语
从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。
摘要:互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。
关键词:语义检索,本体,语义网
参考文献
[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.
[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.
[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.
检索制度 篇6
Pro Quest检索系统是美国Pro Quest Information and Learning Company公司开发的信息检索系统。Pro Quest检索平台提供了一组数据库, 涉及商业管理、社会与人文科学、科学与技术、金融与税务、医药学等广泛领域, 包含学位论文、期刊、报纸等多种文献类型。该平台提供文摘题录信息, 大部分文献有全文。该库提供多种索引、全文及全文图像资料库。数据库的主要特点是将二次文献与一次文献“捆绑”在一起, 为最终用户获取文献提供一体化服务, 检索结果为文献的目录、文摘、全文, 在检索文摘索引时可以实时获取全文信息。
2 检索基本方法
2.1 访问入口:Pro Quest检索平台, 或登陆hppt://proquest.umi.com/pqdweb。
2.2 选择检索数据库。
Pro Quest检索系统中每个数据库都涵盖一些有影响的专业领域或某一个出版物, 比如:PHMC医学数据库 (Pro Quest Health and Medical Complete) 收录1446种医学专业期刊, 其中包含1100多种带有完整全文图像的重要的基础医学、临床医学及卫生健康方面的全文专业期刊;药学信息数据库 (Pharmaceutical News Index) 提供了药学新闻、制药研究、药物法规等方面的信息。覆盖了药学、医疗保健、生物技术和医疗设备等方面的专业出版物, 目前出版物有20种。
2.3 选择检索方式。Proquest系统提供了4种检索方式:基本检索、高级检索、主题检索、出版物检索。
2.3.1 基本检索 (Basic) 。
是系统默认方式, 在检索框中输入关键词、词组或检索式进行检索, 也可使用系统支持的各种运算符构造检索式查询。在“Date range”的检索框中选择出版时间段, 如“2005-present”;在“Limit results”复选框中分别显示为:仅显示有全文的文献;显示发表在学术期刊上的文献。选择完毕后, 点击“Search”按钮。需要注意的是, 用于检索的词组超过三个词时须用双引号把检索词括起来。如:“肺癌手术治疗”。
2.3.2 高级检索 (Advanced) 。
高级检索是用于从多个途径组配查询, 此方式功能较强, 可快速查询特定文献。高级检索除了可以在检索框中输入检索词、词组或检索式, 通过下拉列表和链接点也能完成检索框的填写, 它将多个字段组合在一起, 提供精确与快速的搜寻。选择此方法可以提高查全率和查准率。“高级检索”除具有基本检索的全部功能外, 主要增加了以下功能。a.字段选择功能。点击字段选择下拉菜单, 选择要检索的字段:引文和摘要、引文和文章正文、摘要、文章内容、文章篇名、文章类型、作者、公司、分类代码、图象题注、人名、产品名、出版物名、主题。可任意选择检索字段。b.多检索条件增减功能。如果要添加多个条检索条件, 单击“添加一行”, 否则可选择“删除一行”。可任意增减检索条件。c.更多检索选项。显示更多的检索选项, 提供出版物名称、学科、公司、人名、分类代码、等字段的主题浏览功能, 可在系统提供的词库中查找准确的主题词检索。出版物类型、检索结果的排列顺序等。
实例:用关键词查找有关“肿瘤间质血管发生的调控及意义”方面的文献。首先选择Pro Quest Health and Medical Complete在多个字段中分别输入“Vascular endothelial growth factor”血管内皮生长因子;肿瘤间质血管“Stromal blood vessel”及间质“Stroma”三个关键词, 在字段的下拉菜单中都选“引文和摘要”, 表示这三个关键词都在引文和摘要中出现。时间限定在2005-2009年之间, 并发表在学术期刊上的全文文献。点击“Search”按钮。检索结果:共检出5篇符合条件的相关文献。
2.3.3 主题检索 (Topics) 。在无法给出检索词时可采用此方法, 这里
列出了数据库记录涉及的主题, 通过逐层点击主题概念, 获得检索结果。点击系统界面上方“主题指南”按钮, 进入此检索界面。主要有两个功能:a.查找定位主题, 检索某一特定主题的文献在检索框输入一个术语, 点击“查找短语”。检索到的主题词可有“所有主题”、“学科”、“公司”、“人员”、“位置”五大类显示, 可分别点击查看, 找到要检索的主题词。点击主题词下“查看文章”按钮, 查看该主题的文章。b.浏览学科目录, 检索某一特定主题的文献, 点击“browse the subject directory按学科浏览主题”按钮, 显示系统的学科分类。主题树使文章查找非常容易。只需在列表中逐级点击类目查看相关主题词, 直至最后一级, 显示“查看文章”, 可点击查看该主题的相关文献。
实例:用主题检索有关“水污染的治理与改善———细菌”。从主题检索入手, 逐步限定条件, 缩小范围, 检出切题文献。点击“browse the subject directory”主题树中的主题类目“Environment”, 在Environment类下的四级类目中“Water pollution”点击“查看文章”, 共检出1554篇相关文献;进一步限定“Water pollution AND Bacteria”, 检出结果87篇;最后主题限定“Water treatment”水治理, 最终结果11篇。
2.3.4 出版物检索 (Pblication) 。
用于从出版物名称途径检索某报纸、杂志上的所有文章;也可按出版物名称字顺浏览杂志。进入出版物检索界面后, 在检索框中输入出版物的名称或第一个单词, 点击“search”, 可检索到某个具体出版物或含检索词的出版物, 如输入“The American Journal of Medicine”期刊名, 进入该出版物检索。可检索到该刊相关的年、卷、期及全文。也可点击检索框下的“Show all publications”浏览该数据库所包含的所有出版物名称列表。点击出版物的名称后, 可按年、卷、期索引浏览每期全文。
3 系统特点与检索策略
Pro Quest数据库系统的最大特点是实现了一次文献和二次文献的集成, 可随时获取全文信息, 实现文献一体化服务。Pro Quest数据库系统的主题检索, 为用户提供方便。系统提供了多项检索指南, 便于初学者使用。
3.1 实现高查全率。
查全率是定量从对象数据库中检索到相关条目的程度, 高的查全率可节省用户从其它数据库中查找相关信息的时间。在Pro Quest数据库检索中实现较高的查全率, 尽量多采用同义词、近义词构成检索式进行检索。
3.2 实现高查准率。
查准率是检索出的相关性条目数与检出的全部条目数之比。高的查准率可节省用户从检出的所有文档中过滤无用文档的时间。在Pro Quest数据库检索中实现较高的查准率, 可采取: (1) 尽量利用系统提供的限定条件选项, 对检索项目进行多重限定, (2) 在同一检索字段中, 增加检索条件限定, 并以“AND”连接, 实现精确检索。
摘要:主要介绍ProQuest数据库检索系统的检索功能与检索方法。该系统将二次文献与一次文献“捆绑”在一起, 用户使用查找全文十分方便。
关键词:ProQuest,数据库,检索方法
参考文献
[1]肖珑.互联网上的全文数据库与全文服务[J].大学图书馆学报, 2000 (3) :3-8.
[2]胡琼.基于WWW的全文检索系统检索性能探讨[J].情报科学, 2001, 19 (6) :639-642.
[3]肖京华.ProQuest ASTP数据库及其检索技巧[J].大学图书情报学刊, 2003 (3) :40-41.
[4]陈伟.ProQuest数据库及其检索利用[J].现代情报, 2004 (10) :146-148.
检索制度 篇7
专利作为技术创新的重要标志和体现,在很大程度上代表着一个国家或企业的技术水平和潜在的技术竞争力。专利文献检索在专利的申请、审查、管理和运用过程中具有重要作用。专利文献检索分为多种方式,包括关键词检索、语义检索等。为了提高查准率和查全率,使用关键词进行检索需要制定合适的检索策略,编写全面的检索式,但是由于检索策略或检索式本身的缺陷,可能导致漏检或者带来极大噪音,使得检索效率下降。因此,语义检索作为一种方便、快捷而又智能化的检索方式,在专利文献检索中得到广泛应用。
1 语义检索在专利文献检索中的应用
语义检索也称语义搜索,是通过对文献中原来的信息进行语义上的处理[1],将从中获得的各种概念数据组合成知识库,然后根据对用户提问的理解,从知识库中发掘用户需要的信息。其中,语义检索需要分析用户输入的各种形式的查询目标,例如通过关键字匹配或者与用户浏览交互的方法,将查询目标匹配到知识库中的类和实体,通过本体关系推导,发现与用户查询目标相关的概念。在专利文献检索领域,常见的语义检索系统有Patentics[2]、Total Patent[3]等,其中前者免费提供大部分功能,后者需要付费使用。
Patentics系统是集专利信息检索、下载、分析与管理为一体的平台系统,其网页版可以提供搜索、分类、统计以及文档和项目管理的功能。Patentics提供智能语义搜索工具,任意字词及组合、文本段落、全文都可以作为检索词,也可以将一件专利的全文当作一个概念进行检索,并且将与检索主题最相关的专利文献放在最前面。Patentics的数据库目前收录1971年至今的美国授权、申请专利全文,1981年至今的欧洲专利局EPO申请全文,1981年至今的世界知识产权组织的WO申请全文,1985年至今的中国发明、实用新型专利申请全文以及1900年至今的世界专利英文摘要,还收录各国审查员所做的检索报告和审查报告。
Patentics系统可以直接通过输入专利申请的公开号,得到与该专利申请相关的对比文件。当然,系统也提供传统的布尔检索、通配符、位置算符和截词符,只要选中“关键词搜索”选项,系统就会执行传统的检索方式。在检索专利申请的对比文件时,除了输入专利申请的公开号,也可以将公开号与关键词、公开日等字段结合使用,对得到的专利文献结果进一步筛选。例如申请号为CN2010101980992的专利申请,其申请日为2010年6月3日,公开号为CN102271423A,权利要求1为:一种多模终端的智能卡选择方法,其特征在于,包括:在终端需要发起通信业务的情况下,所述终端判断是否需要根据设置的智能卡选择策略进行智能卡选择;如果判断结果为是,则所述终端根据所述智能卡选择策略从所述终端上设置的多个智能卡中选择一个智能卡;如果判断结果为否,则所述终端提示用户进行智能卡选择,并根据所述用户的指示选择相应的智能卡;所述终端利用选择的所述智能卡发起所述通信业务。审查员在国家知识产权局的专利检索与服务系统(以下简称“S系统”)中,选择中国专利文摘数据库CNABS进行检索,使用的检索式为:((智能卡OR手机卡OR SIM OR USIM)S(双模OR多模OR双卡OR多卡OR一卡多号)S(选择OR选定OR选用OR选取))AND PD<2010-6-3,得到60篇专利文献。通过阅读这60篇专利文献,发现公开日为2008年7月9日的专利文献CN101217825A可以用于评价上述权利要求1的创造性。如果在Patentics系统中输入该专利申请的公开号CN102271423A并限制对比文件的公开日即:CN102271423 AND DI/20100603,在检索结果页面的第1页第17条即为专利文献CN101217825A,因而使用Patentics系统只需要阅读17篇专利文献就可以找到对比文件,大大减少了阅读量,提高了检索对比文件的效率。
2 语义检索系统的改进
2.1 提高与发明点相关的关键词的权重
Patentics系统虽然带来检索上的快捷,但是由于在输入专利文献的公开号时,系统是将所输入专利文献的全文当作一个概念进行检索,导致没有重点关注专利的发明点,也就是所要解决的技术问题和获得的技术效果,这样会出现很多的噪音文献,增加用户的阅读量。例如申请号为CN2010105741098的专利申请,其申请日为2010年12月6日,公开号为CN102104507A,其中权利要求1为:一种补丁检查的方法,应用于包括安全策略服务器、补丁服务器和多个客户端的系统中,其特征在于,在客户端进行补丁检查之前允许该客户端接入网络,该方法包括以下步骤:所述安全策略服务器获取各接入网络的客户端对应的上次补丁检查时间戳信息;如果所述时间戳信息与当前时间大于预设时长,则为对应的客户端设置第一标识;所述安全策略服务器从接入网络的具有第一标识的客户端中选择待检查客户端,并通知所述待检查客户端进行补丁检查;如果所述待检查客户端补丁检查不合格,则通过所述补丁服务器对所述待检查客户端的补丁进行更新。该申请的说明书中记载:现有技术中补丁检查的流程导致网络带宽和补丁服务器处理压力极大,而本发明具有的优点是可从整体上控制系统的打补丁的负载压力。审查员在S系统的CNABS数据库中使用代表解决的技术问题和有益效果的检索字段EFFECT,输入检索式:/EFFECT(软件or补丁)and服务器and压力,得到12篇专利文献,发现其中公开号为CN101179425A的专利文献可以用于评价权利要求1的创造性。但是,如果在Patentics系统使用语义检索,输入检索式CN101179425 AND DI/20101206,在检索结果页面的前3页共60篇专利文献中没有发现能够评价权利要求1的创造性的专利文献。
专利文献通常具有解决的技术问题和获得的技术效果,如果将专利文献的全文不分重点进行检索,有时候得不到好用的检索结果。为了解决这一缺陷,在进行语义检索的时候,可以将专利文献说明书中表示解决的技术问题的词语(例如问题、缺陷或缺点)以及表示取得的技术效果的词语(例如效果、目的、优势或优点等)附近的关键词加大权重,使得检索结果聚焦于专利申请的发明点,有助于提高具有相关技术问题和技术效果的专利文献在检索结果页面中的相关度排序。
2.2 使用对检索结果的反馈和审核机制
虽然Patentics系统收录各国审查员所做的检索报告和审查报告,但是其有一定局限性。首先,在时效上滞后,例如一件申请号为CN2008101050784的中国发明专利申请,通过检索中国专利查询系统[4],发现专利局已经在2012年11月14日发布驳回该申请的公告,但是Patentics系统目前仍未提供该专利申请引用的对比文件,也就是尚未收录审查意见通知书或检索报告;其次,对于审查员更换过对比文件或者使用多篇对比文件结合评价专利申请不具有创造性的情况,Patentics系统没有给出所引用的对比文件的优先级,即无法识别哪篇对比文件更能准确评价创造性。
Patentics系统向用户提供检索结果页面,并将检索结果按相关度进行排序,但是从上面为两篇专利申请检索对比文件的过程可以看出,Patentics系统目前所给的相关度排序并不准确。为了获得更加准确的对比文件相关度和排序,需要引入用户对检索结果的反馈机制。如图1所示语义检索系统的反馈模型,在检索过程中,用户首先输入某件专利文献的公开号,然后对检索结果中的文献进行浏览,如果最相关的文献已经排在第一位,并且用户满意检索结果,那么检索流程结束;如果排在前面的文献相关度不够,那么用户对各文献的相关度做出评价,将相关度最高的文献排在前面。例如在专利申请过程中,申请人可能在同一日既申请发明专利又申请实用新型专利,还有可能基于不同的保护角度,提交系列申请,那么当系统检索到完全相同的两篇专利文献时,就可以将这两篇专利文献相关度标为100%,将相关度次之的文献标为99%,以此类推,用户可以标出相关度排在前列的数篇专利文献。系统根据用户反馈的相关度排序,动态调整系统的检索模型,自动改进检索结果。经过用户的多次反馈以及检索模型的动态调整,系统就能建立一个比较合适的检索模型,使检索系统的性能不断提高。
虽然专利法给出了创造性的定义,但是由于对创造性评价尺度和所属技术领域技术人员的水平的理解差异,在实际评价创造性的过程中难免带有一定的主观因素[5]。因此,对同一篇对比文件,不同的用户可能会反馈不同的相关度,并且二者之间的差异可能很大。为了尽量减少这种差异,尽可能使判断相关度的标准一致,需要对用户为对比文件给出的相关度进行审核,待审核通过之后再根据相关度排序调整检索模型。另外,为了鼓励用户参与专利申请相关度评价,可以根据评价结果进行评分,并根据分数区间对用户进行分组,例如为某一专利申请检索对比文件时,用户给出的对比文件的相关度越高,给予用户的评分就越高,当用户分数达到一定级别时,用户就能够晋升高一级别的用户组,当用户所属用户组达到一定级别后,可以给予用户适当奖励,例如免费向用户提供需要付费才能使用到的部分或全部系统功能。因此,通过引入用户的反馈机制,可以提高语义检索系统中检索模型的合理性,通过对用户的反馈进行评分,提高用户参与评价的积极性,在系统和用户之间形成良性循环。
2.3 纳入非专利文献数据
Patentics系统的数据库是专利数据库,无法获取和识别非专利对比文件,因而当某件专利申请的审查意见通知书或者检索报告中引用非专利对比文件时,Patentics系统将无法根据非专利文件对检索系统模型进行调整,使其查准率和查全率受到影响。为了提高系统的查准率和查全率,需要录入影响较大的国内外非专利文献数据库,例如中国知网的CNKI数据库[6]、电气电子工程师学会IEEE数据库[7]等。
3 结束语
语义检索已经成为专利文献检索中一种常见的检索方式,本文从专利文献具有发明点的特殊属性入手,通过提高与发明点相关的关键词的权重来改进语义检索系统的检索模型,同时,根据对专利申请的创造性评价具有主观性的特点,引入对检索结果的用户反馈和审核机制,提高对比文件的相关度的评价准确性,另外,还通过引入非专利文献数据提高语义检索系统的查准率和查全率。经过以上改进,将显著提高语义检索系统进行检索对比文件的准确性,使得语义检索在专利文献检索中的应用更加广泛。
摘要:语义检索是专利文献检索中的一种常见方式,通过提高与专利发明点相关的关键词的权重,使用对检索结果的用户反馈和审核机制,纳入非专利文献数据,来改进语义检索系统的检索模型,提高检索对比文件的效率。
检索制度 篇8
1 PubMed与Embase
根据2012年最新数据表明, PubMed中经过MeSH标引的MEDLINE期刊有5627种, Embase包括MEDLINE在内的期刊有7961种, 这些期刊全部经过Emtree标引。PubMed是世界上使用最广泛的免费检索MEDLINE文献的检索系统, 它的学科范围包括生物医学和生命科学, 覆盖护理学、药学、牙科学、生化学、细胞生物学、卫生保健和兽医学等学科。Embase是全球最大最具权威性的生物医学与药理学文献数据库, 包括各种药物和疾病信息, 除基础医学和临床医学外, 还覆盖如药物研究、药理学、配药学、药剂学、药物副作用、毒物学人体医学 (临床与实验) 基础生物医学、生物工艺学、生物医学工程与仪器、保健策略与管理、药物经济学、医疗公共政策管理、公共职业与环境卫生、药物依赖性及滥用、精神科学、替代与补充医学、法医学和生物医学工程等学科。
2 MeSH与Emtree
医学词表编制的质量决定了对检索系统的检索效率。PubMed系统所用词表为MeSH, Embase系统所用词表为EMTREE, 因Embase工作人员参照MeSH于1988年编制了Emtree, 这两个著名的医学词表有共同之处, 但区别非常明显。对医学词表的比较研究, 有益于深入了解检索系统, 而且可以加深对情报检索语言的理论研究。
MeSH与Emtree这两个词表最大的不同是专指度的差异。专指度是指主题词与文献主题概念的切合程度, 揭示主题词在表达文献主题的深度和精度方面的能力。词表的专指度直接影响检索系统的查准率, 较高专指度的词表能够帮助用户获得更高查准率的检索结果。而专指度的高低与词表的主题词数量直接相关, 主题词越多说明词表的专指度越高。如表1所示的收词量上来看, Emtree收录的主题词是MeSH的2.4倍, 同义词也多出了七万多条, 从这一角度能够反应出利用Emtree检索比利用MeSH检索会获得更高的查准率。
同一个生物学或医学概念、术语, 在两个词表中的地位有较大区别。通常, Emtree使用更多的词语做主题词, 而有可能这些词语被MeSH当作入口词来使用, 这样MeSH的概念体系可能更加清晰, 同时可以防止相关文献在彼此同义或近义的各个词下的分散。但从总词汇量方面来讲, Emtree的词汇数量远远多于MeSH词汇数量, 对于用户来讲, 更多的词汇意味着易用性更好。而且Emtree针对药物主题词专门设置了17个核心的药物副主题词和47种给药途径, 如药物副作用反应、临床试验或药物分析等, 增强索引的深度。针对疾病主题词专门设置了14个疾病副主题词, 包括恢复、副作用、外科手术、治疗等, 帮助用户精确地检索疾病的某一类或几类分支的相关文献, 提高相关性。这些在Embase数据库中的文献记录可以清晰地体现, 文献被标引时使用的主题词被分成了药物、疾病和其他三种类型。
3 检索效果比较
本文通过对两个检索系统中主题词扩展检索 (即包括被检索词及其所有下位词的检索) 进行测试, 比较分析其检出量之间的差异, 进而评价其检索效率, 为教学过程中学员理解和掌握主题词检索法示范, 最终为用户选取最佳检索平台提供理论依据和参考。
3.1 常见疾病、药物或研究方向等医药概念检索
因PubMed与Embase的基本检索都具有检索词自动转换或匹配主题词功能, 故检索结果也同时对比给出基本检索命中文献数。
表2 PubMed与Embase检索结果命中文献数统计
从表2中我们可以看到, 常见疾病如心脏病和糖尿病的检索文献命中率Embase都好于PubMed;常见药物使用商品名芬必得, Embase能够通过商品名匹配到主题词布洛芬, 命中文献, PubMed几乎不能识别芬必得, 只有使用布洛芬才能命中约为Embase五分之一的文献。生物学领域的转基因动物研究, Embase的命中文献数远远少于PubMed, 可以推见PubMed的生物学领域的文献较多。而2012年诺贝尔医学奖的研究领域“诱导多功能干细胞”, 在Embase中收录的文献数量可观, 而PubMed主题词检索的命中文献仅为它的七分之一多。
3.2 专题检索
例:查找相关病毒性胃肠炎 (viral gastroenteritis) 的药物经济学 (pharmacoeconomics) 方面的文献。为查找到较为准确全面的文献, 我们尽量使用主题词检索法和关键词词组相结合的方式。经分析与实际操作。PubMed中“病毒性胃肠炎”没有主题词, 但上位词“胃肠炎”有主题词, 且它有一个“病毒学virology”的副主题词, 故检索式为 ("Gastroenteritis/virology"[Mesh]OR“viral gastroenteritis”) AND pharmacoeconomics, 命中文献数为3。为了扩大检索结果范围, 使用“病毒性胃肠炎”的上位词“胃肠炎”, 检索式为gastroenteritis AND pharmacoeconomics, 命中文献数为62。Embase中“病毒性胃肠炎”这一概念有对应的主题词, 故检索式非常简单:pharmacoeconomics AND'viral gastroenteritis', 检索效率也高, 命中文献数为77条。
在医药文献信息检索课程中通过对MeSH与Emtree两个著名医学主题词表的对比分析与研究, 并结合PubMed与Embase中的主题词检索途径的实例检索, 帮助学员理解医学主题词掌握主题词检索法, 并能够通过结合主题词表来判断检索系统优劣, 最终达到选择合适的检索系统与检索方法的目的。
摘要:文章通过PubMed与Embase两个检索系统及其各自主题词表MeSH与Emtree的对比研究, 结合应用实例, 阐明了医药文献信息检索课程中的医学主题词、主题词表及主题词检索法的理解与应用, 使学员认识和了解主题词这种重要的检索手段, 同时也通过对比发现不同检索系统主题词检索的重要意义。
关键词:MeSH,Emtree,主题词,主题词表,主题词检索法
参考文献
[1]周晓政.EMBASE.com的检索特色[J].图书情报工作, 2005, 49 (5) :136-139.
[2]于双成.逢大欣与李占兵, MEDLARS与EMBASE所用词表的比较研究[J].情报理论与实践, 1996, 19 (5) :38-40.
[3]顾萍.PubMed与EMBASE.com检索功能对比分析[J].医学信息, 2006, 19 (11) :1975-1977.