统一检索

2024-09-07

统一检索（精选3篇）

统一检索篇1

随着图书馆购买的电子资源越来越多, 提供给用户的检索入口也越来越多, 为了帮助用户用最简单的方式查找所有电子资源, 统一检索的方式应运而生。统一检索也称为联邦检索、跨库检索或一站式检索, 通过一个统一界面帮助用户在多个异构数据库中检索信息, 户的检索要求转化为不同数据源的检索表达式, 并发地检索本地的和广域网上的多个分布式异构数据源, 并对检索结果加以整合, 在经过去重和排序等操作后, 以统一的格式将结果呈现给用户。[1]

目前国内外已有不少跨库检索系统, 像艾利贝斯公司的metalib系统, 清华大学的同方异构统一检索平台 (USP) 等。One Search是南京乐致安信息技术有限公司开发的统一资源检索系统, 它包括书刊资源整合和电子文献整合两大模块。它支持所有中外文数据库的整合。2012年南京航空航天大学图书馆购入One Search统一检索系统, 主要是针对南京航空航天大学图书馆的电子资源进行跨库检索。整合了目前该图书馆购买的几乎所有中外文数据库。

影响统一检索平台质量的标准有很多, 主要包括资源整合功能、检索功能、检索结果处理、检索效率以及服务功能5大方面, 其中既包括一般检索系统通用的评价标准, 也包括统一检索平台特有的标准。[2]

1 One Search统一检索系统评价

1.1 资源整合功能

统一检索平台的最重要优势即在于其资源的丰富性、多样性, 涵盖资源的广度是非常重要的。此外, 检索平台及其网站对于资源的揭示以及资源获取的便利性也影响着用户的使用体验。

1.1.1 资源导航

分类导航, 由于统一检索平台中的资源来源非常广泛, 因此不同资源类型的分类导航对于用户熟悉了解资源有重要意义。One Search平台可以按常用数据库、全部数据库、按字母、按学科、按资源类型浏览数据库, 也可以通过检索框查找数据库。

资源揭示, 即是否对此平台包含的资源进行说明。One Search平台并未对资源进行描述说明, 因此对不熟悉数据库使用的用户来说比较费力。应对地址、文献类型、时间跨度、内容简介、覆盖范围、语种、出版商、检索注意事项等进行说明, 以便用户了解筛选。

对于同类资源也没有分类浏览, 也就是不能多层筛选数据库。对于同类资源应建立丰富、多样、准确的分类索引表, 方便用户在使用的过程中准确定位数据库资源。

1.1.2 资源整合

资源整合主要描述其资源范围。包括整合数据库的范围, 资源的更新速度, 是否与原数据库同步更新, 不同类型的资源整合程度如何, 以及是否有不同数据库引文间的相互揭示。

One Search平台目前整合的数据库有90个, 包括的学科有材料科学、机械、电子电气、计算机/信息科学、能源/动力工程、法律、经济、管理学、社会科学、语言/文学、航空航天、土木工程、数学、化学/化工、物理、光学等。资源更新与数据库同步, 无不同数据库引文间的相互揭示。

1.1.3 资源获取

主要是指查找到所需的资源后, 其获取方式是否便利、多样;获取资源的链接是否便利可用, 有没有失效的情况;此外, 可否直接链接至全文获取也是比较重要的评价标准。

通过One Search查到所需的文献后, 有的资源下方有“获取全文”的链接, 而大多数都是没有“获取全文”链接, 因此对用户来说需要花费更多的时间获取资源。对于可以获取全文的资源, 它提供了两种获取全文的方式, 一种是点击题名可链接至源数据库, 下载全文。另一种是文章后面的“获取全文”链接, 有的链接到的是数据库的检索页面, 需重新输入检索词检索获取文献, 不能直接链接全文获取, 有的链接可直接链接至全文获取。

1.2 检索功能

检索功能直接影响信息检索的查全率、查准率, 检索的灵活性、方便性及检索速度, 是评价资源检索平台的重要指标。[3]

1.2.1 检索方式

One Search平台既可以进行简单检索、高级检索还可以在返回结果之内或所有内容之内进行二次检索。高级检索可以对时间进行限定检索。检索时勾选的数据库会在“本次检索的范围”中显示出来, 要重新选择可以全部清空, 去除哪个数据库可将该数据库前的√勾选掉。

One Search平台的分类浏览功能没有按全文/文摘、中文/外文数据库浏览检索, 分类浏览查找不详尽。

1.2.2 检索字段

此平台的简单检索和高级检索都提供篇名、关键词、主题词、摘要、全文和任意等检索字段的检索, 不提供来源、出版商等检索字段。高级检索最多可联合3个字段, 同时可限定时间检索。没有对专业的数据库进行专门的检索字段设置, 比如没有针对会议文献的会议名称和地点的检索, 也没有针对标准文献的标准号的检索。

1.2.3 检索技术

此平台提供AND、OR、NOT布尔逻辑检索, 不支持扩检缩检与精确检索技术, 不支持相关检索和差异化检索, 这可能与其整合平台的定位以及检索技术有关。既定位为统一资源检索平台, 为了保持界面的简洁与使用的简易性, 牺牲对特定数据库的检索是情有可原的。同时, 在统一检索平台下, 对单个数据库增加检索字段, 也需要较为复杂的实现技术与界面。

在实现二次检索功能的相关检索方面, 此平台只提供了一个检索框, 而对检索字段无要求, 这就不能获取同类资源。

1.2.4 检索界面

此平台的检索界面无检索用时显示, 初级与高级检索页面无需切换, 检索结果和检索页面切换顺利, 没有提供搜索词修正提醒。在显眼的地方提供了检索帮助。

1.3 检索结果处理

检索结果处理是指对初次检索结果进行调整、细化, 最终获得所需资源的过程。

此平台不提供检索提问修改, 没有修改建议, 提供在结果中进行二次检索。不支持二次分类检索。检索结果显示的是基本信息, 不提供详细信息的显示。检索结果无去重功能, 采用先返回、先显示的模式, 减少等待时间, 左边的聚类栏根据返回的顺序和类型动态的显示所有检索资源库的结果情况。对于检索结果的输出, 只能单个浏览, 不提供结果批量输出, 即对搜索结果不能标记、筛选、保存。

1.4 检索效率

此平台检索结果无用时显示, 检索时, 等待比较久, 选择的数据库越多越费时。没有设置数据库的全选框, 选择数据库只能逐个勾选。检索时有时会有连接超时的现象, 要重新检索, 用时很久。在此平台上利用题名检索分别含有“computer”、“information”的文献, 选择的数据库有SCI、Elsevier、Ei、ACM, 然后再分别在这4个数据库检索题名中含有“computer”和“information”的文献 (见表1) 。

检索截止日期2013年1月9日

从检索结果看, One Search平台检索SCI数据库不全, 其中题名中含有computer的此平台只检索到33篇, 就是显示了SCI单库检索结果的前33篇文章, 题名中含有information的此平台只检索到60篇, 就是显示了SCI单库检索结果的前60篇文章。并且点击此平台显示的检索SCI的结果的某篇文章的题名链接不到文献详细信息, 出现的是“无效的查询。请检查时间跨度是否在选择的数据库的覆盖范围内”。其他三个库Elsevier、Ei、ACM查准率为100%。

1.5 服务功能

此平台没有用户页面定制功能以及个性化服务, 如不提供个人帐户、保存检索策略、保存电子资源等等, 以方便用户随时浏览。也不提供原文传递、参考咨询、馆际互借等其他服务方式。

2 结语

在One Search整合系统统一检索平台的评价中发现: (1) 对数据库的各种查找方式方便了数据库的查询, 减少了选择数据库的困扰, 但是对数据库的分类还不够多样, 也不能在不同的资源类型中进行组配检索。 (2) 帮助文件实用性不强, 更像是对功能的简单介绍, 没有突出特点和有针对性的回答问题。 (3) 提供的电子资源特别丰富, 但是不是所有资源都是使用者所需, 也没有设置快捷的方式, 所以难免会给使用者造成困扰;而且检索数量太大, 相关性不强的信息会影响使用。 (4) 实现了中文和英文检索, 但是跨语言检索功能很薄弱。 (5) 系统应该提供错误修正功能, 比如用户输入出现错误。Google界面就会提示“您是不是要找”就会因为这样能更好的避免检索时间的无端浪费, 从而提高检索效率。 (6) 系统应加强与其他服务方式比如原文传递、参考咨询等进行有效集成, 以满足用户多样、动态的信息需求。 (7) 对于使用者来说可能不很熟悉自己所查资料的专业数据库, 因此选择的很多, 这就降低了检索效率。 (8) 除SCI外, 查准率较高, 但检索用时久, 检索结果处理不人性化。 (9) 检索结果不提供多种形式的结果保存, 如存盘、打印、记住检索式等;对于结果输出, 不可利用E-mail发送检索结果, 或直接输出到文献信息管理软件。

参考文献

[1]李广建, 张智雄.国外跨库检索系统研究项目及其特点[J].情报理论与实践, 2004, (4) :444-447.

[2]邓晓音.统一检索平台评价标准及比较研究——以CALIS“外文期刊网”及交大图书馆“思源探索”检索平台为例[J].情报科学, 2012, 30 (12) :1844-1848+1953.

[3]罗春荣.网络环境下数据库检索平台的评价[J].图书馆理论与实践, 2004, (4) :1-4.

统一检索篇2

目前,电力企业在信息化建设中,部署了大量的信息安全防护设备,这些设备在抵御内外部攻击的同时,产生了大量的日志信息供安全人员进行分析和优化防护策略。对全网各个设备、系统的日志进行全面分析,查看是否存在攻击迹象,同时收集保存日志并进行分析也是国家和电力行业对信息安全工作的基本要求。目前国内有较多的安全审计产品,但均存在一定的局限性。因此在实际应用中常见的安全审计系统并不能满足日益多元化的日志收集及海量的日志搜索、分析功能,需要针对统一安全信息的高效检索技术开展研究,搭建全网统一的检索分析平台。

1 日志检索技术现状

总体来说,当前在日志检索方面,主要有关系数据库和全文检索两种方式。

1.1 关系数据库检索引擎

关系型数据库作为多种应用的后台数据存储及检索的工具的历史由来已久,通过提供索引功能,使得关系数据库在精确检索性能方面拥有巨大的优势。

但当在数据库中执行模糊搜索时,数据库索引不起作用,搜索性能不高。如果是需要对多个关键词进行模糊匹配其效率将更加低下。

1.2 全文检索引擎

而全文数据库可以说是介于文件系统和关系数据库之间的体系结构,它一般包含的实体少,实体间的关联也少,结构相对简单,对事务性和并发性要求不高。全文数据库是一种存储文献全文或其主要部分并能提供全文检索的源数据库,其主要特点是:

(1)数据结构的非结构性。

(2)包含信息的原始性。

(3)信息检索的彻底性。可表示检索词间的复杂位置关系。

(4)所用检索语言的自然性。以自然语言检索所需文献,更加灵活。

2 电力企业统一安全信息检索平台研究

2.1 平台关键技术研究

(1)检索引擎的比较与选择

通过在简易的关系型数据库引擎检索效率实验表明,在100、500、1000 万条日志记录的数据表中,对某一字段进行精确查询和模糊查询,模糊查询的时间要远远多于精确查询,100 万条记录的模糊查询时间基本为3 秒以上。而在同样的测试环境下,使用全文检索引擎对同样100 万条日志中搜索内容,基本在100 毫秒左右可以完成[3]。

因此,综合日志预处理和检索性能方面的情况,应当选择全文检索引擎。Lucene作为一种技术成熟和应用广泛的全文检索引擎,用于本平台设计。

(2)海量日志并行检索架构设计

为了进一步提高检索效率,应采用并行检索架构,多台检索服务器并行检索,统一返回结果,避免系统瓶颈。

日志子检索服务器在接收到查询请求后,首先解析查询条件和排序条件,其次按照查询条件获得对应的Searcher,执行检索,然后按照排序条件将检索结果排序,最后将结果返回给查询代理。

在平台设计中,使用Lucene的多线程并行搜索器Parallel Multisearcher实现多线程同步执行搜索并合并搜索结果[4]。为了确保并行检索条件下的检索结果不重复、不遗漏,需要确保每台检索服务器所保存的日志和索引都不相同并且没有遗漏。

(3)索引分布式存储策略

由于采用了并行检索架构,日志的索引也需要进行分布式存储。每台检索服务器根据预先设定的时间分割规则进行索引编制并建立Searcher,将这些所有的Searcher都合并到一个Parallel Multisearcher中,然后使用它执行并行检索。

索引时间区分策略是:每单位时间段T内的索引数据都被存储在与该T时间段相对应的路径中。对于T的选择上,太大则失去了多线程索引的意义,太小则频繁的拆分合并又会占用较多系统资源[5]。根据平均日志量和检索引擎的最佳性能区间,在平台设计中T取1 小时作为单位时间,每个时间单位内的日志数据是100 多万条左右,处于最佳性能区间。

此时,对于某个时间段内的日志记录检索,只需要读取相应时间段目录下的索引即可,而不必读取整个索引空间,提高了检索效率,并且易于分布式实现。

(4)日志关联分析技术

随着攻击行为的隐蔽性不断提升,一旦隐蔽攻击成功绕过传统安全设备,那么只有通过日志关联分析技术识别电力企业内部的隐蔽攻击,进而及时阻断。

日志关联分析需具备扩宽的检测时间域,对全网中的全流量、日志数据进行存储分析。这样在检测到可疑行为时,可以回溯与攻击行为相关的历史流量数据进行关联分析。之前已发生过、未能引起分析人员注意的报警,有可能隐藏着蓄意攻击意图,通过这种回溯关联分析就有可能进行有效识别。有了全面安全信息的存储,就有可能回溯到任意历史时刻,采用新的检测特征和检测技术,对已发生的流量、日志进行任意粒度的分析。对流量数据进行细粒度协议解析和应用还原,通过大数据挖掘技术建立业务应用场景、攻击场景和关联知识库,精确识别异常行为以及伪装成正常业务的攻击行为[1]。

平台应用多种聚合及挖掘技术,通过编写高级的检索语句,能够实现告警、图形化展现等多种维度的深入关联分析。

2.2 平台架构及功能设计

(1)格式化日志存储

模块提供数据采集层及外部终端事件接口获取到的各类日志信息及安全信息,这部分信息可以使用统一的数据库格式进行存储,本功能完整包含原有安全审计系统相关功能,并利用分布式存储提高检索效率。

(2)原始日志及非格式化信息存储

针对归档的原始日志和应用系统等其他无法格式化分析的信息进行存储,并利用分布式存储提高检索效率。

(3)索引

对格式化信息和原始日志及非格式化信息进行统一索引,为高速检索提供基础支持:索引范围涵盖应用、服务器、网络设备中的所有日志、配置、信息、trap、告警、度量以及其他系统性能数据。可灵活地从文件、网络端口、数据库、自定义API和接口中实时或按需访问数据,索引对原始数据的完整性无任何影响。

(4)搜索

提供类似于互联网搜索引擎的搜索接口,实现如百度、谷歌等自然语言模糊检索以及利用检索语言的高级准确检索功能,利用分布式检索技术进一步提高检索效率。

2.3 平台主要功能及实现

(1)仪表板

【仪表板】功能,是对于所监控系统的一个纵览,其模块可以进行自定义,系统初始化也内置一部分,如攻击来源地理图、事件分类饼图,事件等级排名、源地址、目的地址排名等。管理人员可以看到组织整体安全状态,运行维护人员可以看到当前发生的事件并进一步采取行动。

(2)搜索

在搜索框中输入搜索关键字后,可以预配置过滤条件,缩小搜索结果数量。

如果简单搜索的功能无法满足实际需求,可以使用高级搜索功能,灵活应用聚合、多条件关联等,对异常行为进行检查。所有的搜索语句和过滤条件均可以进行保存,从而可以持续关注、形成告警、首页可视化展示或产生报表。

3 结束语

针对统一安全信息检索平台在技术上和应用上我们采用全文检索引擎解决关系型数据库面对海量日志存储与检索效率不高并且要求日志格式化解析的问题,使用并行检索和索引分布式存储技术,解决了海量数据的高效存储和检索问题,同时支持任意格式日志的搜索。通过开发灵活的搜索功能,借助全文搜索引擎,实现海量数据的检索及关联分析,为电力企业开展海量安全信息深度挖掘,检测并发现隐蔽攻击提供了基础支持平台。

后续应基于本平台,利用聚类等数据挖掘算法,结合企业实际安全模型,构建安全信息挖掘扩展包,从而在看似正常的日志中发现隐蔽的攻击行为,避免安全风险。

参考文献

[1]翟立东,李跃,贾召鹏等.融合网络空间的APT威胁检测与防护[J].信息网络安全,2013.

[2]周平.Lucene全文检索引擎技术及应用[J].重庆工学院学报(自然科学版),第4期21卷.

[3]王学辉.lucene与关系数据库对比[J].数据库及信息管理,2007.

[4]刘秦毅.索引时间戳:一种高效的文本索引系统设计方法[J].计算机科学与工程,1994.

[5]赵捧未.并行信息检索综述[J].情报学报,第5期第12卷.

统一检索篇3

关键词：图像检索,LBP,GLCM,Canberra距离

0 引言

如何有效地从庞大的图像数据库中浏览、检索和分类出所需的图像是亟需解决的问题。相关研究也已有很多,文献[1]提出一种基于局部边缘二值模式(LBP)的图像检索,取得了较好的效果,明显提高了分辨能力。文献[2]进行了基于灰度共生矩阵(GLCM)算法的图像纹理特征分析,说明了GLCM在一定程度上反映了纹理图像中各灰度值在空间上的分布特性。

基于上述研究,提出一种融合统一模式的LBP特征和GLCM特征的图像检索算法。首先,利用统一模式的LBP算子处理图像,得到图像的LBP直方图特征。再对图像在0°、45°、90°、135°不同方向下的GLCM的对比度、相关性、能量、同质系数四个量的均值和标准差进行计算。然后,融合LBP直方图特征与GLCM纹理特征作为图像检索的特征,利用Canberra距离进行相似度度量,实现图像的检索。

1 数学基础

1.1 LBP算子

局部二值模式(LBP)[3]是一种基于灰度描述图像纹理特征的不相关算子,它通过对图像任意一点与其周围点的灰度值的大小关系来表征图像的局部纹理特征。

基本的LBP算子是一个大小为R的矩形块,此矩形中的一个中心子块和8个邻近子块对应着9个灰度值。为了能提取不同尺度的纹理特征,对基本的LBP算子进行了改进,将中心点的邻域扩展为一个以该点为圆心,半径为R的区域,则其采样点的个数为R所限制,通常记作LBPP,R,基本LBP算子定义如式(1)所示。表示在半径为R的圆形邻域内有P个像素点。

Ojala提出了采用一种"统一模式"对基本LBP算子的二进制模式种类进行降维[4]。Au2LBP(P,R)表示一种统一模式的LBP算子,它是指当一个LBP算子的二进制特征值被视为首尾相连环形时,至多存在两次由0到1或者是1到0的转换,该算子称为统一模式LBP算子。均匀化的LBP算子使图像的特征向量的维数降低,而且统一模式占总模式中的绝大多数,这样可以在不损失太多信息的情况下,节约内存空间,提高运算速度。

1.2 GLCM算法

灰度共生矩阵[5]方法是常用的纹理统计分析方法,它的定义是灰度为i和j的一对像素点位置方向为θ ,距离为d的概率记为P(i,j,d, θ)。其中,相对距离d是用像素数量表示的相对距离;相对方向θ一般考虑4个方向,水平、对角线、垂直、反对角线(0°、45°、90°、135°)。

用灰度共生矩阵表示图像的纹理信息时,常用对比度、相关性、能量、同质系数四个量,分别记为f1,f2,f3,f4,它们的计算公式如式(2)~(5)所示。

1.3 相似度度量

Kokare等人[6]的实验结果表明,与其它几种距离相似性度量相比,Canberra距离在纹理图像检索中能够取得较好的检索精度。如果X和Y分别表示查询图像和图像库中的目标图像的n维特征向量,Canberra距离相似性度量公式为

2 图像检索的一般步骤

本文提出的图像检索算法的实现步骤如下。

(1)对图像数据库中的图像分别进行统一模式的LBP运算得到图像的LBP直方图特征。

(2)按照公式(2)~(5)计算图像在0°、45°、90°、135°不同方向下的GLCM的对比度、相关性、能量、同质系数四个量的均值和标准差。

(3)融合步骤(1)、(2)计算得到的LBP直方图特征和GLCM纹理特征作为查询图像的特征向量。

(4)计算待检索图像的LBP直方图特征与GLCM纹理统计特征。

(5)计算待检索图像的特征向量与检索数据库中每幅图像的特征图像之间的距离。

(6)根据步骤(5)计算得到的距离大小输出查询结果。

3 实验结果与分析

为检验本文方法的检索效果,分别应用Outex纹理图像库和Brodatz纹理图像库对算法进行了实验研究。Outex纹理图像数据库中部分图像如图1所示。首先,将选取的50幅图像灰度变化后转换成大小为512×512的图像,再分割为16幅(128×128)不重叠的图像。

Brodatz纹理图像库共包含112种自然纹理,分为均匀和非均匀2类。均匀纹理图像的纹理方向是一致的,结构分布基本均匀,如图2所示。非均匀纹理图像的纹理方向较为混乱,结构分布也无规律性,如图3所示。实验将Brodatz图像库中图像转换成大小为512×512的图像,再分割为16幅不重叠的图像。

为了评价算法的准确性,采用平均查准率作为评价检索性能的标准[7]。其中每幅图像的查准率为hi,平均查准率η定义为

其中,n为实际检索到的与查询图像属于同一类的图像数目,N为理论上图像库中与查询图像属于同一类的图像数目,M为图像数据库中图像总数。理论上图像库中有16幅(含自身)图像与查询图像属于同一类,因此,N=16。

实验1验证算法的有效性。在Outex纹理图像库上,选择半径R=1,像素点数P=8的统一模式的LBP算子,并选择0°、45°、90°、135°四个方向和距离d=1的GLCM算法进行图像纹理特征提取,采用Canberra距离进行相似度度量。将本文算法的检索的平均查准率与文献[8]进行对比实验。结果如表1所示。

从表1看出,本文算法的平均查准率均高于文献[8]。说明本文算法具有很好的有效性。

实验2验证算法的鲁棒性。在Outex纹理图像库和Brodatz纹理图像库上,采用本文算法进行图像检索实验,结果如表2所示。

从表2看出,当N=100时,本文算法在这两个纹理图像库上的平均查准率达到94.99%和93.36%,说明本文算法具有很好的鲁棒性。

4 结语

【统一检索】推荐阅读：

统一安全信息检索06-23

文献信息检索课程文献检索参考课题05-24

动态检索05-29

检索算法05-29

语义检索07-04

检索软件07-29

文件检索09-06