检索空间(通用4篇)
检索空间 篇1
1 空间数据元介绍及信息检索
1.1 元数据的基本概念
地理空间元数据(Geospatial Metadata)就是在地理信息中用于描述地理数据集的内容、质量、表示方式、空间参考、管理方式以及其它特征的数据。它能够帮助数据生产者完整、充分地描述数据集,从而让用户能够理解数据的内容、假设和限制,并根据应用的需要对数据集的应用做出正确的评估。
关于地理空间元数据的作用,根据FGDC、ISO等的相关手册和说明,可归纳为:
用来组织和管理空间信息,并挖掘空间信息资源;
帮助数据使用者查询、理解和使用所需空间信息;
维护和延续一个机构对数据的投资;
提供数据转换方面的信息;
用来建立空间信息的数据目录和数据交换中心。
关于地理空间元数据的理论问题,涉及到地理信息的模型建立理论、表示理论、空间参照系理论、质量体系理论以及计算机、通信等信息技术相关理论,例如数据集的完备性、逻辑一致性、位置精度、时间精度、专题精度等质量评价要素是元数据质量信息部分的主要元素。通过对元数据理论的探讨,有利于元数据的认识和标准的制定。
1.2 信息检索协议
近20年以来信息检索都是以Z39.50协议为核心。Z39.50协议的出现为空间元数据的分布式检索指明了道路,因此许多基于Z39.50的检索软件相继出现。最具代表性的是美国网络信息发现与检索中心开发的Isite软件,它支持Z39.50检索标准,并且与WWW相结合。I-Site系统框架结构如图1所示,图中显示客户端可以直接以Z39.50客户端软件连接Z39.50服务器Zserver,也可以通过浏览器连接。若通过浏览器连接,则在WWW服务器和Z39.50服务器之间必须有网关。如图1所示,它包括如下几个主要的部分:
Z39.50 client:一个简单的基于Z39.50的客户端软件。使用户能够直接通过TCP/IP协议连接到Z39.50服务器,进行信息检索和获取。
Z39.50 server:作为I-Site的核心,Z39.50 server是Z39.50-1992服务器端的一个实现。它可以接收从Z39.50客户端发来的查询请求,经过分析处理后通过Search API发送给本地或异地的信息所在地,得到查询结果后按指定的格式返回给客户端。
Search API:使用户可以将自己选定的搜索引擎或数据库查询引入到系统中来。目前支持全文索引和检索(比如I-index和I-search)、基于命令行的查询协议(Script:用户可以定义自己的Script语言来组织Z39.50 server处理后的查询,以命令行的形式传给自己的搜索引擎)。用户也可以直接基于I-Site提供的sapi.c来编程实现接口。
Zclient gateway:使用户能够直接通过浏览器将查询信息发送到Z39.50 server,并且可以将查询结果以HTML格式返回给浏览器。
I-index:是用来帮助元数据管理者在指定的数据集上建立索引的工具。目前主要是将某个目录下的元数据文件做一个倒排表,以备做全文检索。
I-search:是用来对I-index处理过的元数据文件做全文检索。
一系列的元数据的编辑工具和文件有效性检查工具:提供了支持各种格式的元数据的编辑工具(如xtme)和有效性检查工具(如mp)。
另一个享有知名度的软件是由美国Blue Angel Technologies公司开发的MetStar软件,它是一个基于互联网络的集成的知识管理系统,它提供了一个端到端、在Internet或Intranet上进行元数据输入、管理、发布和使用的解决方案。其核心产品MetaStar Enterprise集成了数据库、搜索引擎和Web技术,提供对XML数据进行类似标准数据库特征的添加、更新、删除的能力,能够对数据进行实时的更新和索引,还提供事件驱动的工作流特征来进行数据管理,它包括下面几个组件:
Data Entry:是Enterprise的核心组件。允许用户通过浏览器直接将XML数据放入关系数据库,并增量建立索引。通过HTML模板实现用户完全自定义,不需要编程配置。
Gateway:支持开放的信息检索协议,可以通过一个查询语句同步地查找一个或多个物理网络分布的服务器,并将从不同服务器返回的结果合并为一个结果集。提供基于Web的查询界面,允许用户通过客户化的HTML模板来自定义配置查询及检索结果页面。用Java实现,兼容于UNIX和Windows NT系列操作系统环境下的大多数流行的Web服务器。
Server:提供按照ISO23950协议在Internet或本地企业网上进行查找和检索全文数据和多媒体数据,支持大量的元数据专用标准和用户自定义标准。
Repository:强有力的数据管理工具,特别是对XML数据处理提供很高的效率,包括:数据结构定义、XML导入/导出、格式转换、浏览树生成、远程数据入口。支持ODBC作为关系数据库一致的数据访问接口。
2 空间元数据分布式检索的相关技术分析
2.1 元数据格式与XML
元数据格式的技术要求如下:
由于标准都是按照层次来定义的,显然元数据本身就能看成是一种树型结构,故其格式要能非常明确地反映出这样的嵌套层式数据结构。
元数据要做到简单易读且符合标准的要求,就必须是一种自描述的元语言。
需要一种模型将元数据标准精确地描述出来,并且能让程序根据模型自动对元数据进行校验。
元数据格式要能支持UNICODE,具备良好的移植性,与平台或传输协议无关。
虽然曾出现过多种元数据格式,但自从XML技术出现后,由于它能非常好地满足元数据的各项技术要求,加上其推出后获得了业界的一致推崇和大力支持,XML在元数据领域的应用获得迅速发展,很快成为主流。
2.1.1 XML元数据
XML技术普及后,很快成为元数据格式的主流,XML元数据由此诞生。空间元数据服务器的实现就是建立在XML元数据基础之上。
2.2 XML元数据存储技术
通过XML技术,元数据格式和标准的所遇到的问题迎刃而解。元数据存在的价值之一是为检索提供服务,而检索的前提就是能对元数据进行管理。数据管理系统(DMS)中最常见的是关系型数据库(RDBMS)。但是XML元数据往往不能直接存入RDBMS,故元数据存储技术成了元数据管理系统所解决的核心问题。由于元数据采用了XML格式,其存储技术实际上就是XML存储技术。XML存储基本上是3种方案:表映射、对象映射和XML数据库。
2.2.1 表映射
表映射是以RDBMS为基础的解决方案。XML的结构可以用Schema建模,而Schema又由复杂类型和简单类型构成。简单类型可以简单地映射到数据库相应的字段类型,复杂类型由若干个元素构成,故可以用数据表来表示。剩下的关键问题在于XML是树型结构,反映到Schema中变成复杂类型的相互嵌套。嵌套关系可以借助关系表间的约束关系(一对多、多对多等)来表示。如此Schema模型就能映射成一些相互关联的表,因此XML的结构也能靠这些表来体现,节点的内容则存入各表的字段中。读写XML文档时就是从这些相互关联的表读取、修改和删除数据。元数据的查询也可以映射成相应的SQL语句执行。
表映射方案采用RDBMS作为存储媒介,可以充分地利用其以下成熟技术:
索引技术。既然元数据存入表中,显然可以利用RDBMS的索引来加速检索操作的执行,而无需任何附加的代价
事务处理。RDBMS经过多年的发展,在事务处理方面已经非常成熟,且在获得了中间件的广泛支持,所以在事务整合方面有突出的优势。
备份和恢复。RDBMS都具备完善的备份和灾难恢复功能,尤其是Oracle、DB2等大型数据库,这方面有很多成熟的技术作保障,且相关的工具也多。因此可以避免数据安全方面的难题。
部署和管理。多数RDBMS都能支持现有的主流操作系统,部署方便,且配备界面友好的管理工具。
表管理最大限度地使用了现有成熟技术,其优势是显而易见的。但也存在若干问题:
XML元数据的嵌套树型结构往往较复杂,层次很多,这会导致表个数的急剧膨胀,对数据管理带来很多问题。况且表之间还存在关联,特别是对于那些没有提供表约束支持的数据库(如MySQL)问题更加棘手。由于读写数据的时候涉及多个表,这对性能也是个考验,一般不容易做到高性能。
系统优化较困难。为了支持多种数据库,实现方案对于每个数据库都会有些区别,这些差别导致优化方案同样不尽相同。且元数据查询转化成SQL执行,既然SQL语句由系统生成,若该SQL执行是瓶颈所在,则消除瓶颈的难度较大(只能对索引等进行改进,而通过无法重写SQL语句解决)。
2.2.2 对象映射
对象映射和表映射的思想基本一致,只是依靠面向对象数据(OODBMS)库来实现。在OODBMS不存在表的概念,取而代之的是对象。因此表映射的方案只要将复杂类型改为映射到对象即可,复杂类型间的嵌套转变为对象嵌套。相对而言,对象间的嵌套要比表关联更加灵活强大,所以对象更适合用来映射XML的结构。事实上,将XML Schema映射到对象的技术(称为XML绑定,XML Binding)已经是SOAP的基础之一,使用非常广泛。这使得对象映射的实现较简单,只要把XML依据Schema转化成对象,然后存入OODBMS即可。XML用对象表示的技术很易得,实现难度也不大。因此,对象映射方案的最大优点是实现简单。但是OODBMS的欠成熟阻碍了对象映射的应用:
OODBMS的性能并不理想,尽管发展多年,始终没有在性能方面有让人满意的表现。
事务处理不够成熟,在中间件很少获得支持,事务整合更加无从谈起。
备份和恢复相对RDBMS逊色。
无统一编程接口是系统实现的一大障碍。OODBMS多年来都未能像RDBMS那样(JDBC、ODBC等)制定出一套统一的编程接口,虽然OMG曾对此做过不少努力,但收效不理想。
增加了用户的总体部署和维护成本。由于现在很多业务数据都是采用RDBMS,而对象映射又要求使用OODBMS,这样用户不得不为此付出更多的资金,且系统的维和管理任务加重,成本增加。
由此可见采用对象映射技术风险是比较大的,青睐于该方案一般为OODBMS厂商或者具备关系对象模型技术的RDBMS厂商(如Oracle就采用了该方案)。
2.2.3 XML数据库
最方便的方案莫过于直接使用XML数据库产品。XML数据库产品主要有两类:XML本地数据库(XML Native Database)和RDBMS的XML扩展支持。
XML本地数据库是一种完全为存储XML数据而设计的数据库,针对XML的树型结构采用了全新的设计,尤其在索引方面有不少独到之处。但该技术尚不成熟,因此它遇到的障碍和OODBMS是类似的,且更加严重,故依赖相关产品风险较高。
随着XML的日益普及,很多RDBMS厂商都提供了XML存储的支持,如Oracle、DB2和SQL Server等。但这些扩展并不在任何标准的框架下进行,且相互间的功能强弱也存在很大差异,甚至相同厂商的不同版本产品在这方面也存在大变动。此外,有些RDBMS将XML数据当作纯文本数据来对待,这并不符合空间元数据的要求。因此,RDBMS的XML支持同样存在高风险。
显而易见,虽然XML数据库使用简单,但是以高风险为代价,且移植性差,受到很多方面的限制。
3 结束语
本章深入分析了空间元数据分布式检索相关的技术,详细论述了系统的技术构成,内容涉及元数据的数据格式、标准、存储等技术。从各项技术可以看出:近年来XML技术的蓬勃发展,使得它在元数据方面起到了举足轻重的作用。Web技术的发展促使了新一代信息检索协议的诞生,使得空间元数据的分布式检索获得了新的突破。
摘要:空间元数据描述了地理信息中空间数据集的内容、质量、表示方式、空间参考、管理方式以及其它特征,有助于空间数据的理解、发现、定位、挖掘、评估和维护。分析了设计空间元数据的检索服务方法。
关键词:空间元数据,Z39.50协议,XML
参考文献
[1]高睿,刘修国.空间数据库管理与发布技术研究[J].计算机应用研究,2005(9).
[2]冯艳杰,朱欣焰,胡海棠.基于XML的地理空间元数据网上发布[J].地理空间信息,2005(4).
[3]杨学伟,刘爱龙,张德.地理空间元数据互操作的研究[J].测绘科学与工程,2006(1).
[4]周新忠,余桹,陶亮,郭朋飞.关于地理空间元数据技术发展趋势的理论探讨[J].测绘科学,2007(2).
融合空间信息的彩色图像检索方法 篇2
1 相关工作及改进思路
本文提出了一种利用融合空间信息的彩色图像检索方法,先定义一个变量颜色粗糙度,它反映了图像中颜色在空间分布上的变化剧烈程度。当颜色变化比较剧烈时,选择较大维数的进行颜色量化,而当图像颜色在空间分布上变化较平缓时,选择维数较小进行颜色量化。算法根据粗糙度的不同采用分层处理的方法来进行图像匹配,当两幅图像的粗糙度在同一个变化范围内,由于生成的是相同维数的特征向量可直接采用欧式距离方法计算相似度,而对不同维数的向量采用一种改进的二次距离来计算。由于考虑了颜色在空间上的分布的变化程度,相对颜色直方图方法提高了检索精度,而相对颜色相关图法等来说速度有较大地提高,而且特别适合于检索空间关系不是非常相似的局部扭曲图像。
2 图像特征提取预处理
图像的颜色有多种表示方式,其中HSV空间是直方图最常用的,选择HSV颜色空间是因为它更接近于人们对颜色的主观认识。但是,由于人类色觉不能区分2nm范围内的色彩,所以当颜色变化较平缓、不明显时,人们较难区分时,传统的颜色量化方法,将色彩空间里的颜色按照统一的标准量化,这很难适应不同的检索要求。
为了克服上述缺点,我们希望能用一个量,来衡量整幅图像颜色在空间分布上的变化程度,当颜色变化较明显时,我们希望采用较小的颜色量化间隔,那么我们就能更好地区分不同的图像,而当图像变化较平缓时,我们希望减小量化维数,提高检索效率。所以,在这里引入一个颜色粗糙度的定义。
颜色粗糙度的定义:将图像平均分为M个个小块,在本文中我们将它分成(10*20块),假定每一个小块包含n个像素。每个小块图像的颜色均值为:Hm, m=0, 1,…,M-1。每个小块图像的颜色粗糙度为Sm, m=0, 1,…,M-1。它反映了当前小块中颜色变化的剧烈程度。而整幅图像的平均粗糙程度Savg来确定当前整幅图像颜色的变化程度。通过实验发现在HSV颜色空间中,求颜色的欧式距离时,为了简化运算提高处理速度,可以仅考虑色度(H分量),颜色粗糙度公式分别如下:其中hi表示小块图像内第i个像素的色度。
这样我们就可以通过图像的平均粗糙程度Savg来量化颜色空间,当Savg∈(0, 0.5]时,采用32维向量量化HSV颜色空间,当Savg∈ (1, 1.8],采用72维的向量量化HSV颜色空间,当,采用72维的向量量化HSV颜色空间,当Savg∈其它时,采用256维向量。
3 不同维数特征向量的构造
按人对颜色感知HSV空间进行32维,72维,166维,256维四种不同维数的非均匀量化。具体量化方法如下:
3.1 32维颜色特征向量的构造方法
1)对于亮度V<0.25的颜色认为是黑色。q32=0。
2)对于饱和度S<0.2的颜色按其亮度V[0.25, 1.0],均匀量化成三种灰度。分别为:深灰,浅灰和白色q32=1, 2, 3。
3)其它颜色认为是彩色,对色度H[0, 360]量化为7个区间(330, 20), (20, 45), (45, 75), (75, 165), (165, 200), (200, 270), (270, 330), h的取值分别为0, 1, 2, 3, 4, 5, 6代表红,橙,黄,绿,青,蓝,紫;对于饱和度S量化为:淡色(0.1, 0.45)和深色(0.45, 1.0)分别取值为s=0, 1;对于亮度V量化为暗色(0.2, 0.5)和明色(0.5, 1.0)分别取值为v=0, 1。将这些颜色量化为28种彩色。q32=4+4*h+2*s+v。
3.2 72维颜色特征向量的构造方法
1)对色度H[0, 360]非均匀量化为8个区间:(315, 20), (20, 45) , (45, 75) , (75, 155) , (155, 190) , (190, 270) , (270, 295) , (290, 315) , h分别取值为:0, 1, 2, 3, 4, 5, 6, 7
2)对于饱和度S量化为3个V:间:(0, 0.2), (0.2, 0.7), (0.7, 1), s分别取值为0, 1, 2
3)对于亮度V量化为3个区间:(0, 0.2), (0.2, 0.7), (0.7, 1), v分别取值为0, 1, 2
4)颜色代号为:q72=9h+3s+v
3.3 166维特征向量的构造方法
对HSV空间进行非均匀量化得到166种代表颜色,具体颜色量化和编码如下:
1)对于亮度V<0.25的颜色均归入黑色,其编码为q166=0。
2)对于饱和度S<0.20且V>=0.25的颜色按亮度v值均匀量化成三个值,分别为深灰、浅灰、白色,其对应的编码分别为:q166=1, 2, 3。
3)其它的颜色(S>=0.20且V>=0.25)则认为是彩色,将色度H∈[0, 360]均匀量化成18个值,对应取值h=0, 1,…,17;饱和度S∈[0.20, 1.0]均匀量化成3个值,对应取值s=0, 1, 2,亮度V∈[0.25, 1]均匀量化成3个值,对应取值v=0, 1, 2,这样共得到162种彩色,其编码分别为:q166=9*h+3*s+v+4。
这样HSV颜色空间中的全部颜色都被量化到了[0, 165]中,图像中的每个像素颜色的值q166都可用这个区间中的数字编码表示。
3.4 256维特征向量的构造方法
1)对色度区间H[0, 360]量化为16个区间:(345, 15), (15, 25), (25, 55), (55, 80), (80, 108), (108, 140), (140, 165), (165, 190), (190, 220), (220, 255), (255, 275), (275, 290), (290316同),(316, 330), (330, 345), h分别取值为0, 1, 2, 3,…,15。
2)对于饱和度S量化为4个区间:(0, 0.15), (0.15, 0.4), (0.4.0.75), (0.75, 1), s分别取值为0, 1, 2, 3。
3)对于亮度V量化为4个区间:(0, 0.15), (0.15, 0.4), (0.4, 0.75), (0.75, 1), v分别取值为0, 1, 2, 3。
4)颜色代号为:q256=16h+4s+v。
4 特征向量的相似性度量方法
相似性度量是为了比较特征向量之间的匹配程度,是图像检索必不可少的工具。由于在特征向量的提取过程中,所以生成的特征向量的维数可能有所不同,在进行相似性度量时会出现两种情况:
4.1 相同维数特征向量相似性度量
目前相同维特征向量的相似性度量方法有很多种。比较常用的有直方图相交法、欧氏距离法等。本文采用欧式距离,进行相同维数特征向量相似性度量。欧氏距离法:
Q-查询图像,D-数据库图像,L为将HSV颜色空间量化成L种颜色,HQ (i) 表示查询图像中第i种颜色像素点占全部像素点的百分比。
4.2 不同维数特征向量相似性度量
由于每幅图像经特征提取后的特征维数可能不同,给相似性度量带来了困难.可采用扩展的直方图二次型加权求距离的方法,解决了不同维数时颜色特征的相似性计算设两图像D, Q,假定两幅图像特征向量分别有a维和b维,当a≠b时,将两个特征向量各自分别扩展,使它们的维数相同.经过推导,可以得到相应的二次型公式:
其中,Pq是查询图像向量,Pd是数据库中图像的向量。S矩阵是间相似性度量矩阵,每个特征向量元素Sij是一个向量的第i个颜色区间Ci和第二个向量的第j个颜色区间Cj之间的相似性,定义为:
其中min (Ci, Cj) 为两个区间中较小的一个;max (Ci, Cj) 为两个区间中较大的一个;Ci∪Cj为两个区间的并运算,得到运算结果包含两个区间;Ci∩Cj为两个区间的交集,得到运算结果包含两个区间的公共部分;||||为区间的长度;Ci=Cj是指两个区间相同;Ci∈Cj表示区间Ci是Cj区间的子集。
5 融合空间信息的图像检索算法
步1:将图像中每个像素点进行从RGB颜色空间到HSV颜色空间的转换.;步2:计算查询图像Q的平均颜色粗糙程度计算Savg Q=|Savg Q-Savg D|,Savg D|为数据库图像D的颜色粗糙程度比较。当Savg>a时则判定两幅图像差距过大,不进行相似性比较,直接与下一幅数据库图像比较;否则转步3。(其中a为差距阀值);步3:将查询图像Q用与数据库中特征向量维数相同的图像D利用公式(4)进行相似性度量,计算两者之间的相似性距离distQD,当时distQD≤β则认为两幅图像相似,标记这幅图像,否则,直接与下一幅数据库图像进行比较;步4:搜索完数据库中全部图像,当所搜索到的图像达到用户要求的图像数目时,算法终止。否则,我们对图像库进行二次搜索,这次只比较与查询图像特征向量维数不同的情况,由于两幅图像的量化维数不同,用公式(5)进行相似性度量,找出与所查询图像距离最近的图像,原来的查询结果加上这次查询结果为最终的结果。
6 实验结果
图像检索系统有两个主要的评价指标,即查准率(Precision)和查全率(Recall)。查准率和查全率越高,说明该算法的检索效果越好。
公式中各变量参见表1:
为了检验上述算法的准确性和效率,笔者进行了基于内容的图像检索实验。使用的宾夕法尼亚州大学图像数据库(http://wang.ist.ps u.e du/docs/re late d/)中的内容包括1000张图片,从中选择蝴蝶、马、鸟类、树林、风景等,随机取图片共300张图片。分别采用三种方法进行查询以便比较性能:
1)采用HSV颜色空间直方图方法,其度量距离为欧式距离(简称HSV)。2)采用本文提出融合空间信息的图像检索算法(简称HSVH)。3)采用颜色相关图法来检索(简称COR)。
图1、图2、图3是分别用HSV、HSVH方法检索相同的蝴蝶时返回给用户的前20幅图像的检索结果。左上角的第一幅图像即是查询图像。在确定的样图下,对库中的每一图像,人工找出库中与样图颜色相类似的图像.图4是分别采用HSV、HSVH、COR方法检索,并得到相应的查全率/查准率曲线,我们将查全率/查准率全部乘以100,量化到0~100的范围。
7 结束语
从实验结果可以看出,采用这三种方法时,相同图像检索的结果不一致,用HSVH和COR方法检索性能优于用HSV方法。前两种方法由于考虑了颜色的空间分布比传统颜色直方图HSV方法明显地提高了检索精度。而本文提出的HSVH方法与COR方法相比,检索精度相关无几。而在检索速度上,COR方法检索时间复杂性(O (m2d))较高,HSVH方法考虑了颜色在空间上的分布情况,采用分层检索方法预先筛掉了一些与查询图像颜色粗糙度相差较大的图像,较大地提高了图像检索的速度,速度接近于HSV方法,特别是当图像数据库中图像的数量增大时,该算法的效率提高得更加明显。
摘要:彩色图像检索方法基于HSV颜色模型提取示例图像的颜色特征与图像库中图像的颜色特征时, 提取不同维数的特征向量。在图像相似性度量的时候使用不同的计算公式。实验结果证明, 这种颜色直方图算法速度快且与人类的视觉有着良好的一致性。
关键词:基于内容的图像检索,特征向量,颜色量化,颜色粗糙度,相似性度量
参考文献
[1]刘忠伟, 章毓晋.用颜色和纹理特征的图像检索[J].通信学报, 1999.
检索空间 篇3
信息检索科学起源于20世纪中期。在此以前,信息存储和传播主要以纸质介质为载体,信息检索研究关注的是如何检索文献中记载的信息。20世纪50年代,随着通信技术与计算机技术的快速发展,信息载体类型的多样化及传播手段得到改进。尤其是计算机应用的普及促使社会各领域信息飞速膨胀,信息检索越来越被人们所重视。
到21世纪,随着互联网的进一步发展,信息量的增大,人们获得所需的信息更加困难。随着在信息检索领域的大量研究的进行,各种搜索引擎被开发出来,一些商业搜索引擎取得了巨大成功。各类建立在信息检索技术上的情报搜集、舆情分析等技术得到了高度重视。这些技术对构建安全和谐的网络空间起到重要支撑作用。而深入理解这些技术的内部机理是正确运用这些技术的基础。
一、信息检索工具的发展
各类通用和专用搜索引擎无疑是网络空间信息检索中最为重要的工具,也是研究热点。它的发展经历了不同的发展时期,形成了不同的种类,已经有成熟的框架结构。常见商用搜索引擎最常见的是:全文搜索、目录索引和元搜索三类。目录索引的功能,就是按目录分类的网站链接列表。用户完全可以不用进行关键词查询,仅靠分类目录即可找到需要的信息。目录索引中最具代表性的是雅虎。其他著名的还有Look Smart、About等。国内的搜狐和新浪也是人们熟悉的目录索引。全文搜索引擎中具代表性的有Google、Alta Vista、Inktomi、Teoma等,国内最著名的有百度,有的目录索引,如:搜狐、新浪等也都推出了自己的全文搜索引擎。它们都是通过从互联网上提取各个网站的信息来建立数据库,进而检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。Info Space、ogpile、Vivisimo等都是著名的元搜索引擎。它们在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。
这些常见搜索引擎的结构虽然各有差异,但大体架构相似。它们大多由三部分组成:“机器人”(或称“网络爬虫”)、索引器和检索器。
“机器人”是一些WEB程序。这些程序通过网络协议从各个服务器上采集网络文档,它们有各自指定的工作范围,在范围内,它们不停的从一个站点跳到另一个站点,从一个网页跳到另一个网页。并不断把采集到的网页传回到搜索引擎的网页数据库中。它们遍历网络的规则是,每遇到一个新网页就提取网页的全部链接,再利用这些链接访问其它网页。索引器为“机器人”采集的信息建立索引,并存放在数据库中。互联网上的数据是不断更新的,所以索引器要定时命令“机器人”重新搜索互联网,保证数据库中的信息不致过时。网页检索器负责接收用户的查询条件,并在搜索完成后把搜索结果返回给用户。在检索过程中网页检索器要计算数据库中的网页同用户查询之间的相关度,然后按相关度对网页排序,并从高到低返回给用户。
考虑到上述网络空间信息结构的特点,上述搜索技术主要面对三类信息进行针对性挖掘:内容挖掘、结构挖掘和使用挖掘。内容数据指网页中包含的、网页编辑者试图传达给用户的数据对象。其中可以包括文本、图像、视频及后台数据中提取出的结构化信息等。目前,WEB的内容挖掘主要是文本挖掘,它的挖掘方法主要是对纯文本进行分类、聚类的方法。不过由于网络页面还包括其它重要信息,所以内容挖掘不应单独进行,必须和结构挖掘、使用挖掘相结合。结构数据是用来描述网络空间信息如何组织的数据,其中包括网页内部结构信息和网页外部结构信息。网页内部结构信息指HTML等文件格式的标记信息;网页外部结构信息指网页间的超链接结构。其中网页内部结构信息又分为:格式信息和语义信息。使用数据主要指网络资源被如何使用的数据,包括用户访问网页的时间、IP地址、访问WEB站点的路径信息以及搜索引擎的点击日志数据等,使用数据是网络用户和网络资源之间交互作用的结果。
二、机器学习的发展和分类
按照人工智能大师西蒙的观点,机器学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样的任务或类似任务时,比现在做得更好或者效率更高。从简单利用神经元模型的自适应特Rosenblatt感知器,到基于领域知识的知识工程快速发展,再到统计学习理论的形成。机器学习大致经过了三个发展阶段。尤其是随着统计学习理论的数学基础逐渐加深,机器学习的使用范围快速推广。常见的学习方法也演化为:机械式学习、指导式学习、归纳学习、类比学习四类;如果以样本标注方式为基础又可以分成:有导师学习、无导师学习、强化学习、半监督学习。
在信息检索领域机器学习取得了较好的效果。以机器学习为基础的信息检索技术在文献分类、搜索引擎和舆情分析等技术领域取得了长足进展。
三、机器学习技术在信息检索中的应用
当前在信息检索领域取得较好效果的机器学习方法是:支持向量机、决策树、k-NN、集成学习和粒计算。
支持向量机是借助于最优化方法解决机器学习问题的重要工具。它最初由Vapnik提出,近年来在其理论研究和算法实现方面都不断取得突破。这项技术已经成为克服“非线性困难”和“过学习问题”的有利手段[8]。尤其是它有坚实的数学理论基础,其实现途径的框架也已经形成。相对于其他所有方法,SVM占有效果和稳定性上的优势。存在的问题是SVM在大数据集上的训练收敛速度较慢,需要大量的存储资源和很高的计算能力。
许多机器学习和数据挖掘算法虽然在测试中取得很好的成绩,但是它们挖掘出来的信息难以用可理解的方式呈现在人们面前。而判定树算法不但在一些文本分类的测试中取得较好的成绩,而且它挖掘的信息可以方便的呈现出来。判定树归纳的基本算法是贪心算法,它以自顶向下的方式构造判定树[9]。在决策树的每个节点上使用信息增益度量选择测试属性,选择具有最高信息增益(或最大熵压缩)的属性作为当前节点的测试属性,该属性使得对结果划分中的样本分类所需的信息量最小。
与判定树方法完全相反,k-NN是一种简单的分类算法,它不但不能提供易于理解的分类信息,而且根本不生成分类规则。其主要思想是,当对样本n进行分类时,先从训练集中找出K个与n距离最小的样本,哪一类在K个样本中占有最大比例,则n就属于哪一类。k-NN的特点是无需建立分类器,但分类速度慢。分类时必须计算每一个训练样本和待分类样本的相似度。因此在训练集不太大时或者可以精简训练集时,较为适用。目前K-NN在文本分类领域的效果不是十分理想,有待于进一步改善。
集成学习,也称为多重学习或分类器组合,主要通过决策优化或覆盖优化两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能。此技术有两个关键问题。首先,选择哪几种分类器。其次是选择什么策略进行综合决策。一般来说在选择分类器时应该选择差异性较大的分类器。而在选择决策策略时,分两大类策略。一类是让每个分类器有相同的投票权,采用少数服从多数的方法,或者分类器在投票时有不同的权值。第二类决策方法大致又可分为两种。第一种是,对已标注样本分类效果较好的样本拥有较高权值。第二种是,在对某样本分类时,如果分类器甲对同此样本最相近的k个已标注样本的分类效果最好那么则采用甲的决定[10]。目前在信息检索中常常把速度快但精度低和速度慢而精度高的分类器用集成学习方法结合在一起使用,从而达到取长补短的效果。
粒计算中最基本概念是粒、粒化和粒度。粒化就是对粒进行操作;信息粒度是指对信息和知识细化的不同层次的度量,从数学的角度给出粒度的定义。近来,粒计算也越来越多的应用到文本分类中。如:在应用中,可以依据某一特征(如一个词项)和一组类别的对应关系建立特征粒;依据某一类别和一组特征的对应关系建立规则粒;依据一组类别和一组特征的对应关系建立信息粒。并使用粒计算中的各种算子对信息粒进行处理,最终完成文本分类[11]。
四、结束语
本文首先分析了信息检索工具的体系结构和技术原理。然后,说明了机器学习技术在网络空间信息搜索中的重要作用。并对当前在信息搜索领域应用效果相对较好的机器学习技术及其在信息搜索中的应用方式进行了细致分析。通过分析这些技术的特点,可以为实际应用提供指导。
摘要:网络空间的和谐和安全是互联网络时代的一个重要课题。而信息检索技术支撑的情报搜集、舆情分析等技术则是构造和谐网络空间的重要工具。本文主要分析了机器学习技术在信息检索中的工作原理,为这些技术的实际应用提供指导。
检索空间 篇4
图像检索是计算机视觉中非常重要的部分,其目的是构造自动处理某些信息的机器系统,用以代替人类完成分类和辨别的任务。目前图像识别检索的研究主要涉及物体表面形状检索、尺寸与面积的检测以及色彩的检索等方面。颜色是物体重要的外在特性,具有对物体本身的尺寸、方向、视角等依赖性小、鲁棒性高等优点,因而在图像识别中占有重要地位,对彩色图像的处理己经成为当前图像处理领域重要的研究课题[1],如:近年来,国内外对农产品品质自动检索、彩色印刷及纺织品中的彩色图样的检索研究中,都采用了基于图像的颜色检索技术。
1 图像检索技术一般算法
1.1 颜色空间
在计算两幅图像的相似度时,通常要提取它们的颜色特征在特定的颜色空间进行比较。颜色空间的目的是按照某种标准利用基色表示颜色,常用的有RGB、HSI、HSV等。RGB颜色空间的相似不能代表颜色的相似。例如,查询图像上RGB颜色是(200,150,0),图像库图像的RGB颜色是(200,200,0),这两幅图像在RGB颜色空间上很相似,但在颜色上差别很大(黄色和绿色)[2]。HSI和HSV颜色空间则没有这个方面的问题,它们很适合人们肉眼的分辨,较好地反映人对颜色的感知和鉴别能力[3,4]。故在此采用HSI颜色空间。通过(1)-(3)公式[4],可以将图像从RGB颜色空间转换到HSI颜色空间。
1.2 颜色量化
一幅图像的颜色种类通常非常的多,如果直接计算相似度,会消耗很大的特征存储空间。实验表明,增加颜色直方图的维数可以有效地提高检索的精度,但当维数增加到一定程度时,检索的精度提高很小而且可能下降[5]。但如果对颜色进行适当的量化后再计算,计算量会少许多,且计算效率得到提高。颜色量化是指将H,S,I 3个分量按人的颜色感知进行非等间隔的量化,然后对颜色模型的大量分析和计算。故在此对HSI颜色空间进量化,把色度量化成8个空间,把饱和度分成3个空间,把亮度分成3个空间,即颜色空间被分成72区间。具体量化值如下:
1.3 图像描述
图像有多种描述方式,颜色直方图就是其中之一。颜色直方图描述了图像颜色在颜色空间上的分布。常见的直方图有两种:统计直方图,累加直方图。
借助图像特征的统计直方图可以描述图像。图像特征的统计直方图是一个一维离散函数,如公式(7)所示。在公式中k代表图像的特征取值,L是特征可取值个数,nk是图像中具有特征值为k的像素的个数,N是图像像素的总数。颜色直方图有许多的优点:对图像进行旋转之后,它的颜色直方图不发生改变;颜色直方图容易提取,且比较容易计算两个直方图之间的相似度。
图像特征的累加直方图是一个一维离散函数,计算公式如(8)所示。公式中k代表图像的特征取值,L是特征可取值个数,nk是图像中具有特征值为k的像素的个数,N是图像像素的总数。累加直方图能增加直方图的鲁棒性[4]。
1.4 图像分块
两幅图像的颜色直方图相似,两幅图像的内容可能不相似,这主要是由颜色的空间分布不同引起的。一般来说,图像可分为主体部分和背景部分,如果不进行分块,那么背景部分的颜色信息就会混入到主体部分。通过对图像进行分块,提取各个区域的直方图,就可以获得图像的空间分布信息。
传统的分块方法将图像分成m*n部分,这样并没有突出图像的重要信息,故在此采用另外一种分块方法进行分块。首先,将图像分成8×8区域,如表1所示。其次,将图像的64个区域重新组合成12个区域。R1={I1},R2={I8},R3={I57},R4={I64},R5={I2,I3,I4,I5,I6,I7},R6={I9,I17,I25,I33,I41,I49},R7={I58,I59,I60,I61,I62,I63},R8={I16,I24,I32,I40,I48,I56},R9={I10,I11,I12,I18,I19,I20,I26,I27,I28,I29,I36,I37},R10={I13,I14,I15,I21,I22,I23,I28,I29,I30,I31,I36,I37},R11={I28,I29,I34,I35,I36,I37,I42,I43,I44,I50,I51,I52},R12={I28,I29,I36,I37,I38,I39,I45,I46,I47,I53,I54,I55}。其中,R1、R2、R3和R4是最不感兴趣的区域,R9、R10、R11和R12是图像的主体部分。R9、R10、R11和R12都包含图像的中心部分I28、I29、I36和I37。这种重叠方式的分块方法突出了图像的主体部分的颜色信息,有利于提高检索精度。
1.5 统计直方图
对HSI空间进行量化后,H的取值范围为[0,1,…,7],S的取值范围为[0,1,2],I的取值范围为[0,1,2]。通过公式(9)将HSI合成为一维特征矢量,使H,S,I三个分量在一维矢量上分布开来。在公式(9)中,色调H取的权重为9,饱和度的权重为3,亮度的权重为1。由于色调包含了绝大多数的信息,将色调的权重取大一些,将饱和度和亮度的权重取小一些。根据公式(9),得到G的取值范围为[0,1,…,71]。
图像颜色特征的表达方式有许多种,本文采用统计直方图技术进行特征描述。通过3.3,将图像分成12个区域。通过公式(7),提取这12个区域的统计直方图。这样,一幅图像就可以得到12个72维的颜色直方图,如公式(10)和图1所示。
1.6 图像之间的相似度
计算图像之间的相似度是图像检索非常重要的一步。因为得到图像特征的直方图之后,需要计算直方图间的相似度量,根据它对图像进行排序,检索出相似度最高的图像。常见的直方图的相似度量方法有直方图相交法、欧式距离法、相关系数法。
1.6.1 直方图相交法
HQ(k)和HD(k)两幅图像某一特征的统计直方图,两图像之间的匹配值P(Q,D)可借助直方图相交来实现。
1.6.2 欧式距离法
直方图间的距离可使用一般的欧式距离函数ME(Q,D)来衡量。欧式距离越小,图像之间越相似。
1.6.3 相关系数
相关系数在-1到1之间,-1表示两幅图像互不相关,1表示两幅图像完全一样。
1.7 相似度评价
检索率(recall)定义为检索结果队列中检索到的目标图像数与数据库中全部的目标图像数之比,如公式(9)所示。在公式(9)中,R代表查询结果中与查询图像相关的目标图像数,F表示表示图像库中与查询图像相关的目标图像总数[6]。
精确度(precision)定义为检索结果队列中检索到的目标图像数与检索结果队列中所有的图像数之比,如公式(18)所示。在公式(18)中,R代表查询结果中与查询图像相关的目标图像数,X代表检索结果返回的图像总数[6]。
假设Q代表查询图像,P代表数据库中的图像,通过公式(8)得到HQ和HP。本文采用相关系数法(13)先将HQ和HP对应区域的相似度计算出来,再将它们加权求和,如公式(19)所示。由于R1、R2、R3和R4是最不感兴趣的区域,R5、R6、R7和R8是图像的次感兴趣区域,R9、R10、R11和R12是图像的主体部分,故在(19)中取不同的权重w1、w2、w3。
2 算法实现
该文算法的大致流程如图2所示。其中,特征库预先在后台处理,具体流程如图3所示。
3 实验结果
该文选取1000幅图像组成数据库,这个数据库由10类图像组成,每类有一百张图片,包括花卉、人物、海滩、建筑、汽车、恐龙、大象、马、雪山、美食等。为了测试本文算法的效果,从花卉中选取10幅图像进行检索。本文固定查询返回的图像为13幅,根据公式(18),计算出精确度。
改文对图像进行重叠方式分块,R1、R2、R3和R4是最不感兴趣的区域,R5、R6、R7和R8是图像的次感兴趣区域,R9、R10、R11和R12是图像的主体部分。因此,赋予w1较小的权重,赋予w3较大的权重。由表2可知,当w1、w2、w3选取不同的权重时,检索效果不一样,当w1、w2、w3分别为0.025、0.045、0.18时,实验效果最好。
实验中综合图像的颜色和空间进行图像检索,其查询结果如图4所示。由实验结果可知,上述方法对图像的背景变化具有一定的鲁棒性,而且在图像的颜色及空间特征的相似性上具有较好的检索率。
4 结论
本文给出了一种基于HSI颜色空间统计直方图进行图像检索的方法,使用符合人类特性的HSI颜色空间并将空间量化为72种具有代表性的颜色。为了克服全局直方图丢失颜色空间信息的缺点,使用重叠方式分块方法将图像分成12个区域并突出图像的主体部分。统计图像12个区域颜色直方图,并根据相似度计算方法计算查询图像和数据库图像对应区域的相似度。最后根据各块子区域的重要性进行加权求和,得到最后的检索结果。
摘要:给出了一种对图像的特征进行提取、分析并识别出一定形状及色彩差别的方法,主要目的是提取图像的颜色变化。首先是对采集到的彩色图像进行预处理,包括:图像的滤波、目标图像的定位等;然后采取了相应的图像颜色空间和识别算法,包括:图像颜色空间的变换、颜色量化、图像特征提取、识别算法。计算机仿真结果表明,该算法可行,并取得了较好的效果。
关键词:颜色空间,颜色量化,特征提取,识别算法
参考文献
[1]JingChang.S Ravi Kumart.Image indexing Using Color Correlo-grams 1063-6919/97 1997 IEEE.
[2]汪慧兰,赵海峰,罗斌.基于局部颜色空间特征的图像检索[J].计算机技术与发展.2006,16(1):76-79.
[3]钱瑛,须文波.基于颜色空间特征的图像检索[J].江南大学学报(自然科学版).2007,6(2):159-162.
[4]王剑峰,肖国强,江健民.基于HSI色彩空间累加直方图的图像检索算法[J].计算机工程与科学.2007,29(4):55-58.
[5]杨关良,李忠杰,徐小杰.基于颜色-空间的图像检索算法[J].工程图学学报.2005,(3):50-53.