图像并行检索论文

2024-07-24

图像并行检索论文（共3篇）

图像并行检索论文篇1

摘要：为了提高建立索引、检索图像的速度,提出云架构上基于图像特征索引的并行检索系统。该检索系统主要有3个模块:海量小图片分布式存储(Store)、并行建立图像特征索引(Indexing)、并行图像检索(Retrieve)。在Store模块中提出针对海量图片的合并存储,Indexing模块中提出索引缓存模式,避免重写索引的输出接口,Retrieve模块中对索引进行分片管理,以及并行检索。实验结果表明,相对于其他图像检索系统,基于图像特征索引的检索系统有效减少了图像特征索引建立时间,缩短了图像的检索时间,提高了图像检索速率。

关键词：分布式存储,特征索引,并行检索,分片管理

近年来,图像数据量急剧增长,如何有效地检索这些海量图像成为一个迫切需要解决的问题。传统图像检索方法是基于文本的,检索结果依赖于对图像的文字描述而不是图像的内容,造成图像的查准率不高,因此需要直接从待查找的图像视觉特征出发,通过图像的颜色、形状、纹理等特征进行图像检索。基于内容的图像检索[1]中提取的图像特征都是高维的,特征匹配就意味着检索高维的数据。当图像数据量很大时,单机上基于内容的图像检索速率面临巨大的挑战。

HadoOp[2]是Apache下用于分布式计算的开源软件框架,可以使大量的数据在集群上并行处理,在大数据领域得到广泛应用。因此,本文提出Hadoop平台上基于内容的图像检索系统。

1 相关工作

1.1 基于内容的图像检索

基于内容的图像检索技术分为两步,即特征提取和特征匹配。

1.1.1 特征提取

图像特征提取是基于内容的图像检索的基础,常用的特征是颜色特征、形状特征、纹理特征。由于一种特征总是存在无法克服的缺陷,或者检索太慢,或者匹配效果差,目前很多检索技术都是综合多种特征,因此本文采用图像局部不变特征SIFT与颜色特征相结合。

SIFT[3]是一种基于尺度空间对图像缩放、旋转、光照、变化甚至裁剪、遮挡等保持不变性的点特征提取算法。主要包括4个步骤:1)检测尺度空间的极值;2)定位关键点;3)根据图像的局部梯度方向,给关键点分配方向;4)用特征向量来描述关键点。

颜色特征是图像特征中最显著、最可靠的视觉特征,它对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。本文用颜色直方图来表达颜色特征。颜色直方图表达了颜色的空间分布信息,统计每种颜色分量的像素数占图像总像素数的比例。

给定一幅图像(fxy)M*N,fxy表示像素点(x,y)处的颜色值,M×N表示图像的尺寸,图像所包含的颜色集记为C,则图像的颜色直方图可表示为

1.1.2 特征匹配

特征匹配过程是计算样本图像与目标图像之间的相似度,获得与样本图像最相似的图像。测量两幅图像之间相似度通常是计算图像特征向量之间的距离,如欧氏距离、马氏距离。本文采用欧氏距离来比较图像相似度,欧氏距离定义如下

式中:Ai和Aj表示两幅图像的特征向量;r是向量的维数。特征向量间欧氏距离越小,则相似度越大。

1.2 Hadoop

Hadoop[5]是一个分布式的计算框架,主要由HDFS、MapReduce组成。HDFS是用于存储大数据的分布式文件系统。MapReduce是用于处理数据的分布式框架,数据处理过程分为两步:Map和Reduce。Map阶段处理输入的数据分片,并输出中间的key-value对。将具有相同key值的key-value对输入Reduce,处理后输出最终的key-value对。

2 并行图像内容检索系统设计

2.1 系统结构

本文设计的并行图像内容检索系统主要3个模块:海量小图片分布式存储(Store)、并行建立图像特征索引(Indexing)、并行图像检索(Retrieve),结构如图1所示。

2.2 海量小图片分布式存储(Store)

Hadoop是针对大数据来设计的,处理海量小文件时非常消耗内存资源,导致效率很低。为了避免Hadoop处理海量的小文件,通常是将小文件组织起来生成MapFile,并自动上传至HDFS进行分布式存储。但MapFile一般针对于文本文件,因此本文提出了针对海量图片数据生成MapFile。

MapFile是排序后的SequenceFile,由两部分组成:分别是data和index。index作为文件的数据索引,主要记录了每个图片的文件名,以及该图片在MapFile文件中的偏移位置。在MapFile被访问的时候,索引文件会被加载到内存,通过索引映射关系可迅速定位到指定图片所在文件位置,并且添加图像时,需要先将图像的文件名按照字典序排序。

2.3 并行建立图像特征索引(Indexing)

图像索引模块中,本文设计了MapReduce[4]框架上并行建立图像特征索引。由于索引Document不支持MapReduce输出类型的Writable接口,所以不能直接使用Document作为MapReduce的输出。因此本文提出了一种索引缓存模式,在内存中并行建立索引,map任务结束后将内存中的索引存入HDFS,该方法有效提高了建立索引的速度。图像特征索引创建流程如图2所示。

1) InputFormat:将HDFS中图像的MapFile作为输入,由于MapFile是排序后的SequenceFile,因此将文件输入格式写为SequenceFilelnputFormat。

2)SequenseFileRecordReader:该类将读入的MapFile分片解析成键值对(Text key,BytesWritable value),key为图像文件名,类型为Text,value为图像内容,类型为BytesWritable。

3) Mapper:Mapper阶段处理由SequenceFileRecordReader解析出的(key,value)键值对。提取出图像的SITF与颜色特征,通过Lucene在内存中根据图像特征建立特征索引,特征索引建立结构如图3所示。最后在close()阶段将内存中的索引存入HDFS。

2.4 并行图像检索(Retrieve)

图像检索时需要在很短的时间内获取检索结果,而MapReduce框架是用来做离线处理的,因此MapReduce并不适用于图像检索。本文提出一种在线并行检索系统,将存储在HDFS中的索引用Katta进行分片部署,将索引分片存储在各子节点上。检索时,同时读取各节点的索引分片进行检索,然后将获得的所有检索结果中前10个合并,并按照从小到大的顺序排序。最终得到特征距离最小的10张图像的名称,只需从图像的MapFile中按文件名获取图像。

3 实验分析

3.1 实验环境

软件环境:Linux操作系统,JDK1.7,Hadoopl.2.1,Opencv、Javacv计算机视觉库,Lucene。

硬件环境:实验使用3个节点,每个节点配置双核Intel CPU,4 Gbyte内存。

3.2 并行创建索引实验结果分析

实验图像总共50 000张,来源于加州理工学院101类图像数据库,加州理工学院256类图像数据库,其中部分图像重复,但具有不同的文件名。将不同张数的图像生成MapFile分别上传至HDFS,使用MapReduce进行离线并行图像特征索引创建,实验对单机建立索引和分布式建立索引的时间进行对比,如图4所示,图中横轴为图像的张数,纵轴为建立索引所用时间。

由图4可以看出,随着图像张数的增加,在单机上建立索引所需时间不断增长;而用MapReduce并行建立索引,所需时间明显少于单机建立索引时间,且时间增长趋势缓慢。

3.3 在线图像检索实验结果分析

实验HDFS中的索引进行分片管理,将索引分片存储在各子节点本地上,由此进行图像的并行检索,实验对图像单机检索和并行检索的时间进行对比,结果如图5所示,图中横轴为图像的张数,纵轴为图像检索所用时间。

由图5可知,图像数据少时,单机进行检索所需时间较少,由于节点间需要通信,所以并行检索所需时间较大;随着数据量增大,单机检索所花费的时间在直线增长,而并行检索花费的时间增长缓慢。当图像数量到5万张时,并行检索速度较单机检索速度提高了33.3%,并行检索速度与文献[6]相比提高了20%。

3.4 图像查准率、查全率

本实验采用信息检索中标准的评估方法:查准率、查全率来对提出的设计进行评估。

查准率是指在一次查询过程中,返回的查询结果中的相关图像数目r与在所有返回图像数目N中占有的比例,表示为

Precision=r/N

查全率指在一次查询过程中,返回的查询结果中相关图像的数目r在图像库中所有相关图像数目R中占有的比例,公式表示为

Recall=r/R

实验在50 000张图像中随机抽取4张图像进行检索,在图像库中每张图像的相关图像共10张,将检索结果按照图像间的距离升序排列,图像查准率、查全率如表1。

以上实验结果表明,本文提出的基于图像特征索引的并行图像检索系统具有相对较高的查全率与查准率。

4 小结

经过以上分析,基于图像特征索引的并行检索系统大大减少了建立图像特征索引时间和基于内容检索图像的时间;SIFT特征与颜色特征结合建立索引,达到了较好的检索效果,该系统有效解决了单机下对海量图像检索效率低的问题。

参考文献

[1]ZHANG C,CHEN T.An active learning framework for contentbased information retrieval[J].IEEE Trans.Multimedia,2002,4(2):260-268.

[2]Hadoop[EB/OL].[2014-04-16].http://www.Hadoop.org.

[3]DAVID G L.Distinct image features from local scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[4]DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[C]//Proc.Symposium Conf.Opearting Systems Design&Implementation.[S.1.]:IEEE Press,2004:107-113.

[5]刘炳均,戴云松.基于超算平台和Hadoop的并行转码方案设计[J].电视技术,2014,38(7):123-126.

[6]JAI-ANDALOUSSI S.ABDELJALILE.Medical content based image retrieval by using the hadoop Frameworkf C]//Proc.Casablanca Conf.Telecommunications(ICT).[S.1.]:IEEE Press,2013:1-5.

网络信息检索中的图像检索技术篇2

基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字, 当用户输入相应关键字后, 系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术, 即根据图像信息的文件名、路径名、ALT标签等, 将其标注为一系列关键字的描述, 然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先, 由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注, 要由人工完整地标注网络上的所有图像, 不但费时费力, 而且往往是不准确或不完整的;其次, 不同用户对于同一张图像的看法不尽相同, 导致对图像的标注没有一个统一标准;再次, 这种方法将注意力局限在图像的著录特征, 即文字描述上, 不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。

1 基于内容的图像检索技术

基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容, 提取其颜色、形状、纹理等可视特征, 建立特征索引存储于特征库中, 在检索时, 用户只需把自己对图像的模糊印象描述出来 (绘制的草图或通过扫描仪等在线输入的图像) , 就可以通过多次的近似匹配, 在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。

基于内容的图像检索算法涉及的相关技术比较多, 主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。

1.1 基于颜色特征的图像检索

颜色特征是图像检索中最基础的一种检索依据, 颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中, 通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布, 横轴表示颜色等级, 纵轴表示在一个颜色等级上, 具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。

全局色彩的索引就是按全局色彩的分布来索引图像, 计算每种颜色的像素, 检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像, 一般是利用二维直方图, 如红—蓝直方图, 它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多, 如:比例直方图法、累加直方图法等。

色彩直方图还不能为像素在图像中的位置提供线索, 为了尽可能少地丢失信息, 提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域, 它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。

1.2 基于形状特征的检索

形状是刻划物体的本质特征之一, 利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索, 还包括三维形状的检索。

基于图像内物体形状的检索, 首要问题是采用合适的图像分割算法把不同对象从图像中分割出来, 关键是寻找符合人眼感知特性的形状特征。目前, 较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后, 将每个块看成是一幅小图像, 计算每个小图像的颜色直方图特征, 则每个块间的直方图是不一样的, 为分析边缘特征, 将相邻两个块构成一个比较对, 将每个块间的差值记录下来, 同时记录差值在一定范围内的数目, 这样就形成一个颜色特征差值表。图像对象空间位置发生变化, 其特征差值表也就不同。

1.3 基于纹理特征的检索

纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征, 它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化, 那么该物体就有纹理。

纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计, 主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上, 适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布, 如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。

1.4 基于知识的图像检索

基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合, 人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库, 针对一个图像需求, 搜索引擎依次调入每一幅图像的内容描述, 结合知识库中的相关知识, 以图像需求为目标进行推理, 如果需求目标得到满足, 则确定这幅图像符合检索要求。

2 基于内容的图像信息检索系统

目前, 基于内容的图像检索技术的研究取得了很大的突破, 较有影响力的有以下几个:

2.1 QBIC系统

QBIC (Query By Image Content) 是IBM公司于20世纪90年代研制的图像和动态影像检索系统, 其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发, 是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词 (它也提供关键词检索) , 只要输入以图像形式表达的检索要求, 即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等, 对大型图像和视频数据库进行查询。

2.2 Photobook系统

Photobook系统是由美国麻省理工学院 (MIT) 的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具, 图像在存储时按人脸、形状或纹理特性自动分类, 图像根据类别通过显著语义特征压缩编码。

2.3 Virage系统

Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似, Virage支持基于颜色、颜色布局、纹理和结构 (对象边界信息) 的可视化查询, 但Virage比QBIC更进一步, 它也支持由4个原子查询的任意组合, 用户可以根据他们自己的侧重调整4个原子查询的权重。

2.4 CORE系统

CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

2.5 Visual SEEK系统

由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统, 提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域, 这样的图像作为查询“日出”的草图, 使人们在Web上可以方便地搜索和检索图像和视频。

3 基于内容的图像检索体系结构

基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互, 以便用户能够方便地构造查询和改进检索结果, 用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上较相似的图像, 按相似度大小排列返回给用户, 即所谓的通过例子图像的检索 (Query By

Image Example) 。

基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:

3.1 图像的预处理

在特征抽象子模块里, 首先要进行图像的预处理, 包括图像格式的转换, 尺寸的统一, 图像的增强与去噪, 图像的边缘提取, 经过边缘提取获得图像的轮廓特征, 对其进行进一步轮廓清晰化处理等功能, 为图像的特征提取打下基础。

3.2 图像的目标标识

图像预处理后, 要进行图像的目标标识。目标标识为用户提供一种工具, 以全自动或半自动 (需要用户干预) 的方式标识图像中用户感兴趣的区域或目标对象, 以便针对目标进行特征提取并查询。当进行整体内容检索时, 利用全局特征, 这时不用目标标识功能。目标标识是可选的。

3.3 图像的特征提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取, 提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的, 即整幅图像, 也可以是针对某个目标的, 即图像中的子区域, 如人的面部特征或指纹特征等。

3.4 图像数据库

作为图像查询的后台基地, 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息, 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识, 有利于查询优化和快速匹配, 知识库中知识表达可以更换以适用各种不同的应用领域。

3.5 图像的查询接口

在基于内容检索中, 由于特征值为高维向量, 不具有直观性, 因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件, 可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外, 查询返回的结果需要浏览, 应在用户界面提供浏览功能。

3.6 图像的检索引擎

检索是利用特征之间的距离函数进行相似性匹配, 模仿人的认知过程, 近似得到数据库的认知排队, 存在一些不同的相似性测度算法, 检索引擎中包括一个较为有效可靠的相似性测度函数集。

3.7 图像的索引/过滤

索引是用来提供快速、有选择性地存取数据库的一种机制, 它相当于一种映射机制, 将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据, 过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征, 可以用R树来索引以加快检索速度。

基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段, 但基于内容的图像检索技术目前还存在许多有待发掘的内容, 因而, 基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。

摘要：图像检索是网络信息检索中的重要的组成部分, 而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念, 综述了基于内容的图像检索系统和相关技术。

关键词：网络信息检索,基于内容,图像检索技术

参考文献

[1]何惠芬.图书馆中基于内容的图像数据库检索技术[J].情报杂志, 2002 (7) .

基于网格环境的遥感图像并行分类篇3

随着航天传感器的进步,大量超高分辨率的遥感图像数据被收集,遥感需处理的数据量越来越大,处理速度要求越来越高。由于现阶段计算机硬件的限制,系统往往会出现图像数据内存溢出或效率低下等技术性问题。即使一些优秀的软件内部能使用一些算法来解决该问题,但由于数据量巨大,会严重消耗系统资源导致系统无反应或者在图像处理中消耗大量时间等状况的发生。计算复杂性问题一直是遥感图像处理中很难克服的瓶颈问题。采用新技术来进行图像处理已成为遥感领域的一项当务之急。

为了实现高速和大容量的图像处理,并行计算以它的优势吸引了越来越多人的关注。集群系统因性价比较高,扩展性好,在遥感图像并行处理中已有应用[1,2]。但这些图像并行处理系统与具体硬件相关性大,通用性差,对系统配置要求高,由于网络带宽的限制和计算机资源的缺乏而几乎不可能在传统网络环境中实现。网格计算为解决这一问题提供了新的思路[3]。网格计算技术将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,提供更多的资源、功能和交互性[4]。因此,在新的资源共享环境下,在遥感图像处理中引入网格计算的思想,用以提高图像的处理速度大,是解决当前海量遥感图像处理的非常有效的方式。目前,已有一些对网格环境中的图像处理的研究。文献[5]针对K-Means算法提出了一种基于分块逼近的并行模型; 文献[6]采用MPICH-G2模型和Grid FTP在网格环境下,实现了遥感图像的批量处理; 曾少斌等[3]基于网格环境,通过资源和服务状态属性分析,提供高效的遥感图像融合处理服务; Wang利用网格对遥感图像的非监督分类做了初步研究[7]; Shen等建立了遥感图像处理的分布式并行计算模型[8];Liu等使用网格平台Globus Toolkit 2. 4和贝叶斯分类建立了基于网格环境的遥感图像的监督分类[9]; Sun Jiabo等基于最大似然方法实现了网格环境下遥感图像的自动分类[10]; Gao等建立了M-A模型,在网格环境下,为遥感数据的标准化、共享和集成提供了实际有效的支撑[11]。

1 基于网格环境的遥感图像并行处理的构建

1. 1 基于网格的遥感图像并行处理模型

网格计算是网络上资源共享系统,是图像并行处理的理想环境。本文将分布在各节点机上的计算资源和服务注册登记到网格数据库服务器中,提供对服务的查询,而且可以动态增加节点机和服务到网格环境中,提供了计算资源共享的平台,便于实现对遥感图像并行的处理。设计的网格服务的遥感图像并行分类处理的框架如图1所示。

图1中框架的主要组成:

1) 中心服务器

中心服务器是整个网格结构的核心,它一方面与用户交互,接收用户远程的任务请求信息,将最终结果返回给用户。其重要的工作是对接收任务的分解划分,分类参数的选取,以及任务的调度,与节点机和数据库服务器之间的交互,这些操作对用户都是透明的。

2) 若干节点机

节点机是执行任务的直接者,其上部署了网格服务,由中心服务器调度分类执行任务。其执行状态及有关节点机的信息,在数据库服务器中存储。一台节点机可以部署多个网格服务,也可以同时执行多个处理任务。

3) 数据库服务器

数据库服务器是网格数据和资源的存储池。用户信息,任务信息,节点机的信息以及网格服务注册表都存储在此。

1. 2 基于网格环境的遥感影像分类并行处理流程

用户首先登录到Web门户,通过Web页面提交作业任务,同时提供待分类的遥感图像文件,训练样本文件以及选择分类的方法。中心服务器接收到用户的请求后,通过查询服务注册表来寻找能够处理此类请求的网格服务。同时将建立该任务( 对应数据库服务器上的任务表) ,并对图像进行分块,将用户提交的作业转换成一组相互独立的子任务。根据一定的任务分配策略和调度策略,将分块的图像及分类方法参数传输给各节点机,节点机的信息在数据库服务器中 ( 包括节点机的状态等) 。各节点机处理子分类任务后,将分类结果返回给中心服务器。最后由中心服务器将各子分类结果合并成最终分类结果文件,传输到指定的URL处,用户可通过FTP客户端访问该URL获取结果数据。

用户提交和创建遥感图像任务,上传遥感图像数据,在处理的过程中,可以查看遥感图像任务处理的进度( 进展情况) 。

2 构建网格平台的关键技术

2. 1 网格服务

1) 资源服务注册机制

网格计算借助XML,SOAP,UDD和Web Services技术,提供了比其他分布式模型具有更先进的资源共享方法。图2展示了网格计算的资源注册机制。

服务提供者通过资源注册中心注册其共享的资源服务,服务请求者从资源注册中心查询所需要的服务,从获取的信息中与能完成其任务的服务提供者建立联系。资源注册中心对网格系统中的任何成员提供服务注册和服务查询,提供一个公众的地址。其功能类似UDDI( universal description discovery and integration) ,网格计算通过网格服务技术实现所有服务注册过程。在上述的网格环境下的遥感影像并行处理架构中,数据库服务器充当了资源注册中的资源的管理,通过服务注册和服务监测,以及与中心服务器的交互,实现资源服务注册机制。

2) 网格节点文件传输服务

文件传输服务实现对系统中网格节点之间的相互通信及文件传输。包括网格系统中心服务于网格节点之间,网格系统数据服务器与网格节点之间,网格节点之间的相互通信及文件传输,在具体网格服务封装中,该传输服务被分解为文件发送服务与文件接收服务。此服务建立在传统的文件发送接收技术基础之上,将传统的文件发送接收流程通过Globus Toolkit 4框架封装成为网格服务。在此给出了网格节点文件传输服务的流程设计。

文件传输发送服务业务流程设计如下:

1文件传输发送服务需要传入要发送的文件句柄、发送者要填写目标IP、端口号。它们来自于Globus Toolkit 4框架的factory与instance服务传入。这两个服务通过给定的URI来调用指定节点机的网格服务并传入从数据库节点机表查询出的文件传输发送节点IP与端口后和指定的传输文件路径;

2发送服务给接收服务一个是否准备接收确认包,接收端收到确认包后回复一个接收确认包,发送者收到确认包,判断是否接收文件,如果不接收,则传输结束,如果接收,则准备发送文件;

3发送服务将会打开要发送的文件,将文件指定字节读入缓冲区。并在最后填写字符是最后一个文件缓冲区标志,然后发送给接收端;

4发送完最后一个文件片段时,文件传输结束;

5将整个文件发送服务逻辑封装成为Globus Toolkit 4框架下的网格服务。

3) 网格节点目录创建服务

在网格的每台节点机上自动创建系统所需的文件目录结构,由于在网格遥感图像处理系统中需要访问节点机或者中心服务器中存在的数据资源,或者需要节点之间进行数据文件传输。因而需要为这些数据资源提供标准化的目录结构。并且在用户使用系统时,用户会创建一些遥感图像处理任务,这些任务名称由用户自由创建,系统会根据用户提供的任务名称结合系统目录创建规范来进行路径拼接,并将拼接后的路径加入到目录系统中,最后由调用节点机上的网格目录创建服务根据传入的目录数据结构进行目录创建工作。

在中心服务器与节点计算机中的目录系统并不是一成不变的。它会随着系统后期功能添加动态改变目录结构,根据用户创建遥感图像处理任务名称对应生成文件目录结构。因此,能更好地适应网格遥感图像处理系统后期开发及维护。

4) 遥感图像分类处理服务

系统将遥感图像分类算法( 如监督分类的SVM,决策树等)封装成为网格服务,部署在网格的节点机中。远程计算机可以通过调用封装好的网格服务在节点计算机中进行图像处理,并将结果返回给中心服务器。

图像的分类通过数据并行模式实现。一幅图像的分类操作被划分成对若干小块的分类操作,再对分块操作的结果进行合并生成整个图像分类的结果。遥感图像的空间划分是根据图像的大小确定划分的策略( 划分数量和分块大小) ,依据划分策略,将原图像划分为多个块,分别生成子图像文件,并记录下各子块之间的顺序。当各子图像文件在各节点机处理完毕后,返回的结果依照各子块之间的排列顺序依次合并,得到最终的处理结果。

2. 2 任务的调度

当用户从客户端提交的任务创建后,其信息存放在数据服务器中( 包括任务的优先级及提交时间) 。中心服务器对数据库中那些未处理的任务进行定时扫描,将扫描结果传入任务优先级处理模块,通过对任务优先级的判定将任务分配到不同优先级的集合。同一优先级中的任务再按照FCFS( First ComeFirst Serve先来先服务) 策略进行调度。选定某一任务后,中心服务器分配任务的处理流程如下:

Step1中心服务器对遥感图像文件进行分块,得到n个子图像文件;

Step2如果分类方法需要参数寻优,在此进行参数优化;

Step3中心服务器按照任务的优先级调度,查询数据库服务器,获取空闲的节点机,并将子图像文件以及处理服务请求发送给空闲节点机,同时将该节点机的状态修改为“忙”;

Step4节点机接受中心服务器分配的任务,并调用对应的分类服务进行处理,处理完后,将结果返回给中心服务器; 同时该节点机状态修改为“空闲”;

Step5重复Step3 - Step4 ,直到所有子任务( n个子图像文件) 处理完毕;

Step6中心服务器合并收到的n个处理结果; 并将任务完成信息返回给用户。

3 并行遥感分类实验与结果分析

3. 1 实验网格环境的搭建

根据文中提出的框架和相关算法,设计了一个如图4所示的测试网格环境,硬件的配置如表1所示。由于网格中的中心服务器需要对大数据量的遥感图像数据进行复杂的数据操作,因而,中心服务器需要较高硬件配置; 而网格中的其他节点机由于处理任务简单,并且处理数据量较小配置可相对降低。

3. 2Globus Toolkit 4 软件部署

通过Globus联盟开发的一个软件工具箱Globus Tools 4提供的软件包配置网格平台。Globus Toolkit是由Globus联盟开发的一个软件工具箱,由一些松耦合组件组成的开放源代码的工具箱。本实验网格环境使用此工具箱来构建网格系统。

3. 3 实验结果与分析

在上述搭建的网格环境下,用以遥感图像分类。测试的实例是如表2所示的3幅TM遥感图像( 7个波段) 。

当中心服务器接收到用户客户端提交的遥感分类任务后,先对遥感图像划分若干子块的策略为:

对应于测试的3个图像实例,按照上述策略分类划分为25块,25块和50块。分类的算法采用SVM( Support Vector Machine) ,在Matlab环境中编写后封装成网格服务,部署到节点机中。

实验中遥感图像分类处理所需的时间是指从用户在客户端提交分类任务到任务完成的时间T,包括三个部分的时间,即:

T = T1 + T2 + T3

T1指分类算法参数计算时间,图像分块时间以及图像合并时间( 在中心服务器完成) ; T2指图像在整个处理过程中的传输时间( 客户端与中心服务器,中心服务器与节点机之间的信息传输) ; T3指的是分类服务完成分类操作的时间( 各分类子任务在节点机上的处理时间) 。

对于图像1,文件大小不大,按划分策略分为了25个子块,并行分配给5个节点机处理,完成时间T为10分钟; 而图像2也划分为25块,在5个节点机下的T为12分钟。二者文件大小差别很大,但是所需的T差不多,主要原因是对于小的遥感图像文件,分类处理任务的完成时间T绝大部分花费在图像分块和信息的传输上,即T1和T2。因此,用并行处理的优越性并没体现出来。对于大的遥感图像,并行处理的优越性比较明显。如表3为图像3( 932 MB) 在不同处理的节点机数目下所花费的处理时间T。

当节点机增加时,T1和T2随着增加,而T3逐渐减少。实验中图像3参与处理的节点数目与处理时间的关系如图4所示。当节点数为1时,相当于是单机处理的结果; 随着节点机数目的增加,处理的时间逐渐减少,到达5、6个节点时,处理的时间趋于稳定。

由实验结果表明,构建的网格环境对于遥感图像并行处理在遥感图像较大时,能取得了较好的效果,分类的效率提高明显。

图像3分类的结果如图5所示。

4 结语

网格技术的出现,为海量遥感图像高效处理提供了理想的环境。本文根据网格计算的特征及基本理论要求,设计了一个基于网格环境的遥感图像分类并行处理框架,该框架支持动态地扩展各类服务和节点机数目。搭建一个测试的网格平台,在节点机上部署了遥感分类的SVM分类服务,远程用户从客户端提交的分类任务,在网格的中心服务器中完成任务的分解,调度分配给个节点机完成。实验结果表明,测试平台实现了网格环境下的遥感图像并行分类的架构,有效提高大容量遥感数据的分类效率,为分布式并行处理遥感图像提供了有效的途径。但实验平台中的节点平台是同构,都是同一类型操作系统下( Windows) 。如何在现有的实验平台上构建异构的节点,充分利用网格环境的资源共享,还在深入研究中。

摘要：随着遥感技术的发展,高分辨率大容量遥感数据的应用,对图像处理效率提出了更高的要求。网格计算因具有分布式、高性能和充分的资源共享性,为海量遥感图像的处理提供了有效的解决途径。针对遥感图像分类,提出基于网格环境的遥感影像并行模型,分析构建此模型的网格服务机制,设计网格服务及任务调度的算法流程。搭建网格实验测试平台,采用封装的SVM分类服务,实现了遥感图像并行分类处理。实验结果及分析表明,测试平台实现了网格环境下的遥感图像并行分类的架构,有效提高大容量遥感数据的分类效率,为分布式并行处理遥感图像提供了有效的途径。

【图像并行检索论文】推荐阅读：

图像并行处理06-23

图像检索10-09

彩色图像检索08-25

基于区域的图像检索06-13

基于文字的图像检索11-10

并行压缩论文10-31

并行状态机论文06-15

并行模型05-21

并行计算05-24

并行诊断06-12

>> 查看更多相关文档