复杂图像(精选7篇)
复杂图像 篇1
相似性度量是图像检索中的一个重要问题,为了达到图像检索的目的,需要对图像提取出来的特征进行相似度计算,最后依据计算结果选择输出的图像。相似度是以数值的形式表示两个对象之间相似的程度。从数学意义上讲,相似度即为概率,其表现的是两个对象共同部分的可能性。图像的属性不同,相似度的算法也不同。
1 图像的属性表征
图像的属性表征结构如图1所示:
其中,图像大小、图像主色调、图像分类、图像的内容描述、图像类型是图像的基本属性:
图像大小由宽度和高度表示。图像主色调采用HSI ( H是色调,S是饱和度,I是亮度)颜色模型。图像类型是按图像的生成方式分类,如照片、绘画、图表、电脑合成图像等。图像的内容描述指图像表示的主题内容,进一步表征为图像背景和图像主题。
2 目标图像与数据库图像各属性的相似度计算
假设D是检索目标图像,X是资源图像。Vi是属性ai的属性值集合。为了计算检索目标图像和图像数据库中资源图像的相似性,需要比较两者每个属性的相似性。
首先比较ai(D)和ai(X)的差别。通常用两者的距离表示其差别。即:di = Dis[ai (D), ai(X)]
Dis[ai(D), ai(X)]根据不同属性的性质做不同的定义,当检索目标图像或资源图像有多个图像分类、图像主色调或图像主体时,两者的这些属性可能是一对多或多对多,这时以它们的最小距离作为两者的属性距离。
在计算出ai(D)和ai(X)的距离di之后,要将其距离di转换成相似度si。规定所有属性的相似度的取值范围均为[0,1],将检索目标图像与数据库中资源图像的属性的最大距离di max映射为相似度为0,最小距离di min(通常是0)映射为相似度为1,而且相似度si是距离di的严格递减函数。对于图像的不同属性,其距离转换成相似度的公式是不同的。
2.1 图像的内容描述相似度
内容描述指一幅图像所表示的主题内容。因为内容描述是用词语来表示的,所以内容描述相似度也就是词语相似度。词语相似度是一个主观性很强的概念。从某一角度看相似的词语,从另一角度看可能差异会很大。在具体的应用中,词语相似度的含义可能就比较明确了。例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。
本文将两幅图像内容描述属性的相似度定义为该属性中相同单词的个数占总单词数的比值。
设用户查询语句中有n个关键词(X(x1,x2,x3……xn )),数据库记录中有m个关键词(Y(y1,y2,y3……yn )),内容属性的相似度为s,则有:
undefined
2.2 图像主色调的相似度
设颜色空间中有两点P1 (H1,S1,W1),P2(H2,S2,W2)。其中,H代表颜色的色调,S代表颜色的饱和度,W代表颜色的亮度。这两点的颜色差用欧几里德距离表示:
欧几里德距离公式是常见的衡量两个对象相似与否的公式,其得到的是一个距离值。距离值越大,两种颜色的差异就越大;距离值越小,两种颜色就越相似。
一幅图像的主色调可能有多个。假设检索目标图像(Q)的主色调为Cq1=(hq1,sq1,wq1),i=1, 2,……Nq(Nq是目标图像的颜色数)。图像数据库中资源图像(X)的颜色主色调为Cxj=(hxj,sxj,wxj),j= 1, 2,……Nx(Nx是数据库中资源图像的颜色数)。根据式(2)分别计算每个目标图像的主色调与每个资源图像的主色调的颜色距离dij,然后根据下面的式子将两种颜色的距离转换为相似度:
undefined
d0的取值范围为0~1。经大量实验表明,当d0取0.3时,两种颜色的相似度值更加符合人们的视觉感受。
目标图像和数据库中图像总的颜色相似度可用下式计算:
式(4)中si=max{sij|j=1,2,……Nx},sj=max{sij|i=1,2,……Nq},ui是颜色Cqi的重要性,uj是颜色Cxj的重要性。ui和uj 可以人为设置。分三种情况讨论:
(1)如果仅考虑目标图像Q的主色调时,令,则
(2)如果再考虑资源图像X的主色调时,令,则
(3)当考虑资源图像X的主色调的相对频率时,对目标图像Q的主色调赋予最近的X的主色调的相对频率的相对值作为其相对频率,即:
undefined
其中,p*i=fi|dij=min{dij|j=1,2,……Nx}。p*i即i不变时,j方向的最大相似度所对应的颜色的频率。这样,综合考虑两图像的主色调的相对频率。
undefined
其中,q*j=fi|dij=min{dij|i=1,2,……Nq}。q*j即j不变时,i方向的最大相似度所对应的颜色的频率。
由于相对频率通常差别很大,为减小它们的相对差值,对每个相对频率增加一个常数δ,然后求相对值作为图像主色调的重要度,即:
undefined
当δ=0时,undefined则
undefined
当δ=∞时,undefined,则
undefined
当δ在两者之间时,则
undefined
经过大量实验发现,当取δ=1时,实验结果更加符合人们的视觉感受。
2.3 图像主体位置的相似度
主体位置是指主体在图像中的位置。主体位置的相似度指主体中心点位置的相似度。首先计算两个主体中心点位置的距离。主体位置的描述词有左上、左中、左下、中上、中、中下、右上、右中、右下九个位置。
设(w,h)是数据库中资源图像的宽和高。定义“左上”为坐标(0.25w, 0.75h);“左中”为坐标(0.25w,0.5h);“左下”为坐标(0.25w,0.25h);“中上”坐标为(0.5w,0.75h);“中”的坐标为(0.5w,0.5h );“中下”的坐标(O.5w,0.25h);“右上”的坐标为(0.75w,0.75h);“右中”的坐标为(0.75w,0.5h);“右下”的坐标为(0.75w,0.25h)。
两个主体中心点的距离用下面的公式计算:
undefined
将此距离归一化,即
undefined
例如:数据库中资源图像的宽和高为(400,400),主体的中心所在的位置为(250,100),目标图像的主体位置为“右上”,将其转换为坐标即为(300,300)。那么目标图像主体位置与资源图像主体位置的实际差别为:
undefined
分别计算如果目标图像主体位置为“左上”、“左中”、“左下”、“中上”、“中”、“中下”、“右中”、“右下”时,目标图像主体位置与资源图像主体位置的差别。可以知道,当目标图像主体位置为“左上”时,目标图像主体位置与资源图像主体位置的差别最大,即Dmax=250。这也是目标图像主体位置与资源图像主体位置可能的最大差别。
将距离归一化,得到:d=D/Dmax=0.824;
图像主体位置的相似度用下面的公式来计算:
undefined
设d0为0.5,得到主体位置的相似度为0.264449。
2.4 图像主体方向的相似度
图像主体方向的描述词有:水平,垂直,倾斜。“水平”所对应的角度为0;“垂直”所对应的角度是π/2;“倾斜”所对应的角度为π/4或者π3/4。两个主体方向的差值D为它们所对应的角度的差的绝对值。目标图像主体方向与资源图像主体方向可能的最大差别是π/2。然后将此方向差进行归一化得到d,如下:undefined;
图像主体方向的相似度用公式(15)计算,公式中的d0取0.5。
例如,数据库中图像主体的方向为1.374,即undefined,所需图像的主体方向为“垂直”,那么根据上面的分析,计算得到两者相似度为0.9898979。证明两者是相似的,符合人们的视觉感受。
2.5 主体大小的相似度
主体大小是指主体面积相对于整个图像面积的比例。主体的大小用数值表示是
其中,s是指图像中主体的面积,s0是指图像的面积,即图像的长与宽的乘积。
主体大小的描述词有大、中、小。分下面三种情况求主体大小相似度(其中,d是数据库中图像的主体大小):
(1)当用户需要的主体大小属性为“小”时,用式(15)求主体大小相似度,其中d0=0.3;
(2)当用户需要的主体大小属性为“大”时,用下式求主体大小相似度,其中d0=0.7;
undefined
(3)当用户需要的主体大小属性为“中”时,设dm=0.5。
如果d<=dm,则d’=d/dm,然后用公式(15),用d′代替式(15)中的d。上面三种情况如图3所示:
上图中,横轴代表数据库中图像的主体大小,即数据库中图像的主体面积与图像面积之比然后开方得到的值。纵轴代表两幅图像中主体大小的相似度。
图(a)表示当需要的主体大小属性为“小”时,主体大小与相似度之间的关系。从图中可以看到,当数据库中的图像主体大小在0~0.3范围时,相似度在0.5~1.0范围,具有较高的相似度。
图(b)表示当需要的主体大小属性为“大”时,主体大小与相似度之间的关系。可以看到,当数据库中的图像主体大小在0.7~1.0范围时,相似度在0.5~1.0范围,具有较高的相似度。
图(c)表示当需要的主体大小属性为“中”时,主体大小与相似度之间的关系。当数据库中的图像主体大小在0.3~0.5之间时,相似度在0.5~1.0之间,具有较高的相似度。
2.6 图像主体的相似度
主体的属性包括:主体名称name,颜色color,形状为form,纹理texture,姿态pose,位置position,方向direction,大小size。
如果主体名称不同,则两个主体的相似度为0;如果主体名称相同,然后比较两主体的各属性。对于形状、纹理、姿态属性,比较对应属性的相同词的个数。对于颜色属性,如果双方颜色属性均不为空,则先将颜色都转换为HSI格式,然后根据颜色相似度来计算。对于位置、方向、大小属性,分别按照各自的相似度函数来计算。如果对应属性中有一方主体的该属性值为空或者两方主体的属性值均为空,则该属性的相似度值为0.5。
3 整体相似度计算
根据上面的分析计算,得到了一个与检索目标图像D的属性表征具有相同结构的检索目标图像和资源图像的相似度的属性表征,它的每个属性对应检索目标图像的属性。
在计算总相似度之前,先要采用下面的式子计算单个属性对总相似度的贡献。
undefined
上式中,Si是单个属性ai的相似度对总相似度的贡献,S’i是单个属性的相似度,计算出来的Si将被用到下面总相似度计算的公式中。
根据图像内容的层次化属性表征形式和每种属性的相似性度量方法,检索目标图像D和数据库中图像X的总相似度也采用层次化计算方法,将不同性质的各类属性的相似性融合起来,采用下面的公式:
上面的式子是一个层次性结构的式子。其中ui是属性ai的重要度,Si是目标图像D与资源图像X的对应属性ai的相似度,S(ai(D,X))是属性ai的子属性的总相似度,与S(D,X)具有相同的形式。当D与X的某项属性ai完全相同时,Si=1;完全不同时,Si=0;当D或X的此项属性为空时,Si=0.5;其余的情况Si=0~1。利用式(19)考虑每个属性的重要度,计算总的相似度。
4 图像信息测度
为了衡量图像描述的复杂程度,需要一种测度方法,作为对图像表征的信息测度。根据这种信息表征的层次化结构形式,采用一种归一化综合属性测度的递归信息测度方法,用公式表示如下: H(A)=undefinedmi[I(ai)+H(ai)] (20)
其中,mi=undefined当∑(ui*|ai|)>0时
mi=0 当∑(ui*|ai|)=0时
|ai|为属性ai的测度,它是文本型属性值中关键词的个数或数值型属性值中数值点的个数(数值点指三维颜色空间、二维位置平面或一维数值中的点)。(ui*|ai|)为属性ai的综合测度。mi为属性ai的归一化综合属性测度,mi的取值范围为mi>=0且mi<=1。 I(ai)表示属性ai的信息测度,H(ai)表示属性ai的子属性的信息测度,与H(A)具有相同的形式。如何计算属性ai的信息测度I(ai),是一个值得探讨的问题。如果采用Shannon的信息测度方法,即:
在ui=1,|ai|为概率空间的概率时,H(A)即为Shannon的概率墒。这是最常用的概率信息测度方法。但是,利用Shannon的信息测度方法存在一个问题,即属性ai的平均信息测度miI(ai)不是mi的单调函数,如下图4。
这样,在仅有一个属性时,其信息测度为0,不符合人们的心理。为此,我们对Shannon公式修正为:
undefined
改进的属性ai的平均信息测度miI(ai)是mi的单调函数,更加符合人们的心理,如上图5。
根据公式(20)及公式(21)计算检索目标图像D和资源图像X的信息测度。计算信息测度时,根据“图像属性的表征方法”图,从第3层开始计算,逐步向高层推进。根据信息测度H(D),H(X),按照下面的公式排列检索结果。其中,S(D,X)是目标图像与资源图像的相似度。
参考文献
[1]章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003:5-6.
[2]徐谷.视频运动分析和语义信息提取方法研究[D].北京,清华大学硕士学位论文.2003:7-10.
[3]唐波,刘雨,孙茂印.基于数据库的视频检索实现[J].电视技术,2005(2):20-21.
[4]张文哲.基于内容的视频分析与检索方法研究[D].西安:西北工业大学,2004.
基于复杂网络的遥感图像检测研究 篇2
近年来, 青岛附近海域在每年的6月到8月份频繁爆发赤潮灾害, 赤潮是一种草绿色藻体, 管状膜质, 丛生, 主枝明显, 分枝细长, 高可达1米, 基部以固着器附着在岩石上, 生长在中潮带滩涂, 石砾上严重影响了沿海渔业和旅游业的发展, 浒苔的爆发主要是由于全球气候变化、水体富营养化等原因。
本文基于复杂网络理论提出一种新的使用社团发现的办法在遥感图像中的赤潮检测和识别方法。
1 国内外研究现状
复杂网络能够表达许多真实世界复杂系统的自然结构, 近年来, 许多不同的科学领域产生兴趣关注这些网络的统计特征的研究[1]。尽管许多计算机视觉的论题可以用复杂网络技术建模, 但这仍然是有待探索的领域, 这方面的参考文献很少。涉及复杂网络的研究可以定义为图论和统计机制之间的交集, 这赋予该领域真正的多学科性质。关于复杂网络理论的第一次研究可以再文献Flory[1]、Rapoport[5]以及Erdos和Renyi[6]中看到。
复杂网络变得如此流行的主要原因之一是它实际表示任何自然结构的灵活性、一般性, 包括那些拓扑性质动态变化的。事实上, 每个离散的结构例如列表、树、网络和图像都可以恰当的被表示为一个图。考虑到这些, 各种研究如何把一个问题用复杂网络来描述, 接着分析它的拓扑性质及特征提取。一些应用用这些描述符来区别不同的类别, 因而产生了许多图像识别的技术。
文献中许多文章将真实结构描述为复杂网络, 在文献[1]中, 复杂网络被用来做文本建模, 实验结果显示, 网络参数和文本质量之间有很强的相关性。
在文献[5]中, 纹理特征问题用复杂网络表示, 节点表示像素点, 像素点之间的相似性映射为节点之间的连接。可以看到, 不同类型的纹理变现出不同的节点度分布。传统的网络连通性量度被使用为了得到特征向量, 特征向量可以用来纹理描述和分类。
本文的思想与上述相关的文章类似, 集中于纹理模式识别。由于人类交流的重要性, 在未来几年, 图像描述和分析以及复杂网络提供了一个有希望 (有挑战) 的研究机遇。
2 基于模块度的社团发现算法
基于模块度优化的社团发现算法, 也就是优化模块度Q值的一部分算法。Q值是由Newman在2004年的论文“Fast Algorithm for Dectecting Community Structure in Networks”中提出的 (也就是FN算法) 。通过优化Q值来提高模块度是这类算法的主要思路, 在此基础上, 本文又划分了三个类别: (1) 采用聚合思想, 也就是分层聚类中的自底向上的作法。典型算法有Newman快速算法 (FN算法) 、CNM算法 (Finding Local Community Structure in Networks) 和MSG-MV算法 (Multistep Greedy Algorithm Identifies Community Structure in RealWorld and Computer-Generated Networks) 等。 (2) 采用分裂思想, 也就是分层聚类中自顶向下的方法。代表当然就是Newman的GN算法, 但是GN的复杂度实在是高了些, 所以Newman之后提出的一种谱方法 (Modularity and Community Structure in Networks) 。 (3) 直接寻优法, 这类算法的两个代表EO算法 (Community Detection in Complex Networks Using External optimization) 和整数规划方法, 但是一些基于遗传算法和蚁群的智能划分方法也属于此类。但是在2007年的论文“Resolution Limit in Community”中认为基于Q值的优化方法无法处理粒度小于一定程度的网络, 虽然后续跟进了一些优化的算法, 但是此类方法在处理真实网络时还是很难反映真实的社团结构。
3 本文复杂网络模型的建立
本文中将选定的遥感图像的每个像素点p (B1, B2, B3) (其中B1, B2, B3分别代表遥感图像中像素点p对应的三个波段值) 抽象为一个节点i, 节点i和j之间连边是否连边取决于一个本文定义的相似度, 这个相似度就是根据像素点之间不同的波段值B1, B2, B3来计算任意两个像素点之间的欧式距离, 即
由此构建相似度矩阵
用这个dij来作为阈值衡量节点i和j是否连边, 如果dij小于等于所选阈值那么就在节点i和j进行连边, 否则就没有连边, 这样就将一幅遥感图像转化为了一个无权无向的复杂网络模型G (V, E) 。其中V就是像素点即节点的集合, E就是节点之间连边的集合。
设定不同的阈值就会得到不同的复杂网络模型, 那么得到的社团结构也就不同, 那么如何选取阈值成了一个将一幅遥感图像转化成一个复杂网络模型的关键问题。
4 提出阈值选取的两种方法
4.1 反复测算法
对选定区域的遥感图像计算dij得到一个取值范围[dmin, dmax], 在这个区间内从dmin到dmax以步长为1选取阈值, 即阈值可选为为dmin, dmin+1, dmin+2, …, dmax, 不同的阈值对应不同的复杂网络模型, 然后针对这些复杂网络进行社团划分, 本文所采用的社团划分方法是Newman的针对大规模网络的基于模块度的CNM算法。
在这里本文提出两个指标来作为衡量阈值选取的好坏的标准, 设集合A为匹配到的赤潮节点集合, 集合B为社团划分检测到的赤潮节点集合, 集合C为实际的赤潮节点集合, rate为覆盖率, 即匹配到的赤潮节点个数与社团划分检测到的赤潮节点个数之间的比值,
P为精确度, 即实际的赤潮节点个数与社团划分检测到的赤潮节点个数之间的比值,
当覆盖率最高精确度也最高的情况下对应的阈值就是用来做社团划分最好的阈值选择。
实验结果:本文选取了一块区域的遥感图像 (图1) 为例, 图像中包含1862个像素点, 针对本图像用第2部分中提到的复杂网络建模的方法建立复杂网络模型, 计算节点之间的相似度的取值区间在[1, 60], 采用CNM算法对每一个复杂网络模型进行社团划分, 得到如表1的结果
由表1可以看出, 在阈值选取过小的情况下, 网络连边过于稀疏, 网络中存在多个连通片, 所以划分出的社团个数较多, 只有在阈值取到[5, 59]的时候可比较符合实际情况的划分出两个社团。
计算不同阈值情况下的覆盖率rate和精确度p, 得到结果如图2 (覆盖率) 图3 (精确度) :
由图2和图3可以看出, 在阈值的取值范围内, 覆盖率都在93%以上, 而精确度却在阈值取37的时候达到最大值65%, 因此可以通过计算不同阈值情况下的覆盖率和精确度来确定阈值在选37的时候最好, 也就是在阈值为37的时候进行社团划分得到的结果最接近实际情况, 如下图4:
4.2 抽样计算阈值法
在遥感图像中选取一定数量的海洋图像的像素点S (B1i, B2i, B3i) 和赤潮像素点C (B1j, B2j, B3j) 来计算一个平均阈值:
根据第2部分中的相似度矩阵, 取值小于等于阈值的保留, 大于阈值的取为0, 建立复杂网络模型, 然后利用Newman的针对大规模网络的基于模块度的CNM算法进行社团划分。
实验结果如图5。
5 结论
赤潮灾害是近年来在黄海及渤海海域爆发的影响较大的海洋灾害, 利用遥感图像, 对赤潮灾害进行监测和治理是非常有必要的, 本文提出一种新的利用复杂网络社团发现的方法, 对遥感图像进行处理, 以此检测出遥感图像中可能为赤潮的区域, 为赤潮灾害的监测和治理提供有力的依据。
本文所采用的是Newman的针对大规模网络的基于模块度的CNM算法, 然后提出了两种确定阈值的方法: (1) 反复测算法, (2) 抽样计算法;在反复测算法中提出了两个衡量社团划分好坏的指标: (1) 覆盖率, (2) 精确度, 以此作为确定阈值的指标。最后得出了一种可以再遥感图像中利用复杂网络的方法, 检测出图像中有用信息的可行方法。
摘要:本文提出一种新的利用复杂网络理论处理遥感图像的方法 , 对遥感图像进行复杂网络建模, 然后对复杂网络模型划分社团, 本文所采用的是Newman的针对大规模网络的基于模块度的CNM算法, 然后提出了两种确定阈值的方法: (1) 反复测算法, (2) 抽样计算法;在反复测算法中提出了两个衡量社团划分好坏的指标: (1) 覆盖率, (2) 精确度, 以此作为确定阈值的指标, 最后得出了一种可以再遥感图像中利用复杂网络的方法, 检测出图像中有用信息的可行方法。
关键词:赤潮,遥感图像,复杂网络,社团发现
参考文献
[1]Yueguo Zhang, Lili Dong, A Complex Network-Based Approach for Interest Point Detection in Images[J], 2012.
[2]邵峰晶, 孙仁诚, 李淑静.多子网复合复杂网络及其运算研究[J].复杂系统与复杂科学.
[3]邵峰晶.多子网复合复杂网络[C]//第13届海峡两岸资讯技术研讨会.2012.
[4]隋毅.多子网复合复杂网络模型及其相关性质的研究[J].青岛大学, 2012.
[5]Yueguo Zhang, Lili Dong, Jianhua Li.A complex network-based approach to estimating the number of people in video surveillance[J].2013.
[6]Rozniza Ali, Bo Jiang, Mustafa Man, Amir Hussain.Classification of Fish Ectoparasite Genus Gyrodactylus SEM Images Using ASM and Complex Network Model[J].2014.
[7]汤亚波, 刘晓军, 徐守时.一种遥感图像海上船舶多级自适应聚类分割方法[J].计算机应用, 2005, 9.
复杂图像 篇3
现代复杂装备多数是由具有复杂型面的实体零件构成,常见的如汽车、轮船和飞机,尤其是军用飞机等,随着计算机技术的发展,这些装备不再仅仅局限于一般的产品设计、制造和使用,而是派生出了基于计算机技术的围绕产品对象的诸如工程分析、仿真、虚拟维修和虚拟样机,甚至广告、三维游戏以及各种意图的科学研究等等,这些应用通常都需要装备或者产品对象的计算机三维实体模型。但是通常情况下,实体模型的构建者很难获取产品对象的全套原始设计数据信息,因此构建逼真的三维模型一般比较困难。
近年来发展迅速的逆向工程技术(Reverse Engineering),首先是对实物原型进行数据采集,经过数据处理和曲面重构等过程,构造出实物的三维模型,然后再对原型进行复制或在原型基础上进行再设计[1]。可见,逆向工程必须是有实物原型且实物原型的尺寸能够方便地被常规的三坐标测量设备所测量。但是,在下述情况下:1)建模对象的实物原型无法获取;2)实物原型因种种原因不便于数据采集;3)成本制约,无三坐标测量设备。这些情况下,逆向工程技术就存在局限性。
本文研究的重点就是针对上述情况下,利用装备的一些图像资料包括图片、照片和影像等,在加上一些必要的数据并借助三维CAD软件构建出具有复杂型面的装备的三维虚拟模型,这种方法已经运用到了多种复杂产品的建模中,取得了好的效果。本文以飞机的建模为例,借助Solidworks软件介绍该方法的应用。
1 关键技术
1.1 复杂型面实体的常用建模工具
飞机含有较多的具有复杂型面的实体零件,在机头、机身和机翼上表现尤为显著,特别是机身,从外形看,是由多个复杂曲面平滑连接而成,因此建模的重点是机身,建模的核心是曲面造型。只要具有复杂型面的零件能够建模成功,其他的规则零件的建模相对容易的多,这里仅就复杂型面实体部分的建模进行讨论。特征工具栏中常用的复杂型面实体建模工具是放样和扫描,机头和机身主要采用放样或者扫描来构建。扫描限于截面轮廓形状一致的特征造型,而放样适用的范围可延伸到截面轮廓形状不同的特征造型,放样的适用范围更广一些。
Solidworks也提供了专门的曲面工具栏,内有诸如扫描、放样、延展和剪裁曲面等多种曲面造型工具,这些工具可以生成零厚度的曲面。这些零厚度的曲面与特征工具创建的特征是不能直接融合的。比如:特征工具栏和曲面工具栏各自拥有自己的切除工具,这些切除工具只对自己有效,换句话说,曲面的剪裁工具对特征工具创建的特征不起作用,反之,特征工具中的各种切除工具对曲面工具创建的曲面也不起作用。这样对于复杂型面实体零件的一致性建模会带来不便,此外,当两种建模结果混合到一起时有时还会出现一些意想不到的错误,因此如果既有实体特征又有曲面特征的零件,建议以特征工具建模为主,曲面工具为辅。能用特征工具建模的优先选用特征工具,有些特殊表面如一些曲面间的汇交区,曲面的尖角区或延展区等曲面工具更为便捷的,可先采用曲面工具建模,之后运用特征工具栏中的加厚工具将该零厚度曲面转换成有厚度的实体特征,并使其与其他特征实现结果合并,便于后续的一致性操作。当然如果先采用曲面工具构建曲面,之后一一通过加厚工具将其转变成实体特征,技术上也是可行的。
1.2 建模对象的特征分段
飞机机身一般不可能只有一个简单的曲面特征构成,往往是由多段复杂曲面特征平滑连接而成,所以建模时不可能通过一次扫描或者一次放样构建完成,需要分段一一构建。这样一来,建模前需要对建模对象的曲面实体部分按照截面相近原则依次进行分段,识别出各段的主体截面轮廓以及相邻区段的过渡截面轮廓,这些轮廓的几何形状即为扫描或放样的轮廓元素,因此特征分段的关键就是获取这些轮廓元素,之后依次对每一区段利用扫描或放样工具构建出这些实体特征。
1.3 参考图像的选择及三维参考空间的搭建
放样在飞机建模中应用最多,共有三大要素:1)放样的轮廓;2)放样的引导线;3)放样的过程控制。这三者均对建模结果有着重要影响。构建机身(含机头)时,放样的轮廓一般易于获得,但是放样的引导线通常是自由曲线且不易获得,这就需要借助飞机图像来获取这些曲线,这也就是本文所述的基于图像构建复杂型面产品模型的核心所在。而战机图像是各个姿态的,需要进行甄别选用,选择时可以参考工程图的主、俯、左三视图的构成原理,寻找各个视图的代表图像,用这些图像在Solidworks绘图区中搭建一个三维参考空间。图1左图为来自互联网的一张某型飞机的原始图像,稍加处理后即可作为三视图的基准图。右图即为运用这一原始图像在Solidworks中搭建的三维参考空间图。搭建三维参考空间需要注意的首要问题是要保证三幅图的比例一致,方法是:在插入前先在要插入视图的草图上绘制出代表机长(也可以是机高或翼展)实际尺寸的线段,然后以该线段为标尺放大图像的对应尺寸与该标尺长度相等,注意放大时必须锁定图像的长宽比例。其次,三幅图插入时飞机位置必须一致,方法是:可先在各图像的机头或机身上确定一个统一的参考点,然后插入到Solidworks草图中时让该参考点均与坐标原点重合。
图像的来源可以多种多样,常见的有互联网,教科书,培训资料,媒体资料等等,也可以通过现场的拍摄获取,总之,素材信息的来源很多,可以根据需要做筛选以及后续的处理工作。
1.4 建模过程
有了三维参考空间即可着手建模,建模可从机头开始,按前面所分的区段依次构建各段特征,下面以飞机的整流罩为例介绍建模过程。
飞机的整流罩在采用放样法建模时需要四条引导线,根据实际位置分别命名为脊引导线、腹引导线、左侧引导线和右侧引导线。引导线的获取方法是:以三维参考空间的主视图为绘图平面并依据主视图中飞机整流罩的轮廓摹绘出脊引导线和腹引导线。同样方法,以俯视图为草图绘制平面并依据俯视图上整流罩的轮廓分别摹绘出左侧引导线和右侧引导线,结果如图2所示。以上曲线地绘制均采用样条曲线工具,样条曲线上型值点的数量、位置和相互间的几何关系可根据实际情况调整,调整要以与图像上的目标轮廓最大限度地重合为准。
放样的轮廓来源于零件实体的截面轮廓,应根据所绘区段相应位置的截面形状来绘制,有些地方是圆形,有些地方是椭圆,有些地方可能是组合图形,这些图形信息可以根据收集来的素材进行分析和推理,图3左图即为最终绘制出的整流罩的轮廓线和引导线,右图为根据轮廓线和引导线放样后的结果。
放样所得的特征应最大限度的与图像拟合,图4为构建的整流罩模型与原始图像的套合比对结果。
2 应用实例
运用上述方法构建的某型战机的三维模型如图5所示,飞机外观可根据实际情况通过Solidworks的外观工具和材料工具进行附加,此外还可利用Solidworks的PhotoWorks插件进行渲染以达到逼真的效果。
有时除了要构建出飞机的外形外,往往还需要在飞机内部添加一些骨架或设备,这些骨架或设备可以是仿真的,也可以是等效模型,这要根据实际的需求和所能搜集到的素材信息量确定。有了飞机外壳的三维实体模型后,在其内部添加骨架组件或者设备就有了一定的参考,再结合搜集来的表示飞机内部结构的图像,可大致推理出主要内部件的形状、尺寸和位置,依据这些推理结果可构建出这些组件的三维模型并装配到已构建出的机体内部。图6为含有内部骨架组件等效模型的某型飞机实例。
3 结论
基于图像的复杂型面实体的建模方法主要应用于成型产品的仿真建模,尤其用于解决无法获取装备原型或者虽有装备原型但不便于测量情况下的产品三维仿真建模问题。该方法实施的原则是:首先必须满足神似,其次力求做到形似。至于形似的程度(也即模型的仿真程度)取决于项目的精度要求和所能获取的产品原始数据的精度及广度。很显然,如果原始数据信息不足,再加上产品图像的清晰度、角度以及虚光等因素的影响,建模结果的仿真度肯定要受到影响。如果仅仅为了获取广告和游戏素材,往往只须做到神似即可,但要将建模结果用于某些工程分析、毁伤仿真等科学研究,必须在素材信息的搜集方面下足功夫。
摘要:本文提出一种以装备的图像信息为参考运用三维CAD软件Solidworks构建复杂型面实体三维模型的方法,用于解决无原型或者有原型但数据不便测量情况下的复杂型面实体的虚拟造型问题。通过在Solidworks草图中摹绘装备图像的轮廓获取引导曲线和轮廓曲线,再运用放样和扫描等工具构建复杂型面的三维实体模型,并就模型的后续处理及数据交换问题进行了探讨,最后给出了该方法的应用实例。
关键词:三菱Solidworks,三维建模,图像,数据转换
参考文献
[1]吴家翀.逆向工程的关键步骤及主要技术[J].机械与电子,2010,(9):96.
[2]赵文杰,等.基于CATIA的装载机数字化模型的建立及仿真[J].天津理工大学学报,2010,(3):80-82.
复杂图像 篇4
在图像的采集过程中,由于受到纸质文档自身几何形状和拍摄角度的影响,采集到的图像可能发生扭曲,而文档图像的扭曲将严重影响到OCR识别的效果。当文档图像是图文混排等复杂版面的情况时,将进一步影响到OCR识别。这就需要对复杂版面文档图像进行有效的校正。近年来,国内外对扭曲图像校正技术的研究在日趋增加,但目前大部分的研究主要针对于纯文本的图像,对图文混排类的复杂版面文档图像的扭曲校正研究较少。对纯文本扭曲图像的校正方法主要分为基于3D模型的校正技术和基于2D的图像处理技术,其中基于2D的校正技术有很好的实用性和易推广性。基于2D的校正技术主要包括:1)基于连通域的处理[1,2,3],这种方法有很好的校正效果,然而由于处理精度较高,对复杂版面敏感度较高,校正效率有待进一步提高。2)基于文本线的处理[4,5],这类方法要很高的校正效率,但由于是从整体文本行入手,因此校正精度有细节上的损失,且对复杂版面的文档图像同样不适用。3)基于模型的校正方法,该方法可以对含有表格等非文字的文档图像进行检测校正,但其校正粒度较为粗糙,效果欠佳。
通过以上分析总结,各种校正方法各有特点,但应用到复杂版面文档图像时都不易获得理想的校正效果,其原因在于复杂版面中的非文字元素影响了各种校正方法中的处理步骤。因此如何在复杂版面上进行有效的校正成为关键所在。本文针对复杂版面的扭曲文档图像提出一种基于组件分析的文本线校正方法,实现了对图像中的文字区域和非文字区域的有效区分,进而精准定位扭曲文本行,最后基于窗口扫描的方法以文本线为基准校正图像。该方法解决了对复杂版面扭曲图像的有效校正,并兼顾效率与校正精度。
1 复杂版面扭曲文档图像特征及校正分析
在获取图像的过程中,相机位置及书籍的摆放,都可能使获得的图像发生扭曲,如图1所示。
在纯文本文档图像扭曲的情况下,识别率将会大大降低;而在复杂版面的扭曲的情况下,识别率将进一步降低,甚至无法识别。在这种情况下,文字和非文字混合排入图像中,对扭曲图像的处理难度将进一步增加。文献[6]在提出一种基于连通域的提取文档图像中的复选框组件的方法,但无法对文档图像中的图像元素进行处理。在对文本行进行扭曲校正之前,必须排除非文字区域的影响。为了提高识别精度,最终也需要剔除非文字区域,保留纯文本。这是本文所选用的处理思想。
2 基于组件分析的扭曲校正算法
对于复杂版面扭曲文档图像,扭曲校正的重点是文本行的定位。本文就此提出一种基于形态学组件分析的校正方法。算法实现均采用C++编程语言。解决方案流程如图2所示。
2.1 图像预处理
图像预处理包括两个步骤:灰度化和二值化。灰度化是将具有R,G,B分量的真彩色图像转换为灰度图像。具体转换规则采用以下公式:
灰度化处理后需要将图像转为二值图像,即只包括背景色和前景色的图像。传统的二值化方法较多,如双峰法、大津法(OTSU)、Niblack法等。由于在光照均匀的情况下大津法可以很好地处理本文的研究图像,得到效果较好的二值图像,因此本文在研究中选用大津法进行处理。预处理后的图像如图3所示。
2.2 8-邻域填充目标像素
对目标像素进行8-邻域填充是为了更好地进行形态学组件分析[7]。由于文字笔画有的地方较细,有可能出现断笔等情况,在进行形态学分析时可能导致精确度不高。而8-邻域填充可以使文字变得更饱满,充实笔画,提高形态学组件分析的精确度。
目标像素的8-邻域示意如图4所示。
具体填充规则如下:
(1)对任意一个目标像素点T,扫描其8-邻域的像素值,分别记为E1,E2,E3,E4,E5,E6,E7,E8。
(2)由式(2)判断其邻域内是否有空白列或行。
若α为1,则目标像素为外部点,不予处理;若α为0,则为内部点,对其8-邻域像素进行置黑操作。
(3)判断若无置黑操作则退出,否则重复(1)、(2)。
8-邻域填充的局部效果如图5所示。
2.3 形态学组件分析
对于图像的版面分析,文献[8]提出了一种基于K-means的聚类分析算法,通过对图像像素进行聚类分析将图像内容分类。但是,这种方法的效率有限,在处理文字图像时体现不出其优越性,因此本文在版面分析算法上主要参考基于形态学组件的分析方法。
形态学组件分析的目的在于区分出图像中的文字行区域和非文字区域。采用以下步骤进行组件分析:
(1)扫描图像,统计图像中的基本元素。
(2)根据各元素的形态学特征区分为不同的组件。
(3)提取文本行组件,并对其进行去噪修正。
由于在复杂版面的文档图像的识别中,关键在于定位文本区域信息。区分文字区域和非文字区域只要考虑各个组件的形态学特征即可[9,10]。因此,在扫描完图像得到图像各个组件后,分别计算其形态学特征,本文主要采用计算各组件的形态学高度和宽度来区分区域。计算规则如下:
用C表示组件元素集合:
在编程实现中,首先定义结构体Component,用来保存各个组件的信息。结构体中包含组件的宽度、高度以及编号信息。统计每个组件的形态学宽度和高度,分别用集合H和W表示:
并由式(3)、式(4)计算组件的平均高度和平均宽度:
由经验值可知计算出来的平均高度可以视为文档图像中文本行组件的近似平均高度。所以,在所有组件元素中,其形态学特征明显不同于平均特征的组件被视为非文字行组件。对这些组件进行标注。对于文本行组件则进行编号记录,并存储这些文本行组件的坐标信息。本文采用一种基于组件边界属性的合并方法[9]。具体步骤如下:
第一步由组件分析的结果将文字组件按照以下规则合并文本行组件;
用left,right,top,bottom,width,height分别表示组件的左右上下边界如果max(right1,right2)-min(left1,left2)<width1+width2并且max(bottom1,bottom2)-min(top1,top2)<height1+height2则合并成新矩形:
组件合并之后的初始状态下,各文字组件都处于属性未定状态。修正文本行组件的过程就是采用一种渐近的过程,首先,根据组件的宽度和高度形态学特征,区分为文字和非文字;然后,把属性已经统计为文字的各组件按照它们的间距从小到大的顺序加以逐步合并。在这一合并过程中,只有属性未定组件将被处理。该过程最终将各个文字组件合并成为文本行。
第二步对文本行组件进行修正,对于不连续的文本行进行不同编号标记。
对上一步中合并出来的文本行进行水平膨胀,这样处理的目的是为了快速统计各个文本行,并对各个文本行进行编号。
第三步记录所有文本行位置信息。
利用上一步中水平膨胀后的文本行可以准确地标记各个文本行在图像中的坐标位置。对所有文本行进行标记,以进行下一步处理。
2.4 提取文本线
组件分析完成后,由于对非文本元素进行了标注,因此,可以对文本行组件进行文本线的提取。具体的提取方法为:提取每个文字行组件的中心点,将这些中心点组成文本线,保存这些文本线的坐标信息。
提取文本线的效果如图6所示。
2.5 窗口扫描校正
已有的文献的研究方法中,一种校正方法是先对文本线进行拟合,再进行几何变换来重构文本行;另一种方法是先将文字切分,再通过移动单个文字到正确位置来重构文本行。本文提出一种兼顾两种方法优点的重构文本行方法,即以适当大小的窗口为单位扫描文本线,对目标像素进行位置变换,来达到重构文本行。本方法相比于完全的文本线拟合重构方法提高了效率,相比于以文字为单位重构方法又可以更好地保留文本行细节。
利用已经获得的文本行平均高度,以及文本线位置信息,以文本线为基准,以一定大小的窗口对文本行进行扭曲校正。窗口扫描的程序流程如图7所示。
第一步设定扫描窗口大小,对于文档图像来说,其中的文本信息除去标题等少数特殊文本之外,其余文本的特征基本统一。所以,在设定扫描窗口大小时可以以文本行的平均高度为参照。本文选定的窗口大小遵照以下规则:
用window_H表示窗口高度,用window_W表示窗口宽度,其大小分别按式(5)、式(6):
第二步选取每条文本线的中点作为扫描起点,首先记录扫描起点的高度坐标,分别向左向右移动窗口,每移动一次,记录此次窗口内文本线中点的高度,并计算其与扫描起点的高度差,记此高度差为window Gap,然后对于每一条文本线设置一个保存高度差的数组Height_Gapn(n为文本线编号),将每个窗口相应的高度差window Gap记录在这个数组中。扫描过程如图8所示。
第三步根据高度差数组中的数据文本行进行重构。在经过组件分析后的图像中,文本行已经定位,因此在这一步中,对于每一条文本行,利用扫描文本线所得出的高度差结果,同样从文本行的中点处开始向两边分别移动窗口,在窗口内的目标像素统一移动其相应的窗口高度差window Gap,直至扫描移动完成当前文本行。对每一条文本行执行上述过程,直至全部文本行完成。这时,图像的所有文本行已经完成校正。其校正效果如图9所示。
3 方法测试及实验结果分析
3.1 测试环境
本实验在VS2005开发环境下采用C++语言实现。测试环境为:Inter(R)Core(TM)2 Duo CPU E7400@2.80 GHz;内存2 GB;操作系统为Windows 7。实验样张取自16开普通中文书本,共对100张样张进行测试。拍摄摄像头像素为500 W像素。使用汉王OCR文字识别软件进行文字识别。
图像的获取均在光照均匀的环境下进行,本文校正方法忽略噪声的干扰。图像数据为:24位真彩图像,大小为1944×2592像素。本文算法主要是针对横排的文档图像进行研究的,图像的版面特征主要是文档图像中混入了图像,简单图形(如线条)以及表格线等非文字元素,对这些文档图像均能进行有效的扭曲校正。对于任意复杂的版面,本文方法还不能有效处理,有待改进。
3.2 校正效果对比
实验结果如图10所示,图10为文献[3]方法校正结果,图11为本文方法校正结果。可以看出,对于复杂版面的文档图像,文献[3]的校正效果明显较差,不但没有排除非文字元素的干扰,而且有的文字行已经损失,识别率也会因此大大降低。而本文的算法进行校正的效果明显,且已经剔除非文本元素的干扰,这样可以较高地提升识别率。相比于文献[11,12]中所提出的相应校正算法,较之本文提出的算法都有明显不足。在所有进行测试的样张中,只有3张的校正效果不是很理想,其余的样张在校正后不论是可识别字符数还是识别率都有大幅度提升,其中识别率可达95%以上。对实验结果进行统计分析,其结果如表1所示。
由于本文所提的方法首先需要对文档的版面进行分析以确定文本行,所以相对于已有的基于文本线拟合的方法在时间效率上的提升并不是很明显,但是在校正精确度和校正后识别率以及可识别字符数上都有明显优势。对于这种复杂版面的文档图像大多数已有的校正方法的校正效果很差,甚至无法校正。本文方法相比于基于连通域文字分割的校正方法就有着较为明显的效率优势。其中所测试的样张中平均识别率可以达到95%以上,而可识别字符也比其他方法明显多出。同时本文方法有较强的鲁棒性,对于不同的复杂版面都能有较好的校正效果。
4 结语
本文针对复杂版面扭曲文档图像进行研究,提出基于组件的窗口扫描校正方法。首先通过形态学特征对文档内容进行组件分析,确定文本行;然后提取文本线,最后以文本线为基准,以适当大小窗口扫描校正文本行。该方法能在900毫秒内校正1944×2592像素的图像,而且校正效果良好,其校正后的OCR识别率可以达到95%以上。经过进一步测试,对于复杂版面的英文文档图像也可以准确进行校正。本文方法在本实验室开发的智能阅读机进行了应用,无需人工干涉的情况下已能实现复杂版面扭曲文档图像的快速校正,校正后的实时识别率能达到95%。因此,本文提出的方法可以推广到实时文字图像识别系统中进行应用。
摘要:在对复杂版面扭曲文档图像进行OCR识别时,识别率较低。针对这类文档图像提出一种基于形态学文本行定位的扭曲校正方法。首先根据形态学特征在复杂版面中定位文本行,区分处理文字区域和非文字区域,利用文本行信息提取文本线;再以文本线为基准利用窗口扫描法进行文字行校正,最终重构图像。实验结果表明,该方法校正效果明显,对于复杂版面的扭曲文档图像有较好的校正效果,校正后识别率大幅度提高。
关键词:复杂版面,扭曲文档,形态学组件,窗口扫描校正
参考文献
[1]Liu Hong,Ye Lu.A method restore Chinese warped document images based on binding characters and building curved lines[C]//International Conference on Systems,Man and Cybernetics:ICSMC2009:2009:989-993.
[2]Li Zhang,Yip Andy M,Brown Michael S,et al.A unified framework for document restoration using inpainting and shape-from-shading[J].Pattern Recognition,2009,42(11):2961-2978.
[3]宋丽丽,吴亚东,孙波.改进的文档图像扭曲校正方法[J].计算机工程,2011,37(1):204-206.
[4]张伟业,赵群飞.读书机器人的版面分析及文字图像预处理算法[J].微型电脑应用,2011,27(1):58-61.
[5]Liu Hong,Ding Runwei.International Conference on Systems Man and Cybernetics[C]//ICSMC 2009:Restoring Chinese warped document images based on text boundary lines,2009.
[6]Zhang Shengnan,Yuan Shanlei,Niu Lianqiang.Automatic Recognition Method for Checkbox in Data Form Image[C]//Sixth International Conference on Measuring Technology and Mechatronics Automation,2014:159-162.
[7]于明,郭佥,王栋壮.改进的基于连通域的版面分割方法[J].计算机工程与应用,2013,49(17):195-198.
[8]Hamed Behin,Afshin Ebrahimi,Sepideh Ebrahimi.Incorporated Preprocessing and Physical Layout Analysis of a Binary Document Image Using a Two Stage Classification[C]//International Conference on Computer and Communication Engineering:ICCCE2010:2010.
[9]付芦静,钱军浩,钟云飞.基于汉字联通分量的印刷图像版面分割方法[J/OL].计算机工程与应用,2013,49(3):4[2013-07-31].http://www.cnki.net/kems/detail/11.2127.TP.20130731.1817.001.html.
[10]石蒙蒙.基于结构化局部边缘模式的文档图像分类[J].厦门大学学报,2013,52(3):349-355.
[11]Amir Reza Ghods,Saeed Mozaffari,Farhad Ahmadpanahi.Document Image Dewarping using Kinect Depth Sensor[C]//21stIranian Conference,Electrical Engineering:ICEE2013:2014:1-6.
复杂图像 篇5
特征提取是通过线性或非线性变换提取研究对象的本质特征,是多媒体分析与机器视觉领域重点研究的内容。近年来,随着对哺乳动物视觉系统,尤其是初级视觉皮层(V1区)信息处理方式的深入研究,基于哺乳动物视觉信息认知计算理论的特征提取模型研究已经逐渐成为特征提取领域的研究热点。进化使视觉系统对外部环境具有自适应性;通过视觉系统,生物提取外部图像信息的视觉特征,并据此自适应地调整自身行为。因此,视觉信息加工过程与基于自然图像高阶统计量的特征提取过程,二者存在密切关系。基于自然图像高阶统计量的非高斯性统计生成特征提取模型能有效地模拟了V1区视觉信息加国过程。受V1区视觉细胞的信息加工过程的启发,该模型处理自然图像等观察信号,抽取自然图像有效特征向量或滤波器,获得图像自身包含的复杂视觉结构特征。该统计生成模型构造的关键是利用V1区复杂视觉细胞几个重要特征:稀疏性(非高斯性)、独立性、非线性依赖、几何不变性和超完备性。
研究表明V1区视神经细胞主要包括三类,神经节、简单细胞和复杂细胞[1]。Field和Daugman提出了自然图像的高阶统计特征满足非高斯分布[2,3](即V1区视觉细胞的稀疏性)。当生物视觉受到外部刺激时,大部分视神经元对外界刺激的响应较弱,仅有少部分视神经元对外界刺激相应较强。非高斯性表明:以高阶统计量提取自然图像视觉特征的方式可以实现生物视觉系统的有限神经元提取无限自然图像视觉特征的能力。非高斯性是生物视觉认知计算模型在特征提取方面应用的重要理论依据。因此,依据非高斯性原理构建的统计生成模型与V1区有限神经元提取无限自然图像视觉特征的信息处理过程相似,并使该特征提取模型具有计算有限性。文献[4,5]通过计算自然图像的稀疏性表示,得到类似于V1区简单细胞感受野形状的Gabor状基特征滤波器。文献[6,7]则对稀疏性进行了实际应用,取得较好效果;但是该类特征提取算法认为生成的基滤波器间独立,没有研究和利用细胞间的非线依赖性。非线性依赖性(即相关性)是指复杂视觉细胞之间彼此并非完全独立,而是存在非常强的非线性依赖关系[1,8]。事实上复杂视觉细胞间存在大量拓扑结构,近邻细胞间存在较强的高阶统计相关性;远离细胞间则存在近似独立性。在ICA算法的基础上,Hyvarinen[9]等人提出了独立子空间模型(ISA)和拓扑独立分量模型(TICA)来提取非线性依赖特征;模型通过空域汇聚操作和不同的拓扑构造方法度量独立成分间的高阶非线性依赖关系,揭示V1区复杂视觉神经细胞的拓扑结构。在TICA算法基础上,王哲等人在文献[10,11]中改进了该依赖性的定义方式,使复杂细胞间依赖关系度量方法更加接近于V1区复杂视觉神经细胞的拓扑结构;Zoran等人[12]提出构建了树状非线性依赖关系,以此关系度量V1区复杂视觉神经细胞的拓扑结构。文献[13,14,15,16]从不同角度,采用不同实现手段,证实树状非线性依赖关系与V1区复杂视觉神经细胞的拓扑结构的高度相似性。超完备性是V1区用于处理信息的神经元个数远远大于输入信息的维度,是算法具有完备性和超完备性的生物视觉依据。学生乘积模型(POT)通过超完备基方式扩展了TICA模型,提取了类似于V1区复杂细胞的超完备拓扑结构特征[17]。王哲等[10,11]人提出的基于成对累计量的自然图像拓扑表示模型,该模型利用成对累计量度量V1区视神经元的非线性依赖关系,并结合向量在高维空间的分布特点,给出准正交基的估算方法,实现了自然图像超完备拓扑表示。
但是,上述算法在特征提取上还存在三点缺欠。(1)采用对噪声敏感的高阶统计量峰度作为计算复杂细胞间依赖性的手段,算法鲁棒性差。(2)为降低计算复杂度,算法没有利用复杂细胞的超完备性特征,算法的特征提取能力低。(3)算法定义的复杂细胞拓扑关系简单,不能准确提取复杂视觉细胞间的邻域关系。基于此,本文提出基于自然图像复杂视觉信息的特征提取算法与应用。
本文算法分析传统生成模型中拓扑组织结构表示方法的缺欠,定义通用视觉细胞感受野模型和树状拓扑组织结构表示方法;以自然图像的慢变特征和通用感受野模型基础,改进了准证交超完备基预测算法,自适应的构造超完备基生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自认图像分类。实验表明:从自然图像集中,本文算法学习的滤波器集具有类似于V1区复杂视觉细胞的视觉特征;对输入图像的局部微小变化具有良好的几何不变性;在北卡莱罗那州立大学提供的自然图像图库上,进行基于内容的图像检索的比较实验,本文算法比传统视觉模型具有更好的检索效果和抗噪声能力。
1 相关工作
1.1 基本线性生成模型
独立分量分析算法(ICA)是基于有效编码理论中独立性假设的线性生成模型。模型受到简单视觉细胞信息处理过程启发,通过线性生成模型获取初级视觉皮层简单细胞感受野,提取自然图像包含的简单视觉信息特征。
在自然图像领域,Olshausen提出的稀疏性模型[18]认为,每一幅自然图像都可以看成若干个基函数或基向量的线性组合。因此,ICA模型通常可表示为:
式中,I为自然图像或自然图像上的局域窗口。bi表示自然图像的基向量,si为基向量的特征系数。根据矩阵分析性质,当B是满秩矩阵时,式(1)可以转化为:
式中,wiT是矩阵W的第i行,且W=B-1。滤波器wi模拟初级视觉皮层简单细胞的感受野,变量si表示感受野wi对图像I产生的响应。它可以模拟初级视觉皮层简单细胞的视觉选择性,并被视为ICA模型的独立分量。因此,自然图像基滤波器的估计就转化为依据一组给定的观测图像估计滤波器集W问题。
通过ICA模型获取的自然图像基向量或滤波器有类似于初级视觉皮层V1区简单细胞感受野的三个显著视觉选择性特征:局部位置的选择性,朝向选择性和带通选择性。
1.2 基于复杂视觉细胞邻域关系的生成模型改进
V1区复杂视神经元存在大量的拓扑组织结构,近邻神经元具有相近的视觉选择性,感受野间具有渐变性质,如频率、位置和朝向的渐变性;而远邻神经元之间具有近似独立性。
从自然图像或子然图像集中,ICA与Fast ICA[19,20]算法学习的基滤波器具有V1区简单视觉细胞的特征。基滤波器相互独立,忽视彼此间的非线性依赖关系。
受V1复杂视神经元拓扑组织结构启发,Hyvarinen等人在ICA算法的基础上提出独立子空间模型[21](ISA)和拓扑独立分量模型(TICA)模型,模型通过空域汇聚操作和不同的拓扑构造方法度量独立成分间的高阶非线性依赖关系,解释V1区复杂神经细胞的拓扑结构。
通过放松ICA方法中各分量间相互独立的约束条件,独立子空间模型(ISA)利用独立特征子空间和多维独立分量分析的方法,将各个分量分成若干组,实现组间分量相互独立,组内分量非线性依赖。在ISA模型基础上,拓扑独立分量分析模型(TICA)定义了一个二元拓扑结构,该结构实现在一个小的邻域内各个成分具有非线性依赖关系。与ISA不同的是,在TICA结构中,相邻的邻域之间可以相互重叠,而ISA的子空间彼此分离。上述两种方法均利用ICA成分间的非线性依赖关系,解决了ICA算法的第二个缺欠;在描述非线性依赖关系上,采取自定义拓扑结构的TICA算法比采用分组方法的ISA算法更有优势。
基于统计学理论,Zoran等人[12]提出自然图像基滤波器间的树状依赖性模型。该模型通过树状结构表达基滤波器间的非线性依赖关系,并最大化基滤波器间的非线性依赖程度。该模型学习的滤波器和树状结构非常适合于自然图像的边界特征表示,并且基滤波器的方向与相位特征非常类似于复杂细胞的视觉特征。因此,与TICA比较,树状结构的非线性依赖关系表示更适合自然图像复杂细胞拓扑结构表示。
综上分析,现阶段文献关于复杂视觉细胞邻域关系表示的研究进展如图1所示。
2 自然图像的复杂视觉细胞拓扑结构的邻域关系生成树表示法
实验表明,依据1.2节分析,树状邻域关系能够有效表示复杂视觉细胞的非线性依赖关系。而Gabor函数与V1区简单细胞视觉选择性相似,能够仿真简单视觉细胞的感受野。基于这两点,以Gabor函数为基础,提出通用感受野参数模型。在感受野参数模型中添加适当参数,描述复杂视觉细胞的拓扑结构。感受野的通用参数模型如式(3):
式中,Σ是线性或非线性生成模型,提取自然图像包含的视觉特征。I为自然图像或自然图像局域窗口集,w为自然图像I经过Σ变换提取的基滤波器集合,其中x,y表示基滤波器wi的空间位置,f是基滤波器wi的频率。o是基滤波器wi的空间朝向,p是基滤波器wi的相位,k是基滤波器wi的滤波器长宽比,该参数与频率有一定关系,但是为计算简单,作为单独参数提出。
受复杂视觉细胞方向选择性的启发,依据通用感受野参数模型,设计如下步骤生成复杂细胞间的邻域关系生成树。
1)生成数据集。在大小为L的自然图像集合上,每个图象任意提取N个大小为M×M局域窗口,组成大小为L×N的训练数据集D。
2)生成基滤波器集。受文献[10,11]的影响,用成对累计量替代峰度,改进的ICA算法,提高算法对噪声的鲁棒性;“固定点迭代算法”引入提取下降算法中,降低算法的计算复杂度,改进的ICA算法。在自然图象集训练数据集D上,利用本文改进的ICA模型学习出基滤波器集W。W的分量间相互独立;但不包含复杂视觉细胞间的拓扑关系。
3)生成邻域关系图。以自然图像的基滤波器集W为数据基础,以稀疏性为理论依据,构造复杂视觉细胞邻域关系图G。无向图G=(V,E),其中V是G的顶点集合,V=W。并按如下方法生成图G的边集E。
首先在训练集D中任取一个元素split_w(i),,利用式(4)计算基滤波器集W中每个元素对split_w(i)的响应系数集合S。
其中,是卷积运算。
其次在系数集S上,利用式(5)计算图中每个节点的出度。
如果式(5)成立,wi和wj间存在边eij。其中σ是邻域关系图G的顶点出度控制量,控制图的复杂程度。受稀疏性启发,用式(6)计算σ值。
最后,重复执行前两步,直到D中一半元素被无重复的访问,至此邻域关系图被确定。
4)建立八叉邻域关系生成树。依据稀疏性原理,构造的邻域关系图G定义基滤波器集对自然图像的复杂视觉结构的综合视觉响应。按通用感受野模型中参数划分,图G有多棵生成树。受复杂视觉细胞方向选择性启发,以基滤波器wi的方向相似性为依据,在图G上构造邻域关系生成树T,该树以方向为依据,描述了复杂视觉细胞的的非线性依赖关系。邻域关系生成树T的构造步骤为:
首先,定义T=(D,R),其中D是T的节点集合。初始化时,D中仅有根节点,该节点为算法指定的,不存在实际意义。R为空关系集。
其次,以基滤波器方向为约束条件,层次优先遍历无向图G,生成邻域关系生成树T。
5)超完备邻域关系生成树TC。在ICA算法中,观测数据集I的随机性决定基滤波器集的不完备。受文献[10,11]的启发,采用准正交超完备基预测算法生成超完备基邻域关系生成树。生成过程为:按层次遍历算法遍历生成树T,并按如下超完备基拟合方法预测丢失的基滤波器w*ij,将预测滤波器插入生成树T的适当位置,生成超完备利于关系生成树。
超完备基拟合算法:
step1按滤波器方向角对基滤波器集合W的元素升序排列,得到序列{θ1,θ2,…,θn},在区间[min(θi),max(θi)]上,采用灰度直方图均衡化方法计算各区间内的基滤波器分布密度Pi,当时,取相邻的两个基滤波器wi和wj,通过公式:w*ij=F(wi,wj)计算出两个字节点间的丢失基滤波器w*ij,函数F表示一种线性拟合方法,本文采用加权算术平均值拟合法。ω0和ω1为超完备基控制因子,决定生成树的超完备性。
step2将w*ij代入式(7)中,判别W准正交性。当wi与wj在生成树同一层上,则生成w*ij插入同一父节点的这两个子节点间;当不同层上,插入到wi层的第一子节点。并将wij添加到集合D中。
step3层次遍历生成树T,对每个分支节点执行step1,step2,构造超完备邻域关系生成树TC。具体构造过程如图2所示。
基于图像复杂视觉信息的超完备基生成树特征提取与匹配算法:以视觉方向选择性为依据,建立的超完备生成树有效描述复杂视觉细胞的拓扑结构特征;遍历该树,提取自然图像复杂视觉拓扑特征步骤为:
1)在输入自然图像X上,随机提取K个大小为M×M不完全重合的局域图像窗口window(i),组成特征生成数据集D_char={window(i)i=1,2,…,K}。
2)window(i)∈D_char,计算window(i)与超完备生成树TC的结点wi,wi∈D的响应系数si,生成该窗口的响应集合
3)利用公式Si=max{sj},计算响应集合si的最大响应系数,找到与si对应的基滤波器wi;在生成树TR上,以层次遍历方式检索wi,确定该节点的高度hi和该节点是父节点的第几个孩子节点li。从左到右顺次连接h1、h2和wi方向角θi的二进制编码生成图像的复杂信息特征编码,作为本文算法编码,该编码既通过wi表示方向信息,也通过h1、h2表示该方向上的拓扑结构信息。
4)在特征数据集D_char={window(i)i=1,2,…,M}上循环执行2)、3)两步骤,生成自然图像的二进制拓扑特征编码集CS_window。
5)特征相似度计算。当两个特征编码长度(Len)相同时,采用海明距离法计算两个特征编码的相似程度,计算公式为:
当CS的值小于某一个阈值CS0时,则两个自然图像相似;否则,当特征编码长度不相等或CS大于阈值时,两个自然图像不相似。阈值CS0是通过ROC曲线方法得到。
特征提取与特征匹配的具体过程如图3所示。
3 实验结果与分析
3.1 自然图像基向量比较分析
从ICA算法和稀疏编码模型广泛使用的灰度图像数据库(来源于http://www.cis.hut.fi/projects/ica/data.images)上抽取50 000个16×16像素的局域图像窗口组成训练图集the_first_data。在the_first_data图集上,通过本文算法学习的自然图像基向量集如图4所示。
采用最小二乘拟合方法,将本文算法生成的基向量集W中的每个基向量wi与Gabor函数拟合生成基滤波器参数分布如图5所示。
图5表明:滤波器的频率与方向分布相对独立;位置分布接近均匀分布;相位具有明显的奇对称性;而且随着超完备性的增强,滤波器个数的增加;这些现象更加明显;上述特征与TICA算法、OPCICA算法具有相似性,类似于V1区细胞的特性。
通过本文算法构造的超完备生成树如图6所示。
图6既表明超完备基生成树分支节点与叶子结点的生成过程,又表明出同一父节点的叶子,具有方向、位置和频率的局部缓慢变化特征;而相位差异很大。该性质与V1区复杂细胞的信息处理方式类似。具体分析如图7所示。
图7表明:依据基滤波器的方向角生成的超完备生成树同一分支节点的子节点具有方向相关性,位置和频率的渐变性;不同分支的子节点方向不相关。该特征与生物复杂视觉细胞的非线性依赖关系相似。
3.2 复杂细胞不变性分析
以the_first_data中的自然图像flower为基础,按如下方法生成测试图像集D=D1∪D2∪D3,测试本文算法的几何不变性。测试集生成方法:1)以17个像素为平移步长,将flower图像分别水平,垂直平移四步长生成八个测试图片集D1;2)以19度为旋转步长,将flower图像旋转八个步长生成八个测试图片集D2;3)以1/2为伸缩率,将flower图像伸缩四次,生成四个测试图片集D3,以上三步的起始图像为原始图像flower。为有效度量同组测试图像的不变性,利用均方误差MSE(Mean Squared Error)计算用式(8)生成的同组图像的匹配系数。测试结果为表1所示。
表1表明,均方误差值MSE小,本文算法对自然图像的旋转、平移和伸缩具有较好的鲁棒性,尤其是对平移的鲁棒性更好。鲁棒性好的原因是,自然图像的旋转、平移和伸缩慢变地改变自然图像包含的复杂视觉信息。既不明显改变自然图像包含的基滤波器集,也不明显改变复杂细视觉胞的非线性依赖关系。本文算法依据基滤波器集和复杂细胞间的非线性依赖关系生成自然图像特征,算法具有较好的几何不变性。
3.3 基于内容的图像检索应用
从北卡莱罗那州立大学提供的自然图像图库随机选择的90幅图像,分别做随机旋转、平移八次和伸缩各四次生成大小256×256的归一化图片1800幅图片组成的检索图像数据库the_second_data,该图库分成两个部分:训练图像集和测试图像集。训练图像集由检索图像数据库中每组图像的四个旋转、四个平移和两个伸缩图像组成,剩余的图像组成测试集。首先在训练集上构建超完备生成树;再用测试集验证本文算法在基于内容的图像检索上的性能。试验环境为,软件环境:Windows7.0操作系统,matlab7.1.1仿真环境等。硬件环境:联想系列商用机,CPU为Intel(R)dual core4处理器,具有四核八进程功能,4 GB的内存容量,1 TB硬盘,为算法的并行化设计提供硬件基础。检索性能度量方法为查准率和查全率:查准率=(检索出的相关信息量/检索出的信息总量)×100%。查全率=(检索出的相关信息量/系统中的相关信息总量)×100%。添加噪声按添加噪声=λ1×Speckle+λ2×salt+λ3×Gauss,产成,通过参数λi改变噪声强度。
1)超完备基控制因子ω1和ω2对检索性能的影响
为摆脱以ICA类算法不能实现超完备基生成树预测与实现的缺欠,并受参与刺激响应的神经元个数应该尽量多余输入刺激的维数理论的启发,本文算法通过准正交超完备基预测算法自适应的生成了基于自然图像复杂视觉结构的超完备基集W。而超完备基控制因子ω1和ω2决定超完备生成树繁茂度。因此,超完备基集的元素个数对基于内容的图像检索算法有较大影响。以64、96、128、192、256、384、512、768、1024为基滤波器个数,在the_second_data图库上,运行本文算法,超完备基数目与算法检索性能关系如图8所示。
图8表明随基滤波器个数的增加,本文算法的检索性能在逐渐增加后趋于稳定;在滤波器个数为阈值512时,算法具有最佳检索性能。原因在于,当滤波器个数小于阈值时,随基滤波器个数的增加,算法提取自然图像的统计性能增强,算法性能增加快;当基滤波器个数大于阈值时,算法提取自然图像的统计性能趋于饱和,算法性能趋于稳定,增加滤波器个数来提高算法性能意义不大。
2)与其他生物视觉模型在基于内容的图像检索上的比较
在the_second_data图库上,在不同强度的噪声环境下,通过与ICA算法[18]、TICA算法[8]、OPCICA算法[2]和简单细胞特征(Gabor)算法[9]的特征提取与检索性能比较,证实本文算法的优势如图9所示。
试验结果表明,在基于内容的图像检索领域,在不同噪声环境下,与ICA算法[18]、TICA算法[8]、OPCICA算法[2]和简单细胞特征(Gabor)算法[9]的检索性能比较,本文算法具有更好的查准率与查全率,算法对噪声的鲁棒性更强。这说明采用类似于复杂视觉细胞信息处理方式的特征提取方法,能有效地提取自然图像的慢变的复杂视觉特征。ICA算法提取自然图像所包含的简单视觉信息,因为该算法并没有考虑自然图像复杂视觉细胞的非线性依赖关系;通过多尺度多方向Gabor算法,简单细胞特征(Gabor)算法提取自然图像的简单视觉细胞特征,并依据此特征自适应的设置PCNN的窗口参数,自适应提取自然图像的不变性特征。在结合PCNN算法和最好的初级视觉特征模拟函数Gabor,简单细胞特征(Gabor)算法取得了比ICA和TICA更好的检索效果与抗噪声能力。TICA算法[8]、OPCICA算法均改进了ICA算法,为描述考虑复杂视觉细胞的非线性依赖关系,两个算法定义了自己的非线性依赖关系。但是OPCICA算法采用成对累计量替代峰度计算两个量的相关性,因此,该算法对噪声具有较好的鲁棒性。本文算法定义了更能够表示复杂细胞邻域拓扑关系的非线性依赖关系,采用成对累计量替代峰度和准正交超完备基预测算法,因此算法具有其他比较算法更高的检索性能和算法鲁棒性。
4 结语
受V1区复杂视觉细胞信息分层处理方式的启发,本文分析了自然图像复杂视觉拓扑组织结构的邻域关系生成树表示方法的缺欠,提出了基于图像自身复杂视觉信息的特征提取算法。本文算法定义通用视觉细胞感受野模型,提出自然图像复杂视觉结构信息的超完备基邻域关系生成树表示方法;并以自然图像的慢变特征和中心极限定理为理论基础,改进了准正交超完备基预测算法,自适应的构造自然图像超完备基邻域关系生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自然图像分类。实验表明,本文算提取的基滤波器集具有类似于V1区复杂视觉细胞的重要特征;能够提取自然图像的包含的不变性特征。在基于内容的图像检索上,与ICA算法,TICA算法、OPCICA算法和简单细胞特征(Gabor)算法比较,本文算法检索性能和对噪声的鲁棒性更好。
今后将在两个方面改进本文算法:1)在图G构造过程和超完备基生成树构造过程中,引入概率模型(如隐马尔科夫链等)优化连接权。2)在二维超完备基生成树的基础上,依据频率或相位等其他视觉细胞感受野通用模型参数,构建多维层次并行视觉信息处理过程。此外算法缺乏生物神经处理的反馈能力,能否将反馈能力加入到多维层次并行视觉信息处理过程中也是自适应特征提取研究重点。
摘要:分析自然图像复杂视觉拓扑组织结构的邻域关系生成树表示方法的缺欠,提出基于自然图像复杂视觉信息的特征提取算法与应用。算法定义通用视觉细胞感受野模型,提出自然图像复杂视觉结构信息的超完备基邻域关系生成树表示方法;并以自然图像的慢变特征和中心极限定理为理论基础,改进准正交超完备基预测算法,自适应地构造自然图像超完备基邻域关系生成树;遍历超完备基生成树,计算自然图像与节点的最大响应系数,实现树形拓扑组织结构编码,并采用海明距离计算编码相似度,实现自然图像分类。实验表明:自然图像集中,该算法学习的基滤波器集具有类似于V1区复杂视觉细胞的视觉特征;对输入图像的局部变化具有良好的几何不变性;在北卡莱罗那州立大学提供的自然图像图库上,进行基于内容的图像检索比较实验,该算法比传统视觉模型具有更好的检索效果和抗噪声能力。
复杂图像 篇6
计算机辅助植物虫害诊断和防治是近年来图像处理技术、计算机视觉技术和模式识别技术应用的新领域。计算机辅助虫害诊断和防治的基础和关键是能够有效地进行昆虫对象的自动识别。而植物病虫害图像一般均为具有复杂背景的昆虫彩色图像,能否对这类图像进行有效地分割获得感兴趣的昆虫对象区域将影响到昆虫图像识别的准确率。因此,为了提高昆虫识别的准确率进而为植物病虫害诊断和防治提供依据,很有必要研究基于复杂背景的昆虫图像分割算法。
图像分割[1]就是指将图像中具有特殊意义的不同区域分开来,并使这些区域相互不相交,且每个区域应满足特定区域的一致性条件。图像分割是由图像处理进到图像分析的关键步骤,也是一种基本的计算机视觉技术[2]。对于彩色图像,分割的方法主要有基于图像颜色信息的方法和基于图像空间信息的方法。基于图像的颜色信息的方法一般使用K-均值[3]或者模糊C-均值[4,5]等聚类方法。但是,在这种方法中,聚类数目需要通过手工设定或者指定的方法才能得到,由于没有考虑空间上的边缘信息和邻接信息,这种方法经常会得出不符合人的视觉的分割结果。基于图像的空间信息的方法多数是利用图像区域之间的边缘进行图像分割。这种方法的关键是边缘信息的获取,一般首先使用Sobel、Canny等算子对图像进行边缘检测,但是如果图像中存在噪声,用算子得到的边缘常常是孤立的或者非连续的,从而影响到分割的质量。
K-均值或者模糊C-均值等聚类方法只涉及到颜色,不包含区域特征,因此在颜色同质区域分割效果很好。但是昆虫彩色图像一般均为具有复杂背景的自然图像,图像颜色变化比较剧烈且比较分散,在这种情况下使用K-均值或者模糊C-均值等聚类方法,则会出现分割区域更分散、不连贯。另外,由于语义对象通常与颜色、纹理等空间区域并不对应,从而导致无监督的图像分割效果不理想。因而针对复杂背景的昆虫彩色图像的特征,需要寻找一种新的分割算法。
JSEG[6]是一种全自动的彩色图像分割算法,利用区域之间的邻接和相似性进行区域生长和区域合并,它在确定了初始分割区域后,采用全局最优化的规则进行区域生长,然后使用基于阈值的区域合并完成图像分割。
1 JSEG算法
JSEG算法是一种无监督地分割图像中彩色纹理区域的方法。算法假设每幅图像是一组近似同质的颜色-纹理区域的集合,每幅图像的颜色信息是由很少的量化颜色级集合表示的,并且两个领域之间的颜色是可以区分的。
JSEG算法分成两个阶段:颜色量化和空间分割。所谓颜色量化,就是指从一幅含有m种颜色的图像中,找出最能真实反映该图像的n种颜色,以这n种颜色来近似地表示原图像。JSEG算法最突出的特点就是将一种基于人类视觉感知的颜色量化算法应用到图像分割中。在颜色量化阶段,先将图像中的颜色量化成几种有代表性的颜色类,可以用于区分图像中的区域。这种颜色量化方法是在颜色空间中进行的,并没有考虑颜色的空间分布。图像中的每个像素的值由相应的颜色类标签取代,形成一个图像的类地图,类地图可以视为特殊的颜色构成。空间分割是在类地图中直接进行的,没有考虑相应像素的颜色相似性。JSEG算法给出了分割图像的新原则,该原则与像素标签基础上的分割效率最小化有关。
1.1 颜色量化
Deng和Manjunath[6]认为人类的视觉感知对平滑区域的变化比在纹理区域内更为敏感;相应地,在纹理区域颜色能够更粗地量化,这可以通过像素点的感知权重来做到。
JSEG算法颜色量化过程如下:首先采用一种非线性算法用于平滑图像和消除噪声,将该算法处理后得到表示局部区域平滑性的值。然后给每个像素赋予权值,从而使得纹理区域像素的权重值要比平滑区域小,总距离为:
其中:ci是类Ci的中心,x(n)和v(n)是颜色向量和像素n的视觉权重,Di是类Ci的总偏移率。
Di的更新原则如下:
复杂背景下的昆虫彩色图像具有大量的颜色,处理起来非常困难。采用JSEG算法则可将图像中的颜色大致量化,从而提取一些有代表的颜色来区分昆虫彩色图像中的不同邻近区域,这为进一步分割昆虫彩色图像打下了基础。
1.2 空间分割
在空间分割阶段,Deng和Manjunath[6]提出了一种图像分割的新标准,该标准与像素标签基础上的分割效率最小化有关。
1.2.1 分割原则
颜色量化之后是给量化的颜色赋予标签。颜色类是把像素颜色值量化成同一种颜色。每个像素的颜色值被对应的颜色类标签取代,形成类地图。类地图可以视为一种纹理组成,类地图每个点的值是图像像素的位置,即二维向量。每个点属于一个颜色类。
JSEG算法定义:
其中,ST是同一个类内点的方差,SW是同一个类内点的总方差,Jk是区域k中J的值,Mk是区域k中点的数目,N是类地图中所有点的数目。
一幅复杂背景下的昆虫彩色图像包括一些同质颜色区域。如果颜色类之间是分离的,那么J的值是很大的;相反,如果所有的颜色类是一致分布的,那么J的值是很小的。作为分割的原则是在所有可能的分割区域中取最小值。对于固定数目的区域,一个好的分割往往会有一个低的值。
1.2.2 分割方法
J图像的特征使得区域生长方法可以用于分割图像。将原图像作为初始区域,算法以粗尺度开始分割图像,再更细一级的尺度在新分割出的区域中重复上述过程。区域生长算法包括决定种子点以及从种子点开始生长。
区域生长产生图像的初始分割,它经常是过分割的区域。这些区域根据它们的颜色相似性被合并。区域生长后要进行区域合并以获得最后的分割图像。用户指定尺度的数目,这将影响分割的细致程度。
利用JSEG算法对复杂背景下的昆虫彩色图像进行分割时,首先,将JSEG算法标准应用到类别映射图的局域窗口就得到了J图像,J图像中较大和较小的值分别对应着彩色纹理区域的边界和内部。接下来,采用区域生长方法对J图像进行多尺度分割,并根据颜色相似性对分割结果进行区域合并。这种采用J图像中种子区域的区域生长分割算法是在类地图中直接进行的,并没有考虑相应像素的颜色相似性。
2 实验及其结果
选出3幅复杂背景下的昆虫彩色图像,首先应用JSEG算法对其进行分割,然后分别对三幅图像加高斯白噪声,最后应用JSEG算法对加噪后的图像进行分割。分割效果如图1所示。
从实际分割效果图中可以看出,应用JSEG算法可以成功地实现对复杂背景下的昆虫彩色图像进行分割;应用JSEG算法对加噪后的图像进行分割,对昆虫分割对象本身并没有影响。
3 结论
JSEG算法采用颜色量化和空间分割这两个阶段,不但避免了同时分析颜色相似性及其分布的难题,而且颜色相似性和空域分布的解耦使得在每步研究更可行的方法成为可能。另外,JSEG算法需要指定的参数很少并且对分割具有很强的鲁棒性,可满足自动分割的要求。复杂背景下的昆虫彩色图像是典型的彩色纹理图像,采用JSEG算法对图像进行分割后,将得到一系列同类区域。从实验结果可以看出,JSEG算法对昆虫图像中的噪声不敏感,可以对复杂背景下的昆虫彩色图像进行准确地分割,满足了下一步对植物病虫害诊断和防治工作的需要。
参考文献
[1]林开颜,吴军辉,徐立鸿.彩色图像分割方法综述[J],中国图象图形学报,2005.
[2]章毓晋.图像处理和分析[M].北京,清华大学出版杜,1999.
[3]Carevic D,Caelli T.Region—based coding of color image using Kar- hunen—Loeve Transform[J].Graphics Models and Image Processing, 1997,59(1):27-38.
[4]Sergios Theodoridis,Konstantinos Koutroumbas.Pattern Recognition, Second Edition[M].Greece:Academic Press,1999.
[5]Krishnapuram R,Keller J.A possihihstic approach to clustering IEEE Trans.Fuzzy Systems,1993,1(2):98-110.
复杂图像 篇7
然而在H. 264编码过程中量化参数QP同时用于率失真优化和码率控制,导致“蛋鸡悖论”而不能直接套用以往编码标准的算法,如MPEG-2中的TM5[3]、H. 263中的TMN8[4]以及MPEG -4中采用的VM8[5,6]。为解决此 问题,现有的H. 264编码标准采用了由Ma等人提出的JVT - H017提案[7]中的算法,但该算法在视频序列存在快速运动或场景变换时,由于各帧的复杂度相差过大以及线性MAD预测模型的不准确,导致最终编码输出的码率波动性较大,图像质量不高。
因此,针对H017算法在基本单元层码率控制上的不足,学者们提出了多种码率控制算法进行改进。JVT-W042提案[8]沿用了H017的基本算法流程,着重于代码的优化重写,并支持全I帧和分级B帧的码率控制。另外,文献[9]通过一种简单的帧差法来衡量图像复杂度,进而改进帧层码率控制。文献[10]针对视频中的大量场景切换,提出一种基于非连接点的场景切换检测算法,结合自适应Go P分组技术提高码率控制性能。文献[11]在ρ域模型基础上提出平方根模型,用于改进基本单元层的码率控制。文献[12]提出一种结合人眼视觉特性的码率控制算法,在基本单元层引入视觉敏感因子进行目标比特分配。文献[13]利用视频信源的时空相关性提出一种新颖的编码特性预测机制,并利用Lagrangian优化技术推导出两种高效的位率失真优化分配算法。文献[14]采用两个率失真模型进行码率预测,即给出一种基于双模预测的自适应码率控制方法来提高码率控制精度。
本文将MAD值作为图像复杂性的度量参数来调整目标比特的分配。在MAD值的预测方面,充分利用视频序列中的空间信息来改进MAD预测模型,同时利用运动矢量的大小作为判断依据来决定所采用的MAD预测模型。实验结果表明,与JVT-H017以及较新的文献算法相比,本文算法可获得更好的图像质量,并且具有更高的码率控制性能。
1 JVT-H017 码率控制算法
JVT-H017码率控制方案由两层组成: Go P( Group of Picture) 层码率控制和帧层码率控制,若编码中基本单元不是一帧,则再增加额外的基本单元层码率控制。
H017提案中的基本单元层码率控制算法主要包括3个步骤: 1) 目标比特数的分配; 2) 预测当前基本单元的MAD值; 3) 基本单元量化参数QP值的计算。
1. 1 目标比特数的分配
假设P帧中未编码的基本单元数为Nbu,用frb表示分配给当前帧中未编码基本单元的剩余比特数,则对于当前编码基本单元所分配的目标比特数为frb/ Nbu,即平均分配剩余比特数。
1. 2 预测当前基本单元的 MAD 值
在H017提案中使用线性预测模型来预测当前基本单元的MAD值
式中: MADcur为当前基本单元的预测值; MADpre表示前一帧相同位置处基本单元的实际值; a1和a2为预测模型系数,初始值分别为1和0,之后通过线性回归技术进行更新。
1. 3 基本单元量化参数 QP 值的计算
完成MAD值的线性预测后,使用二次率失真模型[15]来计算当前基本单元的QP值。二次率失真模型如下
式中: Ri( j) 是编码第i帧第j个基本单元所需要的比特数; X1和X2为该模型的一、二阶系数,在每个基本单元编码结束后进行更新; MAD为上一步所得到的预测值,由此可计算量化参数QP。
2 本文的改进算法
通过对H017算法中的基本单元层码率控制方案的描述可知,该算法的MAD预测模型只考虑了基本单元间的时间相关性,没有利用其空间相关性。
另外,在对未编码基本单元的目标比特分配方面,H017中的算法同样没有考虑图像的复杂度因素,只是平均分配剩余比特。
这两方面的不足将导致该算法在处理高速运动或频繁发生场景切换的视频序列时出现较大误差,重新更新的模型参数也会同样因为缺少复杂度因子而造成误差传播,从而影响视频的码率稳定性以及图像编码质量。因此本文分别从MAD预测模型和分配剩余比特数两个方面来对原算法进行改进。
2. 1 改进的基本单元 MAD 预测模型
由于在一般的视频序列中,MAD值的大小在时间和空间两方面均有很强的相关性。因此本文利用基本单元间的空间相关性来改进MAD预测模型,并且引入运动矢量作为衡量图像复杂度的标准,根据图像的复杂程度来决定选用的预测模型。
如图1所示,编码过程中利用当前编码基本单元Cur和前一帧相同位置基本单元Pre的邻域对原算法进行改进。
具体的MAD时空加权预测模型为
式中:表示当前编码基本单元Cur的相邻基本单元D,E,B,G的MAD平均值;是参考帧中相同位置处基本单元Pre的相邻4个基本单元AP,BP,CP,DP的MAD平均值; b1,b2和b3为加权系数,且b1+ b2+ b3= 1;︱MVx︱和︱MVy︱表示基本单元中宏块的水平和垂直运动矢量大小,Th为运动矢量阈值,用来反映图像的运动剧烈程度,从而实现MAD值的分级预测。
由于自然界中视频序列运动类型的多样性,只根据一种模型来预测MAD值是不够精确的。例如常见的视频图像是水平方向的运动大于垂直方向的运动,可同时还有不少垂直方向的运动远比水平方向剧烈的运动情况,此时如果不加区分地采用同一模型必定会在很大程度上影响预测的精度。因此,本文在︱MVx︱+ ︱MVy︱> Th时可根据︱MVx︱与︱MVy︱的大小关系分3种情况调整模型参数。
2. 1. 1 水平运动矢量较大的情况
当,即图像序列在水平方向上远比垂直方向运动 剧烈的情 况时,将替换为,即6个基本单元 ( D,E,B,G,X1,X2) 的MAD平均值,此时预测模型为
式中: X1和X2为当前帧水平方向上的扩展参考基本单元,如图2所示。
2. 1. 2 垂直运动矢量较大的情况
当,即图像序列在垂直方向上远比水平方向运动 剧烈的情 况时,将替换为,即7个基本单元( D,E,B,G,X3,X4,X5)的MAD平均值,此时预测模型为
式中: X3,X4,X5为当前帧垂直方向上的扩展参考基本单元,如图3所示。
2. 1. 3 其他情况
在不符合前两种情况时仍然采用式( 3) 来计算当前基本单元的MAD值。
在上述4种预测模型中,加权系数为常数,算法复杂度低,并且考虑了基本单元MAD值之间的时间和空间相关性。在图像运动剧烈的情况下,不仅在原算法基础上加入了相邻基本单元的平均MAD值,还对加权系数分别赋予不同的权值来进行调整。
改进算法还通过设置4个预测模型来针对不同复杂度的编码图像,再结合运动矢量作为图像复杂度的判断依据来对加权预测进行分级处理。这也是利用了运动矢量的性质,由于运动矢量本身就部分体现了图像的复杂度,其绝对值越大,图像变换速度越快,运动也就越剧烈,以此作为衡量图像复杂度的标准可以使MAD的预测更为合理。改进的预测模型在引入运动矢量作为图像复杂度阈值判断的同时,也将其水平、垂直分量进行比较来判断图像的复杂类型,针对不同类型的视频序列在预测模型中分别添加水平或垂直预测基本单元,从而更精确地预测当前基本单元的MAD值。
通过大量实验,并且考虑到实时低码率下的应用,采用宏块作为基本单元,取b1= 0. 35,b2= 0. 45,b3= 0. 2,Th = 16( 在下文实验中均按此参数进行测试) 可提高预测精度。
2. 2 基于图像复杂度的目标比特分配优化
H017提案在基本单元层中采用将剩余比特数平均分配给所有未编码基本单元的码率控制方案,这样的平均分配方案并没有考虑到图像中不同基本单元之间复杂度的差异性,在场景快速变化时分配过少的目标比特,导致量化参数QP过大,影响码率控制的精度和图像编码质量。
文献[16]中用MADradio来代替MAD,其中MADradio是线性预测的MAD值与已编码帧的平均MAD的比值,即用已编码帧的平均MAD值来表征图像序列的复杂度,并指出MADradio能很好地反映当前帧相对于整个序列的运动剧烈程度。
为了更合理地给未编码基本单元分配目标比特,本文在MAD时空加权预 测模型的 基础之上,将式 ( 3 ) 所得到的MADcur引入到目标比特的分配计算中。
本文利用当前基本单元的预测值MADcur与之前已编码基本单元的MAD平均值MADave的比值作为复杂度衡量因子λMAD,用来调整剩余比特数的分配。具体算法如下
式中:为分配给待编码基本单元的目标比特数; 自适应参数λ是通过大量实验后的经验值来选取。由式( 6 ) ~ 式( 8 ) 可以看出,该算法能够根据MAD的比值自适应地调整剩余比特数分配。若当前编码基本单元的复杂度比之前的基本单元复杂度低时( λMAD< 0. 8) ,只需要分配较少的目标比特; 如果相差不大或略有增加时( 0. 8≤λMAD< 1. 8) ,可以根据情况增加分配的目标比特数; 若图像中当前基本单元的复杂度较高( 1. 8≤λMAD) ,则应该分配更多的目标比特。此外,由于算法中的MAD值计算在运动估计时是必须进行的一个步骤,采用此算法代替原提案中的平均分配算法,几乎没有给编码器增加额外的运算复杂度,同时也能保证算法的性能。
3 实验结果与分析
为了验证本文算法的有效性,所有的实验都是在JVT的开源模型JM10. 1上进行,并且与JVT-H017算法以及文献[9]的相关算法进行了比较。选用的测试序列为akiyo,si-lent,mother-daughter,foreman,carphone,highway的QCIF格式视频以及waterfall的CIF格式视频,其中waterfall视频代表了垂直方向运动大于水平方向运动的非常规运动序列。
在测试条件 上将目标 码率分别 设置为48 kbit/s和64 kbit / s,编码帧数为200帧,帧率为30 f / s( 帧 / 秒) ,参考帧数为1,采用Hadamard编码,熵编码类型采用CAVLC,初始量化参数为28,Go P结构为IPPP,即编码时第一帧为I帧,其余为P帧。
实验结果见表1与表2,两份表格分别记录和比较了各序列的峰值信噪比以及码率控制情况,其中码率偏差是实际码率与目标码率的差值与目标码率的百分比,比值越小说明算法码率控制得越精确。图4是foreman视频序列在目标码率为48 kbit/s时各帧PSNR的比较曲线,比较算法为JVTH017以及本文算法。图5是foreman视频序列在目标码率为48 kbit / s时的主观质量比较情况,左、右分别为JVT-H017和本文算法所得到的图像。
由表1及表2的实验数据可以看出,在低码率条件下,相比于其他算法,本文算法不仅得到了更高的PSNR,还使实际码率更接近于目标码率。同时本文算法对waterfall这一非常规类型的视频序列也能有较好的表现,在48 kbit/s的目标码率下能够使码率偏差由JVT-H017的0. 40% 降低到0. 17% ,这是由于本文算法考虑了垂直运动矢量较大这一情况后所得到的结果。
由图4和图5可以从客观和主观两个方面发现本文算法得到的视频质量更好,在视频主观质量上,本文算法更好地还原了人物的面部特征,这也是改进了JVT-H017算法中平均分配剩余比特方案后所带来的优势。
4 结论
本文分析了H. 264中的JVT-H017码率控制算法,指出该算法的不足并进行了相应改进。改进后的算法充分利用了编码过程中的运动矢量信息来预测MAD值,在此基础上根据MAD值的变化情况来反映图像序列的复杂度,从而更精确地分配目标比特。实验结果表明,与JVT-H017算法以及较新的算法相比,本文算法在码率控制方面更加精确,图像质量也有一定提高,从而改善了H. 264视频编码的性能。