视觉对象识别论文

2024-05-29

视觉对象识别论文(通用7篇)

视觉对象识别论文 篇1

0 引 言

基于计算机的视觉对象识别与语义理解是人工智能的一项主要研究内容,近年来,针对这一问题,各种方法不断涌现,包括产生/判别式方法,以及多示例学习、半监督学习和迁移学习等新的机器学习思想[1,2,3,4]。特别是将广泛应用于文本领域的“词汇包”(bag of words)[5,6]表示方法引入到计算机视觉领域后,相应地,研究人员即将适合自然语言处理的统计模型——“主题模型”(topic model)[7]也引入到图像检索和对象识别问题中来。主题模型中,两个常用的模型为概率潜语义分析模型(PLSA)与潜在狄利克雷分布模型(LDA)[8],这两个模型在图像对象识别上都得到广泛的应用。中科院计算所史忠植研究员等提出适用于连续视觉特征建模的图像语义标注系统[9];吴飞博士和庄越挺教授[10]则融合了图像与文本的相关性实现对网络图像聚类,并通过引入单词与单词之间关联度等来改进LDA模型,Zisserman[11]使用尺度不变性PLSA学习Google搜索得到图片的对象类别。LDA模型是一个产生式模型,在LDA模型中将图像表示成独立于空间信息的视觉词汇的集合,在每个视觉词汇上都对应着一个主题,这个主题的产生独立于其他视觉词汇的主题。所有文档共享一系列主题,并且每篇文档对应不同的主题比例,这个主题比例产生于狄利克雷分布。LDA模型中每个主题产生于狄利克雷分布,因而不能反映主题间的依赖关系,这与现实明显不符,所以需改进主题产生的方式,即假设主题产生于高斯分布,使用协方差矩阵的结构来表达主题之间的共现关系,即一个主题与另一个主题的相关性概率。

此外,在LDA模型中,文本或者视觉词汇的主题分配都是条件独立的,并不依赖于词汇出现的顺序。近几年提出很多方法,这些方法针对词汇的主题分配的条件独立性缺陷进行了改进,多是采用在主题模型上加入马尔可夫随机场(MRF),例如Fei-Fei Li[12]将LDA模型与主题随机场模型融合并用于图像分割,Triggs[13]使用全局PLSA模型与局部MRF模型共同作用实现图像分类。Liangliang Cao[14]在没有引入MRF的情况下,使用空间关联性潜在主题模型识别图像中对象的类别和场景,其中并未引入MRF,而是将图像划分为很多区域,每个区域表示成两个部分:一部分表示该区域的所有视觉词汇,另一部分表示该区域的整体外表特征,所以依然没有融合各个区域间的二维空间相互关系。马尔可夫随机场有其自身的缺点和弊端。在马尔可夫链中都是有向图,这个有向图就反映一定的依赖关系,而这种依赖关系却不能很好地对应现实的依赖关系。另外,在现实中标签之间的转移概率不仅依赖于当前所观察到的状态,同时也依赖于以前和未来的观察状态,这在MRF中均未得到很好的诠释,而条件随机场(CRF)则很好地融合了相邻词汇间主题分配的马尔科夫依赖关系,其当前词汇所对应的主题不仅依赖于当前的词汇,而且是建模在整个所观察到的视觉词汇序列上。针对图像二维空间性,将线性链CRF转换成二维CRF来实现,从而融合二维图像空间的相邻视觉词汇的相互作用关系。

本文主要贡献可归纳为:

将二维CRF模型融合到主题产生于高斯分布的LDA模型[17]中,使得每个词汇所对应的主题分布不再是条件独立的,而是与其二维空间中的相邻词汇有关,解决了相邻词汇间的依赖问题。

1 融合空间信息的LDA模型

1.1 LDA 模型

潜在狄利克雷分配模型运用层次贝叶斯定义了文档的似然函数。具体来说就是为每个文档定义一个主题比例向量,这个比例向量来自于狄利克雷分布,每篇文档的词汇采样于一个特定的主题词汇分布。LDA模型可以是有监督学习,也可以是无监督学习。本文采用了无监督学习。但是,LDA模型中的狄利克雷分布不能获取主题之间的相关性,这与现实极为不符,因为现实中一个主题的出现常会反映出另外主题出现的可能性,所以需对LDA模型加以改进。将狄利克雷分布改为高斯分布,令{μ,Σ}表示k维的均值和方差矩阵,令β表示K*N的矩阵,那么对于一需有N个词汇的文档,改进的LDA模型的产生过程如下:

(1)获取主题概率分布η|{μ,Σ}~N(μ,Σ)

(2)For : n∈{1,……,N}

(a)选择隐含主题Zn|η~Mult(η)

(b)生成一个词汇Wn|{zn,βl:K}~Mult(βzn).

这个过程与LDA的生成过程相同,改进之处在于文档中主题分布来自于高斯分布,而非狄利克雷分布,通过协方差矩阵表示主题之间的共现关系,与现实更加相符。图1给出了LDA图模型表示。

1.2 二维CRF

CRF[15](Conditional random fields)是一种判别式模型。这是一个无向图,满足马尔可夫性质,即对随机场中的任何一个随机变量,给定场中的其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。CRF是在马尔科夫随机场中加入了观测值。马尔可夫随机场中每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。在CRF中,要确定的是在给定观察集合下其MRF的分布,而不仅仅是在当前的观测值下的MRF分布。

由于图像的二维特性,需对线性链CRF进行改进,使其成为二维CRF。每个词汇的主题分布不仅依赖其前后位置词汇的主题,而且依赖其上下位置词汇的主题,所以本文采用八邻域法。根据LDA模型中一篇文档的产生过程,融合空间信息的LDA模型的图模型产生过程如图2所示。

这里,假设对每幅图像提取特征,获取每个patch块所对应的视觉词汇的索引值。每幅图像有n个视觉词汇。该模型中,一幅图像的生成过程与LDA模型的生成过程较为相似,不同之处只在于P(Zn|ηd)不再满足多项式分布,而是定义为广义线性模型:

undefined

式中,f是K维的特征函数向量,这个特征函数定义了与图像中视觉词汇相关的特征,ηd是一个K维的向量。根据上式,该模型的产生过程为:

For m∈{1,…,M}采样获取ηd~P(ηd|μ,Σ)

For n∈{1,…,N}

(a)采样Zn~P2Dcrf(Zn|ηd)

(b)采样Wn~multi(βzn)

其中,P(ηd|μ,Σ)满足高斯分布,P2Dcrf(Zn|ηd)是在参数为ηd下的主题概率分布,可以将式(1)改写为:

P2Dcrf(Zn|ηd)=p(Zn|ηd)=exp(ηTdf(Zn)-factor(Z)) (2)

其中, factor(Z)是保证式(2)作为概率模式的归一因子,其计算公式如下:

undefined

1.3 特征函数

特征函数的选择对条件随机场极为重要,这里特征函数分为两种。第一种为独立特征函数,是仅与当前词汇相关的特征函数;第二种为相关性特征函数,是指当前词汇的主题分布要受到其相邻的词汇主题分布的影响,在此则体现了融合空间特性的目的。鉴于图像的二维特性,需要考虑二维相邻区域词汇间主题的影响,本文采用八邻域法,如图3所示。

在此,对两种特征函数的形式与分析如下:

(1)独立特征函数fI(Zn):

undefined

由式可见, fI(Zn)是一个K维的矩阵,K为所有图像共享主题的个数,I(Zn=K)是一个指示函数,表示如果Wn这个词的主题为K,那么I(Zn=K)赋值为1,否则为0。

(2)相关性特征函数fP(Zn)

假设当前词汇的八邻域词汇所对应的主题分别是{z1,z2,…,z8},那么在相关性特征函数fP(Zn)的K维矩阵的相应位置上加1,最后得到的特征函数向量为:

f(Zn)=fI(Zn)+fP(Zn) (5)

2 后验推理与参数估计

隐含变量Zn的分布和未知参数的推理都是较为困难的问题,即p(η,Z1,…,n|W1,…,n)如何推理是需要考虑的核心问题。在二维CRF中,p(η,Z1,…,n|W1,…,n计算难度不仅是因为一幅图像中每个词汇所对应的主题不是独立产生的,而是与其邻域很多词汇的主题分布有关,并且还因为在归一因子中存在对潜在主题分布的指数级求和,所以使用变分推理方法替代精确推理方法就可以有效计算似然函数的下界。在图模型中,变分推理方法[16]有着通用的准则,但是这里需要考虑该模型中特殊的结构。参数估计采用最大似然估计方法。

使用Jensen不等式对似然函数进行变换,就得到似然函数的下界:

undefined

其中∶H(q)=-∫q(η,Z)logq(η,Z)=-E[logq]为q变分分布的熵。所以上述期望都是潜在变量变分分布的期望。这里设{β1:K,μ,Σ}为模型参数,{λ1:K,υ1:K,φ1:N,ξ}为变分参数。继续假设隐含变量的变分分布q满足:

q(η1:K,Z1:K|λ1:K,υundefined,φ1:N)

undefined

连续变量η1:K的变分分布为K 个相互独立的高斯分布{λi,υi},λi与υundefined与分别是高斯分布的均值和方差。φn则为主题为Zn分布的K维参数。

在似然函数的下界中第一项可通过计算得到:

undefined

Eq[(ηd-μ)TΣ-1(ηd-μ)]=(υ2)Tdiag(Σ-1)

+(λ-μ)TΣ-1(λ-μ) (9)

似然函数的下界的第二项:

undefined

但是由于归一因子是log形式,式(10)不能有效地计算出来,所以根据不等式:

logx≤a-1x-1+loga,∀a>0

得到第二项中对归一因子的log形式的期望:

undefined

其中,undefined。将上述不等式带入似然函数中,获得似然函数的一个下界,并且是参数(q,μ,Σ,ξ,η,λ,υ2,β,φ)的函数。

给定一个模型的参数{β1:K,μ,Σ}和一幅图像W1:N,变分推理算法相对于变分参数{λ1:K,υ1:K,φ1:K,ξ}来优化式(6)。使用梯度下降法迭代优化一个参数时,其它参数都保持不变。对于参数ξ,则有其迭代优化公式:

undefined

对于参数φn,i,通过求导得到其迭代优化公式:

φn,i=exp(logβi,Wn+λifi(Zn)) (13)

其中,第一项来自于词汇生成模型的多项式分布,第二项既考虑了独立特征函数,也考虑了相关性特征函数,在第二项中,特征函数fi(Zn)就融合了图像二维空间相邻区域间的相互依赖关系。

对于参数λ,υ2,使用梯度下降法,则对于参数λ,υ2的梯度分别为:

首先,设undefined

undefined

undefined

信念传递算法可以有效计算得到 ∇λSum(q)和∇υ2Sum(q),在优化λ,υ2时并没有解析式解,所以可选用梯度下降算法优化这两个变分参数。

给出图像集合,通过最大化图像的似然函数来实现参数估计,并使用最大期望算法来最大化似然函数的下界。

其后,本文对变分参数{λ1:K,υ1:K,φ1:K,ξ}最大化似然函数下界,完成对每篇文档的变分推理。并且,对模型参数{β1:K,μ,Σ}最大化似然函数下界。这两个过程重复进行,直到收敛为止。

下面,将给出模型参数估计的公式。

对于模型参数μ,是高斯分布的均值向量,使用运算得到的变分参数λ获得该均值向量,计算公式为:

undefined

其中,D表示训练模型中文档的总数。

对于模型参数Σ,是高斯分布的协方差矩阵,能够反映主题间共现关系概率。对每一文档,首先计算一次中间变量cov_s,其计算公式为:

undefined

最后,得到Σ矩阵的每个元素:

undefined

(18)

其中:

undefined

对于模型参数β,是一个K*N的矩阵,表示给定主题下词汇的分布概率,即p(w|z),其计算公式为:

undefined

其中,式中的Sum指对β每一行求和,使得该行的元素和相加为1。

3 实验

本文使用VOC(2007)图像数据库的训练集合和测试集合,分别进行模型的训练和测试。该图像库共有20个类别的图像。使用融合空间信息的LDA模型训练得到该模型的参数,这里设置主题数为100,并且对4 952幅进行测试,得到每幅图像的主题分布矩阵,该矩阵作为SVM输入参数,使用SVM分类器对不同类别的图像进行分类。在使用SVM分类器进行分类时,将当前需要识别的图像设置为正例,将其他所有类别的图像设置为反例,形成多个两分类问题。本文采用precision、recall和accuracy这三个量化标准评价图像识别率的好坏:

undefined

表1给出主题数为100时的accuracy评价结果。

最后通过precision和recall得到Aero-plane,Bottle,Bus,Cat 这四类图像的AP曲线,并且与LDA模型与SVM分类器得到的识别率的AP曲线进行比较,对比结果如图4、图5、图6、图7所示。可以看出,本模型相比LDA模型,AP曲线较稳定,没有出现LDA模型AP曲线的不稳定性情况。

4 讨论

通过将二维图像空间信息融合进LDA模型,构建条件随机场LDA模型,使得每次视觉词汇主题的产生不再条件独立,而与其相邻区域视觉词汇的主题存在一定的依赖关系,这更加符合图像特性,并且文档所对应的主题的产生不再来自于狄利克雷分布,而是高斯分布,那么高斯分布的协方差矩阵就可以反映主题间的共现关系,即一个主题的出现也表现了其他主题出现的概率,可用于场景识别的应用。融合空间信息的LDA模型,可以提高图像视觉词汇主题分配的准确率,从而达到提高视觉对象识别率的目的。

阿恩海姆论视觉对象的动力特性 篇2

一、视觉动力是正确评价视觉对象的需要

(一) 仅有简洁性是不够的

阿恩海姆认为, 一个视觉对象的呈现, 仅凭简洁律是不足以让观者对所观看到的一切做出正确判断的。简洁律是格式塔心理学的一种基本原则, 按照简洁律原则, 任何一种视觉图式, 在给定的情境下, 都会倾向于呈现一种现有视觉条件下的最简洁的“完型”, 借助于视觉具有的简化倾向, 我们就能够对完整性与不完整性、整体与部分、固体感与透明性、静止与运动等各种视觉现象的基本原理有一个初步了解。阿恩海姆在对简洁律意义肯定的同时, 认为仅有简洁律是不够的, 仅凭简洁律就会导致对视觉对象的片面评价。阿恩海姆分析了古希腊和谐感、均衡感的美感标准与“极少主义”作品的艺术标准, 意识到这两者对视觉对象的标准停留在认为只有当某些元素与某些元素配合才会产生和谐感的水平上, 因此难以逃离“不完备理论”的宿命。因为仅仅以主题对象为参考回答不了“视觉陈述”中最重要的问题:在视觉形式中, 被平衡和被统一的究竟是什么?不回答这个问题, 所有的“视觉陈述”就会变得无法理解。阿恩海姆提出, 简洁律必须与视觉动力理论结合起来, 才能对视觉对象做出正确的评价[1]。

(二) 在视觉形式中, 被平衡与被统一的是视觉动力

人类的生理机制与心理机制是开放的与动态的。人类的生理机制不是一个封闭的系统, 从生理学的角度讲, 随着身体中有用能量的损耗, 我们的生理机制将会努力地抵制这个过程, 要做到抵制, 就得不断地从环境中吸取热量、氧气、水分、糖和盐等, 以及身体必备的其他营养成分。同样, 从心理学的角度讲, 任何生物都会通过感觉系统来接收外部信息, 并对信息进行处理, 最终将这些信息转换成肌体的内部信息, 心理机制就是通过这个过程, 不断补充各种心理活动的能量的。我们的身心将不断面对这种变化, 并期待这种变化。因此, 人类的心理机制是不同信息的冲突与变化, 所以阿恩海姆认为探讨视觉形式中的平衡与统一问题以正确评价视觉对象, “仅以主题对象为参考是远远不够的”[2]。他这里所指的“主题对象”指物理世界中的不经人类心理机制作用的对象。

知觉场中最简洁视觉图式的呈现是视觉动力的冲突与平衡的结果。基于人类心理机制的动态性, 阿恩海姆倾向于将人类的心理机制设想成一种“张力加强”和“张力减少”之间的冲突。“张力减少”趋势在没有达到与绝对静止状态的统一之前, 将一直继续下去。“张力减少”的过程, 将不断受到合成代谢或建设性趋势的检验, 然后就形成了结构性主题, 这种结构性主题包含着现在的心理状态和未来的心理状态。阿恩海姆认为, 当眼睛瞄准某一目标时, 这个目标在视觉中投射的图像, 会以一种受约束的、结构性的主题出现在视觉场中。如果这个视觉刺激图式发生了某种偏离, 视觉场中的各种力, 就会再对这个主题进行重组或作出修改, 直到它呈现出最简洁图式为止。阿恩海姆对这一过程的看法是:“这时, 知觉中所发生的事件, 就使张力加强和张力减少之间开始了一场冲突。这一结果, 就是我们观看视觉对象时所发生的具有高度动力趋势的视觉过程。”[3]

二、视觉动力是视觉体验中的动力

(一) 一切视觉对象都具动力特性

阿恩海姆坚持一切视觉对象都是极具动力性特质的事件, 并强调这是所有的知觉活动的基础。他反对用纯粹的物理性质来描绘感觉现象中的那些普遍事实, 因为这样很容易忽视视觉对象的动力性。比如, 对一个等边三角形的客观描述:它是由三条长度相等的边, 构成三个60°夹角而形成的, 但在视觉中, 三角形所具有的指向外面的图形特征是一种攻击性。阿恩海姆认为, 即使是在最现实的情境中, 所有的视觉对象中都存在着动力特性, “当一块岩石挡住了我的去路, 我并不会首先用岩石的形状、大小、颜色这些维度来定义这块岩石, 而是首先体验到那种行进时一路向前的、充满动力体验的行走过程被突然出现的岩石终止了的心理体验。”[4]

在对艺术品的视觉动力特性探讨时, 阿恩海姆以霍华德·奈莫的诗歌为例, 认为在有些诗歌的描述中, 动力知觉充当了艺术表现性的特征。尼古拉·培温斯纳谈论哥特式建筑风格的设计意图的语言 (注:指哥特式建筑的设计意图是“想赋予那些僵硬冰冷的石材一种生命力, 或加速空间的运动感, 或者将建筑的体积收缩为一个人的知觉系统能够理解的、运动的线性系统”) , 受到阿恩海姆高度评价:“迄今为止, 我们还找不到一些更恰当的术语来描述观看哥特式建筑风格时所获得的视觉体验。”[5]因为在他看来, 任何建筑体的确立, 都不应仅限于将各种形状的石材堆积在一起, 只有借助“动力”这个词, 才能将这种知觉体验描述清楚。

(二) 视觉知觉不是来自物理位移的体验

阿恩海姆否定视觉动力是一种来自物理位移的经验, 否定视觉意象的知觉特性与客观位移有着完全的或部分的联系。在他看来, 当那些静止的形状即将给人留下一种真实的空间位移的印象时, 它们看上去必然就不具有动力感;反过来讲, 当那些静止的形状看上去具有动力感时, 它们却不见得给人留下一种真实的空间位移的印象。在均衡感不完善的构图中, 各种图形之间的位置关系就会变得不稳定, 这时, 整个构图显示出朝着更恰当的位置运动的倾向。这种倾向不是使作品变得更有动力感, 而是将运动感转变为整体构图中各种视觉元素的受阻状态。因此, 阿恩海姆断言, 视觉动力不是一种来自物理位移的经验, 只有当物体的运动真正发生或经过观者眼睛的检验即将发生的时候, 静止物体的运动感的特性才会出现[6]。

(三) 视觉动力是观者具有的自发性的知觉反应

阿恩海姆认为, 视觉动力并不仅仅存在于物理世界, 在刺激图示投射在我们视网膜上的图像中也会显现出来, 这种刺激图式决定了知觉内部所固有的动力究竟有多大, 这是由视觉动力的生理系统与心理系统的处理方式决定的。

视觉刺激材料到达我们的眼睛之后, 我们的知觉能将它对知觉机制形成的入侵性的力量反应出来, 这种外部力量将我们原有的知觉神经系统的平衡状态打破了。平衡被打破的过程就像一场争战, 一个原本完整的洞口, 经过我们有抵抗力的视觉组织的加工, 有可能变得支离破碎。阿恩海姆看到这种争战的结果就是那种入侵的力量试图战胜生理系统中的视觉力, 与此同时, 生理系统中的视觉力, 也在努力清除由入侵者带来的对视觉原有的完好性的攻击, 最后, 这场战斗以视知觉将入侵者简化成最简洁图式而告终。两者之间经过较量而达到的相对的力量对比, 决定了最后的知觉力的强度。视觉动力在经过生理系统处理的过程中, 心理系统也在同时进行着处理, 这就让观者感到了存在于那些静止图式中的那种有方向性的张力, 心理系统处理的结果就是这些视觉刺激被组织成一个知觉中的整体结构。这两种力量之间的争战, 永远都不会处于一种静止的状态。任何一种知觉经验中都存在着这样的动力性因素, 它与存在于那些静态的形状、大小和颜色中的动力因素一样, 既紧密又直接。阿恩海姆认识到, 对于敏感的眼睛来说, 即使是最简洁的图形——如明亮背景上的一个黑点——也会显示出一种力量, 从物体本身的内部向外膨胀、驱动, 最后受到外围环境阻力的制止的景象[7], 并强调:“所有视觉图像都具有视觉动力, 这是一个事实, 这个事实本身就能说明, 视觉动力是具有表现性的”[8]。

三、视觉动力是视觉对象的内在属性

瓦西里·康定斯基分析过点、线、面等视觉要素的特性, 他声称要用“张力”这个词来取代“运动”的概念。他认为“张力”是视觉元素所固有的内在力量, 是主动运动的一个不可缺少的成分, 因此, “张力”是有方向性的。阿恩海姆赞同康定斯基的说法并指出:“这种有方向性的张力, 就是我们所谈论的视觉动力”[9].张力不是观者依赖记忆进行想象而强加到知觉中去的, 它是形状、颜色、位移所具有的内在属性, 因此, 产生视觉动力的条件, 必须到视觉对象本身中去寻找。

自然物体常具有强烈的视觉动力。阿恩海姆认为自然物体常常具有强烈的视觉动力, 因为这些物体的形状, 正是创造这些物体的物理力的作用轨迹。运动、扩张、收缩都是生长的必然过程, 而这些过程本身又可以以动力形状呈现出来。大自然对我们来说是鲜活的, 这是因为, 大自然中的形状往往是以往发生的所有事件凝结而成的化石。以往的历史, 不仅向我们暗示着那些理性的效果, 而且要求我们直接去体验那些呈现并活跃在看得见的形状中的各种作用力和张力[10]。

阿恩海姆探讨视觉对象的动力性特征, 强调了视觉动力对人正确把握视觉对象的重要性, 提出了视觉动力是视觉对象的内在属性, 认为视觉动力是知觉体验中的动力, 认识到生理系统和心理系统对视觉刺激材料的不同处理, 对视觉现象与视觉艺术的研究具有极大的意义。

参考文献

基于视觉的人体识别概述 篇3

我们在信息大爆炸的年代, 以视频图像为主体的信息以指数量级进行增长, 并在运动分析、智能家居应用等领域广泛迫切需要使用计算机辅助或者替代人的视觉和思维, 处理图像视频中的目标识别和跟踪任务。由于日益扩大的需求而迅速发展, 基于视觉的人体识别技术已经成为计算机视觉以及人工智能研究领域的一个热点。

2研究背景及意义

人体识别是利用视觉信息实现自动识别人体运动行为的过程。基于视觉的人体运动行为识别技术的应用非常广泛, 同时具有非常可观的经济价值, 是当前热门的研究方向。主要包括智能视频监控、运动分析、智能家居应用、虚拟现实、用户接口等多个方面。

2.1智能视频监控:利用人体识别技术构建智能监控系统, 通过智能视频分析技术对重点区域内的异常行为进行追踪并发出预警, 避免犯罪和有关损失的产生, 广泛应用于人群集中或敏感区域, 例如银行、ATM自动存取款机、停车场、超市、码头等。

2.2运动分析:应用于体育项目及临床医学中。在体育项目中捕获正确的行为识别运动分析, 提高他们的训练效率及运动水平。另外, 运动分析还应用于病人的康复训练, 为临床提供科学准确的诊断评价手段。

2.3智能家居应用:针对独居老人或患病老人, 进行室内活动行为监控, 并进行分析。实时检测老人的异常行为, 例如跌倒或卧床未起等情况, 并准确及时地向监护人或社区医护人员发送警报。

2.4虚拟现实:是一种全新方式, 例如模拟驾驶、科幻片中的场景、虚拟现实游戏。

2.5用户接口:传统的输入设备, 如鼠标、键盘, 已被人体的某些动作所代替, 如手势、指纹、面部识别。

2.6在汽车行业中, 高科技配置参数描述的安全气囊自动控制系统、主动刹车系统、驾驶者睡眠检测系统、偏离车道预警系统, 都是人体识别技术的应用, 在新兴领域中的航拍图像、受害者营救等方面具有广泛的应用。

3人体识别技术的构成

人体识别是基于统计的模式识别技术应用, 由运动人体检测、运动行为特征选择和提取、人体运动行为识别构成。

3.1运动人体检测, 即为人体行为的特征提取做准备, 是在视频中准确快速地将运动人体从图像中分割出来。运动场景的复杂性及强光环境照射下阴影的干扰是人体检测的难点部分。目前运动人体检测主要的方法:光流法、帧间差分法、背景减除法等等。

3.2运动行为特征选择和提取, 即选择和变换运动人体检测后的图像序列, 以尽量少的特征向量维数来对运动行为尽量完整表述。主要有两种方法, 一是人体运动轨迹相关特征、二是运动人体图像区域特征。

3.3人体运动行为识别, 即是使用运动行为的特征向量对其进行分析分类, 利用基于人体模板的模板匹配、基于概率网络模型等方法, 得到其自然语言描述。

4行为识别的分类技术

基于行为表征的所建模型, 获取行为特征, 对行为进行分类, 根据行为特征实现行为的分类。用到的分类器为:直接分类法、状态空间分类法。

4.1直接分类法:不考虑图像序列内的时间关系, 直接将单帧图像或图像序列转换为特征向量后进行行为的模式分类。近几年来, 研究人员广泛关注支持向量机 (Support Vector Machine, SVM) 和相关向量机 (Relevance Vector Machine, RVM) 的研究及其应用。SVM是一种机器学习方法, 其建立在VC维 (Vapnik-Chervonenkis Dimension) 统计理论基础上。SVM已经成为小样本行为数据学习的重要方法。

4.2状态空间分类法:把每种静态姿势都对应定义成一种状态, 各种状态间的变换满足一定的概率关系, 将运动序列看成不同状态间的遍历过程, 计算遍历过程所对应的联合概率, 并将最大值作为行为模式分类的依据。状态空间分类器可进一步划分为两类:生成式分类器和判别式分类器。4.2.1隐马尔可夫模型 (Hidden Markov Model, HMM) 是最具代表性的一类生成式分类器。在文本识别、人脸识别等多个研究领域被广泛应用。4.2.2动态贝叶斯网络 (Dynamic Bayesian Network, DBN) 被看成是HMM的推广。其原理为在每一个时间片上都对应一个贝叶斯网络, 且每一个状态变量均可对应多个因果节点。4.2.3条件随机场 (Conditional Random Field, RCF) 是基于最大熵模型、HMM模型, 提出的一种判别式概率无向图学习模型。4.2.4动态时间规整法, 对于同一个行为, 不同人执行的时长可能不一样, 通常采用动态时间规整 (DTW) 方法, 通过建立一个最佳的时间规整函数, 使得二者在时间长度上达到一致。

5存在问题及展望

在人体识别领域, 未来还可以研究的方向包括:

5.1多摄像机的能提供多个方向的视频序列。使用多角度的视频可以解决人体被遮挡的问题。

5.2多角度的动作识别。摄像机的拍摄角度会影响到人体行为识别的正确率。

5.3多种行为特征的融合。由于在不同的环境中, 各种算法对人体行为的特征的提取也不相同, 怎样把多种行为特征进行融合, 找出更本质上的描述人体行为的特征, 与其他学科相结合, 需要深入的探索。

5.4人体行为分析的理解与描述。目前对人体行为识别的语义理解还相对简单, 如何借助人工智能、计算机视觉算法等领域先进的成果, 实现复杂场景下的自然语言描述。综上所述, 人体识别的研究任重道远。在借助先进的硬件设备, 不断完善的视觉算法, 充分利用人工智能、机器视觉等领域的研究成果, 将现有的简单的人体行为识别技术, 推广到复杂场景下的高层次的人体行为识别, 建立能实现自动完善、具有主动学习能力的实时的智能系统, 是科研人员研究的终极目标。虽然人体识别的准确率和速度仍在不断的提高, 但是距离目标还有一段路要走。

参考文献

[1]冯莲, 邹北骥.基于视频的人体运动跟踪技术研究[D].长沙:湖南大学, 2006.

[2]王庆帅, 刘志镜.智能监控系统中人体行为识别技术研究与实现[D].西安:西安电子科技大学, 2010.

[3]倪洪印.基于视频的人体检测与目标跟踪方法研究[D].长春:吉林大学, 2014.

[4]赵运基.基于视觉的目标跟踪算法研究[D].广州:华南理工大学, 2012.

[5]井亮, 陈谋.基于视觉图像的移动目标跟踪技术研究[D].南京:南京航空航天大学, 2011.

环境视觉识别系统设计分析 篇4

在环境视觉识别系统设计中, 主要包括三个部分的内容, 即视觉识别、环境行为识别以及环境理念识别等。它主要是通过组织化、系统化的视觉识别方案, 传达一些区域行为内容, 如精神、价值以及相关思想等, 从而达到掌握区域信息的目的, 这种环境视觉识别系统的认同感相对较强。在对环境视觉识别系统进行设计的过程中, 主要渠道则是打开视觉信息, 同时结合人们的实际心理需求以及精神需求等, 全面提升环境形象的影响效果, 从而达到增强区域内环境竞争力的目的。

二、环境视觉识别系统设计的原则

(一) 构思深刻

在环境视觉识别系统设计中, 首先应遵循的原则就是构思必须深刻。要全面突出区域的本底性, 并且要将区域的实际内在需求以及识别的功能特点全面抓住, 同时充分揣摩区域环境的题材内容, 这样就能通过精炼的手法以及巧妙的构思, 全面突出区域环境主题性的相关内容。

(二) 生动形象

在设计环境视觉识别系统时, 还需确保其具有生动的形象。为了全面突出区域的特色效果, 在构造视觉语言的过程中, 还需要提升其传播的效果, 这样才能将区域环境识别的独特性充分、全面地展示出来。

(三) 创新性

在进行环境视觉识别系统设计的过程中, 还必须具备一定的创新性。在对区域环境发展活力进行展示的过程中, 最关键的就是将区域环境中标志性的景观展示出来。同时在设计环境视觉识别系统的过程中, 树立“以人为本”的设计理念, 并严格按照美学的基本原则, 充分体现出区域环境的感召力, 这样才能将环境识别的效果具体地传达出去。

三、环境视觉识别系统设计的内容流程

(一) 识别符号的设计

在设计环境视觉识别符号的过程中, 首先需要明确环境区域的名称以及标志等重要内容, 并且确保其具有一定的精神内涵和意念, 同时确保整个环境区域象征具有一定的整体性, 这样就能按照人们心理的实际需求, 对图文进行合理的组合。在设计应用要素的过程中, 首先需要对总体进行合理的规划, 而在建筑系统布局的过程中, 需要合理地设计和划分应用要素。同时在设计结构模式的过程中, 要通过相对集中和统一的设计, 对一元化的结构模式进行合理设计, 而这种模式主要应用在较小的环境区域中, 且在知名度较低以及经济实力较弱的环境区域中, 具有非常好的适应性。而对于多元化的结构模式而言, 其视觉方面的设计具有很大的不同, 且不同的环境区域, 其设计以及标志等也具有较大的差异。另外, 对于混合结构模式而言, 其不仅具有多元化结构模式的基本特征, 同时也具有一元化结构模式的基本特征, 它主要采用的是分区名称与统一标识相结合的方式, 从而设计出一种环境视觉识别系统。

(二) 视觉形象的设计

在设计环境视觉识别系统的过程中, 对于设计视觉形象区位以及空间结构来说, 主要是通过人们视觉的基本理论, 对环境区域中一些关键的视觉区位进行相应的设计, 例如地标区以及出口通道等, 从而确保区域形象的鲜明性。通过地域要素来构成区域形象, 就能确保设计的环境区域具有一定的连续性和统一性。在设计标志性区域景观的过程中, 需要按照区域形象的参照感知体系, 合理地整合和布局环境区域景观, 并按照民族精神的主要理念以及时代发展的基本主体, 全面地反映出环境地域的人文特性以及鲜明性。

(三) 作业的规范设计

在对作业规范进行设计的过程中, 要根据环境视觉识别系统中的符号面, 合理地设计和布局平面, 并在环境视觉形象设计的景观中, 将设计的三维空间特点充分体现出来, 这样才能确保区域设计意境的具体化。而在开发视觉意境美的过程中, 还要进一步提炼形象设计中的关键点, 并使其转变成具体的设计理念。而在设计当前城市规划以及发展的过程中, 还要通过充分的论证, 将形象风貌的具体特征充分体现出来, 这样才能确保环境视觉识别系统的设计具有良好的意境美。

综上所述, 环境视觉识别系统的设计, 不仅能够提高环境区域的综合效益, 同时还能促进社会经济获得良好的发展。因此在进行环境视觉识别系统设计的过程中, 必须按照时代发展的趋势, 采取有效的措施增强视觉语言的传播效果。

摘要:随着社会经济的飞速发展, 人们对于精神上的需求以及视觉上的感受也有了更高的要求, 因而人们对环境构造的要求也越来越高。而在环境视觉识别系统设计的过程中, 树立“以人为本”的设计理念, 就必须高度重视人们的心理感受以及心理需求。因此对环境视觉识别系统设计进行深入的研究, 分析了环境视觉识别系统设计的内涵及原则, 从而对环境视觉识别系统设计的内容和流程做了详细的阐述。

关键词:环境视觉识别系统,内涵,原则,设计流程

参考文献

[1]袁筱.视觉导向系统在环境设计中的应用[D].景德镇陶瓷学院, 2013.

[2]王璇.高速铁路车站视觉识别系统设计研究[D].南京师范大学, 2012.

[3]陈楠.2014年索契冬季奥运会多面性视觉识别系统设计分析[J].艺术设计研究, 2014 (1) :86-90.

新闻网页的视觉识别系统设计 篇5

当今世界的网络事业正处在一个迅猛发展和普及的阶段, 网民数量的急剧增加、网络涉及民众日常生活的愈发广泛、网站建设的不断蓬勃、网页内容的高速更新, 使网络已经成为了很多人的一种生活方式。在互联网新闻传播方面, 网络平台可以为人们提供最快最全的新闻信息, 形式多样, 丰富多彩。因此, 在电视、广播、报纸等传统媒体之外, 越来越多的人们已经习惯于通过网络浏览新闻。尤其当重大事件发生时, 网络搜索新闻的随时和便捷性更为受众所青睐。但在信息爆炸的时代, 新闻网页的设计者要想争取更多的点击率, 在保证新闻内容优质的前提下, 还必须要打造自己独特的品牌风格。调查显示, 有高达67%以上的网民倾向于在固定的网站浏览新闻, 而这其中59%以上的受调查者选择固定网站的原因是“页面让人觉得舒服”。由此可见, 高质量新闻网页视觉识别系统的建立非常必要。由于品牌视觉识别系统是一个完整的系统工程, 涉及的范围很广, 这里着力从新闻网页设计的标志系统设计、色彩设计、字体设计三个方面进行分析。

1 新闻网页设计的标志系统设计

新闻网站的标志无疑是整个视觉系统设计中最关键的一部分, 它作为设计中的核心, 若能给浏览者留下深刻的印象, 服务于品牌传播的同时, 将直接关系到网站的经济效益。不同种类的网站新闻页面, 有着各自不同的视觉识别系统设计方式, 主要分为两种类型。一是传统报纸媒体、传统电视媒体和传统广播媒体的网络版形式, 另一类就是商业综合网站的新闻频道。由于传统媒体在社会中已经有了固定的受众, 也具备着相对广泛的影响力, 多平台中的统一标志也有利于品牌传播, 所以传统媒体的网络版新闻页面标志设计也多会沿用已使用的标志。如人民网沿用的是《人民日报》的字体和颜色, 以“人民网”三个字的书法为网站标志, 凤凰网直接沿用凤凰卫视抽象的凤凰旋转交融的形象台标。除了几乎完全直接沿用的媒体, 也有对网络标识进行全新设计的, 比如新华网的网络标志变成了中英文相结合的设计。与此差别较大的是, 一些综合商业网站的标志设计充分体现了互联网传播时代的多样性, 生动、灵活、时尚, 极具个性化。其中百度的标志设计最为活跃, 不仅有一般情况下使用的最具识别力的标志, 在节日、纪念日等有意义的日期到来之际, 会在与本来标志相统一的基础上设计与节日氛围相适应的新鲜标志样式。再比如腾讯网红黄绿三色环绕着一只小企鹅的标志设计, 同样很有意义。环绕QQ企鹅的三种颜色代表腾讯网为公众提供的三个创新层面:绿色, 表示通过学习型创新, 提供日新月异生命力蓬勃的产品;黄色, 表示通过整合创新, 提供温暖可亲的多元化互联网服务;红色, 表示通过战略创新, 倡导年轻活力, 创意无限的生活方式。标志设计独具创造性的同时, 腾讯公司的企业文化也尽在其中。

在与商业网站的对比中我们看到, 我国的新闻网页的标志设计对于互联网优势的体现还是很欠缺的, 新闻网页设计者应该在把握市场动态, 对网民的喜好倾向进行分析的基础上, 把互联网相对于传统媒介在图形与色彩上的变化优势充分体现出来。

2 新闻网页设计中的色彩设计

不同颜色会给予人不同的心理感受, 当网页映入浏览者的眼帘, 它的颜色便会直接影响他们对该网站的第一印象。因此, 色彩设计在网页视觉识别系统设计中是举足轻重的关键环节。蓝、深红、灰、黑是目前各大网站中最常见的颜色。蓝色这种代表理性的冷色调可以一定程度上的体现新闻的真实性, 新闻网首页的新闻小标题中用得较多。红色辨识度最高, 传播速度最快, 在新闻网页设计中多用在栏目板块或标题上, 使所表现的内容很容易被捕获。但是腾讯网、人民网、新华网等诸多网站中, 其标题字设计为均蓝色或者黑色, 并没有滥用红色, 这是因为红色易引起视觉疲劳, 不利于长时间阅读。

3 新闻网页中的字体设计

与图片的功用比起来, 文字表意明确, 是新闻网页构成要素中的主体, 虽然图片常常更加吸精, 但是网民获得新闻信息的最主要形式仍是通过文字。黑体和宋体作为传统媒体中最常用的两种字体, 同样被使用在新闻网页中, 略有不同的是, 计算机中黑体和宋体选择更加灵活多样。黑体字是一种装饰字体, 笔划整齐划一, 醒目有力, 识别性高, 常被选作要点新闻、或者新闻大小标题使用的字体。模仿宋体字结构和笔意的仿宋体, 笔画粗细一致、秀丽狭长, 适合阅读, 也同样适合印刷, 在新闻网页的段落中被广泛使用。在字体大小方面, 浏览腾讯网、人民网、新浪网等大型网站可以发现, 9磅和12磅左右的字体使用较多, 通常分别作为新闻网页的标题和正文, 或者分别作为需要强调的地方和辅助内容。

在信息高速发展的今天, 新闻网站要想获得更多的认可, 必须加强视觉识别系统的设计改革, 打造全新的网站, 为用户提供更好的体验。

摘要:不同于商业网站对品牌形象经营的注重, 现有的很多新闻网站的建设基本是传统媒体网络版, 少数权威新闻媒体单纯从新闻内容上赢得点击率, 并没有很好地利用网络媒体的独特优势。当前网络信息铺天盖地, 新闻网页设计应该关注网页最直观感受形式, 重视视觉识别系统的设计, 从而彰显媒体自身的理念, 吸引网络受众的眼球。

关键词:新闻,网页设计,视觉识别,媒体

参考文献

[1]刘俊荣.基于行为识别的网页文本分类算法研究与实现[D].北京邮电大学, 2010.

[2]宋鳌.网页去噪在交互电视中的应用与研究[D].上海交通大学, 2011.

[3]彭聪.一种在移动网络环境下的网页排序算法的研究[D].湖南大学, 2010.

基于视觉的多特征手势识别 篇6

关键词:视觉,多特征,手势识别

依据输入方式的不同, 可以把手势识别分为基于视觉和基于手套数据的手势识别。基于手套数据的手势识别主要是利用手套来识别空间运动信息和轨道, 最终达到人机交互。基于视觉手势识别就是使用摄像机来收集图像信息, 分析识别图像信息, 此识别方式的主要优点就是设备要求低、简单、符合日常生活习惯。

1 手势的定义

因为手势自身就具有多义性和多样性, 不同空间和时间上存在很大差异, 还在一定程度上受到不同背影的影响, 导致手势意义不相同。从手势识别方面来说, 可以定义为:手势是手和臂膀之间出现的不同姿势和动作, 包括动态和静态两方面。静态手势实际上是模型空间的一个点, 动态手势是模型空间中的一条轨迹, 应该依据时间变化的特征来表达。

2 手势建模

手势模型是手势识别中非常重要的部分, 尤其是对于一些具有特定范围的识别起到更大的作用, 依据具体情况合理选择模型。如果需要特定的应用, 可以使用简单粗糙的手势模型, 例如, 可以使用图像梯度方向来跟踪和识别静态手势。但是想要实现人机交换自然进行, 此时就需要建立相应的精细识别模型, 例如, 使用3D人手模型, 手势识别系统此时能够对大部分手势做出合理反映, 从现阶段研究看来, 可以把所有的手势模型归结为两大类:一是基于3D模型的手势识别建模;二是基于表象的手势建模。基于表象的手势建模一般都是建立在图像的基础之上, 通过表观来合理分析手势信息, 通过表象特征来进行建模。基于3D手势模型建模, 一般都是充分考虑到产生手势的媒介, 一般来说, 主要遵循两个步骤:一是, 先给手臂之间的动态进行建模;二是, 从姿态和运动的参数来合理建设手势模型。

3 手势识别

一般都有很多种手势识别方式, 并且与手势建模密切相关。可以借力选取手势二值图像来表示手掌。利用指尖来对手指进行定位, 此时, 监测指尖就显得尤为重要。下图为十一个手势模板。

3.1 检测指尖

利用手势的凸缺陷以及手势轮廓来进行检测指尖。手势凸出缺陷实际上就是手势外部轮廓和手势凸包之间的差异, 如下图所示的手势凸缺陷。由图可以看出利用虚线构成的多边形形状实际上就是轮廓的凸包, 实心多边形就是人手的实际轮廓, 双向黑色箭头可以表示凸包与凸缺陷之间存在的最大距离, P1点用来表示开始时凸缺陷的轮廓点, P2点用来表示结束时候的凸缺陷轮廓点, P3点用来表示距离凸包最远处凸缺陷的轮廓点。从图上可以看出手势指尖和凸缺陷有着十分密切的关系, 可以有效地表示手势。

用以下方式来合理验证和检测得到的凸缺陷序列信息。第一, 手势外轮廓附近必定存在指尖。第二, 只有具有一定长度的凸缺陷满足与凸包的最大距离的时候, 才是凸缺陷指尖的候选集, 下图中的a处就是满足需求的凸缺陷, 而b处就不能满足凸缺陷的要求。第三, 指尖靠近开始和结束凸缺陷的轮廓点, 一般需要遵守以下几个原则:一是, 第一个和最后一个指尖由第一个开始的轮廓点和最后一个结束的轮廓点表示。二是, 把现阶段凸缺陷结束轮廓点以及下一个开始点作为指尖坐标, 这样就可以得到指尖位置和个数。

3.2 手势识别和表示

对于上文得到的指尖坐标点, 合理利用二值图形, 把其重心当做原点, 以此建立指尖坐标, 找到相应位置。假设指尖个数为M, 那么M在0~5范围内。可以得到两种计算方式;

第一, M大于等于2的时候, 利用相应的指尖位置来进行手势识别。可以利用第一个和其他指尖分别与重心连线的角度之和以及第一个和最后一个指尖与重心连线的角度来表示相对位置。

第二, M小于等于1的时候, 利用几何特征来识别手势。主要包括外轮廓面积、外轮廓凸包面积、轮廓长度、轮廓面积等, 可以方便于手势的识别。

4 手势识别的系统特点

4.1 功能强大

识别系统主要以知识工程和人工智能为基本依据, 利用数据库技术、分布式技术、GIS技术、统计分析、混合推理技术、图像分析技术以及回归预测和分析等技术, 因此系统功能十分强大。对于疾病的防治和诊断有十分重要的作用。合理的把OWC组件以及AJAX无刷新技术进行有机结合, 可以全面实现系统实时分析图表和更新功能。

4.2 安全性能高

识别系统主要是建立在NET之上, 可以从系统级、数据库级、网络级、用户级等多方面来保障系统安全, 采取限权用户多种组合模式的管理方法、数据库自动周期备份功能等多方面安全策略。

4.3 性能良好

合理使用多层的B/S系统和集成服务理念, 在层与层之间建立松散但是独立的耦合, 使系统变得方便维护、操作简单,

5 结束语

基于视觉的多特征手势识别逐渐发展成为未来的趋势, 也是在语音识别之后逐渐成熟和研究的新兴人机交互识别技术, 具有广泛的应用前景, 可以用于手语识别、虚拟交互、机器人的机械手等。手语其实是动作语言, 不仅是在聋哑人之间的交流, 也可以是非聋哑人的交流, 因此, 基于视觉多特征手势识别具有一定社会意义和前景。

参考文献

[1]翁汉良, 战荫伟.基于视觉的多特征手势识别[J].计算机工程与科学, 2012, 34 (02) .

[2]孙靖.基于视觉的实时手势识别及其应用[D].广西大学, 2013.

[3]闯跃龙.基于视觉的手势识别关键技术研究[D].浙江大学, 2013.

基于OpenCV的视觉手势识别 篇7

1 图像处理

1.1 手势图像处理与背景分割

图像分割是实现自动图像分析时首先需要完成的操作。由于各样不同的背景、光线变化,会对手势的分割产生一定的干扰。

研究发现,人类皮肤在色度空间中的分布被证明了是聚类空间中的较小区域内,使用HSV空间来进行分割处理。由于HSV空间中,V代表了亮度,它对应于全部光能且可量化为光源的亮度。通过基于像素颜色的分割处理来实现前景与背景分离。

1.2 手势预处理

1.2.1 图像形态滤波

图像形态学包括开运算和闭运算,膨胀和腐蚀。他们本身具有多项特征处理特征。

1.2.2 图像平滑处理技术

利用Open CV提供cv Smooth函数实现了图像平滑处理,该函数同时实现了中值滤波、高斯滤波、双边滤波三种滤波功能。

2 算法实现

2.1 算法思路

通过单个或者多个摄像头对手势进行采集,再对采集的手势图像或视频进行相应的处理提取出手势的特征,之后采用特定的方法对手势特征进行识别。

通过摄像头捕捉手势图像,图像预处理(分离HSV通道)获得手的二值图像,通过进一步的图像处理(腐蚀,高光补偿等)获得手的轮廓,然后针对手的轮廓图像对手进行特征提取,采用模板匹配的方式对手势进行识别。

2.2 总体系统图

2.3 手势运动分析

2.3.1 获取手形区域

利用阈值化,规定了0-100亮度为0,101--255为1,通过图像分割,获得了手型前景信息,对手形信息进行提取。

2.3.2 手势运动判断

在判断运动方向时,假如手形运动前,捕获中心点为A(X,Y),经过一定帧后变为B(X1,Y1),那么得到的水平偏移量为

根据运动规律,利用tanθ=B/A=(Y1-Y)/(X1-X)

2.3.3 实验数据

实验数据,如图1-图8所示。

2.4 手势特征分析

手形形状轮廓特征识别:轮廓有长度,面积以及轮廓的边界框等特征。手行在识别过程中,由于手与摄像头距离问题,手形轮廓的长度,面积等都将发生变化。

3 结论

手势识别实现了人与计算机的简单交互,使得人们操作计算机变得简单、易用。通过摄像头捕捉手势图像,通过图像预处理(分离HSV通道)获得手的二值图像,通过进一步的图像处理(腐蚀,高光补偿等)获得手的轮廓,然后在针对手的轮廓图像对手进行特征提取,采用模板匹配的方式对手势进行识别。

本论文最终实现了摄像头检测手型,利用Open CV算法的矩形框函数检测出手势,采用阈值处理技术分割出手型移动区域,利用帧差错算法实行矩形框随着手的移动而移动,得到桌面手形左右上下移动变化。

摘要:随着计算机技术的快速发展,机器学习的不断进步与深入。在互联网+的当下,人们与计算机的交互还是停留在传统的利用机器(鼠标、键盘)进行交互。目前,人们正需要研发以人为中心进行计算机交互控制。本文正是基于这一点,利用Open CV提供的各种图像处理算法,将从数学摄像头采集图像视频信息,通过灰度图处理,转化为计算机能识别的二进制图像信息,再对二值化图像进行图像滤波、分割,提取到手型后对其进行轮廓特征分析。

关键词:图像滤波,特征提取,手势分析,OpenCV

参考文献

[1]Gray Bradski&Adrian Kaebler.Learning Opencv[M].北京:清华大学出版社,2009.

[2][美]Richard O.Duda&Peter E.Hart模式识别[M].北京:机械工业出版社,2003.

[3].Milan Sonka&Vaclav Hlavac图像处理分析与机器视觉[M].北京:人民邮电出版社,2003.

[4][美]Donald Hearn&M.Pauline Baker Computer Graphics with Open GL[M].北京:电子工业出版社,2008

[5][美]Tome M.Mitchell机器学习[M].北京:机械工业出版社,2003.

[6]路凯,李小坚.手势识别研究概述[J].西安文理学院学报:自然科学版,2006,9(02):93-96.

[7]冯志全.运动人手的三维跟踪方法研究[D].山东:山东大学计算机科学与技术学院,2006.

[8]ALI E,GEOGREB,MIRCEAN,etal.Visionbased hand pose estimation:a review[J].Computer Vision and Image Understanding,2007(08):52-73.

上一篇:自适应路由优化下一篇:大气细颗粒物