图像和视觉

2024-08-11

图像和视觉（共10篇）

图像和视觉篇1

1.引言

继《多模态与体裁》(Multimodality and Genre)(2008)与《多模态电影分析》(Multimodal Film Analysis)(2012) 之后 ,德国不莱梅大学应用英语语言学教授John A.Bateman于2014年隆重推出了由劳特利奇出版社出版的学术巨著《文本与图像:视觉和言语划界的批评性导论》(Text and Image: A critical introduction to the visual/verbal divide.)。该书从社会符号、视觉交际、话语的心理语言学方法、广告和视觉劝说及认知隐喻理论等多维视角,探讨了文本与图像关系的各种多模态分析方法,为英语语言和语言学、媒体传播学、视觉设计等研究提供了理论借鉴。

2.主要内容

全书共分三个部分,每个部分又分成不同的模块和单元。

第一部分是建立文本和图像的联系。这一部分由模块一及两个单元组成。在第1单元中,作者从多模态性和“意义增值”的关系出发,寻找建立文本与图像联系的基础。作者指出,文本和图像既非完全相似,又非截然不同,将文本和图像结合起来,可使两者在相似中融合、在差异中增值,从而建立两者之间的兼容和对话。为此,作者提出了构成全书基础的图文关系整体观,认为“文本和图像是一个二维及静态特质组成的合成体。在这个合成体中,文本和图像既是视觉实例,又是意图的共现”(P.28)。在第2单元中,作者以文本—图像结合所产生的意义类型为出发点, 对文本与图像关系的研究进行了理论回顾。作者发现,自罗兰·巴特(Roland Barthes)将文本—图像关系划分为锚定、说明和传递这三种关系以来,文本—图像关系开始进入学术研究的领域。其中,系统功能语言学及其纯理功能思想正式确定了文本—图像的多模态意义建构关系,使视觉模式具备了语言的性质, 也为视觉语法的建立奠定了理论基础。

第二部分聚焦视觉语境,探究在不同视觉语境中,文本—图像关系在实现多模态语篇的叙事功能(模块二)和劝说功能(模块三)中的途径与方法。模块二的主题是视觉叙事,包括第3-5单元。在第3单元中 ,作者引入了叙事学和语类两大理论框架,作为视觉叙事的理论基础。作者发现,聚焦、时间顺序和叙事角度等基本的语言叙事策略,可以拓展到非语言的模态。同样,不同语类的会呈现出独特的语言特征,语类所表现的语言特性同样适用于视觉模态。第4单元和第5单元分别聚焦儿童图画书和漫画。作为视觉叙事的两大典型语类,图画书和漫画存在许多相似点,作者对二者做了详细的区分,二者之间在图文的相对位置、距离,时间顺序的表现,以及同一页面图像数量等方面存在不同。作者认为,这些不同点会直接影响图文关系。在第4单元中,作者首先对儿童图画书语类涉及的实证和理论研究进行梳理, 然后概括总结出儿童图画书这一语类中存在的图文关系的类型、可靠判断组合关系的标准, 以及文本—图像关系对整体意义建构的作用(P.73)。在第5单元中,作者回顾了针对漫画语类的研究, 介绍了Neil Cohn和ThierryGroensteen两位学者的研究成果 ,并详述了前者提出的内在关系、相邻关系、独立关系、浮现关系四种图文关系(P.107)。

模块三是视觉劝说,包括视觉修辞(第6单元)和视觉劝说与广告(第7单元)。在第6单元中,作者首先介绍了传统修辞分类(包括结构性修辞与转义性修辞两大类),然后对现有修辞研究进行了梳理和总结, 发现传统语言修辞逐渐扩展到视觉材料和语言—图像组合的分析中。作者认为以修辞概念为基础的文本—图像关系分类,在可靠性、关系识别和分类效果方面还有待进一步验证。第7单元是第6单元的延伸,即以广告语篇中视觉修辞的实证研究为基础, 验证了将传统的修辞概念应用于视觉材料和图文组合分析的可行性与效果。

第三部分涉及具体图文关系的理论框架,由模块四和模块五组成。模块四包括第8-11单元,主要侧重建立语言系统框架下,以语法层面、语篇层面、修辞层面为核心的图文关系理论框架。第8单元侧重多模态衔接和图文关系。作者介绍了现有以衔接理论为基础建立的多模态图文关系框架,如基于页面的符际互补框架。这些框架虽然在概念意义层面肯定了图像和文本之间存在着类似于语言实体之间的关系, 如重复、同义、反义、部分—整体和上下义搭配关系,但作者认为这些多模态衔接框架还存在诸多问题,譬如何识别并说明多模态衔接关系、假定的衔接关系和读者的理解过程是否一致、归纳出的衔接关系或图文关系对解读多模态意义的作用等。在第9单元中,作者基于现有的多模态隐喻研究,认为隐喻有能够连接不同领域的功能(如从源域向目标域进行属性转移),非常适用于解释信息在不同模态间流动的运作机制。鉴于隐喻和合成 (Blending) 是既有联系又有区别的两种概念,即前者具备定向属性转移且过程不可逆的特质,后者是可逆的。因此,作者认为多模态隐喻理论有助于理清多种模态结合后意义得到增值的原理,有助于说明图像和文本关系在意义建构过程中作用。第10单元是语法层面的图文关系建构。本章中,作者首先综述了前人依据系统功能语法中的及物性和小句关系建立的图文关系框架,认为此框架优点在于分类标准明确、体系具有封闭性。尽管如此,该框架也存在难以确定分析单位、忽视布局对多模态意义建构的影响、没能涵盖所有的图文关系等不足, 并提出了针对性的建议和设想。第11单元从语篇层面对图文关系进行了解读。鉴于语言不是实现交际目标的唯一方式,语篇的不同成分如连接关系和修辞结构等可以共同作用, 推动语篇实现特定的交际目标。随后作者介绍了以连接关系为基础的图文关系分类,以及多模态修辞结构理论 (Rhetorical Structure Theory) 语篇分析法。但是作者认为前者面临划分标准不够精确和实证研究数据不足的问题;后者也面临一些挑战,譬如修辞结构分类多大程度上可以解释图文关系,RST分析方法针对的是线性符号模态 (如文本 ),对于非线性、空间性的符号模态 (如图像)的适用性问题等。

模块5包括第12-14单元。第12单元从语用学和交往行为角度考察了文本—图像关系的建构。作者发现从语言的角度研究视觉表征或图文关系面临诸多挑战, 主要原因是由于图文关系缺少像句法、音系学、语音学这样具体明确的分析单位,也很难识别抽象的、脱离语境的形式特征。因此,研究从纯语言系统层面向语用学、视觉交际方向转向,更有利于关注图像的使用,而非图像的形式,从而有效弥补语言系统解读图文关系的不足。语用学能够有效解决多模态语篇中的图片关系类型;交际行为能够解决图文关系(即多模态交流)以外受众的接受过程。在第13单元中,作者介绍了探究图文关系所用到的实证研究方法,如眼球追踪技术(Eye-tracking methods)和语料库方法。前者可以用来探索读者对图文材料实际理解和接受过程, 后者可以以大量实际数据为基础检测图文关系分类的信度和准确性。在第14单元中,作者总结了今后还有待研究的领域并提出了建议。

3.简评

本书有以下几个方面的特点:

第一, 视角的广泛性。该书涉及的内容涵盖了社会符号学、视觉传播学、修辞学(针对广告和视觉劝说)、认知心理学(隐喻 )等诸多方面。多模态分析对象种类多样 ,包括广告语篇、儿童图画书、漫画、新闻语篇、教科书,等等。作者将多模态文本—图文关系置于广泛的背景之下, 有助于读者形成对图文关系全方位的认识, 对从事多模态研究的学者来说是必不可少的参考书。

第二,内容的系统性。首先,内容全面完善,本书是一部聚焦图文关系的综述类文献, 作者多学科多角度地介绍了现阶段国外图文关系的框架和模型, 共介绍了Barthes、Kloepfer、North、Pegg、Spiller Mc Quarrie &Mick、Van Mulken、Groupe Mu、Forceville、Phillip & Mc Qarrie、Martinec & Salway、Unsworth、Kong、van Leeuwen等二十余位该领域领衔学者对于多模态研究中图文关系的论述,他们从各自的研究兴趣和关注点出发,探索文本和图像在多模态整体意义建构中的作用, 寻求多模态意义倍增的运作机制。这些学者的研究一定程度上可以代表和反映现阶段国外图文关系研究的水平和进度, 研究中存在的问题和不足之处都是国内外多模态研究者未来努力的方向。其次,内容系统连贯。本书并不是简单罗列各位学者的理论,而是采用“理论基础导入—学者研究成果介绍—评述”的方式,对他们提出的图文关系分类追根溯源,从理论角度论述这些图文关系框架的分类依据, 如在介绍基于页面的符际互补框架时,作者先简要阐述衔接理论的关键点,从而清晰地展示从语言向图像—文本结合的推导过程。同时,作者比较各个图文关系框架的异同点, 如对现有研究者的图文关系的分类进行了标注、解释和说明,为正确把握文本—图像关系关系及其发展提供了清晰的脉络。

第三,理论的前瞻性。作者对各个理论框架的评述,对今后图文关系的研究具有启发和借鉴意义。在评估各个图文关系分类时, 作者反复强调对图文关系的探究要注意以下五个方面:

(1)分析单位 (Unit)的识别和确定问题。语言的分析单元容易确定, 但是图像的最小分析单位到目前为止没有精确的划分标准。如采用“视觉语法”解读图像意义,其方法是分解图像,提取出视觉信息元素,然后和文本进行意义匹配,从而确定图像—文本的关系。这种做法的弊端在于如果缺少对文本的理解,分析者就不可能提前锁定某些视觉信息元素。也就是说,正因为图像和文本之间存在互动,才使得一些视觉信息元素必须得以重视。

(2)重视布局 (Layout)对图文关系的影响。布局是视觉设计或页面组织的重要组成部分,对文本的理解有很大的影响,但是在图文关系探究中经常被忽略。Pegg(2002)的图文关系分类就强调了页面的布局和构成对图文关系的影响。

(3)图文关系分类标准的准确性有待提高。图文关系分类容易存在不详尽和有重叠的问题。比如Barthes(1977)提出基本的图文关系只有三种,分类未免过于简单,不能涵盖所有图文关系;Marsh和White(2003)的图文关系分类包含三层,第一层分为三大类,三大类再细化为11种关系,11种关系又可以区分成30种分类,如此分类虽然很详细,但难免会有所重叠。精准的分类标准有助于不同的分析者在使用同一种图文关系分类框架时得到相同的结论, 从而增强图文关系框架的内部信度。

(4)根据语类探究图文关系。Bateman(2008:147)指出不同语类的语篇不能用同一种图文关系解释。比如漫画书和广告语篇分别实现叙事和劝说两大功能, 图文关系在实现这两大语类功能时发挥的作用不同, 存在的图文关系也会有所差别。归纳出同一语类图文关系的普遍模式,有利于比较不同语类在建构多模态意义时所使用策略的异同。

(5)利用实证研究增强分类的科学性。研究者在对图文关系归纳时, 如果主观判断读者对于多模态文本的理解过程和结果,缺少实际数据的支撑,这样的分类框架就有待进一步实证研究的验证和改善。开展大量的实证研究得出的结论很可能会与理论推导出的结果不同,例如Holsanova等人(2006)在利用眼球追踪技术探究读者对图文并置的新闻语篇的理解过程时发现,根本不存在从左到右,从上到下的阅读路径(Reading path),读者阅读时会跳过某些图片 ,而在“视觉语法”中 ,理解图像构图意义的方式之一是通过判断各元素在图像中占据不同的位置,左边的代表已知信息,右边的代表新信息,上方的代表理想的信息,下方的代表真实的信息。

当然,本书还存在一些不足和局限性。首先,本书将研究对象———图文关系做了严格的范围限定, 必须满足三个条件要素: 视觉共存、二维平面及有意被放置在一起共同建构意义。这样就排除了许多其他种类的组合关系, 比如口语与图像、三维的图像文本组合。还有一些在范围内但没有涉及的领域,如新闻照片和文字标题的关系、网页中的图文关系等。这些没有涉及的模态间关系都值得今后进一步研究。其次,本书更多关注对各个图文关系分类的理论阐述和评估、异同点比较,缺少在实际案例中的运用。虽然给读者展现了多种多样的图文关系分类框架, 但是在多模态语篇分析的实际操作层面的指导相对较少,难免给分析者造成困惑。最后,本书可以用作反映多模态意义建构的教材, 教材与其他理论著作在体例上有所不同,优点是具有可读性,便于理解,但是正因为如此,对书中涉及的理论框架的阐述的深度就会有所减损。

总体来说,本书聚焦图文关系,以清晰合理的结构安排、简洁易懂的语言向读者展示了现阶段国外在该领域的研究成果, 它的出版对今后多模态研究中的模态间相互关系探究有很多借鉴和启发,是多模态研究中的一本重要的参考资料。

图像和视觉篇2

关键词：视觉图像神经图像纠错教学法

【中图分类号】TP391.4

1 引言

体育教学过程中面对出现的错误技术动作一直赖以语言文字来表达纠正，而对视觉图像传导神经图像循环纠错教学法采用的很少，人们只是把图像看其直观性与愉悦性的地位。即使在影像和多媒体技术高速发达的今天，图像已经成为传递信息的主要载体，我们还是无法从观念、意识上真正转过弯来。视觉图像是对表象的动作直观复制，因此与可观世界间的关系似乎更单纯，抽象的书写语言则在进行逻辑性分析方面更胜一筹，是一种对世界的提炼，却天生不能做到具象，是对形象记忆的招回。[1]神经图像是视觉图像的基础上神经生长有作用的因子，促进大脑的学习和记忆所呈现的图像。[2]两者都属于心理学实验范畴。所谓心理实验是指在严密控制的条件下，有组织地逐次变化条件，对相伴随的心理现象的变化进行现象记录和测定，从而确定条件与心理现象之间的关系。通过视觉图像传导神经图像循环记忆教学法，提高体育教学训练的效率，本实验笔者将以排球教学训练进行实验设计。

2 研究现状

目前体育教学训练案例中排球项目的技术动作相关教学方法主要采用示范法、讲解法、分解法等，但是对心理学方面的知识在技术中应用的甚少。关于心理学的相关教学主要应用在运动员比赛场上的心理变化上，本实验主要针对于排球教学中垫球技術——传球技术——发球技术三个环节的教学训练进行心理实验设计。

3 实验对象与方法

3.1 实验对象

本文选取西安市曲江第一中学排球队队员与排球校本课程共39名同学为实验对象，23名参加排球校本课程同学为对照组采用常规训练法，16名校排球队队员为实验组采用视觉图像传导神经图像循环记忆纠错心理学实验法。进行实验对比研究。

3.2 实验方法

在观察、调查以及测量的基础上，在一定的情境对研究的西安市曲江第一中学排球队员与参加校本课程同学掌握技术的变量进行操作和控制，进而揭示通过图像记忆的的原因给技术动作掌握的研究方法。

4实验过程

4.1 研究依据

德国心理学家艾宾浩斯对记忆和以往现象进行了系统的研究。一项通过动作图像的实验研究得出复制动作图像的误差随循环的时间与潜存间隔时间的延长复制的准确性与复制前练习次数呈正相关。[3]人类记忆和思维最主要方式是表象，表象是人脑对过去感知过的事物形象的反映。而运动表象是在运动感知的基础上，在大脑中重现的动作形象或运动情境，反映出视觉图像传导神经图像的循环记忆的原理。通过以下四种方式反映测试者掌握技术动作的能力。

4.1.1 内部表象

内部表象是第一人的视角，它是在外部动觉条件下给观察者呈现出的真实知觉。[4]通过实验组采用观察教师垫球、传球、发球的动作示范，观察者通过内部表象所呈现出的动作在大脑中的记忆进行自主练习，进而加深动作的记忆助于纠错教学。表明了内部表象有助于操作的表现。

4.1.2 模仿表象

在教学过程中，教师将技术分解动作与连贯动作进行示范，针对实验组只示范不讲解，而对照组进行讲解与示范相结合。发现实验组学生加深动作记忆，并出现个别动作的错误呈现，再通过循环示范让实验组同学发现错误并改正。

4.1.3 情境表象

采用情景表象时，教师根据垫球技术、传球技术、发球技术所呈现出的情景，创设出形象鲜明的投影图画片及视频，辅助生动的语言文字，并借助场景语言表达与音乐的艺术感染力，再现技术教学所呈现的的情景表象，使实验组学生如闻其声，身临其境，仿佛置身其中；师生就这此情景中进行一中情景交融的教学活动。培养学生启迪思维，发展想象，开发智力等方面确有独到之处。

4.1.4 表象的个体差异

不同的个体视觉表象的质量和眼动特征都具有很大的差异性，具体表现在四个方面：1、表象的个体差异在知觉、记忆、思维。2、表象的个体差异在发展水平的差异，主要表现在智力能力、体质能力、情绪能力上。表象的个体差异表现在早晚差异，典型的例子就是“人才早熟”和“大器晚成”。4、表象的个体差异在性别的差异和年龄的差异。在实验组成员中采用视觉图像传导神经图像循环记忆法中，不用的观察者、不同的体质、情绪状态、不同性别都呈现出不同的差异。

4.2 研究假设

垫球技术——传球技术——发球技术三个环节的教学训练中，运用视觉图像传导神经图像循环记忆教学法方法进行练习与常规教学练习方法效果进行对比。

4.3 实验设计

排球垫球技术——传球技术——发球技术三环节的教学训练组数为20次（前9次为第一阶段，后11次为第二阶段）。对实验组实施视觉图像传导神经图像循环记忆教学法训练，对对照组进行常规训练。

研究采用垫球技术——传球技术——发球技术效果指标（针对扣球效果和垫球的成功的次数为指标）。实验前对两组测试者均参加初测试；第一阶段结束后，进行阶段测试；第二阶段测试结束后进行终测。然后分别对初测结果、终测结果进行组间比较；分别对两项指标的初测与终测结果进行组内前后比较。

5 结论与建议

本文通过采用视觉图像传导神经图像循环记忆纠错教学法，打破了传统的教学模式，改变了以教师为主体的教学观念。以响应当前新课标要求，以学生为主体，教师为传授知识的引路者。本研究得到的主要研究结论如下：1 在视觉图像传导神经图像循环记忆纠错教学法采用内部表象训练更好的促进技术动作形成且效果优于教师讲解法。2 在视觉图像传导神经图像循环记忆纠错教学法中应用模仿表象更好的让学生掌握技术动作并加深理解与记忆。3 在视觉图像传导神经图像循环记忆纠错教学法采用情景表象让学生能更直观形象的发现自身的动作错误与关键点。4 视觉图像传导神经图像循环记忆纠错教学法同样存在个体学习的差异性，但整体的教学效果优于常规纠错教学法。

参考文献：

图像和视觉篇3

关键词：图像学,潘诺夫斯基,视觉图像

对“图像”一词概念的理解, 离不开各个历史阶段对图像学的认知和运用, 早期的图像指的是各类图形的形象意义;接着是贡布里希为图像增加的新观念, 他认为对图像内容的研究也应包括图像作者的实际意图, 因此“图像”由“艺术”转型为“文化”, 这种发展植根于现代科技的发达, 因此现代图像学已不再像传统图像学那样去简单地批判艺术的形式主义了。

1. 概念

图像学 (iconology) 由图像志 (iconography) 发展而来。图像志一词来自希腊语εικωυ (图像) , 在古希腊曾专指对图像的精鉴, 20世纪发展为关于视觉艺术的主题的全面描述研究。图像志后缀graphy包括某些描述性的内涵。图像学iconology的词尾logy有思想和理性的意思, 它研究绘画主题的传统、意义及与其他文化发展的联系。

潘诺夫斯基对于“图像志”与“图像学”概念的内涵进行了界定, 并对图像学方法的运用作了详细的介绍。他指出, 图像志是艺术史的一个分支, 它关心的是与艺术作品的形式相对的作品的题材或意义。具体说来是:“图像志”暗示着一种纯描述性的, 而且常常是资料统计式的方法。因此图像志是对图像的描述和分类。图像志是一种有局限性的、辅助性的研究, 它能够告诉我们一些特定的题材是在什么时候、什么地方通过特殊的母题被形象地表现出来的, 是对形象的描绘和分类。而图像学是一种带有解释性的图像志, 是艺术研究中不可分割的一部分, 是一种从综合而不是从分析中发展而来的解释性方法。与图像志比较, 图像学更强调对图像的理性分析。

2. 形成与发展

图像学源于19世纪在欧洲美术史研究领域里发展起来的图像志研究, 早期的图像志研究基本都是宗教内容的, 进入20世纪后图像志的研究领域不断扩展, 与其他学科的联系日益密切, 进而发展成为一种蓄势取代传统艺术史研究方法的新方法:图像学。19世纪下半叶历史科学的普遍高涨给图像志研究的发展施加了强有力的影响。到20世纪上半叶, 图像学的典型代表人物潘诺夫斯基出现了。

3. 视觉图像的含义和价值

图像文化是人们在社会活动中留下的原始历史纪录, 具有丰富的文化内涵。它记录和反映着人类社会发展一定阶段上的物质文化和精神文化成就。图像文化涉及科技、教育、文学、艺术、风俗、民族、生活方式等诸多文化领域。图像具有原始记录性这一本质属性;由此派生出图像所具有的保存备查属性。由于图像是人类社会活动的一种历史纪录, 因此, 它本身反映出人类文化的基本特性, 在文化传承中起重要作用。首先, 必须对文化的传承必须有个传道授业解惑的过程。其次, 才是承载社会文化、人文风俗、历史内容与含义等等。

3.1 传道、授业、解惑

键。为了避免留白重复, 我会添加肆意开放的牡丹团花, 或是变形的祥云, 希望增强留白的样式感, 使得可以在不失真实感的情况下给人以美的感受。

我在进行创作的过程中, 越发意识到留白的追求是高级的、不容易做到的, 留白的形式美作为一种视觉诱惑更不易轻易达到, 这需要我不断地去训练、摸索, 在长期的实践和锻炼中,

明代崇祯十年宋应星所著的《天工开物》, 较全面、系统地记述了我国古代农业和手工业的生产技术与经验, 书中附有大量的插图与文字珠连壁合, 详明完备, 具有重要的科学价值。李时珍《本草纲目》——收辑药物1892种, 附1100多幅药物形态实图, 内容极为十富, 系统地总结了我国16世纪以前的药物学知识和经验, 是我国药物学、植物学等的宝贵遗产, 对我国药物学的发展起着重大作用。李械《营造法式》——北宋后期于哲宗元符三年, 全面系统地总结当时建筑技术发展状况和经验的一书。作者曾任将作监 (负责宫庙工程修建的中央长官) 13年, 在他之前北宋已编成《元祜法式》。因而本书是在认真总结前人成果的同时, 应用作者自己丰富实践经验写成的一部巨著。读者可以以图证文、依图施工。《营造法式》一书不但是我国古代最全面最科学的设计规范和施工手册, 而且也是世界上最早最完备的建筑大全。

3.2 承载社会文化、人文风俗、历史内容与含义

“喜上眉梢”——喜鹊自古有嘉瑞之誉。五代-王人裕《开元天宝遗事-卷四》:“时人之家, 闻喜鹊声着, 皆为喜兆, 故谓‘喜鹊报喜’。”民间多以喜鹊喻喜庆之事, “梅”与“眉”同音, 故又作“喜上眉梢”, 言人逢喜事, 神情洋溢。又有喜鹊、红梅、爆竹做一处着, 则为“早春报喜”“喜报春光”。“麻姑献寿”——麻姑为传说中的仙女, 传说中, 麻姑是“年十八九许”的女子, 曾见东海三变桑田, 极言长寿。葛稚川《神仙传》已记其事迹;唐-颜真卿有《麻姑仙坛记》正书碑帖传世。宋代著名画绣《瑶台跨鹤图》即最早用刺绣表现麻姑的先例。民间风俗, 为女性祝寿, 多取麻姑与八仙为题。“百鸟朝凤”——“凤”是传说中的瑞鸟, 居百鸟之长, 俗称“鸟王”。古谓凤凰见则天下安宁。晋-张华《禽经》说:“鸟之属三百六十, 凤为之长;又, 飞则群鸟从;出则王政平, 国有道。”百鸟朝凤名目, 以凤比明君威德, 以百鸟象征群臣辅弼。尤言君臣有序, 和顺相能, 江山社稷即可太平祥瑞, 安宁富强。“百鸟朝凤”又名“凤仪图”。

这些纹样的出现, 都是运用象征手法的结果, 象征祝福、赞美、避邪、纳祥的命题, 已经构成中国传统图案的内涵特征, 也表达了古人对美好生活的向往和寄托。这些图像让我们到现在还能欣赏和品位这些意犹未尽的图案。这不得不归功于图像的承载功能。同样, 在现代, 我们有了图像学的手段, 就更加能够理解和运用这些图案。

4. 结语

“图像学”是现代视觉艺术研究、实践探索中极其重要的一个理论学科, 现在已成为一种全新的艺术史和艺术学的研究方法。有了这种方法, 我们在艺术史的回顾过程中才能把问题秩序化、理性化。正如贡布里希的主张, 我们应该了解艺术创作的全部真相, 以此作为艺术学的立论基础, 而艺术创作亦决不是孤立于社会文化之外的独行者。因此, 图像学正是这样一项融合艺术创作与整体社会文化于一体, 并力图寻求创作全部真相的工作。

视觉文化视角的广告图像传播研究篇4

【关键词】视觉文化;图像传播;广告

【作者单位】高颖，景德镇学院。

一、广告图像传播的历史演变：媒介技术的变革与视觉体验的变迁

广告图像传播的历史演变过程中，媒介一直扮演着十分重要的角色。古代的广告形式虽在一定程度丰富了广告图像传播的手段，但从视觉体验来看并未有大的改变。真正影响视觉体验变迁的是具有科技含量的现代化媒介，其中报纸、摄影、电视和网络对视觉体验的影响最大。

报纸作为一种大众媒介，其初期视觉体验的原理与传统的书籍、宣传册等基本相似。在报纸广告的发展历史中，值得关注的是插图的引入，尤其是手绘插图和摄影插图的引入。将图像引入报纸广告实现了报纸的图文结合。

摄影作为一种技术在广告图像的传播过程中起到了至关重要的作用。摄影能准确地将某一个瞬间的事物或景象记录下来，与真实事物之间可以达到高度的相似性，这是摄影术的本质特点，更重要的是，摄影术改变了我们的观看方式。照相机改变了原有的透视法的视觉原理：以观者为中心建构的一种视觉认知模式。“照相机的发明改变了人们观看事物的方式。他们眼中的事物逐渐有了新的含义。”这种视觉体验使人们关注的焦点开始从宏观走向微观。如果说早期的广告摄影比较客观的话，那么现代的广告摄影所产生的图像就是一种主观意愿的表达。电视广告的安排具有混乱性和穿插性，使电视呈现的图像具有碎片化的特征。电视的观看方式是以快速浏览的方式进行的。从观看情态来看，看电视的过程往往具有多样性和复杂性。

网络以及社交媒体的发展对广告图像传播的影响，使广告图像传播呈现较强的综合性、互动性以及参与性。受众的视觉体验已经从较为单一的媒介转为在不同媒介之间的转换。

二、广告图像传播的历史性动因考察

1.媒介以及技术的变迁推动着广告图像的发展

从表象上看，每一次媒介形式的变迁好像都推动着广告图像传播能力的发展。从近代平面设计发展来看，其源头来源石版画技术的发明。到了19世纪，石板印刷技术凭借其容易复制的优势得到了广泛的传播。19世纪末期出现的海报招贴设计成为宣传和促进商品销售的一种重要工具，此后海报设计成为平面广告图像传播的主要方式。

1925年贝尔德发明了电视机，1939年美国RCA推出了世界上第一台黑白电视机。1941年在道奇队与菲利斯队的一场棒球比赛电视直播间隙，布鲁瓦钟表公司花了9美元播放了历史上第一条正式的电视广告——20秒的马表画面。 1948年Ajax洗洁灵成为第一则有声广告。在现代媒介发展方面，每一种新媒介发明出来不久就成为广告图像传播的新形式。广告作为一种商业推广的手段，利用新的媒介技术给予观众新的视觉体验，可以促进企业在营销中占据竞争优势，因此广告图像传播的快速发展既与媒介紧密相连，也与广告业的积极采纳具有直接的关系。

2.广告对其他领域图像的借用

从广告图像的表现形式来看，广告是一种具有极强吸纳性的事物。对其他领域内容、符号、素材的借用是其惯用的手法。从效果来看，其丰富了广告表现的内容;从原因来看，其更多源于广告图像设计对创意性的要求。在广告设计以及传播中，广告对艺术方面的借用成为创新的主要表现点。比如马格利特是一位超现实主义的画家，其代表性作品有《这不是一支烟斗》等，英国Benson and Hdeges广告公司将其作品的表现手法运用于其广告作品之中。广告是作为一种视觉传达信息以实现其营销目的的艺术，必须引起消费者的关注。为了吸引消费者的关注并满足他们求新求奇的审美心理，广告在设计时往往借用了其他领域作品的符号元素或者现实生活中的素材作为基本加工材料。广告图像的传播可以看作对借用的原始素材的重新设计。比如，在西方近代的广告海报中经常出现自由女神、埃菲尔铁塔等众所周知的事物。随着媒介的进一步多样化，借用的东西变得越来越普及。比如迪塞尔的服装广告作品《现代会议的诞生》就借用了1945年雅尔塔会议丘吉尔、罗斯福和斯大林合影的照片，还在其中增加了几位美女与三巨头之间的亲密关系，消解了其原有的政治意义。广告通过对其他领域图像的不断借用，才保证了其行业源源不断的创意与新的作品，当然也在一定程度上推动了广告图像传播的广泛传播。广告图像传播的图像不仅是简单的图像符号，更包含着文化层面的含义，促进了广告图像文化的繁荣。

3.消费者需求的变迁是推动广告图像传播发展的根本动因

媒介以及相关技术的变革为广告图像传播提供了技术性支持，为广告图像传播提供了丰富的素材。然而，真正推动广告图像传播发展的却是消费者消费理念的变迁，换而言之是人的消费需求。广告传播作为一种商业性艺术，广告公司的设计师必须要将满足消费者的需求，作为其广告创意设计的出发点和立足点。消费者的需求可以简单分为物质性需求和精神性需求。设计物的功能，满足的是物质性需求;设计物的形式，是满足其精神性需求。广告从传播角度来看必须符合视觉传播的规律，满足消费者“看”的需要。随着商品的同质化问题的产生，附着在商品之上的精神性才成为广告传播的关键。求马斯洛认为，人的需求是有层次的，并且有高级需要和低级需要。他将需要分为五个层次：生理需要、安全需要、社交需要、自尊和自我价值实现。由于物质的极大富裕，在满足了人们以较低的生理需要和安全需要层次以后，社交需要成为人们的主要需求。这种需求从性质上来讲更多属于精神性需求。精神性需求的满足主要取决于作品的形式要素。商品的有用性退居次要位置，商品的意义价值成为营销的重点。广告的功能从早期的告知转变为劝服，这正是为了适应消费者需求的变迁。广告图像传播中的图像也渐渐从客观真实的图像展示演变成意义构建、欲望营造的图像。

三、广告图像传播的视觉文化解读——以2008中国国家形象片《幸福篇》为例

2008年，国务院新闻办公室曾策划和制作了一部由梅高广告参与制作的30 秒国家形象片《幸福篇》，并在CNN、BBC等海外主流媒体播出。此广告片与之后的《角度篇》《人物篇》相比，很多人并不知道它的存在。这则广告与别的广告的最大区别，在于没有明星的参与，没有宏大的叙事，没有旁白，文字也很少，它单纯依靠图像自身的力量来传播其背后的意图，但每一个镜头的背后都有值得我们深思的东西。

第一个镜头是一扇古老大门的打开，可以引申为中国的国门打开，也可以理解为国家的对外开放和交流。接着一群儿童跑上台阶、拿着风筝跑上城墙，年轻的儿童与悠久的历史之间形成强烈的对比。镜头切换到传统的江南水乡，流水的船上站着一对身着传统婚礼服装的新娘、新郎正幸福地对望（拍摄地乌镇）。一辆轿车载着一对身着现代婚礼服装的新婚夫妇穿行在一座现代化的大桥上。一扇窗打开，外面是江南的水乡，代表着传统的生活，接着切换到现代都市，三个穿着摩登的女性出现在摩天大楼的前面。镜头开始放远，看到一条江，东方明珠的出现，显而易见是黄浦江，上海。这些镜头都代表着现代都市的生活。传统与现代是这些镜头背后的思想。一组组的镜头表现出我国是一个具有悠久的历史文化传统，又具有现代都市文明的国家，在现代化的发展过程中人们享受着美好的生活。

接下来出现的镜头里，戏曲服装演员的表演、街舞表、少林功夫的表演都具有强烈的象征意义，其代表着传统、现代文化的并存，代表着文化的包容。然后镜头切换到放风筝的儿童的正面、现代婚礼新婚夫妇的正面，这表现的是与最开头镜头的呼应。身着民族服装的少数民族女性的出场与泼水节则代表着少数民族的在场与幸福，点着火柴的小男孩与红灯笼寓意着红红火火的期盼，心形烛光的出现代表着爱心。结尾出现中国书法的“CHINA”属于总结性的镜头。整个影视广告的基调是含蓄、内敛。这些视觉符号的选择以及镜头之间的逻辑联系包含着一个隐藏的叙事者，通过镜头的画面叙事传达了该影视广告片的目的。对这一影视广告文本的解读，可以看出其中的文化思维。文化的差异性对同一视觉符号的编码和解码的方式是不同的。因此，要理解广告图像传播的意义必须要将其置于视觉文化的范畴来思考。

[1][美]尼克拉斯·米尔佐夫. 视觉文化导论[M]. 南京：江苏人民出版社，2006.

[2][日]白石和也. 视觉传达设计史[M]. 北京：机械工业出版社，2010.

图像主因时代的视觉传达设计篇5

科学技术的进步和社会物质消费的发展刺激和影响着视觉传达设计。所谓视觉传达设计是以图形图像为主要元素进行信息传达的设计, 包括包装设计、样本设计、广告设计、展示设计等, 它是促进消费和商品流通的重要方式。真正意义上的现代设计是从19世纪开始的, 德国包豪斯奠定了现代艺术设计的基石, 其“功能决定形式”的设计理念主导了19世纪上半叶世界设计风格的格局。这种设计理念在生产力相对不发达的工业时代对经济文化的发展起过积极作用, 但随着生产力的发展, 以生产为导向的经济模式逐渐转变为以消费为导向的经济模式, 单一的设计形式很难适应新时代的需求。社会物质生产的极大丰富和市场的细分必然要求当代视觉传达设计更加注重受众的心理需求, 不能遵循先验的设计规则。

当代数字技术和新媒体的出现也拓展了视觉传达设计的领域, 设计不再囿于传统的静态二维平面表现, 成为具有丰富内涵和创造力的全新设计形态。视觉图像的大量生产和传播使人们生活在一个前所未有的视觉图像极大丰裕的时代, 图像已经成为人们生活的重要组成部分。然而, 图像的大规模流通, 尤其是人工化、程式化的视觉图像的大量出现往往会引起人们的冷漠和拒斥, 反而产生出逃离这种视觉环境的心理冲动。图像主因的时代, 受众对于视觉对象提出了更为苛刻的要求, 这就必然要求当代视觉传达设计师在设计理念和表现手法上要顺应时代的变化, 探索符合时代潮流的视觉传达之道。

一、多媒体技术的运用

当代数字技术的发展对视觉传达设计的影响是全方位的。电脑软件和硬件技术的日新月异改变了设计的模式, 设计师不再局限于传统的设计表现技法和材料, 设计更加呈现出立体化、动态化、交互式的特性, 多媒体的声、光、色给人强烈而丰富的视觉感受是传统印刷设计所不具备的。随着设计形态变得越来越复杂精致, 人们对于视觉对象的要求也越来越高。在图像主因的时代, 传统单一的设计形态很难吸引受众的注意, 设计师往往综合运用多种媒体进行传达, 调动受众的各种感官体验参与视觉信息的接收。

2000年汉诺威世博会的标志, 就充分运用数字技术创造了一个动态的变幻不定的造型, 它可以根据不同的环境改变色彩和结构, 被认为是“会呼吸的标志”。它改变了传统标志平面、静态的特点, 充分展现了数字技术在品牌标识设计中运用的巨大潜力。著名广告公司BBDO为美国HBO电视台设计的广告项目也充分利用了现代媒体的力量。在宣传剧集《偷窥者》的过程中, BBDO运用了交互式网站、巨型投影、电影艺术等多种数字媒体。其别具特色的户外广告是利用停车场旁边的一堵超大的墙面来播放高解析电影。许多行人都被这种新奇的广告方式所吸引, 并长时间驻足观看。这种动态化、立体化和空间化的设计使受众的观看方式从“静观”转向“震惊”, 它所带来的体验和感受是传统的二维平面设计所不能够给予的[2]。

二、情感化的诉求方式

长久以来视觉传达设计遵循包豪斯提出的“形式服从功能”的观点, 强调设计的功能性, 在很大程度上忽视了受众的情感需求, 所以近些年来更多学者提出“功能服从体验”或“功能服从需求”的人性化设计。然而不论是形式服从功能还是设计服从于人的需求和体验都不能过于极端——如果片面地追求功能, 设计就会陷入僵化和教条, 失去设计应有的丰富与生动;如果纯粹以人或人的需求和体验为目的, 设计便会成为无限度满足人类心理和生理功能的工具, 设计便失去了其所应具备的基本道德和伦理规范。优秀的设计是人类情感和意识概念外化的一种表现, 具有丰富的内涵和生命力。在设计过程当中, 只有追求多元的、诗意的、强调视觉交流和互动的设计形态才能改变传统设计给人的情感和精神造成的麻木钝化的状态。

图像主因的时代意味着视觉图像的极大丰富甚至是过剩, 缺乏视觉表现力和情感色彩的视觉作品很难脱颖而出, 实现与受众的交流。情感化的诉求方式要求设计师在设计构思的过程中尊重1受众的情感体验, 创造富有生命力的视觉作品。例如, IBM“智慧的地球” (“smarter planet”) 战略项目的形象推广设计就使用了许多时尚且富有趣味的系列图标, 使原本枯燥沉闷的科技项目变得生动活泼[3]。

三、持续不断地创新

图像主因的时代要求设计师必须不断地创新和突破, 才能使企业品牌的生命力得以延续。我们生活在一个消费物质极度丰裕的时代, 市场的竞争异常激烈和残酷, 新的品牌和新的设计层出不穷。任何商业品牌要想在市场上立于不败之地就必须紧随时代的潮流, 不断设计出新的作品。许多优秀品牌的设计可能在最初赢得了受众的青睐, 但随着时间的流逝会逐渐褪色, 如果不推陈出新, 很快就会被其它的品牌所超越。

世界著名的烈酒品牌ABSOLUT就深谙品牌传播之道, 在其20年的广告和市场营销的过程中不断推出令世人惊奇的广告作品。ABSOLUT的广告模式是以瓶形作为广告创意的基础, 通过各种艺术化的表现手法来呈现其纯净、完美、富有创造力的核心价值, 它的许多广告作品都赢得了克里奥等国际著名广告比赛的奖项。2010年, ABSOLUT在中国推出了限量版的“伏特加——绝对72变” (Absolut 72 Bian) , 就携手中国知名艺术家高瑀打造瓶身并邀著名摄影师陈曼为其设计平面系列广告, “72变”及其四款鸡尾酒在陈曼时尚另类的视觉语言诠释下充满了绮丽迷幻的中国色彩, 完美地演绎了ABSOLUT一贯追求的大胆创新、引领潮流的品牌理念[4]。

四、注重设计的内涵

当代数字影像的生产技术丰富了视觉传达设计的创作手段, 但同时也引发了一些负面的效应。如今, 数字技术的发展使影像的生产变得越来越容易, 各种多媒体设计软件使设计师能够在虚拟的数字空间模拟各种虚幻的场景。这些设计软件的不断更新为各种复杂的超现实视觉语言提供了无限可能。这使得设计师在创作的时候更加倾向于追求复杂的形式, 而对于设计的内涵并没有给予足够的重视。各种夸张的造型表现层出不穷, 而对于设计的目的、意义和概念并没有进行过深入的思考。这种设计很难唤起受众深层次情感上的共鸣, 设计成为对人的视觉神经进行单向度轰炸的机器而缺乏内在的审美意蕴。如今人们生活在高度人工化、虚拟化的视觉环境, 迫切需要具有丰富内涵和独特表现力的视觉图像来满足其精神上的愉悦。缺乏内涵的设计作品是苍白无力的, 无法实现与受众深层次情感上的交流和沟通。

图像主因时代的视觉传达设计应该成为“快感文化”和“智性文化”的结合, 它不仅仅是满足大众审美愉悦的功能性产品, 而且应该成为能够唤起大众智性和创造力的重要力量。如今, 随着视觉传达设计日趋大众化, 原本只属于专业人士的桌面创作和制作工具开始逐步进入普通家庭, 人人都可以根据自己的需求设计图片或制作书籍。在互联网上, 许多平面设计爱好者凭借丰富的网络资源, 设计了众多富有内涵和想象力的设计作品。好的设计必然是对设计对象有着深刻的洞见, 能够唤起人们内在的精神愉悦, 这就要求设计者在创作的过程中不断追求技术理性和人文精神的统一。

五、注重设计的伦理

当代视觉图像数量的极大丰富并不意味着所有视觉图像都是高标准、高质量的。相反, 各种多媒体工具、互联网以及图像、视频制作软件的普及, 在丰富人们创作的同时也为粗俗劣质的视觉图像的传播提供了便利的渠道。各种缺乏情感色彩和审美内蕴的设计充斥着人们的生活, 使人们的精神世界不断异化。当代视觉传达设计作为一种文化形态, 一直在潜移默化地影响着人们的思想观念和生活行为方式。各种品味不高、粗俗色情的视觉图像必然会对社会产生极为恶劣的影响。我们必须反思我们所面临的这种危机, 在视觉图像创作的过程中, 设计的创意和表现内容要遵循社会的伦理道德规范, 寻求设计、人、社会三者之间和谐的发展, 使视觉传达设计成为人们生活中丰富心灵, 提高审美趣味, 激发想象力的重要力量。

图像主因的时代对于专业设计师而言既是机遇也是挑战。平面设计师不仅是视觉文化的主要生产者, 也是公众消费取向和审美趣味的塑造者, 同时也是文化伦理价值和意识形态的塑造者。作为一名设计师必须不断提高自身的专业技能和文化修养, 热爱生活, 才有可能不断从生活中汲取创作的灵感, 创作出优秀的设计作品。

参考文献

[1]周宪.视觉文化的转向[M].北京:北京大学出版社, 2008.99页

[2]刘霁虹、万萱.平面广告跨界设计[J].装饰, 2009 (11) :117页

[3]IBM新一轮的全球广告“Smarter Planet聪明的星球”[EB/OL].http://www.cldol.com/newbrand/post/227.html

基于视觉特征的图像检索重排序篇6

基于关键字的图像检索起源于上世纪六七十年代,最初主要应用于数据库以便于对图像进行管理。上世纪九十年代初,随着互联网的迅猛发展,网络上的图片信息急剧增长,基于关键字的图像检索成功地应用到了互联网范围。基于关键字的图像检索主要利用从人工标注、图片标题、图片元数据和网页中图片周围的文字中提取的关键字来建立索引进行检索。然而,不同的人对相同图片的理解不一样,而且,有些图片的信息并不能通过文字来全面地描述,所以标注很可能与用户的理解存在偏差。此外,同义词和多义词都给基于关键字的图像检索带来了歧义性,例如苹果,可以表示水果中的苹果,也可以表示苹果牌电脑。由此可见,基于关键字的图像检索虽然在一定范围内能满足用户的需求,但是也存在很大的局限性。因此,上世纪九十年代开始,研究者们就进行了基于视觉特征的图像检索的相关研究工作,到目前为止已经取得了一系列突破性的成果,但是网络范围的基于关键字的图像检索还有待进一步的研究。本文介绍了如何利用图像的视觉特征对基于关键字的图像检索结果进行重排序。

1 相关工作介绍

重排序主要分为相关性重排序和多样性重排序[1],本文中的方法为相关性重排序。相关性重排序是针对检索结果的相关度展开的,而多样性排序是针对检索结果的多样性展开的。相关性重排序的方法中包括有监督和无监督两大类,本文所述方法属于无监督的。聚类是比较常用的无监督重排序算法,如多模态模型[2]和信息瓶颈论[3]的应用,此外图理论[4]也常被用来实现重排序算法。但是这些方法模型建立过程都比较复杂,而且计算量很大,对检索结果的性能也并没有显著性的改善。本文所用的方法是来源于文献[5]中利用网页图片视觉信息对网页进行重排序的思想,将其应用到纯粹的图像检索领域,在基于关键字的图像检索结果基础之上,利用图片的视觉特征信息进行重排序,取得了显著的性能改善。

2 视觉特征介绍

颜色和纹理是图像中最重要的视觉特征,包含了丰富的视觉信息。颜色直方图是一种描述颜色特征的有效方式,而LBP能有效地描述纹理特征,因此本文将以基于关键字的检索结果为基准,对基于这两种特征的重排序结果进行比较分析。

2.1 颜色直方图

研究表明,人眼对色彩很敏感,能识别出成千上万种颜色,因此选择出符合人眼视觉特征的颜色空间就至关重要了[6]。颜色空间有很多种,如RGB、CMY、HSV、Lab等,但是最符合人眼视觉感知特征的是HSV颜色空间,其中H、S、V分别对应颜色的色度、饱和度和亮度值。目前大多数的图像都是基于RGB颜色空间的,因此首先需要将其转换到HSV颜色空间中,转换公式如下[6]:

${\begin{cases} V = \frac{1}{3} (R + G + B) \\ S = 1 - \frac{3}{(R + G + B)} [\min (R, G, B)] \\ Η = a r c o s {\frac{[(R - G) + (R - B) / 2]}{[(R - G)^{2} + (R - B)^{2}]}} \end{cases} (1)$

若R、G、B的值都在[0,1]之间,则H、S、V的值也都在[0,1]之间。

将图像转换到HSV颜色空间后,再对三个通道的值分别进行量化,H、S、V的量化级数分别为L、M、N。量化后计算三个通道量化值的加权和,即可得到各个像素的直方图索引。H、S、V通道的量化值分别为(0,1,2,…,(L-1)),(0,1,2,…,(M-1))和(0,1,2,…,(N-1))。若三个通道的加权系数分别为WH、WS、WV则直方图的柄数为:

Nbin=(L-1)*WH+(M-1)*Ws+(N-1)*

WV+1 (2)

即每幅图像的颜色特征都可以用一个Nbin维的向量来表示。

2.2 局部二值模式LBP

LBP(Local Binary Pattern)是一种不带参数的运算子,可以用来提取图像的局部特征。Ojala等人最早提出了这种运算子,并且证实了其有效的纹理识别能力[4]。对于给定像素点(xc,yc),LBP为该像素与其周围8个像素的强度值比较结果,用二值模式表示为0和1组成的二值串,如图1所示。LBP的十进制表示形式[7]如下:

$L B Ρ (x_{c}, y_{c}) = \sum_{p = 0}^{p - 1} s (i_{p} - i_{c}) 2^{p} (3)$

其中,ic为邻域中心(xc,yc),in为各个邻域像素的强度值。符号函数s(x)定义为:

$s (x) = {\begin{cases} 1 i f x \geq 0 \\ 0 i f x ＜ 0 \end{cases} (4)$

由定义可知,对于由光照引起的像素强度值变化,LBP运算子依然能够保持中心像素和周围像素强度值的比较结果不变,因此能抵抗同质光照变化带来的影响。

用LBP运算子对图像中的每个像素都进行比较运算,在每个像素点都将得到一个描述该点邻域特征的二值模式串,用十进制表示即为0～255之间的整数。对经过LBP运算子过滤后的图像进行直方图统计,可得到一个256维的特征向量,此特征向量即为该图像的视觉特征表示。

由于LBP运算子不具有旋转不变形,而且只能提取局部细微的纹理特征,所以在实际应用中存在很大的局限性。为了实现LBP运算子的旋转不变形,Ojala等人在2002年对LBP进行了改进,将LBP运算子过滤得到的二值模式串进行循环位移操作,这样每个像素点都将得到一个二值串集合,然后取其中的极小值,从而实现了旋转不变性。为了提取更多尺寸上的特征,将像素点与其周围半径为R的圆周上均匀间隔的P个像素点进行强度值比较,对于圆周上未落在其他像素点上的位置用其周围像素进行差值得到其像素强度值,这样即可提取更大尺度上的局部特征。其定义[8]如下:

LBP $_{Ρ, R}^{r i}$ =min{POR(LBPP,R,i)

i=0,1,…,P-1} (5)

其中,ROR(LBPP,R,i)在P比特位的二值串x上执行右循环位移i次。

对改进后的LBP $_{Ρ, R}^{r i}$ 进一步的研究发现大部分有用的特征信息都包含在均匀(Uniform)二值模式串中。其中均匀值定义为圆周上二值串中0/1(1/0)变换的次数,对于均匀值不超过2的模式串称为均匀二值模式串,这些模式串有很强的特征描述能力,因此每一种均匀二值模式串都认为是不同的,而对于其他所有均匀值超过2的都作为同一种模式串处理,这样对于一个半径为R的圆周上取P个点的LBP运算子即可得到一个P+2维的特征,其定义如下:

$L B Ρ_{Ρ, R}^{r i u 2} {\begin{cases} \sum_{Ρ = 0}^{p - 1} s (i_{p} - i_{c}) i f U (L B Ρ_{Ρ, R}) \leq 2 \\ Ρ + 1 o t h e r w i s e \end{cases}} (6)$

其中,U(LBPP,R)=|s(ip-1-ic)-s(i0-ic)+∑ $_{p = 0}^{p - 1}$ |s(ip-1-ic)-s(ip-1-ic) (7)

对于一个R=1,P=8的LBP运算子,其均匀二值模式串如图2所示。

3 重排序方法

基于关键字的图像检索利用与图片相关的一些关键字建立索引进行检索,然而,由于图片的元数据、标注和从图片周围的文本中提取的关键字可能与图片内容存在偏差,因此检索结果很可能不尽如人意。尽管如此,基于关键字的图像检索结果中还有相当一部分是和用户期望相匹配的图片,因此可以充分利用这些相关的图片对检索结果进行重排序,以得到更符合用户期望的检索结果。提取所有图片的视觉特征信息,用一个特征向量来表示一幅图片。这样,特征空间中的一个点就对应着一幅图片,而与检索结果相关的图片具有相似性,在特征空间中的距离也就比其他不相关的图片小,利用这一点计算每一个图像点周围的密度即可过滤出与用户期望相关的部分图片,以这些图片为基础可以建立一个目标概念来描述用户期望,从而对检索结果进行重排序[5]。具体实现方法如下。

步骤①:取搜索引擎基于软件自检索返回的结果中前Ntop幅图片,提取其LBP特征f1,f2,…,fNtop,以这些特征空间中的点来代表图像,初始化t=1,由公式(8)求取这些图像点的密度:

Densigy(f)=∑ $_{i = 1}^{Ν_{t o p}}$ e-∑dj=1|fj-f(i,j)| (8)

步骤②:计算各图像点f1,f2,…,fNtop的密度,按密度大小降序排列,取前Ntop= Ntop-t*step幅图像的特征向量f(t,1),f(t,2),…,f(t,Ntop-t*step),t=t+1。

步骤③:步骤②被重复T次,得到Ntop=Ntop-T*step个图像点f(T,1),f(T,2),…,f(T,Ntop-T*step),由公式(9)求取这些点的加权均值f(T,m),将其作为用户期望的目标概念(Target Concept)。

$f_{(Τ, m)} = \frac{\sum_{j = 1}^{Τ} D e n s i t y (f_{(Τ, j)}) * f_{(Τ, j)}}{\sum_{i = 1}^{Τ} D e n s i t y (f_{(Τ, j)})} (9)$

由于密度大的点更能描述用户目标概念,因此用密度进行加权后,密度大的点在建立目标概念时发挥更大的作用,从而使目标概念更能描述用户的期望。用户目标概念建立好后,计算出所有基于关键字检索得到的图像与目标概念之间的距离。在互联网范围内,基于关键字的检索结果通常有几千到几十万甚至几百万个,而排序是一项费时的工程,因此若是要对所有检索结果进行重排序必是一项耗时的工程,会影响检索的实时性。在实际应用中,用户往往只对最相关的一些检索结果感兴趣,并且搜索引擎返回结果是都是分页显示的,假设每页显示n个结果,则重排序时只需从关键字的检索结果中找到目标概念的n近邻返回即可。若用户需要浏览下一页显示结果,则在余下的结果中找出目标概念的第二组n近邻返回即可。这样每次只需返回用户希望浏览的结果,能大幅度地降低重排序的时间,使搜索引擎达到更好的实时性。

文献[5]中的方法是利用网页中的图片颜色特征对文本网页进行重排序,重排序时对基于关键字的排序和基于图像颜色特征的排序进行加权和排序得到最终的排序结果。其中,对于不包含图片的网页采用默认值作为颜色特征的排序。本文介绍的方法对文献[5]的方法进行了简化,重排序时只利用图片视觉特征,并引入了加权的概念,不需要再考虑基于关键字的排序。重排序时采用分段排序,将重排序带来的负担均衡给多次浏览结果。本文中所介绍的方法采用的是多种尺度的LBP特征,同时也将其与基于颜色特征的重排序结果进行了比较。

4 实验分析

本文试验中采用了三种尺度的局部二值模式特征LBP $_{8, 1}^{r i u}$ ,LBP $_{16, 2}^{r i u}$ ,LBP $_{24, 3}^{r i u}$ ,并将其与基于颜色特征的重排序结果以百度图片搜索引擎基于关键字的图像检索结果为基准进行比较。试验中颜色特征和目标概念的相关参数设置如表1所示。

颜色特征中最重要的是色度,其次是饱和度,因此将色度的量化值和权重设置为最大,其次是饱和度。实验中,采用了自行车(bike)、公共汽车(bus)、猫(cat)、牛(cow)、马(horse)、飞机(plane)、船(ship)等共7个关键词的百度图片检索结果进行重排序实验,排序前后的相关度度量数据如图3所示。其中对“牛”的检索结果重排序前后对比如图4-5所示(基于LBP $_{24 ‚ 3}^{r i u}$ 重排序)。

尽管在文献[5]中利用网页中图片的颜色特征信息对网页进行重排序,改善了网页检索结果,但是由图3可知,完全基于颜色特征的重排序并不能改善图像检索结果,相反还降低了结果的准确度。同时,随着局部二值模式尺度的增加,重排序结果有所改善,但是继续增大尺寸,并不能继续改善重排序结果。因为传统的局部二值模式能有效地描述细微的纹理,如牛仔裤纹理,木材年轮,动物绒毛等,所以主要用于纹理检测和分类。但是互联网上的图片中包含的物体千差万别,所以需要选择一种合适尺度的局部二值模式来改善整体检索性能。初步实验表明,LBP $_{24 ‚ 3}^{r i u}$ 的性能是最优越的。

试验中对7个关键字检索结果重排序前后的前10,20,30,40,50的平均相关度,其中基准为基于关键字的百度图片检索性能,HSV、riu81、riu162、riu243分别代表利用颜色、LBP $_{8, 1}^{r i u}$ 、LBP $_{16, 2}^{r i u}$ 、LBP $_{24, 3}^{r i u}$ 等进行重排序后的平准相关度,如图3所示。

进一步的实验表明,增加参数Ntop、T和减小步长参数step并不能显著改善检索结果,甚至会降低准确率,而且增加了计算量,因此本文所选的参数设置是初步试验得出的最优配置。

5 结束语

本文主要介绍了如何利用视觉特征对基于关键字的图像检索结果进行重排序。实验中采用了颜色直方图和局部二值模式相结合的方式提取图像的视觉特征,并取得了较好的实验结果。颜色直方图充分利用了图片的颜色信息,但是由于网络图像中颜色的多样性导致颜色特征的重排序结果不尽如人意,而局部二值模式提取了图片的纹理信息,利用改进后的不同尺度的局部二值模式对检索结果进行重排序均能大幅提高检索结果的准确度。尽管实验取得了理想的实验结果,但是由于时间和工作量的限制,没能对更多检索实例进行实验。因此,在以后的研究中,将会把这种方法应用到更多的实例中进行验证。此外,在以后的研究中可以引入反馈机制将颜色直方图和局部二值模式结合起来,以过滤出包含指定颜色、符合用户特定需求的相关图片,从而达到更精准的网络图像定位。

摘要：主要介绍了在基于关键字的图像检索结果上,利用视觉特征对图像进行重排序。由于关键字对图像的描述存在一定的偏差,所以检索结果难免存在偏差。尽管如此,基于关键字的检索结果中依然有一定比例的图片是与用户期望相关的,利用这一相关性可以建立一个由图像视觉特征描述的用户目标概念,以此作为基准采用分段插入排序对基于关键字的图像检索结果进行重排序,此方法既提高了检索准确率,又能满足实时性要求。文中介绍的方法采用了两种视觉特征,颜色直方图和局部二值模式(LBP)。

关键词：视觉特征,图像检索,重排序,HSV,局部二值模式

参考文献

[1]张静,曲晓杰,冀中,等.基于内容的图像和视频搜索重排序技术综述[J].2011,47(29):171-174.

[2]Wei S K,Zhao Y,Zhu Z F,et al.Multimodal fusion for videosearch reranking[J].IEEE Transactions on Knowledge and DataEngineering,2010,22(8):1191-1199.

[3]Hsu W,Kennedy L,Chang S F.Video search reranking via infor-mation bottleneck principle[C]//ACM International Conference onMultimedia,Santa Barbara,CA,USA,2006:35-44.

[4]Jing Y S,Baluja S.Applying pagerank to large-scale image search[J].Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1877-1890.

[5]Zhou Zhi-Hua,Dai Hong-Bin.Exploiting Image Contents in WebSearch[C].IJCAI’07:Proc.Of International Joint Conference onArtificial Intelligence,2007:2928-2933.

[6]王金荣.基于颜色内容的图像检索技术[D].硕士学位论文,2006.

[7]Timo Ojala,Matti Pietikinen,David Harwood.A ComparativeStudy of Texture Measures with Classification Based on Feature Dis-tributions[J].Pattern Recognition,1996,29(1):51-59.

图像和视觉篇7

关键词：汉字字形,视觉特征,力矩平衡,视觉重心

0 引言

目前, 国内外学者提出了各种光带中心提取算法, 但还没有一个关于汉字图像视觉重心的计算机定位方法。现有的光带中心提取算法基本上可以划分为两类:第一类是灰度极大值法。1998年, Steger提出了一种基于Hessian矩阵的图像光条纹中心线提取方法[1]。该方法具有精度高, 鲁棒性好等优点。缺点是运算量大, 很难实现光条纹中心线的快速提取, 难以满足实时性要求高的应用场合。2002年, 胡斌提出了一种基于方向模板的结构光条纹中心检测方法[2]。该方法抗噪声能力强, 具有一定的断线修补能力。但计算比较复杂。第二类是灰度重心法。2001年, Wu提出了一种光刀中心自适应阈值提取法[3]。该方法有很好的抗噪声能力, 提取精度也较高。但是该方法存在断线, 修补后的线条和实际光条中心存在误差。后来, Cui提出了一种线性结构光心的自适应迭代提取法[4]。该方法具有精度高, 鲁棒性好等优点, 广泛应用于文字识别。该算法的主要缺点是运算量大, 很难实现结构光条纹中心线的快速提取, 难以满足实时性要求较高的应用场合。2003年, Lei提出一种结合阈值法与可变方向模板法的结构光条文中心快速提取算法[5]。该算法充分发挥阈值法和可变方向模板法的优点, 而且具有数据存储量小、实现速度快的特点。但是提取精度不高, 抗白噪声能力差。2005年, Hu基于Hessian矩阵法与阈值法, 提出了一种条纹中心线快速亚像素提取方法[6]。该方法减小了算法的运算量, 提高了处理速度。但该算法不能满足系统的实时性要求。2008年, Li分析了光条中心提取算法的研究现状, 并提出了一种结合梯度锐化和重心法的光条中心提取算法[7]。该算法能够准确地提取出光条中心, 并具有很好的抗噪能力。但是该方法稳定性差。

基于上述理论, 本文提出了一种基于汉字图像的视觉重心点提取算法。根据光带中心提取算法, 本文将从颜色、方向和边缘三种视觉特征对汉字图像的视觉重心进行研究, 并找出汉字的视觉重心与汉字字形的关系, 从而为检验汉字字库的质量提供客观依据。

1 汉字图像的视觉特征

汉字图像视觉重心点提取的关键在于视觉显著性的度量。度量汉字图像对象的视觉显著性主要是通过提取汉字图像的视觉特征来实现。因此, 视觉特征对视觉重心点提取的准确性有着重要的影响。

为了寻找汉字的最优特征, 本文依据特征显著性理论, 对多种特征进行显著性分析, 选取较好的特征集。显著性区域提取即寻找汉字图像中可能引起人眼视觉关注的区域。Itti等人提出的关注度模型从原始图像中提取出颜色、方向和亮度三个特征, 以此来编码和整合图像中的每个显著点信息。汉字特征通常分为结构特征和统计特征两大类:结构特征和统计特征。选取Itti的关注度模型中的方向和颜色, 因为汉字图像对比度较大, 故没有选取亮度特征。另外, 边缘轮廓特征包含了字符外围轮廓的丰富信息, 即使字符出现了内部笔画粘连, 字符边缘轮廓的信息都还是比较稳定的, 因此选择边缘轮廓作为特征。方向特征和边缘特征属于结构特征, 颜色特征属于统计特征。

1.1 颜色特征

颜色特征是一种基于像素点的特征, 能够描述汉字图像对象的表面性质。视觉关注模型就是使人们能够在复杂的视觉环境中快速定位汉字。目前, 关于图像显著性提取方法很多。其中, 最具代表性的成果是Itti依据生物视觉系统的注意机制提出的中央-周边Center-Surround结构的显著性计算方法[8]。

颜色特征提取时, 对于RGB彩色图, 定义R、G、B、Y分别表示高斯金字塔的红绿蓝黄4个颜色通道:

根据4个颜色通道获得的颜色值, 计算RG和BY色差:

本文通过中心-周边差异计算获得的颜色视觉特征变化情况, 得到反映颜色特征的显著度。

其中, c代表中心尺度, s代表边缘区域的尺度, c∈{1, 2, 3}, s=c+δ, δ∈{2, 3}。Θ定义为两个不同尺度的图像之间的差减操作, 通过对“粗尺度”图像进行插值转换到“细尺度”, 然后再逐个像素进行减法运算来实现。

颜色特征的特征显著图由颜色特征差异的图像融合得到:

其中, N (·) 为归一化操作。

1.2 方向特征

汉字的方向是指汉字图像中的笔画方向, 它描述了汉字的基本形状。因此, 方向特征是一种局部特征[9], 能够描述汉字图像对象的字形结构。

本文利用9层Gabor金字塔提取汉字图像的方向特征O。方向特征O可以表示为:

x和y分别是汉字图像的坐标。目前, 图像曲线跟踪的算法比较成熟, 主要原理是在扫描到轮廓曲线的第一点后, 按顺时针方向在当前点的八邻域寻找下一个点, 借鉴该算法思想本将图像划分为8个子块, 即:θ∈{0°, 45°, 90°, 135°, 180°, 225°, 270°, 315°}。

根据中心-周边差异计算获得方向特征的显著度。方向特征的显著度可以表示为:

汉字除了水平和垂直两个方向外, 还有两个对角线方向。因此, 方向显著图将从汉字的八个方向角度对方向特征的显著度进行归一化。方向显著图可以表示为:

1.3 边缘特征

为了提取汉字图像的视觉重心点, 首先要将汉字从原图像中分离出来, 即要对汉字图像提取边缘特征。边缘特征是对汉字图像的二值描述。根据心理学研究发现, 人类视觉可以通过边缘特征来识别目标。因此, 通过边缘特征不仅可以确定汉字的字形, 还利于计算汉字的面积。

边缘特征可利用拉普拉斯算子提取。边缘特征E可表示为:

其中, E[i, j]表示处理后 (i, j) 点的灰度值, f[i, j]表示处理前该点的灰度值。

边缘显著度E (c, s) 也是采用中心-周边算子计算获得。E (c, s) 可表示为:

边缘显著图可表示为:

2 基于汉字图像的视觉重心点提取

在提取汉字图像视觉重心点中, 视觉显著度一般是容易引起视觉关注的汉字图像像素。因此, 通过视觉关注模型可以先确定图像中的视觉显著度像素, 再根据力矩平衡理论计算汉字图像的视觉重心, 从而提取视觉重心点。

2.1 基于汉字图像的力矩平衡

在平面构图中, 任何形体的重心点位置都与其结构有着必然的关系。人眼观察汉字图像时, 视觉关注的位置往往集中于汉字图像的中心点, 这个中心点就是视觉的重心。但是汉字图像的颜色和字形都可对视觉重心产生影响。因此, 汉字图像的重心点提取需要利用力矩平衡理论[10]。

平面力系的合力对作用面内任一点的矩, 等于这力系中的各力对同一点矩的代数和。力矩平衡条件:平面任意力系平衡的充要条件是合力矩等于零。即

其中, Fi是合力, Li是力矩。

本文首先根据方向特征将汉字划分为8个子分量, 然后结合颜色特征将8个子分量看成8个色块, 并求得8个色块的颜色重量。最后, 利用边缘特征求得8个色块的面积。因此, 利用式 (16) 可求得汉字图像的视觉重心。

设汉字图像的视觉重心坐标为 (x, y) , 色块1的颜色轻重值为B1, 面积为S1, 坐标为 (x1, y1) , 色块2的颜色轻重值为B2, 面积为S2, 坐标为 (x2, y2) , 色块3的颜色轻重值为B3, 面积为S3, 坐标为 (x3, y3) , ……, 色块的颜色轻重值为B8, 面积为S8, 坐标为 (x8, y8) , 各个色块与视觉重心的距离可表示为:

根据力矩平衡条件:

列方程, BS与L都是有方向的, 它们之间存在一个夹角α, 实际上:

同理:

以此类推, 将式 (22) 至式 (24) 代入式 (21) , 得到仅有一个未知数x的方程, 解这个方程得到x。

同理求得y。

即可求的汉字字形的重心 (x, y) 。

2.2 基于汉字图像的视觉重心点提取算法

汉字图像视觉重心点提取的目的是在计算机上自动实现汉字图像的视觉重心定位, 以方便阅读的流畅, 并为检验汉字字库的质量提供客观依据。本文算法的具体步骤如下:

(1) 汉字图像预处理, 包括去噪声、平滑过滤, 以及灰度转换等。

(2) 利用颜色金字塔提取颜色特征, 利用Gabor金字塔提取方向特征, 利用拉普拉斯算子提取边缘特征。

(3) 根据中心-周边算子分别获得颜色显著图、方向显著图和边缘显著图。

(4) 根据方向显著图将汉字图像划分为8个色块, 并分别结合颜色显著图的视觉灰度值和边缘显著图的坐标求得色块重量和色块面积。

(5) 根据公式 (16) 求得视觉重心。

3 实验

为了验证本文算法的有效性和可行性, 在实验环境为Intel Pentium (R) 2.8GHz, 内存为1G的机器上进行了实验, 操作系统为Windows XP。通过一组实验数据将本文方法与词汇重心法[11]和阅读重心法[12]进行了对比, 通过实验结果表明了本文方法的有效性和可行性。

本文实验采用单字和多字两幅汉字图像为实验对象。图2 (a) 和 (b) 是输入图像。图3和图4中的 (a) 、 (b) 和 (c) 分别是采用词汇重心法、阅读重心法和本文方法得到的视觉重心点提取图像 (视觉重心点用叉号表示) 。图3和图4中的 (a) 是通过词汇重心法获得的实验结果图。然而, 该方法易受高频噪声干扰和灰度非正态分布影响而降低提取精度, 抗噪差。图3和图4中的 (b) 是利用阅读重心法获得的视觉重心点提取结果。实验结果图像比 (a) 精确, 但该方法运算量大, 很难实现汉字图像重心点的快速提取。图3和图4中的 (c) 是利用本文方法获得的视觉重心点提取结果图像。与前两种方法相比, 本文算法所得到的结果具有较好的视觉效果。

从以上实验结果可看出, 利用本文提取的汉字图像视觉重心 (图4 (c) 和图5 (c) ) 更为准确, 同时阅读也是更为流畅和舒适;视觉关注模型能够精确检测汉字图像中的视觉特征, 保证了力矩平衡方法对汉字图像视觉重心的准确提取, 从而使提取结果有良好的视觉效果。

4 结语

本文通过对汉字的视觉重心进行研究, 提出了一种汉字图像视觉重心点的提取方法。本文综合运用图像处理、视觉关注机制、技术美学与力学等多方面的知识, 求取汉字图像的视觉重心, 方便地实现了汉字重心的平稳, 保持了所有字形的重心高度一致, 从而保证阅读的流畅和舒适, 以及证明了它与汉字字形的直接关系。但是本文算法也无法通用于各种图像汉字的视觉重心求解, 还有大量的工作迫切需要完成。总之, 以后的工作需进一步考虑人工神经网络、进化算法、模糊数学等理论优化算法。

参考文献

[1]Steger C.An unbiased detector of curvilinear structures[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20 (2) :113-125.

[2]Hu B, Li D H, Jin G, et al.New Method for Obtaining the Center of Structured Light Stripe by Directi on Template[J].Computer Engineering and Applications, 2002, 11 (1) :59-60.

[3]Wu J B, Cui Z, Zhao H, et al.An adaptive threshold method for light-knife center acquisition[J].Semiconductor Optoelectronics, 2001, 22 (1) :62-64.

[4]Cui X J, Yang C, Liu B H, et al.Self-adaptive iterative method of extracting center of linear-structured light stripe[J].Journal of Xi'an Jiao Tong University, 2007, 41 (1) :73-76.

[5]Lei H J, Li D H, Wang J Y, et al.A method for fast detecting the center of structured light stripe[J].Journal of Hua Zhong University of Science&Technology:Nature Science Edition, 2003, 31 (1) :74-76.

[6]Hu K, Zhou F Q.A fast extrication method for sub-pixel center of structured light stripe[J].Electro-Optic Technology Application, 2005, 20 (6) :60-63.

[7]Li Z W, Wang C J, Shi Y S.An algorithm for detecting center of structured light stripe combining gradient sharpening with barycenter method[J].Journal of Image and Graphics, 2008, 13 (1) :64-68.

[8]Itti L, Koch C, Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20 (11) :1254-1259.

[9]Jin J W, Wei G.Handwritten chinese character recognition with directional decomposition cellular features[J].Journal of Circuit, System and Computer, 1998, 8 (4) :517-524.

[10]Gottlieb G L.A test of torque-control and equilibrium-point models of motor control[J].Human Movement Science, 2000, 19 (6) :925-931.

[11]Beauvillain C, DoréK, Baudouin V.The‘center of gravity’of words:evidence for an effect of the word-initial letters[J].Vision Research, 1996, 36 (4) :589-603.

图像和视觉篇8

关键词：机器视觉,图像处理,缺陷检测

随着国民经济的快速发展,通过橡胶密封的产品在工业各领域的应用越来越广泛,而当前密封橡胶圈在生产过程中容易出现凸点、气泡、毛边多出及切割不平等缺陷,严重影响其安全性和可靠性,利用机器视觉技术进行橡胶圈的质量检测可以提高检测的准确度,笔者针对机器视觉过程中对橡胶圈的图像提取处理和缺陷检测进行了算法研究,并给出仿真结果[1,2]。

1 橡胶圈图像处理流程

对橡胶圈的图像进行合理的处理是提取橡胶圈缺陷的基础,在实际操作中,由于受到采集环境及设备等因素的影响,采集到的橡胶圈的图像缺陷特征不明显,进行数字图像处理后,可以提高图像质量以便识别和提取缺陷[3]。

笔者通过数据采集卡将采集到的橡胶圈的图像传送到计算机,再进行图像处理( 图1) 。对采集到的图像主要经过图像滤波、图像增强、图像分割和数学形态学处理,最后通过缺陷识别算法来判断橡胶圈是否存在缺陷[4]。

笔者在采用CCD摄像机采集橡胶圈图像的过程中难免会受到各种干扰,使图像上出现一些随机、离散和孤立的像素,这些像素会降低图像质量,使图像变得模糊,而且还会淹没特征,所以需要对采集到的图像进行一些处理,尽可能最大程度地恢复原始图像。

2橡胶圈图像处理算法的研究

2.1图像滤波

图像滤波是指在滤除噪声的同时又能保证图像的边缘轮廓和线条清晰,中值滤波的原理是把图像中某一像素的值f' ( x,y) 用该像素的领域g( s,t) 中各点的中值代替,即:

中值滤波方法去噪效果较好,但对于点和线条细节较多的图像其滤波效果不理想,笔者选择了一种改进后的中值滤波算法,创建两幅待测目标图像; 选择一个垂直方向的一维中值滤波器对目标图像进行滤波,再使用一个水平方向的一维中值滤波器继续滤波,得到第一幅图像; 同理得到第二幅图像; 最后对两幅图像取灰度平均值,得到最终的滤波图像[5]。

对采集到的橡胶圈图像增加椒盐噪声并采取改进中值滤波,在MATLAB中的仿真结果如图2所示。

该中值滤波算法在有效滤波的同时,能保留较多的垂直和水平方向的图像信息,在运算的速度上也有一定的提高。

2. 2 图像增强

图像增强是根据需求突出图像中的某些信息,同时削弱不需要信息,使得处理后的图像更有利于边缘的检测和缺陷特征的提取[6~8]。笔者采用直方图来反应图像中各个灰度级出现的频率,直方图定义可表示为:

其中,N表示图像的总像素数,nk是第k个灰度的像素数,rk表示第k个灰度级,P( rk) 表示该灰度级出现的相对频数。

橡胶圈的灰度图像和对应的灰度直方图如图3 所示。

从图3 中可以看出,图像的像素主要集中在灰度级小于110 的范围内,图像整体偏暗,且对比度较小,灰度分布呈现双峰式,通过对直方图的分析,可以了解图像整体对比度、明亮程度以及与缺陷相关的灰度分布情况等。

在MATLAB中,imadjust函数可用于直接灰度调整,选取0. 0 ~ 0. 2 的灰度范围进行变换,对有气泡缺陷的橡胶圈进行灰度变换( 图4) 。由图4 可以看出,灰度变换后不仅可以增强图像对比度,而且可以有效去除图像背景。

2. 3 图像边缘分割

图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的像素的集合,分割的效果将直接影响后续的图像识别和特征提取的效果。

边缘分割算子可分成两种,一种是微分算子,如Roberts算子、Prewitt算子等; 另一种是加了最优滤波器的检测算子,如LOG算子和Canny算子[9,10]。传统的Canny算子适用性较好,梯度图像需要进行非极大值抑制,再求阈值提取边缘,目前双阈值的求取难以避免人工设定的影响,难以精确进行边缘检测,本课题采用改进Canny算子进行了边缘检测并将其与其他几种算法进行比较[11,12]。

改进型Canny算子在图像中寻找边缘的算法步骤为:

a.采用高斯滤波H(i,j)进行平滑去噪,。

b.计算图像像素点的梯度幅值和梯度方向,,,;其中,fi(i,j)、fj(i,j)为行方向的偏导数,I(i,j)为像素点(i,j)的灰度值,M(i,j)为像素点的梯度幅值,θ(i,j)为像素点的梯度方向。

c. 非极大值抑制,若图像内的像素点( i,j) 的梯度幅值M ( i,j) 比梯度方向上相邻两像素的幅值要小,则像素灰度值置0,即不是边缘点。

d. 双阈值选取,图像经过非极大值抑制后的像素点集合为N,将集合N内的元素( i,j) 沿( 0、45、90、135°) 按间距d( d = 1,2,3 ) 的像素点平均差分,构成图像的空间矩阵P[i,j,θ]。,其中,P[i,j,θ]表示像素点( i,j) 沿着方向 θ,相距d的归一化概率分布,H( θ) 为各个方向上的熵。通过计算熵的期望E( θ) 和标准差D( θ) 可以得到动态高低阈值,th1 = E ( θ ) / { 3 × [0. 3 + 2D ( θ ) ]} ,th2 = th1 ×ln( E( θ) ) 。

选取一阶微分算子、LOG算子、Canny算子和改进型Canny算子对含有缺陷的橡胶圈图像进行边缘检测,待测图像已经过去噪和增强处理,检测结果如图5、6 所示。

从图5、6 中可以看出改进的Canny检测算法对毛边缺陷和气泡缺陷的图像具有较好的检测效果,而Prewitt检测算法仅对毛边缺陷有较好的效果,所以Canny算法的适用性较好。

3 结束语

图像和视觉篇9

关键词：农业视觉图像；中值滤波；噪声检测；几何距离；加权滤波

中图分类号：TP391；S126 文献标志码： A

文章编号：1002-1302（2015）08-0419-02

近年来，农业智能化水平逐步提高，具体表现在将计算机技术、激光红外技术与传统农业分析方法相结合，最直观的体现是通过对传统农业机械加装相关图像信息采集传感器件来获取农作物视觉图像，并将其传到室内计算机系统内，借助图像处理技术对图像所承载的农业信息进行判读和分析，根据图像分析结果来对农作物的长势进行评估，对病虫害进行分析 [1-2]。图像传感器由于自身电压不稳定，农业机械行进过程中会发生一定程度的颠簸以及图像拍摄的环境有时候比较恶劣等因素，导致所获取的图像清晰度不佳，因此，研究该类图像的处理方法势在必行。中值滤波算法 [3-4]作为一种较为实用的数字图像处理方法，由于其原理简单、运算简便，得到了广泛应用，诞生了一些改进型算法，如加权中值滤波 [5]、极值中值滤波 [6]等。但该类算法对于细节信息丰富的农业视觉图像处理效果不尽如人意，为此，本研究通过对中值滤波算法进行改进，以探索一种适合于该类图像的滤波算法。

1 中值滤波算法及其改进

1 1 中值滤波算法原理及其特性分析

对于任意一幅数字图像而言，若受到噪声的干扰，图像中部分像素点的灰度值会发生重大变化，若要去除该类噪声，可通过采用一定大小的规则窗口（一般为3×3、5×5、7×7等，模板长宽尺寸相等）在图像中按照从左往右或从上往下的顺序滑动。当该窗口的中心停留于某像素点时，记该像素点的灰度值为f（x，y）（x、y为该像素点在图像中的坐标），那么该点的中值滤波结果可表示为：

f′（x，y）=median{f（x-1，y+1），f（x，y+1），f（x+1，y+1），f（x-1，y），f（x+1，y），f（x-1，y-1），f（x，y-1），f（x+1，y-1）}。（1）

其中，f（x-1，y+1）等为尺寸3×3滤波窗口中除了f（x，y）之外的像素点灰度值；median{}为取中间值操作。

该算法对于图像中的每一个像素点反复执行式（1）计算过程，通过采用噪声点一定大小的邻域内像素点灰度值来对噪声点进行修正，从而达到去除噪声的目的。但大量研究表明，该算法也具有一些不足之处：（1）该算法对图像中每一个像素点逐个进行取中间值操作，虽然能够抑制噪声，但是，图像即便是受到高强度噪声的干扰，图像中真正受到噪声污染的像素点仍然占一小部分。如果对所有像素点都进行计算，不但导致一些未被噪声污染的像素点被当作噪声点处理，导致图像失真，而且也延长了图像处理时间。（2）特别是对于农业视觉图像而言，图像存在着大量农产品的根、叶片、果实等信息，边缘轮廓较为复杂，且连续性较强，如果将滤波窗口固定为矩形形式，无法有效顾及该类信息的特征。

1 2 中值滤波改进算法

针对上述分析结果，本研究尝试将中值滤波算法进行改进，使其更适合于农业视觉图像处理工作。

1 2 1 噪声点的二步检测法图像中一旦含有噪声，必将导致其中一部分噪声点的像素值发生变化，基于这一特征，提出了一种噪声点的二步检测方法。

步骤1：采用尺寸为5×5的方形窗口在图像中按照从左到右或者从上到下的顺序逐个像素点移动，若该窗口位于图像中某区域时，计算该窗口中25个像素点的灰度均值f[TX-]，那么，可按照下式对图像进行噪声检测：

f（xi，yi）≤f[TX-]

f（xi，yi）>f[TX-][JB）] （i=1，2，3，，25）。（2）

其中，f（xi，yi）为5×5的方形窗口重第i个像素点灰度值。通过式（2）处理后，图像像素大体分为2类：一类为目标区域，另一类为背景区域。

步骤2：为了从步骤1所得到的目标区域和背景区域中进一步检出噪声点，采用下式继续进行处理：

│f（xi′，yi′）-f[TX-]1│≥[SX（]2[]3[SX）]f[TX-]1

│f（xi-i′，yi-i′）-f[TX-]2│≤[SX（]1[]3[SX）]f[TX-]2[JB）]（i′<25；i-i′<25）。（3）

其中，f（xi′，yi′）为目标区域中任意一像素点灰度值；i为目标区域中像素点个数，i-i′为背景区域中像素点的个数；f[TX-]1、f[TX-]2分别为目标区域和背景区域的像素灰度平均值。通过式（3）处理后，逐步将图像中灰度值过高、过低的像素点当做噪声点检测出来，该类点作为后续滤波的对象。

1 2 2 多个方向加权滤波针对农业视觉图像中目标物边缘轮廓的连续性和复杂性，设计出如图1所示的3个具有方向性的滤波模板。

步骤1：采用图1-a对经过噪声检测后的农业视觉图像进行水平方向的滤波处理，当该模板位于图像中任意一位置时，此时有3类情况：

（1）若该模板中，经过检测后的噪声点个数为4（除待滤波的像素点之外）时，可以认为该模板中包括待滤波的像素点在内是图像中目标物轮廓的一部分，可不作处理；

nlc202309041716

（2）若该模板中，经过检测后的噪声点个数为3（除待滤波的像素点之外）时，可将非噪声点的灰度值与待滤波像素点灰度值的平均值作为滤波值输出；

（3）若该模板中，经过检测后的噪声点个数为1或2（除待滤波的像素点之外）时，可通过下式进行处理：

f′（x，y）=[SX（]p1f1+p2f2+p2f3[]p1+p2+p3[SX）]（噪声点个数为1）或f′（x，y）=[SX（]p1f1+p2f2[]p1+p2[SX）] （噪声点个数为2）。（3）

其中，f′1（x，y）为模板中心点即待滤波像素点灰度值f（x，y）的滤波值；p1、p2、p3分别为对应的非噪声像素点f1、f2、f3与待滤波像素点的几何距离的倒数。

步骤2：按步骤1的思路完成图1-b和图1-c模板的滤波工作，从而得到对应的滤波值分别为f′2（x，y）和f′3（x，y）。

步骤3：对步骤1和步骤2得到的f′1（x，y）、f′2（x，y）和f′3（x，y），按数值大小排序，取中间值作为最终滤波值加以输出。此外，重复执行步骤1至步骤3完成图像所有滤波工作。

2 试验仿真

试验图像为实地拍摄于某葡萄园的夏黑葡萄图像，对其加入不同程度的颗粒噪声来对本研究算法的滤波性能进行测试，并与中值滤波算法、加权中值滤波算法 [5]、极值中值滤波算法 [6]进行比较，试验结果如图2所示。对上述几类算法的滤波效果采用峰值信噪比（peak signal noise to ratio，PSNR） [7-8]这一指标进行客观评价，结果如表1所示。

图2-b为对图2-a所示的夏黑葡萄图像加入了密度为15%的颗粒噪声，来模拟仿真成像传感器内噪声，采用中值滤波算法进行处理，结果如图2-c所示，可见图中的葡萄基本从噪声中恢复出来，但是噪声残留程度较为严重，图中的葡萄叶子、果实基本无法清晰辨认。采用加权中值滤波算法 [5]来进行处理，结果如图2-d所示，可见该图的清晰度明显提高。图2-e为极值中值滤波算法 [6]处理结果，该图的视觉效果与与2-d较为接近，可见，该2类算法滤波性能比较接近。图2-f为本研究算法滤波结果，很明显，图中的噪声基本不存在，葡萄果实、叶片均容易辨认。由表1可知，本研究算法对于含有5%噪声的图像滤波结果不如加权中值滤波算法和极值中值滤波算法，仅仅略优于中值滤波算法，这是由于本研究算法中通过对噪声进行检测，当图像中噪声密度较低时，容易将大量图像像素点误检为噪声点，导致滤波后图像质量降低。但随着噪声密度的增大，本研究算法的优势逐渐显现出来，当图像中的噪声密度达到15%时，本研究算法的PSNR值明显高于其余三者。

3 结语

为了实现对农业视觉图像的有效处理，在对中值滤波算法改进的基础上，提出了一种自适应滤波算法。试验结果表明，本研究提出的新算法滤波效果明显优于中值滤波算法及其已有的2类改进型算法，基本适合于处理农业视觉图像的要求。

参考文献：

[1] 张红旗，王春光，张永，等数字图像处理技术在变量农药喷洒装置中的应用研究[J] 农机化研究，2013，35（9）：213-217

[2]王献锋，张善文，王震，等基于叶片图像和环境信息的黄瓜病害识别方法[J] 农业工程学报，2014，30（14）：148-153

[3]Kravchonok A I，Zalesky B A，Lukashevich P V An algorithm for median filtering on the basis of merging of ordered columns[J] Pattern Recognition and Image Analysis，2007，17（3）：402-407

[4]赵辉，刘文明，岳有军，等一种新的去噪算法在农作物图像处理中的应用[J] 江苏农业科学，2014，42（1）：371-373

[5]刘炳良一种小波域改进双边滤波的水果图像去噪算法[J] 红外技术，2014，36（3）：196-199，204

[6]黄存令，段锦，祝勇，等一种改进的极值中值滤波算法[J] 长春理工大学学报：自然科学版，2013（3）：141-143

[7]王小兵，孙久运，汤海燕基于小波变换的图像混合噪声自适应滤波算法[J] 微电子学与计算机，2012，29（6）：91-95

[8]杨青基于农业视觉图像的高效滤波处理方法[J] 江苏农业科学，2014，42（4）：361-362，363

图像和视觉篇10

视网膜图像主要辅助临床医生检查视网膜出现的异常或者病理情况,还可进一步预测有可能发生的糖尿病、高血压等心脑血管疾病。因此,视网膜图像的血管检测和提取对心血管疾病的临床诊断和评估有重要的意义。为了更好观察到视网膜图像,目前采用荧光造影技术、眼底摄像等方法,但由于成像条件及生理结构的限制,视网膜图像质量并不理想,有用的信息常常被噪声所淹没,对提取眼底血管轮廓较为困难,从而影响视网膜相关疾病的准确诊断[1,2]。

目前视网膜血管图像增强的方法,一般为直方图均衡、局部对比度增强、小波变换、匹配滤波法等。Wu等[3]使用自适应直方图均衡化的方法对图像进行处理,此方法提高了血管与背景的对比度,但并不能较好抑制背景噪声,大病灶区域还有可能进一步被弱化为背景。Mendona等[4]通过调整小波变换的方法来实现视网膜图像的全局增强,但此方法需要对变换后图像的噪声进行估计。Sinthanayothi等[5,6,7]采用自适应的对比度增强方法。综上所述,现有的方法大多采用的是全局阈值法,对于小血管和对比度较低的血管处理的效果不好,因此对图像质量的改善具有局限性。另一方面,图像信息的接收是通过人的视觉,所以了解视觉感知机理对图像质量的改善有很大意义。

文章结合视觉系统对图像的感知能力,设计和建立一种较为通用的视网膜图像增强方法,从而得到优化的视网膜图像,可以提取出更多视网膜信息,还能获取类似视网膜造影的图像,使之应用于临床,减少造影剂对人体的伤害。

1 视网膜图像增强技术

1.1 数学形态法

目前采用数学形态法中[8,9]的低帽算法用来消除背景干扰提高图像对比度,突出血管等有用信息。对源图像S(x,y)做数学形态学的低帽变换,生成低帽变换后的图像:

B(x,y)=BotHat[S(x,y)]

BotHat[·]为低帽变换算符。

所述低帽变换如下:

式中,b(x,y)称为形态学结构元素,如圆盘形、矩形、正方形、菱形、八边形等。变换后的图像(图3(b))有效增强了图像中的暗区细节。但低帽变换的图像视觉质量并不是最理想的,所以利用所提出的自适应最佳化方法使低帽变换的结果最佳化。

1.2 图像视觉质量自适应最佳化

1.2.1 基于视觉对比度分辨率的数学模型

人类的视觉分为暗视觉和明视觉,它的生理基础是视网膜上存在两种光感受器细胞———视锥细胞和视杆细胞。如果是在暗视觉条件下拍摄的不能分辨的图像,只要有不同的灰度级,就说明含有不同的信息,只是由于视觉对比度分辨率的限制,图像中所包含的信息还不能被人类所觉察到。

文献[10]中所得到的关于在数字图像技术中,人类视觉对比度分辨率限制的测量结果见(2)、(3)式和图1。

暗视野的条件下:

明视野的条件下:

式中的JND(x)为人类视觉对比度分辨率的阈值,x为背景灰度。图1表示了人类视觉对比度分辨率随着背景灰度的变化呈现非线性关系。

图1中,拟合曲线I表示的是暗视觉条件下的指数函数曲线,拟合曲线Ⅱ表示的是明视觉条件下的抛物线函数。(1)和(2)式的意义:一定灰度背景下,需要多少灰度级才能达到人眼视觉的可分辨阈值。从图中进一步可以看出在低照度条件下人类视觉对比度分辨率比较低(例如在0灰度级左右需要23个灰度级的差异才能分辨出来),因此在低照度条件下所获得(如拍摄)的图像虽然存在不同灰度的信息,但由于视觉分辨率的限制不能被分辨出来,这就提出对这种视觉对比度分辨率进行非线性补偿来提高对比度分辨力。经过补偿后,图像的平均对比度和平均灰度将大大增加,灰度谱的位置向更高灰度级移动,并保持像素数不变,图像的视觉质量大大改善,获得能分辨的图像结构。

1.2.2 图像的灰度/色度信息的理论和技术

如果图像信息被强背景或噪声淹没,虽然有结构信息,但是不能被人眼所识别。那么首先应该利用图像灰度/色度分级平坦化来判断是否有图像结构信息,具体的信息分布在哪些灰度级上。一般当目标灰度与背景灰度很接近,并没有达到视觉可分辨的阈值,那么单凭人眼就无法识别。此种情况,可利用图像灰度级平坦化理论来探测出各灰度级的分布情况。

在这之前,对图像的灰度/色度信息的提取已经进行过研究,提出了用于图像信息挖掘的灰度/色度信息的非线性变换理论[11]。这种方法可以显示出一个灰度/色度信息。计算原理为:

它与传统的直方图均g衡∑=0化O1/的m区(g别)g=在0于:不管灰度平坦化级有多高,没有像素的灰度就不会有像素存在。而传统的直方图均衡化,是把每个灰度级平均像素数,而没有考虑源像空间中此灰度级有无像素存在。

1.2.3 Zadeh-X变换的理论及方法

Zadeh-X变换的底层图像挖掘技术可以用来挖掘在恶劣环境下所拍摄的、被强噪声淹没的、人类视觉不能分辨的图像。

在图像处理算法的设计中,考虑到图像处理后信息的最终接收者是人眼,若将此与人眼的视觉对比度和分辨率的视觉特性结合起来,图像的质量和视觉效果将显著提高,进而提高人眼对图像的分辨能力。

研究表明[12],用Zadeh-X变换可获得最佳的图像视觉质量,变换参数Delta自适应于图像的平均亮度AL。对图像B(x,y)进行标准化变换,获得标准化的视网膜图像C(x,y)。所谓标准化图像,就是其灰度分布从0~255充满整个灰度空间的图像,或者说其灰度谱的左边缘Left=0,右边缘Right=255的图像。然后对标准化图像C(x,y)快速自适应最佳化,得到最佳化图像Z(x,y)。所述快速自适应最佳化可通过修改的Zadeh-X变换实现,修改的Zadeh-X变换为:

在修改的Zadeh-X变换中,两个变换参数Deltaopt和Theta分别取值为:

上式中,C(x,y)表示源图像C的像素点(x,y)的灰度值;Z(x,y)表示变换后最佳化图像Z的像素点(x,y)的灰度值;k=255;AL为标准化图像C(x,y)的平均亮度。

C(x,y)的平均亮度AL计算如下:

式中,C(x,y)在[0,255]内变化。

2 基于视觉感知的视网膜图像增强方法研究

研究提出一种利用数学形态学与图像自适应最佳化方法来获取视网膜数字图像自适应最佳化方法。流程图如图2所示。

2.1 数学形态学变换

彩色图像有红、绿、蓝三通道数据,可以分离出红、绿、蓝三通道灰度图像。通过对彩色视网膜图像的RGB分量进行提取分析发现,绿色通道能呈现最好的血管与背景对比度信息,而红色与蓝色通道分量的对比度相对较低,噪声较高。因此,为了对视网膜图像进行增强,分离出绿通道数据作为源图像S(x,y),然后进行低帽变换,低帽变换中对于结构元素的选取,可以选择不同尺寸的结构元素来获取不同尺寸的血管。低帽变换后的图像B(x,y)为灰度图像,其视觉质量必须进行自适应最佳化变换以获取最佳质量的图像。

2.2 视觉质量自适应最佳化

变换后的图像B(x,y)的视觉质量自适应最佳化。所述图像视觉质量自适应最佳化分两步进行:首先,要进行图像信息显示处理。在处理中,运用所提出的灰度谱平坦化理论,使用该方法获取灰度谱,可以得到具有一个色度级的高分辨率的灰度谱。利用视觉特性获取最佳的图像参数DeltaOpt自适应于图像的平均灰度AL,结合Zadeh-X变换方法以实现图像视觉质量最佳化。

2.3 实验结果及分析

利用组合的数学形态学的低帽变换和图像视觉质量的自适应最佳化变换,可获得与视网膜血管造影图像(图3(c))比拟的视网膜血管图像(图3(d));不但显示出比源图像(图3(a))更多的信息,而且还能显示出视网膜血管造影图像(图3(c),血管显示为白色,即血管内造影剂的显色)不能呈现的结构,就是说,不用造影即可获得优于造影图像视觉质量的视网膜图像。

从图中可以看出,低帽算法变换后图像对比度较原始图像明显增强,但是图像质量并不理想,采用自适应变换后得到的图像显示出更多的视网膜血管和组织结构信息。图3(d)红圈内结构对应于不能分辨出结构的图3(b)和图3(c)的颜色较深的区域。另一方面,所获得的增强后的图像与造影后的图像相比较,呈现更多的血管信息,这种无需造影即通过图像增强技术所获得的图像我们称之为软造影图像,无需注射造影剂就可获得优于造影的图像质量,避免了造影剂过敏等副作用发生的可能性;减少病人的经济负担。

3 结论

基于视觉特征,通过数学形态学方法去除背景的干扰,并结合自适应的图像变换方法提取视网膜图像,提出的算法有效地消除背景噪声的影响,增强了视网膜图像的可视化,为参数测量,如血管分枝夹角、直径等提供了更准确的解剖形态学信息;进一步为临床视网膜相关疾病更精准的诊断、治疗、随访提供了更好的信息;还可获得与造影图像相比拟的图像信息,使病人免受造影剂的伤害;更能推广到其他的医学图像处理中,使得医生能直观、精准地对病情进行判断,提高诊断水平。

摘要：提出一种快速、自适应地实现视网膜图像增强的方法。利用数学形态法和图像视觉质量的自适应变换建立适用于视网膜图像增强的方法,首先,采用数学形态法,提取图像信息,去除背景干扰;然后基于视觉的特性获取最佳的图像参数,结合Zadeh-X变换方法获取最佳图像。利用该方法所提取的视网膜图像增强了血管信息,所获图像与造影图像进行对比,优于造影图像,同时减少造影剂的使用,使病人免受造影剂的伤害。此方法可以有效地增强对比度,大大提高了图像质量,对视网膜组织进行定量分析与检测,对临床眼科学的病理诊断具有非常重要的意义。

关键词：视觉感知,数学形态法,对比度,图像质量

参考文献

[1]廖勇军.视网膜图像处理关键技术研究[D].重庆:重庆大学,2008.

[2]王润民.基于微粒群算法的视网膜血管自动提取方法[J].计算机工程与应用,2015,(2):177-180.

[3]Wu D,Zhang M,Liu JC,et al.On the adaptive detection of blood vessels in retinal images[J].IEEE Transactions on Biomedical Engineering.2006,53(2):341-343.

[4]Mendona A M,Campilho A.Segmentation of retinal blood vessels by combining the detection of centerlines and morphological reconstruction[J].Medical Imaging IEEE Transactions on 2006,25(9):1200-1213.

[5]Sinthannayothin C.Image analysis for automatic diagnosis of diabetic retinopathy[D].London:University of London,1999.

[6]Al-Rawi M,Qutaishat M M.An improved matched filter for blood vessel detection of digital retinal images.[J].Computers in Biology&Medicine,2007,37(2):262-267.

[7]Fleming AD,Philip S,Goatman K A,et al.Automated assessment of diabetic retinal image quality based on clarity and field definition[J].Investigative Ophthalmology&Visual Science,2006,47(3):1120-1125.

[8]张艳玲,刘桂雄,曹东,等.数学形态学的基本算法及在图像预处理中应用[J].科学技术与工程,2007,7(3):356~359.

[9]黄宝贵,马春梅,赵景秀.基于轮廓结构元素形态学的多尺度边缘检测[J].计算机工程与应用,2011,47(1):191-196.

[10]王志芳,刘玉红,谢正祥,等.基于数字图像处理的人类视觉对比度分辨率限制测定[J].生物医学工程学杂志.2008,25(5):998-1002.

[11]谢正祥,王志芳,刘燕欢,等.灰度谱分级平坦化理论[J].中国医学物理学杂志.2006,23(6):405-407,426.

【图像和视觉】推荐阅读：

视觉图像处理08-24

视觉选择05-08

视觉语境05-13