人机识别

2025-01-11

人机识别(精选4篇)

人机识别 篇1

手势是一种自然而直观的人际交流模式,广泛应用于日常生活中,随着信息技术的迅猛发展,人机交互活动变得余越来越多,传统的人机交互存在各种缺陷,如:必须使用键盘、鼠标或操纵杆方能完成人机交互,手势作为人们与外界交流的重要方式,逐渐成为人机交互中一种新兴的交互方式,在人机交互过程中发挥越来越重要的作用,但由于手势本身固有的特点,如:多义性、多样性以及时空上的差异性等,当前,基于视觉的手势识别系统存在识别率比较低,实时性较差等缺点,基于此,提出了一种新型基于视觉的手势识别设计方案,系统通过摄像头采集用户的图像,采用自适应阈值二值化法进行手势分割,再通过空间向量模型得到特征向量,最后用隐马尔可夫模型进行识别,实验结果表明,该交互方式可以较好地定位屏幕和判断用户的操作,实现自然、友好的远距离人机交互。

1 手势识别系统分析

基于视觉的手势识别系统主要由手势输入、手势图像预处理、手势分割、特征提取、手势建模及手势识别等组成,其框架图如1所示。

1)手势输入

目前人们采用了不同手段来实现手势输入,最常见使用USB摄像头获取,可以通过一个或多个摄像头获取视频数据流,也可以使用微软的Kinect实现。

2)手势图像预处理

手势图像预处理是为了去除图像中噪声,当获取到的手势信息转换成可用计算机处理的数字图像时,手势图像质量会受到各种因素如:成像元器件缺陷,环境影响,电磁干扰及噪声干扰等,画质会因干扰与噪声而出现不同程度的畸变,因此必须对手势进行图像预处理,图像预处理包括图像平滑去噪处理和图像的锐化处理及图像二值化等。

3)手势分割

手势分割就是从视频流图像中识别出手势目标,以便下一步提取手势特征参数;常见手势分割方法有基于肤色模型法、轮廓跟踪方法、建立手势形状数据库的方法、增加限制方法、基于运动与肤色结合的方法和基于深度信息的方法等。

4)特征提取

手势特征的提取是在手势定位技术的基础上进行的,手势图像经过分割,会得到手势的边缘和区域,进而获得手势的形状,常用的特征包括边缘、剪影/轮廓、梯度方向直方图、Haar特征、指尖位置、手指位置和手势方向等。

5)手势建模

手势模型对于手势识别系统至关重要,其直接影响到人机交互接口性能好坏的关键;手势建模方法通常分为表观手势模型和3D手势模型,其中,表观手势模型包括基于灰度图像本身的表观模型、基于二维变形模板的表观模型、基于图像属性的表观模型和基于图像运动的表观模型,3D手势模型包括纹理模型、网格模型、几何模型和骨架模型。

6)手势识别

手势识别是一个手势轨迹空间分类的过程,手势分为静态手势和动态手势,静态手势对应着模型参数空间里一个点,常用静态手势识别算法包括支持向量机算法,人工神经网络算法,模板匹配算法等;而动态手势则对应着模型参数空间里的一条轨迹,常用动态手势识别算法包括隐马尔可夫模型(HMM)和DTW匹配算法等。

2 关键技术研究

2.1 手势分割

手势分割就是将将手势准确而快速地从图像序列中分割出来,是手势识别的基,图像阈值分割是一种广泛使用的图像分割方法。

对彩色图像进行灰度化转换:

式中R、G、B分别表示红、绿、蓝三个颜色分量,H为转换后的图像灰度值。

为了得到理想的二值图像,用图像二值化变换的函数表达式进行阈值分割:

式中g(x,y)为二值化后新的像素值,T为分割阈值,f(x,y)为原灰度图像素值,f(x,y)可由⑶计算:

式中N为肤色点的个数,改进的自适应阈值二值化算法为:

式中gi∈[0,255],Sgi为gi像素个数,满足:

2.2 手势特征提取

手势的特征提取是手势识别的关键步骤,手势特征提取可由空间向量表示:

其中,Lcj与Lc1分别是手势中心到手势轨迹各点的距离及到起始点的距离,θ1j,θ2j,θ3j分别是手势轨迹各点与中心,与前一点的方向角,与起始点的方向角,vj是运动速率。

2.3 手势识别

手势特征提取与匹配是基于计算机视觉的手势识别系统的最为关键的组成部分,是当前使用的最为广泛的一种动态手势识别模型。

HMM模型可以表示为:λ={π,A,B}来表示,HMM模型在实际运用中涉及到三个基本问题:评价问题,解码问题,训练问题,其中,评价问题主要解决分类问题,从观察序列O=[o1,o2,...oT]及模型参数λ={π,A,B},求出观察序列的概率P(O/λ),文中可采用前向递推算法,解码问题找出产生观察结果的隐状态O,训练问题是从(已知集合中)获取观察序列,从而找到最匹配的HMM,在HMM模型中,三个基本问题的解法(前向-后向算法、Viterbi算法、Baum Welch算法)之间的关系如图2所示。

3 实验分析

1)硬件环境:

计算机配置:CPU:E7500,内存:2G。

视频采集设备:极速3D摄像头,其感光元件为CMOS,1200万像素,最大分辨率为640×480,USB2.0接口,免驱动,最大帧频30fps。

2)软件环境:

操作系统为Windows XP,在Microsoft Visual C++6.0环境下开发,图像处理的编程调用Intel的开源计算机视觉库Open CV。

实验中,势约定为手掌可自由旋转,手指自由伸缩,手指不交叉,五指伸出且并拢,手掌正对摄像头等10种手势,每个手势分别在复杂背景和简单背景下取50个样本进行测试识别率,测试结果如表1所示。

从实验结果可以看出,简单背景下手势识别率较高且稳定,而在复杂背景下,手势识别效果相对较差,识别偏低,可能是由于摄像头自带的白平衡功能对视场内颜色变化比较敏感或背景中存在大面积肤色干扰等原因,总体上看,手势识别系统都能够得到较好的识别效果。

4 结束语

手势作为一种直观、自然的人机交互输入信号,将其应用到计算机视觉中具有无可比拟的优势,尽管我国己经在手势识别系统的研究方面取得了很大的进展,但仍面临许多困难,如:如何提研究词汇量可扩展的识别、实现非特定人的手势识别、取手势的旋转不变特征方法等一直都是阻碍手势识别技术大步前进的课题,因此,对手势识别的探索研究还有很长的路要走,如语音等多模式、手势结合表情、多目视觉下的动态手势识别系统的研究的人机交互系统的研究等都是今后要研究的主要方向。

摘要:为满足人机交互系统中手势识别的需要,提出了一种基于视觉的多点手势识别方法及其人机交互技术框架,利用USB摄像头获取手势图像,采用自适应阈值二值化法进行手势分割,再通过空间向量模型得到特征向量,最后用隐马尔可夫模型进行识别,实验结果表明,该手势识别法在人机交互中的应用是可行的且性能稳定。

关键词:人机交互,手势识别,计算机视觉,隐马尔可夫模型

参考文献

[1]刘曼曼,冯嘉礼.基于属性计算网络的动态手势识别的研究[J].电脑知识与技术,2010(7).

[2]李文生,解梅,邓春健.基于多点手势识别的人机交互技术框架[J].计算机工程与设计2011(6).

[3]刘珠峰,周良,丁秋林.基于隐性马尔可夫模型的手势识别设计和优化[J].计算机应用研究,2011(6).

[4]李文生,姚琼,邓春健.粒子群优化神经网络在动态手势识别中的应用[J].计算机工程与科学,2011(5).

人机识别 篇2

利用手机和别人沟通已经成了我们生活的一部分。随着技术的进步,现在带摄像头的手机价格也越来越低越来越普及,但是移动电话还是受到硬件的限制,在人机交互方面还是较为繁琐。现在图像处理技术的日益成熟,多媒体处理技术被广泛应用到手机中,手机的功能和处理能力也不断得到提升。图像处理算法研究的不断深入和实际中的广泛应用。

J2ME作为手机普遍配置的平台,我们就可以通过Java技术以及摄像头对手机的人机交互方式加以改进。这样可以充分利用现有的硬件资源,并且具有较好的可移植性。研究基于J2ME平台的手指图像识别技术在移动电话人机交互中的应用,在J2ME软件平台上的开发和数字图像处理的相关知识和运动图像的检测跟踪算法,可以通过内置的摄像头对周围物体进行距离判断,跟踪手指运动的轨迹,判断手指的点击动作,并激发手机内部的软件操作。通过手势在摄像头周围滑动,使手机用户可以更方便的操作手机。

2 J2ME(Java 2 Platform Micro Edition)

2.1 J2ME简介

J2ME是为了那些使用有限的能源、有限的网络连接(常常是无线连接)以及有限图形用户界面能力的设备开发的。J2ME的全称是Java 2 Platform Micro Edition,即Java 2平台微型版。J2ME为运行在嵌入式消费类电子产品的设备的应用程序提供了一个健壮的、灵活的环境[1]。应用J2ME的硬件平台相对于其它平台是有着较大的差异。而且支持J2ME的硬件平台之间也有很大差异,其中有比较高端的设备,例如:电视机顶盒、网络电视等;也有比较低端的设备,例如:移动电话、寻呼机、PDA等。它们的不同具体体现在,前者是运算能力相对较佳、并且在电力供应上相对比较充足的嵌入式装置,而后者是运算功能有限、电力供应也有限的嵌入式装置。正是为了要满足以上两大类硬件的开发要求,J2ME针对硬件的数据处理能力、存储容量、网络连接能力等规定了Configuration的概念,把上述运算功能有限、电力有限的嵌入式装置定义在Connected Limited Device Configuration(CLDC)规格之中;而另外一种装置则规范为Connected Device Configuration(CDC)规格[2]。与J2SE,J2EE和Java Card一样,J2ME同样包含一个小型的虚拟机和一系列的Java API。CLDC所使用的java虚拟机称为KVM,而CDC所使用的则称为CVM。J2ME还提供了灵活的图形用户界面、健壮的安全模型、广泛的联网协议支持。

2.2 J2ME的构架

J2ME平台由多种配置(Configuration)、简表(Profile)和可选包(Optional Package)组成。Profile是针对某一类设备所制订的规范和API。对移动电话的应用,J2ME定义了一个专门的Profile MIDP(Mobile Information Device Profile)。

MIDP规范所规定的特定功能部分包括API和硬件两部分。1)API部分:用户界面支持、网络支持、数据持续存储支持、其他例外处理及Time等类的支持;2)硬件部分:内存、显示器、输入设备、网络。

平台的实现者和应用程序的开发者可以从中选择并组合出一个完整的Java运行环境来满足特定范围内的设备需求。每种组合都应该使这一系列设备的内存、处理器和I/O能力达到最优化。每种组合都应该使这一系列设备的内存、处理器和I/O能力达到最优化。图1是J2ME平台的体系结构图。

宿主操作系统位于J2ME运行环境的最低层。配置由Java虚拟机和一系列的API集合组成,为某一范围内的嵌入式设备提供基本的功能。简表位于配置之上,为运行环境提供高层的API,J2ME平台可以通过添加可选包(Optional Package)进行扩展,可选包是针对特殊的技术的实现比较常见的可选包有无线消息API(Wireless Messaging API,JSR120)、移动多媒体API(Mobile Media API,JSR 135)和Web服务API(Web Service API,JSR 172)[3]。

2.3 J2ME与.NET平台

.NET平台是微软开发的用于WEB、移动设备、嵌入式的开发。表1是两者一个简单的比较。

比较后得出,J2EE在很多方面都优于.NET平台。而且用.net开发的移动设备应用程序目前还只能用在以微软windows系列为操作系统的手机上,数量很有限,而支持J2ME的手机相对来说就较多了,目前J2ME是事实上的手机应用开发标准。

3 图像识别算法

3.1 图像分割技术

图像分割是一种基本的计算机视觉技术,是从图像处理到图像分析的关键步骤。有效合理的图像分割能够为基于内容的图像检索、对象分析等抽象出十分有用的信息,从而使得更高层的图像理解成为可能。对于彩色图像的分割方法,因为既可以通过在颜色空间内划分像素来完成也可以通过在空间上划分像素来完成,所以将其分成基于图像颜色信息的方法和基于图像的空间信息的方法两类。基于图像的颜色信息的方法一般使用K-Mean或者模糊C-Mean等聚类方法,将图像内的像素划分到指定数目的类别之中,然后将属于同一类别并且相互联通的像素分割到同一个区域。然而,在这种方法中,聚类数目需要通过指定的方法得到或者手工设定。并且在这种方法中,因为没有考虑空间上的边缘信息和邻接信息,经常会得出不符合人的视觉的分割结果。基于图像中的空间信息的方法还可以分成两种,一种是利用图像区域(像素)之间的边缘进行图像分割。另一种是利用区域(像素)之间的邻接和相似性进行区域生长和区域合并。本系统中必须利用图像分割技术先将图像中手指区域进行定位,确定手指轮廓,以供下一步跟踪和识别之用。

3.2 图像识别与跟踪

运动目标检测就是从序列图像中去除静止的背景,检测出运动目标及其携带的运动信息。运动检测算法主要分为两类:基于序列图像的变化分析和基于压缩码流分析。运动目标检测方法包括对序列图像的时域、空域及时-空域分析[4]。

图像跟踪是指从图像信号中自动识别目标,提取目标位置信息,自动跟踪目标运动。由于运动目标的检测结果只提供了运动的位置和形状的基本信息,然而这些数据是孤立的,不能提供图像序列之间的联系。也就是说,运动目标跟踪的目的是确定运动目标的运动轨迹[5]。

目标识别与跟踪常采用模板匹配法。模板匹配把不同传感器或同一传感器在不同时间、不同成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式到另一幅图中寻找相应模式的处理方法就叫做模板匹配。即以目标形态特征为判据实现目标检索和跟踪。即便在复杂背景状态下,跟踪灵敏度和稳定度都很高,非常适用于复杂背景下的目标跟踪。然而在我们的项目中的跟踪目标并不是一成不变的,它可能有尺度的伸缩、位置的平移、角度的旋转等变化,因此在连续帧图像动态跟踪过程中,有必要对参考模板进行实时更新,以提高目标跟踪的稳定性。本系统利用相邻帧图像分割之结果,研究判别标准,进行手指动作的识别,以供人机交互之用。

3.3 背景更新

为了有效的判别当前图像中的运动目标,需要经常进行背景更新。背景图像的实时更新是基于背景差分提取运动目标的关键,由于天气、照明等条件会不断发生变化,或者摄像头本身的偏移造成视频监视场景的背景并不是静止不变的,因此参考背景图像必须及时更新。

常见的背景更新方法有手动给出背景法和多帧平均法等

1)手动给出背景法:该法需要人工的实时干预,当人在观察到没有运动物体时,启动摄像装置获得背景图像。这种方法不能实现自动的背景更新。

2)多帧平均法:该法是在一段时间内对像素点的灰度值取平均值,用这个平均值作为背景图像对应点的灰度值。对每一像素点,当没有运动目标通过或光线变化时,该点的灰度值在一个很小的范围内保持稳定,然而当有运动目标通过或光线变化,该点的灰度值会发生剧烈的变化。因此多帧平均法并不能得到较为精确的背景图像,且对背景变化没有自适应的调节作用。

3)中值法:该法选择一段时间内每一像素点出现频率最高的值来构成背景。是对多帧平均法的一种改进。连续读入M帧图像,对每一点在所有帧的灰度值按照数值大小排序,构成有序序列。取序号为M/2的灰度值作为背景图像在该点的相应灰度值。这种算法能够避免运动目标和瞬间光线变化对背景构造的影响,但计算量大,而且同样对背景变化没有自适应的调节作用。

4 仿真结果

从图2、图3、图4中可以看出,在背景图像基本不变的情况下,经过背景差分算法[6]处理能够较为准确的检测出运动的手指形状。将图2与作为背景的图1中的像素对应相减,取一个阈值,将两者的差大于阈值的像素点设为255,反之将该像素点设为0,就可以得到如图3的差分检测效果。

在图5,图6中能够较为准确的定位到手指的运动位置,并以红色的方框显示出来。方框会根据运动手指的远近改变方框的大小(如图6、图7)。当视频连续播放时,手指的不断变换和移动,红色方框能够跟随手指的运动做同样方向的移动和大小的变换。从而实现对外界运动物体的检测和跟踪,为后期的指令响应操作提供用户输入数据,做到手指的变化实现手机上不同的功能。真正做到便利的人机交互。

5 总结

对基于J2ME平台的软件编程做了研究,并详细介绍了J2ME平台的结构和运行模式。详细说明了基于ECLIPSE开发环境以NOKIA开发包作为组建的J2ME软件开发平台的搭建以及主要参数的设置。介绍了运动图像的检测跟踪算法(差分法和投影检测法),并根据移动电话硬件配置较低,处理能力不够的特点选择了运算量不太大,准确率较高的差分投影检测跟踪算法[7]。但是由于受限于目前手机CPU的运算能力,在处理中没有加入移动电话抖动的处理,会由于背景的移动造成检测的准确性降低。在检测和跟踪算法上有待进一步改进和优化,提高执行效率,减少运行中的延时和抖动产生的影响,提高检测的准确性。

摘要:JAVA语言凭借其跨平台的优势,能在各式的手机中见到它的踪影。使用J2ME技术开发的程序,可以经过简单的修改以后,在不同厂商的手机上运行。利用手机自带摄像头通过图像检测跟踪技术,识别外部的动作作为输入指令,手机根据指令执行特定功能实现人机交互的目的。搭建以ECLIPSE作为集成开发环境(IDE),JAVA为开发语言,基于诺基亚模拟器的模拟测试环境。以及对图像检测跟踪算法的研究,使其适应手机硬件的低配置。

关键词:ECLIPSE,手机,图像检测,图像跟踪,人机交互,诺基亚模拟器

参考文献

[1]张超,王阿川,王智.基于J2ME和J2EE的手机软件的研究[J].黑龙江科技信息,207(02S):21.

[2]潘功锋.JAVA技术在手机领域中的应用[J].计算机时代,2002(7):43.

[3]侯爱民,许广钦.手机编程原理及实现[J].东莞理工学院学报,2007,14(1).

[4]傅正龙,李欣,卢官明.一种可靠的运动检测方案及应用[J].电视技术,2005(01):24-25.

[5]徐淑平.视像中的摄像机运动检测[J].计算机技术与发展,2007,17(7):1-3.

[6]董士崇,王天珍,许刚,等.视频图像中的运动检测[J].武汉理工大学学报,2004,26(4):1-3.

人机识别 篇3

在CTCS-3级列车控制系统中,列车控制车载设备人机界面(DMI)是一种重要的车载设备,DMI显示了当前列车运行的相关信息,如当前速度、目标距离等[1],为列车司机操作列车提供参考依据,其显示内容的正确与否直接关系到列车的行车安全。因此,在投入使用之前必须要有功能测试的过程。为了全面测试DMI的显示功能,首先必须记录下一段时间内每一时刻的DMI上的显示数据,然后与标准规范比较,得出测试结果。

为了得到DMI的显示记录,最简单的方法就是人工记录,也就是通过人的视觉来完成。人的视觉范围广,主观性强,可以根据环境的变化灵活分析各种结果,在出现异常显示或者显示信息不明确的情况时能及时发现,或者综合得出一种合适的结果。但这种方法需要占用人力资源,效率低,而且由于大量单调的重复工作不能排除人为失误,从而并不能保证记录结果的准确性。因此,针对DMI显示信息,研究快速、准确的自动识别记录方法是十分必要的。

本文从图像处理的角度来研究自动识别方法,根据DMI显示信息的特点提出了相应的识别算法。

2 DMI功能及需求分析

DMI实时显示列车的状态信息,整个界面分为五个不同的区域,显示不同类别的信息。信息内容包括:制动预警时间;目标距离;列车运行等级;ATP设备制动状态;列车控制模式;列车当前运行速度;ATP模式;列车当前相关的文本信息;当前时间;机车信号信息[2]。根据以上显示信息的内容可得出,对于DMI显示信息的识别,主要包含如下两方面的工作:

静态信息识别:根据各模块图片的特点,确定出信息识别方案,得到DMI显示信息。

动态信息识别:根据DMI视频,实现动态信息识别,分析系统的性能特征。

3 显示信息识别方案设计

一般情况下,研究显示信息识别的过程可以归纳为四个步骤[3],如图1。

根据上述思路,对DMI显示信息的识别过程分为两个部分:预处理部分和模块识别部分。预处理部分主要是从图像中分割出DMI区域,进行处理后,使之成为标准几何尺寸的DMI界面。模块识别部分主要是从标准几何尺寸的DMI界面出发,确定各部分的识别方法,得到识别结果。因此,对DMI显示信息的识别整体方案如图2所示。(注:忽略了图像变形、图像残缺等一些非常规情况。)

4 关键技术分析

4.1 目标分割算法研究

在对DMI进行显示信息识别的不同阶段,都需要对目标进行分割,主要包括:从最原始图像中分割出DMI区域;从标准DMI图片中分割出各待识别的目标模块;从多位数的数字目标中分割出每一位数字[4]。本文采用的分割算法为投影分割法,其中主要的处理过程包括直方图分析、阈值变换、以及投影法分割等[5]。如图3所示。

分割是在预处理之后进行的,采用投影分割法进行目标分割的过程如下:

(1)保留源图像信息。

(2)分析源图像的直方图信息,选取合适的阈值,对源图像进行阈值变换,变换后只剩下0和255两种像素值。

(3)对源图像进行逐行扫面,统计出每一行中像素值为0的像素个数。

(4)根据目标区域特性,各行的统计值与其他区域有明显的区别,设置一个合适的阈值即可得到目标区域的上下边缘坐标。

(5)同理,可得到目标区域的左右边缘坐标。

(6)根据得到的边缘坐标信息从源图像中识别出目标图像。

4.2 目标识别算法

对DMI显示的信息进行分析可知,所有的信息根据内容可分为两类:图标信息和预警时间信息。图标、文本以及数字都归属于图标信息类型,这类信息可采用模板匹配来实现目标识别;采用面积大小来表示的预警时间信息可以根据区域的统计特性获取目标值。

4.2.1 模板匹配

采用模板匹配法时,待识别目标的所有可能情况都以标准图标的形式预先保存在模板库中[6],在通过分割得到待识别目标后,需要将其与模板库中的模板逐一进行匹配,计算相关系数,根据相关系数,确定相似程度,得到匹配结果[7]。相关系数的计算方法如下:

假设M为待识别图像的高度,N为待识别图片的宽度。S(i,j)为待识别图像中(i,j)点的像素值,Tk(i,j)为第k个模板图像中(i,j)点的像素值。则可以用如公式(1)所示的测度来衡量T与S的相似程度[8]:

由于模板是根据投影法分割后得到的,因此不同模板的尺寸有可能是不一样的,这样,分割得到的待识别目标的尺寸就有可能超过模板[9]。出现这种情况时,在进行匹配之前应首先将模板扩充至待识别目标尺寸大小,采用的方法是将原来不存在的像素都赋值为0或者255,这样不会影响到匹配结果。

模板图片文件名是按数字来顺序命名的,通过文件名循环来打开文件,计算相似度,即可完成逐一匹配的过程。本文的模板匹配算法流程图如图4所示。

4.2.2 统计识别

统计识别方法是指根据待测目标的统计属性完成对目标值的确定。在DMI图像中,采用白色正方形区域的面积来表示列控车载设备触发制动之前的预警时间,如图5:

白色正方形高度与相应的预警时间之间的对应关系如表1。

由表(1)可知,通过检测统计方法检测出白色区域的高度即可搜索到对应的目标值。

4.3 视频处理技术

在显示信息处理上,本文结合Open CV中的库函数。通过Open CV库函数完成视频显示及数据保存的功能,将对视频的处理转化为对BMP图片序列的处理。为得到BMP格式的图片数据,对于每一帧数据,在用Open CV相关函数显示后先将数据以BMP格式保存,之后按读取BMP图片的方法读取,然后再进行图片相关内容的识别。处理流程如图6所示。下面是程序涉及到的几个Open CV库函数:

(1)int cv Save Image(const char*filename,const Cv Arr*image);

filename:文件名,如果对应的文件已经存在,则将被复盖。

image:要保存的图像。

函数cv Save Image保存图像到指定文件。图像格式的的选择依赖于filename的扩展名。

(2)Cv Capture*cv Create File Capture(const char*filename);

filename:视频文件名。

函数cv Create File Capture给指定文件中的视频流分配和初始化Cv Capture结构。当分配的结构不再使用的时候,它应该使用cv Release Capture函数释放掉[10]。

(3)Ipl Image*cv Query Frame(Cv Capture*ca pture);

capture:视频获取结构。

函数cv Query Frame从摄像头或者文件中抓取一帧,然后解压并返回这一帧。抓取后,capture被指向下一帧。

(4)void cv Release Capture(Cv Capture**capture);

Capture:视频获取结构指针。

函数cv Release Capture释放由cv Capture From File申请的Cv Capture结构。

5 实验及结果分析

运行一段录制好的DMI显示信息的视频资料,可以看到随着视频的播放,提取出的DMI显示信息不断发生变化,信息识别结果与DMI显示基本吻合。如图7在视频播放接收时,综合计算出视频信息识别的时间性能指标,如图8。由图8可知,在43s时间内总共处理170帧图片,平均每帧图片的处理时间为257ms。这样,在每秒的时间内大致可处理4帧图片,可以满足对DMI显示信息的记录需求。

6 结束语

本文研究了对DMI进行信息识别的方法,将DMI显示信息分为图标信息和预警时间信息两类,分别采用模板匹配和统计识别的方法完成显示信息的识别。在静态图片研究的基础上完成了对DMI动态显示信息的识别。DMI显示信息的自动识别为CTCS3级车载设备功能自动测试中对DMI自动操作的研究奠定了基础。

摘要:本文为实现CTCS-3级列车控制车载设备人机界面(DMI)显示信息的自动识别功能,在完成静态图片处理算法研究之后,提出了一种结合Open CV库函数完成视频显示及数据保存的方案,从而实现了对DMI显示信息的自动识别。并通过实验验证了本方法自动识别的效果,以及对视频信息处理的时间性能指标。实验结果表明,本文所提出的方法能满足对DMI显示信息的自动识别需求,识别出的的信息可作为下一步研究DMI自动操作的参考依据,为实现CTCS-3级车载设备功能的自动测试奠定了基础。

关键词:图像处理,列车控制车载设备人机界面,模板匹配,统计识别

参考文献

[1]张曙光.CTCS-3级列控系统总体技术方案[M].北京:中国铁道出版社,2008:138.

[2]郭媛忠,宗殿贵.CTCS-3级列车运行控制系统原理和应用[M].北京:中国铁道出版社,2014,(5):99.

[3]孙正.数字图像处理与识别[M].北京:机械工业出版社,2014,(10):87.

[4]曹健.图像目标的表示与识别[M].北京:机械工业出版社,2012,(6):95.

[5]张国云.计算机视觉与图像识别[M].北京:科学出版社,2012,(4):168.

[6]张红.高分辨率SAR图像目标识别[M].北京:科学出版社,2009,3(1):95.

[7]郑方,章毓晋.数字信号与图像处理[M].北京:清华大学出版社,2006,(7):95.

[8]王秀珍.图像识别技术浅谈[D].内蒙古:内蒙古电大学刊,2008,(8):73-74.

[9]李宝昭.基于匹配的图像识别算法的应用研究[D].广东:广州工业大学,2007,5.

人机识别 篇4

目标识别是计算机视觉领域内的经典问题,随着多媒体技术的发展,人类接收的信息量与日俱增,使用计算机代替人力实现目标识别已逐渐成为发展趋势。在军事应用方面,为了节省人力以及减少人员伤亡,无人机目标识别技术同样得到了广泛研究,而无人机的迅猛发展为该技术提供了研究条件和工程应用基础。目标识别中特征描述算法可分为浮点型和二进制两类,与采用欧氏距离作为特征点匹配判定条件的浮点型算法不同,二进制算法通过异或操作即可完成判断,有效降低计算量,确保图像的实时处理,考虑到无人机目标识别应用对于实时性的要求,选用二进制算法作为本文算法的基础。

代表性的二进制算法主要包括BRIEF[1](Binary Ro bust Independent Elementary Features)算法、ORB[2](Oriented Fast and Rotated BRIEF)算法、BRISK[3](Binary Robust Invariant Scalable Keypoints)算法以及FREAK[4](Fast Retina Keypoints)算法等。其中BRIEF算法在特征点邻域内随机选取采样点对,通过灰度对比生成特征描述符,虽然算法运行速度很快,但采样点选取策略的随机性导致算法的特征表达能力有限,且旋转不变性与尺度不变性较差。ORB算法在其基础上引入方向特性,具备良好的旋转不变性,但采样点选取策略并没有得到改进。BRISK算法设计了一种固定采样模型,基于该模型的特征描述有效改善算法对于各种变换的鲁棒性,但模型内采样点感受域之间重叠率低,信息连续性较差,导致特征描述不够充分。FREAK算法根据人眼视网膜原理,在BRISK算法的基础上进一步优化采样模型结构,增加了相邻采样点感受域之间的交叠带,改善了特征描述的信息含量,但重叠区域过大导致信息冗余,降低了描述子的独特性。

针对传统无人机目标识别特征描述算法的不足,提出了一种基于改进采样模型的强独特性二进制描述算法,算法首先对比BRISK和FREAK采样模型,确定影响模型性能的参数,并通过理论建模逐项优化选取参数最优值,根据人眼视网膜中细胞的分布特性得到改进模型。在此基础上,对图像进行灰度划分及排序,将改进模型映射其中,增加对图像层次信息的表达,在众多描述子中选取具有强区分性和低相关性作为最终的特征描述子,改善算法的鲁棒性能。

1 构建采样模型

在特征描述阶段,通过比较采样模型内采样点对的灰度值生成二进制描述字符串,因此合理的采样模型是保证描述子性能的关键。在设计采样模型前,首先对比BRISK和FREAK采样模型以确定影响模型性能的参数,模型示意图如图1所示。

图1 采样模型示意图

1.1 传统采样模型分析

两种采样模型均采用圆形对称结构。通过对比分析得出影响性能的主要参数分别为:采样点密度、采样环层数和采样点感受域重叠度。

三个参数之间相互联系和制约,由于同一采样环上的采样点之间不存在重叠,采样点密度决定了每个采样点的感受域,相邻采样环之间的距离决定了采样点感受域之间的重叠范围,采样点密度与采样环层数决定了采样模型内的采样点个数,三者之间相互作用共同决定了采样模型的性能。

1.2 采样环层数与采样点密度

首先对采样点全局均匀分布类模型性能进行测试,结果如图2所示。

实验结果表明:此类模型的正确匹配率随总采样点数和采样环层数的增加逐渐上升,当采样点数为57个,采样环达到6层时,模型获取的所有信息中特征信息占比最高,描述子位特征方差和均值达到最佳,模型性能最优。为了满足图像实时处理的要求,选取57个采样点均匀分布在6层采样环上的模型作为此类最优模型,基于此模型的算法正确匹配率为74%。

图2 采样点全局均匀分布模型的正确匹配率

对相同层采样点数类分布模型性能进行测试,结果如图3所示。

图3 层采样点数相同的正确匹配率

实验结果表明:此类模型的正确匹配率随层采样点数和采样环层数的增加逐渐上升,对应的总信息中特征信息比重逐渐增大,当达到极值时,特征信息利用率最高,算法性能达到最优并逐渐趋于稳定。因此,综合考虑算法的精确度和复杂度,将7层采样环,每层均匀分布8个采样点的模型作为此类最优模型,基于该模型的算法正确匹配率为78%。

1.3 感受域范围重叠度

在生成描述子时,采样点的感受域越大,包含的信息越多,特征点的描述子独特性越强,但过大的感受域会使重叠度增大,从而导致信息冗余。对不同重叠度下模型获取的信息量进行统计,以确定最优重叠度,结果如图4所示,当重叠度为20%~25%时特征信息含量达到极值,因此在设计采样模型时,将每个采样点的感受域重叠度调整为23%左右。

1.4 本文采样模型

研究[4]表明:人眼在观察目标时,通过视网膜中央区域识别目标的细节信息;而周边区域主要用于检测目标的轮廓信息;其细胞分布的数学模型符合高斯分布[8]。根据人眼视网膜中的细胞分布规律,提出一种基于高斯分布的强独特性描述子采样模型。模型性能测试结果如图5所示。

图4 新信息含量测试示意图

图5 高斯分布采样模型测试结果

根据测试结果,当模型的采样环达到6层后算法性能逐渐趋于稳定,此时的正确匹配率为83%,性能优于前两类模型。根据这一结论得到本文模型分布如图6所示。

2 构建二进制描述子

在传统无人机目标识别特征描述子的生成过程中,仅在特征点的单一邻域内利用采样模型中采样点对比结果生成二进制字符串,缺乏对图像层次信息和旋转信息的表达,且忽略了图像中像素的聚类特征,导致描述子在图像中存在各种仿射变换和噪声干扰情况下的鲁棒性能较差。针对这一局限性,本文在改进采样模型的基础上,通过对图像分层处理提升算法的独特性。

如图7所示,将灰度值划分为几段,对应不同区间可得到多组子图像,分别对每一幅子图像进行多尺度高斯平滑,高斯核越大,特征点的鲁棒性能越强,因此优先描述高尺度平滑子图像特征点,并赋予较高的权重。将通过不同灰度划分计算法得到的描述子在按顺序排列成矩阵形式,分别计算矩阵的方差和协方差,筛选出其中具有强区分性和低相关性的列作为最终的特征描述子。

图7 子图像集合

3 实验分析

为了测试本文无人机目标识别算法的鲁棒性能,采用由Mikolajczyk[10]所提供的国际标准测试图像集进行实验。

3.1 鲁棒性能测试

在测试中统一采用FAST-Hessian算法进行特征点检测,利用Precision-Recall曲线对算法的鲁棒性能进行分析,其中Precision代表查准率,即所有匹配特征点中正确匹配点所占的比例;Recall代表查全率,表示正确匹配特征点数与特征点总数的比值,其计算公式分别为:

其中,#correct matches表示错误匹配的特征点数,#match keypoints表示匹配成功的总点数,#corresponding keypoints表示两幅图像之间对应的特征点总数。采用各个测试集中的第一幅与第四幅图像进行实验,测试结果如图8所示。

图8中测试曲线表明:本文算法在各种变换下的鲁棒性能优于其他四种算法,这是由于采样模型中采样点感受域之间的交互重叠使得模型能够充分获取特征点的周边信息,信息更加连续,保证模型对于视点变换具有更强的鲁棒性。在生成描述子时,对子图像进行了多尺度高斯平滑,并引入灰度排序信息,通过计算描述子矩阵的方差和协方差,筛选其中具有强区分性和低相关性的特征描述子,从而能够更好地克服各种变换对目标识别带来的影响,保证算法在无人机战场侦察中对于各种复杂环境的稳定性能,有利于对于敌方情报的实时掌控,控制战争走向。

图8 算法性能比较

3.2 实时性

在测试图像集中,分别统计各无人机目标识别算法的总匹配特征点数Num、特征描述总耗时t和每个特征点描述平均耗时Ave,通过数据对比分析算法性能,统计结果如表1所示。

其中SIFT和SURF算法作为浮点型算法通过计算特征点之间的欧氏距离判断是否匹配,因此耗时严重。而二进制BRISK和FREAK描述算法,只需在特征点邻域内按照采样模型选取点对进行灰度比较,将生成的二进制描述字符串作为特征描述子,因此算法运行速度有较大提升,满足实时性处理的实际应用要求;本文采样模型在设计过程中,通过合理选取采样点密度和采样环层数,按高斯模型分布采样点,优化感受域重叠度,从而增强模型独特性,并提高算法的精度与速度。但本文算法在生成描述子时引入了灰度排序信息,在改善描述子性能的同时,算法耗时相对有所提高,根据表1数据,本文算法耗时在BRISK和FREAK算法之上,但远少于浮点型算法的耗时,基本满足实际应用中实时性的要求,结合识别性能中的测试结果,本文所提出的无人机目标识别算法能够同时满足战场应用对于识别精度和速度的要求,且相对传统算法有较大的提升,因此本文算法具有一定的优越性。

4 结论

针对传统无人机目标识别算法中特征描述子独特性有限导致算法误匹配率较高,目标识别精度较低的不足。本文首先对影响模型性能的主要因素进行分析,然后通过理论建模获取最优参数,结合仿生学原理,提出一种基于高斯分布的强区分性采样模型,最后结合灰度排序信息和高斯平滑,通过计算方差和协方差筛选出具有强区分性和低相关性的特征描述子;实验结果表明本文算法不仅能较好地克服战场侦察图像中各种变换带来的影响,同时满足实际应用中实时性处理的要求。

表1 算法耗时比较

本文在构建采样模型时,只在两种约束模型条件下进行了讨论分析,进一步优化时可考虑采样模型的所有可能分布,从而获得绝对最优模型,且只对目标识别中的特征描述算法进行了优化,对于特征检测算法的改进可作为下一步研究方向。

摘要:针对基于传统特征描述子独特性低导致误匹配率高、图像匹配效果较差的问题,提出一种基于强独特性二进制描述子的无人机目标识别算法。算法首先通过对比BRISK和FREAK采样模型,确定了影响描述子性能的模型参数,然后通过理论建模选取参数最优值,最后根据人眼视网膜细胞的分布特性构建改进模型。在此基础上,结合图像灰度排序信息和高斯平滑获得多组子图像,将采样模型映射其中生成描述子,通过计算筛选得到其中具有强区分性和低相关性的特征描述子。对比实验表明基于本文算法不仅可以更好地克服无人机侦察图像中各种尺度、视角、旋转、光照和噪声等变换的影响,而且满足战场应用中实时性的要求。

关键词:无人机,目标识别,二进制特征描述,采样模型,高斯分布,多尺度子图像

参考文献

[1]CALONDER M,LEPETIT V,OZUYSAL M,et al.BRIEF:binary robust independent elementary features[J].IEEETransactions on Model Analysis and Machine Intelligence,2012,34(7):1281-1298.

[2]RUBLEE E,RABAUD V,KONOLIDGEK,et al.ORB:an efficient alternative to SIFT or SURF[C].Proceedings of the13th IEEE International on Conference Computer Vision.Los Alamitos:IEEE Computer Society Press,2011,2011:2564-2571.

[3]LEUTENEGGER S,CHLI M,SIEGWART R.BRISK:binary ro bust invariant scalable keypoints[C].Proceedings of the13th IEEE International Conference on Computer Vision.Los Alamitos:IEEE Computer Society Press,2012:2548-2555.

[4]ALAHI A,ORTIZ R,VANDERRGHEYNST P.FREAK:fast retina keypoint[C].Proceedings of Computer Version and Model Recognition.Los Alamitos:IEEE Computer Society Press,2011:510-517.

[5]MARI E,HAGER G,BURSCHKA G,et al.Adaptive and generic corner detection based on the accelerated segment test[C].Proceedings of the 11th European Conference on Computer Vision,2010,6312:183-196.

[6]惠国保,李东波,童一飞.挖掘图像补丁特征信息增强二进制描述子独特性[J].计算机辅助设计与图形学学报,2014,26(9):1419-1429.

[7]白丰,张明路,张小俊,等.快速优化筛选多尺度矩形域的二进制描述[J].中国图像图形学报,2016,21(3):303-313.

[8]林森,苑玮琦,宋辉.二进制鲁棒不变尺度特征在非接触掌纹识别中的应用[J].仪器仪表学报,2013,34(12):2785-2792.

[9]BEKELE D,TEUTHCS M,SCHUCHERT T.Evaluation of binary keypoint descriptors[C].Proceedings of the 20th IEEE International Conference on Image Processing,2013:3652-3656.

[10]MIKOLAJCZYK K,SCHMID C.A performance evaluation of local descriptors[J].IEEE Transactions on Model Analysis and Machine Intelligence,2005,27(10):1615-1630.

上一篇:公共嵌入式平台下一篇:英语复习课的点滴体会