自动识别算法

2024-10-15

自动识别算法(精选12篇)

自动识别算法 篇1

1 赤脚平面足迹图像定位分析

一般来讲,足迹对象定位方法有多种,但从程序设计角度考虑可采用以下三种,即后脚跟宽度线水平定位(图1),前脚掌宽度线中点与后脚跟宽度线中点连线垂直定位(图2),内外弓外轮廓宽度连线外平角定位(图3)。

采用后脚跟宽度线水平定位法旋转后脚跟宽度线到水平位置后(图4),形成水平轴,会使足迹图像倾斜,无论怎样确定纵向坐标,总会出现特征参数的附加因素,从而也会给后续特征参数计算带来不必要的负担。

内外弓轮廓宽度连线外平角定位法是以内外两侧轮廓线与水平线之间的夹角相等的原则进行旋转足迹对象(图5),它基本上属于锥形包络线定位方法的一种变体。其效果基本上与后面介绍的前脚掌宽度线中点与后脚跟宽度线中点连线垂直定位法类同。从公安刑侦技术要求和足迹对象视觉分析角度考虑,完全符合足迹识别定位的原则,从程序设计角度考虑,也是一种可行的技术方案,但算法相对繁杂。

本文提出了一种赤脚平面足迹定位的新方法,即前脚掌宽度线中点与后脚跟宽度线中点连线垂直定位法。它如同前一种定位方法一样都是采用双因子进行定位的方法(图6)。而且这种定位方法的一个优点就是对前脚掌和后脚跟两个大面积凸球区域进行了综合性考虑。由于基于宽度中点连线垂直旋转定位,所以可以将该垂线作为v向坐标处理,这样一来非常容易地得到了两个重要的特征点,即前脚掌宽度中点和后脚跟宽度中点,而且这两个点之间的距离(特征参数)也就确定了。同时前脚掌中点特征点也是测量五个脚指特征参数的重要基点。从程序设计角度考虑,由于该方法的定位算法属于平面几何学算法,算法相对简单,所以实现起来也相对容易。

基于上述对比分析可见,内外弓轮廓宽度连线外平角定位法和前脚掌宽度线中点与后脚跟宽度线中点连线垂直定位法(以下简称“中点连线垂直定位法”)都是比较适合的技术方案,完全符合赤脚平面足迹自动识别的技术要求。

2 内外弓轮廓宽度连线外平角定位算法的研究

由于内外弓两条轮廓线上的四个特征坐标点非常容易确定,可分别求得通过内弓和外弓上两个坐标点的直线方程。这两个线性方程组的解就是两条直线的交点。过交点绘制角平分线,再分别过内外弓两侧的两个坐标点绘制角平分线的垂线,构成两个直角三角形。这两条直线方程组的解就是该直角的点坐标。再分别求出过直角坐标点和内弓或外弓锥形包络线与足迹切点坐标之间的距离,及内弓或外弓锥形包络线与足迹切点坐标之间的距离。此时锥角的对边长度和斜边长度为已知边长度,便可通过平面三角函数求得锥形夹角x。由于α+x=90度,所以α=90-x,即旋转定位角。参见图5。由于篇幅所限算法省略。

3 中点连线垂直定位算法的研究

中点连线垂直定位算法的基本原则就是将前脚掌宽度线中点与后脚跟宽度线中点连线进行垂直定位。关键问题就是计算出中点连线相对于纵轴的倾斜角度(α角),如图7所示:

算法分析:假设已知前脚掌宽度、后脚跟宽度,那么这两条线段的中点就成为已知,它们的中点坐标分别为(x1,y1)、(x2,y2)。过(x1,y1)绘制一条水平辅助线,过(x2,y2)绘制一条铅垂线,那么这两条辅助线将相交于一点(x3,y3),形成平面直角三角形的两条直角边。线段(x1,y1)至(x2,y2)为水平直角边,(x2,y2)至(x3,y3)为另一直角边,线(x1,y1)和(x2,y2)与线(x2,y2)至(x3,y3)之间的夹角为α角。如果计算出该角的角度值,就可以解决旋转定位的问题。

(1)求过(x1,y1)点的水平线的直线方程如果直线经过点P(m,n),当直线的斜率存在的时候,也就是说直线不垂直与X轴的时候,可以设y-n=k(x-m);当直线垂直与X轴的时候,可以设x=m。所以,过(x1,y1)点的水平线的直线方程为x=x1。

(2)求过(x2,y2)点的垂直线直线方程同理y=y2。

(3)(x3,y3)点的坐标(x3,y3)=(x1,y2)

(4)求解两个直角边线段长度值:x1x3=x2-x1,y2y3=y2-y1。

(5)求解α角的角度值

α=arctg((|(x2-x1)|/|(y2-y1)|))*180/Π

可计算得到α角。所以,计算该角的数学模型也就成为旋转定位的关键算子。

4 中点连线垂直定位算法程序设计

由于每个足迹图像倾斜角度都是不同的,完全采用自动运算不好确定前脚掌和后脚跟两处的最大宽度特征点,所以人工交互操作是最好的方法。首先分别定义前脚掌和后脚跟(先后顺序无关)内外边缘处的最大宽度特征点,即前脚掌左右各一个点,后脚跟左右各一个点。

(1)交互操作定义前脚掌与后脚跟处四个特征点及相关参数

以下为交互操作的关键代码段。由于只有两条特征线,所以定义循环操作次数为2

从足迹图中获得1个点的坐标,记录在tzpoint二维数组中

为了进行旋转定位,需要计算前脚掌和后脚跟宽度特征线的中点坐标。以下为该特征点计算的关键代码。

经过循环运算,分别得到前脚掌、后脚跟处四个特征点;前脚掌处两个特征点的连线(最大宽度线)、后脚跟处两个特征点的连线(最大宽度线);前脚掌连线的中点特征点、后脚跟连线中点特征点。

(2)绘制前脚掌中点与后脚跟中点的连线

根据计算所得到的特征参数绘制出前脚掌中点与后脚跟中点的连线。

Line(centre(1,:),centre(2,:));

(3)运算测定旋转定位角

再根据上述“中点连线垂直定位算法”的分析研究,得出其数学模型为:

α=arctg((|(x2-x1)|/|(y2-y1)|)*180/Π

它将成为“中点连线垂直定位算法”中非常重要的旋转定位算子。可根据该算子进行计算,首先计算出直角三角形已知边的比值,由于考虑到实际足迹图像左倾和右倾等因素的存在,所以代码中采用绝对值计算。关键代码如下。

a=abs(centre(1,2)-centre(1,1))/abs(centre(2,2)-centre(2,1));计算对边比邻边的值

接下来根据反正切函数acrtg计算出旋转定位的旋转角度a(单位:度数,不是弧度)。

a=atan(a)*180/pi;

经过上述计算得到了旋转定位的角度值,最后绕图像中心点(自用轴)进行旋转运算操作。由于当前足迹图像左倾,所以按顺时针方向旋转,采用负角值,如果右倾则角度值为正。下面是旋转运算操作关键代码。

Imrotate(BJGZ,-a,'bilinear','crop');

经过运算操作后的足迹图像旋转定位情况,如图8所示:

5 结论

不难看出“前脚掌宽度线中点与后脚跟宽度线中点连线垂直定位法”的算子模型建立和程序的可操作性都是非常简单而实用的。由于算法简单,所以执行效率也是非常高的,可见该定位方法是值得推荐的一种较好的技术方案。

摘要:赤脚平面足迹定位是足迹特征提取、测量及比对的重要基础性工作,它不但影响足迹图像形态特征比对的配准工作以及特征参数提取算法的规则,更主要的是会影响到后续足迹自动识别的一致性定位准确性或精度。文中提出了一种新的赤脚平面足迹定位方法并且给出了相应的程序,从而为赤脚平面足迹自动识别算法研究和程序实现奠定了基础。

关键词:赤脚平面足迹,足迹定位,足迹识别,特征提取,特征参数,特征测量

参考文献

[1]Park H,P rasannaV K.ModularVL S I arch itectures for computing thearithmetic Fourier transform[J].IEEE.Signal Processing,1993,41(6):2236-2246.

[2]Co tfman R,W ickeerhauserM.Entropy2based algo rithms for best basisselection[J].IEEE Trans.On Info.Theory.1992,38(2):713-718.

[3]全国足迹检验鉴定学术研讨会论文集[C].北京:中国人民公安大学出版社,2007.

[4]黄群.赤脚足迹的统计分析[J].辽宁警专学报,2005(1):5-9.

[5]葛哲学.精通MATLAB[M].北京:电子工业出版社,2008.

[6]王爱玲,叶明生,邓秋香.MATLAB R2007图像处理技术与应用[M].北京:电子工业出版社,2008.

[7]葛哲学,沙威.小波分析理论与MATLAB R2007实现[M].北京:电子工业出版社,2007.

自动识别算法 篇2

等高线高程自动标注算法的研究

随着数字测图时代的来临,传统纸质图上的等高线逐渐被数字化形式的等高线图(层)所取代,数字等高线的生成与处理已成为了GIS中的一个研究的热点,然而数字等高线高程自动标注算法的人性化仍是一个有待解决的问题.本文依据人们的`读图习惯进行了标注的位置和密度研究,提出了一种新的等高线高程自动算法.实验证明,该算法的结果已基本满足人们的读图习惯.

作 者:陈学工 黄晶晶 CHEN Xue-gong HUANG Jing-jing 作者单位:中南大学,信息科学与工程学院,长沙,410083刊 名:测绘科学 ISTIC PKU英文刊名:SCIENCE OF SURVEYING AND MAPPING年,卷(期):32(4)分类号:P283.7 TP391关键词:等高线 标注 高程

试析图像处理的盲道识别算法 篇3

关键词:图像处理;盲道;识别算法

前言

我国当前大多数城市的盲道并没有得到最大限度的使用,为了使其更好地发挥作用,需要一种实际有效的方法来提高盲道的使用率。目前可实行的方案就是在盲道中植入一种电子信息引导系统。但是它的实行仍然需要很大成本,因为这需要大规模地重建现有盲道,需要重新改造路面建设,显然不是最优方案。而基于图像处理的盲道识别系统具有相对的可行性。本文提出的识别算法,及其开发的完整的导盲系统针对不同的盲道,具有高度的灵活性。例如,电子导盲拐、导盲鞋的发明,车辆自动导盲等等。相比与大规模重建盲道,这种电子图像处理的方案显然成本更低,而且它与车辆导航系统具有相似性,因此更有研究价值。

一、盲道识别的重要性

1.安全需要

根据马斯洛的需求层次理论,人类的需求由低到高呈阶梯型分布,依次为生理需求,安全需求,安全需求,社会需求,尊重需求以及自我实现的需求。由此可见,在满足了人类最基本的生理需求的基础上,安全需求就成为最需要被考虑的方面。生存权是人类最基本的权利,盲人更需要这种基本的人权,同时也需要更多的尊重,因此盲道上的一切不安全行为都应该被禁止。

2.出行需要

人不是独居的动物,需要出行以融入集体的生活。因此出行变成了最基本的社会生活之一。尤其是盲人的出行条件和便捷性更应该被优先考虑。社会上的弱势群体他们生活不便,行动不便,因此更需要正常人为他们的生活开辟出一条便捷通道。盲道道路条件应该得到全面的保障,尽可能减少阻塞的情况,也应该尽可能地减少被侵占甚至破坏。

3.审美需求

盲道建设作为城市道路建设的一种形式,不能只考虑其便捷性而忽略了美观性。旨在保证盲人等残障人士安全出行的基础上,尽可能地满足其心理需求以及身体舒适度。一个良好的盲道空间环境的设计应该综合考虑气候因素,街道设施齐备度以及噪音影响度等因素,通过植物景观和建筑物的协调规划,同时避免阳光暴晒或者过于阴暗,以及强风强雨、环境严重污染等因素,给盲人提供最大限度的良好出行体验。

二、盲道识别算法

1.盲道识别算法的定义

车辆导航系统常用的道路识别系统实际上基于道路的边缘识别跟踪,唯一的不同就在边界的检测算法上以及对边界曲线的建模上。盲道识别算法实际上与此技术类似。盲道边界线的确定可以通过图像处理中的一些算法将图像中的人行道与忙到区别开来。相应的,边界线被检测出来以后,盲道与人行道的区域就能被较容易地分立开来,也就可以知道盲道的建设是否偏离了其行进方向,并且精准测量其偏离角度,预测其接下来的拐道以及及时作出警告。这种识别算法的核心要点就是如何能高效地找到盲道与人行道的分界线。

2.盲道识别算法的类型

1)标准意义上的盲道建设通常会使用颜色较深的盲砖,这种情况下的盲道边界比较容易识别。可以通过有色区域的颜色差异来进行图像的分割,进而确定盲道边界线。

2)铺设盲道的盲砖的纹理与普通人行道的纹理有所不同,基于纹理的盲道分割法就可以从纹理的不同上将盲道从图像上分割开来,从而确定盲道边界。

3)盲道边界的确定可以利用Hough 直线检测的方法来达成。

三、盲道识别算法的应用

目前盲道识别算法主要有三种,即基于颜色区域的图像分割,基于纹理区域的图像分割,基于直接 Hough 的直线检测分割。由于三种方式的针对要素不同,它们的使用以及工作程序也有所不同。

1.基于颜色区域的图像分割

盲道是现在市政公用工程中的重要项目之一,那么一些专业人员对于盲道颜色区域的图像的分析做出了很多种识别方法,比如利用颜色比较鲜艳的黄色或富有饱和度和亮度的红色,再将这些道路设计出凹凸状,以便于盲人感官的识别。针对场景较为复杂的彩色图像可以采用彩色纹理区域分割的算法。无论用什么盲道识别算法,都必须高效地分割盲道与人行道,同时还要分析盲道的结构特征。这样的要求下最适合的莫过于自适应阈值分割的算法。

盲道图像的采集往往发生在人行道区域与盲道区域内。为了更加便捷有效地进行分割,往往将这个图像分为两个部分,每个区域都有自己的相对确定的颜色,相似的颜色区域有其特殊的分割算法。只要图像被分割成颜色面积最大的两个部分就可以进行盲道识别。自适应阈值分割法也适用于这样的情况,同时它最简单,成本最低,效果也很明显。通常情况下的盲道区域是深黄色,条形纹理设置于直行区域,圆形纹理设置于拐弯处。

有显著颜色差异的盲道图像可以用HSV颜色空间的描述来转换,在色相空间用阈值分割的方式将盲道准确定位并分割出来。HSV颜色空间中,色相。饱和度以及亮度是描述颜色特征的三大形式。色相明显度可以定位坐标系中的角度,颜色的差异越显著其色相分量也就相差越大。利用阈值分割可以直接划分出色相强度的区域,再转为二值图像然后检测边缘,最终确定盲道边界。

2.基于纹理区域的图像分割

盲道识别算法中基于颜色分异来划分是最直接有效的方法,可它并不能适用于所有的盲道识别分割,因为并非所有的盲道与人行道都有明显的颜色区别。有时候盲道的颜色与人行道的颜色非常相似,只是盲道有凸出纹理,而人行道是平滑无凸出的。在这样的情况先,只能用基于纹理的盲道识别算法来分割忙到区域并且对其边界线进行检测。

与基于颜色区域的图像分割法相似,纹理分割法实际上也有很多种算法,但无外乎都有两个过程,基于建立纹理特征的模型和聚类两部分。盲道的纹理特征主要表现在模型的分割、特征值的分割和结构的分割。具体就是在实际操作中做一个符合盲人感观的图形,如条形状、方块状、不规则的凹凸状,然后在从图形中計算出地域和时间的相对恒定的特征值,再用这些特征值来注明某个地域的性质区别,最后用结构分割法将图像的结构大小分割开来,再用规定的方法排列成新的特征,从而进行识别。利用一种典型的逐点修改迭代的动态算法,即K-means 的聚类方法,可以实现特征聚类过程。对于差异较大,纹理基元大小难以估计的盲道,通常使用基于特征的纹理提取算法。

3.基于直接 Hough 的直线检测

基于颜色区域的图像分割与基于纹理区域的图像分割并不能解决所有盲道识别的问题,尤其是针对盲道上结构性较强的宏纹理的测量结果往往不准确。这种情况下基于直接Hough 的直线检测就显得非常重要。比如颜色与人行道颜色非常接近的盲道,其凸出纹理与人行道地砖的纹理也非常相似,那么基于纹理的分割方法就难以精确分割盲道边界线。但是各个砖块之间有明显的缝隙,根据其梯度的变化来找出边缘界线就相对简单易行。

只要找到其中一条边缘线,就可以提取出盲道边界。

四、讨论

基于颜色区域的图像分割、基于纹理区域的图像分割、基于直接 Hough 的直线检测是盲道边界识别分割的三种常用方法。从一些盲道的采集图像中可以看到城市中大多数盲道的颜色与人行道的颜色具有显著的差异,纹理差异显著的盲道也有很多。三种方式在不同的盲道识别中有不同的适用范围,在相匹配的盲道识别中将发挥其不可替代的作用。(作者单位:四川大学电子信息学院)

参考文献:

[1] 徐杰,李晓虎,王荣本,等.车辆自主导航中的道路边界识别算法[J]中国图像图形学报,2003,8(6):674-678.

[2] 袁小萍.试论ATM 案件的作案手段及侦查思路[J]犯罪研究,2005,(4):56-62.

[3] 周小四,王淑华,杨杰.数字图像监控网络报警系统设计[J]计算机工程,2002,28(4):61-63,101

轴承压印字符自动识别算法的研究 篇4

目前针对轴承上字符的自动识别技术尚无相关报导。文献[1]利用最小二乘法拟合迭代圆心,采用灰度加窗变换构造锯齿波提取轮胎规格号。轮胎规格号和轴承字符都是沿径向分布,需要矫正字符区域,但由于目标差异较大,轮胎规格号的提取方法不能直接用于轴承字符。文献[2]提出了基于灰度图像的压印字符特征抽取方法,结合小波和DCT提取字符特征。轴承字符也是压印字符,但特征提取是基于二值图像的。

本文根据轴承压印字符的特点,研究了图像采集、字符提取及识别的方法,并通过实验验证了方法的有效性。

1 图像采集

轴承字符是在生产线上通过凹凸字模在轴承表面直接压印而成的,称为“压印字符”[3]。压印字符区域与背景区域材质相同,其间没有色差,但高度不同,属于立体字符。图像采集时,利用字符区域与背景区域之间的高度差实现字符成像。

为了获取质量较高的字符图片,便于后续的图像字符识别,采用CMOS相机辅助以LED光源的图像采集方案。LED光源选取低角度环形光源。低角度照射方式会滤去入射光线中的近正入射光线,剩下较大入射角度的光线照明物体,使物体表面凹凸不平处对入射光产生散射光线,并进入物镜和目镜成像,物体表面凹凸的形状和轮廓得到加强,散射表面变亮,平坦表面变暗[4]。轴承压印字符表面是凹凸不平的,借助低角度环形光源,可获取轮廓完整的字符。实际采集到的轴承字符图像如图1所示。

2 字符图像提取

2.1 圆心定位

轴承上的压印字符处于圆环区域上。圆心定位是否准确,会影响后续字符的变换、识别。圆心定位是基于二值图像的。利用大津法对轴承灰度图像进行二值化,得到的二值图像如图2所示。

随机Hough变换(Randomized Hough Transform,RHT)[5]是在图像空间随机选取不共线的3个点映射成参数空间的1个点,是多到一的映射,避免了传统Hough变换一到多映射的庞大计算量。但是,在使用RHT处理复杂图像时,随机采样仍会引入大量无效单元,造成无效累积。为了减少无效累积,提出一种改进的RHT用于圆心定位。算法具体步骤如下:

1) 设定检测圆的最大半径Rmax和最小半径Rmin,随机取点最大次数nmax,候选圆参数累积阈值Pt等。

2) 采用Canny 算子提取图像边缘,边缘点集合为D。

3) 从集合D中随机选取不共线的3个点(xi,yi),(xj,yj),(xk,yk)。若任意2个点间距离大于Rmax,则重复步骤3)。

4) 计算由这3个点所确定圆Cijk的圆心(aijk,bijk)和半径Rijk[6]。若圆心超出图像范围或半径不在Rmin~Rmax内,则跳转到步骤3),否则继续执行。

5) 采用Sobel算子求得边缘在这3个点处的梯度所在直线的方向αi,αj,αk,取值范围为(-π/2,π/2]。候选圆在这3个点处法线方向为

undefined

当下面的式(2)成立时,将此圆确定为候选圆并继续执行,θth为预先指定的阈值。否则跳转到步骤3)。式为

undefined

6) 遍历集合D中的点(xl,yl),若满足式(3),则表示此点在候选圆上。

undefined (3)

在对集合D中的点进行遍历时,若点在候选圆的外接矩形框的范围之外,即xl>aijk+Rijk+t,xlbijk+Rijk+t,ylPt时,判定候选圆为真实圆。否则跳转到步骤3)。

7) 当找到了符合要求的圆,或随机取点次数超过nmax,算法停止。

当对复杂图像利用RHT进行检测时,虚假圆的参数累积也可能达到Pt,从而造成误检测。改进的RHT利用梯度方向信息,降低了虚假圆进行参数累计的几率,减小了产生虚假圆的可能性,提高了圆心定位的准确性,也减少了候选圆确认次数。在候选圆参数累积的过程中,改进的RHT只对在候选圆外接矩形内的像素进行平方运算,减少了大量不必要的运算,提高了圆心定位的速度。

采用改进的RHT对轴承图像进行圆心定位,候选圆的半径由Rmax和Rmin决定,阈值Pt=λ×2πRijk,λ为给定的比例系数。圆心定位精度受参数δ控制,δ越小则圆心定位精度越高,但定位速度就会变慢。为了保证圆心定位的精度和速度,通过实验选取合适的δ。圆心定位结果如图3所示。

2.2 字符定位

以圆心为极坐标原点,利用投影法扫描确定字符区域的具体位置。沿圆周方向扫描时,若扫描起点选取不当,如扫描起点处于字符所在区域内,则会将同一字符区域或同一字符分开。为了避免这种情况,选择水平方向0°为起点,顺时针扫描找出一块宽度大于设定阈值的空白区域,并选取此空白区域的中点为起点。

将轴承字符区域与圆心的距离作为先验知识,确定扫描范围。设定径向扫描范围radiusbegin~radiusend,圆周方向扫描范围为anglebegin~angleend。计算径向和圆周方向投影值,投影曲线如图4所示。利用得到的投影值,确定每个字符在极坐标中的位置。当投影值大于thresholdhigh时,将对应的点设为起点,当投影值小于thresholdlow时,将对应的点设为终点。其中thresholdhig和thresholdlow为由实验确定的阈值。字符只有一行,行起始值和终止值为rowbegin~rowend,第n个字符的列起始值和终止值为lineend[n]~linebegin[n]。将字符平均宽度作为先验知识,可有效解决字符的断裂或粘连问题。字符在极坐标中的位置如图5所示。

2.3 仿射变换字符区域矫正

为了便于字符识别,需要将字符扇形区域变换到矩形区域,一般采用极坐标变换。具体方法描述如下:以轴承圆心为极坐标变换原点,(rowbegin-rowend)为变换后的矩形的高度,((rowbegin+rowend)/2)×(lineend-linebegin)为矩形的宽度,矩形图像上点(i,j)对应扇形字符区域上点(x,y),计算公式为

undefined

坐标值是以整数表示的,这种方法实质是先将图像表示为极坐标形式,再通过极坐标变换将字符扇形区域矫正为矩形区域,在计算过程中要做两次近似处理[7]。所以会使近似误差累积,变换后的矩形图片产生失真,毛刺较多,如图6所示。

为解决图片失真问题,采取仿射变换矫正字符图像,计算中只需进行一次近似处理。步骤如下:

1) 利用单个字符在极坐标系中的位置和圆心坐标,求字符的外接矩形abcd。顶点a在直角坐标系中的坐标计算公式为

undefined

其中,(midtopx,midtopy)是外接矩形上侧边的中点,width和hight为外接矩形的宽和高,分别由式(5)和式(6)求得

undefined

undefined

同理可得b(bx,by),c(cx,cy),d(dx,dy),从而得到单个字符的外接矩形abcd。

2) 由式(7)计算需要进行仿射变换的矩形区域ABCD

undefined

3) 以矩形ABCD(如图7所示)的中心M(X,Y)为轴心,顺时针旋转θ弧度,进行仿射变换,变换矩阵为

undefined

其中,(X,Y)=((Ax+Bx)/2,(Ay+Dy)/2),θ=π/2-γ。计算过程中使用双线性插值。

矩形ABCD经过仿射变换后,字符变为水平,利用矩形ABCD和矩形abcd间的关系,取出单个字符。全部字符变换后,结果如图8所示。可以看出,利用仿射变换矫正的字符图像质量与极坐标变换后的相比,有明显的改善。本文方法利用定位出的字符位置,求出需要变换的矩形区域,然后以矩形中心为轴线旋转指定角度。计算像素值时只须进行一次近似处理,并采用双线性插值,减少了毛刺的产生,使变换后图像质量较高。

3 字符识别

将单个字符归一化为48×32。压印字符拍摄出来显示为空心字符,故提取轮廓层次特征。轮廓层次特征描述为:从上下左右4个方向扫描字符,第n次从背景像素跳变为目标像素时的坐标点。轮廓层次特征维数往往较高,两层轮廓层次特征的维数为(48+32)×4=320。选取db2为小波基函数[8],对轮廓层次特征应用小波分解,选取分解结果的低频部分为特征[9],不但可以降低特征的维数,也能够提高特征的抗干扰性。特征经2次小波变换后,得到80维特征向量。

字符识别选用支持向量机(Support Vector Machine,SVM)为分类器[10],算法实现上使用LIBSVM。SVM输入为80维,属于36类(数字和英文字母)多分类问题,选择RBF函数为核函数,惩罚因子C和核函数参数γ由网格搜索法来求取最优值。

4 实验与结果分析

采集轴承图片共200幅,选取100幅作为训练样本。在VS2005上编程实现算法,提取字符的轮廓层次特征,并送入SVM中进行训练。网格搜索法得到的最优参数组合为C=64和γ=0.062 5。剩下100幅作为测试图片。在Pentium Dual-Core E5200 CPU,2 Gbyte内存的计算机上测试。

首先统计圆心定位的正确率和定位速度。改进的RHT算法与RHT算法作对比,测试结果如表1所示。

表1结果表明,改进的RHT和RHT都能较准确地定位圆心位置,但是在定位时间上,改进的RHT的要比RHT快很多。

然后测试轴承字符自动识别的正确率和平均识别速度。圆心定位采用改进的RHT。字符的矫正将本文方法与极坐标变换矫正扇形区域的方法作对比,测试结果如表2所示。结果表明,利用仿射变换矫正和利用极坐标变换矫正在识别时间上都能满足要求。但极坐标变换的图片毛刺较多,识别率较低。本文方法矫正后图像质量较高,识别率也有所提高。

5 结束语

针对轴承压印字符自动识别的难点,使用CMOS相机辅助以低角度环形光源采集图像,获取字符轮廓清晰的图片;然后使用改进的RHT定位圆心,提高了圆心定位的速度和精度;利用仿射变换矫正字符区域,变换后字符图像质量较好;最后提取轮廓层次特征并利用SVM训练和识别。实验表明,本文方法能快速而准确地对轴承压印字符进行自动识别,圆心定位和字符识别的准确率都在97%以上,识别速度上也能满足实际需求。

摘要:为了方便轴承的生产和管理,针对轴承上字符的特点,提出了一种自动识别轴承压印字符的方法。首先借助环形光源,利用“反光差”产生并采集字符图像;然后利用随机Hough变换定位轴承圆心,并确定目标字符的位置;通过对单个字符进行仿射变换矫正字符区域;最后提取轮廓层次特征,并使用支持向量机识别。实验表明,该方法能够实现轴承字符的自动识别,并能满足实时性和识别率的要求。

关键词:字符识别,压印字符,随机Hough变换,仿射变换

参考文献

[1]杨基春,黄战华,朱猛,等.高噪声轮胎图像规格号提取方法研究[J].光电工程,2010,37(3):24-28.

[2]路长厚,曹建海.基于小波和DCT的灰度压印字符图像的特征抽取[J].计算机工程与应用,2004(6):23-26.

[3]赵巍.金属材料压印凹凸小类别字符的识别研究[D].昆明:昆明理工大学,2008.

[4]李建美.标牌压印字符图像获取与处理中的关键技术研[D].济南:山东大学,2008.

[5]蒋联源,苏勤,祝英俊.快速随机Hough变换多圆检测算法[J].计算机工程与应用,2009,45(17):163-166.

[6]陈爱军,李金宗,李东东.一种改进的随机圆检测算法[J].光电工程,2006,33(12):91-95.

[7]黄剑航.基于HALCON的圆环区域字符识别实现[J].现代计算机,2010(7):58-60.

[8]张一,成礼智.小波变换图像压缩中最优小波基的选取方法[J].电视技术,2004,28(10):4-7.

[9]秦钟,徐建闽,史胜利,等.基于方向轮廓的小波分解车牌字符识别方法[J].微计算机信息,2006,22(8-1):229-231.

自动识别算法 篇5

分析人士称,人脸识别领域的投资预计还将继续增长。由于中国人口众多和集中式的身份数据库,中国在人脸识别技术上取得了长足的进展,同时也催生了一批颇有前途的人工智能初创企业。而通过使用复杂的人工智能算法,许多创新型的中国科技初创企业也与有关部门展开合作,在金融服务、零售和旅游场景中部署面部识别系统。

那些推动AI技术落地的幕后功臣,让我们看看谁最牛吧!

1、SenseTime 商汤科技成立于2014年,专注于计算机视觉和深度学习方面的原创技术,是全球领先的人工智能平台公司,目前其研究领域已经扩大到了自动驾驶和增强现实,与麻省理工学院、华为小米等诸多高校和企业建立了合作关系。

商汤科技2017 年 7 月获投 4.1 亿美元 B 轮融资,引起业内极大的关注,创下当时全球人工智能领域单轮融资额纪录,成为世界级的人工智能独角兽企业。2018年4月份,商汤科技完成了6亿美元的C轮融资,由阿里巴巴集团领投,新加坡主权基金淡马锡、苏宁等投资机构和战略伙伴跟投。商汤科技表示,本轮融资结束后,其估值超过45亿美金,继续保持全球总融资额最大、估值最高的人工智能独角兽地位。

而在团队方面,2017 年左右商汤团队就已有 700 人,其中有 120 位拥有博士学位。商汤科技现已在香港、北京、深圳、上海、成都、杭州、日本京都和东京成立分部,汇集世界各地顶尖人才,合力打造一家世界一流的原创人工智能技术公司。中国“智”造,“慧”及全球。

2、Face++ 北京旷视科技有限公司成立于 2011 年 10 月。成立之初,旷视科技获得了联想之星天使融资;2013年获得创新工场百万美元 A 轮投资;2015年获得来自启明创投、创新工场2200万美元B轮融资;2016年获得建银国际、富士康集团融资。在2016年底完成新一轮的1亿美元融资后,旷视科技的估值已至20亿美元。据彭博社援引知情人士消息称,旷视科技正进行至少6亿美元融资,参与融资的投资者包括阿里巴巴和博裕资本(Boyu Capital)。此后该公司将寻求进行第二笔融资。本轮融资后,旷视科技将会用筹得资金的主要部分用于支持零售领域,包括将其技术用于无人商店。

旷视以深度学习和物联传感技术为核心,立足于自有原创深度学习算法引擎 Brain++,深耕金融安全,城市安防,手机 AR,商业物联,工业机器人五大核心行业,致力于为企业级用户提供全球领先的人工智能产品和行业解决方案。发展至今,旷视已在北京、西雅图、南京设立独立研究院,并在十余个核心城市设立分部。在“赋能机器之眼,构建城市大脑”的愿景下,旷视人正在推动人工智能技术在中国及全球范围的产业落地,并通过打造 MegCity 城市大脑数据平台为构建智慧城市、平安城市基础设施而奋斗。

3、云从科技

背靠“计算机视觉之父”,中科院实验室创业团队创立人工智能国家队

在人脸识别三大“独角兽”中,成立于2015年的云从科技是年轻但也是务实的一位。在成立两年多的时间,云从科技迅速击败其它老牌明星竞争对手,让100多家金融机构成为其客户,安防产品在全国23省上线,并与中国科学院重庆研究院合作,覆盖了全国80%的枢纽机场,成为银行、机场行业的第一大供应商,树立安防行业的标杆。风格与一般的互联网公司不同,塑造了极深的护城河。2017年11月,云从科技完成B轮融资,获得25亿元发展资金。

云从科技团队成员除了来自中科大的校友外,还来自中国科学院各大研究所、UIUC、IBM、NEC、MicroSoft等全球顶尖学府及研究机构;云从科技之所以称之为国家队:

一是因为它是中科院入股的纯中资背景,没有采取一般互联网公司的VIE架构;二是与公安部、四大行成立了联合实验室,成为唯一一家同时参与制定人脸识别国标、行标的AI企业。

三是它在2017年3月入选国家发改委“人工智能基础资源公共服务平台”建设,为未来商业社会运行提供AI服务。

4、依图科技

依图科技曾于2013年8月获得真格基金天使轮投资,2015年1月完成高榕资本A轮投资,2016年6月完成云锋基金领投的B轮投资,2017年5月完成来自云锋、红杉等机构的3.8亿C轮融资。

与商汤科技、旷视等国内知名的人工智能公司不同,创立于2012年的依图科技以To B业务起家,是“AI独角兽”中最早将人工智能应用于安防领域的公司,官方信息显示,目前其安防产品已应用于中国近30省。

除了招兵买马大力拓展安防、金融等业务,依图科技在完成C轮融资后迅速扩张,2017年12月,依图科技与IDG联合投资了AI制药公司AccutarBio,促成了迄今为止中国AI制药领域最大融资之一。随后,依图科技又与红杉资本、云锋基金等联合投资了AI芯片公司ThinkForce。有媒体报道,其子公司依图医疗也已在2017年完成了单独融资。而在今年1月依图科技新加坡办公室的开幕活动上,依图科技联合创始人林晨曦接受新智元采访时还表示,依图科技接下来会继续进军语音识别和自然语言处理,希望在这两个领域也做到超越人类水平。

至此,依图科技的“AI版图”上已囊括AI安防、AI金融、AI医疗、AI生物制药和AI芯片几大板块,完成了AI生态的初步布局。同时,技术产品线覆盖计算机图像识别、计算机语音识别和自然语言处理,公司整体估值已突破23亿美元。

5、中科奥森

北京中科奥森数据科技有限公司于2015年9月在北京成立,核心创始人是“人脸识别教父”、IEEE Fellow李子青教授。李子青教授曾任微软亚洲研究院研究员,现任中科院生物识别与安全研究中心主任。创始团队来自于国内最好的人工智能研究机构——中国科学院自动化研究所,团队核心技术成员来自于清华、北航、法国、芬兰等国内外顶级学术和研究机构。并与中国科学院、北京航空航天大学建有2个国家级联合实验室, 进行完全自主知识产权的原创核心技术研究与应用开发。与此同时,成立人工智能研究院,保持核心技术的持续先进性,拥有100余项发明专利和软件著作权。

中科奥森的技术领域从专注于人脸识别已经拓展至机器视觉全栈技术,并形成了完善的产品线、解决方案,并且打造了一批顶端的行业客户案例。作为一家老牌AI企业,中科奥森可以说是这个领域内唯一一家专注于技术+产品+解决方案+应用,踏踏实实做技术和产品的科技公司,而不是在玩资本。

自动识别算法 篇6

摘 要:针对智能车辆的弯道检测问题,本文依据车道线灰度相似特性和摄像头成像几何关系提出了一种基于视觉检测弯道的方法。文中首先介绍了基于形态学处理的直线检测方法,其中着重介绍了应用形态学提取车道信息的方法和利用车道线宽度比例法分割图像的方法;然后详细介绍如何根据直线检测结果和真实车道线的重叠状态实现实线曲线的检测;最后重点介绍了融合实线检测结果、成像几何关系、车道投影特征和单目测距模型实现虚线车道线检测的方法。实验结果表明基于车道线投影特征、灰度相似特性和摄像头成像几何关系的弯道检测方法具有很强的鲁棒性和抗干扰性。

关键词:驾驶辅助;区域生长;成像几何;曲线拟合

中图分类号:U467.5 文献标识码:A 文章编号:1005-2550(2016)06-0065-07

Abstract: For detecting the curve lane on all intelligent vehicles,this paper proposed a visual detection method based on the gray similar features on lanes and the imaging geometry of a camera. Firstly this paper introduced a linear detection method based on morphological processing, which focused on the application of morphology to extract the lane information and the image segmentation depending on the lane line width ratio; Then introduced how to realize the detection of solid curve line according to the overlap state between the linear line detection result and the real lane line; Finally introduced the method for detecting the dotted lane line ,which was realized by the fusion of the solid line, the imaging geometry, the lane projection and the visual model. The experimental results showed that the detection method based on the lane line shape features, gray similar characteristics and camera imaging geometry had enough robustness and anti-interference.

Key Words: driving assistance; region growing; morphology; imaging geometry; curve-fitting

前 言

驾驶辅助系统通过感知车辆行驶环境,结合车辆本身的行驶状态来评估当前行车安全性,当存在安全隐患或危险即将发生时通过视觉、触觉、听觉中的一种或多种方式提醒驾驶员,当有必要时可以启动车辆控制系统以减轻甚至避免危险的发生。车道线检测是行车环境感知中的重要探测目标之一,也是提高其它探测目标如车辆、道路标识、静止物体等的准确性的常规且可靠的手段。利用视觉检测车道线是公认的通用方式。

目前成熟的车道线检测技术大多都是适用于直道的,而实际的行车环境中即便是在高速或高等级的道路上,弯道出现的概率也不低,且据国家交通部公布的数据,每年弯道路段事故数量占总事故数平均约10%,故弯道检测的必要性是不言而喻的。通过准确定位车辆行驶前方弯道车道线位置可以避免弯道上行驶时无意识偏离本车道,也可以排除本车道区域以外非避撞目标对车辆行驶前方障碍物识别的干扰,提高识别准确率,还可以直接判断车辆前方道路可行驶区域以控制车辆的转向换道、加速、制动避撞等动作。

弯道检测技术难以成熟应用的主要原因是因为弯道形状多变、道路模型多样、干扰多。现有最常用也是普遍认为最有效的弯道视觉识别技术是采用基于道路模型的方法,通过建立一个最适应的车道曲线模型,然后基于车道线边缘点分布进行模型参数解算。在特定的结构化高等级公路上检测效果较好,但不同道路工况、车辆颠簸与否条件下的弯道模型都不同,预设模型不能适用于弯道幅度和形状多变的行车环境,同时边缘点是模型参数求解的计算依据,车道线以外的边缘点会对曲线模型准确性造成影响。

针对弯道识别的需求和已有弯道识别技术存在的不足,本文提出了一种弯道识别方法,能够适用于弯道幅度和形状多变的行车环境且受车道线外干扰点影响小。技术方案框架如图1所示:采用已经验证可靠的识别算法进行直线车道线检测;根据直线检测结果与实际车道线的重叠状态判断当前行车环境是否是弯道且有实线,若是则依据车道线像素灰度的相似性检测实线一侧车道线,否则采用前述道路模型拟合的方法进行两侧车道线检测;在实线检测结束后融合实线分布状态、车道投影特征、单目测距模型实现虚线曲线的检测。

1 线性车道线检测

智能车辆视觉系统通过摄像头采集RGB图像,根据通用的R、G、B分量提取方法按照30:59:11的比例进行图像灰度化以减少计算量;使用形态学进行图像预处理以消除掉部分非目标信息,凸显有用的目标信息;进行灰度拉伸增强图像对比度,便于后续的图像分割;针对已经形态学预处理车道线灰度特征明显的特点,采用计算量小的宽度比例法进行车道线二值化将车道线从背景中分割出来;依据车道线形状特性使用sobel左右分区45°算子进行边缘提取;根据车道线在图像中的分布范围利用设定区域约束的霍夫变换实现最终线性车道线的检测。对图像的有效信息进行分析不难发现道路上的车道线一般位于整个图像的下方约2/3区域,上方其余区域是天空等非路面区域。为了减少计算量,增强车道线检测的实时性、准确性,本文的算法只对整个图像下方的2/3区域进行处理。

1.1 形态学处理提取车道线

形态学是以形态结构元素为基础对图像进行分析的数学工具,基本思想是用具有一定形态的结构元素去度量和提取图像中对应的形状,以达到消除图像中无关信息从而增强目标的可检测性和最大限度简化数据的目的。运用形态学可以从原图中将车道线特征提取出来,排除原图中大部分干扰因素。

采用尺寸较大的线性结构元对图像进行先腐蚀处理后膨胀处理可以将车道线及与其相似的特征从图像上去除,而将其它信息加以凸显。通过对比形态学处理前后的图像,从特征差异中提取出主要包含车道线信息的车道线特征图。再利用尺寸较小的3*3结构元对车道线特征图像进行先腐蚀后膨胀的处理以有效消除较小的干扰因素,如车道印迹。

1.2 车道线二值化

从图3b)中可以看出,图像本身信息已经简化,图像中目标相对单一,为了提高检测准确性并减少计算量,本文采用车道线宽度比例法实现车道线的二值化,其依据是车道线在图像中所占的宽度范围的可标定性。当摄像头安装角度固定时,车道线宽度的像素数范围即可通过MATLAB等软件进行确定,即车道线宽度所占像素数与图像总像素数比例范围Ф可定。根据经验和研究的可行性,我们一般将图像下方2/3区域分为两区,靠近图像底部的1/3部分为近视野区,其余部分为远视野区,如图4所示。显然在图像中近视野区的车道线宽度像素数多于远视野区的车道线宽度像素数,故在进行阈值分割时远近视野区使用不同的车道线宽度比例。

2 实线曲线检测

2.1 车道线缺口填充

由于光照或路面干扰影响,有的图像中实线车道线二值化后不连续,会影响实线一侧的检测,如图7a)圆圈标记处的缺口。形态学闭运算可以用来填充比结构元素小的区域内细小空洞、连接邻近区域并不明显改变其形状,利用形态学闭运算可以有效地对车道线上的缺口进行填充。

2.2 确定实线曲线检测的起始位置

实线一侧由部分直线和部分曲线拼接而成,在检测过程中直线部分保留前述检测结果,曲线部分采用基于局部灰度相似性进行检测,拼接的一个关键问题是正确如何确定直线和曲线的分离点来保证检测的鲁棒性,而该分离点在不同道路、不同行车工况和状态中是动态变化的,会随机出现在远视野区或近视野区的任何位置。车道线二值化图中实线一侧上像素值相同(均为255)且通过闭运算处理之后基本连续,从此特性出发,分析直线检测结果(图8a))和二值化车道线重叠状态(图8b)),在图8b)中从下往上逐个查找二者的不重叠像素点位置,并通过各位置邻近行、列特特征对比的约束条件确定分离点(图8c)中“X”标记处),分离点所在行即为实线曲线检测的起始行。

2.3 依据车道线像素灰度的相似性检测实线车道线

车道线二值化闭运算图中实线上灰度都是255,基于局部灰度相似性从图8c)中分离点“X”和其所在行开始往上对所有相连且灰度为255的像素点逐个进行像素合并,合并过程中将被合并的每行车道线边缘位置更新到前述记录的车道线位置数据PL[NUMLINES]或PR[NUMLINES]中直到完成实线曲线检测。当两侧均为实线时,到此即完成了弯道检测,效果如图10所示;当另一侧为虚线时(图9),还需要继续进行虚线检测。

3 虚线曲线检测

根据单目摄像头的投影特征,建立了行车环境中目标纵向分布位置在摄像头中的成像几何关系,如图11a)所示,与此对应的真实车道线信息在空间坐标中的位置模型如图11b)所示,目标成像效果如图11c)所示。其中图11b)和图11c)中下方的四个“X”点为虚线曲线拟合的参照点,在整个拟合中参照点一旦确定即不发生变化。标记“?”表示待拟合的点,即从拟合起始行StH行向上逐行开始的虚线侧的边缘点。

图11c)中第一行两个参照点是左右车道线直线检测结果与图像底边的交点,其像素位置即PL[0]、PR[0],(Dy0,δL0)和(Dy0,δR0)分别是两个参照点在空间坐标系中与摄像头安装位置的纵向距离和横向夹角;StH是左侧虚线拟合的起始行位置,其确定方法类似于实线上曲线部分与直线部分分离点的查找方法,即基于直线检测结果与实际车道线的重叠状态,但由于虚线一侧是不连续的,故查找方向是自上而下,PL[StH-1]和PR[StH-1]分别是此行上的两个参照点像素位置,(Dy1,δL1)和(Dy1,δR1)分别是这两个参照点在空间坐标系中与摄像头安装位置的纵向距离和横向夹角;m表示从StH往上各行的行位置,PR[StH-1]是此行上的实线上参照点像素位置,(Dy2,δR2)是此参照点在空间坐标系中与摄像头安装位置的纵向距离和横向夹角。

3.1 位置模型建立

3.2 虚线拟合

与虚线上各像素点有关联的数据包括三维空间中实线侧与虚线侧基本稳定的横向间距、图像中同一像素行上实线侧车道边缘点的像素坐标和该行距离摄像头的纵向距离,同时从图11b)和已建立的关系模型中可以看出这三个参数也是计算虚线侧位置数据PL[]的必须已知量,这三个参数中前两者均已已知,未知的参数Dy2需要计算。

4 算法分析与测试

4.1 测试结果

为了验证本文提及的方法的效果,在Visual C++ 6.0平台上完成了所提技术方案与基于道路模型拟合的对比实验。本车道两侧均为虚线时检测方法相同,故对比测试是针对的两车道高速或市区弯道公路工况。测试中道路预设模型为性能较好的回旋曲线模型,从测试中提取了三段连续的高速公路图像样本,每段连续图像分别包括了700帧图片,并从测试中分别提取了出现车辆颠簸的图像样本和路面出现干扰标识的图像样本。

从测试数据和效果可以看出:基于道路模型拟合的方法虽然在弯道形状与预设模型特征一致的工况中检测效果理想,但此方法不适用于弯道形状与预设模型不一致工况。而本文所提的技术方案从原理上考虑了算法工况适应性问题,具有较强的鲁棒性:当弯道的幅度和形状发生变化时,实线内部的灰度合并方向、起始位置会跟随车道线分布状态动态调整,故适用于弯道形状多变、路面不平坦的行车环境;且实线车道线的检测只在连通的实线内部进行灰度合并,而车道线以外的干扰通常不和实线车道线连通,故算法抗干扰能力强。

5 结论

研究的弯道识别算法与传统的分段直线模型、道路模型拟合方法相比,通过动态检测能准确判断弯道的起始位置和走向,搭建的车道位置模型能较好地拟合出弯道的真实形状和位置。通过大量道路图像的验证测试,本算法适用于弯道形状多变的行车工况,具有较强的鲁棒性。

参考文献:

[1]徐岩, 雷涛.XU Yan,LEI Tao. 基于形态学方法的车道线检测算法研究[期刊论文]-铁道学报2009(1).

[2]刘涛, 黄席樾, 周欣, 黎昱. LIU Tao, HUANG Xiyue, ZHOU Xin, NI Yu.高速公路弯道识别算法[期刊论文]-重庆大学学报2003(7).

[3]葛平淑, 徐国凯, 宫长明, 赵秀春. GE Pingshu,XU Guokai, GONG Changming, ZHAO Xiuchun. 基于特征点提取的弯道识别算法研究[期刊论文]-大连民族学院学报2014(1).

自动识别算法 篇7

遗传算法采用了基于种群的全局搜索方法,它有很大机会获得全局最优解,因此笔者提出了一个改进隐马尔可夫模型(HMM)的方法,即把遗传算法应用到Baum-Welch算法B值的优化当中,实验结果表明该方法产生的模型识别率较高。

1 遗传算法

遗传算法[2]模拟自然界优胜劣汰的进化现象,把可能的解编码成向量———染色体,把搜索空间映射到遗传空间。它通过不断计算各个染色体的适应度值,从而选择最好的染色体,来获得最优解。

遗传算法的3个主要算子是选择、交叉和变异,操作的对象为个体,它们构成了整个遗传过程,使遗传算法具有其他传统方法所没有的优良特性。

2 HMM

笔者采用的HMM模型状态数为5,码本的大小选为128,模型参数用λ=(A,B,л)来表示,状态转移矩阵为A=[αij],输出分布矩阵为B=[bjk],初始状态分布矩阵为л=[лi],观测序列为O=O1,O2,…,OT。

在HMM识别中,训练数据用来训练模型,测试数据用来识别模型。其中,训练过程很重要。传统的训练方法是Baum-Welch算法,笔者引入了遗传算法来优化B值,使最终得到的系统模型最优。

3 用遗传算法改进HMM

传统的离散HMM(DHMM)训练算法是先初始化DHMM,即初始化状态转移矩阵A、输出分布矩阵B和初始状态向量л,然后用Baum-Welch算法进行迭代训练,找到最优的HMM。全局寻优是遗传算法的一个主要功能,笔者把遗传算法与Baum-Welch算法结合起来进行训练,得到最终较优的模型。

3.1 遗传算法的步骤

大体来说,遗传算法主要由以下4步组成[2]:第一步随机地建立初始群体;第二步计算各个体的适应度;第三步根据遗传规律,利用复制、交叉和变异3种算子产生新群体;第四步反复执行二、三步后,一旦达到终止条件,选择最佳个体作为遗传算法的结果。

3.2 遗传算法的设计

1)编码。由于B矩阵中每一行元素之和为1,为保证每次产生的新一代种群的个体参数仍满足此条件,需要做归一化的工作。这里每一个个体对应于一个HMM,染色体对应于模型的参数B,编码采用二进制编码方法。

2)适应度函数。DHMM的训练中希望训练数据对模型的似然概率越高越好,这里个体的适应度用各个训练样本的对数似然概率来表示

式中,O(k)表示用于训练模型的第k个观测序列,P(O(k)|λ)为似然概率。

遗传算法中,个体的适应度由适应度函数[3]来度量,必须保证越符合目标的个体其适应度越高。

3)选择策略。实验中采用了轮盘赌选择方法[4],由于该方法还要求适应度为正值,所以需要对适应值做进一步的调整使其为正值。选择策略的选取直接影响着算法的收敛,最常用的是基于适应值比例的选择和基于排名的选择。

4)遗传算子。笔者采用的是多点交叉,基本位变异,种群的大小设为100,杂交的概率Pc取0.8,变异的概率Pm取0.005。遗传算子包含杂交算子和变异算子。某种程度上,杂交算子相当于一个局部搜索操作,它产生父代附近的2个子代,而变异算子则使得个体能够跳出当前的局部搜索区域,二者的结合正好体现了遗传算法的优化所在。

5)终止准则。实验中采用的是预先设置最大进化的代数作为终止准则,最大进化代数设置为500。

4 实验结果及讨论

笔者所用HMM为自左向右无跨越模型,每个单词的模型为5个状态,观测符号M为128。用10个孤立词16个人的发音来做实验,每个人每个词发音3次,其中9人的发音用于训练模型,7人用于识别,故每个词的HMM参数使用27个序列来训练,21个序列来做识别。笔者用软件仿真实现了遗传算法以及Baum-Welch算法,优化了HMM,得到了较高的系统识别率。

传统算法和改进后算法所得识别率的比较,见表1。从中可以看出改进后算法比传统的训练算法识别率有所提高。特别是在信噪比(SNR)变低时,改进后算法的识别率比传统算法识别率提高更多一些,这些可作为进一步研究抗噪语音识别的基础。

(%)

参考文献

[1]尹星云,王洵,董兰芳,等.隐马尔可夫模型设计人脸表情识别系统[J].电子科技大学学报,2003,32(6):725-728.

[2]王晓勇.基于遗传算法和神经网络的故障诊断研究[J].微计算机信息,1998,34(2):219-221.

[3]张思才,张方晓.一种遗传算法适应度函数的改进方法[J].计算机应用与软件,2011,23(2):108-110.

自动图像标注算法研究 篇8

图像语义标签和视觉特征之间的语义鸿沟是图像标注中亟待解决的问题。目前存在的图像标注算法主要包括三类:基于分类的算法、概率模型算法和最近邻算法。基于分类的算法把图像标注问题视为图像分类问题, 经典的算法包括:支持向量机 (SVM) [1]、高斯混合模型 (GMM) [2]等。基于概率模型的算法是从概率统计角度, 实现图像的自动标注。代表性的算法有:交叉媒体相关模型 (CMRM) [3]、连续相关模型 (CRM) [4]和多伯努利相关模型 (MBRM) [5]等。最近邻算法将自动图像标注问题视为图像检索问题, 这类方法对感兴趣的标签个数扩展性很强, 取得了较好的标注效果。

近年来, 稀疏编码在计算机视觉领域得到广泛关注。在文献[6]和[2]中, 稀疏编码被用于解决图像标注问题, 将所有的训练图像等权重来重构测试图像。本文采用局部稀疏编码来解决图像标注问题, 主要创新点有:

(1) 结合图像的标签和视觉信息提取特征, 之前的算法仅利用了图像的标签信息, 可以减少同义性和多义性的影响;

(2) 仅利用待标注图像的近邻来重构待标注图像, 降低了计算复杂度, 在编码过程中, 对重构稀疏进行罚约束。

2 提出的算法

2.1 特征选取

特征选取的目标是得到一个线性变换P∈Rd×p (p<d) 将原始空间的数据映射到低维空间。X=[x1, x2, …, xn]∈Rd×n表示训练图像的特征矩阵, yi=PTxi, Y=[y1, y2, …, yn]∈Rp×n为转换后矩阵。

由于标签集合和视觉特征相似性不一致, 采用l1-罚局部稀疏编码去重构语义图像。采用文献[1]重构W 2, 利用标签集去寻找图像的相关近邻, 产生近邻图像的高斯核矩阵, 即:

Δ=β (I-W 1) T (I-W 1) + (I-W 2) T (I-W 2) β是一个常数。可以通过特征值分解法得到上述优化问题的解P。

2.2 局部稀疏编码

(1) 对于查询图像q, 在低维空间中找到它的k-近邻, 记为Nq。

(2) 用Dq表示字典元素yi∈RK, 采用文献[7]中LARS算法的权重版本解决下列优化问题:

(3) 将αq扩展为n维, 用αq'表示。若yi∈Nq, 则αqi'=αqi, 否则αqi'=0。

2.3 标签传递

重构待标注图像, 得到系数矩阵α'=[α1', α2', …, αt']。从而得到标注矩阵C q=Cα', 其中C=[c1, c2, …, cn]是训练图像标签矩阵, 每一列ciq的最大几个标签被认为是查询图像的最终标注结果。

3 实验

Corel5K是图标标注的标准数据集, 包含5 000幅图像, 每幅图像有1~5个标签。选取5种典型的特征:GCM、LBP、Gabor小波纹理、Edge边缘特征和Gist特征。通过计算平均查准率P、平均查全率R、查全率大于0的标签个数N+来对模型进行评价。表1为本文提出的算法与最新的图像标注算法在Corel5K上实验结果, 可以看出, 本文提出的算法明显优于最新的图像标注算法。

4 结语

本文提出了一个新的局部稀疏编码方法解决自动图像标注问题。在重构过程中, 对权重稀疏加上罚约束用来寻找近邻信息。标准数据集Corel5K上的实验结果表明, 本文所提出的的算法优于最新的图像标注算法。未来, 将研究新的稀疏重构方法来解决自动图像标注问题。

摘要:提出一种新的局部稀疏编码方法用来解决图像标注问题。首先, 利用标签集寻找图像的相关近邻, 然后使用LLP算法得到最小局部估计误差。每一个查询图像, 找到它的K个近邻图像去重构它。最后, 将训练图像标签传递给测试图像。在数据集Core15K上的实验结果表明, 提出的算法优于其他算法。

关键词:图像标注,特征提取,K-近邻,局部稀疏编

参考文献

[1]C Yang, M Dong, J Hua.Region-based image annotation using asymmetrical support vector machinebased multipleinstance learning[J].Journal of Computer Research&Development, 2009 (5) .

[2]S Zhang, J Huang, H Li, et al.Automatic image annotation and retrieval using group sparsity[J].IEEE Transactions on Systems Man&Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man&Cybernetics Society, 2012 (3) :838-849.

[3]J Jeon, V Lavrenko, R Manmatha.Automatic image annotation and retrieval using cross-media relevance models[C]//International Acm Sigir Conference on Research&Development in Informaion Retrieval, 2003:119-126.

[4]V Lavrenko, R Manmatha, J Jeon.A model for learning the semantics of pictures[J].NIPS, 2003:553-560.

[5]SL Feng, R Manmatha, V Lavrenko.Multiple bernoulli relevance models for image and video annotation[C]//IEEE Computer Society Conference on Computer Vision&Pattern Recognition, 2004.

[6]C Wang, S Yan, L Zhang, et al.Multilabel sparse coding for automatic image annotation[C]//IEEE Computer Society Conference on Computer Vision&Pattern Recognition, 2009:1643-1650.

人脸识别特征提取算法研究 篇9

特征提取是人脸识别中一个非常重要的环节, 目的是为了降低人脸图像的维数。目前, 常用的基于统计的特征提取方法有主成分分析 (PCA) [1]和线性判别分析 (LDA) [2]等。独立元分析 (ICA) [3]是近年来发展起来的一种新的多维数字信号处理技术, 其基本思想是在最大程度保持信息量的前提下, 从高维数据空间中提取出低维数据的特征分量, 是一种基于人脸全局特征的识别方法。但ICA算法在获取独立分量的过程中需要获取人脸图像的先验知识, 这影响了识别的准确率。有效减少了后续工作的计算量, 取得了较高的识别率。

基于上述讨论, 本文将一个人脸图象矩阵视为一矢量, 通过引入模糊数学中的隶属度概念, 定义矢量隶属函数, 提出一种新的基于隶属度函数的独立成分分析特征抽取和识别方法。有效减少了后续工作的计算量, 取得了较高的识别率。本文称该方法为模糊ICA (Fuzzy ICA) 。

1、独立成分分析的基本理论

ICA最初是对盲信号的分离。利用独立成分分析 (ICA) 方法可以在不知道信号源和传输参数的情况下, 根据输入信号源的统计特性, 仅由观测信号恢复或提取源信号。独立成分分析已经成为盲信号处理中最主要的方法之一, 并在模式识别、数据压缩、图像分析等方面得到广泛的应用。

对于一组盲源信号S= (s1, s2, …sm) T, 有N路观测信号X= (x1, x2, …, xN) T, 每一路都是一维行向量的形式。存在系数 (混合) 矩阵A, 使得独立源信号S与观测信号X可以用线性关系来表示:

式中A∈RN×M, 称为混合矩阵。

存在分离矩阵W∈RM×N, 使其满足下式:

式中WA=I, I为单位阵, Y为统计独立的未知源信号S的最佳估计。

在独立成分分析中求解分离矩阵是关键。目前已提出很多求解分离矩阵的算法。本文采用FastICA方法来实现独立分量的提取【8】, 该方法是基于负熵的固定点算法, 是目前效率较高, 应用较广泛的一种ICA算法。该算法的具体描述为:

(1) 对数据进行中心化处理, 使其均值为零。

(2) 白化数据, 令白化后的数据为z。

(3) 初始化W (0) , 令其模为1, 置k=1;

(4) W (k) =E{zg (W (k-1) Tz) }-E{g′ (

W (k-1) Tz}W (k-1) ;

(5) W (k) =W (k) /||W (k) ||;

(6) 如果不收敛, 令k=k+1, 返回 (4) 继续, 否者输出W (k) 。

其中g (u) =uexp (-u2/2)

该算法最后得到的向量W, 其线性组合WTz给其中的一个独立分量。要计算n个独立分量就要重复上述算法n次, 但每提出一个分量后要从混合信号中减去这一分量。

2、基于Fuzzy ICA的特征提取和识别

2.1 算法设计的基本思想

自1965年Zadeh提出模糊概念以来, 模糊数学已被用于很多领域, 将其应用于模式识别, 形成了模糊模式识别。模糊模式识别方法是利用模糊数学中的概念、原理与方法解决分类识别问题。模糊模式识别将待识别类别、对象作为模糊集和其元素, 因此应根据实际问题需要进行特征提取或特征变换, 建立模糊集的隶属函数, 然后运用有关模糊数学的原理和方法进行分类识别。

2.2 特征提取和识别算法

ICA是PCA从二阶统计分析向高阶统计分析的拓展, 基于数据的高阶统计信息提取数据的独立特征, 能够更好的表示人脸的局部特征。具体算法为:

(1) 特征提取和变换

假设人脸图像训练集样本图像有n类人脸图像, α={α1, α2, …, αn}, 且第i类有Ni个人脸图像。

对人脸图像训练集样本图像α, 首先通过PCA算法对图像进行去二阶相关和降维处理, 然后通过ICA算法对图像进行处理, 获得由独立影像基构成的一个低维子空间:S={S1, S2, …, Sm} (m<n)

计算出此低维子空间的特征向量为:

假设Xj (j=1, 2, …, Ni) 为已知αi类人脸图像矩阵Aj (i) (j=1, 2, …, Ni) 的特征向量, Y为未知人脸图象矩阵C的特征向量, 计算Xj和Y在低维子空间中的投影向量, 即Zj=ST﹒Xj, φ=ST﹒Y。

(2) 建立矢量隶属函数。

模糊集合隶属函数的建立, 无论在理论上还是在应用上都是非常重要的。由于造成模糊不确定性的原因多种多样, 因而模糊集的种类是复杂的。实际应用中, 确定隶属函数的方法有不少, 如专家确定法、统计法、对比排序法等。

在本文中, 我们将模糊数学中建立隶属函数、隶属度的方法引入矢量空间中, 从而定义未知人脸图像矢量归属于αi类的模糊隶属度函数为:

其中, λj为任意实数, ‖﹒‖为向量范数, Zj和φ为 (1) 中得到的特征向量。

(3) 模糊结果处理及人脸分类识别。

使用模糊技术进行分类的结果不再是一个模式明确地属于某一类或不属于某一类, 而是以一定的隶属度属于各个类别。如果分类识别系统是多级的, 这样的结果有益于下一级的决策。如果这是最后一级决策, 而且要求一个明确的类别判决, 可以根据模式相对各类的隶属度或其他一些指标, 如贴近度等, 进行硬性分类。在本文中, 我们利用最大隶属度原则进行人脸分类识别, 即首先计算每个输入人脸图像 (测试样本) 对各类人脸图像的图像隶属度μai, 若, 则判别测试样本为αi类人脸图像。

3、试验结果及分析

试验中采用ORL标准人脸数据库验证该算法, 该数据库包括从1992年4月到1994年4月剑桥大学实验室拍摄的一系列人脸图像, 具体为40个人, 每个人有不同表情或不同视点的10幅图像, 共400幅图像所构成, 倾斜角度不超过20度, 这些人脸图像的分辨率为92×112, 人脸数据库中每个人的图像都是不同角度、不同时间且受一定光线和一些饰物 (如眼镜等) 影响。图1是ORL人脸数据库中部分图像:

本实验使用Matlab7.1在windows XP系统下, 为了更好地证明算法的有效性, 我们随机选取其中10个人, 每人前3幅 (共30幅) 图像作为训练样本, 其余的30幅图像作为测试样本的做法。如此重复10次试验, 最后结果取其平均值。分别采用传统的ICA方法、PCA方法和本文的Fuzzy ICA方法, 进行了人脸识别仿真实验

由图2可知, 识别率随着特征维数的增加而成上升的趋势, 本文的方法识别率高于传统PCA方法和ICA方法, 该方法识别率最高可达95.1%, 但当特征数接近100时, 识别率略有下降的趋势, 说明并不是所有的特征向量都是有效的投影空间, 有些刚好是与人脸本身无关的噪声因素干扰。

4、结束语

本文在研究采用ICA提取的具有局域特点的独立分量表示人脸基础上, 将基于模糊ICA的人脸图像特征提取和识别算法与传统的PCA和ICA人脸识别算法进行了比较, 对ORL标准人脸数据库的测试表明, 该算法的性能优越, 而且识别率较特征脸法更高。但是, 算法的计算量很大, 当样本数很多的时候, 训练时间是个问题。因此, 算法仍需进一步的改进和提高。

参考文献

[1]余晓梅, 徐丹。基于外观的子空间人脸识别方法研究[J], 计算机应用研究。2007, 24 (5) :10-12

[2]Belhumeur P N, Hespanha J P, Kriengman D J.FishedacesIRecognition using class specific linear projection[J].IEEETransaction on Pattern Analysis and MachineIntelligence.1997.19 (7) :771-720

[3]张贤达, 保铮。盲信号分离[J], 电子学报, 2001。29 (12) :1767-1771

[4]王展青, 刘小双等.基于PCA与ICA的人脸识别算法研究[J].华中师范大学学报, 2007, 41 (3) :373-376

[5]邢国。人脸识别中两种特征提取算法的性能比较[J].信息与电脑, 2011, 1 (6) :115-117

[6]龙际珍, 陈沅涛, 邓冬梅.基于模糊隶属度的人脸识别应用[J].计算机应用研究, 2011, 28 (7) :2789-2792

[7]Yuen PC, Lai JH.Face representation using independentcomponent analysis[J].Pattern Recognition, 2002, 35 (6) :1247-1257.

自动识别算法 篇10

腭裂语音声学特性

汉语普通话中音节=声母+韵母+声调, 共有21个声母, 39个韵母和4类声调。声母是不包括辅音/ng/的剩余21个辅音。按照发音方式和发音部位的不同, 将普通话声母进行分类, 分为不送气塞音b、d、g;送气塞音p、t、k;不送气塞擦音j、zh、z;送气塞擦音q、ch、c;擦音f、h、x、sh、s、r;鼻音m、n和边音l。元音在语谱图模式中仅有体现共振峰特性的横杠来表示[3], 而辅音在语谱图上由横杠、冲直条、空白间隙和擦音乱纹以及噪音横条五种纹样来表示。腭裂语音发生辅音省略时, 语谱图只剩下表示元音的部分, 表示辅音的冲直条不明显, 且无声段减少, 如图1所示为/na/的完整音节 (a) 与发生辅音省略 (b) 的语谱图。

腭裂语音辅音省略自动识别算法

本文提取腭裂语音信号的LPCC特征参数, 利用HMM模式识别方法, 建立基于LPCC和HMM的自动识别系统, 实现对腭裂语音辅音省略的自动识别.首先将腭裂语音信号进行预处理。然后提取LPCC参数, 通过HMM模型, 将测试语音与参考模板进行匹配, 概率最大的为识别结果输出。系统流程图如下:

1预处理

由于实验所用信号在语音诊疗室录制, 录音中会含有部分杂音、噪音, 包括患儿的口齿不清及吞咽声等, 我们需要对语音信号进行预处理。预处理部分包括加窗、分帧和端点检测。

本文由于发音器官的惯性运动, 语音信号一般在10ms~20ms的时间内某些物理特征参量近似不变, 所以, 将进行语音信号处理时进行分帧、加窗处理。帧移一般为帧长的0~0.5倍。本文选用汉明窗 (Hamming) , 数据采样率fs=44100, 所以设定帧长为880, 帧移为440。

端点检测的目的是在一段含有语音的信号中区分出语音的起止点和终止点, 从而将语音分离出来。本文采用基于短时能量和短时过零率的双门限法来检测语音信号的起始点和终止点。根据每帧信号平均能量和短时过零率分别设置能量、过零率的高、低门限。高门限数值较大, 语音信号达到一定的强度才能被超过, 高门限被超过则可以确信是由信号段引起的。低门限数值较小, 对信号的变化较敏感, 容易被超过, 但是噪声也可能引起低门限被超过。高门限数值较大, 语音信号达到一定的强度才能被超过, 高门限被超过则可以确信是由信号段引起的。

2 LPCC特征参数提取

语音信号含有丰富的信息, 特征参数提取就是从大量语音信息中提取有意义的信息, 去除冗余信息。本论文选取线性预测倒谱LPCC作为特征参数[6]。线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient, LPCC) 是经线性预测编码 (LPC) 推导出来的, 线性预测 (Linear Prediction, LP) 基本思想是:利用语音信号各采样点之间的相关性, 用若干个语音信号过去时刻抽样值的线性组合来无限逼近现时刻的抽样值。最终通过使实际语音抽样值与线性预测抽样值的均方误差最小, 来确定反映语音信号特征的唯一一组系数, 也就是线性预测系数, 这组系数可作为特征参数用于语音识别领域。

LPC模型表示为:对于给定n时刻的语音信号采样值s (n) , 可以用p个取样值的线性加权组合来表示。a1, a2…….ap称为LPC系数。关系表达式为:

为了计算LPC参数, 定义起点为n的短时语音信号和误差信号。

式中sn (m) 为抽样点n附近的一个语音段。

根据最小均方误差准则可求得ak。

LPCC是由LPC系数经过倒谱运算推导出来的。在语音信号的LPCC参数求解过程中, 由于LPC系数已经求出, LPCC参数lm与LPC系数ak之间的关系式如下:

其中l0为直流分量, 在识别中通常不用。LPCC的阶数p一般为10~16。本文取p=16。

3 HMM隐马尔科夫模型

隐马尔科夫模型 (Hidden Markov Model, HMM) 用来描述一个含有隐含未知数参数的马尔科夫过程, 它是一种统计模型。在隐马尔科夫模型中, 状态对于观察者来说不是直接可见的, 但是某些受状态影响的变量对观察者是可见的[8]。而每一个状态在可能输出的符号上都有一个概率分布, 因此输出符号的序列能够透露出状态序列的信息。

HMM用两个状态集合和三个概率矩阵来描述。两个状态集合为:隐含状态S, 和可观测状态O。三个概率矩阵组成HMM三元组, 包括初始状态概率矩阵a、隐含状态转移概率矩阵A=[aij] (1≤i, j≤N) 其中i>j时, aij=0。以及观测状态转移概率矩阵B=B=[bj (x) ] (1≤j≤N) 。采用GM (Gaussian Mixtures) 来计算状态输出概率函数矩阵, 计算公式如下:

其中bjm (x) 符合N[x, μjm, Ujm]的正态多维高斯分布。

Cjm是混合加权系数, 满足下式:

式中M为混合数, 本文选取M=3。

考虑到本文实验所用的实验数据量相对较大, 本文选择了K-means算法进行模型训练。K-means工作原理描述[9]为:首先随机选择K个点作为初始聚类中心, 然后计算各个样本到聚类中心的距离, 把样本归到离它最近的聚类中心所在的类, 这样就把该状态下的全部语音帧分成了M类语音, 最后用每一类中包含的语音帧除以该状态的语音帧总数, 就得到连续状态下的高斯混元权重系数, 即得到新的一个三元组。

训练过程中已建立各个参考数据的HMM参考模型, 在识别过程中先对测试语音做与参考语音相同的预处理, 并求出特征值, 即观测序列。然后利用Viterbi算法求出参考模板输出该观测序列的概率, 最大概率对应的参考模板即为识别结果

实验仿真

1数据库

本文数据库为四川大学华西口腔医院“腭裂术后语音治疗中心”语音数据库, 其语音师评估水平被行业认定为“金标准”, 患者数量充足, 各腭裂语音发音障碍类型全覆盖。为普通话腭裂语音研究提供了一个良好的数据库平台。该中心为卫生部中华医学会指定的全国语音师培训基地。其语音师的评估水平、准确度经过统计检验, 被视为行业的“金标准”。2实验结果及分析

依据辅音发音方式不同, 将实验数据分为两组, 数据如表1所示。每个参考模板包含80个腭裂患者的语音, 参考模板与测试模板按照4:1的比例进行分配。

本文识别正确率Rate的计算公式为:

Rate= (完整音节识别为完整音节数+辅音省略识别为辅音省略数) /测试模板总数 (7)

将所有数据进行统计, 结果如表2所示:

可以看出本文算法识别率达到了90%, 取得了很好的识别效果。

小结

在对语音信号进行声学分析的基础上, 本文提出了基于HMM和LPCC的腭裂语音辅音省略自动识别算法。实验结果表明, 提出的自动识别系统能较好实现腭裂语音辅音省略的识别。该系统可作为临床腭裂语音评估的辅助手段, 有重大的临床意义。

摘要:腭裂辅音省略识别对于腭裂语音评估有十分重要的临床意义。通过对腭裂语音产生机理和声学特性进行研究, 对比正常语音中对元音、辅音进行声学特性的分析, 提出了基于HMM (隐马尔科夫模型) 和LPCC (线性预测倒谱系数) 的腭裂语音辅音省略自动识别算法。并通过Matlab进行了仿真实验, 该算法有较好的识别率。

注释

1雷丽, 腭裂语音治疗学[M], 湖北科学技术出版社, 2004.

自动识别算法 篇11

关键词:玉米种子图像;Contourlet变换;最小二乘支持向量机;阈值函数模型;径向基函数模型

中图分类号: TP391.4文献标志码: A文章编号:1002-1302(2016)02-0444-02

收稿日期:2015-03-17

作者简介:魏利峰(1978—),男,内蒙古通辽人,博士研究生,讲师,主要从事高光谱信息处理及模式识别等方面的研究。E-mail:weilifendoctor@126.com。

通信作者:纪建伟,教授,博士生导师,主要从事智能化检测与自动控制技术方面的研究。E-mail:jianweiji7879@hotmail.com。随着模式識别技术的发展,大量新型识别算法日趋涌现,在种子识别[1-2]、病害识别[3]、农产品成熟程度识别[4]、农田杂草识别[5]等方面得到了大量的应用,成效显著。上述研究成果的共性在于,采用某种算法从农业图像中将感兴趣目标识别出来,但如果农业图像在拍摄、传输等过程中受到气候环境以及电子软、硬件等因素的干扰,从而存在一定程度的失真,基于该类图像得出的识别结果的价值势必会大打折扣。 玉米种子准确识别对于精确分析玉米种子质量以及进行玉米估产具有重要作用。为了提高玉米种子的识别精度,提出了一种“先滤波、后识别”的思路,即首先采用新一代图像多尺度分析方法——Contourlet变换[6]对玉米种子图像进行变换域自适应阈值去噪处理,然后对去噪后的图像采用基于最小二乘算法的支持向量机算法(LSSVM)[7]进行识别研究。

3结论

为了提高玉米种子图像的识别精度,提出了一种结合Contourlet变换的玉米种子LLSVM识别算法。试验结果表明,在对图像进行预处理的基础上进行玉米种子识别,有助于提高识别精度。

参考文献:

[1]刘天玲,苏琪雅,孙群,等. 基于NIR分析和模式识别技术的玉米种子识别系统[J]. 光谱学与光谱分析,2012,32(5):1209-1212.

[2]王艳春,迟胜起,郑长英. 基于一类支持向量机的黄顶菊种子识别[J]. 山东师范大学学报:自然科学版,2011,26(1):27-29,32.

[3]刘丽娟,刘仲鹏. 基于改进 BP 算法的玉米叶部病害图像识别研究[J]. 江苏农业科学,2013,41(11):139-141,142.

[4]张亚丽. 基于颜色特征和极端学习机的番茄成熟度识别[J]. 江苏农业科学,2014,42(7):411-413.

[5]王怀宇,李景丽. 基于纹理特征的玉米苗期田间杂草识别[J]. 江苏农业科学,2014,42(7):143-145.

[6]丁灿,曲长文,杨俭. 基于贝叶斯估计的改进Contourlet变换的SAR图像滤波[J]. 数据采集与处理,2013,28(6):746-754.

[7]祝加雄,贺元骅. 基于离散小波变换和ICA支持向量机的人脸识别[J]. 电视技术,2014,38(11):183-186.

[8]郝强,周敏,郑红婵. 基于边缘检测和四点插值细分的SAR图像去噪[J]. 计算机工程与应用,2012,50(11):184-187.张月义,陈太义,宋明顺,等. 转基因作物产业化动力机制——基于动态博弈的策略分析[J]. 江苏农业科学,2016,44(2):446-449.

指纹识别关键算法的研究 篇12

1 指纹识别的原理

指纹识别技术包含有以下两种主要的识别技术:第一种是采用不同指纹图像统计对比的方法, 第二种是采用指纹图像本身固有的特征信息进行比对的方法。第一种方法主要是将两幅指纹图像进行统计对比, 查看他们之间相似度的大小, 根据大小来判断这两幅指纹是否取自于同一个人, 从而实现身份识别的作用。第二种方法是根据两幅指纹图像的结构特征, 比较他们的特征信息, 确认他们的身份。特征包含两种类型:全局特征类型和局部特征类型。

指纹识别技术的全过程是: (1) 使用指纹采集设备采集指纹图像。 (2) 对指纹图像中的大量噪声点进行预处理, 从而提升后面处理的效率。在预处理之后, 得到了一个关于指纹图像的轮廓线, 为下一步特征提取做准备。 (3) 进行指纹图像的特征提取, 提取出其特征信息点。 (4) 对指纹图像进行特征匹配, 把提取的特征点与数据库中预存的特征点进行比对, 通过比对来判断身份。根据英国学者E.R.Herry的研究发现, 两个指纹图像中, 如果特征点的对数有13对是重合的, 就可以认为这两个图像取自于同一个人。

指纹识别系统的主要性能参数有以下几种:

(1) 误识率:指两个不同指纹被错误地识别成相同指纹的概率;

(2) 拒识率:指同一个手指的两个不同指纹样本不能匹配, 即被认为来自不同手指的概率;

(3) 等错误率:第一和第二种错误相等时的数值;

(4) 注册时间:从指纹被采集到完成指纹特征提出所需要消耗的时间;

(5) 匹配时间:两个指纹样本进行一次对比匹配所需要消耗的时间;

(6) 模板特征的大小:从一个指纹图像中提取出的指纹特征的存储容量;

(7) 分配内存的大小:在指纹识别的各个阶段, 计算机系统需要占用的内存数量。

2 指纹图像的质量评估

在通过指纹采集设备把图像采集进入系统之后, 我们需要对采集到的指纹图像的质量进行评估。如果图像的质量不达标, 就会对后期产生影响。因此, 需要对指纹图像进行评估。目前, 指纹图像的质量评估有以下几种方法:

(1) 计算图像的信噪比:这种方法是指求出图像的信号与噪声的方差之比。首先计算图像所有像素的局部方差, 将局部方差的最大值设为信号方差, 最小值设为噪声方差, 求出它们的比值, 再转成d B数, 最后用经验公式进行修正。此方法在效率方面表现一般。

(2) 统计指纹图像细节点的数量:对指纹图像中细节点的数量进行识别和统计。通过数量的多少来判断该指纹图像的质量是否在合格的范围之内。此方法理论上可行, 但是由于首先需要对指纹进行预处理、提取细节点, 因此效率不高。

(3) 视觉客观测度:该方法建立在视觉测评过程和客观测度基础上, 利用设定的评测参数, 对指纹图像的质量评价出一个综合结果。这一方法从全局上对指纹图像的质量, 能够得出很好的判断。但是从局部上来看, 指纹的纹理分析缺少了对指纹方向信息的判断。

(4) 计算指纹图像方向信息:从指纹图像局部特征开始, 结合指纹的全局特征来判断指纹图像的质量。通过检测图像的有效面积和清晰度, 来确定图像是否合格。具体方法是:首先, 通过计算图像方向信息, 确定前景块和背景块;然后, 通过比较前景块和背景块的比例来判断是否是偏手指;再次, 通过图像块的对比度的大小来判断是干手指或湿手指 (干手指对比度较大, 湿手指对比度较小) 。

3 指纹图像的分割

在指纹图像质量评估合格后, 需要对图像进行灰度变换, 即对指纹图像均衡化, 使得图像灰度均衡, 以及对图像进行归一化。在这些完成之后, 还需要对图像按照一定的算法和要求进行分割。即把指纹图像中质量很差, 后期无法处理的图像区域与有效区域进行区分, 使后期处理集中到有效区域上, 提供特征提取精度, 减少处理时间。目前, 常用的分割方法有以下几种:

(1) 基于方向图的分割方法:根据图像上纹理的方向, 区分指纹区域和背景区域, 然后按照不同的区域分割。如果指纹的纹理线不连续、图像的灰度单一等方向难以正确估计或者有些区域变化剧烈, 则此方法不能进行有效的分割。

(2) 基于图像的局部灰度均值、局部标准差和局部一致性的分割方法:利用指纹图像局部区域的灰度均值、标准差和一致性作为特征, 再采用线性分类来分割指纹图像。局部图像的一致性显示了局部图像的纹理走向, 但是这些特征对于模糊区域无法做出有效的表示。

(3) 多级分割法:就是将指纹图像进行多级分割, 逐级减少分割的范围。例如:第一级分割图像的背景区域, 第二级在前景区域中分割出模糊区域, 第三级从模糊区域中分割出不可恢复区域。

(4) 动态阈值分割法:根据各个子块的局部灰度对比度自动调节阈值, 基于像素的方差进行分割。该方法简单、快捷、分割效果好。具体为:将图像划分为不重叠的各个子块;计算每个子块的平均灰度和灰度方差;计算方差最大值与最小值之间的差值;定义动态阈值, 并分割图像;平滑操作, 去除孤立块。

4 指纹图像的增强

指纹图像增强就是将模糊的指纹纹理改变得更加清晰, 例如:将断裂的指纹纹线进行连接, 把连接的纹线区分开, 而且在这个过程中还需要保持原有的指纹图像结构, 使图像更加易于提取特征信息。目前, 有以下几种指纹图像增强方法:

(1) 从脊线方向上采用平滑算子而在垂直于脊线的方向使用增强算子的图像增强算法。这种算法在理论上是十分正确的, 但是要估计出脊线宽度以及滤波的参数却比较困难。如果参数估计有误, 则会使得脊线产生污染, 并且对于脊线上有折痕的指纹会产生偏差。

(2) 基于Gabor滤波器的指纹图像增强算法。此算法是在使用上一方法之前先进行滤波。将指纹图像分成不同的区域, 有效削弱垂直于主导纹线方向的噪声, 提高方向信息提取的可靠性。

(3) 傅立叶增强后滤波的方法。基于时间和处理效果的考虑, 先采用傅立叶变换来增强指纹图像, 然后使用滤波器来修补指纹图像的纹线。具体为:首先, 多级分割出可恢复区域块, 将该块像素变为复数形式;利用离散傅立叶变换, 滤掉频率过高或过低的频带噪点;利用方向滤波器消除指纹的断裂和叉连。

5 指纹图像的提取

5.1 在细化图像的基础上提取

首先, 需要对指纹图像进行细化处理, 将指纹纹线变细, 然后通过分析纹线上每一个像素点的8个方向上的连接点来判定该像素点的类型、位置, 并且通过分析该像素点所连接的纹线段来判断点位的方向, 进而提取出特征点。这个方法存在的优点是原理比较简单而且容易实现;缺点是需要对大量的像素点进行细化处理, 时间较慢, 当图像质量不高时, 细化处理会产生很多杂质项。

5.2 从原始灰度图像上直接提取

利用指纹方向图, 在灰度图像上跟踪指纹的纹线, 每跟踪一定的长度, 根据图像的投影极值来确定纹线的位置, 当遇到端点和分叉点时无法投影, 跟踪过程自动终止。这个方法的优点是具有较高的效率和精度;缺点是实现起来比较复杂, 需要大量的运算, 而且当图像质量不高时, 求出的方向图可能不可靠, 导致跟踪出的纹线出现偏差。

6 指纹图像的匹配

指纹图像匹配是指用当前指纹图像提取出的指纹特征与事先预存在指纹数据库中的特征进行比对, 从而判断这两个指纹特征是否一致, 即是否来源于同一根手指。这个阶段为了避免一些因素的干扰, 例如变形、虚假特征点、特征点位置误差等, 需要设计一个准确有效的匹配算法。目前, 有以下几种方法:

(1) 基于点模式匹配算法。目前大多数算法都是基于细节点的特征来进行匹配。该匹配分为以下几种类型:基于匹配的对象可以分为1对1进行匹配和1对多进行匹配;基于匹配的适应程度可以分为弹性的匹配和刚性的匹配。

(2) 基于纹理模式匹配算法。首先将指纹图像分割出来的有效区域进行网格化, 然后利用Gbaor滤波从像素点的8个不同的方向处理该纹线区域, 得到指纹的全局信息和局部信息, 并转化成一个特征信息, 最后比较当前指纹图像和数据库中的图像相应特征信息的差异。该算法可以解决质量较差且区域细节点难以提取的图像匹配的困难。但是这种方法需要对每个像素点进行大量的运算, 而且无法处理形变比较大的指纹图像的匹配。

7 结语

本文讨论了在指纹识别技术的各个阶段中的关键算法, 并对这些算法进行了深入的分析, 为指纹识别的进一步研究提供了理论依据。

摘要:作为基于生物特征识别技术的一种, 指纹识别相对于其他个人身份认证具有快速、准确和稳定等优势。但目前的指纹识别算法在识别的误识率、拒识率、等错误率、匹配时间等方面仍有很多方面需要提高。对指纹识别中的多个关键步骤的关键算法, 文章作了大量的研究工作, 主要包括指纹图像的提取、图像质量的评估、图像灰度变换、图像分割、图像增强、图像提取和图像特征匹配等。

关键词:指纹识别,关键算法,研究

参考文献

[1]林喜荣, 黄析伟, 苏晓生, 等.生物特征值识别技术的标准化进程[J].清华大学学报 (自然科学版) , 2006, 46 (2) :194-198

[2]A.KJain, LinHong, SharathPankanti, etal.Anldentity-Auth-entication System Using Fingerprints[J].Proceedings of the1997IEEE, 85 (9) :365-388

[3]李欣桐.基于ARM7的指纹识别系统预处理算法研究[D].北京:北京交通大学, 2007

[4]Lawrence O’Gorman, An Overview of Fingerprint Verific-ation Technologies[R].Information Security Technical Re-port, 1998, 3 (1) :21-32

[5]John D.Woodward, Jr, 生物认证[M].清华大学出版社, 2004:20-55

[6]柴晓光, 岑宝炽.民用指纹识别技术[M].北京:人民邮电出版社, 2004:21-112

[7]张显全.唐振军, 基于图的指纹匹配算法[J].计算机工程, 2006 (13) :193-195

[8]刘莎.嵌入式指纹识别系统研究[D].南京航空航天大学 (1-7) (15-46)

上一篇:体育英语教学改革下一篇:电气主接线图