数字图像识别

2024-09-19

数字图像识别（精选11篇）

数字图像识别篇1

引言

随着计算机图像处理技术的快速发展和互联网的不断普及, 使数字图像成为图像的主要形式, 发挥着不可替代的作用[1]。各种图像处理技术越来越便捷, 从而使图像造假也越来越多[2]。目前, 主流的图像造假识别方法多以人工为主, 按照人的常识和造假图像中与真实图像中的明显差异进行识别[3]。随着智能技术的不断发展, 智能化的造假图像识别方式也越来越多。造假图像识别方法主要包括基于DSP算法的造假图像识别方法、基于小波分解算法的造假图像识别方法和基于像素排斥算法的造假图像识别方法[4]。其中, 最常用的是基于像素排斥算法的造假图像识别方法。由于造假图像识别方法应用范围十分广泛, 因此受到了越来越多学者的重视。

如果造假图像中的造假区域比较小, 像素则不会发生大规模排斥, 造假区域与初始图像区域的像素融合度比较高[5]。传统的造假图像识别算法进行造假图像识别, 主要是通过像素之间的灰度变化差异和像素的排斥性完成图像真伪的判断, 如果造假区域很小, 像素的排斥性则不会很大, 传统算法无法避免造假区域与初始图像区域连接位置融合效果较好而造成的像素排斥不明显的缺陷, 降低了造假识别的准确率[6]。

为避免上述缺陷, 提出了一种基于数字水印技术的造假图像识别方法。建立数字水印数学模型, 将数字水印信号进行嵌入处理, 从而使其嵌入到图像中。从待识别图像中提取数字水印参数, 将嵌入数据与提取数据进行对比分析, 从而完成造假图像的识别。实验证明, 这种算法可以很好地识别造假图像, 取得了令人满意的效果。

1 造假图像识别原理

1.1 以像素排斥性为基础的造假图像识别

造假图像中的像素排斥情况, 是造假图像识别的基础。根据造假区域像素排斥情况, 能够进行造假图像识别。造假图像识别的步骤如下:

假设待识别图像的像素数目是n, 待识别区域的面积是P×P, 轮廓区域像素数目是l, 轮廓区域初始像素灰度均值是α, 疑似造假图像像素灰度均值是β, 利用式 (1) 能够计算疑似造假图像像素的融合参数:

$ε = Ρ \sqrt{α^{2} - β^{2}} / (n - l) (1)$

ε值为正数或零, 通过式 (1) , 能够计算图像融合参数, 用来描述图像融合的情况:融合参数ε值越大, 表明造假区域面积越大;融合参数ε值越小, 表明造假区域面积越小。值得注意的是, 当α=β时, ε=0, ε值达到最小, 表明造假区域最小, 即图像无造假。通过ε值的计算, 可以定性的判断图像的造假情况。

第二步是计算融合参数较高区域的像素排斥系数, 以定量判断图像造假情况。通常我们利用排斥系数来表征图像的造假程度, 排斥系数较高的区域是最有可能造假的区域。图像的像素排斥系数定义, 如式 (2) 所示。

$δ = | α - β | \log (n - l)^{2} / ε (2)$

通过上式, 能够计算图像中一些像素衔接处的排斥系数, 用来描述图像像素不属于初始图像的像素的排斥情况, 以完成图像造假的判断。

设置像素排斥系数衡量标准是λ, λ为一经验值, 通常情况下设置为0.85, 这是正常256色图像中的像素排斥系数阀值标准, 利用式 (3) 判断该图像是否是造假图像:

${\begin{cases} δ \geq λ, 该图像是造假图像 \\ δ < λ, 该图像不是造假图像 \end{cases} (3)$

通过上式, 能够判断该图像是否是造假图像。假设排斥系数大于或等于衡量标准, 判断该图像是造假图像, 需要报警。否则, 该图像不是造假图像。

1.2 传统造假图像识别方法缺陷

根据式 (1) 可知, 当造假区域面积越小时, 像素之间的融合参数ε越小, 与初始图像的融合参数区别很小。而造假区域的面积小到一定程度时, ε值将不会发生较大变化, 仍然保持较小值, 那么根据式 (2) 可知, 这将导致造假图像中像素排斥系数δ依然较小。由式 (3) 可得, 如果像素排斥系数δ较小, 达不到识别的阀值标准, 就将造成造假区域较小时, 造假图像无法被准确识别。为避免上述缺陷, 提出了一种基于数字水印技术的造假图像识别方法, 力图避免当造假区域面积较小时, 其与初始图像区域像素的融合参数ε较小、引起像素排斥系数δ较低、无法准确判断造假图像的缺陷, 提高了造假识别的准确率。

2 数字水印识别方法

造假图像识别, 是图像处理领域研究的核心问题。利用传统方法进行造假图像识别, 无法避免由于造假区域过小造成的像素排斥不明显的缺陷, 导致造假图像无法被准确识别。因此, 提出了一种基于数字水印技术的造假图像识别方法。

2.1 建立图像数字水印数学模型

在数字水印图像识别技术中, 设置一个图像中异常像素的数据模型, 模型中的数据集合设为: (N, J, X, L, H, Fn, Bu, E, Fy) 。其中, 相关参数如下所述:

N是全部数字水印参数n的数据集合。

J是初始图像的数据集合。

X是疑似水印信号x的数据集合。

L是数字水印密钥信息l的数据集合。

H是根据秘密数据n, 密钥信息l和初始图像J构成的数字水印图像造假识别函数, 函数表达式如式 (4) 所示:

$Η : Ν \times J \times L \to X, x = Η (n, J, l) (4)$

Fn是将数字水印嵌入到初始图像J中的函数, 用式 (5) 进行描述:

$F n : J \times X \to J, J^{'} = F n (J, x) (5)$

其中, J是初始图像, J′是利用数字水印技术进行造假识别的图像, J′中通常情况下包含密钥信息。

Bu是造假图像, 用下述公式描述:

$B u : J \times L \to J, \overset{\land}{J} = B u (J^{'}, L^{'}) (6)$

其中, L′是造假图像中的密钥, $\hat{J}$ 是造假的数字水印图像。

Fy是数字水印提取的函数, 用式 (7) 进行描述:

$F y : J \times L \to X, x^{'} = F y (\overset{\land}{J}, L) (7)$

E是数字水印检测函数, 可用式 (8) 表示:

$E : J \times L \to {0, 1}, E (\overset{\land}{J}, L) = {\begin{matrix} 1, \overset{\land}{J} 中包含 x (Ι_{1}) \\ 0, \overset{\land}{J} 中包含 x (Ι_{0}) \end{matrix} (8)$

其中, I1表示待识别图像中包含数字水印, I0表示待识别图像中不包含数字水印。

2.2 数字水印嵌入方法

在建立完数学模型后, 将数字水印模型中的各项参数嵌入到初始图像中, 计算的步骤可以用图1进行描述。

将数字水印信号X={x (l) }嵌入到初始图像J1={j0 (l) }中。通常情况下, 数字水印嵌入可以分为以下两种情况:1) 空域水印嵌入jx=j0 (l) +β×X (l) ;2) 变换域水印嵌入 jx=j0 (l) + (1+β×X (l) ) 。

其中, j0是图像像素时间域取值, β是数字水印强度。利用下述公式能够计算数字水印灰度参数, 用来描述数字水印的灰度取值:

$ω = l o g l \sqrt{β} / (j_{x}^{2} - j_{0}^{2}) (9)$

通过上式获取数字水印的灰度取值, 从而得到图像中数字水印的灰度情况。利用式 (10) 计算数字水印嵌入参数, 用以描述数字水印的嵌入状态:

$υ = ω^{2} \sqrt{n - l} \ln β (10)$

由此, 获取到了图像中数字水印的嵌入情况, 从而有利于数字水印相关信息的提取。

2.3 数字水印参数提取

在造假图像识别过程中, 需要将待识别图像的数字水印提取出, 为造假图像识别提供数据基础。其步骤如图2所示。

数字水印提取是指通过对待识别图像进行信息提取, 获取待识别图像上的数字水印参数。用式 (11) 将待识别图像进行分割处理, 分割为不同的子区域:

$φ = (a^{2} - b^{2}) / n (11)$

其中, (a, b) 是待识别图像中心位置空间坐标, n是待识别图像中全部像素数目。设置待识别图像的像素灰度变换区间, 用式 (12) 对该图像进行灰度变换处理, 获取待识别图像的水印参数:

$ρ = ω^{2} - φ / (a + b) (12)$

对初始图像通过上式提取其数字水印参数, 从而获得上述图像的数字水印序列和密钥, 将二者进行对比分析, 能够实现数字水印图像的造假识别。通过上文所述方法, 即可建立数字水印数学模型, 将数字水印信号嵌入到初始图像中, 从待识别图像中提取相关水印信息, 通过对比完成造假图像的识别。

3 仿真结果

传统的算法在针对小区域造假图像的识别过程中, 存有缺陷, 识别准确性不高。为验证本文算法的效果, 进行了对比实验。对50幅造假图像进行识别鉴定, 图表的数量逐渐增加, 每幅图像中的造假区域大小不同, 每张图像相关参数设置如下:n=1 000, P=50, l=200, α=72, β=59。

随着造假图像数量的增加, 连续对准确识别的图片数量进行统计和标定, 在不同的算法下, 待识别图片数量和准确识别数量的分布, 如图3所示。

从图3中可以看出, 利用本文算法进行造假识别处理后, 能够准确识别造假图像的次数远远高于传统算法, 其原因是本文算法在造假区域比较小的情况下拥有一定的优越性。对实验中的相关数据进行记录, 能够得到表1和表2。其中, 表1是造假区域较大的情况下, 进行造假图像识别的相关参数, 表2是造假区域较小的情况下, 进行造假图像识别的相关参数。

在造假图像识别过程中, 通过对表1中的数据进行整理分析可知, 假设造假区域比较大, 那么造假区域和初始区域的融合效果较差, 利用本文算法进行造假图像准确识别的次数与传统算法基本一致。通过对表2中的数据进行整理分析能够得知, 假设造假区域的面积比较小, 那么造假区域与初始区域的融合效果比较好, 利用本文算法进行造假图像准确识别的次数远远高于传统算法。

4 结束语

论文提出了一种基于数字水印技术的造假图像识别方式。建立数字水印数学模型, 将数字水印信息嵌入到初始图像中, 从待识别图像中提取数字水印参数, 将嵌入数据与提取数据进行对比分析, 从而完成造假图像的识别。实验证明, 这种算法提高了造假图像识别的准确率, 特别是在造假区域较小时, 依然能够取得理想的识别效果。

参考文献

[1]李正, 倪远平, 刘迪, 等.实蝇图像识别中的形态特征提取研究[J].计算机仿真, 2011 (7) :254-257.

[2]陈梅, 刘峰.基于神经网络的纹理识别技术[J].贵州大学学报:自然科学版, 2003 (4) :152-158.

[3]李彩霞, 李芬华, 刘敏.基于分形和神经网络的B超图像识别[J].河北大学学报:自然科学版, 2004 (5) :95-99.

[4]朱颢东, 钟勇.结合粗集和神经网络的图像识别模型[J].计算机工程与应用, 2010 (3) :53-56.

[5]彭淑敏, 王军宁.基于神经网络的图像识别方法[J].电子科技, 2005 (1) :32-35.

[6]杨耿, 和卫星.运动目标图像识别与跟踪系统的研究[J].计算机测量与控制, 2005 (3) :88-91.

数字图像识别篇2

图像识别技术“一眼”看出你有多疼(图片来自新浪)

据介绍，如果你龇牙咧嘴，那么你的疼痛感应该比紧锁眉头要更强一些，

他可能没有了解你的父母懂得“疼在你身，痛在我心”，但是应该能比过与你素不相识的护士小姐。

这项技术并非纸上谈兵，它的确有实用价值。护士可借此判断你在外科手术时是否注射了足量的麻醉剂。这项拘束很像电影《超能陆战队》里的机器人“大白”，它只要看一眼就能判断出你是否受伤。

数字图像识别篇3

随着宽带网和智能手机的普及，世界已进入“读图”时代，图片不仅仅停留在“看”的层面，而进入到“读”和“用”的阶段。所谓“读图”、“用图”，就是对图片内容进行检索与挖掘。目前的潮流，就是用计算机图像识别技术自动“读图”，提取用户所需要的信息。比如2011年，美国第一大报U.S. Today 用图像识别在橄榄球 Super Bowl 决赛报道文章上播放录像，同年，澳洲主要银行之一 CommonWealth 银行用图像识别把虚拟3D模型叠加于房产广告手册上。亮风台（上海）信息科技有限公司（以下简称“亮风台”）就是应运这个“读图”时代而产生的。

亮风台成立于2012年，虽然成立时间不长，但其厚积薄发，致力于成为图像识别和增强现实领域的互联网高科技领头企业。公司拥有具备自主知识产权的图像识别和增强现实核心技术，专注于相关技术研究与应用，提供广告营销、教育出版、娱乐、电商、旅游等行业解决方案。

亮风台的联合创始人廖春元是图像识别、增强现实和人机交互领域的专家。早年，毕业于清华大学计算机系，之后赴美留学，获得博士学位。2008年至2012年，他在富士施乐硅谷Palo Alto研究院任正研究员，是该院迄今唯一在工作前四年内就三次获得年度杰出成就奖的华人科学家。期间他主持的多个研究项目获得世界范围内同行的高度评价，并在国际计算机协会ACM主办的ACM IUI和ACM Multimedia两个业内顶级会议上分别获得最佳论文和最佳论文入围奖。2012年，廖春元放弃国外的优厚待遇，回国联合唐荣兴、王迅和韩磊等联合创立了亮风台，海讯图像识别也就此诞生。说起最初归国创业的动因，廖春元笑称，一切为了理想。

记者：能说说“亮风台”的由来吗？当初为公司取名字的时候有何构想？

廖春元：亮风台是我们家乡一座山的名字。我和亮风台的联合创始人唐荣兴、王迅和韩磊都是高中同学。当时我们经常组织活动去爬山。亮风台海拔有三千多米，我们必须在山上过夜，虽然夜晚的山林很冷很黑，但第二天却可以看到很美的云海日出。公司的核心技术——海讯图像识别的英语译名HiScene的出处也来自这里，HiScene意为Highland Scene （高地风景），意为只有爬到高处，才能看到最美的风景，我们希望图像识别技术可以为用户带来如美丽风景一般的美好体验。HiScene代表了“高度”、“视野”和“团队”三方面的理念。公司虽然成立的时间不长，但我们的核心团队成员由世界级计算机视觉、机器学习和人机交互领域科学家、国内顶尖移动开发团队以及传媒专家组成。亮风台推出的“HiScene海讯”图像识别解决方案应用平台，致力于把技术和商业相结合，以“识别图像价值，超越媒介体验”为目标，目前已经在新媒体、电子商务、广电视讯等领域为合作伙伴提供快捷接入、扩展丰富的图像识别整体应用解决方案。

记者：图像识别在国内还属于比较新鲜的事物，能否介绍一下图像识别技术？

廖春元：所谓图像识别技术，简单的来说，就是计算机通过对图像进行特定处理，理解其内容，从而找到用户所需要的信息。这些信息可能是一段文字，也可能是一段视频。公司的图像识别技术是基于HiScene互联新媒体发布管理平台实现的，这个管理平台是我们技术的关键所在，能识别的图像内容有多少，取决于这个后台数据库有多大。只要用户上传图片，系统就会自动将图片与后台数据库中的图片做对比，选出相似度最高的，然后自动回复相关信息。以图书为例，用户对着图书封面的任何一个区域拍照，然后通过我们的App或微信公共账号上传至云端，就可以识别出所拍图书的相关信息，如背景资料、相关介绍、版本等。我将图像识别技术称为“天”与“地”的连结纽带，“天”是在云端的多媒体数据库，“地”是线下媒体或实际的物体，而图像识别将两者很好地结合在了一起。

海讯图像识别技术的技术优势在于，首先我们有可以处理百万级以上的海量数据图片库，而且拥有高识别率。HiScene自有的技术可以在像素级别提取图片特征，用多种方法去除噪声，并用领域知识加以验证，多管齐下，提高识别率。对测试集识别正确率为 99%以上。另外，在手机本地优化以后，可以实现对图片进行实时处理，在手机上识别速度可以达到每秒10帧以上。最后，我们专门对移动设备进行优化：支持手机用户的各种操作姿势，比如不同角度、距离、光照条件，实现自然的用户交互体验。

记者：提取相关数据，使用户获得所需要的信息，这些都让人联想到现在很火的二维码识别技术，您认为图像识别技术与二维码相比，有哪些优势？

廖春元：二维码技术必须事先将每条待识别的信息制作成黑白相间的方块格子，你可以想象，在一张海报或是一本书上，有很多可识别区域的话，二维码的做法是在每一个可识别区域做一个二维码，这样会破坏原图的美感；另外，任何可以识别的物体必须加上二维码，这使得可被识别的物体具有很大的局限性。而海讯图像识别只需要一张没有做过任何特殊处理图片就能完成。我们的技术是基于最原始的数据，提取图片的特征，然后快速地在将数据库里的图片一一比对，最后将匹配图片的相关信息发送给用户。我们的图像识别技术识别力强，允许周边有物体遮挡物，并且识别面广，即使是早年发行的电影海报、图书或CD，只要在我们的数据库中有过注册，就能够被识别。

记者：图像识别是一个渗透性很强的技术，可以应用于很多领域，那么公司目前与哪些企业合作，发挥图像识别技术在该领域的作用？

廖春元：图像识别确实用途很广，可以被用于教育、广告、营销、会展、娱乐等各个领域。首先，我们利用海讯图像识别技术，提供移动AR新媒体解决方案，所谓AR，即Augmented Reality，意为增强现实，它通过突破性的多媒体展示方式，连结线上线下媒体。

nlc202309031908

公司与炫动传媒（以制作和发行《喜洋洋和灰太狼》闻名的国内儿童动漫龙头企业）结成战略合作伙伴，跟它旗下的《哈哈画报》等杂志合作开发创新的互动杂志。《哈哈画报》是一份集“视、听、闻”等多感官阅读的互动儿童读物。我们通过图像识别技术，将平面杂志与视频、动画、游戏结合在一起，提供全新的儿童娱乐和教育体验。孩子们只需下载 “哈哈探宝器”App，在有探索标示的页面移动摄像头，摄像头一旦移动到与所识别内容相匹配的画面上，手机就会播放相关多媒体动画。这种把对小孩子知识的灌输模拟成新奇探索的寓教于乐方式，对孩子来说更容易被接受。除了平面媒体之外，我们还与炫动传媒合作开发互动电视节目。只要孩子们在炫动卡通频道上酷地带节目播放期间，通过专用App扫描台标签到，就证明他这个时候确实是坐在电视机前，然后可以参与抽奖。

同时，公司还与政府合作，配合宣传。例如今年“五四”青年节前后，公司为共青团上海市委做了一个名叫“文明家族”的App，只需通过App扫描他们的宣传画，就可以播放相关文明公约的宣传视频。

另外，我们为知名艺术院校的教授设计了个性化名片，只要扫描名片上的指定logo，就能展现3D立体动画，并全面展示它在空间中的位置。这个应用可以被运用在房产宣传册和其他产品的营销当中，这种将虚实叠加在一起的方式，增强了现实效果。

除了为第三方提供图像识别解决方案，我们还拥有自己的产品，如“海讯识图”App和微信图像识别机器人——“图答应”。特别是“图答应”，将图像识别技术与方兴未艾的微信公共账户结合起来，能对用户上传的图片进行及时的回复，大大扩展了微信公共账号目前仅对关键字进行回复的功能，可以让商家很快开展更具交互性的网络营销。比如我们给宜家家居的微信账号装上了“图答应”之后，用户只需拍摄照片上传至宜家微信公共账号，即可获得家具安装视频。化妆品牌可以让用户拍新推产品的照片，参加抽奖活动，引导用户对品牌的关注。鉴于微信平台的数亿庞大用户数，图答应的应用前景极具想象空间。

无论是解决方案、“图答应”还是“海讯识图”App，其核心都是HiScene互联新媒体发布管理平台，关键技术和算法都融于其中，我们只是以此把它包装成不同的产品而已。

记者：目前，亮风台运营得很不错，前期推广也获得了一定的成功，那么您对于公司下一步的发展有什么规划？

廖春元：公司下一步发展的关键是继续完善HiScene互联新媒体发布管理平台，不断丰富平台的数据，随着云计算日益成熟，算法不断发展，以前难以处理的数据变得容易。

另外，公司希望通过宣传，让更多的用户知道和了解望风台和海讯图像识别。公司目前正和一些行业龙头，诸如安卓手机制造商合作，探讨如何将图像识别技术置入他们的摄像头。可以想见，将来的安卓手机摄像头不仅有摄影摄像的功能，还有识别功能，不需要下载图像识别App，只需这样打开摄像头的图像识别模式，就可以识别任何在管理平台注册过的商品或平媒。

此外，公司下一步打算和云南省旅游局合作，共同推动深度游。通过我们的图像识别技术，游客只需扫一扫，就能够通过文字、图片甚至视频全方位了解一块碑、一口古井、一座宫殿等等古迹背后蕴含的深厚历史积淀。

总之，亮风台将会始终专注于核心技术的研发，保持图像识别核心技术在业内领先，不断推动人机交互、视觉识别搜索技术以及产品的改进完善，为媒介、通信、电商、娱乐等行业带来变革，让人机交互体验更加立体、互动、智慧、宽广。我们利用图像识别的领先技术推动行业变革、为合作伙伴创造最大价值，实现“天”与“地”——线上线下的无缝连结。

数字图像识别篇4

胶带的纵向撕裂问题是一个在国内国际都普遍存在的问题[1]。如何设计一种能对胶带实行实时监控的、并且在纵向撕裂发生后快速可靠的胶带保护装置, 在国内外都是一个正在努力攻克的难题。相比较而言, 由于我国煤矿的数量和胶带输送机的数量远远超过国外任何一个国家, 而国内的胶带质质量与国外相比有很大的差距, 纵向撕裂识别和保护问题在我国煤矿生产中更加受到重视, 其中亟待解决的问题之一是进行有效的实时识别纵向裂缝。

国内外从7 0年代就开始纵向裂缝的识别研究, 己从接触式发展到非接触式, 从单一化到智能化, 除嵌入法、光电传感技术、超声波扫描技术之外, 现在又有了改进后的嵌入法、超声波技术和最新研究探讨的原子物理方法等等。由于煤矿生产环境的恶劣, 每种方法都有其不成熟和不稳定的地方。因此, 本文利用数字图像处理技术灵活性高、再现性好、处理精度高、适用面宽以及处理算法和图像特点相关性高的优点, 根据矿用胶带图像的特点, 选取结构识别方法, 利用裂缝处灰度跳变的特性, 使用了符合其特点连通域检测, 通过图像预处理, 图像切割, 以及连通域检测三个步骤实现了矿用胶带的纵向裂缝的识别。

2 图像的分析及其预处理

当大多数纵向撕裂发生后, 胶带表面会有变化, 用肉眼能辨别的出来, 我们可以在胶带下安装若干个摄象头, 然后用计算机进行图象识别, 利用胶带撕裂前后的图象特征变化来进行即时的监控。即可以进行预防以及及早的对发生的撕裂进行处理。由于胶带下面的环境比较恶劣, 我们可以使用低照长寿命ccd摄象机。摄象机的安装地点要兼顾实用性和经济性, 基于以上两个原则, 要安装在最容易发生胶带撕裂的部位, 在胶带的机头、机尾以及转折点各安装一个, 以一个适合的高度尽可能照顾大的范围。

本实验系统由C C D摄像头、数据采集卡及识别软件系统和电脑组成。其中硬件包括C C D采集卡、视频采集卡和电脑主机;识别系统模块包括图像采集模块, 预处理模块, 边缘检测模块以及识别模块。

首先对裂缝图像进行了整体、灰度、噪声三个方面进行了分析, 得到其几何、数学、灰度分布上的特点, 针对这些特点选择合适的图像处理算法。由于彩色图像其信息容量比灰度图像大, 因此处理难度大、速度慢, 而且在识别裂缝的过程中, 灰度图像所含的信息量已经足够, 因此先将彩色图像转换成为灰度图像。然后根据图像的灰度直方图进行像素分析, 根据分析的结果进行自适应阈值分割, 通过计算或设定一个概率值, 根据总像素值和灰度分布来确定分割的阈值, 然后调用阈值分割程序来进行阈值分割。图像预处理还包括最重要的一个部分:图像滤波, 分析了图像噪声来源, 选择了合适的滤波器, 对滤波效果进行了分析, 并对不同形状的裂缝选择了不同的滤波模板。

其次对图像进行形态学处理。由于在一幅裂缝图像中, 在图像预处理的过程中或多或少的会对原始图像中的裂缝区域带来影响, 例如:将属于裂缝区域的点去除, 可能导致连续的一条裂缝被分割为几条或裂缝的区域减小, 因此要对预处理后的图像进行形态学处理, 使裂缝区域得到恢复和加强。图1 (b) 是使用中值滤波进行平滑处理的效果。

3 图像边缘分割

图像分割是实现图像识别胶带是否撕裂的重要步骤, 分割效果的好坏直接影响这系统的识别率, 是特征提取、裂缝识别的前提准备步骤, 在系统视线中占有不可忽视的地位, 因此如何提高分割效果, 减轻识别难度也就成了我们的首要任务, 也是课题实现的难点之一。主要体现在以下两个方面:首先, 目前不存在适合所有类型图像的通用分割算法, 现有的分割算法都是针对具体应用而设计的, 因此我们必须根据胶带撕裂裂缝图像的特征, 即直方图没有明显双峰, 裂缝与背景的比例像素悬殊等特点, 来设计适合本系统的分割算法, 其次, 由于本文中尽心分割的裂缝图像是从实际环境中获取的, 受到的干扰很大, 煤矿胶带下的情况恶劣, 造成我们获得的原始图像质量较差, 为进行有效分割带来困难, 因此选择一个分割算法, 使其能够最大程度去除噪声、边界、伪缺陷等非裂缝区域, 保留裂缝区域, 减轻后续处理的复杂度, 是本步骤的关键。

常用的算子可以分为一阶微分算子和二阶微分算子。一阶微分算子通过梯度值来进行边缘检测, 用此方法可以忽略细节, 得到的边缘也较粗, 如图2所示为一阶算子Sobel算子对胶带裂缝轮廓的提取图;二阶微分算子是通过寻找二阶微分中的零穿越来检测边缘。用此方法得到的边缘较细, 在细节方面较好, 但物体的整体轮廓不如一阶微分算子明显。由于纵向裂缝识别是以裂缝轮廓作为基础, 而对其它细节可以不予考虑, 从上面提取的裂缝轮廓图像可以看出Sobel算子符合识别的要求, 所以选择Sobel算子。

4 纵向裂缝的提取和识别

对于二值图像的连通域标记处理操作就是从白色像素 (通常用“1”来表示) 和黑色像素 (通常用“0”表示) 组成的一幅点阵图像中, 将互相邻接 (一般研究的是4邻域连接) 的目标“1”值像素集合提取出来, 并为图像中不同的连通域填入不等的数学标记。该处理过程是图像处理和分析中一个非常重要的基础操作, 有着广泛的应用领域。

为了对图像的连通域进行标记, 需要对一幅图像作从左到右, 从上到下的水平扫描。需检测当前被扫描到的点是不是和周围的点连通, 需要检查当前的像素和以前标记过的邻近像素的值是否一样。如果当前像素的值和邻近像素的值一样, 就表示它们连通, 反之, 就表示和此邻近像素不连通, 此时当前点就要给一个新的标记, 同时标记保留在一个与原二值图像像素点个数相同的二维数组中。

令S代表一幅图像中的像素子集, 如果在S中全部像素之间存在一个通路, 则可以说两个像素p和q在S中是连通的。对于S中的任何像素p, S中连接到该像素的像素集叫做S的连通分量。如果S仅有一个连通分量, 则集合S叫做连通集。在很多场合, 二值图像提取连通分量是许多自动图像分析应用的核心任务。

现场图像经过二值化处理后, 形成多个互不相连的区域, 而单个区域都是连通的, 将连通域分开标记, 就可以得到多个独立的区域, 连通域标记算法可以找到图像中所有的连通成分, 并对同一连通成分的所有点分配同一标记。

具体算法如下:

(1) 将所有的白色像素 (背景) 赋值为0, 所有黑色像素 (裂缝连通域所在) 赋值为-1, 连通域个数置为0;

(2) 寻找一个连通域开始的像素 (值为-1) , 并将其值改为当前连通域数, 存储, 连通域个数增加1;

(3) 所有像素搜索。找到值为-1的像素 (表示没有被搜索过) , 正向搜索其周围有没有值为当前连通域数的像素。如果有, 将当前像素赋以连通域的值;

(4) 如果没有像素被搜索, 表示当前所有像素已被遍历, 转步骤2;

(5) 如果步骤2中没有找到开始像素, 表示所有连通域已经被遍历。

5 结语

本文利用图像处理技术, 针对胶带撕裂图像中的裂缝进行识别, 分析了该图像的特点, 通过图像预处理, 图像切割, 以及连通域检测三个步骤识别裂缝。取得了以下的成果。

(1) 裂缝图像预处理。分析裂缝图像的像素分布, 得到其分布上有相似灰度级出现概率不同的特点。并且分析了裂缝图像中的噪声来源。针对其特点选用中值滤波。这个模块主要完成了彩色图像的灰度化、灰度拉伸、中值滤波处理。

(2) 裂缝的边缘检测。比较了几种边缘检测的方法, 得到了效果最好的Sobel边缘检测方法, 方便下一步的裂纹检出。

(3) 裂缝检出。经过前期处理后, 图像中的裂缝从背景中分离出来, 每个裂纹形成一个像素互相连通的区域, 利用连通域检测算法, 从而将裂纹检测出来。

摘要：介绍了胶带纵向撕裂识别方法中存在的缺陷, 提出了图像识别法监控胶带纵向撕裂的实现方法。介绍了图像预处理过程, 得出了实验仿真结果, 并选择Sobel算子来进行图象分割。本文利用数字图像处理技术灵活性高、再现性好、处理精度高、适用面宽以及处理算法和图像特点相关性高的优点, 根据矿用胶带图像的特点, 选取结构识别方法, 利用裂缝处灰度跳变的特性, 使用了符合其特点连通域检测, 通过图像预处理, 图像切割, 以及连通域检测三个步骤实现了矿用胶带的纵向裂缝的识别。

关键词：矿用胶带,纵向撕裂,图像处理

参考文献

[1]黄民, 李恩等.钢绳芯输送带纵向撕裂监测方法研究[J].中国矿业大学学报, 2002.31.

[2]刘英林.输送带纵向撕裂的检测与监视[J].山西矿业学报, 1995 (13) .

[3]吴剑锋, 张红卫.胶带输送机胶带损坏原因及运行理论分析[J].中州煤炭, 2005, 2.

[4]Gonzalez著, 阮秋琦译.数字图像处理[M].北京:电子工业出版社, 2003.3, 1-112, 420-514.

图像识别中的智能算法应用综述篇5

【摘要】本文从图像识别中的数学问题建模，图像识别算法，以及深度学习在图像识别中的应用几个方面进行了综述，分析了目前图像识别中的较为典型的技术手段和应用领域。

【关键词】图像识别；数学建模；分类算法；深度学习

引言

随着微电子技术及计算机技术的蓬勃发展，图像识别应运而生，图像识别是研究用计算机代替人们自动地去处理大量的物理信息，从而代替人的脑力劳动。随着计算机处理能力的不断强大，图像识别从最早的文字识别、数字识别逐渐发展到人脸识别、物体识别、场景识别、精细目标识别等，所采用的技术也从最早的模板匹配、线性分类到广泛使用的深层神经网络与支持向量机分类等方法。

1.图像识别中的数学问题建模

1.1飞行器降落图像智能识别建模

在复杂地形环境下，飞行器进行下降过程，需要采集图像并且判断是否符合降落要求。在对飞行器进行最终落地点的选择时，如果降落点复杂程度较高，采集的图像中将会产生大量的训练样本数目，图像配准过程中，极大地增加了运算量，造成最佳降落点选择的准确率降低。提出了利用图像智能识别进行最佳降落点的建模。利用伪Zemike矩能够对降落点的图像形状进行准确的描述，利用Procrustes形状分析法提取最佳降落点的特征，利用Rank的融合决策法最终实现最佳降落点选择的目的。

1.2人脸面部表情图像识别的隐马尔科夫建模

人有喜怒哀乐，目前有一种利用隐马尔科夫模型的建模方法，可以实现对人脸表情中的情感进行识别。具体的是：首先，采用子窗口对人脸面部表情图像进行采样，然后利用离散余弦变换提取所需要的特征向量，通过对人脸面部图像进行隐马尔科夫建模，使用获得的特征向量作为观测向量对人脸面部图像的隐马尔科夫模型进行训练，再使用训练后的隐马尔科夫模型对JAFFE人脸图像测试集中地人脸表情图像进行情感识别。

2.典型的图像识别算法

2.1 基于Gabor变换和极限学习机的贝类图像种类识别

对贝类图像进行Gabor变换，提取其图像特征，确定了图像特征维数；采用2DPCA方法，对变换后的特征进行降维，并利用极限学习机（ELM）进行贝类图像的分类识别。与BP神经网络和支持向量机（SVM）实验对比发现，极限学习机分类器用于贝类识别不仅速度极快而且泛化性良好，算法具有较高的精度。其特点对高维图像识别精确度高，但算法的复杂度和设计一个精确的分类器都显得难以把握。因此该类图像识别算法很难普遍推广使用，识别对象必须是贝类图像。

2.2 利用公开的全极化SAR数据，研究基于SAR图像的检测、极化分解和识别算法

首先根据四个线极化通道合成伪彩色图像，从而对场景进行初步认知。利用一维距离像分析全极化各通道的信噪比强度，通过对目标进行Pauli分解得到目标的奇次散射分量和偶次散射分量，从而完成对海杂波、建筑物和舰船的相干分量的研究。其特点过程简单易掌握，但识别对象有限。

2.3 基于SVM的离线图像目标分类算法

基于SVM的离线图像目标分类算法，先对训练集预处理，然后将处理后的图像进行梯度直方图提取最后对图像目标的分离器进行检测，但是这种图像识别算法只是有效，实用性不强。

3.深度学习在图像识别的应用

3.1 Deep learning的原理

深度学习是一种模拟人脑的思考方式，通过建立类似人脑的神经网络，实现对数据的分析，即按照人类的思维做出先关解释，形成方便人们理解的图像、文字或者声音。深度学习的重点是对模型的运用，模型中需要的参数是通过对大量数据的学习和分析中得到的。

深度学习有两种类型：有监督学习和无监督学习。学习模型根据学习框架的类型来确定。比如，卷积神经网络就是一种深度的监督学习下的机器学习模型，而深度置信网就是一种无监督学习下的机器学习模型。

3.2 深度学习的典型应用

深度学习是如今计算机领域中的一个夺人眼球的技术。而在深度学习的模型中研究热度最高的是卷积神经网络，它是一种能够实现大量图像识别任务的技术。卷积神经网络的核心思想是局部感受野、权值共享以及时间或空间亚采集。通常卷及神经网络使用最后一层全连接隐层的值作为对输入样本所提出的特征，通过外部数据进行的有监督学习，从而可以保证所得的特征具有较好的对类内变化的不变性。

3.2.1基于深度学习特征的人脸识别方法。

卷积神经网络在人脸识别领域取得了较大突破，为了更加有效的解决复杂类内变化条件下的小样本人脸识别问题，使用深度学习的方法来提取特征，与基于稀疏表示的方法结合起来，实验证明了深度学习所得的人脸特征具有很好的子空间特性，而且具有可迁移性以及对类内变化的不变性。

3.2.2基于深度学习的盲文识别方法。

目前盲文识别系统存在识别率不高、图片预处理较为复杂等问题。针对这些问题，利用深度模型堆叠去噪编码器自动、全面学习样本深层次特征，避免人为手工选取特征存在的多种弊端，并用学习的特征作为神经网络的输入，更大程度地避免了传统神经网络由于随机选取初值而导致结果陷入局部极值的问题。

3.2.3基于深度学习的手绘草图识别。

目前的手绘草图识别方法存在费时费力，较依赖于手工特征提取等问题。基于深度学习的手绘草图识别方法根据手绘草图时缺失颜色、纹理信息等特点，使用大尺寸的首层卷积核获得更多的空间结构信息，利用训练浅层模型获得的模型参数来初始化深度模型对应层的模型参数，以加快收敛，减少训练时长，加入不改变特征大小的卷基层来加深网络深度等方法实现减小错误率。

4.结论

图像识别是当代人工智能的热门研究方向，其应用领域也是超乎人类想象的，相信通过技术的不断创新，图像识别技术会给人们的生活带来智能化、个性化、全面化的服务。

参考文献：

[1]穆静，陈芳，王长元.人脸面部表情图像的隐马尔科夫建模及情感识别[J].西安：西安工业大学学报，2015（09）.

[2]杨靖尧，里红杰，陶学恒.基于Gabor变换和极限学习机的贝类图像种类识别[J].大连工业大学学报，2013（04）.

[3]马晓，张番栋，封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报，2016（11）.

[4]赵鹏，王斐.基于深度学习的手绘草图识别[J].四川大学学报，2016（05）.

数字图像识别篇6

面向对象技术在形态学相关领域的应用,使多种算法融合,意义重大。传统的线性相关(LC)对灰度图像的相关鉴别能力较低,一种称之为形态学相关(MC)的非线性相关技术引入模式识别[1],和LC相比,MC对类似模式提供了更好的鉴别能力,但计算量较大;最近,报道了一种基于位表示法的改进型形态学相关(MMC)[2],它具有甚至比MC更强的鉴别能力,较小的计算量,然而它对噪声较敏感。对灰度分布相近,形状相似的高相似度非对称灰度图像的识别,由于各层图像片都具有高相似度,一般用MC或MMC均难以识别。为改善MMC的识别效果,本文提出面向对象联合变换相关器计算机模拟形态学理论,提出基于图像片边缘特征提取的RMMC算法和基于二元化图像片功率谱的BMMC算法。改进的二维相关峰和谱图表明,上述算法对改善非对称高相似度灰度图像的识别产生了明显效果。MC也可作类似的改进。

上述算法基于联合变换相关器理论,如果用光学方法实现,由于光学探测精度不高,实验效果不佳;但如果用数字图像处理纯软件的方法实现,却能得到实用化的识别软件。本文提出采用面向对象技术对实用识别软件进行模拟,取得了好的效果。

1 形态学相关

引入形态学相关算法。

设t(x,y)和r(x,y)是灰度输入图像和参考图像,t(x,y)和r(x,y)的线性相关(LC)可定义为:

$\begin{array}{l} C (x, y) = t (x, y) * r (x, y) = \\ \sum_{h} \sum_{l} r (h, l) t (x + h, y + l) (1) \end{array}$

其中*表示LC运算。

t(x,y)和r(x,y)的形态学相关(MC)可定义为:

$\begin{array}{l} Μ C (x, y) = t (x, y) Θ r (x, y) = \\ \sum_{h} \sum_{l} \min [r (h, l), t (x + h, y + l)] (2) \end{array}$

其中 Θ表示MC运算。

通过运用取阈分解概念,MC也可表示成线性相关(LC)之和[1],t(x,y)和r(x,y)的MC也可表达为:

$\begin{array}{l} Μ C (x, y) = \sum_{q = 1}^{Q - 1} t_{q} (x, y) * r_{q} (x, y) = \\ \sum_{q = 1}^{Q - 1} C_{q} (x, y) (3) \end{array}$

其中Q=256

式中:

$\begin{array}{l} t_{q} (x, y) = {\begin{cases} 1 t (x, y) \geq q \\ 0 其他 \end{cases} (4) \\ r_{q} (x, y) = {\begin{cases} 1 r (x, y) \geq q \\ 0 其他 \end{cases} (5) \end{array}$

此处Cq代表二值图像片tq和rq的LC。

基于位表示法的形态学相关(MMC)是MC的一种改进算法,它并不基于线性取阈分解,而是基于位表示法分解,例如,一个拥有灰度级强度138的图像像素(共有256级灰度),采用位表示法分解,将表示成10001010,在相应的8片二值图像片中,其对应位置的值,在第8、第4、第2片中为1,在其它片中为0。运用位表示法分解,MMC可表示成线性相关(LC)之和[2],t(x,y)和r(x,y)的MMC也可表达为:

$Μ Μ C (x, y) = \sum_{g = 1}^{Μ} t_{g} (x, y) * r_{g} (x, y) = \sum_{g = 1}^{Μ} C_{g} (x, y) (6)$

其中M是基于位表示法分解的二值图像片数量。

MMC减小了计算量,节省了许多包含在MC中的相关操作。灰度图像有256级灰度,计算MC需要256片取阈二值图像;而MMC仅需要8片基于位表示法的二值图像。同时MMC改善了鉴别能力,如果我们假设256级灰度,仅一图像片变化,在MC中,相关峰的变化为MC峰值的1/256,而在MMC中,相关峰的变化为MMC峰值的1/8,MMC鉴别率明显高于MC情形。MMC对各种噪声变化敏感,这是由其高鉴别率特性决定的,MC是平均绝对值误差(MAE)最小化[1],而MMC不是MAE最小化。

为使用联合变换相关器(JTC)原理获得MMC,将每对图像片(一片来自输入物体,另一片来自参考物体)形成联合图像位图,进行傅立叶变换获得联合变换功率谱位图,这些图像片的联合变换功率谱之和存贮在计算机中,并且最后进行第二次傅立叶变换以产生MMC相关斑位图。注意到同样步骤可进行MC过程。我们采用JTC原理,构建的软件系统框图见图1。

2 对MMC的两种改进算法理论

对灰度分布相近,形状相似的灰度输入图像和灰度参考图像,其灰度图像的相似度较高接近,一般用MC或MMC难以识别。本文改进MMC算法以识别此类图像[4,5,6]。提出面向对象联合变换相关器计算机模拟界面见图2所示以模拟图1位图识别。

上述形态学相关基于联合变换相关器理论,其联合变换图像、谱图像及相关斑图像进行运算,各图像间的处理基于二维离散函数f(x,y)的傅立叶变换:

$F (u, v) = I [f (x, y)] = \sum_{x = 0}^{Μ - 1} \sum_{y = 0}^{Ν - 1} f (x, y) e^{- j 2 π (\frac{u x}{Μ} + \frac{v y}{Ν})}$

傅立叶反变换为:

$\begin{array}{l} f (x, y) = I^{- 1} (F (u, v)] = \\ \frac{1}{Μ Ν} \sum_{u = 0}^{Μ - 1} \sum_{v = 0}^{Ν - 1} F (u, v) e^{j 2 π (\frac{u x}{Μ} + \frac{v y}{Ν})} \end{array}$

其中

$\begin{array}{l} x = 0, 1, 2, \dots, Μ - 1 \\ y = 0, 1, 2, \dots, Ν - 1 \end{array}$

,在数字图像处理中,图像取样一般是方阵,即M=N。

本文进行计算机模拟,其结论可以用于位图MMC运算识别。

2.1 边缘形态学相关RMMC算法

灰度联合图像相似度k由二值联合图像片相似度kn决定,对于具有高相似度的二值联合图像片(kn接近于1),如果能将其转化为具有低相似度的二值联合图像片(如kn接近于0.6),则将使高相似度灰度联合图像的K值明显下降,从而使灰度图像易于得到识别。

在此我们用边缘检测方法来突出二值联合图像片的特征,使Sp 减小,Sf增大,以降低相似度kn。据此,提出一种对基于位表示法的各层图像片提取特征的新型MMC,本文称之为RMMC,对基于位表示法的每对图像片(一片来自输入图像,一片来自参考图像)进行Roberts边缘检测,获取经Roberts边缘检测后的每对图像片联合变换功率谱的总和,再做逆傅立叶变换得到相关输出。由于Roberts边缘增强是梯度运算的近似,因此根据(6)式,RMMC可表达为:

$R Μ Μ C (x, y) = \sum_{g = 1}^{Μ} t^{'}_{g} (x, y) * r^{'}_{g} (x, y) (7)$

2.2 二元形态学相关BMMC1和BMMC2算法

对于高相似度灰度图像,如果无法降低二值联合图像片的kn值,则应当提高JTC对二值联合图像片的识别能力。受二元JTC[3]较经典JTC有更强的识别能力启发,提出对基于位表示法的图像片(一片来自输入图像,一片来自参考图像)功率谱进行二元化的两种改进型MMC,本文称之为BMMC1和BMMC2。

2.2.1 二元形态学相关BMMC1算法

一种是对基于位表示法的每对图像片功率谱求和后进行二元化,再做逆傅立叶变换得到相关输出。根据(6)式,每对图像片功率谱可表达为:

$\begin{array}{l} Ι_{g} (u, v) = | S_{g} (u, v) |^{2} = | Τ_{g} (u, v) |^{2} + \\ \exp [i \frac{4 π}{λ f} d u] Τ_{g} (u, v) R_{g}^{*} (u, v) + \\ \exp [- i \frac{4 π}{λ f} d u] Τ_{g}^{*} (u, v) R_{g} (u, v) + \\ | R_{g} (u, v) |^{2} (8) \end{array}$

根据(8)式,各对图像片功率谱之和可表达为:

$Ι_{s u m} (u, v) = \sum_{g = 1}^{Μ} Ι_{g} (u, v) (9)$

如果以每对图像片功率谱之和的谱面中值为阈值Tsum,对功率谱之和进行二元化可表达为:

$E_{s u m} (u, v) = {\begin{matrix} 1 Ι_{s u m} (u, v) \geq Τ_{s u m} \\ 0 Ι_{s u m} (u, v) < Τ_{s u m} \end{matrix} (10)$

对Esum(u,v)做逆傅立叶变换得到BMMC1。

2.2.2 二元形态学相关BMMC2算法

也可对基于位表示法的每对图像片功率谱二元化后求和,再做逆傅立叶变换得到相关输出。如果以每对图像片联合变换功率谱谱面中值为阈值Tg,每对图像片的二元联合变换功率谱可以表达为:

$E_{g} (u, v) = {\begin{matrix} 1 Ι_{g} (u, v) \geq Τ_{g} \\ 0 Ι_{g} (u, v) < Τ_{g} \end{matrix} (11)$

求和每对图像片功率谱 $\sum_{g = 1}^{Μ} E_{g} (u, v)$ ,再进行逆傅立叶变换得到BMMC2。

与传统MMC相比,RMMC 和BMMC对高相似度灰度图像有明显增强的识别能力。

由于MMC较MC的图像片数量由N=2n降至n=log2N,因此与图像片数量相同的预处理次数不至于增加太多的计算量;尤其是BMMC1无论图像片数量的多少,仅增加了一次谱面二元化运算。

以上算法对MC同样适用,只要对每对图像片或每对图像片功率谱进行类似处理即可,但由于MC图像片数量远较MMC多,从而使计算量较大。

3 计算机模拟结果

本文构建一组仿真目标如图3所示, 该仿真目标对应的基本形状可类似于字符目标用作基础研究,基本形状的变形,基本形状的孔添加,基本形状的纹理添加,基本形状的变形、孔添加、纹理添加几种方式的组合可模拟难易不同的待识别目标。人脸仿真目标可以看作是在基本形状圆基础上的变形、孔添加和纹理添加。

采用具有16级灰度的多边形图像、人脸图像进行计算机模拟,实现MC需要取阈相关16片二值图像片,而实现MMC仅需要求4片二值图像片的相关。模拟运算基于64×64的快速傅立叶变换,图像尺寸各为12×12,具有16级灰度,相关峰均采用振幅输出,图3～图6中,中间峰为0级项,两侧峰为相关峰。

对高相似度16级灰度五角形或八角形,用MMC识别效果不佳,见图4。

采用RMMC可以识别灰度五角形和八角形,见图5。

Fig.5 RMMC识别效果

采用BMMC1识别灰度五角形和八角形可以获得很好的识别效果,见图6。

对于16级灰度人脸,采用BMMC2较采用BMMC1能产生更好的识别效果,见图7。

对于高相似度灰度八角形和非对称五角形的识别,采用本文提出的RMMC、BMMC1、BMMC2,鉴别率较MMC的近40%分别提高了近20%、近55%,达到60%、95%。其它评价参数也都有大幅度的改善。再用具有高鉴别率的BMMC1、BMMC2识别高相似度非对称灰度人脸,BMMC1的鉴别率可达到约50%,BMMC2的鉴别率接近65%,已可以识别。从识别结果看,非对称图像的识别较对称图像的识别效果更佳。

4 结论

本文模拟数字图象处理纯软件位图的方法实现相关识别,计算机模拟提取基于位表示法的图像片边缘特征或二元化基于位表示法的图像片功率谱,给出了改进的二维相关峰和谱图,以提高MMC对高相似度非对称灰度图像的识别能力。面向对象计算机模拟结果表明,改进后的算法使识别效果明显改善。

参考文献

[1]Zhang Si,Karim M A.Illumination-invariant patternrecognition with joint-transform-correlator-basedmorphological correlation[J].Appl.Opt.,1999,38(35):7228-7 236.

[2]Shemer A,Mendlovic D,Shabtay G.Modified morphologicalcorrelation based on bit-map representations[J].Appl.Opt.,1999,38(5):781-787.

[3]Javidi B,Wang J.Binary nonlinear joint transform correlationwith median and subset median thresholding[J].Appl.Opt.,1991,30(8):967-976.

[4]宋菲君,Jutamulia S.近代光学信息处理[M].北京:北京大学出版社,1998.

[5]Francis S,Yu,Suganda Jutamulia,Shi Zhuo Yin,et al.光信息技术及应用[M].冯国英、陈建国,李大义,等译.北京:电子工业出版社,2006.

数字图像识别篇7

1 算法整体框架

文中介绍的图像文字算法主要包括文字区域检测、文字块增强、文字提取以及文字识别四个核心模块, 其中文字识别模块直接采用OCR软件识别技术, 算法的研究集中在前3个模块中。

2 视频文字检测

算法采用聚类技术奖图像中的边缘进行分解, 并形成多个子图像, 从而将不同颜色的图像文字与背景色进行隔离, 主要步骤包括累积边缘图像的创建、彩色边缘分层处理以及文字定位三个步骤。

2.1 边缘图像创建

通过定义累积边缘图像, 在原数字图像的Y、U以及V三个分量上进行检测, 得到更加丰富的边缘信息, 在图像水平方向、垂直方向以及对角线方向上进行三个维度的边缘检测, 假定Py、Pu与Pv分别代表数字图像在Y、U与V分量上的边缘图, 则计算公式如式1所示:

其中SBh、SBv、SBl与SBr分别表示采用Sobel检测算子计算得到的数字图像在水平方向、垂直方向及左右对角线分量上的边缘强度计算结果。

2.2 彩色边缘分层处理

边缘分层处理是通过对2.1中得到的边缘分量图进行着色处理, 并采用K-means聚类算法将着色处理后得到的数字图像进行像素分类, 从而得到不同层次的像素点集合, 分别代表背景色和文字像素。由于不同的边缘图对应着不同的颜色, 因此通过聚类处理后可以将边缘图中的不同颜色进行分类, 得到颜色值相对统一的边缘子图, 为文字区域的定位提供参考。

2.3 文字定位

由于数字图像中的文字区域一般分布比较集中, 所以在2.2中处理结果上通过水平方向、垂直方向上的投影操作即可实现对文字区域的初步定位, 其次采用基于SVM向量机的方法对得到的文字区域进行过滤处理, 并采用均值计算、方差处理、局部同次性等特征分析, 丢弃明显错误的文字区域识别结果, 从而能够大大提高文字区域的定位准确性。

3 文字块增强

通过过滤操作提高文字笔画的清晰度, 并将得到的文字笔画进行融合处理从而得到更为准确的文字区域识别结果。

3.1 文字区域过滤

当前的数字图像与视频大都经过了一定程度的压缩处理, 从而导致图像和视频中的文字笔画比较模糊, 所以算法首先对文字笔画进行增强处理, 具体方法是通过对文字块的水平方向、垂直方向以及两个对角线方向上采用如式2所示的检测算子进行增强处理:

其中, Text Inth、Text Intv、Text Intl、Text Intr分别代表水平方向、垂直方向以及左右对角线方向上增强处理后得到的强度。

3.2 文字区域融合

算法采用局部阈值设定的方法对文字块中的背景色进行进一步分离, 并在此基础上进行平均融合处理, 从而降低噪声对识别结果的影响。另外, 在背景色的融合方面, 算法采用最小值融合技术, 从而降低了算法的处理开销, 并提高了处理结果的对比对。其中局部阈值t的设置采用OTSU法进行计算得到, 并通过对不同文字区域进行平均像素计算得到各个文字区域的图像集合, 最后进行阈值判断, 如果图像集合中的元素大于t则将其归为文字部分, 否则归到背景色。

4 文字提取

4.1 二值化处理

算法在文字提取时首先采用基于颜色分量的聚类算法进行像素二值化处理。具体的操作时通过对融合后的文字块图像从Y、U和V三个分量上进行对比度检测, 并选择其中的最大值作为二值化处理的选择标准。对于单个像素, 算法通过对像素边缘区域的灰度进行分量计算, 从而得到用来分割的局部阈值, 最后将像素的灰度值与局部阈值进行对比, 确定其是否属于文字区域。

4.2 噪声去除

经二值化处理后文字块的前景文字具有较高的连通性, 但却包含了比较大的笔画噪声, 所以为了提高文字识别的精度, 还需对噪声进行去除。算法通过对连通分量进行考察, 采用灰度一致性进行噪声去除。首先, 采用K-means法进行连通分量聚类, 将聚类结果中的大集合作为文字区域, 将小集合作为噪声进行去除。最后采用灰度一致性分析将处理得到的文字块进行进一步噪声去除, 从而得到更为清晰的文字提取结果。

参考文献

[1]李英, 田春娜.一种图像中的文字区域检测新方法[J].西安电子科技大学学报, 2013 (6) .

图像识别技术研究综述篇8

关键词：图像处理,图像识别,成像

图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。

图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。

3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别

目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。

参考文献

[1]胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.

[2]胡学龙.数字图像处理[M].北京:电子工业出版社,2011.

[3]范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.

[4]晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.

[5]陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.

基于图像的角度识别分析篇9

在使用色标块定位的时候, 色标块为一个条状矩形, 而且长边是短边的3倍。在大学物理中我们了解到这种形状下的几何薄片, 如果满足质量均匀分布, 那么它将存在最小转动惯量轴和最大转动惯量轴, 如图1所示。如果把每个色标块内的像素想象成带有质量质点, 那么每个色标块将成为一个质量分布均匀的“矩形薄片”。我们希望得到的色标块方向就是“矩形薄片”最小转动惯量的方向, 就是说求出色标块的最小转动惯量。

2 角度识别方法介绍

2.1 基于边缘检测法

基本思想:用角度逼近方法经一步步迭代得到色标块大致角度后, 再利用边缘算子对色标区域进行灰度边缘提取。由于色标块一侧色块边缘有较强灰度变化的, 之后在色标块所在的小窗口中对边缘点进行哈夫变换统计出含边缘点最多的直线即是色标块轴线方向。

算法描述: (1) 首先用补偿逼近方法求出大致角度; (2) 在范围内, 利用Canny算子进行边缘点搜索得到色标块边缘; (3) 对边缘点进行哈夫变换 (Hough Transform) 得到包含边缘点最多的直线, 以它的方向作为色标块的方向。

这种方法避开了彩色空前颜色信息库包含信息不完整、受干扰多等弊端, 而是在灰度空间另辟蹊径, 求出色标块角度。该方法成功地应用在模拟摄像头系统中, 取得较好的效果, 但它的计算开销较大, 必须依赖有较强计算能力的CPU才能保证在一个采集周期内顺利完成运算。

2.2 基于色块转动惯量

求色标块的最小转动惯量有两个途径:

(1) 以色标块中心为原点, 在一定角度范围内 (如0°~90°) 作直线, 然后用积分 (或者连加的方法) 的方法求出色块在该直线上的转动惯量, 在这个范围内选出转动惯量的最小值, 它所对应的直线就是色标块轴线。或者求出转动惯量的最大值, 将其旋转90°也能求出色块的轴线, 从而得到小车的方向。但是这种方法的计算量是惊人的, 每个色标块需要经过大量迭代才能求出其转动惯量, 这是我们不能接受的。

(2) 我们可以把色标块中像素点坐标当作已知量, 把转轴设为通过色块重心的直线, 其斜率k未知。这样可以列出关于k的转动惯量方程f (k) , 通过令其导数等于零的方法:f′ (k) =0, 可以得到这个函数的最小点。从而求得最小转动惯量对应转轴的斜率表达式:k=g (xi, yi) , 其中xi、yi是色块上的点, 最终得到色标块角度。我们采用了这种方法。k=g (xi, yi) 的详细推导过程如下:

设色块重心为原点, 通过色块重心的直线为:

设色块上的像素点 (xi, yi) 到该直线的距离为di, 则

点 (xi, yi) 到直线的转动惯量为Ji:

把每个像素点的质量看作单位1, 则总转动惯量为:

令其求导等于零:

显然方程的二次项系数不可能为零, 二次方程有两个解:

若时, 二次曲线开口向上, 在B点穿过x轴时函数值由小到大, 从而判断B点为最小转动惯量所对应点, 即式 (6) 的较大解为最小转动惯量轴斜率。我们取:

若时, 二次曲线开口向下, 在A点穿过x轴时函数值由小到大, 从而判断A点为最小转动惯量所对应点, 即式 (6) 的较小解为最小转动惯量轴斜率。我们取:

3 实验结果分析

实验室硬件环境:在室内环境下, 采用数字图像采集设备;主机配置:奔腾IV3.2G双核CPU, 1G内存。试用本文的方法和边缘检测的方法进行对比, 如图3所示。

表1为识别结果的统计量。从试验结果不难看出, 在识别精度上看两种方法不相上下, 边缘检测方法的平均误差为+0.29°, 求最小转动惯量方法的平均误差为-0.54°。对于误差在1°范围内, 都是我们可以接受的。从一致性上看边缘检测方法明显没有求最小转动惯量轴方法稳定。从计算耗时上看, 如图3所示, 边缘检测方法计算耗时几乎比求最小转动惯量轴方法大了1个数量级。所以我们最终选择了求最小转动惯量轴的方法求取色标块的角度。

参考文献

[1]曾大幸.中型组足球机器人的视觉识别与视觉定位研究[D].秦皇岛:燕山大学, 2004.

[2]CARPENTER J, et al.An improved particle filter for non-linear problem[sR].Department of Statistics, University of Oxford, 1997.

[3]DELLAERT F, et al.Monte Carlo Localization for Mobile Robots[C]//IEEE International Conference on Robotics and Automation (ICRA99) , May, 1999.

[4]王亮.智能移动机器人定位技术研究[D].哈尔滨:哈尔滨工程大学, 2003.

[5]董再励, 王光辉.自主移动机器人激光全局定位系统研究[J].机器人, 2000, 22 (3) :207-210.

智能监控系统中的图像识别与分析篇10

关键词：智能监控系统；图像分割技术；图像识别

中图分类号：TP391.41 文献标识码：A文章编号：1007-9599 (2011) 15-0000-01

The Image Recognition and Analysis of Intelligent Monitoring System

Yi Junxiao

(Beijing University of Technology,Beijing100022,China)

Abstract:At present,along with the computer communication technology and network technology fast development,the image processing technology in the field of science and technology is getting more and more important position.Image recognition belong to intelligent monitoring equipment the most important technology,this paper in this part of the intelligent monitoring system based on intelligent monitoring system image recognition.The key:technology of intelligent image monitoring system image recognition and classification for analysis.

Keywords:Intelligent monitoring system;Image segmentation;Image recognition

一、智能监控系统概述

智能监控系统采用先进的数字图像压缩编解码技术、数字图像传输技术等图像处理技术，以及模式识别、计算机视觉技术，通过将智能视频分析模块增加至监控系统中，借助计算机强大的数据处理能力自动识别不同物体，在分析抽取视频源中关键有用信息的同时，过滤视频画面无用的或干扰信息。整个系统组网灵活，可以突破地域的限制，并以最快和最佳的方式发出警报或触发其它动作，进行遥远范围大规模的实时图像监控和报警处理。

二、智能监控系统图像识别的关键技术

（一）图像分割技术。图像分割是由图像处理迈向图像分析的关键步骤，其实质是正确地划分属性区域，在分离日标和背景的基础上，为计算机视觉的后续处理提供依据。分割技术依据区域的一致性和几何邻近度，可以分为三种类型，即基于像素和其邻域局部特性进行分割的局部技术；以全局信息作为图像分割依据的全局技术；以及分裂、合并和区域增长技术。图像分割方法主要包括阈值法、边缘检测法以及区域跟踪法。阈值分割法较为常用，常用的算法有最小误差阈值法、最大类别方差法及最佳直方图熵法等。由于传统的图像分割算法有着对噪声敏感、计算量大等方面的缺陷。基于尤其是基于模糊技术的人工智能原理图像分割算法开始引起人们的关注。在图像分割过程中所涉及到的模糊技术主要包括模糊阐值技术、模糊聚类技术以及模糊边缘检测技术等。

（二）图像颜色分割原理。图像颜色分割是将分割具相同或相近颜色特征色块的图像处理方法，主要包括：（1）像素分类：像素通过颜色的阈值进行分类，像素采用RGB、YUV、HIS等描述方式。（2）像素连接：将图像进行游程编码处理，即将图像编码成以run格式为单元的编码处理。游程编码处理是run格式指的是一行像素之内相邻且具有相同逻辑值的像素集合。作为色块合并的基础，像素连接通过分类后的像素信息实现。（3）色块合并：按一定规律合并所得到的游程，即将游程按照parent归类至一个树结构下的过程。每一个游程在带有效信息的基础上配有指向游程parent的指针。（4）区域融合：为了避免处理过程被判断为两个分离开来的区域，需要引入区域融合方法，使相邻近的部分合并成为一个整体。由于面积和边框同为区域统计量，因此可以进行同一种密度测量方法的使用。倘若某几个部分的区域像素密度大于某个阐值，即可将这些区域合并成成为一个区域整体。在色块合并中，即使区域存在被一根线分割的情况，但这部分的密度倘若仍旧大于阐值，应当将它们看作一个整体区域进行区域融合。

三、智能图像监控系统的图像识别与分类

（一）图象识别技术。图像识别以研究图像的分类与描述为主要内容，对图像用预先存储的对象物的参照图案进行匹配，并输出文字识别和脸部图像识别等符号信息，或者输出物体位置或姿态等数值信息。图像识别涉及的领域较为广泛，包括机械加工中零部件的识别、分类；农作物、森林、湖泊和军事设施的遥感辨别；气象数据、气象卫星照片的准确观测；身份证识别等方面。

图像识别方法可归纳为统计方法和结构识别方法两大类。一个图像识别系统可分为四个主要部分：（1）图像信息的获取：将图片等信息经系统输入设备进行数字化处理，再输入计算机以备后续处理。（2）图像加工和预处理：将原始图像转化为适合计算机进行特征提取的形式，包括图像变换、增强、恢复等，目的是去除干扰、噪声及差异。（3）图像特征提取：将调查而得的数据材料进行加工、整理、分析、归纳等处理，以提取出可以反映事物本质的特征。（4）判断或分类：根据所提取的特征参数，通过采用某种分类判别函数和判別规则分类和辨识图像信息，最终得到图像识别结果。（二）图像识别的几何特征描述。图像识别特征具有多种形式的描述，效果取决于图像识别的具体状况。在多数情况下，只需图像的局部特征即可识别图像，这些特征诸如图像的灰度级空间分布特征，图像颜色和波段，图像随时间变化的形态，图像形状、轮廓、面积和空间点位置等。而图像识别的几何特征描述包括周长、面积定义和算法（面积和周长较为容易计算），占空比、圆形度，形状的投影描述以及特殊的形状描述子（多数情况下，可以用来简洁地描述物体图像形状）等方面的内容。（三）图像识别分类器设计。在图像识别中，分类器的基本任务是通过图像分类特征、分类运算法则的应用，对图像进行分类。图像识别分类器必须提取和选择特征，以便对被识别的图像数据进行大规模的压缩，有利于最终的图像识别。分类器设计的主要步骤为分类识别特征的确立。此为关键步骤，特征若提取得不恰当，就无法精确分类，甚至无法进行分类，良好的特征应具有可区别性、可靠性、独立性以及数量少四个方面的特征。

特征提取和选择应当坚持尽可能减少整个识别系统的处理时间和错误识别概率的原则。当这两个原则无法兼得时，则应做出相应平衡的选择，或者提高整个系统速度，以适应实时需要；或者缩小错误识别的概率，以提高识别精度。图像识别系统的复杂度将随着特征个数的增加而迅速增长，特别是用来训练分类器和测试结果的样本数量，将随着特征数量的增加呈现指数关系增长。特征选取的方式将因不同的模式而异，并与识别的目的和方法等有着直接的联系。

参考文献：

[1]苏彦华.visualC++数字图像识别技术典型案例[M].北京:人民邮电出版社,2004

[2]盛国芳,焦李成.基于遗传算法的最佳熵阁值的图像分割[J].计算机工程与应用,2003,12

敏感图像信息识别模型研究篇11

网络技术的普及与Internet用户持续、快速的增加,使网络信息安全成为影响到国家安全与社会稳定的一个重要问题。各种色情、暴力、反动以及涉及国家安全保密的信息(包括图像、视频),越来越多地借助于互连网这种通信方式进行传播。从目前的情况来看,仅仅采用封锁网址的方式进行扫黄是不够的,对网络信息特别是敏感图像信息进行必要的技术监测和过滤,才能够有效地打击网络犯罪。

网络敏感信息监控是依据文本模式匹配和图像处理技术来建立网络敏感信息宏观监控体系,综合运用文本、图像处理技术,以及智能代理技术实现网络敏感信息的监测。本文所述的网络敏感图像主要是指含有色情信息的图像,提出了一个敏感图像信息识别模型。该模型综合使用肤色模型匹配、纹理判别和SVM分类技术对敏感图片进行识别,能识别网络传输的图片,判断其中是否含有色情内容,以减少和杜绝色情图像在网络上传播的机会。

1敏感图像信息识别模型

敏感图像的识别是通过对图片的内容进行分析来实现的。图像识别与指纹识别有所不同,由于图片本身的背景条件比较复杂,人体的表现形式也具有多样性,很难与指纹模型一样用一个单一的模型把所有的特征表示出来。

敏感图像多种多样,其最明显的特征就是有裸露的肌肤。因而进行敏感图片识别就可以从皮肤区域的特点进行处理。我们先对图像进行皮肤颜色模型匹配,检测出一幅图像中的皮肤区域。接着对图像使用小波分解和灰度共生矩阵提取进行纹理判别,以区分大部分和皮肤相近的区域,然后对输出的二值图像进行处理判断。最后再用SVM进一步分类考察,最后确定图片是否含有色情信息。图片信息识别模型决策图如图1所示。

1.1肤色模型匹配

1996年Fleck[5]等就利用计算机视觉和图像理解技术对色情图片识别进行了研究,通过对图片肤色分割和人体姿态的几何特征检测来判别图片中是否含有色情信息。目前肤色模型已经广泛应用于人及其局部特征的识别。

RGB是最常用的颜色系统,也是十分可靠的表达肤色信息的色彩空间。人脸的肤色在RGB色彩空间上一般分布于R[1 51,255]、G[97,239]、B[84,233]的区间,但人的肤色在RGB空间中的分布非常广泛,直接在RGB空间中进行处理难以达到从图像中抽取人体肤色区域的目的。本文将肤色在HUV和KL颜色空间中作分割处理。

YUV表示法中Y分量表示颜色的亮度信息,U和V两个相互正交的分量表示彩色信息。色度信号是一个二维矢量,称为色度信号矢量。每个颜色对应1个色度信号矢量,它的饱和度由Ch表示,色调由相位角θ表示。

彩色图像的像素P由RGB空间变换到YUV空间用数学表示为:

$[\begin{array}{l} Y \\ U \\ V \end{array}] = (\begin{matrix} 0.299 & 0.587 & 0.144 \\ - 0.596 & - 0.274 & 0.322 \\ 0.211 & - 0.523 & - 0.312 \end{matrix}) [\begin{array}{l} R \\ G \\ B \end{array}]$

$C h = \sqrt{| U |^{2} + | V |^{2}}$

θ=tan-1(|U|/|V|)

在YUV空间UV平面上,肤色的色调介于红与黄之间,根据对大量图像的彩色分析,可以确定人的肤色色调θ的变化范围,如果满足条件:θp∈[100,150],则P是肤色点。该肤色模型能够有效地提取肤色区域,但是该模型也会把一些与人的肤色比较接近的其它区域当作肤色区域。

KL变换是建立一个肤色坐标变换以进行肤色判断。彩色图像的像素P由RGB空间变换到KL空间的坐标表示为:

$[\begin{array}{l} Κ 1 \\ Κ 2 \\ Κ 3 \end{array}] = (\begin{matrix} 0.666 & 0.547 & 0.507 \\ - 0.709 & 0.255 & 0.657 \\ 0.230 & - 0.797 & 0.588 \end{matrix}) [\begin{array}{l} R \\ G \\ B \end{array}]$

然后再根据下面的阈值进行判断:

110.2<K1<376.3

-61.3<K2<32.9

-18.8<K3<19.5

在该范围内的置1,否则置0,从而得到过滤肤色的二值图像。KL寻找了一个合适的色系坐标系,具有集中肤色信息的作用。KL变换和YUV空间相结合,可以弥补两种方法的不足,能更好地分割出图像中的肤色区域。变换到YUV空间能将亮度信息与色彩信息分离;KL变换能减小每个分量的均方差,从而压缩阈值范围;将两者相结合,可以进一步缩小单纯使用KL变换的阈值范围,使肤色分布范围更加集中,增加最后肤色分割的成功率。

仅用肤色模型匹配方法对图像识别的过程中,对含有色情信息的图像有较高的正检率(判定其为敏感图像),但是也覆盖了较多的具有特定颜色以及特殊光照的非色情图像。因为肤色和非肤色空间本身是相互覆盖的,肤色过滤阶段出来的区域有一部分并不是需要找的肤色区域,只是在颜色上与皮肤很接近,我们还需要对此进行纹理判别,因为非肤色区域从纹理上讲并没有肤色区域一般光滑。

1.2纹理判别

纹理通常定义为图像的某种局部性质,或者说是对局部区域中像素之间关系的一种度量,纹理特征可用来对图像中的空间信息进行一定程度的定量描述。皮肤的纹理作为一种特殊的纹理,没有明显的纹理基元,无明显的周期性和方向性。一种纹理特征提取的有效方法就是以灰度共生矩阵为基础的。

灰度共生矩阵是建立在估计二阶组合条件概率函数基础上的纹理分析方法,反映的是图像关于方向、相邻间隔以及变化幅度的综合信息,描述了某方向上间隔一定距离的一对图像点灰度出现的统计规律。分析灰度共生矩阵就可以分析图像的局部模式和排列规则,也可以从中提取出很多图像的纹理特征,比如二阶矩、相关、对比度、方差、逆方差和熵等信息。通过灰度值等相关信息作为判定规则可以判断某一区域是否为皮肤区域。

为了减少灰度共生矩阵生成的复杂度并提高图像信息的识别程度,在此之前先使用小波变换对图像进行预处理。小波变换具有多尺度特征表达能力,能将图像的大部分能量集中到最低分辨率子图像。同时,小波分析方法提取的图像的特征矢量具有维数少的优点。

小波变换是一个常用的图像分析手段,并且在纹理识别中有较多的应用[6]。与傅里叶变换相似,小波变换是一种同时具有时—频二维分辨率的变换,其优于傅氏变换之处在于它具有时域和频域“变焦距”特性,十分有利于信号的精细分析。小波变换的另外一个重要优点就是小波分解和重构算法是循环使用的,易于硬件实现。

一个二维小波变换可以看作两个连续的一维小波变换。小波变换的结果取决于所采用的小波基的类型,而小波基是由滤波器的类型决定的。本文采用Daubechies-4小波。对一幅图像进行小波分解,得到一系列的小波系数,把分解出来的子图像称为小波分解通道。当图像在某一频率和方向下具有较明显的纹理特征时,与之对应的小波通道的输出就具有高能量。

经过肤色模型匹配以及纹理判别这两步操作以后,输出的是一幅二值图像,这时可对该二值图像进行处理和判别,也就是说对连续区域位置和皮肤区域所占比例的设置和判别,以判断该图像是否该划分为敏感图像。

1.3SVM分类判别

SVM在解决小样本、非线性及高维模式识别问题中表现出很多特有的优点。模型最后用SVM来进一步对色情和非色情图片进行分类考察,最后确定图片是否含有敏感信息。

SVM是一种以统计学习理论为基础的机器学习方法,它通过核函数将输入的样本映射到高维特征空间,然后构造“有敏感信息”和“没有敏感信息”的最优分类超平面,从而达到最大的泛化能力。作者以灰度共生矩阵参数和一些像素信息作为SVM的输入进行训练和测试,以达到分类的目的。

2模型分析

本文提出的敏感图像信息识别模型实现了对网络敏感信息的监控,模型对含有色情信息的图片的取真率比较高。模型具有学习功能,在经过一些小样本的尝试学习后,能达到一定正检率。本文在该模型基础上建立了一个含有5000副图像的小样本图库,其中包括640幅色情图像和4360幅正常图像(风景、建筑、人物和动植物图像)。实验结果正检率(敏感图像正确识别的概率)、误检率(正常图像被判定为敏感图像的概率)如表1所示。

3结束语

网络敏感图像识别技术是一项具有应用价值和研究价值的技术,本文提出了一个基于肤色匹配和纹理识别的图像信息识别模型。针对网络上敏感信息泛滥的情况,该模型可在网络敏感信息监控系统基础上自动对敏感图像信息进行检测和监控,适合在网络环境下使用。进一步要做的工作是提高识别和分类精度,以及提高对大量图像的识别应用中的效率,可考虑采用多个SVM分类组合方法。

参考文献

[1]段立娟,包振山,毛国君.多特征特定类型图像过滤方法.北京工业大学学报,2005,31(4):352-356.

[2]Daubechies I.Ten lecture on Wavelets.Philadelphies:Capital city Press,1992.

[3]尹显东,唐丹,邓君,等.基于内容的特定图像过滤方法.计算机测量与控制,2004,12(3):283-286.

[4]何江平,文俊浩,邓恬洁,等.基于支持向量机的图像识别.重庆大学学报:自然科学版,2006,29(1):57-60.

[5]Fleck MM,Forsyth DA,Bregler C.Finding naked people[A].In:Pro-ceedings of the4th European Conference on Computer Vision,Cam-bridge,UK,1996,2:593-602.

【数字图像识别】推荐阅读：