文字特征

2025-01-28

文字特征(共4篇)

文字特征 篇1

五千年的中华璀璨文明及无与伦比的丰富文字记载都被世人所认可,中国书法艺术用其独特的艺术形式展现了每一阶段文字的嬗变过程。

秦代书法作为中国书法艺术发展最重要的历史阶段,对整个书法发展过程起着举足轻重的历史作用。秦诏版无论在秦代书法发展史还是在秦代文化中都具有非常重要的价值, 尤其对后世的书法创作有着极其重要的影响。

一、“书同文字”的秦代书法

春秋战国时期,战乱不一、诸侯割据 , 政治、经济、文化受到了不同程度的影响,汉字的发展也受到了战乱的影响。文字异形、书体多样化的景况每况愈下。但从书法发展的多样化上讲并不无好处。可是语言文字毕竟是人们日常思想交流进行社会交际的工具,言不同声、字不同形对人们的思想交流和社会交际是极其不方便的。因此,秦始皇统一了中国,秦朝建立之初,采纳了丞相李斯的建议,在沿用西周秦系文字的基础上统一了全国的文字。小篆作为儿童启蒙的识字课本,以此为推广应用的楷模。从此,统一后的文字—— 小篆就成了秦代的通行书体。这种书体,与以前的文字相比较,书写线条圆润匀称,结构统一定型,字型呈长方纵势等特点。从汉字的发展史上讲,这无疑是汉字的一大进步。但秦代书体并不只有小篆一种。东汉许慎说 :“秦书八体 :一曰大篆,二曰小篆,三曰刻符,四曰虫书,五曰摹印,六曰署书,七曰殳书,八曰隶书”。说明当时与小篆并行的还有 : 大篆、隶书 。“虫书”又名叫鸟虫书、鸟篆 , 以鸟虫头起笔 , 以虫身区曲为线的篆书美术字。是赵国越王勾践铭文一类书体的延续 ;“刻符”为小篆 ;“摹印”为结体方正的小篆, 开汉印篆体的先河 ;用于门榜、封简题字的“署书”,刻于兵器的“殳书”,都是大篆、小篆或隶书应用范围的变化而已。

二、秦诏版文字的产生及其价值

(一)秦诏版文字产生的时代背景

公元前221年,秦王嬴政一统天下,结束了长期的割据与纷争,建立起第一个中央集权的专制王朝。秦朝在历史上只有短短15年,但这个短暂的15年的王朝对后来中国数千年的封建帝制社会却有着非常深刻的影响。其主要经济政策是统一货币,统一度量衡 , 以秦国的圆形方孔钱通行全国 ; 主要的文化政策是先以小篆,后以隶书作为标准字体统一文字。“秦诏版”是秦始皇落实经济政策中的统一度量衡而颁发的文告,命令丞相将文告铸于“铜诏版”上,将七国原来不一致的度量衡用统一的标准明确起来,统一了度量衡。诏书或是在权、量上直接凿刻,或是直接浇铸于权、量之上, 更多地则制作成为一片薄薄的“诏版”颁发到各地使用,这就是《秦诏版》。

(二)秦诏版文字的艺术特征

诏版是皇帝用来发布诏书的,为了统一度量衡, 向全国颁布的诏书,《秦始皇二十六年诏铭》就是秦始皇于公元前221年统一中国后所发布的诏书。这篇诏书文字仅有40字,篇幅较短,或者在权量上直接凿刻或浇铸,又或者制做成一片薄薄的诏版,发到各地供使用,这就是《秦诏版》。 由于诏版是自上而下颁布的,目的是只要能让百姓看懂就可以,所以它不像许多的秦代刻石那样庄重严肃,当然秦诏版也有规整的,但目前所见到的大部分版诏都是字型大小不一,章法参差错落,极为随便,其中更有一些诏版中的字笔画缺少,对字进行随意的简化,形成自己独特的风味。这种特点虽然不合法度,却给人们一种天真、稚拙的美感。诏版主要是出于记事、实用的需要,决定了它只能是相对急就的特点,因此诏版大都是秦代的“急就章”。

(三)《秦诏版》的价值

现在看起来,秦诏版的作用有两个 :一个是它的本来意义,也就是为了昭告天下,统一度量衡,这是下发诏版的主旨 ;一个是它的文字示范意义,即借此发布统一要求人们使用的文字,即小篆。 因此,无论在书法上,还是在史学上, 秦诏版都具有非常重要的价值。诏版的实用性,使得作者在书写上有其独特的特点,写法草率随意,笔画直上直下,行款参差错落,该诏版文笔划方折是因为刀刻所致。秦诏版文字仍旧是属篆书的范畴,对后世的书法创作有着极其重要的影响。如今,广大书法爱好者及篆刻研究创作者均以此为蓝本,进行临摹研习。

摘要:随着战国后期青铜器的衰退,青铜器上的铭文也越来越少。到了秦代,除诏令、符节上的文字稍多外,“物勒工名,以考其诚”逐渐发展为这一时期青铜器铭文的特征。当然,秦代的金文也表现了自己时代的重要特点。刻于秦诏版、权量、虎符、泉币、印章和其他金器上的文字,大都使用标准小篆,它与秦代陶器铭文一起,展现了常用通行文字的主要面目。

关键词:秦诏版,诏铭,简帛书

参考文献

[1]张韬.《大学书法论文写作教程》[M].河南人民出版社2008年第1版.

[2]唐兰.《中国文字学》[M].上海世纪出版社.2005年.

几种藏文字特征提取方法比较研究 篇2

藏文是我国藏族人民使用的文字。随着信息化时代的发展,藏文信息处理的需求更加突出,为了更好地搞好藏文字处理工作,继续研究藏文字识别技术知识也是很有理论价值。藏文字特征提取是文字识别中比较重要的环节,本文研究了三种(特征点法、网络点阵图形投影法、方向线索特征抽取、)藏文字特征提取方法的比较。

藏文字特征提取方法

1.特征点法

特征点法是一种较好地利用文字结构规律的特征提取方法。由于藏文字的笔画密度和笔划之间的交叉、连接等结构比较简单,因此特征点法应用到藏文字识别中具有更好的稳定性。

基本思路如是:

(1)藏文字母是由若干个笔划组成的,笔划的类型、连接关系和数目可以用笔划骨架线的端点D、折点Z、分叉点Q来表示。这些点叫做笔划特征点。一般来说,给定某个藏文字的笔划特征点之后,该字就确定了。

图2是藏文字特征点的示意。可以看出笔划的端点和折点就决定了笔划的位置和形状,分叉点则决定了笔划的连接关系。这些特征描述了藏文字的结构,包括笔画数目、类型和位置以及各部件的相互关系。此外背景点可以用来区分相似的字(特别是笔画少的字)。

2.方向线索特征抽取

方向线索是一种比较常用的特征提取方法。其原因是,藏文字丁是一种由辅音字母与元音字母叠加而成的组合体,字母就是构成字丁的部件。而字母又是由笔划组成的,各字母中的笔划之间的连接关系是固定不变。方向线索特征抽取方法很好地描述了一个藏文字在它所占的空间的不同位置笔划的数量关系,从而全面、准确、稳定地代表了该藏文字的组成信息。该方法用两个步骤来提取藏文字的特征:一、提取藏文字符轮廓,二、分块和特征矢量的构成。

3.网络点阵图形投影法

提取f(x,y)的投影值作为文字的特征。

藏文字的每一个字的高度是宽度的一倍,所以输入字符首先被归一化为48×96的点阵,将48×96的点阵分成4×8个12×12的子区域如图4.2,即N设为4、M设为8。N、M的取值越高文字的特征会更准确,但计算量会好大,而且如果取值为超过单数的话比如10则g(x)或g(y)的大值有可能为10,十跟一零会混淆。所以只能取为单数了。

结论

1.特征点法

用特征点来表示藏文字图形是对藏文字字形结构的一种较简练的描述。这种模型具有充分利用藏文字结构信息的优点。从某种意义上说,这种方法也属于模板法:每一类藏文字都用一个由它的特征点所构成的标准模板来代表。这些模板只包含各类藏文字形最有代表性的像素,去掉了绝大多数冗余的像素,因而可大大压缩模板的存储量,但是伴随这一优点而来的问题是识别可靠性将受到影响。具体地说,当不同字体的印刷体藏文文字同时排印在同一页面上时,由于不同字体的同一个藏文字的笔划长短、粗细和位置都有一定的差异,因而采用单一的特征点模板很难适应这种变化。这种方法对单体印刷藏文字的识别率会较高,识别速度也会足够快,对字体相近的字识别效果也会较好。内部笔画粘连的字符的识别适应性较强。不易表示为矢量形式,不适合作为粗分类的特征、匹配难度大。

2.方向线索法

藏文是一种拼音文字,左右拼写,上下叠加;没有像汉字那样的部首、笔划的称谓。但藏文字丁是一种由辅音字母与元音字母叠加而成的组合体,藏文字母有30个辅音字母和4个元音字母。字母就是构成字丁的部件,而字母又是由笔划组成的,各字母中的笔划之间的连接关系是固定不变。因此,每个藏文字丁都有特定的结构,并且这种结构特征可以从层次、局部和细节3个方面反映出来,而方向线素正是刻画这些结构特征的有效手段。但字符内部笔画粘连时误差较大。

3.网络点阵图形投影法

由于藏文字的笔划密度比较小,网络点阵图形投影法法应用到藏文字识别中具有很好效果,它的抗干扰能力也比较强,是一种易于实现的特征提取方法;但是该方法对倾向旋转非常敏感,细分能力差。

文字特征 篇3

目前现存的刻有甲骨文字的殷商甲骨片共计10万余片, 其中行文较工整的有8千余片。这些甲骨中, 共出现文字5千余个, 现已识别的有1千余字[1]。

我国目前已有一些甲骨拓片文字识别系统, 可以对大多数拓片中的甲骨字进行识别。但识别率低, 识别速度慢, 并且需要辅助于人工识别。行文较工整的拓片只有8千余片, 但其所包含的文字却占甲骨文字总数的一半左右[2]。所以, 对于行文较工整的拓片文字的识别, 对于甲骨数字化是非常重要的。本算法主要就是针对行文较工整的拓片进行高效快速识别。

1 特征提取算法

特征选择和提取的基本任务是如何从许多特征中找出那些最重要的特征。任何识别过程的第一步, 无论是用计算机还是人工识别, 首先都要分析各种特征的有效性并选出最有代表性的特征。

良好的特征应具备可区别性、可靠性、独立性、数量少等特点[3]。即, 对于不同类对象, 其特征应具有明显差异;对于同类对象, 其特征应较相近。各特征间应彼此不相关。对于相关性较高的特征, 可以组合起来以减少噪声干扰。甲骨拓片字特征的提取, 也遵循以上特点。

甲骨拓片字特征的提取, 是甲骨拓片字识别工程中的一个步骤。对于行文工整的甲骨拓片字的识别, 其业务流程主要分四个模块:拓片二值化、字的分割、甲骨字特征提取、比较识别, 如图1所示。而对于一般甲骨拓片字的识别, 是较为复杂的。在二值化过后, 需要增加人工识别与分割步骤。

甲骨字特征提取算法流程为, 首先对分割好的二值化字进行归一化, 然后进行笔划细化。本文的创新点就在于下一步骤, 分别提取粗网络特征与点特征, 然后对这些特征进行叠加, 形成最终的粗网格相对地址复合特征, 如图2所示。大大提高了识别数量与识别率。

1.1 归一化处理

在提取特征之前, 首先对拓片进行二值化处理, 然后采用归一化方法对字符进行规范化。设变换前的甲骨字高的范围为[ha, hb], 宽的范围为[wa, wb], 变换文字用C (i, j) 矩阵表示, 那么, 文字的重心 (X, Y) 的坐标如下所示:

假设字符大小为W×H, 则将以字符中心 (W/2, H/2) 为标准, 将字符重心 (X, Y) 及其它像素点移动, 最后得到归一化结果, 如图3所示。

1.2 笔划细化

所谓笔划细化, 是指将归一化后的字图像中有宽度的线条转变为只有一个像素宽度的线条的过程[4]。细化算法需使像素线条位于原始线条宽度的中心, 以确保原始甲骨字的拓扑结构的稳定性。图像细化, 剔除了“手写体”的个性化特征, 保持了甲骨字的基本拓扑结构不变。从而为甲骨字的特征提取奠定了基础。细化效果如图4所示。

(为了使细化后图像在抓取时更清晰, 右图中细化宽度为5像素, 而非1像素)

1.3 粗网络特征提取

粗网格特征属于统计特征中的局部特征。它是通过将二值化点阵图像中的字符分成A×B维的网络, 统计每个网格中特定像素的数量。

设式 (3) 所示的g (i, j) 是归一化后的W×H大小的二值化点阵图像。

每个网格均可反映甲骨字的某一部分的特征。在识别阶段, 将各个网格组合起来作为整个甲骨字的统计特征。

粗网格特征反映了甲骨字的整体形状分布特性, 但对字符的位置要求较高。要求待识别字归一化后, 与库中标准字位置方向布局基本一致。因为, 使用粗网格提取特征算法的识别原理是, 将待识别字与标准网格中对应网格进行比较。即, 粗网格特征提取所使用的网格地址是绝对地址, 比较运算对网格绝对地址具有完全的依赖性。待识别字的倾斜、偏移等变化, 均将极大影响识别率[5]。

1.4 点特征提取

对于细化后的甲骨字, 其笔划是一条由像素点连成的轨迹。这些点按照其与周边点的位置关系, 可以分为三类:端头点、连接点、交叉点。其中, 交叉点中最小是三叉点, 理论上最大是八叉点。大部分像素点属于连接点, 对识别没有太大意义。而端头点与交叉点, 对于甲骨字的识别, 具有重要意义。

注意, 从理论上讲, 还应该有一类点:孤立点。即, 其周边没有任何与之相邻的像素点。但, 在甲骨字拓扑分析中, 不存在这类点。因为在细化过程中, 没有任何一个笔划对应的只有一个像素点。即使是笔划中的点划, 也要对应出一个像素点的轨迹[6]。

故, 归一细化后图像中的每个点, 都将具有端头点、连接点、交叉点这三种特征之一。

对于任意像素点, 可以使用如图5所示的3×3矩阵图来表示。矩阵中心点为待分析点。周围8个点为其周边像素点。

点特征值PF可通过式 (4) 进行计算。

若PF=0, 则为孤立点 (不存在这类点) , 如图6 (a) 所示;若PF=1, 则为端头点, 如图6 (b) (c) 所示;若PF=2, 则为连接点, 如图6 (d) (e) 所示;若PF=3, 则为交叉点中的三叉点, 如图6 (f) (g) 所示;若PF=4, 则为交叉点中的四叉点, 如图6 (h) (i) 所示;若PF=8, 则为交叉点的八叉点, 如图6 (j) 所示, 不过, 这仅仅是一个理论值而矣。

点特征提取方法的具体实施办法为, 对二值细化图像进行点阵逐行扫描, 来判断每一个像素点的点特征[7]。然后, 分别统计整个点阵图中所有端头点、三叉点、四叉点等交叉点数量, 及它们点的相对位置关系。作为待分析甲骨字的文字特征。

点特征提取算法, 虽然摒弃了粗网格特征提取算法对于绝对地址的依赖, 但对于像甲骨字这种随意性较大的“手刻”体, 其特征点的相对位置关系变化较大。所以, 其识别率较低。

1.5 粗网格相对地址点特征提取算法

前面提到, 粗网格特征提取所使用的网格地址是绝对地址, 比较运算对网格绝对地址具有完全的依赖性。待识别字的倾斜、偏移等变化, 均将极大影响识别率。而点特征提取算法对于像甲骨字这种特征点的相对位置关系变化较大的字体的识别率较低。粗网格相对地址点特征提取算法, 通过点特征的引入, 将绝对地址变换为了相对地址, 并将点特征网格化, 使这两种算法互为补充, 相得异彰, 大大提高了识别效果。

首先对二值细化后的图像进行粗网格特征值提取, 记录其每一个网格的像素二值特征值f (i, j) :

此时, 并不进行与标准网格的对比。而是对图像进行逐行扫描, 记录下所有1值点的点特征[5]。然后, 在粗网格特征中加入点值特征, 即, 在每个网格中各类特征点的个数。点特征可以使用一个多维向量P来表示:

其中, pf1表示端头点, pf2表示连接点, pfn (3≤n≤8) 表示交叉点中的n叉点。

注意, 在粗网格特征与点特征间, 有如式 (7) 所示关系成立:

根据式 (8) 计算出各特征点相对于重心特征点的相对位置关系:

其中, pg为重心特征向量。

再将相对位置加入到网格特征值中。位置关系也可以使用一个多维向量L来表示:

也就是说, 网格特征中不再仅仅只记录二值特征, 又加入了点特征。此时的网格特征也可使用一个多维向量G来表示:

这时的粗网格特征比较的就是对应网格的G值。甲骨字也就转变为:

2 实验

本实验选用了10块行文较工整的甲骨文拓片为数据源分析对象, 涉及的甲骨字1 316个。对这10块拓片, 分别使用粗网格特征提取算法与改进后的网格点特征提取算法进行识别, 得到了较为理想的识别效果。表1为其中5块拓片的识别数据。

整个实验中, 对于这10块拓片, 使用粗网格特征提取算法的整体文字识别率为48.26%, 正确率为78.83%。而使用网格点特征提取算法的整体文字识别率为70.84%, 正确率为88.57%。识别率平均提高了22个百分点, 正确率提高了10个百分点。如表2所示。

下面以其中的一块拓片为例, 给出具体实验数据集。

该拓片含有完整甲骨字235个。其中含有如图7 (a) 所示的甲骨字。对该字进行8×8网格化, 如图7 (b) 所示。

该字的粗网格特征矩阵如图8所示。

以该字8×8网格化后的第5列为例, 其点特征矩阵如图9所示。

该网格字的第五列的位置关系矩阵如图10所示。

采用粗网格特征提取算法对于如图7所示拓片的识别结果如图11所示。识别率为53.62%, 正确率为82.63%。

采用网格点特征提取算法对于如图7所示拓片的识别结果如图12所示。识别率为77.87%, 正确率为91.35%。

从实验结果可以看到, 识别效果得到了显著提高:识别率由53.62%提高到了77.87%, 识别率提高了24个百分点;正确率也由82.63%提高到了91.35%, 正确率提高了近9个百分点。具体数据如表3所示。

由于这10块实验用拓片是由行文较为工整的8千余片中随意抽选的, 所以它们具有很强的一般性。也就是说, 网格点特征提取算法, 对于行文较为工整的甲骨文拓片的识别是通用的。

3 结语

网格点特征提取算法, 相对于传统的只进行粗网格特征提取或点特征提取, 各方面的性能指标都得到了大幅提高。该算法对于行文工整的正规手写体文书的识别效果也是相当不错的。但是, 该算法对于排列较散乱文字的识别效果并不是很好。下一步的改进目标为, 使该算法的应用对象更具一般性。而改进的主要切入点为甲骨拓片字的分割与归一化。

参考文献

[1]姜华艳, 朱倩.殷墟甲骨文时称的分类及来源[J].武汉工程大学学报, 2010 (6) :91-93.

[2]路尚廷, 刘耀青.掀开甲骨文的神秘面纱[J].协商论坛, 2005 (8) :14-16.

[3]刘德仁, 葛宰林, 毕铁艳.电力机车接触线磨损数字图像处理研究[J].现代制造工程, 2006 (3) :100-109.

[4]韩燮, 张永梅.汉字识别的方法及Rosen细化算法的改进[J].华北工学院学报, 1997 (1) :83-86.

[5]梁松涛, 吕学强, 施水才, 等.基于特征补偿的视频字幕识别研究[J].计算机应用与软件, 2010 (11) :20-22, 66.

[6]王景中, 胡贝贝.归一化算法在文字识别系统中的应用研究[J].计算机应用与软件, 2011 (3) :95-97.

[7]朱学芳, 毕厚杰.多种印刷体汉字识别的一种方法[J].南京邮电大学学报:自然科学版, 1990 (4) :5-8.

文字特征 篇4

自然场景图像中的文本检测与定位对于基于文字内容的图像分析具有重要的作用。在任何地方,以任何形式出现的文字都具有某种强烈的目的性,它能帮助人们更好地识别和理解目标物体及场景。开展对这个方向的研究不仅对人工智能的发展具有理论意义,更重要的是它具有潜在的巨大商业应用价值,因此,工业界和学术界都十分重视这方面的研究。尤其是从上个世纪九十年代以来,每两年举行一次的国际文本文档分析与识别会议(ICDAR)极大的促进了场景图像文字检测与识别技术的发展。通过举行会议及开办场景文字定位与识别竞赛,学者们在这方面发表了很多的文章,做出了很大的贡献。这项会议仍在持续开展中,下一届会议即ICDAR2013国际会议将于2013年8月在美国华盛顿举行。

自然场景图像中的文本与其他类型文本不同,它不仅受到多种环境因素(如光照不均、背景复杂、阴影、反射等)的影响,同时文字本身属性也复杂多变(如文字的大小、颜色、方向、字体等不统一,不均匀)。因此,迄今为止,还没有任何一种方法能够快速、准确地检测所有图像背景下的文字。现有的检测方法虽然很多,但准确率和实时性都远远达不到商业应用的要求。尽管如此,学者们还是取得了不少成绩,为我们进一步研究提供了借鉴与思路。

总的来说,对于自然场景文字的检测与提取,目前的方法多种多样。有基于边缘检测的方法,如文献等[1]提出了一种基于边缘的双脉冲神经网络(PCNN)的算法来定位图像文字,首先利用最大颜色熵的通道检测边缘,然后用PCNN模型来分割图像,最后精炼并定位文字区域。文献[2]用边缘特征和数学形态学的方法提取场景文本串。该算法能根据笔画宽度将文本串分成不同的子图,实验结果表现良好。有基于特征聚类、机器学习等的方法,例如文献[3]提出了一种基于多核学习的文本定位方法。先通过连通域分析和提取图像纹理特征找到候选区,然后用经过训练的多核学习机进一步筛选出文本区域。也有基于纹理分析的方法,如文献[4]运用多尺度、多方向的Gabor滤波提取图像纹理特征,然后建立神经网络学习文字纹理,从而提取文字区域,达到了很高的检测精度,但是该方法对于背景纹理复杂的图像文字检测效果仍不理想。

通过对近些年的文献研究总结,我们发现综合运用多种技术与方法已成为解决这一难题的趋势。特征提取是模式识别系统最为关键的步骤之一,系统的性能在很大程度上取决于我们提取的特征是否具有足够描述性、区别力及稳定性,充分利用图像的自然特征(如颜色、亮度、边缘、纹理等)与统计特征(如均值、方差、能量、频谱、直方图等),就可以很好地提取目标信息,检测出文字区域。因此,我们提出了一种基于Gabor滤波与边缘特征相结合的方法来检测并提取场景图像中的文字。首先利用Gabor滤波获得图像的纹理特征,并通过均值、能量特征去除部分噪声区域,结合图像的边缘特征获得文本候选区;然后经形态学处理进一步去噪并形成文本块;最后经过投影运算定位文字区域,再通过特殊的二值化处理取得文字结果。实验表明本文方法能够适应各种场景下的文字检测,且准确度大幅提高。

1 特征提取

1.1 基于Gabor滤波的特征提取

Gabor滤波是最强大的纹理分析工具之一。经过Gabor变换可以达到时频局部化的目的:即它能够在整体上提供信号的全部信息,而又能提供在任意局部时间内信号变化剧烈程度的信息。换言之,它可以同时提供时域和频域局部化的信息,实现了人们对信号真正意义上的时间-频率分析。通过Gabor滤波得到的特征图像,压缩了背景像素,减少了噪声干扰,从而提高了后期处理的时间效率,在纹理特征提取中具有重要的作用。

1.1.1 Gabor变换基础

经典的Fourier分析方法是分析和处理平稳信号的最常用也是最主要的方法。Fourier变换建立了信号从时域到频域变换的桥梁,其逆变换则建立了信号从频域到时域的变换桥梁,时域和频域分析构成了观察信号的两种方式。然而,Fourier变换只能在整体上将信号分解为不同的频率分量,缺乏时间局域性信息,即它不能告诉我们某种频率分量发生在哪些时间内。为了解决这一难题,实现时频联合分析,人们在20世纪40年代开始研究时频分析方法,于是,Gabor变换应运而生,1946年,Dennis Gabor在其论文中最早提出了Gabor变换的基本理论[5]。经过几十年的研究和发展,Gabor滤波技术已经日渐成熟,被广泛应用到纹理分割、特征提取、目标物体识别等方面。

典型的2-D Gabor函数是由一个二维高斯核,通过一个复杂的正弦波调制而来,表达式为[6]:

g(x,y)=12πσxσyexp[-12(x2σx2+y2σy2)]exp(j2πWx) (1)

对应的Fourier变换为:

G(u,v)=exp{-12[(u-W)2σu2+v2σv2]} (2)

其中:W是正弦波的调制频率;σxσy分别代表了高斯核偏移xy轴的宽度,它们决定了Gabor滤波器的带宽;而σu=12πσxσv=12πσy。Gabor基函数形成了一个完整但不正交的函数集,使得滤波图像含有大量冗余信息,为此,学者们经过旋转和尺度变换得到了新的Gabor滤波函数,下面将具体介绍其形成与离散Gabor滤波特征提取。

1.1.2 Gabor滤波特征提取

g(x,y)按照式(3)进行旋转与尺度变换得到新的滤波传递函数[6]:

其中:x′=a-m(xcosθ+ysinθ),y′=a-m(-xsinθ+ycosθ),而a-m是尺度因子,θ=nπΚ代表了方向参数,K为多分辨率方向数。具体的参数计算可参考文献[6,7]。得到滤波传递函数后,可通过离散卷积运算计算一幅图像的Gabor滤波。设I(x,y)为给定的原图像,则有:

Gmn(x,y)=pqΙ(x-p,y-q)gmn(p,q) (4)

其中p,q代表了滤波掩膜的大小,其值由高斯核偏移xy轴的宽度,即σxσy决定;Gmn(x,y)为滤波后的图像。

按照上述理论,我们编程实现了滤波器功能。算法的处理过程如下:

1) 首先将输入图像转化为灰度图像,并检测数据矩阵是否为双精度型,若不是,则需转化为双精度型;

2) 根据给定的高斯核沿xy轴偏移量大小,以及滤波角度和频率等参数构造高斯滤波器;

3) 分别用高斯滤波器的实部和虚部对1)中的图像数据矩阵进行二维卷积运算;

4) 取3)中卷积运算结果的幅值响应作为Gabor滤波输出,并将输出数据矩阵转化为灰度图像。

其中核心算法的代码如表1所示。

由于自然场景文字背景复杂多变,对于滤波参数的选择显得十分重要。经过大量实验,发现滤波器参数取:尺度因子为a-m=1,滤波方向θ=π3,高斯核沿xy轴偏移分别为2和4,滤波频率为W=16时,提取到的纹理特征效果最好。表2列举了其中两组参数的对比实验,图1(c)和(d)展示了两组参数下经Gabor滤波后的图像结果。

由图1(c)与(d)对比可知,前者很好的保留了文字纹理特征,但是同时也引入了大量噪声信息;而后者虽然减少了噪声信息,但是文字区域信息也同时被削弱了。综合考虑,我们选择了1组的参数,因为这样虽然增加了噪声,但可以根据后面的边缘特征融合来去除它们,从而保证了文字信息不丢失。

1.2 边缘特征提取

边缘是图像最基本的特征信息之一,它反映的是图像中灰度或结构的不连续性,在图像分析中起着重要的作用。经过对文献进行总结统计,我们发现超过百分之九十的文章都直接或间接采用了边缘检测的手段。同时我们也做了一系列的场景文字检测预处理实验,发现基于边缘的方法是最稳定且最可靠的。这是因为存在文字的地方总是会存在边缘效应,即使文字与背景对比度极低,也能通过边缘检测得到文字边缘。本文采用了经典的边缘检测算子Sobel算子来对灰度图像进行小邻域的处理,获得文字边缘。这是因为Sobel算子能够最大限度的去除背景噪声,同时又不丢失任何的文字边缘。

本文的边缘检测是直接利用Matlab图像处理工具箱中的边缘检测函数,不需要任何复杂的预处理和改进即可达到需要的效果。其处理步骤是:

1) 首先将原始图像转化为灰度图像;

2) 然后直接利用边缘检测函数e=edge(I, 'sobel')对灰度图像处理得到边缘特征。

该算法不仅简单有效,同时节约了处理时间。图1(b)显示了边缘检测结果。

2 特征融合

经过特征提取处理,我们得到了两幅包含文字信息的特征图像,接下来就是要将上述两种特征图像进行有效的融合,使得两种技术取长补短,相互印证,以便更好地利用特征信息,从而提高检测精度。所谓的图像融合[8],就是将来自不同源、不同时间、不同模式的图像数据和信息按照一定的准则,综合为一个全面的高质量的图像,以提高图像信息的利用率、改善计算机的对图像描述精度和可靠性,方便人们进一步认识和处理图像。图像融合由低到高分为三个层次:数据级融合、特征级融合、决策级融合。融合过程常结合图像的亮度、纹理、平均值、标准差、熵值等特征信息,以消除可能存在的信息冗余和矛盾,增强对图像目标更清晰、完整、准确的信息描述。

具体融合算法描述如下:

1) 首先对特征图像进行滤波去噪,因为原始图像经过不同的处理得到了带有不同噪声的特征图像,为了减少噪声干扰,避免更多的噪声带入融合结果,应首先对其进行去噪。由特征图像可知文字区域的密度较为一致,且纹理属于较亮的高频区,因此我们用M×N的滑动窗口W来对图像进行滤波,并采用灰度均值和方差来控制特征输出,它们的定义分别如下:

Emean(i,j)=1ΜΝ(i,j)W|G(i,j)| (5)

Evariance(i,j)=1ΜΝ(i,j)W|G(i,j)-Emean(i,j)|2 (6)

其中灰度均值应大于某阈值,否则认为是噪声,将其置0,方差也应在一定范围内,过大的方差被认为是独立噪声点,过小的方差认为是噪声区域,都应该被舍弃。

2) 然后采用平均值法进行融合。平均值法的主要思想就是:令I1(x,y),I2(x,y)和I(x,y)分别为两幅待融合的特征图像和融合以后的图像在点(x,y)处的像素值,则融合后各点的像素值可按式(7)来确定。

Ι(x,y)={0if(Ι1(x,y)+Ι2(x,y)/2<11Οthers(7)

由于特征图像都是采用二值图像,即图像中前景的像素都是1,而背景则为0。按照式(7)的算法,如果两幅特征图像中对应点像素都为1,则认为该点为文本像素区。否则将其置0,即认为该点为背景噪声,应去除。经过这样的处理,除去了单幅特征图像中存在的噪声,同时使得文本区域更清楚、完整,可靠性也大大提高了。其中平均值法融合的核心算法可参考表3中的代码。

3 文本区域定位与提取

在经过特征图像融合后,我们得到了一幅包含少量噪声和文字区域的二值图像,下一步的任务就是要对文本区域进行定位和提取。本文采用以下三个步骤来定位并提取结果:

1) 首先,我们对融合特征图像进行形态学运算,以去除那些明显不是文字的噪声点与曲线并形成文本块。数学形态学运算的基本思想是利用一定形态的结构元素来度量和提取图像中的对应形状和结构。它是一种非线性的信号处理与分析工具,可将图像信号与其几何形状联系起来,以达到提取信号、抑制噪声的目的。它最基本的运算是腐蚀、膨胀,以及由它们组合而成的开启、闭合运算。形态学运算最重要的就是结构元素大小的选择,因为过大的结构元素会将文字信息一起腐蚀掉,而过小的结构元素又无法去除噪声区域。经过实验,本文选择了3×3的结构元素对图像进行腐蚀运算,以去除噪声点和曲线;然后进行7×7的膨胀运算,以将文字区域连接成块。

2) 然后,我们将得到的文本块分别进行x轴与y轴的投影运算PxPy,并用rectangle函数对文本区域进行标记。其中:

Ρx=yΙ(x,y)Ρy=xΙ(x,y) (8)

PxPy代表了图像沿x轴与y轴的灰度累积值,表示了该方向总的明暗变化程度,可以用来定位文字区域。记录x轴与y轴灰度累积值最先不为0的点的坐标(x0,y0)及文本块的宽度(w)与高度(h),并用rectangle函数在原始图像中标记文本块以形成矩形框,这样我们就得到了最终的文字定位结果,如图2(a)所示。其中投影法文本区域定位的核心算法如表4所示。

3) 最后,我们将原始图像中的文本定位区域进行一种特殊的二值化处理获得最终的文本输出结果,即将原始图像中矩形框以外的区域预先全部置0,这样便得到了一副具有单一背景的文字区域,然后利用普通的二值化函数进行处理,即可得到最终的文字提取结果。如图2(b)所示。

4 实验结果与分析

本文所有算法均在Matlab 2009a环境下编程实现。为了验证本文算法的有效性,我们从ICDAR2003数据库里选取了300幅不同环境下的场景图像进行实验测试。这些图像包含了各种标志牌、海报、广告语、商标等场景文本,图像的尺寸从640×480像素到1600×1200像素大小不等。这些场景文本包含了不同背景、字体、大小、颜色、光照等各种情况,具有充分的代表性。图3列举了部分比较理想的实验结果。

由图可知,本文算法对各种字体大小、方位,及复杂背景下的文字都实现了很好的提取,证明了算法能够很好地处理各种环境下的场景文字提取。但是,同时我们也发现一些错误的检测,如图3第一幅图像中的文字本身具有的边框,还有第四幅图像中夹在文字中间的标示牌指示。

另外本文算法对石刻文字,光照过强,阴影严重的图像文字检测效果也较差,往往会产生检测遗漏,定位不准等问题。尤其是当图像中存在较多的花草树木、门窗、栏杆等类笔划干扰时,算法会存在较多的错误检测,造成不能定位真正的文字区域。由于版面所限,并未列举。

为了比较和综合评价算法的可靠性,我们使用了目前比较通用的准确率(Precision)和召回率(Recall)来综合评价实验结果。设C为正确检测出的文本区域数,D为本文算法检测到的文本区域数,G为实际存在的文本区域数,则准确率与召回率由式(9)决定:

precision=CDrecall=CG (9)

经过测试统计,本文实验结果的准确率为0.79,召回率为0.86。表5比较了本文与部分ICDAR2011场景文本定位比赛[9]结果。由于每一个研究者所选取的样本测试集不一样,难易程度也不尽相同,因此,算法的可比性不强,无法做到真正公平、准确评价谁的方法更好。但是,通过对比仍然能够在一定程度上说明问题。

从表中可以看出:本文的方法比ICDAR2011场景文本定位竞赛的第一名的方法在准确率上仅低了三个百分点,比其他人的准确率都高很多;在召回率方面我们的方法远远高于其他人的算法,这说明算法的鲁棒性很好。通过以上对比,充分证明了本文算法的可靠性与有效性。

5 结 语

文章介绍了一种基于Gabor滤波结合边缘特征的场景文字检测方法。有效的利用了图像的纹理特征与边缘信息来获得特征图像,通过特征图像融合技术得到可靠的文本候选区域,并进一步处理得到文字输出。实验证明了本文方法的可靠性与准确度。但是由于场景文字背景复杂,干扰较多,需要在滤波参数的优化和自适应选择上进行改进。今后我们将改进算法,并引进新的技术以获得更好的效果。

参考文献

[1]Xin Z,Fuchun S.Pulse Coupled Neural Network Edge-Based Algo-rithm for Image Text Locating[J].Tsinghua Science&Technology,2011,1(16):22-30.

[2]Yuming W,Naoki Tanaka.Text String Extraction from Scene ImageBased on Edge Feature and Morphology[C]//IEEE,The Eighth IAPRWorkshop on Document Analysis Systems,2008:323-328.

[3]Shen L,Yanyun Q,Xiaofeng D,et al.Text detection in images basedon Multiple Kernel Learning[C]//IEEE International Conference onICMLC,2011:1538-1543.

[4]Jianqiang Y,Dacheng T,Chunna T,et al.Chinese Text Detection andLocation for Images in Multimedia Messaging Service[C]//IEEE nter-national Conference on Systems Man and Cybernetics(SMC),2010:3896-3901.

[5]陶亮,顾娟娟.实值Gabor变换理论及应用[M].合肥:安徽科学技术出版社,2005:1.

[6]申丽然,尹清波.Study on Affine Invariant Methods in Image Process-ing[M].哈尔滨:哈尔滨工程大学出版社,2009:53.

[7]Manjunath B S,Ma W Y.Texture Features for Browsing and Retrievalof image Data[J].IEEE.Trans on PAMI,1996,18(8):837-842.

[8]张兆礼,赵春晖,梅晓丹.现代图像处理技术及Matlab实现[M].北京:人民邮电出版社,2001:311.

上一篇:医学细胞分子生物学下一篇:氯化氢尾气