手写汉字

2024-09-10

手写汉字(精选5篇)

手写汉字 篇1

0 引言

汉字有常见的三种写法,楷书,行书,草书。楷书是中国人最常用的写字形式。楷书的基本笔画最少,共25种。一些中国人为了快速书写,而将一些楷书的笔画实行简单化,形成了行书形式。我们研究归纳,行书的基本笔画为32到87个特异结构,最常用的为32种特异结构,如包括不常用的则为87中特异结构。草书,在中国一般是美学的书法的一种形式,没有书写记录的实用价值。只有极少数的草书书写规则,被人在日常记录中使用。我们,通过研究,归纳得到23到46个特异结构,来描述草书。我们使用基本定义去描述特异结构,这种方法简单易行。

在手机用户中,楷书的使用最为频繁。会夹杂一些行书的笔画规则,也会夹杂极少数草书的写法。而形成,一种新的字体,汉字的连笔输入。本文,就这些中国大陆的手机用户的书写特征,提出了汉字联机手写建模方法。研究对象主要是,国标GB2313-80共收集常用汉字6763,其中,一级字库,研究对象主要是,国标GB2312-80中的一级与二级字库,共6763个简体汉字,日常使用率为99.99%。一级字库,3755个,日常使用率为99.7%。二级字库,3008个简体汉字。[1]

本文公布我们的楷书的手机联机识别方案。同时,也解释了手机联机识别的行书与草书识别的部分方法。我们从事手写笔建模研究多年,在以前公布了一些研究内容。这些方法,显然可以移植到其它语言的类似的文字之中。由于商业原因,在我们之前,还没有手写笔研究者公布他们研究的具体方案。

本文提出的方法不需要已发展成熟的统计模式识别技术。而可以绕过那种统计模式识别技术,从而十分简便[2]。许多统计识别中的方向特征被用在联机手写汉字识别中[3,4],而本文因为定义巧妙而绕过那些方法。本文提出简明简易方法,完全不同于一些基于字根的识别方法。[5,6]

所有的方案,在通用网格背景中工作。点阵大小为WIDTH×HEIGTH=80×80。网格的精度不需要太高,只需匹配流行的手机手写输入的网格精度即可。由于网格的精度不高,同时手机手写笔的触点精度与之对应,所以,不存在笔画细化的问题。可以规避高分辨率的线条的处理模式,而采用低分辨率的线条处理模式。只是一个智力游戏的问题,工作量并不大。本文提出的方案特别适合手机用户。

网格背景,将汉字转化为规范花的二值数字点阵,其中“1”表示笔画,“0”表示文字背景。使用对字的基元的简单而特殊定义,去描述笔画,再将笔画的相对位置实施编码,就可以产生对文字图像的特殊数学表达。然后,与数据库中的标准汉字的表达形式进行匹配判别,就可以识别对象。

1 楷书的方案

1.1 基本定义对楷书

这里列出基本定义,用于定义基本笔画,以及每个笔画之间的相互关系。

(1)竖、横与斜。手写的竖与横,都有一定的摇摆幅度。斜介于竖横之间。

(2)角与圆角。接近与V与U,在手写特征下的区别是有拐点与无拐点。

(3)圈与近圈。也就是,封闭的圆与接近封闭的圆。这个定义在楷书中用不上,只适用行书、草书以及下文所提的连笔识别。

(4)短划与点。与竖与横的区别是方向性不强,在方格中,通过边比特征可以区分。

(5)交叉与连续。交叉,是指基本定义的笔画相交叉,分T型交叉,和X型交叉,也可简化为一种交叉。连续,是指,基本定义的笔画从起点到终点(或笔画的两端)是连续的且无分叉,可平滑,也可转折。

(6)相对位置与方向。基本定义的字元之间的关系,有上、下、左、右、上左、上右、下左、下右。比如一个斜线可以分为,左斜、右斜、下斜、上斜、(左上斜、左下斜、右上斜、右下斜)。没有必要定义更加精细的相对位置。

用这些基本定义就可对每个不同的手写独立笔画,加以分割定义。可快速判断汉字的基本独立笔画。

1.2 楷书有限的笔画

将常用汉字分解归类为有限笔画组成,由楷书的基本定义来描述,形成一种特殊的内部语言来描述每个汉字。与笔顺无关、与顺笔或倒笔无关。

对国家规定的常用汉字实施分解,归纳为25个不同的独立特征笔画。分别编号为K01到K25,见图1,如果对于异体字,出现超出范围的编号,则可以增加扩展。称为K系列编号。但是,对于大陆手机用户,前期工作可以回避异体字。

1.2.1 定义与编号

(1)横(K01)、竖(K02)、竖左提(K03)、撇(K04)、竖右弯钩(K05)、竖左弯钩(K06)。

(2)提横(K07)、提点(K08)、左点(K09)、右点(K10)、右斜(K11)、捺(K12)。

(3)横折竖(K13)、横折竖钩(K14)、横折竖提(K15)、横折竖右折(K16)、横撇(K17)。

(4)竖弯钩(K18)、横折弯钩(K19)、横折右折弯钩(K20)。

(5)横折右折左折(K21)或(K21a、K21b)、竖右折左折钩(K22)。

(6)竖提(K23)、斜竖右折(K24)或(K24a、K24b)、左斜右斜(K25)。

图例与对应编号见,见图1。汉字中的楷书,就是由这些单位搭建而成。

1.2.2 编号与例字

(1)K01(平)、K02(十)、K03(水)、K04(人)、K05(弋)、K06(狐)。

(2)K07(七)、K08(泳)、K09(心)、K10(永)、K11(及)、K12(人)。

提横与横,可归属于一种笔画,在书法美学中才需要区分。提点与左点的区别是起落笔次序不同。右斜与捺,其实可以归属一种笔画,但是在日常手写中,外观有所细微区别。

(3)K13(口)、K14(内)、K15(话)、K16(凹)、K17(又)

(4)K18(儿)、K19(风)、K20(乙)

(5)K21a(际)、K21b(建)、K22(与)

(6)K23(饱)K24(云)、K25(女)

(英文稿)楷书的编号与例字见图2。

1.2.3 用基本定义区分笔画

以下用基本定义区分笔画。

(1)横(K01)横。从左到右。

(2)竖(K02)竖。从上到下。

(3)竖左提(K03)竖+角+短划。角在下,开口向左上。

(4)撇(K04)左下斜。笔画从右上到左下。

(5)竖右弯钩(K05)右下斜+角+短划。角在右下,开口向上。

(6)竖左弯钩(K06)圆角+角+短划。角在左下,开口向上。

(7)提横(K07)左上短划。笔画从左下到右上。

(8)提点(K08)左上短划。笔画从左下到右上。长度,较提横(K07)明显要短。

(9)左点(K09)点。笔画从右上到左下。

(10)右点(K10)点。笔画从左上到右下。

(11)右斜(K11)右下斜。笔画从左上到右下。

(12)捺(K12)右下圆角。笔画从左上到右下。在实际编程中,可以与右斜(K11)不予区分。

(13)横折竖(K13)横+角+竖,横在左上,角在右上,竖在右下。

(14)横折竖钩(K14)横+角+竖+角+短划,横在左上,角在右上,竖在右下,角在右下,角开口向左上。

(15)横折竖提(K15)横+角+竖+角+短划,横在左上,角在右上,竖在右下,角在右下,角开口向右上。

(16)横折竖右折(K16)横+角+竖+角+横,首横在左上,角在右上,竖在右下,角在下,角开口向右上,末横在右下。

(17)横撇(K17)横+角+斜。横在上,角在右上,开口向左下,斜从右上到左下。

(18)竖弯钩(K18)竖+圆角+横+圆角+短划。竖在左。横在下。首圆角在左下。末圆角在右下,短划在右下。

(19)横折弯钩(K19)横+角+圆角(或斜)+角+短划。横在上。斜在纵向方向的中。角在右下,角开口向上。短划,在右下。

(20)横折右折弯钩(K20)。横+角+斜+圆角+横+圆角+短划。首横在上。角在右上。斜从右上到左下。首圆角,在左下。末横在下。末圆角在右下。短划在右下。

(21)横折右折左折(K21)横+角+斜+角+横+角+斜。首横在上。首角在纵向中的上,开口左下。斜从右上到左下。第二角在纵向的中与横向的中,开口右上。第二横在横向的中。第三角,在右,纵向的中,开口左下。第二斜在右下。

(22)竖右折左折钩(K22)竖或斜+角+横+角+竖或斜+角+短划。首竖或斜在上。首角,在左,纵向的中,开口向右上。横在纵向的中。第二角,在右,在纵向的中,开口向左下。第二竖或斜,在右下。第三角,在右下,开口向上。短划,在下。

(23)竖提(K23)竖+角+短划。竖在左。角在下,开口向上。提在右下。

(24)斜竖右折(K24)斜或竖+角+横。竖或斜在上。角在右下或下。横在下。

(25)左斜右斜(K25)斜+角+斜。首斜,从右上到左下。角,在左,在纵向的中,开口向右。第二斜,从左上到右下。

1.2.3 用区分笔画时使用的数学方法

通过研究,将近似线段的笔画实施归类,分为横(H)、竖(S)、撇(P)、捺(N)四种类型。分成四个模糊区间,实验证明很有效。[7]在平面坐标中,参照Y轴正方向为0度,则,线段分布区域在345度到25度与165度到195度为竖,75度到105度与255度到285度为横,25度到75度与195度到255度为撇,105度到165度与285度到345度为捺。

这一工作是很容易的。然后,就可以顺利的用简单的数学语言描述本文的基本笔画。

判定笔画的数学方法。对于目标笔段,可以先设定首尾点作为基准点,其他点为参考点,移动参考点,这样参考点与首尾点形成两个线段,两个线段形成一个夹角,如果这个夹角小于指定阀值,那么就可以视为两个直线笔端的接触点。这样,任何一个曲线笔端,都可以有很多相连的短直线表示。这种方法用来处理汉字与英文一样的有效。基于多边形逼近,Ramer.U提出一种迭代的逼近算法[8],内对任意二维数字化曲线进行多边形逼近。适合英文笔迹处理。在逼近算法基础上,郑胜林提出逼近-合并算法。[9]得到的多边形与原始线段可以很精确的逼近,而且可以很好的处理闭合曲线。缺点是计算量远大于Ramer.U算法。

1.3 楷书的编码方案

使用楷书的基本定义,对楷书的有限笔画,实施定义。

使用从上到下,从左到右的方法列出,笔画的相对位置、是否交叉、交叉点的位置。注意,与笔顺无关。

对相对位置可以这样定义。将一个圆,从圆心为基准,平分为八等分,分别对应上、右上、右、右下、下、左下、左、左上。记为,1、2、3、4、5、6、7、8。

2 行书的方案

2.1 基本定义对行书

行书的基本定义,与楷书类似。但是,与楷书比较,行书的有些笔画,是超出楷书的。

我们,通过研究,归纳得到32到87个特异结构,来描述行书。这些结构,都可以只用基本定义来描述,由于每个描述的具体内容不同,所以,这些特异结构都互为独立。

2.2 行书的有限构件

将常用汉字行书分解归类为有限笔画组成,由行书的基本定义来描述,形成内部语言来描述每个汉字。与笔顺无关、与顺笔或倒笔无关。

对国家规定的常用汉字实施分解,对应K1到K26,实施图形建模,编号为如X011、X012、X263等,称为X系列编号。X指行书,第一、二位对应K01到K26,第三位为对应笔画的不同行书写法的分类。可以增加扩展。

对国家规定的常用汉字实施分解,找出有限的组成的单个连续笔画,去除X系列笔画,建立XX系列笔画,编号为如XX00101,001代表不同大类,设为三位为了留有余量,01为小分类,生产产品时可去掉一个0。

我们,通过研究,归纳得到32到87个特异结构,来描述行书。也就是,行书是有这些有限的特异结构搭建而成。由于商业原因,这里就不列出所有行书的笔画图形与编码。这里列出其中的部分笔画,见图3(行书的某些特异结构笔画)。其中,a1、b1、c1、d1、e1、f1、g1、h1、i1、j1、k1、l1、m1、n1、o1、p1、q1、r1是楷书的写法;a2、b2、c2、d2、e2、f2、gh2、i2、j2、k2、k3、l2、m2、m3、m4、n2、n3、o2、p2、p3、q2、r2是对应的写法。其中g1、h1对应同一写法gh2。k1有两种写法k2、k3。p1有两种写法p2、p3。

3 草书的方案

3.1 基本定义对草书

草书的基本定义,与行书类似。但是,与行书比较,草书的有些笔画,是超出行书的。

我们,通过研究,归纳得到23到46个特异结构,来描述草书。这些结构,都可以只用基本定义来描述,由于每个描述的具体内容不同,所以,这些特异结构都互为独立。

但是,很难,做到使得方案与楷书、行书兼容。也就是,草书的识别方案是独立的。楷书与某些行书是可以简单的兼容的。

3.2 体分类与定义语言的描述

由于基于对草书的体分类的研究,依照汉字草书的规律,可以由草书的基本定义描述,所以可以避免复杂的图形运算。但是,大多数大陆人员在日常工作中,极少触及草书,所以,对草书识别的研制,没有多大商业实用价值,只有包装价值与美学价值。

草书的定义与分类类似于英文在线连笔识别的方法。注意要脱离楷书、行书的框架,但是,在一个程序中要与楷书、行书兼容,那么就只需对筛选后剩下的可用于手机的草书字体实施建模。建模的方法,就是将英文在线连笔识别的思想,与楷书、行书连笔识别的思想实施结合。方法不难,只需用穷举法列出对应草书的字体,实施用体分类方法建模与编码。

体分类的概念见,不同“手”字的草体写法,见图4。这些手字写法,来自于中国书法字典,一共只有这八种写法,如,s1,s2,s3,s4,s5,s6,s7,s8,是用毛笔写成。而s9,s10,s11是现代中国人最常用的三种写法,是用硬笔写成。

4 权衡的产品方案

对楷书、行书、草书统一的方案,显然程序体积过大,仅适用电脑。如果,对于手机,则只能采用折中权衡的方案,即汉字连笔识别方案。就是放弃部分行书与大多数的草体编码,而只采用中国大陆人群可能在日常生活中使用的很少的行书字体与极少的草体字体。而形成一种新的概念,连笔识别。由于商业目标是手机,所以可以使得研制工作大大减轻。

自学习的功能。实际上就是将试验器的功能加载到工作软件上。使得,有新的用户字体出现时,可以让用户自定义。一个文字会有不同的具体书写方法。为了弥补前期方案的不足,该功能可以依照上文的方法,自动的建立特殊的模式表达,自动构成字的新编码,补充到到数据库中。

词组矫正的功能,对于相似字是十分重要的。后处理是指单字识别后,使用额外程序,利用字典功能对相似字进行区分,降低误识率。[10]比如对于相似字“己、已、巳”,如果书写工整,那么可以在上文方法中加入一些特殊的判别规定。但是,如果,这三个字写的不工整,那么只能依靠词组矫正来大大提高识别率。由于汉字中的类似情况极少可以忽略不计,所以只需要建立很小的词组矫正数据库来达到目的。而对于相似字“千”与“干”,则可以依照第一笔画的落笔与抬笔顺序不同而区分。

5结论

由于前期工作,限定在常用简化汉字。所以,编码工作,很小。识别的成功率,是可以预见的。被方案,主要应用于手机用户,所以,适用楷书与连笔输入,并建立了自学习功能,就是自动的用户自定义功能。理论上,可以伸展到行书的常见写法。但是,如果要扩充到任意草书,那就很困难,需要另外建立类似体系。显然,对于手机用户,只需选择一些常见的草书写法即可。因为,很少有人会在手机短信书写时,适用十分生僻的草书。我们成功的解决了中英手写识别[11],欢迎交流合作。

参考文献

[1]郝红卫,戴汝为.集成型手写汉字识别方法与系统[J].中国科学(E辑),1997,27(6):556-559.

[2]A.K.Jain,R.P.W,Duin,J.Mao.A Review IEEE Transactions on Pattern Analysis and Machine Intelligence[J].Statistical Pattern Recognition,2000,22(1):4-37.

[3]T.h.Hilderbrand,W.Liu.Optical Recognition of Chinese Characters Advances since1980[J].Pattern Recognition,993,26(2):205-225.

[4]M.Umeda.Advances in Recognition Methods for Handwritten KanjiCharacters[C].IEICE Trans.Information and Systems,1996,79-D(5):401-410.

[5]Quen-Zong Wu,I-Chang Jou.A Matching Algorithm for Radical-basedOn-Line Chinese Character Recognition[J].In:Visual Communications and Image Processing'95(SPIE1995),2501:425-432.

[6]Kumar Chellapilla,Patrice Simard.A New Radical Based Approach to Offline Handwritten East-Asian Character Recognition[C].In:Tenth International Workshop on Frontiers in Handwriting Recognition(IWFHR’06),2006:221-225.

[7]文艳军,殷建平.联机手写汉字识别工具的研究.[D],长沙:国防防科技大学,2000:10-13.

[8]Ramer.U.An Iterative Procedure for Polygonal Approximation of Plane Curves[J].Computer Graphics and Images Processing,1972,1(3):244-256.

[9]郑胜林,潘保昌,赵学军等.联机手写笔画特征抽取的逼近—合并算[J].计算机工程与设计,2006,27(7):1248-1250.

[10]Xinqiao Lu,Ping Li.A Partial Area Matching Method Based on Support Vector Machine for Distinguishing Similar On-Line Handwritten Chinese Characters[C].The1st IEEE International Conference on Bioinformatics and Biomedical Engineering.2008.

[11]黄弋石,梁艳.英文手写联机识别的基础模型[J].软件,2012,33(7):141-145.

调查显示国人汉字手写能力变差 篇2

据光明日报报道, 伴随着信息技术的发展, 键盘输入替代书写, 网络用语渐成风尚———在告别“铅与火”的同时, 我们逐渐失去很多与汉字“亲密接触”的机会, 很多人变成了“键盘手”, 患上了“失写症”, “汉字危机”成为一个令人忧心的文化现象。零点指标数据针对京、沪、穗等12个城市进行了“中国人书法”系列调查, 结果显示:有94.1%的受访者都曾提笔忘字, 其中26.8%的人经常出现该情况;除此之外, 很多人经常写错别字或者写字越来越难看, 甚至惧怕手写。《通用规范汉字表》研制组组长、北京师范大学教授王宁认为, 把提笔忘字归咎于电脑技术, 在逻辑上行不通。“人们应当检讨精神追求的失落、文化素养的降低, 以及对母语和汉字缺乏敬畏之心, 没有爱惜之情———这是在基础教育阶段没有培养成写字的爱好和习惯, 而不能怪罪于人类用智慧发明出来的电脑。”她表示:“我们可以探讨汉字手写机会少了, 很多人特别是青少年写字水平下降这个问题如何解决, 不过, 没有必要把这种现象夸大为‘汉字危机’。”中国工程院院士、微电子技术专家许居衍认为, 形码输入法对汉字的传承具有重要作用。他表示, “汉字走拼音化的道路”已经在年轻一代中形成了思维定式, 人们越来越多地使用拼音输入法, 不仅写字的机会减少了, 连汉字的构造都记不住。“‘形码’是依形编码, 输入时就相当于直接输入汉字, 会写就会输入, 会输入就会写。通过这种方式, 人们就不会忘掉汉字的笔画和结构, 这才是传承汉字文化的上上之策。”

手写汉字 篇3

本文针对传统的投影切分法的不足,提出了一种相应的改进算法。算法初切分阶段通过对局部图像运用投影切分方法来确定行切分点,从而得到单行字符,之后针对单行字符,投影切分法中结合最小阈值进行单字切分,并进行切分后处理,最终得到最佳的切分结果。实验表明,该算法对传统的垂直投影法中的误切分现象有较好的抑制作用。

1 图像预处理

汉字字符图像样本多为RGB格式的图像,由于本文的算法是在投影法的基础上进行的,所以需要和传统的投影法一样,进行图像二值化,所以首先将RGB格式的图像转化为灰度图像,进而把灰度图像二值化。本算法先对原图进行中值滤波[2],然后通过经验阈值120进行二值化处理。在图像学中,黑色的灰度值为0,白色的灰度值为1。实验过程中,为了便于像素统计,我们不妨对二值化图像进行取反操作,使被统计的像素点灰度值为1,即我们把黑色像素的灰度值设置为1,则白色像素的灰度值设置为0。

2 改进的投影法汉字切分

2.1 图像的字符区域定位

对于字符图像,字符一般位于图像的中间区域,而我们处理的对象仅仅是字符,所以对图像矩阵进行字符区域定位十分必要,定位后的像素点会缩减,有利于提高实验的执行效率。即由上向下对图像进行扫描直至找到第一个字体像素点,并由下向上对图像进行扫描直至找到最末的字体像素点,这样一来,我们就对图像大致的高度范围和宽度范围有了一个定位。下面操作中所指的图像区域就是指这个精确的图像区域。对图像区域做此精确化定位可减少不必要的操作,从而进一步提高切分速度。

2.2 字符行切分

实验中使用的样本库为哈尔滨工业大学人工智能研究室发布的HIT-MW库[3,4]。由于样本是截取书刊中的若干段落,而一个完整段落的末行文字的长度是不确定的,即,对每一个单独的样本而言,有若干段落文字组成,故并非每一行的文字都是满行。这样一来,单纯的依据水平投影进行行切分就不够可靠。此外,由于在书写过程中的人为因素,某行或者某几行的书写出现歪斜是十分普遍的。所以单纯的依据空隙点来确定整行字符的水平位置并不实用。

针对段落末行的非满行问题,本算法进行了如下处理:由于书写习惯是从左向右,即使是段落末行的行宽十分小,末行的那少许文字也是分布在在文本靠左的位置。据此,我们截取该字符图像的局部图像进行处理,局部图像的长度为原图长度,宽度从原图最左部开始,至原图1/5宽度位置止。对局部图像,投影切分法进行切分,即寻找最低投影点作为切分点。具体处理为先进行水平求行和,从上到下遍历行和数组,当行和数组中连续出现多个零像素点时,则认为这是一个字符空隙,空隙值大小以这次的连续零像素点的数目来计,如果空隙值大于或等于预设阈值T1,就以这个空隙值的一半作为遍历指针的回退步数,然后把此时的遍历指针所在位置作为切分点进行切分。并对此时的多个字符行的进行高度统计,暂存高度的均值和方差。之后将每个字符行的高度与高度均值进行比较,若大于高度均值的两倍则需要再次切分,若小于高度均值的一半则需要再次合并。再切分准则为寻找离中点最近的最低投影点,再合并准则为于相邻的高度较小的行进行合并。选取样本库中的字符图像,进行行切分点的确定,结果如图1(a)所示。

针对书写行的倾斜问题,本算法所做的处理是:从上阶段得到的切分点为初始点,每一次进行单行的截取时,对改行的高度进行扩展,具体表现为在图像矩阵中对改行的高度的上限进行缩小,对改行的高度的下限进行增大,把扩展后的改行进行截取并加以保存即得各个单行字符。选原文本图像的部分单行结果如图1所示,图1(b)为首行的字符图像,图1(c)为第二行的字符图像。

2.3 字符切分

对单行字符进行垂直投影,即对每列的黑像素点进行统计,统计结果保存于一个同样大小的数组中,该数组在下文中称为列和数组。从左到右遍历该列和数组,一旦发现列和数组中出现连续零值元素时,则认为该列对应的像素点为背景像素点,即字符图像中该列或该若干列的位置为字符空隙。在此为避免漏切分,我们设定空隙阈值大小为最小,即1个像素。如果实际空隙值大于或等于这个阈值,就以这个空隙值的一半作为遍历指针的回退步数,然后把此时的遍历指针所在位置作为切分点进行切分。在字符切分的首阶段实验中,得到的实验结果如图2(a)所示。

由图2(a)的结果可知,尽管切分结果中有效地避免了漏切分,但是过切分现象却比较严重,所以需要做后期处理,来对初步字符切分的结果进行切分修正。在此,通过将各段长度与均值进行比较得到过小段,进而对过短的段进行合并,合并原则是并入相邻的较短的段中。合并结果如图2(b)所示。同理,结合段长均值判断出未能被切开的粘连字符,进行再次切分,切分原则是寻找离段中点最近的投影最低点。再次切分的结果如图2(c)所示,即为最终的实验结果。

3 实验结果及算法分析

本算法最终结果如图2(c)所示,由实验结果可见,该算法对传统的垂直投影法中的误切分现象有较好的抑制作用。对照图中的切分结果可知,粘连字符“她便”可被准确切分,标点符号和数字的切分也比较准确,当然,本算法的不足在于,对数字的切分很不是十分精确,如“19”未能切开。并且,对于左右部首的汉字,若其两部首写得较疏远,则会被误切分为两个字符,如图中的“对”被切分成两部分了。但总的来说,本算法的切分正确率还是非常可观的。

4 结束语

针对传统的手写汉字投影切分算法存在的问题,本文进行了相应的改进算法。算法通过局部图像确定行切分点,从而实现单行的准确切分,并在传统的手写汉字投影切分中结合最小阈值和切分后处理,从而实现单个字符分割,以获得十分客观的实验效果,实验表明,该算法对传统的垂直投影法中的误切分现象有较好的抑制作用。最后通过实验验证了算法的有效性。

参考文献

[1]周昌乐.手写汉字的机器识别[M].北京:科学出版社,1997.

[2]尹志富,宋凯,金海月.图像预处理中去噪算法的研究[J].机械设计与制造,2008(01).

[3]Su Tong-hua,Zhang Tian-wen,Guan Dejun."Corpus-based HIT-MW database for offline recognition of general-purpose Chinese hand-written text"[J].International Journal of Document Analysis and Recognition,2007,10(1):27-38.

[4]Su Tong-hua,Zhang Tian-wen,Guan Dejun."HIT-MW Dataset for Offline Chinese Handwritten Text Recognition"[C]//Proceedings ofthe Tenth International Workshop on Frontiers in Handwriting Recognition,2006.

[5]Chen Feng-yin,Liu Lin.Handwritten Text Line Segmentation by Clustering with Distance Metric Learning[C]//Proceedings of the 11thInternational Conference on Frontiers in Handwriting Recognition,2008.

[6]王江晴,万晨.周边方向贡献度在脱机手写女书特征提取中的应用[J].中南民族大学学报:自然科学版,2010(3).

[7]刘赛,李益东.彝文文字识别中的文字切分算法设计与实现[J].中南民族大学学报:自然科学版,2007(3).

[8]刘赛,朱宗晓,马志强.基于连通域的彝文文字切分算法的设计与实现[J].中南民族大学学报:自然科学版,2009(6).

手写汉字 篇4

手写体汉字识别一直是模式识别中的一个重要研究领域,具有很高的理论和应用研究价值。近几年来,脱机手写体汉字识别已经取得了重大的发展。

在识别系统中,特征抽取与分类器的设计是整个系统中最为重要的环节。稳定特征的抽取与良好的分类器的设计是整个识别系统的核心,它们直接决定了识别系统的性能。多分类器集成或组合是模式识别中一个重要的研究方向。Mori等人在1984年就指出,各种简单的特征抽取方法的集成是手写体汉字研究的一个趋势。不过那时的集成方法只是特征级的集成,还不是方法级的集成,多分类器集成的概念是在数字识别中为提高系统的可靠性而提出的。应该指出:以综合集成理论为指导的集成策略不仅仅是多分类器集成,它更加强调人机集成的思想。

目前,用于手写汉字识别上的集成方法还不是很多,本文给出了一种并行集成方法,克服了类别大而引起的网络规模过大的缺陷。该方法通过一个有教师的两步监督学习过程来实现,在第一步监督学习中,构建并训练两个BP网络分类器;在第二步中构建并训练集成网络。

本试验针对金融票据自动识别处理应用中常用的45个字进行识别试验,结果证明,这一基于BP网络的集成方法大大提高了识别率,说明该方法是有效的。

(二)BP网络

BP网络是目前应用最广泛的一种神经网络模型,在模式识别、语音识别、智能控制、信号处理、生物工程、非线性优化等领域都有大量的应用,显示了其巨大潜力。BP网络实质就是多层感知器 (Multi-Layers Perceptron——MLP) ,由于其学习算法采用BP算法所以又被称为BP网络。BP网络本质上是静态网络,只能实现非线性静态映射,不具备动态信息处理能力,并不是一个非线性的动力学系统。在训练和学习的过程中可能出现的情况有:网络收敛速度慢,收敛到局部极小点,学习过程产生震荡等等。所以,需要对BP网络进行必要的改进。常用的改进方法有:附加动量项、学习速度的调整、改变误差函数的形式、激活函数的选择等等,也有一些基于新理论的算法改进。

(三)系统的组成

1989年Robert Hechi-Nielson证明了对于任何闭区间内的一个连续函数都可以用一个隐含层的BP网络来逼近,因而包含一个隐含层的三层BP网络就可以完成任意的n维空间到m维空间的映射,故网络设计时选择隐含层的层数为一层。在该并行集成分类器中,单分类器采用两个三层BP网络,集成也是由一个三层BP网络完成。

每个单分类器对样本空间进行某种划分,对集成系统来说,每个分类器相当于一个特征抽取器,它们的输出形成一个扩展特征向量,集成系统又以另一种方式对样本空间进行划分。我们可以对每一分类器设计不同的判别准则,然后用截然不同的准则将各分类器结合起来。这样,特征之间便具有了多样化的关系,其表达特征之间关系的能力也是任何一个单分类器所无法比拟的。

如果希望系统有较好的分类性能,必须:(1)各分类器本身必须是“专家”,即每一分类器的识别率不能太低;(2)各分类器之间要有一定的互补性。从识别结果来说,所谓互补性指的是两分类器根据各自的准则选择的侯选或类别有差异,或各类别的排列有差异,即每个分类器都能提供一些新的类别信息。局部特征和全局特征有较好的互补特性,基于这两种原始特征合成的新特征向量将具有更强的分类能力。本文中,局部特征采用结合Gabor滤波器的弹性网格提取方法,全局特征采用Zernike矩变换的提取方法。

传统的BP网络分类器要求网络的每个输出节点与类别具有一一对应的关系,但在该系统中,只要输出节点的不同排列与类别一一对应就可以了。考虑一个6维二进制向量,所有分量共有64个不同的排列。如果每个排列对应一个类别,一个具有6个输出节点的网络可以预期处理64个类别。这样,每个网络的规模都得到了大幅度减小。训练这样大小规模的网络是较为容易的,它在保证网络处理能力的同时,网络规模也不会因类别数的增加而迅速增大。

图1所示为网络的并行连接:

从一定意义上讲,整个系统就是一个具有大规模、非线性和并行分布式处理能力的广义的网络。该网络强调信息的并行处理,结构上分布集中的特点有效克服了串行集成中误差累积的缺陷,网络本身具有的容错性和抗干扰性同样保留在集成分类器中,增强了方法的纠错能力。不同的是,不能以传统的算法来训练这个网络,通过两步来训练,教师以不同的知识和途径来“教会”每个处于不同层次的网络。

(四)系统的实现

为实现全并行集成方法并建立相应的系统,在此设计了两步监督学习算法,如图2。

在第一步监督学习过程中,构造两个网络单分类器,由教师通过监督转换单元训练网络参数;在第二步监督学习过程中,构造集成网络并形成集成网络的扩展输入向量,然后由教师训练集成网络的参数。具体过程如下:

第一步:网络单分类器的构造与训练。

首先,进行网络初始化工作,包括确定网络各层节点数和阈值,给网络连接权值矩阵赋初值,初值一般随机确定。接下来,输入相应的特征向量到网络的输入层各端子,教师通过监督转换单元给定网络的期望输出,之后按照传统的反向传播算法训练网络。训练过程的结束与否可根据输出误差和迭代次数两者结合起来判断。如:如果迭代次数超过300次或输出误差小于0.0001,则网络训练结束,重复整个过程,直到这两个网络单分类器训练结束。

第二步:集成网络的构造与训练。

首先,进行集成网络的初始化工作,与网络单分类器的初始化一致。接下来,每个单分类器对集成网络训练集中的样本进行处理,并将输出合并,形成集成网络的扩展输入。然后,教师给出集成网络的期望输出,同样通过传统的反向传播算法进行训练。训练的结束判断和第一步相同。在此,期望输出直接代表模式与各类别间的相似度,教师的知识以简单和直接的方式引导网络的学习过程。在学习当中,各个网络单分类器之间的协作互补关系由集成网络得出,同时记忆到以分布式存在的各权值因子中。

经过监督转换,不仅将从相似度为标准的知识表述转换为更加适合网络学习的表述形式,而且降低了集成网络的输入端子数量。可以说,人机的结合降低了原问题的复杂度,同时没有丧失综合集成所重视的整体与系统的策略。其实,这里的网络单分类器已经不再是传统分类器,因为它的输出是一种新的模式表达式,而不是模式与类别间相似度的大小。这种表述形式具有简洁和互不相关的特点。另一方面,集成网络虽然工作在扩展特征基础上,但是从输出的意义上看,是一个传统分类器,其输出对大多数人都具有明显的意义。

(五)实验结果

本试验针对金融票据自动识别处理应用中常用的45个字进行识别试验,每个字选取100个不同的样本,其中取80个样本用于训练,20个用于测试。

实验结果如表1所示:

从表1可以看出,集成系统的识别率比单分类器一和单分类器二分别高出4.1和5.4个百分点。

(六)结论

从实验结果可以看出,本文提出的全并行集成方法的识别率明显高于只采用单分类器的识别率,在速度上也有极大的提高,而且为特征的综合集成提供了多种途径。因此本文提出的方法是有效的,同时本文也为BP网络在大类别分类识别问题中的应用提供了一条可行的途径。接下来的工作,可以把该方法继续改进,进而应用到大类别分类识别中。

参考文献

[1]S.Mori, K.Yamamoto, M.Yasuda.Research on machine recognition of handprinted characters[J].IEEE Trans.Pattern Anal.Mach.Intell, Vol.6, 1984:386-405.

[2]C.Suen, C.Nadal, R.Legault, T.Mai, and L.Lam[J].Computer recognition of unconstrained handwritten numerals.Proceedings of the IEEE, Vol.80, 1992, 6 (7) :1162-1180.

[3]戴汝为, 等.汉字识别的系统与集成[M].浙江:浙江科学技术出版社, 1998.

[4]申东日, 冯少辉, 陈义俊.BP网络改进方法概述[J].计算机应用, 2000, 27 (1) :30-32.

手写汉字 篇5

手写汉字计算机笔迹鉴定是模式识别领域中的一个重要研究课题,经过30多年的研究,取得了一系列的研究成果及较高的鉴定率。但是以往研究的高鉴定率主要是以文字结体为研究对象的[1,2,3,4,5],即高鉴定率是针对特定对象的,对于超出特定对象的汉字其鉴定率几乎为零。而计算机字库常用汉字达6763个。如此庞大的字库,在结体依存的计算机笔迹鉴定应用中困难重重[5]。为克服笔迹鉴定中结体依存性的不足,笔者提出以手写汉字的基本笔画为对象,利用笔画的起收笔和笔压特征,进行笔迹鉴定的研究。

本研究采用笔画中的起收笔和笔压特征进行笔迹鉴定,实验采用10位书写者,每位书写者书写70个汉字作为样本,验证从汉字基本笔画中提取特征用于汉字笔迹鉴定的可行性。

1基本算法介绍

作为模式识别的一个分支,笔迹鉴定具有模式识别研究所具有的系统实现过程,具体的笔迹鉴定系统流程图如图1所示。

对于该系统流程,不同笔迹鉴定研究对特征提取和辞书的建立具有不同的方法。本研究提取汉字基本笔画的起笔、收笔和笔压特征,建立辞书,通过对笔画的识别实现对汉字的鉴定。

1.1起笔和收笔特征

根据计算机书法的合成[4]可知,起笔、收笔不论其前后的行笔部分有多长,几乎仅取决于整字的大小,都有相同的转折。故起、收笔部分都是依据单字的大小而定的,如图2所示。以笔画横为例说明起笔和收笔特征的提取。如图3所示。

由于在笔迹的包络线中留下了起笔、收笔和笔压大小的信息,故笔者提取了“横”的起笔部分轮廓曲线,提取起笔特征如图4所示。

曲线高为H,底宽为W1,中间部分的宽度为W2,曲线最高点离开最右端的距离为W3,定义起笔特征为:

T1=W2/W1,T2=W3/W1,T3=H/W1

对收笔部分也做同样的特征提取,得到横的特征向量为:

T横=[T1,T2,T3,T4,T5,T6]

以相同的方法提取竖、撇、捺的起笔和收笔特征。

1.2笔压特征提取

笔画的笔压特征是由行笔部分提取的。以笔画横为例说明笔压特征的提取。对图3的行笔部分提取上侧轮廓得到笔压曲线如图5所示。

行笔部分的起点为B,该点的笔画宽度为XB,终点为E,笔画宽度为XE,笔画宽度最小值所在点为L,值为XL,最大值所在点为H,最大值为XH,起点到终点的距离DBE,起点到最小值的距离为DBL,起点到最大值的距离DBH,则定义特征量为:

T7=XB/XET8=XB/XLT9=XB/XHT10=DBL/DBE

T11=DBH/DBE

笔画横的特征空间为:T横压=[T7,T8,T9,T10,T11]

笔画竖、撇、捺的特征提取与横类似。

1.3起、收笔和笔压特征

根据上述的定义,得到本研究的综合特征,由起笔特征、收笔特征和笔压特征组合而成,即横的特征为:

T横=[T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,T11]

类似的可以定义其它笔画的特征。

2特征匹配

根据样本平均法,求取每个书写者在特征空间中各个特征的标准参考值。

设:第i个书写者第k个样本中的第j个特征值为Ti,j,k:其中:

i=1,2,…,I;(I为所有的书写者数)

j=1,2,…,J;(J为所有的特征数)

k=1,2,…,K;(K为所有的样本数)

根据定义,书写者i的特征j在特征空间中的标准参考值TAi,j为:

ΤAi,j=k=1ΚΤi,j,kΚ (1)

由此可得书写者i在特征空间中的标准参考特征值组为:

{TAi,1,TAi,2,…,TAi,J}

而被鉴定对象特征值组为:

{TT1,TT2,…,TTJ}

在这基础上,求取被鉴定对象特征值组和各标准参考特征值组的距离:

Di=(ΤAi,j-ΤΤj)2 (2)

其中:i=1,2,…,I;比较出最小距离所对应的书写者作为鉴定结果。

3实验结果

根据上述特征量及匹配方法,进行笔迹匹配实验,从10位书写者中鉴定出一位原书写者,实验结果如表1-表3所示。

4结束语

根据实验结果可以得出如下结论:

证实了以笔画为对象的笔迹鉴定方法的可行性。在只利用了四种基本笔画、11个特征值的情况下,取得了比较高的鉴定率。本研究从汉字中提取基本笔画,摆脱了结体依存性的限制,77%的有效率是对所有汉字有效的,即使是错字或别字。并且本研究建立辞书所需空间和成本较低,因此具有更大的实用前景。

摘要:以手写汉字的基本笔画为研究对象,提取笔画的起笔、收笔和笔压作为特征量,进行笔迹鉴定的研究。研究采用了10位书写者,每位书写者各书写70个汉字作为样本,提取4种基本笔画,进行笔迹鉴定的实验,实验取得了较为满意的鉴定率。本研究克服了以往笔迹鉴定中结体依存的不足,适用于所有的汉字。

关键词:笔迹鉴定,基本笔画,起笔特征,收笔特征,笔压特征,特征空间

参考文献

[1]刘红,李锦涛,崔国勤,等.基于SVM和纹理的笔迹鉴别方法[J].计算机辅助设计与图形学学报,2003,15(12):1379-1483.

[2]胡云飞,秦严严,戴国忠.基于曲线拟和的笔迹存储和绘制方法的研究[J].计算机工程与科学,2003,25(5):42-45.

[3]欧贵文,肖国华.基于支持向量机的笔迹鉴别系统[J].中国图像图形学报,2003,8(A)特刊:551-554.

[4]张宪荣.阶层分解合成法による毛笔书き文字パタ一ン合成に关する研究.大阪大学,1988.

[5]刘俊,文颖,张宪荣.基于基本笔画笔压特征的手写汉字笔迹鉴定的研究.上海大学学报,2003,9(2):135-138.

[6]Jain,Anil K,Griess,Friederike D,Connell Scott D.On-line signature verification[J].Pattern Recognition,2002,35(12):2963-2972.

上一篇:特需医疗服务下一篇:《卫报》