手写文字

2024-10-12

手写文字(共3篇)

手写文字 篇1

1 引言

计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。国外在文字识别领域较早地开展了工作,其印刷体和手写体识别产品早已问世,尤其是印刷体的识别早已达到实用程度。在国内,由于汉字识别输入有潜在的市场,全国许多大专院校及科研单位都开展了汉字识别技术的研究工作,并卓有成效,以中国科学院自动化所汉王集团为例,汉王手写识别技术已经从最初的1.0版做到了现在的11.0版,彻底解决了手写输入设备、核心算法、高效运算等技术难题。

蒙古语是内蒙古自治区的主体民族语言,在中国,使用蒙古文的地区除了内蒙古自治区,还有黑龙江、吉林、辽宁、新疆等省和自治区。蒙古文的文字处理系统和输入方法的研究起步于二十世纪八十年代初期,大部分输入方法的研究集中在键盘编码输入方式上,对蒙古文字识别的研究非常少,这严重地制约了信息技术在少数民族地区的普及和应用。因此本论文的研究为蒙古文的输入提供一种新的自动化和智能识别方式,这对继承和发展少数民族文化、促进民族地区的社会进步具有重要的意义。

2 预处理技术

蒙古文字是拼音文字,但其书写方式在当今世界是非常独特的,与汉文和西文有很大不同。蒙古文是从上到下、从左到右竖写,每个词中所有字母连着写,形成一个竖直的主干线,且每一个字母在一个词中的词首、词中和词尾所取的字形不一样。这些特点给蒙古文的识别带来很大的困难。除此之外,从书写板采集的笔迹输入序列含有很多噪声,如笔画的抖动,书写的快慢等,都会对识别产生严重的干扰。因此,必须对输入序列进行预处理。我们将采取一定的技术方法(高斯滤波、最小二乘法、Hough变换等方法)去除噪声的干扰,诸如去除重复采样点、倾斜校正、大小规范化等等。

设采样输入序列为P, P=[p1, p2, ..., pN]。首先,为避免书写快慢而影响采样点数的变化,必须清除重复点。如,采样点pi=pi+1=…=pi+d,则去掉pi+1,…,pi+d。然后对输入序列进行滤波,这里采用了高斯滤波算法,对每一个采样点 (x, y) 分别滤波:其公式如下:

标准的蒙古文手写体是沿着一条竖直主干线书写的,而不同人由于书写风格不同,笔迹可能偏离竖直主干线,因此对输入样本进行倾斜校正也是预处理中重要的一步。现在常用的方法是Hough变换,通过Hough变换得到一条实际的主干线方向,它与竖直线的夹角即为样本倾斜角度。我们把输入样本旋转相应角度即可校正样本的倾斜问题。

大小规范化是很重要的一步,我们把样本规范化为16×16的点阵范围内, 以适于不同大小的笔迹都能切分。

此外,由于不同人笔划书写速度也不同,这有可能造成笔划的断裂及采样点的不均。我们增加了插值这一步骤,采用了线性插值的方法来补充采样点。具体方法是,对图形学中的Bresenham[1]直线生成算法做适当改进以适应我们的需要。

3 特征提取技术

特征提取是手写体蒙古文字切分技术的核心步骤,特征提取的好坏将直接影响到文字的准确切分率。本人在这方面花费了大量的心血,经过长时间的实验比较研究,本系统首先采用粗分类器设计和细分类器设计方法,建立便于特征匹配的多分类器。然后从蒙古文单词全局、单词局部、笔划局部方向等三个层次上,对蒙古文手写体笔迹特征作了具体的研究。

3.1 粗分类特征

在实际中,我们选择如下特征作为粗分类特征:

(1)判断出经预处理后的蒙古文字的字首和字尾特征。

(2)继续判断这个蒙古文字位于主干线的左边,右边,还是两边。

(3)查看该蒙古文字是几笔写成的。

(4)判断该蒙古文字是否是从主干线起笔的。

3.2 细分类特征

为了区分粗分类特征提取后每组的若干个蒙古文单词,根据每个单词的笔划方向及特征点,可进行唯一特征的提取即细分类特征的提取。如,该单词是否含圈、是否带回朔笔迹、是否存在重复笔迹等。

4 切分技术

本系统利用蒙古文字的基本结构特征切分经预处理后的蒙古文手写体单词,以蒙古文单词的书写主干线作为基本要素,根据基元自身的结构特征和方向序列作为最终蒙古文单词切分点。具体基本步骤如下:

4.1 根据每个基元的特征,定义了八个方向,分别是上,下,左,右,左上,左下,右上,右下等。

4.2 取所有相邻两个像素点的方向,并形成一个方向序列。若方向序列中存在连续相同的方向,则合并成一个方向且记下对应的像素点数。

4.3 将方向序列中的每两个相邻的方向合并成一个方向,然后再判断方向序列中是否存在连续相同的方向,若存在,则进行合并且记下对应的特征点数。

4.4 只要满足特征点数大于给定值且方向一致的条件,则再进行一次合并处理。到此步骤已实现了对手写体蒙古文单词的分段线形逼近。将以上四个步骤综合称为直化过程。

4.5 当扫描这个保存了直化后的特征点及特征方向序列的数组时,若发现特征点数大于给定值且方向向下的元素,则作为基元的分割点记录下来。此外,应根据其他一些切分特征。如,按照笔划个数分类、是否带有回朔方向、回朔部分有无重复点等细分类特征。

4.6 扫描链表m_ptList(其中已存在蒙古文单词的每个像素点),当等于分割点时,从上一个分割点到此分割点进行重绘。这样就完成了对手写体蒙古文的切分。

4.7 为了方便使用蒙古文字体将识别后的基元输出,需要做一些字形转换工作。其中,对某些基元再进行切分、对某些基元再进行合并、而有些基元本身就是编码表中的字型。

对蒙古文单词的切分实例:

(汉文意思为:“蒙”)

其中, (1) 是由书写板输入的手写体蒙古文单词;

(2) 是根据切分特征, 所得到的切分后的基元;

(3) 是合并后的最终基元;

(1) - (2) :根据特定标准,对蒙古文单词进行切分的过程;

(2) - (3) :为了能够使用标准字体将其输出,从而进行的基元整合过程。

5 实验结果

我们以Microsoft Visual C++为工具,对以上提到的关键技术都进行了实现,开发出了一套手写体蒙古文字切分系统。我们从7000个蒙古单词中随机抽取3000个单词作为测试样本。由10位书写笔迹不同的测试人员分别对其中的500个单词进行不限笔画、不限风格的手写体识别,平均准确切分率为80.5%,如下表5-1。

6 结束语

因每个人的书写习惯各不相同,即使同一人在不同环境下所书写的格式也不尽相同,所以其切分复杂度和困难程度都非常高。针对这个问题,本系统提出了一种新的方法即基于特征提取技术的切分方法来解决所存在的手写体蒙古文字切分问题。从上述实验结果可以看出,提出的新方法不仅较大幅度地提高了系统的性能,而且在训练集和实验室数据集上测试也取得了良好的效果。

参考文献

[1]唐泽圣等.计算机图形学[M].北京:清华大学出版社, 1995.

[2]Nadir Farah, Labiba Souici, and Mokhtar Sellami, "Arabic Word Recognition by Classifiers and Context, "Computer Science Department, Annada University, 2005, 20 (8) :402410.

[3]邹明福, 钮兴昱, 刘昌平, 白洪亮等.联机手写英文识别.计算机研究与发展, 2006, 43 (1) :138144.

[4]靳简明, 江红英, 王庆人等.数学公式识别系统:MatheReader.计算机学报, 2006, 29 (11) :218220.

[5]张昕中.汉字识别技术[M].清华大学出版社, 1992.

手写文字 篇2

2、你可以勉强穿一件你不喜欢的衣服,勉强交一个你不喜欢的朋友,可感情是一辈子的事情,得自己舒服才可以。

3、最美好的事,是看到某人的微笑;而更美好的事,是他因为你而笑。

4、既然你喜欢饮料,就不要去碰那杯热水。

5、唯有最漫长的坚持,能带给我们最永久的幸福。

6、从激情到亲情,从感动到感恩,从浪漫到相守。

时间越久,越不愿离开你,这才叫爱人。

7、如果没有相等的爱,那就让我爱多一些吧。

8、有错过,才会有新的遇见。

缘分就是,不早不晚,恰恰刚好。

9、不要为了天长地久去冒险,所谓的永远只不过是一瞬间。

10、你说“谢谢”,我说“不客气”。

我们陌生到需要这么客气。

11、因为无能为力,所以顺其自然。

因为心无所恃,所以随遇而安。

12、我爱他跌跌撞撞到绝望,我的心深深伤过却不会忘。

我爱她轰轰烈烈最疯狂,我的梦狠狠碎过却不会忘。

13、若不是唯一,我连最爱也不要。

14、世界上会有一个人的出现让你觉得,之前的人生都是为了等待他的到来。

15、再花心,内心深处也有一个自己真正深爱的人。

16、不要随便把你的脚迈进我的世界,除非你能保证不离开。

17、举得起放得下的叫举重,举得起放不下的叫负重。

18、女朋友算什么,我可是要成为你妻子的女人。

19、如果我的名字是你拒绝所有的理由,那我也愿拼了命和你走到最后。

20、怪我们认识的太早,不能牵手到老。

21、希望你一生没有软肋,不像我,别人提到你,我就输了。

22、我有许多理由放弃你,但我选择了留下;而你有一大堆理由留下,却选择了放弃我。

23、每个人的心里,都有那么一个你永远不会提,也永远不会忘的人。

24、啥是爱情里的甜?是相看两不厌,是即使吵架委屈,但想想那是你,便也是心甘情愿的。

25、爱情如拉链,只有共同经历过故事,才会有刻骨铭心,才会有不离不弃。

26、多想拥抱你,可惜山南水北,你我之间人来人往。

27、在对的时间遇见对的人是童话,在错的时间遇见对的人是青春。

28、谁在放肆地弹奏着烦躁的喘息,抑扬里渐忘了色彩。

29、用一杯水的单纯,面对一辈子的复杂。

30、你也许已走出我的视线,但从未走出我的思念。

31、时间可以见证爱情,但是不是所有的爱情都经得住考验。

32、能力就像一张支票,除非把它兑成现金,否则毫无价值!

33、因为是你,所以我才对你任性。

全世界都可以不懂,如果你也不懂,我还有什么话可说。

34、何必要把这个世界看的那么清楚,朦朦胧胧着心才不会痛。

35、她总是回忆,她总是怀念,别怪她,她就是舍不得。

36、我太了解她了,只要她还肯和我说话,无论她放多狠的话,都是在等着我去哄她而已。

37、就像啤酒那一层浮在杯子上的泡沫,看着快要溢出,抿一口全是空气,有些感情也是。

38、纯朴无瑕的爱情,具有诚实的品格,装腔作势的爱情,披着虚伪的外衣。

39、眼泪流下来,才知道,分开也是另一种明白。

40、属于你的那一页早已翻阅,下一页的主角已然换人。

41、说着不想长大,可是,不管怎样,我们最终都会成长。

42、相比起说晚安,我更想帮你把被子盖好。

43、如果有个人会每天给你发信息叫你起床,睡前会对你说晚安。

44、全世界就这么一个我,别不把我当回事。

全世界就这么一个你,我拉了命去珍惜。

45、即使在千万人中行走,我也能一眼认出是你。

因为别人都是踩着地走路,而你是踩着我的心在走。

46、那个谁,我爱你爱到可以连自己的爱都不要。

那个谁,我爱你爱到可以连自己的情都不要。

47、你说你吧,长得好看也就算了,还长成了我喜欢的.样子。

你让我怎么办啊?

48、羡慕的不是风华正茂的情侣,而是搀扶到老的夫妻。

49、幸福就是只要牵对了手,就算是失去了一切,也不会害怕。

50、能够拥有时千万别松手,别忘了还有一堆人在旁边虎视眈眈呢。

51、有时候,亲密并不一定和爱有关,而疏离并不代表不喜欢。

52、请把衬衫的第一颗扣子摘下来送给我,因为它最多余,像我。

53、养一只猫,养一只狗,再养一个你,逗逗猫,虐虐狗,再睡睡你。

54、我的愿望是,一觉睡到小时候。

55、微笑就像创可贴。

虽然掩饰住了伤口,但是心痛依然。

56、一个姑娘爱上一个男子的时候,决不会看出他的缺点来。

57、眼泪是我自己的,我再痛,再悲,没有外人能体会到。

58、你用沉默来回避我,那我就用不联系来成全你。

59、我可以陪你熬夜,也会劝你早睡,但最好的状态是我们一起睡。

60、年少的爱慕是可以安静的,只是在以后的岁月里,我将永远走在少了你的风景里。

61、有没有一个人,即使当你躲进世界的角落,也能准确无误的找到你,拥抱你。

62、你可不可以牵着我的手,就当是我的乞求。

你可不可以看着我的眼,就当是我的奢望。

63、怪我不出众的脸,留不住你跳动的眼。

64、爱情使人忘记时间,时间也使人忘记爱情。

65、若借口只是敷衍,那我宁愿你简简单单的拒绝。

66、我心底的秘密,是你给的甜蜜。

67、不管你还记不记得我、至少我清晰的记得你。

68、男人伪装坚强,只是害怕被女人发现他软弱。

女人伪装幸福,只是害怕被男人发现她伤心。

69、那个让你捉摸不透的人,你不必绞尽脑汁的去猜测,如果他真心喜欢你,他不会给你出难题!

70、虽然爱情就像烟花,但是我们仍然愿意为这短暂的绚烂飞蛾扑火。

71、如果可以,我会用一辈子的桃花运,只守住你一个人。

72、其实每次都很在意,只是在掩饰我内心的伤痛。

73、叫声老婆,很容易;但是叫声老太婆,却需要一生的时间。

74、雨兲昰莪仿声哭泣的,因为没人能看的见莪心里的思念。

75、爱情是不受制约的;一旦制度想施淫威,爱神就会振翅远走高飞;爱神和其他诸神一样,也是自由自在的。

76、爱你不是因为你的美而已、我越来越爱你、每个眼神触动我的心。

77、爱上你若只是幻觉你别若即若离对我放电。

78、会不会有一天,我们终于不再互道晚安,而是睡在彼此身边。

79、阳光洒下风吹起,一切沸腾的感情都将化为清澈的空气。

80、难过了,不要告诉别人,因为没有人会在乎。

81、怎么补偿我思念你的时光,怎么赔偿我爱你的模样。

82、假如有一天我们不在一起了,也要像在一起一样活着并快乐着,便是最大的幸福。

83、之所以会念念不忘,是因为再也不会拥有了。

84、年轻的我们,容易把感动当成爱情,也容易把过客当成挚爱。

85、我想我会开始想念你,可是我刚刚才遇见了你。

86、现在男女之间的恋爱,总是答应太快,结果分手也快。

人性的规律是容易得到的就容易放弃。

87、幸福如同饮水,冷暖自知。

88、迩倾诉梦想的人,与迩同甘共苦的人。

89、我在努力的变成你喜欢的样子,可是你却告诉我你爱的是她。

90、小鸟没有了翅膀,不能飞翔,可我没有了你,可以活的很好。

91、人生就像剥洋葱,总有一片会让人流泪。

92、如果多年以后你仍未娶我未嫁那我们可不可以在一起。

93、像孩子一样,真诚;像夕阳一样,温暖。

94、有了你,我什么都不缺,心再野,也该知道拒绝。

95、我拿余生与你举案齐眉,请别让我皱眉,也别让我心如死灰。

96、白天就应该沉下心来认真做事,晚上才好认真想你。

97、不是除了你,我就没人要了。

只是除了你,我谁都不想要。

98、遇见你是命运的安排,成为了朋友是我的选择,而爱上你是我无法控制的意外。

99、我愿意陪着你疯,陪着你笑,陪着你哭,陪着你一起慢慢变老。

100、不管是谁的错先道歉的那个人一定是最在乎你的人。

101、也许我真的配不上你,但不一定你配的上我。

102、曾听人说,回忆是一座桥,却是通向寂寞的牢。

103、心,从陌生到熟悉,梦,还重复的做着。

手写文字 篇3

关键词:维吾尔文字符,联机,特征提取,特征库

维吾尔文具有悠久的历史,其手写体的形变非常复杂,使得其文字处理系统和输入方法的研究起步较晚,大部分研究集中在键盘编码输入方式上,以清华大学和新疆大学为代表,对印刷体字符进行了较为成熟的研究。关于联机手写文字识别的研究还是一个空白点,这严重地制约了信息技术在少数民族地区的普及和应用。本研究旨在为维吾尔文联机输入提供了一种新的自动化和智能的方式,使其信息处理达到一个新的水平。

一、数据采集与预处理

特征提取的首要工作就是要准确采集字符数据的信息,让后对采集的数据信息加以处理,以提取其特征。

(一)数据采集

实验中采用最大线数为2048×2048压敏电子书写板。当人用笔在板上书写时,它能采集字符笔划轨迹上各点的x-y坐标序列信号,即原始数据,不断输入到计算机,完成模数转换和采样量化,采样到的数据以流模式发往主机。本系统规定每隔0.02s采集一个坐标点,可以通过手写笔或鼠标来输入字符。

(二)预处理

由于书写的随意性、人手抖动、书写的速度变化等因素影响,采样收集的数字信号含有各种干扰和噪声,不能直接用于识别,因此在对联机手写体进行识别前,必须对输入信号进行预处理。包括以下几个方面:1)对原始数据进行归一化处理,使得建立的特征模板库具有很好的兼容性;2)对归一化后的坐标序列,去除重复的冗余点坐标数据;3)合并彼此太过靠近的点。4)通过平滑笔划曲线用以减少书写时抖动带来的影响。

二、特征抽取

虽然特征的提取和选择在模式识别中占有如此重要的地位,但迄今没有特征提取和选择的一般方法,大多数方法都是面向问题的。

本论文提出了抽取联机输入字符的五种特征,并辅以二值化特征,形成特征向量,建立特征库的方法。

(一)特征的抽取

联机输入时,采集到的数据是具有时间信息和空间信息的坐标点序列,所以可以抽取以下特征建立相应的特征库。

1)笔画四方向码特征:根据联机输入时笔划的走向,可以建立每个字符的四方向码。规定起笔的相对位置为0,根据与相对x轴的夹角θ进行分类,如图1所示,例如【-π/4,π/4),方向码置1。

特征提取思想:对联机采集到的坐标序列Pi (xi, yi)首先进行滤波处理,通过计算相邻坐标间点的△y/△x来提取原坐标序列中的落笔点、拐点、凸凹点以及起笔点等特殊点。规定:

|△y|≥|△x|时,方向特征码为2或4:△y≥0时为2,否则方向码为4;

|△x|>|△y||时,方向码特征是1或3:△x≥0时为1,否则方向码为3。

由于主干部分的特征向量抽取的位数可能不等长,所以通过对33个维文独立形式的字符的研究,取最大长度为7,若不足七位的,前面0补齐。例如字符对应的特征向量为R1={4321},字母的特征向量R1={4242432}。

2)点信息特征码:由于主体相同的维文字符的区别在于附加的点或其他标志的个数和位置,所以还必须对这些附加信息特征加以抽取。位置信息包括“上、中、下”三种情况,点的个数1、2、3、4、5五种情况,这些信息初始值均为0。例如的附加信息特征R2={0012}。3)笔画数特征:根据联机输入字母时起笔和落笔的次数,可以计算出该输入字符的笔画总数。实验系统中,根据Mouse Up和Mouse Down的值变化次数可以计算出Upnumber和Downnuber的值。当Upnumber和Downnumber的值相等时,允许识别。4)连通性特征:由于本系统所采集到坐标信息,并不一定能严格符合4连通或8连通定义,所以可以判断坐标点位置在间隔一段时间是否出现相同或有交叉。若有,则判断出现了环路,即具有了连通性。5)穿透性特征:由于维文字符的书写上有些字符存在很大差异,采集到的坐标点通过程序映射程序转化为0、1的二值化点阵图像,通过对横向和纵向点黑白区域变化次数的统计来建立字符的穿透特征。

(二)特征库的建立与模板建立

通过规范化后的坐标点信息进行以上5种特征以及二值化特征的抽取,将其对应确定的一个向量形式Ri (i=1、2、3、4、5、6)。

通过训练样本,可以得到这些样本的特征向量,然后建立一个命名为Data的样本库,把这些特征向量存储在这个结构里;而用一个文件GraspRaw Data来临时存储对待识字符所提取的特征向量。系统启动后将使用Data结构文件。

三、最小距离分类匹配方法

将用户输入的特征向量与库文件中字母的特征向量进行比较,得到用户输入的字符与字符库中字母的相似程度以及特征向量之间的距离,由此确定用户的输入。而库文件中的字母的特征向量也就是模板,因此在识别前要通过学习建立模板,方法是收集各类样本,用各类样本特征向量的平均向量作为各类代表模式的特征向量。

四、识别阶段的实现

本系统识别的基本步骤如下:1)建立输入样本的输入模板。2)计算输入样本与所有模板库中所有字符之间的相似度。3)依据相似度最高的两种样本类型的相似度大小决定识别或拒识。

五、结论

维文手写体识别目前还没有成功的先例,该研究正处于理论研究和模拟实验阶段。本文对于维吾尔文字符独立形式的识别,基本能够达到大于90%的识别率。

参考文献

[1]邓丽华, 崔志强.手写体数字识别系统中一种新的特征提取方案[J].湖州师范学院学报, 2005.

上一篇:小叶子的艺术课论文下一篇:妊娠合并卵巢囊肿