数字化识别(精选9篇)
数字化识别 篇1
在档案数字化中,件符识别是模式分类的一次成功应用。当取消了“条码”这个可以唯一标识档案具体内容的信息,采用仅起分隔作用的通用“件符”后,就相当于失去了当前扫描的内容信息,而只能告诉计算机上一件在哪里结束、下一件在哪里开始。因为“件符”就本身而言,并不包含具体内容信息,仅起到分隔“件”与“件”的作用。所以基于以上分析,“件符”可以制作成统一的样式,抑或采用文字信息。在此,笔者对件符识别的应用分节进行细致地分析,以期推进档案数字化工作进程。
一、扫描预处理
该阶段为档案数字化加工流程的第一步,所需要完成的任务就是确保人工实现扫描的文件顺序和计算机处理文件顺序的完全对应。此时分为两个具体的工作阶段:一是在整理好的文件中插入件符作为分隔符,同时启动件符识别程序,在数据库中选择所需要的具体的数据表,其对应的具体文件信息将会同步在右边数据库栏目显示框中列出;检查文件是否为需要处理的内容,如果吻合,则按照将要扫描的文件顺序选择出数据库中相应的文件,列入最右边的扫描列表栏中。二是指定扫描程序的启动路径,启动扫描程序后,将文件整体进行扫描,然后保存到指定的文件夹中,便于后续识别原文。事实上,扫描预处理阶段与原来使用条码技术的档案信息录入阶段是类似的。条码阶段录入的条码信息和内容信息在一条记录中,使计算机在读取条码时能够直接查询到相应的信息;而在件符识别阶段,当计算机按顺序处理一系列文件时,相应内容信息就是预处理阶段选择的按顺序排列的信息。
二、识别原文
该阶段是扫描过程结束后紧接后续的业务流程。本系统采用第三方OCR软件“尚书”来实现原文的自动识别,将前一阶段扫描的所有文件的具体内容识别出来以后保存到相同的目录下,同时以.txt文件形式存储图片对应的文字信息。识别原文的OCR技术已经相当成熟,因为大部分档案文件都是印刷体的汉字,少数是手写体文字或者外文字符。汉字的具体样式是海量的,这也就意味着识别汉字将面临着更大的挑战。印刷体汉字识别中的关键问题是特征提取问题。与其他模式识别不同的是,我们可以准确地知道哪些特征能够将不同的汉字区别开来。但是,由于在汉字图像处理过程中的困难,使我们无法得到所需要的特征。因此,就要研究哪些特征比较具有分类价值,同时又比较容易通过计算得到。在寻找汉字特征时,还要考虑特征对字体的不同、汉字大小的不同以及噪声的影响等因素的不敏感性。在印刷体汉字识别中,常见的特征有复杂指数、四边码、粗外围特征、粗网格特征、笔画密度特征、汉字特征点、包含配选法、基于小笔段特征的层次结构等。事实上,汉字识别的过程是一个神经网络训练的过程,首先提供样本集,假设次模式识别的二分方式为遇到档案文件iD系统则输出0、遇到件符文件iS系统则输入1,将此神经网络进行训练后,得到一组初值权值向量空间,然后用测试数据对此档案原文整体进行集体测试。但是测试结果并不能达到理想的要求,其原因是档案文件印刷体千差万别,而件符的所有模式却完全相同,在无数次的训练过程中,必然会由于噪声等问题导致某种不精确性发生,如果完全定义输出0表示档案、输出1表示件符,这种精确的分类将会导致错误的发生。于是笔者提出,在识别过程中引入变精度粗糙集的方法,且允许一定的误差率,不需要以100%的概率将所有的信息完全归类,经过仿真测试后得出结论,此方法能够更好地实现泛化性能最小化,从有限的样本集合得到分布意义下的最优。于是,OCR系统就能对扫描的图像进行识别,当遇到档案信息文件时,系统就按照档案文件的方式,将当前页面识别出来,并且设置其为档案信息;当系统遇到件符页面时,系统就自动识别出上一份档案信息已经结束,并建立下一份档案文件的相关信息。于是,通过此方法,自动实现了模式两分开,即将档案信息和件符信息成功地分开,便于后续集丛和上载。
三、档案系统按件自动分类集丛
集丛阶段是在扫描以后完成的,当识别出所有档案和件符的文字信息以后,所有的文件统一存放在一个文件夹中,没有层次,并由计算机自动分类。当计算机通过识别技术得到当前文件是件符后,将会在用户指定的目录中创建一个文件夹,然后将后续的所有图片信息和识别的文字信息全部拷贝到该文件夹中,实现一个“件”里面所有文件的集丛,并且严格按照顺序进行。到此阶段,实现了档案信息真正意义上的数字化,并且以“件”为单位进行了分类集丛。
四、检验集丛
因分类阶段不能保证计算机和人工处理的过程中会出现遗漏或者疏忽,所以需要校验阶段来保证。校验阶段可以简单地划分为两个过程。第一,从集丛的文件目录中选择所需要校验的文件。第二,逐个对照扫描的原始文件信息进行校验,点击左边的文件信息,右边将其对应的图像信息显示出来。如果没有问题,则可以结束校验过程,直接进入下一步进行上载操作;如果发现校验有误,则系统回滚到初始扫描阶段,删除集丛的所有文件和文件夹以及上载信息内容,扫描人员再次对刚才的错误原因进行分析,系统回复到扫描预处理阶段。
五、批量上载
批量上载过程需要上载三份数据表,并且要把文件保存到指定的目录中。第一份上载的数据表是is_files,包括图片ID、所属“件”、记录号、页面号等图片存放于每一张页面的详细信息,有些信息要在上载时来具体设置。第二份上载的数据表是up,此表记录了上载的图片ID、所属“件”、具体识别的内容等,识别的内容字段的具体信息是海量检索的依据。第三份上载的是整个扫描的文件。通过读取数据库中is_oslist表的os_type字段,默认1为本地存储、2为网络存储、3为ftp存储,这样读出了信息以后就可以将文件上载到指定的目录中。本地存储直接用拷贝命令,网络存储需要建立Web通信协议,ftp存储则需要建立ftp通信协议。
数字化识别 篇2
光变油墨的变色效果来自于它含有一种重要的添加材料,这是一种微小、多层、透明的光学薄膜,加入油墨中犹如成千上万个镜面,随着反射光角度的不同,使油墨的颜色发生变化。当使用这种油墨印制图文时,从不同角度观察,会呈现出不同的颜色,但需要印刷品上的墨迹堆积比较厚时,变色效果才会比较显著。第五套人民币在100元和50元券面上应用光变油墨、凹版印刷印制面额数字,具有较高的防伪性能和突出的视觉效果。
观察方式:第五套人民币100元和50元正面左下角的面额数字“100”和“50”是使用光变油墨印制的。垂直观察票面,“100”呈现绿色,“50”呈现金色;当倾斜票面观察时,“100”变为蓝色,“50”变为绿色。
中国油墨交易网
数字出版项目风险识别与控制 篇3
【关键词】数字出版项目;风险识别;风险因素;应对策略
【作者单位】张旭东,吉林白城师范学院。
随着大数据以及云技术的快速发展,许多跨领域、多功能的数字出版项目不断出现。这些项目的开发周期长、技术难度大、资金投入多,面临很多不确定性,在需求、技术、质量、管理等方面会遇到很多风险[1]。因此,我们需要针对数字出版项目风险的特征,使用科学的方法对其进行识别和分析,从而采取相应策略,实施主动项目风险管理,顺利实现项目目标。
一、数字出版项目风险概念及特征
1.数字出版项目风险概念
风险是某些不确定性以及由其可能引起的偏离预定目标的不良后果的综合[2]。若用R表示风险,P表示不确定事件发生的概率,E表示不确定事件发生的后果,则风险可用公式表示: 。数字出版项目风险是指在数字出版项目实施过程中,由于某些不确定事件的发生导致项目偏离预定目标,最终造成损失的风险。数字出版项目风险是与项目过程有关的风险,不同阶段、不同时点的风险是不同的。因此,数字出版项目风险与风险事件的不确定性P、不确定事件发生的后果E以及时间 t 相关,其函数关系为: 。
风险的本质是指构成风险的特征,即影响风险产生、存在和发展的因素,一般可将其归纳为风险因素、风险事件和风险损失。数字出版项目的风险因素是影响项目偏离预定目标的情况,是造成损失的内在或间接原因,可以分为有形风险因素和无形风险因素。数字出版项目的有形风险因素是指影响项目实施过程和成果的物质性因素,如设备设施的可靠性、销售平台的安全性、知识产权保护的全面性等。数字出版项目的无形风险因素是指影响项目实施的组织文化、人际沟通和工作态度等非物质性的风险因素,如项目组成员的职业道德水平、项目组成员之间的沟通方式、项目组的组织文化等。数字出版项目的风险事件是造成项目偏离目标的偶发事件,是造成损失的外在或直接原因,它是风险因素到风险损失的中间环节。数字出版项目的风险损失是指由于项目偏离预定目标导致的非预期、非计划的经济价值的减少或消失。风险损失分为直接损失和间接损失,前者指风险事件导致项目产生的经济效益与预计经济效益的差距,后者指风险事件导致的后续效应,包括额外的市场品牌价值、行业示范效应等方面的不利影响。
2.数字出版项目风险特征
根据对数字出版项目风险概念的分析,可总结出数字出版项目风险具有如下特征。
(1)客观性。在数字出版项目的实施过程中,项目风险是客观存在的,可以说是无处不在、无时不有的,不以人的意识为转移。数字出版项目涵盖数字内容管理、数字平台建设和数字产品交易,涉及跨媒体出版、数字传播和电子商务众多领域,其中的风险因素众多,只要达到风险事件发生的条件,风险就会发生,给数字出版项目带来一定的损失[3]。
(2)动态性。数字出版项目风险是与时间相关的多元函数,在项目的策划阶段、开发阶段、调试阶段、营销阶段和维护阶段等不同阶段,其所面临的风险是各不相同的。在数字出版项目的生命周期内,每一个阶段的风险都在发生着量和质的变化,且不同阶段的风险传导机制非常复杂,往往前一个阶段的风险刚得到控制,后一个阶段的风险又出现了。
(3)多样性。数字出版涉及内容、平台、渠道、技术和终端五大产业链,风险因素复杂而多变,致使数字出版项目在生命周期内面临的风险多种多样,如技术风险、组织风险、资金风险、文化风险、市场风险和法律风险等[4]。不同风险因素在特定的条件下会导致不同的风险事件,对数字出版项目的实施带来不同的影响机理和管理方式。
(4)偶然性与规律性。数字出版项目风险是许多不确定的风险因素相互作用的结果,是一种随机现象,因此个别风险事件的发生是偶然的、无规则的。但是,从总体来看,风险事件发生的概率和风险损失通过统计分析是有规律可循的。因此,通过对数字出版项目大量风险事件的统计分析,可以发现不确定因素演变的机理和不确定事件发生的规律,为更好地实施项目风险管理提供决策参考。
二、数字出版项目风险识别
要对数字出版项目进行风险管理,首先要找出风险,这就是风险识别[5]。风险识别是否正确与全面,是决定风险管理能否成功的关键因素。根据数字出版项目风险的概念和特征,本文从外部环境和内部组织两个方面分析数字出版项目的风险因素,识别数字出版项目风险。
1.外部环境风险分析
外部环境是指能够对项目绩效造成潜在影响的外部力量和因素。外部环境对数字出版项目的影响是复杂的、多方面的,且处于不断变化之中,因此外部环境是数字出版项目的风险源。一般而言,数字出版项目外部环境可以分为政策环境、市场环境以及法律环境。也就是说,我们可以从这三个方面来分析数字出版项目的外部環境风险因素。其中,政策风险因素包括数字出版项目目标是否符合国家文化(出版)产业发展方向,项目运作管理是否符合出版产业技术规范;市场风险因素包括数字出版项目定位、盈利模式是否合理,项目产品是否符合消费者心理需求,营销渠道是否对路,以及同类数字出版产品、替代出版产品的竞争情况;法律风险因素包括数字出版项目与内容资源的作者、原出版商是否存在版权纠纷,与相关技术合作商的合同关系是否明确。
2.内部组织风险分析
内部组织是数字出版项目实施的基础,主要包括组织结构、企业文化、人力资源、技术开发和资金保障等,因此,我们可以从组织、文化、人员、技术、资金五个方面来分析数字出版项目的内部组织风险因素。其中,组织风险因素包括项目组织结构是否合理、高效,绩效评估是否科学,激励机制是否能充分调动项目组成员的积极性;文化风险因素包括项目组是否具有团队协作精神,是否具有学习和创新的组织环境,是否能够容忍冲突和失败;人员风险因素包括项目负责人对项目运作的把控能力,技术人员队伍结构是否合理,营销人员对项目的理解是否到位;技术风险因素包括技术方案是否可行,技术水平是否代表当前数字出版方向,技术设备是否能够得到保障和支持;资金风险因素包括资金投入是否有保障,资金使用监管是否到位,以及资金运营效率如何。
nlc202309081509
综上所述,数字出版项目的风险因素如表1所列。
在对数字出版项目风险因素分析的基础上,我们运用概率统计的方法对某特定风险事件发生的概率和风险事件发生后造成的损失做定量分析,即可得到数字出版项目风险识别和评估的结果。当然,对于数字出版项目风险评估,我们也可以在数字出版项目风险因素分析的基础上,形成指标体系,使用德尔菲法或层次分析法计算各风险指标的权重,通过建立相关的计量模型得出风险等级。
三、数字出版项目风险应对策略
为了应对数字出版项目风险,我们可以根据风险识别和评估的结果,从消除风险因素、降低风险事件发生概率、减小风险事件后果(损失)等方面提出多种策略[6]。下面笔者以某出版企业数字出版项目“煤矿安全e本通”为例,介绍减轻、转移、接受和回避四种风险应对策略。
1.减轻风险
减轻风险是一种积极的风险管理策略,它通过各种技术和方法降低风险事件发生的概率,减小不良后果的影响程度。例如,“煤矿安全e本通”项目对已有的煤矿安全教育出版资源进行数字化整合,内容包括煤矿安全法律法规、煤矿安全基础、煤矿安全技能、煤矿安全管理、煤矿灾害防治五大系列。这其中必然涉及原有出版资源的著作权问题,因此项目组要严格进行版权管理,通过与相关作者、出版者签订版权协议等形式,降低著作权纠纷发生的可能性。
根据风险应对策略实施的不同阶段,减轻风险策略可以分为风险预防和损失抑制。风险预防是在风险发生前使用的风险控制方法,它强调在风险发生前消除或减少风险因素,降低损失发生的概率。这种方法基于对数字出版项目风险源的严密监控,通过对风险因素的准确识别和评估,采取合理的技术措施消除风险或降低风险等级程度。损失抑制是在风险发生时或风险发生后使用的风险控制方法,其目的在于减小风险事件发生后的损失程度。损失抑制策略主要用于风险事件发生时或发生后紧急情况的处置,以控制风险事件产生的不利后果。
2.转移风险
转移风险是将项目本身面临的风险转移给其他组织或个人去承担的风险管理策略。转移风险不是降低项目自身风险发生的可能性和不良后果的影响程度,而是通过使用相关协议,在某类风险事件发生时将其损失(或部分损失)转移到项目以外的第三方身上。例如,“煤矿安全e本通”项目在仿真视频制作、网络平台建设等方面的技术要求高、资金投入大,通过与相关企业合作,订制所需要的技术和产品,将这部分的技术风险转移至合作商,减少自身因技术开发不力而导致的损失。
就数字出版项目而言,转移风险的方式主要有转让、外包和保险等。转让就是通过买卖合同的方式将项目出售给其他单位,这样与项目相关的风险也随之转移。外包是指项目实施单位通过合同的方式从外部获取服务,从而将风险转移出去。这种风险转移方式是数字出版项目风险管理中最常使用的。保险转移是指通过订立保险合同,将风险转移给保险公司,一旦发生了预期风险并造成了损失,保险公司则必须在合同规定的责任范围之内进行经济赔偿。
3.接受风险
接受风险是指项目管理者在识别风险因素、评估风险等级的基础上,对各种可能的风险处理方式进行综合比较,权衡各种风险处理方式的利弊,从而将风险留在项目内部,由项目组自己承担风险事件所带来的损失(或部分损失)。主动接受风险必须有周密的计划和充分的准备,积极进行风险管控。例如,“煤矿安全e本通”项目组在获得江苏省文化产业引导资金资助后,制定专门的资金管理办法,明确资助经费的使用范围、支付标准和支付程序,将资助经费纳入单位会计核算体系,强化资金使用监管,积极管控资金风险。
采用接受风险策略意味着项目组以不变的方案和计划应对某一风险,或不能找到其他合适的风险应对策略。接受风险也是处理残余风险的一种管理策略。一般情况下,项目组可以采取接受风险的管理策略的情形是:对数字出版项目采取减轻风险的管理策略后,风险仍然存在,但风险事件发生的概率和不利后果造成的损失明显降低,风险水平在可接受的范围之内。此时风险事件造成的损失额度不大,不会影响项目实施的进度以及预期目标的实现,可以将损失列为项目的一种费用,如分摊列入经营成本、建立风险基金等。
4.回避风险
风险回避是指当某类风险事件发生的概率极大,且不良后果的影响程度非常严重,而又无更好的风险管理策略来应对时,主动放弃项目或变更项目目标与实施方案,从而降低损失发生的可能性和影响程度。这种策略从根本上放弃具有某类风险的项目,或从源头上改变项目预定目标以及相应的实施方案。例如,当前煤炭行业经济效益下滑,煤矿企业教育需求萎缩,“煤矿安全e本通”项目面临的营销风险巨大,项目组根据煤矿安全教育市场的需求状况和特点,主动调整之前的设计方案,降低产品价格,避免产品滞销。
回避风险是一种消极的风险应对策略。采用回避风险策略意味着彻底放弃原来的项目,可能失去相应的发展机会和经济收益,因此对其适用的范围和情形应该做全面的考虑。例如,放弃某一项目的方案,达到了规避某种风险的目的,但替代方案同样有新的风险,这时就要分析这两套方案的风险管理成本和项目产生的经济效益,从而决定是否对原方案采取回避风险策略。
2015年,新闻出版广电总局、财政部联合印发的《关于推动传统出版和新兴出版融合发展的指导意见》明确提出,切实推动传統出版和新兴出版在内容、渠道、平台、经营、管理等方面深度融合,而数字出版项目是出版企业推进新兴出版和传统出版融合发展的重要抓手[7]。在数字出版项目的实施过程中,存在各种不确定因素,充满极大的风险。通过对数字出版项目外部环境和内部组织的分析,明确数字出版项目风险源和风险因素,积极采取合理的风险应对策略,对数字出版项目顺利实施至关重要。当然,在数字出版项目风险管理中,如何确定各风险因素发生的概率以及风险事件的影响程度,是今后需要进一步研究的问题。
[1] 姜占锋,石雄. 数字出版项目如何控制风险[N].中国新闻出版报,2014-08-14.
[2] 郭波,龚时雨,谭云涛,等. 项目风险管理[M].北京:电子工业出版社,2008.
[3] 葛存山,张志林,黄效章. 数字出版运作模式研究[J].科技与出版,2008(9).
[4] 郭欣. 浅谈大学出版社数字出版项目的构建[J].科技与出版,2013(1).
[5] (俄)V. T. 阿雷莫夫,X. P. 塔拉索娃. 风险评价与管理[M].邢涛译.北京:对外经济贸易大学出版社,2012.
[6] 刘新立. 风险管理[J].北京:北京大学出版社,2014.
[7] 吴江文. 2014年数字出版产业研究综述[J].出版发行研究,2015(3).
数字化识别 篇4
关键词:数字化X射线探测,介质识别,能量谱
X射线穿透力强,射线源不用直接接触介质,在三相流体检测中,对相含率的测量提供了一种方法;在井下砂体识别的应用中, 使用X射线砂体识别技术为防砂治沙提供了一种评价依据。在石油生产开采领域,X射线的应用对提高其产油率,进行油井安全生产的检测具有十分重要的意义。
1 X射线介质识别
1.1 x射线介质识别原理
当X射线射入物体后,会与物质发生十分复杂的相互作用。X射线射入物体时,其光子将与物质发生相互作用,主要的作用是光电效应、康普顿效应、电子对效应和瑞利散射,由于这些作用使从物体透射的射线强度低于入射射线强度,这称为射线强度发生了衰减。
由于各种物体对x射线的吸收情况不同,各种元素所发出的X射线光子具有不同的特征能量,称为该元素的X特征射线。投射过物体后利用平板探测器接受衰减后的信号经过多道分析以及主控芯片的信息处理在上位机上显示出介质的量谱线从而进行物质的识别。其基本模型如图1所示。
1.2谱数据处理
X射线的探测是通过接收射线穿透物质后的强度来实现的,本文中使用的X射线探测器是由闪烁材料和光电转换器件组成的闪烁探测器,它将探测到的透射X射线转换成电压脉冲信号,信号的大小代表其强度大小,将此脉冲信号经过放大、滤波、峰值保持等预处理后,再使用STM32F103芯片对其进行脉冲幅度分析运算并与上位机进行通信,就可得到一条关于X射线透射强度的谱线。
由射线探测器得到的能谱脉冲信号经放大器和多道分析器, 进入微机系统。计算机通过软件对X射线能谱的常规数据进行处理, 从而对样品的含量做定性和定量分析。谱数据处理包括:原始谱数据的光滑;自动寻峰及确定峰位的能量:待测元素的定性分析:峰边界道的确定;峰面积计算等内容。
2上位机开发软件系统构成
软件系统是进行能谱分析实现物质元素定性、定量分析的基础,也是“X射线介质识别系统”的重要组成部分,本系统以Windows为工作平台,Microsoft Visual C++6.0为开发工具。
数字通信信号自动调制识别技术 篇5
1 数字通信信号调制技术
1.1 通信中的调制技术
调制就是指对原始信号进行频谱搬移, 使其能满足复杂信道中传输的要求。在通信信号传输系统中, 信号发送端发出的信号我们称之为原始电信号, 一般的原始电信号的频率都比较低的, 不能或者很难在信道中传输, 为了解决这个问题, 就要对原始电信号进行处理, 处理的结果就是使原始电信号的频率能满足信道传输的要求, 成为频带较为合适的信号, 经过处理的信号我们称之为已调信号, 它们不仅能在信道中传输, 且能携带一定的信息。通信信号调制技术对于通信信号的传输具有重要意义。通信信号调制的样式也将对整个通信系统信号传输的稳定性、可靠性和有效性产生严重影响。因此, 为了保证通信系统能正常、高效的工作, 应选用合适的信号调制技术。
1.2 数字调制样式
数字调制的样式有很多, 按照不同的分类标准可以将数字调制样式分成不同的类别, 本文中对数字调制样式的分类是依据载波信号参数的不同进行的。依据载波信号参数的不同可以将数字调制样式分成很多种, 本文主要介绍常用的几种数字调制样式, 分别为幅度键控 (ASK) 、相移键控 (PSK) 、频移键控 (FSK) 以及正交幅度调制 (QAM) 。
振幅键控是根据载波的振幅随数字基带的变化而进行信息传递的一种数字调制方式。目前使用较多的振幅键控调制方式为二进制振幅键控, 二进制振幅键控调制方式中会有两种载波幅度变化状态, 分别由二进制中的“0”和“1”对应。二进制振幅键控调制方式可以通过模拟振幅调制方法和数字键控方法二种方法来产生信号。多进制振幅键控调制方式与二进制振幅键控调制方式原理相同, 只是多进制振幅键控可以传输具有多种不同幅度值的载波。多进制振幅键控信号可以视为多个二进制振幅键控信号的累加;
频移键控是通过随数字基带信号变化的载波频率的变化来进行信息传输的。二进制频移键控中会有两个不同的载波信号频率, 分别由二进制中的“0”和“1”对应。二进制频移键控信号与二进制振幅键控信号之间具有相关性, 两个二进制振幅键控信号可以看作为一个二进制频移键控信号。二进制频移键控信号可以通过两种方式产生, 分别为模拟调频电路和键控法。模拟调频法具有实现方式简单的优势, 而键控法具有产生的信号频率稳定性高、信号转换速度快的优势;
相移键控通过随着数字基带信号的变化而变化的载波相位的变化来进行信息传输的。根据相位变化方式的不同, 相移键控可以分为绝对相位键控和相对相位键控两种方式。二进制相移键控有0和π两种载波相位状态, 分别由二进制信息中的“0”和“1”对应。二进制相移键控产生信号的方式有两种, 分别为模拟调制法和键控法;
正交振幅调制通过振幅和相位的联合变化来传输信号的, 正交振幅调制也有两个载波, 但这两个载波不仅是同频率的还是正交的。正交振幅调制的原理是通过两路相互独立的基带信号完成对两个正交载波的调控。
2 数字信号调制识别技术的类型
2.1 基于决策理论的数字信号调制识别技术
基于决策理论的数字信号调制识别技术就是指利用决策理论的调制算法进行信号调制。目前, 这种数字信号调制识别技术已经逐渐成熟, 在通信系统中使用的频率较高。使用这种信号调制识别技术第一步就是要根据接收到信号的瞬时特征进行特征参数构造, 再选取合适的判别方法, 将构造的特征参数和门限值作比对, 以此来完成信号调制样式的识别工作。在使用这种调控识别技术时还会遇到一些问题, 这些问题的存在可能会影响信号传输的质量。常见的问题有非弱信号段判决门限的选取和确定特征参数的门限值的选取。如何解决这两个问题成为人们关注的重点。
2.2 基于高阶累积量的数字信号调制识别技术
最早使用信号调制识别技术都是以二阶统计量为基础的进行的, 但随着科学技术的发展以及信号传输要求的提升, 人们逐渐发现以二阶统计量作为信号调制识别的基础是有很大的局限性的, 在这种背景下, 以高阶累积量作为分析工具的通信信号调制识别技术应运而生。这种调制识别技术克服了二阶统计量的缺点, 具有更为广阔的应用前景, 现在已经成为通信领域中较为常用的一种信号调制识别技术。
2.3 基于人工神经网络的数字信号调制识别技术
基于人工神经网络的数字信号调制识别技术是在以决策理论为依据的信号调制识别技术的基础上发展起来的。基于决策理论的调制识别技术是一种传统的信号调制识别方法, 随着科学技术的不断发展, 这种技术愈加成熟, 但在实际的使用过程中却发现它具有一定的缺陷性。针对这种情况, 专家提出了基于人工神经网络的数字信号调制识别技术, 这种技术具有自动选取参数的判决门限的优势。
3 总结
总之, 随着现代科学技术的不断发展以及信号传输环境的不断变化, 进行数字通信信号自动调制识别技术的研究具有很强的应用价值。现阶段, 数字通信信号自动调制识别技术的发展取得了有效的成果, 但还存在一些问题没有解决, 专家学者应投入更多的时间和精力进行相关方向的研究。
参考文献
[1]李少凯, 董斌, 刘宁等.基于谱线特征的MPSK调制识别[J].通信技术, 2010, 43 (8) :127-128, 131.
一种数码显示数字识别算法 篇6
1识别框架
本系统中奶牛奶量的产量会在LED显示屏上显示4个数字。故本文所采集图像虽然一开始不知道该图片中是否包含有数字,但是每幅正确采集得到的图像中应该包含4个LED数字。所以在识别数字之前要对图片中是否有数字以及数字的个数进行判断。通过对图像二值化、轮廓提取,定位外接矩形来判断图片中是否包含数字以及每幅图像包含数字的个数。最后用最近邻法判断测试样本,并且对每个识别出来的数字的置信度进行评估,满足条件的才能认为是准确识别的,输出结果,否则对该数字重新处理。
2识别算法设计
2.1图像二值化
首先对拍摄到的图像进行二值化,形态学操作,达到消除噪声的目的,使数字的识别更加精确。
大津法[7](OTSU)是一种确定图像二值化分割阈值的算法,由日本学者大津于1979年提出。从大津法的原理上来讲,该方法又称作最大类间方差法,因为按照大津法求得的阈值进行图像二值化分割后,前景与背景图像的类间方差最大。
对于图像I(x,y),前景(即目标)和背景的分割阈值记作T ,属于前景的像素点数占整幅图像的比例记为ω0,其平均灰度μ0;背景像素点数占整幅图像的比例为ω0,其平均灰度为μ1。图像的总平均灰度记为μ,类间方差记为g。
假设图像的背景较暗,并且图像的大小为M*N ,图像中像素的灰度值小于阈值T的像素个数记作N0,像素灰度大于阈值T的像素个数记作N1,则有:
其中g就是类间方差。
采用遍历的方法得到使类间方差最大的阈值即为所求。
如下图所示,经过二值化后的图像是比较清晰的。我们可以很方便的从图片中截取有数字的区域作为感兴趣区(ROI,RegionOfInterest),减少之后对图片处理的运算量。
如图3所示,ROI区域就是指有包含数字字符的区域。在后续的识别过程中只需要对上述4个字符单独识别即可。
2.3轮廓获取[8]
在拍摄过程中的存在各种干扰,导致在图像中引入很多噪声。
1) 数字模糊问题
如下图所示,可以看到如下的数字是“1394”,但是由于外在因素导致“9”,“4”这两个数字有些模糊,直接对轮廓的提取,得到的外接矩形效果如图,我们可以看到数字“4”有部分缺失,导致在轮廓的提取中被分割成了3个独立的部分。这样会导致在后续的处理中将数字“4”当作3个独立的数字处理。这样在最后的识别过程中就会得不到正确的结果。
2) 数字遮挡问题
如下图所示,可以知道如下的数字是“1320”。但是由于部分的遮挡,导致数字“3”部分的缺失,最后数字“3”提取的外接矩形比人眼识别的得到的外接矩形小。之后对每一个数字的外接矩形进行标准化引入很大的干扰,使得识别的数字准确率大大降低。
3) 数字粘连问题
如下图所示,“1320”本来应该是两个数字,但是由于在拍摄中一些不确定因素的影响,导致在经过二值化后粘连在一起,对轮廓提取中认为是同一个数字,定位的外接矩形只有3个。如果直接对该数字进行识别,那么只能识别出3个数字。
因为对数字的识别是一组4个数字同时进行识别,只有四个数字完全识别正确,才认为最后的识别结果是正确的。所以上述的3个问题会直接导致我们在对数字识别错误。必须采取一系列的措施对外接矩形的重新定位。
考虑到本文所采集得到的图像在缩放方面的影响因素比较小,可以采用事先对每个数字的外接矩形进行标定,之后通过如下算法对外接矩形进行精确的定位。
1) 通过判断每个数字的外接矩形的横轴中心位置,可以知道如果两个矩形的是同一个矩形,则满足
其中rect1、rect2是图5中的外接矩形,DEFAULT_WIDTH为一个常量,该文实验时设置成30。通过上面的公式,可以将解决上述中的问题1。对图5修正后,效果如下图所示:
2) 在解决问题1之后,如果存在某个外接矩形的高度偏低,说明该数字的外接矩形是有错误的。事实上,我们人眼在识别的时候也是通过其他数字的位置来判断部分遮挡数字的外接矩形的位置的,所以可以通过模拟人眼的判断过程,统计其他3个数字的外接矩形的纵轴中心线后取平均值avg_height。设阈值为threshold,如果则对外接矩形rect1进行修正。在本文中取threshold=20。对于图7修正后的效果如下:
3) 问题3,通过对DEFAULT_WIDTH的判断可以很容易的对该外接矩形进行分割,对于图9处理后的效果如下
通过上面的组图,可以看到通过上述的处理,可以得到比较理想的外接矩形。
下面是对外接矩形修正和没有修正,对外接矩形个数(即是数字个数)识别的正确率的对比如下:
由上表1,可以知道经过处理后,外接矩形的定位的正确率大大的提高。导致轮廓没有准确提取的原因如有些LED数字没有显示,或者有些LED数字只有1段显示,导致在对有效轮廓的判断是被忽略掉。
采用上述方法对轮廓提取、外接矩形定位后使得后续中对数字的识别的准确度大大提高。
2.3改进的最近邻算法
近邻法是根据样本提供的信息,绕开概率的估计而直接决策的方法,是一种非参数决策方法。直接使用该方法会导致对识别结果的置信度不能确定,不能估计该数字识别正确的概率有多大。
改进后的最近邻算法如下:
1) 对处理过的图像采用传统KNN识别,并对K(本文中K = 21) 个“邻居”中每个可能的结果的置信度进行计算。计算公式如下:
2) 对得到的置信度进行评估,只有满足以下条件的置信度大于一定的阈值threshold(本文中取threshold = 80)认为该数字的识别结果是正确的,输出结果。
3) 如果置信度不满足要求,将此时识别的结果和该结果对应的置信度保存在数组possible_array中。并对该数字字符重新细化处理,可以通过膨胀或腐蚀的方式,使得轮廓变得更加清晰,之后转到步骤1。
4) 经过上述的一系列处理之后仍然得不到满足条件的置信度,此时我们可以查看possible_array数组,取置信度最高对应的数字作为最终识别的结果。这样可以保证该数字的识别结果的置信度最高。
下面举例说明。如图13所示:
对于图12的“邻居”的分布如下表所示。
在上表2,对图13中左图的“邻居”进行分析,发现该结果一直在数字“0”和数字“8”中摇摆不定。如果我们仅仅是通过一次二值化的结果对数字的结果进行识别,会导致识别的结果是“8”。事实上,我们通过分析它的“邻居”可以知道数字“0”的置信度是47.62%,数字“8”的置信度是52.38%,这两个置信度是非常接近的,所以此时不能仅仅通过“邻居”的个数而妄下定论。对图12左图进行腐蚀,我们可以得到图12右图。对图12右图再次进行识别,我们可以明显发现,数字“0”的置信度是80.95%,数字“8”的置信度是19.05%,在此时就有更大把握认为该数字是“0”,而不是数字“8”,提高识别的准确率。通过该方法就得到识别结果就是“0”,为正确结果。
以下是对256幅图像进行测试得到的结果。
3总结
一种组合的脱机数字识别方法 篇7
数字识别是一个经典的模式识别问题, 具有很重大应用价值和理论研究价值, 而作为全球通用的阿拉伯数字, 无论在邮政, 银行还是超市条码, IC磁卡中都有着广泛的应用。现在应用于数字识别的方法主要有[1]-[3]基于统计方法的如网格特征, 投影特征, 边缘特征以及方向线素特征等的方法, 但是它们由于是全局的统计特征, 往往对字形的结构描述不足;基于模板匹配的方法, 但是这种方法往往运行速度比较慢, 实际应用比较费时间;基于各类变化系数特征的, 如K_L展开, Fourier变换, Walsh变换, 场变幻, Zernike变换矩以及小波变换等[1,4]。针对正常书写的数字 (形如图2) , 本文提出结合数字统计特征与结构特征的组合判别方法, 实验显示该方法对于不同的数字有较好地区分力。
二、正文
1. 图像预处理
图像预处理的目的是为了更好地把握数字的结构特征, 首先将数字图像自动阈值分割, 归一化, 考虑到数字的长宽比例, 把数字图像归一化为大小 (这里按照数字的上下高度以及左右宽度来定位) , 细化处理 (预设为连续的数字, 如果不连续的可以进行几次膨胀后在细化一次) , 则这时候的图像变为单像素的。下面是几幅预处理之后的数字图像
令其中f (x, y) 表示图像在 (x, y) 点的灰度值, 因处理后的数字线条为单像素, 所以灰度值为1的像素个数就表示了数字的长度 (以像素为单位) 。
2. 不变矩及数字特征参量的引入及修正
2.1一般矩
在数字图像处理中, 由于图像使离散的, 引入离散形式的图像f (x, y) 的m+n阶矩[5]
实际应用中需要把矩归一化, 以满足尺度, 平移和旋转不变性, 因本文仅针对图2四所示数字, 故采用的是修正的二阶和三阶矩, 修正后的矩有如下定义
注意此处把中心矩修正为绝对值.
2.2极半径不变矩[2]
曹等人[2]证明了归一化极半径不变矩的平移, 旋转以及尺度不变性。同样的, 由于预处理后图像的特点以及区分数字的需要, 将离散的极半径中心矩加以修正为
其中L为边界周长, 很容易看出, 修正后的中心矩依然满足平移, 旋转, 尺度不变性。
2.3数字特征参量的选取
为了更好的区分数字, 本文根据归一化后各个数字的形状特点, 提出 (3) (4) 两个参量作为辅助判别的手段。
其中L为数字的长度, w, h为图像的宽度和高度
比较容易看出e1具有平移, 旋转不变性, 当图像放大或者缩小m×n倍时, 即w伸缩m倍, h伸缩n倍, 则相应的数字曲线也会在水平和垂直方向上分别伸缩m和n倍, 所以比例e1满足尺度不变性。
其中Lup, Llow分别为同一个数字上半部分和下半部分的曲线长度, 由于本文中的数字图像大小已经规定化, 为了计算方便, 取L为一个特征参变量,
3. 分类判别
本文对模板库中的10×20个0到9的数字进行了训练, 在统计各个数字的两种矩的基础上, 结合各数字的形状参数特点, 给出了利用如下5个参数的逐层递进的判别方法。
统计各个参数的均值u和方差a, 根据正态分布知识, 数字参量落在 (u-3a, u+3a) 内的概率占了99%以上, 故在实验画图时认为参数值都落在其相应的这个范围内, 比较发现这几个参量有交叉互补性, 能较好的区分0到9这十个的数字。
3.1几种参量下的数字分布图
注:以上图只是表示了水平方向上数字参数的分布范围, 在竖直方向上没有意义。
3.2逐层递进的数字识别算法
(1) .先按照长度信息分类, 从图1 (1) 首先由长度信息分出0, 8和1, 7, 结合图1 (3) 二阶极半径不变矩区分出8和0, 而1和7上下长度比例是一个很好的区分量, 且7的长度一定大于33;从图1 (2) 可以把6, 4, 9和2, 3, 5分开, 再结合二阶一般不变矩和二阶极半径不变矩特点和图1 (1) 的长度信息便可以加以判断。具体代码如下: (mean23代表2, 3阶一般矩的平均, text为输出值)
三、实验结果分析
以样本库中另外的个随机 (与训练集不同) 的数字作为测试集, 图2是实验用的部分归一化大小的图像:
现用三方面的指标表征识别系统的性能:
正确识别率:A=正确识别样本数/全部样本数*100%
替代率 (误识率) :W=误识样本数/全部样本数*100%
拒识率:R=拒识样本数/全部样本数*100%
三者的关系是:A+W+R=100%
从表格1上看, 算法对于0, 1, 6, 8, 9的识别率较高, 但是2, 3, 4, 5的识别率不高尤其是5很容易判错为3或者2, 而且本文的训练集和测试集的数字个数也不够多, 这需要进一步改进。但是从所需要参数的个数和运算速度上来讲, 比较令人满意。
参考文献
[1]张宏林, Visual C++数字图像模式识别技术及工程实践[M], 人民邮电出版社。
[2]曹茂永等, 用于模式识别的极半径不变矩, 计算机学报[J], 2004.6 (27) :860-864。
[3]Yassin M.Y.Hasanand Lena J.Karam, Morphological Text Extractionfrom Images, IEEETransactionson Image Processing[J], Vol9.No.11, 2000。
[4]谢松法, 模式特征的提取与应用研究, 华中科技大学博士论文, 2007。
基于数字水印技术的造假图像识别 篇8
随着计算机图像处理技术的快速发展和互联网的不断普及, 使数字图像成为图像的主要形式, 发挥着不可替代的作用[1]。各种图像处理技术越来越便捷, 从而使图像造假也越来越多[2]。目前, 主流的图像造假识别方法多以人工为主, 按照人的常识和造假图像中与真实图像中的明显差异进行识别[3]。随着智能技术的不断发展, 智能化的造假图像识别方式也越来越多。造假图像识别方法主要包括基于DSP算法的造假图像识别方法、基于小波分解算法的造假图像识别方法和基于像素排斥算法的造假图像识别方法[4]。其中, 最常用的是基于像素排斥算法的造假图像识别方法。由于造假图像识别方法应用范围十分广泛, 因此受到了越来越多学者的重视。
如果造假图像中的造假区域比较小, 像素则不会发生大规模排斥, 造假区域与初始图像区域的像素融合度比较高[5]。传统的造假图像识别算法进行造假图像识别, 主要是通过像素之间的灰度变化差异和像素的排斥性完成图像真伪的判断, 如果造假区域很小, 像素的排斥性则不会很大, 传统算法无法避免造假区域与初始图像区域连接位置融合效果较好而造成的像素排斥不明显的缺陷, 降低了造假识别的准确率[6]。
为避免上述缺陷, 提出了一种基于数字水印技术的造假图像识别方法。建立数字水印数学模型, 将数字水印信号进行嵌入处理, 从而使其嵌入到图像中。从待识别图像中提取数字水印参数, 将嵌入数据与提取数据进行对比分析, 从而完成造假图像的识别。实验证明, 这种算法可以很好地识别造假图像, 取得了令人满意的效果。
1 造假图像识别原理
1.1 以像素排斥性为基础的造假图像识别
造假图像中的像素排斥情况, 是造假图像识别的基础。根据造假区域像素排斥情况, 能够进行造假图像识别。造假图像识别的步骤如下:
假设待识别图像的像素数目是n, 待识别区域的面积是P×P, 轮廓区域像素数目是l, 轮廓区域初始像素灰度均值是α, 疑似造假图像像素灰度均值是β, 利用式 (1) 能够计算疑似造假图像像素的融合参数:
ε值为正数或零, 通过式 (1) , 能够计算图像融合参数, 用来描述图像融合的情况:融合参数ε值越大, 表明造假区域面积越大;融合参数ε值越小, 表明造假区域面积越小。值得注意的是, 当α=β时, ε=0, ε值达到最小, 表明造假区域最小, 即图像无造假。通过ε值的计算, 可以定性的判断图像的造假情况。
第二步是计算融合参数较高区域的像素排斥系数, 以定量判断图像造假情况。通常我们利用排斥系数来表征图像的造假程度, 排斥系数较高的区域是最有可能造假的区域。图像的像素排斥系数定义, 如式 (2) 所示。
通过上式, 能够计算图像中一些像素衔接处的排斥系数, 用来描述图像像素不属于初始图像的像素的排斥情况, 以完成图像造假的判断。
设置像素排斥系数衡量标准是λ, λ为一经验值, 通常情况下设置为0.85, 这是正常256色图像中的像素排斥系数阀值标准, 利用式 (3) 判断该图像是否是造假图像:
通过上式, 能够判断该图像是否是造假图像。假设排斥系数大于或等于衡量标准, 判断该图像是造假图像, 需要报警。否则, 该图像不是造假图像。
1.2 传统造假图像识别方法缺陷
根据式 (1) 可知, 当造假区域面积越小时, 像素之间的融合参数ε越小, 与初始图像的融合参数区别很小。而造假区域的面积小到一定程度时, ε值将不会发生较大变化, 仍然保持较小值, 那么根据式 (2) 可知, 这将导致造假图像中像素排斥系数δ依然较小。由式 (3) 可得, 如果像素排斥系数δ较小, 达不到识别的阀值标准, 就将造成造假区域较小时, 造假图像无法被准确识别。为避免上述缺陷, 提出了一种基于数字水印技术的造假图像识别方法, 力图避免当造假区域面积较小时, 其与初始图像区域像素的融合参数ε较小、引起像素排斥系数δ较低、无法准确判断造假图像的缺陷, 提高了造假识别的准确率。
2 数字水印识别方法
造假图像识别, 是图像处理领域研究的核心问题。利用传统方法进行造假图像识别, 无法避免由于造假区域过小造成的像素排斥不明显的缺陷, 导致造假图像无法被准确识别。因此, 提出了一种基于数字水印技术的造假图像识别方法。
2.1 建立图像数字水印数学模型
在数字水印图像识别技术中, 设置一个图像中异常像素的数据模型, 模型中的数据集合设为: (N, J, X, L, H, Fn, Bu, E, Fy) 。其中, 相关参数如下所述:
N是全部数字水印参数n的数据集合。
J是初始图像的数据集合。
X是疑似水印信号x的数据集合。
L是数字水印密钥信息l的数据集合。
H是根据秘密数据n, 密钥信息l和初始图像J构成的数字水印图像造假识别函数, 函数表达式如式 (4) 所示:
Fn是将数字水印嵌入到初始图像J中的函数, 用式 (5) 进行描述:
其中, J是初始图像, J′是利用数字水印技术进行造假识别的图像, J′中通常情况下包含密钥信息。
Bu是造假图像, 用下述公式描述:
其中, L′是造假图像中的密钥,
Fy是数字水印提取的函数, 用式 (7) 进行描述:
E是数字水印检测函数, 可用式 (8) 表示:
其中, I1表示待识别图像中包含数字水印, I0表示待识别图像中不包含数字水印。
2.2 数字水印嵌入方法
在建立完数学模型后, 将数字水印模型中的各项参数嵌入到初始图像中, 计算的步骤可以用图1进行描述。
将数字水印信号X={x (l) }嵌入到初始图像J1={j0 (l) }中。通常情况下, 数字水印嵌入可以分为以下两种情况:1) 空域水印嵌入jx=j0 (l) +β×X (l) ;2) 变换域水印嵌入 jx=j0 (l) + (1+β×X (l) ) 。
其中, j0是图像像素时间域取值, β是数字水印强度。利用下述公式能够计算数字水印灰度参数, 用来描述数字水印的灰度取值:
通过上式获取数字水印的灰度取值, 从而得到图像中数字水印的灰度情况。利用式 (10) 计算数字水印嵌入参数, 用以描述数字水印的嵌入状态:
由此, 获取到了图像中数字水印的嵌入情况, 从而有利于数字水印相关信息的提取。
2.3 数字水印参数提取
在造假图像识别过程中, 需要将待识别图像的数字水印提取出, 为造假图像识别提供数据基础。其步骤如图2所示。
数字水印提取是指通过对待识别图像进行信息提取, 获取待识别图像上的数字水印参数。用式 (11) 将待识别图像进行分割处理, 分割为不同的子区域:
其中, (a, b) 是待识别图像中心位置空间坐标, n是待识别图像中全部像素数目。设置待识别图像的像素灰度变换区间, 用式 (12) 对该图像进行灰度变换处理, 获取待识别图像的水印参数:
对初始图像通过上式提取其数字水印参数, 从而获得上述图像的数字水印序列和密钥, 将二者进行对比分析, 能够实现数字水印图像的造假识别。通过上文所述方法, 即可建立数字水印数学模型, 将数字水印信号嵌入到初始图像中, 从待识别图像中提取相关水印信息, 通过对比完成造假图像的识别。
3 仿真结果
传统的算法在针对小区域造假图像的识别过程中, 存有缺陷, 识别准确性不高。为验证本文算法的效果, 进行了对比实验。对50幅造假图像进行识别鉴定, 图表的数量逐渐增加, 每幅图像中的造假区域大小不同, 每张图像相关参数设置如下:n=1 000, P=50, l=200, α=72, β=59。
随着造假图像数量的增加, 连续对准确识别的图片数量进行统计和标定, 在不同的算法下, 待识别图片数量和准确识别数量的分布, 如图3所示。
从图3中可以看出, 利用本文算法进行造假识别处理后, 能够准确识别造假图像的次数远远高于传统算法, 其原因是本文算法在造假区域比较小的情况下拥有一定的优越性。对实验中的相关数据进行记录, 能够得到表1和表2。其中, 表1是造假区域较大的情况下, 进行造假图像识别的相关参数, 表2是造假区域较小的情况下, 进行造假图像识别的相关参数。
在造假图像识别过程中, 通过对表1中的数据进行整理分析可知, 假设造假区域比较大, 那么造假区域和初始区域的融合效果较差, 利用本文算法进行造假图像准确识别的次数与传统算法基本一致。通过对表2中的数据进行整理分析能够得知, 假设造假区域的面积比较小, 那么造假区域与初始区域的融合效果比较好, 利用本文算法进行造假图像准确识别的次数远远高于传统算法。
4 结束语
论文提出了一种基于数字水印技术的造假图像识别方式。建立数字水印数学模型, 将数字水印信息嵌入到初始图像中, 从待识别图像中提取数字水印参数, 将嵌入数据与提取数据进行对比分析, 从而完成造假图像的识别。实验证明, 这种算法提高了造假图像识别的准确率, 特别是在造假区域较小时, 依然能够取得理想的识别效果。
参考文献
[1]李正, 倪远平, 刘迪, 等.实蝇图像识别中的形态特征提取研究[J].计算机仿真, 2011 (7) :254-257.
[2]陈梅, 刘峰.基于神经网络的纹理识别技术[J].贵州大学学报:自然科学版, 2003 (4) :152-158.
[3]李彩霞, 李芬华, 刘敏.基于分形和神经网络的B超图像识别[J].河北大学学报:自然科学版, 2004 (5) :95-99.
[4]朱颢东, 钟勇.结合粗集和神经网络的图像识别模型[J].计算机工程与应用, 2010 (3) :53-56.
[5]彭淑敏, 王军宁.基于神经网络的图像识别方法[J].电子科技, 2005 (1) :32-35.
基于投影特征的简谱数字识别方法 篇9
光学文字识别[1](Optical Character Recogniton,OCR)是模式识别学科的一个传统研究领域。在音乐界,相对应于光学文字识别,有一个重要分支———光学乐谱识别[2](Optical Music Recognition,OMR)。有了OMR技术,只需将纸质教材上的乐谱作一个清晰的扫描,由计算机进行演奏或者生成格式化的乐谱文件(MusicXML文件等),这无疑大大简化了录入乐谱的步骤,大幅提高了乐谱录入效率。
最为经典的OMR技术莫过于模板匹配法。该方法的基本思想是通过为每个待识别字符定义一个典型的标准模板,然后采用直方图法[3]、轮廓矩[4,5]、欧氏距离[6]、曼哈顿距离[7]等度量方法比较待识别的样本与标准模板,根据度量方法得出的相似度来决定样本与模板是否属于同一类别[8]。
由于标准模板的存在,常规模板匹配方法识别与数字模板数字字体一致时的识别率很高,但是它对噪声敏感,并且对数字的不同字体也不具有适应性,鲁棒性不强[9]———当数字的字体字形变化、识别图片的分辨率较低或噪点较多时,该方法的识别率下降。另外,由于常规模板匹配直接涉及到两个图像矩阵级别的运算,其计算量通常较大,时间开销较多[10]。
考虑到简谱中的数字识别规模较小,只有0~7八个数字,可通过分析简谱数字对噪声较为稳定的几何特征和水平或垂直投影特征,避开常规模板匹配法在鲁棒性上的劣势,应用一种改进的投影特征匹配法对简谱数字进行快速识别匹配,并给出具体的算法流程,分析了算法的时间复杂度。理论分析和实验结果表明,改进的投影特征匹配法与传统的模板匹配法相比,识别精度和速度有所提高,鲁棒性也更强。
1 算法原理
1.1 预处理
相机获取的信息多为32位真彩色信息,但乐谱只有黑白两色,人眼分辨乐谱不需要其它任何颜色信息。因此,在开始数字识别之前,可先采用加权平均值法转换三通道彩色乐谱到单通道灰度图,将彩色图像转换为8位灰度图,将图像的RGB三维信息转换为一维,可大幅度减小计算量,公式如下[11]:
上式中,红绿蓝三通道的权值是根据人眼对颜色的敏感度测定的,所以,运用式(1)可以得到较为理想的灰度图像。
为进一步减少计算量,还需要做二值化处理。将乐谱背景置为黑色(值为0),音符置为白色(值为255),在方便人眼观察的同时,可以为后续的图像处理技术带来操作上的便利。
式(2)直接采用阈值T对图像作全局阈值分割,变换为二值黑底白字图像。
1.2 投影特征匹配
由于待识别的目标结果只有0~7八种数字,采用水平投影法和垂直投影法[12]将图像从二维矩阵降维到一维向量以进行快速匹配。
设图像宽度和高度分别为w和h,现对其做水平投影,得到后的向量除以255 w,所得到的向量下标对应图片坐标系中的纵坐标,而指定下标的值对应某一像素水平方向所有非零(白色)像素占该图片宽度的百分比。同理再对其做垂直投影,得到后的向量除以255h,则所得到的向量下标对应图片坐标系中的横坐标,而指定下标的值对应某一像素垂直方向所有非零(白色)像素占该图片高度的百分比。其它数字依此类推,所有数字的水平、垂直投影向量如图1所示。
观察8个数字及其水平、垂直投影向量的特征,这一步需要选取相对比较稳定,即能够直接从图像上体现出的不怎么受噪声影响、鲁棒性较强的特征来区分它们。可利用大部分图像中都存在的接近于100%的峰值区间,它们的水平位置特征比较具有唯一性。具体区分方法如下:
图1 0~7八个数字的水平与垂直投影
(1)8个数字中,只有2和4的水平投影接近于100%的峰值区间存在于向量后半段(反映到图2中2的灰色部分),但2的垂直投影不存在接近于100%的峰值区间(反映到图2中不存在竖直基本全部贯穿图像的白色连通域),而4的垂直投影存在接近于100%的峰值区间且位置同样在向量后半段(反映到图2中4的灰色部分)。
(2)剩下的6个数字中,只有1、5、7的水平投影的接近于100%的峰值区间存在于向量前1/3段(反映到图3中的水平灰色矩形)。其中,1的垂直投影存在接近于100%的峰值区间且位置在向量后2/3段(反映到图3中1的竖直灰色矩形,该特征在6个数字中具有唯一性,可直接筛选出),5和7的垂直投影都不存在接近于100%的峰值区间(反映到图3中,5和7的图像不存在竖直基本全部贯穿图像的白色连通域),但5的垂直投影的局部峰值存在于向量的前1/3段和后1/3段,而7的垂直投影的局部峰值只存在于向量的中部附近(反映到图3中5和7的竖直灰色部分)。
(3)剩下3、6、0三个数字,可以通过比较其垂直投影在前半段的峰值与后半段的峰值差来筛选出3———一般对于0和6,前后峰值差超过10%,而3的前后峰值差则会小于10%(反映在图4中3图像的灰色部分)。最后可利用6的水平投影在前半段存在的跳变(反映在图4中6图像的灰色部分)区分出6和0。
图4 3、6、0的特征区分
进一步总结,上述3步也即是说,仅需要提取水平和垂直向量的峰值区间的位置作为特征,即可区分出0~7八个数字。
算法1投影特征匹配算法
输入:二值化后的矩形图片矩阵I。
输出:该符号的类型type(0~7为数字,-1为识别错误)。
Step 1:初始化type=-1,计算I的宽度w与高度h。
Step 2:对I作水平和垂直投影,得到水平投影向量lh和垂直投影向量lv,则其向量长度分别为h与w,并变换纵坐标到0~100%之间,如式(3)所示:
Step 3:遍历一遍水平与垂直投影向量,同时计算其最大值、平均值、最大值横坐标、垂直投影向量前半段峰值、垂直投影向量后半段峰值,设水平与垂直投影向量的最大值分别为Ylhm与Ylvm,平均值分别为最大值横坐标分别为Xlhm与Xlvm,垂直投影向量的前半段峰值与后半段峰值为Alvm与blvm。
Step 4:若Ylhm≥0.8,且且Ylvm≥0.8,且则type=4,转Step12。
Step 5:若Ylhm≥0.8,且则type=2,转Step12。
Step 6:若Ylhm≥0.8,且转Step7;否则转Step10。
Step 7:若Ylvm≥0.8,且则type=1,转Step12。
Step 8:若0.4≤Ylvm≤0.8,且则type=7,转Step12。
Step 9:type=5,转Step12。
Step 10:若Alvm-Blvm-0.10,则type=3,转Step12。
Step 11:重新遍历水平投影向量lh,取出使的连续区间长度l,若l≥0.05h,则type=6,转Step12;否则type=0,转Step12。
Step 12:算法结束,输出type值。
1.3 时间复杂度
设图像的宽和高分别为w与h,则Step 2中求水平投影与垂直投影向量并对其缩放各只需要遍历一遍图像,时间频度为T(w,h)=2 wh;Step 3中,只需各自遍历一遍水平和垂直投影向量即可计算出最大值横纵坐标、平均值以及前后半段的峰值,时间频度T(w,h)=w+h;Step 4~Step 10中,只用到了基本乘除运算和比较操作,时间频度为T(w,h)=C(常数);Step 11中,还需再遍历一遍水平投影向量,时间频度为T(w,h)=h。
综上所述,该算法的总时间频度为T(w,h)=2 wh+w+2h+C,时间复杂度为O(wh)。
2 实验结果与分析
为了比较传统模版匹配方法与投影特征匹配方法在识别精度、识别速度与识别鲁棒性上的区别,本文对《天空之城》和《铃儿响叮当》两首乐曲的简谱进行识别测试。两种方法采用相同算法预处理和提取简谱中的数字,只在匹配阶段,传统模板匹配采用欧氏距离作为度量方法,而投影特征匹配采用本文方法,其识别结果如表1、表2所示。
表1《铃儿响叮当》的识别结果
表2《天空之城》的识别结果
从以上识别结果可以看出,在识别精度方面,2种方法都可取得较为理想的识别准确率,但投影特征匹配法的精度要略高一些;在识别速度方面,投影特征匹配法虽然增加了提取特征的过程,但由于信息量减少,还是缩短了10%左右的识别时间;在识别鲁棒性方面,欧氏距离法受模板的影响明显较大,例如表2中识别2和表1中识别6时,由于图片所用简谱数字与模板稍有变化(数字的平移或字体的变换),带来识别精度的下降,而投影特征匹配法则由于比较的是数字的几何特征,而它反映了不同数字之间的根本区别,相对于数字整体而言,抗噪性大大增强。
3 结语
通过分析简谱数字的几何特征,提出了投影特征匹配法,即一种将图像从二维矩阵降维到一维向量的快速匹配方法。在给出具体的算法思想之后,计算了算法的时间复杂度,并用不同的实验结果证实了算法的识别精度、识别速度和鲁棒性都要优于传统的欧氏距离模板匹配法。而对于如何将数字识别扩展到字符甚至汉字的快速识别、如何进一步提高识别精度等,相关工作有待进一步展开。
摘要:简谱数字识别是光学乐谱识别中的一个重要分支,传统的识别方法是模板匹配,该方法计算量大,且对模板的依赖性很强,导致其鲁棒性较弱,对图像的噪声和位移敏感。考虑到简谱数字识别规模较小,通过分析数字对噪声较为稳定的几何特征,提出一种改进的投影特征匹配法对简谱数字进行快速识别匹配。理论分析和实验结果表明,改进的投影特征匹配法与传统的模板匹配法相比,识别精度和速度有所提高,鲁棒性也更强。
关键词:投影,数字识别,模板匹配,欧氏距离
参考文献
[1]姚超,卢朝阳,李静,等.用于手写文字识别的MQDF替代参数选择方法[J].华中科技大学学报:自然科学版,2014(12):65-69.
[2]何欢.光学乐谱识别技术研究[D].北京:北方工业大学,2011.
[3]李小伟.基于FPGA的灰度图像模板匹配并行处理研究[D].武汉:华中科技大学,2013.
[4]王慧.基于模板匹配的手写体字符识别算法研究[D].北京:北京交通大学,2012.
[5]孔金生,张小凤,王璇.基于轮廓特征的模板匹配方法及其应用[J].计算机工程与应用,2008(22):201-203.
[6]黄琛.基于Hausdorff距离模板匹配的行人检测算法研究与应用[D].北京:清华大学,2006.
[7]CHING Y SUEN,JINNA TAN.Analysis of errors of handwritten digits made by a multitude of classifiers[J].Pattern Recognition Letters archive,2005.
[8]G LOULOUDIS,B GATOS,I PRATIKAKIS,et al.Text line detection in handwritten documents[J].Pattern Recognition archive,2008,41(12):758-772.
[9]唐琎,李青.一种快速的模板匹配算法[J].计算机应用,2010(6):1559-1561,1564.
[10]邵平,杨路明,黄海滨,等.基于积分图像的快速模板匹配[J].计算机科学,2006(12):225-229.
[11]ALEX ZELINSKY.Learning OpenCV-computer vision with the OpenCV library[J].IEEE robotics and automation magazine,2009,16(3):100-110.
【数字化识别】推荐阅读:
数字图像识别09-19
数字调制识别11-25
数字识别特征提取05-28
印刷体数字识别05-12
数字表识别算法研究11-21
手写数字识别方法研究08-31
数字化教育与教育数字化08-29
数字技术数字电影06-30
数字化07-05
数字化移动07-16