类识别率

2024-10-02

类识别率(共8篇)

类识别率 篇1

新产品研究与发展是国有高新技术企业的基本业务活动。为贯彻落实中央《关于加强廉政风险防控指导意见》, 本文立足于研发业务实际, 借鉴内部控制理论和计划行为理论, 梳理廉洁风险内涵、分析岗位行为机理、建构和运用研发类岗位廉洁风险识别模型, 以期为国有高新技术企业风险防控工作提供科学基础。

一、相关动态简述

随着国企惩防体系建设的深化, 廉洁风险防控工作取得了以下进展:第一, 突出重点对象。把领导干部特别是掌握人事权、审批权、监督权等权力的领导干部作为重点对象, 同时加强对人、财、物管理等关键岗位的防控, 切实规范领导干部的用权行为。第二, 突出重点领域。抓好工程建设、土地出让、产权交易等腐败现象易发多发领域的廉洁风险防控工作, 以预防腐败工作的实际成效取信于民。第三, 突出重点环节。按照结构合理、配置科学、程序严密、制约有效的要求, 探索科学分解和配置权力的有效方法, 加强权力运行的制约和监督。比如, 政府投资项目要实行投资、建设、监管、使用分离, 重大、复杂、敏感的行权事项要实行集体决策等。第四, 突出重点任务。权力行使前着重查找廉洁风险点, 制定和落实风险防控措施;权力行使中着重进行实时动态监控, 及时发现各种苗头性、倾向性问题;权力行使后着重通过警示提醒、诫勉纠错和责令整改等手段, 及时纠正偏差和失误, 避免廉政风险演化为腐败行为。

查找国企运营中的廉洁风险是一项基础性工作。中国学术期刊网文献显示, 此项工作的主流方法是依据本机构实际出现的腐败事件, 分析、推论哪些业务、哪些环节、哪些岗位容易出错犯错、存在风险。其蕴含假设是, 过去出现的问题还可能再次出现, 如不重视、不控制, 会更严重、更泛滥。该假设存在明显缺陷, 使廉洁风险识别工作出现盲区、死角。因为, 没有出现问题的业务、环节不等于不存在问题, 只是没有暴露或者还不太严重而已;过去没有出问题不等于将来一定不会出问题。还有一种方法是, 从制度规范和岗位设置方面存在的不足或缺失出发, 排查廉洁风险, 其基础是内部控制理论。根据内部控制理论:没有健全的制度、完备的岗位配置, 就会引起不同程度的风险。但从CO-SO《内部控制整体框架》看, 不存在评价制度健全性、岗位配置完备性的标准。要评估制度是否健全、岗位配置是否完备, 必须结合具体业务特性和实际成效。因此, 查找廉洁风险时, 必须结合国企业务特性及实际数据对内部控制整体框架予以细化、深化。

二二、岗位廉洁风险识别的含义解析

廉洁风险是廉政风险的延伸。廉政风险指滥用公权、营私舞弊的可能性, 国企经营管理权也存在被滥用的可能。岗位廉洁风险则是国企职员利用某种职务或非职务权力谋取私利的可能。

根据中央《关于加强廉政风险防控的指导意见》, 识别岗位廉洁风险的基本方法是:重点查找由于权力过于集中、运行程序不规范和自由裁量幅度过大, 可能造成权力滥用的风险;查找由于规章制度不健全、监督制约机制不完善, 可能导致的权力失控的风险, 查找由于理想信念不坚定、工作作风不扎实和职业道德不牢固, 以及外部环境对正确行使权利的影响, 可能诱发行为失范风险。显然, 岗位廉洁风险识别工作包含三类变量:因变量是岗位廉洁风险, 自变量是岗位权力, 参变量是制度健全程度、监督完善程度、教育有效程度以及外部环境的影响力。岗位廉洁风险是上述自变量、参变量的函数。

借鉴社会网络的行动理论, 可将岗位权力定义为处置岗位有关事务的能力, 是职务权力和非职务权力的有机组成。职权通常是显性的、正式授予的、合法的, 包括选择权、评议权、决策权;非职务权力通常是隐性的、社会心理约定的、策略的, 包括有选择地了解情况、报告情况、传递信息、查找问题、落实要求, 有倾向地关切、表态、建议、提要求等。通常情况下, 职权与非职务权力相辅相成:职权高可能扩大非职务权力, 非职务权力强则可能提高职权。但也有例外:身处高位却未能有效处置岗位职责有关事务, 身为下属却能“左右”上级决策, 或者职级不高却能影响很多人。在“职位不高、非职务权力较大”的实例集合中存在一个共性问题:工作在信息链路的“桥接”部位, 能制造和利用信息不对称, 从而影响决策及执行监督。

岗位廉洁风险的四个参变量是与岗位权力密切关联的正式组织因素, 同时与国企业务特性及所处的发展阶段密切关联。一方面, 制度不健全包含岗位职权界定不全、不明、不准的问题, 监督不完善包含岗位权力行使得不到约束、控制的问题, 教育不够有效包含岗位工作者不理解、不尊重制度以及不配合监督、不严格自律的问题;另一方面, 制度建设、监督及教育工作都是基于企业业务特性建立的, 随着企业发展而不断健全、完善的。在创业期, 制度往往是不健全的、监督往往是不完善的、教育往往是缺乏力度的;到了成熟期, 制度经受了检验、修正和完善, 变得比较健全, 能规范权力行使过程、保障工作任务、增加组织价值、伸张公平正义, 监督和教育的资源配置得到改善、能力得到提升, 能把人的欲望转化为创造力、企业的发展动力。另外, 外部环境中的法制因素、文化因素以及社会网络因素对岗位权力影响各有不同。社会转型时期, 法制建设存在滞后性, 价值观出现一定混乱, 社会网络走向多元化, 这些与岗位权力相互作用, 极易引发拜金主义思潮、投机取巧乃至严重的私舞弊行为。历史经验证明, 对权力实现全方位的制约是正确用权、控制欲望膨胀、抵御舞弊腐败风险的关键。

三三、研发岗位廉洁风险识别三层次模型

马萨诸塞大学安姆斯特分校的教授Icek Ajzen经过长期研究和反复验证, 提出了关于人的行为机制的“计划行为理论”。该理论在社会学、管理学领域得到了广泛运用。根据该理论, 本文建立了岗位权力行使模型 (图略) 。

岗位行为发生的直接因素有三:环境触发因素、行为意图、与行为意图并行的控制因素。其中, 行为意图的产生受到行为态度、行为规范的约束。实际行为控制是实际行为发生时对行为力度、进程的实际控制力量, 包含自律意识、感觉到的制度约束、管理者约束及监督工作约束。以最严重的失范行为——受贿为例:某人面对行贿暗示 (触发因素) 时, 难免会产生占有欲 (本能性的态度) , 同时也会评估贿赂价值与自己为行贿人谋得利益是否相称 (内在的利益权衡规则) 、行贿人是否可靠 (利益冲突风险评估规则) 、违纪违规的程度及被发现被举报的可能 (规避风险的规则) , 然后综合自己处理利益冲突的经验、对党纪国法的认识、防范风险的技巧, 形成感觉到的控制风险能力, 最后再决定是否受贿、设计受贿的方式 (意图) 。当行贿行为发生时, 有受贿意图的人会进一步评估贿赂时机、场合、相关人员等因素是否在控制范围内, 然后决定是否继续、终止、暂停。

控制因素包括主观规范、制度规范和内部监督三类。主观规范是自我控制因素, 是 (家庭、学校、岗位) 教育和自身经验基础上生成的。制度规范是组织为保障有效运行而做出的明文规定, 包括治理性制度安排、程序性制度安排以及操作性标准, 界定了权力边界、职责范围、主要过程、行为方式、禁止事项、奖惩依据。广义的内部监督包括上级垂直监督、同事水平监督和内部机构监督, 所有这些监督都受相应的制度、规范约束。

本文在上述分析基础上, 建立了岗位廉洁风险识别模型 (图略) 。本模型有三个层次。核心是谋取私利的可能, 包括为自己及特定关系人谋取非常利益、权力、便利, 或者逃避惩处、规避公民义务等。但是谋取私利是“里”, 他人难以判断岗位任职者是否正在谋私利, 或者已经谋得私利。中间层是可能谋私利的风险行为特征。其一是违规操作, 指没有依规章用权, 包括不遵循规范或无规范可循。其二是信息泄露, 指有意、无意泄露单位及项目的商业及技术信息, 以及没有如实报告工作信息, 使他人或自己增加了寻租机会。其三是滥用职权, 指利用职务权力干扰或影响决策、执行、过程控制等工作, 直接谋取私利, 或为自己、特定关系人谋取私利创造条件。其四失职渎职, 指没有及时履行指导、审核、警示、纠正错误等职责, 以致延误工作、错失时机, 导致成本剧增、损失扩大、他人有机会谋取私利;或者不能审慎用权, 导致预算过松、计划过粗、寻租机会增加。

外层是岗位行为的直接环境因素, 包括治理结构、制度规范、教育与培训、监督工作。这些因素若存在缺失, 就是为岗位任职者谋取私利提供了条件。治理结构缺失一般指决定、执行、监督没有分离。岗位层次上, 主要指没有分设不相容职务, 没有建立责任追究机制;制度规范缺失一般指岗位职责不明、存在职责真空, 工作流程不健全、环节间存在断点或短板, 作业规范过粗、缺少可追溯性;教育培训缺失主要指管理制度宣贯有疏漏、职业道德教育薄弱、工作检查指导不及时、问题查处不严厉等, 或者说教育培训没有制度化、缺少针对性;上述缺失的存在具有必然性, 只是程度不同。因为研发业务的不确定性, 不可能有始终适宜而有效的制度规范体系;因为资源有限, 很难做到监督、教育、岗位制衡到位。发现、弥补、完善制度、教育、监督等工作, 是研发机构风险管理成熟度不断提高的主要标志。

4.研发岗位廉洁风险识别模型的初步应用

上述三层次模型在研究与发展业务领域得到初步应用和验证。

首先梳理研发项目管理流程, 确定“总体策划、任务确定、项目实施、项目关闭”五个基本环节。其中, 总体策划的主要结果为项目计划, 任务确定的主要结果是项目任务书或合同书, 项目实施的结果是设计、验证、试验报告, 项目关闭的结果是技术设施、资料和知识产权等。

然后梳理全流程、各环节的有关工作, 确定“召集、建议、指导、制定、审议、审核、审批、执行、监督、支持、拟定、参与、知情、备案”等14种行动角色行为。在上述二项工作基础上, 以岗位职权层级为依据, 将研发类岗位分为5组, 实行等距抽样;同时, 设计7类39题调查问卷, 调查各岗位关于廉洁风险的经验意见。问卷下发245份, 实际收回205份, 问卷调查的组织工作基本成功, 并取得多项共识: (1) 认为支持保障不到位、执行人力不足、上游或下游岗位任务与工作能力不匹配、岗位工作职责范围与流程不明确、职责权限界定不清、作业标准不明确等, 将会增加廉洁风险。 (2) 认为立项论证时征求外部专家意见、评审时提的意见不专业、项目预算存在不实成分等是违规操作风险的表征;私下探听或泄露项目预算与计划信息、打听合同谈判工作人员信息等是信息泄露风险的表征;检查指导工作不具体、不听下级建议与争辩、隐瞒实情等是失职渎职风险的表征;供应商调查中带有个人偏好、项目评审中带有主管意图是滥用职权风险的表征。 (3) 认为风险防控的难点主要是规章制度难以制约“决定权”、“知情权”, 难以监督“决定权”、“知情权”及“审核、审议权”, 而且, “决定权”、“执行权”、“审核权”容易被误用、滥用。 (4) 认为加强廉洁风险防控, 第一要健全、完善规章制度和流程, 实现权力制衡。这说明, “依制度办事、靠制度用权、按制度选人”已经成为广大干部职工的共识, 中央关于反腐倡廉制度体系建设的精神已落实到广大干部职工的思想中。第二要“落实各级领导对廉洁从业教育、警示、监督、控制工作的责任”。这说明, 各级领导都必须切实承担廉洁教育、指导、监督、控制职责, 这些职责要落实到制度规范中, 落实到科研外协管理各环节, 落实到所管理的各岗位员工;第三要“全面实行党员干部的廉洁承诺制, 提高廉洁风险防控意识”, “健全岗位配置、发挥同事间工作配合和相互监督作用”, “严格查处任何以权谋私行为、保持高压”;第四要“做好制度宣贯和执行检查工作”, “定期开展风险识别、评估工作, 促进制度建设、完善岗位配置、廉洁从业教育及监督工作”。

类识别率 篇2

关键词:中文信息处理 语义角色标注 句法成分标注 义类识别

一、引言

在信息处理中,若能让计算机对语义做出分析、判断、预测,让计算机能够识别和理解人类自然语言,这将是信息处理的一项重大举措,也是让计算机真正实现“智能化”的重要前提。其中,词语的语义识别是基础,也是信息抽取、机器翻译等应用领域的基础问题。本文的研究重点就是词语的语义识别。

在句法与语义对应关系的接口问题的研究上,我们认为是词汇语义在这条锁链中起着决定性作用,它决定着语义角色,进而影响到句法成分,部分研究也正是选用了从词汇语义到语义角色、句法成分的研究方向。结合阿普列相的语言整合描写理论,本文采取了与上述研究方向相反的逆向研究方向,以语义角色和句法成分为抓手,反推词汇语义,以期用于中文信息处理的新词语处理工作中。

二、本研究思路

词语组成句子,句子进而构成篇章,这是人类自然语言通常的构成层次,我们也可以据此将语义识别分为词语语义识别、句子语义识别和文本(篇章)语义识别。对于中文信息处理来说,对词语的识别是一系列后续工作的基础。目前,新词语的增长早已是一个不能忽视的事实,又加上汉语的博大精深,这些都无疑不给中文信息处理带来巨大的挑战。同时,阿普列相在他的语言整合描写理论中主张将词汇和语法这两个不同意义层面的概念结合起来,融为一体。综合以上三点,作者以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,结合当前新词语增长给中文信息处理带来重重困难的汉语真实现状,以期能够将研究成果用于新词语义类的推测研究,来帮助推进中文信息处理进一步实现“智能化”。

(一)语料库的建设

整个实验研究分析是以语料库为依托的,本文研究需要两个语料库,分别为《中小学语文课本标注语料库》和《义类倾向信息库》。下文将分别介绍这两个语料库的构建步骤和方法。

一、《中小学语文课本标注语料库》的建设

《中小学语文课本标注语料库》是以人民教育出版社的语文课本为基础,然后进行扩充形成的。我们选用其中全日制普通高级中学教科书部分为母库,语料总计约40万字左右。

我们将目标语料通过分词系统进行分词,并做词性标注,在一定的人工检查后进行语义角色和句法成分的标注。需要注意的是,在标注语义角色和句法成分时,是以语块为单位的,而并不是单个的词。在做句法成分的标注时,我们这里把语块分为主语语块(S)、谓语/述语语块(P)、宾语语块(O)、定语语块(A)、状语语块(D)、补语语块(C)、兼语语块(J)和独立语语块(T)。在做语义角色的标注时,我们选用以下几个语义角色:施事(S)、当事(D)、领事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、结果(R)、与事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依据(W)、原因(C)、目的(G)、时间(H)、处所(P)、数量(N)、基准(J)、杂类(U)。同时,还需要注意的是,我们虽然在同一句语料上同时标注句法成分和语义角色,但这两个工作是互相独立的,互不干扰。因为句法成分和语义角色是不同的两个概念,不在同一个层面上,语义角色是更深层次的概念,并且两者各有一套完整的标注标记,两者互不牵连。下面用例句来展示标注结果:

(1)[D在/p 20/m 世纪/n 的/u 百年/m 中/f]H ,/w [S中华/b 民族/n 的/u 命运/n]D [P发生/v]V 了/u [O历史性/b 的/u {转折/n}@ 和/c {巨变/n}@]K 。(《在庆祝北京大学建校一百周年大会上的讲话》)

(2)[D几乎/d [S所有/b 可/v 被/p 动物/n 用/v 来/v 发声/v 的/u 东西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《这个世界的音乐》)

(3)[D在/p 文学/n]E ,/w 无论/c [D{阅读/vn}@ 或/c {写作/vn}@]E ,/w [S我们/r]L [D必须/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 谨严/n]K 。/w(《咬文嚼字》)

二、《义类倾向信息库》的生成

我们在已有句法成分和语义角色标记的语料基础上,设计抽取程序,以语义角色和句法成分为经纬,两者两两组合形成抽取条件,在《中小学语文课本标注语料库》中抽取符合条件的所有中心词。由于我们在查询义类时是参照《同义词词林》的义类体系,所以我们在抽取时尽量保证中心词是一个词,而不是多个词或是短语。另外,为了实验结果的准确,在同一词语多次出现的情况下,会将其出现的频次计入统计结果,用于计算概率。按照《同义词词林》中的语义分类体系和符号体系给提取出的中心词打上相应的义类标记。同时,本文将抛弃单纯的新词语本身研究,在对提取出的中心词,特别是中心词是多义词的情况下进行义类标注的时候结合其所在上下文语境情况来帮助确定其语义类。

我们把经过上文操过的信息,包括提取出的中心词及其频次、义类,录入到EXCEL表格中,生成《义类标注信息库》,以用于后续的研究分析。

(二)词语语义类倾向研究

在以26个语义角色和8个句法成分两两组合作为提取中心词条件的框架下,我们对语料进行了穷尽式的排查和统计,由于实验所用的语料库覆盖面有限,有些语义角色和句法成分的组合在语料中并未出现,这种情况并不是说明在语言事实中绝对不会出现,但也可以据此推断,这些现象在实际的语言运用中大多出现的频率比较低,甚至是几乎不出现。

由于篇幅有限,我们仅以SS施事主语为例做统计结果的展示:

通过统计可知,处于SS施事主语位置的词语义类的分布情况,可得其优先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C时间与空间(39)>K助语(14)>H活动(9)>G心理活动(8)>I现象与状态(3)>J关联(2)>F动作(1),没有出现的是L敬语。其中A类所占比重远大于排在第二位的B类,是由于A类中包含指代人称的代词,像“你”“我”在语料中出现的频次非常多。

由于仅按照义类大类进行分析比较粗糙,为了细化信息颗粒度,得出更加深入、更精确的结果,我们将义类从大类细化到中类,可得优先度前五名不等式如下:Aa泛称(2310)>Ah亲人眷属(122)>Ba统称(116)>Al才识(55)>Af身份(51)。

通过上述操作,我们发现处在SS位置的词语义类中,Aa类出现的频次远大于处于第二位的Ah类,则SS施事主语位置的词语义类的显著性特征为Aa类。

我们依据这个思路,依次考察SO施事宾语、SD施事状语、SP施事述语、SJ施事兼语等位置的词语义类情况。发现以S为纲的几个不等式中,大类前几位保持一致,即A>B>D>C/E,而中类则保持Aa>Ba/Ah的序列。

按此思路继续考察以当事D为纲、以领事L为纲、以共事Y为纲、以受事O为纲等等不同语义角色与8个句法成分两两组合位置的词语义类情况,并得出符合各个条件的词语的显著性特征义类。

(三)新词语义类的倾向研究

我们选用《新词语大词典》,选取其中出现的新词语的例句作为检测词语义类倾向研究效果的测试语料。限于篇幅,我们还是以SS施事主语位置词语义类情况为例说明。

在我们选取的《新词语大词典》的新词语释义举例例句中,经过分词、语义角色和句法成分标注、提取中心词等一系列工作,统计出出现在SS施事主语位置的词语约有2851个,经过义类的标注,发现义类为Aa的约有2365个,占总数的约83%,符合我们在第二步工作中得出的实验结果,因而,此显著特征可作为中文信息处理在推测SS位置新词语义类的一个依据。

其他位置新词语的义类情况推测思路与做法与上述一致。

三、总结

本研究将词类、句法成分、语义角色结合起来,从句法成分和语义角色反推词汇意义,进一步丰富和完善汉语句法语义理论,为汉语句法语义理论研究提供了一种新的思考方式。同时,本研究是基于大型标注语料库得出的,可以基本反映汉语的真实状况。研究成果可用于新词语的词义识别,为中文信息处理的自动分析提供帮助,也可用于机器翻译、新词语词典的编纂以及信息检索等有新词语出现的地方,帮助机器更好地“理解”新词语,进而更准确地进行语义方面的处理,有助于推动中文信息处理的进一步发展,具有一定的实践意义。

本研究的创新之处在于在新词语的识别研究上着重在对其语义类的识别上。采取了在句法、语义接口方面研究时不同的研究方向,并将实验与中文信息处理有机结合。而不足之处在于本研究所采用的语料库取材有限,覆盖面有限,因而实验结果还有待完善。另外,由于本人专业知识有限,疏漏之处还请批评指正。

参考文献

[1] 于鑫.阿普列相及其语义理论[J].解放军外国语学院学报,2006(2):29.

[2] 周明海.核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2011.

[3] 秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].国家情报工作,2014(22):58.

[4]邹煜,李开拓.汉语新词语检测:检测的不只是语言——新词语监测与研究5年回顾[J].北华大学学报:社会科学版,2012(5):13.

[5] 杨辉.汉语新词语发现及其词性标注方法研究[D].上海:复旦大学,2008.

[6] 田震.非核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2014.

瓜类常见病害识别与防治 篇3

1 霜霉病

1.1 病症识别

发病初期从植株的下部叶片发生, 伴有水渍状的浅绿色斑点, 大病斑受叶脉限制而呈多角形。随着发病时间的延长, 病部颜色逐渐变为黄绿色或褐色, 在潮湿环境下, 叶背部还会出现白色菌丝, 以后逐渐变为褐色。

1.2 防冶方法

a.农业防治增施磷钾肥提高植株的抗病力, 合理密植增加通风透光。

b.药剂防治发病初期每公顷用90%疫霜灵1050~1500g或60%甲霜灵·代森锌 (又名瑞毒霉) 1500g对水1125kg喷施。

2 疫病

2.1 病症识别

发病初期病菌从茎基部侵入, 形成水渍状萎缩, 后期发生腐烂、断茎造成植株死亡, 在温暖天气发生较多。

2.2 防治方法

a.控制水分, 保持通风透气。

b.可用甲霜灵或托布津或多菌灵进行防治, 用量每公顷1125g对水1125kg喷洒。

3 枯萎病

3.1 病症识别

全生育期均有发生, 结瓜期最严重。在苗期子叶黄化, 顶叶萎垂, 根颈部黄褐色缢缩, 猝倒或立枯死亡。成株期下部叶片褪绿, 生长缓慢, 沿叶脉出现鲜黄色网状条斑, 黄叶自下而上发展, 午间有萎蔫现象, 但早晚可恢复。初期类似干旱, 后期全株枯死。有时病株部分枝蔓先枯萎, 病株茎基无光泽呈微黄白色, 或稍缢缩, 多纵裂, 溢出树枝状胶质物。湿度大时有粉红色霉状物, 主根或侧根呈黄褐色腐朽, 病蔓下部维管束褐色, 茎节部更明显。

3.2 防治方法

a.利用抗病砧木嫁接栽培。近年在西瓜、黄瓜上广泛采用, 防病效果良好。西瓜抗病砧木以超丰F1、葫芦、瓠瓜较好;黄瓜用黑籽南瓜。

b.种子消毒。瓜类种子可用50%多菌灵可湿性粉剂1000倍液浸种30~40min, 或福尔马林300倍液浸种30~60min, 洗净后催芽;种子干热处理可在70℃恒温处理3d。西瓜种子可用变温处理方法:冷水预浸5~6h, 转入45℃温水中15min, 再移入55℃热水中15min, 冷水冷却后催芽播种。

c.农业防治。 (1) 轮作和床土消毒。水旱轮作, 可与玉米轮作3~4年。苗床2~3年后更换新址, 或更换新土或进行消毒, 消毒时可选用敌克松、多菌灵30~45kg/hm2;也可用福尔马林50倍液淋浇, 覆盖塑料薄膜或草帘、麻袋等, 7d后翻土2次, 待药液挥发完后播种。 (2) 改善栽培技术。运用起垄、高畦地膜覆盖栽培。幼苗选用时注意选壮苗, 苗龄适中, 定植前蹲苗, 带土移栽, 或直播, 或营养钵育苗, 减少伤口。施足基肥, 以有机肥和饼肥为佳, 尤其要增施磷钾肥。低温期控水, 勤中耕, 降低湿度, 提高土温。完善灌排系统, 采用滴灌或微喷灌。开花结实期适当多浇水和追肥, 切忌追施硫酸铵和碳酸氢铵。

d.药剂防治。多菌灵可湿性粉剂1000倍液加15%三唑酮可湿性粉剂4000倍液, 每株淋药液0.4~0.5kg, 作为定根水施入栽植穴内, 或在发病前期或坐果初期施用, 每隔10~15d喷一次, 共喷2~3次, 预防发病。

4 蔓枯病

4.1 病症识别

多发生在成株期, 主要危害茎蔓和叶片, 发病株结果率低。茎蔓多在节部受害, 初期为梭形或椭圆形病斑, 后期扩展成大斑。病部有时会溢出琥珀色胶质物, 后期病部呈黄褐色干缩, 纵裂成乱麻状, 引起蔓枯, 其上散生小黑点。叶片发病, 多在边缘产生半圆形斑, 有时自叶缘向内呈“V”字形扩展, 淡黄色或黄褐色, 有隐约轮纹, 其上散生许多小黑点, 后期病斑易破裂。果实多在幼瓜期受害, 果肉淡褐色, 软化, 呈心腐。

4.2 防治方法

a.种子消毒。用种子量0.3%的50%福美双可湿性粉剂拌种。

b.农业防治。 (1) 实行2~3年轮作。 (2) 选择地势高、排水良好的地块。 (3) 在栽培技术上注意选择高畦种植, 施足基肥, 及时排水, 结果期及时追肥。

c.药剂防治。发病初期喷洒甲基硫菌灵、多菌灵、百菌清等, 每隔7~10d喷一次, 连喷2~3次。

5 绵腐病

绵腐病是瓜类采收期常见病害, 以黄瓜、节瓜、冬瓜发生居多, 葫芦瓜、南瓜、甜瓜等也有发生。

5.1 病症识别

主要为害成熟的瓜果, 多从近地面的部位发生, 染病的瓜果表皮先出现褪绿、渐变黄褐色不定形的病斑, 迅速扩大, 使瓜肉变黄变软, 出现腐烂。在腐烂部位会长出很茂密的白色绵毛, 散发出臭味。主要与瓜果成熟度及湿度有关。

5.2 防治方法

a.农业措施。高畦栽培, 及时排水, 降低湿度。爬蔓的瓜类要及时绑架, 提高结瓜位。地面结瓜的, 可及时吊瓜或垫瓜。及时采收, 防止腐烂。

基于聚类算法的内容识别研究 篇4

面向对象内容识别过程中以单词为单位的常规检索方式, 缺乏内容时间序列上的关联, 检索效果大打折扣, 尤其是对音视频、图片等非结构数据的内容识别, 效果非常差。而由于K-MEANS聚类算法在处理大数据环境下内容中的数据流方面存在着算法敏感, 以及内容识别效率和速度上的缺陷, 因此, 从网络内容格式类型的序列关系进行K-MEANS聚类算法的改进, 使其能够保持可接受的检索速度和识别能力是本文重点研究方向。

2 非结构化内容识别方法

随着宽带流量的提高, 互联网内容日益丰富, 非结构化内容如:音视频、图形图像的文件越来越多。对于非结构化内容的识别方法主要包括以下几个步骤:

2.1 分割

分割是是实现非结构化内容识别的第一步, 根据内容的转换边界进行分割, 分割方法包括模板匹配法、直方图法、边缘检测法、模型法、颜色柱状图法、运动矢量法以及基于多维空间仿生信息学理论的方法等。镜头边界检测作为视频检索的第一步具有重要意义, 其结果将对整个视频检索结果产生直接的影响。

2.2 特征提取

提取非结构化对象基本信息及动态信息, 得到一个尽可能充分反映内容的特征空间, 这个特征空间将作为内容识别依据, 内容特征分为静态特征和动态特征。静态特征的提取主通常采用图像特征提取方法, 如提取颜色特征、纹理特征、形状和边缘特征等。动态特征是获取动态特征的方法是运动估计, 通过匹配算法估计出每个像素或区域的运动矢量, 作为非结构化数据的运动特征。

2.3 聚类

高效的索引技术是基于内容的检索在大型数据库中发挥优势的保证。索引技术随着数据库的发展而发展, 提高索引效率有缩减特征向量的维度和聚类索引算法两种方法, 针对非结构化内容检索需要3个步骤: (1) 进行维度缩减; (2) 对存在的索引方法进行评价; (3) 根据评价定制自己的索引方式。为了保证内容识别的效率和准确性, 内容识别的聚类算法尤为重要。

3 基于K均值聚类的内容识别均值算法

基于K均值聚类的内容识别算法模型如下:

(1) 选取K个聚类中心作为服务器内容样本的K均值聚类算法迭代的聚类中心v11, v21, ⋯, vk1。

(2) 对于服务器内容样本X (设进行到第K次迭代) , 如果|X-vjk|<|X-vik|, 则X∈Sjk, 其中Sjk是以vjk为集类中心的样本集。

(3) 计算服务器内容样本各聚类中心的新向量值:

式中nj为Sj所包含的样本数。

(4) 如果vjk+1≠vjk, (j=1, 2, ⋯, k) , 则回到第2步, 将全部服务器内容样本重新分类, 重新迭代计算;如果vjk+1=vjk, (j=1, 2, ⋯, k) , 则结束。

K均值伪代码如下:

设定聚类数目K, 最大执行步骤tmax, 一个很小的容忍误差ε>0

决定聚类中心起始位置Cj (0) , 0<j≤K

4 基于K-MEANS聚类算法改进的内容识别

4.1 K-MEANS聚类改进算法的数据处理

现有的网络内容检索方式逐渐从关键词检索转向对象检索, 也就是以内容片段为输入, 从大量数据中找出接近的内容。现行的互联网基于关键词的敏感内容规避业务的选择结果模式主要是采用双向选择模式, 因此基于关键词的敏感内容规避业务挖掘也要遵循这样的模式原则, 选取服务器中基于关键词的敏感内容进行规避, 选择结果意向数据作为主要数据挖掘内容。网站敏感内容选择内容处理的数据类型包括:文本、图像、音频、视频等。处理方法首先要采用绝对偏差法进行数据标准化;其次采用简单匹配系数方式对互联网内容进行检测, 通过为0, 不通过为1;最后采用对数变换将数据转换为[0, 1]区间内数据, 再进行区间标度变量相同的标准化。数学公式表示:

首先, 计算平均的绝对偏差sf

x变量代表度量值, m代表平均值。

其次, 计算m:1

最后, 计算标准化量度值:

4.2 基于K-MEANS聚类算法改进的设计

针对现有的K-MEANS算法在内容识别中的聚类结果往往趋于孤立点的问题以及时间复杂度为O (n2) 不利于对互联网中大数据量的挖掘问题, 本文采用的是基于排列组合思想的K-MEANS剪枝改进算法。算法描述如下:

4.3 内容识别

互联网内容检索方法不仅仅局限于全文检索, 在很大程度上也不同于关键字检索。非结构化内容本身的层次化结构则要求内容检索必须层次化进行。因此, 内容的特征决定了内容检索必须是层次化的, 且用户接口是多表现模式的, 下面提出几种常用的检索方法:

(1) 基于框架的方法:该方法通过知识辅助对内容建立框架, 并进行层次化检索。

(2) 基于浏览的方法:基于浏览的方法始终是内容检索中一个不可缺少的方法。如果用户没有明确的查询主题或用户的主题在框架中没有被定义等, 用户可以通过浏览来确定其大概目的。

(3) 基于描述特征的检索:该检索针对内容的局部特征检索, 描述特征包括说明性特征和手绘特征。

(4) 内容的检索反馈在检索的实现中除利用内容特征进行检索外, 还应根据用户的反馈信息不断学习改变阈值重新检索, 实现人机交互, 直到达到用户的检索要求。

5 结语

论文提出了一种基于排列组合的K-MEANS聚类算法, 该算法在互联网海量数据挖掘过程中, 可以满足内容识别的检索速度和识别能力, 尤其是对非结构化数据, 如:图形、图像、视频等, 具有很好的识别能力, 在面向对象的内容识别趋势下, 该算法具有较好的先进性和实用性。

参考文献

[1]侯泽民, 巨筱.一种改进的基于潜在语义索引的文本聚类算法[J].计算机与现代化, 2014 (7) :24-27.

[2]王友卫, 刘元宁, 凤丽洲, 等.基于用户兴趣度的垃圾邮件在线识别新方法[J].华南理工大学学报 (自然科学版) , 2014 (7) :21-27.

[3]江雪, 孙乐.用户查询意图切分的研究[J].计算机学报, 2013, 36 (3) :664-670.

[4]杨陟卓, 黄河燕.基于词语距离的网络图词义消歧[J].软件学报, 2012, 23 (4) :776-785.

[5]皋军, 孙长银, 王士同.具有模糊聚类功能的双向二维无监督特征提取方法[J].自动化学报, 2012, 38 (4) :549-562.

5种油菜粉蝶类害虫的识别与防治 篇5

1 形态特征的鉴别

菜粉蝶、云斑粉蝶、大菜粉蝶、东方粉蝶、褐脉粉蝶不同虫态的形态特征见表1。注意成虫观察体、翅的颜色;前后翅黑斑的形状及位置;雌雄成虫翅基部黑斑的面积, 前翅圆斑及顶角三角形黑斑等特征的区别;识别幼虫注意观察体色、体上密布的黑色毛瘤及沿气门线的黄色斑点特征。

2 为害症状及鉴别

2.1 菜粉蝶为害症状

菜粉蝶2龄前仅啃食叶肉, 留下一层透明表皮 (3龄前多在叶背面为害) ;3龄后可蚕食整个叶片, 轻则咬成孔洞和缺刻, 严重时叶片全部被吃光, 只残留粗叶脉和叶柄 (3龄后转至叶面) (图8) ;一般刚出土的油菜幼苗子叶被吃后整株死亡。

2.2 云斑粉蝶为害症状

云斑粉蝶以幼虫取食叶片。2龄前只啃食叶肉, 留下一层透明表皮。3龄后可蚕食整个叶片, 轻则虫口累累, 重则仅剩叶脉, 以5龄幼虫为害最甚。

2.3 大菜粉蝶为害症状

大菜粉蝶以幼虫取食叶片, 并排泄粪便污染菜株, 后期将叶片吃光, 仅留叶脉。严重时, 钻蛀入茎, 显著降低产品质量, 甚造成菜株腐烂。

2.4 东方菜粉蝶为害症状

东方菜粉蝶初龄幼虫在叶背啃食叶肉, 残留表皮, 呈小形凹斑, 3龄以后吃叶肉成孔洞或块刻 (图9) , 严重时只残留叶脉和叶柄。同时排出大量粪便, 污染菜叶和菜心, 使蔬菜品质变劣, 且为软腐病菌提供了入侵途径, 导致软腐病, 加速全株死亡。

2.5 褐脉粉蝶为害症状

褐脉粉蝶初龄幼虫在叶背啃食叶肉, 残留表皮, 俗称“开天窗”, 3龄以后吃叶成孔洞和缺刻, 严重时只残留叶柄和叶脉, 同时排出大量虫粪, 污染叶面和菜心。幼虫为害造成的伤口又可引起软腐病的侵染和流行, 严重降低蔬菜的产量和品质。

3 分布上的区别

菜粉蝶、云斑粉蝶、大菜粉蝶、东方粉蝶、褐脉粉蝶的分布存在一定差异 (见表2) 。

4 防治方法及比较

应以农业防治为基础, 生物防治 (包括细菌杀虫剂和保护与利用天敌) 相结合, 化学防治为辅。各种防治方法的具体实施及注意事项见表3。

类识别率 篇6

引言

把物理或者抽象对象的集合相应地分为由相似的对象构成多个具体类的实质过程定义为聚类。通过聚类所构成的簇属于一组数据对象的集合, 这种对象和处于同一个簇中的对象相类似, 和其它簇中的对象相区别。聚类分析可以称为群分析, 其作为研究具体分类问题的一类重要的统计分析方法。聚类分析的实际应用范围十分广泛, 一般可以应用在商业、生物、地理、保险行业、因特网与电子商务等各方面领域。比如在商业中, 聚类分析不但能够用于寻找不同的客户群, 而且通过购置模式刻画各种不同的客户群特点, 也能够用于研究消费者的具体行为;在生物技术领域, 聚类分析通常用于对动植物与基因进行相应地分类, 得到对种群特定结构的具体认识;在保险领域, 聚类分析可以通过一个高标准的平均消费来判断汽车保险单所有者的具体分组。

聚类算法的分类

聚类算法能够看作通过考虑包括在X中的全部可能划分成为集合的一小部分, 就能够得到可判断聚类的有效方案, 这个结果通常可以依赖于所使用的算法与准则。因而聚类算法是一个试图识别数据集合聚类的特殊性质的具体学习过程, 聚类算法一般有以下几种分类方式。

1.顺序算法。

这类算法可以相应产生出一个独立形式的聚类, 其是十分直接与迅速的算法, 大部分都至少把全部特征向量使用一次或者几次, 最终的结果一般是依赖于向量参与算法的对应顺序。

2.层次聚类算法。

这类算法被又可以分为以下几种类型。

(1) 合并算法。这类算法可以在每一步形成降低聚类数量m的聚类序列, 聚类所形成的结果一般都是来源于前一步骤两个聚类的有效合并。合并算法的特征代表通常是单一与完全形式的连接算法。

(2) 分裂算法。这类算法的执行原理和合并算法的原理是截然相反的, 在每一个具体步骤所产生增加聚类数量m的相关性聚类序列。在每一个步骤中聚类所得到的结果一般都是把前一步骤的一个聚类分裂成为两个所得到的。

3.代价函数最优的特征型聚类算法。

这类算法一般使用代价函数J来对可判断性进行量化, 通常形式的聚类数量m是相对固定的。这类算法使用微分学概念, 通过最优J产生出连续形式的聚类, 如果J的局部已经最优确定了, 相应算法才可以结束。这种具体类型的算法也可以称为迭代函数最优方法, 具体可以分为以下几种类型。

(1) 硬或脆聚类算法。通常情况下一个向量绝对属于特定形式的聚类。根据选择方式的最优化准则, 通过最优分类把各个向量分配到各个具体的聚类中。

(2) 概率聚类算法。其属于硬聚类算法的特殊情况, 使用贝叶斯的分类方法, 而且每一个向量x分配到P (Ci|x) 最大的聚类Ci当中, 通过相关的定义优化相应的任务从而完成概率估计。

(3) 模糊聚类算法。在这类算法过程中, 向量一般是属于大于特殊阈值的聚类。

(4) 可能聚类算法。在这种算法过程中, 测量向量x是否可能属于聚类Ci。

(5) 边界检测算法。区别于使用向量自身来确定具体的聚类, 这种算法迭代可以有效地调整聚类的相关边界。虽然这其中包含了代价函数的优化原理, 然而其和以上算法有着本质的差别。上述全部算法一般是使用聚类进行表达, 主要目的是使用最优方法来确定局部的空间, 相反边界检测算法应当是发现聚类间边界最优放置的具体方法。

基于特征模型的聚类算法

1.K均值算法

K均值算法可以使聚类域中全部样品相对于聚类中心距离的平方和为最小状态。其原理是首先取k个初始距离中心, 相应地计算出各个样品到这k个中心的相对距离, 查找最小距离将样品归入到最近形式的聚类中心;修改中心点的相应值作为本类全部样品的均值, 从而计算每个样品到k个中心的相对距离, 重新归类与修改新型的中心点。直至新的距离中心与上一次的中心点相等时才终止。这种算法的结果一般会受到聚类中心的数目与初始聚类中心的选择影响, 也会受到样品的几何性质与排列次序所限制。假如样品的几何性质表明其可以形成若干个距离较远的小块孤立区域, 则算法是可以收敛的。

K均值算法的执行步骤分为以下几部分:

⑴通过对话框读取需要进行分类的数目center Num与最大的迭代次数iter Num。

⑵随机选取center Num个样品作为相应的聚类中心。m_center (i) .feature=m_pattern (i) .feature, m_center (i) .index=i;m_pattern (i) .category=i;i= (1~center Num) , 剩余的样品中心号是-1, 样品到本类中心的距离是max。

⑶假定前三个样品各自属于一类, 应当分成三类A、B、C, 计算剩余样品到这三个类的距离, 把其归类为距离最近的类, 因此全部的样品已经归类完成。计算每一个类中心全部样品特征值相应的平均值作为这个聚类中心的具体特征值。

⑷对于每一个类之中的各个样品, 计算其相对于其它类中心的距离, 假如其到某一个类中心的距离小于其到自身类中心的距离, 应当对这个样品进行重新分类, 把其归类到距离中心的类, 循环重复全部的样品, 直到不再存在样品类号出现变化状况。

2.迭代自组织的数据分析算法

迭代自组织的数据分析算法又可以成为ISODATA算法。这种算法和K均值算法有着类似之处, 即为聚类中心是取决于样品均值的迭代运算过程。然而ISODATA引入了一部分试探性的具体步骤, 可以吸引中间结果所获得的经验, 在迭代过程中能够把一类进行一分为二的处理, 也能够把两类进行合并, 即为自组织。

迭代自组织的数据分析算法执行步骤如下:

⑴得到全部的样品特征。

⑵输入阈值T、方差equation、类中心数目center Num、最大迭代次数iter Num。

⑶任意选择precenter Num个样品作为聚类中心m_center (i) 。

⑷求取各个样品到全部聚类中心的距离, 把全部样品归入到最近形式的类中心m_center (i) 。

⑸纠正各聚类中心的数值。

⑹计算各个聚类域中各个样品到聚类中心间的平均距离。

⑺计算全部聚类域样品平均距离的总平均距离。

⑻判断分裂、合并与迭代等各个步骤:

如果迭代次数已经达到iter Num, 置equation=0, 跳跃到第 (11) 步, 运算过程终止。如果precenter Num>2*center Num, 或者进行了偶数次的迭代运算而且precenter Num>center Num/2, 则进入到第 (9) 步, 进行合并处理。否则, 转到第 (10) 步进行分裂处理。

⑼合并操作, 计算所有聚类中心的距离, 假设ti, tj (ti

⑽进行分裂操作, 求全部聚类中心的标准向量差…, precenter Num, Ni是ωi类中的样品数目。找到全部中心标准差中的最大值, 设定第ti类的第tj位标准差最大, 最大值是mequation。

⑾如果mequation>equation, 则precenter Num++, 新的中心特征值为m_center (ti) 的特征值, 只是在第tj位需要进行调整, m_center (ti) .feature (tj) =m_center (ti) .feature (tj) +a*mequation, m_center (precenter Num-1) .feature (ti) =m_center (ti) .feature (ti) -a*mequation;其中a= (0, 1) , 取a=0.5。

⑿假如是最后一次迭代运算则可以结束循环。否则循环继续跳转到第 (4) 步, 迭代次数加1。

结束语

类识别率 篇7

关键词:车牌识别,车牌定位,K-均值,聚类,字符识别

机动车号牌识别系统主要功能是通过图像采集和图像识别的手段识别机动车的身份。对车牌识别领域的研究最初起源于二十世纪九十年代的发达国家, 而国内的研究起源于二十世纪末。号牌识别的最主要的步骤是:车牌定位、字符分割和字符识别。而后两者现在基本已经达成共识, 字符分割采用对二值化图片进行垂直投影和水平投影, 字符识别使用模板匹配方法或者SVM方式。最重要而且方案最多样化的步骤还是在车牌定位上。

车牌定位基本可以分为三种大的研究方向:对灰度图像进行边缘检测、对灰度图像进行角点检测和对彩色图像进行颜色模型处理。边缘特征是人类视觉感知的重要来源, 文献将边缘检测理论、形态学填充、腐蚀开运算后得到车牌待选区域, 最后分析获取车牌位置, 边缘检测作为研究范围最广和目前大多数产品使用的技术, 的确具有速度快、准确率较高的特点, 尽管现有的边缘检测算子十分成熟, 但是没有一种适应于任何图像质量、任何图形环境的边缘提取方法, 而且为了得到高识别率, 对于每幅图像要选用合适的边缘检测算子。文献将彩色图像转换到HSV颜色空间中对色彩进行分层处理是车牌定位彩色图像处理方向较新颖的方法, 但是这类方法的缺点也是很明显的, 当车身颜色与牌照颜色相近时, 辨识就变的几乎不可能了。文献提出了角点检测法, 因为角点代表的特征像素点占图像像素总数的百分之一, 却构成物体大部分的外形要素, 由于牌照的字符部分角点数较多, 所以作者使用Harris算法获取整幅图像的所有角点, 然后使用一个固定大小的滑窗去遍历图中的角点以得到牌照待选区域。通过角点获取牌照区域受干扰小, 识别的效率也比较高, 是应该深入研究的方向。

1 车牌标准分析

现行的《中华人民共和国公共安全行业标准——中华人民共和国机动车号牌》 (GA36-2007) , 于2007年9月28日发布, 同年11月1日实施, 用来代替原来的国标GA36-1992。按照GA36-2007的标准, 为了我们计算机识别的方便, 我重新整理从号牌行数和号牌特征着手归纳, 见表1。

经过归类并简化后, 很大程度上避免了排列方式对识别算法的干扰, 在字符分割阶段对车牌进行横向投影分析号牌分类是单行牌照还是双行牌照, 并根据上表优化算法, 可以达到快速准确的目的, 见图1。

下面从典型的单行牌照, 分析其字符规律。牌照中的字符分为三段:第一个字符是省、自治区或者直辖市的简称, 确定为汉字字符;第二个字符是发牌机关代号, 是大写的英文字母;第三至第七个字符为序号, 通常为大写英文字符和阿拉伯数字字符的排列, 对于特别号段的车辆会在末位字符出现“警”“领”“学”“临”“试”“港”“澳”等汉字字符。

典型的双行牌照, 见图2。双行牌照第一行就是单行牌照分割点前的两个字符, 第二行是单行牌照的第三位到第七位。双行牌照和单行牌照相比, 长宽比更小。

从颜色方面看, 无论是单行的牌照还是双行的牌照, 都有多种颜色的排列组合。但是归纳来说, 牌照背景颜色和牌照字体颜色的组合一共是四种, 分别是:黄底黑字、蓝底白字、黑底白字、白底黑字。特殊分类的字符颜色为红色, 而且特殊字符不会出现在蓝底背景的牌照上面。

2 原始K-均值算法

用Harris角点检测算法运算后的图像, 通过观察可以发现“牌照区域肯定是角点聚集的区域, 但是角点聚集的区域不一定是牌照所在区域”, 需要使用一个聚类分析方法来找到若干个角点聚集区域, 然后通过对区域特征的筛选, 最终决定牌照位置。K-均值算法是一种得到了广泛使用的基于划分的聚类算法, 算法把n个数据点按照目标函数分为k个簇, 以使簇内数据点具有较高的相似度, 而这个目标函数可以是欧氏距离。K-均值算法满足了希望把n个角点以欧氏距离分为k个号牌待选区域的思想, 而且它的时间复杂度是O (tkn) , t是迭代次数, 所以对图3 (a) 上由Harris算法得到的角点执行K-均值算法, 经t次迭代得到k个簇, 见图3。

3 改进K-均值算法

使用原始K-均值算法并不能在每次收敛后都得到牌照正确的区域 (见图4) , 因为其算法本身是用于数据挖掘的, 算法中初始点是随机决定的, 目标函数使用的是欧氏距离, 为适应号牌识别的效率和识别率双重的要求, 需要对其修改。在这个过程中, 参考了文献, 但是考虑到文中AP算法的时间复杂度高, 所以还是用K-均值算法。

首先从算法的随机取初始点着手, 通过实验发现初始随机点选择的结果不同, 收敛后的簇是可能不一致的, 所以尽量要选择一种既能接近最终收敛簇的形心, 又能是一种快速稳定的初始点提取算法。研究后决定用分冶思想把图像分成若干个矩形区域, 算法1的步骤如下:

步骤2, 遍历Ci, 2这张存放了角点的二维表, , 1/ij=C×M W, k Ci, 2N/H=×, Aj, kAj, k1=+。

步骤3, 设值max, 遍历Aj, k, 当Aj-1, k, Aj+1, k, Aj, k-1, Aj, k+1均未被访问过时, max=Aj, k, 并标记Aj, k为已访问过。

步骤4, 循环到步骤3, 所有的初始点都选出为止。

第二点的改进是传统的K-均值聚类时使用的欧氏距离, 而牌照的规格不是圆, 需要使用标准化的欧氏距离公式。两个n维向量a (x11, x12, ..., x1n) 与

b (x21, x22, ..., x2n) 间的标准化欧氏距离公式为:

其中ks是分量的标准差, 对于最常见的440mm×140mm的机动车牌照上二维的角点数据, 公式可以推导为

于是整个号牌定位的算法可以这样描述:

步骤1, 使用FAST角点算法获取图中角点。

步骤2, 使用算法1提取K-均值的初始点。

步骤3, 以计算出的中心点执行K-均值算法。

步骤4, 修改K-均值算法使用公式1。

步骤5, 在聚类后获取的簇所组成的矩形中, 根据车牌标准, 删除以下情况:高要比宽大;宽大于高的3.5倍;宽小于高的2倍;号牌颜色面积小于总面积50%。

执行上述算法后得到图5, 其中左边一张是通过上述算法得到的初始点, 右图是通过初始点再调用K-均值算法得到最终的角点分类后各个区域的中心, 从中可以发现初始点已经很接近最终的收敛结果, 所以这种算法可以大大的加快K-均值算法迭代的速度, 而且使得K-均值算法的执行速度是快速的, 结果是稳定的。

4 算法效率实验

测试数据集的描述:本文采用从网上随机选取的二十七张车辆正面图片作为样本来验证改进后的算法的效率。通过FAST角点检测, 其中每张图产生一千个以下的角点。

算法对比:分别用传统K-均值算法、滑窗定位法和改进过的K-均值算法分别对样本图片的角点进行聚类, 分别从平均识别速度和平均识别率两个方面进行对比, 见表2。

表2是对三种不同聚类算法的实验结果的汇总, 给出了具体量化的数据, 通过表2可看出传统K-均值算法由于迭代次数多而收敛速度慢, 并且识别率低。而改进后的K-均值算法虽然算法复杂但是由于迭代过程的改进使得识别速度和平均识别率都得到了很好的平衡。

5 车牌字符分割算法研究

本章节将讨论车牌字符分割问题。车牌字符的分割是车辆号牌识别流程中承上启下的环节, 主要是继续前章车牌定位的工作结果, 主要任务是从一张车牌图像中准确可靠的分割得到各个字符并完成归一化的工作, 提供给下面字符识别环节来进行分析。

由于机动车牌照存在单行车牌和双行车牌, 所以进行列分割之前要首先进行判断。通过分析车牌区域的水平投影图的形态就可以知道, 见图7。

因为车牌尺寸不同, 必须对它进行归一操作:将牌照灰度图缩放到100×50像素, 计算各行中段约25%~75%的区域, 在这个区域中搜索灰度值最小点, 若该点在接近1/3处, 该号牌就是双行车牌, 否则是单行车牌。下面介绍用列分割方法把单行车牌进行字符分割。首先对车牌定位后的图像进行二值化操作 (临界灰度值是160) , 这样得到的二值化图像减少了光照不均的影响。然后对单行车牌区域的二值化图像做垂直投影, 见图8。

然后通过下列的步骤实现字符分割, 其中投影图为P。

步骤1:令max P=MAX (P) , 得到投影图中的最值。

步骤2:寻找N中的0值点, 以0值点将N分为若干块:recti, i=1, 2, 3, ...。

步骤4:各块宽度为width=imax (recti) -min (recti) 。宽度中值为media Width。将widthi<media Width×1.2的块就近合并。

步骤5:若recti的宽度大于两倍中值宽度, 按中点将其分拆成两块。

步骤6:重复步骤4和5, 直到无合并或拆分操作为止。

步骤7:如果块宽度小于各块平均宽度, 以该块中心左右往外media Width2作为分割点;否则以该块左右边界为分割点。

步骤8:按照分割点分割图像, 按照各分割块的左右次序对其编号。

步骤9:分析各块底色 (二值化图像为0的点) 的平均色度值, 将其和车牌区域底色比较, 删除误差超过50%的块。

这样就把字符从定位好的牌照图像中分离出来了, 见图9。

6 车牌字符分割识别研究

支持向量机来识别号牌字符, 利用其良好的分类能力, 可以用来对字符进行分类, 有很高的字符识别率。

1992年开始在统计学习理论领域发展了一种称为支持向量机 (Support Vector Machine, SVM) 的新的模式识别方法, 在解决小样本、非线性及高维模式识别的问题中表现出很好的性能。由于同时神经网络遇到了网络结构固定、过学习和欠学习问题, 所以支持向量机方法成了机器学习领域内新的热点。

SVM方法从线性可分的最优分类面 (Optimal Hyper-plane) 提出了二类分类技术。它通过构造最优超平面使得不同样本类的距离最大化。

yi[ (wixi) +b]-1≥0, i=1, 2, ..., n就得到了最优的分类面。表述成约束优化问题就是在 (l) d的条件下, 求方程

对w和b偏微分并使之等于0, 得到对偶问题

在线性不可分情况下, 增加了松弛项ξi≥0, 分类条件方程变成:

所谓SVM的训练, 就是通过已有的样本, 求得支撑最优分类面的样本向量。由于SVM自身的特点, 相对于识别的样本, 只需要少量样本进行训练。这一点就满足车牌字符识别系统的要求。同时, 如果把整个字符作为输入数据, 输入样本就具有高维度的特征, 这要求分类器能够进行高效的高维度数据分类能力, 这也是SVM的优势所在。鉴于以上这些原因, 构造了用于车牌字符识别的支持向量机, 并使用大量实际数据效验所设计方法的有效性。训练中从100多张尺寸为800×600的各类机动车照片中分割出700多张字符照片, 其中某种字符的照片数是大于1的, 按照字符分类, 每种字符抽取一张, 一共71张字符照片, 手动选定字符系统自动对其进行缩放操作, 统一成32×16像素的图片, 然后再进行灰度化操作和二值化操作 (通过实验二值化的阀值定为灰度值160) , 这样每个字符照片所包含的信息量是相同的。实验中使用的支持向量机是由台湾林智仁教授开发的libsvm, 由于Objective-C是向下支持C语言的, 所以libsvm (C语言版) 是可以直接用于Objective-C开发的, 见图10。使用svm_train来进行训练。

识别的步骤和训练的步骤是相似的。对于从字符分割后的字母/数字图片, 首先进行灰度化和二值化处理 (二值化的阀值定为灰度值160) , 这样把产生的二进制数值作为一个svm节点, 加载SVM自识别系统在磁盘上的识别模型, 返回识别的结果。

7 号牌识别应用

最后在一台联想Think Pad T430上, 安装了Mac OS Mountain Lion (10.8.5) X64位操作系统和Xcode编程开发软件, 并把APP运行在一台i Phone 4 (操作系统IOS7.1.2) 上实现了号牌识别的全部功能, 见图11。

经过号牌定位、字符分割和字符识别三大步骤后, 实验在真机上的运行效果如图10所示。

8 结语

针对车牌定位这个难点问题, 本文将K-均值算法用于号牌识别的算法并进行了优化, 首先提出用分冶思想用于K-均值算法的初始点选取;然后对K-均值算法得到的结果, 也就是号牌候选区域进行筛选, 结合形状和颜色等因素来最后精确定位车牌, 这样既提高了算法的收敛速度, 又增加了算法的准确性。经IOS平台上实现的整个号牌识别程序实验结果, 证明改进后的号牌定位算法提高了识别率, 成效显著。

参考文献

[1]王晓雪, 苏杏丽.数字图像处理在车牌识别中的应用[J].自动化仪表, 2010, 31 (7) :22.

[2]迟晓君.一种基于支持向量机的车牌字符识别方法[J].信息技术与信息化, 2007, (6) :

类识别率 篇8

作为生物特征识别与情感计算机领域的一个极富挑战性的交叉课题,人脸表情识别[1,2](FER)是智能化人机交互技术中的一个重要组成部分,指利用计算机对人脸的表情信息进行特征提取,按照人的认识和思维方式加以归类和理解,进而从人脸信息中去分析理解人的情绪,如高兴、惊讶、悲伤等。面部表情识别一般包括3个环节:第1步需要对人脸进行检测与定位;第2步从人脸图像中提取能够表征输入表情本质的信息,第3步分析特征之间的关系,将输入的人脸面部表情进行分类并归入相应的类别。其中,第2步中提取出的特征是接下来表情分类的关键。因此,如何提取有效的鉴别特征一直受到研究者的广泛关注。

本研究采用类内分块PCA方法,在抽取面部表情特征之前,先对原始数字图像分块,对分块得到的所有子图像块采用PCA方法进行鉴别分析,捕捉对表情识别贡献较大的局部信息,在分块的同时还可以降低图像向量的维数,增加子图训练样本的数目,避免使用奇异值分解理论。

1 传统PCA方法

模式识别中的经典算法中,主成分分析(PCA)被认为是最成功的线性鉴别分析方法之一[3]。这种方法在最小协方差意义下寻找最能代表原始数据的投影方向,从而达到对图像降维的目的。它提供了一个高维和低维的线性变换矩阵,这个变换矩阵U可以通过求取协方差矩阵的特征向量获得。该方法的具体过程简述如下:

假设人脸表情图像矩阵高为p,宽为q,将图像按列向量相连方式排成p×q维的高维向量,若人脸表情库中共有图像N个,则可以用矩阵(p×qN来表示整个人脸表情库。将第K副表情图像输入看作向量,记为Xk,可以构造出向量的协方差矩阵:

1=1ΝΜΜΤ=1Νk=1Ν(Xk-X¯)(Xk-X¯)Τ(1)

其中,X¯=k=1ΝXk/N,表示全部训练样本的均值。本研究要找的变换矩阵U就是由∑1的非零特征值所对应的特征向量构成。

直接求解∑1的特征值和正交归一特征向量是困难的,维数很高,根据奇异值分解原理,可以构造出低维矩阵R=MTM,容易求出R的特征值λi和特征向量Vi,由此可得到∑1的正交归一特征向量Ui:

Ui=1λiΜVi(2)

选取前K个较大特征值λ1≥λ2…≥λk所对应的特征向量u1,u2…uk构造特征子空间,即令U=[u1,u2,…uk],就是本研究要找的最佳投影矩阵。

有了这K个特征值所对应的特征向量,也就是所谓的“特征脸”向量,任何一幅表情图像都可以投影到这个子空间并获得一组坐标系数,也就是说,任何一幅人脸表情图像都能表示成“特征脸”的线性组合,这组系数表明了该图像在子空间中的位置,从而可以作为以后表情识别的依据。

在处理训练样本时,传统的PCA方法对所有类别的表情训练样本进行计算,得到的是所有训练样本的主要特征,这针对人脸识别比较有效,但就表情识别而言,各类不同表情的差异较大,对所有的训练样本进行变换后,识别率较低。而且通常状况下一幅表情图像的维数非常高,图像分布很不紧凑,在这样的高维空间上直接进行传统PCA计算时复杂度非常大,若将人脸表情图像作为一个整体对象进行特征提取,也必然影响全局特征的相关性,且不能提取出利于分类的、对表情识别贡献较大的局部特征。

2 类内分块PCA方法

基于以上传统PCA的不足,本研究提出一种新的类内[4]分块PCA方法。它是指在提取表情图像特征之前,首先对表情训练样本进行分类,按照传统的分类标准,分为惊讶、悲伤、愤怒、厌恶、恐惧、高兴、平静共7类表情。再对每一类别内的每一幅训练样本图像进行分块,对划分后的所有相同大小的低维子图像块采用PCA方法捕捉局部信息特征[5],再依据每块子图像提取出来的特征进行分类。具体过程描述如下:

首先将每一幅数字表情图像记为χj,以m×n的图像矩阵表示分成大小相同的p×q块,如下所示:

χj=[(χj)11(χj)12(χj)1q(χj)21(χj)22(χj)2q(χj)p1(χj)p2(χj)pq]

其中,j=1,2…Ni,Ni表示每一类表情的训练样本总数。本研究针对预先划分好的每一类表情内的所有训练样本图像进行操作。

对所有分块后大小相同的子图像(χj)kl采用PCA方法处理,所构造的总体散布矩阵为:

2=1Νipqj=1Νik=1pl=1q((χj)kl-χ)((χj)kl-χ)Τ(3)

其中,χ=j=1Νik=1pl=1q(χj)kl/Νipq表示某一类表情中所有训练样本子图像的均值。同理,求得的最优投影向量组u1,u2…ur可取为∑2的r个最大特征值对应的标准正交归一的特征向量,即最优投影矩阵为U′=[u1,u2…ur]。

接下来进行特征提取,即对类内的所有训练样本图像χj向子空间投影并提取特征。不同于传统的PCA方法,这里提取出的特征不是以向量表示,而是表层为由每个子块的投影向量构成的矩阵,可以称之为投影矩阵(pr×q),如下所示:

Yj=[UΤ(χj)11UΤ(χj)12UΤ(χj)1qUΤ(χj)21UΤ(χj)22UΤ(χj)2qUΤ(χj)p1UΤ(χj)p2UΤ(χj)pq]

对每一类表情的所有训练样本实施以上操作,得到每个图像对应的一个特征矩阵Yij,其中j=1,2…Ni,i=1,2…Nc,Nc为表情种类数。对任一待识别的测试样本也实施以上的操作,同样可以得到测试样本的特征矩阵τ

最后对所有的特征矩阵用最小近邻分类器[6]进行分类,分别计算:

dij(x)=||τ-Yij|| (4)

其中,dij(x)表示测试样本X到第i类表情的第j个训练样本的距离,找出距离最小的值(代表相似度最高),即可作为表情识别的依据,归入相应的表情类别。

3 实验过程与结果分析

本研究实验选用的是日本ART建立的10个女学生的7类基本表情库,每类表情至少有3幅图像,总共有215幅,每幅图像原始大小为256×256 pixeles。实验中每类表情样本选取27幅图像,其中22幅作为训练样本,另5幅作为测试样本。

由于对表情识别而言,人脸形状、头发、背景等都是噪声,在提取特征之前,首先对样本集合进行一系列的预处理:包括尺度的归一化和原始图像的切割,使得预处理后的图像大小为100×100 pixeles,如图1所示。

实验中对预处理后的图像采用传统PCA方法(如图2所示),以及3种不同分块方式的类内分块PCA方法(即对原始图像进行2×2,4×4,4×8划分)进一步处理。将分块后的训练表情样本和测试表情样本分别投影到所形成的特征子空间中以提取表情特征矩阵(若取r个投影轴,维数为pr×q)。

根据公式(4),输入最小距离分类器进行表情分类之后,得到不同的识别率,识别率对比如表1所示。

比较这两种不同方法的结果,可以发现使用类内分块PCA方法的表情识别率要高于传统的PCA方法。尤其是针对高兴和惊讶表情,识别率相对提高较多,这主要是由于这两种表情比较夸张,相对容易区别。其次,使用类内分块PCA方法时,原始图像的不同划分方法对识别率也有影响,从本次实验数据可以看到,划分的子块较多情况下的识别率相对较高。如将原始图像划分成4×8(即32块)后的惊讶表情识别率达到了92.34%,而划分成2×2(即4块)后识别率为85.62%。这主要是由于子块多的情况下,提取出的特征维数要大于子块相对较少情况下的特征维数,对表情的描述更加准确,但其使用的时间也要明显多于采用传统PCA方法和子块划分较少的情况。

4 结束语

本研究提出的类内分块PCA方法是一种基于对类内子图像向量进行鉴别分析的方法,与以往的基于整体图像向量的方法相比,它的突出优点是能够抽取出图像的局部特征,这些局部特征能更好地反映图像之间的差异,便于模式识别,而且实现简单,计算量小。本研究针对人脸面部的5种表情进行了实验,得到了不同的识别率。传统的PCA方法是对所有的训练样本进行处理,所以得到的特征含有各种表情特征,而类内PCA方法则使同一种表情特征归为一类,因而与不同类之间的差距加大了,在类内的基础上再进行分块,运用改进后的PCA方法,所获得的特征维数要大于PCA方法得到的特征维数,其识别率也有了明显的提高。

从本次实验结果还可以发现,对同一图像采用不同的分块方法,识别率也有所不同。考察不同分块数量对识别效果的影响,如何寻找最佳的分块方法来获得最高的识别率,以及分块的数量和识别率是否呈线形关系,这些问题的解决尚有待于进一步的研究。

摘要:主成分分析方法(PCA)是目前广泛应用在人脸等图像识别领域的重要手段。为了更准确地识别人脸的表情信息,有效抽取出图像中对表情识别贡献较大的局部特征,提出了一种类内分块PCA方法对人脸表情进行特征提取。首先对图像进行分块,再对分块得到的所有子图像块利用PCA方法进行鉴别分析,并计算出各类训练样本的子空间,然后计算测试样本到各类子空间的距离,最后输入最近邻分类器得到分类结果。在JAFFE人脸表情库上进行的实验结果表明,使用该方法后获得的识别率优于传统的PCA方法。

关键词:主成分分析方法,特征提取,类内分块PCA,人脸表情识别

参考文献

[1]YANG Jian,YANG Jing-yu.Why can LDA be performed inPCA transformed space[J].Pattern Recognition,2003,36(2):563-566.

[2]杨静宇,金忠,郭跃飞.人脸图像有效鉴别特征提取与识别[J].南京理工大学学报,2000,24(3):193-198.

[3]TURK M,PENTLAND A.Face recognition using eigenfaces[C]//Proc.Computer Vision and Pattern ReorganizationConference,1991:586-591.

[4]胡同森,刘玉彪,田贤忠,等.基于Gabor滤波和类内PCA的人脸表情识别研究[C]//第四届和谐人机环境联合学术会议,2008:[s.n.].

[5]李俊华,彭力.基于特征块主成分分析的人脸表情识别[J].计算机工程与设计,2008,29(12):151-153.

上一篇:快速原型模型下一篇:脉冲变压器