标准样本

2024-07-25

标准样本(共6篇)

标准样本 篇1

摘要:建立国家普通话水平测试等级标准样本库,是国家语委普通话培训测试中心2009年提出的工作要点之一。样本库计划包括三期。本文对第一期样本库的样本采集方案进行初步思考,对比两个采集方案,并对我们认为可行性强的方案进行了具体设计。

关键词:普通话水平测试,标准样本库,方言区,采集方案

一引言

《国家语委普通话培训测试中心2009年工作要点》提出了建设“国家普通话水平测试等级标准样本库”(以下简称“样本库”)的设想,计划三年内完成第一期样本库建设。第一期样本库预计包括全国各方言区至少3000个普通话水平测试标准样本,涵盖普通话水平三级六等和不入级的样本。之后,还将建立以少数民族人群(母语为少数民族语言)为基础的第二期普通话水平测试样本库,以海外普通话水平测试推广地区为基础的第三期普通话水平测试样本库。样本库建成之后,不但从测试、教学培训和科研三个方面能够为全国各地的普通话事业提供丰富资料和有效帮助,也将为汉语本体研究与应用研究提供宝贵的数据,更为国家推广普通话和汉语国际推广提供翔实的研究资源与科学支持。第一期样本库将真实记录我国各方言区的普通话现状,保留具有典型特征的普通话语音数据,对我国语言资源的保护和研究具有极其重要的历史意义和现实意义,将会是一笔巨大的科学财富。

第一期样本库计划选取涵盖全国各方言区具有典型等级特征的应试人群语音样本,并为每个标准样本的语音进行标注,指出错误与缺陷等问题所在,总结样本的等级判定原因。样本库是一个复杂精细的工程,涉及到建库原则与规划、样本采集方案、硬件设备与软件系统配套、样本处理及认定、数据管理等一系列问题。第一期样本库是开端,也是基础,可能需要多次论证、反复试点才可以建设成功。本文仅就第一期样本库的样本采集方案进行初步探讨。

二样本库采集方案

(一)方言区划分

样本库以普通话水平等级分布和方言区分布分别作为横轴与纵轴,力争勾画出一个重点突出、标准清晰、真实客观的全国普通话水平测试等级面貌。普通话水平测试等级分布包括:一级甲等、一级乙等、二级甲等、二级乙等、三级甲等、三级乙等、不入级共七个水平的测试样本。

关于语言学界讨论已久的方言区划分问题,我们选取的是十大方言区理论,包括官话大区、晋语区、吴语区、徽语区、赣语区、湘语区、闽语区、粤语区、平话区、客家话区。其中,官话大区还可分出8个官话区,即东北官话区、北京官话区、冀鲁官话区、胶辽官话区、中原官话区、兰银官话区、西南官话区、江淮官话区。鉴于每个官话区的人口比例都比较大,我们将这8个官话区与其他9个方言区并列,共形成17个方言区域。根据每个方言区域的人口比例和实际测试等级分布情况,我们将在每个区域采集相应等级的样本数量。

(二)采集方案

按照国家语委普通话培训测试中心(以下简称“国测中心”)的规划,样本库建设由国测中心统一组织成立总课题组,并根据工作需求设立若干子课题组。采集原则由总课题组制定,统一要求、统一部署,子课题组在经过总课题组统一培训(视情况可多次、分阶段进行)后,在总课题组的领导下,独立完成样本采集、入库甄选、对样本的初加工和一级处理环节。各子课题组可以以各省级培训测试机构作为主要力量,也可根据需要邀请相关专业的专家带队,组建学者型的子课题组,对样本库提供支持。

针对这一原则,我们提出两个采集方案,并对方案进行了对比分析,希望可以起到抛砖引玉的作用,对样本库建设做出贡献。

1.方案一:按照方言区域成立子课题组

我们按照17个方言区域的划分,建立17个相应的子课题组,每组对应一个方言区。总课题组根据各组所属方言区的人口比例制定各组样本数量,并与子课题组负责人协商确定所属方言区内各方言片、各个等级的具体样本数量。之后,各子课题组在总课题组的统领下,经统一培训后,完成样本采集、存储、入库甄选、一级处理以及汇总上交等全套工作。由于方言区域的划分普遍面临着与行政区域划分不一致的问题,各子课题组可由研究力量雄厚的一至两个省级培训测试机构牵头负责,或由所属方言区的方言学家或其他语言学专家负责,以国测中心特聘测试员作为骨干力量,组织相关专业研究生参与课题,经统一培训后,进行跨省、区、市的科研工作,涉及到该方言区的各省级培训测试机构需予以积极配合和支持。

优点:按照方言区进行划分,每个子课题组仅涉及一种方言,对象比较单一,工作目标明确,便于集中精力。而且,子课题组自由度较大,可以在不违背总课题组统一要求的情况下,根据方言片的实际情况进行灵活安排与设计。由方言学或其他语言学专家及国测中心特聘测试员带队参加,专业突出,学术性突出,不受行政权力牵制,样本质量比较有保障。

缺点:按照方言区划分,开展课题工作时还需要赶赴实地采集录音,或者依靠涉及到的相关省级培训测试机构的配合,难度相对较大。整体工作运行时间较长,财力、物力、人力耗费比较大,配合力度可能不如由国测中心统一部署下发至各省级中心的工作力度大。

2.方案二:按照各省级培训测试机构成立子课题组

我们根据17个方言区域实际地理分布与行政区域分布情况,向涉及到的省级培训测试机构(共计30个)具体分配相应方言区相应等级的样本数量需求。每个省级培训测试机构分别作为一个独立的子课题组,各省根据所属方言区的多少还可成立若干小课题组,参与样本库的实际建设。大陆地区除西藏外,各省级培训测试机构都将承担一定的采集任务。

优点:各省级培训测试机构都肩负着推普的重要职责,也都有各自的科研队伍,采集工作便于操作和展开,配合力度大,完成性较高。

缺点:每个省、直辖市、自治区方言分布情况不同,采集工作的复杂程度和难度不均衡。而且,各省级培训测试机构工作力度不一致,现有工作难度不同,研究力量也不均衡,对于实际科研成果的监督工作困难较大。

3.采集方案具体设计

对于上述两个采集方案,我们认为第二个方案可操作性强,具有一定优势。如果总课题组制定好规划和实施步骤,各省级培训测试机构能够全力、认真配合的话,应该可以按照预期设想建成所需的样本库。下面我们针对方案二展开具体设计。

总课题组计划收入3000个真正入库的样本,以此估算,初期大概需采集30000个左右的样本,才能最终选出符合要求的对象。我们以李荣先生的《中国语言地图集》作为主要参考依据,将使用汉语的人口数据按照方言区进行梳理,并粗略计算了收录样本库的方言区样本数(见下页表1)。

此外,根据《中国语言地图集》和部分行政区域的资料,我们对每个方言区内使用该方言的市县数进行了统计,按照行政区域进行划分,根据使用该方言市县数的多少决定样本实际分配比例。因数据繁多,仅以冀鲁官话区为例(见下页表2),其他方言区(见第102页表3)以此类推。

如表3所列,部分方言在某些行政区域内分布的人口很少,有的能够估算出数字,有的未列出数字,这些均在表格中用斜体标出。经权衡后,我们决定对分配样本数少于50人的、并且占该方言区人口比例低于5%的行政区域,暂且不收录这些方言人群的普通话样本。经过整理后,表3中的斜体标示部分可以略去。各行政区域实际需要采集的样本任务详见表4。

此外,鉴于以下方言使用人口数量较少(都不足100万),初期样本库可暂不考虑收录这些方言人群的普通话样本。这些方言主要是:

(1)奢话:零散分布在福建、浙江、江西、广东、安徽等省。

(2)儋州话:海南省。

(3)韶关土话:分布在广东、江西、湖南等省。

(4)乡话:湖南。

从理论上计算,全国初选30000个样本,按照三级六等和不入级共七个部分分配的话,每个等级需4285.7个样本。从全国实际测试数据来看,等级分布的情况大致为:二级乙等数量最多,二级甲等和三级甲等数量其次,一级乙等和三级乙等再次,一级甲等和不入级最少。我们设想,一级甲等主要由国测中心负责,采集约2300个样本,其他等级按照17个方言区域划分,每个区域平均1630个左右(依据各方言区的人数比例,可进行调整)。一级乙等3280个样本(193个/每个方言区),二级甲等5280个(311个/每个方言区),二级乙等和三级甲等分别为6280个(369个/每个方言区),三级乙等4280个(252个/每个方言区),不入级2300个(135个/每个方言区)。全国不同等级的样本分配比例详见第104页表5。

各省、直辖市、自治区原则上按照表5等级分配比例与表4样本数量可计算出自己需要采集的不同等级样本数量。以安徽省(共需1711个样本)为例,详见表6。

其中,一甲样本由国测中心负责,按不同方言区、不同行政区域采集,各省、直辖市、自治区只需采集从一乙到不入级的样本即可。

目前,我们是以《中国语言地图集》作为主要参考依据设计样本比例的。这本地图集成书年代较早,目前各方言区人口比例都发生了不同程度的变化,具体采集方案可依据地区实际情况进行调整。不过,各小组调整样本数目需要报经总课题组同意后方可进行,由总课题组负责全局规划。

三余论

无论是哪个采集方案,都涉及到具体采集方式问题。我们对此也有几点建议:

(1)各子课题组赴方言区进行实地采样。

优点:定位准确,针对性强,录音装备统一;

缺点:麻烦,周期长,耗费多。

(2)部分子课题组在高校利用机辅测试对各方言区来的学生进行采样。

优点:方便,易集中;

缺点:录音工具不统一,音质效果不能保障;样本特征单一,录音人脱离方言环境,易发生语言变化。

(3)从某月某日起,国测中心向各省级培训测试机构发出通知,对所有应试人登记详细信息,包括对采集对象条件中所涉及的问题。这一措施对总课题组掌握各方言区应试人的大致情况和样本库建设工作都有作用。

(4)综合多种采集方式,可从所有前期登记的应试人中选择一定比例、一定数量的样本,也可采取免费测试、付费等方式重新采集符合条件的应试人的语音;有条件的地区可通过动员和鼓励相关专业、相关工作领域(比如播音主持、艺术类、教师等)人士义务参加样本采录。

此外,每个方言区的样本采集对象在一定比例、一定等级的要求下,还应考虑以下几个条件:(1)家庭用语为当地方言;(2)性别比例分布合理;(3)年龄比例分布合理;(4)文化程度比例分布合理;(5)行业比例分布合理。

我们建议,第一期样本库可分几步完成。总课题组先在几个省、直辖市、自治区做些前期试点工作,进行少量样本采集方案的对比研究,包括讨论机测数据和实地采样的差别等,根据实际情况和结果确定最终采集方案。

参考文献

[1]李荣,熊正辉,张振兴,傅懋,王均,道布.中国语言地图集[M].香港:朗文出版公司,1988.

[2]宋欣桥.普通话语音训练教程[M].北京:商务印书馆,2004.

标准样本 篇2

合同编号:

出租人(甲方): 北京厚德海源商贸有限公司

承租人(乙方):

经双方协商就租用复印机事宜签订以下条款:

第一条 租用复印机数量:台,复印机型号:原始起印张数:以复印机送到指定地点后显示的打印张数为 准

第二条 装机地点:

第三条复印机租赁费约定:

1、乙方承租时间:租赁期从年月日至月日。

2、租赁费用计算方式(以A4计,含税):租赁费用=基本租费+超印单价*超印张数。

基本租费:RMB:元/月,即人民币(大写)/月。免费使用张数:张/月。超印单价:RMB:元/张。

第四条费用的计算及支付

甲方应以月度为一个计费周期(每月1日-30/31日)将复印机计数器读数抄录,会同乙方在计数卡上确认复印张数。每期按照计数卡上所结出的复印张数给予结算。每一期的费用乙方应在接到甲方提供的正规发票及印量确认书后工作日内支付,甲方不提供发票,乙方有权拒付,直到甲方提供发票时止。

第五条使用

乙方应严格按操作规程使用,不得野蛮使用和带故障使用复印机;不得用非复印纸复印;不得随意拆装;不得将大头针、钉书钉等硬物带进机器;承租人应派专人管理复印机,并接受出租人的培训。

第六条故障与维修

如复印机发生故障,乙方应尽快通知甲方维修,甲方应在接到通知后1个 工作日内(工作时间)将故障解决,如若1个工作日内无法修复,甲方须在乙方报故障之日起2个工作日内(工作时间)向乙方提供同性能的临时备用机,以保证乙方使用的连续性,正常使用发生的零件部件损坏由甲方免费更换。

第七条保养及消耗品供应

1、为保持复印机的良好作业状态,甲方应每月提供一次必要的检查与调整服务。

3、复印机的碳粉、感光鼓等消耗品的添加、更换应由甲方免费提供,并且应在接到通

知后1个工作日内予以添加、更换,以保证乙方使用的连续性

4、第八条更换

乙方在正确操作的情况下,租用的复印机不堪使用或因复印量增加的需要,经甲方确定后2个工作日内给予更换,如机型不同费用另议。

第九条退租

本合同到期前,乙方如要退租应于30天前通知甲方,甲方经过检查,确认复印机无损坏,乙方已结清款项,双方办理退租,乙方立即将复印机归还甲方。

第十条收回

如有下列情形之一者,甲方有权终止合同,收回复印机及其他一切附属品。

1、乙方无正当理由未能按照本合同的规定交付费用达30日时。

2、乙方遭受法律的查封、重整、破产或改组,承租人的经济信用完全丧失时。

第十一条迁移

乙方如需将复印机迁移位置时,应事先通知甲方,由甲方负责指导迁移。

第十二条所有权

本合同所租用的复印机和消耗品及其他一切附属品(纸张除外)均为甲方所有的财产。乙方不得将复印机出售、转移、租让、担保,抵押或作任何处置以致损害出租人的权益,如有任何第三者侵害此复印机的所有权时,均由乙方承担全部责任。

第十三条赔偿

凡由于乙方人员违反第五条规定造成复印机零部件损坏的, 由乙方赔偿更换零部件所发生的费用。

第十四条付款方式

1.公司转帐/支票:

2.现金

第十五条 本合同一式二份,甲方和乙方各执一份,经双方签字盖章后生效。本合同有效期自年月日起至年月日止,共个月。

第十六条 本合同未尽事宜,甲乙双方另行签定补充协议。补充协议及合同附件是合同不可分割的一部分,与本合同具有同等法律效力。

第十七条 本合同附件与本合同发生冲突时,以本合同为准,补充协议与本合同发生冲突时,以补充协议为准。

此合同一式两份,甲、乙双方各执一份,具有同等法律效力。

甲方(盖章):乙方(盖章):

代表人:代表人:

联系电话:01082483765联系电话:

标准样本 篇3

1.3环试验的组织

在一次特别的会议中,环试验的5个参与者得到了指示和一份书面的协议。这3类皮革中的每一个样品均需进行3次重复测量。每次重复测量中,均包括在4个不同水平的标准加入偶氮染料(与用于对皮革着色的偶氮染料是一致的)后样品的分析。用对芳香胺响应的HPLC检测器进行线性试验,优化了运行时间、柱温和检测波长等条件,以得到全分辨的芳香胺对应峰。为得到校准值,提供和分析了芳香胺测试溶液。将标准加入曲线、测试液的线性曲线和测试结果以及这3类皮革样品均提供给环试验的参与者,并且提供色谱图和吸收谱图,以标识出具有足够分辨率的芳香胺峰。

1.4方法描述

环试验参与者主要采用2种方法进行分析。这2种方法是专为本研究设计的,它们具有高回收率的特点(尽管处理时操作复杂)。这2种分析方法包括脱脂步骤,以利于皮革样品的回湿、还原步骤,以使偶氮染料裂解为芳香胺、微波辅助萃取(MAE)或固相萃取(SPE),以及用带有UV检测器的反相高效液相色谱(RP-HPLC)进行检测。基于MAE的分析方法已经有文献报道了[7]。基于SPE的分析方法是Council Directive 76/769/EEC中提及的CEN ISO/TS 17234:2003的改进方法,是用SPE取代了耗时、耗溶剂的吸附柱提取步骤。接着是皮革样品的还原以及反应混合物的过滤。用盐酸洗涤过滤后的皮革样品数次。洗涤液和滤出物分别采用SPE提取。表3为5个参与者所采用分析方法的详细描述。

2 结果与讨论

2.1 环试验结果的评估

表4为实验室3次重复测量时,各次的平均值(含标准偏差)以及这3次重复测量的平均值(95%半强度宽度置信限度)。基于染料的加入量和纯度所得的理论值如表4所示。需要指出的是,在染料纯度测定时难以避免的不确定度,这已经在理论量的计算时反映出来了。

与预期相同,并不能检测出2-氨基偶氮苯,且仅有3位参与者检测出了它对应的裂解产物,即,苯胺和对苯胺。这5位参与者均认为,这些检测结果并不能用于结果的评估。裂解产物消失的主要原因可能为其高挥发性和高溶解性(在SPE过程中已经分解!)。

被怀疑的Direct Black 168所对应的4-氨基偶氮苯可能带来假正值,但实际测量值低于5mg/kg(即,远低于法规限定值30mg/kg),因此并不需要做特别的考虑。在任一种分析中,对于4-氨基偶氮苯假正值的检测,这是对所采用的检测方法对于假正值对应的芳香胺的形成的敏感程度的指示。

对由参与分析的实验室提供的结果以及在评估会议中提出的信息进行研究,以得到剔除资料的可能的技术原因。主要有3方面:HPLC谱图中芳香胺对应峰的低分辨(见图2)、差的标准加入线性以及数据组之间的明显差异。

由于缺乏足够的分辨率,参与者01对于样品L1的分析结果完全被剔除。图3为由参与者01提供的邻-甲苯胺的不足够峰纯度,以及由另一位参与者提供的相同胺对应的高分辨率的良好峰纯度。由于不足够的标准加入线性,由参与者08提供的样品L3的所有测试结果均被剔除。图4为被选用的或被剔除的标准加入曲线。以同样的原因剔除的测试结果还包括:参与者10提供的样品L1中,联苯胺的测试结果、参与者08提供的样品L4中3,3'-二甲基联苯胺的测试结果,以及参与者05提供的样品L1中3,3'-二氯联苯胺的测试结果。除对于邻-甲苯胺的分析结果外,参与者05对于样品L1中其余胺的分析数据均被剔除,原因为:在95%置信水平区间包括了零(联苯胺)或这3次测试结果中部分数据出现明显偏离。

采用对于合格的环试验数据分析专用的SoftCRM软件[8],对其余的测试结果进行统计分析。通过由该软件得到的条形图(图5为其中的2个例子),分析这些相互影响的数据集(即,数据集在它们平均值的95%置信区间并未发生重叠)。

由软件SoftCRM所得的条形图的示例,显示了具有95%置信区间的实验室测试值。横轴为芳香胺浓度,纵轴为实验室代码;虚线为剔除的数据集。左图为样品L1中邻-甲苯胺;4个可用数据集存在重叠,表明数据可能是合格的。右图为样品L4中3,3'-二甲氧基联苯胺;4个可用数据集不存在重叠,表明数据可能并不合格

表5为能够确定的芳香胺浓度的测试结果。合格的测试结果与理论值具有高度的一致性。理论值是通过对用于皮革样品染色的染料用量(g染料/kg皮革)以及由元素分析(碳、氢、氮、氧、硫、氯和钠)、HPLC和LC-MS分析,对于染料纯度的确定而计算得到的。理论值中不确定度是通过前面研究的结果估计的。在某些情况下会出现高不确定度。例如,当对于不同元素的分析结果存在差异时。

假设合格的测试结果具有广的置信区间,那么这些测试结果是基于实验室测试平均结果的平均值的。对实验室测试结果的方差同质性的Bartlett测试和/或对实验室测试结果平均值差异的Snydecor测试(均通过SoftCRM软件完成),并不需要对所有数据集进行集中分析。

3 结论

本研究对用于分析这3类皮革中芳香胺质量含量的候选有证标准物质的表征取得了成功。并不是所有的芳香胺都能得到合格的测试结果:4-氨基偶氮苯(它在所用检测方法的分析过程中是不存在的)以及3,3'-二氯二氨基联苯(它的溶解性差且会大量吸附在皮革上);尽管采用了标准加入法进行校准,但是测试参与者并不认可这些测试结果的准确性。

研究证实了用于对芳香胺含量分析的皮革认证的可行性。对于待选用的有证标准物质的表征,应当在更大规模上进行环试验,并且应包含更多测试参与者,且每位参与者应进行多次重复试验。用于校准的标准加入法,自动补偿了还原步骤和提取步骤中未知的效率的损失。所采用的分析方法对于4-氨基偶氮苯产生的假正值并不灵敏。然而,以后应当对那些已知的、在更苛刻的还原条件下会产生假正值的有证标准物质进行研究,从而检查所用分析方法对于假正值的灵敏度。

最后,需要指出的是,为达到分析结果的高准确度,本研究所采用的表征方法相当复杂。在对皮革中芳香胺含量进行日常分析时,所采用的方法比较简单,相应的准确度也低。

参考文献

[1]Aldrich F D.Excretion of radioactivity from rats and rabbits following cutaneous application of two14C labelled azo dyes.J Toxicol Environ Health,1986,18:347-355

[2]Collier S W,Storm J E,Bronaugh R L.Reduction of azo dyes during in vitro per-cutaneous absorption.ToxicolAppl Phar-macol,1993,18:73–79

[3]Cerneglia C E,Zhou Z,Manning B W,et al.Influence of chlorine substituents on rates of oxidation of chlorinated biph-enyls by the biphenyl dioxygenase of burkholderia sp.Strain LB400,Mutat Res,1986,175:11–16

[4]Rai F,Hall J D,Cerneglia C E.Muta-genicity of azo dyes used in foods,drugs and cosmetics before and after reduction by clostridium species from the human in-testinal tract.Food Chem Toxico,1997,35(9):897-901

[5]Anon(2002)Directive2002/61/EC of the European Parliament and of the Council of19July2002amending for the nineteenth time Council Directive76/769/EEC relating to restrictions on the marketing and use of certain dangerous substances and preparations(azocoloura-nts).Off J EU L243:15-18

[6]Püntener A,Fennen J.Advanced free ra-dical reactions for organic synthesis,Das Leder,1997,10:208–213

[7]Ahlstrm L-H,Bjrklund E,Mathiason L.Optimization of an analytical proce-dure for the determination of banned azo dyes in leather.Anal Bioanal Chem,2005,382(5):1320–1327

标准中文求职信写作样本 篇4

尊敬的领导:

您好!

我是_______大学_____系的一名学生,即将面临毕业。

_______大学是我国____人才的重点培养基地,具有悠久的历史和优良的传统,并且素以治学严谨、育人有方而著称;_____大学____系则是全国____学科基地之一。在这样的学习环境下,无论是在知识能力,还是在个人素质修养方面,我都受益非浅。

四年来,在师友的严格教益及个人的努力下,我具备了扎实的专业基础知识,本文来源于好范文为求职者提供系统地掌握了____、____ 等有关理论;熟悉涉外工作常用礼仪;具备较好的英语听、说、读、写、译等能力;能熟练操作计算机办公软件。同时,我利用课余时间广泛地涉猎了大量书籍,不但充实了自己,也培养了自己多方面的技能。更重要的是,严谨的学风和端正的学习态度塑造了我朴实、稳重、创新的性格特点。

此外,我还积极地参加各种社会活动,抓住每一个机会,锻炼自己。大学四年,我深深地感受到,与优秀学生共事,使我在竞争中获益;向实际困难挑战,让我在挫折中成长。祖辈们教我勤奋、尽责、善良、正直;_____大学培养了我实事求是、开拓进取的作风。我热爱贵单位所从事的事业,殷切地期望能够在您的领导下,为这一光荣的事业添砖加瓦;并且在实践中不断学习、进步。

收笔之际,郑重地提一个小小的要求: 无论您是否选择我,尊敬的领导,希望您能够接受我诚恳的谢意!

祝愿贵单位事业蒸蒸日上!

某某某

____年__月__日

标准样本 篇5

2009年,Wright等人将稀疏表示引入人脸识别问题中[7],提出了稀疏表示分类器(Sparse Representation based Classification,SRC),该方法的基本思想是首先将测试样本表示为所有训练样本的一个稀疏的线性组合,这里“稀疏”的意思指:在将测试样本表示为所有训练样本的一个线性组合时,一些训练样本所对应的系数的值为零或接近于零;然后SRC利用范数最小化技巧来获得最稀疏的解;最后,根据每一类训练样本对测试样本的重建误差做出分类决策。实验证明SRC可以获得令人满意的结果,且SRC对光照、噪声、遮挡具有较强的鲁棒性。随后,人们对基于稀疏的人脸识别方法进行了大量研究。尽管SRC可以在人脸识别中取得非常好的分类结果,但人们依然不清楚它的潜在理论基础,因此,相关研究提出基于SRC的人脸识别中协同性比稀疏性更重要,例如,Shi等人提出基于范数的算法可以媲美于基于范数的算法[8];Zhang等人提出了一种协同表示分类器(Collaborative representation based classification,CRC)[9],CRC采用了正则化范数最小化技巧,实验证明CRC与SRC可以获得相当的分类结果,但CRC具有更高的运算效率。

目前,大多数人脸识别算法非常依赖于训练样本,这些算法进行分类识别的前提之一就是假设有足够多的训练样本。如果没有足够多的训练样本,那么这些算法的性能会受到严重影响,甚至无法进行识别。然而,在实际的人脸识别系统中,由于有限的存储容量和捕获图片的时间,往往只能获得少量的训练样本,即实际中的人脸识别更有可能是一个小样本问题[10]。为了获得更好的人脸识别结果,研究人员提出了合成虚拟样本来扩充训练样本集,如Thian等人利用简单的几何变换来构造虚拟样本[11];Tang等人通过在原始训练样本上增加噪声来构造虚拟样本[12];Xu等人利用人脸的对称性来构造虚拟样本[13],这也是第一次在人脸识别中提出对称脸的概念。

为了有效地解决小样本情况下的人脸识别分类问题,本文提出一种融合原始样本和虚拟样本的人脸识别方法(Fusion of Original Sample and Virtual Sample Method,FOSVSM)。该方法先利用人脸的对称性来构造虚拟样本;然后利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差;最后,将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。人脸具有对称结构,不仅面部结构是对称的,而且面部表情也是对称的,因此,根据人脸的对称性所构造的虚拟样本能够反映某些情况下的可能的人脸变化,这也就是说,本文所提的方法能够有效地解决小样本问题。

1 融合原始样本和虚拟样本的方法(FOSVSM)

假设存在L个不同的模式类别,且每一类包含n个训练样本,x1,x2,…,xN代表所有的N个训练样本(N=n×L),若某个训练样本来自第i类,则它的类标签是i。FOSVSM主要包含三个阶段。FOSVSM的第一阶段是构造原始训练样本的左、右对称脸并产生虚拟训练样本集;FOSVSM的第二阶段是利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差;FOSVSM的第三阶段是将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。

1.1 构造虚拟训练样本

FOSVSM的第一阶段如下:利用原始训练样本构造其左、右对称脸。对于任意一幅图像矩阵,令分别代表它的左、右对称脸,左、右对称脸可以分别由式(1)、(2)来产生,即

其中,分别代表相应图像的第i行、第j列的像素。

现将上述的图像矩阵按列展开成一个列向量,令x1,x2,…,xN,z11,z21,…,zN1和z12,z22,…,zN2分别代表原始训练样本集、左对称脸训练样本集和右对称脸训练样本集,并将所有的左、右对称脸样本组成一个虚拟训练样本集,即Z=[z11,z12,…,zN1,zN2],从而得到两个训练样本集,即原始训练样本集X=[x1,x2,…,xN]和虚拟训练样本集Z。

1.2 协同表示分类器(CRC)

FOSVSM的第二阶段是利用协同表示方法分别对原始训练样本和虚拟训练样本进行分析,并且分别得到每一类训练样本的重建误差。FOSVSM需要利用协同表示方法分别对原始训练样本集和虚拟训练样本集进行分析,但为了方便介绍,这里只描述CRC在原始训练样本集上的分析过程。

根据1.1节内容,训练样本集为X,现在给定某个测试样本y,CRC首先假设存在下面的等式

然后,CRC利用正则化最小二乘方法对式(3)进行求解,可以得到式(3)的解为α=(XTX+λI)-1XTy。其中,λ是一个很小的正数;I是一个单位矩阵。

在获得系数解α之后,即可求得第i类训练样本对测试样本y的重建误差

其中,Xi=[x(i-1)×n+1,…,xi×n]表示第i类原始训练样本;αi表示第i类原始训练样本对应的解向量。

同样地,可以按上述过程对虚拟训练样本集进行分析,则将虚拟训练样本集的第i类训练样本对测试样本的重建误差表示如

其中,βi为第i类虚拟训练样本的解向量;Zi=[Z1(i-1)×n+1,Z2(i-1)×n+1,…,Z1i×n,Z2i×n]表示第i类虚拟训练样本。

1.3 加权融合

FOSVSM的第三阶段是将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合并得到最终的分类结果。根据第1.2节的内容可知,原始训练样本和虚拟训练样本的第i类训练样本的重建误差分别为ri和vi,将它们进行加权融合并作为第i类训练样本对测试样本的最终的重建误差,表示为freci,则有

其中,w1和w2表示进行加权融合时的权值,且有w1+w2=1。

最后,根据每一类训练样本对测试样本的最终的重建误差,将测试样本分类给具有最小重建误差的那类,即若frecl=min freci,则测试样本被分类识别为第l类。

总的来说,FOSVSM方法的主要算法步骤可表示如下:

1)由式(1)和(2)构造原始训练样本的左、右对称脸并组成一个虚拟的训练样本集;

2)根据式(4)和(5)分别计算原始训练样本集和虚拟训练样本集对测试样本的第i类重建误差;

3)将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合,即根据式(6)计算第i类训练样本对测试样本的最终的重建误差;

4)根据每一类训练样本对测试样本的最终的重建误差,将测试样本分类给具有最小重建误差的那类,即若frecl=min freci,则测试样本被分类识别为第l类。

2 实验结果及分析

为了测试本文算法的性能,利用ORL和AR人脸数据库进行人脸识别实验。ORL数据库总共有400幅人脸图像,分别来自40个人,即每一个人包含10幅图像。这些人脸图像分别是在不同的时期、不同表情(如笑与不笑)和不同细节(如戴眼镜和不戴眼镜)等条件下获取的,图1表示来自于ORL数据库的一些人脸图像及其对应的左、右对称脸。AR数据库包含126个人共4 000多幅彩色图像,其中有70名男性和56名女性。这些人脸图像是分两个批次采集完成的,包含不同的表情、不同的光照和遮挡物。本文选取AR数据库的一部分图像进行实验,包括120个人,每人26幅图像,共3 120幅图像,且所有的图像在实验前均被转化成灰度图像,图2表示来自于AR数据库的一些人脸图像及其对应的左、右对称脸。

2.1 ORL数据库实验

对于ORL数据库,本文分别选取每人的前1,2,3幅图像作为训练样本,剩余的图像作为测试样本,因此,训练样本总数分别为40,80,120,相应的测试样本总数分别为360,320,280。在实验前利用下采样方法[14]将所有的图像裁剪为56×46大小。为了验证FOSVSM算法的有效性,本文将FOSVSM算法的实验结果分别与CRC_OR,CRC_VI,SRC等方法的实验结果进行对比,其中,CRC_OR表示协同表示方法在原始训练样本集上进行实验分析;CRC_VI表示协同表示方法在虚拟训练样本集上进行实验分析。对比结果如表1所示。

%

从表1可以看出,FOSVSM算法总能获得更高的识别率。例如,当每一类的训练样本数为2时,FOSVSM(w1=0.7)的识别率比CRC_OR,CRC_VI和SRC分别高了0.62%,7.81%和6.25%。比较CRC_OR和SRC的结果可知,CRC_OR能够获得与SRC相当的识别率,甚至更高的识别率,但CRC算法的运算效率更高,这证明FOSVSM算法中利用CRC方法进行实验分析能在一定程度上提高运算效率。从表1可以得知:当每一类的训练样本数由1到3变化时,FOSVSM算法的识别率总是高于CRC_OR的识别率,这说明增加训练样本数确实能够提高分类识别率;同样地,在不同的权值条件下,FOSVSM算法的识别率总是高于CRC_OR和CRC_VI的识别率,这说明FOSVSM算法将原始训练样本和虚拟训练样本的同一类重建误差进行加权融合确实能够提高识别率。

2.2 AR数据库实验

对于AR数据库,本文分别选取每人的前13,14,15幅图像作为训练样本,剩余的图像作为测试样本,因此,训练样本总数分别为1 560,1 680,1 800,相应的测试样本总数分别为1 560,1 440,1 320。同样地,在实验前利用下采样方法[14]将所有的图像裁剪为50×40大小。实验结果如表2所示。

从表2可以看出,FOSVSM算法往往能获得更高的识别率。例如,当每一类的训练样本数为13时,FOS-VSM(w1=0.7)的识别率比CRC_OR、CRC_VI和SRC分别高了0.64%,7.50%和4.40%。从表2可知,CRC_OR的识别率总是高于SRC的识别率,这再次证明了FOSVSM算法中利用CRC方法进行实验分析能在一定程度上提高运算效率。同样地,表2中的结果也再次证明了增加训练样本数且对原始训练样本和虚拟训练样本的同一类重建误差进行加权融合确实能提高人脸识别率。

%

3 结束语

标准样本 篇6

人脸识别(Face Recognition)是指基于已知的人脸样本库,利用图像处理和模式识别技术从静态或动态场景中,识别一个或多个人脸。目前有许多人脸识别方法,当有充分数量的有代表性的训练样本时,能取得较好的识别效果。但是,在身份证和海关护照验证以及公安执法等应用中,训练集中每个人都只有一幅人脸样本图像,所以目前大多数识别方法都无法获得好的识别效果,识别率会大幅下降,有些方法甚至无法应用,于是,基于单训练样本的人脸识别成了当今的一个研究热点。

单训练样本人脸识别,是指从给定的每人仅存储一幅已知身份的图像的数据库中识别出姿态、光照等因素不可预测的图像中人的身份[1]。针对这种单样本人脸识别问题,许多研究人员提出了各种各样有效的识别算法,比如样本增强法、样本扩张法、通用学习框架法等,大致可以分为三类:基于统计特征、基于几何特征和基于连接机制的方法。尽管有些方法,比如主成分分析法(PCA),能够直接用于单训练样本人脸识别,但识别率很低,识别效果不理想[1]。

为了提高单样本的识别率,只需根据每个人的单样本构造出多个样本,因此,前人提出了很多方法,例如,文献[2]与文献[3]分别提出了两种不同的基于奇异值分解(SVD)的算法来获取多样本,然后再应用经典的LDA方法进行特征提取。

本文提出了一种基于样本扩张法的人脸识别方法,通过镜像对称变换得到每个训练样本的几张虚拟样本,再通过子图像划分方法得到各个虚拟样本的子图像,利用2DPCA方法对子图像进行特征提取,再根据最近邻原则完成识别,在一定程度上提高了识别率。

1 算法设计与分析

1.1 样本扩张法

假设给定训练样本A,Am×n的图像,变换训练样本生成虚拟样本。具体作法如下[4]。

1)首先求A(x,y)水平和垂直方向的投影积分及图像A的像素点灰度的和

V(x)=y=1nA(x,y)Η(y)=x=1mA(x,y)(1)

SumA=x=1my=1nA(x,y)(2)

计算MP(x,y)以及P(x,y):

ΜΡ(x,y)=V(x)Η(y)/SumA;Ρ(x,y)=(A(x,y)+αΜΡ(x,y))/(1+α)(3)

式(3)中的α=0.25。

图像P(x,y)的取值可能超出了[0,1],将P(x,y)归一化到[0,1],得到第一个虚拟图像A1:

A1(x,y)={Ρ(x,y)-minxy[Ρ(x,y)]}/{maxxy(Ρ(x,y)]-minxy[Ρ(x,y)]}(4)

2)对原始图像A的每一个点的灰度值取平方得到图像:J(x, y) = A2(x, y),根据式(1)和式(2) 得到二阶投影积分V1(x)、H1(y)及SumA1,同MP(x, y),用下式得到MP1(x,y):

MP1(x,y)=V1(x)H1(y)/SumA1 (5)

由图像A,MP以及MP1生成另一个图像P1(x, y):

P1(x,y)=(A(x,y)+αMP(x,y)+

βMP1(x,y))/(1+α+β) (6)

式(6)中,α=0.25、β=1.5。

同样P1(x, y)的值也可能超出[0,1]。用式(4)的方法将P2(x, y)归一化到[0,1],得到第二个虚拟图像A2。

3)将图像A1做镜像对称变换,得到虚拟图像A3。

4)将图像A2做镜像对称变换,得到虚拟图像A4。

5)将图像A做镜像对称变换,得到虚拟图像A5。

6)降低图像A的亮度,A(x,y)α1,(0<α1<1),得到虚拟图像A6。

7)提高图像A的亮度,A(x,y)α2,(α2>1),得到虚拟图像A7。

如此,训练样本数可以从1张增加到8张,当然,在亮度问题上,可以根据情况设定不同的α1或α2再适当增加虚拟样本的个数。

如图1所示,图1(a)为原样本A,图1(b)为A1,图1(c)为由A1镜像变换得到的A3,图1(d)为A2,图1(e)为由A2镜像变换得到的A4,图1(f)为由原样本A镜像变换得到的A5,图1(g)为降低A的亮度,得到的虚拟样本0.6A,图1(h)为降低A的亮度得到的虚拟样本0.7A,图1(i)为增加A的亮度得到的虚拟样本1.1A

1.2 子图像生成

子图像生成,即按照一定的划分规则,将每张图像分成多个子图像,考虑到每张图像中相邻的点的像素值相等或者相近,所以,所用的方法是间隔地提取图像的像素,以此构造出多张外观上与原图像相似的子图像,具体作法如下。

假设给定训练样本A,Am×n的图像,划分训练样本生成M×N张floor(m/M)×floor(n/N)的子图像,其中,M=1,2,…,m,N=1,2,…,n

在训练之前,先根据图像的大小确定MN的值,然后进行行列划分。

先按行划分,Ai(row:)=A[(row×M-M+

i)] (7)

式(7)中,i=1,2,…,M; Ai(row:)表示A的第i个子图像的第row行;

再按列划分,

Aij(:col)=Ai[:(col×N-N+j)] (8)

式(8)中,i=1,2,…,M; j=1,2,…,N; Aij(:col)表示A的第((i-1)×N+j)个子图像的第col列。

按照上述的划分规则划分图像,则可以得到从A11(x, y)至AMN(x, y)的M×N张子图像。如图2所示,图2(a)为ORL人脸库上的一张112×92人脸原图像,其余9张为按照3×3的规则划分成的37×30的子图像。

从图中可以清晰地看到,子图像较原图像很相似,能够近似地代表原图像,但是,也应该注意到一点,如果图像分块较多,子图像必定会失真,所以,能够很好地把握分块对识别率的提升还是很重要的。

1.3 特征提取

特征提取是人脸识别关键的一步,为了能有效地提取分类最优的特征使用子空间方法,运用了2DPCA方法,直接利用各个子人脸图像的主元特征,从图像矩阵出发分别从水平和垂直方向提取图像特征,达到了很好的识别效果。2DPCA方法是一种比较经典的方法,具体的步骤在此不再赘述,可以参考文献[5]。

1.4 识别

本文提出的方法是在增加虚拟样本的情况下,继续将每张大的训练样本划分成M×N张子图像,训练阶段,训练的是被划分后的子图像,测试阶段,每个测试样本也被划分成M×N张子图像,这样,识别的时候,采用的是最近邻方法,得出与每个测试人脸的子图像距离最近的训练子图像,即为最相似的人脸。

2 实验结果及其分析

2.1 ORL人脸库

ORL人脸库共有40个人的400张图片,每人10张,其中有些图像是拍摄于不同时期的,人的脸部表情和脸部细节有着不同程度的变化,比如笑或者不笑、眼睛或睁或闭、戴或不戴眼镜,人脸姿态也有相当程度的变化,深度旋转和平面旋转可达20°,人脸尺度也有多达10%的变化。

实验中,取第一幅图像作为训练样本,其余9幅作为测试样本,即训练样本有40个,测试样本360个,表1是实验结果,表中列出了不同的划分情况下的识别率。

从表1中可以看出,子图像划分得太少识别率偏低,原因是虚拟样本的个数不够多,但是当子图像太多的时候识别率也偏低,原因是划分得越多,子图像失真越厉害,必定会影响识别效果,当划分块数为4×4或者4×5时,识别率达到最高77.78%。

2.2 FERET人脸库

取FERET人脸库的一部分,包括ba,bb,bc,bd,be,bf,bg,共有200个人,每人7副人脸图像,它们是在不同的表情、视角及其光照强度下拍摄的,如图3所示,为其中一个人脸的7副图像,由图3(a)—图3(b),对应为ba—bg中的一张人脸图像,选择ba作为训练样本,包括不同视角、不同表情、不同光照强度的bb至bg作为测试样本。

表2为本文方法应用在FERET人脸库上的单样本人脸识别率。

从表2中同样可以看出,划分得太少、划分得太多都会降低识别率,将每个人脸图像划分成4×4个子图像时,取得最高识别率,在各个人脸数据库上的平均识别率达58.33%。

2.3 比较与分析

文献[2,3,6,7]也都对虚拟样本扩张法在单样本人脸识别中应用做了相应地研究,将本文方法与它们在两大人脸库上的最优识别率进行了比较,比较结果如表3、表4所示。

从表3中可以看出,本文方法的在ORL上的单样本识别率明显高于文献[2,3,6,7],其中,比文献[6]中的方法高出了33%,比文献[3]中的方法高出了2%,同时,因为本文方法借助了2DPCA,所以将2DPCA方法的识别率也放在了表中进行比较,发现,较2DPCA方法,本文方法提高了5%,体现了本文方法的优越性。

从表4中可以看出,无论从每个人脸库还是从平均识别率来看,本文方法在FERET上的单样本识别率都明显优于各个文献中的方法以及2DPCA方法。其中,本文方法在bg人脸库上的识别率高出了其它各方法[(52.5—5.5)—(52.5—5)]%即(47—47.5)%,这是因为,bg人脸库中各个样本均是在光照条件很暗的情况下拍摄的,本文方法又恰好增加了与亮度有关的虚拟样本,所以能够很好地识别这些样本,而其它各个方法都不能很好地做到这点。

3 结束语

对基于虚拟样本扩张法的单样本人脸识别问题进行了研究,通过结合虚拟样本扩展法、子图像生成方法及其2DPCA,在ORL及其FERET两大人脸库上进行了实验,证明了本文所提方法的优越性,增加虚拟样本,划分子图像,提高了识别率,但同时,样本多了必然会使效率降低,所以,怎样更好地综合考虑人脸的视角、光照及其识别效率,将是今后研究的一个重点,在不久的将来,利用虚拟样本扩张法,再结合其它的方法,可更进一步地提高单样本的识别率。

参考文献

[1] Lu Jiwen, Tan Yapeng, Wang Gang. Discriminative multi-manifold analysis for face recognition from a single training sample per person. In proceedings of International Conference on Computer Vision, 2011:1943—1950

[2] Zhang D,Chen S,Zhou Z.A new face recognition method based onSVD perturbation for single example image per person.Applied Math-ematics and Computation,2005;163(2):895—907

[3] Gao Q, Zhang L, Zhang D. Face recognition using FLDA with single training image per person, Applied Mathematics and Computation,2008;205(2):726—734

[4] Moghaddam B, Pentland A. Probabilistic visual learning for project representation. IEEE trans on PAMI, 1997;19(7); 696—710

[5] Yang Jian, Zhang D,Frangi F, et al.Two-dimensionaI PCA: a new approach to appearance-based face redresentation and recognition.IEEE trans on PAMI, 2004;26(1): 131—137

[6] Chen Songcan, Zhang D Q, Zhou Z H.Enhanced (PC)2A for face recognition with one training image per person. Pattern Recognition Letters,2004;25 (10):1173—1181

上一篇:采血护士下一篇:微利企业