身份识别技术

2024-09-16

身份识别技术(通用12篇)

身份识别技术 篇1

0 引言

作为一种迅速发展的生物身份识别技术,手静脉识别有着显著的优点:社会可接受,特征不易复制,比指纹受破坏的可能性更小,不易入侵,无明显的建康威胁,特征惟一性,低成本,精确快速,比签名和声纹等行为生物测量特征变化小。手静脉识别具有广阔的应用前景。

1 发展历史及研究现状

1983年,柯达公司在诺丁汉的雇员Joseph Rice在研究红外条形码技术时产生了利用人手背血管红外成像作为身份识别的想法,发明了手静脉特征识别技术,取名为Veincheck[1]。然而柯达公司的主管认为此技术缺乏市场潜力并未采用。1987年10月31日J.Rice获得此项技术的第一个专利(Patent#4699149,Apparatus for the identification of Individuals)。J.Rice将其发明授权给BTG(British Technology Group)负责专利的开发和管理,希望能在安防工业有所建树,但当时并未引起BTG足够的重视,开发进度缓慢。1990年J.Rice担心此发明被BTG拖延了时间而埋没,决心自己投入技术开发,此时BTG已安排英国前国家物理实验室科学家David Claydon开始了有关静脉结构的多样性和惟一性测试,J.Rice和David讨论后采用了Statistical Process Control(SPC)的方法进行生物身份识别。1991至1993年P.MacGregor,R.Welford,P.L.Hawkes和D.O.Clayden等人发表了3篇关于Veincheck的原理接绍性文章和技术报告[2,3,4],明确指出Veincheck是一种以手背静脉作为身份比对特征的生物识别系统。J.Rice于1994年发表名为”A Quality Approach To Biometric Imaging”的文章简要的介绍了Veincheck的开发历程和相关算法[5]。受当时技术条件的限制,J.Rice采集的图像质量很差,但测试效果仍然令人鼓舞,如图1所示[5]。1993至1995年间,澳大利亚的A.J.Mehnert,J.M.Cross and C.L.Smith开展了基于热成像的手背血管特征识别的研究[6,7]。1998年BTG上市公司高级经理Eugene Sweeney撰文介绍了veincheck手静脉识别技术的优点:社会可接受,特征不易复制,比指纹受破坏的可能性更小,不易入侵,无明显的建康威胁,特征唯一性,低成本,精确快速,比签名和声纹等行为生物测量特征变化小[1]。2000年,Veincheck的开发原型机在英国信息安全部门CESG/BWG的通用办公环境测试中表现平庸,此后没有发现有关Veincheck产品商用的报告。J.Rice研究宣传Veincheck技术的网站最后一次更新停留在了2000年[8]。2007年这位手静脉识别技术的先锋撰文对此项技术的应用进展缓慢表示焦虑,建议开发可穿戴式静脉采集设备[9]。

1992年,日本北海道大学生物工程系的K.Shimizu发表文章认为可以利用人体手血管红外成像作为身份识别依据[10],此文章被认为是日本和韩国进行手静脉识别技术研究的源头。

1997年,韩国的BK System公司发布了亚洲第一个商用手背静脉识别产品BK-100,1998年H.S.Choi和BK System取得了美国专利[11],BK System又开发了BK200和BK-300两个改进产品,由于种种原因,1998年底,BK System的产品就停产了。2000年,BK System的一些成员组建了Techsphere公司,继续研发静脉识别产品,最终推出了VP-Ⅱ,如图2所示[5]。这期间他们发表了一些论文[12,13,14,15],在图像采集和滤波算法上都进行了改进,使用了组合常态滤波和增强滤波、基于静脉走向的方向滤波算法,报道称该研究采用10 000人进行了测试,FAR可提高到0.000 01,识别速度为0.1 s[12]。VP-II在BK System产品的基础上重新设计,使用了当时最新的数字图像处理技术,采用红外光源补偿,改进了静脉特征的抽取算法,通过温度传感器检测防止欺骗,大大改进了可靠性并提高了性价比,同时声称适用于99.98%的人群。VP-II被成功应用于机场,银行和医院等单位。

此时,为了绕开手背静脉识别的专利,在日本兴起了基于手掌静脉和手指静脉识别技术的研究和开发,M.Kono和N.Miura等人先后发表了关于手指静脉识别的文章[16,17]。日立公司推出了系列手指静脉识别产品,如图3所示。富士通公司则推出了手掌静脉识别产品[18,19]。此后静脉识别技术的发展就进入了研究和产业化交织的状态。而且由于企业早期的介入和过多的专利保护,一度大大降低了此项研究的活性。

2006年国际生物识别组(International Biometric Group:IBG)对比测试报告公布了日立公司Hitachi TS-E3F1和富士通公司Fujitsu PalmSecure的测试结果,如表1所示[20]。

注:AL:Attempt Level将每次尝试作为一次统计TL:Transaction Level将一次事务作为一次统计(可能尝试多次才通过)TAR:True Ac-cept Rate识真率FAR:False Accept Rate认假率。

测试结果表明目前静脉识别技术和虹膜识别技术的性能指标相当。日立TS-E3F1传感器如图4所示,富士通PalmSecure传感器示意如图5所示。

中国对静脉识别技术的研究起步较晚。2003年清华大学学报报道了清华大学精密测试技术及仪器国家重点实验室利用自行设计的近红外血管图像采集仪提取血管的原始图像并进行了特征识别,文献中描述:对采集到的图像样本,由于存在光照不均是图像灰度分布不均的情况,所以要对图像灰度做归一化处理,使其均值方差在规定范围内,这样在进一步处理和匹配时可以降低难度,在图像增强与二值化部分,采用分区动态二值化方法实现,再对二值图像滤波去噪,然后细化,最后提取细化图像特征,以端点、交叉点为基础进行特征比对。文献给出了65个小范围样本的匹配实验结果,在拒真率为4.6%条件下,误识率为0[21]。中国台湾某大学的范国清和林志隆等人采用中红外热成像技术研究了手掌和手背静脉的识别方法[22,23],他们使用了Inframetrics Corp的红外摄像机,采用的红外波长为3.4~5μm,探测器为PtSi 256×256 element FPA,达到FRR和FAR同为2.3%。2004年后,其他一些大学纷纷开始了静脉识别技术的研究,如哈尔滨工程大学的王科俊,丁宇航等人较为系统的研究了手静脉识别的采集和识别算法[24,25,26,27,28],其他高校如吉林大学李铁钢、韩笑等等也分别在静脉图像的采集、红外图象增强和特征识别等方向做了大量研究工作[29,30,31,32,33,34,35],由于中国在民用红外光学成像产业化的基础相对落后,在静脉采集设备的制造工艺上水准较低,研究成果转化为产品应用的很少。

2 基本原理

手静脉识别的原理是通过红外成像获取人手局部的血管图像,通过ROI(Region of Interesting)的选取,图像增强等步骤获得优化的图像,再通过模式分割和细化提取静脉模式进行匹配,从而得到辨识结果。系统模型如图6所示。

图像获取是建立在红外成像的基础上的,对物质光谱响应的研究开展的很早,很多医学和生物学实验室都测定了血红蛋白等物质的光谱响应曲线,图7中[36]给出了氧合血红蛋白HbO2,脱氧血红蛋白Hb和水的光谱吸收曲线,研究发现人体组织对红外波段的光线吸收较弱,即红外光具有较强的穿透能力,在波长为805 nm处,HbO2和Hb的响应曲线交叉,水的吸收因子也很低,因人体血管内HbO2和Hb的浓度是变化的,为保证红外成像的稳定性,805 nm是理想的成像光波段。

2.1 静脉图像采集装置的研究

国内外对静脉采集装置的研究,静脉图像的采集装置按有无主动光源分为两类,无主动光源的采集设备主要是热像仪,价格昂贵,目前使用的很少。有主动光源的采集设备主要有3种结构,如图8所示。手背和手掌静脉采集采用反射式,手指静脉采集一般采用透射式。

在静脉识别的发展史上,图像采集设备在不断地演进中,图像质量越来越好,体积越来越小,价格越来越便宜。

1995年澳洲Edith Cowan大学的J.M.Cross和C.L.Smith在论文中首次提到使用红外LED作为补偿光源对手背静脉进行拍照,此前BTG的veincheck使用钨丝灯作为光源,如图9所示[7]。

英国的David Oswald Clayden 98年在他的一个美国专利中,介绍了静脉采集的方法,手握住一固定拉手上来固定手背的位置,在其上方有一对固定的带通滤光片和一个摄像机,通过四个红外光源照射的光线,提取手背静脉图像,通过相关算法,可以简易地实现认证。这也是韩国的VP-II使用的采集方法。

南洋理工大学计算机工程学院的Lingyu Wang和Graham Leedham在论文中提到,静脉隐藏在皮肤下面,通常我们肉眼以及其他的可见光检测系统是不可见的。人体的浅表静脉的温度比周围组织的温度要高,因此,通过一个热摄像机获取手背静脉的图像。在这项工作中,使用了一个NEC热跟踪仪来获取手背图像[37]。

索尼公司2009年2月2日宣布了一项命名为“mofiria”的超薄型的手指静脉识别技术的开发成果,它采用了独特的方法:一个CMOS感应器斜向捕捉手指静脉内部透过的散射光,从而形成一个平面图案;可以实现微型和更为灵活的设计以将此项技术植入移动设备中,如图10所示。考虑到杂光干扰的影响,此技术能否实际应用还不得而知。

国内研究机构在静脉图像采集装置上的研究投入较少,多为局部的改进,如2008年北京大学的Yanggang Dai等使用了非均匀红外光源补偿,使手指的红外图像亮度均匀,使得图像灰度标准差降低48.4%,静脉长度和分叉个数两种特征值分别增加了44.1%和31.4%[38]。

2.2 算法研究

静脉识别算法的研究主要集中在红外图像的预处理,特征抽取和模式匹配这三个环节。红外图像的预处理主要研究图像滤波,图像增强和二值化等方面。有关算法仍然在不断完善和改进,中值滤波,形态学滤波,直方图均衡化等方法都被广泛使用。特征抽取和匹配算法紧密结合,目前基于血管骨架的拓扑结构和特征点的匹配方法比较流行,基于图像Hu不变矩判定、二维随即信号相关函数计算、灰度统计等比对方法都有尝试。由于国内外对于图像识别的研究近年一直是热点,红外图像的预处理,特征抽取和模式匹配这三个环节都有大量算法借鉴,国内一些研究机构开展了应用研究[23,24,25,26,27,28,29,30,31,32,33,34],限于篇幅,这部分内容不再一一介绍。根据近年的研究结果,单一的特征很难保证识别的效果,因此多种特征识别方法的融合成为了研究的重点。

生物识别技术仍然在不断的发展中,指纹识别、掌纹识别、虹膜识别、人脸识别和静脉识别等等不断涌现的新算法相互借鉴,促进了各自技术研究的深入。包括基于图像的植物和动物自动识别技术都与传统的生物身份识别技术发生了技术交流现象,如植物叶脉识别和昆虫自动识别的算法和指纹、掌纹、虹膜及静脉识别技术的算法就发生了相互渗透,如文献[39]等。

3 常用参数和术语

3.1 验证(Verification)和识别(Identification)

验证是1∶1的匹配过程,用户需要提供自己的ID,系统将预先存储在数据库中此ID的特征调出与用户本次被采集的特征进行匹配。目前市场上的生物识别产品绝大多数是验证型的,如图11所示。识别是1∶N的匹配过程,系统将本次采集到的特征与数据库中所有特征匹配,挑选出得分最高者或因得分低于阀值而认定特征不在数据集合中,如图12所示。

3.2 不匹配率(FNMR)和错误匹配率(FMR)

不匹配率(False Non-Match Rate,FNMR)定义为:

FMR(False Match Rate错误匹配率)被定义为:

3.3 拒真率FRR和认假率FAR

在某些文献中将FNMR与FRR,FAR与FMR等同了,严格意义上是有区别的。拒真率和认假率用于评价整个系统的判决错误情况,包含了因系统的判决策略而导致的匹配不成功和特征获取不成功的组合。对基于单次尝试的验证系统,很明显有以下公式:

式中:FTA(failure to acquire rate)为特征获取不成功率。

3.4 等错误率EER(Equal Error Rate)

将判别的门限逐渐提高时,FAR由最高逐渐降低降低直到接近零,但同时FRR会由接近零开始逐渐增加,如图13所示,当判别门限值达到最大(例如相似度要100%才能通过辨识),FRR的值也处于最大值,FAR及FRR的交汇点被称为EER(Equal Error Rate)也就是2种辨识率相同的点,该点是FRR及FAR和的最小值,将判别门限设定于ERR时会有最均衡的效能,一般会用ERR的数值大小来做为辨识系统性能高低的指标,ERR的值越低表示辨识系统的性能越好。

某些地方使用了识别率GAR(Genuine Accept Rate)的概念,表示真实的身份被识别的比率,也称为TAR(Ture Accept Rate),通常GAR=1-FRR。

4 目前存在的问题

基于红外图像的静脉识别技术有着自身的缺陷由于自然界中某些物质对红外线有较强的吸收率,如碳素墨水,这使得伪造一份静脉图像并不难。2008年美国FBI的一份报告中公布了一些针对手静脉识别技术的攻击方法[40],通过拍摄人手的红外照片可以绘出人手的血管图,将绘制的血管图贴在热水瓶上进行注册,然后再将绘制的血管图贴人手上验证通过。实际上对大多数的手静脉识别仪用任何一幅图片都可以注册和验证通过,并没有验证其他的生命体征,这使得作弊变得相当容易,比如某单位的考勤系统使用了静脉识别系统,员工甲可能通过红外拍摄方法绘出自己的手部血管图,交给员工乙验证代为签到。

在实验室和现场测试中还发现下面问题:

(1)温差变化剧烈可能影响识别率,正常注册成功的用户将手放入冷水中十几秒钟后立即取出进行验证发现通过率明显降低;

(2)长时间生理特征变化可能影响识别率,如某个人在经过了数月的锻炼后,血管会增粗,这都会影响到识别率;

(3)红外吸收材料的干扰可能影响识别率,由于静脉采集设备依赖于红外成像,对红外线吸收明显的附着物可能影响识别效果,有学者还特别研究了体毛对识别的影响[37];

(4)杂光干扰可能影响识别率,尤其是日光强烈的地方,红外图像采集的质量下降,导致识别率下降;

(5)手在晃动时,可能采集到变化的图像,对于手指静脉识别产品,手指快速抖动的方法就可能突破他人的身份认证;

(6)不同制造商采集的用户特征值不能通用,由于缺少行业标准,目前任何两家的静脉识别产品都不能通用。

5 结语

未来静脉识别技术研究的方向有3个:

(1)针对前面提出的问题,需要研究新型的静脉识别传感器,研究更为理想的图像采集装置和图像处理及识别算法,增强静脉识别系统的识别率和易用性;

(2)针对入侵攻击,研究积极防御的识别算法,如文献[41];

(3)促进国际标准的制定,为静脉图像制定统一的技术标准,允许静脉信息在不同类型设备间传递。

ISO/IEC/JTC1“信息技术”联合技术委员会于2002年成立了“生物统计学”分技术委员会(SC37),其任务是研究制定身份证、护照等文件中用于身份识别的生物统计学标准。我们看到血管图像已经被WG3列为标准数据格式之一[42]。采纳ISO/IEC 19794-9:2007,由信息产业部电子工业标准化研究所制订的国标《信息技术生物特征识别数据交换格式第九部分:血管图像数据》也将于2010年完成。作为一种生物识别技术,和其他同类技术相同,静脉识别不可能完全解决身份识别的问题,必须走向多种生物信息的融合,不断提高整体性能,从而实现全人类统一的身份证。目前欧洲已经在规划统一身份证相应的技术纲要,初步可能实现包含指纹、声纹、静脉、虹膜和照片等信息的电子身份证,未来生物身份识别的前景非常光明。

身份识别技术 篇2

一、医务人员在采血、给药、输液、输血、手术及实施各种介入和有创诊

疗前必须至少同时使用两种以上识别患者的方法。常用标识有:姓名、出生日期、住院号、身份证号、诊断等,不得以床号作为识别标识。

二、建立“腕带”识别标示卡。目前对手术、昏迷、神志不清、产科新生儿、入住重症病房及重危病人实施。急诊科病人戴绿色腕带,手术病人戴粉色腕带,临床科室的昏迷病人、危重病人、产科新生儿戴红色腕带。腕带佩戴部位皮肤完整,无擦伤、手部血运良好。

三、绝对卧床患者,应有标识在床头;隔离病人床头有黄色标志。

四、建立关键流程识别措施。急诊与病房、与手术室、与ICU之间,手术室(麻醉)与病房、与ICU之间,产房与病房之间病人的转运有专人负责,并有具体交接记录文书。住院重危患者到医技科室检查,由床位医生陪同,急诊科重危患者到医技科室检查,由急诊科护士陪同。

五、在实施手术、介入或其它有创高危诊疗的操作前,主要操作者及巡回护士应主动与患者(或家属)沟通,再次确认患者姓名、性别、出生日期、住院号、身份证号、家庭电话等作为识别和确认患者的手段,并将此过程在医疗文件中有所体现。

六、手术前患者的病历、影像资料、术中特殊用药、器材等,病区护士与麻醉师(或手术室护士)之间应有交接与验收,双方签字,不允许由患者(或家属)自带相关资料到手术室。

七、手术与各种有创高危操作在患者进入手术场所前,对涉及到“左右”、“水平面”、“手指或脚趾”的手术,手术或操作医师应在手术或操作部位作恰当的标示,例如在手术部位附近用蓝色标志笔标上“Yes”(Y),并主动邀请患者(或家属)参与认定,在术前小结(病程录)中有记录。

八、各种有创诊疗、手术当患者在手术台上准备接受手术前,要“暂停”确认。手术医师、麻醉师及巡回护士应对患者的身份(两种标识)、手术部位、手术方式、关键性检查结果及各种签字手续履行等情况进行再一次核查,确认无误后各自应在相关医疗文件上签字,否则不得实施手术。

患者身份识别程序

一、手术患者:手术前由病房护士给患者带上腕带,填写患者姓名、性别、年龄、病房、床号、住院号、诊断、过敏史;病历、手术通知必须明确写清楚手术部位包括左/右侧、术式;麻醉前手术医师、麻醉医师、手术室护士分别核对患者姓名、性别、年龄、病房、床号、住院号、诊断、手术部位包括左右侧、确认即将采用的术式。病人回病房麻醉清醒后,由病房护士核对取下。

二、昏迷、神志不清及无自主能力的重症患者:入院后由病房护士给患者带上腕带,填写患者姓名、性别、年龄、病房、床号、住院号;诊疗操作过程中,医师、护士须核对以上项目。

身份识别技术 篇3

关键词:身份证;管理系统;现代化;信息化

一、二代身份证在自考信息管理系统中的发展趋势

(一)随着我国二代身份证发放工作的不断深入,将来几乎所有自考学生都持有二代身份证卡。因此,根据其特性,完全可以充当自考系统的“识别卡”,这样既做到一卡多用,节约考生及招办成本,又有效地提高资源利用率,免除招办手工录入基本信息的环节,从而让考生更快地完成报考过程,为自考学生报考提供最大便利。

(二)考生首次到招办报名时,需报一个新准考证号,录入建立基本信息,需通过询问考生或由考生填写基本信息登记表,然后,再由工作人员录入信息系统,此环节需5分钟左右,但因考生(如方言、民族语言等)、录入人员、就医环境嘈杂等因素,不仅造成此环节花费更长时间,还可能造成信息采集不准确,影响后续考试及毕业。如果自考管理信息系统通过专用的二代身份证阅读器及相应的接口程序直接快速读取存储在二代身份证芯片式中的考生身份信息,既避免手工录入错误(姓名、出生日期、住址等),又减少录入工作量,极大地提高首次报名考生基本信息录入效率及准确性。

(三)二代身份证号码对于每位公民从生到死是唯一不变的,不会因户口的迁移发生变化,每个公民终身只拥有一个唯一的身份证号码。因此,身份证号码完全可以作为自考考生参加自考考试的的信息基础,从而完全避免“一生多号,一人多证”现象的发生,实现考生全部学业过程的连续性和完整性;二代身份证卡作为“识别卡”,使不同信息系统“识别卡”信息记录格式的标准化、统一化等问题迎刃而解。

(四)二代身份证采用较强的数字加密和印刷防伪措施,在真实性、安全性、可视性等方面,与手工录入信息或Excel导入信息相比,有着很强的先天优越性,数字照片更加省去了首次报名考生拍照的环节,其完全能够为当前各类自考信息系统提供统一的、安全的身份认证服务。

(五)二代身份证采用的是非接触式IC 卡,所支持的相关硬件设备易于维护,性能可靠快捷。二代身份证与阅读器之间无机械接触,读写器在2.5-10 cm 就可以对卡进行操作,数据传递可以在瞬间完成。

(六)维护考风考纪,防范考生代考。以南昌市为试点单位,作为新报名管理信息系统的试运行平台。在2011年10月自考报名中使用了《基于身份证阅读器的自考报名管理测试系统》,招办现场及南昌市地区院校报名统一要求考生刷身份证。在10月份自学考试中,南昌市地区院校及招办现场报名的考生中有94.56%的考生已经刷过身份证,网上报名考生中有21.27%的考生刷过身份证报考,这样做的目的保证了这些考生基本信息100%准确,考生所采集到的信息一律以身份证芯片所读取出的信息为准,包括姓名、相片、性别、年龄、身份证号码、籍贯等。由于所采集到的信息是考生的真实信息,在考试过程中监考人员能轻而易举的通过刷身份证的方式辨认出是否是考生本人参加考试,从而大幅的减少了替考、代考等违纪情况的发生,维护了自学考试的考风考纪。本次考试中,南昌共抓代考考生48人,其中35人是没有刷身份证的考生,占73%,可以看出无故不刷身份证考生作弊的可能性远大于以刷身份证考生。

二、自学考试信息管理系统与身份证识别技术的有效衔接

在大数据时代背景下,老旧的单机自考管理系统并不完全适应于现行的信息管理方式,自学考试各项信息的管理既有阶段性,又有连续性,将自学考试各种片段信息组织起来加以集中管理,可以更好的服务于自学考试考生,更好的体现出“以考生为本”的初衷。采集二代身份证中的考生信息正是以此为出发点(见身份证阅读器连接图示),包括考生的姓名、身份照号、性别、民族、年龄以及相片等,从而确保考生信息的准确性和真实性,防范考生代考现象,主要体现在:将零散的准确数据集中,平缓过度的解决现行自考考生信息的缺失问题,保证考生信息100%准确是开展各项工作的基石;计算机读取身份证上信息的控件研发;自考的各项零散数据通过什么样的的方式有效的集中在一起;实现网络化报名流程,组考单位可以动态跟踪报考数据,提前确定考点及预计考点规模。

身份证阅读器连接图示

三、结语

自考信息管理系统的操作是基于读取二代身份证芯片上存储的个人基本信息为准,在以后的使用中还将建立全省唯一准确的自考考生库及考生照片库,并与成绩库及计划库连通后,作为今后报考、准考证遗失补办、成绩管理、毕业审核办理的唯一信息。“数据高度集中+阅读身份证”奠定了系统可以向自考的各项工作中扩展,在可见的将来,基于身份证阅读器的系统将吸纳涵盖自考的各项工作,大大提高工作效率和数据的准确性。

【参考文献】

[1]游战清,李苏剑.无线射频识别技术(RFID)理论与应用[M].北京:电子工业出版社,2004

[2]何兰.身份证识别系统行业解决方案[J].警察技术,2007:53-55

[3] Erich Gama.设计模式:可复用面向对象软件基础[M].机械工业出版社,2000(09)

[4]吴国英,第二代居民身份证阅读设备应用与展望[J].警察技术2005(03):30-31

[5]吕新茹,王东.RFID门票与身份证门禁系统分析与设计[J].微计算机信息,2008(24):236-237

匿名身份识别技术——学习分析 篇4

学习分析是在线教育技术领域中为了提高学习效率所产生的一种新技术。它将分析技术应用于教育数据流以实现干预和预测学习成绩等若干教育教学目标,从而提高学习效率。高等教育在线课程机构正在利用学习分析方法来分析学生学习情况,提高学生学习兴趣,降低在线学习中途停止学习比率。随着教育数据的海量收集与分析,所有权、透明度和隐私数据等问题大量出现。在第一届学习分析与知识国际会议中,与会者一致认为伦理和隐私问题是未来学习分析最应注意的问题。学习分析的关键在于跟踪学生的学习步骤,确定学生的风险利益相关者,从而帮助学生对未来学习进行预测。然而,跟踪学生学习行为的过程中必须关注他们的隐私和身份识别问题。

学习分析所涉及到的伦理问题分不同的类别。主要总结为如下:(1)第三方参与者对公开数据的收集和使用;(2)学习分析所使用资料的所有权;(3)数据的可访问性和分析结果的准确性;(4)研究学生记录隐私数据的安全性、机密性、完整性、可变更性以及是否获得当事人授权使用。

一些教育家声称,教育机构大肆使用教育数据,但是,并没有充分尊重数据所有者的隐私,也没有告知相关学生敏感数据最终会如何使用,使用过后会不会删除特定的数据记录。这一系列问题都将是我们需要解决的,在学习分析中采用匿名身份识别技术将是一种维护学生隐私信息的有效措施。

2 背景

个人信息是可以识别个人身份的任何信息。美国国家标准与技术研究所(NIST)定义了PII(Personally Identifiable Iformation)个人验证信息。这些信息包括:(1)可用来识别或跟踪一个人身份的任何信息,如姓名、身份证号码、出生日期和地点、父母姓名;(2)其他任何链接到个人信息的信息,如医疗、教育、金融、就业等信息。个人信息泄漏可以引发诸多问题,如误用、滥用数据造成交往障碍、声誉损失和信誉丧失等诸多问题。但是,仍然有很多组织需要发布从个人信息中提取的详细信息。例如,一些教育机构需要对外发布有关学生成绩的统计数据以便让外界了解学生的情况。同样,卫生组织机构也需要对外报告特殊病人的记录,警示公众注意身体健康,防止疾病大肆传播。

匿名身份识别技术是为了防止泄露个人身份和保证个人身份信息安全。学习分析相关研究人员经常从教育相关数据中提取分析结果有关的信息。教育数据挖掘和学习分析技术旨在授权学习者和教师了解这些信息,从而提高教与学的效率。但是,为了对这些数据进行更深层次分析,就需要其他机构的研究人员参与学生信息数据的分析,诸如隐私泄露等伦理问题就会出现,匿名身份识别技术就变得至关重要。

3 学习分析中匿名身份识别技术的驱动者

彼得森(Petersen)的一项研究中解决了在学术分析中数据使用权的问题,提出机构、企业或业务职能学术分析中所使用的数据必须标注特殊的标识符[1]。将很多个人信息转化成标识符,以便于研究人员进行不掺杂个人意愿的研究,并且可以防止信息泄露。斯莱德和普林斯路(Slade,S.&Prinsloo,P.)提出在教育机构实施学习分析监控学生的行为时应采用模糊数据挖掘技术。这种模糊不是真正意义上的不清楚,而是个人信息数据采集一视同仁化。教育机构应推出未经授权的身份信息数据匿名化的相关政策。此外,德拉克斯勒和格拉勒(Drachsler&Greller)提出匿名覆盖的方法——“隐藏关键词”。这样研究人员就可以将他们的研究结果与学生学习分析得出的教育数据联系在一起,避免身份信息泄露,从而让学生受益。这些方法的提出推动了匿名身份识别技术的产生。

4 提出的方法

提出了一个匿名身份识别技术——学习分析框架。该框架先将学习者处于学习环境中,目前应用于像MOOCS、学习管理系统(LMS)、沉浸式学习模拟(ILS)、移动学习客户端、个性化学习环境(PLE)等大量在线学习平台中。使得学生可以不受空间、时间的局限参与学习活动,这些平台提供了丰富的教育信息数据,所产生的数据大量投入学习分析技术中,可以定量定性地分析学习中所产生的数据,提出问题,从而提高学习效率。下一步将是实施匿名身份识别技术,将个人隐私信息转化成匿名数据应用于数据系统。匿名身份识别技术包括匿名、掩蔽和模糊等方法。最后一步消除匿名隐藏的数据,还原每个数据独特的描述符,以便于利益相关人最终拿到个性化自适应的分析数据。

5 匿名身份识别技术

在匿名身份识别技术——学习分析概念框架中,有几种方法可用来隐藏学生个人信息记录。

5.1 匿名

数据匿名化技术已涉及到各种不同的研究领域以及各种不同结构的数据,从而保证敏感信息不会意外泄露。当组织机构想要把数据发布给公众、出售信息给第三方或在同一组织内进行信息共享时,匿名化和匿名身份识别技术之间的差异就显而易见了。随机数据匿名化是整体匿名身份识别技术的一个子集。匿名身份识别技术是为了最后识别数据而保留其原始格式的过程。在教育大数据的背景下,匿名化不同于以往的隐藏程序,它不能在最后重新确定学生的身份数据。而匿名身份识别技术消除了查明学生个人信息数据的路径,但是有记录代码可以去重新还原所匿名的信息。

正如前文所提到的,教育信息数据记录可能包括如姓名或学生证号等私人信息,其中这些差异性的特征数据被称为直接标识符,删除或隐藏这些直接标识符其实并不能保证真实的数据被匿名化。标识符可以与其他信息链接从而查明个人信息数据。“出生日期+性别+名称”是一个标准身份识别直接标识符。

5.2 掩蔽

组织机构在对外公布分析结果时利用匿名身份识别技术中的掩蔽方法把一些敏感隐私数据用虚构数据进行替换。数据掩蔽修改替换了数据信息记录,从而保证个人信息保密的同时它们仍然可用。例如,将“王小明”与“###”替换是一种掩蔽方法,但是并未改变“王小明”。这种方法就是用虚拟字符掩蔽替换直接标识字符以达到目的。

5.3 模糊

模糊数据信息就是减少数据的精度和识别度。有几种方法来实现模糊,例如将数据划分为子类别、随机化的数据字段或对数据记录添加噪声。

6 结语

自2011年学习分析第一次出现在公众视野开始,它已帮助了成千上万的学习者分析他们的教育数据,提高了他们的学习效率。随着学习分析领域的扩大,所分析数据的增加,引发了许多道德、伦理和所有权的问题。本文主要讨论了一种保证学习者的所有敏感隐私信息不被泄露的解决方案——实施匿名身份识别技术,以方便学习分析的有效应用。本文提出了概念性的方法和现实的例子去阐述匿名身份识别技术,保证学习者用于学习分析的个人隐私教育数据的安全。虽然匿名身份识别技术不是一个保护学生隐私万无一失的解决方案,但是,在学习分析的研究中伦理隐私问题必须纳入考虑范围。

参考文献

患者身份识别制度 篇5

一、护理人员在为患者实施各种治疗处置、转交接等过程中必须至少同时使用两种以上身份识别方式。要求使用患者的姓名及登记号作为患者身份核对的两个要素。

二、护士在给患者进行各项操作前及患者转交接时,必须核对患者身份。请患者陈述出自己的姓名、年龄,不得直接称呼患者姓名而获得患者的回答。核对与腕带一致,如无法回答时由陪同人员代为回答确认。

三、不同病人身份识别的方法:

1.意识清楚,有自主行为能力的患者使用姓名、年龄、登记号三种结合的方式来识别身份。

2.对抢救、昏迷、无自主能力、语言听力交流障碍、镇静期间等无法向医务人员陈述自己姓名的患者,由患者陪同人员陈述患者姓名,在诊疗活动中使用“腕带”作为操作前、用药前、等诊疗活动时识别患者的手段。

3.对同姓名的患者除应分开收住外,进行各项处置时应严格查对制度,用性别、年龄、登记号或身份证号等信息来确认患者身份,确保准确无误。

腕带使用制度

一、全体住院患者均应佩戴腕带。

二、患者初入病房时,责任护士核对患者腕带信息,内容包括患者登记号、性别、姓名、年龄、诊断、过敏史等情况;住院期间发现药物过敏可手工填写过敏史,随时根据入院后检查的结果手工填写。

三、医护人员在进行各项处置时应该核对腕带标识,并请患者陈述确认。

四、腕带原则上佩戴在患者“左手”,特殊情况可佩带于“右手”或“下肢”,约束患者佩戴在约束带上方(近心端),松紧度以放进一指为宜。若损坏需及时更换(按腕带佩戴使用流程执行);佩戴部位皮肤完整、无擦伤、远端血运良好。

五、加强对患者腕带使用情况的检查。

六、责任护士向患者及家属讲解腕带使用的注意事项及重要性,告知不得随意将腕带取下。

人体微生物可用于身份识别 篇6

这项研究的第一作者、哈佛大学生物学家Eric Franzosa和同事开发出一种电脑算法,为美国“人类微生物组计划”招募的120人建立粪便、唾液和皮肤等样本的微生物个人识别码,即所谓微生物“指纹”,并将其与跟踪随访中获得的样本及另外一组志愿者的样本进行比较。结果发现,每个人都拥有独特的微生物“指纹”,而且大部分人的微生物“指纹”在为期一年的调查期间保持稳定。

研究人员发现,粪便样本的微生物“指纹”尤其可靠,即便时间过去一年,仍能正确识别约80%的志愿者,这显示肠道微生物组比较稳定。皮肤样本则较不可靠,时隔一年后正确识别率只有1/3。

不过,研究人员也警告说,微生物“指纹”可能带来隐私问题,比如在没有当事人同意的情况下,暴露出感染性病等敏感的个人信息。

动态身份识别技术合作项目 篇7

1、采用图形密码。客户根据系统提供或客户自选的各种无规则的图形组成密码, 密码的长度根据安全级别任意确定。

2、在使用终端或访问、传输信息前, 用户密码是从一个类似软键盘上显示的图形中选择输入, 其中:

a、软键盘是动态的, 上面所包括的图形是随机的, 用户可以选择任意一个页面。页面上的图形必然包括用户密码的内容, 但不是全部。例如用户密码可能是7个图形, 而页面上的图形只有3个是用户密码所包括的;

b、用户选择页面上所包括的个人密码图形, 按照其在密码中的顺序输入密码框;

c、回车, 密码将被识别并接受。这里的关键是不用把所有的密码图形全部输入。

优点:几乎在公共场所公开地输入密码而不必担心被盗, 因为:

1、由于软键盘上的图形是随机显示的, 所以每次所输入的密码内容是不一样的;

2、即使有人看到了客户所输入的密码图形和顺序, 也不用担心被盗用, 因为软键盘每次显示的图形组合是不一样的, 盗用者不知道其它图形是否包括在密码中, 更不知道某个图形在密码中的顺序和位置;

3、盗用者如果进行多次输入, 超过一定次数将被强制关闭。

目前该技术已经成熟, 并已申请了专利, 可以直接根据用户系统特点应用。

基于虹膜的身份识别技术的研究 篇8

从理论上讲, 虹膜的这些特性使得虹膜识别技术可以成为防伪性能最好的生物识别手段。据统计, 到目前为止, 虹膜识别的错误率在各种生物特征识别中是最低的。故在近年来虹膜识别技术被广泛认为是最有前途的生物识别技术之一。

1 虹膜识别技术的国内外研究现状

用虹膜进行身份识别的设想最早出现于19世纪80年代, 但直到最近10年来, 虹膜识别技术才有了飞跃发展。1885年在巴黎的监狱中曾利用虹膜的结构和颜色区分同一监狱中的不同犯人。而自动虹膜识别系统则是上世纪末才出现。1987年, 眼科专家Aran Safir和Leonard Florm首次提出了利用虹膜图像进行自动身份识别的概念, 但他们并没有开发出这样的处理器。1989年, 他们请当时在哈佛大学任教的John Daugman为虹膜识别研制真正的算法。1991年, 在美国洛斯阿拉莫斯国家实验室内Johnson实现了文献记载得最早的虹膜识别应用系统———基于Gabor变换的虹膜识别技术和分布式虹膜数据库的虹膜识别系统。1993年, J.G.Daugman率先研制出基于Gabor变换的虹膜识别算法, 其中基于Gabor变换的虹膜识别技术成为了现代商用虹膜识别系统的技术基础。该算法的具体实现如下:首先求取虹膜内外边界的灰度阀值, 利用圆探测法以求最大值的方法获得虹膜内外边界圆的参数, 并利用坐标变换实现归一化;然后利用极坐标系中的二维连续Gabor复小波变换得到特征点的复小波系数, 由此得到特征点的幅值信息的二比特编码;最后, 以Hamming距离为判据依据进行判别, 具体实现时利用虹膜编码的伪码来完成对睫毛等干扰的纠偏。作为第一个实用化的虹膜识别算法, 这种识别算法取得了很高的识别率, 其中基于Gabor变换的虹膜识别技术成为了现代商用虹膜识别系统的技术基础, 但是这种识别算法但是它对原始虹膜图像的要求较高, 归一化后的虹膜图像大小为24×1024, 编码前期计算量较大, 也没能较好的解决虹膜旋转不变性的要求。随后, 1994年, R.P.Wildes研制出基于图像登记技术的虹膜识别系统, 该算法在分析原始虹膜图像的灰度分布的基础上, 确定边界灰度的阀值, 然后据此对图像进行二值化处理;利用基于梯度的边缘检测手段, 通过Hough变换获得原始图像的虹膜内外边界的参数, 分割出虹膜。并依靠Fisher线性判别器完成判定。该算法的多项指标都和Daugman的算法接近, 但在整个算法的各个部分都独具特色, 在解决如何保证虹膜图像的旋转、平移和尺度的不变性的问题上, 采用了特有的图像注册技术, 但是, 这种识别算法比较繁琐, 计算量较大, 不宜用于实际操作。1997年W.W.Boles等人用小波变换过零检测进行虹膜的识别, 并取得较好的识别结果。该算法使用一维小波变换来对纹理图像进行分解, 待处理的信号是采样以虹膜圆心为圆心的同心圆而得到的, 这种识别算法克服了以往系统受漂移、旋转和比例缩放所带来的局限, 并且对亮度变化及噪声不敏感。最近, 法国人Tisseetal提出用瞬时相位技术提取虹膜特征的方法, 这种识别算法计算量相对较小。

在国内, 虹膜识别的研究工作开始相对较晚, 上世纪末虹膜识别技术的研究工作开始兴起。上海交通大学1998开始从事虹膜识别技术的跟踪研究。2000年华中科技大学的科研人员根据图像的相关性进行虹膜识别。2000年以来, 北京大学信息科学中心也开展了虹膜识别技术的研究, 并研究出一套独特的高效方法。2002年, 中国科技大学也实现了虹膜识别演示系统。中国科学院自动化所的研究人员, 用不同的方法进行虹膜识别的研究, 并对一些特定干扰条件下的虹膜图像进行计算机模拟试验, 取得较好的结果;他们所组织开发的“便携式虹膜识别系统”2003年荣获国家五部委颁发的“国家重点新产品证书”, 国际权威学术评论MITTechnology Review也高度评价了此虹膜识别系统。他们还利用研制的虹膜图像获取装置建立和共享了用于科学研究的虹膜数据库———CASIA虹膜数据库, 这是当前国际上最大的共享虹膜数据库, 正逐渐成为虹膜识别研究领域的公共平台。

2 虹膜识别中存在的问题

近年来通过对虹膜识别算法的研究, 在Daugman算法的基础上提出了许多新的识别算法 (定位算法、特征提取编码算法、匹配算法) , 在一定程度上弥补了Daugman算法的不足, 提高了虹膜识别算法的运行速率与判别精确率, 但仍需进一步改进。虹膜图像获取是非常重要但又比较困难的问题;虹膜特征提取是虹膜识别的核心问题, 如何更加准确的描述虹膜纹理的细微特征还需要进一步探讨;高重复性的虹膜识别算法有待进一步开发, 性能评价体系有待建立, 虹膜识别的技术标准还有待完善。

国内在虹膜识别技术的研究上有了很大的进步, 但是我们也要意识到和国外优秀的虹膜识别产品相比, 国产系统还是有较大的差距, 尤其在虹膜图像采集硬件装置方面、清晰虹膜图像的获取受到多方面的影响, 比如镜头焦距和景深的变化, 外部环境光线的变化、用户的配合程度等。

3 总结

虽然虹膜技术还存在着一定的不足, 但我相信随着科技水平的不断提高, 问题的解决和研究的深入, 虹膜识别产品将会在我们生产、生活的各个领域发挥有效、准确、安全的个人身份识别作用, 并带来巨大的社会效益。

摘要:虹膜识别以其唯一性、稳定性和非侵犯性等优点成为生物特征识别中极具发展潜力的身份识别技术。随着科技水平的不断提高, 虹膜识别产品将会在我们生产、生活的各个领域发挥有效、准确、安全的个人身份识别作用, 并带来巨大的社会效益。

关键词:生物特征识别,虹膜识别,身份认证

参考文献

[1]王金涛.虹膜识别与图像处理内核实现研究[D].天津:天津大学, 2002.

[2]Flom L and Safir A.IrisRecognition System.US:Patent.4641349.1987.

[3]何家峰, 叶虎年.虹膜定位[J].中国图像图形学报, 2000.

[4]康浩.虹膜识别系统研究[D].上海:上海交通大学, 1999.

[5]应忍冬.虹膜身份识别方法的研究[D].上海:上海交通大学, 2000

[6]陈良洲, 叶虎年.一种新的虹膜识别算法研究[J].华北工学院测试技术学报, 2000.

[7]严民军, 汪云九.虹膜识别的计算机识别原理[J].生物化学与生物物理进展, 2000.

身份识别技术 篇9

人体之间因心脏位置、大小、构造和胸腔结构的差异, 产生的心电信号是独一无二的, 具有唯一性。成年后, 心脏的大小和构造基本定型, 心脏活动产生的心电信号是稳定的, 具有不变性。心电信号唯一性和不变性为心电身份识别提供了理论的基础。心电信号是活体产生的生物电信号, 跟传统的生物特征信号相比, 更加难以假冒、伪造[1—3]。

心电信号的身份识别技术属于人体生物特征识别的新技术, 在国内外都还处于实验研究探索阶段。课题对心电身份识别技术的算法和实验系统进行了研究。

1心电信号身份识别算法

以时域心电信号幅度值、时间间隔值或者频域功率谱分布值为特征参数, 按照一定的原则, 进行身份归属判断。

1.1距离判别法则

假设X为待判别的心电样本, En为心电数据库中样本。心电信号距离判别算法的基本原理是, 首先对X到En的距离d (X, En) 进行合理规定, 再依照“就近距离”原则判定X的归属[4—6]。因此, 距离判别法则为:

1.1.1马氏距离

马氏距离是印度统计学家马哈拉诺比斯于1936年提出的概念。马氏距离身份识别算法, 以一个周期心电信号中各个阶段的幅度值和时间间隔值为特征参数。式 (1) 表示心电数据库样本i的特征参数矩阵, m为样本周期数。

μ=[μ1μ2…μ17]'为Gi的特征参数平均向量。X=[x1x2…x17]'表示待判别身份的心电信号特征参数向量。为协方差矩阵。则X到Gi的马氏距离为

1.1.2小波距离

心电信号经过小波函数多尺度分解之后, 产生代表信号高频成分的细节系数和低频成分的近似系数。如果两段心电信号的特征一致, 那么, 对应的小波多尺度分解的各层系数也一致。

待识别样本EX与心电数据库样本En的小波分解系数距离定义为

式 (3) 中, i指小波变换系数编号, 系统采用db3的5层小波分解, 心电样本长度为512时, 小波变换系数长度为513;τ为阀值常数, 避免小波变换系数趋向0时, 距离值趋向无穷大, 影响正常判决[7]。

1.1.3谱能量距离

将心电信号进行快速傅里叶变换, 可得到心电信号功率谱能量数据。谱能量距离定义为

1.1.4相关距离

相关距离算法是根据样本信号之间的相关系数来判断样本的归属。

样本X和Y的相关系数定义如下

式 (5) 中, m为数据长度。为样本的平均值。越靠近1, 表示两个信号的相似程度越大。

为使用距离判别法则, 定义待识别样本EX与心电数据库样本En的相关距离定义为

式 (6) 中, ρ (EX, En) 为相关系数。

1.2加权系数智能匹配算法

加权系数匹配算法, 根据马氏距离、小波距离、谱能量距离和相关距离的识别结果, 进行权值累加和智能分析, 完成身份识别。

假设马氏距离、小波距离、谱能量距离和相关距离算法识别结果的权值分别为W1、W2、W3和W4, 且W1+W2+W3+W4=1。如果用某种距离算法判别的结果是数据库样本m, 则m获得了该算法对应的权值。样本m经历四种距离算法产生的累计权值超过阈值τ, 就判断待识别样本与与数据库样本m匹配成功, 输出识别结果。权值系数和阈值可根据实验测试标定。

2硬件平台

心电信号身份识别系统的硬件结构图如图1所示。INA321是美国TI公司生产的高性能仪表放大器, 具有静态电流低、偏置电流低、偏移电压低、增益准确度高、共模抑制比高等特性。常用于生物医学信号测量领域。系统采用INA321构成双电极心电信号差分放大器, 完成人体左右手指处的心电信号检测[5]。INA321对心电信号放大5倍后, 经心电信号放大器放大200倍, 通过ADu C842单片机的片内模数转换器数字化, 产生数字心电信号。通过串口, 把数字心电数据送往计算机进行处理。

3软件设计

身份识别系统软件程序设计包含下位机的单片机程序设计和上位机的MATLAB编程设计两部分。下位机程序的任务是接收上位机发送的启动指令, 控制AD转换器以1 000 Hz的速率采样心电信号, 并由串口发回上位机。

上位机程序流程如图2所示, 主要实现心电信号数字处理和心电信号身份识别功能。

由于心电信号存在工频、肌电和基线漂移等干扰, 必须进行数字处理才能进行身份识别。心电信号数字处理, 主要包括数字滤波、周期分割和相关性分析。

如图2所示, 上位机控制下位机, 采集30 s长度的心电信号, 进行0.05 Hz高通滤波、100 Hz低通滤波和工频陷波。然后, 定位心电信号的R波。以R波为中心, 进行心电信号周期分割。最后, 对分割出的周期心电信号进行相关性分析, 剔除异常周期心电信号。对剩下的强相关的周期心电信号取平均值, 得出如图3所示的平均心电信号, 作为入库或身份识别的样本信号[8,9]。

心电信号身份识别时, 先计算待识别样本EX与数据库样本En的各种距离, 然后根据就近距离判别法则进行判断, 得出马氏距离、小波距离、谱能量距离和相关系数的判别结果。利用加权系数智能匹配法则, 对这些距离判别结果进行权值累计和分析, 得出最终结果。

4系统测试

采集40个健康人体 (25个男性, 15个女性, 年龄在20~50之间) 的心电信号建立心电信号样本库。间隔时间至少24 h后, 再次采集这些测试者的心电信号, 作为待判别信号, 一周之内每个人至少测试3次。利用距离判别算法进行测试的结果如下表1所示, 获得了高达95%的识别结果。

5结语

对心电身份识别系统的距离判别算法、硬件平台和软件设计进行了分析, 获得了较好的识别效果。验证了心电信号身份识别技术的可行性。虽然利用心电信号难以伪造的独特优势, 跟人体其他生物特征融合进行身份识别, 可进一步加强生物特征身份识别的安全性。

摘要:针对传统生物特征身份识别技术易于破解的弊端, 提出了心电信号身份识别技术。分析了心电信号身份识别的距离判别法则。结合马氏距离、小波距离、谱能量距离和相关距离算法, 提出加权系数智能匹配算法。下位机利用双电极法采集心电信号, 经串口送往上位机。Matlab软件平台下, 编程实现心电信号数字处理和身份识别。通过对40个人的心电样本进行测试, 获得了95%的识别结果。

关键词:心电信号,身份识别算法,就近距离判别,数字滤波

参考文献

[1] 赵秀萍.生物特征识别技术发展综述.刑事技术, 2011; (6) :44 —48Zhao X P.Asurvey of biometric recognition technology.Forensic Science and Technology, 2011; (6) :44—48

[2] Jain A K, Ross A, Prabhakar S.An introduction to bio-metric recognition.IEEE Transactions on Circuits and Systems for Video Technology, 2004;14 (1) :4—20

[3] Biel L, Pettersson O, Philipson L, et al.ECG analysis:a new approach in human identifica-tion.IEEE Trans Instrum Meas, 2001; (50) :808 —812

[4] 孙振球.医学统计学 (第2版) .北京:人民卫生出版社, 2006Sun Z Q.Medical Statistics (second edition) .Beijing:People's Medical Publishing House, 2006

[5] 何晓群.现代统计分析方法与应用 (第二版) .北京:中国人民大学出版社, 2007He X Q.Modern Statistical Analysis Methods and Applications (second edition) .Beijing:Renmin University of China Press, 2007

[6] 李玉榕, 项国波.一种基于马氏距离的线性判别分析分类算法.计算机仿真, 2006; (8) :86—88Li Y R, Xiang G B.A linear discriminant analysis algorithm based on Mahalanobis distance.Computer Simulation, 2006; (8) :86—88

[7] Chan A D C, Hamdy M H, Badre A, et al.Wavelet distance measure for person identification using electrocar-diograms.IEEE Transactions on Instrumentation and Measurement, 2008;57 (2) :248—253

[8] 顾学乔, 曹赟, 徐寅林.基于MATLAB串口通信及滤波的心电信号采集仪设计.仪表技术, 2010; (8) :17—19Gu X Q, Cao B, Xu Y L.The Application of MATLAB serial interface communication technology in ECG data acquisition system.Instrumentation Technology, 2010; (8) :17—19

身份识别技术 篇10

近几十年来,国内外众多专家和研究机构均对指纹识别展开了全面且深入的研究工作,在应用领域和研究都取得了非凡的成果。我国在20世纪80年代初对指纹识别展开研究,清华大学自动化系,北京邮电大学,北京大学信息中心,中科院自动化所等都在该领域作了一定的工作[1]。美国联邦调查局、日本NEC、迪拉鲁印基公司、北美莫佛公司以及洛吉卡有限公司等相继推出了著名的自动指纹识别系统[2]。开发初期,自动指纹识别系统是运行在中、小型计算机或专用高速计算机上的,成本高并且缺乏良好的用户界面。随着集成电路机技术和计算技术的发展,个人计算机已经具有良好的工作性能和足够大的存储空间,完全有能力实现一个自动指纹识别系统。当前的操作系统具有友好的工作界面,可以极大的方便用户使用。因此,在个人计算机良好的操作系统环境下设计的自动指纹识别系统,能够以较低的价格提供同样的性能和友好的用户界面。

2 指纹的类型

指纹分类通常有自动分类、人工分类和人工分类自动分类相结合三种方法[3]。人工分类法可以将指纹分得很细,如弓:弧形和帐形;箕:正箕和反箕;斗:环形、螺形、双箕形、囊形和杂形。这九类在计算机上实现算法很复杂,人工分类与自动分类相结合的方法通常采用三级分类法,即:

(l)小分类:利用指纹纹理的不对称性,如上(或左)半部与下(或右)半部的累积方向数之比,进一步把同一组指纹分成若干部分。

(2)中分类:利用图像的总累积方向数,把同一类指纹进一步分成若干组;

(3)大分类:由操作者通过人机会话告诉计算机是何种纹型,例如是弓、箕或斗;

本文设计的系统需要尽可能的减少人为操作,所以我们采用自动分类方法,将指纹分成左箕、右箕、弓形和斗形四个基本类型(如图1所示)。

指纹类型以指纹中心区域块方向走向变化来确定,即在中心点确定了以后,以中心点所在块为中心块,并以其为中心取8*8的窗口区域。传统的指纹分类工作只是单纯的统计指纹中心区块方向的走向,而并不考虑中心区不同区域块方向的变化,因此,在分类的时候易导致误分类、拒分类的现象出现。本系统对块方向进行除8取模操作,这样既不影响分类的结果,还能够简化算法。在这8*8的窗口区域中共有64个子块,每个子块又对应16*l6点的指纹图像。统计左上、左下、右上、右下象限(每个象限中有16个子块)中各块方向的均值,并根据这些均值来确定指纹类型。本文所采用的分类方法对指纹的中心区又细分了四个子区(每个子区对应16个子块),根据子区块方向的均值来对指纹图像进行分类。

因为不同类型的指纹在各个子区的块方向走向是不同的(如表1),所以这样的分类方法能够非常准确的识别出指纹的类型,且执行速度快,具有良好的实时性。

3 指纹特征提取

3.1 指纹特征

无论人工指纹识别,还是计算机自动指纹识别,所依据的都是指纹的特征。指纹的纹型,例如弓、左箕、右箕、斗型是人们比较熟悉的,但是仅仅依靠纹型无法最终确认指纹。指纹身份的最终确认必须依靠指纹的特征。指纹特征的选择是多种多样的,一般可分为主特征和细节特征两类:

(l)主特征:中心、三角。中心的定位及中心处的特征的确定(即指纹分类的方法)。

(2)细节特征:端点、分叉、口、刺、十字、桥型,共6类特征。其中前2类称为主要细节特征,后4类称为辅助细节特征。其特征在一幅指纹图中所占的大致比例和数量如表2所示,可见仅对指纹的前两类细节特征进行匹配即可。本文选取端点和分叉点为特征点,且把特征点用网格坐标来定位,网格中心即指纹中心,每个特征点用一个特征向量T来表示。

本文选取端点和分叉点为特征点,并把特征点用网格坐标来定位,网格中心即指纹中心,每个特征点用一个特征向量T来表示,即T(r,o,a,b,c,s)。r为特征点的极半径;o为特征点的极角度;a为特征点方向(端点的点方向或叉点的点方向)。b为特征点的种类(端点或叉点);c为在网格中的段坐标(以中心为极点,将极半径分成几个段,15个像素点为一个段);s为网格中的扇区坐标(整个圆周分成16个扇区)。提取出的特征点要存入相应的特征向量中,以便与指纹库中的指纹特征向量进行配准。指纹图像经过预处理后,提取出来的特征点一般不会超过图像种象素点总数的1/1600,因此该系统建立了一个长度为49的数组作为特征向量,每个数组元素为一个向量T。

3.2 主细节特征(端点和分叉点)的提取

本系统对主细节点的提取采用模板检测法。模板检测法是用3*3的模板(如图2(a))检测关键点的位置与类型。提取端点(如图2(b))时,判断该点的3*3邻域点值之和是否为1,若是则认为是端点。提取分叉点(如图2(c))时,令

undefined

若count=6,则暂认为该点为分叉点。接下来对分叉点进行进一步判断,即观察分叉点周围的8个邻点,对值为1的邻点,判断该点是否能向前走通一步。若有三个分叉都能向前走通,该点被确认为分叉点,否则,该点被认为为伪分叉点,将其删除。

3.3 伪特征点的去除

对已经判断出的特征点应进一步判断是否为伪特征点,在噪声干扰的情况下会出现以下几种伪特征点。其一为噪声将两条脊线连接的现象,表现为由两个距离很近的分叉点;其二为指纹纹线中断,出现两个距离很近的伪端点(如图3)。在这两种情况均应将伪特征点去除,并尽量将指纹的脊线恢复。

在去除因噪声而引入的伪特征时,对于因纹线中断而引入的伪端点,其去除方法是:因为指纹的脊线宽度一般为5、7个像素,两条脊线的距离至少为1份14个像素,因此对于两个距离小于10个像素宽的端点,如果它们所在块的块方向一致,则认为两个端点为伪端点,将其清除并将断掉的纹线重新连接起来。对于因两条脊线相连而引入的两个过近的伪分叉点现象,本文消除的方法是对所有分叉点判断其周围是否有距离过近的分叉点,若有,将两个分叉点视为伪分叉点并将其清除,同时将两个分叉点的连接线清除。

4 指纹识别算法设计

4.1 指纹库的数据结构

指纹库是对指纹进行有效存储、管理的系统。一个指纹识别系统应用到不同的领域需要建立不同的指纹库。本系统建立的是一个标准的指纹库,采用分层模型和模块结构,可迅速有效地搜索指纹。指纹经过分类和特征提取,形成了“指纹字”、“类别号”及指纹的分类层次。这里从数据结构的角度定义三级分类的物理介质分别是:磁盘、指纹文件和关键字区域,其中大分类定义了磁盘盘号Di,中分类定义了在第i个磁盘上的指纹文件Fij,小分类定义了第j个指纹文件中的关键字Kijk(i=0,l,…,r:j=0,1,…,p:k=0,1,…,q),如图4所示。

指纹文件由具有不同关键字的四个区域组成,每个区域包括若干指纹字。指纹字含有关键字、符合字、档案号、及特征值等参数。其中档案号是乘客姓名;符合字是用来记录查对吻合程度的度量值;各区的参数则是计算的指纹细节特征值所对应的信息。具体为T(r,o,a,c,b,s).r为特征点的极半径;o为特征点的极角度;a为特征点的点方向(端点的点方向或叉点的点方向);c为特征点的种类(端点或叉点);b为在网格中的段坐标(以中心为极点,将极半径分成几个段,15个像素点为一个段);s为网格中的扇区坐标(整个圆周分成16个扇区,如图23所示)。其具体的存储结构采用链表式存储方式(如图26所示),其中1、2.……n表示乘客姓名(即指纹字中的档案号)。

4.2 指纹的快速查对

指纹查对是按照给定的“指纹字”到“类别号”所指明的相应磁盘、指纹文件及关键字区域上去查对有无该指纹。查对包括检索、删除及插入等操作,指纹查对流程图如图5所示。

5 实验与分析

本文建立的标准指纹库中共有317枚指纹样本,分别对样本库中的指纹图像进行分类测试。若一幅指纹图像不能被本文的分类算法进行分类,即本系统不能给出该指纹的类型,就认为指纹被拒分类。如果该指纹能够被正确的分类,则产生了一个正确的识别。若该指纹没有被正确的分类,就产生了个错误的识别。

定义RejectNum为被拒分类的指纹图像数目,CorrectNum为正确分类的指纹数目,FalSeNum为错误分类的指纹数目,Tota1Num为指纹样本总数,拒分类率,误分类率和正确分类率定义如下:

拒识率=RejectNum/TotalNum *100%

正确分辨率=CorrectNum/(CorrectNum+FalseNum)*100%

误分类率=FalseNum/(CorrectNum+FalseNum)*100%

由表3可见,本文提出的分类算法是将指纹的中心区分为四个子区,根据各个区的方向变化情况对指纹进行分类,该方法分类正确率高,极少出现拒分类的现象。

所谓指纹识别是要决定两幅指纹图是否来自同一个人的同一个手指。过去人们对指纹识别做了很多研究。AndrewKHrechak[4]等人用结构匹配来做指纹识别。D.KIseno[5]等人指出了一种用图匹配来对两幅指纹图像进行匹配的方法。但目前最常用的方法是用美国联邦调查局(FBI)提出的细节点坐标模式来做细节匹配。它利用脊末梢与脊线分支点这两种关键点来鉴定指纹。通过将细节点表示为点模型,指纹识别问题也就转化成为点模式匹配问题。此外, AniJain[6]等人的串匹配算法,sanjayRanade[7]等人的松弛算法,shih-hsuehang[8]等人基于二维聚类的决速算法,以及田捷[9]等人针对AnilJain等人的算法所提出的改进算法等,都曾用于指纹的识别,但效果都不理想。本文给出一种算法,基于两个前提:a.认为在同一个网格内,特征点的个数不能超过4个;b.只认为两类细节特征是可靠的:端点和叉点。对于进行比对的两个指纹,分别求出各自特征点的网格坐标(b,s),看同一网格中是否有同样类型的特征点。将其中一指纹图像旋转一个角度,在不同的旋转角度下,记下两指纹能对上最多点的旋转角度,认为此指纹是另一指纹旋转了此角度后得来的.根据此旋转角度修正特征点的点方向,再一一检查对上的特征点的点方向是否也在一个容忍范围(本文取15)内。然后再检查对上了的点的相对位置.由于无论指纹图像发生怎样的畸变或旋转,特征点的相对位置是不变的,这个不变性就是指纹的结构特性.根据此原理进行最后一步比对,将比对上的点在原图像求各点间的相对距离,比对相对距离是否在一个容忍范围(本文取10个像素点)内,看最终能对上多少个点。该算法由于不依赖细化图中的严格意义上的奇异点做中心点而是在指纹原图的方向图中取中心区域,不仅提高了抗干扰性且简化了算法。本系统经过2000枚指纹的试验,实践证明效果较好(如表4所示),其中匹配算法实现的运行时间为0.95。

该乘客身份验证系统中的自动识别是1:1匹配,在保证拒识率为0的情况下,误识率为1.1%,识别率为98.9%。

6 结论

本文针对乘客身份验证系统,提出了基于中心区域块方向变化的指纹分类方法和基于主细节特征的指纹匹配思想。设计过程中,充分考虑到了系统的实时性和自动性。由于大型的指纹自动识别系统需要存储大量的指纹图像,因此,为了节省存储空间必须对指纹图像进行压缩。为了利用互联网快速地进行异地指纹登记,也应对指纹图像进行压缩后传输,因此,如何在对指纹图像进行高效压缩的同时,又能够保证指纹图像的关键特殊点不丢失,将是今后研究的方向。

摘要:采用生物指纹识别技术同计算机数据采集、数据管理系统相结合,将指纹作为出入边境的旅客的合法身份的辨识依据,通过设计数据采集和处理的完整流程,构建出入边境的旅客身份验证管理系统满足相关出入境部门的运行情况的管理,大大提高工作效率,使得繁琐的身份验证管理更自动化、规范化。

关键词:指纹识别,身份验证,局部方向,自动识别

参考文献

[1]傅德胜,李慧颖.微机指纹识别系统的设计及实现[J].武汉交通科技大学学报,2007(8):406-409.

[2]曹雨龙,杨靖宇.一种新颖的图像相似性侧度[J].南京理工大学学报,2005(8):350-352.

[3]傅德胜,李慧颖.微机指纹自动识别系统软件设计[J].计算机应用研究,2004(12):75-76.

[4]李晓昆.基于结构特征的指纹识别[J].计算机工程与科学,2004(2):25-29.

[5]韩伟红,沈涛,黄子中.微机上得指纹自动识别系统[J].微型电脑应用,2006(8):1-18.

[6]傅德胜,寿益禾.图形图像处理学[M].南京:东南大学出版社,2006.

[7]HRECHAR A K,MCHUGH J A.Automated fingerprint recognition using structural matching[J].Pattern Recognition,2008,23(8):893-904.

农信社反洗钱客户身份识别浅议 篇11

制度先行

建立健全客户身份识别制度,制度先行。在反洗钱工作开展过程中,只有各项操作流程都做到了制度先行,才能让金融机构的反洗钱工作受到合理合法的保护。农村信用社地方法人机构应该在以下方面进行制度完善:一是充分结合反洗钱工作的新常态,进一步修订和完善农村信用联社改制为农村商业银行后的相关操作规程、制度办法、反馈机制,并充分考虑可操作性、洗钱风险性等因素等。二是进一步学习中国人民银行、省联社下发的反洗钱相关文件,清晰反洗钱风险控制的政策目标,建立健全全面风险管理经营理念,完善反洗钱风险控制体系,并及时向当地人民银行报备。三是根据当地新兴业务及产品发展的情况,及时建立匹配的新兴客户身份识别制度,并将客户身份识别风险控制要求有机融入业务流程。四是充分把握二级法人机构带来的决策优势,因地制宜,在客户身份识别方面细化客户身份识别制度。

了解客户

利用客户经理人熟地熟优势,了解客户。四川农村信用社自1951年成立以来,经过六十多年的风雨历程,从小到大、由弱到强,如今已建立了遍布城乡的营业网络,业务渗透到政府机关、事业单位、企业、城乡居民家庭。

农村信用社的客户经理走村串户,调查了解客户情况、评级授信、发放贷款、组织存款、推销产品,对客户的家庭情况和个人身份背景了解的途径比营业柜员更加广泛。充分利用客户经理人熟地熟的优势,可以更加容易识别客户的基本情况。例如××农商银行2015年在反洗钱工作中,甄别到一条涉毒人员线索:从资金交易特点上看,交易频繁,大部分为夜间交易,且金额较小,该客户为低保户,年龄为65岁,明显与其身份特点不符。客户经理通过多种渠道了解其家庭成员,并重点对年轻人进行全面的分析,核实到该客户账户被其家中年轻人张××盗用,并用于转移吸毒资金。农村信用社的客户经理及时向当地人民银行报告了此线索,公安机关也及时介入,一举破获了此涉毒案件。

关注客户

建立反洗钱金融联络员制度,关注客户。各农村信用社法人机构可以利用农村地区广大的人脉资源优势,特别要利用在当地有影响力的村镇干部、社会知名人士等,建立起一套适合农村信用社的反洗钱金融联络员制度。

“万事俱备,只欠东风”,农村信用社良好的外部资源优势和内部工作导向,为提高反洗钱客户身份识别能力带来了各种有利条件。农村信用社可以根据辖内“金融联络员”工作的实施情况,探索性赋予其反洗钱监督功能,并建立配套的“反洗钱金融联络员”制度和安全保密制度,在确保“反洗钱金融联络员”安全和保密的情况下,密切关注辖内各种洗钱人员动态,以提高农村信用社对反洗钱客户身份识别的质量和效率。

核对客户

强化柜面电子银行渠道识别机制,核对客户。近几年来,农村信用社电子银行渠道建设发展十分迅速,广大农村地区的ATM、CRSM自助取款机、POS刷卡机、EPOS电话支付终端等自助机具遍地“开花”,成为农村地区主要的自助支付工具。农村信用社在当前农村金融市场洗钱形势十分严峻的情况下,必须坚持严格的电子银行渠道识别制度,通过各种方式核实客户的真实交易背景。

在开立网上银行、手机银行、微信银行、电话银行、短信银行、自助银行设备、第三方支付业务交易时,要坚持以下原则:一是坚持“三亲见”原则,即亲见客户到场,亲见客户证件,亲见客户签字确认。通过联网核查的方式核实客户身份,通过核心业务系统核对电话号码、身份信息、家庭住址、工作单位等信息,通过影像信息采集仪器留存客户亲自到场的记录,把好客户电子银行交易的“准入关”。二是坚持“真实意愿表达”原则。农村信用社在与客户建立业务关系时,要与客户签订《电子银行个人服务协议》,坚持“开立手机银行、设定密码和交易限额等均为客户本人真实意思表达”的原则,核对开立电子银行的真实意愿,分析客户开立电子银行结算渠道的真实目的和可疑之处。特别是针对农村客户,农村信用社的营业柜员应结合实际情况,将客户进行分类,以便于识别客户的交易用途。三是坚持核对客户身份“内容全面”的原则。自然人客户的身份基本信息包括客户的姓名、性别、国籍、职业、住所地或者工作单位地址、联系方式,身份证件或者身份证明文件的种类、号码和有效期限。客户的住所地与经常居住地不一致的,登记客户的经常居住地。法人、其他组织和个体工商户客户的身份基本信息包括客户的名称、住所、经营范围、组织机构代码、税务登记证号码;可证明该客户依法设立或者可依法开展经营、社会活动的执照、证件或者文件的名称、号码和有效期限;控股股东或者实际控制人、法定代表人、负责人和授权办理业务人员的姓名、身份证件或者身份证明文件的种类、号码、有效期限。

当前,农村地区比较年长的老年人一般对银行的定期存款业务较为感兴趣,不愿意开立手机银行、第三方支付等业务,属于风险保守型客户,但发现其某段时间的交易经常出现在ATM机上且交易的时间经常出现在夜间、账户突然申请开立电子银行结算业务而对网络知识一无所知等异常现象,应该引起高度的重视,特别关注,需要对该客户进行认真的重新识别。四是提高电子银行对反洗钱客户身份识别制度的执行力。严格规范柜面业务操作,加强对员工的教育培训,进一步提升反洗钱的思想意识,严格执行规范的操作流程,切实加强对反洗钱外部风险的识别和防控,严防外部风险向内部传染。

反洗钱客户身份识别工作不只是农村信用社的应尽义务,更是全社会的一种责任。只有牢固树立反洗钱意识,做好反洗钱客户身份识别等基础性工作,才能有效打击洗钱犯罪,为我国经济的稳步、健康发展打下坚实的基础。

(作者单位:四川古蔺农商银行)

身份识别技术 篇12

关键词:说话人识别,生存证明,防录音假冒

1 前言

12333个人社保查询电话是国家重要的民生服务平台, 不仅推进了人力资源和社会保证电话咨询服务系统的建设, 而且有助于畅通人力资源社会保障部门和社会公众的沟通渠道。个人通过12333社保查询电话可以及时了解到养老保险、医疗保险、工伤保险、生育保险、失业保险等信息。同时, 社保工作人员可以通过电脑软件, 实时处理多个来电, 并兼具留言解答、短信回复、文件传真等功能, 极大提高了社保服务效率和质量。但目前12333平台对于咨询来电的话者身份认证缺乏有效的手段, 这使得个人社保缴费等隐私信息的查询得不到有效的保护, 同时也使得12333平台难以为社会公众提供更多社保相关的自助服务。

在社保业务中, 非常重要的一块工作是关于老年人养老保险领取的生存证明。目前, 离退休人员需要到社保单位现场出示相关证件或证明, 才能够领取本人的养老金。这一方式存在以下一些问题: (1) 越来越多的老年人随孩子异地居住, 每年都需要至少一次返回户籍所在地进行生存证明, 这给老年人带来了极大的不方便, 尤其当老年人身体不好或住院治疗时; (2) 现场生存证明给社保单位工作人员带来极大的工作压力, 不仅需要核对老年人的身份信息, 而且还要提供人性化的老年人服务和应对现场突发情况; (3) 现有生存证明方式较单一, 靠身份证照片核实误差较大; (4) 即使采取指纹认证的方式, 但由于老年人的指纹难以采集, 实际使用效果不好; (5) 由于目前户籍制度还不完善, 存在一个人有多个养老金账户的情况, 现有认证方式难以解决; (6) 现有社保生存证明的措施, 缺乏远程便捷高效的身份认证手段。随着12333电话咨询平台在全国的建设越来越完善, 基于电话的远程说话人认证成为解决上述问题的一种有效的方法。

说话人识别是生物识别的一种, 是一项根据语音波形中反映说话人生理和行为特征的语音参数, 来识别语音话者身份的技术。由于每个人的发声器官 (舌、牙齿、喉头、肺、鼻腔) 在尺寸和形态方面不尽相同, 因此说话人识别也就成为一种鉴别语音话者身份的识别手段。说话人识别技术相对于其他生物识别技术, 在远程身份认证上有着得天独厚的优势。将说话人识别技术应用到12333社保电话咨询服务系统中, 为现有系统提供了一种鉴别来电话者身份的手段, 提高了个人社保隐私信息的安全性, 并能够让老年人不离开家门就可以进行生存证明, 从而节省老年人的时间和金钱成本和社保单位的人员业务管理成本。

GMM-UBM (Gaussian Mixture ModelUniversal Background Model) 系统已经广泛应用于说话人识别系统中, 并在实际应用中取得了较好的识别效果。但在信道复杂的情况下, GMM-UBM系统的识别率明显下降, 其主要原因是在于训练和识别语音的不匹配导致的。在不匹配的因素中, 信道差异占据了极大的比重。为了消除信道差异的影响, 在前段声学特征领域, 可以采用特征映射 (Feature Mapping) 的方法;在说话人模型领域, 可以采用说话人合成 (Speaker Model Synthesis) 、联合因子分析 (Joint Factor Analysis, JFA) 和扰动属性映射 (Nuisance Attribute Projection, NAP) 。JFA方法由于与GMM-UBM系统结合紧密, 在理论上也更为完备, 已成为目前主流说话人识别系统采用的算法, 并在近几年的NIST评测中, 取得了优异的性能。

在12333电话咨询平台中使用说话人认证技术, 需要解决利用录音来假冒身份的问题。本文提出了一种防录音假冒的说话人认证方式:通过让用户跟读系统指定文本的方式, 将说话人识别与语音识别结合起来, 对录音同时进行身份和内容验证。由于跟读文本的随机性, 这种方式可以有效的防止录音假冒的发生。结合防录音假冒技术, 本文提出一种与现有12333电话咨询系统相结合的远程说话人采集和验证的解决方案和业务流程。

本文安排如下:第2节介绍说话人识别系统;第3节介绍防录音假冒方法;第4节介绍说话人识别系统在12333电话咨询系统中的应用解决方案;第5节介绍实验背景和结果分析;第6节总结全文。

2 说话人识别系统

2.1 简介

说话人识别系统是以说话人的语音作为输入, 用训练得到的特定人说话人模型来识别待测语音的话者身份。说话人识别系统一般包括两个步骤:说话人建模 (Speaker Modeling) 和说话人验证 (Speaker Verification) 。典型的说话人识别系统如图1所示。

2.2 高斯混合模型-通用背景模型

说话人模型与UBM本质上都是高斯混合模型, 可以用C个高斯函数的加权和表示如下:

其中, mi, ∑i分别代表第i个高斯混合的均值和方差参数, 代表第i个高斯混合的权重, C为高斯混合的个数。

在GMM-UBM系统里, 首先在大量的说话人语音数据上通过EM算法训练得到UBM;其次说话人模型是用该人的语音在UBM上通过最大后验概率准则 (Maximum A Posteriori, MAP) 自适应得到;最后, 将测试语音在说话人模型和UBM上的似然分差作为判决依据。

在GMM-UBM系统中, UBM作为一种说话人的发音共性分布描述, 结合MAP自适应算法, 可以使得用较少的说话人建模语音就能得到高精度的说话人模型。

2.3 联合因子分析

JFA的基本假设是将说话人高斯混合模型的均值超向量所在的空间划分为三个子空间:本征音空间、本征信道空间和残差空间。所谓均值超向量, 即是把一个高斯模型各混合的均值向量按照混合索引依次拼接形成的一个超大维度的矢量。一个说话人的超向量可以表示如下:

其中, 是说话人s的高斯混合模型均值超向量, 是UBM的均值超向量, U是维本征信道空间载荷矩阵, V是维本征音空间载荷矩阵, D是维对角残差空间载荷矩阵, F是特征维数, C是高斯混合模型的混合个数, Ru是本征信道空间因子数, Rv是本征音空间因子数。一般而言。

基于JFA的说话人识别系统主要有三个步骤: (1) 利用大量说话人语音数据事先估计出本征信道空间、本征音空间和残差空间矩阵; (2) 训练说话人模型; (3) 对测试语音进行说话人验证。

JFA算法通过移除说话人均值超向量在本征信道空间的影响, 来消除信道差异的干扰。同时, JFA在建立说话人模型时需要估计的参数明显减少 (本征音空间维数要远小于均值超向量的维数) , 更适用于训练数据相对不足的情况。

2.4 说话人分数归一化

分数归一化是指通过估计特定信道下的假冒者语音在分数域上的得分分布 (通常是单高斯分布) , 来对该信道下的测试语音的得分做归一化处理, 以此减少信道差异对分数数值的影响。本文采用的方法是TNorm:首先给定一组假冒者的说话人模型, 在说话人验证的时候, 用测试语音在这些假冒者说话人模型上的得分估计出均值和标准方差, 然后按照公式 (3) 来对说话人模型的得分进行归一化处理。

其中X是测试语音, λ是说话人模型, μ和σ是估计得到的均值和标准方差, 为X在模型λ上的似然分, 是归一化后的得分。

分数归一化的另一个好处是使得单一系统判决阈值在说话人验证时更加通用。但如果使用的假冒语音与实际测试语音存在较大的差异, 分数归一化反而会降低系统的性能。

3 防录音假冒方案

为了防止用事先录好的语音来假冒他人访问12333电话咨询平台, 本系统采用让待认证人跟读指定文本的方式, 将说话人识别和语音识别结合起来, 既识别语音的身份, 又识别语音的内容, 从而防止非法录音的假冒。

为了保证说话人识别系统的性能, 跟读文本采用固定文本加随机文本的形式: (1) 固定文本可以选用4-7个汉字 (如4字成语、7字成语) 。这些固定文本由于被大众所熟知, 因而很容易跟读; (2) 随机文本如采用3-6个随机数字的形式, 方便待认证人跟读。在说话人建模过程中, 需要参保人跟读3段系统提示文本, 建模平均耗时在15秒左右;在说话人验证阶段, 参保人只需跟读一段系统提示文本即可完成身份验证, 平均耗时在5秒左右。基于防录音假冒的v说话人采集和验证流程如图2所示。

4 社保说话人系统

4.1 说话人识别服务应用架构

说话人识别服务的主要交互对象为12333呼叫中心整合系统 (CCI) 、人工座席系统与后台管理系统。同时, 说话人识别服务也涉及到了数据库服务器之间的数据通信。搭建中的应用体系架构如图3所示。

4.2 说话人识别系统网络部署图

参保人拨打12333接入社保信息服务平台后, 首先进入自助语音服务流程并根据系统提示预留语音, 然后IVR服务器将采集到的参保人单人语音, 通过调用说话人识别服务器提供的接口函数与说话人识别服务器进行交互。说话人识别服务器将建模或识别的结果反馈给IVR服务器以便进行相应的流程控制。12333平台说话人识别系统网络部署如图4所示。

4.3 远程说话人身份认证业务流程

由于现有12333业务流程没有身份认证环节, 为了将说话人系统与IVR现有业务流程更好地结合在一起, 本文在现有IVR流程基础上, 提出了基于说话人建模和说话人验证的业务流程。参保人在IVR的语音提示下, 完成相应的建模或验证操作。对于社保信息查图5:说话人建模业务流程询业务和养老保险生存证明, 在本系统中采用同样的说话人建模和验证流程。

4.3.1 说话人建模流程

说话人建模流程采用第3节中的防录音假冒的方法, 其业务流程如图5所示。建模时需使用者跟读3遍系统提示, 每条提示文本为4字固定文本加4字随机数字串, 总的建模录音时长大致为15秒。

4.3.2 说话人验证流程

说话人验证流程如图6所示, 需要用户跟读至少一遍系统提示文本, 若一次通过, 验证录音时长大致为5秒;若3次通过, 总录音时长大致为15秒。

5 实验结果与分析

5.1 系统参数

实验中语音数据的采样率为8KHz, 采样精度为16bit。说话人识别系统的前端处理使用的语音帧长为20毫秒, 帧移是10毫秒, 预加重系数为0.97, 窗函数为哈明窗 (Hamming Window) , 每帧语音使用的FFT大小为256, 截止频率为200Hz~3800Hz, Mel滤波器组的个数为30, 经过RASTA[11]滤波得到12维的MFCC, 与一阶、二阶差分系数构成36维的特征。最后, 由倒谱均值减 (Cepstral Mean Subtraction, CMS) [12]和倒谱方差归一化 (Cepstral Variance Normalization, CVN) [13]对特征进行归一化处理。

5.2 开发数据集说明

实验中使用的说话人识别系统是基于JFA的GMM-UBM架构, 其中, UBM是用男女各1, 000位说话人的语音数据训练得到的, 总量近100个小时。JFA的V矩阵由男女各500位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟。JFA的U矩阵是由男女各500位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟, 并且覆盖固话、GSM、CDMA、WCDMA、TD-SCDMA等信道。JFA的D矩阵由男女各300位说话人的语音训练得到, 每位说话人6-8段话, 每段话2分钟。TNorm中的假冒者模型由男女各300位说话人的语音训练得到。上述使用到的各语音数据库的人员之间有小部分的重叠。实验中UBM的混合数为1, 024, V矩阵的秩为300, U矩阵的秩为50。

5.3 测试数据集说明

测试语音由男女各300位说话人按照4.3节业务流程采集得到, 其中, 每人3段建模语音, 3段验证语音。每个人的建模语音均来自同一个信道, 但验证语音不一定为同一信道。对每个说话人模型, 随机选择同性别的10位说话人的验证语音进行闯入测试。这样, 自识别的次数为1, 800次, 闯入识别的次数为18, 000次。

5.4 结果与分析

实验对比了4个系统, 分别是GMM-U B M, G M M-U B M-T N o r m, G M M-U B M-JFA, GMM-UBM-JFA-TNorm, 其测试结果如表1所示。

由于验证语音与建模语音存在一定的信道差异, 这在一定程度上影响了GMM-UBM系统的性能, 而JFA算法极大的提高了说话人识别系统的信道鲁棒性, 相对于GMM-UBM系统来说, EER相对下降了43.84%, 而加入TNorm算法, 进一步降低了系统的EER。

6 总结

上一篇:3+1人才培养模式下一篇:战略策划