识别因子(共5篇)
识别因子 篇1
随着地震勘探目标的深入和地层里油气储集体越来越复杂, 需要更多反映储层流体的有效信息。地震纵波、横波及转换波综合利用为此提供了效果显著的方法。在地震数据基础上对地质储层的流体识别的各种深入研究中, 出现了各种流体的指示方法。如Russell[1]等提出的ρf流体识别因子、国内宁忠华[4]等也提出了具有波阻抗量纲σFS FI F等。本文从Biot-Gassmann[2,3]孔隙弹性理论和流体替换理论出发, 从理论上分析研究了流体因子的敏感性, 然后构建了个高灵敏度识别因子。
1 构建的敏感流体识别因子的理论基础
据Biot理论可得:
式中:饱和流体岩石的拉梅常数为λsat;干燥岩石的拉梅常数λdry;当孔隙压力为常数时, 流体体积与岩石体积之间变化之比为β;流体在体积不变时进入地层的压力, 为地层模量M。Gassmann在1951年推导出公式:
式中:饱和流体岩石的体积模量为Ksat, 干燥岩石的体积模量为Kdry, 可得出:
上式中:饱和流体岩石的剪切模量为μsat, 干燥岩石的剪切模量为μdry。有以上的式子就可得出Gassmann方程, 即饱和流体的岩石与干燥的岩石剪切模量相同时, 孔隙流体不影响横波参数。方程式如下:
上式中, 饱和岩石Dsat、干燥岩石Kdry、岩石骨架Kmat、填充流体的体积弹性模量Kflu、饱和岩石密度ρsat、岩石骨架密度ρmat、填充流体的密度ρflu、孔隙度ϕ。因为, 饱和岩石里横波阻抗变化不大, 对流体不敏感;而纵波阻抗对流体敏感, 含纵波阻抗的的流体因子都是敏感的。
2 构建高敏感流体识别因子
在波阻抗量纲中, 波阻抗量纲的低次类可以将数据的差异缩小, 高次类的量纲可以将数据的差异更加的突出, 两者的结合可以突出构建的因子的灵敏性, 更好的达到流体识别的目的。
上式是一个四次量纲的波阻抗与零次量纲的波阻抗的组合。 (6) 式中, 纵波阻抗IP、横波阻抗IS、c调节参数。
3 数据与柱状图对比
根据Hilterman总结的三类砂岩模型, 比较分析纵波阻抗、横波阻抗、Russell提出的ρf (ρf=Ip2-c Is2) (第1类c=2.336, 第2类c=2.669.第三类c=2.557) 、宁忠华σFSFIF[σHSFIF= (IpIs) (Ip2-BIs2) (调节参数B=4.1) ]与笔者构建的σLKE (调节参数c=2.8) , 这些流体因子之间的识别效果。
根据表1可以看出, 纵波阻抗Ip第一类砂岩里面并不能很好的区分出含气、含水砂岩, 在第二类和第三类里面能区分, 效果不明显;因横波阻抗Is对流体不敏感, 即横波阻抗在区分三类砂岩的含水与含气效果上都不明显;在流体识别因子中, ρƒ与σHSFIF对三类砂岩区分还是比较明显的, 它们的取值都为正数。笔者构建的识别因子σLKE在三类砂岩的含水与含气的区分上更加明显, 例如在流体识别因子在取正数值的时候, 能很好的区分第三类砂岩里含水含气, 在含水的时候为2503.9, 而含气为1.694;在第一类砂岩与第二类砂岩样本里, σLKE的区分含水含气效果更加明显, 正数值代表含水, 负数值代表含气, 第一类砂岩的含水为671.8, 第一类砂岩的含气为-8227, 第二类砂岩含水为6464.2, 第二类砂岩含气为-40.06。
4 结论
从Biot–Gassmann方程为出发点, 对流体敏感识别因子与不敏感识别因子进行不同次方量纲组合, 可以得出更敏感的流体识别因子σLKE。通过实际计算证明, 该敏感因子比别的流体识别因子有更高的敏感度。构建的流体因子还要与当地实际资料结合, 根据不同的储层地区, 从而构建合适的敏感流体识别因子。
参考文献
[1]Russell B H, Hedlin K, Hilterman F J, et al.Fluid-property discrimination with AVO:A Biot-Gassmann perspective[J].Geophysics, 2003, 68 (1) :29-39
[2]Biot, M.A., Theory of propagation of elastic waves in fluid saturated porous solid, I:Low frequence range, and II:Higher-frequence range[J].Jounal of the Acoustical Society of America, 1956, 28:168-196
[3]Gassmann, F., Uber die Elastizitat poroser Medien, Vierteljahrsschrift der Naturforschenden Gesellschaft in Zurich[J].1951, 96:1-23
[4]宁忠华, 贺振华, 黄德济.基于地震资料的高灵敏度分析流体识别因子[J].石油物探, 2006, 45 (3) :239-241
汽车配件质量安全影响因子的识别 篇2
2010年,我国已经成为世界第一大汽车生产和消费国。数据显示,截至目前,我国机动车保有量已经达到1.8亿辆以上。随着汽车工业的不断进步,汽车的安全、节能和环保日益成为当今汽车产业发展的三大焦点。在安全方面,据有关统计,2009年全国共发生道路交通事故238 351起,造成67 759人死亡、275 125人受伤,直接财产损失9.1亿元。尽管发生交通事故由多种因素引起,但由车辆自身质量问题而引发的重大交通事故所占比例还是不容忽视的。
国家科技支撑计划项目《消费品质量安全影响因子研究与标准研制》课题将“汽车配件的质量安全影响因子识别、分析和评价”作为子任务之一列入研究内容。本子任务主要通过现有汽车配件标准法规的比较分析和安全事件研究等方法,获取汽车配件质量安全影响因子,并对汽车配件的质量安全影响因子进行分析和评价,同时构建因子数据库。
1 国外汽车安全技术法规体系现状
目前,全球汽车技术法规和标准体系有几十种,最具有代表性的是欧盟、美国和日本三大体系。为了提高国际化水平,日本的汽车技术法规正在向欧盟法规体系靠拢。可以说,世界各国的汽车技术法规都是参照欧盟或美国来制定的。
1.1 欧盟
欧盟汽车技术法规体系由欧盟指令(EEC/EC指令)和联合国《1958年协定书》(UN/ECE法规)两大体系组成。EEC/EC指令是在欧盟各成员国内实施的强制性指令,是对机动车整车及涉及安全的零部件和系统进行认证测试的标准依据。截至2009年初,欧盟EEC/EC汽车及挂车(M、N、0类)指令共61项,其中汽车整车技术指令2项,环境保护单项指令8项,主动安全技术指令21项,被动安全技术指令17项,汽车灯光、信号装置和其他类技术指令共14项。另外还有100多项修订指令。
1958年,联合国欧洲经济委员会(UN/ECE)制定了《关于采用统一条件批准机动车辆、装备和部件并互相承认此批准的协定书》,简称《1958年协定书》,由UN/ECE/WP29 (车辆结构工作组)具体运作,制定全欧洲统一的汽车技术法规,即ECE法规。目前,《1958年协定书》的缔约国共45个,包括25个欧盟国家和其他13个欧洲国家以及7个非欧洲国家。到目前为止,ECE法规有126项,分为安全和环保与节能两大类。安全方面法规包括一般安全性法规(视野、车身结构、操纵指示、车速表、安全玻璃和防盗等)、主动安全性法规(灯光及信号、转向、制动和轮胎等)和被动安全性法规(碰撞防护、座椅及头枕和安全带等)。UN/ECE法规体系是目前全球最具影响力的汽车法规体系。最终由UN/ECE法规体系替代EEC/EC指令体系,是欧盟未来汽车法规发展的趋势。
1.2 美国
美国联邦政府将汽车产品的设计与制造纳入社会管理的法律体系中,对汽车产品的设计制造专门立法。美国联邦政府授权汽车安全、环保、防盗和节能的主管部门制定汽车技术法规,并对汽车产品实施法制化管理制度。美国汽车技术法规体系主要由联邦机动车安全标准(FMVSS)、联邦机动车环保法规(EPA)、联邦机动车节能法规和联邦机动车防盗法规组成。美国运输部(DOT)国家公路交通安全管理局(NHTSA)负责制定、实施与机动车辆结构及性能有关的联邦机动车安全标准(FMVSS)。联邦机动车安全标准(FMVSS)收录在“联邦法规集”(CFR)第49篇第571部分,最新版本是2009年2月颁布的,共收录了71项法规(含63项安全法规和8项一般法规)。
2 我国汽车安全强制性标准体系
经过20多年的体系建设和标准制修订工作,我国在标准法规上与国际先进水平的差距逐渐缩小。从体系构成上看,我国的汽车安全强制性标准与欧盟、美国、日本的汽车安全技术法规相比,项目上几乎相当,只有少数几个项目缺项,但我国正准备进一步补充和完善;从内容和水平上看,我国的汽车安全强制性标准主要以欧盟ECE法规/EC指令为参照,少数项目参照了国际标准以及美国和日本的技术法规。我国汽车强制性安全标准可分为主动安全、被动安全和一般安全。截至2009年3月,我国汽车强制性安全标准(M、N、0类车辆)有67项,其中主动安全标准23项,主要涉及照明与光信号装置、制动、转向、轮胎等;被动安全标准22项,主要涉及座椅、门锁、安全带、凸出物、车辆结构强度、碰撞防护以及防火等;一般安全标准22项,涵盖视野、指示器与信号装置、车身结构参数、后视镜与防盗等。
3 汽车配件质量安全影响因子的识别
3.1 识别过程
汽车配件质量安全影响因子是指影响汽车安全的配件产品固有的因素,与产品的设计、制造、使用和回收等全生命周期相关,可能影响到使用者的人身安全、周围人群的公众安全以及生态安全。本文主要通过对汽车配件质量安全影响因子识别方法的研究,从国内外标准和法规中识别并获取汽车配件质量安全影响因子和相关信息,为开展因子的评价和分析提供数据基础。
汽车是一项复杂的系统,每部汽车由约2~3万个零配件组成。标准中,不同车型对其安全要求各不相同,对安全要求定量或定性的描述复杂而缜密。本项目研究中,必须对大量的质量安全信息进行分析和研究,进而选择适量的与质量安全密切相关的汽车配件因子并进行风险评估。为保证研究任务的科学性和合理性,经过一年来对大量的国内外汽车技术法规和标准文本的分析、比对研究,听取相关专家的意见和对收集到的事故案例进行初步分析,最终确定从以下几个方面识别并获取因子。
3.1.1 以我国汽车强制性标准体系中的质量安全标准为基础,以主动安全标准作为主要安全信息来源,以被动安全和一般安全标准为补充,结合汽车3C认证要求进行因子识别和获取。对我国汽车强制性安全标准中的配件质量安全技术要求进行分析,从而提取质量安全指标项作为汽车配件质量安全影响因子。
3.1.2 按照国家标准GB/T 22760-2008《消费品安全风险评估通则》中消费品风险评估的原则、程序、方法和要求,采用定性、定量相结合的研究方法。
3.1.3 从汽车安全事故案例入手,收集典型汽车安全事故案例,并进行汽车配件产品危害类型、伤害类型、伤害程度分析,选择与我国汽车强制性安全标准中相关联的质量安全指标项作为因子数据。
3.1.4 基于危害源的类别,将质量安全影响因子按照物理类因子、化学类因子和生物类因子进行属性定义。而汽车配件强制性安全标准的信息主要属于物理类因子。
3.2 识别结论
综上所述,本研究以我国汽车配件安全标准和汽车安全事故案例中的安全信息为来源,最终识别并提取涉及26种汽车配件(主动安全配件8种、被动安全配件12种、一般安全配件6种)质量安全影响因子147个,其中主动安全类66个,被动安全类62个,一般安全类19个。汽车配件质量安全影响因子树形结构如图1所示。因子数据采集示例见表1。
4结语
目前我国汽车标准法规体系虽然正逐步与国际接轨,但仍滞后于当前汽车产业的发展水平,与欧、美、日相比还有较大的差距。本文所述汽车配件质量安全影响因子的信息来源主要是我国汽车配件强制性安全标准,而我国汽车配件强制性安全标准大多是不同程度采用或参考了ECE相关标准的主要内容。随着研究的深入,还将进行我国标准与美国或日本相关标准的比对研究,以进一步提高完善因子数据。
摘要:文章以我国汽车配件强制性国家标准为主要信息来源,通过汽车安全事件典型案例和消费品风险评估要求对质量安全的影响因子进行分析研究、识别,最终确定汽车配件的质量安全影响因子。
关键词:汽车配件,质量安全,影响因子
参考文献
[1] 胡芳芳,李伟,胡可钊.我国与欧美日的汽车标准法规体系分析[J].客车技术与研究,2009,33(3) :41-44
[2] GB/T 22760-2008. 消费品安全风险评估通则[S].
[3] 全国汽车标准化技术委员会.汽车校规 目录[R].2009.
[4] 中国汽车技术研究中心(CATARC).中国汽车标准动态研究报告[R].2008-2009.
识别因子 篇3
更广泛的水利工程风险因子识别问题也已经取得大量的研究成果。王振强等[5]探讨了大型水利工程的巨额投资问题,对其投资风险进行了分析,所应用的风险因子识别方法是工作分解结构(WBS)方法与风险分解结构(RBS)方法;Cohen等[6]采用关键路径法对工程的论证、计划、设计和实施的整个过程进行风险管理,并采用头脑风暴法来识别风险因子;Steinmann等[7]分析了非洲大陆水利工程与血吸虫病之间的关联性,通过大量文献查阅和汇总的办法来识别血吸虫病风险的来源;Wang等[8]研究了长时间、大规模的调水、输水对河流形态产生的影响,借用了形态动力学方法识别其中的风险因子。此外,在与水利工程有关的水质污染风险问题研究中,文献[9]按照污染来源的几个途径对风险因子进行识别,文献[10]通过GLEAMS模型以描绘全景的思路来识别风险因子。水利工程风险因子识别方法(模型)可归纳为表1。
现有水利工程风险因子识别方法(模型)具有以下特点:
第一,就研究对象而言,水利工程风险因子的识别多见于一些特定的研究领域,比如工程结构、环境与水质以及河流形态等等,针对性较强。而对大型水利工程需应对的更复杂、更综合的风险问题鲜有涉及。
第二,就风险因子识别方法而言,绝大多数是依据行业常识,建立较为主观的分析框架。
第三,在水利工程风险因子识别过程中,对于风险传导而产生的风险因子尚未引起重视。不同类型的风险会产生相互传导的影响,进而产生新的风险因子,而现有研究对这一类风险因子识别的讨论极少。
此外,目前对社会风险尚无确切的定义,只对其性质和特征加以描述,而且主要考虑个人或团体对社会造成的损失[11]。
本文中,笔者将建立系统的、多维度的风险因子分析框架,将研究对象结构化,并根据南水北调东线工程的运作流程和管理环节对其社会风险加以分解,以便更好地将研究对象的客观面貌反映出来。
1 社会风险结构化
1.1南水北调工程社会风险的含义及传导机理简述
考察南水北调工程的社会风险,是指将南水北调工程视为一个经济实体或一个社会单元,考察社会诸多因素对其所造成的影响和损失。本文的讨论限于南水北调东线工程。
从总体上说,南水北调东线工程的风险可以分为5类:工程风险、环境与生态风险、水文风险、经济风险以及社会风险[1]。社会风险包括单纯的社会风险和传导而生的社会风险。单纯的社会风险包括不同行政区域之间发生水事纠纷、工程建设移民问题的后续影响、工程运行与其他产业的冲突、受水方与供水方的合作危机等诸方面对工程运行所造成的影响;而传导而生的社会风险是指从其他4类风险(工程风险、环境与生态风险、水文风险、经济风险)传导而生的社会风险。一旦出现其他4类风险,将很有可能引发社会风险,如,水质污染造成公众恐慌,进而引发社会动乱;提水、输水和蓄水3大系统中任一环节出险,或者调水源头、输水沿线发生任何水质污染并超出了水的自净与稀释能力,或者水源区与受水区的丰枯状况出现不利的组合,都可能使整个调水过程中断,或产生额外的开支,等等。由于南水北调东线工程主干渠与各主要河流平行交汇,水质污染发生的概率较大,而由于南水北调东线工程的调水规模对于长江和淮沂沭泗水系的径流量影响并不显著,所以由南水北调东线工程水文风险传导而生的社会风险概率较小[12,13,14]。此外,经济政策的变化或市场因素的作用也会产生传导的社会风险,如水价波动或其他替代产品(中水利用、海水淡化)的出现也会引发社会风险。
可见,南水北调东线工程的社会风险涉及众多的行业和相关利益群体,是多层面、多因素的交叉关联问题,因此,在研究方法上,必须将研究对象结构化。本文采用等级全息建模方法(以下简称HHM)与鱼骨图相结合的风险因子识别方法,旨在更好地反映研究对象的客观面貌。
1.2 HHM
HHM是Haimes[15]在20世纪80年代提出的一种全面的思想和方法论,其目的在于从多视角、多维度来获取和展现系统的内在特征和本质,反映其客观面貌。但直至近期,HHM才得以较广泛地应用到风险研究中,如大型软件及数据库项目(经费超过10亿美元)风险分析[16],菲律宾地区火山泥流危害分析[17],网络资源管理中数据、多媒体业务和资源利用问题的风险分析[18],以及军事情报监侦系统(C4ISR)开发的风险分析[19]。但目前很难找到HHM在水利工程风险研究中的应用,Haimes曾以框架分解的思想对莫米河盆地水资源系统进行划分,但那是在HHM概念提出之前。
本文既要考虑单纯的社会风险,也要考虑经由其他4类风险传导而来的社会风险。HHM能够为其系统建模和风险因子的确定构建一个全面的理论框架[20],可以更便利地从3个层次识别和评估子系统的风险。在第一层次中,从单纯的社会风险和传导的社会风险2个视角加以划分;在第二层次中,将上一层的2个视角分别划分为运作流程和管理环节2项因素;然后在第三层次中继续对上一层次2项因素加以划分。南水北调东线工程社会风险分析框架如图1所示。
记南水北调东线工程社会风险因子集合为F,有:
式中:R为运作流程的社会风险因子集合,M为管理环节的社会风险因子集合,Ri为R的子集,表示第i个维度的风险来源在运作流程上产生的风险因子,Mi定义类似。
HHM能够从多视角、多维度来获取和展现系统的内在特征和本质,但依此方法建模,所形成的框架并不能反映研究对象运行的过程和步骤,因而分析效果受到影响。HHM必须建立一个特殊的图标形式,因此,本文对HHM进行改进,将鱼骨图与之结合,用来识别南水北调东线工程的社会风险因子。
1.3 HHM与鱼骨图的结合——改进的HHM
鱼骨图被用来概括各种影响以及挖掘其成因,具有诸多优点,如,注重结构性和因果分析,强调过程和步骤等。鱼骨图在许多方面得以应用,如用来帮助分析40年内的242起储油罐事故并理清事故缘由[21],研究对尖锐物品刺伤的预防,并分析其根本原因[22],以及用于探讨图书馆的技术服务,对其流通、采编等部门工作成效进行定义和度量[23]。
以HHM结合鱼骨图的南水北调东线工程风险因子识别方法具有以下特点:①全息、多视角、多维度地识别南水北调东线工程风险因子;②强调南水北调东线工程运行的过程和步骤,从运作流程和管理环节两方面反映其客观的本来面貌。
2 风险因子识别
本文的首要任务是建立起风险因子分析框架,将南水北调东线工程社会风险问题结构化。以HHM建模方法进行风险因子识别,要建立特殊的图标形式,本文采用鱼骨图对HHM建模方法进行改进,以期更好地反映南水北调东线工程运行的过程和步骤,从客观的运作流程和管理环节来分析其风险因子。
本文考虑2个维度的风险来源:单纯的社会风险和传导的社会风险。则式(2)和式(3)中的n=2,即,R=R1∪R2并且M=M1∪M2。
2.1 鱼骨主干的建立
风险因子分析框架的第3个层次将分别对运作流程和管理环节继续分解。
a. 运作流程的鱼骨主干。根据有关资料[24],本文将南水北调东线工程的供水过程与步骤概括为4个环节:水源、输水、工程与设施、用水。
b. 管理环节的鱼骨主干。本文研究的社会风险问题是探讨社会对研究对象可能造成的损失和影响。将整个南水北调工程的运行理解为一个企业实体的运行,它的运行符合管理学的一般规律。根据管理学原理并结合南水北调东线工程的特殊性,本文将南水北调东线工程的管理环节分为5个环节:财务管理、人力资源管理、市场管理、技术管理、水商品管理。
管理环节鱼骨主干中的技术管理环节对应于管理学中的研发职能,但南水北调工程并不具有常规意义下的研发职能,它对应的是水利工程和配套设备的技术问题。此处并非探讨技术本身,而探讨由那些技术原因引发的管理问题。管理环节鱼骨主干中的水商品管理环节对应于管理学中的生产职能。如果将南水北调工程的运行看成一个企业的运行,则这个企业的生产就是水商品的保障,亦即将水从水源区顺利地输送到沿线各个受水区。
2.2 单纯的社会风险鱼骨图
南水北调东线工程单纯的社会风险因子识别的结果如图2和图3所示。由图2和图3所识别出来的风险因子的集合分别为R1和M1。
2.3 传导的社会风险鱼骨图
南水北调东线工程传导的社会风险因子识别的结果如图4和图5所示。由图4和图5所识别出来的风险因子的集合分别为R2和M2。
2.4 鱼骨图叠加——社会风险因子识别的完成
单纯的社会风险鱼骨图和传导的社会风险鱼骨图分别从运作流程和管理环节反映南水北调东线工程运作的客观面貌。将包含9个类别、2个维度(单纯的社会风险和传导的社会风险)的鱼骨相叠加,识别出风险因子共50条,如图6和图7所示。图6和图7各自所包含的所有风险因子分别以并集R和M表示。
3 结 语
本文对南水北调工程社会风险的含义进行了阐述,并在此基础上对东线工程的社会风险因子进行了识别,不仅丰富和拓展了社会风险的概念,同时也开拓了大型水利工程风险管理研究的新领域。相对于以往依据行业常识和较为主观的框架来识别风险因子的做法,本文采用与鱼骨图相结合的改进的HHM,建立了系统的、多维度的分析框架,将研究对象结构化,并从运作流程和管理环节2个维度对南水北调东线工程的社会风险进行分解,更好地反映了研究对象的客观面貌。改进的HHM克服了传统的HHM不能有效地反映研究对象过程和步骤的缺陷,从运作流程和管理环节建立了2根南水北调东线工程社会风险鱼骨,从2个维度(单纯的社会风险和传导的社会风险)分别绘制出运作流程和管理环节的鱼骨图,然后将对应的鱼骨图叠加,识别出风险因子共50条。
本文受篇幅所限,考虑的是2个维度:单纯的社会风险和传导的社会风险,而事实上可以通过5个维度来建立风险识别的框架,即单纯的社会风险以及其他4种风险分别传导而生的社会风险,以便更丰富、更详细地识别社会风险因子,因此,后续的研究可以通过更多的维度来识别风险因子。另外,对本文识别出的社会风险因子,还需要进行风险管理的后续工作,包括通过不确定性视角和损失性视角建立风险矩阵等,并对风险因子加以评估,进而选取风险控制策略和设计应急预案等。
摘要:为识别南水北调东线工程运行的社会风险因子,将南水北调工程看作一个经济实体或社会单元,从而考虑社会对这个单元所造成的影响和损失。通过将等级全息建模方法(HHM)与鱼骨图相结合,形成改进的HHM建模识别方法,使该方法能够反映研究对象的过程和步骤,更有效地描述南水北调东线工程运行的客观面貌,并以此作为风险识别的工具,从单纯的社会风险和传导的社会风险这2个维度按等级层次识别了南水北调东线工程的社会风险因子共50条。
识别因子 篇4
在分子生物学领域,理解转录调控机制是后基因组时代重大挑战之一。达到这一目标的重要步骤是转录因子结合位点TFBS(Transcription Factor Binding Sites)的识别。转录因子结合位点是基因上游启动子区域长度为5~15bp的短序列片段,被转录因子结合以调控下游基因。通过生物学试验检测TFBS的方法由于开销大、耗时长等缺点,不适合处理海量数据。因此,越来越多的计算识别方法被提出用于初选待测位点。通常一个转录因子结合位点可以被一个或多个转录因子结合,而相关研究表明这种结合具有较高的特异性。因此,在计算分子生物学领域,TFBS的识别问题可视为一个多类别模式分类问题,即给定一个未知样本,判定它可能被那一类或哪几类转录因子结合。
目前,基于核方法和正则化理论的机器学习分类算法是最常用的方法之一,也是统计学习理论SLT(Statistical learning theory)的核心内容[1,2]。SVM作为经典的分类算法,基于VC维理论和结构风险最小化原理,克服了传统机器学习分类算法维数灾难、陷入局部最优解、过拟合等缺陷,对未知样本具有良好的泛化性能,因此被广泛应用于模式识别、文本分类、生物信息学、信息安全等诸多领域。
传统SVM主要用于解决二分类问题。近年来提出的多分类SVM作为原始SVM的扩展,是将多分类问题分解为多个两分类问题,忽略了类别间的联系。其中,“一对多”策略采用了一个正负类不平衡的训练集,建立的每个二分类器负样本数远大于正样本。另外,现有的多分类SVM不适用于只包含正样本集的情况,而TFBS负样本集无法构造。因此,利用现有的多分类SVM处理TFBS识别问题并不恰当,需要设计一个能直接用于多类样本集的多分类器。
基于正则化理论建立的分类器的结构风险通常由两部分控制:经验风险(训练误差)和置信界。以二分类问题为例,一个规范超平面构成的指示函数集:
h(x)=sgn[(w·x)+b] (1)
的VC维h满足:
h≤min([R2A2],n)+1 (2)
其中,sgn[·]为符号函数,n为向量空间的维数,R为覆盖样本向量的超球半径,‖w‖≤A。通过式(2)不难发现,一定程度上减小R2,能使VC维的上界h减小,从而降低学习机的复杂性,以提高预测函数的泛化能力。这正是数据域描述模型的基本思想。数据域描述是对数据集所在的类别进行描述,拒绝可能来自其他类的数据[9,10]。本文在最新的多任务学习理论基础上将数据域描述问题拓展到多类的情况,并用于解决TFBS识别问题,从整体上对来自所有类别的样本同时学习,同时捕获类别之间的联系。
SVM采用的hinge损失函数对孤立点和噪声都是较敏感的,即对离群点不具有鲁棒性。本文根据训练样本的置信度不同,在惩罚项中引入模糊成员函数以区别对待,对置信度大的样本给予充分重视,相反(很可能是噪声点)则限制其作用。
基于核方法的机器学习算法的核心问题是核函数的选择,因其很大程度上影响分类器的性能。先前基于核方法的生物实体识别算法通常采用0-1编码的多项式核,显然不适合长度不规则的生物序列。本文采用基于编辑距离的字符串核来度量TFBS之间的相似性,以更好地比较序列间的相似性。
1相关工作
在计算分子生物学领域,常见的TFBS识别方法是通过从海量基因序列中寻找超频词(over-represented N-mers)来发现特定模式。代表性的算法有MEME[27]、Gibbs sampling[28]。实验表明对于位点进化较保守的物种(如酵母、果蝇等)有很好的识别效果,而对于位点进化相对不保守的脊椎动物(如人、大鼠、小鼠等),效果通常不尽人意[29]。另一种是采用支持向量机、人工神经网络等机器学习分类算法。文献[11]提出了基于数据域描述的一类SVM (One-Class SVM:OSVM)用于高维分布区域估计。文献[12]采用OSVM用于顺势调控元件判别。该方法分别对每类数据进行建模,没有从整个数据集出发,考虑不同类转录因子之间的联系。另外,采用0-1编码的核函数不适合长度不规则的TFBS序列。文献[3]结合SVM和ECOC算法实现了转录因子的四分类问题。通过构建4个二分类SVM对各个类别的转录因子独立地进行训练和分类,然后对分类结果进行综合判别,好处是能够直接利用现有的二分类SVM,缺点是不能对整个数据集同时学习,未考虑类间联系。近年来,多任务学习已成为机器学习领域的一个研究热点。文献[16,17]中提出了一个基于统计学习和函数正则化的多任务学习理论框架,通过新的正则化因子对不同的任务同时学习,捕获类间联系。本文在此基础上建立多数据域描述模型并用于解决TFBS识别问题。
最近几年研究者相继提出了一系列核函数用于生物实体分类[21,22,23,24,25],其共同的目标是寻找一种有效的相似性度量。本文采用基于编辑距离的字符串核以更好度量TFBS序列的相似性。
2多任务学习模糊样本集
本节首先简要回顾在Hilbert空间中利用核函数和正则化进行多任务的学习方法,更多细节请参见文献[1,13,14,15,16]。然后定义多任务学习模糊样本集。
在标准的单任务学习中,给定包含n个样本的样本集X={(xi,yi):i∈ℕn}⊂X×Y,假设这些样本是独立同分布的,来自同一个X×Y上的未知概率分布P。学习的目标是获得一个有较小的期望风险E[L(y,f(x))]预测函数f。设L为预定义的损失函数,如标准二分类SVM的hinge损失函数:(1-yif(xi))+。一个常见解法是基于SLT和Tikhonov正则化,即最小化下列风险泛函:
其中‖f‖
其中{ci}是一个实值参数集,k(·,·)是核函数,在Hilbert空间中具有再生性。
Evgeniou和Micchelli在Tikhonov正则化的基础上将单任务学习拓展到多任务的情况,提出了基于SLT和正则化的多任务学习正则化泛函[16]。假设一共有m个任务,第l个任务包含nl个样本点,输入空间Xl=ℝd,l∈ℕm。 为估计参数向量u=(ul:l∈ℕm)∈ℝmd,通过最小化下列泛函:
R(u):
其中,L为预定义的损失函数,γ为一参数,用于控制两个指标的权衡。J(u)是正则化因子。多任务学习的目标是从这些样本中同时学习所有m个任务的预测函数fl(x)=u
定义1 模糊子集 设X是一个论域,给出映射μ:X→[0,1],xμA(x)则μ确定X的一个模糊子集
定义2 多任务学习模糊样本集 假设共有m个任务(或m个类),第l个任务包含nl个样本,用Al
需要指出引入模糊样本的主要目的是利用样本点的先验不确定信息增强损失函数对离群点的鲁棒性,原则上并不违背统计学习理论。
3基于多数据域描述的TFBS识别
本节讨论在多任务学习理论的基础上建立一个多数据域描述模型MDMH(Multiple Data Domain Description by Multiple Hyperspheres),并结合核方法用于转录因子结合位点识别问题。
3.1多数据域描述模型
借助定义2,引入被赋予隶属度的模糊样本集。对于一个m类数据域描述问题,试图用m个超球覆盖来自m类的训练数据,每个超球包含来自训练数据的一类子集。训练的目标是同时寻找所有m个超球面的球心c和半径R,并且最小化R。一种常见的做法是分别对每类样本数据分别建立相应的数据域描述[20],缺点是没有从样本集整体上考虑,忽略了类间联系,不能充分地利用样本集。为此,本文建立的多数据域描述对所有类别的样本同时学习并获得所有类的域描述,这样既能充分利用所有类别的已知样本,同时又一定程度上考虑了类别之间的联系。
定义3 多数据域描述模型 假设有m类数据样本,第l类包含nl个样本点,样本总数记为
fl=g(x|Rl,cl) (6)
其中,g(·)是模型,定义一个超球假设类。覆盖第l类(l∈ℕm)样本的超球可用一般距离空间中的一个闭球描述,即BRl(xcl)={x∈Xl:d(x,cl)≤Rl}。其中x是输入,Rl和cl是第l类的参数,示例了假设类中的一个假设。下面的定义给出求解MDMH模型的最优化问题。
定义4 MDMH优化问题 假设有m类数据样本,所有样本点构成的全体记作
min1m∑l∈ℕmR2l+1nv∑l∈ℕm∑i∈ℕnlsilξil
s.t. ‖ϕ(xil)-cl‖2≤R2l+ξil
ξil≥0 Rl≥0 (7)
其中Rl、cl分别为第l个超球的半径和球心,ξil为松弛变量,v为惩罚因子, 其作用为平衡超球面的大小和落于超球外异常点的数量。显然,这是一个具有不等式约束的非线性规划问题,其目标函数和不等式约束条件都是二次的。下面的定理给出原始最优化问题式(7)的对偶问题,将非线性不等式约束转化为线性等式约束,将原问题转化为一个二次凸规划问题求解。
定理1 MDMH的原始最优化问题式(7)的对偶问题是求解下列二次规划问题:
显然,式(7)的最优解应满库恩-塔克必要条件,即:
αil(R2l+ξil-‖ϕ(xil)-cl‖2)=0
βilξil=0 αil≥0 βil≥0 (9)
证明 首先引入式(7)的Lagrange函数:
其中α=(α11,…,αil,…,αnmm)T,β=(β11,…,βil,…,βnmm)T为Lagrange乘子。根据Wolfe对偶的定义,分别求Lagrange函数式(10)关于Rl,cl,ξil的极小点。由极值条件得:
∂L∂Rl=2
mRl-2Rl∑i∈ℕnαil=0
∂L∂cl=∑i∈ℕnlαil(ϕ(xil)-cl)=0
∂L∂ξil=sil
nv-αil-βil=0 (11)
即
将式(12-14)代入Lagrange函数式(10),得证。
第l个超球的半径Rl可通过位于其球面上的样本点(记yl)求解,满足:
R
下面说明如何寻找位于超球面上的点。
定理2 设式(8)是MDMH原始优化问题(7)的对偶问题,定义
证明 当
设yl为满足定理2的位于第l个超球面上的任意一点,l∈ℕm,将式(13)代入式(15),得到:
对于测试数据x,MDMH的第l类判别式为:
其中,
通过引入核函数k(x,y)=(ϕ(x),ϕ(y)),MDMH的最优化问题式(8)变为:
max∑l∈ℕm∑i∈ℕnlαilk(xil,xil)-m∑l∈ℕm∑i∈ℕnl∑j∈ℕnlαilαjlk(xil,xjl)
s.t. ∑i∈ℕnlαil=1m 0≤αil≤silnv(i∈ℕnl,l∈ℕm) (19)
对于测试数据x,MDMH的第l类判别式(17)变为:
对于多分类问题,最常见的情形是判别测试样本x最可能所属的类别,通过求:
另一种情形是预先设定一个阈值λ,大于这个阈值的判别为样本所属的类,可通过求下面的截集得到:
fλ={l: fl(x)>λ,l∈ℕm} (22)
还有一种情形是希望将测试样本x判为最有可能的N(N∈ℕm)个类别。记
fN={l:#{fl(x)≥μ}=N,∃μ∈[fmin,fmax],l∈ℕm} (23)
3.2基于多数据域描述的TFBS识别
如前所述,TFBS的识别问题可看作是一个多分类问题。根据定义,TFBS在计算机中可表示为由字母表Σ={A,G,C,T}构成的一定长度的字符串。设x,y分别为两个待比较的TFBS序列片段,记x=x1x2…xm,y=y1y2…yn(xi,yi∈Σ),长度分别为|x|=m,|y|=n,(m,n∈ℕ+)。令ε代表空串,由Σ组成的所有字符串的全体记为:
定义如下基于编辑距离的字符串核作为学习机的核函数:
k(x,y)=exp{-β·Edit(x,y)} (24)
其中Edit(x,y)代表x和y的编辑距离。β为一参数,为避免Gram矩阵强对角占优,需根据具体的应用选取β值,本文实验中取β=0.2。显然,x与y越相似,k(x,y)的值越大。
通过以上输入空间和核函数的定义,利用式(19)对数据库中的TFBS样本进行学习获得多数据域描述,根据式(21-23)对测试样本进行分类。下面在真实数据集上验证方法的有效性。
4实验方法与结果讨论
4.1实验数据
本文从最新的TRANSFAC数据库(Release 9.4)[26]中取出50组脊椎动物转录因子结合位点作为样本集,均为权威机构通过生物学实验验证获得的真实数据。选取的原则是尽可能使位点的长度和每组位点数分布均匀,忽略长度在5~15bp以外的位点(很可能是噪声)。该数据集的一般性描述统计如表1所示。
4.2实验结果
本实验的具体环境为一台运行Windows XP的PC机,具有Pentium Centrino Duo 1.83G 双核CPU和2G内存。所有代码用MATLAB实现。
实验分5组进行,第1组的训练样本来自前10类,记为M-10;第2组来自前20类(M-20);第3组前30类(M-30);第4组则包含所有50个类的样本(M-50)。以上第1~4组实验的测试样本均来自前10个类。 第5组实验的训练样本和测试样本均来自前10个类,采用One-class SVM(即模型中取m=1的情况,不考虑类间联系),并同前4组实验进行比较。我们采用交叉验证来测试算法的性能:每次取第l(l∈ℕm)类的一个样本作为测试样本,剩余的nl-1个样本和其他m-1类的所有样本作为训练样本,反复进行直到所有类别的样本测试完毕。算法的性能度量采用生物信息学中常用的三个指标:敏感性(Sensitivity)、特异性(Specificity)和F-measure,其中F-measure通过下式计算:
以上5组实验独立进行,对每组实验分别得出上述3个性能指标。表2给出了5组实验的性能指标均值。
实验结果表明,MDMH模型能有效地应用于TFBS识别问题。当样本包含的类别数较少时(如:m=10),基于MDMH的TFBS识别方法性能略低于One-class SVM方法。但随着训练集包含的类别数的增加,MDMH方法的预测准确率有不断提高的趋势,当m=50时,预测准确率达到88%,明显高于One-class SVM。这表明当训练集包含足够多类别的样本时,MDMH能充分利用来自所有类别的训练样本,有效地捕获多类别间的联系,提高预测准确率。
5结语
本文建立了一个基于多任务学习理论的多数据域描述模型:MDMH,并在此基础上设计了一个转录因子结合位点识别算法,从整体上对所有类别的样本同时学习,充分地利用了数量有限的已知样本,同时考虑了类别间的联系。针对生物序列的特点,采用基于编辑距离的字符串核来度量TFBS之间的相似性。实验获得了较高的预测准确率。
在后续工作中,我们将对多任务学习理论进行完善,考虑不同任务可能对应异构输入空间的情形。另外,本文假设数据样本是独立同分布的,对解决一些实际问题有局限性,因此需要考虑如何解除这个限制条件。其次,我们将从计算学习理论的角度出发,给出一般多数据域描述模型泛化错误的界。对于不同种类的多任务联系,考虑如何定义多任务核函数和改进正则化因子以更好地捕获类间联系。再者,需要从计算代价上降低多任务学习求解过程的复杂度或设计并行算法以适应大数据量或实时系统。最后,针对TFBS识别问题,我们将引入更多有效的生物学先验知识以提高预测效果,设计增量学习算法以适应生物数据库快速增长的需求。
识别因子 篇5
传统的基于图像局部的分析技术(如PCA[1]),是一种基于全局子空间的分析方法。然而在人脸表情识别的很多应用中,基于局部特征具有较全局更好的性能,如惊讶表情,集中体现在眼睛和嘴形的变化上。基于以上考虑,文献[2,3]提出了一种非负矩阵因子NMF算法来学习图像的局部,该算法通过对图像矩阵引入非负性约束,以保证基于局部的感知行为。文献[4]以此算法及改进算法2DNMF实现了人脸识别,得出了较好的结果。
但NMF及2DNMF等算法实质上都是线性的,这样隐藏在数据或图像中的非线性信息就不能被提取出来,没有利用此类信息。此外,NMF等算法只能处理那些已知其属性值的数据,在很多实际应用中,只知道数据间的相互关系,而不知道其详细的属性值,此时NMF等算法就不适用。
受KPCA等核方法的启发,本文引入核函数来解决非线性的问题,在NMF迭代优化过程中采用更灵活可靠的高斯核函数,称为高斯核非负矩阵因子分解GKNMF(Gaussian Kernel NMF)。GKNMF通过基于核的非线性映射并结合NMF可从原始数据中提取更多的有用信息,包括线性的和非线性的。因此,GKNMF更具普遍性。
在CED-WYU(1.0)和JAFFE两个表情数据库[5]上,利用NMF、2DNMF和GKNMF进行表情特征提取,结合最近邻分类器进行表情的分类识别,结果表明,基于GKNMF的方法能有效地提高识别率。
1 非负矩阵因子分解NMF
在局部子空间统计学习中,NMF进行如下的矩阵分解[2,3,4]:
V≈WH (1)
其中,V是n×m维的矩阵。在人脸表情数据库中,V=[v1,v2,…,vm]表示由m个具有n维非负像素值组成的表情图像数据集,其中vj∈Rn,且满足
当NMF采用V的散度来近似Y=WH时,NMF算法等价于求解如下优化问题[2]:
其中,W和H满足关系式:
通过乘法形式的修正,可以得到上述优化问题的局部最优解,从而获得NMF基图像。
NMF迭代算法如下[2]:
Wiα=Wiα∑mμ=1Viμ(WH)iμHαμ
Wiα=Wiα∑nj=1Wjα
Hαμ=Hαμ∑ni=1WiαViμ(WH)iμ (2)
通过上述步骤获取的NMF基图像作为特征子空间W,再采用式(3)将表情图像X映射到该子空间以提取表情特征:
H=W-1X (3)
2 2维非负矩阵因子2DNMF
2DNMF[4]先分别对表情图像的行向量和列向量应用NMF,得到相应的1维的行基和列基,再将两个1维的基变换为2维基进行表情特征提取。
假设有m幅p×q维的表情图像Ak,k=1,2,…,m,将这些表情图像排成一个p×qm的矩阵X=[A1,A2,…,Am]。与NMF类似,2DNMF进行如下矩阵分解:
X≈CR (4)
其中C为p×d维的非负矩阵,R为d×qm维的非负矩阵。为方便起见,将R分解为m个d×q维的子矩阵R=[R1,R2,…,Rm],这样X的每一列对应原始表情图像的列,称C为列基。
表情图像Ak可重写为:
Ak=CRk (5)
在此基础上应用NMF,就可获得列基C。这是第一步。
为进一步获取行基,重构q×dm维的矩阵R″=[R
R″≈LH (6)
其中H为q×g维的非负矩阵,L为g×dm维的非负矩阵,同样将L分解为m个g×d维的子矩阵L=[L1,L2,…,Lm],这样R″的列间就包含原始表情图像的行间信息,称H为行基。
矩阵R″可重写为:
R
在此基础上应用NMF,就可获得行基H。
通过以上两步就可获得p×d维的列基C和q×g维的行基H。将式(7)代入式(5)得:
Ak≈CL
记C=[c1,c2,…,cd],H=[h1,…,hg],那么2DNMF的2维基定义为:
Euv=cuh
记Fk=L
一般d<p和g<q,这样通过2DNMF可得维数上远小于原始图像的表情特征矩阵Fk:
Fk=CTAkH (11)
3 高斯核非负矩阵因子GKNMF
假设有m幅p×q维的表情图像Ak,k=1,2,…,m,将这些表情图像排成一个矩阵X=[x1,x2,…,xm],这样每一列就对应一幅表情图像。非线性映射ϕ(X)=[ϕ(x1),…,ϕ(xm)]对应的核矩阵为K=ϕT(X)ϕ(X)。
与NMF类似,为探寻矩阵因子Wϕ和H,假定
式中DTKD≥0,H≥0。
为方便进行迭代,记
(13)
在上述迭代优化过程中不需要重新计算衍生的核矩阵,可节省时间、空间,同时也不会有负值矩阵产生,通过迭代和优化可获得表情特征矩阵因子H。其中核函数可以是任意核函数,本文采用高斯函数作为核矩阵的核函数,如式(14),所以将此方法称为高斯核非负矩阵因子分解GKNMF。
4 表情识别及结果分析
4.1 表情数据库
实验是在CED-WYU(1.0)和JAFFE两个表情数据库[5]上进行训练和测试的。
CED-WYU(1.0)静态表情数据库中有10人(5男,5女)共210幅图像,每人展示7种常见表情(生气、厌恶、恐惧、高兴、中性、悲伤、惊讶),每人每种表情有3幅稍有差异的图像。如图1所示。
日本女性表情数据库JAFFE由10人的共210幅图像组成,每人展示7种表情,每人每种表情有3幅稍有差异的图像,均为256×256的8位灰度图像。如图2所示的上三幅图像。
对于表情识别来说,人脸形状、头发等都是噪声,为减少此类噪声,实验中对原始图像进行了切割、几何归一化和灰度归一化等预处理,处理后的图像大小为30×24。如图2所示的下三幅图像。
4.2 表情特征提取
实验中采用NMF、2DNMF、GKNMF等算法进行表情特征的提取,所得特征向量或特征矩阵用于后续的识别。
4.3 表情识别及分析
实验中以每人每种表情各一幅图像共70幅图像作为训练样本,其余140幅作为测试样本。采用最近邻分类器[5]对生气、厌恶、恐惧、高兴、中性、悲伤、惊讶七种基本表情进行测试识别。实验统计结果见表1和表2。
从表1和表2中可以看出, GKNMF在两个表情数据上对七种表情的识别率普遍较NMF、2DNMF高。如CED-WYU(1.0)数据库上的恐惧表情, GKNMF高出NMF4.82%,高出2DNMF2.29%;而JAFFE数据库上的惊讶表情, GKNMF高出NMF4.2%,高出2DNMF2.4%。实验结果说明,基于核的NMF非线性特征提取方法优于线性的NMF,说明GNMF提取的表情特征更优、更丰富、有效,识别率更高。通过高斯核函数的非线性映射可从原始表情数据中提取更多的有用信息,而且GKNMF迭代、优化方法也更灵活,效率更高。
5 结 语
本文提出了一种基于高斯核非负矩阵因子分解的人脸表情识别方法GKNMF。与NMF等不同,GKNMF通过基于高斯核的非线性映射并结合NMF可从原始表情数据中提取更优的表情信息。实验结果表明, GKNMF特征提取方法能有效地提高识别率。另外,GKNMF可有效地降低迭代优化过程中的复杂度并与数据本身的维数无关,因此可以用此方法进行高维数据的分解。下一步,将GKNMF进行扩展,利用高斯核映射处理负性数据的分解、优化,使GKNMF更具普遍性。
摘要:提出一种基于高斯核非负矩阵因子的人脸表情识别方法。该算法引入高斯核函数并结合NMF(Non-negative Matrix Factorization)进行表情特征提取,称之为GKNMF。与NMF、2DNMF(2-Dimensional Non-negative Matrix Factorization)等方法不同,GKNMF通过基于高斯核的非线性映射可从原始表情数据中提取更多线性和非线性的有用信息,尽可能地保留原始的表情信息。根据JAFFE和CED-WYU(1.0)两个表情数据库的识别结果表明,GKNMF特征提取方法能有效地提高识别率。
关键词:非负矩阵因子,2维非负矩阵因子,高斯核非负矩阵因子,表情识别
参考文献
[1]Turk M,Pentland A.Eigenfaces for recognition[J].Cognitive Neuro-science,1991,3(1):71-86.
[2]Lee D D,Seung H S.Algorithms for Non-negative Matrix Factorization[C]//NIPS,2001,13:556-562.
[3]Ioan Buciu.Non-negative Matrix Factorization:A New Tool for FeatureExtraction:Theory and Applications[C]//Suppl.issue:Proceedings ofICCCC 2008:67-74.
[4]Daoqiang Zhang,Songcan Chen,Zhi Hua Zhou.Two-dimensional non-negative matrix factorization for face representation and recognition[C]//Proceedings of the ICCV'05 Workshop on Analysis and Model-ing of Faces and Gestures AMFG,2005,3723:350-363.