Fisher模型(共6篇)
Fisher模型 篇1
1 概述
当前在采用护盾式TBM进行隧道施工时,支护管片一般分为两类,需根据围岩状况进行选择。施工过程中,TBM与围岩相互作用,其掘进参数间接反映了围岩状况,因此有必要就TBM掘进参数与围岩状况的相关性进行深入研究。
判别分析方法是根据观测样本的若干判别因子,对新获得的样本进行归类、识别,判断其所属类型的一种统计分析方法。Fisher判别方法近年被引用到岩土工程领域中,取得部分研究成果[1]。本文借鉴Fisher判别分析理论的思想,建立判别模型对隧道围岩进行分类[2]。该研究对TBM施工过程中管片选型提供了及时有效的依据,具有一定的实用价值。
2 费希尔判别方法理论
已知有g个总体π1,…,πk,每个总体πi可认为是属于πi的指标X=(X1,…,Xn)取值的全体,记πi的ni×p(考察p个指标)数据阵为Xi,对于任一给定的新样品关于指标X的观测值x=(x1,…,xn),判断该新产品应属于这k类中的哪一个。
令均值μi=E(Xi),协方差阵
联合协方差
2.1 两总体的判别方法
设总体π1和π2由均值向量和协方差矩阵分别为μ1,Σ1和,Σ2的正态密度所刻划,则能使期望错分代价达到最小的分配法则为:
当时,将x0分配给π1,否则将x0分配给π2。
这里
c(1|2)是指将属于π2的对象错分为π1的代价,c(2|1)是指将属于π1的对象错分为π2的代价,P1和P2分别为π1,π2的先验概率,P1+P2=1。
2.2 基于费希尔判别函数的分类法则
费希尔线性函数为:
两总体均值连线的中点:
若将x0分配给π1;若将x0分配给π2。
2.3 判别准则评价
为考察费希尔判别法则的优良性,存在一个分类方法效果的度量。这个度量称为表现失误率(APER)。它定义为观测值样本中被错分的观测值所占的比例。
表观失误率可以容易地从模糊矩阵计算出来。对来自π1的n1个观测值和来自π2的n2个观测值,模糊矩阵的形式如表1所示。
于是表观失误率为:
3 TBM隧道围岩分类的费希尔判别分析模型
3.1判别参数的确定
影响TBM隧道围岩分类的因素很多,此处根据TBM掘进参数与围岩稳定的相关性,采用TBM掘进参数来反推围岩质量状况。采用刀盘转速,刀盘贯入度,扭矩,总推力作为费希尔判别分析模型的判别因子。
3.2判别模型的建立
从TBM掘进过程参数统计中采集了一组样本。将隧道围岩分为以下两类:
π1:Ⅱ,Ⅲ类围岩,采用低配筋量管片进行支护;
π2:Ⅳ,Ⅴ类围岩,采用高配筋量管片进行支护。
考虑以下四个变量:
X1=转速,X2=贯入度,X3=扭矩,X4=总推力。
假设c(1|2)=c(2|1),即两者错分的代价相等,并且先验概率P1=P2。
利用TBM掘进实测数据估计出y0和m,并进行比较,得出分类结果。各参数取样表如表2所示,相应的贯入度、扭矩、转速、总推力沿掘进方向的变化分别如图1~图4所示。
4 工程实例应用
4.1 建立分类函数
基于西北某大型TBM法开挖引水隧洞的实测数据,获得转速,贯入度,扭矩,总推力的数据,选取其中100个样本数据观测值作为训练集。按照本文提出的费希尔判别方法进行计算。得到判别函数为:
4.2 评估分类函数
根据上述得出的费希尔判别分析模型,对20个观测值进行判别,检验模型的表观失误率,判别结果见表3,得出判别结果与实际情况基本一致。从表3可以看出,费希尔判别结果与实际相符,而马氏判别的结果中,第18样本被误判为第二类,费希尔判别的精度较高。采用费希尔进行判别的分类离散度如图5所示,由图5可以看出,采用费希尔模型进行分类判别具有较高的判别准确性。
5 结语
隧道围岩分类的判定受多种因素的影响,本文考虑TBM施工过程的4个因子:刀盘转速,贯入度,扭矩,总推力,根据四个参数来反推围岩状况进而进行管片选型。建立相应的费希尔线性判别函数,并应用于实例,得到满意的结果。该模型避免了距离判别法中不同量纲会带来影响的问题,考虑到了总体协方差不等的情形,并且把错误分类的代价也考虑其中,因此费希尔判别方法是一种更优于距离判别法的分类方法,为TBM隧道围岩分类和管片及时选型提供了一种更有效的方法。
摘要:根据TBM掘进过程中得到的大量实测参数,建立相应的费希尔判别函数来对围岩状况进行反推,考虑刀盘转速、贯入度、扭矩和推力四个因素来判断围岩质量,进而对支护管片进行选择,应用于工程实际,取得了良好效果。
关键词:判别模型,参数反演,管片选型,围岩分类,TBM隧道
参考文献
[1]宫凤强,李夕兵,张伟.隧道围岩分级的距离判别分析模型及应用[J].铁道学报,2008,30(3):119-123.
[2]Richard A.Johnson,Dean W.Wichern,陆璇.实用多元统计分析[M].北京:清华大学出版社,2001:20-35.
[3]邓星,卢国胜,姜涛.基于RMR对围岩模糊分级参树权重的正交分析[J].山西建筑,2010,36(10):304-305.
如何讲好FISHER确切概率法 篇2
双总体的比率假设检验是数理统计学科中比率假设检验的一项重要内容,在大样本的情形下,根据中心极限定理,用正态逼近法进行检验。20世纪英国统计学家FISHER提出了确切概率法,该方法在大小样本的情形下都可以使用。相比较正态逼近法,该方法适用范围广且比较精确,可以检验水平保证不超过给定的α;缺点是计算麻烦。所幸随着计算机的高速发展,计算已然不成问题,但仍存在难以理解其原理的问题。笔者在教学过程中发现,现有的数理统计和医学统计教科书对该方法的介绍都是点到即止,对原理剖析得不够透彻,增加了理解难度,学生普遍反映难以理解该方法。因此笔者在此详细探究FISHER确切概率法的证明过程,以补充教科书的不足;根据学生反馈对难点进行重点讲解;并给出了MATLAB程序实现该方法的的详细算法,教师可在课堂上演示,以加深学生对该方法的理解,提高学生的学习兴趣。
1.FISHER确切概率法[1]
1.1问题的提出
例:某公安局有两个刑侦组,在过去一年内第一组接手25件人命案,结果侦破了23件,第二组接手35件人命案,结果侦破了30件。问:两个组的侦破能力有无区别?
对该问题进行数学解释,设第一组侦破率为p1,
即X服从均值为p1的伯努利分布,X1,…,Xn为来自总体X的样本,n=25。
同理设第二组侦破率为p2,
即Y服从均值为p2的伯努利分布,Y1,…,Ym为来自总体Y的样本,m=35。
两两总体X,Y独立,x1,…,xn,y1,…,ym为对应的观察值,原假设为,则本质为一个双总体的比例假设检验。显然,该问题不是大样本情形,不能用正态逼近法来解决,只能用FISHER确切概率法来解决。FISHER确切概率法也是假设检验方法的一种,回顾假设检验的步骤,现在需要找出一个在原假设成立时已知概率分布的随机变量,然后根据这次该随机变量值的出现是否是小概率事件来判断原假设是否成立。
事实上,若H0成立,当固定时,则检验统计量S1=∑i Xi是一个服从超几何分布的随机变量[2],该结论在教材上都是直接指出,而没有详细的解释和证明,学生普遍反映不能理解,下面将给出该结论的详细证明。
1.2检验统计量所服从的分布
统计量j固定情况下概率是一个条件概率,由条件概率公式可以得出:
由超几何分布的概率函数可知,检验统计量服从超几何分布。超几何随机变量是离散型的随机变量,它的值可列的。显然,检验统计量S1的取值s1满足s1≥0,s1≥t-m,s1≤n,s1≤t,因此它的范围为[max(t-m,0),max(t-m,0)+1,…,min(n,t)]。
已知了检验统计量的分布,接下来的任务就是根据其分布来确定该统计量的取值出于哪些范围是属于小概率事件,而该范围就是拒绝域,即接下来的任务就是如何确定拒绝域。因为这之前学生接触过的检验统计量一般为正态分布、t分布、卡方分布等连续型的随机变量,很少接触这种离散型的检验统计量,所以学生可能一时不知道该如何确定这种离散型统计量的假设检验拒绝域,这时可以通过借鉴连续型统计量的情形来引导学生推导。
1.3拒绝域的确定
借鉴连续型的情形,对于给定的检验水平α,我们希望找到两个整数c1和c2,使得,类似连续型情形可以确定拒绝域为[max(t-m,0),c1]∪[c2,min(n,t)](见图1)。
然而这种希望不一定能实现,因为检验统计量是离散的,所以满足不一定存在。放宽条件,寻找d1和d2,使得
这样的d1和d2一定存在,但并不唯一,选择满足(1)等式的最大的正整数为e1,满足(2)等式的最小的正整数为e2,确定拒绝域为{s1≤e1∪s1≥e2}。相对于随机取满足(1)(2)的拒绝域{s1≤d1∪s1≥d2},前者有较优良的性质,即它们的检验水平都是≤α,但是犯第二类错误的概率前者是小于等于后者的(对这一点学生也需要一点时间去理解,可以举他们熟悉的置信区间在相同的置信度下取区间长度最小进行类比,以便于他们接受)。
1.4拒绝域的转换
虽然已经知道了检验统计量的分布,确定了拒绝域的形式为{s1≥e1∪s1≤e2},求出满足条件的e1和e2肯定是可以的,但在计算上很麻烦。值得庆幸的事,该定义域可以进行等价转换。
将P(S1=i|S1+S2=t)简记为p(i),
显然(因为e1是满足(1)式中最大的正整数),而(因为e2是满足(2)式中最小的正整数。因此拒绝域转换为等同于
1.5问题的解决
对于例题,没有落入拒绝域,所以接受原假设,认为两个组的侦破能力(侦破率)无区别。
2.MATLAB程序算法[3,4]
2.1MATLAB简介
Matlab(MatrixLaboratory,即“矩阵实验室”)是最优秀的数值计算软件。主要特点有:功能强大适用范围广;编程效率高;界面友好用户使用方便;语句简单内涵丰富;功能齐备的自动控制软件工具包等。它已经成为线性代数、自动控制理论、数理统计、数字信号分析与处理等高级课程的基本数学工具。
2.2主要算法
整个算法的流程见图2。
其中子函数P(begin)的算法如下:
3.结语
鉴于很多教科书上对FISHER确切概率法原理的阐述过于简单,笔者从原假设H0∶p1=p2入手,详细阐述了该方法的原理,并给出了详细的MATLAB算法流程,教师可以在课堂上演示,达到较好的教学效果。对于H0∶p1≥p2和H0∶p1≤p2的情况教师可以让学生参看教科书自行推导,有编程基础的学生可以动手尝试一下写实现包括三种原假设FISHER确切概率法的程序。实践证明,这种诱导型的教育方法可以较好地增强学生的参与性和调动学生的主动性,收到较好的教学效果。
核心算法是p(i)的计算,采用递推来简化计算。
参考文献
[1]陈家鼎.数理统计学讲义[M].北京:高等教育出版社,2006.
[2]徐勇勇.医学统计学[M].北京:高等教育出版社,2002.
[3]张志涌.MATLAB教程[M].北京:北京航空航天大学出版社,2006.
Fisher模型 篇3
在讲解的过程当中, 我们遵循递进法的教学原则, 从假设检验的基本过程出发, 利用“坏蛋试验”中提出的假设检验的基本思想, 进行对P值含义的充分理解, 然后基于超几何分布的思想, 解析“四格表周边合计不变”的本质, 得出所有可能的组合, 进而求解当前组合发生的概率和“不利于H0”的更极端组合发生的概率, 最终得到可以与检验水准α相比较而下结论的P值。具体如下。
第一步:以假设检验的过程为出发点。
首先帮助学生复习假设检验的过程, 着重强调假设检验都是在H0成立的条件下, 根据研究的目的、研究设计的类型和资料的特点等选择合适的统计量, 比如t统计量、χ2统计量等, 然后通过统计量与相应的界值做比较, 得出P值的范围, 最后与检验水准α做比较, 得出统计学结论和专业结论。在这里, 我们强调P值范围是基于某一统计量的分布来确定的。
第二步:复习“坏蛋试验”, 进一步理解P值的含义。
在“坏蛋试验”中, 通过利用二项分布原理, 计算出5个鸡蛋中出现1个或更多个坏蛋的可能性为0.049[1], 基于此, 进一步帮助学生理解P值其实是由2部分组成的, 一是“当前样本”出现的概率;二是“更不利于H0”情况出现的概率, 即比“当前样本”出现概率还要小的所有情况出现的概率之和。
第三步:举一个经典的例子说明超几何分布的含义及其概率的计算方法[2]。
在数理统计学教学中常用的经典例子:一批产品共N件, 其中有M件次品, 进行不放回抽样检查, 即每次从这批产品中任意取出一件, 取出的产品不再放回去, 连续取n次, 共取出n件产品, 则取出的n件产品中的次品数x服从超几何分布
相对应的, 对于表1, 我们可以理解为治疗一批观察对象n, 其中 (a+c) 个有效, 从n个观察对象中随机分配 (a+b) 个至甲药组, 则甲药组中出现a个有效数服从超几何分布H (a+b, n, a+c) 。即:
第四步:结合超几何分布和假设检验的思想理解“周边合计不变”的意义。
超几何分布中有效率为 (a+c) /n, 这一方面与我们在做假设检验时H0假定2组有效率相等的思想一致, 即为 (a+c) /n, 在这种情况下, 即相当于列合计不变。另一方面, 根据设计类型可知n个观察对象中 (a+b) 和 (c+d) 随机地被分到了甲药组和乙药组, 即相当于行合计不变。如此即得出“周边合计不变”的意义。
第五步:根据P值的含义, 寻找“更不利于H0”的情况及其概率。
在寻找“更不利于H0”的情况之前, 我们有必要先找出在“周边合计不变”条件下的所有情况, 根据推导, 可以得出a格子的取值范围为{max[ (a+b) - (b+d) , 0], min[ (a+b) , (a+c) ]}。根据a格子的取值范围列出所有可能的情况, 然后计算出其相应的概率, 与“当前样本”的发生概率P (a) 做比较。当某种情况的概率小于“当前样本”的发生概率P (a) 时, 即可以认为该种情况为“更不利于H0”的情况。将上述各种情况的概率相加, 即可以得到“更不利于H0”情况的概率。为了避免计算的繁杂性, 此时, 我们也可以得出四格表fisher确切概率法比较适用于“小样本”情形的结论。当然在计算机和统计软件广泛应用的今天, 它仍不失为一种很好的方法[1]。
第六步:确定P值, 得出结论。
根据第五步的计算结果, 我们可以把2部分的概率相加, 即可以得到P值, 然后与检验水准α做比较, 得出结论[3]。
综合上述步骤, 我们可以看出, 四格表fisher确切概率法的计算不需要借助统计量和统计量的分布即可以得到P的确切值, 即充分理解“确切”二字的含义。
通过以上的逐步讲解, 学生不但充分理解了四格表fisher确切概率法的计算原理和方法, 还充分理解了假设检验的过程和P值的含义。
参考文献
[1]方积乾.卫生统计学[M].第5版.北京:人民卫生出版社, 2005.
[2]郜艳晖, 邹宇华, 李丽霞, 等.《卫生统计学》教学体会[J].广东药学院学报, 2005, 21 (4) :500~501.
Fisher模型 篇4
1材料与方法
1.1 实验药物及仪器
1.1.1 105味植物类中药名称及产地 见文献[5]。
1.1.2 实验仪器 JOBIN-YVON 48 (法) ICP光量计、JOBIN-YVON 38 (法) ICP光量计、WFY-3型 (国产) 无色散原子荧光仪、JPIA-2型 (国产) 示波极谱仪、 PERKIN-ELMER 3110 (美国) 原子吸收光谱仪、ELKO-II (德) 比色计、PXJ-1B (国产) 数字式离子计。
1.2 105味植物类中药42种元素的检测分析
1.2.1 药物筛选及处理
委托武汉市药材公司从产地购买道地药材, 由武汉市药品检验所鉴别生药的真伪、品种。
用新软刷刷去表面的浮土, 浸泡于双蒸水中溶胀片刻, 表皮折皱处用软刷及双蒸水迅速刷洗并冲洗2次, 50~60℃排风干燥箱中干燥2天。取干燥生药500g, 用不锈钢刀斩成片, 再经玛瑙罐无污染行星式粉碎机上碾碎, 过40~60网目尼龙筛, 分装于2个磨口玻璃瓶中备用。
1.2.2 元素的检测分析
1.2.2.1 JOBIN-YVON 48 (法) ICP光量计, ICP-AES法, 单色仪, 固定道, 全息光栅2400条/mm, 一级色散率倒数0.4nm/mm, HEP-1500型射频发生器1.5kW, 入射功率1kW, 反射功率小于5kW, 冷却氩气流量12L/min, 进样氩气压强165kPa, 垂直观察位置钢管线圈上方16mm处, 测量积分时间7~10秒, 酸分解, 计算机控制多元素同时测定Zn、Cu、Be、Cd、V、Ni、Co、Ba、Sr、Fe等元素。
1.2.2.2 JOBIN-YVON 38 (法) ICP光量计, ICP-AES法, 测量条件同JOBIN-YVON48 ICP, 碱分解经分离富集后, 计算机控制单元素自动扫描测定La、Ce、Pr、 Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu、Y等稀土元素。
1.2.2.3 WFY-3型 (国产) 无色散原子荧光仪, AFS法, WB微波发生器, 管式无极放电灯, 开放式氢化物发生器, 测定As、Sb、Bi、Hg等元素。
1.2.2.4 JPIA-2型 (国产) 示波极谱仪, POL法, 三电极为滴汞电极、参比电极 (小型饱和甘汞电极) 、辅助电极 (铂电极) , 测定Se元素。
1.2.2.5 PERKIN-ELMER 3110 (美国) 原子吸收光谱仪, 高温灰化, 酸溶测定Ca、 Mg、Mn、K、Na等元素。
1.2.2.6 ELKO-II (德) 比色计, COL法, 高温灰化, 碱溶测定Si、Al、P元素。
1.2.2.7 PXJ-1B (国产) 数字式离子计, ISE法, 碱分解测定F、Cl、Br、I等元素。
2结果及统计分析
2.1 105味中药42种元素检测结果 如表1所示为中药黄连的42种元素检测结果。
2.2 元素含量值的正态性检验 经检验, 42种元素在105味中药中的含量数据均不符合正态分布, Kolmogorov-Smirnov Test (改良的K-S检验) 结果均为P<0.001;Shapiro-Wilk Test结果也均为P<0.001。
2.3 百分位变换 分别对药物42种元素含量值进行百分位变换, 结果见表2。
其他药物元素含量略
2.4 建立Fisher判别方程
2.4.1 药性的确立 以全国大中专院校教材《中药学》为依据, 查询所检测的105味药物药性, 发现其中寒性药物25味、凉性21味、温性56味、热性3味。
2.4.2 以不同元素的百分位值, 对105味药物寒、凉、温、热四性建立4类Fisher判别分析函数方程, 典型判别函数的特征值见表3。
a.First 3 canonical diseriminant functions were used in the analysis.
判别公式如下:
F (cold) =-2.081×K-1.724×Fe-112.814×Ca+102.672×P+164.531×Ca/P+6.010×Na-6.704×Si-1.082×Mg-24.884×Al+1.315×Mn+0.819×Zn+10.828×Cu-23.771×Be-10.328×Cd+32.288×V+0.587×Ni+7.744×Co+9.853×Ba-7.445×Sr+17.653×F-13.386×Cl+14.148×Br+1.291×I+4.218×Se-23.766×La+55.464×Ce-28.759×Pr+8.704×Nd+25.621×Sm-36.420×Eu+14.325×Gd+13.445×Tb+38.982×Dy-26.843×Ho-69.411×Er+16.741×Tm-1.525×Yb-36.755×Lu+56.805×Y+13.817×Hg+3.728×Bi-9.437×Sb-1.515×As-49.922
F (cool) =-0.798×K+23.390×Fe-125.250×Ca+114.951×P+183.329×Ca/P+5.861×Na-9.851×Si+0.300×Mg-41.475×Al+3.094×Mn-6.978×Zn+12.711×Cu-26.196×Be-8.606×Cd+26.515×V-2.418×Ni+9.116×Co+11.378×Ba-8.417×Sr+22.012×F-17.119×Cl+14.860×Br-1.344×I+3.024×Se-64.934×La+63.667×Ce-12.162×Pr+15.130×Nd+31.301×Sm-44.180×Eu+19.191×Gd+13.027×Tb+32.448×Dy-41.873×Ho-113.838×Er+28.906×Tm+24.879×Yb-38.797×Lu+98.788×Y+15.986×Hg+4.717×Bi-15.361×Sb-5.320×As-55.729
F (warm) =-1.179×K+14.593×Fe-117.791×Ca+104.583×P+170.234×Ca/P+3.857×Na-3.026×Si-0.022×Mg-34.764×Al+2.319×Mn-1.296×Zn+11.739×Cu-30.996×Be-9.192×Cd+29.681×V-2.510×Ni+7.654×Co+9.633×Ba-6.796×Sr+16.913×F-15.004×Cl+18.134×Br-1.641×I+1.290×Se-44.578×La+64.255×Ce-8.046×Pr+4.736×Nd+21.178×Sm-37.926×Eu+7.408×Gd+9.670×Tb+39.088×Dy-31.740×Ho-74.074×Er+13.162×Tm+0.929×Yb-30.500×Lu+74.684×Y+15.283×Hg+2.911×Bi-9.961×Sb-1.233×As-48.996
F (hot) =3.496×K+10.627×Fe-148.703×Ca+128.501×P+215.497×Ca/P+6.353×Na-7.356×Si+0.325×Mg-56.531×Al+6.406×Mn-1.388×Zn+14.132×Cu-29.456×Be-6.462×Cd+47.454×V-4.364×Ni+10.552×Co+6.595×Ba-9.363×Sr+29.095×F-28.882×Cl+21.948×Br+1.319×I+0.736×Se-75.736×La+92.915×Ce-28.091×Pr+6.975×Nd+5.956×Sm-61.904×Eu+123.205×Gd+15.370×Tb-10.880×Dy-35.749×Ho-50.806×Er+16.342×Tm+19.441×Yb-51.564×Lu+41.332×Y+25.571×Hg+1.944×Bi-15.689×Sb-3.192×As-92.143
2.4.3 建立Fisher线性判别函数方程如下, 4个类别中心点见图1。
2.4.4 用所建立的判别方程对所有药物性质进行回判, 并计算符合率。寒性药25味中有3味药回判错误, 2味误判成温性, 分别为:黄连、牵牛子, 1味判为凉性, 为麦冬, 符合率为80.0%;凉性药21味中有1味药回判成寒性, 为茺蔚子, 符合率为95.2%;温性药56味中有16味药回判错误, 其中8味被判成寒性药, 为:蛇床子、佛手花、覆盆子、红花、金樱子、菟丝子、仙茅、杏仁, 8味被判成凉性药, 为:吴茱萸、槟榔、佛手、独活、山茱萸、苏子、生半夏、天南星, 判别符合率为71.4%;热性药3味全部回判正确。整体回判符合率为80.9%。
3讨论
中药四性, 即寒、热、温、凉四种不同的药性。四性是从药物对机体作用所发生的反映中概括出来的, 是同疾病的属性, 寒证或热证相对而言, 由药物本身的功能决定[5]。通俗来讲就是治热证的药物属寒凉性, 治寒证的药物属温热性;温热性的药物能升入阳气, 增强人体机能活动, 按药物的作用分类而论, 具有温里散寒、助阳益火、活血通络、行气解郁、芳香开窍作用的药物, 如桂枝、紫苏、附子、当归、川芎、陈皮、菖蒲均属温热性的药物;寒凉性药物能减弱人体的机能活动, 或降低人体病理性的机能亢进, 具有疏散风热、清热泻火、凉血解毒、平肝潜阳作用的药物, 属寒凉性, 如桑叶、菊花、石膏、知母、赤芍、丹皮、石决明、钩藤等。中药四性理论是中药药性理论体系的核心, 是在特定自然环境、科学技术条件和历史文化背景下, 对中药本质属性进行认知的经验概括和理论升华, 具有突出的民族文化性和历史传承性。
中药四性在临床运用中也遇到一些问题。其一, 同一味药物, 在不同本草中记载的药性各异, 孰是孰非很难判断[6]。如丹参, 《本经》:微寒;李当之《药录》:大寒;《本草经疏》:微温。牛蒡子, 《别录》:平;《医学启源》:温;《药品化义》:寒。其二, 植物类中药现仅有万余种, 只占植物界中很小一部分, 尚有很多植物的药用价值有待开发, 于是如何确定这些新药的药性成为摆在我们面前的一个现实而重要的问题。因此开展中药药性理论现代研究, 须以中药四性理论的量化分析为重点研究对象。
3.1 Fisher判别方法的可行性
由于105味中药中42种元素含量值不符合正态分布 (如表3所示) , Kolmogorov-smirnov Test (改良的K-S检验) 结果均为P<0.001;Shapiro-Wilk Test结果也均为P<0.001, 需要将其转换后才能用常用的线性统计方法统计分析。经Fisher判别分析, 典型判别方程分析结果为, 特征值 (Eigenvalue) 为1.357、0.821、0.669;典型相关系数为 (canonical corr) 0.759、0.671、0.633; Wilks’Lambda值为0.140、0.329、0.599;Chi-square为158.503、89.470、41.234;P<0.05。说明所建立的判别方程是有意义的, 经过回判符合率为80.9%。
3.2 Fisher判别方法解决了不同典籍中一药多性的问题
中医中药经过数千年的发展, 前人积累的临症用药经验的典籍很多, 但由于个人的经验和条件的限制, 造成了不同的书籍中记载的药性完全不同, 造成用药的混乱。通过Fisher函数方程, 对药物的寒凉温热四性进行判定, 能解决文献记载紊乱的问题。
3.3 运用Fisher判别方法可以对已知和未知的中药寒凉温热四性进行判别
药典所记载的植物类中药有万余种, 仅占植物种类的很少部分, 本研究为分析和判别这些药典中未记载的植物的药性提供了新的思路和方法。
本研究表明, 通过对中药中42种元素建立中药四性的4类Fisher判别方程, 对中药寒凉温热四性的回判复合率为80.9%。本方法能把中药的寒凉温热四性进行定量化的判断, 使中药的四性能与现代科学有机的结合起来.这些结果充分显示了中药中微量元素的含量是其寒、凉、温、热性质的一种决定因素, 通过分析测试中药中所含微量元素的量, 一定程度上能反映中药的性能, 为进一步研究中药的物质基础提供指导。
摘要:目的:通过对105种中药的42种元素含量的检测分析, 探寻中药四性与其元素含量的关系。方法:用ICP和原子吸收方法检测105种中药中的42种元素含量;经检验中药中的元素含量呈偏态分布, 将元素数据转换成百分位值;以全国大中专院校教材《中药学》为依据, 查询所检测的105味药物药性, 发现其中寒性药物25味、凉性21味、温性56味、热性3味;用SPSS软件建立寒凉温热的四类Fisher判别方程。结果:105味中药中42种元素含量值正态性检验显示, Kolmogorov-SmirnovTest (改良的K-S检验) 结果均为P<0.001;Shapiro-WilkTest结果也均为P<0.001, 呈偏态分布;对百分位转换后的元素含量结果进行寒凉温热四类Fisher判别分析, 典型判别方程分析结果为:特征值 (EigenValue) 为1.357、0.821、0.669;典型相关系数为 (canonicalcorr) 0.759、0.671、0.633;Wilks’Lambda值为0.140、0.329、0.599;Chi-square为158.503、89.470、41.234;P<0.05。经过回判符合率为80.9%。结论:所建立的判别方程有意义;通过判别方程能对植物类中药寒凉温热四性作出判定。
关键词:中药性味,中药/分析,寒热温凉
参考文献
[1]商庆新.中药四性理论现代研究是中药现代化的前提和关键.山东中医药大学学报, 2006, 30 (2) :111.
[2]何辉余.地道药材的成因研究.中国民族民间医药, 2009, 18 (4) :5.
[3]曹红翠, 吴启勋.主成分分析和聚类分析用于中药红曲中微量元素含量的研究.西南民族大学学报:自然科学版, 2009, 35 (4) :789.
[4]马亚兵, 王海刚, 高海青, 等.中药微量元素与其药理的关系研究.首都医药, 2009, 16 (22) :42.
[5]管竞环, 李恩宽.中医药理论量化与微量元素.武汉:湖北科学技术出版社, 1998:163.
[6]高建平, 陈长勋.中药“四性”的科学内涵探讨.上海中医药大学学报, 2007, 21 (6) :16.
Fisher模型 篇5
一、财务危机与财务危机预警
Beaver (1966)认为,财务危机是企业发生巨额透支、拖欠优先股股利、拖欠债务、宣告破产的一系列过程,其他国外学者也大都将财务危机定义为企业无法按期履行债务、资不抵债或处于法定破产的状态,如Altman (1968)、Deakin (1972)、Foster (1986)和Ross (2000)等;国内学者大都将企业是否被“特别处理”(即是否被ST)作为判断企业是否陷入危机的标准来进行研究,如陈静(1999)、张玲(2000)、吴士农和卢贤义(2001)、刘洪、何光军(2004)等。
财务危机预警是指利用根据一定的财务信息,运用一定的方法对公司经营活动的过程、结果及计划执行情况进行比较、分析和评价,以便及时发现财务状况恶化的苗头,采取防范措施,提高企业经济效益的一种经营管理活动。财务危机预警不仅有助于及时掌握财务状况,评价企业发展情况,使企业避免损失,而且有助于维护股东和债权人的利益,对企业的长期发展具有重要意义。
对于财务危机预警模型的研究主要集中在单变量分析和多变量分析上,Fitzpatrick (1932)最早运用单变量破产预测方法,发现净利润/股东权益和股东权益/负债两个比率是判断力最高的两个指标。多变量分析方法有:Z-score模型、F分数模型、多元判别分析模型和Logistic回归模型,近年来神经网络开始兴起并逐渐流行。Altman (1968)采用了22个财务比率构成了5变量Z-Score模型,开创了Z-score模型在财务危机预警研究的先河。Ohlson (1980)最早使用了Logistic回归分析模型,预测准确率高达96.12%。国内学者周首华、杨济华(1996)对Z-Score模型进行了改进,提出了F分数模型。吴世农、卢贤义(2001)等人也运用logistic回归、Fisher判别等方法进行了研究。近年来神经网络方法较为流行,黄小原和肖四汉(1995)、李秉祥(2005)、杨淑娥和王乐平(2007)等人进行了研究,但该方法目前缺乏统一的理论,研究结果具有很大不稳定性。
二、研究设计
1.样本选取。
本文对样本的选取遵循以下步骤和要求: (1) 考虑到金融类上市公司的特殊性,样本全部来自于非金融类上市公司; (2) 由于A股和B股、H股公司分别适用不同的会计制度且其数据不具可比性,因此选取样本全部为A股上市公司; (3) 剔除由于缺失等原因造成异常的数据; (4) 按照一对一配对原则选取分析样本,同时由于上市公司是否被ST是根据上一年的财务状况,因此本文以公司前两年的数据作为预测样本。这样共选取了2006~2008年首次ST的102家上市公司和按照同年份、同行业、资产规模相当的原则与之相配对的102家财务正常公司为分析样本,共204家,使用前两年即2004~2006年数据进行预测。选取2009年40家上市公司作为验证样本。
2.数据来源。
本文所使用数据均来自CCER金融研究数据库,部分缺失数据通过金融界网站提供的上市公司的年报获取。
3.指标选取。
在总结前人研究基础上,本着重要性、数据可获得性、科学性、预测性、经济性、稳健性的原则,本文选取了涉及企业偿债能力、盈利能力、营运能力、现金流能力等信息的19个指标,这19个指标从不同方面反映了企业财务状况,具有一定代表性,具体见表1。
4.研究方法。
单变量方法比较简单,无法反映企业综合的财务状况和特征,多元线性判别模型如Z分数模型横向比较的效果较差,选取的样本空间以及财务指标均需服从正态分布。而多元逻辑概率判别模型最大的优势就是综合了其他判别分析的优点,并能保持复杂环境下判别的准确性,Fisher判别就是其最为典型的应用,且此方法操作上方便可行,因此本文选取该方法。
三、实证分析
本文首先对两组样本所选取的19项指标进行K-S正态分布检验、两独立样本T检验以及两独立样本MannWhitney U检验,筛选出表1中除X10(强制性现金支付比率)、X17(存货周转率)这两个财务指标之外的其他17个指标。
Fisher判别法是一种线性判别的方法,该方法对两类总体的要求很低,不需要两类样本同为正态分布,不需要其具有相同的协方差矩阵。Fisher判别法的指导思想为:对原始数据系统进行坐标变换,以求能将两类总体尽可能分开的方向,如下图,图中的圆形和三角形分别代表一类,Fisher判别能较好地将两类区分开来。
Fisher线性判别分析法示意图
当然Fisher判别也有其局限性,它需要下列判定:自变量之间不存在高度相关性;某个自变量的均值和方差不相关;自变量需服从正态分布;两个自变量之间的相关系数在各组之间保持不变。
在运用Fisher线性判别分析法进行企业财务危机预警时,只需将危机公司的因变量假设为1,非危机公司的因变量假设为0,就可以采用回归分析的方法直接计算判别函数的系数。Fisher判别函数的一般形式为:
其中:Z为判别值,x1, x2,…,xn为预警指标,a1, a2,…,an为各预警指标的判别系数。
本文在SPSS统计软件的判别(Discriminant)过程中采用Fisher判别法逐步选择变量来建立财务危机预警Fisher模型,得到结果如表2所示。
由表2可以看出最终进入Fisher判别函数的共有五个指标,X1(资产负债率)为反映企业偿债能力的指标,X5(营业毛利率)、X7(资产收益率)和x8(净资产收益率)为反映企业盈利能力的三个指标,X16(资产周转率)为反映企业营运能力的指标,可见构建的Fisher函数反映的财务信息较为综合。根据上表,可以写出如下判别函数。
对于非ST公司,其判别函数为:
对于ST公司,其判别函数为:
本文运用204家一般上市公司作为构建Fisher判别函数的样本,运用SPSS软件进行分析,得到判别结果如表3所示。
由表3可知,Fisher预警模型在前两年能够预测出102家ST公司中89家出现财务危机,准确率为87.25%,同时预测出102家非ST公司中的78家不存在财务危机,准确率为76.47%,综合准确率达81.86%。
运用2009年40家检验样本对上述建立的函数进行检验,得到的结果如表4所示:
由表4可知,运用2009年40家上市公司对建立的Fisher判别模型进行验证,结果发现该模型准确预警出了20家非ST公司中的15家,准确率为75%;准确预警出了20家ST公司中的13家,准确率为65%,综合准确率为70%。本文认为验证样本的小容量影响了结果的准确率,扩大样本容量将会提高模型预警的准确率。
四、结论
通过以上分析,本文得到以下结论: (1) 我国上市公司财务指标含有预测财务危机的信息,因此上市公司的财务危机是可预测的; (2) Fisher判别能够在危机发生的前两年作出比较准确的预测,且模型简单易于理解和应用,本文构建模型综合准确率达81.86%,验证模型准确率达70%; (3) 研究样本的容量有可能会影响研究结果的准确性,因此研究样本容量大小应尽可能大。
参考文献
[1].吴世农, 卢贤义.我国上市公司财务困境的预测模型研究.经济研究, 2001;6
[2].陈晓, 陈治鸿.我国上市公司的财务困境预测.中国会计与财务研究, 2000;9
[3].刘彦文.上市公司财务危机预警模型研究.大连理工大学, 2009;3
Fisher模型 篇6
快速高效地进行身份鉴别是现代社会科技研究的一个热点。日常生活中,使用证件、磁卡、密码等验证身份的传统技术,在一定程度上存在伪造、丢失、窃取等安全隐患[1]。而基于生物特征的识别方法,如基因、指纹、虹膜、人脸、声音识别等,具有很强的自身稳定性和个体差异性,因此,被认为是一种更加可靠、方便的大众化身份识别手段[2]。
人脸识别技术通过计算机从动态视频或静态图像中检测人脸,提取人脸的面部特征和几何关系,再将提取的人脸与数据库中已有的人脸进行比较,从而实现个人身份鉴别。虽然人脸识别的准确率比指纹识别和基因识别低,但是人脸识别系统比其他生物特征识别系统更加友好,它的非接触性消除了使用者的抵触情绪; 同时人脸识别交互性好,直观快速,可跟踪。目前该技术已广泛应用在视频会议、出入控制、信息安全、刑事侦破等领域[3]。
从最初的单一背景的正面灰度人脸图像的识别,到能够动态识别多姿态的人脸,目前人脸识别技术正在向三维领域发展。虽然人脸识别技术不断完善,效率不断提高; 但到目前为止,自动人脸识别系统的建立还存在诸如人脸随年龄增长而变化,人脸图像受成像距离、姿态、表情、光照强度的影响,人脸上的遮挡物等等的难题。
1 识别方法
人脸识别的流程包括人脸检测/跟踪,特征提取,特征降维,匹配识别[4]四个步骤。其中匹配识别根据目的的不同可分为两种: 一种是对人脸图像的辨识,属于无监督的识别,即要确认输入人脸图像中的人的身份; 另一种是对人脸图像的验证,属于有监督的识别,即确认输入人脸图像中的人是否已有图像在数据库中[4]。
人脸识别常见的方法有: 基于几何特征的方法、基于人工神经网络的方法、基于模板匹配的方法、贝叶斯分类法、特征脸法、隐马尔可夫模型方法、等灰度线方法、支持向量机法和奇异值分析法等。
人脸特征的提取是为了降维得到一组分类错误率小且数目少的人脸特征向量,如此既可以从本质上描述人脸图像的特性,又降低了信息的冗余程度,同时也有利于进一步地分析和计算机分类识别。特征提取的优劣会直接影响识别率的高低。
目前已有的各种人脸特征提取方法在某些特定的情况下具有很好的识别率,但是如果条件改变( 如姿态、光线、表情的变化和噪声影响等) ,则会影响识别率。因此可以考虑通过多种算法的融合[5],减少算法对条件改变的敏感性,提高人脸识别系统的有效性。文献[6]指出,通过融合多种算法对同一个图像进行识别,可以提高系统的总准确率。
文献[7]中Ziad和Martin对整个人脸图像作离散余弦变换( DCT) ,取少量的DCT系数作为人脸特征在ORL人脸数据库上实验,得到91% 的正确识别率。DCT可减少因姿态、光线、表情变化对图像造成的影响,但是对整个人脸图像进行DCT提取的特征可能包含了一些与识别无关的信息,这对识别率会有一定的负面影响。文献[8]提出基于小波变换的PCA算法有效地降低了单纯使用PCA算法的复杂度。文献[9]先采用小波变换对人脸图像进行预处理,然后使用PCA降维,接着利用LDA提取人脸最显著的特征,这种结合比简单的使用PCA,或者DWT + PCA有更高的识别率。
本文主要从特征提取的角度,综合考虑文献[7 -9]的思路,着重从基于图像整体代数特征的主成分分析( PCA) 算法入手,针对传统的特征脸存在运算量大的缺点,提出一种融合二维离散小波变换( DWT)和离散余弦变换( DCT) 的PCA和LDA结合的特征提取算法。通过组合和改进以上几种特征提取算法[10]提高人脸识别的效率和鲁棒性。
小波变换能去除图像中的部分噪音数据[11],所以实验中先对整个原始人脸图像进行二维离散小波分解; 然后在小波分解后的一个亚波带上对人脸图像进行二维离散余弦变换得到对光照和姿态不敏感的DCT系数矩阵,接着取包含了原始图像大部分信息的少量DCT系数作PCA降维,再结合LDA提取人脸最显著特征,最后利用欧氏距离和最近邻分类器对人脸进行分类[12]。
1. 1 二维离散小波分解( DWT)
小波变换的实质是运用一组不同尺度的低通和高通滤波器族对信号进行滤波处理,将信号不同频率成分分解到不同的频带上,可一直重复上述滤波处理,直到达到预设的阈值[13]。
二维小波变换对人脸图像进行频域分解,可以得到四个不同区域,如图1 所示。
低频区域LL是图像的缩略图,它是图像数据能量集中的频带。高频区域LH、HL、HH分别包含图像水平方向、垂直方向、对角线方向的灰度变化信息和边缘信息。对变换得到的LL区域可继续进行小波变换。由于图像的噪声分量的主要能量一般集中在HH中,因此,可以通过忽略高频分量来减少噪声影响。
对给定的二维人脸图像:
则二维离散小波分解的递推公式为
上式中H是起平滑作用的低通滤波器,G是起差分作用的带通滤波器。
经过小波变换的图像,其低频部分保留了人脸绝大部分的能量和信息,因此能有效降低图像的维数,节省存储空间,提高计算效率。在人脸识别过程的实际操作中,当人脸数据库不是很大的时候,通常选取经过三级小波变换后的图像的低频子带作为后续的特征数据。
1. 2 离散余弦变换( DCT)
设人脸图像的维数为M* N,f( x,y) 是图像在( x,y) 位置上的灰度值,则图像的二维离散余弦变换公式为:
相应的二维离散余弦反变换公式如下:
其中:
上式中的F(u,v)又称为DCT系数。
在人脸图像中,人脸的显著信息( 如眼睛、鼻子、嘴巴的轮廓) 都存在于低频系数中,而表情变化则存在于高频部分。因此可以通过舍去高频分量,保留低频分量来实现图像信息的压缩。在实验过程中,可以采用z形扫描将DCT系数矩阵变成一维向量,再取这个一维向量的前几个分量构成一个列向量作为后续PCA的变量。
离散余弦变换计算简单快捷,可通过快速算法完成。DCT可以对每幅图像单独处理提取特征向量,当增加训练样本时不需要重新训练其他的图像,因此整个系统的训练时间可显著降低。
1. 3 主成分分析法( PCA)
主成分分析主要通过KL变换将高维向量投影到一个低维的向量空间,这个空间又称作特征脸空间,所以,PCA方法又叫做特征脸方法。PCA的基向量代表样本变化最大的方向,它的投影方向最大化所有样本之间的散布,可用于图像重建,并保证重构后的样本与原样本的均方误差最小。因为PCA能在最少损失信息的前提下获得最大的数据降维,所以在人脸识别中得到广泛应用。
设有N个训练样本,每个样本大小为l* h像素,将图像数据矩阵向量化为一个M = l* h维的列向量xi,其中M为人脸图像向量的维数。由向量构成的样本集为{ x1,x2,…,xN} 。该样本集的平均向量( 平均脸) 为:
每个训练样本与平均脸的偏差为 ,则样本集的偏差矩阵D=[y0,y1,y2,…,yN-1],其中D的维数为M*N。计算样本集的协方差矩阵为C,维数M*M。
由协方差矩阵C可求出特征向量ei和对应的特征值 λi。
以这些特征向量为人脸空间的正交基底,通过线性组合可以重构得到样本中任意的人脸图像。人脸图像的有效信息集中于特征值大的特征向量中,因此丢弃特征值小的向量也不会影响图像识别。将特征值按从大到小排序: λ1≥λ2≥…≥λm≥…≥λM,在实际操作中,一般取特征值的能量90% 来作为主成分,构成主成分变换矩阵W = [e1,e2,…,em],m << M。W的维数为M* m。每一幅人脸图像都可以投影到由[e1,e2,…,em]构成的特征脸子空间中,任何一幅人脸图像向其作投影得到一组坐标系数,称为K - L分解系数。这组系数表明了该图像在子空间中的位置,可作为人脸识别的依据。
1. 4 线性判别分析LDA
LDA是把人脸图像样本投影到一条直线上形成一维特征空间,这个特征空间又称为Fisherface[14,15]。然后用类的成员信息形成一组特征向量表现不同的人脸变化。
定义LDA类间散布矩阵Sb和类内散布矩阵SW的计算公式如下:
其中,μi是类Xi的图像均值,Ni是类Xi中的样本数。如果Sw非奇异,则最佳投影矩阵Wopt为:
其中,{ Wi| i = 1,2,…,m} 是特征向量。
文献[12]对用KL变换和Fisher准则分别求出一些特征脸进行比较后得出,特征脸很大程度上反映了光照等的差异,而Fisher脸则能压制图像之间的与识别信息无关的差异。
2 实验过程
基于PCA的特征提取方法简单,从整体上反应了人脸图像的灰度相关性,但是受人脸的姿态、光照等外界因素影响较大,算法复杂度为O( d3) ,其中d代表图像的大小,因此在样本较多的时候计算量大。基于DCT的人脸特征提取方法只需要提取少量的DCT系数作为特征,速度快; 同时保留了对表情、姿态、光照变化不敏感的类别信息,因此它有效地弥补了PCA方法的缺陷。但DCT提取的特征依旧存在一定的冗余,这对识别率会有一定的影响。而基于DWT的人脸识别算法能有效去除噪音数据,节省存贮空间。且其他文献研究表明,PCA和LDA的结合与PCA相比能有效地提高识别率。
鉴于此,将以上几种方法结合起来,取长补短,这样既提高了特征向量的精度,又降低了运算的复杂度,且不容易受噪声、姿态、表情和光线变化的影响。实验流程如下:
①人脸库选择。选择ORL人脸库,每人读取一定数量的图像构成训练集,剩余图像组成测试集。
②DWT变换。用离散小波变换后的低频子图像代替原始人脸图像,小波低频子图像描述了人脸的不变特征,有较高的稳定性,且冗余少。考虑到小波分解若分解的层次太少会使提取的分类信息不足,而分解层次太多又会造成计算量的增加,且分解的区域过小会增强小波变换的边界效应,从而影响分类的正确性。本文采用ORL人脸库的图像大小为92* 112,作一层小波分解就可达到较好的结果。
对低频子图像进行二维离散余弦变换得到DCT系数矩阵,用z扫描将系数矩阵转变为一维向量后选择前d个分量作为后续PCA的分量。若训练集的人脸图像数目为n1,测试集的人脸图像数目为n2,则训练集和测试集分别是一个d* n1和d* n2的矩阵。
③PCA分析。对提取出来的DCT系数向量进行KL变换构造特征子空间,然后将训练集和测试集分别向特征子空间投影,得到投影系数。
④LDA。根据公式计算Sw和Sb,求得Fisher脸。
⑤利用欧氏距离和最近邻分类器比较测试样本的特征向量与训练样本的特征向量。
本文所讨论的人脸识别基本流程如图2 所示。
3 实验结果比较和分析
为了验证算法的有效性,选取ORL标准人脸库中的图像进行人脸识别的实验。ORL人脸库共有40 人,每人10 张图像,每张人脸图像大小为92 *112,灰度级为256,每幅图像的光照、姿态、角度、表情各不相同。本实验在MATLABR2010a环境下运行。
由表1 可知,PCA算法当训练样本数达到总样本数的60% 时,已具备较高的人脸识别率,平均识别率超过96% 。当采用PCA和LDA相结合时,可以发现当每类选取不同的训练样本数的时候,PCA +LDA的识别效果都要比单一使用PCA算法要好。且随着训练样本数的增加,可以有效地减少最佳投影维数,减少存储空间。
根据文献[16],M. Sharkas和M. Abou Elenien经过实验得出用DWT处理人脸图像,可以细微地改善LDA算法的性能,而采用DCT处理人脸图像可以提高PCA的识别率。对光照、表情和姿态变化不敏感的类别信息。DCT系数不仅表达了图像的频率特性,且可直接从压缩域获得。将一幅人脸图像进行DCT变换,再进行压缩并用IDCT完成图像的重建,此时,图像中人眼并不敏感的中频的高频部分已被滤掉,如图3 所示。
比较表2 的实验结果,发现在PCA + LDA前采用DCT并不能有效地提高系统的识别率,但是实验发现,当使用DCT提取图像低频信息后,系统识别速度平均加快0. 75s。
在ORL人脸库基础上,选择每类样本的前5 幅图像作为训练样本,后5 幅图像作为测试样本,这样训练样本和测试样本的总数均为200。实验中分别采用单一特征提取算法,两种特征提取算法结合、三种特征提取算法结合、四种特征提取算法结合进行测试,取得表3 中不同识别方法的识别率比较结果。
实验表明,当同时结合DWT,DCT,PCA,LDA的时候,人脸识别率有所提高。虽然过程中融合了四种算法,但是每种算法在有效提取特征的同时都降低了人脸图像的维数,因此识别速度反而提高了。实验证明,这种融合是有效的。
4 结束语
本文讨论了将已有的DWT,DCT,PCA,LDA四中特征提取方法有效结合起来,取长补短,提高人脸识别效率的可行性。文中用计算速度快的DCT变换可减少PCA对光照和姿态、表情变化的敏感性;用DCT可以对每幅图像单独处理提取特征向量的这个优点,使训练样本增加时系统不需要重新训练其他的图像,整个系统训练时间显著降低; 用对噪声不敏感的DWT变换,既减少了DCT的冗余,节省了存储空间,又降低了PCA的效率; 用PCA和LDA算法的有效结合,相比单独使用PCA算法对于识别率有了很大的提高。