样本量估计

2024-06-11

样本量估计(共3篇)

样本量估计 篇1

一、引言

巴塞尔新资本协议是世界上众多国家对银行业进行监管以及银行业进行风险管理的基本准则[1]。该协议提供了一个覆盖全部信用风险因子的分析框架,规定对任何一个债项或交易对手,确定其信用风险大小有四个关键风险因子:违约风险敞口(exposure at def ault,EAD)、违约概率(probability of default,PD)、违约损失率(loss given default,LGD)、债务期限(matu rity,M)等。在这些风险因子中,违约概率是关键因子,同时也是这些因子计量中最复杂的风险因子。违约概率的估计就成为信用风险研究的核心问题,目前,有许多数量方法被应用于违约概率的研究中。然而,违约事件毕竟是小概率发生事件,违约样本与非违约样本相比,数量比例上都非常不对称。在对违约概率进行定量研究中,无论采用什么样的定量方法,本质上都是对历史数据进行学习的过程。如果使用全样板建立,占绝对压倒性比例的正常样本,会扭曲模型的学习过程,使得模型产生较大的偏差,低估实际的违约概率,而这恰恰是计算违约概率应该竭力避免的。本文希望通过合理选择样本,然后与逻辑(Logistic)模型相结合,克服这方面的困难。

国际上有关企业违约的研究开展得比较早:Fitzpatrick在上个世纪三十年代就进行了成功企业和失败企业的财务指标比较研究[2],Beaver研究了预测企业失败的财务指标[3],Altman是该领域中最重要的学者,他最早使用判别分析进行企业破产的预测研究[4],Ohlson于1980年首度试图利用假设条件较为宽松的Logistic分析来建立信贷违约概率预测模型[5]。国内信用风险研究仍处于发展初级阶段,违约概率研究还处于分类评估阶段,并在初步尝试测度研究。王春峰等人于1999年应用多元判别分析模型、Logistic模型对某国有商业银行的企业客户短期贷款偿还情况进行了分类分析,并比较了两种方法的优劣势[6],郑茂[7]、朱顺泉[8]、张玲[9]等对上市公司进行财务指标分析,筛选了一些中国上市公司财务预警指标,并给出了基于判别分析、Logistics模型等的财务预警模型。以上这些研究,或者整个数据样本比较小,模型本身的可靠性程度低;或者使用的是上市公司公开的财务数据而非商业银行信贷数据,对商业银行违约风险不具有代表性。本文希望从新的角度出发,利用某国有商业银行数以千计的有效样本,试图探索一套能够得到稳定的、区分力强的违约概率估计方法。

二、方法

为克服“好”、“坏”样本失衡造成的定量模型出现偏差的问题,本文提出如下的解决思路:

选取全部的违约样本,对正常样本随机抽取,按照违约样本和正常样本的1:1、1:2、1:3、1:4……进行配比,分别建立Logistic回归模型。反复试验,求出表现样本外预测最为稳定的配比比例。

按照上一步求得的最佳配比比例,固定违约样本,随机生成k组正常样本,分别组合成k组建模样本。分别对于每组建模样本建立Logistic模型。

对每组模型选取出来的变量取并集,对k组样本重新建立Logistic模型,然后进行模型平均。

以上方法中,步骤1是为了解决“好”、“坏”样本比例失衡的问题;步骤2是为了解决压缩“好”样本造成的信息丢失的问题;步骤3是为了解决模型的统一性问题。

以下我们以一家大型商业银行省行的制造业信贷数据为例,展示方法的应用。

三、数据处理和样本配比

从某大型商业银行数据库中取出某省中小型制造业2006、2007、2008三年的有损益表、资产负债表、现金流量表的信贷债务人1702个。据我们所知,到目前为止,在国内尚没有采用如此大的有效数据样本进行过这方面的研究。本文取这些债务人2006~2009年每笔贷款在当年年底的五级分类,用来标识债务人是否违约;然后进行数据清洗,删除缺失值过多的债务人数据。若记录中某一记录取值偏离均值程度过大,远大于μ+2σ或远小于μ-2σ,这样的数值称为奇异值,用如下方式进行奇异值处理;(1)将样本中最大的1%和最小的1%的那部分数据删除;(2)不符合变量取值范围的记录按照其取值范围进行调整,例如将取值在[1]区间的小于0的记录用0来替代,大于1的记录统一用1来替代。

经过违约标识和数据清洗之后,得出如下数据:2007年有1251个债务人,且全都是非违约债务人;2008年有1316个债务人,其中有32个违约债务人;2009年债务人共有1292个,其中有40个违约债务人。

按照上一节的思路,本文先比较不同违约与非违约样本配比比例下模型的结果,发现1:3的比例在模型表现上更优于其他配比比例,于是选用1:3配比。为了得到稳健的模型并简化计算,本文选用3个建模样本。所用到的建模样本如下:2008、2009年的违约债务人共72个,其中2008年32个,2009年40个。从2008年中随机抽取96个非违约债务人,2009年中随机抽取120个非违约债务人,即共有非违约债务人216个。

四、建模过程和模型验证

1.单变量分析

本文违约概率的计量模型所选的候选自变量为违约时点前一年的财务数据,这些候选变量主要体现了公司的财务杠杆、偿债能力、盈利能力、资产管理、投资回报、规模等方面共119个变量。首先进行单变量分析,其目的是为了从这119个变量中初步筛选出对违约概率有明显影响的财务指标,从而得到候选变量短清单作为模型拟合的初始变量。本文采用AR值和趋势图两种单变量分析方式,其中趋势图是将债务人数据根据待考察自变量从小到大排序,并将样本数据划分成10组,计算每组的违约率,以每组自变量的均值为横轴,违约率为纵轴作图。选出AR>5%或者趋势图单调的变量。将这两种方式选出的变量取并集得到最终的候选变量短清单。

对样本1、2、3分别进行单变量分析,发现三样本筛选出的变量基本是相同的。这些变量的显著影响不因样本的改变而改变,说明这是些重要的变量,于是将三样本筛选出来的变量取交集作为三个样本模型拟合的初始变量集共82个。

2.变量拟合

对这三个样本我们采用如下相同的建模步骤:

(1)将上面候选变量用SAS软件中Logistic过程的逐步回归方式进行新一轮的筛选,例如经过这步,样本1剩下33个变量。

(2)根据逐步回归得到的变量,进行相关性分析和计算每个变量的VIF值,将VIF值>10的变量删除,对于相关性较大的变量保留AR值大的变量。

(3)将剩余的变量再次进行Logistic回归,对得出来的变量的系数从统计显著性和系数的符号的正确性进行判断。

(4)对于不符合标准的变量,根据基尼从低到高逐一删除,每次删除一个变量,重新进行一次回归,再重复步骤3。

按照以上的建模步骤,最终从样本1筛选出如下的变量:总资产的自然对数(m1)、总负债/所有者权益(g4)、主营业务收入净额/存货(z6)、财务费用/总资产(c32)、流动债务/总债务(x13);样本2筛选出如下的变量:总资产的自然对数(m1)、总负债/总资产(g1)、(利润总额+财务费用)/所有者权益(t5)、主营业务收入净额/存货(z6);样本3筛选出如下的变量:总资产的自然对数(m1)、利息支出/总资产(c34)、利润总额/总资产(t14)、(利润总额+财务费用)/所有者权益(t5)、主营业务收入净额/存货(z6)。括号内为变量代码。

将这些财务变量取并集,再分别用这三个样本数据来拟合模型,为了尽量使得这三个样本最终变量一致,将显著性水平设为0.2,这样得到三样本最终的估计式分别为:

将上面3个式子变量系数取平均得到最终模型如下:

考察模型的系数,一般来说企业的总资产规模越大,其违约的可能行也就越小;如果企业的主营业务收入净额和存货之比大,说明经营效率高,其偿债能力较强,相应违约的概率就较小;如果企业的总负债和所有者权益之比较大,则说明企业有较高的杠杆率,负债较多使得其债务的违约风险较大,而利息支出在总资产中的占比较大也说明企业的杠杆率较高,违约可能相应提高;单位资本的利润越高,说明企业盈利能力越强,越不容易违约。因此以上系数的符号都是符合经济预期的。

3.模型验证

(1)模型的多重共线性检验

通过计算每个自变量的方差膨胀系数(VIF)值来对变量间的多重共线性进行检验,如果VIF大于5,则我们认为变量之间存在比较高的共线性。在这3个建模样本内最终模型所选出的5个变量VIF值都小于5,所以变量间不存在严重的共线性。如表1所示。

(2)模型预测准确性的验证

验证上面最终模型在三个样本内的准确性,其中在三个样本中都是以0.25为分界点,若PD大于0.25,则表示模型将此债务人预测为违约债务人;若PD小于0.25,则将其预测为非违约债务人。从表2、表3、表4可以看出,最终模型在三样本内的预测正确性都保持在0.7左右,说明最终模型在三个样本中的预测准确度较高且比较稳定。

特别值得说明的是,以上结果显示,本方法得到的违约区分性判断,对“好”、“坏”样本的区分是均衡的。而据我们文献调研,以往的判别模型,基本上都是在“好”样本方面有很高的判别能力,而在“差”样本方面判别能力很低,这样会大大低估风险,这恰恰是模型需要避免的。

(3)模型区分能力的验证

在违约概率PD模型中,经常使用AR值或KS值等作为判断模型区分能力好坏的统计指标。模型区分能力是指模型对区分违约债务人与非违约债务人的基本能力,也经常被称为该模型的“分辨能力”。按照《商业银行资本计量高级方法验证指引》中AR和KS参考基准(AR处于0.5~06之间为优秀,KS处于0.4~0.5之间为优秀),本模型在每个样本内的区分能力都达到了优秀水平,表现出较高的区分能力。如表5所示。

五、总结

本文提出了一种基于样本配比的违约概率估计方法,并将其应用于大样本的商业银行信贷风险的估计中。实证结果显示,依据本文方法建立的违约率估计模型,不存在多重共线性,模型的预测精度和区分能力都达到满意的精度。

本文的贡献,除了在研究方法的创新以外,首次克服了模型预测“好”、“坏”样本的非对称性问题。此外,本文所采集的样本,也是国内文献所见规模最大的,大大提高了实证结果的可靠性。

参考文献

[1]Basel Committee on Banking Supervision,“The New Basel Capital Accord”,Consultative Document,Bank for International Settlements,2003,4.

[2]Fitzpatrick.A Comparison of Ratios of Successful Industrial Enterprises with Those of Failed Firms[M]New York:Certified Public Accountant,1932.

[3]Beaver W..Financial Ratios as Predictors of Failure[J]Supplement to Journal of Accounting Research,1966,(4):p.71-111.

[4]Altman E.I..Financial Ratios,Discriminate Analysis and Prediction of Corporate Bankruptcy[J].Journal of Finance,1968,(9).

[5]Ohlson,J.A..Financial Ratio and the Probabilistic Prediction of Bankruptcy[J].Journal of Accounting Research,1980,18(5):p.234-261.

[6]王春峰,万海晖,张维.组合预测在商业银行信用风险评估中的应用[J].安徽农业大学报(社科版),1999(1):P.5-8.

[7]郑茂.我国上市公司财务风险预警模型的构建及实证分析[J].金融论坛,2003(10):p.38-50.

[8]朱顺泉.基于因子分析法的上市公司财务状况评价研究[J].统计学信息论坛,2004(7):p.1-2.

[9]张玲.基于判别分析和期望违约率方法的信用风险度量及管理研究[D].2004.湖南大学优秀博士论文.

样本量估计 篇2

【知识与技能】

1.掌握频数分布表(或频数分布直方图)中求这组数据的平均数的方法.2.理解并掌握用样本平均数对总体进行估计的思想方法.【过程与方法】

经历探究、思考、推理与计算的过程,进一步加深学生对加权平均数中的权的理解,体验统计中的思维方式与数学思维方式的不同,加深用样本对总体进行估计的思想认识.【情感态度】

进一步认识数学与人类生活的密切联系,增强数学应用意识和能力,激发学数学的热情.【教学重点】

频数分布中的平均数的计算及用样本平均数估计总体平均数的思想.【教学难点】

频数分布表(或直方图)中数据的确定及相应权的意义.一、情境导入,初步认识

问题 下表是某班学生右眼视力的检查结果:

你能求出该班学生右眼视力的平均水平吗?与同伴交流.二、思考探究,获取新知

在求n个数的算术平均数时,如果x1出现f1次,x2出现f2次,…,xk出现fk次(这里f1+f2+…fk=n),那么这n个数的算术平均数xx1f1x2f2xkfk叫x1,x2…xk这k个

f1f2fk数的加权平均数,其中f1,f2,…,fk分别叫做x1,x2…,xk的权.探究 为了解5路公共汽车的营运情况,公交部门统计了某天5路公共汽车每个运行班次的载客量,得到下表:

这天5路公共汽车平均每班的载客量是多少?

【教学说明】老师提问后,先让学生自主探究,相互交流,然后教师给予指导,说明在不知道原始数据情况下,可以利用组中值和频数近似地计算一组数据的平均数.如在1≤x<21情况下,有3个班次,那么这3个班次的平均数为

1

21=11,从而可以估计2这天5路公共汽车的载客量在1≤x<21情况下的总数为11×3=33人;类似地可得到这天5路公共汽车载客总量应约为11×3+31×5+51×20+71×22+91×18+111×15,因而平均每个班次的载客量约为

1133155120712291181111573人.3520221815试一试 为了绿化环境,柳荫街引进一批法国梧桐,三年后这些树的树干的周长情况如图所示,计算这批法国梧桐树干的平均周长(精确到0.1cm).【教学说明】学生自主探究.关注学生能否确定各组数据的组中值,能不能根据组中值来求这批梧桐树干的平均周长.三、典例精析,掌握新知

某灯泡厂为了测量一批灯泡的使用寿命,从中抽查了100只灯泡,它们的使用寿命如下表所示:

这批灯炮的平均使用寿命是多少?

【分析】我们知道,当所考察对象很多,或考察对象带有破坏性时,统计中常常用样本的特征对总体进行估计,来获得对总体的认识,因而要想了解这批灯泡的平均使用寿命,可通过抽取的100只灯泡的平均使用寿命来对总体进行估计.这里的组中值应分别为800,1200,1600,2000,2400,它们的权依次为10,19,25,34,12,利用加权平均数可得到样本的平均使用寿命,并可用它当作这批灯泡的平均使用寿命.【教学说明】教师与学生一道分析后,应让学生感受到用样本估计总体的思想.解答过程由学生自己完成.试一试 种菜能手李大叔种植了一批新品种黄瓜.为了考察这种黄瓜的生长情况,李大叔抽查了部分黄瓜株上长出的黄瓜根数,得到下面的条形图.请估计这个新品种黄瓜平均每株结多少根黄瓜.四、师生互动,课堂小结 1.本节中利用加权平均数求一组数据的平均数与上节有哪些不同?你是如何理解的?

随机抽样与用样本估计总体 篇3

1. 随机抽样重基础

随机抽样注重基础知识的考查,主要考查抽样方法的选择及抽样中的计算,题目难度一般不大.

例1 (1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 ( )

[7816 6572 0802 6314 0702 4369 9728 0198\&3204 9234 4935 8200 3623 4869 6938 7481\&]

A.08 B.07 C.02 D.01

(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )

A.7 B.9 C.10 D.15

(3)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为____________.

解析 (1)从第5列和第6列选出的两位数依次为65,72,08,02,63,14,07,02,43,69,97,28,01,98,但编号必须不大于20的且不和前面重复的只能是08,02,14,07,01.

(2)采用系统抽样方法从960人中抽取32人,将整体分成32组,每组30人,即[l=30],第[k]组的号码为[(k-1)30+9],令[450≤(k-1)30+9≤750],而[k∈Z],解得[16≤k≤25],则满足[16≤k≤25]的整数[k]有10个.

(3)总体中男生与女生的比例为4[∶]3,样本中男生人数为[280×47=160].

答案 (1)D (2)C (3)160

点拨 对于随机抽样中抽样方法的选择及抽样中的计算,应抓住各种抽样方法适用的范围及各自特点:(1)简单随机抽样中的抽签法适用于总体中个体数较少的情况,而随机数法适用于总体中个体数较多的情况;(2)当总体容量较大,样本容量也较大时,可用系统抽样法;在利用系统抽样时,经常遇到总体容量不能被样本容量整除的情况,这时可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除;(3)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠;为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同;在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样;与分层抽样有关的计算,关键是抓住按怎样的比例分层.

2. 用样本估计总体重视图、处理数据能力

用样本估计总体主要考查频率分布直方图和茎叶图的识图与计算,重点考查看图、识图和计算的能力,对频率分布直方图中各参数的认识,以及在统计学中样本对总体的估计作用.

例2 (1)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图1).由图中数据可知[a=] .若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]上的学生中选取的人数应为 .

(2)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图2所示).设甲、乙两组数据的平均数分别为[x甲],[x乙],中位数分别为[m甲],[m乙],则( )

A. [x甲m乙] B. [x甲

C. [x甲>x乙,m甲>m乙] D. [x甲>x乙,m甲

解析 (1)根据频率之和等于1可知,

(0.005+0.010+0.020+a+0.035)×10=1,

解得a=0.030.

身高在[120,130),[130,140),[140,150)三组频率分别为0.3,0.2,0.1,

故三组的人数比为3[∶]2[∶]1.

用分层抽样的方法从三组选取18人参加一项活动,

则从身高在[140,150]上的学生中选取的人数应为18×[16]=3,

故答案分别为0.030和3.

(2)[x甲=116(41+43+30+30+38+22+25+27+10][+10+14+18+18+5+6+8)=34516],[x乙=116(42+43+48+31+32+34+34+38+20+22+23][+23+27+10+12+18)=45716],所以[x甲

∴[m甲

答案 (1)0.030 3 (2)B

点拨 频率分布直方图是用样本估计总体的一个重要的方法,是高考命题的一个热点,多以选择题或填空题的形式呈现,试题难度不大,多为容易题或中档题.解决与频率分布直方图有关的问题需要注意以下两点:(1)频率分布直方图中的纵轴表示频率与组距的比值,小长方形面积=组距×[频率组距]=频率.(2)各组频率的和等于1,即所有小长方形面积的和等于1.

1. 现要完成下列3项抽样调查,则较为合理的抽样方法是( )

①从10盒酸奶中抽取3盒进行食品卫生检查.

②东方中学共有160名教职工,其中一般教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.

③科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈.

A. ①简单随机抽样,②系统抽样,③分层抽样

B. ①简单随机抽样,②分层抽样,③系统抽样

C. ①系统抽样,②简单随机抽样,③分层抽样

D. ①分层抽样,②系统抽样,③简单随机抽样

2. 在120个零件中,一级品24个,二级品36个,三级品60个,用系统抽样方法从中抽取一个容量为20的样本,则三级品a被抽到的可能性为( )

A. [15] B. [16] C. [12] D. [13]

3. 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件. 为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )

A.9 B.10 C.12 D.13

4. 为了检查某超市货架上的饮料是否含有塑化剂,要从编号依次为1到50的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是( )

A.5,10,15,20,25 B.2,4,8,16,32

C.1,2,3,4,5 D.7,17,27,37,47

1~4 BBDD

上一篇:能量摄入下一篇:工资薪酬