分组抽样

2024-07-13

分组抽样(共7篇)

分组抽样 篇1

摘要:目的 对接受化疗的白血病患者在治疗过程中进行全方位护理干预后对其治疗效果所产生的影响进行研究分析。方法 抽取74例患有白血病的临床确诊患者病例, 将其分为A、B两组, 平均每组37例, 采用化疗手段进行治疗。在治疗过程中分别进行常规护理和全方位护理干预。结果 B组患者治疗后的临床效果明显优于A组患者;该组患者在治疗过程的遵医嘱人数明显多于A组患者;该组患者在治疗期间出现焦虑、抑郁、恐惧的人数明显少于A组患者;该组患者治疗过程中的疲乏度明显低于A组患者;该组患者的治疗周期和治疗时间明显短于A组患者;两组患者治疗过程中出现的化疗原因导致的并发症人数基本相同。结论 对接受化疗的白血病患者在治疗过程中进行全方位护理干预, 可以使接受该项治疗的患者临床效果明显提高。

关键词:白血病,化疗,全方位护理干预

白血病是目前临床上一种常见血液系统肿瘤疾病, 该病的恶性程度相对较高, 自然病程相对较短, 采用常规联合化疗的方法对患者进行治疗是目前临床对该类患者首选的治疗方法[1]。但由于各种因素的影响, 患者在接受化疗的过程中依从性通常不是十分理想, 会对该类患者的临床治疗效果和生存质量产生非常严重的不良影响[2]。以小儿急性淋巴细胞性白血病为例, 目前在我国放弃治疗的人数就已经达到了该病患儿总人数的70%以上, 这一事实提示白血病患者在接受化疗时的依从性非常不理想[3]。本次研究过程中对接受化疗的白血病患者在治疗过程中进行全方位护理干预后对其治疗效果所产生的影响进行研究分析, 帮助临床保证接受化疗的白血病患者能够取得预期的治疗效果, 以便临床为接受化疗的白血病患者进行更有针对性的护理, 使该类患者的临床治疗的依从性得到显著改善。现将分析结果报道如下。

1 资料与方法

1.1 一般资料

采用临床科学实验研究过程中最为常用的随机抽样分组方法, 在过去的一段时期内 (2008年4月至2011年4月) , 抽取来我院就诊的74例患有白血病的临床确诊患者病例, 将其分为两组。划分在A组的患者中包括23例女性和14例男性;该组研究对象中年龄最大者75岁, 年龄最小者16岁, 平均年龄41.7岁;划分在B组的患者中包括21例女性和16例男性;该组研究对象中年龄最大者72岁, 年龄最小者18岁, 平均年龄43.1岁。所抽取的研究对象的自然资料, 不具有统计学差异, 可以在分析研究过程中进行比较。在接受治疗前, 所有患者都经过了相关的临床检查之后予以确诊。

1.2 方法

将74例研究对象资料进一步分为A、B两组, 平均每组37例, 采用化疗手段对其进行治疗。A组患者在治疗过程中进行常规护理;B组患者在治疗过程中进行全方位护理干预。对两组患者治疗后的病情控制情况、治疗过程中的依从性、心理状态情况、疲乏情况、化疗原因导致出现的并发症情况进行比较分析。

1.3 数据处理

在研究的整个过程中得到相关数据, 均采用常用的SPSS14.0数据处理系统予以处理, 当P<0.05时, 可以认为有明显统计学差异。

2 结果

经过临床对比研究后证实, B组患者治疗后的临床效果明显优于A组患者, 且具有非常明显的统计学差异 (P<0.05) ;该组患者在治疗过程的遵医嘱人数明显多于A组患者, 且具有非常明显的统计学差异 (P<0.05) ;该组患者在治疗期间出现焦虑、抑郁、恐惧的人数明显少于A组患者, 且具有非常明显的统计学差异 (P<0.05) ;该组患者治疗过程中的疲乏度明显低于A组患者, 且具有非常明显的统计学差异 (P<0.05) ;该组患者的治疗周期和治疗时间明显短于A组患者, 且具有非常明显的统计学差异 (P<0.05) , 两组患者治疗过程中出现的化疗原因导致的并发症人数基本相同, 无明显统计学差 (P>0.05) 。见表1。

3 讨论

对患有白血病的患者在化疗期间进行针对性护理的主要措施包括以下几个方面: (1) :建立良好护患关系:护理人员要对语言交流的技巧给予充分重视, 对患者的家庭、生活情况进行充分了解。对患者的应对方式要能够进行准确及时的识别, 使患者的心理压力明显减轻, 使其恐惧、忧郁、紧张的不良心理因素彻底消除, 使情绪不断稳定, 营造舒适的治疗环境, 在日常护理工作中要坚决做到热情、体贴、耐心、关心、爱护, 使患者战胜疾病的信心得到显著性增强, 能够对治疗的全过程给予积极的配合[4]。 (2) 健康宣教:白血病患者确诊后, 要在第一时间与患者或家属进行有效沟通, 为实施化疗治疗方案做准备。化疗的副作用相对较大、并发症非常多, 患者在住院期间的健康教育应该保证做到分阶段、全程、全方位、系统地进行。将白血病的发病机制、症状表现向患者进行详细的讲解, 将化疗的具体目的与实际意义向患者进行介绍, 使其明确化疗是临床对肿瘤进行治疗的一种重要手段, 必须保证化疗能够足量、按期、有规律地进行, 切忌半途而废;应使患者的自身防护意识明显提高, 将化疗药物在应用过程中可能导致的一系列不良反应及相应的护理措施向患者及其家属一一告知, 从而使患者对毒副作用的担心和恐惧心理明显减轻, 使患者配合治疗的自觉性显著提高。患者在治疗期间要建立起合理的饮食结构, 养成一种良好的卫生和生活习惯, 使其机体免疫力得到显著提高, 使并发症明显减少[5]。 (3) 多方面关怀:社会支持对肿瘤患者的心理及遵医行为具有非常重要的促进作用。患者的主要社会支持来源于亲属, 家属在其患病期间, 同样会承受着与患者几乎相同的精神压力和经济负担。一个良好的家庭环境能够为其提供持续的情感支持和关心照顾, 使患者在心理上得到充分的安慰, 以便能够积极配合治疗。因此, 应在对患者进行护理的过程, 要同时加强与患者家属之间的有效沟通, 对家属的一些想法进行充分了解, 寻求家属的支持和配合, 家庭成员和亲朋好友应该定期对患者患者进行看望。谈论经济费用问题时应该尽量避开患者, 防止患者出现负性情绪, 使其在接受治疗时能够处于最佳的身心状态[6]。 (4) 心理护理:及时对患者进行必要的心理疏导, 让患者对恶劣情绪和负性心理会使机体的免疫功能明显下降, 使免疫系统识别减弱这一事实有充分的了解, 而良好的心理状态可以使已经存在的癌细胞处于一种自限状态或被机体的免疫系统所消灭。当发现患者存在较大的精神压力时应鼓励其进行适当的宣泄, 多与家人、亲戚、朋友进行沟通, 得到必要的心理支持。应尽量将患者安排在一些治疗效果相对较好的老患者的旁边, 使其能够为患者树立起战胜疾病的信心[7]。

总而言之, 对接受化疗的白血病患者在治疗过程中进行全方位护理干预, 可以使接受该项治疗的患者临床效果明显提高, 帮助患者在治疗期间保持良好心态, 提高患者治疗依从性, 进而缩短临床治疗周期和治疗时间。

参考文献

[1]刘晓联, 裴显俊.对因化疗引起疲劳的癌症病人的护理[J].国外医学护理学分册, 2008, 19 (18) :359-360.

[2]安思训, 陈晓丽, 何欣.癌因性疲乏护理干预的疗效[J].中国老年学杂志, 2009, 29 (20) :2658-2659.

[3]杨燕娇, 陈江声.急性白血病病人的病情告知与治疗依从性的关系[J].河北医药, 2006, 12 (16) , 518-519.

[4]许国琼, 许素华.护理干预对提高慢性肝病病人医嘱依从性的研究[J].现代护理, 2006, 12 (17) :596-597.

[5]张凤玲, 韩丽沙.癌因性疲乏的护理研究进展[J].中华护理杂志, 2008, 43 (13) :273-274.

[6]Buysse DJ, Reynolds CF 3rd, Monk TH, et a1.The Pittsburgh sleep quality index:a new instrument for psychiatric practice and research[J].Psychiatry Res, 2009, 28 (2) :193-213.

[7]韩娜, 于世英.癌症患者的乏力状况调查及影响因素[J].肿瘤防治研究, 2008, 33 (12) :911-912.

二重抽样中子抽样无回答的处理 篇2

所谓无回答是指在资料搜集阶段, 由于各种原因没有能够对被选出的样本单元进行计量, 从而没有获得有关这些单元的数据或信息。无回答的发生, 一方面使得估计量发生偏差;另一方面, 由于无回答减少了实际调查的样本数量, 因而会扩大估计量的方差。因此还必须考虑怎样采取适当的方法来降低无回答误差所造成的影响。

在对无回答的补救方法中, 有一种方法受到广泛的关注, 这就是二重抽样法。这种方法的基本思想是:从总体中抽取一个较大的样本, 采用比较便宜但无回答率可能较高的调查方法, 然后对最初的无回答单位进行再一次的随机抽样, 努力获得无回答子样本的数据, 用最初样本的回答数据和子样本数据进行估计, 以消除无回答的偏差影响。假设总体单元N包括了N1回答层和N0=N-N1无回答层, 因而在最初的容量为n的简单随机样本中有n1个回答单位和n0个无回答单位。然后从n0个无回答单位中再随机抽取一个容量为m的子样本, m=n0k, k为抽样比。通过更富有成效的调查工作, 从中获得有关数据;然后根据两个样本的数据, 对总体做出估计推断。[1]为提高估计的精度, 本文在子抽样中采用分层随机抽样, 同一层样本具有相似的特征。

在无回答的子抽样中, 经过努力仍然可能有部分被调查者不回答, 这时若进行多次访问, 可能效果不佳, 因为有些不回答者可能是永久拒绝者。子抽样难以取得100%的回答率, 这时普通的二重抽样并不有效, 应将二重抽样法与处理无回答的其它方法结合起来运用, 对二重抽样法进行改进。对于子抽样单元无回答, 可考虑层内替换样本;对于子抽样项目无回答, 一般采用层内插补方法。

1子抽样单元无回答的补救[2]

对于子抽样单元无回答, 可考虑层内替换样本, 即从第一重调查中无回答的单元中抽取最初未被选入子样本的其他单位去替代那些第二重调查中仍未获得回答的单位。采用替换法降低无回答误差的程度, 取决于补充样本和第二重调查中无回答单元之间在主要研究变量上的相似程度。

设在m个子样本中, 有 m0个样本无回答, 从第一重调查无回答层中, 剔除第二重调查的样本, 在剩下的n0-m个单元中, 选取m0个单元, 重新进行调查。

设第一重调查回答层的样本均值为yn1¯, 第二重调查回答层的样本总量为ym-m0, 补充调查样本总量为ym0, 设ym¯=ym-m0+ym0m, 第二重抽样比为k=mn0n=n1+n0, 第一重调查无回答率为R1, 第二重调查无回答率为R2, 则总体均值的一个估计量为:y¯=n1yn1¯+n0ym¯n

因为补充样本和第二重调查中无回答单元都是从第一重调查中无回答的单元中抽取的, 从而具有相似的特征。因此, 采用层内样本替换不会造成误差, 故ym¯可直接看作是第二重样本的均值。由二重抽样的结论可知, y¯是总体均值的无偏估计。

抽样方差为:V (y¯) = (1n-1Ν) S2+R1n (1k-1) S22, 其中S2为总体方差, S22为第一次调查无回答层方差。

如果考虑二重抽样中的费用差异, 总费用函数可记为:

C=c0n+c1n1+c2 (m-m0) +c3m0=c0n+c1n (1-R1) +c2 (nkR1-nkR1R2) +c3nkR1R2。

其中c0为第一重样本每单元的调查费用, c1为整理第一次调查中每个回答单元的费用, c2是整理第二次调查中每个回答单元的费用, c3为补充抽样每单元的费用。因而样本量的最优分配应极小化:

运用柯西-许瓦兹不等式, 当时, 取得最小值, 此时

当总费用固定时, 样本量为, 将k代入上式便可求出样本量;抽样方差V固定时, 样本量为n=S2+R1S22 (1k-1) V+S2Ν, 将k代入上式便可求出样本量。

2子抽样项目无回答的补救

与单元无回答相比, 项目无回答或多或少提供了一些信息, 因此影响要小一点, 处理方法也相对简单。若在m个子样本中, 存在项目无回答, 可采用层内插补调整法, 应用已有的数据代替缺失的数据。插补调整法虽然也可以应用于“单位无回答”, 但主要是对“项目无回答”进行。常用的插补调整法有:均值插补、随机插补、回归插补和多重插补。

均值插补容易扭曲样本分布, 导致在均值和总量估计中对方差的低估, 适用的场合是仅仅进行简单的点估计, 而不适用于需要方差估计等比较复杂的分析。随机插补的稳定性不够, 使估计量的方差增大, 但是它避免了均值插补容易扭曲目标变量分布的弱点, 使替补值的分布与真值分布更为接近, 在估计与样本分布有关的参数时具有明显的优势。与随机插补和均值插补的不同点在于:回归插补值不是取自回答单位的实际值 , 也不是由回答单位数据计算的均值 , 而是利用目标变量与辅助变量的线性关系 , 采用标准方法 (如最小平方法) 计算出的估计值。多重插补法综合了以上均值插补、随机插补两种单一插补方法的优点, 然而多重插补法的操作比较复杂, 工作量大, 与单一插补法相比, 成本增加许多。在插补调整时具体情况具体分析, 选择适宜当前调查的方法[3]。

设第一重调查回答层的样本均值为yn1¯, 第二重调查回答的样本总量为ym, 插补调整后样本总量为ym ′, 第二重抽样比为k=mn0n=n1+n0, 第一重调查单元无回答率为R1, 则总体均值的一个估计量为:y¯=n1yn1¯+n0ym¯n

因为插补值和第二重调查中无回答项目都是从第一重调查中无回答的单元中抽取的, 从而具有某些相似的特征, 因此, 用插补值代替第二重调查中无法取得的数据不会造成大的误差。故ym¯直接看作是第二重样本的均值, y¯可能是总体均值的有偏估计, 但是偏差的影响是很小的。

抽样方差为:V (y¯) = (1n-1Ν) S2+R1n (1k-1) S22, 其中S2为总体方差, S22为第一次调查无回答层方差。

如果考虑二重抽样中的费用差异, 总费用函数可记为:

C=c0n+c1n1+c2m=c0n+c1n (1-R1) +c2nkR1。

其中c0为第一重样本每单元的调查费用, c1为整理第一次调查中每个回答单元的费用, c2是整理和插补调整第二次调查中每单元的费用。因而样本量的最优分配应极小化:

运用柯西-许瓦兹不等式, 可得到使在给定费用下方差最小, 或给定方差条件下费用最省, 也即使方差和费用的乘积C (V+S2Ν) 取得最小的k为:

k=c0+c1 (1-R1) S2-R1S22=S2c2

当总费用C固定时, 样本量为

n=Cc0+c1 (1-R1) +c2kR1, 将k代入上式便可求出样本量;当抽样方差V固定时, 样本量为

n=S2+R1S22 (1k-1) V+S2Ν, 将k代入上式便可求出样本量。

二重抽样法考虑了回答者和无回答者在调查特征上的不同, 能够较好地避免无回答引起的偏倚, 提高估计精度, 而且费用不会增加太多。当子抽样仍然存在无回答时, 二重抽样法子抽样无回答的补救使得调查避免了访问被多次拒绝的情况, 节省了费用。但是无论是替换样本还是插补调整降低估计量的偏差的程度取决于替换样本与无回答单元、插补值与无回答项目的相似程度, 可能无法完全消除无回答的影响。由于子抽样存在无回答, 二重抽样法调查的组织及计算较复杂。

摘要:在抽样调查中, 无回答对于抽样推断的影响较大, 而二重抽样可以在兼顾费用的基础上有效地提高抽样估计的精度。但在无回答的子抽样中, 仍然可能存在无回答, 因此本文针对子抽样无回答的处理进行了讨论。

关键词:子抽样,无回答,处理

参考文献

[1]杜婷.网络调查的非抽样误差控制及调整方法.统计与决策, 2006; (8) :34—36

[2]何华芹, 刘建平.含有敏感因素二重抽样调查方法的改进.统计与决策, 2004; (8) :126—127

分组抽样 篇3

许多审计人员不倾向于或不善于使用概率抽样方法, 而习惯采用非概率抽样方法, 因为后者更容易掌握和实施。Hitzig (1995) 对其所在地的审计公司进行了调查, 发现94%的审计公司在开展审计工作中使用非概率抽样方法, 只有2%的审计公司使用概率抽样方法。

美国注册会计师协会于1999年制定了新审计工作指南以取代1983年的旧指南。相比旧指南, 新指南的显著特点是强调了非概率抽样方法在审计中的应用, 突出了审计人员在样本量和样本选择方式上的直觉判断作用。本文着重介绍依据交易时间主观选样的非概率抽样方法。

一、样本的选择

假设审计总体由4年共48个月的交易构成, 时间范围为2005年1月1日到2008年12月31日。每个月的交易用发票来表示。

时间抽样法就是以月份为非概率抽样单位, 而对抽取月份的所有交易不再进行抽样, 这也就是说, 对其中所有交易的发票进行全面调查。这里要注意的是, 每一年中的每个月份的选择概率是不一样的, 通常以被审计单位销售总账和明细账中记录的交易次数和交易金额属于中等水平的那个月份作为样本选取月份。淡季和旺季月份不能作为样本选取月份。

假设样本选取月份包括2005年10月、2006年7月、2007年2月、2008年4月。这里的月份也可以换成星期和天等。

审计人员对这四个样本选取月份的所有发票进行了审查, 发现有些发票的账面金额存在误差。审查结果见表1。

下面我们分别使用比率估计法和平均估计法对表1数据进行分析与推断。

1. 比率估计法。

该方法分为两步:第一步, 计算样本误差率 (=样本误差总额/样本销售总额, 即:5000÷4600000=0.001087) 。第二步, 推算各年审计总体误差总额 (=样本误差率×每年销售总额) , 计算结果见表2 (表中部分数据存在微调) :

2. 平均估计法。

这个方法分为三步:第一步, 计算样本每个月份的平均误差额 (5 000/4=1 250美元) 。第二步, 估计审计总体误差总额 (等于审计总体总月份数乘以1 250美元, 即:48×1 250=60 000美元) 。第三步, 将得到的审计总体估计误差总额按每年销售额比例分配到每一审计年份。具体结果见表3:

在使用比率估计法和平均估计法对审计总体特征进行估计时, 有以下一些特殊情况需要引起注意:

第一, 非同寻常的大额交易误差。如果抽取的样本中包括非同寻常的大额交易及其误差, 为了保证样本的平稳性和审计总体特征估计结果的可靠性, 通常的做法是将其从样本中剔除。如果样本中的大部分误差处于500~2 500美元之间, 那么15 000美元的误差就是大额交易误差。为了剔除所有大额交易误差, 检查所有在某一个金额以上的交易是必要的。一般来说, 大额交易误差根据被审计单位的生产经营状况来确定。

第二, 记录缺失。有时候, 审计总体的部分或大部分销售记录文件缺失。如果记录文件缺失, 按原计划抽取的样本中也可能缺失交易记录, 用这样的样本估计审计总体特征, 其结果很可能存在较大的偏差。然而, 由于在实际审计工作中恢复缺失记录比较困难, 因而只能依据这个有偏差的样本来估计审计总体特征。

第三, 错误分类和错误编制。一般不会为审计总体特征估计修正错误分类和错误交易记录。审计人员通常是按账面上实际记载的交易记录处理, 而不是按应该记载的交易记录处理。但如果样本中发生的这两类错误的金额很大, 在估计审计总体特征之前要进行必要的修正。

第四, 税法条文更改。有些交易按现行税法规定是不纳税的, 但如果税法条文做了相应修改后则需要纳税。如果预计在审计期间税法条文将进行修改, 那么审查审计总体的纳税情况就应该将其所有交易分成需要纳税和不需要纳税两大类, 并在每一类分别抽取样本进行估计, 合并两类估计结果即可得到审计总体特征的估计结果。

二、样本量的确定

美国注册会计师协会于1999年制定的新审计工作指南给出了非概率抽样方法下审计总体样本量n的计算公式:

其中:V为审计总体已知的账面总值, TM为可允许错报水平, AF为保证因子。

由于V已知, 所以只要确定可允许错报水平和保证因子就可以根据以上公式计算出样本量。

1. 可允许错报水平的确定。

各类交易、账户余额和列报认定层次的重要性水平被称为“可允许错报水平”。可允许错报水平的确定以注册会计师对财务报表层次重要性水平的初步评估为基础, 它是在不会导致财务报表存在重大错报的情况下, 注册会计师对各类交易、账户余额和列报所确定的可接受的最大程度的错报。美国注册会计师协会确定可允许错报水平为重要性水平的2/3。

在确定可允许错报水平时, 注册会计师应当考虑两个因素: (1) 各类交易、账户余额和列报的性质及错报的可能性; (2) 各类交易、账户余额和列报的重要性水平与财务报表层次重要性水平的关系。

2. 保证因子的确定。

保证因子由两大因素决定:一是对控制风险和固有风险组合的评估;二是对其他查明重大错报的分析程序的评估。

(1) 对控制风险和固有风险组合评估的分类。具体分为以下几类: (1) 控制风险和固有风险组合处于最大值。审计人员认为被审计单位的内部控制结构、政策和程序根本无法控制被审计单位的控制风险和固有风险。 (2) 控制风险和固有风险组合稍微低于最大值。审计人员认为被审计单位的内部控制结构、政策和程序在一定程度上可以避免或查明重大错报。 (3) 控制风险和固有风险组合处于中等值。审计人员认为被审计单位的内部控制结构、政策和程序一般能够有效地避免或查明重大错报。 (4) 控制风险和固有风险组合处于最小值。审计人员认为被审计单位的内部控制结构、政策和程序能够很有效地避免或查明重大错报。

(2) 对其他查明重大错报的分析程序评估的分类。具体分为以下几类: (1) 完全不能依赖的其他分析程序; (2) 稍微可以依赖的其他分析程序; (3) 在一定程度上可以依赖的其他分析程序; (4) 在相当程度上可以依赖的其他分析程序。

美国注册会计师协会于1999年公布的非概率抽样保证因子见表4:

假设审计总体的账面价值为3 758 000美元, 计划重要性水平为295 500美元, 可允许错报水平为197 000美元, 审计总体的控制风险和固有风险组合处于最小值, 对其他查明重大错报的分析程序属于完全不能依赖的其他分析程序。根据表4, 保证因子为2.0。依据样本量计算公式得到样本量为38[ (3 758 000/197 000) ×2]。

参考文献

[1].William F., Messier.A experimental assessment of recent professional developments in nonstatistical audit sampling guidance.A Journal of Practice and Theory, 2001;1

分组抽样 篇4

关键词:旅游客源市场,抽样调查,等比例分层抽样

一、选题意义

随着统计学理论与方法走向成熟、计算机信息技术的高速发展,运用抽样调查来研究旅游客源市场有关信息,为旅游规划的设计、旅游产品开发提供基本资料已成为研究者的重要课题。抽样调查来自于成熟的统计学,分析过程又采用先进的计算机统计软件来完成。因此,几乎所有国内外学者都对抽样调查在旅游客源市场研究中的有效性深信不疑。但在实际工作中发现:旅游客源市场的复杂性、特殊性,给抽样调查选取样本带来了难度,获得的数据容易失真。为了克服简单随机抽样的不足,学者开始对旅游客源市场的特殊性进行分析。但由于分析得太细、太全,虽然提高了数据的有效性,但大大降低了操作性。本文尝试在保证一定的可靠度的前提下,根据旅游市场的特点,利用分层抽样中的等比抽样,提高了可操作性。

二、旅游客源市场的特殊性

旅游客源市场的特殊性主要表现在时间属性、空间属性与个体需求属性三个方面。

(一)时间属性主要表现为时间的非连续性。

旅游者时间属性具体表现有:季节集聚现象、大小黄金周集聚现象、周末集聚现象、上班时段集聚现象等4个方面。

1. 季节集聚现象。

各旅游区的气候条件的差异是构成季节集聚现象的主要因素。各旅游区都呈现出明显的淡季与旺季,在取样时要注意有所区别。

2. 大小黄金周集聚现象。

国务院每年都定期发布《全国年节及纪念日放假办法》。客观上促成了两个时期跨度为一周的旅游黄金周:春节、“十一”。四个时间跨度为3天的小旅游黄金周:清明、端午、“五一”与中秋,此外还有传统上的暑假、寒假。从而形成了所谓的“假日经济”。在取样时要注意有所区别。

3. 周末集聚现象。

为了扩大内需,提高国民的生活质量,全国已经普遍实行每周5天工作制,有些部门甚至实行每周4天半工作制。这一工作制度的改变,促进周末休闲度假现象与城市周边周末休闲度假的发展,产生了“周末经济”。在取样时要注意有所区别。

4. 上班时段集聚现象。

因工作性质,有些行业如银行、公安、服务行业等需要采用轮休制,这些行业人员在上班时段出游的机会可能更大。另外,国家已经开始实施带薪休假制度,不同单位带薪假期时段不同,促进了上班时段旅游集聚现象的形成。在取样时要注意有所区别。

(二)旅游者空间属性的非均匀性。

旅游者空间属性的非均匀性,主要体现在两个方面:一是旅游区内部旅游者分布非均匀性;二是旅游客源地居民分布非均匀性。

1. 旅游区内部的旅游者分布的非均匀性。

旅游区内部的旅游者分布的非均匀性主要表现在:一是旅游区内景点自然分布的非均匀性。二是旅游区存在不同的功能区,如消费区、综合服务区、观赏区等,导致旅游者在同一景区内部分布的非均匀性。在取样时要注意有所区别。

2. 旅游客源地居民分布的非均匀性。

我国现处在社会主义初级阶段。各地区、各部门经济发展状况差异较大,导致不同地区的居民出游率与消费能力差别较大。形成明显区别的一级市场、二级市场和机会市场。一级市场,通常情况下可占旅游地接待总人数的40%~60%。二级市场,通常情况下可占旅游地接待总人数的10%左右,如果开发得当,可以转变为一级市场。机会市场,目前占旅游地接待总人数比例人数较少,是一个旅游地有待开发的市场。在取样时要注意有所区别。

(三)旅游者需求的个体差异性。

随着旅游业的迅速发展,旅游业开始由“资源导向型”向“市场导向型”转变。旅游需求呈现出多样化、个性化和易变性,消费行为更加明智。这主要体现在个体年龄结构的差异与社会文化差异两方面。在取样时要注意有所区别。

1. 个体年龄特征的差异。不同的年龄,其购买力、购买欲望和购买权利都不同。据统计,国内旅游者一般以处于30~45岁和16~29岁年龄段的中青年居多,分列一、二名。市场份额基本上为40%和38%左右;其次是45~60岁年龄段的中年人,大约可占17%左右;其它年龄段所占比例较小。在取样时要注意有所区别。

2. 社会文化个体差异。

一般来说,游客文化层次越高,意味着具有较高的旅游文化偏好和经济能力。据统计,具有本科及本科以上学历的游客一般占到总人数的42%左右;其次是大专水平的旅游者,占总人数的32%左右,其他学历阶层的人数较小。在取样时要注意有所区别。

综合所述,在实施抽样调查时,以时间集聚不同、地域分布不匀、个体需求存在差异为基础,按等比例分层抽样进行取样,最大限度地保证全覆盖。

三、运用等比例分层抽样进行旅游客源市场调查的一般程序和方法

一般来说,运用等比例分层抽样进行市场调查分为六个步骤:确定调查目的;确定调查项目、调查单位;样本容量的计算与分配;调查问卷的设计;搜集、整理信息;分析信息,得出结论。

(一)确定调查目的。

调查目的就是通过统计调查所要达到的具体目标,要解决的主要问题。只有确定调查目的,才能解决为什么要调查,进而确定搜集资料的范围和方法以便更好地组织统计调查工作。调查目标需要根据每次调查要解决的问题而确定,要求简单、明确。

(二)调查对象、调查单位。

调查对象是根据调查目的而确定的被调查的统计总体。调查单位是构成调查对象的每一个总体单位。

(三)样本容量的计算与分配。

抽样样本控制要注意三个问题:一是代表性问题,客观上要求抽查人群全覆盖;二是要反映出旅游市场客源分布的特殊性,主次得当,分层抽样;三是要在保证一定把握度的前提下,按等比例进行,有利于计算。

(四)调查问卷的设计。

1. 调查问卷的基本结构。

调查问卷是问卷调查的主要工具,科学地设计问卷,是抽样问卷的关键性环节。问卷的设计质量,直接影响到问卷调查的回收率、有效率以及被调查者的回答质量。概括地说,是由调查问卷的题目、调查与填表说明信、问题和答案、调查实施情况记录等四部分组成。确定题目的原则是主题鲜明、准确,易于填答,易于理解。力求观点新颖、明确具体、言简意赅,题目富于表现力和感染力;调查说明是关于调查的目的、内容与要求;填表说明是告诉调查对象如何填写问卷;问卷的主体内容是指问题和答案,这是问卷的最主要的、最基本的组成部分,通常这一部分既要提出问题,又要给出相应的答案;调查实施情况记录一般设计在整个调查问卷的尾部,用来记录该卷的调查完成情况和有待进一步审核、校正、复查的问题。

2. 设计调查问卷时的常用方法和技巧。

一是问题的提问方式一般有开放式和封闭式。开放式提问要求被调查者根据自身情况自由作答,常常能了解旅游者的真实信息,但不便于统计,主要用于探索性调查;封闭式提问给定备选答案,要求被调查者从中作出选择;对于敏感性问题,应采取迂回方式,避免引起受访者的误解;尽量多使用封闭式,少使用开放式。二是所有的问题排列,要注意问题的逻辑性及排列次序,便于被调查者顺利作答。一般,应该将难度大、开放性和敏感性强的置于后面,使被调查者以一种轻松、愉快的感觉开始作答。三是问卷答案的设计既要遵循互斥性原则,又要遵循完备性原则。

(五)搜集、整理信息。

通过统计调查所搜集得到的原始数据资料都是零乱的,只能反映出样本单位的具体情况和事物的表面现象,不能深刻说明事物的本质,揭示事物的内在规律。只有通过科学的整理加工,才能得到反映总体特征的综合资料,为进一步的分析做准备。搜集的资料是否准确、真实、可靠,统计整理是否能如实揭示出事物的内在规律。是统计分析的前提,决定了调查研究的效果。

1. 旅游客源市场调查的方法。

按搜集资料的方法不同,统计调查可分为间接调查和直接调查。间接调查是指间接地搜集第二手资料的统计调查。如一些出版物、商业资料、网络等媒介上提供的与调查对象有关的所有资料和数据。其特点是:成本低、速度快,来源广,但时效性差,精确度和可靠度不够。直接调查是指直接搜集第一手统计资料的统计调查,如问卷调查法、访问法、网络直拉调查法等。

2. 统计整理的主要步骤。

通过对统计资料进行审核、分组、汇总和编制统计图表等环节。审核主要对资料的准确性、及时性和完整性审核;分组汇总是指根据研究目的和分析的需要,选择整理的标志,并划类分组;编制统计图表是指对整理好的资料编制成统计表或绘制成统计图,以简明扼要地反映旅游客源市场的特征。

(六)分析信息,得出结论。

分析信息,一般主要采用两个软件SPSS和EXCE。SPSS(社会科学统计软件包)是一种集成化的计算机数据处理应用软件;EXCEL(又称电子表格)是微软OFFICE办公软件中的一个重要组成部分,常用来处理统计调查、理化实验等研究型数据的处理。将整理后的有效数据输入SPSS数据库,用SPSS软件进行初步处理;再使用EXCEL处理进行修正,最后再运用SPSS作二次处理.基本上可以保证处理与分析所得到的数据的有效性和科学性。

四、研究难点

(一)数据的搜集、甄别与处理。

由于旅游客源市场的特殊性,如何去搜集、甄别与处理有关数据是运用等比例分层抽样调查的一个主要难点。

(二)分析与检验。

如何利用相关处理软件处理和数学建模去分析数据、得出结论,并检验结果的正确程度,是运用等比例分层抽样调查旅游客源市场的另一个主要难点。本研究不够,还有待于进一步研究。

参考文献

[1]李享.关于抽样调查在旅游调研中存在的问题探讨[J].旅游学刊,1999,14(3):54~57

[2]甘武琳,赵涛.问卷技术在旅游市场调查中存在的问题及改善方法[J].广西大学学报(哲学社会科学学报),2003,25(3):40~42

[3]许春晓.旅游规划新论----市场导向型旅游规划的理论、方法与实践[M].长沙:湖南师范大学出版社,2002:82~108

[4]保继刚等.旅游开发研究:原理、方法、实践[M].北京:科技出版社,1996

[5]陆大道.区域发展及其空间结构[M].北京:科学出版社,1995

[6]邓明艳.成都旅游市场时空分布模型研究[J].国土经济,2000,3:41~42

[7]林刚.试论旅游地的中心结构[J].经济地理,1996,16(2)

流量抽样关键技术研究 篇5

随着网络的高速发展,网络的带宽越来越大,网络上的流量急剧膨胀。在高速网络环境下,监控和捕获网络上的每个数据包已经不再可能。同时捕获每个数据包会导致流量管理和流量监控程序占用更多的CPU资源,内存资源。这些原因使得以往的流量管理和流量监控技术不能部署到大规模的高速网络环境中。

链路带宽的快速增长和网络流量的急剧膨胀使得流测量在高速网络中仍然面临着可扩展性挑战。为此,人们提出基于抽样的流测量:首先对分组进行抽样,然后对分组样本进行基于流的统计,从而保持流测量的可扩展性。Cisco在NetFlow中引入抽样机制形成随机抽样NetFlow(random sampled NetFlow,简称RSNF)[1],以适应网络的高速化。但RSNF的抽样方法仍然存在一些缺点[2]:抽样率(sampling rate)需人工配置,且在测量时不可变,造成使用不便。高抽样率会因过多消耗资源而引起路由器性能的降低;低抽样率因获取样本数量过少、总体信息缺失过多而造成分析结果误差加大。如何选择合适的抽样率往往使用户处于两难境地。同时当网路流量徒增时,抽样程序会过度占用系统资源。

文章首先介绍抽样技术研究现状,包括流量测试方法、流特征以及现有抽样技术。最后文章具体介绍了三种抽样技术的实现方法。

1 抽样技术的研究现状

本节首先介绍流量测量方法,之后介绍网络中的流特征,然后对现有抽样技术现状进行概括和总结。

1.1 流量测量方法

流量测量(traffic measurement)是网络监测、管理和控制的基础。目前有3种方法用于流量测量:主机内嵌软件的手段、基于SNMP的手段[3]、基于NetFlow[1][2][4]的手段。

主机内嵌软件的手段是指在主机内安装流量监控软件来完成流量监测任务。主机操作系统中,主机与网络的通信一般是通过调用软件套接字(Socket)来实现的。因此在这个位置上嵌入一个软件就可以监控并截获往返通信的全部数据内容。主机内的流量监控软件能够截获全部通信报文,因此可以进行各种协议层面的分析工作。这一类软件的主要问题是处理能力往往不足。因此导致了丰富的功能不能同时使用或者实时使用。因此有插入硬件板卡来加强处理能力的做法。但是因为这种做法会导致费用大为增加,就又限制了它的使用范围。当然,主机上的流量监控软件不能看到全网范围内的流量情况。

SNMP(simple network management protocol)[3]统计数据来获取流量信息。SNMP目前已经是几乎所有网络设备必备的能力。SNMP在提供对于网络设备进行管理的基本能力的同时,也提供了一组网络流量参数。因此,有人在此基础上开发了流量监控软件。基于SNMP的流量监控手段采用软件方式实现,对于PC服务器的处理能力要求不高,可以安装在一般的PC服务器上。同时,流量信息直接来自网络设备,不需要对于网络进行改造或者增加部件。配置简单、费用低是它的主要优点。但是,SNMP提供的流量信息只包括字节数、报文数等最基本的内容。因此,对于略微复杂的流量监控要求,这种手段就无能为力了。而且它只能提供粗粒度的流量信息,不能满足深入分析的要求;

流(flow[5])级别的测量,它既能提供详细的流量信息,又具备一定的可扩展性,因而受到广泛的关注并得到大量应用。为此,IETF(Internet Engineering Task Force)组织在流测量(flow measurement)方面建议使用抽样的方法[6][7]。主流商用路由器大都支持流测量功能,如Cisco的NetFlow[1][2][4]就是广泛使用的流测量工具。目前,NetFlow已经成为流测量的主要工具,诸如主要业务、主要用户、流量矩阵等信息都可由此获得。

1.2 流特征

在讨论抽样技术前,我们先讨论下网络中流的特征和流对抽样技术的影响。

一方面流的大小是不同的[8]。而且网路中存在极其小的流(它的包个数小于10),导致使用抽样方法的流量监控和流量采集系统无法检测到。因此对任意大小的流进行抽样再估计这样的统计结果是不准确的。但是,网络中80%是小流(包个数小于等于10个),20%是大流(包个数大于105或者106个)[8]。而这20%的大流占据了绝大部分流量。我们把这种现象称之为“大象流和老鼠流现象。“通过监控和采集大象流,可以研究和分析网络的运行情况。对于现在大多数的流量监控和流量采集系统,提供了准确估计大象流的方法。所以开发一种抽样方法准确评估大象流是现在研究的热点。这种抽样方法减少了处理数据包的个数,同时通过采用这样抽样方法,老鼠流将不会被采集,这样也减轻对系统缓冲区的占用。

另一方面在流量监控和流量采集方面抽样技术面临很大的挑战。第一,流的速率是不同的。这样导致对大象流的定义比较困难。第二,流出现的时间是动态的,持续的长短也不同。即流随机的出现,随机的消失。因此为了使抽样既准确又高效,根据流的变化选择一种合适的抽样率是很重要的。

1.3 抽样技术

本节介绍现有抽样技术及现有抽样技术的研究方法。

在宽带网络流量测量中采用的传统抽样方法主要有以下几种:系统抽样,随机抽样和分层抽样。下面分别对这三种抽样技术进行介绍。

(1)系统抽样[8][9][10]:

系统抽样通过一个事先确定的函数来决定抽样的起点和抽样间隔等关键参数。最简单的系统抽样就是1/N系统抽样,它是抽取每N个数据包的第一个数据包。尽管系统抽样被广泛应用于高速网络中,但由于网络中流的多样性以及持续时间长短不同的特性,利用系统抽样得到统计结果不准确。

(2)随机抽样[11][14]:随机抽样根据预先定义的随机过程来确定抽样的起点和抽样间隔。随机型抽样是从N个报文总体中随机选取n个报文作为样本。然而随机抽样和系统抽样存在同样的问题:用随机抽样技术估计的网络流量对小流的统计结果不准确。

(3)分层抽样[12][13][15]:分层抽样的基本想法是使用总体中的一些逻辑信息(这里的逻辑信息可以是按时间分层,按包大小分层,按包类型分层)来增加测量精度。根据这些逻辑信息在抽样前对总体报文进行分组。分层抽样过程分为2个处理步骤。第一步:将总体元素根据一些逻辑信息进行智能分组。第二步:每个分组进行简单随机抽样。可以根据流的大小,流的持续时间进行智能分组。分层抽样的优点就是捕获和存储的流量数据少。

下图为三种抽样技术的比较图例:

传统的抽样技术面临如下两个挑战:一个是网络上流的多样性。即在同一时间段内,网络上会出现不同类型,不同大小的流。再一个是同一个流在网络上出现的时间是随机的,持续的时间长短不同的,流的速率不同。所以采用传统的固定抽样技术虽然可以降低对系统资源的占用情况但抽样误差精度不可控制[18][19][20][22][24][25][26][27][28][29][30][31]

为了解决上述问题,论文[18]通过选取前K大个流减低流包大小的估计误差,同时这样做的目的是减小流量监控系统对带宽的需要。论文[19]采用的抽样方法是如果一个流的某个数据包被抽样,那么属于这个流的所有数据包都被抽样。如何评估流的分布问题,论文[19]采用论文[20]和论文[21]提出的方法。论文[20]采用统计推断方法估计流的分布特征。论文[21]对包抽样和流抽样进行了比较,实验数据说明流抽样比包抽样执行更准确。论文[8]提出了在抽样误差约束条件下的自适应随机抽样率的方法,根据抽样误差约束{η,ξ}以及大象流评测阀值这三个参数设计模型。该方法能够根据网络流量的变化自适应更改抽样概率,并且该方法可以控制抽样误差精度。但该方法没有考虑系统资源占用的情况。在论文[8]基础上,论文[2]针对现有NetFlow技术中存在的抽样率需人工配置且不变的问题提出了自适应调整抽样率的Adaptive NetFlow (ANF)方法,该方法的核心思想是根据网络流量的变化自适应更改抽样率,并用新的抽样概率对缓冲区的流进行重正化(renormalization)同时抛弃分组数为0的流记录。但该方法在测量时间段内抽样率只能递减,不能递增。论文[10]在参考ANF方法后提出了改进方案,但该方法计算得到的抽样率不是在测量时间段内的最适合抽样率,对每个流的抽样不是等概率抽样,同时没有考虑抽样误差(抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为抽样误差。)约束问题。论文[16]参见论文[8]的方法,在考虑系统资源情况下,提出了自适应尽力采样大象流的方法。但该方法没有考虑抽样误差问题。

2 三种抽样技术介绍

上面章节概括和总结了现有抽样技术的研究现状,本章具体介绍三种抽样技术。下面章节分别介绍准确及可扩展的自适应包抽样流量检测技术[8],一种业务流自适应尽力采样方法[16],以及流测量中基于测量缓冲区的时间分层分组抽样[20]。

2.1 准确及可扩展的自适应包抽样流量检测技术

本节介绍论文”准确及可扩展的自适应包抽样流量检测技术”[8]。该论文解决如下几个问题:首先,现有抽样技术的抽样误差不可控且估计结果不准确。其次如何在保证估计结果准确的前提下,避免过度抽样。最后如何估计网络流量。基于以上问题,该论文在分层抽样技术理论基础上提出了自适应抽样技术处理网络中的大象流。实验结果表明该抽样技术能在可承受的抽样误差范围内准确估计网络中出现的大象流。但该抽样技术没有考虑流量监控和采集系统在抽样时对系统资源的占用情况问题。

为了准确和高效的进行抽样,流量监控和采集系统应该选择合适的抽样时间,同时抽样率应该根据流量的变化进行动态调整。然而当针对大象流进行抽样时,由于流的到达时间的随机性,流持续的长度不同[8],这些原因导致抽样时间的选取是一个难点。为了处理上述问题该论文采用分层抽样方法。方法如下图:

从上图可以看出,系统将时间分成若干个block时间块(例如每个block时间块大小为60秒)。在每一个block时间块内系统用相同的抽样概率对每个数据包进行抽样。在每一个block时间块结束的时候,系统对流量进行统计分析工作,之后流的大小可以被估计出来。注意一个block时间块是流量监控和流量采集系统最小的监控时间范围,同时在这个block时间块内按照大象流的评判标准抽样大象流,最后在这个block时间块结束时调整抽样概率。

流量负载是在确定时间段内所有到达数据包大小的总和。该系统在固定的检测周期内通过抽样的数据来估计大象流的流量负载。在该论文中选择确定block时间块为检测周期,同时这个block时间块是可配置的,例如论文[8]中将block时间块设置为60秒。在接下来的章节中介绍该论文在估计流量负载时如何限制抽样误差的问题[8]。

假设在一个固定block时间块内有m个数据包到达,为了估计在这个固定block时间块内的流量负载,该论文假设从m个数据包中随机抽取n (1<=n<=m)个数据包,换句话说,以相同概率p=n/m的概率抽取每一个数据包。用mf表示属于流f的包个数,并用估计mf的值。nf表示属于流f的被抽样的包个数。

该论文的目标是在给定{η,ξ}(0<η<1)这两个参数下(η是概率论中的置信区间,ξ是在置信区间η时的单侧置信下限。例如可以将{η,ξ}分别设置为0.1。),在可承受的误差范围内,限制包个数估计和包字节数估计的相对误差。即要满足如下公式:

其中表示估计值与实际值的偏离程度,偏离程度越小,说明估计值越准确。所以通过公式2可以看出,当{η,ξ}的值越小,估计值越趋近于实际值mf。在论文[8]中{η=0.1,ξ=0.1}。

因为n→∞时趋近于pf,并且的期望为pf,方差为pf (1-pf)/n。将公式2变形为如下公式:

其中Φ(.)是标准正态分布函数。

因此,为了达到预先设定的误差精度要求,需要抽取的包个数n满足如下公式:

通过上面的公式,该论文使用的自适应抽样技术能得到最优的抽样概率(5)

所以为了使估计结果的误差在预先设定的误差精度{η,ξ}范围内,在一个固定block时间块内每个包必须以随机概率P*进行抽样。

但该抽样技术没有考虑流量监控和采集系统在抽样时对系统资源的占用情况问题。所以下面章节介绍在考虑资源占用情况下的抽样概率计算方法。

2.2 一种业务流自适应尽力采集方法

本章节介绍论文“一种业务流自适应尽力采集方法”[16]的一种业务流自适应尽力采样方法。该论文解决的问题是在抽样的同时考虑系统处理能力情况。该论文基于分段采样思想提出了一种尽力最优的自适应随机采样方法,实现特大业务流的精确估计,其中将监控系统本身的处理能力作为选择采样概率的参数。但论文没有考虑抽样误差约束问题。

为了考虑流量监控和流量采集系统对资源的占用情况,论文[16]提出了如下的自适应尽力采样概率:

其中Um表示流量监控和流量采集系统单位时间内处理的最大包个数,Ri表示单位时间内实际的包个数。从公式5可以看出当估计的抽样概率大于1时,说明实际的网络负载小于流量监控和流量采集系统的能力,所以流量监控和流量采集系统对数据包执行全抽样。

但为了避免频繁的抽样概率更替引起振荡现象的出现,当满足公式7时,系统不进行抽样率调整。如果不满足公式7,则进行公式6的抽样概率调整。

其中δ为允许的抽样包偏差程度值。从公式7可以看出δ值表示实际流量负载与系统单位时间内处理的最大流量负载的偏差程度,当偏差程序小于δ值时,系统不需要重新计算抽样概率。系统通过这样方式避免震荡现象的出现。

虽然该论文在计算抽样概率时考虑了流量监控和流量采集系统的处理能力问题,但在根据抽样概率估计得到的实际流大小该论文没有考虑误差精度的问题。

2.3 流测量中基于测量缓冲区的时间分层分组抽样

本节介绍论文“流测量中基于测量缓冲区的时间分层分组抽样”[10]中提到的流测量中基于测量缓冲区的时间分层分组抽样发放。论文[10]针对NetFlow中存在的其抽样概率需人工设定且固定不变,以及当网络流量发生变化时NetFlow对资源的占用不可控制的问题,提出了基于测量缓冲区的时间分层分组抽样方法。它通过引入测量缓冲区对定长时间内到达的分组进行固定数量的抽样,既达到了抽样率自适应于流量变化的目的,又可以控制对测量设备资源的消耗,而且该方法易于实现。

该论文是通过下面得到抽样概率的:

首先系统采用分时抽样的方法,将时间分成若干block时间块,系统在每个block时间块内进行自适应随机抽样。

其次系统设置两个缓冲区,其大小分别为n。设置两个缓冲区的作用是一个缓冲区用于存储当前block时间块的抽样数据包,另一个缓冲区用于对上一block时间块的数据包进行统计。

然后在每个block时间块对前n个数据包采用p=1的概率进行抽样,之后对第n+i (i=1,2,…,∞)使用n/n+i的概率进行的抽样。

最后在block时间块结束时,利用抽样概率对数据流进行统计分析工作。

但该论文计算的抽样概率没有考虑抽样误差约束问题。同时该技术设计的子测量时间段内的简单随机抽样不是等概率抽样,即每个包被抽中的概率和这个包在时间段中的位置是有关系的,越靠前概率越大。

3 结论

分层抽样方法的实证分析 篇6

近年来, 非公有制经济迅速发展, 占经济总量的比重不断提高, 非公企业的市场主体地位也日益突显, 逐渐成为活跃市场、推动行业技术革新、促进产业结构优化的重要力量。而人才是第一生产力, 是企业扩大发展, 提高企业综合竞争力的重要基础, 因此为了全面了解云南省非公有制企业 (单位) 人力资源状况, 本文对云南省非公有制企业 (单位) 调查, 解剖云南省总体总量、各州市、全省各行业非公有制企业 (单位) 人力资源的分布情况, 为非公有制人才队伍建设提供一个必要的依据。

报告运用分层算法对云南省16个州、市的18个国民经济行业门类非公有制企业 (单位) 人才资源状况进行抽样调查。

二、分层方案

1. 分层抽样原理

(1) 层数及样本量确定。将每一个行业门类的所有企业按照规模分成3层, 1个全部抽取层和2个部分抽取层, 总的样本量是由全部抽取层中的企业的数量和部分抽取层的样本量构成, 公式如下:

其中Nl是全部抽取层中企业的数量, nh为部分抽取层中样本量。

那么根据Lavallee-Hidirou算法。

(2) 样本分配方法。奈曼最优分配各层的单位抽样费用相等, 即ch=c那么费用函数就变为CT=c0+cn此时, 简化为, 这种形式的分配被称为奈曼分配。

2. 抽样框确定

州市的抽样框使用全省基本单位名录库, 根据非公有制法人企业所属的州市, 加工整理成, 云南16个州市的抽样框。

将各州市抽样框中的单位按照行业门类分成18个层 (当某些行业的单位数量为0时, 故不能完全涵盖18个行业) , 按照年末从业人员数据进一步分为1个全部抽取层和2个部分抽取层。各个抽取层的层界限通过kozak确定, 见表。

单位:人

三、结果分析

1. 全省非公有制企业 (单位) 人才的现状

调查结果显示, 云南非公有制单位共有从业人员2039472人。从受教育程度看, 研究生及以上学历有12129人, 占从业人员的比例为0.59%;大学本科有131784人, 比例为6.46%;大学专科有315011人, 比例为15.45%;中专及以下有1580548人, 比例为77.50%。从人才类型看, 比重较大的三种人员分别是经营管理人员、专业技术人员和技能人员, 抽样调查中这三类人员的数量分别为358959人、334451人、668715人。所占比例如图1所示。

2. 分行业的非公人力资源的数量特征

从云南省非公经济企业和员工从业结构来看, 以第三产业为主。从事第三产业的非公企业员工有706581人, 占非公企业员工总数的34.65%。具体来看, 年末从业人员在三大产业中的分布情况为:第一产业16.43%, 第二产业48.93%, 第三产业34.65%。

三大产业中经营管理人员、专业技术人员和技能人员的分布比例分别为:第一产业:9.00%、5.88%、8.77%。第二产业:39.22%、50.39%、59.38%。第三产业:51.78%、43.73%、31.86%。由于采矿业的特殊性质, 第二产业中经营管理人员、专业技术人员和技能人员所占的比例最高, 专业技术人员比重最大。

3. 分地区的非公人力资源的数量特征

经统计分析, 非公从业人员超过100000人的只有昆明、曲靖和邵通三地区。非公从业人员最少的是迪庆, 只有14537人。

云南省各地区的经营管理人员占该地区非公人员总数的比例集中在10%~20%;专业技术人员的比例除了邵通占7.77%外其他地区均集中在10%~20%;各地区的技能人员所占非公人员的比例则区别较大。超过35%的地区有德宏 (38.49%) , 文山 (44.74%) , 昭通 (56.82%) 。

参考文献

[1]秦光荣.强化措施优化环境推动非公有制经济发展再上新台阶—在全省加快非公有制经济发展大会上的讲话[R].2009, 3 (6) .

浅析审计抽样样本规模的确定 篇7

一、我国目前采用的样本规模确定公式

(一) 控制测试中样本规模的确定内部控制制度符合性测试, 即属性抽样, 是依据统计学中假设检验的原理设计的。

审计属性抽样, 是指只有两种可能结果 (信赖和不信赖) 的随机试验, 其概率分布为二项分布。由于二项分布计算公式比较复杂, 而泊松分布近似于总体很大的二项分布。统计学家编制了“累积泊松分布数值表”, 这样按照统计学确定样本容量的思想, 利用泊松分布确定过度信赖风险系数来体现统计抽样规模计算式中标准差及系数;用可容忍偏差率上限, 体现统计学中由极限误差 (Δρ) 形成区间的上限。建立审计属性抽样样本容量计算公式:

样本容量=信赖过度风险系数÷可容忍偏差率

使用上列计算公式来计算样本容量, 在事先并不知道样本容量为多少的情况下, 样本可能发生的偏差数很难预计。就是有了样本预计偏差发生数, 还要通过查表确定过度依赖风险系数, 再用公式计算样本容量, 比较麻烦。为了提高审计效果和效率, 人们根据泊松分布和不重复抽样原理, 编制了供实务应用的统计抽样样本规模确定表。我国准则指南中详细介绍了样本规模的确定, 注册会计师根据可接受的信赖过度风险选择相应的抽样规模表, 然后读取预计总体偏差率找到适当的比率。接下来注册会计师确定与可容忍偏差率对应的列。可容忍偏差率所在列与预计总体偏差率所在行的交点就是所需的样本规模。由此可见, 在控制测试中, 注册会计师主要关注抽样风险中的信赖过度风险。

(二) 细节测试中样本规模的确定

(1) 传统变量抽样。设计传统变量抽样所需的数学计算, 包括样本规模的计算, 对于手工应用来说显得复杂且困难。注册会计师在使用传统变量抽样时通常运用计算机程序确定样本规模, 一般不需懂得这些方法所用的数学公式。根据指南中样本规模确定公式,

样本容量=[预先估计的标准差× (可接受的误受风险的置信系数+可接受的误拒风险的置信系数) ×总体规模÷ (总体可容忍错报-预计总体错报) ]^2

通过分析可知, 以上样本规模确定公式是在充分考虑了误受风险和误拒风险的基础上得出的。

(2) PPS抽样。样本规模确定公式主要有两种方法:一是公式法, 样本规模=总体账面价值*风险系数/[可容忍错报- (预计总体错报*扩张系数) ]其中, 风险系数代表注册会计师愿意接受的误受风险。注册会计师通过估计预计总体错报而间接的控制误拒风险, 不需要特别控制误拒风险。二是查表法, 由于PPS抽样以属性抽样原理为基础, 注册会计师可直接使用控制测试中的统计抽样样本量表。此法与前面讨论的属性抽样原理相同, 在此不再赘述。

二、我国准则中关于样本规模确定存在的问题

审计人员在进行审计测试时, 可能发生两种抽样风险:一种是Ⅰ类风险, 指抽样结果使审计人员否定了真实原假设的可能性, 又称a风险, 弃真风险;信赖不足风险和误拒风险分别指符合性测试和实质性测试中的a风险。另外一种是II类风险, 指抽样结果使审计人员错误地接受了非真原假设的可能性, 又称β风险, 存伪风险;信赖过度风险和误受风险分别指符合性测试和实质性测试过程中的β风险。

通过上述分析可知, 我国准则规定的样本规模确定公式, 除了细节测试中传统变量抽样考虑了a风险, 其余均为考虑此类风险。

a风险, 是影响审计效率的抽样风险, β风险, 是影响审计效果的风险。考虑到审计的目标, 为了发表正确的审计意见, 注册会计师一般只关注β风险。但a风险影响审计效率, 可能会增加不必要的实质性程序, 增加审计成本, 尤其是在细节测试中, 如果在某类交易或账户余额的账面金额可能不存在重大错报时根据样本结果得出存在重大错报的结论, 注册会计师采用替代方法可能花费的成本大得多。

由于上述公式中存在没考虑的风险因素, 据以确定的样本量必然小于实际应抽取的样本量, 因此样本数据显示的结果不能代表总体特征, 使得审计风险增大。

三、样本规模确定公式的改进

依据统计学原理, a风险和β风险属于变动方向相反的风险, 没有一种假设检验可以使这两类风险同时达到最小。若要同时控制两类风险, 一般地, 在进行假设检验时, 先是根据问题的要求, 预先给出显著性水平以控制犯a风险错误的概率, 而后用选择适当的样本容量的方法, 在某种意义上减少犯β风险错误的概率。在统计学中, 通常会应用施行特征函数的方法求解。在此只简单的说明样本容量计算的原理, 对于具体的计算公式的由来, 由于涉及大量概率论与数理统计等方面的知识, 与审计学本身关系不大, 故不赘述。

如前所述, 在审计抽样中, 为降低审计风险, 必须同时考虑a风险和β风险。属性抽样下, 审计人员同时控制a、β两类风险的条件见图1:

图中P。表示预计总体偏差率, P1表示可容忍最大偏差率。假设H0:P=P0, H1:P>P1, P为实际总体偏差率。

由图可见, 审计人员只要适当地确定n (与分布的标准差有关) 和V (临界值) , 就同时控制了a风险和β风险。

从H。分布看, 有:

从H1分布看, 有:

联立上述两式解出 (即属性抽样样本规模确定公式) :

最后得出的样本规模确定公式为:

其中:N为总体规模;Z1-IR/2为正态标准差 (IR:α风险、误拒风险) ;Z1-IA为正态标准差 (IA:β风险、误拒风险) ;TM为可容忍误差;EM为预期总体误差;SD为估计标准差

上面公式 (3) 即为改进的属性抽样样本规模的确定公式, 同时考虑了两类抽样风险, 保证审计效果的同时, 提高了审计效率。

注册会计师确定样本规模受到多种因素的影响, 且在控制测试和细节测试中有所不同。目前我国审计准则中规定的样本规模确定公式基本考虑了影响样本规模确定的重要因素, 只是对于审计抽样风险的第一类风险有所忽略。本文只是浅薄的应用相关统计学原理进行了简单的分析说明, 希望可以为审计抽样理论与实务的发展提供点建议。

参考文献

[1] (美) 道格拉斯·R·卡迈克尔著, 刘明辉主译:《审计概念与方法:现行理论与实务指南》, 东北财经大学出版社1999版。

上一篇:安全守护者下一篇:电荷测量