描述统计学(共6篇)
描述统计学 篇1
统计学方法应交代清楚统计软件名称、假设检验方法和校验水准。统计资料有三大类, 即计量资料、计数资料和等级资料。计量资料两组间比较时常用t检验、χ2检验, 3组以上比较时常用方差分析;当两个小样本比较时要求两总体分布为正态分布且方差齐, 若不能满足以上要求, 宜用t检验或秩和检验。计数资料常用率或构成比χ2进行统计描述, 组间比较用) (2检验或u检验, 若不能满足χ2检验的应用条件可用确切概率法或合并组, 要注意X2检验的应用条件。等级资料组问构成比的比较用行×列表χ2检验, 组间率的比较宜采用秩和检验, 但要注意秩和检验校正值的计算。
描述统计学 篇2
●统计科科长
直属上级:非煤产业部部长
工作目的:负责集团公司非煤系统统计工作
工作要求:遵守《统计法》及集团公司统计制度,认真负责、工作细心、敢于坚持原则
工作责任:
一、负责制定非煤产业系统统计工作管理制度,并认真组织贯彻实施。
二、根据集团公司非煤产业统计范围需要,科学设计统计指标体系和统计报表体系,规范非煤产业的统计内容及统计程序。
三、按照统计设计确定的指标体系,采取多种方法开展统计调查,系统、详细收集统计资料,全面、准确地掌握基本统计信息。
四、及时、准确地编制非煤产业系统月度和统计报表。认真搞好统计分析,客观、公正地反映非煤产业经济运行情况及存在的问题,为领导决策提供可靠的统计信息依据。
五、负责向上级主管部门(中国煤炭加工利用协会、山西省煤炭工业厅、市统计局)及集团公司相关领导上报
非煤系统统计报表及统计分析报告。
六、积累历史资料。依据统计制度,负责收集、整理和积累历史统计资料,建立统计台帐,储存必要的统计信息。
任职资格:
1、必须具有统计从业资格证书。
2、有相关工作经验及大专以上学历背景。
3、熟练操作统计专业软件及现代办公软件。
●统计科科员
直属上级:统计科科长
工作目的:负责集团公司新事业系统统计工作
工作要求:遵守《统计法》及集团公司统计制度,认真负责、工作细心、敢于坚持原则
工作责任:
一、按照非煤产业系统统计工作管理制度,规范新事业系统的统计内容及统计程序。
二、按照统计设计确定的指标体系,采取多种方法开展统计调查,系统、详细收集统计资料,全面、准确地掌握基本统计信息。
三、及时、准确地编制新事业系统月度和统计报
表。认真搞好统计分析,客观、公正地反映新事业系统经济运行情况及存在的问题,为领导决策提供可靠的统计信息依据。
四、负责向上级主管部门及集团公司相关部门上报新事业系统统计报表及统计分析报告。
五、积累历史资料。依据统计制度,负责收集、整理和积累历史统计资料,建立统计台帐,储存必要的统计信息。
任职资格:
1、必须具有统计从业资格证书。
2、有相关工作经验。
描述统计学 篇3
1. 数据的整理
初二 (1) 班班长收集了同学喜爱的电视节目的情况, 得到了如下数据:
利用表格整理上面数据如下:
【点评】一组杂乱无章的数据, 经过数据处理后, 容易看出某些变化、规律, 经过科学有效地分析, 便能给我们提供宝贵的依据和建议.
2. 数据的描述
为了更直观地看出上表中的信息, 我们还可以用条形统计图和扇形统计图来描述数据.如图1-1, 1-2所示:
扇形统计图:容易表示出一个对象在总体中所占的百分比;
条形统计图:可以表示出各种情况下各个项目的具体数目;
折线统计图:可以表现出同一对象的发展变化情况;
频数分布直方图:通过长方形的高代表对应组的频数与组距的比 (因为比是一个常数, 为了画图和看图方便, 通常直接用高表示频数) , 这样的统计图称为频数分布直方图.
3. 条形统计图与频数分布直方图之间的区别与联系
频数分布直方图是特殊的条形统计图, 条形统计图各个 “条形”之间都有间隙, 频数分布直方图各个“条形”之间没有间隙.
条形统计图用横向指标表示考察对象的类别, 用纵向指标表示不同对象的数量特征.
频数分布直方图用横向指标表示考察对象数据的变化范围, 用纵向指标表示相应范围内数据的频数.
何时用哪种图表, 应根据我们研究问题的侧重点来定, 具体问题具体分析.不要生搬硬套, 应多总结、提炼研究问题的思想和方法, 不要一味模仿.
4. 统计图的选用
例反映台州市某一周的最高气温的变化趋势, 宜采用 () .
A.条形统计图
B.扇形统计图
C.折线统计图
D. 频数分布直方图
【解析】四种统计图的特点:条形统计图能清楚地表示出每个项目的具体数目;扇形统计图能清楚地表示出各部分在总体中所占的百分比;折线统计图能清楚地反映事物的变化情况;频数分布直方图以及频数分布折线图能清晰地表示出收集或调查到的数据分布情况. 根据题意, 应选C.
数据统计专员岗位的职责描述 篇4
1、负责每天收集汇总公司各项指标,做到及时、完整、准确地进行整理汇总,建立形成相应统计报表;
2、按时登记表格,能及时提供所需统;
3、做好与各部门的配合工作,及时更新统计数据,做好资料保密工作;
4、按要求及时上报各项指标和数据,做到正确完整计资料;
5、完成领导交办的其他工作。
任职要求:
1、 统招大专及以上学历,男女不限,财务或者金融专业优先考虑;
2、 表格精通,基本函数运用熟练;
3、掌握职责中所涉及行业的基本知识,熟练掌握办公软件操作、计算机基础操作;
Excel在描述统计中的应用 篇5
关键词:Excel,描述统计,函数
Excel是大家熟知的Office软件, 拥有丰富的函数, 其中包括专门用于统计方面的函数就有近百个。Excel强大的数据计算功能, 不仅能处理普通的数据运算, 而且也能胜任处理专门的统计业务, 如统计学中的数据描述、概率分布、参数估计、假设检验、方差分析等等, 都可以用Excel完成。因此, 对于绝大多数统计分析, 可用Excel替代昂贵的专门统计软件, 就可以轻松完成统计分析的任务。本文中, 我们以描述统计数据分析为例, 来说明利用Excel处理统计专业数据的途径和步骤。
一、统计函数
在描述统计中, 描述数据集中趋势的统计指标有:众数、中位数、均值、调和平均数、几何平均数, 描述数据离散程度的统计指标有:极值、全距、四分位差、方差、标准差等。在未分组资料中, 可直接用Excel函数计算这些统计指标。如根据图1中的数据, 计算某企业30名职工工资的众数, 可在存放结果的单元格中输入= MODE (A2:F6) , 按确认键, 结果立刻出现在当前单元格中, 比手工计算查找又快又准确。同样, 计算其他统计指标时, 在“插入函数”窗口的“函数类别”下拉文本框中选择“统计”类, 然后在函数文本框中选择相关函数, 使用即可, 和使用Excel常用函数没有区别。当选取某个函数时, 在“插入函数”窗口的下面有帮助信息, 简要说明该函数的功能及如何使用该函数。
二、用VBA处理统计数据
由于函数只能应用于处理未分组资料, 但对于分组的统计数据, 不能直接使用Excel内部函数求得, 需要多步计算, 过程较繁琐。但可以用VAB定义一个函数, 使用这个函数, 就像使用Excel内部函数一样, 输入参数, 点击确定, 顷刻就可得到结果;再者可以在不同的地方、针对不同的数据进行计算, 可谓一劳永逸。定义这样一个函数需要一些简单的VBA编程知识, 但并不很难。如图2中所示资料, 是对图1数据的分组 (“组距上限”列各数值是各组组距的上限值, 一定要这样输入, 也是为了更好的使用FREQUENCY () 函数) , 输入频数或用FREQUENCY () 计算频数 (计算后, 通过“复制”“选择性粘贴”粘贴成数值) 。顺次执行菜单“工具”“宏”“Visual Basic 编辑器”, 打开Visual Basic 编辑器, 选择菜单“插入”“模块”, 然后再选择菜单“插入”“过程”, 在对话框中选择“函数”单选按钮, 输入“函数名称”, 如:getMode, 点击确定, 然后在弹出的窗口中输入如下代码:
Public Function get Mode (your Range As Range)
Dim max Frequency, lower Limit, class Interval, interval1, interval l2 As Single
Dim row, col As Integer′定义变量:行号, 列号
Set interval Range = your Range .Find (Application .Worksheet Function. Max (your Range) )
row = interval Range. row′众数组所在行
col = interval Range. Column′众数组所在列
max Frequency = interval Range. Value′最大频数
lower Limit = Application. Cells (row - 1, col - 1) .Value + 1′组下限
class Interval = Application. Cells (row, col - 1) .Value - Application. Cells (row - 1, col - 1) .Value′组距
interval1 = max Frequency - Application. Cells (row - 1, col) .Value
interval2 = max Frequency - Application. Cells (row + 1, col) .Value
get Mode = lower Limit + (interval1 / (interval1 + interval2) ) * class Interval′应用众数公式
End Function
最后保存退出, 这样计算分组数据众数的函数“get Mode”就完成了。使用方法和使用Excel内部函数一样, 选择“用户定义”函数, 就会看到get Mode函数, 选择它并在参数框中输入频数的单元格区域, 如图2中的“C3:C7”点击“确定”, 众数就计算出来了。将计算结果和手工计算的结果比较, 结果是一致的。使用这个函数同样可以直接计算其他分组数据的众数。
上面是一个应用VBA计算集中趋势描述指标的例子, 下面是一个如何用VBA计算离散程度指标的例子。
计算标准差, 未分组数据可直接用函数STDEV () 或STDEVP () 求得, 若要求分组数据的标准差或带有权数的标准差, 就不太容易了, 但同样可以用自定义函数的方法解决之。如图3是对图1数据的分组, 求职工收入的标准差。按照前面自定义函数的制作过程, 定义如下函数:
Public Function get Stdev (interval Range As Range, avg As Single)
Dim i, row, col As Integer′定义变量:计数, 行号, 列号
row = interval Range. row
col = interval Range. Column
For i = row To row + interval Range. Rows. Count - 1
g = g + Cells (i, col)
h = h + (Application. Cells (i, col - 1) - avg) * (Application. Cells (i, col - 1) - avg) * Cells (i, col)
Next i
Get Stdev = Sqr (h / g)
End Function
简单的几行代码, 函数定义好了。使用时输入参数为权数范围“C3:C7”和平均值“B9”, 点击确定, 就得出职工收入的标准差。计算分组数据的其他统计指标, 同样可以自己定义函数, 定义时费些事, 但使用方便, 计算快速。
三、描述统计工具
前面介绍的都是利用函数计算单个统计指标, 使用Excel的“分析工具库”中的“描述统计”, 可以一次计算若干个统计指标, 更方便快捷, 还可以同时产生图表。“分析工具库”在工具菜单下, 如果没有, 则要运行“安装”程序来加载“分析工具库”, 安装完毕之后, 通过“工具”菜单中的“加载宏”命令, 在“加载宏”对话框中选择并启动它。下面来看如何用它做描述统计。仍以前面职工工资收入为例, 将数据排成一列, 如图4中的A列 (图中未显示全部数据) , 然后选择菜单“工具”“数据分析库”“描述统计”, 弹出描述统计对话框。在输入区域文本框中输入数据所在单元格, 如“A2:A32”;在分组方式中, 依据输入区域中的数据是按行还是按列排列, 单击“行”或“列”, 在这儿选择“列”;如果输入区域的第一行中包含标志项 (变量名) , 则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项, 则选中“标志位于第一列”复选框;如果输入区域没有标志项, 则不选任何复选框, Excel 将在输出表中生成适宜的数据标志, 这里选中“标志位于第一行”;“输出选项”, 前三项依据输出结果存放的位置不同, 来选择以本表中某个单元格开始的区域, 或输出到新工作表或新工作簿;“汇总统计”, 指定输出表中生成“平均值、标准误差、中值、众数、标准偏差、方差、峰值、偏斜度、极差 (全距) 最小值、最大值、总和、样本个数”统计结果, 则选中此复选框;“均值置信度”:若需要输出由样本均值推断总体均值的置信区间, 则选中此复选框, 然后在右侧的编辑框中, 输入所要使用的置信度;“第K 个最大/小值”:在输出表中包含输入区域数据的第k 个最大/小值, 若选中此复选框, 在右侧的编辑框中, 输入k 的数值。所有这些都设置好后, 点击确定, 结果出来了, 如图4中的C列与D列。
使用Excel内部函数和分析工具库, 处理统计数据, 简单的使用就可轻松获得计算结果;使用VBA来自定义函数, 处理一些Excel内部函数无法直接处理的数据, 更是灵活、便捷。
参考文献
[1].安维默.统计电算化[M].北京:中国统计出版社, 2000
描述统计学 篇6
从20世纪60年代起, 人脸识别技术一直是学术界研究的热点课题。人脸识别技术作为生物识别技术中的一种, 以其特有的稳定性、友好性、唯一性等特点越来越被广泛的应用在社会各个领域[1], 如司法部门、银行安全、视频监控、2010年上海世博会安保系统等。
人脸识别系统的性能易受到表情、光照、遮挡物等因素的影响。Gabor小波可以有效地提取各方向和各频率的局部特征, 因而对光照、表情等具有良好的鲁棒性。很多研究人员都将Gabor用于提取人脸特征, 并取得了较好的识别效果[2,3,4,5,6,7,8,9]。因经过Gabor变换的人脸特征的维数很高, 无法直接计算, 所以需要特定的描述方法来描述Gabor特征。一般采用下采样的方法[3~5]来描述Gabor特征, 但这种方法易造成有用识别信息的丢失, 为分类带来了不良的影响, 导致识别率不高。为此, 龙飞等人[6]提出了将分块统计量的方法用于描述Gabor特征, 这种方法不仅有效地降低了Gabor特征维数, 而且将此方法与广义鉴别分析法结合起进行特征的提取, 取得了较好的实验效果。本文在采用分块统计量方法的基础上, 提出一种新的Gabor特征描述方法--双向统计量。
支持向量机 (SVM) 作为模式识别的一种主流方法, 它是一种新型的机器学习算法, 以其能很好地解决非线性、高维数、过拟合等问题, 而被广泛应用于人脸识别中。文献[4,7,8,9]将Gabor小波与SVM结合进行人脸识别, 都取得了较好的实验效果。本文将Gabor用于特征提取, PCA用于特征降维, SVM作为分类器, 人脸识别流程图如图1所示。用ORL人脸库作为实验数据, 实验结果表明, 将本文所提出的方法与下采样的方法和分块统计量的方法相比, 识别效果最佳。
1、基于Gabor小波变换的特征提取
1.1 Gabor小波变换
Gabor小波最早由D.Gabor于20世纪40年代提出来的, 此后J.Daugman提出了二维Gabor滤波器模型, 并将其应用于计算机视觉领域。二维Gabor小波变换是图像的多尺度多方向表示和分析的重要工具, Gabor函数作为唯一能够取得空间域和频率域的下限的函数, 被用作小波基函数, 对图像进行分析。通常采用的二维Gabor滤波器函数的形式为[2]:
其中, 。v和μ分别表示Gabor滤波器的尺度和方向。
人脸图像的Gabor特征是由人脸图像I (x) 与多尺度、多方向的Gabor滤波器卷积得到的。本文采用5个尺度v={0, 1, 2, 3, 4}和8个方向μ={0, 1, …, 7}构成的40个Gabor滤波器对人脸图像进行小波变换, 得到40个子带输出, 如图2所示。用Rv, μ表示在不同尺度v和方向μ下得到的滤波结果。为了便于分析, 将不同尺度和方向下的子带输出结果连接成一个行向量, 即
其中, rv, μ表示Rv, μ中的元素经过行连接形成的行向量。由于Gabor变换是对整个人脸图像进行小波变换, 因此每个滤波器输出的Rv, μ的维数与原图像的像素个数是相等的, 这就导致了每幅人脸图像的特征向量S是一个非常高维的向量。为了解决这一问题, 通常采用的方法是对Rv, μ用下采样法进行特征的抽取, 假设对Rv, μ进行ρ倍的采样, 将采样后的结果再连接成行向量, 得到如下特征向量:
1.1 基于双向统计量的Gabor特征描述
一般采用下采样的方法对Gaobr特征进行降维处理, 但是这种方法是每隔ρ个间隔进行采样, 会造成有用信息的丢失, 不能保证人脸图像信息的完整性。针对这一问题, 龙飞等人[6]提出了一种基于子块统计量的Gabor特征描述方法, 该方法将Gabor特征矩阵Rv, μ进行分块, 再分别计算各子块的均值和方差, 以此来描述Gabor特征。这种方法不仅有效地解决Gabor特征维数高的问题, 同时也保证了人脸图像信息的完整性。在该方法的启示下, 本文提出了一种基于双向统计量的Gabor特征描述方法, 总的算法思想为:先求出Rv, μ的每行和每列的均值和方差, 将所有的均值和方差连接起来组成新的Gabor特征矩阵。具体描述如下:
对于Gabor变换后的子带输出Rv, μ, 其大小为lr和lc。分别求得lr行和lc列的均值和方差为mriv, μ, sriv, μ (i=1, …, lr) 和mcjv, μ, scjv, μ (j=1, …, lc) )
然后将所有均值和方差连接起来, 组成Gabor特征向量:
将所有尺度和方向的Gabor特征组合起来, 形成一行向量, 即:
这样得到的Gabor特征的维数是7360。维数还是太高, 所以接着采用最经典最广泛使用的降维方法——PCA (主成分分析) 法进行降维。PCA方法可将一个高维的向量投影得到一个低维的向量, 并且能保证大部分有用信息的存在。
PCA算法简单的描述为:将Gabor特征X投影到特征空间U, 得到降维后的特征Y, 表示为:Y=UX。U是由X的协方差矩阵的前p个特征值对应的特征向量组成的, 表示为U=[u1, u2, …, up], p<n (n为特征空间的维数) 。
2、基于SVM的人脸识别
支持向量机 (Support Vector Machine, 简称SVM) [10]是由Vapnik等人在20世纪90年代提出来的一种新型的机器学习算法, 该算法建立在统计学习理论的VC维和结构风险最小化基础之上, 在解决小样本、非线性、高维数、过拟合、推广性能差等方面取得了良好的效果, 是目前模式识别中使用较为广泛的一种分类器。
SVM是从线性可分情况下的最优超平面 (Optimal Hyperplane) 提出的。对于一组给定的样本点:
在特征空间构造超平面: (w·x) +b=0。
引入拉格朗日乘子αi, i=1, 2, …, l, 所以, 最优分类超平面可表示为
人脸识别属于非线性问题, 根据模式识别的理论, 可将低维空间的非线性不可分问题投影到高维空间, 使其转化为线性可分问题。为此引入核函数K (xi, xj) , 将原始数据投影到高维空间, 在高维空间中求最优超平面, 表示为式 (12) 。
常用的核函数有:线性核函数, 多项式核函数, 径向基 (RBF) 核函数;Sigmoid核函数。在本实验中, 将RBF函数 (13) 作为SVM的核函数。
3、实验结果及分析
为了证明算法的可行性, 使用ORL人脸库作为实验的数据。ORL人脸库是由英国剑桥AT&T实验室组建的人脸库, 共有40个不同年龄、不同种族和不同性别的人。每人10幅图像, 共400张图像组成, 每幅图像像素大小为112×92, 灰度值为256。部分ORL人脸库图像如图3所示。在该人脸库里, 具有不同光照、表情、饰物 (眼镜) 、性别等差异。该人脸库是目前使用最广泛的数据库, 有很多的比较结果。
实验采用ORL人脸库为实验原始数据, 考虑到每幅图像的维数太高 (10304维) , 对原始图像做一种预处理, 将每幅图像归一化到92×92维的大小, 然后, 将每2×2像素合并为1个像素, 合并后的每幅图像大小为46×46, 如图3所示。将每人的前5幅图像, 共200幅图像, 作为训练样本;每人的后5幅图像, 共200幅图像, 作为测试样本。
为了验证算法的有效性, 将本文所提出的算法与目前广泛使用的基于下采样的Gabor特征描述方法和基于分块统计量的Gabor描述方法进行对比, 采用支持向量机作为分类器, 核函数选取采用RBF核函数。
图4给出了随着样本类别数的增加, 三种方法的识别率的对比图, PCA提取90%的成分。从图中可以看出, 三种方法的识别率都是随着样本类别数的增加而呈现下降的趋势。在样本类别数为5到20之间, 分块统计量的识别率最高, 双向统计量方法其次, 最低的为下采样法。在类别数为20时, 双向统计量法和分块统计量法的识别率相等。而再随着样本类别数的增加, 分块统计量方法的识别率呈逐渐下降的趋势, 双向统计量方法的识别率趋于稳定的趋势, 下采样方法的识别率也趋于平稳的趋势, 但是其识别率低于双向统计量方法的识别率。罗亮等人[4]采用了下采样的方法, 当类别数为20时, 识别率为85%。在本文实验中, 下采样的方法识别率为93%, 双向统计量的为96%。说明双向统计量的方法描述Gabor特征的性能最好。
通过控制PCA提取特征的维数, 从20维到80维, 三种方法实验所得的识别率, 如图5所示。从图中可得出, 双向统计量方法的识别率比分块统计量和下采样方法的识别率高, 最后都趋于平稳。通过图4和图5的分析得出结论, 本文所提出的Gabor特征描述法--双向统计量方法, 识别效果最佳。
4、结束语
本文在借鉴分块统计量方法思想的基础上, 提出了一种基于双向统计量的Gabor特征描述方法。先对人脸图像进行Gabor变换, 然后用双向统计量法描述Gabor特征, 再用PCA降维, 最后使用SVM分类识别。将下采样方法、分块统计量方法、双向统计量方法三种方法进行实验的对比, 实验结果表明, 基于统计量的方法识别率方面都优于其他两种方法, 说明该方法的有效性和可行性。下一步的工作是将双向统计量的方法和其他降维方法, 如2DPCA、KPCA结合, 在保证识别率的前提下, 减少算法的时间复杂度。
参考文献
[1]D.VALENTIN, H.ABDI, A.J.O'TOOLE and G.W.COTTRELL.Connectionist models of face processing:a survey[J].Pattern Recognition, 1994, 27 (9) , 1209-1230.
[2]M.LADES, J.C.VORBRUGGEN, J.BUHMANN, etal.Distortion invariant object recognition in the dynamic link architecture[J].IEEE Transactions on Computers, 1993, 42 (31) :300-311.
[3]CHENGJUN LIU, HARRY WECHSLER.Independentcomponent analysis of Gabor features for face recognition[J].IEEETransactions on Neural Networks, 2003, 14 (4) :919-928.
[4]罗亮, 金文标, 龚勋.基于Gabor小波和支持向量机的人脸识别[J].重庆邮电大学学报 (自然科学版) , 2008, 20 (2) :230-235.
[5]SHEN LIN-LIN, JI ZHEN.Gabor wavelet selection and SVMclassification for object recognition[J].Acta Automatica Sinica, 2009, 35 (4) , 350-355
[6]龙飞, 叶学义, 李斌等.基于分块统计量的Gabor特征描述方法及人脸识别[J].模式识别与人工智能, 2006, 19 (5) :585-590.
[7]YUNFENG LI, ZONGYING OU, etal.Face recognition usingGabor features and Support Vector Machines[J].ICNC 2005, 119-122.
[8]YIXIONG LIANG, WEIGUO GONG.Gabor Features-basedclassification using SVM for face recognition[J].ISNN 2005, 118-123.
[9]XIAOMING WANG, CHANG HUANG, etal.Face recognition based on face Gabor image and SVM[J].2nd InternationalCongress on Image and Signal Processing 2009 (CISP'09) , 2009 (30) :17-19.