基本统计学知识

2025-01-29

基本统计学知识(精选8篇)

基本统计学知识 篇1

统计基本业务知识介绍

内容:

1、主要统计标准划分

2、主要统计指标解读

3、在实际工作上应注意的几个方面

一、主要统计标准划分 1.三次产业划分规定:

根据《国民经济行业分类》,国民经济划分为三次产业划分:

第一产业:A是指农、林、牧、渔业。

第二产业:是指B采矿业,C制造业,D电力、燃气及水的生产和供应业,E建筑业。工业包括B、C、D.第三产业:是指除第一、二产业以外的其他行业。第三产业包括以下15类门类:F交通运输、仓储和邮政业,G信息传输、计算机服务和软件业,H批发和零售业,I住宿和餐饮业,J金融业,K房地产业,L租赁和商务服务业,M科学研究、技术服务和地质勘查业,N水利、环境和公共设施管理业,O居民服务

和其他服务业,P教育,Q卫生、社会保障和社会福利业,R文化、体育和娱乐业,S公共管理和社会组织,T国际组织。

可分为两大部分;一是流通部门,包括交通运输、仓储及邮电通信业,批发和零售贸易、餐饮业。二是服务部门。即其它14大门类

2、基本单位的分类

单位分为法人单位、产业活动单位、个体户。梅列区第三次全国经济普查单位基本情况:全区法人单位3780个,产业活动单位4311个,个体经营户13572个。

法人单位:具备以下四个条件

第一依法成立;第二有必要的财产或经费;第三有自己的名称、组织机构和场所;第四能够独立承担民事责任;

法人单位包括企业法人、事业单位法人、机关法人、社会团体法人和其他法人。

产业活动单位:产业活动单位是法人单位下属的分支机构。例如:某某单位三明分公司等。

3、“四上企业”是如何划分的?

统计“四上”企业指规模以上工业企业,资质以上建筑业企业、房地产开发企业,限额以上批发业企业、零售业企业、住宿业企业、餐饮业企业,规模以上服务业企业。

规模以上工业企业:规模上下的划分是按照企业规模来进行统计范围划分的。不同的时期,规模上下的内涵有所不同。2011年定期报表起,规模以上的工业统计范围改为年主营业务收入在2000万元及以上的全部工业法人企业。(原来是年主营业务收入在500万元及以上)

限上批发业、零售业、住宿、餐饮业:

限上批发业是指年营业收入达到2000万元以上的批发企业。限上零售业是指年营业收入达到500万元以上的零售企业。限额以上餐饮业指年营业收入达到200万元以上的经营餐饮活动的法人企业。

限额以上住宿业:指年营业收入达到200万元以上的住宿企业。

如果一家限额以上企业,既提供餐饮服务,也提供住宿服务,统计上就按照哪一类型的服务营业收入所占比重的大小来区分。

资质以上建筑业企业:建设部门依据《建筑业企业资质管理规定》,认定的建筑业企业。建筑业企业资质分为施工总承包、专业承包和劳务分包三种资质。

资质以上房地产开发业:由建设部门依据《房地产开发企业资质管理规定》,认定的房地产开发企业,房地产开发企业的资质等级分为一级、二级、三级、四级和暂定级。

规模以上服务业:

服务业包括营利性服务业和非营利性服务业两大类。规上服务业是指营利性服务业。指覆盖G交通运输、仓储和邮政业,I信息传输、软件和信息技术服务业(除63大类外),L租赁和商务服务业,M科学研究和技术服务业,N水利、环境和公共设施管理业,O居民服务、修理和其他服务业,R文化、体育和娱乐业,K房地产业8个行业门类,年营业收入超过1000万或从业人员超过50人的服务业企业。(其中I、L、O、R这4个门类属于其它营利性服务业,即纳入第三产业其它营利性服务业核算的指标,O和R类年主营业务收入达到500万元以上或50人以上就可以了)。

二、主要统计指标解读

(一)地区生产总值(GDP):是一个国家或地区的所有常住单位在一定时期内所生产的全部最终产品和服务的价值总和,是反映经济总体状况最重要的指标,是宏观经济决策的重要依据。举个例子如下:

一季度实现地区生产总值41.73亿元,同比增长7.5%,居全市第7位,其中第一产业增加值1.31亿元,第二产业增加值22.84亿元,增长7.8%,第三产业增加值17.58亿元,增长7.2%,三次产业对GDP增长的贡献率分别为1.8%、58.7%、39.5%。具体核算GDP的方法有三种。即生产法、收入法、支出法。三个产业增加值总和就是地区生产总值。增加值按收入法计算是指:劳动者报酬,生产税净额,固定资产折旧,营业盈余。

(二)农业总产值

包括农、林、牧、渔业的产值,反映一定时期内农林牧渔业生产总规模和总成果。根据农业生产特点,农业总产值核算采用“产品法”,即用产品产量*价格得出各种产品的产值,然后小类、中类、大类、各业逐级汇总得出。近年来,国家统计局开始探索使用遥感技术统计农产品产量。林业和渔业由部门统计。目前,我区二季度农业总产值2.35亿,增幅5.8%,居全市第三名。今年开展第三次全国农业普查,逢6年份开展,10年一次,目前我区已成立领导小组,由副区长为组长,农业普查涉及两个镇,三个街道,今年要采取遥感技术统计农产品产量,用PDA手持电子终端设备进行采集,应该说今年普查工作难度比较大。

(三)规上工业增加值、产销率(或工业经济效益)

工业增加值是宏观经济核算指标,是GDP的重要组成部分,在实际工作中,工业增加值分两部分统计,分别是规模以上工业增加值(占80%)和规模以下工业增加值(占20%),月度工业增加值=总和(各行业工业总产值*该行业上工业增加值率)

增加值率表(240个工业企业行业都有对应的增加率),高的达99.12%(烟叶复烤),低的才10.17%(如铁合金冶炼)个别镇街道会问:我镇街道上报的工业产值很高,为什么核算的规上工业增加值为什么就这么一点点,是不是你们统计部门搞错了?所以说规上工业增加值的大小是和你上报的工业企业的增加值率的高低引起的。如果你辖区的工业企业的行业增加值率高的话,增加值也就高了。因此建议乡镇街道新增四上企业时要注意多挖掘增加值率高的企业。例如烟叶99.12%,你上报多少产值,增加值就多少,还有采矿业53.71%、制酒业39.72%等。

产销率、工业经济效益指数、全社会工业用电量:虽然没有进行直接的考核,但要求与产值相匹配,有可能产值报的老高老高,而用电量却一点点,还有产值高高的,产品产量却没跟上等等都不符合正常逻辑。在这里要求增长速度不一定要完全同步,但增长趋势方向要一致。否则核算增加值是要参考给予调整的,产值 相当于白报。

(四)固定资产投资: 2016年投资统计方法制度改革

今年国家对固定资产投资的统计方法进行了制度改革,主要有以下几个方面:

1、计划总投资5000万元及以上项目纳入“一套表”调查范围,通过法人单位和投资项目双入库审核管理,调查对象通过国家“一套表”平台直接报送数据。

2、计划总投资500-5000万投资项目,根据福建省统计局的要求,实行投资项目入库管理并联网直报,同时继续采用和利时上报方式开展,也就是说两种方式都要同时进行,联网和纸质报表都不能少,并且两边数字要保持一致。

3、数据发布和统计起点不变。保留建设项目计划总投资500万元统计起点和数据的发布起点不变,增加5000万元投资数据分组。

4、建立非金融资产投资调查制度。每半年开展一次财务支出法非金融资产投资调查,调查对象是辖区内规模以上工业、有资质的建筑业、限额以上批发和零售业、限额以上住宿和餐饮业、房地产开发经营业、规模以上服务业和其他有5000万元以上在建项目的法人单位。既为核算GDP提供依据,也为投资统计进一

步改革创造条件。项目入库申请

固投数字离不开项目个数的支持,加强项目储备也是固投工作的重点。通过今年以来的观察,特别是7月份之后,国家、省局对项目“入库”关比以往更加严格。

1、计划总投资5000万元及以上项目的入库申请。因为 5000万元及以上项目要依托于法人单位纳入“一套表”才能联网直报,所以要先判断该项目业主单位是否在“一套表”内。

若该项目的法人单位已经在“一套表”内,则需要以下材料:

1、项目主要建设内容;

2、与施工单位签订的施工合同;

3、项目现场照片;

4、项目立项审批、核准或备案文件,若是前年或去年的备案文件,需要企业说明。按要求,每月13日下班前需将项目申请表上报于市统计局,故各乡镇街道务必于12日前收集好材料并填写新增项目信息参考表上报区统计局。

若该项目的法人单位尚未入库,则需要以下材料:

1、项目主要建设内容;

2、与施工单位签订的施工合同;

3、项目现场照片;

4、项目立项审批、核准或备案文件,若是前年或去年的备案文件,需要企业说明;

5、法人基本情况表(MLK101-1表);

6、法人单位的工商执照、组织机构代码证(需盖公章的复印件),若是三证合一,只需提供一份。按要求,每月25日下班前需上报于市统计局,故各乡镇街道务必于24日前将材料收集并填写

新增项目信息参考表上报区统计局。

2、计划总投资500-5000万元项目的入库申请。5000万元以下项目申报入库相对简单,因为也需要联网 直报,故该法人单位一定要在单位基本名录库内。

若该项目的法人单位已经在名录库内,则只需项目立项审批、核准或备案文件;若该项目的法人单位不在名录库内,则需要法人基本情况表、法人工商执照、项目立项审批、核准或备案文件。按要求,每月23日下班前需将项目申请表上报于市统计局,故各乡镇街道务必于22日前收集好材料并填写新增项目信息参考表上报区统计局。

注意事项(上级部门对上报项目或数据验收不通过的情况)

1、企业上报数据时,应当尽量避免当月投资量过大的情况。特别是当月投资超过5000万,或者是当月投资超过计划总投资的二分之一,若出现这种情况,国家、省局将重点关注该项目。此外房地产项目当月投资量也应不超过亿元。

2、企业上报数据时,应当尽量避免工期过短的情况。三月份我区就以及出现了因为工期过短而被国家核减掉3个项目的情况。按照一般工程建设规律,在建工期基本上都是半年以上。

(五)社会消费品零售总额

社会消费品零售总额指批发和零售业、住宿和餐饮业以及其它行业直接售给城乡居民和社会集团的消费品零售额。是一个合

成指标,即本指标由批发业的零售额、零售业零售额、住宿和餐饮业零售额、其他行业零售额四个部分构成。全社会消费品零售额包括限上和限下。对限上实施全面调查(占55%),对限下实施抽样调查(占45%),限上各镇街道采取调度,但限下关注的比较少,限下数据不容忽视,限下的比增也直接影响全社会消费品零售额,我区抽样调查62家,限下由调查队上报情况反馈数据。

国家、省级重点关注且进行抽查企业的报表数据

1、每家企业均增长20%以上;

2、当月同比增长2倍以上(省局每月都会进行标记,要求企业再次核实数据,同时登录上网在省局专业人员预留的位置填写详细说明);

3、批发企业零售额占比超过40%(要求同上);

4、同一区县或同一街道多家企业增幅在27%-30%区间内,或者是更靠近30%的29.7-29.99%(因系统设置要求企业当月同比增幅超过30%的需核实数据或者详细填写超界说明);

5、月报的销售额与季报财务状况表中的营业收入不匹配(报表之间有表间审核关系,月报表的销售额为含税数据,财务表的营业收入为其对应的不含税数据),应注意上报数据的合理性、匹配性和协调性。

6、数据进行修改的,特别是调整成比原数据更大的(企业如果修改数据,系统会留下数据修改痕迹,国家和省局可以直接

搜索出来)。

7、报表下方要求填写在岗统计人员的电话,此电话应要求统计员认真填写,有变动的及时修改,国家会进行电话抽查核实。新增限上批零住餐企业

1.新增企业申报时间和材料

(1)、申报时间:上四季度及今年新开业企业可每月月度进行新增(新企业要求申报时必须已达到限额标准);老企业则通常在每年10月和11月左右有2次申报机会。

(2)、申报材料:

所有单位均需提供材料包括:审核登记表、基本情况表、营业执照复印件、税务登记证复印件和组织机构代码证复印件,已经实行三证合一的单位,只需提供三证合一证照复印件。

批发和零售业法人单位还需提供:截至申报期最近1个月加盖单位公章(或财务专用章)的资产负债表复印件、利润表复印件(若无月度表,则提供最近1个季度的报表复印件)、打印并加盖税务部门或企业公章的企业增值税纳税申报表及附列资料(表1)、最近1个季度的《重要商品购进、销售和库存》(E204-2表)(仅由所经营商品的品种在本表商品目录内的企业提供)。

批发和零售业产业活动单位还需提供:最近连续3个月的 《批发和零售业产业活动单位(个体经营户)商品销售和库存》(E204-3表)。

住宿和餐饮业法人单位还需提供:截至申报期最近1个月加

盖单位公章(或财务专用章)的资产负债表复印件,利润表复印件(若无月度表,则提供最近1个季度的报表复印件),打印并加盖税务部门或企业公章的企业营业税纳税申报表。

住宿和餐饮业产业活动单位还需提供:最近连续3个月的《住宿和餐饮业产业活动单位(个体经营户)商品销售和库存》(S204-3表)。

2.申报注意事项

(1)、每张申报表都必须盖红章;

(2)、法人单位基本情况表需用最新下发的表,且不可涂改;(3)、开业(成立)时间并非营业执照上的成立时间,必须填写有销售额的月份,一旦确定开业时间,从开业时间开始要求必须有数字,否则需每月进行上报说明。

(4)、批发企业包含进出口企业,因其税收有免税退税,可从相关部门了解掌握情况,挖掘可入统入库企业。

(5)、今省级对申报新增电商企业控制非常严格,要求提供该企业的销售网址以及每月成交额占比较大的商品的单价和成交量,省局专业人员会登录提供的网址进行核算核实。

(6)、今准备退出的企业,后期数据要加强监控。去年我区退出的企业有3家要求留基数,此3家去年全年销售额累计达到1.72亿元,市里今年共计背基数达30亿元左右。

(六)建筑业

第二产业的增加值受建筑业的影响,2015年全区地区生总值226.32亿,增长5.8%,而建筑业增加值增速为-0.7%,拉全区的后腿。应密切关注建筑业企业,多发展企业落地梅列,如区外企业注册在区内等。

(七)规上服务业

全市规上服务业210家,我区规模以上服务业共35家,其中,重点营利性服务业13家。新增入库标准:营业收入1000万以上或从业人员50人以上(居民服务、修理和其他服务业及文化、体育和娱乐业入统标准为营业收入500万或从业人员50人以上)。时间:新成立企业每月月底,老企业上规模10月底。1-2月、1-5月、1-9月、1-11月重点营利性服务业营业收入增幅用于计算季度GDP。我区重点营利性服务业13家,占全市20%,对全市影响显著,增幅任务较重。建议各部门在协调报送数据时,避免直接按增幅、总量安排,如总量为整数,增幅30.0%、29.99%等。注意报表指标的匹配性,如,营业收入与营业税金及附加、增值税反向变动;从业人员平均人数与应付职工薪酬不匹配等等。注意指标增长的连贯性,避免大起大落、年底翘尾现象。

(八)农民人均可支配收入和城镇居民可支配收入

是指城镇居民和农民家庭从各种渠道得到的家庭总收入扣除交纳的个人所得税和个人交纳的各项社会保障支出之后,按照居民家庭人口平均的收入水平。)具体定义就不说了。即居民家庭可以用来自由支配的人均收入水平。收入包括四大收入(工资性收

入、经营净收入、财产性收入、转移性收入)我区涉及3个街道、2个镇,共150户。每个点10户有一个辅助调查员负责帐本的收集、编码等。

(九)居民消费价格指数(CPI)

居民消费价格指数(英文缩写是CPI)是反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格变动趋势和程度的相对数,反映居民家庭购买的消费品及服务价格水平的变动情况。一般来说,CPI的高低直接影响着国家的宏观经济调控措施的出台与力度,如央行是否调息、是否调整存款准备金率等。同时,CPI的高低也间接影响资本市场(如股票市场)的变化。

具体分为食品、烟酒及用品、衣着、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化用品及服务、居住等八大类。

为什么PPI指数的增幅与大众的感受不同?一是个别和整体的差异,CPI是一个加权计算后的综合平均数,其中既包含有上涨的品种,也包括了下跌的品种,如果用上涨的具体商品或服务价格变动幅度与公布的CPI总水平相比,就会觉得CPI低估了。二是对比基期的差异。CPI主要公布的是同比、环比指数,基期是上年同月、上月。普

通居民感受价格变化,对比的基期可能是3、5年前,甚至10年前。如果把居民消费价格放在比较长的时间内观察,涨幅是比较明显的。

(十)正统网(简称ESS):寓意“正确统计”,谐音“政府统计”。又名福建省电子商务与服务外包统计公共服务平台,是国内首个官方电子商务与服务外包统计公共服务平台,于2014年4月30日开通。

介绍创办背景:电子商务和服务外包产业以前所未有的速度在全球迅猛发展,但由于这两个产业活动具有涉及领域广、经营方式灵活、产业发展零散不规范等特点,这两个产业统计问题成为统计难题。

建设正统网,开展电子商务与服务外包统计,及时掌握产业发展动态,为政府宏观管理及企业经营决策提供参考。

目前,商务局对于电商企业资金扶持需的条件之一是电商企业必须入驻正统网。鼓励更多的企业入驻正统网。

三、实际工作中应注意的几个方面

1、做好入库申报工作。加强新增企业入库申报,是我区做大做强的关键。俗话说有鸡才可以生蛋。做好入库工作掌握几点:

一是摸底筛查。

二是理清申报条件及材料。

三是把握时间节点。新企业每月25日前上报区统计局录入名录库上报,旧企业年底才能申请。

2、加强企业沟通工作。一是数据调度方面的沟通。二是配合上级检查方面的沟通。

3、报表上报的几个注意事项。一是把握上报时间。二是做好审核说明。

三是避免用一个IP地址上报好几家企业。后台筛选得出来你是否用同个IP地址上报的,个别乡镇街道还是存在,这也是一个重大隐患。

四是认真做好预报工作。每月25日前上报,这对于全区数字调度是一个很好的方法。

基本统计学知识 篇2

知识发现 (或数据库知识发现) 是一门新兴的边缘学科, 它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统各学科的成果, 将对生产中积累的大量数据进行数据挖掘, 总结出蕴藏在其中的规律, 形成对企业有益的知识和规划, 为过程监控和管理提供素材。统计学可定义为数据收集, 组织, 分析以及呈现的学科, 它的目的是探索数据内在的数量和规律性, 以达到对客观事物的科学认识。随着知识经济和网络时代的到来, 无论是自然科学领域, 社会科学领域的研究, 还是国家宏观管理和企业生产经营管理, 甚至人们的日常生活, 信息需求量日益增多, 信息处理技术更加复杂, 作为信息技术支柱的统计方法越来越被广泛应用于各个领域。

2 知识发现和统计学的异同

2.1 相同点

知识发现和统计学都包括如下几个组成部分:

* 管理和分析数据的数据处理技术

* 对数据收集问题的理解

* 对统计学推导问题的理解

* 相关的数学知识

* 对实际数据分析的领悟能力

* 应用领域的洞察力

* 数据分析自动化

不同的统计学家会分别赋予以上7点不同的重要性。数据挖掘者和机器学习者都会对上述几个部分进行不同程度的强调。但是二者都认为数据分析必须实现自动化才行, 如果一个人可以利用用一种工具去处理大型的数据集, 那么他可以用同样的工具去处理大小适中的数据集, 这应该是可行的。正是因为这种思想才导致产生开发一套统计学专家系统的想法。但是我们并不期望当统计学专家系统都失效的时候数据挖掘者却可以很快成功。

2.2 不同点

1) 知识背景的不同。

知识发现和统计学有着不同的知识背景。他们都要处理并解决在数据收集和分析中存在着的各种问题。知识发现的历史起源并不悠久, 它是在人工智能、机器学习、信息系统管理以及数据库方法论的背景下产生的。知识发现的特点就是它的工作对象常常是大型数据集即我们必须收集海量的原始数据并对这些数据进行选择和预处理, 经过数据挖掘得出结果表达和解释并最终形成知识。与知识发现相比统计学却有着比较悠久的历史, 由于它长期的发展从而产生了许许多多的概率模型, 当我们处理一些相对较小的数据集时, 我们常常借助于统计学工具。无论是知识发现还是统计学都会用到计算工具, 然而他们所使用的计算工具却经常不同。知识发现或许现在已经进入了一个缓慢而且令人反思的阶段, 此时它急切的想吸取来自于统计学的数据分析经验。前人有句话:“统计是最成功的信息科学。那些忽略了统计学的人将受到惩罚, 他们自己将在实际中重新发现适合自己的统计方法。”[1]

当代的许多统计学家都是直接从数学转到统计学实践中去的, 我们要学习并掌握很多统计学工具, 如果照这样发展下去, 常常我们会慢慢地走进一条死胡同。大型数据库的处理技术使得我们不需要做任何事情, 这个观点还还将需要很长的时间去获得人们广泛的认可, 我们需要技术和工具去操作大型数据集, 但是仅仅依靠他们还远远不够。

2) 预期的不同。

事实上知识发现是在人工智能的背景下产生的。同样存在一些诱惑使得我们去做出一些极不寻常的承诺。人工智能这个术语听起来声誉好像不是很好, 这里有一位该领域的先驱者回忆的一段话:为人工智能而悲叹, 长期债券捆绑着一长串的不切实际的预期, 然而收益却少得可怜, 真是让人可笑。对于债券来说, 许多应用软件都不起作用, 最好的理由是:它们是一个十分棘手的问题而且一直都会是。

本质上说, 在很多人工智能小区我们对人工智能的能力和潜能过分地估计了, 他们并不象被厂商宣传的那样, 而恰好相反, 在很多情况下它们常常会失效, 但是我们要记住一点, 那就是常常不是科学家去宣传他们的研究成果是怎么的无所不能。感觉是一个障碍, 在有些情况下计算机和管理文化都是很有效的, 然而他们也是得到正确的规范和传述的主要问题所在, 可以说编制出一个符合标准的程序本质上就是一个很容易被人们忽视的的错误。这些评论和知识发现有点关系。以所谓的魔法来骗取人们的信任并以此为生在当今社会仍然是可能的, 至今还有一些管理人员仍相信魔法决定论, 他们仍然对诀窍会使问题得到好转深信不疑。

从可行的自动化方法到数据分析我们仍然需要很长的一段路要走, 无论是针对小型数据集还是大型数据集而言都是这样的。对于一个称职而且很专业的数据分析家而言, 要想编制出一套数据分析软件为以后的研究工作提供启发性的数据分析工具还将需要相当多的努力才行。现在在计算工作中的许多能够或者应该自动化的部分都还没有实现自动化, 或者是使用当前已有的软件并不能够输出我们所期望的结果。当今作为任何自动化系统核心的数据分析软件在很多方面都存在着诸多严重的缺陷, 我们对数据分析程序还抱什么期望呢?

3) 方法论的不同。

直到近期, 为占主导地位的商业数据建立预测模型的数据挖掘工具只是些不同版本得决策树。有的使用对数回归, 有的使用古典回归方法, 更有甚者使用神经网络结构模型。广义上说, 数据挖掘者很可能使用这个或那个决策树, 并在遇到问题的时候把他们当作为首要工具。然而那些统计学领域的工作者所使用的工具却十分丰富, 或许不包括决策树。当遇处理小型数据集的时候, 使用决策树的效果不是很好, 有一个因素就是决策树只利用了顺序性和连续性的的优点, 顺序关系和连续性表明了变量的连续性。当有足够多的数据以至于我们可以抛弃其中一部分信息的时候, 信息的部分丢失的后果不一定是很严重的。决策树的优点在于它对关系模式的约束很少。神经网络结构模型为我们提供了同样的灵活性, 我们可以从主流的统计模型中了解到。

用户必须对可以得到的大范围的神经网络作出选择, 同时当我们在对此类神经网络作出选择的时候, 有一些有限的经验是可以借鉴的。当前, 许多统计学家都喜欢停留在那些他们能够深入理解的, 能用图表 (功能图) 或者公式形式表示输出结果的统计工具上。

通过前人的努力, 我们拥有了一套新的方法论, 它建立在决策树的基础的。至少基于决策树的方法论能够为我们提供一个很有用的预测工具, 当研究工作一开始就遇到大型数据集, 而我们不能够用其它结构表示的情况下, 我们就用这种新方法。它们可能很快就可以突出为了建立预测模型的重要数据主要特点。当预测模型可以用图表或者是公式形式表达的时候, 它们向我们提出了一个很有用的线索。

3 数据库知识发现

3.1 知识发现的组成

在1996年的数据库知识发现国际会议上, 作出了对知识发现的描述:指从数据库中获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中, 数据是一系列事实的集合, 模式是指用语言L来表示的一个表达式E, 它可用来描述数据集的特性, E所描述的数据是集合F的一个子集FE。过程是在KDD中包含的步骤, 如数据的预处理、模式搜索、知识表示及知识评价等, 非平凡是指它已经超越了一般封闭形式的数量计算, 而将包括对结构、模式和参数的搜索。

* 要先决定如何产生假设, 是让数据挖掘系统为用户产生假设, 还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘, 后一种称为验证型的数据挖掘。

* 选择合适的工具。

* 挖掘知识的操作。

* 证实发现的知识。

结果表达和解释 根据最终用户的决策目的对提取的信息进行分析, 把最有价值的信息区分出来, 并且通过决策支持工具提交给决策者, 因此这一步骤任务不仅是把结果表达出来, 还要对信息进行过滤处理, 如果不能令决策者满意, 需要重复以上数据挖掘过程。

3.2 数据库的优点和缺点

数据库最大优点就是:我们所采集到的数据结合在一起就组成了数据库, 即一个数据库资源。研究者在构建一个要用到所有数据的研究项目的时候就可以使用数据库。数据最大缺点就是:此类数据库可能会存在一些甚至更多的不足, 例如:他们可能有一些严重的错误;从数据采集或者是在预处理一开始就有偏差, 隐藏得的关键信息或许也经丢失了;有关关键变量的信息也丢失;高质量的数据信息里面参杂着一些劣质信息, 而这些劣质信息只有很少量的线索让研究者去把它们从高质量的信息中区分出来。这里我将提供一些例子向大家阐明这几点。

3.3 数据扭曲

即使是最初收集的数据的质量是可以接受的, 但是研究成果在发表过程中可能会引起数据扭曲。当我们把那些来自于已经发表的文章中的也经处理过的数据收集起来并放到数据库中去, 在这种情况下也同样可能发生数据扭曲。

而许多研究者在介绍其研究成果的却没有做到这点, 他们所给出的点都在一条直线上, 而没有任何偏差。因此当一个人看到象下表给出的数字的时候, 对他们来说, 要想知道它们是不是可以比较的确实很有难度。在A省的实验中使用了重对数模型, 而在B省的试验中使用的则是一个假设的概率模型。它受到和图2相类似的偏差的影响。

一个明显的数据库构建的例子就是很多不负责任的研究人员得出有关99%死亡率的相关信息, 在多数情况下, 回头去找原始资料是行不通的。要明确一点, 鉴于数据分析的不可靠性, 数据库最好是应该存储原始的数据, 并不是所估计的99%的死亡率, 或者是来自其它数据分析的结果。

许多国家的环保部门都在努力的收集有关物种数量和种群分布信息的数据。数据在种类和数量上面各不相同, 有的是为分类学目的偶然收集的, 而有的是来自于经过仔细挑选的地点的。使用统计学样本方法的数据是用来评估在一个广阔区域内的生物多样性, 以及对一些或者是所有有关消失物种的数据符合哪种模型进行预测。这些反映了不同类型的观测性数据和多种多样的试验标准之间的显著差异。不同类型的数据不可能具有相同的价值和相同的数量, 有些数据最后看来对于特定的目的是完全没有一点用处的。

4 结论

当然对知识发现和主流的统计学分析还存在着许多其它的观点和一些共同关心的问题, 这些我们都可以在有关统计学回归和分类模型的课程上了解到。变量的选择在数据挖掘中是一个问题, 它或许比在主流统计学分析中更棘手。由于各种变量的使用情况不同, 混淆变量的作用对于变量的阐述是个很严重的问题。

参考文献

[1][美]Mehmed Kantardzic著.闪四清, 陈茵等译.数据挖掘———概念、模型、方法和算法.[M].清华大学出版社, 北京:2003, 8.

[2]陈文伟, 黄金才.数据仓库与数据挖掘[M].人民邮电出版社, 北京:2004, 1.

[3][加Jiawei Han、Micheline Kamber著.范明译.数据挖掘概念与技术[M].机械工业出版社, 北京:2001, 8 (7) 周复恭、倪加勋.应用数理统计学[M].中国人民大学出版社.北京:1989.

基本统计学知识 篇3

统计学在非统计学的各专业应用非常广泛。它不仅是数学工作者研究现实世界复杂问题的基本科研手段,也是其他各行各业工作者们研究各自领域工作的重要方法。要保证学生们通过对概率统计课程的专业学习后,能够对各类问题正确地选择并使用统计方法。实际上在很多时候同学们通过学习或借鉴文献中的做法都可以正确地选择统计方法,但是在接下来的具体处理过程中就会犯下错误,即没能正确理解并使用该统计方法。而犯上述错误的真正根源在于学生没用熟练掌握概率的相关基本知识点。

实际上,统计方法在应用于具体问题的时候,需要许多环节,其中最重要的是需要学生动手来推算该具体问题中涉及到的分布密度——特别是联合密度、边际密度与条件密度,演算方法应用中的变量变换及相应的分布密度,计算变量的数字特征,这些都是统计方法应用的基本环节,如果计算推演这一环节没有经过扎实地训练,那么在这一环节上经常会出错,统计结论就可能是错的。

上面的错误归结起来并不是同学的统计学没有学好,而是他(她)的概率论基本训练没有到位,因此有必要突出强调应用统计类课程所需要的重要知识点,在讲授概率基础课程时候加以特别强化训练。最重要的知识点主要有:

1.列出基于已知分布密度推导各种特殊数据类型的广义概率密度的相应方法。在实践中最常用的数据类型主要有:一元连续型、多元连续型(常见且基本),一元离散型、多元离散型(常见且基本),同时具有离散型与连续型分量的多元数据(常见但不基本),右删失数据(工程与生物领域常见但不基本)、左截断数据(不常用又不基本),具有缺失分量的多元数据(常见但不基本),都可以给出相应的方法求广义概率密度。

2.概率基本公式应用与条件分布的演算。教会学生正确地写出三大概率基本公式所需的各个要素,特别是关于条件概率及其密度的演算。重中之重有两处:一是会求离散变量关于连续变量的广义条件密度(十分常用),二是会利用广义条件密度及广义边际密度求离散变量与连续变量的广义联合密度(十分常用)。

3.计算条件期望、条件方差等条件化的数字特征(包括期望、方差、协方差、矩母函数、特征函数、概率母函数等),以及数值特征之间的相互关系。这些计算都是以计算条件分布为基础的,要让学生知道条件分布密度也可以对应到类似于数学期望等数字特征,在该场合下即被叫做条件数字特征;要让同学们知道这些数学期望、方差等与绝对数字特征的区别,不要在计算时混淆。

综上所述,对于上面提到的三个重要知识点,教师在讲授概率基础课程时候务必加以特别强化训练。然而相对于统计问题来说,概率的基本知识内容有些乏味、死板。如何提高学生学习概率基本知识的兴趣,进而正确灵活地使用统计方法成为整个教学过程的关键。经过多年的授课经验,我们总结认为除正常教学外,在对每一个知识点进行严格地有针对化地训练的同时,争取在每个环节的练习上都要结合实际的应用统计问题,使得学生可以对于概率知识点活学活用,概念不止停留在书本上,要与现实世界的各种问题相联系。这样才能保证学生在应对实际问题时,不仅能通过学习或借鉴文献中的做法正确地选择统计方法,而且在接下来的具体处理过程中能正确理解并使用该统计方法,达到利用概率统计专业知识分析解决实际问题的目标。

生物论文统计学知识 篇4

专业:10级生物技术2班

姓名:乾

学号:

目 录

中文摘要 1

Abstra 2

1 理论依据 2

2 实验设计 3

2.1实验目的 3

2.2实验原理 3

2.3仪器试剂 4

2.5实验结果 5

2.6试验数据 5

3 统计分析 5

3.1分析 5

3.2结果 6

4 结束语 6

5 参考文献 7

中文摘要

统计学是把数学的语言引入具体的科学研究领域,将所研究的问题抽象为数学问题的过程,是搜集、分析和解释数据的一门科学。

2014统计学和统计发基础知识 篇5

统计学和统计法基础知识试卷

一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。本题共40分,每小题1分。)

1.某公司根据随机抽取的100名员工年龄的调查数据,计算得出了公司全部员工的平均年龄,这种分析数据的方法属于()。A.描述统计 B.推断统计 C.类比统计 D.相关分析 2.根据产品质量将其分为1级品、2级品和3级品,此数据是()。A.实验数据 B.分类数据 C.顺序数据 D.定量数据

3.《中国统计年鉴》中我国历年的GDP数据是()。A.次级数据 B.原始数据 C.分类数据 D.顺序数据 4.某化妆品公司为了解消费者对最新产品的认可度,在商场门口拦截女性消费者进行调查。这种抽样调查方式属于()。A.简单随机抽样 B.分层抽样 C.系统抽样 D.非概率抽样

5.为了解小微企业融资难的情况,课题组选择浙江省义乌市的小微企业作为调查对象,于2013年12月底对义乌市10000家小微企业进行了调查。从调查时间和调查范围看,本次调查属于()。

A.一次性全面调查 B.一次性非全面调查 C.经常性全面调查 D.经常性非全面调查

6.描述GDP增长率和失业率之间关系的合适图形是()。A.散点图 B.折线图 C.条形图 D.直方图 7.调查了某企业10名员工上半年的出勤情况:其中有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。则缺勤天数的()。A.中位数为2 B.中位数为2.5 C.中位数为3 D.众数为4

10.关于样本比例p正确的说法是()。

A.随着样本容量的增大,p的方差愈来愈小 B.随着样本容量的增大,p的方差愈来愈大 C.随着样本容量的增大,p的方差不会发生改变

D.随着样本容量的增大,p的方差在某些区间会变大,在某些区间会变小 11.点估计是用样本统计量的()来近似相应的总体参数。A.实现值 B.估计值 C.近似值 D.精确值

12.区间估计是包括样本统计量在内的一个区间,该区间通常由样本统计量加减()得到。A.标准差 B.估计标准误差 C.方差 D.估计方差 13.“一致性”是统计学家评价估计量的一个标准,它是指()。A.估计量的方差尽可能小 B.估计量抽样分布的期望值等于被估计的总体参数

C.随着样本量的增大,点估计量的值越来越接近被估计总体的参数 D.点估计量的值与被估参数的值相等 14.下列关于样本量错误的说法是()。

A.它表明一个样本所包含的单位数 B.样本量的大小会影响抽样效果 C.样本量不少于25个样本称为大样本 D.样本量的大小与抽样方法有关

15.为了估计总体比例π,已经求得其95%的置信区间为(82%,88%),下列说法中错误的是()。A.点估计值为85% B.此次估计的误差范围是3%

C.用该方法估计的可靠程度95% D.总体比例落在这个置信区间的概率为95%

17.对于一个月度时间数列,适宜进行()项移动平均来分析序列的长期趋势。A.3 B.4 C.8 D.12 18.一次指数平滑法适用于()的序列。

A.仅包含长期趋势 B.仅包含季节变动 C.仅包含循环变动 D.较为平稳 19.下列指数中,属于质量指数的是()。

A.职工人数指数 B.总成本指数 C.单位成本指数D.产量指数 20.假定销售量的拉氏指数为110%,则()。

A.该指数通常以基期销售价格作为权数,说明销售量综合提高了10% B.该指数通常以报告期销售价格作为权数,说明销售量综合提高了10% C.该指数通常以基期销售量作为权数,说明销售量综合提高了10% D.该指数通常以报告期销售量作为权数,说明销售量综合提高了10% 21.2014年5月份,全国居民消费价格总水平同比上涨2.5%,货币购买力将()。A.上升 B.下降 C.持平D.无法确定

23.广义的统计法包含了所有规范统计活动的()。A.统计法律、法规、规章及统计调查制度 B.统计法律、法规、规章及规范性文件 C.统计法律、法规、规章及统计标准 D.统计法律、法规、规章及统计调查项目 24.《中华人民共和国统计法实施细则》不得与()。

A.《中华人民共和国统计法》相抵触 B.《全国经济普查条例》相抵触 C.《统计违法违纪行为处分规定》相抵触 D.《北京市统计管理条例》相抵触

25.为了保障统计工作的统一性,《统计法》规定,制定统计调查项目应当同时制定该项目的()。A.统计调查标准 B.统计调查制度 C.统计调查表式 D.统计调查方法 26.目前,国际上统计体制的两种基本形式是()。

A.集中型和分散型 B.统一型和分级型 C.独立型和隶属型 D.中央型和部门型 27.根据《统计法》规定,县级以上地方人民政府设立()。

A.统计工作岗位 B.统计机构 C.综合的统计机构 D.独立的统计机构 28.《统计法》中所说的统计调查,主要是指对()。

A原始统计资料的收集 B加工过的统计资料的收集 C统计调查对象的统计资料的收集 D统计部门的统计资料的收集 29.根据《统计法》规定,我国统计调查方法应当以()。

A.周期性普查为主体 B.经常性抽样调查为主体 C.全面调查和重点调查为主体 D.行政记录为主体 30.作为行政执法活动的统计执法检查,具有()。A.严肃性、权威性、灵活性 B.严肃性、灵活性、强制性 C.严肃性、权威性、强制性D.灵活性、权威性、强制性

31.坚持统计行政处罚公正、公开原则,最重要和最关键的是()。

A.建立完善回避制度 B.正确行使统计行政自由裁量权 C.建立健全听证制度 D.建立健全办案公开制度 32.统计法的调整对象是统计部门在管理统计工作、进行统计活动中的()。A.统计调查对象 B.社会关系 C.统计调查项目 D.统计机构

33.由省、自治区、直辖市人民代表大会常务委员会制定的规范本行政区域政府统计工

作的规范性文件属于()。A.统计法律 B.统计行政法规 C.统计行政规章 D.地方性统计法规

34.根据《统计法》规定,县级以上人民政府统计机构和有关部门统计调查取得的统计 资料()。

A.应当予以保密,不得对外提供 B.应当予以保密,不得对外公开 C.除依法应当保密的外,应当及时公开 D.除依法应当保密的外,可以有偿提供

35.根据《统计法》规定,重大国情国力普查所需经费,由()。A.国务院负担 B.各级人民政府负担 C.地方各级人民政府负担 D.国务院和地方人民政府共同负担 36.根据《统计法》规定,统计人员独立行使的职权是()。

A.统计调查、统计报告、统计监督 B.统计调查、统计报告、统计检查 C.统计调查、统计发布、统计监督 D.统计咨询、统计报告、统计执法

37.统计调查项目的审批机关在审批统计调查项目时,应当审查该调查项目的()。

A合法性、可行性、科学性 B.必要性、合法性、科学性 C.必要性、可行性、科学性 D.必要性、可行性、合法性 38.2009年修订后的《统计法》新增加的章节是()。

A.统计调查管理 B.统计资料管理 C.统计机构管理 D.监督检查 39.在统计违法案件查处程序中,处罚决定的执行属于()。A.调查阶段 B.处理阶段 C.审理阶段 D.结案阶段 40.《统计法》中规定的通报的法律责任措施其性质属于()。A.执行罚 B.财产罚 C.人身罚 D.申诫罚

二、多项选择题(以下每小题至少有两项正确答案,每选对一项得0.5分,本题共30分,每小题2分。)41.统计表的主要组成部分包括()。A.表头 B.行标题 C.列标题 D.分组频数 E.数字资料 42.在抽样推断中,以下说法正确的是()。

A.参数是一个随机变量 B统计量是唯一确定的量 C.参数是一个确定的量 D统计量是一个随机变量E.参数和统计量都是随机变量

43.抽样分布()。A.是由样本统计量所形成的概率分布 B.仅仅是一种理论分布 C.是一种经验分布 D.是推断总体参数的理论基础 E.与总体分布是完全相同的 44.假设总体中有5个个体单位,从中随机抽取两个进行调查,则()。

A.采用重置抽样,可以组成25个不同的样本 B.采用不重置抽样,可以组成25个不同的样本 C.采用重置抽样,可以组成10个不同的样本 D.采用不重置抽样,可以组成10个不同的样本 E.采用重置抽样与不重置抽样,可以组成的样本数相同

45.使用同一组样本根据正态分布估计总体均值时,如果将置信度由95%调整为90%,则()。

A.2/z将增大 B.2/z将减小 C.样本均值保持不变 D.置信区间宽度减小 E.置信区间宽度增加 46.根据最小二乘法拟合的趋势回归方程为:Tt= 112.67+0.698t,R2=0.944,说明()。

A.该回归方程的拟合效果较好 B.该回归方程的拟合效果较差 C.该方程对变量的解释程度为94.4% D.时间每增加一个单位,T增加0.698个单位 E.时间每增加一个单位,T平均增加0.698个单位 47.利用移动平均法分析长期趋势时,该方法()。

A.计算简便B.充分利用了时间数列的全部数据信息 C.没有充分利用时间数列的全部数据信息 D.对参与运算的N个数据采用等权的方法处理 E.对时间数列由近及远采用逐步衰减的加权方法处理

48.通货膨胀率()。A.可以反映通货膨胀状况 B.反映货币购买力变动 C.反映对职工实际工资的影响 D.基期居民消费价格指数基期居民消费价格指数数报告期居民消费价格指 E.数基期工业品出厂价格指价格指数指数-基期工业品出厂报告期工业品出厂价格 49.在计算股价平均数和股票价格指数时,所选择的股票必须具有()。A.代表性 B.随机性 C.相似性 D.公平性 E.敏感性 50.统计法的作用主要表现为()。

A.有效地、科学地组织统计工作 B.保障统计资料的真实性、准确性 C.保障统计资料的完整性、及时性 D.推进统计工作的现代化进程 E.对统计违法行为予以查处 51.我国《统计法》规定设立的政府统计机构分为()。

A.政府综合统计机构 B.县级以上地方各级人民政府统计机构 C.部门统计机构、D.乡镇人民政府统计工作岗位 E.企业事业单位统计机构

52.为了防止滥用检查权,保障被检查对象的合法权益,统计执法检查机构的统计执法

检查应当按照法律规定的()进行。A.权限 B.方式 C.权利 D.程序

E.义务 53.根据《统计法》规定,任何单位和个人不得对外提供和泄露、不得用于统计以外目 的的资料是()。

A.在统计调查中搜集的统计调查对象提供的原始统计资料 B.在统计调查中获得的能够推断单个调查对象身份的资料 C.在统计调查中获得的能够识别单个调查对象身份的资料 D.在统计调查过程中汇总的统计资料 E.在统计调查中搜集的已经加工过的汇总统计资料 54.根据《统计法》规定,统计调查项目分为()。A.政府统计调查项目 B.国家统计调查项目 C.地方统计调查项目 D.民间统计调查项目 E.部门统计调查项目 55.统计行政处罚作为一种具体的统计行政行为,所具有的特点是()。

A.实施行政处罚的主体是各级统计执法检查机关 B.被处罚的行为是违反统计法律规范的行为 C.违反统计法律规范的行为造成了极其严重的后果 D.统计行政处罚属于行政制裁范畴 E.被处罚对象是实施了统计违法行为的行为人

三、判断题(本题共20分,每小题1分。)56.“女性”是分类变量。57.定量数据能够说明具体量的大小和差异,但不能反映现象的属性特点。58.实验数据可能是全面数据也可能是样本数据,而观测数据只能是样本数据。、59.当一组数据呈现急剧增长或急剧下降时,对其分组宜采用不等距分组。60.当数据中存在极端数值时,中位数的代表性要优于平均数。61.如果总体服从正态分布,样本均值一定服从正态分布。62.时间数列加法模型假定四种变动因素是相互独立的,而乘法模型假定四种变动因素存在着相互影响,两种模型的假定有着原则区别。

63.采用简单移动平均法分析时间数列的长期趋势的关键是步长和平滑系数的选择。

64.利用指数平滑法分析长期趋势时,平滑系数α的值接近于0时,则各期数据的作用快速减弱,呈比较尖锐的状态。65.在利用季节指数法分析季节变动时,首先消除了长期趋势的影响。

66.居民消费价格指数反映了城乡居民所购买的零售商品和服务项目的价格的变动趋势和程度。67.计算股票价格指数时,必须以发行量为权数进行加权综合。

68.《统计法》主要规定了统计调查对象统计调查的义务,以及不履行统计调查义务所承担的法律责任。69.县级以上地方各级人民政府可以根据工作需要设立统计机构。

70.统计人员进行统计调查时,发现有关人员提供的资料不真实、不准确,可以自行对不真实、不准确的资料进行改正。71.统计执法检查员应当参加统计执法检查员资格培训,通过考试合格,取得统计执法检查证。72.由国务院制定并颁布实施的《全国经济普查条例》是统计行政法规。

73.国家统计局派出的调查队在统计业务上由国家统计局垂直领导,以完成国家统计调查任务为主,同时也可以接受地方政府和有关部门的委托进行调查。

74.国务院有关部门可以根据本部门统计工作需要制定国家统计标准,报国家统计局审批。75.根据《统计法》规定,统计调查对象提供不真实、不完整统计资料的,可以追究其刑事责任

A.在基期销售量条件下,两种商品的价格报告期比基期综合增长了1.79% B.在报告期销售量条件下,两种商品的价格报告期比基期综合增长了1.79% C.以基期销售量为准,商场在销售这两种商品时报告期比基期多收入400万元 D.以报告期销售量为准,商场在销售这两种商品时报告期比基期多收入400万元 79.以下说法正确的是()。A.描述销售量和销售价格之间的关系可以用散点图 B.描述销售量和销售价格之间的关系可以用直方图 C.描述销售量的变动趋势可以用折线图 D.描述销售量的变动趋势可以用环形图

统计学和统计法基础知识试卷 第 14 页(共17页)请根据上述资料从下列备选答案中选出正确答案。81.根据表2资料计算得到该球场各季度利润的季节比率依次为54.47%、139.57%、146.92%、59.04%,则该网球场的利润()。A.

一、四季度是淡季,二、三季度是旺季 B.

一、四季度是旺季,二、三季度是淡季 C.一季度比二季度变动小 D.一季度比二季度变动大

83.从表2看,该季度利润序列()。

A.是一个实验数据 B.是一个数值型数据 C.没有众数 D.适合用折线图描述

统计学和统计法基础知识试卷 第 15 页(共17页)

(三)某省民政厅为了制定本省医疗改革方案,需要对本省的医疗机构和就医人员情况进行调查。请根据上述资料从下列备选答案中选出正确答案。86.该项统计调查应当()。

A.报国家统计局审批 B.报国家统计局备案 C.报本省统计局审批 D.报本省统计局备案 87.表明该项统计调查项目的合法性标志是在统计调查表标明()。

A.表号、制定机关 B.批准或者备案文号 C.采用的统计标准 D.有效期限 88.组织实施这项统计调查时,如果发现调查对象有统计违法行为,应当()。A.由省卫生厅对调查对象予以处罚 B.由省卫生厅移送卫生部处罚、C.由省卫生厅移送省统计局处罚 D.由省卫生厅移送省政府法制机构处罚

89.经过检查,发现该项统计调查的调查对象确实存在统计违法行为,可以给予统计调查对象的处罚是()。A.处分 B.通报 C.警告 D.罚款

90.按照《统计执法检查规定》,如果对违法的医疗机构作出罚款处罚,应当告知其听证的罚款数额是()。A.20万元以上 B.10万元以上 C.2万元以上 D.1万元以上

二〇一四全国统计专业技术初级资格考试 统计学和统计法基础知识试卷标准答案

一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。本题共40 1.B 2.C 3.A 4.D 5.B 6.A 7.B 8.D 9.D 10.A 11.A 12.B 13.C 14.C 15.D 16.C 17.D 18.D 19.C 20.A 21.B 22.B 23.B 24.A 25.B 26.A 27.D 28.A 29.B 30.C 31.B 32.B 33.D 34.C 35.D 36.A 37.C 38.D 39.B 40.D

二、多项选择题(以下每小题至少有两项正确答案,每选对一项得0.5分,全部选对得

41.ABCE 42.CD 43.ABD 44.AD 45.BCD 46.ACE 47.ACD 48.ABCD 49.AE 50.ABCD 51.AC 52.ABD 53.BC 54.BCE 55.ABDE

三、判断题(本题共20分,每小题1分。)

56.√ 57.× 58.× 59.√ 60.√ 61.√ 62.× 63.× 64.× 65.× 66.× 67.× 68.× 69.× 70.× 71.√ 72.√ 73.√ 74.× 75.×

四、综合应用题

基本统计学知识 篇6

—台帐基本流程

安装软件→装入数据→点击任务→选择台帐 打开编辑→选择时期→展开单位→选中村居 选表适应→录入数据→审核运算→保存传出

一、安装软件:光盘安装

二:装入数据:选择装入上级下发数据,保证台帐树形结构及单位名称正确。

三、任务管理:点击“任务”选择台帐任务。

四、打开编辑:点击“编辑”,选择时期为实时,选中村、居委会。

五、选表适应:点击“选表”,找到“当前适应表“,点击所需录入台卡,录入数据。

六、审核运算:传出上报、备份。

基本统计学知识 篇7

基本名词短语是以名词为主体的短语,其性质和作用与名词相同。基本名词短语是自然语言的重要结构单位,也是信息传递的基本单位。作为自然语言浅层句法分析的重要任务之一,它的分析结果可以简化句子结构,降低句法分析的复杂度;同时作为一种确定性很高的部分分析结果,它能解决绝大部分的局部歧义结构问题,从而为进行深层次的分析处理打下基础。由于汉语本身的特点,中文名词短语识别具有以下难点:

1) 分词仍然是中文信息处理的一个难题。汉语的词语间没有明确的界限,分词错误会持续到命名实体识别中。

2) 汉语是通过语义来驱动意义的表达,在汉语中存在很多的兼类词,这也给名词短语的识别和组块分析带来了难点。

3) 汉语和英语之间的明显差异,如英语中的单复数信息、人名的性别信息等在汉语中都不明显,使得直接借鉴英文的处理方法存在一定的困难。

目前中文基本名词短语识别的相关研究中,主要采用基于统计的方法进行识别。如文献[8]将基于转换错误驱动的方法应用到中文基本名词短语识别问题上。首先根据基本组成模板对文本进行BaseNP的初始标注,通过对比以发现标注错误。定义上下文有关的转换规则空间,将其运用于对识别错误的校正中,然后用评价函数挑选出得分最高的规则来刷新当前标注结果,组成转换规则的有序集。

文献[2]中提出了一种边界统计和词性串校正相结合的方法,把基本名词短语识别分成主次分明的两部分:边界统计和词性串规则校正,在英语和中文语料上F值分别达到了96.90%和95.04%。

钱伟等采用基于最大熵模型的英文名词短语指代消解算法解决名词短语间的指代问题。在MUC-7公开测试语料上F值达到了60.2 %。

此外,在组块分析领域中也包含对基本名词短语识别研究,文献[3]介绍了汉语句子的组块分析体系;文献[4,5]中分别把基于记忆和SVM的方法运用到中文语块识别中,前者正确率达到95.2 %和93.7 %,后者F值达到了88.67%。

1 Base NP问题描述

结合汉语特点,中文基本名词短语可作如下形式化描述:

BaseNP → BaseNP + BaseNP

BaseNP → BaseNP + 名词 | 名动词

BaseNP → 限定性定语 + BaseNP

BaseNP → 限定性定语 + 名词 | 名动词

限定性定语 → 形容词 | 区别词 | 动词 | 名词 | 处所词 | 西文字串 | 数量词

本文将基本名词短语定义为具有单一的语义核心、非嵌套的名词短语。它包括单个名词,没有任何修饰成分的名词短语,难以确定修饰关系的一串名词,并列名词性成分,专有名词,时间,地点等,如“足球比赛”、“产品结构”等。

基本名词短语识别可转化为标注问题。这里引入BIO标注法,即对句子中基本名词短语进行识别时,对每个词而言,它只有三种可能的标注:名词短语左边界(B)、名词短语内部(I)、名词短语外部(O)。这样基本名词短语的识别问题就转化为对每个词进行标注的问题。

2 模型组合策略

本文的方法是将条件随机域模型(CRF)和支持向量机模型(SVM)这些统计模型结合起来,从而实现基本名词短语识别和标注的一体化。

2.1 CRF模型

条件随机域是一种无向图模型,假设X,Y分别表示需要标记的观察序列和对应的联合分布随机变量,那么条件随机域(X,Y)就是一个以观察序列X为条件的无向图模型。

实体识别问题实际上可以定义成序列的标注,即判断观察词是否属于预先定义的特征集合。对命名实体识别问题而言,利用CRF方法进行识别,则将含有NE标记的实例序列对(x1,y1), (x2,y2), …, (xn,yn)输入系统,而系统要求解的目标函数如下所示:

其中n表示给定词序列的长度,Z(x)是归一化因子,Fj(y,x)是特征函数,λj是第j个特征函数的权重系数。NE识别的目的就是要找到最优序列p*,使得:

2.2 基于转换的标注

基于转换的标注TBL(Transformation-Based Labeling)包括允许的错误校正转化的详细说明和学习算法。一个转化包含两个部分:一个触发环境和一条重写规则。触发环境指的是上下文信息,当上下文某些位置的标注满足一定条件时,应用重写规则,重写规则的形式是t1→t2,表示用t2 替换t1。

基于转化的标注学习算法选择了最佳的转换,并且确定了它们的应用次序。其工作的主要步骤:

1) 用最常见的标记标注每个词。

2) 在训练迭代的过程中,选择最可能减少错误率的转化,通过标注过的语料库中被错误标注的词语的数目来衡量错误率。当没有能够降低超过预先制定阈值ε大小的错误率的转换时将停止。这是一个转换最优序列的贪婪搜索过程。

2.3 SVM模型

SVM的主要思想是建立一个超平面作为决策曲面,使得正例和负例之间的隔离边缘被最大化。

设有n个样本集xi及其所属类别yi ,表示为:xiyi,yi∈{1,-1},i=1,2…,n,平面w·x+b=0方程能将两类样本分开,即:

yi[(w·xi)+b]-1≥0 (i=1,2,…,n) (3)

分类间隔等于2/‖w‖,训练样本点被称为支持向量。利用Lagrange优化方法得到最优分类函数是:

对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在变换空间求最优分类面。相应的分类函数变为:

其中K(x,xi)为核函数,利用此函数可以实现从低维空间向高维空间的映射,从而实现某一非线性分类变换为线性分类,ai为样本对应的拉格朗日乘子,yi ∈{1,-1}。

本文用的SVM分类器是Joachims编写的二元分类器SVMlight,并使用默认参数。

2.4 组合分类器模型

本文采用两级分类器。第一级采用TBL和CRF分类器,通过分析我们发现,CRF和TBL的识别结果中错误标注的原因主要是由于Base NP边界识别错误造成,这是一个无监督的错误发现的过程。对于第二级分类器,我们利用SVM分类器来学习其中的错误规律,这是因为SVM能够考虑上下文信息,并且可以自由加入新的特征,使得我们可以将初级识别结果中的正确结果可以保留,并作为新的特征交给SVM,从而提高SVM分类器的识别效果。组合分类器策略的流程如图1所示。

3 特征的选取

特征在机器学习方法中起着非常关键的作用,它将直接影响系统性能。由于是对每一个词进行名词短语标注,每一个词的名词短语标注过程都被看作是一个事件,因此由当前词其上下文环境来确定一个事件的特征集合。根据影响当前词名词短语标注的各种因素,特征向量的属性主要考虑两类信息:

(1) 词性(P) 当前词及其前后各两个词的词性;

(2) 词(W) 当前词及其前后各两个词。

我们定义了十个特征,表1列出了特征表达及各个特征所代表的意义,由于表中每个模板只考虑一种因素,因此称为原子模板。由于在上下文中仅使用原子特征模板难以完全描述语言中的一些复杂现象,通过对各种原子模板进行组合,可以构成一些组合特征模板来表示更复杂的、非线性的上下文信息。我们将识别基本名词短语的特征分为原子特征和复合特征(如表2所示)。

4 实验分析

通过原子特征和复合特征得到的特征构成候补特征集合,本文通过实验从中选取对模型最为有用的特征,并进一步对组合分类器模型在ACE2005中文语料上进行实验。

4.1 特征选择实验

由于并非所有的特征对名词短语的标注贡献都是相同的,甚至有些特征可能对标注起副作用,所以我们对这些特征进行检验,选出合适的特征组合,作为最大熵模型的输入。分别对表2中的八个复合特征进行实验,进行了基于最大熵模型的名词短语标注,结果如表3所示。

通过对表3 的分析,可以得出以下结论:

1) 从序号1、2中可以看出,采用当前词的词性和当前词的前一个词的词性作为复合特征的正确率最高,说明当前词的前一个词性对分类的贡献非常大,而后一个词的词性对分类的贡献相对较小。

(2) 从序号6、7中看出当前词的词性对分类的贡献不大,而且会起到负面的作用。

(3) 序号8的准确率非常低,可知使用词作为特征,容易引起数据稀疏,对分类的影响较小,导致分类结果很差。

最终可以选定在上述实验中效果较好的特征,作为最终系统的特征模板,在基于SVM名词短语识别上的结果如表4所示。

4.2 组合分类器实验

为避免组合分类器模型对实验语料数据的敏感性,在后处理分类器中我们再次采取交叉验证的方法将语料分为五等份,每次取其中四份做训练集,剩余一份做测试集,取五次结果的平均值作为最终结果。测试的结果如表5所示。

通过实验结果可以看出,经过TBL和CRF为第一层,CRF为第二层的组合分类器训练之后,采用组合分类器策略能够有效地提高对基本名词短语识别的效果,比单纯使用SVM的结果要高出1.37个百分点。

5 结 语

本文采用了一种基于混合统计模型的方法对中文基本名词短语识别任务进行实验。通过对基于复合特征系统的实验结果,选定有效特征提交给组合分类器,并将TBL、CRF和SVM模型分为两层组合使用,保留了第一层模型中较好的识别结果,同时能在第二层模型中有针对性地加入新特征,在ACE2005中文语料上的实验表明,这一方法得到了较好的结果。

摘要:采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。

关键词:基本名词短语,支持向量机模型,特征模板

参考文献

[1]Taku K,Yuji M.Use of support vector learning for chunk identification[C]//Proceedings of CONLL’2000 AND LLL2000,2000:127.

[2]梁颖红,毛蕾,赵铁军,等.英语基本名词短语识别技术研究[J].高技术通讯,2004(12):21-24.

[3]周强,孙茂松,黄昌宁.汉语句子的组块分析体系[J].计算机学报,1999,22(11):1158.

[4]张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1.

[5]李珩,朱靖波,姚天顺.基于SVM中文组块分析[J].中文信息学报,2004,18(2):1.

[6]周雅倩,郭以昆,黄萱菁,等.基于最大熵方法的中英文基本名词短语识别[J].计算机研究与发展,2003,40(3):440-446.

[7]徐昉.汉语base NP识别:错误驱动的组合分类器方法[J].中文信息学报,2007,21(1):115-119.

基本统计学知识 篇8

一、全国电大学历教育

(一)开放教育

2010年,中央广播电视大学开放教育本科(专科起点)、专科和“一村一名大学生计划”(以下简称“一村一”)毕业生为64.98万人,其中本科毕业生19.94万人,授予学士学位6914人,专科毕业生41.24万人,“一村一”毕业生3.8万人。

2010年,中央广播电视大学开放教育共计招生91.93万人,其中本科招生24.42万人,专科招生61.22万人,“一村一”招生6.29万人。

2010年,中央广播电视大学开放教育在校生279.61万人,其中本科生80.26万人,专科生182.36万人,“一村一”16.99万人。

2010年,中央广播电视大学开放教育本、专科、“一村一”共开设专业93个,其中本科专业27个、专科专业47个(另有在籍生的停开专业8个)、“一村一”专业18个。2010年开放教育本科新开设专业3个,专科新开设专业4个,“一村一”新开设专业1个。

2010年,开放教育本科在校生数在十万人以上的专业为法学、行政管理、会计学3个专业,合计在校生为39.98万人,占开放教育本科在校生总数的49.82%,其中法学专业在校生数居首位;开放教育专科在校生数在十万人以上的专业为行政管理、会计学、工商管理、法学4个专业,合计在校生数为109.73万人,占开放教育专科在校生总数的60.18%,其中行政管理专业在校生数居首位;开放教育“一村一”在校生数在万人以上的专业为农村行政管理、乡镇企业管理、农业经济管理、畜牧兽医4个专业,合计在校生数为15.02万人,占“一村一”在校生总数的88.4%,其中农村行政管理专业在校生数居首位。

2010年,开放教育本科、专科、“一村一”各专业与学生数情况见表1、表2、表3。开放教育按学科分类的学生数情况见表4和图1。

(二)计划内学历教育

全国电大执行国家计划内学历教育,包括:1.统招高等专科学历教育,(1) “高职”:指通过全国普通高等教育统一招生考试,招收高中毕业生为主要培养对象,实施高等职业教育的学生,简称“高职”(2006年全国电大“普通专科班”停止招生,但个别省校执行当地教育计划开展高职类的教育);(2) “成招专科”:指通过全国成人高等教育统一招生考试,招收具有高中毕业或同等学力的人员为主要培养对象,利用业余或脱产等形式实施高等专科学历教育的学生(含第二专科学历教育),简称“成招专科”。2.通过国家统一考试入学的高等学历“专升本”教育。3.中等专业学历教育。

2010年,全国电大统招高等专科学历教育毕业生6.67万人、招生5.17万人、在校生15.53万人。其中“高职”毕业生 1.22万人、招生0.24万人、在校生1.77万人;“成招专科”毕业生5.45万人、招生4.93万人、在校生13.76万人。

2010年,全国电大高等学历教育“专升本”毕业生470人、招生938人、在校生1869人。

2010年,全国电大成招高等专科和“专升本”学历教育在10个学科、51个二级类中设置了320个专业,见表5。

2010年,全国普通高等教育专科的教育统计,从2005年开始执行教育部颁布的“普通高职高专专业目录(统计用)”,该目录为19个大类,78个二级类。2010年全国电大“高职”在13个学科大类,29个二级类中开设了70个专业,见表6。

2010年,全国电大中等专业学历教育毕业生6.3万人、招生7.53万人、在校学生16.75万人。

二、全国电大非学历教育(进修及培训)

2010年,全国电大非学历教育(进修及培训)结业生252.72万人次,注册学生(指统计期间在册学习,尚未结业的在册学生)89.94万人次,表见7。

2010年,全国电大非学历教育(进修及培训)中,“资格证书培训”结业生47.27万人次、“岗位证书培训”结业生33.35万人次,合计80.62万人次,占进修及培训结业生总数的31.9%。

2010年,全国电大非学历教育(进修及培训)中,“外语”结业生4.95万人次、“会计” 结业生8.99万人次、“计算机”结业生16.45万人次,合计30.39万人次,占进修及培训结业生总数的12.02%。

三、全国电大教师和职工

2010年,全国电大教职工总数为9.45万人,其中专任教师5.71万人、行政人员1.76万人、科研人员0.17万人、教学辅助人员1.07万人、工勤人员0.65万人、其他人员0.1万人。

2010年,全国电大教职工中具有高级职称的2.26万人、具有中级职称的3.69万人,具有初级职称的1.91万人,分别占教职工总数的23.86%、39.06%、20.15%。其中专任教师中具有高级职称的1.65万人、具有中级职称的2.59万人,分别占全体专任教师的28.84% 和45.45%。

2010年,全国电大聘请校外教师3.7万人,其中具有高级职称的1.34万人、中级职称的1.85万人,分别占聘请校外教师总数的36.24%和49.89%,见图2。

2010年,全国电大专任教师中具有博士研究生学历的教师400人,具有硕士研究生学历的教师6196人,具有本科学历的教师47587人,具有专科及以下学历的教师2914人,分别占全体专任教师的0.7%、10.85%、83.35%和5.1%。

2010年,全国电大专任教师所从事的教学专业人数,按11大学科分类分别为经济学:6624人、法学:4538人、教育学:5617人、文学:12378人(其中,外语:4585人)、哲学和历史学:3837人、理学:6224人、工学:12030人(其中,计算机:5438人)、农学:730人(其中,林学:132人)、医学:1071人、管理学:4048人。

2010年,全国电大专任教师的年龄构成为:30岁及以下1.20万人,占21.06%;31~40岁为2.23万人,占39.04%;41~50岁为1.74万人,占30.49%;51~60岁为0.53万人,占9.23%;61岁及以上为105人,占0.18 %。全国电大专任教师仍以中、青年教师为多数。

四、全国电大资产和校舍

2010年,全国电大学校产权固定资产275.55亿元,其中教学科研仪器设备为67.55亿元;拥有图书7570.67万册;计算机39.59万台,其中教学用计算机30.61万台;语音实验室座位数8.25万个,多媒体教室座位数62.36万个。

全国电大非学校产权固定资产65.38亿元,其中独立使用10.57亿元,共同使用54.81亿元。

2010年,全国电大学校产权校舍建筑总面积2289.05万平方米,其中教学及辅助用房1090.17万平方米,行政办公用242.16万平方米,生活用房733.17万平方米。

全国电大非学校产权校舍建筑总面积585.14万平方米。其中独立使用162.22万平方米,共同使用422.92万平方米。

五、广播电视大学“十一五”时期回顾与展望

“十一五”时期,广播电视大学以科学发展观为指导,着眼于国家构建终身教育体系和建设学习型社会全局,主动适应社会教育需求和社会成员终身学习需求,深化教学改革,加强内涵建设,实现了预期目标,电大综合办学实力得到明显提高,改革和发展取得了显著成就。

“十一五”时期,全国电大高等学历教育毕业生累计达341万人,占同期全国成人高等学历教育[1]毕业生的30.1%(见图3);招生累计447.54万人;2010年,全国电大高等学历教育在校生295.32万人(见图4),比2005年增加71.21万人。中央电大开放教育累计毕业生286.36万人,占同期全国高等学历网络教育毕业生的62.17%(见图5)。全国电大举办的高等学历教育为我国培养了大批面向基层、留得住、用得上、干得好的各类应用型专门人才。

“十一五”时期,全国电大加强了教师队伍建设,引进知名专家作为学科带头人,开展各学科、专业、课程及远程教育技术等的教学和学术交流活动,提高教师的教学水平和科研能力,鼓励教师在职攻读研究生学位或进修研究生课程,形成了具有较高水平的电大系统专兼职教师队伍,教师队伍建设成效显著。2010年,全国电大教职工总数、专任教师和聘请校外教师人数分别为9.45万人、5.71万人和3.7万人,分别比2005年增加1.32万人、1.18万人和438人(见图6)。全国电大专任教师水平显著提高,具有高级职称、博士学历和硕士学历人数分别为16464人、400人和6196人,分别比2005年增加了4936人、267人和2933人(见图7)。

“十一五”时期,全国电大积极创造条件,加大建设力度,充分整合资源,办学条件不断改善,有力地保障了教学、科研以及改革发展的需要。2010年全国电大固定资产340.93亿元,比2005年底209.36亿元增长62.84%(见图8),教学、科研仪器设备资产83.1亿元,比2005年底53.23亿元增长56.11%。

面对《国家中长期教育改革和发展规划纲要(2010-2020年)》(以下简称“教育规划纲要”)提出的“办好开放大学”的新要求,全国电大教育战线坚定不移的以邓小平理论和“三个代表”重要思想为指导,深入实践科学发展观,全面贯彻落实党的十七届五中全会精神,按照教育规划纲要要求,抓住机遇,乘势而上,实现广播电视大学向开放大学的顺利转型。我们将以改革和创新为动力,以提高人才培养质量为核心,以信息化网络平台建设、学习资源建设、教师队伍建设为重点,以推进内部管理体制和运行机制改革为保障,以新一轮改革促进新一轮发展,为国家经济社会发展和学习型社会建设做出新的更大的贡献。

责任编辑华人

上一篇:移动通信基站维护规程下一篇:校园流动人员管理制度