统计语言模型分析

2024-07-10

统计语言模型分析（共9篇）

统计语言模型分析篇1

1人理解语音的过程分析

仔细分析人们从听到语音到最终理解的过程, 我们可以将其分成两个阶段。第一阶段是将听到的语音中的每个字的发音与我们大脑中存储字相匹配, 寻找发音相同的。这个可匹配的结果往往很多。在我们人脑实际处理时, 往往不是仅仅对单个字进行发音匹配, 而是按照词为单位进行匹配。匹配的过程是通过类比的手段来实现, 或者说其纯粹是个非语义处理过程。第二个阶段, 为了进一步确定就是语音对应是什么字或词, 必须借助于一些其它因素, 如是否满足语法规则, 是否满足语义上的逻辑关系, 是否与当前语境相匹配等。该阶段的处理过程则与语义处理密不可分。此外二者间还相互影响, 相互作用。

下面我们用拼音串表示人听到的语音, 来演示该过程如图1所示。箭头所连接起来的表示一个第二阶段的匹配结果。

2统计语言模型

以语料库为基础的统计语言建模方法通过对语料库进行深层加工、统计和学习, 获取大规模真实语料中的语言知识。N-gram模型、隐马尔可夫模型和随机上下文无关文法是这种模型的代表。其中N-gram模型以其有效性和易于计算性在语音识别、机器翻译和信息检索等领域得到广泛的应用, 并取得了较大的成功。

设wi是文本中的任意一个词, 如果已知它在该文本中的前两个词 wi-2, wi-1, 便可以用条件概率P (wi|wi-2wi-1) 来预测wi出现的概率。这就是统计语言模型的概念。一般来说, 如果用变量W代表文本中一个任意的词序列, 它由顺序排列的n个词组成, 即W=w1w2…wn, 则统计语言模型就是该词序列W在文本中出现的概率P (W) 。利用概率的乘积公式, P (W) 可展开为:

undefined

为了预测词wn的出现概率, 必须知道它前面所有词的出现概率。从计算上来看, 这种方法太复杂了。假设任意一个词wi的出现概率只同它前面的两个词有关, 问题就可以得到极大的简化。这时的语言模型叫做三元模型 (tri-gram) :

undefined

一般来说, N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

undefined

式中count (…) 表示一个特定词序列在整个语料库中出现的累计次数。

3统计语言模型分析

统计语言模型的本质思想是:出现过的为合法, 按照上下文环境下, 出现概率大的为正确选择。从前面对人理解语音过程的分析, 我们知道人类的语音理解模型能够根据“音”、“形”、“意”来确定当前词汇。在语音识别问题中, 统计模型只是从“音”的角度给出了一个大致的判断, 从“意”层面上说, 只是对上下文环境的一个最简单的模拟。对于OCR问题, 则只是从“形”和“意”的角度加以处理。如何对“意”进行比概率模型更加准确的模拟, 是问题的核心。统计模型从一定程度上反映了上下文之间存在的语法和语义上的关系。但是并不完美和直接。综合看来, 目前的统计语言建模技术尚存在以下两方面问题:

(1) 模型理论上的不足。目前的统计语言模型对训练语料的题材、体裁以及主题的变化非常敏感。用某领域的语料训练的语言模型在相同领域中使用时性能非常好, 但是如果应用领域发生变化, 则模型性能急剧下降。如果要对轻松的电话谈话语言建模, 实验结果表明, 用二百万相应领域的词进行训练得到的模型的性能, 远远优于用一亿四千万从电视广播新闻中取出的词进行训练得到的模型的性能。传统的自适应方法大多是一种静态的方法, 没有将语言模型使用过程中产生的语料利用起来, 或者仅仅是将这部分语料作为简单的参考因素, 因此有其固有的先天缺陷。要解决传统自适应方法带来的问题, 最根本的就是需要考虑如何将语言模型使用过程中得到的语料充分利用起来。

为了使模型可以得到控制, 现存的统计语言建模技术假设一个文档中的不同部分具有独立性。例如, 广泛使用的n-gram模型, 假设句子中第i个词出现的概率仅和与它紧紧相邻的前面的i-1个词相关.而与其它前面的词是相互独立的。很显然, 经验告诉我们这种假设是错误的。这种错误的假设在统计方法建模中往往会导致出现概率的锐分布, 即某个词的出现概率可能为l, 而其它词出现的概率都为0, 这种概率分布显然偏离了实际情况。

数据稀疏性是统计语言模型最大的问题之一。由于在语言模型使用过程中, 很多n 元组没能在训练语料中观测到, 因此如何有效估算这些单元的概率就成了很大的问题。中文是典型的语义型语言, 相对于英语等语法型语言来说, 遣词造句更为随便, 这种语言单元搭配的随意性导致n-gram 单元更多更复杂, 并且导致语言模型应用场合特点和训练语料性质的差异性可能更大, 也就要求性能更好的语言模型建模方法。

(2) 模型实现方法上的不足。模型对大规模语料训练过程中, 现存算法效率不高。近来提出的决策树语言模型和最大熵方法, 从理论上讲都是很理想的方法。制约它们广泛使用的最大瓶颈就是在模型训练过程中的昂贵的时空消耗和运算量。因此, 如果研究出高效的训练算法, 可以预期这两种方法有广泛应用前景。

模型平滑算法的研究需继续深入。由于统计建模方法的研究是基于大规模真实语料的, 在训练模型过程中, 由于语料不足而产生数据稀疏现象, 导致零概率和锐分布现象的产生, 这都会影响模型的后处理能力, 削弱模型的预测能力。通过采用不同的平滑技术可以在一定程度上地解决这个问题。

统计语言模型的参数数目非常庞大。人们为了获得更好的模型性能, 往往采取增加训练语料的方法来训练模型, 带来的后果是模型规模进一步上升, 对存储的需求进一步增大。该问题限制了语言模型应用的场合, 即使在个人计算机上, 几百MB 甚至1GB 规模的语言模型也显得有些过大。对于目前蓬勃发展的嵌入式设备来说, 该数字已超出设备存储的极限。因此, 解决语言模型规模过大的问题, 不仅能使其在个人计算机上的应用更加灵活, 而且有可能将语言模型应用到嵌入式设备上。

由于统计语言模型规模大, 运行时对内存、CPU 速度的要求比较高。大词表的语言模型应用, 如中文整句音字转换、连续语音识别、OCR 等应用都由于解码速度问题一直不能在结算能力较差的设备上应用。如何设计有效的解码算法, 提高解码算法的速度就成了很重要的一个问题。只有解码速度上去了, 语言模型的应用能力才能进一步提高, 其适用场合才能进一步拓宽。

4结束语

与基于语言学知识的规则文法的语言模型相比, 统计语言模型的最大优点在于使得大规模真实文本的处理变为可能。本文在分析人类语音理解过程的基础上, 介绍了统计语言模型, 并讨论总结了统计语言模型目前所面临的问题。从这些问题出发, 将更多的语言学知识融入到统计语言模型, 使之能够更多地模仿人类语音理解的第二个阶段, 是提升语言模型能力的关键所在。

摘要：语言模型是实现自然语言处理的关键所在, 在分析人类语音理解过程的基础上, 介绍了统计语言模型, 讨论总结了统计语言模型目前所面临的问题, 为进一步提高统计语言模型能力提供了思路。

关键词：自然语言处理,语言模型,统计语言模型

参考文献

[1]FREDERIK JELINEK.Statistical Method for Speech Recognition[M].MIT Press, Cambridge, Massachusetts, 1997.

[2]FENG J J.Using confidence scores to improve hands-free speechbased navigation in continuous dictation systems[J].ACM Trans-actions on Computer-Human Interaction, 2004 (4) .

[3]ROSENFELD R.Error analysis and disfluency modeling in theswitchboard domain[C].In:Proceedings of the 4th InternationalConference on Speech and Language Processing (ICSLP) .Philadel-phia, PA, USA, 1996.

[4]徐通锵.语言论———语义型语言的结构原理和研究方法[M].长春:东北师范大学出版社, 1997.

[5]吴根清.统计语言模型研究及其应用[D].北京:清华大学, 2004.

统计语言模型分析篇2

系统的设计关键在于海量数据的实时采集获取、统计分析处理和存储，目的在于实现统计信息资源的共享。基于Hadoop的层次化统计分析模型如图2所示，自上而下包括云平台应用层、逻辑与接口层、计算层、文件系统管理层、物理资源层。

图2基于Hadoop的层次化统计分析模型物理资源层：负责管理平台的基础设施，为平台提供物理设施，除包含分布式集群、数据采集终端、基础网络外，还包括围绕应用相关的基础组件。

文件系统管理层：主要用于存储数据文件和日志文件，同时具备高可用数据备份功能。该层主要采用HDFS分布式存储，提供很强的数据吞吐能力。针对不同的数据统计终端，该层设计使用不同的操作系统，以便于数据的统一性。

计算层是该统计模型的核心层，所有的运算机制和数据处理任务都在该层完成。其基础框架是基于Hadoop MapReduce并行计算框架，采用对数据 “分而治之”的方法来完成并行化的大数据统计分析工作，用Map和Reduce函数提供两个高层的并行编程抽象模型和接口，工作人员只需要实现这两个基本接口即可快速完成并行化数据处理程序设计。此外该层还包含了Hadoop平台的流数据处理storm和实时处理spark，用于对数据源的实时分析处理和更新，以满足统计部门的高效快速响应要求。

统计语言模型分析篇3

本文基于SAS软件采用乘积季节模型对1999.01-2012.12间外商在华直接投资额进行分析，并对未来外投资额的变化趋势进行预测。在运用乘积季节模型之前本文首先画出了时序图，由时序图可以看到，该时间序列具有明显的趋势性和周期性，因此，是不平稳的时间序列，在进行一阶差分后明显的消除了趋势性，而进行多步差分后均不能明显的消除波动性，通过自相关性检验发现差分后的序列还具有短期的相关性，最终本文采用乘积季节模型，消除了趋势性和周期性，最后得到的序列通过了自相关性检验，并且对未来12个月的投资额进行了预测。

一、首先画出时序图

由时序图可以看出该序列具有趋势性和波动性，显然是不平稳的时间序列。

二、下面通过差分来消除趋势性和波动性

1、一阶差分

由图可以看出一阶差分后趋势性被消除。

2、下面再进行12步差分消除周期性

12步差分后季节性不再明显。

三、下面对差分后的序列进行检验：

由自相关图可以看出，自相关系数在延迟一阶后都落在2倍标准差之内，然后在延迟12阶处突然有一个较大的自相关系数，接着又落在2倍标准差内。

由偏自相关图可以看出，偏自相关系数在1，12处拖尾，在5处有超过两倍标准差。

四、下面对模型的参数进行估计

（1）参数估计

，的P值均小于0.05，说明参数显著；而的P值小于0.05，的P值大于0.05，不显著故应该舍去。

（2）纯随机性检验

LB统计量检验

说明模型已经充分提取了数据的信息不需对残差序列再进行拟合。

2、下面舍去后，从新进行估计

（1）参数估计

，，的P值均小于0.05，说明参数显著，且该模型的AIC小于上一个模型的AIC，所以该模型效果好。

（2）纯随机性检验

LB统计量的检验

说明模型已经充分提取了数据的信息不需对残差序列再进行拟合。

（3）模型的具体形式

五、利用确定的模型进行预测

5.1预测结果：

（作者单位：河南大学）

统计语言模型浅析篇4

语言出现的目的是为了人类之间的通信。字母或者笔画、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式, 而语言的语法规则是编解码的算法。一条信息通过某种语言的一句话表达出来, 就是利用这种语言的编码方式对头脑中的信息作了一次编码, 编码的结果就是一串文字。相应的接收方同样根据这门语言的解码方法获得这句话所要表达的信息。这就是语言的数学本质。

长期以来, 让机器理解人类的语言, 实现语言的翻译、识别、对海量文献进行自动检索等功能一直是人类的梦想。在很长的一段时间, 让机器通过语法的分析来解析语言并没有获得明显的成效, 如同今天学习了大量的英文语法依然看不懂英文原声电影一般, 基于语法的分析逐渐被淘汰。

统计语言是运用数学方法解决信息检索和自然语言处理的最好工具。应用数学工具解决统计语言问题, 能非常清晰地描述这些领域的实际问题并且给出很好的解决办法。

以一本书为例, 统计足够长的文章就会发现字母、字符出现的频率会反映出相应语言的统计特性:每个字母出现的频率是相对稳定的。因此可将字母出现的频率作为在相应语言出现的概率, 可以得到语言字母表X上的一个概率分布:

这个概率值也称为该语言的一阶统计特性。由此产生了, 为语言创建统计模型, 分析各种词汇产生出现的概率, 便于计算机进行识别。

2 统计语言模型的定义

计算机科学之父图灵在1950年发表的论文“计算的机器和智能”中提出了机器智能的设想, 提出了著名的“图灵测试 (Turing Test) ”用来验证机器是否拥有智能的方法:让机器和人进行交流, 如果人无法判断交流的对象是人还是机器的时候, 说明这个机器拥有智能。自然语言的机器处理从那时就开始了。

通常对语言模型 (Language Model) 的描述为:语言模型是对自然语言内在规律的数学模型的描述。语言模型根据研究的方式可分为传统的文法型模型和基于统计的模型。文法型语言模型是依据语法规则, 由计算机根据这些语法解析文本的含义, 其中语法规则来源于语言学家掌握的语言学知识和领域知识。缺点在于不能处理大规模真实文本。基于统计的语言模型是依据数学中的概率模型提出, 利用统计的方式描述自然语言内在规律的数学模型。计算机借助于模型中给出的概率参数, 对于自然语言中每个句子出现的可能性进行预估计, 而不是简单的判断该句子是否符合文法。

3 统计语言模型的原理

假定S是一个完整的中文语句, 由若干个词w1, w2, w3, …, wn组成, n是句子的长度。计算S在文本中出现的可能性, 就是用概率P (S) 来表示。若依照上文提出的一阶统计特性进行计算, 就需要将有史以来所有人类说过的语言都进行统计, 这个方法显然是不可能实现的。于是引入模型来进行估算。既然S=w1, w2, w3, …, wn, 那么P (S) =P (w1, w2, w3, …, wn) 。利用条件概率的公式, S这个序列出现的概率等于每个词出现的条件概率相乘, 于是P (S) 可以展开为:

其中, P (w1) 表示第一个词出现的概率;P (w2|w1) 表示第二个词在已知第一个词的前提下出现的概率;以此类推, 第n个词出现的概率取决于前面所有的词。这个公式对于最后一个词的计算很难实现。因此马尔可夫提出, 假设一个词wi出现的概率只与前面的词有关, 即只与wi-1相关, 这一假设可以使上述计算变得简单。

这就是统计语言模型的二元模型。这里并不要求语句s在语法上是完备的, 该模型需对任意的语句s都给出一个概率值。

条件概率P (wi|wi-1) 的计算可根据定义获得:

至此, 一个完整的统计语言模型就建立起来。

4 总结

统计语言模型的建立为实现自动语言识别提供了有力的支撑, 但是对于大量的低频词汇, 如果也采用上述方式来估算会出现大量的p (wi|wi-1) =0, 进而使得p (s) =0。这一结果会削弱该模型的描述能力。因此针对大量的低频词可以采用数据平滑技术 (Data Smoothing) , 通过调整p (wi|wi-1) 率分布的取值的方法, 避免p (s) =0, 使得p (s) 的计算更加精确的目的。

摘要：随着信息化的迅速发展, 智能技术的普及, 实现计算机对自然语言和文字处理的需求日益增大, 语言处理系统得到迅速发展。目前计算机语言学经验主义的研究办法得出对于自然语言的处理系统其核心是统计语言模型。顾名思义, 统计语言模型是借助数学统计的方法对自然语言的内在规律进行描述的数学模型。本文介绍了统计语言模型的定义和分类, 以及模型的数学原理。

关键词：自然语言,统计语言模型,概率分布

参考文献

[1]邢富坤, 程东元.基于统计语言模型的英语易读性研究[J].解放军外国语学院学报, 2010.

[2]李纲, 郑重.应用于信息检索的统计于燕模型研究进展[J].情报理论与实践, 2008.

[3]李进华, 周朴雄.基于统计于燕模型的信息检索演进探析[J].图书情报知识, 2010.

[4]黄昌宁.统计语言模型能做什么[J].语言文字应用, 2002.

[5]黄郡.统计和规则相结合的语言模型在中文输入法中的应用研究[J].西安电子科技大学, 2008.

深证A股指数统计模型分析篇5

一、建模过程

对数线性模型在分析时间序列数据时可能得到比非对数线性模型更好的效果, 因此本文同时考察非对数线性模型、对数线性模型。

(一) 非对数线性模型

1、模型表达式。

按照平均经济回归方法, 在所有8个Y对Xi的一元回归中得到了一个统计性质优良的模型 (同时, Y是一阶求积时间序列, 不是平稳的时间序列, 所以Y取一阶差分形式) , 即模型1:

△Y的ADF单位根 (麦金农单侧P值) 检验如下:

零假设:△Y有单位根;滞后长度:0;ADF检验统计:T统计量为-4.285661;概率值为0.0000;关键检验值为1%, 对应的显著水平为-3.49405%;关键检验值为5%, 对应的显著水平为-2.889210%;关键检验值为10%, 对应的显著水平为-2.5813。

检验结果显示△Y不存在单位根, 因而是平稳的时间序列。对X5 (换手率) 的ADF单位根检验结果表明, X5存在单位根的概率极小, 故在5%的显著水平上 (由此以下, 如本文中无特别说明都用5%为显著水平) , 认为X5不存在单位根, 是平稳的。因为△Y和X5都是平稳的时间序列, 因此模型的残差也是平稳的。

2、对模型1统计性质的检验。

下面对该模型是否存在多重共线性、ARCH效应、自相关进行检验。

(1) ARCH检验。

通过ARCH检验可侦测出时间序列数据中的异方差性。滞后值分别取1、2、3, 笔者做了3次ARCH检验, 都没有发现ARCH效应。本文仅列出ARCH (2) 的检验结果, 如下所示:

零假设:△Y有单位根;滞后长度:0;F统计量为0.736365, 概率值*为0.569269;观测值个数*R2为0.4440976, 概率值为0.603214。

ARCH (2) 检验中F统计量的P值为0.57, 说明模型1中不存在ARCH效应, 即没有异方差性。

(2) 自相关检验。

从以上表达中可以看到, 模型1的DW统计量约为2.25, 查表发现在5%的显著水平上, 一个解释变量108个观测值的上限显著点dU约为1.654。d U<2.25<4-dU, 据DW自相关检验的规则, 若DW统计量落在dU和4-dU之间, 即可拒绝模型残差的自相关性。因此, 可以认为模型1不存在自相关的问题。综上所述, 模型1无多重共线性、无异方差ARCH效应、无自相关, 且残差是白噪声 (遵从零均值、恒定方差和非自相关等经典假定) 。

3、优化模型1的探索。

首先以X5为解释变量对其余7个备选变量分别做辅助回归, 以识别多重共线性。根据辅助回归的结果, X4、△X6、X7和△X8与X5有着明显的共线性, 故不引入模型1。△X1、X2和△X3虽然根据辅助回归的结果与X5没有多重共线性, 但在加入模型后其系数并不显著地异于零, 说明△X1、X2和△X3对△Y并没有显著的影响。因此, 这些变量也并没有被加入到模型1中去。

4、非对数线性模型小结。

根据本文的建模方法, 在逐一考察了其余的备选解释变量之后, 并没有任何除以外其他的备选解释变量被引入到模型1中去。因此, 在非对数线性模型形式下, 按照本文的建模方法, 所能找到的最优模型就是模型1。由于模型1是一元回归, 为了验证模型1不存在设定偏误, 我们进行拉姆齐RE-SET检验, 即回归设定误差检验。检验结果为:统计量F=4.099930, 概率值p=0.048182。

检验结果表明, 在5%的显著水平上, 不能认为模型1存在设定误差。由此可以得出结论, 按照本文的建模方法, 模型1是非对数线性模型形式中的最优结果, 无多重共线性、无异方差ARCH效应、无自相关、残差白噪声且无设定偏误。但是, 模型1的拟合优度不够高, 仅为0.27。因此, 本文将以同样的建模方法接着考察对数线性模型, 以期能获得更好的模型。

(二) 对数线性模型

1、模型表达式。

按照本文的建模方法, 即采取和建立非对数线性模型相同的程序, 同时考虑模型的统计性质优越性, 最终获得1个具备优良统计性质的模型, 即模型2:

2、对模型2统计性质的检验。

模型2是一元回归, 因此没有多重共线性。采取与检验模型1完全相同的检验方法, 发现模型2也不受残差单位根、异方差ARCH效应、自相关和设定偏误的困扰。

3、对数线性模型小结。

根据本文的建模方法, 所能找到的最优对数线性模型是模型2。依照相关的检验结果, 模型2的残差是不含单位根的白噪声, 此外模型2也不受多重共线性、异方差ARCH效应、自相关和设定偏误的困扰, 并且拟合优度高达0.87。因此, 笔者认为模型2是统计性质优良且拟合优度非常令人满意的模型。

二、建模结果总结

经过对非对数线性模型和对数线性模型的考察, 最终得出了两个较为令人满意的模型, 列示如下:

现对这两个模型分析如下:模型1的优点是模型统计性质优良且变量形式简洁;缺点是拟合优度不高, 仅为0.27;由于模型中不含滞后项, 因而无法用于预测。模型2的优点是模型统计性质优良, 拟合优度很高, 约为0.87;缺点是不含滞后项, 难以用于精确的预测, 且模型中的变量都经过了取对数和差分处理, 与实际变量存在一定的差距, 不便应用。

从模型中获得的结论有:第一, 宏观变量与深证A股指数的相关度较低。通过回归分析发现:汇率、利率、GDP增长率与△Y或△lnY都没有显著的相关关系。然而, 从投资理论的角度来看, 汇率、利率和GDP增长率与股指的相关关系并不能因此而被否定。之所以没能通过回归分析验证它们与股指之间的相关关系, 可能是由样本性质和我国特殊的资本市场结构性缺陷决定的。随着股权分置改革的不断推进, 宏观变量与股指之间的相关关系有望得到进一步的加强。第二, 微观市场变量与深证A股指数有较强的相关性。通过回归分析发现, 所有的微观变量与深证A股指数都有着较强的相关关系。之所以选择了换手率 (X5) 和流通市值 (X8) 的相应形式作为解释变量, 完全是出于模型统计性质优良性的考虑。

摘要：本文考察了汇率、利率、GDP增长率、成交量、换手率、市盈率、基金成交金额和流通市值等8个与深证A股指数在理论上有相关性的备选解释变量, 采取平均经济回归方法建模, 构建通过多重共线性检验、异方差检验、模型设定偏误检验和自相关检验等各种检验且统计性质优良的线性模型和对数线性模型, 并对这两种模型进行比较后证实:深证A股指数与宏观变量的相关度较低, 却与微观市场变量有着很强的相关性。

关键词：深证A股指数,证券市场,计量模型

参考文献

[1] (美) 古扎拉蒂.计量经济学[M].北京:中国人民大学出版社, 2000.

[2]邢锋.福建省1978～2004税收负担的实证分析[J].亚太经济, 2006.2.

统计定价模型的改进与实证分析篇6

2007年由高祥宝和阎慧敏发表的《统计定价模型与股票投资决策》将影响二级市场股票价格的因素分为投资因素与投机因素两大类, 在此基础上提出了二级市场股票的统计定价模型, 讨论了利用统计定价模型进行投资决策的方法, 并对统计定价模型与其它各种定价方法进行了比较。以我国证券市场的钢铁板块作为研究样本进行了实证分析, 实证结果表明, 投资价格相对低估的股票 (采用统计定价模型选出的) 可获得高于钢铁板块平均收益。

二、统计定价模型的改进

本文主要针对影响二级市场股票价格的影响因素, 对文献《统计定价模型与股票投资决策》中模型中的变量进行了改进, 其中投资因素选择每股净资产、净资产收益率、每股经营现金流、利润分配能力指标;投机因素增加了第一大股东持股比例这一指标。股票定价的投资因素选取指标为营业利润率、基本每股收益、每股净资产、净资产收益率、每股经营现金流、分配能力指标 (由每股资本公积和每股未分配利润加重而得) ;投机因素指标选取第一大股东持股比例、流通A股。分别对创业板和煤炭板块进行实证分析, 研究股票价格的定价因素的同时探索不同板块股票定价影响因素的异同。本文涉及到的数据均来源于天相投资顾问有限公司。

三、实证分析

(一) 创业板

1.样本及变量的选取

选用2010年前上市的, 创业板111家上市公司作为研究样本。选取披露2010年中报后的2010年7至9月份这一阶段二级市场数据, 作为建模数据。以这111家上市公司股票在该季度平均价作为因变量的观测值。季度平均价为该季度内各周收盘价的加权平均, 以周成交量作为权重。

2.统计定价模型的参数估计

运用SPSS进行回归, 考虑多重共线性和异方差性, 进行了自变量的筛选, 剔除了标准化残差大于3的异常值, 最后得到以下结果如表1:

从表1可看出, 包括常数项在内, 营业利润率 (变量X1) 、年化基本每股收益 (变量X2) 、净资产收益率 (变量X3) 、每股经营现金流 (变量X4) 、利润分配能力指标 (变量X5) 均通过了显著性检验。统计定价模型的样本回归方程为:

undefined模型的拟合优度如表2所示:

从表2可知, 拟合优度72.5%, 说明模型整体拟合效果较好。该模型可以用于实际投资决策。

3.在投资决策上的实际应用

利用上述样本回归方程及111家公司3季报的数据对各公司股票价格进行拟合, 即模型估值, 再利用相对偏差公式: (股票实际价格-模型估值) /模型估值, 计算出这111只股票的股价相对偏差, 其中股票实际价格选用实证验证期间的区间 (10.1～12.31号) 开盘价。较小的相对偏差可能是由于抽样误差造成的, 因此选取相对偏差小于-15%的股票, 认为其股价波动被市场显著低估, 结果如下表3:

考察所选取的被低估的股票在后三个月中的市场表现, 由表3最后一列知, 所选取的股票都有很大的上升空间, 整个第四季度, 创业板的所有111支股票的整体平均涨幅为38.38%, 如此高的增长率是由创业板本身的属性决定的, 而所选的实质价值被市场低估的股票的平均增长率为48.1%, 在市场整体上涨时, 投资低估股票的盈利比整个创业板平均盈利高出25.3%。

(二) 煤炭板块

1.样本及变量的选取

选用2010年前上市的, 煤炭板块33家上市公司作为研究样本。选取披露2010年中报后的2010年7至9月份这一阶段二级市场数据, 作为建模数据。以这33家上市公司股票在该季度平均价作为因变量的观测值。季度平均价为该季度内各周收盘价的加权平均, 以周成交量作为权重。

2.统计定价模型的参数估计

运用SPSS进行回归, 考虑多重共线性和异方差性, 进行了自变量的筛选, 剔除了标准化残差大于3的异常值, 最后得到以下结果如表4:

从表4可以看出, 包括常数项在内, 净资产收益率 (变量X1) 、每股经营现金流 (变量X2) 、利润分配能力指标 (变量X3) 、流通A股 (变量X4) 均通过了显著性检验, 统计定价模型的样本回归方程为:

undefined

模型的拟合优度如表5所示:

由表5可知, 拟合优度为70.3%, 说明模型整体拟合效果较好。该模型可以用于实际投资决策。

3.在投资决策中的实际应用

利用上述样本回归方程及33家公司3季报的数据对各公司股票价格进行拟合, 即模型估值, 再利用相对偏差公式: (股票实际价格-模型估值) /模型估值, 计算出这111只股票的股价相对偏差, 其中股票实际价格选用实证验证期间的区间 (10.1～12.31号) 开盘价。较小的相对偏差可能是由于抽样误差造成的, 因此选取相对偏差小于-15%的股票, 认为其股价波动被市场显著低估, 结果如下表6:

考察所选取的被低估的股票在后三个月中的市场表现, 由表6最后一列知, 所选取的股票都有很大的上升空间, 整个第四季度, 煤炭板块所有33支股票的整体平均涨幅为49.29%, 而所选的实质价值被市场低估的股票的平均增长率为56.87%, 在市场整体上涨时, 投资低估股票的盈利比整个煤炭板块平均盈利高出15.39%。

(三) 创业板与煤炭板块股票价格影响因素的异同及启示

由以上分析可知, 影响创业板股票价格的主要因素为营业利润率、基本每股收益、净资产收益率、每股经营现金流、利润分配能力指标;影响煤炭板块股票价格的影响因素为净资产收益率、每股经营现金流、利润分配能力指标、流通A股。

两个板块的股票价格都受到投资因素的显著影响, 尤其是利润分配能力指标, 在模型中对因变量股票价格影响高度显著。这提示投资者在选取股票进行投资时要关注对企业的基本面分析, 从而挑选上涨潜力比较大的股票。

很明显可以看出投机因素中的流通A股对创业板没有影响而对煤炭板块有影响, 这与创业板和煤炭板块的发行规模不无关系, 创业板的上市公司多处在创业初期, 盘小, 流通中的股票相当小, 总股本也都不大, 投机可能性比较大, 但这些公司之间的股本规模差异较小, 因此流通A股股本对创业板股票定价影响不显著。而煤炭板块中的股票股本无论流通A股还是总股本相差较大, 流通A股本成为该板块内股票定价的显著影响因素。

笔者还对其他季度的数据做了同上面类似的计算, 结果表明, 采用统计定价模型选出的价格低估的股票在创业板和煤炭板块处于上升过程时, 其股价涨幅高于所在版块整体平均涨幅, 而当创业板和煤炭板块处于下降过程中是, 其股价跌幅低于所在版块整体平均跌幅。

四、结论

不同时期股票价格的影响因素会有略微的变化, 但是, 总体上仍然分为投资因素和投机因素两大类, 并且呈现投资因素对所有股票的价格均有显著影响而投机因素对部分板块的股票影响不太显著, 故在建立统计定价模型时, 反映投资因素的初选变量可以多一些。统计定价模型在不同时期具体考察某一指标的影响时, 可能对某一个板块的影响不显著, 但综合来看统计定价模型能反映股票价格影响各因素对股价的影响, 并且能够准确的找到市场上被低估的股票, 从而引导投资者选择相对低估的股票, 提高投资收益率。

参考文献

[1]高祥宝, 闫慧敏.统计定价模型与股票投资决策[J].统计与决策, 2007, (8) .

[2]程翼, 魏春燕.股票定价理论及其在中国股票市场的应用[J].中国社会科学院研究生院学报, 2005, (3) .

[3]杨永光.股票定价理论及在我国的实证研究[J].统计与决策, 2001, (9) .

[4]李鑫, 刘小莉, 徐寒飞.权益证券定价方法[M].复旦大学出版社, 2004.

[5]李胜坤.期权定价理论与资产评估[J].业务与技术.财苑, 2004.

[6]中国证券业协会.证券投资分析[M].中国财政经济出版社, 2005.

[7]施东晖.中国股市微观行为理论与实证[M].上海远东出版社, 2001.

[8]斯帝芬.佩因曼.收益和现金流定价和权责发生制的有效性[J].2003.

中国油料产量统计分析与模型预测篇7

本文从中国油料生产的结构特征出发, 根据经济学基本原理导出系统的一个演化模型, 利用较为可靠的经济统计数据, 借助E views软件对这一演化模型的各个参数进行优化估计, 映证这一演化模型的真实性;据此演化模型, 预测2008年~2040年中国历年油料产量演化路径, 分析它的各种特性, 提出相应的政策建议。

二、中国油料产量演化模型及其参数优化

在最简单情形下, 假设中国油料产量增长率与增长剩余空间成正比, 则:

其中, N表示中国油料产量, K表示中国油料产量在现有经济结构模式下的饱和值, k表示增长率与其剩余空间之比, t表示时间。

两边积分, 代入初始条件N0, 得:

或:

也可以写成如下形式:

这是有名的log istic演化模型。

利用较为可靠的经济统计数据 (图1中的圈点) , 借助E views软件对这一演化模型的各个参数进行优化估计, 得:

残差R=1691665;

即, 中国历年油料产量演化模型的完整优化表达式为 (万吨) :

演化模型曲线 (图1中的十字符号) 与实际统计数据散点图比较可以看出, 模型对统计数据拟合得较好, 这说明, 这一演化模型是中国历年油料产量演化路径的一个较为切合实际的模拟, 它能够反映中国历年油料产量演化这一客观过程的主要特征和发展趋势。但是, 有个别时间区间中国历年油料产量的演化路径离偏正态log istic路径, 这是由于经济结构调整 (不是变更) 期间经济结构参数变动所造成的飘移。

三、演化模型对2008年~2050年中国油料产量演化路径的预测

取时间区间为1949年~2050年, 将统计数据散点图和演化模型预测曲线表示在同一张图上, 可以看出, 模型曲线在2050年附近抵达饱和值K, 此时中国经济结构及中国油料生产将发生重大变更;中国油料产量相变点 (加速增长与减速增长的临界点) 为0.5K, 此点将出现在2010年附近;仿真曲线显示1985年~2040年是中国油料产量增长的最优时段;中国油料产量子系统是一个近似log istic演化系统, 这一系统的对log istic路径的离偏较小, 说明这一子系统是稳定的、有序的、风险性很小的。

四、结论和政策建议

当前中国油料生产即将越过其加速增长与减速增长的相变点, 继续高速增长30年后方才接近其饱和值。在2050年前后, 伴随着中国经济系统整体结构重大变更, 中国油料产量系统也将进入下一个log istic演化周期。

因此, 一个较长的时期内, 中国油料生产的工作重点应当致力于努力扩大投资, 尽力提高产品质量, 积极创建优质品牌, 降低生产成本, 降低交易费用, 顺应油料生产的客观演化规律, 进行科技创新, 确保中国油料生产沿着log istic路径正态运行。

参考文献

统计语言模型分析篇8

关键词：统计套利,成对交易,应用分析

一、统计套利模型的原理简介

统计套利模型是基于两个或两个以上具有较高相关性的股票或者其他证券, 通过一定的方法验证股价波动在一段时间内保持这种良好的相关性, 那么一旦两者之间出现了背离的走势, 而且这种价格的背离在未来预计会得到纠正, 从而可以产生套利机会。在统计套利实践中, 当两者之间出现背离, 那么可以买进表现价格被低估的、卖出价格高估的股票, 在未来两者之间的价格背离得到纠正时, 进行相反的平仓操作。统计套利原理得以实现的前提是均值回复, 即存在均值区间 (在实践中一般表现为资产价格的时间序列是平稳的, 且其序列图波动在一定的范围之内) , 价格的背离是短期的, 随着实践的推移, 资产价格将会回复到它的均值区间。如果时间序列是平稳的, 则可以构造统计套利交易的信号发现机制, 该信号机制将会显示是否资产价格已经偏离了长期均值从而存在套利的机会在某种意义上存在着共同点的两个证券 (比如同行业的股票) , 其市场价格之间存在着良好的相关性, 价格往往表现为同向变化, 从而价格的差值或价格的比值往往围绕着某一固定值进行波动。

二、统计套利模型交易策略与数据的处理

统计套利具体操作策略有很多, 一般来说主要有成对/一篮子交易, 多因素模型等, 目前应用比较广泛的策略主要是成对交易策略。成对策略, 通常也叫利差交易, 即通过对同一行业的或者股价具有长期稳定均衡关系的股票的一个多头头寸和一个空头头寸进行匹配, 使交易者维持对市场的中性头寸。这种策略比较适合主动管理的基金。

成对交易策略的实施主要有两个步骤:一是对股票对的选取。海通证券分析师周健在绝对收益策略研究—统计套利一文中指出, 应当结合基本面与行业进行选股, 这样才能保证策略收益, 有效降低风险。比如银行, 房地产, 煤电行业等。理论上可以通过统计学中的聚类分析方法进行分类, 然后在进行协整检验, 这样的成功的几率会大一些。第二是对股票价格序列自身及相互之间的相关性进行检验。目前常用的就是协整理论以及随机游走模型。

运用协整理论判定股票价格序列存在的相关性, 需要首先对股票价格序列进行平稳性检验, 常用的检验方法是图示法和单位根检验法, 图示法即对所选各个时间序列变量及一阶差分作时序图, 从图中观察变量的时序图出现一定的趋势册可能是非平稳性序列, 而经过一阶差分后的时序图表现出随机性, 则序列可能是平稳的。但是图示法判断序列是否存在具有很大的主观性。理论上检验序列平稳性及阶输通过单位根检验来确定, 单位根检验的方法很多, 一般有DF, ADF检验和Phillips的非参数检验 (PP检验) 一般用的较多的方法是ADF检验。检验后如果序列本身或者一阶差分后是平稳的, 我们就可以对不同的股票序列进行协整检验, 协整检验的方法主要有EG两步法, 即首先对需要检验的变量进行普通的线性回归, 得到一阶残差, 再对残差序列进行单位根检验, 如果存在单位根, 那么变量是不具有协整关系的, 如果不存在单位根, 则序列是平稳的。EG检验比较适合两个序列之间的协整检验。除EG检验法之外, 还有Johansen检验, Gregory hansan法, 自回归滞后模型法等。其中johansen检验比较适合三个以上序列之间协整关系的检验。通过协整检验, 可以判定股票价格序列之间的相关性, 从而进行成对交易。

Christian L.Dunis和Gianluigi Giorgioni (2010) 用高频数据代替日交易数据进行套利, 并同时比较了具有协整关系的股票对和没有协整关系股票对进行套利的立即收益率, 结果显示, 股票间价格协整关系越高, 进行统计套利的机会越多, 潜在收益率也越高。

根据随机游走模型我们可以检验股票价格波动是否具有“记忆性”, 也就是说是否存在可预测的成分。一般可以分为两种情况:短期可预测性分析及长期可预测性分析。在短期可预测性分析中, 检验标准主要针对的是随机游走过程的第三种情况, 即不相关增量的研究, 可以采用的检验工具是自相关检验和方差比检验。在序列自相关检验中, 常用到的统计量是自相关系数和鲍克斯-皮尔斯Q统计量, 当这两个统计量在一定的置信度下, 显著大于其临界水平时, 说明该序列自相关, 也就是存在一定的可预测性。方差比检验遵循的事实是:随机游走的股价对数收益的方差随着时期线性增长, 这些期间内增量是可以度量的。这样, 在k期内计算的收益方差应该近似等于k倍的单期收益的方差, 如果股价的波动是随机游走的, 则方差比接近于1;当存在正的自相关时, 方差比大于1;当存在负的自相关是, 方差比小于1。进行长期可预测性分析, 由于时间跨度较大的时候, 采用方差比进行检验的作用不是很明显, 所以可以采用R/S分析, 用Hurst指数度量其长期可预测性, Hurst指数是通过下列方程的回归系数估计得到的:

R/S是重标极差, N为观察次数, H为Hurst指数, C为常数。当H>0.5时说, 说明这些股票可能具有长期记忆性, 但是还不能判定这个序列是随机游走或者是具有持续性的分形时间序列, 还需要对其进行显著性检验。

无论是采用协整检验还是通过随机游走判断, 其目的都是要找到一种短期或者长期内的一种均衡关系, 这样我们的统计套利策略才能够得到有效的实施。

进行统计套利的数据一般是采用交易日收盘价数据, 但是最近研究发现, 采用高频数据 (如5分钟, 10分钟, 15分钟, 20分钟收盘价交易数据) 市场中存在更多的统计套利机会。日交易数据我们选择前复权收盘价, 而且如果两只股票价格价差比较大, 需要先进性对数化处理。Christian L.Dunis和Gianluigi Giorgioni (2010) 分别使用15分钟收盘价, 20分钟收盘价, 30分以及一个小时收盘价为样本进行统计套利分析, 结果显示, 使用高频数据进行统计套利所取得收益更高。而且海通证券金融分析师在绝对收益策略系列研究中, 用沪深300指数为样本作为统计套利配对交易的标的股票池, 使用高频数据计算累计收益率比使用日交易数据高将近5个百分点。

三、统计套利模型的应用的拓展—检验资本市场的有效性

Fama (1969) 提出的有效市场假说, 其经济含义是:市场能够对信息作出迅速合理的反应, 使得市场价格能够充分反映所有可以获得的信息, 从而使资产的价格不可用当前的信息进行预测, 以至于任何人都无法持续地获得超额利润.通过检验统计套利机会存在与否就可以验证资本市场是有效的的, 弱有效的, 或者是无效的市场。徐玉莲 (2005) 通过运用统计套利对中国资本市场效率进行实证研究, 首先得出结论:统计套利机会的存在与资本市场效率是不相容的。以此为理论依据, 对中国股票市场中的价格惯性、价格反转及价值反转投资策略是否存在统计套利机会进行检验, 结果发现我国股票市场尚未达到弱有效性。吴振翔, 陈敏 (2007) 曾经利用这种方法对我国A股市场的弱有效性加以检验, 采用惯性和反转两种投资策略发现我国A股若有效性不成立。另外我国学者吴振翔, 魏先华等通过对Hogan的统计套利模型进行修正, 提出了基于统计套利模型对开放式基金评级的方法。

四、结论

统计套利模型的应用目前主要表现在两个方面:1.作为一种有效的交易策略, 进行套利。2.通过检测统计套利机会的存在, 验证资本市场或者某个市场的有效性。由于统计套利策略的实施有赖于做空机制的建立, 随着我股指期货和融资融券业务的推出和完善, 相信在我国会有比较广泛的应用与发展。

参考文献

[1]A.N.Burgess:A computational Methodolology for Modelling the Dynamics of statistical arbitrage, London business school, PhD Thesis, 1999.

[2]方昊.统计套利的理论模式及应用分析—基于中国封闭式基金市场的检验.统计与决策, 2005, 6月 (下) .

[3]马理, 卢烨婷.沪深300股指期货期现套利的可行性研究—基于统计套利模型的实证.财贸研究, 2011, 1.

[4]吴桥林.基于沪深300股指期货的套利策略研究[D].中国优秀硕士学位论文.2009.

统计语言模型分析篇9

风能、太阳能等新能源是一种可以有效转为电能的清洁能源。与传统能源发电相比, 风能、太阳能是不稳定的, 且受环境、天气等因素制约其本质上也是不可控的[1]。传统火力、水力发电厂的效益评价方法在新能源发电厂已经不再适用。而目前的新能源电厂监控系统对发电效益的评价方法往往较为简单, 且只针对单一的使用者。如何针对新能源电厂的各方如电厂业主、电网调度、设备制作商及财务投资者, 对发电效益提供不同的评价已成为一个迫切的问题[2]。本文基于面向对象的新能源发电设备模型、环境模型及电网模型, 采用分布式建模、统一模型定义的方法建立全周期统计模型, 比传统火力发电的利用小时数更具有可信性。

1 系统结构

首先根据新能源特点, 建立统计模型, 利用可编程平台计算发电设备运行状态。在此基础上, 采用功能关系链技术, 实现新能源电厂效益的综合分析。系统结构如下图所示。

整体系统分为三部分:

(1) 基于可编程平台的新能源发电设备运行状态计算。提取公共对象, 将逻辑与对象分离, 屏蔽发电设备差异, 计算运行状态。

(2) 基于面向对象的分布式新能源全寿命周期统计模型建模。建立基于面向对象的新能源发电设备、环境及电网的分布式、统一定义、全周期模型。

(3) 基于功能关系链技术的新能源电厂效益分析。以统计模型中发电设备状态、电网电气量及环境实测量作为敏感因子, 根据各因子功能耦合关系, 计算各种可利用率。

2 新能源发电设备运行状态评估

2.1 可编程平台技术

根据新能源发电特点, 提取公共对象, 将逻辑与对象分离, 提供互不相容的运行类别, 可屏蔽发电设备类型带来的差异, 评估出当前发电设备运行状态。将高级应用分解为量测类对象、控制类对象、参数类对象、显示类对象等基本要素, 对每一种基本要素以独立的线程加以管理。

2.2 新能源发电设备运行状态评估

为了对新能源发电设备运行状态进行评估, 需要对设备定义不相容的状态。表1列出了这些运行状态。

3 基于面向对象的分布式全周期统计模型的新能源电厂效益分析

3.1 面向对象的分布式全寿命周期统计模型建模

本系统采用面向对象数据库模型设计, 分别建立了新能源发电设备模型、电网模型及环境模型, 并完全支持IEC61400风机模型及IEC 61970电网模型。模型将影响设备检修、故障、运行、停机等各阶段的因素分别建立模型, 不同模型之间根据功能建立单向、双向关系, 实现全寿命周期的统计模型。

3.2 利用功能关系链技术进行效益分析

利用功能关系链技术, 将统计模型中发电设备状态、电网电气量及环境实测量作为敏感因子, 根据各因子功能耦合关系, 提供面向电厂业主、电网调度、设备制造商等多种可利用率, 实现新能源电厂效益的综合分析。

3.3 电网可利用率

电网可利用率指电网可用期间所站的时间比例, 反映电网运行的稳定情况。

3.4 发电设备可利用率

发电设备可利用率表示在环境条件适宜的条件下, 设备正在发电或者准备发电占真个适宜发电时间的比例。这个数据可以对发电设备运行性能优劣进行量化。

3.5 业主可利用率

业主可利用率表示在环境条件适宜的条件下, 发电设备正在发电或者准备发电的时候占场地适宜发电时间的比例。这个数据从业主角度量化了发电设备运行性能的优劣。

3.6 场地可利用率

场地可利用率表示场地条件适宜发电设备运行的时间比例。

结语

本文通过可编程平台屏蔽了从设备类型、运行方式及环境条件带来的差异。根据新能源发电特点, 提取公共对象, 将逻辑与对象分离, 提供互不相容的运行类别, 可屏蔽发电设备类型、运行方式、环境条件带来的差异, 评估出当前发电设备运行状态。通过使用基于功能关系链技术的可利用率计算方法, 建立基于面向对象的新能源发电设备、环境及电网的分布式、统一定义、全周期模型。通过功能关系链技术, 将统计模型中发电设备状态、电网电气量及环境实测量作为敏感因子, 根据各因子功能耦合关系, 提供面向电厂业主、电网调度、设备制造商等多种可利用率, 实现新能源电厂效益的综合分析。

摘要：基于面向对象的新能源发电设备模型、环境模型及电网模型, 采用分布式建模、统一模型定义的方法建立全周期统计模型。以实测发电运行状态、电网电气量为基础, 采用风速、温度、日照、大气密度等变化环境量作为敏感因子, 提供各种不相容的统计类别。基于统计模型的新能源电厂效益分析方法比传统火力发电的利用小时数更具有可信性, 对提高新能电厂运行效率、保证电网可靠性具有实际的应用价值。

关键词：面向对象,新能源,统计模型

参考文献

[1]李亚楼, 周孝信, 林集明.2008年IEEE PES学术会议新能源发电部分综述.电网技术, 2008, 20 (1) :61-65.

【统计语言模型分析】推荐阅读：

地形统计模型07-10

统计信道模型论文05-27

交际语言能力模型06-24

统计处理分析06-03

统计分析08-23

计划统计分析07-03

统计分析体系05-10

论文统计与分析05-17