随机数据采集

2024-09-14

随机数据采集(精选9篇)

随机数据采集 篇1

老师们都知道, 推断性数据分析的目的是要通过数据来推测产生这些数据的背景, 称这个背景为总体.假定总体是未知的, 我们的目的是通过样本来推断总体.而在调查或者试验之前, 我们不可能知道数据的具体取值.也就是说, 数据可以取不同的值, 并且取不同值的概率可以是不一样的, 这就是数据随机性的由来.

数据的随机主要有两层含义:一方面对于同样的事情每次收集到的数据可能会是不同的;另一方面只要有足够的数据就可能从中发现规律.举一个《数学课程标准 (2011年版) 》中的例子 (例40) :袋中装有若干个红球和白球, 一方面, 每次摸出的球的颜色可能是不一样的, 事先无法确定;另一方面, 有放回重复摸多次 (摸完后将球放回袋中, 摇晃均匀后再摸) , 从摸到的球的数据中就能发现一些规律, 比如, 红球多还是白球多, 红球和白球的比例等.再举一个案例 (例22) , 学生记录自己在一个星期内每天上学途中所需要的时间, 如果把记录时间精确到分, 可能学生每天上学途中需要的时间是一样的, 可以让学生感悟数据的随机性.更进一步, 让学生感悟虽然数据是随机的, 但数据较多时具有某种稳定性, 可以从中得到很多信息, 比如, 通过一个星期的调查可以知道“大概”需要多少时间.

很多老师有这样的困惑:概率也是研究随机现象的, 那么为什么又提出数据的随机性呢?实际上, 统计与概率都是研究随机现象的学科.“不论怎么说, 机遇 (或说偶然性) 无所不在, 机遇伴随着人的一生 (当然随人的情况而有异) , 这是一个无法回避的现实.”统计与概率侧重建立理论模型来刻画随机.鼓励学生运用数据体会随机, 更能体会随机的特点.下面是课程标准修订组组长史宁中教授的回答:

我听一些课, 老师们经常这样处理:比如对于掷一枚均匀的硬币, 先得到出现正面或反面的概率是12, 然后让学生通过反复掷硬币去验证这个结果.这里有两个问题.第一, 一个硬币, 先假定它出现正面和反而的可能性是12, 这是数学 (或者称为概率) , 这个12是通过概率的定义得到的, 不是依靠掷硬币验证出来的.实际上, 学生做了很多次试验也得不到12, 反而更加糊涂了.第二, 运用定义的方式教学随机, 不能很好地培养学生的随机观念.

需要指出的是, 我们赞成做试验, 赞成运用统计的思想来做试验.统计是通过数据来获取一些信息, 来帮助人们作出一些判断.同样是掷硬币的问题, 在统计上就会这样设计试验:先让学生多次掷硬币, 计算出现正面的比例 (频率) , 然后用频率来估计一下出现正面的可能性是多大.如果这个可能性接近12的话, 就推断这个硬币大概是均匀的, 这是统计的思想.

“对于先给出定义, 教师往往比较习惯, 而对于’逆过来‘通过数据来进行推断, 教师往往比较陌生.为了帮助大家理解, 再阐述一组摸球的例子.同样是一个袋子里有5个球, 4个白球、1个红球, 如果让学生通过摸来验证出现白球的可能性是54、出现红球的可能性是51, 这不是统计.统计是这样的, 告诉学生袋子里有很多球, 有白颜色的和红颜色的.让孩子们去摸, 摸到一定程序的时候, 学生发现摸出白球的次数比红球的次数多, 由此推断袋子里的白球可能比红球多.进一步的话, 能推断出白球和红球的比例大概是多少.这时, 告诉球的总数, 就能够估计出来几个白球和几个红球, 这个是统计的过程.

“我并不反对前一种教法本身, 而且说如果这么数, 蕴涵的随机思想并不强, 学生也不感兴趣, 都知道了概率为什么还要做试验.而后来的几种教法, 学生体会到每一次摸的结果事先都不知道, 但是摸多了能够帮助我们做一些判断.这样一来, 学生既体会了随机, 又感受到了数据中蕴涵着信息, 我想这种类似于“猜谜”的活动学生也会很有兴趣.”

实际上这种“猜谜”绝不是“瞎猜”, 《数学课程标准 (2011年版) 》还利用案例阐述了在第二学段、第三学段的不同要求对于上面提到的摸球游戏, 第二学段通过摸球, 学生发现每次摸出的颜色不确定, 初步感受数据的随机性.进一步通过统计摸出红球和白球的数量, 可以估计袋中是白球多还是红球多.在不确定的基础上, 体会规律性.第三学段在第二学段的基础上, 学生可以估计袋中白球数量和红球数量的比, 进一步体会规律性.教师可以进一步鼓励学生思考:给出了袋中两种颜色球的总数, 如何估计白球和红球和各自的数量.另外, 在第三学段, 《数学课程标准 (2011年版) 》还提出了“通过表格、折线图、趋势图等, 感受随机现象的变化趋势”, 并给出了案例71.案例71刻画的是变量之间的随机关系, 即年份与GDP是有关系的, 但这种关系是不确定的.因为描点呈现线性增长趋势, 所以可以进一步引导学生利用直线来表示这种趋势.数学中, 可以鼓励学生尝试大致画出这条直线.比如, 有的学生会根据直线两侧的点要基本相同来描出此直线, 并由此预测未来经济发展, 感受一些随机现象的规律性.对于直线方程如何求得, 则不做要求.

摘要:数据可以取不同的值, 并且取不同值的概率可以是不一样的, 这就是数据随机性的由来.数据的随机主要有两层含义:一方面对于同样的事情每次收集到的数据可能会是不同的;另一方面只要有足够的数据就可能从中发现规律.

关键词:数据,随机性

参考文献

[1]史宁中.数学思想概论:数量与数量关系的抽象, 长春:东北师范大学出版社, 2008:143.

[2]陈希孺.机会的数学.北京:清华大学出版社, 2003.

[3]史宁中, 张丹, 赵迪.“数据分析观念”的内涵及教学建议[J].课程·教材·教法, 2008 (6) .

随机数据采集 篇2

我们在Excel工作表的单元格中输入“=RandBetwween(10,100)”(不包括引号),

图示:Excel会自动给出提示

回车,这个单元格中就出现了一个10到100之间的随机数。

随机网络编码数据传输的仿真实现 篇3

网络编码技术[1,2]是由路由传输技术扩展而来的, 就路由传输技术来说, 中间节点只负责复制和转发接收到的信息, 而对于网络编码技术而言, 中间节点不仅具有直接复制和转发信息的功能, 还可以对接收到的信息进行编码后再进行转发。

采用网络编码技术实现数据传输的关键是构造网络编码方案。随机网络编码构造算法[3]由于事先不需要获知网络的全局拓扑知识, 也不需要事先确定节点各链路的编码向量, 从而具有较好的可扩展性和可实施性, 备受人们青睐。

在对网络编码进行教学与科研的过程中, 常常需要有实验环节或仿真计算, 可以采用自编模拟程序的方式[4], 但这种方式需要编制大量的程序, 同时存在不直观、不利于对实验结果进行分析和比较的缺点;文献[5]提出了一种基于Window套接字编程的网络编码仿真实现方法, 但只涉及最简单的有限域的异或运算, 也只能适应于最简单的“蝴蝶网络”;还有一些学者选择NS和OPNET等仿真软件来实现[6], 但这些软件的优势在于对高层协议的支持, 而要实现网络编码数据传输的模拟, 必须对其进行扩展, 由于这些软件使用起来较为复杂, 扩展具有一定的难度;此外, 还可以采用硬件的方法构造实验平台[7,8], 但必须采用特殊的硬件, 实现起来较麻烦。本文提出了一种简便的随机网络编码数据传输的仿真实现方法, 它不需要特定的软、硬件支持, 在一般的实验室内就可以实现, 同时又不同于软件仿真, 具有一定的直观性。在局域网内选取相互连接的若干终端来模拟网络节点, 以套接字 (IP地址+端口号) 代表节点间的有向链路, 采用UDP数据传输来模拟有向链路的数据流动, 从而实现了对单源组播网络的模拟。在节点上运用Java编程[9]实现了有限域的算术运算, 根据网络编码数据传输策略, 各节点采用Java套接字编程方法实现数据的接收与发送, 中间节点调用有限域的算术运算方法对输出信道进行编码, 形成了编码数据包, 宿点接收数据包, 调用有限域的算术运算方法, 对接收的数据进行解码而恢复出源点播出的信息。采用Java编程实现各部分的功能, 形成了一个完整的软件系统, 各节点只需要依次运行该系统并输入相关的信息便可以工作, 各节点的相互作用便实现随机网络编码的数据传输。仿真结果表明提出的方法是有效的, 且该方法具有软硬件要求低、操作方便的特点, 并易于掌握和实现。提出的方法适用于在一般的单源组播网络上实现随机网络编码的数据传输仿真, 为网络编码的实验环节与仿真计算提供了有效的方法。

1 随机网络编码数据传输策略

一个单源组播网络可以用一个有向无环图表示, 其中有一个源点、若干宿点以及若干中间节点, 节点间存在有向链路, 为了描述方便, 各链路的容量均为1个单位, 称之为信道。源点产生数据, 各节点采用网络编码技术进行数据传输, 宿点接收信息后通过解码恢复出源点产生的信息。

对于一个节点v, 记In (v) 为输入信道集, Out (v) 为输出信道集。

在一个单源组播网络上采用随机网络编码方法实现数据传输, 设源点至宿点集的组播容量为C, 选定正整数n (n≤C) 作为组播率, 则在每一代 (或称每一轮) , 源点产生n个数据包, 记为 (X1, X2, …, Xn) , 每一个数据包对应一个全局编码向量。

源点产生的数据包对应的全局编码向量是一个n维向量, 每一个分量是有限域F上的一个字符, 记第i个数据包对应的全局编码向量为Vi, Vi为单位向量, 它除了第i个分量为1外, 其余分量全为0。

一般来说, 对于源点或中间节点, 设其接收到 (若为中间节点) 或产生 (若为源点) 的数据包为Y1, Y2, …, Yp, 当节点为源点时, 则p=n, 当节点为中间节点v时, p=|In (v) |。各个数据包对应的全局编码向量为 (T1, T2, …, Tp) , 每个全局编码向量也是n维的。若该节点需要传输信息至m (m=|Out (v) |) 条输出信道, 则对于第i (1≤i≤m) 条输出信道, 节点在有限域F上分别随机产生p个随机数 (xi, 1, xi, 2, ..., xi, p) , 分别与 (Y1, Y2, …, Yp) 相对应。节点为第i条输出信道进行编码, 产生输出数据包为。

节点向第i条输出信道发送全局编码向量TOi和数据包Zi, 记为TOi||Zi。

对于宿点, 至少需要从n条输入信道中接收数据包和相应的全局编码向量, 利用全局编码向量和数据包构成一个n维线性方程组, 采用高斯消元法求解线性方程组就可以恢复出源点播出的数据包 (X1, X2, …, Xn) 。

2 有限域的算术运算

网络编码操作在有限域上, 在编码过程中, 涉及到有限域字符之间的加、乘运算, 在解码过程中, 涉及到有限域字符之间的加、减 (有限域的字符的相减运算与相加运算一致) 、乘、除运算, 因此, 在实现随机网络编码数据传输过程, 节点必须能实现有限域的算术运算[10]。

选定有限域的阶和相应的本源多项式, 本文选定有限域为GF (28) , 相应的本原多项式为x8+x4+x3+x+1, 从而本文中有限域中的字符为8位二进制数, 可以用一个字节 (byte) 表示。根据有限域的运算规则, 两个字符的算术运算的结果仍为8位二进制数。运用Java编程构造一个类, 记为GF.class, 类中以静态方法给出了有限域GF (28) 中两个字符的加、乘、除运算, 三个主要方法如下:

节点在进行编码或解码时, 如要实现有限域的运算, 只需把GF.class类包含进来, 同时在需要实现相应运算的地方调用该类中相应的静态方法即可。

3 随机网络编码数据传输技术的仿真实现

本文以一个典型的单源组播网络为例 (如图1所示) 来说明如何在实验室构造随机网络编码数据传输的仿真实现模型, 只要根据单源组播网络拓扑的节点和链路情况对模型的参数进行修改, 构造出的模型也适合一般的单源组播网络。

3.1 单源组播网络的仿真

在图1所示的单源组播网络中, 节点S是数据源点, 节点1、节点2、节点3、节点4、节点5均为中间节点, 节点T1和T2为宿点, 源点产生信息经过网络编码后由输出信道传输至网络, 中间结点把接收到信息进行网络编码后再由其输出信道进行转发, 宿点通过输入信道接收数据包后, 由各输入信道的全局编码向量和数据包的内容构造线性方程组, 通过求解线性方程组恢复出源点产生的信息。

为了对图1的网络拓扑进行模拟, 在局域网内选择8个网络终端, 它们同处在一个C类地址 (172.16.101) 的网段内, 各网络终端采用集线器或交换机相连接, 其IP地址的分配如图2所示。

用网络终端来代表单源组播网络的节点, 用网络套接字 (IP地址+端口号) 来代表节点间的有向信道, 采用UDP数据通信来表示有向信道上的数据传输, 并运用Java套接字编程来实现。由图1可以看出, 源点S至宿点集的组播容量为3, 因此选定整数3为组播率, 源点每一代产生3个数据包, 相当于源点分别从3条虚拟单位信道中接收到3个数据包。

有向信道与套接字的对应关系如图3所示。在图3中, 单源组播网络的每一条有向信道对应一个套接字, 例如:源点至节点1的单位有向信道与套接字 (172.16.101.11:10011) 对应, 从而源点向节点1传输数据相当于源点向该套接字发送一个UDP数据包;同理, 节点2至节点5的有向信道与套接字 (172.16.101.15:1022) 对应, 节点2向节点5发送数据相当于节点2向该套接字发送一个UDP数据包。因此, 采用套接字来模拟有向信道, 就可以在局域网内实现对图1的单源组播网络的仿真。

3.2 源点S的工作流程

源点需要确定每代产生的数据包个数n, 也称之为组播率;同时需要确定输出信道数, 每一个输出数据包对应一条输出信道, 而每一条输出信道与一个套接字相联系, 因此需要确定每个输出数据包送往的IP地址和端口号。当以上工作完成后, 把每代传输的数据等成n等分, 每一等分构成一个输入数据包, 本文中采用人工的办法, 为每一个数据包输入等长的数据内容。然后为每一个输出数据包产生一个局部编码向量, 并求出全局编码向量和编码后的数据包, 再通过Java套接字编程把编码后的数据包传输至指定的套接字。

源点的工作主要包括以下5个部分内容:

(1) 键入组播率和输出信道数;

(2) 键入输出信道对应的套接字;

(3) 输入每一代要传输的数据;

(4) 为每一输出信道运用随机网络编码方法生成数据编码并生成相应的全局网络编码向量, 形成数据包;

(5) 根据给定的套接字发送UDP数据包。

运行我们开发的系统, 源点的运行界面如图4和图5所示, 通过图4的界面, 可以输入源点的组播率 (输入信道数) , 源点的输出信道数以及各输出信道对应的套接字;通过图5的界面输入每一代发送的数据包内容, 在本例中, 源点每一代发送3个数据包, 3个数据包应等长。

3.3 中间节点的工作流程

中间节点分别从上游节点接收数据, 然后分别转发至下游节点, 根据网络拓扑确定输入信道数, 以及每一输入信道对应的端口号;还需要确定输出信道数, 以及每输出信道对应的套接字。例如, 对于节点5来说, 其输入信道数为4, 对应的端口号分别为10021, 10022, 10023, 10024。而输出信道数为2, 对应的套接字分别为 (172.16.101.10033) 和 (172.16.101.17:10041) 。

中间节点的工作流程如下:

(1) 键入输入信道数以及各信道对应的端口号;

(2) 键入输出信道数及各信道对应的套接字;

(3) 从各输入信道对应的端口中接收数据包;

(4) 根据接收到的数据包, 采用随机网络编码方法为每一输出信道产生输出数据包;

(5) 根据给定的套接字发送UDP数据包。

中间节点的运行界面如图6所示, 通过这一界面, 可以输入中间节点的输入信道数以及每条输入信道对应的套接字, 由于每条输入信道的IP地址均为本机地址, 故只需输入相应的端口号;通过这一界面, 还需键入输出信道数以及每条输出信道对应的套接字。图6是节点5的运行界面, 从中可以看出, 节点的输入信道有4条, 对应的端口号分别为:10021、10022、10023、10024;而输出信道有2条, 对应的套接字为: (172.16.101.16:10033) 、 (172.16.101.17:10041) 。

3.4 宿点的工作流程

宿点需要从输入信道接收数据, 然后进行解码运算, 再恢复出源点播出的信息, 宿点的工作过程如下:

(1) 键入输入信道数以及各信道对应的端口号;

(2) 从各输入信道对应的端口中接收数据包;

(3) 根据接收到的数据包, 析出每一数据包的全局编码向量, 形成一个n维线性方程组, 通过高斯消元法, 求解该线性方程组, 恢复出源点播出的信息。

宿点的运行界面如图7和图8所示, 其中通过图7的界面输入宿点的输入信道的信息, 而图8的界面显示宿点恢复出源点产生的信息。

3.5 程序的执行

当上述各节的程序录入后, 则必须按一定的顺序运行各节点的程序, 即按T1, T2, 5, 4, 3, 2, 1, S的顺序启动程序运行, 当节点S的程序运行后, 每一代输入三个数据包的数据内容, 见图5, 然后点击“发送数据”按钮, 于是宿点T1和T2收到源点S播出的信息, 见图8。

4 结论

在实验室内构造出了一个随机网络编码数据传输的仿真实现模型, 在局域网内选择若干相互连接的网络终端代表网络节点, 以套接字代表节点间的有向信道, 以UDP数据通信表示有向信道的数据传输, 从而对单源组播网络进行了仿真, 采用Java编程实现了有限域的算术运算, 根据随机网络编码数据传输的算法分别编写源点、中间节点、宿点的编码和解码程序, 形成了一个完整的软件系统, 每一节点运行该系统并输入相应的信息, 各节点相互作用便可以实现随机线性网络编码的数据传输。

本文给出了一个实例, 仿真结果表明了方法的有效性, 只要根据单源组播网络的链路情况修改本模型的参数, 模型可以应用于一般的单源组播网络, 给出的方法具有软硬件要求低、操作方便的特点, 并易于掌握和实现。提出的方法为网络编码的实验环节与仿真计算提供了有效的方法。

参考文献

[1]陶少国, 黄佳庆, 杨宗凯等.网络编码研究综述[J].小型微型计算机系统, 2008, 29 (4) :583-592.

[2]范宇.基于RS码的网络编码层设计[J].软件, 2013, 34 (5) :92-95.

[3]Ho T, Medard M, Koetter R, et al.A random linear network coding approach to multicast[J].IEEE Transactions on Information Theory, 2006, 52 (10) :4413-4430.

[4]蒲保兴, 王伟平.线性网络编码运算代价的估算与分析[J].通信学报, 2011, 32 (5) :47-55.

[5]沈明, 蒲保兴, 唐彬.基于Windows套接字编程的网络编码仿真实现[J].软件, 2012, 33[2]:11-14.

[6]李令雄, 洪江守, 龙冬阳.NS仿真器的一个网络编码扩展[J].计算机科学, 2009, 36 (7) :71-73.

[7]Gibb G, Lockwood J, Naous J et al.Net FPGA-an open platform for teaching how to build gigabit-rate network switches and routers[J].IEEE Transactions on Education, 2008, 51 (3) :364–369.

[8]张明龙, 李挥, 李亦宁等.基于网络编码多信源组播通信系统[J].电子产品世界, 2011.3:23-25.

[9]梁宏涛.基于Java的设备故障诊断系统的设计与应用[J].软件, 2013, 34 (7) :5-6.

随机数据采集 篇4

基于时间序列模型的激光陀螺随机漂移数据处理

采用时间序列分析方法建立激光陀螺随机误差模型,应用递推最小二乘(RLS)法估计模型的参数,在此基础上对激光陀螺的漂移数据进行了卡尔曼滤波,结果表明:该方法能有效地抑制激光陀螺的随机误差,提高了激光陀螺的`精度.

作 者:郑佳华 王宏力 张明源 侯青剑 ZHENG Jia-hua WANG Hong-li ZHANG Ming-yuan HOU Qing-jian 作者单位:第二炮兵工程学院,陕西,西安,710025刊 名:传感器与微系统 PKU英文刊名:TRANSDUCER AND MICROSYSTEM TECHNOLOGIES年,卷(期):27(1)分类号:V448关键词:激光陀螺 随机漂移 时间序列 递推最小二乘法

随机数据采集 篇5

Zadeh于1 9 6 5年引入了模糊集理论, 用于处理各种主观因素较重和数据资料不完整等造成的不确定性信息[2]。在电力系统中存在着许多不具备随机分布特性的模糊性数据和信息, 不能采用概率的方法进行描述和处理, 而模糊集理论可根据这些不确定性信息的模糊特性, 利用隶属函数将这些不确定性信息以数学模型的形式包含在规划模型中进行模糊规划计算。本文通过模糊化处理各种不确定性数据, 采用模糊规划来描述输入输出之间的关系, 计算出模糊潮流得到潮流指标, 为模糊规划提供数据。从而得出一个在考虑所有不确定因素下最优的综合指标。

1 模糊理论模型的建立

模糊理论的数学建模关键是模糊隶属函数的选择, 不同的隶属函数会产生不同的规划结果。模糊规划方法在处理不同量纲、相互冲突的多目标规划问题方面, 最后目标不是某一指标达到最优, 而是追求综合满意度[3]。电网规划中客观存在的不确定性因素, 既有难以确定的随机性因素, 如电气设备的故障、系统停电事故的发生以及负荷水平等, 又有因信息资料不足而无法精确预测其数值的模糊性因素, 如负荷预测值、发电机出力以及设备价格、贴现率及电价的模糊性等。对于随机性不确定因素, 可采用概率统计的方法予以描述和处理, 而对模糊性不确定因素, 则利用模糊数学的方法予以解决。

2 梯形模糊数的交流潮流分析

梯形模糊数描述和处理模糊性不确定因素, 与工程中常采用的三角模糊数及区间数相比适应性更宽[4]。以负荷预测值为例, 用模糊预测法预测某一系统某年最高负荷时可能会得出这样的结果如下。

最高负荷L可能出现在1L与4L之间, 而最有可能在2L与3L之间。负荷的这种不确定性可用如图1所示的梯形模糊数L°= (L1, L2, L3, L4) 表示, 其隶属函数为:

模糊负荷中心值为截集的平均值 (L2+L3) /2, 其可能性分布可用其隶属函数描述。其它如发电机出力、设备故障率、网络状态概率以及一些经济参数等的模糊性都可用类似方法予以描述和处理。

模糊交流潮流的计算分析就是当以模糊数描述节点注入功率的不确定性时, 求出节点电压模糊幅值、相角及支路有功、无功模糊潮流 (也是模糊数) 的可能性分布 (用模糊数的隶属函数描述) [5~6]。采用增量模型进行研究, 其模型及求解方法、步骤如下。

(1) 由节点模糊注入功率°P、的中心值[dP]、[dQ]求解确定性交流潮流方程, 得到节点电压幅值、相角及支路有功、无功潮流的确定值[dV]、[θd]、P dL、Q dL。下标d表示对应于模糊注入功率中心值的确定值。

(2) 求模糊注入功率相对其中心值的模糊增量。

(3) 采用牛顿-拉夫逊潮流算法求解节点电压幅值及相角的模糊增量, 。

式中雅可比矩阵[J]为确定性潮流计算时的最后一次迭代值。

(4) 若所研究的系统满足P-Q解耦特性时, 可利用快速解耦潮流算法求解如下。

(5) 求解支路有功模糊潮流、无功模糊潮流增量, 已知支路的潮流方程为:

在对应模糊注入功率中心值的运行点d附近线性化式 (5) 时, 利用忽略高价项的Taylor级数展开式, 则

若可采用快速解耦潮流算法, 则在一定简化条件下由式 (6) 经推导可得支路有功、无功模糊潮流增量为:

其中[HP]、[HQ]均为稀疏的常数矩阵, 每行至多有两个非零元素。

(6) 求解支路有功、无功模糊潮流:

根据各模糊数的隶属函数就可得到节点电压模糊幅值、相角及支路有功、无功模糊潮流的可能性分布。

3 模糊理论的应用及算例分析

本文对一个具有6节点、13条线路的220kV电网规划方案 (如图2所示) 进行采用了梯形模糊直流潮流分析进行计算。节点注入功率及电网支路数据分别如表1、表2所示, 计算出的支路模糊潮流列于表3。

由表3可以看出经梯形模糊数的计算的各支路的潮流可能的分布情况。其中支路1-5的潮流可能超出其极限容量, 支路2-6、4-6的潮流接近极限容量。电网规划人员考虑社会经济发展, 未来负荷需求及发电机出力的不确定性, 调整规划方案, 改变线路型号或增设线路。由支路2-4的潮流可能性分布可看出, 潮流可能出现反向情况, 这是通过传统的潮流计算很难得到的。

4 结语

本文叙述了考虑负荷需求及发电机出力不确定性的梯形模糊数的交流计算方法, 以此作为电网规划的一个基本工具, 考虑不确定性影响因素时, 一次模糊潮流计算可代替数十次甚至上百次确定性潮流计算, 大大减少了计算工作量。不确定性是电网规划中应考虑的一个重要问题, 运用模糊潮流计算考虑不确定因素能更好为适应

摘要:不确定因素一直是电网规划中突出的难点, 本文提出一种考虑不确定性因素的电网规划方法, 即在以模糊集合论描述和处理规划中的不确定模糊因素的基础上, 采用模糊直流潮流和模糊交流计算方法对六节点模型进行电网潮流分布计算。结果表明, 该方法大大减少了计算量, 且计算结果合理, 为电网的规划提供指导性的参考作用。

关键词:电网规划,不确定因素,模糊集合论

参考文献

[1]赵国波, 刘天琪, 李兴源, 等.基于灰色机会约束规划的输电系统规划[J].电网技术, 1999, 33 (1) :22~25.

[2]王平洋, 胡兆光.模糊数学在电力系统中的应用[M].北京:中国电力出版社, 1 9 9 9:9~1 0.

[3]程浩忠.电力网络规划[M].北京:中国电力出版社, 2008:144~145.

[4]何新贵.模糊知识处理的理论与技术[M].北京:国防工业出版社, 1994:44~4 5.

[5]张焰, 陈章潮, 谈伟.不确定性的电网规划方法研究[J].电网技术, 1999, 23 (3) :15~19.

随机数据采集 篇6

1 随机森林分类方法

随机—森林是一种将弱分类器组合的分类方法[7,8,9],构成随机森林的基本分类器是决策树。决策树只有一个根节点,为全部训练数据的集合,叶节点是带有标签的数据集合,数据中的每个内部节点是一个分裂问题,它将到达该节点处的样本按某个特定属性进行分裂,从决策树的根部节点到叶节点的一条路径就形成一个分类规则。每个内部节点选择分类效果好的属性再分为2个或更多个子节点。继续这个过程直到这棵树能够分类出所有训练数据。为了产生k颗分类决策树,需要生成k个独立同分布的随机向量Θ1,Θ2,…,Θk,使用训练集Db和Θk生成第k颗决策树h(X,Θk),其中X为输入的特征向量。

定义随机森林是有多个分类回归树{h(X,Θk),k=1,…}组成的分类器,其中{Θk}是相互独立且同分布的随机向量,决定树的生长过程。最终由所有决策树投票决定输入向量X的最终输出。

随机森林组合分类器生成步骤大致如下。

(1)从原始数据集中,采用bootstrap随机抽样的方法有放回地抽取k个样本数据,并由此构建k颗分类回归树,单次未被抽到的样本组成k个袋外数据(out-of-bag,OOB)。

(2)设每个样本有n个特征,则在每一颗树的每个节点处随机抽取m个特征(m≤n),采用最好的分裂方式,在m个特征中选择一个具有分类能力的特点进行分裂。

(3)所有树都最大程度地满足生长,不进行任何修剪。

(4)将多颗决策树进行结合组成随机森林集成分类器,并对新的数据进行分类,分类结果按照树分类器的投票数而定。

2 变量重要性计算方法

变量重要性计算是随机森林算法的一个重要特点。基于袋外数据分类准确率的变量重要性计算定义为袋外数据自变量发生微弱变化后的正确分类率与变化前分类正确率的平均变动量。

假设bootstrap随机抽取样本n=1,2,…,NS,NS表示随机抽取的训练样本个数,特征Xi对分类准确率的变量重要性度量VIi按如下算法流程计算。

(1)先设置训练样本个数n=1,在训练样本上构建分类决策树T,同时将袋外数据标记为Db。

(2)在袋外数据Db上使用T对其进行分类,然后能够统计正确分类的个数Cb。

(3)对于特征Xi,i=1,2,…,N,对于Db中的特征Xi的值进行扰动,扰动后的数据集记为Dcb,使用T对Dcb数据进行分类,统计正确分类的个数Ccb。

(4)对于n=2,…,NS,重复步骤(1)~(3);

(5)特征Xi的变量重要性度量VIi可以通过以下公式进行计算。

3 实验设计与分析

3.1 数据概述

采用的高光谱数据为航空遥感平台获取的高光谱数据[10],传感器为SPECIM公司的AISA EA-GLET,光谱成像范围为400~1 000 nm,光谱分辨率为7.2 nm,光谱波段数48个,影像空间分辨率为5m。为了验证算法的鲁棒性,实验分别对农村地区的高光谱遥感影像与城市区域的高光谱遥感影像进行分类处理,研究区域位于甘肃省张掖市中部,如图1所示。

3.2 高光谱影像分类实验一

实验区域主要为农村用地,如图2所示,研究区域内主要地物包括建筑物(building)、道路(road)、裸地(bold ground)及植被(vegetation)四类地物,区域内地物情况较为简单。从影像上看,建筑物主要为平顶型农居,且建筑材料相对单一,植被主要为树木与农作物,农村道路主要为水泥硬化路面及土路,土路与裸地材料一致。不同类型地物的光谱差异明显,例如植被与建筑等,特征区分度较大。实验编写的随机森林算法主要构建了100颗决策树,树节点持续分裂的最小特征数量为10,单棵树可能分裂达到的最大深度为10。原始数据的每个像素样本有48个特征。实验分别选取了建筑物、植被、道路及裸地4类样本,通过随机森林分类器进行分类识别,分类结果如图3所示,分类精度为86.1%[图3(a)],耗时6.083 s。

实验中通过袋外数据的扰动进行了特征重要性统计,如图3(b)所示,每个波段特征对分类的贡献大小不同,贡献最大的权重系数在5.2,贡献最小的在1.1,其中,特征重要性系数为1.1的波段有7个,重要系数为1.2的波段有6个,呈连续状态分布,且主要集中在重要系数为小于均值1.7的波段。这些表明不同波段特征之间是存在冗余与噪声。实验删除了重要性系数小于均值1.7部分连续的特征波段,然后将剩余数据波段作为变量重新输入随机森林分类器进行分类识别,其分类精度提高了5.1%,分类结果如图4所示。如图4(a)黑色方框内,原来误分为裸地的植被重新分类为植被,分类精度为:91.2%,耗时5.925 s。

图3随机森林算法分类后结果及波段重要性系数计算Fig.3 The classification result by RF and the importance coefficient of bands calculated

3.3 高光谱影像分类实验二

实验采用与上述实验3.2相同的技术流程对城市用地进行了分类识别,即先对原始影像数据进行分类,然后将重要性小于2.0的波段剔除,并将剩余波段重新进行分类。研究区域内地物类型主要为建筑物、植被、裸地及道路等。场景内情况较为复杂,不同类型的建筑用材料并不相同,有水泥混凝土、人工彩钢屋顶,并且部分屋顶上面附有不同类型的装饰;植被主要为树木及城市绿地;道路材料主要为理清及水泥路面等。实验分别采用随机森林分类算法及基于可支持向量机的分类算法进行对比实验,如图5所示,从实验结果上看,基于随机森林算法的分类能力要优于SVM分类算法,分类精度提高4.8%。

4 结论

对随机森林算法应用于高光谱影像的分类识别研究进行了有意义的探索,较传统的分类识别算法不同的是随机森林算法在分类的过程中对每个特征参与分类的重要性进行评估计算,并给出相应权重系数。可以选择权重系数较大的特征进行重新分类,进一步提高分类精度与计算效率。由于高光谱影像获取时受场景环境的影响,例如光照、阴影等因素的影响,容易存在不同地物光谱辐射值相似等情况,因此,对于如何提高光谱特征差异,获取地物图像的本质特征,进一步提高分类识别的精度,有待于进一步研究。

摘要:高光谱数据具有光谱范围广,光谱分辨率高等优势,可以用于不同地物的分类识别,为近年来遥感领域的研究热点。采用随机森林算法对机载高光谱数据进行了地物分类识别研究,首先选取不同种类的地物样本,并对每类样本打上类别标签,每个像素包含的波段数即为样本的特征数,送入随机森林分类器进行训练;然后将训练好的分类器对待分类的高光谱影像数据进行分类,待分类的数据初始化为统一的类别标签;并根据袋外数据自变量的扰动对分类精度的影响,计算不同波段特征对分类效果的重要性系数。实验采用C++语言结合Intel Open CV计算机视觉库,编写了高光谱影像分类识别程序,对机载AISA高光谱传感器获取的甘肃省张掖市农村与城市影像数据进行分类,结果表明本文算法具有较高分类精度和可靠性。

关键词:高光谱遥感,随机森林,特征选择

参考文献

[1] Prasad S,Bruce L M.Limitations of principal components analysis for hyperspectral target recognition.IEEE Geoscience and Remote Sensing Letters,2008;5(4):625-629

[2] Villa A,Benediktsson J A,Chanussot J,et al.Hyperspectral image classification with independent component discriminant analysis.IEEE Geoscience and Remote Sensing Letters,2011;49(12):4865-4875

[3] Bachman C M,Ainsworth T L,Fusina R A.Exploiting manifold geometry in hyperspectral imagery.IEEE Transactions on Geoscience and Remote Sensing,2005;43(3):441-454

[4] Bazi Y,Melgani F.Toward an optional SVM classification system for hyperspectral remote sensing images.IEEE Transactions on Geoscience and Remote Sensing,2006,44;(11):3374-3385

[5] Ratle F,Camps-Valls G,Weston J.Semi-supervised neural Networks for efficient hyperspectral image classification.IEEE Transactions on Geoscience and Remote Sensing,2010;48(5):2271-2282

[6] Park B,Windham W R,Lawrence K C,et al.Contaminant classification of poultry hyperspectral imagery using a spectral angle mapper algorithm.Biosystems Engineering,2007;96(3):323-333

[7]姚登举,杨静,詹晓娟.基于随机森林的特征选择算法.吉林大学学报(工学版),2014;44(1):137-141Yao D J,Yang J,Zhan X J.Feature selection algorithm based on random forest.Journal of Jilin University(Engineering and Technology Edition),2014;44(1):137-141

[8]周绮凤,洪文财,杨帆,等.基于随机森林相似度矩阵差异性的特征选择.华中科技大学学报(自然科学版),2010;38(4):58-61Zhou Q F,Hong W C,Yang Fan,et al.Feature selection of random forest-based proximity matrix difference.J Huazhong Univ of Sci&Tech(Natural Science Edition),2010;38(4):58-61

[9] Breiman L.Random forests.Machine Learning,2001;45(1):5-32

随机数据采集 篇7

压缩四叉树通过合并一系列只有一个子结点的内部结点,达到节省存储空间的目的。如图2所示。

在如何通过输入数据集合构造四叉树结构方面,国内外有许多研究成果。Clarkson提出了第一个压缩四叉树的随机化构造算法[1]。Eppstein建议使用类似跳跃表风格的层次随机采样方法构造压缩四叉树[2]。如果能在常数时间内完成2个整数位交织操作,则可以使用相对简单的算法构造压缩四叉树,否则这项工作将更加困难。

将描述一种简便的新算法构造压缩四叉树,可以看作是Eppstein的跳跃四叉树的变体。

1 预备知识

定义1:对正实数z和实数平面2内的点p=(x,y),定

义Gz(p)为栅格点。Gz将平面分为许多正方形区域,称为栅格单元。正式地,对任意,半平面x≥zi,x

定义2:一个正方形是正规正方形,假如它被包含在单位正方形内,单位正方形是栅格Gr内的一个单元,r是2的幂。

给定单位正方形内n个点的集合P,按如下方法构建四叉树T:四叉树的根节点对应单位正方形。T中的每个结点v对应正方形单元,并且有4个子结点。这4个子结点对应将分成4个相等的正方形。从根结点开始递归构建这颗四叉树。只要当前结点包含P中的2个以上的点,就继续分割这个结点。直到每个结点只包含P中的一个点为止。

对上述这颗四叉树中只有一个子结点的结点进行压缩可以得到压缩四叉树。P的压缩四叉树表示为ZT(P)。

四叉树中的一个叶结点对应一个正规正方形,一条被压缩的边(更准确地说是这条边最顶端的顶点)对应2个正规正方形的集合差所形成的环形区,这个环形区被称为平铺区。如图3所示。

一棵压缩四叉树将单位正方形分隔为一些平铺区。

2 算法描述

选择P中各点的一个随机排列〈P〉=〈p1,…,pn〉。Ti为Pi={p1,…,pi}的压缩四叉树。在Ti中对应ZT(Pi)中的一个平铺区f的每个结点存储一个列表cl(f),该列表包含f中的所有点。这样P中的每个点都存储在Ti中。cl(f)称为f的冲突列表。对于P中每个点都有一个指针指向包含它的Ti中的结点。

在第i次迭代中,找到Ti-1=ZT(Pi-1)中存储pi的结点vi,将pi插入vi。这种插入最多导致创建3个新结点。因为只有压缩四叉树的叶结点才能包含插入点。这样会加入一个新结点存储新点Pi。将这个新叶结点悬挂在四叉树上要求一条已有的压缩边Ti-1,加入一个新的顶点。插入pi的叶结点已经存储了一个插入点,不仅为了pi,也是为了这个叶结点上以前存储的点而引入一个新叶结点。如果这2个点之间的距离相对f的直径靠近的话将引入新的压缩边。这样得到的结果树Ti就是Pi的压缩四叉树。将vi中存储的所有点移到Ti中正确的位置。对vi中存储的所有点,检查是否要存储到新结点中,如果是将它移动至新结点。如果vi的冲突列表中有k个点,则本次循环花费O(1+k)时间。由此得到压缩四叉树Tn。

3 算法分析

定义3:设Y为P的任意子集,平铺区f∈ZT(Y)。如果集合,f∈ZT(X),并且X是具有这种属性的最小子集,即:不存在X的真子集具有平铺区f,则称X是f的定义集。引理1:如果X是平铺区f∈ZT(P)的定义集,则│X│≤4。

与传统随机化增量构建方法不同,这种情况下的定义集不唯一。

引理2:对平铺区f∈ZT(Pi),第i次迭代创建f的概率≤4/i,即:

证明:设D1,…,DmPi为f的所有不同的定义集。Z=D1∩D2∩…∩Dm。仅当pi∈Z时f在第i次迭代时创建。如果,则存在f的定义集Dt,。同时,由于,f也是ZT(Pi-1)的一个平铺区,这个平铺区在第i次迭代时被创建的概率为零。

根据引理1,所有定义集的基数最大为4,│Z│≤4。要求的概率受到pi在Z中的概率的限制。考虑Pi上所有可能的排列。Z中的4个点之一在这i个点排列中排在最后的最大概率是4/i。根据引理2,创建一个平铺区f的概率与它的冲突列表的大小无关。

引理3:第i次迭代的期望工作量是O(1+n/i)。

证明:对于f∈ZT(Pi),在第i次迭代时创建中花费的工作量与它的冲突列表cl(f)的长度成正比。设Xi是表示本算法第i次迭代的工作量的随机变量。因为Ti的冲突列表长度为n,根据引理2,第i次迭代的期望工作上限为:

这里的期望是对Pi所有可能的排列。因此,E[Xi]=E[E[Xi│Pi]]=O(1+n/i)。

定理1:对于位于单位正方形内的平面上的n点集合P,可以在时间O(nlogn)内构造一颗压缩四叉树。

证明:根据引理3,上述算法的总计花费时间为

4 结语

这种构造四叉树的方法对于多维空间内的点依然适用。Eppstein的算法是一种懒惰随机化增量四叉树构造算法。Eppstein的算法略为复杂,但支持插入和删除操作,而本算法只支持构建压缩四叉树。

摘要:介绍了一种压缩四叉树形数据结构的随机化增量构造算法。首先给出了压缩四叉树的定义,然后描述了算法实现步骤,通过将单位正方形不断分割为更小的正则正方形达到压缩的目的,使用平铺区域和冲突列表,采用随机化递增的算法构建出压缩四叉树,最后分析了算法正确性和运行时间。

关键词:数据结构,压缩四叉树,平铺区域,正则正方形

参考文献

[1]K.L.Clarkson,K.Mehlhorn,and R.Seidel.Four results onrandomized incremental constructions[J].ComputationalGeometry:Theory and Applications,1993,3(4):185-212.

[2]D.Eppstein,M.T.Goodrich,and J.Z.Sun.The skip quadtree:a simple dynamic data structure for multidimensional data:Proceedings of the 21st annual symposium on Computationalgeometry,2005[C].New York:ACM,2005:296-305.

[3]罗景馨,唐琎.基于改进四叉树分割和结点存储的LOD算法[J].计算机工程,2009,35(20):202-204.

随机数据采集 篇8

医疗服务提供的技术效率可以理解为利用最佳的生产要素组合和最佳的管理方式, 在给定的资金条件下生产出最大量的符合消费者需要的卫生服务, 或者使用最少的资金生产出一定量的卫生服务[1,2]。随着世界范围内的卫生体制改革进行, 医院技术效率水平受到越来越多的关注。医院产出的技术效率低下, 会引起医疗支出的增加, 导致有限的卫生资源的浪费;同时, 在竞争加剧的医疗市场, 单个医院的技术效率也是其竞争能力的重要体现。 因此, 对医院技术效率水平进行科学的测算, 并且找出影响技术效率水平的因素, 从而提出改进措施, 对这些问题的研究在新医疗体制改革探索和运行的现实中是有着重要意义的。林皓和金祥荣考察了我国整个医院行业微观效率的现状及变化趋势, 发现医疗体制改革以来我国各类性质的医院效率都有下降的趋势[3];庞瑞芝利用数据包络分析模型对我国医院的经营效率进行总体分析与评价, 并分析了影响医院技术效率的因素主要有医院性质、等级等因素[4];崔洋海和何钦成研究了沈阳市11家医院2003—2005年的效率, 通过聚类分析、相关分析、变异系数分析方法筛选用于DEA 的评价指标, 经过DEA 分析, 发现有19个单元为DEA 无效[5];姚红等[6]运用随机前沿成本模型, 对上海市45家医院供给的技术效率进行分析, 显示不同级别医院存在着不同的低效率现象。本文对医院技术效率及其影响因素的研究与已有研究的不同在于:一方面, 本文的研究对象为大型综合性的三级甲等医院, 这些医院都在所在地的医疗服务提供上有着举足轻重的作用;另一方面, 本文选用面板数据的随机前沿估计方法, 这较数据包络分析和单纯的随机前沿模型更科学。

2 医院技术效率估计

2.1 数据来源

本文资料来源于中国医院协会/卫生部缩短平均住院日课题组收集的全国16家大型综合医院的指标数据, 数据年份为2000年至2007年。16家医院均为综合性的三级甲等医院。从地区分布来看, 其中4家医院位于北京, 9家医院位于华东地区的上海、浙江和江苏, 2家医院位于华南地区的广州, 1家医院位于西南地区的四川;从医院规模来看, 2007年, 16家医院的平均开放床位数为1 617张, 其中开放床位数最大的医院为3 946张, 最小的为892张。16家医院都是所在地区具有影响力且承担繁重医疗服务任务的大型医院。对各家医院的年门急诊人数、年出院人数、医院固定资产总数、在岗职工人数等投入产出数据进行整理。

2.2 研究方法

本文分析分为三个步骤, 首先对医院产出模型中的产出变量和投入变量做描述性分析, 观察16家医院的各项指标间的差异;然后运用随机前沿分析方法估计各医院各年份的技术效率;最后以第二步骤得出的技术效率值为因变量, 建立多元回归分析, 找出影响各医院技术效率的因素。

测量技术效率通常有两种方法:一种是非参数方法, 最常用的为数据包络法 (DEA) ;另一种是参数方法。相对来说, 参数方法估计的优点是通过估计生产函数对个体的生产过程进行描述, 从而对生产效率的估计得到控制, 其中随机前沿分析 (Stochastic Frontier Analysis, SFA) 是一种用得最多的参数估计方法, 并且被认为在技术效率测量上有更广泛的实证价值和应用空间。根据学者Kumbhakar的总结, 随机前沿分析模型可以表示成:y=f (x;β) ·exp (v-u) 。方程中y代表产出, x代表一组矢量投入, β是一组待估的系数。随机前沿分析模型的特点之一就是将误差项分解为两项, 第一部分是v表示观测误差和其他随机因素影响, 第二部分是u表示那些仅仅对某个个体所具有的冲击影响, 即技术非效率影响, 并且vu二者之间是相互独立的[7]。

根据随机前沿模型的基本原理, 本文采用对数型的柯布—道格拉斯生产函数模型, 具体模型为:

ln (yit) =β0+β1·ln (kit) +β1·ln (lit) + (vit-uit) (1)

TEit=exp (-uit) (2)

β (t) =exp[-η· (t-T) ] (3)

γ=σu2σv2+σu2 (4)

其中:i为医院序号, t为年份序号。公式 (1) 中y表示各医院各年份的产出。为了能够把门诊、急诊、住院人次等指标都包含在内, 体现医院主要产出指标, 按照国际上通常的做法, 将 (门急诊人次/4+出院人次) 确定为产出变量;自变量中的k为医院年固定资产均值, l为医院年平均在岗职工人数。公式 (2) 计算的是各医院的技术效率水平, 当u=0时, 则TE=1, 说明医院的运行处于技术效率状态;当u>0时, 则0<TE<1, 说明医院处于技术非效率状态[8]。公式 (3) 描述的是时间因素对u的影响, 当η=0时, 技术效率不随时间变化, 反之技术效率随时间变化。公式 (4) 中的σv2和σu2分别表示随机观测误差的方差和技术效率的方差, 若原假设 (γ=0) 被接受, 则说明样本医院的产出都位于生产可能性曲线上, 不必使用SFA方法来估计生产函数;反之, 若原假设被拒绝, 则说明需使用SFA方法。

本文数据用作面板数据 (Panel Data) 。应用面板数据随机前沿估计的优点在于: (1) 随机前沿生产函数的极大似然估计以及对技术效率非效率项的分解, 根据需要对每个误差项做出很强的分布假定, 对一组个体的重复观测可以代替这些分布的假定; (2) 极大似然估计要求技术非效率项独立于解释变量, 而面板数据中的固定效率模型就可以解决此问题; (3) 面板数据本身包含更多的信息, 有利于得出更有效的估计量。

2.3 实证分析结果

首先, 用均值和方差来反映变量特征, 运用SPSS软件, 对16家医院每年的各指标进行描述性统计, 结果见表1。

利用stata 10.0对公式 (1) 所构造的随机边界生产函数进行估计, 参数估计结果见表2, 各医院的效率值见表3。

注:总体方差σ2=σv2+σμ2, 方差比γ=σμ2/ (σv2+σμ2)

根据上述SFA模型估计, 其结果分析如下:

(1) 从模型设定结果来看:模型单侧似然比通过了检验, 即拒绝了不存在技术非效果的零假设, 说明技术效率对医院产出的作用显著;方差比的显著性拒绝了不存在随机误差项的零假设 (γ=0) , 说明不能忽略随机因素对医院产出增长的影响, 因此模型设定是合理的;η在5%的显著性水平上异于零, 说明面板数据模型中采用生产效率随时间可变的模型是合理的。

(2) 从自变量系数来看:随机前沿模型系数都通过了显著性检验, 说明了医院固定资产和职工人数对医院产出的增加有显著影响。

(3) 从技术效率结果来看:表3中所有效率值都小于1, 16家医院各年的平均效率水平在0.689至0.738之间, 表明各家医院都存在一定的改进空间;其次, 从医院之间的对比来看, 16家医院的技术效率有显著差异, 其中医院7与医院14的技术效率较高, 各年均超过了0.9, 而医院4与医院8的技术效率较低, 各年都在0.5以下;再次, 从随时间的变化趋势来看, 2000至2007年, 16家医院的技术效率都呈逐年递长的趋势。

3 技术效率影响因素的多元回归模型估计

上述结果反映了医院医疗服务的供给的技术效率。为了寻找影响医院技术效率的原因, 进一步以技术效率为因变量, 对可能有利于提高技术效率的因素做出假设, 应用面板数据的多元线性回归方法进行回归。结合文献资料和数据的可得性, 将影响医疗技术效率的因素分为:医院的医护人员构成指标, 包括:主任医师比例、医生护士比例、正式职工比例;住院诊治效率指标, 包括:平均住院日、住院患者手术比例;医院资产配置包括人均固定资产数量;对医护人员努力工作的激励程度, 包括人员工资奖金占医疗业务收入的比例。

对于面板数据的多元回归分析, 有两种常用的方法:随机影响 (random effect) 模型和固定影响 (fixed effect) 模型。判断模型应该采用随机效应还是固定效应, 常用Hausman 检验进行识别。利用两种方法对模型回归的结果如表4。

上述模型的Hausman检验X2为0.37 (prob. x2=0.99) , 因此选用随机效应模型比固定效应模型更为合适。从表4中的随机效应模型结果可以看出:主任医师比、正式职工比例、人均固定资产三个指标对医院的技术效率水平有显著的正相关关系;医护比、平均住院日两个指标与医院的技术效率水平有显著的负相关关系;而手术比例和职工的工资奖金占业务收入比例与医院的技术效率没有显著的相关关系。

4 讨论

从以上分析结果来看, 16家医院的技术效率之间存在着差异性, 各年的16家医院平均技术效率都在0.75以下, 所以, 采取相应的措施, 各家医院技术效率都有提高的潜力。通过多元回归分析的结果, 可以得出影响技术效率的主要因素并有针对性地提出提高医院技术效率水平的措施有:

(1) 优化职工人员结构。回归结果显示, 主任医师比例增加, 医院的技术效率水平会显著提高, 这也说明高素质的医护人员是医院技术效率可持续发展的重要保证, 因此对医务人员进行多渠道、多层次、多形式的培训, 有助于提高医院总体的技术效率。此外, 正式职工比例提高也会提升医院技术效率。正式职工对医院有较强的归属感, 这会激励他们努力工作, 提高工作效率和服务水平。医生护士比例和医院技术水平呈负相关关系, 说明16家医院中护士比例不高, 而高质量的护理是患者康复的关键, 也是医院服务水平的重要体现, 因此, 增加护士的比重、更加重视治疗后的护理工作, 也有助于提高医院的技术效率。

(2) 缩短平均住院日, 提高病床周转率。16家医院都为大型综合医院, 各年的平均病床使用率都在95%以上。因此, 缩短平均住院日能够更有效利用资源, 提高医院的技术效率。缩短平均住院日涉及到医院内部管理的方方面面, 如开展新业务、新技术, 开展临床路径研究, 优化医院内部流程, 加强单病种管理, 以及与社区卫生服务中心合作等措施都有利于缩短平均住院日。

(3) 合理配置医院资产。医院固定资产的绝对值与医院的技术效率之间并没有显著关系, 而医院的人均固定资产数量和医院技术效率之间却是显著的正相关关系, 这说明资产和人力的合理配置才是提高生产服务效率的关键。

摘要:对2000年至2007年我国16家医院的投入产出指标进行分析, 采用面板数据的随机前沿方法和多元线性回归进行技术效率评价及其影响因素测算。分析结果表明:16家医院的技术效率水平都小于1, 它们之间有明显差异, 各家医院的技术效率都呈逐年增加的趋势, 影响技术效率的指标有主任医师比例、正式职工比例、人均固定资产数量、医护比例及平均住院日。得出结论:优化职工人员结构、缩短平均住院日、合理配置医院资产是提高医院技术效率的可行途径。

关键词:综合医院,技术效率评价,影响因素,随机前沿分析

参考文献

[1]S PALMER, DJ TORGERSON.British medical journal[J].BritishMedical Journal, 1999 (318) :1136-1136.

[2]DONNA RETZLAFF-ROBERTS, CYRIL F CHANG, ROSE M RU-BIN.Technical efficiency in the use of health care resources:a com-parison of OECD countries[J].Health Policy, 2004, 69 (1) :55-72.

[3]林皓, 金祥荣.政府投入与我国医院效率的变化[J].经济学家, 2007 (2) :77-83.

[4]庞瑞芝.我国城市医院经营效率实证研究[J].南开经济研究, 2006 (4) :71-81.

[5]崔洋海, 何钦成.数据包络分析方法在大型综合医院相对效率评价中的应用[J].中国卫生统计, 2008, 25 (1) :18-21.

[6]姚红, 胡善联, 曹建文.上海市45家医院供给的技术效率评价[J].中国医院管理, 2003, 262 (5) :9-11.

[7]SUBAL C KUMBHAKAR.Stochastic frontier analysis[M].刘晓宏, 杨倩, 译.上海:复旦大学出版社, 2007.

随机数据采集 篇9

关键词:种粮大户,技术效率,随机前沿生产函数,资源禀赋

0 引言

我国粮食生产现实是人均耕地少,产品质量不高,耕地后备资源不足且有逐年减少的趋势,粮食供求关系中长期仍处于紧平衡状态[1],粮食安全压力很大,为了增强农产品国际竞争力和缓解粮食安全压力,必须依靠土地规模经营和科技进步[2,3]。我国从20世纪60年代以来,粮食等大宗农产品增产主要依赖于技术进步导致的单产提高,未来满足我国粮食需求的增加必须依赖技术水平的不断提高[4],技术进步对粮食生产的相对贡献率超过100%[5]。现有农村经营制度框架下,农户是最基本的经营单位,农户的粮作物经营行为直接影响粮食供给安全[6],农户粮食生产技术效率决定着粮食总产量以及家庭收入的多少。所以,农民和农业竞争力问题最终体现为农户家庭经营的效率问题[7]。

有关粮食生产技术效率问题的研究,国外学者主要集中在利用横截面数据对区域农业生产技术效率进行了测度,如Battese&Coelli(1995)、Fan(2000)、Liu&Zhuang(2000)等[8,9,10]。国内学者该方面的研究也取得了很多成果,主要集中在基于时间数列,利用SFA等分析方法,测度了不同因素对粮食生产技术效率的影响,如苏旭霞、王秀清(2002),乔世君(2004)等[11,12,13,14]。

纵观已有文献,较少有从农户家庭角度研究微观经营技术效率问题,更少有针对种粮大户家庭粮食生产技术效率及影响因素问题进行研究的。为此,基于实地调研数据对种粮大户粮食生产技术效率以及影响因素进行研究,具有重要的指导意义。

1 技术效率模型构建

1.1 技术效率估计模型

本文在Battese and Coelli(1995)[8]与Battesse and Corra(1977)[15]提出的技术效率模型及技术效率估计方法的基础上,针对研究的主要内容,构建超越对数随机前沿生产函数模型,具体表达式为:

模型(1)中,i表示样本农户的序号,Y表示家庭粮食总产量;LI表示劳动力成本投入,劳动力投入=总用工量(人)×雇用工时(天)×用工价(元/工日);CI表示资本投入,指流动资本(包括化肥、种子、农药、其它粮食生产投入、水电费、地膜材料、农机燃油费)和固定资本投入(包括租用农业机械、仓库、购买农业机械、其它固定资产);SI土地成本投入,土地成本投入=地租×租种面积;Vi是随机扰动变量;Ui表示技术效率损失变量;β0→β9为待估计参数。

1.2 技术效率损失模型

种粮大户生产技术效率影响因素模型设定如下:

种粮大户资源禀赋(1)决定着技术扩散的成效以及农业技术进步的实际水平[16],因此,选择的指标主要有以下几类:心理特征变量(CA、EL、HC、SO、PA、GI)、社会网络变量(CA)、信息服务变量(MS)、技术变量(TS)、社会环境变量(SE1、SE2、SE3)。模型(2)中,i表示样本农户的序号,CA表示户主年龄;EL表示户主文化程度;HC表示户主身体健康状况;SO表示家庭土地经营规模;SO2表示家庭土地经营规模的二次项,用来反映规模效率提高速度与规模增大速度的对比;PA表示家庭从事农业人口数;GI表示家庭粮食总收入;CA表示信贷可获得性,变量具体描述为,是否从信用社获得贷款(1=是;2=否);MS变量描述为,家用的电脑是否上网(1=是;2=否);TS变量描述为,是否接受过新技术培训或辅导(1=是;2=否);SE1变量描述为,是否得到过周围人的帮助(1=是;2=否);SE2变量描述为,是否得到村委会等地方政府的帮助(1=是;2=否);SE3变量描述为,是否参加了专业合作社等协会组织(1=是;2=否);A表示地区虚拟变量,农垦分局地区为2,其他地区为1。

2 数据说明及相关统计描述

调查范围包括黑龙江省13个行政市27个乡(镇)以及2个农垦分局6个农场。调查对象为经营耕地面积100亩以上的农户(2)。在研究中共发放问卷490份,收回问卷476份,其中,有效问卷460份。

从表1中可以看出,种粮大户资源禀赋心理特征变量具体表现为:大户大都是中年人,学历不高,身体健康状况良好,平均经营规模为171.59亩,家庭农业投入人口很少,基本都能从农村信用社获得贷款,接受过技术培训或辅导,得到村委会或集体帮助,但很少与外界联系和参加协会组织,组织化程度较低。

3 模型估计结果及分析

3.1 技术效率模型估计

3.1.1 模型估计与检验

利用Frontier 4.1软件,采用Battese and Coelli(1995)提出的随机前沿生产函数方法对模型(1)进行最大似然估计,结果见表2。同时采用似然比检验,LR=-2ln[L(H0)/L(H1)]~χ2(q),L(H0)和L(H1)分别是零假设H0和备选假设H1设定下的对数似然估计值,自由度q是H0中的零约束的个数。经检验模型(1)似然比检验值49.956大于1%显著性水平上的临界值11.345,所以拒绝原假设,说明我们选择的模型是合理的。

3.1.2 估计结果分析

从表2看出,资本投入和土地投入对粮食产量的增加有正向影响,且都通过了1%显著水平检验,但劳动力投入对粮食产量增加有较弱的反向影响。γ值为0.879在1%水平上显著,说明种粮大户粮食实际产出与可能的最大产出之间的差距87.9%都来自于技术运用效果上的差距。

注:***、**、*分别表示该系数达到0.01、0.05、0.1的显著性水平,下同;似然比检验(LR)统计量呈现近似χ2分布。

从经营规模与技术效率分布看,见表3,全样本种粮大户技术效率平均值为62.23%,表明若现有的投入水平不变,消除技术效率损失,技术效率可增加37.77%,留有的提升空间很大。户数与技术效率分布呈现“∩”趋势,即技术效率分布在60%~70%区间内的户数最多为120户,占总户数的26.1%,其他技术效率区间的大户数较少,说明种粮大户粮食生产普遍获得了技术进步,技术效率处在较高水平。经营规模与技术效率之间呈现出了较明显的“反向”作用效应,经营规模在100~130亩之间的大户生产技术效率均值最高,为71.92%,这和钱贵霞,李宁辉(2004)[17]研究结论一致。其次是131~160亩大户技术效率均值为65.36%,最后是211亩以上的大户技术效率均值为43.51%,研究结果部分验证了规模经济效应是一个典型的“倒∪型”效应的结论,即土地经营规模过大也可称之为“规模不经济”,会带来组织内协调成本和监督成本等交易费用上升[7]。

3.2 资源禀赋对技术效率影响分析

(1)心理特征变量。户主年龄、文化程度、身体状况、经营规模和家庭农业投入人口数等变量对技术效率都产生了显著正向影响,表明种粮大户较小规模农户具备了较强从事粮食生产行为心理上的优势,并显著促进了微观技术效率进步;粮食总收入变量对技术效率产生了负效应,即种粮大户的收入增加与技术进步呈现出弱相关性,主要是粮食产品需求价格弹性小于供给价格弹性,农业技术进步将对农业收入增长率产生负影响[18];经营规模二次项变量与技术效率呈负相关,说明种粮大户粮食生产技术效率提高速度慢于规模扩大的速度,经营规模对技术效率产生的边际效应处于递减阶段[7],进一步说明粮食生产经营规模的扩大需要慎重,过快的扩大规模会损失大户规模经营报酬率的提高。

(2)社会网络变量。是否从农村信用社等农村金融机构获得贷款对技术效率有显著的负影响效应,见表4。从信用社等农村金融机构能否获得贷款及数额的大小,将对农户预算约束产生影响,进而影响到农户家庭微观技术效率的变化,与Battese&Broca(1997)[19]研究结论一致。大多数种粮大户获得了信用社贷款扩大了经营规模,获得了规模报酬,但同时也丧失了小规模经营带来的精耕细作等比较优势,当损失的效益超过规模经营获得的效益时,种粮大户粮食生产技术效率仍是下降,与前面的论述一致。

(3)信息服务变量。从表4得知,信息服务变量参数符号为正且没有通过显著性检验,对技术效率产生了较弱的负效应,原因是种粮大户年龄多为中年,从事传统粮食种植的大户凭借以往积累的经验,轻易改变耕作方式带来的风险较大,同时种粮大户与外界联系较少,获取信息成本很高,所以,信息并没有改变种粮大户生产行为方式,对技术效率进步影响作用很小,两者之间呈现出较弱的负效应。

(4)技术变量。是否接受过新技术培训或辅导变量参数符号为负且在5%水平上显著,对技术效率产生了较强的正效应。对种粮大户进行的新技术培训等非正规教育在很大程度上改变了粮食大户生产方式,也使农业生产各环节中需要的新技术得以广泛应用,更说明不断增加种粮大户人力资本投入能够大幅提高技术扩散。

(5)社会环境变量。社会环境1和社会环境2参数符号都为负,说明对技术效率有正向作用。社会环境1参数在5%水平上显著,说明周围人的帮助以及周围人成功行为选择的示范作用极大地影响了种粮大户生产行为改变。社会环境2参数没有通过显著性检验,但参数符号为负,说明村委会或集体的帮助也对种粮大户技术效率产生了正向影响,只是作用效果不明显。社会环境3对技术效率有较弱的负效应,说明合作社等协会组织发育还不成熟,也没有得到种粮大户充分重视,参合率很低,在现有协会组织中协作和管理成本很高,对技术效率改善作用甚微。地区虚拟变量对技术效率有较强正向作用,说明粮食生产受区域影响很大,垦区和地方粮食生产技术效率差异较大。

4 结论

(1)种粮大户经营规模与技术效率之间具有较强的“反向”作用效应。通过实证分析得知,经营规模处在100~130亩之间的大户生产技术效率最高,并随着经营规模扩大,生产技术效率值下降趋势非常明显,部分证明了规模经济效应是一个典型的“∩”效应。

(2)技术效率进步空间较大。全样本种粮大户生产技术效率均值为62.23%,消除技术效率损失的影响因素,技术效率可增加37.77%,留有进步空间很大。

(3)种粮大户资源禀赋对技术效率影响效应具有明显差异性。资源禀赋各变量中户主年龄、文化程度、身体状况、经营规模、家庭农业投入人口、社会环境1、社会环境2、技术变量都对技术效率有正向影响效应,资源禀赋中其他变量有负效应。

5 政策建议

(1)政府应正确引导种粮大户规模经营行为。实证分析结论已很明确,规模过小或者过大一样是“规模不经济”,所以,政府应该通过制度建设来约束和引导盲目扩大经营规模行为,提高有限土地资源的利用效率、生产要素投入效益,最大化地发挥适度规模经营的比较优势,使以大户经营为单位的粮食生产技术效率保持在很高的水平。

(2)政府应继续加大对种粮大户人力资本投入。对种粮大户人力资本投入包括学历提高和粮食生产各种实用技术培训,要注重人力资本投资的公平性与普及性,积极开展粮食生产各环节技术信息的传播与科技成果的推广和转化,通过提高种粮大户自身科技水平来促进粮食生产技术效率进步。

上一篇:中印服务贸易比较分析下一篇:无人植保机论文