训练样本

2024-06-23

训练样本（通用6篇）

训练样本篇1

摘要：首先运用Bagging算法解决样本数据变化带来的不稳定性, 然后运用网格搜索法寻找合适的训练样本尺寸, 再结合两者的特点, 提出了一种自助网格搜索算法, 从多个支持向量机 (SVM) 分类器中寻求一个最优的SVM分类器。实验结果表明, 算法有效地提高了分类器的学习精度与学习性能, 对大样本数据来说, 可以用相对较少的样本进行训练后的性能来预测它对一个非常庞大的训练集的性能, 大大减少了SVM训练的时间。

关键词：SVM分类器,Bagging算法,自助网格搜索算法,训练样本数量

0 引言

支持向量机 (SVM) 主要思想是针对两类分类问题而提出的, 在高维空间寻找一个超平面作为两类的分割, 以保证最小的分类错误率[1,2,6]。SVM的另一个重要的特点是能通过选择合适的核函数处理样本数据线性不可分的情况。一般来说, 在模式分类问题中, 训练样本数据的变化, 会引起分类器的不稳定, 并且不同的训练样本数量下的测试精度也是不相同的[5]。所以, 训练样本的选取对分类效果以及精度是至关重要的, 如何选取合适的训练样本的数量, SVM分类器才是最优的呢?文献[5]提出了能解决分类器的不稳定性的Bagging算法。通过产生多个分类器, 最后的分类结果由投票产生。但对于训练样本个数的选取, Bagging算法并没有提出。本文运用了Bagging算法的思想, 通过自助网格搜索算法寻得合适的训练样本集, 以寻求好的SVM分类器为目的进行了两个实验, 实验中发现, 自助网格搜索算法寻得的SVM分类器在学习性能上有较大的提高, 并且对大样本数据来说, 可以显著减少训练时间, 从而降低时间代价。

1 线性不可分的SVM问题[5]

在SVM中, 相似性和相似程度是用内积进行估价的, 这些内积强烈依赖于映射的选择。通过选取适当的到一个足够高维的非线性映射φ (g) , 数据总能被一个超平面分割。我们假设每个模式Xk变换到yk=φ (Xk) , 我们就把问题变为如何选择φ (g) 。对N个模式中的每一个, k=1, 2, …, n, 根据模式属于ω1或是ω2, 我们分别令z=±1, 增广空间y上的判别函数就是:

g (y) =aty (a是权向量) (1)

这里的权向量和变换后的模式向量都是增广的。这样, 一个分隔超平面保证:

zkg (yk) ≥1 (2)

训练一个SVM的目标是找到一个具有最大间隔的分隔平面, 如果间隔越大, 得到的分类器也越好。从超平面到变换后的模式y的距离是|g (y) |/‖a‖, 如果正的间隔b存在的话, 由式 (2) 可推出:

$\frac{z_{k} g (y_{k})}{∥ a ∥} \geq b$ (3)

我们的目标就是找一个使b最大化的权向量a, 当然, 解向量可以任意伸缩, 同时保持超平面不变, 这样就保证了限制b‖a‖=1。支持向量就是使式 (2) 等号成立的模式向量。

对于训练SVM, 我们应该先选择将输入数据映射到更高维空间的非线性φ函数。映射后的空间的维数可以是任意高的。我们把有约束的权向量长度极小化问题转换为无约束的拉格朗日待定因子问题。这样通过式 (3) 及极小化‖a‖的目标, 我们构造泛函数:

$L (a, α) = \frac{1}{2} ∥ a ∥^{2} - \sum_{k = 1}^{n} α_{k} [z_{k} a^{t} y^{k} - 1]$ (4)

找到使L (a, α) 极小的权向量a和使它极大的待定因子αk≥0。式 (4) 最后一项是正确分类的目标。我们将这个最优化的形式修改为极大化:

$L (α) = \sum_{k = 1}^{n} α_{i} - \frac{1}{2} \sum_{k, j}^{n} α_{k} α_{j} z_{k} z_{j} y_{j}^{t} y_{k}$ (5)

给出训练数据的约束条件:

$\sum_{k = 1}^{n} z_{k} α_{k} = 0 a_{k} \geq 0, k = 1, 2, \dots, n$ (6)

这些方程可以用二次规划求解。

2 SVM训练样本集的寻优算法

本文所提出的SVM训练样本的寻优主要是指寻求合适的训练样本集, 来提高学习性能。在文献[5]中提出了从学习曲线预测SVM分类器最终性能的特殊学习曲线 (指数式的学习曲线) , 测试误差与训练误差随训练集尺寸的变化而变化, 但到达一定的训练集尺寸时, 测试误差与训练误差都趋于同一个值, 最终可以通过坐标空间确定出训练集的尺寸, 并保证了这个尺寸要远远小于原始训练集尺寸, 从而大大降低了时间的代价。但是, 现实中学习性能满足这样曲线的情况并不多, 往往是不规则的曲线, 鉴于这样的考虑, 提出了自助网格搜索算法来寻找合适的训练样本集。

2.1 Bagging算法[5]

Bagging算法的一般过程:从大小为N的原始数据集D中, 分别独立随机地抽取n′个数据 (n′<N) 形成自助数据集, 并且将这个过程独立地进行许多次, 直到产生很多个独立的自助集。然后, 每一个自助数据集都被独立地用于训练一个“分量分类器”。最终的分类结果由这些“分量分类器”各自的判别结果的投票来决定。

2.2 网格搜索算法

采用网格搜索法可以保证搜索到最优参数。在文献[3,4]中提出:网格搜索法就是首先确定每个参数的取值范围, 然后对每个参数取值范围按照一定规律插值, 得出若干组参数组合;对每组参数组合进行一次计算, 应用留一法计算其预测误差均方根;对应于预测误差均方根最小的参数组合, 就是最优的参数取值。网格搜索法的优点在于:可以安全地搜索到最优参数组合, 其方法主要用于寻找核参数的问题。

2.3 自助网格搜索算法

不同的训练样本集的尺寸以及数据的变化, 一般都会导致测试精度起伏不定, 而大训练样本训练时间代价大。考虑到这两个缺陷, 我们提出了自助网格搜索算法。

基于网格搜索法网格划分的思想, 执行算法时分别对小样本数据集与大样本数据集做不同的处理。就小样本数据集而言, 如实验1, 其训练样本数为45, 它的训练时间代价相对较小, 可以把全部训练样本进行网格划分成几个大小相同的区间, 结合Bagging算法, 区间边界上的样本的尺寸定义为ni, i=1, 2, …, l (l为区间边界上不同的样本尺寸的个数) , 分别独立随机地抽取ni个数据 (ni<N) 形成自助数据集, 并且将这个过程独立地进行许多次, 直到产生很多个独立的自助集。最终的分类结果由这些“分量分类器”投票来决定, 其共执行了l次Bagging算法。确定一个测试精度最高点所对应的训练样本的尺寸, 在这个值的一定范围内再进行一次更细致的同样的操作, 找到比第一次执行算法所得到的最好精度还好的测试精度所对应的样本尺寸, 将其作为SVM模型最终的训练集尺寸。SVM模型选定后, 对测试样本进行测试时, 训练样本集中的数据是随机多次抽取的, 同样执行Bagging算法来确定测试精度。我们把这样的过程叫作自助网格搜索算法。而对于大的样本集来说, 如实验2, 其训练样本数为4000, 它的训练时间代价是很大的, 基于时间上的考虑, 选取一个比训练样本尺寸小的训练集来进行训练, 对这样一个小的范围执行自助网格搜索算法, 寻找最优分类器, 从而可以节省大样本训练时间的代价。

设b是选取SVM分类器中参加训练的全部样本数量, N是全部训练样本集数量, n′是能使分类器最优的训练样本数量。step是第一次执行算法的步长, step′ (step′<step) 为第二次执行算法的步长。起初, n′=N, step=step′, a=step, b=n′。

其寻优步骤为:

(1) 对于小样本集而言, 选取一个步长step′, 把训练样本数量值n′下[a, b]区间划分成几个大小相等的区间, 区间边界上的多个值即为所要测试的多个训练集分别对应的样本数量。对于大样本来说, 选取n′ (n′<<N) 个训练样本, 区间划分规则与小样本集规则相同, 这时的n′对应的是小样本问题中的N。

(2) 根据步骤 (1) 求出的多个训练集样本尺寸, 构造相应的训练集, 在每种训练集下执行Bagging算法, 且每次都构造多个分类器, 每种训练集下的测试结果由投票产生。找到一个合适训练样本下的最优分类器。

(3) 由步骤 (2) 可以得到一个合适的训练样本数量下的最优分类器。b=step+n′, 递归执行步骤 (1) , 即:在这个值的一定范围内进行一次更细致的自助网格搜索。

(4) 把由算法得到的最优训练样本尺寸作为SVM模型的训练集样本尺寸, 即:作为对测试样本进行测试时所选用的训练集样本的尺寸。SVM模型选定后, 对测试样本进行测试时, 训练样本集中的数据是随机多次抽取的, 同样执行Bagging算法来确定测试精度。

对于大样本数据来说, 如果在选择的b (b<<N) 下执行此算法后得到的最好的精度不能使人满意, 可以增大b (b<<N) 的值, 对b到b增大后值b′ (b′<<N) 的区间上重新执行该算法即可

3 实验结果与分析

下面对IRIS与MAGIC04 (该数据下载地址:http://archive.ics.uci.edu/ml) 数据集进行实验, 两个实验都用QP算法来说明。对训练数据及测试数据进行归一化到区间[-1, +1]上。文中所涉及的训练样本集都采用随机抽取的方式获取。SVM分类器核函数选RBF, 其参数gamma=0.5, 每次执行Bagging算法构造分类器个数为40个。

3.1 实验1

IRIS数据集共有150个样本, 共分为三类:s类, ve类, vi类, 每类分别有50个数据, 每类都为4维的向量。取每类前15个样本作为训练集, 然后对150个样本进行测试。采用一对多类方法测试。在执行自助网格搜索算法步骤 (2) 的时候, step=5, 即选择训练样本数分别为:10、15、20、25、30、35、40、45, 每次执行Bagging算法时SVM分类器个数都为40个。在执行算法中步骤 (3) 时, 我们取step=2。

从图1中可以看到执行到算法步骤 (2) 时这三类s、ve、vi 分别在训练样本数量是45、35、40的时候分类面是最优的, 精度分别为91.1333%、93.3333%、93.6333%, 其学习精度也比其他情况下的学习精度要高。详细的结果见表1。不同类下a的选取:s类, aϵ (40, 45) ;ve类, aϵ (30, 35) ∪ (35, 40) ;vi类, aϵ (35, 40) ∪ (40, 45) 。它们的步长step=2。执行算法步骤 (3) 后的结果见表2与图2所示。

从图2中我们可以看到s, ve, vi分别在训练样本数量是45、34、39的时候得到的精度是最高的, 分别为91.1333%、93.6842%、95.6333%。详细情况见表2。那我们就选定了训练样本数, 把它们作为训练集, 即训练样本数分别为:45、34、39, 测试其他的样本的时候只要对这几个量下的训练样本进行训练就可以了, 并且保证了分类器是较优的。

从表1和表2中还可以看出, 训练样本个数有很小的改变, 测试精度就有很大的改变, 但是, 当训练样本数量到达一定范围的时候, SVM分类器都保持较高的正确率。如ve 在训练样本数量为20的时候, 其分类正确率为92.0000%, 对于此实验来说, 这样的精度是很高的了 (由于训练集中包括了一些测试数据, 出现了用训练集进行测试的问题[4]) 。所以在进行ve类的分类时, 选取的训练样本个数不一定是所有训练集样本数45, 样本数量只要取20个, 我们就可以得到很好的测试效果。在小样本数据中, 我们可以选取训练集中所有样本进行寻优。对训练时间需要几小时或是几天的大样本数据来说, 如果像对小样本数据那样选取训练集中所有样本进行训练, 反而增加了时间代价, 那我们可以用自助网格搜索算法在训练集的小范围的样本集内选取一个最优的分类器。如果在这个小范围内寻得的SVM分类器的分类精度, 研究人员不是很满意, 我们可以适当再扩大选取的训练样本数量的范围, 这样的精度也许不是最好的, 如果是可以接受的精度就可以了, 而它却减少了很多很多的训练时间。

3.2 实验2

为了进一步说明自助网格搜索算法在寻求好的SVM分类器时所体现的良好的性能, 我们又用magic04 (MAGIC gamma telescope data 2004) 数据集进行了实验。该数据集有gamma (signal) 、hadron (background) 两类, 我们分别取其中的4000个样本作为训练集, 3000个样本作为测试集。样本都是随机抽取的。在用算法实验前, 对这4000个训练样本进行训练, 其需要的训练时间大约是2000秒, 时间代价是很大的。

用算法进行实验, 从4000个训练样本抽取500个样本作为执行算法所要的训练集。执行算法步骤 (2) 时, 选step=50, 即选择训练样本数分别为:50、100、150、200、250、300、350、400、450、500, 每次执行Bagging算法时SVM分类器个数都为40个。在执行算法步骤 (3) 时, 我们取step=20。表3为执行算法步骤 (2) 的分类结果。表4为执行算法步骤 (3) 的分类结果。

从表3中可以看到, 在执行了一次算法后, 选择400个样本进行训练时, SVM分类器体现的性能较其它的训练样本下的SVM分类器的性能要好。然后执行算法步骤 (3) , 选 step=10, 在400这个值旁再做一次自助网格搜索, 即划分的区间为 (350, 400) ∪ (400, 450) , 表4是执行算法步骤 (3) 而得到的分类结果。

从表4中可以看出, 在所选择的训练样本集的尺寸为500的范围内, 当训练集中训练样本的个数为410个的时候, SVM分类器的分类精度较其它区间边界处对应样本的尺寸下的分类精度要高, 且其训练时间只要2.020049秒, 较4000个训练时间花费约2000秒的时间要小得多, 从而降低了训练时间的代价。同时可以看到, 选择训练集中训练样本的个数为410的SVM分类器的分类精度是98.9467%, 在测试样本为3000个的时候它只错了35个样本, 这样的错误率是可以接受的。因此, 训练集应该选择410个样本, 其训练样本的尺寸远远小于4000个样本的原训练集样本的尺寸。综上分析, 自助网格搜索算法构造出来的SVM训练集是很优的。

4 总结

本文是针对SVM最优分类器而提出的一种确定训练集的学习算法, 训练样本集中的数据以及样本尺寸的改变影响着测试精度, 选择合适的训练集能够提高SVM分类器的学习精度以及学习性能。自助网格算法是把Bagging算法与网格搜索算法的思想结合在一起来寻找合适的训练样本集, 实验发现, 该算法能够找到使泛化能力很好的训练集。对大样本数据来说, 主要的缺陷就是训练时间长的问题, 用自助网格算法可以用相对较少的样本进行训练后的性能来预测它对一个非常庞大的训练集的性能, 从而节省了时间。研究表明, 该算法对SVM分类器设计有一定的参考价值。

参考文献

[1]Vapnik VN.The Nature of Statistical Learning Theory[M].NewYork:Springer-Verlag, 1995.

[2]Cherkassky V, Mulier F.Learning from Data:Concept, Theory and Method.NY:JohnViley&sons, 1997.

[3]李琳, 张晓龙.基于RBF核的SVM学习算法的优化计算[J].计算机工程与应用, 2006, 29:190-192.

[4]Xie Z J, Wong H, Ip W C, et al.Artificial neural network and its appli-cation to financial forecasting[J].Acta Scientiarum NaturaliumUniver-sitatis Pekinensis, 2001, 37 (3) :421-425.

[5]Richard O Duda, Peter E Hart, David G Stork.Pattern Classification[M].Znd ed.2003.

[6]Vaseghi S.State duration modeling in hidden Markov models.Signal Processing, 1995, 41:31-41.

训练样本篇2

九

月

份

计

划

材料科学与工程学院学生会部门

东北林业大学院学生会

九

月

份

总

结

材料科学与工程学院学生会部门

2009---2010学

零月份工作计划

材料科学与工程学院学生会部门

2009---2010学

零月份工作总结

材料科学与工程学院

学生会部门零月工作计划（总结）

正文为四号字，落款为材料科学与工程学院

学生会部门 09年9月

东北林业大学院学生会

十

一

月

计

划

材料科学与工程学院学生会部门

东北林业大学院学生会

十

一

月

总

结

材料科学与工程学院学生会部门

2009---2010学

十一月份工作计划

材料科学与工程学院学生会部门

2009---2010学

十一月份工作总结

训练样本篇3

关键词：卷积神经网络,深度学习,图像处理,训练时间

如今在机器学习领域中,深度学习方法已经占据了相当重要的地位,通过模仿人脑学习方式构造模型,在图像、文本、语音处理方面取得了显著成果[1]。目前应用较为广泛的深度学习模型包含多层感知器模型(MLP)[2],卷积神经网络模型和限制性玻尔兹曼机模型等[4]。多层感知器[2]网络结构的神经节点一般分层排列,主要由输入层,输出层和一些隐层组成,同层之间的神经元节点无连接,相邻的两层神经元进行全连接,前一层的神经元的输出作为后一层神经元的输入,但本身此种算法存在着一些问题,那就是它的学习速度非常慢,其中一个原因就是由于层与层之间进行全连接,所以它所需要训练的参数的规模是非常大的,所以对其进行改进,产生了卷积神经网络模型。卷积神经网络模型在图像识别方面的应用十分广泛[5,8,9]。从它的结构上来看,层与层之间的神经元节点采用局部连接模式,而并非MLP的全连接模型,这样就降低了需要训练的参数的规模。而在它卷积层中,它的每一个滤波器作为卷积核重复作用于整个输入图像中,对其进行卷积,而得出的结果作为输入图像的特征图[6],这样就提取出了图像的局部特征。而由于每一个卷积滤波器共享相同的参数,这样也就大大降低了训练参数的时间成本。而本文,以卷积神经网络为研究对象,在其模型的基础上通过对其结构中卷积核也就是滤波器的大小进行调整并结合卷积核个数调整和gpu加速等已有的训练提速方法,达到降低训练时间并且对识别结果并无太大影响的目的。

1 卷积神经网络

卷积神经网络在MLP的基础上,已经对结构进行了优化,通过层与层之间的局部连接以及权值共享等方式对要训练的参数的进行了大幅减低。

1.1 局部连接

BP神经网络中,神经元在本层中呈线性排列状态,层与层之间进行全连接,而在卷积神经网络中,为了减少每层之间的可训练参数数量,对连接方式进行了修改,相对于BP神经网络的全连接,卷积神经网络采取了局部连接的连接方式[7],也就是说按照某种关联因素,本层的神经元只会与上层的部分神经元进行连接。

2.2 权值共享

在CNN中,卷积层中的卷积核也就是滤波器,重复作用在输入图像上,对其进行卷积,最后的输出作为他的特征图,由于每个滤波器共享相同的参数,所以说他们的权重矩阵以及偏置项是相同的。

我们从上图看出,相同箭头连线的权值是共享的,这样在原有的局部连接的基础上我们又降低了每层需要训练的参数的数量。

2.3 卷积过程

特征图是通过滤波器按照特定的步长,对输入图像进行滤波,也就是说我们用一个线性的卷积核对输入图像进行卷积然后附加一个偏置项,最后对神经元进行激活。如果我们设第k层的特征图记为hk,权重矩阵记为Wk,偏置项记为bk,那么卷积过程的公式如下所示(双曲函数tanh作为神经元的激活函数):

双曲正切函数(tanh):

2.4 最大池采样

通过了局部连接与权值共享等减少连接参数的方式卷积神经网络中还有另外一个重要的概念那就是最大池采样方法,它是一种非线性的采样方法。最大池采样法在对减少训练参数数量的作用体现在两个方面:

1)它减小了来自m-1层的计算复杂度。

2)池化的单元具有平移不变性,所以即使图像在滤波后有小的位移,经过池化的特征依然会保持不变。

3 卷积神经网络整体构造以及减少训练时间的方法

3.1 使用GPU加速

本次论文实验中,使用了theano库在python环境下实现卷积神经网络模型,在lenet手写数字识别模型上进行改进,由于theano库本身支持GPU加速,所以在训练速度上实现了大幅度的提高。

3.2 数据集的预处理

本次实验使用的两个数据集是mnist手写数字库以及ci⁃far_10库

Mnist手写数字库具有60000张训练集以及10000张测试集,图片的像素都为28*28,而cifar_10库是一个用于普适物体识别的数据集,它由60000张32*32像素的RGB彩色图片构成,50000张图片组成训练集,10000张组成测试集。而对于cifar_10数据集来说,由于图片都是RGB的,所以我们在进行实验的时候,先把其转换为灰度图在进行存储。由于实验是在python环境下运行,theano函数库进行算法支持,所以我们把数据集进行处理,此处我们对使用的数据集进行了格式化。格式化的文件包括三个list,分别是训练数据,验证数据和测试数据。而list中每个元素都是由图像本身和它的相对应的标签组成的。以mnist数据集为例,我们包含train_set,valid_set,test_set三个list,每个list中包含两个元素,以训练集为例,第一个元素为一个784*60000的二维矩阵,第二个元素为一个包含60000个元素的列向量,第一个元素的每一行代表一张图片的每个像素,一共60000行,第二个元素就存储了对相应的标签。而我们取训练样本的10%作为验证样本,进行相同的格式化,而测试样本为没有经过训练的10000张图片。在以cifar_10数据集为实验对象时,把其进行灰度化后,进行相同的格式化处理方式。

3.3 实验模型结构

本次实验是在python环境下基于theano函数库搭建好的lenet模型进行参数的调整,以达到在实验准确度可接受情况下减少训练时间的目的。

上图为实验中的基础模型举例说明实验过程,首先以mnist数据集为例,我们的输入图像为一个28*28像素的手写数字图像,在第一层中我们进行了卷积处理,四个滤波器在s1层中我们得到了四张特征图。在这里要特别的说明一下滤波器的大小问题,滤波器的大小可根据图像像素大小和卷积神经网络整体结构进行设置,举例说明,假如说我们的输入图像为28*28像素的图像,我们把第一层卷积层滤波器大小设置为5*5,也就是说我们用一个大小为5*5的局部滑动窗,以步长为一对整张图像进行滑动滤波,则滑动窗会有24个不同的位置,也就是说经过卷积处理后的C1层特征图的大小为24*24。此处的滤波器大小可进行调整,本论文希望通过对滤波器大小的调整,已达到减少训练时间的目的,并寻找调整的理论依据。C1层的特征图个数与卷积过程中滤波器数量相同。S1层是C1经过降采样处理后得到的,也就是说四个点经过降采样后变为一个点,我们使用的是最大池方法,所以取这四个点的最大值,也就是说S1层图像大小为12*12像素,具有4张特征图。而同理S1层经过卷积处理得到C2层,此时我们滤波器的大小和个数也可以自行设置,得到的C2层有6张特征图,C2到S2层进行降采样处理,最后面的层由于节点个数较少,我们就用MLP方法进行全连接。

我们设在卷积过程中,滤波器大小为n*n,上层输入图像大小为m*m,步长为1,c*c为得到特征图的大小,则他们之间的关系为:

设经过最大池处理的降采样后得到的图像大小为s*s,则:

3.4 实验参数改进分析

由输入图像到C1层我们可知,有4个滤波器也就是有4张特征图,我们假设滤波器大小为5*5,也就是说在特征图的每个神经元都与输入中的5*5的邻域相连,假设C1的可训练参数个数为X,滤波器大小为n*n,个数为a且除了滤波器参数之外还有一个偏置项参数,那么:

如果输入图像大小为m*m,则与C1层特征图的连接数Y为:

由此可见,我们对滤波器的大小以及个数的改变,可以直接影响到卷积训练参数的个数,从而达到减少训练时间的目的。

从另一种角度来看,增大滤波器的大小,实际效果应该相似于缩小输入图像的像素大小,所以这样我们可以预测增大滤波器的大小会减少样本的训练时间,但是这样也可能会降低训练后的分类的准确率,而滤波器的大小是如何影响训练时间以及分类准确率的,我们通过对两种图片库的实验来进行分析。

4 实验结果与分析

4.1 以mnist手写数字数据集作为实验数据

我们知道卷积层可训练参数的数字与滤波器的大小和数字有关,所以我们通过对卷积层滤波器大小的变化来寻找较为普遍的可减少训练参数从而达到减少训练时间的目的。在实验记录中,我们表格纵列记录两层卷积层滤波器大小,横列分别为对已经过训练图像识别和对未经过训练的验证图像进行识别的错误率,最后记录每种滤波器大小搭配的使用时间。我们设定每次试验都进行100次重复训练,每次对权重矩阵进行优化。

此处我们记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。两层滤波器大小相加后相同的元素我们把其对应时间做平均。

4.2 以cifar_10数据集作为实验数据

同样是以100次循环训练进行测试,通过改变两层中滤波器的大小来寻找减少训练时间的设定。

此处以同样的方法,记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。

从两组试验中,在不同的数据集下,我们得到了滤波器的大小与训练时间成反比的关系,而在减少了训练时间的同时确实增大了训练的错误率。

5 总结

通过实验结果分析表明,增大卷积层滤波器大小的方法,在此两种数据库的情况下,是有效减小训练时间的方式,而在不同的数据库对分类准确率的影响程度不同,mnist手写数字数据库中图像之间的相似度非常高,所以滤波器的增大对准确率产生的负面影响较小,而ifar_10数据集中图像之间的相似度较小,所以增大滤波器的大小对其分类结果的准确率的负面影响较大。

参考文献

[1]Le Cun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

[2]Ruck D W,Rogers S K,Kabrisky M.Feature selection usinga multilayer perceptron[J].]Journal of Neural Network Comput-ing,1990,2(2):40-48.

[3]Le Cun Y,Bengio Y.Convolutional networks for images,speech,and time series[J].The handbook of brain theory andneural networks,1995,3361(10):1995.

[4]Larochelle H,Bengio Y.Classification using discriminative re-stricted Boltzmann machines[C]//Proceedings of the 25th inter-national conference on Machine learning.ACM,2008:536-543.

[5]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classificationwith deep convolutional neural networks[C]//Advances in neu-ral information processing systems.2012:1097-1105.

[6]Zeiler M D,Fergus R.Visualizing and understanding convolu-tional networks[C]//European Conference on Computer Vision.Springer International Publishing,2014:818-833.

[7]Jarrett K,Kavukcuoglu K,Lecun Y.What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12thInternational Conference on Computer Vision.IEEE,2009:2146-2153.

[8]Ji S,Xu W,Yang M,et al.3D convolutional neural networksfor human action recognition[J].IEEE transactions on patternanalysis and machine intelligence,2013,35(1):221-231.

训练样本篇4

邮箱：demo@zuitu.com 联系电话：0554-2686543

合同编号：最土网营销推广合同

甲方：乙方：最土网

地址：地址：联系人：联系人：电话：电话：Email：Email：

经甲乙双方友好协商，现就甲方委托乙方进行营销推广事宜，达成如下条款，双方共同遵守：

一、合同名词定义：

1、本合同中所有“优惠券”指条款

（二）中规定的优惠券。

2、乙方在推广甲方项目结束时，乙方用户购买优惠券的总数量定义为优惠券成交数。

3、合同到期时，前来消费的用户总共使用的优惠券的数量定义为优惠券使用数。

4、乙方用户每使用一张优惠券，乙方应向甲方支付的费用定义为优惠券单价。

5、乙方应向甲方支付的总费用定义为优惠券总价。

6、乙方应向甲方支付的最低总费用定义为最低优惠券总价。

7、乙方承诺销售优惠券的最少数量定义为最低优惠券销售数。

二、优惠券销售规则：

甲乙双方同意，乙方网站（）在推广日发布关于甲方的营销推广项目，向乙方网站用户销售本合同中指定的优惠券。双方按照如下条款制定优惠券销售规则：

1、乙方用户凭在乙方网站上购买的优惠券可以在甲方抵用元，且限制在以下服务项目：

2、乙方承诺销售优惠券的数量大于或者等于最低优惠券销售数。

3、优惠券单价按照如下规则确定：

如果优惠券销售数大于最低优惠券销售数，则优惠券单价为_______元

4、优惠券总价按照如下规则确定：

（1）如果优惠券使用数>=优惠券最低销售数，则优惠券总价为：

优惠券使用数*优惠券使用数对应的优惠券单价。

（2）如果优惠券使用数低于最低优惠券销售数，则优惠券总价为：

最低优惠券销售数*最低优惠券销售数对应的优惠券单价

5、推广日暂定于________________至________________，优惠券有效期为自推广日起__________个月。（至少为3个月）

6、其他限制条款：

每张优惠券限__________人使用；

每桌限用优惠券________张；

每次消费限用优惠券_______张；

乙方用户__________(可以/不可以)同时享受店内的其他优惠；

优惠券仅一次消费有效，未使用完的余额不可再次使用；

其它：___________________________________________________

__________________________________________________________

甲方同意，合同签订日起三日内向乙方免费提供广告文案所需的图片和文字介绍材料。乙方

免费撰写广告文案并对图片进行加工。

三、合同生效：

如果在推广日结束后，乙方实际销售的优惠券数量>=最低优惠券销售数，则本合同生效至优惠券失效期为止。

如果在推广日结束后，乙方实际销售的优惠券数量<最低优惠券销售数，则本合同终止，甲方和乙方均无需承担任何其他责任与义务。

四、优惠券验真：

乙方用户持优惠券前来消费，甲方有义务检验优惠券的真假。检验方法同__________。

A：登陆乙方提供的商家后台输入用户优惠券右下角/或用户短信内容中的密码，验证并标记消费。（地址：/biz用户名____________；初始密码____________）

B：按照用户优惠券右上角/或用户短信内容中的序列号，对照用户优惠券右下角/或用户短信内容中的密码，验证并请用户签字记录消费。

如果因甲方未能尽职检验优惠券真假带来的经济损失，由甲方承担。

五、付款：

1、付款总金额：一旦合同生效，到优惠券有效期截止日后7个工作日内，乙方向甲方支付金额为优惠券总价。

2、付款周期：______月/半年/年

3、付款日：在一个付款周期开始日起的第七个工作日以内的任何一个工作日。

4、付款周期内的应付金额：在一个付款周期内，乙方向甲方支付的金额为该付款周期内实际使用的优惠券数量*优惠券单价。

5、付款方式：一旦合同生效，乙方每个付款周期通过________________（现金支票/转账支票/银行转账）方式按照该付款周期内的应付金额向甲方付款，在付款日完成付款。开户行：____________________________________________________

开户名：____________________________________________________

账号：______________________________________________________

6、优惠券销售数与使用数差异导致的实付款与应付款差额：

如果到优惠券有效期截止日结束，由于乙方部分用户未能前来使用优惠券，导致优惠券使用数与销售数不一致，则在最后一个付款周期，乙方向甲方支付实付款和应付款之间的全部差额，保证甲方从乙方得到的付款总额与优惠券总价一致。

六、甲乙双方的权利和义务：

1、甲方需向乙方提供由甲方盖章的单位资质证明复印件；

2、甲方自本合同签订之日起三日内向乙方提供网络广告成品文件：包括文字、色彩、版式等；

3、甲方提供的广告内容必须符合《中华人民共和国广告法》及其他相关法律、法规、规章的规定，否则，造成的后果由甲方负责；

4、甲方不得对持乙方优惠券前来消费的用户在接待、服务方面进行歧视，需与其他来源的客人同等接待和服务。

七、责任免除：

1、因战争、自然灾害等导致乙方服务器不能正常运行；

2、因政府行政行为导致乙方不能开放服务器；

3、因互联网灾难，中国、美国等互联网通讯提供商原因导致乙方服务器不能正常接入；

4、因乙方操作平台及应用软件原因导致乙方服务器临时性不能正常运行；

5、因乙方网站遭遇不法攻击导致服务器临时性不能正常运行；

6、因甲方责任造成广告制作流程中断或延误。

7、基于以上原因，导致乙方网站不能正常运行，乙方不承担任何法律上和其它方式的责任。

八、本合同一式两份，自甲、乙双方签字盖章之日起生效，合同文本及合同传真件具有同等的法律效力。

九、本合同的效力、解释、履行和争议的解决均适用中华人民共和国法律、法规和计算机、互联网行业的规范。合同条款如与相关法律、法规内容抵触，该条款无效，但不影响其他条

款的法律效力。

十、本合同未尽事宜，双方友好协商解决，必要时经双方协商一致后另行签订合同补充规定。

十一、如果甲方要求限定乙方给用户的价格，则该价格必须是甲方所有渠道卖给最终用户的最低价。如果出现其他渠道卖给最终用户的价格低于乙方网站最土网（）的价格，则乙方有权立即降价至与该低于最土网的价格相同的价格，且乙方保留采取进一步降价行动的权利。

甲方：

授权代表签字（盖章）：

2010年月日

训练样本篇5

各种支持向量机 (简称SVM) 算法, 原则上都可以归结为凸二次规划问题直接求解。但处理具体问题时, 这些算法都要存储与训练集相应的核矩阵, 当训练集中样本个数以成千计时, 存储核矩阵所需的内存相当大, 往往会导致这些算法失效。这迫使人们设计专门的针对支持向量机的新算法。如选块算法、分解算法和序列最小最优算法[1]。这些算法的一个共同点就是:将大规模的原始问题分解成若干小规模的子问题, 按照某种迭代策略, 反复求解子问题, 构造出原始问题的近似解。由于需要多步迭代, 往往算法变得十分缓慢。本文提出了一种新的支持向量机算法, 基本思路是利用模糊聚类算法对样本进行预先处理。该算法既达到压缩数据样本数量的目的, 同时又考虑到压缩后样本的代表性。

1 支持向量机的基本原理

SVM是在20世纪90年代由V. Vapnik等人提出并发展起来的一种基于统计学习理论的机器学习算法。主要应用在模式识别和函数回归方面[2,3]。以二维空间为例, SVM的实现思想如图1所示, 十字点和空心圆代表两类样本, H为分类线, H1、H2分别为通过各类中距离H最近的样本且平行于H的直线, H1、H2之间的距离叫作分类间隔。所谓最优的分类线 (简称OHP) 就是要求不但能将两类正确分开 (分类错误率为0) , 而且使分类间隔最大 (推广度最佳) 。

SVM算法实现的过程是首先求出支持向量 (简称SV, 由图1中的套方框样本表示) , 然后求出OHP。对于SVM理论, SV是距离OHP最近的样本点, 并且同一类的SV离OHP距离完全相等, 不同类的SV离OHP距离不一定相等。

假设有n个训练样本: (xi, yj) , i=1, 2, …, n, xi∈Rd是属性数据, yi∈{+1, -1}表示类别。要求一个分类超平面 (w·x) +b=0, w∈Rn;b∈R, (w·x) 为w与x的内积, 关键是求系数w和b。由于SVM理论要求OHP具有分类误差小、推广能力强的性质, 并且考虑允许个别样本的错分, 它必须满足如式 (1) 和式 (2) 所示的条件:

yi[ (w·xi) +b]≥1-ξii=1, 2, …, n (1)

$\min_{w} ϕ (w) = ∥ w ∥^{2} + C \sum_{i = 1}^{n} ξ_{i} (2)$

为了找到OHP, 根据最优化理论, 我们借助Lagrange函数将式 (1) 和式 (2) 转化成求解标准型二次规划问题:

$\max W (α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) (3)$

$S . Τ . \sum_{i = 1}^{n} α_{i} y_{i} = 0 C \geq α_{i} \geq 0 i = 1, 2, \dots, n (4)$

求出大于零的αi, 其对应的样本即为SV, 由此可解得分类函数表达式如式 (5) 和式 (6) 所示:

f (x) =sign $\sum_{α_{i} > 0} α_{i} y_{i} (x_{i} \cdot x) - b_{0}} (5)$

$b_{0} = y_{i} - \sum_{i = 1}^{n} y_{i} α_{i} (x_{i} \cdot x_{j}) (6)$

根据V.Vapnik提出的核函数理论[4], 可以用核函数 $Κ (x_{i}, x_{j})$ 替代内积运算 $(x_{i} \cdot x_{j})$ , 以实现由低维空间到高维空间的映射, 从而使低维空间的非线性问题转化为高维空间的线性问题。引入核函数后, 优化目标函数式如式 (7) 和式 (8) 所示:

$\max W (α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} Κ (x_{i} \cdot x_{j}) (7)$

相应的分类函数变为:

f (x) =sign $\sum_{α_{i} > 0} α_{i} y_{i} Κ (x_{i} \cdot x) - b_{0}} (8)$

经典的SVM算法只给出了二类分类的算法, 而在实际应用中, 一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式[5]和SVM决策树。

2 用模糊聚类分析预先处理训练样本

本文提出的方法首先对样本的属性数据进行处理。 (xi, yj) , i=1, 2, …, n为训练样本, 其中每个样本由一组属性数据表征如下:xi= (b1, b2, …, bm) 。为方便计算, 根据所研究问题的实际情况, 可以构建一个映射函数, 将训练样本的属性数据 (b1, b2, …, bm) 变换成 (ai1, ai2, …, ail) 且ai1, ai2, …, ail≤1 。

第二步是建立训练样本间的相似关系。R (xi, xj) =rij是xi和xj之间的相似关系, 矩阵R (xi, xj) 一般只满足自反性和对称性, 即是相似矩阵。可以采用平方法求出其传递闭包 $\hat{R} (x_{i}, x_{j})$ , 传递闭包是等价矩阵, 通过设置λ 的值, 由截集 $\hat{R}_{λ}$ 可以对样本进行分类, 假设分成了m类{v1, v2, …, vm}。

第三步是用压缩后的样本训练SVM程序。在一类样本中取一个样本xi代表这类样本, 并赋给样本xi一个权si, 其大小由xi代表的类的大小决定。对 (xi, yi) , i=1, 2, …, m使用WC-SVM方法[5], WC-SVM的表达式如下:

$\min_{w} ϕ (w) = ∥ w ∥^{2} + C \sum_{i = 1}^{n} s_{i} ξ_{i} (9)$

yi[ (w·xi) +b]≥1-ξii=1, 2, …, m (10)

在C-SVM中 $\sum_{i = 1}^{m} ξ_{i}$ 的含义是分类错误的几何损失, 体现了结构风险最小化的思想。在上式中用 $\sum_{i = 1}^{m} s_{i} ξ_{i}$ 代替 $\sum_{i = 1}^{m} ξ_{i}$ , 考虑了用模糊聚类分析压缩样本后数据的代表性。

3 实例检验

为了检验该方法的性能, 进行了比较实验。为便于观察, 使用的是随机生成的二维数据作为样本。正类数据的范围是从0.1到0.5, 负类数据的范围从0.4到0.9。训练样本有3组, 数量分别为600, 2000, 5000, 测试样本数为600。首先对训练样本聚类, 根据绝对值指数法, 建立相似关系R (xi, xj) , 并求出其等价矩阵 $\hat{R} (x_{i}, x_{j})$ 。通过设置λ的值, 由截集 $\hat{R}_{λ}$ 可以对样本进行分类。不同λ值对应不同的聚类结果。然后, 由不同的聚类结果训练WC-SVM程序 (选择相同的核函数和C值) 。最后, 用训练过的支持向量机对测试样本进行划分, 所得的错误率是不同的, 结果如表1所示。

由表1可以看出, 对于同一训练样本, F聚类形成的类别越少, 错误率越高;相同的λ值聚类后, 训练样本的数量越多, 错误率越小。由此我们得出本文提出的方法在训练样本数量较多的时候是有效的方法。

4 结论

由上述结果可以得出结论, 在处理低维空间的分类问题时, 只要选择合适的建立相似关系的方法, 通过模糊聚类方法来压缩数量较多训练样本的数量对SVM的分类错误率影响不大。对于多维空间中的分类情况是否适用还有待证明。在计算效率方面, 如果将模糊聚类分析考虑在内, 该方法并不能缩短计算时间, 但在SVM使用核函数时, 可以降低内存开销, 使得运用数量较多训练样本训练SVM程序可以顺利进行。

摘要：在用大量训练样本训练支持向量机时, 会遇到内存开销大的问题。为解决这一问题, 提出了一种新方法, 基本思路是利用模糊聚类算法对训练样本预先进行聚类, 然后以类别中的一个样本代替一类样本, 达到压缩数据样本数量的目的。考虑到压缩后样本的代表性, 引入了加权支持向量机。通过实例检验证明该算法可以减小内存的开销, 并且对于大量训练样本可以保证较高的分类准确率。

关键词：模糊聚类,支持向量机 (SVM) ,大量训练样本

参考文献

[1]邓乃扬, 田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社, 2004:328-341.

[2]Joachims T.Text Categorization with Support Vector Machines:Learn-ing with Many Relevant Features[C].In Proceedings of the ECML’98, 1998 (4) :137-142.

[3]Cao Lijuan, Francis E HT.Financial Forecasting Using Support VectorMachines[J].Neural Computing and Application, 2001 (10) :184-192.

[4]Vapnik V N.The Nature of Statistical Learning Theory[M].Springer, 1995.

训练样本篇6

1. 问题

分析丽江师范高等专科学校数学教育专业一年级151人、二年级179人和三年级108人数学教学技能竞赛成绩之间是否存在显著性差异。

2. 问题解释

假设三个年级之间存在显著性差异, 为此需进行独立样本T检验。测验对象是丽江师范高等专科学校数学教育专业所有学生。测验成绩以同一次相同标准下的数学教学技能竞赛成绩为准, 竞赛在数学教育专业三个年级十个班级进行, 各班按给定的数学教学技能评价标准对所有学生进行评价, 应用数学教学技能模糊综合评判模型进行综合评价。检验分别以 (一年级、二年级) 和 (二年级、三年级) 进行成对检验。

3. SPSS软件进行独立样本T检验的实现

为了研究的方便, 所用SPSS Statstics17.0为汉化中文版。

3.1 数据录入

分别将所有学生按年级分别录入EXCEL文件1-2.xls和2-3.xls。

3.2 检验实现

打开软件, 选择分析——非参数检验——2个独立样本 (2) 命令。

两个独立样本检验对话框中, 将一年级选入检验变量列表中, 将二年级选入分组变量列表中。单击定义组 (D) 按钮, 弹出对话框中有两个选项组1中定义值为1, 组2定义为0, 点击继续, 确定即可。

3.3 检验结果

由表1可知一年级和二年级人数, 均值, 标准差, 均值的标准误。

表2显示, 方差的齐性检验结果 (p=0.61>0.05) 是不显著的。两个年级的成绩存在显著差异 (t=-19.726, df=328, p<0.05) , 即二年级的成绩显著高于一年级。

由表3可知二年级和三年级人数, 均值, 标准差, 均值的标准误。

表4独立样本检验显示, 方差的齐性检验结果 (p=0.385>0.05) 是不显著的。两个年级的成绩存在显著差异 (t=9.021, df=285, p<0.05) , 即三年级的成绩显著高于二年级。