混合回归

2024-09-18

混合回归(精选4篇)

混合回归 篇1

摘要:聚类问题是当今统计学习界的热点研究问题, 针对一般情形的聚类分析已经有具有了kmeans、高斯混合模型等, 由于目前各种数据的细化, 人们提出的聚类算法更多的倾向于研究某种特定的数据。在本文中, 笔者提出了基于自回归的高斯混合模型, 它假设模型是由符合自回归模型的高斯分布混合而成, 算法利用EM算法, 可以精确地估计混合模型中的自回归系数以及方差系数。

关键词:高斯混合模型,自回归模型,EM算法,聚类

一、简介

聚类问题是当今统计学领域的热点研究问题之一, 统计学家已经发明了诸多成熟的算法。随着数据特别是生物中基因数据的快速增长, 人们逐渐发现数据中的一些内在的性质, 利用传统的聚类算法处理这些数据无法利用这些性质因而无法提供较高的准确率。为此, 研究人员更多的是针对一类特殊模型提出特殊的算法, 这实际上是聚类细化的问题, 例如, 作者提出了一个混合模型 (Mixture Model) 来对基因表达数据进行聚类分析, 该模型运用了在基于基因表达试验中的设计矩阵, 作者将算法运用到三种不同的数据上并取得了非常好的效果。同样在中, 作者提出了一个混合模型来对周期性的基因数据进行聚类研究。

二、模型介绍

混合模型 (Mixture Model) 是聚类算法中常用的模型, 具有较强的理论基础, 通过利用期望最大化算法, 可以迅速地求解。现在我们将混合模型的思想运用在基于自回归数据中。假设自回归数据可以分为c个类, 类符合参数为π= (π1, …, πc) 的多重分布 (Multinom ialDis tribution) , 其中类h是符合正态分布, 其期望为uh= (uh1, uh2, Luhm) 方差Sk=δk Rk, 其中

混合模型的参数为μ, ρ, δh, 其中μ代表了c个类的期望值向量, ρh代表了c个类的自回归系数 (ρ1…ρk…, ρc) 。

若数据点yi= (yi1, yi2, …, yim) , 用zhi表示yi的类指标, 这样很自然的有 (∑ch=1zhi=1) , 若zhj=1表示数据点yi是由类h来产生的, 那么它出现的概率为

数据点yi出现的概率为

若有n个数据点 (n个样本) y1, y2, …, yn, 则数据的对数似然函数为

现在我们的目标是要估计出参数μ, ρ, δ以极大化似然函数L (1) .首先考虑对式子 (1) 进行求导并设置导数为零, 但由于log函数中含有和的形式, 无法通过求导来得出结果。期望最大化算法对于处理这种情形是非常自然的, 在下一小节, 我们将介绍如何利用期望最大化算法 (EMAlgorithm) 解决上述优化问题。

如果参数μ, ρ, δh已经被正确的估计出来, 那么数据点yi来自于类h的后验概率为τhi=f (zhi=1|u, ρ, δh, yi) =

因此可以将数据点yi分配到τhi最大的那个类中, 这也是混合模型进行分类的标准。

三、实验结果

对自回归系数估计的实验

本部分将对算法来进行测试以证明有效性, 算法的一个非常重要的部分是对相关系数ρh的估计, 如果能保证这部分的正确性, 则算法的整体正确性会得到保证。为此我们首先进行如下的试验:对于ρ=0.1, 0.3, 0.7, 0.9, δ=0.3, 1, 1.5分别生成期望为0, 从而估计ρ和δ的值, 设置m=10, 每个实验进行10次, 结果在表中。

四、总结

本文提出了一个基于自回归模型的混合模型并利用期望最大化算法给出了这个算法的迭代过程, 具有较完善的理论基础。在实验部分, 通过测试多种自回归数据并对比常用的Kmeans和Mclust算法, 我们证实了算法在处理自回归数据上的高精度。算法应用在基于时间点的基因表达数据上, 我们未来的工作将集中于算法的应用并进行算法的模型选择问题研究。

参考文献

[1]Kim BR, Zhang L, Berg A, Fan J, and Wu R.A computational approach to the functional clustering of periodic gene-expression pro?les.Genetics, 180:821–834, 2008.

[2]C.Fraley and A.E.Raftery.Enhanced model-based clustering, density esti-mation, and dis-criminant analysissoftware:Mclust.J.Classif., 20 (2) :263286, 2003.

[3]Hironori Fujisawa.The maximum likelihood estimatorsin a multivariate nor-mal distribution with ar (1) covariance structure for monotone data.Annals of the Institute of Statistical Math-ematics, 48:423428, 1996.

[4]S.K.Ng, G.J.Mclachlan, K.Wang, Ben-Tovim, and S.W.Ng.A mixture model with random-effects components for clustering correlated gene-expression pro?les.Bioinformat-ics, 22 (14) :17451752, July2006.

基于混合模重构的kNN回归 篇2

关键词:线性回归,稀疏编码,重构,l_1-范数,l_(2,1)-范数,噪声样本

0 引言

k NN算法是一种应用广泛的分类方法,它是最近邻算法( NN算法) 的推广形式。NN算法最早是由Cover和Hart在1967 年提出,最早用于分类的研究[1]。k NN算法也可用于回归: 对于一个测试样本,在所有训练样本中选取最接近它的k个样本的均值来进行预测。然而本文发现传统的k NN算法对每一个测试样本,都用同样k个数目的训练样本来进行预测,这在应用中不合实际。

图1 所示一个数据集分布,三角形代表测试样本,圆圈代表训练样本,如设k = 3,用k NN算法预测测试样本,对于左边的测试样本,用最邻近的三个训练样本去预测,这比较合理。但对于右边的测试样本,仅有两个训练样本离它比较近,另一个离得很远,显然用最邻近的这三个训练样本来预测测试样本是不合理的,应该根据实际情况,选取不同的k值。

对此,一些学者展开了选取最优k值的研究。例如Cora等人提出了自动选取最优k值的k NN方法[2]。Matthieu Kowalski在稀疏扩展方法里引入了结构化稀疏的概念[3],同时将这种方法与多层信号扩展方法联系起来,用来分解由许多不同成分构成的信号。Hechenbichler等人提出了加权k NN法[4],该方法根据训练样本到测试样本距离的大小赋予不同的权值,距离大的权值反而小,该方法的分类识别率对k值的选取不再敏感。Zhang等人提出了代价敏感分类方法[5,6,7,8]。还有一些学者从特征加权的角度提出了一些算法,也在一定程度上改进了k NN算法。

但是以上这些方法都是只利用了训练样本中k个邻近样本提供的信息,没有考虑测试样本提供的信息,即没有考虑训练样本和测试样本之间的相关性。而本文认为样本之间是存在相关性的,对于每个测试样本,应该用与之相关的训练样本来对其进行预测,但是每一个测试样本却可能跟不同数目的训练样本相关。为此,本文用训练样本重构[9]每一测试样本获得样本之间的k相关性,同时用LASSO( the Least Absolute Shrinkage and Selection Operator)[10]来控制稀疏性以解决k值固定问题。另外实际数据集中一般会有噪声存在[11,12],如在图1 中设k = 7,对于左边的测试样本,图中左上角的噪声样本会影响其真实值的预测,并应该剔除这些噪声样本,本文借助l2,1-范数能产生整行为0 的特性来去除噪声。因此,针对k NN算法存在的这两个问题,本文提出一种新的基于混合模[13]重构的k NN算法—MixedNorm Reconstruction-k NN,简记为MNR-k NN。

1 基于混合模重构的k NN算法

1. 1 重构

用训练样本重构每一测试样本时,本文假设有训练样本空间X∈Rn × d,n为训练样本数目,d为样本维数; 测试样本空间Y∈Rd × m,m为测试样本数目。一般我们用最小二乘法[14,15]解决线性回归问题,即获取投影矩阵W∈Rn × m:

其中,‖·‖F是Frobenius矩阵范数,yi∈ Rd ×1,wi是W的第i列向量。

分类问题中yi一般为类标签,W表示Y与X的函数关系,在本文yi表示第i个测试样本,而W表示训练样本和测试样本经过重构得到的相关性系数矩阵。以下面例子进一步说明W,假设有4 个训练样本,2 个测试样本,样本属性数目为3,此时Y - XTW为:

由XTW知W中元素Wij表示第i个训练样本与第j个测试样本之间的相关性大小,Wij> 0 时代表正相关,Wij< 0 时代表负相关,Wij= 0 时代表不相关。所以,W表示测试样本与训练样本之间的相关性矩阵,本文考虑训练样本和测试样本之间的相关性,利用重构方法获得了训练样本与测试样本之间的相关性大小。

1. 2 正则化

一般得到的W不是稀疏的,考虑到列向量Wj表示第j个测试样本与所有训练样本的相关性,如果列向量中有r个元素值不为0,其余为0,则预测时k相应地取r,并用对应的这r个训练样本来预测测试样本。这样选取的k个训练样本就是与测试样本最相关的k个样本,也就可以解决k NN算法中k值固定问题。

通常使用最小二乘损失函数求解线性回归问题,即:

虽然上面目标函数是凸的,易知其解W*= ( XXT)-1XY 。然而,实际应用中XXT不一定可逆,为此,优化函数式( 3) 被加上一正则化因子,即:

其中,,此时优化函数式( 4) 称为岭回归,其解为W*= ( XXT+ ρI)- 1XY。但得到的W不稀疏,不能解决本文问题。因此本文用l1-范数和l2,1-范数取代式( 4 ) 中的l2-范数,得到以下目标函数:

其中,,参数 ρ1调控W整体的稀疏性,ρ2调控W整行的稀疏性。l1-范数已经被证明能使回归结果生成稀疏的回归稀疏,且这种稀疏是分布在矩阵中的元素,因此成为元组稀疏[11,14,15]。l2,1- 范数能导致回归优化出整行的稀疏,即行稀疏[16]。

通过1. 2 节的方法可以求解目标函数式( 5) 得到的W,如下形式:

其中,W的第二行全为0,即行稀疏。这是由于l2,1-范数导致的结果,这表明第二个训练样本跟所有测试样本无关。因此,第二个训练样本可能是噪音样本。此外第一列有两个非零值,即第一个和第四个,可以说第一个测试样本与第一、第四个训练样本相关。因此对第一个测试样本预测时k = 2。以此类推,如第二列有三个非零值,所以对第二个测试样本而言k = 3,对第四个测试样本k = 2。这就解决了k NN算法中k值固定问题,即对于不同测试样本k值是不一样的。而k NN算法中的k值通常由用户决定,本文每个测试样本的k值是通过稀疏学习得到的,是一种数据驱动分析方法。

1. 3 MNR-k NN算法

根据以上例子,目标函数式( 5) 利用l2,1- 范数查找除了存在于训练集中的噪音样本,而且还利用l1-范数学习出与每个测试样本相关的训练样本。每个测试样本相关的训练样本的个数不同,即为k NN回归学习出了合适的k。这样的学习方法是数据驱动的,也解决了本文提出k NN回归存在的两个问题,即噪音样本避免问题和固定k值问题。

本文预测测试样本时用W列的非零值对应的训练样本去预测,当然此时k的取值等于W相应列非零值的个数,这种方法本文称为不加权MNR-k NN算法。但是考虑到W中的元素值大小表示测试样本和训练样本的相关性大小,相应的训练样本和测试样本之间的相关度大小是不同的,元素值越大,表明相关度越大; 元素值越小,表明相关度越小。因此本文预测时根据Wj中的元素值对相应的训练样本做加权处理,可以得出第j个测试样本的加权预测值:

其中,ytrain( i)表示第i个训练样本的真实值,即第i个训练样本的类标号。这种回归方法本文称为加权MNR-k NN算法。

最后,本文给出加权/不加权MNR-k NN算法的步骤,见算法1。

2 算法优化分析

虽然式( 5) 是凸的,但后面两项正则化都是非光滑的。为此,本文提出一种有效的算法去求解目标函数。

具体地,首先对wi( 1 ≤ i ≤ m) 求导并命其为0,可得:

其中,Di( 1 ≤ i ≤ m) 是对角矩阵,第k个对角元素为也是对角矩阵,第k个对角元素为。所以:

Di和依赖于W,因此它们也是未知的。根据文献[16],本文提出一种迭代算法去求解最优值W,见算法2。

定理1算法2在每次迭代中目标值减小。

证明根据算法里的第2步可得到:

因此有:

根据文献[17]对于任意向量w和w0,有。因此最后一步成立,即算法在每次迭代中减小目标值。

W(t)、D(t)i(1≤i≤m)和在收敛处满足式(9)。由于式( 7) 是一个凸问题,满足式( 9) 意味着W对于式( 7) 来说是一个全局最优解。因此算法2 将收敛到式( 7) 的全局最优解。因为在每一次迭代时有封闭形式解,所以本文提出的算法收敛非常快。

3 实验结果与分析

实验数据来自UCI机器学习库[18],具体细节见表1。

本次实验主要是比较k NN算法、不加权MNR-k NN算法和加权MNR-k NN算法这三种算法的预测效果,本文选用经典评价指标RMSE和相关系数Corr Coef。RMSE和Corr Coef定义分别如下:

其中,n为样本个数,yi为真实值,为预测值。

RMSE一般用来作为算法效果的评判依据,通常RMSE越小,预测值和真实值之间的偏差就越小,算法的效果也就越好,否则越差。Corr Coef表示预测值和真实值之间的相关性大小,一般相关性越大,预测越准确,反之相反。另外本文用Matlab编程实现具体程序代码,在每个数据集上用10 折交叉验证法做十次实验来看算法效果。为了保证公平性,k NN算法、不加权MNR-k NN算法和加权MNR-k NN算法在每一次实验中选用相同的训练集和测试集,记录这三种算法十次实验取得的RMSE和Corr Coef情况。

图2—图5 为四个数据集上的实验结果,纵坐标为RMSE的大小,横坐标为十次实验次序。

图6—图9 为四个数据集上的实验结果,纵坐标为Corr Coef的大小,横坐标为十次实验次序。

RMSE和Corr Coef的均值以及方差见表2 和表3。

图2 - 图9 在四个UCI数据集上的实验显示,对于评价指标RMSE,加权MNR-k NN算法得出的RMSE均值最小,其次是不加权MNR-k NN算法,RMSE最大的是k NN算法。对于评价指标Corr Coef,总体看来,加权MNR-k NN算法得出的Corr Coef均值最大,其次是不加权MNR-k NN算法,Corr Coef最大的是k NN算法。

根据表2,对于评价指标RMSE,加权MNR-k NN算法取得的RMSE均值最小,其次分别是不加权MNR-k NN算法和k NN算法。最明显的在CS数据集上,加权MNR-k NN算法比k NN算法在评价指标RMSE均值上降低了1. 936,同时不加权MNRk NN算法也比k NN算法降低了0. 8213。另外根据表3,加权MNR-k NN算法取得的相关系数均值最大,其次是不加权MMRk NN算法和k NN算法。在CS数据集上的实验表明,加权MNRk NN算法和不加权MNR-k NN算法比k NN算法在评价指标上Corr Coef均值上分别提高了28. 26% 和18. 62% ,改善效果显著。此外,从RMSE和Corr Coef方差总体情况来看,加权MNR-k NN算法方差最小,其次是不加权MMR-k NN算法和k NN算法。这说明本文提出的MNR-k NN算法比k NN算法算法更稳定。

因此,综合看来,加权MNR-k NN算法效果最好,其次是不加权MMR-k NN算法,效果最差的是k NN算法。这说明本文提出的MMR-k NN算法( 包括加权和不加权两种情况) 预测准确率更高,效果相比k NN算法也更好,同时加权MNR-k NN算法比不加权MNR-k NN算法要好。

4 结语

针对k NN算法中k值固定不变问题以及如何在预测时去除噪声样本,本文提出了基于混合模重构的k NN算法( MNRk NN) 。通过l1-范数,MNR-k NN算法中k值根据样本之间相关性情况取不同的值,同时在重构过程中利用l2,1-范数去除噪声。另外根据相关性大小可将MNR-k NN算法具体分加权情况和不加权情况。实验表明,在同样的训练样本和测试样本情况下,使用三种算法进行预测,加权MNR-k NN算法效果最好,其次是不加权MNR-k NN算法,而k NN算法取得的效果不佳。

混合回归 篇3

混合音频信号处理中,除了大量已知的信号外,尚有一小部分未知的信号交叠于待检测信号中,因此,如何有效检测出这部分信号,成为了混合音频信号处理中的难点问题。

此类问题的根本所在就是如何对给定混合信号源进行分解,使其能够实现单个信号的线性复现。

传统的信号表示方法用如正弦函数或小波函数等完备基来表示信号,这些基函数均有较强的物理意义,并且对于某些特定类型的信号取得了较好的表示效果。但这类表示方法都试图使用性质相同的一类基函数来表达任意的信号,一旦基函数确定以后,对于一个信号只能有唯一的一种分解方法,从而对于一般的信号不能总得到信号的稀疏表示。更好的信号分解方式应该根据信号的特点,自适应地选择合适的基来分解信号,这对于含有分布较广的时域和频域局部化信息分量的信号来说尤其显得重要[1]

稀疏分解具有较强的数字压缩能力,具有更稳健的建模假设,还具有去噪,特征提取和数字压缩等潜在的能力[2]。以贪婪算法为核心的匹配追踪(Marching Pursuit)信号稀疏分解方法,是目前信号稀疏分解最常的用方法[3]。但研究发现MP信号稀疏分解易出现过匹配现象,而且随着迭代次数的增加MP误差衰减的速度变得很慢,而基追踪方法在这方面却表现出较好的特性。

基追踪方法是信号稀疏表示领域的一种新方法。基追踪方法采用表示系数的范数作为信号表示稀疏性的度量,通过最小化1一范数将信号稀疏表示问题定义为一类有约束的极值问题,进而转化为线性规划问题进行求解。目前,基追踪方法在一维信号处理领域有很好的应用[4]。

因此,提出一种新的混合音频信号处理方法,利用基追踪(Basis Pursuit,简称BP)算法和自回归模型,实现信号稀疏的分解。

1 模型

1.1 基追踪

基追踪是目前非常流行的一种信号分解方法,可将信号分解为字典元素(亦称原子Atom)的优化叠加信号。若定义信号为,原子为那么,BP算法旨在计算出稀疏线性相关系数(标量)使得下式成立:

假设字典是过完备的,即:原子数目K超过了信号的维数[5]。

对于满足式(1)的分解结果,利用稀疏分解,可最大限度地简化βi

从式(2)可以得出:式(2)的优化可以最大限度地减低受式(1)约束的线性相关系数的L1范数。这是因为优化是凸优化,没有局部最小点。

B P可以对待检测信号建立基于幅度变化的原子模型,但是此类模型适合基于傅立叶变换或者是小波变换的数据压缩,却不适合用来分析由自然声源组成的混合音频信号,因为此类声源信号不仅在幅度上有巨大变化,在时间、相位和音色等方面存在着很大变化,所以,利用原子及字典大小再现这些变化需要更为先进的模型。

1.2 BP自回归模型

为了更好地再现混合音频信号在幅度、时间、相位、音色等方面的变化,将BP与自回归模型结合在一起,提出了新的模型—-BP自回归模型(BP autoregressive model,简称BP-AR)。

BP自回归模型可参数化单个信号源的变化,即:假设第i个信号源波形近似满足m阶线性递推关系

严格地讲,若第i个信号源波形只定义为t>0,那么,式(3)只适合于t>m,且第i个信号源波形的特殊处理取决于m阶线性递推关系的初始条件。

定义初始条件为,那么,式(3)可以扩展为

假设(1)每个字典条目模型均可以表示为信号的m阶矩阵;(2)初始条件可以表示信号幅度、相位、时间、音色的变化;(3)每个信号源的自回归模型的m阶线性相关系数是先验的,储存于K个字典条目中的其中一个。其中,时间T可以简单表示为依据式(3)的不同时间步数的递推演变[6]。

那么,信号源的稀疏分解可以用一些有效信号(k<<K来代替,如下式所示

式(5)表明优化条件涵盖所有的K个信号源波形和初始条件式(5)中,min是用来检测每个信号源自回归模型的保真度,其约束条件如式(4)所示。式(5)条件表示每个信号源的初始条件的范数条件:

式(6)解释了周期性混合信号稀疏分解的前期工作,即:许多信号有零激励,认为是无效的。上述两个公式之间关于模型误差与稀疏性的平衡由规划因子γ>0来调节[7]。

1.3 优化

式(5)显示BP自回归模型的优化复杂度远远高于BP模型(式(2))。特别地,BP模型仅仅计算每个信号源的幅度变化βi,而BP自回归模型计算的是初始条件向量和拓展信号源这种方法不再是通过固定基向量代表示信号源,而是通过明确建模表示每个信号源的明显变化。

虽然此方法较BP更为复杂,但是,此优化过程可以简化如下:

(1)对于表达式(5),消除代表信号源波形的变量为此,引入拉格朗日算子λ强化约束条件,获得关于的非约束的、持续变化的周期性最小化方程。从而依据信号源初始条件通过求解优化解来消除这些变量,其最终结果是一个执行了所有初始条件的无约束优化解。价值函数如下式所示。

其中,变量u是变量uit与信号源及滞后的级联,Y与Z是关于待检测信号xt与字典相关系数αit的矩阵表示;

(2)简化L(u)。从选择一组初始条件uj,假定u中其他变量维持在当前值,重复执行包含所有初始条件的计算过程,直到L(u)最小。在此过程中,若满足式(8),则将uj置零。

当uj=0时,Zj是从矩阵Z中得到的T×m阶子矩阵。

若上述条件无法满足,可将uj设置为一个非零值,使其稳态最小化:

虽然式(9)是非线性的,但是,使用诸如牛顿法等方法,经过简单的代数计算,便可产生一个有关‖uj‖2量纲的一维非线性方程。最后,根据给定的‖uj‖2,式(9)可以演变为关于uj的线性方程组。

2 仿真分析

在仿真试验中,设定混合音频信号中包含周期与非周期信号,时间窗函数为100 ms,采样频率为22 050 Hz,且为了更好的用信噪比SNR (signal-tonoise ratio)衡量此方法的优势,选择在混合信号中加入各种水平的高斯噪声信号。高信噪比可视为期望结果的上限值。

每一次试验,使用式(5)和式(7)进行优化获得非零的初始条件{uiτ}(对应信号源有效);调整规划因子γ获得最佳的平均性能,即精度与记忆之间的平衡误差。

若试验信号为具有确切信号的单个信号源,此方法还可获得具有最低拟合误差的自回归模型,一次评判其分类性能。

2.1 信号选择

假设如下:1)构建一个K=60的字典库,每个信号源具有32阶的自回归模型;2)根据式(3),从具有零均值和单位方差的正态分布中随机采样相关系数{αiτ},相关系数{αiτ}会被重新调整,从而使得对于模型稳定,且其期望值不会随着时间而推移;3)利用随机采样的自回归模型的初始条件得到单个信号源。

那么,通过不断演化的递推关系即可获得计算波形。

在试验中,采取长度为256、取值为[-128,128]的实际数字信号。实际计算中,对原子库做了一定调整,去除了伸缩尺度很大和很小的原子,库的大小为53520×256。除此外,考虑到BP-AR的可行性,实验中针对原子库加入了随机噪声。

2.2 仿真结果

为了更好地体现BP自回归模型在信号处理中的优点,将BP自回归模型与GBP算法、MP模型对信号处理的结果做了比较,其仿真结果如图1所示。

GBP算法是实现BP思想的一种新颖的算法,其核心思想可以等同于寻找信号向量同原子库凸集的交叉点,它较一般的线性规划方法,在运行时间及计算复杂度上有着显著的提高。

图1—图3分别显示了GBP,MP,BP自回归模型在256个原子上重建的256点一维信号的情况。

由图4可见,起初MP模型的近似误差衰减速度比较快,后来随着重建精度的提高开始减慢,而BP自回归模型却随着重建原子数的增加呈现出近似指数的衰减,而且计算速度有所提高。另外,即使时间窗函数为100 ms,BP自回归模型的稀疏分解方法依然能够有效区分非周期信号,且对噪声信号具有良好的鲁棒性。

由图4可见,BP-AR算法在实现信号稀疏分解时具有着较小的重建系数1——范数。

3 小结

在基追踪的基础上,将自回归模型与其结合,形成了一种新的混合信号处理方法。该方法旨在表征不同来源的特性,诸如变化度等。通过试验,验证了此方法分析的可行性,与以往信号分解的先验方法相比较,此方法对多种可能信号的组合也是行之有效的。

但是,目前BP思想的实现方法不是很多,而且都面临着计算量大的问题。因此,目前的基追踪方法仅在一维信号去噪和超分辨处理方面有很好的结果。未来,将着重研究来源于采样音频的稳定自回归模型的学习算法,以及在多个分析框架下的有效源的集合。此外,将持续关注规划因子γ的设置与调整,因为它对信息检索的规模问题有着重要影响。

摘要:针对混合信号中少量未知的交叠信号无法检测与精确描述的问题,提出了一种新的检测方法。该方法基于BP自回归模型,将待检测信号通过稀疏分解理论分解为一系列信号源的线性描述。仿真结果表明,该方法具有较高的精确度和有效性。

关键词:基追踪,自回归模型,稀疏分解,混合信号

参考文献

[1]邵君.基于MP的信号稀疏分解算法研究.成都:西南交通大学硕士研究生学位论文,2006

[2]王潇.MP和BP稀疏分解在盲源分离中的应用.成都:西南交通大学,2009年

[3]高瑞,徐华楠,胡钢.基于GA和过完备原子库划分的MP信号稀疏分解算法.科学技术与工程,2008;8(4):914-916

[4]汪雄良,王正明.基于快速基追踪算法的图像去噪.计算机应用, 2005;25(10):144-146

[5]方耀.基于稀疏分解的非合作猝发信号解调技术研究.杭州:杭州电子科技大学,2010

[6]张延良;楼顺天;张伟涛.非正交联合对角化盲分离算法的可辨识性研究.电子与信息学报,2010;32(5):1066-1070

混合回归 篇4

考虑固定设计下的非参数回归模型:Yi=g (ti) +εi;i=1, 2, …n (1)

式 (1) 中A是R中的一个紧集, 固定设计点列t1, t2, …tn∈A, g (·) 是A上的有界实值未知函数, {εi;i=1, 2, …, n}为随机误差序列, 且E (εi) =0, E (ε2i) =σ2<∞, i=1, 2, …, n。不妨设A=[0, 1], 0≤t1≤t2≤…≤tn≤1。定义回归函数g (·) 的小波估计为

g^n (t) =i=1nYiAiEm (t, s) ds (2)

式 (2) 中Ai=[si-1, si) ;i=1, 2, …, n为区间[0, 1]上的分割且满足ti∈Ai。Em (t, s) 是由刻度函数φ (x) 产生的小波再生核:

Em (t, s) =2mE0 (2mt, 2ms) E0 (t, s) =jΖφ (t-j) φ (s-j)

其中m=m (n) >0为仅依赖于n的常数。

对于模型 (1) 的回归函数的小波估计, 许多学者进行了大量的研究, 取得了丰硕的成果。如文献[1]在独立随机误差下研究了小波估计的相合性, 渐近正态性, 渐近方差;文献[2]在误差为φ混合情形下讨论了小波估计的收敛速度问题;文献[3,4]分别在α混合和ρ混合误差下研究了小波估计的相合性及收敛速度;文献[5]研究了φ混合误差下小波估计的渐进正态性;文献[6]讨论了随机误差为鞅差序列和Lq混合平稳序列时回归函数小波估计的大样本性质。

本文研究了在随机误差为ρ˜混合时回归函数g (x) 的小波估计 (2) 的渐近正态性。

1 引理及假定

基本假定条件

(A1) 刻度函数φ (·) 是τ正则且具有紧支撑, 满足1阶Lipschitz条件, 并有

|ϕ* (ζ) -1|=Ο (ζ) ζ

其中ϕ*为ϕ的Fourier变换。

(A2) g () Ηvv>32, 且g (·) 满足1阶Lipschitz条件。

(A3) max1in|si-si-1|=Ο (n-1)

(A4) (i) 2m=O (n1/3) , (ii) 22m/n→0。

(A5) 23mn

(A6) 存在正整数p:=p (n) , q:=q (n) , 使对充分大的n, 有p+qn, qp-1≤C<∞, 且当n→∞时

(i) qp+q2m0; (ii) p2mn0;

(iii) kpρ˜ (q) 1/2 (2m/n) 1/20

假定条件 (A1) — (A4) 是讨论小波估计的一般性条件, 具体见文献[1,2,3,4,5,6]。条件 (A5) , (A6) 满足是容易验证的, 见文献[5]。

引理1 当 (A1) — (A3) 成立时, 有

(i) supt01Em (t, s) ds<C;

(ii) |AiEm (t, s) ds|=Ο (2m/n) ;

i=1n|AiEm (t, s) ds|C;

i=1n (AiEm (t, s) ds) 2=Ο (2mn) ;

(iii) ∫01Em (t, s) g (s) ds=g (t) +O (2-m) 。

(i) , (ii) 和 (iii) 的证明见文献[1,3,5,7]。

引理2[8] 当条件 (A1) — (A4) 成立时, 在模型 (1) 中若随机误差列{εi;i=1, 2…, n}为ρ˜混合序列, 且i=0;i=1, 2, …, n, 则

Eg^n (t) -g (t) =Ο (2-m) +Ο (n-1)

引理3[8] 当条件 (A1) — (A4) 成立时, 在模型 (1) 中若随机误差列{εi;i=1, 2…, n}为ρ˜混合平稳序列, 且k=1ρ˜ (k) <, 则

Var (g^n (t) ) =Ο (2mn)

引理4[9] 设{Xi;iN}为ρ˜混合序列, EXi=0E|Xi|q<q2ρ˜ (1) <1, 记Sn=i=1nXi, 则存在仅依赖于ρ˜ (·) 和q的正常数C, 使∀n≥1有

E|Sn|qC{i=1nE|Xi|q+ (i=1nE (Xi) 2) q/2}

引理5[10] 设{Xi;iN}为ρ˜混合序列, p, q为两个正整数, 记

ηl=j= (l-1) (p+q) +1 (l-1) (p+q) +pXj; (1≤lk) 。

则有

|Eexp (itl=1kηl) -l=1kEexp (itηl) |C|t|ρ˜ (q) 1/2l=1k|ηl|2

2 主要结果及证明

定理1 当假定条件 (A1) — (A6) 成立时, 在模型 (1) 中若随机误差列{εi;i=1, 2, …, n}为ρ˜混合同分布序列, 且E|εi|2+δ<0<δ1ρ˜ (k) =Ο (n-θ) θ>1

σn-1{g^n (t) -Eg^n (t) }dΝ (0, 1) t[0, 1]n

证明 采用文献[11]中定理2.1的证明方法, 记

Sn=σn-1{g^n (t) -Eg^n (t) }

Zni=σn-1εiAiEm (t, s) ds, i=1, 2, …, n

Sn=i=1nΖni

k=[n/ (p+q) ], 利用Bernstein大小分块原理, Sn可分解为Sn=Sn+Sn+Sn

Sn=m=1kynmSn=m=1kynmSn=ynk+1ynm=i=kmkm+p-1Ζniynm=i=lmlm+q-1Ζniynk+1=i=k (p+q) +1nΖnikm= (m-1) (p+q) +1lm= (m-1) (p+q) +p+1m=1, 2, , k

则在定理1的条件下, 可证得

Sn+SnΡ0 (3) SndΝ (0, 1) (4)

成立。由式 (3) , 式 (4) 和Slutsky引理知, 定理1成立。

首先证明式 (3) 成立。由引理1 (ii) 和引理3知, σn-2|AiEm (t, s) ds|C

再由引理1 (ii) 和条件 (A6) (i) :

E (Sn) 2=E (m=1ki=lmlm+q-1σn-1εiAiEm (t, s) ds) 2Cm=1ki=lmlm+q-1|AiEm (t, s) ds|Ckq2mnCnp+qq2mn=Cqp+q2m0 (5)

E (Sn) 2=E (i=k (p+q) +1nσn-1εiAiEm (t, s) ds) 2Ci=k (p+q) +1n|AiEm (t, s) ds|C[n-k (p+q) ]2mnC (p+q) 2mn=C (1+qp-1) p2mn0 (6)

由式 (5) , 式 (6) 和Tchebychev不等式, 对∀ε>0, 有

Ρ (|Sn+Sn|>2ε) Ρ (|Sn|>ε) +Ρ (|Sn|>ε) E (Sn) 2ε2+E (Sn) 2ε20

由ε的任意性知, 式 (3) 成立。

现证明式 (4) 成立。令sn2=m=1kVar (ynm) Γn=1i<jkcov (yni, ynj) , 则

sn2=E (Sn) 2-2Γn, E (Sn2) =1,

E (Sn) 2=E[Sn- (Sn+Sn) ]2=

1+E (Sn+Sn) 2-2E[Sn (Sn+Sn) ]。

|E (Sn) 2-1|=E (Sn+Sn) 2-

2E[Sn (Sn+Sn) ]→0 (7)

|Γn|1i<jku=kiki+p-1v=kjkj+p-1|cov (Ζnu, Ζnv) |1i<jku=kiki+p-1v=kjkj+p-1σn-2

AuEm (t, s) dsAvEm (t, s) dscov (εu, εv) C1i<jku=kiki+p-1v=kjkj+p-1

|AuEm (t, s) ds|ρ˜ (v-u) |εu|2|εv|2Ci=1k-1u=kiki+p-1|AuEm (t, s) ds|j=i+1kv=kjkj+p-1ρ˜ (v-u)

Cu=1n∫AuEm (t, s) ds

j=qρ˜ (j) Cj=qρ˜ (j) 0 (q) (8)

由式 (7) , 式 (8) 知

E (Sn) 2→1, sn2→1 (9)

为了建立Sn的渐近正态性, 假设{ηnm;m=1, 2, …, k}是独立随机变量序列, 且ηnmynm (m=1, 2, …, k) 有相同的分布, 则有

nm=0, Var (ηnm) =Var (ynm) 。

Tnm=ηnm/sn, m=1, 2, …, k, 则

{Tnm;m=1, 2, …, k}是独立的, 且

EΤnm=0m=1kVar (Τnm) =1

用ϕX (t) 表示随机变量X的特征函数, 则有

ϕm=1kynm (x) -e-t22

Eexp (itm=1kynm) -m=1kEexp (itynm) +

m=1kEexp (itynm) -e-t22

Eexp (itm=1kynm) -m=1kEexp (itynm) +

m=1kEexp (itΤnm) -e-t22:=

I1+I2 (10)

由引理5, 引理1 (ii) 和条件 (A6) (iii) 得

Ι1C|t|ρ˜ (q) 1/2m=1k|ynm|2C|t|ρ˜ (q) 1/2m=1kE (i=kmkm+p-1|σn-1εiAiEm (t, s) ds|2) 1/2C|t|ρ˜ (q) 1/2m=1ki=kmkm+p-1|AiEm (t, s) ds|1/2C|t|ρ˜ (q) 1/2kp (2mn) 120 (11)

I2→0显然, 由此及式 (10) , 式 (11) , 可把Sn看做是独立不同分布随机变量之和。由Lyapunov中心极限定理, 要证式 (4) 成立, 只需证明存在某δ>0, 有

1sn2+δm=1kE|ynm|2+δ0n (12)

由引理1, 引理3, 引理4和条件 (A6)

m=1kE|ynm|2+δCm=1k[i=kmkm+p-1E|Ζni|2+δ+ (i=kmkm+p-1E|Ζni|2) 2+δ2]

Cm=1k{i=kmkm+p-1[σn-2|AiEm (t, s) ds|2]2+δ2+[i=kmkm+p-1|AiEm (t, s) ds|]2+δ2}

Cm=1k{i=kmkm+p-1|AiEm (t, s) ds|2+δ2+[i=kmkm+p-1|AiEm (t, s) ds|]2+δ2}

Cm=1k{pδ2i=kmkm+p-1|AiEm (t, s) ds|2+δ2+[i=kmkm+p-1|AiEm (t, s) ds|]2+δ2}

C (p2mn) δ2i=1n|AiEm (t, s) ds|C (p2mn) δ20 (13)

由式 (9) , 式 (13) 知式 (12) 成立。从而式 (4) 成立。证毕。

定理2 当假定条件 (A1) — (A6) 成立时, 且{εi}满足定理1中的所有条件, 则

σn-1{g^n (t) -g (t) }dΝ (0, 1)

t∈[0, 1], n→∞。

σn-1{g^n (t) -g (t) }=σn-1{g^n (t) -Eg^n (t) }+σn-1{Eg^n (t) -g (t) } (14)

由定理1知σn-1{g^n (t) -Eg^n (t) }dΝ (0, 1) , 故只需要证明

σn-1{Eg^n (t) -g (t) }0 (15)

即可。由引理2有

Eg^n (t) -g (t) =Ο (2-m) +Ο (n-1)

再由引理3及条件23mn

σn-1{Eg^n (t) -g (t) }=Ο (n23m) +Ο (1n2m) 0

定理证毕。

参考文献

[1]Antoniads A, Gregoire G, Mckeague I W.Wavelet method for curve estimation.JASA, 1994;89:1340—1352

[2]薛留根.混合误差下回归函数小波估计的一致收敛速度.数学物理学报, 2002;22A (4) :528—535

[3]孙燕, 柴根象.固定设计下回归函数的小波估计.数学物理学报, 2004;24A (5) :579—606

[4]Li Yongming, Wu Lisha.Consistency of wavelet estimator of regres-sion function underρ-mixing assumptions.Journal of Shangrao Normal College, 2008;28 (6) :9—14

[5]李永明, 尹长明, 韦程东.φ混合误差下回归函数小波估计的渐进正态性.应用数学学报, 2008;31 (6) :1046—1055

[6]王二红.相依样本下非参数回归函数的小波估计.合肥:合肥工业大学, 2007

[7]Walter G G Wavelets and other orthogonal systems with applications.Florida:CRC Press, 1994

[8]潘丽静, 郭鹏江.ρ~混合误差下回归函数的小波估计.科学技术与工程, 2010;18 (10) :4363—4365

[9]杨善朝.一类随机变量部分和的矩不等式及其应用.科学通报, 1998;43 (17) :1823—1827

[10]邢国栋.ρ~混合样本下回归权函数估计的一致渐近正态性.桂林:广西师范大学, 2006

【混合回归】推荐阅读:

理性回归07-18

立足回归05-14

回归算法05-15

回归方法05-24

回归真实05-26

回归05-30

回归检验06-06

回归简约06-20

本色回归06-25

稳健回归07-28

上一篇:食品用纸包装和容器下一篇:教职工文化