迭代学习

2024-12-10

迭代学习（精选9篇）

迭代学习篇1

迭代学习控制是一种先进的控制方法,适用于诸如工业机器人那样的具有重复运动性质的被控系统,它的目标是实现有限区间上的完全跟踪任务。1984年,日本学者Arimoto等人针对机器人系统的特点,模拟人类学习技能过程,开创性地提出了迭代学习控制理论,并构造了D型迭代学习算法[1]。随后的学者们相继研究了P型、PD型、PI型及PID型学习算法(统称为PID型学习算法)。除传统的PID型习算法外,不少学者提出了带遗忘因子的PID型学习算法[2,3,4],一定程度上加快了学习的收敛速度,吴东南等人应用历史数据首次提出了高阶学习算法[5],Sugie等人提出了滤波器型学习算法[6],Jayati Ghosh等人给出了基于输入输出模型伪逆的迭代学习新算法[7]。近年来,谢胜利等人首次引入了向量图分析给出了新的学习算法,提高了收敛速度和学习精度[8,9]。在学习过程中,学习控制器由于硬件(如A/D和D/A转换)、软件(如计算截断误差)等原因,存在着一定的控制器参数变化,出现不确定性,这种变化将导致闭环系统的性能下降,甚至稳定性被破坏,不能很好的跟踪目标,具有较大的保守性。然而对迭代学习控制器中含有的不确定性还很少有人研究。

非脆弱控制是处理控制器中含有不确定性的有效方法,已成为控制界研究热点,目前研究主要集中在鲁棒控制、切换系统、时滞系统等方面[10,11,12,13,14,15]。对迭代学习的非脆弱控制研究还很少见。杨胜跃等人[16]从学习的整个过程来考虑迭代学习控制的最优化问题,即以整个过程输出误差的最小化为目标,以控制增量的二次型作为罚函数,得到一类迭代域内二次性能函数,基于线性矩阵不等式(LMI)的方法,讨论了不确定离散线性系统的保性能迭代学习算法及其优化方法。文中基于文献[16]的迭代域内性能函数,针对离散线性系统给出了一种非脆弱保性能迭代学习控制及其优化方法,保证了学习的收敛性,具有较好的跟踪效果和较小的保守性。

1 问题描述

考虑线性时变离散系统

式中,状态变量x(i)∈RN,输出变量y(i)∈Rm,输入变量u(i)∈Rr,A(i),B(i),C(i),D(i)为相应维数的系数矩阵。

由式(1)导出迭代域内误差模型

$\begin{array}{l} e_{k + 1} (0) = e_{k} (0) + C (0) [x_{k + 1} (0) - x_{k} (0)] + D (0) \tilde{u}_{k} (0) (2 a) \\ e_{k + 1} (i) = e_{k} (i) + C (i) Φ (i - 1, 0) [x_{k + 1} (0) - x_{k} (0)] + C \end{array}$

$(i) \sum_{j = 0}^{i - 1}$ $Ψ (i - 1, j) \tilde{u}_{k} (j) + D (i) \tilde{u}_{k} (i), i \geq 1 (2 b)$

将误差模型式(2)表示成批量形式

$E_{k + 1} = E_{k} + G \tilde{U}_{k} + Λ w_{k}$ (3)

式中 $E_{k} = [e_{k}^{Τ} (0), e_{k}^{Τ} (1), \dots, e_{k}^{Τ} (Ν)], \tilde{U}_{k} = [\tilde{u}_{k}^{Τ} (0), \tilde{u}_{k}^{Τ} (1), \dots, \tilde{u}_{k}^{Τ} (Ν)]$ 分别表示批量形式的输出误差及控制增量,wk=xk+1(0)-xk(0)表示相邻两次迭代初始定位差。

Λ=[CT(0),ΦT(0,0),CT(1),ΦT(1,0)CT(2),…,ΦT(N-1,0)CT(N)]T

下面定义一个迭代域内二次性能函数为

J $= \sum_{k = 1}^{\infty}$ $[E_{k}^{Τ} Q E_{k} + \tilde{U}_{k}^{Τ} R \tilde{U}_{k}]$ (5)

其中,Q=blockdiag(Q1,Q1,…,Q1),R=blockdiag(R1,R1,…R1)分别为N+1项Q1和R1组成的分块对角矩阵,Q1和R1为正定矩阵,因此Q和R也是正定矩阵。

为推导文中的主要结果,首先给出如下引理。

引理1[17] 给定适当维数的矩阵M,H,E,F和X,其中X>0,FTF≤I,则

(1) 对于任意ε>0,有

HFE+ETFTHT≤εHHT+ε-1ETE

(2) 对于任意ε>0,且X-εHHT>0,有

(M+HFE)TX-1(M+HFE)≤MT(X-εHHT)-1M+ε-1ETE

2 非脆弱保性能迭代学习算法的设计及其优化

由于迭代学习控制一般假定初始定位误差wk=0,因此式(3)可以写为

$E_{k + 1} = E_{k} + G \tilde{U}_{k}$ (6)

对于式(6)设计非脆弱状态反馈控制器如下

$\tilde{U}_{k} = (Κ + Δ Κ) E_{k}$ (7)

其中K称为控制器增益,ΔK称为控制器参数变化,其参数变化具有以下两种类型:

类型1:ΔK不依赖于控制器增益K(加法不确定性),即ΔK=L1F1M1;

类型2:ΔK依赖于控制器增益K(乘法不确定性),即ΔK=L2F2M2K。

其中L1,L2,M1,M2为具有适当维数的已知常数矩阵,F1和F2为未知矩阵,且F $_{1}^{Τ}$ F1≤I,F $_{2}^{Τ}$ F2≤I。

将非脆弱控制器式(7)带入式(6),导出的闭环系统为

Ek+1=(I+GK+GΔK)Ek (8)

定理1 对于式(6)和性能函数式(5),若存在矩阵K和正定矩阵P,使得对所有非零的Ek满足

ETk[(I+GK+GΔK)TP(I+GK+GΔK)-P+Q+(K+ΔK)TR(K+ΔK)]Ek<0 (9)

则 $\tilde{U}_{k} = (Κ + Δ Κ) E_{k}$ 为式(6)的一个非脆弱保性能迭代学习控制,并且J<J*,其中性能上界J*=E $_{1}^{Τ}$ PE1,E1表示第1次迭代时的输出误差。

证明:选取适当Lyapunov函数Vk=ETkPEk,则

Vk+1-Vk=E $_{k + 1}^{Τ}$ PEk+1-ETkPEk=ETk[(I+GK+GΔK)TP(I+GK+GΔK)-P]Ek<-ETk[Q+(K+ΔK)TR(K+ΔK)]Ek

因此式(7)在迭代域内是二次稳定的

-E $_{1}^{Τ}$ PE1 $= \sum_{k = 1}^{\infty}$ (E $_{k + 1}^{Τ}$ PEk+1-ETkPEk)< $- \sum_{k = 1}^{\infty}$ ETk[Q+(K+ΔK)TR(K+ΔK)]Ek= $- \sum_{k = 1}^{\infty}$ [ETkQEk+ETk(K+ΔK)TR(K+ΔK)Ek]= $- \sum_{k = 1}^{\infty}$ $[E_{k}^{Τ} Q E_{k} + \tilde{U}_{k}^{Τ} R \tilde{U}_{k}] = - J$

故J<ETkPE1,证毕。

有了如上定理,非脆弱迭代学习控制可由定理2给出。

定理2 式(6)在类型1非脆弱控制器作用时,对于给定的ε0>0,如果存在ε1>0及矩阵W和正定矩阵X,使得以下LMIs成立

(2)ε2L1L $_{1}^{Τ}$ -R-1<0 (11)

那么 $\tilde{U}_{k} = (Κ + Δ Κ) E_{k}$ 是式(6)基于类型1的非脆弱保性能迭代学习控制,此时控制器增益K=WX-1。

证明:根据定理1,可以得出

[(I+GK+GΔK)TP(I+GK+GΔK)-P+Q+(K+ΔK)TR(K+ΔK)]<0 (12)

由矩阵Schur补[19]的性质,式(12)等价于

式(13),可以改写为

$[\begin{matrix} - Ρ^{- 1} & (Ι + G Κ) \\ (Ι + G Κ)^{Τ} & - Ρ + Q + Κ^{Τ} Ρ Κ \end{matrix}] + [\begin{matrix} 0 & G Δ Κ \\ 0 & Κ^{Τ} R Δ Κ \end{matrix}] + [\begin{matrix} 0 & 0 \\ (G Δ Κ)^{Τ} & (Δ Κ)^{Τ} R Δ Κ \end{matrix}] + [\begin{matrix} 0 & 0 \\ 0 & (Δ Κ)^{Τ} R Δ Κ \end{matrix}] ＜ 0 (14)$

现在把类型1的ΔK=L1F1M1代入式(14)得到

$[\begin{matrix} - Ρ^{- 1} & (Ι + G Κ) \\ (Ι + G Κ)^{Τ} & - Ρ + Q + Κ^{Τ} R Κ \end{matrix}] + [\begin{matrix} G L_{1} \\ Κ^{Τ} R L_{1} \end{matrix}] F_{1} [0 Μ_{1}] + [0 Μ_{1}]^{Τ} F_{1}^{Τ} + [\begin{matrix} G L_{1} \\ Κ^{Τ} R L_{1} \end{matrix}] + [\begin{matrix} 0 & 0 \\ 0 & (L_{1} F_{1} Μ_{1})^{Τ} R L_{1} F_{1} Μ_{1} \end{matrix}] ＜ 0 (15)$

根据引理1和F $_{1}^{Τ}$ F1≤I,式(15)成立的充分条件是下面的式(16)成立,即存在ε1>0和ε2>0,使得

整理得到下式

再由矩阵Schur补的性质,式(17)等价为

将式(18)左乘以和右乘以diag(I,P-1,I,I,I,I,I),可以得到

令X=P-1,K=WX-1,由式(19),从而得到了式(10),证毕。

定理3 式(6)在类型2非脆弱控制器作用时,对于给定的ε1>0,如果存在ε2>0及矩阵W和正定矩阵X,使得以下LMIs成立

(2)ε2L2L $_{2}^{Τ}$ -R-1<0 (21)

那么称 $\tilde{U}_{k} = (Κ + Δ Κ) E_{k}$ 是式(6)基于类型2的非脆弱保性能迭代学习控制,此时控制器增益K=WX-1。

证明:与定理2完全类似。

在定理2和定理3中,对于已经给定的ε1,非脆弱保性能迭代学习控制不具有唯一性,如下定理给出其最优化设计方法。

定理4 对于系统(6)和定理2或定理3已经给定的ε1,如果以下优化问题 $\underset{ε_{2}, W, X}{m i n} t r a c e (Ρ)$ ,约束条件式(10)或式(19)成立,且ε2>0

存在一个最优解 $(\tilde{ε}_{2}, \tilde{W}, \tilde{X})$ ,那么 $\tilde{U}_{k} = (\tilde{W} \tilde{X}^{- 1} + Δ Κ) E_{k}$ 就是式(6)基于性能函数式(5)的最优非脆弱保性能迭代学习控制。

证明:根据定理1,J<E $_{1}^{Τ}$ PE1,在统计学中,假设E1是零均值随机向量,并且数学期望E{E1ET1}=I,因此,性能函数的数学期望E(J)<E{E $_{1}^{Τ}$ PE1}=trace(P)。所以如果存在一个最优解 $(\tilde{ε}_{1}, \tilde{W}, \tilde{X})$ ,就称 $\tilde{U}_{k} = (\tilde{W} \tilde{X}^{- 1} + Δ Κ) E_{k}$ 为就是式(6)基于性能函数式(5)的在统计学上的最优非脆弱保性能迭代学习控制。

3 仿真举例

为了说明以上结果的有效性,不妨给定ε1=1考虑下面二阶系统

${\begin{cases} x (i + 1) = A x (i) + B u (i) \\ y (i) = C x (i) + D u (i) \end{cases}, i \in [0, 1, 2, \dots, Ν]$

其中。系统初始状态x(0)=[0.2 0.1]T,期望输出,yd(i)=[i2/100-i+0.2 i2/500-i+0.1]T,L1=L2=0.000 3I,M1=M2=0.000 2I,Q=I,R=3I,F1=F2=0.003I,X有形如δI的形式,其中δ>0,I为42阶单位阵。

(1) 对类型1的非脆弱控制,根据定理4,应用LMI工具箱中的mincx来进行求解,得到 $\tilde{ε}_{2} = 2.815 3 \times 10^{- 4}, \tilde{δ} = 0.159 1$ ,从而确定出最优非脆弱保性能迭代学习控制。此时,性能上界J*=2.920 9×104。计算第k次的累加性能函数 $J_{k} = \sum_{l = 1}^{k}$ $[E_{l}^{Τ} Q E_{l} + \tilde{U}_{l}^{Τ} R \tilde{U}_{l}]$ 与输出误差平方和ETkEk,可以得到,如图1和图2所示。从图1中可以看到,在第8次迭代以后,Jk与J*已经达到非常接近的理想效果,这说明了算法的有效性。

(2) 对类型2的非脆弱控制,根据定理4,应用LMI工具箱中的来进行求解。得到 $\tilde{ε}_{2} = 2.415 8 \times 10^{- 4}, \tilde{δ} = 0.159 1$ ,从而确定出最优非脆弱保性能迭代学习控制。此时,性能上界J*=2.920 8×104。计算第k次的累加性能函数 $J_{k} = \sum_{l = 1}^{k}$ $[E_{l}^{Τ} Q E_{l} + \tilde{U}_{l}^{Τ} R \tilde{U}_{l}]$ 和输出误差平方和ETkEk,可以得到,如图3和图4所示。从图3可以看出,在第8次迭代以后,Jk与J*已经达到非常接近的理想效果,这说明了算法的有效性。

4 结束语

文中研究了基于新的性能函数非脆弱保性能迭代学习控制器的设计与优化问题。针对离散线性系统,根据迭代域内性能函数,利用线性矩阵不等式方法,对控制器的加法和乘法两种不确定性,给出了非脆弱保性能迭代学习算法控制器的设计方法及其优化方法。仿真实验说明了结果的有效性。

迭代学习篇2

汉语词典对“迭代”的解释为:更相代替;轮换。维基百科的定义为:在RUP(统一软件过程)中，迭代被定义为，迭代包括产生产品发布(稳定、可执行的产品版本)的全部开发活动和使用该发布必需的所有其他外围元素。在百度百科的描述中，迭代法也称辗转法，是一种不断用变量的旧值递推新值的过程，相对应的是瀑布式或直接法(一次解法)，即一次性解决问题。

在人类实践活动中，源自计算机软件领域的迭代思想已经由一种算法逐步升级发展为一种方法、理念和思维模式。随着知识服务在情报工作中的快速推进，知识服务产品开发与服务活动正在逐步步入规范化、工程化、工艺化的轨道。在知识服务产品化活动中引入迭代思维，可以有效提高产品质量、开发效率和服务效果，增强开发活动的针对性、规范性、科学性和创新性。

迭代学习篇3

许多运动控制系统需进行沿某轨迹的重复运动,例如数控机床沿一定的轨迹重复加工零件,机械手重复执行某一运动过程。通常的控制算法并未考虑此类运动的重复特性,每一次运行跟随误差都重复产生,跟踪精度不高。而且由于控制对象存在非线性因素且模型具有不确定性,因而使得设计高性能的常规控制器较为困难。迭代学习控制是一种较新的智能控制方法,它首先由Arimoto[1]提出并应用于机械手的控制中。近年来迭代学习控制理论体系越来越成熟[2],应用日益广泛。

迭代学习控制的基本思想是,通过学习每次运动的误差,对控制量进行前馈修正,从而在下次运动时提高运动的精度。它不需要精确的系统模型,对系统的未建模特性具有一定的鲁棒性,实时计算量小,在一定的条件下可保证迭代收敛。迭代学习控制通常要求运动轨迹、初始条件和系统特性具有重复性,并要有足够的存储器来存储上次运动控制的信息[3,4]。

概率方法、模糊方法和区间方法是目前不确定性建模的三种主要方法。概率方法和模糊方法均需要有足够的数据来分别确定不确定结构参数的概率密度或隶属度函数,区间方法是把这些不确定性结构参数视为未知变量,并在具有已知边界的区间内取值。参数区间不确定性迭代学习控制系统收敛性的研究主要集中在稳定性(asymptotic stability)和单调收敛性(monotonic convergence)上。本文讨论了参数区间不确定性迭代学习控制系统(IILC)的单调收敛性问题。

1 迭代学习控制的单调收敛性

z传递函数描述的离散线性时不变系统为

Y(z)=H(z)U(z)=(h1z-1+h2z-2+h3z-3+…)U(z) (1)

其中,hi为H(z)的Markov参数,理想输出信号为yd(t),第k次迭代学习控制的输入、输出分别为uk(t)、yk(t),ek(t)=yd(t)-yk(t),t为离散时间变量,t∈[0,N]。

定义超向量(Supervectors)[5,6,7,8,9]:

Uk=(uk(0),uk(1),…,uk(N-1))T

Yk=(yk(1),yk(2),…,yk(N))T

Yd=(yd(1),yd(2),…,yd(N))T

Ek=(ek(1),ek(2),…,ek(N))T

则Yk=HpUk,其中Hp为由系统Markov参数组成的N×N矩阵:

$Η_{p} = [\begin{matrix} h_{1} & 0 & 0 & \dots & 0 \\ h_{2} & h_{1} & 0 & \dots & 0 \\ h_{3} & h_{2} & h_{1} & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ h_{Ν} & h_{Ν - 1} & h_{Ν - 2} & \dots & h_{1} \end{matrix}]$

迭代ILC算法的目标是根据第k次及以前的信息计算出第k+1次的控制输入uk+1,使其收敛至u*(t),并使得ek(t)=yd(t)-yk(t)收敛到零。超向量法(supervector)将二维(时间轴、迭代轴)问题转换为一维多输入多输出问题。超向量表达的一般迭代学习控制为

Uk+1=Uk+LEk (2)

L=[γij]n×n

上述学习矩阵L的不同选择方法对应不同的ILC学习算法,显然,当γij=0(i≠j)、γij=γ(i=j)时为Arimoto算法。

定义T为列向量h=(h1,h2,…,hN)T到下三角阵Hp的Toeplitz变换,即Hp=T(h)。

设l=[k1,k2,…,km,0,0,…,0]T∈RN×1,m为ILC算法的阶次,取L=T(l)为ILC算法学习矩阵。

考虑离散高阶ILC算法(式(2)),则

Ek+1=Yd-HpUk+1=(I-HpL)Ek=HeEk=T(he)Ek

He=I-HpLhe=vN-Hpl

vN≜(1,0,…,0)T∈RN×1

因此,ILC单调收敛的充分必要条件为相应的范数小于1,即

‖I-HpL‖i<1 (3)

$Ι - Η_{p} L = Ι_{n \times n} - [\begin{matrix} h_{1} & 0 & \dots & 0 \\ h_{2} & h_{1} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ h_{n} & h_{n - 1} & \dots & h_{1} \end{matrix}] [\begin{matrix} γ_{11} & 0 & \dots & 0 \\ γ_{21} & γ_{22} & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ γ_{n 1} & γ_{n 1} & \dots & γ_{n n} \end{matrix}]$

2 区间鲁棒迭代学习控制的单调收敛性

对于区间矩阵集合:

AI={A: $A = [a_{i j} \in [\underline{a}_{i j}, \bar{a}_{i j}]], i, j = 1, 2, \dots, n}$

其顶点矩阵集合:

Av={A: $A = [a_{i j} \in {\underline{a}_{i j}, \bar{a}_{i j}}], i, j = 1, 2, \dots, n}$

其中, $\underline{a}_{i j}, \bar{a}_{i j}$ 为aij的最小值和最大值,下文其他量的定义与此类同。

对区间鲁棒迭代学习控制系统稳定性和单调收敛性的讨论即为对给定的HIp进行讨论。显然,对Arimoto型迭代学习控制,稳定性的充要条件为

$\max (| 1 - γ_{i i} \underline{h}_{1} |, | 1 - γ_{i i} \bar{h}_{1} |) < 1 i = 1, 2, \dots, n$

对一般区间鲁棒迭代学习控制,设P=I-Hp⨂L,则其稳定性的充要条件为PI=I-HIp⨂L的谱半径小于1。而区间矩阵PI=I-HIp⨂L的谱半径为P∈Pv的某个谱半径。

根据定理(证明略):xi为具有区间不确定性的参数, $x_{i} \in [\underline{x}_{i}, \bar{x}_{i}] ‚ i = 1, 2, \dots, m$ 。y=|k10+k11x1+…+k1nxn|+|k20+k21x1+…+k2nxn|+…+|km0+km1x1+...+kmnxn|,∀kij∈R,i=1,2,…,m,j=0,1,…,n。

当xi为某顶点向量时,即 $X^{v} = ({\underline{x}_{1}, \bar{x}_{1}}, {\underline{x}_{2}, \bar{x}_{2}}, \dots, {\underline{x}_{m}, \bar{x}_{m}})$ 时,y达到最大值ymax。由此定理可知:对 $h_{i} \in h_{i}^{Ι} = [\underline{h}_{i}, \bar{h}_{i}] ‚ i = 1, 2, \dots, m (h_{i}$ 为具有区间不确定性的Markov参数),当

max (‖I-HpΓ‖∞,∀Hp∈HI)=

max (‖I-HpΓ‖∞,∀Hp∈Hv)<1 (4)

时区间鲁棒迭代学习控制系统l∞范数意义单调收敛,其中,Hv为Markov顶点矩阵。对离散高阶ILC算法(式(2)),PD型ILC算法(m=2)为[6]

uk+1(t)=uk(t)+k2ek(t)+k1ek(t+1)=

uk(t)+kpek(t)+kd(ek(t+1)-ek(t)) (5)

其中,k1=kd,k2=kp-kd。则I-HpL各行为

(I-HpL)1=(1-h1k1,0,0,…,0)

(I-HpL)2=(-(h2k1+h1k2),1-h1k1,0,0,…,0)

(I-HpL)3=(-(h3k1+h2k2),-(h2k1+h1k2),

1-h1k1,0,0,…,0)

︙

(I-HpL)n=(-(hnk1+hn-1k2),-(hn-1k1+hn-2k2),1-h1k1,0,0,…,0)

因此,有

‖I-HpL‖∞=max(‖(I-HpL)1‖1,

‖(I-HpL)2‖1,…,‖(I-HpL)n‖1)

对于 $h_{i} \in h_{i}^{Ι} = [\underline{h_{i}}, \bar{h_{i}}]$ ,可在 $h^{v} = ({\underline{h_{1}}, \bar{h_{1}}}, {\underline{h_{2}}, \bar{h_{2}}}, \dots, {\underline{h_{n}}, \bar{h_{n}}})$ 的顶点集合中计算以上范数,从而判断其单调收敛性。

3 数字仿真研究

对离散线性系统z传递函数 $Η (z) = \frac{z - a}{(z - 0.5) (z - 0.9)} ‚ a$ 为区间不确定参数,a∈[0.55,0.80],采样周期为0.1s。当a=0.80、0.72、0.55时,系统脉冲传递函数如图1～图3所示,此脉冲传递函数决定了H(z)的Markov参数。为简化计算,下面范数计算取Markov参数前9项。理想轨迹yd(t)为正弦函数曲线,迭代次数为50。

对上述区间不确定系统a∈[0.55,0.80],采用式(5)离散二阶ILC算法:

uk+1(t)=uk(t)+k1ek(t+1)+k2ek(t)

(1)选取控制参数k1=0.90、k2=-0.59[6],当a=0.80(上界)时,‖I-HpL‖∞=0.28<1,其输出轨迹及轨迹误差范数如图4、图5所示。可见,迭代学习控制取得了良好的单调收敛性能。当a=0.72时,‖I-HpL‖∞=0.46<1,其轨迹误差范数如图6所示。当a=0.55(下界)时,‖I-HpL‖∞=1.07>1,其轨迹误差范数如图7所示。可见,当参数区间变化至下界时,不满足式(4)条件,迭代学习控制不满足单调收敛的要求。

(a=0.80,k1=0.90,k2=-0.59)

(a=0.72,k1=0.90,k2=-0.59)

(a=0.55,k1=0.90,k2=-0.59)

(2)选取k1=0.80、k2=-0.59, 当a=0.80(上界)时,‖I-HpL‖∞=0.41<1,其输出轨迹及轨迹误差范数如图8、图9所示。当a=0.72,‖I-HpL‖∞=0.34<1,其输出轨迹及轨迹误差范数如图10所示。当a=0.55(下界)时,‖I-HpL‖∞=0.746<1,其轨迹误差范数如图11所示。可见,当参数取上下界时,均满足式(4)条件,迭代学习控制满足区间单调收敛的要求。

(a=0.80,k1=0.80,k2=-0.59)

(a=0.72,k1=0.80,k2=-0.59)

(a=0.55,k1=0.80,k2=-0.59)

4 结语

本文研究了区间不确定离散线性时不变系统的鲁棒迭代学习控制(IILC)算法的单调收敛性,并针对常见的离散PD型ILC算法,给出了在l∞范数意义下区间不确定性迭代学习控制系统单调收敛性的判断方法。仿真实例说明,当Markov参数组成的顶点矩阵满足单调收敛性条件时,区间不确定系统的迭代学习控制具有鲁棒单调收敛性。

参考文献

[1]Arimoto S,Kawamura S,Miyazaki F.Bettering Op-eration of Robots by Learning[J].Journal of Ro-botic Systems,1984,1(2):123-140.

[2]Moore K L,Xu Jianxin.Special Issue on IterativeLearning Control[J].Int.J.Control,2000,73(10):819-823.

[3]Moore K L.An Observation about Monotonic Con-vergence in Discrete-time,P-type IterativeLearning Control[C]//Proceedings of IEEE Int.Symposium on Intelligent Control(ISIC’01).Mexico,2001:45-49.

[4]许顺孝,扬富文.不确定线性系统迭代学习控制器的设计[J].控制理论与应用,2002,19(4):650-652.

[5]Chen Yangquan,Moore K L.An Optimal Design ofPD-type Iterative Learning Control with Monoton-ic Convergence[C]//Proceedings of the 2002IEEEInternational Symposium on Intelligent Control.Vancouver,Canada,2002:27-30.

[6]李宏胜.离散系统单调收敛高阶迭代学习控制[J].机械工程学报,2006,42(6):72-76.

[7]Moore K L,Chen Yangquan.On Monotonic Con-vergence of High Order Iterative Learning UpdateLaws[C]//2002IFAC 15th Triennial World Con-gress.Barcelona,Spain,2002:21-26.

[8]Moore K L,Chen Yangquan.A Separative High-order Framework for Monotonic Convergent Itera-tive Learning Controller Design[C]//Proceedingsof the American Control Conference.Denver,Colo-rado,USA,2003:3644-3649.

顺学而变迭代创新[定稿] 篇4

迭代创新

迭代思维，是移动互联网时代的重要思维方式。每一次迭代，都是在原有事物基础上的完善、升级、创新，是一个动态的螺旋式上升的过程。学校特色课程建设同样需要迭代思维，顺应学生的需求、学习的要求而变，在传承中发展、创新，经历从量变到质变、从局部到整体、从单一到多元的进步过程。

重庆市江北区洋河花园实验小学办学 20年来，一直致力于推动核心价值内涵的精进、培养目标的具体化、课程内容的演变、课程评价的精准化，在特色课程建设的道路上经历了从单一项目到“四游”项目再到“5-N”畅游课程的蝶变。

目标迭代：寻找课程建设的旨归

培养目标是学校特色课程创建的出发点和归宿。洋河小学培养目标的确定，是从对校园文化的追问开始的。洋河，有着堪称生命摇篮的“水”。教育如水，洋河人从“水利万物而不争”中感受到：利，就是滋养、滋润，体现了水对世间万物的成全。于是，“成全是一种教育”走进了我们的视野，“成全教育”成为我们共同遵循的核心价值。学校依据世界管理大师彼得?圣吉的“自我系统、我与他人系统、自然和世界系统”三层次系统教育观，将“成全教育”分为善待自我、善待他人和善待世界，实现孩子“成人成事”的成长总目标。

学校培养目标也在传承中发展。1.0版：创建“书香校园”，培养具有民族文化根基的现代人。2.0版：落实核心素养，将孩子们小学阶段的目标定位为大气、担当、尚学的“六一”儿童：一身好品德、一些好技能、一堆好创意、一套好习惯、一群好伙伴、一副好身板，形成了洋河学子核心素养的校本化表达。

需求导向：提供孩子自由选择的课程

学生的需求是课程建设的风向标。孩子的生活是多姿多彩的，孩子的成长路径是多向度的。什么样的课程才能服务以上目标呢？起初，我们只是将“阅读”作为特色课程建设的唯一取向。在实践中，我们感觉这种设计太单一，不能满足孩子的需求。于是，我们进行了全校性的问卷调查，发现学生非常喜欢动手实践、体验性强的学科、社团、活动，并从“游文于六经之中，留意于仁义之际”得到启发，把这些孩子喜欢的项目归纳为“游文、游艺、游戏、游历”四个方面。游文是学校原有“系列阅读”项目的传承和创新；游艺指向艺趣积淀素养；游戏指向活动强健体魄；游历指向体验增强知识。这样，学校构建起了可供孩子选择的“四游”实践课程，不断激活师生“无限可能”的生命活力。

整合创新：促成孩子核心素养的转化

课程建设的过程，不是简单地增加或删减课程门类和内容，而是要整合、发掘、创新课程资源要素，重构新的课程结构、课程内容、课程实施、评价体系，促进课程向孩子核心素养的转化。我们从市、区全面的质量监测中发现，通过几年的“四游”项目的实施，学生的阅读、艺趣、健康等有着较大的提升，但学生的动手能力、创新思维能力，尤其是直接经验的获得，相比之下还有一定的差距。于是，我们进一步整合创新已有课程，增加了培养孩子创新能力的“游创”项目，这样，便从“四游”课程走向了畅游课程。

（一）重构课程结构

畅游课程体现在“5-N”的课程体系的架构上，主要有两个层次：

一是国家课程的群落化实施。通过学科整合、综合化实施，形成了“游文、游创、游艺、游戏、游历”课程群，这是学校课程的主干、核心。“游文”课程群将语文与英语整合成“语言与文学”交叉课程群。“游创”课程群将数学、科学和信息技术整合成“创意与实践”交叉课程群。“游艺”课程群将美术与音乐整合成“艺术与审美”交叉课程群。“游戏”课程群将体育课程与地方特色游戏与体育健康活动整合成“体育与健康”交叉课程群。“游历”课程群将思想品德、综合实践活动以及学校的仪式教育活动、节日庆典等有机整合成“仪式与育德”交叉课程群。

二是校本课程的项目化实施。“N”是由“五游”课程群生成的项目，是基于学科的体验课程，是对国家课程的实施过程中直接经验不足而做出的补充。开设了“绘本教育（游文）；儿童哲学、DI、思维导图、STEAM创客（游创）；舞台艺术、儿童剧（游艺）；传统游戏创生（游戏）；社会通识教育、国际理解教育（游历）”等精品课程，将孩子引向“做中学”。

（二）改进课程实施方式

我们对畅游课程的实施一是在课时上有保证，二是在课堂教学中有变革。

1.畅游课程的课时分配。（见下表）

课程群类别周总

课时课时分配

游文语言与文学 11 语文+7 英语+3 整合项目1节

游创创意与实践 8 数学+4 科学+2 信息+1 整合项目1节

游艺艺术与审美 5 美术+2 音乐+2 整合项目1节

游戏运动与健康 4 体育+3 整合项目1节

游历仪式与育德 4 品德+2 综合实践+1 整合项目1节

2.畅游课程的课堂教学变革。

一是“五游”课程群落的教学。老师们把“综合化”实施的方法应用到自己的课堂中，关注学科间的学法和思维方法的相互嫁接。比如，语文课上嫁接音乐的表达，体育课上嫁接科学的方法，数学课上嫁接美术的审美等。科学老师在上《摆的研究》时，让学生关注不同组之间的数据处理方式，理解近似和比例等数学方法对科学规律发现的影响。

二是“N”?目体验活动的教学。老师们关注学生在解决问题的过程中直接经验的获得。在游历项目中，学生带着问题走出校园去参与田园生活，然后再回到课堂上分享自己的研究成果；在游创项目中，学生们在制作模型的过程中发现问题、解决问题，有的收获了误差与错误之间的区别，有的理解了广告设计会影响产品受欢迎程度……人文底蕴、科学精神、学会学习、健康生活、责任担当、实践创新等核心素养就这样悄然落实在了每一节课，每一个活动中。

（三）优化课程教学评价

考核评价是学校建设特色课程的另一大秘密武器。情境创设能引发学生的思考；避免教师用自己的思考去压制和取代学生的思考；学生有不少于20分钟的自主、合作、探索、反馈等学习活动的时间；有明确的学科思想方法、学习策略的梳理、提炼、运用；学生有不少于5分钟的学习小结、检测、展示反馈……这些指标成了教师们的课堂教学价值追求。学校通过课堂评价表，引导教师把时间留给学生、把方法交给学生；重视学生能力培养、重视学生学习内生动力的激发。教与学中的“学本”立场、学生发展中的“向学性”特质更加彰显，恰当高效。

学校还成立了“五游”教师工作坊，由跨学科的老师组成具体的实施团队，共同解读学校《课程指南》，集体备课、听课和评课，形成了良好的协同作战氛围，提高了课程开发与实施的效率和效果。

儿童是教育的落足点。“成全每一个孩子”的理念，就是要求教育者基于人的生成性以及可教性，相信每个孩子身上都有“美”，让每个孩子都能得到所需要的教育，获得个性化的成长。时代发展永无止境。学校教育唯有“顺学而变，迭代创新”，构建符合时代潮流、适合学生需求、体现学校特色的课程体系，才能真正地实现“成人之美”“美美与共”的理想目标。

迭代学习篇5

迭代学习控制是一种能有效处理重复跟踪控制问题或周期性干扰抑制问题的控制方法[1,2,3,4,5]。然而,自Arimoto[6]等人率先提出迭代学习控制以来,己有的相关文献大部分都要求目标轨线不随迭代次数发生改变。由于实际控制目标往往是不同的,若目标轨线发生变化,学习到的输入信号将不再起作用,从而导致学习效率很低,因此,研究目标轨线迭代可变的跟踪问题具有重要的理论价值和实际意义。然而,自适应控制只能解决时不变或慢时变参数的不确定性问题,对于快时变参数的不确定性是不能解决的[7,8,9]。

把自适应控制和迭代学习控制相结合,可以处理目标轨线迭代可变的跟踪问题。文献[10]提出了D型,PD型和PID型学习算法,解决了跟踪轨线在迭代域上慢时变的情况;文献[11]利用Lyapunov理论给出了一种自适应迭代学习控制方法,只适用于某类相似可变轨线的跟踪问题。文献[12]基于复合能量函数,提出一种时变不确定非线性系统的迭代学习控制方法。文献[13]对于一阶混合参数不确定性系统,解决目标轨线迭代可变跟踪控制问题,应用复合能量函数,提出了一种新的迭代学习方法,设计了由反馈项和学习项组成的控制律。文献[14]提出了一种自适应迭代学习控制的框架,构造了新的参数学习律,利用某个增益的取值范围,可以处理时变或时不变系统的参考轨线迭代可变的跟踪问题,但参数不是混合型参数。文献[15]针对状态难以直接测量的一类不确定非线性系统,当任意两次迭代的目标轨迹完全不同时,基于状态观测器进行相应的迭代学习控制设计,可实现在给定区间上对迭代可变轨线的跟踪误差渐近收敛至零。然而,在实际系统中,时变参数和时不变参数常常是并存的,如机械臂系统既有因负载变化引起的快时变参数,又有机械结构的尺寸、重量等时不变参数,文献[16]对不确定性的机械臂系统,根据参数的个数不同,利用Lyapunovl i k e理论,给出了三种自适应迭代学习算法,解决了机器人的机械臂轨迹跟踪问题。

本文研究一类高阶混合参数化非线性系统,给出微分-差分型自适应律以及自适应迭代学习控制律,利用Backstepping方法,结合迭代积分法和参数重组技巧,设计出一种混合参数自适应迭代学习控制,使得跟踪误差在L2N×[0,T]-范数意义下收敛于零。通过构造Lyapun ov-like泛函,具体证明了跟踪误差的平方在一个有限时间区间上的积分收敛于零和所有信号均在有限时间区间内有界。数值仿真例子,说明了所提算法的有效性。

2 问题描述

考虑下面高阶混合参数严格反馈非线性不确定性系统

其中=(x1 x2...x i),x=(x1 x2...x n)Τ∈Rn是系统状态,初始条件为x(t0)=x0,u∈R是系统输入,y是系统输出,θ1(t)∈Rp是未知连续时变向量参数,θ2∈Rq是未知时不变向量参数,b是未知常数,仅知其符号,不失一般性,设b>0;f(x),都是适当维数的光滑向量函数,满足f(0)=0,iϕ(0)=0,i=1,2,...,n;yr(t)是参考系统输出,yr,j(t)表示第j次迭代时的参考系统输出。

在本文中,系统(1)和目标轨线yr,j(t)满足下列假设:

假设1 f(x),ϕi(x%i)关于x及ix%满足局部李普希茨连续,其中i=1,2,...,n。李普希茨连续定义为∀x1,x2∈Rn ，有是未知李普希茨常数。

假设2目标轨线yr,j(t)和它的i阶导数,i=1,2,...,n均在L2N×[0,T]-范数意义下有界,即∫0T(y(r,jk)(τ))2dτ<∞k=0,1,2,...,n,且满足初始重置条件yr,j(0)=yj(0)。

控制目标为第j次迭代时,在[0,T]上,设计控制输入uj,使跟踪误差ej=yj-yr,j在L2N×[0,T]-范数意义下收敛到零,并保证闭环系统的所有信号均在L2N×[0,T]-范数意义下有界。

3 设计自适应迭代学习控制器

利用Backstepping方法[9],在第j次迭代时,作坐标变换

对(2)求导,再利用(3)式,得到误差变量动态方程为

首先考虑误差动态方程(4)式的前n-1个方程,选择Lyapunov函数为

对(5)式求导,得

此时,第j次迭代,设计未知常值向量参数θ2的自适应律为

把(7)式代入(6)式,得

误差动态方程(4)式的第n个方程可改写为

其中σ=[b-1θ2Τ,-b-1]Τ,β(t)=b-1θ1(t),δj=[ωnΤ,j,∆n-1,j]Τ,

显然σ是未知常值向量参数,β(t)是未知时变向量参数,∆n-1,j是已知非线性函数。

对于(9)式设计Lyapunov函数为

然后,对(10)式求导,得

现在考虑整个误差动态方程(4)式第j次迭代时的Lyapunov函数,得

则由(8)和(11)式,知

设计自i=1适应σ学习控制律

未知向量参数的自适应律为

未知时变参数向量β(t)的自适应律为

因此,将控制律(14)式,自适应律(15)(16)式,代入(13)式,得

假设3假设第j次迭代时误差变量初始值都为零,即zj(0)=(z1,j(0),z2,j(0),...,zn,j(0))Τ=0,若不为零,可以调整目标轨线初始值使其为零[8]。

注3标准的Backstepping方法[9]是在第n个方程中设计常值向量参数θ2的自适应律,而本文是在第n-1个方程中设计θ2的自适应律;在第n个方程中设计了新的未知常值向量参数σ的自适应律,而θ2和σ这两个向量参数是不相同的。

4 收敛性分析

定理1由系统(1)方程和迭代学习控制律(14)以及未知向量参数自适应律(7)(15)(16)组成的闭环系统具有以下特性:(1)当迭代次数趋于无穷时,在[0,T]上跟踪误差信号z1,j(t)在L2N×[0,T]-范数意义下收敛于零,即(2)闭环系统的所有信号均在L2N×[0,T]-范数意义下有界。

证明定义Lyapun ov-like泛函

则Lyapunov-like泛函的差分为

下面分别计算(19)式中右边的每一项。

由假设3及(12)(17)式,得(19)式中的第一项为

由(15)式及(a-b)2-(a-c)2=(c-b)[2(a-b)+(b-c)],可得(19)式中的第二项为

由(16)式,可得(19)式中的第三项为

将(20)-(22)式代入(19)式得

则当t=T时,由(23)式及初始条件

重复使用(19)式,可得

由(25)式知,只要E0(T)是有限的,就能保证Ej(T)的有限性。下面证明E0(T)的有限性。当j=0时,由(18)式

对(26)式两端同时求导,得

对(30)式两边同时取极限,得

由(18),(31)式,得

又θ2是常值向量参数,则存在正常数M3,使得

由(32),(33),(34)式,得

5 数值仿真

考虑以下混合参数不确定严格反馈系统

其中b,θ2是未知常值参数,θ1(t)是未知时变参数,目标轨线yr,j=kjsin(2t),t∈[0,2π],kj是[-1,0)∪(0,1]的随机数(如此选取是为了实现目标轨迹迭代可变),j是迭代次数。初始条件x(t)=(0,0)Τ,θ2ˆ,0(0)=σˆ0(0)=βˆ-1(t)=0,T=10。根据本文提出的设计方案,我们设计以下参数自适应律和控制律。

参数自适应律:

6 结束语

迭代学习篇6

2009年3月27日收到迭代学习控制[1,2]的使用对象是诸如工业机器人那样的具有重复运动性质的被控系统,它的目标是实现有限区间上的完全跟踪任务。迭代学习控制采用“在重复中学习”的学习策略,具有记忆和修正机制。它通过对被控系统进行控制尝试,以输出轨迹与给定轨迹的偏差修正不理想的控制信号,以产生新的控制信号使得系统的跟踪性能得以提高[3]。迭代学习控制的研究,对具有较强的非线性耦合﹑较高的位置重复精度﹑难以建模和高精度轨迹跟踪控制要求的动力学系统有着非常重要的意义[4]。

滑模控制(Sliding Mode Control,SMC)是变结构控制(Variable Structure Control,VSC)的主要理论和方法。从20世纪50年代开始出现至今,滑模控制已经得到了充分的完善和发展。滑模控制实现简单,对外界干扰和系统匹配不确定性有完全的鲁棒性和自适应性[5]。这两大优点使得滑模控制以及其相关的研究迅猛发展,成为控制理论界的研究热点之一。

1 模糊滑模迭代控制器设计

迭代学习显著的特点是控制算法非常简单,控制精度很高,可以以任意精度跟踪给定。但是其主要问题之一是鲁棒性问题。由于不确定项的客观存在,实际应用中的迭代学习控制的鲁棒性问题难以解决,而滑模变结构控制却能够很好地解决鲁棒性问题。基于此,设计出将两种控制方法结合的新方法,可以更有效地提高系统的性能[6]。

普通ILC的收敛速度比较慢,如何寻找一个合适算法来加快收敛速度是ILC一个重要的研究方向。变结构控制具有响应快、对参数变化及扰动不敏感等优点,但单纯的变结构控制容易引起抖动问题,为此将模糊滑模控制算法[7]引入迭代学习控制,提出FSMILC算法,算法原理如图1所示。

由图1可以看出,模糊滑模迭代学习控制算法和其它迭代学习算法不同,这种算法是利用模糊滑模控制进行控制量的增量计算。滑模函数的输入为误差eK(t)和误差变化率 $\dot{e}$ K(t),其中 $\dot{e}$ K(t)如(1.1)式所示:

$\dot{e}_{Κ} (t) = e_{Κ} (t) - e_{Κ} (t - 1) (1.1)$

滑模函数sK(t)和滑模函数变化率 $\dot{s}$ K(t)如(1.2)式、(1.3)式所示:

$s_{Κ} (t) = c e_{Κ} (t) + \dot{e}_{Κ} (t) (1.2)$

$\dot{s}_{Κ} (t) = s_{Κ} (t) - s_{Κ} (t - 1) (1.3)$

采用控制的变化量Δu作为模糊滑模控制器的输出,可使滑模控制成为无模型控制,依赖于被控对象的程度较小[5,6]。

设模糊控制器的输入为s(t)和 $\dot{s}$ (t),它们分别是sK(t)和dsK(t)的模糊变化量,模糊控制器的输出ΔuK(t)是控制变化量Δu的模糊化变量。

被控对象的输入为:

uK+1(t)=uK(t)+ΔuK(t) (1.4)

(1.4)式中,ΔuK(t)为第K个迭代周期模糊控制器的输出,即第K个周期产生的控制变化量。uK(t)为第K个迭代周期的控制量,uK+1(t)为第K+1个迭代周期的控制量。

2 神经网络等效滑模控制器设计

迭代学习控制存在鲁棒性差的问题,由于外界不确定因素的存在,使其成为很难解决的问题。而滑模控制来说,系统如果进入了滑模状态,系统参数扰动与外部干扰对系统无作用,系统的稳定性与动态品质仅取决于滑模面及其参数,所以滑模控制的鲁棒性强、可靠性高。但滑模变结构控制本身也存在不足之处,促使其与神经网络控制相结合,以使系统在保持对摄动和外部干扰强鲁棒性的同时,尽量消除抖振的发生。从20世纪后期开始,许多专家学者就结合神经网络和滑模控制进行了很多研究工作,在诸多方面得到了非常有意义的成果[8]。

由图2可知,神经网络等效滑模迭代学习控制算法和其它迭代学习算法不同,这种算法是利用滑模的等效控制ueq(k)和神经网络输出un(k)之和作为总控制律。ueq(k)称为系统在滑动模态区内的等效控制。等效控制往往是针对确定性系统在无外加干扰情况下进行设计的。针对带有不确定性和外加干扰的系统,一般采用的控制律为等效控制加切换控制,即其中切换控制实现对不确定性和外加干扰的鲁棒控制,所设计的控制律u需要满足滑模稳定条件。在此方案中切换控制部分选用神经网络控制器。

uK(k)为第K次迭代控制被控对象的输入量,yK(k)为第K次迭代被控对象的输出量。滑模函数的输入为系统的误差eK(k)和误差变化率deK(k)。这里神经网络控制器的输入不是系统的误差eK(t)和误差变化率deK(t),而是滑模函数sK(t)和滑模函数变化率dsK(t)。神经网络的输出为u $_{Κ}^{n}$ (k),第K+1个迭代周期的总控制律:

uK+1(k)=u $_{Κ}^{e q}$ (k)+u $_{Κ}^{n}$ (k) (2.1)

uK+1(k)作为下一个周期被控对象的输入存放在记忆存储器中。

3 仿真实验

设对象传递函数为

$G (s) = \frac{133}{s (s + 25)} (3.1)$

将(3.1)式转化为状态方程为

$\dot{x} = A x + B u (3.2)$

(3.2)式中

$x = [x_{1} x_{2}] ‚ A = [\begin{matrix} 0 & 1 \\ 0 & - 25 \end{matrix}] ‚ B = [\begin{matrix} 0 \\ 133 \end{matrix}]$

。

将状态方程式(3.2)转化为离散状态方程

x(k+1)=A1x(k)+B1u(k),y(k)=C1x(k)+D1(k) (3.3)

$\begin{array}{l} 取采样时间为 0.1 s ‚ 其中 ‚ A_{1} = [\begin{matrix} 1.000 0 & 0.036 7 \\ 0 & 0.082 1 \end{matrix}] ‚ \\ B_{1} = [\begin{array}{l} 0.336 7 \\ 4.883 3 \end{array}] ‚ C_{1} = [1 0] ‚ D_{1} = 0 \end{array}$

。期望轨迹为yd(t)=4sin(0.5t),假设系统的初始状态为零。

图3.1为期望曲线yd与第5,10,20个迭代周期的输出曲线yK之间的关系图,从图3.1中可以看出随着周期数目增加,输出值越来越趋近于期望曲线。图3.2为前30个迭代周期,每个周期内每个采样点误差的绝对值之和,从图3.2可知在第26个迭代周期中,采样点误差的绝对值和趋近于零,随着迭代次数的增加,误差和逐渐减小并趋于平稳,得到较好的跟踪效果。

将状态方程(3.2)式转化为离散状态方程

x(k+1)=A1x(k)+B1u(k),

y(k)=C1x(k)+D1(k) (3.4)

$\begin{array}{l} 取采样时间为 0.1 s ‚ 其中 ‚ A_{1} = [\begin{matrix} 1.000 0 & 0.008 8 \\ 0 & 0.778 8 \end{matrix}] ‚ \\ B_{1} = [\begin{array}{l} 0.006 1 \\ 1.176 8 \end{array}] ‚ C_{1} = [1 0] ‚ D_{1} = 0 \end{array}$

。期望轨迹为yd(t)=4sin(0.5t),假设系统的初始状态为零。

图3.3为期望曲线yd与第2,3,4个迭代周期的输出曲线yK之间的关系,可以看出只需要很少的周期就可以趋近于期望曲线。图3.4为前5个迭代周期,每个周期内每个采样点误差的绝对值之和,从图3.4可知在第3个迭代周期中,采样点误差的绝对值和趋近于零。可以看出,此控制方法比模糊滑模迭代学习控制有更好的跟踪效果。

4 结论

迭代学习控制为难以建模,有高精度轨迹控制要求,特别是具有重复运动特性的对象提供了很好的控制方法。本文将迭代学习控制与滑模变结构控制相结合,提高了控制器的鲁棒性,随着迭代次数的增加误差逐渐减小,验证了方法的有效性。

参考文献

[1]Gunnarsson S,Norrlof M.On the disturbance properties of high orderiterative learning control algorithms.Automatica,2006;42(11):2031—2034

[2]Ahn Hyosung,Moore K L,Chen Yangquan.Stability analysis of dis-crete-time iterative learning control systems with interval uncertainty.Automatica,2007;43(5):892—902

[3]Seshagiri S,Khalili H K.On introducing Integral action in sliding mode control.Proceeding of the41st IEEE Conference on Decision and Control,2002;2(12):1473—1478

[4]Mainali K,Panda S K,Xu J X.Repetitive position tracking perform-ance enhancement of linear ultrasonic motor with sliding mode-cum-iterative learning control.Proceedings of the IEEE International Con-ference,2004;7(6):352—357

[5]Tong S,Li H X.Fuzzy adaptive sliding-mode control for a nonlinear system.IEEE Trans F S,2003;11(3):354—60

迭代学习篇7

迭代学习控制是一种被广泛应用于工程应用的学习控制策略, 最早于1984由Arimoto等人正式提出。迭代学习控制适于有限时间区间上可重复运行的系统, 它通过应用先前试验得到的信息来修正不理想的输入信号, 改善跟踪性能。迭代学习控制方法用于解决多智能体系统问题已经有了大量的研究。最早将迭代学习控制算法用于多智能体系统协调控制问题出现在Ahn[5]的文章, 主要考虑用于多智能体编队问题。之后, 文献[6-9]中采用迭代学习控制算法处理多智能体系统的一致性跟踪问题。文献[10]讨论了迭代学习控制方法处理高阶多智能体系统协调控制问题。传统提法的迭代学习控制对初始定位有着严格的要求, 规定在每次迭代时, 初始状态都要和期望初态一致。文献[11]中给出了初态偏移下的多智能体系统在D型和PD型学习律下的极限轨迹, 表明了初始定位误差对多智能体一致性跟踪型性能的影响。文献[12, 13]提出带初态修正的迭代学习算法, 实现了多智能体系统在给定区间上的完全跟踪。

本文讨论多智能体系统初态学习下的一致性跟踪问题。与经典迭代学习控制中要求的初始状态条件相比较, 讨论放宽初始状态条件是更有工程应用意义的。初态学习可以放宽初始状态条件, 它允许初始状态可以不精确定位在期望初态上。文献[12, 13]分别将文献[14]中的单个系统初态学习律应用于非线性时变和线性时变多智能体系统, 形象地以提出多智能体系统初态学习律这种形式放宽了初始定位条件。但该多智能体系统初态学习律要求:

(1) 多智能体系统的输入矩阵精确已知;

(2) 迭代过程中的初态需要严格的落在由初态学习律确定的轨迹上, 仅有第一次的初态是可任意给定的。

本文针对多智能体系统, 给出新的初态学习律, 不对输入矩阵做要求, 且初态收敛条件也与输入矩阵无关。在文献[12, 13]中的初态学习律的学习增益与输入学习律的学习增益相同, 因而导致了迭代过程中初始状态的严格定位。而本文中的两个学习律增益可以不同, 这样使得多智能体系统在迭代过程允许初态在一定范围内变动, 相比已有的初态学习律, 具有更强的鲁棒性。

1问题的提出

考虑一组由N个同类动态智能体构成的多智能体系统, 且其第j个智能体的动力学方程可用如下的线性时不变模型来描述

原始提法的迭代学习控制对于每一次迭代, 都要求系统初态严格设置在期望初态上。这对于多智能体系统很难实现, 主要存在以下问题:

(1) 多智能体系统模型的不确定性影响期望初态的确定;

(3) 多智能体系统对于给定初始状态的定位所能达到的精确程度。以上问题表明了对多智能体系统而言, 每次迭代时都将初态设置在期望初态上这一要求是苛刻的。

2多智能体系统初态学习

考虑系统 (1) , 为了采用迭代学习控制方法解决一致性跟踪问题, 提出如下的学习控制规律和初始状态学习规律

为了更清楚的描述, 我们将输入学习律和初始状态学习律也写为如下形式

引理2若

证明:

由初态学习律 (10) 知,

利用条件 (11) , 易证出引理2成立。

定理1对于多智能体系统 (1) , 在输入学习律 (5) 和初态学习律 (6) 作用下, 若引理1中的条件成立, 且

证明:根据跟踪误差的定义, 可知第j个智能体的跟踪误差为:

由式 (13) , 将所有智能体的跟踪误差写成紧凑形式, 我们可以得到

多智能体状态轨迹在相邻两次迭代下的偏差为

根据分部积分, 有

为了更简洁的描述问题, 定义以下符号用于后续的证明

对式 (18) 两面取范数:

根据λ范数定义, 可得

故当λ足够大时, 结合

3仿真算例

考虑一组包含1个虚拟领导者和4个智能体的多智能体系统, 第j个智能体模型如下

期望参考轨迹

描述所有多智能体之间关系的拓扑图如图1所示, 其中多智能体0代表虚拟领导者。从图中可以看出, 虚拟领导者0与智能体1和3之间存在直接联系, 即智能体1和3可以直接得到期望参考轨迹信息。根据之前的图论知识。可以得出该连通图的Laplacian矩阵为

4结论

迭代学习篇8

数控机床正在向精密、高速和复合化的方向发展。轮廓精度和位置跟踪能力已成为多轴进给系统的两个重要指标[1]。传统数控机床的直线运动是由电动机的旋转运动通过机械设备转化而来, 然而由于机械设备在传动过程中不可避免的会产生摩擦和弹性形变等不利因素, 因此, 直线电机被应用到数控机床中[2]。但是, 由于直线电机是一个多变量和时变的非线性系统, 传统的PID控制器已经很难实现精确控制[3]。虽然自适应控制、鲁棒控制、神经网络控制和滑模控制等方法可以获得较好的输出效果, 但是它们都要求有精确的模型对象, 当模型不准确, 或者参数发生变化时, 就无法实现精确的位置跟踪[4~9]。而迭代学习控制器不仅不要求有精确的被控对象模型, 而且在模型参数变化时, 通过学习, 仍然可以实现高精度位置跟踪, 文献[10]实现了迭代学习控制直线电机的高精度位置跟踪。文献[11]在XY平台各轴上实现了迭代学习控制的应用, 但是没有考虑两轴的不匹配问题。

针对系统存在的负载扰动、XY轴动态响应不一致, 本文采用基于实时轮廓误差模型与迭代学习控制相结合的控制策略对XY平台进行轮廓和位置控制。为了提高系统响应速度, 使系统具有鲁棒性, 单轴采用IP与ILC控制器相结合的方法。现有的交叉耦合控制器和基于局部任务坐标系的轮廓运动控制器等都利用各轴的位置误差来估计轮廓误差, 这些方法成立的一个前提是位置误差远小于期望轮廓的曲率半径[12~14], 而在迭代学习初期, 各轴位置误差都比较大, 用轮廓误差来修正控制信号已经没有意义, 因此, 本文提出基于混合误差的迭代学习控制, 在迭代初期只用位置误差修正控制信号, 而当位置误差减小到一定程度后, 再用轮廓误差修正控制信号, 最终使系统达到轮廓加工的高精度要求。

1 双轴平台的实时轮廓误差模型

对于直线电机驱动XY平台, 由两台永磁直线同步电动机直接驱动两轴相互垂直的XY平台。其机械运动方程为:

其中, x (t) 为动子的位移, iq为动子q轴电流, Kf为推力系数, Fe为电磁推力, M为动子及所带负载的总质量, B为粘滞摩擦系数, F为外部扰动。

在连续轨迹控制系统中, XY双轴平台系统不仅对单个轴的运动速度和精度控制有严格要求, 而且在双轴联动时, 还要求各移动轴有很好的动态配合, 因此, 系统的单轴位置误差与轮廓误差对轮廓加工精度有较大的影响。而对于自由形态的跟踪任务中, 轮廓误差模型的精度将直接影响轮廓加工的性能。综上, 建立实时轮廓误差模型如图1所示。

其中, R1为指令路径, P1为实际路径, R1 (t) 为指令位置点, P1 (t) 为实际位置点, 而R2 (t) 是指令路径上距离P1 (t) 最近的一个点, L为当前跟踪误差Ep在点P1 (t) 处的切向投影, R2 (t) 点与R1 (t) 点的长度约等于L, 而轮廓误差定义为实际位置与给定指令位置的最短距离, 即为E'c, 因此, 自由形态轨迹跟踪任务中的轮廓误差可以利用P1 (t) 与R2 (t) 之间的距离来计算, 即:

其中, Ex与Ey分别为系统跟踪误差Ep在XY轴的分量, j为通过R2 (t) 与R1 (t) 的直线与X轴的夹角为:

其中, R2x (t) 和R2y (t) 分别为R2 (t) 在XY轴上的分量, R1x (t) 和R1y (t) 分别为R1 (t) 在XY轴的分量, R2 (t) 可计算为:

式中, V1x (t) , V1y (t) 分别为R1 (t) 点在XY轴的切向分量速度, V2x (t) , V2y (t) 分别为R2 (t) 点在XY轴的切向分量速度, Vx (t) 和Vy (t) 分别为系统X轴和Y轴的进给速度, 计算为:

通常平台系统的进给速度并不是常值, 所以, V2x (t) , V2y (t) 的值不能准确求出。那么假设R2 (t) 与P1 (t) 有相同的切向速度, 那么上述方程可以重新给出:

综上, 将式 (4) 、式 (5) 、式 (8) 和式 (9) 带入到式 (3) 中即为轮廓误差的数学模型。

2 单轴控制器设计

2.1 位置跟踪迭代学习控制器的设计

图2为XY平台系统单轴位置跟踪迭代学习控制框图。其中, Φ为迭代学习控制器学习增益, yr为y轴的期望位置, yj+1为系统进行第j+1次迭代时的位置输出, P为被控对象, uj和uj+1分别为第j次和第j+1迭代的控制信号。第j次的控制信号uj存到存储器里, 并在第j+1次迭代时, 构造出新的控制信号uj+1。系统的位置误差被ILC控制器处理后, 得到的新控制信号, 下一次迭代时, 再反馈给系统, 通过不断的学习, 位置误差得到不断的减小。

定义位置跟踪迭代学习的学习律为:

其中, f (z) 为学习增益, 为了突出系统的快速响应能力, 本文采用PD型闭环迭代学习控制律, φ (z) 为:

这里kp、kd和Ts分别是比例增益、微分增益和采样周期。

误差ej (10) 1定义为:

将跟踪误差和控制信号动态方程改写为:

由压缩原理得出, 系统收敛的条件为:

2.2 IP控制器设计

迭代学习控制器有一定的滞后性, 因此, 本文在XY平台的单轴位置控制器采用带速度前馈的IP控制器结构来提高系统的响应速度, 增强系统的抗扰动能力, 保证闭环系统具有较强的鲁棒性。设计单轴控制器如图3所示。

由图3可知速度环的传递函数为:

由式 (16) 可知, 增大ki可提高系统的响应速度, 由式 (17) 可以看出, 增大ki相当于增强系统抗扰动能力。为补偿时间延时对XY平台系统跟踪精度的影响, 加入速度前馈控制器降低系统的位置误差, 保证了系统响应的快速特性。

未加入速度前馈时, 单轴的传递函数为:

加入速度前馈后的传递函数为:

如式 (18) 和式 (19) , 加入速度前馈后, 系统增加了一个零点, 从而增加了系统的频宽, 提高了系统的响应速度。

3 轮廓控制器设计

轮廓误差迭代学习控制就是将迭代学习控制应用到轮廓误差模型中, 使系统在前一次的迭代中学习纠正系统中存在的负载扰动以及各轴响应速度不一致等各种不确定性。图4为轮廓误差迭代学习控制器。其中, ux, j+1、uy, j+1、ux, j和uy, j分别为X、Y轴在第j+1次和第j次迭代时的控制信号;xj+1、yj+1分别为X、Y轴在第j次迭代时的位置输出;Exc、Eyc分别为轮廓误差在X轴和Y轴的分量, 可以由式 (3) 、式 (4) 、式 (5) 、式 (8) 和式 (9) 得到。轮廓误差的学习律为:

由式 (21) 可以看出, 前一次迭代的控制信息和当次迭代的轮廓误差用来更新系统的控制信号,

式中:

如图4所示为直线电机XY平台的系统框图。

图中, k1、k2分别为混合误差迭代系统的转换开关;因此, 将轮廓-位置误差迭代学习律改写为如下形式:

式中wc、wt分别为开关k1、k2的转换因子, 其分别代表轮廓误差转换因子和位置误差转换因子, 其值可选为0或1。当转换开关k1闭合, k2断开, 即wc=0, wt=1时, 用各轴位置误差更新控制信号;当转换开关k2闭合, k1断开, 即wc=0, wt=1时, 则用轮廓误差更新控制信号。本文用每次迭代的位置误差来判断用哪种误差更新控制信号, 当位置误差小于10μm时用轮廓误差更新控制信号, 反之用位置误差更新控制信号。

4 仿真与分析

本文仿真采用日本Yokogawa LM110系列直线电机驱动XY平台进行仿真研究, 其参数分别为M1=4.4kg, M2=1.4kg, Kf1=10.9794N/A, Kf2=8.526N/A, B1=244.3192Ns/m, B2=82.0176Ns/m。指令路径为长轴长为a=0.05, 短轴长为b=0.04的椭圆形, 即两轴输入指令为

前馈控制器系数kv1、kv2为1;X轴的IP控制器的积分、比例增益分别为125、20.523, 迭代学习控制学习增益Kp、Kd分别为30.21、9.32;Y轴的IP控制器的积分、比例增益分别为100、39.354, 迭代学习控制学习增益Kp、Kd分别为50.698、10.324。为了验证系统的抗干扰能力, 在t=2.5s时突加50N的干扰力, 采样时间设为0.001s。通过Matlab7.10进行仿真, 得到仿真曲线如下。

图5为外部扰动和系统不确定性均存在时, XY平台的期望输入与实际输出轨迹曲线, 可以看出, 在本文提出的控制策略作用下, 指令轨迹与实际轨迹基本重合。图6为X、Y轴的在迭代轴上的位置误差曲线, 随着迭代次数的增加, 迭代学习控制器不断修正控制信号, 实际输出位置不断接近期望位置, 在迭代到第九次的时候, 位置误差达到稳定状态。图7为外加扰动作用, 跟踪各轴位置误差和混合误差情况下, XY平台迭代15次后的轮廓误差曲线, 可以看出, 无论在有无扰动情况下, 跟踪混合误差时的轮廓误差均小于跟踪位置误差情况下的轮廓误差, 跟踪混合误差时, 轮廓精度有明显提高。

5 结论

本文采用适用多轴轮廓控制的轮廓误差计算法则计算轮廓误差, 对XY平台系统进行控制。通过在单轴上结合IP控制器与跟踪位置误差迭代学习控制器有效地抑制了负载扰动对系统的影响, 保证了系统的鲁棒性, 速度前馈控制提高了响应速度, 提高了系统的跟踪性能。轮廓控制采用基于实时轮廓误差模型的混合误差迭代学习控制器, 削弱了由于双轴速度不匹配对轮廓精度的影响。仿真结果表明所设计的控制系统有效地提高了XY平台的轮廓加工精度。

摘要：永磁直线同步电动机直接驱动XY平台系统时, 负载扰动及各轴动态响应速度不同等不确定性因素对轮廓加工精度有很大影响, 本文提出一种将实时轮廓误差模型与混合误差迭代学习控制器相结合的控制策略。在单轴上, 基于IP控制器的位置跟踪迭代学习控制器可以有效地抑制负载扰动的影响, 保证了系统的鲁棒性, 但是并不能有效地改善由于系统各轴动态响应速度不同对轮廓精度的影响, 为此, 利用实时轮廓误差模型, 设计混合误差迭代学习控制器来使轮廓误差趋近于零。仿真结果表明, 该方案能够有效地提高系统的轮廓精度和鲁棒性能, 并且控制器结构简单。

迭代学习篇9

迭代学习控制不需要依赖动态系统的精确数学模型就可以使系统实际输出完全跟踪期望输出。少量的先验知识就可以使迭代学习控制得以实现,并且重复运行次数越多控制精度越高,因此在很多具有重复运行特性的被控对象中得到了应用[1,2,3]。PID迭代学习控制以其良好的可靠性、鲁棒性已成为迭代学习控制领域中最为常用的控制策略。为了使PID学习律达到更好的控制效果,常将其与其他一些智能控制方法相结合,以期对非线性、不确定的复杂控制系统达到更好的控制效果。模糊控制对解决不确定性高的复杂非线性系统表现出诸多优越之处,因此很多学者将模糊控制和迭代学习控制相结合,以求达到较为理想的控制效果。张航等[4]采用自整定模糊控制器作为迭代学习律,并对单臂机械手进行了仿真研究,取得了较好的控制效果;张丽萍等[5]运用并行分配补偿方法确定T-S模型的迭代学习控制器结构,并给出了误差收敛条件;蒋思中等[6]利用作为模糊控制器的输入,生成PD增益矩阵的调整因子,以达到提高收敛速度的目的。

本文提出一种模糊自适应PID迭代学习控制算法,利用模糊控制器对PID学习律的参数进行实时整定,可以提高系统的控制精度,使控制系统具有较好的稳定性和较强的鲁棒性,同时可以提高系统的收敛速度。

1 问题的提出

考虑如下形式的线性系统:

其中t∈[0,T],x(t)∈Rm为系统的状态,u(t)∈Rn为系统的输入,y(t)∈Rr为系统的输出,A、B、C为适当维数的矩阵。

迭代学习控制是对给定控制系统在时间区间t∈[0,T]内,利用被控对象的期望输出yd(t),通过迭代学习算法寻找优化的控制信号uk(t),使得系统响应yk(t)相对于y0(t)有所改善,寻找uk(t)的过程就是系统学习的过程,且使得当k趋于∞时,满足yk(t)与yd(t)的偏差为零,即系统实现实际输出完全跟踪期望输出[7]。

在第次运行时,系统的动态方程可表示为:

闭环PID型学习律如下:

式中Γ、Φ、Ψ为学习增益矩阵,ek+1(t)为实际输出与期望输出的偏差:

可见PID学习律中的参数是一成不变的,目前所需要的就是寻找到一种方法来对式中Γ、Φ、Ψ三个参数进行实时校正,实现系统的动态学习过程,以提高系统的控制精度和收敛速度。

2 模糊自适应PID迭代学习控制算法

2.1 控制系统基本结构

模糊自适应PID迭代学习控制算法结构如图1所示,控制系统采用闭环学习控制算法,利用传统的经验PID参数作为参考,通过模糊整定单元对经验PID参数进行实时校正,生成精确度更高的模糊PID学习律,提高系统收敛速度,加强抗干扰能力,最终实现系统的完全跟踪,即。

2.2 模糊自适应PID学习律

模糊控制器的输入选用系统输出误差e和输出误差的变化量ec,而模糊控制器的输出则为PID学习律的增益整定量,采用PID学习律时,Kp用于提高系统响应速度,调节系统控制精度,过大则导致系统不稳定,过小则导致系统响应速度缓慢;Ki用于消除系统稳态误差,过大则会导致积分饱和,超调量较大,过小则无法起到相应作用;Kd有助于提高系统的动态性能,模糊控制器生成的整定参数应以此为原则而确定,其控制规则形式如下:

IF ek(t)is E and dek(t)is EC THEN Kpk(t)is Kp。

IF ek(t)is E and dek(t)is EC THEN Kik(t)is Ki。

IF ek(t)is E and dek(t)is EC THEN Kdk(t)is Kd。

定义模糊控制器的输入、输出量的模糊子集均为NB,NM,NS,ZE,PS,PM,PB,即负大,负中,负小,零,正小,正中,正大,其模糊论域均为[-E,E],同时可以建立如表1所示控制规则表:

通过模糊规则对其进行判定,并利用重心法对其进行解模糊处理,以Kp为例,可得模糊控制器输出的的PID参数分别为:

式中μKp为输出量的隶属度函数,Kpq为输出的模糊化变量,Kp为解模糊后的输出量。

由此可以得到模糊PID迭代学习律为:

其中Γ、Φ、Ψ为PID学习律的固定参数。

3 仿真研究

利用仿真对算法的有效性进行验证,选取如下形式LTI系统作为被控对象:

期望跟踪轨迹选用:。各模糊控制器的输入输出论域均选择在[-3,3]范围内,经验PID学习律参数为:Γ=30,Φ=2,Ψ=3。学习周期为T=6s。各变量均采用如图2形式的隶属度函数,其中ZE选用三角形隶属度函数,其余均选择梯形隶属度函数。

控制系统仿真框图如图3所示: