强化模型

2024-09-11

强化模型（共3篇）

强化模型篇1

摘要：强化学习是机器学习的一个重要分支, 其优点是不需要先验知识, 通过与环境的交互进行试错学习。与有导师学习不同, 强化学习没有得到确定的目标值而是一个奖赏值。本文介绍了强化学习的模型和一些常用算法, 并将强化学习的方法应用在避障问题上。

关键词：强化学习,马尔科夫决策,避障

1 概述

强化学习 (Reinforcement Learning, RL) 是近几年来人工智能和机器学习研究的热点。不同于监督学习, 强化学习强调与环境的交互并在其中进行学习, 用极大化的从环境获得的评价性反馈信号为学习目标, 所以强化学习在求解那种无法获得教师信号的复杂优化决策问题中具有广泛的应用[1,2]。

强化学习是机器学习的一个重要分支。强化学习通过对环境的反复试探, 从中学习环境到可执行动作的最优反应式策略, 以期获得最大回报。相比于其它学习策略, 强化学习的明显优势在于它对先验知识的是否完备几乎没有要求, 即使在信息完全未知的情况下, 强化学习仍然具有较好的自适应性和鲁棒性[3]。

传统的强化学习方法主要针对的是离散状态和行为空间的马尔科夫决策过程, 也就是状态的值函数或行为的值函数采用了表格的形式来进行存储和迭代计算。但是实际工程应用中的许多优化决策问题是具有大规模或连续的状态或行为空间的情况, 所以表格型强化学习算法也同动态规划法一样存在维数灾难。为了克服维数灾难, 以实现对连续性状态或行为空间的马尔科夫决策过程的最优值函数和最优策略的逼近, 我们就必须研究强化学习的泛化问题或推广问题, 也就是利用有限的学习经验和记忆以实现对一个大范围空间的有效知识获取和表示的方法。

2 强化学习模型和马尔科夫决策过程 (Markov decision process, MDPs)

2.1 强化学习模型

强化学习系统的基本要素包括:状态集合S、控制行为集合A、控制策略、强化信号R和状态评价函数V (s) [4]。

强化学习要研究解决的问题是:一个能够感知外部环境的自治智能体 (Agent) , 通过学习选择能够到达目标任务的最优动作, 即强化学习Agent的任务就是学习从环境到动作的映射[26]。强化学习跟连接主义学习中的监督学习的区别主要表现在不存在教师信号上, 强化学习中的由环境提供的强化信号是对Agent所产生动作的好坏作出一种评价 ( 通常为标量信号) , 而不是直接告诉Agent如何去产生确定性的动作。由于外部环境提供了很少的信息, Agent必须靠自身的探索进行学习, 通过这种方式Agent在行动- 评价的环境中获得知识、改进行动方案以适应环境。

强化学习具有以下特征:

Agent不是静止的、被动的等待, 而是主动对环境做出试探;

环境对试探动作反馈的信息是评价性的 (好或者坏) ;

Agent在行动-评价的环境中获得知识, 改进行动方案以适应环境, 达到预期目的。

标准的Agent强化学习框架如图1 所示, Agent通过感知和动作与环境交互。在Agent与环境每一次的交互过程中, 强化学习Agent接收环境状态的输入s, 根据内部的运算机制, 输出相应的行为动作a。环境在动作a的作用下, 转移到新的状态s’, 与此同时产生一个强化信号 ( 立即回报) r ( 奖励或惩罚) 返回给Agent, Agent根据环境状态和强化信号选择下一个动作, 选择的原则是使Agent获得最大的回报值。选择的动作不仅影响立即回报值, 而且影响下一时刻的状态及最终时刻的强化值。在学习过程中, 强化学习技术的基本原理是:如果系统的某个动作导致环境正的回报, 那么系统以后产生这个动作的趋势就会加强, 反之系统产生这个动作的趋势便会减弱。这和生理学中的条件反射原理是接近的。

2.2 马尔科夫决策过程 (Markov decision process, MDPs)

大多数关于强化学习方法的研究都是建立在马尔科夫决策过程理论框架之上的, 尽管强化学习方法并不局限于马尔科夫决策过程, 但离散的、有限状态的Markov决策过程框架是强化学习算法的基础。

马尔科夫决策过程起源于随机优化控制, 是一个离散时间的随机过程, 由六元组{S, A, D, P, r, J} 来描述。六元组中, S为有限的环境状态空间;A为有限的系统动作空间;D为初始状态概率分布, 当初始状态是确定的, D在该初始状态下的概率为1, 当初始状态是以相等的概率从所有状态中选择时, 则D可以忽略; P (s, a, s') ∈[0, 1] 为状态转移概率, 表在状态s下选择动作a后使环境状态转移到s’的概率; r (s, a, s') : S ´A´S →R为学习系统从状态s执行动作a转移到状态s’后获得的立即回报 ( 奖赏) , 是一种“近视”的表达信号;J为决策优化目标函数。马氏决策过程的特点是目前状态s向下一个状态s’转移的概率和回报只取决于当前状态s和选择的动作a, 而与历史状态无关, 因此MDP的转移概率P和立即回报r也只取决于当前状态和选择的动作, 与历史状态和历史动作无关。若转移概率函数P (s, a, s') 和回报函数r (s, a, s') 与决策时间t无关, 即不随时间t的变化而变化, 则MDP称为平稳MDP。

2.3 累积奖赏模型 (3 种)

MDP的决策优化目标函数J一般分为3 种类型, 即有限阶段总回报目标、无限折扣总回报目标和平均回报目标。

有限阶段总回报目标为

式中, rt为t时刻得到的立即回报;N表示智能体的生命长度, 即马尔科夫链的长度。在多数情况下, 智能体学习的生命长度是未知的, 且当N → ∞ 时, 函数可能会发散。因此, 有限阶段总回报目标很少考虑。

无限折扣总回报目标为

平均回报目标为

式 (2) 中, γ∈ (0, 1]为折扣因子, 用于权衡立即回报和将来长期回报之间的重要性。对比式 (2) 与式 (3) 可知:平均回报是折扣回报的一个特例, 当折扣因子为1 时, 这两种目标函数等价。折扣回报目标函数和平均回报目标函数在强化学习研究中均得到广泛应用, 但不同形式的优化目标函数将产生不同的优化结果。Mahadevan对折扣回报和平均回报两种目标函数的性能差异进行深入分析, 指出折扣总回报目标函数可以在性能方面近似于平均回报目标。

3 强化学习基本算法

强化学习主要算法有动态规划法 (Dynamic Programming, DP) , 蒙特卡洛法 (Monte Carlo, MC) 和时序差分法 (Temporal Difference, TD) 和Q学习 (Q-learning) 等。

3.1 动态规划法

动态规划法是一种基于模型的策略寻优方法。这种方法将动态系统的状态和值函数的概念用于定义函数方程 ( 现在通常称为Bellman方程) 。这类通过求解Bellman方程来解决最优控制问题的方法被称为动态规划。

动态规划在过去的几十年中已经取得了极大的发展, 被广泛地认为是求解一般随机最优控制问题的唯一切实可行的方法。但是, 动态规划存在所谓的维数灾难问题, 也就是说, 动态规划的计算量需求随着状态变量数目的增加而呈指数级增长。但是相比于其他方法, 动态规划仍然是一个非常有效且应用广泛的方法。动态规划与强化学习密切相关, 对于马尔科夫决策问题, 前者主要解决环境的状态转移概率和回报函数已知的决策问题, 而后者主要处理状态转移概率和回报函数未知的情形。

3.2 蒙特卡罗法

在概率和统计理论中, 蒙特卡罗 (Monte carlo, MC) 方法是一种用部分估计整体利用随机数来解决问题的方法, 通过统计模拟或抽样方式以获得问题的近似解。将MC引入强化学习中, 就得到一种无模型的学习方法。此方法不需环境的先验模型, 只需要通过与环境的交互来获得的实际或模拟样本数据 (状态、动作、奖赏) 序列, 从而去发现最优策略。MC方法与策略迭代原理类似, 分为MC策略评估和MC策略控制两部分, MC方法主要用在策略评估中。

本质上讲, MC方法就是基于平均化样本回报值来求解值函数的方法, 从而解决强化学习问题。为了确保良好的定义回报值, MC算法定义为完全抽样的即所有的抽样点必须最终终止只有当一个抽样点结束, 估计值和策略才会改变。因此该方法只适合于场景式任务, 即任务存在终止状态, 任何策略都在有限步内以概率1 到达终止状态。

3.3 时序差分法

1988 年, Sutton等人提出了一种用于解决时间信度分配问题的方法:时间差分方法TD, 而强化学习中所用的主要方法都是基于TD的。TD学习方法结合了蒙特卡罗和动态规划两种方法的思想, 不需要系统模型, 这样能够直接从学习者的原始经验开始。与动态规划方法一样, TD方法通过预测每个动作的长期结果来给先前的动作赋予奖励或惩罚, 即依赖于后续状态的值函数来更新先前状态值函数, 主要应用于预测问题。

3.4 Q- 学习

Q- 学习是由Watkins提出的一种模型无关的强化学习算法。Q- 学习在迭代时采用状态- 动作对的奖赏值和Q* (s, a) 作为估计函数, 而不是TD算法中的状态奖赏和V (s) , 因此在每一次学习迭代过程中都需要考察每一个行为, 可确保学习过程收敛。

Q函数定义及Q值的调整方法如下:

式中: at------- 学习率, 控制学习速度, γ -------- 折扣系数,

4 基于Q学习的避障应用

良好的学习性能使得强化学习在实际中获得越来越广泛的应用, 应用领域有各种任务调度、机器人控制和游戏等等。本文简单介绍基于Q学习的避障应用。

避障环境采用20X20 栅格, 模拟Agent从左下角出发点出发, 通过基于Q学习算法的动作选择到达目标点设定在 (19, 15) , 在过程中要避开随机放置的障碍物, 并且动作过程中不能离开栅格边界。模型将Agent的坐标作为Q学习中的状态参数, 在每一个栅格, Agent只有上、下、左、右四个动作空间。回报函数如下:

Q初始值设为0。

MATLAB仿真结果如图2。

仿真结果表明Q学习算法能够收敛并成功实现避障达到目标点。

5 结束语

强化学习是一种很有前途的学习方法, 已经引起越来越多学者的研究兴趣。近年来呈现了大量的研究成果, 但是仍然有许多亟待解决的问题, 例如算法的收敛速度问题与维度灾难问题。尽管强化学习发展道路上充满困难与挑战, 但是其前景广阔, 是未来的趋势。

强化模型篇2

关键词：多蚁协作,后悔值,关联强化学习

1 引言

蚁群算法属于智能算法, 一直被不断地改进, 被应用于多个领域[18,19,21]。但随着问题复杂化, 蚁群算法以及自适应蚁群算法都已经不能满足问题需求, 在解决大规模问题时容易出现停滞现象, 计算时间长[4], 而多蚁协作算法能够更加有效地解决这类问题, 更节省内存空间, 逐渐地, 多蚁协作算法得到越来越多的关注[6,8,17], 并成功应用于混合车辆路径问题[1], 本体模型[20]和聚类[2]、化学过程的优化问题[3]中。

用图论来描述旅行商问题如下:G= (C, L) 为完全混合无向图, 由城市所在处C={c1, c2, …, cn}组成, L={lij}表示任意两个地点ci和cj之间的距离, τij表示弧 (i, j) 上信息素的量。ρ为信息素蒸发系数。自适应蚁群算法的转移矩阵为[9]:

$Ρ_{i j}^{k} (t) = {\begin{matrix} \frac{τ_{i j}^{α} (t) η_{i j}^{β} (t)}{\sum_{s \in a l l o w e d} τ_{i s}^{α} (t) η_{i s}^{β} (t)}, & j \in a l l o w e d_{k} \\ 0, & 其他 \end{matrix} (1)$

蚁群算法在协作时通常只对过去走过的路径感兴趣, 这体现在信息素的更新, 一个动作对将来的影响几乎没有考虑, 当遇到大规模路径优化问题时, 运行时间过长, 甚至导致不能找到最优解。因此, 在多蚁协作中加入后悔值[14,15]:“若B选择了动作bj, 则A选择行为ai的后悔值regbj (ai) 为bj下A的最大报酬函数与当前行为ai报酬的差。在已知B的策略时, 我们称Agent A的最优策略为最佳响应策略[6]”, 尽可能减少现在动作对整体解的坏影响。

蚁群算法中每只蚂蚁都具有一定的对信息素的智能判断, 但除此之外, 蚂蚁不能进行其它的互动操作, 引入分布式多智能体的思想, 运用至自适应蚁群算法中, 使蚁群算法进一步智能化。

2 基于后悔值的多蚁协作关联强化学习模型

多蚁协作算法的协作是为了最大化累计报酬的目标与单个蚂蚁最大化累计报酬目标达到一致。多数情况下, 每只蚂蚁的行为根据一定的策略而定的, 在某个状态下, 采用的行为服从一定得随机概率分布。依据观察和先验知识可以确定部分蚂蚁的策略以及概略分布。在学习过程中, 通过对其它蚂蚁的行为进行观察并统计, 进而学习其它蚂蚁的策略, 同时获得该策略的报酬函数。

2.1 模型描述

基于马尔可夫模型 (MDP) , 设存在四元组 (S, A, T, R) , 其中S是状态集, A为行为集, T:S×A→Pr (S) 为状态转移函数, R:S×A→R为报酬函数。按照策略π:S→A获得折扣期望报酬和 $E (\sum_{j = 0}^{\infty} γ^{j} r_{t + j})$ , 其中γ为折扣因子并满足0≤γ<1, 表示当前回报和未来回报的选择率。目标是按照最优策略π*获得最大的期望报酬和。

(1) 协作学习

Q学习算法的Q值表达式Qt+1 (s, a) ← (1-α) Qt (s, a) +α[rt+γVt (s′, a′) ]中的参数α为智能体之间的学习率, 它的大小取舍反应了对现在时刻的Q值和将来所得折扣期望报酬的取舍程度。

在蚁群算法中蚂蚁根据路段上的信息素多少来判断该走那条路, 信息素的重要性表明了蚁群算法中对过去动作的结果更为在乎, 而对现在动作对将来的影响未提及。假设第k只蚂蚁经过有向弧 (i, j) 之前有Rk只蚂蚁经过了i点, 其中有rk只蚂蚁选择了弧 (i, j) , rk/Rk既反应了路段上信息素的大小, 又得到了其它蚂蚁在面对该路段时的信息。因此, 综合改进Q学习的思想, 得到Q函数的更新规则如下:

$Q (i, j, k) = Q (1 - \frac{r_{k}}{R_{k}}) + \frac{r_{k}}{R_{k}} [R (i, j, k) + γ m a x Q_{k} (i, j)] (5)$

(2) 基于后悔值的最优决策

蚂蚁在应该最小化最坏情况下的后悔值, 以免将来遭受更大的损失。一个理性的蚂蚁希望此刻的行为是最不后悔的, 后悔值尽可能的小, 尽可能公平的完成自己的任务。蚂蚁完成任务越快得到的报酬也越多, 当遇到最坏的情况时使后悔值最小。

在蚁群算法中蚂蚁是通过概略Ps (i, j) 来决定是否走这条路线, 为了将信息素引入决策中, 令πs (i, j) =Ps (i, j) , 其中Ps (i, j) 满足式 (1) , Q (i, j, k) 满足式 (5) , 得到蚂蚁k的最优策略为:

$\begin{array}{l} π_{k}^{*} (i, j) = \arg \min \max {Ρ_{s} (i, j) \sum_{s \in A_{i}} π_{s} (i, j) \\ \cdot [\max_{s \neq k} Q (i, j, k) - Q (i, j, s)]} \end{array}$

2.2 算法实现

基于马尔可夫模型 (N, S, A, T, R) , 各符号的含义不变。

(1) 初始化:

参数设置:n (城市规模) , m (蚂蚁数量) , γ, α, β, ρ, 初始Q值, η={ηij};

确保初始化时所有城市具有相同的转移策略π*k (i, j)

(2) 行为选择

根据最优策略π*k (i, j) 选择下一个城市;

假如城市j属于蚂蚁k没有访问的城市

则 $Ρ_{i j}^{k} (t) = \frac{τ_{i j}^{α} (t) η_{i j}^{β} (t)}{\sum_{s \in a l l o w e d} τ_{i s}^{α} (t) η_{i s}^{β} (t)};$

假如城市j属于蚂蚁k已经访问过的城市

则Pkij (t) =0, 跳转到 (2) 重新选择下一个城市

(3) 学习

如果Pkij (t) ≠0

则更新函数Q:

$Q (i, j, k) = Q (1 - \frac{r_{k}}{R_{k}}) + \frac{r_{k}}{R_{k}} [R (i, j, k) + γ m a x Q_{k} (i, j)]$

更新转移策略:

$\begin{array}{l} π_{k}^{*} (i, j) = \arg \min \max {Ρ_{s} (i, j) \sum_{s \in A_{i}} π_{s} (i, j) \\ \cdot [\max_{s \neq k} Q (i, j, k) - Q (i, j, s)]} \end{array}$

(4) 信息素更新

更新信息素Δτkij=Q (i, j, k) (蚂蚁k从城市i转移到城市j)

如果所有的城市都被访问了, 则停止此次迭代;

如果还有城市未被访问, 则跳转到 (2) 。

3 仿真结果分析

为了验证基于后悔值的多蚁协作关联强化学习模型的有效性, 本文对旅行商问题城市数量为500和16时, 自适应蚁群算法和多蚁协作算法分别找出最优的路径所耗费的CPU时间, 得到的最优路径以及平均路径做了仿真实验, 并进行分析。

仿真时设 $η_{i j} = \frac{1}{l_{i j}} ‚ L = l_{i j}$ 矩阵为随机产生城市坐标计算所得的斜对称矩阵, 且正对角线上的所有元素为0, 也就表示为该城市与自身的距离为0。多蚁协作算法的相关参数设定如下:γ=0.8, α=0.6, β=0.5, Q=0.2, ρ=0.3。

3.1 城市数量为500

随机产生一个500×2矩阵, 第一列为500个城市位置的横坐标, 第二列为500个城市位置的纵坐标。蚂蚁数为10。

对每种算法都进行了20次仿真实验, 其具体仿真结果如下:

(1) 仿真图对比

(2) 仿真结果分析

从仿真结果看, 城市数量大时, 多蚁协作算法的迭代次数更少, 找到最优解的速度更快, 也能够得到更优的解。

收敛性是判断算法是否优良的判据之一, 算法的可收敛性是迭代算法有效性的重要前提条件之一, 收敛速度增快, 能更有效地节省运作时间。从仿真图上看, 自适应蚁群算法容易陷入局部最优, 收敛速度较慢。多蚁协作算法能够更快的收敛到最优解, 随着Q学习的过程的完成, 全局解趋于稳定。

3.2 城市数量为16

随机产生一个16×2矩阵, 第一列为16个城市所在位置的横坐标, 第二列为16个城市所在位置的纵坐标。蚂蚁数为5。

对每种算法都进行了20次仿真实验, 其具体仿真结果如下:

(1) 仿真图对比

(2) 仿真结果分析

从仿真结果上看, 当城市数量很少时, 两种算法的最优解相差不到, 多蚁协作虽然得到了最优的解, 但效果不是很明显。从CPU时间上看, 自适应蚁群算法和多蚁协作的CPU运行时间也差距不大。从而说明多蚁协作在大规模路径优化问题的求解上更突显优势。

从仿真图上看, 多蚁协作的收敛度更优, 它能较快的找到最短距离, 并在短时间趋于稳定, 鲁棒性更优良。

4 总结

随着解决规模的增大, 自适应蚁群算法容易陷入局部最优解, 其求解时间长, 不能找到全局最优解。本文采用关联强化学习的优点来弥补自适应蚁群算法的弊端, 并做了大量的仿真, 对自适应蚁群算法和多蚁协作算法进行对比, 从仿真结果上看, 多蚁协作算法提高了效率, 缩短了运行时间, 得到了更优化的解。随着城市数量的增加, 多蚁协作算法的CPU运行时间优势更加明显。加入后悔值的概念, 减少了蚂蚁此时动作对将来解的坏影响, 能从全局的角度上得到更优的行走路线。

强化模型篇3

近年来随着柴油机不断地向高强化方向发展, 对缸盖等承受高热流密度的关键零部件冷却结构的设计与评估显得格外重要。理论和试验研究均表明:随着缸盖水腔壁面过热度的增加, 水腔内会发生过冷流动沸腾传热现象。这种传热方式会在较小的温差下产生较大的传热系数, 因而在未来发展紧凑型柴油机方面有着重要的应用前景[1]。

文献[2]首先提出了过冷流动沸腾传热模型, 文献[3]在其基础上提出了应用更为广泛的过冷沸腾传热模型, 文献[4]则在过冷沸腾传热模型基础上提出了考虑流动对泡核沸腾抑制作用的BDL模型。上述三个模型均采用了叠加建模方法, 即将总传热量分为强制对流和泡核沸腾两部分, 根据不同的传热机理分别建立各自的传热模型, 再叠加求解总传热量。这种建模方法简便, 有利于分析沸腾传热的各种影响因素。

随着数值仿真技术的持续发展, 越来越多的研发人员更倾向于采用CFD方法研究沸腾传热这种涉及多相流传热、传质的复杂物理过程。基于大部分商用CFD软件没有提供适用于柴油机冷却系统的多相流传热模型, 使得实际工程应用中缸盖水腔内的流动和传热计算仍以单相对流传热为主, 从而降低了缸盖热负荷数值仿真分析的准确性和可靠性。目前用于沸腾两相流过程的数值方法主要有VOF法[5]、Level Set法[6]、格子-波尔兹曼法[7]等, 其中VOF方法在研究沸腾气泡的生长、脱离和破碎过程具有一定的优势。为此, 本文中将基于VOF两相流方法, 建立了适用于缸盖水腔内过冷流动沸腾传热过程的数值模型, 并根据试验数据验证模型的可靠性。

1 理论模型

本文中基于VOF方法建立过冷沸腾传热的两相流模型。蒸气相和液体相均被视为不可压缩流体, 气、液两相均处于湍流流动状态。

1.1 控制方程

1.1.1 相含率方程

在VOF模型中, 气、液相的体积分率存在如下关系。

式中, αL、αV分别为液、气两相的体积分率。当αL=0或αL=1时, 表示计算网格内的液相含量为空或全充满;当αL=0~1时, 表示该计算网格内包含相界面。通过计算各相体积分率连续方程 (2) 和方程 (3) , 实现对相界面的追踪。

式中, M为液体沸腾或气泡冷凝产生的质量源项, kg/ (m3·s) ;ρL、ρV分别为液、气两相的密度, kg/m3;t为时间, s;υ为速度矢量, m/s。

1.1.2 动量守恒方程

式中, p为压力, Pa;ρ为气、液相体积平均密度, kg/m3;μ为气、液相体积平均黏度, kg/ (m·s) ;g为重力加速度, m/s2;I为单位张量;Fσ为体积表面张力动量源项, 采用连续表面力 (continuum surface force, CSF) 模型[8]计算, N/m3。

1.1.3 能量守恒方程

式中, Q为沸腾或冷凝相变引起的能量源项, W/m3;T为温度, K;λ为气、液体平均热导率, W/ (m·K) ;E为气、液两相质量平均能量值, J/kg。E由式 (6) ~式 (8) 定义。

式中, EL、EV分别为液、气相的质量能量值, J/kg;CV, L和CV, V分别为液相和气相的等容热容, J/ (kg·K) 。

1.2 壁面传热模型

影响沸腾的因素有很多, 至今仍没有严格意义上的数学模型可以描述沸腾现象。为此, 研发人员提出了许多经验或半经验关联模型来描述沸腾传热机理。其中, 文献[2]提出的过冷流动沸腾模型假定总的壁面传热量由两部分组成, 即

式中, qc、qb分别为强制对流传热量和泡核沸腾传热量, W/m2。qc、qb分别由式 (10) 、式 (11) 定义。

式中, μL为液相体积黏度, kg/ (m·s) ;TW、TL分别为壁面和液体温度, K;CpL为液相等压热容, J/ (kg·K) ;Tsat为液相饱和温度, K;rlat为汽化潜热, J/kg;PrL为液相普朗特数;n和Cqw为经验常数, 当液相为水、固体壁面为灰铸铁时, n=1, Cqw=0.08;hc为对流传热系数, W/ (m2·K) , 可由式 (12) 得到。

式中, ReL为液相雷诺数;λL为液体热导率, W/ (m·K) ;De为等效直径, m。

1.3 源项

1.3.1 质量源项

在建立过冷流动沸腾数值仿真模型中, 考虑了过热壁面处的气泡蒸发和过冷液体中的气泡冷凝破碎引起的热量和质量传递过程。一旦气泡从过热壁面脱离, 将被包围在过冷液体中。假定气泡内部和相界面均处于饱和状态, 则相界面处的冷凝速率MC可用式 (13) 表示。

式中, hi为相界面传热系数, W/ (m2·K) , 由式 (14) [9]计算得到;Ab为单位体积相界面积, m2/m3, 可由式 (15) 得到。

式中, Nub为气泡努塞尔数;Db为气泡直径, 根据式 (16) [10]预测, m。

式中, ΔTsub为液体的过冷度, K。

过热壁面附近的蒸发引起的质量源项ME可以根据沸腾传热量计算得到, 如式 (17) 所示。

式中, AW, i为第i个近壁单元的加热面积, m2;Vi为第i个近壁单元的单元体积, m3。

当计算过冷液体单元或过热近壁单元中的质量源项M时, 可以分别用MC或ME代替。

1.3.2 能量源项

根据质量源项, 可得到相变引起的能量变化, 如式 (18) 所示。

1.3.3 动量源项

界面动量传递包括曳力、升力、虚拟质量力和湍动漂移力, 这些源项模型可以参见文献[11], 在此不再赘述。

采用UDF代码将上述源项嵌入到FLUENT软件中, 用以完整描述过冷流动沸腾传热现象。

2 模型验证

缸盖火力面最大温度往往出现在气门间的鼻梁区。为此, 选择与此类似的T型管结构作为模型的验证对象, 并与文献[12]中的试验结果进行对比。

图1为T型管结构及尺寸。其中, 数值单位为mm。为了消除进出口结构对流动的影响, 选定管长为2m, 加热面选在靠近出口1/3管长的底面, 加热面积为40mm×8mm。

仿真条件与文献[12]的试验条件相一致, 具体数据见表1。该条件与缸盖鼻梁区实际操作条件近似。

图2为不同条件下的试验和仿真过冷沸腾曲线。由图2可见, 模型仿真结果与试验值有相同的趋势, 壁面过热度越高则二者的吻合程度越高;平均相对误差在13%左右, 在高壁面过热度下二者误差低于5%。该仿真精度可满足工程应用需要, 同时也验证了本文中提出的基于VOF两相流过冷沸腾CFD仿真模型的可靠性。

3 工程应用案例

3.1 缸盖几何模型

选定某6V型四气门柴油机单缸缸盖作为工程应用案例, 如图3所示。考虑到缸盖与冷却介质之间为共轭传热过程, 同时建立了缸盖固体和水腔流体结构, 进行热-流耦合计算。采用非结构化六面体网格划分模型, 网格总数约为65万。

3.2 边界条件

边界条件:冷却介质为纯水, 进口温度为353K, 进口质量流量约为1.05kg/s, 出口压力表压为0.132MPa。

缸盖热边界包括火力面、进排气道壁面及缸盖与空气接触的其他壁面, 这三种边界都采用第三类换热条件, 即给定壁面环境温度和传热系数, 其中火力面各部位的热负荷差别较大。为此, 本文中将火力面分成图4所示的10个区域, 分别给定各个区域的局部环境温度Tgj和局部传热系数hgj。

采用工作过程仿真计算得到缸内瞬时燃气温度Tg和瞬时传热系数hg, 再由式 (19) 、式 (20) 计算缸内当量循环平均燃气温度Tmg和循环平均传热系数hmg。

基于缸内局部温度与总体平均温度差别不大, 则假定Tgj=Tmg。局部传热系数hgj与平均传热系数hmg有如下关系[13]:

式中, Sj、S分别为各分区面积和燃烧室火力面的总表面积, m2。对式 (21) 进行变化得到式 (22) 。

式中, lj为形状系数, lj=Sj/S (j=1, 2, …, 10) 。分区确定后, lj即为常数, 只需确定各区域的位置系数hgj/hmg。

缸盖进、排气道及其他壁面热边界条件见表2。其中, 环境温度根据进、排气平均温度和缸盖周围的空气温度确定;传热系数根据经验确定。

3.3 结果与讨论

图5为火力面上八个测温点位置[14]。表3为各点试验值与CFD模型仿真值。为了考察VOF多相流模型的可靠性, 表中还列出采用单相流模型[13]计算得到的温度值。

对比结果显示:采用本文模型得到的温度值与试验结果吻合得较好, 而采用单相流模型计算得到的温度值, 在各个取样点均比试验值和本文模型值高20K左右, 这一点也清晰地体现在缸盖火力面温度中。此外, 相对误差结果显示:单相流模型误差较大, 本文模型的相对误差平均值仅为1.23%。单相流模型误差较大的主要原因在于未考虑沸腾相变引起的传热量, 进而高估了火力面高热负荷区域的温度。在某种程度上, 沸腾相变产生的传热量远远高于对流传热量, 特别是对于高强化柴油机, 在高热负荷区域产生的沸腾传热甚至起到主要传热作用, 因此采用考虑沸腾相变的多相流传热模型预测缸盖的传热过程十分必要。

图6和图7分别对比了VOF两相流模型和单相流模型得到的缸盖和水腔内表面温度场分布。对比结果显示:采用两相流模型获得的缸盖火力面和水腔内侧最高温度分别比单相流模型低26K和33K。此外, 缸盖最高温度出现在火力面两排气门之间鼻梁区, 已经超过了主体材料的许用温度 (铸铁材料623~673K) , 这可能对缸盖实际运行安全性和可靠性造成一定影响。水腔内表面高温区出现在两排气门之间鼻梁区和排气门1与进气门1之间鼻梁区, 这些区域的温度均已经超过冷却液的饱和温度, 会产生局部沸腾。

图8为缸盖水腔内的蒸气相含率分布。由图8可见, 缸盖内大部分区域仍处于单相流状态, 即传热方式以对流传热为主, 只有在图7所示的两处高温区出现了局部沸腾现象, 最大相含率为0.369。基于沸腾发生区域的冷却液流速均在0.5m/s以上, 沸腾气泡很容易被带走, 因此不会造成局部气滞现象。控制局部沸腾的程度非常重要, 如果这些部位的热负荷继续增加, 在高温区形成膜状沸腾, 则会造成局部温度急剧上升, 反而会削弱了沸腾强化传热的优势。考察缸盖水腔内的相含率分布状态是分析缸盖过冷沸腾强化传热效果的一个重要考察因素。

4 结论

(1) 提出了适用于高强化柴油机缸盖传热分析的VOF两相流过冷沸腾仿真模型。假定壁面传热量由强制对流传热和泡核沸腾传热两部分组成, 以此为据建立了过冷沸腾传热过程的传热、传质源项, 并采用UDF代码将其嵌入到FLUENT软件中。采用T型管传热试验对上述模型进行了验证, 结果表明热流密度的平均相对误差在13%左右, 特别是在高壁面过热度下该模型的平均相对误差能够控制在5%以内。模型能够满足工程预测的精度要求。

【强化模型】推荐阅读：

强化疗法07-21

强化方案01-20

自我强化05-16

对比强化05-18

强化国有05-19

强化采油06-13

强化两头06-14

强化主体06-16

强化考核06-21

强化效能06-22

>> 查看更多相关文档