> 文章列表 > 【强化学习】强化学习致命三要素deadly triad

【强化学习】强化学习致命三要素deadly triad

【强化学习】强化学习致命三要素deadly triad

强化学习的致命三要素是:

  • 函数近似:利用不同的近似器(如人工神经网络)替代表格型的方法;
  • 自举:通过估计的值来更新估计(如动态规划和TD);
  • 离轨策略训练:用来进行训练的状态转移分布不是由目标策略产生的。比如动态规划中所做的,遍历整个状态空间并均匀地更新所有状态而不理会目标策略。

如果包含这三个要素,很有可能不稳定性就难以避免,如果只出现两个要素,那么不稳定性就是有可能避免的。

为什么包含这三个要素就不稳定?

这个问题原因没有一个确定的答案,但是有一些可能的解释。

  • 函数近似会引入误差,导致估计值偏离真实值,从而影响学习的效果。
  • 自举会使得估计值依赖于其他的估计值,从而产生不一致性和震荡。
  • 离策略训练会使得目标策略和行为策略不匹配,从而导致重要性采样比例的变化和方差的增大。

当这三个因素同时出现时,系统就存在收敛性问题,我们称之为死亡三角。