> 文章列表 > 【强化学习】强化学习致命三要素deadly triad

【强化学习】强化学习致命三要素deadly triad

文章列表

【强化学习】强化学习致命三要素deadly triad

强化学习的致命三要素是：

函数近似：利用不同的近似器（如人工神经网络）替代表格型的方法;
自举：通过估计的值来更新估计（如动态规划和TD）;
离轨策略训练：用来进行训练的状态转移分布不是由目标策略产生的。比如动态规划中所做的，遍历整个状态空间并均匀地更新所有状态而不理会目标策略。

如果包含这三个要素，很有可能不稳定性就难以避免，如果只出现两个要素，那么不稳定性就是有可能避免的。

为什么包含这三个要素就不稳定？

这个问题原因没有一个确定的答案，但是有一些可能的解释。

函数近似会引入误差，导致估计值偏离真实值，从而影响学习的效果。
自举会使得估计值依赖于其他的估计值，从而产生不一致性和震荡。
离策略训练会使得目标策略和行为策略不匹配，从而导致重要性采样比例的变化和方差的增大。

当这三个因素同时出现时，系统就存在收敛性问题，我们称之为死亡三角。