【强化学习】强化学习致命三要素deadly triad
强化学习的致命三要素是:
- 函数近似:利用不同的近似器(如人工神经网络)替代表格型的方法;
- 自举:通过估计的值来更新估计(如动态规划和TD);
- 离轨策略训练:用来进行训练的状态转移分布不是由目标策略产生的。比如动态规划中所做的,遍历整个状态空间并均匀地更新所有状态而不理会目标策略。
如果包含这三个要素,很有可能不稳定性就难以避免,如果只出现两个要素,那么不稳定性就是有可能避免的。
为什么包含这三个要素就不稳定?
这个问题原因没有一个确定的答案,但是有一些可能的解释。
- 函数近似会引入误差,导致估计值偏离真实值,从而影响学习的效果。
- 自举会使得估计值依赖于其他的估计值,从而产生不一致性和震荡。
- 离策略训练会使得目标策略和行为策略不匹配,从而导致重要性采样比例的变化和方差的增大。
当这三个因素同时出现时,系统就存在收敛性问题,我们称之为死亡三角。