余弦衰减学习率与linear warmup结合版代码

文章列表

以下代码摘自tensorflow官方tpu仓库

def cosine_learning_rate_with_linear_warmup(global_step,init_learning_rate,warmup_learning_rate,warmup_steps,total_steps):"""Creates the cosine learning rate tensor with linear warmup."""global_step = tf.cast(global_step, dtype=tf.float32)linear_warmup = (warmup_learning_rate + global_step / warmup_steps *(init_learning_rate - warmup_learning_rate))cosine_learning_rate = (init_learning_rate * (tf.cos(np.pi * (global_step - warmup_steps) / (total_steps - warmup_steps))+ 1.0) / 2.0)learning_rate = tf.where(global_step < warmup_steps,linear_warmup, cosine_learning_rate)return learning_rate

五个参数的含义，直接看图吧，代码瞅一眼也简单
余弦衰减学习率与linear warmup结合版代码
在 warmup阶段，学习率从 warmup_learning_rate 变为 init_learning_rate，该阶段中学习率是线性递增或递减的

在余弦衰减阶段，学习率是这样衰减的：

$lr=cos(gl−wt−wπ)+12∗init_learning_ratelr = \\frac{ cos \\left ( \\frac{gl-w} {t-w} \\pi \\right ) + 1 }{ 2 } * init\\_learning\\_rate$

$cos$ 中的变量：

$g l$ 是 $global\\_step$
$w$ 是 $warmup\\_steps$
$t$ 是 $total\\_step$

衰减曲线如下图蓝色框中的部分所示：
余弦衰减学习率与linear warmup结合版代码
下降程度先逐渐加快，之后逐渐变慢，收敛到一个很小的值

余弦衰减学习率与linear warmup结合版代码

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

余弦衰减学习率与linear warmup结合版代码

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签