本系列文章主要是我在学习《数值优化》过程中的一些笔记和相关思考,主要的学习资料是深蓝学院的课程《机器人中的数值优化》和高立编著的《数值最...
1 optimizer类实例 1.1 介绍 属性 【default】该实例的类型为 dict,元素为初始化时候的学习率等,具体的keys为 ['lr','mom...
文章目录 深度学习中的优化器 介绍 随机梯度下降优化器 Adam 优化器 Adagrad 优化器 如何选择优化器 结论 深度学习中的优化器 介绍 在深度学习...
不可导凸函数的最优解搜索问题 文章目录 不可导凸函数的最优解搜索问题 1. 次梯度下降方法 1.1 基于次梯度的 Lasso 回归求解 1.2 次梯度求解 Lasso 算...
由于最近训练transformer,在单卡上显存不够,另外一块卡上也无法加载,故尝试使用双卡并行的策略。将基本的流程、遇见的难题汇总在这里...
函数 f ( x ) , x ∈ R n f(\\boldsymbol{x}),\\boldsymbol{x}\\in\\text{ℝ}^n f(x),x∈Rn的梯度 ∇ f ( x ) = ( ∂ f ∂ x 1 ∂ f ∂ x 2 ⋮ ∂ f ∂ x n ) \\n...
ch05-学习率调整策略、可视化与Hook 0.引言 1.学习率调整策略 1.1.为什么要调整学习率? 1.2.Pytorch提供的六种学习率调整策略 1.3.学习率调整...
1. 梯度下降 我们可以用一种更系统的方法,来找到一组w,b,使成本函数的值最小。这个方法叫梯度下降算法,它可用于最小化任何函...
1.什么是GBDT算法 GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,又叫 MART(Multiple Addit...