Logistic回归和Softmax回归引入$L_2$正则化后的梯度下降过程

文章列表

Logistic回归和Softmax回归引入L2正则化后的梯度下降过程

Logistic回归引入 $L_2$ 正则化后的梯度下降过程
Softmax回归引入 $L_2$ 正则化后的梯度下降过程

Logistic回归引入 $L_2$ 正则化后的梯度下降过程

Logistic回归是一种用于分类问题的机器学习算法。在引入 $L_2$ 正则化后，Logistic回归的目标函数为：

$J(w)=−1m∑i=1m[y(i)log(hw(x(i)))+(1−y(i))log(1−hw(x(i)))]+λ2m∑j=1nwj2=−1m∑i=1m[y(i)log(σ(wTx(i)))+(1−y(i))log(1−σ(wTx(i))))]+λ2m∑j=1nwj2\\begin{aligned} J(w) &= -\\frac{1}{m}\\sum_{i=1}^{m}[y^{(i)}log(h_w(x^{(i)})) + (1-y^{(i)})log(1-h_w(x^{(i)}))] + \\frac{\\lambda}{2m}\\sum_{j=1}^n w_j^2 \\\\ &= -\\frac{1}{m}\\sum_{i=1}^{m}[y^{(i)}log(\\sigma(w^Tx^{(i)})) + (1-y^{(i)})log(1-\\sigma(w^Tx^{(i)})))] + \\frac{\\lambda}{2m}\\sum_{j=1}^n w_j^2 \\end{aligned}$
其中， $m$ 是训练样本的数量， $n$ 是特征的数量， $y^{(i)}$ 是第 $i$ 个样本的类别（0或1）， $x^{(i)}$ 是第 $i$ 个样本的特征向量， $w$ 是模型的参数向量， $λ\\lambda$ 是正则化系数， $σ(z)\\sigma(z)$ 是Logistic函数，定义为：
$σ(z)=11+e−z\\sigma(z)=\\frac{1}{1+e^{-z}}$
使用梯度下降算法来最小化目标损失函数 $J (w)$ ，更新规则为：
$wj←wj−α∂J(w)∂wjw_j \\leftarrow w_j - \\alpha \\frac{\\partial J(w)}{\\partial w_j}$
其中， $α\\alpha$ 是学习率， $∂J(w)∂wj\\frac{\\partial J(w)}{\\partial w_j}$ 是目标函数 $J (w)$ 对参数 $w_j$ 的偏导数。
对目标函数 $J (w)$ 求偏导数，有：
$∂J(w)∂wj=−1m∑i=1m(y(i)−σ(wTx(i)))xj(i)+λmwj=−1m∑i=1mxj(i)(y(i)−σ(wTx(i)))+λmwj\\begin{aligned} \\frac{\\partial J(w)}{\\partial w_j} &= -\\frac{1}{m}\\sum_{i=1}^{m}(y^{(i)}-\\sigma(w^Tx^{(i)}))x_j^{(i)} + \\frac{\\lambda}{m}w_j \\\\ &= -\\frac{1}{m}\\sum_{i=1}^{m}x_j^{(i)}(y^{(i)}-\\sigma(w^Tx^{(i)})) + \\frac{\\lambda}{m}w_j \\end{aligned}$
因此，Logistic回归引入 $L_2$ 正则化后的梯度下降更新规则为：
$wj←wj−α(−1m∑i=1mxj(i)(y(i)−σ(wTx(i)))+λmwj)w_j \\leftarrow w_j - \\alpha \\left(-\\frac{1}{m}\\sum_{i=1}^{m}x_j^{(i)}(y^{(i)}-\\sigma(w^Tx^{(i)})) + \\frac{\\lambda}{m}w_j\\right)$
化简得：
$wj←(1−αλm)wj+α1m∑i=1mxj(i)(y(i)−σ(wTx(i)))w_j \\leftarrow (1-\\alpha\\frac{\\lambda}{m})w_j + \\alpha\\frac{1}{m}\\sum_{i=1}^{m}x_j^{(i)}(y^{(i)}-\\sigma(w^Tx^{(i)}))$

Softmax回归引入 $L_2$ 正则化后的梯度下降过程

Softmax回归是一种用于多分类问题的机器学习算法。在引入 $L_2$ 正则化后，Softmax回归的目标函数为：
$J(W)=−1m∑i=1m∑j=1kyj(i)log(ewjTx(i)∑l=1kewlTx(i))+λ2m∑j=1k∑l=1nWjl2=−1m∑i=1m∑j=1kyj(i)(wjTx(i)−log∑l=1kewlTx(i))+λ2m∑j=1k∑l=1nWjl2\\begin{aligned} J(W) &= -\\frac{1}{m}\\sum_{i=1}^{m}\\sum_{j=1}^{k}y_{j}^{(i)}log(\\frac{e^{w_j^Tx^{(i)}}}{\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}}) + \\frac{\\lambda}{2m}\\sum_{j=1}^{k}\\sum_{l=1}^{n}W_{jl}^2 \\\\ &= -\\frac{1}{m}\\sum_{i=1}^{m}\\sum_{j=1}^{k}y_{j}^{(i)}(w_j^Tx^{(i)} - log\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}) + \\frac{\\lambda}{2m}\\sum_{j=1}^{k}\\sum_{l=1}^{n}W_{jl}^2 \\end{aligned}$
其中， $m$ 为训练样本的数量， $n$ 表示特征的数量， $k$ 是类别的数量， $y_{j}^{(i)}$ 是第 $i$ 个样本属于第 $j$ 个类别的概率（ $y_{j}^{(i)} = 1$ 表示第 $i$ 个样本属于第 $j$ 个类别， $y_{j}^{(i)} = 0$ 表示不属于）， $x^{(i)}$ 是第 $i$ 个样本的特征向量， $W$ 是模型的参数矩阵， $λ\\lambda$ 是正则化系数。

使用梯度下降算法来最小化目标函数 $J (W)$ ，更新规则为：
$Wjl←Wjl−α∂J(W)∂WjlW_{jl} \\leftarrow W_{jl} - \\alpha \\frac{\\partial J(W)}{\\partial W_{jl}}$
其中， $α\\alpha$ 是学习率， $∂J(W)∂Wjl\\frac{\\partial J(W)}{\\partial W_{jl}}$ 是目标函数 $J (W)$ 对参数 $W_{jl}$ 的偏导数。

对目标函数 $J (W)$ 求偏导数，有：
$∂J(W)∂Wjl=−1m∑i=1m(yj(i)−ewjTx(i)∑l=1kewlTx(i))xl(i)+λmWjl=−1m∑i=1mxl(i)(yj(i)−ewjTx(i)∑l=1kewlTx(i))+λmWjl\\begin{aligned} \\frac{\\partial J(W)}{\\partial W_{jl}} &= -\\frac{1}{m}\\sum_{i=1}^{m}(y_{j}^{(i)} - \\frac{e^{w_j^Tx^{(i)}}}{\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}})x_{l}^{(i)} + \\frac{\\lambda}{m}W_{jl} \\\\ &= -\\frac{1}{m}\\sum_{i=1}^{m}x_{l}^{(i)}(y_{j}^{(i)} - \\frac{e^{w_j^Tx^{(i)}}}{\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}}) + \\frac{\\lambda}{m}W_{jl} \\end{aligned}$
将上述偏导数带入梯度下降更新规则中，得到：
$Wjl←Wjl−α(−1m∑i=1mxl(i)(yj(i)−ewjTx(i)∑l=1kewlTx(i))+λmWjl)W_{jl} \\leftarrow W_{jl} - \\alpha(-\\frac{1}{m}\\sum_{i=1}^{m}x_{l}^{(i)}(y_{j}^{(i)} - \\frac{e^{w_j^Tx^{(i)}}}{\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}}) + \\frac{\\lambda}{m}W_{jl})$
化简后得到：
$Wjl←(1−αλm)Wjl−αm∑i=1mxl(i)(ewjTx(i)∑l=1kewlTx(i)−yj(i))W_{jl} \\leftarrow (1-\\alpha\\frac{\\lambda}{m})W_{jl} - \\frac{\\alpha}{m}\\sum_{i=1}^{m}x_{l}^{(i)}(\\frac{e^{w_j^Tx^{(i)}}}{\\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}} - y_{j}^{(i)})$

Logistic回归和Softmax回归引入$L_2$正则化后的梯度下降过程

Logistic回归和Softmax回归引入L2正则化后的梯度下降过程

Logistic回归引入 $L_2$ 正则化后的梯度下降过程

Softmax回归引入 $L_2$ 正则化后的梯度下降过程

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Logistic回归和Softmax回归引入$L_2$正则化后的梯度下降过程

Logistic回归和Softmax回归引入L2正则化后的梯度下降过程

Logistic回归引入L2L_2L2​正则化后的梯度下降过程

Softmax回归引入L2L_2L2​正则化后的梯度下降过程

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Logistic回归引入 $L_2$ 正则化后的梯度下降过程

Softmax回归引入 $L_2$ 正则化后的梯度下降过程