深度学习笔记之权重初始化方式——零初始化

文章列表

深度学习笔记之权重 初始化方式——零初始化

引言
- 回顾：逻辑回归
- - 场景构建
- 逻辑回归是否可以使用零初始化权重 $?$
- 神经网络是否可以使用零初始化权重 $?$

引言

我们在刷题系列——训练过程损失函数不下降问题中提到了初始化权重方式，本节将介绍零初始化权重参数。并介绍为什么神经网络不能使用零初始化权重参数的操作。

回顾：逻辑回归

逻辑回归是一个典型的概率判别模型。以二分类任务为例，关于后验概率 $P(y(i)=1∣x(i)),P(y(i)=0∣x(i))\\mathcal P(y^{(i)} = 1 \\mid x^{(i)}),\\mathcal P(y^{(i)} = 0 \\mid x^{(i)})$ 可直接使用 $Sigmoid\\text{Sigmoid}$ 函数进行表示：
${p1=P(y(i)=1∣x(i))=11+exp⁡{−WTx(i)}p2=P(y(i)=0∣x(i))=exp⁡{−WTx(i)}1+exp⁡{−WTx(i)}\\begin{cases} p_1 = \\mathcal P(y^{(i)} = 1\\mid x^{(i)}) = \\begin{aligned} \\frac{1}{1 + \\exp\\{-\\mathcal W^Tx^{(i)}\\}} \\end{aligned} \\\\ p_2 = \\mathcal P(y^{(i)} = 0 \\mid x^{(i)}) = \\begin{aligned} \\frac{\\exp\\{-\\mathcal W^Tx^{(i)}\\}}{1 + \\exp \\{-\\mathcal W^Tx^{(i)}\\}} \\end{aligned} \\end{cases}$
并对后验结果直接进行比较，得到最终的预测结果：
$p1=?p2p_1 \\overset{\\text{?}}{=} p_2$

场景构建

某数据集合 $D={(x(i),y(i))}i=1N\\mathcal D = \\{(x^{(i)},y^{(i)})\\}_{i=1}^N$ ，并且每一个样本 $x(i)(i=1,2,⋯,N)x^{(i)}(i=1,2,\\cdots,N)$ 仅包含 $2$ 个随机变量；对应标签 $y(i)∈{0,1}y^{(i)} \\in \\{0,1\\}$ ：
$x(i)=(x1(i),x2(i))2×1Tx^{(i)} = (x_1^{(i)},x_2^{(i)})_{2 \\times 1}^T$
对应的逻辑回归公式可表达如下形式：
偏置项 $b$ 可看作一个常数输入的权重信息，将其合并至权重 $W\\mathcal W$ 中，省略。
$ypred=Sigmoid(W1x1+W2x2)y_{pred} = \\text{Sigmoid}(\\mathcal W_1 x_1 + \\mathcal W_2 x_2)$
并使用交叉熵 $(CrossEntropy)(\\text{CrossEntropy})$ 作为损失函数。它的本质是极大似然估计 $Estimate,MLE)(\\text{Maximum Likelihood Estimate,MLE})$ ：
${P(y(i)∣x(i))=p1y(i)⋅p2(1−y(i))P(Y∣X)=∏i=1NP(y(i)∣x(i))W^=arg⁡max⁡WP(Y∣X)\\begin{cases} \\begin{aligned} & \\mathcal P(y^{(i)} \\mid x^{(i)}) = p_1^{y^{(i)}} \\cdot p_2^{(1 - y^{(i)})} \\\\ & \\mathcal P(\\mathcal Y \\mid \\mathcal X) = \\prod_{i=1}^N \\mathcal P(y^{(i)} \\mid x^{(i)}) \\end{aligned} \\end{cases} \\\\ \\hat {\\mathcal W} = \\mathop{\\arg\\max}\\limits_{\\mathcal W} \\mathcal P(\\mathcal Y \\mid \\mathcal X)$
加上 $log⁡\\log$ 函数，并不影响最优参数 $W^\\hat{\\mathcal W}$ 的取值：
$W^=arg⁡max⁡W∑i=1Nlog⁡P(y(i)∣x(i))=arg⁡max⁡W∑i=1N[y(i)log⁡p1+(1−y(i))log⁡p2]=arg⁡min⁡W{−∑i=1N[y(i)log⁡p1+(1−y(i))log⁡p2]}\\begin{aligned} \\hat {\\mathcal W} & = \\mathop{\\arg\\max}\\limits_{\\mathcal W} \\sum_{i=1}^N \\log \\mathcal P(y^{(i)} \\mid x^{(i)}) \\\\ & = \\mathop{\\arg\\max}\\limits_{\\mathcal W} \\sum_{i=1}^N \\left[y^{(i)} \\log p_1 + (1 - y^{(i)}) \\log p_2 \\right] \\\\ & = \\mathop{\\arg\\min}\\limits_{\\mathcal W} \\left\\{ - \\sum_{i=1}^N \\left[y^{(i)} \\log p_1 + (1 - y^{(i)}) \\log p_2\\right]\\right\\} \\end{aligned}$
至此，交叉熵损失函数可表示为：
${L(W)=−ylog⁡ypred−(1−y)log⁡(1−ypred)W^=arg⁡min⁡WL(W)\\begin{cases} \\mathcal L(\\mathcal W) = - y \\log y_{pred} - (1 - y) \\log (1 - y_{pred}) \\\\ \\hat {\\mathcal W} = \\mathop{\\arg\\min}\\limits_{\\mathcal W} \\mathcal L(\\mathcal W) \\end{cases}$
关于逻辑回归的计算结构表示如下：
需要注意的是，逻辑回归的模型结构并不是神经网络，它不包含隐藏层。实际上，它可看作是一个‘神经元’。
逻辑回归——模型结构

逻辑回归是否可以使用零初始化权重 $?$

虽然逻辑回归可以使用极大似然估计求出它的解析解，但为了观察零初始化权重是否对它的计算过程产生影响，这里使用梯度下降法对权重进行迭代求解：

关于 $Sigmoid\\text{Sigmoid}$ 函数的导数： $f^{'} (x) = f (x) [1 - f (x)]$
链式求导法则。
${∂L(W)∂ypred=−yypred+1−y1−ypred∂L(W)∂w1=∂L(W)∂ypred⋅∂ypred∂w1=(−yypred+1−y1−ypred)⋅x1⋅ypred(1−ypred)=(ypred−y)⋅x1∂L(W)∂w2=∂L(W)∂ypred⋅∂ypred∂w2=(ypred−y)⋅x2\\begin{cases} \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} & = - \\frac{y}{y_{pred}} + \\frac{1 - y}{1 - y_{pred}} \\\\ \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_1} & = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial w_1} \\\\ & = \\left(- \\frac{y}{y_{pred}} + \\frac{1 - y}{1 - y_{pred}}\\right) \\cdot x_1 \\cdot y_{pred}(1 - y_{pred}) \\\\ & = (y_{pred} - y) \\cdot x_1 \\\\ \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_2} & = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial w_2} \\\\ & = (y_{pred} - y) \\cdot x_2 \\end{aligned} \\end{cases}$

关于权重 $w_1,w_2$ 的迭代过程可表示为如下形式：
${w1⇐w1−η⋅∂L(W)∂w1w2⇐w2−η⋅∂L(W)∂w2\\begin{cases} \\begin{aligned} w_1 \\Leftarrow w_1 - \\eta \\cdot \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_1} \\\\ w_2 \\Leftarrow w_2 - \\eta \\cdot \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_2} \\end{aligned} \\end{cases}$
这里观察其中一项： $η⋅∂L(W)∂w1=η⋅(ypred−y)⋅x1\\begin{aligned}\\eta \\cdot\\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_1} = \\eta \\cdot (y_{pred} - y) \\cdot x_1\\end{aligned}$ ，当前馈计算完成后， $y_{pred}$ 是已知项； $y,x_1$ 也均为已知项。即便权重均初始化为 $0$ ，也并不影响梯度的反向传播。
并且 $y_{pred}$ 即便所有权重均为 $0$ ,经过 $Sigmoid\\text{Sigmoid}$ 函数映射后的结果是 $0.5$ ,对应梯度依然存在有效传播,对应权重依然正常更新。

因而在逻辑回归中使用零初始化权重是可行的。

神经网络是否可以使用零初始化权重 $?$

为了和逻辑回归进行比较，我们使用一个包含一个隐藏层的神经网络处理二分类任务。对应模型结构表示如下：
神经网络——模型结构
这里依然省略偏置信息。各层之间使用 $Sigmoid\\text{Sigmoid}$ 函数作为激活函数；损失函数依然使用交叉熵。观察该神经网络的前馈运算过程：
$ypred=Sigmoid(w31⋅h1+w32⋅h2)\\begin{aligned} & \\text{Hidden Layer : }\\begin{cases} h_1 = \\text{Sigmoid}(w_{11} \\cdot x_1 + w_{21} \\cdot x_2) \\\\ h_2 = \\text{Sigmoid}(w_{12} \\cdot x_1 + w_{22} \\cdot x_2) \\end{cases} \\\\ & \\text{Output Layer : } \\quad y_{pred} = \\text{Sigmoid}(w_{31} \\cdot h_1 + w_{32} \\cdot h_2) \\end{aligned}$
对应输出结点以及权重的反向传播过程表示如下：
${∂L(W)∂w11=∂L(W)∂ypred⋅∂ypred∂h1⋅∂h1∂w11=(ypred−y)⋅w31⋅h1(1−h1)⋅x1∂L(W)∂w12=∂L(W)∂ypred⋅∂ypred∂h2⋅∂h2∂w12=(ypred−y)⋅w32⋅h2(1−h2)⋅x1∂L(W)∂w21=∂L(W)∂ypred⋅∂ypred∂h1⋅∂h1∂w21=(ypred−y)⋅w31⋅h1(1−h1)⋅x2∂L(W)∂w22=∂L(W)∂ypred⋅∂ypred∂h2⋅∂h2∂w22=(ypred−y)⋅w32⋅h2(1−h2)⋅x2\\begin{aligned} & \\text{Output Layer : }\\begin{cases} \\begin{aligned} & \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} = - \\frac{y}{y_{pred}} + \\frac{1 - y}{1 - y_{pred}} \\end{aligned} \\\\ \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{31}} & = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial w_{31}} = (y_{pred} - y) \\cdot h_1 \\end{aligned} \\\\ \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{32}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial w_{32}} = (y_{pred} - y) \\cdot h_2 \\end{aligned} \\end{cases} \\\\ & \\text{Hidden Layer : }\\begin{cases} \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{11}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial h_1} \\cdot \\frac{\\partial h_1}{\\partial w_{11}} = (y_{pred} - y) \\cdot w_{31} \\cdot h_1(1 - h_1) \\cdot x_1 \\end{aligned} \\\\ \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{12}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial h_2} \\cdot \\frac{\\partial h_2}{\\partial w_{12}} = (y_{pred} - y) \\cdot w_{32} \\cdot h_2(1 - h_2) \\cdot x_1 \\end{aligned} \\\\ \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{21}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial h_1} \\cdot \\frac{\\partial h_1}{\\partial w_{21}} = (y_{pred} - y) \\cdot w_{31} \\cdot h_1(1 - h_1) \\cdot x_2 \\end{aligned} \\\\ \\begin{aligned} \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{22}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial y_{pred}} \\cdot \\frac{\\partial y_{pred}}{\\partial h_2} \\cdot \\frac{\\partial h_2}{\\partial w_{22}} = (y_{pred} - y) \\cdot w_{32} \\cdot h_2(1 - h_2) \\cdot x_2 \\end{aligned} \\end{cases} \\end{aligned}$
这里一共涉及到了 $6$ 个权重信息： $w_{11},w_{12},w_{21},w_{22},w_{31},w_{32}$ 。假设这些权重初始化均为 $0$ 时，观察它的前馈计算过程与反向传播过程：
前馈计算过程： $h1=h2=ypred=12h_1 = h_2 = y_{pred} = \\begin{aligned}\\frac{1}{2}\\end{aligned}$
反向传播过程：

输出层：由于前馈计算 $h_1 = h_2 = y_{pred}$ ，针对同一标签 $y$ 反向传播时， $∂L(W)∂w31=∂L(W)∂w32\\begin{aligned}\\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{31}} = \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{32}}\\end{aligned}$ 。这意味着权重 $w_{31},w_{32}$ 的更新结果均相同：
$w_{32}$ 同理。因为 $w_{31} = w_{32} = 0$ 。其更新结果有值，并且两权重的更新结果完全相同。
$w31⇐w31−η⋅∂L(W)∂w31=−12η⋅(12−y)\\begin{aligned} w_{31} \\Leftarrow w_{31} - \\eta \\cdot \\frac{\\partial \\mathcal L(\\mathcal W)}{\\partial w_{31}} = - \\frac{1}{2} \\eta \\cdot \\left(\\frac{1}{2} - y\\right) \\end{aligned}$
隐藏层：根据上面的梯度结果，无论是 $w_{11},w_{12},w_{21},w_{22}$ 哪一个权重的更新，由于初始状态下 $w_{31},w_{32} = 0$ ，它们的更新结果均为 $0$ ：
这里以 $w_{11}$ 示例。反向传播过程中，梯度并不是实时更新，而是将所有梯度结果计算完之后，再下一次迭代中更新。
$w11⇐w11−η⋅∂L(W)∂w11=0−η⋅(12−y)⋅0⋅12⋅12⋅x1=0\\begin{aligned} w_{11} & \\Leftarrow w_{11} - \\eta \\cdot \\frac{\\partial\\mathcal L(\\mathcal W)}{\\partial w_{11}} \\\\ & = 0 - \\eta \\cdot \\left(\\frac{1}{2} - y\\right) \\cdot 0 \\cdot \\frac{1}{2} \\cdot \\frac{1}{2} \\cdot x_1 \\\\ & = 0 \\end{aligned}$

至此，第一次迭代各权重的更新结果表示为：
${w31=w32=−12η⋅(12−y)w11=w12=w21=w22=0\\begin{cases} \\begin{aligned} & w_{31} = w_{32} = -\\frac{1}{2} \\eta \\cdot \\left(\\frac{1}{2} - y\\right) \\\\ & w_{11} = w_{12} = w_{21} = w_{22} = 0 \\end{aligned} \\end{cases}$
第二次迭代同理，只不过 $w_{31}=w_{32}$ 并有非零数值了，而其余权重均为 $0$ 。这导致 $h_1 = h_2$ ，从而导致更新后的权重出现如下情况：
${w31=w32w11=w12=w21=w22\\begin{cases} w_{31} = w_{32} \\\\ w_{11} = w_{12} = w_{21} = w_{22} \\end{cases}$
后续迭代同理。这意味着：各层神经元的梯度的更新结果均相同，从而导致同层神经元的输出结果全部一致。这自然是不合理的。因而关于神经网络的权重初始化不能使用零初始化。

实际上，逻辑回归与神经网络对于零初始化权重的区别，本质上是：在进行梯度计算的过程中，其梯度是否存在其他权重参与计算。从这个逻辑观察，只要存在至少一个隐藏层，梯度必然存在其他权重干预的情况。

相关参考：
神经网络权重为什么不能初始化为0？

深度学习笔记之权重初始化方式——零初始化

深度学习笔记之权重 初始化方式——零初始化

引言

回顾：逻辑回归

场景构建

逻辑回归是否可以使用零初始化权重 $?$

神经网络是否可以使用零初始化权重 $?$

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

深度学习笔记之权重初始化方式——零初始化

深度学习笔记之权重初始化方式——零初始化

引言

回顾：逻辑回归

场景构建

逻辑回归是否可以使用零初始化权重???

神经网络是否可以使用零初始化权重???

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

逻辑回归是否可以使用零初始化权重 $?$

神经网络是否可以使用零初始化权重 $?$