动手学深度学习第4.8章某公式推导

文章列表

动手学深度学习第4.8章某公式推导

这个公式是在计算神经网络中某个隐藏层神经元的输出 $o_i$ 的期望值 $E[o_i]$ 和方差 $Var[oi]\\mathrm{Var}[o_i]$ 。为了简化讨论，我们假设前一层神经元的输出 $x_j$ 和权重 $w_{ij}$ 之间是独立的，并且它们的期望值为零，即 $E[x_j] = 0$ 和 $E[w_{ij}] = 0$ 。同时，我们假设权重 $w_{ij}$ 的方差为 $σ2\\sigma^2$ ，前一层神经元输出 $x_j$ 的方差为 $γ2\\gamma^2$ 。

现在我们来看这个公式的推导过程：

首先计算输出 $o_i$ 的期望值 $E[o_i]$ ：
$E[oi]=∑j=1ninE[wijxj]=∑j=1ninE[wij]E[xj]=0,\\begin{aligned} E[o_i] & = \\sum_{j=1}^{n_\\mathrm{in}} E[w_{ij} x_j] \\\\ & = \\sum_{j=1}^{n_\\mathrm{in}} E[w_{ij}] E[x_j] \\\\ & = 0, \\end{aligned}$
这里我们使用了独立随机变量的期望值乘法规则： $E [X Y] = E [X] E [Y]$ 。
接下来计算输出 $o_i$ 的方差 $Var[oi]\\mathrm{Var}[o_i]$ ：
$Var[oi]=E[oi2]−(E[oi])2=∑j=1ninE[wij2xj2]−0=∑j=1ninE[wij2]E[xj2]=ninσ2γ2.\\begin{aligned} \\mathrm{Var}[o_i] & = E[o_i^2] - (E[o_i])^2 \\\\ & = \\sum_{j=1}^{n_\\mathrm{in}} E[w^2_{ij} x^2_j] - 0 \\\\ & = \\sum_{j=1}^{n_\\mathrm{in}} E[w^2_{ij}] E[x^2_j] \\\\ & = n_\\mathrm{in} \\sigma^2 \\gamma^2. \\end{aligned}$
在这里，我们首先使用了方差的定义 $Var[X]=E[X2]−(E[X])2\\mathrm{Var}[X] = E[X^2] - (E[X])^2$ 。然后，我们再次应用了独立随机变量的期望值乘法规则： $E[X^2 Y^2] = E[X^2]E[Y^2]$ 。最后，由于所有权重 $w_{ij}$ 和神经元输出 $x_j$ 的方差分别相等（分别为 $σ2\\sigma^2$ 和 $γ2\\gamma^2$ ），我们可以将求和转化为 $ninσ2γ2n_\\mathrm{in} \\sigma^2 \\gamma^2$ 。

所以，这个公式中的 $ninσ2γ2n_\\mathrm{in} \\sigma^2 \\gamma^2$ 是通过计算神经元输出 $o_i$ 的方差 $Var[oi]\\mathrm{Var}[o_i]$ 推导出来的。

动手学深度学习第4.8章某公式推导

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

动手学深度学习第4.8章某公式推导

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签