【机器学习】SoftMax多分类---学习笔记

文章列表

SoftMax---学习笔记

- softMax分类函数
- - 定义：
- softmax分类损失函数

softMax分类函数

首先给一个图，这个图比较清晰地告诉大家softmax是怎么计算的。

【机器学习】SoftMax多分类---学习笔记 (图片来自网络)

定义：

给定以歌 $n \times k$ 矩阵 $W=(w_1,w_2,...,w_k)$ ,其中， $wj∈Rnw_j\\in R^n$ 为 $n \times 1$ 列向量（ $1≤j≤k1\\leq j\\leq k$ ）,Softmax模型 $h_w:R^n →R^k$ 为：
$hW(x)=(e<w1,x>∑t=1ke<wt,x>,e<w2,x>∑t=1ke<wt,x>,...,e<wk,x>∑t=1ke<wt,x>)(样本m×k)h_W(x)=(\\frac{e^{<w_1,x>}}{\\sum_{t=1}^{k}e^{<w_t,x>}},\\frac{e^{<w_2,x>}}{\\sum_{t=1}^{k}e^{<w_t,x>}},...,\\frac{e^{<w_k,x>}}{\\sum_{t=1}^{k}e^{<w_t,x>}})_{(样本m×k)}$

样本 $x_1$ 的softmax值为：
$hW(x1)=(e<w1,x1>∑t=1ke<wt,x1>,e<w2,x1>∑t=1ke<wt,x1>,...,e<wk,x1>∑t=1ke<wt,x1>)(1×k)h_W(x_1)=(\\frac{e^{<w_1,x_1>}}{\\sum_{t=1}^{k}e^{<w_t,x_1>}},\\frac{e^{<w_2,x_1>}}{\\sum_{t=1}^{k}e^{<w_t,x_1>}},...,\\frac{e^{<w_k,x_1>}}{\\sum_{t=1}^{k}e^{<w_t,x_1>}})_{(1×k)}$
且可知 $∑1khw(x1)=1\\sum_1^kh_w(x_1) = 1$

类别数k要小于特征维度n
如果类别数大于特征维度，那么就会出现过多的未知参数需要学习，导致模型过于复杂，难以训练和泛化。因此，通常是将类别数设定为特征维度的一个较小的值，以保证模型的简洁性和可行性。

softmax分类损失函数

交叉熵的理论部分在上一篇文章：Logistic回归
前面提到，在多分类问题中，我们经常使用交叉熵作为损失函数
$-\\sum t_ilny_i$
其中 $t_i$ 表示真实值， $y_i$ 表示求出的softmax值。当预测第i个时，可以认为 $t_i$ =1.此时损失函数变成了 $Loss_i=-lny_i$
代入 $y_i=h_W(x_i)$ ，求梯度
$Loss_i=y_i-1$ 上面的结果表示，我们只需要正向求出 $y_i$ ，将结果减1就是反向更新的梯度，导数的计算是不是非常简单！

总结一下：

【机器学习】SoftMax多分类---学习笔记

【机器学习】SoftMax多分类---学习笔记

SoftMax---学习笔记

softMax分类函数

定义：

softmax分类损失函数

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【机器学习】SoftMax多分类---学习笔记

SoftMax---学习笔记

softMax分类函数

定义：

softmax分类损失函数

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签