《动手学习深度学习》笔记(二)
三、线性神经网络
3.1 线性回归
1. 回归是为一个或多个自变量与因变量之间的关系建模的一类方法。而线性回归基于几个简单的假设:① 自变量和因变量关系是线性的;② 允许包含噪声但是噪声遵循正态分布。
2. 训练数据集/训练集,样本/数据点/数据样本,标签/目标(试图预测的目标),特征/协变量(预测所依据的自变量)的概念,用 nnn 来表示数据集中的样本数,对索引为 iii 的样本,输入表示为 x(i)=[x1(i),x2(i)]⊤\\mathbf{x}^{(i)}=[x_1^{(i)}, x_2^{(i)}]^{\\top}x(i)=[x1(i),x2(i)]⊤,对应的标签为 y(i)y^{(i)}y(i)。
3. 线性假设中包含权重和偏置,是对输入特征的一个仿射变换。将所有特征放到向量 w∈Rd\\mathbf{w}\\in\\mathbb{R}^dw∈Rd 中,得到线性模型的简洁表示:y^=w⊤x+b\\hat{y}=\\mathbf{w}^{\\top}\\mathbf{x}+by^=w⊤x+b,进而得到整个数据集的模型表示:y^=Xw+b\\hat{y}=\\mathbf{Xw}+by^=Xw+b,要得到最好的模型参数 w\\mathbf{w}w 和 bbb ,还需要两个东西:
(1)一种模型质量的度量方式——损失函数
L(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2w∗,b∗=arg minw,bL(w,b)L(\\mathbf{w},b)=\\frac{1}{n}\\sum^n_{i=1}l^{(i)}(\\mathbf{w},b)=\\frac{1}{n}\\sum^n_{i=1}\\frac{1}{2}(\\mathbf{w}^{\\top}\\mathbf{x}^{(i)}+b-y^{(i)})^2\\\\\\ \\\\ \\mathbf{w}^*,b^*=\\argmin_{\\mathbf{w},b}L(\\mathbf{w},b) L(w,b)=n1i=1∑nl(i)(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2 w∗,b∗=w,bargminL(w,b)
线性回归的解可以用一个公式简单表达出来,但这种方法对问题限制很严格,因此无法广泛应用于深度学习,于是就需要下面的——
(2)一种能够更新模型以提高模型预测质量的方法。如梯度下降法(Gradient Descent),可以计算损失函数关于模型参数的导数,而实际执行时通常是在每次需要计算更新的时候随机抽取一小批样本,这种变体称为:小批量随机梯度下降。
随机抽取一个小批量B\\mathcal{B}B,
4. 矢量化加速