正则项:L1与L2
正则项
一般地,我们优化MSEMSEMSE
lmse=∑i(yi−y^i)2nl_{mse}=\\frac{\\sum_i (y_i-\\hat y_i)^2}{n}lmse=n∑i(yi−y^i)2
为了使参数尽可能小,加入正则项,防止过拟合,减小方差。L1正则可以更容易得到稀疏项。这一点可以降低参数量举个例子。例如我们的参数只有w1w_1w1和w2w_2w2,那么我们的目标是让损失为0,如果损失为0,L1正则对应的是菱形,L2正则对应的是圆,MSEMSEMSE损失函数对应的是偏离原点的椭圆,是关于椭圆的平移变换。
lmse+∣w1∣+∣w2∣=0l_{mse}+|w_1|+|w_2| = 0lmse+∣w1∣+∣w2∣=0
则
lmse=−(∣w1∣+∣w2∣)l_{mse} = - (|w_1|+|w_2|)lmse=−(∣w1∣+∣w2∣)
−(∣w1∣+∣w2∣)- (|w_1|+|w_2|)−(∣w1∣+∣w2∣)表示一个菱形,与lmsel_{mse}lmse的交点可以更容易使得w1w_1w1和w2w_2w2为0,得到稀疏性。
注:上述这一部分可以参考西瓜书253页
参考资料
https://blog.csdn.net/jinping_shi/article/details/52433975 (感觉讲的不错)