线性回归
线性回归最简单的形式:D = {(xi, yi)}i = 1m, xi ∈ ℝ,线性回归试图学得合适的 w 和 b ,使得
f(xi) = wxi + b, f(xi) ≃ yi
即使得 f(xi) 与 yi 之间的差别尽量小,因此我们可以使其均方误差最小,即
令
令偏导为零可得
求得
其中
对于多参数情形:
f(xi) = wTxi + b, f(xi) ≃ yi
令 x̂i = (xi; 1) , ŵ = (w; 1) , X 为所有 x̂i 组成的矩阵,则
Eŵ = (y − Xŵ)T(y − Xŵ)
对 ŵ 求导得(参考矩阵求导),
当 XTX 为满秩矩阵或正定矩阵时,令导数为零,求得
ŵ* = (XTX)−1XTy
但在实际问题中 XTX 往往不是满秩矩阵,并且当参数多并且数据较多时,求导的计算量是非常大的。在实际问题中,令 f(x) = θTx ,并将 x 到 y 的映射函数 f 记作 θ 的函数 hθ(x) ,则线性回归的损失函数一般定义为:
并通过梯度下降法进行迭代逐步接近最小点,迭代过程中 θ 不断更新:
其中 α 为步长,也称为学习率。
当我们的模型比较复杂,学习能力比较强时,容易造成过拟最大熵模型表示合的情况,例如如下模型:
θ0 + θ1x + θ2x2 + θ3x3 + θ4x4
对于过拟合,我们可以在损失函数中加入相应的正则化项来控制参数幅度,添加正则化项后的损失函数:
参考
- 李航 《统计学习方法》
- 周志华 《机器学习》
线性回归
https://mztchaoqun.com.cn/posts/Chapter1_linear_regression/