线性回归

线性回归最简单的形式:D = {(xi, yi)}i = 1m, xi ∈ ℝ,线性回归试图学得合适的 wb ,使得

f(xi) = wxi + b, f(xi) ≃ yi

即使得 f(xi)yi 之间的差别尽量小,因此我们可以使其均方误差最小,即

分别对 w, b 求偏导

令偏导为零可得

求得

其中 .

对于多参数情形:

f(xi) = wTxi + b, f(xi) ≃ yi

i = (xi; 1) ,  = (w; 1) , X 为所有 i 组成的矩阵,则

E = (y − X)T(y − X)

求导得(参考矩阵求导),

XTX 为满秩矩阵或正定矩阵时,令导数为零,求得

* = (XTX)−1XTy

但在实际问题中 XTX 往往不是满秩矩阵,并且当参数多并且数据较多时,求导的计算量是非常大的。在实际问题中,令 f(x) = θTx ,并将 xy 的映射函数 f 记作 θ 的函数 hθ(x) ,则线性回归的损失函数一般定义为:

并通过梯度下降法进行迭代逐步接近最小点,迭代过程中 θ 不断更新:

其中 α 为步长,也称为学习率。

当我们的模型比较复杂,学习能力比较强时,容易造成过拟最大熵模型表示合的情况,例如如下模型:

θ0 + θ1x + θ2x2 + θ3x3 + θ4x4

对于过拟合,我们可以在损失函数中加入相应的正则化项来控制参数幅度,添加正则化项后的损失函数:

参考

  1. 李航 《统计学习方法》
  2. 周志华 《机器学习》

线性回归
https://mztchaoqun.com.cn/posts/Chapter1_linear_regression/
作者
mztchaoqun
发布于
2023年5月20日
许可协议