线性回归

线性回归最简单的形式:D = {(x_i, y_i)}_i = 1^m, x_i ∈ ℝ,线性回归试图学得合适的 w 和 b ,使得

f(x_i) = wx_i + b, f(x_i) ≃ y_i

即使得 f(x_i) 与 y_i 之间的差别尽量小,因此我们可以使其均方误差最小，即

令分别对 w, b 求偏导

令偏导为零可得

求得

其中 .

对于多参数情形：

f(x_i) = w^Tx_i + b, f(x_i) ≃ y_i

令 x̂_i = (x_i; 1) , ŵ = (w; 1) , X 为所有 x̂_i 组成的矩阵，则

E_ŵ = (y − Xŵ)^T(y − Xŵ)

对 ŵ 求导得（参考矩阵求导），

当 X^TX 为满秩矩阵或正定矩阵时，令导数为零，求得

ŵ^* = (X^TX)⁻¹X^Ty

但在实际问题中 X^TX 往往不是满秩矩阵，并且当参数多并且数据较多时，求导的计算量是非常大的。在实际问题中,令 f(x) = θ^Tx ，并将 x 到 y 的映射函数 f 记作 θ 的函数 h_θ(x) ,则线性回归的损失函数一般定义为：

并通过梯度下降法进行迭代逐步接近最小点，迭代过程中 θ 不断更新：

其中 α 为步长，也称为学习率。

当我们的模型比较复杂，学习能力比较强时，容易造成过拟最大熵模型表示合的情况，例如如下模型：

θ₀ + θ₁x + θ₂x² + θ₃x³ + θ₄x⁴

对于过拟合，我们可以在损失函数中加入相应的正则化项来控制参数幅度，添加正则化项后的损失函数：

参考

math

#math #ML

线性回归

https://mztchaoqun.com.cn/posts/Chapter1_linear_regression/

作者

mztchaoqun

发布于

2023年5月20日

许可协议