为了便于初学者阅读,前面几篇博客的内容举例较详细,没有涉及过多的术语,主要目的是为了帮助读者建立对各种机器学习概念的直觉。实际上随着所学内容的丰富,理应在心中形成认知的框架结构,这是一个由具象到抽象,由混乱到系统的过程。

下面我们以线性模型为例子感受一下知识系统化的过程,回顾一下线性回归和线性分类问题,对前面学习的内容做一个回顾和补充,除新出现的补充内容,能直接用公式表示的地方不使用文字表述,而常见的公式变形技巧只在第一次出现的时候详细推导,再次出现时跳步推导。

在这个部分,我们将给出线性回归中最小二乘法的矩阵表达及其几何意义,并且从概率的视角去理解最小二乘,实质上是进行添加了高斯噪声的极大似然估计。从正则化的角度,我们会补充 $L_1$ 和 $L_2$ 形式的线性回归模型,并进行一些推导。

线性回归的矩阵形式

给定有 $N$ 个样本点的数据集 $D=\{(\boldsymbol{x_1},y_1), (\boldsymbol{x_2},y_2) \ldots, (\boldsymbol{x_N}, y_N)\}$, 其中 $\boldsymbol{x_{i}} \in \mathbb{R}^{P}$ 是一个 $P$ 维向量(一般情况默认向量均为列向量), $y_{i} \in \mathbb{R}$ 为实数且 $i=1,2, \cdots, N$. 将整个数据集用矩阵 $X$ 表示,样本对应的标签向量使用 $Y$ 表示,

定义需要拟合的曲线为 $f(\boldsymbol{x})=\boldsymbol{w}^T \boldsymbol{x}$, 其中 $\boldsymbol{w} \in \mathbb{R}^{P}$. 原本通常会有一个偏置项 $b$, 但我们在这里将其看作是 $w_0 x_0$ 并保持 $x_0=1$ 以简化表示(当作默认 $\boldsymbol{x}$ 维度加 $1$). 在解决线性回归问题时,最小二乘是在欧氏距离为误差度量的情况下,由系数矩阵所张成的向量空间内对于观测向量的最佳逼近点,看完后面的内容,你会理解这句话。

统计学视角:最小二乘参数估计

注意在参数估计的过程中,所有样本点 $(X, Y)$ 是给定的,此时参数 $w$ 为自变量

其中

根据转置的性质有

所以得到矩阵形式

最小二乘的目标是

根据微分知识可得

令上式等于零可得

这就是最小二乘参数估计的闭式解(Closed-form), 也叫做解析解。

线性代数视角:几何投影

对单个样本有 $f(\boldsymbol{w})=\boldsymbol{w}^T{\boldsymbol{x}}={\boldsymbol{x}^T}\boldsymbol{\beta}=f(\boldsymbol{\beta})$ , 我们使用和之前一样的矩阵形式

切换到线性代数的抽象视角,我们考虑将 $X$ 看作系数矩阵,将 $Y$ 看成观测向量,


注:由于我们习惯了 $X$ 表示数据矩阵, $Y$ 表示标签向量,所以在这里保留这种形式。而实际上在线性代数中最小二乘问题往往使用下面的矩阵形式表示:

上面的 $A$ 对应 $N \times P$ 维矩阵,$b$ 对应 $N$ 维向量,求解的是 $P \times 1$ 维向量,即线性回归中的参数。求解这个方程,如果方程的个数大于未知量的个数($N > P$), 这个系统被称为矛盾方程组(Over Determined System), 不存在解;反之为欠定方程组(Under Determined System), 存在一个或多个解。

对于无解情况,在数值计算领域通常选择计算 $\min \|A x-b\|$. 直观的做法是求解 $A^{T} A x=A^{T} b$, 但是这种方法比较低效。更常见的做法是对 $A$ 进行 $QR$ 分解($A=QR$), 其中 $Q$ 是 $N \times K$ 正交矩阵(Orthonormal Matrix), $R$ 是 $P \times P$ 上三角矩阵(Upper Triangular Matrix), 则有

无法理解这部分补充内容没关系,你只需要对此保留基本的概念即可。


原始视角中用行向量代表每一个样本, 而上面的形式等于将 $X$ 中的 $P$ 个 $N$ 维列向量作为基底,可以张成一个 $P$ 维子空间. 理想情况下,向量 $Y$ 可以在该空间中使用新的基底进行表示,此时可以得到上面等式 $\boldsymbol{\beta}$ 的解。然而一般情况下最小二乘样本的数量 $N$ 远大于特征维度 $P$, 所以向量 $Y$ 一般是不在该子空间中的,意味着上式一般无解。

此时最小二乘就是在子空间内估计一个最好的向量 $X \boldsymbol{\beta}$ 使得它与超出该空间的向量 $Y$ 最接近,而这种距离可以用误差向量 $E(\boldsymbol{\beta}) = Y-X \boldsymbol{\beta}$ 表示。显然理想情况下,这种误差不存在,$Y-X \boldsymbol{\beta} = \overrightarrow 0$ 可解,即此时 $Y$ 在子空间内,这与之前的解释对应。而最好的一般情况则是,$X \boldsymbol{\beta}$ 是 $Y$ 在这个 $P$ 维子空间中的正交投影 , 而 $Y-X \boldsymbol{\beta}$ 此时正交于子空间(模长最短), 也会正交于原始矩阵 $X$ 中用来表示新空间基底的所有列向量,即根据投影的性质有

在前面最小二乘估计中,我们得到了

而如今通过换用角度 $f(\boldsymbol w)=\boldsymbol w^T X = X \boldsymbol{\beta} = f(\boldsymbol{\beta})$, 我们得到了

因此从这个角度来看,最小二乘估计其实就是高维观测向量 $Y$ 在系数矩阵 $X$ 张成的低维列空间的正交投影,这印证了我们前面所说的“最小二乘是在欧氏距离为误差度量的情况下,由系数矩阵所张成的向量空间内对于观测向量的最佳逼近点”,投影为

而 $X (X^T X)^{-1}X^T$ 为对应的正交投影矩阵。

单纯地考虑线性代数理想解法,以上流程可简化为:

考虑到直接抽象高维空间比较复杂,给出低维情况解释,

系数矩阵 $X$ 中的 $2$ 个列向量张成 $2$ 维子空间,而观测向量 $Y$ 位于 $3$ 维空间,无法使用这 $2$ 个基底向量进行线性表示。但我们希望找到一个可在这个子空间中表示的向量 $X \boldsymbol{\beta}$ 来逼近观测向量 $Y$, 最好的逼近情况代表 $Y - X \boldsymbol{\beta}$ 模长最小。不难发现当 $X \boldsymbol{\beta}$ 为 $Y$ 在 $X$ 列空间的正交投影时,为我们想要的情况。线性回归常见的几何视角中,将参数估计时产生的总误差分散在各个样本的离差上进行考虑,即 $Y-WX$ ; 而投影视角将误差分散在特征维度上进行了理解,即 $Y-X\boldsymbol{\beta}$.

这其实就是“横看成岭侧成峰”的感觉了,但是山还是那座山。

正则化:解决过拟合问题

线性回归最小二乘形式为

当样本的维度非常高时,$X^T X$ 不可逆,很难用最小二乘求得解析解,容易造成过拟合,处理过拟合问题常见方法有:增加数据;特征选择/特征提取;正则化。正则化可以认为是对优化问题中目标函数参数空间的一种约束,框架如下:

其中 $L(\boldsymbol w)$ 是损失函数(Loss Function), $P(\boldsymbol w)$ 是惩罚项(Penalty), $\lambda$ 是惩罚系数。针对线性回归可以引入两种类型的正则化:

  • $L_1$: Lasso, $P(\boldsymbol w)=\| \boldsymbol w \|_1$, 这里的 $\| \cdot \|$ 指的是范数。
  • $L_2$: Ridge, $P(\boldsymbol w)=\| \boldsymbol w \|_2^2 = \boldsymbol w^T \boldsymbol w$, 又叫岭回归,机器学习中称为权重衰减。

以更为常见的 $L_2$ 正则化为例子,现在的优化目标函数变为了

优化问题为:

令偏微分为零

最终得到岭回归的解析解

而我们知道线性回归的最小二乘估计的解析解为

此时 $(X^T X + \lambda I)$ 一定是可逆的,因为 $X^T X$ 是一个半正定矩阵,而 $\lambda I$ 是一个对角矩阵,半正定矩阵加对角矩阵得到的矩阵一定是正定的,正定矩阵一定可逆。

凸优化视角:梯度下降的有效性

正则化后,损失函数为:

计算梯度得到

计算 Hessian 矩阵发现

所以可以认为 $J(\boldsymbol{w})$ 是一个凸函数,凸函数的局部最优就是全局最优,可用反证法证明。

因此对于线性回归问题,使用梯度下降是可以找到全局最优点的。

频率视角:极大似然估计

现实情况中的数据都是带有一些噪声 $\varepsilon$, 假设其服从高斯分布 $\varepsilon \sim N\left(\mu, \sigma^{2}\right)$, 其中均值 $\mu=0$, 方差为 $\sigma ^2$. 此时抽样的样本满足:

与之前一样简化了 $b$ 的表示以方便进行推导,因此此时有

假设样本之间独立同分布,抽样得到所有样本的对数似然函数为

根据极大似然估计思想可以得到

再观察前面最小二乘的定义:

这也即是说,最小二乘估计等价于噪声服从正态分布的极大似然估计:

贝叶斯视角:极大后验估计

在极大似然估计中我们假设噪声 $\varepsilon$ 服从高斯分布,得到了

我们同时还假设 $\boldsymbol{w}$ 服从高斯分布 $\boldsymbol{w} \sim N\left(\mu, \sigma_0^{2}\right)$, 其中均值 $\mu=0$, 方差为 $\sigma_0 ^2$.

根据贝叶斯定理:

根据最大后验的思想有

我们为了简化运算,上面考虑的是单个样本,加上求和符号后

我们再看看前面 $L_2$ 正则化的目标函数:

所以我们可以认为 $L_2$ 正则化最小二乘估计等价于:先验和噪声都服从高斯分布的最大后验估计:

而 $L_1$ 正则化最小二乘估计等价于:噪声都服从高斯分布,先验服从拉普拉斯分布的最大后验估计:

这个应该可以自行推导,拉普拉斯先验概率为

推导得到的后验概率参数估计为

内容回顾

  • 用矩阵形式表达数据,可以使推导过程变得简明,另一方面使机器的运算更有效率。
  • 简单形式的最小二乘参数估计是存在闭式解的,从几何角度来看是高维向量在低维空间的投影。
  • 正则化可以解决过拟合问题,同时保证最小二乘估计的闭式解中逆矩阵可求。
  • 线性回归模型的损失函数是凸函数,因此模型的局部最优即全局最优点。
  • 最小二乘估计等价于噪声服从正态分布的极大似然估计。
  • Lasso 回归等价于参数和噪声都服从高斯分布的最大后验估计。
  • Ridge 回归等价于噪声都服从高斯分布,参数服从拉普拉斯分布的最大后验估计。