• 参考材料:CS 229 讨论课笔记(原材料为英文), 更新了一些内容
  • 推荐材料:A First Course on Probability / 概率论与数理统计(陈希孺)

概率基础

概率论是一门研究不确定性的科学,为了更好地定义概率,我们需要一些基础概念:

  • 样本空间 $\Omega​$ :指一个实验或随机实验所有可能结果的集合。此处的每个结果 $\omega \in \Omega$ 可以被认为是事件结束时对真实世界状态的描述,被称为样本点。
  • 事件集合(或事件空间) $\mathcal{F}$ :指满足其中元素 $A \in \mathcal{F}$ (称为事件) 为 $\Omega$ 子集的所有集合(即 $A \subseteq \Omega$ 为一组实验可能的结果). $\mathcal{F}$ 应当满足三条性质:1. $\emptyset \in \mathcal{F}$; 2. $A \in \mathcal{F} \Longrightarrow \Omega \backslash A \in \mathcal{F}$ ; 3. $A_{1}, A_{2}, \ldots \in \mathcal{F} \Longrightarrow \bigcup_{i} A_{i} \in \mathcal{F} $.
  • 概率测度:满足以下性质的函数 $P : \mathcal{F} \rightarrow \mathbb{R}$ ,
    • 非负性:对所有的 $A \in \mathcal{F}$ , 有 $P(A) \geq 0$,即任一事件的概率都可以用 $0$ 到 $1$ 区间上的实数表示
    • 归一化:$P(\Omega)=1$, 即整体样本集合中的某个基本事件发生的概率为 $1$
    • 可加性:如果 $A_1, A_2, \dots$ 为不相交事件(即每当 $i \neq j$ 有 $A_{i} \cap A_{j}=\emptyset$), 那么它们的并的事件集合的概率为对应事件概率的和,即

以上这三条性质被称为“概率公理”,又叫“柯尔莫果洛夫公理”。

举例:考虑投一个六面骰子这一事件。样本空间为 $\Omega=\{1,2,3,4,5,6\}$. 我们可以在这个样本空间内定义不同的事件空间。例如,最简单的事件空间为平凡事件空间 $\mathcal{F}=\{\emptyset, \Omega\}$ . 另一个事件空间是 $\Omega$ 的所有子集。对第一种情况,唯一的满足上述条件的概率测度为 $P(\emptyset)=0$, $P(\Omega)=1$;对第二种情况,一个有效的概率测度是将事件空间中每个集合的概率分配为 $\frac{i}{6}$, 其中 $i$ 是该集合的元素数量;例如,$P(\{1,2,3,4\})=\frac{4}{6}$, 以及 $P(\{1,2,3\})=\frac{3}{6}$. 性质如下:

  • 如果 $A \subseteq B \Longrightarrow P(A) \leq P(B)​$.
  • $P(A \cap B) \leq \min (P(A), P(B))$.
  • (上连续性) $P(A \cup B) \leq P(A)+P(B)$.
  • $P(\Omega \backslash A)=1-P(A)$.
  • (全概率定理) 如果 $A_{1}, \ldots, A_{k}$ 为不相交事件的集合满足 $\cup_{i=1}^{k} A_{i}=\Omega$, 则有 $\sum_{i=1}^{k} P\left(A_{k}\right)=1$.

条件概率与独立

令 $B$ 表示非零概率事件,在 $B$ 发生的情况下任意事件 $A$ 的条件概率定义为:

换句话说,$P(A | B) $ 是观察到事件 $B$ 发生后对事件 $A$ 的概率测度。当且仅当 $P(A \cap B)=P(A) P(B)$ 时,可称两个事件是独立的(或者说 $P(A | B)=P(A)$, 意思一样). 因此,当我们提到独立,通常是指观察事件 $B$ 对事件 $A$ 的概率没有任何影响。

随机变量

考虑一个抛 $10$ 枚硬币的试验,我们想知道其中正面朝上的硬币数量。此时样本空间 $\Omega$ 的元素为由正面(记为 $H$) 和反面(记为 $T$) 组成的长度为 $10$ 的序列。例如,我们可能有

然而在实际情况中,我们通常不关心得到任何特定正反面序列的概率;相反,我们关注结果的实值函数,比如 $10$ 次抛硬币中出现的正面朝上的数量,或者最长连续出现反面朝上的次数。在一些数学表述中,这些函数被称为随机变量。

更正式地说,随机变量 $X$ 是某个函数 $X : \Omega \longrightarrow \mathbb{R}$. 通常,我们使用大写字母 $X(\omega)$ 表示随机变量,或简写为 $X$ (隐性地意味着其与随机结果 $w$ 有关). 我们将用小写字母 $x$ 表示随机变量的值。

严格地说,并不是所有满足这种形式的函数都能作为随机变量。从测度论的角度来看,随机变量必须是波勒尔可测函数。直观解释就是,该限制确保给定一个随机变量及其潜在结果空间,可以隐式地将事件空间中的每个事件定义为结果 $\omega \in \Omega$ 的集合,使得 $X(\omega)$ 满足一些性质(例如事件 $\{\omega : X(\omega) \geq 3\}$). 如果不理解这一段话,也没有关系。

举例:在上面提到的试验中,假设 $X(w)$ 是投掷结果序列 $w$ 中正面朝上的数量。由于只投掷了 $10$ 枚硬币,因此 $X(w)$ 的取值数量是有限的,这也被称为离散随机变量。这里,随机变量 $X$ 取到某些特定值 $k$ 的集合概率为

举例:假设 $X(w)$ 是表示放射性粒子衰变所需时间的随机变量。在这种情况下, $X(w)$ 的取值数量是无限的,因此被称为连续随机变量。我们定义随机变量 $X$ 取值在两个实常数 $a$ 和 $b$ (其中 $a<b$) 的概率为

累积分布函数

为了说明处理随机变量时使用的概率测度,通常可以方便地指定替代函数(CDFs、PDFs 和 PMFs) ,从而得出控制试验的概率度量。在本节和接下来的两节中,我们将依次描述这些类型的函数。

累计分布函数(CDF) 是形如 $F_{X} : \mathbb{R} \rightarrow[0,1]$ 的一类函数,指定概率度量为,

使用这类函数可以计算 $\mathcal{F}$ 中任意事件的概率。性质如下:

  • $0 \leq F_{X}(x) \leq 1$
  • $\lim\ _{x \rightarrow-\infty} F_{X}(x)=0$
  • $\lim\ _{x \rightarrow \infty} F_{X}(x)=1$
  • $x \leq y \Longrightarrow F_{X}(x) \leq F_{X}(y)$

概率质量函数

当一个随机变量 $X$ 取一组有限的可能值时(即 $X$ 是离散随机变量), 一种表示相关随机变量的概率度量的简单办法是,直接指定随机变量可取的每个假设值的概率. 特别是概率质量函数(PMF) $p_{X} : \Omega \rightarrow \mathbb{R}$ :

在离散随机变量的情况下,我们使用符号 $\operatorname{Val}(X)$ 表示随机变量 $X$ 可能假设的一组值。例如,如果 $X(\omega)$ 是关于投 $10$ 枚硬币正面朝上数量的随机变量,那么 $\operatorname{Val}(X)=\{0,1,2, \ldots, 10\}$. 性质如下:

  • $0 \leq p_{X}(x) \leq 1$
  • $\sum_{x \in \operatorname{Val}(X)} p_{X}(x)=1$
  • $\sum_{x \in A} p_{X}(x)=P(X \in A)$

概率密度函数

对于某些连续离散变量,其累积分布函数 $F_{X}(x)$ 在任意处可微。在这种情况下,概率密度函数(PDF) 可以看作是累计分布函数的微分,即

注意,连续随机变量的累积分布函数可能并不总是存在(如果 $F_{X}(x)$ 并不是在任意处可微).

根据微分的性质,对于很小的 $\Delta x$,

累积分布函数与概率密度函数都能被用来计算不同事件的概率(当函数存在时). 但应该强调的是,在任意给定点 $x$ 处的概率密度函数的值并不是对应事件的概率,即 $f_{X}(x) \neq P(X=x)$. 例如 $f_{X}(x)$ 可以取大于 $1$ 的值(但是对于 $\mathbb{R}$ 的任何子集 $f_{X}(x)$ 的积分最多为 $1$). 概率密度函数的性质为:

  • $f_{X}(x) \geq 0$.
  • $\int_{-\infty}^{\infty} f_{X}(x)=1$.
  • $\int_{x \in A} f_{X}(x) d x=P(X \in A)$

期望

假设 $X$ 是一个离散随机变量,概率质量函数为 $p_{X}(x)$, 有任意函数 $g : \mathbb{R} \longrightarrow \mathbb{R}$. 在这种情况下,$g(X)$ 可被看作是一个随机变量,并且我们定义 $g(X)$ 的期望或者说期望值为

如果 $X$ 是一个连续随机变量,概率密度函数为 $f_{X}(x)$, 那么 $g(X)$ 的期望定义为,

直观地看, $g(X)$ 的期望可以被认为是 $g(x)$ 对不同的 $x$ 取得值的“加权平均”,其中权重由 $p_{X}(x)$ 或 $f_{X}(x)$ 给出。作为上述的特例,注意随机变量本身的期望 $E[X]$ 是通过令 $g(x)=x$ 得到的,这也被称为随机变量 $X$ 的均值。其性质如下:

  • 对任意常数 $a \in \mathbb{R}$ 有 $E[a]=a$.
  • 对任意常数 $a \in \mathbb{R}$ 有 $E[a f(X)]=a E[f(X)]$.
  • (期望的线性) $E[f(X)+g(X)]=E[f(X)]+E[g(X)]$.
  • 对于离散随机变量 $X$, $E[1\{X=k\}]=P(X=k)$

方差

随机变量 $X$ 的方差是随机变量 $X$ 的分布在其平均值附近的集中程度的度量。形式上定义为:

使用前面的知识,我们可以推导出方差的替代表达式:

其中第二步等式推导用到了期望的线性特性,以及因子 $E[X]$ 实际上是关于整体期望的一个常数。方差具备的性质如下:

  • 对任意常数 $a \in \mathbb{R}$ 有 $\operatorname{Var}[a]=0$.
  • 对任意常数 $a \in \mathbb{R}$ 有 $\operatorname{Var}[a f(X)]=a^{2} \operatorname{Var}[f(X)]$.

举例:均匀随机变量 $X$ 的概率密度函数 $f_{X}(x)=1, \forall x \in[0,1] $,否则为 $0$. 计算其均值和方差。

举例:假设对于某子集 $A \subseteq \Omega$, 有 $g(x)=1\{x \in A\}$. 求 $E[g(X)]$.

离散情况:

连续情况:

一些常见的随机变量

离散随机变量

  • $X \sim \text { Bernoulli }(p)$ (其中 $0 \leq p \leq 1$) : 投掷一枚硬币,正面朝上表示为 $1$, 概率为 $p$; 否则为 $0$.
  • $X \sim \operatorname{Binomial}(n, p)$ (其中 $0 \leq p \leq 1$): 独立投掷 $n$ 次硬币出现正面朝上次数,每次正面朝上概率为 $p$.
  • $X \sim \text { Geometric }(p)​$ (其中 $p>0​$) : 投掷若干次硬币直至第一次出现正面朝上,每次正面朝上概率为 $p​$.
  • $X \sim \operatorname{Poisson}(\lambda)$ (其中 $\lambda>0$) : 用于模拟罕见事件频率的非负整数的概率分布。

连续随机变量

  • $X \sim U n i f o r m(a, b)$ (其中 $a<b$) : 实线上 $a$ 和 $b$ 之间的每个值的概率密度相等。
  • $X \sim \text { Exponential }(\lambda)$ (其中 $\lambda >0$) : 在非负实数上衰减的概率密度。
  • $X \sim \operatorname{Normal}\left(\mu, \sigma^{2}\right)$ : 也称为高斯分布。

下面这张表格总结了这些分布的一些性质。

分布 概率密度函数或概率质量函数 均值 方差
$Bernoulli(p)$ $p$ for $x=1$ ; $1-p$ for $x=0$ $p$ $p(1-p)$
$Binomial(n, p)$ $\left( \begin{array}{l}{n} \ {k}\end{array}\right) p^{k}(1-p)^{n-k}$ for $0 \leq k \leq n$ $n p$ $n p q$
$Geometric (p)$ $p(1-p)^{k-1}$ for $k=1,2, \ldots$ $\frac{1}{p}$ $\frac{1-p}{p^{2}}$
$Poisson (\lambda)$ $e^{-\lambda} \lambda^{x} / x !$ for $k=1,2, \ldots$ $\lambda$ $\lambda$
$Uniform(a, b)$ $\frac{1}{b-a} \quad \forall x \in(a, b)$ $\frac{a+b}{2}$ $\frac{(b-a)^{2}}{12}$
$Gaussian\left(\mu, \sigma^{2}\right)$ $\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$ $\mu$ $\sigma^{2}$
$Exponential(\lambda)$ $\lambda e^{-\lambda x} x \geq 0, \lambda>0$ $\frac{1}{\lambda}$ $\frac{1}{\lambda^{2}}$

二元随机变量

到目前为止,我们已经考虑了单个随机变量的情况。 然而在许多情况下,在随机试验中我们可能知道的量不止一个。 例如,在我们投掷硬币十次的实验中,我们可能关心正面朝上的次数 $X(\omega)$ 以及最长连续正面朝上的次数 $Y(\omega)$. 在本节中,我们考虑设置两个随机变量。

联合分布与边缘分布

假设我们有两个随机变量 $X$ 和 $Y$ , 使用这两个随机变量的方法是分别对它们进行考虑。如果我们这样做,则只需要 $F_{X}(x)$ 和 $F_{Y}(y)$. 但如果我们想要知道 $X$ 和 $Y$ 在随机试验的结果中同时进行假设的值,就需要一个更加复杂的结构,称为 $X$ 和 $Y$ 的联合累积分布函数,定义为

可以发现,当知道了联合累积分布函数后,任意含有 $X$ 和 $Y$ 的事件概率都可以被计算出来。

联合累积分布函数与联合分布函数 $F_{X}(x)$ 和 $F_{Y}(y)$ 中的每个变量都分别存在以下关系

此时,我们称 $F_{X}(x)$ 和 $F_{Y}(y)$ 是 $F_{X Y}(x, y)$ 的边缘累积分布函数。满足性质如下:

  • $0 \leq F_{X Y}(x, y) \leq 1$.
  • $\lim _{x, y \rightarrow \infty} F_{X Y}(x, y)=1$.
  • $\lim _{x, y \rightarrow-\infty} F_{X Y}(x, y)=0$
  • $F_{X}(x)=\lim _{y \rightarrow \infty} F_{X Y}(x, y)$

联合/边缘概率质量函数

令 $X$ 和 $Y$ 表示满足联合分布函数 $F_{X Y}$ 的两个离散随机变量,则联合概率质量函数 $p_{X Y} : \mathbb{R} \times \mathbb{R} \rightarrow [0,1]$ 被定义为

此处对所有 $x, y$ 有 $0 \leq P_{X Y}(x, y) \leq 1$, 并且 $\sum_{x \in \operatorname{Val}(X)} \sum_{y \in \operatorname{Val}(Y)} P_{X Y}(x, y)=1$.

联合概率质量函数与两个变量分别的概率质量函数存在什么样的联系?结果表明

对 $p_{Y}(y)$ 也类似。在这种情况下,我们将 $p_{X}(x)$ 称为 $X$ 的边缘概率质量函数。在统计学中,通过将另一个变量相加来形成关于某个变量的边缘分布的过程通常被称为“边缘化”。

联合/边缘概率密度函数

令 $X$ 和 $Y$ 表示满足联合分布函数 $F_{X Y}$ 的两个连续随机变量。在这种情况下,$F_{X Y}(x, y)$ 对 $x$ 和 $y$ 处处可微,于是我们可以定义联合概率密度函数,

与单维度的情况类似,$f_{X Y}(x, y) \neq P(X=x, Y=y)$, 但是有

注意概率密度函数 $f_{X Y}(x, y)$ 的值总是非负的,但可能不超过 $1$, 尽管如此,也一定满足这种情况 $\int\ _{-\infty}^{\infty} \int _{-\infty}^{\infty} f _{X Y}(x, y)=1$.

与离散的情况类似,我们定义

作为 $X$ 的边缘概率密度函数(或者说边缘密度), 对 $f_{Y}(y)$ 类似。

条件分布

条件分布的提出是为了回答这样的问题,当我们知道 $X$ 必须取某个确定值 $x$ 的时候,$Y$ 的概率分布是什么样的?在离散的情况下,假设 $p_{X}(x) \neq 0$, $X$ 和 $Y$ 的条件概率质量函数可以简单表示为

在连续的情况下,因为连续随机变量 $X$ 在某个特殊值 $x$ 的取值可以等于 $0$, 情况稍微变得复杂一些。忽略这一点,认为 $f_{X}(x) \neq 0$, 我们则可以与离散情况一样进行简单地定义,给定 $X=x$, $Y$ 的条件概率密度函数为

为了证明上述复杂情况,一种更合理的计算条件概率密度函数的方法为

很容易发现如果 $F(x, y)$ 对 $x$ 和 $y$ 都可微,则有

因此我们定义给定 $X=x$, $Y$ 条件概率密度函数为,

贝叶斯定理

当我们推导条件概率公式时,经常使用贝叶斯定理。

对于离散随机变量 $X$ 和 $Y$,

对于连续随机变量 $X$ 和 $Y$,

独立性

如果对所有 $x$ 和 $y$ 有 $F_{X Y}(x, y)=F_{X}(x) F_{Y}(y)$, 则称两个随机变量 $X$ 和 $Y$ 是独立的。同样地有,

  • 离散随机变量,对所有 $x \in \operatorname{Val}(X)$, $y \in \operatorname{Val}(Y)$, 有 $p_{X Y}(x, y)=p_{X}(x) p_{Y}(y)$.
  • 离散随机变量,对所有 $y \in \operatorname{Val}(Y)$, 当 $p_{X}(x) \neq 0$ 时,有 $p_{Y | X}(y | x)=p_{Y}(y)$
  • 连续随机变量,对所有 $x, y \in \mathbb{R}$, 有 $f_{X Y}(x, y)=f_{X}(x) f_{Y}(y)$.
  • 连续随机变量,对所有 $y \in \mathbb{R}$, 当 $f_{X}(x) \neq 0$ 时,有 $f_{Y | X}(y | x)=f_{Y}(y)$.

正式来说,两个随机变量 $X$ 和 $Y$ 独立,指“知道”某个变量永远不会对另一个变量的条件概率分布有任何影响。也即是说,你仅通过知道 $f(x)$ 和 $f(y)$ 从而知道了所有的 $(X, Y)$ 对。以下引理形式化了这一观察结果:

如果对任何子集 $A, B \subseteq \mathbb{R}$, $X$ 和 $Y$ 是独立的,则有

通过上述引理,可以证明如果 $X$ 独立于 $Y$, 则 $X$ 的任何函数都独立于 $Y$ 的任何函数。

期望与协方差

假设我们有两个离散随机变量 $X$ 和 $Y$, 以及关于这两个随机变量的函数 $g : \mathbf{R}^{2} \rightarrow \mathbf{R}$, 则 $g$ 的期望值可以定义如下,

对于两个连续随机变量 $X$ 和 $Y$, 类似的表达式为

我们可以根据期望的概念研究两个随机变量相互的关系。通常,两个变量 $X$ 和 $Y$ 的协方差定义为

和对方差的讨论方法类似,公式可以重写成,

体现协方差一致性的关键在于第三个等式,其中的因子 $E[X]$ 和 $E[Y]$ 实际上是常数,因此可以被提出来。当满足 $\operatorname{Cov}[X, Y]=0$ 时,我们称 $X$ 和 $Y$ 是不相关的。然而这与说明 $X$ 和 $Y$ 独立的情况不同!举个例子,如果 $X \sim Uniform(-1,1)$ 且 $Y=X^{2}$, 即使 $X$ 和 $Y$ 不是独立的,二者却也是不相关的。协方差性质如下:

  • (期望线性) $E[f(X, Y)+g(X, Y)]=E[f(X, Y)]+E[g(X, Y)]$。
  • $\operatorname{Var}[X+Y]=\operatorname{Var}[X]+\operatorname{Var}[Y]+2 \operatorname{Cov}[X, Y]$
  • 如果 $X$ 和 $Y$ 是独立的,则 $\operatorname{Cov}[X, Y]=0$.
  • 如果 $X$ 和 $Y$ 是独立的,则 $E[f(X) g(Y)]=E[f(X)] E[g(Y)]$.

多元随机变量

在前面小节介绍的符号与概念可以推广到超过二元随机变量的情况,通常假设有 $n$ 个连续随机变量 $X_{1}(\omega), X_{2}(\omega), \ldots X_{n}(\omega)$. 在这个小节,为了简化表示,我们只关注连续的情况,但离散随机变量的情况与之类似。

基础性质

我们定义 $X_{1}, X_{2}, \ldots, X_{n}$ 的联合分布函数, $X_{1}, X_{2}, \ldots, X_{n}$ 的联合概率密度函数,$X_{1}$ 的边缘概率密度函数,以及给定 $X_{2}, \dots, X_{n}$ 时 $X_{1}$ 的条件概率密度函数为,

为了计算事件 $A \subseteq \mathbb{R}^{n}$ 的概率我们有

链式法则:根据条件概率在多元变量时的定义,可以发现

独立性:对于多个事件 $A_{1}, \dots, A_{k}$, 我们可以说 $A_{1}, \dots, A_{k}$ 对任意子集$S \subseteq{1,2, \ldots, k}$ 相互独立,有

类似地,我们可以说随机变量 $X_{1}, \dots, X_{n}$ 独立,如果满足

此处相互独立的定义只是两个随机变量独立到多个随机变量的自然推广。

独立随机变量经常出现在机器学习算法中,我们假设属于训练集的训练样例代表来自某个未知概率分布的独立抽样。为了使得独立的意义更清晰,考虑一个“糟糕”的训练集,我们首先从一些未知的分布中抽取一个训练样例 $\left(x^{(1)}, y^{(1)}\right)$, 接着将完全相同的 $m-1$ 个训练样例的拷贝添加到训练集中。在这种情况下,我们有

尽管训练集的规模为 $m$, 但这些样例并不是独立的!虽然这里描述的流程显然不是构建机器学习算法训练集的合理方法,但事实证明,在实践中样本的非独立性情况经常出现,并且它具有减少训练集“有效大小”的效果。

随机向量

假设我们有 $n$ 个随机变量。当同时使用所有这些随机变量时,我们将发现有一种方便的方法,将它们全部放进一个向量 $X=\left[X_{1} X_{2} \ldots X_{n}\right]^{T}$, 我们称这样的向量为随机向量(更正式地说,随机向量是从 $\Omega$ 到 $\mathbb{R}^{n}$ 的一种映射). 随机向量显然只是处理 $n$ 个随机变量的另一种表示法,因此联合概率密度函数和累计分布函数也可以使用随机向量表示。

期望:考虑任意函数 $g : \mathbb{R}^{n} \rightarrow \mathbb{R}$. 该函数的期望值定义为

其中 $\int_{\mathbb{R}^{n}}$ 是从 $-\infty$ 到 $\infty$ 的 $n$ 次连续积分。如果 $g$ 是一个从 $\mathbb{R}^{n}$ 到 $\mathbb{R}^{m}$ 的函数,则 $g$ 的期望值是一个输出向量元素级的期望值组合。即如果 $g$ 是

则有,

协方差矩阵:对于给定的随机变量 $X : \Omega \rightarrow \mathbb{R}^{n}$, 对应的协方差矩阵 $\Sigma$ 是 $n \times n$ 方阵,其中的元素由 $\operatorname{Cov}\left[X_{i}, X_{j}\right]$ 给出。

根据协方差的定义,我们有

其中矩阵的期望由上面的方法定义。

协方差矩阵有一些有用的性质:

  • $\Sigma \succeq 0$, 即 $\Sigma$ 是一个半正定矩阵。
  • $\Sigma=\Sigma^{T}$, 即 $\Sigma$ 是一个对称矩阵。

多元高斯分布

随机向量 $X$ 的一个特别重要的概率分布被称为多元高斯分布或多元正态分布。一个随机向量 $X \in \mathbb{R}^{n}$ 如果满足均值 $\mu \in \mathbb{R}^{n}$ 且协方差矩阵 $\Sigma \in \mathbb{S}_{++}^{n}$ (其中 $\mathbb{S}_{++}^{n}$ 指对称正定 $n \times n$ 矩阵的空间), 则认为其服从多元正态分布(或者说多元高斯分布).

我们将其写为 $X \sim \mathcal{N}(\mu, \Sigma)$. 注意当 $n=1$ 时,就退化成了正态分布的常规定义,其中均值为 $\mu_{1}$, 方差为 $\Sigma_{11}$.

一般来说,高斯随机变量在机器学习和统计学中非常有用,主要有两个原因。 首先,在统计算法中对“噪声”进行建模时,它们非常常见。 噪声通常可以被认为是影响测量过程的大量微小的独立随机扰动的累积; 通过中心极限定理,独立随机变量的求和将倾向于“看起来高斯”。其次,高斯随机变量对于许多分析操作是方便的,因为许多涉及在实践中出现的高斯分布的积分具有简单的闭式解。