[PRML]2.Probability Distributions

本章介绍一些常见的概率分布，同时也会穿插一些在贝叶斯推断中非常重要的统计学概念。

一个常见的问题是密度估计（density estimation）：给定一个观察到的数据集 $x_{1}, \dots, x_{N}$ （假设独立同分布），为随机变量 $x$ 的概率分布 $p (x)$ 建模。值得注意的是，这个问题是 ill-posed 的——存在无数种概率分布都能得到这一数据集。事实上，只要在 $x_{1}, \dots, x_{N}$ 处概率不为零即可。

密度估计方法可分为参数估计和非参估计。参数估计指用于建模的概率分布具有特定的形式并由一套参数决定，比如二项分布、多项分布和高斯分布等。用它们来做密度估计，其实就是找到对应参数的合适的值。例如，频率学派常常采用极大似然法，贝叶斯学派则先为这些参数指定一个先验分布，然后用贝叶斯定理计算后验分布。

这里引入一个重要的概念——共轭先验（conjugate priors），即先验分布与后验分布具有相同的形式，这会对大大简化贝叶斯的分析过程。例如，多项分布的共轭先验是 Dirichlet 分布，一个高斯分布的均值的共轭先验是另一个高斯分布。这些分布都属于指数族，具有一些重要的性质。

与参数估计相反，非参估计并不假设分布的某种具体形式，而是与数据集大小有关。这些模型仍然具有参数，但参数是为了控制模型的复杂度而非分布的形式。典型的方法有最近邻、核密度估计等。

Binary Variables

考虑一个二值随机变量 $x \in {0, 1}$ ，例如抛硬币是否为正面朝上，其分布由一个参数 $μ$ 决定： $x = 1$ 的概率为 $μ$ ， $x = 0$ 的概率为 $1 - μ$ ，即： $Bern (x | μ) = μ^{x} (1 - μ)^{1 - x}$ 这被称作 Bernoulli 分布。容易得到其均值和方差分别为： $\begin{aligned} E [x] & = μ \\ var [x] & = μ (1 - μ) \end{aligned}$ 设有一个独立同分布的数据集 $D = {x_{1}, \dots, x_{N}}$ ，那么似然为： $p (D | μ) = \prod_{n = 1}^{N} μ^{x_{n}} (1 - μ)^{1 - x_{n}}$ 对数似然为： $\ln p (D | μ) = \sum_{n = 1}^{N} (x_{n} \ln μ + (1 - x_{n}) \ln (1 - μ))$ 值得注意的是，计算这个对数似然其实只需要知道 $\sum_{n} x_{n}$ ，并不需要知道每一个 $x_{n}$ ，这就涉及到了充分统计量（sufficient statistic）的概念，我们将在稍后叙述。若采用频率学派的极大似然法，对上式求导取零，解得： $μ_{ML} = \frac{1}{N} \sum_{n = 1}^{N} x_{n}$ 即样本均值。

现在考虑一种情况：抛了 3 次硬币而 3 次都是正面朝上，那么极大似然法会给出 $μ_{ML} = \frac{1}{3} (1 + 1 + 1) = 1$ 的解。也就是说，模型会预测未来始终都是正面朝上！常识告诉我们这并不合理，事实上这是一个极大似然法导致过拟合问题的极端例子，稍后我们将看到如何采用贝叶斯方法避免过拟合问题。

假设 $x = 1$ （正面朝上）发生的次数是 $m$ ，则 $m$ 服从二项分布： $Bin (m | N, μ) = (\binom{N}{m}) μ^{m} (1 - μ)^{N - m}$ 二项分布的均值和方差分别为： $\begin{aligned} E [m] & = N μ \\ var [m] & = N μ (1 - μ) \end{aligned}$

The beta distribution

上文我们看到，极大似然法容易导致过拟合。那么为了使用贝叶斯方法，我们需要为参数设置一个先验分布。为了方便，我们还希望先验分布与后验分布具有相同的形式。考虑到后验分布正比于似然乘以先验，而似然是的形式，我们自然想到取先验也为和的指数形式。因此，我们选择 beta 分布为先验分布：其中是 gamma 函数，上式前面的系数保证了 beta 分布的归一性。beta 分布的均值和方差分别是：参数通常被称作超参数，下图展示了不同下 beta 分布的形状：

为了验证后验分布确实也是 beta 分布的形式，我们先暂时抛开归一化系数：其中，即反面朝上的次数。上式已经足以证明后验分布就是 beta 分布，现在只需要参照 beta 分布的形式把归一化系数加上即可：对比先验与后验分布，可见当我们观察到数据集中有次和次时，对参数分布的影响是给加上，给加上 . 因此，我们可以把超参数理解为和的“有效观察次数”（不一定是整数）。进一步，如果我们观察到了新的数据，那么我们可以把当前的后验分布当作先验分布，继续计算新的后验分布。特别地，如果我们每次只观察到一个数据，那么如果是，就给加 1，否则给加 1，下图展示了这样的一步更新：

可见，在贝叶斯视角下，这种序列式（sequential）的学习方法是非常自然的。这可以被应用在 real-time learning 之中。

如果要预测下一次试验的结果，那么其实就是要求解，根据贝叶斯方法，我们使用 sum rule 和 predict rule：即后验分布的均值，其中后验分布由式给出。根据 beta 分布的均值结论，得到：直观而言，这就是所有观察（包括真观察到的数据集和假设的先验观察）中所占比例。当数据集非常大时，，上式收敛到与极大似然相同的解。事实上这是一个普遍规律：当数据集大小趋向无穷时，贝叶斯方法和极大似然法会趋向一致。（毕竟解决过拟合问题最本质的方案就是加大数据量嘛～）

另外，从图 2.2 中我们看到，随着观察的数据量增加，后验分布变得越来越集中。事实上，这是贝叶斯学习方法的普遍性质。为了说明这一点，考虑一个参数和一个数据集，它们构成联合分布 . 根据重期望公式（law of total expectation）：这说明，的后验均值，在所有数据的平均意义下，等于先验均值。又根据全方差公式（law of total variance）：这说明的后验方差，在所有数据的平均意义下，小于先验方差。也就是说，在观察到新的数据后，的不确定性（在平均意义下）会变小，分布得更集中。

Multinomial Variables

前一节我们讨论了二值变量，引出 Bernoulli 分布和二项分布，以及二项分布的共轭分布——beta 分布。如果变量不止取两个值，而是个，那么我们也可以进行类似的讨论。我们可以用一个维向量来表示随机变量的取值，只有一个分量为 1，其余为 0（one-hot），若，就表示随机变量取值为 . 设参数表示的概率，那么：其中，且 .

考虑一个独立同分布的数据集，那么对应的似然函数为：其中为所有数据中的数量，是该分布的充分统计量。

依旧先考虑极大似然估计，注意这个问题有约束条件，所以拉格朗日函数为：求导取零，解得：即所有样本中所占比例。

考虑的联合分布，它是二项分布的推广，称作多项分布：注意满足约束 .

The Dirichlet distribution

同第一节一样，我们希望用贝叶斯方法推断参数，且希望先验分布与后验分布具有相同的形式。观察似然函数，它是的指数的乘积，所以一个自然的想法就是取先验分布也是的指数的乘积形式。或者我们也可以依葫芦画瓢，推广一下 beta 分布。无论如何，先验分布应该是如下形式：加上归一化系数，即得到 Dirichlet 分布：其中值得注意的是，由于约束条件的存在，所以 Dirichlet 分布的支撑集是阶的单纯形（simplex），即一个有界线性流形，如下图所示：

不同下的 Dirichlet 分布示意图如下图所示：

容易验证后验分布确实也是一个 Dirichlet 分布：加上归一化系数：

The Gaussian Distribution

前两节我们分别讨论了二值变量和多值变量，但它们都是离散变量。这一节我们讨论连续变量，毫无疑问从高斯分布（正态分布）开始。

单变量的高斯分布为：维随机向量的高斯分布为：高斯分布可以从多种角度推导出来。例如我们在第一章已经看到了，对于一个随机变量，高斯分布是让它的熵取到最大的分布。对于多元高斯分布也是如此。

另一种推导高斯分布的角度是考虑多个随机变量之和。中心极限定理告诉我们，在一些条件下，随着随机变量的数量增加，它们的和（或均值）趋向于高斯分布。例如，二项随机变量可以视作个 Bernoulli 随机变量的和，所以随着增加，二项分布就会趋向于高斯分布。

高斯分布具有很多重要的分析性质，这些性质是以后章节的更复杂的模型的基础，所以务必应掌握。

首先考虑高斯分布的几何形式。从其概率密度函数可以看出，高斯分布以平方的形式依赖于：这里被称作与之间的马氏距离（Mahalanobis distance），当是单位矩阵时，马氏距离退化为欧氏距离。

未完待续。

课程书籍笔记 > PRML

#machine learning

[PRML]2.Probability Distributions

https://xyfjason.github.io/blog-main/2023/05/04/PRML-2-Probability-Distributions/

作者

xyfJASON

发布于

2023年5月4日

许可协议

Midjourney 调研上一篇

Calculus of Variations 下一篇