联合分布 (Joint distribution)
在生成模型中,我们会考虑观测数据 和隐变量 的联合分布 。基于似然的生成模型旨在学习一个能够最大化观测数据 的似然函数 的模型。
似然 (Likelihood)
从联合分布 推导出观测数据的似然 有两种方法:
-
对隐变量 进行 边缘化 (积分):
-
使用 概率链式法则:
挑战 (Challenges)
最大化似然函数 具有挑战性,因为它涉及到:
- 对所有隐变量 进行积分 (如方法1),或者
- 需要得到 真实的后验概率 (如方法2)。
对于复杂的模型,这两种方法通常都是 难以直接计算 的。
最大对数似然的代理目标 (Proxy objective of maximum log-likelihood)
利用前面的两个方程,我们推导出 证据下界 (Evidence Lower Bound, ELBO),它是证据 (evidence) 的一个下界。证据被量化为观测数据的对数似然。对于优化隐变量模型而言,最大化 ELBO 可以作为最大化 证据 (对数似然) 的一个代理目标。
ELBO 的方程 (Equation of ELBO)
- 是 变分后验 (variational posterior),其参数 需要通过优化来近似真实的后验分布 。
- 通过训练参数 来最大化 ELBO (例如在变分自编码器 VAE 中),我们 提升了这个下界 (increase the lower bound),并获得了能够对数据分布进行建模和采样的组件,从而实现了一个生成模型。
与证据 (Evidence) 的关系
- 证据 (Evidence) 被量化为观测数据的对数似然 。
- ELBO (证据下界) 则是这个证据的下界。
ELBO 的推导
推导 1:基于琴生不等式
该推导利用对数函数的凹性以及琴生不等式。
数学背景知识
- 期望定义 (Expectation definition):
- 琴生不等式 (Jensen’s Inequality): 对于一个凸函数 ,。反之,对于一个凹函数(如对数函数 ),则有 。
2:基于 KL 散度
从上式可以整理出最终关系:
因为 KL 散度总是大于等于 0 (),所以 。
相关概念
- KL 散度 (KL Divergence): 它衡量两个分布的差异,分布越接近,KL 散度值越小(理想情况下为 0)。
- 模型架构图:
- 编码器 (Encoder) : 将观测数据 映射到隐空间,生成隐变量 的分布。它是在 近似 (approximate) 无法直接计算的真实后验 。
- 解码器 (Decoder) : 从隐空间采样一个 ,重构出数据 。
核心概念总结
-
KL 散度 (KL Divergence): 在推导1中,琴生不等式导致了 ELBO 和证据之间的差距项被“隐藏”了。推导2明确了这个差距就是 KL 散度。理解这个非负项是掌握 ELBO 与证据之间关系的关键,也是理解为什么优化 ELBO 是一个合理目标的原因。
-
隐式目标 (Implicit Objective): 引入隐变量 是为了捕捉观测数据背后的深层结构。虽然我们的目标是让变分后验 尽可能匹配真实后验 (即最小化它们的 KL 散度),但由于真实后验 未知,因此无法直接进行优化。
-
联合优化 (Joint Optimization): 对于给定的数据,证据 相对于变分参数 是一个常数。因此,根据关系式 ,最大化 ELBO 就等价于 最小化 KL 散度 。通过优化 ELBO,我们可以间接地让近似的变分后验 更接近真实的后验 。

