联合分布 (Joint distribution)

在生成模型中,我们会考虑观测数据 和隐变量 的联合分布 。基于似然的生成模型旨在学习一个能够最大化观测数据 的似然函数 的模型。

似然 (Likelihood)

从联合分布 推导出观测数据的似然 有两种方法:

  1. 对隐变量 进行 边缘化 (积分)

  2. 使用 概率链式法则:

挑战 (Challenges)

最大化似然函数 具有挑战性,因为它涉及到:

  • 对所有隐变量 进行积分 (如方法1),或者
  • 需要得到 真实的后验概率 (如方法2)。

对于复杂的模型,这两种方法通常都是 难以直接计算 的。

最大对数似然的代理目标 (Proxy objective of maximum log-likelihood)

利用前面的两个方程,我们推导出 证据下界 (Evidence Lower Bound, ELBO),它是证据 (evidence) 的一个下界。证据被量化为观测数据的对数似然。对于优化隐变量模型而言,最大化 ELBO 可以作为最大化 证据 (对数似然) 的一个代理目标。

ELBO 的方程 (Equation of ELBO)

  • 变分后验 (variational posterior),其参数 需要通过优化来近似真实的后验分布
  • 通过训练参数 来最大化 ELBO (例如在变分自编码器 VAE 中),我们 提升了这个下界 (increase the lower bound),并获得了能够对数据分布进行建模和采样的组件,从而实现了一个生成模型。

与证据 (Evidence) 的关系

  • 证据 (Evidence) 被量化为观测数据的对数似然
  • ELBO (证据下界) 则是这个证据的下界。

ELBO 的推导

推导 1:基于琴生不等式

该推导利用对数函数的凹性以及琴生不等式。

数学背景知识

  • 期望定义 (Expectation definition):
  • 琴生不等式 (Jensen’s Inequality): 对于一个凸函数 。反之,对于一个凹函数(如对数函数 ),则有

image-20251006150256780

2:基于 KL 散度

从上式可以整理出最终关系:

因为 KL 散度总是大于等于 0 (),所以

相关概念

  • KL 散度 (KL Divergence): 它衡量两个分布的差异,分布越接近,KL 散度值越小(理想情况下为 0)。
  • 模型架构图:
    • 编码器 (Encoder) : 将观测数据 映射到隐空间,生成隐变量 的分布。它是在 近似 (approximate) 无法直接计算的真实后验
    • 解码器 (Decoder) : 从隐空间采样一个 ,重构出数据
    • image-20251006150346654

核心概念总结

  • KL 散度 (KL Divergence): 在推导1中,琴生不等式导致了 ELBO 和证据之间的差距项被“隐藏”了。推导2明确了这个差距就是 KL 散度。理解这个非负项是掌握 ELBO 与证据之间关系的关键,也是理解为什么优化 ELBO 是一个合理目标的原因。

  • 隐式目标 (Implicit Objective): 引入隐变量 是为了捕捉观测数据背后的深层结构。虽然我们的目标是让变分后验 尽可能匹配真实后验 (即最小化它们的 KL 散度),但由于真实后验 未知,因此无法直接进行优化。

  • 联合优化 (Joint Optimization): 对于给定的数据,证据 相对于变分参数 是一个常数。因此,根据关系式 最大化 ELBO 就等价于 最小化 KL 散度 。通过优化 ELBO,我们可以间接地让近似的变分后验 更接近真实的后验