
1. 基本概念
在具有 个层级的一般 HVAE (Hierarchical VAE) 中,每个隐变量 的生成都依赖于所有更上层的隐变量 。
然而,在 马尔可夫 HVAE (MHVAE) 中,模型引入了马尔可夫假设,简化了依赖关系:每个隐变量 只依赖于其紧邻的上一层隐变量 。
2. 模型结构
MHVAE 的结构可以看作一个双向的马尔可夫链:
-
生成过程 (Decoder / ): 这是一个自顶向下的过程。
- 从最高层隐变量的先验分布 中采样得到 。
- 然后逐层向下生成,每一层 的生成只依赖于其上一层 ,即 。
- 最后,根据最底层隐变量 生成观测数据 ,即 。
- 整个过程可以表示为:。
-
推断过程 (Encoder / ): 这是一个自底向上的过程。
- 从观测数据 出发,推断最底层的隐变量 ,即 。
- 然后逐层向上推断,每一层 的推断只依赖于其下一层 ,即 。
- 整个过程可以表示为:。
3. 核心公式
3.1 联合分布与近似后验
根据上述马尔可夫假设,我们可以定义模型的联合分布和近似后验分布。
-
联合分布 (Joint Distribution - 生成模型):
-
近似后验 (Approximate Posterior - 推断模型):
3.2 ELBO (证据下界) 推导
与标准 VAE 类似,我们通过最大化证据下界 (Evidence Lower Bound, ELBO) 来训练模型。
- 目标: 对数边际似然 。
- 引入近似后验 :
- 改写为期望形式:
- 应用琴生不等式 (Jensen’s Inequality): 这个不等式的右侧就是 ELBO。
3.3 将分布代入 ELBO
最后,我们将 3.1 节中定义的联合分布和近似后验的具体形式代入 ELBO 表达式中,得到最终需要优化的目标函数。
将 和 代入:
通过对数运算法则展开后,这个表达式可以被分解为 重构项 和一系列 KL散度项,分别对应于生成数据 的能力和各层级上后验分布与先验分布的匹配程度。模型的训练目标就是最大化这个 ELBO。