image-20251007121832229

1. 基本概念

在具有 个层级的一般 HVAE (Hierarchical VAE) 中,每个隐变量 的生成都依赖于所有更上层的隐变量

然而,在 马尔可夫 HVAE (MHVAE) 中,模型引入了马尔可夫假设,简化了依赖关系:每个隐变量 只依赖于其紧邻的上一层隐变量

2. 模型结构

MHVAE 的结构可以看作一个双向的马尔可夫链:

  • 生成过程 (Decoder / ): 这是一个自顶向下的过程。

    1. 从最高层隐变量的先验分布 中采样得到
    2. 然后逐层向下生成,每一层 的生成只依赖于其上一层 ,即
    3. 最后,根据最底层隐变量 生成观测数据 ,即
    4. 整个过程可以表示为:
  • 推断过程 (Encoder / ): 这是一个自底向上的过程。

    1. 从观测数据 出发,推断最底层的隐变量 ,即
    2. 然后逐层向上推断,每一层 的推断只依赖于其下一层 ,即
    3. 整个过程可以表示为:

3. 核心公式

3.1 联合分布与近似后验

根据上述马尔可夫假设,我们可以定义模型的联合分布和近似后验分布。

  • 联合分布 (Joint Distribution - 生成模型):

  • 近似后验 (Approximate Posterior - 推断模型):

3.2 ELBO (证据下界) 推导

与标准 VAE 类似,我们通过最大化证据下界 (Evidence Lower Bound, ELBO) 来训练模型。

  1. 目标: 对数边际似然
  2. 引入近似后验 :
  3. 改写为期望形式:
  4. 应用琴生不等式 (Jensen’s Inequality): 这个不等式的右侧就是 ELBO。

3.3 将分布代入 ELBO

最后,我们将 3.1 节中定义的联合分布和近似后验的具体形式代入 ELBO 表达式中,得到最终需要优化的目标函数。

代入:

通过对数运算法则展开后,这个表达式可以被分解为 重构项 和一系列 KL散度项,分别对应于生成数据 的能力和各层级上后验分布与先验分布的匹配程度。模型的训练目标就是最大化这个 ELBO。