Markovian HVAE

1. 基本概念

在具有 $T$ 个层级的一般 HVAE (Hierarchical VAE) 中，每个隐变量 $z_{t}$ 的生成都依赖于所有更上层的隐变量 ${z_{t + 1}, ..., z_{T}}$ 。

然而，在 马尔可夫 HVAE (MHVAE) 中，模型引入了马尔可夫假设，简化了依赖关系：每个隐变量 $z_{t}$ 只依赖于其紧邻的上一层隐变量 $z_{t + 1}$ 。

MHVAE 的结构可以看作一个双向的马尔可夫链：

生成过程 (Decoder / $p_{θ}$ ): 这是一个自顶向下的过程。
1. 从最高层隐变量的先验分布 $p (z_{T})$ 中采样得到 $z_{T}$ 。
2. 然后逐层向下生成，每一层 $z_{t - 1}$ 的生成只依赖于其上一层 $z_{t}$ ，即 $p_{θ} (z_{t - 1} ∣ z_{t})$ 。
3. 最后，根据最底层隐变量 $z_{1}$ 生成观测数据 $x$ ，即 $p_{θ} (x ∣ z_{1})$ 。
4. 整个过程可以表示为： $z_{T} \to z_{T - 1} \to \dots \to z_{1} \to x$ 。
推断过程 (Encoder / $q_{ϕ}$ ): 这是一个自底向上的过程。
1. 从观测数据 $x$ 出发，推断最底层的隐变量 $z_{1}$ ，即 $q_{ϕ} (z_{1} ∣ x)$ 。
2. 然后逐层向上推断，每一层 $z_{t}$ 的推断只依赖于其下一层 $z_{t - 1}$ ，即 $q_{ϕ} (z_{t} ∣ z_{t - 1})$ 。
3. 整个过程可以表示为： $x \to z_{1} \to z_{2} \to \dots \to z_{T}$ 。

根据上述马尔可夫假设，我们可以定义模型的联合分布和近似后验分布。

联合分布 (Joint Distribution - 生成模型):
$p (x, z_{1 : T}) = p (z_{T}) p_{θ} (x ∣ z_{1}) t = 2 \prod T p_{θ} (z_{t - 1} ∣ z_{t})$
近似后验 (Approximate Posterior - 推断模型):
$q_{ϕ} (z_{1 : T} ∣ x) = q_{ϕ} (z_{1} ∣ x) t = 2 \prod T q_{ϕ} (z_{t} ∣ z_{t - 1})$

与标准 VAE 类似，我们通过最大化证据下界 (Evidence Lower Bound, ELBO) 来训练模型。

目标: 对数边际似然 $lo g p (x)$ 。 $lo g p (x) = lo g \int p (x, z_{1 : T}) d z_{1 : T}$
引入近似后验 $q_{ϕ}$ : $= lo g \int p (x, z_{1 : T}) \frac{q _{ϕ} ( z _{1 : T} ∣ x )}{q _{ϕ} ( z _{1 : T} ∣ x )} d z_{1 : T}$
改写为期望形式: $= lo g E_{q_{ϕ} (z_{1 : T} ∣ x)} [\frac{p ( x , z _{1 : T} )}{q _{ϕ} ( z _{1 : T} ∣ x )}]$
应用琴生不等式 (Jensen’s Inequality): $\geq E_{q_{ϕ} (z_{1 : T} ∣ x)} [lo g \frac{p ( x , z _{1 : T} )}{q _{ϕ} ( z _{1 : T} ∣ x )}]$ 这个不等式的右侧就是 ELBO。

最后，我们将 3.1 节中定义的联合分布和近似后验的具体形式代入 ELBO 表达式中，得到最终需要优化的目标函数。

ELBO = E_{q_{ϕ} (z_{1 : T} ∣ x)} [lo g \frac{p ( x , z _{1 : T} )}{q _{ϕ} ( z _{1 : T} ∣ x )}]

将 $p (x, z_{1 : T})$ 和 $q_{ϕ} (z_{1 : T} ∣ x)$ 代入：

= E_{q_{ϕ} (z_{1 : T} ∣ x)} [lo g \frac{p ( z _{T} ) p _{θ} ( x ∣ z _{1} ) \prod _{t = 2}^{T} p _{θ} ( z _{t - 1} ∣ z _{t} )}{q _{ϕ} ( z _{1} ∣ x ) \prod _{t = 2}^{T} q _{ϕ} ( z _{t} ∣ z _{t - 1} )}]

通过对数运算法则展开后，这个表达式可以被分解为 重构项 和一系列 KL散度项，分别对应于生成数据 $x$ 的能力和各层级上后验分布与先验分布的匹配程度。模型的训练目标就是最大化这个 ELBO。