推导过程:
1. 流形假设:高维数据x实际上分布在一个低维流形上,由少数潜在因素生成。
2. 我们构建一个生成模型,通过从一个简单的先验分布中采样,再通过解码器生成
3. 涉及到对的积分,难以直接计算 (intractable)。
4. 最大化 的**证据下界(ELBO),代理计算:
5. 编码器为给定的提供一个的概率分布**。 未知,解码器就是,它只负责从生成
定义
给AE编码的潜空间离散点换成高斯分布,使用变分推断训练模型,使其具备生成能力
- 变分 (Variational): 在由参数 参数化的一系列后验分布中,优化寻找最佳的 。
- 自编码器 (Autoencoder): 它类似于传统的自编码器,其中输入数据在经过中间的瓶颈表示 后,被训练来预测自身。
联合优化参数 和 的 ELBO
- 重构项 (Reconstruction term): 它衡量了从变分分布中,通过解码器 进行重构的可能性,确保学习到的潜在变量能有效地重新生成原始数据。
- 先验匹配项 (Prior matching term): 它衡量了学习到的编码器 的变分分布与关于潜在变量的先验信念的相似程度。
VAEs 的高斯建模 (Gaussian modeling of VAEs)
VAE 的编码器 通常被建模为具有对角协方差矩阵的多元高斯分布,而先验 通常是标准多元高斯分布。
ELBO 的蒙特卡洛估计 (Monte Carlo Estimate of ELBO)
虽然 KL 散度可以解析计算,但重构项中的期望是使用蒙特卡洛估计来近似的。这种近似依赖于对每个观测数据点 ,从 中随机采样潜在变量 ;这个过程通常是不可微的,因此给优化带来了挑战。
重参数化技巧 (Reparameterization trick)
通过重参数化技巧,可以从标准高斯分布中采样,然后通过均值 进行平移,并通过方差 进行缩放,从而实现从任意高斯分布中采样。重参数化技巧将一个随机变量重写为一个噪声变量的确定性函数,从而能够对非随机项进行梯度下降。
ELBO 中的重参数化 (Reparameterzation in ELBO)
在 VAE 中,每个 都被计算为输入 和辅助噪声变量 的确定性函数。与从分布中采样 的不可微性相比,在对 进行重参数化后,可以计算关于 的梯度来优化 和 。
数据生成 (Data generation)

在训练 VAE 之后,可以通过直接从潜在空间 采样,然后将其通过解码器来生成新数据。
当潜在变量 的维度小于输入 的维度时,变分自编码器很有意义,因为这可能会产生紧凑且有意义的表示。当学习到具有语义意义的潜在空间后,潜在向量在传递给解码器之前可以被修改,以精确控制生成的数据。