高斯判别分析

高斯判别分析(Gaussian Discriminate Analysis, GDA)，一种连续的软输出的概率生成模型。

概率生成模型

概率判别模型需要将 $p (y ∣ x)$ 的值求出来，但是概率生成模型只关心更像谁，即属于0多一点还是属于1多一点。

这里问题转化为：

p (y ∣ x) = \frac{p ( x ∣ y ) \times p ( y )}{p ( x )} \propto p (x ∣ y) \times p (y)

$p (y)$ 是先验， $p (x ∣ y)$ 是似然， $p (y ∣ x)$ 是后验。

生成模型：

\overset{y}{^} = a r g ma x_{y \in {0, 1}} p (y ∣ x) = a r g ma x_{y} p (y) p (x ∣ y)

模型定义

把 $y$ 看作一个伯努利分布： $y \sim B er n o u ll i (ϕ)$ 。
假设似然满足高斯分布： $x ∣ y = 1 \sim N (μ_{1}, Σ)$ , $x ∣ y = 0 \sim N (μ_{0}, Σ)$

这里定义一个log似然函数：

lo g - l ik e l ih oo d : w_{0} = lo g \frac{N}{i = 1} p (x_{i}, y_{i}) = i = 1 \sum N lo g (p (x_{i} ∣ y_{i}) p (y_{i})) = i = 1 \sum N [lo g p (x_{i} ∣ y_{i}) + lo g p (y_{i})] = i = 1 \sum N [lo g N (μ_{1} \overset{z}{ˉ})^{y_{i}} \cdot N (μ_{2} \overset{z}{ˉ})^{1 - y_{i}} + lo g ϕ^{y_{i}} (- ϕ)^{+ y_{i}}] = i = 1 \sum N [lo g N (μ_{1} \overset{z}{ˉ})^{y_{i}} + lo g N (μ_{2} \overset{z}{ˉ})^{1 - y_{i}} + lo g ϕ^{y_{i}} (- ϕ)^{1 - y_{i}}] = i = 1 \sum N [1 lo g N (M, Σ) + 2 lo g N (M, Σ) + 3 lo g ϕ^{y_{i}} (1 - ϕ)^{- y_{i}}]

模型求解-求 $ϕ$

首先对进行求解，将式子3对 $ϕ$ 求偏导：

i = 1 \sum N \frac{y _{i}}{ϕ} + \frac{y _{i} - 1}{1 - ϕ} = 0 ⟹ ϕ = \frac{i = 1 \sum N y _{i}}{N} = \frac{N _{1}}{N}

模型求解-求 $μ_{1}$

然后利用式子1求解 $μ_{1}$ ：

\overset{μ_{1}}{^} = a r g ma x_{μ_{1}} i = 1 \sum N y_{i} lo g N (μ_{1}, Σ) = a r g min_{μ_{1}} i = 1 \sum N y_{i} (x_{i} - μ_{1})^{T} Σ^{- 1} (x_{i} - μ_{1})

由于：

i = 1 \sum N y_{i} (x_{i} - μ_{1})^{T} Σ^{- 1} (x_{i} - μ_{1}) = i = 1 \sum N y_{i} x_{i}^{T} Σ^{- 1} x_{i} - 2 y_{i} μ_{1}^{T} Σ^{- 1} x_{i} + y_{i} μ_{1}^{T} Σ^{- 1} μ_{1}

求微分左边乘以 $Σ$ 可以得到：

i = 1 \sum N - 2 y_{i} Σ^{- 1} x_{i} + 2 y_{i} Σ^{- 1} μ_{1} = 0 ⟹ μ_{1} = \frac{i = 1 \sum N y _{i} x _{i}}{i = 1 \sum N y _{i}} = \frac{i = 1 \sum N y _{i} x _{i}}{N _{1}}

模型求解-求 $μ_{0}$

求解 $μ_{0}$ ，由于正反例是对称的，所以：

μ_{0} = \frac{i = 1 \sum N ( 1 - y _{i} ) x _{i}}{N _{0}}

模型求解-求协方差 $Σ$

最为困难的是求解 $Σ$ ，我们的模型假设对正反例采用相同的协方差矩阵，当然从上面的求解中我们可以看到，即使采用不同的矩阵也不会影响之前的三个参数。首先我们有：

i = 1 \sum N lo g N (μ, Σ) = i = 1 \sum N lo g (\frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}}) + (- \frac{1}{2} (x_{i} - μ)^{T} Σ^{- 1} (x_{i} - μ)) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} T r a ce ((x_{i} - μ)^{T} Σ^{- 1} (x_{i} - μ)) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} T r a ce ((x_{i} - μ) (x_{i} - μ)^{T} Σ^{- 1}) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} NT r a ce (S Σ^{- 1})

在这个表达式中，我们在标量上加入迹从而可以交换矩阵的顺序，对于包含绝对值和迹的表达式的导数，我们有：

\frac{\partial}{\partial A} (∣ A ∣) \frac{\partial}{\partial A} T r a ce (A B) = ∣ A ∣ A^{- 1} = B^{T}

因此：

[i = 1 \sum N ((1 - y_{i}) lo g N (μ_{0}, Σ) + y_{i} lo g N (μ_{1}, Σ)]^{'} = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} N_{1} T r a ce (S_{1} Σ^{- 1}) - \frac{1}{2} N_{2} T r a ce (S_{2} Σ^{- 1})

其中， $S_{1}, S_{2}$ 分别为两个类数据内部的协方差矩阵，于是：

N Σ^{- 1} - N_{1} S_{1}^{T} Σ^{- 2} - N_{2} S_{2}^{T} Σ^{- 2} = 0 ⟹ Σ = \frac{N _{1} S _{1} + N _{2} S _{2}}{N}

这里应用了类协方差矩阵的对称性。

于是我们就利用最大后验的方法求得了我们模型假设里面的所有参数，根据模型，可以得到联合分布，也就可以得到用于推断的条件分布了。

Quartz 4

Explorer

高斯判别分析