线性判别分析

思想是：类内小，类间大。

从降维的角度出发，把数据全部投影到一维的坐标轴上，之后选定一个阈值来分类。

现在需要找一个最合适的投影方向，比如说上图中右边的更好。

这里指的就是最大化类间间隔，最小化类内方差。用计算机行话就是**“高内聚低耦合”**。

首先是投影，我们假定原来的数据是向量 $x$ ，那么顺着 $w$ 的方向投影就是标量 $z$ ：

z = w^{T} \cdot x (= ∣ w ∣ \cdot ∣ x ∣ cos θ)

投影的均值 $\overset{z}{ˉ}$ ：

\overset{z}{ˉ} = \frac{1}{N} w^{T} \cdot x

投影的方差 $S_{z}$ ：

S_{z} = \frac{1}{N} i = 1 \sum N_{2} (z_{i} - \overset{z}{ˉ}) (z_{i} - \overset{z}{ˉ})^{T} = \frac{1}{N} i = 1 \sum N_{2} (w^{T} x_{i} - \overset{z}{ˉ}) (w^{T} x_{i} - \overset{z}{ˉ})^{T}

假设属于两类的试验样本数量分别是 $N_{1}$ 和 $N_{2}$ ，那么我们采用方差矩阵来表征每一个类内的总体分布，这里我们使用了协方差的定义，用 $S$ 表示原数据的协方差：

C_{1} : Va r_{z} [C_{1}] = \frac{1}{N _{1}} i = 1 \sum N_{1} (z_{i} - \overline{z_{c 1}}) (z_{i} - \overline{z_{c 1}})^{T} = \frac{1}{N _{1}} i = 1 \sum N_{1} (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j}) (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j})^{T} = w^{T} \frac{1}{N _{1}} i = 1 \sum N_{1} (x_{i} - \overline{x_{c 1}}) (x_{i} - \overline{x_{c 1}})^{T} w = w^{T} S_{1} w

C_{2} : Va r_{z} [C_{2}] = \frac{1}{N _{2}} i = 1 \sum N_{2} (z_{i} - \overline{z_{c 2}}) (z_{i} - \overline{z_{c 2}})^{T} = w^{T} S_{2} w

所以类内距离可以记为方差的和：

Va r_{z} [C_{1}] + Va r_{z} [C_{2}] = w^{T} (S_{1} + S_{2}) w

对于类间距离，我们可以用两类的均值表示这个距离：

(\overline{z_{c 1}} - \overline{z_{c 2}})^{2} = (\frac{1}{N _{1}} i = 1 \sum N_{1} w^{T} x_{i} - \frac{1}{N _{2}} i = 1 \sum N_{2} w^{T} x_{i})^{2} = (w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}))^{2} = w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w

综合这两点，由于协方差是一个矩阵，于是我们用将这两个值相除来得到我们的损失函数，并最大化这个值：

\overset{w}{^} = w a r g ma x J (w) = w a r g ma x \frac{( z _{c 1} - z _{c 2} ) ^{2}}{Va r _{z} [ C _{1} ] + Va r _{z} [ C _{2} ]} = w a r g ma x \frac{w ^{T} ( x _{c 1} - x _{c 2} ) ( x _{c 1} - x _{c 2} ) ^{T} w}{w ^{T} ( S _{1} + S _{2} ) w} = w a r g ma x \frac{w ^{T} S _{b} w}{w ^{T} S _{w} w}

这里

$S_{b}$ (Between Class)表示类间方差

$S_{w}$ (Within Class)表示类内方差

这样，我们就把损失函数和原数据集以及参数结合起来了。

下面对这个损失函数求偏导，注意我们其实对 $w$ 的绝对值没有任何要求，只对方向有要求，因此只要一个方程就可以求解了：

\frac{\partial}{\partial w} J (w) = 2 S_{b} w (w^{T} S_{w} w)^{- 1} - 2 w^{T} S_{b} w (w^{T} S_{w} w)^{- 2} S_{w} w = 0 ⟹ S_{b} w (w^{T} S_{w} w) = (w^{T} S_{b} w) S_{w} w ⟹ w \propto S_{w}^{- 1} S_{b} w = S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w \propto S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})

于是 $S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$ 就是我们需要寻找的方向。最后可以归一化求得单位的 $w$ 值。

Quartz 4