逻辑回归
有时候我们只要得到一个类别的概率,那么我们需要一种能输出 区间的值的函数。考虑两分类模型,我们利用判别模型,希望对 建模,这就是概率判别模型的工作。
逻辑回归就是采用一个特殊的激活函数,将线性回归问题转换为线性分类问题,这个激活函数叫做**Sigmoid函数**
利用贝叶斯定理:
取 ,于是:
上面的式子叫 Logistic Sigmoid 函数,其参数表示了两类联合概率比值的对数。在判别式中,不关心这个参数的具体值,模型假设直接对 进行。
Logistic 回归的模型假设是:
于是,通过寻找 的最佳值可以得到在这个模型假设下的最佳模型。概率判别模型常用最大似然估计的方式来确定参数。
对于一次观测,获得分类 的概率为(假定):
那么对于 次独立全同的观测 MLE为:
注意到,从信息论角度,这个表达式其实是**交叉熵(Cross Entropy)**表达式的相反数乘 ,MLE 中的对数也保证了可以和指数函数相匹配,从而在大的区间汇总获取稳定的梯度。
对这个函数求导数,注意到:
则:
由于概率值的非线性,放在求和符号中时,这个式子无法直接求解。于是在实际训练的时候,和感知机类似,也可以使用不同大小的批量随机梯度上升(对于最小化就是梯度下降)来获得这个函数的极大值。