3.1-基本形式

画出一条直线,来拟合数据点

img

3.1.1-基本形式

其中 为一共 个属性的示例, 的第 个属性。 为预测函数。可以代表各属性在预测中的重要性

3.1.1-向量形式

3.2-线性回归

给定数据集 ,其中

线性回归试图习得一个预测函数

使得

也就是偏差最小。

3.2.1-性能度量

至于如何确定

2.3 节介绍过,均方误差(2.2) 是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化

最后用最小二乘法解得

这个方法也叫作最小二乘估计。

3.2.2-多元线性回归

更一般的情形是如本节开头的数据集 , 样本由 个属性描述.此时我们 试图学得

这称为“多元线性回归”

把数据集 表示为一个 大小的矩阵

写成:

那么:

求导得:

正定矩阵或者满秩矩阵,可以直接解得

反之能够解出很多个

这个时候需要正则化处理

3.2.3-广义线性模型

在这里,我们不会逼近 ,反而逼近的某个函数,如 或者

一般表示成:

3.3-对数几率回归

假设现有一模型(其实叫单位阶跃函数)

这个函数既不连续也不可微1,那么有没有一个连续可微的替代呢?

有,sigmod函数

image-20221120203159863

其含义是越靠近中心点的概率越高,越远离中心点的概率越低,但是函数预测的确定性越高。

因此, “对数几率回归”(Logistic Regression)做的事情是对分类的可能性建模, 而不是去预测样本的y值2

以下面这张图为例, 越大,那么预测为蓝色的概率越高,反之越低

logisticregressionwindowlogisticfitchart4-1

3.4-线性判别分析

线性判别分析:Linear Discriminant nalys ,简称 LDA

其思想是:最大化类间均值,最小化类内方差。意思就是将数据投影在低维度上,并且投影后同种类别数据的投影点尽可能的接近,不同类别数据的投影点的中心点尽可能的远3

image-20221120204536060

3.5-多分类学习

对于多个分类的问题,可以将多分类问题转化为多个二分类问题

  • 一对一:OvO
  • 一对多:OvR
  • 多对多:MvM

MvM的正反类构造有特殊要求

3.5.1-ECOC

纠错输出码:Error Correcting Output Codes

  • 编码:对 N 个类别做 M 次划分, 每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器.
  • 解码:M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.

image-20221121165737534

3.6-类别不平衡问题

假设正例有999个,但是反例只有一个,那么只需要将所有的例子都输出为正例行。但是我们其实更加看重那一个反例,而非另外的999个正例。

可以给回归的函数设置权重,原先不是 就输出为正例吗?

现在时代变了,需要 才能输出为正例,这里的 代表正例个和反例个数。这称为阔值移动

参考

Footnotes

  1. 对数几率回归 —— Logistic Regression - 知乎 (zhihu.com)

  2. #8 究竟什么是”逻辑回归”, “对数几率回归”

  3. 线性判别分析LDA原理及推导过程(非常详细) - 知乎 (zhihu.com)