One-Hot编码（独热编码）

One-Hot编码是一种将分类变量转换为数值形式的方法，主要用于机器学习中处理无序的离散特征（如颜色、国家、类别等）。其核心思想是为每个类别分配一个唯一的二进制向量，确保不同类别在数值上不存在隐含的顺序或大小关系。

原理

示例：假设”颜色”有三种类别：红、绿、蓝：

许多机器学习算法（如线性回归、神经网络等）无法直接处理文本或离散的类别标签。直接使用标签编码（如将红=0、绿=1、蓝=2）可能导致模型误解类别之间存在数值关系（例如错误认为”蓝 > 红”）。One-Hot编码通过二进制向量消除了这种潜在误解。

One-Hot编码的提出主要是为了解决分类变量（尤其是无序类别特征）无法直接被数值型算法处理的问题，同时避免传统标签编码（Label Encoding）带来的虚假数值关系误导模型。

许多机器学习算法（如线性回归、神经网络、SVM等）默认输入的特征是数值型且有数学意义的（如大小、距离）。若直接用整数给无序类别赋值（例如将颜色编码为红=0、绿=1、蓝=2），模型会错误地认为：

在此基础上训练的模型可能基于错误的数值假设进行学习，导致预测结果不准确。

One-Hot将每个类别转换为独立的二元特征（0或1），使不同类别在数值上正交，避免模型误判。

无序分类变量（如性别、城市、产品类型）的类别之间没有逻辑顺序，无法直接用数值表示其内在关系。传统方法如标签编码（Label Encoding）强制赋予数值顺序，破坏了数据的原始语义。

One-Hot通过二进制向量表示每个类别，例如：

大多数机器学习模型（如逻辑回归、5-神经网络）的输入必须是数值型数据，无法直接处理文本或符号形式的类别。

将文本或符号映射为稀疏的二进制向量，使算法能直接计算（如计算距离、梯度下降）。

One-Hot 适合无序且类别少的数据；其他情况优先用标签编码、目标编码或模型原生支持。