在信息论中,熵(entropy)用于表示是接收的每条消息中包含的信息的平均量,也可以理解成随机变量的不确定性(这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息1

特性

设X是一个有限状态的离散型随机变量,其概率分布为

那么随机变量X的熵定义为

熵越大,那么随机变量的不确定性就越大

公式理解

改写一下:将负号移到对数里面

现在表示不确定性

表示这个不确定性需要的比特数字,也就是复杂程度。不同的底数表示不同的编码方式。

image-20240131211815657

现在乘上表示加权,那么熵公式表示的是表示概率的平均复杂程度。

AI中各种熵的相互关系

image-20240131210513012

信息熵

联合熵

条件熵

互信息(信息增益)

交叉熵

相对熵(KL离散度)

Reference

Footnotes

  1. 熵 (信息论) - 维基百科,自由的百科全书