基于相同事件测度的两个概率分布 的交叉熵是指, 当基于一个“非自然”(相对于“真实”分布 而言)的概率分布 进行编码时, 在事件集合中唯一标识一个事件所需要的平均比特数。

给定两个概率分布 相对于 的交叉熵定义为:

其中

对于离散分布

大多数情况下,我们需要在不知道分布 的情况下计算其交叉熵。 交叉熵的蒙特卡罗估计为: