KL 散度是两个概率分布 差别的非对称性度量。 KL 散度是用来度量使用基于 的分布来编码服从 的分布的样本 所需的 额外 的平均比特数。 典型情况下, 表示数据的真实分布, 表示数据的理论分布或 的近似分布。

\begin{align*} D_{KL}(P||Q)& = \mathcal{H}(P,Q) - H(P) \\ &=-\sum_{i}P(i)\log{Q_{i}}-(-\sum_{i}P(i)\log{P(i)}) \\ &=\sum_{i}P(i)\log\frac{P(i)}{Q(i)} \end{align*}