Description

在一个分类问题中,如果输入特征 是连续型随机变量, 那么可以考虑使用 GDA(Gaussian Discriminant Analysis) 模型, 它拟合的对象为 ,并假设 服从多维正态分布

GDA 模型为:

\begin{aligned} y &\sim \text{Bernoulli}(\phi) \\ x|y=0 &\sim \mathcal{\mu_0,\Sigma} \\ x|y=1 &\sim \mathcal{\mu_1,\Sigma} \\ \end{aligned}

展开为:

\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ p(x \mid y=0) &=\frac{1}{(2 \pi)^{d / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{0}\right)^{T} \Sigma^{-1}\left(x-\mu_{0}\right)\right) \\ p(x \mid y=1) &=\frac{1}{(2 \pi)^{d / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{1}\right)^{T} \Sigma^{-1}\left(x-\mu_{1}\right)\right) \end{aligned}

请注意,此模型中两个随机变量分别有各自的均值 , 但二者的协方差矩阵都是

使用极大似然法求解,计算其 log-likelihood

\begin{aligned} \ell\left(\phi, \mu_{0}, \mu_{1}, \Sigma\right) &=\log \prod_{i=1}^{n} p\left(x^{(i)}, y^{(i)} ; \phi, \mu_{0}, \mu_{1}, \Sigma\right) \\ &=\log \prod_{i=1}^{n} p\left(x^{(i)} \mid y^{(i)} ; \mu_{0}, \mu_{1}, \Sigma\right) p\left(y^{(i)} ; \phi\right) \end{aligned}

求得其中参数为:

\begin{aligned} \phi &=\frac{1}{n} \sum_{i=1}^{n} 1\left\{y^{(i)}=1\right\} \\ \mu_{0} &=\frac{\sum_{i=1}^{n} 1\left\{y^{(i)}=0\right\} x^{(i)}}{\sum_{i=1}^{n} 1\left\{y^{(i)}=0\right\}} \\ \mu_{1} &=\frac{\sum_{i=1}^{n} 1\left\{y^{(i)}=1\right\} x^{(i)}}{\sum_{i=1}^{n} 1\left\{y^{(i)}=1\right\}} \\ \Sigma &=\frac{1}{n} \sum_{i=1}^{n}\left(x^{(i)}-\mu_{y^{(i)}}\right)\left(x^{(i)}-\mu_{y^{(i)}}\right)^{T} \end{aligned}

上诉参数其实都可以从统计的角度给出合理解释,用样本估计分布参数。

其输出类似下图:

![](/ox-hugo/gda.png” caption=“<span class=“figure-number”>Figure 1: GDA Output” width=“400)

图中,训练集中的两类数据被两个高斯分布拟合,这两个高斯分布形状相同,只有中心位置不同。

GDA 和 Logistic Regression 的关系

仔细观察上诉的密度函数 ,它可以展开成:

其中 是关于 的近似参数。 这其实就是 Logistic Regression 的表达式。

前面我们提到,使用 GDA 需要在随机变量 服从多维正态分布才行。 而 Logistic Regression 没有这些限制。 因此,在模型输入可以满足 GDA 的假设时,使用 GDA 会有更高的数据利用率, 并且拟合效果很好;而 Logistic Regression 具有鲁棒性,更适合其他的场景。