2.8. 密度估计#

密度估计介于无监督学习、特征工程和数据建模之间。一些最流行和最有用的密度估计技术是混合模型,例如高斯混合模型 (GaussianMixture),以及基于邻域的方法,例如核密度估计 (KernelDensity)。高斯混合模型在 聚类 的背景下进行了更详细的讨论,因为该技术也可用作无监督聚类方案。

密度估计是一个非常简单的概念,大多数人已经熟悉一种常见的密度估计技术:直方图。

2.8.1. 密度估计:直方图#

直方图是数据的简单可视化,其中定义了箱,并统计每个箱内的点数。以下图的左上角面板显示了一个直方图示例

hist_to_kde

然而,直方图的一个主要问题是,箱的选择会对最终的可视化产生不成比例的影响。考虑上面图的右上角面板。它显示了相同数据的直方图,但箱向右移动了。两个可视化的结果看起来完全不同,可能会导致对数据的不同解释。

直观地,也可以将直方图视为一堆积木,每个点对应一块积木。通过将积木堆叠在适当的网格空间中,我们可以恢复直方图。但如果我们不是将积木堆叠在规则网格上,而是将每个积木以其代表的点为中心,并将每个位置的总高度相加呢?这个想法导致了左下方的可视化。它可能不像直方图那样干净,但数据驱动积木位置的事实意味着它更能代表底层数据。

这种可视化是核密度估计的一个例子,在本例中使用的是顶帽核(即每个点上的方形积木)。我们可以通过使用更平滑的核来恢复更平滑的分布。右下方的图显示了高斯核密度估计,其中每个点对总和贡献一个高斯曲线。结果是一个平滑的密度估计,它源于数据,并充当点分布的强大非参数模型。

2.8.2. 核密度估计#

scikit-learn 中的核密度估计在KernelDensity估计器中实现,该估计器使用球树或 KD 树进行高效查询(有关这些的讨论,请参见最近邻)。虽然上面的例子为了简单起见使用了 1D 数据集,但核密度估计可以在任何维度上执行,尽管在实践中,维数灾难会导致其性能在高维中下降。

在下图中,从双峰分布中绘制了 100 个点,并显示了三种核选择的核密度估计。

kde_1d_distribution

很明显,核的形状如何影响所得分布的平滑度。scikit-learn 核密度估计器可以按如下方式使用

>>> from sklearn.neighbors import KernelDensity
>>> import numpy as np
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> kde = KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)
>>> kde.score_samples(X)
array([-0.41075698, -0.41075698, -0.41076071, -0.41075698, -0.41075698,
       -0.41076071])

这里我们使用了kernel='gaussian',如上所示。在数学上,核是一个正函数\(K(x;h)\),它由带宽参数\(h\)控制。给定这种核形式,一组点\(x_i; i=1\cdots N\)内一个点\(y\)处的密度估计由下式给出

\[\rho_K(y) = \sum_{i=1}^{N} K(y - x_i; h)\]

这里的带宽充当平滑参数,控制结果中偏差和方差之间的权衡。较大的带宽会导致非常平滑(即高偏差)的密度分布。较小的带宽会导致不平滑(即高方差)的密度分布。

参数bandwidth控制这种平滑。可以手动设置此参数,也可以使用 Scott 和 Silvermann 的估计方法。

KernelDensity实现了多种常见的核形式,如下面的图所示

kde_kernels

核的数学表达式#

这些核的形式如下

  • 高斯核 (kernel = 'gaussian')

    \(K(x; h) \propto \exp(- \frac{x^2}{2h^2} )\)

  • 顶帽核 (kernel = 'tophat')

    \(K(x; h) \propto 1\) 如果 \(x < h\)

  • Epanechnikov 核 (kernel = 'epanechnikov')

    \(K(x; h) \propto 1 - \frac{x^2}{h^2}\)

  • 指数核 (kernel = 'exponential')

    \(K(x; h) \propto \exp(-x/h)\)

  • 线性核 (kernel = 'linear')

    \(K(x; h) \propto 1 - x/h\) 如果 \(x < h\)

  • 余弦核 (kernel = 'cosine')

    \(K(x; h) \propto \cos(\frac{\pi x}{2h})\) 如果 \(x < h\)

核密度估计可以使用任何有效的距离度量(有关可用度量的列表,请参见DistanceMetric),但结果仅对欧几里得度量正确归一化。一个特别有用的度量是Haversine 距离,它测量球体上点之间的角度距离。以下是如何使用核密度估计来可视化地理空间数据的示例,在本例中是南美洲大陆上两种不同物种的观测分布

species_kde

核密度估计的另一个有用应用是学习数据集的非参数生成模型,以便从该生成模型中有效地抽取新样本。以下是如何使用此过程来创建一组新的手写数字的示例,使用在数据 PCA 投影上学习的高斯核

digits_kde

“新”数据由输入数据的线性组合组成,权重根据 KDE 模型概率地绘制。

示例