2.1. 高斯混合模型#

sklearn.mixture 是一个包，它使人们能够学习高斯混合模型（支持对角、球面、绑定和全协方差矩阵），对其进行抽样，并从数据中估计它们。还提供了有助于确定合适组件数量的功能。

../_images/sphx_glr_plot_gmm_pdf_001.png — **双组分高斯混合模型：***数据点和模型的等概率曲面。*#

高斯混合模型是一种概率模型，它假设所有数据点都由有限数量的具有未知参数的高斯分布混合生成。可以将混合模型视为将 k-均值聚类推广，以纳入有关数据协方差结构以及潜在高斯分布中心的信息。

Scikit-learn 实现了不同的类来估计高斯混合模型，这些类对应于不同的估计策略，详情如下。

2.1.1. 高斯混合#

GaussianMixture 对象实现了用于拟合高斯混合模型的期望最大化 (EM) 算法。它还可以为多变量模型绘制置信椭球，并计算贝叶斯信息准则来评估数据中的聚类数量。提供了 GaussianMixture.fit 方法，该方法从训练数据中学习高斯混合模型。给定测试数据，它可以使用 GaussianMixture.predict 方法将每个样本分配到其最可能属于的高斯分布。

GaussianMixture 提供了不同的选项来约束所估计的不同类别的协方差：球面协方差、对角协方差、绑定协方差或全协方差。

../_images/sphx_glr_plot_gmm_covariances_001.png

示例

有关在 iris 数据集上使用高斯混合进行聚类的示例，请参阅GMM 协方差。
有关绘制密度估计的示例，请参阅高斯混合的密度估计。

2.1.2. 变分贝叶斯高斯混合#

BayesianGaussianMixture 对象实现了高斯混合模型的一个变体，带有变分推断算法。其 API 类似于由 GaussianMixture 定义的。

估计算法：变分推断

变分推断是期望最大化的一种扩展，它最大化模型证据（包括先验）的下界，而不是数据似然。变分方法的原理与期望最大化相同（即两者都是迭代算法，交替进行为每个点找到由每个混合生成的概率，并将混合拟合到这些分配的点），但变分方法通过整合先验分布中的信息来添加正则化。这避免了期望最大化解中常见的奇异性，但对模型引入了一些微妙的偏差。推断通常明显更慢，但通常不足以使其无法实际使用。

由于其贝叶斯性质，变分算法需要比期望最大化更多的超参数，其中最重要的是集中参数 weight_concentration_prior。为集中先验指定较低的值将使模型将大部分权重放在少数组件上，并将剩余组件的权重设置为非常接近零。较高的集中先验值将允许更多组件在混合中活跃。

BayesianGaussianMixture 类的参数实现为权重分布提出了两种类型的先验：带有狄利克雷分布的有限混合模型和带有狄利克雷过程的无限混合模型。实际上，狄利克雷过程推断算法是近似的，并使用具有固定最大组件数量的截断分布（称为裂棒表示）。实际使用的组件数量几乎总是取决于数据。

下图比较了不同类型的权重集中先验（参数 weight_concentration_prior_type）在 weight_concentration_prior 不同值下的结果。在这里，我们可以看到 weight_concentration_prior 参数的值对获得的有效活跃组件数量有很强的影响。我们还可以注意到，当先验类型为“dirichlet_distribution”时，较高的集中权重先验值会导致更均匀的权重，而对于“dirichlet_process”类型（默认使用）则不一定如此。

下面的示例比较了固定组件数量的高斯混合模型与带有狄利克雷过程先验的变分高斯混合模型。在这里，一个经典高斯混合模型在一个由 2 个聚类组成的数据集上拟合了 5 个组件。我们可以看到，带有狄利克雷过程先验的变分高斯混合模型能够将自身限制为仅 2 个组件，而高斯混合模型则使用用户必须先验设置的固定数量组件来拟合数据。在这种情况下，用户选择了 n_components=5，这与此玩具数据集的真实生成分布不符。请注意，在观测值非常少的情况下，带有狄利克雷过程先验的变分高斯混合模型可以采取保守立场，只拟合一个组件。

在下图中，我们正在拟合一个不能很好地由高斯混合描绘的数据集。调整 BayesianGaussianMixture 的 weight_concentration_prior 参数可以控制用于拟合此数据的组件数量。我们还在最后两张图中展示了从两个结果混合中生成的随机采样。

../_images/sphx_glr_plot_gmm_sin_001.png

示例

有关绘制 GaussianMixture 和 BayesianGaussianMixture 的置信椭球的示例，请参阅高斯混合模型椭球。
高斯混合模型正弦曲线展示了如何使用 GaussianMixture 和 BayesianGaussianMixture 拟合正弦波。
有关绘制 BayesianGaussianMixture 在不同 weight_concentration_prior_type 类型下以及参数 weight_concentration_prior 不同值下的置信椭球的示例，请参阅变分贝叶斯高斯混合的集中先验类型分析。

2.1.2.1. 狄利克雷过程#

在这里，我们描述了狄利克雷过程混合上的变分推断算法。狄利克雷过程是针对具有无限、无界分区数量的聚类的先验概率分布。与有限高斯混合模型相比，变分技术使我们能够在高斯混合模型上纳入这种先验结构，而推断时间几乎没有损失。

一个重要问题是，狄利克雷过程如何使用无限、无界数量的聚类并仍然保持一致性。虽然完整的解释不适合本手册，但可以将其裂棒过程类比来帮助理解。裂棒过程是狄利克雷过程的一个生成故事。我们从一根单位长度的棒子开始，每一步折断剩余棒子的一部分。每次，我们将棒子片段的长度与落入混合组的点所占比例关联起来。最后，为了表示无限混合，我们将最后剩余的棒子片段与不落入所有其他组的点所占比例关联起来。每个片段的长度是一个随机变量，其概率与集中参数成比例。较小的集中值会将单位长度分成较大的棒子片段（定义更集中的分布）。较大的集中值将创建较小的棒子片段（增加非零权重的组件数量）。

狄利克雷过程的变分推断技术仍然使用这个无限混合模型的有限近似，但无需先验指定要使用多少组件，只需指定集中参数和混合组件数量的上限（这个上限，假设它高于“真实”的组件数量，只影响算法复杂度，不影响实际使用的组件数量）。

2.1. 高斯混合模型#

2.1.1. 高斯混合#

2.1.2. 变分贝叶斯高斯混合#

2.1.2.1. 狄利克雷过程#

本页