2.1. 高斯混合模型#

sklearn.mixture 是一个包，它使人们能够学习高斯混合模型（支持对角线、球形、绑定和完全协方差矩阵），对它们进行采样，并从数据中估计它们。还提供了帮助确定适当成分数量的工具。

../_images/sphx_glr_plot_gmm_pdf_001.png — **双成分高斯混合模型：** *数据点和模型的等概率曲面。*#

高斯混合模型是一种概率模型，它假设所有数据点都是从有限数量具有未知参数的高斯分布混合中生成的。可以将混合模型视为对 k 均值聚类进行泛化，以同时包含有关数据协方差结构以及潜在高斯中心的的信息。

Scikit-learn 实现不同的类来估计高斯混合模型，这些类对应于下面详细说明的不同估计策略。

2.1.1. 高斯混合#

GaussianMixture 对象实现了用于拟合高斯混合模型的期望最大化 (EM) 算法。它还可以绘制多变量模型的置信椭圆体，并计算贝叶斯信息准则以评估数据中的聚类数量。提供了一个GaussianMixture.fit 方法，该方法可以从训练数据中学习高斯混合模型。给定测试数据，它可以使用GaussianMixture.predict 方法为每个样本分配其最可能属于的高斯分布。

GaussianMixture 提供了不同的选项来约束估计的不同类的协方差：球形、对角线、绑定或完全协方差。

../_images/sphx_glr_plot_gmm_covariances_001.png

示例

请参阅 GMM 协方差，了解如何将高斯混合作为对 iris 数据集的聚类示例。
请参阅高斯混合的密度估计，了解关于绘制密度估计的示例。

2.1.2. 变分贝叶斯高斯混合模型#

BayesianGaussianMixture对象实现了具有变分推理算法的高斯混合模型的变体。API类似于GaussianMixture定义的API。

估计算法：变分推理

变分推理是期望最大化的扩展，它最大化模型证据（包括先验）的下界，而不是数据似然性。变分方法背后的原理与期望最大化相同（即，两者都是迭代算法，在查找每个点由每个混合生成的概率以及将混合拟合到这些分配的点之间交替），但变分方法通过整合来自先验分布的信息来添加正则化。这避免了在期望最大化解决方案中经常发现的奇异性，但会对模型引入一些细微的偏差。推理通常明显较慢，但通常不会慢到使其无法实际使用。

由于其贝叶斯性质，变分算法比期望最大化需要更多超参数，其中最重要的是浓度参数weight_concentration_prior。为浓度先验指定较低的值将使模型将大部分权重放在少数几个成分上，并将其余成分的权重设置为非常接近零。较高的浓度先验值将允许混合中更大数量的成分处于活动状态。

BayesianGaussianMixture类的参数实现为权重分布提出了两种类型的先验：具有Dirichlet分布的有限混合模型和具有Dirichlet过程的无限混合模型。实际上，Dirichlet过程推理算法是近似的，并使用具有固定最大成分数的截断分布（称为Stick-breaking表示）。实际使用的成分数量几乎总是取决于数据。

下图比较了不同类型的权重浓度先验（参数weight_concentration_prior_type）在不同weight_concentration_prior值下获得的结果。在这里，我们可以看到weight_concentration_prior参数的值对获得的有效活动成分数量有很大影响。我们还可以注意到，当先验类型为“dirichlet_distribution”时，浓度权重先验的大值会导致更均匀的权重，而对于默认使用的“dirichlet_process”类型则不一定是这种情况。

下面的例子比较了具有固定数量成分的高斯混合模型与具有狄利克雷过程先验的变分高斯混合模型。这里，一个经典的高斯混合模型在由2个聚类组成的数据集上拟合了5个成分。我们可以看到，具有狄利克雷过程先验的变分高斯混合模型能够将自身限制在只有2个成分，而高斯混合模型则使用固定数量的成分拟合数据，这个数量必须由用户预先设定。在本例中，用户选择了n_components=5，这与该玩具数据集的真实生成分布不匹配。请注意，在观测值非常少的情况下，具有狄利克雷过程先验的变分高斯混合模型可能会采取保守的立场，只拟合一个成分。

在下图中，我们拟合了一个不能很好地用高斯混合模型描述的数据集。调整BayesianGaussianMixture的参数weight_concentration_prior可以控制用于拟合此数据的成分数量。我们还在最后两幅图中展示了从两个生成的混合模型中生成的随机样本。

../_images/sphx_glr_plot_gmm_sin_001.png

示例

有关绘制GaussianMixture和BayesianGaussianMixture的置信椭圆的示例，请参见高斯混合模型椭圆。
高斯混合模型正弦曲线展示了如何使用GaussianMixture和BayesianGaussianMixture拟合正弦波。
有关绘制不同weight_concentration_prior参数值下具有不同weight_concentration_prior_type的BayesianGaussianMixture的置信椭圆的示例，请参见变分贝叶斯高斯混合的浓度先验类型分析。

2.1.2.1. 狄利克雷过程#

在这里，我们描述了狄利克雷过程混合模型上的变分推理算法。狄利克雷过程是*具有无限、无界划分数量的聚类*上的先验概率分布。与有限高斯混合模型相比，变分技术使我们能够在几乎不影响推理时间的情况下，将这种先验结构融入高斯混合模型。

一个重要的问题是，狄利克雷过程如何使用无限、无界的聚类数量，同时保持一致性。虽然完整的解释不适合本手册，但可以考虑其棒子折断过程类比来帮助理解。棒子折断过程是狄利克雷过程的一个生成故事。我们从一根单位长度的棒子开始，每一步都折断剩余棒子的一部分。每次，我们将棒子片段的长度与落入混合物一组的点的比例相关联。最后，为了表示无限混合物，我们将剩余棒子的最后一段与不落入所有其他组的点的比例相关联。每段的长度是一个随机变量，其概率与浓度参数成正比。较小的浓度值会将单位长度棒子分成较大的片段（定义更集中的分布）。较大的浓度值会创建较小的棒子片段（增加具有非零权重的成分数量）。

狄利克雷过程的变分推断技术仍然使用对这个无限混合模型的有限近似，但是，不需要预先指定想要使用的成分数量，只需要指定浓度参数和混合成分数量的上限（这个上限，假设它高于“真实”成分数量，只影响算法复杂度，而不影响实际使用的成分数量）。