2.1. 高斯混合模型#

sklearn.mixture 是一个包，它使人们能够学习高斯混合模型（支持对角、球面、绑定和完全协方差矩阵），对其进行采样，并从数据中估计它们。还提供了有助于确定合适组件数量的工具。

../_images/sphx_glr_plot_gmm_pdf_001.png — **双组分高斯混合模型：** *数据点和模型的等概率表面。*#

高斯混合模型是一种概率模型，它假设所有数据点都是由有限数量的具有未知参数的高斯分布混合生成的。人们可以将混合模型视为 k-means 聚类的推广，以将有关数据协方差结构以及潜在高斯中心的信息纳入其中。

Scikit-learn 实现了不同的类来估计高斯混合模型，这些类对应于下面详述的不同估计策略。

2.1.1. 高斯混合#

GaussianMixture 对象实现了用于拟合高斯混合模型的期望最大化 (EM) 算法。它还可以绘制多元模型的置信椭圆，并计算贝叶斯信息准则以评估数据中的簇数。提供了 GaussianMixture.fit 方法，该方法从训练数据中学习高斯混合模型。给定测试数据，它可以使用 GaussianMixture.predict 方法将每个样本分配给它最可能属于的高斯。

GaussianMixture 带有不同的选项来约束估计的不同类的协方差：球面、对角、绑定或完全协方差。

../_images/sphx_glr_plot_gmm_covariances_001.png

示例

有关将高斯混合作为 iris 数据集上的聚类使用的示例，请参阅GMM 协方差。
有关绘制密度估计的示例，请参阅高斯混合的密度估计。

2.1.2. 变分贝叶斯高斯混合#

BayesianGaussianMixture 对象实现了具有变分推理算法的高斯混合模型的变体。API 类似于 GaussianMixture 定义的 API。

估计算法：变分推理

变分推理是期望最大化的扩展，它最大化模型证据（包括先验）的下限而不是数据似然。变分方法背后的原理与期望最大化相同（即两者都是迭代算法，交替寻找每个点被每个混合生成的概率，并根据这些分配的点拟合混合），但变分方法通过整合先验分布中的信息来添加正则化。这避免了在期望最大化解中经常发现的奇异性，但给模型引入了一些微妙的偏差。推理通常明显变慢，但通常不会慢到无法实际使用的程度。

由于其贝叶斯性质，变分算法需要比期望最大化更多的超参数，其中最重要的是集中参数 weight_concentration_prior。为集中先验指定一个低值将使模型将大部分权重放在几个组件上，并将剩余组件的权重设置为非常接近零。高集中先验值将允许更多数量的组件在混合中处于活动状态。

BayesianGaussianMixture 类的参数实现为权重分布提出了两种类型的先验：具有狄利克雷分布的有限混合模型和具有狄利克雷过程的无限混合模型。在实践中，狄利克雷过程推理算法是近似的，并使用具有固定最大组件数量的截断分布（称为折棍表示）。实际使用的组件数量几乎总是取决于数据。

下图比较了对于 weight_concentration_prior 的不同值，不同类型的权重集中先验（参数 weight_concentration_prior_type）获得的结果。在这里，我们可以看到 weight_concentration_prior 参数的值对获得的有效活动组件数量有很大影响。我们还可以注意到，当先验类型为“dirichlet_distribution”时，集中权重先验的大值会导致更均匀的权重，而对于“dirichlet_process”类型（默认使用）则不一定是这种情况。

下面的示例将具有固定组件数量的高斯混合模型与具有狄利克雷过程先验的变分高斯混合模型进行比较。在这里，一个经典的高斯混合模型以 5 个组件拟合到由 2 个簇组成的数据集上。我们可以看到，具有狄利克雷过程先验的变分高斯混合能够将自身限制为仅 2 个组件，而高斯混合则以固定数量的组件拟合数据，必须由用户先验设置。在这种情况下，用户选择了 n_components=5，这与该玩具数据集的真实生成分布不匹配。请注意，只有很少的观测值时，具有狄利克雷过程先验的变分高斯混合模型可以采取保守立场，只拟合一个组件。

在下图中，我们拟合了一个高斯混合模型未能很好描述的数据集。调整 BayesianGaussianMixture 的参数 weight_concentration_prior，控制用于拟合此数据的组件数量。我们还在最后两个图上展示了从两个结果混合中生成的随机采样。

../_images/sphx_glr_plot_gmm_sin_001.png

示例

有关绘制 GaussianMixture 和 BayesianGaussianMixture 置信椭圆的示例，请参阅高斯混合模型椭圆。
高斯混合模型正弦曲线展示了使用 GaussianMixture 和 BayesianGaussianMixture 拟合正弦波。
有关绘制 BayesianGaussianMixture 置信椭圆的示例，其中包含不同的 weight_concentration_prior_type 和不同的参数 weight_concentration_prior 值，请参阅变分贝叶斯高斯混合的集中先验类型分析。

2.1.2.1. 狄利克雷过程#

在这里，我们描述了狄利克雷过程混合上的变分推理算法。狄利克雷过程是对具有无限、无界分区数量的聚类的先验概率分布。变分技术使我们能够将这种先验结构合并到高斯混合模型中，而推理时间几乎没有惩罚，与有限高斯混合模型相比。

一个重要的问题是狄利克雷过程如何能够使用无限、无界数量的簇，并且仍然保持一致性。虽然完整的解释不适合本手册，但可以将其折棍过程类比来帮助理解它。折棍过程是狄利克雷过程的生成故事。我们从一根单位长度的棍子开始，在每一步中，我们折断剩余棍子的一部分。每次，我们将棍子的长度与落入混合组的点比例相关联。最后，为了表示无限混合，我们将棍子最后剩余的部分与未落入所有其他组的点比例相关联。每段的长度都是一个随机变量，其概率与集中参数成比例。较小的集中值将单位长度划分为较大的棍子部分（定义更集中的分布）。较大的集中值将创建较小的棍子部分（增加具有非零权重的组件数量）。

狄利克雷过程的变分推理技术仍然使用这个无限混合模型的有限近似，但不是必须先验指定要使用多少组件，而是只指定集中参数和混合组件数量的上限（这个上限，假设它高于“真实”组件数量，只会影响算法复杂度，而不会影响实际使用的组件数量）。

2.1. 高斯混合模型#

2.1.1. 高斯混合#

2.1.2. 变分贝叶斯高斯混合#

2.1.2.1. 狄利克雷过程#

本页