HDBSCAN 聚类算法演示#

在本演示中,我们将从广义化的角度来看一下 cluster.HDBSCAN cluster.DBSCAN 算法。我们将比较这两个算法在特定数据集上的表现。最后,我们将评估 HDBSCAN 对某些超参数的敏感性。

首先,我们定义几个实用函数以方便起见。

import matplotlib.pyplot as plt
import numpy as np

from sklearn.cluster import DBSCAN, HDBSCAN
from sklearn.datasets import make_blobs


def plot(X, labels, probabilities=None, parameters=None, ground_truth=False, ax=None):
    if ax is None:
        _, ax = plt.subplots(figsize=(10, 4))
    labels = labels if labels is not None else np.ones(X.shape[0])
    probabilities = probabilities if probabilities is not None else np.ones(X.shape[0])
    # Black removed and is used for noise instead.
    unique_labels = set(labels)
    colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]
    # The probability of a point belonging to its labeled cluster determines
    # the size of its marker
    proba_map = {idx: probabilities[idx] for idx in range(len(labels))}
    for k, col in zip(unique_labels, colors):
        if k == -1:
            # Black used for noise.
            col = [0, 0, 0, 1]

        class_index = np.where(labels == k)[0]
        for ci in class_index:
            ax.plot(
                X[ci, 0],
                X[ci, 1],
                "x" if k == -1 else "o",
                markerfacecolor=tuple(col),
                markeredgecolor="k",
                markersize=4 if k == -1 else 1 + 5 * proba_map[ci],
            )
    n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
    preamble = "True" if ground_truth else "Estimated"
    title = f"{preamble} number of clusters: {n_clusters_}"
    if parameters is not None:
        parameters_str = ", ".join(f"{k}={v}" for k, v in parameters.items())
        title += f" | {parameters_str}"
    ax.set_title(title)
    plt.tight_layout()

生成样本数据#

HDBSCAN 相对于 DBSCAN 最大的优势之一是其开箱即用的鲁棒性。它在异构数据混合物上尤其出色。与 DBSCAN 一样,它可以对任意形状和分布进行建模,但与 DBSCAN 不同的是,它不需要指定任意且敏感的 eps 超参数。

例如,下面我们从三个二维各向同性高斯分布的混合物中生成一个数据集。

centers = [[1, 1], [-1, -1], [1.5, -1.5]]
X, labels_true = make_blobs(
    n_samples=750, centers=centers, cluster_std=[0.4, 0.1, 0.75], random_state=0
)
plot(X, labels=labels_true, ground_truth=True)
True number of clusters: 3

尺度不变性#

值得记住的是,虽然 DBSCAN 为 eps 参数提供了默认值,但它几乎没有一个合适的默认值,并且必须针对正在使用的特定数据集进行调整。

作为一个简单的演示,考虑针对一个数据集调整的 eps 值的聚类,以及使用相同值但应用于数据集的重新缩放版本的聚类。

fig, axes = plt.subplots(3, 1, figsize=(10, 12))
dbs = DBSCAN(eps=0.3)
for idx, scale in enumerate([1, 0.5, 3]):
    dbs.fit(X * scale)
    plot(X * scale, dbs.labels_, parameters={"scale": scale, "eps": 0.3}, ax=axes[idx])
Estimated number of clusters: 3 | scale=1, eps=0.3, Estimated number of clusters: 1 | scale=0.5, eps=0.3, Estimated number of clusters: 11 | scale=3, eps=0.3

实际上,为了保持相同的结果,我们必须按相同的比例缩放 eps

fig, axis = plt.subplots(1, 1, figsize=(12, 5))
dbs = DBSCAN(eps=0.9).fit(3 * X)
plot(3 * X, dbs.labels_, parameters={"scale": 3, "eps": 0.9}, ax=axis)
Estimated number of clusters: 3 | scale=3, eps=0.9

虽然标准化数据(例如使用 sklearn.preprocessing.StandardScaler)有助于缓解这个问题,但必须非常小心地选择 eps 的适当值。

HDBSCAN 在这方面更加稳健:HDBSCAN 可以被视为对所有可能的 eps 值进行聚类,并从所有可能的聚类中提取最佳聚类(参见 用户指南)。一个直接的优势是 HDBSCAN 是尺度不变的。

fig, axes = plt.subplots(3, 1, figsize=(10, 12))
hdb = HDBSCAN()
for idx, scale in enumerate([1, 0.5, 3]):
    hdb.fit(X * scale)
    plot(
        X * scale,
        hdb.labels_,
        hdb.probabilities_,
        ax=axes[idx],
        parameters={"scale": scale},
    )
Estimated number of clusters: 3 | scale=1, Estimated number of clusters: 3 | scale=0.5, Estimated number of clusters: 3 | scale=3

多尺度聚类#

然而,HDBSCAN 不仅仅是尺度不变的——它能够进行多尺度聚类,这解释了密度不同的聚类。传统的 DBSCAN 假设任何潜在的聚类在密度上都是同质的。HDBSCAN 不受此类约束。为了证明这一点,我们考虑以下数据集

centers = [[-0.85, -0.85], [-0.85, 0.85], [3, 3], [3, -3]]
X, labels_true = make_blobs(
    n_samples=750, centers=centers, cluster_std=[0.2, 0.35, 1.35, 1.35], random_state=0
)
plot(X, labels=labels_true, ground_truth=True)
True number of clusters: 4

由于密度和空间分离的不同,这个数据集对 DBSCAN 来说更难。

  • 如果 eps 太大,那么我们有可能错误地将两个密集的聚类聚类为一个,因为它们的相互可达性将扩展聚类。

  • 如果 eps 太小,那么我们有可能将稀疏的聚类分成许多错误的聚类。

更不用说这需要手动调整 eps 的选择,直到我们找到一个我们满意的折衷方案。

fig, axes = plt.subplots(2, 1, figsize=(10, 8))
params = {"eps": 0.7}
dbs = DBSCAN(**params).fit(X)
plot(X, dbs.labels_, parameters=params, ax=axes[0])
params = {"eps": 0.3}
dbs = DBSCAN(**params).fit(X)
plot(X, dbs.labels_, parameters=params, ax=axes[1])
Estimated number of clusters: 3 | eps=0.7, Estimated number of clusters: 14 | eps=0.3

为了正确地聚类两个密集的聚类,我们需要一个更小的 epsilon 值,但是当 eps=0.3 时,我们已经将稀疏的聚类分割了,随着我们减小 epsilon,这种情况只会变得更严重。实际上,DBSCAN 似乎无法同时分离两个密集的聚类,同时防止稀疏的聚类分割。让我们与 HDBSCAN 进行比较。

hdb = HDBSCAN().fit(X)
plot(X, hdb.labels_, hdb.probabilities_)
Estimated number of clusters: 4

HDBSCAN 能够适应数据集的多尺度结构,而无需参数调整。虽然任何足够有趣的数据集都需要调整,但这种情况表明,HDBSCAN 可以产生质量上更好的聚类类别,而无需用户干预,而这些类别是通过 DBSCAN 无法访问的。

超参数稳健性#

最终,调整将是任何实际应用中的一个重要步骤,所以让我们看一下 HDBSCAN 的一些最重要的超参数。虽然 HDBSCAN 不受 DBSCAN 的 eps 参数的限制,但它仍然有一些超参数,如 min_cluster_sizemin_samples,它们会根据密度调整其结果。然而,我们将看到,由于这些参数具有明确的含义,有助于调整它们,因此 HDBSCAN 对各种实际示例具有相对的稳健性。

min_cluster_size#

min_cluster_size 是一个组中被视为聚类的样本的最小数量。

小于此大小的聚类将被视为噪声。默认值为 5。此参数通常根据需要调整为更大的值。较小的值可能会导致结果中标记为噪声的点数更少。但是,太小的值会导致错误的子聚类被选中和优先。较大的值往往对噪声数据集更稳健,例如具有显着重叠的高方差聚类。

PARAM = ({"min_cluster_size": 5}, {"min_cluster_size": 3}, {"min_cluster_size": 25})
fig, axes = plt.subplots(3, 1, figsize=(10, 12))
for i, param in enumerate(PARAM):
    hdb = HDBSCAN(**param).fit(X)
    labels = hdb.labels_

    plot(X, labels, hdb.probabilities_, param, ax=axes[i])
Estimated number of clusters: 4 | min_cluster_size=5, Estimated number of clusters: 91 | min_cluster_size=3, Estimated number of clusters: 4 | min_cluster_size=25

min_samples#

min_samples 是一个点被视为核心点的邻域中的样本数量,包括该点本身。 min_samples 默认值为 min_cluster_size。与 min_cluster_size 类似,min_samples 的较大值会提高模型对噪声的稳健性,但有可能忽略或丢弃可能有效的但小的聚类。 min_samples 最好在找到 min_cluster_size 的良好值后进行调整。

PARAM = (
    {"min_cluster_size": 20, "min_samples": 5},
    {"min_cluster_size": 20, "min_samples": 3},
    {"min_cluster_size": 20, "min_samples": 25},
)
fig, axes = plt.subplots(3, 1, figsize=(10, 12))
for i, param in enumerate(PARAM):
    hdb = HDBSCAN(**param).fit(X)
    labels = hdb.labels_

    plot(X, labels, hdb.probabilities_, param, ax=axes[i])
Estimated number of clusters: 4 | min_cluster_size=20, min_samples=5, Estimated number of clusters: 4 | min_cluster_size=20, min_samples=3, Estimated number of clusters: 4 | min_cluster_size=20, min_samples=25

dbscan_clustering#

fit 期间,HDBSCAN 会构建一个单链接树,该树编码所有点在所有 DBSCANeps 参数值上的聚类。因此,我们可以有效地绘制和评估这些聚类,而无需完全重新计算中间值,例如核心距离、相互可达性和最小生成树。我们只需要指定我们想要聚类的 cut_distance(相当于 eps)。

PARAM = (
    {"cut_distance": 0.1},
    {"cut_distance": 0.5},
    {"cut_distance": 1.0},
)
hdb = HDBSCAN()
hdb.fit(X)
fig, axes = plt.subplots(len(PARAM), 1, figsize=(10, 12))
for i, param in enumerate(PARAM):
    labels = hdb.dbscan_clustering(**param)

    plot(X, labels, hdb.probabilities_, param, ax=axes[i])
Estimated number of clusters: 3 | cut_distance=0.1, Estimated number of clusters: 3 | cut_distance=0.5, Estimated number of clusters: 1 | cut_distance=1.0

脚本的总运行时间:(0 分钟 17.971 秒)

相关示例

DBSCAN 聚类算法演示

DBSCAN 聚类算法演示

比较玩具数据集上的不同聚类算法

比较玩具数据集上的不同聚类算法

scikit-learn 1.3 的发布亮点

scikit-learn 1.3 的发布亮点

用于随机投影嵌入的 Johnson-Lindenstrauss 界限

用于随机投影嵌入的 Johnson-Lindenstrauss 界限

由 Sphinx-Gallery 生成的画廊