mean_shift#

sklearn.cluster.mean_shift(X, *, bandwidth=None, seeds=None, bin_seeding=False, min_bin_freq=1, cluster_all=True, max_iter=300, n_jobs=None)[source]#

使用扁平核对数据执行均值漂移聚类。

在用户指南中阅读更多内容。

参数:

X形状为 (n_samples, n_features) 的类数组

输入数据。

bandwidth浮点数，默认值=None

核带宽。如果不是None，则必须在 [0, +inf) 范围内。

如果为None，则带宽是根据所有成对距离的中位数启发式确定的。这将花费样本数量的二次时间。可以使用 sklearn.cluster.estimate_bandwidth 函数更有效地完成此操作。

seeds形状为 (n_seeds, n_features) 的类数组或 None

用作初始核位置的点。如果为 None 且 bin_seeding=False，则每个数据点都用作种子。如果为 None 且 bin_seeding=True，请参阅 bin_seeding。

bin_seeding布尔值，默认值=False

如果为 true，则初始核位置不是所有点的位置，而是点的离散化版本的位置，其中点被分箱到与带宽粗糙度对应的网格上。将此选项设置为 True 将加快算法速度，因为初始化的种子会更少。如果 seeds 参数不是 None，则忽略此参数。

min_bin_freq整型，默认值=1

为了加快算法速度，只接受至少包含 min_bin_freq 个点的 bin 作为种子。

cluster_all布尔值，默认值=True

如果为 true，则所有点都将被聚类，甚至包括那些不在任何核内的孤立点。孤立点被分配到最近的核。如果为 false，则孤立点被赋予聚类标签 -1。

max_iter整型，默认值=300

每个种子点的最大迭代次数，如果尚未收敛，则聚类操作在该种子点上终止。

n_jobs整型，默认值=None

用于计算的作业数。以下任务受益于并行化：

用于带宽估计和标签分配的最近邻搜索。有关详细信息，请参阅 NearestNeighbors 类的文档字符串。
所有种子的爬山优化。

有关更多详细信息，请参阅术语表。

None 表示 1，除非在 joblib.parallel_backend 上下文中。-1 表示使用所有处理器。有关更多详细信息，请参阅术语表。

0.17 版本新增：使用 n_jobs 的并行执行。

返回:

cluster_centers形状为 (n_clusters, n_features) 的 ndarray: 聚类中心的坐标。
labels形状为 (n_samples,) 的 ndarray: 每个点的聚类标签。

备注

有关使用示例，请参阅均值漂移聚类算法演示。

示例

>>> import numpy as np
>>> from sklearn.cluster import mean_shift
>>> X = np.array([[1, 1], [2, 1], [1, 0],
...               [4, 7], [3, 5], [3, 6]])
>>> cluster_centers, labels = mean_shift(X, bandwidth=2)
>>> cluster_centers
array([[3.33, 6.     ],
       [1.33, 0.66]])
>>> labels
array([1, 1, 1, 0, 0, 0])

mean_shift#

此页面