k 均值假设的演示#
本示例旨在说明 k 均值产生不直观且可能不受欢迎的聚类的情况。
# Author: Phil Roth <[email protected]>
# Arturo Amor <[email protected]>
# License: BSD 3 clause
数据生成#
函数 make_blobs
生成各向同性(球形)高斯斑点。要获得各向异性(椭圆形)高斯斑点,必须定义线性 变换
。
import numpy as np
from sklearn.datasets import make_blobs
n_samples = 1500
random_state = 170
transformation = [[0.60834549, -0.63667341], [-0.40887718, 0.85253229]]
X, y = make_blobs(n_samples=n_samples, random_state=random_state)
X_aniso = np.dot(X, transformation) # Anisotropic blobs
X_varied, y_varied = make_blobs(
n_samples=n_samples, cluster_std=[1.0, 2.5, 0.5], random_state=random_state
) # Unequal variance
X_filtered = np.vstack(
(X[y == 0][:500], X[y == 1][:100], X[y == 2][:10])
) # Unevenly sized blobs
y_filtered = [0] * 500 + [1] * 100 + [2] * 10
我们可以可视化生成的数据
import matplotlib.pyplot as plt
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 12))
axs[0, 0].scatter(X[:, 0], X[:, 1], c=y)
axs[0, 0].set_title("Mixture of Gaussian Blobs")
axs[0, 1].scatter(X_aniso[:, 0], X_aniso[:, 1], c=y)
axs[0, 1].set_title("Anisotropically Distributed Blobs")
axs[1, 0].scatter(X_varied[:, 0], X_varied[:, 1], c=y_varied)
axs[1, 0].set_title("Unequal Variance")
axs[1, 1].scatter(X_filtered[:, 0], X_filtered[:, 1], c=y_filtered)
axs[1, 1].set_title("Unevenly Sized Blobs")
plt.suptitle("Ground truth clusters").set_y(0.95)
plt.show()
拟合模型并绘制结果#
现在使用先前生成的数据来展示 KMeans
在以下情况下的行为
非最佳聚类数量:在实际环境中,没有唯一定义的真实聚类数量。必须根据基于数据的标准和预期目标的知识来确定适当的聚类数量。
各向异性分布的斑点:k 均值包括最小化样本到其所属聚类质心的欧几里得距离。因此,k 均值更适合于各向同性和正态分布的聚类(即球形高斯)。
不等方差:k 均值等效于对具有相同方差但可能具有不同均值的 k 个高斯分布的“混合”取最大似然估计。
大小不等的斑点:没有关于 k 均值的理论结果表明它需要相似的聚类大小才能表现良好,但最小化欧几里得距离确实意味着问题越稀疏和维度越高,就越需要使用不同的质心种子运行算法,以确保全局最小惯性。
from sklearn.cluster import KMeans
common_params = {
"n_init": "auto",
"random_state": random_state,
}
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 12))
y_pred = KMeans(n_clusters=2, **common_params).fit_predict(X)
axs[0, 0].scatter(X[:, 0], X[:, 1], c=y_pred)
axs[0, 0].set_title("Non-optimal Number of Clusters")
y_pred = KMeans(n_clusters=3, **common_params).fit_predict(X_aniso)
axs[0, 1].scatter(X_aniso[:, 0], X_aniso[:, 1], c=y_pred)
axs[0, 1].set_title("Anisotropically Distributed Blobs")
y_pred = KMeans(n_clusters=3, **common_params).fit_predict(X_varied)
axs[1, 0].scatter(X_varied[:, 0], X_varied[:, 1], c=y_pred)
axs[1, 0].set_title("Unequal Variance")
y_pred = KMeans(n_clusters=3, **common_params).fit_predict(X_filtered)
axs[1, 1].scatter(X_filtered[:, 0], X_filtered[:, 1], c=y_pred)
axs[1, 1].set_title("Unevenly Sized Blobs")
plt.suptitle("Unexpected KMeans clusters").set_y(0.95)
plt.show()
可能的解决方案#
有关如何找到正确斑点数量的示例,请参阅 使用轮廓分析在 KMeans 聚类上选择聚类数量。在这种情况下,只需设置 n_clusters=3
即可。
y_pred = KMeans(n_clusters=3, **common_params).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.title("Optimal Number of Clusters")
plt.show()
为了处理大小不等的斑点,可以增加随机初始化的次数。在这种情况下,我们设置 n_init=10
以避免找到次优的局部最小值。有关更多详细信息,请参阅 使用 k 均值对稀疏数据进行聚类。
y_pred = KMeans(n_clusters=3, n_init=10, random_state=random_state).fit_predict(
X_filtered
)
plt.scatter(X_filtered[:, 0], X_filtered[:, 1], c=y_pred)
plt.title("Unevenly Sized Blobs \nwith several initializations")
plt.show()
由于各向异性和不等方差是 k 均值算法的真正限制,因此我们建议改用 GaussianMixture
,它也假设高斯聚类,但不强加对其方差的任何约束。请注意,仍然需要找到正确数量的斑点(请参阅 高斯混合模型选择)。
有关其他聚类方法如何处理各向异性或不等方差斑点的示例,请参阅示例 在玩具数据集上比较不同的聚类算法。
from sklearn.mixture import GaussianMixture
fig, (ax1, ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12, 6))
y_pred = GaussianMixture(n_components=3).fit_predict(X_aniso)
ax1.scatter(X_aniso[:, 0], X_aniso[:, 1], c=y_pred)
ax1.set_title("Anisotropically Distributed Blobs")
y_pred = GaussianMixture(n_components=3).fit_predict(X_varied)
ax2.scatter(X_varied[:, 0], X_varied[:, 1], c=y_pred)
ax2.set_title("Unequal Variance")
plt.suptitle("Gaussian mixture clusters").set_y(0.95)
plt.show()
最后备注#
在高维空间中,欧几里得距离往往会膨胀(本例中未显示)。在 k 均值聚类之前运行降维算法可以缓解此问题并加快计算速度(请参阅示例 使用 k 均值对文本文档进行聚类)。
如果已知聚类是各向同性的,具有相似的方差并且不太稀疏,则 k 均值算法非常有效,并且是可用的最快的聚类算法之一。如果必须多次重新启动它以避免收敛到局部最小值,则会失去此优势。
脚本总运行时间:(0 分钟 1.315 秒)
相关示例