K-Means++ 初始化的示例#
一个示例,展示了用于生成聚类初始种子的 sklearn.cluster.kmeans_plusplus
函数的输出。
K-Means++ 用作 K 均值 的默认初始化。
import matplotlib.pyplot as plt
from sklearn.cluster import kmeans_plusplus
from sklearn.datasets import make_blobs
# Generate sample data
n_samples = 4000
n_components = 4
X, y_true = make_blobs(
n_samples=n_samples, centers=n_components, cluster_std=0.60, random_state=0
)
X = X[:, ::-1]
# Calculate seeds from k-means++
centers_init, indices = kmeans_plusplus(X, n_clusters=4, random_state=0)
# Plot init seeds along side sample data
plt.figure(1)
colors = ["#4EACC5", "#FF9C34", "#4E9A06", "m"]
for k, col in enumerate(colors):
cluster_data = y_true == k
plt.scatter(X[cluster_data, 0], X[cluster_data, 1], c=col, marker=".", s=10)
plt.scatter(centers_init[:, 0], centers_init[:, 1], c="b", s=50)
plt.title("K-Means++ Initialization")
plt.xticks([])
plt.yticks([])
plt.show()
脚本的总运行时间:(0 分钟 0.067 秒)
相关示例
GMM 初始化方法
二分 K 均值和常规 K 均值性能比较
在手写数字数据上进行 K 均值聚类的演示
K 均值和 MiniBatchKMeans 聚类算法的比较