在硬币图像上演示结构化 Ward 层次聚类#
使用 Ward 层次聚类计算二维图像的分割。为了使每个分割区域成为一个整体,聚类在空间上受到约束。
# Author : Vincent Michel, 2010
# Alexandre Gramfort, 2011
# License: BSD 3 clause
生成数据#
from skimage.data import coins
orig_coins = coins()
将其调整为原始大小的 20% 以加快处理速度。在缩小之前应用高斯滤波器可以减少混叠伪影。
import numpy as np
from scipy.ndimage import gaussian_filter
from skimage.transform import rescale
smoothened_coins = gaussian_filter(orig_coins, sigma=2)
rescaled_coins = rescale(
smoothened_coins,
0.2,
mode="reflect",
anti_aliasing=False,
)
X = np.reshape(rescaled_coins, (-1, 1))
定义数据的结构#
像素与其相邻像素相连。
from sklearn.feature_extraction.image import grid_to_graph
connectivity = grid_to_graph(*rescaled_coins.shape)
计算聚类#
import time as time
from sklearn.cluster import AgglomerativeClustering
print("Compute structured hierarchical clustering...")
st = time.time()
n_clusters = 27 # number of regions
ward = AgglomerativeClustering(
n_clusters=n_clusters, linkage="ward", connectivity=connectivity
)
ward.fit(X)
label = np.reshape(ward.labels_, rescaled_coins.shape)
print(f"Elapsed time: {time.time() - st:.3f}s")
print(f"Number of pixels: {label.size}")
print(f"Number of clusters: {np.unique(label).size}")
Compute structured hierarchical clustering...
Elapsed time: 0.207s
Number of pixels: 4697
Number of clusters: 27
在图像上绘制结果#
凝聚层次聚类能够分割每个硬币,但是我们必须使用一个 n_cluster
大于硬币的数量,因为分割正在找到背景中的一个大块。
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 5))
plt.imshow(rescaled_coins, cmap=plt.cm.gray)
for l in range(n_clusters):
plt.contour(
label == l,
colors=[
plt.cm.nipy_spectral(l / float(n_clusters)),
],
)
plt.axis("off")
plt.show()
脚本的总运行时间:(0 分钟 0.461 秒)
相关示例
层次聚类:结构化与非结构化 Ward
比较玩具数据集上的不同层次链接方法
特征聚合与单变量选择
使用不同指标的凝聚层次聚类