关于谱双聚类算法的演示#
此示例演示了如何生成棋盘数据集并使用 SpectralBiclustering
算法对其进行双聚类。谱双聚类算法专门设计用于通过同时考虑矩阵的行(样本)和列(特征)来对数据进行聚类。它旨在识别样本之间的模式,以及样本子集内的模式,从而能够检测数据中的局部结构。这使得谱双聚类特别适合于特征顺序或排列固定的数据集,例如图像、时间序列或基因组。
生成数据,然后对其进行洗牌并传递给谱双聚类算法。然后重新排列洗牌矩阵的行和列以绘制找到的双聚类。
# Author: Kemal Eren <[email protected]>
# License: BSD 3 clause
生成样本数据#
我们使用 make_checkerboard
函数生成样本数据。 shape=(300, 300)
中的每个像素都用其颜色表示来自均匀分布的值。噪声是从正态分布中添加的,其中为 noise
选择的值是标准差。
如您所见,数据分布在 12 个聚类单元格中,并且相对容易区分。
from matplotlib import pyplot as plt
from sklearn.datasets import make_checkerboard
n_clusters = (4, 3)
data, rows, columns = make_checkerboard(
shape=(300, 300), n_clusters=n_clusters, noise=10, shuffle=False, random_state=42
)
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")
_ = plt.show()
我们对数据进行洗牌,目标是使用 SpectralBiclustering
重新构建它。
import numpy as np
# Creating lists of shuffled row and column indices
rng = np.random.RandomState(0)
row_idx_shuffled = rng.permutation(data.shape[0])
col_idx_shuffled = rng.permutation(data.shape[1])
我们重新定义洗牌后的数据并将其绘制出来。我们观察到我们丢失了原始数据矩阵的结构。
data = data[row_idx_shuffled][:, col_idx_shuffled]
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")
_ = plt.show()
拟合 SpectralBiclustering
#
我们拟合模型并将获得的聚类与真实情况进行比较。请注意,在创建模型时,我们指定了与用于创建数据集的聚类数量相同的数量 (n_clusters = (4, 3)
),这将有助于获得良好的结果。
from sklearn.cluster import SpectralBiclustering
from sklearn.metrics import consensus_score
model = SpectralBiclustering(n_clusters=n_clusters, method="log", random_state=0)
model.fit(data)
# Compute the similarity of two sets of biclusters
score = consensus_score(
model.biclusters_, (rows[:, row_idx_shuffled], columns[:, col_idx_shuffled])
)
print(f"consensus score: {score:.1f}")
consensus score: 1.0
分数介于 0 和 1 之间,其中 1 表示完美匹配。它显示了双聚类的质量。
绘制结果#
现在,我们根据 SpectralBiclustering
模型按升序分配的行和列标签重新排列数据,然后再次绘制。 row_labels_
范围从 0 到 3,而 column_labels_
范围从 0 到 2,表示每行 4 个聚类,每列 3 个聚类。
# Reordering first the rows and then the columns.
reordered_rows = data[np.argsort(model.row_labels_)]
reordered_data = reordered_rows[:, np.argsort(model.column_labels_)]
plt.matshow(reordered_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")
_ = plt.show()
作为最后一步,我们希望演示模型分配的行和列标签之间的关系。因此,我们使用 numpy.outer
创建一个网格,它采用排序后的 row_labels_
和 column_labels_
,并在每个标签上加 1 以确保标签从 1 开始而不是从 0 开始,以便更好地可视化。
行和列标签向量的外部积显示了棋盘结构的表示,其中行和列标签的不同组合由不同的蓝色阴影表示。
脚本的总运行时间:(0 分钟 0.506 秒)
相关示例