make_checkerboard#

sklearn.datasets.make_checkerboard(shape, n_clusters, *, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None)[source]#

为双聚类生成具有块棋盘结构的数组。

用户指南中阅读更多内容。

参数:
shape形状为 (n_rows, n_cols) 的元组

结果的形状。

n_clustersint 或 array-like 或形状为 (n_row_clusters, n_column_clusters)

行和列簇的数量。

noisefloat, default=0.0

高斯噪声的标准差。

minvalfloat, default=10

双簇的最小值。

maxvalfloat, default=100

双簇的最大值。

shufflebool, default=True

打乱样本。

random_stateint, RandomState instance or None, default=None

确定数据集创建的随机数生成。传递一个 int 值以在多次函数调用中获得可重现的输出。请参阅词汇表

返回:
X形状为 shape 的 ndarray

生成的数组。

rows形状为 (n_clusters, X.shape[0]) 的 ndarray

每行的簇成员资格指示符。

cols形状为 (n_clusters, X.shape[1]) 的 ndarray

每列的簇成员资格指示符。

另请参阅

make_biclusters

为双聚类生成具有恒定块对角结构的数组。

References

[1]

Kluger, Y., Basri, R., Chang, J. T., & Gerstein, M. (2003). Spectral biclustering of microarray data: coclustering genes and conditions. Genome research, 13(4), 703-716.

示例

>>> from sklearn.datasets import make_checkerboard
>>> data, rows, columns = make_checkerboard(shape=(300, 300), n_clusters=10,
...                                         random_state=42)
>>> data.shape
(300, 300)
>>> rows.shape
(100, 300)
>>> columns.shape
(100, 300)
>>> print(rows[0][:5], columns[0][:5])
[False False False  True False] [False False False False False]