make_gaussian_quantiles#

sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)[source]#

生成各向同性高斯并按分位数标记样本。

该分类数据集通过获取多维标准正态分布并定义由嵌套的同心多维球体分隔的类别来构建,使得每个类别中的样本数量大致相等(\(\chi^2\) 分布的分位数)。

用户指南中阅读更多内容。

参数:
mean形状为 (n_features,) 的类数组对象,默认值为 None

多维正态分布的均值。如果为 None,则使用原点 (0, 0, …)。

cov浮点型,默认值为 1.0

协方差矩阵将是此值乘以单位矩阵。此数据集仅生成对称正态分布。

n_samples整型,默认值为 100

在类别中均等分配的总点数。

n_features整型,默认值为 2

每个样本的特征数量。

n_classes整型,默认值为 3

类别的数量。

shuffle布尔型,默认值为 True

打乱样本。

random_state整型,RandomState 实例或 None,默认值为 None

确定数据集创建的随机数生成。传入一个整型以便在多次函数调用中获得可重现的输出。请参阅词汇表

返回:
X形状为 (n_samples, n_features) 的 ndarray

生成的样本。

y形状为 (n_samples,) 的 ndarray

每个样本分位数成员的整数标签。

备注

该数据集来自 Zhu et al [1]。

参考文献

[1]
  1. Zhu, H. Zou, S. Rosset, T. Hastie, “Multi-class AdaBoost”, 2009。

示例

>>> from sklearn.datasets import make_gaussian_quantiles
>>> X, y = make_gaussian_quantiles(random_state=42)
>>> X.shape
(100, 2)
>>> y.shape
(100,)
>>> list(y[:5])
[np.int64(2), np.int64(0), np.int64(1), np.int64(0), np.int64(2)]