生成回归数据#(make_regression)

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]#

生成一个随机回归问题。

输入集可以是良态的(默认)或具有低秩肥尾奇异分布。详情请参见 make_low_rank_matrix

输出是通过将具有 n_informative 个非零回归量的(可能存在偏差的)随机线性回归模型应用于先前生成的输入和一些具有可调比例的中心高斯噪声生成的。

用户指南 中了解更多信息。

参数:
n_samplesint, default=100

样本数量。

n_featuresint, default=100

特征数量。

n_informativeint, default=10

信息特征的数量,即用于构建用于生成输出的线性模型的特征数量。

n_targetsint, default=1

回归目标的数量,即与样本关联的 y 输出向量的维度。默认情况下,输出是标量。

biasfloat, default=0.0

底层线性模型中的偏差项。

effective_rankint, default=None
如果非 None:

通过线性组合解释大部分输入数据所需的近似奇异向量数。在输入中使用这种类型的奇异谱允许生成器再现实践中经常观察到的相关性。

如果为 None:

输入集是良态的,居中的,且具有单位方差的高斯分布。

tail_strengthfloat, default=0.5

如果 effective_rank 不为 None,则奇异值分布的肥尾噪声部分的相对重要性。如果为浮点数,则应在 0 和 1 之间。

noisefloat, default=0.0

应用于输出的高斯噪声的标准差。

shufflebool, default=True

是否打乱样本和特征。

coefbool, default=False

如果为 True,则返回底层线性模型的系数。

random_stateint, RandomState instance 或 None, default=None

确定数据集创建的随机数生成。传递一个整数以在多次函数调用中获得可重复的输出。参见 词汇表

返回:
Xndarray of shape (n_samples, n_features)

输入样本。

yndarray of shape (n_samples,) 或 (n_samples, n_targets)

输出值。

coefndarray of shape (n_features,) 或 (n_features, n_targets)

底层线性模型的系数。仅当 coef 为 True 时才返回。

示例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967..., -0.1382... ],
    [ 0.6476...,  1.523...],
    [-0.2341..., -0.2341...],
    [-0.4694...,  0.5425...],
    [ 1.579...,  0.7674...]])
>>> y
array([  6.737...,  37.79..., -10.27...,   0.4017...,   42.22...])