make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]#

生成一个随机回归问题。

输入集可以是有条件良好的(默认)或者具有低秩胖尾奇异值分布。有关更多详细信息,请参阅 make_low_rank_matrix

输出是通过对先前生成的输入应用具有 n_informative 个非零回归量的(可能带有偏差的)随机线性回归模型,以及一些可调节尺度的以高斯为中心的噪声生成的。

用户指南中阅读更多内容。

参数:
n_samplesint, default=100

样本数。

n_featuresint, default=100

特征数量。

n_informativeint, default=10

信息量特征的数量,即用于构建生成输出的线性模型的特征数量。

n_targetsint, default=1

回归目标变量的数量,即与样本关联的 y 输出向量的维度。默认情况下,输出是一个标量。

biasfloat, default=0.0

底层线性模型中的偏差项。

effective_rankint, default=None
如果不为 None

通过线性组合解释大部分输入数据所需的近似奇异向量数量。在输入中使用这种奇异谱允许生成器重现实践中经常观察到的相关性。

如果为 None

输入集条件良好,居中,并且具有单位方差的高斯分布。

tail_strengthfloat, default=0.5

如果 effective_rank 不为 None,则奇异值分布的胖噪声尾部的相对重要性。当为浮点数时,它应介于 0 和 1 之间。

noisefloat, default=0.0

应用于输出的高斯噪声的标准差。

shufflebool, default=True

打乱样本和特征。

coefbool, default=False

如果为 True,则返回底层线性模型的系数。

random_stateint, RandomState instance or None, default=None

确定数据集创建的随机数生成。传递一个 int 值以在多次函数调用中获得可重现的输出。请参阅词汇表

返回:
Xndarray of shape (n_samples, n_features)

输入样本。

yndarray of shape (n_samples,) or (n_samples, n_targets)

输出值。

coefshape 为 (n_features,) 或 (n_features, n_targets) 的 ndarray

底层线性模型的系数。仅当 coef 为 True 时才返回。

示例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967, -0.1382 ],
    [ 0.6476,  1.523],
    [-0.2341, -0.2341],
    [-0.4694,  0.5425],
    [ 1.579,  0.7674]])
>>> y
array([  6.737,  37.79, -10.27,   0.4017,   42.22])