make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]#

生成一个随机回归问题。

输入集可以良好条件(默认)或具有低秩胖尾奇异剖面。有关更多详细信息,请参阅make_low_rank_matrix

通过应用一个(可能带有偏差的)随机线性回归模型,其中包含n_informative个非零回归量,作用于先前生成的输入,并添加一些可调尺度的以高斯为中心噪声,来生成输出。

用户指南中阅读更多内容。

参数:
n_samplesint, 默认值=100

样本数量。

n_featuresint, 默认值=100

特征数量。

n_informativeint, 默认值=10

信息特征的数量,即用于构建生成输出的线性模型的特征数量。

n_targetsint, 默认值=1

回归目标数量,即与样本关联的y输出向量的维度。默认情况下,输出为标量。

biasfloat, 默认值=0.0

底层线性模型中的偏差项。

effective_rankint, 默认值=None
如果不是None

解释大部分输入数据所需的奇异向量的大致数量(通过线性组合)。在输入中使用这种奇异谱允许生成器重现实践中经常观察到的相关性。

如果是None

输入集是良好条件、中心化且具有单位方差的高斯分布。

tail_strengthfloat, 默认值=0.5

如果effective_rank不是None,则奇异值剖面的“胖噪声尾部”的相对重要性。当为浮点数时,应介于0和1之间。

noisefloat, 默认值=0.0

应用于输出的高斯噪声的标准差。

shufflebool, 默认值=True

打乱样本和特征。

coefbool, 默认值=False

如果为True,则返回底层线性模型的系数。

random_stateint, RandomState实例或None, 默认值=None

确定数据集创建的随机数生成。传递一个整数可在多次函数调用中获得可重现的输出。请参阅术语表

返回:
X形状为(n_samples, n_features)的ndarray

输入样本。

y形状为(n_samples,) 或 (n_samples, n_targets)的ndarray

输出值。

coef形状为(n_features,) 或 (n_features, n_targets)的ndarray

底层线性模型的系数。仅当coef为True时返回。

示例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967, -0.1382 ],
    [ 0.6476,  1.523],
    [-0.2341, -0.2341],
    [-0.4694,  0.5425],
    [ 1.579,  0.7674]])
>>> y
array([  6.737,  37.79, -10.27,   0.4017,   42.22])