生成回归数据#(make_regression)
- sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]#
生成一个随机回归问题。
输入集可以是良态的(默认)或具有低秩肥尾奇异分布。详情请参见
make_low_rank_matrix
。输出是通过将具有
n_informative
个非零回归量的(可能存在偏差的)随机线性回归模型应用于先前生成的输入和一些具有可调比例的中心高斯噪声生成的。在 用户指南 中了解更多信息。
- 参数:
- n_samplesint, default=100
样本数量。
- n_featuresint, default=100
特征数量。
- n_informativeint, default=10
信息特征的数量,即用于构建用于生成输出的线性模型的特征数量。
- n_targetsint, default=1
回归目标的数量,即与样本关联的 y 输出向量的维度。默认情况下,输出是标量。
- biasfloat, default=0.0
底层线性模型中的偏差项。
- effective_rankint, default=None
- 如果非 None:
通过线性组合解释大部分输入数据所需的近似奇异向量数。在输入中使用这种类型的奇异谱允许生成器再现实践中经常观察到的相关性。
- 如果为 None:
输入集是良态的,居中的,且具有单位方差的高斯分布。
- tail_strengthfloat, default=0.5
如果
effective_rank
不为 None,则奇异值分布的肥尾噪声部分的相对重要性。如果为浮点数,则应在 0 和 1 之间。- noisefloat, default=0.0
应用于输出的高斯噪声的标准差。
- shufflebool, default=True
是否打乱样本和特征。
- coefbool, default=False
如果为 True,则返回底层线性模型的系数。
- random_stateint, RandomState instance 或 None, default=None
确定数据集创建的随机数生成。传递一个整数以在多次函数调用中获得可重复的输出。参见 词汇表。
- 返回:
- Xndarray of shape (n_samples, n_features)
输入样本。
- yndarray of shape (n_samples,) 或 (n_samples, n_targets)
输出值。
- coefndarray of shape (n_features,) 或 (n_features, n_targets)
底层线性模型的系数。仅当 coef 为 True 时才返回。
示例
>>> from sklearn.datasets import make_regression >>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42) >>> X array([[ 0.4967..., -0.1382... ], [ 0.6476..., 1.523...], [-0.2341..., -0.2341...], [-0.4694..., 0.5425...], [ 1.579..., 0.7674...]]) >>> y array([ 6.737..., 37.79..., -10.27..., 0.4017..., 42.22...])
示例图库#
scikit-learn 1.4 版本亮点
scikit-learn 0.23 版本亮点
预测延迟
比较线性贝叶斯回归器
使用预计算的 Gram 矩阵和加权样本拟合弹性网络
在具有强异常值的数据集上比较 HuberRegressor 和 Ridge
在具有强异常值的数据集上比较 HuberRegressor 和 Ridge
在密集和稀疏数据上使用 Lasso
作为 L2 正则化的函数的 Ridge 系数
使用 RANSAC 进行鲁棒线性模型估计
模型正则化对训练和测试误差的影响
转换回归模型中的目标的影响