MLPRegressor#

class sklearn.neural_network.MLPRegressor(loss='squared_error', hidden_layer_sizes=(100,), activation='relu', *, solver='adam', alpha=0.0001, batch_size='auto', learning_rate='constant', learning_rate_init=0.001, power_t=0.5, max_iter=200, shuffle=True, random_state=None, tol=0.0001, verbose=False, warm_start=False, momentum=0.9, nesterovs_momentum=True, early_stopping=False, validation_fraction=0.1, beta_1=0.9, beta_2=0.999, epsilon=1e-08, n_iter_no_change=10, max_fun=15000)[source]#

多层感知机回归器。

该模型使用 LBFGS 或随机梯度下降优化平方误差。

0.18 版本新增。

参数:
loss{‘squared_error’, ‘poisson’},默认为 'squared_error'

训练权重时使用的损失函数。请注意,“平方误差”和“泊松”损失实际上实现了“半平方误差”和“半泊松偏差”,以简化梯度的计算。此外,“泊松”损失在内部使用对数链接(指数作为输出激活函数),并且要求 y >= 0

1.7 版本新增:`loss` 参数和 'poisson' 选项。

hidden_layer_sizes形状为 (n_layers - 2,) 的类数组,默认为 (100,)

第 i 个元素表示第 i 个隐藏层中的神经元数量。

activation{‘identity’, ‘logistic’, ‘tanh’, ‘relu’},默认为 'relu'

隐藏层的激活函数。

  • ‘identity’,无操作激活函数,用于实现线性瓶颈,返回 f(x) = x

  • ‘logistic’,逻辑 Sigmoid 函数,返回 f(x) = 1 / (1 + exp(-x))。

  • ‘tanh’,双曲正切函数,返回 f(x) = tanh(x)。

  • ‘relu’,修正线性单元函数,返回 f(x) = max(0, x)

solver{‘lbfgs’, ‘sgd’, ‘adam’},默认为 'adam'

权重优化器。

  • ‘lbfgs’ 是一种拟牛顿方法家族中的优化器。

  • ‘sgd’ 指的是随机梯度下降。

  • ‘adam’ 指的是 Kingma、Diederik 和 Jimmy Ba 提出的一种基于随机梯度的优化器。

有关 Adam 优化器和 SGD 的比较,请参见比较 MLPClassifier 的随机学习策略

注意:默认求解器 ‘adam’ 在相对较大的数据集(数千个或更多训练样本)上,无论从训练时间还是验证分数来看,都表现良好。然而,对于小型数据集,‘lbfgs’ 可以更快收敛并表现更好。

alpha浮点型,默认为 0.0001

L2 正则化项的强度。L2 正则化项在添加到损失中时会除以样本大小。

batch_size整型,默认为 'auto'

随机优化器的 mini-batch 大小。如果求解器是 ‘lbfgs’,则回归器不会使用 mini-batch。当设置为“auto”时,batch_size=min(200, n_samples)

learning_rate{‘constant’, ‘invscaling’, ‘adaptive’},默认为 'constant'

权重更新的学习率调度。

  • ‘constant’ 是由 ‘learning_rate_init’ 给定的常数学习率。

  • ‘invscaling’ 使用 ‘power_t’ 的反向缩放指数,在每个时间步 ‘t’ 逐渐降低学习率 learning_rate_。effective_learning_rate = learning_rate_init / pow(t, power_t)

  • ‘adaptive’ 保持学习率恒定为 ‘learning_rate_init’,只要训练损失持续下降。如果‘early_stopping’开启,每次连续两个 epoch 未能将训练损失至少降低 tol,或未能将验证分数至少提高 tol,则当前学习率除以 5。

仅当 solver='sgd' 时使用。

learning_rate_init浮点型,默认为 0.001

使用的初始学习率。它控制权重更新的步长。仅当 solver='sgd' 或 'adam' 时使用。

power_t浮点型,默认为 0.5

反向缩放学习率的指数。当 learning_rate 设置为 ‘invscaling’ 时,用于更新有效学习率。仅当 solver='sgd' 时使用。

max_iter整型,默认为 200

最大迭代次数。求解器会迭代直到收敛(由 ‘tol’ 确定)或达到此迭代次数。对于随机求解器(‘sgd’,‘adam’),请注意这决定了 epoch 数(每个数据点将被使用的次数),而不是梯度步数。

shuffle布尔型,默认为 True

是否在每次迭代中打乱样本。仅当 solver='sgd' 或 'adam' 时使用。

random_state整型,RandomState 实例,默认为 None

确定权重和偏差初始化、使用提前停止时的训练-测试分割以及 solver='sgd' 或 'adam' 时的批次抽样的随机数生成。传入一个整数以在多次函数调用中获得可重现的结果。参见 术语表

tol浮点型,默认为 1e-4

优化的容忍度。当损失或分数在连续 n_iter_no_change 次迭代中未能至少改善 tol 时(除非 learning_rate 设置为 ‘adaptive’),则认为已达到收敛,训练停止。

verbose布尔型,默认为 False

是否向标准输出打印进度消息。

warm_start布尔型,默认为 False

当设置为 True 时,重用之前调用 fit 的解决方案作为初始化,否则,清除之前的解决方案。参见 术语表

momentum浮点型,默认为 0.9

梯度下降更新的动量。应在 0 和 1 之间。仅当 solver='sgd' 时使用。

nesterovs_momentum布尔型,默认为 True

是否使用 Nesterov 动量。仅当 solver='sgd' 且 momentum > 0 时使用。

early_stopping布尔型,默认为 False

是否使用提前停止来在验证分数不再提高时终止训练。如果设置为 True,它将自动将 validation_fraction 比例的训练数据作为验证集,并在验证分数在连续 n_iter_no_change 个 epoch 中未能至少改善 tol 时终止训练。仅当 solver='sgd' 或 'adam' 时有效。

validation_fraction浮点型,默认为 0.1

为提前停止而留作验证集的训练数据比例。必须在 0 和 1 之间。仅当 early_stopping 为 True 时使用。

beta_1浮点型,默认为 0.9

Adam 中一阶矩向量估计的指数衰减率,应在 [0, 1) 之间。仅当 solver='adam' 时使用。

beta_2浮点型,默认为 0.999

Adam 中二阶矩向量估计的指数衰减率,应在 [0, 1) 之间。仅当 solver='adam' 时使用。

epsilon浮点型,默认为 1e-8

Adam 中用于数值稳定性的值。仅当 solver='adam' 时使用。

n_iter_no_change整型,默认为 10

未达到 tol 改进的最大 epoch 数。仅当 solver='sgd' 或 'adam' 时有效。

0.20 版本新增。

max_fun整型,默认为 15000

仅当 solver='lbfgs' 时使用。最大函数调用次数。求解器会迭代直到收敛(由 tol 确定),迭代次数达到 max_iter,或达到此函数调用次数。请注意,对于 MLPRegressor,函数调用次数将大于或等于迭代次数。

0.22 版本新增。

属性:
loss_浮点型

使用损失函数计算的当前损失。

best_loss_浮点型

求解器在整个拟合过程中达到的最小损失。如果 early_stopping=True,此属性设置为 None。请改用 best_validation_score_ 拟合属性。仅当 solver='sgd' 或 'adam' 时可访问。

loss_curve_形状为 (n_iter_,) 的列表

在每个训练步骤结束时评估的损失值。列表中第 i 个元素表示第 i 次迭代时的损失。仅当 solver='sgd' 或 'adam' 时可访问。

validation_scores_形状为 (n_iter_,) 的列表或 None

在每个迭代中对保留验证集的分数。报告的分数是 R2 分数。仅当 early_stopping=True 时可用,否则属性设置为 None。仅当 solver='sgd' 或 'adam' 时可访问。

best_validation_score_浮点型或 None

触发提前停止的最佳验证分数(即 R2 分数)。仅当 early_stopping=True 时可用,否则属性设置为 None。仅当 solver='sgd' 或 'adam' 时可访问。

t_整型

求解器在拟合过程中见过的训练样本数。数学上等于 n_iters * X.shape[0],它表示 time_step 并被优化器的学习率调度器使用。

coefs_形状为 (n_layers - 1,) 的列表

列表中第 i 个元素表示与第 i 层对应的权重矩阵。

intercepts_形状为 (n_layers - 1,) 的列表

列表中第 i 个元素表示与第 i + 1 层对应的偏差向量。

n_features_in_整型

拟合 期间看到的特征数量。

0.24 版本新增。

feature_names_in_形状为 (n_features_in_,) 的 ndarray

拟合 期间看到的特征名称。仅当 X 的所有特征名称都是字符串时才定义。

1.0 版本新增。

n_iter_整型

求解器运行的迭代次数。

n_layers_整型

层数。

n_outputs_整型

输出数量。

out_activation_字符串

输出激活函数的名称。

另请参见

BernoulliRBM

Bernoulli Restricted Boltzmann Machine (RBM)。

MLPClassifier

多层感知机分类器。

sklearn.linear_model.SGDRegressor

通过 SGD 最小化正则化经验损失拟合的线性模型。

注意

MLPRegressor 迭代训练,因为在每个时间步都会计算损失函数相对于模型参数的偏导数以更新参数。

它还可以在损失函数中添加一个正则化项,以缩小模型参数,防止过拟合。

此实现适用于表示为浮点值的稠密和稀疏 numpy 数组的数据。

参考文献

Hinton, Geoffrey E. “Connectionist learning procedures.” Artificial intelligence 40.1 (1989): 185-234.

Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural networks.” International Conference on Artificial Intelligence and Statistics. 2010.

He, Kaiming, et al (2015). “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification.”

Kingma, Diederik, and Jimmy Ba (2014) “Adam: A method for stochastic optimization.”

示例

>>> from sklearn.neural_network import MLPRegressor
>>> from sklearn.datasets import make_regression
>>> from sklearn.model_selection import train_test_split
>>> X, y = make_regression(n_samples=200, n_features=20, random_state=1)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=1)
>>> regr = MLPRegressor(random_state=1, max_iter=2000, tol=0.1)
>>> regr.fit(X_train, y_train)
MLPRegressor(max_iter=2000, random_state=1, tol=0.1)
>>> regr.predict(X_test[:2])
array([  28.98, -291])
>>> regr.score(X_test, y_test)
0.98
fit(X, y, sample_weight=None)[source]#

将模型拟合到数据矩阵 X 和目标 y。

参数:
X形状为 (n_samples, n_features) 的 ndarray 或稀疏矩阵

输入数据。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的 ndarray

目标值(分类中的类别标签,回归中的实数)。

sample_weight形状为 (n_samples,) 的类数组,默认为 None

样本权重。

1.7 版本新增。

返回:
self对象

返回一个训练好的 MLP 模型。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅用户指南,了解路由机制的工作原理。

返回:
routingMetadataRequest

封装路由信息的 MetadataRequest 对象。

get_params(deep=True)[source]#

获取此估计器的参数。

参数:
deep布尔型,默认为 True

如果为 True,将返回此估计器及其包含的作为估计器的子对象的参数。

返回:
params字典

参数名称及其对应值的映射。

partial_fit(X, y, sample_weight=None)[source]#

通过对给定数据进行单次迭代来更新模型。

参数:
X形状为 (n_samples, n_features) 的 {类数组,稀疏矩阵}

输入数据。

y形状为 (n_samples,) 的 ndarray

目标值。

sample_weight形状为 (n_samples,) 的类数组,默认为 None

样本权重。

1.6 版本新增。

返回:
self对象

训练好的 MLP 模型。

predict(X)[source]#

使用多层感知机模型进行预测。

参数:
X形状为 (n_samples, n_features) 的 {类数组,稀疏矩阵}

输入数据。

返回:
y形状为 (n_samples, n_outputs) 的 ndarray

预测值。

score(X, y, sample_weight=None)[source]#

返回测试数据的决定系数

决定系数 \(R^2\) 定义为 \((1 - \frac{u}{v})\),其中 \(u\) 是残差平方和 ((y_true - y_pred)** 2).sum()\(v\) 是总平方和 ((y_true - y_true.mean()) ** 2).sum()。最佳分数是 1.0,它也可以是负值(因为模型可能任意地差)。一个总是预测 y 的期望值而忽略输入特征的常数模型将得到 0.0 的 \(R^2\) 分数。

参数:
X形状为 (n_samples, n_features) 的类数组

测试样本。对于某些估计器,这可能是预先计算的核矩阵或通用对象列表,形状为 (n_samples, n_samples_fitted),其中 n_samples_fitted 是估计器拟合中使用的样本数量。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组

X 的真实值。

sample_weight形状为 (n_samples,) 的类数组,默认为 None

样本权重。

返回:
score浮点型

self.predict(X) 相对于 y\(R^2\) 值。

注意

在回归器上调用 score 时使用的 \(R^2\) 分数从 0.23 版本开始使用 multioutput='uniform_average',以与 r2_score 的默认值保持一致。这会影响所有多输出回归器(除了 MultiOutputRegressor)的 score 方法。

set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') MLPRegressor[source]#

请求传递给 fit 方法的元数据。

请注意,此方法仅在 enable_metadata_routing=True 时相关(参见 sklearn.set_config)。请参阅 用户指南,了解路由机制的工作原理。

每个参数的选项为:

  • True:请求元数据,如果提供则传递给 fit。如果未提供元数据,则忽略该请求。

  • False:不请求元数据,元估计器也不会将其传递给 fit

  • None:不请求元数据,如果用户提供元数据,元估计器将引发错误。

  • str:元数据应以给定的别名而不是原始名称传递给元估计器。

默认值 (sklearn.utils.metadata_routing.UNCHANGED) 保留现有请求。这允许您更改某些参数的请求而不更改其他参数。

1.3 版本新增。

注意

此方法仅当此估计器作为元估计器的子估计器使用时才相关,例如在 Pipeline 中使用。否则无效。

参数:
sample_weight字符串、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED

fit 方法中 sample_weight 参数的元数据路由。

返回:
self对象

更新后的对象。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单估计器以及嵌套对象(例如 Pipeline)。后者具有 <component>__<parameter> 形式的参数,因此可以更新嵌套对象的每个组件。

参数:
**params字典

估计器参数。

返回:
self估计器实例

估计器实例。

set_partial_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') MLPRegressor[source]#

请求传递给 partial_fit 方法的元数据。

请注意,此方法仅在 enable_metadata_routing=True 时相关(参见 sklearn.set_config)。请参阅 用户指南,了解路由机制的工作原理。

每个参数的选项为:

  • True:请求元数据,如果提供则传递给 partial_fit。如果未提供元数据,则忽略该请求。

  • False:不请求元数据,元估计器也不会将其传递给 partial_fit

  • None:不请求元数据,如果用户提供元数据,元估计器将引发错误。

  • str:元数据应以给定的别名而不是原始名称传递给元估计器。

默认值 (sklearn.utils.metadata_routing.UNCHANGED) 保留现有请求。这允许您更改某些参数的请求而不更改其他参数。

1.3 版本新增。

注意

此方法仅当此估计器作为元估计器的子估计器使用时才相关,例如在 Pipeline 中使用。否则无效。

参数:
sample_weight字符串、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED

partial_fit 方法中 sample_weight 参数的元数据路由。

返回:
self对象

更新后的对象。

set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') MLPRegressor[source]#

请求传递给 score 方法的元数据。

请注意,此方法仅在 enable_metadata_routing=True 时相关(参见 sklearn.set_config)。请参阅 用户指南,了解路由机制的工作原理。

每个参数的选项为:

  • True:请求元数据,如果提供则传递给 score。如果未提供元数据,则忽略该请求。

  • False:不请求元数据,元估计器也不会将其传递给 score

  • None:不请求元数据,如果用户提供元数据,元估计器将引发错误。

  • str:元数据应以给定的别名而不是原始名称传递给元估计器。

默认值 (sklearn.utils.metadata_routing.UNCHANGED) 保留现有请求。这允许您更改某些参数的请求而不更改其他参数。

1.3 版本新增。

注意

此方法仅当此估计器作为元估计器的子估计器使用时才相关,例如在 Pipeline 中使用。否则无效。

参数:
sample_weight字符串、True、False 或 None,默认为 sklearn.utils.metadata_routing.UNCHANGED

score 方法中 sample_weight 参数的元数据路由。

返回:
self对象

更新后的对象。