梯度提升中的提前停止#
梯度提升是一种集成技术,它结合了多个弱学习器(通常是决策树)来创建一个鲁棒且强大的预测模型。它以迭代的方式进行,其中每个新阶段(树)都会纠正前一阶段的错误。
提前停止是梯度提升中的一种技术,它允许我们找到构建模型所需的最佳迭代次数,该模型可以很好地泛化到未见过的数据并避免过拟合。概念很简单:我们将数据集的一部分作为验证集(使用 validation_fraction
指定)来评估训练期间模型的性能。由于模型是使用附加阶段(树)迭代构建的,因此其在验证集上的性能将作为步骤数的函数进行监控。
当模型在验证集上的性能在一定数量的连续阶段(由 n_iter_no_change
指定)内趋于稳定或恶化(在 tol
指定的偏差内)时,提前停止就会生效。这表明模型已经达到了进一步迭代可能会导致过拟合的程度,是时候停止训练了。
当应用提前停止时,最终模型中的估计器(树)数量可以使用 n_estimators_
属性访问。总的来说,提前停止是在梯度提升中平衡模型性能和效率的宝贵工具。
许可证:BSD 3 条款
数据准备#
首先,我们加载并准备加州房价数据集以进行训练和评估。它对数据集进行子集化,并将其拆分为训练集和验证集。
import time
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
data = fetch_california_housing()
X, y = data.data[:600], data.target[:600]
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
模型训练和比较#
训练了两个 GradientBoostingRegressor
模型:一个使用提前停止,另一个不使用。目的是比较它们的性能。它还计算训练时间和两个模型使用的 n_estimators_
。
params = dict(n_estimators=1000, max_depth=5, learning_rate=0.1, random_state=42)
gbm_full = GradientBoostingRegressor(**params)
gbm_early_stopping = GradientBoostingRegressor(
**params,
validation_fraction=0.1,
n_iter_no_change=10,
)
start_time = time.time()
gbm_full.fit(X_train, y_train)
training_time_full = time.time() - start_time
n_estimators_full = gbm_full.n_estimators_
start_time = time.time()
gbm_early_stopping.fit(X_train, y_train)
training_time_early_stopping = time.time() - start_time
estimators_early_stopping = gbm_early_stopping.n_estimators_
误差计算#
代码计算了上一节中训练的模型的训练数据集和验证数据集的 均方误差
。它计算每次提升迭代的误差。目的是评估模型的性能和收敛性。
train_errors_without = []
val_errors_without = []
train_errors_with = []
val_errors_with = []
for i, (train_pred, val_pred) in enumerate(
zip(
gbm_full.staged_predict(X_train),
gbm_full.staged_predict(X_val),
)
):
train_errors_without.append(mean_squared_error(y_train, train_pred))
val_errors_without.append(mean_squared_error(y_val, val_pred))
for i, (train_pred, val_pred) in enumerate(
zip(
gbm_early_stopping.staged_predict(X_train),
gbm_early_stopping.staged_predict(X_val),
)
):
train_errors_with.append(mean_squared_error(y_train, train_pred))
val_errors_with.append(mean_squared_error(y_val, val_pred))
可视化比较#
它包括三个子图
绘制两个模型在提升迭代中的训练误差。
绘制两个模型在提升迭代中的验证误差。
创建条形图以比较使用和不使用提前停止的模型的训练时间和使用的估计器。
fig, axes = plt.subplots(ncols=3, figsize=(12, 4))
axes[0].plot(train_errors_without, label="gbm_full")
axes[0].plot(train_errors_with, label="gbm_early_stopping")
axes[0].set_xlabel("Boosting Iterations")
axes[0].set_ylabel("MSE (Training)")
axes[0].set_yscale("log")
axes[0].legend()
axes[0].set_title("Training Error")
axes[1].plot(val_errors_without, label="gbm_full")
axes[1].plot(val_errors_with, label="gbm_early_stopping")
axes[1].set_xlabel("Boosting Iterations")
axes[1].set_ylabel("MSE (Validation)")
axes[1].set_yscale("log")
axes[1].legend()
axes[1].set_title("Validation Error")
training_times = [training_time_full, training_time_early_stopping]
labels = ["gbm_full", "gbm_early_stopping"]
bars = axes[2].bar(labels, training_times)
axes[2].set_ylabel("Training Time (s)")
for bar, n_estimators in zip(bars, [n_estimators_full, estimators_early_stopping]):
height = bar.get_height()
axes[2].text(
bar.get_x() + bar.get_width() / 2,
height + 0.001,
f"Estimators: {n_estimators}",
ha="center",
va="bottom",
)
plt.tight_layout()
plt.show()
gbm_full
和 gbm_early_stopping
之间训练误差的差异源于 gbm_early_stopping
将训练数据的 validation_fraction
留作内部验证集。提前停止的决定是基于此内部验证分数做出的。
总结#
在我们使用加州房价数据集上的 GradientBoostingRegressor
模型的示例中,我们展示了提前停止的实际好处
**防止过拟合:** 我们展示了验证误差如何在某个点之后稳定或开始增加,这表明模型可以更好地泛化到未见过的数据。这是通过在发生过拟合之前停止训练过程来实现的。
**提高训练效率:** 我们比较了使用和不使用提前停止的模型的训练时间。使用提前停止的模型在需要更少估计器的情况下实现了相当的精度,从而加快了训练速度。
**脚本总运行时间:**(0 分 3.520 秒)
相关示例