梯度提升回归#
此示例演示了梯度提升,用于从弱预测模型的集合中生成预测模型。梯度提升可用于回归和分类问题。在这里,我们将训练一个模型来处理糖尿病回归任务。我们将使用最小二乘损失和 500 棵深度为 4 的回归树从 GradientBoostingRegressor
获得结果。
注意:对于较大的数据集(n_samples >= 10000),请参阅 HistGradientBoostingRegressor
。有关展示 HistGradientBoostingRegressor
的其他一些优势的示例,请参阅 直方图梯度提升树中的特征。
# Author: Peter Prettenhofer <[email protected]>
# Maria Telenczuk <https://github.com/maikia>
# Katrina Ni <https://github.com/nilichen>
#
# License: BSD 3 clause
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, ensemble
from sklearn.inspection import permutation_importance
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
加载数据#
首先,我们需要加载数据。
diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target
数据预处理#
接下来,我们将拆分数据集,使用 90% 的数据进行训练,其余数据用于测试。我们还将设置回归模型参数。您可以调整这些参数以查看结果如何变化。
n_estimators
:将执行的提升阶段数。稍后,我们将绘制偏差与提升迭代次数的关系图。
max_depth
:限制树中节点的数量。最佳值取决于输入变量的交互。
min_samples_split
:拆分内部节点所需的最小样本数。
learning_rate
:每棵树的贡献将缩小多少。
loss
:要优化的损失函数。在这种情况下使用最小二乘函数,但是还有许多其他选项(请参阅 GradientBoostingRegressor
)。
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.1, random_state=13
)
params = {
"n_estimators": 500,
"max_depth": 4,
"min_samples_split": 5,
"learning_rate": 0.01,
"loss": "squared_error",
}
拟合回归模型#
现在,我们将初始化梯度提升回归器,并使用我们的训练数据对其进行拟合。我们还要查看测试数据上的均方误差。
reg = ensemble.GradientBoostingRegressor(**params)
reg.fit(X_train, y_train)
mse = mean_squared_error(y_test, reg.predict(X_test))
print("The mean squared error (MSE) on test set: {:.4f}".format(mse))
The mean squared error (MSE) on test set: 3044.4733
绘制训练偏差#
最后,我们将可视化结果。为此,我们将首先计算测试集偏差,然后将其绘制在提升迭代次数的对比图上。
test_score = np.zeros((params["n_estimators"],), dtype=np.float64)
for i, y_pred in enumerate(reg.staged_predict(X_test)):
test_score[i] = mean_squared_error(y_test, y_pred)
fig = plt.figure(figsize=(6, 6))
plt.subplot(1, 1, 1)
plt.title("Deviance")
plt.plot(
np.arange(params["n_estimators"]) + 1,
reg.train_score_,
"b-",
label="Training Set Deviance",
)
plt.plot(
np.arange(params["n_estimators"]) + 1, test_score, "r-", label="Test Set Deviance"
)
plt.legend(loc="upper right")
plt.xlabel("Boosting Iterations")
plt.ylabel("Deviance")
fig.tight_layout()
plt.show()
绘制特征重要性#
警告
请注意,对于**高基数**特征(许多唯一值),基于杂质的特征重要性可能会产生误导。作为替代方案,可以在留出的测试集上计算 reg
的排列重要性。有关更多详细信息,请参阅 排列特征重要性。
对于此示例,基于杂质的方法和排列方法识别出相同的 2 个强预测特征,但顺序不同。第三个最具预测性的特征“bp”对于这两种方法也是相同的。其余特征的预测性较低,排列图的误差线显示它们与 0 重叠。
feature_importance = reg.feature_importances_
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + 0.5
fig = plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.barh(pos, feature_importance[sorted_idx], align="center")
plt.yticks(pos, np.array(diabetes.feature_names)[sorted_idx])
plt.title("Feature Importance (MDI)")
result = permutation_importance(
reg, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_idx = result.importances_mean.argsort()
plt.subplot(1, 2, 2)
plt.boxplot(
result.importances[sorted_idx].T,
vert=False,
labels=np.array(diabetes.feature_names)[sorted_idx],
)
plt.title("Permutation Importance (test set)")
fig.tight_layout()
plt.show()
**脚本总运行时间:**(0 分 1.746 秒)
相关示例