1.11. 集成方法：梯度提升、随机森林、Bagging、投票、堆叠#

集成方法结合了使用给定学习算法构建的多个基估计器的预测，以提高相对于单个估计器的泛化能力/鲁棒性。

集成方法最著名的两个例子是梯度提升树和随机森林。

更一般地，集成模型可以应用于树之外的任何基学习器，例如Bagging方法、模型堆叠或投票等平均方法，或者像AdaBoost这样的提升方法。

1.11.1. 梯度提升树#

梯度树提升或梯度提升决策树（GBDT）是提升方法对任意可微分损失函数的一种推广，参见[Friedman2001]的开创性工作。GBDT是回归和分类都非常优秀的模型，尤其适用于表格数据。

1.11.1.1. 基于直方图的梯度提升#

Scikit-learn 0.21 引入了梯度提升树的两种新实现，即HistGradientBoostingClassifier和HistGradientBoostingRegressor，它们受到了LightGBM的启发（参见[LightGBM]）。

当样本数量超过数万个时，这些基于直方图的估计器比GradientBoostingClassifier和GradientBoostingRegressor速度快上数量级。

它们还内置了对缺失值的支持，从而避免了使用填充器。

这些快速估计器首先将输入样本 X 分箱为整数值的箱（通常为 256 个箱），这极大地减少了需要考虑的分割点数量，并允许算法在构建树时利用基于整数的数据结构（直方图），而不是依赖排序的连续值。这些估计器的 API 略有不同，并且 GradientBoostingClassifier 和 GradientBoostingRegressor 的某些功能尚未支持，例如一些损失函数。

示例

1.11.1.1.1. 用法#

大多数参数与GradientBoostingClassifier和GradientBoostingRegressor保持不变。一个例外是max_iter参数取代了n_estimators，并控制提升过程的迭代次数。

>>> from sklearn.ensemble import HistGradientBoostingClassifier
>>> from sklearn.datasets import make_hastie_10_2

>>> X, y = make_hastie_10_2(random_state=0)
>>> X_train, X_test = X[:2000], X[2000:]
>>> y_train, y_test = y[:2000], y[2000:]

>>> clf = HistGradientBoostingClassifier(max_iter=100).fit(X_train, y_train)
>>> clf.score(X_test, y_test)
0.8965

回归可用的损失函数有

“squared_error”，默认损失函数；
“absolute_error”，对异常值不敏感，优于平方误差；
“gamma”，非常适合建模严格为正的结果；
“poisson”，非常适合建模计数和频率；
“quantile”，允许估计条件分位数，后续可用于获得预测区间。

对于分类问题，“log_loss”是唯一选项。对于二分类问题，它使用二元对数损失，也称为二项式偏差或二元交叉熵。对于n_classes >= 3，它使用多类别对数损失函数，也称为多项式偏差和类别交叉熵。根据传递给fit的y来选择合适的损失版本。

树的大小可以通过max_leaf_nodes、max_depth和min_samples_leaf参数来控制。

用于数据分箱的箱数由max_bins参数控制。使用较少的箱数可以起到正则化的作用。通常建议使用尽可能多的箱（255个），这是默认值。

l2_regularization 参数作为损失函数的正则化项，对应于以下表达式中的 \(\lambda\)（参见 [XGBoost] 中的公式 (2)）

\[\mathcal{L}(\phi) = \sum_i l(\hat{y}_i, y_i) + \frac12 \sum_k \lambda ||w_k||^2\]

请注意，如果样本数量大于 10,000，则默认启用早停。早停行为通过early_stopping、scoring、validation_fraction、n_iter_no_change和tol参数控制。可以使用任意评分器，或者仅使用训练或验证损失进行早停。请注意，由于技术原因，使用可调用对象作为评分器比使用损失函数慢得多。默认情况下，如果训练集中至少有 10,000 个样本，则使用验证损失进行早停。

1.11.1.1.2. 缺失值支持#

HistGradientBoostingClassifier和HistGradientBoostingRegressor内置支持缺失值（NaN）。

在训练期间，树的生长器在每个分裂点学习如何根据潜在增益将含有缺失值的样本分配到左子节点或右子节点。在预测时，含有缺失值的样本相应地被分配到左子节点或右子节点。

>>> from sklearn.ensemble import HistGradientBoostingClassifier
>>> import numpy as np

>>> X = np.array([0, 1, 2, np.nan]).reshape(-1, 1)
>>> y = [0, 0, 1, 1]

>>> gbdt = HistGradientBoostingClassifier(min_samples_leaf=1).fit(X, y)
>>> gbdt.predict(X)
array([0, 0, 1, 1])

当缺失模式具有预测性时，可以根据特征值是否缺失来执行分裂。

>>> X = np.array([0, np.nan, 1, 2, np.nan]).reshape(-1, 1)
>>> y = [0, 1, 0, 0, 1]
>>> gbdt = HistGradientBoostingClassifier(min_samples_leaf=1,
...                                       max_depth=2,
...                                       learning_rate=1,
...                                       max_iter=1).fit(X, y)
>>> gbdt.predict(X)
array([0, 1, 0, 0, 1])

如果训练期间某个给定特征没有遇到缺失值，那么在预测时，含有缺失值的样本将被映射到样本数量最多的子节点。

示例

直方图梯度提升树中的特征

1.11.1.1.3. 样本权重支持#

HistGradientBoostingClassifier和HistGradientBoostingRegressor在fit期间支持样本权重。

以下玩具示例演示了样本权重为零的样本将被忽略：

>>> X = [[1, 0],
...      [1, 0],
...      [1, 0],
...      [0, 1]]
>>> y = [0, 0, 1, 0]
>>> # ignore the first 2 training samples by setting their weight to 0
>>> sample_weight = [0, 0, 1, 1]
>>> gb = HistGradientBoostingClassifier(min_samples_leaf=1)
>>> gb.fit(X, y, sample_weight=sample_weight)
HistGradientBoostingClassifier(...)
>>> gb.predict([[1, 0]])
array([1])
>>> gb.predict_proba([[1, 0]])[0, 1]
np.float64(0.999)

如您所见，[1, 0] 被轻松地分类为 1，因为前两个样本因其样本权重而被忽略。

实现细节：考虑样本权重相当于将梯度（和Hessian）乘以样本权重。请注意，分箱阶段（特别是分位数计算）不考虑权重。

1.11.1.1.4. 分类特征支持#

HistGradientBoostingClassifier和HistGradientBoostingRegressor原生支持分类特征：它们可以考虑对无序的分类数据进行分裂。

对于具有分类特征的数据集，使用原生分类支持通常优于依赖独热编码（OneHotEncoder），因为独热编码需要更深的树深度才能实现等效分裂。通常也最好依赖原生分类支持，而不是将分类特征视为连续（序数）特征（这发生在序数编码的分类数据中），因为类别是名义量，顺序无关紧要。

要启用分类支持，可以将布尔掩码传递给categorical_features参数，指示哪些特征是分类的。在下文中，第一个特征将被视为分类特征，第二个特征将被视为数值特征：

>>> gbdt = HistGradientBoostingClassifier(categorical_features=[True, False])

同样地，可以传递一个整数列表，指示分类特征的索引：

>>> gbdt = HistGradientBoostingClassifier(categorical_features=[0])

当输入是 DataFrame 时，也可以传递列名列表：

>>> gbdt = HistGradientBoostingClassifier(categorical_features=["site", "manufacturer"])

最后，当输入是 DataFrame 时，我们可以使用categorical_features="from_dtype"，在这种情况下，所有具有分类dtype的列都将被视为分类特征。

每个分类特征的基数必须小于max_bins参数。有关在分类特征上使用基于直方图的梯度提升的示例，请参见梯度提升中的分类特征支持。

如果训练期间存在缺失值，缺失值将被视为一个独立的类别。如果在训练期间没有缺失值，那么在预测时，缺失值将被映射到样本数量最多的子节点（就像连续特征一样）。在预测时，在训练期间未见过的类别将被视为缺失值。

示例

梯度提升中的分类特征支持

1.11.1.1.5. 单调约束#

根据具体问题，您可能拥有先验知识，表明给定特征通常应对目标值产生正向（或负向）影响。例如，在其他条件相同的情况下，更高的信用评分应增加贷款获批的可能性。单调约束允许您将此类先验知识纳入模型。

对于具有两个特征的预测器 \(F\)

单调递增约束是以下形式的约束

\[x_1 \leq x_1' \implies F(x_1, x_2) \leq F(x_1', x_2)\]
单调递减约束是以下形式的约束

\[x_1 \leq x_1' \implies F(x_1, x_2) \geq F(x_1', x_2)\]

您可以使用monotonic_cst参数为每个特征指定单调约束。对于每个特征，值 0 表示无约束，而 1 和 -1 分别表示单调递增和单调递减约束：

>>> from sklearn.ensemble import HistGradientBoostingRegressor

... # monotonic increase, monotonic decrease, and no constraint on the 3 features
>>> gbdt = HistGradientBoostingRegressor(monotonic_cst=[1, -1, 0])

在二分类情境中，施加单调递增（递减）约束意味着特征的较高值应该对样本属于正类的概率产生正向（负向）影响。

然而，单调约束对特征对输出的影响仅起到微弱的限制作用。例如，单调递增和递减约束不能用于强制执行以下建模约束：

\[x_1 \leq x_1' \implies F(x_1, x_2) \leq F(x_1', x_2')\]

此外，多类别分类不支持单调约束。

注意

由于类别是无序量，因此无法对分类特征强制执行单调约束。

示例

1.11.1.1.6. 交互约束#

先验地，直方图梯度提升树允许使用任何特征将节点分裂成子节点。这产生了所谓的特征之间的交互作用，即在分支中将不同的特征用作分裂。有时，人们希望限制可能的交互作用，参见[Mayer2022]。这可以通过参数interaction_cst来实现，在该参数中可以指定允许交互的特征索引。例如，总共有 3 个特征，interaction_cst=[{0}, {1}, {2}] 禁止所有交互。约束[{0, 1}, {1, 2}]指定了两组可能交互的特征。特征 0 和 1 可以相互交互，特征 1 和 2 也可以相互交互。但请注意，特征 0 和 2 被禁止交互。下图描述了一棵树和该树的可能分裂：

   1      <- Both constraint groups could be applied from now on
  / \
 1   2    <- Left split still fulfills both constraint groups.
/ \ / \      Right split at feature 2 has only group {1, 2} from now on.

LightGBM 对重叠组使用相同的逻辑。

请注意，未在interaction_cst中列出的特征会自动为其自身分配一个交互组。再次以 3 个特征为例，这意味着[{0}]等同于[{0}, {1, 2}]。

示例

部分依赖和个体条件期望图

参考文献

[Mayer2022]

M. Mayer, S.C. Bourassa, M. Hoesli, and D.F. Scognamiglio. 2022. 机器学习在土地和结构估值中的应用. Journal of Risk and Financial Management 15, no. 5: 193

1.11.1.1.7. 底层并行#

HistGradientBoostingClassifier和HistGradientBoostingRegressor通过 Cython 使用 OpenMP 进行并行化。有关如何控制线程数的更多详细信息，请参阅我们的并行性说明。

以下部分是并行化的：

将样本从实值映射到整数值箱（但查找箱阈值是顺序的）
直方图构建并行化在特征上
在节点处查找最佳分裂点并行化在特征上
在拟合期间，将样本映射到左右子节点并行化在样本上
梯度和Hessian计算并行化在样本上
预测并行化在样本上

1.11.1.1.8. 为何更快#

梯度提升过程的瓶颈在于构建决策树。构建传统的决策树（如其他 GBDT，GradientBoostingClassifier 和 GradientBoostingRegressor 中）需要在每个节点（针对每个特征）对样本进行排序。排序是为了有效计算分裂点的潜在增益。因此，分裂单个节点的复杂度为 \(\mathcal{O}(n_\text{features} \times n \log(n))\)，其中 \(n\) 是节点处的样本数量。

HistGradientBoostingClassifier和HistGradientBoostingRegressor，相反，不需要对特征值进行排序，而是使用一种称为直方图的数据结构，其中样本是隐式排序的。构建直方图的复杂度为 \(\mathcal{O}(n)\)，因此节点分裂过程的复杂度为 \(\mathcal{O}(n_\text{features} \times n)\)，远小于前者。此外，我们只考虑max_bins个分裂点，而不是\(n\)个分裂点，这可能要小得多。

为了构建直方图，输入数据 X 需要被分箱为整数值箱。这个分箱过程确实需要对特征值进行排序，但它只在提升过程的最初阶段发生一次（不像 GradientBoostingClassifier 和 GradientBoostingRegressor 那样在每个节点都发生）。

最后，HistGradientBoostingClassifier和HistGradientBoostingRegressor实现的许多部分都进行了并行化。

参考文献

[XGBoost] (1,2,3)

陈天奇，Carlos Guestrin，“XGBoost：一个可扩展的树增强系统”

[LightGBM]

Ke 等。“LightGBM：一个高效的梯度提升决策树”

[Fisher1958]

Fisher, W.D. (1958). “关于最大同质性分组” 美国统计协会杂志，53，789-798。

1.11.1.2. `GradientBoostingClassifier`和`GradientBoostingRegressor`#

GradientBoostingClassifier和GradientBoostingRegressor的用法和参数如下所述。这些估计器最重要的两个参数是n_estimators和learning_rate。

示例

1.11.1.2.1. 拟合额外的弱学习器#

GradientBoostingRegressor和GradientBoostingClassifier都支持warm_start=True，这允许您向已拟合的模型添加更多估计器。

>>> import numpy as np
>>> from sklearn.metrics import mean_squared_error
>>> from sklearn.datasets import make_friedman1
>>> from sklearn.ensemble import GradientBoostingRegressor

>>> X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
>>> X_train, X_test = X[:200], X[200:]
>>> y_train, y_test = y[:200], y[200:]
>>> est = GradientBoostingRegressor(
...     n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
...     loss='squared_error'
... )
>>> est = est.fit(X_train, y_train)  # fit with 100 trees
>>> mean_squared_error(y_test, est.predict(X_test))
5.00
>>> _ = est.set_params(n_estimators=200, warm_start=True)  # set warm_start and increase num of trees
>>> _ = est.fit(X_train, y_train) # fit additional 100 trees to est
>>> mean_squared_error(y_test, est.predict(X_test))
3.84

1.11.1.2.2. 控制树的大小#

回归树基学习器的大小定义了梯度提升模型可以捕获的变量交互级别。通常，深度为h的树可以捕获h阶的交互。可以通过两种方式控制单个回归树的大小。

如果您指定max_depth=h，那么将生长深度为h的完整二叉树。这样的树将具有（至多）2**h个叶子节点和2**h - 1个分裂节点。

另外，您可以通过参数max_leaf_nodes指定叶子节点的数量来控制树的大小。在这种情况下，树将使用最佳优先搜索来生长，其中杂质改善最大的节点将首先被扩展。具有max_leaf_nodes=k的树有k - 1个分裂节点，因此可以建模高达max_leaf_nodes - 1阶的交互。

我们发现max_leaf_nodes=k提供了与max_depth=k-1可比的结果，但在训练速度上显著更快，代价是训练误差略高。max_leaf_nodes参数对应于[Friedman2001]中梯度提升章节的变量J，并且与 R 的 gbm 包中的interaction.depth参数相关，其中max_leaf_nodes == interaction.depth + 1。

1.11.1.2.3. 数学公式#

我们首先介绍 GBRT 的回归情况，然后详细说明分类情况。

1.11.1.2.4. 损失函数#

支持以下损失函数，可通过参数loss指定：

1.11.1.2.5. 通过学习率收缩#

[Friedman2001]提出了一种简单的正则化策略，它通过一个常数因子 \(\nu\) 来缩放每个弱学习器的贡献：

\[F_m(x) = F_{m-1}(x) + \nu h_m(x)\]

参数 \(\nu\) 也被称为学习率，因为它缩放了梯度下降过程的步长；可以通过learning_rate参数设置。

参数learning_rate与参数n_estimators（要拟合的弱学习器数量）密切相关。较小的learning_rate值需要更多的弱学习器才能保持恒定的训练误差。经验证据表明，较小的learning_rate值有利于更好的测试误差。[HTF]建议将学习率设置为一个小的常数（例如learning_rate <= 0.1），并选择足够大的n_estimators以便应用早停，有关learning_rate和n_estimators之间交互的更详细讨论，请参见梯度提升中的早停，参见[R2007]。

1.11.1.2.6. 子抽样#

[Friedman2002]提出了随机梯度提升，它将梯度提升与自助平均（bagging）相结合。在每次迭代中，基分类器都会在可用训练数据的subsample比例的子样本上进行训练。子样本是无放回抽取的。subsample的典型值为 0.5。

下图展示了收缩和子抽样对模型拟合优度的影响。我们可以清楚地看到，收缩优于不收缩。带有收缩的子抽样可以进一步提高模型的准确性。而没有收缩的子抽样表现则很差。

../_images/sphx_glr_plot_gradient_boosting_regularization_001.png

另一种减少方差的策略是通过对特征进行子抽样，类似于RandomForestClassifier中的随机分裂。子抽样特征的数量可以通过max_features参数控制。

注意

使用较小的max_features值可以显著减少运行时间。

随机梯度提升允许通过计算未包含在自助样本中（即袋外样本）的示例上的偏差改进来计算测试偏差的袋外估计。这些改进存储在属性oob_improvement_中。oob_improvement_[i]表示如果您将第 i 阶段添加到当前预测中，OOB 样本上的损失改进。袋外估计可用于模型选择，例如确定最佳迭代次数。OOB 估计通常非常悲观，因此我们建议使用交叉验证，并且仅在交叉验证太耗时时才使用 OOB。

示例

1.11.1.2.7. 用特征重要性进行解释#

单个决策树可以通过简单地可视化树结构来轻松解释。然而，梯度提升模型包含数百个回归树，因此无法通过目视检查单个树来轻松解释。幸运的是，已经提出了许多技术来总结和解释梯度提升模型。

通常特征对目标响应的预测贡献不均等；在许多情况下，大部分特征实际上是无关紧要的。在解释模型时，第一个问题通常是：哪些是重要的特征，以及它们如何有助于预测目标响应？

单个决策树通过选择合适的分裂点来本质上执行特征选择。此信息可用于衡量每个特征的重要性；基本思想是：一个特征在树的分裂点中使用的次数越多，该特征就越重要。这种重要性概念可以通过简单地平均每棵树基于杂质的特征重要性来扩展到决策树集成（详见特征重要性评估）。

拟合的梯度提升模型的特征重要性分数可以通过feature_importances_属性访问：

>>> from sklearn.datasets import make_hastie_10_2
>>> from sklearn.ensemble import GradientBoostingClassifier

>>> X, y = make_hastie_10_2(random_state=0)
>>> clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
...     max_depth=1, random_state=0).fit(X, y)
>>> clf.feature_importances_
array([0.107, 0.105, 0.113, 0.0987, 0.0947,
       0.107, 0.0916, 0.0972, 0.0958, 0.0906])

请注意，这种特征重要性计算基于熵，与基于特征排列的sklearn.inspection.permutation_importance不同。

示例

梯度提升回归

参考文献

[Friedman2001] (1,2,3,4)

Friedman, J.H. (2001). 贪婪函数逼近：梯度提升机. Annals of Statistics, 29, 1189-1232。

[Friedman2002]

Friedman, J.H. (2002). 随机梯度提升. Computational Statistics & Data Analysis, 38, 367-378。

[R2007]

G. Ridgeway (2006). 广义提升模型：gbm 包指南

1.11.2. 随机森林及其他随机化树集成方法#

sklearn.ensemble模块包括两种基于随机化决策树的平均算法：RandomForest算法和Extra-Trees方法。这两种算法都是专门为树设计的扰动-组合技术[B1998]。这意味着通过在分类器构建中引入随机性来创建多样化的分类器集。集成的预测是单个分类器的平均预测。

与其他分类器一样，森林分类器需要用两个数组进行拟合：一个形状为(n_samples, n_features)的稀疏或密集数组 X，用于保存训练样本；以及一个形状为(n_samples,)的数组 Y，用于保存训练样本的目标值（类别标签）。

>>> from sklearn.ensemble import RandomForestClassifier
>>> X = [[0, 0], [1, 1]]
>>> Y = [0, 1]
>>> clf = RandomForestClassifier(n_estimators=10)
>>> clf = clf.fit(X, Y)

像决策树一样，树的森林也扩展到多输出问题（如果 Y 是形状为(n_samples, n_outputs)的数组）。

1.11.2.1. 随机森林#

在随机森林中（参见RandomForestClassifier和RandomForestRegressor类），集成中的每棵树都是从训练集中有放回抽样（即，自助样本）构建的。

此外，在构建树时，在分裂每个节点时，通过对所有输入特征的值或max_features大小的随机子集的特征值进行穷举搜索来找到最佳分裂。（详见参数调优指南。）

这两种随机性的目的是为了降低森林估计器的方差。实际上，单个决策树通常表现出高方差并容易过拟合。森林中注入的随机性使得决策树的预测误差在某种程度上相互解耦。通过对这些预测取平均值，一些误差可以相互抵消。随机森林通过结合多样化的树来降低方差，有时会以轻微增加偏差为代价。在实践中，方差的降低通常非常显著，从而产生一个总体上更好的模型。

与原始出版物[B2001]不同，scikit-learn 的实现通过平均分类器的概率预测来组合分类器，而不是让每个分类器投票选出单一类别。

随机森林的一个有竞争力的替代方案是基于直方图的梯度提升（HGBT）模型

构建树：随机森林通常依赖于深层树（会单独过拟合），这需要大量计算资源，因为它们需要多次分裂和候选分裂的评估。提升模型则构建浅层树（会单独欠拟合），这些树拟合和预测起来更快。
序贯提升：在 HGBT 中，决策树是顺序构建的，每棵树都经过训练以纠正前一棵树所犯的错误。这使得它们能够使用相对较少的树迭代地提高模型的性能。相比之下，随机森林使用多数投票来预测结果，这可能需要更多的树才能达到相同的准确度水平。
高效分箱：HGBT 使用高效的分箱算法，可以处理具有大量特征的大型数据集。该分箱算法可以预处理数据，以加快随后的树构建（参见为什么它更快）。相比之下，scikit-learn 的随机森林实现不使用分箱，而是依赖精确分裂，这可能计算成本高昂。

总的来说，HGBT 与 RF 的计算成本取决于数据集的具体特征和建模任务。尝试两种模型并在您的具体问题上比较它们的性能和计算效率，以确定哪个模型最适合，这是一个好主意。

示例

比较随机森林和直方图梯度提升模型

1.11.2.2. 极端随机树#

在极端随机树（参见ExtraTreesClassifier 和 ExtraTreesRegressor 类）中，随机性在计算分裂的方式上更进一步。与随机森林一样，它也使用候选特征的随机子集，但不是寻找最具区分度的阈值，而是为每个候选特征随机抽取阈值，并选择这些随机生成的阈值中最好的作为分裂规则。这通常可以进一步降低模型的方差，代价是偏差略有增加。

>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import make_blobs
>>> from sklearn.ensemble import RandomForestClassifier
>>> from sklearn.ensemble import ExtraTreesClassifier
>>> from sklearn.tree import DecisionTreeClassifier

>>> X, y = make_blobs(n_samples=10000, n_features=10, centers=100,
...     random_state=0)

>>> clf = DecisionTreeClassifier(max_depth=None, min_samples_split=2,
...     random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()
np.float64(0.98)

>>> clf = RandomForestClassifier(n_estimators=10, max_depth=None,
...     min_samples_split=2, random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()
np.float64(0.999)

>>> clf = ExtraTreesClassifier(n_estimators=10, max_depth=None,
...     min_samples_split=2, random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean() > 0.999
np.True_

../_images/sphx_glr_plot_forest_iris_001.png

1.11.2.3. 参数#

使用这些方法时要调整的主要参数是 n_estimators 和 max_features。前者是森林中树的数量。数量越多越好，但计算时间也越长。此外，请注意，在超过一定数量的树之后，结果不会再显著改善。后者是在分裂节点时要考虑的特征随机子集的大小。值越小，方差降低越大，但偏差也越大。对于回归问题，经验上较好的默认值是 max_features=1.0 或等效地 max_features=None（总是考虑所有特征而不是随机子集）；对于分类任务，则是 max_features="sqrt"（使用大小为 sqrt(n_features) 的随机子集）（其中 n_features 是数据中的特征数量）。 max_features=1.0 的默认值等同于袋装树，通过设置较小的值（例如，文献中典型的默认值是 0.3）可以实现更大的随机性。当将 max_depth=None 与 min_samples_split=2 结合使用时（即，完全展开树时），通常能获得良好的结果。但请记住，这些值通常不是最优的，并且可能导致模型消耗大量 RAM。最佳参数值应始终通过交叉验证获得。此外，请注意在随机森林中，默认使用自助采样（bootstrap=True），而极端随机树的默认策略是使用整个数据集（bootstrap=False）。当使用自助采样时，可以在留出样本或袋外样本上估计泛化误差。这可以通过设置 oob_score=True 来启用。

注意

使用默认参数的模型大小为 \(O( M * N * log (N) )\)，其中 \(M\) 是树的数量，\(N\) 是样本数量。为了减小模型大小，您可以更改这些参数：min_samples_split、max_leaf_nodes、max_depth 和 min_samples_leaf。

1.11.2.4. 并行化#

最后，该模块还通过 n_jobs 参数实现了树的并行构建和预测的并行计算。如果 n_jobs=k，则计算被划分为 k 个任务，并在机器的 k 个核心上运行。如果 n_jobs=-1，则使用机器上所有可用的核心。请注意，由于进程间通信开销，加速可能不是线性的（即，使用 k 个任务不幸不会达到 k 倍的速度）。然而，在构建大量树时，或在构建单棵树需要相当长的时间时（例如，在大型数据集上），仍然可以实现显著的加速。

示例

参考文献

[B2001]

Breiman, “随机森林”, Machine Learning, 45(1), 5-32, 2001。

[B1998]

Breiman, “Arcing分类器”, Annals of Statistics 1998。

P. Geurts, D. Ernst. 和 L. Wehenkel, “极端随机树”, Machine Learning, 63(1), 3-42, 2006。

1.11.2.5. 特征重要性评估#

特征在树中用作决策节点的相对排名（即深度）可以用来评估该特征相对于目标变量可预测性的相对重要性。在树的顶部使用的特征对更大比例的输入样本的最终预测决策有贡献。因此，它们贡献的**样本的预期比例**可以作为**特征相对重要性**的估计。在 scikit-learn 中，特征贡献的样本比例与分裂它们带来的杂质减少相结合，以创建该特征预测能力的归一化估计。

通过对多个随机树的预测能力估计进行**平均**，可以**降低**这种估计的**方差**，并将其用于特征选择。这被称为平均杂质减少（Mean Decrease in Impurity，MDI）。有关 MDI 和随机森林特征重要性评估的更多信息，请参阅[L2014]。

警告

在基于树的模型上计算的基于杂质的特征重要性存在两个缺陷，可能导致误导性结论。首先，它们是根据从训练数据集中导出的统计数据计算的，因此**不一定能告诉我们哪些特征对于对保留数据集进行良好预测最重要**。其次，**它们偏爱高基数特征**，即具有许多独特值的特征。置换特征重要性是基于杂质的特征重要性的一种替代方案，它没有这些缺陷。这两种获取特征重要性的方法在以下内容中进行了探讨：置换重要性 vs 随机森林特征重要性 (MDI)。

实际上，这些估计值存储在已拟合模型的名为 feature_importances_ 的属性中。这是一个形状为 (n_features,) 的数组，其值为正且总和为 1.0。值越高，匹配特征对预测函数的贡献越重要。

示例

使用树森林的特征重要性

参考文献

[L2014]

G. Louppe, “理解随机森林：从理论到实践”, 博士论文, 列日大学, 2014。

1.11.2.6. 完全随机树嵌入#

RandomTreesEmbedding 实现了数据的无监督转换。通过使用一个完全随机树的森林，RandomTreesEmbedding 通过数据点最终所在的叶子索引来编码数据。然后，这个索引以 one-of-K 的方式编码，生成高维、稀疏的二值编码。这种编码可以非常高效地计算，然后可以作为其他学习任务的基础。编码的大小和稀疏性可以通过选择树的数量和每棵树的最大深度来影响。对于集成中的每棵树，编码包含一个“1”的条目。编码的大小最大为 n_estimators * 2 ** max_depth，即森林中叶子的最大数量。

由于相邻数据点更有可能位于同一片树叶中，因此该转换执行隐式非参数密度估计。

示例

使用完全随机树的哈希特征转换
手写数字上的流形学习：局部线性嵌入、Isomap… 比较了手写数字上的非线性降维技术。
使用树集成进行特征转换比较了有监督和无监督的基于树的特征转换。

另请参阅

流形学习技术也可能有助于推导特征空间的非线性表示，尽管这些方法也侧重于降维。

1.11.2.7. 拟合额外的树#

RandomForest、Extra-Trees 和 RandomTreesEmbedding 估计器都支持 warm_start=True，这允许您向已拟合的模型添加更多树。

>>> from sklearn.datasets import make_classification
>>> from sklearn.ensemble import RandomForestClassifier

>>> X, y = make_classification(n_samples=100, random_state=1)
>>> clf = RandomForestClassifier(n_estimators=10)
>>> clf = clf.fit(X, y)  # fit with 10 trees
>>> len(clf.estimators_)
10
>>> # set warm_start and increase num of estimators
>>> _ = clf.set_params(n_estimators=20, warm_start=True)
>>> _ = clf.fit(X, y) # fit additional 10 trees
>>> len(clf.estimators_)
20

当 random_state 也被设置时，内部随机状态在 fit 调用之间也会被保留。这意味着一次使用 n 个估计器训练模型与通过多次 fit 调用迭代构建模型是相同的，其中最终估计器数量等于 n。

>>> clf = RandomForestClassifier(n_estimators=20)  # set `n_estimators` to 10 + 10
>>> _ = clf.fit(X, y)  # fit `estimators_` will be the same as `clf` above

请注意，这与random_state 的通常行为不同，因为它在不同调用之间**不会**产生相同的结果。

1.11.3. Bagging 元估计器#

在集成算法中，袋装（bagging）方法是一类算法，它们在原始训练集的随机子集上构建黑盒估计器的多个实例，然后聚合它们的个体预测以形成最终预测。这些方法通过在其构建过程中引入随机性，并从中形成集成，从而用于降低基础估计器（例如，决策树）的方差。在许多情况下，袋装方法提供了一种非常简单的方式来相对于单一模型进行改进，而无需调整底层基础算法。由于它们提供了减少过拟合的方法，袋装方法最适合强而复杂的模型（例如，完全展开的决策树），与提升方法（通常最适合弱模型，例如浅层决策树）形成对比。

袋装方法有许多种，但它们主要通过抽取训练集随机子集的方式相互区分

当数据集的随机子集作为样本的随机子集抽取时，这种算法被称为 Pasting [B1999]。
当样本有放回地抽取时，这种方法被称为 Bagging [B1996]。
当数据集的随机子集作为特征的随机子集抽取时，这种方法被称为 Random Subspaces [H1998]。
最后，当基础估计器基于样本和特征的子集构建时，这种方法被称为 Random Patches [LG2012]。

在 scikit-learn 中，袋装方法以统一的 BaggingClassifier 元估计器（对应于 BaggingRegressor）提供，它以用户指定的估计器和指定抽取随机子集策略的参数作为输入。具体来说，max_samples 和 max_features 控制子集的大小（就样本和特征而言），而 bootstrap 和 bootstrap_features 控制样本和特征是带放回还是不带放回抽取。当使用可用样本的子集时，泛化准确度可以通过设置 oob_score=True 使用袋外样本进行估计。例如，下面的代码片段说明了如何实例化一个由 KNeighborsClassifier 估计器组成的袋装集成，每个估计器都基于 50% 样本和 50% 特征的随机子集构建。

>>> from sklearn.ensemble import BaggingClassifier
>>> from sklearn.neighbors import KNeighborsClassifier
>>> bagging = BaggingClassifier(KNeighborsClassifier(),
...                             max_samples=0.5, max_features=0.5)

示例

单一估计器与袋装：偏差-方差分解

参考文献

[B1999]

L. Breiman, “在大型数据库和在线分类中粘贴小投票”, Machine Learning, 36(1), 85-103, 1999。

[B1996]

L. Breiman, “预测器袋装法”, Machine Learning, 24(2), 123-140, 1996。

[H1998]

T. Ho, “构建决策森林的随机子空间方法”, Pattern Analysis and Machine Intelligence, 20(8), 832-844, 1998。

[LG2012]

G. Louppe 和 P. Geurts, “随机补丁上的集成”, Machine Learning and Knowledge Discovery in Databases, 346-361, 2012。

1.11.4. 投票分类器#

VotingClassifier 的核心思想是组合概念上不同的机器学习分类器，并使用多数投票或平均预测概率（软投票）来预测类别标签。这种分类器对于一组表现同样良好的模型很有用，以平衡它们各自的弱点。

1.11.4.1. 多数类别标签（多数/硬投票）#

在多数投票中，特定样本的预测类别标签是每个独立分类器预测的类别标签的多数（众数）。

例如，如果给定样本的预测是

分类器 1 -> 类别 1
分类器 2 -> 类别 1
分类器 3 -> 类别 2

VotingClassifier（设置为 voting='hard'）将根据多数类别标签把样本分类为“类别 1”。

在平局的情况下，VotingClassifier 将根据升序排列选择类别。例如，在以下场景中

分类器 1 -> 类别 2
分类器 2 -> 类别 1

类别标签 1 将被分配给该样本。

1.11.4.2. 用法#

以下示例展示了如何拟合多数规则分类器

>>> from sklearn import datasets
>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.naive_bayes import GaussianNB
>>> from sklearn.ensemble import RandomForestClassifier
>>> from sklearn.ensemble import VotingClassifier

>>> iris = datasets.load_iris()
>>> X, y = iris.data[:, 1:3], iris.target

>>> clf1 = LogisticRegression(random_state=1)
>>> clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
>>> clf3 = GaussianNB()

>>> eclf = VotingClassifier(
...     estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
...     voting='hard')

>>> for clf, label in zip([clf1, clf2, clf3, eclf], ['Logistic Regression', 'Random Forest', 'naive Bayes', 'Ensemble']):
...     scores = cross_val_score(clf, X, y, scoring='accuracy', cv=5)
...     print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))
Accuracy: 0.95 (+/- 0.04) [Logistic Regression]
Accuracy: 0.94 (+/- 0.04) [Random Forest]
Accuracy: 0.91 (+/- 0.04) [naive Bayes]
Accuracy: 0.95 (+/- 0.04) [Ensemble]

1.11.4.3. 加权平均概率（软投票）#

与多数投票（硬投票）相反，软投票将预测概率之和的 argmax 作为类别标签返回。

可以通过 weights 参数为每个分类器分配特定权重。当提供了权重时，每个分类器的预测类别概率会被收集、乘以分类器权重，然后求平均值。最终的类别标签则从具有最高平均概率的类别标签中得出。

为了通过一个简单示例来说明这一点，假设我们有 3 个分类器和一个 3 类别分类问题，我们为所有分类器分配相等权重：w1=1, w2=1, w3=1。

一个样本的加权平均概率将按如下方式计算

分类器	类别 1	类别 2	类别 3
分类器 1	w1 * 0.2	w1 * 0.5	w1 * 0.3
分类器 2	w2 * 0.6	w2 * 0.3	w2 * 0.1
分类器 3	w3 * 0.3	w3 * 0.4	w3 * 0.3
加权平均	0.37	0.4	0.23

在这里，预测的类别标签是 2，因为它具有最高的平均预测概率。请参阅示例可视化 VotingClassifier 的概率预测，了解如何从预测概率的加权平均值中获取预测类别标签。

下图说明了当软VotingClassifier 用权重在三个线性模型上训练时，决策区域可能如何变化

../_images/sphx_glr_plot_voting_decision_regions_002.png

1.11.4.4. 用法#

为了根据预测的类别概率（VotingClassifier 中的 scikit-learn 估计器必须支持 predict_proba 方法）来预测类别标签

>>> eclf = VotingClassifier(
...     estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
...     voting='soft'
... )

可选地，可以为单个分类器提供权重

>>> eclf = VotingClassifier(
...     estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
...     voting='soft', weights=[2,5,1]
... )

1.11.5. 投票回归器#

VotingRegressor 的核心思想是组合概念上不同的机器学习回归器并返回平均预测值。这种回归器对于一组表现同样良好的模型很有用，以平衡它们各自的弱点。

1.11.5.1. 用法#

以下示例展示了如何拟合 VotingRegressor

>>> from sklearn.datasets import load_diabetes
>>> from sklearn.ensemble import GradientBoostingRegressor
>>> from sklearn.ensemble import RandomForestRegressor
>>> from sklearn.linear_model import LinearRegression
>>> from sklearn.ensemble import VotingRegressor

>>> # Loading some example data
>>> X, y = load_diabetes(return_X_y=True)

>>> # Training classifiers
>>> reg1 = GradientBoostingRegressor(random_state=1)
>>> reg2 = RandomForestRegressor(random_state=1)
>>> reg3 = LinearRegression()
>>> ereg = VotingRegressor(estimators=[('gb', reg1), ('rf', reg2), ('lr', reg3)])
>>> ereg = ereg.fit(X, y)

../_images/sphx_glr_plot_voting_regressor_001.png

示例

绘制个体和投票回归预测

1.11.6. 堆叠泛化#

堆叠泛化是一种组合估计器以减少其偏差的方法[W1992] [HTF]。更准确地说，每个个体估计器的预测被堆叠在一起，并用作最终估计器的输入来计算预测。这个最终估计器通过交叉验证进行训练。

StackingClassifier 和 StackingRegressor 提供了可应用于分类和回归问题的此类策略。

estimators 参数对应于在输入数据上并行堆叠的估计器列表。它应该以名称和估计器列表的形式给出

>>> from sklearn.linear_model import RidgeCV, LassoCV
>>> from sklearn.neighbors import KNeighborsRegressor
>>> estimators = [('ridge', RidgeCV()),
...               ('lasso', LassoCV(random_state=42)),
...               ('knr', KNeighborsRegressor(n_neighbors=20,
...                                           metric='euclidean'))]

final_estimator 将使用 estimators 的预测作为输入。在使用 StackingClassifier 或 StackingRegressor 时，它需要分别是一个分类器或回归器。

>>> from sklearn.ensemble import GradientBoostingRegressor
>>> from sklearn.ensemble import StackingRegressor
>>> final_estimator = GradientBoostingRegressor(
...     n_estimators=25, subsample=0.5, min_samples_leaf=25, max_features=1,
...     random_state=42)
>>> reg = StackingRegressor(
...     estimators=estimators,
...     final_estimator=final_estimator)

为了训练 estimators 和 final_estimator，需要对训练数据调用 fit 方法

>>> from sklearn.datasets import load_diabetes
>>> X, y = load_diabetes(return_X_y=True)
>>> from sklearn.model_selection import train_test_split
>>> X_train, X_test, y_train, y_test = train_test_split(X, y,
...                                                     random_state=42)
>>> reg.fit(X_train, y_train)
StackingRegressor(...)

在训练期间，estimators 会在整个训练数据 X_train 上进行拟合。它们将在调用 predict 或 predict_proba 时使用。为了泛化并避免过拟合，final_estimator 会在内部使用 sklearn.model_selection.cross_val_predict 在样本外进行训练。

对于 StackingClassifier，请注意 estimators 的输出由参数 stack_method 控制，并由每个估计器调用。此参数可以是字符串（估计器方法名称），也可以是 'auto'，后者将根据可用性自动识别可用的方法，按偏好顺序测试：predict_proba、decision_function 和 predict。

一个 StackingRegressor 和 StackingClassifier 可以像任何其他回归器或分类器一样使用，公开 predict、predict_proba 或 decision_function 方法，例如

>>> y_pred = reg.predict(X_test)
>>> from sklearn.metrics import r2_score
>>> print('R2 score: {:.2f}'.format(r2_score(y_test, y_pred)))
R2 score: 0.53

请注意，也可以使用 transform 方法获取堆叠 estimators 的输出

>>> reg.transform(X_test[:5])
array([[142, 138, 146],
       [179, 182, 151],
       [139, 132, 158],
       [286, 292, 225],
       [126, 124, 164]])

在实践中，堆叠预测器的预测效果与基础层的最佳预测器一样好，甚至有时通过结合这些预测器的不同优势而超越它们。然而，训练堆叠预测器的计算成本很高。

注意

对于 StackingClassifier，当使用 stack_method_='predict_proba' 时，如果问题是二元分类问题，则第一列将被丢弃。实际上，每个估计器预测的两个概率列是完全共线的。

注意

通过将 final_estimator 分配给 StackingClassifier 或 StackingRegressor，可以实现多层堆叠。

>>> final_layer_rfr = RandomForestRegressor(
...     n_estimators=10, max_features=1, max_leaf_nodes=5,random_state=42)
>>> final_layer_gbr = GradientBoostingRegressor(
...     n_estimators=10, max_features=1, max_leaf_nodes=5,random_state=42)
>>> final_layer = StackingRegressor(
...     estimators=[('rf', final_layer_rfr),
...                 ('gbrt', final_layer_gbr)],
...     final_estimator=RidgeCV()
...     )
>>> multi_layer_regressor = StackingRegressor(
...     estimators=[('ridge', RidgeCV()),
...                 ('lasso', LassoCV(random_state=42)),
...                 ('knr', KNeighborsRegressor(n_neighbors=20,
...                                             metric='euclidean'))],
...     final_estimator=final_layer
... )
>>> multi_layer_regressor.fit(X_train, y_train)
StackingRegressor(...)
>>> print('R2 score: {:.2f}'
...       .format(multi_layer_regressor.score(X_test, y_test)))
R2 score: 0.53

示例

使用堆叠组合预测器

参考文献

[W1992]

Wolpert, David H. “堆叠泛化.” Neural networks 5.2 (1992): 241-259。

1.11.7. AdaBoost#

模块 sklearn.ensemble 包含了流行的提升算法 AdaBoost，该算法由 Freund 和 Schapire 于 1995 年引入[FS1995]。

AdaBoost 的核心原则是在重复修改的数据版本上拟合一系列弱学习器（即，仅比随机猜测稍好的模型，如小型决策树）。然后通过加权多数投票（或求和）组合所有弱学习器的预测，以生成最终预测。在每次所谓的提升迭代中，数据修改包括对每个训练样本应用权重 \(w_1\)、\(w_2\)、…、\(w_N\)。最初，这些权重都设置为 \(w_i = 1/N\)，因此第一步只是在原始数据上训练一个弱学习器。对于每次后续迭代，样本权重都会单独修改，并将学习算法重新应用于重新加权的数据。在给定步骤中，那些被前一步骤产生的提升模型错误预测的训练样本会增加其权重，而那些被正确预测的样本则会减少其权重。随着迭代的进行，难以预测的样本会受到越来越大的影响。因此，每个后续的弱学习器都被迫集中于序列中被前一个遗漏的样本[HTF]。

../_images/sphx_glr_plot_adaboost_multiclass_001.png

AdaBoost 可用于分类和回归问题

对于多类别分类，AdaBoostClassifier 实现了 AdaBoost.SAMME [ZZRH2009]。
对于回归，AdaBoostRegressor 实现了 AdaBoost.R2 [D1997]。

1.11.7.1. 用法#

以下示例展示了如何使用 100 个弱学习器拟合 AdaBoost 分类器

>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import load_iris
>>> from sklearn.ensemble import AdaBoostClassifier

>>> X, y = load_iris(return_X_y=True)
>>> clf = AdaBoostClassifier(n_estimators=100)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()
np.float64(0.95)

弱学习器的数量由参数 n_estimators 控制。learning_rate 参数控制弱学习器在最终组合中的贡献。默认情况下，弱学习器是决策树桩。可以通过 estimator 参数指定不同的弱学习器。为获得良好结果而调整的主要参数是 n_estimators 和基础估计器的复杂性（例如，其深度 max_depth 或考虑分裂所需的最小样本数 min_samples_split）。

示例

多类别 AdaBoosted 决策树展示了 AdaBoost 在多类别问题上的性能。
二类别 AdaBoost 展示了使用 AdaBoost-SAMME 处理非线性可分二类别问题的决策边界和决策函数值。
使用 AdaBoost 的决策树回归演示了 AdaBoost.R2 算法的回归。

参考文献

[FS1995]

Y. Freund 和 R. Schapire, “在线学习的决策理论泛化与提升算法的应用”, 1997。

[ZZRH2009]

Zhu, H. Zou, S. Rosset, T. Hastie. “多类别 AdaBoost”, 2009。

[D1997]

Drucker. “使用提升技术改进回归器”, 1997。

[HTF] (1,2,3)

T. Hastie, R. Tibshirani 和 J. Friedman, “统计学习要素第2版”, Springer, 2009。

1.11. 集成方法：梯度提升、随机森林、Bagging、投票、堆叠#

1.11.1. 梯度提升树#

1.11.1.1. 基于直方图的梯度提升#

1.11.1.1.1. 用法#

1.11.1.1.2. 缺失值支持#

1.11.1.1.3. 样本权重支持#

1.11.1.1.4. 分类特征支持#

1.11.1.1.5. 单调约束#

1.11.1.1.6. 交互约束#

1.11.1.1.7. 底层并行#

1.11.1.1.8. 为何更快#

1.11.1.2. GradientBoostingClassifier和GradientBoostingRegressor#

1.11.1.2.1. 拟合额外的弱学习器#

1.11.1.2.2. 控制树的大小#

1.11.1.2.3. 数学公式#

1.11.1.2.4. 损失函数#

1.11.1.2.5. 通过学习率收缩#

1.11.1.2.6. 子抽样#

1.11.1.2.7. 用特征重要性进行解释#

1.11.2. 随机森林及其他随机化树集成方法#

1.11.2.1. 随机森林#

1.11.2.2. 极端随机树#

1.11.2.3. 参数#

1.11.2.4. 并行化#

1.11.2.5. 特征重要性评估#

1.11.2.6. 完全随机树嵌入#

1.11.2.7. 拟合额外的树#

1.11.3. Bagging 元估计器#

1.11.4. 投票分类器#

1.11.4.1. 多数类别标签（多数/硬投票）#

1.11.4.2. 用法#

1.11.4.3. 加权平均概率（软投票）#

1.11.4.4. 用法#

1.11.5. 投票回归器#

1.11.5.1. 用法#

1.11.6. 堆叠泛化#

1.11.7. AdaBoost#

1.11.7.1. 用法#

本页

1.11.1.2. `GradientBoostingClassifier`和`GradientBoostingRegressor`#