注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

决策树回归#

在此示例中，我们演示了更改决策树的最大深度对其拟合数据的影响。我们分别在 1D 回归任务和多输出回归任务上执行此操作。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

1D 回归任务上的决策树#

在这里，我们在 1D 回归任务上拟合一棵树。

决策树用于拟合具有附加噪声观测值的正弦曲线。因此，它学习近似正弦曲线的局部线性回归。

我们可以看到，如果树的最大深度（由 max_depth 参数控制）设置得太高，决策树会学习训练数据过于精细的细节并从噪声中学习，即它们会过拟合。

创建随机 1D 数据集#

import numpy as np

rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel()
y[::5] += 3 * (0.5 - rng.rand(16))

拟合回归模型#

在这里，我们拟合两个具有不同最大深度的模型

from sklearn.tree import DecisionTreeRegressor

regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)

DecisionTreeRegressor(max_depth=5)

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

预测#

获取测试集上的预测

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)

绘制结果#

import matplotlib.pyplot as plt

plt.figure()
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

如您所见，深度为 5 的模型（黄色）学习了训练数据的细节，以至于它对噪声过拟合。另一方面，深度为 2 的模型（蓝色）很好地学习了数据的主要趋势，并且没有过拟合。在实际用例中，您需要确保树不会对训练数据过拟合，这可以通过交叉验证来完成。

具有多输出目标的决策树回归#

在这里，决策树用于同时预测给定单个基础特征的圆的噪声 x 和 y 观测值。因此，它学习近似圆的局部线性回归。

我们可以看到，如果树的最大深度（由 max_depth 参数控制）设置得太高，决策树会学习训练数据过于精细的细节并从噪声中学习，即它们会过拟合。

创建随机数据集#

rng = np.random.RandomState(1)
X = np.sort(200 * rng.rand(100, 1) - 100, axis=0)
y = np.array([np.pi * np.sin(X).ravel(), np.pi * np.cos(X).ravel()]).T
y[::5, :] += 0.5 - rng.rand(20, 2)

拟合回归模型#

regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_3 = DecisionTreeRegressor(max_depth=8)
regr_1.fit(X, y)
regr_2.fit(X, y)
regr_3.fit(X, y)

DecisionTreeRegressor(max_depth=8)

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

预测#

获取测试集上的预测

X_test = np.arange(-100.0, 100.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)
y_3 = regr_3.predict(X_test)

绘制结果#

plt.figure()
s = 25
plt.scatter(y[:, 0], y[:, 1], c="yellow", s=s, edgecolor="black", label="data")
plt.scatter(
    y_1[:, 0],
    y_1[:, 1],
    c="cornflowerblue",
    s=s,
    edgecolor="black",
    label="max_depth=2",
)
plt.scatter(y_2[:, 0], y_2[:, 1], c="red", s=s, edgecolor="black", label="max_depth=5")
plt.scatter(y_3[:, 0], y_3[:, 1], c="blue", s=s, edgecolor="black", label="max_depth=8")
plt.xlim([-6, 6])
plt.ylim([-6, 6])
plt.xlabel("target 1")
plt.ylabel("target 2")
plt.title("Multi-output Decision Tree Regression")
plt.legend(loc="best")
plt.show()

如您所见，max_depth 的值越高，模型捕获的数据细节越多。然而，模型也会对数据过拟合并受到噪声的影响。

脚本总运行时间： (0 分钟 0.290 秒)

	criterion criterion: {"squared_error", "friedman_mse", "absolute_error", "poisson"}, default="squared_error" 衡量分割质量的函数。支持的准则包括："squared_error"（均方误差），它等于作为特征选择准则的方差减少，并使用每个终端节点的平均值最小化 L2 损失；"friedman_mse"，它使用均方误差和 Friedman 的改进分数进行潜在分割；"absolute_error"（平均绝对误差），它使用每个终端节点的中位数最小化 L1 损失；以及 "poisson"，它使用半均值泊松偏差的减少来查找分割点。 .. versionadded:: 0.18 平均绝对误差 (MAE) 准则。 .. versionadded:: 0.24 泊松偏差准则。	'squared_error'
	splitter splitter: {"best", "random"}, default="best" 用于选择每个节点分割的策略。支持的策略包括："best"（选择最佳分割）和 "random"（选择最佳随机分割）。	'best'
	max_depth max_depth: int, default=None 树的最大深度。如果为 None，则节点会一直扩展，直到所有叶子都是纯净的，或者直到所有叶子包含的样本数少于 min_samples_split。有关 ``max_depth`` 如何影响模型的示例，请参阅 :ref:`sphx_glr_auto_examples_tree_plot_tree_regression.py`。	5
	min_samples_split min_samples_split: int or float, default=2 分割内部节点所需的最小样本数： - 如果为 int，则 min_samples_split 为最小样本数。 - 如果为 float，则 min_samples_split 为分数，`ceil(min_samples_split * n_samples)` 是每次分割的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	2
	min_samples_leaf min_samples_leaf: int or float, default=1 叶节点所需的最小样本数。只有当分割点能使左右分支至少包含 ``min_samples_leaf`` 个训练样本时，才会考虑该分割点。这可能具有平滑模型的效果，尤其是在回归中。 - 如果为 int，则 min_samples_leaf 为最小样本数。 - 如果为 float，则 min_samples_leaf 为分数，`ceil(min_samples_leaf * n_samples)` 是每个节点的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, default=0.0 在叶节点处所需的最小加权分数（所有输入样本权重的总和）。未提供 sample_weight 时，样本具有相同的权重。	0.0
	max_features max_features: int, float or {"sqrt", "log2"}, default=None 寻找最佳分割时要考虑的特征数量： - 如果为 int，则在每次分割时考虑 `max_features` 个特征。 - 如果为 float，则 `max_features` 是一个分数，在每次分割时考虑 `max(1, int(max_features * n_features_in_))` 个特征。 - 如果为 "sqrt"，则 `max_features=sqrt(n_features)`。 - 如果为 "log2"，则 `max_features=log2(n_features)`。 - 如果为 None，则 `max_features=n_features`。注意：搜索分割不会停止，直到找到至少一个有效的节点样本分区，即使这需要实际检查超过 ``max_features`` 个特征。	None
	random_state random_state: int, RandomState instance or None, default=None 控制估计器的随机性。即使 ``splitter`` 设置为 ``"best"``，特征也总是在每次分割时随机排列。当 ``max_features < n_features`` 时，算法将在每次分割时随机选择 ``max_features`` 个特征，然后从中找出最佳分割。但即使 ``max_features=n_features``，找到的最佳分割也可能因不同的运行而异。如果准则的改进对于多个分割相同，并且必须随机选择一个分割，则会出现这种情况。为了在拟合期间获得确定性行为，必须将 ``random_state`` 固定为一个整数。有关详细信息，请参阅 :term:`Glossary `。	None
	max_leaf_nodes max_leaf_nodes: int, default=None 以最佳优先方式增长一棵包含 ``max_leaf_nodes`` 个叶节点的树。最佳节点被定义为相对杂质减少量。如果为 None，则叶节点数量不受限制。	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 如果分裂导致的杂质减少大于或等于此值，则会分裂节点。加权杂质减少方程如下所示： N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) 其中 ``N`` 是样本总数，``N_t`` 是当前节点的样本数，``N_t_L`` 是左子节点的样本数，``N_t_R`` 是右子节点的样本数。如果传递了 ``sample_weight``，则 ``N``、``N_t``、``N_t_R`` 和 ``N_t_L`` 都指加权和。 .. versionadded:: 0.19	0.0
	ccp_alpha ccp_alpha: non-negative float, default=0.0 用于最小成本复杂性剪枝（Minimal Cost-Complexity Pruning）的复杂性参数。将选择成本复杂性小于 ``ccp_alpha`` 的最大子树。默认情况下不执行剪枝。有关详细信息，请参见 :ref:`minimal_cost_complexity_pruning`。有关此类剪枝的示例，请参见 :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py`。 .. versionadded:: 0.22	0.0
	monotonic_cst monotonic_cst: array-like of int of shape (n_features), default=None 指示要对每个特征施加的单调性约束。 - 1：单调增加 - 0：无约束 - -1：单调减少如果 monotonic_cst 为 None，则不应用约束。单调性约束不支持以下情况： - 多输出回归（即当 `n_outputs_ > 1` 时）， - 使用包含缺失值的数据进行训练的回归。在 :ref:`User Guide ` 中阅读更多内容。 .. versionadded:: 1.4	None

	criterion criterion: {"squared_error", "friedman_mse", "absolute_error", "poisson"}, default="squared_error" 衡量分割质量的函数。支持的准则包括："squared_error"（均方误差），它等于作为特征选择准则的方差减少，并使用每个终端节点的平均值最小化 L2 损失；"friedman_mse"，它使用均方误差和 Friedman 的改进分数进行潜在分割；"absolute_error"（平均绝对误差），它使用每个终端节点的中位数最小化 L1 损失；以及 "poisson"，它使用半均值泊松偏差的减少来查找分割点。 .. versionadded:: 0.18 平均绝对误差 (MAE) 准则。 .. versionadded:: 0.24 泊松偏差准则。	'squared_error'
	splitter splitter: {"best", "random"}, default="best" 用于选择每个节点分割的策略。支持的策略包括："best"（选择最佳分割）和 "random"（选择最佳随机分割）。	'best'
	max_depth max_depth: int, default=None 树的最大深度。如果为 None，则节点会一直扩展，直到所有叶子都是纯净的，或者直到所有叶子包含的样本数少于 min_samples_split。有关 ``max_depth`` 如何影响模型的示例，请参阅 :ref:`sphx_glr_auto_examples_tree_plot_tree_regression.py`。	8
	min_samples_split min_samples_split: int or float, default=2 分割内部节点所需的最小样本数： - 如果为 int，则 min_samples_split 为最小样本数。 - 如果为 float，则 min_samples_split 为分数，`ceil(min_samples_split * n_samples)` 是每次分割的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	2
	min_samples_leaf min_samples_leaf: int or float, default=1 叶节点所需的最小样本数。只有当分割点能使左右分支至少包含 ``min_samples_leaf`` 个训练样本时，才会考虑该分割点。这可能具有平滑模型的效果，尤其是在回归中。 - 如果为 int，则 min_samples_leaf 为最小样本数。 - 如果为 float，则 min_samples_leaf 为分数，`ceil(min_samples_leaf * n_samples)` 是每个节点的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, default=0.0 在叶节点处所需的最小加权分数（所有输入样本权重的总和）。未提供 sample_weight 时，样本具有相同的权重。	0.0
	max_features max_features: int, float or {"sqrt", "log2"}, default=None 寻找最佳分割时要考虑的特征数量： - 如果为 int，则在每次分割时考虑 `max_features` 个特征。 - 如果为 float，则 `max_features` 是一个分数，在每次分割时考虑 `max(1, int(max_features * n_features_in_))` 个特征。 - 如果为 "sqrt"，则 `max_features=sqrt(n_features)`。 - 如果为 "log2"，则 `max_features=log2(n_features)`。 - 如果为 None，则 `max_features=n_features`。注意：搜索分割不会停止，直到找到至少一个有效的节点样本分区，即使这需要实际检查超过 ``max_features`` 个特征。	None
	random_state random_state: int, RandomState instance or None, default=None 控制估计器的随机性。即使 ``splitter`` 设置为 ``"best"``，特征也总是在每次分割时随机排列。当 ``max_features < n_features`` 时，算法将在每次分割时随机选择 ``max_features`` 个特征，然后从中找出最佳分割。但即使 ``max_features=n_features``，找到的最佳分割也可能因不同的运行而异。如果准则的改进对于多个分割相同，并且必须随机选择一个分割，则会出现这种情况。为了在拟合期间获得确定性行为，必须将 ``random_state`` 固定为一个整数。有关详细信息，请参阅 :term:`Glossary `。	None
	max_leaf_nodes max_leaf_nodes: int, default=None 以最佳优先方式增长一棵包含 ``max_leaf_nodes`` 个叶节点的树。最佳节点被定义为相对杂质减少量。如果为 None，则叶节点数量不受限制。	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 如果分裂导致的杂质减少大于或等于此值，则会分裂节点。加权杂质减少方程如下所示： N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) 其中 ``N`` 是样本总数，``N_t`` 是当前节点的样本数，``N_t_L`` 是左子节点的样本数，``N_t_R`` 是右子节点的样本数。如果传递了 ``sample_weight``，则 ``N``、``N_t``、``N_t_R`` 和 ``N_t_L`` 都指加权和。 .. versionadded:: 0.19	0.0
	ccp_alpha ccp_alpha: non-negative float, default=0.0 用于最小成本复杂性剪枝（Minimal Cost-Complexity Pruning）的复杂性参数。将选择成本复杂性小于 ``ccp_alpha`` 的最大子树。默认情况下不执行剪枝。有关详细信息，请参见 :ref:`minimal_cost_complexity_pruning`。有关此类剪枝的示例，请参见 :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py`。 .. versionadded:: 0.22	0.0
	monotonic_cst monotonic_cst: array-like of int of shape (n_features), default=None 指示要对每个特征施加的单调性约束。 - 1：单调增加 - 0：无约束 - -1：单调减少如果 monotonic_cst 为 None，则不应用约束。单调性约束不支持以下情况： - 多输出回归（即当 `n_outputs_ > 1` 时）， - 使用包含缺失值的数据进行训练的回归。在 :ref:`User Guide ` 中阅读更多内容。 .. versionadded:: 1.4	None

决策树回归#

1D 回归任务上的决策树#

创建随机 1D 数据集#

拟合回归模型#

预测#

绘制结果#

具有多输出目标的决策树回归#

创建随机数据集#

拟合回归模型#

预测#

绘制结果#

本页