注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

排列重要性与随机森林特征重要性（MDI）的比较#

在此示例中，我们将使用 permutation_importance 在 Titanic 数据集上比较 RandomForestClassifier 基于杂质的特征重要性与排列重要性。我们将展示基于杂质的特征重要性可能会夸大数值特征的重要性。

此外，随机森林基于杂质的特征重要性存在一个问题，即它是在训练数据集派生的统计数据上计算的：即使对于那些对目标变量没有预测能力的特征，只要模型有能力使用它们来过拟合，其重要性也可能很高。

此示例展示了如何使用排列重要性作为替代方案来减轻这些限制。

References

L. Breiman, “Random Forests”, Machine Learning, 45(1), 5-32, 2001.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

数据加载和特征工程#

让我们使用 pandas 加载 Titanic 数据集的副本。以下展示了如何对数值和类别特征应用单独的预处理。

我们进一步包含两个与目标变量（survived）没有任何相关性的随机变量

random_num 是一个高基数的数值变量（唯一值与记录数一样多）。
random_cat 是一个低基数的类别变量（3 个可能值）。

import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
rng = np.random.RandomState(seed=42)
X["random_cat"] = rng.randint(3, size=X.shape[0])
X["random_num"] = rng.randn(X.shape[0])

categorical_columns = ["pclass", "sex", "embarked", "random_cat"]
numerical_columns = ["age", "sibsp", "parch", "fare", "random_num"]

X = X[categorical_columns + numerical_columns]
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

我们定义了一个基于随机森林的预测模型。因此，我们将执行以下预处理步骤：

使用 OrdinalEncoder 对类别特征进行编码；
使用 SimpleImputer 使用均值策略填充数值特征的缺失值。

from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder

categorical_encoder = OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=-1, encoded_missing_value=-1
)
numerical_pipe = SimpleImputer(strategy="mean")

preprocessing = ColumnTransformer(
    [
        ("cat", categorical_encoder, categorical_columns),
        ("num", numerical_pipe, numerical_columns),
    ],
    verbose_feature_names_out=False,
)

rf = Pipeline(
    [
        ("preprocess", preprocessing),
        ("classifier", RandomForestClassifier(random_state=42)),
    ]
)
rf.fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier', RandomForestClassifier(random_state=42))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

模型的准确性#

在检查特征重要性之前，重要的是检查模型的预测性能是否足够高。确实，检查一个没有预测能力的模型的重要特征意义不大。

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 1.000
RF test accuracy: 0.814

在这里，可以看到训练准确性非常高（森林模型有足够的能力完全记住训练集），但由于随机森林内置的 bagging，它仍然可以很好地泛化到测试集。

通过限制树的能力（例如设置 min_samples_leaf=5 或 min_samples_leaf=10）来限制过拟合，同时又不引入过多的欠拟合，有可能在训练集上牺牲一些准确性以换取测试集上稍好的准确性。

然而，现在让我们保留高容量的随机森林模型，以便说明具有许多唯一值的变量在特征重要性方面的一些陷阱。

基于杂质减少量（MDI）的树特征重要性#

基于杂质的特征重要性将数值特征排名为最重要的特征。结果，非预测性的 random_num 变量被排名为最重要的特征之一！

这个问题源于基于杂质的特征重要性的两个限制：

基于杂质的重要性偏向于高基数特征；
基于杂质的重要性是在训练集统计数据上计算的，因此不能反映特征对于泛化到测试集的预测（当模型有足够的能力时）的有用性。

对高基数特征的偏见解释了为什么 random_num 具有比 random_cat 大得多的重要性，而我们预期这两个随机特征的重要性都为零。

我们使用训练集统计数据的事实解释了为什么 random_num 和 random_cat 特征都具有非零的重要性。

import pandas as pd

feature_names = rf[:-1].get_feature_names_out()

mdi_importances = pd.Series(
    rf[-1].feature_importances_, index=feature_names
).sort_values(ascending=True)

ax = mdi_importances.plot.barh()
ax.set_title("Random Forest Feature Importances (MDI)")
ax.figure.tight_layout()

作为替代方案，rf 的排列重要性是在保留的测试集上计算的。这表明低基数类别特征 sex 和 pclass 是最重要的特征。确实，对这些特征的值进行排列将导致模型在测试集上的准确性得分下降最多。

另外，请注意，正如预期的那样，两个随机特征的重要性都非常低（接近于 0）。

from sklearn.inspection import permutation_importance

result = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (test set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

也可以在训练集上计算排列重要性。这表明 random_num 和 random_cat 获得了比在测试集上计算时显着更高的重要性排名。这两张图之间的差异证实了 RF 模型具有足够的能力来使用随机数值和类别特征进行过拟合。

result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (train set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

我们可以通过将树的过拟合能力限制为设置 min_samples_leaf 为 20 个数据点来进一步重试实验。

rf.set_params(classifier__min_samples_leaf=20).fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier',
                 RandomForestClassifier(min_samples_leaf=20, random_state=42))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

观察训练集和测试集上的准确性得分，我们发现这两个指标现在非常相似。因此，我们的模型不再过拟合。然后，我们可以使用这个新模型检查排列重要性。

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 0.810
RF test accuracy: 0.832

train_result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)
test_results = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_importances_idx = train_result.importances_mean.argsort()

train_importances = pd.DataFrame(
    train_result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
test_importances = pd.DataFrame(
    test_results.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)

for name, importances in zip(["train", "test"], [train_importances, test_importances]):
    ax = importances.plot.box(vert=False, whis=10)
    ax.set_title(f"Permutation Importances ({name} set)")
    ax.set_xlabel("Decrease in accuracy score")
    ax.axvline(x=0, color="k", linestyle="--")
    ax.figure.tight_layout()

现在，我们可以观察到，在两个集合上，random_num 和 random_cat 特征的重要性都低于过拟合的随机森林。然而，关于其他特征重要性的结论仍然有效。

脚本总运行时间： (0 分钟 6.265 秒)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('preprocess', ...), ('classifier', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	transformers transformers: list of tuples 指定应用于数据子集的转换器对象的 (name, transformer, columns) 元组列表。 name : str 与 Pipeline 和 FeatureUnion 一样，这允许使用 ``set_params`` 设置转换器及其参数并在网格搜索中进行搜索。 transformer : {'drop', 'passthrough'} or estimator 估计器必须支持 :term:`fit` 和 :term:`transform`。也接受特殊处理的字符串 'drop' 和 'passthrough'，分别表示删除列或按原样传递列。 columns : str, array-like of str, int, array-like of int, array-like of bool, slice or callable 对数据的第二个轴进行索引。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。如果 ``transformer`` 期望 X 为 1d 数组类型（向量），则应使用标量字符串或整数，否则将 2d 数组传递给转换器。可调用对象被传递输入数据 `X`，并且可以返回上述任何一种类型。要按名称或 dtype 选择多列，可以使用 :obj:`make_column_selector`。	[('cat', ...), ('num', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	0.3
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str or Callable[[str, str], str], default=True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将为所有特征名称加上生成该特征的转换器的名称前缀。这等同于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 将不会为任何特征名称加上前缀，如果特征名称不唯一，则会出错。 - 如果为 ``Callable[[str, str], str]``， :meth:`ColumnTransformer.get_feature_names_out` 将使用转换器的名称重命名所有特征。可调用对象的第一个参数是转换器名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是准备好格式化的字符串。给定的字符串将使用两个字段名进行格式化：``transformer_name`` 和 ``feature_name``。例如：``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是可调用对象或要格式化的字符串。	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto' : 自动从训练数据中确定类别。 - list : ``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应混合字符串和数值，并且在数值的情况下应进行排序。使用的类别可以在 ``categories_`` 属性中找到。	'auto'
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' 当设置为 'error' 时，如果在转换过程中存在未知的分类特征，将引发错误。当设置为 'use_encoded_value' 时，未知类别的编码值将设置为参数 `unknown_value` 给定的值。在 :meth:`inverse_transform` 中，未知类别将表示为 None。 .. versionadded:: 0.24	'use_encoded_value'
	unknown_value unknown_value: int or np.nan, default=None 当参数 handle_unknown 设置为 'use_encoded_value' 时，此参数是必需的，并将设置未知类别的编码值。它必须与用于编码 `fit` 中任何类别的数值不同。如果设置为 np.nan，则 `dtype` 参数必须是浮点型 dtype。 .. versionadded:: 0.24	-1
	encoded_missing_value encoded_missing_value: int or np.nan, default=np.nan 缺失类别的编码值。如果设置为 `np.nan`，则 `dtype` 参数必须是浮点型 dtype。 .. versionadded:: 1.1	-1
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常出现的最低频率。 - 如果为 `int`，基数小于此值的类别将被视为不常出现。 - 如果为 `float`，基数小于 `min_frequency * n_samples` 的类别将被视为不常出现。 .. versionadded:: 1.3 在 :ref:`User Guide ` 中阅读更多内容。	None
	max_categories max_categories: int, default=None 指定考虑不常出现类别时，每个输入特征的输出类别数的上限。如果存在不常出现类别，`max_categories` 包括表示不常出现类别的类别以及常出现类别。如果为 `None`，则输出特征数没有限制。 `max_categories` 不考虑缺失或未知类别。将 `unknown_value` 或 `encoded_missing_value` 设置为整数将使唯一整数代码的数量分别增加 1。这可能导致最多 `max_categories + 2` 个整数代码。 .. versionadded:: 1.3 在 :ref:`User Guide ` 中阅读更多内容。	None

	missing_values missing_values: int, float, str, np.nan, None or pandas.NA, default=np.nan 缺失值的占位符。`missing_values` 的所有出现都将被 impute。对于带有缺失值的可空整数 dtypes 的 pandas 数据帧，`missing_values` 可以设置为 `np.nan` 或 `pd.NA`。	nan
	strategy strategy: str or Callable, default='mean' 插值策略。 - 如果为 "mean"，则使用每列的均值替换缺失值。只能用于数值数据。 - 如果为 "median"，则使用每列的中位数替换缺失值。只能用于数值数据。 - 如果为 "most_frequent"，则使用每列最常出现的值替换缺失值。可用于字符串或数值数据。如果有多个这样的值，则只返回最小的值。 - 如果为 "constant"，则使用 fill_value 替换缺失值。可用于字符串或数值数据。 - 如果为 Callable 实例，则使用通过对包含每列非缺失值的密集 1d 数组运行可调用对象返回的标量统计量替换缺失值。 .. versionadded:: 0.20 strategy="constant" 用于固定值插值。 .. versionadded:: 1.5 strategy=callable 用于自定义值插值。	'mean'
	fill_value fill_value: str or numerical value, default=None 当 strategy == "constant" 时，`fill_value` 用于替换 `missing_values` 的所有出现。对于字符串或对象数据类型，`fill_value` 必须是字符串。如果为 `None`，impute 数值数据时 `fill_value` 将为 0，字符串或对象数据类型时为 "missing_value"。	None
	copy copy: bool, default=True 如果为 True，将创建 X 的副本。如果为 False，imputation 将尽可能就地完成。请注意，在以下情况下，即使 `copy=False`，也始终会创建新副本： - 如果 `X` 不是浮点值数组； - 如果 `X` 编码为 CSR 矩阵； - 如果 `add_indicator=True`。	True
	add_indicator add_indicator: bool, default=False 如果为 True，:class:`MissingIndicator` transform 将堆叠在 imputer transform 的输出上。这允许预测估计器在 impute 之后考虑缺失性。如果在 fit/train 时特征没有缺失值，则即使在 transform/test 时存在缺失值，该特征也不会出现在缺失指示器上。	False
	keep_empty_features keep_empty_features: bool, default=False 如果为 True，当调用 `fit` 时完全由缺失值组成的特征将在调用 `transform` 时返回结果。impute 的值始终为 `0`，除非 `strategy="constant"`，在这种情况下将使用 `fill_value`。 .. versionadded:: 1.2	False

	n_estimators n_estimators: int, default=100 森林中树的数量。 .. versionchanged:: 0.22 ``n_estimators`` 的默认值在 0.22 版本中从 10 更改为 100。	100
	criterion criterion: {"gini", "entropy", "log_loss"}, default="gini" 衡量分割质量的函数。支持的准则包括用于基尼不纯度（Gini impurity）的 "gini" 以及用于香农信息增益（Shannon information gain）的 "log_loss" 和 "entropy"，请参见 :ref:`tree_mathematical_formulation`。注意：此参数特定于树。	'gini'
	max_depth max_depth: int, default=None 树的最大深度。如果为None，则节点会一直扩展，直到所有叶子都是纯的，或者所有叶子包含的样本数少于 min_samples_split。	None
	min_samples_split min_samples_split: int or float, default=2 分割内部节点所需的最小样本数： - 如果为 int，则 min_samples_split 为最小样本数。 - 如果为 float，则 min_samples_split 为分数，`ceil(min_samples_split * n_samples)` 是每次分割的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	2
	min_samples_leaf min_samples_leaf: int or float, default=1 叶节点所需的最小样本数。只有当分割点能使左右分支至少包含 ``min_samples_leaf`` 个训练样本时，才会考虑该分割点。这可能具有平滑模型的效果，尤其是在回归中。 - 如果为 int，则 min_samples_leaf 为最小样本数。 - 如果为 float，则 min_samples_leaf 为分数，`ceil(min_samples_leaf * n_samples)` 是每个节点的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, default=0.0 在叶节点处所需的最小加权分数（所有输入样本权重的总和）。未提供 sample_weight 时，样本具有相同的权重。	0.0
	max_features max_features: {"sqrt", "log2", None}, int or float, default="sqrt" 寻找最佳分割时要考虑的特征数量： - 如果为 int，则每次分割考虑 `max_features` 个特征。 - 如果为 float，则 `max_features` 为分数，每次分割考虑 `max(1, int(max_features * n_features_in_))` 个特征。 - 如果为 "sqrt"，则 `max_features=sqrt(n_features)`。 - 如果为 "log2"，则 `max_features=log2(n_features)`。 - 如果为 None，则 `max_features=n_features`。 .. versionchanged:: 1.1 `max_features` 的默认值从 `"auto"` 更改为 `"sqrt"`。注意：搜索分割不会停止，直到找到至少一个有效的节点样本分区，即使需要检查超过 ``max_features`` 个特征。	'sqrt'
	max_leaf_nodes max_leaf_nodes: int, default=None 以最佳优先方式增长树，其中 ``max_leaf_nodes`` 个叶节点。最佳节点被定义为相对杂质减少。如果为 None，则叶节点数量不受限制。	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 如果分裂导致的杂质减少大于或等于此值，则会分裂节点。加权杂质减少方程如下所示： N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) 其中 ``N`` 是样本总数，``N_t`` 是当前节点的样本数，``N_t_L`` 是左子节点的样本数，``N_t_R`` 是右子节点的样本数。如果传递了 ``sample_weight``，则 ``N``、``N_t``、``N_t_R`` 和 ``N_t_L`` 都指加权和。 .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True 构建树时是否使用 bootstrap 样本。如果为 False，则使用整个数据集来构建每棵树。	True
	oob_score oob_score: bool or callable, default=False 是否使用袋外样本（out-of-bag samples）来估计泛化分数。默认情况下使用 :func:`~sklearn.metrics.accuracy_score`。提供一个签名为 `metric(y_true, y_pred)` 的可调用对象来使用自定义指标。仅在 `bootstrap=True` 时可用。有关袋外（OOB）误差估计的说明，请参见示例 :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`。	False
	n_jobs n_jobs: int, default=None 并行运行的作业数。``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关详细信息，请参见 :term:`Glossary`。	None
	random_state random_state: int, RandomState instance or None, default=None 控制构建树时使用的样本引导（bootstrap）的随机性（如果 ``bootstrap=True``）以及在每个节点寻找最佳分割时要考虑的特征采样（如果 ``max_features < n_features``）。有关详细信息，请参见 :term:`Glossary `。	42
	verbose verbose: int, default=0 控制拟合和预测时的冗余度。	0
	warm_start warm_start: bool, default=False 设置为 ``True`` 时，重用上一次调用 fit 的解决方案，并向集成添加更多估计器，否则，拟合一个全新的森林。有关详细信息，请参阅 :term:`Glossary ` 和 :ref:`tree_ensemble_warm_start`。	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict or list of dicts, default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给定，则假定所有类具有权重一。对于多输出问题，可以按照 y 的列顺序提供字典列表。请注意，对于多输出（包括多标签），权重应为 y 的每列中的每个类定义在自己的字典中。例如，对于四类多标签分类，权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] 而不是 [{1:1}, {2:5}, {3:1}, {4:1}]。 "balanced" 模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算公式为 ``n_samples / (n_classes * np.bincount(y))`` "balanced_subsample" 模式与 "balanced" 相同，只是权重是根据每棵树的引导样本计算的。对于多输出，y 的每列的权重将相乘。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。	None
	ccp_alpha ccp_alpha: non-negative float, default=0.0 用于最小成本复杂性剪枝（Minimal Cost-Complexity Pruning）的复杂性参数。将选择成本复杂性小于 ``ccp_alpha`` 的最大子树。默认情况下不执行剪枝。有关详细信息，请参见 :ref:`minimal_cost_complexity_pruning`。有关此类剪枝的示例，请参见 :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py`。 .. versionadded:: 0.22	0.0
	max_samples max_samples: int or float, default=None 如果 bootstrap 为 True，则从 X 中抽取用于训练每个基本估计器的样本数量。 - 如果为 None（默认），则抽取 `X.shape[0]` 个样本。 - 如果为 int，则抽取 `max_samples` 个样本。 - 如果为 float，则抽取 `max(round(n_samples * max_samples), 1)` 个样本。因此，`max_samples` 应在区间 `(0.0, 1.0]` 内。 .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like of int of shape (n_features), default=None 指示对每个特征施加的单调性约束。 - 1: 单调增加 - 0: 无约束 - -1: 单调减少如果 monotonic_cst 为 None，则不应用约束。不支持单调性约束的情况： - 多类别分类（即当 `n_classes > 2` 时）， - 多输出分类（即当 `n_outputs_ > 1` 时）， - 在有缺失值的数据上训练的分类。约束适用于正类别的概率。在 :ref:`User Guide ` 中了解更多信息。 .. versionadded:: 1.4	None

排列重要性与随机森林特征重要性（MDI）的比较#

数据加载和特征工程#

模型的准确性#

基于杂质减少量（MDI）的树特征重要性#

本页