注意

转到末尾下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

偏依赖图和个体条件期望图#

偏依赖图显示了目标函数 [2] 与一组感兴趣的特征之间的依赖关系，通过对所有其他特征（互补特征）的值进行边缘化处理。由于人类感知的限制，感兴趣特征集的大小必须很小（通常为一到两个），因此它们通常从最重要的特征中选择。

类似地，个体条件期望 (ICE) 图 [3] 显示了目标函数与感兴趣特征之间的依赖关系。然而，与显示感兴趣特征的平均效应的偏依赖图不同，ICE 图分别可视化了每个样本的预测对特征的依赖关系，每条线代表一个样本。ICE 图仅支持一个感兴趣特征。

此示例展示了如何从在共享单车数据集上训练的 MLPRegressor 和 HistGradientBoostingRegressor 中获取偏依赖图和 ICE 图。本示例受 [1] 启发。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

使用不同模型的 1 维偏依赖#

在本节中，我们将使用两种不同的机器学习模型计算 1 维偏依赖：（i）多层感知器和（ii）梯度提升模型。通过这两个模型，我们将演示如何计算和解释数值和分类特征的偏依赖图 (PDP) 以及个体条件期望 (ICE)。

多层感知器#

让我们拟合一个 MLPRegressor 并计算单变量偏依赖图。

from time import time

from sklearn.neural_network import MLPRegressor
from sklearn.pipeline import make_pipeline

print("Training MLPRegressor...")
tic = time()
mlp_model = make_pipeline(
    mlp_preprocessor,
    MLPRegressor(
        hidden_layer_sizes=(30, 15),
        learning_rate_init=0.01,
        early_stopping=True,
        random_state=0,
    ),
)
mlp_model.fit(X_train, y_train)
print(f"done in {time() - tic:.3f}s")
print(f"Test R2 score: {mlp_model.score(X_test, y_test):.2f}")

Training MLPRegressor...
done in 0.563s
Test R2 score: 0.61

我们使用专门为神经网络创建的预处理器配置了一个管道，并调整了神经网络的大小和学习率，以在训练时间与测试集上的预测性能之间取得合理的折衷。

重要的是，这个表格数据集的特征具有非常不同的动态范围。神经网络对具有不同尺度的特征非常敏感，忘记预处理数字特征会导致模型性能非常差。

使用更大的神经网络可以获得更高的预测性能，但训练成本也会显著增加。

请注意，在绘制偏依赖图之前，检查模型在测试集上的准确性是否足够重要，因为解释给定特征对预测性能较差的模型预测函数的影响几乎没有用。在这方面，我们的 MLP 模型表现良好。

我们将绘制平均偏依赖。

import matplotlib.pyplot as plt

from sklearn.inspection import PartialDependenceDisplay

common_params = {
    "subsample": 50,
    "n_jobs": 2,
    "grid_resolution": 20,
    "random_state": 0,
}

print("Computing partial dependence plots...")
features_info = {
    # features of interest
    "features": ["temp", "humidity", "windspeed", "season", "weather", "hour"],
    # type of partial dependence plot
    "kind": "average",
    # information regarding categorical features
    "categorical_features": categorical_features,
}
tic = time()
_, ax = plt.subplots(ncols=3, nrows=2, figsize=(9, 8), constrained_layout=True)
display = PartialDependenceDisplay.from_estimator(
    mlp_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with an MLPRegressor"
    ),
    fontsize=16,
)

Partial dependence of the number of bike rentals for the bike rental dataset with an MLPRegressor

Computing partial dependence plots...
done in 0.468s

梯度提升#

现在，让我们拟合一个 HistGradientBoostingRegressor 并计算相同特征的偏依赖。我们还使用为此模型创建的专用预处理器。

from sklearn.ensemble import HistGradientBoostingRegressor

print("Training HistGradientBoostingRegressor...")
tic = time()
hgbdt_model = make_pipeline(
    hgbdt_preprocessor,
    HistGradientBoostingRegressor(
        categorical_features=categorical_features,
        random_state=0,
        max_iter=50,
    ),
)
hgbdt_model.fit(X_train, y_train)
print(f"done in {time() - tic:.3f}s")
print(f"Test R2 score: {hgbdt_model.score(X_test, y_test):.2f}")

Training HistGradientBoostingRegressor...
done in 0.111s
Test R2 score: 0.62

在这里，我们使用梯度提升模型的默认超参数，无需任何预处理，因为基于树的模型天然对数值特征的单调变换具有鲁棒性。

请注意，在这个表格数据集上，梯度提升机器的训练速度显著快于神经网络，并且准确性也更高。调整其超参数也显著便宜（默认值通常效果很好，而神经网络通常并非如此）。

我们将绘制一些数值和分类特征的偏依赖图。

print("Computing partial dependence plots...")
tic = time()
_, ax = plt.subplots(ncols=3, nrows=2, figsize=(9, 8), constrained_layout=True)
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with a gradient boosting"
    ),
    fontsize=16,
)

Partial dependence of the number of bike rentals for the bike rental dataset with a gradient boosting

Computing partial dependence plots...
done in 0.948s

图的分析#

我们首先来看数值特征的 PDP。对于这两个模型，温度 PDP 的总体趋势是自行车租赁数量随温度升高而增加。我们可以进行类似的分析，但湿度特征呈现相反的趋势。湿度增加时，自行车租赁数量减少。最后，我们看到风速特征也呈现相同的趋势。对于这两个模型，风速增加时，自行车租赁数量减少。我们还观察到 MLPRegressor 的预测比 HistGradientBoostingRegressor 平滑得多。

现在，我们将查看分类特征的偏依赖图。

我们观察到春季是季节特征的最低条。对于天气特征，雨天类别是最低条。关于小时特征，我们看到上午 7 点和下午 6 点左右有两个高峰。这些发现与我们之前对数据集的观察一致。

然而，值得注意的是，如果特征相关，我们可能会创建没有意义的合成样本。

ICE 与 PDP#

PDP 是特征边际效应的平均值。我们对所提供集合的所有样本的响应进行平均。因此，一些效应可能会被隐藏。在这方面，可以绘制每个个体响应。这种表示称为个体效应图 (ICE)。在下图中，我们绘制了温度和湿度特征的 50 个随机选择的 ICE。

print("Computing partial dependence plots and individual conditional expectation...")
tic = time()
_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info = {
    "features": ["temp", "humidity"],
    "kind": "both",
    "centered": True,
}

display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle("ICE and PDP representations", fontsize=16)

Computing partial dependence plots and individual conditional expectation...
done in 0.394s

我们看到温度特征的 ICE 提供了额外信息：一些 ICE 线是平坦的，而另一些则显示温度高于 35 摄氏度时依赖性下降。我们观察到湿度特征也存在类似模式：当湿度高于 80% 时，一些 ICE 线显示急剧下降。

并非所有 ICE 线都是平行的，这表明模型发现了特征之间的交互。我们可以通过使用参数 interaction_cst 限制梯度提升模型不使用任何特征之间的交互来重复实验。

from sklearn.base import clone

interaction_cst = [[i] for i in range(X_train.shape[1])]
hgbdt_model_without_interactions = (
    clone(hgbdt_model)
    .set_params(histgradientboostingregressor__interaction_cst=interaction_cst)
    .fit(X_train, y_train)
)
print(f"Test R2 score: {hgbdt_model_without_interactions.score(X_test, y_test):.2f}")

Test R2 score: 0.38

_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info["centered"] = False
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model_without_interactions,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
_ = display.figure_.suptitle("ICE and PDP representations", fontsize=16)

二维交互图#

具有两个感兴趣特征的 PDP 使我们能够可视化它们之间的交互。然而，ICE 无法轻易绘制和解释。我们将展示 from_estimator 中可用的表示，即 2D 热图。

print("Computing partial dependence plots...")
features_info = {
    "features": ["temp", "humidity", ("temp", "humidity")],
    "kind": "average",
}
_, ax = plt.subplots(ncols=3, figsize=(10, 4), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way of numerical PDP using gradient boosting", fontsize=16
)

1-way vs 2-way of numerical PDP using gradient boosting

Computing partial dependence plots...
done in 6.743s

二维偏依赖图显示了自行车租赁数量与温度和湿度共同值之间的依赖关系。我们清楚地看到这两个特征之间的相互作用。当温度高于 20 摄氏度时，湿度对自行车租赁数量的影响似乎与温度无关。

另一方面，当温度低于 20 摄氏度时，温度和湿度都持续影响自行车租赁数量。

此外，20 摄氏度阈值影响峰的坡度非常依赖于湿度水平：在干燥条件下，峰很陡峭，但在湿度高于 70% 的潮湿条件下，峰则平滑得多。

现在我们将这些结果与针对受限模型计算的相同图进行对比，该模型受限学习一个不依赖于此类非线性特征交互的预测函数。

print("Computing partial dependence plots...")
features_info = {
    "features": ["temp", "humidity", ("temp", "humidity")],
    "kind": "average",
}
_, ax = plt.subplots(ncols=3, figsize=(10, 4), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model_without_interactions,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way of numerical PDP using gradient boosting", fontsize=16
)

Computing partial dependence plots...
done in 6.157s

受限模型（不建模特征交互）的一维偏依赖图显示了每个特征的局部尖峰，特别是“湿度”特征。这些尖峰可能反映了模型行为的退化，它试图通过过度拟合特定训练点来某种程度上补偿被禁止的交互。请注意，该模型在测试集上测得的预测性能明显差于原始未受限模型。

另请注意，这些图上可见的局部尖峰数量取决于 PD 图本身的网格分辨率参数。

这些局部尖峰导致了噪声网格化的二维 PD 图。由于湿度特征中的高频振荡，很难判断这些特征之间是否存在交互。然而，可以清楚地看到，当温度跨越 20 度边界时观察到的简单交互效应在此模型中不再可见。

分类特征之间的偏依赖将提供离散表示，可以显示为热图。例如，季节、天气和目标之间的交互将如下所示

print("Computing partial dependence plots...")
features_info = {
    "features": ["season", "weather", ("season", "weather")],
    "kind": "average",
    "categorical_features": categorical_features,
}
_, ax = plt.subplots(ncols=3, figsize=(14, 6), constrained_layout=True)
tic = time()
display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
)

print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    "1-way vs 2-way PDP of categorical features using gradient boosting", fontsize=16
)

1-way vs 2-way PDP of categorical features using gradient boosting

Computing partial dependence plots...
done in 0.331s

三维表示#

让我们为 2 个特征交互制作相同的偏依赖图，这次是 3 维的。

# unused but required import for doing 3d projections with matplotlib < 3.2
import mpl_toolkits.mplot3d  # noqa: F401
import numpy as np

from sklearn.inspection import partial_dependence

fig = plt.figure(figsize=(5.5, 5))

features = ("temp", "humidity")
pdp = partial_dependence(
    hgbdt_model, X_train, features=features, kind="average", grid_resolution=10
)
XX, YY = np.meshgrid(pdp["grid_values"][0], pdp["grid_values"][1])
Z = pdp.average[0].T
ax = fig.add_subplot(projection="3d")
fig.add_axes(ax)

surf = ax.plot_surface(XX, YY, Z, rstride=1, cstride=1, cmap=plt.cm.BuPu, edgecolor="k")
ax.set_xlabel(features[0])
ax.set_ylabel(features[1])
fig.suptitle(
    "PD of number of bike rentals on\nthe temperature and humidity GBDT model",
    fontsize=16,
)
# pretty init view
ax.view_init(elev=22, azim=122)
clb = plt.colorbar(surf, pad=0.08, shrink=0.6, aspect=10)
clb.ax.set_title("Partial\ndependence")
plt.show()

PD of number of bike rentals on the temperature and humidity GBDT model, Partial dependence

自定义检查点#

到目前为止，所有示例都未指定评估哪些点来创建偏依赖图。默认情况下，我们使用输入数据集定义的分位数。在某些情况下，指定模型需要评估的确切点会很有帮助。例如，如果用户想测试模型在分布外数据上的行为或比较在略有不同的数据上拟合的两个模型。参数 custom_values 允许用户传入他们希望模型评估的值。这会覆盖 grid_resolution 和 percentiles 参数。让我们回到上面的梯度提升示例，但使用自定义值。

print("Computing partial dependence plots with custom evaluation values...")
tic = time()
_, ax = plt.subplots(ncols=2, figsize=(6, 4), sharey=True, constrained_layout=True)

features_info = {
    "features": ["temp", "humidity"],
    "kind": "both",
}

display = PartialDependenceDisplay.from_estimator(
    hgbdt_model,
    X_train,
    **features_info,
    ax=ax,
    **common_params,
    # we set custom values for temp feature -
    # all other features are evaluated based on the data
    custom_values={"temp": np.linspace(0, 40, 10)},
)
print(f"done in {time() - tic:.3f}s")
_ = display.figure_.suptitle(
    (
        "Partial dependence of the number of bike rentals\n"
        "for the bike rental dataset with a gradient boosting"
    ),
    fontsize=16,
)

Computing partial dependence plots with custom evaluation values...
done in 0.403s

脚本总运行时间： (0 分 20.237 秒)

	transformers transformers: 列表元组 (名称、转换器、列) 元组列表，指定要应用于数据子集的转换器对象。名称: str 类似于 Pipeline 和 FeatureUnion，这允许使用 ``set_params`` 设置转换器及其参数，并在网格搜索中进行搜索。转换器: {'drop', 'passthrough'} 或估算器估算器必须支持 :term:`fit` 和 :term:`transform`。特殊字符串 'drop' 和 'passthrough' 也被接受，分别表示删除列或不进行转换直接通过。列: str, 字符串数组，int, 整数数组，布尔数组，切片或可调用对数据的第二个轴进行索引。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。当 ``transformer`` 期望 X 是一个 1d 数组（向量）时，应使用标量字符串或 int，否则将把 2d 数组传递给转换器。可调用对象被传递输入数据 `X`，并可以返回上述任何一种。要按名称或 dtype 选择多个列，可以使用 :obj:`make_column_selector`。	[('num', ...), ('cat', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	0.3
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str 或 Callable[[str, str], str], 默认为 True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将为生成该特征的转换器名称加上前缀。这等同于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 将不为任何特征名称加上前缀，并且如果特征名称不唯一，则会报错。 - 如果为 ``Callable[[str, str], str]``， :meth:`ColumnTransformer.get_feature_names_out` 将使用转换器的名称重命名所有特征。可调用对象的第一个参数是转换器名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是一个准备好格式化的字符串。给定的字符串将使用两个字段名称进行格式化：``transformer_name`` 和 ``feature_name``。例如 ``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是可调用对象或要格式化的字符串。	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	n_quantiles n_quantiles: int, 默认值 1000 或 n_samples 要计算的分位数数量。它对应于用于离散化累积分布函数的标志点数量。如果 n_quantiles 大于样本数量，则 n_quantiles 设置为样本数量，因为更大的分位数数量并不能更好地近似累积分布函数估计器。	100
	output_distribution output_distribution: {'uniform', 'normal'}, 默认值 'uniform' 转换后数据的边际分布。选项为 'uniform'（默认）或 'normal'。	'uniform'
	ignore_implicit_zeros ignore_implicit_zeros: bool, 默认值 False 仅适用于稀疏矩阵。如果为 True，则舍弃矩阵的稀疏条目以计算分位数统计量。如果为 False，则这些条目被视为零。	False
	subsample subsample: int 或 None, 默认值 10_000 用于估计分位数的最大样本数，以提高计算效率。请注意，对于值相同的稀疏矩阵和密集矩阵，子采样过程可能不同。通过设置 `subsample=None` 禁用子采样。 .. versionadded:: 1.5 添加了禁用子采样的选项 `None`。	10000
	random_state random_state: int, RandomState 实例或 None, 默认值 None 确定子采样和平滑噪声的随机数生成。请参阅 ``subsample`` 了解更多详细信息。传入 int 可在多次函数调用中获得可重现的结果。请参阅 :term:`术语表 `。	None
	copy copy: bool, 默认值 True 设置为 False 以执行原地转换并避免复制（如果输入已经是 numpy 数组）。	True

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto'：从训练数据中自动确定类别。 - list：``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应在单个特征内混合字符串和数值，并且在数值的情况下应已排序。使用的类别可以在 ``categories_`` 属性中找到。 .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} 或形状为 (n_features,) 的类数组对象，默认值 None 指定每特征删除一个类别的方法。这在完全共线特征导致问题的情况下非常有用，例如当将结果数据输入未正则化的线性回归模型时。但是，删除一个类别会破坏原始表示的对称性，因此可能在下游模型中引入偏差，例如对于惩罚线性分类或回归模型。 - None：保留所有特征（默认）。 - 'first'：删除每个特征中的第一个类别。如果只存在一个类别，则该特征将被完全删除。 - 'if_binary'：删除每个具有两个类别的特征中的第一个类别。具有 1 个或多于 2 个类别的特征保持不变。 - 数组：``drop[i]`` 是特征 ``X[:, i]`` 中应删除的类别。当配置 `max_categories` 或 `min_frequency` 以对不常见类别进行分组时，删除行为将在分组后处理。 .. versionadded:: 0.21 参数 `drop` 在 0.21 中添加。 .. versionchanged:: 0.23 选项 `drop='if_binary'` 在 0.23 中添加。 .. versionchanged:: 1.1 支持删除不常见类别。	None
	sparse_output sparse_output: bool, default=True 当 ``True`` 时，返回一个 :class:`scipy.sparse.csr_matrix`，即“压缩稀疏行”（CSR）格式的稀疏矩阵。 .. versionadded:: 1.2 `sparse` 已重命名为 `sparse_output`	True
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, 默认值 'error' 指定在 :meth:`transform` 期间处理未知类别的方式。 - 'error'：如果在转换期间存在未知类别，则引发错误。 - 'ignore'：当在转换期间遇到未知类别时，此特征的生成独热编码列将全部为零。在逆转换中，未知类别将表示为 None。 - 'infrequent_if_exist'：当在转换期间遇到未知类别时，此特征的生成独热编码列将映射到不常见类别（如果存在）。不常见类别将映射到编码中的最后一个位置。在逆转换期间，未知类别将映射到表示为 `'infrequent'` 的类别（如果存在）。如果不存在 `'infrequent'` 类别，则 :meth:`transform` 和 :meth:`inverse_transform` 将像 `handle_unknown='ignore'` 一样处理未知类别。不常见类别存在基于 `min_frequency` 和 `max_categories`。请参阅 :ref:`用户指南 ` 了解更多信息。 - 'warn'：当在转换期间遇到未知类别时，会发出警告，然后编码按 `handle_unknown="infrequent_if_exist"` 所述进行。 .. versionchanged:: 1.1 添加了 `'infrequent_if_exist'` 以自动处理未知类别和不常见类别。 .. versionadded:: 1.6 选项 `"warn"` 在 1.6 中添加。	'ignore'
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常见的最小频率。 - 如果为 `int`，则基数小于此值的类别将被视为不常见。 - 如果为 `float`，则基数小于 `min_frequency * n_samples` 的类别将被视为不常见。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	max_categories max_categories: int, default=None 指定当考虑不常见类别时，每个输入特征的输出特征数量的上限。如果存在不常见类别，`max_categories` 包括表示不常见类别的类别以及常见类别。如果为 `None`，则输出特征数量没有限制。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	feature_name_combiner feature_name_combiner: "concat" or callable, default="concat" 具有签名 `def callable(input_feature, category)` 的可调用对象，返回一个字符串。这用于创建由 :meth:`get_feature_names_out` 返回的特征名称。 `"concat"` 使用 `feature + "_" + str(category)` 连接编码特征名称和类别。例如，具有值 1、6、7 的特征 X 创建特征名称 `X_1, X_6, X_7`。 .. versionadded:: 1.3	'concat'

	transformers transformers: 列表元组 (名称、转换器、列) 元组列表，指定要应用于数据子集的转换器对象。名称: str 类似于 Pipeline 和 FeatureUnion，这允许使用 ``set_params`` 设置转换器及其参数，并在网格搜索中进行搜索。转换器: {'drop', 'passthrough'} 或估算器估算器必须支持 :term:`fit` 和 :term:`transform`。特殊字符串 'drop' 和 'passthrough' 也被接受，分别表示删除列或不进行转换直接通过。列: str, 字符串数组，int, 整数数组，布尔数组，切片或可调用对数据的第二个轴进行索引。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。当 ``transformer`` 期望 X 是一个 1d 数组（向量）时，应使用标量字符串或 int，否则将把 2d 数组传递给转换器。可调用对象被传递输入数据 `X`，并可以返回上述任何一种。要按名称或 dtype 选择多个列，可以使用 :obj:`make_column_selector`。	[('cat', ...), ('num', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	1
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str 或 Callable[[str, str], str], 默认为 True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将为生成该特征的转换器名称加上前缀。这等同于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 将不为任何特征名称加上前缀，并且如果特征名称不唯一，则会报错。 - 如果为 ``Callable[[str, str], str]``， :meth:`ColumnTransformer.get_feature_names_out` 将使用转换器的名称重命名所有特征。可调用对象的第一个参数是转换器名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是一个准备好格式化的字符串。给定的字符串将使用两个字段名称进行格式化：``transformer_name`` 和 ``feature_name``。例如 ``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是可调用对象或要格式化的字符串。	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto' : 自动从训练数据中确定类别。 - list : ``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应混合字符串和数值，并且在数值的情况下应进行排序。使用的类别可以在 ``categories_`` 属性中找到。	'auto'
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' 当设置为 'error' 时，如果在转换过程中存在未知的分类特征，将引发错误。当设置为 'use_encoded_value' 时，未知类别的编码值将设置为参数 `unknown_value` 给定的值。在 :meth:`inverse_transform` 中，未知类别将表示为 None。 .. versionadded:: 0.24	'error'
	unknown_value unknown_value: int or np.nan, default=None 当参数 handle_unknown 设置为 'use_encoded_value' 时，此参数是必需的，并将设置未知类别的编码值。它必须与用于编码 `fit` 中任何类别的数值不同。如果设置为 np.nan，则 `dtype` 参数必须是浮点型 dtype。 .. versionadded:: 0.24	None
	encoded_missing_value encoded_missing_value: int or np.nan, default=np.nan 缺失类别的编码值。如果设置为 `np.nan`，则 `dtype` 参数必须是浮点型 dtype。 .. versionadded:: 1.1	nan
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常出现的最低频率。 - 如果为 `int`，基数小于此值的类别将被视为不常出现。 - 如果为 `float`，基数小于 `min_frequency * n_samples` 的类别将被视为不常出现。 .. versionadded:: 1.3 在 :ref:`User Guide ` 中阅读更多内容。	None
	max_categories max_categories: int, default=None 指定考虑不常出现类别时，每个输入特征的输出类别数的上限。如果存在不常出现类别，`max_categories` 包括表示不常出现类别的类别以及常出现类别。如果为 `None`，则输出特征数没有限制。 `max_categories` 不考虑缺失或未知类别。将 `unknown_value` 或 `encoded_missing_value` 设置为整数将使唯一整数代码的数量分别增加 1。这可能导致最多 `max_categories + 2` 个整数代码。 .. versionadded:: 1.3 在 :ref:`User Guide ` 中阅读更多内容。	None

偏依赖图和个体条件期望图#

机器学习模型的预处理器#

神经网络模型的预处理器#

梯度提升模型的预处理器#

使用不同模型的 1 维偏依赖#

多层感知器#

梯度提升#

图的分析#

ICE 与 PDP#

二维交互图#

三维表示#

自定义检查点#

本页

偏依赖图和个体条件期望图#

共享单车数据集预处理#

机器学习模型的预处理器#

神经网络模型的预处理器#

梯度提升模型的预处理器#

使用不同模型的 1 维偏依赖#

多层感知器#

梯度提升#

图的分析#

ICE 与 PDP#

二维交互图#

三维表示#

自定义检查点#

本页