使用树集成进行特征转换#

将您的特征转换为更高维度的稀疏空间。然后对这些特征训练一个线性模型。

首先在训练集上拟合一个树集成（完全随机树、随机森林或梯度提升树）。然后，集成中每棵树的每个叶子都在一个新的特征空间中被分配一个固定的任意特征索引。接着，这些叶子索引以 one-hot 方式编码。

每个样本都会经过集成中每棵树的决策，最终落入每棵树的一个叶子中。通过将这些叶子的特征值设置为 1，并将其他特征值设置为 0 来对样本进行编码。

因此，得到的转换器学习到了数据的有监督、稀疏、高维分类嵌入。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

首先，我们将创建一个大型数据集并将其分成三部分

一部分用于训练集成方法，这些方法随后被用作特征工程转换器；
一部分用于训练线性模型；
一部分用于测试线性模型。

以这种方式分割数据非常重要，以避免数据泄露导致的过拟合。

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=80_000, random_state=10)

X_full_train, X_test, y_full_train, y_test = train_test_split(
    X, y, test_size=0.5, random_state=10
)
X_train_ensemble, X_train_linear, y_train_ensemble, y_train_linear = train_test_split(
    X_full_train, y_full_train, test_size=0.5, random_state=10
)

对于每种集成方法，我们将使用 10 个估计器和最大深度为 3 层。

n_estimators = 10
max_depth = 3

首先，我们将在分离的训练集上开始训练随机森林和梯度提升

from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier

random_forest = RandomForestClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
random_forest.fit(X_train_ensemble, y_train_ensemble)

gradient_boosting = GradientBoostingClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
_ = gradient_boosting.fit(X_train_ensemble, y_train_ensemble)

请注意，对于中等规模数据集（n_samples >= 10_000），HistGradientBoostingClassifier 比 GradientBoostingClassifier 快得多，但这并非本例的情况。

RandomTreesEmbedding 是一种无监督方法，因此不需要独立训练。

from sklearn.ensemble import RandomTreesEmbedding

random_tree_embedding = RandomTreesEmbedding(
    n_estimators=n_estimators, max_depth=max_depth, random_state=0
)

现在，我们将创建三个管道，它们将使用上述嵌入作为预处理阶段。

随机树嵌入可以直接与逻辑回归建立管道连接，因为它是一个标准的 scikit-learn 转换器。

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

rt_model = make_pipeline(random_tree_embedding, LogisticRegression(max_iter=1000))
rt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('randomtreesembedding',
                 RandomTreesEmbedding(max_depth=3, n_estimators=10,
                                      random_state=0)),
                ('logisticregression', LogisticRegression(max_iter=1000))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

然后，我们可以将随机森林或梯度提升与逻辑回归建立管道连接。然而，特征转换将通过调用方法 apply 发生。scikit-learn 中的管道期望调用 transform。因此，我们将对 apply 的调用包装在 FunctionTransformer 中。

from sklearn.preprocessing import FunctionTransformer, OneHotEncoder


def rf_apply(X, model):
    return model.apply(X)


rf_leaves_yielder = FunctionTransformer(rf_apply, kw_args={"model": random_forest})

rf_model = make_pipeline(
    rf_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
rf_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function rf_apply at 0x7fb4864dfce0>,
                                     kw_args={'model': RandomForestClassifier(max_depth=3,
                                                                              n_estimators=10,
                                                                              random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

def gbdt_apply(X, model):
    return model.apply(X)[:, :, 0]


gbdt_leaves_yielder = FunctionTransformer(
    gbdt_apply, kw_args={"model": gradient_boosting}
)

gbdt_model = make_pipeline(
    gbdt_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
gbdt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=<function gbdt_apply at 0x7fb4864dd800>,
                                     kw_args={'model': GradientBoostingClassifier(n_estimators=10,
                                                                                  random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

我们最终可以展示所有模型的不同 ROC 曲线。

import matplotlib.pyplot as plt

from sklearn.metrics import RocCurveDisplay

_, ax = plt.subplots()

models = [
    ("RT embedding -> LR", rt_model),
    ("RF", random_forest),
    ("RF embedding -> LR", rf_model),
    ("GBDT", gradient_boosting),
    ("GBDT embedding -> LR", gbdt_model),
]

model_displays = {}
for name, pipeline in models:
    model_displays[name] = RocCurveDisplay.from_estimator(
        pipeline, X_test, y_test, ax=ax, name=name
    )
_ = ax.set_title("ROC curve")

_, ax = plt.subplots()
for name, pipeline in models:
    model_displays[name].plot(ax=ax)

ax.set_xlim(0, 0.2)
ax.set_ylim(0.8, 1)
_ = ax.set_title("ROC curve (zoomed in at top left)")

脚本总运行时间： (0 minutes 2.026 seconds)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('randomtreesembedding', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	n_estimators n_estimators: int, default=100 森林中的树木数量。 .. versionchanged:: 0.22 在 0.22 版本中，``n_estimators`` 的默认值从 10 更改为 100。	10
	max_depth max_depth: int, default=5 每棵树的最大深度。如果为 None，则节点会一直扩展，直到所有叶子都是纯净的，或者所有叶子包含的样本数少于 min_samples_split。	3
	min_samples_split min_samples_split: int or float, default=2 分裂内部节点所需的最小样本数： - 如果为 int，则 `min_samples_split` 是最小样本数。 - 如果为 float，则 `min_samples_split` 是一个分数，`ceil(min_samples_split * n_samples)` 是每个分裂的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	2
	min_samples_leaf min_samples_leaf: int or float, default=1 叶节点所需的最小样本数。只有当分裂点在左分支和右分支中都留下至少 ``min_samples_leaf`` 个训练样本时，才会考虑该分裂点。这可能会使模型平滑，尤其是在回归中。 - 如果为 int，则 `min_samples_leaf` 是最小样本数。 - 如果为 float，则 `min_samples_leaf` 是一个分数，`ceil(min_samples_leaf * n_samples)` 是每个节点的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, default=0.0 在叶节点处所需的最小加权分数（所有输入样本权重的总和）。未提供 sample_weight 时，样本具有相同的权重。	0.0
	max_leaf_nodes max_leaf_nodes: int, default=None 以最佳优先方式增长树，其中 ``max_leaf_nodes`` 个叶节点。最佳节点被定义为相对杂质减少。如果为 None，则叶节点数量不受限制。	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 如果分裂导致的杂质减少大于或等于此值，则会分裂节点。加权杂质减少方程如下所示： N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) 其中 ``N`` 是样本总数，``N_t`` 是当前节点的样本数，``N_t_L`` 是左子节点的样本数，``N_t_R`` 是右子节点的样本数。如果传递了 ``sample_weight``，则 ``N``、``N_t``、``N_t_R`` 和 ``N_t_L`` 都指加权和。 .. versionadded:: 0.19	0.0
	sparse_output sparse_output: bool, default=True 是否返回稀疏 CSR 矩阵（默认行为），或者返回与密集管道操作符兼容的密集数组。	True
	n_jobs n_jobs: int, default=None 并行运行的作业数量。:meth:`fit`、:meth:`transform`、:meth:`decision_path` 和 :meth:`apply` 都跨树并行化。``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关详细信息，请参阅:term:`Glossary`。	None
	random_state random_state: int, RandomState instance or None, default=None 控制用于拟合树的随机 `y` 的生成，以及树节点处每个特征的分裂抽取。有关详细信息，请参阅 :term:`Glossary `。	0
	verbose verbose: int, default=0 控制拟合和预测时的冗余度。	0
	warm_start warm_start: bool, default=False 设置为 ``True`` 时，重用上一次调用 fit 的解决方案，并向集成添加更多估计器，否则，拟合一个全新的森林。有关详细信息，请参阅 :term:`Glossary ` 和 :ref:`tree_ensemble_warm_start`。	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' 指定惩罚项的范数： - `None`: 不添加惩罚项； - `'l2'`: 添加 L2 惩罚项，这是默认选择； - `'l1'`: 添加 L1 惩罚项； - `'elasticnet'`: L1 和 L2 惩罚项均添加。 .. warning:: 某些惩罚项可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionadded:: 0.19 使用 SAGA solver 的 l1 惩罚（允许 'multinomial' + L1） .. deprecated:: 1.8 `penalty` 在版本 1.8 中已弃用，并将在 1.10 中删除。请改用 `l1_ratio`。`l1_ratio=0` 表示 `penalty='l2'`，`l1_ratio=1` 表示 `penalty='l1'`， `l1_ratio` 设置为 0 到 1 之间的任意浮点数表示 `'penalty='elasticnet'`。	'deprecated'
	C C: float, default=1.0 正则化强度的倒数；必须是正浮点数。与支持向量机类似，较小的值指定更强的正则化。`C=np.inf` 导致未惩罚的 Logistic Regression。有关使用 L1 惩罚调整 `C` 参数效果的视觉示例，请参见： :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`。	1.0
	l1_ratio l1_ratio: float, default=0.0 Elastic-Net 混合参数，`0 <= l1_ratio <= 1`。设置 `l1_ratio=1` 给出纯 L1 惩罚，设置 `l1_ratio=0` 给出纯 L2 惩罚。 0 到 1 之间的任何值给出形式为 `l1_ratio * L1 + (1 - l1_ratio) * L2` 的 Elastic-Net 惩罚。 .. warning:: 某些 `l1_ratio` 值（即某些惩罚项）可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionchanged:: 1.8 默认值从 None 更改为 0.0。 .. deprecated:: 1.8 `None` 已弃用，并将在版本 1.10 中删除。始终使用 `l1_ratio` 来指定惩罚类型。	0.0
	dual dual: bool, default=False 对偶（受限）或原始（正则化，另请参见 :ref:`this equation `) 公式。对偶公式仅针对 liblinear solver 的 l2 惩罚实现。当 n_samples > n_features 时，فضل `dual=False`。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	fit_intercept fit_intercept: bool, default=True 指定是否应将常量（也称为偏差或截距）添加到决策函数。	True
	intercept_scaling intercept_scaling: float, default=1 仅当使用 solver `liblinear` 且 `self.fit_intercept` 设置为 `True` 时有用。在这种情况下，`x` 变为 `[x, self.intercept_scaling]`，即一个常数值等于 `intercept_scaling` 的“合成”特征被附加到实例向量。截距变为 ``intercept_scaling * synthetic_feature_weight``。 .. note:: 合成特征权重像所有其他特征一样受到 L1 或 L2 正则化。为了减少正则化对合成特征权重（以及因此对截距）的影响，必须增加 `intercept_scaling`。	1
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给出，则所有类假定权重为一。 “balanced”模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。 .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState instance, default=None 当 ``solver`` == 'sag'、'saga' 或 'liblinear' 时用于打乱数据。有关详细信息，请参见 :term:`Glossary `。	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' 优化问题中使用的算法。默认为 'lbfgs'。选择求解器时，您可能需要考虑以下方面： - 'lbfgs' 是一个很好的默认求解器，因为它适用于各种问题。 - 对于 :term:`multiclass` 问题 (`n_classes >= 3`)，除 'liblinear' 外的所有求解器都最小化完整的多项式损失，'liblinear' 将引发错误。 - 'newton-cholesky' 是 `n_samples` >> `n_features * n_classes` 的一个很好的选择，特别是在使用带有稀有类别的 one-hot 编码分类特征时。请注意，此求解器的内存使用量与 `n_features * n_classes` 呈二次关系，因为它明确计算完整的 Hessian 矩阵。 - 对于小型数据集，'liblinear' 是一个很好的选择，而 'sag' 和 'saga' 对于大型数据集更快； - 'liblinear' 默认只能处理二分类。要在多分类设置中应用 one-versus-rest 方案，可以使用 :class:`~sklearn.multiclass.OneVsRestClassifier` 包装它。 .. warning:: 算法的选择取决于所选择的惩罚（L2 惩罚的 `l1_ratio=0`，L1 惩罚的 `l1_ratio=1`，以及 Elastic-Net 的 `0 < l1_ratio < 1`）以及对（多项式）多分类的支持： ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 yes 'liblinear' l1_ratio=1 or l1_ratio=0 no 'newton-cg' l1_ratio=0 yes 'newton-cholesky' l1_ratio=0 yes 'sag' l1_ratio=0 yes 'saga' 0<=l1_ratio<=1 yes ================= ======================== ====================== .. note:: 'sag' 和 'saga' 快速收敛仅在具有大致相同比例的特征上得到保证。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器对数据进行预处理。 .. seealso:: 有关 :class:`LogisticRegression` 的更多信息，请参阅 :ref:`User Guide `，特别是 :ref:`Table ` 总结了求解器/惩罚支持。 .. versionadded:: 0.17 随机平均梯度 (SAG) 下降求解器。多项式支持在 0.18 版本中添加。 .. versionadded:: 0.19 SAGA 求解器。 .. versionchanged:: 0.22 默认求解器在 0.22 版本中从 'liblinear' 更改为 'lbfgs'。 .. versionadded:: 1.2 newton-cholesky 求解器。多项式支持在 1.6 版本中添加。	'lbfgs'
	max_iter max_iter: int, default=100 solver 收敛所需的最大迭代次数。	1000
	verbose verbose: int, default=0 对于 liblinear 和 lbfgs solver，将 verbose 设置为任意正数以显示详细信息。	0
	warm_start warm_start: bool, default=False 设置为 True 时，重用上次调用 fit 的解决方案作为初始化，否则，擦除上一个解决方案。对于 liblinear solver 无用。有关详细信息，请参见 :term:`the Glossary `。 .. versionadded:: 0.17 warm_start 支持 lbfgs、newton-cg、sag、saga solver。	False
	n_jobs n_jobs: int, default=None 不产生任何效果。 .. deprecated:: 1.8 `n_jobs` 在版本 1.8 中已弃用，并将在 1.10 中删除。	None

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('functiontransformer', ...), ('onehotencoder', ...), ...]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	func func: callable, default=None 用于转换的可调用对象。这将传递与 transform 相同的参数，以及转发的 args 和 kwargs。如果 func 为 None，则 func 将是恒等函数。	<function rf_...x7fb4864dfce0>
	inverse_func inverse_func: callable, default=None 用于逆转换的可调用对象。这将传递与 inverse transform 相同的参数，以及转发的 args 和 kwargs。如果 inverse_func 为 None，则 inverse_func 将是恒等函数。	None
	validate validate: bool, default=False 指示在调用 ``func`` 之前是否应检查输入 X 数组。可能性包括： - 如果为 False，则不进行输入验证。 - 如果为 True，则 X 将被转换为 2 维 NumPy 数组或稀疏矩阵。如果无法转换，则引发异常。 .. versionchanged:: 0.22 ``validate`` 的默认值从 True 更改为 False。	False
	accept_sparse accept_sparse: bool, default=False 指示 func 接受稀疏矩阵作为输入。如果 validate 为 False，则此设置无效。否则，如果 accept_sparse 为 False，则稀疏矩阵输入将引发异常。	False
	check_inverse check_inverse: bool, default=True 是否检查 ``func`` 后跟 ``inverse_func`` 是否导致原始输入。它可用于健全性检查，并在条件未满足时发出警告。 .. versionadded:: 0.20	True
	feature_names_out feature_names_out: callable, 'one-to-one' or None, default=None 确定将由 `get_feature_names_out` 方法返回的特征名称列表。如果为 'one-to-one'，则输出特征名称将等于输入特征名称。如果为 callable，则它必须接受两个位置参数：此 `FunctionTransformer` (`self`) 和输入特征名称的 array-like (`input_features`)。它必须返回输出特征名称的 array-like。仅当 `feature_names_out` 不为 None 时，才定义 `get_feature_names_out` 方法。有关详细信息，请参阅 ``get_feature_names_out``。 .. versionadded:: 1.1	None
	kw_args kw_args: dict, default=None 要传递给 func 的其他关键字参数字典。 .. versionadded:: 0.18	{'model': RandomForestC...ndom_state=10)}
	inv_kw_args inv_kw_args: dict, default=None 要传递给 inverse_func 的其他关键字参数字典。 .. versionadded:: 0.18	None

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto'：从训练数据中自动确定类别。 - list：``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应在单个特征内混合字符串和数值，并且在数值的情况下应已排序。使用的类别可以在 ``categories_`` 属性中找到。 .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} or an array-like of shape (n_features,), default=None 指定用于为每个特征删除一个类别的方法。这在完全共线特征导致问题的情况下很有用，例如将结果数据输入到未正则化的线性回归模型中。然而，删除一个类别会破坏原始表示的对称性，因此可能在下游模型中引入偏差，例如对于惩罚线性分类或回归模型。 - None：保留所有特征（默认）。 - 'first'：删除每个特征中的第一个类别。如果只有一个类别存在，则该特征将被完全删除。 - 'if_binary'：删除具有两个类别的每个特征中的第一个类别。具有 1 个或多于 2 个类别的特征保持不变。 - array：``drop[i]`` 是应删除的特征 ``X[:, i]`` 中的类别。当配置 `max_categories` 或 `min_frequency` 以对不常见类别进行分组时，删除行为将在分组后处理。 .. versionadded:: 0.21 `drop` 参数在 0.21 中添加。 .. versionchanged:: 0.23 `drop='if_binary'` 选项在 0.23 中添加。 .. versionchanged:: 1.1 支持删除不常见类别。	None
	sparse_output sparse_output: bool, default=True 当 ``True`` 时，返回一个 :class:`scipy.sparse.csr_matrix`，即“压缩稀疏行”（CSR）格式的稀疏矩阵。 .. versionadded:: 1.2 `sparse` 已重命名为 `sparse_output`	True
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' 指定在 :meth:`transform` 期间处理未知类别的方式。 - 'error'：如果在转换期间存在未知类别，则引发错误。 - 'ignore'：当在转换期间遇到未知类别时，此特征的结果 one-hot 编码列将全部为零。在逆转换中，未知类别将被标记为 None。 - 'infrequent_if_exist'：当在转换期间遇到未知类别时，此特征的结果 one-hot 编码列将映射到不常见类别（如果存在）。不常见类别将映射到编码中的最后一个位置。在逆转换期间，未知类别将被映射到标记为 `'infrequent'` 的类别（如果存在）。如果 `'infrequent'` 类别不存在，则 :meth:`transform` 和 :meth:`inverse_transform` 将像使用 `handle_unknown='ignore'` 一样处理未知类别。不常见类别基于 `min_frequency` 和 `max_categories` 存在。在 :ref:`User Guide ` 中阅读更多信息。 - 'warn'：当在转换期间遇到未知类别时，发出警告，然后编码过程如 `handle_unknown="infrequent_if_exist"` 所述进行。 .. versionchanged:: 1.1 添加了 `'infrequent_if_exist'` 以自动处理未知类别和不常见类别。 .. versionadded:: 1.6 选项 `"warn"` 在 1.6 中添加。	'ignore'
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常见的最小频率。 - 如果为 `int`，则基数小于此值的类别将被视为不常见。 - 如果为 `float`，则基数小于 `min_frequency * n_samples` 的类别将被视为不常见。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	max_categories max_categories: int, default=None 指定当考虑不常见类别时，每个输入特征的输出特征数量的上限。如果存在不常见类别，`max_categories` 包括表示不常见类别的类别以及常见类别。如果为 `None`，则输出特征数量没有限制。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	feature_name_combiner feature_name_combiner: "concat" or callable, default="concat" 具有签名 `def callable(input_feature, category)` 的可调用对象，返回一个字符串。这用于创建由 :meth:`get_feature_names_out` 返回的特征名称。 `"concat"` 使用 `feature + "_" + str(category)` 连接编码特征名称和类别。例如，具有值 1、6、7 的特征 X 创建特征名称 `X_1, X_6, X_7`。 .. versionadded:: 1.3	'concat'

	func func: callable, default=None 用于转换的可调用对象。这将传递与 transform 相同的参数，以及转发的 args 和 kwargs。如果 func 为 None，则 func 将是恒等函数。	<function gbd...x7fb4864dd800>
	inverse_func inverse_func: callable, default=None 用于逆转换的可调用对象。这将传递与 inverse transform 相同的参数，以及转发的 args 和 kwargs。如果 inverse_func 为 None，则 inverse_func 将是恒等函数。	None
	validate validate: bool, default=False 指示在调用 ``func`` 之前是否应检查输入 X 数组。可能性包括： - 如果为 False，则不进行输入验证。 - 如果为 True，则 X 将被转换为 2 维 NumPy 数组或稀疏矩阵。如果无法转换，则引发异常。 .. versionchanged:: 0.22 ``validate`` 的默认值从 True 更改为 False。	False
	accept_sparse accept_sparse: bool, default=False 指示 func 接受稀疏矩阵作为输入。如果 validate 为 False，则此设置无效。否则，如果 accept_sparse 为 False，则稀疏矩阵输入将引发异常。	False
	check_inverse check_inverse: bool, default=True 是否检查 ``func`` 后跟 ``inverse_func`` 是否导致原始输入。它可用于健全性检查，并在条件未满足时发出警告。 .. versionadded:: 0.20	True
	feature_names_out feature_names_out: callable, 'one-to-one' or None, default=None 确定将由 `get_feature_names_out` 方法返回的特征名称列表。如果为 'one-to-one'，则输出特征名称将等于输入特征名称。如果为 callable，则它必须接受两个位置参数：此 `FunctionTransformer` (`self`) 和输入特征名称的 array-like (`input_features`)。它必须返回输出特征名称的 array-like。仅当 `feature_names_out` 不为 None 时，才定义 `get_feature_names_out` 方法。有关详细信息，请参阅 ``get_feature_names_out``。 .. versionadded:: 1.1	None
	kw_args kw_args: dict, default=None 要传递给 func 的其他关键字参数字典。 .. versionadded:: 0.18	{'model': GradientBoost...ndom_state=10)}
	inv_kw_args inv_kw_args: dict, default=None 要传递给 inverse_func 的其他关键字参数字典。 .. versionadded:: 0.18	None

使用树集成进行特征转换#

本页