注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

引入 `set_output` API#

此示例将演示 set_output API，用于配置转换器以输出 pandas DataFrame。set_output 可以通过调用 set_output 方法按估计器进行配置，或者通过设置 set_config(transform_output="pandas") 进行全局配置。有关详细信息，请参阅 SLEP018。

首先，我们将 iris 数据集作为 DataFrame 加载，以演示 set_output API。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(as_frame=True, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
X_train.head()

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
60	5.0	2.0	3.5	1.0
1	4.9	3.0	1.4	0.2
8	4.4	2.9	1.4	0.2
93	5.0	2.3	3.3	1.0
106	4.9	2.5	4.5	1.7

要配置估计器（例如 preprocessing.StandardScaler）以返回 DataFrame，请调用 set_output。此功能需要安装 pandas。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().set_output(transform="pandas")

scaler.fit(X_train)
X_test_scaled = scaler.transform(X_test)
X_test_scaled.head()

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
39	-0.894264	0.798301	-1.271411	-1.327605
12	-1.244466	-0.086944	-1.327407	-1.459074
48	-0.660797	1.462234	-1.271411	-1.327605
23	-0.894264	0.576989	-1.159419	-0.933197
81	-0.427329	-1.414810	-0.039497	-0.275851

set_output 可以在 fit 之后调用，以便在事后配置 transform。

scaler2 = StandardScaler()

scaler2.fit(X_train)
X_test_np = scaler2.transform(X_test)
print(f"Default output type: {type(X_test_np).__name__}")

scaler2.set_output(transform="pandas")
X_test_df = scaler2.transform(X_test)
print(f"Configured pandas output type: {type(X_test_df).__name__}")

Default output type: ndarray
Configured pandas output type: DataFrame

在 pipeline.Pipeline 中，set_output 会配置所有步骤以输出 DataFrame。

from sklearn.feature_selection import SelectPercentile
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

clf = make_pipeline(
    StandardScaler(), SelectPercentile(percentile=75), LogisticRegression()
)
clf.set_output(transform="pandas")
clf.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('selectpercentile', SelectPercentile(percentile=75)),
                ('logisticregression', LogisticRegression())])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

管道中的每个转换器都配置为返回 DataFrame。这意味着最终的逻辑回归步骤包含输入的特征名称。

clf[-1].feature_names_in_

array(['sepal length (cm)', 'petal length (cm)', 'petal width (cm)'],
      dtype=object)

注意

如果使用方法 set_params，转换器将被替换为具有默认输出格式的新转换器。

clf.set_params(standardscaler=StandardScaler())
clf.fit(X_train, y_train)
clf[-1].feature_names_in_

array(['x0', 'x2', 'x3'], dtype=object)

为了保持预期的行为，请事先在新转换器上使用 set_output

scaler = StandardScaler().set_output(transform="pandas")
clf.set_params(standardscaler=scaler)
clf.fit(X_train, y_train)
clf[-1].feature_names_in_

array(['sepal length (cm)', 'petal length (cm)', 'petal width (cm)'],
      dtype=object)

接下来，我们加载泰坦尼克号数据集以演示带有 compose.ColumnTransformer 和异构数据的 set_output。

from sklearn.datasets import fetch_openml

X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)

set_output API 可以通过使用 set_config 并将 transform_output 设置为 "pandas" 进行全局配置。

from sklearn import set_config
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

set_config(transform_output="pandas")

num_pipe = make_pipeline(SimpleImputer(), StandardScaler())
num_cols = ["age", "fare"]
ct = ColumnTransformer(
    (
        ("numerical", num_pipe, num_cols),
        (
            "categorical",
            OneHotEncoder(
                sparse_output=False, drop="if_binary", handle_unknown="ignore"
            ),
            ["embarked", "sex", "pclass"],
        ),
    ),
    verbose_feature_names_out=False,
)
clf = make_pipeline(ct, SelectPercentile(percentile=50), LogisticRegression())
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7621951219512195

通过全局配置，所有转换器都输出 DataFrame。这使得我们可以轻松地绘制带有相应特征名称的逻辑回归系数。

import pandas as pd

log_reg = clf[-1]
coef = pd.Series(log_reg.coef_.ravel(), index=log_reg.feature_names_in_)
_ = coef.sort_values().plot.barh()

为了演示下面的 config_context 功能，我们首先将 transform_output 重置为其默认值。

set_config(transform_output="default")

当使用 config_context 配置输出类型时，在调用 transform 或 fit_transform 时存在的配置才是有效的。仅在构建或拟合转换器时设置它们没有效果。

from sklearn import config_context

scaler = StandardScaler()
scaler.fit(X_train[num_cols])

StandardScaler()

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

with config_context(transform_output="pandas"):
    # the output of transform will be a Pandas DataFrame
    X_test_scaled = scaler.transform(X_test[num_cols])
X_test_scaled.head()

	age	fare
391	-0.044009	-0.125325
701	-0.880239	-0.471468
591	-1.716470	-0.124794
1196	-0.044009	-0.456257
1049	-0.671182	-0.342893

在上下文管理器之外，输出将是 NumPy 数组

X_test_scaled = scaler.transform(X_test[num_cols])
X_test_scaled[:5]

array([[-0.04400864, -0.12532481],
       [-0.88023923, -0.47146783],
       [-1.71646982, -0.12479447],
       [-0.04400864, -0.45625688],
       [-0.67118158, -0.34289311]])

脚本总运行时间： (0 minutes 0.143 seconds)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('standardscaler', ...), ('selectpercentile', ...), ...]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	score_func score_func: callable, default=f_classif 函数接受两个数组 X 和 y，并返回一对数组 (scores, pvalues) 或一个包含 scores 的单个数组。默认值为 f_classif（参见下面的“另请参阅”）。默认函数仅适用于分类任务。 .. versionadded:: 0.18	<function f_c...x7fb4c0ad7600>
	percentile percentile: int, default=10 要保留的特征百分比。	75

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' 指定惩罚项的范数： - `None`: 不添加惩罚项； - `'l2'`: 添加 L2 惩罚项，这是默认选择； - `'l1'`: 添加 L1 惩罚项； - `'elasticnet'`: L1 和 L2 惩罚项均添加。 .. warning:: 某些惩罚项可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionadded:: 0.19 使用 SAGA solver 的 l1 惩罚（允许 'multinomial' + L1） .. deprecated:: 1.8 `penalty` 在版本 1.8 中已弃用，并将在 1.10 中删除。请改用 `l1_ratio`。`l1_ratio=0` 表示 `penalty='l2'`，`l1_ratio=1` 表示 `penalty='l1'`， `l1_ratio` 设置为 0 到 1 之间的任意浮点数表示 `'penalty='elasticnet'`。	'deprecated'
	C C: float, default=1.0 正则化强度的倒数；必须是正浮点数。与支持向量机类似，较小的值指定更强的正则化。`C=np.inf` 导致未惩罚的 Logistic Regression。有关使用 L1 惩罚调整 `C` 参数效果的视觉示例，请参见： :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`。	1.0
	l1_ratio l1_ratio: float, default=0.0 Elastic-Net 混合参数，`0 <= l1_ratio <= 1`。设置 `l1_ratio=1` 给出纯 L1 惩罚，设置 `l1_ratio=0` 给出纯 L2 惩罚。 0 到 1 之间的任何值给出形式为 `l1_ratio * L1 + (1 - l1_ratio) * L2` 的 Elastic-Net 惩罚。 .. warning:: 某些 `l1_ratio` 值（即某些惩罚项）可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionchanged:: 1.8 默认值从 None 更改为 0.0。 .. deprecated:: 1.8 `None` 已弃用，并将在版本 1.10 中删除。始终使用 `l1_ratio` 来指定惩罚类型。	0.0
	dual dual: bool, default=False 对偶（受限）或原始（正则化，另请参见 :ref:`this equation `) 公式。对偶公式仅针对 liblinear solver 的 l2 惩罚实现。当 n_samples > n_features 时，فضل `dual=False`。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	fit_intercept fit_intercept: bool, default=True 指定是否应将常量（也称为偏差或截距）添加到决策函数。	True
	intercept_scaling intercept_scaling: float, default=1 仅当使用 solver `liblinear` 且 `self.fit_intercept` 设置为 `True` 时有用。在这种情况下，`x` 变为 `[x, self.intercept_scaling]`，即一个常数值等于 `intercept_scaling` 的“合成”特征被附加到实例向量。截距变为 ``intercept_scaling * synthetic_feature_weight``。 .. note:: 合成特征权重像所有其他特征一样受到 L1 或 L2 正则化。为了减少正则化对合成特征权重（以及因此对截距）的影响，必须增加 `intercept_scaling`。	1
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给出，则所有类假定权重为一。 “balanced”模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。 .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState instance, default=None 当 ``solver`` == 'sag'、'saga' 或 'liblinear' 时用于打乱数据。有关详细信息，请参见 :term:`Glossary `。	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' 优化问题中使用的算法。默认为 'lbfgs'。要选择求解器，您可能需要考虑以下方面： - 'lbfgs' 是一个很好的默认求解器，因为它适用于各种问题。 - 对于 :term:`multiclass`（多类）问题（`n_classes >= 3`），除 'liblinear' 外的所有求解器都最小化完整的多项式损失，'liblinear' 将引发错误。 - 'newton-cholesky' 是 `n_samples` >> `n_features * n_classes` 的一个很好的选择，尤其是对于带有稀有类别的独热编码分类特征。请注意，此求解器的内存使用量与 `n_features * n_classes` 呈二次关系，因为它会显式计算完整的 Hessian 矩阵。 - 对于小数据集，'liblinear' 是一个不错的选择，而 'sag' 和 'saga' 对于大型数据集更快； - 'liblinear' 默认只能处理二分类。要在多类设置中应用一对多方案，可以使用 :class:`~sklearn.multiclass.OneVsRestClassifier` 包装它。 .. warning:: 算法的选择取决于所选的惩罚（L2-惩罚为 `l1_ratio=0`，L1-惩罚为 `l1_ratio=1`，Elastic-Net 为 `0 < l1_ratio < 1`）以及（多项式）多类支持： ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 yes 'liblinear' l1_ratio=1 or l1_ratio=0 no 'newton-cg' l1_ratio=0 yes 'newton-cholesky' l1_ratio=0 yes 'sag' l1_ratio=0 yes 'saga' 0<=l1_ratio<=1 yes ================= ======================== ====================== .. note:: 'sag' 和 'saga' 的快速收敛仅在具有大致相同尺度的特征上得到保证。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器对数据进行预处理。 .. seealso:: 有关 :class:`LogisticRegression` 的更多信息，尤其是总结求解器/惩罚支持的 :ref:`Table `，请参阅 :ref:`User Guide `。 .. versionadded:: 0.17 随机平均梯度 (SAG) 下降求解器。版本 0.18 中的多项式支持。 .. versionadded:: 0.19 SAGA 求解器。 .. versionchanged:: 0.22 默认求解器从 'liblinear' 更改为 'lbfgs'（在 0.22 中）。 .. versionadded:: 1.2 newton-cholesky 求解器。版本 1.6 中的多项式支持。	'lbfgs'
	max_iter max_iter: int, default=100 solver 收敛所需的最大迭代次数。	100
	verbose verbose: int, default=0 对于 liblinear 和 lbfgs solver，将 verbose 设置为任意正数以显示详细信息。	0
	warm_start warm_start: bool, default=False 设置为 True 时，重用上次调用 fit 的解决方案作为初始化，否则，擦除上一个解决方案。对于 liblinear solver 无用。有关详细信息，请参见 :term:`the Glossary `。 .. versionadded:: 0.17 warm_start 支持 lbfgs、newton-cg、sag、saga solver。	False
	n_jobs n_jobs: int, default=None 不产生任何效果。 .. deprecated:: 1.8 `n_jobs` 在版本 1.8 中已弃用，并将在 1.10 中删除。	None

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
60	5.0	2.0	3.5	1.0
1	4.9	3.0	1.4	0.2
8	4.4	2.9	1.4	0.2
93	5.0	2.3	3.3	1.0
106	4.9	2.5	4.5	1.7

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	True

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
60	5.0	2.0	3.5	1.0
1	4.9	3.0	1.4	0.2
8	4.4	2.9	1.4	0.2
93	5.0	2.3	3.3	1.0
106	4.9	2.5	4.5	1.7

引入 set_output API#

本页

引入 `set_output` API#

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
60	5.0	2.0	3.5	1.0
1	4.9	3.0	1.4	0.2
8	4.4	2.9	1.4	0.2
93	5.0	2.3	3.3	1.0
106	4.9	2.5	4.5	1.7