介绍 set_output API#

本示例将演示 set_output API 如何配置转换器以输出 pandas DataFrame。可以通过调用 set_output 方法为每个估计器配置 set_output,或者通过设置 set_config(transform_output="pandas") 全局配置。有关详细信息,请参阅 SLEP018

首先,我们将 iris 数据集加载为 DataFrame 以演示 set_output API。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(as_frame=True, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
X_train.head()
花萼长度(厘米) 花萼宽度(厘米) 花瓣长度(厘米) 花瓣宽度(厘米)
60 5.0 2.0 3.5 1.0
1 4.9 3.0 1.4 0.2
8 4.4 2.9 1.4 0.2
93 5.0 2.3 3.3 1.0
106 4.9 2.5 4.5 1.7


要配置估计器(例如 preprocessing.StandardScaler)以返回 DataFrame,请调用 set_output。此功能需要安装 pandas。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().set_output(transform="pandas")

scaler.fit(X_train)
X_test_scaled = scaler.transform(X_test)
X_test_scaled.head()
花萼长度(厘米) 花萼宽度(厘米) 花瓣长度(厘米) 花瓣宽度(厘米)
39 -0.894264 0.798301 -1.271411 -1.327605
12 -1.244466 -0.086944 -1.327407 -1.459074
48 -0.660797 1.462234 -1.271411 -1.327605
23 -0.894264 0.576989 -1.159419 -0.933197
81 -0.427329 -1.414810 -0.039497 -0.275851


set_output 可以 fit 后调用,以配置 transform

scaler2 = StandardScaler()

scaler2.fit(X_train)
X_test_np = scaler2.transform(X_test)
print(f"Default output type: {type(X_test_np).__name__}")

scaler2.set_output(transform="pandas")
X_test_df = scaler2.transform(X_test)
print(f"Configured pandas output type: {type(X_test_df).__name__}")
Default output type: ndarray
Configured pandas output type: DataFrame

pipeline.Pipeline 中,set_output 会配置所有步骤以输出 DataFrame。

from sklearn.feature_selection import SelectPercentile
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

clf = make_pipeline(
    StandardScaler(), SelectPercentile(percentile=75), LogisticRegression()
)
clf.set_output(transform="pandas")
clf.fit(X_train, y_train)
Pipeline(steps=[('standardscaler', StandardScaler()),
                ('selectpercentile', SelectPercentile(percentile=75)),
                ('logisticregression', LogisticRegression())])
在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式或信任笔记本。
在 GitHub 上,HTML 表示形式无法呈现,请尝试使用 nbviewer.org 加载此页面。


管道中的每个转换器都配置为返回 DataFrame。这意味着最终的逻辑回归步骤包含输入的特征名称。

clf[-1].feature_names_in_
array(['sepal length (cm)', 'petal length (cm)', 'petal width (cm)'],
      dtype=object)

注意

如果使用 set_params 方法,转换器将被具有默认输出格式的新转换器替换。

clf.set_params(standardscaler=StandardScaler())
clf.fit(X_train, y_train)
clf[-1].feature_names_in_
array(['x0', 'x2', 'x3'], dtype=object)

要保持预期行为,请在之前对新转换器使用 set_output

scaler = StandardScaler().set_output(transform="pandas")
clf.set_params(standardscaler=scaler)
clf.fit(X_train, y_train)
clf[-1].feature_names_in_
array(['sepal length (cm)', 'petal length (cm)', 'petal width (cm)'],
      dtype=object)

接下来,我们将加载泰坦尼克号数据集以演示 set_outputcompose.ColumnTransformer 和异构数据一起使用。

from sklearn.datasets import fetch_openml

X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)

set_output API 可以通过使用 set_config 并将 transform_output 设置为 "pandas" 来全局配置。

from sklearn import set_config
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

set_config(transform_output="pandas")

num_pipe = make_pipeline(SimpleImputer(), StandardScaler())
num_cols = ["age", "fare"]
ct = ColumnTransformer(
    (
        ("numerical", num_pipe, num_cols),
        (
            "categorical",
            OneHotEncoder(
                sparse_output=False, drop="if_binary", handle_unknown="ignore"
            ),
            ["embarked", "sex", "pclass"],
        ),
    ),
    verbose_feature_names_out=False,
)
clf = make_pipeline(ct, SelectPercentile(percentile=50), LogisticRegression())
clf.fit(X_train, y_train)
clf.score(X_test, y_test)
0.7621951219512195

使用全局配置,所有转换器都输出 DataFrame。这使我们能够轻松地使用相应的特征名称绘制逻辑回归系数。

import pandas as pd

log_reg = clf[-1]
coef = pd.Series(log_reg.coef_.ravel(), index=log_reg.feature_names_in_)
_ = coef.sort_values().plot.barh()
plot set output

为了演示下面的 config_context 功能,让我们首先将 transform_output 重置为其默认值。

set_config(transform_output="default")

当使用 config_context 配置输出类型时,调用 transformfit_transform 时的配置才是有效的。仅在构建或拟合转换器时设置这些配置无效。

from sklearn import config_context

scaler = StandardScaler()
scaler.fit(X_train[num_cols])
StandardScaler()
在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式或信任笔记本。
在 GitHub 上,HTML 表示形式无法呈现,请尝试使用 nbviewer.org 加载此页面。


with config_context(transform_output="pandas"):
    # the output of transform will be a Pandas DataFrame
    X_test_scaled = scaler.transform(X_test[num_cols])
X_test_scaled.head()
年龄 票价
1088 0.151101 -0.479229
1001 NaN -0.188153
660 -0.393297 -0.263234
657 -1.975455 -0.263234
285 2.532843 3.546068


在上下文管理器之外,输出将是 NumPy 数组

X_test_scaled = scaler.transform(X_test[num_cols])
X_test_scaled[:5]
array([[ 0.1511007 , -0.47922861],
       [        nan, -0.18815268],
       [-0.39329747, -0.26323428],
       [-1.97545464, -0.26323428],
       [ 2.53284267,  3.54606834]])

脚本总运行时间:(0 分钟 0.162 秒)

相关示例

scikit-learn 1.2 版本亮点

scikit-learn 1.2 版本亮点

显示管道

显示管道

具有混合类型的列转换器

具有混合类型的列转换器

scikit-learn 1.4 版本亮点

scikit-learn 1.4 版本亮点

由 Sphinx-Gallery 生成的图库