注意
转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。
混合类型数据的列转换器#
此示例演示如何使用 ColumnTransformer 对特征的不同子集应用不同的预处理和特征提取管道。这对于包含异构数据类型的数据集特别方便,因为我们可能需要对数字特征进行标准化缩放,并对分类特征进行独热编码。
在此示例中,数字数据在均值插值后进行标准缩放。分类数据通过 OneHotEncoder 进行独热编码,后者为缺失值创建一个新类别。我们通过使用卡方检验选择类别来进一步降低维度。
此外,我们展示了两种将列分派给特定预处理器的不同方式:按列名和按列数据类型。
最后,预处理管道与一个简单的分类模型一起集成到使用 Pipeline 的完整预测管道中。
# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.datasets import fetch_openml
from sklearn.feature_selection import SelectPercentile, chi2
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
np.random.seed(0)
从 https://www.openml.org/d/40945 加载数据
X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
# Alternatively X and y can be obtained directly from the frame attribute:
# X = titanic.frame.drop('survived', axis=1)
# y = titanic.frame['survived']
使用 ColumnTransformer 按名称选择列
我们将使用以下特征来训练分类器
数字特征
age: 浮点数;fare: 浮点数。
分类特征
embarked: 编码为字符串的类别{'C', 'S', 'Q'};sex: 编码为字符串的类别{'female', 'male'};pclass: 有序整数{1, 2, 3}。
我们为数字和分类数据创建预处理管道。请注意,pclass 既可以被视为分类特征,也可以被视为数字特征。
numeric_features = ["age", "fare"]
numeric_transformer = Pipeline(
steps=[("imputer", SimpleImputer(strategy="median")), ("scaler", StandardScaler())]
)
categorical_features = ["embarked", "sex", "pclass"]
categorical_transformer = Pipeline(
steps=[
("encoder", OneHotEncoder(handle_unknown="ignore")),
("selector", SelectPercentile(chi2, percentile=50)),
]
)
preprocessor = ColumnTransformer(
transformers=[
("num", numeric_transformer, numeric_features),
("cat", categorical_transformer, categorical_features),
]
)
将分类器附加到预处理管道。现在我们有了一个完整的预测管道。
clf = Pipeline(
steps=[("preprocessor", preprocessor), ("classifier", LogisticRegression())]
)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
clf.fit(X_train, y_train)
print("model score: %.3f" % clf.score(X_test, y_test))
model score: 0.798
Pipeline 的 HTML 表示(显示图表)
当 Pipeline 在 jupyter notebook 中打印时,会显示估计器的 HTML 表示
clf
Pipeline(steps=[('preprocessor',
ColumnTransformer(transformers=[('num',
Pipeline(steps=[('imputer',
SimpleImputer(strategy='median')),
('scaler',
StandardScaler())]),
['age', 'fare']),
('cat',
Pipeline(steps=[('encoder',
OneHotEncoder(handle_unknown='ignore')),
('selector',
SelectPercentile(percentile=50,
score_func=<function chi2 at 0x7fb4c0ad77e0>))]),
['embarked', 'sex',
'pclass'])])),
('classifier', LogisticRegression())])在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式或信任 notebook。在 GitHub 上,HTML 表示形式无法渲染,请尝试使用 nbviewer.org 加载此页面。
参数
参数
['age', 'fare']
参数
参数
['embarked', 'sex', 'pclass']
参数
参数
使用 ColumnTransformer 按数据类型选择列
处理干净的数据集时,预处理可以自动进行,方法是根据列的数据类型来决定是将列视为数字特征还是分类特征。 sklearn.compose.make_column_selector 提供了这种可能性。首先,我们只选择一个列子集来简化示例。
subset_feature = ["embarked", "sex", "pclass", "age", "fare"]
X_train, X_test = X_train[subset_feature], X_test[subset_feature]
然后,我们内省每列数据类型的信息。
X_train.info()
<class 'pandas.core.frame.DataFrame'>
Index: 1047 entries, 1118 to 684
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 embarked 1045 non-null category
1 sex 1047 non-null category
2 pclass 1047 non-null int64
3 age 841 non-null float64
4 fare 1046 non-null float64
dtypes: category(2), float64(2), int64(1)
memory usage: 35.0 KB
我们可以观察到,使用 fetch_openml 加载数据时,embarked 和 sex 列被标记为 category 列。因此,我们可以使用此信息将分类列分派给 categorical_transformer,并将剩余列分派给 numerical_transformer。
注意
在实践中,您必须自己处理列数据类型。如果您希望某些列被视为 category,则必须将它们转换为分类列。如果您使用 pandas,可以参考其关于 Categorical data 的文档。
from sklearn.compose import make_column_selector as selector
preprocessor = ColumnTransformer(
transformers=[
("num", numeric_transformer, selector(dtype_exclude="category")),
("cat", categorical_transformer, selector(dtype_include="category")),
]
)
clf = Pipeline(
steps=[("preprocessor", preprocessor), ("classifier", LogisticRegression())]
)
clf.fit(X_train, y_train)
print("model score: %.3f" % clf.score(X_test, y_test))
clf
model score: 0.798
Pipeline(steps=[('preprocessor',
ColumnTransformer(transformers=[('num',
Pipeline(steps=[('imputer',
SimpleImputer(strategy='median')),
('scaler',
StandardScaler())]),
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a2a15e50>),
('cat',
Pipeline(steps=[('encoder',
OneHotEncoder(handle_unknown='ignore')),
('selector',
SelectPercentile(percentile=50,
score_func=<function chi2 at 0x7fb4c0ad77e0>))]),
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a19dfd50>)])),
('classifier', LogisticRegression())])在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式或信任 notebook。在 GitHub 上,HTML 表示形式无法渲染,请尝试使用 nbviewer.org 加载此页面。
参数
参数
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a2a15e50>
参数
参数
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a19dfd50>
参数
参数
结果得分与上一个管道的得分不完全相同,因为基于 dtype 的选择器将 pclass 列视为数字特征,而不是像以前那样视为分类特征
selector(dtype_exclude="category")(X_train)
['pclass', 'age', 'fare']
selector(dtype_include="category")(X_train)
['embarked', 'sex']
在网格搜索中使用预测管道
还可以在 ColumnTransformer 对象中定义的各种预处理步骤上执行网格搜索,以及作为 Pipeline 的一部分的分类器超参数。我们将使用 RandomizedSearchCV 搜索数字预处理的插值策略和逻辑回归的正则化参数。此超参数搜索会随机选择由 n_iter 配置的固定数量的参数设置。或者,可以使用 GridSearchCV,但会评估参数空间的笛卡尔积。
param_grid = {
"preprocessor__num__imputer__strategy": ["mean", "median"],
"preprocessor__cat__selector__percentile": [10, 30, 50, 70],
"classifier__C": [0.1, 1.0, 10, 100],
}
search_cv = RandomizedSearchCV(clf, param_grid, n_iter=10, random_state=0)
search_cv
RandomizedSearchCV(estimator=Pipeline(steps=[('preprocessor',
ColumnTransformer(transformers=[('num',
Pipeline(steps=[('imputer',
SimpleImputer(strategy='median')),
('scaler',
StandardScaler())]),
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a2a15e50>),
('cat',
Pipeline(steps=[('encoder',
OneHotEncoder(handle_unknown='ignore')),
('s...
score_func=<function chi2 at 0x7fb4c0ad77e0>))]),
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a19dfd50>)])),
('classifier',
LogisticRegression())]),
param_distributions={'classifier__C': [0.1, 1.0, 10, 100],
'preprocessor__cat__selector__percentile': [10,
30,
50,
70],
'preprocessor__num__imputer__strategy': ['mean',
'median']},
random_state=0)在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示形式或信任 notebook。在 GitHub 上,HTML 表示形式无法渲染,请尝试使用 nbviewer.org 加载此页面。
参数
参数
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a2a15e50>
参数
参数
<sklearn.compose._column_transformer.make_column_selector object at 0x7fb4a19dfd50>
参数
参数
调用 'fit' 会触发交叉验证搜索最佳超参数组合
search_cv.fit(X_train, y_train)
print("Best params:")
print(search_cv.best_params_)
Best params:
{'preprocessor__num__imputer__strategy': 'mean', 'preprocessor__cat__selector__percentile': 30, 'classifier__C': 100}
这些参数获得的内部交叉验证分数是
print(f"Internal CV score: {search_cv.best_score_:.3f}")
Internal CV score: 0.786
我们还可以内省以 pandas 数据帧形式显示的顶级网格搜索结果
import pandas as pd
cv_results = pd.DataFrame(search_cv.cv_results_)
cv_results = cv_results.sort_values("mean_test_score", ascending=False)
cv_results[
[
"mean_test_score",
"std_test_score",
"param_preprocessor__num__imputer__strategy",
"param_preprocessor__cat__selector__percentile",
"param_classifier__C",
]
].head(5)
| mean_test_score | std_test_score | param_preprocessor__num__imputer__strategy | param_preprocessor__cat__selector__percentile | param_classifier__C | |
|---|---|---|---|---|---|
| 7 | 0.786015 | 0.031020 | mean | 30 | 100.0 |
| 0 | 0.785063 | 0.030498 | median | 30 | 1.0 |
| 4 | 0.785063 | 0.030498 | mean | 10 | 10.0 |
| 2 | 0.785063 | 0.030498 | mean | 30 | 1.0 |
| 3 | 0.783149 | 0.030462 | mean | 30 | 0.1 |
最佳超参数已用于在完整训练集上重新拟合最终模型。我们可以在未用于超参数调整的保留测试数据上评估该最终模型。
print(
"accuracy of the best model from randomized search: "
f"{search_cv.score(X_test, y_test):.3f}"
)
accuracy of the best model from randomized search: 0.798
脚本总运行时间: (0 minutes 1.080 seconds)
相关示例