使用 Pipeline 和 GridSearchCV 选择降维方法#

此示例构建了一个管道，用于执行降维，然后使用支持向量分类器进行预测。它演示了如何使用 GridSearchCV 和 Pipeline 在单个 CV 运行中优化不同类型的估计器——在网格搜索期间比较了无监督的 PCA 和 NMF 降维方法与单变量特征选择方法。

此外，可以使用 memory 参数实例化 Pipeline，以记忆管道中的转换器，避免一遍又一遍地拟合相同的转换器。

请注意，当转换器的拟合成本很高时，使用 memory 来启用缓存会变得很有用。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

对 `Pipeline` 和 `GridSearchCV` 的说明#

import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import load_digits
from sklearn.decomposition import NMF, PCA
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import LinearSVC

X, y = load_digits(return_X_y=True)

pipe = Pipeline(
    [
        ("scaling", MinMaxScaler()),
        # the reduce_dim stage is populated by the param_grid
        ("reduce_dim", "passthrough"),
        ("classify", LinearSVC(dual=False, max_iter=10000)),
    ]
)

N_FEATURES_OPTIONS = [2, 4, 8]
C_OPTIONS = [1, 10, 100, 1000]
param_grid = [
    {
        "reduce_dim": [PCA(iterated_power=7), NMF(max_iter=1_000)],
        "reduce_dim__n_components": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
    {
        "reduce_dim": [SelectKBest(mutual_info_classif)],
        "reduce_dim__k": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
]
reducer_labels = ["PCA", "NMF", "KBest(mutual_info_classif)"]

grid = GridSearchCV(pipe, n_jobs=1, param_grid=param_grid)
grid.fit(X, y)

GridSearchCV(estimator=Pipeline(steps=[('scaling', MinMaxScaler()),
                                       ('reduce_dim', 'passthrough'),
                                       ('classify',
                                        LinearSVC(dual=False,
                                                  max_iter=10000))]),
             n_jobs=1,
             param_grid=[{'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [PCA(iterated_power=7),
                                         NMF(max_iter=1000)],
                          'reduce_dim__n_components': [2, 4, 8]},
                         {'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [SelectKBest(score_func=<function mutual_info_classif at 0x7fb4c0ad4f40>)],
                          'reduce_dim__k': [2, 4, 8]}])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

import pandas as pd

mean_scores = np.array(grid.cv_results_["mean_test_score"])
# scores are in the order of param_grid iteration, which is alphabetical
mean_scores = mean_scores.reshape(len(C_OPTIONS), -1, len(N_FEATURES_OPTIONS))
# select score for best C
mean_scores = mean_scores.max(axis=0)
# create a dataframe to ease plotting
mean_scores = pd.DataFrame(
    mean_scores.T, index=N_FEATURES_OPTIONS, columns=reducer_labels
)

ax = mean_scores.plot.bar()
ax.set_title("Comparing feature reduction techniques")
ax.set_xlabel("Reduced number of features")
ax.set_ylabel("Digit classification accuracy")
ax.set_ylim((0, 1))
ax.legend(loc="upper left")

plt.show()

在 `Pipeline` 中缓存转换器#

有时值得存储特定转换器的状态，因为它可以再次使用。在 GridSearchCV 中使用管道会触发这种情况。因此，我们使用参数 memory 来启用缓存。

警告

请注意，此示例只是一个说明，因为对于这个特定情况，拟合 PCA 不一定比加载缓存慢。因此，当转换器的拟合成本很高时，才使用 memory 构造函数参数。

from shutil import rmtree

from joblib import Memory

# Create a temporary folder to store the transformers of the pipeline
location = "cachedir"
memory = Memory(location=location, verbose=10)
cached_pipe = Pipeline(
    [("reduce_dim", PCA()), ("classify", LinearSVC(dual=False, max_iter=10000))],
    memory=memory,
)

# This time, a cached pipeline will be used within the grid search


# Delete the temporary cache before exiting
memory.clear(warn=False)
rmtree(location)

PCA 拟合仅在评估 LinearSVC 分类器的 C 参数的第一个配置时计算。其他 C 配置将触发加载缓存的 PCA 估计器数据，从而节省处理时间。因此，当拟合转换器成本很高时，使用 memory 缓存管道非常有益。

脚本总运行时间： (0 minutes 42.909 seconds)

	estimator estimator: estimator object 假定它实现了 scikit-learn estimator 接口。要么 estimator 需要提供一个 ``score`` 函数，要么必须传入 ``scoring``。	Pipeline(step...iter=10000))])
	param_grid param_grid: dict or list of dictionaries 字典的键为参数名称（`str`），值为要尝试的参数设置列表，或者此类字典的列表，在这种情况下，将探索列表中每个字典所涵盖的网格。这使得可以搜索任何参数设置序列。	[{'classify__C': [1, 10, ...], 'reduce_dim': [PCA(iterated_power=7), NMF(max_iter=1000)], 'reduce_dim__n_components': [2, 4, ...]}, {'classify__C': [1, 10, ...], 'reduce_dim': [SelectKBest(s...7fb4c0ad4f40>)], 'reduce_dim__k': [2, 4, ...]}]
	scoring scoring: str, callable, list, tuple or dict, default=None 用于评估交叉验证模型在测试集上性能的策略。如果 `scoring` 代表单个分数，可以使用： - 单个字符串（参见 :ref:`scoring_string_names`）； - 返回单个值的可调用对象（参见 :ref:`scoring_callable`）； - `None`，使用 `estimator` 的 :ref:`默认评估标准 `。如果 `scoring` 代表多个分数，可以使用： - 唯一字符串的列表或元组； - 返回字典的可调用对象，其中键是度量名称，值是度量分数； - 键为度量名称，值为可调用对象的字典。有关示例，请参见 :ref:`multimetric_grid_search`。	None
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。 ``-1`` 表示使用所有处理器。有关详细信息，请参见 :term:`Glossary `。 .. versionchanged:: v0.20 `n_jobs` 默认值从 1 更改为 None	1
	refit refit: bool, str, or callable, default=True 使用在整个数据集上找到的最佳参数重新拟合估计器。对于多重指标评估，这需要是一个 `str`，表示将用于在最后找到最佳参数以重新拟合估计器的评分器。当除了最大分数之外还有其他考虑因素来选择最佳估计器时，可以将 ``refit`` 设置为一个函数，该函数根据 ``cv_results_`` 返回选定的 ``best_index_``。在这种情况下，``best_estimator_`` 和 ``best_params_`` 将根据返回的 ``best_index_`` 进行设置，而 ``best_score_`` 属性将不可用。重新拟合的估计器在 ``best_estimator_`` 属性中可用，并允许直接在此 ``GridSearchCV`` 实例上使用 ``predict``。同样对于多重指标评估，只有在设置了 ``refit`` 且所有这些属性都将根据此特定评分器确定时，属性 ``best_index_``、``best_score_`` 和 ``best_params_`` 才会可用。请参阅 ``scoring`` 参数以了解有关多重指标评估的更多信息。请参阅 :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py`，了解如何使用可调用对象通过 `refit` 设计自定义选择策略。请参阅 :ref:`this example `，了解如何使用 ``refit=callable`` 来平衡模型复杂度和交叉验证分数。 .. versionchanged:: 0.20 添加了对可调用对象的支持。	True
	cv cv: int, cross-validation generator or an iterable, default=None 确定交叉验证拆分策略。 cv 的可能输入包括： - None，使用默认的 5 折交叉验证， - 整数，指定 `(Stratified)KFold` 中的折数， - :term:`CV splitter`， - 可迭代对象，生成 (train, test) 拆分作为索引数组。对于整数/None 输入，如果 estimator 是一个分类器且 ``y`` 是二进制或多类，则使用 :class:`StratifiedKFold`。在所有其他情况下，使用 :class:`KFold`。实例化这些 splitter 时 `shuffle=False`，因此拆分在不同调用中将是相同的。有关此处可使用的各种交叉验证策略，请参见 :ref:`User Guide `。 .. versionchanged:: 0.22 None 时 ``cv`` 默认值从 3 折更改为 5 折。	None
	verbose verbose: int 控制详细程度：值越高，消息越多。 - >1 : 显示每个折叠和参数候选项的计算时间； - >2 : 也显示分数； - >3 : 显示折叠和候选项参数索引以及计算的开始时间。	0
	pre_dispatch pre_dispatch: int, or str, default='2n_jobs' 控制并行执行期间调度的作业数。减少此数字有助于避免在调度作业数多于 CPU 可处理数时内存消耗激增。此参数可以是： - None，在这种情况下，所有作业会立即创建和生成。用于轻量级和快速运行的作业，以避免因按需生成作业而导致的延迟。 - 一个 int，给出生成的总作业的确切数量。 - 一个 str，给出作为 n_jobs 函数的表达式，例如 '2n_jobs'。	'2*n_jobs'
	error_score error_score: 'raise' or numeric, default=np.nan 如果 estimator 拟合发生错误，分配给分数的值。如果设置为 'raise'，则会引发错误。如果给定数字值，则会引发 FitFailedWarning。此参数不影响 refit 步骤，refit 步骤始终会引发错误。	nan
	return_train_score return_train_score: bool, default=False 如果为 ``False``，则 ``cv_results_`` 属性将不包括训练分数。计算训练分数用于深入了解不同参数设置如何影响过拟合/欠拟合的权衡。但是，计算训练集上的分数可能会耗费计算资源，并且对于选择产生最佳泛化性能的参数不是严格必需的。 .. versionadded:: 0.19 .. versionchanged:: 0.21 默认值从 ``True`` 更改为 ``False``	False

	feature_range feature_range: tuple (min, max), default=(0, 1) 转换后数据的期望范围。	(0, ...)
	copy copy: bool, default=True 设置为 False 可执行就地行归一化并避免复制（如果输入已经是 numpy 数组）。	True
	clip clip: bool, default=False 设置为 True 可将保留数据的转换值裁剪到提供的 `feature_range`。由于此参数将裁剪值，`inverse_transform` 可能无法恢复原始数据。 .. note:: 设置 `clip=True` 并不能防止特征漂移（训练数据和测试数据之间的分布偏移）。转换后的值被裁剪到 `feature_range`，这有助于避免对超出范围输入敏感的模型（例如线性模型）出现意外行为。请谨慎使用，因为裁剪可能会扭曲测试数据的分布。 .. versionadded:: 0.24	False

	n_components n_components: int, float or 'mle', default=None 要保留的组件数。如果未设置 n_components，则保留所有组件:: n_components == min(n_samples, n_features) 如果 ``n_components == 'mle'`` 且 ``svd_solver == 'full'``，则使用 Minka 的 MLE 来猜测维度。使用 ``n_components == 'mle'`` 会将 ``svd_solver == 'auto'`` 解释为 ``svd_solver == 'full'``。如果 ``0 < n_components < 1`` 且 ``svd_solver == 'full'``，则选择组件数，使得需要解释的方差量大于由 n_components 指定的百分比。如果 ``svd_solver == 'arpack'``，则组件数必须严格小于 n_features 和 n_samples 中的最小值。因此，None 情况会导致:: n_components == min(n_samples, n_features) - 1	8
	copy copy: bool, default=True 如果为 False，则传递给 fit 的数据将被覆盖，并且运行 fit(X).transform(X) 将不会产生预期的结果，请改用 fit_transform(X)。	True
	whiten whiten: bool, default=False 如果为 True（默认为 False），则将 `components_` 向量乘以 n_samples 的平方根，然后除以奇异值，以确保不相关的输出具有单位分量方差。白化会从转换后的信号中删除一些信息（组件的相对方差尺度），但有时可以通过使下游 estimator 的数据尊重一些硬性假设来提高预测准确性。	False
	svd_solver svd_solver: {'auto', 'full', 'covariance_eigh', 'arpack', 'randomized'}, default='auto' "auto" : 求解器是根据 `X.shape` 和 `n_components` 通过默认的 'auto' 策略选择的：如果输入数据具有少于 1000 个特征且样本数多于特征数的 10 倍，则使用 "covariance_eigh" 求解器。否则，如果输入数据大于 500x500 且要提取的组件数低于数据最小维度的 80%，则选择更高效的 "randomized" 方法。否则，计算精确的 "full" SVD 并在之后可选地进行截断。 "full" : 运行精确的完整 SVD，通过 `scipy.linalg.svd` 调用标准 LAPACK 求解器，并通过后处理选择组件。 "covariance_eigh" : 预先计算协方差矩阵（在中心化数据上），在协方差矩阵上运行经典特征值分解，通常使用 LAPACK，并通过后处理选择组件。此求解器对于 n_samples >> n_features 和小的 n_features 非常高效。然而，对于大的 n_features 则无法处理（需要大量内存来实例化协方差矩阵）。另请注意，与 "full" 求解器相比，此求解器有效地使条件数加倍，因此数值稳定性较差（例如，对于具有大范围奇异值的输入数据）。 "arpack" : 运行 SVD，截断为 `n_components`，通过 `scipy.sparse.linalg.svds` 调用 ARPACK 求解器。它严格要求 `0 < n_components < min(X.shape)` "randomized" : 通过 Halko 等人的方法运行随机 SVD。 .. versionadded:: 0.18.0 .. versionchanged:: 1.5 添加了 'covariance_eigh' 求解器。	'auto'
	tol tol: float, default=0.0 svd_solver == 'arpack' 计算的奇异值容差。必须在 [0.0, infinity) 范围内。 .. versionadded:: 0.18.0	0.0
	iterated_power iterated_power: int or 'auto', default='auto' svd_solver == 'randomized' 计算的幂方法迭代次数。必须在 [0, infinity) 范围内。 .. versionadded:: 0.18.0	7
	n_oversamples n_oversamples: int, default=10 此参数仅在 `svd_solver="randomized"` 时相关。它对应于对 `X` 的范围进行采样的附加随机向量数，以确保适当的条件。有关详细信息，请参见 :func:`~sklearn.utils.extmath.randomized_svd`。 .. versionadded:: 1.1	10
	power_iteration_normalizer power_iteration_normalizer: {'auto', 'QR', 'LU', 'none'}, default='auto' 随机 SVD solver 的幂迭代归一化器。 ARPACK 不使用。有关详细信息，请参见 :func:`~sklearn.utils.extmath.randomized_svd`。 .. versionadded:: 1.1	'auto'
	random_state random_state: int, RandomState instance or None, default=None 当使用 'arpack' 或 'randomized' solver 时使用。传入 int 值以在多次函数调用中获得可重现的结果。有关详细信息，请参见 :term:`Glossary `。 .. versionadded:: 0.18.0	None

	penalty penalty: {'l1', 'l2'}, default='l2' 指定惩罚中使用的范数。'l2' 惩罚是 SVC 中使用的标准。'l1' 会导致 ``coef_`` 向量稀疏。	'l2'
	loss loss: {'hinge', 'squared_hinge'}, default='squared_hinge' 指定损失函数。'hinge' 是标准 SVM 损失（例如由 SVC 类使用），而 'squared_hinge' 是 hinge 损失的平方。不支持 ``penalty='l1'`` 和 ``loss='hinge'`` 的组合。	'squared_hinge'
	dual dual: "auto" or bool, default="auto" 选择算法来解决对偶或原始优化问题。当 n_samples > n_features 时，فضل dual=False。`dual="auto"` 将根据 `n_samples`、`n_features`、`loss`、`multi_class` 和 `penalty` 的值自动选择参数值。如果 `n_samples` < `n_features` 并且优化器支持所选的 `loss`、`multi_class` 和 `penalty`，则 dual 将设置为 True，否则将设置为 False。 .. versionchanged:: 1.3 在版本 1.3 中添加了 `"auto"` 选项，并将在版本 1.5 中成为默认值。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	C C: float, default=1.0 正则化参数。正则化的强度与 C 成反比。必须严格为正。有关缩放正则化参数 C 效果的直观可视化，请参阅 :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`。	1
	multi_class multi_class: {'ovr', 'crammer_singer'}, default='ovr' 如果 `y` 包含多个类别，则确定多类别策略。 ``"ovr"`` 训练 n_classes 个一对多分类器，而 ``"crammer_singer"`` 优化所有类别的联合目标函数。虽然 `crammer_singer` 从理论角度来看很有趣，因为它是一致的，但在实践中很少使用，因为它很少能带来更高的准确性且计算成本更高。如果选择了 ``"crammer_singer"``，则将忽略 loss、penalty 和 dual 选项。	'ovr'
	fit_intercept fit_intercept: bool, default=True 是否拟合截距。如果设置为 True，则特征向量扩展为包含一个截距项：`[x_1, ..., x_n, 1]`，其中 1 对应于截距。如果设置为 False，则计算中不使用截距（即数据预期已中心化）。	True
	intercept_scaling intercept_scaling: float, default=1.0 当 `fit_intercept` 为 True 时，实例向量 x 变为 ``[x_1, ..., x_n, intercept_scaling]``，即一个常量值等于 `intercept_scaling` 的“合成”特征被附加到实例向量中。截距变为 intercept_scaling * 合成特征权重。请注意，liblinear 内部惩罚截距，将其视为特征向量中的任何其他项。为了减少正则化对截距的影响，可以将 `intercept_scaling` 参数设置为大于 1 的值；`intercept_scaling` 的值越高，正则化对其的影响越低。然后，权重变为 `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`，其中 `w_x_1, ..., w_x_n` 表示特征权重，截距权重按 `intercept_scaling` 缩放。这种缩放允许截距项具有与P_other features 不同的正则化行为。	1
	class_weight class_weight: dict or 'balanced', default=None 将类别 i 的参数 C 设置为 ``class_weight[i]C``，适用于 SVC。如果未给定，则假定所有类别的权重均为 1。 "balanced" 模式使用 y 的值自动调整权重，使其与输入数据中类别的频率成反比，即 ``n_samples / (n_classes np.bincount(y))``。	None
	verbose verbose: int, default=0 启用详细输出。请注意，此设置利用 liblinear 中的按进程运行时设置，如果启用，在多线程环境中可能无法正常工作。	0
	random_state random_state: int, RandomState instance or None, default=None 控制伪随机数生成，用于对偶坐标下降（如果 ``dual=True``）的数据洗牌。当 ``dual=False`` 时，:class:`LinearSVC` 的底层实现不是随机的，``random_state`` 对结果没有影响。传递一个 int 可在多次函数调用中获得可重现的输出。请参阅 :term:`Glossary `。	None
	max_iter max_iter: int, default=1000 要运行的最大迭代次数。	10000

使用 Pipeline 和 GridSearchCV 选择降维方法#

对 Pipeline 和 GridSearchCV 的说明#

在 Pipeline 中缓存转换器#

本页

对 `Pipeline` 和 `GridSearchCV` 的说明#

在 `Pipeline` 中缓存转换器#