注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

显示管道#

在 Jupyter Notebook 中显示管道的默认配置是 'diagram'，其中 set_config(display='diagram')。要禁用 HTML 表示，请使用 set_config(display='text')。

要查看管道可视化的更多详细步骤，请单击管道中的步骤。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

显示包含预处理步骤和分类器的管道#

本节构建一个包含预处理步骤 StandardScaler 和分类器 LogisticRegression 的 Pipeline，并显示其可视化表示。

from sklearn import set_config
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

steps = [
    ("preprocessing", StandardScaler()),
    ("classifier", LogisticRegression()),
]
pipe = Pipeline(steps)

要可视化图表，默认设置为 display='diagram'。

set_config(display="diagram")
pipe  # click on the diagram below to see the details of each step

Pipeline(steps=[('preprocessing', StandardScaler()),
                ('classifier', LogisticRegression())])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

要查看文本管道，请更改为 display='text'。

set_config(display="text")
pipe

Pipeline(steps=[('preprocessing', StandardScaler()),
                ('classifier', LogisticRegression())])

恢复默认显示

set_config(display="diagram")

显示链接多个预处理步骤和分类器的管道#

本节构建一个包含多个预处理步骤（PolynomialFeatures 和 StandardScaler）和一个分类器步骤（LogisticRegression）的 Pipeline，并显示其可视化表示。

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures, StandardScaler

steps = [
    ("standard_scaler", StandardScaler()),
    ("polynomial", PolynomialFeatures(degree=3)),
    ("classifier", LogisticRegression(C=2.0)),
]
pipe = Pipeline(steps)
pipe  # click on the diagram below to see the details of each step

Pipeline(steps=[('standard_scaler', StandardScaler()),
                ('polynomial', PolynomialFeatures(degree=3)),
                ('classifier', LogisticRegression(C=2.0))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

显示管道、降维和分类器#

本节构建一个包含降维步骤 PCA 和分类器 SVC 的 Pipeline，并显示其可视化表示。

from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

steps = [("reduce_dim", PCA(n_components=4)), ("classifier", SVC(kernel="linear"))]
pipe = Pipeline(steps)
pipe  # click on the diagram below to see the details of each step

Pipeline(steps=[('reduce_dim', PCA(n_components=4)),
                ('classifier', SVC(kernel='linear'))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

显示链接 Column Transformer 的复杂管道#

本节构建一个包含 ColumnTransformer 和分类器 LogisticRegression 的复杂 Pipeline，并显示其可视化表示。

import numpy as np

from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

numeric_preprocessor = Pipeline(
    steps=[
        ("imputation_mean", SimpleImputer(missing_values=np.nan, strategy="mean")),
        ("scaler", StandardScaler()),
    ]
)

categorical_preprocessor = Pipeline(
    steps=[
        (
            "imputation_constant",
            SimpleImputer(fill_value="missing", strategy="constant"),
        ),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

preprocessor = ColumnTransformer(
    [
        ("categorical", categorical_preprocessor, ["state", "gender"]),
        ("numerical", numeric_preprocessor, ["age", "weight"]),
    ]
)

pipe = make_pipeline(preprocessor, LogisticRegression(max_iter=500))
pipe  # click on the diagram below to see the details of each step

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('categorical',
                                                  Pipeline(steps=[('imputation_constant',
                                                                   SimpleImputer(fill_value='missing',
                                                                                 strategy='constant')),
                                                                  ('onehot',
                                                                   OneHotEncoder(handle_unknown='ignore'))]),
                                                  ['state', 'gender']),
                                                 ('numerical',
                                                  Pipeline(steps=[('imputation_mean',
                                                                   SimpleImputer()),
                                                                  ('scaler',
                                                                   StandardScaler())]),
                                                  ['age', 'weight'])])),
                ('logisticregression', LogisticRegression(max_iter=500))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('preprocessing', ...), ('classifier', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	True

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' 指定惩罚项的范数： - `None`: 不添加惩罚项； - `'l2'`: 添加 L2 惩罚项，这是默认选择； - `'l1'`: 添加 L1 惩罚项； - `'elasticnet'`: L1 和 L2 惩罚项均添加。 .. warning:: 某些惩罚项可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionadded:: 0.19 使用 SAGA solver 的 l1 惩罚（允许 'multinomial' + L1） .. deprecated:: 1.8 `penalty` 在版本 1.8 中已弃用，并将在 1.10 中删除。请改用 `l1_ratio`。`l1_ratio=0` 表示 `penalty='l2'`，`l1_ratio=1` 表示 `penalty='l1'`， `l1_ratio` 设置为 0 到 1 之间的任意浮点数表示 `'penalty='elasticnet'`。	'deprecated'
	C C: float, default=1.0 正则化强度的倒数；必须是正浮点数。与支持向量机类似，较小的值指定更强的正则化。`C=np.inf` 导致未惩罚的 Logistic Regression。有关使用 L1 惩罚调整 `C` 参数效果的视觉示例，请参见： :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`。	1.0
	l1_ratio l1_ratio: float, default=0.0 Elastic-Net 混合参数，`0 <= l1_ratio <= 1`。设置 `l1_ratio=1` 给出纯 L1 惩罚，设置 `l1_ratio=0` 给出纯 L2 惩罚。 0 到 1 之间的任何值给出形式为 `l1_ratio * L1 + (1 - l1_ratio) * L2` 的 Elastic-Net 惩罚。 .. warning:: 某些 `l1_ratio` 值（即某些惩罚项）可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionchanged:: 1.8 默认值从 None 更改为 0.0。 .. deprecated:: 1.8 `None` 已弃用，并将在版本 1.10 中删除。始终使用 `l1_ratio` 来指定惩罚类型。	0.0
	dual dual: bool, default=False 对偶（受限）或原始（正则化，另请参见 :ref:`this equation `) 公式。对偶公式仅针对 liblinear solver 的 l2 惩罚实现。当 n_samples > n_features 时，فضل `dual=False`。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	fit_intercept fit_intercept: bool, default=True 指定是否应将常量（也称为偏差或截距）添加到决策函数。	True
	intercept_scaling intercept_scaling: float, default=1 仅当使用 solver `liblinear` 且 `self.fit_intercept` 设置为 `True` 时有用。在这种情况下，`x` 变为 `[x, self.intercept_scaling]`，即一个常数值等于 `intercept_scaling` 的“合成”特征被附加到实例向量。截距变为 ``intercept_scaling * synthetic_feature_weight``。 .. note:: 合成特征权重像所有其他特征一样受到 L1 或 L2 正则化。为了减少正则化对合成特征权重（以及因此对截距）的影响，必须增加 `intercept_scaling`。	1
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给出，则所有类假定权重为一。 “balanced”模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。 .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState instance, default=None 当 ``solver`` == 'sag'、'saga' 或 'liblinear' 时用于打乱数据。有关详细信息，请参见 :term:`Glossary `。	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' 用于优化问题的算法。默认值为 'lbfgs'。要选择求解器，您可能需要考虑以下方面： - 'lbfgs' 是一个很好的默认求解器，因为它对广泛的问题类别都表现良好。 - 对于 :term:`multiclass` 问题 (`n_classes >= 3`)，除 'liblinear' 外的所有求解器都会最小化完整的多项式损失，而 'liblinear' 会引发错误。 - 'newton-cholesky' 是 `n_samples` >> `n_features * n_classes` 的一个很好的选择，特别是在使用稀有类别的独热编码分类特征时。请注意，此求解器的内存使用量与 `n_features * n_classes` 呈二次关系，因为它明确计算完整的 Hessian 矩阵。 - 对于小型数据集，'liblinear' 是一个不错的选择，而 'sag' 和 'saga' 对于大型数据集更快； - 'liblinear' 默认只能处理二分类。要在多分类设置中应用一对多方案，可以使用 :class:`~sklearn.multiclass.OneVsRestClassifier` 对其进行包装。 .. warning:: 算法的选择取决于所选的惩罚项 (`l1_ratio=0` 用于 L2 惩罚，`l1_ratio=1` 用于 L1 惩罚，`0 < l1_ratio < 1` 用于 Elastic-Net) 以及对（多项式）多分类的支持： ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 yes 'liblinear' l1_ratio=1 or l1_ratio=0 no 'newton-cg' l1_ratio=0 yes 'newton-cholesky' l1_ratio=0 yes 'sag' l1_ratio=0 yes 'saga' 0<=l1_ratio<=1 yes ================= ======================== ====================== .. note:: 'sag' 和 'saga' 快速收敛仅在具有大致相同尺度的特征上得到保证。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器对数据进行预处理。 .. seealso:: 有关 :class:`LogisticRegression` 的更多信息，尤其是总结求解器/惩罚项支持的 :ref:`Table `，请参阅 :ref:`User Guide `。 .. versionadded:: 0.17 随机平均梯度 (SAG) 下降求解器。版本 0.18 中添加了多项式支持。 .. versionadded:: 0.19 SAGA 求解器。 .. versionchanged:: 0.22 默认求解器从 'liblinear' 更改为 'lbfgs'。 .. versionadded:: 1.2 newton-cholesky 求解器。版本 1.6 中添加了多项式支持。	'lbfgs'
	max_iter max_iter: int, default=100 solver 收敛所需的最大迭代次数。	100
	verbose verbose: int, default=0 对于 liblinear 和 lbfgs solver，将 verbose 设置为任意正数以显示详细信息。	0
	warm_start warm_start: bool, default=False 设置为 True 时，重用上次调用 fit 的解决方案作为初始化，否则，擦除上一个解决方案。对于 liblinear solver 无用。有关详细信息，请参见 :term:`the Glossary `。 .. versionadded:: 0.17 warm_start 支持 lbfgs、newton-cg、sag、saga solver。	False
	n_jobs n_jobs: int, default=None 不产生任何效果。 .. deprecated:: 1.8 `n_jobs` 在版本 1.8 中已弃用，并将在 1.10 中删除。	None

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('standard_scaler', ...), ('polynomial', ...), ...]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	True

显示管道#

显示包含预处理步骤和分类器的管道#

显示链接多个预处理步骤和分类器的管道#

显示管道、降维和分类器#

显示链接 Column Transformer 的复杂管道#

显示包含分类器的管道上的网格搜索#

本页

	degree degree: int or tuple (min_degree, max_degree), default=2 如果给定单个整数，它指定多项式特征的最大次数。如果传入元组 `(min_degree, max_degree)`，则 `min_degree` 是生成的特征的最小多项式次数，`max_degree` 是最大多项式次数。请注意，`min_degree=0` 和 `min_degree=1` 是等效的，因为是否输出零次项由 `include_bias` 决定。	3
	interaction_only interaction_only: bool, default=False 如果为 `True`，则仅生成交互特征：即最多为 `degree` 不同输入特征乘积的特征，例如，排除同一输入特征的 2 次或更高次幂项： - 包含：`x[0]`、`x[1]`、`x[0] * x[1]` 等。 - 排除：`x[0] 2`、`x[0] 2 * x[1]` 等。	False
	include_bias include_bias: bool, default=True 如果为 `True`（默认），则包含一个偏差列，即所有多项式次数为零的特征（即全为 1 的列 - 在线性模型中充当截距项）。	True
	order order: {'C', 'F'}, default='C' 在密集情况下的输出数组顺序。`'F'` 顺序计算速度更快，但可能会减慢后续估计器。 .. versionadded:: 0.21	'C'

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('reduce_dim', ...), ('classifier', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	n_components n_components: int, float or 'mle', default=None 要保留的组件数。如果未设置 n_components，则保留所有组件:: n_components == min(n_samples, n_features) 如果 ``n_components == 'mle'`` 且 ``svd_solver == 'full'``，则使用 Minka 的 MLE 来猜测维度。使用 ``n_components == 'mle'`` 会将 ``svd_solver == 'auto'`` 解释为 ``svd_solver == 'full'``。如果 ``0 < n_components < 1`` 且 ``svd_solver == 'full'``，则选择组件数，使得需要解释的方差量大于由 n_components 指定的百分比。如果 ``svd_solver == 'arpack'``，则组件数必须严格小于 n_features 和 n_samples 中的最小值。因此，None 情况会导致:: n_components == min(n_samples, n_features) - 1	4
	copy copy: bool, default=True 如果为 False，则传递给 fit 的数据将被覆盖，并且运行 fit(X).transform(X) 将不会产生预期的结果，请改用 fit_transform(X)。	True
	whiten whiten: bool, default=False 如果为 True（默认为 False），则将 `components_` 向量乘以 n_samples 的平方根，然后除以奇异值，以确保不相关的输出具有单位分量方差。白化会从转换后的信号中删除一些信息（组件的相对方差尺度），但有时可以通过使下游 estimator 的数据尊重一些硬性假设来提高预测准确性。	False
	svd_solver svd_solver: {'auto', 'full', 'covariance_eigh', 'arpack', 'randomized'}, default='auto' "auto" : 求解器由默认的 'auto' 策略选择，该策略基于 `X.shape` 和 `n_components`：如果输入数据具有少于 1000 个特征且样本数多于特征数的 10 倍，则使用 "covariance_eigh" 求解器。否则，如果输入数据大于 500x500 且要提取的组件数低于数据最小维度的 80%，则选择更高效的 "randomized" 方法。否则，计算精确的 "full" SVD，并可选择性地进行截断。 "full" : 运行精确的完整 SVD，通过 `scipy.linalg.svd` 调用标准 LAPACK 求解器，并通过后处理选择组件。 "covariance_eigh" : 预计算协方差矩阵（在中心化数据上），在协方差矩阵上运行经典的特征值分解（通常使用 LAPACK），并通过后处理选择组件。此求解器对于 n_samples >> n_features 和较小的 n_features 非常高效。然而，对于大型 n_features，它并不可行（需要大量内存来具体化协方差矩阵）。另请注意，与 "full" 求解器相比，此求解器有效地将条件数加倍，因此数值稳定性较差（例如，对于具有大范围奇异值的输入数据）。 "arpack" : 运行截断为 `n_components` 的 SVD，通过 `scipy.sparse.linalg.svds` 调用 ARPACK 求解器。它严格要求 `0 < n_components < min(X.shape)`。 "randomized" : 通过 Halko et al. 的方法运行随机 SVD。 .. versionadded:: 0.18.0 .. versionchanged:: 1.5 添加了 'covariance_eigh' 求解器。	'auto'
	tol tol: float, default=0.0 svd_solver == 'arpack' 计算的奇异值容差。必须在 [0.0, infinity) 范围内。 .. versionadded:: 0.18.0	0.0
	iterated_power iterated_power: int or 'auto', default='auto' svd_solver == 'randomized' 计算的幂方法迭代次数。必须在 [0, infinity) 范围内。 .. versionadded:: 0.18.0	'auto'
	n_oversamples n_oversamples: int, default=10 此参数仅在 `svd_solver="randomized"` 时相关。它对应于对 `X` 的范围进行采样的附加随机向量数，以确保适当的条件。有关详细信息，请参见 :func:`~sklearn.utils.extmath.randomized_svd`。 .. versionadded:: 1.1	10
	power_iteration_normalizer power_iteration_normalizer: {'auto', 'QR', 'LU', 'none'}, default='auto' 随机 SVD solver 的幂迭代归一化器。 ARPACK 不使用。有关详细信息，请参见 :func:`~sklearn.utils.extmath.randomized_svd`。 .. versionadded:: 1.1	'auto'
	random_state random_state: int, RandomState instance or None, default=None 当使用 'arpack' 或 'randomized' solver 时使用。传入 int 值以在多次函数调用中获得可重现的结果。有关详细信息，请参见 :term:`Glossary `。 .. versionadded:: 0.18.0	None

	C C: float, default=1.0 正则化参数。正则化强度与 C 成反比。必须严格为正。惩罚项是平方 l2 惩罚。有关缩放正则化参数 C 的效果的直观可视化，请参阅 :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`。	1.0
	kernel kernel: {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'} or callable, default='rbf' 指定算法中要使用的核类型。如果未给出，将使用 'rbf'。如果给出了可调用对象，则用于从数据矩阵预先计算核矩阵；该矩阵的形状应为 ``(n_samples, n_samples)``。有关不同核类型的直观可视化，请参阅 :ref:`sphx_glr_auto_examples_svm_plot_svm_kernels.py`。	'linear'
	degree degree: int, default=3 多项式核函数 ('poly') 的度。必须为非负数。被所有其他核忽略。	3
	gamma gamma: {'scale', 'auto'} or float, default='scale' 'rbf'、'poly' 和 'sigmoid' 的核系数。 - 如果传递 ``gamma='scale'``（默认值），则使用 1 / (n_features * X.var()) 作为 gamma 的值， - 如果为 'auto'，则使用 1 / n_features - 如果为 float，则必须为非负数。 .. versionchanged:: 0.22 ``gamma`` 的默认值从 'auto' 更改为 'scale'。	'scale'
	coef0 coef0: float, default=0.0 核函数中的独立项。它仅在 'poly' 和 'sigmoid' 中有意义。	0.0
	shrinking shrinking: bool, default=True 是否使用收缩启发式。请参阅 :ref:`User Guide `。	True
	probability probability: bool, default=False 是否启用概率估计。必须在调用 `fit` 之前启用此选项，这会使该方法变慢，因为它内部使用 5 折交叉验证，并且 `predict_proba` 可能与 `predict` 不一致。在 :ref:`User Guide ` 中阅读更多内容。	False
	tol tol: float, default=1e-3 停止准则的容差。	0.001
	cache_size cache_size: float, default=200 指定核缓存的大小（以 MB 为单位）。	200
	class_weight class_weight: dict or 'balanced', default=None 将类 i 的参数 C 设置为 class_weight[i]C，用于 SVC。如果未给出，则所有类都被假定权重为一。 “balanced”模式使用 y 的值自动调整权重，使其与输入数据中类频率成反比，即 ``n_samples / (n_classes np.bincount(y))``。	None
	verbose verbose: bool, default=False 启用详细输出。请注意，此设置利用 libsvm 中的每个进程运行时设置，如果启用，在多线程环境中可能无法正常工作。	False
	max_iter max_iter: int, default=-1 求解器中迭代的硬限制，-1 表示没有限制。	-1
	decision_function_shape decision_function_shape: {'ovo', 'ovr'}, default='ovr' 是返回形状为 (n_samples, n_classes) 的 one-vs-rest ('ovr') 决策函数（与所有其他分类器一样），还是返回 libsvm 原始的 one-vs-one ('ovo') 决策函数，其形状为 (n_samples, n_classes * (n_classes - 1) / 2)。但是请注意，在内部，one-vs-one ('ovo') 始终用作训练模型的多类策略；ovr 矩阵仅由 ovo 矩阵构建。对于二元分类，该参数将被忽略。 .. versionchanged:: 0.19 decision_function_shape 默认为 'ovr'。 .. versionadded:: 0.17 建议使用 decision_function_shape='ovr'。 .. versionchanged:: 0.17 弃用 decision_function_shape='ovo' 和 None。	'ovr'
	break_ties break_ties: bool, default=False 如果为 True，``decision_function_shape='ovr'``，且类数 > 2，则 :term:`predict` 将根据 :term:`decision_function` 的置信值打破平局；否则返回平局类中的第一个类。请注意，打破平局与简单的预测相比，计算成本相对较高。请参阅 :ref:`sphx_glr_auto_examples_svm_plot_svm_tie_breaking.py` 以获取其与 ``decision_function_shape='ovr'`` 一起使用的示例。 .. versionadded:: 0.22	False
	random_state random_state: int, RandomState instance or None, default=None 控制用于概率估计的数据洗牌的伪随机数生成。当 `probability` 为 False 时忽略。传递一个 int 以在多次函数调用中获得可重现的输出。请参阅 :term:`Glossary `。	None

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('columntransformer', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	transformers transformers: list of tuples 元组列表 (name, transformer, columns)，用于指定要应用于数据子集的转换器对象。 name : str 与 Pipeline 和 FeatureUnion 一样，这允许使用 ``set_params`` 设置转换器及其参数，并在网格搜索中进行搜索。 transformer : {'drop', 'passthrough'} or estimator 估计器必须支持 :term:`fit` 和 :term:`transform`。也接受特殊大小写的字符串 'drop' 和 'passthrough'，分别表示删除列或按原样传递列。 columns : str, array-like of str, int, array-like of int, array-like of bool, slice or callable 在数据的第二个轴上进行索引。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。当 ``transformer`` 期望 X 为一维数组（向量）时，应使用标量字符串或整数，否则将把二维数组传递给转换器。可调用对象会传入输入数据 `X`，并可以返回上述任何一种类型。要按名称或 dtype 选择多列，可以使用 :obj:`make_column_selector`。	[('categorical', ...), ('numerical', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	0.3
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str or Callable[[str, str], str], default=True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将为所有特征名称加上生成该特征的转换器的名称前缀。这等同于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 将不为任何特征名称加前缀，并且如果特征名称不唯一，则会出错。 - 如果为 ``Callable[[str, str], str]``，:meth:`ColumnTransformer.get_feature_names_out` 将使用转换器的名称重命名所有特征。可调用对象的第一个参数是转换器名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是准备好格式化的字符串。给定的字符串将使用两个字段名称进行格式化：``transformer_name`` 和 ``feature_name``。例如 ``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是可调用对象或要格式化的字符串。	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	missing_values missing_values: int, float, str, np.nan, None or pandas.NA, default=np.nan 缺失值的占位符。`missing_values` 的所有出现都将被 impute。对于带有缺失值的可空整数 dtypes 的 pandas 数据帧，`missing_values` 可以设置为 `np.nan` 或 `pd.NA`。	nan
	strategy strategy: str or Callable, default='mean' 插值策略。 - 如果为 "mean"，则使用每列的均值替换缺失值。只能用于数值数据。 - 如果为 "median"，则使用每列的中位数替换缺失值。只能用于数值数据。 - 如果为 "most_frequent"，则使用每列最常出现的值替换缺失值。可用于字符串或数值数据。如果存在多个这样的值，则只返回最小的一个。 - 如果为 "constant"，则使用 fill_value 替换缺失值。可用于字符串或数值数据。 - 如果是 Callable 实例，则使用通过在包含每列非缺失值的密集一维数组上运行可调用对象返回的标量统计量替换缺失值。 .. versionadded:: 0.20 strategy="constant" 用于固定值插值。 .. versionadded:: 1.5 strategy=callable 用于自定义值插值。	'constant'
	fill_value fill_value: str or numerical value, default=None 当 strategy == "constant" 时，`fill_value` 用于替换 `missing_values` 的所有出现。对于字符串或对象数据类型，`fill_value` 必须是字符串。如果为 `None`，impute 数值数据时 `fill_value` 将为 0，字符串或对象数据类型时为 "missing_value"。	'missing'
	copy copy: bool, default=True 如果为 True，将创建 X 的副本。如果为 False，imputation 将尽可能就地完成。请注意，在以下情况下，即使 `copy=False`，也始终会创建新副本： - 如果 `X` 不是浮点值数组； - 如果 `X` 编码为 CSR 矩阵； - 如果 `add_indicator=True`。	True
	add_indicator add_indicator: bool, default=False 如果为 True，:class:`MissingIndicator` transform 将堆叠在 imputer transform 的输出上。这允许预测估计器在 impute 之后考虑缺失性。如果在 fit/train 时特征没有缺失值，则即使在 transform/test 时存在缺失值，该特征也不会出现在缺失指示器上。	False
	keep_empty_features keep_empty_features: bool, default=False 如果为 True，当调用 `fit` 时完全由缺失值组成的特征将在调用 `transform` 时返回结果。impute 的值始终为 `0`，除非 `strategy="constant"`，在这种情况下将使用 `fill_value`。 .. versionadded:: 1.2	False

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto'：从训练数据中自动确定类别。 - list：``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应在单个特征内混合字符串和数值，并且在数值的情况下应已排序。使用的类别可以在 ``categories_`` 属性中找到。 .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} or an array-like of shape (n_features,), default=None 指定用于删除每个特征的一个类别的方法。这在完美共线特征导致问题的情况下很有用，例如将结果数据输入未正则化的线性回归模型时。然而，删除一个类别会破坏原始表示的对称性，因此可能在下游模型中引入偏差，例如对于惩罚线性分类或回归模型。 - None : 保留所有特征（默认）。 - 'first' : 删除每个特征中的第一个类别。如果只存在一个类别，则该特征将被完全删除。 - 'if_binary' : 删除具有两个类别的每个特征中的第一个类别。具有 1 个或多于 2 个类别的特征保持不变。 - array : ``drop[i]`` 是特征 ``X[:, i]`` 中应删除的类别。当配置 `max_categories` 或 `min_frequency` 以对不频繁类别进行分组时，删除行为将在分组后处理。 .. versionadded:: 0.21 `drop` 参数在 0.21 中添加。 .. versionchanged:: 0.23 `drop='if_binary'` 选项在 0.23 中添加。 .. versionchanged:: 1.1 支持删除不频繁类别。	None
	sparse_output sparse_output: bool, default=True 当 ``True`` 时，返回一个 :class:`scipy.sparse.csr_matrix`，即“压缩稀疏行”（CSR）格式的稀疏矩阵。 .. versionadded:: 1.2 `sparse` 已重命名为 `sparse_output`	True
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' 指定在 :meth:`transform` 期间如何处理未知类别。 - 'error' : 如果在转换期间存在未知类别，则引发错误。 - 'ignore' : 当在转换期间遇到未知类别时，此特征的结果独热编码列将全部为零。在逆向转换中，未知类别将表示为 None。 - 'infrequent_if_exist' : 当在转换期间遇到未知类别时，此特征的结果独热编码列将映射到不频繁类别（如果存在）。不频繁类别将映射到编码中的最后一个位置。在逆向转换期间，未知类别将映射到表示为 `'infrequent'` 的类别（如果存在）。如果 `'infrequent'` 类别不存在，则 :meth:`transform` 和 :meth:`inverse_transform` 将像使用 `handle_unknown='ignore'` 一样处理未知类别。不频繁类别是否存在基于 `min_frequency` 和 `max_categories`。有关更多信息，请参阅 :ref:`User Guide `。 - 'warn' : 当在转换期间遇到未知类别时，会发出警告，然后编码过程按照 `handle_unknown="infrequent_if_exist"` 所述进行。 .. versionchanged:: 1.1 添加了 `'infrequent_if_exist'` 以自动处理未知类别和不频繁类别。 .. versionadded:: 1.6 `"warn"` 选项在 1.6 中添加。	'ignore'
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常见的最小频率。 - 如果为 `int`，则基数小于此值的类别将被视为不常见。 - 如果为 `float`，则基数小于 `min_frequency * n_samples` 的类别将被视为不常见。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	max_categories max_categories: int, default=None 指定当考虑不常见类别时，每个输入特征的输出特征数量的上限。如果存在不常见类别，`max_categories` 包括表示不常见类别的类别以及常见类别。如果为 `None`，则输出特征数量没有限制。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	feature_name_combiner feature_name_combiner: "concat" or callable, default="concat" 具有签名 `def callable(input_feature, category)` 的可调用对象，返回一个字符串。这用于创建由 :meth:`get_feature_names_out` 返回的特征名称。 `"concat"` 使用 `feature + "_" + str(category)` 连接编码特征名称和类别。例如，具有值 1、6、7 的特征 X 创建特征名称 `X_1, X_6, X_7`。 .. versionadded:: 1.3	'concat'

	missing_values missing_values: int, float, str, np.nan, None or pandas.NA, default=np.nan 缺失值的占位符。`missing_values` 的所有出现都将被 impute。对于带有缺失值的可空整数 dtypes 的 pandas 数据帧，`missing_values` 可以设置为 `np.nan` 或 `pd.NA`。	nan
	strategy strategy: str or Callable, default='mean' 插值策略。 - 如果为 "mean"，则使用每列的均值替换缺失值。只能用于数值数据。 - 如果为 "median"，则使用每列的中位数替换缺失值。只能用于数值数据。 - 如果为 "most_frequent"，则使用每列最常出现的值替换缺失值。可用于字符串或数值数据。如果存在多个这样的值，则只返回最小的一个。 - 如果为 "constant"，则使用 fill_value 替换缺失值。可用于字符串或数值数据。 - 如果是 Callable 实例，则使用通过在包含每列非缺失值的密集一维数组上运行可调用对象返回的标量统计量替换缺失值。 .. versionadded:: 0.20 strategy="constant" 用于固定值插值。 .. versionadded:: 1.5 strategy=callable 用于自定义值插值。	'mean'
	fill_value fill_value: str or numerical value, default=None 当 strategy == "constant" 时，`fill_value` 用于替换 `missing_values` 的所有出现。对于字符串或对象数据类型，`fill_value` 必须是字符串。如果为 `None`，impute 数值数据时 `fill_value` 将为 0，字符串或对象数据类型时为 "missing_value"。	None
	copy copy: bool, default=True 如果为 True，将创建 X 的副本。如果为 False，imputation 将尽可能就地完成。请注意，在以下情况下，即使 `copy=False`，也始终会创建新副本： - 如果 `X` 不是浮点值数组； - 如果 `X` 编码为 CSR 矩阵； - 如果 `add_indicator=True`。	True
	add_indicator add_indicator: bool, default=False 如果为 True，:class:`MissingIndicator` transform 将堆叠在 imputer transform 的输出上。这允许预测估计器在 impute 之后考虑缺失性。如果在 fit/train 时特征没有缺失值，则即使在 transform/test 时存在缺失值，该特征也不会出现在缺失指示器上。	False
	keep_empty_features keep_empty_features: bool, default=False 如果为 True，当调用 `fit` 时完全由缺失值组成的特征将在调用 `transform` 时返回结果。impute 的值始终为 `0`，除非 `strategy="constant"`，在这种情况下将使用 `fill_value`。 .. versionadded:: 1.2	False

	estimator estimator: estimator object 假定它实现了 scikit-learn estimator 接口。要么 estimator 需要提供一个 ``score`` 函数，要么必须传入 ``scoring``。	Pipeline(step...lassifier())])
	param_grid param_grid: dict or list of dictionaries 字典的键为参数名称（`str`），值为要尝试的参数设置列表，或者此类字典的列表，在这种情况下，将探索列表中每个字典所涵盖的网格。这使得可以搜索任何参数设置序列。	{'classifier__criterion': ['gini', 'entropy'], 'classifier__max_depth': [4, 5, ...], 'classifier__max_features': ['auto', 'sqrt', ...], 'classifier__n_estimators': [200, 500]}
	scoring scoring: str, callable, list, tuple or dict, default=None 用于评估交叉验证模型在测试集上性能的策略。如果 `scoring` 代表单个分数，可以使用： - 单个字符串（参见 :ref:`scoring_string_names`）； - 返回单个值的可调用对象（参见 :ref:`scoring_callable`）； - `None`，使用 `estimator` 的 :ref:`默认评估标准 `。如果 `scoring` 代表多个分数，可以使用： - 唯一字符串的列表或元组； - 返回字典的可调用对象，其中键是度量名称，值是度量分数； - 键为度量名称，值为可调用对象的字典。有关示例，请参见 :ref:`multimetric_grid_search`。	None
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。 ``-1`` 表示使用所有处理器。有关详细信息，请参见 :term:`Glossary `。 .. versionchanged:: v0.20 `n_jobs` 默认值从 1 更改为 None	1
	refit refit: bool, str, or callable, default=True 使用在整个数据集上找到的最佳参数重新拟合估计器。对于多重指标评估，这需要是一个 `str`，表示将用于在最后找到最佳参数以重新拟合估计器的评分器。如果在选择最佳估计器时除了最大分数之外还有其他考虑因素，可以将 ``refit`` 设置为一个函数，该函数根据 ``cv_results_`` 返回选定的 ``best_index_``。在这种情况下，``best_estimator_`` 和 ``best_params_`` 将根据返回的 ``best_index_`` 进行设置，而 ``best_score_`` 属性将不可用。重新拟合的估计器在 ``best_estimator_`` 属性中可用，并允许直接对此 ``GridSearchCV`` 实例使用 ``predict``。同样对于多重指标评估，属性 ``best_index_``、``best_score_`` 和 ``best_params_`` 仅在设置了 ``refit`` 且所有这些属性都将根据此特定评分器确定时才可用。有关多重指标评估的更多信息，请参阅 ``scoring`` 参数。请参阅 :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py`，了解如何通过 `refit` 使用可调用对象设计自定义选择策略。请参阅 :ref:`this example`，了解如何使用 ``refit=callable`` 来平衡模型复杂度和交叉验证分数。 .. versionchanged:: 0.20 添加了对可调用对象的支持。	True
	cv cv: int, cross-validation generator or an iterable, default=None 确定交叉验证拆分策略。 cv 的可能输入包括： - None，使用默认的 5 折交叉验证， - 整数，指定 `(Stratified)KFold` 中的折数， - :term:`CV splitter`， - 可迭代对象，生成 (train, test) 拆分作为索引数组。对于整数/None 输入，如果 estimator 是一个分类器且 ``y`` 是二进制或多类，则使用 :class:`StratifiedKFold`。在所有其他情况下，使用 :class:`KFold`。实例化这些 splitter 时 `shuffle=False`，因此拆分在不同调用中将是相同的。有关此处可使用的各种交叉验证策略，请参见 :ref:`User Guide `。 .. versionchanged:: 0.22 None 时 ``cv`` 默认值从 3 折更改为 5 折。	None
	verbose verbose: int 控制详细程度：值越高，消息越多。 - >1 : 显示每个折叠和参数候选项的计算时间； - >2 : 也显示分数； - >3 : 显示折叠和候选项参数索引以及计算的开始时间。	0
	pre_dispatch pre_dispatch: int, or str, default='2n_jobs' 控制并行执行期间调度的作业数。减少此数字有助于避免在调度作业数多于 CPU 可处理数时内存消耗激增。此参数可以是： - None，在这种情况下，所有作业会立即创建和生成。用于轻量级和快速运行的作业，以避免因按需生成作业而导致的延迟。 - 一个 int，给出生成的总作业的确切数量。 - 一个 str，给出作为 n_jobs 函数的表达式，例如 '2n_jobs'。	'2*n_jobs'
	error_score error_score: 'raise' or numeric, default=np.nan 如果 estimator 拟合发生错误，分配给分数的值。如果设置为 'raise'，则会引发错误。如果给定数字值，则会引发 FitFailedWarning。此参数不影响 refit 步骤，refit 步骤始终会引发错误。	nan
	return_train_score return_train_score: bool, default=False 如果为 ``False``，则 ``cv_results_`` 属性将不包括训练分数。计算训练分数用于深入了解不同参数设置如何影响过拟合/欠拟合的权衡。但是，计算训练集上的分数可能会耗费计算资源，并且对于选择产生最佳泛化性能的参数不是严格必需的。 .. versionadded:: 0.19 .. versionchanged:: 0.21 默认值从 ``True`` 更改为 ``False``	False

	n_estimators n_estimators: int, default=100 森林中树的数量。 .. versionchanged:: 0.22 ``n_estimators`` 的默认值在 0.22 版本中从 10 更改为 100。	100
	criterion criterion: {"gini", "entropy", "log_loss"}, default="gini" 衡量分割质量的函数。支持的准则包括用于基尼不纯度（Gini impurity）的 "gini" 以及用于香农信息增益（Shannon information gain）的 "log_loss" 和 "entropy"，请参见 :ref:`tree_mathematical_formulation`。注意：此参数特定于树。	'gini'
	max_depth max_depth: int, default=None 树的最大深度。如果为None，则节点会一直扩展，直到所有叶子都是纯的，或者所有叶子包含的样本数少于 min_samples_split。	None
	min_samples_split min_samples_split: int or float, default=2 分割内部节点所需的最小样本数： - 如果为 int，则 min_samples_split 为最小样本数。 - 如果为 float，则 min_samples_split 为分数，`ceil(min_samples_split * n_samples)` 是每次分割的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	2
	min_samples_leaf min_samples_leaf: int or float, default=1 叶节点所需的最小样本数。只有当分割点能使左右分支至少包含 ``min_samples_leaf`` 个训练样本时，才会考虑该分割点。这可能具有平滑模型的效果，尤其是在回归中。 - 如果为 int，则 min_samples_leaf 为最小样本数。 - 如果为 float，则 min_samples_leaf 为分数，`ceil(min_samples_leaf * n_samples)` 是每个节点的最小样本数。 .. versionchanged:: 0.18 添加了浮点值以表示分数。	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, default=0.0 在叶节点处所需的最小加权分数（所有输入样本权重的总和）。未提供 sample_weight 时，样本具有相同的权重。	0.0
	max_features max_features: {"sqrt", "log2", None}, int or float, default="sqrt" 寻找最佳分割时要考虑的特征数量： - 如果为 int，则每次分割考虑 `max_features` 个特征。 - 如果为 float，则 `max_features` 为分数，每次分割考虑 `max(1, int(max_features * n_features_in_))` 个特征。 - 如果为 "sqrt"，则 `max_features=sqrt(n_features)`。 - 如果为 "log2"，则 `max_features=log2(n_features)`。 - 如果为 None，则 `max_features=n_features`。 .. versionchanged:: 1.1 `max_features` 的默认值从 `"auto"` 更改为 `"sqrt"`。注意：搜索分割不会停止，直到找到至少一个有效的节点样本分区，即使需要检查超过 ``max_features`` 个特征。	'sqrt'
	max_leaf_nodes max_leaf_nodes: int, default=None 以最佳优先方式增长树，其中 ``max_leaf_nodes`` 个叶节点。最佳节点被定义为相对杂质减少。如果为 None，则叶节点数量不受限制。	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 如果分裂导致的杂质减少大于或等于此值，则会分裂节点。加权杂质减少方程如下所示： N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) 其中 ``N`` 是样本总数，``N_t`` 是当前节点的样本数，``N_t_L`` 是左子节点的样本数，``N_t_R`` 是右子节点的样本数。如果传递了 ``sample_weight``，则 ``N``、``N_t``、``N_t_R`` 和 ``N_t_L`` 都指加权和。 .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True 构建树时是否使用 bootstrap 样本。如果为 False，则使用整个数据集来构建每棵树。	True
	oob_score oob_score: bool or callable, default=False 是否使用袋外样本（out-of-bag samples）来估计泛化分数。默认情况下使用 :func:`~sklearn.metrics.accuracy_score`。提供一个签名为 `metric(y_true, y_pred)` 的可调用对象来使用自定义指标。仅在 `bootstrap=True` 时可用。有关袋外（OOB）误差估计的说明，请参见示例 :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`。	False
	n_jobs n_jobs: int, default=None 并行运行的作业数。``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关详细信息，请参见 :term:`Glossary`。	None
	random_state random_state: int, RandomState instance or None, default=None 控制构建树时使用的样本引导（bootstrap）的随机性（如果 ``bootstrap=True``）以及在每个节点寻找最佳分割时要考虑的特征采样（如果 ``max_features < n_features``）。有关详细信息，请参见 :term:`Glossary `。	None
	verbose verbose: int, default=0 控制拟合和预测时的冗余度。	0
	warm_start warm_start: bool, default=False 设置为 ``True`` 时，重用上一次调用 fit 的解决方案，并向集成添加更多估计器，否则，拟合一个全新的森林。有关详细信息，请参阅 :term:`Glossary ` 和 :ref:`tree_ensemble_warm_start`。	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict or list of dicts, default=None 与类别关联的权重，格式为 ``{class_label: weight}``。如果未给出，则所有类别都假定权重为一。对于多输出问题，可以按照 y 的列顺序提供字典列表。请注意，对于多输出（包括多标签），权重应在每个列的自己的字典中为每个类别定义。例如，对于四类别多标签分类，权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}]，而不是 [{1:1}, {2:5}, {3:1}, {4:1}]。 "balanced" 模式使用 y 的值自动调整权重，使其与输入数据中的类别频率成反比，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。 "balanced_subsample" 模式与 "balanced" 相同，只是权重是根据为每棵树生长的自举样本计算的。对于多输出，y 的每列权重将相乘。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。	None
	ccp_alpha ccp_alpha: non-negative float, default=0.0 用于最小成本复杂性剪枝（Minimal Cost-Complexity Pruning）的复杂性参数。将选择成本复杂性小于 ``ccp_alpha`` 的最大子树。默认情况下不执行剪枝。有关详细信息，请参见 :ref:`minimal_cost_complexity_pruning`。有关此类剪枝的示例，请参见 :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py`。 .. versionadded:: 0.22	0.0
	max_samples max_samples: int or float, default=None 如果 bootstrap 为 True，则从 X 中抽取用于训练每个基本估计器的样本数量。 - 如果为 None（默认），则抽取 `X.shape[0]` 个样本。 - 如果为 int，则抽取 `max_samples` 个样本。 - 如果为 float，则抽取 `max(round(n_samples * max_samples), 1)` 个样本。因此，`max_samples` 应在区间 `(0.0, 1.0]` 内。 .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like of int of shape (n_features), default=None 指示对每个特征施加的单调性约束。 - 1: 单调增加 - 0: 无约束 - -1: 单调减少如果 monotonic_cst 为 None，则不应用约束。不支持单调性约束的情况： - 多类别分类（即当 `n_classes > 2` 时）， - 多输出分类（即当 `n_outputs_ > 1` 时）， - 在有缺失值的数据上训练的分类。约束适用于正类别的概率。在 :ref:`User Guide ` 中了解更多信息。 .. versionadded:: 1.4	None