scikit-learn 1.7 发布亮点#

我们很高兴地宣布 scikit-learn 1.7 发布！其中添加了许多错误修复和改进，以及一些关键的新功能。下面我们详细介绍本次发布的亮点。有关所有更改的详尽列表，请参阅发布说明。

要安装最新版本（使用 pip）

pip install --upgrade scikit-learn

或使用 conda

conda install -c conda-forge scikit-learn

改进的估计器 HTML 表示#

估计器的 HTML 表示现在包含一个包含参数列表及其值的章节。非默认参数以橙色突出显示。还提供了一个复制按钮，无需调用get_params方法即可复制“完全限定”参数名称。当为具有复杂管道的网格搜索或随机搜索定义参数网格时，它特别有用。

请参阅下面的示例，然后单击不同的估计器块以查看改进的 HTML 表示。

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

model = make_pipeline(StandardScaler(with_std=False), LogisticRegression(C=2.0))
model

Pipeline(steps=[('standardscaler', StandardScaler(with_std=False)),
                ('logisticregression', LogisticRegression(C=2.0))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

基于直方图的梯度提升估计器的自定义验证集#

ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 现在支持使用 X_val、y_val 和 sample_weight_val 参数直接向 fit 方法传递用于提前停止的自定义验证集。在 pipeline.Pipeline 中，可以使用 transform_input 参数将验证集 X_val 与 X 一起转换。

import sklearn
from sklearn.datasets import make_classification
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

sklearn.set_config(enable_metadata_routing=True)

X, y = make_classification(random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=0)

clf = HistGradientBoostingClassifier()
clf.set_fit_request(X_val=True, y_val=True)

model = Pipeline([("sc", StandardScaler()), ("clf", clf)], transform_input=["X_val"])
model.fit(X, y, X_val=X_val, y_val=y_val)

Pipeline(steps=[('sc', StandardScaler()),
                ('clf', HistGradientBoostingClassifier())],
         transform_input=['X_val'])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

从交叉验证结果中绘制 ROC 曲线#

类 metrics.RocCurveDisplay 有一个新的类方法 from_cv_results，允许从 model_selection.cross_validate 的结果中轻松绘制多个 ROC 曲线。

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import RocCurveDisplay
from sklearn.model_selection import cross_validate

X, y = make_classification(n_samples=150, random_state=0)
clf = LogisticRegression(random_state=0)
cv_results = cross_validate(clf, X, y, cv=5, return_estimator=True, return_indices=True)
_ = RocCurveDisplay.from_cv_results(cv_results, X, y)

Array API 支持#

自版本 1.6 以来，一些函数已更新以支持与 array API 兼容的输入，特别是来自 sklearn.metrics 模块的指标。

此外，不再需要安装 array-api-compat 包即可使用 scikit-learn 中的实验性 array API 支持。

请参阅 array API support 页面，了解如何将 scikit-learn 与 PyTorch 或 CuPy 等 array API 兼容库一起使用的说明。

改进多层感知器的 API 一致性#

neural_network.MLPRegressor 有一个新参数 loss，现在除了默认的“squared_error”损失之外还支持“poisson”损失。此外，neural_network.MLPClassifier 和 neural_network.MLPRegressor 估计器现在支持样本权重。进行这些改进是为了提高这些估计器与 scikit-learn 中其他估计器的一致性。

向稀疏数组迁移#

为了准备 SciPy 从稀疏矩阵向稀疏数组迁移，所有接受稀疏矩阵作为输入的 scikit-learn 估计器现在也接受稀疏数组。

脚本总运行时间： (0 minutes 0.131 seconds)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('standardscaler', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' 指定惩罚项的范数： - `None`: 不添加惩罚项； - `'l2'`: 添加 L2 惩罚项，这是默认选择； - `'l1'`: 添加 L1 惩罚项； - `'elasticnet'`: L1 和 L2 惩罚项均添加。 .. warning:: 某些惩罚项可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionadded:: 0.19 使用 SAGA solver 的 l1 惩罚（允许 'multinomial' + L1） .. deprecated:: 1.8 `penalty` 在版本 1.8 中已弃用，并将在 1.10 中删除。请改用 `l1_ratio`。`l1_ratio=0` 表示 `penalty='l2'`，`l1_ratio=1` 表示 `penalty='l1'`， `l1_ratio` 设置为 0 到 1 之间的任意浮点数表示 `'penalty='elasticnet'`。	'deprecated'
	C C: float, default=1.0 正则化强度的倒数；必须是正浮点数。与支持向量机类似，较小的值指定更强的正则化。`C=np.inf` 导致未惩罚的 Logistic Regression。有关使用 L1 惩罚调整 `C` 参数效果的视觉示例，请参见： :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`。	2.0
	l1_ratio l1_ratio: float, default=0.0 Elastic-Net 混合参数，`0 <= l1_ratio <= 1`。设置 `l1_ratio=1` 给出纯 L1 惩罚，设置 `l1_ratio=0` 给出纯 L2 惩罚。 0 到 1 之间的任何值给出形式为 `l1_ratio * L1 + (1 - l1_ratio) * L2` 的 Elastic-Net 惩罚。 .. warning:: 某些 `l1_ratio` 值（即某些惩罚项）可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionchanged:: 1.8 默认值从 None 更改为 0.0。 .. deprecated:: 1.8 `None` 已弃用，并将在版本 1.10 中删除。始终使用 `l1_ratio` 来指定惩罚类型。	0.0
	dual dual: bool, default=False 对偶（受限）或原始（正则化，另请参见 :ref:`this equation `) 公式。对偶公式仅针对 liblinear solver 的 l2 惩罚实现。当 n_samples > n_features 时，فضل `dual=False`。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	fit_intercept fit_intercept: bool, default=True 指定是否应将常量（也称为偏差或截距）添加到决策函数。	True
	intercept_scaling intercept_scaling: float, default=1 仅当使用 solver `liblinear` 且 `self.fit_intercept` 设置为 `True` 时有用。在这种情况下，`x` 变为 `[x, self.intercept_scaling]`，即一个常数值等于 `intercept_scaling` 的“合成”特征被附加到实例向量。截距变为 ``intercept_scaling * synthetic_feature_weight``。 .. note:: 合成特征权重像所有其他特征一样受到 L1 或 L2 正则化。为了减少正则化对合成特征权重（以及因此对截距）的影响，必须增加 `intercept_scaling`。	1
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给出，则所有类假定权重为一。 “balanced”模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。 .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState instance, default=None 当 ``solver`` == 'sag'、'saga' 或 'liblinear' 时用于打乱数据。有关详细信息，请参见 :term:`Glossary `。	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' 用于优化问题的算法。默认为 'lbfgs'。要选择求解器，您可能需要考虑以下方面： - 'lbfgs' 是一个很好的默认求解器，因为它对广泛的问题类别都运行良好。 - 对于 :term:`multiclass` 问题 (`n_classes >= 3`)，除 'liblinear' 外的所有求解器都最小化完整的多项式损失，'liblinear' 将引发错误。 - 'newton-cholesky' 是 `n_samples` >> `n_features * n_classes` 的一个很好的选择，特别是对于具有稀有类别的独热编码分类特征。请注意，此求解器的内存使用量与 `n_features * n_classes` 呈二次关系，因为它明确计算完整的 Hessian 矩阵。 - 对于小型数据集，'liblinear' 是一个不错的选择，而 'sag' 和 'saga' 对于大型数据集更快； - 'liblinear' 默认只能处理二元分类。要在多类设置中应用 one-versus-rest 方案，可以使用 :class:`~sklearn.multiclass.OneVsRestClassifier` 包装它。 .. warning:: 算法的选择取决于所选择的惩罚（L2 惩罚的 `l1_ratio=0`、L1 惩罚的 `l1_ratio=1` 以及 Elastic-Net 的 `0 < l1_ratio < 1`）以及对（多项式）多类别的支持： ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 yes 'liblinear' l1_ratio=1 or l1_ratio=0 no 'newton-cg' l1_ratio=0 yes 'newton-cholesky' l1_ratio=0 yes 'sag' l1_ratio=0 yes 'saga' 0<=l1_ratio<=1 yes ================= ======================== ====================== .. note:: 'sag' 和 'saga' 的快速收敛仅在具有大致相同尺度的特征上得到保证。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器对数据进行预处理。 .. seealso:: 有关 :class:`LogisticRegression` 的更多信息，请参阅 :ref:`User Guide `，特别是总结求解器/惩罚支持的 :ref:`Table `。 .. versionadded:: 0.17 随机平均梯度 (SAG) 下降求解器。版本 0.18 中的多项式支持。 .. versionadded:: 0.19 SAGA 求解器。 .. versionchanged:: 0.22 默认求解器从 'liblinear' 更改为 'lbfgs'。 .. versionadded:: 1.2 newton-cholesky 求解器。版本 1.6 中的多项式支持。	'lbfgs'
	max_iter max_iter: int, default=100 solver 收敛所需的最大迭代次数。	100
	verbose verbose: int, default=0 对于 liblinear 和 lbfgs solver，将 verbose 设置为任意正数以显示详细信息。	0
	warm_start warm_start: bool, default=False 设置为 True 时，重用上次调用 fit 的解决方案作为初始化，否则，擦除上一个解决方案。对于 liblinear solver 无用。有关详细信息，请参见 :term:`the Glossary `。 .. versionadded:: 0.17 warm_start 支持 lbfgs、newton-cg、sag、saga solver。	False
	n_jobs n_jobs: int, default=None 不产生任何效果。 .. deprecated:: 1.8 `n_jobs` 在版本 1.8 中已弃用，并将在 1.10 中删除。	None

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('sc', ...), ('clf', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	['X_val']
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	loss loss: {'log_loss'}, default='log_loss' 在提升过程中使用的损失函数。对于二元分类问题，'log_loss' 也称为 logistic loss、binomial deviance 或 binary crossentropy。在内部，模型为每次提升迭代拟合一棵树，并使用 logistic sigmoid 函数 (expit) 作为逆链接函数来计算预测的正类概率。对于多类分类问题，'log_loss' 也称为 multinomial deviance 或 categorical crossentropy。在内部，模型为每次提升迭代和每个类拟合一棵树，并使用 softmax 函数作为逆链接函数来计算预测的类概率。	'log_loss'
	learning_rate learning_rate: float, default=0.1 学习率，也称为收缩率。这用作叶子值的乘法因子。使用 ``1`` 表示无收缩。	0.1
	max_iter max_iter: int, default=100 提升过程的最大迭代次数，即二元分类的最大树数。对于多类分类，每次迭代构建 `n_classes` 棵树。	100
	max_leaf_nodes max_leaf_nodes: int or None, default=31 每棵树的最大叶子数。必须严格大于 1。如果为 None，则没有最大限制。	31
	max_depth max_depth: int or None, default=None 每棵树的最大深度。树的深度是从根到最深叶子的边数。默认情况下不限制深度。	None
	min_samples_leaf min_samples_leaf: int, default=20 每个叶子的最小样本数。对于少于几百个样本的小数据集，建议降低此值，因为只会构建非常浅的树。	20
	l2_regularization l2_regularization: float, default=0 L2 正则化参数，惩罚具有小 hessians 的叶子。使用 ``0`` 表示无正则化（默认）。	0.0
	max_features max_features: float, default=1.0 每个节点拆分中随机选择的特征比例。这是一种正则化形式，较小的值使树成为较弱的学习器，并可能防止过拟合。如果存在来自 `interaction_cst` 的交互约束，则只考虑允许的特征进行子采样。 .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 用于非缺失值的最大分箱数。在训练之前，输入数组 `X` 的每个特征都被分箱为整数值分箱，这使得训练阶段快得多。具有少量唯一值的特征可能使用少于 ``max_bins`` 个分箱。除了 ``max_bins`` 个分箱之外，始终为缺失值保留一个分箱。必须不大于 255。	255
	categorical_features categorical_features: array-like of {bool, int, str} of shape (n_features) or shape (n_categorical_features,), default='from_dtype' 指示分类特征。 - None：不考虑任何特征为分类特征。 - boolean array-like：指示分类特征的布尔掩码。 - integer array-like：指示分类特征的整数索引。 - str array-like：分类特征的名称（假设训练数据具有特征名称）。 - `"from_dtype"`：dtype 为 "category" 的 dataframe 列被视为分类特征。要使用此功能，输入必须是公开 ``__dataframe__`` 方法的对象，例如 pandas 或 polars DataFrames。对于每个分类特征，最多必须有 `max_bins` 个唯一类别。编码为数字 dtype 的分类特征的负值被视为缺失值。所有分类值都转换为浮点数。这意味着分类值 1.0 和 1 被视为同一类别。在 :ref:`User Guide ` 中阅读更多内容。 .. versionadded:: 0.24 .. versionchanged:: 1.2 添加了对特征名称的支持。 .. versionchanged:: 1.4 添加了 `"from_dtype"` 选项。 .. versionchanged:: 1.6 默认值从 `None` 更改为 `"from_dtype"`。	'from_dtype'
	monotonic_cst monotonic_cst: array-like of int of shape (n_features) or dict, default=None 使用以下整数值指定要对每个特征强制执行的单调约束： - 1：单调增加 - 0：无约束 - -1：单调减少如果是一个带有 str 键的 dict，则按名称将特征映射到单调约束。如果是一个数组，则按位置将特征映射到约束。有关使用示例，请参阅 :ref:`monotonic_cst_features_names`。这些约束仅对二元分类有效，并对正类的概率保持不变。在 :ref:`User Guide ` 中阅读更多内容。 .. versionadded:: 0.23 .. versionchanged:: 1.2 接受以特征名称为键的约束 dict。	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} or sequence of lists/tuples/sets of int, default=None 指定交互约束，即允许在子节点拆分中相互交互的特征集。每个项指定允许相互交互的特征索引集。如果特征多于这些约束中指定的特征，则将它们视为指定为附加集。字符串 "pairwise" 和 "no_interactions" 分别是仅允许成对交互或不允许交互的简写。例如，总共 5 个特征，`interaction_cst=[{0, 1}]` 等效于 `interaction_cst=[{0, 1}, {2, 3, 4}]`，并指定树的每个分支要么仅拆分特征 0 和 1，要么仅拆分特征 2、3 和 4。有关如何使用 `interaction_cst`，请参阅 :ref:`this example`。 .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False 当设置为 ``True`` 时，重用对 fit 的前一次调用的解决方案，并向集成添加更多估计器。为了使结果有效，估计器应仅在相同数据上重新训练。请参阅 :term:`Glossary `。	False
	early_stopping early_stopping: 'auto' or bool, default='auto' 如果为 'auto'，则如果样本大小大于 10000 或者如果将 `X_val` 和 `y_val` 传递给 `fit`，则启用提前停止。如果为 True，则启用提前停止，否则禁用提前停止。 .. versionadded:: 0.23	'auto'
	scoring scoring: str or callable or None, default='loss' 用于提前停止的评分方法。仅在启用 `early_stopping` 时使用。选项： - str：有关选项，请参阅 :ref:`scoring_string_names`。 - callable：具有签名 ``scorer(estimator, X, y)`` 的评分器可调用对象（例如，函数）。有关详细信息，请参阅 :ref:`scoring_callable`。 - `None`：使用 :ref:`accuracy `。 - 'loss'：根据损失值检查提前停止。	'loss'
	validation_fraction validation_fraction: int or float or None, default=0.1 用于提前停止的训练数据中留出作为验证数据的比例（或绝对大小）。如果为 None，则在训练数据上进行提前停止。如果未执行提前停止（例如 `early_stopping=False`）或者如果将 `X_val` 和 `y_val` 传递给 fit，则忽略此值。	0.1
	n_iter_no_change n_iter_no_change: int, default=10 用于确定何时“提前停止”。当最后 ``n_iter_no_change`` 个分数都没有比倒数第 ``n_iter_no_change - 1`` 个分数好（在一定的容差范围内）时，拟合过程停止。仅当执行提前停止时使用。	10
	tol tol: float, default=1e-7 用于比较分数时使用的绝对容差。容差越高，我们越有可能提前停止：较高的容差意味着后续迭代更难被认为是参考分数的改进。	1e-07
	verbose verbose: int, default=0 详细程度级别。如果不为零，则打印有关拟合过程的一些信息。``1`` 只打印摘要信息，``2`` 打印每次迭代的信息。	0
	random_state random_state: int, RandomState instance or None, default=None 伪随机数生成器，用于控制分箱过程中的子采样，以及如果启用提前停止时的训练/验证数据拆分。传递一个 int 值以在多次函数调用中获得可重现的输出。请参阅 :term:`Glossary `。	None
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 `{class_label: weight}`。如果未给出，则所有类都被假定权重为一。 “balanced”模式使用 y 的值根据输入数据中与类频率成反比自动调整权重，计算公式为 `n_samples / (n_classes * np.bincount(y))`。请注意，如果指定了 `sample_weight`（通过 fit 方法传递），这些权重将与 sample_weight 相乘。 .. versionadded:: 1.2	None

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	False