注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

scikit-learn 1.8 发布亮点#

我们很高兴地宣布 scikit-learn 1.8 发布！新增了许多错误修复和改进，以及一些关键的新功能。下面我们详细介绍了本次发布的亮点。有关所有更改的详尽列表，请参阅发布说明。

要安装最新版本（使用 pip）

pip install --upgrade scikit-learn

或使用 conda

conda install -c conda-forge scikit-learn

Array API 支持（启用 GPU 计算）#

scikit-learn 中逐步采用 Python array API 标准意味着可以直接使用 PyTorch 和 CuPy 输入数组。这意味着在 scikit-learn 估计器和函数中，非 CPU 设备（例如 GPU）可用于执行计算。因此，性能得到改善，并且与这些库的集成更加容易。

在 scikit-learn 1.8 中，一些估计器和函数已更新以支持 array API 兼容输入，例如 PyTorch 张量和 CuPy 数组。

以下估计器添加了 Array API 支持：preprocessing.StandardScaler、preprocessing.PolynomialFeatures、linear_model.RidgeCV、linear_model.RidgeClassifierCV、mixture.GaussianMixture 和 calibration.CalibratedClassifierCV。

Array API 支持也已添加到 sklearn.metrics 模块中的多个指标，有关更多详细信息，请参阅支持 Array API 兼容输入。

有关使用 scikit-learn 和 PyTorch 或 CuPy 等 array API 兼容库的说明，请参阅array API 支持页面。注意：Array API 支持是实验性的，必须在 SciPy 和 scikit-learn 中显式启用。

下面是使用 PyTorch 在 CPU 上使用特征工程预处理器，然后将 calibration.CalibratedClassifierCV 和 linear_model.RidgeCV 一起在 GPU 上使用的摘录

ridge_pipeline_gpu = make_pipeline(
    # Ensure that all features (including categorical features) are preprocessed
    # on the CPU and mapped to a numerical representation.
    feature_preprocessor,
    # Move the results to the GPU and perform computations there
    FunctionTransformer(
        lambda x: torch.tensor(x.to_numpy().astype(np.float32), device="cuda"))
    ,
    CalibratedClassifierCV(
        RidgeClassifierCV(alphas=alphas), method="temperature"
    ),
)
with sklearn.config_context(array_api_dispatch=True):
    cv_results = cross_validate(ridge_pipeline_gpu, features, target)

有关更多详细信息，请参阅 Google Colab 上的完整笔记本。在这个特定示例中，使用 Colab GPU 与使用单个 CPU 核心相比，速度提高了 10 倍，这对于此类工作负载来说非常典型。

支持自由线程 CPython 3.14#

scikit-learn 支持自由线程 CPython，特别是对于 Python 3.14 上所有受支持的平台，均提供自由线程 wheel。

我们非常希望得到用户反馈。您可以尝试以下几项：

安装自由线程 CPython 3.14，运行您喜欢的 scikit-learn 脚本并检查是否没有意外中断。请注意，强烈建议使用 CPython 3.14（而不是 3.13），因为自 CPython 3.13 以来已修复了许多自由线程错误。
如果您使用带 n_jobs 参数的估计器，请尝试使用 joblib.parallel_config 将默认后端更改为线程，如以下代码片段所示。这可能会加快您的代码速度，因为默认的 joblib 后端是基于进程的，并且比线程产生更多的开销。
```
grid_search = GridSearchCV(clf, param_grid=param_grid, n_jobs=4)
with joblib.parallel_config(backend="threading"):
    grid_search.fit(X, y)
```
请通过打开 GitHub issue 毫不犹豫地报告任何问题或意外的性能行为！

自由线程（也称为 nogil）CPython 是 CPython 的一个版本，旨在通过删除全局解释器锁 (GIL) 来实现高效的多线程用例。

有关自由线程 CPython 的更多详细信息，请参阅 py-free-threading doc，特别是如何安装自由线程 CPython 和生态系统兼容性跟踪。

在 scikit-learn 中，对于自由线程 Python，希望通过在函数或估计器中传递 n_jobs>1 时使用线程工作器而不是子进程工作器进行并行计算，从而更有效地利用多核 CPU。通过消除对进程间通信的需求，有望提高效率。请注意，切换默认的 joblib 后端并测试所有功能在自由线程 Python 中是否正常运行是一项正在进行的长期努力。

`CalibratedClassifierCV` 中的温度缩放#

通过设置 method="temperature"，可以在 calibration.CalibratedClassifierCV 中使用温度缩放对分类器进行概率校准。此方法特别适用于多类问题，因为它使用单个自由参数提供（更好）校准的概率。这与所有其他可用的校准方法形成对比，后者使用“一对多”方案，为每个类添加更多参数。

from sklearn.calibration import CalibratedClassifierCV
from sklearn.datasets import make_classification
from sklearn.naive_bayes import GaussianNB

X, y = make_classification(n_classes=3, n_informative=8, random_state=42)
clf = GaussianNB().fit(X, y)
sig = CalibratedClassifierCV(clf, method="sigmoid", ensemble=False).fit(X, y)
ts = CalibratedClassifierCV(clf, method="temperature", ensemble=False).fit(X, y)

以下示例显示，在具有 3 个类的多类分类问题中，温度缩放可以产生比 sigmoid 校准更好的校准概率。

import matplotlib.pyplot as plt

from sklearn.calibration import CalibrationDisplay

fig, axes = plt.subplots(
    figsize=(8, 4.5),
    ncols=3,
    sharey=True,
)
for i, c in enumerate(ts.classes_):
    CalibrationDisplay.from_predictions(
        y == c, clf.predict_proba(X)[:, i], name="Uncalibrated", ax=axes[i], marker="s"
    )
    CalibrationDisplay.from_predictions(
        y == c,
        ts.predict_proba(X)[:, i],
        name="Temperature scaling",
        ax=axes[i],
        marker="o",
    )
    CalibrationDisplay.from_predictions(
        y == c, sig.predict_proba(X)[:, i], name="Sigmoid", ax=axes[i], marker="v"
    )
    axes[i].set_title(f"Class {c}")
    axes[i].set_xlabel(None)
    axes[i].set_ylabel(None)
    axes[i].get_legend().remove()
fig.suptitle("Reliability Diagrams per Class")
fig.supxlabel("Mean Predicted Probability")
fig.supylabel("Fraction of Class")
fig.legend(*axes[0].get_legend_handles_labels(), loc=(0.72, 0.5))
plt.subplots_adjust(right=0.7)
_ = fig.show()

Reliability Diagrams per Class, Class 0, Class 1, Class 2

线性模型中的效率改进#

对于基于平方误差且带有 L1 惩罚的估计器，拟合时间已大大减少：ElasticNet、Lasso、MultiTaskElasticNet、MultiTaskLasso 及其 CV 变体。拟合时间改进主要通过安全间隙筛选规则实现。它们使坐标下降求解器能够尽早将特征系数设置为零，并且不再查看它们。L1 惩罚越强，特征就可以越早地从进一步更新中排除。

from time import time

from sklearn.datasets import make_regression
from sklearn.linear_model import ElasticNetCV

X, y = make_regression(n_features=10_000, random_state=0)
model = ElasticNetCV()
tic = time()
model.fit(X, y)
toc = time()
print(f"Fitting ElasticNetCV took {toc - tic:.3} seconds.")

Fitting ElasticNetCV took 12.9 seconds.

估计器的 HTML 表示#

HTML 表示的下拉表格中的超参数现在包含指向在线文档的链接。将鼠标悬停在上面时，文档字符串描述也会显示为工具提示。

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

clf = make_pipeline(StandardScaler(), LogisticRegression(random_state=0, C=10))

通过点击“LogisticRegression”然后点击“Parameters”来展开下面的估计器图。

clf

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression',
                 LogisticRegression(C=10, random_state=0))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

带有 `criterion="absolute_error"` 的 DecisionTreeRegressor#

带有 criterion="absolute_error" 的 tree.DecisionTreeRegressor 现在运行速度快得多。现在它具有 O(n * log(n)) 复杂度，而之前是 O(n**2)，这使得它可以扩展到数百万个数据点。

作为一个例证，在包含 100,000 个样本和 1 个特征的数据集上，进行一次拆分大约需要 100 毫秒，而之前需要约 20 秒。

import time

from sklearn.datasets import make_regression
from sklearn.tree import DecisionTreeRegressor

X, y = make_regression(n_samples=100_000, n_features=1)
tree = DecisionTreeRegressor(criterion="absolute_error", max_depth=1)

tic = time.time()
tree.fit(X, y)
elapsed = time.time() - tic
print(f"Fit took {elapsed:.2f} seconds")

Fit took 0.13 seconds

ClassicalMDS#

Classical MDS，也称为“主坐标分析”（PCoA）或“Torgerson's scaling”，现在可在 sklearn.manifold 模块中使用。Classical MDS 接近 PCA，它不是近似距离，而是近似成对标量积，这在特征分解方面具有精确的解析解。

让我们通过在 S 曲线数据集上使用它来获得数据的低维表示，从而说明这一新增功能。

import matplotlib.pyplot as plt
from matplotlib import ticker

from sklearn import datasets, manifold

n_samples = 1500
S_points, S_color = datasets.make_s_curve(n_samples, random_state=0)
md_classical = manifold.ClassicalMDS(n_components=2)
S_scaling = md_classical.fit_transform(S_points)

fig = plt.figure(figsize=(8, 4))
ax1 = fig.add_subplot(1, 2, 1, projection="3d")
x, y, z = S_points.T
ax1.scatter(x, y, z, c=S_color, s=50, alpha=0.8)
ax1.set_title("Original S-curve samples", size=16)
ax1.view_init(azim=-60, elev=9)
for axis in (ax1.xaxis, ax1.yaxis, ax1.zaxis):
    axis.set_major_locator(ticker.MultipleLocator(1))

ax2 = fig.add_subplot(1, 2, 2)
x2, y2 = S_scaling.T
ax2.scatter(x2, y2, c=S_color, s=50, alpha=0.8)
ax2.set_title("Classical MDS", size=16)
for axis in (ax2.xaxis, ax2.yaxis):
    axis.set_major_formatter(ticker.NullFormatter())

plt.show()

脚本总运行时间： (0 minutes 13.717 seconds)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('standardscaler', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	penalty penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' 指定惩罚项的范数： - `None`: 不添加惩罚项； - `'l2'`: 添加 L2 惩罚项，这是默认选择； - `'l1'`: 添加 L1 惩罚项； - `'elasticnet'`: L1 和 L2 惩罚项均添加。 .. warning:: 某些惩罚项可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionadded:: 0.19 使用 SAGA solver 的 l1 惩罚（允许 'multinomial' + L1） .. deprecated:: 1.8 `penalty` 在版本 1.8 中已弃用，并将在 1.10 中删除。请改用 `l1_ratio`。`l1_ratio=0` 表示 `penalty='l2'`，`l1_ratio=1` 表示 `penalty='l1'`， `l1_ratio` 设置为 0 到 1 之间的任意浮点数表示 `'penalty='elasticnet'`。	'deprecated'
	C C: float, default=1.0 正则化强度的倒数；必须是正浮点数。与支持向量机类似，较小的值指定更强的正则化。`C=np.inf` 导致未惩罚的 Logistic Regression。有关使用 L1 惩罚调整 `C` 参数效果的视觉示例，请参见： :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`。	10
	l1_ratio l1_ratio: float, default=0.0 Elastic-Net 混合参数，`0 <= l1_ratio <= 1`。设置 `l1_ratio=1` 给出纯 L1 惩罚，设置 `l1_ratio=0` 给出纯 L2 惩罚。 0 到 1 之间的任何值给出形式为 `l1_ratio * L1 + (1 - l1_ratio) * L2` 的 Elastic-Net 惩罚。 .. warning:: 某些 `l1_ratio` 值（即某些惩罚项）可能不适用于某些 solver。请参见下面的参数 `solver`，以了解惩罚项与 solver 之间的兼容性。 .. versionchanged:: 1.8 默认值从 None 更改为 0.0。 .. deprecated:: 1.8 `None` 已弃用，并将在版本 1.10 中删除。始终使用 `l1_ratio` 来指定惩罚类型。	0.0
	dual dual: bool, default=False 对偶（受限）或原始（正则化，另请参见 :ref:`this equation `) 公式。对偶公式仅针对 liblinear solver 的 l2 惩罚实现。当 n_samples > n_features 时，فضل `dual=False`。	False
	tol tol: float, default=1e-4 停止标准的容差。	0.0001
	fit_intercept fit_intercept: bool, default=True 指定是否应将常量（也称为偏差或截距）添加到决策函数。	True
	intercept_scaling intercept_scaling: float, default=1 仅当使用 solver `liblinear` 且 `self.fit_intercept` 设置为 `True` 时有用。在这种情况下，`x` 变为 `[x, self.intercept_scaling]`，即一个常数值等于 `intercept_scaling` 的“合成”特征被附加到实例向量。截距变为 ``intercept_scaling * synthetic_feature_weight``。 .. note:: 合成特征权重像所有其他特征一样受到 L1 或 L2 正则化。为了减少正则化对合成特征权重（以及因此对截距）的影响，必须增加 `intercept_scaling`。	1
	class_weight class_weight: dict or 'balanced', default=None 与类关联的权重，形式为 ``{class_label: weight}``。如果未给出，则所有类假定权重为一。 “balanced”模式使用 y 的值根据输入数据中类频率的倒数自动调整权重，计算方式为 ``n_samples / (n_classes * np.bincount(y))``。请注意，如果指定了 sample_weight（通过 fit 方法传入），则这些权重将与 sample_weight 相乘。 .. versionadded:: 0.17 class_weight='balanced'	None
	random_state random_state: int, RandomState instance, default=None 当 ``solver`` == 'sag'、'saga' 或 'liblinear' 时用于打乱数据。有关详细信息，请参见 :term:`Glossary `。	0
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' 用于优化问题的算法。默认值为 'lbfgs'。要选择求解器，您可能需要考虑以下方面： - 'lbfgs' 是一个很好的默认求解器，因为它适用于各种问题。 - 对于 :term:`multiclass` 问题 (`n_classes >= 3`)，除 'liblinear' 外的所有求解器都会最小化完整多项式损失，'liblinear' 将引发错误。 - 'newton-cholesky' 是 `n_samples` >> `n_features * n_classes` 的一个很好的选择，尤其是对于具有稀有类别的独热编码分类特征。请注意，此求解器的内存使用量与 `n_features * n_classes` 呈二次关系，因为它显式计算完整的 Hessian 矩阵。 - 对于小型数据集，'liblinear' 是一个不错的选择，而 'sag' 和 'saga' 对于大型数据集更快； - 'liblinear' 默认只能处理二元分类。要在多类设置中应用一对多方案，可以使用 :class:`~sklearn.multiclass.OneVsRestClassifier` 包装它。 .. warning:: 算法的选择取决于所选的惩罚 (`l1_ratio=0` 用于 L2 惩罚，`l1_ratio=1` 用于 L1 惩罚，`0 < l1_ratio < 1` 用于 Elastic-Net) 和（多项式）多类支持： ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 yes 'liblinear' l1_ratio=1 or l1_ratio=0 no 'newton-cg' l1_ratio=0 yes 'newton-cholesky' l1_ratio=0 yes 'sag' l1_ratio=0 yes 'saga' 0<=l1_ratio<=1 yes ================= ======================== ====================== .. note:: 'sag' 和 'saga' 的快速收敛仅在具有大致相同尺度的特征上得到保证。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器对数据进行预处理。 .. seealso:: 有关 :class:`LogisticRegression` 的更多信息，请参阅 :ref:`User Guide `，特别是总结求解器/惩罚支持的 :ref:`Table `。 .. versionadded:: 0.17 随机平均梯度 (SAG) 下降求解器。版本 0.18 中的多项式支持。 .. versionadded:: 0.19 SAGA 求解器。 .. versionchanged:: 0.22 默认求解器从 'liblinear' 更改为 'lbfgs'，在 0.22 中。 .. versionadded:: 1.2 newton-cholesky 求解器。版本 1.6 中的多项式支持。	'lbfgs'
	max_iter max_iter: int, default=100 solver 收敛所需的最大迭代次数。	100
	verbose verbose: int, default=0 对于 liblinear 和 lbfgs solver，将 verbose 设置为任意正数以显示详细信息。	0
	warm_start warm_start: bool, default=False 设置为 True 时，重用上次调用 fit 的解决方案作为初始化，否则，擦除上一个解决方案。对于 liblinear solver 无用。有关详细信息，请参见 :term:`the Glossary `。 .. versionadded:: 0.17 warm_start 支持 lbfgs、newton-cg、sag、saga solver。	False
	n_jobs n_jobs: int, default=None 不产生任何效果。 .. deprecated:: 1.8 `n_jobs` 在版本 1.8 中已弃用，并将在 1.10 中删除。	None

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	True