注意

转到结尾下载完整的示例代码。或通过 JupyterLite 或 Binder 在浏览器中运行此示例

scikit-learn 1.5 版本亮点#

我们很高兴地宣布 scikit-learn 1.5 版本发布！添加了许多错误修复和改进，以及一些关键的新功能。下面我们详细介绍此版本的亮点。有关所有更改的详尽列表，请参阅发行说明。

要安装最新版本（使用 pip）

pip install --upgrade scikit-learn

或使用 conda

conda install -c conda-forge scikit-learn

FixedThresholdClassifier：设置二元分类器的决策阈值#

scikit-learn 的所有二元分类器都使用 0.5 的固定决策阈值将概率估计（即 predict_proba 的输出）转换为类预测。但是，对于给定的问题，0.5 几乎从来都不是所需的阈值。FixedThresholdClassifier 允许包装任何二元分类器并设置自定义决策阈值。

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import ConfusionMatrixDisplay


X, y = make_classification(n_samples=10_000, weights=[0.9, 0.1], random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

classifier_05 = LogisticRegression(C=1e6, random_state=0).fit(X_train, y_train)
_ = ConfusionMatrixDisplay.from_estimator(classifier_05, X_test, y_test)

降低阈值，即允许将更多样本分类为正类，会增加真阳性的数量，但代价是增加假阳性（正如 ROC 曲线的凹性所众所周知的那样）。

from sklearn.model_selection import FixedThresholdClassifier

classifier_01 = FixedThresholdClassifier(classifier_05, threshold=0.1)
classifier_01.fit(X_train, y_train)
_ = ConfusionMatrixDisplay.from_estimator(classifier_01, X_test, y_test)

TunedThresholdClassifierCV：调整二元分类器的决策阈值#

可以使用 TunedThresholdClassifierCV 调整二元分类器的决策阈值以优化给定指标。

当模型旨在部署在我们可以为真阳性、真阴性、假阳性和假阴性分配不同收益或成本的特定应用环境中时，查找最佳决策阈值特别有用。

让我们通过考虑一个任意情况来说明这一点：

每个真阳性产生 1 个单位的利润，例如欧元、健康生命年等；
真阴性没有收益或成本；
每个假阴性成本为 2；
每个假阳性成本为 0.1。

我们的指标量化每个样本的平均利润，这由以下 Python 函数定义

from sklearn.metrics import confusion_matrix


def custom_score(y_observed, y_pred):
    tn, fp, fn, tp = confusion_matrix(y_observed, y_pred, normalize="all").ravel()
    return tp - 2 * fn - 0.1 * fp


print("Untuned decision threshold: 0.5")
print(f"Custom score: {custom_score(y_test, classifier_05.predict(X_test)):.2f}")

Untuned decision threshold: 0.5
Custom score: -0.12

有趣的是，观察到每次预测的平均收益为负，这意味着此决策系统平均造成了损失。

调整阈值以优化此自定义指标会得到一个较小的阈值，该阈值允许将更多样本分类为正类。结果，每次预测的平均收益得到改善。

from sklearn.model_selection import TunedThresholdClassifierCV
from sklearn.metrics import make_scorer

custom_scorer = make_scorer(
    custom_score, response_method="predict", greater_is_better=True
)
tuned_classifier = TunedThresholdClassifierCV(
    classifier_05, cv=5, scoring=custom_scorer
).fit(X, y)

print(f"Tuned decision threshold: {tuned_classifier.best_threshold_:.3f}")
print(f"Custom score: {custom_score(y_test, tuned_classifier.predict(X_test)):.2f}")

Tuned decision threshold: 0.071
Custom score: 0.04

我们观察到，调整决策阈值可以将平均造成损失的基于机器学习的系统转变为有利的系统。

在实践中，定义有意义的特定于应用程序的指标可能涉及使不良预测的成本和良好预测的收益取决于每个单独数据点的辅助元数据，例如欺诈检测系统中的交易金额。

为此，TunedThresholdClassifierCV 利用元数据路由支持 (元数据路由用户指南)，允许优化复杂的业务指标，如成本敏感学习的决策阈值后调整中所述。

PCA 的性能改进#

PCA 有一个新的求解器 "covariance_eigh"，对于具有许多数据点和少量特征的数据集，它的速度比其他求解器快一个数量级，并且内存效率更高。

from sklearn.datasets import make_low_rank_matrix
from sklearn.decomposition import PCA

X = make_low_rank_matrix(
    n_samples=10_000, n_features=100, tail_strength=0.1, random_state=0
)

pca = PCA(n_components=10, svd_solver="covariance_eigh").fit(X)
print(f"Explained variance: {pca.explained_variance_ratio_.sum():.2f}")

Explained variance: 0.88

新的求解器也接受稀疏输入数据

from scipy.sparse import random

X = random(10_000, 100, format="csr", random_state=0)

pca = PCA(n_components=10, svd_solver="covariance_eigh").fit(X)
print(f"Explained variance: {pca.explained_variance_ratio_.sum():.2f}")

Explained variance: 0.13

"full" 求解器也得到了改进，以使用更少的内存并允许更快的转换。默认的 svd_solver="auto"` 选项利用了新的求解器，现在能够为稀疏数据集选择合适的求解器。

与大多数其他 PCA 求解器类似，新的 "covariance_eigh" 求解器如果输入数据作为 PyTorch 或 CuPy 数组传递，则可以通过启用对 Array API 的实验性支持来利用 GPU 计算。

ColumnTransformer 可被索引#

ColumnTransformer 的转换器现在可以使用按名称索引直接访问。

import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

X = np.array([[0, 1, 2], [3, 4, 5]])
column_transformer = ColumnTransformer(
    [("std_scaler", StandardScaler(), [0]), ("one_hot", OneHotEncoder(), [1, 2])]
)

column_transformer.fit(X)

print(column_transformer["std_scaler"])
print(column_transformer["one_hot"])

StandardScaler()
OneHotEncoder()

SimpleImputer 的自定义插补策略#

SimpleImputer 现在支持使用可计算列向量非缺失值的标量值的callable进行自定义插补策略。

from sklearn.impute import SimpleImputer

X = np.array(
    [
        [-1.1, 1.1, 1.1],
        [3.9, -1.2, np.nan],
        [np.nan, 1.3, np.nan],
        [-0.1, -1.4, -1.4],
        [-4.9, 1.5, -1.5],
        [np.nan, 1.6, 1.6],
    ]
)


def smallest_abs(arr):
    """Return the smallest absolute value of a 1D array."""
    return np.min(np.abs(arr))


imputer = SimpleImputer(strategy=smallest_abs)

imputer.fit_transform(X)

array([[-1.1,  1.1,  1.1],
       [ 3.9, -1.2,  1.1],
       [ 0.1,  1.3,  1.1],
       [-0.1, -1.4, -1.4],
       [-4.9,  1.5, -1.5],
       [ 0.1,  1.6,  1.6]])

具有非数值数组的成对距离#

pairwise_distances 现在可以使用可调用度量计算非数值数组之间的距离。

from sklearn.metrics import pairwise_distances

X = ["cat", "dog"]
Y = ["cat", "fox"]


def levenshtein_distance(x, y):
    """Return the Levenshtein distance between two strings."""
    if x == "" or y == "":
        return max(len(x), len(y))
    if x[0] == y[0]:
        return levenshtein_distance(x[1:], y[1:])
    return 1 + min(
        levenshtein_distance(x[1:], y),
        levenshtein_distance(x, y[1:]),
        levenshtein_distance(x[1:], y[1:]),
    )


pairwise_distances(X, Y, metric=levenshtein_distance)

array([[0., 3.],
       [3., 2.]])

脚本的总运行时间：（0 分钟 0.723 秒）