注意

转到末尾以下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

scikit-learn 1.2 版本亮点#

我们很高兴地宣布发布 scikit-learn 1.2！添加了许多错误修复和改进，以及一些新的关键功能。下面我们将详细介绍此版本的一些主要功能。有关所有更改的详尽列表，请参阅发行说明。

要安装最新版本（使用 pip）

pip install --upgrade scikit-learn

或使用 conda

conda install -c conda-forge scikit-learn

使用 `set_output` API 的 Pandas 输出#

scikit-learn 的转换器现在支持使用 set_output API 的 pandas 输出。要了解有关 set_output API 的更多信息，请参阅示例：介绍 set_output API 和 # 这个视频，scikit-learn 转换器的 pandas DataFrame 输出（一些示例）。

import numpy as np

from sklearn.compose import ColumnTransformer
from sklearn.datasets import load_iris
from sklearn.preprocessing import KBinsDiscretizer, StandardScaler

X, y = load_iris(as_frame=True, return_X_y=True)
sepal_cols = ["sepal length (cm)", "sepal width (cm)"]
petal_cols = ["petal length (cm)", "petal width (cm)"]

preprocessor = ColumnTransformer(
    [
        ("scaler", StandardScaler(), sepal_cols),
        (
            "kbin",
            KBinsDiscretizer(encode="ordinal", quantile_method="averaged_inverted_cdf"),
            petal_cols,
        ),
    ],
    verbose_feature_names_out=False,
).set_output(transform="pandas")

X_out = preprocessor.fit_transform(X)
X_out.sample(n=5, random_state=0)

	萼片长度 (cm)	萼片宽度 (cm)	花瓣长度 (cm)	花瓣宽度 (cm)
114	-0.052506	-0.592373	3.0	4.0
62	0.189830	-1.973554	2.0	1.0
33	-0.416010	2.630382	0.0	1.0
107	1.765012	-0.362176	4.0	3.0
7	-1.021849	0.788808	1.0	1.0

基于直方图的梯度提升树中的交互约束#

HistGradientBoostingRegressor 和 HistGradientBoostingClassifier 现在支持使用 interaction_cst 参数的交互约束。有关详细信息，请参阅用户指南。在以下示例中，特征不允许交互。

from sklearn.datasets import load_diabetes
from sklearn.ensemble import HistGradientBoostingRegressor

X, y = load_diabetes(return_X_y=True, as_frame=True)

hist_no_interact = HistGradientBoostingRegressor(
    interaction_cst=[[i] for i in range(X.shape[1])], random_state=0
)
hist_no_interact.fit(X, y)

HistGradientBoostingRegressor(interaction_cst=[[0], [1], [2], [3], [4], [5],
                                               [6], [7], [8], [9]],
                              random_state=0)

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

新的和增强的显示#

PredictionErrorDisplay 提供了一种定性分析回归模型的方法。

import matplotlib.pyplot as plt

from sklearn.metrics import PredictionErrorDisplay

fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))
_ = PredictionErrorDisplay.from_estimator(
    hist_no_interact, X, y, kind="actual_vs_predicted", ax=axs[0]
)
_ = PredictionErrorDisplay.from_estimator(
    hist_no_interact, X, y, kind="residual_vs_predicted", ax=axs[1]
)

LearningCurveDisplay 现在可用于绘制 learning_curve 的结果。

from sklearn.model_selection import LearningCurveDisplay

_ = LearningCurveDisplay.from_estimator(
    hist_no_interact, X, y, cv=5, n_jobs=2, train_sizes=np.linspace(0.1, 1, 5)
)

PartialDependenceDisplay 公开了一个新参数 categorical_features，用于使用条形图和热图显示分类特征的部分依赖性。

from sklearn.datasets import fetch_openml

X, y = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=True, parser="pandas"
)
X = X.select_dtypes(["number", "category"]).drop(columns=["body"])

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OrdinalEncoder

categorical_features = ["pclass", "sex", "embarked"]
model = make_pipeline(
    ColumnTransformer(
        transformers=[("cat", OrdinalEncoder(), categorical_features)],
        remainder="passthrough",
    ),
    HistGradientBoostingRegressor(random_state=0),
).fit(X, y)

from sklearn.inspection import PartialDependenceDisplay

fig, ax = plt.subplots(figsize=(14, 4), constrained_layout=True)
_ = PartialDependenceDisplay.from_estimator(
    model,
    X,
    features=["age", "sex", ("pclass", "sex")],
    categorical_features=categorical_features,
    ax=ax,
)

`fetch_openml` 中更快的解析器#

fetch_openml 现在支持新的 "pandas" 解析器，该解析器具有更高的内存和 CPU 效率。在 v1.4 中，默认值将更改为 parser="auto"，它将自动对密集数据使用 "pandas" 解析器，对稀疏数据使用 "liac-arff" 解析器。

X, y = fetch_openml(
    "titanic", version=1, as_frame=True, return_X_y=True, parser="pandas"
)
X.head()

	pclass	名称	性别	age	sibsp	parch	ticket	fare	cabin	embarked	boat	body	home.dest
0	1	Allen, Miss. Elisabeth Walton	female	29.0000	0	0	24160	211.3375	B5	S	2	NaN	St Louis, MO
1	1	Allison, Master. Hudson Trevor	male	0.9167	1	2	113781	151.5500	C22 C26	S	11	NaN	Montreal, PQ / Chesterville, ON
2	1	Allison, Miss. Helen Loraine	female	2.0000	1	2	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON
3	1	Allison, Mr. Hudson Joshua Creighton	male	30.0000	1	2	113781	151.5500	C22 C26	S	NaN	135.0	Montreal, PQ / Chesterville, ON
4	1	Allison, Mrs. Hudson J C (Bessie Waldo Daniels)	female	25.0000	1	2	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON

`LinearDiscriminantAnalysis` 中的实验性 Array API 支持#

LinearDiscriminantAnalysis 添加了对 Array API 规范的实验性支持。该估计器现在可以在任何符合 Array API 的库上运行，例如 CuPy，一个 GPU 加速的数组库。有关详细信息，请参阅用户指南。

许多估计器的效率提高#

在版本 1.1 中，许多依赖于成对距离计算的估计器（主要是与聚类、流形学习和邻域搜索算法相关的估计器）对于 float64 密集输入进行了大幅改进。效率改进尤其是内存占用减少和在多核机器上更好的可扩展性。在版本 1.2 中，这些估计器在 float32 和 float64 数据集上对密集和稀疏输入的所有组合进行了进一步改进，除了欧几里得距离和平方欧几里得距离指标的稀疏-密集和密集-稀疏组合。受影响估计器的详细列表可在更新日志中找到。

脚本总运行时间： (0 minutes 5.676 seconds)

	loss loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' 提升过程中使用的损失函数。请注意，“squared error”、“gamma”和“poisson”损失实际上实现了“半最小二乘损失”、“半伽马离差”和“半泊松离差”，以简化梯度计算。此外，“gamma”和“poisson”损失内部使用对数链接，“gamma”要求 ``y > 0``，而“poisson”要求 ``y >= 0``。 “quantile”使用 pinball loss。 .. versionchanged:: 0.23 添加了选项 'poisson'。 .. versionchanged:: 1.1 添加了选项 'quantile'。 .. versionchanged:: 1.3 添加了选项 'gamma'。	'squared_error'
	quantile quantile: float, default=None 如果 loss 为 "quantile"，此参数指定要估计的分位数，并且必须介于 0 和 1 之间。	None
	learning_rate learning_rate: float, default=0.1 学习率，也称为收缩率。这用作叶子值的乘法因子。使用 ``1`` 表示无收缩。	0.1
	max_iter max_iter: int, default=100 提升过程的最大迭代次数，即最大树数。	100
	max_leaf_nodes max_leaf_nodes: int or None, default=31 每棵树的最大叶子数。必须严格大于 1。如果为 None，则没有最大限制。	31
	max_depth max_depth: int or None, default=None 每棵树的最大深度。树的深度是从根到最深叶子的边数。默认情况下不限制深度。	None
	min_samples_leaf min_samples_leaf: int, default=20 每个叶子的最小样本数。对于少于几百个样本的小数据集，建议降低此值，因为只会构建非常浅的树。	20
	l2_regularization l2_regularization: float, default=0 L2 正则化参数，惩罚具有小 hessians 的叶子。使用 ``0`` 表示无正则化（默认）。	0.0
	max_features max_features: float, default=1.0 每个节点拆分中随机选择的特征比例。这是一种正则化形式，较小的值使树成为较弱的学习器，并可能防止过拟合。如果存在来自 `interaction_cst` 的交互约束，则只考虑允许的特征进行子采样。 .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 用于非缺失值的最大分箱数。在训练之前，输入数组 `X` 的每个特征都被分箱为整数值分箱，这使得训练阶段快得多。具有少量唯一值的特征可能使用少于 ``max_bins`` 个分箱。除了 ``max_bins`` 个分箱之外，始终为缺失值保留一个分箱。必须不大于 255。	255
	categorical_features categorical_features: 形状为 (n_features) 或 (n_categorical_features,) 的 {bool, int, str} 数组类对象，默认值为 'from_dtype' 指示分类特征。 - None：不考虑任何特征为分类特征。 - boolean 数组类对象：布尔掩码指示分类特征。 - integer 数组类对象：整数索引指示分类特征。 - str 数组类对象：分类特征的名称（假设训练数据具有特征名称）。 - `"from_dtype"`：dtype 为 "category" 的 dataframe 列被视为分类特征。输入必须是公开 ``__dataframe__`` 方法的对象，例如 pandas 或 polars DataFrames 才能使用此功能。对于每个分类特征，必须最多有 `max_bins` 个唯一类别。编码为数字 dtype 的分类特征的负值被视为缺失值。所有分类值都转换为浮点数。这意味着分类值 1.0 和 1 被视为同一类别。在 :ref:`User Guide ` 和 :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py` 中阅读更多内容。 .. versionadded:: 0.24 .. versionchanged:: 1.2 添加了对特征名称的支持。 .. versionchanged:: 1.4 添加了 `"from_dtype"` 选项。 .. versionchanged:: 1.6 默认值从 `None` 更改为 `"from_dtype"`。	'from_dtype'
	monotonic_cst monotonic_cst: array-like of int of shape (n_features) or dict, default=None 对每个特征强制执行的单调约束使用以下整数值指定： - 1: 单调增加 - 0: 无约束 - -1: 单调减少如果为带有 str 键的 dict，则按名称将特征映射到单调约束。如果为 array，则按位置将特征映射到约束。有关使用示例，请参阅 :ref:`monotonic_cst_features_names`。在 :ref:`User Guide ` 中阅读更多内容。 .. versionadded:: 0.23 .. versionchanged:: 1.2 接受以特征名称为键的约束 dict。	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} 或 int 列表/元组/集合的序列，默认值=None 指定交互约束，即允许在子节点拆分中相互交互的特征集。每个项指定允许相互交互的特征索引集。如果特征数量多于这些约束中指定的数量，则它们被视为指定为附加集。字符串 "pairwise" 和 "no_interactions" 分别是仅允许成对交互或不允许交互的简写。例如，对于总共 5 个特征，`interaction_cst=[{0, 1}]` 等价于 `interaction_cst=[{0, 1}, {2, 3, 4}]`，并且指定树的每个分支要么只拆分特征 0 和 1，要么只拆分特征 2、3 和 4。请参阅 :ref:`this example` 了解如何使用 `interaction_cst`。 .. versionadded:: 1.2	[[0], [1], ...]
	warm_start warm_start: bool, default=False 当设置为 ``True`` 时，重用对 fit 的前一次调用的解决方案，并向集成添加更多估计器。为了使结果有效，估计器应仅在相同数据上重新训练。请参阅 :term:`Glossary `。	False
	early_stopping early_stopping: 'auto' or bool, default='auto' 如果为 'auto'，则如果样本大小大于 10000 或者如果将 `X_val` 和 `y_val` 传递给 `fit`，则启用提前停止。如果为 True，则启用提前停止，否则禁用提前停止。 .. versionadded:: 0.23	'auto'
	scoring scoring: str or callable or None, default='loss' 用于提前停止的评分方法。仅当启用 `early_stopping` 时使用。选项： - str: 有关选项，请参阅 :ref:`scoring_string_names`。 - callable: 具有签名 ``scorer(estimator, X, y)`` 的评分器可调用对象（例如函数）。有关详细信息，请参阅 :ref:`scoring_callable`。 - `None`: 使用 :ref:`决定系数 ` (:math:`R^2`)。 - 'loss': 根据损失值检查提前停止。	'loss'
	validation_fraction validation_fraction: int or float or None, default=0.1 用于提前停止的训练数据中留出作为验证数据的比例（或绝对大小）。如果为 None，则在训练数据上进行提前停止。如果未执行提前停止（例如 `early_stopping=False`）或者如果将 `X_val` 和 `y_val` 传递给 fit，则忽略此值。	0.1
	n_iter_no_change n_iter_no_change: int, default=10 用于确定何时“提前停止”。当最后 ``n_iter_no_change`` 个分数都没有比倒数第 ``n_iter_no_change - 1`` 个分数好（在一定的容差范围内）时，拟合过程停止。仅当执行提前停止时使用。	10
	tol tol: float, default=1e-7 在提前停止期间比较分数时使用的绝对容差。容差越高，我们越有可能提前停止：较高的容差意味着后续迭代更难被认为是参考分数的改进。	1e-07
	verbose verbose: int, default=0 详细程度级别。如果不为零，则打印有关拟合过程的一些信息。``1`` 只打印摘要信息，``2`` 打印每次迭代的信息。	0
	random_state random_state: int, RandomState instance or None, default=None 伪随机数生成器，用于控制分箱过程中的子采样，以及如果启用提前停止时的训练/验证数据拆分。传递一个 int 值以在多次函数调用中获得可重现的输出。请参阅 :term:`Glossary `。	0