版本 1.3#

有关发布主要亮点简短说明，请参阅 scikit-learn 1.3 的发布亮点。

更新日志图例

重大功能以前无法实现的大功能。
功能以前无法实现的功能。
效率提升现有功能现在可能不需要那么多计算或内存。
增强一般性的小改进。
修复以前无法按文档或合理预期工作的问题现在应该可以了。
API 变更未来你需要更改代码才能达到相同的效果；或者未来某个功能将被移除。

版本 1.3.2#

2023 年 10 月

更新日志#

`sklearn.datasets`#

修复所有数据集获取器现在都接受 data_home 作为实现了 os.PathLike 接口的任何对象，例如 pathlib.Path。 #27468，作者 Yao Xiao。

`sklearn.decomposition`#

修复通过强制内部 preprocessing.KernelCenterer 的输出为默认数组，修复了 decomposition.KernelPCA 中的一个错误。当使用 arpack 求解器时，它需要一个具有 dtype 属性的数组。 #27583，作者 Guillaume Lemaitre。

`sklearn.metrics`#

修复修复了在并行循环（例如 cross_val_score）中使用 zero_division=np.nan（例如 precision_score）的度量标准中的一个错误，其中子进程中的 np.nan 的单例将不同。 #27573，作者 Guillaume Lemaitre。

`sklearn.tree`#

修复不会在决策树 pickle 文件中通过未初始化的内存泄露数据，并使这些文件的生成具有确定性。 #27580，作者 Loïc Estève。

版本 1.3.1#

2023 年 9 月

变更模型#

以下估计器和函数在用相同数据和参数拟合时，可能会产生与上一个版本不同的模型。这通常是由于建模逻辑（bug 修复或增强）或随机采样过程的更改所致。

修复具有 solver='sparse_cg' 的 Ridge 模型可能与 scipy>=1.12 产生略有不同的结果，因为 scipy 求解器发生了底层变化（有关更多详细信息，请参阅 scipy#18488） #26814，作者 Loïc Estève

影响所有模块的变更#

修复 set_output API 可以与列表输入正确配合。 #27044，作者 Thomas Fan。

更新日志#

`sklearn.calibration`#

修复 calibration.CalibratedClassifierCV 现在可以处理生成大预测分数的模型。以前它在数值上不稳定。 #26913，作者 Omar Salman。

`sklearn.cluster`#

修复 cluster.BisectingKMeans 在对与用于拟合模型的模型具有不同尺度的数据进行预测时可能会崩溃。 #27167，作者 Olivier Grisel。
修复 cluster.BisectingKMeans 现在可以处理只有一个特征的数据。 #27243，作者 Jérémie du Boisberranger。

`sklearn.cross_decomposition`#

修复当使用一维 y 进行拟合时，cross_decomposition.PLSRegression 现在会自动展平 predict 的输出。 #26602，作者 Yao Xiao。

`sklearn.ensemble`#

修复修复了 ensemble.AdaBoostClassifier 中使用 algorithm="SAMME" 时的一个错误，其中每个弱学习器的决策函数应该是对称的（即，样本的分数之和应为零）。 #26521，作者 Guillaume Lemaitre。

`sklearn.feature_selection`#

修复当 X 是整数类型时，feature_selection.mutual_info_regression 现在可以正确计算结果。 #26748，作者 Yao Xiao。

`sklearn.impute`#

修复当 add_indicator 设置为 True 并在 fit 期间观察到缺失值时，impute.KNNImputer 现在可以在 transform 中正确添加缺失指示符列。 #26600，作者 Shreesha Kumar Bhat。

`sklearn.metrics`#

修复与 metrics.get_scorer 一起使用的评分器可以正确处理多标签指示矩阵。 #27002，作者 Guillaume Lemaitre。

`sklearn.mixture`#

修复从用户提供的 precisions_init 初始化 full 或 tied 的 covariance_type 的 mixture.GaussianMixture 是不正确的，现已修复。 #26416，作者 Yang Tao。

`sklearn.neighbors`#

修复 neighbors.KNeighborsClassifier.predict 不再因 pandas.DataFrames 输入而引发异常。 #26772，作者 Jérémie du Boisberranger。
修复重新引入 sklearn.neighbors.BallTree.valid_metrics 和 sklearn.neighbors.KDTree.valid_metrics 作为公共类属性。 #26754，作者 Julien Jerphanion。
修复当 param_distributions 参数的输入是字典列表时，sklearn.model_selection.HalvingRandomSearchCV 不再引发错误。 #26893，作者 Stefanie Senger。
修复基于邻居的估计器现在可以在 metric="minkowski" 且度量参数 p 在范围 0 < p < 1 内时正确工作，而与 X 的 dtype 无关。 #26760，作者 Shreesha Kumar Bhat。

`sklearn.preprocessing`#

修复 preprocessing.LabelEncoder 现在可以正确地将 y 作为关键字参数接受。 #26940，作者 Thomas Fan。
修复当 sparse_output=True 且输出配置为 pandas 时，preprocessing.OneHotEncoder 会显示更具信息量的错误消息。 #26931，作者 Thomas Fan。

`sklearn.tree`#

修复 tree.plot_tree 现在接受 class_names=True，如文档所述。 #26903，作者 Thomas Roehr
修复 tree.plot_tree 的 feature_names 参数现在接受任何类数组（array-like）而不是仅列表。 #27292，作者 Rahil Parikh。

版本 1.3.0#

2023 年 6 月

更改的模型#

以下估计器和函数在用相同数据和参数拟合时，可能会产生与上一个版本不同的模型。这通常是由于建模逻辑（bug 修复或增强）或随机采样过程的更改所致。

增强 multiclass.OutputCodeClassifier.predict 现在使用更高效的成对距离约简。因此，平局策略不同，预测标签也可能不同。 #25196，作者 Guillaume Lemaitre。
增强 decomposition.DictionaryLearning 的 fit_transform 方法效率更高，但当 transform_algorithm 与 fit_algorithm 不同且迭代次数较少时，其结果可能与以前的版本不同。 #24871，作者 Omar Salman。
增强 sample_weight 参数现在将用于 cluster.KMeans、cluster.BisectingKMeans 和 cluster.MiniBatchKMeans 的质心初始化。此更改将破坏向后兼容性，因为使用相同随机种子的生成数字将不同。 #25752，作者 Hleb Levitski、Jérémie du Boisberranger、Guillaume Lemaitre。
修复在 decomposition.NMF 和 decomposition.MiniBatchNMF 的 fit 和 transform 步骤中，对 W 和 H 矩阵中的小值进行了更一致的处理，这可能产生与先前版本不同的结果。 #25438，作者 Yotam Avidar-Constantini。
修复当 gamma 为 None 时，decomposition.KernelPCA 通过 inverse_transform 可能会产生不同的结果。现在它将被正确选择为拟合其的数据的 1/n_features，而以前它可能被错误地选择为传递给 inverse_transform 的数据的 1/n_features。提供了一个新属性 gamma_ 来显示每次调用核函数时使用的 gamma 的实际值。 #26337，作者 Yao Xiao。

更改的显示#

增强 model_selection.LearningCurveDisplay 默认显示训练和测试曲线。您可以设置 score_type="test" 来保留之前的行为。 #25120，作者 Guillaume Lemaitre。
修复 model_selection.ValidationCurveDisplay 现在接受将列表传递给 param_range 参数。 #27311，作者 Arturo Amor。

影响所有模块的更改#

增强以下类的 get_feature_names_out 方法现在如果实例未被拟合，则会引发 NotFittedError。这确保了所有具有 get_feature_names_out 方法的估计器中的错误是一致的。
NotFittedError 会显示一条信息性消息，要求使用适当的参数来拟合实例。

#25294, #25308, #25291, #25367, #25402，作者 John Pangas, Rahil Parikh , 和 Alex Buzenet。
增强添加了一个多线程 Cython 例程，用于计算稀疏 CSR 矩阵和密集 NumPy 组成的两个数据集之间的平方欧几里得距离（有时后面跟着一个融合约简操作）。

这可以提高以下函数和估计器的性能
这种性能改进的一个典型示例发生在将稀疏 CSR 矩阵传递给依赖于密集 NumPy 表示来存储其拟合参数（或反之）的估计器的 predict 或 transform 方法时。

例如，对于常见笔记本电脑上的这种情况，sklearn.neighbors.NearestNeighbors.kneighbors 的速度现在最多可提高 2 倍。

#25044，作者 Julien Jerphanion。
增强所有内部依赖 OpenMP 多线程（通过 Cython）的估计器，现在默认使用与物理核心（而非逻辑核心）数量相同的线程数。过去，我们观察到在 SMT 主机上使用与逻辑核心一样多的线程可能会因算法和数据形状的不同而导致严重的性能问题。请注意，仍然可以手动调整 OpenMP 使用的线程数，如并行性中所述。

#26082，作者 Jérémie du Boisberranger 和 Olivier Grisel。

实验性/开发中#

主要功能元数据路由的相关基方法包含在此版本中。此功能仅可通过 enable_metadata_routing 功能标志访问，该标志可以使用 sklearn.set_config 和 sklearn.config_context 启用。目前此功能主要对第三方开发人员有用，以便他们为代码库准备元数据路由，我们强烈建议他们也将其隐藏在相同的功能标志下，而不是默认启用它。 #24027，作者 Adrin Jalali、Benjamin Bossan 和 Omar Salman。

更新日志#

`sklearn`#

功能向 sklearn.set_config 函数和上下文管理器 sklearn.config_context 添加了一个新选项 skip_parameter_validation，允许跳过传递给估计器和公共函数的参数的验证。这有助于加快代码速度，但应谨慎使用，因为它可能导致意外行为或在设置无效参数时引发晦涩的错误消息。 #25815，作者 Jérémie du Boisberranger。

`sklearn.base`#

功能现在提供了一个 __sklearn_clone__ 协议来覆盖 base.clone 的默认行为。 #24568，作者 Thomas Fan。
修复 base.TransformerMixin 现在会在 transform 返回命名元组（namedtuple）时保留命名元组的类。 #26121，作者 Thomas Fan。

`sklearn.calibration`#

修复 calibration.CalibratedClassifierCV 现在不会对 fit_params 强制执行样本对齐。 #25805，作者 Adrin Jalali。

`sklearn.cluster`#

主要功能添加了 cluster.HDBSCAN，这是一种现代的基于密度的分层聚类算法。与 cluster.OPTICS 类似，它可以被视为 cluster.DBSCAN 的泛化，允许分层而不是扁平聚类，但它在方法上与 cluster.OPTICS 不同。该算法对其超参数值具有很强的鲁棒性，并且可以在各种数据上使用，几乎不需要调整。

此实现改编自 scikit-learn-contrib/hdbscan 中 HDBSCAN 的原始实现，作者为 Leland McInnes 等人。

#26385，作者 Meekail Zain
增强 sample_weight 参数现在将用于 cluster.KMeans、cluster.BisectingKMeans 和 cluster.MiniBatchKMeans 的质心初始化。此更改将破坏向后兼容性，因为使用相同随机种子的生成数字将不同。 #25752，作者 Hleb Levitski、Jérémie du Boisberranger、Guillaume Lemaitre。
修复 cluster.KMeans、cluster.MiniBatchKMeans 和 cluster.k_means 现在可以正确处理 n_init="auto" 和 init 是数组（array-like）的组合，在这种情况下将运行一次初始化。 #26657，作者 Binesh Bannerjee。
API 更改 cluster.KMeans.predict 和 cluster.MiniBatchKMeans.predict 中的 sample_weight 参数现已弃用，将在 v1.5 中移除。 #25251，作者 Hleb Levitski。
API 更改 cluster.FeatureAgglomeration.inverse_transform 中的 Xred 参数已重命名为 Xt，并将在 v1.5 中移除。 #26503，作者 Adrin Jalali。

`sklearn.compose`#

修复当 compose.ColumnTransformer 的各个转换器生成索引不一致的 pandas DataFrames，并且输出配置为 pandas 时，compose.ColumnTransformer 会引发信息性错误。 #26286，作者 Thomas Fan。
修复当调用 set_output 时，compose.ColumnTransformer 会正确设置剩余部分的输出。 #26323，作者 Thomas Fan。

`sklearn.covariance`#

修复允许 covariance.GraphicalLasso 中的 alpha=0 与 covariance.graphical_lasso 一致。 #26033，作者 Genesis Valencia。
修复当输入不合适时，covariance.empirical_covariance 现在会给出信息性错误消息。 #26108，作者 Quentin Barthélemy。
API 更改 covariance.graphical_lasso 中的 cov_init 参数在 1.3 版本中已弃用，因为它没有效果。它将在 1.5 版本中移除。 #26033，作者 Genesis Valencia。
API 更改在 covariance.GraphicalLasso 和 covariance.GraphicalLassoCV 中添加了已拟合属性 costs_。 #26033，作者 Genesis Valencia。
API 更改在 covariance.GraphicalLasso 中添加了 covariance 参数。 #26033，作者 Genesis Valencia。
API 更改在 covariance.GraphicalLasso、covariance.graphical_lasso 和 covariance.GraphicalLassoCV 中添加了 eps 参数。 #26033，作者 Genesis Valencia。

`sklearn.datasets`#

增强允许使用 read_csv_kwargs 参数来覆盖打开 ARFF 文件时使用的参数，该参数位于 datasets.fetch_openml 中，当使用 pandas 解析器时。 #26433，作者 Guillaume Lemaitre。
修复当 as_frame=True 和 parser="liac-arff" 时，datasets.fetch_openml 返回改进的数据类型。 #26386，作者 Thomas Fan。
修复遵循 ARFF 规范，当使用 pandas 解析器通过 datasets.fetch_openml 获取 ARFF 文件时，只有标记 "?" 被视为缺失值。 read_csv_kwargs 参数允许覆盖此行为。 #26551，作者 Guillaume Lemaitre。
修复当使用 pandas 解析器 "pandas" 和 "liac-arff" 时，datasets.fetch_openml 将一致地使用 np.nan 作为缺失标记。 #26579，作者 Guillaume Lemaitre。
API 更改 datasets.make_sparse_coded_signal 的 data_transposed 参数已弃用，将在 v1.5 中移除。 #25784，作者 @Jérémie du Boisberranger。

`sklearn.decomposition`#

效率 decomposition.MiniBatchDictionaryLearning 和 decomposition.MiniBatchSparsePCA 对于小批量大小现在更快，方法是避免重复验证。 #25490，作者 Jérémie du Boisberranger。
增强 decomposition.DictionaryLearning 现在接受 callback 参数，以与函数 decomposition.dict_learning 保持一致。 #24871，作者 Omar Salman。
修复在 decomposition.NMF 和 decomposition.MiniBatchNMF 的 fit 和 transform 步骤中，对 W 和 H 矩阵中的小值进行了更一致的处理，这可能产生与先前版本不同的结果。 #25438，作者 Yotam Avidar-Constantini。
API 更改 decomposition.NMF.inverse_transform 和 decomposition.MiniBatchNMF.inverse_transform 中的 W 参数已重命名为 Xt，并将在 v1.5 中移除。 #26503，作者 Adrin Jalali。

`sklearn.discriminant_analysis`#

增强 discriminant_analysis.LinearDiscriminantAnalysis 现在支持 PyTorch。有关更多详细信息，请参阅 Array API 支持（实验性）。 #25956，作者 Thomas Fan。

`sklearn.ensemble`#

功能 ensemble.HistGradientBoostingRegressor 现在通过 loss="gamma" 支持 Gamma 偏差损失。使用 Gamma 偏差作为损失函数有助于模拟偏态分布、严格正值目标。 #22409，作者 Christian Lorentzen。
功能通过将可调用对象传递给 ensemble.RandomForestClassifier、ensemble.RandomForestRegressor、ensemble.ExtraTreesClassifier 和 ensemble.ExtraTreesRegressor，来计算自定义袋外分数。 #25177，作者 Tim Head。
功能 ensemble.GradientBoostingClassifier 现在通过 oob_scores_ 或 oob_score_ 属性公开袋外分数。 #24882，作者 Ashwin Mathur。
效率 ensemble.IsolationForest 的预测时间现在更快（通常快 8 倍或更多）。内部，估计器现在在 fit 时间预先计算每个树的决策路径长度。因此，无法加载使用 scikit-learn 1.2 训练的估计器来使其进行 scikit-learn 1.3 的预测：需要使用 scikit-learn 1.3 进行重新训练。 #25186，作者 Felipe Breve Siola。
效率具有 warm_start=True 的 ensemble.RandomForestClassifier 和 ensemble.RandomForestRegressor，现在只有在后续 fit 调用中实际有更多 n_estimators 时才会重新计算袋外分数。 #26318，作者 Joshua Choo Yun Keat。
增强 ensemble.BaggingClassifier 和 ensemble.BaggingRegressor 公开了底层估计器的 allow_nan 标签。 #25506，作者 Thomas Fan。
修复当 max_samples 是浮点数且 round(n_samples * max_samples) < 1 时，ensemble.RandomForestClassifier.fit 设置 max_samples = 1。 #25601，作者 Jan Fidor。
修复当使用 pandas DataFrame 调用 contamination 不为 "auto" 时，ensemble.IsolationForest.fit 不再警告缺失的特征名称。 #25931，作者 Yao Xiao。
修复 ensemble.HistGradientBoostingRegressor 和 ensemble.HistGradientBoostingClassifier 将分类特征的负值视为缺失值，遵循 LightGBM 和 pandas 的约定。 #25629，作者 Thomas Fan。
修复修复了 ensemble.AdaBoostClassifier 和 ensemble.AdaBoostRegressor 中 #23819 中引入的 base_estimator 的弃用警告。 #26242，作者 Marko Toplak。

`sklearn.exceptions`#

功能添加了 exceptions.InconsistentVersionWarning，当 scikit-learn 估计器使用与该估计器被 pickle 时的 scikit-learn 版本不一致的 scikit-learn 版本反序列化时，会引发此警告。 #25297，作者 Thomas Fan。

`sklearn.feature_extraction`#

API 更改 feature_extraction.image.PatchExtractor 现在遵循 scikit-learn 的 transformer API。此类定义为无状态转换器，这意味着在调用 transform 之前不需要调用 fit。参数验证仅在 fit 时发生。 #24230，作者 Guillaume Lemaitre。

`sklearn.feature_selection`#

增强 sklearn.feature_selection 中的所有选择器在转换时将保留 DataFrame 的 dtype。 #25102，作者 Thomas Fan。
修复 feature_selection.SequentialFeatureSelector 的 cv 参数现在支持生成器。 #25973，作者 Yao Xiao <Charlie-XIAO>。

`sklearn.impute`#

增强向 impute.IterativeImputer 添加了 fill_value 参数。 #25232，作者 Thijs van Weezel。
修复当 set_config(transform_output="pandas") 被调用时，impute.IterativeImputer 现在正确保留 Pandas Index。 #26454，作者 Thomas Fan。

`sklearn.inspection`#

增强向 inspection.partial_dependence 和 inspection.PartialDependenceDisplay.from_estimator 添加了对 sample_weight 的支持。这允许在对我们正在进行检查的每个网格值进行聚合时进行加权平均。当 method 设置为 brute 时，该选项才可用。 #25209 和 #26644，作者 Carlo Lemos。
API 更改 inspection.partial_dependence 返回一个带有新键 grid_values 的 utils.Bunch。 values 键已被弃用，取而代之的是 grid_values，并且 values 键将在 1.5 版本中移除。 #21809 和 #25732，作者 Thomas Fan。

`sklearn.kernel_approximation`#

修复 kernel_approximation.AdditiveChi2Sampler 现在是无状态的。 sample_interval_ 属性已弃用，并将在 1.5 版本中移除。 #25190，作者 Vincent Maladière。

`sklearn.linear_model`#

效率避免在 sample_weight=None 时进行数据缩放，以及在 linear_model.LinearRegression 中避免其他不必要的复制和意外的密集到稀疏数据转换。 #26207，作者 Olivier Grisel。
增强 linear_model.SGDClassifier、linear_model.SGDRegressor 和 linear_model.SGDOneClassSVM 现在保留 numpy.float32 的 dtype。 #25587，作者 Omar Salman。
增强 linear_model.ARDRegression 中已包含 n_iter_ 属性，以公开达到停止标准所需的实际迭代次数。 #25697，作者 John Pangas。
修复对线性可分问题使用更鲁棒的标准来检测 penalty="l1" 和 solver="liblinear" 的 linear_model.LogisticRegression 的收敛性。 #25214，作者 Tom Dupre la Tour。
修复修复了当使用 solver="newton-cholesky" 和 max_iter=0 在 linear_model.LogisticRegression 上调用 fit 时发生的崩溃，该崩溃未能检查第一次参数更新之前的模型状态。 #26653，作者 Olivier Grisel。
API Change n_iter 在 linear_model.BayesianRidge 和 linear_model.ARDRegression 中已被弃用，推荐使用 max_iter。 n_iter 将在 scikit-learn 1.5 中移除。此更改使这些估计器与其他估计器保持一致。 #25697 by John Pangas.

`sklearn.manifold`#

Fix 当 set_config(transform_output="pandas") 时，manifold.Isomap 现在可以正确保留 Pandas Index。 #26454 by Thomas Fan。

`sklearn.metrics`#

Feature 为多个分类指标添加了 zero_division=np.nan： metrics.precision_score, metrics.recall_score, metrics.f1_score, metrics.fbeta_score, metrics.precision_recall_fscore_support, metrics.classification_report。当 zero_division=np.nan 且出现零除时，指标未定义并被排除在平均计算之外。当不用于平均计算时，返回值是 np.nan。 #25531 by Marc Torrellas Socastro。
Feature metrics.average_precision_score 现在支持多类别情况。 #17388 by Geoffrey Bolmier and #24769 by Ashwin Mathur。
Efficiency 当唯一标签数量很大时，metrics.adjusted_mutual_info_score 中期望互信息的计算现在更快，并且总体内存使用量已减少。 #25713 by Kshitij Mathur, Guillaume Lemaitre, Omar Salman and Jérémie du Boisberranger。
Enhancement metrics.silhouette_samples 现在接受样本之间成对距离的稀疏矩阵，或特征数组。 #18723 by Sahil Gupta and #24677 by Ashwin Mathur。
Enhancement 向 metrics.precision_recall_curve, metrics.PrecisionRecallDisplay.from_estimator, metrics.PrecisionRecallDisplay.from_predictions 添加了一个新参数 drop_intermediate，该参数会删除一些次优阈值以创建更轻量的精确率-召回率曲线。 #24668 by @dberenbaum。
Enhancement metrics.RocCurveDisplay.from_estimator 和 metrics.RocCurveDisplay.from_predictions 现在接受两个新关键字参数 plot_chance_level 和 chance_level_kw 来绘制基准机会水平线。此线可以通过 chance_level_ 属性访问。 #25987 by Yao Xiao。
Enhancement metrics.PrecisionRecallDisplay.from_estimator 和 metrics.PrecisionRecallDisplay.from_predictions 现在接受两个新关键字参数 plot_chance_level 和 chance_level_kw 来绘制基准机会水平线。此线可以通过 chance_level_ 属性访问。 #26019 by Yao Xiao。
Fix metrics.pairwise.manhattan_distances 现在支持只读稀疏数据集。 #25432 by Julien Jerphanion。
Fix 修复了 metrics.classification_report，以便空输入将返回 np.nan。之前，“macro avg”和weighted avg将返回例如f1-score=np.nan和f1-score=0.0，存在不一致。现在，它们都返回 np.nan。 #25531 by Marc Torrellas Socastro。
Fix metrics.ndcg_score 现在为长度为 1 的输入提供有意义的错误消息。 #25672 by Lene Preuss and Wei-Chun Chu。
Fix metrics.log_loss 如果 y_pred 参数的值未标准化，则会引发警告，而不是在指标中进行实际标准化。从 1.5 开始，这将引发一个错误。 #25299 by Omar Salman。
Fix 在 metrics.roc_curve 中，使用阈值 np.inf 而不是任意的 max(y_score) + 1。此阈值与 ROC 曲线点 tpr=0 和 fpr=0 相关联。 #26194 by Guillaume Lemaitre。
Fix 当使用 SciPy>=1.9 时，已移除 'matching' 指标，以与 scipy.spatial.distance 保持一致，后者不再支持 'matching'。 #26264 by Barata T. Onggo
API Change metrics.log_loss 的 eps 参数已被弃用，并将于 1.5 版本移除。 #25299 by Omar Salman。

`sklearn.gaussian_process`#

Fix gaussian_process.GaussianProcessRegressor 新增了一个参数 n_targets，该参数用于在从先验分布采样时确定输出的数量。 #23099 by Zhehao Liu。

`sklearn.mixture`#

Efficiency mixture.GaussianMixture 现在更高效，如果用户提供了权重、均值和精度，将跳过不必要的初始化。 #26021 by Jiawei Zhang。

`sklearn.model_selection`#

Major Feature 添加了类 model_selection.ValidationCurveDisplay，它允许轻松绘制通过函数 model_selection.validation_curve 获得的验证曲线。 #25120 by Guillaume Lemaitre。
API Change model_selection.LearningCurveDisplay 类的 plot 方法中的 log_scale 参数在 1.3 版本中已被弃用，并将于 1.5 版本移除。默认比例可以通过直接在 ax 对象上设置来覆盖，否则将根据数据点的间距自动设置。 #25120 by Guillaume Lemaitre。
Enhancement model_selection.cross_validate 接受一个新参数 return_indices，用于返回每次交叉验证分割的训练-测试索引。 #25659 by Guillaume Lemaitre。

`sklearn.multioutput`#

Fix 在 fit 被调用之前，对 multioutput.MultiOutputRegressor.partial_fit 和 multioutput.MultiOutputClassifier.partial_fit 调用 getattr 现在会正确地引发 AttributeError。 #26333 by Adrin Jalali。

`sklearn.naive_bayes`#

Fix 当提供的 sample_weight 在 fit 中将问题简化为单个类别时，naive_bayes.GaussianNB 不再引发 ZeroDivisionError。 #24140 by Jonathan Ohayon and Chiara Marmo。

`sklearn.neighbors`#

Enhancement 当 n_neighbors 较大且 algorithm="brute" 并使用非欧几里得度量时，neighbors.KNeighborsClassifier.predict 和 neighbors.KNeighborsClassifier.predict_proba 的性能得到了提高。 #24076 by Meekail Zain, Julien Jerphanion。
Fix 移除了 neighbors.BallTree 中对 KulsinskiDistance 的支持。这种不相似度不是度量，BallTree 无法支持。 #25417 by Guillaume Lemaitre。
API Change neighbors.NearestNeighbors 中除 euclidean 和 manhattan 之外的度量支持以及对可调用对象的支持已被弃用，并将于 1.5 版本移除。 #24083 by Valentin Laurent。

`sklearn.neural_network`#

Fix neural_network.MLPRegressor 和 neural_network.MLPClassifier 在 warm_start=True 时会报告正确的 n_iter_。它对应于当前调用 fit 时执行的迭代次数，而不是估计器初始化以来执行的总迭代次数。 #25443 by Marvin Krawutschke。

`sklearn.pipeline`#

Feature pipeline.FeatureUnion 现在可以使用索引表示法（例如 feature_union["scalar"]）按名称访问转换器。 #25093 by Thomas Fan。
Feature 如果在 .fit 期间看到的 X 值具有 columns 属性且所有列都是字符串，则 pipeline.FeatureUnion 现在可以访问 feature_names_in_ 属性。例如，当 X 是 pandas.DataFrame 时。 #25220 by Ian Thompson。
Fix 如果管道的最后一步不支持 fit_transform，则 pipeline.Pipeline.fit_transform 现在会引发 AttributeError。 #26325 by Adrin Jalali。

`sklearn.preprocessing`#

Major Feature 引入了 preprocessing.TargetEncoder，这是一种基于条件于类别值的目标均值的分类编码。 #25334 by Thomas Fan。
Feature preprocessing.OrdinalEncoder 现在支持将不频繁的类别分组到单个特征中。可以通过指定 min_frequency 或 max_categories 来选择不频繁类别，从而启用分组。 #25677 by Thomas Fan。
Enhancement preprocessing.PolynomialFeatures 在处理稀疏 csr 矩阵时，现在会预先计算扩展项的数量，以优化 indices 和 indptr 的 dtype 选择。当元素数量较少时，它现在可以输出具有 np.int32 indices/indptr 组件的 csr 矩阵，对于足够大的矩阵会自动使用 np.int64。 #20524 by niuk-a and #23731 by Meekail Zain
Enhancement 在 preprocessing.SplineTransformer 中添加了一个新参数 sparse_output，该参数自 SciPy 1.8 起可用。如果 sparse_output=True，preprocessing.SplineTransformer 将返回稀疏 CSR 矩阵。 #24145 by Christian Lorentzen。
Enhancement 向 preprocessing.OneHotEncoder 添加了一个 feature_name_combiner 参数。这指定了一个自定义可调用对象来创建由 preprocessing.OneHotEncoder.get_feature_names_out 返回的特征名称。该可调用对象将输入参数 (input_feature, category) 组合成一个字符串。 #22506 by Mario Kostelac。
Enhancement 为 preprocessing.KBinsDiscretizer 添加了对 sample_weight 的支持。这允许在拟合过程中为每个样本指定 sample_weight 参数。此选项仅在 strategy 设置为 quantile 和 kmeans 时可用。 #24935 by Seladus, Guillaume Lemaitre, and Dea María Léon, #25257 by Hleb Levitski。
Enhancement 通过 subsample 参数进行的子采样现在可以在 preprocessing.KBinsDiscretizer 中使用，无论使用何种策略。 #26424 by Jérémie du Boisberranger。
Fix 当 set_config(transform_output="pandas") 时，preprocessing.PowerTransformer 现在可以正确保留 Pandas Index。 #26454 by Thomas Fan。
Fix 当对具有常量 np.nan 列的数据使用 method="box-cox" 时，preprocessing.PowerTransformer 现在会正确地引发错误。 #26400 by Yao Xiao。
Fix 使用 method="yeo-johnson" 的 preprocessing.PowerTransformer 现在会将常量特征保持不变，而不是使用拟合参数 lambdas_ 的任意值进行转换。 #26566 by Jérémie du Boisberranger。
API Change 在 1.5 版本中，当 strategy="kmeans" 或 strategy="uniform" 时，preprocessing.KBinsDiscretizer 的 subsample 参数的默认值将从 None 更改为 200_000。 #26424 by Jérémie du Boisberranger。

`sklearn.svm`#

API Change dual 参数现在接受 auto 选项，用于 svm.LinearSVC 和 svm.LinearSVR。 #26093 by Hleb Levitski。

`sklearn.tree`#

Major Feature tree.DecisionTreeRegressor 和 tree.DecisionTreeClassifier 在 splitter='best' 且 criterion 为分类的 gini, entropy, 或 log_loss，或回归的 squared_error, friedman_mse, 或 poisson 时支持缺失值。 #23595, #26376 by Thomas Fan。
Enhancement 向 tree.export_text 添加了 class_names 参数。这允许按升序数字顺序为每个目标类别指定 class_names 参数。 #25387 by William M and crispinlogan。
Fix tree.export_graphviz 和 tree.export_text 现在接受类数组（array-like）而不是列表作为 feature_names 和 class_names。 #26289 by Yao Xiao

`sklearn.utils`#

Fix 修复了 utils.check_array 以正确转换 pandas 扩展数组。 #25813 and #26106 by Thomas Fan。
Fix utils.check_array 现在通过返回具有 object dtype 的 ndarray 来支持具有扩展数组和 object dtypes 的 pandas DataFrame。 #25814 by Thomas Fan。
API Change 引入了 utils.estimator_checks.check_transformers_unfitted_stateless，以确保无状态转换器在调用 fit 或 fit_transform 之前调用 transform 时不会引发 NotFittedError。 #25190 by Vincent Maladière。
API Change 当实例化一个继承自已弃用的基类（即使用 utils.deprecated 装饰的类）并且覆盖了 __init__ 方法时，现在会引发 FutureWarning。 #25733 by Brigitta Sipőcz and Jérémie du Boisberranger。

`sklearn.semi_supervised`#

Enhancement semi_supervised.LabelSpreading.fit 和 semi_supervised.LabelPropagation.fit 现在接受稀疏度量。 #19664 by Kaushik Amar Das。

杂项#

Enhancement 替换了过时的异常 EnvironmentError、IOError 和 WindowsError。 #26466 by Dimitri Papadopoulos ORfanos。

代码和文档贡献者

感谢自 1.2 版本以来为项目的维护和改进做出贡献的所有人，包括

2357juan, Abhishek Singh Kushwah, Adam Handke, Adam Kania, Adam Li, adienes, Admir Demiraj, adoublet, Adrin Jalali, A.H.Mansouri, Ahmedbgh, Ala-Na, Alex Buzenet, AlexL, Ali H. El-Kassas, amay, András Simon, André Pedersen, Andrew Wang, Ankur Singh, annegnx, Ansam Zedan, Anthony22-dev, Artur Hermano, Arturo Amor, as-90, ashah002, Ashish Dutt, Ashwin Mathur, AymericBasset, Azaria Gebremichael, Barata Tripramudya Onggo, Benedek Harsanyi, Benjamin Bossan, Bharat Raghunathan, Binesh Bannerjee, Boris Feld, Brendan Lu, Brevin Kunde, cache-missing, Camille Troillard, Carla J, carlo, Carlo Lemos, c-git, Changyao Chen, Chiara Marmo, Christian Lorentzen, Christian Veenhuis, Christine P. Chai, crispinlogan, Da-Lan, DanGonite57, Dave Berenbaum, davidblnc, david-cortes, Dayne, Dea María Léon, Denis, Dimitri Papadopoulos Orfanos, Dimitris Litsidis, Dmitry Nesterov, Dominic Fox, Dominik Prodinger, Edern, Ekaterina Butyugina, Elabonga Atuo, Emir, farhan khan, Felipe Siola, futurewarning, Gael Varoquaux, genvalen, Hleb Levitski, Guillaume Lemaitre, gunesbayir, Haesun Park, hujiahong726, i-aki-y, Ian Thompson, Ido M, Ily, Irene, Jack McIvor, jakirkham, James Dean, JanFidor, Jarrod Millman, JB Mountford, Jérémie du Boisberranger, Jessicakk0711, Jiawei Zhang, Joey Ortiz, JohnathanPi, John Pangas, Joshua Choo Yun Keat, Joshua Hedlund, JuliaSchoepp, Julien Jerphanion, jygerardy, ka00ri, Kaushik Amar Das, Kento Nozawa, Kian Eliasi, Kilian Kluge, Lene Preuss, Linus, Logan Thomas, Loic Esteve, Louis Fouquet, Lucy Liu, Madhura Jayaratne, Marc Torrellas Socastro, Maren Westermann, Mario Kostelac, Mark Harfouche, Marko Toplak, Marvin Krawutschke, Masanori Kanazu, mathurinm, Matt Haberland, Maxime Saur, Maxwell Liu, m. bou, mdarii, Meekail Zain, Mikhail Iljin, murezzda, Nawazish Alam, Nicola Fanelli, Nightwalkx, Nikolay Petrov, Nishu Choudhary, NNLNR, npache, Olivier Grisel, Omar Salman, ouss1508, PAB, Pandata, partev, Peter Piontek, Phil, pnucci, Pooja M, Pooja Subramaniam, precondition, Quentin Barthélemy, Rafal Wojdyla, Raghuveer Bhat, Rahil Parikh, Ralf Gommers, ram vikram singh, Rushil Desai, Sadra Barikbin, SANJAI_3, Sashka Warner, Scott Gigante, Scott Gustafson, searchforpassion, Seoeun Hong, Shady el Gewily, Shiva chauhan, Shogo Hida, Shreesha Kumar Bhat, sonnivs, Sortofamudkip, Stanislav (Stanley) Modrak, Stefanie Senger, Steven Van Vaerenbergh, Tabea Kossen, Théophile Baranger, Thijs van Weezel, Thomas A Caswell, Thomas Germer, Thomas J. Fan, Tim Head, Tim P, Tom Dupré la Tour, tomiock, tspeng, Valentin Laurent, Veghit, VIGNESH D, Vijeth Moudgalya, Vinayak Mehta, Vincent M, Vincent-violet, Vyom Pathak, William M, windiana42, Xiao Yuan, Yao Xiao, Yaroslav Halchenko, Yotam Avidar-Constantini, Yuchen Zhou, Yusuf Raji, zeeshan lone

版本 1.3#

版本 1.3.2#

更新日志#

版本 1.3.1#

变更模型#

影响所有模块的变更#

更新日志#

版本 1.3.0#

更改的模型#

更改的显示#

影响所有模块的更改#

实验性/开发中#

更新日志#

sklearn#

杂项#

本页

`sklearn`#