版本 1.2#

有关此版本主要亮点的简短描述，请参阅 scikit-learn 1.2 的版本亮点。

更新日志图例

重大特性以前无法实现的大功能。
特性以前无法实现的功能。
效率提升现有功能现在可能不需要那么多计算或内存。
增强功能杂项小改进。
修复以前无法按文档所述（或根据合理预期）运行的功能现在应该可以运行了。
API 变更您需要更改代码以在将来实现相同效果；或者某个功能将在将来移除。

版本 1.2.2#

2023 年 3 月

更新日志#

`sklearn.base`#

修复当 set_output(transform="pandas") 时，如果 transform 输出已经是 DataFrame，则 base.TransformerMixin 会保留索引。 #25747 by Thomas Fan。

`sklearn.calibration`#

修复使用 base_estimator__ 前缀设置 calibration.CalibratedClassifierCV 中使用的估计器参数时会引发弃用警告。 #25477 by Tim Head。

`sklearn.cluster`#

修复修复了 cluster.BisectingKMeans 中的一个错误，该错误曾导致在运行多次初始化时，由于标签排列而导致 fit 随机失败。 #25563 by Jérémie du Boisberranger。

`sklearn.compose`#

修复修复了 compose.ColumnTransformer 中的一个错误，现在当 set_output(transform="pandas") 时，它支持空的列选择。 #25570 by Thomas Fan。

`sklearn.ensemble`#

修复使用 base_estimator__ 前缀设置 ensemble.AdaBoostClassifier、ensemble.AdaBoostRegressor、ensemble.BaggingClassifier 和 ensemble.BaggingRegressor 中使用的估计器参数时会引发弃用警告。 #25477 by Tim Head。

`sklearn.feature_selection`#

修复修复了 feature_selection.SequentialFeatureSelector 不再接受负值 tol 的回归问题。 #25664 by Jérémie du Boisberranger。

`sklearn.inspection`#

修复在 inspection.partial_dependence 中处理无法通过 numpy.unique 排序的混合数据类型类别时，引发更具信息性的错误消息。当类别为 str 并且存在使用 np.nan 的缺失值时，通常会发生此问题。 #25774 by Guillaume Lemaitre。

`sklearn.isotonic`#

修复修复了 isotonic.IsotonicRegression 中的一个错误，该错误曾导致当全局配置设置 transform_output="pandas" 时，isotonic.IsotonicRegression.predict 返回 pandas DataFrame。 #25500 by Guillaume Lemaitre。

`sklearn.preprocessing`#

修复当存在不常见的类别时，preprocessing.OneHotEncoder.drop_idx_ 现在可以正确引用 categories_ 属性中被删除的类别。 #25589 by Thomas Fan。
修复当训练数据中存在缺失值时，preprocessing.OrdinalEncoder 现在正确支持 encoded_missing_value 或 unknown_value 设置为类别的基数。 #25704 by Thomas Fan。

`sklearn.tree`#

修复修复了 tree.DecisionTreeClassifier、tree.DecisionTreeRegressor、tree.ExtraTreeClassifier 和 tree.ExtraTreeRegressor 中的回归问题，即在版本 1.2 中 min_sample_split=1 时不再引发错误。 #25744 by Jérémie du Boisberranger。

`sklearn.utils`#

修复修复了 utils.check_array 中的一个错误，它现在使用 Array API 规范正确执行非有限值验证。 #25619 by Thomas Fan。
修复 utils.multiclass.type_of_target 可以将 pandas 可空数据类型标识为分类目标。 #25638 by Thomas Fan。

版本 1.2.1#

2023 年 1 月

更改的模型#

以下估计器和函数在用相同数据和参数拟合时，可能与先前版本产生不同的模型。这通常是由于建模逻辑（bug 修复或增强）或随机采样程序发生变化所致。

修复 decomposition.MiniBatchDictionaryLearning 中拟合的组件可能有所不同。现在，充分统计量的在线更新正确地考虑了批次的大小。 #25354 by Jérémie du Boisberranger。
修复当使用预定义的字符串类别时，preprocessing.OneHotEncoder 的 categories_ 属性现在始终包含一个 object`s 数组。以字节编码的预定义类别将不再适用于以字符串编码的 X。 #25174 by Tim Head。

影响所有模块的更改#

修复支持分类器和回归器的 pandas.Int64 dtyped y。 #25089 by Tim Head。
修复删除了内部使用邻域搜索方法的估计器的虚假警告。 #25129 by Julien Jerphanion。
修复修复了使用 n_jobs > 1 的估计器中忽略当前配置的错误。此错误是由于 joblib 辅助线程分派的任务触发的，因为 sklearn.get_config 曾访问空的线程本地配置，而不是从首次调用 joblib.Parallel 的线程可见的配置。 #25363 by Guillaume Lemaitre。

更新日志#

`sklearn.base`#

修复修复了 BaseEstimator.__getstate__ 中的回归问题，该问题会阻止某些估计器在使用 Python 3.11 时被 pickle。 #25188 by Benjamin Bossan。
修复继承 base.TransformerMixin 只会在类本身定义 transform 方法时包装它。 #25295 by Thomas Fan。

`sklearn.datasets`#

修复修复了 datasets.fetch_openml 中 liac-arff 和 pandas 解析器在分隔符后引入前导空格时存在的不一致性。ARFF 规范要求忽略前导空格。 #25312 by Guillaume Lemaitre。
修复修复了 datasets.fetch_openml 中使用 parser="pandas" 时单引号和反斜杠转义字符未正确处理的错误。 #25511 by Guillaume Lemaitre。

`sklearn.decomposition`#

修复修复了 decomposition.MiniBatchDictionaryLearning 中的一个错误，该错误曾导致在不同大小的批次上调用 partial_fit 时，充分统计量的在线更新不正确。 #25354 by Jérémie du Boisberranger。
修复 decomposition.DictionaryLearning 更好地支持只读 NumPy 数组。特别是，当它与坐标下降算法一起使用时（即当 fit_algorithm='cd' 时），它更好地支持内存映射的大型数据集。 #25172 by Julien Jerphanion。

`sklearn.ensemble`#

修复 ensemble.RandomForestClassifier、ensemble.RandomForestRegressor、ensemble.ExtraTreesClassifier 和 ensemble.ExtraTreesRegressor 现在支持稀疏只读数据集。 #25341 by Julien Jerphanion

`sklearn.feature_extraction`#

修复当输入是字符串列表时，feature_extraction.FeatureHasher 会引发有信息的错误。 #25094 by Thomas Fan。

`sklearn.linear_model`#

修复修复了 linear_model.SGDClassifier 和 linear_model.SGDRegressor 中的回归问题，该问题导致它们在 verbose 参数设置为大于 0 的值时无法使用。 #25250 by Jérémie Du Boisberranger。

`sklearn.manifold`#

修复 manifold.TSNE 现在在输出类型设置为 pandas 时可以正常工作。 #25370 by Tim Head。

`sklearn.model_selection`#

修复在某些评分器失败的情况下，带有多指标评分的 model_selection.cross_validate 现在返回正确的评分，而不是 error_score 值。 #23101 by András Simon and Thomas Fan。

`sklearn.neural_network`#

修复 neural_network.MLPClassifier 和 neural_network.MLPRegressor 在拟合具有特征名称的数据时不再引发警告。 #24873 by Tim Head。
修复改进了 neural_network.MLPClassifier 和 neural_network.MLPRegressor 中在调用 partial_fit 且 early_stopping=True 时的错误消息。 #25694 by Thomas Fan。

`sklearn.preprocessing`#

修复当 check_inverse=True 时，preprocessing.FunctionTransformer.inverse_transform 正确支持全为数值的 DataFrame。 #25274 by Thomas Fan。
修复当 extrapolations="periodic" 时，preprocessing.SplineTransformer.get_feature_names_out 正确返回特征名称。 #25296 by Thomas Fan。

`sklearn.tree`#

修复 tree.DecisionTreeClassifier、tree.DecisionTreeRegressor tree.ExtraTreeClassifier 和 tree.ExtraTreeRegressor 现在支持稀疏只读数据集。 #25341 by Julien Jerphanion

`sklearn.utils`#

修复恢复 utils.check_array 对 pandas boolean 类型 Series 的行为。该类型被保留，而不是转换为 float64. #25147 by Tim Head。
API 变更 utils.fixes.delayed 在 1.2.1 中已弃用，并将在 1.5 中移除。请改用 utils.parallel.delayed 并结合新引入的 utils.parallel.Parallel 以确保 scikit-learn 配置正确传播到工作进程。 #25363 by Guillaume Lemaitre。

版本 1.2.0#

2022 年 12 月

更改的模型#

以下估计器和函数在用相同数据和参数拟合时，可能与先前版本产生不同的模型。这通常是由于建模逻辑（bug 修复或增强）或随机采样程序发生变化所致。

增强功能对于 cluster.SpectralClustering、manifold.SpectralEmbedding、cluster.spectral_clustering 和 manifold.spectral_embedding，当使用 'amg' 或 'lobpcg' 求解器时，默认的 eigen_tol 现在是 None。此更改提高了求解器的数值稳定性，但可能导致模型不同。
增强功能 linear_model.GammaRegressor、linear_model.PoissonRegressor 和 linear_model.TweedieRegressor 使用 lbfgs 求解器可以达到更高的精度，特别是在 tol 设置为很小的值时。此外，verbose 现在正确传播到 L-BFGS-B。 #23619 by Christian Lorentzen。
增强功能 metrics.log_loss 的默认值 eps 已从 1e-15 更改为 "auto"。"auto" 将 eps 设置为 np.finfo(y_pred.dtype).eps。 #24354 by Safiuddin Khaja and gsiisg。
修复使 decomposition.SparsePCA 中的 components_ 符号具有确定性。 #23935 by Guillaume Lemaitre。
修复 decomposition.FastICA 中的 components_ 符号可能不同。现在，它与所有 SVD 求解器保持一致且具有确定性。 #22527 by Meekail Zain and Thomas Fan。
修复 linear_model._sgd_fast._plain_sgd 中用于 linear_model.SGDRegressor 和 linear_model.SGDClassifier 的提前停止条件已更改。旧条件没有区分训练集和验证集，并具有过度缩放误差容限的效果。这已在 #23798 by Harsh Agrawal 中修复。
修复对于 model_selection.GridSearchCV 和 model_selection.RandomizedSearchCV，对应于 nan 分数的排名都将设置为最大可能的排名。 #24543 by Guillaume Lemaitre。
API 变更 linear_model.ridge_regression、linear_model.Ridge 和 linear_model.RidgeClassifier 的 tol 默认值已从 1e-3 更改为 1e-4。 #24465 by Christian Lorentzen。

影响所有模块的更改#

重大特性所有转换器都采用了 set_output API。包含转换器的元估计器，例如 pipeline.Pipeline 或 compose.ColumnTransformer 也定义了 set_output。有关详细信息，请参阅 SLEP018。 #23734 and #24699 by Thomas Fan。
效率提升针对密集 float32 数据集上的成对距离缩减的低级例程已重构。以下函数和估计器现在受益于硬件可扩展性和速度方面的性能改进
例如，sklearn.neighbors.NearestNeighbors.kneighbors 和 sklearn.neighbors.NearestNeighbors.radius_neighbors 在笔记本电脑上的速度分别比以前快 ×20 和 ×5。

此外，这两个算法的实现现在适用于具有多核的机器，使其可用于包含数百万样本的数据集。

#23865 by Julien Jerphanion。
增强功能通过利用 NumPy 的 SIMD 优化原语，所有估计器中的有限性检查（检测 NaN 和无限值）对于 float32 数据现在效率显着提高。 #23446 by Meekail Zain
增强功能通过利用更高效的 stop-on-first second-pass 算法，所有估计器中的有限性检查（检测 NaN 和无限值）现在更快。 #23197 by Meekail Zain
增强功能对于以下估计器，增加了对所有距离指标以及 float32 和 float64 数据集上密集和稀疏数据集对组合的支持，或者其性能得到了改进
#23604 and #23585 by Julien Jerphanion, Olivier Grisel, and Thomas Fan, #24556 by Vincent Maladière。
修复系统地检查文档中代码示例中使用的数据集 tarball 的 sha256 摘要。 #24617 by Olivier Grisel and Thomas Fan。感谢 Sim4n6 的报告。

更新日志#

`sklearn.base`#

增强功能引入了 base.ClassNamePrefixFeaturesOutMixin 和 base.ClassNamePrefixFeaturesOutMixin mixins，它们为常见的转换器用例定义了 get_feature_names_out。 #24688 by Thomas Fan。

`sklearn.calibration`#

API 变更将 calibration.CalibratedClassifierCV 中的 base_estimator 重命名为 estimator，以提高可读性和一致性。参数 base_estimator 已弃用，并将在 1.4 中移除。 #22054 by Kevin Roice。

`sklearn.cluster`#

效率提升带有 algorithm="lloyd" 的 cluster.KMeans 现在速度更快，内存使用更少。 #24264 by Vincent Maladière。
增强功能 cluster.OPTICS 的 predict 和 fit_predict 方法现在接受稀疏数据类型的输入数据。 #14736 by Hunt Zhan, #20802 by Brandon Pokorny, and #22965 by Meekail Zain。
增强功能 cluster.Birch 现在保留 numpy.float32 输入的 dtype。 #22968 by Meekail Zain <micky774>。
增强功能 cluster.KMeans 和 cluster.MiniBatchKMeans 现在接受 n_init 的新选项 'auto'，在使用 init='k-means++' 时出于效率考虑将随机初始化次数更改为一次。这开始弃用这两个类中 n_init 的默认值，并且在 1.4 版本中它们的默认值都将更改为 n_init='auto'。 #23038 by Meekail Zain。
增强功能 cluster.SpectralClustering 和 cluster.spectral_clustering 现在将 eigen_tol 参数传播到所有 eigen_solver 选项。包括一个新选项 eigen_tol="auto"，并开始弃用将默认值从 eigen_tol=0 更改为 eigen_tol="auto" 的计划，该更改将在 1.3 版本中进行。 #23210 by Meekail Zain。
修复 cluster.KMeans 现在在预测时支持只读属性。 #24258 by Thomas Fan
API 变更 cluster.AgglomerativeClustering 的 affinity 属性现已弃用，并将在 v1.4 中重命名为 metric。 #23470 by Meekail Zain。

`sklearn.datasets`#

增强功能在 datasets.fetch_openml 中引入新参数 parser。parser="pandas" 允许使用 CPU 和内存效率非常高的 pandas.read_csv 解析器来加载密集 ARFF 格式的数据集文件。可以传递 parser="liac-arff" 来使用旧的 LIAC 解析器。当 parser="auto" 时，密集数据集使用 "pandas" 加载，稀疏数据集使用 "liac-arff" 加载。目前，默认值为 parser="liac-arff"，并将在 1.4 版本中更改为 parser="auto" #21938 by Guillaume Lemaitre。
增强功能 datasets.dump_svmlight_file 现在通过 Cython 实现加速，提供了 2-4 倍的加速。 #23127 by Meekail Zain
增强功能在 datasets.load_svmlight_file 和 datasets.load_svmlight_files 中，现在允许使用 Path-like 对象（例如使用 pathlib 创建的对象）作为路径。 #19075 by Carlos Ramos Carreño。
修复确保 datasets.fetch_lfw_people 和 datasets.fetch_lfw_pairs 根据 slice_ 参数在内部裁剪图像。 #24951 by Guillaume Lemaitre。

`sklearn.decomposition`#

效率提升 decomposition.FastICA.fit 在内存占用和运行时方面进行了优化。 #22268 by MohamedBsh。
增强功能 decomposition.SparsePCA 和 decomposition.MiniBatchSparsePCA 现在实现了 inverse_transform 函数。 #23905 by Guillaume Lemaitre。
增强功能 decomposition.FastICA 现在允许用户通过新的 whiten_solver 参数选择执行白化的方式，该参数支持 svd 和 eigh。whiten_solver 默认为 svd，尽管在 num_features > num_samples 的情况下，eigh 可能更快且内存效率更高。 #11860 by Pierre Ablin, #22527 by Meekail Zain and Thomas Fan。
增强功能 decomposition.LatentDirichletAllocation 现在保留 numpy.float32 输入的 dtype。 #24528 by Takeshi Oura and Jérémie du Boisberranger。
修复使 decomposition.SparsePCA 中的 components_ 符号具有确定性。 #23935 by Guillaume Lemaitre。
API 变更 decomposition.MiniBatchSparsePCA 的 n_iter 参数已弃用，并由参数 max_iter、tol 和 max_no_improvement 替换，以与 decomposition.MiniBatchDictionaryLearning 保持一致。n_iter 将在 1.3 版本中移除。 #23726 by Guillaume Lemaitre。
API 变更 decomposition.PCA 的 n_features_ 属性已弃用，取而代之的是 n_features_in_，并将在 1.4 中移除。 #24421 by Kshitij Mathur。

`sklearn.discriminant_analysis`#

重大特性 discriminant_analysis.LinearDiscriminantAnalysis 现在支持 solver="svd" 的 Array API。Array API 支持被视为实验性，并且可能在不遵守我们通常的滚动弃用周期策略的情况下发展。有关详细信息，请参阅 Array API 支持（实验性）。 #22554 by Thomas Fan。
修复仅在 fit 中验证参数，而不是在 discriminant_analysis.QuadraticDiscriminantAnalysis 的 __init__ 中验证参数。 #24218 by Stefanie Molin。

`sklearn.ensemble`#

重大特性 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 现在通过其构造函数的参数 interaction_cst 支持交互约束。 #21020 by Christian Lorentzen。使用交互约束还可以加快拟合速度。 #24856 by Christian Lorentzen。
特性向 ensemble.HistGradientBoostingClassifier 添加 class_weight。 #22014 by Thomas Fan。
效率提升通过避免数据复制来提高 ensemble.IsolationForest 的运行时性能。 #23252 by Zhehao Liu。
增强功能 ensemble.StackingClassifier 现在接受任何类型的基本估计器。 #24538 by Guillem G Subies。
增强功能使得能够将 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 的 categorical_features 参数作为特征名称传递。 #24889 by Olivier Grisel。
增强 ensemble.StackingClassifier 现在支持多标签指示器目标 #24146，贡献者包括 Nicolas Peretti、Nestor Navarro、Nati Tomattis 和 Vincent Maladiere。
增强 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 现在接受将其 monotonic_cst 参数作为字典传入，此前只支持类似数组的格式。这种字典的键是特征名称，值是 -1、0 或 1，用于指定每个特征的单调性约束。 #24855，贡献者 Olivier Grisel。
增强 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 的交互约束现在可以指定为字符串，用于两种常见情况：“no_interactions”（无交互）和“pairwise”（成对）交互。 #24849，贡献者 Tim Head。
修复修复了 ensemble.AdaBoostClassifier 在拟合时样本权重非常小的情况下，特征重要性输出 NaN 的问题。 #20415，贡献者 Zhehao Liu。
修复 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 在对编码为负值的类别进行预测时不再报错，而是将其视为“缺失类别”的成员。 #24283，贡献者 Thomas Fan。
修复 ensemble.HistGradientBoostingClassifier 和 ensemble.HistGradientBoostingRegressor 在 verbose>=1 时，会打印计算直方图和寻找最佳分割的详细计时信息。以前缺失了根节点花费的时间，现在已包含在打印信息中。 #24894，贡献者 Christian Lorentzen。
API 变更以下类中的构造函数参数 base_estimator 已重命名为 estimator：ensemble.BaggingClassifier、ensemble.BaggingRegressor、ensemble.AdaBoostClassifier、ensemble.AdaBoostRegressor。base_estimator 在 1.2 版本中已弃用，并将在 1.4 版本中移除。 #23819，贡献者 Adrian Trujillo 和 Edoardo Abati。
API 变更以下类中的拟合属性 base_estimator_ 已重命名为 estimator_：ensemble.BaggingClassifier、ensemble.BaggingRegressor、ensemble.AdaBoostClassifier、ensemble.AdaBoostRegressor、ensemble.RandomForestClassifier、ensemble.RandomForestRegressor、ensemble.ExtraTreesClassifier、ensemble.ExtraTreesRegressor、ensemble.RandomTreesEmbedding、ensemble.IsolationForest。base_estimator_ 在 1.2 版本中已弃用，并将在 1.4 版本中移除。 #23819，贡献者 Adrian Trujillo 和 Edoardo Abati。

`sklearn.feature_selection`#

修复修复了 feature_selection.mutual_info_regression 和 feature_selection.mutual_info_classif 中的一个错误，即无论目标 y 是连续还是离散，X 中的连续特征都应独立地缩放到单位方差。 #24747，贡献者 Guillaume Lemaitre。

`sklearn.gaussian_process`#

修复修复了 gaussian_process.kernels.Matern 在 nu=0.5 时对 PyPy（以及其他非 CPython 解释器）的梯度计算问题。 #24245，贡献者 Loïc Estève。
修复 gaussian_process.GaussianProcessRegressor 的 fit 方法在使用了自定义核函数且 diag 方法返回部分输入 X 的情况下，将不再修改输入 X。 #24405，贡献者 Omar Salman。

`sklearn.impute`#

增强 impute.SimpleImputer、impute.KNNImputer 和 impute.IterativeImputer 中添加了 keep_empty_features 参数，防止在转换时移除只包含缺失值的特征。 #16695，贡献者 Vitor Santa Rosa。

`sklearn.inspection`#

主要功能扩展了 inspection.partial_dependence 和 inspection.PartialDependenceDisplay，使其能够处理分类特征。 #18298，贡献者 Madhura Jayaratne 和 Guillaume Lemaitre。
修复 inspection.DecisionBoundaryDisplay 现在会在输入数据不是二维时引发错误。 #25077，贡献者 Arturo Amor。

`sklearn.kernel_approximation`#

增强 kernel_approximation.RBFSampler 现在为 numpy.float32 输入保留 dtype。 #24317，贡献者 Tim Head <betatim>。
增强 kernel_approximation.SkewedChi2Sampler 现在为 numpy.float32 输入保留 dtype。 #24350，贡献者 Rahil Parikh。
增强 kernel_approximation.RBFSampler 现在接受参数 gamma 的 'scale' 选项。 #24755，贡献者 Hleb Levitski。

`sklearn.linear_model`#

增强 linear_model.LogisticRegression、linear_model.LogisticRegressionCV、linear_model.GammaRegressor、linear_model.PoissonRegressor 和 linear_model.TweedieRegressor 引入了新的求解器 solver="newton-cholesky"。这是一个二阶（牛顿法）优化例程，使用 Hessian 矩阵的 Cholesky 分解。当 n_samples >> n_features 时，对于包含一些稀有类别级别的独热编码分类变量问题，"newton-cholesky" 求解器被观察到比 "lbfgs" 求解器收敛更快，并达到更高精度的解。 #24637 和 #24767，贡献者 Christian Lorentzen。
增强功能 linear_model.GammaRegressor、linear_model.PoissonRegressor 和 linear_model.TweedieRegressor 使用 lbfgs 求解器可以达到更高的精度，特别是在 tol 设置为很小的值时。此外，verbose 现在正确传播到 L-BFGS-B。 #23619 by Christian Lorentzen。
修复 linear_model.SGDClassifier 和 linear_model.SGDRegressor 在所有验证样本的样本权重都为零时会引发错误。 #23275，贡献者 Zhehao Liu <MaxwellLZH>。
修复 linear_model.SGDOneClassSVM 不再在构造函数中执行参数验证。所有验证现在都在 fit() 和 partial_fit() 中处理。 #24433，贡献者 Yogendrasingh、Arisa Y. 和 Tim Head。
修复修复了在 linear_model.SGDRegressor 和 linear_model.SGDClassifier 中启用提前停止时平均损失的计算问题。同时更新了相应的提前停止条件。 #23798，贡献者 Harsh Agrawal。
API 变更 linear_model.QuantileRegressor 中 solver 参数的默认值将从 "interior-point" 更改为 "highs"，该变更将在 1.4 版本中生效。 #23637，贡献者 Guillaume Lemaitre。
API 变更 linear_model.LogisticRegression 中 penalty 参数的字符串选项 "none" 已弃用，并将在 1.4 版本中移除。请改用 None。 #23877，贡献者 Zhehao Liu。
API 变更 linear_model.ridge_regression、linear_model.Ridge 和 linear_model.RidgeClassifier 的 tol 默认值已从 1e-3 更改为 1e-4。 #24465 by Christian Lorentzen。

`sklearn.manifold`#

功能添加了在 manifold.MDS 中使用归一化应力（normalized stress）的选项。通过将新参数 normalize 设置为 True 即可启用。 #10168，贡献者 Łukasz Borchmann；#12285，贡献者 Matthias Miltenberger；#13042，贡献者 Matthieu Parizy；#18094，贡献者 Roth E Conrad；#22562，贡献者 Meekail Zain。
增强向 manifold.SpectralEmbedding 添加了 eigen_tol 参数。 manifold.spectral_embedding 和 manifold.SpectralEmbedding 现在都会将 eigen_tol 传播给所有 eigen_solver 选项。包括一个新的选项 eigen_tol="auto"，并开始弃用以在 1.3 版本中将默认值从 eigen_tol=0 更改为 eigen_tol="auto"。 #23210，贡献者 Meekail Zain。
增强 manifold.Isomap 现在为 np.float32 输入保留 dtype。 #24714，贡献者 Rahil Parikh。
API 变更 manifold.MDS 和 manifold.smacof 中的 normalized_stress 参数添加了 "auto" 选项。请注意，normalized_stress 仅对非度量 MDS 有效，因此 "auto" 选项在 metric=False 时启用 normalized_stress，在 metric=True 时禁用它。"auto" 将在 1.4 版本中成为 normalized_stress 的默认值。 #23834，贡献者 Meekail Zain。

`sklearn.metrics`#

功能 metrics.ConfusionMatrixDisplay.from_estimator、metrics.ConfusionMatrixDisplay.from_predictions 和 metrics.ConfusionMatrixDisplay.plot 接受一个 text_kw 参数，该参数传递给 matplotlib 的 text 函数。 #24051，贡献者 Thomas Fan。
功能添加了 metrics.class_likelihood_ratios 以计算从二元分类问题的混淆矩阵得出的正负似然比。 #22518，贡献者 Arturo Amor。
功能添加了 metrics.PredictionErrorDisplay，用于绘制残差与预测值以及实际值与预测值的关系图，以定性评估回归器的行为。显示可以通过类方法 metrics.PredictionErrorDisplay.from_estimator 和 metrics.PredictionErrorDisplay.from_predictions 创建。 #18020，贡献者 Guillaume Lemaitre。
功能 metrics.roc_auc_score 现在支持 One-vs-Rest 多分类情况下的微平均（average="micro"）（multi_class="ovr"）。 #24338，贡献者 Arturo Amor。
增强在 metrics.log_loss 中为 eps 添加了 "auto" 选项。此选项将根据 y_pred 的数据类型自动设置 eps 值。此外，eps 的默认值从 1e-15 更改为新的 "auto" 选项。 #24354，贡献者 Safiuddin Khaja 和 gsiisg。
修复允许将 csr_matrix 作为 metrics.label_ranking_average_precision_score 指标的参数 y_true 的输入。 #23442，贡献者 Sean Atukorala。
修复当 y_true 值包含负值时，metrics.ndcg_score 现在会触发警告。用户仍然可以使用负值，但结果可能不在 0 到 1 之间。从 v1.4 开始，传入负值给 y_true 将引发错误。 #22710，贡献者 Conroy Trinh；#23461，贡献者 Meekail Zain。
修复当 eps=0 时，metrics.log_loss 现在对于边界处的预测（0 或 1）返回正确的值 0 或 np.inf，而不是 nan。它还接受整数输入。 #24365，贡献者 Christian Lorentzen。
API 变更 metrics.pairwise.manhattan_distances 的参数 sum_over_features 已弃用，并将在 1.4 版本中移除。 #24630，贡献者 Rushil Desai。

`sklearn.model_selection`#

功能添加了类 model_selection.LearningCurveDisplay，可以轻松绘制由函数 model_selection.learning_curve 获得的学习曲线。 #24084，贡献者 Guillaume Lemaitre。
修复对于所有 SearchCV 类和 scipy >= 1.10，对应于 nan 分数的排名被正确设置为最大可能排名，而不是 np.iinfo(np.int32).min。 #24141，贡献者 Loïc Estève。
修复在 model_selection.HalvingGridSearchCV 和 model_selection.HalvingRandomSearchCV 中，具有 NaN 分数的参数组合现在共享最低排名。 #24539，贡献者 Tim Head。
修复对于 model_selection.GridSearchCV 和 model_selection.RandomizedSearchCV，对应于 nan 分数的排名都将设置为最大可能的排名。 #24543 by Guillaume Lemaitre。

`sklearn.multioutput`#

功能向类 multioutput.ClassifierChain 和 multioutput.RegressorChain 添加了布尔值 verbose 标志。 #23977，贡献者 Eric Fiegel、Chiara Marmo、Lucy Liu 和 Guillaume Lemaitre。

`sklearn.naive_bayes`#

功能为所有朴素贝叶斯分类器添加了 predict_joint_log_proba 方法。 #23683，贡献者 Andrey Melnik。
增强 naive_bayes.BernoulliNB、naive_bayes.ComplementNB、naive_bayes.CategoricalNB 和 naive_bayes.MultinomialNB 添加了新参数 force_alpha，允许用户将参数 alpha 设置为非常小的、大于或等于 0 的数字，而此前会自动更改为 1e-10。 #16747，贡献者 @arka204；#18805，贡献者 @hongshaoyang；#22269，贡献者 Meekail Zain。

`sklearn.neighbors`#

功能添加了新函数 neighbors.sort_graph_by_row_values，用于对 CSR 稀疏图进行排序，使得每行按值递增存储。这对于在各种估计器中使用预计算的稀疏距离矩阵时提高效率并避免 EfficiencyWarning 非常有用。 #23139，贡献者 Tom Dupre la Tour。
效率 neighbors.NearestCentroid 更快，需要更少的内存，因为它更好地利用 CPU 缓存来计算预测。 #24645，贡献者 Olivier Grisel。
增强 neighbors.KernelDensity 的带宽参数现在接受使用 Scott 和 Silverman 估计方法进行定义。 #10468，贡献者 Ruben；#22993，贡献者 Jovan Stojanovic。
增强 neighbors.NeighborsBase 现在接受 Minkowski 半度量（即当 \(0 < p < 1\) 时，metric="minkowski"）用于 algorithm="auto" 或 algorithm="brute"。 #24750，贡献者 Rudresh Veerkhare。
修复 neighbors.NearestCentroid 现在在拟合时而不是在预测时以低级错误消息失败，而是引发信息丰富的错误消息。 #23874，贡献者 Juan Gomez。
修复 neighbors.KNeighborsTransformer 和 neighbors.RadiusNeighborsTransformer 的默认值设置为 n_jobs=None（而不是 1）。 #24075，贡献者 Valentin Laurent。
增强 neighbors.LocalOutlierFactor 现在为 numpy.float32 输入保留 dtype。 #22665，贡献者 Julien Jerphanion。

`sklearn.neural_network`#

修复 neural_network.MLPClassifier 和 neural_network.MLPRegressor 始终公开参数 best_loss_、validation_scores_ 和 best_validation_score_。best_loss_ 在 early_stopping=True 时设置为 None，而 validation_scores_ 和 best_validation_score_ 在 early_stopping=False 时设置为 None。 #24683，贡献者 Guillaume Lemaitre。

`sklearn.pipeline`#

增强 pipeline.FeatureUnion.get_feature_names_out 现在可以在 pipeline.FeatureUnion 中的其中一个转换器是 "passthrough" 时使用。 #24058，贡献者 Diederik Perdok。
增强 pipeline.FeatureUnion 类现在有一个 named_transformers 属性，用于按名称访问转换器。 #20331，贡献者 Christopher Flynn。

`sklearn.preprocessing`#

增强 preprocessing.FunctionTransformer 现在无论 validate 参数如何，都会尝试设置 n_features_in_ 和 feature_names_in_。 #23993，贡献者 Thomas Fan。
修复 preprocessing.LabelEncoder 在 transform 中正确编码 NaNs。 #22629，贡献者 Thomas Fan。
API 变更 preprocessing.OneHotEncoder 的参数 sparse 已弃用，并将在 1.4 版本中移除。请改用 sparse_output。 #24412，贡献者 Rushil Desai。

`sklearn.svm`#

API 变更 svm.NuSVR、svm.SVR 和 svm.OneClassSVM 的 class_weight_ 属性已弃用。 #22898，贡献者 Meekail Zain。

`sklearn.tree`#

增强 tree.plot_tree 和 tree.export_graphviz 现在使用小写 x[i] 来表示特征 i。 #23480，贡献者 Thomas Fan。

`sklearn.utils`#

功能新模块公开了用于发现 scikit-learn 中估计器（即 utils.discovery.all_estimators）、显示（即 utils.discovery.all_displays）和函数（即 utils.discovery.all_functions）的开发工具。 #21469，贡献者 Guillaume Lemaitre。
增强 utils.extmath.randomized_svd 现在接受一个参数 lapack_svd_driver，用于指定随机 SVD 算法内部确定性 SVD 所使用的 lapack 驱动程序。 #20617，贡献者 Srinath Kailasa。
增强 utils.validation.column_or_1d 现在接受一个 dtype 参数来指定 y 的 dtype。 #22629，贡献者 Thomas Fan。
增强 utils.extmath.cartesian 现在接受具有不同 dtype 的数组，并将输出转换为最宽容的 dtype。 #25067，贡献者 Guillaume Lemaitre。
修复 utils.multiclass.type_of_target 现在正确处理稀疏矩阵。 #14862，贡献者 Léonard Binet。
修复当估计器类是 get_params 中的值时，HTML 表示不再出错。 #24512，贡献者 Thomas Fan。
修复 utils.estimator_checks.check_estimator 现在正确考虑了 requires_positive_X 标签。 #24667，贡献者 Thomas Fan。
修复 utils.check_array 现在支持带有 pd.NA 的 Pandas Series，通过引发更好的错误消息或返回兼容的 ndarray。 #25080，贡献者 Thomas Fan。
API 变更 utils.extmath.density 的额外关键字参数已弃用，并将在 1.4 版本中移除。 #24523，贡献者 Mia Bajic。

代码和文档贡献者

感谢自版本 1.1 以来为项目的维护和改进做出贡献的所有人，包括

2357juan, 3lLobo, Adam J. Stewart, Adam Kania, Adam Li, Aditya Anulekh, Admir Demiraj, adoublet, Adrin Jalali, Ahmedbgh, Aiko, Akshita Prasanth, Ala-Na, Alessandro Miola, Alex, Alexandr, Alexandre Perez-Lebel, Alex Buzenet, Ali H. El-Kassas, aman kumar, Amit Bera, András Simon, Andreas Grivas, Andreas Mueller, Andrew Wang, angela-maennel, Aniket Shirsat, Anthony22-dev, Antony Lee, anupam, Apostolos Tsetoglou, Aravindh R, Artur Hermano, Arturo Amor, as-90, ashah002, Ashwin Mathur, avm19, Azaria Gebremichael, b0rxington, Badr MOUFAD, Bardiya Ak, Bartłomiej Gońda, BdeGraaff, Benjamin Bossan, Benjamin Carter, berkecanrizai, Bernd Fritzke, Bhoomika, Biswaroop Mitra, Brandon TH Chen, Brett Cannon, Bsh, cache-missing, carlo, Carlos Ramos Carreño, ceh, chalulu, Changyao Chen, Charles Zablit, Chiara Marmo, Christian Lorentzen, Christian Ritter, Christian Veenhuis, christianwaldmann, Christine P. Chai, Claudio Salvatore Arcidiacono, Clément Verrier, crispinlogan, Da-Lan, DanGonite57, Daniela Fernandes, DanielGaerber, darioka, Darren Nguyen, davidblnc, david-cortes, David Gilbertson, David Poznik, Dayne, Dea María Léon, Denis, Dev Khant, Dhanshree Arora, Diadochokinetic, diederikwp, Dimitri Papadopoulos Orfanos, Dimitris Litsidis, drewhogg, Duarte OC, Dwight Lindquist, Eden Brekke, Edern, Edoardo Abati, Eleanore Denies, EliaSchiavon, Emir, ErmolaevPA, Fabrizio Damicelli, fcharras, Felipe Siola, Flynn, francesco-tuveri, Franck Charras, ftorres16, Gael Varoquaux, Geevarghese George, genvalen, GeorgiaMayDay, Gianr Lazz, Hleb Levitski, Glòria Macià Muñoz, Guillaume Lemaitre, Guillem García Subies, Guitared, gunesbayir, Haesun Park, Hansin Ahuja, Hao Chun Chang, Harsh Agrawal, harshit5674, hasan-yaman, henrymooresc, Henry Sorsky, Hristo Vrigazov, htsedebenham, humahn, i-aki-y, Ian Thompson, Ido M, Iglesys, Iliya Zhechev, Irene, ivanllt, Ivan Sedykh, Jack McIvor, jakirkham, JanFidor, Jason G, Jérémie du Boisberranger, Jiten Sidhpura, jkarolczak, João David, JohnathanPi, John Koumentis, John P, John Pangas, johnthagen, Jordan Fleming, Joshua Choo Yun Keat, Jovan Stojanovic, Juan Carlos Alfaro Jiménez, juanfe88, Juan Felipe Arias, JuliaSchoepp, Julien Jerphanion, jygerardy, ka00ri, Kanishk Sachdev, Kanissh, Kaushik Amar Das, Kendall, Kenneth Prabakaran, Kento Nozawa, kernc, Kevin Roice, Kian Eliasi, Kilian Kluge, Kilian Lieret, Kirandevraj, Kraig, krishna kumar, krishna vamsi, Kshitij Kapadni, Kshitij Mathur, Lauren Burke, Léonard Binet, lingyi1110, Lisa Casino, Logan Thomas, Loic Esteve, Luciano Mantovani, Lucy Liu, Maascha, Madhura Jayaratne, madinak, Maksym, Malte S. Kurz, Mansi Agrawal, Marco Edward Gorelli, Marco Wurps, Maren Westermann, Maria Telenczuk, Mario Kostelac, martin-kokos, Marvin Krawutschke, Masanori Kanazu, mathurinm, Matt Haberland, mauroantonioserrano, Max Halford, Maxi Marufo, maximeSaur, Maxim Smolskiy, Maxwell, m. bou, Meekail Zain, Mehgarg, mehmetcanakbay, Mia Bajić, Michael Flaks, Michael Hornstein, Michel de Ruiter, Michelle Paradis, Mikhail Iljin, Misa Ogura, Moritz Wilksch, mrastgoo, Naipawat Poolsawat, Naoise Holohan, Nass, Nathan Jacobi, Nawazish Alam, Nguyễn Văn Diễn, Nicola Fanelli, Nihal Thukarama Rao, Nikita Jare, nima10khodaveisi, Nima Sarajpoor, nitinramvelraj, NNLNR, npache, Nwanna-Joseph, Nymark Kho, o-holman, Olivier Grisel, Olle Lukowski, Omar Hassoun, Omar Salman, osman tamer, ouss1508, Oyindamola Olatunji, PAB, Pandata, partev, Paulo Sergio Soares, Petar Mlinarić, Peter Jansson, Peter Steinbach, Philipp Jung, Piet Brömmel, Pooja M, Pooja Subramaniam, priyam kakati, puhuk, Rachel Freeland, Rachit Keerti Das, Rafal Wojdyla, Raghuveer Bhat, Rahil Parikh, Ralf Gommers, ram vikram singh, Ravi Makhija, Rehan Guha, Reshama Shaikh, Richard Klima, Rob Crockett, Robert Hommes, Robert Juergens, Robin Lenz, Rocco Meli, Roman4oo, Ross Barnowski, Rowan Mankoo, Rudresh Veerkhare, Rushil Desai, Sabri Monaf Sabri, Safikh, Safiuddin Khaja, Salahuddin, Sam Adam Day, Sandra Yojana Meneses, Sandro Ephrem, Sangam, SangamSwadik, SANJAI_3, SarahRemus, Sashka Warner, SavkoMax, Scott Gigante, Scott Gustafson, Sean Atukorala, sec65, SELEE, seljaks, Shady el Gewily, Shane, shellyfung, Shinsuke Mori, Shiva chauhan, Shoaib Khan, Shogo Hida, Shrankhla Srivastava, Shuangchi He, Simon, sonnivs, Sortofamudkip, Srinath Kailasa, Stanislav (Stanley) Modrak, Stefanie Molin, stellalin7, Stéphane Collot, Steven Van Vaerenbergh, Steve Schmerler, Sven Stehle, Tabea Kossen, TheDevPanda, the-syd-sre, Thijs van Weezel, Thomas Bonald, Thomas Germer, Thomas J. Fan, Ti-Ion, Tim Head, Timofei Kornev, toastedyeast, Tobias Pitters, Tom Dupré la Tour, tomiock, Tom Mathews, Tom McTiernan, tspeng, Tyler Egashira, Valentin Laurent, Varun Jain, Vera Komeyer, Vicente Reyes-Puerta, Vinayak Mehta, Vincent M, Vishal, Vyom Pathak, wattai, wchathura, WEN Hao, William M, x110, Xiao Yuan, Xunius, yanhong-zhao-ef, Yusuf Raji, Z Adil Khwaja, zeeshan lone

版本 1.2#

版本 1.2.2#

更新日志#

版本 1.2.1#

更改的模型#

影响所有模块的更改#

更新日志#

版本 1.2.0#

更改的模型#

影响所有模块的更改#

更新日志#

本页