scikit-learn 1.0 的发布亮点#
我们很高兴地宣布 scikit-learn 1.0 发布!该库已经稳定了一段时间,发布 1.0 版本是对此的认可,并向我们的用户发出信号。此版本除了通常的两次发布弃用周期外,不包含任何重大更改。未来,我们将尽力保持这种模式。
此版本包含一些新的关键功能以及许多改进和错误修复。我们将在下面详细介绍此版本的一些主要功能。**有关所有更改的详尽列表**,请参阅发行说明。
要安装最新版本(使用 pip)
pip install --upgrade scikit-learn
或使用 conda
conda install -c conda-forge scikit-learn
关键字参数和位置参数#
scikit-learn API 公开了许多具有许多输入参数的函数和方法。例如,在此版本之前,可以实例化一个HistGradientBoostingRegressor
作为
HistGradientBoostingRegressor("squared_error", 0.1, 100, 31, None,
20, 0.0, 255, None, None, False, "auto", "loss", 0.1, 10, 1e-7,
0, None)
要理解上面的代码,读者需要查看 API 文档并检查每个参数的位置及其含义。为了提高基于 scikit-learn 编写的代码的可读性,现在用户必须使用其名称(作为关键字参数)而不是位置参数来提供大多数参数。例如,上面的代码将是
HistGradientBoostingRegressor(
loss="squared_error",
learning_rate=0.1,
max_iter=100,
max_leaf_nodes=31,
max_depth=None,
min_samples_leaf=20,
l2_regularization=0.0,
max_bins=255,
categorical_features=None,
monotonic_cst=None,
warm_start=False,
early_stopping="auto",
scoring="loss",
validation_fraction=0.1,
n_iter_no_change=10,
tol=1e-7,
verbose=0,
random_state=None,
)
这更具可读性。位置参数自 0.23 版本起已弃用,现在将引发 TypeError
。在某些情况下,仍然允许使用有限数量的位置参数,例如在PCA
中,其中 PCA(10)
仍然允许,但 PCA(10, False)
不允许。
样条变换器#
向数据集的特征集添加非线性项的一种方法是使用新的SplineTransformer
为连续/数值特征生成样条基函数。样条是分段多项式,由其多项式次数和节点的位置参数化。该SplineTransformer
实现 B 样条基。
以下代码展示了样条在实际中的应用,有关更多信息,请参阅用户指南。
import numpy as np
from sklearn.preprocessing import SplineTransformer
X = np.arange(5).reshape(5, 1)
spline = SplineTransformer(degree=2, n_knots=3)
spline.fit_transform(X)
array([[0.5 , 0.5 , 0. , 0. ],
[0.125, 0.75 , 0.125, 0. ],
[0. , 0.5 , 0.5 , 0. ],
[0. , 0.125, 0.75 , 0.125],
[0. , 0. , 0.5 , 0.5 ]])
分位数回归器#
分位数回归估计 \(y\) 在给定 \(X\) 条件下的中位数或其他分位数,而普通最小二乘法 (OLS) 估计条件均值。
作为线性模型,新的 QuantileRegressor
对 \(q\) 分位数给出线性预测 \(\hat{y}(w, X) = Xw\),\(q \in (0, 1)\)。然后通过以下最小化问题找到权重或系数 \(w\)
这包括了弹球损失(也称为线性损失),参见 mean_pinball_loss
,
以及由参数 alpha
控制的 L1 惩罚,类似于 linear_model.Lasso
。
请查看以下示例以了解其工作原理,以及 用户指南 以获取更多详细信息。
特征名称支持#
当在 拟合 期间将估计器传递给 pandas 的数据帧 时,估计器将设置一个 feature_names_in_
属性,其中包含特征名称。请注意,特征名称支持仅在数据帧中的列名全部为字符串时启用。 feature_names_in_
用于检查在非 拟合 中传递的数据帧的列名,例如 预测,是否与 拟合 中的特征一致。
from sklearn.preprocessing import StandardScaler
import pandas as pd
X = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=["a", "b", "c"])
scalar = StandardScaler().fit(X)
scalar.feature_names_in_
array(['a', 'b', 'c'], dtype=object)
对 get_feature_names_out 的支持适用于已经具有 get_feature_names
的转换器,以及输入和输出之间一一对应的转换器,例如 StandardScaler
。 get_feature_names_out 支持将在未来的版本中添加到所有其他转换器。此外,compose.ColumnTransformer.get_feature_names_out
可用于组合其转换器的特征名称。
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
X = pd.DataFrame({"pet": ["dog", "cat", "fish"], "age": [3, 7, 1]})
preprocessor = ColumnTransformer(
[
("numerical", StandardScaler(), ["age"]),
("categorical", OneHotEncoder(), ["pet"]),
],
verbose_feature_names_out=False,
).fit(X)
preprocessor.get_feature_names_out()
array(['age', 'pet_cat', 'pet_dog', 'pet_fish'], dtype=object)
当此 preprocessor
与管道一起使用时,分类器使用的特征名称是通过切片和调用 get_feature_names_out 获得的。
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
y = [1, 0, 1]
pipe = make_pipeline(preprocessor, LogisticRegression())
pipe.fit(X, y)
pipe[:-1].get_feature_names_out()
array(['age', 'pet_cat', 'pet_dog', 'pet_fish'], dtype=object)
更灵活的绘图 API#
metrics.ConfusionMatrixDisplay
、metrics.PrecisionRecallDisplay
、metrics.DetCurveDisplay
和 inspection.PartialDependenceDisplay
现在公开了两种类方法:from_estimator
和 from_predictions
,它们允许用户在给定预测或估计器的情况下创建绘图。这意味着相应的 plot_*
函数已弃用。请查看 示例一 和 示例二 以了解如何使用新的绘图功能。
在线一类 SVM#
新类 SGDOneClassSVM
使用随机梯度下降实现了在线线性版本的一类 SVM。结合核近似技术,SGDOneClassSVM
可用于近似在 OneClassSVM
中实现的核化一类 SVM 的解,其拟合时间复杂度与样本数量呈线性关系。请注意,核化一类 SVM 的复杂度至少与样本数量的平方成正比。因此,SGDOneClassSVM
非常适合具有大量训练样本(> 10,000)的数据集,对于这些数据集,SGD 变体可以快几个数量级。请查看此 示例 以了解其使用方法,以及 用户指南 以获取更多详细信息。
基于直方图的梯度提升模型现在稳定了#
HistGradientBoostingRegressor
和 HistGradientBoostingClassifier
不再是实验性的,可以简单地导入和使用,如下所示
from sklearn.ensemble import HistGradientBoostingClassifier
新的文档改进#
此版本包含许多文档改进。在超过 2100 个合并的拉取请求中,大约 800 个是针对我们文档的改进。
脚本的总运行时间:(0 分钟 0.017 秒)
相关示例