注意

跳到末尾下载完整示例代码。或通过JupyterLite或Binder在浏览器中运行此示例

scikit-learn 0.23 发布亮点#

我们很高兴宣布scikit-learn 0.23发布！此版本增加了许多错误修复和改进，以及一些新的关键功能。下面我们将详细介绍此版本的一些主要功能。有关所有更改的详尽列表，请参阅发布说明。

安装最新版本（使用 pip）

pip install --upgrade scikit-learn

或使用 conda

conda install -c conda-forge scikit-learn

广义线性模型和梯度提升的泊松损失#

期待已久的带非正态损失函数的广义线性模型现已可用。具体来说，实现了三个新的回归器：PoissonRegressor、GammaRegressor 和 TweedieRegressor。泊松回归器可用于建模正整数计数或相对频率。更多信息请参阅用户指南。此外，HistGradientBoostingRegressor 也支持新的“泊松”损失函数。

import numpy as np

from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.linear_model import PoissonRegressor
from sklearn.model_selection import train_test_split

n_samples, n_features = 1000, 20
rng = np.random.RandomState(0)
X = rng.randn(n_samples, n_features)
# positive integer target correlated with X[:, 5] with many zeros:
y = rng.poisson(lam=np.exp(X[:, 5]) / 2)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=rng)
glm = PoissonRegressor()
gbdt = HistGradientBoostingRegressor(loss="poisson", learning_rate=0.01)
glm.fit(X_train, y_train)
gbdt.fit(X_train, y_train)
print(glm.score(X_test, y_test))
print(gbdt.score(X_test, y_test))

0.35776189065725783
0.42425183539869415

估计器的丰富可视化表示#

现在可以通过启用 display='diagram' 选项在notebook中可视化估计器。这对于总结管道和其他复合估计器的结构特别有用，并具有交互性以提供详细信息。点击下面的示例图片展开管道元素。有关如何使用此功能的更多信息，请参阅可视化复合估计器。

from sklearn import set_config
from sklearn.compose import make_column_transformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

set_config(display="diagram")

num_proc = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())

cat_proc = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(handle_unknown="ignore"),
)

preprocessor = make_column_transformer(
    (num_proc, ("feat1", "feat3")), (cat_proc, ("feat0", "feat2"))
)

clf = make_pipeline(preprocessor, LogisticRegression())
clf

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('pipeline-1',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(strategy='median')),
                                                                  ('standardscaler',
                                                                   StandardScaler())]),
                                                  ('feat1', 'feat3')),
                                                 ('pipeline-2',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(fill_value='missing',
                                                                                 strategy='constant')),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder(handle_unknown='ignore'))]),
                                                  ('feat0', 'feat2'))])),
                ('logisticregression', LogisticRegression())])

在Jupyter环境中，请重新运行此单元格以显示HTML表示或信任该notebook。
在GitHub上，HTML表示无法渲染，请尝试使用nbviewer.org加载此页面。

管道

?Pipeline 文档i未拟合

参数

	步骤	[('columntransformer', ...), ('logisticregression', ...)]
	transform_input	无
	内存	无
	详细	否

columntransformer: ColumnTransformer

?columntransformer: ColumnTransformer 文档

参数

	转换器	[('pipeline-1', ...), ('pipeline-2', ...)]
	剩余部分	'drop'
	稀疏阈值	0.3
	n_jobs	无
	转换器权重	无
	详细	否
	verbose_feature_names_out	是
	force_int_remainder_cols	'deprecated'

管道-1

('feat1', 'feat3')

SimpleImputer

?SimpleImputer 文档

参数

	缺失值	nan
	策略	'median'
	填充值	无
	复制	是
	添加指示器	否
	保留空特征	否

StandardScaler

?StandardScaler 文档

参数

	复制	是
	带均值	是
	带标准差	是

管道-2

('feat0', 'feat2')

SimpleImputer

?SimpleImputer 文档

参数

	缺失值	nan
	策略	'constant'
	填充值	'missing'
	复制	是
	添加指示器	否
	保留空特征	否

OneHotEncoder

?OneHotEncoder 文档

参数

	类别	'auto'
	丢弃	无
	稀疏输出	是
	数据类型	<class 'numpy.float64'>
	处理未知	'ignore'
	最小频率	无
	最大类别	无
	特征名称组合器	'concat'

LogisticRegression

?LogisticRegression 文档

参数

	惩罚	'l2'
	对偶	否
	容差	0.0001
	C	1.0
	拟合截距	是
	截距缩放	1
	类别权重	无
	随机状态	无
	求解器	'lbfgs'
	最大迭代次数	100
	多类	'deprecated'
	详细	0
	热启动	否
	n_jobs	无
	l1_ratio	无

KMeans的可伸缩性和稳定性改进#

KMeans 估计器已被彻底重构，现在它显著更快且更稳定。此外，Elkan 算法现在兼容稀疏矩阵。该估计器使用基于 OpenMP 的并行化，而非依赖 joblib，因此 n_jobs 参数不再有任何作用。有关如何控制线程数的更多详细信息，请参阅我们的并行性说明。

import numpy as np
import scipy

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.metrics import completeness_score
from sklearn.model_selection import train_test_split

rng = np.random.RandomState(0)
X, y = make_blobs(random_state=rng)
X = scipy.sparse.csr_matrix(X)
X_train, X_test, _, y_test = train_test_split(X, y, random_state=rng)
kmeans = KMeans(n_init="auto").fit(X_train)
print(completeness_score(kmeans.predict(X_test), y_test))

0.715796248442461

基于直方图的梯度提升估计器的改进#

HistGradientBoostingClassifier 和 HistGradientBoostingRegressor 进行了多项改进。除了上面提到的泊松损失，这些估计器现在支持样本权重。此外，还添加了自动早停准则：当样本数量超过 1 万时，早停默认启用。最后，用户现在可以定义单调约束，以根据特定特征的变化来约束预测。在以下示例中，我们构建了一个通常与第一个特征正相关但带有噪音的目标。应用单调约束允许预测捕获第一个特征的全局效应，而不是拟合噪音。有关用例示例，请参阅直方图梯度提升树中的特征。

import numpy as np
from matplotlib import pyplot as plt

from sklearn.ensemble import HistGradientBoostingRegressor

# from sklearn.inspection import plot_partial_dependence
from sklearn.inspection import PartialDependenceDisplay
from sklearn.model_selection import train_test_split

n_samples = 500
rng = np.random.RandomState(0)
X = rng.randn(n_samples, 2)
noise = rng.normal(loc=0.0, scale=0.01, size=n_samples)
y = 5 * X[:, 0] + np.sin(10 * np.pi * X[:, 0]) - noise

gbdt_no_cst = HistGradientBoostingRegressor().fit(X, y)
gbdt_cst = HistGradientBoostingRegressor(monotonic_cst=[1, 0]).fit(X, y)

# plot_partial_dependence has been removed in version 1.2. From 1.2, use
# PartialDependenceDisplay instead.
# disp = plot_partial_dependence(
disp = PartialDependenceDisplay.from_estimator(
    gbdt_no_cst,
    X,
    features=[0],
    feature_names=["feature 0"],
    line_kw={"linewidth": 4, "label": "unconstrained", "color": "tab:blue"},
)
# plot_partial_dependence(
PartialDependenceDisplay.from_estimator(
    gbdt_cst,
    X,
    features=[0],
    line_kw={"linewidth": 4, "label": "constrained", "color": "tab:orange"},
    ax=disp.axes_,
)
disp.axes_[0, 0].plot(
    X[:, 0], y, "o", alpha=0.5, zorder=-1, label="samples", color="tab:green"
)
disp.axes_[0, 0].set_ylim(-3, 3)
disp.axes_[0, 0].set_xlim(-1, 1)
plt.legend()
plt.show()

Lasso和ElasticNet的样本权重支持#

两个线性回归器 Lasso 和 ElasticNet 现在支持样本权重。

import numpy as np

from sklearn.datasets import make_regression
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

n_samples, n_features = 1000, 20
rng = np.random.RandomState(0)
X, y = make_regression(n_samples, n_features, random_state=rng)
sample_weight = rng.rand(n_samples)
X_train, X_test, y_train, y_test, sw_train, sw_test = train_test_split(
    X, y, sample_weight, random_state=rng
)
reg = Lasso()
reg.fit(X_train, y_train, sample_weight=sw_train)
print(reg.score(X_test, y_test, sw_test))

0.999791942438998

脚本总运行时间： (0 分钟 0.621 秒)