跳到主要内容
Ctrl+K
scikit-learn homepage scikit-learn homepage
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
    • 快速入门
    • 发布历史
    • 术语表
    • 开发
    • 常见问题
    • 支持
    • 相关项目
    • 路线图
    • 治理
    • 关于我们
  • GitHub
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
  • 快速入门
  • 发布历史
  • 术语表
  • 开发
  • 常见问题
  • 支持
  • 相关项目
  • 路线图
  • 治理
  • 关于我们
  • GitHub

章节导航

  • 发布亮点
    • scikit-learn 1.7 发布亮点
    • scikit-learn 1.6 发布亮点
    • scikit-learn 1.5 发布亮点
    • scikit-learn 1.4 发布亮点
    • scikit-learn 1.3 发布亮点
    • scikit-learn 1.2 发布亮点
    • scikit-learn 1.1 发布亮点
    • scikit-learn 1.0 发布亮点
    • scikit-learn 0.24 发布亮点
    • scikit-learn 0.23 发布亮点
    • scikit-learn 0.22 发布亮点
  • 双聚类
    • 谱双聚类算法演示
    • 谱协同聚类算法演示
    • 使用谱协同聚类算法对文档进行双聚类
  • 校准
    • 分类器校准比较
    • 概率校准曲线
    • 三分类问题的概率校准
    • 分类器的概率校准
  • 分类
    • 分类器比较
    • 带协方差椭球的线性判别分析和二次判别分析
    • 用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析
    • 绘制分类概率
    • 手写数字识别
  • 聚类
    • 手写数字数据集上的 K-Means 聚类演示
    • 硬币图像上的结构化 Ward 层次聚类演示
    • 均值漂移聚类算法演示
    • 聚类性能评估中的随机性调整
    • 有结构和无结构的凝聚聚类
    • 使用不同度量的凝聚聚类
    • K-Means++ 初始化示例
    • 二分 K-Means 与常规 K-Means 性能比较
    • BIRCH 与 MiniBatchKMeans 比较
    • 在玩具数据集上比较不同聚类算法
    • 在玩具数据集上比较不同层次链接方法
    • K-Means 和 MiniBatchKMeans 聚类算法比较
    • DBSCAN 聚类算法演示
    • HDBSCAN 聚类算法演示
    • OPTICS 聚类算法演示
    • 近邻传播聚类算法演示
    • k-means 假设演示
    • k-means 初始化影响的经验评估
    • 特征聚合
    • 特征聚合 vs. 单变量选择
    • 层次聚类:结构化 vs 非结构化 Ward
    • 归纳聚类
    • 人脸部分词典的在线学习
    • 绘制层次聚类树状图
    • 将希腊硬币图片分区域
    • 使用 KMeans 聚类上的轮廓分析选择聚类数量
    • 用于图像分割的谱聚类
    • 数字二维嵌入上的各种凝聚聚类
    • 向量量化示例
  • 协方差估计
    • Ledoit-Wolf 与 OAS 估计
    • 鲁棒协方差估计和马氏距离相关性
    • 鲁棒与经验协方差估计
    • 收缩协方差估计:LedoitWolf 与 OAS 和最大似然
    • 稀疏逆协方差估计
  • 交叉分解
    • 比较交叉分解方法
    • 主成分回归与偏最小二乘回归
  • 数据集示例
    • 绘制随机生成的多标签数据集
  • 决策树
    • 决策树回归
    • 绘制在鸢尾花数据集上训练的决策树决策边界
    • 使用成本复杂度剪枝对决策树进行后剪枝
    • 理解决策树结构
  • 分解
    • 使用 FastICA 进行盲源分离
    • 鸢尾花数据集的 LDA 和 PCA 二维投影比较
    • 人脸数据集分解
    • 因子分析(带旋转)以可视化模式
    • 二维点云上的 FastICA
    • 使用字典学习进行图像去噪
    • 增量 PCA
    • 核 PCA
    • 使用概率 PCA 和因子分析 (FA) 进行模型选择
    • 鸢尾花数据集上的主成分分析 (PCA)
    • 使用预计算字典进行稀疏编码
  • 开发估计器
    • __sklearn_is_fitted__ 作为开发者 API
  • 集成方法
    • 梯度提升中的分类特征支持
    • 使用堆叠组合预测器
    • 比较随机森林和直方图梯度提升模型
    • 比较随机森林和多输出元估计器
    • 带 AdaBoost 的决策树回归
    • 梯度提升中的早期停止
    • 使用树的森林进行特征重要性分析
    • 使用树集成进行特征变换
    • 直方图梯度提升树中的特征
    • 梯度提升袋外估计
    • 梯度提升回归
    • 梯度提升正则化
    • 使用完全随机树进行哈希特征变换
    • IsolationForest 示例
    • 单调约束
    • 多类别 AdaBoosted 决策树
    • 随机森林的 OOB 误差
    • 绘制个体和投票回归预测
    • 绘制在鸢尾花数据集上树集成决策边界
    • 梯度提升回归的预测区间
    • 单一估计器与 bagging:偏差-方差分解
    • 二类别 AdaBoost
    • 可视化 VotingClassifier 的概率预测
  • 基于真实世界数据集的示例
    • 压缩感知:带 L1 先验 (Lasso) 的断层扫描重建
    • 使用特征脸和 SVM 进行人脸识别示例
    • 使用核 PCA 进行图像去噪
    • 时间序列预测中的滞后特征
    • 模型复杂度影响
    • 核外文本文档分类
    • 真实数据集上的异常值检测
    • 预测延迟
    • 物种分布建模
    • 时间相关特征工程
    • 使用非负矩阵分解和潜在狄利克雷分配进行主题提取
    • 可视化股票市场结构
    • 维基百科主特征向量
  • 特征选择
    • F-检验与互信息比较
    • 基于模型和序贯的特征选择
    • 管道 ANOVA SVM
    • 递归特征消除
    • 带交叉验证的递归特征消除
    • 单变量特征选择
  • 冻结估计器
    • 使用 FrozenEstimator 的示例
  • 高斯混合模型
    • 变分贝叶斯高斯混合的集中先验类型分析
    • 高斯混合的密度估计
    • GMM 初始化方法
    • GMM 协方差
    • 高斯混合模型椭球
    • 高斯混合模型选择
    • 高斯混合模型正弦曲线
  • 机器学习中的高斯过程
    • 高斯过程回归 (GPR) 估计数据噪声水平的能力
    • 核岭回归和高斯过程回归的比较
    • 使用高斯过程回归 (GPR) 预测 Mona Loa 数据集上的 CO2 水平
    • 高斯过程回归:基本入门示例
    • 鸢尾花数据集上的高斯过程分类 (GPC)
    • 离散数据结构上的高斯过程
    • XOR 数据集上的高斯过程分类 (GPC) 示意图
    • 不同核的先验和后验高斯过程示意图
    • 高斯过程分类 (GPC) 的等概率线
    • 使用高斯过程分类 (GPC) 进行概率预测
  • 广义线性模型
    • 比较线性贝叶斯回归器
    • 使用贝叶斯岭回归进行曲线拟合
    • 多项式和 One-vs-Rest 逻辑回归的决策边界
    • 随机梯度下降的早期停止
    • 使用预计算 Gram 矩阵和加权样本拟合弹性网络
    • 在具有强异常值的数据集上 HuberRegressor 与 Ridge 的比较
    • 使用多任务 Lasso 进行联合特征选择
    • 逻辑回归中的 L1 惩罚和稀疏性
    • 用于稀疏信号的基于 L1 的模型
    • 通过信息准则进行 Lasso 模型选择
    • Lasso 模型选择:AIC-BIC / 交叉验证
    • 密集和稀疏数据上的 Lasso
    • Lasso, Lasso-LARS 和弹性网络路径
    • 逻辑函数
    • 使用多项式逻辑 + L1 进行 MNIST 分类
    • 20newgroups 上的多类别稀疏逻辑回归
    • 非负最小二乘
    • One-Class SVM 与使用随机梯度下降的 One-Class SVM
    • 普通最小二乘和岭回归
    • 正交匹配追踪
    • 绘制岭系数作为正则化函数的图
    • 绘制鸢尾花数据集上的多类别 SGD
    • 泊松回归和非正态损失
    • 多项式和样条插值
    • 分位数回归
    • L1-逻辑回归的正则化路径
    • 岭系数作为 L2 正则化函数的图
    • 鲁棒线性估计器拟合
    • 使用 RANSAC 进行鲁棒线性模型估计
    • SGD:最大间隔分离超平面
    • SGD:惩罚
    • SGD:加权样本
    • SGD:凸损失函数
    • Theil-Sen 回归
    • 保险索赔上的 Tweedie 回归
  • 检查
    • 线性模型系数解释中的常见陷阱
    • 机器学习未能推断因果效应
    • 部分依赖和个体条件期望图
    • 置换重要性与随机森林特征重要性 (MDI)
    • 具有多重共线性或相关特征的置换重要性
  • 核近似
    • 使用多项式核近似进行可伸缩学习
  • 流形学习
    • 流形学习方法比较
    • 截断球体上的流形学习方法
    • 手写数字上的流形学习:局部线性嵌入、Isomap...
    • 多维缩放
    • 瑞士卷和瑞士孔降维
    • t-SNE:不同困惑度值对形状的影响
  • 杂项
    • 带部分依赖的高级绘图
    • 在玩具数据集上比较用于异常值检测的异常检测算法
    • 核岭回归和 SVR 的比较
    • 显示管道
    • 显示估计器和复杂管道
    • 异常值检测估计器的评估
    • RBF 核的显式特征映射近似
    • 使用多输出估计器进行人脸补全
    • 介绍 set_output API
    • 等渗回归
    • 元数据路由
    • 多标签分类
    • 带可视化 API 的 ROC 曲线
    • 带随机投影的嵌入的 Johnson-Lindenstrauss 界限
    • 使用显示对象进行可视化
  • 缺失值填充
    • 在构建估计器之前填充缺失值
    • 使用 IterativeImputer 变体填充缺失值
  • 模型选择
    • 平衡模型复杂度和交叉验证分数
    • 使用类别似然比衡量分类性能
    • 比较随机搜索和网格搜索进行超参数估计
    • 网格搜索和逐次减半的比较
    • 混淆矩阵
    • 带交叉验证的网格搜索的自定义重新拟合策略
    • cross_val_score 和 GridSearchCV 上的多度量评估演示
    • 检测错误权衡 (DET) 曲线
    • 模型正则化对训练和测试误差的影响
    • 多类别接收者操作特征 (ROC)
    • 嵌套式与非嵌套式交叉验证
    • 绘制交叉验证预测
    • 绘制学习曲线和检查模型的伸缩性
    • 决策函数截止点的后验调整
    • 成本敏感学习的决策阈值后调整
    • 精确度-召回率
    • 带交叉验证的接收者操作特征 (ROC)
    • 文本特征提取和评估的示例管道
    • 使用网格搜索进行模型统计比较
    • 逐次减半迭代
    • 用置换检验分类分数的显著性
    • 欠拟合与过拟合
    • scikit-learn 中交叉验证行为的可视化
  • 多类别方法
    • 多类别训练元估计器概述
  • 多输出方法
    • 使用分类器链进行多标签分类
  • 最近邻
    • TSNE 中的近似最近邻
    • 缓存最近邻
    • 比较带和不带邻域成分分析的最近邻
    • 带邻域成分分析的降维
    • 物种分布的核密度估计
    • 核密度估计
    • 最近质心分类
    • 最近邻分类
    • 最近邻回归
    • 邻域成分分析示意图
    • 使用局部异常因子 (LOF) 进行新奇检测
    • 使用局部异常因子 (LOF) 进行异常值检测
    • 简单一维核密度估计
  • 神经网络
    • 比较 MLPClassifier 的随机学习策略
    • 用于数字分类的受限玻尔兹曼机特征
    • 多层感知器中变化的正则化
    • MNIST 上 MLP 权重的可视化
  • 管道和复合估计器
    • 带异构数据源的列转换器
    • 带混合类型的列转换器
    • 连接多种特征提取方法
    • 回归模型中目标变换的效果
    • 管道:串联 PCA 和逻辑回归
    • 使用 Pipeline 和 GridSearchCV 选择降维
  • 预处理
    • 比较不同缩放器对带异常值数据的影响
    • 目标编码器与其他编码器的比较
    • 演示 KBinsDiscretizer 的不同策略
    • 特征离散化
    • 特征缩放的重要性
    • 将数据映射到正态分布
    • 目标编码器的内部交叉拟合
    • 使用 KBinsDiscretizer 对连续特征进行离散化
  • 半监督分类
    • 半监督分类器与鸢尾花数据集上的 SVM 的决策边界
    • 自训练中变化阈值的影响
    • 标签传播圆:学习复杂结构
    • 标签传播数字:主动学习
    • 标签传播数字:性能演示
    • 文本数据集上的半监督分类
  • 支持向量机
    • 带非线性核 (RBF) 的单类别 SVM
    • 使用不同 SVM 核绘制分类边界
    • 绘制鸢尾花数据集中的不同 SVM 分类器
    • 绘制 LinearSVC 中的支持向量
    • RBF SVM 参数
    • SVM 间隔示例
    • SVM 平局解决示例
    • 带自定义核的 SVM
    • SVM-Anova:带单变量特征选择的 SVM
    • SVM:最大间隔分离超平面
    • SVM:非平衡类别的分离超平面
    • SVM:加权样本
    • SVC 的正则化参数缩放
    • 使用线性和非线性核的支持向量回归 (SVR)
  • 处理文本文档
    • 使用稀疏特征对文本文档进行分类
    • 使用 k-means 对文本文档进行聚类
    • FeatureHasher 和 DictVectorizer 比较
  • 示例
  • 模型选择
  • 使用网格搜索进行模型统计比较

注意

转到末尾 下载完整示例代码。或者通过 JupyterLite 或 Binder 在浏览器中运行此示例

使用网格搜索进行模型统计比较#

此示例演示了如何统计比较使用 GridSearchCV 训练和评估的模型的性能。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

我们将首先模拟月牙形数据(其中类之间的理想分离是非线性的),并添加适度的噪声。数据点将属于两个可能的类别之一,由两个特征预测。我们将为每个类别模拟 50 个样本。

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import make_moons

X, y = make_moons(noise=0.352, random_state=1, n_samples=100)

sns.scatterplot(
    x=X[:, 0], y=X[:, 1], hue=y, marker="o", s=25, edgecolor="k", legend=False
).set_title("Data")
plt.show()
Data

我们将比较 SVC 估计器在 kernel 参数上的性能,以决定哪种超参数选择能最好地预测我们模拟的数据。我们将使用 RepeatedStratifiedKFold 评估模型性能,重复 10 次 10 折分层交叉验证,每次重复使用不同的数据随机化。性能将使用 roc_auc_score 进行评估。

from sklearn.model_selection import GridSearchCV, RepeatedStratifiedKFold
from sklearn.svm import SVC

param_grid = [
    {"kernel": ["linear"]},
    {"kernel": ["poly"], "degree": [2, 3]},
    {"kernel": ["rbf"]},
]

svc = SVC(random_state=0)

cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=10, random_state=0)

search = GridSearchCV(estimator=svc, param_grid=param_grid, scoring="roc_auc", cv=cv)
search.fit(X, y)
GridSearchCV(cv=RepeatedStratifiedKFold(n_repeats=10, n_splits=10, random_state=0),
             estimator=SVC(random_state=0),
             param_grid=[{'kernel': ['linear']},
                         {'degree': [2, 3], 'kernel': ['poly']},
                         {'kernel': ['rbf']}],
             scoring='roc_auc')
在 Jupyter 环境中,请重新运行此单元格以显示 HTML 表示或信任此 Notebook。
在 GitHub 上,HTML 表示无法渲染,请尝试使用 nbviewer.org 加载此页面。
参数
estimator  SVC(random_state=0)
param_grid  [{'kernel': ['linear']}, {'degree': [2, 3], 'kernel': ['poly']}, ...]
scoring  'roc_auc'
n_jobs  无
refit  是
cv  RepeatedStrat...andom_state=0)
verbose  0
pre_dispatch  '2*n_jobs'
error_score  nan
return_train_score  否
SVC(random_state=0)
参数
C  1.0
kernel  'rbf'
degree  3
gamma  'scale'
coef0  0.0
shrinking  是
probability  否
tol  0.001
cache_size  200
class_weight  无
verbose  否
max_iter  -1
decision_function_shape  'ovr'
break_ties  否
random_state  0


我们现在可以检查搜索结果,按 mean_test_score 排序

import pandas as pd

results_df = pd.DataFrame(search.cv_results_)
results_df = results_df.sort_values(by=["rank_test_score"])
results_df = results_df.set_index(
    results_df["params"].apply(lambda x: "_".join(str(val) for val in x.values()))
).rename_axis("kernel")
results_df[["params", "rank_test_score", "mean_test_score", "std_test_score"]]
参数 测试分数排名 平均测试分数 测试分数标准差
核
rbf {'kernel': 'rbf'} 1 0.9400 0.079297
线性 {'kernel': 'linear'} 2 0.9300 0.077846
3_poly {'degree': 3, 'kernel': 'poly'} 3 0.9044 0.098776
2_poly {'degree': 2, 'kernel': 'poly'} 4 0.6852 0.169106


我们可以看到使用 'rbf' 核的估计器表现最好,紧随其后的是 'linear'。两个使用 'poly' 核的估计器表现较差,其中使用二次多项式的模型性能远低于所有其他模型。

通常,分析到此为止,但故事才讲了一半。GridSearchCV 的输出没有提供模型之间差异的确定性信息。我们不知道这些差异是否具有**统计**显著性。为了评估这一点,我们需要进行统计检验。具体来说,为了对比两个模型的性能,我们应该统计比较它们的 AUC 分数。每个模型有 100 个样本(AUC 分数),因为我们重复了 10 次 10 折交叉验证。

然而,模型的得分并非独立:所有模型都在**相同**的 100 个分区上进行评估,这增加了模型性能之间的相关性。由于数据的某些分区可能使所有模型区分类别变得特别容易或困难,因此模型得分将共同变化。

让我们通过绘制每个折叠中所有模型的性能,并计算折叠之间模型的相关性来检查这种分区效应

# create df of model scores ordered by performance
model_scores = results_df.filter(regex=r"split\d*_test_score")

# plot 30 examples of dependency between cv fold and AUC scores
fig, ax = plt.subplots()
sns.lineplot(
    data=model_scores.transpose().iloc[:30],
    dashes=False,
    palette="Set1",
    marker="o",
    alpha=0.5,
    ax=ax,
)
ax.set_xlabel("CV test fold", size=12, labelpad=10)
ax.set_ylabel("Model AUC", size=12)
ax.tick_params(bottom=True, labelbottom=False)
plt.show()

# print correlation of AUC scores across folds
print(f"Correlation of models:\n {model_scores.transpose().corr()}")
plot grid search stats
Correlation of models:
 kernel       rbf    linear    3_poly    2_poly
kernel
rbf     1.000000  0.882561  0.783392  0.351390
linear  0.882561  1.000000  0.746492  0.298688
3_poly  0.783392  0.746492  1.000000  0.355440
2_poly  0.351390  0.298688  0.355440  1.000000

我们可以观察到模型的性能高度依赖于折叠。

因此,如果我们假设样本之间相互独立,我们将低估统计检验中计算出的方差,从而增加假阳性错误的数量(即,当模型之间不存在显著差异时,却检测到显著差异) [1]。

针对这些情况,已经开发了几种方差校正的统计检验。在此示例中,我们将展示如何在两种不同的统计框架下实现其中一种(即 Nadeau 和 Bengio 校正的 t 检验):频率派和贝叶斯派。

比较两个模型:频率派方法#

我们可以首先问:“第一个模型是否比第二个模型(按 mean_test_score 排名时)显著更好?”

为了使用频率派方法回答这个问题,我们可以运行配对 t 检验并计算 p 值。这在预测文献中也称为 Diebold-Mariano 检验 [5]。已经开发了许多 t 检验变体来解决上一节中描述的“样本非独立性问题”。我们将使用一种经证明能获得最高可复现性分数(衡量模型在相同数据集的不同随机分区上评估时性能相似程度)同时保持低假阳性率和假阴性率的方法:即 Nadeau 和 Bengio 校正的 t 检验 [2],该检验使用 10 次重复的 10 折交叉验证 [3]。

这个校正后的配对 t 检验计算如下

\[t=\frac{\frac{1}{k \cdot r}\sum_{i=1}^{k}\sum_{j=1}^{r}x_{ij}} {\sqrt{(\frac{1}{k \cdot r}+\frac{n_{test}}{n_{train}})\hat{\sigma}^2}}\]

其中 \(k\) 是折叠数,\(r\) 是交叉验证中的重复次数,\(x\) 是模型性能的差异,\(n_{test}\) 是用于测试的样本数量,\(n_{train}\) 是用于训练的样本数量,\(\hat{\sigma}^2\) 表示观察到的差异的方差。

让我们实现一个校正后的右尾配对 t 检验,以评估第一个模型的性能是否显著优于第二个模型。我们的零假设是第二个模型的性能至少与第一个模型一样好。

import numpy as np
from scipy.stats import t


def corrected_std(differences, n_train, n_test):
    """Corrects standard deviation using Nadeau and Bengio's approach.

    Parameters
    ----------
    differences : ndarray of shape (n_samples,)
        Vector containing the differences in the score metrics of two models.
    n_train : int
        Number of samples in the training set.
    n_test : int
        Number of samples in the testing set.

    Returns
    -------
    corrected_std : float
        Variance-corrected standard deviation of the set of differences.
    """
    # kr = k times r, r times repeated k-fold crossvalidation,
    # kr equals the number of times the model was evaluated
    kr = len(differences)
    corrected_var = np.var(differences, ddof=1) * (1 / kr + n_test / n_train)
    corrected_std = np.sqrt(corrected_var)
    return corrected_std


def compute_corrected_ttest(differences, df, n_train, n_test):
    """Computes right-tailed paired t-test with corrected variance.

    Parameters
    ----------
    differences : array-like of shape (n_samples,)
        Vector containing the differences in the score metrics of two models.
    df : int
        Degrees of freedom.
    n_train : int
        Number of samples in the training set.
    n_test : int
        Number of samples in the testing set.

    Returns
    -------
    t_stat : float
        Variance-corrected t-statistic.
    p_val : float
        Variance-corrected p-value.
    """
    mean = np.mean(differences)
    std = corrected_std(differences, n_train, n_test)
    t_stat = mean / std
    p_val = t.sf(np.abs(t_stat), df)  # right-tailed t-test
    return t_stat, p_val
model_1_scores = model_scores.iloc[0].values  # scores of the best model
model_2_scores = model_scores.iloc[1].values  # scores of the second-best model

differences = model_1_scores - model_2_scores

n = differences.shape[0]  # number of test sets
df = n - 1
n_train = len(next(iter(cv.split(X, y)))[0])
n_test = len(next(iter(cv.split(X, y)))[1])

t_stat, p_val = compute_corrected_ttest(differences, df, n_train, n_test)
print(f"Corrected t-value: {t_stat:.3f}\nCorrected p-value: {p_val:.3f}")
Corrected t-value: 0.750
Corrected p-value: 0.227

我们可以将校正后的 t 值和 p 值与未校正的值进行比较

t_stat_uncorrected = np.mean(differences) / np.sqrt(np.var(differences, ddof=1) / n)
p_val_uncorrected = t.sf(np.abs(t_stat_uncorrected), df)

print(
    f"Uncorrected t-value: {t_stat_uncorrected:.3f}\n"
    f"Uncorrected p-value: {p_val_uncorrected:.3f}"
)
Uncorrected t-value: 2.611
Uncorrected p-value: 0.005

使用传统的显著性 alpha 水平 p=0.05,我们观察到未校正的 t 检验得出结论:第一个模型显著优于第二个模型。

相比之下,使用校正方法,我们未能检测到这种差异。

然而,在后一种情况下,频率派方法不允许我们得出第一个模型和第二个模型具有等效性能的结论。如果我们要做出这种断言,我们需要使用贝叶斯方法。

比较两个模型:贝叶斯方法#

我们可以使用贝叶斯估计来计算第一个模型优于第二个模型的概率。贝叶斯估计将输出一个分布,其后是两个模型性能差异的均值 \(\mu\)。

为了获得后验分布,我们需要定义一个先验,该先验对在查看数据之前我们对均值分布的信念进行建模,并将其乘以一个似然函数,该函数计算给定均值差异可能取的值时,我们观察到的差异有多大可能性。

贝叶斯估计可以以多种形式进行以回答我们的问题,但在此示例中,我们将实现 Benavoli 及其同事提出的方法 [4]。

使用闭式表达式定义后验的一种方法是选择与似然函数共轭的先验。Benavoli 及其同事 [4] 表明,在比较两个分类器的性能时,我们可以将先验建模为与正态似然共轭的正态-伽马分布(均值和方差均未知),从而将后验表示为正态分布。从这个正态后验中边缘化掉方差,我们可以将均值参数的后验定义为学生 t 分布。具体来说

\[St(\mu;n-1,\overline{x},(\frac{1}{n}+\frac{n_{test}}{n_{train}}) \hat{\sigma}^2)\]

其中 \(n\) 是样本总数,\(\overline{x}\) 表示得分的平均差异,\(n_{test}\) 是用于测试的样本数量,\(n_{train}\) 是用于训练的样本数量,\(\hat{\sigma}^2\) 表示观察到的差异的方差。

请注意,我们在贝叶斯方法中也使用了 Nadeau 和 Bengio 的校正方差。

让我们计算并绘制后验

# initialize random variable
t_post = t(
    df, loc=np.mean(differences), scale=corrected_std(differences, n_train, n_test)
)

让我们绘制后验分布

x = np.linspace(t_post.ppf(0.001), t_post.ppf(0.999), 100)

plt.plot(x, t_post.pdf(x))
plt.xticks(np.arange(-0.04, 0.06, 0.01))
plt.fill_between(x, t_post.pdf(x), 0, facecolor="blue", alpha=0.2)
plt.ylabel("Probability density")
plt.xlabel(r"Mean difference ($\mu$)")
plt.title("Posterior distribution")
plt.show()
Posterior distribution

我们可以通过计算后验分布曲线从零到无穷大的面积来计算第一个模型优于第二个模型的概率。反之亦然:我们可以通过计算曲线从负无穷大到零的面积来计算第二个模型优于第一个模型的概率。

better_prob = 1 - t_post.cdf(0)

print(
    f"Probability of {model_scores.index[0]} being more accurate than "
    f"{model_scores.index[1]}: {better_prob:.3f}"
)
print(
    f"Probability of {model_scores.index[1]} being more accurate than "
    f"{model_scores.index[0]}: {1 - better_prob:.3f}"
)
Probability of rbf being more accurate than linear: 0.773
Probability of linear being more accurate than rbf: 0.227

与频率派方法相反,我们可以计算一个模型优于另一个模型的概率。

请注意,我们获得了与频率派方法相似的结果。考虑到我们对先验的选择,我们本质上执行的是相同的计算,但我们被允许做出不同的断言。

实际等效区域#

有时,我们对确定模型具有等效性能的概率感兴趣,其中“等效”以实际方式定义。一种朴素的方法 [4] 是将估计器定义为当其准确度差异小于 1% 时实际等效。但我们也可以根据我们试图解决的问题来定义这种实际等效。例如,准确度差异 5% 可能意味着销售额增加 1000 美元,我们认为任何高于此的量都与我们的业务相关。

在此示例中,我们将把实际等效区域 (ROPE) 定义为 \([-0.01, 0.01]\)。也就是说,如果两个模型的性能差异小于 1%,我们将认为它们实际等效。

为了计算分类器实际等效的概率,我们计算后验在 ROPE 区间下的曲线面积

rope_interval = [-0.01, 0.01]
rope_prob = t_post.cdf(rope_interval[1]) - t_post.cdf(rope_interval[0])

print(
    f"Probability of {model_scores.index[0]} and {model_scores.index[1]} "
    f"being practically equivalent: {rope_prob:.3f}"
)
Probability of rbf and linear being practically equivalent: 0.432

我们可以绘制后验在 ROPE 区间上的分布情况

x_rope = np.linspace(rope_interval[0], rope_interval[1], 100)

plt.plot(x, t_post.pdf(x))
plt.xticks(np.arange(-0.04, 0.06, 0.01))
plt.vlines([-0.01, 0.01], ymin=0, ymax=(np.max(t_post.pdf(x)) + 1))
plt.fill_between(x_rope, t_post.pdf(x_rope), 0, facecolor="blue", alpha=0.2)
plt.ylabel("Probability density")
plt.xlabel(r"Mean difference ($\mu$)")
plt.title("Posterior distribution under the ROPE")
plt.show()
Posterior distribution under the ROPE

如 [4] 中所建议,我们可以使用与频率派方法相同的标准进一步解释这些概率:落入 ROPE 内部的概率是否大于 95%(alpha 值为 5%)?在这种情况下,我们可以得出结论,两个模型实际等效。

贝叶斯估计方法还允许我们计算我们对差异估计的不确定性。这可以使用可信区间来计算。对于给定的概率,它们显示了估计量(在本例中为性能的平均差异)可以取的值的范围。例如,50% 的可信区间 [x, y] 告诉我们,模型之间真实(平均)性能差异在 x 和 y 之间的概率为 50%。

让我们使用 50%、75% 和 95% 确定数据的可信区间

cred_intervals = []
intervals = [0.5, 0.75, 0.95]

for interval in intervals:
    cred_interval = list(t_post.interval(interval))
    cred_intervals.append([interval, cred_interval[0], cred_interval[1]])

cred_int_df = pd.DataFrame(
    cred_intervals, columns=["interval", "lower value", "upper value"]
).set_index("interval")
cred_int_df
下限值 上限值
区间
0.50 0.000977 0.019023
0.75 -0.005422 0.025422
0.95 -0.016445 0.036445


如表中所示,模型之间真实平均差异在 0.000977 和 0.019023 之间的概率为 50%,在 -0.005422 和 0.025422 之间的概率为 70%,在 -0.016445 和 0.036445 之间的概率为 95%。

所有模型的成对比较:频率派方法#

我们可能还对比较使用 GridSearchCV 评估的所有模型的性能感兴趣。在这种情况下,我们将多次运行我们的统计检验,这导致了多重比较问题。

解决这个问题有许多可能的方法,但一种标准方法是应用邦弗罗尼校正。邦弗罗尼校正可以通过将 p 值乘以我们正在检验的比较次数来计算。

让我们使用校正 t 检验比较模型的性能

from itertools import combinations
from math import factorial

n_comparisons = factorial(len(model_scores)) / (
    factorial(2) * factorial(len(model_scores) - 2)
)
pairwise_t_test = []

for model_i, model_k in combinations(range(len(model_scores)), 2):
    model_i_scores = model_scores.iloc[model_i].values
    model_k_scores = model_scores.iloc[model_k].values
    differences = model_i_scores - model_k_scores
    t_stat, p_val = compute_corrected_ttest(differences, df, n_train, n_test)
    p_val *= n_comparisons  # implement Bonferroni correction
    # Bonferroni can output p-values higher than 1
    p_val = 1 if p_val > 1 else p_val
    pairwise_t_test.append(
        [model_scores.index[model_i], model_scores.index[model_k], t_stat, p_val]
    )

pairwise_comp_df = pd.DataFrame(
    pairwise_t_test, columns=["model_1", "model_2", "t_stat", "p_val"]
).round(3)
pairwise_comp_df
模型1 模型2 t_统计量 p_值
0 rbf 线性 0.750 1.000
1 rbf 3_poly 1.657 0.302
2 rbf 2_poly 4.565 0.000
3 线性 3_poly 1.111 0.807
4 线性 2_poly 4.276 0.000
5 3_poly 2_poly 3.851 0.001


我们观察到,在进行多重比较校正后,唯一与其他模型显著不同的模型是 '2_poly'。由 GridSearchCV 排名第一的模型 'rbf' 与 'linear' 或 '3_poly' 没有显著差异。

所有模型的成对比较:贝叶斯方法#

当使用贝叶斯估计比较多个模型时,我们不需要进行多重比较校正(原因请参见 [4])。

我们可以按照第一节中的相同方式进行成对比较

pairwise_bayesian = []

for model_i, model_k in combinations(range(len(model_scores)), 2):
    model_i_scores = model_scores.iloc[model_i].values
    model_k_scores = model_scores.iloc[model_k].values
    differences = model_i_scores - model_k_scores
    t_post = t(
        df, loc=np.mean(differences), scale=corrected_std(differences, n_train, n_test)
    )
    worse_prob = t_post.cdf(rope_interval[0])
    better_prob = 1 - t_post.cdf(rope_interval[1])
    rope_prob = t_post.cdf(rope_interval[1]) - t_post.cdf(rope_interval[0])

    pairwise_bayesian.append([worse_prob, better_prob, rope_prob])

pairwise_bayesian_df = pd.DataFrame(
    pairwise_bayesian, columns=["worse_prob", "better_prob", "rope_prob"]
).round(3)

pairwise_comp_df = pairwise_comp_df.join(pairwise_bayesian_df)
pairwise_comp_df
模型1 模型2 t_统计量 p_值 较差概率 较好概率 ROPE_概率
0 rbf 线性 0.750 1.000 0.068 0.500 0.432
1 rbf 3_poly 1.657 0.302 0.018 0.882 0.100
2 rbf 2_poly 4.565 0.000 0.000 1.000 0.000
3 线性 3_poly 1.111 0.807 0.063 0.750 0.187
4 线性 2_poly 4.276 0.000 0.000 1.000 0.000
5 3_poly 2_poly 3.851 0.001 0.000 1.000 0.000


使用贝叶斯方法,我们可以计算一个模型性能优于、劣于或实际等效于另一个模型的概率。

结果显示,由 GridSearchCV 排名第一的模型 'rbf',其性能比 'linear' 差的概率约为 6.8%,比 '3_poly' 差的概率为 1.8%。'rbf' 和 'linear' 有 43% 的概率实际等效,而 'rbf' 和 '3_poly' 有 10% 的概率实际等效。

与使用频率派方法得出的结论类似,所有模型都有 100% 的概率优于 '2_poly',并且没有一个模型与后者具有实际等效的性能。

要点总结#

  • 性能度量上的微小差异可能很容易仅仅是偶然的,而不是因为一个模型系统性地优于另一个。如本例所示,统计学可以告诉你这种情况发生的可能性有多大。

  • 在 GridSearchCV 中统计比较两个模型的性能时,需要校正计算出的方差,因为模型的得分彼此不独立,这可能导致方差被低估。

  • 使用(方差校正的)配对 t 检验的频率派方法可以告诉我们一个模型的性能是否以高于偶然的确定性优于另一个模型。

  • 贝叶斯方法可以提供一个模型优于、劣于或实际等效于另一个模型的概率。它还可以告诉我们,我们有多大信心知道模型的真实差异落在某个值范围内。

  • 如果对多个模型进行统计比较,使用频率派方法时需要进行多重比较校正。

参考文献

[1]

Dietterich, T. G. (1998). 比较监督分类学习算法的近似统计检验. Neural computation, 10(7)。

[2]

Nadeau, C., & Bengio, Y. (2000). 泛化误差推断. In Advances in neural information processing systems.

[3]

Bouckaert, R. R., & Frank, E. (2004). 评估比较学习算法显著性检验的可复现性. In Pacific-Asia Conference on Knowledge Discovery and Data Mining.

[4] (1,2,3,4,5)

Benavoli, A., Corani, G., Demšar, J., & Zaffalon, M. (2017). 变革之时:通过贝叶斯分析比较多个分类器的教程. The Journal of Machine Learning Research, 18(1)。请在此处查看随本文提供的 Python 库。

[5]

Diebold, F.X. & Mariano R.S. (1995). 比较预测准确性 Journal of Business & economic statistics, 20(1), 134-144。

脚本总运行时间: (0 分 1.514 秒)

Launch binder
Launch JupyterLite

下载 Jupyter notebook: plot_grid_search_stats.ipynb

下载 Python 源代码: plot_grid_search_stats.py

下载 压缩文件: plot_grid_search_stats.zip

相关示例

用置换检验分类分数的显著性

用置换检验分类分数的显著性

分类器校准比较

分类器校准比较

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

RBF SVM 参数

RBF SVM 参数

由 Sphinx-Gallery 生成的画廊

上一页

文本特征提取和评估的示例管道

下一页

逐次减半迭代

本页内容
  • 比较两个模型:频率派方法
  • 比较两个模型:贝叶斯方法
    • 实际等效区域
  • 所有模型的成对比较:频率派方法
  • 所有模型的成对比较:贝叶斯方法
  • 要点总结

本页

  • 显示源代码
下载源代码
下载 Jupyter notebook
下载压缩文件
Launch JupyterLite
Launch binder

© 版权所有 2007 - 2025, scikit-learn 开发者 (BSD 许可证)。