分类器校准比较#
校准良好的分类器是概率分类器,其 predict_proba 的输出可以直接解释为置信度级别。例如,一个校准良好的(二元)分类器应该对样本进行分类,使其对那些它给出了接近 0.8 的 predict_proba 值的样本,大约 80% 实际上属于正类。
在本例中,我们将比较四种不同模型的校准:逻辑回归、高斯朴素贝叶斯、随机森林分类器 和 线性 SVM。
作者:Jan Hendrik Metzen <jhm@informatik.uni-bremen.de> 许可证:BSD 3 条款。
数据集#
我们将使用一个包含 100,000 个样本和 20 个特征的合成二元分类数据集。在 20 个特征中,只有 2 个是有信息的,2 个是冗余的(信息特征的随机组合),其余 16 个是无信息的(随机数)。
在 100,000 个样本中,100 个将用于模型拟合,其余用于测试。请注意,这种划分非常不寻常:目标是为可能容易过拟合的模型获得稳定的校准曲线估计。在实践中,应该使用更平衡的划分进行交叉验证,但这会使本示例的代码更难理解。
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
X, y = make_classification(
n_samples=100_000, n_features=20, n_informative=2, n_redundant=2, random_state=42
)
train_samples = 100 # Samples used for training the models
X_train, X_test, y_train, y_test = train_test_split(
X,
y,
shuffle=False,
test_size=100_000 - train_samples,
)
校准曲线#
下面,我们使用小型训练数据集训练四个模型中的每一个,然后使用测试数据集的预测概率绘制校准曲线(也称为可靠性图)。校准曲线是通过对预测概率进行分箱,然后将每个箱中的平均预测概率与观察到的频率(“正样本比例”)进行绘制来创建的。在校准曲线下方,我们绘制了一个直方图,显示了预测概率的分布,或者更准确地说,是每个预测概率箱中的样本数量。
import numpy as np
from sklearn.svm import LinearSVC
class NaivelyCalibratedLinearSVC(LinearSVC):
"""LinearSVC with `predict_proba` method that naively scales
`decision_function` output."""
def fit(self, X, y):
super().fit(X, y)
df = self.decision_function(X)
self.df_min_ = df.min()
self.df_max_ = df.max()
def predict_proba(self, X):
"""Min-max scale output of `decision_function` to [0,1]."""
df = self.decision_function(X)
calibrated_df = (df - self.df_min_) / (self.df_max_ - self.df_min_)
proba_pos_class = np.clip(calibrated_df, 0, 1)
proba_neg_class = 1 - proba_pos_class
proba = np.c_[proba_neg_class, proba_pos_class]
return proba
from sklearn.calibration import CalibrationDisplay
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegressionCV
from sklearn.naive_bayes import GaussianNB
# Define the classifiers to be compared in the study.
#
# Note that we use a variant of the logistic regression model that can
# automatically tune its regularization parameter.
#
# For a fair comparison, we should run a hyper-parameter search for all the
# classifiers but we don't do it here for the sake of keeping the example code
# concise and fast to execute.
lr = LogisticRegressionCV(
Cs=np.logspace(-6, 6, 101), cv=10, scoring="neg_log_loss", max_iter=1_000
)
gnb = GaussianNB()
svc = NaivelyCalibratedLinearSVC(C=1.0)
rfc = RandomForestClassifier(random_state=42)
clf_list = [
(lr, "Logistic Regression"),
(gnb, "Naive Bayes"),
(svc, "SVC"),
(rfc, "Random forest"),
]
import matplotlib.pyplot as plt
from matplotlib.gridspec import GridSpec
fig = plt.figure(figsize=(10, 10))
gs = GridSpec(4, 2)
colors = plt.get_cmap("Dark2")
ax_calibration_curve = fig.add_subplot(gs[:2, :2])
calibration_displays = {}
markers = ["^", "v", "s", "o"]
for i, (clf, name) in enumerate(clf_list):
clf.fit(X_train, y_train)
display = CalibrationDisplay.from_estimator(
clf,
X_test,
y_test,
n_bins=10,
name=name,
ax=ax_calibration_curve,
color=colors(i),
marker=markers[i],
)
calibration_displays[name] = display
ax_calibration_curve.grid()
ax_calibration_curve.set_title("Calibration plots")
# Add histogram
grid_positions = [(2, 0), (2, 1), (3, 0), (3, 1)]
for i, (_, name) in enumerate(clf_list):
row, col = grid_positions[i]
ax = fig.add_subplot(gs[row, col])
ax.hist(
calibration_displays[name].y_prob,
range=(0, 1),
bins=10,
label=name,
color=colors(i),
)
ax.set(title=name, xlabel="Mean predicted probability", ylabel="Count")
plt.tight_layout()
plt.show()
结果分析#
LogisticRegressionCV
返回了相当好的校准预测,尽管训练集大小很小:它的可靠性曲线在四个模型中与对角线最接近。
逻辑回归是通过最小化对数损失来训练的,对数损失是一个严格的适当评分规则:在无限训练数据的情况下,严格的适当评分规则由预测真实条件概率的模型最小化。因此,该(假设的)模型将被完美校准。但是,使用适当的评分规则作为训练目标本身不足以保证模型得到很好的校准:即使使用非常大的训练集,如果逻辑回归被过度正则化,或者输入特征的选择和预处理使该模型错误指定(例如,如果数据集的真实决策边界是输入特征的非线性函数),逻辑回归仍然可能校准不良。
在本例中,训练集有意地保持非常小。在这种情况下,优化对数损失仍然会导致模型校准不良,因为存在过拟合。为了减轻这种情况,LogisticRegressionCV
类被配置为调整 C
正则化参数,以通过内部交叉验证最小化对数损失,以便在小型训练集设置中找到该模型的最佳折衷方案。
由于有限的训练集大小和缺乏良好规范的保证,我们观察到逻辑回归模型的校准曲线接近对角线,但并不完全在对角线上。该模型校准曲线的形状可以解释为略微不自信:与真实正样本比例相比,预测概率略微接近 0.5。
其他方法都输出校准较差的概率
GaussianNB
倾向于将概率推向 0 或 1(参见直方图),这在特定数据集上(过度自信)。这主要是因为朴素贝叶斯方程仅在特征条件独立的假设成立时才能提供对概率的正确估计 [2]。但是,特征可能是相关的,在本数据集中就是这种情况,该数据集包含 2 个特征,它们是作为信息特征的随机线性组合生成的。这些相关特征实际上被“计算了两次”,导致预测概率被推向 0 和 1 [3]。但是请注意,更改用于生成数据集的种子会导致朴素贝叶斯估计器的结果差异很大。LinearSVC
不是一个自然的概率分类器。为了将它的预测解释为概率,我们通过在上面定义的NaivelyCalibratedLinearSVC
包装类中应用最小-最大缩放,将 决策函数 的输出简单地缩放为 [0, 1]。该估计器在此数据上显示了典型的 S 形校准曲线:大于 0.5 的预测对应于具有更大有效正类比例(高于对角线)的样本,而小于 0.5 的预测对应于更低的正类比例(低于对角线)。这种不自信的预测是最大间隔方法的典型特征 [1]。RandomForestClassifier
的预测直方图显示了大约 0.2 和 0.9 概率的峰值,而接近 0 或 1 的概率非常少。 [1] 给出了对此的解释:“诸如 bagging 和随机森林之类的平均来自一组基本模型的预测的方法可能难以对接近 0 和 1 的情况进行预测,因为基础模型中的方差会使应该接近零或一的预测偏离这些值。由于预测被限制在 [0, 1] 区间内,因此由方差引起的错误在零和一附近往往是单边的。例如,如果模型应该对一个案例预测 p = 0,那么 bagging 唯一能实现这一点的方法是所有 bagging 树都预测零。如果我们在 bagging 平均的树中添加噪声,这种噪声会导致一些树对该案例预测大于 0 的值,从而使 bagging 集成的平均预测远离 0。我们观察到这种效应在随机森林中最为强烈,因为用随机森林训练的基层树由于特征子集而具有相对较高的方差。” 这种效应会导致随机森林不自信。尽管存在这种可能的偏差,但请注意,树本身是通过最小化基尼或熵准则来拟合的,这两者都导致最小化适当评分规则的分割:分别为 Brier 分数或对数损失。有关更多详细信息,请参见 用户指南。这可以解释为什么该模型在此特定示例数据集中显示了足够好的校准曲线。实际上,随机森林模型并不比逻辑回归模型明显更不自信。
随意使用不同的随机种子和其他数据集生成参数重新运行此示例,以查看校准图的外观差异有多大。一般来说,逻辑回归和随机森林往往是校准最好的分类器,而 SVC 通常会显示典型的过度自信错误校准。朴素贝叶斯模型也经常校准不良,但其校准曲线的总体形状会根据数据集而有很大差异。
最后,请注意,对于某些数据集种子,即使在调整正则化参数如上所述的情况下,所有模型的校准都很差。当训练集大小太小或模型严重错误指定时,这种情况必然会发生。
参考文献#
脚本的总运行时间:(0 分钟 3.277 秒)
相关示例