注意
转到末尾 下载完整的示例代码。或通过 JupyterLite 或 Binder 在您的浏览器中运行此示例
使用分类器链进行多标签分类#
此示例演示如何使用 ClassifierChain
解决多标签分类问题。
解决此类任务最简单的方法是为每个标签(即目标变量的每一列)独立训练一个二元分类器。在预测时,使用二元分类器的集成来组装多任务预测。
此策略不允许对不同任务之间的关系进行建模。ClassifierChain
是一个元估计器(即采用内部估计器的估计器),它实现了一种更高级的策略。二元分类器的集成被用作一个链,其中链中一个分类器的预测被用作训练下一个分类器(针对新标签)的特征。因此,这些附加特征允许每个链利用标签之间的相关性。
链的Jaccard 相似度分数往往大于独立基模型集的分数。
# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause
加载数据集#
在此示例中,我们使用yeast数据集,该数据集包含 2,417 个数据点,每个数据点具有 103 个特征和 14 个可能的标签。每个数据点至少有一个标签。作为基线,我们首先为这 14 个标签中的每一个训练一个逻辑回归分类器。为了评估这些分类器的性能,我们在保留的测试集上进行预测,并计算每个样本的 Jaccard 相似度。
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
# Load a multi-label dataset from https://www.openml.org/d/40597
X, Y = fetch_openml("yeast", version=4, return_X_y=True)
Y = Y == "TRUE"
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
拟合模型#
我们拟合了由OneVsRestClassifier
包装的LogisticRegression
和多个ClassifierChain
的集成。
由 OneVsRestClassifier 包装的 LogisticRegression#
由于默认情况下LogisticRegression
无法处理具有多个目标的数据,因此我们需要使用OneVsRestClassifier
。拟合模型后,我们计算 Jaccard 相似度。
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import jaccard_score
from sklearn.multiclass import OneVsRestClassifier
base_lr = LogisticRegression()
ovr = OneVsRestClassifier(base_lr)
ovr.fit(X_train, Y_train)
Y_pred_ovr = ovr.predict(X_test)
ovr_jaccard_score = jaccard_score(Y_test, Y_pred_ovr, average="samples")
二元分类器链#
因为每个链中的模型是随机排列的,所以链之间的性能差异很大。大概存在一个最佳的链类排序,可以产生最佳性能。但是,我们事先不知道该排序。相反,我们可以通过平均链的二元预测并应用 0.5 的阈值来构建分类器链的投票集成。集成 Jaccard 相似度分数高于独立模型的分数,并且往往超过集成中每个链的分数(尽管对于随机排序的链,这并非保证)。
from sklearn.multioutput import ClassifierChain
chains = [ClassifierChain(base_lr, order="random", random_state=i) for i in range(10)]
for chain in chains:
chain.fit(X_train, Y_train)
Y_pred_chains = np.array([chain.predict_proba(X_test) for chain in chains])
chain_jaccard_scores = [
jaccard_score(Y_test, Y_pred_chain >= 0.5, average="samples")
for Y_pred_chain in Y_pred_chains
]
Y_pred_ensemble = Y_pred_chains.mean(axis=0)
ensemble_jaccard_score = jaccard_score(
Y_test, Y_pred_ensemble >= 0.5, average="samples"
)
绘制结果#
绘制独立模型、每个链和集成的 Jaccard 相似度分数(请注意,此图的纵轴不是从 0 开始的)。
model_scores = [ovr_jaccard_score] + chain_jaccard_scores + [ensemble_jaccard_score]
model_names = (
"Independent",
"Chain 1",
"Chain 2",
"Chain 3",
"Chain 4",
"Chain 5",
"Chain 6",
"Chain 7",
"Chain 8",
"Chain 9",
"Chain 10",
"Ensemble",
)
x_pos = np.arange(len(model_names))
fig, ax = plt.subplots(figsize=(7, 4))
ax.grid(True)
ax.set_title("Classifier Chain Ensemble Performance Comparison")
ax.set_xticks(x_pos)
ax.set_xticklabels(model_names, rotation="vertical")
ax.set_ylabel("Jaccard Similarity Score")
ax.set_ylim([min(model_scores) * 0.9, max(model_scores) * 1.1])
colors = ["r"] + ["b"] * len(chain_jaccard_scores) + ["g"]
ax.bar(x_pos, model_scores, alpha=0.5, color=colors)
plt.tight_layout()
plt.show()
结果解读#
该图主要有三个结论:
由
OneVsRestClassifier
包装的独立模型的性能不如分类器链的集成和一些单个链。这是因为逻辑回归没有对标签之间的关系进行建模。ClassifierChain
利用了标签之间的相关性,但由于标签排序的随机性,它可能产生比独立模型更差的结果。链的集成性能更好,因为它不仅捕获了标签之间的关系,而且没有对它们的正确顺序做出强假设。
脚本的总运行时间:(0 分钟 2.279 秒)
相关示例