使用分类器链进行多标签分类#

本示例展示了如何使用 ClassifierChain 解决多标签分类问题。

解决此类任务最简单的方法是为每个标签（即目标变量的每一列）独立训练一个二元分类器。在预测时，使用二元分类器集成来组合多任务预测。

这种策略不允许建模不同任务之间的关系。ClassifierChain 是实现更高级策略的元估计器（即一个接受内部估计器的估计器）。二元分类器集成被用作链式结构，其中链中一个分类器的预测被用作训练下一个新标签分类器的特征。因此，这些附加特征允许每个链利用标签之间的相关性。

分类器链的杰卡德相似度分数通常高于独立的基模型。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

加载数据集#

本示例中，我们使用酵母数据集，该数据集包含 2,417 个数据点，每个数据点有 103 个特征和 14 个可能的标签。每个数据点至少有一个标签。作为基线，我们首先为 14 个标签中的每一个训练一个逻辑回归分类器。为了评估这些分类器的性能，我们在一个保留的测试集上进行预测，并计算每个样本的杰卡德相似度。

import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

# Load a multi-label dataset from https://www.openml.org/d/40597
X, Y = fetch_openml("yeast", version=4, return_X_y=True)
Y = Y == "TRUE"
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

拟合模型#

我们拟合了由 OneVsRestClassifier 包装的 LogisticRegression 以及多个 ClassifierChain 的集成。

由 OneVsRestClassifier 包装的 LogisticRegression#

由于 LogisticRegression 默认无法处理具有多个目标的数据，因此我们需要使用 OneVsRestClassifier。拟合模型后，我们计算杰卡德相似度。

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import jaccard_score
from sklearn.multiclass import OneVsRestClassifier

base_lr = LogisticRegression()
ovr = OneVsRestClassifier(base_lr)
ovr.fit(X_train, Y_train)
Y_pred_ovr = ovr.predict(X_test)
ovr_jaccard_score = jaccard_score(Y_test, Y_pred_ovr, average="samples")

二元分类器链#

由于每个链中的模型是随机排列的，因此链之间的性能存在显著差异。据推测，链中类的最佳排序将产生最佳性能。然而，我们事先并不知道这种排序。相反，我们可以通过平均链的二元预测并应用 0.5 的阈值来构建一个分类器链的投票集成。集成的杰卡德相似度分数大于独立模型的分数，并且倾向于超过集成中每个链的分数（尽管这在随机排序的链中不能保证）。

from sklearn.multioutput import ClassifierChain

chains = [ClassifierChain(base_lr, order="random", random_state=i) for i in range(10)]
for chain in chains:
    chain.fit(X_train, Y_train)

Y_pred_chains = np.array([chain.predict_proba(X_test) for chain in chains])
chain_jaccard_scores = [
    jaccard_score(Y_test, Y_pred_chain >= 0.5, average="samples")
    for Y_pred_chain in Y_pred_chains
]

Y_pred_ensemble = Y_pred_chains.mean(axis=0)
ensemble_jaccard_score = jaccard_score(
    Y_test, Y_pred_ensemble >= 0.5, average="samples"
)

绘制结果#

绘制独立模型、每个链以及集成的杰卡德相似度分数（请注意，此图的垂直轴不从 0 开始）。

model_scores = [ovr_jaccard_score] + chain_jaccard_scores + [ensemble_jaccard_score]

model_names = (
    "Independent",
    "Chain 1",
    "Chain 2",
    "Chain 3",
    "Chain 4",
    "Chain 5",
    "Chain 6",
    "Chain 7",
    "Chain 8",
    "Chain 9",
    "Chain 10",
    "Ensemble",
)

x_pos = np.arange(len(model_names))

fig, ax = plt.subplots(figsize=(7, 4))
ax.grid(True)
ax.set_title("Classifier Chain Ensemble Performance Comparison")
ax.set_xticks(x_pos)
ax.set_xticklabels(model_names, rotation="vertical")
ax.set_ylabel("Jaccard Similarity Score")
ax.set_ylim([min(model_scores) * 0.9, max(model_scores) * 1.1])
colors = ["r"] + ["b"] * len(chain_jaccard_scores) + ["g"]
ax.bar(x_pos, model_scores, alpha=0.5, color=colors)
plt.tight_layout()
plt.show()

Classifier Chain Ensemble Performance Comparison

结果解读#

此图有三个主要启示

由 OneVsRestClassifier 包装的独立模型表现不如分类器链集成和一些单独的链。这是因为逻辑回归未能对标签之间的关系进行建模。
ClassifierChain 利用了标签之间的相关性，但由于标签排序的随机性，它可能产生比独立模型更差的结果。
分类器链集成表现更好，因为它不仅捕捉了标签之间的关系，而且没有对它们的正确顺序做出强假设。

脚本总运行时间： (0 分钟 1.779 秒)