管道 ANOVA SVM#

本示例展示了如何将特征选择轻松集成到机器学习管道中。

我们还展示了您可以轻松检查管道的某个部分。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

我们将首先生成一个二元分类数据集。随后，我们将把数据集分成两个子集。

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_features=20,
    n_informative=3,
    n_redundant=0,
    n_classes=2,
    n_clusters_per_class=2,
    random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

特征选择中常见的错误是在完整数据集上搜索判别性特征的子集，而不是只使用训练集。使用 scikit-learn 的 Pipeline 可以避免这种错误。

在这里，我们将演示如何构建一个以特征选择为第一步的管道。

在训练数据上调用 fit 时，将选择特征的一个子集并存储这些选定特征的索引。特征选择器随后将减少特征数量，并将此子集传递给将要训练的分类器。

from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import make_pipeline
from sklearn.svm import LinearSVC

anova_filter = SelectKBest(f_classif, k=3)
clf = LinearSVC()
anova_svm = make_pipeline(anova_filter, clf)
anova_svm.fit(X_train, y_train)

Pipeline(steps=[('selectkbest', SelectKBest(k=3)), ('linearsvc', LinearSVC())])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示或信任此笔记本。
在 GitHub 上，HTML 表示无法渲染，请尝试使用 nbviewer.org 加载此页面。

训练完成后，我们可以对新的未见样本进行预测。在这种情况下，特征选择器将根据训练期间存储的信息，仅选择最具判别力的特征。然后，数据将传递给分类器进行预测。

在这里，我们通过分类报告展示最终指标。

from sklearn.metrics import classification_report

y_pred = anova_svm.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.80      0.86        15
           1       0.75      0.90      0.82        10

    accuracy                           0.84        25
   macro avg       0.84      0.85      0.84        25
weighted avg       0.85      0.84      0.84        25

请注意，您可以检查管道中的一个步骤。例如，我们可能对分类器的参数感兴趣。由于我们选择了三个特征，因此我们期望有三个系数。

anova_svm[-1].coef_

array([[0.75788833, 0.27161955, 0.26113448]])

然而，我们不知道原始数据集中选择了哪些特征。我们可以通过多种方式进行。在这里，我们将反转这些系数的变换，以获取关于原始空间的信息。

anova_svm[:-1].inverse_transform(anova_svm[-1].coef_)

array([[0.        , 0.        , 0.75788833, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.27161955,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26113448]])

我们可以看到，具有非零系数的特征是第一步所选择的特征。

脚本总运行时间： (0 分钟 0.014 秒)

	steps	[('selectkbest', ...), ('linearsvc', ...)]
	transform_input	无
	memory	无
	verbose	False

	penalty	'l2'
	loss	'squared_hinge'
	dual	'auto'
	tol	0.0001
	C	1.0
	multi_class	'ovr'
	fit_intercept	True
	intercept_scaling	1
	class_weight	无
	verbose	0
	random_state	无
	max_iter	1000

	score_func	<function f_c...x7fad23c2dab0>
	k	3

管道 ANOVA SVM#

本页