注意

转到末尾以下载完整示例代码，或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

文本特征提取和评估的示例管道#

此示例中使用的数据集是20 newsgroups 文本数据集，它将自动下载、缓存并用于文档分类示例。

在此示例中，我们使用RandomizedSearchCV对特定分类器的超参数进行调整。有关其他一些分类器性能的演示，请参阅使用稀疏特征对文本文档进行分类笔记本。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

数据加载#

我们从训练集中加载两个类别。您可以通过将类别名称添加到列表中来调整类别数量，或者在调用数据集加载器fetch_20newsgroups时设置categories=None以获取所有 20 个类别。

from sklearn.datasets import fetch_20newsgroups

categories = [
    "alt.atheism",
    "talk.religion.misc",
]

data_train = fetch_20newsgroups(
    subset="train",
    categories=categories,
    shuffle=True,
    random_state=42,
    remove=("headers", "footers", "quotes"),
)

data_test = fetch_20newsgroups(
    subset="test",
    categories=categories,
    shuffle=True,
    random_state=42,
    remove=("headers", "footers", "quotes"),
)

print(f"Loading 20 newsgroups dataset for {len(data_train.target_names)} categories:")
print(data_train.target_names)
print(f"{len(data_train.data)} documents")

Loading 20 newsgroups dataset for 2 categories:
['alt.atheism', 'talk.religion.misc']
857 documents

带超参数调整的管道#

我们定义了一个管道，它将文本特征向量化器与一个简单但对文本分类有效的分类器相结合。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import ComplementNB
from sklearn.pipeline import Pipeline

pipeline = Pipeline(
    [
        ("vect", TfidfVectorizer()),
        ("clf", ComplementNB()),
    ]
)
pipeline

Pipeline(steps=[('vect', TfidfVectorizer()), ('clf', ComplementNB())])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

我们定义了一个超参数网格，供RandomizedSearchCV探索。使用GridSearchCV代替会探索网格中所有可能的组合，这计算成本可能很高，而RandomizedSearchCV的参数n_iter控制评估的不同随机组合的数量。请注意，如果将n_iter设置得大于网格中可能的组合数量，则会导致重复探索已探索过的组合。我们搜索特征提取 (vect__) 和分类器 (clf__) 的最佳参数组合。

import numpy as np

parameter_grid = {
    "vect__max_df": (0.2, 0.4, 0.6, 0.8, 1.0),
    "vect__min_df": (1, 3, 5, 10),
    "vect__ngram_range": ((1, 1), (1, 2)),  # unigrams or bigrams
    "vect__norm": ("l1", "l2"),
    "clf__alpha": np.logspace(-6, 6, 13),
}

在这种情况下，n_iter=40并不是对超参数网格的详尽搜索。在实践中，增加参数n_iter以获得更具信息性的分析会很有趣。因此，计算时间会增加。我们可以通过增加通过参数n_jobs使用的 CPU 数量，利用参数组合评估的并行化来减少它。

from pprint import pprint

from sklearn.model_selection import RandomizedSearchCV

random_search = RandomizedSearchCV(
    estimator=pipeline,
    param_distributions=parameter_grid,
    n_iter=40,
    random_state=0,
    n_jobs=2,
    verbose=1,
)

print("Performing grid search...")
print("Hyperparameters to be evaluated:")
pprint(parameter_grid)

Performing grid search...
Hyperparameters to be evaluated:
{'clf__alpha': array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
       1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]),
 'vect__max_df': (0.2, 0.4, 0.6, 0.8, 1.0),
 'vect__min_df': (1, 3, 5, 10),
 'vect__ngram_range': ((1, 1), (1, 2)),
 'vect__norm': ('l1', 'l2')}

from time import time

t0 = time()
random_search.fit(data_train.data, data_train.target)
print(f"Done in {time() - t0:.3f}s")

Fitting 5 folds for each of 40 candidates, totalling 200 fits
Done in 24.387s

print("Best parameters combination found:")
best_parameters = random_search.best_estimator_.get_params()
for param_name in sorted(parameter_grid.keys()):
    print(f"{param_name}: {best_parameters[param_name]}")

Best parameters combination found:
clf__alpha: 0.01
vect__max_df: 0.2
vect__min_df: 1
vect__ngram_range: (1, 1)
vect__norm: l1

test_accuracy = random_search.score(data_test.data, data_test.target)
print(
    "Accuracy of the best parameters using the inner CV of "
    f"the random search: {random_search.best_score_:.3f}"
)
print(f"Accuracy on test set: {test_accuracy:.3f}")

Accuracy of the best parameters using the inner CV of the random search: 0.816
Accuracy on test set: 0.709

前缀vect和clf是必需的，以避免管道中可能的歧义，但对于可视化结果不是必需的。因此，我们定义了一个函数来重命名调整后的超参数并提高可读性。

import pandas as pd


def shorten_param(param_name):
    """Remove components' prefixes in param_name."""
    if "__" in param_name:
        return param_name.rsplit("__", 1)[1]
    return param_name


cv_results = pd.DataFrame(random_search.cv_results_)
cv_results = cv_results.rename(shorten_param, axis=1)

我们可以使用 plotly.express.scatter 来可视化评分时间与平均测试分数（即“CV 分数”）之间的权衡。将光标悬停在给定点上会显示相应的参数。误差条对应于在交叉验证的不同折叠中计算的一个标准偏差。

import plotly.express as px

param_names = [shorten_param(name) for name in parameter_grid.keys()]
labels = {
    "mean_score_time": "CV Score time (s)",
    "mean_test_score": "CV score (accuracy)",
}
fig = px.scatter(
    cv_results,
    x="mean_score_time",
    y="mean_test_score",
    error_x="std_score_time",
    error_y="std_test_score",
    hover_data=param_names,
    labels=labels,
)
fig.update_layout(
    title={
        "text": "trade-off between scoring time and mean test score",
        "y": 0.95,
        "x": 0.5,
        "xanchor": "center",
        "yanchor": "top",
    }
)
fig

请注意，绘图左上角的模型集群在准确性和评分时间之间具有最佳权衡。在这种情况下，使用 bigram 会增加所需的评分时间，而不会显著提高管道的准确性。

注意

有关如何自定义自动调整以最大化分数和最小化评分时间的更多信息，请参阅示例笔记本带交叉验证的网格搜索的自定义 refit 策略。

我们还可以使用 plotly.express.parallel_coordinates 来进一步将平均测试分数可视化为调整后的超参数的函数。这有助于发现两个以上超参数之间的交互作用，并提供关于它们对于改进管道性能的相关性的直觉。

我们对 alpha 轴应用 math.log10 转换，以展开活动范围并提高绘图的可读性。该轴上的值 \(x\) 应理解为 \(10^x\)。

import math

column_results = param_names + ["mean_test_score", "mean_score_time"]

transform_funcs = dict.fromkeys(column_results, lambda x: x)
# Using a logarithmic scale for alpha
transform_funcs["alpha"] = math.log10
# L1 norms are mapped to index 1, and L2 norms to index 2
transform_funcs["norm"] = lambda x: 2 if x == "l2" else 1
# Unigrams are mapped to index 1 and bigrams to index 2
transform_funcs["ngram_range"] = lambda x: x[1]

fig = px.parallel_coordinates(
    cv_results[column_results].apply(transform_funcs),
    color="mean_test_score",
    color_continuous_scale=px.colors.sequential.Viridis_r,
    labels=labels,
)
fig.update_layout(
    title={
        "text": "Parallel coordinates plot of text classifier pipeline",
        "y": 0.99,
        "x": 0.5,
        "xanchor": "center",
        "yanchor": "top",
    }
)
fig

平行坐标图在不同的列上显示超参数的值，而性能指标则用颜色编码。可以通过单击并按住平行坐标图的任何轴来选择结果范围。然后，您可以滑动（移动）范围选择并交叉两个选择以查看交集。您可以再次单击同一轴来撤消选择。

特别是对于这种超参数搜索，有趣的是，性能最佳的模型似乎不依赖于正则化 norm，但它们确实依赖于 max_df、min_df 和正则化强度 alpha 之间的权衡。原因是包含嘈杂特征（即 max_df 接近 \(1.0\) 或 min_df 接近 \(0\)）往往会过拟合，因此需要更强的正则化来补偿。特征较少需要较少的正则化和较少的评分时间。

当 alpha 介于 \(10^{-6}\) 和 \(10^0\) 之间时，无论超参数 norm 如何，都会获得最佳准确率分数。

脚本总运行时间： (0 minutes 26.612 seconds)

下载 Jupyter notebook： plot_grid_search_text_feature_extraction.ipynb

下载 Python 源代码： plot_grid_search_text_feature_extraction.py

下载 zipped： plot_grid_search_text_feature_extraction.zip

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('vect', ...), ('clf', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	input input: {'filename', 'file', 'content'}, default='content' - 如果为 `'filename'`，则传递给 fit 的序列应为文件名列表，需要读取这些文件以获取要分析的原始内容。 - 如果为 `'file'`，则序列项必须具有一个 'read' 方法（类文件对象），该方法被调用以获取内存中的字节。 - 如果为 `'content'`，则输入应为一系列项，类型可以是字符串或字节。	'content'
	encoding encoding: str, default='utf-8' 如果给定要分析的字节或文件，则使用此编码进行解码。	'utf-8'
	decode_error decode_error: {'strict', 'ignore', 'replace'}, default='strict' 指示在给定要分析的字节序列包含不属于给定 `encoding` 字符时应如何处理。默认情况下，它为 'strict'，这意味着将引发 UnicodeDecodeError。其他值为 'ignore' 和 'replace'。	'strict'
	strip_accents strip_accents: {'ascii', 'unicode'} or callable, default=None 在预处理步骤中删除重音并执行其他字符规范化。 'ascii' 是一种快速方法，仅适用于具有直接 ASCII 映射的字符。 'unicode' 是一种稍慢的方法，适用于任何字符。 None（默认）表示不执行字符规范化。 'ascii' 和 'unicode' 都使用来自 :func:`unicodedata.normalize` 的 NFKD 规范化。	None
	lowercase lowercase: bool, default=True 在分词之前将所有字符转换为小写。	True
	preprocessor preprocessor: callable, default=None 覆盖预处理（字符串转换）阶段，同时保留分词和 n-gram 生成步骤。仅当 ``analyzer`` 不可调用时适用。	None
	tokenizer tokenizer: callable, default=None 覆盖字符串分词步骤，同时保留预处理和 n-gram 生成步骤。仅当 ``analyzer == 'word'`` 时适用。	None
	analyzer analyzer: {'word', 'char', 'char_wb'} or callable, default='word' 特征是否应由词 n-gram 或字符 n-gram 构成。选项 'char_wb' 仅从词边界内的文本创建字符 n-gram；词边缘的 n-gram 用空格填充。如果传递可调用对象，则用于从原始、未处理的输入中提取特征序列。 .. versionchanged:: 0.21 自 v0.21 起，如果 ``input`` 为 ``'filename'`` 或 ``'file'``，则数据首先从文件中读取，然后传递给给定的可调用分析器。	'word'
	stop_words stop_words: {'english'}, list, default=None 如果为字符串，则将其传递给 _check_stop_list 并返回适当的停用词列表。'english' 是目前唯一受支持的字符串值。 “english”存在几个已知问题，您应该考虑替代方案（请参阅 :ref:`stop_words`）。如果为列表，则假定该列表包含停用词，所有这些停用词都将从生成的词元中移除。仅当 ``analyzer == 'word'`` 时适用。如果为 None，则不使用停用词。在这种情况下，将 `max_df` 设置为更高的值（例如在 (0.7, 1.0) 范围内）可以根据词在语料库中的文档频率自动检测和过滤停用词。	None
	token_pattern token_pattern: str, default=r"(?u)\\b\\w\\w+\\b" 表示构成“词元”的正则表达式，仅在 ``analyzer == 'word'`` 时使用。默认的正则表达式选择 2 个或更多字母数字字符的词元（标点符号被完全忽略，并始终被视为词元分隔符）。如果 token_pattern 中有一个捕获组，则捕获组内容而不是整个匹配项成为词元。最多允许一个捕获组。	'(?u)\\b\\w\\w+\\b'
	ngram_range ngram_range: tuple (min_n, max_n), default=(1, 1) 要提取的不同 n-gram 的 n 值范围的下限和上限。所有满足 min_n <= n <= max_n 的 n 值都将被使用。例如，``ngram_range`` 为 ``(1, 1)`` 表示仅使用 unigram，``(1, 2)`` 表示 unigram 和 bigram，``(2, 2)`` 表示仅使用 bigram。仅当 ``analyzer`` 不可调用时适用。	(1, ...)
	max_df max_df: float or int, default=1.0 在构建词汇表时，忽略文档频率严格高于给定阈值（特定于语料库的停用词）的词项。如果为 [0.0, 1.0] 范围内的浮点数，则该参数表示文档的比例，如果为整数则表示绝对计数。如果 vocabulary 不为 None，则忽略此参数。	1.0
	min_df min_df: float or int, default=1 在构建词汇表时，忽略文档频率严格低于给定阈值的词项。此值在文献中也称为截止值。如果为 [0.0, 1.0] 范围内的浮点数，则该参数表示文档的比例，如果为整数则表示绝对计数。如果 vocabulary 不为 None，则忽略此参数。	1
	max_features max_features: int, default=None 如果不是 None，则构建一个词汇表，只考虑按语料库中词频排序的前 `max_features` 个特征。否则，使用所有特征。如果 vocabulary 不为 None，则忽略此参数。	None
	vocabulary vocabulary: Mapping or iterable, default=None 可以是 Mapping（例如 dict），其中键是词项，值是特征矩阵中的索引，也可以是包含词项的可迭代对象。如果未给出，则从输入文档中确定词汇表。	None
	binary binary: bool, default=False 如果为 True，则所有非零词项计数都设置为 1。这并不意味着输出将只有 0/1 值，只是 tf-idf 中的 tf 词项是二进制的。（将 `binary` 设置为 True，`use_idf` 设置为 False，`norm` 设置为 None 以获得 0/1 输出）。	False
	dtype dtype: dtype, default=float64 fit_transform() 或 transform() 返回的矩阵类型。	<class 'numpy.float64'>
	norm norm: {'l1', 'l2'} or None, default='l2' 每行输出将具有单位范数，可以是： - 'l2'：向量元素平方和为 1。当应用 l2 范数时，两个向量之间的余弦相似度是它们的点积。 - 'l1'：向量元素绝对值之和为 1。请参阅 :func:`~sklearn.preprocessing.normalize`。 - None：不进行规范化。	'l2'
	use_idf use_idf: bool, default=True 启用逆文档频率重新加权。如果为 False，则 idf(t) = 1。	True
	smooth_idf smooth_idf: bool, default=True 通过向文档频率加一来平滑 idf 权重，就好像看到了一个包含集合中每个词项恰好一次的额外文档一样。防止零除。	True
	sublinear_tf sublinear_tf: bool, default=False 应用次线性 tf 缩放，即用 1 + log(tf) 替换 tf。	False

	alpha alpha: float or array-like of shape (n_features,), default=1.0 加法（拉普拉斯/Lidstone）平滑参数（设置 alpha=0 和 force_alpha=True，表示不进行平滑）。	1.0
	force_alpha force_alpha: bool, default=True 如果为 False 且 alpha 小于 1e-10，则将其设置为 1e-10。如果为 True，则 alpha 保持不变。如果 alpha 太接近 0，这可能会导致数值错误。 .. versionadded:: 1.2 .. versionchanged:: 1.4 `force_alpha` 的默认值更改为 `True`。	True
	fit_prior fit_prior: bool, default=True 仅用于训练集中只有一个类别的边缘情况。	True
	class_prior class_prior: array-like of shape (n_classes,), default=None 类别的先验概率。未使用。	None
	norm norm: bool, default=False 是否执行权重的第二次规范化。默认行为模仿 Mahout 和 Weka 中的实现，它们不遵循论文表 9 中描述的完整算法。	False

文本特征提取和评估的示例管道#

数据加载#

带超参数调整的管道#

本页