TfidfTransformer#
- class sklearn.feature_extraction.text.TfidfTransformer(*, norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)[source]#
将计数矩阵转换为归一化的 TF 或 TF-IDF 表示。
TF 指的是词频(term-frequency),而 TF-IDF 指的是词频乘以逆文档频率(inverse document-frequency)。这是信息检索中常见的词项加权方案,在文档分类中也得到了很好的应用。
使用 TF-IDF 而不是给定文档中词元(token)的原始出现频率,是为了降低在给定语料库中频繁出现的词元的影响,因为这些词元在经验上比在训练语料库中仅出现一小部分的特征所提供的信息量要少。
计算文档集中文档 d 中词项 t 的 TF-IDF 的公式为 TF-IDF(t, d) = TF(t, d) * IDF(t),其中 IDF 的计算公式为 IDF(t) = log [ n / df(t) ] + 1(如果
smooth_idf=False
),其中 n 是文档集中文档的总数,df(t) 是 t 的文档频率;文档频率是文档集中包含词项 t 的文档数量。在上述公式中 IDF 添加“1”的效果是,IDF 为零的词项(即在训练集中所有文档中都出现的词项)不会被完全忽略。(请注意,上述 IDF 公式与将 IDF 定义为 IDF(t) = log [ n / (df(t) + 1) ] 的标准教科书符号不同)。如果
smooth_idf=True
(默认值),则 IDF 的分子和分母都会加上常数“1”,这如同假设看到了一个额外文档,其中每个词项在集合中恰好出现一次,从而防止了零除:IDF(t) = log [ (1 + n) / (1 + df(t)) ] + 1。此外,用于计算 TF 和 IDF 的公式取决于参数设置,这些参数设置与信息检索(IR)中使用的 SMART 表示法对应如下:
TF 默认是“n”(自然),当
sublinear_tf=True
时是“l”(对数)。IDF 在给定use_idf
时是“t”,否则是“n”(无)。归一化在norm='l2'
时是“c”(余弦),在norm=None
时是“n”(无)。在用户指南中阅读更多内容。
- 参数:
- norm{‘l1’, ‘l2’} 或 None,默认值='l2'
每个输出行将具有单位范数,可以是:
‘l2’:向量元素平方和为1。当应用l2范数时,两个向量之间的余弦相似度是它们的点积。
‘l1’:向量元素绝对值之和为1。参见
normalize
。None:不进行归一化。
- use_idf布尔值,默认值=True
启用逆文档频率重新加权。如果为 False,则 idf(t) = 1。
- smooth_idf布尔值,默认值=True
通过在文档频率中加一来平滑 IDF 权重,如同额外看到一个文档,其中每个词项在集合中恰好出现一次。这可以防止零除。
- sublinear_tf布尔值,默认值=False
应用次线性 TF 缩放,即用 1 + log(tf) 替换 TF。
- 属性:
另请参阅
CountVectorizer
将文本转换为 n-gram 计数的稀疏矩阵。
TfidfVectorizer
将原始文档集合转换为 TF-IDF 特征矩阵。
HashingVectorizer
将文本文档集合转换为词元出现次数矩阵。
参考文献
[Yates2011]R. Baeza-Yates and B. Ribeiro-Neto (2011). Modern Information Retrieval. Addison Wesley, pp. 68-74.
[MRS2008]C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, pp. 118-120.
示例
>>> from sklearn.feature_extraction.text import TfidfTransformer >>> from sklearn.feature_extraction.text import CountVectorizer >>> from sklearn.pipeline import Pipeline >>> corpus = ['this is the first document', ... 'this document is the second document', ... 'and this is the third one', ... 'is this the first document'] >>> vocabulary = ['this', 'document', 'first', 'is', 'second', 'the', ... 'and', 'one'] >>> pipe = Pipeline([('count', CountVectorizer(vocabulary=vocabulary)), ... ('tfid', TfidfTransformer())]).fit(corpus) >>> pipe['count'].transform(corpus).toarray() array([[1, 1, 1, 1, 0, 1, 0, 0], [1, 2, 0, 1, 1, 1, 0, 0], [1, 0, 0, 1, 0, 1, 1, 1], [1, 1, 1, 1, 0, 1, 0, 0]]) >>> pipe['tfid'].idf_ array([1. , 1.22314355, 1.51082562, 1. , 1.91629073, 1. , 1.91629073, 1.91629073]) >>> pipe.transform(corpus).shape (4, 8)
- fit(X, y=None)[source]#
学习 IDF 向量(全局词项权重)。
- 参数:
- X形状为 (n_samples, n_features) 的稀疏矩阵
一个词项/词元计数矩阵。
- y无
计算 TF-IDF 不需要此参数。
- 返回:
- self对象
已拟合的转换器。
- fit_transform(X, y=None, **fit_params)[source]#
拟合数据,然后进行转换。
使用可选参数
fit_params
将转换器拟合到X
和y
,并返回X
的转换版本。- 参数:
- X形状为 (n_samples, n_features) 的类数组
输入样本。
- y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组,默认值=None
目标值(对于无监督转换,为 None)。
- **fit_params字典
附加拟合参数。
- 返回:
- X_new形状为 (n_samples, n_features_new) 的 ndarray 数组
转换后的数组。
- get_feature_names_out(input_features=None)[source]#
获取转换后的输出特征名称。
- 参数:
- input_features字符串类数组或 None,默认值=None
输入特征。
如果
input_features
为None
,则使用feature_names_in_
作为输入特征名称。如果feature_names_in_
未定义,则生成以下输入特征名称:["x0", "x1", ..., "x(n_features_in_ - 1)"]
。如果
input_features
是一个类数组,那么如果feature_names_in_
已定义,input_features
必须与feature_names_in_
匹配。
- 返回:
- feature_names_out字符串对象的 ndarray
与输入特征相同。
- get_metadata_routing()[source]#
获取此对象的元数据路由。
请查阅用户指南,了解路由机制的工作原理。
- 返回:
- routingMetadataRequest
一个封装了路由信息的
MetadataRequest
。
- get_params(deep=True)[source]#
获取此估计器的参数。
- 参数:
- deep布尔值,默认值=True
如果为 True,将返回此估计器及其包含的作为估计器的子对象的参数。
- 返回:
- params字典
参数名称及其对应值。
- set_output(*, transform=None)[source]#
设置输出容器。
有关如何使用此 API 的示例,请参阅介绍 set_output API。
- 参数:
- transform{“default”, “pandas”, “polars”},默认值=None
配置
transform
和fit_transform
的输出。"default"
:转换器的默认输出格式"pandas"
:DataFrame 输出"polars"
:Polars 输出None
:转换配置不变
版本 1.4 新增:添加了
"polars"
选项。
- 返回:
- self估计器实例
估计器实例。
- set_params(**params)[source]#
设置此估计器的参数。
此方法适用于简单的估计器以及嵌套对象(例如
Pipeline
)。后者具有<component>__<parameter>
形式的参数,因此可以更新嵌套对象的每个组件。- 参数:
- **params字典
估计器参数。
- 返回:
- self估计器实例
估计器实例。
- set_transform_request(*, copy: bool | None | str = '$UNCHANGED$') TfidfTransformer [source]#
请求传递给
transform
方法的元数据。请注意,此方法仅在
enable_metadata_routing=True
时才相关(请参阅sklearn.set_config
)。请参阅用户指南,了解路由机制的工作原理。每个参数的选项如下:
True
:请求元数据,如果提供则传递给transform
。如果未提供元数据,则忽略请求。False
:不请求元数据,元估计器不会将其传递给transform
。None
:不请求元数据,如果用户提供元数据,元估计器将引发错误。str
:元数据应以给定别名而非原始名称传递给元估计器。
默认值 (
sklearn.utils.metadata_routing.UNCHANGED
) 保留现有请求。这允许您更改某些参数的请求,而不更改其他参数。版本 1.3 中新增。
注意
此方法仅在估计器作为元估计器的子估计器使用时才相关,例如在
Pipeline
中使用时。否则,它不起作用。- 参数:
- copystr, True, False, 或 None,默认值=sklearn.utils.metadata_routing.UNCHANGED
在
transform
中copy
参数的元数据路由。
- 返回:
- self对象
更新后的对象。