TfidfTransformer#
- class sklearn.feature_extraction.text.TfidfTransformer(*, norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)[source]#
将计数矩阵转换为归一化的 tf 或 tf-idf 表示。
Tf 表示词频(term-frequency),而 tf-idf 表示词频乘以逆文档频率(inverse document-frequency)。这是信息检索中常用的一种词项加权方案,在文档分类中也有很好的应用。
使用 tf-idf 而不是给定文档中词元原始出现频率的目的,是为了降低在给定语料库中出现非常频繁的词元的影响,这些词元因此在经验上比在训练语料库中只占一小部分文档的特征所提供的信息量要少。
计算文档集中文档 d 中词项 t 的 tf-idf 的公式是 tf-idf(t, d) = tf(t, d) * idf(t),其中 idf 的计算方式为 idf(t) = log [ n / df(t) ] + 1(如果
smooth_idf=False),其中 n 是文档集中的文档总数,df(t) 是 t 的文档频率;文档频率是文档集中包含词项 t 的文档数量。在上述等式中将“1”添加到 idf 中的效果是,idf 为零的词项(即出现在训练集中所有文档中的词项)将不会被完全忽略。(请注意,上述 idf 公式不同于标准教科书的表示法,后者将 idf 定义为 idf(t) = log [ n / (df(t) + 1) ])。如果
smooth_idf=True(默认值),则将常数“1”添加到 idf 的分子和分母中,就像看到了一个额外的文档,其中集合中的每个词项都恰好出现一次一样,这可以防止零除法:idf(t) = log [ (1 + n) / (1 + df(t)) ] + 1。此外,用于计算 tf 和 idf 的公式取决于参数设置,这些设置对应于 IR 中使用的 SMART 表示法如下:
tf 默认是“n”(自然),当
sublinear_tf=True时是“l”(对数)。当给定 use_idf 时 idf 是“t”,否则是“n”(无)。当norm='l2'时归一化是“c”(余弦),当norm=None时是“n”(无)。在 用户指南 中阅读更多内容。
- 参数:
- norm{‘l1’, ‘l2’} or None, default=’l2’
每个输出行将具有单位范数,可以是
‘l2’:向量元素平方和为 1。当应用 l2 范数时,两个向量之间的余弦相似度就是它们的点积。
‘l1’:向量元素绝对值之和为 1。请参阅
normalize。None:不进行归一化。
- use_idfbool, default=True
启用逆文档频率重新加权。如果为 False,则 idf(t) = 1。
- smooth_idfbool, default=True
通过在文档频率中加一来平滑 idf 权重,就好像看到了一个额外的文档,其中集合中的每个词项都恰好出现一次。防止零除法。
- sublinear_tfbool, default=False
应用次线性 tf 缩放,即用 1 + log(tf) 替换 tf。
- 属性:
另请参阅
CountVectorizer将文本转换为 n-gram 计数的稀疏矩阵。
TfidfVectorizer将原始文档集合转换为 TF-IDF 特征矩阵。
HashingVectorizer将文本文档集合转换为标记出现矩阵。
References
[Yates2011]R. Baeza-Yates and B. Ribeiro-Neto (2011). Modern Information Retrieval. Addison Wesley, pp. 68-74.
[MRS2008]C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, pp. 118-120.
示例
>>> from sklearn.feature_extraction.text import TfidfTransformer >>> from sklearn.feature_extraction.text import CountVectorizer >>> from sklearn.pipeline import Pipeline >>> corpus = ['this is the first document', ... 'this document is the second document', ... 'and this is the third one', ... 'is this the first document'] >>> vocabulary = ['this', 'document', 'first', 'is', 'second', 'the', ... 'and', 'one'] >>> pipe = Pipeline([('count', CountVectorizer(vocabulary=vocabulary)), ... ('tfid', TfidfTransformer())]).fit(corpus) >>> pipe['count'].transform(corpus).toarray() array([[1, 1, 1, 1, 0, 1, 0, 0], [1, 2, 0, 1, 1, 1, 0, 0], [1, 0, 0, 1, 0, 1, 1, 1], [1, 1, 1, 1, 0, 1, 0, 0]]) >>> pipe['tfid'].idf_ array([1. , 1.22314355, 1.51082562, 1. , 1.91629073, 1. , 1.91629073, 1.91629073]) >>> pipe.transform(corpus).shape (4, 8)
- fit(X, y=None)[source]#
学习 idf 向量(全局词项权重)。
- 参数:
- Xsparse matrix of shape (n_samples, n_features)
词项/词元计数矩阵。
- yNone
计算 tf-idf 不需要此参数。
- 返回:
- selfobject
已拟合的转换器。
- fit_transform(X, y=None, **fit_params)[source]#
拟合数据,然后对其进行转换。
使用可选参数
fit_params将转换器拟合到X和y,并返回X的转换版本。- 参数:
- Xshape 为 (n_samples, n_features) 的 array-like
输入样本。
- y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组对象,默认=None
目标值(对于无监督转换,为 None)。
- **fit_paramsdict
额外的拟合参数。仅当估计器在其
fit方法中接受额外的参数时才传递。
- 返回:
- X_newndarray array of shape (n_samples, n_features_new)
转换后的数组。
- get_feature_names_out(input_features=None)[source]#
获取转换的输出特征名称。
- 参数:
- input_featuresarray-like of str or None, default=None
输入特征。
如果
input_features为None,则使用feature_names_in_作为输入特征名称。如果feature_names_in_未定义,则生成以下输入特征名称:["x0", "x1", ..., "x(n_features_in_ - 1)"]。如果
input_features是 array-like,则如果定义了feature_names_in_,input_features必须与feature_names_in_匹配。
- 返回:
- feature_names_outstr 对象的 ndarray
与输入特征相同。
- get_metadata_routing()[source]#
获取此对象的元数据路由。
请查阅 用户指南,了解路由机制如何工作。
- 返回:
- routingMetadataRequest
封装路由信息的
MetadataRequest。
- get_params(deep=True)[source]#
获取此估计器的参数。
- 参数:
- deepbool, default=True
如果为 True,将返回此估计器以及包含的子对象(如果它们是估计器)的参数。
- 返回:
- paramsdict
参数名称映射到其值。
- set_output(*, transform=None)[source]#
设置输出容器。
有关如何使用 API 的示例,请参阅引入 set_output API。
- 参数:
- transform{“default”, “pandas”, “polars”}, default=None
配置
transform和fit_transform的输出。"default": 转换器的默认输出格式"pandas": DataFrame 输出"polars": Polars 输出None: 转换配置保持不变
1.4 版本新增: 添加了
"polars"选项。
- 返回:
- selfestimator instance
估计器实例。
- set_params(**params)[source]#
设置此估计器的参数。
此方法适用于简单的估计器以及嵌套对象(如
Pipeline)。后者具有<component>__<parameter>形式的参数,以便可以更新嵌套对象的每个组件。- 参数:
- **paramsdict
估计器参数。
- 返回:
- selfestimator instance
估计器实例。
- set_transform_request(*, copy: bool | None | str = '$UNCHANGED$') TfidfTransformer[source]#
配置是否应请求元数据以传递给
transform方法。请注意,此方法仅在以下情况下相关:此估计器用作 元估计器 中的子估计器,并且通过
enable_metadata_routing=True启用了元数据路由(请参阅sklearn.set_config)。请查看 用户指南 以了解路由机制的工作原理。每个参数的选项如下:
True:请求元数据,如果提供则传递给transform。如果未提供元数据,则忽略该请求。False:不请求元数据,并且元估计器不会将其传递给transform。None:不请求元数据,如果用户提供元数据,元估计器将引发错误。str:应将元数据以给定别名而不是原始名称传递给元估计器。
默认值 (
sklearn.utils.metadata_routing.UNCHANGED) 保留现有请求。这允许您更改某些参数的请求而不更改其他参数。在版本 1.3 中新增。
- 参数:
- copystr, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
transform中copy参数的元数据路由。
- 返回:
- selfobject
更新后的对象。