sklearn.feature_extraction#

从原始数据中提取特征。

用户指南。 有关详细信息,请参阅特征提取部分。

DictVectorizer

将特征值映射列表转换为向量。

FeatureHasher

实现特征哈希,又名哈希技巧。

从图像中提取#

用于从图像中提取特征的实用程序。

image.PatchExtractor

从图像集合中提取补丁。

image.extract_patches_2d

将 2D 图像重塑为补丁集合。

image.grid_to_graph

像素到像素连接的图。

image.img_to_graph

像素到像素梯度连接的图。

image.reconstruct_from_patches_2d

从其所有补丁重建图像。

从文本中提取#

用于从文本文档中构建特征向量的实用程序。

text.CountVectorizer

将文本文档集合转换为标记计数矩阵。

text.HashingVectorizer

将文本文档集合转换为标记出现矩阵。

text.TfidfTransformer

将计数矩阵转换为归一化的 tf 或 tf-idf 表示。

text.TfidfVectorizer

将原始文档集合转换为 TF-IDF 特征矩阵。