sklearn.feature_extraction#

从原始数据中提取特征。

**用户指南。** 更多细节请参见特征提取 部分。

DictVectorizer

将特征值映射列表转换为向量。

FeatureHasher

实现特征哈希,也称为哈希技巧。

从图像#

用于从图像中提取特征的工具。

image.PatchExtractor

从图像集合中提取图像块。

image.extract_patches_2d

将二维图像重塑为图像块集合。

image.grid_to_graph

像素到像素连接的图。

image.img_to_graph

像素到像素梯度连接的图。

image.reconstruct_from_patches_2d

从所有图像块重建图像。

文本处理#

用于从文本文档构建特征向量的工具。

text.CountVectorizer

将文本文档集合转换为标记计数矩阵。

text.HashingVectorizer

将文本文档集合转换为标记出现次数矩阵。

text.TfidfTransformer

将计数矩阵转换为标准化的tf或tf-idf表示。

text.TfidfVectorizer

将原始文档集合转换为TF-IDF特征矩阵。