sklearn.preprocessing#

用于缩放、居中、标准化、二值化等的函数。

用户指南。更多详情请参见数据预处理部分。

二值化器

根据阈值对数据进行二值化(将特征值设置为0或1)。

函数变换器

根据任意可调用函数构建变换器。

K箱离散化器

将连续数据划分为区间。

核中心化器

对任意核矩阵\(K\)进行中心化。

标签二值化器

以一对多方式对标签进行二值化。

标签编码器

将目标标签编码为 0 到 n_classes-1 之间的数值。

最大绝对值缩放器

按每个特征的最大绝对值缩放每个特征。

最小最大缩放器

通过将每个特征缩放至给定范围来转换特征。

多标签二值化器

在可迭代的可迭代对象和多标签格式之间进行转换。

归一化器

将样本分别规范化到单位范数。

独热编码器

将分类特征编码为独热数值数组。

序数编码器

将分类特征编码为整数数组。

多项式特征

生成多项式和交互特征。

幂变换器

对特征应用幂变换,使其更接近高斯分布。

分位数变换器

使用分位数信息转换特征。

稳健缩放器

使用对异常值稳健的统计数据来缩放特征。

样条变换器

为特征生成单变量 B 样条基。

标准化器

通过移除均值并缩放至单位方差来标准化特征。

目标编码器

用于回归和分类目标的 Target Encoder。

添加虚拟特征

使用附加的虚拟特征增强数据集。

二值化

对类数组或 scipy.sparse 矩阵进行布尔阈值化。

标签二值化

以一对多方式对标签进行二值化。

最大绝对值缩放

将每个特征缩放至 [-1, 1] 范围,同时不破坏稀疏性。

最小最大缩放

通过将每个特征缩放至给定范围来转换特征。

归一化

将输入向量分别缩放至单位范数(向量长度)。

幂变换

参数化、单调变换,使数据更接近高斯分布。

分位数变换

使用分位数信息转换特征。

稳健缩放

沿任何轴标准化数据集。

缩放

沿任何轴标准化数据集。