sklearn.preprocessing#

用于缩放、居中、归一化、二值化等的方法。

用户指南。 进一步细节请参阅 数据预处理 部分。

Binarizer

根据阈值将数据二值化(将特征值设置为0或1)。

FunctionTransformer

从任意可调用对象构造一个转换器。

KBinsDiscretizer

将连续数据分箱到多个区间。

KernelCenterer

对任意核矩阵 \(K\) 进行中心化。

LabelBinarizer

以一对多的方式对标签进行二值化。

LabelEncoder

将目标标签编码为0到n_classes-1之间的值。

MaxAbsScaler

根据每个特征的最大绝对值进行缩放。

MinMaxScaler

通过将每个特征缩放到给定范围来转换特征。

MultiLabelBinarizer

在可迭代对象的可迭代对象和多标签格式之间进行转换。

Normalizer

将样本单独归一化到单位范数。

OneHotEncoder

将分类特征编码为独热数值数组。

OrdinalEncoder

将分类特征编码为整数数组。

PolynomialFeatures

生成多项式和交互特征。

PowerTransformer

逐特征应用幂变换,使数据更接近高斯分布。

QuantileTransformer

使用分位数信息转换特征。

RobustScaler

使用对异常值具有鲁棒性的统计量缩放特征。

SplineTransformer

为特征生成单变量B样条基。

StandardScaler

通过移除均值和缩放到单位方差来标准化特征。

TargetEncoder

用于回归和分类目标的Target Encoder。

add_dummy_feature

为数据集添加一个额外的虚拟特征。

binarize

对类数组或scipy.sparse矩阵进行布尔阈值化。

label_binarize

以一对多的方式对标签进行二值化。

maxabs_scale

将每个特征缩放到 [-1, 1] 范围,同时不破坏稀疏性。

minmax_scale

通过将每个特征缩放到给定范围来转换特征。

normalize

将输入向量单独缩放到单位范数(向量长度)。

power_transform

参数化、单调变换,使数据更接近高斯分布。

quantile_transform

使用分位数信息转换特征。

robust_scale

沿任意轴标准化数据集。

scale

沿任意轴标准化数据集。