6. 数据集转换#
scikit-learn 提供了一个转换器库,可以用于清洗(参见 数据预处理)、降维(参见 无监督降维)、扩展(参见 核近似)或生成(参见 特征提取)特征表示。
与其他估计器一样,这些转换器由具有 fit
方法的类表示,该方法从训练集学习模型参数(例如,用于归一化的均值和标准差),以及一个 transform
方法,该方法将此转换模型应用于未见数据。 fit_transform
方法可能更方便和高效地同时对训练数据进行建模和转换。
组合这些转换器,无论是并行还是串行,都在 管道和组合估计器 中介绍。 成对度量、亲和性和核函数 涵盖了将特征空间转换为亲和矩阵,而 转换预测目标 (y) 考虑了目标空间(例如类别标签)的转换,以便在 scikit-learn 中使用。