7. 数据集转换#
scikit-learn 提供了一个转换器库,它可以用于清理(参见数据预处理)、降维(参见无监督降维)、扩展(参见核近似)或生成(参见特征提取)特征表示。
与其他估计器一样,这些转换器由类表示,包含一个 fit 方法,该方法从训练集中学习模型参数(例如,用于标准化的均值和标准差),以及一个 transform 方法,该方法将转换模型应用于未见数据。对于同时建模和转换训练数据,fit_transform 可能更方便和高效。
关于如何组合这些转换器(无论是并行还是串联),请参阅管道和复合估计器。成对度量、相似度和核函数介绍了将特征空间转换为相似度矩阵,而转换预测目标 (y)则考虑了目标空间(例如分类标签)的转换,以便在 scikit-learn 中使用。