7.9. 转换预测目标 (y)#

这些转换器不用于特征,仅用于监督学习目标。如果您希望在学习时转换预测目标,但在原始(未转换)空间中评估模型,请参阅 回归中的目标转换

7.9.1. 标签二值化#

7.9.1.1. LabelBinarizer#

LabelBinarizer 是一个实用类,用于帮助从 多类 标签列表中创建 标签指示矩阵

>>> from sklearn import preprocessing
>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit([1, 2, 6, 4, 2])
LabelBinarizer()
>>> lb.classes_
array([1, 2, 4, 6])
>>> lb.transform([1, 6])
array([[1, 0, 0, 0],
       [0, 0, 0, 1]])

使用这种格式可以在支持标签指示矩阵格式的估计器中实现多类分类。

警告

如果您使用的估计器已经支持 多类 数据,则不需要 LabelBinarizer。

有关多类分类的更多信息,请参阅 多类分类

7.9.1.2. MultiLabelBinarizer#

多标签 学习中,二元分类任务的联合集用标签二元指示数组表示:每个样本是一个形状为 (n_samples, n_classes) 的二维数组的一行,其中包含二元值,非零元素对应于该样本的标签子集。像 np.array([[1, 0, 0], [0, 1, 1], [0, 0, 0]]) 这样的数组表示第一个样本中的标签 0,第二个样本中的标签 1 和 2,以及第三个样本中没有标签。

将多标签数据生成为标签集列表可能更直观。 MultiLabelBinarizer 转换器可用于在标签集合和指示器格式之间进行转换

>>> from sklearn.preprocessing import MultiLabelBinarizer
>>> y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
>>> MultiLabelBinarizer().fit_transform(y)
array([[0, 0, 1, 1, 1],
       [0, 0, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 0, 0]])

有关多标签分类的更多信息,请参阅 多标签分类

7.9.2. 标签编码#

LabelEncoder 是一个实用类,用于帮助标准化标签,使其仅包含 0 到 n_classes-1 之间的值。这有时对于编写高效的 Cython 例程很有用。 LabelEncoder 可以按如下方式使用

>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6])
array([0, 0, 1, 2])
>>> le.inverse_transform([0, 0, 1, 2])
array([1, 1, 2, 6])

它也可以用于将非数值标签(只要它们是可哈希和可比较的)转换为数值标签

>>> le = preprocessing.LabelEncoder()
>>> le.fit(["paris", "paris", "tokyo", "amsterdam"])
LabelEncoder()
>>> list(le.classes_)
[np.str_('amsterdam'), np.str_('paris'), np.str_('tokyo')]
>>> le.transform(["tokyo", "tokyo", "paris"])
array([2, 2, 1])
>>> list(le.inverse_transform([2, 2, 1]))
[np.str_('tokyo'), np.str_('tokyo'), np.str_('paris')]