OrdinalEncoder#

class sklearn.preprocessing.OrdinalEncoder(*, categories='auto', dtype=<class 'numpy.float64'>, handle_unknown='error', unknown_value=None, encoded_missing_value=nan, min_frequency=None, max_categories=None)[source]#

将分类特征编码为整数数组。

此转换器的输入应为整数或字符串的类数组,表示分类(离散)特征所取的值。这些特征被转换为序数整数。这将为每个特征生成一个整数列(0 到 n_categories - 1)。

用户指南中了解更多信息。有关不同编码器的比较,请参阅:比较目标编码器与其他编码器

0.20 版本新增。

参数:
categories‘auto’ 或类数组列表,默认值=’auto’

每个特征的类别(唯一值)

  • ‘auto’ : 从训练数据中自动确定类别。

  • list : categories[i] 包含第 i 列中预期的类别。传入的类别不应混合字符串和数值,并且在数值情况下应进行排序。

所使用的类别可以在 categories_ 属性中找到。

dtype数字类型,默认值=np.float64

期望的输出数据类型。

handle_unknown{‘error’, ‘use_encoded_value’},默认值=’error’

当设置为 ‘error’ 时,如果在转换过程中存在未知分类特征,将引发错误。当设置为 ‘use_encoded_value’ 时,未知类别的编码值将设置为参数 unknown_value 指定的值。在 inverse_transform 中,未知类别将表示为 None。

0.24 版本新增。

unknown_valueint 或 np.nan,默认值=None

当参数 handle_unknown 设置为 ‘use_encoded_value’ 时,此参数是必需的,并将设置未知类别的编码值。它必须与用于编码 fit 中任何类别的数值不同。如果设置为 np.nan,则 dtype 参数必须是浮点型数据类型。

0.24 版本新增。

encoded_missing_valueint 或 np.nan,默认值=np.nan

缺失类别的编码值。如果设置为 np.nan,则 dtype 参数必须是浮点型数据类型。

1.1 版本新增。

min_frequencyint 或 float,默认值=None

指定类别被视为不常见(infrequent)的最低频率。

  • 如果为 int,则基数较小的类别将被视为不常见。

  • 如果为 float,则基数小于 min_frequency * n_samples 的类别将被视为不常见。

1.3 版本新增:用户指南中了解更多信息。

max_categoriesint,默认值=None

在考虑不常见类别时,指定每个输入特征的输出类别数量上限。如果存在不常见类别,则 max_categories 会包含代表不常见类别的类别以及常见类别。如果为 None,则输出特征的数量没有限制。

max_categories 考虑缺失或未知类别。将 unknown_valueencoded_missing_value 设置为整数将使唯一整数代码的数量各增加一。这可能导致最多 max_categories + 2 个整数代码。

1.3 版本新增:用户指南中了解更多信息。

属性:
categories_数组列表

fit 期间确定的每个特征的类别(按 X 中特征的顺序,并与 transform 的输出相对应)。这不包括在 fit 期间未见过的类别。

n_features_in_int

fit 期间看到的特征数量。

1.0 版本新增。

feature_names_in_形状为 (n_features_in_,) 的 ndarray

fit 期间看到的特征名称。仅当 X 的所有特征名称都是字符串时才定义此属性。

1.0 版本新增。

infrequent_categories_ndarray 列表

每个特征的不常见类别。

另请参阅

OneHotEncoder

对分类特征执行独热编码。此编码适用于低到中等基数的分类变量,无论是在有监督还是无监督设置中。

TargetEncoder

在分类或回归管道中使用有监督信号对分类特征进行编码。此编码通常适用于高基数分类变量。

LabelEncoder

使用 0 到 n_classes-1 之间的值对目标标签进行编码。

备注

在 Python 3.10 之前的版本中,如果存在大量 nan 值,类别推断会变慢。从 Python 3.10 开始,nan 值的处理得到了改进(参考 bpo-43475)。

示例

给定一个包含两个特征的数据集,我们让编码器查找每个特征的唯一值,并将数据转换为序数编码。

>>> from sklearn.preprocessing import OrdinalEncoder
>>> enc = OrdinalEncoder()
>>> X = [['Male', 1], ['Female', 3], ['Female', 2]]
>>> enc.fit(X)
OrdinalEncoder()
>>> enc.categories_
[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]
>>> enc.transform([['Female', 3], ['Male', 1]])
array([[0., 2.],
       [1., 0.]])
>>> enc.inverse_transform([[1, 0], [0, 1]])
array([['Male', 1],
       ['Female', 2]], dtype=object)

默认情况下,OrdinalEncoder 对缺失值采取宽容态度,即传播它们。

>>> import numpy as np
>>> X = [['Male', 1], ['Female', 3], ['Female', np.nan]]
>>> enc.fit_transform(X)
array([[ 1.,  0.],
       [ 0.,  1.],
       [ 0., nan]])

您可以使用参数 encoded_missing_value 来编码缺失值。

>>> enc.set_params(encoded_missing_value=-1).fit_transform(X)
array([[ 1.,  0.],
       [ 0.,  1.],
       [ 0., -1.]])

通过设置 max_categoriesmin_frequency 可以启用不常见类别。在以下示例中,“a”和“d”被视为不常见,并组合成一个类别,“b”和“c”是各自的类别,未知值编码为 3,缺失值编码为 4。

>>> X_train = np.array(
...     [["a"] * 5 + ["b"] * 20 + ["c"] * 10 + ["d"] * 3 + [np.nan]],
...     dtype=object).T
>>> enc = OrdinalEncoder(
...     handle_unknown="use_encoded_value", unknown_value=3,
...     max_categories=3, encoded_missing_value=4)
>>> _ = enc.fit(X_train)
>>> X_test = np.array([["a"], ["b"], ["c"], ["d"], ["e"], [np.nan]], dtype=object)
>>> enc.transform(X_test)
array([[2.],
       [0.],
       [1.],
       [2.],
       [3.],
       [4.]])
fit(X, y=None)[source]#

将 OrdinalEncoder 拟合到 X。

参数:
X形状为 (n_samples, n_features) 的类数组

用于确定每个特征类别的数据。

yNone

被忽略。此参数仅为与 Pipeline 兼容而存在。

返回:
self对象

已拟合的编码器。

fit_transform(X, y=None, **fit_params)[source]#

拟合数据,然后对其进行转换。

使用可选参数 fit_params 将转换器拟合到 Xy,并返回 X 的转换版本。

参数:
X形状为 (n_samples, n_features) 的类数组

输入样本。

y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组,默认值=None

目标值(无监督转换时为 None)。

**fit_paramsdict

额外的拟合参数。

返回:
X_new形状为 (n_samples, n_features_new) 的 ndarray 数组

转换后的数组。

get_feature_names_out(input_features=None)[source]#

获取转换后的输出特征名称。

参数:
input_features字符串类数组或 None,默认值=None

输入特征。

  • 如果 input_featuresNone,则使用 feature_names_in_ 作为输入特征名称。如果未定义 feature_names_in_,则生成以下输入特征名称:["x0", "x1", ..., "x(n_features_in_ - 1)"]

  • 如果 input_features 是一个类数组,则如果定义了 feature_names_in_input_features 必须与 feature_names_in_ 匹配。

返回:
feature_names_out字符串对象 ndarray

与输入特征相同。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查看 用户指南 以了解路由机制的工作原理。

返回:
routingMetadataRequest

一个包含路由信息的 MetadataRequest

get_params(deep=True)[source]#

获取此估计器的参数。

参数:
deep布尔值,默认值=True

如果为 True,将返回此估计器及其包含的作为估计器的子对象的参数。

返回:
paramsdict

参数名称映射到其值。

inverse_transform(X)[source]#

将数据转换回原始表示。

参数:
X形状为 (n_samples, n_encoded_features) 的类数组

转换后的数据。

返回:
X_original形状为 (n_samples, n_features) 的 ndarray

逆转换后的数组。

set_output(*, transform=None)[source]#

设置输出容器。

有关如何使用此 API 的示例,请参阅set_output API 简介

参数:
transform{“default”, “pandas”, “polars”},默认值=None

配置 transformfit_transform 的输出。

  • "default": 转换器的默认输出格式

  • "pandas": DataFrame 输出

  • "polars": Polars 输出

  • None: 转换配置不变

1.4 版本新增:添加了 "polars" 选项。

返回:
self估计器实例

估计器实例。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单估计器以及嵌套对象(例如 Pipeline)。后者具有 <component>__<parameter> 形式的参数,因此可以更新嵌套对象的每个组件。

参数:
**paramsdict

估计器参数。

返回:
self估计器实例

估计器实例。

transform(X)[source]#

将 X 转换为序数编码。

参数:
X形状为 (n_samples, n_features) 的类数组

要编码的数据。

返回:
X_out形状为 (n_samples, n_features) 的 ndarray

转换后的输入。