MissingIndicator#

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[源代码]#

缺失值的二进制指示符。

请注意,此组件通常不应用于由转换器和分类器组成的普通 Pipeline 中,而应通过 FeatureUnionColumnTransformer 添加。

用户指南 中阅读更多内容。

0.20 版本新增。

参数:
missing_valuesint, float, str, np.nan 或 None, 默认=np.nan

缺失值的占位符。所有出现的 missing_values 都将被填充。对于具有带缺失值的可空整数类型的 pandas dataframes,missing_values 应设置为 np.nan,因为 pd.NA 将被转换为 np.nan

features{‘missing-only’, ‘all’}, 默认=’missing-only’

插补器掩码应代表所有特征还是特征子集。

  • 如果是 'missing-only'(默认),插补器掩码将仅代表在 fit 期间包含缺失值的特征。

  • 如果是 'all',插补器掩码将代表所有特征。

sparsebool 或 ‘auto’, 默认=’auto’

插补器掩码格式应为稀疏还是密集。

  • 如果是 'auto'(默认),插补器掩码将与输入类型相同。

  • 如果是 True,插补器掩码将是一个稀疏矩阵。

  • 如果是 False,插补器掩码将是一个 numpy 数组。

error_on_newbool, 默认=True

如果是 True,当存在 fit 时没有缺失值但在 transform 时有缺失值的特征时,将引发错误。这仅在 features='missing-only' 时适用。

属性:
features_形状为 (n_missing_features,) 或 (n_features,) 的 ndarray

调用 transform 时将返回的特征索引。它们在 fit 期间计算。如果 features='all',则 features_ 等于 range(n_features)

n_features_in_int

拟合 期间看到的特征数。

0.24 版本新增。

feature_names_in_shape 为 (n_features_in_,) 的 ndarray

fit 期间看到的特征名称。仅当 X 具有全部为字符串的特征名称时才定义。

1.0 版本新增。

另请参阅

SimpleImputer

单变量缺失值插补。

IterativeImputer

多变量缺失值插补。

示例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])
fit(X, y=None)[源代码]#

X 上拟合转换器。

参数:
Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}

输入数据,其中 n_samples 是样本数量,n_features 是特征数量。

y被忽略

未使用,按照惯例为保持 API 一致性而存在。

返回:
selfobject

拟合的估计器。

fit_transform(X, y=None)[源代码]#

生成 X 的缺失值指示符。

参数:
Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}

要完成的输入数据。

y被忽略

未使用,按照惯例为保持 API 一致性而存在。

返回:
Xt形状为 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩阵}

输入数据的缺失指示符。Xt 的数据类型将为布尔型。

get_feature_names_out(input_features=None)[源代码]#

获取转换的输出特征名称。

参数:
input_featuresarray-like of str or None, default=None

输入特征。

  • 如果 input_featuresNone,则使用 feature_names_in_ 作为输入特征名称。如果 feature_names_in_ 未定义,则生成以下输入特征名称:["x0", "x1", ..., "x(n_features_in_ - 1)"]

  • 如果 input_features 是 array-like,则如果定义了 feature_names_in_input_features 必须与 feature_names_in_ 匹配。

返回:
feature_names_outstr 对象的 ndarray

转换后的特征名称。

get_metadata_routing()[源代码]#

获取此对象的元数据路由。

请查阅 用户指南,了解路由机制如何工作。

返回:
routingMetadataRequest

封装路由信息的 MetadataRequest

get_params(deep=True)[源代码]#

获取此估计器的参数。

参数:
deepbool, default=True

如果为 True,将返回此估计器以及包含的子对象(如果它们是估计器)的参数。

返回:
paramsdict

参数名称映射到其值。

set_output(*, transform=None)[源代码]#

设置输出容器。

请参阅 用户指南 以了解更多详细信息,并参考 引入 set_output API 获取关于如何使用该 API 的示例。

参数:
transform{“default”, “pandas”, “polars”}, default=None

配置 transformfit_transform 的输出。

  • "default": 转换器的默认输出格式

  • "pandas": DataFrame 输出

  • "polars": Polars 输出

  • None: 转换配置保持不变

1.4 版本新增: 添加了 "polars" 选项。

返回:
selfestimator instance

估计器实例。

set_params(**params)[源代码]#

设置此估计器的参数。

此方法适用于简单的估计器以及嵌套对象(如 Pipeline)。后者具有 <component>__<parameter> 形式的参数,以便可以更新嵌套对象的每个组件。

参数:
**paramsdict

估计器参数。

返回:
selfestimator instance

估计器实例。

transform(X)[源代码]#

生成 X 的缺失值指示符。

参数:
Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}

要完成的输入数据。

返回:
Xt形状为 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩阵}

输入数据的缺失指示符。Xt 的数据类型将为布尔型。