MissingIndicator#

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[source]#

缺失值的二进制指示符。

请注意，此组件通常不应在由转换器和分类器组成的普通 Pipeline 中使用，而应使用 FeatureUnion 或 ColumnTransformer 添加。

在用户指南中阅读更多内容。

0.20 版本新增。

参数:

missing_valuesint, float, str, np.nan or None, default=np.nan

缺失值的占位符。所有出现 missing_values 的地方都将被估算。对于包含可空整数 dtype 且带有缺失值的 pandas 数据框，missing_values 应设置为 np.nan，因为 pd.NA 将被转换为 np.nan。

features{‘missing-only’, ‘all’}, default=’missing-only’

估算器掩码应表示全部还是部分特征。

如果为 'missing-only' (默认值)，则估算器掩码将仅表示拟合期间包含缺失值的特征。
如果为 'all'，则估算器掩码将表示所有特征。

sparsebool or ‘auto’, default=’auto’

估算器掩码格式应为稀疏还是密集。

如果为 'auto' (默认值)，则估算器掩码将与输入具有相同的类型。
如果为 True，则估算器掩码将是一个稀疏矩阵。
如果为 False，则估算器掩码将是一个 numpy 数组。

error_on_newbool, default=True

如果为 True，当存在在 fit 中没有缺失值但在 transform 中有缺失值的特征时，transform 将引发错误。这仅适用于 features='missing-only'。

属性:

features_ndarray of shape (n_missing_features,) or (n_features,): 调用 transform 时将返回的特征索引。它们在 fit 期间计算。如果 features='all'，则 features_ 等于 range(n_features)。
n_features_in_int: 在拟合期间看到的特征数。

0.24 版本新增。
feature_names_in_shape 为 (n_features_in_,) 的 ndarray: 在 fit 期间看到的特征名称。仅当 X 具有全部为字符串的特征名称时才定义。

1.0 版本新增。

另请参阅

SimpleImputer: 缺失值的单变量估算。
IterativeImputer: 缺失值的多变量估算。

示例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])

fit(X, y=None)[source]#

在 X 上拟合转换器。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 输入数据，其中 n_samples 是样本数量，n_features 是特征数量。
y被忽略: 未使用，按照惯例为保持 API 一致性而存在。

返回:

selfobject: 拟合的估计器。

fit_transform(X, y=None)[source]#

为 X 生成缺失值指示器。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 要完成的输入数据。
y被忽略: 未使用，按照惯例为保持 API 一致性而存在。

返回:

Xt{ndarray, sparse matrix} of shape (n_samples, n_features) or (n_samples, n_features_with_missing): 输入数据的缺失指示器。 Xt 的数据类型将为布尔值。

get_feature_names_out(input_features=None)[source]#

获取转换的输出特征名称。

参数:

input_featuresarray-like of str or None, default=None

输入特征。

如果 input_features 为 None，则使用 feature_names_in_ 作为输入特征名称。如果 feature_names_in_ 未定义，则生成以下输入特征名称：["x0", "x1", ..., "x(n_features_in_ - 1)"]。
如果 input_features 是 array-like，则如果定义了 feature_names_in_，input_features 必须与 feature_names_in_ 匹配。

返回:

feature_names_outstr 对象的 ndarray: 转换后的特征名称。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅用户指南，了解路由机制如何工作。

返回:

routingMetadataRequest: 封装路由信息的 MetadataRequest。

get_params(deep=True)[source]#

获取此估计器的参数。

参数:

deepbool, default=True: 如果为 True，将返回此估计器以及包含的子对象（如果它们是估计器）的参数。

返回:

paramsdict: 参数名称映射到其值。

set_output(*, transform=None)[source]#

设置输出容器。

有关如何使用 API 的示例，请参阅引入 set_output API。

参数:

transform{“default”, “pandas”, “polars”}, default=None

配置 transform 和 fit_transform 的输出。

"default": 转换器的默认输出格式
"pandas": DataFrame 输出
"polars": Polars 输出
None: 转换配置保持不变

1.4 版本新增: 添加了 "polars" 选项。

返回:

selfestimator instance: 估计器实例。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单的估计器以及嵌套对象（如 Pipeline）。后者具有 <component>__<parameter> 形式的参数，以便可以更新嵌套对象的每个组件。

参数:

**paramsdict: 估计器参数。

返回:

selfestimator instance: 估计器实例。

transform(X)[source]#

为 X 生成缺失值指示器。

参数:

Xshape 为 (n_samples, n_features) 的 {array-like, sparse matrix}: 要完成的输入数据。

返回:

Xt{ndarray, sparse matrix} of shape (n_samples, n_features) or (n_samples, n_features_with_missing): 输入数据的缺失指示器。 Xt 的数据类型将为布尔值。

MissingIndicator#

本页