KNNImputer#

class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights='uniform', metric='nan_euclidean', copy=True, add_indicator=False, keep_empty_features=False)[source]#

使用 k-Nearest Neighbors 完成缺失值的插补。

每个样本的缺失值都使用在训练集中找到的 n_neighbors 个最近邻样本的平均值进行插补。如果两个样本都没有缺失的特征相近，则认为它们相近。

在用户指南中了解更多信息。

版本 0.22 新增。

参数:

missing_valuesint, float, str, np.nan or None, default=np.nan

缺失值的占位符。所有 missing_values 的出现都将被插补。对于带有可为空整数 dtype 且存在缺失值的 pandas 数据帧，missing_values 应设置为 np.nan，因为 pd.NA 将被转换为 np.nan。

n_neighborsint, default=5

用于插补的邻近样本数。

weights{‘uniform’, ‘distance’} or callable, default=’uniform’

预测中使用的权重函数。可能的值：

‘uniform’：均匀权重。邻域中的所有点都具有相同的权重。
‘distance’：按距离的倒数对点进行加权。在这种情况下，查询点越近的邻居将比越远的邻居具有更大的影响力。
callable：一个用户自定义函数，接受一个距离数组，并返回一个具有相同形状的权重数组。

metric{‘nan_euclidean’} or callable, default=’nan_euclidean’

用于搜索邻居的距离度量。可能的值：

‘nan_euclidean’
callable：一个用户自定义函数，符合 func_metric(x, y, *, missing_values=np.nan) 的定义。x 和 y 分别对应于 X 和 Y 的一行（即一维数组）。可调用函数应返回一个标量距离值。

copy布尔值, 默认为 True

如果为 True，将创建 X 的副本。如果为 False，插补将尽可能在原地完成。

add_indicatorbool, default=False

如果为 True，一个 MissingIndicator 转换将堆叠到插补器的转换输出上。这允许预测估计器在插补后考虑缺失情况。如果一个特征在 fit/train 时没有缺失值，即使在 transform/test 时有缺失值，该特征也不会出现在缺失指示器中。

keep_empty_featuresbool, default=False

如果为 True，当调用 transform 时，在调用 fit 时完全由缺失值组成的特征将在结果中返回。插补值始终为 0。

1.2 版本新增。

属性:

indicator_MissingIndicator: 用于添加缺失值二元指示器的指示器。如果 add_indicator 为 False，则为 None。
n_features_in_int: 在拟合期间看到的特征数。

0.24 版本新增。
feature_names_in_shape 为 (n_features_in_,) 的 ndarray: 在 fit 期间看到的特征名称。仅当 X 具有全部为字符串的特征名称时才定义。

1.0 版本新增。

另请参阅

SimpleImputer: 使用简单策略完成缺失值的单变量插补器。
IterativeImputer: 多变量插补器，用于从所有其他特征中估计每个具有缺失值的特征的插补值。

References

Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein and Russ B. Altman, Missing value estimation methods for DNA microarrays, BIOINFORMATICS Vol. 17 no. 6, 2001 Pages 520-525.

示例

>>> import numpy as np
>>> from sklearn.impute import KNNImputer
>>> X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]
>>> imputer = KNNImputer(n_neighbors=2)
>>> imputer.fit_transform(X)
array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

有关更详细的示例，请参阅在构建估计器之前插补缺失值。

fit(X, y=None)[source]#

在 X 上拟合插补器。

参数:

Xarray-like shape of (n_samples, n_features): 输入数据，其中 n_samples 是样本数量，n_features 是特征数量。
y被忽略: Not used, present here for API consistency by convention.

返回:

selfobject: 已拟合的 KNNImputer 类实例。

fit_transform(X, y=None, **fit_params)[source]#

拟合数据，然后对其进行转换。

使用可选参数 fit_params 将转换器拟合到 X 和 y，并返回 X 的转换版本。

参数:

Xshape 为 (n_samples, n_features) 的 array-like: 输入样本。
y形状为 (n_samples,) 或 (n_samples, n_outputs) 的类数组对象，默认=None: 目标值（对于无监督转换，为 None）。
**fit_paramsdict: 额外的拟合参数。仅当估计器在其 fit 方法中接受额外的参数时才传递。

返回:

X_newndarray array of shape (n_samples, n_features_new): 转换后的数组。

get_feature_names_out(input_features=None)[source]#

获取转换的输出特征名称。

参数:

input_featuresarray-like of str or None, default=None

输入特征。

如果 input_features 为 None，则使用 feature_names_in_ 作为输入特征名称。如果 feature_names_in_ 未定义，则生成以下输入特征名称：["x0", "x1", ..., "x(n_features_in_ - 1)"]。
如果 input_features 是 array-like，则如果定义了 feature_names_in_，input_features 必须与 feature_names_in_ 匹配。

返回:

feature_names_outstr 对象的 ndarray: 转换后的特征名称。

get_metadata_routing()[source]#

获取此对象的元数据路由。

请查阅用户指南，了解路由机制如何工作。

返回:

routingMetadataRequest: 封装路由信息的 MetadataRequest。

get_params(deep=True)[source]#

获取此估计器的参数。

参数:

deepbool, default=True: 如果为 True，将返回此估计器以及包含的子对象（如果它们是估计器）的参数。

返回:

paramsdict: 参数名称映射到其值。

set_output(*, transform=None)[source]#

设置输出容器。

有关如何使用 API 的示例，请参阅引入 set_output API。

参数:

transform{“default”, “pandas”, “polars”}, default=None

配置 transform 和 fit_transform 的输出。

"default": 转换器的默认输出格式
"pandas": DataFrame 输出
"polars": Polars 输出
None: 转换配置保持不变

1.4 版本新增: 添加了 "polars" 选项。

返回:

selfestimator instance: 估计器实例。

set_params(**params)[source]#

设置此估计器的参数。

此方法适用于简单的估计器以及嵌套对象（如 Pipeline）。后者具有 <component>__<parameter> 形式的参数，以便可以更新嵌套对象的每个组件。

参数:

**paramsdict: 估计器参数。

返回:

selfestimator instance: 估计器实例。

transform(X)[source]#

插补 X 中的所有缺失值。

参数:

Xshape 为 (n_samples, n_features) 的 array-like: 要完成的输入数据。

返回:

Xarray-like of shape (n_samples, n_output_features): 插补后的数据集。n_output_features 是在 fit 期间并非始终缺失的特征数。

Gallery examples#

在构建估计器之前插补缺失值

scikit-learn 0.22 发布亮点

KNNImputer#

Gallery examples#

本页