validate_data#

sklearn.utils.validation.validate_data(_estimator, /, X='no_validation', y='no_validation', reset=True, validate_separately=False, skip_check_array=False, **check_params)[source]#

验证输入数据并设置或检查输入特征名称和计数。

此辅助函数应在需要输入验证的估计器中使用。它会修改估计器,并在 reset=True 时设置 n_features_in_feature_names_in_ 属性。

版本 1.6 中新增。

参数:
_estimatorestimator instance

要为其验证输入的估计器。

X{array-like, sparse matrix, dataframe} of shape (n_samples, n_features), default=’no validation’

输入样本。如果为 'no_validation',则不对 X 进行验证。这对于元估计器很有用,因为它们可以将输入验证委托给其底层估计器。在这种情况下,必须传递 y,并且唯一接受的 check_paramsmulti_outputy_numeric

yarray-like of shape (n_samples,), default=’no_validation’

目标。

  • 如果为 None,则在 X 上调用 check_array。如果估计器的 requires_y 标签为 True,则会引发错误。

  • 如果为 'no_validation',则在 X 上调用 check_array,并且会忽略估计器的 requires_y 标签。这是一个默认占位符,从不打算显式设置。在这种情况下,必须传递 X

  • 否则,将使用 check_arraycheck_X_y(取决于 validate_separately)来检查仅 y(使用 _check_y)或同时检查 Xy

resetbool, default=True

是否重置 n_features_in_ 属性。如果为 False,则会检查输入是否与上次 reset 为 True 时提供的数据一致。

注意

建议在 fit 和第一次调用 partial_fit 时调用 reset=True。所有其他验证 X 的方法都应设置 reset=False

validate_separatelyFalse or tuple of dicts, default=False

仅在 y 不为 None 时使用。如果为 False,则调用 check_X_y。否则,它必须是一个要分别用于在 Xy 上调用 check_array 的 kwargs 元组。

estimator=self 会自动添加到这些字典中,以便在输入数据无效时生成更具信息性的错误消息。

skip_check_arraybool, default=False

如果为 True,则 Xy 保持不变,仅检查 feature_names_in_n_features_in_。否则,将在 Xy 上调用 check_array

**check_paramskwargs

传递给 check_arraycheck_X_y 的参数。如果 validate_separately 不是 False,则忽略。

estimator=self 会自动添加到这些参数中,以便在输入数据无效时生成更具信息性的错误消息。

返回:
out{ndarray, sparse matrix} or tuple of these

经过验证的输入。如果同时验证了 Xy,则返回一个元组。