validate_data#
- sklearn.utils.validation.validate_data(_estimator, /, X='no_validation', y='no_validation', reset=True, validate_separately=False, skip_check_array=False, **check_params)[source]#
验证输入数据并设置或检查输入特征名称和计数。
此辅助函数应在需要输入验证的估计器中使用。它会修改估计器,并在
reset=True时设置n_features_in_和feature_names_in_属性。版本 1.6 中新增。
- 参数:
- _estimatorestimator instance
要为其验证输入的估计器。
- X{array-like, sparse matrix, dataframe} of shape (n_samples, n_features), default=’no validation’
输入样本。如果为
'no_validation',则不对X进行验证。这对于元估计器很有用,因为它们可以将输入验证委托给其底层估计器。在这种情况下,必须传递y,并且唯一接受的check_params是multi_output和y_numeric。- yarray-like of shape (n_samples,), default=’no_validation’
目标。
如果为
None,则在X上调用check_array。如果估计器的requires_y标签为 True,则会引发错误。如果为
'no_validation',则在X上调用check_array,并且会忽略估计器的requires_y标签。这是一个默认占位符,从不打算显式设置。在这种情况下,必须传递X。否则,将使用
check_array或check_X_y(取决于validate_separately)来检查仅y(使用_check_y)或同时检查X和y。
- resetbool, default=True
是否重置
n_features_in_属性。如果为 False,则会检查输入是否与上次reset为 True 时提供的数据一致。注意
建议在
fit和第一次调用partial_fit时调用reset=True。所有其他验证X的方法都应设置reset=False。- validate_separatelyFalse or tuple of dicts, default=False
仅在
y不为None时使用。如果为False,则调用check_X_y。否则,它必须是一个要分别用于在X和y上调用check_array的 kwargs 元组。estimator=self会自动添加到这些字典中,以便在输入数据无效时生成更具信息性的错误消息。- skip_check_arraybool, default=False
如果为
True,则X和y保持不变,仅检查feature_names_in_和n_features_in_。否则,将在X和y上调用check_array。- **check_paramskwargs
传递给
check_array或check_X_y的参数。如果 validate_separately 不是 False,则忽略。estimator=self会自动添加到这些参数中,以便在输入数据无效时生成更具信息性的错误消息。
- 返回:
- out{ndarray, sparse matrix} or tuple of these
经过验证的输入。如果同时验证了
X和y,则返回一个元组。