sklearn.utils#

各种有助于开发的实用工具。

开发者指南。有关更多详细信息，请参阅开发者实用工具部分。

`Bunch`	将键作为属性公开的容器对象。
`_safe_indexing`	使用索引返回 X 的行、项或列。
`as_float_array`	将类数组转换为浮点数数组。
`assert_all_finite`	如果 X 包含 NaN 或无穷大，则抛出 ValueError。
`deprecated`	将函数或类标记为已弃用的装饰器。
`estimator_html_repr`	构建估计器的 HTML 表示。
`gen_batches`	生成器，用于创建包含从 0 到 `n` 的 `batch_size` 个元素的切片。
`gen_even_slices`	生成器，用于创建最多 `n` 的 `n_packs` 个等距切片。
`indexable`	使数组可用于交叉验证。
`murmurhash3_32`	计算在 seed 处 key 的 32 位 murmurhash3。
`resample`	以一致的方式对数组或稀疏矩阵进行重采样。
`safe_mask`	返回一个可安全用于 X 的掩码。
`safe_sqr`	类数组和稀疏矩阵的逐元素平方。
`shuffle`	以一致的方式打乱数组或稀疏矩阵。
`Tags`	估计器的标签。
`InputTags`	输入数据的标签。
`TargetTags`	目标数据的标签。
`ClassifierTags`	分类器的标签。
`RegressorTags`	回归器的标签。
`TransformerTags`	转换器的标签。
`get_tags`	获取估计器标签。

输入和参数验证#

用于验证 scikit-learn 估计器中输入和参数的函数。

`check_X_y`	标准估计器的输入验证。
`check_array`	对数组、列表、稀疏矩阵或类似对象的输入验证。
`check_consistent_length`	检查所有数组是否具有一致的第一维度。
`check_random_state`	将 seed 转换为 np.random.RandomState 实例。
`check_scalar`	验证标量参数的类型和值。
`validation.check_is_fitted`	对估计器执行 is_fitted 验证。
`validation.check_memory`	检查 `memory` 是否类似于 joblib.Memory。
`validation.check_symmetric`	确保数组是 2D、方阵且对称的。
`validation.column_or_1d`	展平列或一维 numpy 数组，否则抛出错误。
`validation.has_fit_parameter`	检查估计器的 fit 方法是否支持给定参数。
`validation.validate_data`	验证输入数据并设置或检查输入特征的名称和计数。

元估计器#

元估计器的实用工具。

metaestimators.available_if

仅当检查返回真值时才可用的属性。

基于类别标签的权重处理#

用于处理基于类别标签的权重的实用工具。

`class_weight.compute_class_weight`	估计非平衡数据集的类别权重。
`class_weight.compute_sample_weight`	为非平衡数据集按类别估计样本权重。

处理分类器中的多类别目标#

用于处理分类器中多类别/多输出目标的实用工具。

`multiclass.is_multilabel`	检查 `y` 是否为多标签格式。
`multiclass.type_of_target`	确定目标指示的数据类型。
`multiclass.unique_labels`	提取唯一标签的有序数组。

最佳数学运算#

在 scikit-learn 中执行最佳数学运算的实用工具。

`extmath.density`	计算稀疏向量的密度。
`extmath.fast_logdet`	计算方阵行列式的对数。
`extmath.randomized_range_finder`	计算其范围近似于 A 的范围的正交矩阵。
`extmath.randomized_svd`	计算截断的随机 SVD。
`extmath.safe_sparse_dot`	正确处理稀疏矩阵情况的点积。
`extmath.weighted_mode`	返回传入数组中加权众数（最常见）值的数组。

处理稀疏矩阵和数组#

用于处理稀疏矩阵和数组的实用工具集合。

`sparsefuncs.incr_mean_variance_axis`	在 CSR 或 CSC 矩阵上计算沿轴的增量均值和方差。
`sparsefuncs.inplace_column_scale`	CSC/CSR 矩阵的原地列缩放。
`sparsefuncs.inplace_csr_column_scale`	CSR 矩阵的原地列缩放。
`sparsefuncs.inplace_row_scale`	CSR 或 CSC 矩阵的原地行缩放。
`sparsefuncs.inplace_swap_column`	原地交换 CSC/CSR 矩阵的两列。
`sparsefuncs.inplace_swap_row`	原地交换 CSC/CSR 矩阵的两行。
`sparsefuncs.mean_variance_axis`	在 CSR 或 CSC 矩阵上计算沿轴的均值和方差。

用 Cython 编写的用于处理稀疏矩阵和数组的实用工具。

`sparsefuncs_fast.inplace_csr_row_normalize_l1`	根据其 L1 范数原地归一化 CSR 矩阵或数组的行。
`sparsefuncs_fast.inplace_csr_row_normalize_l2`	根据其 L2 范数原地归一化 CSR 矩阵或数组的行。

处理图#

图实用工具和算法。

graph.single_source_shortest_path_length

返回从源到所有可达节点的最近路径长度。

随机采样#

随机采样的实用工具。

random.sample_without_replacement

无放回地抽取整数样本。

操作数组的辅助函数#

操作数组的少量辅助函数集合。

arrayfuncs.min_pos

查找数组中正值的最小值。

元数据路由#

在 scikit-learn 估计器中路由元数据的实用工具。

用户指南。有关更多详细信息，请参阅元数据路由部分。

`metadata_routing.MetadataRequest`	包含消费者的元数据请求信息。
`metadata_routing.MetadataRouter`	存储和处理路由对象的元数据路由。
`metadata_routing.MethodMapping`	存储路由器的调用者和被调用者方法之间的映射。
`metadata_routing.get_routing_for_object`	从给定对象获取 `Metadata{Router, Request}` 实例。
`metadata_routing.process_routing`	验证并路由输入参数。

发现 scikit-learn 对象#

发现 scikit-learn 对象的实用工具。

`discovery.all_displays`	从 `sklearn` 获取所有显示器的列表。
`discovery.all_estimators`	从 `sklearn` 获取所有估计器的列表。
`discovery.all_functions`	从 `sklearn` 获取所有函数的列表。

API 兼容性检查器#

用于检查估计器与 scikit-learn API 兼容性的各种实用工具。

`estimator_checks.check_estimator`	检查估计器是否符合 scikit-learn 约定。
`estimator_checks.parametrize_with_checks`	用于参数化估计器检查的 Pytest 特定装饰器。
`estimator_checks.estimator_checks_generator`	迭代地为估计器生成所有可调用检查。

并行计算#

针对 scikit-learn 用法定制的 joblib 和 threadpoolctl 工具。

`parallel.Parallel`	对 `joblib.Parallel` 的调整，用于传播 scikit-learn 配置。
`parallel.delayed`	用于捕获函数参数的装饰器。