sklearn.utils#

各种有助于开发的实用工具。

开发者指南。有关更多详细信息,请参阅开发者实用工具部分。

Bunch

将键作为属性公开的容器对象。

_safe_indexing

使用索引返回 X 的行、项或列。

as_float_array

将类数组转换为浮点数数组。

assert_all_finite

如果 X 包含 NaN 或无穷大,则抛出 ValueError。

deprecated

将函数或类标记为已弃用的装饰器。

estimator_html_repr

构建估计器的 HTML 表示。

gen_batches

生成器,用于创建包含从 0 到 nbatch_size 个元素的切片。

gen_even_slices

生成器,用于创建最多 nn_packs 个等距切片。

indexable

使数组可用于交叉验证。

murmurhash3_32

计算在 seed 处 key 的 32 位 murmurhash3。

resample

以一致的方式对数组或稀疏矩阵进行重采样。

safe_mask

返回一个可安全用于 X 的掩码。

safe_sqr

类数组和稀疏矩阵的逐元素平方。

shuffle

以一致的方式打乱数组或稀疏矩阵。

Tags

估计器的标签。

InputTags

输入数据的标签。

TargetTags

目标数据的标签。

ClassifierTags

分类器的标签。

RegressorTags

回归器的标签。

TransformerTags

转换器的标签。

get_tags

获取估计器标签。

输入和参数验证#

用于验证 scikit-learn 估计器中输入和参数的函数。

check_X_y

标准估计器的输入验证。

check_array

对数组、列表、稀疏矩阵或类似对象的输入验证。

check_consistent_length

检查所有数组是否具有一致的第一维度。

check_random_state

将 seed 转换为 np.random.RandomState 实例。

check_scalar

验证标量参数的类型和值。

validation.check_is_fitted

对估计器执行 is_fitted 验证。

validation.check_memory

检查 memory 是否类似于 joblib.Memory。

validation.check_symmetric

确保数组是 2D、方阵且对称的。

validation.column_or_1d

展平列或一维 numpy 数组,否则抛出错误。

validation.has_fit_parameter

检查估计器的 fit 方法是否支持给定参数。

validation.validate_data

验证输入数据并设置或检查输入特征的名称和计数。

元估计器#

元估计器的实用工具。

metaestimators.available_if

仅当检查返回真值时才可用的属性。

基于类别标签的权重处理#

用于处理基于类别标签的权重的实用工具。

class_weight.compute_class_weight

估计非平衡数据集的类别权重。

class_weight.compute_sample_weight

为非平衡数据集按类别估计样本权重。

处理分类器中的多类别目标#

用于处理分类器中多类别/多输出目标的实用工具。

multiclass.is_multilabel

检查 y 是否为多标签格式。

multiclass.type_of_target

确定目标指示的数据类型。

multiclass.unique_labels

提取唯一标签的有序数组。

最佳数学运算#

在 scikit-learn 中执行最佳数学运算的实用工具。

extmath.density

计算稀疏向量的密度。

extmath.fast_logdet

计算方阵行列式的对数。

extmath.randomized_range_finder

计算其范围近似于 A 的范围的正交矩阵。

extmath.randomized_svd

计算截断的随机 SVD。

extmath.safe_sparse_dot

正确处理稀疏矩阵情况的点积。

extmath.weighted_mode

返回传入数组中加权众数(最常见)值的数组。

处理稀疏矩阵和数组#

用于处理稀疏矩阵和数组的实用工具集合。

sparsefuncs.incr_mean_variance_axis

在 CSR 或 CSC 矩阵上计算沿轴的增量均值和方差。

sparsefuncs.inplace_column_scale

CSC/CSR 矩阵的原地列缩放。

sparsefuncs.inplace_csr_column_scale

CSR 矩阵的原地列缩放。

sparsefuncs.inplace_row_scale

CSR 或 CSC 矩阵的原地行缩放。

sparsefuncs.inplace_swap_column

原地交换 CSC/CSR 矩阵的两列。

sparsefuncs.inplace_swap_row

原地交换 CSC/CSR 矩阵的两行。

sparsefuncs.mean_variance_axis

在 CSR 或 CSC 矩阵上计算沿轴的均值和方差。

用 Cython 编写的用于处理稀疏矩阵和数组的实用工具。

sparsefuncs_fast.inplace_csr_row_normalize_l1

根据其 L1 范数原地归一化 CSR 矩阵或数组的行。

sparsefuncs_fast.inplace_csr_row_normalize_l2

根据其 L2 范数原地归一化 CSR 矩阵或数组的行。

处理图#

图实用工具和算法。

graph.single_source_shortest_path_length

返回从源到所有可达节点的最近路径长度。

随机采样#

随机采样的实用工具。

random.sample_without_replacement

无放回地抽取整数样本。

操作数组的辅助函数#

操作数组的少量辅助函数集合。

arrayfuncs.min_pos

查找数组中正值的最小值。

元数据路由#

在 scikit-learn 估计器中路由元数据的实用工具。

用户指南。有关更多详细信息,请参阅元数据路由部分。

metadata_routing.MetadataRequest

包含消费者的元数据请求信息。

metadata_routing.MetadataRouter

存储和处理路由对象的元数据路由。

metadata_routing.MethodMapping

存储路由器的调用者和被调用者方法之间的映射。

metadata_routing.get_routing_for_object

从给定对象获取 Metadata{Router, Request} 实例。

metadata_routing.process_routing

验证并路由输入参数。

发现 scikit-learn 对象#

发现 scikit-learn 对象的实用工具。

discovery.all_displays

sklearn 获取所有显示器的列表。

discovery.all_estimators

sklearn 获取所有估计器的列表。

discovery.all_functions

sklearn 获取所有函数的列表。

API 兼容性检查器#

用于检查估计器与 scikit-learn API 兼容性的各种实用工具。

estimator_checks.check_estimator

检查估计器是否符合 scikit-learn 约定。

estimator_checks.parametrize_with_checks

用于参数化估计器检查的 Pytest 特定装饰器。

estimator_checks.estimator_checks_generator

迭代地为估计器生成所有可调用检查。

并行计算#

针对 scikit-learn 用法定制的 joblibthreadpoolctl 工具。

parallel.Parallel

joblib.Parallel 的调整,用于传播 scikit-learn 配置。

parallel.delayed

用于捕获函数参数的装饰器。