开发者工具#
Scikit-learn 包含许多帮助开发的工具。这些工具位于 sklearn.utils 中,并包含多个类别的工具。以下所有函数和类都在模块 sklearn.utils 中。
警告
这些工具旨在用于 scikit-learn 包内部。它们在 scikit-learn 版本之间不能保证稳定。特别是,随着 scikit-learn 依赖项的演变,反向移植将被删除。
验证工具#
这些工具用于检查和验证输入。当您编写一个接受数组、矩阵或稀疏矩阵作为参数的函数时,在适用情况下应使用以下工具。
assert_all_finite: 如果数组包含 NaN 或 Inf,则抛出错误。as_float_array: 将输入转换为浮点数数组。如果传递了稀疏矩阵,则将返回稀疏矩阵。check_array: 检查输入是否为二维数组,对稀疏矩阵引发错误。允许的稀疏矩阵格式可以可选地给出,以及允许一维或 N 维数组。默认情况下调用assert_all_finite。check_X_y: 检查 X 和 y 是否具有相同的长度,对 X 调用 check_array,对 y 调用 column_or_1d。对于多标签分类或多目标回归,指定 multi_output=True,在这种情况下,check_array 将被调用到 y 上。indexable: 检查所有输入数组是否具有相同的长度,并且可以使用 safe_index 切片或索引。这用于验证交叉验证的输入。validation.check_memory检查输入是否为joblib.Memory类,这意味着它可以转换为sklearn.utils.Memory实例(通常是表示cachedir的字符串)或具有相同的接口。
如果您的代码依赖于随机数生成器,它永远不应该使用像 numpy.random.random 或 numpy.random.normal 这样的函数。这种方法会导致单元测试中的可重复性问题。相反,应该使用 numpy.random.RandomState 对象,该对象由传递给类或函数的 random_state 参数构建。下面的 check_random_state 函数可用于创建随机数生成器对象。
check_random_state: 从参数random_state创建一个np.random.RandomState对象。如果
random_state为None或np.random,则返回一个随机初始化的RandomState对象。如果
random_state是一个整数,则它用于为一个新的RandomState对象播种。如果
random_state是一个RandomState对象,则它将被传递。
例如
>>> from sklearn.utils import check_random_state
>>> random_state = 0
>>> random_state = check_random_state(random_state)
>>> random_state.rand(4)
array([0.5488135 , 0.71518937, 0.60276338, 0.54488318])
在开发您自己的 scikit-learn 兼容估计器时,可以使用以下帮助程序。
validation.check_is_fitted: 检查估计器是否已在调用transform、predict或类似方法之前拟合。此帮助程序允许在估计器之间引发标准化的错误消息。validation.has_fit_parameter: 检查给定参数是否在给定估计器的fit方法中受支持。
高效线性代数和数组操作#
extmath.randomized_range_finder: 构造一个正交矩阵,其范围近似于输入的范围。这在下面的extmath.randomized_svd中使用。extmath.randomized_svd: 计算 k 截断随机 SVD。该算法使用随机化来加速计算,找到精确的截断奇异值分解。它在您希望仅提取少量分量的巨大矩阵上特别快。arrayfuncs.cholesky_delete: (在lars_path中使用)从 Cholesky 分解中删除一项。arrayfuncs.min_pos: (在sklearn.linear_model.least_angle中使用)在数组中找到正值的最小值。extmath.fast_logdet: 有效地计算矩阵行列式的对数。extmath.density: 有效地计算稀疏向量的密度extmath.safe_sparse_dot: 用于正确处理scipy.sparse输入的点积。如果输入是密集的,它等同于numpy.dot。extmath.weighted_mode:scipy.stats.mode的扩展,允许每个项目具有实值权重。
高效随机采样#
random.sample_without_replacement: 实现从大小为n_population的总体中无放回地采样n_samples个整数的有效算法。
稀疏矩阵的有效例程#
sklearn.utils.sparsefuncs cython 模块包含编译扩展,可以有效地处理 scipy.sparse 数据。
sparsefuncs.mean_variance_axis: 计算 CSR 矩阵指定轴上的均值和方差。用于在KMeans中规范化容差停止标准。sparsefuncs_fast.inplace_csr_row_normalize_l1和sparsefuncs_fast.inplace_csr_row_normalize_l2: 可用于将单个稀疏样本规范化为单位 L1 或 L2 范数,如Normalizer中所做的那样。sparsefuncs.inplace_csr_column_scale: 可用于将 CSR 矩阵的列乘以一个常数比例因子(每列一个比例因子)。用于在StandardScaler中将特征缩放为单位标准差。sort_graph_by_row_values: 可用于对 CSR 稀疏矩阵进行排序,以便每行都按递增的值存储。这在使用预先计算的稀疏距离矩阵时非常有用,这些矩阵依赖于最近邻图的估计器。
图例程#
graph.single_source_shortest_path_length: (目前在 scikit-learn 中未使用)返回从单个源到图上所有连接节点的最短路径。代码改编自 networkx。如果以后需要再次使用,使用graph_shortest_path中的 Dijkstra 算法的单次迭代会快得多。
测试函数#
discovery.all_estimators: 返回 scikit-learn 中所有估计器的列表,以测试其一致的行为和接口。discovery.all_displays: 返回 scikit-learn 中所有显示(与绘图 API 相关)的列表,以测试其一致的行为和接口。discovery.all_functions: 返回 scikit-learn 中所有函数的列表,以测试其一致的行为和接口。
多类和多标签实用函数#
multiclass.is_multilabel: 用于检查任务是否是多标签分类任务的辅助函数。multiclass.unique_labels: 用于从不同格式的目标中提取有序的唯一标签数组的辅助函数。
辅助函数#
gen_even_slices: 生成器,用于创建n包的切片,直到n。在dict_learning和k_means中使用。gen_batches: 生成器,用于创建包含从 0 到n的批次大小元素的切片safe_mask: 辅助函数,用于将掩码转换为预期用于其上的 numpy 数组或 scipy 稀疏矩阵的格式(稀疏矩阵仅支持整数索引,而 numpy 数组支持布尔掩码和整数索引)。safe_sqr: 辅助函数,用于对数组、矩阵和稀疏矩阵进行统一平方 (**2)。
哈希函数#
murmurhash3_32为MurmurHash3_x86_32C++ 非加密哈希函数提供 Python 包装器。此哈希函数适用于实现查找表、布隆过滤器、计数最小草图、特征哈希和隐式定义的稀疏随机投影>>> from sklearn.utils import murmurhash3_32 >>> murmurhash3_32("some feature", seed=0) == -384616559 True >>> murmurhash3_32("some feature", seed=0, positive=True) == 3910350737 True
sklearn.utils.murmurhash模块也可以从其他 cython 模块中“cimported”,以便在享受 MurmurHash 的高性能的同时跳过 Python 解释器的开销。
警告和异常#
deprecated: 用于将函数或类标记为已弃用的装饰器。ConvergenceWarning: 用于捕获收敛问题的自定义警告。在sklearn.covariance.graphical_lasso中使用。