API 参考#

这是 scikit-learn 的类和函数参考。有关更多详细信息,请参阅完整用户指南,因为类的原始规范和函数可能不足以提供有关其用途的完整指导。有关在 API 中重复的概念的参考,请参阅常见术语和 API 元素词汇表

对象

描述

config_context

上下文管理器,用于临时更改 scikit-learn 的全局配置。

get_config

检索当前的 scikit-learn 配置。

set_config

设置 scikit-learn 的全局配置。

show_versions

打印有用的调试信息。

BaseEstimator

scikit-learn 中所有估算器的基类。

BiclusterMixin

scikit-learn 中所有双聚类估算器的 Mixin 类。

ClassNamePrefixFeaturesOutMixin

Mixin 类,用于通过添加前缀生成名称的转换器。

ClassifierMixin

scikit-learn 中所有分类器的 Mixin 类。

ClusterMixin

scikit-learn 中所有聚类估算器的 Mixin 类。

DensityMixin

scikit-learn 中所有密度估算器的 Mixin 类。

MetaEstimatorMixin

scikit-learn 中所有元估算器的 Mixin 类。

OneToOneFeatureMixin

为简单转换器提供 get_feature_names_out

OutlierMixin

scikit-learn 中所有异常值检测估算器的 Mixin 类。

RegressorMixin

scikit-learn 中所有回归估算器的 Mixin 类。

TransformerMixin

scikit-learn 中所有转换器的 Mixin 类。

clone

构造具有相同参数的新未拟合估算器。

is_classifier

如果给定估算器(可能)是分类器,则返回 True。

is_clusterer

如果给定估算器(可能)是聚类器,则返回 True。

is_regressor

如果给定估算器(可能)是回归器,则返回 True。

is_outlier_detector

如果给定估算器(可能)是异常值检测器,则返回 True。

CalibratedClassifierCV

使用等渗、sigmoid 或温度缩放校准概率。

calibration_curve

计算校准曲线的真实概率和预测概率。

CalibrationDisplay

校准曲线(也称为可靠性图)可视化。

AffinityPropagation

执行数据的 Affinity Propagation 聚类。

AgglomerativeClustering

Agglomerative Clustering(层次聚类)。

Birch

实现 BIRCH 聚类算法。

BisectingKMeans

Bisecting K-Means 聚类。

DBSCAN

从向量数组或距离矩阵执行 DBSCAN 聚类。

FeatureAgglomeration

特征凝聚。

HDBSCAN

使用分层基于密度的聚类对数据进行聚类。

KMeans

K-Means 聚类。

MeanShift

使用平坦核的 Mean Shift 聚类。

MiniBatchKMeans

Mini-Batch K-Means 聚类。

OPTICS

从向量数组估计聚类结构。

SpectralBiclustering

谱双聚类 (Kluger, 2003) [R2af9f5762274-1]

SpectralClustering

将聚类应用于归一化拉普拉斯算子的投影。

SpectralCoclustering

谱协同聚类算法 (Dhillon, 2001) [R0dd0f3306ba7-1]

affinity_propagation

执行数据的 Affinity Propagation 聚类。

cluster_optics_dbscan

为任意 epsilon 执行 DBSCAN 提取。

cluster_optics_xi

根据 Xi 陡峭方法自动提取聚类。

compute_optics_graph

计算 OPTICS 可达性图。

dbscan

从向量数组或距离矩阵执行 DBSCAN 聚类。

estimate_bandwidth

估算与 mean-shift 算法一起使用的带宽。

k_means

执行 K-means 聚类算法。

kmeans_plusplus

根据 k-means++ 初始化 n_clusters 种子。

mean_shift

使用平坦核执行数据的 mean shift 聚类。

spectral_clustering

将聚类应用于归一化拉普拉斯算子的投影。

ward_tree

基于特征矩阵的 Ward 聚类。

ColumnTransformer

将转换器应用于数组或 pandas DataFrame 的列。

TransformedTargetRegressor

用于对转换后的目标进行回归的元估算器。

make_column_selector

创建一个可调用对象,用于选择要与以下内容一起使用的列

make_column_transformer

从给定的转换器构造一个 ColumnTransformer。

EllipticEnvelope

用于检测高斯分布数据集中异常值的对象。

EmpiricalCovariance

最大似然协方差估算器。

GraphicalLasso

使用 l1 惩罚估算器进行稀疏逆协方差估计。

GraphicalLassoCV

稀疏逆协方差 w/ 交叉验证选择 l1 惩罚。

LedoitWolf

LedoitWolf 估算器。

MinCovDet

最小协方差行列式 (MCD):协方差的鲁棒估算器。

OAS

Oracle 近似收缩估算器。

ShrunkCovariance

具有收缩的协方差估算器。

empirical_covariance

计算最大似然协方差估算器。

graphical_lasso

L1 惩罚协方差估算器。

ledoit_wolf

估算收缩的 Ledoit-Wolf 协方差矩阵。

ledoit_wolf_shrinkage

估算收缩的 Ledoit-Wolf 协方差矩阵。

oas

使用 Oracle 近似收缩估算协方差。

shrunk_covariance

计算对角线上收缩的协方差矩阵。

CCA

典型相关分析,也称为“模式 B”PLS。

PLSCanonical

Partial Least Squares 转换器和回归器。

PLSRegression

PLSSVD

Partial Least Square SVD。

clear_data_home

删除数据主缓存的所有内容。

dump_svmlight_file

以 svmlight / libsvm 文件格式转储数据集。

fetch_20newsgroups

加载 20 newsgroups 数据集(分类)的文件名和数据。

fetch_20newsgroups_vectorized

加载和向量化 20 newsgroups 数据集(分类)。

fetch_california_housing

加载加州房价数据集(回归)。

fetch_covtype

加载 covertype 数据集(分类)。

fetch_file

如果本地文件夹中不存在,则从网络获取文件。

fetch_kddcup99

加载 kddcup99 数据集(分类)。

fetch_lfw_pairs

加载 Labeled Faces in the Wild (LFW) 对数据集(分类)。

fetch_lfw_people

加载 Labeled Faces in the Wild (LFW) 人物数据集(分类)。

fetch_olivetti_faces

从 AT&T 加载 Olivetti faces 数据集(分类)。

fetch_openml

按名称或数据集 ID 从 openml 获取数据集。

fetch_rcv1

加载 RCV1 多标签数据集(分类)。

fetch_species_distributions

加载来自 Phillips et. al. (2006) 的物种分布数据集。

get_data_home

返回 scikit-learn 数据目录的路径。

load_breast_cancer

加载并返回乳腺癌威斯康星数据集(分类)。

load_diabetes

加载并返回糖尿病数据集(回归)。

load_digits

加载并返回数字数据集(分类)。

load_files

加载子文件夹名称为类别的文本文件。

load_iris

加载并返回鸢尾花数据集(分类)。

load_linnerud

加载并返回体育锻炼 Linnerud 数据集。

load_sample_image

加载单个样本图像的 numpy 数组。

load_sample_images

加载用于图像操作的样本图像。

load_svmlight_file

将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。

load_svmlight_files

从 SVMlight 格式的多个文件加载数据集。

load_wine

加载并返回葡萄酒数据集(分类)。

make_biclusters

为双聚类生成常量块对角结构数组。

make_blobs

生成用于聚类的各向同性高斯斑点。

make_checkerboard

为双聚类生成具有块棋盘结构的数组。

make_circles

在 2d 中创建一个包含较小圆圈的大圆圈。

make_classification

生成一个随机的 n 类分类问题。

make_friedman1

生成“Friedman #1”回归问题。

make_friedman2

生成“Friedman #2”回归问题。

make_friedman3

生成“Friedman #3”回归问题。

make_gaussian_quantiles

生成各向同性高斯,并按分位数标记样本。

make_hastie_10_2

生成 Hastie et al. 2009, Example 10.2 中使用的二元分类数据。

make_low_rank_matrix

生成一个带有钟形奇异值的低秩矩阵。

make_moons

创建两个交错的半圆。

make_multilabel_classification

生成一个随机的多标签分类问题。

make_regression

生成一个随机回归问题。

make_s_curve

生成 S 曲线数据集。

make_sparse_coded_signal

生成作为字典元素的稀疏组合的信号。

make_sparse_spd_matrix

生成稀疏对称正定矩阵。

make_sparse_uncorrelated

生成具有稀疏不相关设计的随机回归问题。

make_spd_matrix

生成一个随机对称正定矩阵。

make_swiss_roll

生成瑞士卷数据集。

DictionaryLearning

字典学习。

FactorAnalysis

因子分析 (FA)。

FastICA

FastICA:用于独立成分分析的快速算法。

IncrementalPCA

增量主成分分析 (IPCA)。

KernelPCA

核主成分分析 (KPCA)。

LatentDirichletAllocation

使用在线变分贝叶斯算法的潜在狄利克雷分配。

MiniBatchDictionaryLearning

Mini-batch 字典学习。

MiniBatchNMF

Mini-Batch 非负矩阵分解 (NMF)。

MiniBatchSparsePCA

Mini-batch 稀疏主成分分析。

NMF

非负矩阵分解 (NMF)。

PCA

主成分分析 (PCA)。

SparseCoder

稀疏编码。

SparsePCA

稀疏主成分分析 (SparsePCA)。

TruncatedSVD

使用截断 SVD(又名 LSA)进行降维。

dict_learning

解决字典学习矩阵分解问题。

dict_learning_online

在线解决字典学习矩阵分解问题。

fastica

执行快速独立成分分析。

non_negative_factorization

计算非负矩阵分解 (NMF)。

sparse_encode

稀疏编码。

LinearDiscriminantAnalysis

线性判别分析。

QuadraticDiscriminantAnalysis

二次判别分析。

DummyClassifier

DummyClassifier 做出忽略输入特征的预测。

DummyRegressor

使用简单规则进行预测的回归器。

AdaBoostClassifier

AdaBoost 分类器。

AdaBoostRegressor

AdaBoost 回归器。

BaggingClassifier

Bagging 分类器。

BaggingRegressor

Bagging 回归器。

ExtraTreesClassifier

Extra-Trees 分类器。

ExtraTreesRegressor

Extra-Trees 回归器。

GradientBoostingClassifier

用于分类的梯度提升。

GradientBoostingRegressor

用于回归的梯度提升。

HistGradientBoostingClassifier

基于直方图的梯度提升分类树。

HistGradientBoostingRegressor

基于直方图的梯度提升回归树。

IsolationForest

Isolation Forest 算法。

RandomForestClassifier

随机森林分类器。

RandomForestRegressor

随机森林回归器。

RandomTreesEmbedding

完全随机树的集合。

StackingClassifier

带有最终分类器的估算器堆栈。

StackingRegressor

带有最终回归器的估算器堆栈。

VotingClassifier

未拟合估算器的软投票/多数规则分类器。

VotingRegressor

未拟合估算器的预测投票回归器。

ConvergenceWarning

自定义警告以捕获收敛问题

DataConversionWarning

用于通知代码中发生隐式数据转换的警告。

DataDimensionalityWarning

用于通知数据维度潜在问题的自定义警告。

EfficiencyWarning

用于通知用户计算效率低下的警告。

FitFailedWarning

如果在拟合估算器时发生错误,则使用的警告类。

InconsistentVersionWarning

当估算器以不一致的版本解封时引发的警告。

NotFittedError

如果在拟合前使用估算器,则引发的异常类。

UndefinedMetricWarning

当度量无效时引发的警告

EstimatorCheckFailedWarning

当通用测试中的估算器检查失败时引发的警告。

enable_halving_search_cv

启用 Successive Halving 搜索估算器

enable_iterative_imputer

启用 IterativeImputer

DictVectorizer

将特征值映射列表转换为向量。

FeatureHasher

实现特征哈希,又名哈希技巧。

PatchExtractor

从图像集合中提取补丁。

extract_patches_2d

将 2D 图像重塑为补丁集合。

grid_to_graph

像素到像素连接的图。

img_to_graph

像素到像素梯度连接的图。

reconstruct_from_patches_2d

从其所有补丁重建图像。

CountVectorizer

将文本文档集合转换为标记计数矩阵。

HashingVectorizer

将文本文档集合转换为标记出现矩阵。

TfidfTransformer

将计数矩阵转换为归一化的 tf 或 tf-idf 表示。

TfidfVectorizer

将原始文档集合转换为 TF-IDF 特征矩阵。

GenericUnivariateSelect

具有可配置策略的单变量特征选择器。

RFE

具有递归特征消除的特征排名。

RFECV

具有交叉验证的递归特征消除以选择特征。

SelectFdr

过滤器:为估算的错误发现率选择 p 值。

SelectFpr

过滤器:根据 FPR 测试选择低于 alpha 的 p 值。

SelectFromModel

基于重要性权重选择特征的元转换器。

SelectFwe

过滤器:选择对应于家庭误差率的 p 值。

SelectKBest

根据 k 个最高分数选择特征。

SelectPercentile

根据最高分数的百分位数选择特征。

SelectorMixin

转换器 Mixin,根据支持掩码执行特征选择

SequentialFeatureSelector

执行顺序特征选择的转换器。

VarianceThreshold

移除所有低方差特征的特征选择器。

chi2

计算每个非负特征和类之间的卡方统计量。

f_classif

计算所提供样本的 ANOVA F 值。

f_regression

返回 F 统计量和 p 值的单变量线性回归测试。

mutual_info_classif

估计离散目标变量的互信息。

mutual_info_regression

估计连续目标变量的互信息。

r_regression

计算每个特征和目标的 Pearson's r。

FrozenEstimator

包装已拟合估算器以防止重新拟合的估算器。

GaussianProcessClassifier

基于拉普拉斯近似的高斯过程分类 (GPC)。

GaussianProcessRegressor

高斯过程回归 (GPR)。

CompoundKernel

由一组其他核组成的核。

ConstantKernel

DotProduct

ExpSineSquared

Exp-Sine-Squared 核(又名周期性核)。

Exponentiation

Exponentiation 核采用一个基本核和一个标量参数

Hyperparameter

核超参数的规范,以命名元组的形式。

Kernel

所有核的基类。

Matern

PairwiseKernel

sklearn.metrics.pairwise 中核的包装器。

Product

Product 核采用两个核 \(k_1\)\(k_2\)

RBF

径向基函数核(又名平方指数核)。

RationalQuadratic

Rational Quadratic 核。

Sum

Sum 核采用两个核 \(k_1\)\(k_2\)

WhiteKernel

IterativeImputer

多元插补器,从所有其他特征估计每个特征。

KNNImputer

使用 k-Nearest Neighbors 完成缺失值的插补。

MissingIndicator

缺失值的二进制指示符。

SimpleImputer

使用简单策略完成缺失值的单变量插补器。

partial_dependence

features 的部分依赖性。

permutation_importance

用于特征评估的置换重要性 [Rd9e56ef97513-BRE]

DecisionBoundaryDisplay

决策边界可视化。

PartialDependenceDisplay

部分依赖图 (PDP) 和个体条件期望 (ICE)。

IsotonicRegression

等渗回归模型。

check_increasing

确定 y 是否与 x 单调相关。

isotonic_regression

求解等渗回归模型。

AdditiveChi2Sampler

加性卡方核的近似特征图。

Nystroem

使用训练数据的子集近似核图。

PolynomialCountSketch

通过张量草图近似多项式核。

RBFSampler

使用随机傅里叶特征近似 RBF 核特征图。

SkewedChi2Sampler

“偏斜卡方”核的近似特征图。

KernelRidge

核岭回归。

LogisticRegression

Logistic 回归(又名 logit,MaxEnt)分类器。

LogisticRegressionCV

Logistic 回归 CV(又名 logit,MaxEnt)分类器。

PassiveAggressiveClassifier

Passive Aggressive 分类器。

Perceptron

线性感知器分类器。

RidgeClassifier

使用 Ridge 回归的分类器。

RidgeClassifierCV

具有内置交叉验证的 Ridge 分类器。

SGDClassifier

具有 SGD 训练的线性分类器(SVM、logistic 回归等)。

SGDOneClassSVM

使用随机梯度下降求解线性 One-Class SVM。

LinearRegression

普通最小二乘线性回归。

Ridge

具有 l2 正则化的线性最小二乘。

RidgeCV

具有内置交叉验证的 Ridge 回归。

SGDRegressor

通过使用 SGD 最小化正则化经验损失来拟合的线性模型。

ElasticNet

具有组合 L1 和 L2 先验作为正则化项的线性回归。

ElasticNetCV

具有沿正则化路径迭代拟合的 Elastic Net 模型。

Lars

最小角回归模型,又名 LAR。

LarsCV

交叉验证的最小角回归模型。

Lasso

使用 L1 先验作为正则化项训练的线性模型(又名 Lasso)。

LassoCV

具有沿正则化路径迭代拟合的 Lasso 线性模型。

LassoLars

使用最小角回归(又名 Lars)拟合的 Lasso 模型。

LassoLarsCV

使用 LARS 算法的交叉验证 Lasso。

LassoLarsIC

使用 BIC 或 AIC 进行模型选择的 Lars 拟合 Lasso 模型。

OrthogonalMatchingPursuit

正交匹配追踪模型 (OMP)。

OrthogonalMatchingPursuitCV

交叉验证的正交匹配追踪模型 (OMP)。

ARDRegression

贝叶斯 ARD 回归。

BayesianRidge

贝叶斯岭回归。

MultiTaskElasticNet

使用 L1/L2 混合范数作为正则化项训练的多任务 ElasticNet 模型。

MultiTaskElasticNetCV

具有内置交叉验证的多任务 L1/L2 ElasticNet。

MultiTaskLasso

使用 L1/L2 混合范数作为正则化项训练的多任务 Lasso 模型。

MultiTaskLassoCV

使用 L1/L2 混合范数作为正则化项训练的多任务 Lasso 模型。

HuberRegressor

对异常值鲁棒的 L2 正则化线性回归模型。

QuantileRegressor

预测条件分位数的线性回归模型。

RANSACRegressor

RANSAC (RANdom SAmple Consensus) 算法。

TheilSenRegressor

Theil-Sen 估算器:鲁棒多元回归模型。

GammaRegressor

具有 Gamma 分布的广义线性模型。

PoissonRegressor

具有 Poisson 分布的广义线性模型。

TweedieRegressor

具有 Tweedie 分布的广义线性模型。

PassiveAggressiveRegressor

Passive Aggressive 回归器。

enet_path

使用坐标下降计算 elastic net 路径。

lars_path

使用 LARS 算法计算最小角回归或 Lasso 路径。

lars_path_gram

足够统计模式下的 lars_path。

lasso_path

使用坐标下降计算 Lasso 路径。

orthogonal_mp

正交匹配追踪 (OMP)。

orthogonal_mp_gram

Gram 正交匹配追踪 (OMP)。

ridge_regression

通过正规方程组方法求解岭方程。

ClassicalMDS

经典多维缩放 (MDS)。

Isomap

Isomap 嵌入。

LocallyLinearEmbedding

局部线性嵌入。

MDS

多维缩放。

SpectralEmbedding

用于非线性降维的谱嵌入。

TSNE

T 分布随机邻居嵌入。

locally_linear_embedding

对数据执行局部线性嵌入分析。

smacof

使用 SMACOF 算法计算多维缩放。

spectral_embedding

将样本投影到图拉普拉斯算子的第一个特征向量上。

trustworthiness

指示保留局部结构的程度。

check_scoring

根据用户选项确定评分器。

get_scorer

从字符串获取评分器。

get_scorer_names

获取所有可用评分器的名称。

make_scorer

从性能指标或损失函数创建评分器。

accuracy_score

准确度分类分数。

auc

使用梯形规则计算曲线下面积 (AUC)。

average_precision_score

从预测分数计算平均精度 (AP)。

balanced_accuracy_score

计算平衡准确度。

brier_score_loss

计算 Brier 分数损失。

class_likelihood_ratios

计算二元分类的正负似然比。

classification_report

生成显示主要分类指标的文本报告。

cohen_kappa_score

计算 Cohen's kappa:衡量注释者间一致性的统计量。

confusion_matrix

计算混淆矩阵以评估分类的准确性。

confusion_matrix_at_thresholds

计算每个分类阈值的二元混淆矩阵项。

d2_brier_score

\(D^2\) 分数函数,Brier 分数解释的比例。

d2_log_loss_score

\(D^2\) 分数函数,log loss 解释的比例。

dcg_score

计算折现累积增益。

det_curve

计算不同概率阈值的检测错误权衡 (DET)。

f1_score

计算 F1 分数,也称为平衡 F 分数或 F-measure。

fbeta_score

计算 F-beta 分数。

hamming_loss

计算平均 Hamming 损失。

hinge_loss

平均铰链损失(非正则化)。

jaccard_score

Jaccard 相似系数分数。

log_loss

Log loss,又名 logistic loss 或交叉熵损失。

matthews_corrcoef

计算 Matthews 相关系数 (MCC)。

multilabel_confusion_matrix

计算每个类别或样本的混淆矩阵。

ndcg_score

计算归一化折现累积增益。

precision_recall_curve

计算不同概率阈值的精确度-召回率对。

precision_recall_fscore_support

计算每个类别的精确度、召回率、F-measure 和支持度。

precision_score

计算精确度。

recall_score

计算召回率。

roc_auc_score

从预测分数计算接收者操作特征曲线下面积 (ROC AUC)。

roc_curve

计算接收者操作特征 (ROC)。

top_k_accuracy_score

Top-k 准确度分类分数。

zero_one_loss

零一分类损失。

d2_absolute_error_score

\(D^2\) 回归分数函数,绝对误差解释的比例。

d2_pinball_score

\(D^2\) 回归分数函数,pinball loss 解释的比例。

d2_tweedie_score

\(D^2\) 回归分数函数,Tweedie 偏差解释的比例。

explained_variance_score

解释方差回归分数函数。

max_error

max_error 指标计算最大残差。

mean_absolute_error

平均绝对误差回归损失。

mean_absolute_percentage_error

平均绝对百分比误差 (MAPE) 回归损失。

mean_gamma_deviance

平均 Gamma 偏差回归损失。

mean_pinball_loss

分位数回归的 Pinball loss。

mean_poisson_deviance

平均 Poisson 偏差回归损失。

mean_squared_error

均方误差回归损失。

mean_squared_log_error

均方对数误差回归损失。

mean_tweedie_deviance

平均 Tweedie 偏差回归损失。

median_absolute_error

中位数绝对误差回归损失。

r2_score

\(R^2\)(决定系数)回归分数函数。

root_mean_squared_error

均方根误差回归损失。

root_mean_squared_log_error

均方根对数误差回归损失。

coverage_error

覆盖率误差度量。

label_ranking_average_precision_score

计算基于排名的平均精度。

label_ranking_loss

计算排名损失度量。

adjusted_mutual_info_score

两个聚类之间的调整互信息。

adjusted_rand_score

经过机会调整的 Rand index。

calinski_harabasz_score

计算 Calinski and Harabasz 分数。

contingency_matrix

构建描述标签之间关系的列联矩阵。

pair_confusion_matrix

来自两个聚类的对混淆矩阵。

completeness_score

计算给定地面实况的聚类标签的完整性指标。

davies_bouldin_score

计算 Davies-Bouldin 分数。

fowlkes_mallows_score

衡量一组点的两个聚类的相似性。

homogeneity_completeness_v_measure

同时计算同质性、完整性和 V-measure 分数。

homogeneity_score

给定地面实况的聚类标签的同质性指标。

mutual_info_score

两个聚类之间的互信息。

normalized_mutual_info_score

两个聚类之间的归一化互信息。

rand_score

Rand index。

silhouette_samples

计算每个样本的 Silhouette 系数。

silhouette_score

计算所有样本的平均 Silhouette 系数。

v_measure_score

给定地面实况的 V-measure 聚类标签。

consensus_score

两组双聚类的相似性。

DistanceMetric

用于快速距离度量函数的统一接口。

additive_chi2_kernel

计算 X 和 Y 中的观测值之间的加性卡方核。

chi2_kernel

计算 X 和 Y 之间的指数卡方核。

cosine_distances

计算 X 和 Y 中的样本之间的余弦距离。

cosine_similarity

计算 X 和 Y 中的样本之间的余弦相似度。

distance_metrics

pairwise_distances 的有效指标。

euclidean_distances

计算特征数组 X 和 Y 中每对之间的距离矩阵。

haversine_distances

计算 X 和 Y 中的样本之间的 Haversine 距离。

kernel_metrics

pairwise_kernels 的有效指标。

laplacian_kernel

计算 X 和 Y 之间的拉普拉斯核。

linear_kernel

计算 X 和 Y 之间的线性核。

manhattan_distances

计算 X 和 Y 中向量之间的 L1 距离。

nan_euclidean_distances

计算存在缺失值时的欧几里得距离。

paired_cosine_distances

计算 X 和 Y 之间的成对余弦距离。

paired_distances

计算 X 和 Y 之间的成对距离。

paired_euclidean_distances

计算 X 和 Y 之间的成对欧几里得距离。

paired_manhattan_distances

计算 X 和 Y 之间的成对 L1 距离。

pairwise_kernels

计算数组 X 和可选数组 Y 之间的核。

polynomial_kernel

计算 X 和 Y 之间的多项式核。

rbf_kernel

计算 X 和 Y 之间的 rbf(高斯)核。

sigmoid_kernel

计算 X 和 Y 之间的 sigmoid 核。

pairwise_distances

计算特征数组 X 和可选 Y 的距离矩阵。

pairwise_distances_argmin

计算一个点与一组点之间的最小距离。

pairwise_distances_argmin_min

计算一个点与一组点之间的最小距离。

pairwise_distances_chunked

按块生成距离矩阵,并带有可选的缩减。

ConfusionMatrixDisplay

混淆矩阵可视化。

DetCurveDisplay

检测错误权衡 (DET) 曲线可视化。

PrecisionRecallDisplay

精确度-召回率可视化。

PredictionErrorDisplay

回归模型预测误差的可视化。

RocCurveDisplay

ROC 曲线可视化。

BayesianGaussianMixture

高斯混合的变分贝叶斯估计。

GaussianMixture

高斯混合。

GroupKFold

具有非重叠组的 K 折迭代器变体。

GroupShuffleSplit

Shuffle-Group(s)-Out 交叉验证迭代器。

KFold

K-Fold 交叉验证器。

LeaveOneGroupOut

Leave One Group Out 交叉验证器。

LeaveOneOut

Leave-One-Out 交叉验证器。

LeavePGroupsOut

Leave P Group(s) Out 交叉验证器。

LeavePOut

Leave-P-Out 交叉验证器。

PredefinedSplit

预定义拆分交叉验证器。

RepeatedKFold

重复 K-Fold 交叉验证器。

RepeatedStratifiedKFold

重复分层 K-Fold 交叉验证器。

ShuffleSplit

随机置换交叉验证器。

StratifiedGroupKFold

具有非重叠组的分层 K-Fold 迭代器变体。

StratifiedKFold

分层 K-Fold 交叉验证器。

StratifiedShuffleSplit

分层 ShuffleSplit 交叉验证器。

TimeSeriesSplit

时间序列交叉验证器。

check_cv

用于构建交叉验证器的输入检查实用程序。

train_test_split

将数组或矩阵拆分为随机训练集和测试子集。

GridSearchCV

对估算器的指定参数值进行穷举搜索。

HalvingGridSearchCV

使用 Successive Halving 对指定参数值进行搜索。

HalvingRandomSearchCV

对超参数进行随机搜索。

ParameterGrid

每个参数具有离散数量值的参数网格。

ParameterSampler

从给定分布中采样的参数生成器。

RandomizedSearchCV

对超参数进行随机搜索。

FixedThresholdClassifier

手动设置决策阈值的二元分类器。

TunedThresholdClassifierCV

使用交叉验证对决策阈值进行后调整的分类器。

cross_val_predict

为每个输入数据点生成交叉验证估计。

cross_val_score

通过交叉验证评估分数。

cross_validate

通过交叉验证评估指标,并记录拟合/评分时间。

learning_curve

学习曲线。

permutation_test_score

使用置换评估交叉验证分数的显著性。

validation_curve

验证曲线。

LearningCurveDisplay

学习曲线可视化。

ValidationCurveDisplay

验证曲线可视化。

OneVsOneClassifier

一对一多类策略。

OneVsRestClassifier

一对多 (OvR) 多类策略。

OutputCodeClassifier

(纠错)输出代码多类策略。

ClassifierChain

将二元分类器排列成链的多标签模型。

MultiOutputClassifier

多目标分类。

MultiOutputRegressor

多目标回归。

RegressorChain

将回归器排列成链的多标签模型。

BernoulliNB

用于多元伯努利模型的朴素贝叶斯分类器。

CategoricalNB

用于分类特征的朴素贝叶斯分类器。

ComplementNB

Rennie et al. (2003) 中描述的 Complement Naive Bayes 分类器。

GaussianNB

高斯朴素贝叶斯 (GaussianNB)。

MultinomialNB

用于多项式模型的朴素贝叶斯分类器。

BallTree

用于快速广义 N 点问题的 BallTree

KDTree

用于快速广义 N 点问题的 KDTree

KNeighborsClassifier

实现 k 最近邻投票的分类器。

KNeighborsRegressor

基于 k 最近邻的回归。

KNeighborsTransformer

将 X 转换为 k 最近邻的(加权)图。

KernelDensity

核密度估计。

LocalOutlierFactor

使用局部异常因子 (LOF) 进行无监督异常值检测。

NearestCentroid

最近质心分类器。

NearestNeighbors

用于实现邻居搜索的无监督学习器。

NeighborhoodComponentsAnalysis

邻域成分分析。

RadiusNeighborsClassifier

实现给定半径内邻居投票的分类器。

RadiusNeighborsRegressor

基于固定半径内邻居的回归。

RadiusNeighborsTransformer

将 X 转换为比半径更近的邻居的(加权)图。

kneighbors_graph

计算 X 中点的 k-Neighbors(加权)图。

radius_neighbors_graph

计算 X 中点的 Neighbors(加权)图。

sort_graph_by_row_values

对稀疏图进行排序,使每行以递增值存储。

BernoulliRBM

伯努利受限玻尔兹曼机 (RBM)。

MLPClassifier

多层感知器分类器。

MLPRegressor

多层感知器回归器。

FeatureUnion

连接多个转换器对象的结果。

Pipeline

具有可选最终预测器的数据转换器序列。

make_pipeline

从给定估算器构造一个 Pipeline

make_union

从给定转换器构造一个 FeatureUnion

Binarizer

根据阈值将数据二值化(将特征值设置为 0 或 1)。

FunctionTransformer

从任意可调用对象构造转换器。

KBinsDiscretizer

将连续数据分成区间。

KernelCenterer

中心化任意核矩阵 \(K\)

LabelBinarizer

以一对多方式将标签二值化。

LabelEncoder

使用 0 到 n_classes-1 之间的值编码目标标签。

MaxAbsScaler

按其最大绝对值缩放每个特征。

MinMaxScaler

通过将每个特征缩放到给定范围来转换特征。

MultiLabelBinarizer

在可迭代对象和多标签格式之间转换。

Normalizer

将样本单独归一化为单位范数。

OneHotEncoder

将分类特征编码为 one-hot 数字数组。

OrdinalEncoder

将分类特征编码为整数数组。

PolynomialFeatures

生成多项式和交互特征。

PowerTransformer

按特征应用幂转换以使数据更像高斯分布。

QuantileTransformer

使用分位数信息转换特征。

RobustScaler

使用对异常值鲁棒的统计量缩放特征。

SplineTransformer

为特征生成单变量 B-样条基。

StandardScaler

通过移除均值并缩放为单位方差来标准化特征。

TargetEncoder

用于回归和分类目标的 Target Encoder。

add_dummy_feature

使用额外的虚拟特征扩充数据集。

binarize

数组类或 scipy.sparse 矩阵的布尔阈值处理。

label_binarize

以一对多方式将标签二值化。

maxabs_scale

将每个特征缩放到 [-1, 1] 范围而不破坏稀疏性。

minmax_scale

通过将每个特征缩放到给定范围来转换特征。

normalize

将输入向量单独归一化为单位范数(向量长度)。

power_transform

参数化、单调转换以使数据更像高斯分布。

quantile_transform

使用分位数信息转换特征。

robust_scale

沿任何轴标准化数据集。

scale

沿任何轴标准化数据集。

GaussianRandomProjection

通过高斯随机投影降低维度。

SparseRandomProjection

通过稀疏随机投影降低维度。

johnson_lindenstrauss_min_dim

查找要随机投影到的“安全”组件数。

LabelPropagation

标签传播分类器。

LabelSpreading

用于半监督学习的 LabelSpreading 模型。

SelfTrainingClassifier

自训练分类器。

LinearSVC

线性支持向量分类。

LinearSVR

线性支持向量回归。

NuSVC

Nu-支持向量分类。

NuSVR

Nu 支持向量回归。

OneClassSVM

无监督异常值检测。

SVC

C-支持向量分类。

SVR

Epsilon-支持向量回归。

l1_min_c

返回 C 的最低界限。

DecisionTreeClassifier

决策树分类器。

DecisionTreeRegressor

决策树回归器。

ExtraTreeClassifier

非常随机的树分类器。

ExtraTreeRegressor

非常随机的树回归器。

export_graphviz

以 DOT 格式导出决策树。

export_text

生成显示决策树规则的文本报告。

plot_tree

绘制决策树。

Bunch

将键公开为属性的容器对象。

_safe_indexing

使用索引返回 X 的行、项或列。

as_float_array

将数组类对象转换为浮点数数组。

assert_all_finite

如果 X 包含 NaN 或无穷大,则引发 ValueError。

deprecated

将函数或类标记为已弃用的装饰器。

estimator_html_repr

构建估算器的 HTML 表示形式。

gen_batches

生成器,用于创建包含 batch_size 元素的从 0 到 n 的切片。

gen_even_slices

生成器,用于创建 n_packs 个均匀间隔的切片,直到 n

indexable

使数组可用于交叉验证的索引。

murmurhash3_32

计算 key 在 seed 上的 32 位 murmurhash3。

resample

以一致的方式重新采样数组或稀疏矩阵。

safe_mask

返回可安全用于 X 的掩码。

safe_sqr

数组类和稀疏矩阵的元素级平方。

shuffle

以一致的方式打乱数组或稀疏矩阵。

Tags

估算器的标签。

InputTags

输入数据的标签。

TargetTags

目标数据的标签。

ClassifierTags

分类器的标签。

RegressorTags

回归器的标签。

TransformerTags

转换器的标签。

get_tags

获取估算器标签。

check_X_y

标准估算器的输入验证。

check_array

对数组、列表、稀疏矩阵或类似对象的输入验证。

check_consistent_length

检查所有数组是否具有一致的第一维。

check_random_state

将种子转换为 np.random.RandomState 实例。

check_scalar

验证标量参数类型和值。

check_is_fitted

对估算器执行 is_fitted 验证。

check_memory

检查 memory 是否类似 joblib.Memory。

check_symmetric

确保数组是 2D、正方形和对称的。

column_or_1d

展平列或 1d numpy 数组,否则引发错误。

has_fit_parameter

检查估算器的 fit 方法是否支持给定参数。

validate_data

验证输入数据并设置或检查输入特征名称和计数。

available_if

仅当检查返回真值时才可用的属性。

compute_class_weight

估算不平衡数据集的类别权重。

compute_sample_weight

估算不平衡数据集的按类别样本权重。

is_multilabel

检查 y 是否采用多标签格式。

type_of_target

确定目标指示的数据类型。

unique_labels

提取唯一的有序标签数组。

density

计算稀疏向量的密度。

fast_logdet

计算方阵行列式的对数。

randomized_range_finder

计算一个正交矩阵,其范围近似于 A 的范围。

randomized_svd

计算截断随机 SVD。

safe_sparse_dot

正确处理稀疏矩阵情况的点积。

weighted_mode

返回传入数组中加权众数(最常见)值的数组。

incr_mean_variance_axis

沿 CSR 或 CSC 矩阵的轴计算增量均值和方差。

inplace_column_scale

CSC/CSR 矩阵的就地列缩放。

inplace_csr_column_scale

CSR 矩阵的就地列缩放。

inplace_row_scale

CSR 或 CSC 矩阵的就地行缩放。

inplace_swap_column

就地交换 CSC/CSR 矩阵的两列。

inplace_swap_row

就地交换 CSC/CSR 矩阵的两行。

mean_variance_axis

沿 CSR 或 CSC 矩阵的轴计算均值和方差。

inplace_csr_row_normalize_l1

将 CSR 矩阵或数组的行就地归一化为 L1 范数。

inplace_csr_row_normalize_l2

将 CSR 矩阵或数组的行就地归一化为 L2 范数。

single_source_shortest_path_length

返回从源到所有可达节点的shortest path length。

sample_without_replacement

不放回地抽取整数样本。

min_pos

查找数组中正值的最小值。

MetadataRequest

包含使用者的元数据请求信息。

MetadataRouter

协调 router 对象的元数据路由。

MethodMapping

存储 router 的调用者和被调用者方法之间的映射。

get_routing_for_object

从给定对象获取 Metadata{Router, Request} 实例。

process_routing

验证和路由元数据。

all_displays

sklearn 获取所有显示列表。

all_estimators

sklearn 获取所有估算器列表。

all_functions

sklearn 获取所有函数列表。

check_estimator

检查估算器是否符合 scikit-learn 约定。

parametrize_with_checks

用于参数化估算器检查的 pytest 特定装饰器。

estimator_checks_generator

迭代地生成估算器的所有可调用检查。

Parallel

joblib.Parallel 的调整版本,用于传播 scikit-learn 配置。

delayed

用于捕获函数参数的装饰器。