API参考#

这是scikit-learn的类和函数参考。更多详情,请参考完整用户指南,因为类和函数的原始规范可能不足以提供其用法的完整指南。有关API中重复概念的参考,请参阅常用术语和API元素词汇表

对象

描述

config_context

用于全局scikit-learn配置的上下文管理器。

get_config

检索由set_config设置的配置的当前值。

set_config

设置全局scikit-learn配置。

show_versions

打印有用的调试信息。

BaseEstimator

scikit-learn中所有估计器的基类。

BiclusterMixin

scikit-learn中所有双聚类估计器的Mixin类。

ClassNamePrefixFeaturesOutMixin

用于通过前缀生成其自身名称的变换器的Mixin类。

ClassifierMixin

scikit-learn中所有分类器的Mixin类。

ClusterMixin

scikit-learn中所有聚类估计器的Mixin类。

DensityMixin

scikit-learn中所有密度估计器的Mixin类。

MetaEstimatorMixin

scikit-learn中所有元估计器的Mixin类。

OneToOneFeatureMixin

为简单的变换器提供get_feature_names_out

OutlierMixin

scikit-learn中所有异常检测估计器的Mixin类。

RegressorMixin

scikit-learn中所有回归估计器的Mixin类。

TransformerMixin

scikit-learn中所有变换器的Mixin类。

clone

使用相同的参数构造一个新的未拟合估计器。

is_classifier

如果给定的估计器(可能)是分类器,则返回True。

is_clusterer

如果给定的估计器(可能)是聚类器,则返回True。

is_regressor

如果给定的估计器(可能)是回归器,则返回True。

is_outlier_detector

如果给定的估计器(可能)是异常检测器,则返回True。

CalibratedClassifierCV

使用等值回归或逻辑回归进行概率校准。

calibration_curve

计算校准曲线的真实概率和预测概率。

CalibrationDisplay

校准曲线(也称为可靠性图)可视化。

AffinityPropagation

执行数据的亲和传播聚类。

AgglomerativeClustering

凝聚聚类。

Birch

实现BIRCH聚类算法。

BisectingKMeans

二分K均值聚类。

DBSCAN

从向量数组或距离矩阵执行DBSCAN聚类。

FeatureAgglomeration

聚合特征。

HDBSCAN

使用基于层次密度的聚类对数据进行聚类。

KMeans

K均值聚类。

MeanShift

使用平面核的均值漂移聚类。

MiniBatchKMeans

小批量K均值聚类。

OPTICS

从向量数组估计聚类结构。

SpectralBiclustering

谱双聚类(Kluger,2003)。

SpectralClustering

将聚类应用于归一化拉普拉斯算子的投影。

SpectralCoclustering

谱共聚类算法(Dhillon,2001)。

affinity_propagation

执行数据的亲和传播聚类。

cluster_optics_dbscan

为任意epsilon执行DBSCAN提取。

cluster_optics_xi

根据Xi-steep方法自动提取集群。

compute_optics_graph

计算OPTICS可达性图。

dbscan

从向量数组或距离矩阵执行DBSCAN聚类。

estimate_bandwidth

估计与均值漂移算法一起使用的带宽。

k_means

执行K均值聚类算法。

kmeans_plusplus

根据k-means++初始化n_clusters种子。

mean_shift

使用平面核对数据执行均值漂移聚类。

spectral_clustering

将聚类应用于归一化拉普拉斯算子的投影。

ward_tree

基于特征矩阵的 Ward 聚类。

ColumnTransformer

将转换器应用于数组或 pandas DataFrame 的列。

TransformedTargetRegressor

元估计器,用于对转换后的目标进行回归。

make_column_selector

创建一个可调用对象,用于选择要与…一起使用的列。

make_column_transformer

根据给定的转换器构建 ColumnTransformer。

EllipticEnvelope

用于检测高斯分布数据集中的异常值的对象。

EmpiricalCovariance

最大似然协方差估计器。

GraphicalLasso

使用 l1 正则化估计器的稀疏逆协方差估计。

GraphicalLassoCV

具有交叉验证选择的 l1 惩罚的稀疏逆协方差。

LedoitWolf

Ledoit-Wolf 估计器。

MinCovDet

最小协方差行列式 (MCD):协方差的稳健估计器。

OAS

Oracle 近似收缩估计器。

ShrunkCovariance

具有收缩的协方差估计器。

empirical_covariance

计算最大似然协方差估计器。

graphical_lasso

L1 正则化协方差估计器。

ledoit_wolf

估计收缩的 Ledoit-Wolf 协方差矩阵。

ledoit_wolf_shrinkage

估计收缩的 Ledoit-Wolf 协方差矩阵。

oas

使用 Oracle 近似收缩估计协方差。

shrunk_covariance

计算对角线上收缩的协方差矩阵。

CCA

典型相关分析,也称为“模式 B”PLS。

PLSCanonical

偏最小二乘转换器和回归器。

PLSRegression

PLSSVD

偏最小二乘 SVD。

clear_data_home

删除数据主缓存中的所有内容。

dump_svmlight_file

以 svmlight/libsvm 文件格式转储数据集。

fetch_20newsgroups

加载来自 20 个新闻组数据集的文件名和数据(分类)。

fetch_20newsgroups_vectorized

加载并向量化 20 个新闻组数据集(分类)。

fetch_california_housing

加载加利福尼亚州住房数据集(回归)。

fetch_covtype

加载 covertype 数据集(分类)。

fetch_file

如果本地文件夹中不存在,则从 Web 获取文件。

fetch_kddcup99

加载 kddcup99 数据集(分类)。

fetch_lfw_pairs

加载野外标记面孔 (LFW) 对数据集(分类)。

fetch_lfw_people

加载野外标记面孔 (LFW) 人员数据集(分类)。

fetch_olivetti_faces

加载来自 AT&T 的 Olivetti 面部数据集(分类)。

fetch_openml

按名称或数据集 ID 从 openml 获取数据集。

fetch_rcv1

加载 RCV1 多标签数据集(分类)。

fetch_species_distributions

加载来自 Phillips 等人 (2006) 的物种分布数据集的加载器。

get_data_home

返回 scikit-learn 数据目录的路径。

load_breast_cancer

加载并返回威斯康星州乳腺癌数据集(分类)。

load_diabetes

加载并返回糖尿病数据集(回归)。

load_digits

加载并返回数字数据集(分类)。

load_files

加载文本文件,类别作为子文件夹名称。

load_iris

加载并返回虹膜数据集(分类)。

load_linnerud

加载并返回物理运动 Linnerud 数据集。

load_sample_image

加载单个样本图像的 numpy 数组。

load_sample_images

加载用于图像处理的样本图像。

load_svmlight_file

将 svmlight/libsvm 格式的数据集加载到稀疏 CSR 矩阵中。

load_svmlight_files

从 SVMlight 格式的多个文件中加载数据集。

load_wine

加载并返回葡萄酒数据集(分类)。

make_biclusters

为双聚类生成常数块对角结构数组。

make_blobs

为聚类生成各向同性高斯斑点。

make_checkerboard

为双聚类生成具有块棋盘结构的数组。

make_circles

在 2D 中制作一个包含较小圆圈的大圆圈。

make_classification

生成一个随机的 n 类分类问题。

make_friedman1

生成“Friedman #1”回归问题。

make_friedman2

生成“Friedman #2”回归问题。

make_friedman3

生成“Friedman #3”回归问题。

make_gaussian_quantiles

生成各向同性高斯数据并按分位数标记样本。

make_hastie_10_2

生成 Hastie 等人 2009,示例 10.2 中使用的二元分类数据。

make_low_rank_matrix

生成一个具有钟形奇异值的主要是低秩矩阵。

make_moons

制作两个交错的半圆。

make_multilabel_classification

生成一个随机的多标签分类问题。

make_regression

生成一个随机的回归问题。

make_s_curve

生成 S 曲线数据集。

make_sparse_coded_signal

生成一个作为字典元素的稀疏组合的信号。

make_sparse_spd_matrix

生成一个稀疏对称正定矩阵。

make_sparse_uncorrelated

生成一个具有稀疏不相关设计的随机回归问题。

make_spd_matrix

生成一个随机的对称正定矩阵。

make_swiss_roll

生成一个瑞士卷数据集。

DictionaryLearning

字典学习。

FactorAnalysis

因子分析 (FA)。

FastICA

FastICA:一种用于独立成分分析的快速算法。

IncrementalPCA

增量主成分分析 (IPCA)。

KernelPCA

核主成分分析 (KPCA)。

LatentDirichletAllocation

具有在线变分贝叶斯算法的潜在狄利克雷分配。

MiniBatchDictionaryLearning

小批量字典学习。

MiniBatchNMF

小批量非负矩阵分解 (NMF)。

MiniBatchSparsePCA

小批量稀疏主成分分析。

NMF

非负矩阵分解 (NMF)。

PCA

主成分分析 (PCA)。

SparseCoder

稀疏编码。

SparsePCA

稀疏主成分分析 (SparsePCA)。

TruncatedSVD

使用截断 SVD(又名 LSA)进行降维。

dict_learning

求解字典学习矩阵分解问题。

dict_learning_online

在线求解字典学习矩阵分解问题。

fastica

执行快速独立成分分析。

non_negative_factorization

计算非负矩阵分解 (NMF)。

sparse_encode

稀疏编码。

LinearDiscriminantAnalysis

线性判别分析。

QuadraticDiscriminantAnalysis

二次判别分析。

DummyClassifier

DummyClassifier 做出忽略输入特征的预测。

DummyRegressor

使用简单规则进行预测的回归器。

AdaBoostClassifier

AdaBoost 分类器。

AdaBoostRegressor

AdaBoost 回归器。

BaggingClassifier

Bagging 分类器。

BaggingRegressor

Bagging 回归器。

ExtraTreesClassifier

Extra-trees 分类器。

ExtraTreesRegressor

Extra-trees 回归器。

GradientBoostingClassifier

用于分类的梯度提升。

GradientBoostingRegressor

用于回归的梯度提升。

HistGradientBoostingClassifier

基于直方图的梯度提升分类树。

HistGradientBoostingRegressor

基于直方图的梯度提升回归树。

IsolationForest

隔离森林算法。

RandomForestClassifier

随机森林分类器。

RandomForestRegressor

随机森林回归器。

RandomTreesEmbedding

完全随机树的集合。

StackingClassifier

具有最终分类器的估计器堆栈。

StackingRegressor

具有最终回归器的估计器堆栈。

VotingClassifier

用于未拟合估计器的软投票/多数规则分类器。

VotingRegressor

用于未拟合估计器的预测投票回归器。

ConvergenceWarning

自定义警告,用于捕获收敛问题。

DataConversionWarning

用于通知代码中发生的隐式数据转换的警告。

DataDimensionalityWarning

自定义警告,用于通知数据维度方面的潜在问题。

EfficiencyWarning

用于通知用户计算效率低下的警告。

FitFailedWarning

如果拟合估计器时发生错误,则使用的警告类。

InconsistentVersionWarning

当使用不一致版本的估计器进行反序列化时引发的警告。

NotFittedError

如果在拟合之前使用估计器,则引发的异常类。

UndefinedMetricWarning

指标无效时使用的警告。

EstimatorCheckFailedWarning

当来自通用测试的估计器检查失败时引发的警告。

enable_halving_search_cv

启用连续减半搜索估计器。

enable_iterative_imputer

启用 IterativeImputer。

DictVectorizer

将特征值映射列表转换为向量。

FeatureHasher

实现特征哈希,又称哈希技巧。

PatchExtractor

从图像集合中提取补丁。

extract_patches_2d

将 2D 图像重塑为补丁集合。

grid_to_graph

像素到像素连接的图。

img_to_graph

像素到像素梯度连接的图。

reconstruct_from_patches_2d

根据所有补丁重建图像。

CountVectorizer

将文本文档集合转换为标记计数矩阵。

HashingVectorizer

将文本文档集合转换为标记出现次数矩阵。

TfidfTransformer

将计数矩阵转换为标准化的tf或tf-idf表示。

TfidfVectorizer

将原始文档集合转换为TF-IDF特征矩阵。

GenericUnivariateSelect

具有可配置策略的单变量特征选择器。

RFE

使用递归特征消除进行特征排序。

RFECV

使用交叉验证的递归特征消除来选择特征。

SelectFdr

过滤器:选择估计的错误发现率的p值。

SelectFpr

过滤器:根据FPR检验选择低于alpha的p值。

SelectFromModel

基于重要性权重选择特征的元转换器。

SelectFwe

过滤器:选择与家庭错误率相对应的p值。

SelectKBest

根据k个最高分选择特征。

SelectPercentile

根据最高分数的百分位数选择特征。

SelectorMixin

执行给定支持掩码的特征选择的转换器混合。

SequentialFeatureSelector

执行顺序特征选择的转换器。

VarianceThreshold

去除所有低方差特征的特征选择器。

chi2

计算每个非负特征和类别之间的卡方统计量。

f_classif

计算提供的样本的ANOVA F值。

f_regression

返回F统计量和p值的单变量线性回归检验。

mutual_info_classif

估计离散目标变量的互信息。

mutual_info_regression

估计连续目标变量的互信息。

r_regression

计算每个特征与目标之间的皮尔逊相关系数r。

FrozenEstimator

包装已拟合估计器的估计器,以防止重新拟合。

GaussianProcessClassifier

基于拉普拉斯逼近的高斯过程分类 (GPC)。

GaussianProcessRegressor

高斯过程回归 (GPR)。

CompoundKernel

由一组其他核组成的核。

ConstantKernel

DotProduct

ExpSineSquared

指数正弦平方核(又名周期核)。

Exponentiation

指数核采用一个基核和一个标量参数。

Hyperparameter

以命名元组形式指定的核超参数。

Kernel

所有核的基类。

Matern

PairwiseKernel

sklearn.metrics.pairwise中核的包装器。

Product

Product 核采用两个核 \(k_1\)\(k_2\)

RBF

径向基函数核(又名平方指数核)。

RationalQuadratic

Sum

Sum 核采用两个核 \(k_1\)\(k_2\)

WhiteKernel

IterativeImputer

多变量填补器,根据所有其他特征估计每个特征。

KNNImputer

使用k近邻完成缺失值的填补。

MissingIndicator

缺失值的二元指示符。

SimpleImputer

使用简单策略完成缺失值的单变量填补器。

partial_dependence

features 的局部依赖性。

permutation_importance

用于特征评估的排列重要性 [Rd9e56ef97513-BRE]

DecisionBoundaryDisplay

决策边界可视化。

PartialDependenceDisplay

局部依赖图 (PDP)。

IsotonicRegression

等距回归模型。

check_increasing

确定y是否与x单调相关。

isotonic_regression

求解等距回归模型。

AdditiveChi2Sampler

加性chi2核的近似特征映射。

Nystroem

使用训练数据的子集近似核映射。

PolynomialCountSketch

通过张量草图进行多项式核逼近。

RBFSampler

使用随机傅里叶特征逼近RBF核特征映射。

SkewedChi2Sampler

“偏斜卡方”核的近似特征映射。

KernelRidge

核岭回归。

LogisticRegression

逻辑回归(又名logit,MaxEnt)分类器。

LogisticRegressionCV

逻辑回归CV(又名logit,MaxEnt)分类器。

PassiveAggressiveClassifier

被动攻击分类器。

Perceptron

线性感知器分类器。

RidgeClassifier

使用岭回归的分类器。

RidgeClassifierCV

具有内置交叉验证的岭分类器。

SGDClassifier

使用SGD训练的线性分类器(SVM、逻辑回归等)。

SGDOneClassSVM

使用随机梯度下降求解线性一类SVM。

LinearRegression

普通最小二乘线性回归。

Ridge

具有l2正则化的线性最小二乘法。

RidgeCV

具有内置交叉验证的岭回归。

SGDRegressor

通过使用SGD最小化正则化经验损失来拟合的线性模型。

ElasticNet

具有组合L1和L2先验作为正则化器的线性回归。

ElasticNetCV

沿正则化路径进行迭代拟合的弹性网络模型。

Lars

最小角回归模型,又名LAR。

LarsCV

交叉验证的最小角回归模型。

Lasso

使用L1先验作为正则化器的线性模型(又名Lasso)。

LassoCV

沿正则化路径进行迭代拟合的Lasso线性模型。

LassoLars

使用最小角回归(又名Lars)拟合的Lasso模型。

LassoLarsCV

使用LARS算法进行交叉验证的Lasso。

LassoLarsIC

使用BIC或AIC进行模型选择的Lars拟合的Lasso模型。

OrthogonalMatchingPursuit

正交匹配追踪模型 (OMP)。

OrthogonalMatchingPursuitCV

交叉验证的正交匹配追踪模型 (OMP)。

ARDRegression

贝叶斯ARD回归。

BayesianRidge

贝叶斯岭回归。

MultiTaskElasticNet

使用L1/L2混合范数作为正则化器的多任务ElasticNet模型。

MultiTaskElasticNetCV

具有内置交叉验证的多任务L1/L2 ElasticNet。

MultiTaskLasso

使用L1/L2混合范数作为正则化器的多任务Lasso模型。

MultiTaskLassoCV

使用L1/L2混合范数作为正则化器的多任务Lasso模型。

HuberRegressor

对异常值具有鲁棒性的L2正则化线性回归模型。

QuantileRegressor

预测条件分位数的线性回归模型。

RANSACRegressor

RANSAC(RANdom SAmple Consensus)算法。

TheilSenRegressor

Theil-Sen估计器:鲁棒的多元回归模型。

GammaRegressor

具有Gamma分布的广义线性模型。

PoissonRegressor

具有泊松分布的广义线性模型。

TweedieRegressor

具有Tweedie分布的广义线性模型。

PassiveAggressiveRegressor

被动攻击回归器。

enet_path

使用坐标下降计算弹性网络路径。

lars_path

使用LARS算法计算最小角回归或Lasso路径。

lars_path_gram

充分统计模式下的lars_path。

lasso_path

使用坐标下降计算Lasso路径。

orthogonal_mp

正交匹配追踪 (OMP)。

orthogonal_mp_gram

Gram正交匹配追踪 (OMP)。

ridge_regression

用正规方程法求解岭方程。

Isomap

Isomap嵌入。

LocallyLinearEmbedding

局部线性嵌入。

MDS

多维缩放。

SpectralEmbedding

用于非线性降维的光谱嵌入。

TSNE

t分布随机邻域嵌入。

locally_linear_embedding

对数据执行局部线性嵌入分析。

smacof

使用SMACOF算法计算多维缩放。

spectral_embedding

将样本投影到图拉普拉斯算子的前几个特征向量上。

trustworthiness

指示局部结构保留的程度。

check_scoring

根据用户选项确定评分器。

get_scorer

从字符串获取评分器。

get_scorer_names

获取所有可用评分器的名称。

make_scorer

从性能指标或损失函数创建评分器。

accuracy_score

准确性分类得分。

auc

使用梯形法则计算曲线下面积 (AUC)。

average_precision_score

根据预测分数计算平均精度 (AP)。

balanced_accuracy_score

计算平衡准确率。

brier_score_loss

计算Brier分数损失。

class_likelihood_ratios

计算二元分类的正负似然比。

classification_report

构建显示主要分类指标的文本报告。

cohen_kappa_score

计算Cohen的kappa:衡量注释者间一致性的统计量。

confusion_matrix

计算混淆矩阵以评估分类的准确性。

d2_log_loss_score

\(D^2\) 分数函数,解释的日志损失分数。

dcg_score

计算折算累积增益。

det_curve

计算不同概率阈值的错误率。

f1_score

计算F1分数,也称为平衡F分数或F度量。

fbeta_score

计算F-beta分数。

hamming_loss

计算平均汉明损失。

hinge_loss

平均铰链损失(非正则化)。

jaccard_score

Jaccard相似系数得分。

log_loss

对数损失,又名逻辑损失或交叉熵损失。

matthews_corrcoef

计算马修斯相关系数 (MCC)。

multilabel_confusion_matrix

为每个类别或样本计算混淆矩阵。

ndcg_score

计算归一化折损累积增益 (NDCG)。

precision_recall_curve

计算不同概率阈值的精确率-召回率对。

precision_recall_fscore_support

计算每个类别的精确率、召回率、F 值和支持度。

precision_score

计算精确率。

recall_score

计算召回率。

roc_auc_score

根据预测分数计算受试者工作特征曲线下面积 (ROC AUC)。

roc_curve

计算受试者工作特征曲线 (ROC)。

top_k_accuracy_score

Top-k 准确率分类评分。

zero_one_loss

零一分类损失。

d2_absolute_error_score

\(D^2\) 回归评分函数,解释的绝对误差分数。

d2_pinball_score

\(D^2\) 回归评分函数,解释的Pinball损失分数。

d2_tweedie_score

\(D^2\) 回归评分函数,解释的Tweedie偏差分数。

explained_variance_score

解释方差回归评分函数。

max_error

max_error 指标计算最大残差误差。

mean_absolute_error

平均绝对误差回归损失。

mean_absolute_percentage_error

平均绝对百分比误差 (MAPE) 回归损失。

mean_gamma_deviance

平均 Gamma 偏差回归损失。

mean_pinball_loss

分位数回归的 Pinball 损失。

mean_poisson_deviance

平均泊松偏差回归损失。

mean_squared_error

均方误差回归损失。

mean_squared_log_error

均方对数误差回归损失。

mean_tweedie_deviance

平均 Tweedie 偏差回归损失。

median_absolute_error

中位数绝对误差回归损失。

r2_score

\(R^2\)(决定系数)回归评分函数。

root_mean_squared_error

均方根误差回归损失。

root_mean_squared_log_error

均方根对数误差回归损失。

coverage_error

覆盖率误差度量。

label_ranking_average_precision_score

计算基于排名的平均精度。

label_ranking_loss

计算排名损失度量。

adjusted_mutual_info_score

两个聚类之间的调整互信息。

adjusted_rand_score

经机会校正的 Rand 指数。

calinski_harabasz_score

计算 Calinski-Harabasz 评分。

contingency_matrix

构建一个描述标签之间关系的列联表。

pair_confusion_matrix

由两个聚类产生的配对混淆矩阵。

completeness_score

计算给定真实标签的聚类标签的完整性指标。

戴维森-布尔丁指数 (davies_bouldin_score)

计算 Davies-Bouldin 评分。

福克斯-马洛斯指数 (fowlkes_mallows_score)

衡量点集的两个聚类的相似性。

同质性、完整性和V量度 (homogeneity_completeness_v_measure)

同时计算同质性、完整性和 V-Measure 评分。

同质性得分 (homogeneity_score)

给定真实标签的聚类标签的同质性指标。

互信息得分 (mutual_info_score)

两个聚类之间的互信息。

归一化互信息得分 (normalized_mutual_info_score)

两个聚类之间的归一化互信息。

兰德指数 (rand_score)

Rand 指数。

轮廓样本 (silhouette_samples)

计算每个样本的轮廓系数。

轮廓系数 (silhouette_score)

计算所有样本的平均轮廓系数。

V量度得分 (v_measure_score)

给定真实标签的 V-Measure 聚类标签。

一致性得分 (consensus_score)

两组双聚类的相似性。

距离度量 (DistanceMetric)

快速距离度量函数的统一接口。

加性卡方核 (additive_chi2_kernel)

计算 X 和 Y 中观测值之间的加性卡方核。

卡方核 (chi2_kernel)

计算 X 和 Y 之间的指数卡方核。

余弦距离 (cosine_distances)

计算 X 和 Y 中样本之间的余弦距离。

余弦相似度 (cosine_similarity)

计算 X 和 Y 中样本之间的余弦相似度。

距离度量 (distance_metrics)

pairwise_distances 的有效指标。

欧几里得距离 (euclidean_distances)

计算向量数组 X 和 Y 中每一对之间的距离矩阵。

海弗森距离 (haversine_distances)

计算 X 和 Y 中样本之间的 Haversine 距离。

核度量 (kernel_metrics)

pairwise_kernels 的有效指标。

拉普拉斯核 (laplacian_kernel)

计算 X 和 Y 之间的拉普拉斯核。

线性核 (linear_kernel)

计算 X 和 Y 之间的线性核。

曼哈顿距离 (manhattan_distances)

计算 X 和 Y 中向量之间的 L1 距离。

NaN欧几里得距离 (nan_euclidean_distances)

在存在缺失值的情况下计算欧几里得距离。

成对余弦距离 (paired_cosine_distances)

计算 X 和 Y 之间的成对余弦距离。

成对距离 (paired_distances)

计算 X 和 Y 之间的成对距离。

成对欧几里得距离 (paired_euclidean_distances)

计算 X 和 Y 之间的成对欧几里得距离。

成对曼哈顿距离 (paired_manhattan_distances)

计算 X 和 Y 之间的成对 L1 距离。

成对核 (pairwise_kernels)

计算数组 X 和可选数组 Y 之间的核。

多项式核 (polynomial_kernel)

计算 X 和 Y 之间的多项式核。

径向基函数核 (rbf_kernel)

计算 X 和 Y 之间的 RBF(高斯)核。

S型核 (sigmoid_kernel)

计算 X 和 Y 之间的 sigmoid 核。

成对距离 (pairwise_distances)

根据向量数组 X 和可选的 Y 计算距离矩阵。

成对距离最小值索引 (pairwise_distances_argmin)

计算一个点和一组点之间的最小距离。

成对距离最小值索引和最小值 (pairwise_distances_argmin_min)

计算一个点和一组点之间的最小距离。

分块成对距离 (pairwise_distances_chunked)

分块生成距离矩阵,并可选地进行约简。

混淆矩阵显示 (ConfusionMatrixDisplay)

混淆矩阵可视化。

检测曲线显示 (DetCurveDisplay)

DET 曲线可视化。

精确率召回率曲线显示 (PrecisionRecallDisplay)

精确率-召回率可视化。

预测误差显示 (PredictionErrorDisplay)

回归模型预测误差的可视化。

ROC曲线显示 (RocCurveDisplay)

ROC 曲线可视化。

贝叶斯高斯混合模型 (BayesianGaussianMixture)

高斯混合的变分贝叶斯估计。

高斯混合模型 (GaussianMixture)

高斯混合。

分组K折交叉验证 (GroupKFold)

具有非重叠组的 K 折迭代器变体。

分组随机划分 (GroupShuffleSplit)

Shuffle-Group(s)-Out 交叉验证迭代器。

K折交叉验证 (KFold)

K 折交叉验证器。

留一组交叉验证 (LeaveOneGroupOut)

留一组出交叉验证器。

留一交叉验证 (LeaveOneOut)

留一法交叉验证器。

留P组交叉验证 (LeavePGroupsOut)

留 P 组出交叉验证器。

留P交叉验证 (LeavePOut)

留 P 法交叉验证器。

预定义划分 (PredefinedSplit)

预定义分割交叉验证器。

重复K折交叉验证 (RepeatedKFold)

重复 K 折交叉验证器。

重复分层K折交叉验证 (RepeatedStratifiedKFold)

重复分层 K 折交叉验证器。

随机划分 (ShuffleSplit)

随机排列交叉验证器。

分层分组K折交叉验证 (StratifiedGroupKFold)

具有非重叠组的分层 K 折迭代器变体。

分层K折交叉验证 (StratifiedKFold)

分层 K 折交叉验证器。

分层随机划分 (StratifiedShuffleSplit)

分层 ShuffleSplit 交叉验证器。

时间序列划分 (TimeSeriesSplit)

时间序列交叉验证器。

交叉验证检查 (check_cv)

用于构建交叉验证器的输入检查器实用程序。

训练测试划分 (train_test_split)

将数组或矩阵分割成随机的训练和测试子集。

网格搜索交叉验证 (GridSearchCV)

对估计器的指定参数值进行穷举搜索。

逐步网格搜索交叉验证 (HalvingGridSearchCV)

使用连续减半搜索指定的参数值。

逐步随机搜索交叉验证 (HalvingRandomSearchCV)

超参数的随机搜索。

参数网格 (ParameterGrid)

参数网格,每个参数具有离散数量的值。

参数采样器 (ParameterSampler)

从给定分布中采样参数的生成器。

随机搜索交叉验证 (RandomizedSearchCV)

超参数的随机搜索。

固定阈值分类器 (FixedThresholdClassifier)

手动设置决策阈值的二元分类器。

调整阈值交叉验证分类器 (TunedThresholdClassifierCV)

使用交叉验证对决策阈值进行后调优的分类器。

交叉验证预测 (cross_val_predict)

为每个输入数据点生成交叉验证估计。

交叉验证得分 (cross_val_score)

通过交叉验证评估分数。

交叉验证 (cross_validate)

通过交叉验证评估指标,并记录拟合/评分时间。

学习曲线 (learning_curve)

置换检验得分 (permutation_test_score)

使用排列评估交叉验证分数的显著性。

验证曲线 (validation_curve)

学习曲线显示 (LearningCurveDisplay)

学习曲线可视化。

验证曲线显示 (ValidationCurveDisplay)

验证曲线可视化。

一对一分类器 (OneVsOneClassifier)

一对一多类策略。

一对多分类器 (OneVsRestClassifier)

一对其余 (OvR) 多类策略。

输出码分类器 (OutputCodeClassifier)

(纠错) 输出码多类策略。

分类器链 (ClassifierChain)

将二元分类器排列成链的多标签模型。

多输出分类器 (MultiOutputClassifier)

多目标分类。

多输出回归器 (MultiOutputRegressor)

多目标回归。

回归器链 (RegressorChain)

将回归排列成链的多标签模型。

伯努利朴素贝叶斯 (BernoulliNB)

用于多元伯努利模型的朴素贝叶斯分类器。

类别朴素贝叶斯 (CategoricalNB)

用于分类特征的朴素贝叶斯分类器。

补集朴素贝叶斯 (ComplementNB)

Rennie 等人 (2003) 描述的补充朴素贝叶斯分类器。

高斯朴素贝叶斯 (GaussianNB)

高斯朴素贝叶斯 (GaussianNB)。

多项式朴素贝叶斯 (MultinomialNB)

用于多项式模型的朴素贝叶斯分类器。

球树 (BallTree)

用于快速广义 N 点问题的 BallTree。

KD树 (KDTree)

用于快速广义 N 点问题的 KDTree。

K近邻分类器 (KNeighborsClassifier)

实现 k 近邻投票的分类器。

K近邻回归器 (KNeighborsRegressor)

基于 k 近邻的回归。

K近邻变换器 (KNeighborsTransformer)

将 X 转换为 k 近邻的(加权)图。

核密度估计 (KernelDensity)

核密度估计。

局部异常因子 (LocalOutlierFactor)

使用局部异常因子 (LOF) 进行无监督异常检测。

最近质心 (NearestCentroid)

最近质心分类器。

最近邻 (NearestNeighbors)

用于实现邻域搜索的无监督学习器。

邻域成分分析 (NeighborhoodComponentsAnalysis)

邻域成分分析。

半径近邻分类器 (RadiusNeighborsClassifier)

实现给定半径内邻域投票的分类器。

半径近邻回归器 (RadiusNeighborsRegressor)

基于固定半径内邻域的回归。

半径近邻变换器 (RadiusNeighborsTransformer)

将 X 转换为半径内邻域的(加权)图。

K近邻图 (kneighbors_graph)

计算 X 中点的 k 近邻的(加权)图。

半径近邻图 (radius_neighbors_graph)

计算 X 中点的邻域的(加权)图。

按行值排序图 (sort_graph_by_row_values)

对稀疏图进行排序,以便每一行都按递增值存储。

伯努利受限玻尔兹曼机 (BernoulliRBM)

伯努利受限玻尔兹曼机 (RBM)。

多层感知器分类器 (MLPClassifier)

多层感知器分类器。

多层感知器回归器 (MLPRegressor)

多层感知器回归器。

特征联合 (FeatureUnion)

连接多个转换器对象的的结果。

管道 (Pipeline)

具有可选最终预测器的多个数据转换器的序列。

创建管道 (make_pipeline)

根据给定的估计器构建一个 Pipeline

创建联合 (make_union)

根据给定的转换器构建一个 FeatureUnion

二值化器 (Binarizer)

根据阈值对数据进行二值化(将特征值设置为 0 或 1)。

函数变换器 (FunctionTransformer)

从任意可调用对象构建一个转换器。

KBins离散器 (KBinsDiscretizer)

将连续数据分成区间。

核中心化器 (KernelCenterer)

居中任意核矩阵\(K\)

标签二值化器 (LabelBinarizer)

以一对多方式二值化标签。

标签编码器 (LabelEncoder)

使用 0 到 n_classes-1 之间的数值编码目标标签。

最大绝对值缩放器 (MaxAbsScaler)

按其最大绝对值缩放每个特征。

最小最大值缩放器 (MinMaxScaler)

通过将每个特征缩放至给定范围来转换特征。

多标签二值化器 (MultiLabelBinarizer)

在可迭代的可迭代对象和多标签格式之间转换。

归一化器 (Normalizer)

将样本单独规范化为单位范数。

独热编码器 (OneHotEncoder)

将分类特征编码为独热数值数组。

序数编码器 (OrdinalEncoder)

将分类特征编码为整数数组。

多项式特征 (PolynomialFeatures)

生成多项式和交互特征。

幂变换器 (PowerTransformer)

对特征应用幂变换,使数据更符合高斯分布。

分位数变换器 (QuantileTransformer)

使用分位数信息转换特征。

稳健缩放器 (RobustScaler)

使用对异常值稳健的统计数据来缩放特征。

样条变换器 (SplineTransformer)

为特征生成单变量 B 样条基。

标准缩放器 (StandardScaler)

通过移除均值并缩放至单位方差来标准化特征。

目标编码器 (TargetEncoder)

用于回归和分类目标的目标编码器。

添加虚拟特征 (add_dummy_feature)

使用附加的虚拟特征扩充数据集。

二值化 (binarize)

对类数组或 scipy.sparse 矩阵进行布尔阈值处理。

标签二值化 (label_binarize)

以一对多方式二值化标签。

最大绝对值缩放 (maxabs_scale)

将每个特征缩放至 [-1, 1] 范围,而不会破坏稀疏性。

最小最大值缩放 (minmax_scale)

通过将每个特征缩放至给定范围来转换特征。

归一化 (normalize)

将输入向量单独缩放至单位范数(向量长度)。

幂变换 (power_transform)

参数化、单调变换,使数据更符合高斯分布。

分位数变换 (quantile_transform)

使用分位数信息转换特征。

稳健缩放 (robust_scale)

沿任何轴标准化数据集。

缩放 (scale)

沿任何轴标准化数据集。

高斯随机投影 (GaussianRandomProjection)

通过高斯随机投影降低维度。

稀疏随机投影 (SparseRandomProjection)

通过稀疏随机投影降低维度。

约翰逊-林登施特劳斯最小维数 (johnson_lindenstrauss_min_dim)

找到一个“安全”的随机投影成分数量。

标签传播 (LabelPropagation)

标签传播分类器。

标签扩展 (LabelSpreading)

用于半监督学习的 LabelSpreading 模型。

自训练分类器 (SelfTrainingClassifier)

自训练分类器。

线性支持向量机分类器 (LinearSVC)

线性支持向量分类。

线性支持向量机回归器 (LinearSVR)

线性支持向量回归。

核支持向量机分类器 (NuSVC)

Nu 支持向量分类。

核支持向量机回归器 (NuSVR)

Nu 支持向量回归。

一类支持向量机 (OneClassSVM)

无监督异常值检测。

支持向量机分类器 (SVC)

C 支持向量分类。

支持向量机回归器 (SVR)

Epsilon 支持向量回归。

L1正则化最小C值 (l1_min_c)

返回 C 的下界。

决策树分类器 (DecisionTreeClassifier)

决策树分类器。

决策树回归器 (DecisionTreeRegressor)

决策树回归器。

额外树分类器 (ExtraTreeClassifier)

极端随机树分类器。

额外树回归器 (ExtraTreeRegressor)

极端随机树回归器。

导出图 (export_graphviz)

以 DOT 格式导出决策树。

导出文本 (export_text)

构建显示决策树规则的文本报告。

绘制树 (plot_tree)

绘制决策树。

数据捆绑包 (Bunch)

将键作为属性公开的容器对象。

安全索引 ( _safe_indexing)

使用索引返回 X 的行、项目或列。

转换为浮点数组 (as_float_array)

将类数组转换为浮点数数组。

断言所有值都是有限的 (assert_all_finite)

如果 X 包含 NaN 或无穷大,则抛出 ValueError。

已弃用 (deprecated)

修饰器,用于将函数或类标记为已弃用。

估计器HTML表示 (estimator_html_repr)

构建估计器的 HTML 表示。

生成批次 (gen_batches)

生成器,用于创建包含 batch_size 个元素的切片,从 0 到 n

生成均匀切片 (gen_even_slices)

生成器,用于创建 n_packs 个均匀间隔的切片,直到 n

可索引 (indexable)

使数组可用于交叉验证的索引。

MurmurHash3_32 哈希函数 (murmurhash3_32)

计算密钥在 seed 上的 32 位 murmurhash3。

重采样 (resample)

以一致的方式重新采样数组或稀疏矩阵。

安全掩码 (safe_mask)

返回可在 X 上安全使用的掩码。

安全平方 (safe_sqr)

类数组和稀疏矩阵的逐元素平方。

洗牌 (shuffle)

以一致的方式洗牌数组或稀疏矩阵。

标签 (Tags)

估计器的标签。

输入标签 (InputTags)

输入数据的标签。

目标标签 (TargetTags)

目标数据的标签。

分类器标签 (ClassifierTags)

分类器的标签。

回归器标签 (RegressorTags)

回归器的标签。

变换器标签 (TransformerTags)

转换器的标签。

获取标签 (get_tags)

获取估计器标签。

检查X和y (check_X_y)

标准估计器的输入验证。

检查数组 (check_array)

对数组、列表、稀疏矩阵或类似对象的输入验证。

检查长度一致性 (check_consistent_length)

检查所有数组是否具有一致的第一维。

检查随机状态 (check_random_state)

将 seed 转换为 np.random.RandomState 实例。

检查标量 (check_scalar)

验证标量参数的类型和值。

检查是否已拟合 (check_is_fitted)

对估计器执行 is_fitted 验证。

检查内存 (check_memory)

检查 memory 是否类似于 joblib.Memory。

检查对称性 (check_symmetric)

确保数组是二维、正方形且对称的。

列或一维数组 (column_or_1d)

展平列或一维 numpy 数组,否则引发错误。

是否有拟合参数 (has_fit_parameter)

检查估计器的 fit 方法是否支持给定的参数。

验证数据 (validate_data)

验证输入数据并设置或检查输入的特征名称和计数。

可用条件 (available_if)

只有当检查返回真值时才可用的属性。

计算类别权重 (compute_class_weight)

为不平衡数据集估计类权重。

计算样本权重 (compute_sample_weight)

按类估计不平衡数据集的样本权重。

是否为多标签 (is_multilabel)

检查 y 是否为多标签格式。

目标类型 (type_of_target)

确定目标指示的数据类型。

唯一标签 (unique_labels)

提取有序的唯一标签数组。

密度 (density)

计算稀疏向量的密度。

快速对数行列式 (fast_logdet)

计算方阵行列式的对数。

随机范围查找 (randomized_range_finder)

计算正交矩阵,其范围近似于 A 的范围。

随机奇异值分解 (randomized_svd)

计算截断随机 SVD。

安全稀疏点积 (safe_sparse_dot)

正确处理稀疏矩阵情况的点积。

加权众数 (weighted_mode)

返回传递数组中加权众数(最常见值)的数组。

增量均值方差轴 (incr_mean_variance_axis)

沿 CSR 或 CSC 矩阵上的轴计算增量均值和方差。

就地列缩放 (inplace_column_scale)

对 CSC/CSR 矩阵进行就地列缩放。

就地CSR列缩放 (inplace_csr_column_scale)

对 CSR 矩阵进行就地列缩放。

就地行缩放 (inplace_row_scale)

对 CSR 或 CSC 矩阵进行就地行缩放。

就地交换列 (inplace_swap_column)

就地交换 CSC/CSR 矩阵的两列。

就地交换行 (inplace_swap_row)

就地交换 CSC/CSR 矩阵的两行。

均值方差轴 (mean_variance_axis)

沿 CSR 或 CSC 矩阵上的轴计算均值和方差。

就地CSR行L1归一化 (inplace_csr_row_normalize_l1)

通过其 L1 范数就地规范化 CSR 矩阵或数组的行。

就地CSR行L2归一化 (inplace_csr_row_normalize_l2)

通过其 L2 范数就地规范化 CSR 矩阵或数组的行。

单源最短路径长度 (single_source_shortest_path_length)

返回从源到所有可达节点的最短路径的长度。

不放回抽样 (sample_without_replacement)

无放回地采样整数。

最小正数 (min_pos)

查找数组在正值上的最小值。

元数据请求 (MetadataRequest)

包含消费者的元数据请求信息。

元数据路由器 (MetadataRouter)

存储和处理路由器对象的元数据路由。

方法映射 (MethodMapping)

存储路由器的调用者和被调用者方法之间的映射。

获取对象的路由 (get_routing_for_object)

从给定对象获取 Metadata{Router, Request} 实例。

处理路由 (process_routing)

验证和路由输入参数。

所有显示 (all_displays)

获取 sklearn 中所有显示的列表。

所有估计器 (all_estimators)

获取 sklearn 中所有估计器的列表。

所有函数 (all_functions)

获取 sklearn 中所有函数的列表。

检查估计器 (check_estimator)

检查估计器是否符合 scikit-learn 约定。

带检查的参数化 (parametrize_with_checks)

用于参数化估计器检查的 Pytest 特定装饰器。

估计器检查生成器 (estimator_checks_generator)

迭代地为估计器生成所有检查可调用对象。

并行 (Parallel)

joblib.Parallel 的改进版本,它会传播 scikit-learn 配置。

延迟执行 (delayed)

用于捕获函数参数的装饰器。

并行后端 (parallel_backend)

在 with 块内更改 Parallel 使用的默认后端。

注册并行后端 (register_parallel_backend)

注册新的 Parallel 后端工厂。