示例#

这是展示scikit-learn如何使用的示例画廊。一些示例演示了 API 的通用用法,另一些则以教程形式展示了特定应用。更多详细说明请查阅我们的 用户指南

发布亮点#

这些示例展示了scikit-learn各版本的主要功能。

scikit-learn 1.7 发布亮点

scikit-learn 1.7 发布亮点

scikit-learn 1.6 发布亮点

scikit-learn 1.6 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.3 发布亮点

scikit-learn 1.3 发布亮点

scikit-learn 1.2 发布亮点

scikit-learn 1.2 发布亮点

scikit-learn 1.1 发布亮点

scikit-learn 1.1 发布亮点

scikit-learn 1.0 发布亮点

scikit-learn 1.0 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.22 发布亮点

scikit-learn 0.22 发布亮点

双聚类#

关于双聚类技术的示例。

谱双聚类算法演示

谱双聚类算法演示

谱协同聚类算法演示

谱协同聚类算法演示

使用谱协同聚类算法进行文档双聚类

使用谱协同聚类算法进行文档双聚类

校准#

说明分类器预测概率校准的示例。

分类器校准比较

分类器校准比较

概率校准曲线

概率校准曲线

三分类问题的概率校准

三分类问题的概率校准

分类器的概率校准

分类器的概率校准

分类#

关于分类算法的通用示例。

分类器比较

分类器比较

带协方差椭球的线性判别分析和二次判别分析

带协方差椭球的线性判别分析和二次判别分析

用于分类的常规、Ledoit-Wolf和OAS线性判别分析

用于分类的常规、Ledoit-Wolf和OAS线性判别分析

绘制分类概率

绘制分类概率

手写数字识别

手写数字识别

聚类#

关于 sklearn.cluster 模块的示例。

手写数字数据集上的K-Means聚类演示

手写数字数据集上的K-Means聚类演示

硬币图像上的结构化Ward层次聚类演示

硬币图像上的结构化Ward层次聚类演示

均值漂移聚类算法演示

均值漂移聚类算法演示

聚类性能评估中的随机性调整

聚类性能评估中的随机性调整

带结构和不带结构的凝聚聚类

带结构和不带结构的凝聚聚类

不同度量下的凝聚聚类

不同度量下的凝聚聚类

K-Means++ 初始化示例

K-Means++ 初始化示例

二分K-Means与常规K-Means性能比较

二分K-Means与常规K-Means性能比较

BIRCH与MiniBatchKMeans比较

BIRCH与MiniBatchKMeans比较

在玩具数据集上比较不同聚类算法

在玩具数据集上比较不同聚类算法

在玩具数据集上比较不同层次链接方法

在玩具数据集上比较不同层次链接方法

K-Means与MiniBatchKMeans聚类算法比较

K-Means与MiniBatchKMeans聚类算法比较

DBSCAN聚类算法演示

DBSCAN聚类算法演示

HDBSCAN聚类算法演示

HDBSCAN聚类算法演示

OPTICS聚类算法演示

OPTICS聚类算法演示

亲和传播聚类算法演示

亲和传播聚类算法演示

k-means假设演示

k-means假设演示

k-means初始化影响的实证评估

k-means初始化影响的实证评估

特征凝聚

特征凝聚

特征凝聚与单变量选择的比较

特征凝聚与单变量选择的比较

层次聚类:结构化与非结构化Ward方法

层次聚类:结构化与非结构化Ward方法

归纳聚类

归纳聚类

人脸局部字典的在线学习

人脸局部字典的在线学习

绘制层次聚类树状图

绘制层次聚类树状图

将希腊硬币图像分割成区域

将希腊硬币图像分割成区域

使用KMeans聚类上的轮廓分析选择聚类数量

使用KMeans聚类上的轮廓分析选择聚类数量

用于图像分割的谱聚类

用于图像分割的谱聚类

数字2D嵌入上的各种凝聚聚类

数字2D嵌入上的各种凝聚聚类

矢量量化示例

矢量量化示例

协方差估计#

关于 sklearn.covariance 模块的示例。

Ledoit-Wolf与OAS估计比较

Ledoit-Wolf与OAS估计比较

鲁棒协方差估计和马哈拉诺比斯距离的相关性

鲁棒协方差估计和马哈拉诺比斯距离的相关性

鲁棒与经验协方差估计

鲁棒与经验协方差估计

收缩协方差估计:LedoitWolf与OAS及最大似然比较

收缩协方差估计:LedoitWolf与OAS及最大似然比较

稀疏逆协方差估计

稀疏逆协方差估计

交叉分解#

关于 sklearn.cross_decomposition 模块的示例。

比较交叉分解方法

比较交叉分解方法

主成分回归与偏最小二乘回归比较

主成分回归与偏最小二乘回归比较

数据集示例#

关于 sklearn.datasets 模块的示例。

绘制随机生成的多标签数据集

绘制随机生成的多标签数据集

决策树#

关于 sklearn.tree 模块的示例。

决策树回归

决策树回归

绘制在鸢尾花数据集上训练的决策树决策面

绘制在鸢尾花数据集上训练的决策树决策面

使用代价复杂度剪枝对决策树进行后剪枝

使用代价复杂度剪枝对决策树进行后剪枝

理解决策树结构

理解决策树结构

分解#

关于 sklearn.decomposition 模块的示例。

使用FastICA进行盲源分离

使用FastICA进行盲源分离

鸢尾花数据集的LDA和PCA 2D投影比较

鸢尾花数据集的LDA和PCA 2D投影比较

人脸数据集分解

人脸数据集分解

因子分析(带旋转)以可视化模式

因子分析(带旋转)以可视化模式

2D点云上的FastICA

2D点云上的FastICA

使用字典学习进行图像去噪

使用字典学习进行图像去噪

增量PCA

增量PCA

核PCA

核PCA

使用概率PCA和因子分析(FA)进行模型选择

使用概率PCA和因子分析(FA)进行模型选择

鸢尾花数据集上的主成分分析(PCA)

鸢尾花数据集上的主成分分析(PCA)

使用预计算字典进行稀疏编码

使用预计算字典进行稀疏编码

开发估计器#

关于自定义估计器开发的示例。

__sklearn_is_fitted__ 作为开发者API

__sklearn_is_fitted__ 作为开发者API

集成方法#

关于 sklearn.ensemble 模块的示例。

梯度提升中的类别特征支持

梯度提升中的类别特征支持

使用堆叠组合预测器

使用堆叠组合预测器

比较随机森林和直方图梯度提升模型

比较随机森林和直方图梯度提升模型

比较随机森林和多输出元估计器

比较随机森林和多输出元估计器

使用AdaBoost的决策树回归

使用AdaBoost的决策树回归

梯度提升中的早期停止

梯度提升中的早期停止

树林中的特征重要性

树林中的特征重要性

使用树集成进行特征转换

使用树集成进行特征转换

直方图梯度提升树中的特征

直方图梯度提升树中的特征

梯度提升袋外估计

梯度提升袋外估计

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

使用完全随机树进行哈希特征转换

使用完全随机树进行哈希特征转换

IsolationForest 示例

IsolationForest 示例

单调约束

单调约束

多类AdaBoost决策树

多类AdaBoost决策树

随机森林的OOB误差

随机森林的OOB误差

绘制个体和投票回归预测

绘制个体和投票回归预测

绘制鸢尾花数据集上树集成的决策面

绘制鸢尾花数据集上树集成的决策面

梯度提升回归的预测区间

梯度提升回归的预测区间

单一估计器与 bagging:偏差-方差分解

单一估计器与 bagging:偏差-方差分解

二类AdaBoost

二类AdaBoost

可视化 VotingClassifier 的概率预测

可视化 VotingClassifier 的概率预测

基于真实世界数据集的示例#

真实世界问题的应用,包含一些中等规模数据集或交互式用户界面。

压缩感知:带L1先验(Lasso)的断层扫描重建

压缩感知:带L1先验(Lasso)的断层扫描重建

使用特征脸和SVM进行人脸识别示例

使用特征脸和SVM进行人脸识别示例

使用核PCA进行图像去噪

使用核PCA进行图像去噪

时间序列预测的滞后特征

时间序列预测的滞后特征

模型复杂度影响

模型复杂度影响

文本文档的核外分类

文本文档的核外分类

真实数据集上的异常值检测

真实数据集上的异常值检测

预测延迟

预测延迟

物种分布建模

物种分布建模

时间相关特征工程

时间相关特征工程

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

可视化股票市场结构

可视化股票市场结构

维基百科主特征向量

维基百科主特征向量

特征选择#

关于 sklearn.feature_selection 模块的示例。

F检验与互信息比较

F检验与互信息比较

基于模型和序贯特征选择

基于模型和序贯特征选择

管道ANOVA SVM

管道ANOVA SVM

递归特征消除

递归特征消除

带交叉验证的递归特征消除

带交叉验证的递归特征消除

单变量特征选择

单变量特征选择

冻结估计器#

关于 sklearn.frozen 模块的示例。

使用FrozenEstimator的示例

使用FrozenEstimator的示例

高斯混合模型#

关于 sklearn.mixture 模块的示例。

变分贝叶斯高斯混合的集中先验类型分析

变分贝叶斯高斯混合的集中先验类型分析

高斯混合的密度估计

高斯混合的密度估计

GMM初始化方法

GMM初始化方法

GMM协方差

GMM协方差

高斯混合模型椭球

高斯混合模型椭球

高斯混合模型选择

高斯混合模型选择

高斯混合模型正弦曲线

高斯混合模型正弦曲线

机器学习中的高斯过程#

关于 sklearn.gaussian_process 模块的示例。

高斯过程回归(GPR)估计数据噪声水平的能力

高斯过程回归(GPR)估计数据噪声水平的能力

核岭回归与高斯过程回归比较

核岭回归与高斯过程回归比较

使用高斯过程回归(GPR)预测Mona Loa数据集上的CO2水平

使用高斯过程回归(GPR)预测Mona Loa数据集上的CO2水平

高斯过程回归:基本入门示例

高斯过程回归:基本入门示例

鸢尾花数据集上的高斯过程分类(GPC)

鸢尾花数据集上的高斯过程分类(GPC)

离散数据结构上的高斯过程

离散数据结构上的高斯过程

XOR数据集上的高斯过程分类(GPC)演示

XOR数据集上的高斯过程分类(GPC)演示

不同核的先验和后验高斯过程演示

不同核的先验和后验高斯过程演示

高斯过程分类(GPC)的等概率线

高斯过程分类(GPC)的等概率线

高斯过程分类(GPC)的概率预测

高斯过程分类(GPC)的概率预测

广义线性模型#

关于 sklearn.linear_model 模块的示例。

比较线性贝叶斯回归器

比较线性贝叶斯回归器

使用贝叶斯岭回归进行曲线拟合

使用贝叶斯岭回归进行曲线拟合

多项式和一对多逻辑回归的决策边界

多项式和一对多逻辑回归的决策边界

随机梯度下降的早期停止

随机梯度下降的早期停止

使用预计算的Gram矩阵和加权样本拟合弹性网络

使用预计算的Gram矩阵和加权样本拟合弹性网络

在具有强异常值的数据集上比较HuberRegressor与Ridge

在具有强异常值的数据集上比较HuberRegressor与Ridge

使用多任务Lasso进行联合特征选择

使用多任务Lasso进行联合特征选择

逻辑回归中的L1惩罚和稀疏性

逻辑回归中的L1惩罚和稀疏性

用于稀疏信号的L1模型

用于稀疏信号的L1模型

通过信息准则选择Lasso模型

通过信息准则选择Lasso模型

Lasso模型选择:AIC-BIC / 交叉验证

Lasso模型选择:AIC-BIC / 交叉验证

密集和稀疏数据上的Lasso

密集和稀疏数据上的Lasso

Lasso、Lasso-LARS和弹性网络路径

Lasso、Lasso-LARS和弹性网络路径

逻辑函数

逻辑函数

使用多项式逻辑回归 + L1进行MNIST分类

使用多项式逻辑回归 + L1进行MNIST分类

20newsgroup数据集上的多类稀疏逻辑回归

20newsgroup数据集上的多类稀疏逻辑回归

非负最小二乘

非负最小二乘

一类SVM与使用随机梯度下降的一类SVM比较

一类SVM与使用随机梯度下降的一类SVM比较

普通最小二乘和岭回归

普通最小二乘和岭回归

正交匹配追踪

正交匹配追踪

绘制岭系数作为正则化的函数

绘制岭系数作为正则化的函数

在鸢尾花数据集上绘制多类SGD

在鸢尾花数据集上绘制多类SGD

泊松回归和非正态损失

泊松回归和非正态损失

多项式和样条插值

多项式和样条插值

分位数回归

分位数回归

L1逻辑回归的正则化路径

L1逻辑回归的正则化路径

岭系数作为L2正则化的函数

岭系数作为L2正则化的函数

鲁棒线性估计器拟合

鲁棒线性估计器拟合

使用RANSAC的鲁棒线性模型估计

使用RANSAC的鲁棒线性模型估计

SGD:最大间隔分离超平面

SGD:最大间隔分离超平面

SGD:惩罚项

SGD:惩罚项

SGD:加权样本

SGD:加权样本

SGD:凸损失函数

SGD:凸损失函数

Theil-Sen 回归

Theil-Sen 回归

保险索赔上的Tweedie回归

保险索赔上的Tweedie回归

检查#

sklearn.inspection 模块相关的示例。

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

机器学习无法推断因果效应

机器学习无法推断因果效应

部分依赖和个体条件期望图

部分依赖和个体条件期望图

排列重要性与随机森林特征重要性(MDI)比较

排列重要性与随机森林特征重要性(MDI)比较

多重共线性或相关特征的排列重要性

多重共线性或相关特征的排列重要性

核近似#

关于 sklearn.kernel_approximation 模块的示例。

使用多项式核近似的可扩展学习

使用多项式核近似的可扩展学习

流形学习#

关于 sklearn.manifold 模块的示例。

流形学习方法比较

流形学习方法比较

截断球体上的流形学习方法

截断球体上的流形学习方法

手写数字上的流形学习:局部线性嵌入、Isomap…

手写数字上的流形学习:局部线性嵌入、Isomap...

多维尺度变换

多维尺度变换

瑞士卷和瑞士孔降维

瑞士卷和瑞士孔降维

t-SNE:不同困惑度值对形状的影响

t-SNE:不同困惑度值对形状的影响

杂项#

scikit-learn的杂项和入门示例。

使用部分依赖进行高级绘图

使用部分依赖进行高级绘图

在玩具数据集上比较用于异常值检测的异常检测算法

在玩具数据集上比较用于异常值检测的异常检测算法

核岭回归和SVR的比较

核岭回归和SVR的比较

显示管道

显示管道

显示估计器和复杂管道

显示估计器和复杂管道

异常值检测估计器的评估

异常值检测估计器的评估

RBF核的显式特征映射近似

RBF核的显式特征映射近似

使用多输出估计器进行人脸补全

使用多输出估计器进行人脸补全

介绍 set_output API

介绍 set_output API

等渗回归

等渗回归

元数据路由

元数据路由

多标签分类

多标签分类

带可视化API的ROC曲线

带可视化API的ROC曲线

使用随机投影嵌入的Johnson-Lindenstrauss界

使用随机投影嵌入的Johnson-Lindenstrauss界

使用显示对象的可是化

使用显示对象的可是化

缺失值插补#

关于 sklearn.impute 模块的示例。

在构建估计器之前插补缺失值

在构建估计器之前插补缺失值

使用IterativeImputer变体插补缺失值

使用IterativeImputer变体插补缺失值

模型选择#

sklearn.model_selection 模块相关的示例。

平衡模型复杂度和交叉验证分数

平衡模型复杂度和交叉验证分数

用类似然比衡量分类性能

用类似然比衡量分类性能

比较随机搜索和网格搜索进行超参数估计

比较随机搜索和网格搜索进行超参数估计

网格搜索和逐次减半的比较

网格搜索和逐次减半的比较

混淆矩阵

混淆矩阵

带交叉验证的网格搜索的自定义重新拟合策略

带交叉验证的网格搜索的自定义重新拟合策略

cross_val_score和GridSearchCV上的多指标评估演示

cross_val_score和GridSearchCV上的多指标评估演示

检测错误权衡(DET)曲线

检测错误权衡(DET)曲线

模型正则化对训练和测试误差的影响

模型正则化对训练和测试误差的影响

多类接收者操作特征(ROC)

多类接收者操作特征(ROC)

嵌套与非嵌套交叉验证

嵌套与非嵌套交叉验证

绘制交叉验证预测

绘制交叉验证预测

绘制学习曲线和检查模型可伸缩性

绘制学习曲线和检查模型可伸缩性

决策函数截止点的后验调整

决策函数截止点的后验调整

成本敏感学习的决策阈值后调

成本敏感学习的决策阈值后调

精确率-召回率

精确率-召回率

带交叉验证的接收者操作特征(ROC)

带交叉验证的接收者操作特征(ROC)

文本特征提取和评估的示例管道

文本特征提取和评估的示例管道

使用网格搜索进行模型的统计比较

使用网格搜索进行模型的统计比较

逐次减半迭代

逐次减半迭代

使用排列测试分类分数的显著性

使用排列测试分类分数的显著性

欠拟合与过拟合

欠拟合与过拟合

可视化scikit-learn中的交叉验证行为

可视化scikit-learn中的交叉验证行为

多类方法#

关于 sklearn.multiclass 模块的示例。

多类训练元估计器概述

多类训练元估计器概述

多输出方法#

关于 sklearn.multioutput 模块的示例。

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻#

关于 sklearn.neighbors 模块的示例。

TSNE中的近似最近邻

TSNE中的近似最近邻

缓存最近邻

缓存最近邻

比较带和不带邻域成分分析的最近邻

比较带和不带邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

物种分布的核密度估计

物种分布的核密度估计

核密度估计

核密度估计

最近质心分类

最近质心分类

最近邻分类

最近邻分类

最近邻回归

最近邻回归

邻域成分分析示例

邻域成分分析示例

使用局部异常因子(LOF)进行新颖性检测

使用局部异常因子(LOF)进行新颖性检测

使用局部异常因子(LOF)进行异常值检测

使用局部异常因子(LOF)进行异常值检测

简单一维核密度估计

简单一维核密度估计

神经网络#

关于 sklearn.neural_network 模块的示例。

比较MLPClassifier的随机学习策略

比较MLPClassifier的随机学习策略

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

多层感知器中变化的正则化

多层感知器中变化的正则化

MNIST上MLP权重的可视化

MNIST上MLP权重的可视化

管道和复合估计器#

如何从其他估计器组合转换器和管道的示例。请参阅用户指南

带异构数据源的列转换器

带异构数据源的列转换器

带混合类型的列转换器

带混合类型的列转换器

连接多个特征提取方法

连接多个特征提取方法

回归模型中目标转换的影响

回归模型中目标转换的影响

管道化:链接PCA和逻辑回归

管道化:链接PCA和逻辑回归

使用Pipeline和GridSearchCV选择降维

使用Pipeline和GridSearchCV选择降维

预处理#

关于 sklearn.preprocessing 模块的示例。

比较不同缩放器对带异常值数据的影响

比较不同缩放器对带异常值数据的影响

比较目标编码器与其他编码器

比较目标编码器与其他编码器

KBinsDiscretizer的不同策略演示

KBinsDiscretizer的不同策略演示

特征离散化

特征离散化

特征缩放的重要性

特征缩放的重要性

将数据映射到正态分布

将数据映射到正态分布

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

使用KBinsDiscretizer离散化连续特征

使用KBinsDiscretizer离散化连续特征

半监督分类#

关于 sklearn.semi_supervised 模块的示例。

鸢尾花数据集上半监督分类器与SVM的决策边界

鸢尾花数据集上半监督分类器与SVM的决策边界

自训练中变化阈值的影响

自训练中变化阈值的影响

标签传播圆:学习复杂结构

标签传播圆:学习复杂结构

标签传播数字:主动学习

标签传播数字:主动学习

标签传播数字:性能演示

标签传播数字:性能演示

文本数据集上的半监督分类

文本数据集上的半监督分类

支持向量机#

关于 sklearn.svm 模块的示例。

带非线性核(RBF)的一类SVM

带非线性核(RBF)的一类SVM

绘制不同SVM核的分类边界

绘制不同SVM核的分类边界

在鸢尾花数据集上绘制不同SVM分类器

在鸢尾花数据集上绘制不同SVM分类器

在LinearSVC中绘制支持向量

在LinearSVC中绘制支持向量

RBF SVM参数

RBF SVM参数

SVM间隔示例

SVM间隔示例

SVM平局处理示例

SVM平局处理示例

带自定义核的SVM

带自定义核的SVM

SVM-Anova:带单变量特征选择的SVM

SVM-Anova:带单变量特征选择的SVM

SVM:最大间隔分离超平面

SVM:最大间隔分离超平面

SVM:非平衡类的分离超平面

SVM:非平衡类的分离超平面

SVM:加权样本

SVM:加权样本

SVC的正则化参数缩放

SVC的正则化参数缩放

使用线性和非线性核的支持向量回归(SVR)

使用线性和非线性核的支持向量回归(SVR)

处理文本文档#

关于 sklearn.feature_extraction.text 模块的示例。

使用稀疏特征进行文本文档分类

使用稀疏特征进行文本文档分类

使用k-means对文本文档进行聚类

使用k-means对文本文档进行聚类

FeatureHasher和DictVectorizer比较

FeatureHasher和DictVectorizer比较

画廊由 Sphinx-Gallery 生成