示例#

这是一个示例画廊,展示了如何使用 scikit-learn。有些示例演示了 API 的一般用法,有些则以教程形式演示了具体的应用。另请查阅我们的 用户指南 以获取更详细的说明。

版本亮点#

这些示例说明了 scikit-learn 版本的核心功能。

scikit-learn 1.8 发布亮点

scikit-learn 1.8 发布亮点

scikit-learn 1.7 发布亮点

scikit-learn 1.7 发布亮点

scikit-learn 1.6 发布亮点

scikit-learn 1.6 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.5 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.4 发布亮点

scikit-learn 1.3 发布亮点

scikit-learn 1.3 发布亮点

scikit-learn 1.2 发布亮点

scikit-learn 1.2 发布亮点

scikit-learn 1.1 发布亮点

scikit-learn 1.1 发布亮点

scikit-learn 1.0 发布亮点

scikit-learn 1.0 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.24 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.23 发布亮点

scikit-learn 0.22 发布亮点

scikit-learn 0.22 发布亮点

双聚类#

关于双聚类技术的示例。

谱双聚类算法演示

谱双聚类算法演示

谱协同聚类算法演示

谱协同聚类算法演示

使用谱协同聚类算法对文档进行双聚类

使用谱协同聚类算法对文档进行双聚类

校准#

说明分类器预测概率校准的示例。

分类器校准比较

分类器校准比较

概率校准曲线

概率校准曲线

3分类问题的概率校准

3分类问题的概率校准

分类器的概率校准

分类器的概率校准

分类#

关于分类算法的一般示例。

分类器比较

分类器比较

具有协方差椭球的线性和二次判别分析

具有协方差椭球的线性和二次判别分析

用于分类的Normal、Ledoit-Wolf 和 OAS 线性判别分析

用于分类的Normal、Ledoit-Wolf 和 OAS 线性判别分析

绘制分类概率

绘制分类概率

识别手写数字

识别手写数字

聚类#

关于 sklearn.cluster 模块的示例。

在手写数字数据上演示 K-Means 聚类

在手写数字数据上演示 K-Means 聚类

对硬币图像进行结构化 Ward 分层聚类演示

对硬币图像进行结构化 Ward 分层聚类演示

均值漂移聚类算法演示

均值漂移聚类算法演示

聚类性能评估中的机会调整

聚类性能评估中的机会调整

使用不同度量的 Agglomerative 聚类

使用不同度量的 Agglomerative 聚类

K-Means++ 初始化示例

K-Means++ 初始化示例

二分 K-Means 和常规 K-Means 性能比较

二分 K-Means 和常规 K-Means 性能比较

比较 BIRCH 和 MiniBatchKMeans

比较 BIRCH 和 MiniBatchKMeans

在玩具数据集上比较不同的聚类算法

在玩具数据集上比较不同的聚类算法

在玩具数据集上比较不同的分层链接方法

在玩具数据集上比较不同的分层链接方法

K-Means 和 MiniBatchKMeans 聚类算法比较

K-Means 和 MiniBatchKMeans 聚类算法比较

DBSCAN 聚类算法演示

DBSCAN 聚类算法演示

HDBSCAN 聚类算法演示

HDBSCAN 聚类算法演示

OPTICS 聚类算法演示

OPTICS 聚类算法演示

D affinity propagation 聚类算法演示

D affinity propagation 聚类算法演示

k-means 假设演示

k-means 假设演示

k-means 初始化影响的经验评估

k-means 初始化影响的经验评估

特征聚合

特征聚合

特征聚合 vs. 单变量选择

特征聚合 vs. 单变量选择

有结构和无结构的分层聚类

有结构和无结构的分层聚类

归纳聚类

归纳聚类

人脸部分字典的在线学习

人脸部分字典的在线学习

绘制分层聚类树状图

绘制分层聚类树状图

将希腊硬币图片分割成区域

将希腊硬币图片分割成区域

使用 KMeans 聚类的轮廓分析选择簇的数量

使用 KMeans 聚类的轮廓分析选择簇的数量

用于图像分割的谱聚类

用于图像分割的谱聚类

在数字的 2D 嵌入上进行各种 Agglomerative 聚类

在数字的 2D 嵌入上进行各种 Agglomerative 聚类

向量量化示例

向量量化示例

协方差估计#

关于 sklearn.covariance 模块的示例。

Ledoit-Wolf vs OAS 估计

Ledoit-Wolf vs OAS 估计

鲁棒协方差估计和马哈拉诺比斯距离相关性

鲁棒协方差估计和马哈拉诺比斯距离相关性

鲁棒 vs 经验协方差估计

鲁棒 vs 经验协方差估计

收缩协方差估计:LedoitWolf vs OAS 和最大似然

收缩协方差估计:LedoitWolf vs OAS 和最大似然

稀疏逆协方差估计

稀疏逆协方差估计

交叉分解#

关于 sklearn.cross_decomposition 模块的示例。

比较交叉分解方法

比较交叉分解方法

主成分回归 vs 偏最小二乘回归

主成分回归 vs 偏最小二乘回归

数据集示例#

关于 sklearn.datasets 模块的示例。

绘制随机生成的多标签数据集

绘制随机生成的多标签数据集

决策树#

关于 sklearn.tree 模块的示例。

决策树回归

决策树回归

绘制在 iris 数据集上训练的决策树的决策边界

绘制在 iris 数据集上训练的决策树的决策边界

使用成本复杂度剪枝对决策树进行后剪枝

使用成本复杂度剪枝对决策树进行后剪枝

理解决策树结构

理解决策树结构

分解#

关于 sklearn.decomposition 模块的示例。

使用 FastICA 进行盲源分离

使用 FastICA 进行盲源分离

Iris 数据集 LDA 和 PCA 2D 投影比较

Iris 数据集 LDA 和 PCA 2D 投影比较

人脸数据集分解

人脸数据集分解

因子分析(带旋转)以可视化模式

因子分析(带旋转)以可视化模式

FastICA 在 2D 点云上的应用

FastICA 在 2D 点云上的应用

使用字典学习进行图像去噪

使用字典学习进行图像去噪

增量 PCA

增量 PCA

核 PCA

核 PCA

使用概率 PCA 和因子分析(FA)进行模型选择

使用概率 PCA 和因子分析(FA)进行模型选择

Iris 数据集上的主成分分析(PCA)

Iris 数据集上的主成分分析(PCA)

使用预计算字典进行稀疏编码

使用预计算字典进行稀疏编码

开发估计器#

关于开发自定义估计器的示例。

__sklearn_is_fitted__ 作为开发者 API

__sklearn_is_fitted__ 作为开发者 API

集成方法#

关于 sklearn.ensemble 模块的示例。

梯度提升中的分类特征支持

梯度提升中的分类特征支持

使用堆叠组合预测器

使用堆叠组合预测器

比较随机森林和直方图梯度提升模型

比较随机森林和直方图梯度提升模型

比较随机森林和多输出元估计器

比较随机森林和多输出元估计器

带 AdaBoost 的决策树回归

带 AdaBoost 的决策树回归

梯度提升中的早停

梯度提升中的早停

使用森林中的树进行特征重要性分析

使用森林中的树进行特征重要性分析

使用树集成进行特征转换

使用树集成进行特征转换

直方图梯度提升树中的特征

直方图梯度提升树中的特征

梯度提升袋外估计

梯度提升袋外估计

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

使用全随机树进行哈希特征转换

使用全随机树进行哈希特征转换

IsolationForest 示例

IsolationForest 示例

单调约束

单调约束

多类 AdaBoosted 决策树

多类 AdaBoosted 决策树

随机森林的 OOB 误差

随机森林的 OOB 误差

绘制个体和投票回归预测

绘制个体和投票回归预测

绘制在 iris 数据集上训练的树集成的决策边界

绘制在 iris 数据集上训练的树集成的决策边界

梯度提升回归的预测区间

梯度提升回归的预测区间

单个估计器 vs 装袋:偏差-方差分解

单个估计器 vs 装袋:偏差-方差分解

两类 AdaBoost

两类 AdaBoost

可视化 VotingClassifier 的概率预测

可视化 VotingClassifier 的概率预测

基于真实世界数据集的示例#

应用于真实世界问题的应用程序,使用一些中型数据集或交互式用户界面。

压缩感知:使用 L1 先验(Lasso)进行断层扫描重建

压缩感知:使用 L1 先验(Lasso)进行断层扫描重建

使用 eigenfaces 和 SVM 进行人脸识别示例

使用 eigenfaces 和 SVM 进行人脸识别示例

使用核 PCA 进行图像去噪

使用核 PCA 进行图像去噪

时间序列预测中的滞后特征

时间序列预测中的滞后特征

模型复杂度影响

模型复杂度影响

文本文档的核外分类

文本文档的核外分类

真实数据集上的离群点检测

真实数据集上的离群点检测

预测延迟

预测延迟

物种分布建模

物种分布建模

时间相关特征工程

时间相关特征工程

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

可视化股票市场结构

可视化股票市场结构

维基百科主特征向量

维基百科主特征向量

特征选择#

关于 sklearn.feature_selection 模块的示例。

F 检验和互信息比较

F 检验和互信息比较

基于模型和顺序特征选择

基于模型和顺序特征选择

管道 ANOVA SVM

管道 ANOVA SVM

递归特征消除

递归特征消除

带交叉验证的递归特征消除

带交叉验证的递归特征消除

单变量特征选择

单变量特征选择

冻结估计器#

关于 sklearn.frozen 模块的示例。

使用 FrozenEstimator 的示例

使用 FrozenEstimator 的示例

高斯混合模型#

关于 sklearn.mixture 模块的示例。

变分贝叶斯高斯混合的浓度先验类型分析

变分贝叶斯高斯混合的浓度先验类型分析

高斯混合的密度估计

高斯混合的密度估计

GMM 初始化方法

GMM 初始化方法

GMM 协方差

GMM 协方差

高斯混合模型椭球体

高斯混合模型椭球体

高斯混合模型选择

高斯混合模型选择

高斯混合模型正弦曲线

高斯混合模型正弦曲线

机器学习中的高斯过程#

关于 sklearn.gaussian_process 模块的示例。

高斯过程回归(GPR)估计数据噪声水平的能力

高斯过程回归(GPR)估计数据噪声水平的能力

核岭回归和高斯过程回归比较

核岭回归和高斯过程回归比较

使用高斯过程回归(GPR)预测 Mona Loa 数据集上的 CO2 水平

使用高斯过程回归(GPR)预测 Mona Loa 数据集上的 CO2 水平

高斯过程回归:基本入门示例

高斯过程回归:基本入门示例

iris 数据集上的高斯过程分类(GPC)

iris 数据集上的高斯过程分类(GPC)

离散数据结构上的高斯过程

离散数据结构上的高斯过程

XOR 数据集上的高斯过程分类(GPC)演示

XOR 数据集上的高斯过程分类(GPC)演示

不同核的先验和后验高斯过程图示

不同核的先验和后验高斯过程图示

高斯过程分类(GPC)的等概率线

高斯过程分类(GPC)的等概率线

使用高斯过程分类(GPC)进行概率预测

使用高斯过程分类(GPC)进行概率预测

广义线性模型#

关于 sklearn.linear_model 模块的示例。

比较线性贝叶斯回归器

比较线性贝叶斯回归器

使用贝叶斯岭回归进行曲线拟合

使用贝叶斯岭回归进行曲线拟合

多项式和一对多逻辑回归的决策边界

多项式和一对多逻辑回归的决策边界

随机梯度下降的早停

随机梯度下降的早停

使用预计算 Gram 矩阵和加权样本拟合 Elastic Net

使用预计算 Gram 矩阵和加权样本拟合 Elastic Net

HuberRegressor vs Ridge 在具有强离群点的数据集上的比较

HuberRegressor vs Ridge 在具有强离群点的数据集上的比较

使用多任务 Lasso 进行联合特征选择

使用多任务 Lasso 进行联合特征选择

逻辑回归中的 L1 惩罚和稀疏性

逻辑回归中的 L1 惩罚和稀疏性

用于稀疏信号的 L1 模型

用于稀疏信号的 L1 模型

通过信息准则进行 Lasso 模型选择

通过信息准则进行 Lasso 模型选择

Lasso 模型选择:AIC-BIC / 交叉验证

Lasso 模型选择:AIC-BIC / 交叉验证

Lasso 在密集和稀疏数据上的应用

Lasso 在密集和稀疏数据上的应用

Lasso、Lasso-LARS 和 Elastic Net 路径

Lasso、Lasso-LARS 和 Elastic Net 路径

使用多项式逻辑 + L1 进行 MNIST 分类

使用多项式逻辑 + L1 进行 MNIST 分类

在 20newgroups 上进行多类稀疏逻辑回归

在 20newgroups 上进行多类稀疏逻辑回归

非负最小二乘法

非负最小二乘法

One-Class SVM vs 使用随机梯度下降的 One-Class SVM

One-Class SVM vs 使用随机梯度下降的 One-Class SVM

普通最小二乘法和岭回归

普通最小二乘法和岭回归

正交匹配追踪

正交匹配追踪

绘制岭系数作为正则化函数的函数

绘制岭系数作为正则化函数的函数

绘制 iris 数据集上的多类 SGD

绘制 iris 数据集上的多类 SGD

泊松回归和非正态损失

泊松回归和非正态损失

多项式和样条插值

多项式和样条插值

分位数回归

分位数回归

L1 逻辑回归的正则化路径

L1 逻辑回归的正则化路径

岭系数作为 L2 正则化的函数

岭系数作为 L2 正则化的函数

鲁棒线性估计器拟合

鲁棒线性估计器拟合

使用 RANSAC 进行鲁棒线性模型估计

使用 RANSAC 进行鲁棒线性模型估计

SGD:最大间隔分离超平面

SGD:最大间隔分离超平面

SGD:惩罚

SGD:惩罚

SGD:加权样本

SGD:加权样本

SGD:凸损失函数

SGD:凸损失函数

Theil-Sen 回归

Theil-Sen 回归

保险索赔上的 Tweedie 回归

保险索赔上的 Tweedie 回归

检查#

sklearn.inspection 模块相关的示例。

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

机器学习无法推断因果效应

机器学习无法推断因果效应

部分依赖和个体条件期望图

部分依赖和个体条件期望图

排列重要性 vs 随机森林特征重要性(MDI)

排列重要性 vs 随机森林特征重要性(MDI)

具有多重共线或相关特征的排列重要性

具有多重共线或相关特征的排列重要性

核近似#

关于 sklearn.kernel_approximation 模块的示例。

使用多项式核近似进行可扩展学习

使用多项式核近似进行可扩展学习

流形学习#

关于 sklearn.manifold 模块的示例。

流形学习方法比较

流形学习方法比较

被切断球体上的流形学习方法

被切断球体上的流形学习方法

手写数字上的流形学习:局部线性嵌入、Isomap…

手写数字流形学习:局部线性嵌入、Isomap...

多维尺度分析

多维尺度分析

瑞士卷和瑞士孔还原

瑞士卷和瑞士孔还原

t-SNE:不同困惑度值对形状的影响

t-SNE:不同困惑度值对形状的影响

杂项#

scikit-learn 的杂项和介绍性示例。

使用部分依赖进行高级绘图

使用部分依赖进行高级绘图

在玩具数据集上比较用于离群点检测的异常检测算法

在玩具数据集上比较用于离群点检测的异常检测算法

核岭回归和 SVR 比较

核岭回归和 SVR 比较

显示管道

显示管道

显示估计器和复杂管道

显示估计器和复杂管道

离群点检测估计器的评估

离群点检测估计器的评估

RBF 核的显式特征图近似

RBF 核的显式特征图近似

使用多输出估计器进行人脸补全

使用多输出估计器进行人脸补全

介绍 set_output API

介绍 set_output API

保序回归

保序回归

元数据路由

元数据路由

多标签分类

多标签分类

使用可视化 API 的 ROC 曲线

使用可视化 API 的 ROC 曲线

具有随机投影嵌入的 Johnson-Lindenstrauss 界限

具有随机投影嵌入的 Johnson-Lindenstrauss 界限

使用显示对象进行可视化

使用显示对象进行可视化

缺失值插补#

关于 sklearn.impute 模块的示例。

在构建估计器之前插补缺失值

在构建估计器之前插补缺失值

使用 IterativeImputer 变体插补缺失值

使用 IterativeImputer 变体插补缺失值

模型选择#

sklearn.model_selection 模块相关的示例。

平衡模型复杂度和交叉验证得分

平衡模型复杂度和交叉验证得分

使用类别似然比衡量分类性能

使用类别似然比衡量分类性能

比较用于超参数估计的随机搜索和网格搜索

比较用于超参数估计的随机搜索和网格搜索

网格搜索和连续减半比较

网格搜索和连续减半比较

带有交叉验证的网格搜索的自定义重新拟合策略

带有交叉验证的网格搜索的自定义重新拟合策略

演示在 cross_val_score 和 GridSearchCV 上的多指标评估

演示在 cross_val_score 和 GridSearchCV 上的多指标评估

检测错误权衡(DET)曲线

检测错误权衡(DET)曲线

模型正则化对训练和测试误差的影响

模型正则化对训练和测试误差的影响

使用混淆矩阵评估分类器性能

使用混淆矩阵评估分类器性能

多类接收者操作特征(ROC)

多类接收者操作特征(ROC)

嵌套 vs 非嵌套交叉验证

嵌套 vs 非嵌套交叉验证

绘制交叉验证预测

绘制交叉验证预测

绘制学习曲线并检查模型的可扩展性

绘制学习曲线并检查模型的可扩展性

后验调整决策函数的截止点

后验调整决策函数的截止点

后验调整成本敏感学习的决策阈值

后验调整成本敏感学习的决策阈值

精确率-召回率

精确率-召回率

带交叉验证的接收者操作特征(ROC)

带交叉验证的接收者操作特征(ROC)

文本特征提取和评估的示例管道

文本特征提取和评估的示例管道

使用网格搜索进行模型的统计比较

使用网格搜索进行模型的统计比较

连续减半迭代

连续减半迭代

通过排列测试分类得分的显著性

通过排列测试分类得分的显著性

欠拟合 vs 过拟合

欠拟合 vs 过拟合

可视化 scikit-learn 中的交叉验证行为

可视化 scikit-learn 中的交叉验证行为

多类别方法#

关于 sklearn.multiclass 模块的示例。

多类训练元估计器概述

多类训练元估计器概述

多输出方法#

关于 sklearn.multioutput 模块的示例。

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻#

关于 sklearn.neighbors 模块的示例。

TSNE 中的近似最近邻

TSNE 中的近似最近邻

缓存最近邻

缓存最近邻

比较带和不带邻域成分分析的最近邻

比较带和不带邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

物种分布的核密度估计

物种分布的核密度估计

核密度估计

核密度估计

最近质心分类

最近质心分类

最近邻分类

最近邻分类

最近邻回归

最近邻回归

邻域成分分析图示

邻域成分分析图示

使用局部离群点因子(LOF)进行新奇检测

使用局部离群点因子(LOF)进行新奇检测

使用局部离群点因子(LOF)进行离群点检测

使用局部离群点因子(LOF)进行离群点检测

简单 1D 核密度估计

简单 1D 核密度估计

神经网络#

关于 sklearn.neural_network 模块的示例。

比较 MLPClassifier 的随机学习策略

比较 MLPClassifier 的随机学习策略

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

多层感知器中的不同正则化

多层感知器中的不同正则化

MNIST 上的 MLP 权重可视化

MNIST 上的 MLP 权重可视化

管道和复合估计器#

关于如何将转换器和管道与其他估计器组合的示例。请参阅 用户指南

具有异构数据源的列转换器

具有异构数据源的列转换器

具有混合类型的列转换器

具有混合类型的列转换器

连接多个特征提取方法

连接多个特征提取方法

在回归模型中转换目标变量的效果

在回归模型中转换目标变量的效果

管道化:链式 PCA 和逻辑回归

管道化:链式 PCA 和逻辑回归

使用 Pipeline 和 GridSearchCV 选择降维方法

使用 Pipeline 和 GridSearchCV 选择降维方法

预处理#

关于 sklearn.preprocessing 模块的示例。

比较不同缩放器对带离群点数据的影响

比较不同缩放器对带离群点数据的影响

比较目标编码器与其他编码器

比较目标编码器与其他编码器

演示 KBinsDiscretizer 的不同策略

演示 KBinsDiscretizer 的不同策略

特征离散化

特征离散化

特征缩放的重要性

特征缩放的重要性

将数据映射到正态分布

将数据映射到正态分布

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

使用 KBinsDiscretizer 对连续特征进行离散化

使用 KBinsDiscretizer 对连续特征进行离散化

半监督分类#

关于 sklearn.semi_supervised 模块的示例。

半监督分类器与 SVM 在 Iris 数据集上的决策边界

半监督分类器与 SVM 在 Iris 数据集上的决策边界

不同自训练阈值的影响

不同自训练阈值的影响

标签传播圈:学习复杂结构

标签传播圈:学习复杂结构

标签传播数字:主动学习

标签传播数字:主动学习

标签传播数字:演示性能

标签传播数字:演示性能

文本数据集上的半监督分类

文本数据集上的半监督分类

支持向量机#

关于 sklearn.svm 模块的示例。

带非线性核(RBF)的 One-class SVM

带非线性核(RBF)的 One-class SVM

使用不同 SVM 核绘制分类边界

使用不同 SVM 核绘制分类边界

绘制 iris 数据集中的不同 SVM 分类器

绘制 iris 数据集中的不同 SVM 分类器

绘制 LinearSVC 中的支持向量

绘制 LinearSVC 中的支持向量

RBF SVM 参数

RBF SVM 参数

SVM 间隔示例

SVM 间隔示例

SVM 平局打破示例

SVM 平局打破示例

带自定义核的 SVM

带自定义核的 SVM

SVM-Anova:带单变量特征选择的 SVM

SVM-Anova:带单变量特征选择的 SVM

SVM:最大间隔分离超平面

SVM:最大间隔分离超平面

SVM:不平衡类别的分离超平面

SVM:不平衡类别的分离超平面

SVM:加权样本

SVM:加权样本

SVC 的正则化参数缩放

SVC 的正则化参数缩放

使用线性和非线性核的支持向量回归(SVR)

使用线性和非线性核的支持向量回归(SVR)

处理文本文档#

关于 sklearn.feature_extraction.text 模块的示例。

使用稀疏特征对文本文档进行分类

使用稀疏特征对文本文档进行分类

使用 k-means 对文本文档进行聚类

使用 k-means 对文本文档进行聚类

FeatureHasher 和 DictVectorizer 比较

FeatureHasher 和 DictVectorizer 比较

由 Sphinx-Gallery 生成的图库