示例#

这是展示如何使用 scikit-learn 的示例库。一些示例演示了如何使用 API,而另一些则以教程的形式演示了特定应用。还可以查看我们的 用户指南,以获取更详细的说明。

版本亮点#

这些示例说明了 scikit-learn 版本的主要功能。

scikit-learn 1.5 版本亮点

scikit-learn 1.5 版本亮点

scikit-learn 1.4 版本亮点

scikit-learn 1.4 版本亮点

scikit-learn 1.3 版本亮点

scikit-learn 1.3 版本亮点

scikit-learn 1.2 版本亮点

scikit-learn 1.2 版本亮点

scikit-learn 1.1 版本亮点

scikit-learn 1.1 版本亮点

scikit-learn 1.0 版本亮点

scikit-learn 1.0 版本亮点

scikit-learn 0.24 版本亮点

scikit-learn 0.24 版本亮点

scikit-learn 0.23 版本亮点

scikit-learn 0.23 版本亮点

scikit-learn 0.22 版本亮点

scikit-learn 0.22 版本亮点

双聚类#

关于双聚类技术的示例。

谱双聚类算法的演示

谱双聚类算法的演示

谱共聚类算法的演示

谱共聚类算法的演示

使用谱共聚类算法对文档进行双聚类

使用谱共聚类算法对文档进行双聚类

校准#

说明分类器预测概率校准的示例。

分类器校准比较

分类器校准比较

概率校准曲线

概率校准曲线

三类分类的概率校准

三类分类的概率校准

分类器的概率校准

分类器的概率校准

分类#

关于分类算法的一般示例。

分类器比较

分类器比较

具有协方差椭圆的线性判别分析和二次判别分析

具有协方差椭圆的线性判别分析和二次判别分析

用于分类的正态、Ledoit-Wolf 和 OAS 线性判别分析

用于分类的正态、Ledoit-Wolf 和 OAS 线性判别分析

绘制分类概率

绘制分类概率

识别手写数字

识别手写数字

聚类#

关于 sklearn.cluster 模块的示例。

在手写数字数据上演示 K-Means 聚类

在手写数字数据上演示 K-Means 聚类

在硬币图像上演示结构化的 Ward 层次聚类

在硬币图像上演示结构化的 Ward 层次聚类

均值漂移聚类算法的演示

均值漂移聚类算法的演示

聚类性能评估中的机会调整

聚类性能评估中的机会调整

有结构和无结构的凝聚层次聚类

有结构和无结构的凝聚层次聚类

使用不同度量的凝聚层次聚类

使用不同度量的凝聚层次聚类

K-Means++ 初始化示例

K-Means++ 初始化示例

二分 K-Means 和普通 K-Means 性能比较

二分 K-Means 和普通 K-Means 性能比较

使用 K-Means 进行颜色量化

使用 K-Means 进行颜色量化

比较 BIRCH 和 MiniBatchKMeans

比较 BIRCH 和 MiniBatchKMeans

在玩具数据集上比较不同的聚类算法

在玩具数据集上比较不同的聚类算法

在玩具数据集上比较不同的层次链接方法

在玩具数据集上比较不同的层次链接方法

比较 K-Means 和 MiniBatchKMeans 聚类算法

比较 K-Means 和 MiniBatchKMeans 聚类算法

DBSCAN 聚类算法的演示

DBSCAN 聚类算法的演示

HDBSCAN 聚类算法的演示

HDBSCAN 聚类算法的演示

OPTICS 聚类算法的演示

OPTICS 聚类算法的演示

亲和传播聚类算法的演示

亲和传播聚类算法的演示

演示 k-means 假设

演示 k-means 假设

对 k-means 初始化影响的经验评估

对 k-means 初始化影响的经验评估

特征聚合

特征聚合

特征聚合与单变量选择

特征聚合与单变量选择

层次聚类:结构化与非结构化 Ward

层次聚类:结构化与非结构化 Ward

归纳聚类

归纳聚类

K-means 聚类

K-means 聚类

人脸部件字典的在线学习

人脸部件字典的在线学习

绘制层次聚类树状图

绘制层次聚类树状图

将希腊硬币图片分割成区域

将希腊硬币图片分割成区域

使用轮廓分析在 KMeans 聚类中选择聚类数量

使用轮廓分析在 KMeans 聚类中选择聚类数量

用于图像分割的谱聚类

用于图像分割的谱聚类

在数字的二维嵌入上进行各种凝聚层次聚类

在数字的二维嵌入上进行各种凝聚层次聚类

矢量量化示例

矢量量化示例

协方差估计#

关于 sklearn.covariance 模块的示例。

Ledoit-Wolf 与 OAS 估计比较

Ledoit-Wolf 与 OAS 估计比较

稳健协方差估计和马氏距离相关性

稳健协方差估计和马氏距离相关性

稳健与经验协方差估计

稳健与经验协方差估计

收缩协方差估计:LedoitWolf 与 OAS 和最大似然

收缩协方差估计:LedoitWolf 与 OAS 和最大似然

稀疏逆协方差估计

稀疏逆协方差估计

交叉分解#

关于 sklearn.cross_decomposition 模块的示例。

比较交叉分解方法

比较交叉分解方法

主成分回归与偏最小二乘回归

主成分回归与偏最小二乘回归

数据集示例#

关于 sklearn.datasets 模块的示例。

绘制随机生成的分类数据集

绘制随机生成的分类数据集

绘制随机生成的多分辨率数据集

绘制随机生成的多分辨率数据集

数字数据集

数字数据集

鸢尾花数据集

鸢尾花数据集

决策树#

关于 sklearn.tree 模块的示例。

决策树回归

决策树回归

多输出决策树回归

多输出决策树回归

绘制在鸢尾花数据集上训练的决策树的决策面

绘制在鸢尾花数据集上训练的决策树的决策面

使用成本复杂度剪枝对决策树进行后剪枝

使用成本复杂度剪枝对决策树进行后剪枝

了解决策树结构

了解决策树结构

分解#

关于 sklearn.decomposition 模块的示例。

使用 FastICA 进行盲源分离

使用 FastICA 进行盲源分离

比较 LDA 和 PCA 对鸢尾花数据集的二维投影

比较 LDA 和 PCA 对鸢尾花数据集的二维投影

人脸数据集分解

人脸数据集分解

因子分析(带旋转)以可视化模式

因子分析(带旋转)以可视化模式

二维点云上的 FastICA

二维点云上的 FastICA

使用字典学习进行图像降噪

使用字典学习进行图像降噪

增量 PCA

增量 PCA

核 PCA

核 PCA

使用概率 PCA 和因子分析 (FA) 进行模型选择

使用概率 PCA 和因子分析 (FA) 进行模型选择

使用鸢尾花数据集的 PCA 示例

使用鸢尾花数据集的 PCA 示例

使用预先计算的字典进行稀疏编码

使用预先计算的字典进行稀疏编码

开发估计器#

关于自定义估计器开发的示例。

__sklearn_is_fitted__ 作为开发者 API

__sklearn_is_fitted__ 作为开发者 API

集成方法#

关于 sklearn.ensemble 模块的示例。

梯度提升中的分类特征支持

梯度提升中的分类特征支持

使用堆叠组合预测器

使用堆叠组合预测器

比较随机森林和直方图梯度提升模型

比较随机森林和直方图梯度提升模型

比较随机森林和多输出元估计器

比较随机森林和多输出元估计器

使用 AdaBoost 的决策树回归

使用 AdaBoost 的决策树回归

梯度提升中的提前停止

梯度提升中的提前停止

使用树林的特征重要性

使用树林的特征重要性

使用树集成进行特征转换

使用树集成进行特征转换

直方图梯度提升树中的特征

直方图梯度提升树中的特征

梯度提升袋外估计

梯度提升袋外估计

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

使用完全随机树进行哈希特征转换

使用完全随机树进行哈希特征转换

IsolationForest 示例

IsolationForest 示例

单调约束

单调约束

多类 AdaBoosted 决策树

多类 AdaBoosted 决策树

随机森林的袋外误差

随机森林的袋外误差

使用并行树林的像素重要性

使用并行树林的像素重要性

绘制 VotingClassifier 计算的类概率

绘制 VotingClassifier 计算的类概率

绘制个体和投票回归预测

绘制个体和投票回归预测

绘制 VotingClassifier 的决策边界

绘制 VotingClassifier 的决策边界

绘制在鸢尾花数据集上训练的树集成的决策面

绘制在鸢尾花数据集上训练的树集成的决策面

梯度提升回归的预测区间

梯度提升回归的预测区间

单估计器与袋装:偏差-方差分解

单估计器与袋装:偏差-方差分解

二类 AdaBoost

二类 AdaBoost

基于真实世界数据集的示例#

对一些中等规模的数据集或交互式用户界面进行的真实世界问题的应用。

压缩感知:使用 L1 先验(Lasso)进行断层扫描重建

压缩感知:使用 L1 先验(Lasso)进行断层扫描重建

使用特征脸和 SVM 的人脸识别示例

使用特征脸和 SVM 的人脸识别示例

使用核 PCA 进行图像降噪

使用核 PCA 进行图像降噪

时间序列预测的滞后特征

时间序列预测的滞后特征

模型复杂度影响

模型复杂度影响

文本文档的离核分类

文本文档的离核分类

在真实数据集上进行异常值检测

在真实数据集上进行异常值检测

预测延迟

预测延迟

物种分布建模

物种分布建模

与时间相关的特征工程

与时间相关的特征工程

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

可视化股票市场结构

可视化股票市场结构

维基百科主特征向量

维基百科主特征向量

特征选择#

关于 sklearn.feature_selection 模块的示例。

F 检验和互信息的比较

F 检验和互信息的比较

基于模型和顺序的特征选择

基于模型和顺序的特征选择

管道 ANOVA SVM

管道 ANOVA SVM

递归特征消除

递归特征消除

使用交叉验证的递归特征消除

使用交叉验证的递归特征消除

单变量特征选择

单变量特征选择

高斯混合模型#

关于 sklearn.mixture 模块的示例。

变分贝叶斯高斯混合的浓度先验类型分析

变分贝叶斯高斯混合的浓度先验类型分析

高斯混合的密度估计

高斯混合的密度估计

GMM 初始化方法

GMM 初始化方法

GMM 协方差

GMM 协方差

高斯混合模型椭圆体

高斯混合模型椭圆体

高斯混合模型选择

高斯混合模型选择

高斯混合模型正弦曲线

高斯混合模型正弦曲线

机器学习中的高斯过程#

关于 sklearn.gaussian_process 模块的示例。

高斯过程回归 (GPR) 估计数据噪声水平的能力

高斯过程回归 (GPR) 估计数据噪声水平的能力

核岭回归和高斯过程回归的比较

核岭回归和高斯过程回归的比较

使用高斯过程回归 (GPR) 预测莫纳罗亚数据集上的 CO2 水平

使用高斯过程回归 (GPR) 预测莫纳罗亚数据集上的 CO2 水平

高斯过程回归:基本入门示例

高斯过程回归:基本入门示例

鸢尾花数据集上的高斯过程分类 (GPC)

鸢尾花数据集上的高斯过程分类 (GPC)

离散数据结构上的高斯过程

离散数据结构上的高斯过程

XOR 数据集上高斯过程分类 (GPC) 的说明

XOR 数据集上高斯过程分类 (GPC) 的说明

不同核的先验和后验高斯过程的说明

不同核的先验和后验高斯过程的说明

高斯过程分类 (GPC) 的等概率线

高斯过程分类 (GPC) 的等概率线

使用高斯过程分类 (GPC) 进行概率预测

使用高斯过程分类 (GPC) 进行概率预测

广义线性模型#

关于 sklearn.linear_model 模块的示例。

比较线性贝叶斯回归器

比较线性贝叶斯回归器

比较各种在线求解器

比较各种在线求解器

使用贝叶斯岭回归进行曲线拟合

使用贝叶斯岭回归进行曲线拟合

随机梯度下降的提前停止

随机梯度下降的提前停止

使用预先计算的 Gram 矩阵和加权样本拟合弹性网络

使用预先计算的 Gram 矩阵和加权样本拟合弹性网络

在具有强异常值的数据集上 HuberRegressor 与 Ridge 的比较

在具有强异常值的数据集上 HuberRegressor 与 Ridge 的比较

使用多任务 Lasso 进行联合特征选择

使用多任务 Lasso 进行联合特征选择

逻辑回归中的 L1 惩罚和稀疏性

逻辑回归中的 L1 惩罚和稀疏性

用于稀疏信号的基于 L1 的模型

用于稀疏信号的基于 L1 的模型

Lasso 和弹性网络

Lasso 和弹性网络

使用信息准则进行 Lasso 模型选择

使用信息准则进行 Lasso 模型选择

Lasso 模型选择:AIC-BIC / 交叉验证

Lasso 模型选择:AIC-BIC / 交叉验证

在密集和稀疏数据上使用 Lasso

在密集和稀疏数据上使用 Lasso

使用 LARS 进行 Lasso 路径

使用 LARS 进行 Lasso 路径

线性回归示例

线性回归示例

逻辑回归 3 类分类器

逻辑回归 3 类分类器

逻辑函数

逻辑函数

使用多项式逻辑 + L1 进行 MNIST 分类

使用多项式逻辑 + L1 进行 MNIST 分类

在 20newgroups 上进行多类稀疏逻辑回归

在 20newgroups 上进行多类稀疏逻辑回归

非负最小二乘

非负最小二乘

使用随机梯度下降的一类 SVM 与一类 SVM 的比较

使用随机梯度下降的一类 SVM 与一类 SVM 的比较

普通最小二乘和岭回归方差

普通最小二乘和岭回归方差

正交匹配追踪

正交匹配追踪

绘制岭系数作为正则化的函数

绘制岭系数作为正则化的函数

在鸢尾花数据集上绘制多类 SGD

在鸢尾花数据集上绘制多类 SGD

绘制多项式和一对多逻辑回归

绘制多项式和一对多逻辑回归

泊松回归和非正态损失

泊松回归和非正态损失

多项式和样条插值

多项式和样条插值

分位数回归

分位数回归

L1-逻辑回归的正则化路径

L1-逻辑回归的正则化路径

岭系数作为 L2 正则化的函数

岭系数作为 L2 正则化的函数

鲁棒线性估计器拟合

鲁棒线性估计器拟合

使用 RANSAC 进行鲁棒线性模型估计

使用 RANSAC 进行鲁棒线性模型估计

SGD:最大间隔分离超平面

SGD:最大间隔分离超平面

SGD:惩罚

SGD:惩罚

SGD:加权样本

SGD:加权样本

SGD:凸损失函数

SGD:凸损失函数

稀疏性示例:仅拟合特征 1 和 2

稀疏性示例:仅拟合特征 1 和 2

Theil-Sen 回归

Theil-Sen 回归

保险索赔的 Tweedie 回归

保险索赔的 Tweedie 回归

检查#

sklearn.inspection 模块相关的示例。

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

机器学习推断因果效应的失败

机器学习推断因果效应的失败

偏依赖和个体条件期望图

偏依赖和个体条件期望图

排列重要性与随机森林特征重要性 (MDI) 的比较

排列重要性与随机森林特征重要性 (MDI) 的比较

具有多重共线性或相关特征的排列重要性

具有多重共线性或相关特征的排列重要性

核近似#

关于 sklearn.kernel_approximation 模块的示例。

使用多项式核近似进行可扩展学习

使用多项式核近似进行可扩展学习

流形学习#

关于 sklearn.manifold 模块的示例。

流形学习方法的比较

流形学习方法的比较

在断开的球体上使用流形学习方法

在断开的球体上使用流形学习方法

手写数字上的流形学习:局部线性嵌入、Isomap…

手写数字上的流形学习:局部线性嵌入、Isomap...

多维尺度

多维尺度

瑞士卷和瑞士洞的降维

瑞士卷和瑞士洞的降维

t-SNE:不同困惑度值对形状的影响

t-SNE:不同困惑度值对形状的影响

其他#

scikit-learn 的其他和入门示例。

使用偏依赖进行高级绘图

使用偏依赖进行高级绘图

比较用于玩具数据集上的异常值检测的异常检测算法

比较用于玩具数据集上的异常值检测的异常检测算法

核岭回归和 SVR 的比较

核岭回归和 SVR 的比较

显示管道

显示管道

显示估计器和复杂管道

显示估计器和复杂管道

异常值检测估计器的评估

异常值检测估计器的评估

RBF 核的显式特征映射近似

RBF 核的显式特征映射近似

使用多输出估计器进行人脸补全

使用多输出估计器进行人脸补全

介绍 set_output API

介绍 set_output API

等距回归

等距回归

元数据路由

元数据路由

多标签分类

多标签分类

具有可视化 API 的 ROC 曲线

具有可视化 API 的 ROC 曲线

使用随机投影进行嵌入的 Johnson-Lindenstrauss 界

使用随机投影进行嵌入的 Johnson-Lindenstrauss 界

使用显示对象进行可视化

使用显示对象进行可视化

缺失值插补#

关于 sklearn.impute 模块的示例。

在构建估计器之前插补缺失值

在构建估计器之前插补缺失值

使用 IterativeImputer 的变体插补缺失值

使用 IterativeImputer 的变体插补缺失值

模型选择#

sklearn.model_selection 模块相关的示例。

平衡模型复杂度和交叉验证得分

平衡模型复杂度和交叉验证得分

类似然比用于衡量分类性能

类似然比用于衡量分类性能

比较用于超参数估计的随机搜索和网格搜索

比较用于超参数估计的随机搜索和网格搜索

比较网格搜索和连续减半

比较网格搜索和连续减半

混淆矩阵

混淆矩阵

使用交叉验证的网格搜索的自定义重新拟合策略

使用交叉验证的网格搜索的自定义重新拟合策略

演示 cross_val_score 和 GridSearchCV 上的多指标评估

演示 cross_val_score 和 GridSearchCV 上的多指标评估

检测错误权衡 (DET) 曲线

检测错误权衡 (DET) 曲线

多类接收者操作特征 (ROC)

多类接收者操作特征 (ROC)

嵌套与非嵌套交叉验证

嵌套与非嵌套交叉验证

绘制交叉验证预测

绘制交叉验证预测

绘制学习曲线并检查模型的可扩展性

绘制学习曲线并检查模型的可扩展性

绘制验证曲线

绘制验证曲线

事后调整决策函数的截止点

事后调整决策函数的截止点

事后调整决策阈值以进行成本敏感学习

事后调整决策阈值以进行成本敏感学习

精确率-召回率

精确率-召回率

具有交叉验证的接收者操作特征 (ROC)

具有交叉验证的接收者操作特征 (ROC)

文本特征提取和评估的示例管道

文本特征提取和评估的示例管道

使用网格搜索进行模型的统计比较

使用网格搜索进行模型的统计比较

连续减半迭代

连续减半迭代

使用排列测试分类得分的显著性

使用排列测试分类得分的显著性

训练误差与测试误差

训练误差与测试误差

欠拟合与过拟合

欠拟合与过拟合

可视化 scikit-learn 中的交叉验证行为

可视化 scikit-learn 中的交叉验证行为

多类方法#

关于 sklearn.multiclass 模块的示例。

多类训练元估计器的概述

多类训练元估计器的概述

多输出方法#

关于 sklearn.multioutput 模块的示例。

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻#

关于 sklearn.neighbors 模块的示例。

TSNE 中的近似最近邻

TSNE 中的近似最近邻

缓存最近邻

缓存最近邻

比较有无邻域成分分析的最近邻

比较有无邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

物种分布的核密度估计

物种分布的核密度估计

核密度估计

核密度估计

最近质心分类

最近质心分类

最近邻分类

最近邻分类

最近邻回归

最近邻回归

邻域成分分析说明

邻域成分分析说明

使用局部异常因子 (LOF) 进行新颖性检测

使用局部异常因子 (LOF) 进行新颖性检测

使用局部异常因子 (LOF) 进行异常值检测

使用局部异常因子 (LOF) 进行异常值检测

简单的 1D 核密度估计

简单的 1D 核密度估计

神经网络#

关于 sklearn.neural_network 模块的示例。

比较 MLPClassifier 的随机学习策略

比较 MLPClassifier 的随机学习策略

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

在多层感知器中改变正则化

在多层感知器中改变正则化

在 MNIST 上可视化 MLP 权重

在 MNIST 上可视化 MLP 权重

管道和复合估计器#

如何从其他估计器组合转换器和管道的示例。请参阅 用户指南

具有异构数据源的列转换器

具有异构数据源的列转换器

具有混合类型的列转换器

具有混合类型的列转换器

连接多个特征提取方法

连接多个特征提取方法

在回归模型中转换目标的影响

在回归模型中转换目标的影响

管道:将 PCA 和逻辑回归链接起来

管道:将 PCA 和逻辑回归链接起来

使用 Pipeline 和 GridSearchCV 选择降维

使用 Pipeline 和 GridSearchCV 选择降维

预处理#

关于 sklearn.preprocessing 模块的示例。

比较不同缩放器对具有异常值的数据的影响

比较不同缩放器对具有异常值的数据的影响

将目标编码器与其他编码器进行比较

将目标编码器与其他编码器进行比较

演示 KBinsDiscretizer 的不同策略

演示 KBinsDiscretizer 的不同策略

特征离散化

特征离散化

特征缩放的重要性

特征缩放的重要性

将数据映射到正态分布

将数据映射到正态分布

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

使用 KBinsDiscretizer 对连续特征进行离散化

使用 KBinsDiscretizer 对连续特征进行离散化

半监督分类#

关于 sklearn.semi_supervised 模块的示例。

半监督分类器与 SVM 在 Iris 数据集上的决策边界

半监督分类器与 SVM 在 Iris 数据集上的决策边界

自训练阈值变化的影响

自训练阈值变化的影响

标签传播数字主动学习

标签传播数字主动学习

标签传播数字:演示性能

标签传播数字:演示性能

标签传播学习复杂结构

标签传播学习复杂结构

文本数据集上的半监督分类

文本数据集上的半监督分类

支持向量机#

关于 sklearn.svm 模块的示例。

使用非线性核(RBF)的单类 SVM

使用非线性核(RBF)的单类 SVM

使用不同的 SVM 核绘制分类边界

使用不同的 SVM 核绘制分类边界

在 iris 数据集中绘制不同的 SVM 分类器

在 iris 数据集中绘制不同的 SVM 分类器

在 LinearSVC 中绘制支持向量

在 LinearSVC 中绘制支持向量

RBF SVM 参数

RBF SVM 参数

SVM 边缘示例

SVM 边缘示例

SVM 平局打破示例

SVM 平局打破示例

使用自定义核的 SVM

使用自定义核的 SVM

SVM-Anova:使用单变量特征选择的 SVM

SVM-Anova:使用单变量特征选择的 SVM

SVM:最大间隔分离超平面

SVM:最大间隔分离超平面

SVM:不平衡类别的分离超平面

SVM:不平衡类别的分离超平面

SVM:加权样本

SVM:加权样本

为 SVC 缩放正则化参数

为 SVC 缩放正则化参数

使用线性核和非线性核的支持向量回归 (SVR)

使用线性核和非线性核的支持向量回归 (SVR)

教程练习#

教程练习

糖尿病数据集交叉验证练习

糖尿病数据集交叉验证练习

数字分类练习

数字分类练习

SVM 练习

SVM 练习

使用文本文档#

关于 sklearn.feature_extraction.text 模块的示例。

使用稀疏特征对文本文档进行分类

使用稀疏特征对文本文档进行分类

使用 k-means 对文本文档进行聚类

使用 k-means 对文本文档进行聚类

FeatureHasher 和 DictVectorizer 比较

FeatureHasher 和 DictVectorizer 比较

由 Sphinx-Gallery 生成的画廊