示例#

这是展示如何使用scikit-learn的示例库。一些示例演示了API 的一般用法,另一些示例则以教程的形式演示了具体的应用。还可以查看我们的用户指南,以了解更多详细的说明。

发行亮点#

这些例子阐述了 scikit-learn 版本的主要特性。

scikit-learn 1.6 发行亮点

scikit-learn 1.6 发行亮点

scikit-learn 1.5 发行亮点

scikit-learn 1.5 发行亮点

scikit-learn 1.4 发行亮点

scikit-learn 1.4 发行亮点

scikit-learn 1.3 发行亮点

scikit-learn 1.3 发行亮点

scikit-learn 1.2 发行亮点

scikit-learn 1.2 发行亮点

scikit-learn 1.1 发行亮点

scikit-learn 1.1 发行亮点

scikit-learn 1.0 发行亮点

scikit-learn 1.0 发行亮点

scikit-learn 0.24 发行亮点

scikit-learn 0.24 发行亮点

scikit-learn 0.23 发行亮点

scikit-learn 0.23 发行亮点

scikit-learn 0.22 发行亮点

scikit-learn 0.22 发行亮点

双聚类#

关于双聚类技术的例子。

谱双聚类算法演示

谱双聚类算法演示

谱共聚类算法演示

谱共聚类算法演示

使用谱共聚类算法对文档进行双聚类

使用谱共聚类算法对文档进行双聚类

校准#

展示分类器预测概率校准的例子。

分类器校准比较

分类器校准比较

概率校准曲线

概率校准曲线

三类分类的概率校准

三类分类的概率校准

分类器的概率校准

分类器的概率校准

分类#

关于分类算法的通用例子。

分类器比较

分类器比较

具有协方差椭圆体的线性判别分析和二次判别分析

具有协方差椭圆体的线性判别分析和二次判别分析

用于分类的正态、Ledoit-Wolf 和 OAS 线性判别分析

用于分类的正态、Ledoit-Wolf 和 OAS 线性判别分析

绘制分类概率

绘制分类概率

识别手写数字

识别手写数字

聚类#

关于 sklearn.cluster 模块的例子。

手写数字数据上的 K 均值聚类演示

手写数字数据上的 K 均值聚类演示

硬币图像上结构化 Ward 层次聚类的演示

硬币图像上结构化 Ward 层次聚类的演示

均值漂移聚类算法演示

均值漂移聚类算法演示

聚类性能评估中的机会调整

聚类性能评估中的机会调整

带结构和不带结构的凝聚聚类

带结构和不带结构的凝聚聚类

具有不同度量的凝聚聚类

具有不同度量的凝聚聚类

K-Means++ 初始化示例

K-Means++ 初始化示例

二分 K 均值和常规 K 均值性能比较

二分 K 均值和常规 K 均值性能比较

比较 BIRCH 和 MiniBatchKMeans

比较 BIRCH 和 MiniBatchKMeans

比较玩具数据集上的不同聚类算法

比较玩具数据集上的不同聚类算法

比较玩具数据集上不同的层次链接方法

比较玩具数据集上不同的层次链接方法

比较 K 均值和 MiniBatchKMeans 聚类算法

比较 K 均值和 MiniBatchKMeans 聚类算法

DBSCAN 聚类算法演示

DBSCAN 聚类算法演示

HDBSCAN 聚类算法演示

HDBSCAN 聚类算法演示

OPTICS 聚类算法演示

OPTICS 聚类算法演示

亲和传播聚类算法演示

亲和传播聚类算法演示

K 均值假设的演示

K 均值假设的演示

K 均值初始化影响的经验评估

K 均值初始化影响的经验评估

特征聚合

特征聚合

特征聚合与单变量选择

特征聚合与单变量选择

层次聚类:结构化与非结构化 Ward

层次聚类:结构化与非结构化 Ward

归纳聚类

归纳聚类

人脸部件字典的在线学习

人脸部件字典的在线学习

绘制层次聚类树状图

绘制层次聚类树状图

将希腊硬币图片分割成区域

将希腊硬币图片分割成区域

使用轮廓分析选择 KMeans 聚类的聚类数量

使用轮廓分析选择 KMeans 聚类的聚类数量

用于图像分割的谱聚类

用于图像分割的谱聚类

数字的二维嵌入上的各种凝聚聚类

数字的二维嵌入上的各种凝聚聚类

矢量量化示例

矢量量化示例

协方差估计#

关于 sklearn.covariance 模块的例子。

Ledoit-Wolf 与 OAS 估计

Ledoit-Wolf 与 OAS 估计

鲁棒协方差估计和马氏距离的相关性

鲁棒协方差估计和马氏距离的相关性

鲁棒与经验协方差估计

鲁棒与经验协方差估计

收缩协方差估计:LedoitWolf 与 OAS 和最大似然

收缩协方差估计:LedoitWolf 与 OAS 和最大似然

稀疏逆协方差估计

稀疏逆协方差估计

交叉分解#

关于 sklearn.cross_decomposition 模块的例子。

比较交叉分解方法

比较交叉分解方法

主成分回归与偏最小二乘回归

主成分回归与偏最小二乘回归

数据集示例#

关于 sklearn.datasets 模块的例子。

绘制随机生成的多分量数据集

绘制随机生成的多分量数据集

决策树#

关于 sklearn.tree 模块的例子。

决策树回归

决策树回归

绘制在鸢尾花数据集上训练的决策树的决策面

绘制在鸢尾花数据集上训练的决策树的决策面

使用成本复杂度剪枝后修剪决策树

使用成本复杂度剪枝后修剪决策树

理解决策树结构

理解决策树结构

分解#

关于 sklearn.decomposition 模块的例子。

使用 FastICA 进行盲源分离

使用 FastICA 进行盲源分离

鸢尾花数据集的 LDA 和 PCA 二维投影比较

鸢尾花数据集的 LDA 和 PCA 二维投影比较

人脸数据集分解

人脸数据集分解

因子分析(带旋转)以可视化模式

因子分析(带旋转)以可视化模式

二维点云上的 FastICA

二维点云上的 FastICA

使用字典学习进行图像去噪

使用字典学习进行图像去噪

增量 PCA

增量 PCA

核 PCA

核 PCA

使用概率 PCA 和因子分析 (FA) 进行模型选择

使用概率 PCA 和因子分析 (FA) 进行模型选择

鸢尾花数据集上的主成分分析 (PCA)

鸢尾花数据集上的主成分分析 (PCA)

使用预计算字典进行稀疏编码

使用预计算字典进行稀疏编码

开发估计器#

关于自定义估计器开发的例子。

__sklearn_is_fitted__ 作为开发者 API

__sklearn_is_fitted__ 作为开发者 API

集成方法#

关于 sklearn.ensemble 模块的例子。

梯度提升中的类别特征支持

梯度提升中的类别特征支持

使用堆叠组合预测器

使用堆叠组合预测器

比较随机森林和直方图梯度提升模型

比较随机森林和直方图梯度提升模型

比较随机森林和多输出元估计器

比较随机森林和多输出元估计器

使用 AdaBoost 的决策树回归

使用 AdaBoost 的决策树回归

梯度提升中的提前停止

梯度提升中的提前停止

使用树的森林的特征重要性

使用树的森林的特征重要性

使用树的集成进行特征转换

使用树的集成进行特征转换

直方图梯度提升树中的特征

直方图梯度提升树中的特征

梯度提升包外估计

梯度提升包外估计

梯度提升回归

梯度提升回归

梯度提升正则化

梯度提升正则化

使用完全随机树进行哈希特征转换

使用完全随机树进行哈希特征转换

IsolationForest 示例

IsolationForest 示例

单调约束

单调约束

多类 AdaBoosted 决策树

多类 AdaBoosted 决策树

随机森林的包外错误

随机森林的包外错误

绘制 VotingClassifier 计算的类概率

绘制 VotingClassifier 计算的类概率

绘制单个和投票回归预测

绘制单个和投票回归预测

绘制 VotingClassifier 的决策边界

绘制 VotingClassifier 的决策边界

绘制在鸢尾花数据集上树的集成的决策面

绘制在鸢尾花数据集上树的集成的决策面

梯度提升回归的预测区间

梯度提升回归的预测区间

单估计器与装袋:偏差-方差分解

单估计器与装袋:偏差-方差分解

两类 AdaBoost

两类 AdaBoost

基于真实世界数据集的例子#

使用一些中等规模的数据集或交互式用户界面解决现实世界问题的应用。

压缩感知:具有 L1 先验 (Lasso) 的断层扫描重建

压缩感知:具有 L1 先验 (Lasso) 的断层扫描重建

使用特征脸和 SVM 的人脸识别示例

使用特征脸和 SVM 的人脸识别示例

使用核 PCA 进行图像去噪

使用核 PCA 进行图像去噪

时间序列预测的滞后特征

时间序列预测的滞后特征

模型复杂度影响

模型复杂度影响

文本文档的核外分类

文本文档的核外分类

真实数据集上的异常值检测

真实数据集上的异常值检测

预测延迟

预测延迟

物种分布建模

物种分布建模

时间相关的特征工程

时间相关的特征工程

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

使用非负矩阵分解和潜在狄利克雷分配进行主题提取

可视化股票市场结构

可视化股票市场结构

维基百科主特征向量

维基百科主特征向量

特征选择#

关于 sklearn.feature_selection 模块的例子。

F 检验和互信息的比较

F 检验和互信息的比较

基于模型的和顺序特征选择

基于模型的和顺序特征选择

管道 ANOVA SVM

管道 ANOVA SVM

递归特征消除

递归特征消除

带有交叉验证的递归特征消除

带有交叉验证的递归特征消除

单变量特征选择

单变量特征选择

冻结估计器#

关于 sklearn.frozen 模块的例子。

使用 FrozenEstimator 的示例

使用 FrozenEstimator 的示例

高斯混合模型#

关于 sklearn.mixture 模块的例子。

变分贝叶斯高斯混合的浓度先验类型分析

变分贝叶斯高斯混合的浓度先验类型分析

高斯混合的密度估计

高斯混合的密度估计

GMM 初始化方法

GMM 初始化方法

GMM 协方差

GMM 协方差

高斯混合模型椭球

高斯混合模型椭球

高斯混合模型选择

高斯混合模型选择

高斯混合模型正弦曲线

高斯混合模型正弦曲线

用于机器学习的高斯过程#

关于 sklearn.gaussian_process 模块的例子。

高斯过程回归 (GPR) 估计数据噪声水平的能力

高斯过程回归 (GPR) 估计数据噪声水平的能力

核岭回归和高斯过程回归的比较

核岭回归和高斯过程回归的比较

使用高斯过程回归 (GPR) 预测莫纳洛亚数据集上的 CO2 水平

使用高斯过程回归 (GPR) 预测莫纳洛亚数据集上的 CO2 水平

高斯过程回归:基本入门示例

高斯过程回归:基本入门示例

鸢尾花数据集上的高斯过程分类 (GPC)

鸢尾花数据集上的高斯过程分类 (GPC)

离散数据结构上的高斯过程

离散数据结构上的高斯过程

XOR 数据集上高斯过程分类 (GPC) 的图示

XOR 数据集上高斯过程分类 (GPC) 的图示

不同核的先验和后验高斯过程的图示

不同核的先验和后验高斯过程的图示

高斯过程分类 (GPC) 的等概率线

高斯过程分类 (GPC) 的等概率线

使用高斯过程分类 (GPC) 进行概率预测

使用高斯过程分类 (GPC) 进行概率预测

广义线性模型#

关于 sklearn.linear_model 模块的例子。

比较线性贝叶斯回归器

比较线性贝叶斯回归器

对比各种在线求解器

对比各种在线求解器

使用贝叶斯岭回归进行曲线拟合

使用贝叶斯岭回归进行曲线拟合

多项式和一对其余逻辑回归的决策边界

多项式和一对其余逻辑回归的决策边界

随机梯度下降的提前停止

随机梯度下降的提前停止

使用预计算的格拉姆矩阵和加权样本拟合弹性网络

使用预计算的格拉姆矩阵和加权样本拟合弹性网络

在具有强异常值的数据集上HuberRegressor与Ridge的比较

在具有强异常值的数据集上HuberRegressor与Ridge的比较

使用多任务Lasso进行联合特征选择

使用多任务Lasso进行联合特征选择

逻辑回归中的L1惩罚和稀疏性

逻辑回归中的L1惩罚和稀疏性

基于L1的稀疏信号模型

基于L1的稀疏信号模型

通过信息准则进行Lasso模型选择

通过信息准则进行Lasso模型选择

Lasso模型选择:AIC-BIC/交叉验证

Lasso模型选择:AIC-BIC/交叉验证

稠密和稀疏数据上的Lasso

稠密和稀疏数据上的Lasso

Lasso、Lasso-LARS和弹性网络路径

Lasso、Lasso-LARS和弹性网络路径

逻辑函数

逻辑函数

使用多项式逻辑回归+L1进行MNIST分类

使用多项式逻辑回归+L1进行MNIST分类

在20newgroups上进行多类别稀疏逻辑回归

在20newgroups上进行多类别稀疏逻辑回归

非负最小二乘法

非负最小二乘法

使用随机梯度下降的一类SVM与一类SVM的比较

使用随机梯度下降的一类SVM与一类SVM的比较

普通最小二乘法示例

普通最小二乘法示例

普通最小二乘法和岭回归方差

普通最小二乘法和岭回归方差

正交匹配追踪

正交匹配追踪

绘制岭系数作为正则化的函数

绘制岭系数作为正则化的函数

在鸢尾花数据集上绘制多类别SGD

在鸢尾花数据集上绘制多类别SGD

泊松回归和非正态损失

泊松回归和非正态损失

多项式和样条插值

多项式和样条插值

分位数回归

分位数回归

L1逻辑回归的正则化路径

L1逻辑回归的正则化路径

岭系数作为L2正则化的函数

岭系数作为L2正则化的函数

稳健线性估计拟合

稳健线性估计拟合

使用RANSAC进行稳健线性模型估计

使用RANSAC进行稳健线性模型估计

SGD:最大间隔分离超平面

SGD:最大间隔分离超平面

SGD:惩罚项

SGD:惩罚项

SGD:加权样本

SGD:加权样本

SGD:凸损失函数

SGD:凸损失函数

Theil-Sen回归

Theil-Sen回归

保险索赔的Tweedie回归

保险索赔的Tweedie回归

检查#

sklearn.inspection 模块相关的例子。

线性模型系数解释中的常见陷阱

线性模型系数解释中的常见陷阱

机器学习未能推断因果效应

机器学习未能推断因果效应

偏依赖和个体条件期望图

偏依赖和个体条件期望图

置换重要性与随机森林特征重要性(MDI)的比较

置换重要性与随机森林特征重要性(MDI)的比较

具有多重共线性或相关特征的置换重要性

具有多重共线性或相关特征的置换重要性

核近似#

关于 sklearn.kernel_approximation 模块的例子。

使用多项式核近似进行可扩展学习

使用多项式核近似进行可扩展学习

流形学习#

关于 sklearn.manifold 模块的例子。

流形学习方法的比较

流形学习方法的比较

在切断的球体上的流形学习方法

在切断的球体上的流形学习方法

手写数字上的流形学习:局部线性嵌入、Isomap……

手写数字的流形学习:局部线性嵌入、Isomap…

多维缩放

多维缩放

瑞士卷和瑞士洞的降维

瑞士卷和瑞士洞的降维

t-SNE:不同困惑度值对形状的影响

t-SNE:不同困惑度值对形状的影响

其他#

scikit-learn 的其他和入门例子。

使用偏依赖进行高级绘图

使用偏依赖进行高级绘图

比较用于玩具数据集异常值检测的异常检测算法

比较用于玩具数据集异常值检测的异常检测算法

核岭回归和SVR的比较

核岭回归和SVR的比较

显示管道

显示管道

显示估计器和复杂的管道

显示估计器和复杂的管道

异常值检测估计器的评估

异常值检测估计器的评估

RBF核的显式特征映射近似

RBF核的显式特征映射近似

使用多输出估计器进行人脸补全

使用多输出估计器进行人脸补全

介绍 set_output API

介绍 set_output API

等度回归

等度回归

元数据路由

元数据路由

多标签分类

多标签分类

具有可视化API的ROC曲线

具有可视化API的ROC曲线

用于随机投影嵌入的Johnson-Lindenstrauss界限

用于随机投影嵌入的Johnson-Lindenstrauss界限

使用显示对象的可视化

使用显示对象的可视化

缺失值填补#

关于 sklearn.impute 模块的例子。

在构建估计器之前填补缺失值

在构建估计器之前填补缺失值

使用IterativeImputer的变体填补缺失值

使用IterativeImputer的变体填补缺失值

模型选择#

sklearn.model_selection 模块相关的例子。

平衡模型复杂度和交叉验证分数

平衡模型复杂度和交叉验证分数

类似度比用于衡量分类性能

类似度比用于衡量分类性能

比较用于超参数估计的随机搜索和网格搜索

比较用于超参数估计的随机搜索和网格搜索

网格搜索和连续减半之间的比较

网格搜索和连续减半之间的比较

混淆矩阵

混淆矩阵

具有交叉验证的网格搜索的自定义重拟合策略

具有交叉验证的网格搜索的自定义重拟合策略

在cross_val_score和GridSearchCV上演示多指标评估

在cross_val_score和GridSearchCV上演示多指标评估

检测错误权衡(DET)曲线

检测错误权衡(DET)曲线

模型正则化对训练和测试误差的影响

模型正则化对训练和测试误差的影响

多类别接收者操作特征(ROC)

多类别接收者操作特征(ROC)

嵌套与非嵌套交叉验证

嵌套与非嵌套交叉验证

绘制交叉验证预测

绘制交叉验证预测

绘制学习曲线并检查模型的可扩展性

绘制学习曲线和检查模型的可扩展性

事后调整决策函数的截止点

事后调整决策函数的截止点

为成本敏感学习调整决策阈值

为成本敏感学习调整决策阈值

精确率-召回率

精确率-召回率

具有交叉验证的接收者操作特征(ROC)

具有交叉验证的接收者操作特征(ROC)

用于文本特征提取和评估的示例管道

用于文本特征提取和评估的示例管道

使用网格搜索对模型进行统计比较

使用网格搜索对模型进行统计比较

连续减半迭代

连续减半迭代

使用置换检验分类分数的显著性

使用置换检验分类分数的显著性

欠拟合与过拟合

欠拟合与过拟合

可视化scikit-learn中的交叉验证行为

可视化scikit-learn中的交叉验证行为

多类别方法#

关于 sklearn.multiclass 模块的例子。

多类别训练元估计器的概述

多类别训练元估计器的概述

多输出方法#

关于 sklearn.multioutput 模块的例子。

使用分类器链进行多标签分类

使用分类器链进行多标签分类

最近邻#

关于 sklearn.neighbors 模块的例子。

TSNE中的近似最近邻

TSNE中的近似最近邻

缓存最近邻

缓存最近邻

比较使用和不使用邻域成分分析的最近邻

比较使用和不使用邻域成分分析的最近邻

使用邻域成分分析进行降维

使用邻域成分分析进行降维

物种分布的核密度估计

物种分布的核密度估计

核密度估计

核密度估计

最近质心分类

最近质心分类

最近邻分类

最近邻分类

最近邻回归

最近邻回归

邻域成分分析图示

邻域成分分析图示

使用局部异常因子 (LOF) 进行新奇性检测

使用局部异常因子 (LOF) 进行新奇性检测

使用局部异常因子 (LOF) 进行异常值检测

使用局部异常因子 (LOF) 进行异常值检测

简单的1D核密度估计

简单的1D核密度估计

神经网络#

关于 sklearn.neural_network 模块的例子。

比较MLPClassifier的随机学习策略

比较MLPClassifier的随机学习策略

用于数字分类的受限玻尔兹曼机特征

用于数字分类的受限玻尔兹曼机特征

在多层感知器中改变正则化

在多层感知器中改变正则化

在MNIST上可视化MLP权重

在MNIST上可视化MLP权重

管道和组合估计器#

如何从其他估计器组合转换器和管道的例子。参见 用户指南

具有异构数据源的列转换器

具有异构数据源的列转换器

具有混合类型的列转换器

具有混合类型的列转换器

连接多个特征提取方法

连接多个特征提取方法

转换回归模型中的目标变量的影响

转换回归模型中的目标变量的影响

管道化:连接PCA和逻辑回归

管道化:连接PCA和逻辑回归

使用Pipeline和GridSearchCV选择降维

使用Pipeline和GridSearchCV选择降维

预处理#

关于 sklearn.preprocessing 模块的例子。

比较不同缩放器对具有异常值的数据的影响

比较不同缩放器对具有异常值的数据的影响

比较目标编码器和其他编码器

比较目标编码器和其他编码器

演示KBinsDiscretizer的不同策略

演示KBinsDiscretizer的不同策略

特征离散化

特征离散化

特征缩放的重要性

特征缩放的重要性

将数据映射到正态分布

将数据映射到正态分布

目标编码器的内部交叉拟合

目标编码器的内部交叉拟合

使用KBinsDiscretizer离散化连续特征

使用KBinsDiscretizer离散化连续特征

半监督分类#

关于sklearn.semi_supervised 模块的示例。

半监督分类器与SVM在鸢尾花数据集上的决策边界

半监督分类器与SVM在鸢尾花数据集上的决策边界

改变自训练阈值的影响

改变自训练阈值的影响

标签传播数字主动学习

标签传播数字主动学习

标签传播数字:演示性能

标签传播数字:演示性能

标签传播学习复杂结构

标签传播学习复杂结构

文本数据集上的半监督分类

文本数据集上的半监督分类

支持向量机#

关于sklearn.svm 模块的示例。

使用非线性核 (RBF) 的一类SVM

使用非线性核 (RBF) 的一类SVM

使用不同的SVM核绘制分类边界

使用不同的SVM核绘制分类边界

在鸢尾花数据集上绘制不同的SVM分类器

在鸢尾花数据集上绘制不同的SVM分类器

在LinearSVC中绘制支持向量

在LinearSVC中绘制支持向量

RBF SVM参数

RBF SVM参数

SVM裕度示例

SVM裕度示例

SVM平局示例

SVM平局示例

具有自定义核的SVM

具有自定义核的SVM

SVM-Anova:具有单变量特征选择的SVM

SVM-Anova:具有单变量特征选择的SVM

SVM:最大间隔分离超平面

SVM:最大间隔分离超平面

SVM:不平衡类别的分离超平面

SVM:不平衡类别的分离超平面

SVM:加权样本

SVM:加权样本

缩放SVC的正则化参数

缩放SVC的正则化参数

使用线性和非线性核的支持向量回归 (SVR)

使用线性和非线性核的支持向量回归 (SVR)

教程练习#

教程练习题

糖尿病数据集交叉验证练习

糖尿病数据集交叉验证练习

数字分类练习

数字分类练习

SVM练习

SVM练习

使用文本文档#

关于sklearn.feature_extraction.text 模块的示例。

使用稀疏特征对文本文档进行分类

使用稀疏特征对文本文档进行分类

使用k-means对文本文档进行聚类

使用k-means对文本文档进行聚类

FeatureHasher和DictVectorizer的比较

FeatureHasher和DictVectorizer的比较

由Sphinx-Gallery生成的示例库