跳转到主要内容
Ctrl+K
scikit-learn homepage scikit-learn homepage
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
    • 入门
    • 发布历史
    • 词汇表
    • 开发
    • 常见问题
    • 支持
    • 相关项目
    • 路线图
    • 治理
    • 关于我们
  • GitHub
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
  • 入门
  • 发布历史
  • 词汇表
  • 开发
  • 常见问题
  • 支持
  • 相关项目
  • 路线图
  • 治理
  • 关于我们
  • GitHub

章节导航

  • 发布亮点
    • scikit-learn 1.5 版本亮点
    • scikit-learn 1.4 版本亮点
    • scikit-learn 1.3 版本亮点
    • scikit-learn 1.2 版本亮点
    • scikit-learn 1.1 版本亮点
    • scikit-learn 1.0 版本亮点
    • scikit-learn 0.24 版本亮点
    • scikit-learn 0.23 版本亮点
    • scikit-learn 0.22 版本亮点
  • 双向聚类
    • 谱双向聚类算法演示
    • 谱共聚类算法演示
    • 使用谱共聚类算法对文档进行双向聚类
  • 校准
    • 分类器校准比较
    • 概率校准曲线
    • 三分类概率校准
    • 分类器的概率校准
  • 分类
    • 分类器比较
    • 带协方差椭球的线性判别分析和二次判别分析
    • 用于分类的正态、Ledoit-Wolf 和 OAS 线性判别分析
    • 绘制分类概率
    • 识别手写数字
  • 聚类
    • 手写数字数据上的 K 均值聚类演示
    • 硬币图像上的结构化 Ward 层次聚类演示
    • 均值漂移聚类算法演示
    • 聚类性能评估中的随机调整
    • 带结构和不带结构的凝聚聚类
    • 使用不同指标的凝聚聚类
    • K-Means++ 初始化示例
    • 二分 K 均值和常规 K 均值性能比较
    • 使用 K 均值进行颜色量化
    • 比较 BIRCH 和 MiniBatchKMeans
    • 比较玩具数据集上的不同聚类算法
    • 比较玩具数据集上的不同层次链接方法
    • K 均值和 MiniBatchKMeans 聚类算法的比较
    • DBSCAN 聚类算法演示
    • HDBSCAN 聚类算法演示
    • OPTICS 聚类算法演示
    • 近邻传播聚类算法演示
    • K 均值假设演示
    • K 均值初始化影响的实证评估
    • 特征聚合
    • 特征聚合与单变量选择
    • 层次聚类:结构化与非结构化 Ward
    • 归纳聚类
    • K 均值聚类
    • 人脸部分字典的在线学习
    • 绘制层次聚类树状图
    • 将希腊硬币图片分割成区域
    • 使用 KMeans 聚类的轮廓分析选择聚类数量
    • 用于图像分割的谱聚类
    • 数字二维嵌入上的各种凝聚聚类
    • 矢量量化示例
  • 协方差估计
    • Ledoit-Wolf 与 OAS 估计
    • 鲁棒协方差估计和马氏距离的相关性
    • 鲁棒协方差估计与经验协方差估计
    • 收缩协方差估计:LedoitWolf 与 OAS 和最大似然
    • 稀疏逆协方差估计
  • 交叉分解
    • 比较交叉分解方法
    • 主成分回归与偏最小二乘回归
  • 数据集示例
    • 绘制随机生成的分类数据集
    • 绘制随机生成的多标签数据集
    • 数字数据集
    • 鸢尾花数据集
  • 决策树
    • 决策树回归
    • 多输出决策树回归
    • 绘制在 Iris 数据集上训练的决策树的决策面
    • 使用成本复杂度剪枝对决策树进行后剪枝
    • 理解决策树结构
  • 分解
    • 使用 FastICA 进行盲源分离
    • LDA 和 PCA 对 Iris 数据集进行二维投影的比较
    • 人脸数据集分解
    • 因子分析(带旋转)以可视化模式
    • 二维点云上的 FastICA
    • 使用字典学习进行图像去噪
    • 增量 PCA
    • 核 PCA
    • 使用概率 PCA 和因子分析 (FA) 进行模型选择
    • 使用 Iris 数据集的 PCA 示例
    • 使用预先计算的字典进行稀疏编码
  • 开发估计器
    • __sklearn_is_fitted__ 作为开发者 API
  • 集成方法
    • 梯度提升中的分类特征支持
    • 使用堆叠组合预测器
    • 比较随机森林和直方图梯度提升模型
    • 比较随机森林和多输出元估计器
    • 使用 AdaBoost 进行决策树回归
    • 梯度提升中的提前停止
    • 树的森林特征重要性
    • 使用树的集成进行特征转换
    • 直方图梯度提升树中的特征
    • 梯度提升袋外估计
    • 梯度提升回归
    • 梯度提升正则化
    • 使用完全随机树进行哈希特征转换
    • IsolationForest 示例
    • 单调约束
    • 多类 AdaBoost 决策树
    • 随机森林的袋外误差
    • 并行树的森林像素重要性
    • 绘制由 VotingClassifier 计算的类概率
    • 绘制个体和投票回归预测
    • 绘制 VotingClassifier 的决策边界
    • 绘制 Iris 数据集上树的集成的决策面
    • 梯度提升回归的预测区间
    • 单个估计器与装袋:偏差-方差分解
    • 二分类 AdaBoost
  • 基于现实世界数据集的示例
    • 压缩感知:使用 L1 先验 (Lasso) 进行断层扫描重建
    • 使用特征脸和 SVM 进行人脸识别示例
    • 使用核 PCA 进行图像去噪
    • 时间序列预测的滞后特征
    • 模型复杂性影响
    • 文本文档的核外分类
    • 真实数据集上的异常值检测
    • 预测延迟
    • 物种分布建模
    • 与时间相关的特征工程
    • 使用非负矩阵分解和潜在狄利克雷分配进行主题提取
    • 可视化股票市场结构
    • 维基百科主特征向量
  • 特征选择
    • F 检验和互信息的比较
    • 基于模型和顺序的特征选择
    • 管道 ANOVA SVM
    • 递归特征消除
    • 使用交叉验证进行递归特征消除
    • 单变量特征选择
  • 高斯混合模型
    • 变分贝叶斯高斯混合的浓度先验类型分析
    • 高斯混合的密度估计
    • GMM 初始化方法
    • GMM 协方差
    • 高斯混合模型椭球
    • 高斯混合模型选择
    • 高斯混合模型正弦曲线
  • 机器学习中的高斯过程
    • 高斯过程回归 (GPR) 估计数据噪声水平的能力
    • 核岭回归与高斯过程回归的比较
    • 使用高斯过程回归 (GPR) 预测莫纳罗亚数据集上的 CO2 水平
    • 高斯过程回归:基本入门示例
    • 鸢尾花数据集上的高斯过程分类 (GPC)
    • 离散数据结构上的高斯过程
    • XOR 数据集上高斯过程分类 (GPC) 的说明
    • 不同核的先验和后验高斯过程的说明
    • 高斯过程分类 (GPC) 的等概率线
    • 使用高斯过程分类 (GPC) 进行概率预测
  • 广义线性模型
    • 比较线性贝叶斯回归器
    • 比较各种在线求解器
    • 使用贝叶斯岭回归进行曲线拟合
    • 随机梯度下降的提前停止
    • 使用预先计算的 Gram 矩阵和加权样本拟合弹性网络
    • 具有强异常值的数据集上的 HuberRegressor 与 Ridge
    • 使用多任务 Lasso 进行联合特征选择
    • 逻辑回归中的 L1 惩罚和稀疏性
    • 基于 L1 的稀疏信号模型
    • Lasso 和弹性网络
    • 通过信息标准进行 Lasso 模型选择
    • Lasso 模型选择:AIC-BIC / 交叉验证
    • 密集和稀疏数据上的 Lasso
    • 使用 LARS 的 Lasso 路径
    • 线性回归示例
    • 逻辑回归三分类器
    • 逻辑函数
    • 使用多项式逻辑回归 + L1 进行 MNIST 分类
    • 20个新闻组上的多类稀疏逻辑回归
    • 非负最小二乘法
    • 一类支持向量机与使用随机梯度下降的一类支持向量机
    • 普通最小二乘法和岭回归方差
    • 正交匹配追踪
    • 绘制岭系数作为正则化的函数
    • 绘制鸢尾花数据集上的多类 SGD
    • 绘制多项式和一对多逻辑回归
    • 泊松回归和非正态损失
    • 多项式和样条插值
    • 分位数回归
    • L1- 逻辑回归的正则化路径
    • 岭系数作为 L2 正则化的函数
    • 稳健的线性估计器拟合
    • 使用 RANSAC 进行稳健的线性模型估计
    • SGD:最大间隔超平面
    • SGD:惩罚
    • SGD:加权样本
    • SGD:凸损失函数
    • 稀疏性示例:仅拟合特征 1 和 2
    • 泰尔森回归
    • 保险索赔的 Tweedie 回归
  • 检查
    • 线性模型系数解释中的常见陷阱
    • 机器学习无法推断因果关系
    • 部分依赖图和个体条件期望图
    • 排列重要性与随机森林特征重要性 (MDI)
    • 具有多重共线性或相关特征的排列重要性
  • 核近似
    • 使用多项式核近似的可扩展学习
  • 流形学习
    • 流形学习方法的比较
    • 断裂球体上的流形学习方法
    • 手写数字上的流形学习:局部线性嵌入、等距映射…
    • 多维缩放
    • 瑞士卷和瑞士孔降维
    • t-SNE:各种困惑度值对形状的影响
  • 杂项
    • 使用部分依赖进行高级绘图
    • 比较玩具数据集上用于异常值检测的异常检测算法
    • 核岭回归与 SVR 的比较
    • 显示管道
    • 显示估计器和复杂管道
    • 异常值检测估计器的评估
    • RBF 核的显式特征映射近似
    • 使用多输出估计器进行人脸补全
    • 介绍 set_output API
    • 保序回归
    • 元数据路由
    • 多标签分类
    • 使用可视化 API 绘制 ROC 曲线
    • 使用随机投影进行嵌入的 Johnson-Lindenstrauss 界
    • 使用显示对象进行可视化
  • 缺失值插补
    • 在构建估计器之前估算缺失值
    • 使用 IterativeImputer 的变体估算缺失值
  • 模型选择
    • 平衡模型复杂度和交叉验证得分
    • 类别似然比用于度量分类性能
    • 比较随机搜索和网格搜索以进行超参数估计
    • 网格搜索和连续减半之间的比较
    • 混淆矩阵
    • 使用交叉验证的网格搜索的自定义重新拟合策略
    • 在 cross_val_score 和 GridSearchCV 上进行多指标评估的演示
    • 检测误差权衡 (DET) 曲线
    • 多类别接收者操作特征 (ROC)
    • 嵌套与非嵌套交叉验证
    • 绘制交叉验证预测
    • 绘制学习曲线并检查模型的可扩展性
    • 绘制验证曲线
    • 事后调整决策函数的阈值
    • 针对成本敏感型学习事后调整决策阈值
    • 精度-召回率
    • 使用交叉验证的接收者操作特征 (ROC)
    • 文本特征提取和评估的示例管道
    • 使用网格搜索对模型进行统计比较
    • 连续减半迭代
    • 使用排列测试分类分数的显著性
    • 训练误差与测试误差
    • 欠拟合与过拟合
    • 可视化 scikit-learn 中的交叉验证行为
  • 多类别方法
    • 多类别训练元估计器概述
  • 多输出方法
    • 使用分类器链进行多标签分类
  • 最近邻
    • TSNE 中的近似最近邻
    • 缓存最近邻
    • 比较使用和不使用邻域成分分析的最近邻
    • 使用邻域成分分析进行降维
    • 物种分布的核密度估计
    • 核密度估计
    • 最近质心分类
    • 最近邻分类
    • 最近邻回归
    • 邻域成分分析图解
    • 使用局部异常因子 (LOF) 进行新颖性检测
    • 使用局部异常因子 (LOF) 进行异常值检测
    • 简单一维核密度估计
  • 神经网络
    • 比较 MLPClassifier 的随机学习策略
    • 用于数字分类的受限玻尔兹曼机特征
    • 多层感知器中的不同正则化
    • MNIST 上 MLP 权重的可视化
  • 管道和组合估计器
    • 具有异构数据源的列转换器
    • 具有混合类型的列转换器
    • 连接多个特征提取方法
    • 转换回归模型中的目标变量的影响
    • 流水线:链接 PCA 和逻辑回归
    • 使用 Pipeline 和 GridSearchCV 选择降维方法
  • 预处理
    • 比较不同缩放器对具有异常值的数据的影响
    • 比较目标编码器与其他编码器
    • 演示 KBinsDiscretizer 的不同策略
    • 特征离散化
    • 特征缩放的重要性
    • 将数据映射到正态分布
    • 目标编码器的内部交叉拟合
    • 使用 KBinsDiscretizer 对连续特征进行离散化
  • 半监督分类
    • 半监督分类器与 SVM 在 Iris 数据集上的决策边界
    • 改变自训练阈值的影响
    • 标签传播数字主动学习
    • 标签传播数字:演示性能
    • 标签传播学习复杂结构
    • 文本数据集上的半监督分类
  • 支持向量机
    • 使用非线性核(RBF)的单类 SVM
    • 使用不同的 SVM 核绘制分类边界
    • 在鸢尾花数据集中绘制不同的 SVM 分类器
    • 绘制 LinearSVC 中的支持向量
    • RBF SVM 参数
    • SVM 间隔示例
    • SVM 平局决胜示例
    • 使用自定义核的 SVM
    • SVM-Anova:具有单变量特征选择的 SVM
    • SVM:最大间隔分离超平面
    • SVM:针对不平衡类的分离超平面
    • SVM:加权样本
    • 缩放 SVC 的正则化参数
    • 使用线性和非线性核的支持向量回归 (SVR)
  • 教程练习
    • 糖尿病数据集的交叉验证练习
    • 数字分类练习
    • SVM 练习
  • 处理文本文档
    • 使用稀疏特征对文本文档进行分类
    • 使用 k 均值对文本文档进行聚类
    • FeatureHasher 和 DictVectorizer 比较
  • 示例
  • 数据集示例

数据集示例#

有关 sklearn.datasets 模块的示例。

绘制随机生成的分类数据集

绘制随机生成的分类数据集

绘制随机生成的多标签数据集

绘制随机生成的多标签数据集

数字数据集

数字数据集

鸢尾花数据集

鸢尾花数据集

上一页

主成分回归与偏最小二乘回归

下一页

绘制随机生成的分类数据集

© 版权所有 2007 - 2024,scikit-learn 开发者(BSD 许可证)。