跳至主要内容
Ctrl+K
scikit-learn homepage scikit-learn homepage
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
    • 入门
    • 发行历史
    • 术语表
    • 开发
    • 常见问题
    • 支持
    • 相关项目
    • 路线图
    • 治理
    • 关于我们
  • GitHub
  • 安装
  • 用户指南
  • API
  • 示例
  • 社区
  • 入门
  • 发行历史
  • 术语表
  • 开发
  • 常见问题
  • 支持
  • 相关项目
  • 路线图
  • 治理
  • 关于我们
  • GitHub
  • 相关项目

相关项目#

鼓励实现 scikit-learn 估计器 API 的项目使用scikit-learn-contrib 模板,该模板有助于实现测试和记录估计器的最佳实践。scikit-learn-contrib GitHub 组织 也接受符合此模板的高质量存储库贡献。

下面列出的是姊妹项目、扩展和特定领域软件包。

互操作性和框架增强#

这些工具使 scikit-learn 能够与其他技术一起使用,或者增强 scikit-learn 估计器的功能。

Auto-ML

  • auto-sklearn 一个自动化机器学习工具包,也是 scikit-learn 估计器的直接替代品

  • autoviml 使用一行代码自动构建多个机器学习模型。旨在更快地使用 scikit-learn 模型,而无需预处理数据。

  • TPOT 一个自动化机器学习工具包,它优化一系列 scikit-learn 运算符以设计机器学习管道,包括数据和特征预处理器以及估计器。可以用作 scikit-learn 估计器的直接替代品。

  • Featuretools 一个执行自动特征工程的框架。它可以用于将时间和关系数据集转换为用于机器学习的特征矩阵。

  • EvalML EvalML 是一个 AutoML 库,它使用特定于领域的客观函数来构建、优化和评估机器学习管道。它在一个 API 下整合了多个建模库,EvalML 创建的对象使用与 sklearn 兼容的 API。

  • MLJAR AutoML 用于表格数据 AutoML 的 Python 包,具有特征工程、超参数调整、解释和自动文档功能。

实验和模型注册框架

  • MLFlow MLflow 是一个开源平台,用于管理 ML 生命周期,包括实验、可重复性、部署和中央模型注册表。

  • Neptune 为运行大量实验的团队构建的 MLOps 元数据存储。它为您提供一个单一位置来记录、存储、显示、组织、比较和查询所有模型构建元数据。

  • Sacred 用于帮助您配置、组织、记录和重现实验的工具

  • Scikit-Learn 实验室 一个围绕 scikit-learn 的命令行包装器,它使使用多个学习器和大型特征集运行机器学习实验变得容易。

模型检查和可视化

  • dtreeviz 一个用于决策树可视化和模型解释的 python 库。

  • sklearn-evaluation 简化机器学习模型评估:图表、表格、HTML 报告、实验跟踪和 Jupyter Notebook 分析。可视化分析、模型选择、评估和诊断。

  • yellowbrick 一套用于 scikit-learn 估计器的自定义 matplotlib 可视化工具,用于支持可视化特征分析、模型选择、评估和诊断。

用于生产的模型导出

  • sklearn-onnx 将许多 Scikit-learn 管道序列化为ONNX 以进行交换和预测。

  • skops.io 比 pickle 更安全的持久性模型,可以在大多数常见情况下替代 pickle。

  • sklearn2pmml 在JPMML-SkLearn 库的帮助下,将各种 scikit-learn 估计器和转换器序列化为 PMML。

  • treelite 将基于树的集成模型编译成 C 代码以最大限度地减少预测延迟。

  • emlearn 在 C99 中实现 scikit-learn 估计器,用于嵌入式设备和微控制器。支持多种分类器、回归和异常检测模型。

模型吞吐量

  • Intel(R) Extension for scikit-learn 主要在高端 Intel(R) 硬件上,在某些情况下可以加速某些 scikit-learn 模型的训练和推理。此项目由 Intel(R) 维护,scikit-learn 的维护人员不参与此项目的开发。另请注意,在某些情况下,使用scikit-learn-intelex下的工具和估计器会产生与scikit-learn本身不同的结果。如果您在使用此项目时遇到问题,请确保您在其各自的存储库中报告潜在的问题。

与基因组应用的 R 接口

  • BiocSklearn 将少量降维功能作为 basilisk 协议与 python 和 R 接口的示例。旨在作为更完整互操作性的跳板。

其他估计器和任务#

并非所有内容都属于或足够成熟,无法用于中央 scikit-learn 项目。以下是提供与 scikit-learn 类似接口的项目,用于其他学习算法、基础设施和任务。

时间序列和预测

  • Darts Darts 是一个 Python 库,用于对时间序列进行用户友好的预测和异常检测。它包含各种模型,从经典的 ARIMA 到深度神经网络。所有预测模型都可以使用相同的方式,使用 fit() 和 predict() 函数,类似于 scikit-learn。

  • sktime 一个与 scikit-learn 兼容的工具箱,用于机器学习与时间序列,包括时间序列分类/回归和(监督/面板)预测。

  • skforecast 一个 python 库,它简化了使用 scikit-learn 回归器作为多步预测器。它也可以与任何与 scikit-learn API 兼容的回归器一起使用。

  • tslearn 一个用于时间序列的机器学习库,它提供预处理和特征提取工具,以及用于聚类、分类和回归的专用模型。

梯度(树)提升

注意,scikit-learn 自带现代梯度提升估算器 HistGradientBoostingClassifier 和 HistGradientBoostingRegressor。

  • XGBoost XGBoost 是一个经过优化的分布式梯度提升库,旨在实现高效率、灵活性和可移植性。

  • LightGBM LightGBM 是一个使用基于树的学习算法的梯度提升框架。它旨在实现分布式和高效。

结构化学习

  • HMMLearn 之前是 scikit-learn 的一部分,现在是隐马尔可夫模型的实现。

  • pomegranate Python 的概率建模,重点是隐马尔可夫模型。

深度神经网络等。

  • skorch 一个与 scikit-learn 兼容的神经网络库,它包装了 PyTorch。

  • scikeras 提供了围绕 Keras 的包装器,以便与 scikit-learn 接口。SciKeras 是 tf.keras.wrappers.scikit_learn 的继承者。

联邦学习

  • Flower 一个友好的联邦学习框架,采用统一的方法,可以联合任何工作负载、任何 ML 框架和任何编程语言。

隐私保护机器学习

  • Concrete ML 基于 Concrete 构建的隐私保护 ML 框架,由于完全同态加密,它与传统的 ML 框架绑定。所谓的 Concrete ML 内置模型的 API 与 scikit-learn API 非常接近。

广泛的范围

  • mlxtend 包含许多额外的估算器以及模型可视化工具。

  • scikit-lego 一些与 scikit-learn 兼容的自定义转换器、模型和指标,专注于解决实际的行业任务。

其他回归和分类

  • py-earth 多元自适应回归样条

  • gplearn 用于符号回归任务的遗传编程。

  • scikit-multilearn 多标签分类,重点关注标签空间操作。

分解和聚类

  • lda:Cython 中快速实现的潜在狄利克雷分配,它使用 吉布斯采样 从真实的后验分布中采样。(scikit-learn 的 LatentDirichletAllocation 实现使用 变分推断 从主题模型后验分布的可处理近似中采样。)

  • kmodes 用于分类数据的 k-modes 聚类算法及其几种变体。

  • hdbscan 用于鲁棒可变密度聚类的 HDBSCAN 和鲁棒单链接聚类算法。从 scikit-learn 1.3.0 版本开始,有 HDBSCAN。

预处理

  • categorical-encoding sklearn 兼容的分类变量编码器库。从 scikit-learn 1.3.0 版本开始,有 TargetEncoder。

  • imbalanced-learn 用于对数据集进行欠采样和过采样的各种方法。

  • Feature-engine 一个 sklearn 兼容的转换器库,用于缺失数据插补、分类编码、变量转换、离散化、异常值处理等等。Feature-engine 允许将预处理步骤应用于选定的变量组,并且与 Scikit-learn Pipeline 完全兼容。

拓扑数据分析

  • giotto-tda 一个用于 拓扑数据分析 的库,旨在提供与 scikit-learn 兼容的 API。它提供工具将数据输入(点云、图、时间序列、图像)转换为适合计算拓扑摘要的形式,以及专门用于提取源自拓扑的标量特征集的组件,这些组件可以在 scikit-learn 中与其他特征提取方法一起使用。

使用 Python 进行统计学习#

其他对数据分析和机器学习有用的包。

  • Pandas 用于处理异构和列式数据、关系查询、时间序列和基本统计的工具。

  • statsmodels 估计和分析统计模型。更侧重于统计检验,而不是像 scikit-learn 那样侧重于预测。

  • PyMC 贝叶斯统计模型和拟合算法。

  • Seaborn 基于 matplotlib 的可视化库。它提供了一个高级接口,用于绘制具有吸引力的统计图形。

  • scikit-survival 一个实现模型的库,用于从删失时间到事件数据(也称为生存分析)中学习。模型与 scikit-learn 完全兼容。

推荐引擎包#

  • implicit,用于隐式反馈数据集的库。

  • lightfm 混合推荐系统的 Python/Cython 实现。

  • Surprise Lib 用于显式反馈数据集的库。

特定领域包#

  • scikit-network 图上的机器学习。

  • scikit-image Python图像处理和计算机视觉库。

  • 自然语言工具包 (NLTK) 自然语言处理和一些机器学习功能。

  • gensim 一个用于主题建模、文档索引和相似性检索的库。

  • NiLearn 神经影像的机器学习库。

  • AstroML 天文学机器学习库。

scikit-learn文档翻译#

翻译的目的是为了方便非英语母语人士阅读和理解。其目标是帮助那些不理解英语或对其解释有疑问的人。此外,一些人更喜欢阅读母语的文档,但请记住,唯一官方文档是英文版[1]。

这些翻译工作都是社区的主动行为,我们无法控制它们。如果您想贡献或报告翻译问题,请联系翻译作者。这里链接了一些可用的翻译,以改善它们的传播并促进社区努力。

  • 中文翻译 (源码)

  • 波斯语翻译 (源码)

  • 西班牙语翻译 (源码)

  • 韩语翻译 (源码)

脚注

[1]

遵循 Linux 文档免责声明

上一页

支持

下一页

路线图

本页内容
  • 互操作性和框架增强
  • 其他估计器和任务
  • 使用Python进行统计学习
    • 推荐引擎包
    • 特定领域包
  • scikit-learn文档翻译
显示源代码

© 版权所有 2007 - 2024,scikit-learn 开发者 (BSD 许可证)。