谁在使用 scikit-learn?#

摩根大通#

Scikit-learn 是摩根大通 Python 机器学习工具包中不可或缺的一部分。它被广泛应用于银行的各个部门,用于分类、预测分析以及许多其他机器学习任务。其简洁的 API、广泛的算法以及高质量的文档使其既易于上手又功能强大。

Stephen Simmons,摩根大通 Athena 研究部副总裁

Spotify#

Scikit-learn 提供了一个工具箱,其中包含许多最先进模型的可靠实现,并易于将其集成到现有应用程序中。我们在 Spotify 的音乐推荐中广泛使用它,我认为它是迄今为止我见过的设计最好的机器学习软件包。

Erik Bernhardsson,Spotify 音乐发现与机器学习工程经理

法国国家信息与自动化研究所 (INRIA)#

在 INRIA,我们使用 scikit-learn 来支持许多团队的前沿基础研究:Parietal(神经影像学),Lear(计算机视觉),Visages(医学图像分析),Privatics(安全)。该项目是一个极好的工具,可以解决学术环境中机器学习的难题,因为它性能出色且用途广泛,但易于使用且文档齐全,非常适合研究生使用。

Gaël Varoquaux,Parietal 研究员

Betaworks#

Betaworks 是一家位于纽约的创业公司工作室,致力于构建新产品、发展公司和投资其他公司。在过去的 8 年中,我们推出了一些基于社交数据分析的服务,例如 Bitly、Chartbeat、Digg 和 Scale Model。Betaworks 数据科学团队始终使用 Scikit-learn 来完成各种任务。从探索性分析到产品开发,它都是我们工具包中不可或缺的一部分。最近的应用包括Digg 的新视频推荐系统和 Poncho 的动态启发式子空间聚类

Gilad Lotan,首席数据科学家

Hugging Face#

在 Hugging Face,我们使用 NLP 和概率模型来生成有趣的对话式人工智能。尽管我们使用深度神经网络来完成一些NLP 任务,但 scikit-learn 仍然是我们日常机器学习工作的核心。易用性和接口的可预测性,以及在需要时提供的直接的数学解释,是其杀手级特性。我们在生产中使用了各种 scikit-learn 模型,它们在操作上也很容易使用。

Julien Chaumond,首席技术官

Evernote#

构建分类器通常是一个迭代过程,包括探索数据、选择特征(被认为以某种方式具有预测性的数据属性)、训练模型以及最终评估模型。对于许多这些任务,我们都依赖于出色的 Python scikit-learn 包。

阅读更多

Mark Ayzenshtat,增强智能副总裁

巴黎电信学院 (Télécom ParisTech)#

在巴黎电信学院,scikit-learn 用于入门和高级机器学习课程中的实践环节和作业。这些课程面向本科生和硕士生。scikit-learn 的一大好处是其学习曲线平缓,使学生能够快速开始处理有趣且有意义的问题。

Alexandre Gramfort,助理教授

Booking.com#

在 Booking.com,我们使用机器学习算法来完成许多不同的应用,例如向客户推荐酒店和目的地、检测欺诈性预订或安排客户服务代理。在实现标准预测算法时,Scikit-learn 是我们使用的工具之一。其 API 和文档非常出色,易于使用。Scikit-learn 开发人员在将最先进的实现和新算法集成到软件包中方面做得非常出色。因此,scikit-learn 提供了对各种算法的便捷访问,使我们能够轻松找到合适的工具来完成工作。

Melanie Mueller,数据科学家

AWeber#

Scikit-learn 工具包对于 AWeber 的数据分析和管理团队来说是不可或缺的。它使我们能够完成一些如果没有它我们就无法完成的任务。其文档非常出色,使新工程师能够快速评估并将许多不同的算法应用于我们的数据。在处理我们 AWeber 海量的电子邮件内容时,文本特征提取实用程序非常有用。RandomizedPCA 实现以及 Pipelining 和 FeatureUnions 使我们能够高效且可靠地开发复杂的机器学习算法。

任何有兴趣了解 AWeber 如何在生产环境中部署 scikit-learn 的人都应该查看 AWeber 的 Michael Becker 在 PyData Boston 上的演讲,网址为 mdbecker/pydata_2013

Michael Becker,软件工程师,数据分析和管理忍者

Yhat#

一致的 API、详尽的文档和一流的实现相结合,使 scikit-learn 成为我们在 Python 中最喜欢的机器学习软件包。scikit-learn 使任何人都可以轻松地在 Python 中进行高级分析。在 Yhat,我们使这些模型易于集成到您的生产应用程序中。从而消除了在将分析工作投入生产时遇到的不必要的开发时间。

Greg Lamp,联合创始人

Rangespan#

Python 的 scikit-learn 工具包是 Rangespan 数据科学团队的核心工具。它拥有大量文档完善的模型和算法,使我们的数据科学家团队能够快速原型化并快速迭代,以找到解决我们学习问题的正确方案。我们发现 scikit-learn 不仅是原型化的正确工具,而且其谨慎且经过良好测试的实现让我们有信心在生产环境中运行 scikit-learn 模型。

Jurgen Van Gael,数据科学总监

Birchbox#

在 Birchbox,我们面临一系列电子商务中常见的机器学习问题:产品推荐、用户聚类、库存预测、趋势检测等。Scikit-learn 让我们可以试验许多模型,尤其是在新项目探索阶段:数据可以以一致的方式传递;模型易于保存和重用;更新让我们了解模式发现研究社区的新进展。Scikit-learn 是我们团队的重要工具,它以正确的方式用正确的语言构建。

Thierry Bertin-Mahieux,数据科学家

Bestofmedia 集团#

在 Bestofmedia,Scikit-learn 是我们所有机器学习任务的首选工具包。我们将其用于各种任务(例如垃圾邮件过滤、广告点击预测、各种排序模型),这要归功于其打包的各种最先进的算法实现。在实验室中,它加速了复杂管道的原型设计。在生产环境中,我可以说它已被证明足够强大和高效,可以部署到业务关键组件中。

Eustache Diemert,首席科学家

Change.org#

在 Change.org,我们在生产系统中自动化使用 scikit-learn 的 RandomForestClassifier 来驱动电子邮件目标定位,每周覆盖全球数百万用户。在实验室中,scikit-learn 的易用性、性能和整体算法多样性已被证明非常宝贵,为我们的机器学习需求提供了一个可靠的单一来源。

Vijay Ramesh,Change.org 数据/科学软件工程师

PHIMECA 工程#

在 PHIMECA 工程,我们使用 scikit-learn 估计器作为难以评估的数值模型(主要但不限于有限元力学模型)的替代品,以加快基于仿真的决策框架中涉及的密集后处理操作。Scikit-learn 的 fit/predict API 及其高效的交叉验证工具极大地简化了选择最佳拟合估计器的任务。我们还在培训课程中使用 scikit-learn 来阐述概念。尽管机器学习的理论复杂性很高,但学员们总是对 scikit-learn 的易用性印象深刻。

Vincent Dubourg,PHIMECA 工程,博士工程师

HowAboutWe#

在 HowAboutWe,即使团队规模很小,scikit-learn 也让我们能够在分析和生产中实现各种机器学习技术。我们使用 scikit-learn 的分类算法来预测用户行为,这使我们能够(例如)尽早估计来自特定流量来源的潜在客户的价值。此外,我们用户的个人资料主要由非结构化数据(开放式问题的答案)组成,因此我们使用 scikit-learn 的特征提取和降维工具将这些非结构化数据转换为匹配系统中的输入。

Daniel Weitzenfeld,HowAboutWe 高级数据科学家

PeerIndex#

在 PeerIndex,我们使用科学方法构建影响图——一个独特的数据集,使我们能够识别真正有影响力的人以及在什么情况下有影响力。为此,我们必须解决一系列机器学习和预测建模问题。Scikit-learn 已成为我们开发原型和快速取得进展的主要工具。从预测缺失数据和分类推文到对社交媒体用户社区进行聚类,scikit-learn 在各种应用中都证明了其实用性。它非常直观的界面和与其他 Python 工具的出色兼容性使其成为我们日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex 高级数据科学家

DataRobot#

DataRobot 正在构建下一代预测分析软件,以提高数据科学家的生产力,而 scikit-learn 是我们系统不可或缺的一部分。scikit-learn 提供的各种机器学习技术以及可靠的实现,使其成为 Python 中机器学习的一站式库。此外,其一致的 API、经过良好测试的代码和宽松的许可证使我们能够在生产环境中使用它。Scikit-learn 从字面上为我们节省了数年工作,而这些工作本来需要我们自己完成才能将产品推向市场。

Jeremy Achin,DataRobot Inc. 首席执行官兼联合创始人

OkCupid#

我们在 OkCupid 使用 scikit-learn 来评估和改进我们的匹配系统。它拥有的各种功能,特别是预处理工具,意味着我们可以将其用于各种项目,而且它的性能足以处理我们需要筛选的大量数据。文档也非常详尽,这使得该库非常易于使用。

David Koh - OkCupid 高级数据科学家

Lovely#

在 Lovely,我们努力提供最佳的公寓市场,尊重我们的用户和我们的房源。从了解用户行为、提高数据质量到检测欺诈,scikit-learn 是收集见解、预测建模和改进我们产品的常用工具。API 易于阅读的文档和直观的架构使机器学习对各种 Python 开发人员都具有可探索性和可访问性。我一直在推荐更多开发人员和科学家尝试 scikit-learn。

Simon Frid - Lovely 数据科学家,主管

Data Publica#

Data Publica 为商业和市场团队构建了一款新的预测销售工具,名为 C-Radar。我们广泛使用 scikit-learn 通过聚类来构建客户细分,并根据过去合作伙伴关系的成功或失败来预测未来客户。我们还利用 scikit-learn 及其机器学习算法实现,根据公司网站的沟通方式对其进行分类。最终,机器学习能够检测到传统工具无法看到的微弱信号。多亏了 scikit-learn 框架的出色质量,所有这些复杂的任务都能以简单直接的方式完成。

Guillaume Lebourgeois & Samuel Charron - Data Publica 数据科学家

Machinalis#

Scikit-learn 是 Machinalis 所有机器学习项目的基石。它具有统一的 API、广泛的算法选择和许多辅助工具来处理样板代码。我们在各种生产环境中使用它,包括点击率预测、信息提取,甚至数绵羊!

事实上,我们使用它的频率如此之高,以至于我们开始将常用的案例冻结成 Python 包,其中一些是开源的,例如 FeatureForge。一句话概括 scikit-learn:太棒了。

Rafael Carrascosa,首席开发人员

solido#

Scikit-learn 通过 Solido 推动摩尔定律的发展。Solido 创建了计算机辅助设计工具,这些工具被大多数前 20 大半导体公司和晶圆厂使用,用于设计智能手机、汽车等设备中的尖端芯片。Scikit-learn 有助于增强 Solido 用于罕见事件估计、最坏情况验证、优化等的算法。在 Solido,我们尤其喜欢 scikit-learn 用于高斯过程模型、大规模正则化线性回归和分类的库。Scikit-learn 提高了我们的生产力,因为对于许多机器学习问题,我们不再需要“自己编写”代码了。此 PyData 2014 演讲 有详细介绍。

Trent McConaghy,Solido Design Automation Inc. 创始人

INFONEA#

我们在基于内存的商业智能软件 INFONEA® 中使用 scikit-learn 进行快速原型设计和定制的数据科学解决方案。作为一个记录完善且全面的最先进算法和流水线方法集合,scikit-learn 使我们能够提供灵活且可扩展的科学分析解决方案。因此,scikit-learn 在将数据科学技术强大地集成到自助式商业分析中具有极其重要的价值。

Thorsten Kranz,Coma Soft AG. 数据科学家

Dataiku#

我们的软件 Data Science Studio (DSS) 使用户能够创建将ETL 与机器学习相结合的数据服务。我们的机器学习模块集成了许多 scikit-learn 算法。scikit-learn 库与 DSS 的完美集成,因为它提供了几乎适用于所有业务案例的算法。我们的目标是提供一个透明且灵活的工具,使构建数据服务、准备数据以及在所有类型的数据上训练机器学习算法这些耗时的方面更容易优化。

Florian Douetteau,Dataiku 首席执行官

Otto Group#

在奥托集团(全球五大 B2C 在线零售商之一),我们从数据探索到机器学习应用程序的开发,再到这些服务的生产部署,在日常工作的各个方面都使用 scikit-learn。它帮助我们解决从电子商务到物流的各种机器学习问题。它一致的 API 使我们能够在其周围构建Palladium REST-API 框架,并持续交付基于 scikit-learn 的服务。

Christian Rammig,奥托集团数据科学主管

Zopa#

在 Zopa(第一个点对点贷款平台),我们广泛使用 scikit-learn 来运营业务并优化用户体验。它为我们参与信贷风险、欺诈风险、营销和定价的机器学习模型提供动力,并且已被用于发放至少价值 10 亿英镑的 Zopa 贷款。它文档完善、功能强大且易于使用。我们感谢它提供的能力,并感谢它让我们能够实现使金钱简单而公平的使命。

Vlasios Vasileiou,Zopa 数据科学主管

MARS#

Scikit-Learn 是玛氏公司机器学习生态系统不可或缺的一部分。无论我们是为宠物食品设计更好的食谱,还是仔细分析我们的可可供应链,Scikit-Learn 都被用作快速制作想法原型并将其投入生产的工具。这使我们能够更好地了解并满足全球消费者的需求。Scikit-Learn 功能丰富的工具集易于使用,并为我们的员工提供了他们每天解决业务挑战所需的能力。

Michael Fitzke,玛氏公司下一代技术高级主管

BNP Paribas Cardif#

巴黎银行卡地夫公司在其生产中的多个机器学习模型中使用 scikit-learn。自 2015 年以来,我们的内部开发人员和数据科学家社区一直使用 scikit-learn,原因如下:开发的质量、文档和贡献管理以及贡献社区的规模。我们甚至在内部模型风险治理中明确提及使用 scikit-learn 的管道,作为减少运营风险和过度拟合风险的良好实践之一。为了支持开源软件开发,特别是 scikit-learn 项目,我们决定自 2018 年成立以来就参与 Inria 基金会的 scikit-learn 联盟。

Sébastien Conort,巴黎银行卡地夫公司首席数据科学家