谁在使用 scikit-learn?#

J.P.Morgan#

Scikit-learn 是摩根大通 (JPMorgan) Python 机器学习工具包中不可或缺的一部分。它被银行的各个部门广泛用于分类、预测分析和许多其他机器学习任务。它直接的 API、广泛的算法以及高质量的文档相结合,使得 scikit-learn 既易于上手又非常强大。

Stephen Simmons,摩根大通雅典娜研究部副总裁

Spotify#

Scikit-learn 提供了一个工具箱,其中包含许多最先进模型的可靠实现,并且可以轻松地将其插入现有应用程序中。我们在 Spotify 广泛使用它进行音乐推荐,我认为这是我目前见过的设计最好的机器学习包。

Erik Bernhardsson,Spotify 音乐发现与机器学习工程经理

Inria#

在 INRIA,我们使用 scikit-learn 支持许多团队的前沿基础研究:Parietal 用于神经影像学,Lear 用于计算机视觉,Visages 用于医学图像分析,Privatics 用于安全。该项目是一个出色的工具,可用于在学术环境中解决困难的机器学习应用,因为它性能高且用途广泛,而且易于使用且文档齐全,非常适合研究生使用。

Gaël Varoquaux,Parietal 研究员

betaworks#

Betaworks 是一家总部位于纽约的初创工作室,致力于开发新产品、发展公司并投资其他公司。在过去的 8 年里,我们推出了一系列由社交数据分析驱动的服务,例如 Bitly、Chartbeat、digg 和 Scale Model。betaworks 数据科学团队始终使用 Scikit-learn 来完成各种任务。从探索性分析到产品开发,它是我们工具包中不可或缺的一部分。最近的使用包括在 digg 的新视频推荐系统 和 Poncho 的 动态启发式子空间聚类 中。

Gilad Lotan,首席数据科学家

Hugging Face#

在 Hugging Face,我们使用 NLP 和概率模型来生成有趣的对话式人工智能。尽管我们在 一些 NLP 任务 中使用了深度神经网络,但 scikit-learn 仍然是我们日常机器学习工作的核心。易用性和界面的可预测性,以及在你需要时提供的直观数学解释,是其杀手级功能。我们在生产中使用了各种 scikit-learn 模型,并且它们在操作上也非常令人愉快。

Julien Chaumond,首席技术官

Evernote#

构建分类器通常是一个迭代过程,包括探索数据、选择特征(被认为在某种程度上具有预测性的数据属性)、训练模型,最后评估它们。对于许多此类任务,我们依赖于出色的 Python scikit-learn 包。

阅读更多

Mark Ayzenshtat,增强智能副总裁

Télécom ParisTech#

在 Telecom ParisTech,scikit-learn 被用于入门和高级机器学习课程的实践课程和家庭作业。这些课程面向本科生和硕士生。scikit-learn 的巨大优势在于其快速的学习曲线,使学生能够迅速开始解决有趣且有启发性的问题。

Alexandre Gramfort,助理教授

Booking.com#

在 Booking.com,我们将机器学习算法用于许多不同的应用,例如向客户推荐酒店和目的地、检测欺诈性预订或安排客户服务代理。Scikit-learn 是我们实施标准预测任务算法时使用的工具之一。它的 API 和文档非常出色,使其易于使用。scikit-learn 开发人员在将最先进的实现和新算法整合到包中方面做得非常出色。因此,scikit-learn 提供了对广泛算法的便捷访问,使我们能够轻松地为特定的工作找到合适的工具。

Melanie Mueller,数据科学家

AWeber#

scikit-learn 工具包对于 AWeber 的数据分析和管理团队来说是不可或缺的。它使我们能够完成如果没有时间或资源就无法完成的 AWesome 工作。文档非常出色,允许新工程师快速评估并将许多不同的算法应用于我们的数据。在处理 AWeber 大量电子邮件内容时,文本特征提取实用程序非常有用。RandomizedPCA 实现,以及 Pipelining 和 FeatureUnions,使我们能够高效可靠地开发复杂的机器学习算法。

任何有兴趣了解 AWeber 如何在生产环境中部署 scikit-learn 的人,都应该查看 AWeber 的 Michael Becker 在 PyData Boston 上的演讲,可在 mdbecker/pydata_2013 获得。

Michael Becker,软件工程师,数据分析和管理忍者

Yhat#

一致的 API、详尽的文档和一流的实现相结合,使 scikit-learn 成为我们在 Python 中最喜欢的机器学习包。scikit-learn 使任何人都能够进行高级分析。在 Yhat,我们使将这些模型集成到生产应用程序中变得容易。从而消除了在将分析工作投入生产时遇到的不必要的开发时间。

Greg Lamp,联合创始人

Rangespan#

Python scikit-learn 工具包是 Rangespan 数据科学团队的核心工具。它大量的文档齐全的模型和算法集合使我们的数据科学家团队能够快速原型设计并快速迭代,以找到解决我们学习问题的正确方案。我们发现 scikit-learn 不仅是原型设计的正确工具,而且其精心且经过充分测试的实现使我们有信心在生产中运行 scikit-learn 模型。

Jurgen Van Gael,数据科学总监

Birchbox#

在 Birchbox,我们面临着电子商务特有的各种机器学习问题:产品推荐、用户聚类、库存预测、趋势检测等。Scikit-learn 使我们能够尝试许多模型,尤其是在新项目的探索阶段:数据可以以一致的方式传递;模型易于保存和重用;更新使我们了解模式发现研究社区的新发展。Scikit-learn 是我们团队的重要工具,以正确的方式用正确的语言构建。

Thierry Bertin-Mahieux,数据科学家

Bestofmedia Group#

Scikit-learn 是 Bestofmedia 集团所有机器学习任务的首选工具包。我们将其用于各种任务(例如垃圾邮件过滤、广告点击预测、各种排名模型),这得益于其中包含的各种最先进算法实现。在实验室中,它加速了复杂管道的原型设计。在生产中,我可以说是它被证明足够健壮和高效,可以部署用于业务关键组件。

Eustache Diemert,首席科学家

Change.org#

在 change.org,我们在生产系统中自动使用 scikit-learn 的 RandomForestClassifier 来驱动电子邮件定位,每周向全球数百万用户发送电子邮件。在实验室中,scikit-learn 的易用性、性能以及实现的算法种类繁多,事实证明是无价的,为我们提供了一个可靠的单一来源来满足我们的机器学习需求。

Vijay Ramesh,Change.org 数据/科学软件工程师

PHIMECA Engineering#

在 PHIMECA Engineering,我们使用 scikit-learn 估计器作为昂贵数值模型(主要是但不限于有限元机械模型)的替代品,以加快我们基于模拟的决策制定框架中涉及的密集后处理操作。Scikit-learn 的 fit/predict API 及其高效的交叉验证工具大大简化了选择最佳拟合估计器的任务。我们还使用 scikit-learn 在培训课程中说明概念。尽管机器学习的理论复杂性很高,但受训人员总是对 scikit-learn 的易用性印象深刻。

Vincent Dubourg,PHIMECA Engineering 博士工程师

HowAboutWe#

在 HowAboutWe,scikit-learn 使我们能够在分析和生产中实施各种机器学习技术,尽管我们的团队规模很小。我们使用 scikit-learn 的分类算法来预测用户行为,使我们能够(例如)在潜在客户使用我们网站的早期阶段估算来自给定流量来源的潜在客户价值。此外,我们的用户资料主要由非结构化数据(开放式问题的答案)组成,因此我们使用 scikit-learn 的特征提取和降维工具将这些非结构化数据转换为我们的匹配系统的输入。

Daniel Weitzenfeld,HowAboutWe 高级数据科学家

PeerIndex#

在 PeerIndex,我们使用科学方法来构建影响力图谱 (Influence Graph)——一个独特的数据集,使我们能够确定谁真正具有影响力以及在什么背景下。为此,我们必须解决一系列机器学习和预测建模问题。Scikit-learn 已成为我们开发原型和快速取得进展的主要工具。从预测缺失数据和分类推文到聚类社交媒体用户社区,scikit-learn 在各种应用中都证明了其有用性。它非常直观的界面以及与其他 python 工具的出色兼容性使其成为我们日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex 高级数据科学家

DataRobot#

DataRobot 正在构建下一代预测分析软件,以提高数据科学家的生产力,而 scikit-learn 是我们系统不可或缺的一部分。scikit-learn 提供的各种机器学习技术与可靠的实现相结合,使其成为 Python 机器学习的一站式库。此外,其一致的 API、经过充分测试的代码和宽松的许可允许我们在生产环境中使用它。Scikit-learn 确实为我们节省了数年的工作,否则我们将不得不自己完成这些工作才能将产品推向市场。

Jeremy Achin,DataRobot Inc. 首席执行官兼联合创始人

OkCupid#

我们在 OkCupid 使用 scikit-learn 来评估和改进我们的匹配系统。它具有的功能范围,尤其是预处理实用程序,意味着我们可以将其用于各种项目,并且其性能足以处理我们需要筛选的数据量。文档也非常详尽,这使得该库非常易于使用。

David Koh - OkCupid 高级数据科学家

Lovely#

在 Lovely,我们努力提供最好的公寓市场,尊重我们的用户和房源。从了解用户行为、提高数据质量到检测欺诈,scikit-learn 是收集洞察力、预测建模和改进产品的常用工具。易于阅读的文档和直观的 API 架构使机器学习对于广泛的 python 开发人员来说既可探索又易于访问。我不断地推荐更多的开发人员和科学家尝试 scikit-learn。

Simon Frid - Lovely 数据科学家主管

Data Publica#

Data Publica 为商业和营销团队构建了一个新的预测销售工具,名为 C-Radar。我们广泛使用 scikit-learn 通过聚类来构建客户细分,并根据过去的合作伙伴关系成功或失败来预测未来的客户。我们还使用 scikit-learn 及其机器学习算法实现,根据公司的网站通信对公司进行分类。最终,机器学习使得检测传统工具无法看到的微弱信号成为可能。由于 scikit-learn 框架的卓越质量,所有这些复杂的任务都以简单直接的方式执行。

Guillaume Lebourgeois & Samuel Charron - Data Publica 数据科学家

Machinalis#

Scikit-learn 是 Machinalis 进行的所有机器学习项目的基石。它具有一致的 API、广泛的算法选择以及大量用于处理样板代码的辅助工具。我们已将其用于各种项目的生产环境中,包括点击率预测、信息提取,甚至数绵羊!

事实上,我们使用得如此之多,以至于我们开始将常见的用例冻结到 Python 包中,其中一些是开源的,例如 FeatureForge。Scikit-learn 用一句话来说:太棒了。

Rafael Carrascosa,首席开发人员

solido#

通过 Solido,Scikit-learn 正在帮助推动摩尔定律。Solido 创建了计算机辅助设计工具,被排名前 20 位的半导体公司和晶圆厂的大多数用于设计智能手机、汽车等内部的尖端芯片。Scikit-learn 帮助为 Solido 的稀有事件估计、最坏情况验证、优化等算法提供动力。在 Solido,我们特别喜欢 scikit-learn 用于高斯过程模型、大规模正则化线性回归和分类的库。Scikit-learn 提高了我们的生产力,因为对于许多机器学习问题,我们不再需要“自己编写”代码。这个 PyData 2014 演讲 提供了详细信息。

Trent McConaghy,Solido Design Automation Inc. 创始人

INFONEA#

我们在基于内存的商业智能软件 INFONEA® 中使用 scikit-learn 进行快速原型设计和定制的数据科学解决方案。作为一个文档齐全且全面的最先进算法和管道方法集合,scikit-learn 使我们能够提供灵活且可扩展的科学分析解决方案。因此,scikit-learn 在实现数据科学技术与自助式业务分析的强大集成方面具有巨大的价值。

Thorsten Kranz,Coma Soft AG. 数据科学家

Dataiku#

我们的软件 Data Science Studio (DSS) 使用户能够创建结合 ETL 和机器学习的数据服务。我们的机器学习模块集成了许多 scikit-learn 算法。scikit-learn 库与 DSS 完美集成,因为它为几乎所有业务案例提供了算法。我们的目标是提供一个透明且灵活的工具,使构建数据服务、准备数据和在所有类型数据上训练机器学习算法等耗时方面的优化变得更容易。

Florian Douetteau,Dataiku 首席执行官

Otto Group#

在 Otto Group,作为全球五大 B2C 在线零售商之一,我们在日常工作的各个方面都使用 scikit-learn,从数据探索到机器学习应用程序的开发再到这些服务的生产部署。它帮助我们解决从电子商务到物流的各种机器学习问题。它一致的 API 使我们能够围绕它构建 Palladium REST-API 框架,并持续提供基于 scikit-learn 的服务。

Christian Rammig,Otto Group 数据科学主管

Zopa#

在 Zopa,首个点对点借贷平台,我们广泛使用 scikit-learn 来运营业务并优化用户体验。它为我们涉及信用风险、欺诈风险、营销和定价的机器学习模型提供支持,并已用于发放至少 10 亿英镑的 Zopa 贷款。它文档齐全、功能强大且易于使用。我们感谢它提供的功能,并感谢它使我们能够实现让金钱变得简单公平的使命。

Vlasios Vasileiou,Zopa 数据科学主管

MARS#

Scikit-Learn 是玛氏 (Mars) 机器学习生态系统不可或缺的一部分。无论我们是为宠物食品设计更好的配方,还是密切分析我们的可可供应链,Scikit-Learn 都被用作快速原型化想法并将其投入生产的工具。这使我们能够更好地了解和满足全球消费者的需求。Scikit-Learn 功能丰富的工具集易于使用,并为我们的员工提供了解决日常业务挑战所需的能力。

Michael Fitzke,玛氏公司下一代技术高级主管

BNP Paribas Cardif#

BNP Paribas Cardif 在其生产中的几个机器学习模型中使用了 scikit-learn。自 2015 年以来,我们的内部开发人员和数据科学家社区一直在使用 scikit-learn,原因有几个:开发、文档和贡献治理的质量,以及贡献社区的庞大规模。我们甚至在内部模型风险治理中明确提到了 scikit-learn 管道的使用,作为我们降低运营风险和过拟合风险的良好实践之一。作为支持开源软件开发,尤其是 scikit-learn 项目的一种方式,我们决定自 2018 年创建以来参与 La Fondation Inria 的 scikit-learn 联盟。

Sébastien Conort,BNP Paribas Cardif 首席数据科学家