谁在使用 scikit-learn?#

摩根大通#

Scikit-learn 是摩根大通 Python 机器学习工具包中不可或缺的一部分。它在银行的所有部门中被广泛用于分类、预测分析以及许多其他机器学习任务。其直观的 API、丰富的算法以及高质量的文档相结合,使 scikit-learn 既易于使用又功能强大。

Stephen Simmons,摩根大通 Athena Research 副总裁

Spotify#

Scikit-learn 提供了一个工具箱,其中包含大量最先进模型的可靠实现,并可以轻松地将它们集成到现有应用程序中。我们在 Spotify 中广泛使用它进行音乐推荐,我认为它是迄今为止我见过的设计最完善的 ML 包。

Erik Bernhardsson,Spotify 音乐发现与机器学习工程经理

法国国家信息与自动化研究所 (INRIA)#

在 INRIA,我们使用 scikit-learn 来支持许多团队的前沿基础研究:Parietal 用于神经影像学,Lear 用于计算机视觉,Visages 用于医学图像分析,Privatics 用于安全。该项目是一个很棒的工具,可以解决学术环境中机器学习的难题,因为它性能出色且用途广泛,但易于使用且文档齐全,非常适合研究生。

Gaël Varoquaux,Parietal 研究员

betaworks#

Betaworks 是一家位于纽约的初创公司工作室,致力于开发新产品、发展公司并投资其他公司。在过去的 8 年中,我们推出了许多基于社交数据分析的服务,例如 Bitly、Chartbeat、digg 和 Scale Model。betaworks 数据科学团队始终使用 Scikit-learn 来完成各种任务。从探索性分析到产品开发,它是我们工具包中不可或缺的一部分。最近的应用包括 digg 的新视频推荐系统 和 Poncho 的 动态启发式子空间聚类

Gilad Lotan,首席数据科学家

Hugging Face#

在 Hugging Face,我们使用 NLP 和概率模型来生成有趣的对话式人工智能。尽管我们使用深度神经网络来完成 一些 NLP 任务,但 scikit-learn 仍然是我们日常机器学习工作中必不可少的工具。易用性和界面的可预测性,以及在需要时提供的直接的数学解释,是其杀手锏。我们在生产中使用各种 scikit-learn 模型,它们在操作上也很容易使用。

Julien Chaumond,首席技术官

Evernote#

构建分类器通常是一个迭代过程,包括探索数据、选择特征(被认为以某种方式具有预测性的数据属性)、训练模型,最后评估模型。对于许多这些任务,我们依赖于 Python 中出色的 scikit-learn 包。

阅读更多

Mark Ayzenshtat,增强智能副总裁

巴黎综合理工大学#

在巴黎综合理工大学,scikit-learn 被用于入门和高级机器学习课程的动手实践环节和家庭作业。这些课程面向本科生和硕士生。scikit-learn 的一大优势是其快速学习曲线,使学生能够快速开始处理有趣且有动力的问题。

Alexandre Gramfort,助理教授

Booking.com#

在 Booking.com,我们使用机器学习算法来完成许多不同的应用,例如向客户推荐酒店和目的地、检测欺诈性预订或安排客户服务代理。Scikit-learn 是我们在实现用于预测任务的标准算法时使用的工具之一。其 API 和文档非常出色,易于使用。scikit-learn 开发人员在将最先进的实现和新算法集成到该包中方面做得很好。因此,scikit-learn 提供了对各种算法的便捷访问,使我们能够轻松找到合适的工具来完成合适的工作。

Melanie Mueller,数据科学家

AWeber#

scikit-learn 工具包对于 AWeber 的数据分析和管理团队来说是必不可少的。它使我们能够完成一些我们没有时间或资源完成的“AWesome”事情。文档非常出色,使新工程师能够快速评估并将许多不同的算法应用于我们的数据。文本特征提取实用程序在处理 AWeber 中的大量电子邮件内容时非常有用。RandomizedPCA 实现以及 Pipelining 和 FeatureUnions 使我们能够高效可靠地开发复杂的机器学习算法。

任何有兴趣了解 AWeber 如何在生产环境中部署 scikit-learn 的人,都应该查看 AWeber 的 Michael Becker 在 PyData Boston 上的演讲,这些演讲可在 mdbecker/pydata_2013 中找到。

Michael Becker,软件工程师,数据分析和管理忍者

Yhat#

一致的 API、全面的文档和一流的实现相结合,使 scikit-learn 成为我们最喜欢的 Python 机器学习包。scikit-learn 使任何人都可以轻松地在 Python 中进行高级分析。在 Yhat,我们使将这些模型集成到您的生产应用程序中变得容易。从而消除了在将分析工作投入生产时遇到的不必要的开发时间。

Greg Lamp,联合创始人

Rangespan#

Python scikit-learn 工具包是 Rangespan 数据科学团队的核心工具。其大量经过良好文档记录的模型和算法使我们的数据科学家团队能够快速构建原型并快速迭代,以找到解决我们学习问题的正确解决方案。我们发现 scikit-learn 不仅是构建原型的正确工具,而且其经过精心测试的实现使我们有信心在生产中运行 scikit-learn 模型。

Jurgen Van Gael,数据科学总监

Birchbox#

在 Birchbox,我们面临着电子商务中常见的各种机器学习问题:产品推荐、用户聚类、库存预测、趋势检测等。Scikit-learn 使我们能够尝试许多模型,尤其是在新项目的探索阶段:数据可以以一致的方式传递;模型易于保存和重用;更新使我们了解模式发现研究社区的新进展。Scikit-learn 是我们团队的重要工具,以正确的方式构建在正确的语言中。

Thierry Bertin-Mahieux,数据科学家

Bestofmedia Group#

Scikit-learn 是我们在 Bestofmedia 中进行所有机器学习工作的首选工具包。我们使用它来完成各种任务(例如,垃圾邮件过滤、广告点击预测、各种排名模型),这得益于它打包的各种最先进算法实现。在实验室中,它加速了复杂管道的原型设计。在生产中,我可以说它已被证明足够健壮和高效,可以部署到业务关键组件中。

Eustache Diemert,首席科学家

Change.org#

在 Change.org,我们自动地在生产系统中使用 scikit-learn 的 RandomForestClassifier 来推动电子邮件定位,每周覆盖全球数百万用户。在实验室中,scikit-learn 的易用性、性能以及实现的各种算法已被证明在为我们提供可靠的机器学习需求来源方面非常宝贵。

Vijay Ramesh,Change.org 数据/科学软件工程师

PHIMECA Engineering#

在 PHIMECA 工程公司,我们使用 scikit-learn 估计器作为昂贵数值模型(主要但不限于有限元力学模型)的替代品,以加速我们基于模拟的决策框架中涉及的密集后处理操作。scikit-learn 的 fit/predict API 以及其高效的交叉验证工具极大地简化了选择最佳拟合估计器的任务。我们还在培训课程中使用 scikit-learn 来阐释概念。尽管机器学习理论上很复杂,但学员们总是对 scikit-learn 的易用性印象深刻。

Vincent Dubourg,PHIMECA 工程公司,博士工程师

HowAboutWe#

在 HowAboutWe,尽管团队规模很小,但 scikit-learn 使我们能够在分析和生产中实施各种机器学习技术。我们使用 scikit-learn 的分类算法来预测用户行为,使我们能够(例如)在潜在客户在我们网站上的任期早期估计来自特定流量来源的潜在客户的价值。此外,我们用户的个人资料主要由非结构化数据(对开放式问题的回答)组成,因此我们使用 scikit-learn 的特征提取和降维工具将这些非结构化数据转换为我们匹配系统的输入。

Daniel Weitzenfeld,HowAboutWe 高级数据科学家

PeerIndex#

在 PeerIndex,我们使用科学方法构建影响力图 - 一个独特的数据库,使我们能够识别真正有影响力的人以及在哪些情况下有影响力。为此,我们必须解决一系列机器学习和预测建模问题。scikit-learn 已成为我们开发原型和快速取得进展的主要工具。从预测缺失数据和对推文进行分类到对社交媒体用户社区进行聚类,scikit-learn 在各种应用中都证明了其有用性。它非常直观的界面以及与其他 Python 工具的出色兼容性使其成为我们日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex 高级数据科学家

DataRobot#

DataRobot 正在构建下一代预测分析软件,以提高数据科学家的生产力,而 scikit-learn 是我们系统不可或缺的一部分。scikit-learn 提供的各种机器学习技术以及可靠的实现使其成为 Python 中机器学习的一站式购物库。此外,它一致的 API、经过良好测试的代码和宽松的许可证使我们能够在生产环境中使用它。scikit-learn 实际上为我们节省了数年时间,否则我们必须自己完成这些工作才能将我们的产品推向市场。

Jeremy Achin,DataRobot Inc. 首席执行官兼联合创始人

OkCupid#

我们在 OkCupid 使用 scikit-learn 来评估和改进我们的匹配系统。它拥有的各种功能,尤其是预处理工具,意味着我们可以将其用于各种项目,并且它足够高效,可以处理我们需要筛选的数据量。文档也非常详细,这使得该库非常易于使用。

David Koh - OkCupid 高级数据科学家

Lovely#

在 Lovely,我们努力提供最好的公寓市场,尊重我们的用户和我们的房源。从了解用户行为、提高数据质量到检测欺诈,scikit-learn 是收集见解、预测建模和改进我们产品的常用工具。API 易于阅读的文档和直观的架构使机器学习既可探索又可供各种 Python 开发人员使用。我一直建议更多开发人员和科学家尝试 scikit-learn。

Simon Frid - Lovely 数据科学家,负责人

Data Publica#

Data Publica 为商业和营销团队构建了一种新的预测销售工具,称为 C-Radar。我们广泛使用 scikit-learn 来通过聚类构建客户细分,并根据过去合作的成功或失败来预测未来的客户。我们还使用 scikit-learn 及其机器学习算法实现来根据公司网站的沟通方式对公司进行分类。最终,机器学习使我们能够检测传统工具无法看到的微弱信号。得益于 scikit-learn 框架的出色质量,所有这些复杂的任务都以简单直接的方式执行。

Guillaume Lebourgeois & Samuel Charron - Data Publica 数据科学家

Machinalis#

scikit-learn 是 Machinalis 所有机器学习项目的基石。它拥有一个一致的 API、各种算法选择以及许多辅助工具来处理样板代码。我们在各种项目中将其用于生产环境,包括点击率预测、信息提取,甚至数羊!

事实上,我们使用它太多了,以至于我们开始将常见的用例冻结到 Python 包中,其中一些是开源的,例如 FeatureForge。scikit-learn 简而言之:太棒了。

Rafael Carrascosa,首席开发人员

solido#

scikit-learn 正在通过 Solido 推动摩尔定律。Solido 创建了计算机辅助设计工具,这些工具被大多数排名前 20 的半导体公司和晶圆厂使用,用于设计智能手机、汽车等内部的尖端芯片。scikit-learn 有助于为 Solido 的稀有事件估计、最坏情况验证、优化等算法提供动力。在 Solido,我们特别喜欢 scikit-learn 的高斯过程模型、大规模正则化线性回归和分类库。scikit-learn 提高了我们的生产力,因为对于许多 ML 问题,我们不再需要“自己编写”代码。 此 PyData 2014 演讲 有详细介绍。

Trent McConaghy,Solido Design Automation Inc. 创始人

INFONEA#

我们在基于内存的商业智能软件 INFONEA® 中使用 scikit-learn 进行快速原型设计和定制数据科学解决方案。作为经过良好记录且全面的最先进算法和管道方法集合,scikit-learn 使我们能够提供灵活且可扩展的科学分析解决方案。因此,scikit-learn 在实现自助式商业分析中数据科学技术的强大集成方面具有极大的价值。

Thorsten Kranz,Coma Soft AG 数据科学家。

Dataiku#

我们的软件 Data Science Studio (DSS) 使用户能够创建将 ETL 与机器学习相结合的数据服务。我们的机器学习模块集成了许多 scikit-learn 算法。scikit-learn 库与 DSS 完美集成,因为它提供了适用于几乎所有业务案例的算法。我们的目标是提供一个透明且灵活的工具,使优化构建数据服务、准备数据和对所有类型数据训练机器学习算法的耗时方面变得更加容易。

Florian Douetteau,Dataiku 首席执行官

Otto Group#

在奥托集团,全球五大 B2C 在线零售商之一,我们从数据探索到机器学习应用程序的开发,再到这些服务的生产部署,在日常工作的所有方面都使用 scikit-learn。它帮助我们解决从电子商务到物流的各种机器学习问题。它一致的 API 使我们能够围绕它构建 Palladium REST-API 框架 并持续交付基于 scikit-learn 的服务。

Christian Rammig,奥托集团数据科学主管

Zopa#

在 Zopa,第一个点对点借贷平台,我们广泛使用 scikit-learn 来运营业务并优化用户体验。它为我们参与信贷风险、欺诈风险、营销和定价的机器学习模型提供动力,并且已被用于发放至少 10 亿英镑的 Zopa 贷款。它文档齐全、功能强大且易于使用。我们感谢它提供的功能,以及它使我们能够完成让金钱变得简单和公平的使命。

Vlasios Vasileiou,Zopa 数据科学主管

MARS#

scikit-Learn 是火星机器学习生态系统不可或缺的一部分。无论我们是在为宠物食品设计更好的食谱还是仔细分析我们的可可供应链,scikit-Learn 都被用作快速原型设计想法并将其投入生产的工具。这使我们能够更好地了解和满足全球消费者的需求。scikit-Learn 功能丰富的工具集易于使用,并为我们的同事提供了他们每天解决业务挑战所需的技能。

迈克尔·菲茨克,下一代技术高级主管,玛氏公司。

巴黎银行嘉信理财#

巴黎银行嘉信理财在生产中使用 scikit-learn 来构建多个机器学习模型。我们内部的开发人员和数据科学家社区自 2015 年以来一直在使用 scikit-learn,原因包括:开发质量、文档和贡献治理,以及庞大的贡献者社区。我们甚至在内部模型风险治理中明确提及使用 scikit-learn 的管道,将其作为减少运营风险和过度拟合风险的良好实践之一。为了支持开源软件开发,特别是 scikit-learn 项目,我们决定自 2018 年成立以来参与 Inria 基金会的 scikit-learn 联盟。

塞巴斯蒂安·科诺特,首席数据科学家,巴黎银行嘉信理财