谁正在使用scikit-learn?#

摩根大通#

Scikit-learn是摩根大通Python机器学习工具包中不可或缺的一部分。它在银行的各个部门被广泛用于分类、预测分析以及许多其他机器学习任务。其直观的API、丰富的算法以及高质量的文档相结合,使得scikit-learn既易于上手又功能强大。

Stephen Simmons,摩根大通雅典娜研究部副总裁

Spotify#

Scikit-learn提供了一个工具箱,其中包含许多最先进模型的可靠实现,并且易于将其集成到现有应用程序中。我们一直在Spotify大量使用它进行音乐推荐,我认为它是迄今为止我见过的设计最出色的机器学习软件包。

Erik Bernhardsson,Spotify音乐发现与机器学习工程经理

Inria#

在Inria,我们使用scikit-learn支持许多团队的前沿基础研究:Parietal用于神经影像,Lear用于计算机视觉,Visages用于医学图像分析,Privatics用于安全。该项目是一个出色的工具,可以在学术环境中解决机器学习的复杂应用,因为它高性能且功能多样,同时易于使用且文档完善,这使得它非常适合研究生。

Gaël Varoquaux,Parietal研究员

betaworks#

Betaworks是一家位于纽约的创业工作室,致力于开发新产品、发展公司并投资其他公司。在过去的8年里,我们推出了一些由社交数据分析驱动的服务,例如Bitly、Chartbeat、digg和Scale Model。Betaworks的数据科学团队一直将Scikit-learn用于各种任务。从探索性分析到产品开发,它是我们工具包中不可或缺的一部分。近期应用包括digg的新视频推荐系统,以及Poncho的动态启发式子空间聚类

Gilad Lotan,首席数据科学家

Hugging Face#

在Hugging Face,我们使用自然语言处理(NLP)和概率模型来生成有趣的对话式人工智能。尽管我们的一些NLP任务使用了深度神经网络,但scikit-learn仍然是我们日常机器学习工作的核心。其易用性和接口的可预测性,以及在需要时提供的直观数学解释,是其核心优势。我们在生产环境中使用多种scikit-learn模型,并且它们在操作上也非常令人满意。

Julien Chaumond,首席技术官

Evernote#

构建分类器通常是一个迭代过程,包括数据探索、特征选择(被认为具有某种预测能力的数据属性)、模型训练以及最终评估。对于许多此类任务,我们依赖于Python中出色的scikit-learn软件包。

阅读更多

Mark Ayzenshtat,增强智能副总裁

巴黎高等电信学院#

在巴黎高等电信学院,scikit-learn被用于机器学习入门和高级课程的实践环节和家庭作业。这些课程面向本科生和硕士生。scikit-learn的一大优势是其学习曲线平缓,使学生能够快速开始解决有趣且有启发性的问题。

Alexandre Gramfort,助理教授

Booking.com#

在Booking.com,我们将机器学习算法用于许多不同的应用,例如向客户推荐酒店和目的地、检测欺诈性预订或安排客户服务代理。Scikit-learn是我们实现预测任务标准算法时使用的工具之一。其API和文档都非常出色,使其易于使用。scikit-learn的开发者在将最先进的实现和新算法整合到软件包中方面做得非常出色。因此,scikit-learn提供了方便地访问各种算法的途径,使我们能够轻松找到适合特定任务的工具。

Melanie Mueller,数据科学家

AWeber#

scikit-learn工具包对于AWeber的数据分析与管理团队来说是不可或缺的。它使我们能够完成原本没有时间或资源完成的卓越工作。其文档非常出色,让新工程师能够快速评估并将多种不同算法应用于我们的数据。文本特征提取实用工具在处理AWeber大量电子邮件内容时非常有用。RandomizedPCA实现,以及Pipelining和FeatureUnions,使我们能够高效可靠地开发复杂的机器学习算法。

任何有兴趣了解AWeber如何在生产环境中部署scikit-learn的人,都应该查看AWeber的Michael Becker在PyData Boston上的演讲,可在mdbecker/pydata_2013获取。

Michael Becker,数据分析与管理忍者团队软件工程师

Yhat#

一致的API、详尽的文档和顶级的实现相结合,使scikit-learn成为我们在Python中最喜欢的机器学习软件包。scikit-learn使得任何人都能在Python中进行高级分析。在Yhat,我们让将这些模型集成到您的生产应用程序中变得轻而易举,从而消除了在分析工作生产化过程中遇到的不必要的开发时间。

Greg Lamp,联合创始人

Rangespan#

Python scikit-learn工具包是Rangespan数据科学团队的核心工具。它大量文档完善的模型和算法集合,使我们的数据科学家团队能够快速原型设计并迅速迭代,从而为我们的学习问题找到正确的解决方案。我们发现scikit-learn不仅是原型设计的正确工具,其细致且经过充分测试的实现也使我们有信心在生产环境中运行scikit-learn模型。

Jurgen Van Gael,数据科学总监

Birchbox#

在Birchbox,我们面临着电商领域常见的各种机器学习问题:产品推荐、用户聚类、库存预测、趋势检测等。Scikit-learn使我们能够试验多种模型,尤其是在新项目的探索阶段:数据可以以一致的方式传递;模型易于保存和重用;更新让我们随时了解模式发现研究社区的最新进展。Scikit-learn是我们团队的重要工具,以正确的方式用正确的语言构建。

Thierry Bertin-Mahieux,数据科学家

Bestofmedia Group#

Scikit-learn是我们在Bestofmedia进行所有机器学习相关工作的首选工具包。得益于其多样化、最先进的算法实现,我们将其用于各种任务(例如垃圾邮件过滤、广告点击预测、各种排名模型)。在实验室中,它加速了复杂数据管道的原型设计。在生产环境中,我可以说它已被证明足够健壮和高效,可以部署到业务关键组件中。

Eustache Diemert,首席科学家

Change.org#

在change.org,我们在生产系统中自动化使用scikit-learn的RandomForestClassifier,以驱动每周触达全球数百万用户的电子邮件精准投放。在实验室中,scikit-learn的易用性、性能以及所实现的算法的多样性,在为我们的机器学习需求提供单一可靠来源方面被证明是无价的。

Vijay Ramesh,Change.org数据/科学部门软件工程师

PHIMECA工程#

在PHIMECA工程,我们使用scikit-learn估计器作为昂贵数值模型(主要是有限元机械模型,但不限于此)的替代品,以加速我们基于仿真的决策制定框架中涉及的密集后处理操作。Scikit-learn的fit/predict API及其高效的交叉验证工具极大地简化了选择最佳拟合估计器的任务。我们还在培训课程中使用scikit-learn来演示概念。尽管机器学习理论上看似复杂,但学员们总是对scikit-learn的易用性印象深刻。

Vincent Dubourg,PHIMECA工程博士工程师

HowAboutWe#

在HowAboutWe,尽管我们团队规模较小,但scikit-learn使我们能够实现广泛的机器学习技术,用于分析和生产环境。我们使用scikit-learn的分类算法来预测用户行为,例如,在潜在客户早期访问我们网站时,估计来自特定流量来源的潜在客户价值。此外,我们的用户资料主要由非结构化数据组成(对开放式问题的回答),因此我们使用scikit-learn的特征提取和降维工具,将这些非结构化数据转换为我们匹配系统的输入。

Daniel Weitzenfeld,HowAboutWe高级数据科学家

PeerIndex#

在PeerIndex,我们使用科学方法论来构建影响力图谱——一个独特的数据集,使我们能够识别谁真正有影响力以及在何种语境下有影响力。为此,我们必须解决一系列机器学习和预测建模问题。Scikit-learn已成为我们开发原型和快速取得进展的主要工具。从预测缺失数据、推文分类到社交媒体用户社区聚类,scikit-learn在各种应用中都证明了其用途。其非常直观的界面以及与其他Python工具的卓越兼容性,使其成为我们日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex高级数据科学家

DataRobot#

DataRobot正在构建下一代预测分析软件,以提高数据科学家生产力,而scikit-learn是我们系统中不可或缺的一部分。scikit-learn提供的多样化机器学习技术与可靠的实现相结合,使其成为Python机器学习的一站式库。此外,其一致的API、经过充分测试的代码和宽松的许可使我们能够在生产环境中使用它。scikit-learn确实为我们节省了数年本需要自己完成的工作,才能将产品推向市场。

Jeremy Achin,DataRobot公司首席执行官兼联合创始人

OkCupid#

我们在OkCupid使用scikit-learn来评估和改进我们的匹配系统。它拥有的丰富功能,尤其是预处理工具,意味着我们可以将其用于各种各样的项目,并且其性能足以处理我们需要筛选的海量数据。此外,文档也非常详尽,这使得该库非常易于使用。

David Koh - OkCupid高级数据科学家

Lovely#

在Lovely,我们致力于提供最佳的公寓市场平台,并尊重我们的用户和房源信息。从理解用户行为、改善数据质量到检测欺诈,scikit-learn是我们获取洞察、进行预测建模和改进产品的常用工具。易于阅读的文档和直观的API架构,使机器学习对广泛的Python开发者来说既可探索又易于上手。我不断推荐更多的开发者和科学家尝试scikit-learn。

Simon Frid - Lovely数据科学家负责人

Data Publica#

Data Publica为商业和营销团队构建了一个名为C-Radar的新预测销售工具。我们广泛使用scikit-learn通过聚类对客户进行细分,并根据过去的合作成功或失败来预测未来的客户。我们还借助scikit-learn及其机器学习算法实现,利用公司网站沟通对其进行分类。最终,机器学习使得检测传统工具无法发现的微弱信号成为可能。得益于scikit-learn框架的卓越质量,所有这些复杂的任务都通过简单直观的方式完成。

Guillaume Lebourgeois & Samuel Charron - Data Publica数据科学家

Machinalis#

Scikit-learn是Machinalis所有机器学习项目的基石。它拥有一致的API、广泛的算法选择以及大量处理样板代码的辅助工具。我们已在生产环境中将其用于各种项目,包括点击率预测、信息提取,甚至数羊!

事实上,我们使用它的频率如此之高,以至于我们开始将常见用例固化为Python软件包,其中一些已开源,例如FeatureForge。用一句话形容scikit-learn:太棒了。

Rafael Carrascosa,首席开发者

solido#

Scikit-learn正在通过Solido助力摩尔定律。Solido创建的计算机辅助设计工具被前20大半导体公司和晶圆厂中的大多数使用,用于设计智能手机、汽车等内部的尖端芯片。Scikit-learn帮助为Solido的稀有事件估计、最坏情况验证、优化等算法提供支持。在Solido,我们特别青睐scikit-learn的高斯过程模型、大规模正则化线性回归和分类库。Scikit-learn提高了我们的生产力,因为对于许多机器学习问题,我们不再需要“自行编写”代码。这篇PyData 2014演讲中有详细信息

Trent McConaghy,Solido设计自动化公司创始人

INFONEA#

我们使用scikit-learn进行快速原型设计和定制化数据科学解决方案,应用于我们基于内存的商业智能软件INFONEA®。作为文档完善且全面收集了最先进算法和管道方法的库,scikit-learn使我们能够提供灵活且可扩展的科学分析解决方案。因此,scikit-learn在实现数据科学技术与自助式业务分析强大集成方面具有巨大的价值。

Thorsten Kranz,Coma Soft AG数据科学家

Dataiku#

我们的软件,数据科学工作室(DSS),使用户能够创建结合了ETL与机器学习的数据服务。我们的机器学习模块集成了许多scikit-learn算法。scikit-learn库与DSS完美集成,因为它为几乎所有业务场景提供算法。我们的目标是提供一个透明且灵活的工具,使得优化构建数据服务、准备数据以及在所有类型数据上训练机器学习算法的耗时环节变得更加容易。

Florian Douetteau,Dataiku首席执行官

奥托集团#

在奥托集团,作为全球五大B2C在线零售商之一,我们日常工作的各个方面都使用scikit-learn,从数据探索到机器学习应用的开发再到这些服务的生产部署。它帮助我们解决从电子商务到物流领域的机器学习问题。其一致的API使我们能够围绕它构建Palladium REST-API框架,并持续交付基于scikit-learn的服务。

Christian Rammig,奥托集团数据科学主管

Zopa#

在Zopa,作为首个点对点(P2P)借贷平台,我们广泛使用scikit-learn来运营业务并优化用户体验。它为我们涉及信用风险、欺诈风险、营销和定价的机器学习模型提供支持,并已用于发放至少10亿英镑的Zopa贷款。它文档非常完善、功能强大且易于使用。我们感谢它提供的能力,并使我们能够实现让资金简单公平的使命。

Vlasios Vasileiou,Zopa数据科学主管

玛氏#

Scikit-Learn是玛氏机器学习生态系统中不可或缺的一部分。无论是设计更好的宠物食品配方,还是密切分析我们的可可供应链,Scikit-Learn都被用作快速原型设计并将想法投入生产的工具。这使我们能够更好地理解并满足全球消费者的需求。Scikit-Learn功能丰富的工具集易于使用,并为我们的员工配备了应对日常业务挑战所需的能力。

Michael Fitzke,玛氏公司下一代技术高级主管

法国巴黎银行保险#

法国巴黎银行保险在其生产环境中使用了多个机器学习模型,其中就包括scikit-learn。自2015年以来,我们的内部开发者和数据科学家社区一直在使用scikit-learn,原因有以下几点:其开发质量、文档和贡献治理,以及贡献社区的庞大规模。我们甚至在内部模型风险治理中明确提及使用scikit-learn的管道,作为我们降低操作风险和过拟合风险的良好实践之一。为了支持开源软件开发,特别是scikit-learn项目,我们决定自2018年La Fondation Inria成立以来参与scikit-learn联盟。

Sébastien Conort,法国巴黎银行保险首席数据科学家