版本 0.15#

版本 0.15.2#

2014 年 9 月 4 日

错误修复#

版本 0.15.1#

2014 年 8 月 1 日

错误修复#

  • 在多输出分类问题上,使 cross_validation.cross_val_score 使用 cross_validation.KFold 而非 cross_validation.StratifiedKFold。由 Nikolay Mayorov 贡献。

  • 支持 preprocessing.LabelBinarizer 中的未见标签,以恢复 0.14.1 的默认行为以实现向后兼容性。由 Hamzeh Alsalhi 贡献。

  • 修复了 cluster.KMeans 停止准则,该准则阻止了早期收敛检测。由 Edward Raff 和 Gael Varoquaux 贡献。

  • 修复了 multiclass.OneVsOneClassifier 在类内投票级别出现平局时的行为,通过计算正确的每类预测分数总和。由 Andreas Müller 贡献。

  • 使 cross_validation.cross_val_scoregrid_search.GridSearchCV 接受 Python 列表作为输入数据。这对于文本处理管道的交叉验证和模型选择特别有用。由 Andreas Müller 贡献。

  • 修复了大多数估计器的输入数据检查,以接受实现 NumPy __array__ 协议的输入数据。对于最近版本的 pandas,pandas.Seriespandas.DataFrame 就是这种情况。由 Gael Varoquaux 贡献。

  • 修复了 linear_model.SGDClassifierclass_weight="auto" 在具有非连续标签的数据上的回归问题。由 Olivier Grisel 贡献。

版本 0.15#

2014 年 7 月 15 日

亮点#

  • 代码库的各个方面的速度和内存改进

  • 随机森林(和 extra trees)的巨大速度和内存改进,也更好地受益于并行计算。

  • BernoulliRBM 的增量拟合

  • 添加了 cluster.AgglomerativeClustering,用于具有平均链接、完整链接和 ward 策略的层次凝聚聚类。

  • 添加了 linear_model.RANSACRegressor,用于鲁棒回归模型。

  • 添加了使用 manifold.TSNE 进行的降维,可用于可视化高维数据。

更新日志#

新功能#

增强功能#

文档改进#

  • “使用文本数据”教程现已纳入主文档的教程部分。包括练习和教程演示的框架。原始教程由 Olivier Grisel、Lars Buitinck 等多位作者创建。教程集成到 scikit-learn 文档中由 Jaques Grobler 完成。

  • 添加了 计算性能 文档。讨论和示例涉及预测延迟/吞吐量以及影响速度的不同因素。有关构建更快模型以及在速度和预测能力之间选择相关折衷方案的附加提示。由 Eustache Diemert 贡献。

错误修复#

  • 修复了 decomposition.MiniBatchDictionaryLearning 中的错误:partial_fit 未正常工作。

  • 修复了 linear_model.stochastic_gradient 中的错误:l1_ratio 被用作 (1.0 - l1_ratio)

  • 修复了 multiclass.OneVsOneClassifier 中带有字符串标签的错误。

  • 修复了 LassoCVElasticNetCV 中的错误:当 precompute=Trueprecompute="auto"n_samples > n_features 时,它们不会预计算 Gram 矩阵。由 Manoj Kumar 贡献。

  • 修复了 feature_selection.f_regression 中当变量未中心化时自由度的不正确估计。由 Virgile Fritsch 贡献。

  • 修复了 pre_dispatch != "all"(例如,在 cross_val_score 中)并行处理中的竞争条件。由 Olivier Grisel 贡献。

  • 当没有给定样本时,在 cluster.FeatureAgglomerationcluster.WardAgglomeration 中引发错误,而不是返回无意义的聚类。

  • 修复了 gradient_boosting.GradientBoostingRegressorloss='huber' 时的错误:gamma 可能没有初始化。

  • 修复了当使用 sample_weight != None 和/或 bootstrap=True 拟合时,随机树森林计算的特征重要性。由 Gilles Louppe 贡献。

API 更改摘要#

  • sklearn.hmm 已弃用。计划在 0.17 版本中删除。

  • 在弃用后,covariance.EllipticEnvelop 的使用现已删除。请改用 covariance.EllipticEnvelope

  • cluster.Ward 已弃用。请改用 cluster.AgglomerativeClustering

  • cluster.WardClustering 已弃用。请改用

  • cluster.AgglomerativeClustering

  • cross_validation.Bootstrap 已弃用。推荐改用 cross_validation.KFoldcross_validation.ShuffleSplit

  • 直接支持序列列表(或列表的列表)多标签格式已弃用。要将转换为支持的二进制指示器矩阵格式,请使用 preprocessing.MultiLabelBinarizer。由 Joel Nothman 贡献。

  • 根据概率 PCA 模型为 decomposition.PCA 添加了 score 方法,并弃用了 score 实现不正确的 ProbabilisticPCA 模型。现在计算也利用了矩阵求逆引理以加快计算速度。由 Alexandre Gramfort 贡献。

  • decomposition.FactorAnalysis 的 score 方法现在返回样本的平均对数似然。使用 score_samples 获取每个样本的对数似然。由 Alexandre Gramfort 贡献。

  • 从交叉验证生成器生成布尔掩码(设置 indices=False)已弃用。对掩码的支持将在 0.17 中删除。自 0.10 版以来,生成器默认生成索引数组。由 Joel Nothman 贡献。

  • 包含 dtype=object 的字符串(如 Pandas 中使用)的一维数组现在被认为是有效的分类目标。这修复了 0.13 版中某些分类器的一个回归问题。由 Joel Nothman 贡献。

  • 修复了 RandomizedPCA 中错误的 explained_variance_ratio_ 属性。由 Alexandre Gramfort 贡献。

  • linear_model.ElasticNetCVlinear_model.LassoCV 中,为每个 l1_ratio 而不是 mean_l1_ratio 拟合 alpha 值。如果提供的 l1_ratio 是长度大于一的一维数组类对象,这将把 alphas_ 的形状从 (n_alphas,) 更改为 (n_l1_ratio, n_alphas)。由 Manoj Kumar 贡献。

  • 修复了 linear_model.ElasticNetCVlinear_model.LassoCV 在拟合截距且输入数据稀疏时的错误。自动 alpha 网格计算不正确,且使用 normalize 进行缩放时也存在错误。由 Manoj Kumar 贡献。

  • 修复了决策树、随机森林和梯度树提升在每次分割时抽取的最大特征数(max_features)错误。以前,抽取的特征数在分割中有一个非常量特征后才开始计数。此错误修复将影响这些算法在存在常量特征时的计算和泛化性能。要恢复以前的泛化性能,应修改 max_features 的值。由 Arnaud Joly 贡献。

  • 修复了 ensemble.ExtraTreesClassifierensemble.ExtraTreesRegressor 在每次分割时抽取的最大特征数(max_features)错误。以前,只有分割中的非常量特征被计为已抽取。现在常量特征也被计为已抽取。此外,必须至少有一个特征是非常量才能进行有效的分割。此错误修复将影响 extra trees 在存在常量特征时的计算和泛化性能。要恢复以前的泛化性能,应修改 max_features 的值。由 Arnaud Joly 贡献。

  • 修复了 utils.class_weight.compute_class_weightclass_weight=="auto" 时的错误。以前,它对非整数 dtype 输入无效,并且返回的加权数组不正确。由 Manoj Kumar 贡献。

  • 修复了 cross_validation.Bootstrapn_train + n_test > n 时返回 ValueError 的问题。由 Ronald Phlypo 贡献。

贡献者#

0.15 版本贡献者列表(按提交次数排序)。

  • 312 Olivier Grisel

  • 275 Lars Buitinck

  • 221 Gael Varoquaux

  • 148 Arnaud Joly

  • 134 Johannes Schönberger

  • 119 Gilles Louppe

  • 113 Joel Nothman

  • 111 Alexandre Gramfort

  • 95 Jaques Grobler

  • 89 Denis Engemann

  • 83 Peter Prettenhofer

  • 83 Alexander Fabisch

  • 62 Mathieu Blondel

  • 60 Eustache Diemert

  • 60 Nelle Varoquaux

  • 49 Michael Bommarito

  • 45 Manoj-Kumar-S

  • 28 Kyle Kastner

  • 26 Andreas Mueller

  • 22 Noel Dawe

  • 21 Maheshakya Wijewardena

  • 21 Brooke Osborn

  • 21 Hamzeh Alsalhi

  • 21 Jake VanderPlas

  • 21 Philippe Gervais

  • 19 Bala Subrahmanyam Varanasi

  • 12 Ronald Phlypo

  • 10 Mikhail Korobov

  • 8 Thomas Unterthiner

  • 8 Jeffrey Blackburne

  • 8 eltermann

  • 8 bwignall

  • 7 Ankit Agrawal

  • 7 CJ Carey

  • 6 Daniel Nouri

  • 6 Chen Liu

  • 6 Michael Eickenberg

  • 6 ugurthemaster

  • 5 Aaron Schumacher

  • 5 Baptiste Lagarde

  • 5 Rajat Khanduja

  • 5 Robert McGibbon

  • 5 Sergio Pascual

  • 4 Alexis Metaireau

  • 4 Ignacio Rossi

  • 4 Virgile Fritsch

  • 4 Sebastian Säger

  • 4 Ilambharathi Kanniah

  • 4 sdenton4

  • 4 Robert Layton

  • 4 Alyssa

  • 4 Amos Waterland

  • 3 Andrew Tulloch

  • 3 murad

  • 3 Steven Maude

  • 3 Karol Pysniak

  • 3 Jacques Kvam

  • 3 cgohlke

  • 3 cjlin

  • 3 Michael Becker

  • 3 hamzeh

  • 3 Eric Jacobsen

  • 3 john collins

  • 3 kaushik94

  • 3 Erwin Marsi

  • 2 csytracy

  • 2 LK

  • 2 Vlad Niculae

  • 2 Laurent Direr

  • 2 Erik Shilts

  • 2 Raul Garreta

  • 2 Yoshiki Vázquez Baeza

  • 2 Yung Siang Liau

  • 2 abhishek thakur

  • 2 James Yu

  • 2 Rohit Sivaprasad

  • 2 Roland Szabo

  • 2 amormachine

  • 2 Alexis Mignon

  • 2 Oscar Carlsson

  • 2 Nantas Nardelli

  • 2 jess010

  • 2 kowalski87

  • 2 Andrew Clegg

  • 2 Federico Vaggi

  • 2 Simon Frid

  • 2 Félix-Antoine Fortin

  • 1 Ralf Gommers

  • 1 t-aft

  • 1 Ronan Amicel

  • 1 Rupesh Kumar Srivastava

  • 1 Ryan Wang

  • 1 Samuel Charron

  • 1 Samuel St-Jean

  • 1 Fabian Pedregosa

  • 1 Skipper Seabold

  • 1 Stefan Walk

  • 1 Stefan van der Walt

  • 1 Stephan Hoyer

  • 1 Allen Riddell

  • 1 Valentin Haenel

  • 1 Vijay Ramesh

  • 1 Will Myers

  • 1 Yaroslav Halchenko

  • 1 Yoni Ben-Meshulam

  • 1 Yury V. Zaytsev

  • 1 adrinjalali

  • 1 ai8rahim

  • 1 alemagnani

  • 1 alex

  • 1 benjamin wilson

  • 1 chalmerlowe

  • 1 dzikie drożdże

  • 1 jamestwebber

  • 1 matrixorz

  • 1 popo

  • 1 samuela

  • 1 François Boulogne

  • 1 Alexander Measure

  • 1 Ethan White

  • 1 Guilherme Trein

  • 1 Hendrik Heuer

  • 1 IvicaJovic

  • 1 Jan Hendrik Metzen

  • 1 Jean Michel Rouly

  • 1 Eduardo Ariño de la Rubia

  • 1 Jelle Zijlstra

  • 1 Eddy L O Jansson

  • 1 Denis

  • 1 John

  • 1 John Schmidt

  • 1 Jorge Cañardo Alastuey

  • 1 Joseph Perla

  • 1 Joshua Vredevoogd

  • 1 José Ricardo

  • 1 Julien Miotte

  • 1 Kemal Eren

  • 1 Kenta Sato

  • 1 David Cournapeau

  • 1 Kyle Kelley

  • 1 Daniele Medri

  • 1 Laurent Luce

  • 1 Laurent Pierron

  • 1 Luis Pedro Coelho

  • 1 DanielWeitzenfeld

  • 1 Craig Thompson

  • 1 Chyi-Kwei Yau

  • 1 Matthew Brett

  • 1 Matthias Feurer

  • 1 Max Linke

  • 1 Chris Filo Gorgolewski

  • 1 Charles Earl

  • 1 Michael Hanke

  • 1 Michele Orrù

  • 1 Bryan Lunt

  • 1 Brian Kearns

  • 1 Paul Butler

  • 1 Paweł Mandera

  • 1 Peter

  • 1 Andrew Ash

  • 1 Pietro Zambelli

  • 1 staubda